CN105045780B

CN105045780B - 一种发票字条语义信息的识别方法及装置

Info

Publication number: CN105045780B
Application number: CN201510416723.4A
Authority: CN
Inventors: 陈健庆; 李锦鹏
Original assignee: Guangzhou Dunhe Information Technology Co Ltd
Current assignee: Guangzhou Dunhe Information Technology Co Ltd
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2017-12-26
Anticipated expiration: 2035-07-15
Also published as: CN105045780A

Abstract

本发明提出了一种发票字条语义信息的识别方法，包括如下步骤：建立训练数据库，收集所有不同格式的发票并保存到所述训练数据库中；每种格式的发票均包括多个字条；对所述训练数据库中的发票中所有字条进行包围盒的标识；所述包围盒包括识别的内容和语义信息分类；接收需要识别的发票，将其分别与所述训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票；识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。本发明还涉及一种实现上述发票字条语义信息的识别方法的装置。实施本发明的发票字条语义信息的识别方法及装置，具有以下有益效果：能自动化识别发票的各种语义信息。

Description

一种发票字条语义信息的识别方法及装置

技术领域

本发明涉及发票识别领域，特别涉及一种发票字条语义信息的识别方法及装置。

背景技术

OCR识别技术能够将图片转换为文字，但是系统不能识别文字属于什么类别。譬如100这三个数字，有可能是发票金额，有可能是发票代码。这里我们将如何区分识别内容的类编定义为语义分析。如何从语义角度分析发票的内容，这是个技术难点。传统技术需要人工收集训练数据，采集大量不同发票格式。随着时间的变化，发票的格式也有相应的变化，需要增量收集不同的发票，系统不存在的发票格式暂时无法识别。最主要的问题是系统无法自动化识别发票的各种语义信息，例如：金额、抬头和开票人等等。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述无法自动化识别发票的各种语义信息的缺陷，提供一种能自动化识别发票的各种语义信息的发票字条语义信息的识别方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种发票字条语义信息的识别方法，包括如下步骤：

A)建立训练数据库，收集所有不同格式的发票并保存到所述训练数据库中；每种格式的发票均包括多个字条；

B)对所述训练数据库中的发票中所有字条进行包围盒的标识；所述包围盒包括识别的内容和语义信息分类；

C)接收需要识别的发票，将其分别与所述训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票；

D)识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。

在本发明所述的发票字条语义信息的识别方法中，所述步骤C)进一步包括：

C1)接收需要识别的发票，查找所述训练数据库中的包围盒；

C2)将所述查找的包围盒套在所述需要识别的发票上；

C3)采用开源OCR识别引擎对被所述包围盒套住的字条进行识别；

C4)计算所述识别出的字条与所述包围盒所包含的字条之间的相似度；

C5)判断是否已经遍历所述训练数据中的所有包围盒，如是，对所有的相似度进行比较，找出相似度最大的字条；否则，从所述训练数据库中查找下一个包围盒，并返回步骤C2)。

在本发明所述的发票字条语义信息的识别方法中，所述步骤D)进一步包括：

D1)获取所述相似度最大的字条所对应的包围盒；

D2)根据所述相似度最大的字条所对应的包围盒，识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。

在本发明所述的发票字条语义信息的识别方法中，所述步骤C4)进一步包括：

C41)计算出所述识别出的字条中每个字符的出现概率及其数量的乘积；

C42)将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。

在本发明所述的发票字条语义信息的识别方法中，所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人；所述字符包括汉字、拉丁字母或/和数字。

本发明还涉及一种实现上述发票字条语义信息的识别方法的装置，包括：

数据库建立单元：用于建立训练数据库，收集所有不同格式的发票并保存到所述训练数据库中；每种格式的发票均包括多个字条；

标识单元：用于对所述训练数据库中的发票中所有字条进行包围盒的标识；所述包围盒包括识别的内容和语义信息分类；

匹配单元：用于接收需要识别的发票，将其分别与所述训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票；

识别分类单元：用于识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类。

在本发明所述的装置中，所述匹配单元进一步包括：

包围盒查找模块：用于接收需要识别的发票，查找所述训练数据库中的包围盒；

位置对应模块：用于将所述查找的包围盒套在所述需要识别的发票上；

识别模块：用于采用开源OCR识别引擎对被所述包围盒套住的字条进行识别；

相似度计算模块：用于计算所述识别出的字条与所述包围盒所包含的字条之间的相似度；

遍历模块：用于判断是否已经遍历所述训练数据中的所有包围盒，如是，对所有的相似度进行比较，找出相似度最大的字条；否则，从所述训练数据库中查找下一个包围盒。

在本发明所述的装置中，所述识别分类单元进一步包括：

最大相似度包围盒获取模块：用于获取所述相似度最大的字条所对应的包围盒；

字条内容识别分类模块：用于根据所述相似度最大的字条所对应的包围盒，识别出所述需要识别的发票中的字条的内容并对其语义信息进行分类。

在本发明所述的装置中，所述相似度计算模块进一步包括：

乘积计算模块：用于计算出所述识别出的字条中每个字符的出现概率及其数量的乘积；

相加模块：用于将所述每个字符的出现概率及其数量的乘积进行相加得到所述识别出的字条与所述包围盒所包含的字条之间的相似度。

在本发明所述的装置中，所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人；所述字符包括汉字、拉丁字母或/和数字。

实施本发明的发票字条语义信息的识别方法及装置，具有以下有益效果：由于首先收集各种不同格式的发票，将其保存到训练数据库中，然后，人工标签训练数据库中发票所有字条的包围盒，当接收到需要识别的发票时，从训练数据库中找出与需要识别的发票最相似的发票(图片)，然后识别发票中每个字条的内容并对其语义信息进行分类，所以其能自动化识别发票的各种语义信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明发票字条语义信息的识别方法及装置一个实施例中方法的流程图；

图2为所述实施例中接收需要识别的发票，将其分别与训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票的具体流程图；

图3为所述实施例中识别出需要识别的发票中每个字条的内容并对其语义信息进行分类的具体流程图；

图4为所述实施例中计算识别出的字条与包围盒所包含的字条之间的相似度的具体流程图；

图5为所述实施例中装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明发票字条语义信息的识别方法及装置实施例中，其发票字条语义信息的识别方法的流程图如图1所示。图1中，该发票字条语义信息的识别方法包括如下步骤：

步骤S01建立训练数据库，收集所有不同格式的发票并保存到训练数据库中：本步骤中，建立一个训练数据库，收集所有不同格式的发票，并将其以图片的方式保存到训练数据库中。值得一提的是，训练数据库包含所有出现的发票，每种格式的发票均包括多个字条，所谓发票不同的格式，指的是每张发票中的字条在发票中的分布位置不同。例如：字条可以是发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人等等，值得一提的是，每种格式的发票中可以包括上述发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人中的部分几个或全部，每种格式的发票具体包括哪些字条，要根据不同的行业和用途来确定。

步骤S02对训练数据库中的发票中所有字条进行包围盒的标识：本步骤中，对训练数据库中的发票中所有字条进行包围盒的标识，也就是对每个发票中所有的字条都要标识包围盒，包围盒包括识别的内容和语义信息分类，比如：对发票代码进行包围盒标识时，在对应该字条的位置画一个外框，该字条的内容位于这个外框的内部，然后在这个外框的外部用文字标注为发票代码，这样就将一个包围盒标识好了，按照这样的方法将训练数据库中的每张图片所有字条都进行包围盒的标识。通过人工标签出所有字条的包围盒，这样就可以对日常用的发票进行识别，达到语义上面的分析。

步骤S03接收需要识别的发票，将其分别与训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票：本步骤中，接收需要识别的发票，将其分别与训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票，也就是当接收到需要识别的发票，需要匹配训练数据库中的每张图片格式，找出与需要识别的发票最相似的格式。

步骤S04识别出需要识别的发票中每个字条的内容并对其语义信息进行分类：本步骤中，识别出需要识别的发票中每个字条的内容并对其语义信息进行分类。值得一提的是，由于上述步骤S03中已经找到最相似的格式，也就是一旦格式匹配成功，本步骤就能将每个字条的语义信息的类别识别出来。由于标签训练数据库中发票所有字条的包围盒，当接收到需要识别的发票时，从训练数据库中找出与需要识别的发票最相似的发票(图片)，然后识别发票中每个字条的内容并对其语义信息进行分类，所以其能自动化识别发票的各种语义信息。

对于本实施例而言，上述步骤S03还可进一步细化，其细化后的流程图如图2所示。图2中，上述步骤S03进一步包括：

步骤S31接收需要识别的发票，查找训练数据库中的包围盒：本步骤中，接收需要识别的发票，查找训练数据库中的包围盒。

步骤S32将查找的包围盒套在需要识别的发票上：本步骤中，将查找的包围盒套在需要识别的发票上，也就是将包围盒的外框套在需要识别的发票上。

步骤S33采用开源OCR识别引擎对被包围盒套住的字条进行识别：本步骤中，采用开源OCR识别引擎对被包围盒套住的字条进行识别。

步骤S34计算识别出的字条与包围盒所包含的字条之间的相似度：本步骤中，计算识别出的字条与包围盒所包含的字条之间的相似度。后续会对本步骤进行详细描述。

步骤S35判断是否已经遍历训练数据中的所有包围盒：本步骤中，判断是否已经遍历训练数据中的所有包围盒，如果判断的结果为是，则执行步骤S37；否则，执行步骤S36。

步骤S36从训练数据库中查找下一个包围盒：如果上述步骤S35的判断结果为否，则执行本步骤。本步骤中，从训练数据库中查找下一个包围盒，并返回步骤S32。

步骤S37对所有的相似度进行比较，找出相似度最大的字条：如果上述步骤S35的判断结果为是，则执行本步骤。本步骤中，对所有的相似度进行比较，找出相似度最大的字条。

对于本实施例而言，上述步骤S04还可进一步细化，其细化后的流程图如图3所示。图3中，上述步骤S04进一步包括：

步骤S41获取相似度最大的字条所对应的包围盒：本步骤中，获取相似度最大的字条所对应的包围盒。

步骤S42根据相似度最大的字条所对应的包围盒，识别出需要识别的发票中的字条的内容并对其语义信息进行分类：由于包围盒包括识别的内容和语义信息分类，这样，本步骤中，就能根据相似度最大的字条所对应的包围盒，识别出需要识别的发票中的字条的内容并对其语义信息进行分类，语义信息的分类可以是发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人等等，这样就实现了自动化识别发票的各种语义信息。

对于本实施例而言，上述步骤S34还可进一步细化，其细化后的流程图如图4所示。图4中，上述步骤S34进一步包括：

步骤S341计算出识别出的字条中每个字符的出现概率及其数量的乘积：本步骤中，计算出识别出的字条中每个字符的出现概率及其数量的乘积。具体的，因为发票日期、发票抬头和发票金额等等不同的字条里面的字符分布是不一样的。识别结果可以根据每个字条的里面的字符出现概率相似度获取。上述提到的字符包括汉字、拉丁字母或/和数字等等。

比如训练数据库中，每个字条都可以统计出字符出现概率。例如字条“发票代码”，可以统计出prob(‘0’)＝0.1、prob(‘1’)＝0.1、prob(‘2’)＝0.1、prob(‘3’)＝0.1、prob(‘4’)＝0.1、prob(‘5’)＝0.1、prob(‘6’)＝0.1、prob(‘7’)＝0.1、prob(‘8’)＝0.1、prob(‘9’)＝0.1，其他如此类推，字条“发票抬头”可以是汉字的出现概率，这个概率分布不是固定的。其根据训练数据库的变化而动态变化。

步骤S342将每个字符的出现概率及其数量的乘积进行相加得到识别出的字条与包围盒所包含的字条之间的相似度：本步骤中，将每个字符的出现概率及其数量的乘积进行相加得到识别出的字条与包围盒所包含的字条之间的相似度。具体的，当识别出一个字条的内容的时候，如果要计算该识别出的字条与各种类别的字条的相似度，可利用下述公式：

Σ(prob(char)*num(char))

其中，char是指字符(包括汉字，数字，拉丁字母)，num(char)为char的数量，prob(char)指字符字条出现的概率。假如识别出一个字条的内容为0000001111，这个识别结果与字条“发票代码”的相似度为：

prob(‘0’)*6+prob(‘1’)*4＝1

根据相似度，可以为不同的识别结果定义是否属于发票金额，发票代码，发票抬头等语义信息。

本实施例还涉及一种实现上述发票字条语义信息的识别方法的装置，其结构示意图如图5所示。图5中，该装置包括数据库建立单元1、标识单元2、匹配单元3和识别分类单元4；其中，数据库建立单元1用于建立训练数据库，收集所有不同格式的发票并保存到训练数据库中；每种格式的发票均包括多个字条；字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大小或/和发票金额小写或/和开票人；标识单元2用于对训练数据库中的发票中所有字条进行包围盒的标识；包围盒包括识别的内容和语义信息分类；匹配单元3用于接收需要识别的发票，将其分别与训练数据库中每张发票的格式进行匹配，找出与其格式最相似的发票；识别分类单元4用于识别出需要识别的发票中每个字条的内容并对其语义信息进行分类。由于标签训练数据库中发票所有字条的包围盒，当接收到需要识别的发票时，从训练数据库中找出与需要识别的发票最相似的发票(图片)，然后识别发票中每个字条的内容并对其语义信息进行分类，所以其能自动化识别发票的各种语义信息。

本实施例中，匹配单元3进一步包括包围盒查找模块31、位置对应模块32、识别模块33、相似度计算模块34和遍历模块35；其中，包围盒查找模块31用于接收需要识别的发票，查找训练数据库中的包围盒；位置对应模块32用于将查找的包围盒套在需要识别的发票上；识别模块33用于采用开源OCR识别引擎对被包围盒套住的字条进行识别；相似度计算模块34用于计算识别出的字条与包围盒所包含的字条之间的相似度；遍历模块35用于判断是否已经遍历训练数据中的所有包围盒，如是，对所有的相似度进行比较，找出相似度最大的字条；否则，从训练数据库中查找下一个包围盒。

本实施例中，识别分类单元4进一步包括最大相似度包围盒获取模块41和字条内容识别分类模块42；其中，最大相似度包围盒获取模块41用于获取相似度最大的字条所对应的包围盒；字条内容识别分类模块42用于根据相似度最大的字条所对应的包围盒，识别出需要识别的发票中的字条的内容并对其语义信息进行分类。语义信息的分类可以是发票代码、发票号码、发票抬头、开票日期、发票金额大写、发票金额小写或开票人等等，这样就实现了自动化识别发票的各种语义信息。

本实施例中，相似度计算模块34进一步包括乘积计算模块341和相加模块342；其中，乘积计算模块341用于计算出识别出的字条中每个字符的出现概率及其数量的乘积；相加模块342用于将每个字符的出现概率及其数量的乘积进行相加得到识别出的字条与包围盒所包含的字条之间的相似度。上述字符包括汉字、拉丁字母或/和数字等等。

总之，在本实施例中，通过建立训练数据库，人工标签训练数据库中所有包围盒的语义信息，当接收到需要识别的发票时，从训练数据库中找出最相似的图片，然后自动识别出需要识别的发票中每个字条的内容以及分类。其解决了传统技术中不能自动化识别发票字条内容的类别问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发票字条语义信息的识别方法，其特征在于，包括如下步骤：

A)建立训练数据库，收集所有不同格式的发票并保存到所述训练数据库中；每种格式的发票均包括多个字条；所谓发票不同的格式，指的是每张发票中的字条在发票中的分布位置不同；

B)对所述训练数据库中的发票中所有字条进行包围盒的标识；所述包围盒包括识别的内容和语义信息分类；对发票代码进行包围盒标识时，在对应该字条的位置画一个外框，该字条的内容位于这个外框的内部，然后在这个外框的外部用文字标注为发票代码；通过人工标签出所有字条的包围盒；

D)识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类；

所述步骤C)进一步包括：

C1)接收需要识别的发票，查找所述训练数据库中的包围盒；

C2)将所述查找的包围盒套在所述需要识别的发票上；

C5)判断是否已经遍历所述训练数据中的所有包围盒，如是，对所有的相似度进行比较，找出相似度最大的字条；否则，从所述训练数据库中查找下一个包围盒，并返回步骤C2)；

所述步骤C4)进一步包括：

2.根据权利要求1所述的发票字条语义信息的识别方法，其特征在于，所述步骤D)进一步包括：

D1)获取所述相似度最大的字条所对应的包围盒；

3.根据权利要求1所述的发票字条语义信息的识别方法，其特征在于，所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人；所述字符包括汉字、拉丁字母或/和数字。

4.一种实现如权利要求1所述的发票字条语义信息的识别方法的装置，其特征在于，包括：

数据库建立单元：用于建立训练数据库，收集所有不同格式的发票并保存到所述训练数据库中；每种格式的发票均包括多个字条；所谓发票不同的格式，指的是每张发票中的字条在发票中的分布位置不同；

标识单元：用于对所述训练数据库中的发票中所有字条进行包围盒的标识；所述包围盒包括识别的内容和语义信息分类；对发票代码进行包围盒标识时，在对应该字条的位置画一个外框，该字条的内容位于这个外框的内部，然后在这个外框的外部用文字标注为发票代码；通过人工标签出所有字条的包围盒；

识别分类单元：用于识别出所述需要识别的发票中每个字条的内容并对其语义信息进行分类；

所述匹配单元进一步包括：

遍历模块：用于判断是否已经遍历所述训练数据中的所有包围盒，如是，对所有的相似度进行比较，找出相似度最大的字条；否则，从所述训练数据库中查找下一个包围盒；

所述相似度计算模块进一步包括：

5.根据权利要求4所述的装置，其特征在于，所述识别分类单元进一步包括：

6.根据权利要求4所述的装置，其特征在于，所述字条包括发票代码或/和发票号码或/和发票抬头或/和开票日期或/和发票金额大写或/和发票金额小写或/和开票人；所述字符包括汉字、拉丁字母或/和数字。