CN105005793B

CN105005793B - 一种发票字条自动识别录入的方法及装置

Info

Publication number: CN105005793B
Application number: CN201510416688.6A
Authority: CN
Inventors: 陈健庆; 李锦鹏
Original assignee: Guangzhou Dunhe Information Technology Co Ltd
Current assignee: Guangzhou Dunhe Information Technology Co Ltd
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2018-02-27
Anticipated expiration: 2035-07-15
Also published as: CN105005793A

Abstract

本发明提出了一种发票字条自动识别录入的方法及装置，方法包括：对每种格式的发票图片中的字条标记包围盒及所属类别后存到训练数据库中；检测需要识别的发票图片的位置；将每张发票图片中的包围盒套用到需要识别的发票图片上，对被包围盒套用的字条进行识别；将需要识别的发票图片与每种格式的发票图片进行匹配，将格式最匹配的发票图片的格式作为需要识别的发票图片的格式；对需要识别的发票图片中被格式最匹配的发票图片的包围盒套用的字条进行图片分层；识别图层，将识别分数最高的图层作为滤除公章后的字条。实施本发明的发票字条自动识别录入的方法及装置，具有以下有益效果：能识别发票中手写潦草字体、发票录入效率较高、识别效果较好。

Description

一种发票字条自动识别录入的方法及装置

技术领域

本发明涉及发票识别领域，特别涉及一种发票字条自动识别录入的方法及装置。

背景技术

传统的发票录入方法需要人工打字录入发票各种信息，包括抬头、金额、地址和消费项目等等。这些信息的录入需要大量时间。对于单位内部结帐，给财务管理都会造成大量不便。随着智能手机的普及，OCR(光学字符识别)技术可以大大减轻发票录入时间，做到实时报销等。识别后的结果还可以进行大数据分析，对员工或者客户的消费习惯进行分析和预测。由于OCR是一种具有挑战性的算法设计，目前只能做到对印刷体的识别，对其他的手写潦草等字体无法识别，手写潦草等字体还需要人工打字录入，造成发票录入效率较低，另外，OCR对光学摄像头也有依赖性，光学摄像头的运动模糊和背景光不足都会对识别结果造成不利的影响，造成识别效果较差。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述无法识别发票中手写潦草字体、发票录入效率较低、识别效果较差的缺陷，提供一种能识别发票中手写潦草字体、发票录入效率较高、识别效果较好的发票字条自动识别录入的方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种发票字条自动识别录入的方法，包括如下步骤：

A)建立训练数据库，采集各种不同格式的发票图片，并对每种格式的发票图片中的字条标记包围盒及所属类别后保存到所述训练数据库中；

B)接收需要识别的发票图片，并自动检测其位置；所述需要识别的发票图片包括多个字条；

C)将所述训练数据库中的每种格式的发票图片中的包围盒套用到所述需要识别的发票图片上面，并采用开源OCR引擎对被所述包围盒套用的所述需要识别的发票图片中的字条进行识别；

D)将所述需要识别的发票图片与所述训练数据库中每种格式的发票图片进行格式匹配，并找出格式最匹配的发票图片，将所述格式最匹配的发票图片的格式作为所述需要识别的发票图片的格式；

E)对所述需要识别的发票图片中被所述格式最匹配的发票图片的包围盒套用的字条进行图片分层，得到多个图层；

F)采用所述开源OCR引擎对每个所述图层进行识别，计算每个所述图层的识别分数，并将识别分数最高的图层作为滤除公章后的字条。

在本发明所述的发票字条自动识别录入的方法中，所述步骤B)进一步包括：

B1)接收所述需要识别的发票图片，并将其转换为图像矩阵；

B2)利用滑动窗口遍历所述图像矩阵，找出所述滑动窗口中最大的点乘值模板作为所述需要识别的发票图片的位置。

在本发明所述的发票字条自动识别录入的方法中，所述步骤D)进一步包括：

D1)统计所述训练数据库中每个字条的字符的出现概率；

D2)分别计算所述需要识别的发票图片上被所述包围盒套用的每个字条中字符的出现次数；

D3)分别计算所述每个字条的字符的出现概率和出现次数的乘积，并对每个所述乘积求和后除以所述需要识别的发票图片中被所述包围盒套用的字条的数量，分别得到所述需要识别的发票图片与所述训练数据库中每种格式的发票图片的相似度；

D4)找出所述训练数据库中相似度最大的发票图片，并将其作为所述需要识别的发票图片的格式。

在本发明所述的发票字条自动识别录入的方法中，所述步骤E)中采用K-均值聚类算法、层次聚类算法和自组织映射图聚类算法进行图片分层。

在本发明所述的发票字条自动识别录入的方法中，所述步骤F)进一步包括：

F1)采用所述开源OCR引擎对每个所述图层进行识别；

F2)计算每个所述图层中每个字符的出现概率及出现次数；

F3)分别将每个所述图层中每个字符的出现概率及出现次数进行相乘，并将乘积求和后分别得到每个图层的识别分数；

F4)找出识别分数最高的图层，并将其作为滤除公章后的字条。

本发明还涉及一种实现上述发票字条自动识别录入的方法的装置，包括：

训练数据库建立单元：用于建立训练数据库，采集各种不同格式的发票图片，并对每种格式的发票图片中的字条标记包围盒及所属类别后保存到所述训练数据库中；

发票图片位置检测单元：接收需要识别的发票图片，并自动检测其位置；所述需要识别的发票图片包括多个字条；

套用识别单元：用于将所述训练数据库中的每种格式的发票图片中的包围盒套用到所述需要识别的发票图片上面，并采用开源OCR引擎对被所述包围盒套用的所述需要识别的发票图片中的字条进行识别；

格式匹配单元：用于将所述需要识别的发票图片与所述训练数据库中每种格式的发票图片进行格式匹配，并找出格式最匹配的发票图片，将所述格式最匹配的发票图片的格式作为所述需要识别的发票图片的格式；

图片分层单元：用于对所述需要识别的发票图片中被所述格式最匹配的发票图片的包围盒套用的字条进行图片分层，得到多个图层；

公章过滤单元：用于采用所述开源OCR引擎对每个所述图层进行识别，计算每个所述图层的识别分数，并将识别分数最高的图层作为滤除公章后的字条。

在本发明所述的装置中，所述发票图片位置检测单元进一步包括：

图像矩阵转换模块：用于接收所述需要识别的发票图片，并将其转换为图像矩阵；

遍历位置查找模块：用于利用滑动窗口遍历所述图像矩阵，找出所述滑动窗口中最大的点乘值模板作为所述需要识别的发票图片的位置。

在本发明所述的装置中，所述格式匹配单元进一步包括：

出现概率统计模块：用于统计所述训练数据库中每个字条的字符的出现概率；

出现次数计算模块：用于分别计算所述需要识别的发票图片上被所述包围盒套用的每个字条中字符的出现次数；

相似度获取模块：用于分别计算所述每个字条的字符的出现概率和出现次数的乘积，并对每个所述乘积求和后除以所述需要识别的发票图片中被所述包围盒套用的字条的数量，分别得到所述需要识别的发票图片与所述训练数据库中每种格式的发票图片的相似度；

最大相似度获取模块：用于找出所述训练数据库中相似度最大的发票图片，并将其作为所述需要识别的发票图片的格式。

在本发明所述的装置中，所述图片分层单元中采用K-均值聚类算法、层次聚类算法和自组织映射图聚类算法进行图片分层。

在本发明所述的装置中，所述公章过滤单元进一步包括：

图层识别模块：用于采用所述开源OCR引擎对每个所述图层进行识别；

出现概率及次数计算模块：用于计算每个所述图层中每个字符的出现概率及出现次数；

图层识别分数获取模块：用于分别将每个所述图层中每个字符的出现概率及出现次数进行相乘，并将乘积求和后分别得到每个图层的识别分数；

识别分数最高图层获取模块：用于找出识别分数最高的图层，并将其作为滤除公章后的字条。

实施本发明的发票字条自动识别录入的方法及装置，具有以下有益效果：由于将训练数据库中每种格式的发票图片中的字条标记包围盒及所属类别；将训练数据库中的每种格式的发票图片中的包围盒套用到需要识别的发票图片上面，并采用开源OCR引擎对被包围盒套用的所述需要识别的发票图片中的字条进行识别；从训练数据库中找出格式最匹配的发票图片，将其作为需要识别的发票图片的格式；然后对需要识别的发票图片中被格式最匹配的发票图片的包围盒套用的字条进行图片分层，采用开源OCR引擎对每个图层进行识别，将识别分数最高的图层作为滤除公章后的字条，滤除公章后的字条即为要录入的字条，这样，对于手写潦草等字体，就不需要人工录入，所以其能识别发票中手写潦草字体、发票录入效率较高、识别效果较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明发票字条自动识别录入的方法及装置一个实施例中方法的流程图；

图2为所述实施例中接收需要识别的发票图片，并自动检测其位置的具体流程图；

图3为所述实施例中将需要识别的发票图片与训练数据库中每种格式的发票图片进行格式匹配的具体流程图；

图4为所述实施例中采用开源OCR引擎对每个所述图层进行识别，计算每个图层的识别分数，并将识别分数最高的图层作为滤除公章后的字条的具体流程图；

图5为所述实施例中装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明发票字条自动识别录入的方法及装置实施例中，其发票字条自动识别录入的方法的流程图如图1所示。图1中，该发票字条自动识别录入的方法包括如下步骤：

步骤S01建立训练数据库，采集各种不同格式的发票图片，并对每种格式的发票图片中的字条标记包围盒及所属类别后保存到训练数据库中：本步骤中，在进行识别之前，需要建立训练数据库，采集各种不同格式的发票图片，采集人员对训练数据库中的每张发票图片中的字条标记包围盒及所属类别，并保存到训练数据库中。值得一提的是，每张发票图片的格式都不同。所谓发票图片个格式不同指的是每张发票图片中字条的分布位置不同。在标记包围盒时，对每个字条画一个外框，这个外框就是包围盒，字条的内容位于外框的内部，在外框的外部标记字条所属类别(发票代码、发票金额小写、发票金额大写、发票号码、开票人、开票日期或顾客名称等等)。

步骤S02接收需要识别的发票图片，并自动检测其位置：本步骤中，接收需要识别的发票图片，并自动检测其位置，值得一提的是，该需要识别的发票图片包括多个字条。关于如何检测需要识别的发票图片的位置，稍后会进行详细描述。

步骤S03将训练数据库中的每种格式的发票图片中的包围盒套用到需要识别的发票图片上面，并采用开源OCR引擎对被包围盒套用的需要识别的发票图片中的字条进行识别：本步骤中，将训练数据库中的每种格式的发票图片中的包围盒套用到需要识别的发票图片上面，并采用开源OCR引擎对被包围盒套用的需要识别的发票图片中的字条进行识别。

步骤S04将需要识别的发票图片与训练数据库中每种格式的发票图片进行格式匹配，并找出格式最匹配的发票图片，将格式最匹配的发票图片的格式作为需要识别的发票图片的格式：本步骤中，将需要识别的发票图片与训练数据库中每种格式的发票图片进行格式相似度匹配，在训练数据库中找出最相似的发票图片，也就是格式最匹配的发票图片，然后将该格式最匹配的发票图片的格式作为需要识别的发票图片的格式。这样就可以知道需要识别的发票图片中每个字条的所属类别。

步骤S05对需要识别的发票图片中被格式最匹配的发票图片的包围盒套用的字条进行图片分层，得到多个图层：一旦需要识别的发票图片的格式定下来之后，由于需要识别的发票图片上公章会对识别结果产生影响，本步骤中，本步骤中，采用聚类技术对需要识别的发票图片中被格式最匹配的发票图片的包围盒所套用的字条进行图片分层，这样就可以得到多个图层。具体是采用K-均值聚类算法、层次聚类算法和自组织映射图聚类算法进行图片分层。

步骤S06采用开源OCR引擎对每个图层进行识别，计算每个图层的识别分数，并将识别分数最高的图层作为滤除公章后的字条：本步骤中，采用开源OCR引擎对每个图层(也就是每个图层的图片)进行识别，计算每个图层的识别分数，根据需要识别的发票图片中字条里面的字符分布选取最好的结果，也即将识别分数最高的图层作为滤除公章后的字条，从而达到去除公章的效果。这也就是说将需要识别的发票图片转换成了文字内容，并对文字内容进行了分类(识也就是别出文字内容的所属类别)。这样，对于手写潦草等字体，就不需要人工录入，所以其能识别发票中手写潦草字体、发票录入效率较高、识别效果较好。

对于本实施例而言，上述步骤S02还可进一步细化，其细化后的流程图如图2所示。图2中，上述步骤S02进一步包括：

步骤S21接收需要识别的发票图片，并将其转换为图像矩阵：本步骤中，接收需要识别的发票图片，并将该需要识别的发票图片转换为图像矩阵。该图像矩阵为RGB(红绿蓝)图像矩阵。

步骤S22利用滑动窗口遍历图像矩阵，找出滑动窗口中最大的点乘值模板作为需要识别的发票图片的位置：本步骤中，利用滑动窗口遍历图像矩阵，找出滑动窗口中最大的点乘值模板作为需要识别的发票图片的位置，也就是寻找滑动窗口中最大的矩形图像作为需要识别的发票图片的位置。例如：假设需要识别的发票图片纸张的图像矩阵为：

可以利用滑动窗口遍历产生矩阵，找出最大的点乘值模板：

将上述最大的点乘值模板作为需要识别的发票图片纸张的位置，这样就可以定位出需要识别的发票图片的纸张的位置。这样便于后续的识别。

对于本实施例而言，上述步骤S04还可进一步细化，其细化后的流程图如图3所示。图3中，上述步骤S04进一步包括：

步骤S41统计训练数据库中每个字条的字符的出现概率：本步骤中，统计训练数据库中每个字条的字符(可以是汉字，数字，拉丁字母)的出现概率。该出现概率是对整个训练数据库的统计，而不是对单一发票图片的统计。例如：发票代码中字符的出现概率如下：prob(‘0’)＝0.1、prob(‘1’)＝0.1、prob(‘2’)＝0.1、prob(‘3’)＝0.1、prob(‘4’)＝0.1、prob(‘5’)＝0.1、prob(‘6’)＝0.1、prob(‘7’)＝0.1、prob(‘8’)＝0.1和prob(‘9’)＝0.1；发票号码中字符的出现概率如下：prob(‘0’)＝0.1、prob(‘1’)＝0.1、prob(‘2’)＝0.1、prob(‘3’)＝0.1、prob(‘4’)＝0.1、prob(‘5’)＝0.1、prob(‘6’)＝0.1、prob(‘7’)＝0.1、prob(‘8’)＝0.1和prob(‘9’)＝0.1。

步骤S42分别计算需要识别的发票图片上被包围盒套用的每个字条中字符的出现次数：本步骤中，分别计算需要识别的发票图片上被包围盒套用的每个字条中字符的出现次数。

步骤S43分别计算每个字条的字符的出现概率和出现次数的乘积，并对每个乘积求和后除以需要识别的发票图片中被包围盒套用的字条的数量，分别得到需要识别的发票图片与训练数据库中每种格式的发票图片的相似度：本步骤中，分别计算每个字条的字符的出现概率和出现次数的乘积，并对每个乘积求和后除以需要识别的发票图片中被包围盒套用的字条的数量，分别得到需要识别的发票图片与训练数据库中每种格式的发票图片的相似度。也就是Σ(prob(char)*num(char))/字条数量，其中，char为字符，prob(char)为字符的出现概率，num(char)为字符的出现次数。假设去匹配训练数据库中的一张发票图片，在需要识别的发票图片中使用开源OCR引擎获取到：发票代码为000123，发票号码为12555555，那么需要识别的发票图片和训练数据库中的发票图片的相似度为0.1*3+0.1*2+0.1*2+0.1*1+0.1*6＝1.4/2＝0.7。传统的识别技术，需要通过特征提取或使用识别器来识别字符。而本实施例采用字条的分布过滤结果，这样可以提高识别结果的精度，譬如发票金额小写只允许数字和小数点出现。本实施例还可自动对识别内容进行分类。

步骤S44找出训练数据库中相似度最大的发票图片，并将其作为需要识别的发票图片的格式：本步骤中，找出训练数据库中相似度最大的发票图片，并将其作为需要识别的发票图片的格式。

对于本实施例而言，上述步骤S06还可进一步细化，其细化后的流程图如图4所示。图4中，上述步骤S06进一步包括：

步骤S61采用开源OCR引擎对每个图层进行识别：本步骤中，采用开源OCR引擎对每个图层进行识别。

步骤S62计算每个图层中每个字符的出现概率及出现次数：本步骤中，计算每个图层中每个字符的出现概率及出现次数。

步骤S63分别将每个图层中每个字符的出现概率及出现次数进行相乘，并将乘积求和后分别得到每个图层的识别分数：本步骤中，分别将每个图层中每个字符的出现概率及出现次数进行相乘，并将乘积求和后分别得到每个图层的识别分数。

步骤S64找出识别分数最高的图层，并将其作为滤除公章后的字条：本步骤中，将每个图层的识别分数进行比较，找出识别分数最高的图层，并将其作为滤除公章后的字条。例如：去除公章后的字条如下：

fapiaodaima(发票代码)144011420721

fapiaojinexiaoxie(发票金额小写)108.90

fapiaojinedaxie(发票金额大写)壹佰零捌证欠角

fapiaohaoma(发票号码)49773974

kaipiaoren(开票人)金明贞

kaipiaoriqi(开票日期)2015年3月2日

fapiaotaitou(顾客名称)广州市丰成网络科技有限公司。

本实施例还涉及一种实现上述发票字条自动识别录入的方法的装置，其结构示意图如图5所示。图5中，该装置包括训练数据库建立单元1、发票图片位置检测单元2、套用识别单元3、格式匹配单元4、图片分层单元5和公章过滤单元6；其中，训练数据库建立单元1用于建立训练数据库，采集各种不同格式的发票图片，并对每种格式的发票图片中的字条标记包围盒及所属类别后保存到训练数据库中；发票图片位置检测单元2接收需要识别的发票图片，并自动检测其位置；该需要识别的发票图片包括多个字条；套用识别单元3用于将训练数据库中的每种格式的发票图片中的包围盒套用到所述需要识别的发票图片上面，并采用开源OCR引擎对被包围盒套用的需要识别的发票图片中的字条进行识别；格式匹配单元4用于将需要识别的发票图片与训练数据库中每种格式的发票图片进行格式匹配，并找出格式最匹配的发票图片，将格式最匹配的发票图片的格式作为需要识别的发票图片的格式；图片分层单元5用于对需要识别的发票图片中被格式最匹配的发票图片的包围盒套用的字条进行图片分层，得到多个图层；值得一提的是，图片分层单元5中采用K-均值聚类算法、层次聚类算法和自组织映射图聚类算法进行图片分层；公章过滤单元6用于采用开源OCR引擎对每个图层进行识别，计算每个图层的识别分数，并将识别分数最高的图层作为滤除公章后的字条。这样，对于手写潦草等字体，就不需要人工录入，所以其能识别发票中手写潦草字体、发票录入效率较高、识别效果较好。

本实施例中，发票图片位置检测单元2进一步包括图像矩阵转换模块21和遍历位置查找模块22；其中，图像矩阵转换模块21用于接收需要识别的发票图片，并将其转换为图像矩阵；遍历位置查找模块22用于利用滑动窗口遍历图像矩阵，找出滑动窗口中最大的点乘值模板作为需要识别的发票图片的位置。

本实施例中，格式匹配单元4进一步包括出现概率统计模块41、出现次数计算模块42、相似度获取模块43和最大相似度获取模块44；其中，出现概率统计模块41用于统计所述训练数据库中每个字条的字符的出现概率；出现次数计算模块42用于分别计算需要识别的发票图片上被包围盒套用的每个字条中字符的出现次数；相似度获取模块43用于分别计算每个字条的字符的出现概率和出现次数的乘积，并对每个乘积求和后除以需要识别的发票图片中被包围盒套用的字条的数量，分别得到需要识别的发票图片与训练数据库中每种格式的发票图片的相似度；最大相似度获取模块44用于找出训练数据库中相似度最大的发票图片，并将其作为需要识别的发票图片的格式。

本实施例中，公章过滤单元6进一步包括图层识别模块61、出现概率及次数计算模块62、图层识别分数获取模块63和识别分数最高图层获取模块64；其中，图层识别模块61用于采用开源OCR引擎对每个图层进行识别；出现概率及次数计算模块62用于计算每个图层中每个字符的出现概率及出现次数；图层识别分数获取模块63用于分别将每个图层中每个字符的出现概率及出现次数进行相乘，并将乘积求和后分别得到每个图层的识别分数；识别分数最高图层获取模块64用于找出识别分数最高的图层，并将其作为滤除公章后的字条。

总之，在本实施例中，训练数据库中发票图片的格式比较多，收集了市面上出现的所有发票格式，从训练数据库中找出格式最匹配的发票图片，将其作为需要识别的发票图片的格式；将识别分数最高的图层作为滤除公章后的字条，滤除公章后的字条即为要录入的字条，这样，对于手写潦草等字体，就不需要人工录入，大大降低发票的录入时间，所以其能识别发票中手写潦草字体、发票录入效率较高、识别效果较好，实现了对发票各个字条的自动化识别录入。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种发票字条自动识别录入的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的发票字条自动识别录入的方法，其特征在于，所述步骤B)进一步包括：

B1)接收所述需要识别的发票图片，并将其转换为图像矩阵；

3.根据权利要求1或2所述的发票字条自动识别录入的方法，其特征在于，所述步骤D)进一步包括：

D1)统计所述训练数据库中每个字条的字符的出现概率；

4.根据权利要求1或2所述的发票字条自动识别录入的方法，其特征在于，所述步骤E)中采用K-均值聚类算法、层次聚类算法和自组织映射图聚类算法进行图片分层。

5.根据权利要求1或2所述的发票字条自动识别录入的方法，其特征在于，所述步骤F)进一步包括：

F1)采用所述开源OCR引擎对每个所述图层进行识别；

F2)计算每个所述图层中每个字符的出现概率及出现次数；

6.一种实现如权利要求1所述的发票字条自动识别录入的方法的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述发票图片位置检测单元进一步包括：

8.根据权利要求6或7所述的装置，其特征在于，所述格式匹配单元进一步包括：

9.根据权利要求6或7所述的装置，其特征在于，所述图片分层单元中采用K-均值聚类算法、层次聚类算法和自组织映射图聚类算法进行图片分层。

10.根据权利要求6或7所述的装置，其特征在于，所述公章过滤单元进一步包括：