CN111209827B

CN111209827B - 一种基于特征检测的ocr识别票据问题的方法及系统

Info

Publication number: CN111209827B
Application number: CN201911404676.6A
Authority: CN
Inventors: 王淼; 金昌铉; 程俊春; 朱宇龙; 马博; 赵永国; 刘森; 黎晚晴; 张君; 梁惠欣
Original assignee: China Southern Power Grid Co Ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: China Southern Power Grid Co Ltd; Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-07-14
Anticipated expiration: 2039-12-31
Also published as: CN111209827A

Abstract

本发明公开了一种基于特征检测的OCR识别票据问题的方法及系统，通过对票据图像进行背景消除并去噪处理得到第一图像；对第一图像做投影变换并去除分隔符后识别字符得到票据文本；抽取票据文本的关键词组合；将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集；若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息，有效的解决了原始文件字迹清晰度、整洁度等较难识别问题，能够大批量的导入票据，并快速的对票据进行相似度识别，利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错，进一步提高准确率。根据定位出的风险点快速减少了审计的工作量，提升了此类信息化系统的用户体验。

Description

一种基于特征检测的OCR识别票据问题的方法及系统

技术领域

本公开涉及OCR图像识别、模式匹配领域，具体涉及一种基于特征检测的OCR识别票据问题的方法及系统。

背景技术

票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明，货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据，由于种类多种多样，故票据的模式匹配、定位和识别十分的困难；由于票据五花八门的种类，例如发票、机票、火车票、收据、凭条、存根、购物券等，这些不同的票据，特征词位置不一样，敏感词的表达形式也各有差异，数字的大小写也无规范，故如果票据数量多的话，在审计工作中，审计规则的内容集合，包括：发票类型、单位名称、金额的审计规则的集合，类别多种多样，故通过人工进行识别判断十分的困难，极易出错。

发明内容

本公开提供一种基于特征检测的OCR识别票据问题的方法及系统，通过对票据图像进行背景消除并去噪处理得到第一图像；对第一图像做投影变换并去除分隔符后识别字符得到票据文本；抽取票据文本的关键词组合；将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集；若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息，从而快速的定位并对票据中风险信息发出警报。

本公开的目的是针对上述问题，提供一种基于特征检测的OCR识别票据问题的方法及系统，具体包括以下步骤：

S100：读取票据图像文件得到票据图像；

S200：对票据图像进行背景消除；

S300：将背景消除后的票据图像进行中值滤波处理得到第一图像；

S400：对第一图像做投影变换并去除分隔符；

S500：在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本；

S600：抽取票据文本的关键词组合；

S700：计算关键词组合与知识库中的各个规则集的匹配度；

S800：将匹配度最高的规则集作为基准规则集；

S900：若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。

进一步地，在S100中，所述票据图像文件包括但不限于以PDF、jpg、jpeg、bmp等图像格式存储的票据图像，票据包括但不限于发票、机票、火车票、收据、凭条、存根、购物券。

进一步地，在S200中，对票据图像进行背景消除的方法为以下步骤:

S210：将票据图像的彩色图像转换成灰度图；

S220：根据票据图像的最高、最低灰度值对票据图像进行二值化处理，能够使票据图像的背景图基本置为0，以突出票据图像的票据区域；

S230：对票据图像作相邻像素灰度值相减，得到背景消除的票据图像，从而减小票据图像的背景影响。

进一步地，在S300中，将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为：由于票据图像的文字是像素点或短竖线构成，所以票据图像的背景噪声中大部分是孤立的噪声，采用的中值滤波器上滑动窗口，含有奇数个元素；将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替，中值滤波可以去除票据图像的这部分噪声；通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。

进一步地，在S400中，对第一图像做投影变换并去除分隔符的方法为以下步骤:

S410：从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置，其中，阈值T一般设置为大于图像中所有像素的平均值；

S420：分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。

进一步地，在S500中，在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:

AS510：将去除分隔符的第一图像进行归一化处理得到归一化图像；

AS520：将归一化图像进行网格化，对二值化的归一化图像的图像区域进行均匀的网格覆盖；

AS530：对归一化图像的各个网格填充处理得到填充对象的模式空间；

AS540：计算待识别字符的特征模式的基准构架和特征向量；基准构架为图像中字符在图像中的结构；

AS550：调节各个待识别字符的上、下、左、右和中心五个子模式的权重；权重默认为0.5，取值范围为0到1之间的小数；

AS560：以步骤AS550输入的模式为基准，依次载入各个字符，把一系列全局属性模式与待识别字符的向量作内积，将内积值最小的字符的区域作为识别的字符特征图像区域；

因此，通过待识别字符的模式特征点的占比进行取值，能够对字迹清晰度、整洁度等较难识别的图像更好地反应字符的特征。智能的实现了OCR识别纠错，进一步提高了准确率。

进一步地，在S500中，识别字符特征图像区域中的字符得到票据文本的方法为以下步骤:

BS510：如果K小于10且T<V_max，扫描票据图像的垂直投影,等距的将所有的大于阈值T的投影块分割出来，得到K个分割区数，i为0到K-1之间的正整数,以X_Start[i]和X_End[i]分别标记为第i个分割区数起始点和结束点，V_max为票据图像的字符区域垂直投影的最大值；

BS520：去除票据图像的分隔符号：如果K大于10，计算分隔符号的位置P[i]：

去除分隔符号P[i]的分割区数的字符，其中，i为0到K-1之间的正整数，Vertical[j]为票据图像的第j个字符区域的垂直投影区域。

BS530：根据最终识别的所有字符得到票据文本。

进一步地，在S600中，抽取票据文本的关键词组合的抽取关键词的方法为TF-IDF算法、HanLP算法、PageRank算法、TextRank算法任意一种关键词抽取方法。

进一步地，在S700中，计算关键词组合与知识库中的各个规则集的匹配度的方法为以下步骤:令票据文本为S，规则集为S_i，i为1到n之间的正整数，n为知识库中的规则集的数量，则通过S与S_i之间的语义距离来计算相似度D(S,S_i)＝1-Same(S,S_i)，其中，Same(S,S_i)表示S与S_i的匹配度，

其中，语句相似度w_ij的值的计算方法为，令票据文本S的关键词的任意组合为Key，S_i中对应的关键词为Key_j，freq_i,j表示关键词Key_j在S_i出现的频率，j代表关键词Key_j在S_i中出现第j次，j为1到n之间的正整数，则语句相似度w_ij的值为，

其中，m_i,j表示关键词Key在S_i中出现第j次的在知识库中的期望平均值，

其中：freq为关键词word在S出现的频率，freq_i,j表示关键词word_j在S_i出现的频率；

其中，S与S_i的匹配度Same(S,S_i)∈[0,1]，匹配度的值越小，表明匹配度越高，文本越相似，选取匹配度最高的规则集作为基准规则集，所述知识库包括了多个规则集，每个规则集包括了多个关键词，为审计规则的集合，包括：发票类型、单位名称、金额的审计规则的集合。

进一步地，在S900中，票据文本的审计内容信息包括但不限于发票类型、单位名称、金额；基准规则集预设的风险阈值为：发票类型、单位名称、金额的预设值，例如金额的风险阈值为10万,如果是发票类型、单位名称则判断是否与名称一致。

进一步地，在S900中，若票据文本的审计内容信息大于基准规则集预设的风险阈值则通过图形界面或者短信、即时信息发出警报到移动设备中。

本发明还提供了一种基于特征检测的OCR识别票据问题的系统，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

图像读取单元，用于读取票据图像文件得到票据图像；

图像预处理单元，用于对票据图像进行背景消除并去噪处理得到第一图像；

图像识别单元，用于对第一图像做投影变换并去除分隔符后识别字符得到票据文本；

关键词抽取单元，用于抽取票据文本的关键词组合；

关键词匹配单元，用于将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集；

风险警报单元，用于若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。

本公开的有益效果为：本发明公开了一种基于特征检测的OCR识别票据问题的方法，提升了票据图片到文本识别的准确性，有效的解决了原始文件字迹清晰度、整洁度等较难识别问题，能够大批量的导入票据，并快速的对票据进行相似度识别，极大的便利了审计人员或财会人员的业务工作，利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错，进一步提高准确率。，根据定位出的风险点快速减少了审计的工作量，提升了此类信息化系统的用户体验。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本公开的一种基于特征检测的OCR识别票据问题的方法的流程图；

图2所示为本公开实施方式的一种基于特征检测的OCR识别票据问题的系统。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种基于特征检测的OCR识别票据问题的方法的流程图，下面结合图1来阐述根据本公开的实施方式的方法。

本公开提出一种基于特征检测的OCR识别票据问题的方法，具体包括以下步骤：

AS100：读取票据图像文件得到票据图像；

AS200：对票据图像进行背景消除；

AS300：将背景消除后的票据图像进行中值滤波处理得到第一图像；

AS400：对第一图像做投影变换并去除分隔符；

AS500：在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本；

AS600：抽取票据文本的关键词组合；

AS700：计算关键词组合与知识库中的各个规则集的匹配度；

AS800：将匹配度最高的规则集作为基准规则集；

AS900：若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。

或执行以下步骤：

BS100：读取票据图像文件得到票据图像；

BS200：对票据图像进行背景消除；

BS300：将背景消除后的票据图像进行中值滤波处理得到第一图像；

BS400：对第一图像做投影变换并去除分隔符；

BS500：识别去除分隔符的第一图像中的字符得到票据文本；

BS600：抽取票据文本的关键词组合；

BS700：计算关键词组合与知识库中的各个规则集的匹配度；

BS800：将匹配度最高的规则集作为基准规则集；

BS900：若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息。

S210：将票据图像的彩色图像转换成灰度图；

进一步地，在S500中，识别去除分隔符的第一图像中的字符得到票据文本的方法为以下步骤:

S510：如果K小于10且T<V_max，扫描票据图像的垂直投影,等距的将所有的大于阈值T的投影块分割出来，得到K个分割区数，i为0到K-1之间的正整数,以X_Start[i]和X_End[i]分别标记为第i个分割区数起始点和结束点，V_max为票据图像的字符区域垂直投影的最大值；

S520：去除票据图像的分隔符号：如果K大于10，计算分隔符号的位置P[i]：

S530：根据最终识别的所有字符得到票据文本。

本公开的实施例提供的一种基于特征检测的OCR识别票据问题的系统，如图2所示为本公开的一种基于特征检测的OCR识别票据问题的系统结构图，该实施例的一种基于特征检测的OCR识别票据问题的系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于特征检测的OCR识别票据问题的系统实施例中的步骤。

所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

图像读取单元，用于读取票据图像文件得到票据图像；

关键词抽取单元，用于抽取票据文本的关键词组合；

所述一种基于特征检测的OCR识别票据问题的系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于特征检测的OCR识别票据问题的系统可运行的系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于特征检测的OCR识别票据问题的系统的示例，并不构成对一种基于特征检测的OCR识别票据问题的系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于特征检测的OCR识别票据问题的系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于特征检测的OCR识别票据问题的系统运行系统的控制中心，利用各种接口和线路连接整个一种基于特征检测的OCR识别票据问题的系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于特征检测的OCR识别票据问题的系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于特征检测的OCR识别票据问题的方法，其特征在于，所述方法包括以下步骤：

S100：读取票据图像文件得到票据图像；

S200：对票据图像进行背景消除；

S400：对第一图像做投影变换并去除分隔符；

S600：抽取票据文本的关键词组合；

S700：计算关键词组合与知识库中的各个规则集的匹配度；

S800：将匹配度最高的规则集作为基准规则集；

S900：若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息；

在S700中，计算关键词组合与知识库中的各个规则集的匹配度的方法为以下步骤:令票据文本为S，规则集为S_i，i为1到n之间的正整数，n为知识库中的规则集的数量，则通过S与S_i之间的语义距离来计算相似度D(S,S_i)＝1-Same(S,S_i)，其中，Same(S,S_i)表示S与S_i的匹配度，

其中，S与S_i的匹配度Same(S,S_i)∈[0,1]，匹配度的值越小，表明匹配度越高，文本越相似，选取匹配度最高的规则集作为基准规则集。

2.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S200中，对票据图像进行背景消除的方法为以下步骤:

S210：将票据图像的彩色图像转换成灰度图；

3.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S300中，将背景消除后的票据图像进行中值滤波处理得到第一图像的方法为：由于票据图像的文字是像素点或短竖线构成，所以票据图像的背景噪声中大部分是孤立的噪声，采用的中值滤波器上滑动窗口，含有奇数个元素；将窗口中心的票据图像的元素灰度值用窗口中各灰度值的中间数值来代替，中值滤波可以去除票据图像的这部分噪声；通过垂直投影法、水平投影法分别检测票据图像垂直和水平的位置得到第一图像。

4.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S400中，对第一图像做投影变换并去除分隔符的方法为以下步骤:

S410：从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置；

5.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S500中，在去除分隔符的第一图像中识别字符特征得到字符特征图像区域方法为以下步骤:

AS550：调节各个待识别字符的上、下、左、右和中心五个子模式的权重；

AS560：以步骤AS550输入的模式为基准，依次载入各个字符，把一系列全局属性模式与待识别字符的向量作内积，将内积值最小的字符的区域作为识别的字符特征图像区域。

6.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S500中，识别字符特征图像区域中的字符得到票据文本的方法为以下步骤:

去除分隔符号P[i]的分割区数的字符，其中，i为0到K-1之间的正整数，Vertical[j]为票据图像的第j个字符区域的垂直投影区域；

BS530：根据最终识别的所有字符得到票据文本。

7.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，所述知识库包括了多个规则集，每个规则集包括了多个关键词，为审计规则的集合，包括：发票类型、单位名称、金额的审计规则的集合。

8.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S900中，票据文本的审计内容信息包括但不限于发票类型、单位名称、金额；基准规则集预设的风险阈值为：发票类型、单位名称、金额的预设值。

9.根据权利要求1所述的一种基于特征检测的OCR识别票据问题的方法，其特征在于，在S900中，若票据文本的审计内容信息大于基准规则集预设的风险阈值则通过图形界面或者短信、即时信息发出警报到移动设备中。

10.一种基于特征检测的OCR识别票据问题的系统，其特征在于，所述系统包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下系统的单元中：

图像读取单元，用于读取票据图像文件得到票据图像；

关键词抽取单元，用于抽取票据文本的关键词组合；

风险警报单元，用于若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息；

所述将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集，包括：

令票据文本为S，规则集为S_i，i为1到n之间的正整数，n为知识库中的规则集的数量，则通过S与S_i之间的语义距离来计算相似度D(S,S_i)＝1-Same(S,S_i)，其中，Same(S,S_i)表示S与S_i的匹配度，