CN115147855A - 票据进行批量ocr识别方法及系统 - Google Patents

票据进行批量ocr识别方法及系统 Download PDF

Info

Publication number
CN115147855A
CN115147855A CN202110345101.2A CN202110345101A CN115147855A CN 115147855 A CN115147855 A CN 115147855A CN 202110345101 A CN202110345101 A CN 202110345101A CN 115147855 A CN115147855 A CN 115147855A
Authority
CN
China
Prior art keywords
matching
recognized
bill
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110345101.2A
Other languages
English (en)
Inventor
丁雯
王义山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jujun Technology Co ltd
Original Assignee
Shanghai Jujun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jujun Technology Co ltd filed Critical Shanghai Jujun Technology Co ltd
Priority to CN202110345101.2A priority Critical patent/CN115147855A/zh
Publication of CN115147855A publication Critical patent/CN115147855A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

一种票据进行批量OCR识别方法和系统。它包括:对待批量识别的票据图像进行预处理;获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。本发明就是充分利用相关性强的单据,通过语义关联分析及知识跨单据迁移,动态调整后续识别字符的权重,从而提高文本识别的正确率。

Description

票据进行批量OCR识别方法及系统
技术领域
本发明涉及图像识别领域,尤其票据进行批量OCR识别方法及系统。
背景技术
票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难。
虽然由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
中国南方电网有限责任公司在201911404676.6公开了一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,有效的解决了原始文件字迹清晰度、整洁度等较难识别问题,能够大批量的导入票据,并快速的对票据进行相似度识别,利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错,进一步提高准确率,根据定位出的风险点快速减少了审计的工作量,提升了此类信息化系统的用户体验。
该专利虽然解决了一张票据的99%的OCR识别问题,或者可以通过人工智能做针对性训练,但识别率还是无法达到99%,还是需要大量的人力录入及复核工作,并且因为过多的人工参与,不但准确率很难保证,而且容易造成信息泄露等安全风险以及数字金融服务时对必须规避人为操作造成的道德风险。
同时在对产业数字化时,经常需要对大量同种类型的票据进行批量化的扫描及文本识别结构化数据提取。这种情况下待识别的票据,是一种样式的票据,每张单据之间只是有部分内容是变动的,而且相邻的票据的内容,进行语义分析时,相关性一般比较大,如何提高同种类型票据批量化文本识别的正确率,这是本行业急需要解决的问题。
发明内容
本发明提供一种票据进行批量OCR识别方法,以解决同种类型票据批量化文本识别的正确率的问题。
一种票据进行批量OCR识别方法,它包括:
对待批量识别的票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
批量OCR识别之前还包括:预先通过人工标注每一模板的匹配锚点和关键词字符区,得到匹配模板库的匹配模板;
“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;
当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。
“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:
当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:
欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:
Figure BDA0002999865430000031
通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。
“通过跨票据计算相对应区域的汉明距离”进一步包括:
当前票据的待识别字符区域与N个关联票据分别计算对应区域的汉明距离,每一汉明距离的计算进一步包括:
当前票据的待识别字符区域的字符串或字符,当前关联票据的对应区域的字符串或字符进行汉明距离计算,汉明距离表示两个相同长度字对应位不同的数量,以d(x,y)表示两个字x,y之间的汉明距离,对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,即
Figure BDA0002999865430000041
这里i=0,1,..n-1,x,y都是n位的编码,
Figure BDA0002999865430000042
表示异或
两个等长字符串str1与str2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,由此得到当前票据的待识别字符区域与对应所述N个关联票据分别计算对应区域的最小替换次数。
对待批量识别的票据图像进行预处理进一步包括倾斜较正、图像二值化、图像去噪在内其中至少一种处理,
所述图像去噪进一步包括:通过对比相邻的像素点,判断一个像素点是否是噪点,以目标像素点为中心的九宫格,计算该像素点周围的8个像素点中不是背景点的个数,如果大于给定的界定值,则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理,所述给定的界定值是通过图片噪点数目、噪点粘连,根据不同场景的表格图像特征,对比找到值。
一种票据进行批量OCR识别系统,它包括:
视频采集装置:用于对待批量识别的票据进行图像采集;
存储器,用于存储匹配模板库,其进一步存储每一匹配模板的匹配锚点和关键词字符区信息;
处理器,其进一步包括:
预处理模块:用于对待批量识别的票据图像进行预处理;
相似度最高匹配模板计算模块:用于获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
待识别字符区域确认模块:用于基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
待识别字符识别模块:用于模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
与现有技术相比,同时在对产业数字化时,经常需要对大量同种类型的票据进行批量化的扫描及文本识别结构化数据提取。这种情况下待识别的票据,是一种样式的票据,每张单据之间只是有部分内容是变动的,而且相邻的票据的内容,进行语义分析时,相关性一般比较大。本发明就是充分利用这一特征,通过语义关联分析及知识跨单据迁移,动态调整后续识别字符的权重,从而提高文本识别的正确率。
附图说明
图1为本发明票据进行批量OCR识别方法的原理图;
图2为本发明据进行批量OCR识别方法的一种实例图;
图3为本发明据进行批量OCR识别系统的原理图。
具体实施方式
以下结合附图,具体说明本发明。
请参阅图1,其为一种票据进行批量OCR识别方法的原理流程图,它包括:
S110:对待批量识别的票据图像进行预处理;
S120:获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
S130:基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
S140:模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
本发明的创新点在于在产业链里批量票据数据采集场景,通过模板匹配、语义识别及跨单据特征值共享,提高文本识别的识别率。具体创新点:
将票据的票面信息分为关键词字符区和待识别字符区。通过基于锚点的坐标体系定位关键词字符区,通过分块计算欧几里德距离,更精准的匹配模板。并不断积累模板,提高模板的精确度。
对待识别字符区,通过跨票据计算汉明距离,动态调整候选字符的权重,从而提高识别率。
简单先介绍一下关键词字符区和待识别字符区。关键词字符区域就是该批量待识别单据图像相同的部分,一般是单据格式上的每行信息的标题部分,就是单据格式上标题、行名等字符,例如单据号等,批量识别数据提取时,只需确认该字符是否与模板(单据格式上的文本)上的字符是否匹配。待识别字符区域,是每个单据上数据可能变化的区域,一般是每行信息的内容部分,每张单据图像的该部分内容大多不一样,但产业数字化场景批量的情况下,前后待识别单据图像又有相关性,例如具体的单据号码、物品、金额等。以下具体说明每一步骤。
一、S110:对待批量识别的票据图像进行预处理
首先对待批量识别的票据图像(照片或扫描件等),进行预处理,包括倾斜较正、图像二值化、图像去噪等处理,以降低后续批量识别算法处理的复杂度,提高票据识别准确率。
倾斜较正主要是对图像进行基本的裁剪,旋转。基于边界识别等裁剪掉和票据面单无关的部分,并进行旋转,以便票据面单图像正向,节省后续文本识别时的角度矫正算法复杂度,并提高后续算法中基于排序及位置的算法的计算效率。
由于产业数字化场景,可能采用拍摄、扫描等多种手段批量采集票据图像,待识别的票据图像中可能包含噪声信息,因而,在批量识别票据图像之前,需要采用去噪算法对待批量识别的票据图像进行去噪处理。
通过对比相邻的像素点,判断一个像素点是否是噪点。以目标像素点为中心的九宫格,计算该像素点周围的8个像素点中不是背景点的个数,如果大于给定的界定值(该值通过图片噪点数目、噪点粘连,根据不同场景的表格图像特征,对比找到效果好的值),则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理掉。具体见去噪流程图
如果待识别图像是彩色图像,其中包含的信息量纷繁复杂,会影响后续算法的计算效率。如果图像存在不同程度的色偏,需要先进行色彩矫正。在预处理阶段,将票据图像的彩色图像转换成灰度图,再根据票据图像的最高、最低灰度值对票据图像进行二值化处理,以便后续流程的算力集中到票据图像的票据待数据采集区域。图像二值化是将图像分为前景与背景,并将前景和背景信息分别定义为黑色和白色,得到待识别票据对应的二值化图像。
图像二值化是将彩色图像分为前景(文字或表格线)与背景,并将前景(文字或表格线)和背景信息分别定义为黑色和白色,每个像素点进行处理,如果该点的R值不是255,那么就将该点的RGB值都改成0(纯黑色),这样整个过程下来,这正图片就变成真正意义上的黑白图片了,也就得到了待识别表格文字图像对应的二值化图像。通过对图像进行二值化处理,能够提高后续批量票据文本识别算法的效率。
上述这些批处理的各种流程步骤的顺序可以做调整。当然,也可以根据具体地情况调整其步骤。还有,可以直接采用201911404676.6中公开的预处理步骤:如S1:读取票据图像文件得到票据图像;S2:对票据图像进行背景消除;S3:将背景消除后的票据图像进行中值滤波处理得到第一图像;S4:对第一图像做投影变换并去除分隔符;S5:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本。在步骤步骤S4中从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置,其中,阈值T一般设置为大于图像中所有像素的平均值;分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。
一般来说,处理后的票据具有标准尺寸,具有快速识别的功效。
二、具体说明步骤S120。
模板的匹配锚点和关键词字符区前期通过人工标注,得到常用票据数据批量识别匹配模板。匹配锚点一般选中该类型票据的共同标识点作为锚点,例如票据的有效票面的左上角、左下角及右上角,并保持左上角与左下角的连线和左上角与右上角的连线形成垂直角。标注每行数据的标题部分作为关键词字符区,该关键词字符区在样式一样的同类型票据批量识别时,各个票据间文字内容是相同的。由于每张票据的清晰度及拍摄采集光照等限制,可能文本识别成不一样的字符,但应该是一样的内容,通过后续的跨票据语义分析及候选字符调整,可以有效保证识别成的文字内容也一致的。
即人工标注匹配模板,并将该些匹配模板的坐标、哪些是关键词字符区、哪些是待识别字符区都进行标注保存,后将保存的该些信息组成匹配模板库。事实上,匹配模板库是动态的,当有新的匹配模板要增加时,则将标注后的模板加入到匹配模板库中。当需要增加新的功能时,也可以在匹配模板库的每一匹配模板中增加新的信息。另外,也可以将Al算法加入到该匹配模板库中,将匹配模板库做为数据集,训练相应算法,也可以直接获知对应的匹配模板类别信息。
“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;
当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。
匹配有很多种实现方案:在本实例中,可以用欧几里德距离算法来计算后匹配。“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:
当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:
欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:
Figure BDA0002999865430000091
通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。
即,基于识别匹配模板,通过三个锚点确定坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,作为横轴与纵轴,按照匹配模板的坐标,等比找到待识别票据的相应锚点,并由此定位每个关键词字符区,再将关键词字符区从票据图片上切割下来,保存成关键词字符区块,再分别对每一块进行匹配计算相似度,得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
若有调整,则后续数据采集处理使用该调整后的匹配模板,并将该模板存储批量识别匹配模板库。通过这种不断积累人工反馈的形式,不断提高匹配模板库的精准度,从而提高后续字符识别的精确度。
三、具体介绍步骤S130.
S130:基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域.
当相似度最高的匹配模板确定后,该匹配模板哪些是关键词字符区域、哪些是待识别字符区域就已确认。
关键词字符区域就是该批量待识别票据图像相同的部分,一般是票据格式上的每行信息的标题部分,就是票据格式上标题、行名等字符,例如单据号等,批量识别数据提取时,只需确认该字符是否与模板(票据格式上的文本)上的字符是否匹配。待识别字符区域,是每个票据上数据可能变化的区域,一般是每行信息的内容部分,每张票据图像的该部分内容大多不一样,但产业数字化场景批量的情况下,前后待识别票据图像又有相关性,例如具体的单据号码、物品、金额等。
四、具体说明步骤S140。
S140:模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
针对待识别字符区域,使用业内现有的光学字符识别(Optical CharacterRecognition,OCR)及场景文字识别(Scene Text Recognition,STR)技术,检测字符,识别每一个字符或字符串在识别后,可能对应多个不同的候选的字符或字符串,不直接选中权重最大的字符或字符串,而是再基于以下逻辑,智能调整后续字符(串)的权重,从而确定每个图像切片的最佳匹配字符(串)。
1、确认左方或上方是否有关键词字符区域,若有则利用关键词字符区域的识别结果字符的语义,进行精准文本识别。例如,若左方或上方存在识别为“公司”的关键词字符区域,则该待识别字符区域可能是个公司名称,将候选字符(串)与公司名称数据库进行匹配,按匹配度动态调整候选字符(串)的权重。
2、模糊匹配该批量待识别票据图像的相应待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符(串)的权重。
即,当前票据的待识别字符区域与N个关联票据分别计算对应区域的汉明距离,每一汉明距离的计算进一步包括:
当前票据的待识别字符区域的字符串或字符,当前关联票据的对应区域的字符串或字符进行汉明距离计算,汉明距离表示两个相同长度字对应位不同的数量,以d(x,y)表示两个字x,y之间的汉明距离,对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,即
Figure BDA0002999865430000111
这里i=0,1,..n-1,x,y都是n位的编码,
Figure BDA0002999865430000121
表示异或
两个等长字符串str1与str2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,由此得到当前票据的待识别字符区域与对应所述N个关联票据分别计算对应区域的最小替换次数。
比如,N个关联票据可以是前两帧或前三帧的票据,分别计算对应区域的最小替换次数及对应的字符串或字符,通过该当前票据的某字符为4o,但是前两帧的票据对应区域的字符为39,38,则可以推出该当前票据的字符为40。
汉明距离的优势是算法复杂度低,效率高,计算速度快,可以降低计算相似度的时间成本和算力成本。票据中待识别字符主要是编号、金额、日期等数字型字符串,应用汉明距离算法的实际识别率提升效果也好于通过计算WordNet、HowNet等具有层次结构关系的语义词典的语义结构树中两词语之间的距离等算法。
最后将识别提取出的文本信息,通过JSON、XML等格式,进行结构化数据输出。可以将票据按照模板先创建对应的结构化数据格式,则当对应模板当前票据解析后,可以直接将识别提取出的文本信息按照预先的结构化数据格式进行结构化输出。
请参阅图2,其为本发明一个实施例。其包括:S101:倾斜较正、二值化、去噪等待票据图片批量预处理;S102:从批量票据图像中,动态生成区域定位模板;S103:基于区域定位模板,识别出当前票据的关键词字符区域和待识别字符区域;S105:判断是否是关键词区域的关键词?如果是,则进行步骤S10611,否则进行步骤S10612;S10611:基于最佳图像切片识别文本S10612:基于语义智能优化候选字符;S107:提取出的文本信息进行结构化数据输出.
一个实施案例,在批量OCR识别销售单,进行对单据号进行文本识别数据提取时,通过字符识别模型识别字符时保留多个候选字符,然后依靠跨单据的语义分析,智能调整候选识别字符的权重,从而提高文本的识别正确率。例如下面两张票据图像,在批量识别时,可识别出单据号前面都是一致,后面连续的数字,通过跨前后票据计算候选识别字符的汉明距离,可以将”0”(数字零)与“0”(字母大写0)区分出来,从而正确识别出单据号后两位是数字59和数字60。而且这个逻辑在批量票据识别时,数量越多,越能提高识别率。
请参阅图3,其为一种票据进行批量OCR识别系统的原理图。它包括:
视频采集装置11:用于对待批量识别的票据进行图像采集;
存储器12,用于存储匹配模板库,其进一步存储每一匹配模板的匹配锚点和关键词字符区信息;
处理器13,其进一步包括:
预处理模块131:用于对待批量识别的票据图像进行预处理;
相似度最高匹配模板计算模块132:用于获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
待识别字符区域确认模块133:用于基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
待识别字符识别模块134:用于模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
一种处理器,用于执行上述所述的任一计算机程序。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述任何一种方法被执行。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificInte grated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子系统执行时,使得所述电子系统执行实施例一所述的方法。在此不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transi tory media),如调制的数据信号和载波。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

Claims (10)

1.一种票据进行批量OCR识别方法,其特征在于,包括:
对待批量识别的票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
2.如权利要求1所述的票据进行批量OCR识别方法,其特征在于,
批量OCR识别之前还包括:预先通过人工标注每一模板的匹配锚点和关键词字符区,得到匹配模板库的匹配模板;
“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;
当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。
3.如权利要求2所述的批量OCR识别方法,其特征在于,“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:
当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
4.如权利要求3所述的票据进行批量OCR识别方法,其特征在于,“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:
欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:
Figure FDA0002999865420000021
通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。
5.如权利要求1所述的的票据进行批量OCR识别方法,其特征在于,“通过跨票据计算相对应区域的汉明距离”进一步包括:
当前票据的待识别字符区域与N个关联票据分别计算对应区域的汉明距离,每一汉明距离的计算进一步包括:
当前票据的待识别字符区域的字符串或字符,当前关联票据的对应区域的字符串或字符进行汉明距离计算,汉明距离表示两个相同长度字对应位不同的数量,以d(x,y)表示两个字x,y之间的汉明距离,对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,即
Figure FDA0002999865420000022
这里i=0,1,..n-1,x,y都是n位的编码,
Figure FDA0002999865420000023
表示异或
两个等长字符串str1与str2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,由此得到当前票据的待识别字符区域与对应所述N个关联票据分别计算对应区域的最小替换次数。
6.如权利要求1所述的的票据进行批量OCR识别方法,其特征在于,对待批量识别的票据图像进行预处理进一步包括倾斜较正、图像二值化、图像去噪在内其中至少一种处理,
所述图像去噪进一步包括:通过对比相邻的像素点,判断一个像素点是否是噪点,以目标像素点为中心的九宫格,计算该像素点周围的8个像素点中不是背景点的个数,如果大于给定的界定值,则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理,所述给定的界定值是通过图片噪点数目、噪点粘连,根据不同场景的表格图像特征,对比找到值。
7.如权利要求1所述的的票据进行批量OCR识别方法,其特征在于,还包括:将识别提取出的文本信息,通过JSON、XML在内的格式,进行结构化数据输出。
8.一种票据进行批量OCR识别系统,其特征在于:包括:
视频采集装置:用于对待批量识别的票据进行图像采集;
存储器,用于存储匹配模板库,其进一步存储每一匹配模板的匹配锚点和关键词字符区信息;
处理器,其进一步包括:
预处理模块:用于对待批量识别的票据图像进行预处理;
相似度最高匹配模板计算模块:用于获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
待识别字符区域确认模块:用于基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
待识别字符识别模块:用于模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
9.一种处理器,用于执行如权项1至权项7所述的任一计算机程序。
10.一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述权项1至权项7中任何一种方法被执行。
CN202110345101.2A 2021-03-30 2021-03-30 票据进行批量ocr识别方法及系统 Pending CN115147855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110345101.2A CN115147855A (zh) 2021-03-30 2021-03-30 票据进行批量ocr识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110345101.2A CN115147855A (zh) 2021-03-30 2021-03-30 票据进行批量ocr识别方法及系统

Publications (1)

Publication Number Publication Date
CN115147855A true CN115147855A (zh) 2022-10-04

Family

ID=83403589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110345101.2A Pending CN115147855A (zh) 2021-03-30 2021-03-30 票据进行批量ocr识别方法及系统

Country Status (1)

Country Link
CN (1) CN115147855A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497114A (zh) * 2022-11-18 2022-12-20 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法
CN117612172A (zh) * 2024-01-24 2024-02-27 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497114A (zh) * 2022-11-18 2022-12-20 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法
CN115497114B (zh) * 2022-11-18 2024-03-12 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法
CN117612172A (zh) * 2024-01-24 2024-02-27 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质
CN117612172B (zh) * 2024-01-24 2024-03-19 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
CN110503100B (zh) 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111209827B (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
US9202146B2 (en) Duplicate check image resolution
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN115147855A (zh) 票据进行批量ocr识别方法及系统
CN112949455B (zh) 一种增值税发票识别系统及方法
CN112395995A (zh) 一种根据移动财务票据自动填单及审核的方法及系统
CN111368632A (zh) 一种签名识别方法及设备
CN112883926A (zh) 表格类医疗影像的识别方法及装置
Hesham et al. Arabic document layout analysis
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN114495146A (zh) 图像文本检测方法、装置、计算机设备及存储介质
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN115147857A (zh) 基于语义分析的对称表格文字数据结构化提取的方法及系统
CN111062262B (zh) 发票识别方法以及发票识别装置
CN111079709B (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入系统
JPH07168910A (ja) 文書レイアウト解析装置及び文書フォ−マット識別装置
Amarnath et al. Automatic localization and extraction of tables from handheld mobile-camera captured handwritten document images
CN115146646A (zh) 基于智能终端完成票据ocr识别方法及系统
Zheng et al. Recognition of expiry data on food packages based on improved DBNet
CN112883974B (zh) 基于图像校验的电子保函识别系统
CN111079708B (zh) 一种信息识别方法、装置、计算机设备和存储介质
Kurhekar et al. Automated text and tabular data extraction from scanned document images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination