CN115146646A - 基于智能终端完成票据ocr识别方法及系统 - Google Patents

基于智能终端完成票据ocr识别方法及系统 Download PDF

Info

Publication number
CN115146646A
CN115146646A CN202110344390.4A CN202110344390A CN115146646A CN 115146646 A CN115146646 A CN 115146646A CN 202110344390 A CN202110344390 A CN 202110344390A CN 115146646 A CN115146646 A CN 115146646A
Authority
CN
China
Prior art keywords
bill
matching
recognized
similarity
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110344390.4A
Other languages
English (en)
Inventor
王义山
丁雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jujun Technology Co ltd
Original Assignee
Shanghai Jujun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jujun Technology Co ltd filed Critical Shanghai Jujun Technology Co ltd
Priority to CN202110344390.4A priority Critical patent/CN115146646A/zh
Publication of CN115146646A publication Critical patent/CN115146646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)

Abstract

一种基于智能终端完成票据OCR识别方法及系统,它包括:对提出适合批量采集的手机支架及自动拍照APP,充分利用手机的摄像头,实现单据影像件的批量采集,同时智能采集最优图片,提高采集效率及影像件清晰度。通过模板匹配、语义识别分析及跨单据特征值共享,计算汉明距离,全局动态调整候选字符权重,充分利用了批量单据采集时格式一样,内容相似或关联等特征,提高文本识别的准确率。本发明不需要配置专门的设备,直接利用手机等智能终端完成批量票据的OCR识别,并且手机等也可以直接将识别的数据转换成标准的格式上传至云端保存并处理,非常实用。

Description

基于智能终端完成票据OCR识别方法及系统
技术领域
本发明涉及图像识别领域,尤其基于智能终端完成票据批量OCR识别方法及系统。
背景技术
票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难。
虽然由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
现有的一些识别方法,虽然解决了一张票据的99%的OCR识别问题,或者可以通过人工智能做针对性训练,但识别率还是无法达到99%,还是需要大量的人力录入及复核工作,并且因为过多的人工参与,不但准确率很难保证,而且容易造成信息泄露等安全风险以及数字金融服务时对必须规避人为操作造成的道德风险。
同时在对产业数字化时,经常需要对大量同种类型的票据进行批量化的扫描及文本识别结构化数据提取。这种情况下待识别的票据,是一种样式的票据,每张单据之间只是有部分内容是变动的,而且相邻的票据的内容,进行语义分析时,相关性一般比较大,如何提高同种类型票据批量化文本识别的正确率,这是本行业急需要解决的问题。
最重要的是:在进行企业数字化时,经常面临需要对大量的单据进行数据采集识别及数据结构化提取。企业需要数字化的单据主要包括发票、订单、发货单、销售单、签收单、安装单、快递面单、运单等等,不但类型繁多,版面格式复杂多样,清晰度也存在较大差别,连打印方式都有针式、喷墨、激光、热敏等多种方式。现在行业内数据采集主要是通过采集影像件然后进行文本识别,实现数据的结构化提取入库。行内现有的采集方案是通过扫描仪、高拍仪以及手机、相机等拍摄。由于企业数字化的现实中,单据又存在已入档不能拆装订等各种限制,包括自馈式扫描仪等设备也难以保证单据影像件采集的质量。而高端设备又存在价格高,难以携带等问题。影像件采集方式的局限,会对图片的清晰度造成很大影响,直接影响识别率。若识别率无法满足,还是需要大量的人力录入及复核工作,并且因为过多的人工参与,不但准确率很难保证,而且容易造成信息泄露等安全风险,成为企业数字化的一个现实存在的困难。
同时随着最近几年技术的发展,越来越多的手机等智能终端开始注重拍照的硬件升级。比如,以手机为例,业内主流的主摄CMOS已超过1000万像素,三星、小米等手机厂商已推出配备一亿像素摄像头的手机,也支持微距、广角等模式,清晰度也已满足企业数字化单据影像件采集的需求。而现在影像件采集方案是通过手持手机拍摄,由于存在手臂抖动等问会而影响拍摄效果的问题,同时需要采集影像件的单据一般会比较多,一批次也可能会有成千上万件,长时间保持握举姿势不但容易疲劳,也存在对人体会造成损害的问题。
如何降低硬件成本的投入,能提供一种直接用智能终端完成票据识别一种可实施方案,是本领域急需要解决的问题。
发明内容
本发明提供一种基于智能终端完成票据OCR识别方法及系统,利用现有的智能终端(如手机)即可完成票据OCR识别的方法。
本发明提供的第一个方案是:本发明还提供第一种设置数据采集装置,该数据采集装置用来固定预采集的票据和固定智能终端(如手机)。
一种基于智能终端完成票据OCR识别方法,包括以下步骤:
设置数据采集装置,其至少支架底座、包括用于可活动夹持待识别票据的票据固定件、用于固定智能终端的终端固定件;
将票据通过票据固定件进行固定,将智能终端通过终端固定件进行固定,并且,通过调整相应的高度和角度使得智能终端能将所述票据调在所述智能终端的取景框中;
智能终端连续自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据;
每一图影像数据进行以下操作:
票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
本发明提供的第二个方案是:数据采集装置可以同时固定多张票据,这样,控制手机等智能终端移动时,可以同时采集到多张票据同时处理。
本发明提供的第三个方案是:直接用手机等智能终端拍照处理,现有的图片处理软件即可处理成符合要求的图片,再对图片处理识别即可。即,一种基于智能终端完成票据OCR识别方法,包括以下步骤:
智能终端连续自动对焦后拍照,连续获得N次照片信息,调用图片处理模块完成图像影像处理;
每一图影像数据后续进行以下操作:
票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率;
智能终端识别提取出的文本信息,通过JSON、XML在内格式进行结构化数据输出。
与现有技术相比,本发明具有以下优点:
可以利用智能终端对票据进行采集,并进行OCR识别,最重是要的是考虑到同时在对产业数字化时,经常需要对大量同种类型的票据进行批量化的扫描及文本识别结构化数据提取。这种情况下待识别的票据,是一种样式的票据,每张单据之间只是有部分内容是变动的,而且相邻的票据的内容,进行语义分析时,相关性一般比较大。本发明就是充分利用这一特征,在智能终端上通过语义关联分析及知识跨单据迁移,动态调整后续识别字符的权重,从而提高文本识别的正确率。
本发明可以设置数据采集装置同时采集一张或多张票据,再进行OCR识别处理。
附图说明
图1为数据采集装置的一种实例图
图2为本发明基于智能终端完成票据OCR识别方法的原理图;
图3为本发明基于智能终端完成票据OCR识别方法实例图。
具体实施方式
以下结合附图,具体说明本发明。
第一实施例
请参阅图1,本发明的数据采集装置的一种实例图。它至少支架底座、包括用于可活动夹持待识别票据的票据固定件、用于固定智能终端的终端固定件;
可以将票据通过票据固定件进行固定,将智能终端通过终端固定件进行固定,并且,通过调整相应的高度和角度使得智能终端能将所述票据调在所述智能终端的取景框中;
智能终端连续自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据。
在本实例中,票据固定件包括支架底座可调节夹D402,终端固定件可以包括支架底座支撑立杆D404和支架手机弹性夹D405/
即,其该数据采集装置主要包括:支架底座横向支撑杆D401、支架底座纵向支撑杆D403、支架底座支撑立杆D404、支架底座可调节夹D402、支架手机弹性夹D405。
智能终端D411可以为智能手机,可以是安卓或苹果操作系统,支持安装应用程序APP即可。
支架手机弹性夹D405,用于标出待采集单据的边界,保持批量单据数据采集时,各张单据的位置保持稳定。
支架底座横向支撑杆D401、支架底座纵向支撑杆D403、支架底座支撑立杆D404、支架底座可调节夹D402和支架手机弹性夹D405相互之间,如图1所示,用卡扣链接。当不用时,解开卡扣,便于收纳及携带。
在本发明实施例还提供一种外接电源,直接连接手机,用于批量单据数据采集时补充电量。使用与手机兼容的Type-c、Lightning、Micro USB等接口电源线即可。
本发明的创新点在于设置数据采集装置来利用智能终端进行图像采集和票据识别处理。
票据识别处理进一步通过模板匹配、语义识别及跨单据特征值共享,提高文本识别的识别率。具体创新点:
将票据的票面信息分为关键词字符区和待识别字符区。通过基于锚点的坐标体系定位关键词字符区,通过分块计算欧几里德距离,更精准的匹配模板。并不断积累模板,提高模板的精确度。
对待识别字符区,通过跨票据计算汉明距离,动态调整候选字符的权重,从而提高识别率。
简单先介绍一下关键词字符区和待识别字符区。关键词字符区域就是该批量待识别单据图像相同的部分,一般是单据格式上的每行信息的标题部分,就是单据格式上标题、行名等字符,例如单据号等,批量识别数据提取时,只需确认该字符是否与模板(单据格式上的文本)上的字符是否匹配。待识别字符区域,是每个单据上数据可能变化的区域,一般是每行信息的内容部分,每张单据图像的该部分内容大多不一样,但产业数字化场景批量的情况下,前后待识别单据图像又有相关性,例如具体的单据号码、物品、金额等。
一种基于智能终端完成票据OCR识别方法,包括以下步骤:
S11:设置数据采集装置,其至少支架底座、包括用于可活动夹持待识别票据的票据固定件、用于固定智能终端的终端固定件;
S12:将票据通过票据固定件进行固定,将智能终端通过终端固定件进行固定,并且,通过调整相应的高度和角度使得智能终端能将所述票据调在所述智能终端的取景框中;
S13:智能终端连续自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据;
S14:每一图影像数据进行以下操作:
S110:票据图像进行预处理;
S120:获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
S130:基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
S140:模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
以下具体说明每一步骤。
一、步骤S11-S13.
提供一数据采集装置,并在手机等智能终端上按装批量OCR识别软件,如小程序、APP等。
当需要使用时,只需要打开数据采集装置,将票据夹持住,智能终端固定好,再智能终端连续自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据。
OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。[1]它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,这是本行业的通用技术,在此不用再详细说明。当然,也可以用其它现有的方案来可以获得票据对应的图像数据。
二、步骤S14的具体介绍。
(一)、S110:对待批量识别的票据图像进行预处理
首先对待批量识别的票据图像(照片或扫描件等),进行预处理,包括倾斜较正、图像二值化、图像去噪等处理,以降低后续批量识别算法处理的复杂度,提高票据识别准确率。
倾斜较正主要是对图像进行基本的裁剪,旋转。基于边界识别等裁剪掉和票据面单无关的部分,并进行旋转,以便票据面单图像正向,节省后续文本识别时的角度矫正算法复杂度,并提高后续算法中基于排序及位置的算法的计算效率。
由于产业数字化场景,可能采用拍摄、扫描等多种手段批量采集票据图像,待识别的票据图像中可能包含噪声信息,因而,在批量识别票据图像之前,需要采用去噪算法对待批量识别的票据图像进行去噪处理。
通过对比相邻的像素点,判断一个像素点是否是噪点。以目标像素点为中心的九宫格,计算该像素点周围的8个像素点中不是背景点的个数,如果大于给定的界定值(该值通过图片噪点数目、噪点粘连,根据不同场景的表格图像特征,对比找到效果好的值),则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理掉。具体见去噪流程图
如果待识别图像是彩色图像,其中包含的信息量纷繁复杂,会影响后续算法的计算效率。如果图像存在不同程度的色偏,需要先进行色彩矫正。在预处理阶段,将票据图像的彩色图像转换成灰度图,再根据票据图像的最高、最低灰度值对票据图像进行二值化处理,以便后续流程的算力集中到票据图像的票据待数据采集区域。图像二值化是将图像分为前景与背景,并将前景和背景信息分别定义为黑色和白色,得到待识别票据对应的二值化图像。
图像二值化是将彩色图像分为前景(文字或表格线)与背景,并将前景(文字或表格线)和背景信息分别定义为黑色和白色,每个像素点进行处理,如果该点的R值不是255,那么就将该点的RGB值都改成0(纯黑色),这样整个过程下来,这正图片就变成真正意义上的黑白图片了,也就得到了待识别表格文字图像对应的二值化图像。通过对图像进行二值化处理,能够提高后续批量票据文本识别算法的效率。
上述这些批处理的各种流程步骤的顺序可以做调整。当然,也可以根据具体地情况调整其步骤。还有,可以直接采用201911404676.6中公开的预处理步骤:如S1:读取票据图像文件得到票据图像;S2:对票据图像进行背景消除;S3:将背景消除后的票据图像进行中值滤波处理得到第一图像;S4:对第一图像做投影变换并去除分隔符;S5:在去除分隔符的第一图像中识别字符特征得到字符特征图像区域并识别字符特征图像区域中的字符得到票据文本。在步骤步骤S4中从左往右和从右往左分别扫描票据图像寻找大于阈值T的像素,并跟踪投影直到小于阈值T的波谷,得到并去除左右波谷的位置,从而去除票据图像左右边框位置,其中,阈值T一般设置为大于图像中所有像素的平均值;分别扫描票据图像的上半部分和下半部分投影,得到并去边框和字符间的两个波谷位置,从而去除票据图像上下边框位置。
一般来说,处理后的票据具有标准尺寸,具有快速识别的功效。
(二)、具体说明步骤S120。
模板的匹配锚点和关键词字符区前期通过人工标注,得到常用票据数据批量识别匹配模板。匹配锚点一般选中该类型票据的共同标识点作为锚点,例如票据的有效票面的左上角、左下角及右上角,并保持左上角与左下角的连线和左上角与右上角的连线形成垂直角。标注每行数据的标题部分作为关键词字符区,该关键词字符区在样式一样的同类型票据批量识别时,各个票据间文字内容是相同的。由于每张票据的清晰度及拍摄采集光照等限制,可能文本识别成不一样的字符,但应该是一样的内容,通过后续的跨票据语义分析及候选字符调整,可以有效保证识别成的文字内容也一致的。
即人工标注匹配模板,并将该些匹配模板的坐标、哪些是关键词字符区、哪些是待识别字符区都进行标注保存,后将保存的该些信息组成匹配模板库。事实上,匹配模板库是动态的,当有新的匹配模板要增加时,则将标注后的模板加入到匹配模板库中。当需要增加新的功能时,也可以在匹配模板库的每一匹配模板中增加新的信息。另外,也可以将Al算法加入到该匹配模板库中,将匹配模板库做为数据集,训练相应算法,也可以直接获知对应的匹配模板类别信息。
“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;
当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。
匹配有很多种实现方案:在本实例中,可以用欧几里德距离算法来计算后匹配。“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:
当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:
欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:
Figure BDA0002999860020000101
通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。
即,基于识别匹配模板,通过三个锚点确定坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,作为横轴与纵轴,按照匹配模板的坐标,等比找到待识别票据的相应锚点,并由此定位每个关键词字符区,再将关键词字符区从票据图片上切割下来,保存成关键词字符区块,再分别对每一块进行匹配计算相似度,得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
若有调整,则后续数据采集处理使用该调整后的匹配模板,并将该模板存储批量识别匹配模板库。通过这种不断积累人工反馈的形式,不断提高匹配模板库的精准度,从而提高后续字符识别的精确度。
(三)、具体介绍步骤S130.
S130:基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域.
当相似度最高的匹配模板确定后,该匹配模板哪些是关键词字符区域、哪些是待识别字符区域就已确认。
关键词字符区域就是该批量待识别票据图像相同的部分,一般是票据格式上的每行信息的标题部分,就是票据格式上标题、行名等字符,例如单据号等,批量识别数据提取时,只需确认该字符是否与模板(票据格式上的文本)上的字符是否匹配。待识别字符区域,是每个票据上数据可能变化的区域,一般是每行信息的内容部分,每张票据图像的该部分内容大多不一样,但产业数字化场景批量的情况下,前后待识别票据图像又有相关性,例如具体的单据号码、物品、金额等。
(四)、具体说明步骤S140。
S140:模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
针对待识别字符区域,使用业内现有的光学字符识别(Optical CharacterRecognition,OCR)及场景文字识别(Scene Text Recognition,STR)技术,检测字符,识别每一个字符或字符串在识别后,可能对应多个不同的候选的字符或字符串,不直接选中权重最大的字符或字符串,而是再基于以下逻辑,智能调整后续字符(串)的权重,从而确定每个图像切片的最佳匹配字符(串)。
1、确认左方或上方是否有关键词字符区域,若有则利用关键词字符区域的识别结果字符的语义,进行精准文本识别。例如,若左方或上方存在识别为“公司”的关键词字符区域,则该待识别字符区域可能是个公司名称,将候选字符(串)与公司名称数据库进行匹配,按匹配度动态调整候选字符(串)的权重。
2、模糊匹配该批量待识别票据图像的相应待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符(串)的权重。
即,当前票据的待识别字符区域与N个关联票据分别计算对应区域的汉明距离,每一汉明距离的计算进一步包括:
当前票据的待识别字符区域的字符串或字符,当前关联票据的对应区域的字符串或字符进行汉明距离计算,汉明距离表示两个相同长度字对应位不同的数量,以d(x,y)表示两个字x,y之间的汉明距离,对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,即
Figure BDA0002999860020000131
这里i=0,1,..n-1,x,y都是n位的编码,
Figure BDA0002999860020000132
表示异或
两个等长字符串str1与str2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,由此得到当前票据的待识别字符区域与对应所述N个关联票据分别计算对应区域的最小替换次数。
比如,N个关联票据可以是前两帧或前三帧的票据,分别计算对应区域的最小替换次数及对应的字符串或字符,通过该当前票据的某字符为4o,但是前两帧的票据对应区域的字符为39,38,则可以推出该当前票据的字符为40。
汉明距离的优势是算法复杂度低,效率高,计算速度快,可以降低计算相似度的时间成本和算力成本。票据中待识别字符主要是编号、金额、日期等数字型字符串,应用汉明距离算法的实际识别率提升效果也好于通过计算WordNet、HowNet等具有层次结构关系的语义词典的语义结构树中两词语之间的距离等算法。
最后将识别提取出的文本信息,通过JSON、XML等格式,进行结构化数据输出。可以将票据按照模板先创建对应的结构化数据格式,则当对应模板当前票据解析后,可以直接将识别提取出的文本信息按照预先的结构化数据格式进行结构化输出。
请参阅图3,其为本发明一个实施例。其包括:S101:采集APP自动对焦,进行单据影像的拍摄,得图片N张;S102:调用图片模糊度检测算法,除掉这N张图片中模糊度高的图;S103:两两之间计算图片结构相似度(SSIM),以图片为单位合计相似度值,选定合计值最高者;S104:倾斜较正、二值化、去噪等待票据图片批量预处理;S105:从批量票据图像中,动态生成区域定位模板;S106:基于区域定位模板,识别出当前票据的关键词字符区域和待识别字符区域;S107:判断是否是关键词区域的关键词?如果是,则进行步骤S1081,否则进行步骤S1082;S1081:基于最佳图像切片识别文本S1082:基于语义智能优化候选字符;S109:提取出的文本信息进行结构化数据输出.
一个实施案例,在批量OCR识别销售单,进行对单据号进行文本识别数据提取时,通过字符识别模型识别字符时保留多个候选字符,然后依靠跨单据的语义分析,智能调整候选识别字符的权重,从而提高文本的识别正确率。例如下面两张票据图像,在批量识别时,可识别出单据号前面都是一致,后面连续的数字,通过跨前后票据计算候选识别字符的汉明距离,可以将”0”(数字零)与“O”(字母大写O)区分出来,从而正确识别出单据号后两位是数字59和数字60。而且这个逻辑在批量票据识别时,数量越多,越能提高识别率。
第二实施例
与第一个实施例不同之处,本发明的票据固定件做成可调节的,即可以夹持多张待检测票据,水平移动智能终端即可获得多张等检测要票据。对每一张票据可以按照上述的方式来处理。这样,一次扫描多张即可一次识别出多张票据信息。
即,预先设置支架底座上用于控制终端固定件的移动单元;
票据固定件夹持多张待检测票据;
控制移动单元移动,以便智能终端连续自动对焦后拍照,连续获得N次照片信息,对所述照片调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片,后载剪,同一位置获取的图片组成一图片组,在每一图片组中除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据,由此获得该些张等识别票据对应的图影像数据。
设置票据固定件进一步包括设置支架底座横向支撑杆和支架底座纵向支撑杆,支架底座通过支架底座支撑立杆来固定终端固定件,所述终端固定件至少包括架底座可调节夹和支架终端弹性夹;
通过设置支架底座支撑立杆的高度调节单元完成智能终端的高度调节,通过底座横向支撑杆设置水平调节单元实现智能终端的的水平调节。
第三实施例
与上述实施例不同的是,不用支架,直接用智能终端拍照,用图片处理模块进行处理成标准式的票据图像数据,
一种基于智能终端完成票据OCR识别方法,包括以下步骤:
智能终端连续自动对焦后拍照,连续获得N次照片信息,调用图片处理模块完成图像影像处理;
每一图影像数据后续进行以下操作:
票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率;
智能终端识别提取出的文本信息,通过JSON、XML在内格式进行结构化数据输出。
一种基于智能终端完成票据OCR识别系统,可以包括云端、多个票据OCR识别端、每一票据OCR识别端至少包括按装相应软件的智能终端、数据采集装置。其进一步包括:
数据采集装置,其至少支架底座、包括用于可活动夹持待识别票据的票据固定件、用于固定智能终端的终端固定件;
票据固定件,用于将票据进行固定;
终端固定件:用于将智能终端通过终端固定件进行固定,并且,通过调整相应的高度和角度使得智能终端能将所述票据调在所述智能终端的取景框中;
智能终端至少包括票据OCR识别子系统,其至少包括:
图影像数据获取单元:用于自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据;
存储器,用于存储匹配模板库,其进一步存储每一匹配模板的匹配锚点和关键词字符区信息;
预处理模块:用于对待批量识别的票据图像进行预处理;
相似度最高匹配模板计算模块:用于获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
待识别字符区域确认模块:用于基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
待识别字符识别模块:用于模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
并将识别出来的数据存储成标准格式上传至云端。
数据采集装置可以按照采集一张或多张票据而设置不同的结构。本发明还可以不用数据采集装置,直接用终端来进行数据采集。
总结来说,本发明具有以下优点:
1、提出适合批量采集的手机支架及自动拍照APP,充分利用手机的摄像头,实现单据影像件的批量采集,同时智能采集最优图片,提高采集效率及影像件清晰度。
2、通过模板匹配、语义识别分析及跨单据特征值共享,计算汉明距离,全局动态调整候选字符权重,充分利用了批量单据采集时格式一样,内容相似或关联等特征,提高文本识别的准确率。
一种处理器,用于执行上述所述的任一计算机程序。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述任何一种方法被执行。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子系统执行时,使得所述电子系统执行实施例一所述的方法。在此不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

Claims (11)

1.一种基于智能终端完成票据OCR识别方法,其特征在于,包括以下步骤:
设置数据采集装置,其至少支架底座、包括用于可活动夹持待识别票据的票据固定件、用于固定智能终端的终端固定件;
将票据通过票据固定件进行固定,将智能终端通过终端固定件进行固定,并且,通过调整相应的高度和角度使得智能终端能将所述票据调在所述智能终端的取景框中;
智能终端连续自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据;
每一图影像数据进行以下操作:
票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
2.如权利要求1所述的方法,其特征在于,还包括:
预先设置支架底座上用于控制终端固定件的移动单元;
票据固定件夹持多张待检测票据;
控制移动单元移动,以便智能终端连续自动对焦后拍照,连续获得N次照片信息,对所述照片调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片,后载剪,同一位置获取的图片组成一图片组,在每一图片组中除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据,由此获得该些张等识别票据对应的图影像数据。
3.如权利要求2所述的方法,其特征在于,还包括:
设置票据固定件进一步包括设置支架底座横向支撑杆和支架底座纵向支撑杆,支架底座通过支架底座支撑立杆来固定终端固定件,所述终端固定件至少包括架底座可调节夹和支架终端弹性夹;
通过设置支架底座支撑立杆的高度调节单元完成智能终端的高度调节,通过底座横向支撑杆设置水平调节单元实现智能终端的的水平调节。
4.如权利要求1所述的方法,其特征在于,
批量OCR识别之前还包括:预先通过人工标注每一模板的匹配锚点和关键词字符区,得到匹配模板库的匹配模板;
“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
当前待识别票据通过至少三个锚点确定来坐标体系,按左上角与左下角的连线和左上角与右上角的连线形成垂直角,分别作为当前票据坐标体系的横轴与纵轴;
当前待识别票据与每一匹配模块的坐标体系对应,等比找到所述待识别票据相应锚点和对应的关键词字符区,所述对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,匹配度最高的为所述票据对应的相似度最高匹配模板。
5.如权利要求4所述的方法,其特征在于,“对应关键词字符区进行批量识别数据提取时,只需确认该些字符是否与所述匹配模板上的字符是否匹配,只需确认该些字符是否与所述匹配模板上的字符是否匹配”进一步包括:
当前待识别票据找到关键词字符区块,分别对每一块进行批量识别数据提取,与一匹配模块对应关键词字符区的字符或字符串,匹配计算相似度得到相似度向量,再通过欧几里德距离算法计算向量距离,从而得到相似度。
6.如权利要求5所述的方法,其特征在于,“通过跨票据计算相对应区域的汉明距离通过欧几里德距离算法计算向量距离”进一步包括:
欧几里德距离是指多维空间两点间的距离,这是一种用直尺测量出来的距离,当前待识别票据中关键词字符区的字符与模板对应关键词字符区的字符分别标记为(x1,x2,x3....xn)和(y1,y2,y3.....yn),则欧几里德距离的计算公式为:
Figure FDA0002999860010000031
通过一一对待识别票据的关键词字符区的字符与匹配模板中对应区域的字符进行相似度计算,可得到匹配模块对应的相似度,以得到匹配模板库中相似度最高的匹配模块。
7.如权利要求1所述的方法,其特征在于,“通过跨票据计算相对应区域的汉明距离”进一步包括:
当前票据的待识别字符区域与N个关联票据分别计算对应区域的汉明距离,每一汉明距离的计算进一步包括:
当前票据的待识别字符区域的字符串或字符,当前关联票据的对应区域的字符串或字符进行汉明距离计算,汉明距离表示两个相同长度字对应位不同的数量,以d(x,y)表示两个字x,y之间的汉明距离,对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,即
Figure FDA0002999860010000032
这里i=0,1,..n-1,x,y都是n位的编码,
Figure FDA0002999860010000033
表示异或
两个等长字符串str1与str2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数,由此得到当前票据的待识别字符区域与对应所述N个关联票据分别计算对应区域的最小替换次数。
8.如权利要求1所述的方法,其特征在于,对待批量识别的票据图像进行预处理进一步包括倾斜较正、图像二值化、图像去噪在内其中至少一种处理.
所述图像去噪进一步包括:通过对比相邻的像素点,判断一个像素点是否是噪点,以目标像素点为中心的九宫格,计算该像素点周围的8个像素点中不是背景点的个数,如果大于给定的界定值,则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理,所述给定的界定值是通过图片噪点数目、噪点粘连,根据不同场景的表格图像特征,对比找到值。
9.一种基于智能终端完成票据OCR识别系统,其特征在于,包括:
数据采集装置,其至少支架底座、包括用于可活动夹持待识别票据的票据固定件、用于固定智能终端的终端固定件;
票据固定件,用于将票据进行固定;
终端固定件:用于将智能终端通过终端固定件进行固定,并且,通过调整相应的高度和角度使得智能终端能将所述票据调在所述智能终端的取景框中;
智能终端至少包括票据OCR识别子系统,其至少包括:
图影像数据获取单元:用于自动对焦后拍照,连续获得N次照片信息,调用OpenCV检测图片模糊度算法,除掉模糊度偏高的图片两两之间计算图片结构相似度SSIM,以图片为单位合计相似度值,合计值最高者选定为该票据对应的图影像数据;
存储器,用于存储匹配模板库,其进一步存储每一匹配模板的匹配锚点和关键词字符区信息;
预处理模块:用于对待批量识别的票据图像进行预处理;
相似度最高匹配模板计算模块:用于获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
待识别字符区域确认模块:用于基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
待识别字符识别模块:用于模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
10.如权利要求9所述的系统,其特征在于,还包括:
云平台:用于各个智能终端识别提取出的文本信息,通过JSON、XML在内格式进行结构化数据输出至所述云平台进行保存并处理。
11.一种基于智能终端完成票据OCR识别方法,其特征在于,包括以下步骤:
智能终端连续自动对焦后拍照,连续获得N次照片信息,调用图片处理模块完成图像影像处理;
每一图影像数据后续进行以下操作:
票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率;
智能终端识别提取出的文本信息,通过JSON、XML在内格式进行结构化数据输出。
CN202110344390.4A 2021-03-30 2021-03-30 基于智能终端完成票据ocr识别方法及系统 Pending CN115146646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110344390.4A CN115146646A (zh) 2021-03-30 2021-03-30 基于智能终端完成票据ocr识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110344390.4A CN115146646A (zh) 2021-03-30 2021-03-30 基于智能终端完成票据ocr识别方法及系统

Publications (1)

Publication Number Publication Date
CN115146646A true CN115146646A (zh) 2022-10-04

Family

ID=83403515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110344390.4A Pending CN115146646A (zh) 2021-03-30 2021-03-30 基于智能终端完成票据ocr识别方法及系统

Country Status (1)

Country Link
CN (1) CN115146646A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118014072A (zh) * 2024-04-10 2024-05-10 中国电建集团昆明勘测设计研究院有限公司 水利水电工程用知识图谱的构建方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118014072A (zh) * 2024-04-10 2024-05-10 中国电建集团昆明勘测设计研究院有限公司 水利水电工程用知识图谱的构建方法及系统

Similar Documents

Publication Publication Date Title
CN110008944B (zh) 基于模板匹配的ocr识别方法及装置、存储介质
US10943105B2 (en) Document field detection and parsing
WO2020173008A1 (zh) 一种文本识别方法及装置
CN101908136B (zh) 一种表格识别处理方法及系统
Luo et al. Design and implementation of a card reader based on build-in camera
CN110674815A (zh) 基于深度学习关键点检测的发票图像畸变校正方法
US7970213B1 (en) Method and system for improving the recognition of text in an image
CN103617415A (zh) 一种自动识别发票的装置和方法
US9202146B2 (en) Duplicate check image resolution
CN109766890A (zh) 信息识别方法、设备和系统
CN105825211B (zh) 名片识别方法、装置及系统
CN112580707A (zh) 图像识别方法、装置、设备及存储介质
CN106874901B (zh) 一种行驶证识别方法及装置
Caldeira et al. Industrial optical character recognition system in printing quality control of hot-rolled coils identification
Sidhwa et al. Text extraction from bills and invoices
CN112686257A (zh) 一种基于ocr的店头文字识别方法及系统
CN113780087A (zh) 一种基于深度学习的邮政包裹文本检测方法及设备
EP4369286A1 (en) Shadow elimination device and method, empty disk recognition device and method
CN112001200A (zh) 识别码识别方法、装置、设备、存储介质和系统
CN112949455A (zh) 一种增值税发票识别系统及方法
CN113963147A (zh) 一种基于语义分割的关键信息提取方法及系统
US20210209393A1 (en) Image processing system, image processing method, and program
US20210201069A1 (en) Image processing system, image processing method, and program
CN115147855A (zh) 票据进行批量ocr识别方法及系统
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination