CN105654072B - 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 - Google Patents

一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 Download PDF

Info

Publication number
CN105654072B
CN105654072B CN201610172317.2A CN201610172317A CN105654072B CN 105654072 B CN105654072 B CN 105654072B CN 201610172317 A CN201610172317 A CN 201610172317A CN 105654072 B CN105654072 B CN 105654072B
Authority
CN
China
Prior art keywords
image
character
field
cutting
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610172317.2A
Other languages
English (en)
Other versions
CN105654072A (zh
Inventor
苏统华
涂志莹
周圣杰
曹源江
周靖淳
周韬宇
孙黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201610172317.2A priority Critical patent/CN105654072B/zh
Publication of CN105654072A publication Critical patent/CN105654072A/zh
Application granted granted Critical
Publication of CN105654072B publication Critical patent/CN105654072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Abstract

本发明公开了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法,所述系统包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块,所述方法包括据图像的预处理、字段区域识别、字符串分割和字符识别与验证四大步骤。本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析,能够充分利用这些信息。对于图像质量较低,噪声和图像分辨率影响非常大的图像,利用每个字段区域的语义,有助于将字符串切分成单个字符,从而转化为对单字符的识别。比如,将由纯数字组成的发票号,可以使用专门用于处理只有数字的图像的方法;识别的时候,将识别范围再限制在0~9这十个数字中,识别率即可大大提高。

Description

一种低分辨率医疗票据图像的文字自动提取和识别系统与 方法
技术领域
本发明涉及一种自动提取和识别医疗票据信息的系统与方法。
背景技术
医院和社区门诊中存在大量的纸质医疗票据,这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来,医院和社区门诊的医疗票据管理工作的手段落后而造成的一系列麻烦和问题,一直困扰着医院的管理人员。在医疗票据信息的处理工作方面,绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理+纸质的库房保存+人工的查询更新”的阶段,这成为了阻碍医疗产业信息化发展的一大根源。因此,为了解决这一薄弱环节,使用一种“集中、统一、高效、规范”的医疗票据信息处理方法,已经成为了医院亟待解决的问题。
相比于传统的手工录入票据的方法,光学字符识别(OCR)方法具有成本低、速度快等特点。光学字符识别技术应用广泛,其中一个重要的应用是识别激光打印票据图像上的文字。结合数字图像处理技术和机器学习技术,光学字符识别装置的正确率可以大幅提高。
但针式打印票据图像的文字自动提取和识别是比较挑战的任务。针式打印的票据分辨率较低并常常伴有印章、底纹等干扰因素,需要有效的图像处理技术在不损害文字信息的情况下去除干扰,需要根据票据的启发性信息辅助文字区域的定位和切分,更需要光学字符识别方法具有很好的抗干扰能力和鲁棒性(robustness)。
现有票据图像字符识别系统的主要处理流程如图1所示,主要分为票据图像预处理、字段切分、单字符切分、字符识别这四个步骤,其中:
图像预处理步骤的主要目的是对原图像进行去黑边、去噪点、纠偏以及将原图像转化为灰度图或者二值图。
字段切分步骤是提取图像上的字符区域,切分出票据的文字行并去除噪音。这里的字段定义为一个图像区域,区域内只包含一行字符。
单字符切分步骤是将上一个步骤得到的字段图像进一步细分,得到一系列单个字符的图像。
字符识别步骤是利用OCR对所提取的字符区域进行字符识别以输出文本。
与本发明最接近的同类技术流程如图4所示,主要包括以下五个步骤:
第一步、影像输入:主要利用光学仪器对票据进行扫描,生成相应的影像数据。光学仪器包括扫描仪、传真机、数码相机等。影像生成时的光照条件、影像分辨率等因素会影像到后续的识别效果和正确率。
第二步、图像预处理:主要包括色彩校正、倾斜校正、噪声过滤以及统一将影像转换为二值图或者灰度图。
第三步、字符区域分割:需要将字符区域从上一步骤得到的灰度图中分离出来。
第四步、单字符分割:主要是将上一步骤的字符区域按字符进行分割,然后对单个字符提取其字符特征,为后续匹配识别做准备。
第五步、匹配识别:根据单个字符区域的统计特征或者结构特征,对上一步骤得到的单个字符进行匹配和识别,最后输出文本。
当前的技术在如下四个方面存在缺陷:
(1)预处理部分缺少对印章的处理。预处理部分应该包含图像增强、边界和底纹处理等。大多数的票据图像都包含一个或多个印章,如果不对印章进行处理,被印章覆盖的文字区域可能受到污染,从而使字符的识别率降低。
(2)没有对票据图像进行版面分析,各个信息区域的语义不明确。对票据进行版面分析能获得非常多的有用信息,充分利用这些信息,对于票据识别结果的提高是非常有帮助的。比如,“发票号”总是出现在发票的右上角条形码的下方,是红色的数字,很容易定位;而发票号是由纯数字组成的数字串,知道是数字串后,就可以使用一套专门用于处理只有数字的图像的方法(由于图像质量较低,噪声和图像分辨率的影响非常大,切割时常出现将一个数字切割成两个,或是把噪声当成一个数字,所以有必要单独使用一套处理方法),识别的时候,将识别范围再限制在0~9这十个数字中,识别率即可大大提高。
(3)对所有的信息区域运用相同的信息提取方式,没有有效利用区域的语义约束,字符的识别正确率较低。
(4)在单字符的识别过程中,没有充分利用该字符所在字段的语义信息,可能导致单字符识别错误率高。
发明内容
为了解决当前技术存在的上述四大缺陷,本发明提供了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法。
本发明的目的是通过以下技术方案实现的:
一种低分辨率医疗票据图像的文字自动提取和识别系统,包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块,其中:
所述图像预处理模块用于降低原始票据图像上的噪点和去除原始票据图像中不需要识别的元素;
所述字段切分模块用于使用模板匹配的方法,根据票据图像的版面信息确定各个字段的语义,并且根据语义来约束字符的识别范围;
所述单字符切分模块用于使用不同的切分方法切分不同类型的字段;
所述字符识别模块用于根据单个字符所在的字段的语义,利用一个字库对OCR识别结果进行过滤。
一种低分辨率医疗票据图像的文字自动提取和识别方法,包括以下步骤:
一、票据图像的预处理
读取票据影像,采用填充该票据图像背景颜色的方法处理原始票据图像中的噪点和不需要识别的元素。
二、字段区域分割
通过使用预先设定好的模板来对特定格式的票据图像内容进行定位,找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出,所述模板是指记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界需要识别内容在票据图像中的相对位置数据的文件。
三、字符串分割
使用长数字串、短数字串、汉字字段三种不同的切分方法对不同类型的字段进行切分。
四、字符识别与验证
(1)将单个字符的图像输入到SDK,然后获取前二十个候选字符串a[],并且确定该单个字符所在字段对应的字符集T[]。
(2)按顺序从候选字符串中取出一个字符,然后进行判断,如果该候选字符在字符集中,那么我们认为识别成功,图像上的字符就是该候选字符,否则取当前候选字符的下一个字符,重复以上判断过程,如果候选字符串中的所有字符都不在字符集T[]中,我们认为识别失败,用字符#代替。
相对于现有技术,本发明具有如下优点:
1、在实践中,预处理模块处理图像的成功率达到95%,用于票据版面分析的字段切分模块成功率达到90%。单字符切分的模块对于不同的类型的字段有不同的成功率,其中汉字字段的切分成功率为94%,长串数字的切分成功率为62%,短数字的切分成功率约为80%。字符识别模块的成功率由单字切分模块和单字识别SDK共同决定,其中单字识别SDK的识别成功率为98%,综合识别成功率=单字切分模块成功率×单字识别SDK成功率。
2、本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析,能否充分利用这些信息。对于图像质量较低,噪声和图像分辨率影响非常大的图像,利用每个字段区域的语义,有助于将字符串切分成单个字符和单字符的识别。比如,将由纯数字组成的发票号,可以使用专门用于处理只有数字的图像的方法;识别的时候,将识别范围再限制在0~9这十个数字中,识别率即可大大提高。
附图说明
图1是整个票据识别的的工作流程图。
图2是一张典型的医疗票据图像,方框内是一部分有价值的信息。
图3是单字切分的效果图,其中:(a)是字段图像,(b)是经过单字切分后的各个单字的图像序列。
图4是现有的票据信息识别系统的流程图。
图5是预处理前的原图。
图6是预处理过程中由程序自动获取到的背景颜色。
图7是预处理之后的效果,去除了印章、边框以及底纹。
图8是用二值图和方框来表示的模板切分效果,每个方框内是一个字段。
图9是利用版面信息进行字段切分的流程图。
图10是用于长字段切分的十个数字的模板示意图。
图11是长数字字段的切分流程图。
图12是长串数字切分单个字符的具体流程图。
图13是数字切割的效果图,其中:(a)是处理前的字段,数字的上下有空白的边缘,中间部分是有效部分;(b)是切割出有效部分的字段,数字上下的空白边缘被截去;(c)是切割结果。
图14是短字段的切分流程图。
图15是汉字字段的切分流程图。
图16是利用字库对SDK的候选识别结果进行过滤的流程图。
图17是汉字切分效果,其中:(a)是字段,(b)是切分的结果。
图18是字符识别的结果,其中:(a)是单字图像,(b)是候选字符数组。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
具体实施方式一:本实施方式针对医疗行业巨大的票据业务,开发了一个基于Windows系统的医疗票据识别系统,主要功能为医疗票据图像的录入与识别、图像特征信息的收集。
本实施方式根据医疗票据图像的低分辨率和存在多种类型干扰的特点,设计了包含图像预处理、字段切分、单字符切分、字符识别四大模块的装置,其中:
所述图像预处理模块需要实现的功能有:降低原始票据图像上的噪点以提高单字的识别率如背景的底纹,去除原始票据图像中不需要识别的元素如印章、条形码、图像边缘四周的大面积噪点等。本实施方式中,图像预处理模块能够完成去除底纹、印章和边缘噪声等工作,可以解决背景技术中当前技术存在的缺陷(1)。
所述字段切分模块使用模板匹配的方法,根据票据图像的版面信息确定各个字段的语义,并且根据语义来约束字符的识别范围,提高识别率,可以解决背景技术中当前技术存在的缺陷(2)。
所述单字符切分模块针对不同类型的字段使用不同的切分方法,从而提高字符识别的正确率,可以解决背景技术中当前技术存在的缺陷(3)。
所述字符识别模块根据单个字符所在的字段的语义,利用一个字库对OCR识别结果进行过滤,减少识别错误,可以解决背景技术中当前技术存在的缺陷(4)。
具体实施方式二:本实施方式提供了一种低分辨率医疗票据图像的文字自动提取和识别方法,整体处理流程分为以下四大步骤:票据图像的预处理、字段区域识别、字符串分割和字符识别与验证。
步骤1、票据图像的预处理
实施方案大体描述:原则上处理原始票据图像中不需要识别的元素的方法是采用填充该票据图像背景颜色的方法,由于原始票据图像边缘的噪声位置是相对固定的,因此将该区域可以填充背景颜色来达到去除噪声得效果,而在可行性分析阶段,通过对组成印章、表格线的颜色像素进行色彩参数分析,可以利用其色彩参数的范围规律同样采用填充背景颜色的方式达到去除印章,表格线的效果。具体方法如下:
1)采用三个数组red[],green[],blue[]来存放一张图片的所有像素的三原色,分别求这三个数组red[]、green[]、blue[]的中位数red、green、blue,将这三个数作为组成一张图片的背景颜色。原图如图5所示,获得该图的背景颜色如图6所示。
2)确定图片中相应的位置来填充该颜色,需要注意的是不能够对我们需要提取的信息造成覆盖或者其他较大的损伤。
①原图中红色印章的部分,这部分图像数据的特点为红色分量较高,因此red[]数组在红色印章区域的数值均较大,red[]数组的数据范围为0~255,而红色印章区域的数值均达到了200以上,因此可以此为判断条件,将这一部分区域的三原色数据填充为图片背景颜色数据。
②因为表格线、条形码、圆孔、发票名称在原图中的位置是基本不变的(统一印制),因此对于图像的四周的噪点,我们采用相对固定区域填充图片的背景颜色数据,图中左端与右端的黑色圆孔噪点的分布位置是相对固定的,我们以原图的长和宽为基础,按照左端与右端黑色圆孔噪点分布范围与长和宽的比例,在图片的左端与右端填充宽度相同(与发票图像宽度相同)、一定比例长度(覆盖左右端的圆孔噪点)的长方形背景颜色数据,以达到完全去掉黑色圆孔噪点的效果;同样对于图像上下两端存在的少量黑色噪点,也可以采用相同的方法,填充长度相同(与发票图像长度相同)、宽度较窄(以上端不覆盖发票名称,下端不覆盖表格线为准则)的长方形背景颜色数据,可以完全覆盖掉黑色噪点。
③对于票据图片背景中的底纹(以黄色条纹为主),先将原图转化为灰度图,灰度图中每个像素只有一个灰度级,范围为0~255,求得该灰度图中的前后景分离阈值thresh,当灰度图的某个像素的灰度值大于(255*thresh),则可判断该像素点为后景,在原图相同位置上可以填充为背景颜色,因此可以达到去除图片背景中的底纹的效果。
做完上述的处理步骤后,原图的预处理效果如图7所示。
步骤2、字段区域分割
该字段区域分割技术通过使用预先设定好的模板来对特定格式的票据图像内容进行定位。该技术只能针对一种格式的票据进行字段区域定位,对于多种格式的票据没有通用性。
该处的模板是指记录了需要识别内容在票据图像中的相对位置数据的文件,一个模板应当适用于某种特定格式的所有票据图像。具体情况为:模板记录了每一个需要识别的字段区域的语义,以及该区域的左、右、上、下边界,格式为:(name, pLeft, pRight,pTop, pBottom)。边界的值为相对值。一般的票据都有表格框,我们便以表格框左上角顶点为原点,表格框的宽度和高度分别作为两条坐标轴的单位长度,建立坐标系,则pLeft和pTop为某个字段区域的左上角顶点的两个坐标值,pRight和pBottom为右下角顶点的两个坐标值。例如:
姓名,0.102456,0.239612,0.0114286,0.0590476
性别,0.298969,0.322165,0.0114286,0.0590476
合计,0.126804,0.371134,0.9380955,0.9895242
……
字段区域定位的大致过程为找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出。此处需要说明为何要计算偏移量:医疗票据在使用时打印的文字与票据表格框的位置不是固定的,会受打印机以及打印时票据放置位置的影响,因此打印字一般都会有左右和上下的浮动,只要能找到相对于标准位置浮动的大小,即偏移量,就可以较为精确地定位打印字的位置。具体步骤如下:
(1)读入经过预处理后的bmp图像,并且进行二值化和进一步的处理;
(2)通过横纵投影得到图像的投影数组proHori[], proVerti[],遍历数组,通过峰值确定图像中表格框左上角和右下角顶点坐标值,从而得到表格左上角顶点坐标(x0,y0)以及表格的宽度和高度(h, w)。
(3)通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量,比较得出最大值,对应偏移量为最佳的打印字相对于表格的偏移量(offsetX, offsetY)。
(4)计算出每块字段区域的位置(rLeft, rRight, rTop, rBottom)。
rLeft = (x0 + offset) * pLeft;
rRight = (x0 + offsetX) * pRight;
rTop = (y0 + offsetY) * pTop;
rBottom = (y0 + offsetY) * pBottom。
(5)通过第(3)步找到区域的局部图像二值化更精确地定位字段区域,输出每个字段区域的bmp图像文件。
流程图如图9所示。
通过寻找表格框和计算偏移量能针对特定格式的票据图像进行字段区域定位。而对于多种票据格式,可以通过有特征的区域来进行区分,达到可以对多种格式进行处理的目的。效果如图8所示。
步骤3、字符串分割
实践中我们发现无法用一个单字符切分的方法来切分所有的字段,因此我们对不同类型的字段使用不同的单字符切分方法。切分方法主要分为三类:长数字串、短数字串、汉字字段。
(1)长数字串
长数字串的特点是一个字段内包含大量单个字符,字符之间间隔比较小,有些相邻字符之间甚至会连接接在一起。基于以上情况,我们使用一种基于模板匹配的单数字切个方法。
首先定义10个数字模板,分别为数字0到9. 每个模板高度相同,记为h,不同数字的宽度不同。在实践中,我们发现数字“1”的宽度比其他数字的宽度小。在实现过程中,把除了数字“1”以外的其他数字的宽度置为w,数字“1”的宽度置为w-1。模板如图 10所示。
切分流程如图11所示,首先加载十个数字模板,然后读取字段图像,字段图像由步骤2得到。步骤2分割出来的图像会有空白的边缘,首先利用水平投影的方法去掉上下部分的边缘,效果如图13的(a)和(b)所示。
去掉上下边缘后开始切分单个字符,过程如下:
1)初始化变量maxdigit、maxscore、maxb、maxwidth,分别用来记录最佳匹配的数字、得分、滑动窗口偏移量、模板宽度。
2)用垂直投影找到字段有效部分的起始坐标base和终止坐标tail,阈值取字段高度的1/5。
3)进入切割单个数字的循环,每次从字段中截去一个数字,并且更新base,直到base+maxwidth超过tail。
4)为了使模板能够匹配到最佳位置,以base为基础,建立一个宽度为5个像素的滑动窗口,变量b用于记录当前滑动窗口的偏移量,b的取值范围是[-2,+2],对于每个b的取值,计算出滑动窗口的当前左坐标cur=base+b。
5)依次用十个模板进行匹配,记录每个模板正确匹配的点数goodpt,并且根据的每个模板的总像素点数目totalpt计算出每个模板的当前得分tscore=goodpt/totalpt。如果当前得分大于最大得分maxscore,那么更新maxdigit、maxb和maxscore,具体方法为:maxdigit置为当前正在匹配的模板对应的数字,maxb为当前的偏移量b,maxsocre置为当前得分tscore,maxwidth置为当前匹配的模板对应数字的宽度。
模板匹配的过程:模板上的点(x,y),字段二值图像上对应点(a,b),在(a,b)点的像素值等于1的情况下,如果(x,y)点的像素值等于0,goodpt减少1。如果(x,y)==255,goodpt增加1,否则goodpt不变。(x,y)只有在模板的左右边缘取值为0,我们称之为“罚因子”,用来避免从中间把数字切开。
6)遍历整个b的取值后,就可以根据max*变量的取值进行单个数字的切割,其中数字的左上角坐标为(base+maxb,0),宽度为maxwidth,高度为字段的高度h。切割出一个数字之后,更新base,base=base+maxb+maxwidth。
7)返回步骤3),直到base+maxwidth>=tail。
切分的流程图如图12所示。
(2)短数字串
短数字串的特点是噪音相对比较大,并且有小数点,由于长数字串的没有小数点,因此长数字串对于噪点的容忍度比较高,如果使用相同的方案进行短数字串的分割则会造成对噪音的误处理率增大。因此短数字使用更加单一的维度进行字符串分割,效果较长字符串有一定的提升。
1)读入切好的字符片段图像I,该图像由步骤2得到;
2)对图像I进行灰度化和二值化,得到二值图biImg;
3)在biImg二值图上进行水平和垂直投影,计算并且获得产生的投影数组hori[]和verti[];
4)设立空白阈值blankGate;
5)遍历hori[]数组:
6)根据空白阈值寻找数字位置,根据定长先确定一个切割位置cutPoint;
7)在cutPoint左右进行探测,寻找数字边界特征,并且更新cutPoint值。
关于探测描述如下:
1)遍历位于cutPoint后x1个像素点在(x1为阈值,暂定为10)hori[]数组中的值,与blankGate进行比较,寻找字符后的空白,如果是空白则继续向后探测。
2))在cutPoint+x1的基础上继续向后遍历x2(x2为阈值,暂定为3)个像素点的hori[]的值,判断是否多切。
3)向cutPoint前遍历x3个像素点的hori[]值,判断是否字符的宽度是否比设定的cutPoin阈值更小。
4)根据上述判断对cutPoint进行调整,相应增减距离。
5)判断新的cutPoint是否合适,设立一个字符的最宽宽度和最小宽度;如果小于最小宽度或者大于最大宽度,就按照cutPoint的原设阈值进行切割,否则按照cutPoint+x1+x2或者cutPoint-x3数值进行切分。
根据上述方法进行切割图片,得到最后切割好的单字符图片。
流程图如图14所示。
(3)汉字字段
长字符串的切割中,模板的使用前需要模板的制作,由于数字的模板数量比较小(10个),因此制作起来比较方便。但是对于汉字而言,模板的制作量就很庞大了,调整起来也异常麻烦。因此需要使用更加通用的方式进行切割。汉字的切分相较短数字不同在于,汉字有结构,并且汉字的阈值更加多变,不同的字的阈值范围变化很大,但是汉字的宽度又相差不大,因此,汉字的切割可以使用更加粗略的阈值进行。
汉字字段的切割方法与短数字串流程相同,差异在于cutPoint初始阈值的设立更大。并且汉字图像切割前可能带有与内容无关竖线的噪音,因此需要在遍历hori[]数组的过程中加入一个前置判断是否有竖线噪音。检测方法是比较可能出现竖线的位置的像素点的hori[]数组的值,如果比较大并且像素点比较连续,则为噪音,应当除去。
流程图如图15所示,具体步骤如下:
1)读入由步骤2得到的汉字字段图像I;
2)对图像I进行灰度化和二值化,得到二值图biImg;
3)在biImg二值图上进行水平和垂直投影,计算并且获得产生的投影数组hori[]和verti[];
4)设立空白阈值blankGate;
5)遍历hori[]数组:
6)根据空白阈值寻找当前汉字位置,检测字段图片前端可能的竖线噪音特征,然后根据定长先确定一个汉字切割位置cutPoint;
这里给出竖线噪音检测的原理和过程。一般竖线噪音的特点是:垂直投影有凸显的峰值,但是峰值持续长度比较低。所以遍历hori[]数组,如果有高峰值,遍历该点后的连续一段点的hori[]值。如果连续峰值,则是汉字边界,如果峰值较短,则是竖线噪音,对噪音的处理方式是跳过该竖线噪音,继续进行汉字探测。
7) 在cutPoint左右进行探测,寻找汉字边界特征,并且更新cutPoint值。
关于汉字探测的过程描述如下:
1)遍历位于cutPoint后x1个像素点在(x1为阈值,暂定为10)hori[]数组中的值,与blankGate进行比较,寻找字符后的空白,如果是空白则继续向后探测。
2))在cutPoint+x1的基础上继续向后遍历x2(x2为阈值,暂定为3)个像素点的hori[]的值,判断是否多切。
3)向cutPoint前遍历x3个像素点的hori[]值,判断是否字符的宽度是否比设定的cutPoin阈值更小。
4)根据上述判断对cutPoint进行调整,相应增减距离。
5)判断新的cutPoint是否合适,设立一个字符的最宽宽度和最小宽度;如果小于最小宽度或者大于最大宽度,就按照cutPoint的原设阈值进行切割,否则按照cutPoint+x1+x2或者cutPoint-x3数值进行切分。
步骤4、字符识别与验证
字符识别使用现成的光学字符识别SDK模块。SDK模块接收一个包含一个字符的灰度图,并且可以设置该字符的识别范围,识别范围可以是数字、汉字、符号等。
SDK模块输出一串字符,字符按照与当前图像中的字符的距离从小到大排列。这些字符称为候选字符,候选字符的排名越靠前,该候选字符字符与当前图像中的字符正确匹配的概率越大。在某些情况下,图像中的字符可能不排在候选字符的首位,因此我们使用一个字符集来过滤这些候选字符,具体过程如下:
首先将单个字符的图像输入到SDK,然后获取前二十个候选字符串a[],并且确定该单个字符所在字段对应的字符集T[]。按顺序从候选字符串中取出一个字符。然后进行判断,如果该候选字符在字符集中,那么我们认为识别成功,图像上的字符就是该候选字符。否则取当前候选字符的下一个字符,重复以上判断过程。如果候选字符串中的所有字符都不在字符集T[]中,我们认为识别失败,用字符#代替。(假设字符#不会出现在任何字段中)。字符过滤的流程如图16所示。
具体实施方式三:本实施方式中处理的票据图像为“北京市医疗门诊收费票据”,如图5所示。
在具体的实施过程中,采集影像时要求扫描设备为目前主流的平板扫描仪,推荐带有自动影像裁切功能的扫描仪,例如富士通fi-5220c高速扫描仪,扫描时尽量使支票影像的四边与扫描仪的扫描框平行,扫描生成的票据影像需要具备以下特征:
1、图像分辨率为200dpi以上的彩色图像;
2、影像宽大于1500像素,高大于650像素(以下文中默认图像尺寸大小及坐标都是像素);
3、影像存储格式为24位JPG格式、tiff格式、256色bmp格式中的一种;
4、影像中票据票面全部清晰可见,除票据票面以外的影像边缘背景部分为纯黑色,即RGB值为(0,0,0);
5、票据影像中票据部分相对于整个影像没有大幅倾斜,票据在扫描前经过检验,票据要素没有污损和故意涂改。
具体影像参考图5,如果输入的票据影像没有达到上述标准将可能导致识别率很低或无法识别。
在具体的实施过程中,按照图1所示的流程对票据图像进行处理,具体过程如下:
1、票据图像预处理:
在具体的实施过程中,原则上处理原始票据图像中印章、条形码、边缘的黑块、底纹等不需要识别的元素的方法是采用填充该票据图像背景颜色的方法,由于原始票据图像边缘的噪声位置是相对固定的,因此将该区域可以填充背景颜色来达到去除噪声得效果,而在可行性分析阶段,通过对组成印章、表格线的颜色像素进行色彩参数分析,可以利用其色彩参数的范围规律同样采用填充背景颜色的方式达到去除印章,表格线的效果。具体方法如下:
1)采用三个数组red[]、green[]、blue[]来存放一张图片的所有像素的三原色,通过分别求这三个数组red[]、green[]、blue[]的中位数red、green、blue,这三个数作为组成一张图片的背景颜色。原图如图5所示,可获得该图的背景颜色如图6所示。
2)确定图片中相应的位置来填充该颜色,需要注意的是不能够对我们需要提取的信息造成覆盖或者其他较大的损伤。做完上述的处理步骤后,原图的预处理效果如图7所示。
2、字段区域分割
在具体的实施过程中,字段区域定位技术通过使用预先设定好的模板来对特定格式的票据图像内容进行定位。其中,模板记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界,格式为:(name、pLeft、pRight、pTop、pBottom)。边界的值为相对值。一般的票据都有表格框,我们便以表格框左上角顶点为原点,表格框的宽度和高度分别作为两条坐标轴的单位长度,建立坐标系,则pLeft和pTop为某个字符区域的左上角顶点的两个坐标值,pRight和pBottom为右下角顶点的两个坐标值。例如:
姓名,0.102456,0.239612,0.0114286,0.0590476
性别,0.298969,0.322165,0.0114286,0.0590476
合计,0.126804,0.371134,0.9380955,0.9895242
……
字段区域定位的大致过程为找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出。执行步骤如下:
(1)读入经过预处理后的bmp图像,并且进行二值化和进一步的处理。
(2)通过横纵投影得到图像的投影数组proHori[]、proVerti[],遍历数组,通过峰值确定图像中表格框左上角和右下角顶点坐标值,从而得到表格左上角顶点坐标(x0,y0)以及表格的宽度和高度(h, w)。
(3)通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量,比较得出最大值,对应偏移量为最佳的打印字相对于表格的偏移量(offsetX,offsetY)。
(4)计算出每块字段区域的位置(rLeft、rRight、rTop、rBottom)。
(5)通过第(3)步找到区域的局部图像二值化更精确地定位字段区域,输出每个字段区域的bmp图像文件。
流程图如图9所示,效果如图8所示。
3、字符串分割
实践中,我们把字段分为三种类型,分别是汉字字段、长数字字段和短数字字段。以下将分别说明三种类型对应的切分方法以及方法的效果。
(1)长数字串
首先定义10个数字模板, 所有数字的高度都相同,数字“1”的宽度比其他数字的宽度少一个像素点。所有模板有三个灰度级,灰度级为0表示左右边缘,宽度为1像素,灰度级为255表示数字的图形,其余部分为背景,灰度级为50。每个模板的高度为25个像素点,除了数字“1”,其他数字模板的宽度为16个像素点。
然后去除字段上下部分的空白边缘,具体效果如图13所示,在图(a)中,原字段的上下边有空白,实际高度大于25个像素,这里运用横向投影的方法去除上下的空白,去除后的字段再运用缩放算法,将高度固定为25个像素点。
之后利用横向投影,得到字段的起始坐标base和终止坐标tail,运用具体实施方式二中步骤3的(3)方法,切分单字数字的图像,并且按照num_%6d.bmp的命名格式输出。
切分流程按照具体实施方式二中步骤3中的方法进行,效果如图13所示。
(2)短数字串
短数字串的特点是噪音相对比较大,并且有小数点,由于长数字串的没有小数点,因此长数字串对于噪点的容忍度比较高,如果使用相同的方案进行短数字串的分割则会造成对噪音的误处理率增大。因此短数字使用更加单一的维度进行字符串分割,效果较长字符串有一定的提升。
按照具体实施方式二步骤3的(2)方法进行切割图片,得到最后切割好的单字符图片。切分的效果图如图3所示。
(3)汉字字段
汉字字段的切割方法与短数字串流程相同,差异在于cutPoint初始阈值的设立更大。并且汉字图像切割前可能带有与内容无关竖线的噪音,因此需要在遍历hori[]数组的过程中加入一个前置判断是否有竖线噪音。检测方法是比较可能出现竖线的位置的像素点的hori[]数组的值,如果比较大并且像素点比较连续,则为噪音,应当除去。汉字切分的效果如图17所示。
4、字符识别与验证
这一步骤需要用到印刷体单字识别的SDK,具体使用方法如下:
(1)输入字符图片,格式为字符数组,大小为图像高度×图像高度。
(2)设定识别范围,识别范围是一个整数,如0表示所有类型的字符,5表示汉字。
(3)调用离线识别函数进行识别,得到该单字图像的识别结果。识别结果是一个候选的字符数组,包含20个候选字符。
(4)按照具体实施方式二中的步骤4对候选字符进行筛选,得到唯一的识别结果。如果识别结果为符号“#”,那么表示该字符识别失败。
识别结果如图18所示,(a)是识别的单字图像,(b)是候选字符,经过字库筛选后,最终会输出字符“佰”。
下面举一实例验证实验的结果。
实验数据为北京市某机构搜集到的2015年上半年医疗门诊收费票据,其中的样例如图5所示。用于验证识别结果正确性的数据为系统开发的委托方手工录入记录。整个程序用C++编写,开发平台为VS2013。
统计的票据总共21张,每张票据上有28个需要识别的字符串,总体识别率为92%,可见本发明对于低分辨率医疗票据图像有较高的识别率。

Claims (6)

1.一种低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述方法步骤如下:
一、票据图像的预处理
读取票据影像,采用填充该票据图像背景颜色的方法处理原始票据图像中的噪点和不需要识别的元素;
二、字段区域分割
通过使用预先设定好的模板来对特定格式的票据图像内容进行定位,找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出,所述计算打印文字与模板对比的偏移量的方法如下:
(1)读入经过预处理后的bmp图像,并且进行二值化和进一步的处理;
(2)通过横纵投影得到图像的投影数组proHori[]、proVerti[],遍历数组,通过峰值确定图像中表格框左上角和右下角顶点坐标值,从而得到表格左上角顶点坐标(x0,y0)以及表格的宽度和高度(h,w);
(3)通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量,比较得出最大值,对应偏移量为最佳的打印字相对于表格的偏移量(offsetX,offsetY);
(4)计算出每块字段区域的位置(rLeft,rRight,rTop,rBottom):
rLeft=(x0+offset)*pLeft;
rRight=(x0+offsetX)*pRight;
rTop=(y0+offsetY)*pTop;
rBottom=(y0+offsetY)*pBottom;
pLeft和pTop为某个字段区域的左上角顶点的两个坐标值,pRight和pBottom为右下角顶点的两个坐标值;
(5)通过第(3)步找到区域的局部图像二值化更精确地定位字段区域,输出每个字段区域的bmp图像文件;
三、字符串分割
使用长数字串、短数字串、汉字字段三种不同的切分方法对不同类型的字段进行切分;
四、字符识别与验证
(1)将单个字符的图像输入到SDK模块,然后获取前二十个候选字符串a[],并且确定该单个字符所在字段对应的字符集T[];
(2)按顺序从候选字符串中取出一个字符,然后进行判断,如果该候选字符在字符集中,那么认为识别成功,图像上的字符就是该候选字符,否则取当前候选字符的下一个字符,重复以上判断过程,如果候选字符串中的所有字符都不在字符集T[]中,则认为识别失败,用字符#代替。
2.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述步骤一的具体步骤如下:
1)采用三个数组red[]、green[]、blue[]存放一张图片的所有像素的三原色,分别求这三个数组的中位数red、green、blue,将这三个中位数作为组成一张图片的背景颜色;
2)确定图片中相应的位置来填充背景颜色:
①将原图中红色印章区域的三原色数据填充为图片背景颜色数据;
②表格线、条形码在原图中的位置是不变的,因此对于图像的四周的噪点,采用相对固定区域填充图片的背景颜色数据,图中左端与右端的黑色圆孔噪点的分布位置是相对固定的,以原图的长和宽为基础,按照左端与右端黑色圆孔噪点分布范围与长和宽的比例,在图片的左端与右端填充宽度相同、长度覆盖左右端的圆孔噪点的长方形背景颜色数据,以达到完全去掉黑色圆孔噪点的效果;同样对于图像上下两端存在的黑色噪点,采用相同的方法,填充长度相同、宽度以上端不覆盖发票名称,下端不覆盖表格线为准则的长方形背景颜色数据,以完全覆盖掉黑色噪点;
③对于票据图片背景中的底纹,先将原图转化为灰度图,然后求得该灰度图中的前后景分离阈值thresh,当灰度图的某个像素的灰度值大于255*thresh,则判断该像素点为后景,在原图相同位置上填充为背景颜色。
3.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述模板是指记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界需要识别内容在票据图像中的相对位置数据的文件。
4.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述长数字串切分方法如下:
(1)定义10个数字模板,分别为数字0到9,每个模板高度相同,记为h',数字“1”的宽度置为w'-1,除数字“1”以外的其他数字的宽度置为w';
(2)加载十个数字模板,读取字段图像,利用水平投影的方法去掉上下部分的边缘,截取字段的有效部分;
(3)去掉上下边缘后开始切分单个字符,过程如下:
1)初始化变量maxdigit、maxscore、maxb、maxwidth,分别用来记录最佳匹配的数字、得分、滑动窗口偏移量、模板宽度;
2)用垂直投影找到字段有效部分的起始坐标base和终止坐标tail;
3)进入切割单个数字的循环,每次从字段中截去一个数字,并且更新base,直到base+maxwidth超过tail;
4)为了使模板能够匹配到最佳位置,以base为基础,建立一个宽度为5个像素的滑动窗口,变量b用于记录当前滑动窗口的偏移量,对于每个b的取值,计算出滑动窗口的当前左坐标cur=base+b;
5)依次用十个模板进行匹配,记录每个模板正确匹配的点数goodpt,并且根据的每个模板的总像素点数目totalpt计算出每个模板的当前得分tscore=goodpt/totalpt,如果当前得分大于最大得分maxscore,那么更新maxdigit、maxb和maxscore;
6)遍历整个b的取值后,根据max*变量的取值进行单个数字的切割,其中数字的左上角坐标为(base+maxb,0),宽度为maxwidth,高度为字段的高度h',切割出一个数字之后,更新base,base=base+maxb+maxwidth;
7)返回步骤3),直到base+maxwidth>=tail。
5.根据权利要求4所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述模板匹配的过程:模板上的点(x,y),字段二值图像上对应点(a,b),在(a,b)点的像素值等于1的情况下,如果(x,y)点的像素值等于0,goodpt减少1,如果(x,y)=255,goodpt增加1,否则goodpt不变。
6.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法,其特征在于所述短数字串切分方法如下:
1)读入切好的字符片段图像I;
2)对图像I进行灰度化和二值化,得到二值图biImg;
3)在biImg二值图上进行水平和垂直投影,计算并且获得产生的投影数组hori[]和verti[];
4)设立空白阈值blankGate;
5)遍历hori[]数组:
6)根据空白阈值寻找数字位置,根据定长先确定一个切割位置cutPoint;
7)在cutPoint左右进行探测,寻找数字边界特征,并且更新cutPoint值。
CN201610172317.2A 2016-03-24 2016-03-24 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 Active CN105654072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610172317.2A CN105654072B (zh) 2016-03-24 2016-03-24 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610172317.2A CN105654072B (zh) 2016-03-24 2016-03-24 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法

Publications (2)

Publication Number Publication Date
CN105654072A CN105654072A (zh) 2016-06-08
CN105654072B true CN105654072B (zh) 2019-03-01

Family

ID=56494497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610172317.2A Active CN105654072B (zh) 2016-03-24 2016-03-24 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法

Country Status (1)

Country Link
CN (1) CN105654072B (zh)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106530528B (zh) * 2016-10-11 2020-02-18 上海慧银信息科技有限公司 收银票据信息识别方法及装置
CN106650715B (zh) * 2016-10-26 2019-07-12 西安电子科技大学 一种根据允许集对字符串ocr识别结果检错与纠错的方法
CN106682683B (zh) * 2016-11-03 2020-09-29 知酒(上海)网络科技有限公司 一种酒标图片的识别方法以及装置
CN106682665B (zh) * 2016-12-27 2020-07-14 陕西科技大学 一种基于计算机视觉的七段式数显仪表数字识别方法
CN106682671A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 图像文字识别系统
CN108280389A (zh) * 2017-01-06 2018-07-13 南通艾思达智能科技有限公司 医疗票据icr识别系统及其医疗票据识别方法
CN106960208B (zh) * 2017-03-28 2020-03-31 哈尔滨工业大学 一种仪表液晶数字自动切分和识别的方法及系统
CN107220648B (zh) 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN107194400B (zh) * 2017-05-31 2019-12-20 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107480681A (zh) * 2017-08-02 2017-12-15 四川长虹电器股份有限公司 基于深度学习的高并发票据识别系统与方法
CN107368690B (zh) * 2017-08-09 2022-01-18 贵阳朗玛信息技术股份有限公司 医学影像图片的预处理方法及装置
CN109426814B (zh) * 2017-08-22 2023-02-24 顺丰科技有限公司 一种发票图片特定板块的定位、识别方法、系统、设备
CN107918916A (zh) * 2017-09-13 2018-04-17 平安科技(深圳)有限公司 自助理赔申请处理方法、装置、计算机设备及存储介质
CN107622255B (zh) * 2017-10-12 2020-09-01 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN107766014B (zh) * 2017-11-06 2019-12-10 珠海奔图电子有限公司 文字增强方法及装置
CN109902534A (zh) * 2017-12-07 2019-06-18 南通艾思达智能科技有限公司 一种定位医疗票据表格四边的方法
CN107808154B (zh) * 2017-12-08 2021-03-30 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
CN108875721A (zh) * 2017-12-18 2018-11-23 南通艾思达智能科技有限公司 一种多规格文本协同定位和提取方法
CN110008478B (zh) * 2017-12-30 2023-10-31 中国移动通信集团贵州有限公司 语言转换方法、装置、计算设备及存储介质
CN108269233B (zh) * 2018-03-15 2021-07-27 福州大学 一种基于底纹半色调的文字抖动方法
CN108427946B (zh) * 2018-03-16 2021-11-26 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN108830133B (zh) * 2018-04-17 2020-02-21 平安科技(深圳)有限公司 合同影像图片的识别方法、电子装置及可读存储介质
CN108628858A (zh) * 2018-04-20 2018-10-09 广东科学技术职业学院 基于移动终端的文字扫描识别在线翻译的操作方法及系统
CN110457973A (zh) * 2018-05-07 2019-11-15 北京中海汇银财税服务有限公司 一种票据识别的方法及系统
CN108710880A (zh) * 2018-05-16 2018-10-26 深圳市众信电子商务交易保障促进中心 一种数据抓取方法及终端
CN108777021B (zh) * 2018-05-18 2020-08-28 北京大账房网络科技股份有限公司 一种基于扫描仪混扫的票据识别方法及系统
CN108717545B (zh) * 2018-05-18 2020-12-18 北京大账房网络科技股份有限公司 一种基于手机拍照的票据识别方法及系统
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109344831B (zh) * 2018-08-22 2024-04-05 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109145904A (zh) * 2018-08-24 2019-01-04 讯飞智元信息科技有限公司 一种字符识别方法及装置
TWI684157B (zh) * 2018-10-12 2020-02-01 南山人壽保險股份有限公司 一種基於行動載具之智能理賠系統
CN109376658B (zh) * 2018-10-26 2022-03-08 信雅达科技股份有限公司 一种基于深度学习的ocr方法
CN109344838B (zh) * 2018-11-02 2023-11-24 长江大学 发票信息自动快速识别方法、系统以及装置
CN109460387A (zh) * 2018-11-05 2019-03-12 帝麦克斯(苏州)医疗科技有限公司 文件名生成方法及装置
CN109711402B (zh) * 2018-12-14 2021-06-04 杭州睿琪软件有限公司 一种医疗单据识别方法及计算机可读存储介质
CN109886077B (zh) * 2018-12-28 2021-07-09 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN109919076B (zh) * 2019-03-04 2022-01-04 厦门商集网络科技有限责任公司 基于深度学习的确认ocr识别结果可靠性的方法及介质
CN109993126B (zh) * 2019-04-03 2023-10-24 腾讯科技(深圳)有限公司 文件信息确定方法、装置、设备及可读存储介质
CN110175610B (zh) * 2019-05-23 2023-09-05 上海交通大学 一种支持隐私保护的票据图像文本识别方法
CN110263740A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的不同类型印刷体文档转录方法
CN111767769A (zh) * 2019-08-14 2020-10-13 北京京东尚科信息技术有限公司 一种文本提取方法、装置、电子设备及存储介质
CN110525069A (zh) * 2019-08-21 2019-12-03 珠海思格特智能系统有限公司 一种用于智能印章机的ocr对比系统及其方法
CN110634222B (zh) * 2019-08-27 2021-07-09 河海大学 一种银行票据信息识别方法
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110609986B (zh) * 2019-09-30 2022-04-05 哈尔滨工业大学 一种基于预训练的结构化数据生成文本的方法
CN112651910B (zh) * 2019-10-11 2023-12-26 新疆三维智达网络科技有限公司 一种叠加防伪印章的生成方法及系统
CN110826569B (zh) * 2019-11-05 2022-07-19 泰康保险集团股份有限公司 票据图像的预处理方法、装置、介质及电子设备
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN111126151A (zh) * 2019-11-25 2020-05-08 泰康保险集团股份有限公司 识别票据图像中的字段的方法、装置、设备和介质
CN111046874A (zh) * 2019-12-12 2020-04-21 北京小白世纪网络科技有限公司 一种基于模板匹配的单号识别方法
CN113496115B (zh) * 2020-04-08 2023-07-28 中国移动通信集团广东有限公司 文件内容比对方法和装置
CN111539415A (zh) * 2020-04-26 2020-08-14 梁华智能科技(上海)有限公司 一种ocr图像识别的图像处理方法及系统
CN111291741B (zh) * 2020-05-13 2020-11-03 太平金融科技服务(上海)有限公司 单据识别方法、装置、计算机设备和存储介质
CN111666886A (zh) * 2020-06-08 2020-09-15 成都知识视觉科技有限公司 一种医疗单证结构化知识提取的图像预处理方法
CN111754525A (zh) * 2020-06-23 2020-10-09 苏州中科全象智能科技有限公司 一种基于非精确切分的工业字符检测流程
CN111784423B (zh) * 2020-07-31 2023-08-25 广东电网有限责任公司梅州供电局 发票匹配方法、装置、电子设备和存储介质
CN111860450A (zh) * 2020-08-03 2020-10-30 理光图像技术(上海)有限公司 票证识别装置以及票证信息管理系统
CN112149401B (zh) * 2020-08-10 2024-03-15 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
CN111931666B (zh) * 2020-08-13 2024-02-13 中国工商银行股份有限公司 凭证自动化处理系统及方法
CN112598505A (zh) * 2020-12-25 2021-04-02 无锡航吴科技有限公司 一种基于比对规则的国有融资平台监管系统及方法
US20220208317A1 (en) * 2020-12-29 2022-06-30 Industrial Technology Research Institute Image content extraction method and image content extraction device
CN112819004B (zh) * 2021-02-03 2021-08-24 杭州海量信息技术有限公司 一种用于医疗票据ocr识别的图像预处理方法及系统
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法
CN112966537B (zh) * 2021-02-10 2022-12-09 北京邮电大学 基于二维码定位的表单识别方法及系统
CN112926456B (zh) * 2021-02-26 2022-11-15 格学教育科技(唐山)有限公司 一种基于状态机的识别文字逻辑重组方法
CN112926589B (zh) * 2021-03-18 2023-10-10 上海晨兴希姆通电子科技有限公司 环形字符分割识别方法及其系统
CN114936965B (zh) * 2022-06-07 2023-06-02 上海弘玑信息技术有限公司 一种印章去除方法、装置、设备及存储介质
CN116452615B (zh) * 2023-06-19 2023-10-03 恒银金融科技股份有限公司 冠字号区域前景和背景的分割方法和装置
CN117037190B (zh) * 2023-10-10 2023-12-15 北京惠朗时代科技有限公司 一种基于数据分析的印章识别管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833859A (zh) * 2010-05-14 2010-09-15 山东大学 基于虚拟线圈的自触发车牌识别方法
CN102446264A (zh) * 2010-10-15 2012-05-09 航天信息股份有限公司 增值税专用发票二维码的打印与扫描识别方法及系统
CN102737242A (zh) * 2012-06-12 2012-10-17 丰豪盈彩(北京)科技有限公司 应用于移动终端的票据自动识别方法和系统
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN104966047A (zh) * 2015-05-22 2015-10-07 浪潮电子信息产业股份有限公司 一种车牌识别的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833859A (zh) * 2010-05-14 2010-09-15 山东大学 基于虚拟线圈的自触发车牌识别方法
CN102446264A (zh) * 2010-10-15 2012-05-09 航天信息股份有限公司 增值税专用发票二维码的打印与扫描识别方法及系统
CN102737242A (zh) * 2012-06-12 2012-10-17 丰豪盈彩(北京)科技有限公司 应用于移动终端的票据自动识别方法和系统
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN104966047A (zh) * 2015-05-22 2015-10-07 浪潮电子信息产业股份有限公司 一种车牌识别的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"非固定格式打印票据的自动分割与识别";季婧婧;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160115(第1期);第2.1.1-2.1.3节

Also Published As

Publication number Publication date
CN105654072A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105654072B (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN104112128B (zh) 应用于票据影像字符识别的数字图像处理系统及方法
US7421126B2 (en) Method and system for searching form features for form identification
CN1103087C (zh) 光学扫描表单识别及更正方法
US8306325B2 (en) Text character identification system and method thereof
CN1198236C (zh) 单据读出系统和单据读出方法
CN111476109A (zh) 票据处理方法、票据处理装置和计算机可读存储介质
CN110135225B (zh) 样本标注方法及计算机存储介质
CN109784342A (zh) 一种基于深度学习模型的ocr识别方法及终端
CN107622268A (zh) 一种身份证字符分割的方法
CN110135407B (zh) 样本标注方法及计算机存储介质
CN112861865A (zh) 一种基于ocr技术的辅助审计方法
CN110598581B (zh) 基于卷积神经网络的光学乐谱识别方法
CN116740723A (zh) 一种基于开源Paddle框架的PDF文档识别方法
CN111860487A (zh) 基于深度神经网络的碑文标注检测识别系统
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
RU2436156C1 (ru) Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (ocr), где выходные данные включают в себя более одной альтернативы распознавания изображения символа
CN104077562B (zh) 一种答卷的扫描方向判断方法
KR101486495B1 (ko) 사후 광학 문자 인식 처리에서의 형상 클러스터링 기법
KR100655916B1 (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
CN116403233A (zh) 一种基于数字化档案图像定位及识别方法
CN110246098B (zh) 一种碎片复原方法
CN110135426B (zh) 样本标注方法及计算机存储介质
JP3955467B2 (ja) 画像処理プログラム及び画像処理装置
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant