CN105654072B

CN105654072B - 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法

Info

Publication number: CN105654072B
Application number: CN201610172317.2A
Authority: CN
Inventors: 苏统华; 涂志莹; 周圣杰; 曹源江; 周靖淳; 周韬宇; 孙黎
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2016-03-24
Filing date: 2016-03-24
Publication date: 2019-03-01
Anticipated expiration: 2036-03-24
Also published as: CN105654072A

Abstract

本发明公开了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法，所述系统包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块，所述方法包括据图像的预处理、字段区域识别、字符串分割和字符识别与验证四大步骤。本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析，能够充分利用这些信息。对于图像质量较低，噪声和图像分辨率影响非常大的图像，利用每个字段区域的语义，有助于将字符串切分成单个字符，从而转化为对单字符的识别。比如，将由纯数字组成的发票号，可以使用专门用于处理只有数字的图像的方法；识别的时候，将识别范围再限制在0~9这十个数字中，识别率即可大大提高。

Description

一种低分辨率医疗票据图像的文字自动提取和识别系统与方法

技术领域

本发明涉及一种自动提取和识别医疗票据信息的系统与方法。

背景技术

医院和社区门诊中存在大量的纸质医疗票据，这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来，医院和社区门诊的医疗票据管理工作的手段落后而造成的一系列麻烦和问题，一直困扰着医院的管理人员。在医疗票据信息的处理工作方面，绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理+纸质的库房保存+人工的查询更新”的阶段，这成为了阻碍医疗产业信息化发展的一大根源。因此，为了解决这一薄弱环节，使用一种“集中、统一、高效、规范”的医疗票据信息处理方法，已经成为了医院亟待解决的问题。

相比于传统的手工录入票据的方法，光学字符识别（OCR）方法具有成本低、速度快等特点。光学字符识别技术应用广泛，其中一个重要的应用是识别激光打印票据图像上的文字。结合数字图像处理技术和机器学习技术，光学字符识别装置的正确率可以大幅提高。

但针式打印票据图像的文字自动提取和识别是比较挑战的任务。针式打印的票据分辨率较低并常常伴有印章、底纹等干扰因素，需要有效的图像处理技术在不损害文字信息的情况下去除干扰，需要根据票据的启发性信息辅助文字区域的定位和切分，更需要光学字符识别方法具有很好的抗干扰能力和鲁棒性（robustness）。

现有票据图像字符识别系统的主要处理流程如图1所示，主要分为票据图像预处理、字段切分、单字符切分、字符识别这四个步骤，其中：

图像预处理步骤的主要目的是对原图像进行去黑边、去噪点、纠偏以及将原图像转化为灰度图或者二值图。

字段切分步骤是提取图像上的字符区域，切分出票据的文字行并去除噪音。这里的字段定义为一个图像区域，区域内只包含一行字符。

单字符切分步骤是将上一个步骤得到的字段图像进一步细分，得到一系列单个字符的图像。

字符识别步骤是利用OCR对所提取的字符区域进行字符识别以输出文本。

与本发明最接近的同类技术流程如图4所示，主要包括以下五个步骤：

第一步、影像输入：主要利用光学仪器对票据进行扫描，生成相应的影像数据。光学仪器包括扫描仪、传真机、数码相机等。影像生成时的光照条件、影像分辨率等因素会影像到后续的识别效果和正确率。

第二步、图像预处理：主要包括色彩校正、倾斜校正、噪声过滤以及统一将影像转换为二值图或者灰度图。

第三步、字符区域分割：需要将字符区域从上一步骤得到的灰度图中分离出来。

第四步、单字符分割：主要是将上一步骤的字符区域按字符进行分割，然后对单个字符提取其字符特征，为后续匹配识别做准备。

第五步、匹配识别：根据单个字符区域的统计特征或者结构特征，对上一步骤得到的单个字符进行匹配和识别，最后输出文本。

当前的技术在如下四个方面存在缺陷：

（1）预处理部分缺少对印章的处理。预处理部分应该包含图像增强、边界和底纹处理等。大多数的票据图像都包含一个或多个印章，如果不对印章进行处理，被印章覆盖的文字区域可能受到污染，从而使字符的识别率降低。

（2）没有对票据图像进行版面分析，各个信息区域的语义不明确。对票据进行版面分析能获得非常多的有用信息，充分利用这些信息，对于票据识别结果的提高是非常有帮助的。比如，“发票号”总是出现在发票的右上角条形码的下方，是红色的数字，很容易定位；而发票号是由纯数字组成的数字串，知道是数字串后，就可以使用一套专门用于处理只有数字的图像的方法（由于图像质量较低，噪声和图像分辨率的影响非常大，切割时常出现将一个数字切割成两个，或是把噪声当成一个数字，所以有必要单独使用一套处理方法），识别的时候，将识别范围再限制在0~9这十个数字中，识别率即可大大提高。

（3）对所有的信息区域运用相同的信息提取方式，没有有效利用区域的语义约束，字符的识别正确率较低。

（4）在单字符的识别过程中，没有充分利用该字符所在字段的语义信息，可能导致单字符识别错误率高。

发明内容

为了解决当前技术存在的上述四大缺陷，本发明提供了一种低分辨率医疗票据图像的文字自动提取和识别系统与方法。

本发明的目的是通过以下技术方案实现的：

一种低分辨率医疗票据图像的文字自动提取和识别系统，包括图像预处理模块、字段切分模块、单字符切分模块、字符识别模块四大模块，其中：

所述图像预处理模块用于降低原始票据图像上的噪点和去除原始票据图像中不需要识别的元素；

所述字段切分模块用于使用模板匹配的方法，根据票据图像的版面信息确定各个字段的语义，并且根据语义来约束字符的识别范围；

所述单字符切分模块用于使用不同的切分方法切分不同类型的字段；

所述字符识别模块用于根据单个字符所在的字段的语义，利用一个字库对OCR识别结果进行过滤。

一种低分辨率医疗票据图像的文字自动提取和识别方法，包括以下步骤：

一、票据图像的预处理

读取票据影像，采用填充该票据图像背景颜色的方法处理原始票据图像中的噪点和不需要识别的元素。

二、字段区域分割

通过使用预先设定好的模板来对特定格式的票据图像内容进行定位，找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出，所述模板是指记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界需要识别内容在票据图像中的相对位置数据的文件。

三、字符串分割

使用长数字串、短数字串、汉字字段三种不同的切分方法对不同类型的字段进行切分。

四、字符识别与验证

（1）将单个字符的图像输入到SDK，然后获取前二十个候选字符串a[]，并且确定该单个字符所在字段对应的字符集T[]。

（2）按顺序从候选字符串中取出一个字符，然后进行判断，如果该候选字符在字符集中，那么我们认为识别成功，图像上的字符就是该候选字符，否则取当前候选字符的下一个字符，重复以上判断过程，如果候选字符串中的所有字符都不在字符集T[]中，我们认为识别失败，用字符#代替。

相对于现有技术，本发明具有如下优点：

1、在实践中，预处理模块处理图像的成功率达到95%，用于票据版面分析的字段切分模块成功率达到90%。单字符切分的模块对于不同的类型的字段有不同的成功率，其中汉字字段的切分成功率为94%，长串数字的切分成功率为62%，短数字的切分成功率约为80%。字符识别模块的成功率由单字切分模块和单字识别SDK共同决定，其中单字识别SDK的识别成功率为98%，综合识别成功率=单字切分模块成功率×单字识别SDK成功率。

2、本发明能够更好的适用于低分辨率医疗票据图像的文字自动提取和识别。通过对票据进行版面分析，能否充分利用这些信息。对于图像质量较低，噪声和图像分辨率影响非常大的图像，利用每个字段区域的语义，有助于将字符串切分成单个字符和单字符的识别。比如，将由纯数字组成的发票号，可以使用专门用于处理只有数字的图像的方法；识别的时候，将识别范围再限制在0~9这十个数字中，识别率即可大大提高。

附图说明

图1是整个票据识别的的工作流程图。

图2是一张典型的医疗票据图像，方框内是一部分有价值的信息。

图3是单字切分的效果图，其中：（a）是字段图像，（b）是经过单字切分后的各个单字的图像序列。

图4是现有的票据信息识别系统的流程图。

图5是预处理前的原图。

图6是预处理过程中由程序自动获取到的背景颜色。

图7是预处理之后的效果，去除了印章、边框以及底纹。

图8是用二值图和方框来表示的模板切分效果，每个方框内是一个字段。

图9是利用版面信息进行字段切分的流程图。

图10是用于长字段切分的十个数字的模板示意图。

图11是长数字字段的切分流程图。

图12是长串数字切分单个字符的具体流程图。

图13是数字切割的效果图，其中：（a）是处理前的字段，数字的上下有空白的边缘，中间部分是有效部分；（b）是切割出有效部分的字段，数字上下的空白边缘被截去；（c）是切割结果。

图14是短字段的切分流程图。

图15是汉字字段的切分流程图。

图16是利用字库对SDK的候选识别结果进行过滤的流程图。

图17是汉字切分效果，其中：（a）是字段，（b）是切分的结果。

图18是字符识别的结果，其中：（a）是单字图像，（b）是候选字符数组。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

具体实施方式一：本实施方式针对医疗行业巨大的票据业务，开发了一个基于Windows系统的医疗票据识别系统，主要功能为医疗票据图像的录入与识别、图像特征信息的收集。

本实施方式根据医疗票据图像的低分辨率和存在多种类型干扰的特点，设计了包含图像预处理、字段切分、单字符切分、字符识别四大模块的装置，其中：

所述图像预处理模块需要实现的功能有：降低原始票据图像上的噪点以提高单字的识别率如背景的底纹，去除原始票据图像中不需要识别的元素如印章、条形码、图像边缘四周的大面积噪点等。本实施方式中，图像预处理模块能够完成去除底纹、印章和边缘噪声等工作，可以解决背景技术中当前技术存在的缺陷（1）。

所述字段切分模块使用模板匹配的方法，根据票据图像的版面信息确定各个字段的语义，并且根据语义来约束字符的识别范围，提高识别率，可以解决背景技术中当前技术存在的缺陷（2）。

所述单字符切分模块针对不同类型的字段使用不同的切分方法，从而提高字符识别的正确率，可以解决背景技术中当前技术存在的缺陷（3）。

所述字符识别模块根据单个字符所在的字段的语义，利用一个字库对OCR识别结果进行过滤，减少识别错误，可以解决背景技术中当前技术存在的缺陷（4）。

具体实施方式二：本实施方式提供了一种低分辨率医疗票据图像的文字自动提取和识别方法，整体处理流程分为以下四大步骤：票据图像的预处理、字段区域识别、字符串分割和字符识别与验证。

步骤1、票据图像的预处理

实施方案大体描述：原则上处理原始票据图像中不需要识别的元素的方法是采用填充该票据图像背景颜色的方法，由于原始票据图像边缘的噪声位置是相对固定的，因此将该区域可以填充背景颜色来达到去除噪声得效果，而在可行性分析阶段，通过对组成印章、表格线的颜色像素进行色彩参数分析，可以利用其色彩参数的范围规律同样采用填充背景颜色的方式达到去除印章，表格线的效果。具体方法如下：

1）采用三个数组red[],green[],blue[]来存放一张图片的所有像素的三原色，分别求这三个数组red[]、green[]、blue[]的中位数red、green、blue，将这三个数作为组成一张图片的背景颜色。原图如图5所示，获得该图的背景颜色如图6所示。

2）确定图片中相应的位置来填充该颜色，需要注意的是不能够对我们需要提取的信息造成覆盖或者其他较大的损伤。

①原图中红色印章的部分，这部分图像数据的特点为红色分量较高，因此red[]数组在红色印章区域的数值均较大，red[]数组的数据范围为0~255，而红色印章区域的数值均达到了200以上，因此可以此为判断条件，将这一部分区域的三原色数据填充为图片背景颜色数据。

②因为表格线、条形码、圆孔、发票名称在原图中的位置是基本不变的（统一印制），因此对于图像的四周的噪点，我们采用相对固定区域填充图片的背景颜色数据，图中左端与右端的黑色圆孔噪点的分布位置是相对固定的，我们以原图的长和宽为基础，按照左端与右端黑色圆孔噪点分布范围与长和宽的比例，在图片的左端与右端填充宽度相同（与发票图像宽度相同）、一定比例长度（覆盖左右端的圆孔噪点）的长方形背景颜色数据，以达到完全去掉黑色圆孔噪点的效果；同样对于图像上下两端存在的少量黑色噪点，也可以采用相同的方法，填充长度相同（与发票图像长度相同）、宽度较窄（以上端不覆盖发票名称，下端不覆盖表格线为准则）的长方形背景颜色数据，可以完全覆盖掉黑色噪点。

③对于票据图片背景中的底纹（以黄色条纹为主），先将原图转化为灰度图，灰度图中每个像素只有一个灰度级，范围为0~255，求得该灰度图中的前后景分离阈值thresh，当灰度图的某个像素的灰度值大于(255*thresh)，则可判断该像素点为后景，在原图相同位置上可以填充为背景颜色，因此可以达到去除图片背景中的底纹的效果。

做完上述的处理步骤后，原图的预处理效果如图7所示。

步骤2、字段区域分割

该字段区域分割技术通过使用预先设定好的模板来对特定格式的票据图像内容进行定位。该技术只能针对一种格式的票据进行字段区域定位，对于多种格式的票据没有通用性。

该处的模板是指记录了需要识别内容在票据图像中的相对位置数据的文件，一个模板应当适用于某种特定格式的所有票据图像。具体情况为：模板记录了每一个需要识别的字段区域的语义，以及该区域的左、右、上、下边界，格式为：（name, pLeft, pRight,pTop, pBottom）。边界的值为相对值。一般的票据都有表格框，我们便以表格框左上角顶点为原点，表格框的宽度和高度分别作为两条坐标轴的单位长度，建立坐标系，则pLeft和pTop为某个字段区域的左上角顶点的两个坐标值，pRight和pBottom为右下角顶点的两个坐标值。例如：

姓名，0.102456，0.239612，0.0114286，0.0590476

性别，0.298969，0.322165，0.0114286，0.0590476

合计，0.126804，0.371134，0.9380955，0.9895242

……

字段区域定位的大致过程为找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出。此处需要说明为何要计算偏移量：医疗票据在使用时打印的文字与票据表格框的位置不是固定的，会受打印机以及打印时票据放置位置的影响，因此打印字一般都会有左右和上下的浮动，只要能找到相对于标准位置浮动的大小，即偏移量，就可以较为精确地定位打印字的位置。具体步骤如下：

（1）读入经过预处理后的bmp图像，并且进行二值化和进一步的处理;

（2）通过横纵投影得到图像的投影数组proHori[], proVerti[]，遍历数组，通过峰值确定图像中表格框左上角和右下角顶点坐标值，从而得到表格左上角顶点坐标（x0,y0）以及表格的宽度和高度（h, w）。

（3）通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量，比较得出最大值，对应偏移量为最佳的打印字相对于表格的偏移量（offsetX, offsetY）。

（4）计算出每块字段区域的位置（rLeft, rRight, rTop, rBottom）。

rLeft = (x0 + offset) * pLeft；

rRight = (x0 + offsetX) * pRight；

rTop = (y0 + offsetY) * pTop；

rBottom = (y0 + offsetY) * pBottom。

（5）通过第（3）步找到区域的局部图像二值化更精确地定位字段区域，输出每个字段区域的bmp图像文件。

流程图如图9所示。

通过寻找表格框和计算偏移量能针对特定格式的票据图像进行字段区域定位。而对于多种票据格式，可以通过有特征的区域来进行区分，达到可以对多种格式进行处理的目的。效果如图8所示。

步骤3、字符串分割

实践中我们发现无法用一个单字符切分的方法来切分所有的字段，因此我们对不同类型的字段使用不同的单字符切分方法。切分方法主要分为三类：长数字串、短数字串、汉字字段。

（1）长数字串

长数字串的特点是一个字段内包含大量单个字符，字符之间间隔比较小，有些相邻字符之间甚至会连接接在一起。基于以上情况，我们使用一种基于模板匹配的单数字切个方法。

首先定义10个数字模板，分别为数字0到9. 每个模板高度相同，记为h，不同数字的宽度不同。在实践中，我们发现数字“1”的宽度比其他数字的宽度小。在实现过程中，把除了数字“1”以外的其他数字的宽度置为w，数字“1”的宽度置为w-1。模板如图 10所示。

切分流程如图11所示，首先加载十个数字模板，然后读取字段图像，字段图像由步骤2得到。步骤2分割出来的图像会有空白的边缘，首先利用水平投影的方法去掉上下部分的边缘，效果如图13的（a）和（b）所示。

去掉上下边缘后开始切分单个字符，过程如下：

1）初始化变量maxdigit、maxscore、maxb、maxwidth，分别用来记录最佳匹配的数字、得分、滑动窗口偏移量、模板宽度。

2）用垂直投影找到字段有效部分的起始坐标base和终止坐标tail，阈值取字段高度的1/5。

3）进入切割单个数字的循环，每次从字段中截去一个数字，并且更新base，直到base+maxwidth超过tail。

4）为了使模板能够匹配到最佳位置，以base为基础，建立一个宽度为5个像素的滑动窗口，变量b用于记录当前滑动窗口的偏移量，b的取值范围是[-2，+2]，对于每个b的取值，计算出滑动窗口的当前左坐标cur=base+b。

5）依次用十个模板进行匹配，记录每个模板正确匹配的点数goodpt，并且根据的每个模板的总像素点数目totalpt计算出每个模板的当前得分tscore=goodpt/totalpt。如果当前得分大于最大得分maxscore，那么更新maxdigit、maxb和maxscore，具体方法为：maxdigit置为当前正在匹配的模板对应的数字，maxb为当前的偏移量b，maxsocre置为当前得分tscore，maxwidth置为当前匹配的模板对应数字的宽度。

模板匹配的过程：模板上的点(x,y)，字段二值图像上对应点(a,b)，在(a,b)点的像素值等于1的情况下，如果(x,y)点的像素值等于0，goodpt减少1。如果(x,y)==255，goodpt增加1，否则goodpt不变。(x,y)只有在模板的左右边缘取值为0，我们称之为“罚因子”，用来避免从中间把数字切开。

6）遍历整个b的取值后，就可以根据max*变量的取值进行单个数字的切割，其中数字的左上角坐标为(base+maxb，0)，宽度为maxwidth，高度为字段的高度h。切割出一个数字之后，更新base，base=base+maxb+maxwidth。

7）返回步骤3），直到base+maxwidth>=tail。

切分的流程图如图12所示。

（2）短数字串

短数字串的特点是噪音相对比较大，并且有小数点，由于长数字串的没有小数点，因此长数字串对于噪点的容忍度比较高，如果使用相同的方案进行短数字串的分割则会造成对噪音的误处理率增大。因此短数字使用更加单一的维度进行字符串分割，效果较长字符串有一定的提升。

1）读入切好的字符片段图像I，该图像由步骤2得到；

2）对图像I进行灰度化和二值化，得到二值图biImg；

3）在biImg二值图上进行水平和垂直投影，计算并且获得产生的投影数组hori[]和verti[]；

4）设立空白阈值blankGate；

5）遍历hori[]数组：

6）根据空白阈值寻找数字位置，根据定长先确定一个切割位置cutPoint；

7）在cutPoint左右进行探测，寻找数字边界特征，并且更新cutPoint值。

关于探测描述如下：

1）遍历位于cutPoint后x1个像素点在（x1为阈值，暂定为10）hori[]数组中的值，与blankGate进行比较，寻找字符后的空白，如果是空白则继续向后探测。

2）)在cutPoint+x1的基础上继续向后遍历x2（x2为阈值，暂定为3）个像素点的hori[]的值，判断是否多切。

3）向cutPoint前遍历x3个像素点的hori[]值，判断是否字符的宽度是否比设定的cutPoin阈值更小。

4）根据上述判断对cutPoint进行调整，相应增减距离。

5）判断新的cutPoint是否合适，设立一个字符的最宽宽度和最小宽度；如果小于最小宽度或者大于最大宽度，就按照cutPoint的原设阈值进行切割，否则按照cutPoint+x1+x2或者cutPoint-x3数值进行切分。

根据上述方法进行切割图片，得到最后切割好的单字符图片。

流程图如图14所示。

（3）汉字字段

长字符串的切割中，模板的使用前需要模板的制作，由于数字的模板数量比较小（10个），因此制作起来比较方便。但是对于汉字而言，模板的制作量就很庞大了，调整起来也异常麻烦。因此需要使用更加通用的方式进行切割。汉字的切分相较短数字不同在于，汉字有结构，并且汉字的阈值更加多变，不同的字的阈值范围变化很大，但是汉字的宽度又相差不大，因此，汉字的切割可以使用更加粗略的阈值进行。

汉字字段的切割方法与短数字串流程相同，差异在于cutPoint初始阈值的设立更大。并且汉字图像切割前可能带有与内容无关竖线的噪音，因此需要在遍历hori[]数组的过程中加入一个前置判断是否有竖线噪音。检测方法是比较可能出现竖线的位置的像素点的hori[]数组的值，如果比较大并且像素点比较连续，则为噪音，应当除去。

流程图如图15所示，具体步骤如下：

1）读入由步骤2得到的汉字字段图像I；

2）对图像I进行灰度化和二值化，得到二值图biImg；

4）设立空白阈值blankGate；

5）遍历hori[]数组：

6）根据空白阈值寻找当前汉字位置，检测字段图片前端可能的竖线噪音特征，然后根据定长先确定一个汉字切割位置cutPoint；

这里给出竖线噪音检测的原理和过程。一般竖线噪音的特点是：垂直投影有凸显的峰值，但是峰值持续长度比较低。所以遍历hori[]数组，如果有高峰值，遍历该点后的连续一段点的hori[]值。如果连续峰值，则是汉字边界，如果峰值较短，则是竖线噪音，对噪音的处理方式是跳过该竖线噪音，继续进行汉字探测。

7）在cutPoint左右进行探测，寻找汉字边界特征，并且更新cutPoint值。

关于汉字探测的过程描述如下：

4）根据上述判断对cutPoint进行调整，相应增减距离。

步骤4、字符识别与验证

字符识别使用现成的光学字符识别SDK模块。SDK模块接收一个包含一个字符的灰度图，并且可以设置该字符的识别范围，识别范围可以是数字、汉字、符号等。

SDK模块输出一串字符，字符按照与当前图像中的字符的距离从小到大排列。这些字符称为候选字符，候选字符的排名越靠前，该候选字符字符与当前图像中的字符正确匹配的概率越大。在某些情况下，图像中的字符可能不排在候选字符的首位，因此我们使用一个字符集来过滤这些候选字符，具体过程如下：

首先将单个字符的图像输入到SDK，然后获取前二十个候选字符串a[]，并且确定该单个字符所在字段对应的字符集T[]。按顺序从候选字符串中取出一个字符。然后进行判断，如果该候选字符在字符集中，那么我们认为识别成功，图像上的字符就是该候选字符。否则取当前候选字符的下一个字符，重复以上判断过程。如果候选字符串中的所有字符都不在字符集T[]中，我们认为识别失败，用字符#代替。（假设字符#不会出现在任何字段中）。字符过滤的流程如图16所示。

具体实施方式三：本实施方式中处理的票据图像为“北京市医疗门诊收费票据”，如图5所示。

在具体的实施过程中，采集影像时要求扫描设备为目前主流的平板扫描仪，推荐带有自动影像裁切功能的扫描仪，例如富士通fi-5220c高速扫描仪，扫描时尽量使支票影像的四边与扫描仪的扫描框平行，扫描生成的票据影像需要具备以下特征：

1、图像分辨率为200dpi以上的彩色图像；

2、影像宽大于1500像素，高大于650像素（以下文中默认图像尺寸大小及坐标都是像素）；

3、影像存储格式为24位JPG格式、tiff格式、256色bmp格式中的一种；

4、影像中票据票面全部清晰可见，除票据票面以外的影像边缘背景部分为纯黑色，即RGB值为（0，0，0）；

5、票据影像中票据部分相对于整个影像没有大幅倾斜，票据在扫描前经过检验，票据要素没有污损和故意涂改。

具体影像参考图5，如果输入的票据影像没有达到上述标准将可能导致识别率很低或无法识别。

在具体的实施过程中，按照图1所示的流程对票据图像进行处理，具体过程如下：

1、票据图像预处理：

在具体的实施过程中，原则上处理原始票据图像中印章、条形码、边缘的黑块、底纹等不需要识别的元素的方法是采用填充该票据图像背景颜色的方法，由于原始票据图像边缘的噪声位置是相对固定的，因此将该区域可以填充背景颜色来达到去除噪声得效果，而在可行性分析阶段，通过对组成印章、表格线的颜色像素进行色彩参数分析，可以利用其色彩参数的范围规律同样采用填充背景颜色的方式达到去除印章，表格线的效果。具体方法如下：

1）采用三个数组red[]、green[]、blue[]来存放一张图片的所有像素的三原色，通过分别求这三个数组red[]、green[]、blue[]的中位数red、green、blue，这三个数作为组成一张图片的背景颜色。原图如图5所示，可获得该图的背景颜色如图6所示。

2）确定图片中相应的位置来填充该颜色，需要注意的是不能够对我们需要提取的信息造成覆盖或者其他较大的损伤。做完上述的处理步骤后，原图的预处理效果如图7所示。

2、字段区域分割

在具体的实施过程中，字段区域定位技术通过使用预先设定好的模板来对特定格式的票据图像内容进行定位。其中，模板记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界，格式为：（name、pLeft、pRight、pTop、pBottom）。边界的值为相对值。一般的票据都有表格框，我们便以表格框左上角顶点为原点，表格框的宽度和高度分别作为两条坐标轴的单位长度，建立坐标系，则pLeft和pTop为某个字符区域的左上角顶点的两个坐标值，pRight和pBottom为右下角顶点的两个坐标值。例如：

姓名，0.102456，0.239612，0.0114286，0.0590476

性别，0.298969，0.322165，0.0114286，0.0590476

合计，0.126804，0.371134，0.9380955，0.9895242

……

字段区域定位的大致过程为找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出。执行步骤如下：

（1）读入经过预处理后的bmp图像，并且进行二值化和进一步的处理。

（2）通过横纵投影得到图像的投影数组proHori[]、proVerti[]，遍历数组，通过峰值确定图像中表格框左上角和右下角顶点坐标值，从而得到表格左上角顶点坐标（x0,y0）以及表格的宽度和高度（h, w）。

（3）通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量，比较得出最大值，对应偏移量为最佳的打印字相对于表格的偏移量（offsetX，offsetY）。

（4）计算出每块字段区域的位置（rLeft、rRight、rTop、rBottom）。

流程图如图9所示，效果如图8所示。

3、字符串分割

实践中，我们把字段分为三种类型，分别是汉字字段、长数字字段和短数字字段。以下将分别说明三种类型对应的切分方法以及方法的效果。

（1）长数字串

首先定义10个数字模板，所有数字的高度都相同，数字“1”的宽度比其他数字的宽度少一个像素点。所有模板有三个灰度级，灰度级为0表示左右边缘，宽度为1像素，灰度级为255表示数字的图形，其余部分为背景，灰度级为50。每个模板的高度为25个像素点，除了数字“1”，其他数字模板的宽度为16个像素点。

然后去除字段上下部分的空白边缘，具体效果如图13所示，在图（a）中，原字段的上下边有空白，实际高度大于25个像素，这里运用横向投影的方法去除上下的空白，去除后的字段再运用缩放算法，将高度固定为25个像素点。

之后利用横向投影，得到字段的起始坐标base和终止坐标tail，运用具体实施方式二中步骤3的（3）方法，切分单字数字的图像，并且按照num_%6d.bmp的命名格式输出。

切分流程按照具体实施方式二中步骤3中的方法进行，效果如图13所示。

（2）短数字串

按照具体实施方式二步骤3的（2）方法进行切割图片，得到最后切割好的单字符图片。切分的效果图如图3所示。

（3）汉字字段

汉字字段的切割方法与短数字串流程相同，差异在于cutPoint初始阈值的设立更大。并且汉字图像切割前可能带有与内容无关竖线的噪音，因此需要在遍历hori[]数组的过程中加入一个前置判断是否有竖线噪音。检测方法是比较可能出现竖线的位置的像素点的hori[]数组的值，如果比较大并且像素点比较连续，则为噪音，应当除去。汉字切分的效果如图17所示。

4、字符识别与验证

这一步骤需要用到印刷体单字识别的SDK，具体使用方法如下：

（1）输入字符图片，格式为字符数组，大小为图像高度×图像高度。

（2）设定识别范围，识别范围是一个整数，如0表示所有类型的字符，5表示汉字。

（3）调用离线识别函数进行识别，得到该单字图像的识别结果。识别结果是一个候选的字符数组，包含20个候选字符。

（4）按照具体实施方式二中的步骤4对候选字符进行筛选，得到唯一的识别结果。如果识别结果为符号“#”，那么表示该字符识别失败。

识别结果如图18所示，（a）是识别的单字图像，（b）是候选字符，经过字库筛选后，最终会输出字符“佰”。

下面举一实例验证实验的结果。

实验数据为北京市某机构搜集到的2015年上半年医疗门诊收费票据，其中的样例如图5所示。用于验证识别结果正确性的数据为系统开发的委托方手工录入记录。整个程序用C++编写，开发平台为VS2013。

统计的票据总共21张，每张票据上有28个需要识别的字符串，总体识别率为92%，可见本发明对于低分辨率医疗票据图像有较高的识别率。

Claims

1.一种低分辨率医疗票据图像的文字自动提取和识别方法，其特征在于所述方法步骤如下：

一、票据图像的预处理

读取票据影像，采用填充该票据图像背景颜色的方法处理原始票据图像中的噪点和不需要识别的元素；

二、字段区域分割

通过使用预先设定好的模板来对特定格式的票据图像内容进行定位，找到目标票据图像表格框位置、计算打印文字与模板对比的偏移量、计算出每个字段区域实际位置并输出，所述计算打印文字与模板对比的偏移量的方法如下：

(1)读入经过预处理后的bmp图像，并且进行二值化和进一步的处理；

(2)通过横纵投影得到图像的投影数组proHori[]、proVerti[]，遍历数组，通过峰值确定图像中表格框左上角和右下角顶点坐标值，从而得到表格左上角顶点坐标(x0,y0)以及表格的宽度和高度(h,w)；

(3)通过统计所有可能偏移量对应位置模板所圈出的区域值为1的数量，比较得出最大值，对应偏移量为最佳的打印字相对于表格的偏移量(offsetX，offsetY)；

(4)计算出每块字段区域的位置(rLeft,rRight,rTop,rBottom)：

rLeft＝(x0+offset)*pLeft；

rRight＝(x0+offsetX)*pRight；

rTop＝(y0+offsetY)*pTop；

rBottom＝(y0+offsetY)*pBottom；

pLeft和pTop为某个字段区域的左上角顶点的两个坐标值，pRight和pBottom为右下角顶点的两个坐标值；

(5)通过第(3)步找到区域的局部图像二值化更精确地定位字段区域，输出每个字段区域的bmp图像文件；

三、字符串分割

使用长数字串、短数字串、汉字字段三种不同的切分方法对不同类型的字段进行切分；

四、字符识别与验证

(1)将单个字符的图像输入到SDK模块，然后获取前二十个候选字符串a[]，并且确定该单个字符所在字段对应的字符集T[]；

(2)按顺序从候选字符串中取出一个字符，然后进行判断，如果该候选字符在字符集中，那么认为识别成功，图像上的字符就是该候选字符，否则取当前候选字符的下一个字符，重复以上判断过程，如果候选字符串中的所有字符都不在字符集T[]中，则认为识别失败，用字符#代替。

2.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法，其特征在于所述步骤一的具体步骤如下：

1)采用三个数组red[]、green[]、blue[]存放一张图片的所有像素的三原色，分别求这三个数组的中位数red、green、blue，将这三个中位数作为组成一张图片的背景颜色；

2)确定图片中相应的位置来填充背景颜色：

①将原图中红色印章区域的三原色数据填充为图片背景颜色数据；

②表格线、条形码在原图中的位置是不变的，因此对于图像的四周的噪点，采用相对固定区域填充图片的背景颜色数据，图中左端与右端的黑色圆孔噪点的分布位置是相对固定的，以原图的长和宽为基础，按照左端与右端黑色圆孔噪点分布范围与长和宽的比例，在图片的左端与右端填充宽度相同、长度覆盖左右端的圆孔噪点的长方形背景颜色数据，以达到完全去掉黑色圆孔噪点的效果；同样对于图像上下两端存在的黑色噪点，采用相同的方法，填充长度相同、宽度以上端不覆盖发票名称，下端不覆盖表格线为准则的长方形背景颜色数据，以完全覆盖掉黑色噪点；

③对于票据图片背景中的底纹，先将原图转化为灰度图，然后求得该灰度图中的前后景分离阈值thresh，当灰度图的某个像素的灰度值大于255*thresh，则判断该像素点为后景，在原图相同位置上填充为背景颜色。

3.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法，其特征在于所述模板是指记录了每一个需要识别的字段区域的语义以及该区域的左、右、上、下边界需要识别内容在票据图像中的相对位置数据的文件。

4.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法，其特征在于所述长数字串切分方法如下：

(1)定义10个数字模板，分别为数字0到9，每个模板高度相同，记为h'，数字“1”的宽度置为w'-1，除数字“1”以外的其他数字的宽度置为w'；

(2)加载十个数字模板，读取字段图像，利用水平投影的方法去掉上下部分的边缘，截取字段的有效部分；

(3)去掉上下边缘后开始切分单个字符，过程如下：

1)初始化变量maxdigit、maxscore、maxb、maxwidth，分别用来记录最佳匹配的数字、得分、滑动窗口偏移量、模板宽度；

2)用垂直投影找到字段有效部分的起始坐标base和终止坐标tail；

3)进入切割单个数字的循环，每次从字段中截去一个数字，并且更新base，直到base+maxwidth超过tail；

4)为了使模板能够匹配到最佳位置，以base为基础，建立一个宽度为5个像素的滑动窗口，变量b用于记录当前滑动窗口的偏移量，对于每个b的取值，计算出滑动窗口的当前左坐标cur＝base+b；

5)依次用十个模板进行匹配，记录每个模板正确匹配的点数goodpt，并且根据的每个模板的总像素点数目totalpt计算出每个模板的当前得分tscore＝goodpt/totalpt，如果当前得分大于最大得分maxscore，那么更新maxdigit、maxb和maxscore；

6)遍历整个b的取值后，根据max*变量的取值进行单个数字的切割，其中数字的左上角坐标为(base+maxb，0)，宽度为maxwidth，高度为字段的高度h'，切割出一个数字之后，更新base，base＝base+maxb+maxwidth；

7)返回步骤3)，直到base+maxwidth>＝tail。

5.根据权利要求4所述的低分辨率医疗票据图像的文字自动提取和识别方法，其特征在于所述模板匹配的过程：模板上的点(x,y)，字段二值图像上对应点(a,b)，在(a,b)点的像素值等于1的情况下，如果(x,y)点的像素值等于0，goodpt减少1，如果(x,y)＝255，goodpt增加1，否则goodpt不变。

6.根据权利要求1所述的低分辨率医疗票据图像的文字自动提取和识别方法，其特征在于所述短数字串切分方法如下：

1)读入切好的字符片段图像I；

2)对图像I进行灰度化和二值化，得到二值图biImg；

3)在biImg二值图上进行水平和垂直投影，计算并且获得产生的投影数组hori[]和verti[]；

4)设立空白阈值blankGate；

5)遍历hori[]数组：

6)根据空白阈值寻找数字位置，根据定长先确定一个切割位置cutPoint；

7)在cutPoint左右进行探测，寻找数字边界特征，并且更新cutPoint值。