CN109977723A

CN109977723A - 大票据图片文字识别方法

Info

Publication number: CN109977723A
Application number: CN201711403971.0A
Authority: CN
Inventors: 詹智财; 罗阳; 周鹏程; 代稳
Original assignee: Suning Commerce Group Co Ltd
Current assignee: SuningCom Co ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2019-07-05
Anticipated expiration: 2037-12-22
Also published as: CN109977723B

Abstract

本发明属于模式识别与人工智能技术领域，公开了一种大票据图片文字识别方法，所述方法包括：所述方法包括：将纸质票据转化为图片格式；对形成为图片格式的票据进行图像预处理；对预处理后的票据图片进行区域分割，得到该票据图片的多个图片块；对票据图片的多个图片块进行文本行区域的目标检测；对多个图片块中获取的各文本行区域进行融合，得到完整的文本行区域；获取票据图片中完整的文本行区域，进行图片文字转计算机文字；基于不同纸质票据的需求，给出特定区域的计算机文字结果。本发明解决了原有的票据识别耗时较长、易出错且识别过程复杂的问题。

Description

大票据图片文字识别方法

技术领域

本发明属于模式识别与人工智能技术领域，尤其是涉及一种大票据图片文字识别方法。

背景技术

随着企业的不断壮大以及企业流水的日益增长，企业票据数量也在不断增多，其中涉及到供应商开出的票据，企业员工出差需要报销的票据等等。而面对成千上万的企业票据，如何基于计算机技术，快速且高效的进行企业票据的自动识别成了大家关心的热点。现有处理企业纸质票据有以下几种方式：(1)通过招募对应岗位的人员，在基于人工肉眼识别基础上，开发一定的录入系统，通过人工的方式对票据所需要录入的信息进行手工录入和后续操作；(2)基于数字图像处理的方法，通过对纸质票据的图片进行预先分析，采用模版的方法对票据的固定区域进行操作，如图像二值化，前背景分离，前景轮廓提取，然后采用模式识别方法如图片文字分类，或者现有成熟的光学字符识别库，如谷歌维护的tesseract等对检测到的图片文字转换成计算机文字。

但是，上述方法都有着较为严重的缺陷：对于方法(1)来说，该方法不适用大规模票据的自动处理，且人工容易疲劳，随着人工工作时间的变长，疲劳会导致无论是票据处理的数量还是质量都会有所下降；对于方法(2)来说，这种方法虽然解决了方法(1)中的数量问题，然而基于不同类型的纸质票据，需要编写不同的模版处理流程，对于程序的开发以及后续维护问题较大，且基于传统的数字图像处理方法对图片本身包含的光照，字符清晰程度等属性有着非常严格的限制，并且针对图片本身大小也有一定的限制。

发明内容

针对现有技术中存在的上述缺陷，本发明的目的是提供一种大票据图片文字识别方法，以解决原有的票据识别耗时较长、易出错且识别过程复杂的问题。

本发明采用的技术方案如下：

一种大票据图片文字识别方法，所述方法包括：

S1、对纸质票据进行扫描，获取纸质票据图片；

S2、对纸质票据图片进行图像预处理；

S3、对图像预处理后的纸质票据图片进行区域分割，得到该纸质票据图片的多个图片块；

S4、对纸质票据图片的多个图片块进行文本行区域的目标检测；

S5、对多个图片块中获取的文本行区域进行融合，得到完整的文本行区域；

S6、获取纸质票据图片中完整的文本行区域，进行图片文字转计算机文字；

S7、基于不同纸质票据的需求，给出特定区域的计算机文字结果。

进一步的，在上述步骤S1中，对票据进行扫描的具体过程为：

基于字迹清晰，文字之间没有重叠的纸质票据基础上，设置扫描仪的dpi为300，并且正面对齐不要旋转，扫描出来的图片为I，其中I∈[0,255]^H×W×3，是一个高度为H，宽度为W的3通道RGB图片，其中每个像素点取值为[0,255]。

进一步的，在获取纸质票据图片的基础上，对图片进行一定程度的图像预处理，包括：

采用OpenCV库中已有的操作函数，对纸质票据图片进行图像的双边滤波去噪，得到噪点较少的图片，然后针对某些表格式的票据，如增值税专用发票等，先进行傅立叶的快速变换，将图片的空间域信息转换到频域上，并基于频域结果进行图片角度的提取，依据提取到的角度对图片进行一定程度的旋转角度纠正，并可选的针对图片中的画质进行画质增强。

进一步的，在对纸质票据图片进行图像预处理之后，对纸质票据图片进行区域分割的过程具体包括：

通过将预处理后的纸质票据图片进行从左到右，从上到下的顺序，且重叠区域为N个像素，窗口大小为C×C进行区域分割，得到M个图片块，每个图片块的区域为：b_i,j＝I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:]，其中，I表示图片，i表示行，j表示列，且

进一步的，对区域分割后的图片块进行文本行区域的目标检测的过程具体包括：

采用深度学习目标检测中的SSD模型对图片块进行文本行区域的目标检测，获取每个图片块中文本行区域的坐标。

进一步的，在获取到每个图片块中文本行区域的坐标后，进行文本行区域的融合的过程具体包括：

按照每个图片块原本位于纸质票据图片中的相对位置，对这M个图片块从下到上，从右到左的顺序进行处理。基于与当前图片块的左边和上边两个邻近图片块中N个像素的重叠区域，将检测到的文本行区域的坐标进行联通，并为了减去检测到的冗余重叠区域，先基于当前，邻近的左边，邻近的下边，邻近的左下四个图片块中过滤掉完全包含的子区域，并基于当前图片块与下边两个邻近图片块中N个像素的重叠区域，将检测到的文本行区域的坐标进行联通，最终得到完整的文本行区域的坐标。

进一步的，所述的图片文字转计算机文字，包括：

基于完整的文本行区域的坐标，获取纸质票据图片中每个完整的文本行区域。然后，采用深度学习中基于注意力机制的图片转文字模型，对获取的文字区域转计算机文字。

进一步的，在获取到了每个文本行区域的坐标及其对应的计算机文字基础上，基于特定的票据识别需求，给出不同区域的计算机文字结果。

与现有技术相比，本发明所述的一种大票据图片文字识别方法，达到了如下技术效果：

(1)本发明通过计算机技术处理由扫描仪扫描的纸质票据的图片，解决了以往需要人工录入纸质发票文字内容的麻烦。

(2)本发明基于现有的模式识别与人工智能中泛化性能优异的深度学习技术进行文本行区域检测和图片文字转计算机文字，解决了传统基于数字图像处理技术需要的图片多种预处理手段，以及对图片的光照、字体、文字与背景的对比度等各种属性强先验的要求。

(3)本发明摒弃了数字图像处理技术中的模版方案，在减少人工录入的需要和增加处理票据类型的种类基础上，从而能够适用于更广泛的纸质票据识别，达到节省企业开支和快速处理纸质票据的目的。

(4)通过对大图片进行区域分割和文本行区域融合，对扫描图片本身的要求只限于不小于500×500，从而能够适用于较大的票据扫描图片。

附图说明

图1为本发明一个实施例中的纸质票据的文字识别方法的流程图。

图2为本发明一个实施例中的纸质票据图片获取过程的流程图。

图3为本发明一个实施例中的纸质票据图片预处理过程的流程图。

图4为本发明一个实施例中的文本行区域检测过程的流程图。

图5为本发明一个实施例中的文本行区域识别过程的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。其中，下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

图1是根据本发明一个实施例的一种大票据图片文字识别方法的流程图。

参照图1所示，一种大票据图片文字识别方法，包括步骤：

S100、获取纸质票据的图片。本实施例中，可通过扫描仪对纸质发票进行扫描，或者通过拍照的方式，进而得到图片，图片的格式包括但不限于JPEG、TIFF、RAW、BMP、GIF、PNG等。本发明实施例中所指的大票据图片是指满足2000像素点*2000像素点及以上的票据图片。

具体的，如图2所示，以扫描纸质票据为例，基于字迹清晰，文字之间没有重叠的纸质票据基础上，设置扫描仪的dpi为300，并且正面对齐不要旋转，放入扫描仪中进行扫描；当然，如果某纸质票据的字迹不清晰，则可设置的扫描仪分辨力更高。设定经扫描仪扫描出来的图片为I，其中I∈[0,255]^H×W×3，是一个高度为H，宽度为W的3通道RGB图片，例如H＝4000，W＝3000，其中每个像素点取值为[0，255]。

S200、对扫描后的纸质票据图片进行图像预处理。

具体的，在获取纸质票据图片的基础上，对图片进行一定程度的图像预处理。如图3所示，在得到图片I之后，如步骤S201，采用OpenCV库中的bilateralFilter(双边滤波)函数对图片进行去噪处理，其中设置函数第二个窗口大小参数为d＝5，如此来保证该函数的实时性。在得到去噪后的图片之后，因为在发票获取过程中，受到发票放入时候的人手抖动等环境因素导致的少量发票在经过扫描仪时会产生轻微的旋转。因此，针对某些表格式的票据，如增值税专用发票等，因其中的文字均是行排列，且上下有序，从而可以进行轻微的角度逆旋转来作为发票本身的角度修复，而针对其他非表格式的票据，因文字排布非严格的行排列，故而并无角度逆旋转这一步骤，即无下述的步骤S202及后续步骤。如步骤S202，先进行傅立叶的快速变换，将图片的空间域信息转换到频域上，再采用步骤S203并基于此进行hough直线检测，通过对图片的频域中高亮的线条进行拟合找到符合条件的那条斜线，从而得到对应的角度信息，再采用步骤S204根据提取到的角度对倾斜的图片进行一定程度的旋转角度纠正，比如构建一个仿射变换矩阵，然后调用warpAffine函数进行变换，就得到校正后的图像。可选的，还包括针对图片中的画质进行画质增强的步骤S205，其中本实施例中画质增强的方法包括但不限于如基于直方图均衡化的图像增强、基于拉普拉斯算子的图像增强、基于对数Log变换的图像增强、基于伽马变换的图像增强等等。S300、对图像预处理后的票据图片进行区域分割，得到该纸质票据图片的多个图片块。

在本实施例中，后续涉及到的单位皆以数字图像处理中通用的像素为单位。具体的，先将预处理后的票据图片按照顺序，按照从左到右，从上到下的顺序，且重叠区域为N个像素，窗口大小为C×C的正方形进行区域分割，得到M个图片块，其中一个图片块就对应着一个窗口划过图片时候获取的结果，如上述窗口大小为500×500，则基于该窗口获取的图片块大小也为500×500，故而当图片大小固定，窗口大小固定，则图片块的数量也可以计算得出。而窗口大小的选取是针对后续进行文字行区域检测时候选择的模型不同而定，如针对faster rcnn resnet101模型，则可选取1000×1000大小的窗口。基于准确度和速度之间的权衡，本发明选取了SSD模型作为文字行区域的检测模型。当然，窗口的轻微大小变化并不影响最后的文字行区域的检测结果。其中，每个图片块的区域为：b_i,j＝I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:]，其中i表示行，j表示列，且例如选取N＝50，C＝500，则基于H＝4000，W＝3000基础上，可以得到63个图片块，计算得到每个图片块的区域为b_i,j＝I[i*450:i*450+500,j*450:j*450+500,:]，其中，i∈[0,9]，j∈[0,7]本领域技术人员应当理解的是，本实施例中对纸质票据图片是严格按照从左到右，从上到下的顺序进行区域分割的；为了满足后续的区域联通规则，基于此顺序进行分割，才能更好的使用倒序形式来进行分割区域的联通。当然，不排除采用其它分割的顺序。

S400、对纸质票据图片的多个图片块进行文字区域的目标检测。

具体的，在本实施例中，基于谷歌开源的Tensorflow框架，采用深度学习中的目标检测模型，如SSD模型对图片块进行文字区域的目标检测，获取每个图片块中文字区域的坐标。由于传统的VGG 16作为SSD的基底模型时，VGG本身参数量过大，即不利于模型的部署，也不利于模型的收敛，故更优选地，本实施例采用了Inception V2作为SSD模型的基底模型，在当选取基底模型时，还可选取如Mobile Net等其它模型。当然，本领域技术人员应当理解的，目标的深度检测不限于本实施例所列举的SSD检测模型，还可以采用诸如FasterR-CNN、R-FCN等检测模型。

如图4所示，具体来说，首先，基于步骤S401，先准备一些票据图片进行人工区域标注，优选以行为单位进行标注，通过鼠标在单行文本行区域从左上角划到右下角，使得以当前为对角线生成的长方形可以完全包含当前的单行文本区域，通过记录当前长方形的左上角的坐标点坐标(xmin,ymin)和右下角的坐标点坐标(xmax，ymax)以及其中包含的文字作为当前区域的采集信息，并将其组成训练集，然后通过SSD模型进行训练，直至收敛；再基于步骤S402，通过对所需要检测的图片进行图片预处理和后续的区域分割，然后对这些图片块通过目标检测模型进行文本行区域检测，最后如步骤S403，导出检测到的文本行区域的坐标。

S500、对多个图片块中获取的文本行区域进行融合，得到完整的文本行区域。

具体的，在获取到每个图片块中文字区域的坐标后，需要进行文字区域的融合，包括：按照每个图片块原本位于纸质票据图片中的相对位置，对这M个图片块从下到上，从右到左的顺序进行处理，该顺序为原来划定分割顺序的逆顺序。基于与当前图片块的左边和上边两个邻近图片块中N个像素的重叠区域，将检测到的文字区域的坐标进行联通，得到完整的文字区域的坐标。

如基于上述假设，其中H＝4000，W＝3000，N＝50，C＝500，M＝63，此时i＝5,j＝6，因本发明皆是从0开始计数，故而当前图片块为原始纸质票据图片中第6行第7列网格对应的图片块。

融合过程具体包括如下：

(1)基于当前图片块从上往下50个像素的区域，即b_5,6[0:50,:,:]，与其相邻的上部图片块从下往上50个像素b_4,6[450:500,:,:]区域，如果当前图片块该区域中某个文本区域与上部图片块该区域中的某个文本区域有相交，则将当前图片块中该文本区域融入到上部图片块对应的文本区域并删除当前图片块中该文本区域；

(2)基于当前图片块从左往右50个像素的区域，即b_5,6[:,0:50,:]，与其相邻的左部图片块从右往左50个像素b_5,5[:,450:500,:]区域，如果当前图片块该区域中某个文本区域与左部图片块该区域中的某个文本区域有相交，则将当前图片块中该文本区域融入到左部图片块对应的文本区域并删除当前图片块中该文本区域；

(3)基于当前图片块相对位置，以当前图片块左下角为中心，选取四个图片块中重叠区域，即当前的b_5,6[450:500,:,:]，邻近的左边b_5,5[450:500,:,:]，邻近的下边b_6,6[0:50,:,:]，邻近的左下b_6,5[0:50,:,:]，选取这4个图片块中文本行区域与对应区域有相交的所有区域，在这所有的区域中，当某个区域完全位于另一个区域之内，则删除较小的那个；

(4)基于当前图片块从下到上50个像素的区域，即b_5,6[450:500,:,:]，与其相邻的下部图片块从上往下50个像素b_6,6[0:50,:,:]区域，如果当前图片块该区域中某个文本区域与下边图片块该区域中的某个文本区域有相交，则将当前图片块中该文本区域融入到下面图片块对应的文本区域并删除当前图片块中该文本区域。

最后，经过上述融合和删除操作之后，收集所有图片块中的文本区域作为原始票据图片中的完整文本行区域。

S600、获取纸质票据图片中完整的文字区域，进行图片文字转计算机文字。

具体的，基于完整的文字区域的坐标，获取纸质票据图片中每个完整的文本行区域。然后，采用深度学习中基于注意力机制的图片转文字模型，对获取的文本行区域转计算机文字。

如图5所示，在实施步骤S601时，先通过人工标注这些票据图片，即基于上述步骤S401中区域标注的基础上标注其中的文本行内容，并将其组成训练集。接着基于深度学习中的注意力机制，通过对由CNN(卷积神经网络模型)和LSTM(长短时记忆网络)组成的CNN+LSTM组合网络进行训练，直至收敛；再基于步骤S602，通过由步骤S403输出并由后续坐标融合得到的完整文字区域基础上，对票据图片进行文本行区域提取，将该文本行区域放入CNN+LSTM模型进行文本行识别；最后如步骤S603，导出检测到的该行区域中的文字内容。

S700、基于不同纸质票据的需求，给出特定区域的计算机文字结果。

具体的，在获取到了每个文字区域的坐标及其对应的计算机文字基础上，基于特定的票据识别需求，给出不同区域的计算机文字结果。如对于票据来说，企业只需要其中的发票号码和发票代码，那么就通过坐标以及数字位数等规则，将其匹配，并输出所需要的结果。

本发明在基于扫描仪扫描得到的纸质票据图片基础上，能够自动的从中提取所需要的文字信息，提出了利用现有处理目标检测的深度学习模型来进行文字行区域的检测，并且提出了大图片的分割和文本行区域融合方法，对扫描图片本身的要求只限于不小于500×500，从而能够处理相对较大的图片。在减少人工录入的需要和增加处理票据类型的种类基础上，达到节省企业开支和快速处理纸质票据的目的。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种大票据图片文字识别方法，其特征在于，所述方法包括：

步骤S1、将纸质票据转化为图片格式；

步骤S2、对形成为图片格式的票据进行图像预处理；

步骤S3、对预处理后的票据图片进行区域分割，得到该票据图片的多个图片块；

步骤S4、对票据图片的多个图片块进行文本行区域的目标检测；

步骤S5、对多个图片块中获取的各文本行区域进行融合，得到完整的文本行区域；

步骤S6、获取票据图片中完整的文本行区域，进行图片文字转计算机文字；

步骤S7、基于不同纸质票据的需求，给出特定区域的计算机文字结果。

2.根据权利要求1所述的方法，其特征在于，在步骤S2中，所述预处理包括：

对票据图片进行去噪处理；

其中，针对非表格式的票据图片，直接进入步骤S3进行图片分割；

针对表格式的票据图片，则进行图片角度修正的步骤。

3.根据权利要求2所述的方法，其特征在于，所述图片修正的步骤包括：

采用傅里叶变换，将图片的空间域信息转换到频域上；

通过Hough线检测，得到旋转角度；

进行角度逆旋转，恢复为原图片角度。

4.根据权利要求3所述的方法，其特征在于，在步骤S3中，对票据图片的分割具体包括：

将预处理后的票据图片设定分割顺序，且以重叠区域为N个像素，窗口大小为C×C进行区域分割，得到多个图片块，设定每个图片块的区域为：b_i,j＝I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:]，其中，I表示图片，i表示行，j表示列，H表示高度，W表示宽度，且

5.根据权利要求4所述的方法，其特征在于，在所述步骤S4中，对区域分割后的图片块进行文本行区域的目标检测，包括：

以行为单位，对票据图片进行人工区域标注；

将标注好的图片组成训练集，通过目标检测模型进行训练，直至收敛；

将分割后的图片块放入训练好的目标检测模型进行文本行区域的目标检测，获取每个图片块中文本行区域的坐标并输出。

6.根据权利要求5所述的方法，其特征在于，在所述步骤S5中，对文本行区域的融合，包括：

按照每个图片块原本位于纸质票据图片中的相对位置，对每个图片块按照之前设定分割顺序的逆顺序进行处理；所述处理包括：

基于当前图片块，以及当前图片块邻近三个方位区域的共四个图片块，进行过滤，过滤掉完全包含的子区域；

基于当前图片块与邻近任一图片块中N个像素的区域存在相交的重叠区域，将当前图片块的文本区域融入到另一个区域，删除当前图片块的该重叠区域；

经过上述删除、过滤之后，收集所有图片块中的文本区域作为原始票据图片中的完整文本行区域。

7.根据权利要求6所述的方法，其特征在于，在所述步骤S6中，所述的图片文字转计算机文字，包括：

基于完整的文本行区域的坐标，获取票据图片中每个完整的文本行区域；

采用深度学习中基于注意力机制的图片转文字模型，对获取的文字区域转计算机文字。

8.根据权利要求7所述的方法，其特征在于，所述注意力机制的图片转文字模型由如下步骤所得：

基于票据文本行内容，人工标注票据图片的区域坐标，并将其组成训练集；

对基于深度学习的注意力机制的CNN与LSTM组成的混合模型进行训练，直至收敛；

将分割后的图片块的文本行区域放入训练完成的混合模型进行文本行识别。

9.根据权利要求3所述的方法，其特征在于，在恢复为原图片角度之后，还包括对图片画质进行增强处理的步骤。

10.如权利要求4所述的方法，其特征在于，所述目标检测模型为SSD模型。