CN110033000B

CN110033000B - 一种票据图像的文本检测与识别方法

Info

Publication number: CN110033000B
Application number: CN201910226576.2A
Authority: CN
Inventors: 彭勤牧
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2021-05-18
Anticipated expiration: 2039-03-21
Also published as: CN110033000A

Abstract

本发明公开了一种基于深度学习的票据图像文本检测与识别方法，首先使用卷积神经网络对票据图像进行特征提取，生成第一特征图。然后文本检测网络在第一特征图上通过分类和回归操作进行多任务的预测，获得检测文本框。在此基础上，文本识别网络将检测文本框映射到第一特征图对应区域并进行池化操作，生成高度固定、宽度按比例变化的第二特征图，将第二特征图转换为特征序列，采用循环神经网络编码特征序列的上下文信息，然后采用一组带注意力机制的循环神经网络进行解码，得到文本区域的识别结果。检测任务和识别任务整合到了一个统一的网络框架中，既实现了卷积层特征共享，又能够完成端到端的联合训练，提升模型的整体识别性能。

Description

一种票据图像的文本检测与识别方法

技术领域

本发明属于图像文本检测与识别技术领域，更具体地，涉及一种票据图像的文本检测与识别方法。

背景技术

金融票据是国家金融市场流通过程中的重要凭证之一，承担了个人、企业、银行等社会主体间资金流通业务，常见的票据种类包括支票、汇票、存单等。随着我国经济的快速发展，各类票据业务也得到了迅猛发展，票据凭证处理是银行日常业务中的一项重要工作。现如今，在现金支取等业务领域，基本已实现了自动化或半自动化处理，例如市面上的各类点钞机、清分机、鉴伪仪以及自助存取款终端等，均能达到纸币快速点钞和辨别真伪的目的，显著提升了银行网点的服务效率。而在票据处理领域，仍在延续传统的人工操作流程。主要原因在于票据的处理流程更为繁杂，包括票据信息的审核校验、数据录入与查询、票据资料存档等。而且纸币上只包含金额、冠字号等少量的文字，需要识别的信息较少，票据的版面结构则更加复杂，包含更丰富的文字信息。票据在实际流通过程中，需要经过二次印刷或者手写的方式填写有效的信息，包括银行名称、支行行号、个人账户、收款人、出票日期等。在二次打印的时候，往往会出现偏移或错位，固定字段信息和有效信息无法整齐配对，不同文本之间可能会出现粘连或者覆盖的现象，再加上票面上包含多种不同尺度、不同字体的文字信息，以及存在不同语言、印刷体、手写体混杂的情况，这些都使得票据的识别处理变得更加困难，这也是市面上相关产品和设备较少，以及没能像点钞机那样大规模应用的重要原因。

对于文档、表单类的识别处理通常基于图像采集和光学字符识别(OCR)技术，传统的OCR技术主要采用图像处理和模式识别的方法，处理流程一般为：滤波降噪、图像校正、图像二值化、文字定位、版面分析、字符分割和字符识别等。这类方法在规整印刷体文档的扫描图像上能取得较好的识别效果，但在金融票据这类具有复杂背景和版面结构的应用场景下，识别性能却会明显下降。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于深度学习的票据图像文本检测与识别方法，避免了传统OCR技术的多步处理流程以及在复杂场景下文字识别准确率较低的问题，在提高检测与识别性能的同时保证处理的实时性。

本发明提供了一种票据图像的文本检测与识别方法，包括下述步骤：

(1)根据卷积神经网络对票据图像进行特征提取后获得第一特征图；

(2)通过文本检测网络在第一特征图上的每一个位置进行多任务的预测获得检测文本框；

(3)通过文本识别网络将所述检测文本框映射到所述第一特征图对应区域；

(4)对所述第一特征图对应区域进行池化操作后获得高度固定且宽度按比例变化的第二特征图；

(5)将第二特征图转换为特征序列，对所述特征序列编码上下文信息，并对其进行解码后获得文本框区域的识别结果。

更进一步地，在步骤(1)中，根据卷积神经网络对票据图像进行特征提取具体包括：

采用卷积神经网络对票据图像进行层级特征提取；

并将卷积神经网络的5个卷积模块中最后3个卷积模块输出的特征图缩放至分辨率一致后按照通道进行拼接，获得融合后的第一特征图。

更进一步地，文本检测网络包括：多个不同尺寸不同宽高比的参考框，一个卷积模块和两个并行的子连接层；

所述卷积模块包括多个不同尺寸的卷积核，用于提取多尺度的融合特征；

两个并行的子连接层分别为分类层和回归层，分类层用于基于所述融合特征对参考框进行分类操作，回归层用于基于所述融合特征对参考框进行回归操作。

更进一步地，文本检测网络以所述第一特征图作为输入，采用卷积模块提取多尺度的融合特征，并基于融合特征对参考框进行分类和回归预测后获得检测文本框。

更进一步地，文本识别网络包括：ROI池化层、编码器和解码器；

所述ROI池化层用于对所述第一特征图对应区域进行池化操作；

所述编码器用于对所述特征序列编码上下文信息；

所述解码器用于对编码的信息进行解码。

更进一步地，编码器为循环神经网络，所述解码器为带注意力机制的循环神经网络。

更进一步地，ROI池化层采用尺寸自适应的ROI Pooling进行池化操作后生成高度固定且宽度按比例变化的第二特征图。

总体而言，通过本发明所构思的以上技术方案，可以取得以下有益效果：

(1)采用深层卷积神经网络可以对图像提取有效的特征，通过跨层连接将不同卷积层特征进行组合，可以有效融合语义信息丰富的高层特征和位置信息精确的低层特征，并实现多尺度的文本检测，提升文本定位的精度和文本识别的准确率。

(2)文本检测网络对参考框的尺寸和比例以及卷积核窗口进行特殊的设计，来适应文本区域的几何特性，更好地覆盖文本区域。使用不同尺寸的卷积核可以有效提取多尺度特征，进一步实现多尺度的文本检测。

(3)文本识别网络采用尺寸自适应的ROI Pooling来进行池化操作，输出变长的特征图可以更好地符合文本区域的空间分布特性。通过将特征图转换为特征序列并输入到一组循环神经网络中，可以有效编码特征的上下文信息，建立隐式语言模型。在此基础上，使用一组带注意力机制的循环神经网络，对特征序列进行解码，预测输出对应的字符序列。注意力机制可以实现特征区域和目标字符的对齐，结合循环神经网络建立的隐式语言模型，能够显著提升文本识别的准确率。

(4)文本检测与文本识别任务是高度相关的，将两个任务嵌入到一个统一的网络框架中，可以共享特征信息，并且两个任务可以起到互补的作用，更好的检测结果可以提升识别的准确率，识别结果也可反馈于检测任务进行位置精修。因此，基于多任务的网络结构可以提取更有效的特征表示，同时适应检测任务与识别任务，显著提升整体模型的识别性能。

附图说明

图1为本发明提供的基于深度学习的票据图像文本检测与识别方法的实现流程图；

图2为本发明中文本检测与识别方法模型的整体结构示意图。

图3为本发明中文本检测网络的示意图。

图4为本发明中文本识别网络的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明涉及一种基于深度学习的票据图像文本检测与识别方法，如图1所示，首先，通过卷积神经网络对票据图像进行特征提取，生成第一特征图。然后，文本检测网络在第一特征图上的每一个位置进行多任务的预测，获得检测文本框。在此基础上，文本识别网络将检测到的文本框映射到第一特征图对应区域，通过池化操作生成高度固定、宽度按比例变化的第二特征图，并将第二特征图转换为特征序列，输入到一组循环神经网络中编码上下文信息，然后采用一组带注意力机制的循环神经网络进行解码，得到文本框区域的识别结果。

具体步骤如下：

S1使用卷积神经网络对票据图像进行特征提取，生成第一特征图。如图2所示，卷积神经网络由5个卷积模块组成，卷积模块输出特征图的空间分辨率以1/2的比例逐层递减，最后一层特征图的宽高为输入图像宽高的1/32。将最后三个卷积模块输出的特征图分别通过上采样和下采样操作，使其空间分辨率一致，并按通道进行拼接组合，得到混合后的第一特征图，第一特征图融合了语义信息丰富的高层特征和位置信息精确的低层特征，既能够实现不同尺度的文本检测，又能够提升文本检测与识别的精度。

S2文本检测网络如图3所示，在第一特征图上的每一个位置进行多任务的预测，获得检测文本框。

S2-1考虑到图像中文本区域尺寸和宽高比多变的特性，事先设计4种不同尺寸(48²，80²，128²，160²)和5种宽高比(1∶1，1∶3，1∶5，1∶7，1∶10)一共20个参考框。

S2-2文本检测网络将第一特征图作为输入，并采用3×3和1×5两个不同尺寸的卷积核提取多尺度特征，使卷积核的感受野能够更好地覆盖不同尺寸、不同宽高比的文本区域，进一步适应文本几何特性。

S2-3基于多尺度特征对事先定义的参考框进行分类和回归操作，在第一特征图的每个位置预测票据图像中对应参考框的文本得分概率和坐标偏移量，生成大量的候选文本框。检测网络的损失函数由分类损失和回归损失共同组成：

其中，p_i表示参考框为文本的概率，

为对应的标签值，取值为1表示参考框为正样本(文本)，取值为0则表示为负样本(非文本)。t_i表示预测框相对参考框的坐标偏移量，

表示真实文本框(ground truth)相对参考框的坐标偏移量。坐标回归的目的就是让预测的坐标偏移量t_i尽可能与真实的坐标偏移量

一致，N_cls为分类任务中样本数量，N_reg为回归任务中样本数量，λ为两者的平衡系数，在回归任务中仅对正样本参考框进行坐标回归。

针对分类任务，采用二分类Softmax交叉熵损失函数：

针对回归任务，采用Smooth L1损失函数：

L_reg(t，t^*)＝Smooth_L1(t-t^*)

S2-4根据候选文本框的得分概率和坐标位置进行非极大值抑制处理，并筛选得到检测文本框。

S3文本识别网络如图4所示，将检测文本框映射到第一特征图对应区域，使用尺寸自适应的ROI Pooling进行池化操作，生成高度固定、宽度按比例变化的第二特征图，并将第二特征图转换为特征序列，采用双向的循环神经网络中编码特征序列的上下文信息，然后采用一组带注意力机制的循环神经网络进行解码，得到文本框区域的识别结果。

S3-1将检测文本框映射到第一特征图对应区域，并采用尺寸自适应的ROIPooling进行池化操作，输出高度固定、宽度按一定比例变换的第二特征图。对于尺寸为w×h的文本框，池化后的高度固定为H，则对应的宽度为：W＝nHw/h；池化后的第二特征图的宽高比为对应文本框的n倍(n≥1)，n可取值为2，这样可以适应一些比较狭长的字符例如i、l等。

S3-2池化后的第二特征图尺寸为W×H×C，C表示第二特征图通道数，将第二特征图转换为特征序列，特征序列的长度和第二特征图的宽度一致，均为W，特征序列中每个特征向量的维度则为H×C。特征序列可表示为：q＝[q₁，q₂，q₃，…，q_W]；

S3-3采用双向的循环神经网络对特征序列进行上下文信息编码，得到编码后的第二特征序列h＝[h₁，h₂，h₃，…，h_W]；

S3-4采用一组带注意力机制的循环神经网络进行解码。解码器模块的序列长度为T，输出序列可表示为y＝[y₁，y₂，y₃，…，y_T]；对应的，隐层状态向量序列为s＝[s₁，s₂，s₃，...，s_T]；其中，在时刻t输出向量y_t计算公式为y_t＝g(s_t)＝Softmax(W_os_t)，隐层状态向量s_t计算公式为s_t＝RNN(s_t-1，y_t-1，c_t)，s_t-1，y_t-1分别为上一时刻的隐层状态向量和输出向量，c_t为语义向量，通过对第二特征序列进行加权求和得到，计算公式为：

e_ti＝a(s_t-1，h_i)＝z^Ttanh(Us_t-1+Vh_i)。上述公式中W_o，z，U，v都是网络中可训练的参数。

S3-5文本识别网络中，损失函数为负对数似然损失：

l_t为时刻t的真实标签，y_t为时刻t输出的概率向量，向量中的元素分别表示字典中每一个字符的预测概率，[_t(l_t)则表示真实标签字符的概率取值。

S3-6根据不同时刻不同字符的预测概率可采用贪心策略或者集束搜索策略，来得到最终的字符序列。贪心策略在解码器的每个时刻点，选择具有最高概率得分的字符作为该时刻的预测输出。而集束搜索则在每一步选择累积得分概率最高的K个字符序列，并在最后选择所有时刻联合概率最高的序列作为最终的识别结果。

以上对发明的具体实施例进行了详细描述，但本发明并不限制于以上描述的具体实施例，其只是作为范例。同时，本发明所提出的文本检测与识别方法并不局限于票据图像，可以很自然地拓展到通用文档、表单以及自然场景中的文本图像领域。对于本领域技术人员而言，任何对该系统进行的等同修改和替代也都在本发明的范畴之中。因此，在不脱离发明的精神和范围下所作出的均等变换和修改，都应涵盖在本发明的范围内。

Claims

1.一种票据图像的文本检测与识别方法，其特征在于，包括下述步骤：

2.如权利要求1所述的文本检测与识别方法，其特征在于，在步骤(1)中，根据卷积神经网络对票据图像进行特征提取具体包括：

采用卷积神经网络对票据图像进行层级特征提取；

3.如权利要求1所述的文本检测与识别方法，其特征在于，所述文本检测网络包括：多个不同尺寸不同宽高比的参考框，一个卷积模块和两个并行的子连接层；

4.如权利要求3所述的文本检测与识别方法，其特征在于，所述文本检测网络以所述第一特征图作为输入，采用卷积模块提取多尺度的融合特征，并基于融合特征对参考框进行分类和回归预测后获得检测文本框。

5.如权利要求1-4任一项所述的文本检测与识别方法，其特征在于，所述文本识别网络包括：ROI池化层、编码器和解码器；

所述编码器用于对所述特征序列编码上下文信息；

所述解码器用于对编码的信息进行解码。

6.如权利要求5所述的文本检测与识别方法，其特征在于，所述编码器为循环神经网络，所述解码器为带注意力机制的循环神经网络。

7.如权利要求5所述的文本检测与识别方法，其特征在于，所述ROI池化层采用尺寸自适应的ROI Pooling进行池化操作后生成高度固定且宽度按比例变化的第二特征图。