CN109492630A

CN109492630A - 一种基于深度学习的金融行业图像中的文字区域检测定位的方法

Info

Publication number: CN109492630A
Application number: CN201811257204.8A
Authority: CN
Inventors: 桂晓雷; 林路; 王慜骊; 安通鉴; 林康; 陈立强
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2019-03-19

Abstract

本发明公开了一种基于深度学习的金融行业图像中的文字区域检测定位的方法，包括如下步骤：选取金融行业常用的汉字、词组和组合词，加上一些处理，形成变换后的数据集；生成文本区域候选框，计算每一个候选文本区域的得分；并入文本类别监督信息，融入多层次的区域下采样信息并将文本特征输入到LSTM网络模型中形成一种端到端的候选文本区域生成网络；最后再对所述的候选文本区域位置进行修正，使用候选框过滤多余的候选区域。这种发明可以实现对任意角度文本快速的检测。

Description

一种基于深度学习的金融行业图像中的文字区域检测定位的方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的金融行业图像中的文字区域检测定位的方法。

背景技术

基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备，利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来，并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。

相关技术中，OCR文字识别方法分为文字行分割、单字分割、单字识别、语言模型解码等流程，对一张图像进行行分割之后，进行单个字的分割，然后对分割得到的单个字同时进行单字识别，最后进行语言模型解码。然而相关技术中，现有的OCR文字识别方法中对单个字的切割，然后分别对每一个字同时进行识别，一旦单字切割出现切割错误，则单字识别就错了，并且也影响到了其他的单个字的识别。从而，现有技术OCR单字分割定位然后再对文字进行识别的方法，并不准确，容易出现错误，识别率较低。

发明内容

本发明针对现有技术的不足，提供一种基于深度学习的金融行业图像中的文字区域检测定位的方法，可以准确识别金融领域文字区域的文本行，提高文本行识别的鲁棒性。具体技术方案如下：

一种基于深度学习的金融行业图像中的文字区域检测定位的方法，其特征在于，该方法包括如下步骤：

S1：选取金融行业常用的汉字、词组和组合词，生成不同字体类型的汉字图片，形成训练数据集；

S2：对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作，再用泊松克隆的方式融合不同背景图，形成变换后的数据集；

S3：生成文本区域候选框，以缩放处理后的图像作为inception-RPN网络的输入，在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框，计算每一个候选文本区域的得分；其中，所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络，Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层，所述的Inception-RPN网络，是模仿Inception结构构造RPN网络，并只用了单层结构的Inception来提取候选文本区域；

S4：并入文本类别监督信息，融入多层次的区域下采样信息；

S5：将每一行的文本特征输入到LSTM网络模型中，对文本的高度、文本的起始位置和结束位置进行判断，以一种端到端的方式训练候选文本区域生成网络；

S6：对所述的候选文本区域位置进行修正，获得具有一定方向的倾斜文本候选文本区域；

S7：使用候选框过滤算法对候选文本区域进行过滤，移除远超出实际文本区域的多余的候选区域。

进一步地，所述的S3中所述的文本特征先验框共24种，其中每个滑动位置的滑动窗口宽度设为32、48、64和80，长宽比例为0.2、0.5、0.8、1.0、1.2和1.5；所述的inception网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。

进一步地，S4的文本类别监督信息为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本，其他指定为不包含文本信息。

进一步地，S4的区域下采样信息为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本，其他指定为不包含文本信息。

进一步地，S6具体包括以下步骤：

S6.1：对候选文本区域进行大小归一化的旋转的池化操作，得到相同大小的特征图；

S6.2：特征图经过两次全连接层操作；

S6.3：根据所求特征对类别判断，并对文本区域进行位置的精确调整，获得具有一定方向的倾斜文本候选文本区域。

本发明的有益效果在于，与现有技术相比，本发明首先对文字的形状进行了完善，其次在融合了不同层次的特征图上采用了inception候选框生成网络的方法提取候选区域的特征，最后加入更多的监督信息，将文本区域分为文字、非文字和有歧义文字三种类别，在文字检测过程中使用循环神经网络(RNN)的方法，首先在VGG的特征图上取一些候选区域，计算每一个候选区域的得分。其次在计算得分的同时，充分考虑上下文的信息，并将每一行的文本特征输入到双向长短期记忆(LSTM)网络模型中，以更好地判断文字的得分。最后对文本的高度、文本的起始位置和结束位置进行了判断。同时设计了具有方向的inception-RPN。其次对倾斜候选区域池化的过程中采用了旋转的池化操作。最后对候选区域进行类别的判断和回归。这种方法可以实现对任意角度文本快速的检测。通过泊松克隆的方式扩大训练样本，有效防止模型过拟合，又丰富了训练样本的场景。

附图说明

图1是本发明基于深度学习的金融行业图像中的文字区域检测定位的流程图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于深度学习的金融行业图像中的文字区域检测定位的方法，该方法包括如下步骤：

选取3816个常用汉字以及312个常见金融词汇，用宋体、黑体、楷体、隶书等不同字体类型制作汉字图片，并对其加入一定椒盐噪声、高斯噪声，形成训练数据集，其中，训练数据集中的训练图像为不同字体类型的汉字，标签为对应汉字的指定标号。

神经网络模型参数很多，需要大量数据训练，防止过拟合。由于标注样本的成本很高，需要对有限的标注样本进行扩充。对标注好的金融图像进行随机的旋转，旋转角度rotate∈[-30,30]。随机裁剪，原图像宽width，高height,新图片newWidth∈[0.7×width,width],newHeight∈[0.7×height,height]。随机高斯模糊，kernelSize∈[3,9],sigmma∈[1,9]。将BGR图像转换为HSV表示，分离通道后，对图像亮度H加上一个随机值hue_vari，hue_vari∈[-8,8]，饱和度S随机乘以sat_vari，sat_vari∈[0.5,1.5]，明度V随机乘以val_vari，val_vari∈[0.7,1.3]；随机gamma变换，gamma∈[0.5,2.0]。根据gamma表对图像像素值pixeli进行映射。再通过泊松克隆的方式随机融合不同背景的图像，即能丰富样本，又能丰富图像场景。

S3：生成文本区域候选框，以缩放处理后的图像作为inception-RPN的输入，在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框，计算每一个候选文本区域的得分；其中，所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络，Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层，所述的Inception-RPN网络，是模仿Inception结构构造RPN网络，并只用了单层结构的Inception来提取候选文本区域；

所述的S3中所述的文本特征先验框共24种，其中每个滑动位置的滑动窗口宽度设为32、48、64和80，长宽比例为0.2、0.5、0.8、1.0、1.2和1.5；所述的inception网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。

所述的文本类别监督信息和区域下采样信息均为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本，其他指定为不包含文本信息。

S5：将每一行的文本特征输入到LSTM网络模型中，对文本的高度、文本的起始位置和结束位置进行判断，以一种端到端的方式训练inception候选文本区域生成网络；

在学习阶段，把与真实文本框交集除以并集大于0.5的指定为文本标签，反之把重叠区域除以并集区域小于0.3的指定为背景标签。设计的inception候选框生成网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。另外，为了降低维度，1*1的卷积操作被应用在3*3的最大池化层上。然后，把通道坐标上各个部分的特征连接起来，一个640维的连接特征向量被送往两个输出层：分类层预测该区域是否存在文本的得分，回归层改善每个滑动位置各种先验窗口的文本区域位置。

对于每一张训练图片，总共抽取128个样本，64正64负，如果正样本不够就用负样本补齐。这个和faster rcnn的做法是一样的。为了提高准确率，训练图片都将短边放缩到600像素。

通过反向传播和随机梯度下降的方法把inception候选框生成网络和文字检测网络以端到端的方式进行训练。共享的卷积网络由预先训练好的imageNet分类网络初始化。新层的权重由均值为0和偏差为0.01的高斯分布初始化。基准学习率为0.001，每迭代40000次缩小为原来的十分之一。动量和权值衰减量分别设为0.9和0.0005。

对候选区域进行修正的具体步骤如下：

S6.1对候选文本区域进行大小归一化的旋转的池化操作，得到相同大小的特征图；

S6.2特征图经过两次全连接层操作；

S6.3根据所求特征对类别判断，并对文本区域进行位置的精确调整，获得具有一定方向的倾斜文本候选文本区域。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于深度学习的金融行业图像中的文字区域检测定位的方法，其特征在于，该方法包括如下步骤：

S3：生成文本区域候选框，以缩放处理后的图像作为inception-RPN网络的输入，在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框，计算每一个候选文本区域的得分；其中，所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络，Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层，所述的Inception-RPN网络，是模仿Inception结构构造RPN网络，并只用了单层结构的Inception来提取候选文本区域。

2.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法，其特征在于：所述的S3中所述的文本特征先验框共24种，其中每个滑动位置的滑动窗口宽度设为32、48、64和80，长宽比例为0.2、0.5、0.8、1.0、1.2和1.5；所述的inception网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。

3.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法，其特征在于：S4的文本类别监督信息为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本，其他指定为不包含文本信息。

4.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法，其特征在于：S4的区域下采样信息为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本，其他指定为不包含文本信息。

5.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法，其特征在于：S6具体包括以下步骤：

S6.2：特征图经过两次全连接层操作；