CN107346420A

CN107346420A - 一种基于深度学习的自然场景下文字检测定位方法

Info

Publication number: CN107346420A
Application number: CN201710463101.6A
Authority: CN
Inventors: 操晓春; 伍蹈; 王蕊; 代朋纹; 张月莹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2017-11-14
Anticipated expiration: 2037-06-19
Also published as: CN107346420B

Abstract

本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R‑CNN的RPN(多层卷积神经网络)，根据文字的特征信息，改变RPN中的anchor大小以及回归方式，并加入RNN网络层对图片上下文信息进行分析，构造一个能够有效地检测出文字的文字检测网络。另外，本发明采用聚类方法，设定anchor的大小。特别地，本发明使用困难样本挖掘进行级联训练，能够减少对于文字的误检率。在测试方面，本发明采用级联测试的方法，最终，准确高效的实现文字的定位。

Description

一种基于深度学习的自然场景下文字检测定位方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的自然场景下文字检测定位方法，能够准确定位自然场景下的文字。

背景技术

文字作为人类信息传播的载体，其中蕴含着丰富语义信息。自然场景下，文字也无处不在，例如交通指示牌，商店的广告牌，海报等等，有人工痕迹的地方，基本都有文字存在。从自然场景识别出文字对很多领域都有辅助性的帮助。例如，在图片搜索方面，识别图片中的文字有利于我们更好地对图片分类匹配；在无人驾驶方面，从自然场景中识别出交通指示牌以及其他标志里的文字信息可以辅助驾驶。自然场景下的文字识别在人工智能高速发展的今天，是一个不可或缺的重要发展部分。图像中的文字识别(Text Spotting)一般分为两个步骤，首先文字检测定位出图像中文字的位置，然后对定位出来的文字采用识别技术得到文字的信息内容。其中，文字检测从图片背景中定位出准确文字区域，在整个文字识别流程中占有重要地位。

自然场景下的文字检测与传统的文字检测技术[1.Mori,Shunji,C.Y.Suen,andK.Yamamoto."Historical review of OCR research and development."Proceedings ofthe IEEE 80.7(1992):1029-1058][2.Smith,R."An Overview of the Tesseract OCREngine."International Conference on Document Analysis and Recognition IEEEComputer Society,2007:629-633]不同，传统文字检测主要处理的是文档图像，如扫描文件，PDF等等。这类文档图像文字自身与背景有很大的不同，背景相对单一简单，文字格式(字体、颜色等)相对统一。因此，这类任务可以比较容易的将文字从简单背景中提取出来，然后在分割出的文字上使用传统的文字识别技术便能得到文字内容。这部分技术现已相对成熟。但是，自然场景中的图像是与文档图像有很大区别的。首先，背景复杂很多，它不是文档图像的纯色背景，自然场景中的图像充满着各种对于文字的干扰，比如，电线，窗户等人工痕迹的存在使文字很难从背景中提取出。其次，自然场景中的文字的字体，颜色，布局等有很大的多变性，这增大了我们定位的困难。另外，自然场景中的光照等噪点的存在，又一次提高了检测的难度。因此，自然场景中的文字检测是一个极具挑战的任务。

总体来看，自然场景文字检测的方法可以归为三类。第一类是基于连通组件的文字检测方法[3.Epshtein,Boris,E.Ofek,and Y.Wexler."Detecting text in naturalscenes with stroke width transform."Computer Vision and PatternRecognitionIEEE,2010:2963-2970.][4.Yin,X.C.,et al."Robust Text Detection inNatural Scene Images."IEEE Transactions on Pattern Analysis&MachineIntelligence 36.5(2014):970-83.]。对于自然场景的文字，由于像素灰度值近似，颜色近似相同，笔画宽度相似，因此文字的相邻像素直接表现出连通性。如最大稳定极值区域(MSER)，颜色聚类方法(Color Clustering)、笔画宽度变换(SWT)、笔画特征变换(SFT)等方法。第二类是基于纹理特征的文字检测方法[5.Zhang,Jing,and R.Kasturi."TextDetection Using Edge Gradient and Graph Spectrum."International Conference onPattern Recognition IEEE,2010:3979-3982.][6.Li,Xiaojun,et al."Fast andeffective text detection."IEEE International Conference on Image ProcessingIEEE,2008:969-972.]。文字较其他背景区域具有不同的纹理特征，利用文字独有的纹理特征输入训练好的分类器中，可将文字从背景中提取出来。该方法较好的应对复杂自然场景中的文字检测问题。第三类是基于连通组件与纹理特征的文字检测的混合方法[7.Pan,Y.F.,X.Hou,and C.L.Liu."A hybrid approach to detect and localize texts innatural scene images."IEEE Transactions on Image Processing 20.3(2011):800-813.][8.Gonzalez,A,et al."Text location in complex images."InternationalConference on Pattern Recognition 2012:617-620]。这类方法先提取连通区域得到文字候选区域，再对候选区域进行纹理特征的检测，定位出文字。

随着深度学习领域的高速发展，利用深度学习获取文字的纹理特征进行检测是成为近年来比较流行的方法。文字检测定位可以归纳到图像中的物体检测(文字/非文字)任务上，Faster R-CNN[9.Ren,S.,et al."Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks."IEEE Transactions on PatternAnalysis&Machine Intelligence PP.99(2015):1-1.]等方法都是现在深度学习在图像中应用得很广的物体检测方法。但是文字和普通的物体还是有很大区别的，因此，针对文字的特征，设计出合理高效的文字检测方法存在很大的挑战。

发明内容

针对上述问题，本发明的目的是提出一种基于深度学习的自然场景下文字检测定位方法。基于Faster R-CNN的RPN(region proposal network，属于多层卷积神经网络)，根据文字的特征信息，改变RPN中的anchor大小以及回归方式，并加入RNN网络层对图片上下文信息进行分析，构造一个能够有效地检测出文字的文字检测网络。另外，本发明采用聚类方法，设定anchor的大小。特别地，本发明使用困难样本挖掘进行级联训练，能够减少对于文字的误检率。在测试方面，本发明采用级联测试的方法，最终，准确高效的实现文字的定位。

为达上述目的，本发明采用的技术方案是：

一种基于深度学习的自然场景下文字检测定位方法，包括以下步骤：

1)网络生成及训练：

1-1)基于RPN网络，对测试图片设置条状anchor及回归方法，并引入RNN网络层，构造一个文字检测网络；

1-2)通过聚类计算确定anchor的高度；

1-3)对文字检测网络进行级联训练；

2)文字定位检测：

2-1)将测试图片输入文字检测网络，获得条形框形式的检测结果，对该检测结果做非极大值抑制，并从中挑选预测可能性score大于一设定阈值的条形框；

2-2)对挑选的条形框进行合并，构造出一文字框。

进一步地，步骤1-1)包括使用RPN网络提取特征，并根据RPN网络的stride大小，把anchor的大小设为固定宽，高度不一的长条形状，只对anchor的竖直方向进行回归；并对训练图片的水平方向上的信息进行双向上下文分析。

进一步地，步骤1-1)还包括分割训练图片中文字的表示训练样本的标注信息的标注框为固定宽度的条状标注框。

进一步地，步骤1-2)包括：由K-means算法对训练样本的高度进行聚类，得到k个聚类中心点的值，将其设为k个anchor的高。

进一步地，步骤1-3)中在进行级联训练训练过程中改变随机挑选正负样本，引入困难样本挖掘，包括：

首先，用随机正负样本把文字检测网络训练至收敛之后，把训练样本输入网络进行测试，得到训练样本的检测结果D1；

其次，进行困难负例挖掘，找出容易误判的负样本，并固定住输入网络的部分负样本为这类困难负例，基于之前的文字检测网络继续训练至收敛，再次把训练样本输入网络测试，得到训练样本的检测结果D2；

最后，进行困难正例挖掘，找出容易误判的正样本，并把困难正例作为优先填充的正样本输入网络，进行训练至收敛。

进一步地，步骤2-2)中，对于挑选的条形框进行合并时，将两两之间满足配对条件的条形框进行拼接得到文字框；配对条件为：条形框之间水平间距小于32像素且竖直方向上的交集大于70％。

进一步地，步骤2)进行文字定位检测还包括：

2-3)对测试图片进行级联检测。

进一步地，步骤2-3)中进行级联检测，将测试图片crop或缩小后继续放入文字检测网络中输出结果。

进一步地，步骤2-3)中进行级联检测过程中，首先，通过文字检测网络得到图片检测结果并构造出文字框；其次，计算文字框的高度与图片的高的比例μ,若μ小于一第一阀值则判断文字为小文字，若μ大于一第二阀值则判断文字为大文字；

若图片仅存在小文字，则crop出原图片中含有文字的最小区域，作为新图片输入网络进行第二次检测，得到最终结果；

若图片中只存在大文字，则缩小图片，输入缩小后的图片至网络进行第二次检测，得到最终结果；

若图片中大文字及小文字均不存在，则不进行第二次检测，以第一次检测结果为最终结果。

进一步地，步骤2-3)中第一阈值及第二阀值通过对训练集进行聚类分析得到。

综上所述，本发明设计了一个基于深度学习的自然场景下文字定位检测的方法，具有高精度高召回率的结果。与现有的技术相比，本发明的优点在于：

1.基于Faster R-CNN的RPN网络进行改进，构造了一个文本检测网络。

2.采用聚类训练样本的方法设置anchor大小(高度)，使anchor能够方便地迁移到不同训练数据集中，有利于网络训练。

3.采用困难样本挖掘进行级联训练，可以利用不多的训练样本，得到高精度的测试结果。

4.级联测试法，利用模型测试得到的图片的文字信息，处理图片，提高网络对于大文字和小文字的检测的效果。

附图说明

图1为本发明一实施例中基于自然场景生成文字检测网络的架构图。

图2为本发明一实施例中基于自然场景的文字检测网络级联训练流程图。

图3为本发明一实施例中基于自然场景的文字检测网络级联测试流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

本发明提出的基于深度学习的自然场景下文字检测定位方法中，文字检测网络主要由RPN进行改进得来的，主要包括两个阶段，即网络生成及训练阶段及文字定位检测阶段。

在网络生成及训练阶段，

首先，基于RPN网络，对测试图片设置条状anchor及回归方法，并引入RNN网络层，构造一个文字检测网络；

借鉴Connectionist Text Proposal Network(CTPN)[10.Tian,Zhi,etal.Detecting Text in Natural Image with Connectionist Text ProposalNetwork.Computer Vision–ECCV 2016.Springer International Publishing,2016]思想，把文字行看成由固定宽度的条状区域组成，网络结构如图1所示。

首先，使用RPN例如VGG16网络提取特征，并根据本网络的stride大小，把anchor的大小设为固定宽(与stride一样，16像素)，高度不一的长条形状。然后，只对anchor框的竖直方向进行回归，设置网络中的回归方程smoothL1的参数为2个y轴方向上的坐标。因此，网络最后输出固定宽度的连续的条状proposals，也就是组成文字行的条状区域。其次，在VGG16网络的最后一层conv5_3层，后面中加入RNN层(BLSTM)，对图片的水平方向上的信息进行双向上下文分析，使网络更加可信。此外，还可分割训练图片中文字的表示训练样本的标注信息的标注框(ground truth，又称真值框)为宽度16像素的条状标注框，以便进行训练。

与RPN类似，该网络的使用两个Loss Function，第一个L_cls为Softmax Loss进行二分类(文字/非文字)，第二个L_reg为Smooth L1loss对框的竖直方向进行回归。Loss方程为公式(1)所示

其中，i是批量样本的下标，s_i是第i个anchor的可能性，这是文字的预测值；是标签，其中0表示不是文字，1表示是文字；j是用来竖直回归的的正样本数目，v_j代表的是预测框的竖直方向坐标，是正样本的竖直方向的坐标；N_cls是参与L_cls计算的anchor个数，而N_reg是参与L_reg计算的anchor个数。

通过聚类计算确定anchor的高度；

引入聚类方法，利用k-means算法训练样本得到聚类中心点作为anchor的高度，使anchor的大小有利于网络训练收敛。并且对于不同的训练样本，可以生成不同的anchor高度，anchor的大小具有迁移使用性。

由K-means算法对训练样本的高度进行聚类，得到k个聚类中心点的值设为k个anchor的高。其中K-means使用平方欧氏距离(squared Euclidean distance)进行计算。

与CTPN类似，对于Smooth L1loss中的参数由原来的4个坐标改为2个竖直方向坐标。参数

其中，是一个条状标注框的中心点的纵坐标，h^*是条形标注框的高。类似的，和h^a是anchor的中心点纵坐标和anchor的高。c_y，h是网络预测出框的中心点的纵坐标和高。

然后，对文字检测网络进行级联训练，在训练过程中改变随机挑选正负样本的方法，引入困难样本挖掘(Hard Example Mining)，其包括困难负例挖掘(Hard NegativeMining)和困难正例挖掘(Hard Positive Mining)。

级联训练步骤如图2所示，描述如下：首先，用随机正负样本把文字检测网络训练至收敛之后，把训练样本输入网络进行测试，得到训练样本的检测结果D1；其次，进行困难负例挖掘，找出容易误判的负样本，并固定住输入网络的部分负样本(如20％)为这类困难负例，基于之前的文字检测网络继续训练至收敛，再次把训练样本输入网络测试，得到训练样本的检测结果D2；最后，进行困难正例挖掘，找出容易误判的正样本，并把困难正例作为优先填充的正样本输入网络，进行训练至收敛，得到最后的文字检测网络模型。

在文字定位检测阶段：

将测试图片输入文字检测网络，获得条形框形式的检测结果，对该检测结果做非极大值抑制(NMS)，并从中挑选预测可能性score大于一设定阈值的条形框；测试图片输入之前，根据检测精度的需要调整图片大小，由于此为常规手段，在此不再赘述。

对挑选的条形框进行合并，构造出一文字框。对于网络输出的条形框，两两之间满足配对条件的条形框进行拼接得到文字框。配对条件是：条形框之间a)水平间距小于32像素；b)竖直方向上的交集大于70％。

2-3)对测试图片进行级联检测。

在级联检测中，或crop图片或缩小图片继续放入文字检测网络中输出结果。

级联检测如图3所示，描述如下：首先，文字检测网络得到图片检测结果并构造出文字框；其次，计算文字框的高度与图片的高的比例μ,然后：

若图片仅存在小文字，则crop出原图片中含有文字的最小区域，作为新图片输入网络进行第二次检测，得到最终结果。

若图片中只存在大文字，则缩小图片至原图的0.5-0.7倍，输入缩小后的图片至网络进行第二次检测，得到最终结果。

若是其他情况，则不进行第二次检测，第一次检测结果为最终结果。

判断文字大小的阈值是由网络训练集进行聚类分析得到。使用K-means算法，对训练集中文字标注框的高度与图片高的比例进行聚类分成3类，得到3个聚类中心点(α1，α2，α3)(α由小到大排列)，认为μ<α1是小文字，μ>α3是大文字。

为了验证本发明的实际的技术效果，通过具体实验实现前述实施例描述的自然场景文字检测方法，其测试环境及实验结果为：

(1)测试环境：

系统环境：ubuntu14.04；

硬件环境：内存：64GB，GPU：K40，硬盘：1TB；

(2)实验数据：

训练数据：

SynthText(人工合成文字图片)80万张训练数据进行预训练1epoch。

自然场景图片1095张(其中299张ICDAR2013训练集，793张自己搜集标注)

测试数据：ICDAR2013(233张)

评估方法：Deteval评估法(或ICDAR2015在线评估)

(3)实验结果：

为说明本发明的效果，首先用相同的数据集分别采用四种方法训练模型，并用相同的级联测试方法进行评估：

1、直接用Faster R-CNN进行训练。

2、使用文本检测网络，没有K-means聚类分析训练数据集设置anchor高度，没有困难样本挖掘的级联训练。

3、使用文本检测网络，使用K-means聚类分析训练数据集设置anchor高度，没有困难样本挖掘的级联训练。

4、使用文本检测网络，使用K-means聚类分析训练数据集设置anchor高度，使用困难样本挖掘的级联训练。

其次，用相同的训练方法和不同的测试方法进行评估：

5、使用文本检测网络，使用K-means聚类分析训练数据集设置anchor高度，使用困难样本挖掘的级联训练，不使用级联测试。

参数设置：

1、在本实例中，设k＝10，经过聚类分析，10个anchor高度设置分别为(21，36，53，72，93，122，167，226，342，495)像素，宽统一为16像素；

2、参考RPN，训练测试时，均保持图片比例，调整图片大小至短边600像素，长边不超过1000像素输入网络。

3、测试时，计算文字框的高度与图片的高的比例μ,经过聚类分析训练样本，若μ<0.0637,认为该文字为小文字，μ>0.4304认为该文字为大文字。

4、测试时，对于只存在大文字的图片，缩小至短边400像素，长边不超过800像素，保持原图比例。

5、测试时，非极大值抑制的阈值是0.3，预测可能性score的阈值是0.7。

测试结果如下表所示：

从表中可以清楚的看到，本发明所涉及到的文本检测网络比Faster R-CNN网络精度和召回率有很大提升，并且K-means聚类分析训练数据集设置anchor高度，级联训练，级联测试的方法在精度上比单纯的文本检测网络精度得到进一步提升。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于深度学习的自然场景下文字检测定位方法，包括以下步骤：

1)网络生成及训练：

1-2)通过聚类计算确定anchor的高度；

1-3)对文字检测网络进行级联训练；

2)文字定位检测：

2-2)对挑选的条形框进行合并，构造出一文字框。

2.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤1-1)包括使用RPN网络提取特征，并根据RPN网络的stride大小，把anchor的大小设为固定宽，高度不一的长条形状，只对anchor的竖直方向进行回归；并对训练图片的水平方向上的信息进行双向上下文分析。

3.如权利要求1或2所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤1-1)还包括分割训练图片中文字的表示训练样本的标注信息的标注框为固定宽度的条状标注框。

4.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤1-2)包括：由K-means算法对训练样本的高度进行聚类，得到k个聚类中心点的值，将其设为k个anchor的高。

5.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤1-3)中在进行级联训练训练过程中改变随机挑选正负样本，引入困难样本挖掘，包括：

6.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤2-2)中，对于挑选的条形框进行合并时，将两两之间满足配对条件的条形框进行拼接得到文字框；配对条件为：条形框之间水平间距小于32像素且竖直方向上的交集大于70％。

7.如权利要求1所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤2)进行文字定位检测还包括：

2-3)对测试图片进行级联检测。

8.如权利要求7所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤2-3)中进行级联检测，将测试图片crop或缩小后继续放入文字检测网络中输出结果。

9.如权利要求8所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤2-3)中进行级联检测过程中，首先，通过文字检测网络得到图片检测结果并构造出文字框；其次，计算文字框的高度与图片的高的比例μ,若μ小于一第一阀值则判断文字为小文字，若μ大于一第二阀值则判断文字为大文字；

若是其他情况，则不进行第二次检测，以第一次检测结果为最终结果。

10.如权利要求9所述的基于深度学习的自然场景下文字检测定位方法，其特征在于，步骤2-3)中第一阈值及第二阀值通过对训练集进行聚类分析得到。