CN110503090B

CN110503090B - 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Info

Publication number: CN110503090B
Application number: CN201910614874.9A
Authority: CN
Inventors: 王伟平; 陈语地; 周宇; 杨东宝
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2021-11-09
Anticipated expiration: 2039-07-09
Also published as: CN110503090A

Abstract

本发明涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明设计了基于深度神经网络的字符检测器，在网络结构中加入注意力模型来对学习到的特征进行加权，充分利用了字符周围的上下文信息来辅助字符特征的学习，并设计了一个受限关系模型来对上下文信息进行编码，考虑了不同上下文信息对当前特征的影响。本发明使用受限的上下文信息来提升字符检测的结果，通过融入合适的上下文信息，可以在很大程度上提高字符检测器的性能，使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性，能够减少检测过程中的误报和漏报，同时能够提供初步的识别结果。

Description

基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

技术领域

本发明属于信息技术领域，具体涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。

背景技术

从20世纪开始，人们就试图从图像中提取文字，最重要的一个代表就是光学字符识别技术(Optical Character Recognition，OCR)的提出，它针对图像中的印刷体进行处理，以实现像素层次上的特征提取，从而对实现图像对文本的转换过程。进行了文本提取之后，该信息可进一步用于各种实际应用，如图像搜索，即时翻译，机器人导航和工业自动化。随着人们对文本识别要求的提高，传统的OCR已经无法满足目前的需求，人们迫切的需要能够针对自然场景中复杂背景情况下的文本进行检测识别的技术。目前的比较成熟的方法主要依靠于对场景图片进行连通域分析、采用滑动窗口的模式进行单字符识别以及基于锚点(Anchor box)的检测方法。

现有技术主要存在以下缺陷：

1.传统的OCR技术只能处理文档图片。与文档中的文字不同，自然场景中的文本表现出更高的多样性和可变性。例如，场景文本的实例可以是不同的语言，颜色，字体，大小，方向和形状。此外，场景文本的宽高比和布局可能会有很大差异。

2.基于连通域分析的方法会受到复杂背景图像的干扰。自然场景的背景几乎是不可预测的。可能存在与文本极其相似的模式(例如，树叶，交通标志，砖块，窗户和栅栏)，或由异物引起的遮挡，这可能潜在地导致混淆和错误。

3.采用滑动窗口以及使用锚点进行检测的方法会受到复杂成像条件以及复杂纹理的干扰。在不受控制的情况下，无法保证文本图像和视频的质量。也就是说，在较差的成像条件下，文本实例可能由于不适当的拍摄距离或角度而具有低分辨率和严重失真，或者由于失焦或抖动而模糊，或者由于低光照水平而发生噪声，或者由于高光或阴影。

发明内容

本发明的目的在于提高字符检测器的性能，使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性，减少检测过程中的误报和漏报。

本发明采用的技术方案如下：

第一方面，本发明提供一种基于受限注意力模型的字符检测网络训练方法，包括以下步骤：

1)将训练数据输入骨干网络进行特征提取；

2)将提取的特征输入字符RPN和单词RPN，进行第一阶段的回归预测和分类预测，并计算损失函数；

3)根据字符RPN的输出，通过注意力网络计算字符之间的关系权重；

4)根据字符RPN和单词RPN的输出，计算用于限制字符关系的受限关系矩阵；

5)将关系权重与受限关系矩阵按元素对位相乘，得到受限关系权重；

6)将受限关系权重与根据字符RPN获得的字符特征进行加权，得到加权字符特征；

7)对加权字符特征进行第二阶段的回归预测和分类预测，获得字符检测结果，并计算损失函数；

8)迭代步骤1)～7)直到网络收敛，得到训练完成的字符检测网络。

进一步地，所述关系权重的计算方法为：

其中，w^mn表示关系权重，m，n表示字符RoI的索引，W_K，W_Q表示注意力网络中的权重参数，

是提取到的字符特征，

是两个字符RoI经过编码之后得到的特征，softmax表示归一化指数函数，d_k表示投影之后的特征的维度，即

和

的维度。

进一步地，所述受限关系矩阵的计算步骤包括：

a)对单词RoI依据单词RPN模块得到的预测分数S_w进行排序并放入队列，对于队列中的每一项i，计算它与之后的任意一项j之间的交并比，若交并比大于阈值θ_IoU，则第j项被移除队列；

b)对队列中剩下的单词RoI取前K项；

c)用p表示步骤b)处理后的单词RoI的数量，q表示字符RoI的数量，新建矩阵

其中

表示实数域中p×q维的矩阵；

d)对于第m个单词RoI以及第n个字符RoI，计算其交并比，如果交并比大于0，则P[m，n]＝True；

e)对于第k个字符RoI，找到向量P[：，k]为真值的索引r存储到r_t中；对于r_t中的每一个r，计算M[k，：]为M[k，：]与P[r，：]逐像素逻辑或的结果，最后得到的M即为受限关系矩阵w^l。

进一步地，所述加权字符特征的计算公式为：

其中，

表示加权字符特征，w_final表示受限关系权重，W_V是注意力网络中的权重参数，

是提取到的字符特征。

第二方面，本发明提供一种基于受限注意力模型的字符检测方法，包括以下步骤：

获取待进行字符检测的数据；

将待进行字符检测的数据输入采用上面所述方法训练完成的字符检测网络中，获得字符检测结果。

第三方面，本发明提供一种基于受限注意力模型的字符检测器，其包括：

骨干网络，用于对输入的图片提取特征；

字符RPN，连接所述骨干网络，用于根据输入的特征生成字符候选提案；

单词RPN，连接所述骨干网络，用于根据输入的特征生成单词候选提案；

约束关系模块，连接所述单词RPN和所述字符RPN，用于生成受限关系矩阵；

注意力网络模块，连接所述字符RPN，用于生成关系权重；

加权字符特征模块，连接所述字符RPN、所述约束关系模块和所述注意力网络模块，用于计算加权字符特征；

分类预测模块和回归预测模块，连接所述加权字符特征模块，用于对加权字符特征进行回归预测和分类预测，获得字符检测结果；

损失模块，用于在训练过程中计算损失函数的值，以判断网络是否收敛。

进一步地，所述注意力网络模块将任意两个候选区域的特征进行加权，从而在检测字符的同时使用全局的信息来辅助当前字符进行检测。

进一步地，所述约束关系模块利用字符在空间属性上的关系得到受限关系矩阵，用于对关系权重进行进一步的调整，从而在检测字符的同时考虑了字符之间的关系以及限制。

本发明的技术关键点在于：

1.设计了一个简单的基于深度神经网络的字符检测器；

2.在网络结构中加入注意力模型来对学习到的特征进行加权；

3.充分利用了字符周围的上下文信息来辅助字符特征的学习；

4.设计了一个受限关系模型来对上下文信息进行编码，考虑到不同上下文信息对当前特征的影响。

本发明的有益效果如下：

本发明使用受限的上下文信息来提升字符检测的结果，通过融入合适的上下文信息，可以在很大程度上提高字符检测器的性能，使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性，能够减少检测过程中的误报和漏报，同时能够提供初步的识别结果。

附图说明

图1是对照组(常见的二阶段深度学习字符检测器)的网络结构图。其中，圆角矩形代表模块的输入或者输出，直角矩形代表模块，虚线区域只在检测器的训练过程产生作用。

图2是本发明的约束关系网络的网络结构图。其中圆角矩形代表模块的输入或者输出，直角矩形代表模块，虚线区域只在检测器的训练过程产生作用。为了使得描述更为简洁，图中RPN的部分结构省略，具体可以参考图1。

图3是字符之间的关系示意图，同一个颜色标记的字符之间的关系更加紧密，不同颜色标记的字符基本上是互不相关的。

图4是检测效果的可视化结果图，左边两图即(a)图和(c)图为对照组的结果，右边两图即(b)图和(d)图为约束关系网络的结果。

图5是约束关系网络检测结果与现有的几种算法的对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

图1是常见的二阶段深度学习字符检测器的网络结构图(参见Ren，S.，He，K.，Girshick，R.，Sun，J.：Faster r-cnn：Towards real-time object detection withregion proposal networks.In：NIPS.pp.91-99(2015))，其在本发明中作为对照组。

图2是本发明提出的一种新的用于字符检测的约束关系网络(ConstrainedRelation Network，CRN)的网络结构图。对图中的各部分说明如下：

骨干网络：深度学习特征提取模块，通常为多层卷积模块的叠加，里面包含大量可学习的参数，输入为图片，输出为图片的特征表示。

字符RPN(Character RPN)和单词RPN(Word RPN)：Character RPN是用于生成字符候选提案的模块，Word RPN是用于生成单词候选提案的模块。RPN为一种现有的网络结构，全名为区域提议网络(Region Proposal Network)，输入为骨干网络的输出、预定义的字符/单词锚点等，输出为字符/单词提案以及预测分数S_c/S_w，提案包括单词的位置信息(x，y)、长和宽。其中字符提案称为Character RoI，单词提案称为Word RoI。RoI为Region ofInterest，即感兴趣区域，可以理解为(字符/单词)检测结果的候选区域，Character RoI和Word RoI也可分别称为字符感兴趣区域、单词感兴趣区域。S_c为Character RPN模块得到的字符提案的预测分数，S_w为Word RPN模块得到的单词提案的预测分数。

注意力网络：用于生成关系权重的网络。

关系权重：用于描述全局字符之间关系的权重，该权重主要用于对字符特征进行加权，使当前字符能够学习其他字符的特征。

约束关系模块：用于生成受限关系矩阵的模块。

受限关系矩阵M：用于限制字符关系的矩阵，如果字符i，j在空间距离、表示特征等属性上更为接近，对应的M[i，j]也越大。

字符特征：用于描述字符属性的特征，经过神经网络特征提取得到。

受限关系权重：关系权重与受限关系矩阵按元素对位相乘之后的结果。

加权字符特征：受限关系权重与字符特征加权之后的结果。

表示注意力权重的加权运算，具体计算方式见后文的公式(1)。

⊙：表示矩阵之间对位相乘。

利用图2所示的约束关系网络实现字符检测的步骤，包括训练步骤和测试步骤，具体说明如下：

1.训练步骤

1)准备好训练数据、对应的标注以及必须的超参数，如图片的预处理、锚点的设置、学习率的设置、产生候选的数量，各部分损失函数之间的权重等。具体的信息可以参考“Ren，S.，He，K.，Girshick，R.，Sun，J.：Faster r-cnn：Towards real-time objectdetection with region proposal networks.In：NIPS.pp.91-99(2015)”。

2)将训练数据中的图片经过骨干网络进行深度学习特征提取，得到所需要的特征。

3)将步骤2)得到的特征以及对应的锚点输入(Character/Word)RPN中，通过回归预测和分类预测得到第一个阶段的预测结果(Character/Word)RoI以及预测分数S_c/S_w。

4)步骤3)得到的(Character/Word)RoI以及预测分数S_c/S_w可以与步骤1)准备的标注进行损失函数的计算。

5)步骤2)得到的特征以及对应的(Character/Word)RoI经过池化(RoI Pooling)可以得到字符/单词的特征。

6)通过后文的公式(2)可以得到关系权重w^mn，通过后文的算法1可以得到受限关系矩阵w^l。

7)通过后文的公式(3)可以得到受限关系权重w_final，通过后文的公式(4)可以得到加权字符特征

8)经过第二个阶段的回归预测和分类预测得到最后的检测结果Character det以及置信概率S，其中Character det和Character RoI存储的信息完全相同，置信概率S与预测分数S_c存储的信息基本相同，唯一的区别在于他们是不同阶段的产物，第二个阶段的结果会更加准确。

9)步骤8)得到的Character det以及置信概率S可以与步骤1)准备的标注进行损失函数的计算。

10)迭代2)-9)步直到网络收敛，如验证集上的指标不再增加、损失函数的值低于经验值。从而得到最终的字符检测器。

2.测试步骤

a)准备好测试数据，与训练数据进行相同的数据预处理过程。

b)执行训练过程中的2)-3)，5)-8)步。

c)将第8)步得到的Character det以及置信概率S进行合适的后处理，如非极大抑制、低置信度检测结果的筛选，从而实现字符检测。

本发明的约束关系网络CRN可以充分利用上下文信息来处理大多数背景技术中所描述的挑战。该模型在得到字符特征时候，会使用注意力网络来生成关系权重，对字符特征进行融合，在此基础上还添加了约束关系模块。约束关系模块利用几何特征和外观特征构建新的关系权重(受限关系矩阵)，并使用其进一步选择合适的上下文信息。

首先是关系权重的计算，这里的计算方式来自于“Hu，H.，Gu，J.，Zhang，Z.，Dai，J.，Wei，Y.：Relation networks for object detection.In：CVPR.pp.3588-3597(2018)”。

式中，

表示经过注意力加权过的特征，m，n表示的是RoI(在这里对应为Character RoI)的索引，W_V，W_K，W_Q表示注意力网络中的可学习的权重参数(一般用0初始化，会随着训练过程逐渐调整)，

是提取到的字符特征，w^mn是上下文信息经过加权之后得到的权重，即关系权重，

是两个character RoI经过编码之后得到的特征，softmax表示归一化指数函数，d_k表示投影之后的特征的维度(即

和

的维度)。d_k在这里用于归一化，是一个归一化因子。

其中，“上下文信息”是一个目标周围候选目标所承载的信息，例如：句子“我爱北京，她很美。”中的“她”的含义就需要我们使用上下文信息进行推断，在这里上下文信息可以理解为其他字符的特征，更广义的可以理解为其他候选区域的特征。

其中，“编码”是指一种特征编码手段，用于将特征描述映射到合适的特征空间，具体的实现方法见“Vaswani，A.，Shazeer，N.，Parmar，N.，Uszkoreit，J.，Jones，L.，Gomez，A.N.，Kaiser，

Polosukhin，I.：Attention is all you need.In：NIPS.pp.5998-6008(2017)”中3.5章Positional Encoding。

通过对全图中检测的候选字符区域(Character RoI)进行关系权重的提取(见公式(2))，可以将他们的特征进行合适的加权(见公式(1))，这样可以在很大的程度上增加字符之间特征的鲁棒性，使得提取到的特征对于之后的检测与识别更加有效。

对于字符检测来说，通常把字符当作是通用目标来进行检测，然而，上面的关系权重会考虑全图中所有的字符之间的关系，这种模式有的时候是不正确的。如图3所示，同一个单词中的字符之间的联系比不同单词之间的字符更加紧密。更一般的，离得越近的字符之间就具有着更强烈的关系。

于是本发明提出了一个新的约束关系模块以实现局部注意力策略。首先需要单词级别的标注来辅助进行训练一个新的Word RPN结构，这个额外的结构能够输出word RoI。其次，本发明设计了一个新的算法来计算这个受限关系矩阵w^l，该算法称为算法1，算法1的具体流程如下：

1.对word RoI依据Word RPN模块得到的分数S_w进行排序，放入队列，对于队列中的每一项i，计算它与之后的任意一项j之间的交并比，若交并比大于阈值θ_IoU，那么第j项被移除队列。

2.对队列中剩下的word RoI取前K项，即得到了经过后处理的word RoI。

3.用p表示处理后的word RoI的数量，q表示character RoI的数量，新建矩阵

其中

表示实数域中p×q维的矩阵。

4.对于第m个word RoI以及第n个character RoI，计算它们的交并比，如果交并比大于0，则P[m，n]＝True。

5.对于第k个character RoI，找到向量P[：，k]为真值的索引r存储到r_t中；对于r_t中的每一个r，计算M[k，：]为M[k，：]与P[r，：]逐像素逻辑或的结果，最后得到的M即为受限关系矩阵w^l。

其中，对于矩阵(如P，M)，P[：，i]表示取矩阵的第i列，P[j，：]表示取矩阵的第j行。

最后将这个学习到的约束关系通过卷积网络进行编码得到了最后的受限关系权重：

w_final＝w^mn*w^l (3)

根据式(3)，可以得到公式(1)的变种：

通过式(4)可以得到最后的表示特征，即加权字符特征。这个特征会被用来进行第二个阶段的分类和回归，该部分的具体操作见“Ren，S.，He，K.，Girshick，R.，Sun，J.：Faster r-cnn：Towards real-time object detection with region proposalnetworks.In：NIPS.pp.91-99(2015)”。

本发明的效果：

三个数据集：ICDAR13，VGG-SynText，FORU被用来检测本发明方法的有效性，因为本发明的方法是基于字符检测的方法，主流的数据集往往并没有字符层级的标注，所以在这三个数据集上进行了我们的实验，首先是VGG的SynText数据集，在这个数据集上验证了本发明的算法处理生成数据的效果，在这个数据集上面进行了大规模的训练，然后是ICDAR13数据集，在这个数据集上验证了本发明的算法处理场景文本的能力。最后是FORU数据集，使用它来验证本发明算法的泛化性能。

表1展示了本发明算法在VGG-SynText数据集上的效果，表2展示了本发明的算法不同模块泛化至新数据集的能力。图4展示了本发明算法的定性分析的结果，图5展示了本发明算法在ICDAR13的效果。

表1中，现有方法1为“Hu，H.，Zhang，C.，Luo，Y.，Wang，Y.，Han，J.，Ding，E.：Wordsup：Exploiting word annotations for character based text detection.In：ICCV.pp.4940-4949(2017)”中的方法。现有方法2为“Hu，H.，Gu，J.，Zhang，Z.，Dai，J.，Wei，Y.：Relation networks for object detection.In：CVPR.pp.3588-3597(2018)”中的方法。

根据图4可以看出，本发明中的字符检测器可以很好的处理重复的类似字符的纹理(图a和图b的对比)，从而减少字符检测器的误报。与此同时，该字符检测器可以对复杂背景、成像条件的字符拥有鲁棒的检测效果(图c和图d的对比)从而提高字符检测的召回率。

图5中横坐标表示召回率，纵坐标表示正确率，图中CRN+MS表示本发明方法在多尺度检测下的结果，CRN表示本发明方法，RN表示“Hu，H.，Gu，J.，Zhang，Z.，Dai，J.，Wei，Y.：Relation networks for object detection.In：CVPR.pp.3588-3597(2018)”中的方法，Base表示对照组(见“Ren，S.，He，K.，Girshick，R.，Sun，J.：Faster r-cnn：Towards real-time object detection with region proposal networks.In：NIPS.pp.91-99(2015)”)的方法。根据图5可以看出，相同的召回率下，本发明方法有着更高的正确率，反之亦然。这说明了无论在哪种测试超参数的条件下，本发明的方法都有着稳定的性能提升。

表1不同算法在VGG-SynText上的效果

表2本发明不同模块在FORU数据集上的消融实验

注意力网络	受限关系矩阵	多尺度测试	正确率	召回率	F-measure
						×	×	×	0.877	0.887	0.882
√	×	×	0.913	0.873	0.893
						√	√	×	0.926	0.901	0.913
√	√	√	0.921	0.951	0.936

本发明的实例：基于受限注意力模型的字符检测器

虚拟环境中的字符检测器的构建过程主要包括以下几个步骤：

准备大量的虚拟数据，这一部分的数据要求含有标注，这里选择的是VGG-SynText数据集，在这个数据集上面进行了大规模的训练，总共在800k数据集上随机抽取了105k图片，其中100k作为训练集，5k作为测试集，对于这些图片进行色彩的归一化处理以及尺寸的调整，为训练模型做好准备。

完成学习模型的构建，主要包括主干网络、(Character/Word)RPN、注意力网络模块、(分类、回归)预测模块以及损失模块的构建。考虑到任务的复杂程度，这里我们选择VGG-16作为主干网络用来提取特征。两个RPN结构分别用于提取character RoI以及wordRoI，它们的长宽比参数分别设置为[0.5，1，2]和[0.5，1，2，5]。通过设置默认的锚点来进行回归和分类，可以得到第一个阶段的候选提案，根据RoI池化提取字符的特征，通过上文提到的公式以及算法可以计算的受限关系矩阵从而得到最终的加权字符特征。最后，通过第二个阶段的分类和回归可以得到最后的检测结果。

在训练阶段有5个学习的目标，分别为第一阶段字符候选的回归和分类，第二阶段字符检测的回归和分类以及单词的分类。根据此使用了回归相关的L2范数以及分类相关的交叉熵损失函数对学习的目标进行优化，这些损失之间的比例为1∶1∶1∶1∶0.5，通过梯度的反向传播，使用随机梯度下降作为优化器来使得网络中的参数随着迭代被训练。

本发明中，骨干网络不局限于VGG-16，也可以是ResNet、GoogleNet以及其他骨干网络。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。