CN114973222A

CN114973222A - 基于显式监督注意力机制的场景文本识别方法

Info

Publication number: CN114973222A
Application number: CN202111558960.6A
Authority: CN
Inventors: 王鹏; 郑财源
Original assignee: Ningbo Research Institute of Northwestern Polytechnical University
Current assignee: Ningbo Research Institute of Northwestern Polytechnical University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-08-30
Anticipated expiration: 2041-12-20

Abstract

本发明涉及一种基于显式监督注意力机制的场景文本识别方法，属于场景文本识别领域。在第一部分中，采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码，得到特征图和全局表示。第二部分中，结合先前预测字符信息、位置信息和全局表示进行字符间关系建模，再根据特征图，生成注意力权重，并将该权重乘以特征图得到单个字符的特征，该特征输入到前馈神经网络得到预测的字符，再进入下一个字符的预测识别过程，以此类推，直到得到识别结束标识符。本方法在预测每一个时刻，能够自动定位到该区域的特征，从而提升识别效果，解决了在弯曲或倾斜情况下识别效果差的问题。

Description

基于显式监督注意力机制的场景文本识别方法

技术领域

本发明属于场景文本识别领域，具体提出为采用显式监督注意力机制的编解码结构的文本图像识别方法的方法和系统。整个系统采用带有空间注意力和通道注意力机制的ResNet34卷积神经网络提取文本图像特征，采用基于自注意机制的Transformer 结构进行解码识别。

背景技术

场景文本识别是计算机视觉领域的一个重要挑战，它的任务是在自然图像中自动检测和识别文本。文本作为文字的物理载体，能用来保存和传递信息。在文本检测和识别技术的帮助下，可以解码出视觉影像中的重要语义信息。由于场景文本识别存在巨大的应用价值，近年来在工业界和学术界引起很多人的研究和探索，然而目前识别较好的大多数是背景简单的水平文本。然而在真实场景中，由于场景中光照、遮挡以拍照设备、拍照角度等因素以及文本本身弯曲、倾斜、艺术字等实际因素影响，场景文本识别，特别是不规则场景文本识别，识别效果遇到了较大的瓶颈。

为了针对不规则文本识别的问题，现有的场景文本识别技术(比如：MORAN:AMulti-Object Rectified Attention Network和ASTER:An Attentional Scene TextRecognizer with Flexible Rectification for Scene Text Recognition)在解码阶段采用基于注意力机制的解码器，从而能够自动关注到图片中的字符区域。这些方法能够较好的处理不规则文本识别的问题，但是由于场景图片过于嘈杂，经常会出现“注意力漂移”等问题，从而降低了文本识别的准确率。

发明内容

要解决的技术问题

为了解决现有技术中采用基于注意力机制的解码器出现“注意力漂移”问题，从而导致文本识别准确率低的问题，本发明提出一种基于显式监督注意力机制的场景文本识别方法，通过显式监督的方式对注意力机制进行矫正，使得注意力机制更加精准，从而提升文本识别的准确率和鲁棒性。用于解决弯曲和倾斜的场景文本识别。

技术方案

一种基于显式监督注意力机制的场景文本识别方法，其特征在于步骤如下：

步骤1：将场景文本图片输入到ResNet34卷积神经网络提取得到一个特征图并记为F，F∈R^25x8x512；再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G，G∈R^1×1×1024；同时对F进行1×1卷积得到F'作为最终提取到的特征，F'∈R^25×8×1024；所述的ResNet34的四个layer的每一个block中，都添加了通道注意力和空间注意力机制；

根据字符的标注框对空间注意力进行显式监督，该项loss的计算公式如下所示：

其中y^pred为i，j点处的注意力权重，当该点位于字符区域内y^label为1，否则为0；该监督信号只添加在每一个layer的最后一个block；

步骤2：在解码的时间步t，根据之前预测得到的字符之后再与位置信息相加得到E，E∈R^t×512，再与全局特征表示G拼接在一起得到向量C，C∈R^t×1024；

步骤3：将C输入到带掩码的自注意力机制，用于对输出字中不同字符之间的依赖关系进行建模，自注意力机制如下：

在计算attention时分为三步，第一步是将query和每个key进行相似度计算得到权重；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention；

使用二维注意力模块对编码器和解码器进行连接，它的结构与自注意力模块基本一致，只不过它的K和V都来自于编码阶段得到的F'，Q则是带掩码的自注意力模块的输出；本发明对注意力权重进行显式监督训练，该项损失函数的定义如下：

其中y^pred为在i，j点的注意力权重，当该点在字符区域内y^label为1，否则为0；

步骤4：经过二维注意力模块后得到一个图片特征向量，将该向量经过一个全连接层，得到和字母种类数相同维度的向量，对该向量取argmax操作即可得到该时刻下的预测结果。

本发明技术方案更进一步的说：步骤1中：所述的通道注意力模块将输入的特征图，分别经过基于宽和高的全局最大池化层和全局平均池化层，然后分别经过多层感知机；将多层感知机输出的特征进行基于对位相乘的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图；将该图和输入特征图做对位相乘乘法操作，生成空间注意力模块需要的输入特征；所述的空间注意力模块将通道注意力模块输出的特征图作为本模块的输入特征图，首先做一个基于通道的全局最大池化和全局平均池化，然后将这2个结果基于通道做拼接操作；然后经过一个卷积操作，降维为1个通道；再经过sigmoid生成空间注意力特征；最后将该特征和该模块的输入特征做乘法，得到最终生成的特征。

一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法。

一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现上述的方法。

一种计算机程序，其特征在于包括计算机可执行指令，所述指令在被执行时用于实现上述的方法。

有益效果

本发明提出的一种基于显式监督注意力机制的场景文本识别方法，不仅可以用于识别弯曲和倾斜的场景文本图片，利用二维注意力机制将图片的信息转化为注意力权重矩阵，在预测每一个时刻，能够自动定位到该区域的特征，从而提升识别效果，解决了在弯曲或倾斜情况下识别效果差的问题。引入显式监督的注意力机制能有效解决注意力漂移问题，使得模型能在解码每一个时刻找出场景文本字母的关键区域，结合该字母特征从而更好的识别复说明复杂的场景文本图片。同时也可以对水平的标准场景文本进行识别，整个系统具有更强的实用性，能解决的包含弯曲，倾斜，水平等多种情况下场景文本的识别问题。

附图说明

图1CBAM结构图

图2ResNet结构图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明的系统包括两个部分，第一部分是基于空间注意力和通道注意力机制对场景图片进行特征提取和编码的过程，第二部分为基于自注意力机制的Transformer的解码过程，通过编解码的结构以及注意力机制实现对场景文本的识别。在第一部分中，采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码，得到特征图和全局表示。第二部分中，结合先前预测字符信息、位置信息和全局表示进行字符间关系建模，再根据特征图，生成注意力权重，并将该权重乘以特征图得到单个字符的特征，该特征输入到前馈神经网络得到预测的字符，再进入下一个字符的预测识别过程，以此类推，直到得到识别结束标识符。值得注意的是，为了在编码阶段尽可能忽略图片的背景信息而更多提取到文本的信息，并在解码阶段使模型关注到对应的特征图区域，本发明根据字符的边框信息，分别对编码器和解码器中使用的注意力机制进行显式的监督。步骤如下：

(1)一张场景文本图像经过ResNet34卷积神经网络提取得到一个特征图(featuremap)并记为F，F∈R^25x8x512。本发明在ResNet四个layer的每一个block都添加了空间注意力(spatial attention)和通道注意力机制(channel attention)，该注意力机制被称为CBAM，它的结构图如图1所示。

通道注意力模块将输入的特征图，分别经过基于宽和高的全局最大池化层和全局平均池化层，然后分别经过多层感知机。将多层感知机输出的特征进行基于对位相乘(element-wise)的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图。将该图和输入特征图做对位相乘乘法操作，生成空间注意力模块需要的输入特征。

空间注意力模块将通道注意力模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化，然后将这2个结果基于通道做拼接操作。然后经过一个卷积操作，降维为1个通道。再经过sigmoid生成空间注意力特征。最后将该特征和该模块的输入特征做乘法，得到最终生成的特征。

为了使尽可能提取到文本的信息，本发明根据字符的标注框对空间注意力进行显式监督，该项loss的计算公式如下所示：

其中y^pred为i，j点处的注意力权重，当该点位于字符区域内y^label为1，否则为0。该监督信号只添加在每一个layer的最后一个block。

(2)为了在解码阶段的二维注意力计算中保持维度一致，使用1x1卷积将F的通道进行改变得到F'，F'∈R^25x8x1024。同时将F经过六层的Bottleneck得到另一个特征G，称之为全局表示，G∈R^1x1x512，即G是为一个512维度的向量。受Transformer的启发，设计的基于注意力的序列解码器由三层组成：①带掩码的自注意力机制，用于对输出字中不同字符之间的依赖关系进行建模；②连接编码器和解码器的二维注意力模块；③分别应用于每个解码位置的位置前馈层。对于上述三层中的每一层，都使用带有加法运算的残差连接，然后进行层一化。以上三层构成一个模块，可以不共享参数地进行堆叠。

(3)在时间步t(t从0开始)的时候将先前预测得到的t个字符进行编码后和位置编码position embedding加在一起得到512维的向量，再与全局表示G拼接在一起，最终得到t个1024维的输入C，C∈R^t×1024。

(4)将C输入到带掩码的自注意力机制，用于对输出字中不同字符之间的依赖关系进行建模，自注意力机制如下所示。

在计算attention时主要分为三步，第一步是将query和每个key进行相似度计算得到权重；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention。

(5)使用二维注意力模块对编码器和解码器进行连接，它的结构与自注意力模块基本一致，只不过它的K和V都来自于编码阶段得到的F'，Q则是带掩码的自注意力模块的输出。为了使得模型关注对应字符的区域，这在二维注意力模块中的体现是增加对应字符区域的注意力权重，本发明对注意力权重进行显式监督训练。该项损失函数的定义如下：

其中y^pred为在i，j点的注意力权重，当该点在字符区域内y^label为1，否则为0。

(6)经过二维注意力模块后得到一个图片特征向量，将该向量∈R^1x1x1024经过一个全连接层，得到和字母种类数相同维度的向量，对该向量取argmax操作即可得到该时刻下的预测结果。

(7)下一个时刻重复以上(3-6)操作得到多个时刻下的预测结果，直到得到“END”结束符。

(8)在训练时，解码器的输入为真实标签经过词嵌入(embedding)之后得到的向量；在测试时，由于并不知道真实标签信息，之前解码器的输出作为该时刻的输入。只有在训练阶段包含了反向传播。

实施例具体过程如下：

1.注意力机制的标签制作：

在合成场景文本数据集SynthText中提供了图片中每一个字符的边界框信息，本发明根据该信息制作了注意力机制的标签，用于对注意力进行显式监督训练。

模型输入的图片大小为400×128，其中宽400，高128。在编码阶段，本发明在ResNet 的每一个layer的最后一个block上添加了注意力的监督信号。这四个阶段的空间注意力权重图(spatial attention weight map)的大小分别为100×32，50×16，25×8，25×8，为此制作了相应大小的标签。本发明先根据原图和注意图权重大小的比例将字符的边界框缩放到相应的大小，然后生成注意力标签，在字符边界框里面的值为1，在字符边界框外面的值为0。在解码阶段，需要为解码步骤的每一个注意力机制制作对应的标签，每一个标签的大小都是25×8。首先还是将字符边界框缩放到对应的大小，但是注意力标签的值只有在属于当前字符边界框之内的才为1，否则为0。

2.场景文本图片预处理

为了使得输入模型的图片大小为400×128，把图片尺寸使用双线性插值的方法将尺寸调整到400×128。训练时使用的数据增强方式为随机裁剪、改变图像的亮度、对比度、饱和度和色调。

3.基于显式监督注意力机制的ResNet的场景文本图片特征提取

将图片预处理后得到的张量(400×128×3)输入到ResNet34的特征提取层中。在ResNet34的四个layer的每一个block中，都添加了通道注意力和空间注意力机制 CBAM，如图1所示。

为了加大提取到的特征图，将ResNet34最后一层的步长step由2改为1。整个ResNet34的框架图见图2。经过特征提取之后得到F，F∈R^25×8×512，再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G，G∈R^1×1×1024，同时对F进行1×1 卷积得到F'作为最终提取到的特征，F'∈R^25×8×1024。调整后的ResNet结构图如下所示：

4.基于显式监督注意力机制的Transformer结构的特征解码

在解码的时间步t，根据之前预测得到的字符embedding之后再与位置信息position embedding相加得到E，E∈R^t×512，再与全局表示G拼接在一起得到向量C，C∈R^t ^×1024，输入到自注意力模块，进行字符之间关系的建模。在二维注意力模块，将自注意力模块的输出当作Q，将编码得到的特征F'当作K和V，在每一个时间步计算得到当前需要关注的特征向量S_t，S_t∈R¹⁰²⁴。在自注意力模块和二维注意力模块都会加上位置前馈层，它可以被当做两层的全连接层，其中输入输出为1024，隐层维度为2048。

5.模型训练

S_t经过一个全连接层，其输出的维度等同于所有的字母种类数，再执行softmax操作，将输出的向量转换为每种字母的概率分布，其中概率分布值最大的那一个字母即被认为是该层的预测结果，依次类推，多个时间步得到的预测结果就是场景文本上的所有字母。识别的损失函数使用交叉熵损失函数：

其中x为预测得到的94维向量，gt为真实字符标签。最终的损失函数为：

其中α和β为系数，这里α＝0.1，β＝1。

优化器选用ADADELTA来计算梯度并进行反向传播。训练的batch size设置为112，一个epoch需要64638个迭代，总共训练6个epoch。

8、模型应用

在通过上面的训练过程后可以得到多个模型，选取其中最优的模型(损失函数值最小)用于应用，此时图片数据处理在这里不需要数据增强，只需要把图像调整到 400×128大小，并且归一化即可作为模型的输入。整个的网络模型的参数都固定不动，只要输入图像数据并向前传播即可。依次得到特征图F'∈R^25×8×1024和G∈R^1×1×512。再自动传入解码网络自动解码，经过整个模型可以直接得到识别结果。当需要测试大量场景文本图片时候，需要将所有图整合为一个lmdb格式文件，方便一次性读取所有图片。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均在本发明的保护范围之内。

Claims

1.一种基于显式监督注意力机制的场景文本识别方法，其特征在于步骤如下：

步骤1：将场景文本图片输入到ResNet34卷积神经网络提取得到一个特征图并记为F，F∈R^25x8x512；再将F输入到六层的Bottleneck的全局特征提取层得到全局特征表示G，G∈R¹ ^×1×1024；同时对F进行1×1卷积得到F'作为最终提取到的特征，F'∈R^25×8×1024；所述的ResNet34的四个layer的每一个block中，都添加了通道注意力和空间注意力机制；

2.根据权利要求1所述的一种基于显式监督注意力机制的场景文本识别方法，其特征在于步骤1中：所述的通道注意力模块将输入的特征图，分别经过基于宽和高的全局最大池化层和全局平均池化层，然后分别经过多层感知机；将多层感知机输出的特征进行基于对位相乘的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图；将该图和输入特征图做对位相乘乘法操作，生成空间注意力模块需要的输入特征；所述的空间注意力模块将通道注意力模块输出的特征图作为本模块的输入特征图，首先做一个基于通道的全局最大池化和全局平均池化，然后将这2个结果基于通道做拼接操作；然后经过一个卷积操作，降维为1个通道；再经过sigmoid生成空间注意力特征；最后将该特征和该模块的输入特征做乘法，得到最终生成的特征。

3.一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1所述的方法。

4.一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。

5.一种计算机程序，其特征在于包括计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。