CN113065550B

CN113065550B - 基于自注意力机制的文本识别方法

Info

Publication number: CN113065550B
Application number: CN202110268438.8A
Authority: CN
Inventors: 刘义江; 陈蕾; 侯栋梁; 池建昆; 范辉; 阎鹏飞; 魏明磊; 李云超; 姜琳琳; 辛锐; 陈曦; 杨青; 沈静文; 吴彦巧; 姜敬; 檀小亚; 师孜晗
Original assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Current assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-11-11
Anticipated expiration: 2041-03-12
Also published as: CN113065550A

Abstract

本发明属于于场景文本识别领域，涉及一种基于自注意力机制的文本识别方法，由处理器执行一卷积神经网络算法指令实现，其包括：接收包含文本内容的场景图片；使用卷积神经网络其第一卷积模块提取场景图片的第一特征图M，其自注意力机制模块将第一特征图M编码为第二特征图M_att，其第二卷积模块提取第二特征图M_att通道方向的一维特征向量F；使用卷积神经网络其第三卷积模块根据第二特征图M_att和一维特征向量F获得场景图片的文本内容识别结果；第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对第二特征图M_att解码并设于循环卷积模块中循环单元输出的二维注意力机制模块。该方法能够对弯曲、倾斜等不规则文本实现较好的识别。

Description

基于自注意力机制的文本识别方法

技术领域

本发明属于场景文本识别领域，具体涉及一种采用自注意力机制编解码结构的文本识别方法。

背景技术

视觉意义的文本作为文字的物理载体，能用来保存和传递信息。文本识别技术是计算机视觉领域的一个重要挑战，它的任务是在自然图像中自动检测和识别文本信息。在文本检测和识别技术的帮助下，可以解码出视觉影像中的重要语义信息。由于场景文本识别具有重大的应用价值，近年来在工业界和学术界受到了越来越多的关注。本领域技术人员已经能针对背景简单的水平文本设计识别系统并获得较好的识别效果，而在真实场景中，由于场景中光照、遮挡以拍照设备、拍照角度等因素以及文本本身弯曲、倾斜、艺术字等实际因素影响，场景文本识别，特别是不规则场景文本识别存在技术困难。

针对真实场景视觉影像中不规则文本的识别问题，现有技术的场景文本识别技术在解码阶段采用基于注意力机制的解码器，从而能够自动关注到图片中的字符区域。这些方法能够较好的处理不规则文本识别的问题，但是由于场景图片过于嘈杂，经常会出现“注意力漂移”等问题，从而降低了文本识别的准确率。

发明内容

本发明目的在于提供一种基于自注意力机制的场景文本识别方法，该方法能够对检测阶段提供的文本目标实现较好的识别，特别是处理弯曲、倾斜等不规则文本的识别问题。

本发明提供的技术方案是基于自注意力机制的文本识别方法，由处理器执行一卷积神经网络的算法指令实现，该方法包括：接收包含文本内容的场景图片；使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M，其自注意力机制模块将所述第一特征图M编码为第二特征图M_att，其第二卷积模块提取所述第二特征图M_att通道方向的一维特征向量F；使用所述卷积神经网络其第三卷积模块根据所述第二特征图M_att和一维特征向量F获得所述场景图片的文本内容识别结果；所述第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对所述第二特征图M_att解码并设于所述循环卷积模块中循环单元输出的二维注意力机制模块。

一个改进在于，所述第一卷积模块的主干部分采用ResNet的卷积结构。进一步的改进在于，所述第一卷积模块的主干部分采用ResNet34的卷积结构。ResNet34采用了一种深度适中较为均衡的网络结构，其配合本发明构思中其他网络结构的配置，被验证可以获得更好的成本控制。再进一步的改进在于，所述ResNet34最后一层卷积步长被设为1,以便获得尺寸更大的第一特征图。

另一个改进在于，所述第二卷积模块包含多层Bottleneck结构。

另一个改进在于，所述第三卷积模块的循环卷积网络为LSTM网络。其进一步的改进在于，所述第三卷积模块的二维注意力机制模块；所述二维注意力机制模块设置于LSTM每个循环单元的输出中，用于根据所述第二特征图M_att和上一步获得的隐层状态对各循环单元输出实施解码。优选的，所述第三卷积模块中LSTM的初始隐层状态被设置为所述一维特征向量F。

另一个改进在于，对于所述卷积神经网络，在对其进行训练时，所述循环神经网络的输入为真实标签经过线性变换得到的一个one-hot的向量；在对其进行测试时，由于并不知道真实标签信息，所述卷积神经网络配置为将上一个时刻循环神经网络的输出作为该时刻的输入。进一步的改进在于，所述卷积神经网络只有在训练阶段配置反向传播。

接收包含文本内容的场景图片；使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M，其自注意力机制模块将所述第一特征图M编码为第二特征图M_att，其第二卷积模块提取所述第二特征图M_att通道方向的一维特征向量F；使用所述卷积神经网络其第三卷积模块根据所述第二特征图M_att和一维特征向量F获得所述场景图片的文本内容识别结果；所述第三卷积模块包含以一维特征向量F为初始隐含层的LSTM模块以及用于对所述第二特征图M_att解码并设于所述LSTM模块循环单元输出的二维注意力机制模块。

主要模块包括如下：该系统包括两个部分，第一部分是基于自注意力机制对场景图片进行特征提取和编码的过程，第二部分为基于循环神经网络的解码过程，通过编解码的结构以及注意力机制实现对场景文本的识别。在第一部分中，我们采用带有注意力机制的ResNet卷积神经网络的特征提取部分对文本图像进行特征提取和编码，得到特征图。第二部分中，结合先前预测字符信息、位置信息和全局表示进行字符间关系建模，将特征输入到循环神经网络得到预测的字符，再进入下一个字符的预测识别过程，以此类推，直到得到识别结束标识符。

在一个由ResNet34实现的实施例中，场景文本识别方法包含以下主要步骤：

首先，对于一张场景文本图像经过ResNet34卷积神经网络提取得到一个第一特征图(feature map)并记为M，在其最后一个layer卷积处理后加入自注意力机制模块，使得其实际输出为包含了字符注意力特征分布的第二特征图并记为M_att。将M_att经过六层的Bottleneck得到另一个一维特征向量F。

然后，对特征向量F作为循环神经网络的初始隐含层状态h₀，将“START”编码后作为循环神经网络的初始输入x₀，同时输进LSTM的第一个层结构，并得到第一个状态下的隐含层结构和车牌图片第一个字母的分布结果。之后，将h₁和M_att输入到二维注意力机制中得到权重图，并将权重图与M_att接进行矩阵乘法并得到一个向量。输入包含两部分：第一个为，上一个隐层状态h_t作为注意力机制的输入，先经过一个1x1的卷积，再通过空间维度复制得到与M_att尺寸相同的一个特征图；另一个为在第一步中得到的特征图M_att，经过一个1x1的卷积得到另一个特征图；通过将两个输入的处理之后得到的矩阵特征图进行矩阵加和，再进行Tanh操作，最后经过为经过1x1的卷积和softmax操作得到注意力权重矩阵α，注意力权重和M进行矩阵点乘和求和得到最重的一维向量d_t。将上述得到的图片一维特征向量d_t和隐层状态h_t通过在通道方向上的concat操作得到新的一维图片特征向量

将该向量经过一个全连接层，得到和字符种类数相同维度的向量，对该向量取argmax操作即可得到该时刻下的预测结果。

下一个时刻重复以上上一个时刻操作得到多个时刻下的预测结果，直到得到“END”结束符。

本发明的有益效果：本发明不仅可以用于识别弯曲和倾斜的场景文本图片，利用二维注意力机制将图片的信息转化为注意力权重矩阵，在预测每一个时刻，能够自动定位到该区域的特征，从而提升识别效果，解决了在弯曲或倾斜情况下识别效果差的问题。引入自注意力机制能有效解决注意力漂移问题，使得模型能在解码每一个时刻找出场景文本字母的关键区域，结合该字母特征从而更好的识别复说明复杂的场景文本图片。同时也可以对水平的标准场景文本进行识别，整个系统具有更强的实用性，能解决的包含弯曲，倾斜，水平等多种情况下场景文本的识别问题。

附图说明

图1为本发明一个实施例中基于自注意力机制的文本识别方法使用的卷积神经网络结构示意图；

图2为本发明一个实施例中基于自注意力机制的文本识别方法使用的第一卷积模块的结构示意图；

图3为图1中二维注意力机制模块卷积处理流程示意图。

具体实施方式

首先需要说明的是，现有技术中，要想捕捉图像数据中某些像素点空间分布特征的长距离依赖，通常的做法是堆积卷积层，随着层数的加深，感受野越来越大，就能把原先非相邻的像素点纳入到一个整体考虑，获取的信息分布广度也越来越高。这种靠堆叠卷积层得到的感受野提升，需要不断重复卷积过程，而这种重复会带来几个弊端：首先，计算效率很低，层的加深意味着更多的参数，更复杂的关系；其次，优化困难，需要谨慎设计优化过程；最后，建模困难，尤其是对于那些多级依赖项，需要在不同距离位置传递信息的情况难以设计有效的算法处理模型。自注意力机制(Self-attention)虽然通过计算任意两个位置之间的交互直接捕捉远程依赖，而不用局限于相邻点，摒弃了距离的概念。可以捕捉长距离依赖关系，但是根据现阶段公开的背景技术，具体的模型设计并非是显然的。

进一步的说明在于，本发明中选择自注意力机制的Non-Local Block设计所述将第一特征图处理为第二特征图的自注意力机制模块，其调用的自注意力算法考虑为整体卷积神经网络的一个泛化、简单、可直接嵌入到当前网络的非局部操作算子，用于捕获一维特征信号在时间、空间及时空中的长范围依赖，本发明中通过以下公式表示说明：

其中，x是作为输入信号的特征空间的一个特征张量，本发明为第一特征图，i、j是特征图指定位置的特征向量的索引，指定i处的特征向量x_i对于第一特征图的注意力权重分布的响应值y_i是通过索引j枚举所有可能位置来计算的。二元函数f计算i和j之间的相似关系，即相似度，一元函数g计算输入信号在位置j表示。最终的响应y_i通过响应因子C(x)进行标准化处理得到。各个响应的y_i按照对应x_i在x中的分布顺序组成本发明的第二特征图。本发明实施例中具体提供了一种Non-Local Block的使用方式，在Xiaolong Wang,RossGirshick,Abhinav Gupta,Kaiming He等公开的关于Non-local Neural Networks的论文(https://arxiv.org/abs/1711.07971)中提供了其他改进的Non-Local Block，本领域技术人员基本本发明提供的构思结合论文中公开的其他实施方式，可以直接获得本发明的另一些实施例。

下面结合附图通过一个实施例及该实施例的改进实施例对本发明提供技术方案及相应技术效果进行详细说明。

本实施例提供了一个基于自注意力机制的文本识别方法，是一种利用自注意力机制对Resnet34输出特征图中文本内容信息进行编码并利用二维注意力机制对LSTM循环步骤间隐含层输出针对文本内容信息进行解码实现的场景文本识别方法。为方面理解，本实施例通过以下步骤100至800对具体过程表述，这些步骤在实际实施中并不代表时间的先后顺序，在实现各步骤的实施准备条件的前提下，变更顺序的实施也是本发明的不同实施方式。

步骤100，预处理用于学习的场景文本图片样本。

本实施例中，场景文本图片样本采用合成样本，具体的，使用合成场景文本数据集SynthText。在预处理中，每张样本图片被调整为同一的尺寸，并进行数据增强，示范的，本实施例中，每张样本图片被使用双线性插值的方法调整为640×96大小，训练时使用的数据增强方式包括随机裁剪、改变图像的亮度、对比度、饱和度和色调。本步骤获得包含文本内容的场景图片，具体的，本实施例中，样本图片在RGB三个通道分量展开后，一张场景图片使用一个的640×96×3的张量表示。

步骤200，构建由第一卷积模块、自注意力机制模块、第二卷积模块以及包含二维注意力机制模块的第三卷积模块组成的卷积神经网络。

示范的，参考图1，本实施例中，第一卷积模块1001使用ResNet34结构构建其主干，自注意力机制模块使用Non Local Block结构，第二卷积模块1002使用由六层Bottleneck组成残差网络，第三卷积模块1003使用LSTM结构构建其主干，并在LSTM的每个循环单元的输出中设置二维注意力机制模块(2D Attention)对各单元输出解码。本实施例中，对本方法使用的卷积神经网络更具体的结构设置和作用，可以从以下对其工作原理的说明中获得。

本实施例中的卷积神经网络的数据处理主要包括两部分，第一部分为编码阶段，使用基于自注意力机制的第一卷积模块从场景图片中提取场景文本图片特征，将图片预处理后得到的张量(640×96×3)输入到ResNet34的特征提取层中。在ResNet34的最后一个block后，调用自注意力机制。

参考图2的整个ResNet34的框架图，本实施例的一个优选是，为了加大提取到的特征图，本实施例将ResNet34最后一层的步长step由2改为1。经过特征提取之后得到M_att，具体的，本实施例中M_att∈R^40×6×512，再将M_att输入到六层的Bottleneck组成的第二卷积模块得到一维特征向量F，具体的，本实施例中F∈R^1×1×512。

第二部分为解码阶段，使用结合先前预测字符信息、位置信息和全局表示进行字符间关系建模，将特征输入到循环神经网络得到预测的字符，再进入下一个字符的预测识别过程，以此类推，直到得到识别结束标识符。其中，先前预测的字符信息指，由多个单元组成的循环神经网络中，每个单元的输入使用前一个单元预测输出，这些输出中携带可以由词嵌入(embedding)提取的单字符信息；位置信息是自注意力机制模块的编码获得的第二特征图中携带有字符在图片中分布的位置信息；全局信息指前面编码得到的第二特征图也同时包含了图片的全局信息。

参考图1的，本实施例中，以一维特征向量F作为循环神经网络LSTM的初始隐含层状态h₀，将“START”编码后作为循环神经网络的初始输入x₀，同时输进LSTM的第一个层结构，并得到其对应第一个状态下的隐含层结构和场景图片中第一个字符的分布结果，如场景图片为车牌图片，第一个字符可能为车牌属地。以此循环，可以获得h₂,…h_t-1,h_t。示范的，第一个层结构第一个状态下的隐含层可以表示为：

h₁＝f(h₀,x₀) (1)

其中，f为LSTM一个循环中对输入x和上一隐层状态h的操作，LSTM的第一层输出中，在将h₁和M_att输入到二维注意力机制模块中得到权重图，并将权重图与M_att进行矩阵乘法并得到一个向量作为下一层的一个输入。参考图3，整个二维注意力机制模块与LSTM各层结构对应的各单元的输入包含两部分，以LSTM的第t个层结构为例，说明本实施例中对第三卷积模块中各层输出的改进：第一个输入为，上一个LSTM循环单元输出的隐层状态h_t，

作为注意力机制的输入，先经过一个1x1的卷积，再通过空间维度复制得到一个与第二特征图尺寸相同的特征图，本实施例中其维度仍为40x6x512；另一个输入为，根据第二特征图M_att，经过一个1x1的卷积得到另一个特征图，本实施例中其维度仍为40x6x512；通过将两个输入的处理之后得到的矩阵特征图进行矩阵加和，再进行Tanh操作，最后经过为经过1x1的卷积和softmax操作得到注意力权重矩阵α，注意力权重矩阵α和第二特征图M_att进行矩阵点乘和求和得到最重的一维向量d_t。示范的，整个二维注意力机制模块可以用以下公式表达：

α_ij＝softmax(W_gg_i) (3)

本实施例中

其中

是识别获得的特征图M_att在坐标为(i,j)处点的特征向量，

是在t时刻的隐含层状态，W_m，W_h，W_g都是神经网络模型需要学习的分别与第二特征图、隐层状态和注意力提取的权重有关的线性变换矩阵。

为矩阵相加操作，α_ij为分注意力权重矩阵在坐标为(i,j)点的值，d_t为上述权重求和之后的图片特征向量，以便基于注意力机制的图片特征向量能够用于字符的解码。激活函数采用tanh和Relu。将第t步得到的图片特征向量

和隐层状态

通过concat操作得到新的图片特征向量

将该向量经过一个全连接层，得到和字母种类数相同维度的向量，对该向量取argmax操作即可得到该时刻下的预测结果。

根据LSTM网络的原理，在其下一个时刻重复以上处理操作即可得到多个时刻下的预测结果，直到得到“END”结束符。整个识别可以表征为：

其中，

是在t时刻的隐含层状态，d_t为权重求和之后的图片特征向量，也即是二维注意力机制的输出，

表示上述线性变换。

在另一实施例中，在编码阶段采用不同的编码结构，在ResNet的每一个layer的最后一个block上添加了注意力的监督信号。根据每个layer的输出尺寸设置相应的的空间注意力权重图(spatial attention weight map)的大小，相应的，训练使用样本需要制作各层的注意力标签，即在合成场景文本数据集SynthText中提供了图片中每一个字符的边界框信息，根据该信息制作注意力机制的标签，用于对注意力进行显式监督训练：先根据原图和注意图权重大小的比例将字符的边界框缩放到相应的大小，然后生成注意力标签，在字符边界框里面的值为1，在字符边界框外面的值为0。在解码阶段，需要为解码步骤的每一个注意力机制制作对应的标签，每一个标签的大小都是其中最小尺寸的标签。

步骤300，配置损失函数并对卷积神经网络训练。

本实施例中，卷积神经网络整个训练过程为端到端的训练，在循环神经网络得到预测结果的矩阵分布形式，每一层循环神经网络得到一个字母的预测结果，在上一步得到的向量concat操作之后经过一个全连接层，其输出的维度等同于所有的字母种类数，再执行softmax操作，将输出的向量转换为每种字母的概率分布，其中概率分布值最大的那一个字母即被认为是该层的预测结果，依次类推，得到多个层的预测结果就是车牌上的所有字母。主要损失函数使用交叉熵损失函数：

这里的x为预测向量，gt为真实场景文本图片包含字符Embedding后的向量。优化器统一选用Adam优化器来计算梯度并进行反向传播。更新参数时需要设置学习率，初始学习率设置为0.0001，然后每经过12000个iteration，学习率就衰减到原来的90％，直到学习率到1x10^-5之后不再递减。一次迭代的图片数设置为24张图片。40万个epoch后损失趋于平稳。

优选的，本实施例中，在训练时，循环神经网的输入为真实标签经过线性变化得到的一个one-hot的向量，本实施例中真实标签包括相关字符嵌入处理的数据；在测试时，由于并不知道真实标签信息，将上一个时刻循环神经网络的输出作为该时刻的输入。只有在训练阶段包含了反向传播。

步骤400，模型应用。

在通过上面的训练过程后可以得到多个模型，选取其中最优的模型(损失函数值最小)用于应用，此时图片数据处理在这里不需要数据增强，只需要把图像调整到640×96大小，并且归一化即可作为模型的输入。整个的网络模型的参数都固定不动，只要输入图像数据并向前传播即可。依次得到特征图M_att∈R^40×6×512和F∈R^1×1×512。再自动传入解码网络自动解码，经过整个模型可以直接得到识别结果。当需要测试大量场景文本图片时候，可以将所有图整合为一个数据文件，如采用数据表存储各图片RGB数值时可以使用lmdb格式文件，方便一次性读取所有图片。

本实施例中，实现场景文本识别方法的整个计算机系统采用带有自注意力机制的ResNet34卷积神经网络作为编码器，提取文本图像特征，并采用循环神经网络结构进行解码识别，进而实现场景文本中的识别。

本发明实施方式还包括一种基于自注意力机制的场景文本识别装置，其包括存储器、处理器，所述存储器存储本发明方法实施例训练获得的模型参数，所述处理器读取实现本发明卷积神经网络所描述的算法结构的程序指令，并依据所述模型参数实现上述场景文本识别。

本发明实施方式还包括一种计算机可读存储介质，所述计算机可读存储介质存储实现本发明方法的程序指令和/或通过本发明方法训练获得的模型参数。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均在本发明的保护范围之内。

Claims

1.一种基于自注意力机制的文本识别方法，由处理器执行一卷积神经网络算法指令实现，其包括：

接收包含文本内容的场景图片；使用所述卷积神经网络其第一卷积模块提取所述场景图片的第一特征图M，其自注意力机制模块将所述第一特征图M编码为第二特征图M_att，其第二卷积模块提取所述第二特征图M_att通道方向的一维特征向量F；使用所述卷积神经网络其第三卷积模块根据所述第二特征图M_att和一维特征向量F获得所述场景图片的文本内容识别结果；所述第三卷积模块包含以一维特征向量F为初始隐含层的循环卷积模块以及用于对所述第二特征图M_att解码并设于所述循环卷积模块中循环单元输出的二维注意力机制模块；

在所述第一卷积模块的主干部分的每一个layer的最后一个block上添加所述自注意力机制模块的注意力的监督信号；

所述自注意力机制模块包含Non-LocalBlock，所述Non-LocalBlock调用的自注意力算法为整体卷积神经网络的一个泛化且可直接嵌入到当前网络的非局部操作算子，用于捕获所述第一特征图M中一维特征信号在时间、空间及时空中的长范围依赖，并将该长范围依赖编码于所述第二特征图M_att。

2.根据权利要求1所述的文本识别方法，其特征在于，

所述第一卷积模块的主干部分采用ResNet的卷积结构。

3.根据权利要求2所述的文本识别方法，其特征在于，

所述第一卷积模块的主干部分采用ResNet34的卷积结构。

4.根据权利要求3所述的文本识别方法，其特征在于，

所述ResNet34最后一层卷积步长被设为1。

5.根据权利要求1所述的文本识别方法，其特征在于，

所述第二卷积模块包含多层Bottleneck结构。

6.根据权利要求1所述的文本识别方法，其特征在于，

所述第三卷积模块的循环卷积网络为LSTM网络。

7.根据权利要求6所述的文本识别方法，其特征在于：

所述第三卷积模块的二维注意力机制模块；所述二维注意力机制模块设置于LSTM每个循环单元的输出中，用于根据所述第二特征图M_att和上一步获得的隐层状态对各循环单元输出实施解码。

8.根据权利要求7所述的文本识别方法，其特征在于：

所述第三卷积模块中LSTM的初始隐层状态被设置为所述一维特征向量F。

9.根据权利要求1所述的文本识别方法，其特征在于：

对于所述卷积神经网络，在对其进行训练时，所述循环神经网络的输入为真实标签经过线性变换得到的一个one-hot的向量；在对其进行测试时，由于并不知道真实标签信息，所述卷积神经网络配置为将上一个时刻循环神经网络的输出作为该时刻的输入。

10.根据权利要求9所述的文本识别方法，其特征在于：

所述卷积神经网络只有在训练阶段配置反向传播。