CN112149619A

CN112149619A - 一种基于Transformer模型自然场景文字识别方法

Info

Publication number: CN112149619A
Application number: CN202011098711.9A
Authority: CN
Inventors: 徐亦飞; 张美姿; 王爱臣; 王正洋; 王超勇; 余乐; 尉萍萍; 肖志峰
Original assignee: Nanchang Huiyichen Technology Co ltd
Current assignee: Nanchang Huiyichen Technology Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2020-12-29
Anticipated expiration: 2040-10-14
Also published as: CN112149619B

Abstract

本发明公开了一种基于Transformer模型自然场景文字识别方法，在特征提取网络中内加入残差注意力模块，使得特征提取网络可以对特征进行有选择的关注，从而增强文本区域信息，抑制干扰信息，从而缓解自然场景中的图像中的阴影、背景纹理以及噪声等干扰因素对识别结果的影响。本发明采用完全由注意力机制组成的Transformer模型替代传统的具有循环结构的RNN网络，本发明Transformer模型的具有更好的并行计算的能力，解决了原方法中训练耗时以及难以训练的问题。另外，本发明将高斯偏置加入到Transformer模型的自注意力机制中，解决Transformer模型中的自注意力机制弱于捕获序列中的局部依赖的问题，使得Transformer模型更适用于文字识别任务。

Description

一种基于Transformer模型自然场景文字识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于Transformer模型自然场景文字识别方法。

背景技术

文字检测是计算机视觉领域研究的热点，其旨在将自然场景图像中的文字的位置检测出来，以供下一步进行识别，从而将图像转换为可供计算机处理的真实的文字信息。自然场景图像中的文字通常在字体、组合方式和文字大小等方面存在着较大的差异，且自然场景图像还在光照强度、分辨率、图像噪声以及拍摄角度等方面存在很大的不确定性，这些复杂的因素大大增加了自然场景下的文字检测的难度。

由Shi B,Bai X,Yao C.An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition提出的CRNN算法是目前常用的一种文字识别算法，该算法凭借其优异的性能和识别准确率，得到了广泛的应用。CRNN算法使用一个CNN网络来提取图片中的特征，然后将特征切片成特征序列，输入到一个双向LSTM网络中进行识别，最后采用CTC算法对识别结果进行对齐，得到最终的识别结果。

然而，由于CRNN算法采用了RNN网络作为序列的学习模型，而RNN网络固有的顺序属性阻碍了训练样本间的并行化，对于长序列，内存限制将阻碍对训练样本的批量处理。同时，RNN网络在训练时耗时太长，并且容易产生梯度爆炸或梯度消失，难以训练。

发明内容

本发明提供了一种基于Transformer模型自然场景文字识别方法，以解决现有的基于RNN网络的自然场景文字识别算法训练时间过长以及难以训练的问题。

本发明提供了一种基于Transformer模型自然场景文字识别方法，包括：

步骤S100，对输入的自然场景文字图片进行预处理；

步骤S200，将经预处理的自然场景文字图片传入特征提取网络，得到包含图片文字信息的特征图，其中，特征提取网络包括VGG网络与残差注意力模块；

步骤S300，将得到的特征图进行切片，得到特征序列；

步骤S400，将特征序列传入Transformer模型，经过Transformer模型的编码和解码处理，得到输出序列，其中，Transformer模型的自注意力机制中加入高斯偏置GaussianBias；

步骤S500，将输出序列中的向量转换为对应的字符，输出自然场景文字图片中的文本内容。

可选地，步骤S100，对输入的自然场景文字图片进行预处理，包括，

步骤S110，将自然场景文字图片进行等比例缩放，使自然场景文字图片的高度固定为预设像素；

步骤S120，对经缩放的自然场景文字图片进行末尾位置补齐，使自然场景文字图片图像的宽度为4的整数倍。

可选地，步骤S200、步骤S300包括，

步骤S210，将经预处理的自然场景文字图片传入特征提取网络，特征提取网络中，残差注意力模块位于VGG网络的第二层VGG Block2和第四层VGG Block4后面；

步骤S220，将VGG网络最后两个池化层窗口的大小由2×2改为1×2，使自然场景文字图片的高度减半四次，宽度减半两次；将最后的卷积层改为卷积核大小为2×2、元素内边距padding为0的卷积，使得特征图放缩为原来的1/2,即整个特征提取网络将图像的高度缩小为原来的1/32，宽度缩小为原来的1/4；

步骤S230，残差注意力模块包含特征分支和注意力分支，特征分支包含前馈神经网络，将S220中输出的特征图输入特征分支，输出特征分支中的特征图；

注意力分支采用一个自底向上down-sampling unit和自顶向下Up-samplingunit的结构组合，自底向上结构down-sampling unit包括两个下采样单元，自顶向下结构Up-sampling unit包括两个上采样单元；

上步骤得到的特征图依次经过上采样单元、两个1×1卷积层以及一个Sigmoidfunction的处理，得到注意力权重图；

将注意力权重图和特征分支中的特征图进行点积运算，生成经过注意力机制的特征图。

将经过注意力机制的特征图和原特征图相加，得到包含图片文字信息的特征图；

步骤S300，将上步骤得到的最终的特征图进行切片，得到W/4个向量，每个向量的维度为512×1。

可选地，步骤S400包括，

步骤S410，特征序列经过Transformer模块的编码器，编码器包括多头注意力Multi-Head Attention模块和前馈神经网络，其中，头注意力Multi-Head Attention模块中加入高斯偏置，得到输出序列，输出序列包含着每个序列对其他序列的注意力信息；

步骤S420，将上步骤得到的输出序列作为Transformer模块的解码器部分输入，解码器的另一部分输入为当前字符经过词嵌入得到的向量，所有的输入经过解码器生成一个向量；

可选地，加入了高斯偏置后的自注意力机制公式如下：

在Transformer的自注意力机制公式中加入了高斯偏置G，G为一个大小为I×I的矩阵，I表示输入序列的长度，G中个元素的值可有如下公式表示：

公式中的σ_i表示向量x_i对应高斯函数的标准偏差，其中σ_i＝D_i/2，D_i是高斯函数的窗口大小；

高斯偏置的函数为一个分段函数，当向量j位于窗口范围内时，函数值为0，在窗口范围以外时再按高斯函数递减；

高斯函数的窗口大小D_i由如下求出，其中I为序列的长度，U_d和W_d都是通过训练得到的矩阵。对于每一个多头注意力分支，都使用同样的窗口大小，所以公式中的

就是所有多头注意力分支中Q_i的平均值。

D_i＝I·sigmoid(z_i)

可选地，步骤S500包括，

将输出序列中的向量经过一个全连接网络以及Softmax层，得到概率分布；

通过概率分布，得到当前的预测字符；

该字符经过词嵌入生成的向量会作为下一轮的输入向量输入到解码器，直到最后输出预测出终止字符为止。

本发明提供了一种基于Transformer模型自然场景文字识别方法，在特征提取网络中内加入残差注意力模块，使得特征提取网络可以对特征进行有选择的关注，从而增强文本区域信息，抑制干扰信息，从而缓解自然场景中的图像中的阴影、背景纹理以及噪声等干扰因素对识别结果的影响。，本发明采用完全由注意力机制组成的Transformer模型替代传统的具有循环结构的RNN网络，本发明Transformer模型的具有更好的并行计算的能力，解决了原方法中训练耗时以及难以训练的问题。另外，本发明将高斯偏置加入到Transformer模型的自注意力机制中，解决Transformer模型中的自注意力机制弱于捕获序列中的局部依赖的问题，使得Transformer模型更适用于文字识别任务。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于Transformer模型自然场景文字识别方法的流程图；

图2为本发明特征提取网络的结构图结构图。

具体实施方式

本发明提供一种基于Transformer模型自然场景文字识别方法，用于自然场景图像中的文字识别。

图1为本发明基于Transformer模型自然场景文字识别方法的流程图，如图1所示，本发明的基于Transformer模型自然场景文字识别方法包括，

步骤S100，对输入的自然场景文字图片进行预处理。

本发明中，步骤S100，对输入的自然场景文字图片进行预处理，包括，

步骤S110，将自然场景文字图片进行等比例缩放，使自然场景文字图片的高度固定为预设像素，应当说明，本领域技术人员可根据实际需要调整预设像素大小，例如32、36或40，其均属于本发明的保护范围；

步骤S200，将经预处理的自然场景文字图片传入特征提取网络，得到包含图片文字信息的特征图，其中，特征提取网络包括VGG网络与残差注意力模块。

本发明中，步骤S200具体包括：

步骤S210，将经预处理的自然场景文字图片传入特征提取网络，特征提取网络中，残差注意力模块位于VGG网络的第二层VGG Block2和第四层VGG Block4后面，如图2所示；

步骤S220，将VGG网络最后两个池化层窗口(VGG Block4与VGG Block5)的大小由2×2改为1×2，使自然场景文字图片的高度减半四次，宽度减半两次；将最后的卷积层改为卷积核大小为2×2、元素内边距padding为0的卷积，使得特征图放缩为原来的1/2，即整个特征提取网络将图像的高度缩小为原来的1/32，宽度缩小为原来的1/4；

注意力分支采用一个自底向上down-sampling unit和自顶向下Up-samplingunit的结构组合，自底向上结构down-sampling unit包括两个下采样单元，每个下采样单元包含一个最大值池层和卷积层，下采样单元用于增加感受野并获取全局信息；自顶向下结构Up-sampling unit包括两个上采样单元，每个上采样单元包含双线性插值层和卷积层，上采样单元用于恢复分辨率，在下采样单元和上采样单元之间添加了残差连接，以融合不同尺寸的信息；

上步骤得到的特征图依次经过上采样单元、两个1×1卷积层convolution以及一个Sigmoid function的处理，得到注意力权重图；

将注意力权重图和特征分支中的特征图进行点积运算，生成经过注意力机制的特征图；

由于多次的点积运算会使得特征值逐渐变小，造成某些信息的丢失，在此，将经过注意力机制的特征图和原特征图相加，得到包含图片文字信息的特征图。

步骤S300，将得到的特征图进行切片，得到特征序列。

本发明中，步骤S300具体包括，将上步骤得到的最终的特征图进行切片，得到W/4个向量，每个向量的维度为512×1。应当说明，由于特征图的尺寸为512×1×W/4，因此，进行切片后将得到W/4个向量，每个向量的维度为512×1。

步骤S400，将特征序列传入Transformer模型，经过Transformer模型的编码和解码处理，得到输出序列，其中，Transformer模型的自注意力机制中加入高斯偏置GaussianBias。

本发明中，步骤S400具体包括，步骤S410，特征序列经过Transformer模块的编码器，编码器包括多头注意力Multi-Head Attention模块和前馈神经网络，其中，多头注意力Multi-Head Attention模块中加入高斯偏置，得到输出序列，输出序列包含着每个序列对其他序列的注意力信息，应当说明，多头注意力Multi-Head Attention由多个自注意力机制组成；

步骤S420，将上步骤得到的输出序列作为Transformer模块的解码器部分输入，解码器的另一部分输入为当前字符经过词嵌入得到的向量，所有的输入经过解码器生成一个向量。

应当说明，本发明中，加入了高斯偏置后的自注意力机制公式如下：

公式中的σ_i表示向量x_i对应高斯函数的标准偏差，其中σ_i＝D_i/2，D_i是高斯函数的窗口大小。

对于文字识别任务，每个向量只需重点关注其邻近位置的其他向量，所以可以直接以其自身的位置作为中心位置。同时，由于高斯函数的值从其曲线的顶点位置向两边衰减的过快，也就是向量对其自身关注的最多，距离向量越远关注的越少，对于本文任务来说，应当让向量对其邻近位置的其他向量有同样的关注度。因此，高斯偏置的函数为一个分段函数，当向量j位于窗口范围内时，函数值为0，在窗口范围以外时再按高斯函数递减；

就是所有多头注意力分支中Q_i的平均值。

D_i＝I·sigmoid(z_i)

本发明中，步骤S500具体包括，将输出序列中的向量经过一个全连接网络以及Softmax层，得到概率分布；

通过概率分布，得到当前的预测字符；

以上所述的本发明实施方式并不构成对本发明保护范围的限定。