CN109919174A

CN109919174A - 一种基于门控级联注意力机制的文字识别方法

Info

Publication number: CN109919174A
Application number: CN201910040323.6A
Authority: CN
Inventors: 王思薇; 王勇涛; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-06-21

Abstract

本发明公布了一种基于门控级联注意力机制的文字识别方法，涉及深度学习与图像文字识别技术。本发明方法采用基于注意力机制的编码器‑解码器框架，使用编码器从输入图像中提取出特征向量序列；使用解码器依据编码后的特征向量序列循环地生成目标字符序列；在解码器中通过级联迭代的方式，逐步增强注意力机制对准的准确度，提升了注意力机制对准的准确性，避免利用额外的字符集标注数据来监督注意力机制训练，节省了人力成本，提高了场景文字识别的准确率，增强了识别模型对复杂情况的鲁棒性。

Description

一种基于门控级联注意力机制的文字识别方法

技术领域

本发明属于计算机视觉技术领域，涉及深度学习与图像文字识别技术，尤其涉及一种使用门控级联注意力机制来识别图片中文字内容的技术。

背景技术

文字是最重要的信息载体，在日常生活中随处可见。因此，从日常生活场景的图片和视频中提取文字信息，有十分广泛的应用场景，例如多语言翻译、盲人导航、自动驾驶和产品搜索等。然而由于自然图片具有背景复杂、分辨率低、存在透视和弯曲形变等特点，文字识别任务是非常具有挑战性的。

现有的文字识别方法大多采用基于注意力机制的编码器-解码器框架。编码器通过卷积神经网络和循环神经网络从输入图像中提取特征向量序列。解码器根据编码后的特征向量序列循环地生成目标字符序列。在每一步中，注意力机制赋予每个特征向量不同的注意力权重，决定了解码器关注哪些特征向量。然而，现有的注意力机制比较简单，对于复杂背景、低分辨率、文本形状不规则等具有挑战性的情况，会出现注意力区域和目标字符区域不能正确对准的现象，从而导致识别结果出错。因此，现有的文字识别方法对复杂情况的识别准确率较低，鲁棒性不好。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于门控级联注意力机制的文字识别方法，用以解决基于注意力机制的识别方法中注意力区域和目标字符区域不能正确对准的现象，进而提升识别模型的准确率和鲁棒性。

本发明提供的技术方案是：

一种基于门控级联注意力机制的文字识别方法，采用基于注意力机制的编码器-解码器框架，在解码器中通过级联迭代的方式，逐步增强注意力机制对准的准确度，从而提升文字识别的准确率；包括如下步骤：

1)使用编码器从输入图像中提取出特征向量序列；

11)使用基于残差结构的多层卷积神经网络从输入图像中提取视觉特征图。

12)使用长短期记忆网络(如双向长短期记忆网络或二维长短期记忆网络2D-LSTM)对视觉特征图进一步编码，得到最终编码后的特征向量序列h＝(h₁,h₂…,h_L)。对于双向长短期记忆网络，将视觉特征图按列切分成特征向量序列，再使用双向长短期记忆网络进一步编码，得到最终编码后的特征向量序列，序列的特征向量个数L＝W；对于二维长短期记忆网络，直接使用二维长短期记忆网络对视觉特征图进一步编码，再将编码后的特征图按空间位置划分，得到最终编码的特征向量序列，序列的特征向量个数L＝H×W，其中H，W分别为卷积神经网络输出的特征图的高度和宽度；

2)使用解码器依据编码后的特征向量序列循环地生成目标字符序列。

解码器解码过程包含T步，其中T为目标字符序列的长度。解码器第t步生成第t个字符，对于第t步，执行如下操作：

21)使用门控级联注意力模块来生成输入图像中第t个字符在候选字符集上的概率分布。门控级联注意力模块采取级联结构，通过M轮迭代得到对准更加精确的注意力权重。每次迭代中，依据当前输入的特征向量序列计算注意力权重分布和隐状态，并将根据注意力权重加权后的特征向量序列作为下一轮迭代的输入特征向量序列。将最后一轮迭代的隐状态输入一个softmax分类器，进行分类，得到输入图像中第t个字符在候选字符集上的概率分布。

22)使用集束搜索算法，得到前t步中累计概率最大的前k个字符序列，其中k为集束宽。门控级联注意力模块的预测结果依赖于前一步预测得到的字符。贪婪算法总是选择概率最大的字符，取得的最终结果不一定是累计概率最大的字符序列。集束搜索算法考虑前t-1步中累计概率最大的前k个字符序列，与第t步预测的概率分布相结合，保留其中得分最高的前k个字符序列。

不断重复上述预测过程，当预测得到的最大概率的字符为终止符时，停止预测。最终累计得分最高的目标字符序列即为识别得到的文字内容。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于门控级联注意力机制的文字识别方法，采用基于注意力机制的编码器-解码器框架，通过门控级联结构来改进注意力机制，在解码器中通过级联迭代的方式，逐步增强注意力机制对准的准确度，提升了注意力机制对准的准确性，避免利用额外的字符集标注数据来监督注意力机制训练，节省了人力成本，提高了文字识别的准确率，增强了识别模型对复杂情况的鲁棒性。本发明技术方案能够解决基于注意力机制的识别方法中注意力区域和目标字符区域不能正确对准的现象，提升文字识别的准确率，进而提升识别模型的准确率和鲁棒性。

附图说明

图1为本发明提供方法采用的编码器-解码器框架的整体网络结构图；

其中，E表示编码器部分；D表示解码器部分；①—输入图像；②—卷积神经网络；③—长短期记忆网络；④—门控级联注意力模块。

图2为本发明的门控级联注意力模块的结构图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出了一种基于门控级联注意力机制的文字识别方法。如图1所示，本发明采用了编码器-解码器框架，其中“E”表示编码器部分，“D”表示解码器部分。

以下实施例设定要识别内容为“STAR”的输入图像①中的文字，具体实施方式如下：

实施例一

1)使用编码器E从输入图像①中提取特征向量序列h＝(h₁,h₂…,h_L)；编码器包括卷积神经网络和双向长短期记忆网络；

11)使用卷积神经网络②从输入图像①中提取一系列的视觉特征图。卷积神经网络②采用残差网络结构，并且引入了卷积块注意力模块(Convolutional Block AttentionModule,CBAM)来提升特征的表达能力。卷积块注意力模块依次使用通道维度的注意力模块M_c和空间维度的注意力模块M_S对输入的特征图进行加权。对于通道数为C，高度为H，宽度为W的输入特征图F，通道维度的注意力计算方式表示为式1：

其中，σ表示sigmoid函数，和分别表示平均池化和最大池化后的特征图，维度为C×1×1。W₀和W₁为可学习参数，空间维度的注意力计算方式表示为式2：

其中，[；]表示拼接操作，和分别表示平均池化和最大池化后的特征图，维度为1×H×W。Conv表示一个卷积核大小为3×3的卷积层。该实例在卷积神经网络②的每个卷积块后面插入了卷积块注意力模块。表1展示了具体的网络结构和参数设置：残差网络模块参数格式为{[卷积核大小，通道数]×模块个数}，步长和填补均设为1；其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高，步长宽×步长高，填补宽×填补高，通道数}；最大池化层参数格式为{卷积核宽×卷积核高，步长宽×步长高，填补宽×填补高}；卷积块注意力模块参数格式为{通道数，压缩比例}。

12)将卷积神经网络②提取的视觉特征图从左到右按列切分并展开，转化为一系列的特征向量。将转化后的特征向量序列输入两层的双向长短期记忆网络③，进一步编码，得到最终编码的特征向量序列h＝(h₁,h₂…,h_L)，其中L为卷积神经网络输出的特征图的宽度，在本实例中L＝26。双向长短期记忆网络③的隐藏单元个数为256。

表1编码器中卷积神经网络的网络结构和参数设置

2)使用解码器D依据编码后的特征向量序列h＝(h₁,h₂…,h_L)循环地生成目标字符序列；解码器解码过程包含T步，其中T为目标字符序列的长度。对于第t步，执行如下操作：

21)使用门控级联注意力模块④生成输入图像①中第t个字符在候选字符集上的概率分布y_t。该模块采用了级联的注意力结构，通过M轮迭代得到对准更加精确的注意力权重。本实例中，M设为3。图2展示了门控级联注意力模块④的详细内部结构，其中G表示门控循环单元(Gated Recurrent Unit,GUR),A表示计算注意力权重的模块，Fs表示softmax分类器。在式3-7中，使用上标(i)表示迭代次数，取值范围为0,1…,M。对于第t步的第i轮迭代过程，门控循环单元根据前一步预测的概率分布y_t-1、上一轮迭代的隐状态和上下文特征向量计算当前的隐状态

其中，为前一步预测的概率分布y_t-1的独热(one-hot)编码结果，第t步的第i轮迭代的上下文特征向量为输入的特征向量序列根据注意力权重的加权和。加权后的特征向量序列被送入下一轮迭代，作为输入的特征向量序列。将最后一轮迭代的隐状态输入一个softmax分类器，得到输入图像中的第t个字符在候选字符集上的概率分布y_t，表示为式7。

每轮迭代过程计算时，需要用到上一轮迭代过程计算出的和对于第t步的第1轮迭代，对于第1步，均为相应维度的零向量。本发明能够预测任意长度的字符序列。对于本实施例中内容为“STAR”的输入图像，预测得到的T为4。

22)使用集束搜索算法，得到前t步中累计概率最大的前k个字符序列，其中k为集束宽。集束搜索算法考虑前t-1步中累计概率最大的前k个字符序列，分别将这些字符序列的最后一个字符的独热编码作为输入门控级联注意力模块，得到相应的第t步预测的概率分布，将概率对应相乘后得到k*候选字符集字符个数个候选字符序列的累计概率，保留其中累计概率最大的前k个字符序列。

不断重复上述预测过程，当预测得到的最大概率的字符为终止符时，停止预测。最终累计得分最高的目标字符序列即为识别得到的文字内容。在本实例中设置k为5。对于本实施例中的输入图像，最终预测结果为“STAR”。

通过上述步骤，对图像实现基于门控级联注意力机制的文字识别，得到图像中的字符文字。

实施例二

1)使用编码器E从输入图像①中提取特征向量序列h＝(h₁,h₂…,h_L)；编码器包括卷积神经网络和二维长短期记忆(2D-LSTM)网络；

11)使用卷积神经网络②从输入图像①中提取一系列的视觉特征图。卷积神经网络②采用残差网络结构，并且引入了卷积块注意力模块(Convolutional Block AttentionModule,CBAM)来提升特征的表达能力。表2展示了具体的网络结构和参数设置：残差网络模块参数格式为{[卷积核大小，通道数]×模块个数}，步长和填补均设为1；其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高，步长宽×步长高，填补宽×填补高，通道数}；最大池化层参数格式为{卷积核宽×卷积核高，步长宽×步长高，填补宽×填补高}；卷积块注意力模块参数格式为{通道数，压缩比例}。

12)将卷积神经网络②提取的视觉特征图输入两层的二维长短期记忆网络③进一步编码，得到编码后的特征图。将该特征图按空间位置划分，得到最终编码的特征向量序列h＝(h₁,h₂…,h_L)，其中L＝H×W，H，W分别为卷积神经网络输出的特征图的高度和宽度，在本实例中H＝4，W＝26。双向长短期记忆网络③的隐藏单元个数为256。与实施例一不同在于conv5_x结构不同，CNN高度下采样减少。

表2编码器中卷积神经网络的网络结构和参数设置

2)使用解码器D依据编码后的特征向量序列h＝(h₁,h₂…,h_L)循环地生成目标字符序列；解码器解码过程包含T步，其中T为目标字符序列的长度。具体过程与实例一相同。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于门控级联注意力机制的文字识别方法，采用基于注意力机制的编码器-解码器框架，在解码器中通过级联迭代的方式，逐步增强注意力机制对准的准确度，从而提升识别文字的准确率；包括如下步骤：

1)采用卷积神经网络和长短期记忆网络构建编码器；使用编码器从输入图像中提取出特征向量序列；执行操作11)～12)：

11)使用多层卷积神经网络从输入图像中提取视觉特征图；

所述多层卷积神经网络采用残差网络结构并引入卷积块注意力模块以提升特征表达能力；

12)将视觉特征图按列切分成特征向量序列，并使用长短期记忆网络进一步建进一步编码，得到编码后的特征向量序列；

2)使用解码器依据编码后的特征向量序列循环地生成目标字符序列；解码器解码过程包含T步，其中T为目标字符序列的长度；解码器第t步生成第t个字符，对于第t步，执行操作21)～22)：

21)使用门控级联注意力模块，生成输入图像中第t个字符在候选字符集上的概率分布；包括：

211)门控级联注意力模块采用级联结构，通过多轮迭代得到对准更加精确的注意力权重；

212)每轮迭代中，依据当前输入的特征向量序列计算注意力权重分布和隐状态，并将根据注意力权重加权后的特征向量序列作为下一轮迭代的输入特征向量序列；

213)将最后一轮迭代的隐状态输入一个softmax分类器，得到在候选字符集上的概率分布；

22)使用集束搜索方法，得到前t-1步中累计概率最大的前k个字符序列，再根据步骤2)得到的第t步预测的概率分布，保留其中得分最高的前k个字符序列，作为最终的预测结果，即为识别得到的文字。

2.如权利要求1所述基于门控级联注意力机制的文字识别方法，其特征是，步骤12)所述长短期记忆网络为双向长短期记忆网络或二维长短期记忆网络；

所述长短期记忆网络为双向长短期记忆网络时，将视觉特征图按列切分成特征向量序列，再使用双向长短期记忆网络进一步编码，编码后得到特征向量序列h＝(h₁,h₂…,h_L)，序列的特征向量个数L为卷积神经网络输出的视觉特征图的宽度W；

所述长短期记忆网络为二维长短期记忆网络时，使用二维长短期记忆网络对视觉特征图进一步编码，得到编码后的特征图，再将该特征图按空间位置划分，得到最终编码的特征向量序列h＝(h₁,h₂…,h_L)，其中L＝H×W，H，W分别为卷积神经网络输出的视觉特征图的高度和宽度。

3.如权利要求1所述基于门控级联注意力机制的文字识别方法，其特征是，步骤11)所述卷积块注意力模块依次使用通道维度的注意力模块M_c和空间维度的注意力模块M_s对输入的特征图进行加权；对于通道数为C，高度为H，宽度为W的输入特征图F，通道维度的注意力通过式1计算得到：

其中，σ表示sigmoid函数，和分别表示平均池化和最大池化后的特征图，维度为C×1×1；W₀和W₁为可学习参数；空间维度的注意力通过式2计算：

其中，[；]表示拼接操作，和分别表示平均池化和最大池化后的特征图，维度为1×H×W；Conv表示一个卷积核大小为3×3的卷积层。

4.如权利要求1所述基于门控级联注意力机制的文字识别方法，其特征是，步骤11)所述多层卷积神经网络中，残差网络模块的参数格式为{[卷积核大小，通道数]×模块个数}，步长和填补均设为1；其他非残差结构的卷积层参数格式为{卷积核宽×卷积核高，步长宽×步长高，填补宽×填补高，通道数}；最大池化层参数格式为{卷积核宽×卷积核高，步长宽×步长高，填补宽×填补高}；卷积块注意力模块的参数格式为{通道数，压缩比例}。

5.如权利要求1所述基于门控级联注意力机制的文字识别方法，其特征是，步骤21)使用门控级联注意力模块生成在候选字符集上的概率分布y＝(y₁,y₂…,y_T)，T为预测的字符序列长度；具体地，门控级联注意力模块包括门控循环单元G、计算注意力权重的模块A和softmax分类器Fs；

对于第t步的第i轮迭代过程，门控循环单元根据前一步预测的概率分布y_t-1、上一轮迭代的隐状态和上下文特征向量通过式3计算当前的隐状态

其中，为前一步预测的概率分布y_t-1的独热编码结果，上下文特征向量为输入的特征向量序列根据注意力权重的加权和；

上下文特征向量为输入的特征向量序列根据注意力权重的加权和；

被送入下一轮迭代，作为输入的特征向量序列；

将最后一轮迭代的隐状态输入softmax分类器，得到输入图像中的第t个字符在候选字符集上的概率分布y_t，表示为式7：

其中，M为迭代轮次总数；

当预测得到的最大概率的字符为终止符时，停止预测，得到概率分布序列y＝(y₁,y₂…,y_T)，T为预测的字符序列长度。

6.如权利要求1所述基于门控级联注意力机制的文字识别方法，其特征是，具体地，迭代轮次总数为3。