CN108615036B

CN108615036B - 一种基于卷积注意力网络的自然场景文本识别方法

Info

Publication number: CN108615036B
Application number: CN201810437763.0A
Authority: CN
Inventors: 谢洪涛; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2021-10-01
Anticipated expiration: 2038-05-09
Also published as: CN108615036A

Abstract

本发明公开了一种基于卷积注意力网络的自然场景文本识别方法，包括：利用二维卷积CNN作为编码器，提取输入图像的高层语义特征，并输出相应的特征图至解码器；利用一维卷积CNN作为解码器，结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型，产生对应于输入图像的解码字符序列。该方法对于长度为n的序列，使用卷积核为s的CNN建模字符序列，仅需O(n/s)次操作即可得到长期依赖的表达，极大的降低了算法复杂度；此外，由于卷积操作的特征，CNN相比于RNN能够更好并行化，从而发挥GPU等资源的优势，更重要的是，通过叠加卷积层的方式得到的深层模型，可以提高更高层次的抽象表达，从而提高模型的准确率。

Description

一种基于卷积注意力网络的自然场景文本识别方法

技术领域

本发明涉及自然场景图像中文本识别领域，尤其涉及一种基于卷积注意力网络的自然场景文本识别方法。

背景技术

随着手机平板等终端设备的不断普及，识别并理解包含文本的自然场景拍摄图像变得越来越重要。由于图像成像质量、复杂背景、噪声干扰等因素，自然场景文本识别面临巨大挑战。完整的端到端的自然场景文本识别一般包含两个阶段：文本检测阶段与文本识别阶段。文本检测阶段从整张图像中定位出文本的区域位置，文本识别阶段将仅包含文本的图像块转换为文本字符串。

目前，由于循环神经网络(Recurrent Neural Network,RNN)具备良好的语言建模能力，因而主流的图像文本识别方法为卷积神经网络(Convolutional Neural Network,CNN)与RNN相结合的方法。如方法(Shi,Baoguang,X.Bai,and C.Yao."An End-to-EndTrainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition."IEEE Transactions on Pattern Analysis&Machine Intelligence PP.99(2015):1-1.)采用在CNN的末端连接RNN层(具体为LSTM层)，并通过Connectionist Temporal Classification loss进行端到端的训练的方式做文本识别。又如方法(Lee,Chen Yu,and S.Osindero."Recursive Recurrent Nets withAttention Modeling for OCR in the Wild."(2016):2231-2239.)采用编码器-解码器的结构，结合注意力机制处理图像文本序列。

但是，上述方案中CNN作为编码器提取图像特征，RNN作为解码器产生字符序列。对于长度为n的序列，使用RNN建模字符序列，需要O(n)次操作才能得到长期依赖的表达，即算法复杂度较高。

发明内容

本发明的目的是提供一种基于卷积注意力网络的自然场景文本识别方法，不仅降低复杂度，还提高了识别准确率。

本发明的目的是通过以下技术方案实现的：

一种基于卷积注意力网络的自然场景文本识别方法，包括：

利用二维卷积CNN作为编码器，提取输入图像的高层语义特征，并输出相应的特征图至解码器；

利用一维卷积CNN作为解码器，结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型，产生对应于输入图像的解码字符序列。

由上述本发明提供的技术方案可以看出，对于长度为n的序列，使用卷积核为s的CNN建模字符序列，仅需O(n/s)次操作即可得到长期依赖的表达，极大的降低了算法复杂度；此外，由于卷积操作的特征，CNN相比于RNN能够更好并行化，从而发挥GPU等资源的优势，更重要的是，通过叠加卷积层的方式得到的深层模型，可以提高更高层次的抽象表达，从而提高模型的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于卷积注意力网络的自然场景文本识别方法的流程图；

图2为本发明实施例提供的实现基于卷积注意力网络的自然场景文本识别方法的网络结构示意图；

图3为本发明实施例提供的一维卷积层的结构示意图；

图4为本发明实施例提供的均值池化操作示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于卷积注意力网络的自然场景文本识别方法，该方法基于编码器-解码器结构，但采用完全卷积的方式识别自然场景文本图像。即本方法的编码器以及解码器均由卷积神经网络CNN构成，使用CNN替换RNN来解码图像特征从而识别而得字符序列。在本发明中，如何使用基于CNN的解码器得到等同于或优越于基于RNN方法的文本识别性能，是本发明的要解决的核心问题。

如图1所示，为本发明实施例提供的一种基于卷积注意力网络的自然场景文本识别方法的流程图，相关网络结构如图2所示。该方法中，利用二维卷积CNN作为编码器，提取输入图像的高层语义特征，并输出相应的特征图至解码器；利用一维卷积CNN作为解码器，结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型，产生对应于输入图像的解码字符序列。

为了便于理解，下面针对编码器、解码器以及解码器中的注意力机制做详细的说明。

一、编码器。

本发明实施例中，所述编码器中包含了依次连接的五个卷积层结构；第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像；第一卷积层的卷积核大小为m×m，通道数为p，跨度为g，使用的激活函数为ReLU，并配备了BN；

之后的四个卷积层均为残差块，输入特征图像的尺寸大小依次为：2H×2W、H×W、H×W及H×W；每一残差块中连续执行多次卷积操作，并加上残差连接，且每一残差块设有一定的重复次数；每次卷积操作使用的激活函数为ReLU，并配备了BN；其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。

如表1所示，为编码器的详细结构，该结构符合经典的深度残差网络设计思想。

表1编码器结构

示例性的，输入图像被归一化至高为32像素、宽为100像素的大小。编码器的第一层conv1是卷积核大小为5×5、通道数(channel)为16、跨度(stride)为2的卷积层。该层使用的激活函数为ReLU，同时配备了批量规范化(Batch Normolization，BN)。conv2_x、conv3_x、conv4_x、conv5_x为残差块(block)，其设计与传统的残差网络block设计类似，即在连续的1×1、3×3、1×1卷积后，加上残差连接(shortcut)操作，同时使用ReLU为激活函数以及配备BN。下采样(即，卷积跨度stride为2)分别作用在conv1和conv2_x，其中的x表示conv2重复堆叠的次数，通常stride位于conv2_x的最有一层，因此各个卷积层的输入特征图大小分别为32×100、16×50、8×25、8×25、8×25。由此可知，编码器输出的特征图大小为8×25。n₁～n₄分别为残差块的重复次数，本示例中采用n₁＝2,n₂＝2,n₃＝2,n₄＝6的方案，经过实验论证，该方案能取得最高的识别精度。此外，值得注意的是，在conv5_x的最后一层，并没有使用激活函数ReLU，其目的为保持输出响应方差不变，降低对解码器的影响。

假设编码器产生的特征图为

其中H与W为特征图的高与宽；d为特征图中每一元素

的维度；元素x′_i,j在特征图X′中的空间坐标索引为(i,j)，采用wordembedding的方式嵌入得到向量

最终，通过元素级的加法操作得到特征向量x_i,j＝x′_i,j+e_i,j；由一系列特征向量x_i,j组成的集合X即为编码器最终输出的特征图。

结合之前的示例，最终输出的特征图的高与宽依次为8、25，维度d可以为512，由编码器CNN最后一层卷积层的通道数决定。

二、解码器。

本发明实施例中，采用自回归的方法对解码器进行训练：假定文本图像对应的字符序列标签为l'＝(l₁,...,l_n)，解码器的输入向量为开始符号<s>与字符序列标签l'的拼接，假设<s>＝<0>，即解码器的输入向量为

解码器的标签向量为字符序列标签l'与结束符号<e>的拼接，假设<e>＝<0>，即标签向量为

上述两个向量

与

为两个不同的向量，但其中的元素有部分相同，即

的第二个元素至最后一个元素(l₁,...,l_n)与

的第一个元素至倒数第二个元素(l₁,...,l_n)相同。

本发明实施例中，解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层。如表2所示，为解码器详细结构，其中Dimension指输入向量在相应block的输出维度，LN为layer normalization(层规范化)。

表2解码器结构

1、向量嵌入层(embedding)。

解码器中第一层为向量嵌入层，假设当前时间步k对应的标签为l_k，在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量

同时，标签l_k的绝对坐标与时间步相同，均为k，将标签l_k的绝对坐标k以相同的方式嵌入得到向量

最终，通过元素级加法操作得到向量嵌入层的输出为s_k＝u_k+v_k，其中

f为向量的维度；示例性的，可取f＝256。

2、第一线性变换网络层(lm1)。

通过第一线性变换网络层对向量嵌入层的输出进行线性变换为

d为编码器输出特征图中每一元素的维度。

3、一维卷积层(conv_x)。

一维卷积层为设有一定的重复次数(即，n₅)的重复网络，每一重复网络结构如图3所示。

假设一维卷积层包含m个重复网络，对于其中的第l个重复网络，l＝0,1,2,...,m-1，其采用一维卷积与激活函数GLU(Gated Linear Unit)对上一层的输出进行处理：

其中，

与

为

对应的历史向量，为输入向量标签l_k-2,l_k-1在重复网络的抽象表达向量；矩阵Y的维度为d×3，即

权重矩阵

及的

为卷积权重矩阵，其保证了输入向量的输出维度不变；

及

为偏置向量；*为一维卷积操作；

为元素级乘法操作；σ(·)为sigmoid激活函数；

为卷积操作的结果；以上向量的维度均为d，示例性的，可以取d＝512。

本领域技术人员理解理解，对于不同的重复网络，矩阵Y都需要重新计算，为了表示的方便，省去了矩阵Y的上标(即对应重复网络的序号)。

之后，还通过注意力模块与残差连接进行处理，表示为：

其中，

为第l个重复网络中注意力模块的输出，

为一缩放因子，用于稳定激活的方差。

通过上述计算可以得到第l个重复网络的输出

采用上述方式不断计算，可以得到最后一个重复网络(l＝m-1)的输出

也即一维卷积层的输出。

如前所述，一维卷积层为设有一定的重复次数的重复网络，每一重复网络均拥有各自的注意力模块。注意力模块中的注意力机制描述为从一组key-value向量中，映射一查询向量

至输出向量

所述的一组key-value向量即为编码器输出的一系列特征向量x_i,j组成的集合X；

对于第l个重复网络，首先，计算查询向量

其计算公式为：

上式中，linear表示线性变换。

然后，计算查询向量

在集合X上每一位置的注意力评分a_i,j,k：先计算b′_i,j,k，通过一系列的b′_i,j,k从而得到向量b′_k，再经过均值池化得到b_k，从而得到a_i,j,k，计算公式如下：

其中，

为尺度缩放因子；pooling(·)指均值池化操作，均值池化操作可以参见图4所示示例，其中pooling核大小为3，stride为1；b_i,j,k、b_o,p,k均表示b_k中的元素；

本领域技术人员理解理解，对于不同的重复网络，查询向量在集合X上每一位置的注意力评分a_i,j,k需要重新计算，为了表示的方便，省去了注意力评分a_i,j,k的上标(即对应重复网络的序号)。

最后，结合注意力评分a_i,j,k与特征向量x_i,j计算向量

对应的注意力模块的输出向量

其计算公式为：

其中，λ为缩放因子，示例性的可以取λ＝5。此外，在计算注意力之前和之后，向量均进行了一次维度不变的线性变换。

4、第二层线性变换网络层(lm2)。

第二层线性变换网络层，将一维卷积层的输出

进行线性变换为

即维度由d变换为f。

5、第三层线性变换网络层(lm3)。

第三线性变换网络层，对第二层线性变换网络层的输出进行线性变换，再结合softmax函数，得到当前时间步k解码预测的各个字符的概率：

其中，W^o、b^o对应的表示线性变换的权重矩阵、偏置向量，等同于softmax(linear(h_k'))的表达；

选择概率最大的字符即为最终预测的字符。

值得注意的是，注意，为了避免当前时间步k访问将来的信息(即≥k)，采用以下两点：1)一维卷积层的前一层连接为时间步k-2,k-1,k(卷积核大小为3)。特别地，当k≤2时，使用0向量作为填充。2)解码器不使用Batch normalization而使用Layer normalization，如之前表2所示。其不仅保证了整个网络的响应方差在值为1左右，同时也防止了数据的交叉访问而得到将来信息。以上的描述虽然仅针对时间步k输入标签l_k的计算过程，但同样也适用于其他的输入标签

这些标签能够采用自回归autoregressive的方式在训练阶段并行计算。

另一方面，本发明实施例中，解码器训练时的图像在输入解码器之前通过数据增广的方式进行处理：首先从原图裁剪交集大于0.8的区域，该裁剪区域的长宽比在0.8至1.2之间。随后，图像大小被缩放至100×32，缩放的插值方式为随机选取。最后，随机改变图像的对比度、亮度、饱和度等。

此外，训练及推理阶段的其他一些配置如下所述：

a)所有的权重由Kaiming初始化方案进行初始化。

b)解码器端使用weight normalization进行约束。

c)训练所用的损失函数为交叉熵损失。

d)解码阶段使用Beam search。训练时其width为1，测试时其width为5。

e)优化方法为Nesterov加速梯度方法。Momentum为0.9，batch size为128，梯度clip值为20。

f)初始学习率为0.01，当损失值loss稳定后以0.01的比例进行缩放。

另外，为了说明本发明上述方案的效果，还进行了试验，如表3所示，为在常用数据集上试验获得的精度结果。

表3常用数据集上的精度

表3中，SVT为Street View Text数据集，IIIT5K为IIIT 5K-word数据集，IC03为ICDAR 2003数据集，IC13为ICDAR 2013数据集。表3中SVT、IIIT5K、IC03、IC13为不基于词库的识别精度。SVT-50为SVT数据集基于规模为50的词库识别精度；IIIT5K-50为IIIT5K数据集基于规模为50的词库识别精度；IIIT5K-1k为IIIT5K数据集基于规模为1k的词库识别精度；IC03-50为IC03数据集基于规模为50的词库识别精度；IC03-full为IC03数据集基于该数据集所有词组成的词库识别精度；基于词库的方法在预测的字符序列的基础上，计算字符序列与词库中词的编辑距离，以最小编辑距离的词作为预测结果计算而得。以上识别结果的模型，为在数据集Synth90k的训练集训练而得。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于卷积注意力网络的自然场景文本识别方法，其特征在于，包括：

利用一维卷积CNN作为解码器，结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型，产生对应于输入图像的解码字符序列；

其中，所述解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层；

假设当前时间步k对应的标签为l_k，在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量

同时，标签l_k绝对坐标与时间步相同，均为k，将标签l_k的时间步k以相同的方式嵌入得到向量

f为向量的维度；

然后，通过第一线性变换网络层对向量嵌入层的输出进行线性变换为

d为编码器输出特征图中每一元素的维度；

假设一维卷积层包含m个重复网络，对于其中的第l个重复网络，l＝0,1,2,...,m-1，其采用一维卷积与激活函数GLU对上一层的输出进行处理：

其中，

与

为

对应的历史向量，矩阵Y的维度为d×3，即

权重矩阵

及的

为卷积权重矩阵，其保证了输入向量的输出维度不变；

及

为偏置向量；*为一维卷积操作；

为元素级乘法操作；σ(·)为sigmoid激活函数；

为卷积操作的结果；

之后，通过注意力模块与残差连接进行处理，表示为：

其中，

为第l个重复网络中注意力模块的输出，

为一缩放因子，用于稳定激活的方差；

通过上述计算得到第l个重复网络的输出

采用上述方式不断计算，从而得到最后一个重复网络的输出

也即一维卷积层的输出；

第二层线性变换网络层，则将一维卷积层的输出

进行线性变换为

即维度由d变换为f；

第三线性变换网络层，则对第二层线性变换网络层的输出进行线性变换，再结合softmax函数，得到当前时间步k解码预测的各个字符的概率：

其中，W^o、b^o对应的表示线性变换的权重矩阵、偏置向量；

选择概率最大的字符即为最终预测的字符。

2.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法，其特征在于，所述编码器中包含了依次连接的五个卷积层结构；

第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像；第一卷积层的卷积核大小为m×m，通道数为p，跨度为g，使用的激活函数为ReLU，并配备了BN；

之后的四个卷积层均为残差块，输入特征图像的尺寸大小依次为：2H×2W、H×W、H×W及H×W，其中，H与W为编码器产生的特征图的高与宽；每一残差块中连续执行多次卷积操作，并加上残差连接操作，且每一残差块设有一定的重复次数；每次卷积操作使用的激活函数为ReLU，并配备了BN；其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。

3.根据权利要求1或2所述的一种基于卷积注意力网络的自然场景文本识别方法，其特征在于，

假设编码器产生的特征图为