CN110378334A

CN110378334A - 一种基于二维特征注意力机制的自然场景文本识别方法

Info

Publication number: CN110378334A
Application number: CN201910516931.XA
Authority: CN
Inventors: 黄云龙; 金连文; 孙增辉; 罗灿杰; 周伟英
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-25
Anticipated expiration: 2039-06-14
Also published as: CN110378334B

Abstract

本发明公开了一种基于二维特征注意力机制的自然场景文本识别方法，包括如下步骤：1数据获取：使用公开的代码合成用以训练的行文本图片，按形状划分为规则训练集和不规则训练集，并从网上下载真实拍摄的文本图片作为测试数据；2数据处理：对图片的大小进行拉伸操作，处理后图片的尺寸为32*104；3标签制作：采用有监督的方法来训练识别模型，每张行文本图片都有对应的文本内容；4训练网络：用训练集中的数据训练识别网络；5测试网络：输入测试数据到已训练网络中获取行文本图片的预测结果。本发明利用注意力网络实现了从图片的二维特征中解码出字符，识别准确率在公开的数据集上达到了较高的水平，具有极高的实用性和应用价值。

Description

一种基于二维特征注意力机制的自然场景文本识别方法

技术领域

本发明涉及一种自然场景文本识别方法，具体为一种基于二维特征注意力机制的自然场景文本识别方法，属于模式识别与人工智能技术领域。

背景技术

文字，突破了人类之间信息传递在听觉上的限制，使人类可以利用视觉上的信息传承人类的精神财富和智慧，让人类能更加准确地理解和处理通过视觉所获得的信息，促进人与人之间的信息交流。

随着计算机技术的飞速发展，人工智能技术正在逐渐改变我们的生活，使我们的生活变得更加便利和高效。而由于近期硬件技术，尤其是GPU的快速发展与广泛应用，使得深度神经网络的实际应用成为可能。

在现实生活中，人类通过视觉获得的信息远远超过了通过其他感官所得。而视觉信息中，人类主要通过文本了解外界环境，获取重要信息。从人类发明文字以来，人类大量地通过文字向外界传达信息，并从外界接收信息。为了获取文字信息，首先要正确地识别通过视觉感官获取的文字。对于一个受过教育的人而言，可以很简单地从一张图片中将文字正确地识别出来。但是计算机却不能像人类一样轻易地识别图中文字。如果要利用计算机协助人类处理视觉上的文字信息，

在实际生活中，我们离不开文本。人类从视觉上获得的信息，大部分是由文字所承载的。无论是在过去或是未来，人类都会大量地依靠从文字当中获取信息。而获取文字信息，其至关重要的一步就是要正确地识别出文字。对于人类而言，就必须让计算机能正确地识别图中的文字。但是，存在于自然场景中的文字常常呈现各种形态；比如，路牌经常处于不同的背景环境之中，而背景的多变性让计算机很难正确识别文字信息；此外，人们为了达到某种艺术效果，文字的排列经常呈现不同的形状，如曲线形，折线形。除此之外还有很多因素造成计算机难以正确地识别自然场景中的文本。因此，寻求一种有效的方法来识别自然场景中的文本是有必要的。

人工智能的研究进展使得上述问题的解决成为可能。近年来，已经有多个研究团队提出了基于深度神经网络进行自然场景文本识别的解决方案。在各种方案中，利用注意力机制的方法在自然场景文本识别的领域上的表现尤其突出。由于注意力机制在解码方式和语义推导方面的灵活性，基于注意力机制的模型的识别率较之前的方法有了极大的提升。但是，基于传统注意力机制的场景文本识别方案常常将所输入的场景文本图片通过卷积神经网络直接将其压缩成一特征序列，这样会给特征序列引入不必要的噪声。

发明内容

本发明的目的就在于为了解决上述问题而提供的对不规则排列的文本的识别率高，对于背景较为丰富的图片，也可以从中识别出文本，具有很高的使用价值的一种基于二维特征注意力机制的自然场景文本识别方法。

本发明通过以下技术方案来实现上述目的：一种基于二维特征注意力机制的自然场景文本识别方法，包括以下步骤：

步骤1、数据获取：使用网络上公开的代码合成用于训练的自然场景行文本图片，将合成的图片按文本的形状划分为规则文本训练集和不规则文本训练集，并从网络上下载公开的真实拍摄图片作为测试样本；

步骤2、数据处理：对所有训练样本的大小进行拉伸操作，处理后图片样本的尺寸为32*104，每张图片的高宽比尽量与原图保持一致，其中高度先拉伸成32个像素，宽度按原高宽比进行拉伸，宽度不足的部分使用黑边填充；

步骤3、标签制作：采用有监督的方法来训练识别模型，使每张行文本图片都有对应的文本信息，标签在合成数据时已经由代码保存；

步骤4、训练网络：把准备好的训练数据及标签输入到二维特征注意力网络中训练，先送入规则的训练数据；待规则的训练数据将网络训练到合适的程度后，使用不规则文本数据来训练网络，并将每批读入的标签长度用终止符填充成一致的长度；

步骤5、输入测试数据到已训练网络中，对于根据每张图片计算得到的置信度，使用贪心算法选择置信度最高的字符作为预测字符，并将这些字符串起来得到最终预测的行文本。

优选的，所述步骤1使用公开的代码合成训练数据，合成的文本图片数量应该尽可能多，所合成的文本图片里的文本应涵盖多种字体，背景也应该尽可能复杂多变，总数量为2000万张。

优选的，所述步骤2对合成的文本图片进行拉伸，拉伸后的图片大小为32*104，每张图片的高宽比尽量与原图保持一致，其中高度先拉伸成32个像素，宽度按原高宽比进行拉伸，宽度不足的部分使用黑边填充，以使得原图文本的形状信息得到完整保留。

优选的，所述步骤3包括以下步骤：

3-1使用网上公开的代码和文本语料，合成含有文本图片。根据代码记录在文件中的行文本位置，将文本从图片中切割出来，做成行文本训练样本；

3-2将每张文本图片中的文本内容保存在对应的文本文件中；

3-3将合成的训练样本全部作为训练数据，而从网上下载的公开真实拍摄的文本图片则作为测试集；

3-4所有样本分别制作成lmdb数据库格式的文件以加速读取。

优选的，所述步骤4包括以下步骤：

4-1构建以卷积块和长短时间记忆模型作为基本单元的特征编码网络，该网络前部分的特征提取网络通过池化层来对特征进行下采样，每个池化层的下采样倍数为2；

卷积模块的第一个卷积层输出的特征图与第三个卷积层输出的特征图进行数值上的相加操作，即得本卷积模块的输出特征图；每个卷积模块都不对特征图进行下采样；在卷积块中每一个卷积层后都附加了批标准化操作，其结果经过线性整流单元后输出，最终得到输出特征图。

经过特征提取网络后，将所得到的高度不为1的特征图，即二维特征图按行切分成H个子特征图，其中H为二维特征图的高；将每个子特征图送入由两层双向长短时间记忆层(Bidirectional Long-short Term Memory Layer,BLSTM)组成的BLSTM网络，使每个子特征图的特征向量之间拥有上下文信息。可以用如下数学公式表示：

其中l_i表示从二维特征图中切割出来的第i行子特征图，W表示二维特征图的宽，表示第i个特征图经过BLSTM网络编码后得到的第j个特征向量；将所有编码后的子特征图在水平方向拼接，得到一个编码后的特征图。

4-2构建基于二维特征注意力机制的解码网络：

其中，α_t＝{α_t，1，α_t，2，…，α_t，W×H}表示二维特征图每一个子特征图中的特征向量所占的权重，即注意力权重分布，而上式的H表示特征图的高，e_t，j通过下式得出：

e_t，j＝Vtanh(Wr_t+QF+b)

V,W,Q,b都是可以训练的权重参数。F是通过BLSTM编码并拼接后的特征。r_t是注意力网络中的语言网络的输出，该语言网络是一个长短时间记忆模型(Long-short TermMemory,LSTM)组成的，通过将上一个时间节点解码出的字符的词嵌入向量emb_t-1和解码上一个字符所用到的隐层输出向量h_t-1得到的：

r_t＝LSTM(emb_t-1，h_t-1)

得到了注意力权重分布α_t后，就得到了一个粗略的注意力分布，将这个α_t与特征F做对应元素相乘，得到过滤除当前要解码的字符以外其他特征的特征图F_t。这个特征图再经过一次注意力网络的过程,得到作用于F_t上的注意力权重分布：

α′_t＝{α′_t，1，α′_t，2，...，α′_t，w×H}

e′_t，f＝V′tanh(W′g_t+Q′F_t+b′)

V′，W′，Q′，b′表示可训练参数，向量g_t表示某个字符的粗略特征的向量，由特征图F与注意力权重分布α_t做加权和所得：

得到α′_t后，计算出特征图F_t中，为解码当前字符所需的细节特征向量g′_t：

将g_t与g′_t相加，得到解码当前字符所需的向量g″_t：

g″_t＝g_t+g′_t

再通过一个全连接层解码，并送入softmax这个归一化层进行概率归一化，即可得到字符的概率分布y_t：

y_t＝softax(ψ(W_cg″_t+b_c))

其中ψ表示线性整流单元，W_c和b_c表示全连接层的可训练权重。选取y_t中置信度最大的值所对应的字符即得到当前解码输出字符c_t。

4-3训练参数设定：将训练数据送入网络训练，让网络遍历训练数据集10次，每遍历一次训练集需要读入约31万批次的数据，其中读入批次大小设置为64，使用的优化算法为一种自适应的梯度下降法(ADADELTA)，初始学习率设置为1；

损失函数定义为：

其中N表示本批次优化所用到的数据量，表示在第j时刻由第i个样本图片输出字符的概率。

4-4权值初始化：所有网络中的权值参数在训练初始时使用随机初始化；

4-5训练卷积神经网络：将目标字符串的每个字符在其对应时间点时输出的概率作交叉熵，使用梯度下降法最小化交叉熵。

优选的，所述步骤(5)包括以下步骤：

5-1输入测试集样本，使用贪心算法选择置信度最高的字符作为预测字符，并将这些字符串起来得到最终预测的行文本；

5-2识别完成后，程序计算准确率和编辑距离。

本发明的有益效果是：

(1)由于采用深度网络结构的自动学习识别算法，所以能够很好的从数据中学习到有效的表达，提高识别的准确率。

(2)本发明与先检测每个字符的位置，再分别识别各个字符的方法相比，训练速度快，准确率更高。

(3)本发明分类方法识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。

附图说明

图1为本发明的自然场景文本识别方法的总流程示意图；

图2为本发明特征提取网络中卷积模块的流程示意图；

图3为本发明识别流程示意图；

图4为本发明的深度卷积神经网络参数配置表示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～4，一种基于二维特征注意力机制的自然场景文本识别方法，包括以下步骤：

包括以下步骤：

3-1使用网上公开的代码和文本语料，合成含有文本图片。根据代码记录在文件中的行文本位置，将文本从图片中切割出来，做成行文本训练样本，为了测试网络性能，从互联网上下载公开的自然场景文本数据集。这些数据集的行文本图片都是从真实拍摄的图片中截取出来的；

3-2将每张文本图片中的文本内容保存在对应的文本文件中；

3-3将合成的训练样本全部作为训练数据，在训练集中又按文本图片的形状划分成规则的和不规则的训练数据，而从网上下载的公开真实拍摄的文本图片则作为测试集；

3-4所有样本分别制作成lmdb数据库格式的文件以加速读取。

包括以下步骤：

4-1构建以卷积块和长短时间记忆模型作为基本单元的特征编码网络，该网络前部分的特征提取网络通过池化层来对特征进行下采样，每个池化层的下采样倍数为2，卷积块可以表示成由卷积层参与的计算过程；

4-2构建基于二维特征注意力机制的解码网络：

e_t，j＝Vtanh(Wr_t+QF+b)

V,W,Q,b都是可以训练的权重参数。F是通过BLSTM编码并拼接后的特征。r_t是注意力网络中的语言网络的输出，该语言网络是一个长短时间记忆模型(Long-short TermMemory，LSTM)组成的，通过将上一个时间节点解码出的字符的词嵌入向量emb_t-1和解码上一个字符所用到的隐层输出向量h_t-1得到的：

r_t＝LSTM(emb_t-1，h_t-1)

得到了注意力权重分布α_t后，就得到了一个粗略的注意力分布，将这个α_t与特征F做对应元素相乘，得到过滤除当前要解码的字符以外其他特征的特征图F_t。这个特征图再经过一次注意力网络的过程，得到作用于F_t上的注意力权重分布：

a′_t＝{α′_t，1，α′_t，2，...，α′_t，W×H}

e′_t，j＝V′tanh(W′g_t+Q′F_t+b′)

V′，W′，Q′，b′表示可训练参数，向量gt表示某个字符的粗略特征的向量，由特征图F与注意力权重分布αt做加权和所得：

将g_t与g′_t相加，得到解码当前字符所需的向量g″_t：

g″_t＝g_t+g′_t

y_t＝softmax(ψ(W_cg″_t+b_c))

其中ψ表示线性整流单元，W_c和b_c表示全连接层的可训练权重。选取y_t中置信度最大的值所对应的字符即得到当前解码输出字符ct。

损失函数定义为：

包括以下步骤：

5-1在训练时把验证集中的图片以及标签输入到网路中，进行验证；

5-2训练完成后，将测试集的图片输入训练好的网络，通过程序计算网络的识别正确率以及预测结果和标签的总编辑距离。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于二维特征注意力机制的自然场景文本识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法，其特征在于：所述步骤1使用公开的代码合成训练数据，合成的文本图片数量应该尽可能多，所合成的文本图片里的文本应涵盖多种字体，背景也应该尽可能复杂多变，总数量为2000万张。

3.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法，其特征在于：所述步骤2对合成的文本图片进行拉伸，拉伸后的图片大小为32*104，每张图片的高宽比尽量与原图保持一致，其中高度先拉伸成32个像素，宽度按原高宽比进行拉伸，宽度不足的部分使用黑边填充，以使得原图文本的形状信息得到完整保留。

4.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法，其特征在于：所述步骤3包括以下步骤：

3-1 使用网上公开的代码和文本语料，合成含有文本图片。根据代码记录在文件中的行文本位置，将文本从图片中切割出来，做成行文本训练样本；

3-2 将每张文本图片中的文本内容保存在对应的文本文件中；

3-3 将合成的训练样本全部作为训练数据，而从网上下载的公开真实拍摄的文本图片则作为测试集；

3-4 所有样本分别制作成lmdb数据库格式的文件以加速读取。

5.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法，其特征在于：所述步骤4包括以下步骤：

4-1 构建以卷积块和长短时间记忆模型作为基本单元的特征编码网络，该网络前部分的特征提取网络通过池化层来对特征进行下采样，每个池化层的下采样倍数为2；

4-2 构建基于二维特征注意力机制的解码网络：

e_t，j＝Vtanh(Wr_t+QF+b)

V，W，Q，b都是可以训练的权重参数。F是通过BLSTM编码并拼接后的特征。r_t是注意力网络中的语言网络的输出，该语言网络是一个长短时间记忆模型(Long-short Term Memory，LSTM)组成的，通过将上一个时间节点解码出的字符的词嵌入向量emb_t-1和解码上一个字符所用到的隐层输出向量h_t-1得到的：

r_t＝LSTM(emb_t-1，h_t-1)

α′_t＝{α′_t，1，α′_t，2，…，α′_t，W×H}

e′_t，j＝V′tanh(W′g_t+Q′F_t+b′)

V′，W′，Q′，b″表示可训练参数，向量g_t表示某个字符的粗略特征的向量，由特征图F与注意力权重分布α_t做加权和所得：

得到α′_t后，计算出特征图F_t中，为解码当前字符所需的细节特征向量g′_t:

将g_t与g′_t相加，得到解码当前字符所需的向量g″_t：

g"_t＝g_t+g′_t

y_t＝softmax(ψ(W_cg"_t+b_c))

4-3 训练参数设定：将训练数据送入网络训练，让网络遍历训练数据集10次，每遍历一次训练集需要读入约31万批次的数据，其中读入批次大小设置为64，使用的优化算法为一种自适应的梯度下降法(ADADELTA)，初始学习率设置为1；

损失函数定义为：

4-4 权值初始化：所有网络中的权值参数在训练初始时使用随机初始化；

4-5 训练卷积神经网络：将目标字符串的每个字符在其对应时间点时输出的概率作交叉熵，使用梯度下降法最小化交叉熵。

6.根据权利要求1所述的一种基于二维特征注意力机制的自然场景文本识别方法，其特征在于：所述步骤(5)包括以下步骤：

5-1 输入测试集样本，使用贪心算法选择置信度最高的字符作为预测字符，并将这些字符串起来得到最终预测的行文本；

5-2 识别完成后，程序计算准确率和编辑距离。