CN111428727A

CN111428727A - 基于序列变换纠正及注意力机制的自然场景文本识别方法

Info

Publication number: CN111428727A
Application number: CN202010227200.6A
Authority: CN
Inventors: 林庆祥; 金连文; 罗灿杰; 赖松轩
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-17
Anticipated expiration: 2040-03-27
Also published as: CN111428727B

Abstract

本发明公开一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括数据获取、数据处理、标签制作、训练网络、测试网络；所述训练网络包括：构建识别网络，并将训练数据及处理好的标签输入预先设计好的识别网络，完成识别网络的训练；所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器；所述序列变换纠正器包括若干个卷积层、非线性层和池化层；所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络；所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器。本发明极大降低了识别模型的识别难度，识别准确率高、鲁棒性强，针对形状不规则的文本具有很好的识别性能。

Description

基于序列变换纠正及注意力机制的自然场景文本识别方法

技术领域

本发明涉及模式识别与人工智能技术领域，特别是涉及一种基于序列变换纠正及注意力机制的自然场景文本识别方法。

背景技术

文字作为信息的载体，从古至今一直有着广泛的应用。通过文字的呈现，让人类能更加准确地理解和处理通过视觉所获得的信息，促进人与人之间的信息交流。随着计算机技术的飞速发展，人工智能技术正在逐渐改变人们的生活，人们希望能够通过计算机来高效地理解和处理图像，而文字信息对于图像理解至关重要。因此，自然场景文本识别一直是一个有意义且备受关注的研究方向。

相比于文档图像识别任务来说，在自然场景中文字经常会呈现各种各样的形变，例如旋转、透射变形，弯曲等形变，且自然场景文本形变复杂多样，没有规律，很难用一个数学变换来模拟，这给自然场景文本识别系统造成很大的挑战。

因此，目前亟需一种针对不规则自然场景文本数据集，能够有效提升识别准确率的文本识别方法。

发明内容

本发明的目的是提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法，以解决上述现有技术存在的问题，能够有效提高自然场景文本的识别精度。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法，包括如下步骤：

数据获取：获取训练集和测试集样本；

数据处理：对训练集和测试集图片进行缩放处理；

标签制作：对训练集图片进行加标签处理；

训练网络：构建识别网络，并将训练数据及处理好的标签输入预先设计好的识别网络，完成识别网络的训练；

所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器；所述序列变换纠正器包括若干个卷积层、非线性层和池化层；所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络；所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器；

测试网络：输入测试数据到已训练完成的识别网络中，得到图片中文本行的识别结果。

优选地，所述序列变换纠正器还包括缩放层、网格映射模块，所述序列变换纠正器进行图片纠正的方法包括：

通过缩放层、卷积层、非线性层和池化层得到待纠正图片的特征图；

通过分解层将特征图在水平方向分解成互不相交的N个图像块，并将每个图像块的特征输入到定位网络，通过定位网络预测每个图像块的变换参数；

将每个图像块的变换参数均输入到网格映射模块，得到一个平滑的采样网格；

使用采样网格在原始待纠正图片上通过双线性插值采样得到纠正后的图片。

优选地，所述卷积层还能进行补边，所述补边的具体方法包括：在原始图片或特征图的上下左右均贴上一圈像素点，所述像素点的像素值为0。

优选地，所述特征编码网络以卷积神经网络和长短时记忆网络作为基本单元，用于将图片数据转换成具有上下文关联信息的时间序列特征。

优选地，所述基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别图片中的每个字符，具体识别方法包括：

基于注意力机制的解码器根据特征编码网络输出的时间序列特征以及长短时记忆网络上一个时间点的隐藏状态，计算注意力权重矩阵；

对注意力权重矩阵做归一化处理，得到注意力权重矩阵的概率分布；

根据注意力权重矩阵的概率分布对特征编码网络编码得到的时间序列特征进行加权求和处理，得到当前时刻的关注特征；

根据当前时刻的关注特征，并结合上一时刻的字符预测概率分布更新长短时记忆网络的隐藏状态；

通过全连接层进行解码，并将解码结果送入softmax层进行概率归一化，得到预测字符的概率分布；

选取概率分布中置信度最大的值所对应的字符作为当前解码输出字符，完成图片中字符的识别。

优选地，识别网络训练包括：

将训练数据字符串中的每个字符在其对应时间点输出的概率作为交叉熵，使用自适应梯度下降法最小化交叉熵损失。

优选地，所述识别网络中的权值参数通过随机高斯分布初始方法进行初始化。

本发明公开了以下技术效果：

(1)由于采用深度网络结构的自动学习算法，能够很好的从数据中学习到有效的表达，提高识别的准确率。

(2)本发明采用端到端的网络设计，通过弱监督的训练方式，利用识别模型回传的具有物理意义的梯度信息，对纠正网络进行有效的指导，在实际应用中大大降低了识别模型的识别难度，提高了识别准确率。

(3)本发明方法在纠正器设计中引入分解的思想，通过将不规则文本图片进行分解，使得分解后的每个图像块具有较小的形变，大大降低了不规则文本的纠正难度，并在纠正网络中设计了一个网格映射模块来保证整个纠正过程是平滑的，使得整个纠正变换过程灵活高效、能够对不规则文本起到很好的纠正作用，识别准确率高、鲁棒性强、针对形状不规则文本有很好的识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明文本识别方法流程图；

图2为本发明文本识别方法整体结构示意图；

图3为本发明序列变换纠正器网络结构图；

图4为本发明实施例中验证结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1-3所示，本实施例提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法，包括如下步骤：

S1、数据获取：获取训练集和测试集样本；

使用开源代码以及从互联网上获取的文本语料合成自然场景文本行图片，作为训练集；使用公开的自然场景文本识别数据集作为测试集；将每张图片保存在对应的文件夹中。

S2、数据处理：

首先，对训练集和测试集图片进行缩放处理，处理后图片大小为64*192；

其次，将训练集和测试集所有图片均制作成LMDB(闪电内存映射数据库，Lightning Memory-Mapped Database)格式的文件，以提高图片读取速度。

S3、标签的制作：

本发明采用有监督的方法来训练识别网络，因此，对训练集图片进行加标签处理，标签形式为每张文本行图片对应的文本内容。

S4、训练网络：构建识别网络，所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器；将训练数据及处理好的标签输入预先设计好的识别网络，完成识别网络的训练；具体包括：

S4.1、搭建序列变换纠正器；本实施例序列变换纠正器的网络结构和参数设置如表1所示；

表1

其中，表1中卷积层补边的具体方法包括：在原始图片或特征图片上下左右均贴上一圈像素点，其像素点的像素值为0；非线性层采用ReLU激活函数；池化层采用最大值池化方式。

序列变换纠正器的缩放层通过对图片进行缩小操作，有效地提升了网络感受野，减少了计算量，避免了大量噪音的输入，提高了模块的鲁棒性。

序列变换纠正器进行图片纠正的方法包括如下步骤：

首先，将图片输入序列变换纠正器，通过表1中的缩放层、卷积层、非线性层和池化层后得到大小为4*12的特征图。

其次，通过分解层将特征图在水平方向分解成互不相交的N个图像块，并将每个图像块的特征输入到由两个全连接层组成的定位网络中，通过定位网络预测每个图像块的变换参数，如式(1)所示：

其中，θ表示神经网络的参数，patch_i表示第i个图像块，i∈[1，N]，T(patch_i|θ)表示将第i个图像块的特征输入到定位网络中得到变换参数。

再次，将每个图像块的变换参数均输入到网格映射模块，得到一个平滑的采样网格，具体过程如下：

假设序列变换纠正器输入图像块的高度和宽度分别为H_i，W_i，经序列变换纠正器纠正后，输出图像块的高度和宽度分别为H_o，W_o；

计算采样网格上的坐标位置(x_o，y_o)属于第几个图像块，如式(2)所示：

将采样网格上的坐标位置(x_o，y_o)映射到隐藏网格中，得到坐标(x_h，y_h)，映射计算过程如式(3)所示：

其中，n、m分别表示隐藏网格中每个分块网格的宽度和高度；

通过双线性插值方式平滑地将隐藏网格中的坐标(x_h，y_h)映射到输入图像块网格中的坐标位置(x_i，y_i)，映射计算过程如式(4)所示：

综上，整个网格映射过程表示为：(x_i，y_i)＝P(x_o，y_o)

其中，P表示网格映射函数，综合式(3)、式(4)，网格映射函数P如式(5)所示：

最后，使用采样网格在原始输入图片上通过双线性插值采样得到纠正后的图片，采样计算过程如式(6)所示：

其中，

表示输出图片中位置(x_o，y_o)处的像素值，I_(u，v)表示输入图片中位置(u，v)处的像素值。

以上变换过程都是可导的，这就保证了序列变换纠正器可以通过梯度下降算法来更新优化参数。

S4.2、搭建基于注意力机制的文本识别器

首先，构建以卷积神经网络和长短时记忆网络作为基本单元的特征编码网络，用来将图片数据转换成具有上下文关联信息的时间序列特征。

卷积神经网络的结构为：输入(32*100)→64C3→MP22→128C3→MP22→256C3→256C3→MP21→512C3→MP21→512C2，其中，pCq中，p代表的是卷积的输出通道数，q为卷积核大小，C代表为卷积层，例如64C3表示卷积核大小为3，输出通道数为64的卷积层；MPef中，e，f分别代表最大池化层的宽高、步长，MP代表最大池化层，例如MP22表示宽高、步长均为2的最大池化层。

输入图片经过卷积神经网络之后得到高度为1的特征，将该特征输入到由两层双向长短时记忆层(Bidirectional Long-short Term Memory Layer,BLSTM)组成的BLSTM网络中，提取具有上下文关联的时间序列特征。

其次，将特征编码网络编码得到的时间序列特征H＝[h₁,h₂,…,h_L]输入基于注意力机制的解码器得到字符预测结果，其中，L表示时间序列特征的长度。基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别每个字符，具体流程如下：

在时间点t，基于注意力机制的解码器根据特征编码网络编码得到的时间序列特征H以及长短时记忆网络上一个时间点的隐藏状态s_t-1计算注意力权重矩阵e_t，如式(7)所示：

e_t，j＝w^TTanh(W_ss_t-1+W_hh_j+b)…………………(7)

其中，w，W_s，W_h和b均表示可训练参数，Tanh表示激活函数，j表示时间序列的序号，j∈[1，L]；

对注意力权重矩阵e_t做归一化处理，得到注意力权重矩阵的概率分布a_t，如式(8)所示：

根据注意力权重矩阵的概率分布对特征编码网络编码得到的时间序列特征进行加权求和处理，得到当前时刻的关注特征g_t，计算如下：

根据当前时刻的关注特征，并结合上一时刻的字符预测概率分布y_t-1更新长短时记忆网络的隐藏状态，如式(10)所示：

s_t＝LSTM(y_t-1，g_t，s_t-1)………………………(10)；

通过一个全连接层进行解码，并将解码结果送入softmax归一化层进行概率归一化，得到预测字符的概率分布y_t，如式(11)所示：

y_t＝Softmax(Us_t+d)………………………(11)

其中，U、d均表示可训练参数；

选取y_t中置信度最大的值所对应的字符作为当前解码输出字符。

S4.3、训练参数设定：

将训练数据送入网络训练，让网络遍历训练数据集10次，其中读入批次大小设置为64，基于注意力机制的文本识别器的初始学习率设置为1，序列变换纠正器的初始学习率设置为0.1，之后在遍历数据集6次和8次时将整个网络的学习率下降10倍。

优化算法采用自适应的梯度下降法，损失函数L如式(12)所示：

其中，B表示本批次优化所用到的数据量，

表示在第a时刻由第b个样本图片输出字符

的概率；T^b表示第b个样本字符串标签的长度。

S4.4、识别网络权值初始化：所有网络中的权值参数在训练初始时通过随机高斯分布初始方法进行初始化。

S4.5、识别网络训练：将训练数据字符串中的每个字符在其对应时间点输出的概率作为交叉熵，使用自适应梯度下降法最小化交叉熵损失，即损失函数最小。通过基于注意力机制的文本识别器指导序列变换纠正器的训练，实现了识别网络训练过程的弱监督，有效提高了不规则自然场景文本数据识别的准确性。

S5、测试网络：输入测试数据到已训练完成的网络中，最后得到图片中文本行的识别结果；具体包括如下步骤：

S5.1、输入测试集样本，使用贪心算法选择置信度最高的字符作为预测字符，并将这些字符串起来得到最终预测的文本行；

S5.2、识别完成后，根据识别出的文本行结果与标注好的标签进行对比，计算行识别准确率和编辑距离。

为了进一步验证本发明文本识别方法的有效性和鲁棒性，本实施例选取一张64*192大小的图片，纠正结果及识别结果如图4所示；通过图4可得，输入图片经过纠正器处理后文本呈规则排布，使得识别器能够准确识别出图片中的文本，本发明文本识别方法具有极高的鲁棒性和有效性。

本发明基于序列变换纠正及注意力机制的自然场景文本识别方法，通过对不规则文本进行纠正来降低后续识别器的识别难度；在训练中采用弱监督的方式，通过识别模型来指导纠正网络的训练，在训练过程中没有使用任何的位置坐标标签。

同时，本发明在设计纠正网络时引入了分解的思想，通过将不规则文本图片进行分解，使得分解后的每个图像块具有较小的形变，大大降低不规则文本的纠正难度；本发明还在纠正网络中设计了一个网格映射模块来保证整个纠正过程是平滑的；本发明在识别网络设计中使用了基于注意力机制的识别算法，能够有效提升自然场景文本识别的准确率，特别是在不规则自然场景文本数据集提升效果显著。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，包括如下步骤：

数据获取：获取训练集和测试集样本；

数据处理：对训练集和测试集图片进行缩放处理；

标签制作：对训练集图片进行加标签处理；

2.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，所述序列变换纠正器还包括缩放层、网格映射模块，所述序列变换纠正器进行图片纠正的方法包括：

3.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，所述卷积层还能进行补边，所述补边的具体方法包括：在原始图片或特征图的上下左右均贴上一圈像素点，所述像素点的像素值为0。

4.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，所述特征编码网络以卷积神经网络和长短时记忆网络作为基本单元，用于将图片数据转换成具有上下文关联信息的时间序列特征。

5.根据权利要求4所述的基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，所述基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别图片中的每个字符，具体识别方法包括：

6.根据权利要求5所述的基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，识别网络训练包括：

7.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法，其特征在于，所述识别网络中的权值参数通过随机高斯分布初始方法进行初始化。