CN109543667B

CN109543667B - 一种基于注意力机制的文本识别方法

Info

Publication number: CN109543667B
Application number: CN201811355154.7A
Authority: CN
Inventors: 李宏伟; 李蓉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2023-05-23
Anticipated expiration: 2038-11-14
Also published as: CN109543667A

Abstract

本发明公开了一种基于注意力机制的文本识别方法，基于空间注意力的网络SAN是一个端到端的文本识别模型，文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构，所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码，得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征，从而实现识别图像中的文本。针对于弧形文本CUTE80数据集，本方法的结果优于现有的所有方法，达到77.43％的准确率。在其他场景文本数据集中，本方法也得到了很好的效果。

Description

一种基于注意力机制的文本识别方法

技术领域

本发明基于空间注意的网络(SAN)来识别自然场景中的不规则文本，利用得到的空间信息作为编码器-解码器模型的输入来生成字符序列，尤其涉及一种基于注意力机制的文本识别方法，属于场景文本识别技术领域。

背景技术

在过去几年，场景文本识别任务得到了很多的关注，并且已经有一些解决办法。通常将文本识别分为两种类型：传统的单字符检测识别和序列文本识别。大部分传统的模型使用自底向上的机制，通过首先对单个检测的字符提取低级特征然后识别字符，最后通过一组先验知识把字符组合成字符串。这种识别方式在早期研究中一直存在。但是这种识别往往受限于检测字符的准确度。同时在一些复杂的场景下，是否能够准确的分割字符也成为了影响识别准确率的重要因素。上述这些因素的不确定性，就对识别的研究造成了许多的困扰。因此在后来的研究中，研究人员放弃了对单个字符的检测和分割任务，而是直接在文本图像上进行整个字符序列的识别。在现有的作为序列文本识别问题的研究中，研究员们通常使用整个文本图片，通过编码解码的模型把整个图片编码成一个特征序列，使用解码结构对序列特征进行解码，解码的结果再经过一个多分类器得到最终的字符序列。在这种端到端的序列到序列识别结构中，衍生出两种识别模式：基于连接时间分类器(CTC)的解码识别和基于注意力机制的解码识别。连接时间分类器源于语音识别的研究领域，在处理时序信息时，通常逐一对每个时间步的信息进行识别，筛选所有的结果路径后得到最终的识别结果。而注意力机制是在处理的过程中，通过一种全局的筛选，从一组特征中得到最具有表示能力的特征作为最终的表示进行识别。

通常，在一般的规则文本识别任务中，CTC和注意力机制在效果上差别并不大，但是注意力机制不仅可以作用于序列化特征，同时可以作用于空间中的2维特征，这就给带有空间位置信息的不规则文本识别的研究带来了许多思路。在不规则文本的识别任务中，通常会遇到字符扭曲、拍摄角度倾斜、模糊等问题。场景中的规则文本的排列序列主要是以自左向右的方向排列，而不规则文本的排列序列通常并不具有规律性。这样，传统的序列特征在不规则文本的识别任务中，并不能有很好的泛化能力。

在不规则文本的研究中，现有的方法主要分为两种：1、通过矫正不规则文本图像的方式，得到规则的文本图像，然后再进行序列化的识别；2、直接在2D特征图中进行识别。

在使用矫正的方法中，网络模型可以使用由空间变换网络(STN)得到的矫正后的规则图像，再送入识别网络中，进行识别。但是这种矫正模型在训练时通常非常复杂，需要许多训练技巧，这就给提高识别的准确率增加了许多难度。

另一种方法直接在2D特征图上，通过使用带有辅助检测任务的空间注意力机制，帮助定位文本特征。并且，在现有的不规则文本的识别任务中，基于空间注意机制的模型已经得到相对较好的识别结果。但是现有的模型仍然具有许多问题，其需要密集的辅助字符检测，且需要字符和词的包围盒注解，这就提高了模型的复杂度。还有的方法通过在2维的特征map中，使用LSTM的输出表示一个文本图像的4个方向的特征，同时使用一个全局分类器，对4个方向的特征进行选择，得到一个整合各个方向信息的特征向量。得到这个特征向量后，再使用基于注意力机制的序列解码器解码，得到文本序列。这种识别方法的训练难度比较大，需要复杂的模型设计以及更多的先验知识辅助训练。

增强特征提取网络：大部分现有的用于特征提取的深度神经网络模型，都是基于卷积神经网络来构建模型的。利用卷积网络对局部特征的提取能力，在网络的高层，可以得到全局的抽象的特征图。随着深度的增加，特征将变成抽象的语义信息，这种抽象的语义特征不适用于细粒度的笔画变化。所以需要在浅层网络就能够得到更多的全局的语义信息。在整段的手写识别网络中，研究人员使用MDLSTM网络，使用2D的空间注意力在段文本中，进行逐个字符的识别。但是这种MDLSTM在训练时，训练速度非常慢，而且模型参数量非常大，这就给模型训练带来了许多困难。同时Non-local神经网络的提出给获取全局信息提供了更高效的方法。

因此现有技术主要存在以下缺陷：

1.空间变换网络很难训练，且需要很高的技巧，例如使用特殊方法初始化参数。

2.在带有字符注解的网络模型中，除了需要学习识别网络之外，还需要训练一个密集的字符检测任务，这不仅增加了识别网络的复杂度，而且对训练数据集也提高了要求。

3.在任意方向的识别网络中，虽然在特征选择中从4个方向的特征整合出一个特征序列进行识别，但仍是对序列特征进行识别，并没有充分发挥注意力机制的空间选择能力。

发明内容

本发明的目的在于克服直接在2D特征上使空间注意力机制能够准确的注意十分困难的问题，另外就是如何提高特征的表示能力，包括空间信息和语义信息。

为实现上述目的，本发明采用的技术方案为一种基于注意力机制的文本识别方法，基于空间注意力的网络SAN是一个端到端的文本识别模型，主要结构由图1所示，文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构，所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码，得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征，从而实现识别图像中的文本。

将编码器视为一个特征提取网络，编码器用于提取图像中的特征。特征提取网络是一个带有非局部神经网络的残差块连接的神经网络。在网络模型中，输入大小为W×H的图像到图像特征提取器中，得到整个图像的特征图，W表示图像的宽，H表示图像的高。然后使用在编码器和解码器之间的注意力机制，在每个时间步关注空间区域中的一部分。最后使用基于LSTM的解码器，预测每个时间步的输出，得到字符序列C＝{C₁，C₂，......，C_N}，N表示字符序列的个数，C₁，C₂......C_N表示序列的各个元素。

第一、特征提取网络：

(1)非局部神经网络

非局部操作是经典的非局部均值操作在计算视觉领域中的一个泛化形式。直观上来说，非局部操作能够将某位置处的特征值计算为输入特征位置的所有位置特征的加权和，如公式(1)所示。

i表示在输入图像X中输出位置的索引，j表示在输入图像X中其余所有位置的索引，y表示和输入图像大小相同的输出特征图。函数f表示计算i和所有j之间的一个标量，函数g计算一个输入特征的表示，C(x)是一个正则化因子。

非局部操作时，作为一个灵活的结构，能够和卷积操作或者循环神经网络一起使用。这样通过和卷积层结合，构造更加丰富的特征信息。

为简化计算，函数g为一个线性变换层，如公式(2)所示。

g(x_j)＝W_gx_j (2)

W_g是一个能够学习的权值，可以通过使用1×1的卷积层来实现。函数f被定义为：

θ(x_i)＝W_θx_i和

是两个嵌入层，正则化参数C(x)由N表示，N是特征图X中位置的数量。同时，使用一个残差结构来得到最终的非局部块，

z_i＝W_zy_i+x_i (4)

y是公式(1)得到，同样非局部块能够插入到任何一个残差神经网络结构之间。

(2)编码网络

构建一个残差全局编码网络来获取全局的空间信息。在残差神经网络中，残差连接能够提高层与层之间的特征学习能力，同时利用插入在残差层中的Non-local块可以给局部特征提供全局的信息来增加每个特征点的表征能力。在获取局部特征时，使用部分预训练的ResNet-101模型的参数来初始化的网络，提高的模型的训练效率。

使用f＝{f_i，j，c}来表示输入图像x到特征提取网络后得到的2D空间特征，i和j分别表示2D空间特征中图像的宽度和高度，c表示通道数。在空间特征中，加入了使用one-hot编码的坐标信息，得到最终的全局特征。

和/>

是两个嵌入矩阵，把左边信息嵌入到和图像特征相同语义空间中。W_e是一个权值矩阵，由一个1×1的卷积层实现得到。

第二、基于注意力的解码器：

对文本的识别基本上被认为是在一组区域和字符之间进行映射以及建模序列相互依赖性的任务。类似于之前的方法，使用一个基于注意力机制的循环神经网络RNN中的r作为不规则文本识别的一个重要组成部分。在识别到第t个时间步时，得到输出y_t即第t个时间步的预测的值：

y_t＝softmax(W^Ts_t) (6)

W^T是一个能够学习的参数，S_t是循环神经网络在时间步t的隐层结点。S_t是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量C_t得到：

s_t＝LSTM(s_t-1，y_t-1，c_t) (7)

上下文向量是使用注意力机制得到一个加权求和的特征表示：

在的网络结构中，使用2D注意力机制，在2D空间特征上捕获的注意力权值和每个位置的特征值驻点相乘得到每个位置的加权特征。然后，再对所有的位置进行求和，最终选出一个单一位置大小的特征，表示加权后的特征值。在公式(8)中，注意力权值由score map

通过softmax激活得到:

scoremap是结合了上一个时间步信息和视觉特征的进一步表示。函数f_att由一个单层感知机实现：

最终，的模型的损失函数由以下公式(12)计算得到：

L＝-logP(y_t|x，θ) (12)

x表示输入的文本图像，θ表示需要学习的参数，y_t表示第t个时间步的预测的值。

附图说明

图1为本发明中涉及的模型结构示意图，该模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器和基于注意力机制的空间解码器。

图2为非局部块的结构示意图。

图3为特征提取网络结构和残差块结构示意图，其中(a)为特征提取网络结构细节图，(b)为残差块结构细节图。

图4为结果展示示意图。

图5为本发明方法实施流程图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

如图1-3所示，一种基于注意力机制的文本识别方法，基于空间注意力的网络(SAN)是一个端到端的文本识别模型，主要结构由图1所示，文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构，所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码，得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征，从而实现识别图像中的文本。

第一、特征提取网络：

(1)非局部神经网络

非局部操作是经典的非局部均值操作在计算视觉领域中的一个泛化形式。直观上来说，非局部操作能够将某位置处的特征值计算为输入特征位置的所有位置特征的加权和，如公式1所示。

i表示在输入图像X中输出位置的索引，j表示在输入图像X中其余所有位置的索引，y表示和输入图像大小相同的输出特征图。函数f计算i和所有j之间的一个标量，函数g计算一个输入特征的表示，C(x)是一个正则化因子。

为简化计算，函数g为一个线性变换层，如公式(2)所示。

g(x_j)＝W_gx_j (2)

W_g是一个可以学习的权值，可以使用1×1的卷积层来实现。函数f被定义为：

θ(x_i)＝W_θx_i和

z_i＝W_zy_i+x_i (4)

(2)编码网络

为了获得全局和局部的特征信息来提高特征图的表征能力，使用结合了非局神经网络的残差神经网络。在网络中，构建了一个残差全局编码网络来获取全局的空间信息。在残差神经网络中，残差连接能够提高层与层之间的特征学习能力，同时利用插入在残差层中的Non-local块可以给局部特征提供全局的信息来增加每个特征点的表征能力。在获取局部特征时，使用部分预训练的ResNet-101模型的参数来初始化的网络，提高的模型的训练效率。

使用f＝{f_i，j，c}来表示输入图像x到特征提取网络后得到的2D空间特征，i和j分别表示宽度和高度，c表示通道数。为了能够增强空间信息的表示，在空间特征中，加入了使用one-hot编码的坐标信息，得到最终的全局特征。

和/>

第二、基于注意力的解码器：

对文本的识别基本上被认为是在一组区域和字符之间进行映射以及建模序列相互依赖性的任务。类似于之前的方法，使用一个基于注意力机制的循环神经网络(RNN)r作为不规则文本识别的一个重要组成部分。在识别到第t个时间步时，得到输出y_t：

y_t＝softmax(W^Ts_t) (6)

W^T是一个可以学习的参数，s_t是循环神经网络(通常为LSTM)在时间步t的隐层结点。通常，s_t是由上一个时间步的隐层结点值和预测的标签值以及当前结点的注意力上下文向量C_t得到：

s_t＝LSTM(s_t-1，y_t-1，c_t) (7)

通过softmax激活得到:

最终，的模型的损失函数由以下公式计算得到：

如图4所示，通过使用训练数据对本方法的网络结构进行训练，本发明的网络结构在和现有的方法对比中，取得了很好的结果。

针对于弧形文本CUTE80数据集，本方法的结果优于现有的所有方法，达到77.43％的准确率。在其他场景文本数据集中，本方法也得到了很好的效果。

图5为本发明方法实施流程图。

以上所述仅为解释本发明，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的文本识别方法，其特征在于：基于空间注意力的网络SAN是一个端到端的文本识别模型，文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器；文本识别模型基于编码解码结构，文本识别模型为编码器和解码器；编码器是用于对输入的图像进行编码，得到解码器可以识别的编码特征序列；解码器用于解码编码器的编码特征，从而实现识别图像中的文本；

将编码器视为一个特征提取网络，编码器用于提取图像中的特征；特征提取网络是一个带有非局部神经网络的残差块连接的神经网络；输入大小为W×H的图像到图像特征提取网络中，得到整个图像的特征图，W表示图像的宽，H表示图像的高；然后使用在编码器和解码器之间的注意力机制，在每个时间步关注空间区域中的一部分；最后使用基于LSTM的解码器，预测每个时间步的输出，得到字符序列C＝{C₁，C₂，......，C_N}，N表示字符序列的个数，C₁，C₂.....C_N表示序列的各个元素；

第一、特征提取网络：

(1)非局部神经网络

非局部操作将某位置处的特征值计算为输入特征位置的所有位置特征的加权和，如公式(1)所示；