CN111783705A

CN111783705A - 一种基于注意力机制的文字识别方法及系统

Info

Publication number: CN111783705A
Application number: CN202010651107.8A
Authority: CN
Inventors: 顾澄宇; 王士林; 陈凯; 周异; 何建华
Original assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Current assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-16
Anticipated expiration: 2040-07-08
Also published as: CN111783705B

Abstract

本发明涉及一种基于注意力机制的文字识别方法及系统，涉及深度学习与图像处理技术。本发明采用以卷积神经网络和基于注意力机制的语言学模块作为深度学习模型的主干，用定制损失函数对特征图提取进行加强，引导模型在训练时学会区分前景和背景，引入正向和反向的双向解码器对文字进行双向解码。本发明抗干扰能力强，可以减轻注意力漂移，同时可以避免模型因为正向解码时首位字符难以辨认而导致最终识别失败。

Description

一种基于注意力机制的文字识别方法及系统

技术领域

本发明涉及深度学习与图像处理技术，尤其涉及一种基于注意力机制的文字识别方法及系统。

背景技术

现有的文字识别技术有很多种，包括传统的OCR识别方法和基于深度学习的方法。基于深度学习的方法通过将大量人工标注的图像文字样本输入经过设计的神经网络，使得神经网络中的参数通过训练，拟合出图像与文字之间的映射关系，进而完成识别任务。深度学习的方法主要分为基于注意力机制的方法和基于CTC的方法。其中，深度学习中的注意力机制(https://blog.csdn.net/hpul fc/article/details/80448570)从本质上讲和人类的选择性视觉注意力机制类似，核心目标是从众多信息中选择出对当前任务目标更关键的信息。现有技术中，基于注意力机制的文字识别方法目前主要采用Transformer模型(https://blog.csdn.net/longxinchen_ml/article/details/86533005)，此类方法有良好的可解释性，在复杂场景下具有更好的性能。

但是现有的基于注意力机制的深度学习模型具有两个缺陷：(1)由于注意力对特征图的关注区域有限，训练阶段没有得到关注的区域将在特征图中形成噪声区域。注意力模块产生的注意力容易被噪声区域干扰，无法很好的聚焦到文字所在区域，从而导致错误文字识别，即“注意力漂移”的问题；(2)待识别的文字经常具有较强的上下文关联性。现有技术中，仅采用正向识别解码，模型只能按照从前往后的顺序进行解码，使得先解码的字符往往缺乏上下文信息，当字符较难辨认时，先解码的字符容易出错。

发明内容

为了解决上述技术问题，本发明提供一种基于注意力机制的文字识别方法及其系统，通过在深度学习模型中，添加定制的损失函数对特征图提取进行加强，引入正向和反向的双向解码器对字符进行解码，使得模型的抗干扰力更强，减轻注意力偏移，字符解码的准确性更高。

本发明的技术方案一：

一种基于注意力机制的文字识别方法，包括如下步骤：

S1：构建文字识别模型，用于识别图像中的文字；所述文字识别模型由以下模块组成：

卷积神经网络，用于提取输入图像的特征图；

注意力机制模块，包括序列编码器、正向序列解码器和反向序列解码器，用于对所述特征图进行编码和解码处理，输出预测字符的特征向量；

字符解码层，用于将所述预测字符的特征向量编译为文字识别结果，同时将所述特征图编译为特征图字符概率向量；

S2:构建训练样本集，所述训练样本集包括训练图像和与所述训练图像对应的图像标注，其中，所述图像标注为所述训练图像所表示的真实文字信息；

S3:将训练样本集输入所述文字识别模型进行训练，训练使用的损失函数由所述正向序列解码器的交叉熵损失函数，所述反向序列解码器的交叉熵损失函数和特征图字符概率的损失函数三者进行加权求和得到，其中特征图字符概率的损失函数用于对所述特征图字符概率向量进行监督；

S4：将待识别的文字图像输入所述S3步骤中获得的训练后的文字识别模型中进行识别，在经过字符解码层以及softmax函数对所述文字识别结果概率归一化后，选取双向解码中置信度较高的分支作为预测结果。

所述S1步骤中，所述序列编码器接收所述特征图，获取图像全局信息并输出编码信息，所述全局信息为所述特征图中每一个像素点的特征信息；

所述正向序列解码器和所述反向序列解码器接收所述编码信息，分别进行正向和反向的解码，输出正向解码信息和反向解码信息，其中，所述正向序列解码器和所述反向序列解码器为Transformer网络结构。

所述S1步骤中，所述卷积神经网络包括多层卷积滤波器组和池化子模块，所述卷积滤波器组采用残差结构，所述字符解码层由多层神经网络全连接层构成，其中，所述多层卷积滤波器组提取图像特征，所述池化子模块改变特征图分辨率，所述卷积神经网络的输出是具有一定通道数目的特征图。

所述S2步骤中，构建训练样本集需要对训练图像进行预处理，所述预处理包括，调整所述训练图像的分辨率，设置长宽比，对所述训练图像进行随机平移、随机旋转和随机色彩调整。

所述S3步骤中，所述特征图字符概率的损失函数的计算方法为，先通过softmax函数计算所述特征图中每个像素点所代表的字符的概率向量，然后通过所有像素点的概率向量计算所述特征图中每个字符存在的概率，最后和所述图像标注计算交叉熵得到所述特征图字符概率的损失函数。

技术方案二：

一种基于注意力机制的文字识别系统，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

卷积神经网络，用于提取输入图像的特征图；

技术方案三

一种基于注意力机制的文字识别方法，包括以下步骤：

S1：构建文字识别模型，用于识别图像中的文字；所述文字识别模型由卷积神经网络、注意力机制模块、字符解码层组成，其中，所述注意力机制模块包括序列编码器、正向序列解码器和反向序列解码器。

S2：构建训练样本集；所述训练样本集包括训练图像和与所述训练图像对应的图像标注，其中，所述图像标注为所述训练图像所表示的真实文字信息。

S3：将所述训练图像输入待训练的所述文字识别模型中，所述卷积神经网络接收所述训练图像，提取并输出所述训练图像的特征图。

S4：所述注意力机制模块接收所述特征图信息并输出解码信息，所述解码信息包含表示字符的特征向量。

S5：所述字符解码层接收所述解码信息，并将解码信息映射成解码结果，其中，所述特征图信息和所述解码信息的类别为多维数据矩阵，所述解码信息包括正向解码信息和反向解码信息，所述解码结果为表征对应字符串的概率向量，所述解码结果包括正向解码结果和反向解码结果。

S6：所述字符解码层接收所述特征图，并将所述特征图映射为特征图字符概率向量，所述特征图字符概率向量通过特征图字符概率的损失函数进行监督。

S7：通过损失函数计算所述文字识别模型输出的所述解码结果与所述图像标注之间的差异损失，计算得到梯度，根据所述梯度来优化所述文字识别模型的网络结构参数，所述损失函数由所述正向序列解码器的交叉熵损失函数，所述反向序列解码器的交叉熵损失函数和特征图字符概率的损失函数三者进行加权求和得到。

其中，所述特征图字符概率的损失函数的具体计算公式为：

logp_k＝log(1-exp(log(1-p_k)-ε))；

是所述文字识别模型输出的特征图中(x,y)像素点对于字符集中的第k个字符的输出能量，Existe(k)是所述图像标注中是否存在第k个字符，C是需要识别的字符集合，|C|为取集合中元素的数量，ε是一个接近0的极小正值，logits_k为p_k经过sigmoid反函数得到的值，SEC为特征图字符概率的损失函数。

S8：重复步骤S3-S7，直至所述文字识别模型输出的解码信息与所述图像标注一致，从而得到经过训练的合格的所述文字识别模型。

S9：将待识别的文字图像输入S8步骤中获得的训练后的文字识别模型中进行识别，在经过字符解码层以及softmax函数对概率归一化后，选取双向解码中置信度较高的分支作为预测结果。

所述S4步骤具体为：

S41：所述序列编码器接收所述特征图，获取所述训练图像中的全局信息并输出编码信息，所述全局信息为所述特征图中每一个像素点的特征信息；

S42：所述正向序列解码器和所述反向序列解码器接收所述S41步骤输出的所述编码信息，分别进行正向和反向的解码，输出正向解码信息和反向解码信息，其中，所述正向序列解码器和所述反向序列解码器为Transformer网络结构。

采用ADADELTA作为优化器对所述文字识别模型进行优化。

本发明具有如下有益效果：

1、本发明的一种基于注意力机制的文字识别方法及系统，通过以卷积神经网络和基于注意力机制的语言学模块作为深度学习模型的主干，能够快速高效的对文字进行识别，模型自学能力强；

2、本发明的一种基于注意力机制的文字识别方法及系统，通过定制损失函数对特征图提取进行加强，引导模型在训练时学会区分前景和背景，使模型具有抵抗干扰的能力，从而达到为特征图去噪的目的，进而减轻注意力漂移；

3、本发明的一种基于注意力机制的文字识别方法及系统，在注意力机制模块中引入正向和反向的双向解码器，弥补了现有注意力机制方法中仅用正向解码使得字符上下文信息不充分的缺陷。引入双向解码器，可以选择置信度更高的解码结果，一定程度地避免模型因为先解码字符难以辨认而导致识别出错的缺陷。

附图说明

图1为本发明的一种基于注意力机制的文字识别方法的流程图；

图2为现有技术的基于注意力机制的文字识别方法的流程图；

图3为本发明的一种基于注意力机制的文字识别模型的网络结构示意图；

图4为本发明的一种基于注意力机制的文字识别模型的注意力机制模块的网络结构示意图；

图5为本发明的一种基于注意力机制的文字识别模型的卷积神经网络的结构示意图；

图6为本发明的一种基于注意力机制的文字识别方法的一个实施例的识别结果示意图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

如图1所示，一种基于注意力机制的文字识别方法，包括如下步骤：

卷积神经网络，用于提取输入图像的特征图；

实施例二

现有技术只采用正向解码，会出现第一个字符因为没有前字符进行辅助解码较为困难，本发明增加反向序列解码器，从字符串的尾部开始解码，互相弥补，提高解码的成功率。

如图3所示，所述卷积神经网络的结构中，Block1到Block5中均采用了残差结构。所述卷积神经网络中没有用pooling层，通过卷积网络的stride来缩小特征图。

所述字符解码层负责三线解码，三条输入的线参数共享，由若干层神经网络全连接层构成。其作用是将提取解码信息转化为解码结果。

预处理步骤中，调整分辨率和长宽比是为了统一训练图像的格式，便于模型进行学习。在本实施例中，如图4中的原图“footall”，其作为训练图像，原图为蓝底白字，经过预处理后，图像被设置为32像素高、100像素宽。所述图像标注分别为正向标注“football”和反向标注“llabtoof”。

另外，通过随机平移、随机旋转和随机色彩调整等手段对数据进行增强，可以在不增加原图拍摄工作量的基础上，增加训练样本集的图像数量，模拟不同条件下的图像样式。

如图4所示，将所述训练图像“football”输入所述卷积神经网络，经过多次卷积与池化，得到特征图，所述特征图的尺寸为8*64*256，即高为8，宽为64，每个像素点为256维的向量。

如图5所示，所述S4步骤具体为：

S41：所述序列编码器接收所述特征图，获取所述训练图像中的全局信息并输出编码信息，所述全局信息为所述特征图中每一个像素点的特征信息。

全局信息指是由所述序列编码器通过其独有的注意力机制，整合特征图中每一个像素点的特征所得到的信息。其具体内容会嵌入整个特征图。所以输出的编码信息是一个与特征图形状相同的高纬度数据矩阵。

所述特征图与全局信息皆是由网络学习得到的对图像的抽象概括。注意力机制使得网络可以聚焦于整个特征图的一个特定区域，从而试图识别该区域所代表的文字。但是具体所聚焦的区域仍是由学习得到，而非特定算法。

所述全局信息的主要作用是用于帮助判断注意力所聚焦区域对应的文字具体是输出的第几个字符。譬如当网络注意力聚焦于一张文字为“ABC”的图片的B时，网络不仅需要知道这个区域应该识别为B，还需要知道这个区域表示第二个字符。

本实施例中，所述序列编码器的输入输出维度为256，隐藏层神经元个数为256，多头注意力头数为4，堆叠层数为2，其中，输入所述序列编码器的特征图经过线性变换后，以两两点积的形式生成注意力，将注意力以softmax函数归一化后，分别获取所述特征图中每一个特征在输出中所占的权重，并根据权重，带权求和得到编码信息，该过程分多头并行执行。

softmax函数(https://baike.baidu.com/item/％E5％BD％92％E4％B8％80％E5％8C％96％E6％8C％87％E6％95％B0％E5％87％BD％E6％95％B0/22660782？fromtitle＝Softmax％E5％87％BD％E6％95％B0&fromid＝22772270)是作用于向量的数学函数，其在深度学习中常用于归一化概率，使得网络输出的所有可能的概率之和为1。

通过全局信息，注意力集中到“football”的8个字母上，并重点解析8个字母所处位置及其周边像素向量，所得到的编码信息是尺寸为8*64*256的高纬度数据矩阵，所述编码信息可以理解为一个机器自学习得到的中间语义向量，包括上下文的语义相关性，字符特征。

Transformer网络结构的输出与输入形式相同，是和所述特征图形状一样的多维度矩阵。区别在于：通过了全局信息的整合，输出的特征有更强的表达力，能更好地拟合复杂的图片-文字的映射关系，进而获得更好的模型性能。Transformer相当于构建了一个通道，使得特征图中每两个像素点都可以联系起来，因此在学习的过程中网络可以获取到整个特征图的信息，既全局信息。，

本实施例中，所述正向序列解码器和所述反向序列解码器的输入输出维度为256，隐藏层神经元个数为256，多头注意力头数为4，堆叠层数为1，其中，所述编码信息与已经预测的字符经过词嵌入后得到词向量，所述词向量经过线性变换后，以两两点积的形式生成注意力，将注意力以softmax函数归一化后，分别获取所述编码信息中每一个特征在输出中所占的权重，并根据权重，带权求和得到解码信息，该过程分多头并行执行。

所述表征“football”的8*64*256的高纬度数据矩阵分别输入至所述正向序列解码器和所述反向序列解码器进行解码，得到的解码信息同样为尺寸8*64*256的高纬度数据矩阵。所述解码信息可以理解为在当前位置上的像素点表示某个字符的概率，比如第3列，第7行的像素点为f的概率为0.91，为a的概率为0.001，但是实际中机器语言中不是这么表示的。

所述字符解码层接收所述解码信息，通过多个全连接层的计算，将表征“football”的8*64*256的高纬度数据矩阵映射成表征多个字符串数组的向量。其中正向解码结果中，“football”的置信度最高，为0.97，其他字符串还包括“fotball”，“footbaall”等。反向解码结果中，“llabtoof”的置信度最高，为0.971，其他字符串还包括“abtoof”，“labtoof”等

所述S6步骤对应流程图中的特征图监督分支，在特征图监督分支中，特征图中每个像素点直接被字符解码器解码成字符概率向量，并通过特征图字符概率的损失函数进行监督。

本实施例中，所述字符解码层将“football”的8*64*256的特征图映射为多个字符串数组，其中，“football”的置信度最高，为0.95。图4中给出解码后的特征图，可以理解为当前像素位置表示的字符。

本发明提出的特征图字符概率的损失函数，先通过softmax函数计算特征图中每个像素点所代表的字符的概率向量。然后通过所有像素点的概率向量计算整个特征图中每个字符存在的概率。最后和真实标注计算交叉熵得到最终的损失函数。

所述特征图字符概率的损失函数的具体计算公式为：

logp_k＝log(1-exp(log(1-p_k)-ε))；

深度学习中的模型训练过程是：先通过损失函数度量网络的输出与标注(标签，ground truth)之间的差异(损失,loss)，然后再试图将差异最小化，来优化网络中的各个参数。在OCR中，字符标注指的就是训练数据集中每张图片所对应的文本。

交叉熵(https://baike.baidu.com/item/％E4％BA％A4％E5％8F％89％E7％86％B5/8983241？fr＝aladdin)是一种常用的基于概率的损失函数，交叉熵可以来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小在计算正向和反向的损失时，虽然输入的训练图像相同，但标注不同。

本实施例中，计算的过程是，正向解码结果与交叉熵之间的差异，反向解码结果与交叉熵之间的差异，以及直接由字符解码层解码特征图得到的解码结果与特征图字符概率的损失函数之间的差异，进行加权求和，使得最终差异最小化。

在所述S8的训练步骤中，采用ADADELTA作为优化器对所述文字识别模型进行优化。本实施例中，ADADELTA的初始学习率设置为1，在所述损失函数趋于稳定后衰减置原先1/10，共衰减两次。

学习率是指导该如何通过损失函数的梯度调整网络权重的超参数。学习率越低，损失函数的变化速度就越慢。虽然使用低学习率可以确保不会错过任何局部极小值，但也意味着将花费更长的时间来进行收敛，特别是在被困在高原区域的情况下。

ADADELTA(https://zh.d2l.ai/chapter_optimization/adadelta.html)是一个算法也是一个用来优化的优化器的名称。它的作用是优化神经网络训练，动态设置学习速率。

所述置信度是所述序列解码器在进行字符预测时给出的，表征当前结果的可靠程度。

如图6所示，对一些自然场景中的英文文字进行识别的结果。第一栏给出待处理的输入图片以及真实文本信息，第二栏给出的是注意力机制预测的注意力中心以及识别的文本，第三栏给出的是相应的解码的特征图。

本发明的一种基于注意力机制的文字识别模型训练方法及识别方法，通过以卷积神经网络和基于注意力机制的语言学模块作为深度学习模型的主干，能够快速高效的对文字进行识别，模型自学能力强。通过定制损失函数对特征图提取进行加强，引导模型在训练时学会区分前景和背景，使模型具有抵抗干扰的能力，从而达到为特征图去噪的目的，进而减轻注意力漂移。在注意力机制模块中引入正向和反向的双向解码器，弥补了现有注意力机制方法中仅用正向解码使得字符上下文信息不充分的缺陷。引入双向解码器，可以选择置信度更高的解码结果，一定程度地避免模型因为先解码字符难以辨认而导致识别出错的缺陷。

实施例二

其中，所述特征图字符概率的损失函数的具体计算公式为：

logp_k＝log(1-exp(log(1-p_k)-ε))；

所述S4步骤具体为：

采用ADADELTA作为优化器对所述文字识别模型进行优化。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包含在本发明的专利保护范围内。

Claims

1.一种基于注意力机制的文字识别方法，其特征在于，包括如下步骤：

卷积神经网络，用于提取输入图像的特征图；

S2: 构建训练样本集，所述训练样本集包括训练图像和与所述训练图像对应的图像标注，其中，所述图像标注为所述训练图像所表示的真实文字信息；

S3: 将训练样本集输入所述文字识别模型进行训练，训练使用的损失函数由所述正向序列解码器的交叉熵损失函数，所述反向序列解码器的交叉熵损失函数和特征图字符概率的损失函数三者进行加权求和得到，其中特征图字符概率的损失函数用于对所述特征图字符概率向量进行监督；

2.根据权利要求1所述的一种基于注意力机制的文字识别方法，其特征在于，所述S1步骤中，所述序列编码器接收所述特征图，获取图像全局信息并输出编码信息，所述全局信息为所述特征图中每一个像素点的特征信息；

3.根据权利要求1所述的一种基于注意力机制的文字识别方法，其特征在于，所述S1步骤中，所述卷积神经网络包括多层卷积滤波器组和池化子模块，所述卷积滤波器组采用残差结构，所述字符解码层由多层神经网络全连接层构成，其中，所述多层卷积滤波器组提取图像特征，所述池化子模块改变特征图分辨率，所述卷积神经网络的输出是具有一定通道数目的特征图。

4.根据权利要求1所述的一种基于注意力机制的文字识别方法，其特征在于，所述S2步骤中，构建训练样本集需要对训练图像进行预处理，所述预处理包括，调整所述训练图像的分辨率，设置长宽比，对所述训练图像进行随机平移、随机旋转和随机色彩调整。

5.根据权利要求1所述的一种基于注意力机制的文字识别方法，其特征在于，所述S3步骤中，所述特征图字符概率的损失函数的计算方法为，先通过softmax函数计算所述特征图中每个像素点所代表的字符的概率向量，然后通过所有像素点的概率向量计算所述特征图中每个字符存在的概率，最后和所述图像标注计算交叉熵得到所述特征图字符概率的损失函数。

6.一种基于注意力机制的文字识别系统，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

卷积神经网络，用于提取输入图像的特征图；

7.根据权利要求6所述的一种基于注意力机制的文字识别系统，其特征在于，所述S1步骤中，所述序列编码器接收所述特征图，获取图像全局信息并输出编码信息，所述全局信息为所述特征图中每一个像素点的特征信息；

8.根据权利要求6所述的一种基于注意力机制的文字识别系统，其特征在于，所述S1步骤中，所述卷积神经网络包括多层卷积滤波器组和池化子模块，所述卷积滤波器组采用残差结构，所述字符解码层由多层神经网络全连接层构成，其中，所述多层卷积滤波器组提取图像特征，所述池化子模块改变特征图分辨率，所述卷积神经网络的输出是具有一定通道数目的特征图。

9.根据权利要求6所述的一种基于注意力机制的文字识别系统，其特征在于，所述S2步骤中，构建训练样本集需要对训练图像进行预处理，所述预处理包括，调整所述训练图像的分辨率，设置长宽比，对所述训练图像进行随机平移、随机旋转和随机色彩调整。

10.根据权利要求9所述的一种基于注意力机制的文字识别系统，其特征在于，所述S3步骤中，所述特征图字符概率的损失函数的计算方法为，先通过softmax函数计算所述特征图中每个像素点所代表的字符的概率向量，然后通过所有像素点的概率向量计算所述特征图中每个字符存在的概率，最后和所述图像标注计算交叉熵得到所述特征图字符概率的损失函数。