CN110765966A

CN110765966A - 一种面向手写文字的一阶段自动识别与翻译方法

Info

Publication number: CN110765966A
Application number: CN201911046777.0A
Authority: CN
Inventors: 苏统华; 周圣杰; 涂志莹; 王忠杰; 徐晓飞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-07
Anticipated expiration: 2039-10-30
Also published as: CN110765966B

Abstract

本发明公开了一种面向手写文字的一阶段自动识别与翻译方法，所述方法主要包含文本识别方法和端到端识别与翻译方法。该方法使用注意力机制代替CRNN中的RNN结构，使计算可以并行化，降低计算成本；在Transformer模型的训练过程中对解码器的输入做随机替换，模拟预测过程中预测出错的情况，缓解了过拟合问题；提出了一种端到端的识别与翻译模型，使用基于迁移学习的方式训练端到端模型，不需要显式给出识别结果，直接对图片内容做翻译。本发明具有如下优点：1、文本识别模型的训练速度大幅提高。2、训练阶段随机替换解码器输入，使得识别模型的泛化能力大幅提高。3、端到端识别与翻译模型的翻译准确率高于两阶段模型。

Description

一种面向手写文字的一阶段自动识别与翻译方法

技术领域

本发明涉及一种单阶段内完成从一种语种手写文字到另一语种的识别和翻译方法。

背景技术

目前手写识别与翻译方法包括如下几种方法：

(1)监督的深度学习方法：即先在训练集上训练好深度学习模型，在预测新样本时，使用训练好的模型做分类，如图1所示。图1的虚线上方为训练阶段，下方是预测阶段。

(2)文本行识别技术：系统输入为包含一个文本行的图片，输入为图片内容的字符串，如图2所示。该领域运用最广泛的是基于卷积神经网络+循环神经网络的框架，这种方法组合使用卷积神经网络(CNN)和循环神经网络(RNN)，模型称为CRNN。该方法首先用CNN提取图片的图像特征，将输入的多通道图片转换为特征序列，然后使用RNN处理特征序列，将特征序列转换为预测序列，最后对预测序列解码，得到最终的输出序列。

(3)机器翻译技术。图4为英-中机器翻译的例子。机器翻译的系统输入为源语言字符串，输出为目标语言字符串，如图3中，源语言为英文，目标语言为中文。

机器翻译目前流行的解决方案为基于深度注意力机制的Transformer模型，如图5所示。Transformer模型基于编码器-解码器框架，主体部分为一个编码器和一个解码器。编码器先将源语言句子通过字符嵌入，把每个字符变换为一个固定长度的向量，然后加上位置编码，经过一个多层的自注意力网络，得到隐层向量序列，这个隐层向量序列包含了输入句子的高层语言信息。解码器根据编码器输出的隐层向量序列，结合解码器本身的输出作为自身的输入，以自回归的方式预测目标句子中的每个字符。自回归预测的工作方式如图6所示。

比较相关的一个现有方法的系统总体架构如图7所示(Ihab Al-Khoury.ArabicText Recognition and Machine Translation.瓦伦西亚理工大学博士论文，2015)。系统主要分为两个部分，第一部分为识别系统，将输入图片识别为字符串。第二部分为翻译系统，将识别出来的阿拉伯语字符串翻译为英文译文。

现有技术存在如下缺点：

1、使用CRNN做文本识别，RNN和CTC的训练耗时长。RNN时间成本高的原因是每个时刻的隐层状态需要由上个时刻的隐层状态计算得出，本质上是一个串行的计算过程，而CTC时间成本高的原因是训练阶段需要用动态规划技术计算序列概率，计算前向变量和反向变量的过程也是串行的。

2、基于Encoder-Decoder框架的序列到序列模型，解码器训练阶段和预测阶段行为不一致，会导致过拟合问题。

3、基于两阶段方法(先识别后翻译)的识别与翻译系统不能避免识别错误对翻译结果造成的影响。

发明内容

针对现有技术存在的上述问题，本发明提供了一种面向手写文字的一阶段自动识别与翻译方法。该方法使用注意力机制代替CRNN中的RNN结构，使计算可以并行化，降低计算成本；在Transformer模型的训练过程中对解码器的输入做随机替换，模拟预测过程中预测出错的情况，缓解了过拟合问题；提出了一种端到端的识别与翻译模型，使用基于迁移学习的方式训练端到端模型，不需要显式给出识别结果，直接对图片内容做翻译。

本发明的目的是通过以下技术方案实现的：

一种面向手写文字的一阶段自动识别与翻译方法，包括如下步骤：

步骤一、文本识别

一、图片预处理

(1)图片大小缩放：

a、假设输入图片最大宽度为MaxWidth，最大高度为MaxHeight，将图片按长宽比缩放，使其宽度不大于MaxWidth且高度不大于MaxHeight；

b、假设图片宽度为Width，高度为Height，分别计算高度和宽度的缩放比：

c、比较高度和宽度的缩放比，选择较大的一个作为整个图片的缩放比，当图片本身的高度和宽度都小于最大高度和最大宽度时，不做缩放：

Rate＝max(1.0,max(Rate_height,Rate_width))；

d、计算缩放过后的高度和宽度：

e、将图片缩放为(NewHeight,NewWidth)大小；

(2)像素值归一化：

将原始像素值缩放到[0,1]区间，并且将白色背景变为黑色，计算公式为：

其中，p为图片中的任意像素值；

二、标签预处理

将标签字符串转换成整数序列，具体步骤如下：

(1)生成字符表，每个字符在字符表中都有唯一对应的整数id；

(2)根据字符表将原始训练数据中的标签中的每个字符替换为其对应的整数id，并且在为每个整数id序列最后加上特殊标识<EOS>对应的整数id；

三、训练模型

(1)训练模型由卷积神经网络和序列到序列模型构成，计算方法为多头注意力机制，多头注意力机制的公式为：

MultiheadAttention(Q,K,V)＝Concat(head₁,...,head_n)W^O；

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)；

式中：Q代表查询序列，K是键序列，V是值序列，dk是Q和K中每个向量的维度，W_i ^Q,W_i ^K,W_i ^V分别是第i个head对原始Q、K、V序列的线性变换矩阵，W^O是将所有head拼接后做线性变换的矩阵；Attention(Q,K,V)是一个函数，其作用是实现注意力机制，即对值序列V做加权和，其中权值由查询序列Q和键序列K的矩阵乘法算出，并且用softmax函数对权值做归一化操作。注意力机制在实际应用中，会实现为MultiheadAttention函数，也就是先对Q、K、V做n次独立的线性变换，然后利用上述Attention函数计算出head_i，最后将所有的head做拼接，再做一次线性变换(图11)。

(2)利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作，需要屏蔽的信息为查询序列和键序列中的自动补全的0，以及注意力矩阵的未来信息，其中：

屏蔽注意力矩阵的未来信息用下三角矩阵实现；

查询序列和键序列的屏蔽操作方法如下：首先对序列中的每个元素取绝对值，然后用tf.reduce_sum操作把序列的最后一维求和，得到形状为[N,T]的矩阵，这个矩阵中如果某个元素为0，就代表这个位置的向量是被自动补充的零向量，用这个掩码区分序列中的有用信息和无用的补全的0，用tf.tile操作把这个掩码堆叠成形状为[h*N,T,C/h]的张量，把张量中的非零元素替换为一个绝对值很大的负数，然后与查询向量或者键向量做逐元素相乘即可屏蔽相应信息；

(3)对注意力矩阵做softmax激活，如果是注意力矩阵左乘值序列，softmax对注意力矩阵的每一行做激活，如果是注意力矩阵右乘值序列，softmax对注意力矩阵的每一列做激活；

(4)把注意力矩阵和值序列做矩阵乘法，得到多头注意力层的输出值，输出值形状为[h*N,T,C/h]，将其恢复成[N,T,C]形状的张量；

四、预测

(1)将原始图片进行缩放、做像素值归一化；

(2)把图片输入到训练模型，做一次前向传播，获得神经网络的输出结果，若模型是CANN模型，输出值为对每一帧的预测，若模型是CNN-Transformer模型，以自回归的方式预测识别结果；

步骤二、端到端识别与翻译

一、预训练

(1)按照步骤一中的方法训练一个文本识别模型，根据步骤一的三中所述，文本识别模型拆分成一个卷积神经网络和一个序列到序列模型，如图15的左边所示，这里主要用到卷积神经网络及其训练好的权值；

(2)使用Transformer网络训练一个机器翻译模型，将机器翻译模型拆分为编码器和解码器，如图15的右边所示，这里主要用到解码器及其训练好的权值；

二、重组网络结构

在训练好的卷积神经网络和解码器中间插入一个序列到序列模型，得到重组后的网络结构，如图16所示，卷积神经网络对应图中的OCR_Encoder，解码器对应图中的MT_Decoder，特征转换器对应图中的Feature_Transformer；

三、调优

在端到端识别与翻译数据集上训练二、重组网络结构中所述的重组后的网络结构，其中卷积神经网络和解码器的权值是固定的，特征转换器的权值可训练，数据集的输入数据为图片，图片中包含一个手写文本行，标签为翻译后的文本行；

四、预测

将待识别与翻译的图片输入到训练好的网络模型中，做一次前向传播，将输出序列解码即可得到译文。

相比于现有技术，本发明具有如下优点：

1、文本识别模型的训练速度大幅提高。

2、训练阶段随机替换解码器输入，使得识别模型的泛化能力大幅提高。

3、端到端识别与翻译模型的翻译准确率高于两阶段模型。

附图说明

图1为深度学习模型的训练和预测；

图2为手写文本行识别；

图3为CRNN网络架构；

图4为机器翻译；

图5为Transformer模型；

图6为自回归预测；

图7为阿拉伯语识别与翻译系统框架；

图8为生成字符表流程图；

图9为CANN模型；

图10为CNN-Transformer模型；

图11为多头注意力机制的计算流程图；

图12为训练流程图；

图13为连接时序分类(CTC)贪心解码；

图14为两阶与端到端识别与翻译系统；

图15为预训练识别模型和翻译模型；

图16为重新组合网络结构；

图17为调优网络权值。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种面向手写文字的一阶段自动识别与翻译方法，所述方法主要包含两个方法：文本识别方法和端到端识别与翻译方法。

1、文本识别

(1)图片预处理。输入图片为灰度图，主要完成两项任务：图片大小缩放、像素值归一化。假设输入图片最大宽度为MaxWidth，最大高度为MaxHeight。将图片按长宽比缩放，使其宽度不大于MaxWidth并且高度不大于MaxHeight。假设图片宽度为Width，高度为Height，第一步分别计算高度和宽度的缩放比：

第二步比较高度和宽度的缩放比，选择较大的一个作为整个图片的缩放比，但是当图片本身的高度和宽度都小于最大高度和最大宽度时，不做缩放：

Rate＝max(1.0,max(Rate_height,Rate_width))。

第三步计算缩放过后的高度和宽度：

之后将图片缩放为(NewHeight,NewWidth)大小即可。

像素值归一化将原始像素值缩放到[0,1]区间，并且将白色背景变为黑色。计算公式为：

其中，p为图片中的任意像素值。

(2)标签预处理。主要任务是将标签字符串转换成整数序列。首先要生成字符表，流程如图8所示。该流程读取标注文件中的每一条数据的标签，并且将标签中的每个字符加入字母表中。注意字母表的数据类型是集合，重复的字符不会被加入到集合中，因此最终得到的字符表中的所有字符是不重复的，每个字符在字符表中都有唯一对应的整数id。生成字符表后，根据字符表将原始训练数据中的标签中的每个字符替换为其对应的整数id，并且在为每个整数id序列最后加上特殊标识<EOS>对应的整数id即可。

(3)训练模型

CANN模型如图9所示。CANN模型主要由一个卷积神经网络和若干层自注意力机制加全连接层组成。其中，卷积神经网络(图中的ConvNet Backbone)用于提取图片的空间特征，自注意力层用于提取序列特征，每个自注意力层后面跟了一个全连接层，用于整合多个头的特征。

本发明提出的CNN-Transformer模型是结合了计算机视觉领域常用的卷积神经网络和序列到序列模型，得到的一种新的识别模型，这种模型在训练时使用交叉熵(CrossEntropy)训练，不需要CTC训练时的前向反向操作，进一步提高了训练速度。解码器部分也使用了深度注意力机制，在训练数据中语言样本足够丰富的情况下，解码器部分可以学习到语言模型，这对于某些文本识别应用来说是有益的，CNN-Transformer模型结构如图10所示。该模型先将输入图片用一个卷积网络(Conv-backbone)提取图片特征，将图片转换为一个特征向量序列，剩下的部分与机器翻译中的Transformer模型一致，用自注意力机制处理输入特征向量序列，提取其中的序列信息，解码器使用注意力机制，以自回归的方式预测每一个字符，直到模型最终输出<EOS>标签或者输出序列达到最大长度。上述两个模型的核心计算方法为Multi-headAttenion，即多头注意力机制。多头注意力机制的公式为：

MultiheadAttention(Q,K,V)＝Concat(head₁,...,head_n)W^O；

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)；

式中：Q、K、V都是向量序列，Q代表查询序列，K是键序列，V是值序列，dk是Q和K中每个向量的维度。W_i ^Q,W_i ^K,W_i ^V分别是第i个head对原始Q、K、V序列的线性变换矩阵，W^O是将所有head拼接后做线性变换的矩阵，这些线性变化矩阵都是可以训练的权值。

上述两个模型可以用开源框架tensorflow实现。其中最核心的多头注意力机制的具体计算流程如图11所示。多头注意力层输入为三个张量Q,K,V，分别表示查询序列、键序列和值序列，每个张量的形状为[N,T,C]，其中N表示Batchsize，T表示序列长度，C表示向量维数。首先分别对三个张量做一次线性变换，然后对Q,K,V按照最后一维做分割，最后一维其实标识的就是每个向量，每个向量会被平均分成h份，这个h就是多头注意力层头的个数。这样就得到了三个长度为h的张量列表，列表中每个张量的形状为[N,T,C/h]。为了提高计算并行性，还要将每个张量列表合并成一个张量，指定合并到第一维，也就是说，得到的张量形状为[h*N,T,C/h]。接下来计算注意力矩阵A，也就是Q乘以K的转置。注意力矩阵A的形状为[h*N,T,T]。第一个T代表查询序列的长度，第二个T代表键序列的长度。计算注意力矩阵还要对A做缩放，把A中的所有元素除以C的平方根。

接下来是利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作。需要屏蔽的信息为查询序列和键序列中的自动补全的0，以及注意力矩阵的未来信息。屏蔽注意力矩阵的未来信息用下三角矩阵实现，前面已经提到过了。查询序列和键序列的屏蔽操作相对复杂一些。首先对序列中的每个元素取绝对值，然后用tf.reduce_sum操作把序列的最后一维求和，得到形状为[N,T]的矩阵，这个矩阵中如果某个元素为0，就代表这个位置的向量是被自动补充的零向量。因为如果一个向量中有非零元素，那么取绝对值之后再求和一定会得到大于0的数。用这个掩码就可以区分序列中的有用信息和无用的补全的0。此时需要用tf.tile操作把这个掩码堆叠成形状为[h*N,T,C/h]的张量，把张量中的非零元素替换为一个绝对值很大的负数(这样取指数之后会趋近于0)，然后与查询向量或者键向量做逐元素相乘即可屏蔽相应信息。

屏蔽完信息之后就可以对注意力矩阵做softmax激活了，这里的softmax对注意力矩阵的每一行做激活，因为是注意力矩阵左乘值序列，如果是注意力矩阵右乘值序列，那么需要对每一列做激活。最后把注意力矩阵和值序列做矩阵乘法，就可以得到多头注意力层的输出值。此时的输出值形状为[h*N,T,C/h]，需要将其恢复成[N,T,C]形状的张量，用tf.split和tf.concat操作，先按第一维分割成h份，然后按最后一维拼接。

训练模型使用加入了早停止机制的模型选择流程，如图12所示。该流程的具体流程如下：首先初始化当前最优验证集正确率best_acc和模型未优化累计轮数es_count为零。训练步数计数器step初始化为1。每执行一次计算图上的优化操作train_op，计数器step增加1，上述过程称为一次迭代。训练程序每迭代valid_step次，就会在验证集上评估当前模型的正确率Acc，如果当前模型的Acc比best_acc大，则更新best_acc为Acc，并且将es_count置零。否则es_count增加1，如果此时es_count超过了超参数中的早停止步数，则提前退出训练进程，否则继续进行训练，直到达到最大训练步数。

(4)预测。使用已经训练好的模型对图片文本行做识别。首先将原始图片按照(1)中所述的图片预处理方式缩放，做像素值归一化。然后把图片输入到模型，做一次前向传播，获得神经网络的输出结果。若模型是CANN模型，输出结果的贪心解码方式如图13所示。

神经网络的输出如第一行所示，输出值为对每一帧的预测。CTC贪心解码首先合并相邻的相同字符，然后去掉空白字符(-)，最后即可解码出完整的识别结果“Hello”。若模型是CNN-Transformer模型，则解码过程按照图6所示，以自回归的方式预测识别结果。

2、端到端识别与翻译。本发明识别与翻译系统的示意图如图14所示。

图中左边为两阶段方法，右边为端到端方法。两阶段方法结合文本识别系统与机器翻译系统实现文本识别与翻译，文本识别系统首先识别图片上的文本，把识别结果输入机器翻译系统，由机器翻译系统生成译文。端到端方法直接将图片输入到端到端识别与翻译系统，由端到端识别与翻译系统直接生成译文。

训练端到端识别与翻译模型分为以下三步。

第一步，预训练文本识别模型和一个机器翻译模型，得到一个能够图片转换为隐层向量序列的文本识别编码器，一个能够将字符串形式的源语言句子转换为隐层向量序列的机器翻译编码器，以及一个能够根据隐层向量序列生成目标语言句子的机器翻译解码器。如图15所示。

第二步，重新组合网络结构。这里可以直接丢弃机器翻译编码器，因为输入数据的形式已经由原来的字符串形式变成了图片，然后考虑将文本识别编码器和机器翻译解码器结合，实现端到端的文本识别与翻译。考虑到文本识别编码器的隐层向量序列和之前的机器翻译编码器输出的隐层向量序列分布不相同，这里加入一些自注意力层，重新提取由文本识别编码器输出的序列的特征，将其转换为机器翻译解码器能够处理的特征，我们可以把这一部分网络结构称为特征转换器。这一步骤示意图如图16所示。

第三步，调优网络权值。这一步在合成的训练数据上进行，需要处理的主要问题是调优哪一部分的权值。如果考虑调优整个网络的权值，也就是包含了文本识别编码器、特征转换器和机器翻译解码器的所有权值，由于训练数据较少，很容易产生过拟合现象。因此，可以考虑固定文本识别编码器和机器翻译解码器的权值。先随机初始化特征转换器的权值，然后在训练数据上训练这一部分权值。

调优网络权值如图17所示。这里使用了多任务学习的方式，通过识别解码器(OCR_Decoder)这个分支可以观察模型的识别效果，而最终模型的收敛效果通过分析翻译解码器(MT_Decoder)的输出结果得出。这里只有中间的特征转换器内部的权值是可训练的。注意到识别解码器这个分支只在训练中使用，预测阶段可以不使用这个分支，直接得到翻译结果。

表1给出了编码器卷积神经网络(Conv-bachbone)的具体结构。卷积神经网络基本设计原则是使用3×3卷积核，每次池化之后特征图数量翻倍，卷积操作的输入输出特征图大小不变。经过6次最大池化之后，图片高度变为1，此时可以把这个特征图转换成特征序列。

表1编码器卷积网络具体结构

表2给出了构建网络时用到的具体超参数。标签的最大长度为128，图片最大高度为64，最大宽度为2048。隐层单元数目、Attention层的分头数和编码器解码器的Attention层数目主要用于CANN模型和CNN-Transformer模型。为了避免解码器学习过强的语言模型，解码器只用一层多头注意力机制。

表2识别模型构建网络用到的超参数

训练程序用到的超参数如表3所示。其中：early_stop_num用于控制早停止机制，Sub_rate是用于缓解解码器训练/预测行为不一致的算法的超参数，决定了一个标签序列作为解码器输入时，被随机替换字符的比例。

表3训练程序用到的超参数

端到端识别与翻译模型中，用到的卷积神经网络与表1中给出的配置相同，翻译模型的编码器和解码器Attention层数均为6层，解码方式为自回归解码。

Claims

1.一种面向手写文字的一阶段自动识别与翻译方法，其特征在于所述方法包括如下步骤：

步骤一、文本识别

一、图片预处理

(1)图片大小缩放：

Rate＝max(1.0,max(Rate_height,Rate_width))；

d、计算缩放过后的高度和宽度：

e、将图片缩放为(NewHeight,NewWidth)大小；

(2)像素值归一化：

将原始像素值缩放到[0,1]区间，并且将白色背景变为黑色；

二、标签预处理

将标签字符串转换成整数序列；

三、训练模型

(1)训练模型由卷积神经网络和序列到序列模型构成，计算方法为多头注意力机制；

(2)利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作；

四、预测

(1)将原始图片进行缩放、做像素值归一化；

步骤二、端到端识别与翻译

一、预训练

(1)按照步骤一中的方法训练一个文本识别模型，根据步骤一的三中所述，文本识别模型拆分成一个卷积神经网络和一个序列到序列模型；

(2)使用Transformer网络训练一个机器翻译模型，将机器翻译模型拆分为编码器和解码器；

二、重组网络结构

在训练好的卷积神经网络和解码器中间插入一个序列到序列模型，得到重组后的网络结构；

三、调优

在端到端识别与翻译数据集上训练二、重组网络结构中所述的重组后的网络结构；

四、预测

2.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法，其特征在于所述像素值归一化的计算公式为：

其中，p为图片中的任意像素值。

3.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法，其特征在于所述将标签字符串转换成整数序列的具体步骤如下：

(2)根据字符表将原始训练数据中的标签中的每个字符替换为其对应的整数id，并且在为每个整数id序列最后加上特殊标识<EOS>对应的整数id。

4.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法，其特征在于所述多头注意力机制的公式为：

MultiheadAttention(Q,K,V)＝Concat(head₁,...,head_n)W^O；

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)；

式中：Q代表查询序列，K是键序列，V是值序列，dk是Q和K中每个向量的维度，W_i ^Q,W_i ^K,W_i ^V分别是第i个head对原始Q、K、V序列的线性变换矩阵，W^O是将所有head拼接后做线性变换的矩阵。

5.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法，其特征在于所述屏蔽的信息为查询序列和键序列中的自动补全的0，以及注意力矩阵的未来信息。

6.根据权利要求5所述的面向手写文字的一阶段自动识别与翻译方法，其特征在于所述屏蔽注意力矩阵的未来信息用下三角矩阵实现。

7.根据权利要求5所述的面向手写文字的一阶段自动识别与翻译方法，其特征在于所述查询序列和键序列的屏蔽操作方法如下：首先对序列中的每个元素取绝对值，然后用tf.reduce_sum操作把序列的最后一维求和，得到形状为[N,T]的矩阵，这个矩阵中如果某个元素为0，就代表这个位置的向量是被自动补充的零向量，用这个掩码区分序列中的有用信息和无用的补全的0，用tf.tile操作把这个掩码堆叠成形状为[h*N,T,C/h]的张量，把张量中的非零元素替换为一个绝对值很大的负数，然后与查询向量或者键向量做逐元素相乘即可屏蔽相应信息。