CN110765966A - 一种面向手写文字的一阶段自动识别与翻译方法 - Google Patents

一种面向手写文字的一阶段自动识别与翻译方法 Download PDF

Info

Publication number
CN110765966A
CN110765966A CN201911046777.0A CN201911046777A CN110765966A CN 110765966 A CN110765966 A CN 110765966A CN 201911046777 A CN201911046777 A CN 201911046777A CN 110765966 A CN110765966 A CN 110765966A
Authority
CN
China
Prior art keywords
sequence
model
picture
translation
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911046777.0A
Other languages
English (en)
Other versions
CN110765966B (zh
Inventor
苏统华
周圣杰
涂志莹
王忠杰
徐晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201911046777.0A priority Critical patent/CN110765966B/zh
Publication of CN110765966A publication Critical patent/CN110765966A/zh
Application granted granted Critical
Publication of CN110765966B publication Critical patent/CN110765966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • G06V40/33Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向手写文字的一阶段自动识别与翻译方法,所述方法主要包含文本识别方法和端到端识别与翻译方法。该方法使用注意力机制代替CRNN中的RNN结构,使计算可以并行化,降低计算成本;在Transformer模型的训练过程中对解码器的输入做随机替换,模拟预测过程中预测出错的情况,缓解了过拟合问题;提出了一种端到端的识别与翻译模型,使用基于迁移学习的方式训练端到端模型,不需要显式给出识别结果,直接对图片内容做翻译。本发明具有如下优点:1、文本识别模型的训练速度大幅提高。2、训练阶段随机替换解码器输入,使得识别模型的泛化能力大幅提高。3、端到端识别与翻译模型的翻译准确率高于两阶段模型。

Description

一种面向手写文字的一阶段自动识别与翻译方法
技术领域
本发明涉及一种单阶段内完成从一种语种手写文字到另一语种的识别和翻译方法。
背景技术
目前手写识别与翻译方法包括如下几种方法:
(1)监督的深度学习方法:即先在训练集上训练好深度学习模型,在预测新样本时,使用训练好的模型做分类,如图1所示。图1的虚线上方为训练阶段,下方是预测阶段。
(2)文本行识别技术:系统输入为包含一个文本行的图片,输入为图片内容的字符串,如图2所示。该领域运用最广泛的是基于卷积神经网络+循环神经网络的框架,这种方法组合使用卷积神经网络(CNN)和循环神经网络(RNN),模型称为CRNN。该方法首先用CNN提取图片的图像特征,将输入的多通道图片转换为特征序列,然后使用RNN处理特征序列,将特征序列转换为预测序列,最后对预测序列解码,得到最终的输出序列。
(3)机器翻译技术。图4为英-中机器翻译的例子。机器翻译的系统输入为源语言字符串,输出为目标语言字符串,如图3中,源语言为英文,目标语言为中文。
机器翻译目前流行的解决方案为基于深度注意力机制的Transformer模型,如图5所示。Transformer模型基于编码器-解码器框架,主体部分为一个编码器和一个解码器。编码器先将源语言句子通过字符嵌入,把每个字符变换为一个固定长度的向量,然后加上位置编码,经过一个多层的自注意力网络,得到隐层向量序列,这个隐层向量序列包含了输入句子的高层语言信息。解码器根据编码器输出的隐层向量序列,结合解码器本身的输出作为自身的输入,以自回归的方式预测目标句子中的每个字符。自回归预测的工作方式如图6所示。
比较相关的一个现有方法的系统总体架构如图7所示(Ihab Al-Khoury.ArabicText Recognition and Machine Translation.瓦伦西亚理工大学博士论文,2015)。系统主要分为两个部分,第一部分为识别系统,将输入图片识别为字符串。第二部分为翻译系统,将识别出来的阿拉伯语字符串翻译为英文译文。
现有技术存在如下缺点:
1、使用CRNN做文本识别,RNN和CTC的训练耗时长。RNN时间成本高的原因是每个时刻的隐层状态需要由上个时刻的隐层状态计算得出,本质上是一个串行的计算过程,而CTC时间成本高的原因是训练阶段需要用动态规划技术计算序列概率,计算前向变量和反向变量的过程也是串行的。
2、基于Encoder-Decoder框架的序列到序列模型,解码器训练阶段和预测阶段行为不一致,会导致过拟合问题。
3、基于两阶段方法(先识别后翻译)的识别与翻译系统不能避免识别错误对翻译结果造成的影响。
发明内容
针对现有技术存在的上述问题,本发明提供了一种面向手写文字的一阶段自动识别与翻译方法。该方法使用注意力机制代替CRNN中的RNN结构,使计算可以并行化,降低计算成本;在Transformer模型的训练过程中对解码器的输入做随机替换,模拟预测过程中预测出错的情况,缓解了过拟合问题;提出了一种端到端的识别与翻译模型,使用基于迁移学习的方式训练端到端模型,不需要显式给出识别结果,直接对图片内容做翻译。
本发明的目的是通过以下技术方案实现的:
一种面向手写文字的一阶段自动识别与翻译方法,包括如下步骤:
步骤一、文本识别
一、图片预处理
(1)图片大小缩放:
a、假设输入图片最大宽度为MaxWidth,最大高度为MaxHeight,将图片按长宽比缩放,使其宽度不大于MaxWidth且高度不大于MaxHeight;
b、假设图片宽度为Width,高度为Height,分别计算高度和宽度的缩放比:
Figure BDA0002254301080000031
Figure BDA0002254301080000041
c、比较高度和宽度的缩放比,选择较大的一个作为整个图片的缩放比,当图片本身的高度和宽度都小于最大高度和最大宽度时,不做缩放:
Rate=max(1.0,max(Rateheight,Ratewidth));
d、计算缩放过后的高度和宽度:
Figure BDA0002254301080000042
Figure BDA0002254301080000043
e、将图片缩放为(NewHeight,NewWidth)大小;
(2)像素值归一化:
将原始像素值缩放到[0,1]区间,并且将白色背景变为黑色,计算公式为:
其中,p为图片中的任意像素值;
二、标签预处理
将标签字符串转换成整数序列,具体步骤如下:
(1)生成字符表,每个字符在字符表中都有唯一对应的整数id;
(2)根据字符表将原始训练数据中的标签中的每个字符替换为其对应的整数id,并且在为每个整数id序列最后加上特殊标识<EOS>对应的整数id;
三、训练模型
(1)训练模型由卷积神经网络和序列到序列模型构成,计算方法为多头注意力机制,多头注意力机制的公式为:
Figure BDA0002254301080000051
MultiheadAttention(Q,K,V)=Concat(head1,...,headn)WO
headi=Attention(QWi Q,KWi K,VWi V);
式中:Q代表查询序列,K是键序列,V是值序列,dk是Q和K中每个向量的维度,Wi Q,Wi K,Wi V分别是第i个head对原始Q、K、V序列的线性变换矩阵,WO是将所有head拼接后做线性变换的矩阵;Attention(Q,K,V)是一个函数,其作用是实现注意力机制,即对值序列V做加权和,其中权值由查询序列Q和键序列K的矩阵乘法算出,并且用softmax函数对权值做归一化操作。注意力机制在实际应用中,会实现为MultiheadAttention函数,也就是先对Q、K、V做n次独立的线性变换,然后利用上述Attention函数计算出headi,最后将所有的head做拼接,再做一次线性变换(图11)。
(2)利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作,需要屏蔽的信息为查询序列和键序列中的自动补全的0,以及注意力矩阵的未来信息,其中:
屏蔽注意力矩阵的未来信息用下三角矩阵实现;
查询序列和键序列的屏蔽操作方法如下:首先对序列中的每个元素取绝对值,然后用tf.reduce_sum操作把序列的最后一维求和,得到形状为[N,T]的矩阵,这个矩阵中如果某个元素为0,就代表这个位置的向量是被自动补充的零向量,用这个掩码区分序列中的有用信息和无用的补全的0,用tf.tile操作把这个掩码堆叠成形状为[h*N,T,C/h]的张量,把张量中的非零元素替换为一个绝对值很大的负数,然后与查询向量或者键向量做逐元素相乘即可屏蔽相应信息;
(3)对注意力矩阵做softmax激活,如果是注意力矩阵左乘值序列,softmax对注意力矩阵的每一行做激活,如果是注意力矩阵右乘值序列,softmax对注意力矩阵的每一列做激活;
(4)把注意力矩阵和值序列做矩阵乘法,得到多头注意力层的输出值,输出值形状为[h*N,T,C/h],将其恢复成[N,T,C]形状的张量;
四、预测
(1)将原始图片进行缩放、做像素值归一化;
(2)把图片输入到训练模型,做一次前向传播,获得神经网络的输出结果,若模型是CANN模型,输出值为对每一帧的预测,若模型是CNN-Transformer模型,以自回归的方式预测识别结果;
步骤二、端到端识别与翻译
一、预训练
(1)按照步骤一中的方法训练一个文本识别模型,根据步骤一的三中所述,文本识别模型拆分成一个卷积神经网络和一个序列到序列模型,如图15的左边所示,这里主要用到卷积神经网络及其训练好的权值;
(2)使用Transformer网络训练一个机器翻译模型,将机器翻译模型拆分为编码器和解码器,如图15的右边所示,这里主要用到解码器及其训练好的权值;
二、重组网络结构
在训练好的卷积神经网络和解码器中间插入一个序列到序列模型,得到重组后的网络结构,如图16所示,卷积神经网络对应图中的OCR_Encoder,解码器对应图中的MT_Decoder,特征转换器对应图中的Feature_Transformer;
三、调优
在端到端识别与翻译数据集上训练二、重组网络结构中所述的重组后的网络结构,其中卷积神经网络和解码器的权值是固定的,特征转换器的权值可训练,数据集的输入数据为图片,图片中包含一个手写文本行,标签为翻译后的文本行;
四、预测
将待识别与翻译的图片输入到训练好的网络模型中,做一次前向传播,将输出序列解码即可得到译文。
相比于现有技术,本发明具有如下优点:
1、文本识别模型的训练速度大幅提高。
2、训练阶段随机替换解码器输入,使得识别模型的泛化能力大幅提高。
3、端到端识别与翻译模型的翻译准确率高于两阶段模型。
附图说明
图1为深度学习模型的训练和预测;
图2为手写文本行识别;
图3为CRNN网络架构;
图4为机器翻译;
图5为Transformer模型;
图6为自回归预测;
图7为阿拉伯语识别与翻译系统框架;
图8为生成字符表流程图;
图9为CANN模型;
图10为CNN-Transformer模型;
图11为多头注意力机制的计算流程图;
图12为训练流程图;
图13为连接时序分类(CTC)贪心解码;
图14为两阶与端到端识别与翻译系统;
图15为预训练识别模型和翻译模型;
图16为重新组合网络结构;
图17为调优网络权值。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种面向手写文字的一阶段自动识别与翻译方法,所述方法主要包含两个方法:文本识别方法和端到端识别与翻译方法。
1、文本识别
(1)图片预处理。输入图片为灰度图,主要完成两项任务:图片大小缩放、像素值归一化。假设输入图片最大宽度为MaxWidth,最大高度为MaxHeight。将图片按长宽比缩放,使其宽度不大于MaxWidth并且高度不大于MaxHeight。假设图片宽度为Width,高度为Height,第一步分别计算高度和宽度的缩放比:
Figure BDA0002254301080000091
Figure BDA0002254301080000092
第二步比较高度和宽度的缩放比,选择较大的一个作为整个图片的缩放比,但是当图片本身的高度和宽度都小于最大高度和最大宽度时,不做缩放:
Rate=max(1.0,max(Rateheight,Ratewidth))。
第三步计算缩放过后的高度和宽度:
Figure BDA0002254301080000093
Figure BDA0002254301080000094
之后将图片缩放为(NewHeight,NewWidth)大小即可。
像素值归一化将原始像素值缩放到[0,1]区间,并且将白色背景变为黑色。计算公式为:
Figure BDA0002254301080000095
其中,p为图片中的任意像素值。
(2)标签预处理。主要任务是将标签字符串转换成整数序列。首先要生成字符表,流程如图8所示。该流程读取标注文件中的每一条数据的标签,并且将标签中的每个字符加入字母表中。注意字母表的数据类型是集合,重复的字符不会被加入到集合中,因此最终得到的字符表中的所有字符是不重复的,每个字符在字符表中都有唯一对应的整数id。生成字符表后,根据字符表将原始训练数据中的标签中的每个字符替换为其对应的整数id,并且在为每个整数id序列最后加上特殊标识<EOS>对应的整数id即可。
(3)训练模型
CANN模型如图9所示。CANN模型主要由一个卷积神经网络和若干层自注意力机制加全连接层组成。其中,卷积神经网络(图中的ConvNet Backbone)用于提取图片的空间特征,自注意力层用于提取序列特征,每个自注意力层后面跟了一个全连接层,用于整合多个头的特征。
本发明提出的CNN-Transformer模型是结合了计算机视觉领域常用的卷积神经网络和序列到序列模型,得到的一种新的识别模型,这种模型在训练时使用交叉熵(CrossEntropy)训练,不需要CTC训练时的前向反向操作,进一步提高了训练速度。解码器部分也使用了深度注意力机制,在训练数据中语言样本足够丰富的情况下,解码器部分可以学习到语言模型,这对于某些文本识别应用来说是有益的,CNN-Transformer模型结构如图10所示。该模型先将输入图片用一个卷积网络(Conv-backbone)提取图片特征,将图片转换为一个特征向量序列,剩下的部分与机器翻译中的Transformer模型一致,用自注意力机制处理输入特征向量序列,提取其中的序列信息,解码器使用注意力机制,以自回归的方式预测每一个字符,直到模型最终输出<EOS>标签或者输出序列达到最大长度。上述两个模型的核心计算方法为Multi-headAttenion,即多头注意力机制。多头注意力机制的公式为:
MultiheadAttention(Q,K,V)=Concat(head1,...,headn)WO
headi=Attention(QWi Q,KWi K,VWi V);
式中:Q、K、V都是向量序列,Q代表查询序列,K是键序列,V是值序列,dk是Q和K中每个向量的维度。Wi Q,Wi K,Wi V分别是第i个head对原始Q、K、V序列的线性变换矩阵,WO是将所有head拼接后做线性变换的矩阵,这些线性变化矩阵都是可以训练的权值。
上述两个模型可以用开源框架tensorflow实现。其中最核心的多头注意力机制的具体计算流程如图11所示。多头注意力层输入为三个张量Q,K,V,分别表示查询序列、键序列和值序列,每个张量的形状为[N,T,C],其中N表示Batchsize,T表示序列长度,C表示向量维数。首先分别对三个张量做一次线性变换,然后对Q,K,V按照最后一维做分割,最后一维其实标识的就是每个向量,每个向量会被平均分成h份,这个h就是多头注意力层头的个数。这样就得到了三个长度为h的张量列表,列表中每个张量的形状为[N,T,C/h]。为了提高计算并行性,还要将每个张量列表合并成一个张量,指定合并到第一维,也就是说,得到的张量形状为[h*N,T,C/h]。接下来计算注意力矩阵A,也就是Q乘以K的转置。注意力矩阵A的形状为[h*N,T,T]。第一个T代表查询序列的长度,第二个T代表键序列的长度。计算注意力矩阵还要对A做缩放,把A中的所有元素除以C的平方根。
接下来是利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作。需要屏蔽的信息为查询序列和键序列中的自动补全的0,以及注意力矩阵的未来信息。屏蔽注意力矩阵的未来信息用下三角矩阵实现,前面已经提到过了。查询序列和键序列的屏蔽操作相对复杂一些。首先对序列中的每个元素取绝对值,然后用tf.reduce_sum操作把序列的最后一维求和,得到形状为[N,T]的矩阵,这个矩阵中如果某个元素为0,就代表这个位置的向量是被自动补充的零向量。因为如果一个向量中有非零元素,那么取绝对值之后再求和一定会得到大于0的数。用这个掩码就可以区分序列中的有用信息和无用的补全的0。此时需要用tf.tile操作把这个掩码堆叠成形状为[h*N,T,C/h]的张量,把张量中的非零元素替换为一个绝对值很大的负数(这样取指数之后会趋近于0),然后与查询向量或者键向量做逐元素相乘即可屏蔽相应信息。
屏蔽完信息之后就可以对注意力矩阵做softmax激活了,这里的softmax对注意力矩阵的每一行做激活,因为是注意力矩阵左乘值序列,如果是注意力矩阵右乘值序列,那么需要对每一列做激活。最后把注意力矩阵和值序列做矩阵乘法,就可以得到多头注意力层的输出值。此时的输出值形状为[h*N,T,C/h],需要将其恢复成[N,T,C]形状的张量,用tf.split和tf.concat操作,先按第一维分割成h份,然后按最后一维拼接。
训练模型使用加入了早停止机制的模型选择流程,如图12所示。该流程的具体流程如下:首先初始化当前最优验证集正确率best_acc和模型未优化累计轮数es_count为零。训练步数计数器step初始化为1。每执行一次计算图上的优化操作train_op,计数器step增加1,上述过程称为一次迭代。训练程序每迭代valid_step次,就会在验证集上评估当前模型的正确率Acc,如果当前模型的Acc比best_acc大,则更新best_acc为Acc,并且将es_count置零。否则es_count增加1,如果此时es_count超过了超参数中的早停止步数,则提前退出训练进程,否则继续进行训练,直到达到最大训练步数。
(4)预测。使用已经训练好的模型对图片文本行做识别。首先将原始图片按照(1)中所述的图片预处理方式缩放,做像素值归一化。然后把图片输入到模型,做一次前向传播,获得神经网络的输出结果。若模型是CANN模型,输出结果的贪心解码方式如图13所示。
神经网络的输出如第一行所示,输出值为对每一帧的预测。CTC贪心解码首先合并相邻的相同字符,然后去掉空白字符(-),最后即可解码出完整的识别结果“Hello”。若模型是CNN-Transformer模型,则解码过程按照图6所示,以自回归的方式预测识别结果。
2、端到端识别与翻译。本发明识别与翻译系统的示意图如图14所示。
图中左边为两阶段方法,右边为端到端方法。两阶段方法结合文本识别系统与机器翻译系统实现文本识别与翻译,文本识别系统首先识别图片上的文本,把识别结果输入机器翻译系统,由机器翻译系统生成译文。端到端方法直接将图片输入到端到端识别与翻译系统,由端到端识别与翻译系统直接生成译文。
训练端到端识别与翻译模型分为以下三步。
第一步,预训练文本识别模型和一个机器翻译模型,得到一个能够图片转换为隐层向量序列的文本识别编码器,一个能够将字符串形式的源语言句子转换为隐层向量序列的机器翻译编码器,以及一个能够根据隐层向量序列生成目标语言句子的机器翻译解码器。如图15所示。
第二步,重新组合网络结构。这里可以直接丢弃机器翻译编码器,因为输入数据的形式已经由原来的字符串形式变成了图片,然后考虑将文本识别编码器和机器翻译解码器结合,实现端到端的文本识别与翻译。考虑到文本识别编码器的隐层向量序列和之前的机器翻译编码器输出的隐层向量序列分布不相同,这里加入一些自注意力层,重新提取由文本识别编码器输出的序列的特征,将其转换为机器翻译解码器能够处理的特征,我们可以把这一部分网络结构称为特征转换器。这一步骤示意图如图16所示。
第三步,调优网络权值。这一步在合成的训练数据上进行,需要处理的主要问题是调优哪一部分的权值。如果考虑调优整个网络的权值,也就是包含了文本识别编码器、特征转换器和机器翻译解码器的所有权值,由于训练数据较少,很容易产生过拟合现象。因此,可以考虑固定文本识别编码器和机器翻译解码器的权值。先随机初始化特征转换器的权值,然后在训练数据上训练这一部分权值。
调优网络权值如图17所示。这里使用了多任务学习的方式,通过识别解码器(OCR_Decoder)这个分支可以观察模型的识别效果,而最终模型的收敛效果通过分析翻译解码器(MT_Decoder)的输出结果得出。这里只有中间的特征转换器内部的权值是可训练的。注意到识别解码器这个分支只在训练中使用,预测阶段可以不使用这个分支,直接得到翻译结果。
表1给出了编码器卷积神经网络(Conv-bachbone)的具体结构。卷积神经网络基本设计原则是使用3×3卷积核,每次池化之后特征图数量翻倍,卷积操作的输入输出特征图大小不变。经过6次最大池化之后,图片高度变为1,此时可以把这个特征图转换成特征序列。
表1编码器卷积网络具体结构
Figure BDA0002254301080000151
表2给出了构建网络时用到的具体超参数。标签的最大长度为128,图片最大高度为64,最大宽度为2048。隐层单元数目、Attention层的分头数和编码器解码器的Attention层数目主要用于CANN模型和CNN-Transformer模型。为了避免解码器学习过强的语言模型,解码器只用一层多头注意力机制。
表2识别模型构建网络用到的超参数
Figure BDA0002254301080000152
Figure BDA0002254301080000161
训练程序用到的超参数如表3所示。其中:early_stop_num用于控制早停止机制,Sub_rate是用于缓解解码器训练/预测行为不一致的算法的超参数,决定了一个标签序列作为解码器输入时,被随机替换字符的比例。
表3训练程序用到的超参数
Figure BDA0002254301080000162
端到端识别与翻译模型中,用到的卷积神经网络与表1中给出的配置相同,翻译模型的编码器和解码器Attention层数均为6层,解码方式为自回归解码。

Claims (7)

1.一种面向手写文字的一阶段自动识别与翻译方法,其特征在于所述方法包括如下步骤:
步骤一、文本识别
一、图片预处理
(1)图片大小缩放:
a、假设输入图片最大宽度为MaxWidth,最大高度为MaxHeight,将图片按长宽比缩放,使其宽度不大于MaxWidth且高度不大于MaxHeight;
b、假设图片宽度为Width,高度为Height,分别计算高度和宽度的缩放比:
Figure FDA0002254301070000011
c、比较高度和宽度的缩放比,选择较大的一个作为整个图片的缩放比,当图片本身的高度和宽度都小于最大高度和最大宽度时,不做缩放:
Rate=max(1.0,max(Rateheight,Ratewidth));
d、计算缩放过后的高度和宽度:
Figure FDA0002254301070000013
Figure FDA0002254301070000014
e、将图片缩放为(NewHeight,NewWidth)大小;
(2)像素值归一化:
将原始像素值缩放到[0,1]区间,并且将白色背景变为黑色;
二、标签预处理
将标签字符串转换成整数序列;
三、训练模型
(1)训练模型由卷积神经网络和序列到序列模型构成,计算方法为多头注意力机制;
(2)利用掩码对查询序列、键序列和注意力矩阵做屏蔽操作;
四、预测
(1)将原始图片进行缩放、做像素值归一化;
(2)把图片输入到训练模型,做一次前向传播,获得神经网络的输出结果,若模型是CANN模型,输出值为对每一帧的预测,若模型是CNN-Transformer模型,以自回归的方式预测识别结果;
步骤二、端到端识别与翻译
一、预训练
(1)按照步骤一中的方法训练一个文本识别模型,根据步骤一的三中所述,文本识别模型拆分成一个卷积神经网络和一个序列到序列模型;
(2)使用Transformer网络训练一个机器翻译模型,将机器翻译模型拆分为编码器和解码器;
(3)对注意力矩阵做softmax激活,如果是注意力矩阵左乘值序列,softmax对注意力矩阵的每一行做激活,如果是注意力矩阵右乘值序列,softmax对注意力矩阵的每一列做激活;
(4)把注意力矩阵和值序列做矩阵乘法,得到多头注意力层的输出值,输出值形状为[h*N,T,C/h],将其恢复成[N,T,C]形状的张量;
二、重组网络结构
在训练好的卷积神经网络和解码器中间插入一个序列到序列模型,得到重组后的网络结构;
三、调优
在端到端识别与翻译数据集上训练二、重组网络结构中所述的重组后的网络结构;
四、预测
将待识别与翻译的图片输入到训练好的网络模型中,做一次前向传播,将输出序列解码即可得到译文。
2.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述像素值归一化的计算公式为:
其中,p为图片中的任意像素值。
3.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述将标签字符串转换成整数序列的具体步骤如下:
(1)生成字符表,每个字符在字符表中都有唯一对应的整数id;
(2)根据字符表将原始训练数据中的标签中的每个字符替换为其对应的整数id,并且在为每个整数id序列最后加上特殊标识<EOS>对应的整数id。
4.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述多头注意力机制的公式为:
Figure FDA0002254301070000041
MultiheadAttention(Q,K,V)=Concat(head1,...,headn)WO
headi=Attention(QWi Q,KWi K,VWi V);
式中:Q代表查询序列,K是键序列,V是值序列,dk是Q和K中每个向量的维度,Wi Q,Wi K,Wi V分别是第i个head对原始Q、K、V序列的线性变换矩阵,WO是将所有head拼接后做线性变换的矩阵。
5.根据权利要求1所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述屏蔽的信息为查询序列和键序列中的自动补全的0,以及注意力矩阵的未来信息。
6.根据权利要求5所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述屏蔽注意力矩阵的未来信息用下三角矩阵实现。
7.根据权利要求5所述的面向手写文字的一阶段自动识别与翻译方法,其特征在于所述查询序列和键序列的屏蔽操作方法如下:首先对序列中的每个元素取绝对值,然后用tf.reduce_sum操作把序列的最后一维求和,得到形状为[N,T]的矩阵,这个矩阵中如果某个元素为0,就代表这个位置的向量是被自动补充的零向量,用这个掩码区分序列中的有用信息和无用的补全的0,用tf.tile操作把这个掩码堆叠成形状为[h*N,T,C/h]的张量,把张量中的非零元素替换为一个绝对值很大的负数,然后与查询向量或者键向量做逐元素相乘即可屏蔽相应信息。
CN201911046777.0A 2019-10-30 2019-10-30 一种面向手写文字的一阶段自动识别与翻译方法 Active CN110765966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046777.0A CN110765966B (zh) 2019-10-30 2019-10-30 一种面向手写文字的一阶段自动识别与翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046777.0A CN110765966B (zh) 2019-10-30 2019-10-30 一种面向手写文字的一阶段自动识别与翻译方法

Publications (2)

Publication Number Publication Date
CN110765966A true CN110765966A (zh) 2020-02-07
CN110765966B CN110765966B (zh) 2022-03-25

Family

ID=69333206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046777.0A Active CN110765966B (zh) 2019-10-30 2019-10-30 一种面向手写文字的一阶段自动识别与翻译方法

Country Status (1)

Country Link
CN (1) CN110765966B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402012A (zh) * 2020-06-03 2020-07-10 江苏省质量和标准化研究院 一种基于迁移学习的电商缺陷产品识别方法
CN111428750A (zh) * 2020-02-20 2020-07-17 商汤国际私人有限公司 一种文本识别模型训练及文本识别方法、装置及介质
CN111507328A (zh) * 2020-04-13 2020-08-07 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、系统、设备及可读存储介质
CN111950302A (zh) * 2020-08-20 2020-11-17 上海携旅信息技术有限公司 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质
CN112001394A (zh) * 2020-07-13 2020-11-27 上海翎腾智能科技有限公司 基于ai视觉下的听写交互方法、系统、装置
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN112101348A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 多语种端到端ocr算法及系统
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113128113A (zh) * 2021-04-14 2021-07-16 国网上海市电力公司 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法
CN113159053A (zh) * 2021-04-27 2021-07-23 北京有竹居网络技术有限公司 图像识别方法、装置及计算设备
WO2021147569A1 (zh) * 2020-08-27 2021-07-29 平安科技(深圳)有限公司 基于神经网络的文字识别方法、装置及可读存储介质
CN113343011A (zh) * 2021-06-19 2021-09-03 哈尔滨工业大学 一种基于两阶段注意力的多模态信息机器翻译方法
WO2021212652A1 (zh) * 2020-04-23 2021-10-28 平安国际智慧城市科技股份有限公司 英文手写文本识别方法、装置、电子设备及存储介质
CN113591633A (zh) * 2021-07-18 2021-11-02 武汉理工大学 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN113743315A (zh) * 2021-09-07 2021-12-03 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
CN113808075A (zh) * 2021-08-04 2021-12-17 上海大学 一种基于深度学习的两阶段舌象识别方法
US11756244B1 (en) 2022-03-29 2023-09-12 Mohamed bin Zayed University of Artificial Intelligence System and method for handwriting generation
CN117010459A (zh) * 2023-10-07 2023-11-07 浙江大学 基于模块化和序列化自动生成神经网络的方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107219935A (zh) * 2017-05-25 2017-09-29 哈尔滨工业大学 一种面向连续书写汉字的、支持交互的汉字输入系统及方法
US20170285010A1 (en) * 2014-11-28 2017-10-05 Senzagen Ab Analytical Methods and Arrays for Use in the Same
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US20180066262A1 (en) * 2015-03-09 2018-03-08 Caris Science, Inc. Oligonucleotide probes and uses thereof
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110162799A (zh) * 2018-11-28 2019-08-23 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170285010A1 (en) * 2014-11-28 2017-10-05 Senzagen Ab Analytical Methods and Arrays for Use in the Same
US20180066262A1 (en) * 2015-03-09 2018-03-08 Caris Science, Inc. Oligonucleotide probes and uses thereof
CN107219935A (zh) * 2017-05-25 2017-09-29 哈尔滨工业大学 一种面向连续书写汉字的、支持交互的汉字输入系统及方法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110162799A (zh) * 2018-11-28 2019-08-23 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110378334A (zh) * 2019-06-14 2019-10-25 华南理工大学 一种基于二维特征注意力机制的自然场景文本识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SU, TONGHUA等: "Novel Character Segmentation Method for Overlapped Chinese Handwriting Recognition based on LSTM Neural Networks", 《2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
刘雨江等: "基于多层注意力机制的回指消解算法", 《计算机工程》 *
周圣杰: "基于深度注意力机制的手写文本识别与翻译方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428750A (zh) * 2020-02-20 2020-07-17 商汤国际私人有限公司 一种文本识别模型训练及文本识别方法、装置及介质
CN111507328A (zh) * 2020-04-13 2020-08-07 北京爱咔咔信息技术有限公司 文本识别及模型训练方法、系统、设备及可读存储介质
WO2021212652A1 (zh) * 2020-04-23 2021-10-28 平安国际智慧城市科技股份有限公司 英文手写文本识别方法、装置、电子设备及存储介质
CN111402012A (zh) * 2020-06-03 2020-07-10 江苏省质量和标准化研究院 一种基于迁移学习的电商缺陷产品识别方法
CN111402012B (zh) * 2020-06-03 2020-08-25 江苏省质量和标准化研究院 一种基于迁移学习的电商缺陷产品识别方法
CN112001394A (zh) * 2020-07-13 2020-11-27 上海翎腾智能科技有限公司 基于ai视觉下的听写交互方法、系统、装置
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN112069809B (zh) * 2020-08-11 2022-05-24 桂林电子科技大学 一种缺失文本生成方法及系统
CN111950302A (zh) * 2020-08-20 2020-11-17 上海携旅信息技术有限公司 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质
CN111950302B (zh) * 2020-08-20 2023-11-10 上海携旅信息技术有限公司 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质
WO2021147569A1 (zh) * 2020-08-27 2021-07-29 平安科技(深圳)有限公司 基于神经网络的文字识别方法、装置及可读存储介质
CN112101348A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 多语种端到端ocr算法及系统
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112149619B (zh) * 2020-10-14 2024-03-15 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112329760B (zh) * 2020-11-17 2021-12-21 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN113011202B (zh) * 2021-03-23 2023-07-25 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113011202A (zh) * 2021-03-23 2021-06-22 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113128113B (zh) * 2021-04-14 2024-04-12 国网上海市电力公司 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法
CN113128113A (zh) * 2021-04-14 2021-07-16 国网上海市电力公司 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法
CN113159053A (zh) * 2021-04-27 2021-07-23 北京有竹居网络技术有限公司 图像识别方法、装置及计算设备
CN113343011A (zh) * 2021-06-19 2021-09-03 哈尔滨工业大学 一种基于两阶段注意力的多模态信息机器翻译方法
CN113591633A (zh) * 2021-07-18 2021-11-02 武汉理工大学 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN113591633B (zh) * 2021-07-18 2024-04-30 武汉理工大学 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN113808075A (zh) * 2021-08-04 2021-12-17 上海大学 一种基于深度学习的两阶段舌象识别方法
CN113743315B (zh) * 2021-09-07 2023-07-14 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
CN113743315A (zh) * 2021-09-07 2021-12-03 电子科技大学 一种基于结构增强的手写体初等数学公式识别方法
US11756244B1 (en) 2022-03-29 2023-09-12 Mohamed bin Zayed University of Artificial Intelligence System and method for handwriting generation
CN117010459A (zh) * 2023-10-07 2023-11-07 浙江大学 基于模块化和序列化自动生成神经网络的方法
CN117010459B (zh) * 2023-10-07 2024-02-09 浙江大学 基于模块化和序列化自动生成神经网络的方法

Also Published As

Publication number Publication date
CN110765966B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
Zhang et al. Multi-scale attention with dense encoder for handwritten mathematical expression recognition
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
Xiang et al. A convolutional neural network-based linguistic steganalysis for synonym substitution steganography
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
CN112016604B (zh) 一种运用视觉信息的零资源机器翻译方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112801280B (zh) 视觉深度自适应神经网络的一维卷积位置编码方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113641819A (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN115221846A (zh) 一种数据处理方法及相关设备
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN111831783A (zh) 一种篇章级关系抽取方法
CN112990196B (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及系统
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
Wen et al. A sequence-to-sequence framework based on transformer with masked language model for optical music recognition
CN114707523A (zh) 基于交互式Transformer的图像-多语言字幕转换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant