CN112380882B - 一种具有误差修正功能的蒙汉神经机器翻译方法 - Google Patents

一种具有误差修正功能的蒙汉神经机器翻译方法 Download PDF

Info

Publication number
CN112380882B
CN112380882B CN202011382870.1A CN202011382870A CN112380882B CN 112380882 B CN112380882 B CN 112380882B CN 202011382870 A CN202011382870 A CN 202011382870A CN 112380882 B CN112380882 B CN 112380882B
Authority
CN
China
Prior art keywords
stream
output
decoder
mongolian
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011382870.1A
Other languages
English (en)
Other versions
CN112380882A (zh
Inventor
苏依拉
梁衍锋
吕苏艳
仁庆道尔吉
李雷孝
石宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011382870.1A priority Critical patent/CN112380882B/zh
Publication of CN112380882A publication Critical patent/CN112380882A/zh
Application granted granted Critical
Publication of CN112380882B publication Critical patent/CN112380882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Abstract

本发明一种具有误差修正功能的蒙汉神经机器翻译方法,基于编码器‑解码器的NMT模型,并在解码器中引入内容流‑查询流的双流自注意力机制,其中:所述内容流用于构建先前标记的表示,以及,用于校正先前预测输出;所述查询流使用位置嵌入作为决定要预测的下一个输出的位置的输入,以及,用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出。本发明将XLNET中的双流自注意力机制引入到NMT解码器中,并且在内容流中加入误差纠正,从而纠正翻译过程中的错误,提高翻译质量。

Description

一种具有误差修正功能的蒙汉神经机器翻译方法
技术领域
本发明属于机器学习技术领域,特别涉及一种具有误差修正功能的蒙汉神经机器翻译方法。
背景技术
神经机器翻译(NMT)自首次被提及以来,已在机器翻译领域取得了巨大成就,它全面优于统计机器翻译(SMT),快速成为在线翻译系统的主流标配。
市面上的神经机器翻译系统越来越多,国外的谷歌和国内的腾讯、阿里巴巴、百度、搜狗、科大讯飞等针对机器翻译都进行了大量的研究,取得了显著的研究成果,稀少资源语言和少数民族语言的机器翻译任务也越来越受到重视。
蒙古语属黏着语,主要使用者在蒙古国、中国蒙古族聚居区和俄罗斯联邦西伯利亚联邦管区。蒙古语有传统蒙古文和西里尔蒙古文,我们所研究的蒙汉翻译,特指的是传统蒙古文到汉语的翻译。蒙汉机器翻译研究不仅可以促进民族文化传播和多民族人民交流,而且有利于稀少资源和少数民族语言机器翻译的研究。然而,由于人才匮乏,资源短缺等原因,蒙汉机器翻译的性能质量还是比较落后。因此,如何提高汉蒙机器翻译的性能是我们研究的难点与创新点。
随着深度学习的发展,神经机器翻译(NMT)取得了长足进步。目前流行的NMT模型采用了一种编码-注意-解码框架,解码器根据先前的输出以自回归的方式生成目标输出。
使用流程:首先,编码器将源语言文本构建的词向量转变为有相关语义特征信息的低维稠密的中间向量表示,然后解码器将中间向量进行解码预测,转换为目标语言。
如图1所示编码器-解码器框架,是给定一个句子对{x,y}∈(X,Y),NMT模型的目标是使对数似然估计P(y|x;θ)最大化。
所述翻译解码模型建模的公式为:
Figure BDA0002810051360000021
其中,x表示当前输入端的源语言;
y为要翻译的目标语言;
n是目标序列y的标记数。
yt:表示第t位置的词,y<t:表示t位置之前的词。
Θ:表示需要优化的参数;
P代表源语言x通过模型生成目标语言y的概率。
尽管NMT模型很受欢迎,但它存在训练和推理之间的差异以及由此产生的误差传播。在推理过程中,解码器将先前生成的输出作为输入来预测下一个输出,这与训练中使用前一个语料库中的真实词对作为下一个预测的输入不同。因此,前文预测的句词,可能有错误,这将导致错误传播并影响对下一个输出的预测,进而将错误传播到整个预测序列。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种具有误差修正功能的蒙汉神经机器翻译方法,首先将XLNET中的双流自注意力机制引入到NMT解码器中,并且在内容流中加入误差纠正,以此来纠正翻译过程中的错误,提高翻译质量。
为了实现上述目的,本发明采用的技术方案是:
一种具有误差修正功能的蒙汉神经机器翻译方法,基于编码器-解码器的NMT模型,并在解码器中引入内容流-查询流的双流自注意力机制,其中:
所述内容流用于构建先前标记的表示,以及,用于校正先前预测输出;
所述查询流使用位置嵌入作为决定要预测的下一个输出的位置的输入,以及,用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出。
所述内容流校正先前预测输出的方法是:采用预定抽样对预测输出进行抽样,将抽样得到不准确的输出替换为语料库中正确的样本。
所述NMT模型采用一个编码器和两个双流自注意力机制的解码器。
在利用编码器和解码器翻译之前,先选取蒙汉双语语料的语料库,对蒙汉双语语料库进行预处理,所述预处理是先对汉语语料库进行分字处理,进行字节层面的翻译,对蒙古语词汇进行词干、词缀和格的附加成分切分,然后采用单词片段的切词方式(BPE)处理蒙汉双语语料库,细化翻译粒度来减少未登录词,最后使用Word2vec构建蒙汉双语词向量,对于蒙汉双语语料库中的未登录词,细化翻译粒度和构建蒙汉双语专有词汇词典。
所述编码器的工作流程是:
在m时刻,将序列{x1,…,xi,…,xn}输入到编码器中,ai=e(xi)+p(xi);
其中,xi为序列中第i个词,n为m时刻序列的字或词的总个数,ai为编码器的输入,为字嵌入和位置嵌入的和,e(·)为xi的字嵌入,p(·)为xi的位置嵌入;
Figure BDA0002810051360000031
其中bi为编码器自注意力层输出,Q,K,V为自我注意中的查询、键和值,T表示矩阵转置,Attention为编码器自注意力层,dk为K矩阵的维度;
Figure BDA0002810051360000032
Figure BDA0002810051360000033
为经过残差层后得到的数据;
Figure BDA0002810051360000034
Figure BDA0002810051360000035
为每个xi的编码器输出,FFN(·)为前馈神经网络运算;
所述解码器中,将位置{p1,…,pi,…,pn}输入到查询流,为下一个输出预测提供位置信息,序列{y1,…,yi,…,yn}加上其位置{p1,…,pi,…,pn}到内容流以构建上下文信息,ci=e(yi)+pi,其中,yi为上一个解码器的输出,pi为该输出的位置嵌入编码信息,ci为下一个编码器的输入。
将查询流隐藏状态
Figure BDA0002810051360000041
初始化为一个变量W,将内容流隐藏状态
Figure BDA0002810051360000042
初始化为词的Embedding,对于双流自注意力解码器第m-1层到第m层的计算,将查询流和内容流的隐藏状态定义为
Figure BDA0002810051360000043
Figure BDA0002810051360000044
查询流和内容流的更新如下:
Figure BDA0002810051360000045
Figure BDA0002810051360000046
其中,
Figure BDA0002810051360000047
表示内容流的隐藏状态,也即解码器输出的隐藏状态,查询流和内容流共享相同的模型参数,键和值的状态在查询流和内容流中重用,θ表示需要优化的参数,t为词在句子的绝对位置。
将解码器B1翻译出的粗略译文以及softmax运算前隐藏状态作为解码器B2的输入,并从解码器B2输入查询流的输出,以计算下一个目标输出预测的概率。
在训练过程中,首先用查询流预测下一个输出,然后用生成的输出更新内容流,翻译的最终目标为:
Figure BDA0002810051360000048
其中,y′t代表模型预测第t个输出,t为词在句子的绝对位置,x<t代表序列位置t之前的值;
为了模拟内容流输入中的预测误差,采用预定抽样从平行语料库中的真实值y={y1,…yi,…,yn}和之前预测的输出y′={y′1,…y′i,…,y′n}进行随机抽样,以概率P(·)作为新输入
Figure BDA0002810051360000049
其中y′t服从概率分布P(yt|y<t,x;θ),对于输入
Figure BDA00028100513600000410
等于yt的概率P(·),否则为y′t,对于步骤s,查询到的标记为y′t,y′t≠yt,强制内容流预测其对应的真实值yt
本发明为采样概率P(·)设计一个衰减函数,衰减函数设置为:
Figure BDA0002810051360000051
其中s代表训练步骤,τ,σ,θ是超参数,超参数τ表示模型执行多少步时开始抽样,超参数σ是最大的抽样概率。
本发明使用Adam为默认的优化器优化模型参数,设置β1=0.9,β2=0.98,∈≈10-8,默认学习率为α=0.001;
VdW=β1VdW+(1-β1)dW
SdW=β2SdW+(1-β2)(dW)2
Figure BDA0002810051360000052
Figure BDA0002810051360000053
Figure BDA0002810051360000054
其中,W为编码器自注意力层Q,K,V运算时的参数,分别为Wq,Wk,Wv,编码层与解码器的参数共享。
与现有技术相比,本发明的有益效果是:
1、本发明改造了Transformer的编码器,加入了双流自注意力层,再引入了一种纠错机制,通过修正前一个生成的输出中的错误信息来更好地预测下一个输出。具体地,本发明将XLNET的两个流自我注意引入到NMT解码器中,通过查询流预测下一个输出,同时使用内容流来纠正来自先前预测输出的错误信息,并利用定时抽样来纠正训练过程中的预测误差。
2、本发明采用双层解码器,可在序列解码过程中同时检查句子的上下文,从而可以利用全局信息,得到更加准确的翻译输出。
3、对于蒙汉翻译来说,翻译过程中获得全局信息尤为重要,因为汉语的语法顺序为。主-谓-宾(S-V-0)结构,而蒙语采用的语法顺序为主-宾-谓(S-0-V)结构。本发明同时利用双流自注意力编码器内容流的特点,利用随机取样函数,纠正一部分翻译错误,避免把错误带入下一个预测序列,由此来改善翻译模型,有效地提高蒙汉翻译的质量。
附图说明
图1是本发明编码器-解码器模型示意图。
图2是本发明双流自注意力层示意图。
图3是本发明纠错机制模型示意图。
图4是本发明翻译流程示意图。
图5是本发明编码器处理过程。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,一种具有误差修正功能的蒙汉神经机器翻译方法,基于编码器-解码器的NMT模型,采用一个编码器A和两个解码器B1和B2(双层解码器模型)。其原理可描述为:
(1)通过编码器将上下文编码成具有上下文联系的隐藏向量。
首先,编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈神经网络都完全一样。
(2)基于编码器-解码器的框架结构在生成序列的时候只生成一次,而没有反复“推敲”的过程。然而,对于蒙汉翻译来说,反复“推敲”的过程显得尤为重要,因为汉语的语法顺序为主-谓-宾(S-V-0)结构,而蒙语采用的语法顺序为主-宾-谓(S-0-V)结构;因此本发明采用了双层解码器,通过一个推敲过程可在序列解码过程中同时检查句子前后的内容,从而可以利用全局信息。具体而言,本发明采用了这样的编码器-解码器框架--它由一个编码器A以及第一阶段解码器(first-pass decoder)B1和第二阶段解码器(second-pass)B2构成,如图1所示。与现有技术不同之处在于,本发明将双流自注意力机制分别引入到解码器B1和B2中,如图2所示。具体地,编码器A以及第一阶段解码器B1和第二阶段解码器B2构成均为多层神经网络,第一阶段解码器B1和第二阶段解码器B2均包含了一个双流自注意力模型,编码器A和第一阶段解码器B1以注意力机制连接。
其中,内容流与Transformer解码器中的正常自我注意力机制完全相同,用于构建先前标记的表示,而查询流则使用位置嵌入作为决定要预测的下一个输出的位置的输入。本发明重新设计了两个流self-attention来支持蒙汉神经机器翻译,在上述功能外,内容流还用于校正先前的预测输出(correction),原理是:采用预定抽样对预测输出进行抽样,将抽样得到不准确的输出替换为语料库中正确的样本。而查询流用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出(translation)。
在利用编码器和解码器翻译之前,本发明可先选取蒙汉双语语料的语料库,并对蒙汉双语语料库进行预处理,具体是先对汉语语料库进行分字处理,进行字节层面的翻译,对蒙古语词汇进行词干、词缀和格的附加成分切分,然后采用单词片段的切词方式(BPE)处理蒙汉双语语料库,细化翻译粒度来减少未登录词,最后使用Word2vec构建蒙汉双语词向量,对于蒙汉双语语料库中的未登录词,细化翻译粒度和构建蒙汉双语专有词汇词典。
具体地,NMT除了对模型层次的研究外,也包含对翻译粒度的研究,基于词级和字词级的粒度会缓解未登录词的问题,因此:
A、在对蒙汉平行语料库的预处理之前,首先对汉语语料库进行预处理工作,采用jieba分词对汉语语料进行处理。
B、根据蒙古语本身的特点:蒙古语属于阿尔泰语系且是典型的黏着语,并且属于一种拼音文字,同样包括词缀和词根成分,因此将蒙古文词切分为子词粒度,会切分出一部分有意义的词缀等构词成分,使得神经翻译模型通过对子词的学习从而具备识别子词的能力,并且对于某些未登陆词的翻译而言,可以通过对子词的翻译得到该未登录词的译文。
C、蒙古文词中包含的各种词缀和词根等构词结构是蒙古文字符序列的高频组合。使用BPE算法对蒙古文语料进行子词切分处理。在平行语料库中与蒙古语对应的汉语方面,本发明对汉语做分字处理。
在编码器的隐藏状态,句子编码依次经过了自注意力层(self-attention),该层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈(feed-forward)神经网络中。最后得到用于解码器双流自注意力机制的输入
Figure BDA0002810051360000081
解码器B1把隐藏状态
Figure BDA0002810051360000082
作为双流自注意力层的输入,执行第一阶段的解码,得到草稿句子
Figure BDA0002810051360000083
即翻译出的粗略译文,将
Figure BDA0002810051360000084
以及softmax运算前隐藏状态输入到解码器B2,这样就有了反复“推敲”的过程,解码器B2与B1相同,但是在解码器B2的输出的句子y′进行随机取样,将一部分预测有偏差的词都换成语料库中准确的词。即从解码器B2输入查询流的输出,以计算下一个目标输出预测的概率。这样可以缓解把错误信息一直带入到整个预测序列中去。
如图3所示纠错机制的工作流程。本发明纠错机制与计划抽样的不同之处在于,一旦在计划抽样中预测到一个错误输出,模型仍然会学习预测下一个正确的输出,这可能会混淆模型并误导学习错误的预测模式。然而,基于本发明的纠错机制,下一个令牌预测是建立在由内容流更正的表示之上的,并且更精确地学习预测模式。
本发明使用Adam为默认的优化器优化模型参数,设置β1=0.9,β2=0.98,∈≈10-8,默认学习率为α=0.001;
VdW=β1VdW+(1-β1)dW
SdW=β2SdW+(1-β2)(dW)2
Figure BDA0002810051360000085
Figure BDA0002810051360000091
Figure BDA0002810051360000092
其中,W为编码器自注意力层Q,K,V运算时的参数,分别为Wq,Wk,Wv,编码层与解码器的参数共享。
根据以上内容,本发明包括语料预处理和机器翻译两大步骤,
参考图4,本发明翻译过程如下:
1、蒙汉双语平行语料库预处理
2、编码器解码器处理过程
3、生成译文并且纠正错误译文
其中,蒙汉双语语料库预处理完以后,采用Word2vec构建词向量,再结合词的位置编码,得到要进入编码器的向量ai。经过编码器的处理过程后得到,并且输入到解码器中的双流自注意力层。第一层解码器B1得到softmax前的隐含状态及初步翻译的草稿句子,然后以编码器A和第一层解码器B1的隐含状态作为第二层解码器B2的输入,第二层编码器B2输出蒙古语译文后,本发明采用概率取样,对并且不合理的翻译进行纠正,随后在进入下一阶段的处理。
具体地,如图5所示,编码器处理过程,假设m时刻输入到编码器的序列为{x1,…,xi,…,xn}。进行词嵌入与位置编码操作,定义如下:
ai=e(xi)+p(xi)
其中,xi为序列中第i个词,n为m时刻序列的字或词的总个数,ai为编码器的输入,为字嵌入和位置嵌入的和,e(·)为xi的字嵌入,p(·)为xi的位置嵌入。
Figure BDA0002810051360000093
其中bi为编码器自注意力层输出,Q,K,V为自我注意中的查询、键和值,T表示矩阵转置,Attention为编码器自注意力层,dk为K矩阵的维度。
Figure BDA0002810051360000101
注:
Figure BDA0002810051360000102
为经过残差层后得到的数据。
Figure BDA0002810051360000103
Figure BDA0002810051360000104
为每个xi的编码器输出,FFN(·)为前馈神经网络运算。
在解码器中,将位置{p1,…,pi,…,pn}输入到查询流,为下一个输出预测提供位置信息,序列{y1,…,yi,…,yn}加上其位置{p1,…,pi,…,pn}到内容流以构建上下文信息,ci=e(yi)+pi,其中,yi为上一个解码器的输出,pi为该输出的位置嵌入编码信息,ci为下一个编码器的输入。
首先将查询流隐藏状态
Figure BDA0002810051360000105
初始化为一个变量W,将内容流隐藏状态
Figure BDA0002810051360000106
初始化为词的Embedding。如图2所示,对于双流自注意力解码器第m-1层到第m层的计算,将查询流和内容流的隐藏状态定义为
Figure BDA0002810051360000107
Figure BDA0002810051360000108
查询流和内容流的更新如下:
Figure BDA0002810051360000109
Figure BDA00028100513600001010
其中,
Figure BDA00028100513600001011
表示内容流的隐藏状态,也即解码器输出的隐藏状态,表示层的参数,查询流和内容流共享相同的模型参数,键和值的状态在查询流和内容流中重用,θ表示需要优化的参数,t为词在句子的绝对位置。Attention(.,.)为一种注意力机制的运算。
在训练过程中,首先用查询流预测下一个输出,然后用生成的输出更新内容流,查询和内容流的顺序不会影响预测,因为查询流中的输出只依赖于先前生成的内容流输出。翻译的最终目标为:
Figure BDA00028100513600001012
其中,y′t代表模型预测第t个输出,t为词在句子的绝对位置,x<t代表序列位置t之前的值;
为了模拟内容流输入中的预测误差,采用预定抽样从平行语料库中的真实值y={y1,…yi,…,yn}和之前预测的输出y′={y′1,…y′i,…,y′n}进行随机抽样,以概率P(·)作为新输入
Figure BDA0002810051360000111
其中y′t服从概率分布P(yt|y<t,x;θ),对于输入
Figure BDA0002810051360000112
等于yt的概率P(·),否则为y′t,对于步骤s,查询到的标记为y′t,y′t≠yt,强制内容流预测其对应的真实值yt
在本发明的纠错机制中,如何控制定时采样概率P(·)以及何时对输出进行采样是训练的重要因素。先前的研究指出,在训练期间,不适合从头开始抽取,因为模型仍在拟合中。因此本发明为采样概率P(·)设计了一个类似的指数衰减函数,但有更多限制。衰减函数设置为
Figure BDA0002810051360000113
其中s代表训练步骤,τ,σ,θ是超参数,超参数τ表示模型执行多少步时开始抽样,超参数σ是最大的抽样概率,本发明设置参数为τ=30000,σ=0.85,θ=5000。
在本发明中,内容流可以将学习到的不准确的结果逐渐向正确的结果逐步修正。查询流仍然用于预测下一个输出,给定先前预测输出和修正输出的是随机混合的,这样不会误导模型,避免过拟合的情况发生。

Claims (8)

1.一种具有误差修正功能的蒙汉神经机器翻译方法,基于编码器-解码器的NMT模型,并在解码器中引入内容流-查询流的双流自注意力机制;
所述内容流用于构建先前标记的标识,以及,用于校正先前预测输出;
所述查询流使用位置嵌入作为决定要预测的下一个输出的位置的输入,以及,用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出;
在利用编码器和解码器翻译之前,先选取蒙汉双语语料的语料库,对蒙汉双语语料库进行预处理,所述预处理是先对汉语语料库进行分字处理,进行字节层面的翻译,对蒙古语词汇进行词干、词缀和格的附加成分切分,然后采用单词片段的切词方式处理蒙汉双语语料库,细化翻译粒度来减少未登录词,最后使用Word2vec构建蒙汉双语词向量,对于蒙汉双语语料库中的未登录词,细化翻译粒度和构建蒙汉双语专有词汇词典;
所述编码器的工作流程是:
在m时刻,将序列{x1,…,xi,…,xn}输入到编码器中,ai=e(xi)+p(xi);
其中,xi为序列中第i个词,n为m时刻序列的字或词的总个数,ai为编码器的输入,为字嵌入和位置嵌入的和,e(xi)为xi的字嵌入,p(xi)为xi的位置嵌入;
Figure FDA0003376043300000011
其中bi为编码器自注意力层输出,Q为自我注意中的查询,K为自我注意中的键,V为自我注意中的值,T表示矩阵转置,Attention为编码器自注意力运算,dk为K矩阵的维度;
Figure FDA0003376043300000012
Figure FDA0003376043300000013
为经过残差层后得到的数据;
Figure FDA0003376043300000021
Figure FDA0003376043300000022
为每个xi的编码器输出,
Figure FDA0003376043300000023
为前馈神经网络运算;
所述解码器中,将位置{p1,…,pi,…,pn}输入到查询流,为下一个输出预测提供位置信息,序列{y1,…,yi,…,yn}加上其位置{p1,…,pi,…,pn}到内容流以构建上下文信息,ci=e(yi)+pi,其中,yi为上一个解码器的输出,pi为该输出的位置嵌入编码信息,ci为下一个编码器的输入。
2.根据权利要求1所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,所述内容流校正先前预测输出的方法是:采用预定抽样对预测输出进行抽样,将抽样得到不准确的输出替换为语料库中正确的样本。
3.根据权利要求1所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,所述NMT模型采用一个编码器和两个引入双流自注意力机制的解码器。
4.根据权利要求1所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,将查询流隐藏状态
Figure FDA0003376043300000024
初始化为一个变量W,将内容流隐藏状态
Figure FDA0003376043300000025
初始化为词的Embedding,对于双流自注意力解码器第m-1层到第m层的计算,将查询流和内容流的隐藏状态定义为
Figure FDA0003376043300000026
Figure FDA0003376043300000027
查询流和内容流的更新如下:
Figure FDA0003376043300000028
Figure FDA0003376043300000029
其中,
Figure FDA00033760433000000210
表示内容流的隐藏状态,也即解码器输出的隐藏状态,查询流和内容流共享相同的模型参数,键和值的状态在查询流和内容流中重用,θ表示需要优化的参数,t为词在句子的绝对位置。
5.根据权利要求1所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,将解码器B1翻译出的粗略译文以及softmax运算前隐藏状态作为解码器B2的输入,并从解码器B2输入查询流的输出,以计算下一个目标输出预测的概率。
6.根据权利要求5所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,在训练过程中,首先用查询流预测下一个输出,然后用生成的输出更新内容流,翻译的最终目标为:
Figure FDA0003376043300000031
其中,y′t代表模型预测第t个输出,t为词在句子的绝对位置,x<t代表序列位置t之前的值;
为了模拟内容流输入中的预测误差,采用预定抽样从平行语料库中的真实值y={y1,…yi,…,yn}和之前预测的输出y′={y′1,…y′i,…,y′n}进行随机抽样,以概率P作为新输入
Figure FDA0003376043300000032
其中y′t服从概率分布P(yt|y<t,x;θ),对于输入
Figure FDA0003376043300000033
等于yt的概率为P,等于y′t的概率为1-P,对于训练步骤s,查询到的输入为
Figure FDA0003376043300000034
强制内容流等于其真实值yt,即令
Figure FDA0003376043300000035
7.根据权利要求6所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,为采样概率P设计一个衰减函数,衰减函数设置为:
Figure FDA0003376043300000036
其中s代表训练步骤,τ,σ,θ是超参数,超参数τ表示模型执行多少步时开始抽样,超参数σ是最大的抽样概率。
8.根据权利要求6所述具有误差修正功能的蒙汉神经机器翻译方法,其特征在于,使用Adam为默认的优化器优化模型参数,设置β1=0.9,β2=0.98,∈=10-8,默认学习率为α=0.001;
VdW=β1V′dW+(1-β1)dW
SdW=β2S′dW+(1-β2)(dW)2
Figure FDA0003376043300000041
Figure FDA0003376043300000042
Figure FDA0003376043300000043
其中,W为编码器自注意力层Q运算时的参数Wq,或为编码器自注意力层K运算时的参数Wk,或为编码器自注意力层V运算时的参数Wv,编码层与解码器的参数共享。
CN202011382870.1A 2020-12-01 2020-12-01 一种具有误差修正功能的蒙汉神经机器翻译方法 Active CN112380882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011382870.1A CN112380882B (zh) 2020-12-01 2020-12-01 一种具有误差修正功能的蒙汉神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011382870.1A CN112380882B (zh) 2020-12-01 2020-12-01 一种具有误差修正功能的蒙汉神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112380882A CN112380882A (zh) 2021-02-19
CN112380882B true CN112380882B (zh) 2022-01-18

Family

ID=74590263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011382870.1A Active CN112380882B (zh) 2020-12-01 2020-12-01 一种具有误差修正功能的蒙汉神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112380882B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392656A (zh) * 2021-06-18 2021-09-14 电子科技大学 一种融合推敲网络和字符编码的神经机器翻译方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102069692B1 (ko) * 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치
CN109359294B (zh) * 2018-09-18 2023-04-18 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109508462B (zh) * 2018-10-25 2020-07-17 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法

Also Published As

Publication number Publication date
CN112380882A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN109508462B (zh) 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN111382580B (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN113569562B (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
Caglayan et al. Simultaneous machine translation with visual context
WO2023051148A1 (zh) 用于多语言处理的方法和装置
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN112257460A (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质
CN112100335B (zh) 问题生成方法、模型训练方法、装置、设备和存储介质
CN111090720B (zh) 一种热词的添加方法和装置
Khysru et al. Morphological verb-aware tibetan language model
Verma et al. A Novel Framework for Ancient Text Translation Using Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant