CN110991192A - 基于字到字翻译的半监督神经机器翻译模型的构建方法 - Google Patents

基于字到字翻译的半监督神经机器翻译模型的构建方法 Download PDF

Info

Publication number
CN110991192A
CN110991192A CN201911084897.XA CN201911084897A CN110991192A CN 110991192 A CN110991192 A CN 110991192A CN 201911084897 A CN201911084897 A CN 201911084897A CN 110991192 A CN110991192 A CN 110991192A
Authority
CN
China
Prior art keywords
language
translation
sentence
model
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911084897.XA
Other languages
English (en)
Inventor
余正涛
刘科材
李磊
王振晗
吴霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201911084897.XA priority Critical patent/CN110991192A/zh
Publication of CN110991192A publication Critical patent/CN110991192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理技术领域。本发明首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料;使用单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器‑解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能。

Description

基于字到字翻译的半监督神经机器翻译模型的构建方法
技术领域
本发明涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理技术领域。
背景技术
在自然语言处理领域中,机器翻译是自然语言处理的集大成者,也是其中最具实用意义的研究子领域之一。由于监督式神经机器翻译需要大量平行语料,对于难以获取大量平行语料的语言对来说效果不是很好,因此发展出了非监督式神经机器翻译。在非监督神经机器翻译的中英语言实验中,我们发现由于中英语言差距巨大,导致非监督神经机器翻译模型无法正常工作。因此,提出了两个简单的方法对其进行改进,使得模型能够正常工作,并大幅提高了翻译性能。
发明内容
本发明提供了基于字到字翻译的半监督神经机器翻译模型的构建方法,以用于进行半监督神经机器翻译模型的构建,解决非监督翻译模型在两种差距巨大的语言间无法正常翻译的问题。
本发明的技术方案是:一种基于字到字翻译的半监督神经机器翻译模型的构建方法,首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
进一步地,所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树prefix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:
Figure BDA0002265099930000021
其中,l表示源语言src或目标语言tgt,θ(enc)(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),l);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子
Figure BDA0002265099930000022
使得
Figure BDA0002265099930000023
尽可能接近x,这个过程用
Figure BDA0002265099930000024
表示,并最小化重构误差Lauto
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
Figure BDA0002265099930000025
Figure BDA0002265099930000026
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,…,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,…,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
Step8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
本发明的有益效果是:
1、本发明通过语言模型初始化翻译模型,使得翻译模型初步包含两种语言的语言特征;
2、本发明通过训练自编码器,使得模型进一步学习到两种语言的语言特征,使得模型在翻译句子时能够产生更流畅的句子;
3、本发明通过回翻译,使得模型可以使用单语语料构建伪平行语料,可以充分利用大规模的单语语料,以解决平行语料过少的问题;
4、本发明使用字到字的翻译,约束了回翻译模型在远距离语言上(如中文-英文)可能出现的退化问题;
5、本发明使用少量的平行语料训练翻译模型,提升翻译质量;
6、本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能;
7、本发明使用半监督学习的方式,提出了添加平行语料和对回翻译结果再次逐字翻译两种方法进行修正。本发明提出的基于半监督学习的中英机器翻译的修正方法,有效解决了非监督机器翻译模型退化的问题,大幅提升了非监督机器翻译模型在中英语言上的翻译性能。
附图说明
图1为本发明的半监督神经机器翻译流程图;
图2为本发明中不同翻译模型的英-中翻译的效果对比图;
图3为本发明中不同翻译模型的中-英翻译的效果对比图。
具体实施方式
实施例1:如图1-3所示,基于字到字翻译的半监督神经机器翻译模型的构建方法,所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树prefix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器,称为AE-step步骤:
Figure BDA0002265099930000051
其中,l表示源语言src或目标语言tgt,θ(enc)(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),l);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子
Figure BDA0002265099930000052
使得
Figure BDA0002265099930000053
尽可能接近x,这个过程用
Figure BDA0002265099930000054
表示,并最小化重构误差Lauto
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
Figure BDA0002265099930000055
Figure BDA0002265099930000056
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,…,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,…,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
Step8、在训练翻译模型的同时训练回翻译模型,称为BT-step步骤;训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
图2和图3给出了使用本发明后翻译效果对比,其评测方法使用国际通用的BLEU指标,其值越高越好。图中X轴表示训练轮次,Y轴表示评价指标。其中,UMT表示原有的非监督神经机器翻译模型,UMTC表示使用了改进后的回翻译(BT-step)过程的翻译模型,MT表示使用了MT-step的翻译模型,MTC表示同时使用MT-step和改进后的回翻译(BT-step)过程的翻译模型。
通过测试可以看出本方明所述方法大幅提升了非监督机器翻译模型在中英语言上的翻译性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
2.根据权利要求1所述的基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树pre fix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:
Figure FDA0002265099920000021
其中,1表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),1);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
上述公式表示将一种语言的句子x添加噪声后通过编码器e()编码,然后再通过解码器d()解码为原句子
Figure FDA0002265099920000022
使得
Figure FDA0002265099920000023
尽可能接近x,这个过程用
Figure FDA0002265099920000024
表示,并最小化重构误差Lauto
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
Figure FDA0002265099920000025
Figure FDA0002265099920000026
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,...,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,...,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
SteD8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
CN201911084897.XA 2019-11-08 2019-11-08 基于字到字翻译的半监督神经机器翻译模型的构建方法 Pending CN110991192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084897.XA CN110991192A (zh) 2019-11-08 2019-11-08 基于字到字翻译的半监督神经机器翻译模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084897.XA CN110991192A (zh) 2019-11-08 2019-11-08 基于字到字翻译的半监督神经机器翻译模型的构建方法

Publications (1)

Publication Number Publication Date
CN110991192A true CN110991192A (zh) 2020-04-10

Family

ID=70083523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084897.XA Pending CN110991192A (zh) 2019-11-08 2019-11-08 基于字到字翻译的半监督神经机器翻译模型的构建方法

Country Status (1)

Country Link
CN (1) CN110991192A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183080A (zh) * 2020-10-20 2021-01-05 新疆大学 一种基于词与词素混合模型的维汉机器翻译系统
CN112861516A (zh) * 2021-01-21 2021-05-28 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN113869070A (zh) * 2021-10-15 2021-12-31 大连理工大学 一种融合特定语言适配器模块的多语言神经机器翻译方法
CN114548125A (zh) * 2022-02-25 2022-05-27 中国工商银行股份有限公司 神经机器翻译模型的确定方法、装置以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271644A (zh) * 2018-08-16 2019-01-25 北京紫冬认知科技有限公司 一种翻译模型训练方法及装置
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271644A (zh) * 2018-08-16 2019-01-25 北京紫冬认知科技有限公司 一种翻译模型训练方法及装置
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183080A (zh) * 2020-10-20 2021-01-05 新疆大学 一种基于词与词素混合模型的维汉机器翻译系统
CN112861516A (zh) * 2021-01-21 2021-05-28 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN112861516B (zh) * 2021-01-21 2023-05-16 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN113869070A (zh) * 2021-10-15 2021-12-31 大连理工大学 一种融合特定语言适配器模块的多语言神经机器翻译方法
CN113869070B (zh) * 2021-10-15 2024-05-24 大连理工大学 一种融合特定语言适配器模块的多语言神经机器翻译方法
CN114548125A (zh) * 2022-02-25 2022-05-27 中国工商银行股份有限公司 神经机器翻译模型的确定方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
CN110991192A (zh) 基于字到字翻译的半监督神经机器翻译模型的构建方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN110874537B (zh) 多语言翻译模型的生成方法、翻译方法及设备
CN111753557B (zh) 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
Denkowski et al. Learning from post-editing: Online model adaptation for statistical machine translation
CN110377918B (zh) 融合句法解析树的汉-越神经机器翻译方法
CN112464676B (zh) 机器翻译结果打分方法和装置
CN109359294A (zh) 一种基于神经机器翻译的古汉语翻译方法
Lopez et al. Word-based alignment, phrase-based translation: What’s the link?
WO2022088570A1 (zh) 译文后编译方法、装置、电子设备和存储介质
Meetei et al. WAT2019: English-Hindi translation on Hindi visual genome dataset
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
Xu et al. Do we need Chinese word segmentation for statistical machine translation?
Clark et al. One system, many domains: Open-domain statistical machine translation via feature augmentation
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和系统
Mandal et al. Futurity of translation algorithms for neural machine translation (NMT) and its vision
Wu et al. Adapting attention-based neural network to low-resource Mongolian-Chinese machine translation
Formiga Fanals et al. Dealing with input noise in statistical machine translation
Ahmadnia et al. Statistical machine translation for bilingually low-resource scenarios: A round-tripping approach
Acharya et al. A Comparative Study of SMT and NMT: Case Study of English-Nepali Language Pair.
Zhu et al. Sentence-level paraphrasing for machine translation system combination
Xu et al. Spanish-Turkish low-resource machine translation: unsupervised learning vs round-tripping
Ruiz Costa-Jussà et al. The talp–upc spanish–english wmt biomedical task: Bilingual embeddings and char-based neural language model rescoring in a phrase-based system
Hong-Viet et al. Improving machine translation quality with denoising autoencoder and pre-ordering
Viet et al. Dependency-based pre-ordering for English-Vietnamese statistical machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410