CN110991192A - 基于字到字翻译的半监督神经机器翻译模型的构建方法 - Google Patents
基于字到字翻译的半监督神经机器翻译模型的构建方法 Download PDFInfo
- Publication number
- CN110991192A CN110991192A CN201911084897.XA CN201911084897A CN110991192A CN 110991192 A CN110991192 A CN 110991192A CN 201911084897 A CN201911084897 A CN 201911084897A CN 110991192 A CN110991192 A CN 110991192A
- Authority
- CN
- China
- Prior art keywords
- language
- translation
- sentence
- model
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001537 neural effect Effects 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000014616 translation Effects 0.000 claims description 134
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理技术领域。本发明首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料;使用单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器‑解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能。
Description
技术领域
本发明涉及基于字到字翻译的半监督神经机器翻译模型的构建方法,属于自然语言处理技术领域。
背景技术
在自然语言处理领域中,机器翻译是自然语言处理的集大成者,也是其中最具实用意义的研究子领域之一。由于监督式神经机器翻译需要大量平行语料,对于难以获取大量平行语料的语言对来说效果不是很好,因此发展出了非监督式神经机器翻译。在非监督神经机器翻译的中英语言实验中,我们发现由于中英语言差距巨大,导致非监督神经机器翻译模型无法正常工作。因此,提出了两个简单的方法对其进行改进,使得模型能够正常工作,并大幅提高了翻译性能。
发明内容
本发明提供了基于字到字翻译的半监督神经机器翻译模型的构建方法,以用于进行半监督神经机器翻译模型的构建,解决非监督翻译模型在两种差距巨大的语言间无法正常翻译的问题。
本发明的技术方案是:一种基于字到字翻译的半监督神经机器翻译模型的构建方法,首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
进一步地,所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm;
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树prefix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:
其中,l表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),l);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,…,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,…,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
Step8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
本发明的有益效果是:
1、本发明通过语言模型初始化翻译模型,使得翻译模型初步包含两种语言的语言特征;
2、本发明通过训练自编码器,使得模型进一步学习到两种语言的语言特征,使得模型在翻译句子时能够产生更流畅的句子;
3、本发明通过回翻译,使得模型可以使用单语语料构建伪平行语料,可以充分利用大规模的单语语料,以解决平行语料过少的问题;
4、本发明使用字到字的翻译,约束了回翻译模型在远距离语言上(如中文-英文)可能出现的退化问题;
5、本发明使用少量的平行语料训练翻译模型,提升翻译质量;
6、本发明简单有效,能够使模型正常翻译并大幅提升模型翻译性能;
7、本发明使用半监督学习的方式,提出了添加平行语料和对回翻译结果再次逐字翻译两种方法进行修正。本发明提出的基于半监督学习的中英机器翻译的修正方法,有效解决了非监督机器翻译模型退化的问题,大幅提升了非监督机器翻译模型在中英语言上的翻译性能。
附图说明
图1为本发明的半监督神经机器翻译流程图;
图2为本发明中不同翻译模型的英-中翻译的效果对比图;
图3为本发明中不同翻译模型的中-英翻译的效果对比图。
具体实施方式
实施例1:如图1-3所示,基于字到字翻译的半监督神经机器翻译模型的构建方法,所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm;
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树prefix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器,称为AE-step步骤:
其中,l表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),l);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,…,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,…,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
Step8、在训练翻译模型的同时训练回翻译模型,称为BT-step步骤;训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
图2和图3给出了使用本发明后翻译效果对比,其评测方法使用国际通用的BLEU指标,其值越高越好。图中X轴表示训练轮次,Y轴表示评价指标。其中,UMT表示原有的非监督神经机器翻译模型,UMTC表示使用了改进后的回翻译(BT-step)过程的翻译模型,MT表示使用了MT-step的翻译模型,MTC表示同时使用MT-step和改进后的回翻译(BT-step)过程的翻译模型。
通过测试可以看出本方明所述方法大幅提升了非监督机器翻译模型在中英语言上的翻译性能。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
首先获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;使用源语言与目标语言的单语语料训练跨语言的语言模型;使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;再获取两种语言的双语字典;在翻译模型内部根据双语字典构建字典前缀树,使得字典被快速查找;在翻译模型中训练一个自编码器;使用源语言与目标语言的平行语料训练翻译模型;在训练翻译模型的同时进行训练回翻译模型;把自编码器、使用源语言与目标语言的平行语料训练翻译模型、回翻译模型融合起来得到最终的翻译模型。
2.根据权利要求1所述的基于字到字翻译的半监督神经机器翻译模型的构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、获取源语言与目标语言的单语语料、源语言与目标语言的平行语料,对其进行tokenize处理;
Step2、使用源语言与目标语言的单语语料训练跨语言的语言模型:
Llm=Ex~S[-logPs→s(x|C(x))]+Ey~T[-logPt→t(y|C(y))]
其中,S表示源语言单语语料,T表示目标语言单语语料,x与y分别表示源语言单语语料与目标语言单语语料的单个句子;C(x)与C(y)表示在句子上添加噪音,即删除、替换、交换句子中的部分词语;Ps→s(x|C(x))表示源语言到源语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ex~S[-logPs→s(x|C(x))];Pt→t(y|C(y))表示目标语言到目标语言将添加噪音的句子进行重构;再最小化重构误差,误差即为Ey~T[-logPt→t(y|C(y))];源语言与目标语言的误差和即为整个语言模型Llm;
Step3、使用训练完成的语言模型对翻译模型的编码器-解码器进行初始化;
Step4、再获取两种语言的双语字典;字典来源为英汉词典、汉英词典或平行语料库抽取;
Step5、在翻译模型内部根据双语字典构建字典前缀树pre fix tree,使得字典被快速查找;
Step6、在翻译模型中训练一个自编码器:
其中,1表示源语言src或目标语言tgt,θ(enc),θ(dec)分别表示编码器和解码器,Dl表示源语言src或目标语言的单语语料库;e(C(x))表示将加了噪声的句子进行编码;
将一种语言L的句子x添加噪声,表示为C(x);
使用编码器e()对添加噪声的句子C(x)进行编码,表示为e(C(x),1);
再通过解码器d()将编码后的句子解码为语言L的句子,表示为d(e(C(x),l),l);
Step7、使用源语言与目标语言的平行语料训练翻译模型,称为MT-step步骤:
其中,PD表示源语言与目标语言的平行语料库,x1与y1表示从平行语料库中抽取出的相对应的源语言句子与目标语言句子,v表示源句子,即x1,...,xT,其中xt表示句子中的第t个单词,此时t从1~T,T′为目标句子长度,P表示在翻译的源句子及翻译出的目标句子前t-1个词语构成的序列v,y1,...,yt-1的情况下翻译出下一个词yt的概率,最终使得P最大化即将损失函数Lmt最小化;翻译模型支持双向翻译,(x1,y1)能表示从源语言翻译到目标语言;也能表示从目标语言翻译到源语言;
SteD8、在训练翻译模型的同时训练回翻译模型,训练回翻译模型包括两个阶段:
训练回翻译模型的第一阶段为:将一种语言源语言或目标语言的句子通过翻译模型翻译为对方语言目标语言或源语言的句子;然后增加字到字的翻译,即再将翻译出来的句子中存在非对方语言的单词通过字典前缀树逐字的翻译为对方语言的单词,使得整个译文单词均为对方语言,其译文用于回翻译第二阶段;回翻译公式表示如下:
Lback=Ey~T[-logPs→t(y|u*(y))]+Ex~S[-logPt→s(x|u*(x))]
其中,u*(y)表示翻译模型将目标语言句子y翻译为源语言句子x’,再增加字到字的翻译;u*(x)表示将源语言句子x翻译为目标语言句子y’,再增加字到字的翻译;u*(y)、u*(x)表示的过程即为回翻译的第一阶段;Ps→t(y|u*(y))表示将翻译后的源语言句子x’再次翻译为目标语言句子y,Pt→s(x|u*(x))表示将翻译后的目标语言句子y’再次翻译为源语言句子x;Ps→t(y|u*(y))、Pt→s(x|u*(x))表是的过程即为回翻译的第二阶段;误差E[-logP(x|u*(x))]之和最小化使得总误差Lback最小化;
Step9、最终训练的翻译模型(L)表示为:
L=Lauto+Lmt+Lback
Step10、使用训练好的模型评测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911084897.XA CN110991192A (zh) | 2019-11-08 | 2019-11-08 | 基于字到字翻译的半监督神经机器翻译模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911084897.XA CN110991192A (zh) | 2019-11-08 | 2019-11-08 | 基于字到字翻译的半监督神经机器翻译模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991192A true CN110991192A (zh) | 2020-04-10 |
Family
ID=70083523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911084897.XA Pending CN110991192A (zh) | 2019-11-08 | 2019-11-08 | 基于字到字翻译的半监督神经机器翻译模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991192A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183080A (zh) * | 2020-10-20 | 2021-01-05 | 新疆大学 | 一种基于词与词素混合模型的维汉机器翻译系统 |
CN112861516A (zh) * | 2021-01-21 | 2021-05-28 | 昆明理工大学 | 验证共有子词对xlm翻译模型效果影响的实验方法 |
CN113869070A (zh) * | 2021-10-15 | 2021-12-31 | 大连理工大学 | 一种融合特定语言适配器模块的多语言神经机器翻译方法 |
CN114548125A (zh) * | 2022-02-25 | 2022-05-27 | 中国工商银行股份有限公司 | 神经机器翻译模型的确定方法、装置以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
-
2019
- 2019-11-08 CN CN201911084897.XA patent/CN110991192A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183080A (zh) * | 2020-10-20 | 2021-01-05 | 新疆大学 | 一种基于词与词素混合模型的维汉机器翻译系统 |
CN112861516A (zh) * | 2021-01-21 | 2021-05-28 | 昆明理工大学 | 验证共有子词对xlm翻译模型效果影响的实验方法 |
CN112861516B (zh) * | 2021-01-21 | 2023-05-16 | 昆明理工大学 | 验证共有子词对xlm翻译模型效果影响的实验方法 |
CN113869070A (zh) * | 2021-10-15 | 2021-12-31 | 大连理工大学 | 一种融合特定语言适配器模块的多语言神经机器翻译方法 |
CN113869070B (zh) * | 2021-10-15 | 2024-05-24 | 大连理工大学 | 一种融合特定语言适配器模块的多语言神经机器翻译方法 |
CN114548125A (zh) * | 2022-02-25 | 2022-05-27 | 中国工商银行股份有限公司 | 神经机器翻译模型的确定方法、装置以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991192A (zh) | 基于字到字翻译的半监督神经机器翻译模型的构建方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN110874537B (zh) | 多语言翻译模型的生成方法、翻译方法及设备 | |
CN111753557B (zh) | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 | |
Denkowski et al. | Learning from post-editing: Online model adaptation for statistical machine translation | |
CN110377918B (zh) | 融合句法解析树的汉-越神经机器翻译方法 | |
CN112464676B (zh) | 机器翻译结果打分方法和装置 | |
CN109359294A (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
Lopez et al. | Word-based alignment, phrase-based translation: What’s the link? | |
WO2022088570A1 (zh) | 译文后编译方法、装置、电子设备和存储介质 | |
Meetei et al. | WAT2019: English-Hindi translation on Hindi visual genome dataset | |
CN112257460B (zh) | 基于枢轴的汉越联合训练神经机器翻译方法 | |
Xu et al. | Do we need Chinese word segmentation for statistical machine translation? | |
Clark et al. | One system, many domains: Open-domain statistical machine translation via feature augmentation | |
CN116955594A (zh) | 语义融合预训练模型构建方法及跨语言摘要生成方法和系统 | |
Mandal et al. | Futurity of translation algorithms for neural machine translation (NMT) and its vision | |
Wu et al. | Adapting attention-based neural network to low-resource Mongolian-Chinese machine translation | |
Formiga Fanals et al. | Dealing with input noise in statistical machine translation | |
Ahmadnia et al. | Statistical machine translation for bilingually low-resource scenarios: A round-tripping approach | |
Acharya et al. | A Comparative Study of SMT and NMT: Case Study of English-Nepali Language Pair. | |
Zhu et al. | Sentence-level paraphrasing for machine translation system combination | |
Xu et al. | Spanish-Turkish low-resource machine translation: unsupervised learning vs round-tripping | |
Ruiz Costa-Jussà et al. | The talp–upc spanish–english wmt biomedical task: Bilingual embeddings and char-based neural language model rescoring in a phrase-based system | |
Hong-Viet et al. | Improving machine translation quality with denoising autoencoder and pre-ordering | |
Viet et al. | Dependency-based pre-ordering for English-Vietnamese statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |