CN108984539B - 基于模拟未来时刻的翻译信息的神经机器翻译方法 - Google Patents
基于模拟未来时刻的翻译信息的神经机器翻译方法 Download PDFInfo
- Publication number
- CN108984539B CN108984539B CN201810785649.7A CN201810785649A CN108984539B CN 108984539 B CN108984539 B CN 108984539B CN 201810785649 A CN201810785649 A CN 201810785649A CN 108984539 B CN108984539 B CN 108984539B
- Authority
- CN
- China
- Prior art keywords
- future
- gold
- target
- vector
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法,为获得良好的神经机器翻译而设计。本发明模拟未来时刻的翻译信息,从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟,本发明显著提高了神经机器翻译模型NMT的翻译质量。
Description
技术领域
本发明属于机器学习技术领域,具体涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法。
背景技术
传统的机器翻译方法为统计机器翻译方法(Statistical Machine Translation,简称SMT),从大规模平行语料中统计诸如词对、平行短语对、平行句法结构等的信息,以建立针对翻译过程的统计模型。近年来,随着深度学习的发展,利用神经网络将源语言映射到目标语言的翻译模型,即神经机器翻译模型(Neural Machine Translation,简称NMT),显著提升了机器翻译的质量,超越了传统统计机器翻译方法的性能,成为目前工业界和学术界的主流方法。
基准神经机器翻译系统为编码-解码框架,将源语言编码为隐藏向量信息,再把该隐藏向量信息解码为目标语言[Sutskever et al.,2014;Bahdanau et al.,2015]。编码和解码功能均通过循环神经网络(Recurrent Neural Networks,简称RNNs)实现。这两个循环神经网络是通过一个注意力层(Attention Layer)连接建模的,在翻译目标单词时检测其与源端语句相关的部分,这个过程称之为使用注意力机制(Attention)。神经机器翻译是一种端到端的翻译模型,它在给定源端语句X=x1,x2,...,x|X|的条件下直接对目标端语句Y=y1,y2,...,y|Y|的条件概率P(Y|X)进行建模:
其中,源端语句X通过编码器编码为隐藏层向量H=h1,h2,...,h|x|,解码器根据条件概率逐字地预测出目标语句Y。第j个目标端单词的计算概率为:
P(yj|y<j,X)=g(sj,yj-1,cj)
其中,g是一个非线性概率函数,sj是目标端的隐藏层向量,cj是通过注意力机制cj=Att(sj-1,hi)得到的上下文向量,Att函数具体如下:
其中,υT a、Wa、Ua是参数矩阵,这种注意力机制可以构建在生成目标端当前词时对源端所有词的注意力分布。
基准神经机器翻译系统为编码-解码框架中解码过程按照自左向右的顺序依次解码,而没有考虑到未来时刻的翻译内容对当前时刻的翻译的影响。基准神经机器翻译系统是以自左向右的方式进行翻译的,这使得在翻译过程中,自右向左产生的目标端上下文信息从未被利用到。因此,对传统的神经机器翻译加上一个反向的解码器,可以探索神经机器翻译的双向解码。
基于该思想,异步的双向解码方法被提出[Zhang Xet al.,2018]。首先,该方法添加了一个反向解码器按照自右向左的顺序进行翻译,生成目标端隐藏层向量;其次,正向解码器按照自左向右的顺序进行翻译,每一步同时使用源端隐藏层向量和反向解码器生成的目标端隐藏层向量。通过这种新型的架构得到的模型能够充分地利用源端信息和目标端未来信息,提高翻译效果。
异步双向解码[Zhang Xet al.,2018]:该方法使用两遍解码:首先从右向左进行第一遍解码,即对句子从后向前进行翻译,从而可获得句子后部的翻译信息;然后再从左向右进行第二遍解码,即对句子从前向后进行翻译,并在这一过程中使用第一遍解码所获得的句子后部的翻译信息,即未来翻译信息。这一方法虽然使用了未来时刻的翻译信息,但是两遍解码过程消耗时间长、效率低,并且第一遍从后向前进行翻译的过程不符合语言的表达习惯。
发明内容
为了解决上述问题,本发明提供一种减少过长或者过短句子的产生以及利用目标端未来时刻隐藏层向量,为计算当前时刻的目标端词的概率分布提供信息帮助的基于模拟未来时刻的翻译信息的神经机器翻译方法。
为达到上述发明目的,本发明基于模拟未来时刻的翻译信息的神经机器翻译方法,包括:
基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练,得到固定模型参数M1;
固定模型参数M1,最小化损失lossgold,得到Z’和c’i相关模型参数M2;
固定模型参数M1和M2,最小化损失losscontext使得目标词的预测概率分布ppredicate接近于理想概率分布pgold。
进一步地,训练一个多层感知机MLP,模拟BP:
pBP=σ(MLP(concat(si,ci)))
losslength=(pBP-BP)2
其中,si是当前时刻i的解码器隐藏层向量,ci是当前时刻的上下文向量,concat是将两个向量相连的操作,σ是Sigmoid函数;pBP是模拟的长度惩罚,通过优化损失函数losslength使模拟的长度惩罚pBP接近真实的长度惩罚BP;当前机器翻译结果的长度小于参考答案的长度,其惩罚BP为:
其中,c为当前时刻目标端翻译的句长,r为参考答案的句长。
进一步地,训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献,用一个预测的概率分布ppredicate来模拟pgold:
ppredicate=MLP’(concat(si,ci))
losscontext=-(pglod)*log(ppredicate)
其中,ppredicate是基于将基准系统的目标端隐藏层向量si和源端上下文向量ci相连,通过MLP’层所预测的目标词的概率分布,通过优化交叉熵损失函数losscontext使得ppredicate和pgold相接近,pgold为当前时刻目标端词的概率分布;
进一步地,未来目标端上下文向量c’i的获取方法包括:在目标端添加了一个双向编码器,对目标端Y=y1,y2,...,y|Y|进行编码得到目标端隐藏层向量序列Z=z1,z2,...,z|Y|;
针对当前时刻i,构建当前时刻i的解码器隐藏层向量si对zi+1,…,zi+k的注意力机制,从而获得未来目标端上下文向量c’i:
ci'=Att(si,Z')
其中,si是当前时刻i的解码器隐藏层向量,Z’=zi+1,zi+2,...,zi+k是Z序列中当前时刻i的未来时刻的隐藏层向量,Att是注意力机制函数,k(1≤k≤|Y|-i)表示考虑未来k步;
在获得未来目标端上下文向量c’i之后,通过以下方式将其作为未来信息贡献到当前词的概率分布计算中:
pgold=Softmax(concat(si,ci'))
lossgold=-log(pgold(yi))
其中,c’i同当前时刻i的解码器隐藏层向量si相连,经Softmax层输出当前时刻目标端词的概率分布pgold。通过最小化损失函数lossgold,使得正确答案yi的概率在概率分布pgold中最大化,从而优化未来目标端上下文向量c’i对概率分布pgold的贡献。
与现有技术相比,本发明基于模拟未来时刻的翻译信息的神经机器翻译方法的有益效果在于:
本发明模拟未来时刻的翻译信息,模拟未来翻译的长度,根据目标端句子长度控制翻译结果长度,减少过长或者过短句子的产生。模拟未来目标端上下文向量,利用目标端未来时刻隐藏层向量,为计算当前时刻的目标端词的概率分布提供信息帮助。分别从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟,显著提高了神经机器翻译模型NMT的翻译质量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明的基于模拟未来时刻的翻译信息的神经机器翻译方法的对目标端上下文向量估计的损失示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用于限制本发明的范围。
实施例
本实施例基于模拟未来时刻的翻译信息的神经机器翻译方法,包括:
获取训练数据;
利用训练数据训练一个多层感知机(Multi-Layer Perceptron,简称MLP)以可以模拟BP:
pBP=σ(MLP(concat(si,ci)))
losslength=(pBP-BP)2
其中,si是当前时刻(即当前时刻i)的解码器隐藏层向量,ci是当前时刻的上下文向量,concat是将两个向量相连的操作,σ是Sigmoid函数。pBP是模拟的长度惩罚,通过优化(最小化)损失函数losslength可使模拟的长度惩罚pBP尽量接近真实的长度惩罚BP。
长度惩罚因子BP用于鼓励机器翻译结果和参考答案的长度尽量接近,如果当前机器翻译结果的长度小于参考答案的长度,其惩罚BP为:
其中,c为当前时刻目标端翻译的句长,r为参考答案的句长。可看出当前翻译长度越小于参考答案的长度,其惩罚力度越强。
为了模拟未来目标端上下文向量,首先我们在目标端添加了一个双向编码器,对目标端Y=y1,y2,...,y|Y|进行编码得到目标端隐藏层向量序列Z=z1,z2,...,z|Y|。如图1所示,针对当前时刻i,构建当前时刻i的解码器隐藏层向量si对zi+1,…,zi+k的注意力机制,从而获得未来目标端上下文向量c’i:
ci'=Att(si,Z')
其中,si是当前时刻i的解码器隐藏层向量,Z’=zi+1,zi+2,...,zi+k是Z序列中当前时刻i的未来时刻的隐藏层向量,Att是注意力机制函数(如2.2.1节),k(1<k<|Y|-i)表示考虑未来k步。
在获得未来目标端上下文向量c’i之后,通过以下方式将其作为未来信息贡献到当前词的概率分布计算中:
pgold=Softmax(concat(si,ci'))
lossgold=-log(pgold(yi))
其中,c’i同当前时刻i的解码器隐藏层向量si相连,经Softmax层输出当前时刻目标端词的概率分布pgold。通过最小化损失函数lossgold,使得正确答案yi的概率在概率分布pgold中最大化,从而优化未来目标端上下文向量c’i对概率分布pgold的贡献。这一步用来获得最优的未来目标端上下文向量c’i。
但是在实际翻译中,并不能获得未来的全部翻译,也就是不能获得序列Z’,导致无法计算未来目标端上下文向量c’i以及其对目标端词的概率分布的贡献。为解决这个问题,我们通过训练一个多层感知机MLP’以模拟c’i对目标端词的概率分布的贡献,也就是用一个预测的概率分布ppredicate来模拟pgold:
ppredicate=MLP’(concat(si,ci))
losscontext=-(pglod)*log(ppredicate)
其中,ppredicate是基于将基准系统的目标端隐藏层向量si和源端上下文向量ci相连,通过MLP’层所预测的目标词的概率分布。通过优化交叉熵损失函数losscontext使得ppredicate和pgold相接近。
本方案具体实施例都是以125万的LDC中英双语平行语料作为训练集,测试集分别采用美国国家标准与技术研究院2002年的数据Nist02、Nist03、Nist04、Nist05和Nist08,Nist06作为开发集,采用的评测标准是BLEU[Papineni et al.,2002],评测脚本为multi-bleu.perl,英文单词全部为小写字母。
本实施例主要与典型的神经网络翻译框架做对比,采用基于Dynet的Lamtram系统是Neubig等人2017年提出的,系统中使用的是LSTM单元。在本实施例中,模拟未来翻译的长度的多层感知机设置为单层深度网络,模拟未来目标端上下文向量的多层感知机设置为三层深度网络,其中长度参数k设置为1。
实验结果对比如表1所示,异步双向解码[Zhang X et al.,2018]的翻译结果为34.768,Lamtram的基准结果为36.078,加入了模拟未来翻译长度的结果比基准结果提高了约0.74个BLEU,加入了模拟未来翻译长度和模拟未来目标端上下文向量的结果比基准结果提高了约1.06个BLEU。
表1实验结果
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (1)
1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法,其特征在于,包括:
基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练,得到固定模型参数M1;
固定模型参数M1,最小化损失lossgold,得到Z’和c’i相关模型参数M2;
固定模型参数M1和M2,最小化损失losscontext使得目标词的预测概率分布ppredicate近似于理想概率分布pgold;
训练一个多层感知机MLP,模拟BP:
pBP=σ(MLP(concat(si,ci)))
losslength=(pBP-BP)2
其中,si是当前时刻i的解码器隐藏层向量,ci是当前时刻的上下文向量,concat是将两个向量相连的操作,σ是Sigmoid函数;pBP是模拟的长度惩罚,通过优化损失函数losslength使模拟的长度惩罚pBP近似真实的长度惩罚BP;当前机器翻译结果的长度小于参考答案的长度,其惩罚BP为:
其中,c为当前时刻目标端翻译的句长,r为参考答案的句长;
训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献,用一个预测的概率分布ppredicate来模拟pgold:
ppredicate=MLP’(concat(si,ci))
losscontext=-(pglod)*log(ppredicate)
其中,ppredicate是基于将基准系统的目标端隐藏层向量si和源端上下文向量ci相连,通过MLP’层所预测的目标词的概率分布,并优化交叉熵损失函数losscontext使得ppredicate和pgold相近似,pgold为当前时刻目标端词的概率分布;
未来目标端上下文向量c’i的获取方法包括:在目标端添加了一个双向编码器,对目标端Y=y1,y2,...,y|Y|进行编码得到目标端隐藏层向量序列Z=z1,z2,...,z|Y|;
针对当前时刻i,构建当前时刻i的解码器隐藏层向量si对zi+1,…,zi+k的注意力机制,从而获得未来目标端上下文向量c’i:
ci'=Att(si,Z')
其中,si是当前时刻i的解码器隐藏层向量,Z’=zi+1,zi+2,...,zi+k是Z序列中当前时刻i的未来时刻的隐藏层向量,Att是注意力机制函数,k,1<=k<|Y|-i,表示考虑未来k步;
在获得未来目标端上下文向量c’i之后,通过以下方式将其作为未来信息贡献到当前词的概率分布计算中:
pgold=Softmax(concat(si,ci'))
lossgold=-log(pgold(yi))
其中,c’i同当前时刻i的解码器隐藏层向量si相连,经Softmax层输出当前时刻目标端词的概率分布pgold;通过最小化损失函数lossgold,使得正确答案yi的概率在概率分布pgold中最大化,从而优化未来目标端上下文向量c’i对概率分布pgold的贡献。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810785649.7A CN108984539B (zh) | 2018-07-17 | 2018-07-17 | 基于模拟未来时刻的翻译信息的神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810785649.7A CN108984539B (zh) | 2018-07-17 | 2018-07-17 | 基于模拟未来时刻的翻译信息的神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108984539A CN108984539A (zh) | 2018-12-11 |
CN108984539B true CN108984539B (zh) | 2022-05-17 |
Family
ID=64548347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810785649.7A Active CN108984539B (zh) | 2018-07-17 | 2018-07-17 | 基于模拟未来时刻的翻译信息的神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984539B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254750A (zh) * | 2019-01-29 | 2022-03-29 | 北京金山数字娱乐科技有限公司 | 准确度损失确定方法以及装置 |
CN111428519B (zh) * | 2020-03-06 | 2022-03-29 | 中国科学院计算技术研究所 | 一种基于熵的神经机器翻译动态解码方法及系统 |
CN111860631B (zh) * | 2020-07-13 | 2023-08-22 | 电子科技大学中山学院 | 一种采用错因强化方式优化损失函数的物品识别方法 |
CN112597778B (zh) * | 2020-12-14 | 2023-06-13 | 华为技术有限公司 | 一种翻译模型的训练方法、翻译方法以及设备 |
CN112668347B (zh) * | 2021-03-17 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104169948A (zh) * | 2012-03-15 | 2014-11-26 | 赛普特系统有限公司 | 用于文本语义处理的方法、装置及产品 |
CN106484682A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN107368476A (zh) * | 2017-07-25 | 2017-11-21 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
DE202017105835U1 (de) * | 2016-09-26 | 2018-01-02 | Google Inc. | Neuronale Maschinenübersetzungssysteme |
CN107729329A (zh) * | 2017-11-08 | 2018-02-23 | 苏州大学 | 一种基于词向量连接技术的神经机器翻译方法及装置 |
-
2018
- 2018-07-17 CN CN201810785649.7A patent/CN108984539B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104169948A (zh) * | 2012-03-15 | 2014-11-26 | 赛普特系统有限公司 | 用于文本语义处理的方法、装置及产品 |
CN106484682A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
DE202017105835U1 (de) * | 2016-09-26 | 2018-01-02 | Google Inc. | Neuronale Maschinenübersetzungssysteme |
CN107368476A (zh) * | 2017-07-25 | 2017-11-21 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
CN107729329A (zh) * | 2017-11-08 | 2018-02-23 | 苏州大学 | 一种基于词向量连接技术的神经机器翻译方法及装置 |
Non-Patent Citations (2)
Title |
---|
Asynchronous Bidirectional Decoding for Neural Machine Translation;Xiangwen Zhang 等;《https://arxiv.org/abs/1801.05122v1》;20180116;第1-8页 * |
英汉机器音译系统对比研究;高恩婷 等;《北京大学学报(自然科学版)》;20170331;第53卷(第2期);第287-294页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108984539A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984539B (zh) | 基于模拟未来时刻的翻译信息的神经机器翻译方法 | |
US11270079B2 (en) | Translation model based training method and translation method, computer device, and storage medium | |
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
CN109117483B (zh) | 神经网络机器翻译模型的训练方法及装置 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN107729329B (zh) | 一种基于词向量连接技术的神经机器翻译方法及装置 | |
Zhang et al. | Regularizing neural machine translation by target-bidirectional agreement | |
Gür et al. | User modeling for task oriented dialogues | |
CN109062907B (zh) | 融入依存关系的神经机器翻译方法 | |
CN108920472B (zh) | 一种基于深度学习的机器翻译系统的融合系统及方法 | |
CN110598224A (zh) | 翻译模型的训练方法、文本处理方法、装置及存储介质 | |
CN109242090B (zh) | 一种基于gan网络的视频描述及描述一致性判别方法 | |
CN110717345B (zh) | 一种译文重对齐的循环神经网络跨语言机器翻译方法 | |
CN110738062A (zh) | 一种gru神经网络蒙汉机器翻译方法 | |
CN110188348B (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
CN108932232A (zh) | 一种基于lstm神经网络的蒙汉互译方法 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
EP3534276A1 (en) | Sequence conversion method and device | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN112800725A (zh) | 一种翻译模型 | |
Delbrouck et al. | Modulating and attending the source image during encoding improves multimodal translation | |
CN107766319A (zh) | 序列转换方法及装置 | |
ShweSin et al. | Large scale Myanmar to English neural machine translation system | |
Goyal et al. | Contact relatedness can help improve multilingual NMT: Microsoft STCI-MT@ WMT20 | |
Bradbury et al. | MetaMind neural machine translation system for WMT 2016 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |