CN110717345B - 一种译文重对齐的循环神经网络跨语言机器翻译方法 - Google Patents

一种译文重对齐的循环神经网络跨语言机器翻译方法 Download PDF

Info

Publication number
CN110717345B
CN110717345B CN201910976757.7A CN201910976757A CN110717345B CN 110717345 B CN110717345 B CN 110717345B CN 201910976757 A CN201910976757 A CN 201910976757A CN 110717345 B CN110717345 B CN 110717345B
Authority
CN
China
Prior art keywords
vector
time
sequence
input
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910976757.7A
Other languages
English (en)
Other versions
CN110717345A (zh
Inventor
苏依拉
范婷婷
仁庆道尔吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201910976757.7A priority Critical patent/CN110717345B/zh
Publication of CN110717345A publication Critical patent/CN110717345A/zh
Application granted granted Critical
Publication of CN110717345B publication Critical patent/CN110717345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Abstract

一种译文重对齐的循环神经网络的跨语言机器翻译方法,基于编码器‑解码器架构,其特征在于,编码器的循环神经网络和解码器的LSTM建模时,通过使用局部注意力方法生成的可变上下文向量和序列引导网络生成的序列引导向量,并配合重对齐方法,给出最符合原文语义的翻译序列。本发明翻译过程涉及上下文语境,并配合重对齐方法,可以得到更加接近人工翻译效果的目标语言文本。

Description

一种译文重对齐的循环神经网络跨语言机器翻译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种译文重对齐的循环神经网络跨语言机器翻译方法。
背景技术
随着计算机在人们生活中的使用越来越多样化,研究者们把目光投向了自然语言领域,其中,机器翻译是很具有研究价值和实用价值的一个方面。机器翻译(MachineTranslation,简称MT),它研究的是如何利用计算机将一种语言文字/语音片段翻译转换成另一种语言文字/语音片段,对于人类来说非常自然拿手的这项技能,对于计算机而言,就并不如它在数值计算方面那么容易了。而随着国际化的逐步推进,机器翻译的研究势在必行。
最初的机器翻译即短语型系统,只能翻译短语,单词,而涉及到更加深入内涵的领域就显得捉襟见肘。随后,语言模型建立。
语言模型用来计算一个特定序列中一系列单词出现的可能性。传统的语言模型基于马尔科夫假设,即一个词的出现仅仅依赖于它前面出现的有限的一个词或者几个词,故有N-gram结构,例如三元语法(trigram)结构,一个词的出现仅依赖于其前两个词,其概率可表示为:
Figure GDA0002501186520000011
基于此,语言翻译系统会出现若干可供选择的单词序列,系统需要对这些序列进行评估,将所有的选择通过概率函数进行计算,得出每个选择的“分数”(即概率),得分最高的即是最有可能的翻译序列。输入法即用这种语言模型。但在机器翻译领域,很多时候有限的一个或几个词并不足以描述语境,也会和整句,整段的语境相关联。因此,我们需要能基于完整语境进行翻译的方法。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种译文重对齐的循环神经网络跨语言机器翻译方法,本发明翻译过程涉及上下文语境,并配合重对齐方法,可以使翻译结果更加接近人工翻译效果,得到更符合语境的,语序正常的目标语言文本。
为了实现上述目的,本发明采用的技术方案是:
一种译文重对齐的循环神经网络跨语言机器翻译方法,采用基于局部注意力机制的编码器-解码器架构,其特征在于,在所述架构上添加一个额外的使用局部注意力机制的序列引导网络,编码器对源语言语句进行编码,表示为一个长度固定的上下文向量,解码器依据上下文向量以及序列引导网络给出的序列引导向量,给出目标语言语句。
所述编码器由一个基于局部注意力机制的循环神经网络(Recurrent neuralnetworks,RNN)组成,所述循环神经网络包含隐藏层h和输出层,隐藏层将输入的源语言序列编码为隐藏状态,每一j时刻源侧隐藏层hj的计算公式为:
hj=σ(W(hh)hj-1+W(hx)xj)
其中,xj是j时刻的输入单词向量,为序列x中的一个向量,x={x1,……,xj-1,xj,xj+1,……,xT},是T容量的输入源语言序列;W(hx)是约束输入xj的权重矩阵;W(hh)是约束前一时刻隐藏层输出hj-1的权重矩阵;hj-1是j-1时刻非线性激活函数的输出;σ是非线性激活函数;
即,每一j时刻隐藏层的输出特征hj都是基于前一时刻隐藏层的输出特征hj-1及当前输入的单词向量xj的。
所述非线性激活函数使用sigmoid函数。
所述局部注意力机制指生成每个目标单词时,仅对源语言语句的一个窗口进行关注,窗口以对齐位置pt为中心,D为半径,即窗口大小为[pt-D,pt+D],D根据经验选择。对齐位置pt的计算公式如下:
Figure GDA0002501186520000021
其中,S是源语言语句长度,vp和Wp为模型参数,T表示转置,ht是目标侧隐藏状态,计算后得到的pt取值范围为[0,S];
之后根据窗口生成当前目标单词所需要的上下文向量,是窗口内所有值的有权平均,其计算公式为:
Figure GDA0002501186520000031
其中,
Figure GDA0002501186520000032
表示所有的源侧隐藏状态,at是局部对齐向量,在以pt为中心的窗口放置一个正态分布,使pt周围的对齐点都可以被包含在内,因此,局部对齐向量at的计算公式为:
Figure GDA0002501186520000033
其中,pt是一个实数,s是以pt为中心的窗口内的一个整数,σ一般设为
Figure GDA0002501186520000034
计算at需要用到pt,那么就可以进行反向梯度计算,对vp和Wp进行学习.
score的计算公式为:
Figure GDA0002501186520000035
所述序列引导网络设置在解码器端,是一个LSTM,在每个时间步t,基于先前引导向量gt-1和当前引导输入信号zt,生成当前引导向量gt
gt=f(zt;gt-1)
每一时刻的引导输入信号zt由先前注意力向量
Figure GDA0002501186520000036
和属性特征A结合计算而成;
Figure GDA0002501186520000037
最终依据当前引导向量gt生成解码输入dt
dt=Wctct+Wgtgt
Wzt,Wct,Wgt均是权重矩阵,f是解码器LSTM单元内的递归函数。
所述解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量
Figure GDA0002501186520000041
和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
Figure GDA0002501186520000042
其中,σ是激活函数,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht
解码器通过以下方程进行计算:
Figure GDA0002501186520000043
Figure GDA0002501186520000044
Figure GDA0002501186520000045
Figure GDA0002501186520000046
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
其中,xt是t时刻的输入,mt和ht分别是t时刻记忆单元和隐藏状态,it、ft、ot、c′t分别是t时刻输入门,遗忘门,输出门,候选记忆单元,,
Figure GDA0002501186520000047
和bz分别是参数矩阵和偏差;
注意力向量
Figure GDA0002501186520000048
输入到softmax层,输出预测分布,其计算公式为:
Figure GDA0002501186520000049
其中,
Figure GDA00025011865200000410
是目标语言单词,W(S)是权重。
与现有技术相比,本发明的有益效果是:RNN适合处理一维序列数据,应用到机器翻译领域,它将基于完整语境给出翻译结果,比起传统翻译模型,基于RNN的机器翻译系统能选择更符合当前语境的词语,得到更通顺流畅,更准确的翻译结果。
附图说明
图1是本发明整体架构图。
图2是本发明序列引导网络架构图。
具体实施方式
下面结合附图和实施案例详细说明本发明的实施方式。
本发明为一种译文重对齐的循环神经网络跨语言机器翻译方法,基于局部注意力序列引导网络的编码器-解码器架构,在基本的使用局部注意力的编码器-解码器结构上,添加一个额外的同样使用局部注意力的序列引导网络。翻译时将源语言语句输入到编码器中,编码器对源语言语句进行编码,转换成词向量序列,经过循环神经网络的隐藏层计算,得到源侧隐藏状态序列,根据对齐向量,计算上下文向量,表示为上下文向量序列,解码器依据动态生成的上下文向量生成注意力向量,结合序列引导网络给出的序列引导向量,共同生成目标语言序列。
本发明中,编码器可由一个基于局部注意力机制的循环神经网络(Recurrentneural networks,简称RNN)组成,带有序列引导网络;所述局部注意力指生成每个目标单词时,注意力只关注源语言语句的一个窗口,本发明首先对每个目标单词生成对齐位置pt:文本的上下文向量作为一个有权均值在源隐藏状态集合的窗口[pt-D,pt+D]生成,D根据经验选择,局部对齐向量at∈R2D+1;对齐位置pt的计算公式如下:
Figure GDA0002501186520000051
其中,S是源句长度,vp和Wp为模型参数。
局部对齐向量at的计算公式如下:
Figure GDA0002501186520000052
其中,score的计算公式为:
Figure GDA0002501186520000053
序列中每一个单词x顺序输入编码器,编码器的循环神经网络的隐藏层根据公式进行循环计算,读完序列的最后一个单词,隐藏层得到一个关于整个序列的上下文向量ct,编码器完成工作。
本发明的解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量
Figure GDA0002501186520000061
和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
其中,σ是激活函数,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht
解码器通过以下方程进行计算:
Figure GDA0002501186520000063
Figure GDA0002501186520000064
Figure GDA0002501186520000065
Figure GDA0002501186520000066
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
本发明序列引导网络是基于LSTM,在每个时间步t,基于先前引导向量,当前注意力向量,属性特征,生成当前引导向量。属性特征设定为调序规则。
将输入的源语言语句进行分词和词性标注,并对句法树进行分析,之后根据目标语言语序对源语言语句进行调序,使源语言语句在语序上尽量靠近目标语言的语序。
以汉蒙翻译为例,源语言为汉语,目标语言为蒙语,设输入源语言文本向量为X=(x1,x2,……,xn),目标文本向量为Y=(y1,y2,……,ym)。为了处理方便,蒙语使用拉丁转写方式进行处理。具体步骤如下:
1.将源语言序列X=(x1,x2,……,xn)输入进模型中,模型对其进行处理
2.编码器,解码器分别生成隐藏状态,生成第一个目标单词y1
3.序列引导网络依据预先输入的调序规则(即属性特征A),以及输入序列xt,生成当前序列引导向量gt(如图1所示),输入到解码器中
4.模型生成目标单词和输入序列的对齐位置pt,并依据对齐位置,编码器生成上下文向量ct
5.解码器依据序列中当前输入,前一个生成单词,以及序列引导向量,上下文向量,生成当前对应的目标单词yt
6.之后,解码器和编码器重复这个过程,直到序列结束。

Claims (3)

1.一种译文重对齐的循环神经网络跨语言机器翻译方法,采用基于局部注意力机制的编码器-解码器架构,在所述架构上添加一个额外的使用局部注意力机制的序列引导网络,编码器对源语言语句进行编码,表示为一个长度固定的上下文向量,解码器依据上下文向量以及序列引导网络给出的序列引导向量,给出目标语言语句,其中所述编码器由一个基于局部注意力机制的循环神经网络(Recurrent neural networks,RNN)组成,所述循环神经网络包含隐藏层h和输出层,隐藏层h将输入的源语言序列编码为隐藏状态,每一j时刻源侧隐藏层特征hj的计算公式为:
hj=σ(W(hh)hj-1+W(hx)xj)
其中,xj是j时刻的输入单词向量,为序列x中的一个向量,x={x1,……,xj-1,xj,xj+1,……,xT},是T容量的输入源语言序列;W(hx)是输入xj的权重矩阵;W(hh)是前一时刻隐藏层输出hj-1的权重矩阵;hj-1是j-1时刻非线性激活函数的输出;σ是非线性激活函数;
即,每一j时刻源侧隐藏层的输出特征hj都是基于前一时刻隐藏层的输出特征hj-1及当前输入的单词向量xj的;
所述序列引导网络是一个LSTM,在每个时间步t,基于先前引导向量gt-1和当前引导输入信号zt,生成当前引导向量gt
gt=f(zt;gt-1)
每一时刻的引导输入信号zt由先前注意力向量
Figure FDA0002501186510000011
和属性特征A结合计算而成;
Figure FDA0002501186510000012
最终依据当前引导向量gt生成解码输入dt
dt=Wctct+Wgtgt
Wzt,Wct,Wgt均是权重矩阵,f是解码器LSTM单元内的递归函数;
其特征在于,所述解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量
Figure FDA0002501186510000021
和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
Figure FDA0002501186510000022
其中,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht
解码器通过以下方程进行计算:
Figure FDA0002501186510000023
Figure FDA0002501186510000024
Figure FDA0002501186510000025
Figure FDA0002501186510000026
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
其中,σ是激活函数,xt是t时刻的输入,mt和ht分别是t时刻记忆单元和隐藏状态,it、ft、ot、c′t分别是t时刻输入门,遗忘门,输出门,候选记忆单元,
Figure FDA0002501186510000027
和bz分别是参数矩阵和偏差;
注意力向量
Figure FDA0002501186510000028
输入到softmax层,输出预测分布,其计算公式为:
Figure FDA0002501186510000029
其中,
Figure FDA00025011865100000210
是目标语言单词,W(S)是权重。
2.根据权利要求1所述译文重对齐的循环神经网络跨语言机器翻译方法,其特征在于,所述非线性激活函数使用sigmoid函数。
3.根据权利要求1所述译文重对齐的循环神经网络跨语言机器翻译方法,其特征在于,所述序列引导网络设置在解码器端。
CN201910976757.7A 2019-10-15 2019-10-15 一种译文重对齐的循环神经网络跨语言机器翻译方法 Active CN110717345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910976757.7A CN110717345B (zh) 2019-10-15 2019-10-15 一种译文重对齐的循环神经网络跨语言机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910976757.7A CN110717345B (zh) 2019-10-15 2019-10-15 一种译文重对齐的循环神经网络跨语言机器翻译方法

Publications (2)

Publication Number Publication Date
CN110717345A CN110717345A (zh) 2020-01-21
CN110717345B true CN110717345B (zh) 2020-07-07

Family

ID=69211667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910976757.7A Active CN110717345B (zh) 2019-10-15 2019-10-15 一种译文重对齐的循环神经网络跨语言机器翻译方法

Country Status (1)

Country Link
CN (1) CN110717345B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428557A (zh) * 2020-02-18 2020-07-17 深圳壹账通智能科技有限公司 基于神经网络模型的手写签名的自动校验的方法和装置
CN112308402B (zh) * 2020-10-29 2022-04-12 复旦大学 基于长短期记忆网络的电力时间序列数据的异常检测方法
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN114757969B (zh) * 2022-04-08 2023-04-07 华南理工大学 基于全局追踪解码的文字图像书写轨迹恢复方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN109190472A (zh) * 2018-07-28 2019-01-11 天津大学 基于图像与属性联合引导的行人属性识别方法
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110023963B (zh) * 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
CN107967262B (zh) * 2017-11-02 2018-10-30 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN108932232A (zh) * 2018-05-07 2018-12-04 内蒙古工业大学 一种基于lstm神经网络的蒙汉互译方法
CN109271646B (zh) * 2018-09-04 2022-07-08 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN109190472A (zh) * 2018-07-28 2019-01-11 天津大学 基于图像与属性联合引导的行人属性识别方法
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Guiding the Long-Short Term Memory model for Image Caption Generation;Xu Jia et al.;《2015 IEEE International Conference on Computer Vision》;20151231;第2408-2415页 *
基于LSTM神经网络的蒙汉机器翻译的研究;刘婉婉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第 01 期);第I138-4515页 *
基于长短期记忆网络的行人属性识别;郑伟雄;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190415(第 04 期);第I138-1060页 *

Also Published As

Publication number Publication date
CN110717345A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110717345B (zh) 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN110069790B (zh) 一种通过译文回译对照原文的机器翻译系统及方法
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
WO2021155699A1 (zh) 面向中文长文本自动摘要的全局编码方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN110059324B (zh) 基于依存信息监督的神经网络机器翻译方法及装置
JP2008165786A (ja) 機械翻訳用のシーケンス分類
CN108415906B (zh) 基于领域自动识别篇章机器翻译方法、机器翻译系统
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
CN110569505B (zh) 一种文本输入方法及装置
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN112347796A (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
Natarajan et al. Sentence2signgesture: a hybrid neural machine translation network for sign language video generation
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
Qin et al. Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling
Shi et al. Adding Visual Information to Improve Multimodal Machine Translation for Low-Resource Language
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
Sun et al. Building high-accuracy multilingual asr with gated language experts and curriculum training
WO2023123892A1 (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant