CN110717345B - 一种译文重对齐的循环神经网络跨语言机器翻译方法 - Google Patents
一种译文重对齐的循环神经网络跨语言机器翻译方法 Download PDFInfo
- Publication number
- CN110717345B CN110717345B CN201910976757.7A CN201910976757A CN110717345B CN 110717345 B CN110717345 B CN 110717345B CN 201910976757 A CN201910976757 A CN 201910976757A CN 110717345 B CN110717345 B CN 110717345B
- Authority
- CN
- China
- Prior art keywords
- vector
- time
- sequence
- input
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Abstract
一种译文重对齐的循环神经网络的跨语言机器翻译方法,基于编码器‑解码器架构,其特征在于,编码器的循环神经网络和解码器的LSTM建模时,通过使用局部注意力方法生成的可变上下文向量和序列引导网络生成的序列引导向量,并配合重对齐方法,给出最符合原文语义的翻译序列。本发明翻译过程涉及上下文语境,并配合重对齐方法,可以得到更加接近人工翻译效果的目标语言文本。
Description
技术领域
本发明属于机器翻译技术领域,特别涉及一种译文重对齐的循环神经网络跨语言机器翻译方法。
背景技术
随着计算机在人们生活中的使用越来越多样化,研究者们把目光投向了自然语言领域,其中,机器翻译是很具有研究价值和实用价值的一个方面。机器翻译(MachineTranslation,简称MT),它研究的是如何利用计算机将一种语言文字/语音片段翻译转换成另一种语言文字/语音片段,对于人类来说非常自然拿手的这项技能,对于计算机而言,就并不如它在数值计算方面那么容易了。而随着国际化的逐步推进,机器翻译的研究势在必行。
最初的机器翻译即短语型系统,只能翻译短语,单词,而涉及到更加深入内涵的领域就显得捉襟见肘。随后,语言模型建立。
语言模型用来计算一个特定序列中一系列单词出现的可能性。传统的语言模型基于马尔科夫假设,即一个词的出现仅仅依赖于它前面出现的有限的一个词或者几个词,故有N-gram结构,例如三元语法(trigram)结构,一个词的出现仅依赖于其前两个词,其概率可表示为:
基于此,语言翻译系统会出现若干可供选择的单词序列,系统需要对这些序列进行评估,将所有的选择通过概率函数进行计算,得出每个选择的“分数”(即概率),得分最高的即是最有可能的翻译序列。输入法即用这种语言模型。但在机器翻译领域,很多时候有限的一个或几个词并不足以描述语境,也会和整句,整段的语境相关联。因此,我们需要能基于完整语境进行翻译的方法。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种译文重对齐的循环神经网络跨语言机器翻译方法,本发明翻译过程涉及上下文语境,并配合重对齐方法,可以使翻译结果更加接近人工翻译效果,得到更符合语境的,语序正常的目标语言文本。
为了实现上述目的,本发明采用的技术方案是:
一种译文重对齐的循环神经网络跨语言机器翻译方法,采用基于局部注意力机制的编码器-解码器架构,其特征在于,在所述架构上添加一个额外的使用局部注意力机制的序列引导网络,编码器对源语言语句进行编码,表示为一个长度固定的上下文向量,解码器依据上下文向量以及序列引导网络给出的序列引导向量,给出目标语言语句。
所述编码器由一个基于局部注意力机制的循环神经网络(Recurrent neuralnetworks,RNN)组成,所述循环神经网络包含隐藏层h和输出层,隐藏层将输入的源语言序列编码为隐藏状态,每一j时刻源侧隐藏层hj的计算公式为:
hj=σ(W(hh)hj-1+W(hx)xj)
其中,xj是j时刻的输入单词向量,为序列x中的一个向量,x={x1,……,xj-1,xj,xj+1,……,xT},是T容量的输入源语言序列;W(hx)是约束输入xj的权重矩阵;W(hh)是约束前一时刻隐藏层输出hj-1的权重矩阵;hj-1是j-1时刻非线性激活函数的输出;σ是非线性激活函数;
即,每一j时刻隐藏层的输出特征hj都是基于前一时刻隐藏层的输出特征hj-1及当前输入的单词向量xj的。
所述非线性激活函数使用sigmoid函数。
所述局部注意力机制指生成每个目标单词时,仅对源语言语句的一个窗口进行关注,窗口以对齐位置pt为中心,D为半径,即窗口大小为[pt-D,pt+D],D根据经验选择。对齐位置pt的计算公式如下:
其中,S是源语言语句长度,vp和Wp为模型参数,T表示转置,ht是目标侧隐藏状态,计算后得到的pt取值范围为[0,S];
之后根据窗口生成当前目标单词所需要的上下文向量,是窗口内所有值的有权平均,其计算公式为:
score的计算公式为:
所述序列引导网络设置在解码器端,是一个LSTM,在每个时间步t,基于先前引导向量gt-1和当前引导输入信号zt,生成当前引导向量gt:
gt=f(zt;gt-1)
最终依据当前引导向量gt生成解码输入dt:
dt=Wctct+Wgtgt
Wzt,Wct,Wgt均是权重矩阵,f是解码器LSTM单元内的递归函数。
所述解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
其中,σ是激活函数,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht;
解码器通过以下方程进行计算:
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
与现有技术相比,本发明的有益效果是:RNN适合处理一维序列数据,应用到机器翻译领域,它将基于完整语境给出翻译结果,比起传统翻译模型,基于RNN的机器翻译系统能选择更符合当前语境的词语,得到更通顺流畅,更准确的翻译结果。
附图说明
图1是本发明整体架构图。
图2是本发明序列引导网络架构图。
具体实施方式
下面结合附图和实施案例详细说明本发明的实施方式。
本发明为一种译文重对齐的循环神经网络跨语言机器翻译方法,基于局部注意力序列引导网络的编码器-解码器架构,在基本的使用局部注意力的编码器-解码器结构上,添加一个额外的同样使用局部注意力的序列引导网络。翻译时将源语言语句输入到编码器中,编码器对源语言语句进行编码,转换成词向量序列,经过循环神经网络的隐藏层计算,得到源侧隐藏状态序列,根据对齐向量,计算上下文向量,表示为上下文向量序列,解码器依据动态生成的上下文向量生成注意力向量,结合序列引导网络给出的序列引导向量,共同生成目标语言序列。
本发明中,编码器可由一个基于局部注意力机制的循环神经网络(Recurrentneural networks,简称RNN)组成,带有序列引导网络;所述局部注意力指生成每个目标单词时,注意力只关注源语言语句的一个窗口,本发明首先对每个目标单词生成对齐位置pt:文本的上下文向量作为一个有权均值在源隐藏状态集合的窗口[pt-D,pt+D]生成,D根据经验选择,局部对齐向量at∈R2D+1;对齐位置pt的计算公式如下:
其中,S是源句长度,vp和Wp为模型参数。
局部对齐向量at的计算公式如下:
其中,score的计算公式为:
序列中每一个单词x顺序输入编码器,编码器的循环神经网络的隐藏层根据公式进行循环计算,读完序列的最后一个单词,隐藏层得到一个关于整个序列的上下文向量ct,编码器完成工作。
本发明的解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
其中,σ是激活函数,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht;
解码器通过以下方程进行计算:
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
本发明序列引导网络是基于LSTM,在每个时间步t,基于先前引导向量,当前注意力向量,属性特征,生成当前引导向量。属性特征设定为调序规则。
将输入的源语言语句进行分词和词性标注,并对句法树进行分析,之后根据目标语言语序对源语言语句进行调序,使源语言语句在语序上尽量靠近目标语言的语序。
以汉蒙翻译为例,源语言为汉语,目标语言为蒙语,设输入源语言文本向量为X=(x1,x2,……,xn),目标文本向量为Y=(y1,y2,……,ym)。为了处理方便,蒙语使用拉丁转写方式进行处理。具体步骤如下:
1.将源语言序列X=(x1,x2,……,xn)输入进模型中,模型对其进行处理
2.编码器,解码器分别生成隐藏状态,生成第一个目标单词y1
3.序列引导网络依据预先输入的调序规则(即属性特征A),以及输入序列xt,生成当前序列引导向量gt(如图1所示),输入到解码器中
4.模型生成目标单词和输入序列的对齐位置pt,并依据对齐位置,编码器生成上下文向量ct
5.解码器依据序列中当前输入,前一个生成单词,以及序列引导向量,上下文向量,生成当前对应的目标单词yt
6.之后,解码器和编码器重复这个过程,直到序列结束。
Claims (3)
1.一种译文重对齐的循环神经网络跨语言机器翻译方法,采用基于局部注意力机制的编码器-解码器架构,在所述架构上添加一个额外的使用局部注意力机制的序列引导网络,编码器对源语言语句进行编码,表示为一个长度固定的上下文向量,解码器依据上下文向量以及序列引导网络给出的序列引导向量,给出目标语言语句,其中所述编码器由一个基于局部注意力机制的循环神经网络(Recurrent neural networks,RNN)组成,所述循环神经网络包含隐藏层h和输出层,隐藏层h将输入的源语言序列编码为隐藏状态,每一j时刻源侧隐藏层特征hj的计算公式为:
hj=σ(W(hh)hj-1+W(hx)xj)
其中,xj是j时刻的输入单词向量,为序列x中的一个向量,x={x1,……,xj-1,xj,xj+1,……,xT},是T容量的输入源语言序列;W(hx)是输入xj的权重矩阵;W(hh)是前一时刻隐藏层输出hj-1的权重矩阵;hj-1是j-1时刻非线性激活函数的输出;σ是非线性激活函数;
即,每一j时刻源侧隐藏层的输出特征hj都是基于前一时刻隐藏层的输出特征hj-1及当前输入的单词向量xj的;
所述序列引导网络是一个LSTM,在每个时间步t,基于先前引导向量gt-1和当前引导输入信号zt,生成当前引导向量gt:
gt=f(zt;gt-1)
最终依据当前引导向量gt生成解码输入dt:
dt=Wctct+Wgtgt
Wzt,Wct,Wgt均是权重矩阵,f是解码器LSTM单元内的递归函数;
其特征在于,所述解码器是使用局部注意力的LSTM,使用输入-反馈方式,每一个时间步的对齐决策结合了先前时刻的对齐决策,即t-1时刻的注意力向量和下一个时间步t时刻的输入ct结合共同进入到解码器中,其每一t时刻注意力向量的计算公式为:
其中,ct是编码器输出的上下文向量,解码器每个时刻更新其目标隐藏状态ht;
解码器通过以下方程进行计算:
mt=ft⊙mt-1+it⊙c′t
ht=ot⊙tanh(mt)
2.根据权利要求1所述译文重对齐的循环神经网络跨语言机器翻译方法,其特征在于,所述非线性激活函数使用sigmoid函数。
3.根据权利要求1所述译文重对齐的循环神经网络跨语言机器翻译方法,其特征在于,所述序列引导网络设置在解码器端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910976757.7A CN110717345B (zh) | 2019-10-15 | 2019-10-15 | 一种译文重对齐的循环神经网络跨语言机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910976757.7A CN110717345B (zh) | 2019-10-15 | 2019-10-15 | 一种译文重对齐的循环神经网络跨语言机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717345A CN110717345A (zh) | 2020-01-21 |
CN110717345B true CN110717345B (zh) | 2020-07-07 |
Family
ID=69211667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910976757.7A Active CN110717345B (zh) | 2019-10-15 | 2019-10-15 | 一种译文重对齐的循环神经网络跨语言机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717345B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428557A (zh) * | 2020-02-18 | 2020-07-17 | 深圳壹账通智能科技有限公司 | 基于神经网络模型的手写签名的自动校验的方法和装置 |
CN112308402B (zh) * | 2020-10-29 | 2022-04-12 | 复旦大学 | 基于长短期记忆网络的电力时间序列数据的异常检测方法 |
CN113627171A (zh) * | 2021-07-14 | 2021-11-09 | 内蒙古师范大学 | 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型 |
CN114757969B (zh) * | 2022-04-08 | 2023-04-07 | 华南理工大学 | 基于全局追踪解码的文字图像书写轨迹恢复方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578062A (zh) * | 2017-08-19 | 2018-01-12 | 四川大学 | 一种基于属性概率向量引导注意模式的图片描述方法 |
CN109190472A (zh) * | 2018-07-28 | 2019-01-11 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110023963B (zh) * | 2016-10-26 | 2023-05-30 | 渊慧科技有限公司 | 使用神经网络处理文本序列 |
CN107967262B (zh) * | 2017-11-02 | 2018-10-30 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
CN108932232A (zh) * | 2018-05-07 | 2018-12-04 | 内蒙古工业大学 | 一种基于lstm神经网络的蒙汉互译方法 |
CN109271646B (zh) * | 2018-09-04 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
-
2019
- 2019-10-15 CN CN201910976757.7A patent/CN110717345B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN107578062A (zh) * | 2017-08-19 | 2018-01-12 | 四川大学 | 一种基于属性概率向量引导注意模式的图片描述方法 |
CN109190472A (zh) * | 2018-07-28 | 2019-01-11 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
Non-Patent Citations (3)
Title |
---|
Guiding the Long-Short Term Memory model for Image Caption Generation;Xu Jia et al.;《2015 IEEE International Conference on Computer Vision》;20151231;第2408-2415页 * |
基于LSTM神经网络的蒙汉机器翻译的研究;刘婉婉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第 01 期);第I138-4515页 * |
基于长短期记忆网络的行人属性识别;郑伟雄;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190415(第 04 期);第I138-1060页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110717345A (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717345B (zh) | 一种译文重对齐的循环神经网络跨语言机器翻译方法 | |
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
CN112712804B (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN109359294B (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
WO2021155699A1 (zh) | 面向中文长文本自动摘要的全局编码方法 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
JP2008165786A (ja) | 機械翻訳用のシーケンス分類 | |
CN108415906B (zh) | 基于领域自动识别篇章机器翻译方法、机器翻译系统 | |
JP2008165783A (ja) | シーケンス分類のためのモデルの識別トレーニング | |
CN110569505B (zh) | 一种文本输入方法及装置 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN112347796A (zh) | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 | |
Natarajan et al. | Sentence2signgesture: a hybrid neural machine translation network for sign language video generation | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
Qin et al. | Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling | |
Shi et al. | Adding Visual Information to Improve Multimodal Machine Translation for Low-Resource Language | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
Sun et al. | Building high-accuracy multilingual asr with gated language experts and curriculum training | |
WO2023123892A1 (zh) | 一种信息预测模块的构建方法、信息预测方法及相关设备 | |
CN113392629B (zh) | 基于预训练模型的人称代词消解方法 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |