CN110472727A - 基于重读和反馈机制的神经机器翻译方法 - Google Patents

基于重读和反馈机制的神经机器翻译方法 Download PDF

Info

Publication number
CN110472727A
CN110472727A CN201910676598.9A CN201910676598A CN110472727A CN 110472727 A CN110472727 A CN 110472727A CN 201910676598 A CN201910676598 A CN 201910676598A CN 110472727 A CN110472727 A CN 110472727A
Authority
CN
China
Prior art keywords
layer
feedback mechanism
decoder
corpus
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910676598.9A
Other languages
English (en)
Other versions
CN110472727B (zh
Inventor
余正涛
于志强
郭军军
文永华
高盛祥
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910676598.9A priority Critical patent/CN110472727B/zh
Publication of CN110472727A publication Critical patent/CN110472727A/zh
Application granted granted Critical
Publication of CN110472727B publication Critical patent/CN110472727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于重读和反馈机制的神经机器翻译方法,属于自然语言处理技术领域。首先,第一层编码器的最终状态在传递给第一层解码器进行解码的同时,生成其副本并传递给第二层编码器,第二层编码器重新读取该状态用于参数初始化,该过程称为“重读”。其次,将第一层解码器的解码结果和源语言共同作为重要性计算方法的输入,产生的重要性权重反馈到第二层编码器用于指导编码,该过程称为“反馈”。本发明能够实现端到端神经网络结构的改变,改变后的网络结构能够更好的挖掘全局信息,适用于平行语料稀缺型翻译环境。

Description

基于重读和反馈机制的神经机器翻译方法
技术领域
本发明涉及基于重读和反馈机制的神经机器翻译方法,属于自然语言处理技术领域。
背景技术
神经机器翻译在本质上是基于数据驱动语言转换任务,对其性能有重要影响的数据为平行语料。在平行语料资源丰富的场景下(如英语-法语、汉语-英语等),神经机器翻译在性能上已经超过了传统的统计机器翻译。但是,在平行语料资源稀缺的场景下(如汉语-东南亚语),神经机器翻译的性能并不十分理想。因此,探索如何从有限的平行语料中挖掘更多的信息,具有非常重要的研究和应用价值。
目前在通过改变神经网络结构挖掘语料中的潜在信息上,主流做法为增加神经网络层数。在此基础上,有方法为循环利用编码端信息进行再次编码;另有方法为利用解码端信息指导下一次解码。以上的方法都有效地挖掘了平行语料中的潜在信息,提高了机器翻译的性能,但是他们大多是对编码端或解码端信息的分别利用,忽视了对编码端与解码端的信息交互(全局信息)的利用。因此,所以本发明提出了基于重读和反馈机制的神经机器翻译方法,解决了如何从有限的平行语料中,通过改变神经网络结构挖掘更多的全局信息。编码器的输出结果是对源语言中的语义和句法结构等信息的有效表征,而解码器的输出结果则包含目标语言中的语义和句法结构等信息,所以本发明提出了基于重读和反馈机制的神经机器翻译方法。
发明内容
本发明提供了基于重读和反馈机制的神经机器翻译方法,以用于解决在平行语料稀缺型环境下全局信息利用不足的问题。
本发明的技术方案是:基于重读和反馈机制的神经机器翻译方法,所述基于重读和反馈机制的神经机器翻译方法的具体步骤如下:
Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试,源语言训练语料标记为x;
Step2、第一层编码器-解码器模型构建:以门控循环单元为基础单元构建循环神经网络;
Step3、第二层编码器-解码器模型的编码器端构建:在Step2的基础上,以改进的门控循环单元为基础单元构建循环神经网络;
Step4、第二层编码器-解码器模型的解码器端构建:在步骤Step3的基础上,接收第二层编码器的编码输出作为解码输入,产生最终译文。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、使用门控循环单元为基础单元构建双向循环神经网络编码器,以步骤Step1的语料x为编码器输入,产生的编码结果传送给第一层解码器用于解码,同时对编码结果进行拷贝,生成副本h用于第二层编码器的模型参数初始化;
Step2.2、使用门控循环单元为基础单元构建单向循环神经网络解码器,利用注意力机制进行上下文相关权重计算,产生解码结果同时对其进行拷贝,生成的副本s用于指导第二层编码器的编码过程。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用门控循环单元为基础单元构建双向循环神经网络编码器,以步骤Step1的语料x为编码器输入。
Step3.2、为了实现重读机制,对步骤Step2.1中第一层编码结果副本h进行维度变换和非线性变换处理,得到向量用于第二层编码器的模型参数初始化;
Step3.3、为了实现反馈机制,利用重要性计算方法,以步骤Step2.2中第一层解码结果副本s和源语言语料x为输入,计算并输出重要性权重α;
Step3.4、为了实现反馈机制,在步骤3.3的基础上,对传统门控循环单元进行改进,改进后的门控循环单元除能接收i时刻的输入xi之外,还能额外接收步骤Step3.3产生的重要性权重α用于指导第二次编码过程,其中,xi为i时刻词向量表示,为前一阶段隐状态向量;
Step3.5、在步骤Step3.4的基础上,利用循环神经网络进行编码,产生第二层编码输出
作为本发明的优选方案,所述Step3.3的具体步骤如下:
为了实现反馈机制,构建重要性计算模型,以第一层解码结果副本s和源语言语料x为输入,计算重要性权重α:
αi,j=sigmod(Wfxi+Ufsj)
其中,y为第一层解码结果译文,Ty为y的长度,αi,j为xi与sj的相关性权重,Wf与Uf为可训练的模型参数矩阵。
作为本发明的优选方案,所述Step3.4的具体步骤如下:
改进第二层循环神经网络中的门控循环单元,在原有输入i时刻词向量表示xi和前一阶段隐状态向量基础上,增加步骤3.2的重要性权重α作为新输入:
其中,为前一阶段隐状态向量,zi表示GRU的更新门,是中间变量。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、使用门控循环单元为基础单元构建单向循环神经网络解码器,以第二层编码输出为第二层解码器输入,同时利用注意力机制进行上下文相关权重计算,产生最终译文。
本发明的有益效果是:
1、本发明从有限的平行语料中,通过改变神经网络结构能挖掘更多的全局信息,适用于平行语料稀缺型翻译环境;
2、本发明提出的方法,通过挖掘并融入更多的全局信息,使翻译的质量有较大提升,能够在一定程度上解决漏译和错译问题;
3、因为编码器的输出结果是对源语言中的语义和句法结构等信息的有效表征,而解码器的输出结果则包含目标语言中的语义和句法结构等信息,所以本发明提出了基于重读和反馈机制的神经机器翻译方法,通过构建双层编码器-解码器结构同时利用编码和解码输出中的语义和句法结构信息;
4、本发明首先使用重读机制,有效利用第一层编码器的输出来进行第二层编码器的初始化;随后利用反馈机制加工第一层解码器的输出,形成权重,进而指导第二层编码器的编码过程。
附图说明
图1是本发明中的数据流程图;
图2是本发明的原理框图;
图3是本发明提出的模型结构图;
图4是本发明提出的改进门控循环单元结构图;
图5是本发明翻译过程的注意力可视化展示图。
具体实施方式
实施例1:如图1-5所示,基于重读和反馈机制的神经机器翻译方法,其具体步骤如下:
Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试,源语言训练语料标记为x;
处理后的平行语料按规模分为三类:小规模、中等规模、大规模。在不同规模的平行语料上应用本发明的方法,可以观察语料规模的提升对信息利用率的影响,验证所提出的方法适用于平行语料资源稀缺场景的设想。表1为实验数据信息。
表1实验数据
Step2、第一层编码器-解码器模型构建:以门控循环单元为基础单元构建循环神经网络;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、使用门控循环单元为基础单元构建双向循环神经网络编码器,以步骤Step1的语料x为编码器输入,产生的编码结果传送给第一层解码器用于解码,同时对编码结果进行拷贝,生成副本h用于第二层编码器的模型参数初始化;
Step2.2、使用门控循环单元为基础单元构建单向循环神经网络解码器,利用注意力机制进行上下文相关权重计算,产生解码结果同时对其进行拷贝,生成的副本s用于指导第二层编码器的编码过程。
Step3、第二层编码器-解码器模型的编码器端构建:在Step2的基础上,以改进的门控循环单元为基础单元构建循环神经网络;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用门控循环单元为基础单元构建双向循环神经网络编码器,以步骤Step1的语料x为编码器输入。
Step3.2、为了实现重读机制,对步骤Step2.1中第一层编码结果副本h进行维度变换和非线性变换处理,得到向量用于第二层编码器的模型参数初始化:
其中,h为第一层编码结果副本,l为维度变换操作,σ为非线性变换操作;
Step3.3、为了实现反馈机制,利用重要性计算方法,以步骤Step2.2中第一层解码结果副本s和源语言语料x为输入,计算并输出重要性权重α;
Step3.4、为了实现反馈机制,在步骤3.3的基础上,对传统门控循环单元进行改进,改进后的门控循环单元除能接收i时刻的输入xi之外,还能额外接收步骤Step3.3产生的重要性权重α用于指导第二次编码过程,其中,xi为i时刻词向量表示,为前一阶段隐状态向量;
Step3.5、在步骤Step3.4的基础上,利用循环神经网络进行编码,产生第二层编码输出
作为本发明的优选方案,所述Step3.3的具体步骤如下:
为了实现反馈机制,构建重要性计算模型,以第一层解码结果副本s和源语言语料x为输入,计算重要性权重α:
αi,j=sigmod(Wfxi+Ufsj)
其中,y为第一层解码结果译文,Ty为y的长度,αi,j为xi与sj的相关性权重,Wf与Uf为可训练的模型参数矩阵。
作为本发明的优选方案,所述Step3.4的具体步骤如下:
改进第二层循环神经网络中的门控循环单元,在原有输入i时刻词向量表示xi和前一阶段隐状态向量基础上,增加步骤3.3的重要性权重α作为新输入:
其中,为前一阶段隐状态向量,zi表示GRU的更新门,是中间变量。
Step4、第二层编码器-解码器模型的解码器端构建:使用门控循环单元为基础单元构建单向循环神经网络解码器,以第二层编码输出为第二层解码器输入,同时利用注意力机制进行上下文相关权重计算,产生最终译文。
为了说明本发明的翻译效果,采用基线系统和本发明产生的译文进行对比,表2展示了模型带来的翻译质量提升;表3为在不同语料规模上的提升结果。
表2翻译效果
表3为不同语料规模上的BLEU值提升
从以上结果可以看出,本发明提出的方法,通过挖掘并融入更多的全局信息,使翻译的质量有较大提升,能够在一定程度上解决漏译和错译问题。在不同规模语料上的实验结果表明,在平行语料资源稀缺的场景下,本发明所提方法对翻译性能(以BLEU值为度量标准)的提升更大,因此是一种适用于资源稀缺的场景的有效翻译方法。
图5为翻译过程的注意力可视化展示:横坐标为英语源文,纵坐标为产生的德语译文。相交部分的颜色越深表示翻译过程中该源文单词受关注程度越高。可以观察到,基线系统的翻译中,结果如图5左侧,“at once”没有得到关注;而在本发明所提方法中,结果如图5右侧,“atonce”得到关注。同时,虽然源文中的“will”在两种方法中都没有被译出,但是在本发明的方法中,对其的关注得到了提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.基于重读和反馈机制的神经机器翻译方法,其特征在于:所述基于重读和反馈机制的神经机器翻译方法的具体步骤如下:
Step1、语料预处理:预处理不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试,源语言训练语料标记为x;
Step2、第一层编码器-解码器模型构建:以门控循环单元为基础单元构建循环神经网络;
Step3、第二层编码器-解码器模型的编码器端构建:在Step2的基础上,以改进的门控循环单元为基础单元构建循环神经网络;
Step4、第二层编码器-解码器模型的解码器端构建:在步骤Step3的基础上,接收第二层编码器的编码输出作为解码输入,产生最终译文。
2.根据权利要求1所述的基于重读和反馈机制的神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、使用门控循环单元为基础单元构建双向循环神经网络编码器,以步骤Step1的语料x为编码器输入,产生的编码结果传送给第一层解码器用于解码,同时对编码结果进行拷贝,生成副本h用于第二层编码器的模型参数初始化;
Step2.2、使用门控循环单元为基础单元构建单向循环神经网络解码器,利用注意力机制进行上下文相关权重计算,产生解码结果同时对其进行拷贝,生成的副本s用于指导第二层编码器的编码过程。
3.根据权利要求2所述的基于重读和反馈机制的神经机器翻译方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、使用门控循环单元为基础单元构建双向循环神经网络编码器,以步骤Step1的语料x为编码器输入;
Step3.2、为了实现重读机制,对步骤Step2.1中第一层编码结果副本h进行维度变换和非线性变换处理,得到向量用于第二层编码器的模型参数初始化;
Step3.3、为了实现反馈机制,利用重要性计算方法,以步骤Step2.2中第一层解码结果副本s和源语言语料x为输入,计算并输出重要性权重α;
Step3.4、为了实现反馈机制,在步骤3.3的基础上,对传统门控循环单元进行改进,改进后的门控循环单元除能接收i时刻的输入xi之外,还能额外接收步骤Step3.3产生的重要性权重α用于指导第二次编码过程,其中,xi为i时刻词向量表示,为前一阶段隐状态向量;
Step3.5、在步骤Step3.4的基础上,利用循环神经网络进行编码,产生第二层编码输出
4.根据权利要求3所述的基于重读和反馈机制的神经机器翻译方法,其特征在于:所述Step3.3的具体步骤如下:
为了实现反馈机制,构建重要性计算模型,以第一层解码结果副本s和源语言语料x为输入,计算重要性权重α:
αi,j=sigmod(Wfxi+Ufsj)
其中,y为第一层解码结果译文,Ty为y的长度,αi,j为xi与sj的相关性权重,Wf与Uf为可训练的模型参数矩阵。
5.根据权利要求3所述的基于重读和反馈机制的神经机器翻译方法,其特征在于:所述Step3.4的具体步骤如下:
改进第二层循环神经网络中的门控循环单元,在原有输入i时刻词向量表示xi和前一阶段隐状态向量基础上,增加步骤3.2的重要性权重α作为新输入:
其中,为前一阶段隐状态向量,zi表示GRU的更新门,是中间变量。
6.根据权利要求1所述的基于重读和反馈机制的神经机器翻译方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、使用门控循环单元为基础单元构建单向循环神经网络解码器,以第二层编码输出为第二层解码器输入,同时利用注意力机制进行上下文相关权重计算,产生最终译文。
CN201910676598.9A 2019-07-25 2019-07-25 基于重读和反馈机制的神经机器翻译方法 Active CN110472727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910676598.9A CN110472727B (zh) 2019-07-25 2019-07-25 基于重读和反馈机制的神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676598.9A CN110472727B (zh) 2019-07-25 2019-07-25 基于重读和反馈机制的神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN110472727A true CN110472727A (zh) 2019-11-19
CN110472727B CN110472727B (zh) 2021-05-11

Family

ID=68509766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676598.9A Active CN110472727B (zh) 2019-07-25 2019-07-25 基于重读和反馈机制的神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN110472727B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523329A (zh) * 2020-04-10 2020-08-11 昆明理工大学 基于编码器-转换器-解码器框架的神经网络机器翻译方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
US20180203852A1 (en) * 2017-01-18 2018-07-19 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN109145190A (zh) * 2018-08-27 2019-01-04 安徽大学 一种基于神经机器翻译技术的局部引文推荐方法及系统
CN109359309A (zh) * 2018-12-11 2019-02-19 成都金山互动娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180203852A1 (en) * 2017-01-18 2018-07-19 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN109145190A (zh) * 2018-08-27 2019-01-04 安徽大学 一种基于神经机器翻译技术的局部引文推荐方法及系统
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN109359309A (zh) * 2018-12-11 2019-02-19 成都金山互动娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高盛祥: "《冶金领域汉越机器翻译方法研究》", 《中国博士学位论文全文数据库 哲学与人文科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523329A (zh) * 2020-04-10 2020-08-11 昆明理工大学 基于编码器-转换器-解码器框架的神经网络机器翻译方法

Also Published As

Publication number Publication date
CN110472727B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
Yang et al. Unsupervised neural machine translation with weight sharing
CN106126507B (zh) 一种基于字符编码的深度神经翻译方法及系统
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN109522411A (zh) 一种基于神经网络的写作辅助方法
CN110348016A (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110334361A (zh) 一种面向小语种语言的神经机器翻译方法
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
Chen et al. Sdae: Self-distillated masked autoencoder
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
CN107391501A (zh) 一种基于词预测的神经机器翻译方法
Reddy et al. Dall-e: Creating images from text
Wu et al. Datasetdm: Synthesizing data with perception annotations using diffusion models
CN110032638A (zh) 一种基于编码器-解码器的生成式摘要提取方法
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN109598002A (zh) 基于双向循环神经网络的神经机器翻译方法和系统
CN110083702A (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
Chu et al. A comprehensive empirical comparison of domain adaptation methods for neural machine translation
Basmatkar et al. Survey on neural machine translation for multilingual translation system
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
Luo et al. Styleface: Towards identity-disentangled face generation on megapixels
CN110472727A (zh) 基于重读和反馈机制的神经机器翻译方法
CN111563160A (zh) 基于全局语义的文本自动摘要方法、装置、介质及设备
CN108268629A (zh) 基于关键词的图像描述方法和装置、设备、介质、程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant