CN109062907B - 融入依存关系的神经机器翻译方法 - Google Patents

融入依存关系的神经机器翻译方法 Download PDF

Info

Publication number
CN109062907B
CN109062907B CN201810785646.3A CN201810785646A CN109062907B CN 109062907 B CN109062907 B CN 109062907B CN 201810785646 A CN201810785646 A CN 201810785646A CN 109062907 B CN109062907 B CN 109062907B
Authority
CN
China
Prior art keywords
source
dependency
loss
dep
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810785646.3A
Other languages
English (en)
Other versions
CN109062907A (zh
Inventor
段湘煜
王坤
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810785646.3A priority Critical patent/CN109062907B/zh
Publication of CN109062907A publication Critical patent/CN109062907A/zh
Application granted granted Critical
Publication of CN109062907B publication Critical patent/CN109062907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融入依存关系的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明融入依存关系的神经机器翻译方法,解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;基于所述依存关系信息,确定依存关联性损失Δdep,进而指导得到句对网络整体损失。本发明在源端添加自注意力机制,并将自注意力机制融入依存指导。

Description

融入依存关系的神经机器翻译方法
技术领域
本发明属于机器学习技术领域,具体涉及一种融入依存关系的神经机器翻译方法。
背景技术
机器翻译是指借助计算机自动地将一种语言(Source Language)转化成另一种语言(Target Language)的技术。[Bahdanau et al.,2015]提出将注意力机制引入神经机器翻译中,使得神经机器翻译(Neural Machine Translation,简称NMT)效果逐渐完善并且逐渐取代了统计机器翻译(Statistic Machine Translation,简称 SMT)。2017年[Vaswaniet al.,2017]提出了Transformer模型,模型完全使用了注意力机制,多层与残差网络的融入使得神经机器翻译性能大幅提升,研究人员以两个模型为基础完善翻译系统性能,大型互联网公司也逐渐将神经机器翻译技术应用到实际产品中。
神经机器翻译通常使用带有循环神经网络(Recurrent Neural Network,简称RNN)的编码器解码器结构对翻译过程建模。双向RNN编码器包括正向RNN和反向RNN,通过两个RNN,将源端句子序列
Figure BDA0001733673380000011
编码成源端单词表示
Figure BDA0001733673380000012
解码器将源端单词表示逐字逐句的翻译为
Figure BDA0001733673380000013
在训练的过程中,对于给定的平行句子(x,y),NMT如下模拟条件概率:
Figure BDA0001733673380000014
其中yi是解码端第i个时刻单词。条件概率P(yi|y<i,x)计算如下:
P(yi|y<i,x)=softmax(f(si,yi-1,ci)) (2)
其中f(.)是非线性函数,si是解码器第i时刻的隐藏层:
si=g(si-1,yi-1,ci) (3)
其中g(.)是非线性函数,实际使用中通常使用门循环单元 (Gated RecurrentUnit,简称GRU)或者长短时记忆单元 (Long Short Term Memory,简称LSTM)作为编码器解码器的循环单元.ci是由源端表示h加权和计算的上下文向量:
ci=Att(si-1,H) (4)
其中,H为源端隐藏层,Att()为注意力函数。
通过最大化对数似然(log-likelihood)来训练基于注意力的神经机器翻译模型。
Figure BDA0001733673380000021
其中N为双语句子数目。
在测试阶段,对于给定的源端句子x,使用波束搜索策略来搜索一个近似最大化概率P(y|x)的目标语句
Figure BDA0001733673380000022
Figure BDA0001733673380000023
Transformer完全使用注意力机制:在源端使用自注意力机制,在目标端使用自注意力机制和解码器编码器注意力机制,较少的训练时间以及更好的翻译效果使得Transformer成为了目前许多研究者的研究目标。
Transformer网络主要包含由多头注意力子层和前馈子层组成的注意力层。为了实现神经元的深度网络和归一化,Transformer还在每个子层之后添加了层泛化式(LayerNormalization)[Ba et al.,2016],并且在每个子层使用残差连接 (ResidualConnection)[He el at.,2016]。为了将时间顺序信息结合到模型中,Transformer将位置嵌入(position embedding)p=(p1,p2...pn)拼接到学习的词嵌入(word embedding)e=(e1,…en)中。位置嵌入的初始化如下:
Figure RE-GDA0001778070010000031
Figure RE-GDA0001778070010000032
其中pos是单词的位置,i是维度,dmodel是嵌入(embedding)层的维度。多头注意力机制使用缩放点乘方法。多头注意力机制获得h个不同表单表示 (query,key,value),然后拼接这些表征。计算如下:
SA(q,k,v)=MH(q,k,v)Wo (9)
MH(q,k,v)=[H1(q,k,v),…,Hh(q,k,v)] (10)
Figure BDA0001733673380000033
其中MH(.)表示多头注意力模型函数,Hi(·)表示单头的输出,其中h是头的个数。Att(.)为注意力机制函数,注意力机制函数中,ds是query的维度。 Wo,
Figure BDA0001733673380000034
是参数矩阵,这种结构帮助模型学习不同头的不同关系。此外,在解码端的自注意力机制中添加了掩码以防止参与后续位置计算。
多头注意力机制之后的下一个组成部分是前馈网络,这个网络由两个线性变换组成,变换中间使用Relu激活函数:
FFN(x)=max(0,xW1+b1)W2+b2 (12)
其中W1和W2是权重,参数b1和b2是偏置参数。
基准系统:对源端隐藏层建模时,使用了循环神经网络结构,从左到右或者从右到左对源端序列建模,未考虑源端隐藏层之间的关联性信息,未考虑语言学信息。
Transformer模型:源端使用了自注意力机制,未考虑源端隐藏层之间的相关关联性,未考虑语言学信息。
鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种融入依存关系的神经机器翻译方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种提升最终的翻译质量的融入依存关系的神经机器翻译方法。
为达到上述发明目的,本发明融入依存关系的神经机器翻译方法,包括:
获取训练数据,基于训练数据解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;
基于所述依存关系信息,确定依存关联性损失Δdep,得到句对网络整体损失,表达公式如下:
loss=-logP(Y|X)+Δdep
其中,-logP(Y|X)是交叉熵损失,Δdep是依存关联性损失。
进一步地,计算目标端j时刻单词对应源端i时刻单词注意力权重,在计算得到源端隐藏层基础上,添加自注意力机制,
Figure BDA0001733673380000041
Figure BDA0001733673380000042
其中
Figure BDA0001733673380000043
Wa′,U′a是可训练参数;
通过指导α′ji的分布来指导源端注意力层,使得该分布更着重于当前源端单词所对应的源端单词,通过以下公式实现依存树关联性指导Δdep:
Figure BDA0001733673380000044
其中,X为源端句子长度,{i,…i′}为源端第j个单词对应的存在依存关系的索引。
进一步地,依存树使用的是斯坦福大学的开源代码:stanford parser,使用默认配置获得源端依存树数据。
借由上述方案,本发明融入依存关系的神经机器翻译方法至少具有以下优点:
本发明在源端添加自注意力机制,并对自注意力机制融入依存指导。通过添加源端依存树指导,构造合适的损失函数,可以获得更好的源端隐藏层之间的关系表示,从而显著提升最终的翻译质量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明使用的Stanford parser解析的依存关系;
图2为本发明的源端依存指导,依存指导如图中虚线方框所示,源端隐藏层(h2,h4)与源端(h3)更相关,序列h和序列s分别表示源端和目标端对应的隐藏层。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明融入依存关系的神经机器翻译方法,包括两部分,第一部分通过依存树解析结果得到词与词之间的关联性信息,第二部分为将此依存信息加入到神经机器翻译网络中,以指导神经机器翻译的训练。对源端进行指导:在源端,添加了依存关联损失用来指导隐藏层之间的相关性。网络的源端构成一个指导损失,用于指导神经机器翻译NMT。其中,依存树,可以提供词与词之间关联性用于指导神经机器翻译NMT,源于目标端未来单词不确定。
实施例
本实施例融入依存关系的神经机器翻译方法,如图1所示,为一个stanfordparser解析出的依存树,其中箭头指向为子节点,箭头开始为父节点。在图1的“吃”,与“喜欢”和“苹果”更相关。本发明对源端进行指导:在源端,添加了依存关联损失用来指导隐藏层之间的相关性。网络的源端构成一个指导损失,用于指导神经机器翻译NMT。
对于一个句对(X,Y),提出的网络整体损失定义如下:
loss=-logP(Y|X)+Δdep
其中-logP(Y|X)是交叉熵损失,Δdep是依存关联性损失。通过这个指导损失,神经机器翻译NMT能够指导源端隐藏层之间的关系。
正如普遍使用的神经机器翻译NMT网络所示,α′ji计算了特定源端词对应的注意力权重,本发明在计算得到源端隐藏层基础上,添加自注意力机制,自注意力计算公式为:ci=Att(si-1,H)其中,ci是由源端表示h加权和计算的上下文向量;H为源端隐藏层,Att()为注意力函数。
Figure BDA0001733673380000061
Figure BDA0001733673380000062
其中
Figure BDA0001733673380000063
Wa′,U′a是可训练参数。
本实施例通过指导目标端j时刻单词对应源端i时刻单词注意力权重α′ji的分布来指导源端注意力层,使得该分布更着重于当前源端单词所对应的源端单词。
如图2所示,依存树解析结果中,源端单词隐藏层(h3)与源端单词(h2,h4)更相关,在训练时,使得h2,h4作为注意力集中的两个词,图2中红色加粗部分实线为所对应的权重。
通过以下方式实现依存树关联性指导Δdep:
Figure BDA0001733673380000071
其中,X为源端句子长度,{i,…i′}为源端第j个单词对应的存在依存关系的索引。
使用125万的LDC中英双语平行语料作为训练语料,使用NIST06作为开发集,NIST02,03,04,05,08作为测试集,使用4元的NIST BLEU作为评测标准,评测脚本为multi-bleu.perl。英文单词全部使用小写。
实验与典型的SMT和NMT系统做对比:
1、Lamtram[Neubig,2015]:基于Dynet[Neubig et al.,2017]的NMT开源代码,系统中使用的是LSTM单元
2、Transformer[Vaswani et al.,2017]:基于Tensorflow的NMT系统
两套NMT系统使用系统默认参数设置进行实验,表1中的第一部分为基准系统的对比。为了验证方法的普适性,的实验以Lamtram和Transformer为实验环境并基于此构架实现提出的方法。
实验结果
基于Lamtram和Transformer,构建了提出的融于依存树信息的NMT结构,实验结果如表1所示。
基准系统
如表1的第一部分显示,Transformer性能优于Lamtram。
增加依存关联指导的结果
表1的第二部分为所提出的方法,“Lamtram+dep1”为在Lamtram基准系统的基础上,增加依存指导(指导包含自己),“Lamtram+Δdep 2”为在Lamtram基准系统基础的基础上,增加依存指导(指导不包含自己)。“Transformer+Δdep 1”为在Transformer系统的基础上,增加依存指导(指导包含自己),“Transformer+ dep2”为在Transformer基准系统基础的基础上,增加依存指导(指导不包含自己)。
实验结果对比表明本发明提出的两种指导算法提升了最终翻译质量:增加了源端依存关系指导的方法(“Lamtram+dep1”,“Lamtram+dep2”)的翻译效果高于基准系统Lamtram;增加了源端依存关系指导的方法(“Transformer+ dep2”)的翻译效果高于Transformer系统。
依存树指导融合效果:
表1的第三部分为系统融合结果:关于系统融合部分,Transformer选取后 5个保存的模型,平均模型参数,Transformer+Δdep同理。可以看出,五个 Transformer+Δdep 2模型的融合性能优于五个Transformer系统融合的性能。
表1实验结果
Figure BDA0001733673380000081
中英机器翻译上的实验表明:通过添加源端依存树指导,构造合适的损失函数,可以获得更好的源端隐藏层之间的关系表示,从而显著提升最终的翻译质量。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (2)

1.一种融入依存关系的神经机器翻译方法,其特征在于,包括:
获取训练数据,基于训练数据解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;
基于所述关联性信息,确定依存关联性损失Δdep,采用如下公式计算句对(X,Y)的网络整体损失:
loss=-logP(Y|X)+Δdep
其中,-logP(Y|X)是交叉熵损失,Δdep是依存关联性损失;
计算目标端j时刻单词对应源端i时刻单词注意力权重,在计算得到源端隐藏层基础上,添加自注意力机制,
Figure FDA0003620900760000011
Figure FDA0003620900760000012
其中,
Figure FDA0003620900760000013
W′a,U′a是可训练参数;
通过指导α′ji的分布来指导源端注意力层,通过以下公式实现依存树关联性指导Δdep:
Figure FDA0003620900760000014
其中,X为源端句子长度,{i,...i′}为源端第j个单词对应的存在依存关系的索引。
2.根据权利要求1所述的融入依存关系的神经机器翻译方法,其特征在于,依存树使用的是斯坦福大学的开源代码:stanford parser,使用默认配置获得源端依存树数据。
CN201810785646.3A 2018-07-17 2018-07-17 融入依存关系的神经机器翻译方法 Active CN109062907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810785646.3A CN109062907B (zh) 2018-07-17 2018-07-17 融入依存关系的神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810785646.3A CN109062907B (zh) 2018-07-17 2018-07-17 融入依存关系的神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN109062907A CN109062907A (zh) 2018-12-21
CN109062907B true CN109062907B (zh) 2022-07-12

Family

ID=64817049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810785646.3A Active CN109062907B (zh) 2018-07-17 2018-07-17 融入依存关系的神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN109062907B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046359A (zh) * 2019-04-16 2019-07-23 苏州大学 基于样例指导的神经机器翻译方法
CN110134757B (zh) * 2019-04-19 2020-04-07 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110059324B (zh) * 2019-04-26 2022-12-13 广州大学 基于依存信息监督的神经网络机器翻译方法及装置
US11132513B2 (en) 2019-05-07 2021-09-28 International Business Machines Corporation Attention-based natural language processing
US11176333B2 (en) 2019-05-07 2021-11-16 International Business Machines Corporation Generation of sentence representation
CN110297887B (zh) * 2019-06-26 2021-07-27 山东大学 基于云平台的服务机器人个性化对话系统及方法
CN110390340B (zh) * 2019-07-18 2021-06-01 暗物智能科技(广州)有限公司 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN111488742B (zh) * 2019-08-19 2021-06-29 北京京东尚科信息技术有限公司 用于翻译的方法和装置
CN110941966A (zh) * 2019-12-10 2020-03-31 北京小米移动软件有限公司 机器翻译模型的训练方法、装置及系统
CN112507733B (zh) * 2020-11-06 2023-04-18 昆明理工大学 基于依存图网络的汉越神经机器翻译方法
CN113268566B (zh) * 2021-05-28 2022-06-14 平安国际智慧城市科技股份有限公司 问答对的质量评价方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102357322B1 (ko) * 2016-05-06 2022-02-08 이베이 인크. 인공신경망 기계 번역시 메타 정보를 이용하는 기법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Attention is all you need;A.Vaswani等;《Advances in Neural Information Processing Systems》;20171231;全文 *
Sequence-to-Dependency Neural Machine Translation;ZHOU H等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20171231;全文 *
阿里巴巴的NLP应用与发展;黄恒等;《人工智能》;20180210;全文 *

Also Published As

Publication number Publication date
CN109062907A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109062907B (zh) 融入依存关系的神经机器翻译方法
Zhu et al. Knowledge-based question answering by tree-to-sequence learning
Klejch et al. Sequence-to-sequence models for punctuated transcription combining lexical and acoustic features
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
Wang et al. A neural attention model for disfluency detection
CN110569505B (zh) 一种文本输入方法及装置
Yan et al. A semantic and emotion‐based dual latent variable generation model for a dialogue system
CN110309512A (zh) 一种基于生成对抗网络的中文语法错误更正方法
Liang et al. Gated graph neural attention networks for abstractive summarization
CN112765952A (zh) 一种图卷积注意力机制下的条件概率联合事件抽取方法
CN110717345A (zh) 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
CN111444730A (zh) 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
CN111401003B (zh) 一种外部知识增强的幽默文本生成方法
Huo et al. TERG: topic-aware emotional response generation for chatbot
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN116720531B (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
Wang et al. Emotional conversation generation with bilingual interactive decoding
CN116432637A (zh) 一种基于强化学习的多粒度抽取-生成混合式文摘方法
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
Zhang et al. Self-supervised bilingual syntactic alignment for neural machine translation
Laitonjam et al. A hybrid machine transliteration model based on multi-source encoder–decoder framework: English to manipuri

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant