CN109062907A - 融入依存关系的神经机器翻译方法 - Google Patents
融入依存关系的神经机器翻译方法 Download PDFInfo
- Publication number
- CN109062907A CN109062907A CN201810785646.3A CN201810785646A CN109062907A CN 109062907 A CN109062907 A CN 109062907A CN 201810785646 A CN201810785646 A CN 201810785646A CN 109062907 A CN109062907 A CN 109062907A
- Authority
- CN
- China
- Prior art keywords
- source
- dependence
- word
- machine translation
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融入依存关系的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明融入依存关系的神经机器翻译方法,解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;基于所述依存关系信息,确定依存关联性损失Δdep,进而指导得到句对网络整体损失。本发明在源端添加自注意力机制,并将自注意力机制融入依存指导。
Description
技术领域
本发明属于机器学习技术领域,具体涉及一种融入依存关系的神经机器翻译方法。
背景技术
机器翻译是指借助计算机自动地将一种语言(Source Language)转化成另一种语言(Target Language)的技术。[Bahdanau et al.,2015]提出将注意力机制引入神经机器翻译中,使得神经机器翻译(Neural Machine Translation,简称NMT)效果逐渐完善并且逐渐取代了统计机器翻译(Statistic Machine Translation,简称 SMT)。2017年[Vaswaniet al.,2017]提出了Transformer模型,模型完全使用了注意力机制,多层与残差网络的融入使得神经机器翻译性能大幅提升,研究人员以两个模型为基础完善翻译系统性能,大型互联网公司也逐渐将神经机器翻译技术应用到实际产品中。
神经机器翻译通常使用带有循环神经网络(Recurrent Neural Network,简称RNN)的编码器解码器结构对翻译过程建模。双向RNN编码器包括正向RNN和反向RNN,通过两个RNN,将源端句子序列编码成源端单词表示解码器将源端单词表示逐字逐句的翻译为在训练的过程中,对于给定的平行句子(x,y),NMT如下模拟条件概率:
其中yi是解码端第i个时刻单词。条件概率P(yi|y<i,x)计算如下:
P(yi|y<i,x)=softmax(f(si,yi-1,ci)) (2)
其中f(.)是非线性函数,si是解码器第i时刻的隐藏层:
si=g(si-1,yi-1,ci) (3)
其中g(.)是非线性函数,实际使用中通常使用门循环单元 (Gated RecurrentUnit,简称GRU)或者长短时记忆单元 (Long Short Term Memory,简称LSTM)作为编码器解码器的循环单元.ci是由源端表示h加权和计算的上下文向量:
ci=Att(si-1,H) (4)
其中,H为源端隐藏层,Att()为注意力函数。
通过最大化对数似然(log-likelihood)来训练基于注意力的神经机器翻译模型。
其中N为双语句子数目。
在测试阶段,对于给定的源端句子x,使用波束搜索策略来搜索一个近似最大化概率P(y|x)的目标语句
Transformer完全使用注意力机制:在源端使用自注意力机制,在目标端使用自注意力机制和解码器编码器注意力机制,较少的训练时间以及更好的翻译效果使得Transformer成为了目前许多研究者的研究目标。
Transformer网络主要包含由多头注意力子层和前馈子层组成的注意力层。为了实现神经元的深度网络和归一化,Transformer还在每个子层之后添加了层泛化式(LayerNormalization)[Ba et al.,2016],并且在每个子层使用残差连接 (ResidualConnection)[He el at.,2016]。为了将时间顺序信息结合到模型中,Transformer将位置嵌入(position embedding)p=(p1,p2...pn)拼接到学习的词嵌入(word embedding)e=(e1,…en)中。位置嵌入的初始化如下:
其中pos是单词的位置,i是维度,dmodel是嵌入(embedding)层的维度。多头注意力机制使用缩放点乘方法。多头注意力机制获得h个不同表单表示 (query,key,value),然后拼接这些表征。计算如下:
SA(q,k,v)=MH(q,k,v)Wo (9)
MH(q,k,v)=[H1(q,k,v),…,Hh(q,k,v)] (10)
其中MH(.)表示多头注意力模型函数,Hi(·)表示单头的输出,其中h是头的个数。Att(.)为注意力机制函数,注意力机制函数中,ds是query的维度。 Wo,是参数矩阵,这种结构帮助模型学习不同头的不同关系。此外,在解码端的自注意力机制中添加了掩码以防止参与后续位置计算。
多头注意力机制之后的下一个组成部分是前馈网络,这个网络由两个线性变换组成,变换中间使用Relu激活函数:
FFN(x)=max(0,xW1+b1)W2+b2 (12)
其中W1和W2是权重,参数b1和b2是偏置参数。
基准系统:对源端隐藏层建模时,使用了循环神经网络结构,从左到右或者从右到左对源端序列建模,未考虑源端隐藏层之间的关联性信息,未考虑语言学信息。
Transformer模型:源端使用了自注意力机制,未考虑源端隐藏层之间的相关关联性,未考虑语言学信息。
鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种融入依存关系的神经机器翻译方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种提升最终的翻译质量的融入依存关系的神经机器翻译方法。
为达到上述发明目的,本发明融入依存关系的神经机器翻译方法,包括:
获取训练数据,基于训练数据解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;
基于所述依存关系信息,确定依存关联性损失Δdep,得到句对网络整体损失,表达公式如下:
loss=-logP(Y|X)+Δdep
其中,-logP(Y|X)是交叉熵损失,Δdep是依存关联性损失。
进一步地,计算目标端j时刻单词对应源端i时刻单词注意力权重,在计算得到源端隐藏层基础上,添加自注意力机制,
其中Wa′,U′a是可训练参数;
通过指导α′ji的分布来指导源端注意力层,使得该分布更着重于当前源端单词所对应的源端单词,通过以下公式实现依存树关联性指导Δdep:
其中,X为源端句子长度,{i,…i′}为源端第j个单词对应的存在依存关系的索引。
进一步地,依存树使用的是斯坦福大学的开源代码:stanford parser,使用默认配置获得源端依存树数据。
借由上述方案,本发明融入依存关系的神经机器翻译方法至少具有以下优点:
本发明在源端添加自注意力机制,并对自注意力机制融入依存指导。通过添加源端依存树指导,构造合适的损失函数,可以获得更好的源端隐藏层之间的关系表示,从而显著提升最终的翻译质量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明使用的Stanford parser解析的依存关系;
图2为本发明的源端依存指导,依存指导如图中虚线方框所示,源端隐藏层(h2,h4)与源端(h3)更相关,序列h和序列s分别表示源端和目标端对应的隐藏层。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明融入依存关系的神经机器翻译方法,包括两部分,第一部分通过依存树解析结果得到词与词之间的关联性信息,第二部分为将此依存信息加入到神经机器翻译网络中,以指导神经机器翻译的训练。对源端进行指导:在源端,添加了依存关联损失用来指导隐藏层之间的相关性。网络的源端构成一个指导损失,用于指导神经机器翻译NMT。其中,依存树,可以提供词与词之间关联性用于指导神经机器翻译NMT,源于目标端未来单词不确定。
实施例
本实施例融入依存关系的神经机器翻译方法,如图1所示,为一个stanfordparser解析出的依存树,其中箭头指向为子节点,箭头开始为父节点。在图1的“吃”,与“喜欢”和“苹果”更相关。本发明对源端进行指导:在源端,添加了依存关联损失用来指导隐藏层之间的相关性。网络的源端构成一个指导损失,用于指导神经机器翻译NMT。
对于一个句对(X,Y),提出的网络整体损失定义如下:
loss=-logP(Y|X)+Δdep
其中-logP(Y|X)是交叉熵损失,Δdep是依存关联性损失。通过这个指导损失,神经机器翻译NMT能够指导源端隐藏层之间的关系。
正如普遍使用的神经机器翻译NMT网络所示,α′ji计算了特定源端词对应的注意力权重,本发明在计算得到源端隐藏层基础上,添加自注意力机制,自注意力计算公式为:ci=Att(si-1,H)其中,ci是由源端表示h加权和计算的上下文向量;H为源端隐藏层,Att()为注意力函数。
其中Wa′,U′a是可训练参数。
本实施例通过指导目标端j时刻单词对应源端i时刻单词注意力权重α′ji的分布来指导源端注意力层,使得该分布更着重于当前源端单词所对应的源端单词。
如图2所示,依存树解析结果中,源端单词隐藏层(h3)与源端单词(h2,h4)更相关,在训练时,使得h2,h4作为注意力集中的两个词,图2中红色加粗部分实线为所对应的权重。
通过以下方式实现依存树关联性指导Δdep:
其中,X为源端句子长度,{i,…i′}为源端第j个单词对应的存在依存关系的索引。
使用125万的LDC中英双语平行语料作为训练语料,使用NIST06作为开发集,NIST02,03,04,05,08作为测试集,使用4元的NIST BLEU作为评测标准,评测脚本为multi-bleu.perl。英文单词全部使用小写。
实验与典型的SMT和NMT系统做对比:
1、Lamtram[Neubig,2015]:基于Dynet[Neubig et al.,2017]的NMT开源代码,系统中使用的是LSTM单元
2、Transformer[Vaswani et al.,2017]:基于Tensorflow的NMT系统
两套NMT系统使用系统默认参数设置进行实验,表1中的第一部分为基准系统的对比。为了验证方法的普适性,的实验以Lamtram和Transformer为实验环境并基于此构架实现提出的方法。
实验结果
基于Lamtram和Transformer,构建了提出的融于依存树信息的NMT结构,实验结果如表1所示。
基准系统
如表1的第一部分显示,Transformer性能优于Lamtram。
增加依存关联指导的结果
表1的第二部分为所提出的方法,“Lamtram+dep1”为在Lamtram基准系统的基础上,增加依存指导(指导包含自己),“Lamtram+Δdep 2”为在Lamtram基准系统基础的基础上,增加依存指导(指导不包含自己)。“Transformer+Δdep 1”为在Transformer系统的基础上,增加依存指导(指导包含自己),“Transformer+ dep2”为在Transformer基准系统基础的基础上,增加依存指导(指导不包含自己)。
实验结果对比表明本发明提出的两种指导算法提升了最终翻译质量:增加了源端依存关系指导的方法(“Lamtram+dep1”,“Lamtram+dep2”)的翻译效果高于基准系统Lamtram;增加了源端依存关系指导的方法(“Transformer+ dep2”)的翻译效果高于Transformer系统。
依存树指导融合效果:
表1的第三部分为系统融合结果:关于系统融合部分,Transformer选取后 5个保存的模型,平均模型参数,Transformer+Δdep同理。可以看出,五个 Transformer+Δdep 2模型的融合性能优于五个Transformer系统融合的性能。
表1实验结果
中英机器翻译上的实验表明:通过添加源端依存树指导,构造合适的损失函数,可以获得更好的源端隐藏层之间的关系表示,从而显著提升最终的翻译质量。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (3)
1.一种融入依存关系的神经机器翻译方法,其特征在于,包括:
获取训练数据,基于训练数据解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;
基于所述依存关系信息,确定依存关联性损失Δdep,采用如下公式计算句对(X,Y)的网络整体损失:
loss=-log P(Y|X)+Δdep
其中,-logP(Y|X)是交叉熵损失,Δdep是依存关联性损失。
2.根据权利要求1所述的融入依存关系的神经机器翻译方法,其特征在于,
计算目标端j时刻单词对应源端i时刻单词注意力权重,在计算得到源端隐藏层基础上,添加自注意力机制,
其中,W′a,U′a是可训练参数;
通过指导α′ji的分布来指导源端注意力层,通过以下公式实现依存树关联性指导Δdep:
其中,X为源端句子长度,{i,…i′}为源端第j个单词对应的存在依存关系的索引。
3.根据权利要求1所述的融入依存关系的神经机器翻译方法,其特征在于,依存树使用的是斯坦福大学的开源代码:stanford parser,使用默认配置获得源端依存树数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810785646.3A CN109062907B (zh) | 2018-07-17 | 2018-07-17 | 融入依存关系的神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810785646.3A CN109062907B (zh) | 2018-07-17 | 2018-07-17 | 融入依存关系的神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062907A true CN109062907A (zh) | 2018-12-21 |
CN109062907B CN109062907B (zh) | 2022-07-12 |
Family
ID=64817049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810785646.3A Active CN109062907B (zh) | 2018-07-17 | 2018-07-17 | 融入依存关系的神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109062907B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046359A (zh) * | 2019-04-16 | 2019-07-23 | 苏州大学 | 基于样例指导的神经机器翻译方法 |
CN110059324A (zh) * | 2019-04-26 | 2019-07-26 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN110297887A (zh) * | 2019-06-26 | 2019-10-01 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110941966A (zh) * | 2019-12-10 | 2020-03-31 | 北京小米移动软件有限公司 | 机器翻译模型的训练方法、装置及系统 |
CN111488742A (zh) * | 2019-08-19 | 2020-08-04 | 北京京东尚科信息技术有限公司 | 用于翻译的方法和装置 |
CN112507733A (zh) * | 2020-11-06 | 2021-03-16 | 昆明理工大学 | 基于依存图网络的汉越神经机器翻译方法 |
CN113268566A (zh) * | 2021-05-28 | 2021-08-17 | 平安国际智慧城市科技股份有限公司 | 问答对的质量评价方法、装置、设备及存储介质 |
US11132513B2 (en) | 2019-05-07 | 2021-09-28 | International Business Machines Corporation | Attention-based natural language processing |
US11176333B2 (en) | 2019-05-07 | 2021-11-16 | International Business Machines Corporation | Generation of sentence representation |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170323203A1 (en) * | 2016-05-06 | 2017-11-09 | Ebay Inc. | Using meta-information in neural machine translation |
-
2018
- 2018-07-17 CN CN201810785646.3A patent/CN109062907B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170323203A1 (en) * | 2016-05-06 | 2017-11-09 | Ebay Inc. | Using meta-information in neural machine translation |
Non-Patent Citations (3)
Title |
---|
A.VASWANI等: "Attention is all you need", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 * |
ZHOU H等: "Sequence-to-Dependency Neural Machine Translation", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
黄恒等: "阿里巴巴的NLP应用与发展", 《人工智能》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046359A (zh) * | 2019-04-16 | 2019-07-23 | 苏州大学 | 基于样例指导的神经机器翻译方法 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN110059324A (zh) * | 2019-04-26 | 2019-07-26 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
CN110059324B (zh) * | 2019-04-26 | 2022-12-13 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
US11132513B2 (en) | 2019-05-07 | 2021-09-28 | International Business Machines Corporation | Attention-based natural language processing |
US11176333B2 (en) | 2019-05-07 | 2021-11-16 | International Business Machines Corporation | Generation of sentence representation |
CN110297887A (zh) * | 2019-06-26 | 2019-10-01 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110390340B (zh) * | 2019-07-18 | 2021-06-01 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN111488742B (zh) * | 2019-08-19 | 2021-06-29 | 北京京东尚科信息技术有限公司 | 用于翻译的方法和装置 |
CN111488742A (zh) * | 2019-08-19 | 2020-08-04 | 北京京东尚科信息技术有限公司 | 用于翻译的方法和装置 |
CN110941966A (zh) * | 2019-12-10 | 2020-03-31 | 北京小米移动软件有限公司 | 机器翻译模型的训练方法、装置及系统 |
US11734521B2 (en) | 2019-12-10 | 2023-08-22 | Beijing Xiaomi Mobile Software Co., Ltd. | Method, device and storage medium for training bidirectional machine translation model using sum of forward and reverse translation similarities |
CN112507733A (zh) * | 2020-11-06 | 2021-03-16 | 昆明理工大学 | 基于依存图网络的汉越神经机器翻译方法 |
CN113268566A (zh) * | 2021-05-28 | 2021-08-17 | 平安国际智慧城市科技股份有限公司 | 问答对的质量评价方法、装置、设备及存储介质 |
CN113268566B (zh) * | 2021-05-28 | 2022-06-14 | 平安国际智慧城市科技股份有限公司 | 问答对的质量评价方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109062907B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062907A (zh) | 融入依存关系的神经机器翻译方法 | |
CN108519890A (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN112818691A (zh) | 命名实体识别模型训练方法及装置 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN111382582A (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN111008293A (zh) | 基于结构化语义表示的视觉问答方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN114168749A (zh) | 一种基于知识图谱和疑问词驱动的问题生成系统 | |
Zhao et al. | Textual entailment with structured attentions and composition | |
CN109284361A (zh) | 一种基于深度学习的实体抽取方法及系统 | |
CN109299479A (zh) | 通过门控机制将翻译记忆融入神经机器翻译的方法 | |
CN109783825B (zh) | 一种基于神经网络的古文翻译方法 | |
CN110309512A (zh) | 一种基于生成对抗网络的中文语法错误更正方法 | |
CN110598222A (zh) | 语言处理方法及装置、语言处理系统的训练方法及装置 | |
CN115759042A (zh) | 一种基于句法感知提示学习的句子级问题生成方法 | |
CN110866405A (zh) | 一种基于语句信息的方面级情感分类方法 | |
CN115510814A (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN114064856A (zh) | 一种基于XLNet-BiGRU文本纠错方法 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN111382568A (zh) | 分词模型的训练方法和装置、存储介质和电子设备 | |
CN111401003A (zh) | 一种外部知识增强的幽默文本生成方法 | |
CN114648015A (zh) | 一种基于依存关系注意力模型的方面级情感词识别方法 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |