CN113901847B - 基于源语言句法增强解码的神经机器翻译方法 - Google Patents
基于源语言句法增强解码的神经机器翻译方法 Download PDFInfo
- Publication number
- CN113901847B CN113901847B CN202111084535.8A CN202111084535A CN113901847B CN 113901847 B CN113901847 B CN 113901847B CN 202111084535 A CN202111084535 A CN 202111084535A CN 113901847 B CN113901847 B CN 113901847B
- Authority
- CN
- China
- Prior art keywords
- attention
- source language
- syntax
- syntactic
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013519 translation Methods 0.000 title claims abstract description 50
- 230000001537 neural effect Effects 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 4
- 238000012512 characterization method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 46
- 238000001994 activation Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及源语言句法增强解码的神经机器翻译方法,属于自然语言处理领域。本发明包括:解析源语言句子得到句法关系;使用句法感知的自注意力机制获取源语言句子和其句法相关部分的特征;通过交叉注意力网络提取源语言句子表征和句法相关表征中的信息,共同指导目标语言的生成;最后使用线性变换和softmax函数预测当前序列位置的词汇。本发明在有效利用人工标注的双语平行语料资源的同时,还能显式利用单语语料的句法信息;单语句法知识是理解语义和构建语言的重要依据,解决了神经网络机器翻译模型不能充分挖掘双语平行语料中有效信息这一难题。
Description
技术领域
本发明涉及源语言句法增强解码的神经机器翻译方法,属于自然语言处理领域。
背景技术
随着深度学习技术的发展,基于深度学习方法的神经机器翻译系统取得了显著的效果,成为机器翻译任务的新范式。当前性能最优的机器翻译模型之一Transformer基于标准的端到端结构,仅依赖于平行句对,默认模型能够自动学习语料中的知识。这种建模方式缺乏显式的引导,不能有效挖掘深层语言知识,特别是在语料规模和质量受限的低资源环境下,从而造成译文质量的下降。
先验的语言知识,特别是句法,是一种预先定义的语言规则。无论是理解语义还是构建语言,这种蕴含于词语与词语之间的关系都作为一种重要依据而必不可少。在机器翻译系统中显式地融入句法信息是有用的,可有效提高译文质量。在模型浅层,Saunders等将句法表征穿插在单词之间;Zhang等将句法解析模型的表征与翻译模型的词嵌入表征相结合。在改变模型中间表征方面,Bugliarello等根据词语之间的句法距离调节编码源语句时的注意力权重。在模型结构方面,Wu等引入额外的编码器和解码器将句法关系融入到机器翻译系统中,并利用目标端的句法信息;Currey和Heafield提出适用于低资源的句法解析-机器翻译多任务模型,和适用于富资源的混合编码模型。然而,这些方法虽然在基线模型的基础上提高了性能,但仅在编码器中利用源语言句法信息,或是在解码器中利用目标语言句法信息,而没有研究源语言句法信息对解码过程的影响。
发明内容
本发明提供了一个基于源语言句法增强解码的神经机器翻译方法,用于引入句法信息补充优化源语言表征。本发明在Transformer模型的基础上优化编码器中的自注意力机制,引入句法感知的遮挡机制,在原注意力的基础上生成一个额外的句法相关表征,与原注意力表征互补,明确使用源语言的句法信息;增强解码器,使用句法注意力将编码端生成的句法相关表征融入解码过程,指导目标语言的生成,实现源语言句法信息对机器翻译系统的增强。
发明技术方案:基于源语言句法增强解码的神经机器翻译方法,所述方法的具体步骤如下:
Step1、使用句法解析工具对平行语料中的源语言句子进行句法解析,得到其句法依赖关系,再将得到的句法依赖关系向量化,生成包含源语言句子中词与词之间关系的句法感知矩阵。
Step2、通过词嵌入和位置嵌入对源语言句子进行特征编码,优化Transformer编码器中的自注意力网络,使得编码器在提取源语言句子特征的同时,利用句法感知矩阵生成一个额外的句法相关表征。
Step3、在Transformer解码器中添加一个句法-解码交叉注意力网络,利用编码-解码和句法-解码交叉注意力网络分别提取源语言句子的信息和句法相关表征的信息,将两种信息作为互补,共同指导目标语言的生成。
所述步骤Step1的具体步骤为:
Step1.1、在通用的News Commentary v11(NC11)英德、德英和IWSLT14德英,以及标准低资源WMT18英土、IWSLT15英越翻译数据上训练和测试模型;对数据进行规范化,符号化等处理;
Step1.2、将规范化、符号化等处理后的源语言句子经由句法解析工具进行句法解析,得到句子中词语与词语相互之间的句法依赖关系;
Step1.3、将得到的源语言句子的句法依赖关系向量化,将其转换为一个l×l的句法感知矩阵,其中l为源语言句子中词语的个数,句法感知矩阵中的每个元素即代表对应两个词语之间的句法相关性,相关则置为有效,无关则置为无效;代表词语本身与本身关系的对角线位置元素也被置为有效。
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、源语言句子编码模块用于提取源语言句子的文本特征。设x=x1,x2,…,xl为一条源语言句子,句子长度l表示句子中有l个词;本发明使用Transformer编码模块对源语言句子特征嵌入进行编码。为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,它与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,具体如下:
Ex=E(x1,x2,…,xl)
其中,Ex为源语言输入文本的词嵌入表征,d表示源语言句子每个词经过嵌入表征提取的词向量维度,Q,K,V∈Rl×d分别为查询向量、键向量、值向量,由词嵌入表征Ex经三个不同权重矩阵的线性变换得到;为缩放因子。
为得到源语言句子句法相关的表征,本发明在编码器自注意力机制中引入句法感知。在执行自注意力过程中,除Transformer原有的遮挡,将在步骤Step1中执行向量化得到的句法关系矩阵作用于注意力权重矩阵WA=QKT,进行句法感知的遮挡,保留其中句法相关的部分,舍弃句法无关的部分;自注意力机制生成两个不同的权重矩阵:原注意力权重矩阵与句法相关的注意力权重。之后,两个注意力权重经由softmax(·)函数得到两个具体权重值,并分别作用于值向量V。由此,除原本的注意力表征之外,句法感知的自注意力还额外生成一个句法相关的注意力表征,式(1)变为:
其中,syn(·)表示句法相关的遮挡。
Step2.2、为了探索注意力的高度并行性,采用多头注意力机制多次并行地执行缩放的点积注意力。多头注意力使用不同的投影矩阵将Q,K,V进行h次线性投影,在h个投影子空间中并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示。多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息。具体可以表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(ExWi Q,ExWi K,ExWi V)
其中,权重矩阵WO∈Rd×d,为可训练参数;d′=d/h,h为多头注意力的头数。
Step2.3、生成的两个注意力表征再经过前馈网络进行线性变换和非线性激活,得到最终表征。编码器由多个相同的层堆叠而成,以上过程Step2.1-Step2.2在各层中迭代进行,当前层的输入为前一层的输出,最终得到编码器的输出,包括传统的h=h1,h2,...,hl和句法感知的h′=h′1,h′2,...,h′l。为保证模型梯度有效传播,子层中通过残差网络连接,并进行归一化。
所述步骤Step3的具体步骤为:
Step3.1、解码器拥有与编码器类似的结构,但在自注意力和前馈网络层之间增加了一个编码-解码交互注意力层,用于将源语言的编码信息融入解码过程。本发明在此基础上增加一个句法-解码交互注意力,用于注意编码生成的句法相关表征h′,以加强源语言句法对解码过程的指导。给定对应源语句的目标语句y=y1,y2,...,yn,解码过程可以表示为:
其中,Ey表示词嵌入向量,同样包含位置嵌入信息;为将词嵌入向量转换为查询向量Q∈Rl×d、键向量K∈Rl×d、以及值向量V∈Rl×d的可训练权重矩阵;Atts(·),AttED(·)和AttSD(·)分别表示自注意力,编码-解码注意力及句法-解码注意力。/>和/>即为分别提取源语言句子信息和句法相关信息的句法-解码注意力表征和编码-解码注意力表征。
Step3.2、执行交叉注意力生成的编码-解码注意力表征和句法-解码注意力表征经不同的方法整合成为一个整体,得到源语言句法增强的目标语言注意力表征,具体整合方式包括:
(1)平均池化(Average):将两个注意力输出表征经平均池化层求平均值,结果送入下游模块。(2)门控单元(Gate):将两个注意力表征进行拼接,之后经门控单元生成一个门控变量,控制两个注意力表征在整合过程中所占权重。可用公式表示为:
g=Sigmoid(linear(O′;O″))
O=g*O′+(1-g)*O″ (5)
其中,(O′;O″)为拼接两个注意力表征形成的拼接变量,linear(·)和Sigmoid(·)分别表示线性网络层和非线性激活层,g即为门控变量。
(3)高速网络(Highway):拼接后的注意力表征分别经过两个不同的线性变化和非线性激活,生成一个控制变量和一个输入变量,之后借助控制变量控制拼接变量和输入变量的权重,生成最终表示。
T=Sigmoid(WT(O′;O″)+bT)
H=Relu(WH(O′;O″)+bH)
O=H*T+(O′;O″)*(1-T) (6)
其中,WT和WH为权重矩阵,bT和bH为偏置项;T为控制变量,H为输入变量。
(4)线性变换(Linear):拼接后的注意力表征仅经过线性变化层生成下游模块的输入变量。
Step3.3、整合后的表征同样要经过前馈网络做线性变换和非线性激活,最后再经softmax层得到一个概率分布,并由此选择目标词汇。
yi=soffmax(σ(W1O+b1)) (7)
其中,σ(·)为非线性激活,yi为当前位置对应词语的概率分布,选取概率值最大的作为目标词汇。
L(yi)=yilogyi+(1-yi)log(1-yi) (8)
由此得到目标语言句子的翻译结果,并对模型进行训练以最小化所有词语的预测和真实分布的交叉熵。
Step3.4、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001,最小学习率为10-7,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。
本发明的有益效果是:
(1)由于现行的神经机器翻译模型大多基于标准的端到端结构,默认模型能够自动学习语料中的知识,而没有先验的语言知识作为约束和指导。将单语句法信息融入机器翻译系统中能有效提高译文质量,本发明明确利用源语言句法信息,提出一种基于源语言句法增强解码的神经机器翻译方法,首次引入源语言句法信息补充优化源语言表征,作用于解码过程以提高翻译系统的性能。
(2)源语言句法信息作为优化模型的依据,而不是简单地作为额外特征输入模型,且适配于子词单元,有效避免词表过大和词语表征稀疏的问题。
(3)使用Transformer编码器结构的多头注意力(Multi-Head attention)能够捕获更加丰富的字符特征和多样化的局部句法信息,具有很好的并行性。
附图说明
图1是本发明提出的基于源语言句法增强解码的神经机器翻译模型的具体结构示意图。
图2是本发明提出的句法感知的编码自注意力机制的具体示意图。
具体实施方式
实施例1:如图1-图2所示,基于源语言句法增强解码的神经机器翻译方法,所述方法的具体步骤如下:
Step1、使用句法解析工具对平行语料中的源语言句子进行句法解析,得到其句法依赖关系,再将得到的句法依赖关系向量化,生成包含源语言句子中词与词之间关系的句法感知矩阵。
Step1.1、在通用的News Commentary v11(NC11)英德、德英和IWSLT14德英,以及标准低资源WMT18英土、IWSLT15英越翻译任务上进行实验。在IWSLT15英越任务中使用tst2012作为验证集,tst2013作为测试集,其它任务使用标准的验证测试集。
Step1.2、将源语言句子经由句法解析工具进行句法解析,得到句子中词语与词语相互之间的句法依赖关系;
Step1.3、将得到的源语言句子的句法依赖关系向量化,将其转换为一个l×l的句法感知矩阵,其中l为源语言句子中词语的个数,句法感知矩阵中的每个元素即代表对应两个词语之间的句法相关性,相关则置为有效,无关则置为无效;代表词语本身与本身关系的对角线位置元素也被置为有效。表1统计了实验使用的语料规模。
表1实验数据统计信息
Step2、通过词嵌入和位置嵌入对源语言句子进行特征编码,优化Transformer编码器中的自注意力网络,使得编码器在提取源语言句子特征的同时,利用句法感知矩阵生成一个额外的句法相关表征。
Step2.1、源语言句子编码模块用于提取源语言句子的文本特征。设x=x1,x2,...,xl为一条源语言句子,句子长度l表示句子中有l个词;本发明使用Transformer编码模块对源语言句子特征嵌入进行编码。为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,它与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,具体如下:
Ex=E(x1,x2,...,xl)
其中,Ex为源语言输入文本的词嵌入表征,d表示源语言句子每个词经过嵌入表征提取的词向量维度,Q,K,V∈Rl×d分别为查询向量、键向量、值向量,由词嵌入表征Ex经三个不同权重矩阵的线性变换得到;为缩放因子。
为得到源语言句子句法相关的表征,本发明在编码器自注意力机制中引入句法感知。在执行自注意力过程中,除Transformer原有的遮挡,将在步骤Step1中执行向量化得到的句法关系矩阵作用于注意力权重矩阵WA=QKT,进行句法感知的遮挡,保留其中句法相关的部分,舍弃句法无关的部分;自注意力机制生成两个不同的权重矩阵:原注意力权重矩阵与句法相关的注意力权重。之后,两个注意力权重经由softmax(·)函数得到两个具体权重值,并分别作用于值向量V。由此,除原本的注意力表征之外,句法感知的自注意力还额外生成一个句法相关的注意力表征,式(1)变为:
其中,syn(·)表示句法相关的遮挡。
Step2.2、为了探索注意力的高度并行性,采用多头注意力机制多次并行地执行缩放的点积注意力。多头注意力使用不同的投影矩阵将Q,K,V进行h次线性投影,在h个投影子空间中并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示。多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息。具体可以表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(ExWi Q,ExWi K,ExWi V)
其中,权重矩阵WO∈Rd×d,为可训练参数;d′=d/h,h为多头注意力的头数。
Step2.3、生成的两个注意力表征再经过前馈网络进行线性变换和非线性激活,得到最终表征。编码器由多个相同的层堆叠而成,以上过程Step2.1-Step2.2在各层中迭代进行,当前层的输入为前一层的输出,最终得到编码器的输出,包括传统的h=h1,h2,...,hl和句法感知的h′=h′1,h′2,...,h′l。为保证模型梯度有效传播,子层中通过残差网络连接,并进行归一化。
作为本发明的进一步方案,所述步骤Step3的具体步骤如下:
Step3.1、解码器拥有与编码器类似的结构,但在自注意力和前馈网络层之间增加了一个编码-解码交互注意力层,用于将源语言的编码信息融入解码过程。本发明在此基础上增加一个句法-解码交互注意力,用于注意编码生成的句法相关表征h′,以加强源语言句法对解码过程的指导。给定对应源语句的目标语句y=y1,y2,...,yn,解码过程可以表示为:
其中,Ey表示词嵌入向量,同样包含位置嵌入信息;为将词嵌入向量转换为查询向量Q∈Rl×d、键向量K∈Rl×d、以及值向量V∈Rl×d的可训练权重矩阵;Atts(·),AttED(·)和AttSD(·)分别表示自注意力,编码-解码注意力及句法-解码注意力。/>和/>即为分别提取源语言句子信息和句法相关信息的句法-解码注意力表征和编码-解码注意力表征。
Step3.2、执行交叉注意力生成的编码-解码注意力表征和句法-解码注意力表征经不同的方法整合成为一个整体,得到源语言句法增强的目标语言注意力表征,具体整合方式包括:
(1)平均池化(Average):将两个注意力输出表征经平均池化层求平均值,结果送入下游模块。
(2)门控单元(Gate):将两个注意力表征进行拼接,之后经门控单元生成一个门控变量,控制两个注意力表征在整合过程中所占权重。可用公式表示为:
g=Sigmoid(linear(O′;O″))
O=g*O′+(1-g)*O″ (5)
其中,(O′;O″)为拼接两个注意力表征形成的拼接变量,linear(·)和Sigmoid(·)分别表示线性网络层和非线性激活层,g即为门控变量。
(3)高速网络(Highway):拼接后的注意力表征分别经过两个不同的线性变化和非线性激活,生成一个控制变量和一个输入变量,之后生成最终表示。
T=Sigmoid(WT(O′;O″)+bT)
H=Relu(WH(O′;O″)+bH)
O=H*T+(O′;O″)*(1-T) (6)
其中,WT和WH为权重矩阵,bT和bH为偏置项;T为控制变量,H为输入变量。
(4)线性变换(Linear):拼接后的注意力表征仅经过线性变化层生成下游模块的输入变量。
Step3.3、整合后的表征同样要经过前馈网络做线性变换和非线性激活,最后再经softmax层得到一个概率分布,并由此选择目标词汇。
yi=softmax(σ(W1O+b1)) (7)
其中,σ(·)为非线性激活,yi为当前位置对应词语的概率分布,选取概率值最大的作为目标词汇。
L(yi)=yilogyi+(1-yi)log(1-yi) (8)
由此得到目标语言句子的翻译结果,并对模型进行训练以最小化所有词语的预测和真实分布的交叉熵。
Step3.4、最后选择Adam优化器,它收敛速度较快且收敛过程较稳定,能基于训练数据迭代地更新神经网络权重。学习率(步长)设置为0.001,最小学习率为10-7,决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。步长太小,收敛慢,步长太大,会远离最优解。
为了说明本发明的效果,设置了3组对比实验。第一组实验验证句法增强对机器翻译性能的提升,第二组实验验证不同注意力整合方式对模型性能的影响,第三组实验验证用在不同解码层引入句法信息对机器翻译性能的影响。
(1)机器翻译性能提升验证
本发明在多个翻译任务上进行了实验,分别于已有的句法相关的工作和更广泛的其它机器翻译方法进行比较。实验结果如表2所示。
表2不同机器翻译方法在各数据集上的性能
分析表2可知,对于句法增强的神经机器翻译方法,在词嵌入表征中加入依赖标签(+S&H)以及简单地共享模型的多任务方法(+Multi-Task)相较于基线模型并没有明显的提升。相比之下,改变注意力机制,在其中融入句法信息以辅助机器翻译的方法(+LISA)有了明显的提升,说明了句法信息对提高译文质量的有效性,以及将其与注意力网络结合的可行性。
进一步地,根据源语句句法信息对编码自注意力进行调整,而不是简单地将其作为额外的特征输入模型(+PASCAL),取得了更好的优化效果,证明了这种调整优化方式的效力。本发明在此方法的基础上进一步改进,在不改变原注意力表征的情况下使用源句句法信息引导自注意力生成一个额外的句法相关表征,将其作为原表征的补充信息,有效缓解调整自注意力过程中可能会引入的噪声偏差,在保证注意力表征有效性的同时,也增加了其丰富性。此外,本发明采用更直接的解码端融入方式,将句法信息直接作用于目标语言的生成过程。实验结果表明,本发明的方法取得了最好的效果,在基线模型的基础上取得了+0.97到+3.41的BLEU值提升,且始终优于当前句法相关的最先进方法PASCAL。这证明了基于源语言句法增强解码的神经机器翻译模型的有效性,在解码过程中使用源语言句法信息指导目标语言的生成能够大幅提高机器译文质量。
另一方面,在通用的IWSLT任务上,本发明的方法同样表现优异,达到与其它精心设计的机器翻译模型相当或更好的BLEU评分。其中,Tied-Transform通过共享编解码器实现了一个轻量型的模型,但需要更强的调参技巧以及更长的训练时间来使模型收敛。相比之下,本发明的方法在不需要额外训练时间的情况下达到了与其相当的性能。Macaron通过在每层的注意力网络之前增加前馈网络使Transformer模型更稠密,但模型参数量也随之大幅增加,而本发明在仅引入少量参数的情况下表现出更好的性能。
此外,借助预训练语言模型的C-MLM和BERT-fused方法将预训练语言模型BERT的表征融入翻译系统中,使得模型包含更大规模的训练参数,也需要更长的训练时间,而本发明提出的基于轻量模型的方法在IWSLT15英越任务上取得了高于C-MLM的BLEU得分,表现出强大的翻译性能。
(2)不同注意力整合方式对模型性能的影响
本发明在并行执行注意力的情况下使用不同的方法整合编码-解码注意力和句法-解码注意力的输出表征。实验中,在编码器输出层生成句法相关表征,在解码器所有层中都添加句法-解码注意力机制和整合层。表3中展示了具体的实验结果。
表3为IWSLT15英越任务上不同整合方式的结果
可以看到,使用平均池化和高速网络整合注意力表征时,不管是在验证集还是测试集,不仅没有在基线模型上有所提升,反而损害了模型性能。而门控单元和线性变换在测试集上表现出同等的效力,都有效改善了译文质量,但其中门控单元在验证集上表现不佳。原因在于,简单地对两个表征求均值并不能有效区分并整合有效信息,反而会损害多个表征中所包含的特有信息,使其失去多样性,甚至会在原注意力表征中引入噪声,造成其质量下降,从而导致模型表现不佳。同样地,高速网络并没有有效识别出拼接后的表征中哪些部分需要经过激活,哪些部分需要保持不变。相反,门控单元和线性层则有效筛选出了有效信息,实现了句法增强表征的有效融合,从而优化了模型表征,进一步实现对译文质量的提升。
(3)不同解码层引入句法信息对模型性能的影响
针对已有研究指出的不同层捕捉不同特征的现象,本发明在解码器不同层的基础上进行了一系列实验,结果如表4所示。其中,“Base”表示Transformer基线模型。
表4为IWSLT15英越任务上不同融入层的结果
表中结果显示,1)所有方法相较于Transformer基线模型都有不同程度的提升,其中在第5层中融合句法信息效果最好,在基线模型上取得了+0.84BLEU值的提升。这验证了基于句法增强的神经机器翻译模型的有效性。2)相较于仅在单一层中融合句法信息增强解码,在多个层中融合并没有明显的提升;且随着自底向上增加融合层数,机器译文的评分整体上并没有明显的变化,反而会有所下降。这表明,多层融合并不能在模型性能方面带来增益,相反会引入更多的训练参数,造成模型结构的冗余,不利于充分挖掘语料中蕴含的信息。3)较高的层更能从源语言句法增强中受益。在第5、6层中融合句法信息比在第1至4层中融合有很大幅度的提升。这一定程度上与之前有关不同层的研究相符合,即在深层中额外引入的句法相关表征与原本包含更多语义的表征互为补充,使得整合后的表征含有更为全面的信息,且较高层生成的表征更具代表性。此外,拥有较好效果的较深层在堆叠融合的情况下(4-6、5-6)性能依然不佳,说明文中基于句法增强的方法的确不适用于多层融合。4)使用线性层整合的方式更适用于模型。尽管使用门控单元作为整合方式在第5层中融合句法知识取得了很好的效果,但仍差于基于线性变换的方法。
通过以上实验数据证明了本发明通过改进Transformer结构,实现了句法感知的编码和句法增强的解码。使用并行注意力的方式分别从源语句表征和局部建模的源语句句法相关表征中提取信息,能够有效提升模型表征能力,融合句法信息指导解码端目标语言的生成。同时,应用Transformer编码模块更好地捕获远程依赖关系并改善模型的并行性。实验表明,本发明的方法相比多个句法相关的基线模型取得了最优的效果,达到了句法相关的最先进水平。针对机器翻译任务,本发明提出的一种基于源语言句法指导解码的神经机器翻译方法对机器翻译任务性能提升是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.基于源语言句法增强解码的神经机器翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、使用句法解析工具对平行语料中的源语言句子进行句法解析,得到其句法依赖关系,再将得到的句法依赖关系向量化,生成包含源语言句子中词与词之间关系的句法感知矩阵;
Step2、通过词嵌入和位置嵌入对源语言句子进行特征编码,优化Transformer编码器中的自注意力网络,使得编码器在提取源语言句子特征的同时,利用句法感知矩阵生成一个额外的句法相关表征;
Step3、在Transformer解码器中添加一个句法-解码交叉注意力网络,利用编码-解码和句法-解码交叉注意力网络分别提取源语言句子的信息和句法相关表征的信息,将两种信息作为互补,共同指导目标语言的生成;
所述步骤Step2的具体步骤如下:
Step2.1、源语言句子编码器用于提取源语言句子的文本特征,设x=x1,x2,…,xl为一条源语言句子,句子长度l表示句子中有l个词;使用Transformer编码模块对源语言句子特征嵌入进行编码,为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,它与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,具体如下:
Ex=E(x1,x2,…,xl)
其中,Ex为源语言输入文本的词嵌入表征,d表示源语言句子每个词经过嵌入表征提取的词向量维度,Q,K,V∈Rl×d分别为查询向量、键向量、值向量,由词嵌入表征Ex经三个不同权重矩阵的线性变换得到;为缩放因子;
为得到源语言句子句法相关的表征,在编码器自注意力机制中引入句法感知;在执行自注意力过程中,除Transformer原有的遮挡,将在步骤Step1中执行向量化得到的句法关系矩阵作用于注意力权重矩阵WA=QKT,进行句法感知的遮挡,保留其中句法相关的部分,舍弃句法无关的部分;自注意力机制生成两个不同的权重矩阵:原注意力权重矩阵与句法相关的注意力权重,之后,两个注意力权重经由softmax(·)函数得到两个具体权重值,并分别作用于值向量V,由此,除原本的注意力表征之外,句法感知的自注意力还额外生成一个句法相关的注意力表征,式(1)变为:
其中,syn(·)表示句法相关的遮挡;
Step2.2、为了探索注意力的高度并行性,采用多头注意力机制多次并行地执行缩放的点积注意力;多头注意力使用不同的投影矩阵将Q,K,V进行h次线性投影,在h个投影子空间中并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示,多头注意力允许模型共同关注来自不同位置的不同表示子空间的信息,具体表示为:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,权重矩阵WO∈Rd×d,为可训练参数;d′=d/h,h为多头注意力的头数;
Step2.3、生成的两个注意力表征再经过前馈网络进行线性变换和非线性激活,得到最终表征,编码器由多个相同的层堆叠而成,以上过程Step2.1-Step2.2在各层中迭代进行,当前层的输入为前一层的输出,最终得到编码器的输出,包括传统的h=h1,h2,...,hl和句法感知的h′=h′1,h′2,...,h′l;为保证模型梯度有效传播,子层中通过残差网络连接,并进行归一化;
所述步骤Step3的具体步骤如下:
Step3.1、解码器拥有与编码器类似的结构,但在自注意力和前馈网络层之间增加了一个编码-解码交互注意力层,用于将源语言的编码信息融入解码过程;在此基础上增加一个句法-解码交互注意力,用于注意编码生成的句法相关表征h′,以加强源语言句法对解码过程的指导,给定对应源语句的目标语句y=y1,y2,...,yn,解码过程表示为:
S=Atts(EyWQ,EyWK,EyWV)
其中,Ey表示词嵌入向量,同样包含位置嵌入信息;为将词嵌入向量转换为查询向量Q∈Rl×d、键向量K∈Rl×d、以及值向量V∈Rl×d的可训练权重矩阵;Atts(·),AttED(·)和AttSD(·)分别表示自注意力,编码-解码注意力及句法-解码注意力,和/>即为分别提取源语言句子信息和句法相关信息的句法-解码注意力表征和编码-解码注意力表征;
Step3.2、执行交叉注意力生成的编码-解码注意力表征和句法-解码注意力表征/>经不同的方法整合成为一个整体,得到源语言句法增强的目标语言注意力表征,具体整合方式包括:
(1)平均池化:将两个注意力输出表征经平均池化层求平均值,结果送入下游模块;
(2)门控单元:将两个注意力表征进行拼接,之后经门控单元生成一个门控变量,控制两个注意力表征在整合过程中所占权重,可用公式表示为:
g=Sigmoid(linear(O′;O″))
O=g*O′+(1-g)*O″ (5)
其中,(O′;O″)为拼接两个注意力表征形成的拼接变量,linear(·)和Sigmoid(·)分别表示线性网络层和非线性激活层,g即为门控变量;
(3)高速网络:拼接后的注意力表征分别经过两个不同的线性变化和非线性激活,生成一个控制变量和一个输入变量,之后生成最终表示;
T=Sigmoid(WT(O′;O″)+bT)
H=Relu(WH(O′;O″)+bH)
O=H*T+(O′;O″)*(1-T) (6)
其中,WT和WH为权重矩阵,bT和bH为偏置项;T为控制变量,H为输入变量;
(4)线性变换:拼接后的注意力表征仅经过线性变化层生成下游模块的输入变量;
Step3.3、整合后的表征同样要经过前馈网络做线性变换和非线性激活,最后再经softmax层得到一个概率分布,并由此选择目标词汇;
yi=softmax(σ(W1O+b1)) (7)
其中,σ(·)为非线性激活,yi为当前位置对应词语的概率分布,选取概率值最大的作为目标词汇,
L(yi)=yilogyi+(1-yi)log(1-yi) (8)
由此得到目标语言句子的翻译结果,并对模型进行训练以最小化所有词语的预测和真实分布的交叉熵。
2.根据权利要求1所述的基于源语言句法增强解码的神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、在通用的News Commentary v11英德、德英和IWSLT14德英,以及标准低资源WMT18英土、IWSLT15英越翻译数据上训练和测试模型;对数据进行规范化,符号化处理;
Step1.2、将规范化、符号化处理后的源语言句子经由句法解析工具进行句法解析,得到句子中词语与词语相互之间的句法依赖关系;
Step1.3、将得到的源语言句子的句法依赖关系向量化,将其转换为一个l×l的句法感知矩阵,其中l为源语言句子中词语的个数,句法感知矩阵中的每个元素即代表对应两个词语之间的句法相关性,相关则置为有效,无关则置为无效;代表词语本身与本身关系的对角线位置元素也被置为有。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084535.8A CN113901847B (zh) | 2021-09-16 | 2021-09-16 | 基于源语言句法增强解码的神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084535.8A CN113901847B (zh) | 2021-09-16 | 2021-09-16 | 基于源语言句法增强解码的神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901847A CN113901847A (zh) | 2022-01-07 |
CN113901847B true CN113901847B (zh) | 2024-05-24 |
Family
ID=79028745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111084535.8A Active CN113901847B (zh) | 2021-09-16 | 2021-09-16 | 基于源语言句法增强解码的神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901847B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970565B (zh) * | 2022-01-20 | 2024-04-26 | 昆明理工大学 | 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法 |
CN114298061B (zh) * | 2022-03-07 | 2022-12-06 | 阿里巴巴(中国)有限公司 | 机器翻译及模型训练质量评估方法、电子设备及存储介质 |
CN114626363B (zh) * | 2022-05-16 | 2022-09-13 | 天津大学 | 一种基于翻译的跨语言短语结构分析方法及装置 |
CN116720531B (zh) * | 2023-06-20 | 2024-05-28 | 内蒙古工业大学 | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 |
CN117708568B (zh) * | 2024-02-02 | 2024-07-12 | 智慧眼科技股份有限公司 | 大语言模型的特征提取方法、装置、计算机设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377918A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合句法解析树的汉-越神经机器翻译方法 |
CN110457713A (zh) * | 2019-06-19 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 基于机器翻译模型的翻译方法、装置、设备和存储介质 |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析系统 |
CN112685597A (zh) * | 2021-03-12 | 2021-04-20 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
CN112801010A (zh) * | 2021-02-07 | 2021-05-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304390B (zh) * | 2017-12-15 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、训练装置、翻译方法及存储介质 |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
-
2021
- 2021-09-16 CN CN202111084535.8A patent/CN113901847B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457713A (zh) * | 2019-06-19 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 基于机器翻译模型的翻译方法、装置、设备和存储介质 |
CN110377918A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合句法解析树的汉-越神经机器翻译方法 |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析系统 |
CN112801010A (zh) * | 2021-02-07 | 2021-05-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
CN112685597A (zh) * | 2021-03-12 | 2021-04-20 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
Non-Patent Citations (4)
Title |
---|
Syntax -aware neural machine translation directed by syntactic dependency degree;Yi Fang等;《Neural computing and applications》;20210702;第33卷;16609-16625 * |
基于多粒度信息增强的神经机器翻译方法研究;龚龙超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20240410;1-77 * |
基于源语言句法增强解码的神经机器翻译方法;余正涛等;《计算机应用》;20211213;第42卷(第11期);3386-3394 * |
基于重解码的神经机器翻译方法研究;李茂西等;《中文信息学报 》;20210615;第35卷(第6期);39-46 * |
Also Published As
Publication number | Publication date |
---|---|
CN113901847A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113901847B (zh) | 基于源语言句法增强解码的神经机器翻译方法 | |
CN109344391B (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
Zhang et al. | Deep Neural Networks in Machine Translation: An Overview. | |
Dong et al. | Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN110472238B (zh) | 基于层级交互注意力的文本摘要方法 | |
CN107632981B (zh) | 一种引入源语组块信息编码的神经机器翻译方法 | |
Zhang et al. | Syntax-enhanced neural machine translation with syntax-aware word representations | |
Chen et al. | Neural machine translation with sentence-level topic context | |
CN112989796B (zh) | 一种基于句法指导的文本命名实体信息识别方法 | |
CN110059324B (zh) | 基于依存信息监督的神经网络机器翻译方法及装置 | |
CN110569505A (zh) | 一种文本输入方法及装置 | |
Adi et al. | Analysis of sentence embedding models using prediction tasks in natural language processing | |
CN116720531B (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 | |
Qiu et al. | Dependency-Based Local Attention Approach to Neural Machine Translation. | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN115659973A (zh) | 一种融合引导注意力的中文长文本摘要生成方法 | |
CN113743095B (zh) | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 | |
CN114648024A (zh) | 基于多类型词信息引导的汉越跨语言摘要生成方法 | |
CN114757210A (zh) | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 | |
CN118228733A (zh) | 一种基于图神经网络的微博评论对话情感分析方法及系统 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
CN117994791A (zh) | 一种文本引导的多模态关系抽取方法及装置 | |
CN117235256A (zh) | 一种多类知识体系下的情感分析分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |