CN112507733A

CN112507733A - 基于依存图网络的汉越神经机器翻译方法

Info

Publication number: CN112507733A
Application number: CN202011229881.6A
Authority: CN
Inventors: 余正涛; 杨威亚; 高盛祥; 文永华; 朱俊国; 吴霖
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-03-16
Anticipated expiration: 2040-11-06
Also published as: CN112507733B

Abstract

本发明涉及基于依存图网络的汉越神经机器翻译方法，属于自然语言处理技术领域。本发明首先从网站爬取汉越平行语料，将获取的汉越双语语料分别利用依存句法解析工具进行依存句法解析。其次将获取的源语言依存句法解析树利用图编码器转化为依存图，并对其编码获取依存图结构信息，再将依存图结构信息送入编码端与源语言序列信息融合，利用这种融合信息送入解码端指导模型翻译。本发明通过融入依存句法信息，将依存关系转化为依存图，利用图神经网络实现对依存图的全局结构化编码，给翻译模型提供了更丰富的全局依存信息，对具有句法差异的汉越语言对的翻译效果提升提供了一定的帮助。

Description

基于依存图网络的汉越神经机器翻译方法

技术领域

本发明涉及基于依存图网络的汉越神经机器翻译方法，属于自然语言处理技术领域。

背景技术

汉越神经机器翻译属于低资源机器翻译任务，由于缺乏大规模的平行句对，翻译性能不佳。汉语和越南语属于不同的语系，句法差异比较大,存在定语前置和后置的区别，在汉越双语词对齐对比中，汉语的定语一般位于被修饰语的前面,例如“美丽的”作为定语修饰“歌手”，“优美的”作为定语修饰“歌声”。在越南语的句法结构中,定语一般位于被修饰语后面,如“

(歌手)

(美丽的),“

(歌声)

(优美的)”，在低资源情况下，翻译模型可能对双语的句法特点学习不够充分，无法捕获深层的句法信息，产生乱序的译文。

发明内容

本发明提供了基于依存图网络的汉越神经机器翻译方法，以用于解决在低资源场景下，因为缺少大规模平行语料，翻译模型可能对双语的句法差异学习不充分，无法建模深层次的句法结构信息，导致生成乱序译文，翻译性能不佳的问题。

本发明的技术方案是：基于依存图网络的汉越神经机器翻译方法，首先将获取的源语言的依存句法解析树利用图编码器转化为依存图，并对其编码获取依存图结构信息；再将依存图结构信息送入编码端与源语言序列信息融合，利用这种融合信息送入解码端指导模型翻译。

进一步地，所述方法具体步骤包括：

Step1、编码依存图结构信息：引入图编码器将源语言的依存句法解析树转化为依存图，并对其编码获取依存图结构信息；

Step2、融合依存图结构信息和序列信息：该步骤在基于Transformer的编码层基础上进行了扩展，在两个子层多头注意力层和前馈层之间增加了一个图注意力层，在序列编码器端融合依存图结构信息和序列信息；

Step3、在解码端，增加了一个图和序列注意力机制的子层，通过增加子层后的解码端利用融合后的信息和目标语言序列信息指导解码器目标译文生成。

进一步地，所述Step1中，源语言的依存句法解析树的获取包括：通过爬虫爬取网站汉越平行语料，对获取语料进行依存句法解析，获取源语言的依存句法解析树。

进一步地，所述源语言的依存句法解析树的获取具体步骤如下：

(1)、通过调用scrapy爬取汉越网站汉越双语平行语料，进行清洗后放入数据库中；

(2)、针对汉语语料，利用ltp平台，获取汉语的依存句法解析树，针对越南语，利用Vncorenlp，获取越南语的依存句法解析树。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、首先将依存句法解析树转化为有向连通图，在转换的过程中对词节点和标签进行向量化，其中，词节点根据词表进行向量化，标签根据标签词表进行向量化；

Step1.2、采用门控图神经网络GGNNs上的GGNN图编码器，实现对图结构的序列化编码，并将边的信息转化为节点信息，然后融入图隐藏状态G中，得到依存图结构信息。

进一步地，所述步骤Step2的具体步骤为：

Step2.1、首先，在编码层上进行了扩展：原始的transformer模型的编码器包含两个子层，第一层是多头自注意力层,第二层是前馈神经网络层，在两个子层之间增加了一个图和序列的注意力机制，用来融合依存图结构信息和序列信息；

Step2.2、多头自注意力层：利用多头注意力机制对源语言输入序列E，进行自注意力计算，然后将h个注意力进行拼接,最终得到源语言的多头注意力输出向量，也即源语言的序列信息D，该步骤目的是学习句子内部的词依赖关系，捕获句子的内部结构信息；

Step2.3、图-序列注意力子层：通过Multihead机制，实现对源语言的依存图结构信息G和源语言的序列信息D相互关注和融合，实现对依存图结构信息和序列信息相互关注，得到输出向量N；

N＝MultiHead(D,G,G) (1)

Step2.4、在第三个前馈神经网络子层，对N向量进行残差链接和归一化计算，最终编码器输出融合依存图结构信息的序列向量S：

S＝LN(FFN(LN(N))+LN(N)) (2)。

进一步地，所述步骤Step3中，为了利用融合信息S指导解码器目标译文生成，在解码端进行了扩展，扩展了一个图和序列注意力机制的子层，解码端内部共包含四个子层，通过这四个子层去指导目标语言的译文生成；其中，这四个子层具体如下：

(1)、多头注意力层：利用多头注意力机制对目标语言词嵌入序列T向量进行计算，得到目标序列的上下文向量；

M＝MultiHead(T,T,T) (3)

(2)、图-序列注意力层：将图编码器输出的结构向量即源语言的依存图结构信息G和解码端第一层输出的目标语言上下文向量M进行关注，得到关注向量B；

B＝MultiHead(M,G,G) (4)

(3)、编码-解码注意力层：将图-序列注意层输出的关注向量B和Transformer的序列编码器输出的融合依存图结构信息的序列向量S进行多头计算；

H＝MultiHead(B,S,S) (5)

(4)、全连接的前馈神经网络层：利用上一层的输出向量H，计算得到当解码器输出的目标端的隐向量F；

F＝LN(FFN(LN(H))+LN(H) (6)

最后softmax层生成目标语言译文，目标词

的概率分通过softmax层计算源语言X与上一个目标词y_＜j得到，θ是模型的学习参数，W⁰是权重矩阵，

为预测第j个目标词的词向量，由此生成目标语言的译文

p(y_j,|X,y_＜j；θ)＝softmax(W^oF_j) (7)。

本发明的有益效果是：

本发明针对汉越低资源翻译任务，基于Transformer的模型架构，提出了一种基于依存图网络融合源语言依存句法的汉越神经机器翻译方法同时，将依存关系转化为依存图，利用图神经网络实现对依存图的全局结构化编码，给翻译模型提供了更丰富的全局依存信息。通过实验证明，在低资源场景下，依存句法信息的融入，对具有句法差异的汉越语言对的翻译效果的提升是有效果的。

附图说明

图1为本发明实施例1中总的流程图；

图2为本发明实施例1中的将依存句法解析树转化为有向连通图示例；注：左边为依存句法树，右边为连通二部有向图；

图3为本发明实施例1中的模型流程框架图。

具体实施方式

实施例1：如图1-3所示，基于依存图网络的汉越神经机器翻译方法，首先从网站爬取汉越平行语料，将获取的汉越双语语料分别利用依存句法解析工具进行依存句法解析，获取源语言的依存句法解析树；其次将获取的源语言的依存句法解析树利用图编码器转化为依存图，并对其编码获取依存图结构信息；再将依存图结构信息送入编码端与源语言序列信息融合，利用这种融合信息送入解码端指导模型翻译。

具体步骤如下：

Step1、获取数据并进行数据预处理：通过爬虫爬取网站汉越平行语料，对获取语料进行依存句法解析，获取源语言的依存句法解析树；

Step2、将源语言依存句法解析树利用图编码器转化为依存图，并对其编码获取依存图结构信息；

Step3、在序列编码器融合结构信息和序列信息，该步骤在基于Transformer的编码层基础上进行了扩展，在两个子层多头注意力层和前馈层之间增加了一个图注意力层，用来融合依存图结构信息和序列信息；

Step4、利用融合依存结构信息和序列信息的方法指导解码器目标译文生成，在解码层，本发明同样增加了一个图和序列注意力机制的子层。每一个解码端内部包含四个子层，通过这四个子层去指导目标语言的译文生成。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、通过调用scrapy爬取汉越网站汉越双语平行语料，进行清洗后放入数据库中；

Step1.2、针对汉语语料，利用ltp平台，获取汉语的依存句法解析树，针对越南语，利用Vncorenlp，获取越南语的依存句法解析树。

此优选方案设计是此优选方案设计是本发明的重要组成部分，主要为本专利提供语料预处理过程，为后续工作提供模型训练时所需训练语料和为模型测试时提供测试语料，并为后续模型输入提供了依存句法信息。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、首先将依存句法解析树转化为有向连通图，如附图2。在转换的过程中对词节点和标签进行向量化，其中，词节点根据词表进行向量化，标签根据标签词表进行向量化；

Step2.2、采用Beck等人改进后的门控图神经网络(Gated Graph NerualNetworks，GGNNs)上改进后的GGNN图编码器对源语言的依存句法解析树进行编码，得到源语言的依存图结构信息，它可以在不损失结构信息的情况下实现对图结构的序列化编码，并将边的信息转化为节点信息，然后融入图隐藏状态G中，得到依存图结构信息。

此优选方案设计是本发明的重要组成部分，为本发明模型中的编码器部分之一，主要为编码源语言的依存句法解析知识到向量中，参与后续模型计算。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、首先，在编码层上进行了扩展：原始的transformer模型的编码器包含两个子层，第一层是多头自注意力层,第二层是前馈神经网络层，如附图3所示，本发明在两个子层之间增加了一个图和序列的注意力机制，用来融合依存图图结构信息和序列信息；

Step3.2、多头自注意力层：多头自注意力层：利用多头注意力机制对源语言输入序列E，进行自注意力计算，然后将h个注意力进行拼接,最终得到源语言的多头注意力输出向量，也即源语言的序列信息D，该步骤目的是学习句子内部的词依赖关系，捕获句子的内部结构信息；

Step3.3、图-序列注意力子层：通过Multihead机制，实现对源语言的依存图结构信息G和源语言的序列信息D相互关注和融合，实现对依存图结构信息和序列信息相互关注，得到输出向量N；

N＝MultiHead(D,G,G) (1)

Step3.4、在第三个前馈神经网络子层，对N向量进行残差链接和归一化计算，最终编码器输出融合依存图结构信息的序列向量S：

S＝LN(FFN(LN(N))+LN(N)) (2)。

此优选方案设计是本发明的重要组成部分，本方案设计了一层图-序列注意力层，实现对源语言的图结构信息和序列信息的融合，为后续解码端译文生成提供了指导。

作为本发明的优选方案，所述步骤Step4中，为了利用融合信息S指导解码器目标译文生成，在解码端进行了扩展，扩展了一个图和序列注意力机制的子层，解码端内部共包含四个子层，通过这四个子层去指导目标语言的译文生成；其中，这四个子层具体如下：

M＝MultiHead(T,T,T) (3)

B＝MultiHead(M,G,G) (4)

H＝MultiHead(B,S,S) (5)

F＝LN(FFN(LN(H))+LN(H) (6)

最后softmax层生成目标语言译文，目标词

为预测第j个目标词的词向量，由此生成目标语言的译文

p(y_j,|X,y_＜j；θ)＝softmax(W^oF_j) (7)。

此优选方案设计是本发明的重要组成部分，本方案在解码端设计了一层图-序列注意力层，对编码端传递过来的融合信息进行了注意力计算，最终达到指译文生成提供的目的。

本发明基于依存图网络的汉越神经机器翻译方法，首先对句子进行依存句法解析获取依存信息，转化为有向连通图，通过图编码器将获取到的依存信息进行图结构化编码，再使用多头注意力机制,图注意力机制，FNN层融合句子的依存句法结构信息和序列信息，在解码的过程中利用结构化和序列编码指导目标语言解码生成译文。通过融入依存句法信息，将依存关系转化为依存图，利用图神经网络实现对依存图的全局结构化编码，给翻译模型提供了更丰富的全局依存信息，对具有句法差异的汉越语言对的翻译效果提升提供了一定的帮助。

为验证本发明提出的融合依存图的汉越神经机器翻译方法，本发明在汉-越，越-汉双向翻译上进行了实验。其中汉-越语料通过互联网爬取150k的汉越平行语料，分成训练集，测试集，验证集，如表1。在依存句法树获取方面，利用LTP(语言云)平台对中文数据进行分词及依存句法解析，利用VnCoreNlp[]工具对越南语进行分词及依存句法解析,分别获取中文和越南语的解析结果。本实验并没有利用BPE对源语言和目标语言进行分词。

表1数据集

语料总数	训练集	测试集	验证集
				150000	126000	2000	2000

本实验的模型是在Transformer的模型框架进行了扩展。其参数设置为：批次大小为1024，句子最大长度为256，学习率设置均为：0.0003，词嵌入的维度512，编码器和解码器层数都设置为6层，多头注意力的头个数为8，训练轮次为epoch＝30，dropout＝0.25，保留的词表大小是50k。其中GGNN编码器层数设置为8。

选择选择Transformer、Seq2Tree、RNNSearch+Lable、RNNsearch作为本发明对比实验的基准模型，下面将对这四种模型进行介绍：

RNNSearch:基于传统的RNN神经网络，实现的神经机器翻译模型。其参数设置为：编、解码端的网络层数为3层,每层隐含单元数为512个,并用1.0初始化LSTM的遗忘门偏置项。

RNNSearch+Lable：该模型是在RNNsearch的基础上，将源语言的依存句法标签向量化，作为外部知识，拼接在源语言的词向量后面融入翻译模型。其参数设置和RNNsearch保持一致。

Seq2Tree：短语树到序列的翻译模型，基于Tree-LSTM实现短语句法树的融入。训练的参数和本发明模型一致。本模型所需要的越南语短句法分析结果，采用李英等人的越南语短语句法解析工具对越南语进行句法解析。

Transformer：最原始的Transformer。其参数设置和本论文提出的模型一致。

本发明的实验采用单张Tesla K40m GPU进行实验.翻译结果的测评实验是通过Bleu值进行评分的。

本实验在利用筛选出来的150k语料进行汉-越翻译和越-汉翻译任务。实验结果如表2所示，在本次双向翻译任务中，对比分析表2中的实验结果，Tree2Seq、RNNsearch+Lable在汉-越翻译任务上，比RNNsearch的翻译结果分别高1.35个BLEU值和0.98个BLEU值，在越-汉翻译任务上分别高1.65个BLEU值和0.91个BLEU值，说明将源语言的依存句法知识融入翻译模型对翻译效果的提升是有明显帮助的。Transformer在不融入句法知识的情况下，比前三个翻译模型都取得了更好的BLEU值，说明Transformer模型本身的高效性能。本发明提出的Transformer+Graph翻译模型在汉-越和越-汉翻译任务上，分别比Transformer高0.42个BLEU值和0.58个Blue值，说明本发明提出的基于依存图网络融合依存句法的翻译方法，可以更好的利用源语言的依存句法知识，也说明利用图编码器获取的全局依存句法结构知识，对提升翻译质量是有效的。

表2对比实验结果

模型	汉->越	越->汉
			RNNSearch	13.86	14.12
RNNsearch+Lable	14.84	15.03
			Tree2Seq	15.31	15.77
Transformer	16.12	16.50
			Transformer+Graph	16.54	17.08

在本次双向翻译任务中，对比分析表2中的实验结果，Tree2Seq、RNNsearch+Lable在汉-越翻译任务上，比RNNsearch的翻译结果分别高1.35个BLEU值和0.98个BLEU值，在越-汉翻译任务上分别高1.65个BLEU值和0.91个BLEU值，说明将源语言的依存句法知识融入翻译模型对翻译效果的提升是有明显帮助的。Transformer在不融入句法知识的情况下，比前三个翻译模型都取得了更好的BLEU值，说明Transformer模型本身的高效性能。本发明提出的Transformer+Graph翻译模型在汉-越和越-汉翻译任务上，分别比Transformer高0.42个BLEU值和0.58个Blue值，说明本发明提出的基于依存图网络融合依存句法的翻译方法，可以更好的利用源语言的依存句法知识，也说明利用图编码器获取的全局依存句法结构知识，对提升翻译质量是有效的。

为了验证源语言的依存图结构信息在编、解码端的作用,设计了消融实验，并与以下模型进行对比，定义“Dec+Graph”表示只在解码端融合源语言依存图信息，“Enc+Graph”表示只在编码端融合源语言依存图信息，“Transformer+Graph”表示本发明提出的完整模型框架。

表3为消融实验结果

	汉->越	越->汉
			Transformer	16.12	16.50
Dec+Graph	16.17	16.63
			Enc+Graph	16.30	16.87
Graph+Transformer	16.54	17.08

从表3实验结果可以看出:在汉-越翻译任务和越-汉翻译任务上，将源语言的依存图结构信息分别用于编码端和解码端，比原始的Transformer翻译结果均有BLEU值的提升，说明依存句法知识对于翻译任务是有帮助的。对比Enc+Graph和Dec+Graph的翻译结果，说明在编码端利用多头注意力机制将源语言的依存图结构信息和序列信息融合，更有助于模型充分学习源语言内部的依存约束关系，用于指导目标译文的生成。本发明提出的Graph+Transformer翻译模型在汉-越和越-汉翻译任务中取得了最好的翻译结果，BLEU值结果最高，说明在编、解码端都利用依存图结构信息，对于指导目标译文的生成更有帮助。

下面将以不同模型的汉到越的翻译结果为例，分析融入依存句法对译文的影响。译文对比如表4所示。

在源语言的汉语示例中，形容词短语“有才华的”作为修饰定语，位于被修饰语“歌手”的前面，但是在RNNsearch模型输出的译文中，将ca

(歌手)的修饰定语

(非常)tài

(天赋)前置，这并不符合越南语参考译文的语序，应将

(非常)tài

(天赋)后置修饰ca

(歌手)。导致这种情况的原因，可能是翻译模型未利用源语言的依存约束关系，在训练时没有学到和目标语言的句法差异，导致译文的语序不符合目标语言的语序。

在本发明提出的翻译模型结果中，将依存句法知识融翻译模型后，很明显的可以看到翻译译文的语序符合越南语的语序，说明源语言的依存句法对于翻译模型学习源语言本身的依存的约束关系是有帮助的，可以让翻译模型更有效的学习两种语言之间差异化的句法特点，在解码时，对于提升目标译文的生成起到指导和约束作用。

表4不同模型的译文结果

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。