CN112257460A

CN112257460A - 基于枢轴的汉越联合训练神经机器翻译方法

Info

Publication number: CN112257460A
Application number: CN202011020199.6A
Authority: CN
Inventors: 高盛祥; 张磊; 余正涛; 王振晗; 朱俊国; 刘畅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-22
Anticipated expiration: 2040-09-25
Also published as: CN112257460B

Abstract

本发明涉及基于枢轴的汉越联合训练神经机器翻译方法，属于自然语言处理技术领域。本发明包括步骤：所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征；其次以英语作为枢轴语言对汉语‑英语，英语‑越南语翻译模型进行联合训练，再将汉语‑英语、英语‑越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。本发明将汉越平行语料与汉英，英越平行语料结合起来进行联合训练，充分利用了英语枢轴语料提升了汉越机器翻译性能，从而解决了汉越平行语料缺失导致翻译模型性能不佳的问题。

Description

基于枢轴的汉越联合训练神经机器翻译方法

技术领域

本发明涉及基于枢轴的汉越联合训练神经机器翻译方法，属于自然语言处理技术领域。

背景技术

机器翻译是用来进行大规模语言翻译的有效工具近年来，中国与越南的交流与合作越来越密切，而机器翻译是跨语言信息交流较为有效的方式，因此研究汉越机器翻译有着非常重要的应用价值。

神经机器翻译是2014年提出的一种机器翻译方法，目前主流的神经机器翻译模型都采用编码器-解码器的架构。神经机器翻译在拥有大规模平行语料的语言对上已经取得了良好的翻译性能，但在低资源的场景下，神经机器翻译的翻译质量低于统计机器翻译。所以在汉越这种低资源语言对上，它受到汉越平行语料库的规模与质量的影响，导致汉越机器翻译性能不佳。

为了缓解汉越机器翻译面临的资源稀缺问题，目前解决思路侧重于利用枢轴语言来改善低资源机器翻译的性能。其主要方法分成以下三类：第一类是将源语言数据通过枢轴语言的加入，间接地通过两步翻译生成源语言-目标语言的平行语料能；第二类是通过枢轴语言间接的训练源语言-目标语言的机器翻译模型。为减小利用枢轴语言翻译过程中的翻译误差提出了利用源-枢轴语言和枢轴-目标语言的平行语料的三种预训练方法从而，提升了低资源的神经机器翻译性能；第三类是使用枢轴语料进行联合训练。

以上方法训练所得到的神经机器翻译模型均能提升低资源下的机器翻译任务性能，但是采用枢轴语言进行机器翻译训练过程中，源语言-枢轴语言，枢轴语言-目标语言的模型训练过程中会因为多语言输入而产生噪声。汉越神经机器翻译是一种典型的低资源场景下的神经机器翻译，其训练语料稀缺，但是却存在大量汉英，英越平行语料，所以汉越神经机器翻译适用于枢轴的方法。为了提升汉越神经机器翻译性能并且利用到小规模的汉越平行语料，我们提出了基于枢轴的汉越联合训练神经机器翻译，其基本思想是，先使用小规模的汉越平行语料训练神经机器翻译模型来得到汉越词语在语义空间上的表示信息,再将其与英语作为枢轴语言的汉语-英语，英语-越南语翻译模型进行联合训练。在联合训练中汉语-英语，英语-越南语翻译模型的汉语，越南语的向量表示与汉越模型得到的汉语，越南语的向量表示计算优化，提升低资源场景下汉越机器翻译的效果。

发明内容

本发明提供了基于枢轴的汉越联合训练神经机器翻译方法，以用于解决明在低资源的场景下神经机器翻译的翻译质量低于统计机器翻译问题；解决了在汉越这种低资源语言对上，受到汉越平行语料库的规模与质量的影响，导致汉越机器翻译性能不佳的问题。

本发明的技术方案是：基于枢轴的汉越联合训练神经机器翻译方法，所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征；其次以英语作为枢轴语言对汉语-英语，英语-越南语翻译模型进行联合训练，再将汉语-英语、英语-越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。

作为本发明的优选方案，所述方法的具体步骤如下：

Step1、获取汉、英、越单语语料，再经过过滤、去噪音、去除停用词、命名实体识别和标注、分词预处理后，分别构建汉英平行语料、英越平行语料和汉越平行语料；

Step2、基于枢轴的神经机器翻译，融入注意力机制的神经机器翻译先将源语言句子编码为向量序列，然后在解码生成目标语言；利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库，分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型；

Step3、基于枢轴的汉越联合训练神经机器翻译，采取联合训练的方法，使用汉越平行语料训练汉越神经机器翻译模型，得到汉语与越南语的向量表示，并且把汉语与越南语的向量表示加入到汉英，英越的联合训练中，对汉越进行联合训练从而提升汉越神经机器翻译性能。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料，把已爬取出的单语语料，经过过滤、去噪音处理，构建出文本级语料，并以json格式储存到数据库中；

Step1.2、对各单语语料进行去除停用词、命名实体识别和标注、分词、词干提取和词形还原的数据处理；

Step1.3、构建英越平行语料规模70万句对、汉英语料规模1000万句对、汉越平行语料。

作为本发明的优选方案，所述步骤Step1.3中：

在NLP任务中，特征粒度为词粒度时远远好于字粒度，因为基于字粒度时不考虑词序信息，损失了过多的n-gram信息。汉语文本不同于英文，词与词之间没有显式的分隔符，在进行汉语的NLP任务时，分词是很关键的一个技术。而越南文本词与词之间没有显式的分隔符，与汉语文本类似。在训练模型之前对汉越语料进行分词处理，其中汉语分词采用结巴分词，越南语分词采用Underthesea-Vietnamese NLP工具，构建汉越平行语料规模10万句对。

作为本发明的优选方案，所述步骤Step2的具体步骤：

Step2.1、在神经机器翻译模型训练中，给定源语言单词的序列表示为x＝(x¹,...,xⁿ)，目标语言单词的序列表示为y＝(y¹,...,yⁿ)，源语言-目标语言的平行语料库表示为

Step2.2、基于注意力机制的神经机器翻译先将源语言句子编码为向量序列，然后在生成目标语言时，通过注意机制动态寻找与生成该词相关的源语言词语信息，用于增强了神经网络机器翻译的表达能力；用P(y|x；θ_x→y)表示一个基于注意力机制的神经机器翻译模型，θ_x→y是模型参数，基于注意力机制的神经机器翻译模型的最大似然估计表示和最大对数似然估计表示模型分别为：

Step2.3、根据轴语言的方法，定义源语言-枢轴语言的语料库和枢轴语言-目标语言的语料库，使用轴语言桥接源语言和目标语言，建立基于枢轴的汉越神经机器翻译模型。

作为本发明的优选方案，所述步骤Step2.3的具体步骤为：

Step2.3.1、假设存在枢轴语言z＝(z¹,...,zⁿ)，则源语言-枢轴语言的语料库

枢轴语言-目标语言的语料库

Step2.3.2、利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库，分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型表示为：

Step2.3.3、源语言到枢轴语言和枢轴语言到目标语言的翻译模型的对数似然函数表示为：

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、使用汉英，英越平行语料来对汉越进行联合训练：

与

表示的是汉语-英语，英语-越南语的似然函数，汉越神经机器翻译联合训练表示为：

Step3.2、在联合训练中，存在级联翻译错误，为了降低枢轴语言带来的传播误差，所以词在语义空间中词的表示要一样，通过轴词嵌入即英语的词嵌入来连接汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型，鼓励这两个模型在两个词汇表的交集中为枢轴词生成相同的向量表示；

Step3.3、使用汉越平行语料训练汉越神经机器翻译模型，得到汉语与越南语的向量表示，并且把汉语与越南语的向量表示加入到汉英，英越的联合训练中，对汉越进行联合训练从而提升汉越神经机器翻译性能。

作为本发明的优选方案，所述步骤Step3.2的具体步骤为：

Step3.2.1、定义v^wz _x→z是汉语-英语的词表中的英语，v^wz _z→y是英语-越南语的词表中的英语，用w∈(v^wz _x→z∩v^wz _z→y)表示w是汉语-英语，英语-越南语词表中共有英语的词；

Step3.2.1、为减小源到枢轴模型和枢轴到目标模型之间的差异，在训练模型的似然函数中加入一个连接项R，λ是超参数，并同时通过惩罚欧氏距离来约束汉语到英语的神经机器翻译模型和英语到越南语的神经机器翻译模型，则基于枢轴联合训练的注意力机制神经机器翻译模型表示为：

作为本发明的优选方案，所述步骤Step3.3的具体步骤为：

Step3.3.1、基于枢轴联合训练的注意力机制汉越神经机器翻译模型表示为：

Step3.3.2、训练过程中基于枢轴的汉越联合训练神经机器翻译模型的最大似然估计表示为：

源语言到枢轴语言的模型的参数θ_x→z的偏导数计算为：

源语言到枢轴语言的模型的参数θ_z→y的偏导数计算为：

Step4、选取六个基线系统设置对比实验，对比基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语和越南语-汉语两个翻译方向上的模型的BLEU值结果。

Step4.1、实验选取了六个基线系统，分别是基于统计机器翻译的Moses、基于OPENNMT框架的Transformer、Convolutional Neural Networks(CNN)、基于注意力机制的GNMT、传统的枢轴机器翻译、迁移学习翻译模型Nmt-trans与本文的方法(不使用汉越语料)、本文的方法+CV(使用汉越语料)进行翻译效果的对比；

Step4.2、实验中使用BLEU值作为评测指标。传统的枢轴机器翻译，采用分部训练的方法，先训练汉英神经机器翻译模型再训练英越机器翻译模型。最后对测评语料汉语使用二次解码的方法，得到越南语翻译。

本发明的有益效果是：

1、本发明将汉越平行语料与汉英，英越平行语料结合起来进行联合训练，充分利用了英语枢轴语料提升了汉越机器翻译性能，从而解决了汉越平行语料缺失导致翻译模型性能不佳的问题；

2、能够提升低资源场景下汉越神经机器翻译性能，在汉语-越南语的翻译方向上达到了19.16的BLEU值，比较于基线模型均有明显的提升。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的简略流程图；

图3为本发明中的基于枢轴的汉越神经机器翻译示意图；

图4为本发明中的基于枢轴的汉越联合训练神经机器翻译训练流程图。

具体实施方式

实施例1：如图1-4所示，基于枢轴的汉越联合训练神经机器翻译方法，所述方法的具体步骤如下：

作为本发明的优选方案，所述步骤Step1的具体步骤为：

作为本发明的优选方案，所述步骤Step1.3中：

作为本发明的优选方案，所述步骤Step2的具体步骤：

作为本发明的优选方案，所述步骤Step2.3的具体步骤为：

枢轴语言-目标语言的语料库

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、使用汉英，英越平行语料来对汉越进行联合训练：

与

作为本发明的优选方案，所述步骤Step3.2的具体步骤为：

作为本发明的优选方案，所述步骤Step3.3的具体步骤为：

源语言到枢轴语言的模型的参数θ_x→z的偏导数计算为：

源语言到枢轴语言的模型的参数θ_z→y的偏导数计算为：

Step4.2、Moses训练中，我们使用了Mgiza训练词对齐，利用Lmplz训练3-gram的Language Model。CNN中编码器设置为10层的卷积神经网络，解码器则采用LSTM网络，批次大小为64，卷积核大小设置为3。GNMT中隐藏层数量设置为2，“num_units”设置为128，“dropout”设置为0.2。Transformer机器翻译模型、Nmt-trans和传统的枢轴机器翻译与本文的方法采用基于OPENNMT框架的Transformer，使用的词表设置为32000个词，句子的最大长度设置为50，“transformer_ff”设置为2048，“label_smoothing”设置为0.1，“attentionhead”设置为2，“dropout”设置为0.2，隐藏层数量设置为2，词嵌入维度设置为256，“batch_size”设置为128，学习率设置为0.2。优化器选择Adam，其参数设置为β_1＝0.9、β_2＝0.99、ε＝le-8；

Step4.3、实验中使用BLEU值作为评测指标。传统的枢轴机器翻译，采用分部训练的方法，先训练汉英神经机器翻译模型再训练英越机器翻译模型。最后对测评语料汉语使用二次解码的方法，得到越南语翻译。因为汉越语料规模较少，汉越神经机器翻译模型训练不充分，对于词频较低的词语，翻译性能不好，所以在联合训练中，只取词频大于Topk＝30的词汇。

此优选方案设计是为了最大限度利用到小规模的汉越平行语料，结合大量已有的汉英，英越平行语料，提升低资源场景下汉越机器翻译的效果。

本文在低资源翻译场景下进行汉语-越南语和越南语-汉语的神经机器翻译实验。实验训练语料规模为：汉越平行语料规模10万句对，英越平行语料规模70万句对，汉英语料规模1000万句对。具体的实验数据集如表1所示。在训练之前对实验数据进行了过滤乱码与分词处理，其中汉语分词采用结巴分词，越南语分词采用Underthesea-Vietnamese NLP工具。

表1实验数据集表

Tab.1Experimental Data Set Table

数据集	训练集	验证集	准测试集
				汉英	10M	10k	20k
英越	700k	4k	5k
				汉越	100k	1k	2k

为了评估基于枢轴的汉越联合训练神经机器翻译方法的有效性我们设置了6组对比实验。表2中给出的是基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语和越南语-汉语两个翻译方向上的模型的BLEU值对比结果。

表2不同模型的BLEU值对比结果

Tab.2Comparison of BLEU values of different models

模型	汉语-越南语	越南语-汉语
			Moses	16.39	16.21
CNN	16.87	16.35
			GNMT	14.21	16.47
Transformer	17.35	17.02
			传统的枢轴方法	18.16	17.79
Nmt-trans	17.98	17.65
			本文的方法	18.75	18.12
本文的方法+CV	19.16	18.64

从表2中可以看出，基线模型中Transformer模型的BLEU值高于其它基线模型，这说明基于Transformer的汉越神经机器翻译框架中的遮蔽注意力机制可以更好地对目标语言进行翻译；汉越双语神经机器翻译上，本文采用的方法其效果明显优于基线系统，其中本文方法对比Moses方法在汉语-越南语翻译方向上提升2.77个BLEU值在越南语-汉语方向上提升了2.43个BLEU值，这说明基于汉越神经机器翻译的方法比统计机器翻译更好。对比Transformer方法在汉语-越南语翻译方向上提升了1.81个BLEU值，在越南语-汉语翻译方向上提升了1.62个BLEU值。对比传统的枢轴方法在汉语-越南语翻译方向上提升了1个BLEU值，在越南语-汉语方向上提升了0.33个BLEU值。对比Nmt-trans得到1.18个BLEU值提升，越南语-汉语翻译方向上得到个0.99个BLEU值提升。说明在实验过程中，使用小规模汉越语料训练汉越神经机器翻译模型得到汉越词的语义表示信息，再将汉越的语义表示信息与汉英，英越翻译模型进行联合训练，从而提升翻译模型的性能，同时也验证了本文方法的有效性。

从表3的第一组句子中可以看出Transformer的译文出现了语句不准确的现象，翻译错了比赛

相比之下本文的方法+CV更加准确。在第二组句子中，Transformer的译文比起第一组数据，出现了更多漏译的情况，例如，白开水

很多颜色

等。由于漏翻的词汇在基线模型的训练语料中出现的次数较少，神经机器翻译模型无法很好的学习低频词的语义表示，从而出现了漏翻的情况。而本文采用基于枢轴的联合训练方法再使用小规模的汉越语料的前提下，还使用了英语桥接汉语和越南语，提升了汉越翻译任务的性能。本文方法虽然还存在翻译不充分的问题，但是在汉越神经机器翻译上对比基线系统，其产生的译文准确度更高。表中给出的是基线系统与基于枢轴的汉越联合训练神经机器翻译在汉语-越南语翻译方向上译文的对比示例。

表3不同模型的译文示例

Tab.3Translation Examples of Different Models

实验结果表明，该方法能够提升低资源场景下汉越神经机器翻译性能，在汉语-越南语的翻译方向上达到了19.16的BLEU值，比较于基线模型均有明显的提升。在下一步的工作中，我们将研究在现有基础上融入汉越的词对齐信息及枢轴词典等，从而提升越南语的翻译性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于枢轴的汉越联合训练神经机器翻译方法，其特征在于：所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征；其次以英语作为枢轴语言对汉语-英语，英语-越南语翻译模型进行联合训练，再将汉语-英语、英语-越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。

2.根据权利要求1所述的基于枢轴的汉越联合训练神经机器翻译方法，其特征在于：所述方法的具体步骤如下：

3.根据权利要求2所述的基于枢轴的汉越联合训练神经机器翻译方法，其特征在于：所述步骤Step1的具体步骤为：

4.根据权利要求3所述的基于枢轴的汉越联合训练神经机器翻译方法，其特征在于：所述步骤Step1.3中：

在训练模型之前对汉越语料进行分词处理，其中汉语分词采用结巴分词，越南语分词采用Underthesea-Vietnamese NLP工具，构建汉越平行语料规模10万句对。

5.根据权利要求2所述的基于枢轴的汉越联合训练神经机器翻译方法，其特征在于：所述步骤Step2的具体步骤：