CN110472252A

CN110472252A - 基于迁移学习的汉越神经机器翻译的方法

Info

Publication number: CN110472252A
Application number: CN201910751450.7A
Authority: CN
Inventors: 余正涛; 黄继豪; 郭军军; 文永华; 高盛祥; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-19
Anticipated expiration: 2039-08-15
Also published as: CN110472252B

Abstract

本发明涉及基于迁移学习的汉越神经机器翻译的方法，属于自然语言处理技术领域。本发明包括步骤：语料收集与预处理：收集并预处理汉越、英越、汉英句对的平行语料；使用汉英和英越平行语料生成汉英越三语平行语料；训练汉英神经机器翻译模型与英越神经机器翻译模型，并使用预训练模型的参数初始化汉越神经机器翻译模型的参数；使用汉越平行语料对初始化后的汉越神经机器翻译模型进行微调训练，得到汉越神经机器翻译模型来进行汉越神经机器翻译。本发明能够有效地提升汉越神经机器翻译的性能。

Description

基于迁移学习的汉越神经机器翻译的方法

技术领域

本发明涉及基于迁移学习的汉越神经机器翻译的方法，属于自然语言处理技术领域。

背景技术

近年中越两国交流日益频繁，汉语-越南语这样的低资源场景下的翻译技术需求在不断增长。但是目前汉语-越南语的神经机器翻译性能不够理想，所以提升汉越神经机器翻译系统的性能，对两国之间的交流起到了非常重要的作用。端到端的神经机器翻译(Neural Machine Translation)是一种全新的翻译体系，直接利用神经网络实现源语言文本到目标语言文本得映射。神经机器翻译在资源丰富型语言对上已经达到了很好的翻译性能，在许多翻译任务中取得了令人瞩目的成绩。但是在汉越神经机器翻译任务上它仍然受到平行语料库的规模与质量的影响，因为语料资源稀缺，没有大规模汉越平行语料，导致了汉越神经机器翻译的性能不佳。因此，如何提升汉-越神经机器翻译的效果有着非常重要的应用前景；

目前枢轴语言和迁移学习的方法是解决低资源场景下神经机器翻译效果不佳问题的有效方法之一。使用轴语言桥接源语言和目标语言。利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库，分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型。该方法的优点在于，即使没有可用于低资源场景下语言对的双语语料库，也可以在源语言和目标语言之间进行翻译。除此之外，神经机器翻译任务本质上是要求模型可以得到目标语言中的句子并且不丢失源语言句子中的信息，因此适用于迁移学习知识领域。相较于枢轴语言方法，迁移学习可以直接改进源语言-目标语言模型参数，因此很多研究者在迁移学习领域展开研究。使用迁移学习的方法可以训练资源丰富的语言对模型的参数来初始化低资源场景下的翻译模型的参数。但是这些训练过程缺少小规模双语平行语料的指导，导致了多语言输入所产生的噪声现象。除此以外，以上方法更侧重于改进低资源场景下模型的参数，没有对单独的编码器或者解码器进行改进。汉越神经机器翻译是一种低资源场景下的神经机器翻译，训练语料稀缺，但是其存在着大量汉英、英越平行语料，适用于迁移学习与枢轴语言的方法。因此本发明是如何解决低资源场景下汉越机器翻译效果不佳的问题，所以本发明提出了基于迁移学习的汉越神经机器翻译的方法。

发明内容

本发明提供了基于迁移学习的汉越神经机器翻译的方法，以用于解决汉越神经机器翻译效果不佳的问题。

本发明的技术方案是：基于迁移学习的汉越神经机器翻译的方法，所述方法的具体步骤如下：

Step1、语料收集与预处理：收集并预处理汉越、英越、汉英句对的平行语料；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、使用爬虫爬取了汉越、英越、汉英平行句对，并且从训练数据中提取一部分作为测试集与验证集；

Step1.2、对爬取的语料经过人工筛选再对其对进行分词、将阿拉伯数字替换为“num”与乱码过滤处理使神经机器翻译模型达到更好的效果。

Step2、使用汉英和英越平行语料生成汉英越三语平行语料；

作为本发明的优选方案，所述Step2的具体步骤如下：

Step2.1、在已有的汉语-英语，英语-越南语的数据集中，对轴语言英语使用回译的方法，使用英汉平行语料训练基于注意力机制的英汉神经机器翻译模型，其次用训练好的基于注意力机制的英汉神经机器翻译模型对英越平行语料中的英语进行回译成汉语，从而得到汉-英-越三语平行语料；

Step2.2、对2.1得到的汉-英-越三语平行语料使用数据增强的方法，替换越南语语料中的稀有词扩充汉-英-越三语平行语料。

Step3、训练汉英神经机器翻译模型与英越神经机器翻译模型，并使用预训练模型的参数初始化汉越神经机器翻译模型的参数；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

为了解决神经机器翻译模型中将源语言表示成一个固定长度的向量，但是固定长度的向量不能充分表达出源语言句子语义信息与上下文的关系；在训练的神经机器翻译模型中引入注意力机制；

Step3.1、使用汉英、英越平行语料分别训练带有注意力机制的神经机器翻译模型，分别得到带有注意力机制的汉英神经机器翻译模型和英越神经机器翻译模型；

Step3.2、使用汉英神经机器翻译模型的汉语编码器参数与英越神经机器翻译模型的越南语解码器参数初始化汉越神经机器翻译模型的编码器与解码器参数。

Step4、使用汉越平行语料对初始化后的汉越神经机器翻译模型进行微调训练，得到汉越神经机器翻译模型来进行汉越神经机器翻译。

因为语料资源稀缺，没有大规模汉越平行语料，导致了汉越神经机器翻译的编码器的语义表示不佳影响汉越神经机器翻译性能。存在大规模的汉英平行语料与英越平行语料，用其训练的神经机器翻译模型的参数可用于迁移学习的思想；

所述步骤Step3中：

神经机器翻译模型是将源语言句子表示成一个固定向量。该方法存在的不足之处是，固定长度的向量不能充分表达出源语言句子语义信息与上下文的关系。注意力机制能让一个神经网络能只关注神经网络输入的一部分信息，它能够选择特定的输入。基于注意力机制的神经机器翻译先将源语言句子编码为向量序列，其次在生成目标语言时，通过注意机制动态寻找与生成该词相关的源语言词语信息，因此大大增强了神经网络机器翻译的表达能力。

神经机器翻译是基于数据驱动的语言转换过程，其性能依赖平行语料的规模与质量。汉越平行语料的规模与质量受限，导致训练数据不充分，进而使编解码器的参数不能达到最优。迁移学习可以将学习到的知识，应用到相近的任务上。在低资源场景下的任务，使用高资源任务得来的规则参数以改善低资源任务的性能，这样可以减少任务所需的数据量。所以，本发明利用大规模汉英和英越语料预训练汉英和英越基于注意力机制的神经机器翻译模型，使用其汉语编码器与越南语解码器初始化基于注意力机制的神经机器翻译模型的编码器与解码器参数。

本发明的有益效果是：

1、本发明首先通过汉英、英越平行语料使用回译与数据增强的方法，得到了汉英越三语平行语料，并且将其加入训练语料中，使得接下的初始化模型的参数更具有关联性；

2、本发明使用汉英、英越平行语料预训练神经机器翻译模型，并且用其汉语编码器与越南语解码器参数初始化了汉越神经机器翻译模型的编码器与解码器参数，使得汉越神经机器翻译模型的模型起始不会以随级初始化后的参数开始训练，并且更能准确表达语义信息。最后使用小规模汉越语料进行微调训练，得到汉越神经机器翻译模型，可以在初始化的汉越神经机器翻译模型上进行优化训练，能够有效地提升汉越神经机器翻译的性能；

3、本发明采取了迁移学习的思想，使得汉越神经机器翻译的编码器能更好的表示源语言的语义信息，解码的效果更好。

附图说明

图1是本发明的具体流程图；

图2是本发明提出的基于迁移学习的汉越神经机器翻译训练流程图。

具体实施方式

实施例1：如图1-2所示，基于迁移学习的汉越神经机器翻译的方法，所述方法的具体步骤如下：

Step1、使用爬虫爬取训练语料，其中爬取的训练语料有汉越语料规模为10万句对；英越语料规模70万句对；汉英语料规模5000万句对；对爬取的语料经过人工筛选再对其进行乱码过滤；并且从训练数据中提取一部分作为测试集与验证集；

对爬取的语料经过人工筛选再对其对进行分词、将阿拉伯数字替换为“num”与乱码过滤处理。

Step2、在已有的汉语-英语，英语-越南语的数据集中，对轴语言英语使用回译的方法，首先使用词表为32000的4层基于注意力机制的神经机器翻译系统采用大规模英汉平行语料训练基于注意力机制的英汉神经机器翻译模型，其次用训练好的基于注意力机制的英汉神经机器翻译模型对英越平行语料中的英语进行回译成汉语，从而得到汉-英-越三语平行语料；

对2.1得到的汉-英-越三语平行语料使用数据增强的方法，替换越南语语料中的稀有词扩充汉-英-越三语平行语料；其中，越南语语料中稀有词的出现频率设置为20，每次只替换一个稀有词，替换句对中的稀有词扩充汉-英-越三语平行语料；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

如图2所示，首先采用汉英平行语料与英越平行语料训练得到两个模型(Pre-train Model A，Pre-train Model B)。在这两个带有注意力机制的汉英神经机器翻译模型和英越神经机器翻译模型训练中，给定源语言单词的序列表示为目标语言单词的序列表示为令GloVe(w^x)是对应于w^x中的单词的GloVe向量，并且令z是对应于W^z中的单词的随机初始化单词向量。GloVe(w^x)用于双层，双向的LSTM(LongShort-Term Memory Network)，记作NMT-LSTM，用来计算隐藏的状态序列。

h＝NMT-LSTM(GloVe(w^x)) (1)

在这个机器翻译模型中，NMT-LSTM提供了一种注意力机制的解码网络在每个阶段基于上下文向量求解条件概率。

在阶段t中，基于先前嵌入的z_t-1，解码器首先使用单向双层的LSTM和调整上下文关系的隐状态来得到隐状态具体如下所示：

解码器计算每个编码阶段与当前解码器状态的相关性的注意力权重向量α。

H是h在时间步长上的积累，是基于注意力机制解码端状态权重的加权求和，再用tanh非线性激活，具体公式如下

输出词的概率分布是由上下文的隐状态的最终转换生成：

Step3.2、在训练汉语到越南语神经机器翻译模型时，采用汉英神经机器翻译模型的汉语编码器参数初始化汉越神经机器翻译模型的编码器参数，并且采用英越神经机器翻译模型的越南语解码器参数初始化汉越神经机器翻译模型的解码器参数。

对初始化参数后的模型，采用汉越平行语料进行微调(Fine-tune Model C)训练，得到汉越神经机器翻译模型。表1为基线系统与基于迁移学习的汉越神经机器翻译模型(Transfer Learning of Neural Machine Translation,TLNMT)在汉语-越南语和越南语-汉语两个翻译方向上模型的BLEU值对比结果，表2为基线系统与基于迁移学习的汉越神经机器翻译模型(TLNMT)在汉语-越南语翻译方向上译文的对比示例。

表1为不同模型的BLEU值对比结果

表2为不同模型的译文示例

从实验结果对比看，在汉越双语神经机器翻译上TLNMT方法效果明显优于其余几种方法。TLNMT方法对比NMT方法在汉越翻译方向上提升了4.48个BLEU值，在越汉翻译方向上提升了1.66个BLEU值。对比OPENNMT模型，TLNMT在汉越翻译方向上得到了1.16个BLEU值提升，越汉翻译方向上得到了1.05个BLEU值提升。

从表2中第一组句子可以看出OpenNMT的译文出现了语句不准确的现象，其中漏翻译了哈勃“Hubble”与轨迹词语。在处理训练集料与测试集中，把数字统一替换成了“num”，而在第二组句子中，OpenNMT的译文比起第一组数据，出现了更多的漏翻译的情况例如，边缘衍射柔和等，并且对于源语句的“num”数据，并没有出现在OpenNMT译文中，而汉越TLNMT译中则有出现。出现以上问题的原因是漏翻的词汇在训练语料出现的次数较少，神经机器翻译模型无法很好的学习低频词的语义表示，从而出现了漏翻的情况。本发明采取了迁移学习与枢轴语言的思想，使得汉越神经机器翻译的编码器能更好的表示源语言的语义信息，解码的效果更好，所以在TLNMT中有更好的翻译效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于迁移学习的汉越神经机器翻译的方法，其特征在于：

所述方法的具体步骤如下：

Step2、使用汉英和英越平行语料生成汉英越三语平行语料；

2.根据权利要求1所述的基于迁移学习的汉越神经机器翻译的方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.2、对爬取的语料经过人工筛选再对其对进行分词、将阿拉伯数字替换为“num”与乱码过滤处理。

3.根据权利要求1所述的基于迁移学习的汉越神经机器翻译的方法，其特征在于：所述Step2的具体步骤如下：

4.根据权利要求1所述的基于迁移学习的汉越神经机器翻译的方法，其特征在于：所述步骤Step3的具体步骤为：