CN111709254A

CN111709254A - 融合单语语言模型的汉越伪平行语料生成方法

Info

Publication number: CN111709254A
Application number: CN202010368001.7A
Authority: CN
Inventors: 余正涛; 贾承勋; 赖华; 文永华; 于志强
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-25

Abstract

本发明涉及融合单语语言模型的汉越伪平行语料生成方法，属于自然语言处理技术领域。本发明考虑到单语数据的可利用性，在回译方法的基础上，将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合，在回译过程中通过语言模型融入语言特性，以此生成更规范质量更优的伪平行语料，并将生成的语料添加到原始小规模语料中训练最终翻译模型。本发明通过将语言模型和神经机器翻译模型融合，能够产生质量更优的伪平行语料，进而更好地提升汉越神经机器翻译系统的性能和效果。

Description

融合单语语言模型的汉越伪平行语料生成方法

技术领域

本发明涉及融合单语语言模型的汉越伪平行语料生成方法，属于自然语言处理技术领域。

背景技术

神经机器翻译(Neural Machine Translation,NMT)是Sutskever等人提出的端到端的机器翻译方法，其训练数据越多模型性能越好，但对于资源稀缺型语言而言，可获取的双语数据十分有限，这也是导致翻译效果不佳的主要原因。

目前改善低资源语言神经机器翻译系统性能的方法有很多，其中利用现有资源扩充伪平行数据的方法是目前较为有效的方法之一。目前实现数据扩充的方法主要有四类，第一类方法是在可比语料中抽取伪平行句对，通过将源语言与目标语言映射到同一空间中，根据一定规则挑选出候选平行句对，这种方法能够有效地抽取伪平行语料，但是不容易捕捉句子特征，并且抽取到的伪平行句对噪声较大；第二类方法是基于词的替换，利用现有小规模平行句对指定的词进行规则替换得到新的伪平行句对，但是当出现单词一对多的情况时效果不佳；第三类是基于枢轴语言的方法，Li等人将其整理分为系统级、语料级以及短语级三种方法，并提出通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高系统的翻译性能，此方法适用于零资源语言但产生的语料质量不佳；第四类是利用单语数据进行回译(BackTranslation,BT)，通过小规模训练数据训练目标语言到源语言的翻译模型，将目标语言单语数据翻译为源语言数据，以此生成伪平行数据。

汉语-越南语是典型的低资源语言对，可获取的平行语料较少，通过数据扩充生成伪平行数据可以较好地缓解此类问题。考虑到单语数据易于获取且资源充足，但大多数现有的方法没有充分利用单语资源，因此本文针对利用单语数据生成伪平行语料的方法进行了探索研究。由于利用大量单语数据训练的语言模型可以较好的学习到语言特性，因此我们将单语语言模型与神经机器翻译模型融合，使得在伪平行数据生成过程中可以通过语言模型融入目标语言的语言特性。实验表明，相比基准系统本文所提方法生成的伪平行数据能有效提高汉越神经机器翻译的性能。

发明内容

本发明提供了融合单语语言模型的汉越伪平行语料生成方法，以用于解决以下问题：目前利用单语数据进行回译生成伪平行数据的方法，生成的伪平行数据质量不高，且目前方法大多没有考虑到如何提升伪平行数据的质量。

本发明的技术方案是：融合单语语言模型的汉越伪平行语料生成方法，所述融合单语语言模型的汉越伪平行语料生成方法的具体步骤如下：

Step1、伪平行语料生成：通过正向翻译和反向翻译方法在两个方向上生成伪平行数据；

Step2、单语语言模型融合：在伪平行语料的生成过程中，将利用单语数据训练得到目标语言的语言模型融合到神经机器翻译模型，通过语言模型在伪平行数据的生成中融入语言特性；

Step3、伪平行数据筛选：将生成的伪平行数据通过基于语言模型困惑度的方法对伪平行句对进行筛选；

Step4、模型训练及翻译：将筛选后的伪平行语料与原始数据一起训练最终汉越神经机器翻译模型，然后把测试集数据通过训练好的模型进行翻译，通过解码得到最终的模型的BLEU值。

进一步地，所述步骤Step1中，对于伪平行语料的生成，反向翻译方法是使用汉越双语语料训练一个越汉神经机器翻译模型，将越南语单语数据翻译为汉语数据，以此构成反向翻译的汉越伪平行数据；正向翻译方法是利用汉越双语语料训练汉越神经机器翻译模型，将汉语单语数据翻译为越南语数据，以此构成正向翻译的汉越伪平行数据。

进一步地，所述步骤Step2中，对于单语语言模型的融合方法，第一种方法是基于独立训练的语言模型融合，分别对循环神经网络语言模型和神经机器翻译模型进行训练，将最后模型的输出概率进行加权拼接；第二种方法是基于合并训练的语言模型融合，将循环神经网络语言模型的隐状态和神经机器翻译模型解码器的隐状态合并在一起训练，在每一时刻将循环神经网络语言模型的隐藏状态作为输入。

进一步地，所述步骤Step3中，首先对生成的伪平行数据进行排序标号，然后同时利用汉语语言模型和越南语语言模型对伪平行数据中各自语言部分进行困惑度评判，通过筛选出符合设定阈值的句子保留其句子标号，并对汉语句子和越南语句子标号取其交集，根据句子标号遍历保留相应的句对。

本发明的有益效果是：

1、本发明方法通过在伪平行数据的生成过程中，通过融合目标语言的语言模型，将目标语言的语言特性融合到伪平行数据中，使伪平行数据质量更优，从而进一步提升伪平行数据对汉越神经机器翻译模型翻译性能的提升；

2、本发明在生成伪平行数据后，会利用语言模型困惑度对其进行筛选，减小数据的噪声，同时减少缩小训练模型的计算次数。

附图说明

图1为本发明中的整体流程图；

图2为基于独立训练的语言模型融合方法结构流程图；

图3为基于合并训练的语言模型融合方法结构流程图；

图4为基于语言模型困惑度的数据筛选流程图。

具体实施方式

实施例1：如图1-4所示，融合单语语言模型的汉越伪平行语料生成方法，所述融合单语语言模型的汉越伪平行语料生成方法的具体步骤如下：

Step1、通过网络爬虫技术爬取汉越双语数据，经过数据清洗后整理为训练集、测试集和验证集，汉语单语数据和越南语单语数据来源于Wikipedia和QCRI语料库；表1、表2为数据准备情况。

表1：实验双语数据

表2：单语数据利用情况

Step2、伪平行语料生成：通过正向翻译和反向翻译方法在两个方向上生成伪平行数据；其中：

Step2.1、反向翻译方法：

利用收集到的汉-越双语数据

训练一个越汉神经机器翻译模型M_y→x，然后将此翻译模型与外部语言模型进行融合，同时将越南语单语数据通过此模型翻译为汉语译文，在翻译期间通过融合的语言模型对翻译的数据结合越南语的语言特性使其规范化，以此构成反向翻译生成的汉越伪平行数据

Step2.2、正向翻译方法：

利用收集到的汉-越双语数据训练一个汉越神经机器翻译模型，将汉语单语数据通过此模型翻译为越南语译文，在翻译过程中将外部单语语言模型融合进来，通过语言模型将越南语语言特性结合进来，生成通过正向翻译的汉越伪平行数据

Step3、单语语言模型融合：在伪平行语料的生成过程中，将利用单语数据训练得到目标语言的语言模型融合到神经机器翻译模型，通过语言模型在伪平行数据的生成中融入语言特性；

进一步地，所述步骤Step3中，对于单语语言模型的融合方法，第一种方法是基于独立训练的语言模型融合，第二种方法是基于合并训练的语言模型融合。

Step3.1、基于独立训练的语言模型融合：

神经机器翻译模型与循环神经网络语言模型分别进行训练，最后在模型softmax层输出概率进行拼接融合。利用大量越南语单语语料对语言模型进行预训练，同时利用现有数据训练一个汉越神经机器翻译模型，然后在神经机器翻译模型每一时间步长预测下一个单词时，将NMT的概率分布与RNN语言模型的概率分布进行加权相加。

具体的，基于独立训练的语言模型融合是在神经机器翻译模型和循环神经网络语言模型的每个时间步长，翻译模型和语言模型都会根据前一时刻预测的单词对建议下一个可能的单词进行概率预测，然后将NMT预测的概率与语言模型预测的概率P_NMT(y_t|x)乘以超参数λ相加，最后概率最高的单词被选为序列中的下一个单词。神经机器翻译模型中解码器应用集束搜索(beam search)，选择beam size＝3，即选择概率最大的产生3个最可能的序列，直到预测结束为止，然后选择概率最高的序列。Step3.2、基于合并训练的语言模型融合：

循环神经网络的语言模型的隐状态与神经机器翻译模型解码器的隐状态合并在一起训练，在每一时刻将循环神经网络语言模型的隐藏状态作为输入；为了平衡语言模型对神经机器翻译模型的影响，用一个控制器网络g_t在计算过程中调整语言模型隐状态的权重，并根据训练数据对模型的隐藏输出和控制器机制参数进行微调。影响整体性能的因素为上下文向量C_t、前一时刻的单词序列以及语言模型和翻译模型的隐向量状态；

Step4、伪平行数据筛选：将生成的伪平行数据通过基于语言模型困惑度的方法对伪平行句对进行筛选；

进一步地，所述步骤Step4中，首先对生成的伪平行数据进行排序标号，然后同时利用汉语语言模型和越南语语言模型对伪平行数据中各自语言部分进行困惑度评判，通过过滤得到困惑度小于阈值的句子序号，然后根据句对的序号排列取其交集得到最终符和条件的句对序号，最后在原始伪平行数据中遍历扫描保留相应的句对，得到最终实验可用的伪平行数据。

Step5、模型训练及翻译：词表大小均设置为30K，将筛选后的伪平行语料与原始数据一起训练最终汉越神经机器翻译模型，然后把测试集数据通过训练好的模型进行翻译，通过解码得到最终的模型的BLEU值。

为了对比了在RNNsearch模型和Transformer模型与RNNLM融合生成的伪平行数据对汉越神经机器翻译性能的影响，并在实验中对比了不同语言模型融合方式生成的伪平行数据对汉越神经机器翻译性能的影响。实验中baseline为仅利用原始数据训练得到的模型效果，最终模型翻译方向均为汉到越，生成的伪平行数据通过语言模型筛选在正向和反向翻译中分别过滤了5982和8073个句对，通过正向翻译方法扩展了194K伪平行数据，通过反向翻译方法扩展了192K可用伪平行数据。为保证实验结果的可靠性，每组实验结果的BLEU值都是利用相同测试集进行实验得到的结果，实验结果如表3所示。

表3添加伪平行数据后的实验结果

通过以上实验可以看出，增加伪平行数据后可以提升汉越神经机器翻译模型的翻译性能，并且通过基于合并训练融合生成的伪平行语料对翻译性能的提升效果要优于基于独立训练融合的效果，同时相较于独立训练融合方法BLUE值约平均提升了0.45。正向翻译方法生成的伪平行语料的提升效果相比于反向翻译方法要略低一些，这是因为反向翻译生成的伪平行数据中越南语部分是真实语句，汉语部分为翻译生成的语句，而正向翻译刚好相反，这使得模型在进行训练时无法较为准确的获取越南语语言信息，所以反向翻译比正向翻译生成的伪平行数据对系统的提升效果要好。最后将正向和反向生成的伪平行数据合并，进一步增加了伪平行数据的数量，在Transformer模型中相较于baseline最高获得了1.41个BLEU值的提升。

为了验证融合单语语言模型方法生成的伪平行数据质量相对较好，在此对不同的伪平行数据对系统性能提升的影响进行对比分析，在RNNsearch和Transformer模型下对比有无语言模型融合与融合语言模型生成的伪平行数据，对最终翻译模型性能提升的效果进行实验，其中伪平行语料规模均固定为200K，结果如表4所示。

表4不同伪平行语料质量对性能提升的影响

由实验结果可以看出，基于独立训练融合生成的伪平行数据与无语言模型生成的伪平行数据对系统性能的提升相近，影响并不是很大，而通过基于合并训练融合生成的伪平行数据相对无语言模型生成的伪平行数据对系统性能提升较高，这是因为伪平行数据的质量得到了提高，可以进一步提升模型的翻译效果。

为了验证使用与训练语言模型来自不同领域的单语语料生成的伪平行语料对模型性能提升的影响，在汉语-越南语翻译方向上，利用基于合并训练的语言模型融合方式，通过反向翻译方法利用越南语单语数据生成伪平行数据。其中训练语言模型的数据全部使用来自Wikipedia的单语语料，将生成伪平行语料的单语语料库分为不同的4种组成，分别为完全来自Wikipedia、75％与语言模型的领域相同余下部分为QCRI教育领域语料、50％相同和领域完全不同(0％)，对比结果如表5所示。

表5不同领域单语数据实验对比

通过实验结果可以看出，当训练语言模型与翻译利用的单语数据领域相似越多，伪平行数据对最终翻译模型BLEU值的提升也会越高。

以正向翻译(汉到越)生成的伪平行数据为例，对比分析融入循环神经网络语言模型后生成伪平行数据的质量影响，将汉语通过融合单语语言模型的方法翻译为越南语，翻译对比结果如表6所示。

表6不同方法生成伪平行句对效果对比示例

通过对比不同方式生成的伪平行句对可以看出，合并融合的方式翻译得到的越南语译文更加符合越南语的语言特性，得到的越南语译文质量相对较好，而独立训练融合的方式效果相对较弱。

本发明针对利用单语数据进行通过正向翻译和反向翻译生成伪平行数据的基础上，提出了在伪平行数据生成过程中融合单语语言模型的思想。利用大量单语数据训练目标语言的语言模型，并将语言模型融入到神经机器翻译模型中，在伪平行数据生成过程中将目标语言的语言特性融合，获得更加规范的伪平行数据，然后利用语言模型对伪平行数据进行筛选，通过提升伪平行数据的质量，进一步提升了汉越神经机器翻译的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合单语语言模型的汉越伪平行语料生成方法，其特征在于：所述融合单语语言模型的汉越伪平行语料生成方法的具体步骤如下：

2.根据权利要求1所述的融合单语语言模型的汉越伪平行语料生成方法，其特征在于：

所述步骤Step1中，对于伪平行语料的生成，反向翻译方法是使用汉越双语语料训练一个越汉神经机器翻译模型，将越南语单语数据翻译为汉语数据，以此构成反向翻译的汉越伪平行数据；正向翻译方法是利用汉越双语语料训练汉越神经机器翻译模型，将汉语单语数据翻译为越南语数据，以此构成正向翻译的汉越伪平行数据。

3.根据权利要求1所述的融合单语语言模型的汉越伪平行语料生成方法，其特征在于：所述步骤Step2中，对于单语语言模型的融合方法，第一种方法是基于独立训练的语言模型融合，分别对循环神经网络语言模型和神经机器翻译模型进行训练，将最后模型的输出概率进行加权拼接；第二种方法是基于合并训练的语言模型融合，将循环神经网络语言模型的隐状态和神经机器翻译模型解码器的隐状态合并在一起训练，在每一时刻将循环神经网络语言模型的隐藏状态作为输入。

4.根据权利要求1所述的融合单语语言模型的汉越伪平行语料生成方法，其特征在于：所述步骤Step3中，首先对生成的伪平行数据进行排序标号，然后同时利用汉语语言模型和越南语语言模型对伪平行数据中各自语言部分进行困惑度评判，通过筛选出符合设定阈值的句子保留其句子标号，并对汉语句子和越南语句子标号取其交集，根据句子标号遍历保留相应的句对。