CN110852117A

CN110852117A - 一种提升神经机器翻译效果的有效数据增强方法

Info

Publication number: CN110852117A
Application number: CN201911088431.7A
Authority: CN
Inventors: 杜权; 李自荐; 朱靖波; 肖桐; 张春良
Original assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Current assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-28
Anticipated expiration: 2039-11-08
Also published as: CN110852117B

Abstract

本发明公开一种提升神经机器翻译效果的有效数据增强方法，步骤为：在对应网站中获取基础数据集；根据基础数据集进行词对齐信息获取，得到基础数据集的词对齐信息；使用LSTM语言模型分别训练得到对应语种方向的语言模型；提取低于指定阈值频率的单词组成罕见词词表；获取词语对应信息，得到源语及目标语子句集合和子句对应集合；对目标语子句集合进行翻译，组成句子级数据扩充集合；用罕见词替换常见词得到词级的数据扩充集合；使用句子级和词级数据扩充集合与原始双语基础数据合并，组成训练集合进行神经机器翻译模型的训练，得到更高质量的模型结果。本发明实现了低资源语种语料的有效扩充，实现简单、方法有效，实用性强，提升效果明显。

Description

一种提升神经机器翻译效果的有效数据增强方法

技术领域

本发明涉及一种机器翻译领域，具体为一种提升神经机器翻译效果的有效数据增强方法。

背景技术

近年来，基于深度神经网络的自然语言处理领域中的各项任务均取得了比较显著的成绩，如神经机器翻译等。作为一种具备超强学习能力的网络模型，若没有大规模高质量双语平行语料库进行训练支撑，模型在指定数据集上可能会出现过拟合的情况。因此，模型学习效果与双语平行句对的规模和质量息息相关。然而，对于低资源语种来说，如泰语、老挝语等。标准双语平行语料缺乏，公开语料库规模过小，导致神经机器翻译的学习能力受到极大的限制，不仅不能支持神经机器翻译模型训练以达到一个理想的效果，而且还容易出现数据集过拟合的情况。而若通过人工的方式构建一个高质量的大规模平行语料库则需要大量的时间、费用和专业人员来翻译大量的文本，实用成本过高。因此从语料库的方向入手，使用计算机在基础双语语料库的前提下实现自动语料库构建工作，对提升神经机器翻译模型翻译精度的工作具有较高的实用价值。

在以往的研究工作中，基于神经机器翻译双语平行语料的有关工作主要分为两种方式进行，如下所示：

(1)数据清洗：对于存在某些数据噪声的句子进行修正或移除操作，降低语料库中的噪声影响，以此来达到提升神经机器翻译模型翻译精度的目的。

(2)数据增强：利用某些方法对现有的数据进行扩充，在保证双语数据互译性以及句子完整性的前提下，实现数据增强目的。使用该种方式能够增加数据中某些弱泛化部分的丰富度，使神经机器翻译模型在训练的过程中能够得到更多信息。以此来提升模型学习效果，提升模型翻译精度。

在机器翻译领域，神经机器翻译模型训练语料质量提升一直都是研究的重点问题，其中一个最主要的原因即为语料库的规模和质量与神经机器翻译模型的精度具有强相关性。在计算机视觉领域中，去除训练数据中的噪声后通过水平翻转、随机剪裁、倾斜和改变原始图像RGB通道等方式扩充数据规模以增强模型鲁棒性，改善模型学习效果的图像数据增强技术目前已经被广泛使用。同样的，在神经机器翻译模型训练的过程中，为了能够训练出具有可靠参数估计的模型，需要大量的高质量平行句对来支撑模型训练。因此，数据质量与规模的不足往往造成了模型性能的缺陷。对于该领域来说，也可以使用数据增强技术在保证双语数据互译性及句子合理性的前提下实现对数据的扩充，实现自然语言处理领域的数据增强技术，并以此提升模型最终的翻译准确性。

发明内容

针对现有技术中神经机器翻译模型训练的过程中，低资源语种的语料库规模不足，需要根据现有数据获取大规模训练数据支撑神经机器翻译模型训练，本发明要解决的问题是提供一种提升神经机器翻译效果的有效数据增强方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种提升神经机器翻译效果的有效数据增强方法，包括以下步骤：

1)在对应网站中获取指定语种方向的双语平行语料公开数据集作为数据增强的基础数据集，在基础数据集分别获取源语言及目标语言对应语种方向的单语数据集作为训练后续语言模型的基础单语数据集；

2)根据基础数据集使用fast-align词对齐技术对数据集进行词对齐信息获取，得到基础数据集的词对齐信息；

3)根据源语言及目标语言对应语种的基础单语数据集，使用LSTM语言模型分别训练得到对应语种方向的语言模型；

4)统计基础数据集中的词语出现频率，对于低于指定阈值频率的单词，需要将其提取出来组成罕见词词表；

5)根据现有的词对齐信息获取指定句子的词语对应信息；根据句子中出现的常见句尾标点将源语及目标语句子切分为多个子句，得到源语及目标语子句集合，并根据词对齐信息生成对应句对中子句子的对应关系，得到子句对应集合；

6)使用神经机器翻译系统对目标语子句集合进行翻译，将其翻译为源语言语种方向的集合，并使用该集合对源语言对应子句进行替换，组成句子级数据扩充集合；

7)对基础数据集内源语句子中的常见词使用罕见词进行替换，在替换前通过对应语种方向的语言模型对替换部分的上下文进行评估，对高于指定阈值的部分进行替换，同时对其进行对目标语句子对应单词部分使用罕见词译文进行相同方式的替换，保证双语互译性，得到词级的数据扩充集合；

8)按照1∶1的比例使用句子级和词级数据扩充集合与原始双语基础数据进行合并，组成训练集合进行神经机器翻译模型的训练，得到更高质量的模型结果。

步骤4)中，使用句子中的罕见词对常见词进行替换，丰富在模型训练过程中出现次数低于指定阈值的单词信息部分，获取具有更多单词上下文信息的句对。

步骤5)中，使用词对齐信息计算指定子句的对应程度概率，并确定概率阈值，将高于该阈值的子句视为对应子句。

步骤6)中，对源语言中不同部分的子句按照其原有的组合顺序依次进行替换。

步骤7)中，对句子中的常见词部分使用机器翻译模型训练过程中建模不良的罕见词进行替换；使用语言模型对替换词汇部分的上下文进行评估；同时，对目标语对应词汇部分进行同等的操作。

本发明具有以下有益效果及优点：

1.本发明在原有数据增强任务的基础上，根据基础句子集合中的双语句对，使用基于单词及句子的两种方式对数据实现自动扩充。实现了低资源双语句子的快速增强，提升数据质量与知识丰富度，是一种实现简单、方便有效的数据增强方法。

2.本发明使用罕见词及子句子替换的方式实现数据增强，架构透明，对与存在相同句子切分标点的语种均能够达到有效扩充，是一种通用的数据增强方法，能够快速地对句子进行扩充，根据其上下文单词信息及子句子信息替换，达到一种相对高效且准确的数据增强方法。程序结构简单，运行速度快。

附图说明

图1为本发明方法中词级句子生成方法流程图；

图2为本发明方法中词级数据增强方法流程图；

图3为本发明方法中句子级数据增强方法流程图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提出一种提升神经机器翻译效果的有效数据增强方法，使用罕见词及句子级的替换实现新的平行句对生成，是一种轻便快捷的数据增强方法。

如图所示，本发明一种提升神经机器翻译效果的有效数据增强方法，包括以下步骤：

步骤1)中，使用具有互译关系的公开双语数据集合作为数据增强基础数据集合。使用公开的源语言与目标语言对应语种的单语数据集合作为训练对应语种语言模型的基础数据。

目前一般训练一个好的模型都需要大量的数据对其进行支撑。然而对于低资源语种，获得大量的人工标注的双语数据是极其困难的，对于这种情况，本发明使用现有的公开人工标注数据集，对现有的少量单语数据进行数据增强操作，得到更多的句子，使最终得到的训练集合能够拥有更加丰富的信息供给神经机器翻译模型。

步骤2)中，利用开源程序fast-align技术，根据数据增强基础数据集合生成双语句对单词位置的对应信息。

本发明根据现有双语句子序列使用fast-align词对齐技术获取句对对应位置的单词对应信息，获取的单词对应信息将可以用于进行单词同等条件替换以及子句对应部分。

步骤3)中，根据对应语种方向的单语数据集合生成对应语种方向的语言模型。这里语言模型的作用为在词级数据增强方法中，使用罕见词对常见词进行替换的过程中，评估其上下文的可替换概率，如图1所示。

如图2所示，步骤4)中，在神经机器翻译模型训练的过程中，将会根据基础数据集中的词汇生成词汇表，词汇表中的词为在语料库中出现次数相对较高的词汇，本实施例选择词汇表中出现次数少于R的词汇，得到罕见词表VR，如图2所示。

步骤5)中，使用现有的词对齐信息可以获取源语言句子指定词汇对应目标语句子的词汇位置。根据“.”“？”“！”等常见的句末标点将双向长句子切分为一定数量的子句子后，对数量不一致的切分情况进行舍弃。对于切分数量相同的源语及目标语句子，根据词对齐信息获取子句的互译性对应情况。

在本步骤中，假设有源语句子S以及目标语句子T，在步骤2)中，根据标点符号将句子S切分为数量为n的子句，记为{S₁，S₂，S₃，…，S_n}；对于目标语句子T将其切分为数量为m的子句，记为{T₁，T₂，T₃，…，T_m}；根据此前得到的句子位置对应信息，再根据词问对应关系对不同源语子句与目标语子句之间的对应概率进行推断，若某对子句之间的生成概率值高于某个阈值θ，则将其视为互译句对，源语子句及目标语子句之间的对应概率推断如下所示：

其中N_m为源语及目标语之间相互对应的单词数量，N_s及N_t分别为源语及目标语句子的单词数量，如图3所示。

另外，根据上述得到的内容，设置合适的阈值θ获取源语子句以及目标语子句之间的互译性对应关系，得到数量为k的源语短句子集合S_k以及目标语短句子集合T_k。在子句对应的过程中，若源语子句S_i、S_j同时与目标语子句T_i对应，则使用源语子句S_i与S_j进行组合并与T_i生成新的互译性对应关系。

在步骤6)中，对于之前生成的源语及目标语子句对应集合，使用openNMT开源机器翻译系统对目标语子句集合进行back-translation操作，生成目标语子句翻译集合T_k-trans。

另外，在该步骤中，对于每一个基础数据集中的句子，使用T_k-trans中的翻译子句对长句子中的对应子句进行替换，生成伪源语句子。进行该步骤的一个前提是需要句子中的每一个子句均存在与其对应的目标语子句。若源句子中未存在对应的子句，对其进行舍弃，不使用该句子进行数据增强操作。其原因在于，存在该种情况的句对可能部分不对应。

同时，对于生成的伪源语句子，与原始句子对应的目标语言句子进行复制，直接将其作为新生成的伪源语句子对应的目标语言句子。

在步骤7)中，对源语句子中的罕见词部分进行替换操作，替换词汇将由训练好的长短期记忆(LSTM)语言模型决定。为了保证罕见词汇的可替换性，使用训练好的语言模型对句子S中指定位置的词汇计算V_R上的概率分布，得到罕见替换词汇集合C，具体公式如下所示：

C＝{ω_i∈V_R：topKP_LSTM-LM(ω_i|s_i-1)}

其中topK为根据源语句子S内容概率估计最高的K个罕见词。使用选择的罕见词w_i将句子S中位置i的单词使用罕见词替换，生成一个新的句子，如图1所示。

在步骤8)中，使用1∶1的比例对词级以及句子级扩充句子数量进行提取，与原始基础双语平行数据进行混合生成训练数据提供模型进行训练，得到效果更加优质的神经机器翻译模型。使用该比例的原因在于数据增强的过程中，单词级别和句子级别的信息丰富程度是同等重要的一项指标。

本发明提出了一种非常简单且有效的方法提升神经机器翻译模型训练语料库的质量。通过利用词对齐、语言模型、back-translation等技术，分别实现了在原有数据集的基础上生成新的平行句子对。

本实施例使用WMT14的英-德数据集作为基础数据集，另外使用newtest2014数据集作为测试集，使用本发明方法后的对神经机器翻译模型进行训练，并与使用基础数据集训练后的神经机器翻译模型进行BLEU值对比，实验结果如下。

Base-Dataset代表使用基础数据集作为训练集合得到的神经机器翻译模型在测试集上的BLEU值结果；Sen-Augu-DataSet代表使用句子级数据增强后的模型BLEU值结果；Word-Argu-DataSet代表使用词级数据增强后的模型BLEU值结果；Word-Sen-DataSet代表使用两种方法共同得到的模型BLEU值结果。

根据实验结果可知，本发明方法在新的数据语料中产生了更多罕见词上下文及更多子句组合形式，使模型对更多上下文形式下均能产生较优的翻译效果。能够有效地对低资源双语数据进行扩充。

Claims

1.一种提升神经机器翻译效果的有效数据增强方法，其特征在于包括以下步骤：

8)按照1:1的比例使用句子级和词级数据扩充集合与原始双语基础数据进行合并，组成训练集合进行神经机器翻译模型的训练，得到更高质量的模型结果。

2.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法，其特征在于：步骤4)中，使用句子中的罕见词对常见词进行替换，丰富在模型训练过程中出现次数低于指定阈值的单词信息部分，获取具有更多单词上下文信息的句对。

3.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法，其特征在于：步骤5)中，使用词对齐信息计算指定子句的对应程度概率，并确定概率阈值，将高于该阈值的子句视为对应子句。

4.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法，其特征在于：步骤6)中，对源语言中不同部分的子句按照其原有的组合顺序依次进行替换。

5.根据权利要求1所述的提升神经机器翻译效果的有效数据增强方法，其特征在于：步骤7)中，对句子中的常见词部分使用机器翻译模型训练过程中建模不良的罕见词进行替换；使用语言模型对替换词汇部分的上下文进行评估；同时，对目标语对应词汇部分进行同等的操作。