CN113505571A

CN113505571A - 一种面向神经机器翻译的数据选择及训练方法

Info

Publication number: CN113505571A
Application number: CN202110868021.5A
Authority: CN
Inventors: 刘兴宇; 姜炎宏; 杨木润
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-15

Abstract

本发明公开一种面向神经机器翻译的数据选择及训练方法，步骤为：构建单语语料库；对单语语料进行清洗过滤、分词、子词切分预处理，作为训练数据；使用训练数据通过语言模型微调预训练模型；将两种语言的单语数据输入编码，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料；使用预训练模型的分词和子词切分方法处理伪平行语料，使用预训练模型初始化神经机器翻译框架的编码器参数；使用处理后的伪平行语料对神经机器翻译模型进行预训练；使用真正的双语数据微调神经机器翻译模型。本发明解决了低资源语言双语数据不足的问题，将预训练模型应用于神经机器翻译模型中，加快模型的收敛速度，提高模型的鲁棒性。

Description

一种面向神经机器翻译的数据选择及训练方法

技术领域

本发明涉及一种机器翻译数据处理技术，具体为一种面向神经机器翻译的数据选择及训练方法。

背景技术

神经机器翻译是深度学习在自然语言处理方面的巨大成功。它的性能明显优于统计机器翻译，并且在几种语言对上的性能均达到了人类翻译水平。这样的突破很大程度上取决于大规模双语句子对的可用性。由于收集这样的双语句子对的成本很高，因此在绝大多数语言对上，尤其是对于资源匮乏的语言，神经机器翻译的成功尚未完全实现。通过仅使用单语种数据训练神经机器翻译模型可以解决这一问题。尽管通过人工翻译收集双语句子对的成本很高，但注意到Web上存在许多弱配对的双语文档。例如，同一主题的不同语言的文章，但是它们并不是逐句翻译的，因为它们可能是由不同的人独立创建的。通过探索从弱配对文档中学习神经机器翻译模型的方法可知，弱配对的文档比双语句子对更容易获得，这种弱配对的文档涵盖了多种不同的语言。

预训练方法是指通过海量的通用数据训练得到一个基础模型，这种通用且充分的数据能够鼓励模型在相同领域的下游任务上拥有很好的泛化能力。之后，针对下游任务，使用任务特定的数据对预训练好的模型进行微调，使模型更关注任务相关的特征，在该任务上具有更好的表现。在任务特定的数据量较小的情况下，预训练方法能够有效提升模型性能，而且由于预训练模型已经具备了通用的特征提取能力，微调模型能够达到更快的收敛速度和更强的鲁棒性。

在计算机视觉领域，预训练方法已经被广泛应用。然而在自然语言处理领域人们对于预训练方法的研究才刚刚开始。研究人员们提出了多种基于语言模型的预训练方法，比如ELMo、GPT和BERT等，这些预训练方法能够有效地应用于命名实体识别、问答、情感分析和语义角色标注等多个任务上，而且都达到了当前最好的性能。然而，神经机器翻译模型和现有的预训练模型的网络结构并不完全匹配，因此无法直接将预训练模型应用到神经机器翻译模型中。

发明内容

针对现有技术中低资源等双语数据获取困难影响神经机器翻译性能等不足，本发明要解决的技术问题是提供一种面向神经机器翻译的单语数据据选择及训练方法，利用预训练模型中存在丰富的语义信息，通过预训练模型对获得的弱匹配的可比较单语数据进行数据选择，获得伪双语数据，从而训练高质量的神经机器翻译模型。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种面向神经机器翻译的数据选择及训练方法，包括以下步骤：

1)构建单语语料库；

2)对单语语料进行清洗过滤、分词、子词切分预处理，作为训练数据；

3)使用训练数据通过语言模型微调预训练模型；

4)将两种语言的单语数据输入编码，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料；

5)使用预训练模型的分词和子词切分方法处理伪平行语料，使用预训练模型初始化神经机器翻译框架的编码器参数；

6)使用处理后的伪平行语料对神经机器翻译模型进行预训练；

7)使用真正的双语数据微调神经机器翻译模型，完成训练过程。

步骤1)中，构建单语语料库，具体为：

101)对于要使用的单语数据，分为两部分，一是可比较的单语数据，二是不相关的单语数据；

102)可比较的单语数据通过在语料库中获得或则网络爬取的方式，不相关的单语数据通过单语数据库获得，并加入单语语料库。

步骤3)中，使用训练数据通过语言模型微调预训练模型，具体为：将预处理后两种语言的单语数据混合后打乱顺序，利用语言模型任务对预训练模型的参数进行修正。

步骤4)中，将两种语言的单语数据输入预训练模型中，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料，具体为：

401)将可比较单语数据输入预训练模型中，比较编码后的两种单语数据的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料；

402)将单语数据库中两种语言的单语数据输入预训练模型中，比较编码后的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料。

步骤5)中，使用预训练模型的分词和子词切分方法处理伪平行语料，具体为：使用预训练模型的语料预处理方法来处理伪平行语料，包括分词和字词切分方法，并使用预训练模型的词表减小神经机器翻译模型和预训练模型的差异。

步骤6)中，使用处理后的伪平行语料对神经机器翻译模型进行预训练，具体为：在预训练的过程中，采用0.0001～0.0005的学习率对模型的参数进行更新，使神经机器翻译模型收敛到更好的效果。

本发明具有以下有益效果及优点：

1.本发明提出了面向神经机器翻译的数据选择及训练方法，通过使用预训练模型对可比较的单语数据进行数据选择得到伪双语数据，从而解决低资源语言双语数据不足的问题，将预训练模型应用于神经机器翻译模型中，并且可以加快模型的收敛速度，提高模型的鲁棒性。

2.相比现有的数据选择方法，本发明可以通过预训练模型进行数据选择，并将预训练模型使用到机器翻译模型中，充分利用了预训练模型的潜力，提高了预训练方法带来的收益。

附图说明

图1为本发明方法流程图；

图2为本发明中使用预训练模型选择伪双语数据的图示。

具体实施方式

在神经机器翻译中，在某些语言中达到接近人类水平的性能的神经机器翻译强烈依赖大量的并行句子，这阻碍了其在资源匮乏的语言对中的适用性。本发明利用海量的弱匹配单语语料，使用预训练模型进行数据选择，然后使用得到的伪双语数据预训练神经机器翻译模型，最后使用真正的双语数据训练神经机器翻译模型，从而显著提高模型的翻译质量。

下面结合说明书附图对本发明作进一步阐述。

如图1所示，本发明一种面向神经机器翻译的数据选择及训练方法包括以下步骤：

1)构建单语语料库；

3)使用训练数据通过语言模型微调预训练模型；

步骤1)中，构建单语语料库，具体为：

步骤2)中，对单语语料进行清洗过滤、分词、子词切分预处理，在翻译任务中，源语句子和目标语句子的长度一般不会相差太多，而文档中前句和后句之间的长度却没有任何约束，相差很大，去除长度大于250个字符的句子，并且使用长度比过滤去除长度比大于1:1.5的句对。

如图2所示，步骤4)中，将两种语言的单语数据输入预训练模型中，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料，具体为：

本步骤中，使用预训练模型初始化神经机器翻译模型的编码器，使得神经机器模型和预训练模型的架构一致。

步骤6)中，使用处理后的伪平行语料对神经机器翻译模型进行预训练，具体为：在预训练的过程中，采用0.0001～0.0005的学习率对模型的参数进行更新，从而让神经机器翻译模型收敛到更好的效果。

步骤7)中，使用伪双语数据预训练神经机器翻译模型后，使用真正的双语数据微调神经机器翻译模型，具体步骤与步骤6相同。

下面以英语到德语的翻译为例，对本发明训练过程进行说明。首先通过爬取维基百科和一些新闻网站来获取可比语料，并通过爬取方式得到海量的单语语料。其次，通过长度比过滤、去除特殊符号等方式对语料进行过滤，然后进行分词、字词切分操作。利用处理好的单语数据来微调预训练模型BERT的参数，使预训练模型在本数据上的效果更好。之后，利用预训练模型分别对两种语言的句子进行编码，得到每个句子对应的向量，选择两种语言中相似度较高的句子对加入到伪平行语料中。

为了更好地利用预训练模型，采用预训练模型来初始化神经机器翻译模型的编码器的参数，使神经机器翻译模型初始阶段就具备一定的能力。使用上述流程中选取的伪平行语料来训练神经机器翻译模型，再通过少量的真正双语语料来微调模型，从而完成最终的翻译过程。

在IWSLT英德和德英翻译任务上验证了本专利的有效性，实验结果如表1所示。基础方法只适用真正双语语料训练，而本专利方法则是通过上述所述方法进行训练，相比基础方法在两个语言对的翻译性能上均有了显著提升，分别为英德方向提升了1.68，德英方向提升了1.92。

	英德	德英
			基础方法	28.3	34.31
本专利方法	29.98	36.23

表1

在使用本发明方法进行解码时，首先使用神经机器翻译模型的编码器对源语句子进行编码，再通过解码器解码生成目标语言句子，具体为：

在编码器的输入层，将源语言句子每个位置的词嵌入和位置嵌入进行加和，使用编码器对该句子进行编码，提取源语言句子中包含的信息。然后，在解码器的输入层，将起始符对应的词嵌入和位置嵌入加和送入到解码器中，通过贪婪搜索或者束搜索的方式生成目标语言句子的第一个词。重复此过程多次，直到整个句子解码完成，便得到了目标语言的翻译结果。

通过以上解码过程进行验证，可知：利用本发明训练方法得到的神经机器翻译模型可以充分利用海量的单语数据，显著提高模型的翻译性能。

Claims

1.一种面向神经机器翻译的数据选择及训练方法，其特征在于包括以下步骤：

1)构建单语语料库；

3)使用训练数据通过语言模型微调预训练模型；

2.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤1)中，构建单语语料库，具体为：

3.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤3)中，使用训练数据通过语言模型微调预训练模型，具体为：将预处理后两种语言的单语数据混合后打乱顺序，利用语言模型任务对预训练模型的参数进行修正。

4.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤4)中，将两种语言的单语数据输入预训练模型中，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料，具体为：

5.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤5)中，使用预训练模型的分词和子词切分方法处理伪平行语料，具体为：使用预训练模型的语料预处理方法来处理伪平行语料，包括分词和字词切分方法，并使用预训练模型的词表减小神经机器翻译模型和预训练模型的差异。

6.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤6)中，使用处理后的伪平行语料对神经机器翻译模型进行预训练，具体为：在预训练的过程中，采用0.0001～0.0005的学习率对模型的参数进行更新，使神经机器翻译模型收敛到更好的效果。