CN111382580B

CN111382580B - 一种面向神经机器翻译的编码器-解码器框架预训练方法

Info

Publication number: CN111382580B
Application number: CN202010068166.2A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-04-18
Anticipated expiration: 2040-01-21
Also published as: CN111382580A

Abstract

本发明一种面向神经机器翻译的编码器‑解码器框架预训练方法，步骤为：构建海量的多语言文档级单语语料，在每个句子前面加入一个特殊的标识符表示该句的语言种类；对句对进行处理，得到训练数据；对不同语言的单语数据进行训练，得到收敛后的预训练模型参数；构建平行语料，使用预训练模型参数初始化神经机器翻译模型的参数；初始化后的神经机器翻译模型通过平行语料对模型参数进行微调，完成训练过程；在解码阶段，使用训练完成的神经机器翻译模型的编码器对源语句子进行编码，解码器解码生成目标语言句子。本发明使模型具备语言建模能力和语言生成能力，将预训练模型应用于神经机器翻译模型中，并且可以加快模型的收敛速度，提高模型的鲁棒性。

Description

一种面向神经机器翻译的编码器-解码器框架预训练方法

技术领域

本发明涉及一种编码器-解码器框架的预训练方法，具体为面向神经机器翻译的编码器-解码器框架预训练方法。

背景技术

在神经网络中，预训练方法是指通过海量的通用数据训练得到一个基础模型，这种通用且充分的数据能够鼓励模型在相同领域的下游任务上拥有很好的泛化能力。之后，针对下游任务，使用任务特定的数据对预训练好的模型进行微调，使模型更关注任务相关的特征，在该任务上具有更好的表现。在任务特定的数据量较小的情况下，预训练方法能够有效提升模型性能，而且由于预训练模型已经具备了通用的特征提取能力，微调模型能够达到更快的收敛速度和更强的鲁棒性。

在计算机视觉领域，预训练方法已经被广泛应用，然而在自然语言处理领域，人们对于预训练方法的研究才刚刚开始。最近，研究人员们提出了多种基于语言模型的预训练方法，比如ELMo、GPT和BERT等，这些预训练方法通过预训练语言模型任务，能够有效地应用于命名实体识别、文本蕴含、问答、情感分析和语义角色标注等多个任务上，而且都达到了当前最好的性能。因此，在机器翻译任务上使用预训练方法来提高性能是直觉的想法。

但存在的一个问题是，神经机器翻译模型基于编码器-解码器框架，而现有的预训练语言模型如GPT可以看作是神经机器翻译模型的解码器，BERT可以看作是神经机器翻译模型的编码器，两者的网络结构和神经机器翻译模型并不完全匹配，因此现如今比较流行的预训练语言模型无法直接应用到神经机器翻译模型上。

目前已经有一些预训练方法，可以集成现有预训练模型的知识到神经机器翻译模型中，这种方法可以为翻译模型提供额外信息，提高编码器的特征提取能力，从而有效地提高模型性能。但这种集成方法有一个重要的不足，即只能将预训练模型的部分信息应用到神经机器翻译模型中，或是只能应用到神经机器翻译模型的部分模块，无法初始化整个模型，模型仍有部分参数需要从零开始学习，限制了预训练模型的收益。

发明内容

针对现有技术中预训练方法无法完整有效地应用于神经机器翻译模型等不足，本发明要解决的技术问题是提供一种面向神经机器翻译的编码器-解码器框架预训练方法，利用海量的文档级单语语料，预训练下一句生成任务，然后使用预训练模型的参数初始化神经机器翻译模型，从而显著提高模型的翻译质量。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种面向神经机器翻译的编码器-解码器框架预训练方法，包括以下步骤：

1)构建海量的多语言文档级单语语料，将其处理为<前句，后句>形式的句对，前句和后句为同一种语言，在每个句子前面加入一个特殊的标识符，表示该句的语言种类；

2)对句对进行清洗过滤、分词、子词切分预处理，得到训练数据；

3)使用训练数据通过下一句生成任务预训练编码器-解码器框架，编码器提取前句中的信息，将其编码为一个向量表示，解码器根据编码器提取到的信息，解码生成相同语言的后句内容，模型通过共享参数对不同语言的单语数据进行训练，得到收敛后的预训练模型参数；

4)构建平行语料，和预训练模型使用同样的分词和子词切分方式，并且使用相同的模型结构，使用预训练模型参数初始化神经机器翻译模型的参数；

5)初始化后的神经机器翻译模型通过平行语料对模型参数进行微调，完成训练过程；

6)在解码阶段，使用训练完成的神经机器翻译模型的编码器对源语句子进行编码，解码器解码生成目标语言句子。

步骤1)中，构建海量的多语言文档级单语语料，将其处理为<前句，后句>形式的句对，前句和后句为同一种语言，在每个句子前面加入一个特殊的标识符，表示该句的语种，具体为：

101)对于文档级单语语料，转化为<前句，后句>形式的句对；

102)在每个句子前面加入一个特殊的标识符来表示这个句子对应的语种，通过这种处理，在训练过程中，模型就可以识别到输入和输出对应的语言种类，从而进行特定的编码和生成。

步骤2)中，对文档级单语语料进行清洗过滤、分词、子词切分预处理，文档级单语语料的前句和后句包含部分相近的语义信息，在翻译任务中，源语句子和目标语句子的长度一般不会相差太多，而文档中前句和后句之间的长度却没有任何约束，相差很大，去除长度大于250个字符的句子，并且使用长度比过滤去除长度比大于1:1.5的句对。

步骤3)中，使用训练数据通过下一句生成任务预训练编码器-解码器框架，模型通过共享参数对不同语言的单语数据进行训练，具体为：

301)将前句送入模型的编码器中，编码器提取前句中的信息，将其编码为一个向量表示，解码器根据提取的信息生成后句的内容，增加编码器和解码器之间的相关性；

302)对多语言的训练语料使用共享的词表和权重，减小不同语言间表示的区别，共享子词单元，学习到不同语言之间的联系；使用同一个模型同时预训练多语言的下一句生成任务，具备提取不同语言序列特征的能力和生成不同语言序列的能力；

303)针对不同语言的输入，在编码阶段对语言的特性进行提取，在解码阶段针对语言的特性生成不同语言的输出；通过语言标识方法，模型在提取句子特征的过程中，针对不同的语言进行区分；

304)在编码器的词嵌入层加入语言嵌入，表示解码器要生成的目标语言类别。

步骤4)中，构建平行语料，和预训练模型使用同样的分词和子词切分方式，并且使用相同的模型结构，使用预训练模型参数初始化神经机器翻译模型的参数，具体为：

401)采用同样的预处理流程，包括分词和字词切分方式，使神经机器翻译模型和预训练模型的词表完全一致，减小预训练模型和神经机器翻译模型的差异，减少未登录词的出现次数；

402)神经机器翻译模型需要和预训练模型使用相同的模型结构，将预训练模型的参数完整迁移到神经机器翻译模型中，最大化预训练方法带来的收益。

步骤5)中，神经机器翻译模型通过平行语料对模型参数进行微调，完成训练过程，在微调过程中，模型使用0.0001～0.0005的学习率进行参数更新，从而达到更好的收敛状态。

步骤6)中解码阶段，使用训练完成的神经机器翻译模型的编码器对源语句子进行编码，解码器解码生成目标语言句子，具体为：

601)在源语句子前面加上语言标识，标识对应的语言种类，并根据要生成的语言种类得到对应的语言嵌入，在编码器的输入层和词嵌入、位置嵌入进行加和，使用编码器对该句子进行编码，提取源语言句子中的信息；

602)根据要生成的目标语言类别，设置解码过程的起始符，根据设置的起始符，解码器识别要生成的语言类别，然后通过贪婪搜索或者束搜索的方式，生成目标语言的翻译结果。

本发明具有以下有益效果及优点：

1.本发明提出了面向神经机器翻译的编码器-解码器框架的预训练方法，通过海量的文档级单语语料预训练模型，从而使模型具备语言建模能力和语言生成能力，将预训练模型应用于神经机器翻译模型中，并且可以加快模型的收敛速度，提高模型的鲁棒性。

2.相比现有的预训练模型，本发明可以通过预训练初始化神经机器翻译模型的全部参数，避免了训练过程中编码器、解码器不一致问题，提高了预训练方法带来的收益。

附图说明

图1为本发明中预训练模型训练下一句生成任务的图示；

图2为本发明中通过共享参数训练多语言下一句生成任务的图示；

图3为本发明中词嵌入层的组成图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

在自然语言处理领域，基于编码器-解码器框架的模型一般应用于机器翻译、文本生成、智能对话等条件生成任务中，而预训练模型需要海量的数据，这意味着只能依赖无标注的单语数据进行训练。受文档级机器翻译任务的启发，编码一个句子的上下文对该句的翻译有一定的帮助，因为相邻的句子一般会共享一部分语义信息。神经机器翻译模型通过编码器提取输入源语中的信息，解码器根据提取的信息生成相同语义的目标语，因此，本发明可以将一个句子的上文作为输入，编码器提取上文中的信息，解码器通过提取到的信息生成这个句子，从而仅仅通过文档级单语数据就可以完成预训练过程。因为该预训练方法主要是面向机器翻译任务，因此预训练模型在多语言的单语数据上进行学习，从而可以具备多语言建模的能力。针对以上条件和思想，本发明提出了面向神经机器翻译的编码器-解码器预训练方法，利用海量的文档级单语数据预训练下一句生成任务，然后应用于神经机器翻译任务中。

本发明将从使用文档级单语语料通过编码器-解码器框架预训练下一句生成任务进行优化。本方法一种面向神经机器翻译的编码器-解码器框架预训练方法在不使用双语语料的条件下，使用海量的文档级单语语料预训练编码器-解码器框架模型，使用预训练模型的参数初始化整个神经机器翻译模型，无需从零开始学习，能够显著提高模型的收敛速度和翻译质量。

本发明方法包括以下步骤：

步骤1)中构构建海量的多语言文档级单语语料，将其处理为<前句，后句>形式的句对，前句和后句为同一种语言，在每个句子前面加入一个特殊的标识符，表示该句的语言种类，具体为：

101)对于文档级单语语料，比如一个英文文档为“It's a good day.I want togo shopping.Do you want to come with me？”，可以转换为两个句对[It's a goodday.,I want to go shopping.]和[I want to go shopping.,Do you want to comewith me？]；

102)在每个句子前面加入一个特殊的标识符来表示这个句子对应的语种，比如对于句对[It's a good day.,I want to go shopping.]，前句和后句均为英语文档中的句子，在两个句子前面均加上一个标识符<en>，转换为[<en>It's a good day.,<en>I wantto go shopping.]。通过这种处理，在训练过程中，模型就可以识别到输入和输出对应的语言种类，从而进行特定的编码和生成。

步骤2)中对句对进行清洗过滤、分词、子词切分预处理，得到训练数据。文档级单语语料的前句和后句包含部分相近的语义信息，但是与机器翻译任务相比，存在的一个问题是句对的长度相差过大。在翻译任务中，源语句子和目标语句子的长度一般不会相差太多，而文档中前句和后句之间的长度却没有任何约束，可能相差很大。针对这个问题，本步骤去除长度大于250个字符的句子，并且使用长度比过滤去除长度比大于1:1.5的句对。

步骤3)中基于下一句生成任务预训练编码器-解码器模型，模型通过共享参数对不同语言的单语数据进行训练，具体为：

301)和神经机器翻译模型相似，将前句送入模型的编码器中，编码器提取前句中的信息，将其编码为一个向量表示，解码器根据提取的信息生成后句的内容，如图1所示。通过这种方式，编码器可以学会提取输入句子中的信息，解码器能够学会如何生成一个流利通顺的句子，并且可以在编码器和解码器之间建立联系，增加编码器和解码器之间的相关性；

302)如果仅仅使用一种语言的文档级单语数据进行预训练，模型只能够学习到如何在同一个语言中进行生成，而无法学习到跨语言生成能力。针对这个问题，我们对多语言的训练语料使用共享的词表和权重，共享设置可以减小不同语言间表示的区别，并且可以共享一些子词单元，从而学习到不同语言之间的联系。然后，本步骤中使用同一个模型同时预训练多语言的下一句生成任务。通过这种方式，预训练模型不仅可以具备提取不同语言序列特征的能力，而且可以具备生成不同语言序列的能力；

303)但是这种方法也带来了另外一个问题，模型希望语言之间的差异性减小，从而具备从多语言的输入中提取信息的能力，但针对不同语言的输入，在编码阶段需要针对语言的特性进行提取，在解码阶段需要针对语言的特性生成特定语言的输出，而不是完全统一处理。语言标识就是为了解决这个问题而提出的，这样模型就可以充分区分不同语言，如图2所示。通过这种方法，模型在提取句子特征的过程中，也可以针对不同的语言进行适度的区分。

304)预训练阶段模型只能够学习到如何生成相同语言的内容，而翻译阶段则需要生成不同语言的内容。编码器在提取信息的过程中，无法得知解码器要生成何种语言的内容，在预训练阶段会引导模型朝着仅生成相同语言内容的方向学习，这和翻译阶段是不匹配的。针对这个问题，本发明在编码器的词嵌入层加入语言嵌入，表示解码器要生成的目标语言类别，如图3所示。

步骤4)中和预训练模型使用同样的分词和子词切分方式，并且使用相同的模型结构，使用预训练模型的参数初始化神经机器翻译模型的参数，具体为：

步骤5)中神经机器翻译模型通过平行语料对模型参数进行微调，完成训练过程。在微调过程中，因为预训练模型已经具备了一定的能力，并不是从零学习，因此与普通的神经机器翻译模型相比，模型使用0.0001～0.0005的小学习率进行参数更新可以达到更好的收敛状态。

602)根据要生成的目标语言类别，设置解码过程的起始符。比如模型需要进行英语-德语的翻译，解码过程的起始符也就是<de>。根据设置的起始符，解码器可以识别要生成的语言类别，然后通过贪婪搜索或者束搜索的方式，生成目标语言的翻译结果。

通过英语-德语翻译任务来验证本发明提出的预训练方法，使用开放的英语和德语News Crawl Docs数据集2007到2018年的全部数据，处理之后分别取出五千万条训练句对，在英语和德语句子前分别加上<en>和<de>的标识符，表示句子的语言种类。对英语和德语的单语数据，使用统一的子词切分方式和词表，最终的词表大小为34636，然后使用transformer big模型结构预训练英语和德语的下一句生成任务。

使用WMT2018新闻数据集作为双语数据集，和单语数据使用相同的子词切分方式和词表，保证预训练模型和神经机器翻译模型的一致性。使用预训练模型初始化神经机器翻译模型的网络参数，在不同大小的数据集上均可以带来显著的性能提升。尤其在双语数据仅有一万条的时候，模型的BLEU值可以提升10个点左右，在稀缺资源的机器翻译任务可以带来更大的收益。

现有的预训练方法一般针对自然语言理解任务，使用神经机器翻译模型的编码器进行学习，而神经机器翻译模型使用的是编码器-解码器框架，因此现有的预训练模型并不完全适用于神经机器翻译模型。本发明提出了面向神经机器翻译的编码器-解码器框架预训练方法，利用海量的文档级单语数据训练下一句生成任务，并通过共享参数来学习多语言建模，对不同语言通过起始符和语言嵌入来区分，这样在增加不同语言之间联系的同时，也保留了语言自身的特性。预训练阶段完成之后，预训练模型参数用于初始化神经机器翻译模型，使翻译模型在初始阶段就可以具备语言编码能力和语言生成能力，然后通过双语数据对模型参数进行微调，可以达到更好的翻译性能。

Claims

1.一种面向神经机器翻译的编码器-解码器框架预训练方法，其特征在于包括以下步骤：

3)使用训练数据通过下一句生成任务预训练编码器-解码器模型，编码器提取前句中的信息，将其编码为一个向量表示，解码器根据编码器提取到的信息，解码生成相同语言的后句内容，预训练编码器-解码器模型通过共享参数对不同语言的单语数据进行训练，得到收敛后的预训练模型参数；

4)构建平行语料，再和预训练编码器-解码器模型使用同样的分词和子词切分方式，并且使用相同的模型结构，使用预训练模型参数初始化神经机器翻译模型的参数；

6)在解码阶段，使用训练完成的神经机器翻译模型的编码器对源语句子进行编码，解码器解码生成目标语言句子；

步骤3)中，使用训练数据通过下一句生成任务预训练编码器-解码器模型，模型通过共享参数对不同语言的单语数据进行训练，具体为：

2.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法，其特征在于：步骤1)中，构建海量的多语言文档级单语语料，将其处理为<前句，后句>形式的句对，前句和后句为同一种语言，在每个句子前面加入一个特殊的标识符，表示该句的语种，具体为：

101)对于文档级单语语料，转化为<前句，后句>形式的句对；

3.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法，其特征在于：步骤2)中，对文档级单语语料进行清洗过滤、分词、子词切分预处理，文档级单语语料的前句和后句包含部分相近的语义信息，去除长度大于250个字符的句子，并且使用长度比过滤去除长度比大于1:1.5的句对。

4.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法，其特征在于：步骤4)中，构建平行语料，和预训练模型使用同样的分词和子词切分方式，并且使用相同的模型结构，使用预训练模型参数初始化神经机器翻译模型的参数，具体为：

5.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法，其特征在于：步骤5)中，神经机器翻译模型通过平行语料对模型参数进行微调，完成训练过程，在微调过程中，模型使用0.0001～0.0005的学习率进行参数更新，从而达到更好的收敛状态。

6.按权利要求1所述的面向神经机器翻译的编码器-解码器框架预训练方法，其特征在于：步骤6)中解码阶段，使用训练完成的神经机器翻译模型的编码器对源语句子进行编码，解码器解码生成目标语言句子，具体为：