CN115438678B

CN115438678B - 机器翻译方法、装置、电子设备及存储介质

Info

Publication number: CN115438678B
Application number: CN202211388320.XA
Authority: CN
Inventors: 于彤
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-24
Anticipated expiration: 2042-11-08
Also published as: CN115438678A

Abstract

本发明提供一种机器翻译方法、装置、电子设备及存储介质，涉及自然语言处理技术领域，该方法包括：获取目标语句；将目标语句输入至机器翻译模型中，得到机器翻译模型输出的目标语句对应的目标语言语句；机器翻译模型是基于样本语句、样本语句对应的第一语言语句和第二语言语句进行蒸馏训练得到的。本发明实现通过蒸馏训练，得到具备多种语言知识的机器翻译模型，以在压缩模型规模、降低计算资源消耗的同时，可以实现多语言的机器翻译，最大限度地减少初始语言模型结构的修改，且可在最大限度地保留初始语言模型的基础上取得最优的翻译性能，以实现快速精准地进行机器翻译。

Description

机器翻译方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种机器翻译方法、装置、电子设备及存储介质。

背景技术

机器翻译是自然语言模型比较传统的应用方向，在现有的研究中提出了多中不同方案，用以改进翻译的精度。

例如，采用预训练语言模型进行机器翻译。而很多预训练模型都是基于单语言语料数据进行训练的，在将其应用到机器翻译领域时，需要对预训练语言模型的结构进行调整或预先语言模型的学习目标进行重新调整，进而需要采用大量的样本数据对调整后的预训练模型进行重新训练，无法继承预训练模型的先验知识，增加了机器翻译过程中的计算资源的消耗。

发明内容

本发明提供一种机器翻译方法、装置、电子设备及存储介质，用以解决现有技术中对预训练语言模型的结构进行调整或预先语言模型的学习目标进行重新调整，机器翻译过程中的计算资源的消耗较大的缺陷，实现提高机器翻译的通用性，降低计算资源。

本发明提供一种机器翻译方法，包括：

获取目标语句；

将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；

所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的；所述第一语言语句的语言类型与所述样本语句的语言类型相同，所述第二语言语句的语言类型与所述样本语句的语言类型不相同。

根据本发明提供的一种机器翻译方法，所述机器翻译模型是基于如下步骤训练得到的：

获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句；

基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，进行蒸馏训练得到预训练机器翻译模型；

获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句；

基于所述第二样本语句以及所述第二样本语句对应的第二语言语句，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型。

根据本发明提供的一种机器翻译方法，所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，进行蒸馏训练得到预训练机器翻译模型，包括：

基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，对教师模型进行训练；

将所述第一样本语句输入至训练后的教师模型，得到所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句；

基于所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句以及所述第一样本语句，对学生模型进行蒸馏训练，得到所述预训练机器翻译模型。

根据本发明提供的一种机器翻译方法，在所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，对教师模型进行训练之前，所述方法还包括：

基于第一参数量的预训练语言模型构建教师模型，基于第二参数量的预训练语言模型构建学生模型；所述第二参数量小于所述第一参数量。

根据本发明提供的一种机器翻译方法，所述预训练语言模型是以所述样本语句对应的第二语言语句所属的语言为主体语言，对自回归语言模型进行预训练获取的。

根据本发明提供的一种机器翻译方法，所述获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句，包括：

从单语语料库中，获取第一样本数据集；

对所述第一样本数据集进行数据处理；所述数据处理包括删除数据长度小于目标长度，和/或包含敏感词的单语语句；

基于处理后的第一样本数据集，获取所述第一样本语句以及所述第一样本语句对应的第一语言语句。

根据本发明提供的一种机器翻译方法，所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句，包括：

从双语语料库中，获取第二样本数据集；

对所述第二样本数据集进行数据处理；所述数据处理包括删除任一语句的数据长度小于目标长度，和/或任一语句中包含敏感词的双语语句对；

基于处理后的第二样本数据集，获取所述第二样本语句以及所述第二样本语句对应的第二语言语句。

根据所述第二样本语句确定输入信息；

将所述输入信息输入至所述预训练机器翻译模型中，得到所述预训练机器翻译模型输出的所述第二样本语句对应的第二语言语句。

根据本发明提供的一种机器翻译方法，所述根据所述第二样本语句确定输入信息，包括：

将所述第二样本语句作为所述输入信息。

在所述第二样本语句之前增加多组目标语料语句对；所述目标语料语句对中的目标语句的语言类型与所述第二样本语句的语言类型相同，所述目标语料语句对中的目标语言语句的语言类型与所述第二样本语句对应的第二语言语句的语言类型相同；

根据增加结果，确定所述输入信息。

根据本发明提供的一种机器翻译方法，所述基于所述第二样本语句以及所述第二样本语句对应的第二语言语句，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型，包括：

将所述第二样本语句作为样本，将所述第二样本语句对应的第二语言语句作为样本标签，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型。

将所述第二样本语句作为样本标签，将所述第二样本语句对应的第二语言语句作为样本，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型。

本发明还提供一种机器翻译装置，包括：

获取模块，用于获取目标语句；

翻译模块，用于将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述机器翻译方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述机器翻译方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述机器翻译方法。

本发明提供的机器翻译方法、装置、电子设备及存储介质，通过基于样本语句、样本语句对应的第一语言语句和第二语言语句，进行蒸馏训练，得到具备多种语言知识的机器翻译模型，基于具备多种语言知识的机器翻译模型进行机器翻译，在压缩模型规模、降低计算资源消耗的同时，可以基于初始语言模型实现多语言的机器翻译，最大限度地减少初始语言模型结构的修改，且可在最大限度地保留初始语言模型的基础上取得最优的翻译性能，以实现快速精准地进行机器翻译。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的机器翻译方法的流程示意图之一；

图2是本发明提供的机器翻译方法的流程示意图之二；

图3是本发明提供的机器翻译装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，大规模预训练语言模型在自然语言的各方面应用上引起了巨大反响，包括文本生成、机器翻译和对语言内容的理解等。预训练语言模型的成功证实了充分的数据量以及参数量对提升模型的各项性能是有帮助的。预训练语言模型通过在海量的无标签的预训练语料中获取知识，从而获得完成各种下游任务的潜力，预训练语言模型的主体由以机器翻译器（简称Transformer）结构为主体，实现模型规模的扩展。比较有代表性的结构，如GPT（Generative Pre-Training Model，生成式无监督预训练模型），以及Bert（Bidirectional Encoder Representation from Transformers，预训练的语言表征模型）等。

机器翻译是自然语言模型比较传统的应用方向，现有技术中提取多种不同方案，用以改进翻译的精度。目前适用于机器翻译的预训练模型主要有两类，一类是在预训练阶段就直接使用多语言的语料，另一类是基于单语言预训练模型做的训练语料上的补充和结构的改进。两类方法基本都会采取预训练加微调的范式。

对于跨语言语料直接进行训练的方式，需要从头开始使用大量的多语言的语料，导致模型所需消耗的计算量较大。

对于应用单语言预训练模型进行机器翻译，当预训练语言模型被应用到机器翻译领域时又面临了新的挑战，如大量预训练模型都是在单语言做的训练，在将其应用在双语、甚至多语言的翻译任务上时，需要对预训练语言模型的预训练目标以及结构进行改进。例如，经典的机器翻译模型往往需要包含编码器和解码器，而Bert只包含可以获取表征能力的编码器，而GPT只包含支持语言生成的解码器，且二者都是基于英语语料数据进行训练的。因此，将其应用到机器翻译领域时，需要对其结构以及训练目标进行调整，即需要采用预训练加微调的形式，对预训练语言模型进行改进，进而实现机器翻译功能。

通常预训练加微调的范式往往需要对模型结构做相应调整，并设计不同的训练目标，在基础语言模型上做的改动是相对比较大的。目前大多数预训练模型都是以一种语言为主体做的训练，如果从头重新使用大量的多语言语料对调整后的预训练模型进行训练，则完全无法继承预训练模型中的先验知识，所需消耗的计算资源较大。

针对上述现有技术中存在的问题，本实施例提供一种机器翻译方法。

如图1所示，为本申请实施例提供的机器翻译方法的流程示意图之一，该方法主要包括如下步骤：

步骤101，获取目标语句；

其中，目标语句为需要进行机器翻译的语句，目标语句可以是用户直接输入的语句或通过网页工具包实时抓取的，本实施例对此不做具体地限定。目标语句的语言类型可以是中文或英文等，本实施例对此不做具体地限定。

可以理解的是，在获取到目标语句后，可以直接将目标语句输入至机器翻译模型中，以获取相应的翻译结果；也可以将目标语句进行嵌入向量提取或编码处理等处理之后，输入至机器翻译模型中，进而后续便于机器翻译模型进行语句翻译，提高机器翻译的效率和精度，本实施例对此不做具体地限定。

步骤102，将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；

其中，机器翻译模型是基于样本语句、样本语句对应的第一语言语句和第二语言语句进行蒸馏训练得到的。

需要说明的是，在蒸馏学习过程中，教师模型可以将在训练样本对下学习到的语言知识迁移到学生模型。教师模型是相较于学生模型而言，模型规模更大、更加复杂、任务执行效果更优的模型。单个教师模型，可以基于教师和学生网络的思想，将教师模型中的知识迁移到学生模型，从而提高学生模型的网络性能，此处知识迁移的过程，即为知识蒸馏。将教师模型的知识迁移到机器翻译模型中，可以在最大限度地减少对单语言模型结构（即教师模型）的修改，以及最大限度地保留教师模型的原本模型结构的基础上取得最优的翻译性能，使得训练完成的机器翻译模型可以快速精准地实现机器翻译。

可选地，在执行步骤102之前，可以预先训练得到机器翻译模型，具体训练方式为蒸馏训练，具体训练步骤可以包括：采集大量样本语句、与样本语句的语言类型相同的第一语言语句，与样本语句的语言类型不同的第二语言语句。例如，样本语句的语言类型可以是英文，则第一语言语句的语言类型为英文，第二语言语句的语言类型为中文；或者，样本语句的语言类型可以是中文，则第一语言语句的语言类型为中文，第二语言语句的语言类型为英文等，本实施例对此不作具体地限定。

此外，获取教师模型，以样本语句和第一语言语句作为训练样本对，以及以样本语句和第二语言语句作为训练样本对，对教师模型进行蒸馏训练得到的学生模型，将训练得到的学生模型作为机器翻译模型；也可以是以样本语句和第一语言语句作为训练样本对，对教师模型进行蒸馏训练得到学生模型；然后，在以样本语句和第二语言语句作为训练样本对，对学生模型进行训练得到机器翻译模型，本实施例对此不作具体地限定。

通过蒸馏训练得到的机器翻译模型即具备第一语言语句所属语言类型的语言知识，也具备第二语言语句所属语言类型的语言知识，进而使得在不改变模型基础结构的情况下，可使得机器翻译具备多种语言的交互知识，以快速准确地输出机器翻译结果。

在获取到机器翻译模型之后，由机器翻译模型对目标语句进行翻译操作，以获取目标语句对应的目标语言语句。其中，目标语言语句为目标语句的机器翻译结果。

本申请实施例提供的机器翻译方法，通过基于样本语句、样本语句对应的第一语言语句和第二语言语句，进行蒸馏训练，得到具备多种语言知识的机器翻译模型，基于具备多种语言知识的机器翻译模型进行机器翻译，在压缩模型规模、降低计算资源消耗的同时，可以基于初始语言模型实现多语言的机器翻译，最大限度地减少初始语言模型结构的修改，且可在最大限度地保留初始语言模型的基础上取得最优的翻译性能，以实现快速精准地进行机器翻译。

在一些实施例中，所述机器翻译模型是基于如下步骤训练得到的：

需要说明的是，获取第一样本语句以及第一样本语句对应的第一语言语句的步骤与获取第二样本语句以及第二样本语句对应的第二语言语句的步骤可以同时执行，也可以以任意顺序先后执行，本实施例对此不做具体地限定。

可选地，样本语句中包含第一样本语句和第二样本语句，其中，第一样本语句和第一样本语句对应的第一语言语句来源于单语语料数据库，如来源于英文语料库；第二样本语句和第二样本语句对应的第二语言语句来源于双语语料库，如，来源于中英双语平行预料库。

可选地，在获取到样本语句中的第一样本语句和第一样本语句对应的第一语言语句的情况下，可将第一样本语句作为样本，将第一样本语句对应的第一语言语句作为样本标签，对教师模型进行蒸馏训练得到预训练机器翻译模型，以提升预训练机器翻译模型生成第一样本语言语句所属的语言类型的语言的能力，即使得预训练机器翻译模型具备第一样本语言语句所属的语言类型的语言知识。

获取样本语句中的第二样本语句以及第二样本语句对应的第二语言语句，可将第二样本语句作为样本，将第二样本语句对应的第二语言语句作为样本标签；和/或将第二样本语句作为样本标签，将第二样本语句对应的第二语言语句作为样本，对预训练机器翻译模型进行训练，得到机器翻译模型，以使得机器翻译模型既具备第一样本语言语句所属的语言类型的语言知识，也具备第二样本语言语句所属的语言类型的语言知识，以及多语言相互翻译的能力。

本申请实施例中，基于第一样本语句以及第一样本语句对应的第一语言语句，进行蒸馏训练得到预训练机器翻译模型，使得预训练机器翻译模型在降低模型参数量的同时，可具备先验语言知识，以及具备第一样本语言语句所属的语言类型的语言知识，并基于第二样本语句以及第二样本语句对应的第二语言语句，对预训练机器翻译模型进行训练得到机器翻译模型，使得机器翻译模型具备多语言互译，且具备轻量化的模型结果，可快速准确地输出机器翻译结果；并且有效较少对初始语言模型的结构调整，使用零次学习即可实现多语言互译的翻译任务。

在一些实施例中，所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，进行蒸馏训练得到预训练机器翻译模型，包括：

可选地，在蒸馏训练过程中，可构建同一预训练语言构建教师模型和学生模型；并基于第一样本语句以及第一样本语句对应的第一语言语句，对教师模型进行训练，以使得教师模型具备第一语言语句所属的语言类型的语言知识。

并将第一样本语句输入至训练后的教师模型，得到训练后的教师模型输出的第一样本语句对应的第一语言语句；教师模型输出的第一样本语句对应的第一语言语句用于指导学生模型的训练。同时，将第一样本语句输入至学生模型，获取学生模型输出的第一样本语句对应的第一语言语句，然后基于学生模型输出的第一样本语句对应的第一语言语句以及教师模型输出的第一样本语句对应的第一语言语句，确定学生模型的损失函数，以根据损失函数对学生模型进行蒸馏训练，直到满足训练终止条件，得到预训练机器翻译模型。其中，损失函数是以最小化模型输出的第一样本语句与第一样本语句对应的第一语言语句之间的差距为目标。训练终止条件可以是预训练机器翻译模型收敛或训练次数达到最大训练次数。最大训练次数可以根据实际需求进行设置，如1次或2次等。

本实施例中通过基于第一样本语句以及第一样本语句对应的第一语言语句，进行蒸馏训练得到预训练机器翻译模型，进而使得机器翻译模型在具备教师模型的先验知识的同时，模型结构更加轻量化，有效降低机器翻译的计算资源损耗。

在一些实施例中，在所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，对教师模型进行训练之前，所述方法还包括：

其中，第二参数量小于第一参数量，具体可以根据实际需求进行配置。如第一参数量是第二参数量的1/20，即学生模型的参数量是教师模型的参数量的1/20的小模型；又如教师模型为千亿参数级别的预训练语言模型，学生模型为白亿参数级别的预训练语言模型。

可选地，在蒸馏训练过程中，可以基于第一参数量的预训练语言模型构建教师模型，基于第二参数量的预训练语言模型构建学生模型，并将教师模型学习到的语言知识辅助蒸馏训练学生模型，以得到参数量相对教师模型更小的预训练机器翻译模型，进而使得机器翻译模型在具备教师模型的先验知识的同时，模型结构更加轻量化，有效降低机器翻译的计算资源损耗。

在一些实施例中，所述预训练语言模型是以所述样本语句对应的第二语言语句所属的语言为主体语言，对自回归语言模型进行预训练获取的。

可选地，预训练语言模型是以样本语句对应的第二语言语句所属的语言类型为主体语言的模型。如样本语句对应的第二语言语句所属的语言类型为中文，则预训练语言模型可以是基于预训练中文语言模型构建生成，如源1.0模型。该预训练中文语言模型是以千亿参数级别的大规模预训练语言模型。该预训练中文语言模型是一个自回归语言模型，是一个以中文作为主体语言训练的模型，但与此同时也保留了为多语言扩展的可能，词表中同时支持了中文和英文。但在清洗预训练数据时为了确保中文的主体地位，去掉了所有中文单词占比小于70%的文章。因此该预训练中文语言模型具备英文知识，但所具备的英文知识非常少且零碎的，且具备非常强的语言生成能力。机器翻译可以看作是一种具备相对固定答案的文本生成，所以可以将机器翻译中的原文作为预训练语言模型的上一句子，将机器翻译中的译文作为预训练语言模型的下一句子，进而使得在不改变预训练语言模型的模型结构以训练目的的前提下，使得基于预训练语言模型训练得到的机器翻译模型具备翻译能力。

以下以预训练语言模型基于预训练中文语言模型构建生成为例，对本实施例中的机器翻译方法展开描述；在此场景下，下文中的样本语句所属语言类型为英文，第一语言语句所属语言类型为英文，第二语言语句所属语言类型为英文。

可选地，在获取到预训练中文语言模型之后，由于预训练中文语言模型中除中文语料外的其他完整语料比较少，为了提升模型的多语言语句生成能力，可基于与预训练中文语言模型所具备的大量语言知识类型之外的其他语言知识类型，即第一样本语句（如样本英文语句）和第一样本语句对应的第一语言语句（如目标英文语句），对基于预训练中文语言模型构建的教师模型和学生模型进行训练，以提升机器翻译模型生成多语言知识的能力。

在一些实施例中，所述获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句，包括：

从单语语料库中，获取第一样本数据集；

可选地，第一样本语句以及第一样本语句对应的第一语言语句可以基于如下步骤获取：

可以从单语语料库，包括单语语料对应的书籍、文库、对话、阅读理解数据中，获取第一样本数据集。其中，第一样本数据集中包含的单语语料数据量可以根据实际需求进行设置，如200GB。

为了获取提高样本数据集的质量，进而提高模型训练的效率，可对第一样本数据集进行数据处理。具体处理方式，包括删除第一样本数据集中数据长度小于目标长度的单语语句，和/或包含敏感词的单语语句。其中，目标长度也可根据实际需求进行设置，如30个字节。

在获取到处理后的第一样本数据集后，可从第一样本数据集中抽取第一样本语句以及第一样本语句对应的第一语言语句。其中，抽取的第一样本语句的总数量以及在每一单语语料库中抽样频率可以根据实际需求进行设置。如在抽取的第一样本语句的总数量可以为50GB。由于对话语料库和文库中语料数据相对于书籍语料库中的数据较少，可适当提升在话语料库和文库中抽取样本语句的抽样频率。

在获取到第一样本语句以及第一样本语句对应的第一语言语句，即可基于第一样本语句以及第一样本语句对应的第一语言语句进行蒸馏训练，以得到轻量化的机器翻译模型，进而提升机器翻译的精度和降低计算成本。

在一些实施例中，所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句，包括：

从双语语料库中，获取第二样本数据集；

可选地，第二样本语句以及第二样本语句对应的第二语言语句可以基于如下步骤获取：

可以从双语语料库中，获取第二样本数据集。

为了获取提高样本数据集的质量，进而提高模型训练的效率，可对第二样本数据集进行数据处理。具体处理方式，包括删除第二样本数据集中任一语句的数据长度小于目标长度的双语语句对，和/或删除任一语句中包含敏感词的双语语句对。例如，在中英双语平行语料库中获取第二样本语句以及第二样本语句对应的第二语言语句的情况下，若该中英双语平行语料库中包含中文敏感词或英文敏感词的中英双语平行语料对，则将该中英双语平行语料对删除。

在获取到处理后的第二样本数据集后，可从第二样本数据集中抽取双语平行语料对，以获取第二样本语句以及第二样本语句对应的第二语言语句。

经过蒸馏训练得到的预训练机器翻译模型具备一定的翻译能力，因此在获取到第二样本语句以及第二样本语句对应的第二语言语句的情况下，可基于第二样本语句以及第二样本语句对应的第二语言语句对蒸馏训练得到的预训练机器翻译模型进行加强训练，以得到轻量化的机器翻译模型的同时，使得机器翻译模型具备更强的多语言互译能力，进而提升机器翻译的精度和降低计算成本。

根据所述第二样本语句确定输入信息；

可选地，第二样本语句以及第二样本语句对应的第二语言语句还可以基于如下步骤获取：

可选地，经过蒸馏训练，获取的预训练机器翻译模型已经初步具备了一定的翻译能力，但由于第二样本语句以及第二样本语句对应的第二语言语句所形成的双语语料对的数量较少，为了进一步增强机器翻译模型的翻译性能，可对第二样本语句以及第二样本语句对应的第二语言语句进行数据增强。

可选地，可以根据第二样本语句确定输入信息，将输入信息输入至预训练机器翻译模型中，由预训练机器翻译模型根据输入信息对第二样本语句进行翻译，得到第二样本语句对应的第二语言语句。其中，根据第二样本语句确定输入信息的方式包括，将第二样本语句直接作为输入信息，或对第二样本语句进行处理后作为输入信息，本实施例对此不做具体地限定。

根据第二样本语句以及预训练机器翻译模型输出的第二样本语句对应的第二语言语句进行数据增强，根据数据增强结果对预训练机器翻译模型进行训练，以得到轻量化的机器翻译模型的同时，使得机器翻译模型具备更强的多语言互译能力，进而提升机器翻译的精度和降低计算成本。

在一些实施例中，所述根据所述第二样本语句确定输入信息，包括：

将所述第二样本语句作为所述输入信息。

可选地，在数据增强过程中，可将第二样本语句作为输入信息输入至预训练机器翻译模型中，由预训练机器翻译模型根据第二样本语句进行机器翻译，得到第二样本语句对应的第二语言语句，以对预训练机器翻译模型的训练模型进行数据增强，根据数据增强结果对预训练机器翻译模型进行训练，以得到轻量化的机器翻译模型的同时，使得机器翻译模型具备更强的多语言互译能力，进而提升机器翻译的精度和降低计算成本。

例如，第二样本语句的内容为“The sparrows outside the window are stilltalking on the telephone pole”，将其输入预训练机器翻译模型后，得到第二样本语句对应的第二语言语句的内容为“窗外的麻雀还在电线杆上多嘴”。

根据增加结果，确定所述输入信息。

可选地，在数据增强过程中，还基于小样本学习，在第二样本语句之前增加多组目标语料语句对，作为输入信息。其中，目标语料语句对的数量可以根据实际需求进行设置，如三组或四组等。

例如，第二样本语句的内容为“The sparrows outside the window are stilltalking on the telephone pole”，多组目标语料语句对的内容为“目标语句：What can Ido for you；目标语言语句：有什么可以帮您；目标语句：This is the best translatorin the world；目标语言语句：这是世界上最好的翻译器；目标语句：I want get itreturned；目标语言语句：我想退货”，则输入信息的内容为“目标语句：What can I do foryou；目标语言语句：有什么可以帮您；目标语句：This is the best translator in theworld；目标语言语句：这是世界上最好的翻译器；目标语句：I want get it returned；目标语言语句：我想退货；第二样本语句：The sparrows outside the window are stilltalking on the telephone pole”。

其中，多组目标语料语句对为引导用的提示符，将添加提示符的输入信息输入至预训练机器翻译模型中，基于提示符引导预训练机器翻译模型对第二样本语句进行翻译，以得到第二样本语句对应的第二语言语句，以对预训练机器翻译模型的训练模型进行数据增强，从数据增强结果中的第二样本语句以及第二样本语句对应的第二语言语句作为双语平行语料对，对预训练机器翻译模型进行训练，以得到机器翻译模型。

本实施例基于小样本学习以及数据蒸馏的方式，对预训练机器翻译模型的训练数据集进行扩展，解决了平行语料数据较少的问题，且可训练得到轻量化的机器翻译模型，同时使得机器翻译模型具备更强的多语言互译能力，进而提升机器翻译的精度和降低计算成本。

在一些实施例中，所述基于所述第二样本语句以及所述第二样本语句对应的第二语言语句，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型，包括：

可选地，在对预训练机器翻译模型进行训练的过程中，可将第二样本语句作为样本，将第二样本语句对应的第二语言语句作为样本标签，对预训练机器翻译模型进行训练，直到满足训练终止条件，得到机器翻译模型，使得机器翻译模型可学习第二样本语句所属语言类型的语言知识到第二样本语句对应的第二语言语句所属语言类型的语言知识之间的转换。

其中，训练终止条件包括训练次数达到最大迭代次数或满足模型收敛条件。其中，最大迭代次数可以为2次。

可选地，在对预训练机器翻译模型进行训练的过程中，还可将第二样本语句作为样本标签，将第二样本语句对应的第二语言语句作为样本，对预训练机器翻译模型进行训练，直到满足训练终止条件，得到机器翻译模型，使得机器翻译模型可学习第二样本语句对应的第二语言语句所属语言类型的语言知识到第二样本语句所属语言类型的语言知识之间的转换。

需要说明的是，为了使得模型可在多语言互译中均表现出突出性能，可使用同等比例的将第二样本语句作为样本标签，将第二样本语句对应的第二语言语句作为样本的训练数据集，以及将第二样本语句作为样本，将第二样本语句对应的第二语言语句作为样本标签的训练数据集。

为了验证本实施例中的机器翻译方法的有效性，本实施例采用2020年机器翻译比赛（2020 Conference on Machine Translation，WMT20）数据集中的测试集对本实施例中的机器翻译方法进行验证。通过验证得到，本实施例中的机器翻译方法可获取较优的翻译结果。其中，英文到中文翻译的成绩为30.00，中文到英文翻译的成绩为16.50，该结果是本实施例中的机器翻译模型在零次学习的基础上获取的，且没有进行进一步微调。

以下以第一样本为英文文本，第一语言语句也为英文文本，第二语言语句为中文文本为例，以预训练语言模型基于预训练中文语言模型构建生成为例，对本实施例中的机器翻译方法展开描述，具体流程示意图如图2所示：

步骤201，采用从英文语料库中获取的第一样本语句和第一样本语句对应的第一目标语言语句，进行蒸馏训练，得到模型参数量小于蒸馏前的模型参数的预训练机器翻译模型；

步骤202，从中英平行语料库中获取中英语料对（即第二样本语句和第二样本语句对应的第二目标语言语句），并基于小样本学习和知识蒸馏的方式对中英语料对数据进行数据增强，以得到增强的中英语料对，并使用同等比例的中译英语料对以及英译中语料对，对预训练机器翻译模型进行训练，得到机器翻译模型，以使得机器翻译模型具备轻量化模型结构的同时，具备中英互译的良好性能。

综上，本实施例中提出的机器翻译方法，充分利用的预训练中文语言模型的巨量模型的中文语言生成能力，使用预训练中文语言模型经知识蒸馏和单语料、双语平行语料的训练。即在不改变模型基础结构的前提下，利用知识蒸馏、以及步骤201到步骤202的两级段训练和数据增强的方式得到与原始预训练语言模型的模型结构相同、参数数量更小的机器翻译模型，该机器翻译模型在中英翻译结果上取得了较好的结果，且该机器翻译模型相较于较原始预训练语言模型具有更轻量化的结构，减少模型推理翻译时的计算力消耗，更易于在实际应用中部署。并且，在训练过程中，保持原始预训练语言模型设计的目标函数，即以模型输出的预测结果和真实结果之间的差距最小为目标，使得机器翻译模型具有良好的通用性和易用性。

下面对本发明提供的机器翻译装置进行描述，下文描述的机器翻译装置与上文描述的机器翻译方法可相互对应参照。

如图3所示，本申请实施例提供一种机器翻译装置，该装置包括：

获取模块301用于获取目标语句；

翻译模块302用于将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；

可选地，可以预先训练得到机器翻译模型，具体训练方式为蒸馏训练，具体训练步骤可以包括：采集大量样本语句、与样本语句的语言类型相同的第一语言语句，与样本语句的语言类型不同的第二语言语句。例如，样本语句的语言类型可以是英文，则第一语言语句的语言类型为英文，第二语言语句的语言类型为中文；或者，样本语句的语言类型可以是中文，则第一语言语句的语言类型为中文，第二语言语句的语言类型为英文等，本实施例对此不作具体地限定。

本申请实施例提供的机器翻译装置，通过基于样本语句、样本语句对应的第一语言语句和第二语言语句，进行蒸馏训练，得到具备多种语言知识的机器翻译模型，基于具备多种语言知识的机器翻译模型进行机器翻译，在压缩模型规模、降低计算资源消耗的同时，可以基于初始语言模型实现多语言的机器翻译，最大限度地减少初始语言模型结构的修改，且可在最大限度地保留初始语言模型的基础上取得最优的翻译性能，以实现快速精准地进行机器翻译。

在一些实施例中，该装置还包括训练模块，具体用于：

在一些实施例中，训练模块，还用于：

从单语语料库中，获取第一样本数据集；

在一些实施例中，训练模块，还用于：

从双语语料库中，获取第二样本数据集；

在一些实施例中，训练模块，还用于：

根据所述第二样本语句确定输入信息；

在一些实施例中，训练模块，还用于：

将所述第二样本语句作为所述输入信息。

在一些实施例中，训练模块，还用于：

根据增加结果，确定所述输入信息。

在一些实施例中，训练模块，还用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行机器翻译方法，该方法包括：获取目标语句；将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的；所述第一语言语句的语言类型与所述样本语句的语言类型相同，所述第二语言语句的语言类型与所述样本语句的语言类型不相同。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的机器翻译方法，该方法包括：获取目标语句；将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的；所述第一语言语句的语言类型与所述样本语句的语言类型相同，所述第二语言语句的语言类型与所述样本语句的语言类型不相同。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的机器翻译方法，该方法包括：获取目标语句；将所述目标语句输入至机器翻译模型中，得到所述机器翻译模型输出的所述目标语句对应的目标语言语句；所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的；所述第一语言语句的语言类型与所述样本语句的语言类型相同，所述第二语言语句的语言类型与所述样本语句的语言类型不相同。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器翻译方法，其特征在于，包括：

获取目标语句；

所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的；所述第一语言语句的语种类型与所述样本语句的语种类型相同，所述第二语言语句的语种类型与所述样本语句的语种类型不相同；

其中，所述机器翻译模型是以所述样本语句和所述第一语言语句作为训练样本对，以及以所述样本语句和所述第二语言语句作为训练样本对，对教师模型进行蒸馏训练得到的学生模型；或者，所述机器翻译模型是以所述样本语句和所述第一语言语句作为训练样本对，对教师模型进行蒸馏训练得到学生模型，以所述样本语句和所述第二语言语句作为训练样本对，对学生模型进行训练得到的。

2.根据权利要求1所述的机器翻译方法，其特征在于，所述机器翻译模型是基于如下步骤训练得到的：

3.根据权利要求2所述的机器翻译方法，其特征在于，所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，进行蒸馏训练得到预训练机器翻译模型，包括：

4.根据权利要求3所述的机器翻译方法，其特征在于，在所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句，对教师模型进行训练之前，所述方法还包括：

5.根据权利要求4所述的机器翻译方法，其特征在于，所述预训练语言模型是以所述样本语句对应的第二语言语句所属的语言为主体语言，对自回归语言模型进行预训练获取的。

6.根据权利要求2-5任一所述的机器翻译方法，其特征在于，所述获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句，包括：

从单语语料库中，获取第一样本数据集；

7.根据权利要求2-5任一所述的机器翻译方法，其特征在于，所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句，包括：

从双语语料库中，获取第二样本数据集；

8.根据权利要求2-5任一所述的机器翻译方法，其特征在于，所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句，包括：

根据所述第二样本语句确定输入信息；

9.根据权利要求8所述的机器翻译方法，其特征在于，所述根据所述第二样本语句确定输入信息，包括：

将所述第二样本语句作为所述输入信息。

10.根据权利要求8所述的机器翻译方法，其特征在于，所述根据所述第二样本语句确定输入信息，包括：

在所述第二样本语句之前增加多组目标语料语句对；所述目标语料语句对中的目标语句的语种类型与所述第二样本语句的语种类型相同，所述目标语料语句对中的目标语言语句的语种类型与所述第二样本语句对应的第二语言语句的语种类型相同；

根据增加结果，确定所述输入信息。

11.根据权利要求2-5任一所述的机器翻译方法，其特征在于，所述基于所述第二样本语句以及所述第二样本语句对应的第二语言语句，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型，包括：

12.根据权利要求2-5任一所述的机器翻译方法，其特征在于，所述基于所述第二样本语句以及所述第二样本语句对应的第二语言语句，对所述预训练机器翻译模型进行训练，得到所述机器翻译模型，包括：

13.一种机器翻译装置，其特征在于，包括：

获取模块，用于获取目标语句；

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至12任一项所述机器翻译方法。

15.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述机器翻译方法。