CN113761946B

CN113761946B - 模型训练及数据处理方法、装置、电子设备、存储介质

Info

Publication number: CN113761946B
Application number: CN202010501637.4A
Authority: CN
Inventors: 汪嘉怿; 赵宇; 张昱琪; 骆卫华; 施杨斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-12-12
Anticipated expiration: 2040-06-04
Also published as: CN113761946A

Abstract

本公开实施例公开了一种模型训练及数据处理方法、装置、电子设备、存储介质，方法包括：获得训练数据，所述训练数据包括第一原文、第一译文和第一译后参考译文；利用所述训练数据对译后编辑模型进行训练：使用预训练的语言模型作为所述译后编辑模型的编码器；所述编码器的初始参数为所述预训练的语言模型的参数；将所述训练数据经过所述编码器进入所述译后编辑模型的解码器；根据所述解码器的输出对所述译后编辑模型的参数进行调整。本公开利用大量的预训练数据学习原文及其对应的译文之间的语义知识，并将该语义知识迁移到译后编辑模型的训练过程中，使得译后编辑模型更具有鲁棒性，同时还解决了训练数据这类三元组获取成本较高的问题。

Description

模型训练及数据处理方法、装置、电子设备、存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种模型训练及数据处理方法、装置、电子设备、存储介质。

背景技术

机器翻译是指利用计算机程序将语句从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的技术。目前较为常用的神经网络架构Transformer是一个完全基于注意力机制(attention-based)的编码器-解码器(encoder-decoder)模型。其主要思想是将待翻译的语句(在下文中统称为原文)经过编码器(encoder)编码成为一个向量表示，然后利用解码器(decoder)对原文的向量表示进行解码，翻译成为其对应的译文(在下文中统称为译文。

为了在机器翻译基础上得到更好的翻译效果，通常会由相关人员对机器翻译的译文进行译后编辑，但是这种方式将会消耗大量的人力成本。因此，如何节省人工成本以及提高译后编辑的效率是机器翻译领域所要解决的主要技术问题之一。

发明内容

本公开实施例提供一种模型训练及数据处理方法、装置、电子设备、存储介质。

第一方面，本公开实施例中提供了一种模型训练方法，包括：

获得训练数据，所述训练数据包括第一原文、第一译文和第一译后参考译文；

利用所述训练数据对译后编辑模型进行训练：

使用预训练的语言模型作为所述译后编辑模型的编码器；所述编码器的初始参数为所述预训练的语言模型的参数；

将所述训练数据经过所述编码器进入所述译后编辑模型的解码器；

根据所述解码器的输出对所述译后编辑模型的参数进行调整。

进一步地，所述将所述训练数据经过所述编码器进入所述译后编辑模型的解码器，包括：

所述编码器利用自注意力机制对所述第一原文进行处理，得到第一原文特征；

所述编码器利用注意力机制对所述第一原文特征和所述第一译文进行处理，得到第一联合特征；

将所述第一译后参考译文、所述第一原文特征和所述第一联合特征输入所述解码器。

进一步地，所述根据所述解码器的输出对所述译后编辑模型的参数进行调整，包括：

所述解码器利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理，得到预测联合特征；

利用所述预测联合特征预测所述第一译后参考译文对应的目标预测结果；

利用所述目标预测结果对所述译后编辑模型的参数进行调整。

进一步地，所述利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理，得到预测联合特征，包括：

利用注意力机制对所述第一联合特征和第一原文特征中的其中之一、所述第一译后参考译文进行处理并输出第一中间特征；

利用注意力机制对所述第一联合特征和第一原文特征中的其中之另一、所述第一中间特征进行编码后输出所述预测联合特征。

进一步地，所述方法还包括：

获得预训练数据，所述预训练数据包括第二原文及其对应的第二译文；

利用自注意力机制对所述第二原文进行处理，得到第二原文特征；

利用注意力机制对第二原文特征和掩盖了部分译文内容的第二译文进行处理，得到第二联合特征；

利用所述第二联合特征预测所述第二译文中被掩盖了的部分译文内容，得到译文预测结果；

根据所述译文预测结果对所述语言模型的参数进行调整。

第二方面，本公开实施例中提供了一种数据处理方法，包括：

获取待处理的原文以及所述原文对应的机器翻译的译文；

将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文；所述译后编辑模型利用第一方面所述的方法训练得到。

第三方面，本公开实施例中提供了一种数据处理方法，包括：

获取待处理的原文以及所述原文对应的机器翻译的译文；

将所述原文、所述译文输入至译后编辑模型，所述译后编辑模型包括编码器和解码器；

所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征，以及利用注意力机制对所述第三原文特征和所述译文进行处理并输出第三联合特征；

所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征，以及利用所述第四联合特征确定所述候选信息是否为所述译文的目标译后参考译文；

输出所述目标译后参考译文。

进一步地，所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征，包括：

利用注意力机制对所述第三原文特征、第三联合特征的其中之一、所述候选信息进行处理后输出第二中间特征；

利用注意力机制对所述第三原文特征、第三联合特征的其中之另一、所述第二中间特征进行处理并输出所述第四联合特征。

第四方面，本发明实施例中提供了一种模型训练装置，包括：

第一获取模块，被配置为获得训练数据，所述训练数据包括第一原文、第一译文和第一译后参考译文；

第一训练模块，被配置为利用所述训练数据对译后编辑模型进行训练；所述第一训练模块被实施为：

第五方面，本发明实施例中提供了一种数据处理装置，包括：

第三获取模块，被配置为获取待处理的原文以及所述原文对应的机器翻译的译文；

第四获取模块，被配置为将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文；所述译后编辑模型利用第四方面所述的装置训练得到。

第六方面，本发明实施例中提供了一种数据处理装置，包括：

第五获取模块，被配置为获取待处理的原文以及所述原文对应的机器翻译的译文；

输入模块，被配置为将所述原文、所述译文输入至译后编辑模型，所述译后编辑模型包括编码器和解码器；

第三处理模块，被配置为在所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征，以及利用注意力机制对所述第三原文特征和所述译文进行处理并输出第三联合特征；

第四处理模块，被配置为在所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征，以及利用所述第四联合特征确定所述候选信息是否为所述译文的目标译后参考译文；

输出模块，被配置为输出所述目标译后参考译文。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。

第七方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。

第八方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方面所述方法所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

该方法首先利用包括原文及译文的预训练数据预训练得到语言模型，预训练数据原文及其对应的译文该预训练数据由于不需要对应的第一译后参考译文，因此容易获得；该语言模型可以从大量的预训练数据中学习得到原文及其对应的译文之间的语义关系；之后再利用训练数据训练译后编辑模型，该训练数据可以包括第一原文、第一译文以及第一译后参考译文，上述预训练的语言模型作为该译后编辑模型的编码器，并且预训练得到的语言模型的模型参数作为该编码器的初始参数。在译后编辑模型的训练过程中，训练数据经过该编码器后进入译后编辑模型的解码器，解码器的输出作为译后编辑模型的预测结果用于优化调整译后编辑模型的模型参数，包括编码器和解码器的模型参数。也即该译后编辑模型的编码器利用上述预训练的语言模型对第一原文和第一译文进行语义编码后输出编码结果，该译后编辑模型的解码器利用上述编码结果以及第一译后参考译文学习第一原文、第一译文和第一译后参考译文三者之间的语义关系，进而再利用上述三者之间的语义关系预测得到目标预测结果，该目标预测结果为译后编辑模型预测得到的第一原文和第一译文对应的译后参考译文的预测结果，根据该目标预测结果与第一译后参考译文之间的差距可以对以后编辑模型的模型参数进行优化调整。本公开实施例中由于预训练数据相较于训练数据更容易获取，因此利用了大量的预训练数据学习原文及其对应的译文之间的语义知识，并将该语义知识迁移到译后编辑模型的训练过程中，使得译后编辑模型更具有鲁棒性，同时还解决了训练数据这类三元组获取成本较高的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的模型训练方法的流程图；

图2(a)～图2(b)示出根据本公开一实施方式的语言模型和译后编辑模型的实现结构示意图；

图3示出根据本公开一实施方式的数据处理方法的流程图；

图4示出根据本公开另一实施方式的数据处理方法的流程图；

图5是适于用来实现根据本公开一实施方式的模型训练及数据处理方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

APE(automatic post-editing，自动译后编辑)模型是一种在没有任何参考译文的情况下，自动对机器翻译得到的译文进行译后编辑的人工智能模型。一种已知的APE模型分别将原文和机器翻译得到的译文进行基于Transformer的深层语义编码，然后分别输入到解码器进行联合注意力(joint attention)的计算，从而得到对应的编辑结果。这种APE模型的训练过程高度依赖原文、机器翻译的译文和人工校正后的第一译后参考译文这三元组训练数据。然而，在实际应用中，人工译后编辑的成本比较高，从而这样的三元组训练数据量比较少。模型无法对机器翻译的译文与人工校正后的第一译后参考译文的差异性进行充分学习，导致模型的效果不佳。

为此，本公开实施例提出了一种模型训练方法，包括：获得训练数据，所述训练数据包括第一原文、第一译文和第一译后参考译文；利用所述训练数据对译后编辑模型进行训练：使用预训练的语言模型作为所述译后编辑模型的编码器；所述编码器的初始参数为所述预训练的语言模型的模型参数；将所述训练数据经过所述编码器进入所述译后编辑模型的解码器；根据所述解码器的输出对所述译后编辑模型的参数进行调整。

下面通过具体实施例详细介绍本公开实施例的细节。

图1示出根据本公开一实施方式的模型训练方法的流程图。如图1所示，该模型训练方法包括以下步骤：

在步骤S101中，获得训练数据，所述训练数据包括第一原文、第一译文和第一译后参考译文；

在步骤S102中，利用所述训练数据对译后编辑模型进行训练：

本实施例中，原文和译文可以是机器翻译对应的源语言语句和目标语言语句。预训练数据中可以包括多个原文及其对应的译文对，而不包括对应的人工校正后的第一译后参考译文。训练数据中可以包括多组第一原文、第一译文以及人工校正后的第一译后参考译文构成的三元组。人工校正后的第一译后参考译文可以是相关人员针对机器翻译得到的译文进行错误修正等得到的内容。可以理解的是，预训练数据由于不需要人工校正后的第一译后参考译文，因此预训练数据的收集成本较低，并且容易收集到大量的数据；而训练数据由于需要人工校正后的第一译后参考译文，因此收集成本较高，而且不容易收集到大量的数据。因此，本公开实施例首先可以利用大量的预训练数据预训练得到用于提取原文和译文之间关系特征的语言模型。在预训练过程中，语言模型可以学习原文以及译文之间的关系，该关系可以包括原文及其对应的译文中词与词之间的语义关系，还可以包括句法、语法等关系。语言模型还可以输出用于表示上述关系的关系特征，该关系特征可以使用向量表示。训练完成的语言模型可以从输入的原文以及译文中提取两者之间在句法、语法、语义等方面的关系，并输出用于表示该关系的向量特征。

因此，在利用大量预训练数据对语言模型完成训练之后，可以利用训练得到的语言模型的模型参数对译后编辑模型的模型参数进行初始化。

译后编辑模型可以包括编码器和解码器。编码器可以对输入的源信息进行特征提取，得到的特征可以输入至解码器进行解码，解码器可以根据上述特征得到对应的解码结果，本实施例中源信息对应于原文和译文，解码结果用于表示第一译后参考译文是否可靠和/或可靠性的高低程度。

在本公开实施例中，编码器的输入信息包括第一原文和第一译文，编码器利用上述预训练完成的语言模型对第一原文和第一译文进行处理，该处理过程可以是捕获第一原文和的第一译文之间的语义、语法、句法等关系，并输出用于表示第一原文和第一译文之间的上述关系的关系特征的过程，该关系特征可以用向量表示。

解码器可以针对编码器输出的关系特征以及训练数据中的第一译后参考译文进行解码处理，以便能够从该关系特征以及第一译后参考译文学习第一原文、第一译文和第一译后参考译文之间的语义、语法、句法等关系，并输出对应的关系特征，通过该关系特征可以得到译后编辑模型的输出结果，该输出结果用于表示在解码器输入的第一译后参考译文是否可靠和/或可靠性的高低程度。在该译后编辑模型训练之初，该输出结果并不合理，因此即使输入的是真实的第一译后参考译文，该输出结果依然可能显示第一译后参考译文不可靠或者可靠性较低，随着训练次数的增加，译后编辑模型的输出结果则会逐渐接近于真实。

在一些实施例中，预训练数据中的原文及其对应的译文对与训练数据中的第一原文和第一译文对相同，也可以不同。在一些实施例中，训练数据中的第一原文和第一译文可以部分或者全部包括在预训练数据中，而在另一些实施例中，预训练数据中的部分或者全部原文及其对应的译文可以不包括在训练数据中。也即，预训练数据中的原文和译文对在数量上可以远远多于训练数据中第一原文和第一译文对。

编码器在以后编辑模型的训练过程中利用预训练的语言模型对第一原文和第一译文进行处理并输出第一原文和第一译文之间的关系特征；解码器在以后编辑模型的训练过程中利用该关系特征和第一译后参考译文学习第一原文、第一译文以及第一译后参考译文之间的关系特征，解码器还利用该关系特征输出目标预测结果，该目标预测结果用于表示第一译后参考译文是否可靠以及可靠程度等。由于训练数据中的第一译后参考译文作为准确结果，可以认为可靠程度较高，因此通过比较该第一译后参考译文和目标预测结果即可对以后编辑模型的模型参数进行优化调整，使得该译后编辑模型在下一次的预测过程中能够得到更加准确的预测结果。

通过本公开实施例的这种方式，利用大量的预训练数据训练语言模型，而利用少量的训练数据训练译后编辑模型，依然可以获得效果较好的译后编辑模型，并且由于预训练数据收集成本较低，而训练数据的收集成本较高，因此通过本公开实施例的上述方式还可以降低训练数据的收集成本。

在本实施例的一个可选实现方式中，所述将所述训练数据经过所述编码器进入所述译后编辑模型的解码器的步骤，进一步包括以下步骤：

该可选的实现方式中，语言模型可以包括原文端模型和译文端模型，因此在译后编辑模型的训练过程中，作为编辑器的语言模型的原文端模型可以利用自注意力机制(Self-Attention)对第一原文进行处理并输出第一原文特征，第一原文特征可以是对第一原文中句法、语法和/或语义关系的向量表示；而作为编辑器的语言模型的译文端模型可以利用注意力机制(Attention)对第一原文特征和第一译文进行处理并输出第一联合特征，该第一联合特征可以是对第一原文和第一译文之间句法、语法和/或语义关系的向量表示。普通的注意力机制(Attention)主要用于确定目标信息中某个元素与源信息中每个元素之间的相似度，而自注意力机制(Self-Attention)主要用于确定源信息内部元素之间或者目标信息内部元素之间发生的注意力机制。本公开实施例中作为编辑器的语言模型的原文端模型利用自注意力机制(Self-Attention)学习第一原文中词之间的关系特征，并输出用于表示该关系特征的第一原文特征；作为编辑器的语言模型的译文端模型还利用注意力机制(Attention)对第一原文特征和第一译文进行处理，以学习第一原文中的词和第一译文中词之间的关系特征，并输出用于表示该关系特征的第一联合特征。本公开实施例中的语言模型可以采用Transformer模型结构的实现方式，因此注意力机制(Attention)和自注意力机制(Self-Attention)的具体实现细节可以参考已有的Transformer模型，在此不再赘述。

在本实施例的一个可选实现方式中，语言模型的模型结构可以如下实现：

原文端模型和译文端模型可以分别包括N层，N大于等于1；原文端模型的每层可以包括至少一个子层，该至少一个子层为自注意力层，用于对输入的信息进行自注意力处理；原文端模型的第i层(0<i<N)的输入为上一层也即第i-1的输出，第一层的输入为第一原文，第N层的输出为原文端模型的输出，也即在原文端模型的输入为第一原文的情况下，该输出为第一原文特征。

译文端模型的每层可以包括至少两个子层，第一个子层为自注意力层，而第二个子层为普通的注意力层，自注意力层用于对输入的信息进行自注意力处理；译文端模型的第i层中第一个子层的输入为上一层也即第i-1层的输出，第一层的第一个子层的输入为掩盖了部分译文词的第一译文，该第一个子层对输入进行自注意力处理；译文端模型的第i层的第二个子层的输入为第i层的第一个子层的输出以及原文端第i层的输出，该第i层的第二个子层对第i-1层的输出以及原文端第i层的输出进行注意力处理。译文端模型的第N层的输出即为第一联合特征。

在本实施例的一个可选实现方式中，所述根据所述解码器的输出对所述译后编辑模型的参数进行调整的步骤，进一步包括以下步骤：

该可选的实现方式中，译后编辑模型包括编码器和解码器，编码器采用语言模型对输入进行处理，因此在利用训练数据训练译后编辑模型之前，可以利用预先训练的语言模型的模型参数初始化译后编辑模型的编码器的模型参数。需要说明的是语言模型在预训练过程中，对译文端模型输入的译文进行掩码操作之后再利用自注意力机制提取语义、语法、句法等语言特征，而在译后编辑模型中，编码器的译文端模型对输入的第一译文不做掩码操作，而是利用自注意力机制直接从第一译文的原内容中提取语义、语法、句法等语言特征。也就是说，在语言模型的预训练过程中，译文端模型利用自注意力机制对掩盖了部分译文词的译文进行处理而在译后编辑模型的训练过程中，编码器的译文端模型利用自注意力机制对第一译文进行处理。

译后编辑模型的训练过程中，编码器的原文端模型针对第一原文进行自注意力机制处理，并获得第一原文中词与词之间的语义、语法和/或句法等语言关系，并输出表示该语言关系的第一原文特征，译文端模型针对第一原文特征和第一译文进行注意力机制处理，并获得第一原文中的词与第一译文中词之间的语义、语法和/或句法等语言关系，并输出表示该语言关系的第一联合特征。

解码器的输入包括训练数据中的第一译后参考译文、编码器输出的第一原文特征和第一联合特征；解码器利用注意力机制对第一原文特征、第一联合特征和第一译后参考译文进行处理，并获得用于表示第一原文、第一译文和第一译后参考译文之间的语义、语法和/或句法等语言关系的预测联合特征。

在模型参数调整过程中，通过预测联合特征预测得到第一译后参考译文对应的目标预测结果，该目标预测结果可以用于表示输入至解码器的该第一译后参考译文是否可靠(例如是否为第一原文和第一译文对应的真实第一译后参考译文)和/或可靠性的高低程度。由于在训练过程中，在解码器输入的第一译后参考译文为真实第一译后参考译文，因此可以通过该目标预测结果对译后编辑模型的模型参数进行调整，以使得目标预测结果更加接近于真实。目标预测结果可以是一多分类结果，也即用于表示输入的第一译后参考译文是否为真实第一译后参考译文的概率值。对译后编辑模型的模型参数进行调整是指对译后编辑模型中编码器和解码器的模型参数均进行调整，也即在译后编辑模型的训练过程中，预训练得到的语言模型的模型参数还会得到进一步调整。

在本实施例的一个可选实现方式中，所述利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理，得到预测联合特征的步骤，进一步包括以下步骤：

该可选的实现方式中，编码器的语言模型输出的第一联合特征和第一原文特征被输入至解码器的模型中。在解码器利用注意力机制对第一联合特征和第一原文特征中的其中之一(例如第一联合特征)、第一译后参考译文进行处理，并输出第一中间特征，之后再利用注意力机制对第一联合特征和第一原文特征中的其中之另一(例如第一原文特征)、第一中间特征进行处理，并输出用于表示第一原文、第一译文和第一译后参考译文之间的语义、语法和/或句法等语言关系的预测联合特征。

译后编辑模型的编码器的模型结构可以参见上述对语言模型结构的描述，在此不再赘述，而译后编辑模型的解码器的模型结构可以如下实现：

解码器的模型结构也可以包括N层，N大于等于1；解码器的每层可以包括至少三个子层，第一个子层为自注意力层，而第二个子层和第三个子层均为普通的注意力层。自注意力层用于对输入的信息进行自注意力处理；解码器的第i层(0<i<N)中第一个子层的输入为上一层也即第i-1层的输出，第一层的第一个子层的输入为第一译文；解码器的第i层的第二个子层的输入为第i层的第一个子层的输出以及语言模型的原文端模型的第i层(或者译文端模型的第i层)的输出，该第i层的第二个子层对第一个子层的输出以及原文端模型的第i层(或者译文端模型的第i层)的输出进行注意力处理；解码器的第i层的第三个子层的输入为第i层的第二个子层的输出以及语言模型的译文端模型的第i层(或者原文端模型的第i层)的输出，该第i层的第三个子层对第二个子层的输出以及译文端模型的第i层(或者原文端模型的第i层)的输出进行注意力处理，第三个子层的输出为第i层的输出。利用解码器模型的第N层的输出即为预测联合特征。

对预测联合特征进行归一化处理可以得到目标预测结果。

在本实施例的一个可选实现方式中，所述方法还包括：

根据所述译文预测结果对所述语言模型的参数进行调整。

该可选的实现方式中，为了能够对语言模型单独进行预训练，语言模型的译文端模型可以对输入的第二译文进行掩码操作，该掩码操作用于将译文中的部分译文进行掩盖(例如可以将该部分译文映射成预设信息，使得被映射成预设信息的该部分译文在关系的提取过程中不会起作用)，并且语言模型还用于利用第二联合特征预测被掩盖的部分译文。

在一些实施例中，对第二译文的掩码操作可以是对第二译文中预定比例的部分译文进行随机掩码操作，使得被执行了掩码操作也即被掩盖了的部分译文在语言关系的提取过程中不起作用。语言模型利用第一联合特征得到译文预测结果之后，可以通过比较该译文预测结果对语言模型的模型参数进行调整。该译文预测结果用于表示输入的第二译文是否可靠和/或可靠程度，在语言模型的训练之初，该译文预测结果可能离真实结果相差较远，即使输入的译文为原文对应的真实机器翻译结果，该译文预测结果也可能显示该译文不可靠或者可靠性较差。每一次训练得到译文预测结果之后，可以根据该译文预测结果调整语言模型的模型参数，使得原文及其对应的译文经过该语言模型处理后得到的译文预测结果能够更加接近于真实，因此随着训练次数的增加，该译文预测结果会逐渐接近于真实。

通过这种方式训练得到的语言模型可以学习第二原文及其对应的第二译文之间的语义、语法、句法等语言关系，进而能够识别出输入的原文对应的译文。

下面通过具体的实现方式对本公开实施例中的译后编辑模型的训练过程进行详细描述。

图2(a)～图2(b)示出根据本公开一实施方式的语言模型和译后编辑模型的实现结构示意图。如图2(a)所示，语言模型采用了Transformer结构，包括原文端模型和译文端模型，原文端模型对应于Transformer结构中的编码器，而译文端模型对应于Transformer结构中的解码器。

在训练过程中，首先对原文进行分词，并对各个分词进行词嵌入处理(Embedding)之后，得到原文对应的词向量序列，该词向量序列可以作为原文端模型的输入。该词向量序列还可以先经过位置编码处理，将词向量序列中各个词的位置信息加入该词向量序列中，具体操作可以参见相关技术中的Transformer模型的介绍，在此不再赘述。原文端模型包括N(例如N＝6)层，每层包括两个子层，第一个是多头注意力层(multi-head attention)，该层利用自注意力机制(self-attention)对词向量序列进行处理，以便学习词向量序列内部的关系，也即原文中词与词之间的关系。第二个是前向反馈(feed forward)层，该层为简单的全连接网络。原文端模型的子层之间均使用了残差连接(Add&Norm)层。原文端模型中第一层的输出作为第二层的输入，第二层进行类似的处理之后，继续输入至下一层，以此类推。

译文端模型同样也包括N(例如N＝6)层，每层包括三个子层，第一个是多头自注意力层，该层利用自注意力机制(self-attention)对输入的词向量序列(对译文进行分词后，进行词嵌入处理得到的词向量序列)进行处理，以便学习词向量序列内部的关系，也即译文中词与词之间的关系。由于本公开实施例对语言模型的训练任务是学习原文和译文之间的语言关系，因此本公开实施例的译文端模型对输入的译文中的部分词进行随机掩盖(Random mask)后，进行自注意力机制处理。随机掩盖可以是对根据译文获得的词向量序列中预定比例的词向量进行mask操作，之后再由译文端模型的第一个子层(也即多头自注意力层)进行处理。第二个子层是对原文端模型的输出和第一个子层的输出进行注意力(Joint Attention)计算。第三个子层是全连接层。译文端模型的每个子层之间均使用了残差连接。可以从图2(a)中看出，原文端模型的每一层输出对应输入至译文端模型的对应层中，并且由译文端模型的对应层对其进行注意力机制处理，也就是说原文端模型的第一层的输出对应输入至译文端模型的第一层，原文端模型的第二层的输出对应输入至译文端模型的第二层，原文端模型的第N层的输出对应输入至译文端模型的第N层。

译文端模型的第N层的输出经过一个全连接层(linear)后经过多分类函数softmax计算得到原文中每个词被翻译成译文中对应词的概率。

如图2(b)所示，译后编辑模型包括编码器和解码器。编码器的模型结构与图2(a)所示的语言模型类似，具体细节可以参见上述对图2(a)的描述，在此不再赘述。编码器的模型结构与语言模型所不同的是，译文端模型中每层的第一个子层对输入的译文对应的词向量序列进行多头自注意力机制处理，而不需要对其进行mask操作；此外，译后编辑模型中编码器的模型结构中译文端模型的第N层的输出不需要经过全连接层和多分类函数的处理，而是直接输出给解码器。编码器的模型结构中原文端模型的第N层的输出也提供给解码器进行注意力(Joint Attention)计算。在译后编辑模型的训练过程中，直接利用预先训练的语言模型的模型参数初始化译后编码模型的编码器的模型参数。

译后编辑模型的解码器也包括N层，并且每层包括4个子层；第一个子层是多头自注意力层，该层利用自注意力机制(self-attention)对输入的词向量序列(对译后参考译文进行分词后，进行词嵌入处理得到的词向量序列)进行处理，以便学习词向量序列内部的关系，也即译后参考译文中词与词之间的关系。由于本公开实施例对译后编辑模型的训练任务是学习原文、译文和译后参考译文之间的语言关系，并基于该语言关系预测对应于原文、译文的译后参考译文；因此本公开实施例的译文端模型对输入的译后参考译文进行掩码操作，该掩码操作与Transformer结果中解码器的操作类似，主要是对当前时刻输入的词向量序列之后的信息进行掩盖，例如可以将这些信息映射到成预设信息(比如一个很大的负数，使得被掩盖的信息在解码过程中不起作用)。第二个子层是对编码器的译文端模型的输出进行注意力计算，而第三个子层是对编码器的原文端模型的输出进行注意力计算。第四个子层是全连接层。译文端模型的每个子层之间均使用了残差连接。

译后编辑模型的解码器的输出经过一个全连接层(linear)和多分类函数(softmax)后，计算得到原文和译文中每个词被编辑成第一译后参考译文中对应词的概率。

图3示出根据本公开一实施方式的数据处理方法的流程图。如图3所示，该数据处理方法包括以下步骤：

在步骤S301中，获取待处理的原文以及所述原文对应的机器翻译的译文；

在步骤S302中，将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文；所述译后编辑模型利用上述数据处理方法训练得到。

本实施例中，原文可以是源语言语句；译文可以是利用机器翻译工具对原文进行翻译后得到的目标语言语句。通常情况下，由于经过机器翻译工具翻译后的译文还需要人工检查并进行编辑，为了减少人工编辑成本，本公开实施例利用译后编辑模型对机器翻译工具得到译文进行自动编辑，并得到对应的目标译后参考译文，该目标译后参考译文可以直接作为最终的翻译结果进行使用，或者提供给相关人员进行编辑，通过这种方式能够减少人工参与的成本，提高人工编辑效率。

译后编辑模型的模型结构以及训练过程等技术细节可以参见图1所示实施例及相关实施例中的相关描述，在此不再赘述。

图4示出根据本公开另一实施方式的数据处理方法的流程图。如图4所示，该数据处理方法包括以下步骤：

在步骤S401中，获取待处理的原文以及所述原文对应的机器翻译的译文；

在步骤S402中，将所述原文、所述译文输入至译后编辑模型，所述译后编辑模型包括编码器和解码器；

在步骤S403中，所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征，以及利用注意力机制对所述第三原文特征和所述译文进行处理并输出第三联合特征；

在步骤S404中，所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征，以及利用所述第四联合特征确定所述候选信息是否为所述译文的目标译后参考译文；

在步骤S405中，输出所述目标译后参考译文。

本实施例中，原文可以是源语言语句；译文可以是利用机器翻译工具对原文进行翻译后得到的目标语言语句。通常情况下，由于经过机器翻译工具翻译后的译文还需要人工检查并进行编辑，为了减少人工编辑成本，本公开实施例利用译后编辑模型对机器翻译工具得到译文进行自动编辑，并得到对应的目标译后参考译文，该目标第一译后参考译文可以直接作为最终的翻译结果进行使用，或者提供给相关人员进行编辑，通过这种方式能够减少人工参与的成本，提高人工编辑效率。

译后编辑模型包括编码器和解码器，原文和译文输入至译后编辑模型的编码器，并在编码器对原文进行自注意力机制处理后得到第三原文特征，编码器还对第三原文特征和译文进行注意力机制处理，得到第三联合特征；该第三联合特征作为编码器的输出提供给解码器进行解码。解码器的主要任务是对第三联合编码进行解码，以确定对应的目标译后参考译文，该目标译后参考译文为对译文进行自动修正后的信息。

在解码器利用第三原文特征、第三联合特征以及候选信息进行注意力机制处理后可以得到能够表示原文、译文和候选信息之间的关系的第四联合特征。通过对第四联合特征进行归一化等处理可以确定所述候选信息是否为所述译文的目标译后参考译文。

针对原文和译文对中的一个词，候选信息可以是目标语言中对应的所有词的集合，根据第四联合特征可以是确定目标语言中所有词的集合中哪个候选信息为目标译后参考译文，并输出该目标译后参考译文。

在本实施例的一个可选实现方式中，在所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征，包括：

该可选的实现方式中，在解码器利用注意力机制对第三联合特征和第三原文特征中的其中之一(例如第三联合特征)、候选信息进行处理，并输出第二中间特征，之后再利用注意力机制对第三联合特征和第三原文特征中的其中之另一(例如第三原文特征)、第二中间特征进行处理，并输出用于表示待处理的原文、译文和候选信息之间的语义、语法和/或句法等语言关系的第四联合特征。

利用本公开实施例公开的模型训练及数据处理方法、装置、电子设备、存储介质可以应用于各种机器翻译领域。随着人工智能的发展，很多人工智能设备需要将一种语言描述的文本或者语音翻译成另一种语言后输出，例如可穿戴设备、汽车、机器人，因此利用本公开实施例提出的上述技术方案得到的翻译模型可以应用于上述人工智能设备，能够提高翻译的质量，提高用户的使用体验。此外，本公开实施例提出的上述技术方案得到的翻译模型还可以提供给需要多语种互译的用户使用，以及可以提供给如阿里的速卖通、lazada等的电商平台，用于随时翻译商品页面上的信息，能够帮助不同语种的用户快速了解商品信息并自助下单。利用本公开实施例得到的翻译模型还可以通过上云等方式提供给各种翻译机构，翻译机构可以通过云端获取翻译模型，并应用到本地端，节省了翻译机构的人工校正成本，并且能够提高翻译机构的翻译效率。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

根据本公开一实施方式的模型训练装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该模型训练装置包括：

在本实施例的一个可选实现方式中，所述第一训练模块，包括：

第一处理子模块，被配置为所述编码器利用自注意力机制对所述第一原文进行处理，得到第一原文特征；

第二处理子模块，被配置为所述编码器利用注意力机制对所述第一原文特征和所述第一译文进行处理，得到第一联合特征；

第一输入子模块，被配置为将所述第一译后参考译文、所述第一原文特征和所述第一联合特征输入所述解码器。

在本实施例的一个可选实现方式中，所述第一训练模块，还包括：

第三处理子模块，被配置为所述解码器利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理，得到预测联合特征；

第一预测子模块，被配置为利用所述预测联合特征预测所述第一译后参考译文对应的目标预测结果；

第一调整子模块，被配置为利用所述目标预测结果对所述译后编辑模型的参数进行调整。

在本实施例的一个可选实现方式中，所述第三处理子模块，包括：

第四处理子模块，被配置为利用注意力机制对所述第一联合特征和第一原文特征中的其中之一、所述第一译后参考译文进行处理并输出第一中间特征；

第五处理子模块，被配置为利用注意力机制对所述第一联合特征和第一原文特征中的其中之另一、所述第一中间特征进行编码后输出所述预测联合特征。

在本实施例的一个可选实现方式中，所述装置还包括：

第二获取模块，被配置为获得预训练数据，所述预训练数据包括第二原文及其对应的第二译文；

第一处理模块，被配置为利用自注意力机制对所述第二原文进行处理，得到第二原文特征；

第二处理模块，被配置为利用注意力机制对第二原文特征和掩盖了部分译文内容的第二译文进行处理，得到第二联合特征；

预测模块，被配置为利用所述第二联合特征预测所述第二译文中被掩盖了的部分译文内容，得到译文预测结果；

调整模块，被配置为根据所述译文预测结果对所述语言模型的参数进行调整。

本公开实施例中的数据处理装置与图1所示实施例及相关实施例中的数据处理方法对应一致，具体细节可以参见上述对图1所示实施例及相关实施例中的数据处理方法的描述，在此不再赘述。

根据本公开一实施方式的数据处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括：

第四获取模块，被配置为将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文；所述译后编辑模型利用上述数据处理装置训练得到。

本公开实施例中的数据处理装置与图3所示实施例及相关实施例中的数据处理方法对应一致，具体细节可以参见上述对图3所示实施例及相关实施例中的数据处理方法的描述，在此不再赘述。

根据本公开另一实施方式的数据处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括：

第三处理模块，被配置为在所述编码器利用自注意力机制对所述原文进行处理并输出第三原文特征，以及利用注意力机制对所述第三原文特征和所述译文进行处理并输出第四联合特征；

输出模块，被配置为输出所述目标译后参考译文。

在本实施例的一个可选实现方式中，所述第四处理模块，包括：

第六处理子模块，被配置为利用注意力机制对所述第三原文特征、第三联合特征的其中之一、所述候选信息进行处理后输出第二中间特征；

第七处理子模块，被配置为利用注意力机制对所述第三原文特征、第三联合特征的其中之另一、所述第二中间特征进行处理并输出所述第四联合特征。

本公开实施例中的数据处理装置与图4所示实施例及相关实施例中的数据处理方法对应一致，具体细节可以参见上述对图4所示实施例及相关实施例中的数据处理方法的描述，在此不再赘述。

图5是适于用来实现根据本公开实施方式的模型训练及数据处理方法的电子设备的结构示意图。

如图5所示，电子设备500包括处理单元501，其可实现为CPU、GPU、FPGA、NPU等处理单元。处理单元501可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行本公开上述任一方法的实施方式中的各种处理。在RAM503中，还存储有电子设备500操作所需的各种程序和数据。处理单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种模型训练方法，其中，包括：

利用所述训练数据对译后编辑模型进行训练：

根据所述解码器的输出对所述译后编辑模型的参数进行调整；

所述将所述训练数据经过所述编码器进入所述译后编辑模型的解码器，包括：

将所述第一译后参考译文、所述第一原文特征和所述第一联合特征输入所述解码器；

所述根据所述解码器的输出对所述译后编辑模型的参数进行调整，包括：

利用所述目标预测结果对所述译后编辑模型的参数进行调整；

所述利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理，得到预测联合特征，包括：

2.根据权利要求1所述的方法，还包括：

根据所述译文预测结果对所述语言模型的参数进行调整。

3.一种数据处理方法，其中，包括：

获取待处理的原文以及所述原文对应的机器翻译的译文；

将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文；所述译后编辑模型利用权利要求1-2任一项所述的方法训练得到。

4.一种数据处理方法，其中，包括：

获取待处理的原文以及所述原文对应的机器翻译的译文；

将所述原文、所述译文输入至基于权利要求1所述的译后编辑模型，所述译后编辑模型包括编码器和解码器；

输出所述目标译后参考译文。

5.根据权利要求4所述的方法，其中，所述解码器利用注意力机制对所述第三原文特征、第三联合特征以及候选信息进行处理并输出第四联合特征，包括：

6.一种模型训练装置，其中，包括：

其中，所述将所述训练数据经过所述编码器进入所述译后编辑模型的解码器，被实施为：

所述根据所述解码器的输出对所述译后编辑模型的参数进行调整，被实施为：

所述解码器利用注意力机制对所述第一译后参考译文、所述第一原文特征和所述第一联合特征进行处理，得到预测联合特征，被实施为：

7.一种数据处理装置，其中，包括：

第四获取模块，被配置为将所述原文以及译文输入至译后编辑模型获取对所述译文进行编辑后的目标译后参考译文；所述译后编辑模型利用权利要求6所述的装置训练得到。

8.一种数据处理装置，其中，包括：

输入模块，被配置为将所述原文、所述译文输入至基于权利要求6所述的译后编辑模型，所述译后编辑模型包括编码器和解码器；

输出模块，被配置为输出所述目标译后参考译文。

9.一种电子设备，其中，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-5任一项所述的方法。