CN115130481A

CN115130481A - 一种模型训练、机器翻译方法、装置、设备及存储介质

Info

Publication number: CN115130481A
Application number: CN202210686002.5A
Authority: CN
Inventors: 陶大程; 丁亮
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-30
Also published as: WO2023241143A1

Abstract

本发明实施例公开一种模型训练、机器翻译方法、装置、设备及存储介质。该模型训练方法可包括：获取包括原始源端数据和原始目标端数据的原始平行语料；将原始源端数据作为交换目标端数据，并且将原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型；基于多组原始平行语料对中间翻译模型进行训练，得到机器翻译模型。本发明实施例的技术方案，可以改善机器翻译模型的训练效果。

Description

一种模型训练、机器翻译方法、装置、设备及存储介质

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种模型训练、机器翻译方法、装置、设备及存储介质。

背景技术

机器翻译是自然语言处理以及人工智能领域的重要研究方向，其旨在利用计算机实现自然语言间的自动翻译。随着深度学习时代的到来，机器翻译技术取得了突破性进展。

在实现本发明的过程中，发明人发现现有技术中存在以下技术问题：由于现有的机器翻译模型的训练效果不佳，这导致了当前的机器翻译精度有待提高。

发明内容

本发明实施例提供一种模型训练、机器翻译方法、装置、设备及存储介质，解决了因为机器翻译模型的训练效果不佳而导致的机器翻译精度不高的问题。

根据本发明的一方面，提供了一种模型训练方法，可以包括：

获取包括原始源端数据和原始目标端数据的原始平行语料；

将原始源端数据作为交换目标端数据，且将原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型；

基于多组原始平行语料对中间翻译模型进行训练，得到机器翻译模型。

根据本发明的另一方面，提供了一种机器翻译方法，可以包括：

获取待翻译源端数据、以及按照本发明任意实施例所提供的模型训练方法训练得到的机器翻译模型，其中，待翻译源端数据与模型训练方法中的原始源端数据的语种相同；

将待翻译源端数据输入至机器翻译模型中，根据机器翻译模型的输出结果，得到已翻译目标端数据。

根据本发明的另一方面，提供了一种模型训练装置，可以包括：

语料获取模块，用于获取包括原始源端数据和原始目标端数据的原始平行语料；

双向训练模块，用于将原始源端数据作为交换目标端数据，且将原始目标端数据作为交换源端数据，得到交换平行语料，基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型；

正向训练模块，用于基于多组原始平行语料训练中间翻译模型，得到机器翻译模型。

根据本发明的另一方面，提供了一种机器翻译装置，可以包括：

模型获取模块，用于获取待翻译源端数据、以及按照本发明任意实施例所提供的模型训练方法训练得到的机器翻译模型，其中，待翻译源端数据与模型训练方法中的原始源端数据的语种相同；

机器翻译模块，用于将待翻译源端数据输入至机器翻译模型中，根据机器翻译模型的输出结果，得到已翻译目标端数据。

根据本发明的另一方面，提供了一种电子设备，可以包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行时实现本发明任意实施例所提供的模型训练方法或是机器翻译方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令用于使处理器执行时实现本发明任意实施例所提供的模型训练方法或是机器翻译方法。

本发明实施例的技术方案，通过获取包括原始源端数据和原始目标端数据的原始平行语料；将原始源端数据作为交换目标端数据，且将原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型；然后，基于多组原始平行语料对中间翻译模型进行训练，得到机器翻译模型。上述技术方案，通过交换原始源端数据和原始目标端数据，并将交换结果加入到训练样本中的方式，解决了低资源场景下的训练样本不足的问题，在此基础上，通过在正向训练的基础上加入双向训练的方式，可充分学习到双语数据中的全部信息，二者相互配合，改善了模型训练效果，得到了具有较佳的机器翻译性能的机器翻译模型。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种模型训练方法的流程图；

图2是根据本发明实施例提供的一种模型训练方法中双向数据的示意图；

图3是根据本发明实施例提供的一种模型训练方法中双向训练的示意图；

图4是根据本发明实施例提供的一种模型训练方法中正向训练的示意图；

图5a是根据本发明实施例提供的一种模型训练方法中可选示例的框架图；

图5b是根据本发明实施例提供的一种模型训练方法中可选示例的流程图；

图6是根据本发明实施例提供的另一种模型训练方法的流程图；

图7是根据本发明实施例提供的一种机器翻译方法的流程图；

图8是根据本发明实施例提供的一种模型训练装置的结构框图；

图9是根据本发明实施例提供的一种机器翻译装置的结构框图；

图10是实现本发明实施例的模型训练方法或是机器翻译方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似，在此不再赘述。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在介绍本发明实施例之前，先对本发明实施例的应用场景进行示例性说明：双语数据是机器翻译中十分重要的一部分，在真实场景下，双语数据十分缺乏，这种低资源场景直接影响到机器翻译模型的训练效果；而且，目前在利用双语数据时，通常只是利用了单向的语言信息，并未利用到双语数据中的全部信息，但是通过研究人类的学习行为模式发现双向语言学习可以更好的学习语言信息，因此目前的数据利用方式亦会影响到机器翻译模型的训练效果。为了解决上述问题，发明人提出了下述各实施例中的模型训练方法。具体的，

图1是本发明实施例中提供的一种模型训练方法的流程图。本实施例可以适用于低资源场景下的机器翻译模型训练的情况。该方法可以由本发明实施例提供的模型训练装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在电子设备上，该设备可以是各种用户终端或是服务器。

参见图1，本发明实施例的方法具体包括如下步骤：

S110、获取包括原始源端数据和原始目标端数据的原始平行语料。

其中，原始平行语料可以是直接获取的未经过处理的平行语料，其中可以包括原始源端数据及其平行对应的原始目标端数据，在自然语言方面，该原始目标端数据可以认为是该原始源端数据的译文，如“你好”是“Hello”的译文。在实际应用中，可选的，上述原始平行语料可以是下述任意级别的语料：篇章级别、段落级别、句子级别、短语级别和单词级别等，在此未做具体限定。

S120、将原始源端数据作为交换目标端数据，并且将原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型。

其中，将原始源端数据作为交换目标端数据，并且将原始目标端数据作为交换源端数据，即将原始平行语料中的原始源端数据以及原始目标端数据进行交换，得到交换平行语料。进而，将原始平行语料和交换平行语料均作为训练样本进行模型训练，即将交换平行语料加入到原本的训练样本(即只包含原始平行语料的训练样本)中，由此达到了样本数量翻倍的效果。示例性的，参见图2，假设由多组原始平行语料构成的训练样本定义为：

其中，N是样本数量，x_i表示第i个原始源端数据，y_i表示第i个原始目标端数据，由于训练方向是从x到y，故训练样本(即双语数据)被记作为

将原始源端数据和原始目标端数据进行交换，并将它们加入到

中，由此得到的新的训练样本(即双向数据)可以通过如下式子进行表示：

进一步，基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型。其中，原始翻译模型可以是待训练的用于实现机器翻译的机器学习模型，如统计机器翻译模型或神经网络机器翻译模型，该神经网络机器翻译模型可以是待训练的用于实现机器翻译的神经网络模型，如循环神经网络(Recurrent Neural Network，RNN)模型、基于自注意力神经网络的编码器-解码器框架(Transformer)构成的神经网络模型等，在此未做具体限定。在实际应用中，可选的，模型训练过程中涉及有批量大小(batchsize)的概念，在一个batchsize下的原始平行语料和交换平行语料不一定是一一对应的关系，即某原始平行语料和与该原始平行语料对应的交换平行语料不一定存在于同一batchsize下，在此未做具体限定。示例性的，本步骤的模型训练过程可以理解为如图3所示的基于双向数据实现的原始翻译模型的双向训练过程。

针对本步骤，需要说明的是，一方面，通过对原始平行语料中的原始源端数据和原始目标端数据进行交换，由此解决了低资源场景下的训练样本不足的问题。另一方面，同时考虑了机器翻译中的正向翻译和反向翻译的信息，通过加入契合人类学习行为的双向训练的方式，加强了编码器和解码器对源端信息和目标端信息的理解，从而提高了两端对齐质量，提升了模型训练效果。在此基础上，因为无需依赖外部工具(如词对齐或者单语知识)，且无需涉及复杂的模型结构改进，由此可以应用到更广泛的语言场景和模型架构中，从而实现了多应用场景下的模型翻译的效果，通用性较好。

S130、基于多组原始平行语料训练中间翻译模型，得到机器翻译模型。

其中，经过上述的双向训练过程得到的中间翻译模型已在大量的训练样本上充分学习到了源端信息和目标端信息，因此后续可以在多组原始平行语料上进行中间翻译模型的训练，得到最终的机器翻译模型。示例性的，本步骤中的模型训练过程可以理解为如图4所示的基于双语数据(即原始平行语料)实现的中间翻译模型的正向训练过程。

在此基础上，一种可选的技术方案，在获取包括原始源端数据和原始目标端数据的原始平行语料之后，上述模型训练方法，还可以包括：对原始平行语料中的原始源端数据和/或原始目标端数据进行数据增强，得到增强平行语料，并将增强平行语料和原始平行语料均作为原始平行语料。其中，上述原始源端数据和/或原始目标端数据的数据增强可以理解为利用双语数据间的对应关系实现的数据增强，在实际应用中可以通过多种方式实现，如课程学习(Curriculum learning，CL)、回翻(BT)、知识蒸馏(Knowledge Distillation，KD)、数据多样化(DD)等，在此未做具体限定。示例性的，以双语数据是Hello→你好为例，对Hello进行增删改后得到Hella，在保持对应关系不变的前提下，由此可以得到由Hella→你好构成的增强平行语料。上述技术方案，通过对原始平行语料中的原始源端数据和/或原始目标端数据进行数据增强，然后将由此得到的增强平行语料也作为原始平行语料，由此解决了低资源场景下的训练样本不足的问题，在此基础上再与本发明实施例中的数据交换和双向训练方案相配合，由此进一步改善了模型训练效果。

另一种可选的技术方案，在获取包括原始源端数据和原始目标端数据的原始平行语料之后，上述模型训练方法，还可以包括：获取与原始源端数据语种相同的单语源端数据、及初步训练完成的初步翻译模型，将单语源端数据或原始源端数据输入到初步翻译模型中，得到伪目标端数据，并将由单语源端数据和伪目标端数据、或原始源端数据和伪目标端数据构成的伪平行语料、以及原始平行语料均作为原始平行语料。其中，正如上文所述，在真实场景中，双语数据十分缺乏，但是单语数据是大量存在的，因此在原始平行语料的基础上，可以通过引入额外的单语数据进行数据增强。具体的，语种是语言种类的简称，如中文、英语、法语、德语或是日语等。单语源端数据可以是与原始源端数据语种相同的并且未存在与其平行对应的译文的数据，初步翻译模型可以是初步训练得到的可实现机器翻译功能的模型，实际应用中，可选的，其可以是基于多组原始平行语料对原始翻译模型进行训练后得到的模型。将单语源端数据或是原始源端数据输入到初步翻译模型中，得到伪目标端数据，从而可以得到由单语源端数据和伪目标端数据构成的伪平行语料或是由原始源端数据和伪目标端数据构成的伪平行语料。进而，将伪平行语料和直接获取的原始平行语料均作为原始平行语料来执行后续步骤，由此解决了低资源场景下的训练样本不足的问题，在此基础上再与本发明实施例中的数据交换和双向训练方案相配合，由此进一步改善了模型训练效果。

另一种可选的技术方案，上述模型训练方法，还可以包括：获取预先设置的总训练步数和针对于双向训练的训练步数比例；根据总训练步数和训练步数比例，得到双向训练的双向训练步数以及正向训练的正向训练步数；相应的，基于多组原始平行语料以及多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型，可以包括：基于多组原始平行语料和多组交换平行语料对原始翻译模型进行双向训练步数的训练，得到中间翻译模型；基于多组原始平行语料训练中间翻译模型，得到机器翻译模型，可以包括：基于多组原始平行语料对中间翻译模型进行正向训练步数的训练，得到机器翻译模型。其中，相对于单独的正向训练过程，为了避免因双向训练过程的加入而导致模型训练的时间成本的增加，即为了避免出现通过牺牲模型训练的时间性能来提高模型训练的精准性能的情况，可以获取该单独的正向训练过程需要的总训练步数、及双向训练过程在总训练步数中的训练步数比例，进而可以根据这二者得到双向训练的双向训练步数以及正向训练的正向训练步数，并根据双向训练步数进行双向训练以及正向训练步数进行正向训练，由此达到了在总训练步数不变的情况下，提升了模型训练精度的效果。

为了从整体上更好地理解上述各技术方案，下面结合具体示例，对其进行示例性的说明。示例性的，参见图5a和图5b，交换原始平行语料中的原始源端数据和原始目标端数据，得到交换平行语料，进而将原始平行语料和交换平行语料进行混合，得到双向数据；假设训练步数比例是1/3，那么可以在双向数据上采用总训练步数的1/3进行双向训练，得到中间翻译模型；进一步，在原始平行语料(即双语数据)上采用总训练步数的2/3(1-1/3)进行正向训练，得到机器翻译模型。那么，后续可以基于该机器翻译模型进行机器翻译。

图6是本发明实施例中提供的另一种模型训练方法的流程图。本实施例以上述各技术方案为基础进行优化。本实施例中，可选的，在基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型之前，上述模型训练方法，还可以包括：对原始平行语料中的原始源端数据以及原始目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到原始子词表示；基于与原始源端数据对应的原始子词表示以及与原始目标端数据对应的原始子词表示更新原始平行语料；对交换平行语料中的交换源端数据以及交换目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到交换子词表示；基于与交换源端数据对应的交换子词表示以及与交换目标端数据对应的交换子词表示更新交换平行语料。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图6，本实施例的方法具体可以包括如下步骤：

S210、获取包括原始源端数据和原始目标端数据的原始平行语料。

S220、对原始平行语料中的原始源端数据和原始目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到原始子词表示。

其中，在获取到多个原始平行语料后，由于其中可能存在大量不同的原始源端数据和原始目标端数据，这些大量不同的原始源端数据和原始目标端数据既会占用大量的数据存储空间，又会在模型训练过程中影响到原始翻译模型中网络参数的数量，进而影响到模型训练的精准性和时效性，因此可以先对它们进行数据压缩，然后在数据压缩的结果上进行模型训练。具体的，

对原始平行语料中的原始源端数据和原始目标端数据分别进行分词，得到分词结果。由于在这些分词结果中可能存在一些高频出现的原始子词表示，如 apple、application、appear和approach中均包括app，那么可以将app单独抽取出来作为一个原始子词表示，然后还可以结合其余的分词结果再抽取出来其余的原始子词表示，从而可以通过有限的原始子词表示来表示大量的分词结果，由此达到了数据压缩的效果。

S230、基于与原始源端数据对应的原始子词表示以及与原始目标端数据对应的原始子词表示更新原始平行语料。

其中，基于与原始源端数据对应的原始子词表示更新原始源端数据，并且基于与原始目标端数据对应的原始子词表示更新原始目标端数据，由此达到了原始平行语料更新的效果。进而，可以结合后续步骤进行双向训练和正向训练，以正向训练为例，可以将一个对应关系下的原始子词表示成对输入到中间训练模型中进行模型训练，由此通过数据压缩的方式进一步提升了模型训练效果。

S240、将原始源端数据作为交换目标端数据，并且将原始目标端数据作为交换源端数据，得到交换平行语料。

S250、对交换平行语料中的交换源端数据和交换目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到交换子词表示。

其中，本步骤的实现过程与S220相类似，在此不再赘述。需要说明的是，原始子词表示和交换子词表示的本质均是子词表示，这里仅仅是为了区分子词切分的对象而进行的不同命名，并非是对其实际含义的具体限定。

S260、基于与交换源端数据对应的交换子词表示以及与交换目标端数据对应的交换子词表示更新交换平行语料。

其中，本步骤的实现过程与S230相类似，在此不再赘述。

S270、基于多组原始平行语料以及多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型。

S280、基于多组原始平行语料训练中间翻译模型，得到机器翻译模型。

本发明实施例的技术方案，通过分词和子词切分的技术手段，对原始平行语料和交换平行语料进行数据压缩，由此进一步改善了模型训练效果。

在上述任一技术方案的基础上，可选的，与原始翻译模型匹配的双向损失函数包括正向损失函数和反向损失函数；基于多组原始平行语料以及多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型，可以包括：针对每组原始平行语料，将原始平行语料中的原始源端数据输入到原始翻译模型，得到正向目标端数据；针对每组交换平行语料，将交换平行语料中的交换源端数据输入到原始翻译模型中，得到反向目标端数据；结合正向损失函数，基于正向目标端数据和原始目标端数据得到正向损失，并且结合反向损失函数，基于反向目标端数据和交换目标端数据得到反向损失；根据正向损失和反向损失得到双向损失，并根据双向损失对原始翻译模型中的网络参数进行调整，得到中间翻译模型。示例性的，为了更加形象化地理解上述的双向损失函数，下面结合具体示例性对其进行示例性说明。示例性的，参见下述式子：

其中L_BiT(θ)表示双向损失函数，arg max_θ logp(y|y’；θ)表示正向损失函数， argmax_θ logp(x|x’；θ)表示反向损失函数，x表示交换目标端数据，x’表示反向目标端数据，y表示原始目标端数据，y’表示正向目标端数据，θ表示网络参数， p表示概率。

再可选的，在得到机器翻译模型之后，上述模型训练方法，还可以包括：获取验证平行语料，并将验证平行语料中的验证源端数据输入到机器翻译模型中，根据机器翻译模型的输出结果得到译文目标端数据；将译文目标端数据和验证平行语料中的验证目标端数据进行匹配，得到机器翻译精度。其中，为了验证上述模型训练方法的有效性，在得到机器翻译模型后，可以获取验证平行语料，其中可以包括验证源端数据和验证目标端数据。然后，将验证源端数据输入到机器翻译模型中，得到译文目标端数据，进而可以将译文目标端数据和验证目标端数据进行匹配，得到机器翻译精度，以便根据该机器翻译精度确定上述训练得到的机器翻译模型是否达标。

在实际应用中，可选的，上述机器翻译精度可通过BLEU得分进行表示。再可选的，上述匹配过程可通过如下步骤实现：针对译文目标端数据中的每个单字，将其与验证目标端数据中的各单字依次进行匹配，得到第一匹配结果；针对译文目标端数据中的每两个相邻单字，将其与验证目标端数据中的各两个相邻单字依次进行匹配，得到第二匹配结果；进而，根据第一匹配结果和第二匹配结果得到机器翻译精度。示例性的，假设译文目标端数据是ABCD，验证目标端数据是BCEF，在基于1个单字进行匹配时，将A与B、C、E和F分别进行匹配，匹配度均为0；然后再将B与B、C、E和F分别进行匹配，匹配度分别为1、0、0和0；以此类推C和D的处理过程，由此得到第一匹配结果。进而，在基于2个单字进行匹配时，将AB与BC、CE和EF分别进行匹配，将 BC与BC、CE和EF分别进行匹配，以此类推CD的处理过程，由此得到第二匹配结果。在此基础上，可选的，还可以基于3个单字和4个单字进行匹配，在此未做具体限定。然后，可以根据各次的匹配结果得到机器翻译精度。

为了验证本发明实施例中提出的模型训练方法的有效性，进行了如下实验：在IWSLT2014英语-德语&德语-英语、WMT2016英语-罗马尼亚语&罗马尼亚语 -英语、IWSLT2021英语-斯瓦希里语&斯瓦希里语-英语、以及WMT2014、2019 英语-德语&德语-英语上进行了实验来验证上述模型训练方法在不同数据规模下的有效性。选用BLEU得分作为机器翻译精度的指标，实验结果如表1所示(表1中的160K表示数据源中有16万句，0.6M表示数据源中有60万句，20M 表示数据源中有2000万句)：

表1不同数据规模下的实验结果

其中，表1中的最后两行数据都是百分制的，倒数第2行数据是通过正向训练得到的机器翻译模型的BLEU得分，最后1行数据是采用本发明实施例的模型训练方法训练得到的机器翻译模型的BLEU得分(BiT表示双向训练，+BiT 则表示在正向训练的基础上增加双向训练)。由表1可知，本发明实施例的模型训练方法在7/10个任务上实现了p<0.01下的显著性增长(通过

表示的任务)，并在另外的3/10个任务上实现了p<0.05下的显著性增长(通过

表示的任务)，平均取得了+1.1的显著性提高，由此证明了该模型训练方法的有效性和通用性。值得注意的是，该模型训练方法可以为反向训练节省1/3的训练成本，比如为英语-德语预训练好的双向更新模型可以用于其反方向德语-英语，这个优势说明该模型训练方法可以很好地用于多语种场景，如多语种的预训练和翻译，该预训练可以理解为在正向训练前进行的训练，如本发明实施例中的双向训练。

另外，还选取了两个语系差异较大的语种(中：汉藏语系，英：印欧语系，日：日本-琉球语系)：WMT2017中文-英语&英语-中文以及WAT2017日语-英语来验证该模型训练方法在这种情况下的表现，实验结果如表2所示，可知，即使在语言差异较大的情况下，该模型训练方法依旧取得了平均+0.9的显著性提高。

表2在语言差异较大的语种下的实验结果

另外，还验证了该模型训练方法与已有工作的互补性：此处列出了其与三种典型的数据增强工作的互补结果，包括：BT、KD和DD，实验结果如表3所示，可知，该模型训练方法可以结合已有的数据增强工作取得进一步提升。

表3与经典的数据增强工作的互补性验证

除了上述几个实验外，还进行了其余的实验和分析，得到如下结论：

1)上述的双向训练策略是一个更好更简单的双语code-switcher。相关工作表明利用code-switch进行预训练能有效的提升下游多语种的翻译效果，但是其依赖于三方的无监督词对齐工具来抽对齐信息，从而根据此进行不同粒度片段的code-switch替换。经实验分析认为，该双向训练策略是一个句子级别且更换概率为0.5的code-switch方法。以英文-中文中的句子{“A held a talk with B”-> “A与B举行了会谈”}为例，在预训练阶段，在重构的预训练数据中同时包含正向的{“A held a talk with B”->“A与B举行了会谈”}与反向的{“A与B举行了会谈”->“A held a talk with B”}。此时，反向的句对可以认为是概率为0.5 的句子级switch。为了验证上述说法，对比两种经典的code-switch预训练工作，实验结果如表4所示，得知该双向训练策略的确是一种code-switch在双语场景下的优秀替代品，该code-switch可以理解为部分源端的单词被目标端对齐的单词替换的过程。

表4与code-switch预训练方法的对比

2)上述的双向训练策略可以提升对齐质量的能力。该双向训练策略鼓励自注意力机制学习更好的双语关系，因此有很大的潜力可以得到更好的双语注意力矩阵，即对齐信息。为了验证上述说法，在有对齐标签的Gold Alignment数据集上进行实验，并基于对齐错误率(alignment error rate，AER)、准确率(Precision， P)和召回率(Recall，R)进行评估，实验结果如表5所示。可知，相比单独的正向训练方法，该双向训练策略可以取得明显的对齐质量提升(27.1％vs. 24.3％)。

表5对齐质量的实验结果

3)上述的模型训练方法在极低资源场景下依旧有效。选择了WMT2019 比赛中BackTranslation失效的低资源场景的英语-古吉拉特语&古吉拉特语- 英语进行了实验，实验结果如表6所示。可知，当直接应用Back Translation时，的确有微弱的译文质量降低(英语-古吉拉特语方向-0.4BLEU)，但是上述的双向训练策略让基础模型带来了1.0BLEU的提升；同时发现，在该双向训练策略的基础上继续使用Back Translation可以取得+2.8BLEU的提升，这说明该双向训练策略可以提供更好的基础模型，让原本失效的BackTranslation策略起到更好的效果。

表6在极低资源场景下的实验结果

图7是本发明实施例中提供的一种机器翻译方法的流程图。本实施例可以适用于机器翻译的情况。该方法可以由本发明实施例所提供的机器翻译装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在电子设备上，该设备可以是各种用户终端或服务器。

参见图7，本发明实施例的方法具体包括如下步骤：

S310、获取待翻译源端数据、以及按照本发明任意实施例所提供的模型训练方法训练得到的机器翻译模型，其中，待翻译源端数据与模型训练方法中的原始源端数据的语种相同。

其中，待翻译源端数据可以是与上文中阐述的原始源端数据语种相同的待进行翻译的数据，由于上文中训练得到的机器翻译模型是可以对原始源端数据进行机器翻译的模型，因此与原始源端数据语种相同的待翻译源端数据是可以被该机器翻译模型进行机器翻译的数据。

S320、将待翻译源端数据输入至机器翻译模型中，并根据机器翻译模型的输出结果，得到已翻译目标端数据。

其中，针对于原始目标端数据所对应的语种，已翻译目标端数据可以理解为待翻译源端数据在该语种上的译文。

本发明实施例的技术方案，由于上文中训练得到的机器翻译模型具有较好的机器翻译性能，因此在将待翻译源端数据输入至机器翻译模型后，可以得到机器翻译精度较高的已翻译目标端数据，由此达到了精准的机器翻译的效果。

图8为本发明实施例中提供的模型训练装置的结构框图，该装置用于执行上述任意实施例所提供的模型训练方法。该装置与上述各实施例中的模型训练方法属于同一个发明构思，在模型训练装置的实施例中未详尽描述的细节内容，可以参考上述模型训练方法的实施例。参见图8，该装置具体可以包括：语料获取模块410、双向训练模块420和正向训练模块430。

其中，语料获取模块410，用于获取包括原始源端数据和原始目标端数据的原始平行语料；

双向训练模块420，用于将原始源端数据作为交换目标端数据，且将原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型；

正向训练模块430，用于基于多组原始平行语料对中间翻译模型进行训练，得到机器翻译模型。

可选的，上述模型训练装置，还可以包括：

原始子词表示得到模块，用于在基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练之前，对原始平行语料中的原始源端数据以及原始目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到原始子词表示；

原始平行语料更新模块，用于基于与原始源端数据对应的原始子词表示以及与原始目标端数据对应的原始子词表示更新原始平行语料；

交换子词表示得到模块，用于对交换平行语料中的交换源端数据以及交换目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到交换子词表示；

交换平行语料更新模块，用于基于与交换源端数据对应的交换子词表示以及与交换目标端数据对应的交换子词表示更新交换平行语料。

可选的，上述模型训练装置，还可以包括：

原始平行语料第一增强模块，用于在获取包括原始源端数据和原始目标端数据的原始平行语料之后，对原始平行语料中的原始源端数据和/或原始目标端数据进行数据增强，得到增强平行语料，并将增强平行语料和原始平行语料均作为原始平行语料；

和/或，

原始平行语料第二增强模块，用于原始平行语料获取与原始源端数据语种相同的单语源端数据、以及初步训练完成的初步翻译模型，将单语源端数据或是原始源端数据输入到初步翻译模型中，得到伪目标端数据，并将由单语源端数据和伪目标端数据、或是原始源端数据和伪目标端数据构成的伪平行语料、以及原始平行语料均作为原始平行语料。

可选的，上述模型训练装置，还可以包括：

训练步数比例获取模块，用于获取预先设置的总训练步数以及针对于双向训练的训练步数比例；

正向训练步数得到模块，用于根据总训练步数和训练步数比例，得到双向训练的双向训练步数以及正向训练的正向训练步数；

双向训练模块420，可以包括：

双向训练单元，用于基于多组原始平行语料和多组交换平行语料对原始翻译模型进行双向训练步数的训练，得到中间翻译模型；

正向训练模块430，可以包括：

正向训练单元，用于基于多组原始平行语料对中间翻译模型进行正向训练步数的训练，得到机器翻译模型。

可选的，与原始翻译模型匹配的双向损失函数包括正向损失函数以及反向损失函数；双向训练模块420，可以包括：

正向目标端数据得到单元，用于针对每组原始平行语料，将原始平行语料中的原始源端数据输入到原始翻译模型中，得到正向目标端数据；

反向目标端数据得到单元，用于针对每组交换平行语料，将交换平行语料中的交换源端数据输入到原始翻译模型中，得到反向目标端数据；

反向损失得到单元，用于结合正向损失函数，基于正向目标端数据和原始目标端数据得到正向损失，并结合反向损失函数，基于反向目标端数据和交换目标端数据得到反向损失；

中间翻译模型得到单元，用于根据正向损失和反向损失得到双向损失，并根据双向损失对原始翻译模型中的网络参数进行调整，得到中间翻译模型。

可选的，上述模型训练装置，还可以包括：

译文目标端数据得到模块，用于在得到机器翻译模型之后，获取验证平行语料，并将验证平行语料中的验证源端数据输入到机器翻译模型中，根据机器翻译模型的输出结果得到译文目标端数据；

机器翻译精度得到模块，用于将译文目标端数据和验证平行语料中的验证目标端数据进行匹配，得到机器翻译精度。

本发明实施例提供的模型训练装置，通过语料获取模块获取包括原始源端数据和原始目标端数据的原始平行语料；通过双向训练模块将原始源端数据作为交换目标端数据，并且将原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组原始平行语料和多组交换平行语料对原始翻译模型进行训练，得到中间翻译模型；然后，通过正向训练模块基于多组原始平行语料来对中间翻译模型进行训练，得到机器翻译模型。上述装置，通过交换原始源端数据和原始目标端数据，并将交换结果加入到训练样本中的方式，解决了低资源场景下训练样本不足的问题，在此基础上，通过在正向训练的基础上加入双向训练的方式，可以充分学习到双语数据中的全部信息，二者相互配合，改善了模型训练效果，得到了具有较佳的机器翻译性能的机器翻译模型。

本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述模型训练装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图9为本发明实施例中提供的机器翻译装置的结构框图，该装置用于执行上述任意实施例所提供的机器翻译方法。该装置与上述各实施例中的机器翻译方法属于同一个发明构思，在机器翻译装置的实施例中未详尽描述的细节内容，可以参考上述机器翻译方法的实施例。参见图9，该装置具体可以包括：模型获取模块510和机器翻译模块520。

其中，模型获取模块510，用于获取待翻译源端数据、以及按照本发明任意实施例所提供的模型训练方法训练得到的机器翻译模型，其中，待翻译源端数据与模型训练方法中的原始源端数据的语种相同；

机器翻译模块520，用于将待翻译源端数据输入至机器翻译模型中，根据机器翻译模型的输出结果，得到已翻译目标端数据。

本发明实施例提供的机器翻译装置，通过模型获取模块和机器翻译模块相配合，由于上文中训练得到的机器翻译模型具有较好的机器翻译性能，因此在将待翻译源端数据输入至机器翻译模型之后，可以得到机器翻译精度较高的已翻译目标端数据，由此达到了精准的机器翻译的效果。

本发明实施例所提供的机器翻译装置可执行本发明任意实施例所提供的机器翻译方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述机器翻译装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图10示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图10所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM) 13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11 可以根据存储在只读存储器(ROM)12中的计算机程序或从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、 ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如模型训练方法或是机器翻译方法。

在一些实施例中，模型训练方法或是机器翻译方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可执行上文描述的模型训练方法或是机器翻译方法的一个或多个步骤。备选地，在其他实施例中，处理器11可通过其他任何适当的方式(例如，借助于固件) 而被配置为执行模型训练方法或是机器翻译方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、以及至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、以及该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或是其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行并且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器 (CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管) 或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取包括原始源端数据和原始目标端数据的原始平行语料；

将所述原始源端数据作为交换目标端数据，且将所述原始目标端数据作为交换源端数据，得到交换平行语料，并基于多组所述原始平行语料和多组所述交换平行语料对原始翻译模型进行训练，得到中间翻译模型；

基于多组所述原始平行语料对所述中间翻译模型进行训练，得到机器翻译模型。

2.根据权利要求1所述的方法，其特征在于，在所述基于多组所述原始平行语料和多组所述交换平行语料对原始翻译模型进行训练之前，还包括：

对所述原始平行语料中的所述原始源端数据以及所述原始目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到原始子词表示；

基于与所述原始源端数据对应的所述原始子词表示以及与所述原始目标端数据对应的所述原始子词表示更新所述原始平行语料；

对所述交换平行语料中的所述交换源端数据以及所述交换目标端数据分别进行分词，并对得到的分词结果进行子词切分，得到交换子词表示；

基于与所述交换源端数据对应的所述交换子词表示以及与所述交换目标端数据对应的所述交换子词表示更新所述交换平行语料。

3.根据权利要求1所述的方法，其特征在于，在所述获取包括原始源端数据和原始目标端数据的原始平行语料之后，还包括：

对所述原始平行语料中的所述原始源端数据和/或所述原始目标端数据进行数据增强，得到增强平行语料，并将所述增强平行语料和所述原始平行语料均作为所述原始平行语料；

和/或，

获取与所述原始源端数据语种相同的单语源端数据、以及初步训练完成的初步翻译模型，将所述单语源端数据或所述原始源端数据输入到所述初步翻译模型中，得到伪目标端数据，并将由所述单语源端数据和所述伪目标端数据、或是所述原始源端数据和所述伪目标端数据构成的伪平行语料、以及所述原始平行语料均作为所述原始平行语料。

4.根据权利要求1所述的方法，其特征在于，还包括：

获取预先设置的总训练步数和针对于双向训练的训练步数比例；

根据所述总训练步数和所述训练步数比例，得到所述双向训练的双向训练步数以及正向训练的正向训练步数；

所述基于多组所述原始平行语料和多组所述交换平行语料对原始翻译模型进行训练，得到中间翻译模型，包括：

基于多组所述原始平行语料和多组所述交换平行语料对原始翻译模型进行所述双向训练步数的训练，得到中间翻译模型；

所述基于多组所述原始平行语料对所述中间翻译模型进行训练，得到机器翻译模型，包括：

基于多组所述原始平行语料对所述中间翻译模型进行所述正向训练步数的训练，得到机器翻译模型。

5.根据权利要求1所述的方法，其特征在于，与所述原始翻译模型匹配的双向损失函数包括正向损失函数和反向损失函数；

针对每组所述原始平行语料，将所述原始平行语料中的所述原始源端数据输入到原始翻译模型中，得到正向目标端数据；

针对每组所述交换平行语料，将所述交换平行语料中的所述交换源端数据输入到所述原始翻译模型中，得到反向目标端数据；

结合所述正向损失函数，基于所述正向目标端数据和所述原始目标端数据得到正向损失，并且结合所述反向损失函数，基于所述反向目标端数据和所述交换目标端数据得到反向损失；

根据所述正向损失和所述反向损失得到双向损失，并根据所述双向损失对所述原始翻译模型中的网络参数进行调整，得到中间翻译模型。

6.根据权利要求1所述的方法，其特征在于，在所述得到机器翻译模型之后，还包括：

获取验证平行语料，并将所述验证平行语料中的验证源端数据输入到所述机器翻译模型中，根据所述机器翻译模型的输出结果得到译文目标端数据；

将所述译文目标端数据和所述验证平行语料中的验证目标端数据进行匹配，得到机器翻译精度。

7.一种机器翻译方法，其特征在于，包括：

获取待翻译源端数据、以及按照权利要求1-6中任一项的模型训练方法训练得到的机器翻译模型，其中，所述待翻译源端数据与所述模型训练方法中的原始源端数据的语种相同；

将所述待翻译源端数据输入至所述机器翻译模型中，并根据所述机器翻译模型的输出结果，得到已翻译目标端数据。

8.一种模型训练装置，其特征在于，包括：

双向训练模块，用于将所述原始源端数据作为交换目标端数据，且将所述原始目标端数据作为交换源端数据，得到交换平行语料，基于多组所述原始平行语料和多组所述交换平行语料对原始翻译模型进行训练，得到中间翻译模型；

正向训练模块，用于基于多组所述原始平行语料对所述中间翻译模型进行训练，得到机器翻译模型。

9.一种机器翻译装置，其特征在于，包括：

模型获取模块，用于获取待翻译源端数据、及按照权利要求1-6中任一项的模型训练方法训练得到的机器翻译模型，其中，所述待翻译源端数据与所述模型训练方法中的原始源端数据的语种相同；

机器翻译模块，用于将所述待翻译源端数据输入至所述机器翻译模型中，并根据所述机器翻译模型的输出结果，得到已翻译目标端数据。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-6中任一项所述的模型训练方法，或是如权利要求7中所述的机器翻译方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现如权利要求1-6中任一项所述的模型训练方法，或是如权利要求7中所述的机器翻译方法。