CN110991195A

CN110991195A - 机器翻译模型训练方法、装置及存储介质

Info

Publication number: CN110991195A
Application number: CN201911281744.4A
Authority: CN
Inventors: 孙于惠; 李响; 李京蔚
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-10
Anticipated expiration: 2039-12-13
Also published as: KR102339149B1; US20210182733A1; JP2021096807A; US11507888B2; CN110991195B; JP7112445B2; KR20210076804A; EP3836034A1

Abstract

本公开揭示了一种机器翻译模型训练方法、装置及存储介质，属于自然语言处理技术领域。该方法包括：获取包含多个训练数据对的多领域混合的训练数据集；对多个训练数据对进行数据领域分类，以获得至少两个领域数据子集；确定每个领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型；分别测试每个领域数据子集对应的至少两个候选单领域模型，选择准确性最高的候选单领域模型对应的候选优化目标作为领域数据子集的指定优化目标；基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型。可以提高混合领域模型对各个领域的语言数据翻译结果的质量。

Description

机器翻译模型训练方法、装置及存储介质

技术领域

本公开涉自然语言处理技术领域，特别涉及一种机器翻译模型训练方法、装置及存储介质。

背景技术

在机器翻译领域，为了追求语言翻译准确性，人们不断地对机器翻译训练方式进行改进。

在相关技术中，通过将多个数据领域的语言数据混合在一起进行训练，获得多领域翻译适用且各个领域上翻译效果都较好的一个通用翻译模型。

对于不同领域的语言数据，由于包含语言数据的数据量的差异，会有训练难度不一致的问题，在上述相关技术中，将多个数据领域的语言数据混合在一起进行训练获得的翻译模型，会造成不同领域的语言数据翻译结果的质量不一致的问题。

发明内容

本公开提供一种机器翻译模型训练方法、装置及存储介质。所述技术方案如下：

根据本公开实施例的第一方面，提供了一种机器翻译模型训练方法，所述方法包括：

获取多领域混合的训练数据集，所述训练数据集包含多个训练数据对，其中每个训练数据对包括语义相同的源语言序列和目标语言序列；

对所述训练数据集中的多个所述训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个所述领域数据子集对应一个数据领域；

基于每个所述领域数据子集，确定所述领域数据子集的至少两个候选优化目标，并基于所述至少两个候选优化目标分别训练每个所述领域数据子集对应的至少两个候选单领域模型；

对于每个所述领域数据子集，分别测试所述领域数据子集对应的至少两个所述候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为所述领域数据子集的指定优化目标；

基于所述训练数据集中的每个所述领域数据子集及其对应的指定优化目标，训练混合领域模型。

在一种可能的实现方式中，所述基于每个所述领域数据子集，确定所述领域数据子集的至少两个候选优化目标，并基于所述至少两个候选优化目标分别训练每个所述领域数据子集对应的至少两个候选单领域模型，包括：

基于每个所述领域数据子集，训练所述领域数据子集对应的教师模型；

基于所述领域数据子集的各目标语言序列以及所述领域数据子集对应的教师模型的预测结果中的至少一个，确定所述领域数据子集的至少两个候选优化目标；

基于所述至少两个候选优化目标，训练所述领域数据子集对应的至少两个学生模型，作为所述领域数据子集对应的至少两个候选单领域模型。

在一种可能的实现方式中，所述基于所述领域数据子集的各目标语言序列以及所述领域数据子集对应的教师模型的预测结果中的至少一个，确定所述领域数据子集的至少两个候选优化目标，包括：

对于每个所述领域数据子集，构建优化目标函数：pT(X)+(1-p)Y，其中T(X)为所述领域数据子集对应的教师模型输出的预测概率分布，Y为所述领域数据子集所包含的各目标语言序列的真实概率分布，p为领域权重且满足0≤p≤1；

选择领域权重p的至少两个取值，基于所述优化目标函数，获得所述领域数据子集的至少两个候选优化目标。

在一种可能的实现方式中，所述对所述训练数据集中的多个所述训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个所述领域数据子集对应一个数据领域，包括：

将所述多领域混合的训练数据集中的多个所述训练数据对导入数据领域分类模型，对多个所述训练数据对进行数据领域分类，以获得至少两个所述领域数据子集，每个所述领域数据子集中包含至少一个所述训练数据对。

在一种可能的实现方式中，所述基于每个所述领域数据子集，训练所述领域数据子集对应的教师模型，包括：

以每个所述领域数据子集所包含的各目标语言序列的真实概率分布为优化目标，训练所述领域数据子集对应的教师模型。

在一种可能的实现方式中，所述对于每个所述领域数据子集，分别测试所述领域数据子集对应的至少两个所述候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为所述领域数据子集的指定优化目标，包括：

构建每个所述领域数据子集对应的测试数据集；

根据所述领域数据子集对应的测试数据集，测试所述领域数据子集对应的至少两个所述候选单领域模型的准确性；

选择测试准确性最高的候选单领域模型所对应的候选优化目标作为所述领域数据子集的指定优化目标。

在一种可能的实现方式中，所述基于所述训练数据集中的每个所述领域数据子集及其对应的指定优化目标，训练混合领域模型，包括：

将每个所述领域数据子集输入至所述混合领域模型，并且按照所述领域数据子集对应的所述指定优化目标训练所述混合领域模型。

根据本公开实施例的第二方面，提供了一种机器翻译模型训练装置，所述装置包括：

获取模块，用于获取多领域混合的训练数据集，所述训练数据集包含多个训练数据对，其中每个训练数据对包括语义相同的源语言序列和目标语言序列；

分类模块，用于对所述训练数据集中的多个所述训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个所述领域数据子集对应一个数据领域；

第一训练模块，用于基于每个所述领域数据子集，确定所述领域数据子集的至少两个候选优化目标，并基于所述至少两个候选优化目标分别训练每个所述领域数据子集对应的至少两个候选单领域模型；

测试模块，用于对于每个所述领域数据子集，分别测试所述领域数据子集对应的至少两个所述候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为所述领域数据子集的指定优化目标；

第二训练模块，用于基于所述训练数据集中的每个所述领域数据子集及其对应的指定优化目标，训练混合领域模型。

在一种可能的实现方式中，所述第一训练模块，包括：

第一训练模型子模块，用于基于每个所述领域数据子集，训练所述领域数据子集对应的教师模型；

确定子模块，用于基于所述领域数据子集的各目标语言序列以及所述领域数据子集对应的教师模型的预测结果中的至少一个，确定所述领域数据子集的至少两个候选优化目标；

第二训练子模块，用于基于所述至少两个候选优化目标，训练所述领域数据子集对应的至少两个学生模型，作为所述领域数据子集对应的至少两个候选单领域模型。

在一种可能的实现方式中，所述确定子模块，用于，

在一种可能的实现方式中，所述分类模块，用于，

在一种可能的实现方式中，所述第一训练子模块，用于，

在一种可能的实现方式中，所述测试模块，包括：

构建子模块，用于构建每个所述领域数据子集对应的测试数据集；

测试子模块，用于根据所述领域数据子集对应的测试数据集，测试所述领域数据子集对应的至少两个所述候选单领域模型的准确性；

选择子模块，用于选择测试准确性最高的候选单领域模型所对应的候选优化目标作为所述领域数据子集的指定优化目标。

在一种可能的实现方式中，所述第二训练模块，用于，

根据本公开实施例的第三方面，提供了一种机器翻译模型训练装置，所述装置包括:

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述第一方面或者第一方面的任一可选方案所述的机器翻译模型训练方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过获取多领域混合的训练数据集，对训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型；对于每个所述领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为该领域数据子集的指定优化目标；基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型，从而实现了针对不同领域的语言数据设置不同的优化目标进行训练获得机器翻译模型，提高了机器翻译模型对各个领域的语言数据翻译结果的质量。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1示出了本公开一个示例性实施例提供的一种机器翻译模型训练方法的流程图；

图2示出了本公开一个示例性实施例提供的一种机器翻译模型训练方法的流程图；

图3示出了本公开一示例性实施例提供的数据领域分类模型的分类示意图；

图4示出了本公开一示例性实施例提供的基于不同的优化目标训练单领域模型的示意图；

图5示出了本公开一示例性实施例提供的训练混合领域模型的示意图；

图6是根据一示例性实施例示出的一种机器翻译模型训练装置的方框图；

图7是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了便于理解，下面首先对本公开涉及的一些名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)自然语言处理(Nature Language processing，NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)知识蒸馏(Knowledge Distillation)

知识蒸馏，又称暗知识提取，通过与复杂但推理性能优越的教师网络(teachernetwork)相关的软目标(soft-target)作为总体损耗(total loss)的一部分，以诱导精简且低复杂度的学生网络(student network)的训练，实现知识迁移(knowledge transfer)。

其中，知识迁移是一种学习对另一种学习的影响，是在学习这个连续过程中，任何学习都是在学习者已经具有的知识经验和认知结构、已获得的动作技能、习得的态度等基础上进行的，也就是利用新旧知识间的联系，启发学生进行新旧知识对照，由旧知识区思考，领会新知识，学会学习的方法。

4)机器翻译(Machine Translate)

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。一般指自然语言之间句子和全文的翻译。他是自然语言处理的一个分支，与计算语言学、自然语言理解之间存在着密不可分的关系。机器翻译运用语言学原理，机器自动识别语法，调用存储的词库，自动进行对应翻译，但因为语法、词法、句法发生变化或者不规则，机器翻译仍存在翻译不准确的问题。

在相关技术中，需要对不同领域的语言序列进行翻译时，通过微调(fine-tune)的方式来实现，该方法实现过程如下：

1)在一个一般语言数据量较大的领域数据(in-domain)上训练一个模型A，在in-domain的数据上表现良好；

2)再用一个一般语言数据量较小的领域数据(out-domain)上对A模型进行fine-tune得到模型B；

3)获取模型B为in-domain和out-domain的翻译模型，该模型B既在in-domian数据上表现比较好，也在out-domain数据上表现较好。

但是采用fine-tune的方式进行翻译模型的调整存在一个问题，就是最后所得的翻译模型在适配的out-domain数据后，在in-domain数据上的翻译效果会明显下降，并且由于一些实体词在不同的领域的含义不一致，比如“花王”一词在口语表达中为花中之王的含义，但是在化妆品领域下，表达的是一个化妆品的品牌，从而造成一个词语对应不同的翻译结果，若对原本经过口语表达领域数据训练所得的模型A通过fine-tune训练为模型B，那么对于模型B则会将“花王”一词的翻译从“the king of flowers”都变为“KAO”，因此为解决上述问题，需要将多个领域数据混合在一起进行训练。

在对领域数据混合训练的过程中，会出现各个领域语言数据量不同，不同领域的语言数据语序不同的问题，从而引起对于不同领域的训练难度的不同，最后所得的训练模型表现出来的会使在语言数据量较多、语序较简单的领域上表现较好，而对于语言数据量较少，语序较难的领域上表现较差。

本公开提供一种机器翻译模型训练方法，能够针对不同领域的语言数据设置不同的优化目标进行训练获得机器翻译模型，从而提高了机器翻译模型对各个领域的语言数据翻译结果的质量，接下来将结合附图对本公开实施例涉及的机器翻译模型训练方法进行详细介绍。

请参考图1，其示出了本公开一个示例性实施例提供的一种机器翻译模型训练方法的流程图，该方法可以由计算机设备执行，如图1所示，该机器翻译模型训练方法，包括：

步骤110，获取多领域混合的训练数据集，该训练数据集包含多个训练数据对，其中每个训练数据对包括语义相同的源语言序列和目标语言序列。

其中，多领域混合的训练数据集是指在一个训练数据集中存在至少两个领域的训练数据对，且在多个各领域的训练数据对之间没有明确的领域界限，即在该训练数据集中，每个领域中至少包含有一个训练数据对，不同领域的训练数据对混合存在，且对于每一个训练数据对都包括有语义相同的源语言序列和目标语言序列。

目标语言序列是对源语言序列预设的翻译结果，比如，将中文“苹果”翻译成英文“Apple”，那么“苹果”为源语言序列，对应的“Apple”为目标语言序列。

步骤120，对训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个领域数据子集对应一个数据领域。

对于多领域混合的训练数据集，需要将训练数据集中混合的训练数据对，按照不同的领域进行分类，获得至少两个对应于不同领域的领域数据集。

在一种可能的情况下，可以在不同领域的训练数据对上设置对应于各个领域的标记。比如，对于包含有数据领域A和数据领域B这两个数据领域的训练数据对的训练数据集，可以在训练数据集中的属于数据领域A的训练数据对上设置对应于数据领域A的标记，在训练数据集中属于数据领域数据B的训练数据对上设置对应于数据领域B的标记，以使得在机器翻译模型训练过程中，可以根据属于不同领域的训练数据对上的标记对训练数据集中的训练数据对进行领域区分，以获得对应的领域数据子集。

步骤130，基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型。

在对训练数据集的训练过程中，是以领域数据子集为单位分别进行训练的，以确定不同的领域数据子集分别对应的候选优化目标，其中优化目标是指在机器翻译过程中，对机器翻译模型所输出的预测结果进行损失函数计算的标准，根据该损失函数的计算结果来对机器模型中的参数进行调整，以使得参数调整的后的机器翻译模型输出的预测结果尽可能的接近于优化目标，也就是损失函数的计算结果最小。

其中，损失函数用于描述模型预测值与优化目标的差距大小，损失函数的值越小，表明模型的预测结果越准确。

对于每个领域数据子集，都可以确定至少两个候选优化目标来基于该领域数据子集中的训练数据对进行模型训练，从而获得对候选优化目标所对应的至少两个候选单领域模型。

可选的，基于至少两个候选优化目标分别训练领域数据子集对应的至少两个候选单领域模型可以选取神经机器翻译框架transformer(变压器)来训练。

步骤140，对于每个领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标。

在获取到每个领域数据子集各自对应的至少两个候选单领域模型后，需要针对各个领域数据子集所对应的至少两个候选单领域模型进行测试，在测试中，可以通过同一组测试数据来对同一领域数据子集的至少两个候选单领域模型进行测试，根据各个候选单领域模型对测试数据的输出结果相对于测试数据中的目标测试结果的相似度，选取测试准确性最高的一个候选单领域模型对应的优化目标作为该领域数据子集的指定优化目标。例如，在一种可能的实现方式中，可以利用BLEU算法计算某一领域数据子集的各个候选单领域模型对测试数据的输出结果和测试数据中的目标测试结果的相似程度。BLEU算法最终结果的取值范围是[0,100]，最终结果的取值越高，相似程度越高，即候选单领域模型的输出结果和测试数据中的目标测试结果越接近，认为这个候选单领域模型的翻译质量越高。最后获取在测试集合上BLEU值最高的一个候选单领域模型对应的优化目标作为该领域数据子集的指定优化目标。

步骤150，基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型。

在一种可能的实现方式中，基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型，包括：

基于每个领域数据子集，训练领域数据子集对应的教师模型；

基于领域数据子集的各目标语言序列以及领域数据子集对应的教师模型的预测结果中的至少一个，确定领域数据子集的至少两个候选优化目标；

基于至少两个候选优化目标，训练领域数据子集对应的至少两个学生模型，作为领域数据子集对应的至少两个候选单领域模型。

在一种可能的实现方式中，基于领域数据子集的各目标语言序列以及领域数据子集对应的教师模型的预测结果中的至少一个，确定领域数据子集的至少两个候选优化目标，包括：

对于每个领域数据子集，构建优化目标函数：pT(X)+(1-p)Y，其中T(X)为领域数据子集对应的教师模型输出的预测概率分布，Y为领域数据子集所包含的各目标语言序列的真实概率分布，p为领域权重且满足0≤p≤1；

选择领域权重p的至少两个取值，基于优化目标函数，获得领域数据子集的至少两个候选优化目标。

在一种可能的实现方式中，对训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个领域数据子集对应一个数据领域，包括：

将多领域混合的训练数据集中的多个训练数据对导入数据领域分类模型，对多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，每个领域数据子集中包含至少一个训练数据对。

在一种可能的实现方式中，基于每个领域数据子集，训练领域数据子集对应的教师模型，包括：

以每个领域数据子集所包含的各目标语言序列的真实概率分布为优化目标，训练领域数据子集对应的教师模型。

在一种可能的实现方式中，对于每个领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标，包括：

构建每个领域数据子集对应的测试数据集；

根据领域数据子集对应的测试数据集，测试领域数据子集对应的至少两个候选单领域模型的准确性；

选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标。

在一种可能的实现方式中，基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型，包括：

将每个领域数据子集输入至混合领域模型，并且按照领域数据子集对应的指定优化目标训练混合领域模型。

综上所述，本公开实施例所示的机器翻译模型训练方法，通过获取多领域混合的训练数据集，对训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型；对于每个领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为该领域数据子集的指定优化目标；基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型，从而实现了针对不同领域的语言数据设置不同的优化目标进行训练获得机器翻译模型，提高了机器翻译模型对各个领域的语言数据翻译结果的质量。

请参考图2，其示出了本公开一个示例性实施例提供的一种机器翻译模型训练方法的流程图，该方法可以由计算机设备执行，如图2所示，该机器翻译模型训练方法，包括：

步骤210，获取多领域混合的训练数据集，该训练数据集包含多个训练数据对，其中每个训练数据对包括语义相同的源语言序列和目标语言序列。

步骤220，将多领域混合的训练数据集中的多个训练数据对导入数据领域分类模型，对多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，每个领域数据子集中包含至少一个训练数据对。

在一种可能的情况下，可以简单地根据规则来进行分类，比如可以根据语言序列的长度来进行分类，假设要将一组多领域混合训练数据对划分为新闻领域和口语领域两个领域，由于新闻领域的语言序列一般比口语领域的语言序列的长度要长，可以设置一个语言序列的长度阈值，将大于该长度阈值的语言序列所在的训练数据对划分为新闻领域，将小于该长度阈值的语言序列所在的训练数据对划分为口语领域。

上述方法可以达到简单的数据领域分类的效果，对于对数据领域分类要求高的场合，可以采用通过数据领域分类模型来进行分类。

其中，该数据领域分类模型是通过多个训练数据对的训练获得的，请参考图3，其示出了本公开一示例性实施例提供的数据领域分类模型的分类示意图。如图3所示，该数据领域分类模型可以将输入该模型的多领域的混合数据对分成多个领域的领域数据子集。

在一种可能的情况下，该数据领域分类模型通过采用如图1所示实施例中对应数据领域的分类方法，即在不同领域数据对上设置对应于各个领域的标记的形式，输出数据领域分类的结果，比如，对于属于数据领域A的训练数据对(X，Y)，其中源语言序列X＝[x₁，x₂，…，x_n]，目标语言序列Y＝[y₁，y₂，…，y_m]，可以设置对应于数据领域A的标记A，其中标记A可以为指定的符号，比如当标记A为圆括号时，在数据领域A的训练数据对(X，Y)中加入标记A后表现为：(X＝[x₁，x₂，…，x_n]，Y＝[y₁，y₂，…，y_m])，而对于数据领域B的训练数据对则可以加上对应于数据领域B的标记B，由此可以实现对多领域混合训练数据对的数据领域划分。

需要说明的是，上述对多领域混合训练数据对进行数据领域划分的方法仅为示意性的，本公开并不对多领域混合训练数据对的数据领域划分方法进行限制。

步骤230，基于每个领域数据子集，训练领域数据子集对应的教师模型。

教师模型是知识蒸馏中的一个概念，在知识蒸馏中，当一个教师模型去指导学生模型时，会将教师模型在解码中得到的每一个词的概率作为优化目标来指导学生模型，也就是用软目标(soft-target)来指导学生模型，能够充分利用到教师模型在其他错误词上的概率来指导学生模型，以传递更多的信息给学生模型，降低优化目标的难度。

在本公开实施例中，为了得到教师模型的预测概率分布，也就是soft-target，则需要基于每个领域数据子集，训练领域数据子集对应的教师模型。

可选的，可以以每个领域数据子集所包含的各目标语言序列的真实概率分布为优化目标，训练领域数据子集对应的教师模型。

比如，对于源语言序列为“我爱你”，目标语言序列为“I love you”，词表中共有I，love，you三个词，目标语言序列的真实概率分布表现为集合Y，那么在对源语言序列“我爱你”进行预测时，在真实概率中，将“我”翻译成“I”时的概率为1，而将“我”翻译成“love”或“you”的概率为0，那么对于源语言序列中的“我”的预测结果在词表上的真实概率分布为[1，0，0]，因此将源语言序列中的“我”的预测结果在词表上的真实概率分布[1，0，0]作为化目标训练教师模型，以获得对应的教师模型。

而对于以目标语言序列的真实概率分布为优化目标训练获得的教师模型而言，是通过输出每个词在词表上的概率来预测结果的，选取概率最大的一个作为该词的翻译结果。比如，对于同样的源语言序列“我爱你”进行翻译时，在词表对于同样的源语言序列“我爱你”进行翻译时，对于“我”通过教师模型得到的预测结果在词表上的概率分布为[0.9，0.1，0]，也就是说，教师模型的预测结果是：“我”翻译成“I”的概率为0.9，翻译成“love”的概率为0.1，翻译成“you”的概率为0，最终，教师模型会选择概率最大的一个作为“我”的翻译结果，也就是将“我”翻译成“I”，而上述示例中的[0.9，0.1，0]也就是教师模型的预测结果。

步骤240，基于领域数据子集的各目标语言序列以及领域数据子集对应的教师模型的预测结果中的至少一个，确定领域数据子集的至少两个候选优化目标。

可选的，对于每个领域数据子集，构建优化目标函数：

Z＝pT(X)+(1-p)Y，

其中，T(X)为领域数据子集对应的教师模型输出的预测概率分布，Y为领域数据子集所包含的各目标语言序列的真实概率分布，p为领域权重且满足0≤p≤1；

领域权重p是指教师模型输出的预测结果在优化目标函数中所占的权重，当p＝0时，优化目标函数Z＝Y，也就是领域数据子集的候选优化目标为领域数据子集所包含的个目标语言序列的真实概率分布；当p＝1时，优化目标函数Z＝T(X)，也就是领域数据子集的候选优化目标为领域数据子集对应的教师模型输出的预测概率分布，当0<p<1时，Z＝＝pT(X)+(1-p)Y，也就是领域数据子集的候选优化目标为领域数据子集对应的教师模型输出的预测概率分布与领域数据子集所包含的各目标语言序列的真实概率分布对应于各自的权重叠加的结果。

比如，对于源语言序列为“我爱你”，目标语言序列为“I love you”，词表中共有I，love，you三个词的情况下，由上述对于“我”的翻译可以得知，源语言序列中的“我”的预测结果在词表上的真实概率分布[1，0，0]，教师模型输出的在词表上的预测概率分布为[0.9，0.1，0]，当p＝0时，确定对于“我”的优化目标为在词表上的真实概率分布[1，0，0]；当p＝1是，确定对于“我”的优化目标为教师模型输出的在词表上的预测概率分布[0.9，0.1，0]，当0<p<1时，若取p＝0.5，那么对于“我”的优化目标为：

Z＝0.5*[1，0，0]+0.5*[0.9，0.1，0]＝[0.95，0.05，0]

也就是说对于我的优化目标为在词表上的概率分布为[0.95，0.05，0]。

步骤250，基于至少两个候选优化目标，训练领域数据子集对应的至少两个学生模型，作为领域数据子集对应的至少两个候选单领域模型。

请参考图4，其示出了本公开一示例性实施例提供的基于不同的优化目标训练单领域模型的示意图。如图4所示，同一领域数据子集分别以不同的优化目标进行训练，获得对应的候选单领域模型，图4中的领域数据子集D1可以以优化目标Y训练得到候选单领域模型T，可以以构建的优化目标函数Z＝pT(X)+(1-p)Y的计算结果为优化目标训练得到候选单领域模型S，其中0≤p≤1，当p＝0时，该优化目标函数为Z＝Y，也就是以优化目标Y训练得到候选单领域模型S，与候选单领域模型T相对应；当p＝1时，该优化目标函数为Z＝T(X)，也就是以候选单领域模型T的预测结果T(X)作为优化目标训练得到候选单领域模型S。

步骤260，构建每个领域数据子集对应的测试数据集。

其中，每个领域数据子集对应的测试数据集可以由训练数据集中的全部或者部分训练数据对构成，也可以重新获取多个测试数据对，每个测试数据对包括语义相同的源语言序列和目标语言序列，构成每个领域数据子集对应的测试数据集。

步骤270，根据领域数据子集对应的测试数据集，测试领域数据子集对应的至少两个候选单领域模型的准确性。

在测试过程中，可以将每个领域数据子集对应的测试数据集中的源语言序列输出到各个单领域模型中，获得各个单领域模型的预测结果，根据该预测结果获得各个单领域模型的翻译结果，根据测试数据集中的目标语言序列判断各个单领域模型的翻译结果准确性。

步骤280，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标。

步骤290，将每个领域数据子集输入至混合领域模型，并且按照领域数据子集对应的指定优化目标训练混合领域模型。

请参考图5，其示出了本公开一示例性实施例提供的训练混合领域模型的示意图。如图5所示，将每个领域数据子集输入至混合领域模型，以对各个领域的训练数据对进行训练，针对不同领域的训练数据对按照对应的指定优化目标进行训练，也就是，在训练过程中通过不同的指定优化目标来对混合领域模型的参数进行调整，以使得最终获得的混合领域训练模型在各个数据领域上表现良好。

图6是根据一示例性实施例示出的一种机器翻译模型训练装置的方框图，该机器翻译模型训练装置应用于计算机设备中，以执行上述图1或图2任一实施例所示的方法的全部或部分步骤。如图6所示，该机器翻译模型训练装置可以包括：

获取模块610，用于获取多领域混合的训练数据集，训练数据集包含多个训练数据对，其中每个训练数据对包括语义相同的源语言序列和目标语言序列；

分类模块620，用于对训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个领域数据子集对应一个数据领域；

第一训练模块630，用于基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型；

测试模块640，用于对于每个领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标；

第二训练模块650，用于基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型。

在一种可能的实现方式中，该第一训练模块630，包括：

第一训练模型子模块，用于基于每个领域数据子集，训练领域数据子集对应的教师模型；

确定子模块，用于基于领域数据子集的各目标语言序列以及领域数据子集对应的教师模型的预测结果中的至少一个，确定领域数据子集的至少两个候选优化目标；

第二训练子模块，用于基于至少两个候选优化目标，训练领域数据子集对应的至少两个学生模型，作为领域数据子集对应的至少两个候选单领域模型。

在一种可能的实现方式中，该确定子模块，用于，

在一种可能的实现方式中，该分类模块620，用于，

在一种可能的实现方式中，该第一训练子模块，用于，

在一种可能的实现方式中，测试模块640，包括：

构建子模块，用于构建每个领域数据子集对应的测试数据集；

测试子模块，用于根据领域数据子集对应的测试数据集，测试领域数据子集对应的至少两个候选单领域模型的准确性；

选择子模块，用于选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标。

在一种可能的实现方式中，该第二训练模块650，用于，

综上所述，本公开实施例所示的机器翻译模型训练装置，可以应用在计算机设备中，通过获取多领域混合的训练数据集，对训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型；对于每个领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为该领域数据子集的指定优化目标；基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型，从而实现了针对不同领域的语言数据设置不同的优化目标进行训练获得机器翻译模型，提高了机器翻译模型对各个领域的语言数据翻译结果的质量。

本公开一示例性实施例提供了一种机器翻译模型训练装置，该装置可以应用于计算机设备中，能够实现本公开上述图1或图2任一实施例所示的方法的全部或部分步骤。该机器翻译模型训练装置包括：处理器、用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

获取多领域混合的训练数据集，该训练数据集包含多个训练数据对，其中每个训练数据对包括语义相同的源语言序列和目标语言序列。

训练数据集中的多个训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个领域数据子集对应一个数据领域。

基于每个领域数据子集，确定领域数据子集的至少两个候选优化目标，并基于至少两个候选优化目标分别训练每个领域数据子集对应的至少两个候选单领域模型。

对于每个领域数据子集，分别测试领域数据子集对应的至少两个候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为领域数据子集的指定优化目标。

基于训练数据集中的每个领域数据子集及其对应的指定优化目标，训练混合领域模型。

构建每个领域数据子集对应的测试数据集；

图7是根据一示例性实施例示出的计算机设备700的结构框图。该计算机设备可以是上述方案中能够记性机器翻译模型训练的计算机设备。所述计算机设备700包括中央处理单元(Central Processing Unit，CPU)701、包括随机存取存储器(Random AccessMemory，RAM)702和只读存储器(Read-Only Memory，ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。所述计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digitalversatile disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，所述计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在所述系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器701通过执行该一个或一个以上程序来实现图1、或图2所示的方法的全部或者部分步骤。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质

本申请实施例还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述机器翻译模型训练方法。例如，该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种机器翻译模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每个所述领域数据子集，确定所述领域数据子集的至少两个候选优化目标，并基于所述至少两个候选优化目标分别训练每个所述领域数据子集对应的至少两个候选单领域模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述领域数据子集的各目标语言序列以及所述领域数据子集对应的教师模型的预测结果中的至少一个，确定所述领域数据子集的至少两个候选优化目标，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述训练数据集中的多个所述训练数据对进行数据领域分类，以获得至少两个领域数据子集，其中每个所述领域数据子集对应一个数据领域，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于每个所述领域数据子集，训练所述领域数据子集对应的教师模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述对于每个所述领域数据子集，分别测试所述领域数据子集对应的至少两个所述候选单领域模型，选择测试准确性最高的候选单领域模型所对应的候选优化目标作为所述领域数据子集的指定优化目标，包括：

构建每个所述领域数据子集对应的测试数据集；

7.根据权利要求1所述的方法，其特征在于，所述基于所述训练数据集中的每个所述领域数据子集及其对应的指定优化目标，训练混合领域模型，包括：

8.一种机器翻译模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的方法，其特征在于，所述第一训练模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述确定子模块，用于，

11.根据权利要求8所述的装置，其特征在于，所述分类模块，用于，

12.根据权利要求9所述的装置，其特征在于，所述第一训练子模块，用于，

13.根据权利要求8所述的装置，其特征在于，所述测试模块，包括：

14.根据权利要求8所述的装置，其特征在于，所述第二训练模块，用于，

15.一种机器翻译模型训练装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为：

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的机器翻译模型训练方法。