CN112733552B

CN112733552B - 机器翻译模型构建方法、装置以及设备

Info

Publication number: CN112733552B
Application number: CN202011605010.XA
Authority: CN
Inventors: 宋锐
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-04-12
Anticipated expiration: 2040-12-30
Also published as: CN112733552A

Abstract

本发明公开了一种机器翻译模型构建方法、装置以及设备，本发明从机器翻译模型训练维度，对目标翻译模型的构建提出改进，具体是通过对多个不同结构参数的待定翻译模型进行训练，并记录当前最优的各待定翻译模型参数，同时结合各待定翻译模型的自身训练，利用当前最优模型对各待定翻译模型进行同步融合训练，经此训练方式便可以使得不同结构参数的待定翻译模型的知识进行交互，由此构建出的目标翻译模型在显著提高翻译质量的同时，更具有较强的鲁棒性。本发明在多个翻译模型的容量、计算效率和翻译效果之间进行均衡，使多个待定翻译模型能够实现在线混合学习，从而可以兼顾机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。

Description

机器翻译模型构建方法、装置以及设备

技术领域

本发明涉及机器翻译领域，尤其涉及一种机器翻译模型构建方法、装置以及设备。

背景技术

随着全球化趋势进一步发展，语言沟通成为不同语言种族群体相互交流面临的一个重要课题，实现任意时间、任意地点、任意语言的无障碍自由沟通是人类追求的一个梦想。传统语言服务行业采用人工陪同口译、交替口译以及同声传译等解决语言沟通障碍问题，但受限于人力不足以及综合成本，无法满足普通人对不同语言沟通交流的需求。

机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，其可以大幅节约翻译时间，提高翻译效率，满足诸如资讯等时效性要求较高或者海量文本的翻译需求，极大地降低了人力成本。而更重要的是，它让跨语种交流变成每个人都可以拥有的能力，语言不通不再是人们获取信息和服务的障碍。

在当前技术条件，机器翻译效果未达完全理想水平。现有的翻译模型训练方案，主要是基于收集到的源语言和目标语言平行句对在特定模型结构上训练至收敛得到一个翻译模型；且当模型上线时，由于受限于实际硬件条件，通常仅能部署单个模型，甚至有些翻译模型还需要进行裁剪才能够进行部署，现有技术尚无法在获得较佳翻译效果的同时，克服部署条件限制过多等实际操作问题。

发明内容

鉴于上述，本发明旨在提供一种机器翻译模型构建方法、装置以及设备，以及相应地提供了一种计算机可读存储介质和计算机程序产品，主要解决前述机器翻译模型在部署时遇到的翻译效果不佳以及难以实操的问题。

本发明采用的技术方案如下：

第一方面，本发明提供了一种机器翻译模型构建方法，其中包括：

预先构建多个待定翻译模型，所述待定翻译模型之间具有不同的结构和/或不同的参数；

利用预设的语料集分别对各所述待定翻译模型进行独立训练；

每训练预设的第一步数后，将各所述待定翻译模型的当前最优模型予以保存；

每训练预设的第二步数后，对各所述待定翻译模型进行独立训练的同时，结合所述当前最优模型以及预设的多模型混合训练策略，对各所述待定翻译模型进行同步融合训练，其中，所述第一步数小于或等于所述第二步数；

在进行若干轮同步融合训练并直至触发预设的训练结束条件时，得到相应于各所述待定翻译模型的最终模型；

将至少一个所述最终模型作为目标翻译模型。

在其中至少一种可能的实现方式中，所述多模型混合训练策略包括：

每训练预设的第二步数后，将每种所述待定翻译模型经训练更新后的当前状态作为对应该所述待定翻译模型的第一模型；

从所述当前最优模型中选择若干个第二模型，所述第二模型包括：除任一所述第一模型对应的所述当前最优模型以外的其他所述当前最优模型；

利用所述第二模型的输出指导相应的所述第一模型的训练。

在其中至少一种可能的实现方式中，所述从所述当前最优模型中选择若干个第二模型包括：

在保存所述当前最优模型时，基于所述语料集以及预设的指标，评估各所述待定翻译模型的当前训练效果的优劣程度；

基于所述优劣程度以及预设的阈值，从所述当前最优模型中选择所述第二模型。

基于相对所述第一模型的结构差异和/或参数差异，从所述当前最优模型中选择所述第二模型。

在其中至少一种可能的实现方式中，所述利用所述第二模型的输出指导相应的所述第一模型的训练包括：

使所述第一模型的输出概率分布接近所述第二模型的输出概率分布。

在其中至少一种可能的实现方式中，所述利用所述第二模型的输出指导相应的所述第一模型的训练还包括：

在各所述第二步数内，利用经所述第一步数保存的当前最优第二模型的输出指导相应的所述第一模型的训练。

第二方面，本发明提供了一种机器翻译模型构建装置，其中包括：

待定模型构建模块，用于预先构建多个待定翻译模型，所述待定翻译模型之间具有不同的结构和/或不同的参数；

独立训练模块，用于利用预设的语料集分别对各所述待定翻译模型进行独立训练；

当前最优模型保存模块，用于每训练预设的第一步数后，将各所述待定翻译模型的当前最优模型予以保存；

同步融合训练模块，用于每训练预设的第二步数后，对各所述待定翻译模型进行独立训练的同时，结合所述当前最优模型以及预设的多模型混合训练策略，对各所述待定翻译模型进行同步融合训练，其中，所述第一步数小于或等于所述第二步数；

最终模型获取模块，用于在进行若干轮同步融合训练并直至触发预设的训练结束条件时，得到相应于各所述待定翻译模型的最终模型；

目标翻译模型确定模块，用于将至少一个所述最终模型作为目标翻译模型。

在其中至少一种可能的实现方式中，所述同步融合训练模块包括多模型混合训练子模块，所述多模型混合训练子模块具体包括：

第一模型确定单元，用于每训练预设的第二步数后，将每种所述待定翻译模型经训练更新后的当前状态作为对应该所述待定翻译模型的第一模型；

第二模型选择单元，用于从所述当前最优模型中选择若干个第二模型，所述第二模型包括：除任一所述第一模型对应的所述当前最优模型以外的其他所述当前最优模型；

训练指导单元，用于利用所述第二模型的输出指导相应的所述第一模型的训练。

在其中至少一种可能的实现方式中，所述训练指导单元包括：

训练效果评估组件，用于在保存所述当前最优模型时，基于所述语料集以及预设的指标，评估各所述待定翻译模型的当前训练效果的优劣程度；

第二模型选择组件，用于基于所述优劣程度以及预设的阈值，从所述当前最优模型中选择所述第二模型。

在其中至少一种可能的实现方式中，所述训练指导单元具体用于：基于相对所述第一模型的结构差异和/或参数差异，从所述当前最优模型中选择所述第二模型。

概率分布学习组件，用于使所述第一模型的输出概率分布接近所述第二模型的输出概率分布。

在其中至少一种可能的实现方式中，所述训练指导单元具体用于：在各所述第二步数内，利用经所述第一步数保存的当前最优第二模型的输出指导相应的所述第一模型的训练。

第三方面，本发明提供了一种机器翻译模型构建设备，其中包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的至少一种可能的实现方式中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于从机器翻译模型训练的维度，对目标翻译模型的构建提出改进，具体是通过对多个不同结构、不同参数的待定翻译模型进行训练，并每隔一定的训练更新步数记录当前最优的各待定翻译模型参数，同时又按一定的训练更新周期结合各待定翻译模型的自身训练，利用当前最优模型对实时更新的各待定翻译模型进行同步融合训练，经此训练方式便可以使得不同结构、不同参数的待定翻译模型的知识进行融合交互，由此构建出的目标翻译模型在显著提高翻译质量的同时，可以使其具有更强的鲁棒性。本发明在多个不同结构、不同参数的翻译模型容量、计算效率和翻译效果之间进行均衡，使多个待定翻译模型能够实现在线混合学习，从而得到性能显著优于现有技术的机器翻译模型，进而可以兼顾机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的机器翻译模型构建方法的实施例的流程图；

图2为本发明提供的多模型混合训练策略的实施例的流程图；

图3为本发明提供的机器翻译模型构建装置的实施例的示意图；

图4为本发明提供的机器翻译模型构建设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在对本发明各实施例进行展开之前，首先对本发明的设计脉络进行如下说明，为了满足机器翻译模型的翻译质量和效率，发明人尝试将多个翻译模型进行彼此独立训练，待多个翻译模型训练收敛后，通过对各个翻译模型输出概率加权的方式，在概率空间上对多个翻译模型进行融合，由此确实可以相对提升翻译的准确度。但是经分析发现，此方式仍存在至少以下两个缺点：(1)这里采用的模型融合思想，如果期望实现在线融合操作，需要对参与融合的各翻译模型的结构提出要求，即需要采用结构完全一样的翻译模型，这才能保证解码端在解码时进行step by step的解码；(2) 这种多模型融合方式，会使得融合后的翻译模型的规模非常庞大，即便可以解决单模型翻译效果不佳的问题，但却无法在目前的生产环境和应用场景中进行上线部署。

有鉴于此，发明人认为对多模型融合的尝试并不能有效满足实际技术所需，因而提出了如下至少一种站位于训练角度的改进方案，如图1所示的机器翻译模型构建方法的实施例，具体可以包括：

步骤S1、预先构建多个待定翻译模型。

原始的机器翻译模型的构建方式可以基于现有的成熟方案，例如但不限于基于深度学习思想预先设置两种及以上翻译模型，以待后续处理从中确定出目标翻译模型，本发明对此不作限定，但需要指出的是，为了规避采用完全相同的多模型所带来的实操约束，本实施例提出预先构建的多个所述待定翻译模型之间，可以具有不同的结构和/或不同的参数。这里以神经网络翻译模型为例，可以采下述三种方式选择所述待定翻译模型的架构：方式一、可以选取不同结构的翻译模型，比如transformer架构、RNN架构等；方式二、可以选取结构相同但参数量不同的翻译模型；方式三、可将方式一与方式二进行任意组合，例如构建出4个待定翻译模型，其中包括具有第一参数量的transformer翻译模型、具有第二参数量的transformer翻译模型、具有第三参数量的LSTM翻译模型、具有第四参数量的LSTM翻译模型，其中第一参数量与第二参数量不同，第三参数量与第四参数量不同。再者，在实际操作中待定翻译模型的数量可以因需而定，为方便后文说明，这里给出结合实际情况选取的N个待定翻译模型，将此N个待定翻译模型记为{M₁,M₂,…,M_N}。

步骤S2、利用预设的语料集分别对各所述待定翻译模型进行独立训练。

具体而言，可以收集大量源语种文本与目标语种文本的句对，构建训练所用的语料集合，这里记为(X,Y)。在实际训练过程中，可以先采用常规的模型训练方式分别对N个待定翻译模型进行独立的训练更新，例如但不限于可以先随机初始化各个待定翻译模型{M₀，M₁,M₂,…,M_N}的参数，只有各个待定翻译模型可以随机读取语料库(X,Y)并采用诸如CE准则进行更新，具体可以借鉴一些现有的成熟方案，本实施例对各待定翻译模型的独立训练方式不作赘述。

步骤S3、每训练预设的第一步数后，将各所述待定翻译模型的当前最优模型予以保存。

本步骤的目的是为后文提及的同步融合训练提供训练基础，即可以在各个待定翻译模型进行实时训练、迭代更新的阶段，按一定的时间间隔，保存{M₀，M₁,M₂,…,M_N}的当前最优参数。由此可以补充两点其一、可以在前述预设所述待定翻译模型时，设置最优模型参数的保存间隔S步(所称第一步数)；其二、本领域技术人员可以理解的是，模型经每一步训练便会得到相应的更新参数后的“新”模型，也即是N个待定翻译模型经S步训练可迭代出S*N个模型状态，但是并不意味着每步更新后得到的当前参数绝对优于前步训练，因而本步骤可以是指每经由S步训练后，从S*N个模型状态中按预设的标准从中选出{M₀，M₁,M₂,…,M_N}的当前最优模型，记为M_{j_best},j＝0,1,2,…,N，当然，实际操作时可以通过复制相应N个待定翻译模型的当前最优参数并以此形成当前最优模型集合，对此本实施例不作限定。而可以进一步说明的是，在保存所述当前最优模型时所采用的预设标准可以有多种形式，例如可以基于所述语料集以及预设的指标，评估各所述待定翻译模型的当前训练效果的优劣程度，这里所述优劣程度可以但不限于是指利用前述大量语料数据形成的开发集上针对CE准则计算出的损失loss或者利用开发集获得的BLEU分等，对此本发明同样不作限定。

步骤S4、每训练预设的第二步数后，对各所述待定翻译模型进行独立训练的同时，结合所述当前最优模型以及预设的多模型混合训练策略，对各所述待定翻译模型进行同步融合训练。

在前文基础上本发明提出按照另一个时间间隔周期，将前述独立训练与所述当前最优模型M_{j_best}及多模型混合训练策略相互结合，对各待定翻译模型{M₀,M₁,M₂,…,M_N}进行同步融合训练。这里需先指出的是由于本发明的初衷在于将当前最优模型作为同步融合训练的基础，因而可以在前文提及的构建所述待定翻译模型的阶段，设定启动同步融合训练的周期间隔 T步(所称第二步数)，并且所述第一步数S需小于或等于所述第二步数T，这样便可以确保在0～T步训练阶段，至少经过了一个S步(保存周期)并得到用于同步融合训练的当前最优模型。

关于所述同步融合训练，是指T步后至少包括了两种训练模式，一个是对各个待定翻译模型的独立训练，另一个是多模型混合训练策略，而在 T步之前可以仅对各个待定翻译模型进行独立训练。并且在实际操作中，所述多模型混合训练策略可以有多种选择，例如可以按照既定的对应关系利用当前最优模型M_{j_best}中的某当前最优模型与对应的某待定翻译模型进行两两交叉训练，以N＝3为例，T步后有M_{1_best}、M_{2_best}、M_{3_best}，使M_{1_best}与实时训练更新的当前M₂交叉训练，同时使M_{1_best}与实时训练更新的当前 M₃交叉训练，以此类推，同步地采用M_{2_best}、M_{3_best}进行交叉训练。在此构思基础上，本发明进一步提出了更佳的多模型混合训练策略，如图2所示，可以具体包括如下环节：

步骤S41、每训练预设的第二步数后，将每种所述待定翻译模型经训练更新后的当前状态作为对应该所述待定翻译模型的第一模型。

在实际操作中，可以每经过T步，便将每种不同结构和/或不同参数的待定翻译模型的当前更新状态(即采用T步后训练出的新参数形成的当前待定翻译模型)作为第一模型。

步骤S42、从所述当前最优模型中选择若干个第二模型。

针对其中一个第一模型，从当前最优模型M_{j_best}中选择出若干个，与第一模型对应的当前最优模型不同的其他当前最优模型，作为第二模型，也即是除了某一所述第一模型对应的所述当前最优模型以外的其他当前最优模型，举例来说，对于当前的M₂可以从除了M_{2_best}以外的其他M_{j_best}中选择一个或多个所述当前最优模型作为第二模型，并且其他N-1个第一模型同步选择相应的第二模型。而从当前最优模型中选择若干个第二模型的具体实现方式，则可以同样有多种方式，例如结合前文提及的保存当期最优模型时进行的训练效果优劣评估，这里可以基于所述优劣程度以及预设的阈值，从所述当前最优模型中选择一个或多个所述第二模型，例如将 BLEU得分超过评分阈值的TopX个当前最优模型作为第二模型；此外，还可以考虑的是，由于本发明强调的是可以不限定各翻译模型的结构参数，因而还可以基于相对所述第一模型的结构差异和/或参数差异，从所述当前最优模型中选择一个或多个所述第二模型。优选地，对于后者方式，可以选择结构差异较大和/或参数差异较大的当前最优模型作为第二模型，这样能够使得多模型混合训练时可以充分学习到不同类型翻译模型的优势。

步骤S43、利用所述第二模型的输出指导相应的所述第一模型的训练。

这里提出的多模型混合训练的具体方式，便是将第二模型作为指导模型，对相应的第一模型的学习训练提供指引，例如可以通过M_{2_best}、M_{3_best}对当前M₁进行训练，同步地通过M_{1_best}、M_{3_best}对当前M₂进行训练，通过M_{1_best}、M_2best对当前M₃进行训练。结合翻译场景，具体的由所述第二模型的输出指导相应的所述第一模型的训练可以但不限于是指使所述第一模型的输出概率分布接近所述第二模型的输出概率分布，更佳地，还可以在每轮T周期内，利用经S步保存的最新的当前最优第二模型的输出去指导相应的所述第一模型的训练。

为便于理解，这里结合前文提及的CE准则以及一些常用的损失函数对所述同步融合训练进行示意性说明：

对于某个待定翻译模型M_i(i＝0,1,…N)，在[T*k，T*k+T]阶段(k不等于0，k＝0表明是在0～T步阶段)除了可使用CE准则更新该模型，还可以使得待定翻译模型M_i的输出概率分布P_i，分别学习(接近)M_{j_best}，j≠i 的输出概率分布Q_j，实施时可以基于如下目标：

L表示所述同步融合训练的总损失函数，且这里的α_j是一个可学习且可以根据经验指定的参数，这里的Y是指选择出的相应第一模型M_i的第二模型的数量。

其中，损失函数CEloss的定义可以参考如下：

这里的y_i为真实分布，在翻译任务中通常是一个onehot向量，网络输出分布为总的类别数为n。

其中，损失函数KLloss的定义可以参考如下：

由此，假设预先构建出N＝10个待定翻译模型{M₀，M₁,M₂,…,M_N}，且 k*T步后针对的某个当前M_i为M₁，并选择了除与M₁对应的当前最优模型 M_{1_best}以外的其他9个当前最优模型作为第二模型，这样，前述多模型混合训练的损失就是α₂KL(P₁,Q₂)+α₃KL(P₁,Q₃)+……+α₁₀KL(P₁,Q₁₀) 的九分之一。

本领域技术人员可以理解的是，上述示例中涉及的损失函数及其定义，皆可参考现有相关技术，并且在实际操作中可以根据真实场景选用不同的损失函数，前述示例仅是为了说明所述多模型混合训练以及所述同步融合训练的技术构思，因而可以不限定仅以一种CE准则实施所述独立训练，也可以不限定第二模型指导第一模型的方式必须基于KLloss。

接续前文参考图1，步骤S5、在进行若干轮同步融合训练并直至触发预设的训练结束条件时，得到相应于各所述待定翻译模型的最终模型。

同样地，可以在预先构建待定翻译模型时设定但不限于最大更新步数作为训练结束条件。这样，从0步开始，且从T步后又经过若干轮同步融合训练，当总训练步数到达最大更新步数时便可以输出所述最终模型 M_{i_best}，i＝0，1，2，...，N。这里还可以指出两点，其一、在进行若干轮同步融合训练时，如采用前文提及的选择第二模型并指导第一模型的实施例时，可以考虑每隔T个周期，便基于最新的所述当前最优模型重新选择相应某第一模型的第二模型，也即是以T为周期替换指导模型；其二、输出的最终模型M_{i_best}一方面可以来自触发结束训练时当前效果最优的模型参数，另一方面也可以是当触发结束训练时采用最近一次保存的M_{j_best}，前者获得的最终模型相对最优(并且前者也可以作为触发训练结束的设定条件)，后者则无需在训练结束时再一次评估模型训练效果，一旦结束直接又保存的当前最优模型作为最终模型，可以节省一定的运算资源及处理时间，二者可因需选择，对此本发明不作限定。

步骤S6、将至少一个所述最终模型作为目标翻译模型。

在实际操作中，最后可以根据实际场景条件和需求，从模型规模、运行效率等角度，从上述最终模型M_{i_best}中选择需要部署的一个或多个模型。这里还可以进一步指出的是，当实际应用环境需求提升翻译质量或效率，可以将输出的N个最终模型做进一步融合，这里的融合有至少两层含义，一个是指可以通过本发明获得的最终模型在实际部署时兼容前文提及的离线融合思路，或者另外也可以考虑利用诸如ensemble模型翻译数据库里的源语言文本，得到伪语料集将/>与(X，Y)按照一定比例进行训练数据融合，再对最终模型进行前述训练过程，对此本发明不作限定

综上所述，本发明的构思在于从机器翻译模型训练的维度，对目标翻译模型的构建提出改进，具体是通过对多个不同结构、不同参数的待定翻译模型进行训练，并每隔一定的训练更新步数记录当前最优的各待定翻译模型参数，同时又按一定的训练更新周期结合各待定翻译模型的自身训练，利用当前最优模型对实时更新的各待定翻译模型进行同步融合训练，经此训练方式便可以使得不同结构、不同参数的待定翻译模型的知识进行融合交互，由此构建出的目标翻译模型在显著提高翻译质量的同时，可以使其具有更强的鲁棒性。本发明在多个不同结构、不同参数的翻译模型容量、计算效率和翻译效果之间进行均衡，使多个待定翻译模型能够实现在线混合学习，从而得到性能显著优于现有技术的机器翻译模型，进而可以兼顾机器翻译模型在实际上线时对于翻译效果以及部署操作的双重需求。举例来说：基于LSTM的翻译模型对中短句的翻译相较transformer架构的翻译模型更有优势，而transformer架构的翻译模型则更擅长对于长句的翻译，通过本发明提供的各实施例可以在训练过程中使得多个不同模型进行知识融合，从而在各待定翻译模型之间相互吸收优点，使得训练后得到的目标翻译模型的翻译性能及部署操作明显优于现有的机器翻译模型。

相应于上述各实施例及优选方案，本发明还提供了一种机器翻译模型构建装置的实施例，如图3所示，具体可以包括如下部件：

待定模型构建模块1，用于预先构建多个待定翻译模型，所述待定翻译模型之间具有不同的结构和/或不同的参数；

独立训练模块2，用于利用预设的语料集分别对各所述待定翻译模型进行独立训练；

当前最优模型保存模块3，用于每训练预设的第一步数后，将各所述待定翻译模型的当前最优模型予以保存；

同步融合训练模块4，用于每训练预设的第二步数后，对各所述待定翻译模型进行独立训练的同时，结合所述当前最优模型以及预设的多模型混合训练策略，对各所述待定翻译模型进行同步融合训练，其中，所述第一步数小于或等于所述第二步数；

最终模型获取模块5，用于在进行若干轮同步融合训练并直至触发预设的训练结束条件时，得到相应于各所述待定翻译模型的最终模型；

目标翻译模型确定模块6，用于将至少一个所述最终模型作为目标翻译模型。

应理解以上图3所示的机器翻译模型构建装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明所涉及的技术构思可适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种机器翻译模型构建设备。该设备具体可以包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或者等效实施方式的步骤/功能。

图4为本发明提供的机器翻译模型构建设备的实施例的结构示意图，在其他实施例中该设备具体可以为与计算机相关的设施，例如但不限于服务器、相关平台系统、智能终端等。

具体如图4所示，机器翻译模型构建设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910 可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器 910。

除此之外，为了使得机器翻译模型构建设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头 990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，该设备900中的各个部件的操作和/或功能，具体可参见前文中关于方法、系统等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图4所示的机器翻译模型构建设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的机器翻译模型构建方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、 DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network ProcessUnits；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器 (Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a， b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种机器翻译模型构建方法，其特征在于，包括：

将至少一个所述最终模型作为目标翻译模型；

所述多模型混合训练策略包括：

同步利用若干个当前最优模型与对应的实时训练更新的待定翻译模型进行两两交叉训练；或者，

每训练预设的第二步数后，将每种待定翻译模型经训练更新后的当前状态作为对应该待定翻译模型的第一模型；从当前最优模型中选择若干个第二模型，所述第二模型包括：除任一所述第一模型对应的当前最优模型以外的其他当前最优模型；利用所述第二模型的输出指导相应的所述第一模型的训练。

2.根据权利要求1所述的机器翻译模型构建方法，其特征在于，所述从所述当前最优模型中选择若干个第二模型包括：

3.根据权利要求1所述的机器翻译模型构建方法，其特征在于，所述从所述当前最优模型中选择若干个第二模型包括：

4.根据权利要求1～3任一项所述的机器翻译模型构建方法，其特征在于，所述利用所述第二模型的输出指导相应的所述第一模型的训练包括：

5.根据权利要求4所述的机器翻译模型构建方法，其特征在于，所述利用所述第二模型的输出指导相应的所述第一模型的训练还包括：

6.一种机器翻译模型构建装置，其特征在于，包括：

目标翻译模型确定模块，用于将至少一个所述最终模型作为目标翻译模型；

所述多模型混合训练策略包括：

7.一种机器翻译模型构建设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行权利要求1～5任一项所述的机器翻译模型构建方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行权利要求1～5任一项所述的机器翻译模型构建方法。