CN109783824A

CN109783824A - 基于翻译模型的翻译方法、装置及存储介质

Info

Publication number: CN109783824A
Application number: CN201811539900.8A
Authority: CN
Inventors: 毕天驰; 张传强; 熊皓; 何中军; 李芝; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-05-21
Anticipated expiration: 2038-12-17
Also published as: CN109783824B

Abstract

本申请提供一种基于翻译模型的翻译方法、装置及存储介质，其中，该方法包括：获取待翻译文本，将该待翻译文本输入到翻译模型中得到翻译文本，该翻译模型是根据历史翻译文本和教师类‑学生类框架训练得到的。该技术方案中，利用根据历史翻译文本和教师类‑学生类框架训练得到的翻译模型对待翻译文本进行翻译，提高了翻译时的响应速度，提高了用户体验。

Description

基于翻译模型的翻译方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于翻译模型的翻译方法、装置及存储介质。

背景技术

随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术逐渐发展，为用户提供了实时便捷的翻译服务。尤其是神经网络机器翻译(neural machinetranslation，NMT)技术，其促进了翻译质量的大幅跃升，为用户理解原文提供了前提。

现有技术中，基于神经网络的翻译方法(NMT)，通过学习大量成对的语料(平行语料库)让神经网络自己学习语言的特征，找到输入和输出的关系，端到端的输出翻译结果，取得了不错的效果，提高了翻译准确度。

然而，现有技术的机器翻译系统中，参数数量庞大，运算次数多，生成译文时的响应速度较慢，尤其在移动终端侧，响应延迟更高，用户体验差。

发明内容

本申请提供一种基于翻译模型的翻译方法、装置及存储介质，以克服现有翻译方法响应延迟高、用户体验差的问题。

本申请第一方面提供的一种基于翻译模型的翻译方法，包括：

获取待翻译文本；

将所述待翻译文本输入到翻译模型中，得到翻译文本，所述翻译模型是根据历史翻译文本和教师类-学生类框架训练得到的。

在第一方面的一种可能实现方式中，在所述将所述待翻译文本输入到翻译模型中，得到翻译文本之前，所述方法还包括：

根据所述历史翻译文本，基于所述教师类-学生类框架对学生类网络模型进行训练，得到所述翻译模型，所述历史翻译文本包括：源文本和目标文本。

在第一方面的上述可能实现方式中，所述根据历史翻译文本，基于所述教师类-学生类框架对学生类网络模型进行训练，得到翻译模型，包括：

根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果；

根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果；

基于所述第一预测结果，通过迭代方式更新所述第二预测结果，直到更新后的第二预测结果与所述第一预测结果的差异性满足预设误差，得到翻译模型。

在第一方面的上述可能实现方式中，所述根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，包括：

将所述源文本输入到所述多教师类网络模型中的每个教师类网络模型中，得到多个第一预测文本；

根据所述多个第一预测文本和所述目标文本，得到所述多教师类网络模型的多个第一预测子结果；

对所述多个第一预测子结果进行加权求和，得到所述第一预测结果。

在第一方面的上述可能实现方式中，所述根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果，包括：

将所述源文本输入到所述学生类网络模型中得到第二预测文本；

根据所述第二预测文本和所述目标文本，得到所述学生类网络模型的第二预测结果。

在第一方面的另一种可能实现方式中，所述基于所述第一预测结果，通过迭代方式更新所述第二预测结果，直到更新后的第二预测结果与所述第一预测结果的差异性满足预设误差，得到翻译模型，包括：

对所述第一预测结果和所述第二预测结果进行集成学习，得到所述多教师类网络模型和所述学生类网络模型之间的相对熵；

根据所述第二预测结果拟合所述学生类网络模型的有效正确数据的损失函数；

根据所述相对熵和所述损失函数，采用梯度块方法迭代更新所述第二预测结果，直到所述相对熵和所述损失函数的整体损失小于所述预设误差，得到所述翻译模型。

在第一方面的再一种可能实现方式中，所述获取待翻译文本，包括：

获取用户通过人机交互界面输入的所述待翻译文本。

在第一方面的又一种可能实现方式中，所述获取待翻译文本，包括：

根据用户的文本选定指令，从人机交互界面上获取所述文本选定指令对应的所述待翻译文本。

本申请第二方面提供一种基于翻译模型的翻译装置，包括：获取模块和翻译模块；

所述获取模块，用于获取待翻译文本；

所述翻译模块，用于将所述获取模块获取到的待翻译文本输入到翻译模型中，得到翻译文本，所述翻译模型是根据历史翻译文本和教师类-学生类框架训练得到的。

在第二方面的一种可能实现方式中，所述装置还包括：训练模块；

所述训练模块，用于在所述翻译模块将所述获取模块获取到的待翻译文本输入到翻译模型中，得到翻译文本之前，根据所述历史翻译文本，基于所述教师类-学生类框架对学生类网络模型进行训练，得到所述翻译模型，所述历史翻译文本包括：源文本和目标文本。

在第二方面的上述可能实现方式中，所述训练模块，包括：预测单元和确定单元；

所述预测单元，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果；

所述确定单元，用于基于所述第一预测结果，通过迭代方式更新所述第二预测结果，直到更新后的第二预测结果与所述第一预测结果的差异性满足预设误差，得到翻译模型。

在第二方面的上述可能实现方式中，所述预测单元，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，具体为：

所述预测单元，具体用于将所述源文本输入到所述多教师类网络模型中的每个教师类网络模型中，得到多个第一预测文本，根据所述多个第一预测文本和所述目标文本，得到所述多教师类网络模型的多个第一预测子结果，对所述多个第一预测子结果进行加权求和，得到所述第一预测结果。

在第二方面的上述可能实现方式中，所述预测单元，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果，具体为：

所述预测单元，具体用于将所述源文本输入到所述学生类网络模型中得到第二预测文本，根据所述第二预测文本和所述目标文本，得到所述学生类网络模型的第二预测结果。

在第二方面的另一种可能实现方式中，所述确定单元，具体用于对所述第一预测结果和所述第二预测结果进行集成学习，得到所述多教师类网络模型和所述学生类网络模型之间的相对熵，根据所述第二预测结果拟合所述学生类网络模型的有效正确数据的损失函数，根据所述相对熵和所述损失函数，采用梯度块装置迭代更新所述第二预测结果，直到所述相对熵和所述损失函数的整体损失小于所述预设误差，得到所述翻译模型。

在第二方面的再一种可能实现方式中，所述获取模块，具体用于获取用户通过人机交互界面输入的所述待翻译文本。

在第二方面的又一种可能实现方式中，所述获取模块，具体用于根据用户的文本选定指令，从人机交互界面上获取所述文本选定指令对应的所述待翻译文本。

本申请第三方面提供一种基于翻译模型的翻译装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面以及第一方面各种可能实现方式中任一项所述的方法。

本申请第四方面提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述第一方面以及第一方面各种可能实现方式中任一项所述的方法。

本申请实施例提供的基于翻译模型的翻译方法、装置及存储介质，通过获取待翻译文本，将该待翻译文本输入到翻译模型中，得到翻译文本，该翻译模型是根据历史翻译文本和教师类-学生类框架训练得到的。该技术方案中，利用根据历史翻译文本和教师类-学生类框架训练得到的对待翻译文本进行翻译，提高了翻译时的响应速度，提高了用户体验。

附图说明

图1为本申请实施例提供的基于翻译模型的翻译方法实施例一的流程示意图；

图2为本申请实施例提供的基于翻译模型的翻译方法实施例二的流程示意图；

图3为本申请实施例提供的基于翻译模型的翻译方法实施例三的流程示意图；

图4为基于教师类-学生类框架训练学生类网络模型的架构示意图；

图5为本申请实施例提供的基于翻译模型的翻译方法实施例四的流程示意图；

图6为本申请实施例提供的基于翻译模型的翻译装置实施例一的结构示意图

图7为本申请实施例提供的基于翻译模型的翻译装置实施例二的结构示意图；

图8为本申请实施例提供的基于翻译模型的翻译装置实施例三的结构示意图；

图9为本申请实施例提供的基于翻译模型的翻译装置实施例四的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例提供的基于翻译模型的翻译方法适用于神经机器翻译(neural machinetranslation，NMT)系统，该NMT系统既可以运行在服务器上，也可以运行在终端设备上。

现有技术中的NMT系统，针对无网环境的解码系统，离线翻译包运行在移动终端时，鉴于移动终端的硬件性能限制，NMT系统响应延迟高，用户体验差，这亟需训练一个层数较少、隐层参数维度较小的模型，以降低移动终端或服务器的运算量，提高解码速度，但是，参数维度小的模型翻译质量却会比大模型差。

鉴于现有技术中的NMT系统，参数维度大的模型其翻译速度慢，响应延时长，而参数维度小的模型其翻译质量差的问题，本申请实施例提出一种基于翻译模型的翻译方法、装置及存储介质，不再简单的以一个参数维度大的模型或者以一个参数维度小的模型作为翻译模型，而是利用基于教师类-学生类(teacher-student)框架对学生类网络模型训练得到的翻译模型对待翻译文本进行翻译，提高了翻译时的响应速度，提高了用户体验。下面，通过具体实施例对本申请的技术方案进行详细说明。

需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1为本申请实施例提供的基于翻译模型的翻译方法实施例一的流程示意图。如图1所示，该方法可以包括如下步骤：

步骤11：获取待翻译文本。

在本实施例中，当NMT系统得到翻译任务后，首先要获取待翻译文本。

示例性的，在本实施例的一种可能实现方式中，该步骤11可以通过如下步骤实现：

获取用户通过人机交互界面输入的该待翻译文本。

可选的，当用户有翻译需求时，用户可以通过终端设备的人机交互界面或者与服务器连接的人机交互界面输入待翻译文件，从而终端设备的NMT系统或者服务器上的NMT系统可以获取到该待翻译文本。

示例性的，在本实施例的另一种可能实现方式中，该步骤11可以通过如下步骤实现：

根据用户的文本选定指令，从人机交互界面上获取该文本选定指令对应的待翻译文本。

例如，当用户通过终端设备的人机交互界面或与服务器连接的人机交互界面浏览采用某种语言写成的文献、文章、网页或标记等内容时，可能遇到不理解的文本或词语，这时用户可以通过选定操作生成文本选定指令，以指示终端设备或服务器从人机交互界面上获取该文本选定指令对应的待翻译文本，进而利用终端设备或服务器上NMT系统将该中语言翻译成另一种语言。

步骤12：将该待翻译文本输入到翻译模型中，得到翻译文本，该翻译模型是根据历史翻译文本和教师类-学生类框架训练得到的。

在本实施例中，可以根据历史翻译文本，并基于教师类-学生类框架训练得到一个翻译模型，以使该翻译模型的参数量小于上述教师类网络模型的参数量，但稍大于学生类网络模型的参数量，在保证翻译质量的基础上，能够最大限度的提高翻译速度，因而，在NMT系统获取到待翻译文本之后，将其输入到运行在服务器或者终端设备上的翻译模型中，便可以得到待翻译文本对应的翻译文本。

本申请实施例提供的基于翻译模型的翻译方法，通过获取待翻译文本，将该待翻译文本输入到翻译模型中，得到翻译文本，该翻译模型是根据历史翻译文本和教师类-学生类框架训练得到的。该技术方案中，利用根据历史翻译文本和教师类-学生类框架训练得到的对待翻译文本进行翻译，提高了翻译时的响应速度，提高了用户体验。

可选的，在本申请上述实施例的基础上，该基于翻译模型的翻译方法，在上述步骤12(将该待翻译文本输入到翻译模型中，得到翻译文本)之前，还可以包括如下步骤：

根据历史翻译文本，基于教师类-学生类框架对学生类网络模型进行训练，得到翻译模型，该历史翻译文本包括：源文本和目标文本。

在本实施例中，NMT系统可以根据现有翻译模型(例如，翻译结果准确度高但参数维度大的翻译模型)的历史翻译记录获取到待训练对象，即历史翻译文本。示例性的，该历史翻译文本包括：源文本和目标文本。

示例性的，本实施例采用教师类-学生类(teacher-student)框架，其中，教师类网络模型(teacher模型)为参数多的大模型，学生类网络模型(student模型)为参数少的小模型。该教师类-学生类框架主要用来进行深度学习模型的压缩，其是在深度学习场景下，为了既可以获得较高的准确率，又能满足线上预测任务(例如，在线翻译)的快速响应需求下应运而生的。

在该教师类-学生类框架下，教师类网络模型相当于原始复杂的深度神经网络结构，学生类网络模型则是一种轻量级的网络结构，因此，教师类网络模型会有较高的预测准确率，它会指导学生类网络模型在简化参数之后达到最好的预测效果。

在本实施例中，在基于教师类-学生类框架对学生类网络模型进行训练时不仅拟合上述目标文本，同时还需要拟合教师类网络模型的输出，这样可以得到较高的输出结果。示例性的，学生类网络模型的源文本是独热码(one-hot)型数据，这样学生类网络模型在目标端输出的信息量较小，当引入教师类网络模型的输出后，这时学生类网络模型的输出是建立在所有类别上的概率，从而学生类网络模型在目标端输出的信息量会变大，例如，哪些类别的源文本对应的输出概率更接近，哪些类别的源文本对应的输出概率差异较大。

进一步的，在本实施例中，学生类网络模型在学习的时候不仅拟合源文本的数据分布，同时也拟合了模型分布，这在一定程度上可以解决数据曝光偏差(exposure bias)的问题。

因而，在本实施例中，可以将获取到的源文本输入到教师类-学生类框架中的教师类网络模型和学生类网络模型中，通过不断训练更新使得学生类网络模型的输出文本与目标文本的差异满足预设误差，从而得到翻译模型。

示例性的，图2为本申请实施例提供的基于翻译模型的翻译方法实施例二的流程示意图。如图2所示，在本实施例中，上述步骤(根据历史翻译文本，基于教师类-学生类框架对学生类网络模型进行训练，得到翻译模型，该历史翻译文本包括：源文本和目标文本)具体可以通过如下步骤实现：

步骤21：根据上述源文本、目标文本，基于教师类-学生类框架中的多教师类网络模型，确定多教师类网络模型的第一预测结果。

可选的，本实施例在训练翻译模型时采用的教师类-学生类框架中的教师类网络模型是多教师类网络模型，采用多教师类网络模型(multi-teacher)融合的方式可以增加教师类网络模型的表达能力。

在本实施例中，多教师类网络模型的融合可以有多种方式，例如，参数求平均、预测结果加权求和等。在本实施例中，为了简化翻译模型的训练流程，本实施例选用预测结果加权求和的方式进行融合。

相应的，在本实施例中，可以将上述源文本输入到教师类-学生类框架中的多教师类网络模型的每个教师类网络模型中，基于每个教师类网络模型的输出结果和目标文本，确定出每个教师类网络模型的预测结果，进而得到该多教师类网络模型的第一预测结果。

步骤22：根据上述源文本、目标文本，基于教师类-学生类框架中的学生类网络模型，确定该学生类网络模型的第二预测结果。

可选的，在本实施例中，在基于教师类-学生类框架中的多教师类网络模型确定多教师类网络模型的第一预测结果的同时，还可以将上述源文本输入到教师类-学生类框架中的学生类网络模型中，基于学生类网络模型的输出结果和目标文本，确定出该学生类网络模型的第二预测结果。

示例性的，在本实施例中，该步骤22可以通过如下步骤实现：

步骤A1：将上述源文本输入到学生类网络模型中得到第二预测文本。

在本实施例中，当NMT系统将上述确定的用于训练翻译模型的源文本输入到学生类网络模型中，相应的，该学生类网络模型会输出一个预测文本，本实施例中称为第二预测文本。

步骤A2：根据该第二预测文本和上述目标文本，得到该学生类网络模型的第二预测结果。

可选的，将该学生类网络模型输出的第二预测文本与上述目标文本进行比较，判定该第二预测文本与该目标文本的相似度，从而得到出该学生类网络模型的第二预测结果。

步骤23：基于上述第一预测结果，通过迭代方式更新第二预测结果，直到第二预测结果与第一预测结果的差异性满足预设误差，得到翻译模型。

可选的，在本实施例中，多教师类网络模型中的每个教师类网络模型均是事先训练好的参数维度大、翻译效果好的大模型，因而，上述确定的第一预测结果的准确度较高。

由于学生类网络模型会学习教师类网络模型预测结果的概率分布，所以，不断提升教师类网络模型的预测结果相当于间接提升学生类网络模型的性能。因而，本实施例中训练翻译模型就是利用多教师类网络模型的第一预测结果指导学生类网络模型在简化参数之后达到最好预测效果的过程。

具体的，NMT系统可以基于上述第一预测结果不断改善学生类网络模型的参数以不断更新第二预测结果，并且在每次更新第二预测结果后，均将更新后的第二预测结果与第一预测结果进行比较，当更新后的第二预测结果与第一预测结果的差异性满足预设误差时，停止对学生类网络模型的参数进行更改，最后得到的学生类网络模型即为训练得到的翻译模型。

本申请实施例提供的基于翻译模型的翻译方法，根据源文本、目标文本，基于教师类-学生类框架中的多教师类网络模型确定多教师类网络模型的第一预测结果，以及基于教师类-学生类框架中的学生类网络模型确定学生类网络模型的第二预测结果，最后基于该第一预测结果，通过迭代方式更新第二预测结果，直到更新后的第二预测结果与第一预测结果的差异性满足预设误差，得到翻译模型。该技术方案中，通过多教师类网络模型的第一预测结果，不断更新学生类网络模型的第二预测结果，最后得到翻译质量好、响应速度快的翻译模型，利用该翻译模型进行文本翻译，终端设备的响应速度快，用户体验好。

进一步的，在上述图2所示实施例的基础上，图3为本申请实施例提供的基于翻译模型的翻译方法实施例三的流程示意图。如图3所示，在本实施例中，上述步骤21(根据上述源文本、目标文本，基于教师类-学生类框架中的多教师类网络模型，确定多教师类网络模型的第一预测结果)具体可以通过如下步骤实现：

步骤31：将上述源文本输入到该多教师类网络模型中的每个教师类网络模型中，得到多个第一预测文本。

当NMT系统将上述确定的用于训练翻译模型的源文本输入到多教师类网络模型的每个教师类网络模型中，每个教师类网络模型可以分别输出一个预测文本，本实施例中称为第一预测文本，相应的，多个教师类网络模型则对应多个第一预测文本。

步骤32：根据该多个第一预测文本和上述目标文本，得到多教师类网络模型的多个第一预测子结果；

在本实施例中，将多教师类网络模型中每个教师类网络模型得到的第一预测文本分别与上述目标文本进行比较，判定两者的相似度，从而确定每个教师类网络模型的第一预测子结果。

步骤33：对该多个第一预测子结果进行加权求和，得到该第一预测结果。

可选的，为了简化多教师类网络模型的预测流程，且保证多教师类网络模型输出准确的预测结果，本实施例中，可以在翻译模型的训练过程中，将多教师类网络模型中每个教师类网络模型输出的预测子结果进行加权求和，并将加权求和的结果作为第一预测结果。

示例性的，图4为基于教师类-学生类框架训练学生类网络模型的架构示意图。可选的，图4所示的架构示意图以两个教师类网络模型和一个学生类网络模型进行解释说明。

具体的，第一教师类网络模型和第二教师类网络模型均为事先训练好的大模型，在基于第一教师类网络模型和第二教师类网络模型进行批训练(batch training)时，首先将源文本正常输入到这两个教师类网络模型中，相应的，这两个教师类网络模型可以分别输出其对源文本的预测概率分布(对应第一预测子结果)，其次可以对得到的两个预测概率分布输入到集成学习模块进行集成学习(即将上述实施例中的预测结果进行融合)，形成学生类网络模型需要拟合的预测概率分布(对应第一预测结果)。

示例性的，集成学习的公式采用如下公式(1)所示：

式中，q′()为第一预测结果对应的预测概率分布，q_n()为第n个教师类网络模型的预测子结果对应的预测概率分布，x表示输入的源文本，θ_T表示多教师类网络模型的参数集合，表示第n个教师类网络模型的参数集合，

＝k表示在输入的源文本为x的条件下，教师类网络模型预测的输出结果y为k，N表示教师类网络模型的总个数。

本申请实施例提供的基于翻译模型的翻译方法，通过将源文本输入到多教师类网络模型中的每个教师类网络模型中，得到多个第一预测文本，根据多个第一预测文本和上述目标文本，得到多教师类网络模型的多个第一预测子结果，最后对多个第一预测子结果进行加权求和，得到第一预测结果。该技术方案能够得到多教师类网络模型的预测结果，其为后续得到翻译质量好的翻译模型提供了实现前提。

示例性的，在上述各实施例的基础上，图5为本申请实施例提供的基于翻译模型的翻译方法实施例四的流程示意图。如图5示，在本实施例中，上述步骤23(基于上述第一预测结果，通过迭代方式更新第二预测结果，直到第二预测结果与第一预测结果的差异性满足预设误差，得到翻译模型)具体可以通过如下步骤实现：

步骤51：对第一预测结果和第二预测结果进行集成学习，得到该多教师类网络模型和学生类网络模型之间的相对熵。

在本实施例中，参照上述图4所示的架构示意图，学生类网络模型即是本申请实施例需要训练的目标网络，即翻译模型。所以，若想得到翻译质量好、响应速度快的翻译模型，NMT系统同时需要拟合有效正确数据和教师类网络模型集成学习之后的结果。

具体的，如图4所示，将学生类网络模型得到的第二预测结果与多教师类网络模型集成学习得到的第一预测结果在集成学习模块求相对熵运算，即采用多教师类网络模型和学生类网络模型之间的相对熵(又称KL散度)来度量学生类网络模型与多教师类网络模型之间的差异性，KL散度越小，证明学生类网络模型的预测概率分布与多教师类网络模型的预测概率分布越接近。

示例性的，该多教师类网络模型和学生类网络模型之间的相对熵(KL散度)L_KD可以用如下公式(2)表示：

式中，p()为第二预测结果对应的预测概率分布，θ为学生类网络模型的参数集合，关于q′()、y、k、x、等参数的含义与上述公式(1)中的相同，此处不再赘述。

步骤52：根据该第二预测结果拟合学生类网络模型的有效正确数据的损失函数。

在机器学习中，有效正确数据(ground truth)也称为标定的真实数据，其表示有监督学习的训练集的分类准确性，用于证明或者推翻某个假设。有监督的机器学习会对训练数据打标记，那么将会对测试数据的预测产生影响且正确打标记的数据成为groundtruth。

在本实施例中，如图4所示，在根据学生类网络模型的第二预测结果在有效正确数据模块拟合有效正确数据的损失函数时，采用交叉熵损失函数L_NLL，如公式(3)所示：

式中，表示y是否等于k，如果y＝k，则的值为1，否则的值为0。θ为student模型的参数集合。关于本公式中未说明含义的参数，可参见上述公式(1)和公式(2)中的记载，此处不再赘述。

步骤53：根据上述相对熵和上述损失函数，采用梯度块方法迭代更新第二预测结果，直到该相对熵和损失函数的整体损失小于预设误差，得到翻译模型。

可选的，在本实施例中，对于教师类-学生类框架，上述相对熵和上述损失函数的整合损失可以采用公式(4)表示：

L＝α*L_NLL+(1-α)*L_KD (4)

式中，α为超参数，具体的大于0且小于1，在实际应用中，α取值为0.5。

在本实施例中，因为教师类网络模型是事先训练好的，所以在训练学生类网络模型时无需再更新参数，这时，可以采用梯度块方法对第二预测结果进行迭代更新，以阻断教师类网络模型参数的回传，即进行批训练的时候只更新学生类网络模型的参数，教师类网络模型的参数保持不变，直到该相对熵和损失函数的整体损失小于预设误差，得到的学生类网络模型即为待求的翻译模型。

本申请实施例提供的基于翻译模型的翻译方法，通过对第一预测结果和第二预测结果进行集成学习，得到多教师类网络模型和学生类网络模型之间的相对熵，根据该第二预测结果拟合学生类网络模型的有效正确数据的损失函数，根据该相对熵和损失函数，采用梯度块方法迭代更新第二预测结果，直到相对熵和损失函数的整体损失小于预设误差，得到翻译模型。该技术方案得到的翻译模型性能高，响应速度快，当其应用于终端设备上时提高了用户体验。

值得说明的是，本实施例训练得到的翻译模型，相对于现有小模型的基准线，提升双语评估替换(bilingual evaluation understudy，BLEU)值2个点以上，并且小模型相比于大模型的性能BLEU只损失1个点不到，速度要比大模型提升50％，而且，本申请实施例的翻译模型训练方法在提速技术上只需要修改训练过程，无需针对特定平台进行矩阵加速，通用性更高，并且提速效果要优于矩阵加速。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图6为本申请实施例提供的基于翻译模型的翻译装置实施例一的结构示意图。如图6所示，该装置可以包括：获取模块61和翻译模块62。

其中，该获取模块61，用于获取待翻译文本；

该翻译模块62，用于将该获取模块61获取到的待翻译文本输入到翻译模型中，得到翻译文本，所述翻译模型是根据历史翻译文本和教师类-学生类框架训练得到的。

可选的，在上述实施例的基础上，图7为本申请实施例提供的基于翻译模型的翻译装置实施例二的结构示意图。如图7所示，该装置还包括：训练模块71。

该训练模块71，用于在上述翻译模块62将获取模块61获取到的待翻译文本输入到翻译模型中，得到翻译文本之前，根据上述历史翻译文本，基于教师类-学生类框架对学生类网络模型进行训练，得到上述翻译模型，所述历史翻译文本包括：源文本和目标文本。

可选的，在上述实施例的基础上，图8为本申请实施例提供的基于翻译模型的翻译装置实施例三的结构示意图。如图8所示，上述训练模块71，包括：预测单元81和确定单元82。

其中，该预测单元81，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果；

该确定单元82，用于基于所述第一预测结果，通过迭代方式更新所述第二预测结果，直到更新后的第二预测结果与所述第一预测结果的差异性满足预设误差，得到翻译模型。

示例性的，在本实施例的一种可能实现方式中，该预测单元81，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，具体为：

该预测单元81，具体用于将所述源文本输入到所述多教师类网络模型中的每个教师类网络模型中，得到多个第一预测文本，根据所述多个第一预测文本和所述目标文本，得到所述多教师类网络模型的多个第一预测子结果，对所述多个第一预测子结果进行加权求和，得到所述第一预测结果。

示例性的，在本实施例的一种可能实现方式中，该预测单元81，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果，具体为：

该预测单元81，具体用于将所述源文本输入到所述学生类网络模型中得到第二预测文本，根据所述第二预测文本和所述目标文本，得到所述学生类网络模型的第二预测结果。

示例性的，在本实施例的一种可能实现方式中，该确定单元82，具体用于对所述第一预测结果和所述第二预测结果进行集成学习，得到所述多教师类网络模型和所述学生类网络模型之间的相对熵，根据所述第二预测结果拟合所述学生类网络模型的有效正确数据的损失函数，根据所述相对熵和所述损失函数，采用梯度块装置迭代更新所述第二预测结果，直到所述相对熵和所述损失函数的整体损失小于所述预设误差，得到所述翻译模型。

可选的，在上述任一实施例中，作为一种示例，该获取模块61，具体用于获取用户通过人机交互界面输入的所述待翻译文本。

作为另一种示例，该获取模块61，具体用于根据用户的文本选定指令，从人机交互界面上获取所述文本选定指令对应的所述待翻译文本。

本申请实施例提供的装置，可用于执行图1至图5所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图9为本申请实施例提供的基于翻译模型的翻译装置实施例四的结构示意图。如图9所示，该基于翻译模型的翻译装置，可以包括：处理器91和存储器92及存储在所述存储器92上并可在所述处理器91上运行的计算机程序，所述处理器91执行所述程序时实现如上述图1至图5所示实施例的方法。

可选的，本申请实施例还提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述图1至图5所示实施例的方法。

可选的，本申请实施例还提供一种运行指令的芯片，所述芯片用于执行上述图1至图5所示实施例的方法。

本申请实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图1至图5所示实施例的方法。

本文中的术语“多个”是指两个或两个以上。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

可以理解的是，在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种基于翻译模型的翻译方法，其特征在于，包括：

获取待翻译文本；

2.根据权利要求1所述的方法，其特征在于，在所述将所述待翻译文本输入到翻译模型中，得到翻译文本之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据历史翻译文本，基于所述教师类-学生类框架对学生类网络模型进行训练，得到翻译模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果，包括：

6.根据权利要求3-5任一项所述的方法，其特征在于，所述基于所述第一预测结果，通过迭代方式更新所述第二预测结果，直到更新后的第二预测结果与所述第一预测结果的差异性满足预设误差，得到翻译模型，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述获取待翻译文本，包括：

获取用户通过人机交互界面输入的所述待翻译文本。

8.根据权利要求1-5任一项所述的方法，其特征在于，所述获取待翻译文本，包括：

9.一种基于翻译模型的翻译装置，其特征在于，包括：获取模块和翻译模块；

所述获取模块，用于获取待翻译文本；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：训练模块；

11.根据权利要求10所述的装置，其特征在于，所述训练模块，包括：预测单元和确定单元；

12.根据权利要求11所述的装置，其特征在于，所述预测单元，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的多教师类网络模型，确定所述多教师类网络模型的第一预测结果，具体为：

13.根据权利要求11所述的装置，其特征在于，所述预测单元，用于根据所述源文本、所述目标文本，基于所述教师类-学生类框架中的学生类网络模型，确定所述学生类网络模型的第二预测结果，具体为：

14.根据权利要求11-13任一项所述的装置，其特征在于，所述确定单元，具体用于对所述第一预测结果和所述第二预测结果进行集成学习，得到所述多教师类网络模型和所述学生类网络模型之间的相对熵，根据所述第二预测结果拟合所述学生类网络模型的有效正确数据的损失函数，根据所述相对熵和所述损失函数，采用梯度块装置迭代更新所述第二预测结果，直到所述相对熵和所述损失函数的整体损失小于所述预设误差，得到所述翻译模型。

15.一种基于翻译模型的翻译装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-8任一项所述的方法。

16.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-8任一项所述的方法。