CN111126079B

CN111126079B - 用于机器翻译的神经网络模型压缩方法、装置及存储介质

Info

Publication number: CN111126079B
Application number: CN201911167600.6A
Authority: CN
Inventors: 李响; 孙于惠; 李京蔚; 姜佳良
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-11-07
Anticipated expiration: 2039-11-25
Also published as: US20210158126A1; US11556761B2; KR20210065013A; JP7030885B2; JP2021086601A; EP3825924A1; CN111126079A; KR102475588B1

Abstract

本公开是关于一种用于机器翻译的神经网络模型压缩方法、装置及存储介质。机器翻译的神经网络模型压缩方法中，基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，所述N为大于1的正整数；对于所述N个训练样本中的每一个分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标，并基于所述N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标；基于所述联合优化目标训练学生模型。本公开可以更有效的将教师模型的知识迁移到学生模型中，改进学生模型的翻译质量。

Description

用于机器翻译的神经网络模型压缩方法、装置及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及用于机器翻译的神经网络模型压缩方法、装置及存储介质。

背景技术

基于神经网络的深度学习已经在图像分类，机器翻译和语音识别等多个机器学习任务上取得良好了的性能，而其中利用神经网络模型进行机器翻译已经成为目前主流的机器翻译方法，具有广阔的学术和市场价值。

当前，对复杂神经网络模型进行高效压缩从而降低模型存储开销，提高模型推理速度，同时尽可能减少压缩对翻译质量的损害，成为将用于机器翻译的神经网络模型应用于移动终端上的关键技术，也是当前学术界和工业界研究的热点。

相关技术中，采用知识蒸馏(Knowledge Distillation)方法对用于机器翻译的神经网络模型进行压缩，既可以减小模型复杂度，又可以缓解模型压缩导致的预测精度下降的问题，成为目前主流的神经网络模型压缩方法。采用知识蒸馏方式对神经网络模型压缩可以理解为是使用一个高精度的大模型去指导小模型的训练，大模型又可称为教师模型，小模型又可称为学生模型。可以使用一个教师模型训练多个学生模型。

然而，常规用于压缩神经网络模型的知识蒸馏方法，信息迁移准确度较低，进而学生模型的翻译质量较低，利用神经网络模型进行机器翻译在移动终端上的翻译效果较差，影响用户体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种用于机器翻译的神经网络模型压缩方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种用于机器翻译的神经网络模型压缩方法，包括：

基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，所述N为大于1的正整数；对于所述N个训练样本中的每一个分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标，并基于所述N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标；基于所述联合优化目标训练学生模型。

一种实施方式中，所述N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，所述n为大于等于1且小于等于N的正整数；

所述基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，包括：

基于所述N个训练样本，训练所述第一教师模型；基于所述N个训练样本，获得N个逆向训练样本，其中第n个逆向训练样本所包含的第n个逆向目标语言序列为第n个训练样本所包含的第n个目标语言序列的逆向序列；基于所述N个逆向训练样本，训练所述第二教师模型。

另一种实施方式中，所述对于第n个训练样本，分别确定与所述第一教师模型相关联的第一指导分量，以及与所述第二教师模型相关联的第二指导分量，包括：

获取所述第一教师模型对于第n个目标语言序列的第一预测结果、所述第二教师模型对于第n个目标语言序列的逆向序列的第二预测结果、以及所述学生模型对于第n个目标语言序列的第三预测结果；确定所述学生模型的所述第三预测结果相对于所述第一教师模型的所述第一预测结果的第一损失函数，作为所述第一指导分量；以及确定所述学生模型的所述第三预测结果相对于所述第二教师模型的所述第二预测结果的第二损失函数，作为所述第二指导分量。

又一种实施方式中，所述确定所述学生模型的所述第三预测结果相对于所述第一教师模型的所述第一预测结果的第一损失函数，包括：

获取所述学生模型在对所述第n个目标语言序列所包含的每一个目标词汇进行预测时的第三概率分布、以及所述第一教师模型在对所述第n个目标语言序列所包含的每一个目标词汇进行预测时的第一概率分布，基于所述第三概率分布和所述第一概率分布确定所述第一损失函数。

所述确定所述学生模型的所述第三预测结果相对于所述第二教师模型的所述第二预测结果的第二损失函数，包括：

获取所述学生模型在对所述第n个目标语言序列所包含的每一个目标词汇进行预测时的第三概率分布、以及所述第二教师模型在对所述第n个目标语言序列的逆向序列所包含的每一个目标词汇进行预测时的第二概率分布，基于所述第三概率分布和所述第二概率分布确定所述第二损失函数。

又一种实施方式中，所述对于第n个训练样本，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的子优化目标，包括：

确定所述第一指导分量对应的第一权重，以及所述第二指导分量对应的第二权重；以及获取所述学生模型对于所述第n个训练样本的自优化分量，并确定所述自优化分量对应的第三权重；基于所述第一权重、所述第二权重以及所述第三权重，对所述第一指导分量、所述第二指导分量以及所述自优化分量进行加权求和，以获得所述子优化目标。

又一种实施方式中，所述第一权重和所述第二权重之和为1。

又一种实施方式中，所述学生模型对于所述第n个训练样本的自优化分量采用如下方式确定：

基于第n个训练样本目标语言序列长度，以及训练样本目标语言词表大小，确定所述学生模型对于所述第n个训练样本的负对数似然损失函数；将所述负对数似然损失函数，作为所述自优化分量。

根据本公开实施例的第二方面，提供一种用于机器翻译的神经网络模型压缩装置，包括：

教师模型训练单元，被配置为基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，所述N为大于1的正整数；联合优化目标确定单元，被配置为对于所述N个训练样本中的每一个分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标，并基于所述N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标；学生模型训练单元，被配置为基于所述联合优化目标，训练学生模型。

又一种实施方式中，所述N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，所述n为大于等于1且小于等于N的正整数；

所述教师模型训练单元，被配置为采用如下方式基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型：

又一种实施方式中，对于第n个训练样本，所述联合优化目标确定单元被配置为采用如下方式分别确定与所述第一教师模型相关联的第一指导分量，以及与所述第二教师模型相关联的第二指导分量：

又一种实施方式中，所述联合优化目标确定单元被配置为采用如下方式确定所述学生模型的所述第三预测结果相对于所述第一教师模型的所述第一预测结果的第一损失函数：

所述联合优化目标确定单元被配置为采用如下方式确定所述学生模型的所述第三预测结果相对于所述第二教师模型的所述第二预测结果的第二损失函数：

又一种实施方式中，对于第n个训练样本，所述联合优化目标确定单元被配置为采用如下方式根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的子优化目标：

又一种实施方式中，所述第一权重和所述第二权重之和为1。

又一种实施方式中，所述联合优化目标确定单元采用如下方式确定所述学生模型对于所述第n个训练样本的自优化分量：

基于训练数据样本数目、第n训练样本目标语言序列长度，以及训练样本目标语言词表大小，确定所述学生模型对于所述第n个训练样本的负对数似然损失函数；将所述负对数似然损失函数，作为所述自优化分量。

根据本公开实施例的第三方面，提供一种用于机器翻译的神经网络模型压缩装置，包括：

处理器；用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第一方面或者第一方面任意一种实施方式中所述的神经网络模型压缩方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得处理器能够执行第一方面或者第一方面任意一种实施方式中所述的神经网络模型压缩方法。

本公开的实施例提供的技术方案可以包括以下有益效果：基于两个教师模型分别确定的两个指导分量，确定联合优化目标，基于联合优化目标训练学生模型，可以更有效的将教师模型的知识迁移到学生模型中，改进学生模型的翻译质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种用于机器翻译的神经网络模型压缩方法的流程图。

图2是根据一示例性实施例示出的一种确定训练样本对应的联合优化目标的流程图。

图3是根据一示例性实施例示出的一种训练第一教师模型和第二教师模型的方法流程图。

图4是根据一示例性实施例示出的一种确定指导分量的方法流程图。

图5是根据一示例性实施例示出的一种双向知识蒸馏神经机器翻译学生模型训练框架。

图6是根据一示例性实施例示出的一种用于机器翻译的神经网络模型压缩装置的框图。

图7是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供的用于机器翻译的神经网络模型压缩方法应用于对双语平行句对的学生模型的训练。其中，学生模型可以理解为是移动终端部署的用于机器翻译的知识蒸馏神经网络模型。移动终端部署的用于机器翻译的学生模型网络结构复杂度远小于云端服务器部署的用于机器翻译的教师模型，可以减少参数规模并能提升解码速度，但同时由于模型容量的减少其翻译质量也会下降。

有鉴于此，本公开实施例提供一种用于机器翻译的神经网络模型压缩方法，基于N个训练样本分别训练两个教师模型，并针对N个训练样本中每个训练样本，利用两个教师模型相关联的两个指导分量，确定训练样本的联合优化目标。基于N个训练样本中的每一个训练样本以及与其对应的联合优化目标，训练学生模型，可以更有效的将教师模型的知识迁移到学生模型中，改进学生模型的翻译质量。

一种实施方式中，本公开实施例中基于N个源语言端相同，且目标语言端序列互逆的训练样本，分别训练两个教师模型。例如，可以利用N个自左向右(left-to-right，L2R)训练样本和N个自右向左(right-to-left，R2L)训练样本，并利用负对数释然函数(thenegative log-likelihood，NLL)损失函数作为优化目标，分别训练得到L2R教师模型和R2L教师模型。

本公开中为描述方便，将两个教师模型中的一个称为第一教师模型，另一个称为第二教师模型。第一教师模型对于学生模型的指导信息称为第一指导分量，第二教师模型对于学生模型的指导信息称为第二指导分量。

图1是根据一示例性实施例示出的一种用于机器翻译的神经网络模型压缩方法的流程图。如图1所示，用于机器翻译的神经网络模型压缩方法应用于移动终端中，包括以下步骤。

在步骤S11中，基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型。

其中，N为大于1的正整数。

本公开实施例一种实施方式中，N个训练样本为源语言端相同，且目标语言端序列互逆的训练样本。例如，所述N个训练样本中的第n个训练样本由第n个源语言序列和第n个目标语言序列构成的双语句对，其中，n为大于等于1且小于等于N的所有正整数。第n个目标语言序列中包括M个目标词汇。其中，M为大于1的正整数。

在步骤S12中，对于N个训练样本中的每一个训练样本分别确定与其对应的用于优化学生模型的子优化目标。

本公开实施例中，在确定训练样本对应的子优化目标时可采用如图2所示的方式进行确定。

在步骤S121中，对于第n个训练样本，分别确定第一教师模型的第一指导分量，以及第二教师模型的第二指导分量。

在步骤S122中，对于第n个训练样本，根据第一指导分量和第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标。

本公开实施例中的子优化目标可以理解为是第一教师模型和第二教师模型联合优化学生模型的蒸馏损失函数。其中，蒸馏损失函数例如可以是KL散度损失函数(也被称为相对熵损失函数)。

在步骤S13中，基于N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标，并基于确定的联合优化目标训练学生模型。

本公开实施例基于N个训练样本分别训练第一教师模型和第二教师模型，并针对N个训练样本中每个训练样本，基于第一教师模型的第一指导分量和第二教师模型的第二指导分量，确定训练样本的子优化目标。基于N个训练样本中的每一个训练样本的子优化目标确定联合优化目标，并基于联合优化目标训练学生模型，可以更有效的将教师模型的知识迁移到学生模型中，改进学生模型的翻译质量。

本公开实施例中以下结合实际应用对上述实施例涉及的神经网络模型压缩方法的实施进行说明。

一种实施方式中，本公开实施例中涉及的N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，第n个目标语言序列中包括M个目标词汇。

基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，可采用如图3所示的确定方式。

图3所示为本公开示例性实施例示出的一种训练第一教师模型和第二教师模型的方法流程图。参阅图3所示，包括以下步骤。

在步骤S111中，基于N个训练样本，训练第一教师模型。

本公开实施例中，假设包含N个双语句对的训练样本为：

采用基于编码器-解码器的神经机器翻译框架，训练自左向右(left-to-right，L2R)的L2R教师模型，即得到第一教师模型。

在步骤S112中，基于N个训练样本，获得N个逆向训练样本。其中，第n个逆向训练样本所包含的第n个逆向目标语言序列为第n个训练样本所包含的第n个目标语言序列的逆向序列。

例如，本公开实施例中，基于构建目标语言序列从右向左的训练数据

其中是/>的逆向序列，例如，/>则/>

在步骤S113中，基于N个逆向训练样本，训练第二教师模型。

本公开实施例中，可以按照L2R教师模型的训练方式，基于数据训练一个自右向左(right-to-left，R2L)的R2L教师模型，即得到第二教师模型。

本公开实施例中上述训练得到的第一教师模型和第二教师模型有各自对自身进行优化的优化目标。

由于和/>具有相同的目标语言词表(大小为|V|)，因此对于一个具有相同源语言端x的训练样本/>和/>L2R教师模型和R2L教师模型的交叉熵损失函数可以作为各自进行优化的训练优化目标。

例如，本公开实施例中对于第n个训练样本，可以采用公式1确定L2R教师模型对自身进行优化的子优化目标，并基于N个训练样本每个训练样本的子优化目标确定L2R教师模型对自身进行优化的优化目标。例如，L2R教师模型对自身进行优化的优化目标采用公式2表示。

公式1：

公式2：

本公开实施例中对于第n个逆向训练样本，可以采用公式3确定R2L教师模型对自身进行优化的子优化目标，并基于N个训练样本每个训练样本的子优化目标确定R2L教师模型对自身进行优化的优化目标。例如，R2L教师模型对自身进行优化的优化目标采用公式4表示。

公式3：

公式4：

其中，是指示函数，N表示训练数据样本数目，J_n表示第n个训练样本目标语言序列长度，|V|表示训练样本目标语言词表大小。

本公开实施例得到第一教师模型和第二教师模型后，可以针对N个训练样本中的每一个训练样本分别确定第一教师模型的第一指导分量，以及第二教师模型的第二指导分量。

本公开中对于N个训练样本中的第n个训练样本，可以采用如图4所示的方式确定第一教师模型的第一指导分量，以及第二教师模型的第二指导分量。参阅图4所示，包括如下步骤。

在步骤S1211中，获取第一教师模型对于第n个目标语言序列的第一预测结果、第二教师模型对于第n个目标语言序列的逆向序列的第二预测结果、以及学生模型对于第n个目标语言序列的第三预测结果。

本公开实施例中，在进行学生模型训练时，可以利用第一教师模型、第二教师模型以及学生模型分别对第n个目标语言序列进行预测，并依据预测结果确定第一指导分量和第二指导分量。为描述方便，本公开中，将第一教师模型对于第n个目标语言序列进行预测的预测结果，称为第一预测结果。将第二教师模型对于第n个目标语言序列进行预测的预测结果，称为第二预测结果。将学生模型对于第n个目标语言序列的预测结果，称为第三预测结果。

在步骤S1212中，确定学生模型的第三预测结果相对于第一教师模型的第一预测结果的第一损失函数，作为第一指导分量。以及确定学生模型的第三预测结果相对于第二教师模型的第二预测结果的第二损失函数，作为第二指导分量。

一种实施方式中，本公开实施例中，利用已经训练好的第一教师模型和第二教师模型分别获得N个训练样本和N个逆向训练样本在目标语言端每个词语的概率分布，并利用获取的概率分布对学生模型进行优化。例如，采用一个子优化目标用于优化学生模型，这个子优化目标的损失函数包括三个部分，第一部分损失函数是NLL损失函数，第二部分损失函数为第一教师模型的词语概率分布和学生模型目标语言词语概率分布的KL散度损失函数，第三部分损失函数为第二教师模型的词语概率分布和学生模型目标语言词语概率分布的KL散度损失函数。

一种实施方式中，本公开分别确定第一教师模型在对第n个目标语言序列所包含的每一个目标词汇进行预测时的概率分布(以下称为第一概率分布)。第二教师模型在对第n个目标语言序列的逆向序列所包含的每一个目标词汇进行预测时的概率分布(以下称为第二概率分布)。并获取学生模型在对第n个目标语言序列所包含的每一个目标词汇进行预测时的概率分布(以下称为第三概率分布)，基于第三概率分布和第一概率分布确定第一损失函数。并基于第三概率分布和第二概率分布确定第二损失函数。

例如，第一教师模型为L2R教师模型，第二教师模型为R2L教师模型。在训练学生模型时，在对训练样本的目标语言序列/>中的每个词语进行预测时，可以获得学生模型对当前目标语言序列中每个词汇/>在整个目标语言词表V上的概率分布即可以理解为是第三概率分布。

在训练过程中，同步的获得L2R教师模型在序列的概率分布即可以理解为是第一概率分布。

基于第一概率分布和第二概率分布确定第一损失函数。例如，将L2R教师模型优化学生模型的蒸馏损失函数，即KL散度损失函数作为第一损失函数，例如，第一损失函数为：

类似的，将R2L教师模型优化学生模型的蒸馏损失函数，即KL散度损失函数作为第二损失函数，例如第二损失函数为：

一示例中，对于学生模型当前使用的训练样本<x，y>来说，其中，假如x＝<a,b,c>，y＝<aa,bb,cc>。那么整个目标语言词表就是[aa,bb,cc]三个单词。对于L2R教师模型，对<x,y>这个样本进行一次前向预测(forward prediction)，也就是基于(a，b，c)预测aa的概率(因此词表只有(aa，bb，cc)三个单词，因此预测的aa的概率可能是aa:0.9,bb:0.05,cc:0.05，所有此词表上词的概率和为1)，基于(a，b，c，aa)预测bb概率，最后基于(a，b，c，bb)预测cc概率，这些L2R教师模型预测的概率表示为P_{r2l_teacher}，同样学生模型在<x，y>数据上训练时也会获得同样的(aa，bb，cc)的预测概率P_student，这时采用作为学生模型子优化目标中的一个损失分量。

同理，对于R2L教师模型，区别在于其预测的顺序变为根据(a，b，c)预测cc概率，根据(a，b，c，cc)预测bb概率，根据(a，b，c，bb)预测aa概率，然后将三个概率顺序进行逆操作就获得了R2L模型对学生模型使用的训练样本x,y中的y序列<aa,bb,cc>的词语分布预测概率，类似于L2R学生模型，这时再给学生模型的子优化目标中添加一个R2L教师模型指导的损失分量

本公开实施例中在进行学生模型训练时，学生模型的训练样本保持不变，区别在于除学生模型优化目标外，还增添了第一教师模型和第二教师模型在同样的训练样本获得的教师模型对目标语言序列和目标语言序列逆向序列的每个单词在目标语言词表V上的概率分布预测，利用这个教师模型的预测作为额外的监督信号来优化学生模型的训练。例如，第一指导分量和第二指导分量分别表示为和/>对于第n个训练样本，根据第一指导分量和第二指导分量，确定与该训练样本对应的联合优化目标可以是以及/>之间的加权求和。其中，/>为学生模型对于第n个训练样本的自优化分量。

本公开中，对于第n个训练样本的自优化分量采用如下方式确定：基于第n个训练样本目标语言序列长度，以及训练样本目标语言词表大小，确定学生模型对于第n个训练样本的负对数似然损失函数，该负对数似然损失函数理解为是自优化分量。

本公开实施例中，学生模型对于第n个训练样本的负对数似然损失函数的确定过程可以参阅上述教师模型对自身进行优化的优化目标确定的过程，本公开实施例在此不再详述。

本公开实施例中，将第一指导分量对应的权重称为第一权重，第二指导分量对应的权重称为第二权重，学生模型对第n个训练样本的自优化分量的权重称为第三权重。

一种实施方式中，确定第一指导分量对应的第一权重，以及第二指导分量对应的第二权重；以及获取学生模型对于第n个训练样本的自优化分量，并确定自优化分量对应的第三权重；基于第一权重、第二权重以及第三权重，对第一指导分量、第二指导分量以及自优化分量进行加权求和，以获得第n个训练样本的子优化目标。即子优化目标可以为以下三项的和值：与第三权重的乘积、/>与第一权重的乘积、以及/>与第二权重的乘积。

本公开实施例中，第一权重、第二权重以及第三权重为大于0且小于等于1的数值。其中，第一权重、第二权重分别为调整L2R教师模型和R2L教师模型对学生模型指导的权重。一种实施方式中，第三权重取值为1。

例如，学生模型的联合优化目标，可以表示为如下公式：

其中，α和β分别为调整L2R教师模型和R2L教师模型对学生模型指导的权重，为大于0的一个数值。

本公开实施例中，α和β之和为1。

本公开上述实施例涉及的神经网络模型压缩方法可以理解为是一种双向知识蒸馏神经机器翻译学生模型训练。例如可以为图5所示的双向知识蒸馏神经机器翻译学生模型训练框架。

图5中，两个教师模型相比学生模型有更深的网络层数，同时每层也具备更多的神经元个数，除了网络结构和模型参数量不同外，教师模型和学生模型共享相同的源语言和目标语言词表。

本公开实施例中，基于N个训练样本分别训练第一教师模型和第二教师模型，并针对N个训练样本中每个训练样本，利用第一教师模型的第一指导分量和第二教师模型的第二指导分量，确定训练样本的联合优化目标。基于N个训练样本中的每一个训练样本以及与其对应的联合优化目标，训练学生模型，可以更有效的将教师模型的知识迁移到学生模型中，改进学生模型的翻译质量。

基于相同的构思，本公开实施例还提供一种用于机器翻译的神经网络模型压缩装置。

可以理解的是，本公开实施例提供的用于机器翻译的神经网络模型压缩装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图6是根据一示例性实施例示出的一种用于机器翻译的神经网络模型压缩装置框图。参照图2，该用于机器翻译的神经网络模型压缩装置100包括教师模型训练单元101、联合优化目标确定单元102以及学生模型训练单元103。

教师模型训练单元101，被配置为基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，N为大于1的正整数。联合优化目标确定单元，被配置为对于所述N个训练样本中的每一个分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标，并基于所述N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标。学生模型训练单元103，被配置为基于N个训练样本中的每一个以及与其对应的联合优化目标，训练学生模型。

又一种实施方式中，N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，所述n为大于等于1且小于等于N的正整数。

教师模型训练单元101，被配置为采用如下方式基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型：

基于N个训练样本，训练第一教师模型。基于N个训练样本，获得N个逆向训练样本，其中第n个逆向训练样本所包含的第n个逆向目标语言序列为第n个训练样本所包含的第n个目标语言序列的逆向序列。基于N个逆向训练样本，训练第二教师模型。

又一种实施方式中，对于第n个训练样本，联合优化目标确定单元102被配置为采用如下方式分别确定第一教师模型的第一指导分量，以及第二教师模型的第二指导分量：

获取第一教师模型对于第n个目标语言序列的第一预测结果、第二教师模型对于第n个目标语言序列的逆向序列的第二预测结果、以及学生模型对于第n个目标语言序列的第三预测结果。确定学生模型的第三预测结果相对于第一教师模型的第一预测结果的第一损失函数，作为第一指导分量。以及确定学生模型的第三预测结果相对于第二教师模型的第二预测结果的第二损失函数，作为第二指导分量。

又一种实施方式中，联合优化目标确定单元102被配置为采用如下方式确定学生模型的第三预测结果相对于第一教师模型的第一预测结果的第一损失函数：

获取学生模型在对第n个目标语言序列所包含的每一个目标词汇进行预测时的第三概率分布、以及第一教师模型在对第n个目标语言序列所包含的每一个目标词汇进行预测时的第一概率分布，基于第三概率分布和第一概率分布确定第一损失函数。

联合优化目标确定单元102被配置为采用如下方式确定学生模型的第三预测结果相对于第二教师模型的第二预测结果的第二损失函数：

获取学生模型在对第n个目标语言序列所包含的每一个目标词汇进行预测时的第三概率分布、以及第二教师模型在对第n个目标语言序列的逆向序列所包含的每一个目标词汇进行预测时的第二概率分布，基于第三概率分布和第二概率分布确定第二损失函数。

又一种实施方式中，对于第n个训练样本，联合优化目标确定单元102被配置为采用如下方式根据第一指导分量和第二指导分量，确定与该训练样本对应的子优化目标：

确定第一指导分量对应的第一权重，以及第二指导分量对应的第二权重。以及获取学生模型对于第n个训练样本的自优化分量，并确定自优化分量对应的第三权重。基于第一权重、第二权重以及第三权重，对第一指导分量、第二指导分量以及自优化分量进行加权求和，以获得子优化目标。

又一种实施方式中，第一权重和第二权重之和为1。

又一种实施方式中，联合优化目标确定单元102采用如下方式确定学生模型对于第n个训练样本的自优化分量：

基于第n个训练样本目标语言序列长度，以及训练样本目标语言词表大小，确定学生模型对于第n个训练样本的负对数似然损失函数。将负对数似然损失函数，作为自优化分量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于机器翻译的神经网络模型压缩的装置200的框图。例如，装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在设备200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当设备200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到设备200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用于机器翻译的神经网络模型压缩方法，其特征在于，包括：

基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，所述N为大于1的正整数；

对于所述N个训练样本中的每一个分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标，并基于所述N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标；

基于所述联合优化目标训练学生模型；

所述N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，所述n为大于等于1且小于等于N的正整数；

对于第n个训练样本，分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，包括：

获取所述第一教师模型对于第n个目标语言序列的第一预测结果、所述第二教师模型对于第n个目标语言序列的逆向序列的第二预测结果、以及所述学生模型对于第n个目标语言序列的第三预测结果；

确定所述学生模型的所述第三预测结果相对于所述第一教师模型的所述第一预测结果的第一损失函数，作为所述第一指导分量；以及

确定所述学生模型的所述第三预测结果相对于所述第二教师模型的所述第二预测结果的第二损失函数，作为所述第二指导分量。

2.根据权利要求1所述的神经网络模型压缩方法，其特征在于，所述N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，所述n为大于等于1且小于等于N的正整数；

基于所述N个训练样本，训练所述第一教师模型；

基于所述N个训练样本，获得N个逆向训练样本，其中第n个逆向训练样本所包含的第n个逆向目标语言序列为第n个训练样本所包含的第n个目标语言序列的逆向序列；

基于所述N个逆向训练样本，训练所述第二教师模型。

3.根据权利要求1所述的神经网络模型压缩方法，其特征在于，

所述确定所述学生模型的所述第三预测结果相对于所述第一教师模型的所述第一预测结果的第一损失函数，包括：

获取所述学生模型在对所述第n个目标语言序列所包含的每一个目标词汇进行预测时的第三概率分布、以及所述第一教师模型在对所述第n个目标语言序列所包含的每一个目标词汇进行预测时的第一概率分布，基于所述第三概率分布和所述第一概率分布确定所述第一损失函数；

4.根据权利要求1所述的神经网络模型压缩方法，其特征在于，对于第n个训练样本，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的子优化目标，包括：

确定所述第一指导分量对应的第一权重，以及所述第二指导分量对应的第二权重；以及

获取所述学生模型对于所述第n个训练样本的自优化分量，并确定所述自优化分量对应的第三权重；

基于所述第一权重、所述第二权重以及所述第三权重，对所述第一指导分量、所述第二指导分量以及所述自优化分量进行加权求和，以获得所述子优化目标。

5.根据权利要求4所述的神经网络模型压缩方法，其特征在于，所述第一权重和所述第二权重之和为1。

6.根据权利要求4所述的神经网络模型压缩方法，其特征在于，所述学生模型对于所述第n个训练样本的自优化分量采用如下方式确定：

基于第n个训练样本目标语言序列长度，以及训练样本目标语言词表大小，确定所述学生模型对于所述第n个训练样本的负对数似然损失函数；

将所述负对数似然损失函数，作为所述自优化分量。

7.一种用于机器翻译的神经网络模型压缩装置，其特征在于，包括：

教师模型训练单元，被配置为基于N个训练样本，获得训练后的第一教师模型以及训练后的第二教师模型，所述N为大于1的正整数；

联合优化目标确定单元，被配置为对于所述N个训练样本中的每一个分别确定所述第一教师模型的第一指导分量，以及所述第二教师模型的第二指导分量，根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的用于优化学生模型的子优化目标，并基于所述N个训练样本中的每一个以及与其对应的子优化目标，确定联合优化目标；

学生模型训练单元，被配置为基于所述联合优化目标训练学生模型；

对于第n个训练样本，所述联合优化目标确定单元被配置为采用如下方式分别确定与所述第一教师模型相关联的第一指导分量，以及与所述第二教师模型相关联的第二指导分量：

8.根据权利要求7所述的神经网络模型压缩装置，其特征在于，所述N个训练样本中的第n个训练样本包含由第n个源语言序列和第n个目标语言序列构成的双语句对，所述n为大于等于1且小于等于N的正整数；

基于所述N个训练样本，训练所述第一教师模型；

基于所述N个逆向训练样本，训练所述第二教师模型。

9.根据权利要求7所述的神经网络模型压缩装置，其特征在于，所述联合优化目标确定单元被配置为采用如下方式确定所述学生模型的所述第三预测结果相对于所述第一教师模型的所述第一预测结果的第一损失函数：

10.根据权利要求7所述的神经网络模型压缩装置，其特征在于，对于第n个训练样本，所述联合优化目标确定单元被配置为采用如下方式根据所述第一指导分量和所述第二指导分量，确定与该训练样本对应的子优化目标：

11.根据权利要求10所述的神经网络模型压缩装置，其特征在于，所述第一权重和所述第二权重之和为1。

12.根据权利要求10所述的神经网络模型压缩装置，其特征在于，所述联合优化目标确定单元采用如下方式确定所述学生模型对于所述第n个训练样本的自优化分量：

将所述负对数似然损失函数，作为所述自优化分量。

13.一种用于机器翻译的神经网络模型压缩装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至6中任意一项所述的神经网络模型压缩方法。

14.一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得处理器能够执行权利要求1至6中任意一项所述的神经网络模型压缩方法。