CN111680528A

CN111680528A - 一种翻译模型压缩方法、装置、设备及存储介质

Info

Publication number: CN111680528A
Application number: CN202010517869.9A
Authority: CN
Inventors: 叶忠义; 吴飞; 方四安; 徐承
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-18
Anticipated expiration: 2040-06-09
Also published as: CN111680528B

Abstract

本申请提供了一种翻译模型的压缩方法、装置、设备及存储介质，其中，方法包括：获取目标翻译模型，目标翻译模型包括多个结构相同的层，每层中包括多个结构相同的节点；利用训练文本集中的训练文本训练目标翻译模型，并在训练目标翻译模型的过程中，确定目标翻译模型中不参与训练文本运算的层和节点，将不参与训练文本运算的层和节点屏蔽掉；将训练结束后得到的模型，确定为目标翻译模型对应的压缩后翻译模型。本申请提供的翻译模型压缩方法可同时在深度和广度上对目标翻译模型进行压缩，从而能够获得较高的压缩比，并且，本申请将目标翻译模型的训练与压缩相结合，能够降低模型压缩带来的效果损失，从而使压缩后的翻译模型具有较好的性能。

Description

一种翻译模型压缩方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种翻译模型压缩方法、装置、设备及存储介质。

背景技术

神经网络模型因为普适性好、容易训练等优点已被广泛用于人工智能领域。随着人工智能领域对机器智能化需求的提高，神经网络模型的结构设计得愈加复杂，所需的计算量也随之增加，因此，需要较高的计算能力才能实现一次推理运算。

翻译模型是近些年应用较广的模型，其参数量通常在亿级往上，因此，其对于设备的计算能力要求极高，若设备的计算能力不足，将导致翻译速度大幅下降。

目前，大量终端设备(如手机、PAD、车载终端等)由于功耗和体积的限制，只能提供较低的计算能力，翻译模型在这些设备上基本无法使用。为了使翻译模型能够在具有较低计算能力的设备上使用，往往需要对翻译模型进压缩，而如何对翻译模型进行压缩是目前亟需解决的问题。

发明内容

有鉴于此，本申请提供了一种翻译模型压缩方法、装置、设备及存储介质，用于对需要较高计算能力的翻译模型进行压缩，以使其能够在具有较低计算能力的设备上使用，其技术方案如下：

一种翻译模型的压缩方法，包括：

获取目标翻译模型，所述目标翻译模型包括多个结构相同的层，每层中包括多个结构相同的节点；

利用训练文本集中的训练文本训练所述目标翻译模型，并在训练所述目标翻译模型的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，将不参与所述训练文本运算的层和节点屏蔽掉；

将训练结束后得到的模型，确定为所述目标翻译模型对应的压缩后翻译模型。

可选的，所述利用训练文本集中的训练文本训练所述目标翻译模型，并在训练所述目标翻译模型的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，将不参与所述训练文本运算的层和节点屏蔽掉，包括：

将所述训练文本集中的训练文本输入所述目标翻译模型进行运算；

在所述目标翻译模型对所述训练文本进行运算的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，并将不参与所述训练文本运算的层和节点屏蔽掉，获得屏蔽后翻译模型；

根据所述屏蔽后翻译模型对所述训练文本输出的翻译结果以及所述训练文本标注的翻译结果，更新所述目标翻译模型的参数，其中，更新的参数为在本次训练中未被屏蔽的层和节点的参数。

可选的，所述确定所述目标翻译模型中不参与所述训练文本运算的层和节点，包括：

利用压缩信息确定模型，确定所述目标翻译模型中不参与所述训练文本运算的层和节点；

所述翻译模型的压缩方法还包括：

根据所述屏蔽后翻译模型的性能和空间复杂度，对所述压缩信息确定模型的参数进行更新。

可选的，所述利用压缩信息确定模型，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，包括：

利用所述压缩信息确定模型，以及所述目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型中不参与所述训练文本运算的层和节点。

可选的，所述利用所述压缩信息确定模型，以及所述目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，包括：

利用所述压缩信息确定模型中的门限概率网络，以及所述目标翻译模型每层的表征信息，确定所述目标翻译模型每层被丢弃的概率；

利用所述压缩信息确定模型中的广度遮掩网络，以及所述目标翻译模型每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率；

根据所述目标翻译模型每层被丢弃的概率，以及，所述目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率，确定所述目标翻译模型中不参与所述训练文本运算的层和节点。

可选的，确定所述目标翻译模型每层的表征信息，以及所述目标翻译模型每层所包含的子层中至少一个子层的表征信息，包括：

在将所述训练文本输入所述目标翻译模型后，根据所述目标翻译模型每层运算后输出的隐含状态，确定所述目标翻译模型每层的表征信息；

根据所述目标翻译模型每层所包含的子层中至少一个子层运算后输出的隐含状态，确定所述目标翻译模型每层所包含的子层中至少一个子层的表征信息。

可选的，所述门限概率网络包括多个门限特征确定模块，一个门限特征确定模块与所述目标翻译模型的一个层对应；

所述利用所述压缩信息确定模型中的门限概率网络，以及所述目标翻译模型每层的表征信息，确定所述目标翻译模型每层被丢弃的概率，包括：

将所述目标翻译模型每层的表征信息输入所述门限概率网络中对应的门限特征确定模块中，获得所述目标翻译模型每层对应的门限特征向量；

根据所述目标翻译模型每层对应的门限特征向量，确定所述目标翻译模型每层被丢弃的概率。

可选的，所述目标翻译模型的每个层均设置有开关；

所述将不参与所述训练文本运算的层和节点屏蔽掉，包括：

将不参与所述训练文本运算的层上设置的开关关闭，以将不参与所述训练文本运算的层屏蔽掉；

利用掩模将不参与所述训练文本运算的节点遮掩住，以将不参与所述训练文本运算的节点屏蔽掉。

一种翻译模型的压缩装置，包括：翻译模型获取模块、翻译模型训练及压缩模块和压缩后翻译模型确定模块；

所述翻译模型获取模块，用于获取目标翻译模型，所述目标翻译模型包括多个结构相同的层，每层中包括多个结构相同的节点；

所述翻译模型训练及压缩模块，用于利用训练文本集中的训练文本训练所述目标翻译模型，并在训练所述目标翻译模型的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，将不参与所述训练文本运算的层和节点屏蔽掉；

所述压缩后翻译模型确定模块，用于将训练结束后得到的模型，确定为所述目标翻译模型对应的压缩后翻译模型。

一种模型压缩设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的翻译模型的压缩方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的翻译模型的压缩方法的各个步骤。

经由上述方案可知，本申请提供的翻译模型的压缩方法、装置、设备及存储介质，在获得待压缩的目标翻译模型时，可利用训练文本集中的训练文本训练目标翻译模型，并在训练目标翻译模型的过程中，确定目标翻译模型中不参与训练文本运算的层和节点，以将不参与训练文本运算的层和节点屏蔽掉，在训练结束时，将训练得到的模型确定为目标翻译模型对应的压缩后翻译模型，由此可见，本申请提供的翻译模型压缩方法既可在深度上对目标翻译模型进行压缩(针对目标翻译模型的层进行压缩)，又能在广度上对目标翻译模型进行压缩(针对目标翻译模型的节点进行压缩)，同时在深度和广度上对目标翻译模型进行压缩，能够获得较高的压缩比，并且，本申请将目标翻译模型的训练与压缩相结合，能够降低模型压缩带来的效果损失，从而使压缩后的翻译模型具有较好的性能，即通过压缩后的翻译模型对待翻译文本进行翻译，可获得翻译质量较高的翻译结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的翻译模型的压缩方法的流程示意图；

图2为Transformer模型的结构示意图；

图3为本申请实施例提供的利用训练文本集中的训练文本训练目标翻译模型，并在训练目标翻译模型的过程中，确定目标翻译模型中不参与训练文本运算的层和节点，将不参与训练文本运算的层和节点屏蔽掉的流程示意图；

图4为本申请实施例提供的利用门限概率网络和广度遮掩网络确定不参与训练文本运算的层和节点的示意图；

图5为本申请实施例提供的利用门限概率网络和广度遮掩网络，以及目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定目标翻译模型中不参与训练文本运算的层和节点的流程示意图；

图6为本申请实施例提供的16层Transformer模型各层的相对重要性示意图；

图7为本申请实施例提供的门限概率网络的一结构示意图；

图8为本申请实施例提供的广度遮掩网络确定需保留节点的示意图；

图9为本申请实施例提供的从块的维度确定的需要保留节点的示意图；

图10为本申请实施例提供的翻译模型的压缩装置的结构示意图；

图11为本申请实施例提供的翻译模型的压缩设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了能够实现对翻译模型进行压缩，以使其能够在具有较低计算能力的设备上使用，本案发明人进行了研究，起初提出了两种压缩方案，分别为基于模型裁剪的模型压缩方案，以及基于知识蒸馏的模型压缩方案。

其中，基于模型裁剪的模型压缩方法的大致思路为，通过对翻译模型的参数进行裁剪，来降低翻译模型的参数量；基于知识蒸馏的模型压缩方案的大致思路为，利用全参数的翻译模型作为教师网络，压缩后的模型作为学生网络，通过让学生网络和教师网络共享一部分知识，让学生网络的翻译效果逼近教师网络。

然而，本案发明人通过对上述两种压缩方案进行研究发现，上述两种压缩方案存在诸多缺陷，具体如下：

对于基于模型裁剪的模型压缩方案而言，在裁剪时，通常基于参数的大小裁剪，或者基于正则化裁剪，其中，前者是在翻译模型训练完以后，根据参数的大小，对低于一定阈值的参数进行丢弃，从而减少参数量，通常在丢弃一部分参数后，会对保留的参数进行再训练，以减少性能损失，后者则是在翻译模型训练过程中，对参数添加正则化约束，比如L0正则或者Dropout等，训练完成后根据正则化系数的大小来决定丢失哪些参数。

由此可见，基于模型裁剪的模型压缩方案需要多阶段进行训练，然后再进行网络的裁剪，其中，模型训练过程和网络结构裁剪往往是独立分开的，这会导致不同的模型压缩方法训练的模型，其裁剪方案往往差异比较大，需要模型压缩人员进行多次尝试以找到各个模型压缩方案所对应的裁剪方案。由于语言的多样性，以及翻译模型的双向性(中英翻译、英中翻译)，导致翻译模型数量通常非常多，对不同语言对，不同翻译方向的模型进行压缩裁剪，将是一个非常耗时耗力的工作，不利于翻译模型向多语言方向扩展。

另外，基于模型裁剪的模型压缩方案无论是基于参数大小裁剪还是基于正则化裁剪，往往存在一个阈值的概念，小于某个阈值的参数就会被丢弃，而这个阈值需要人工大量的实验或者经验，由于不能穷举所有阈值，导致很难选取最优阈值，进而导致裁剪的模型往往不是全局最优的，从而与全参数模型相比效果损失仍然比较大。

基于模型裁剪的模型压缩方案和基于知识蒸馏的模型压缩方案都是从深度上对模型的层数进行裁剪，比如12层变成6层，而未从广度(模型的隐含层节点数)进行裁剪。一般认为，对模型的广度进行裁剪，会更容易降低模型效果，只对深度进行裁剪，也限制了模型裁剪的压缩能力。

鉴于上述两种方案存在的缺陷，本案发明人进一步进行研究，最终提出了一种效果较好的、对翻译模型的压缩方法，该压缩方法既能从广度上对翻译模型进行压缩，又能够从深度上对翻译模型进行压缩，且压缩后的翻译模型具有较好的翻译效果，该压缩方案能对任何类型的翻译模型进行压缩，比如，可对中英翻译模型、英中翻译模型、中法翻译模型、中韩翻译模型等进行压缩。本申请提供的翻译模型的压缩方法可应用具有较高处理能力的终端，还可应用于服务器(比如，单个服务器、多个服务器、服务器集群等)。接下来，通过下述实施例对本申请提供的翻译模型的压缩方法进行详细介绍。

第一实施例

请参阅图1，示出了本实施例提供的翻译模型的压缩方法的流程示意图，可以包括：

步骤S101：获取目标翻译模型。

其中，目标翻译模型为待压缩的翻译模型，目标翻译模型包括多个结构相同的层，每层中包括多个结构相同的节点，需要说明是，本申请提及的层为目标翻译模型的基本构成单元，本申请提及的节点为每层中的隐含节点。

需要说明的是，目前的翻译模型多为Transformer模型，Transformer模型为Encoder-Decoder结构，其中，Encoder部分包括多个结构相同的层，Decoder部分也包括多个结构相同的层，Encoder和Decoder中的每个层均包括多个结构相同的节点。

请参阅图2，示出了Transformer模型的结构示意图，Transformer模型中的Encoder部分的每个层包括两个子层，分别为多头子注意力层(图2中的Multi-HeadAttention)和前馈全连接层(图2中的Feed Forward)，多头子注意力层和前馈全连接层均增设了残差连接和标准化模块(如图2中的Add&Norm)。Decoder的结构和Encoder类似，不同之处在于，在每层里面多了Encoder和Decoder之间的注意力机制。

步骤S102：利用训练文本集中的训练文本训练目标翻译模型，并在训练目标翻译模型的过程中，确定目标翻译模型中不参与训练文本运算的层和节点，将不参与训练文本运算的层和节点屏蔽掉。

其中，确定目标翻译模型中不参与训练文本运算的层是为了从深度上对目标模型进行压缩，而确定目标翻译模型中不参与训练文本运算的节点是为了从广度上对目标模型进行压缩。

需要说明的是，将不参与训练文本运算的层和节点屏蔽掉，相当于将这些层和节点丢弃，使其不参与训练文本的运算，进而实现目标翻译模型的压缩。

步骤S103：将训练结束后得到的模型，确定为目标翻译模型对应的压缩后翻译模型。

本申请将目标翻译模型的训练过程与压缩过程相结合，即训练与压缩同时进行，在训练的过程中对一些层和节点进行丢弃，使其不参与运算，从而达到对目标翻译模型压缩的目的。需要说明的是，将对目标翻译模型的训练过程与压缩过程相结合使得模型压缩成为了一个端到端的过程。

由于目标翻译模型的训练过程与压缩过程同时进行，这意味着训练结束即压缩结束，因此，目标翻译模型对应的压缩后翻译模型为对目标模型进行最后一次训练后得到的模型，该模型中不参与运算的层和节点(此处不参与运算的层和节点指的是在最后一次训练时，确定的不参与运算的层和节点)被丢弃。

本申请实施例提供的翻译模型的压缩方法，在获得待压缩的目标翻译模型时，可利用训练文本集中的训练文本训练目标翻译模型，并在训练目标翻译模型的过程中，确定目标翻译模型中不参与训练文本运算的层和节点，以将不参与训练文本运算的层和节点屏蔽掉，在训练结束时，将训练得到的模型确定为目标翻译模型对应的压缩后翻译模型，由此可见，本申请实施例提供的翻译模型放入压缩方法既可在深度上对目标翻译模型进行压缩(针对目标翻译模型的层进行压缩)，又能在广度上对目标翻译模型进行压缩(针对目标翻译模型的节点进行压缩)，同时在深度和广度上对目标翻译模型进行压缩，能够获得较高的压缩比，并且，本申请实施例将目标翻译模型的训练与压缩相结合，能够降低模型压缩带来的效果损失，从而使压缩后的翻译模型具有较好的性能。

第二实施例

本实施例对上述实施例中的“步骤S102：利用训练文本集中的训练文本训练目标翻译模型，并在训练目标翻译模型的过程中，确定目标翻译模型中不参与训练文本运算的层和节点，将不参与训练文本运算的层和节点屏蔽掉”进行介绍。

请参阅图3，示出了步骤S102的具体实现过程的流程示意图，可以包括：

步骤S301：从训练文本集中获取一训练文本。

步骤S302a：将获取的训练文本输入目标翻译模型进行运算。

目标翻译模型通过对输入的训练文本进行运算，以输出训练文本的翻译结果。

步骤S302b：利用压缩信息确定模型确定目标翻译模型中不参与训练文本运算的层和节点，并将不参与训练文本运算的层和节点屏蔽掉，获得屏蔽后翻译模型。

本申请在目标翻译模型对训练文本进行运算的过程中，确定不参与训练文本运算的层和节点，并将不参与训练文本运算的层和节点屏蔽掉，即本申请将目标翻译模型的训练过程与压缩过程相结合。

需要说明的是，屏蔽后翻译模型即为在本次对目标翻译模型进行训练的过程中对目标翻译模型进行压缩得到的压缩后翻译模型，最终针对训练文本确定的翻译结果为屏蔽后翻译模型的翻译结果。

步骤S303a：根据屏蔽后翻译模型对训练文本输出的翻译结果以及训练文本标注的翻译结果，更新目标翻译模型的参数。

具体的，根据屏蔽后翻译模型对训练文本输出的翻译结果以及训练文本标注的翻译结果计算损失(比如交叉熵损失)，根据计算出的损失更新目标翻译模型的参数。需要说明是，更新的参数为在本次训练中未被屏蔽的层和节点的参数。

步骤S303b：根据屏蔽后翻译模型的性能和空间复杂度，对压缩信息确定模型的参数进行更新。

按上述步骤S301～步骤S303进行多次迭代训练，直至达到预设的迭代次数，或者，压缩后翻译模型的性能满足要求。

本申请将屏蔽后翻译模型的性能，以及屏蔽后翻译模型的空间复杂度作为压缩信息确定模型进行强化学习的目标。强化学习的状态空间为压缩信息确定模型的参数空间，强化学习的动作空间为目标翻译模型的广度以及深度的压缩决策。

需要说明的是，根据屏蔽后翻译模型的性能对压缩信息确定模型的参数进行更新的目的在于，确定最优的压缩信息(即层和节点)，即挑选最优的压缩方式，进而最优地对目标翻译模型进行压缩，根据屏蔽后翻译模型的空间复杂度为对压缩信息确定模型的参数进行更新的目的在于，挑选尽量小的模型，同时根据屏蔽后翻译模型的性能和屏蔽后翻译模型的空间复杂度对压缩信息确定模型的参数进行更新，能够达到以最小的网络结构获取最优翻译效果的目的。

具体的，根据屏蔽后翻译模型的性能和空间复杂度，对压缩信息确定模型的参数进行更新的过程可以包括：确定屏蔽后翻译模型的性能得分和空间复杂度得分，将屏蔽后翻译模型的性能得分和空间复杂度得分求和，根据求和得到的得分对压缩信息确定模型的参数进行更新，以对压缩信息确定模型进行优化，从而使其能够学会如何最优地对目标翻译模型进行压缩。

其中，屏蔽后翻译模型的性能得分可利用验证文本集确定，具体的，确定屏蔽后翻译模型针对验证文本集中每个文本的翻译质量得分，将屏蔽后翻译模型对验证文本集中各个文本的翻译质量得分求均值，求均值得到的得分作为屏蔽后翻译模型的性能得分；屏蔽后翻译模型的空间复杂度得分可根据屏蔽后翻译模型的空间结构确定。

第三实施例

本实施例对上述实施例中的“步骤S302b：利用压缩信息确定模型确定目标翻译模型中不参与训练文本运算的层和节点，并将不参与训练文本运算的层和节点屏蔽掉，获得屏蔽后翻译模型”进行介绍。

利用压缩信息确定模型确定目标翻译模型中不参与训练文本运算的层和节点的过程可以包括：利用压缩信息确定模型，以及目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定目标翻译模型中不参与训练文本运算的层和节点。

在一种可能的实现方式中，压缩信息确定模型可以包括门限概率网络和广度遮掩网络，如图4所示，本申请实施例利用门限概率网络确定目标翻译模型中不参与训练文本运算的层，利用广度遮掩网络确定目标翻译模型中不参与训练文本运算的节点。

请参阅图5，示出了利用包括门限概率网络和广度遮掩网络的压缩信息确定模型，以及目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定目标翻译模型中不参与训练文本运算的层和节点的流程示意图，可以包括：

步骤S501a：利用压缩信息确定模型中的门限概率网络，以及目标翻译模型每层的表征信息，确定目标翻译模型每层被丢弃的概率。

本案发明人通过研究发现，目标翻译模型中各层的重要性不同，无论是上述Transformer模型中的Encoder部分还是Decoder部分，各层的重要性都不相同，在一个16层Transformer模型中，各层的相对重要性如图6所示，图中横轴为层编号，纵轴为去掉该层后的语言模型平均困惑度，一般来说困惑度越低，语言模型效果越好，去掉该层后语言模型困惑度越低，说明该层的重要性越低，从图中可以看出，Transformer顶部和底部的层重要性更高，中间的层重要性比较低，并且顶部的层比底部的层重要性更高一些，基于此，本申请利用门限概率网络对层重要性的先验知识进行建模，使得门限概率网络能够确定哪些层被丢弃。

本实施例中的门限概率网络可以包括多个门限特征确定模块，一个门限特征确定模块与目标翻译模型的一个层对应，基于此，利用压缩信息确定模型中的门限概率网络，以及目标翻译模型每层的表征信息，确定目标翻译模型每层被丢弃的概率的过程可以包括：将目标翻译模型每层的表征信息输入门限概率网络中对应的门限特征确定模块，获得目标翻译模型每层对应的门限特征向量；根据目标翻译模型每层对应的门限特征向量，确定目标翻译模型每层被丢弃的概率。

可选的，上述的门限特征确定模块可以为长短时记忆网络LSTM，即门限概率网络包括多个LSTM，每个LSTM对应目标翻译模型的一个层，基于此，请参阅图7，示出了门限概率网络的一结构示意图，图7中的x₀为目标翻译模型第0层的表征信息，将其输入对应的LSTM后，可获得目标翻译模型第0层对应的门限特征向量h₀，获得目标翻译模型第0层对应的门限特征向量h₀后，对门限特征向量h₀进行softmax操作，即可得到目标翻译模型第0层被丢弃的概率，图7中的x₁为目标翻译模型第1层的表征信息，将其输入对应的LSTM后，可获得目标翻译模型第1层对应的门限特征向量h₁，获得目标翻译模型第1层对应的门限特征向量h₁后，对门限特征向量h₁进行softmax操作，即可得到目标翻译模型第1层被丢弃的概率，其它层以此类推。

其中，目标翻译模型每层的表征信息可通过如下方式获得：在将训练文本输入目标翻译模型后，根据目标翻译模型每层运算后输出的隐含状态，确定目标翻译模型每层的表征信息，具体的，对于目标翻译模型的每层，可将该层输出的隐含状态的均值作为该层的表征信息，从而获得目标翻译模型每层的表征信息。以目标翻译模型第0层的表征信息为例，训练文本输入目标翻译模型后，目标翻译模型的第0层对训练文本进行运算，然后输出隐含状态，对第0层输出的隐含状态计算均值，计算得到的均值作为第0层的表征信息。

步骤S501b：利用压缩信息确定模型中的广度遮掩网络，以及目标翻译模型每层所包含的子层中至少一个子层的表征信息，确定目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率。

在目标翻译模型为Transformer模型时，考虑到模型参数绝大部分集中在每层中的前向全连接层中，本申请在确定不参与训练文本运算的节点时，可只确定每层的前向全连接层中不参与训练文本运算的节点，有鉴于此，可利用目标翻译模型的每层中前向全连接层的表征信息，从每层的前向全连接层中确定不参与训练文本运算节点。当然，本实施例并不限定于此，也可利用目标翻译模型每层中每个子层的表征信息，从每层的各个子层中确定不参与训练文本运算的层和节点。

其中，目标翻译模型每层中一子层的表征信息可通过如下方式获得：在训练文本输入目标翻译模型后，根据该子层运算后输出的隐含状态，确定该子层的表征信息，假设该子层为前向全连接层，则可将前向全连接层输出的隐含状态作为前向全连接层的表征信息。

请参阅图8，示出了广度遮掩网络确定需保留节点的示意图，广度遮掩网络可以包括两个卷积层和一个池化层，目标翻译模型每层所包含的子层中至少一个子层的表征信息(比如前向全连接层的表征信息)输入广度遮掩网络后，广度遮掩网络对输入的信息进行两次卷积操作和一次池化操作，以确定目标翻译模型中需要保留的节点。

需要说明的是，本申请在对目标翻译模型进行训练时，同时从广度和深度两个方向上对目标翻译模型进行压缩，在深度上对目标翻译模型进行压缩时，各层是否被丢弃是相互独立的，而在广度上对目标翻译模型进行压缩时，出于矩阵计算的便捷性考虑，可从块的维度确定需要保留的节点，也就是说，最终确定的需要保留的节点集中在一块，如图9所示，基于此，通过广度遮掩网络确定的、需要保留的节点可通过起始位置和结束位置表征，即通过起始位置和结束位置便可获知哪些节点被保留。

步骤S502：根据目标翻译模型每层被丢弃的概率，以及，目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率，确定目标翻译模型中不参与训练文本运算的层和节点。

具体的，根据目标翻译模型每层被丢弃的概率确定目标翻译模型中不参与训练文本运算的层；根据目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率，确定目标翻译模型中不参与训练文本运算的节点。

在确定出目标翻译模型中不参与训练文本运算的层和节点后，本申请通过将不参与训练文本运算的层和节点屏蔽掉来实现对目标翻译模型的压缩。在一种可能的实现方式中，可在目标翻译模型的每层设置开关(开关打开，对应层参与运算，开关关闭，对应层不参与运算)，将不参与训练文本运算的层上设置的开关关闭，从而将不参与训练文本运算的层屏蔽掉，对于不参与训练文本运算的节点，可利用掩模将不参与训练文本运算的节点遮掩住，从而将不参与训练文本运算的节点屏蔽掉。

经由上述实施例可知，本申请提供的翻译模型的压缩方法具有如下特点：

其一，将目标翻译模型的训练过程与压缩过程相结合，这使得模型压缩过程成为一个端到端的过程，从而能够降低人力消耗，且能够达到更好的压缩效果；其二，将目标翻译模型的训练目标与目标翻译模型的压缩目标有机的结合在一起，进行联合优化，这使得最终获得的压缩后模型既具有较小的结构，又具有较好的翻译效果；其三，同时在广度方向和深度方向上对目标翻译模型进行压缩，可获得较高的压缩比；其四，可自动学习目标翻译模型中各层参数的重要性，从而自动将不重要的层进行丢弃，引入门限概率网络和广度遮掩网络对目标翻译模型在深度方向和广度方向上参数的重要性进行建模，使其能够高效地丢弃参数，而不是随机的盲目丢弃参数。

第四实施例

本申请实施例还提供了一种翻译模型的压缩装置，下面对本申请实施例提供的翻译模型的压缩装置进行描述，下文描述的翻译模型的压缩装置与上文描述的翻译模型的压缩方法可相互对应参照。

请参阅图10，示出了本申请实施例提供的翻译模型的压缩装置的结构示意图，可以包括：翻译模型获取模块1001、翻译模型训练及压缩模块1002和压缩后翻译模型确定模块1003。

翻译模型获取模块1001，用于获取目标翻译模型，所述目标翻译模型包括多个结构相同的层，每层中包括多个结构相同的节点；

翻译模型训练及压缩模块1002，用于利用训练文本集中的训练文本训练所述目标翻译模型，并在训练所述目标翻译模型的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，将不参与所述训练文本运算的层和节点屏蔽掉；

压缩后翻译模型确定模块1003，用于将训练结束后得到的模型，确定为所述目标翻译模型对应的压缩后翻译模型。

可选的，翻译模型训练及压缩模块1002包括：模型训练模块、模型压缩模块和第一参数更新模块。

模型训练模块，用于将所述训练文本集中的训练文本输入所述目标翻译模型进行运算。

模型压缩模块，用于在所述目标翻译模型对所述训练文本进行运算的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，并将不参与所述训练文本运算的层和节点屏蔽掉，获得屏蔽后翻译模型。

第一参数更新模块，用于根据所述屏蔽后翻译模型对所述训练文本输出的翻译结果以及所述训练文本标注的翻译结果，更新所述目标翻译模型的参数，其中，更新的参数为在本次训练中未被屏蔽的层和节点的参数。

可选的，模型压缩模块在确定所述目标翻译模型中不参与所述训练文本运算的层和节点时，具体用于利用压缩信息确定模型，确定所述目标翻译模型中不参与所述训练文本运算的层和节点。

翻译模型训练及压缩模块1002还包括：第二参数更新模块。

第二参数更新模块，用于根据所述屏蔽后翻译模型的性能和空间复杂度，对所述压缩信息确定模型的参数进行更新。

可选的，所述模型压缩模块在利用压缩信息确定模型，确定所述目标翻译模型中不参与所述训练文本运算的层和节点时，具体用于：利用所述压缩信息确定模型，以及所述目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型中不参与所述训练文本运算的层和节点。

可选的，所述模型压缩模块在利用所述压缩信息确定模型，以及所述目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型中不参与所述训练文本运算的层和节点时，具体用于：利用所述压缩信息确定模型中的门限概率网络，以及所述目标翻译模型每层的表征信息，确定所述目标翻译模型每层被丢弃的概率；利用所述压缩信息确定模型中的广度遮掩网络，以及所述目标翻译模型每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率；根据所述目标翻译模型每层被丢弃的概率，以及，所述目标翻译模型每层所包含的子层中至少一个子层所包含的每个节点被保留的概率，确定所述目标翻译模型中不参与所述训练文本运算的层和节点。

可选的，所述模型压缩模块，还用于在将所述训练文本输入所述目标翻译模型后，根据所述目标翻译模型每层运算后输出的隐含状态，确定所述目标翻译模型每层的表征信息；根据所述目标翻译模型每层所包含的子层中至少一个子层运算后输出的隐含状态，确定所述目标翻译模型每层所包含的子层中至少一个子层的表征信息。

可选的，所述门限概率网络包括多个门限特征确定模块，一个门限特征确定模块与所述目标翻译模型的一个层对应。

模型压缩模块在利用所述压缩信息确定模型中的门限概率网络，以及所述目标翻译模型每层的表征信息，确定所述目标翻译模型每层被丢弃的概率时，具体用于：将所述目标翻译模型每层的表征信息输入所述门限概率网络中对应的门限特征确定模块中，获得所述目标翻译模型每层对应的门限特征向量；根据所述目标翻译模型每层对应的门限特征向量，确定所述目标翻译模型每层被丢弃的概率。

可选的，所述目标翻译模型的每个层均设置有开关；所述模型压缩模块在将不参与所述训练文本运算的层和节点屏蔽掉时，具体用于：将不参与所述训练文本运算的层上设置的开关关闭，以将不参与所述训练文本运算的层屏蔽掉；利用掩模将不参与所述训练文本运算的节点遮掩住，以将不参与所述训练文本运算的节点屏蔽掉。

本申请实施例提供的翻译模型压缩装置，既可在深度上对目标翻译模型进行压缩(针对目标翻译模型的层进行压缩)，又能在广度上对目标翻译模型进行压缩(针对目标翻译模型的节点进行压缩)，同时在深度和广度上对目标翻译模型进行压缩，能够获得较高的压缩比，并且，本申请实施例将目标翻译模型的训练与压缩相结合，能够降低模型压缩带来的效果损失，从而使压缩后的翻译模型具有较好的性能。

第五实施例

本申请实施例还提供了一种翻译模型的压缩设备，请参阅图11，示出了该翻译模型的压缩设备的结构示意图，该翻译模型的压缩设备可以包括：至少一个处理器1101，至少一个通信接口1102，至少一个存储器1103和至少一个通信总线1104；

在本申请实施例中，处理器1101、通信接口1102、存储器1103、通信总线1104的数量为至少一个，且处理器1101、通信接口1102、存储器1103通过通信总线1104完成相互间的通信；

处理器1101可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第六实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种翻译模型的压缩方法，其特征在于，包括：

2.根据权利要求1所述的翻译模型的压缩方法，其特征在于，所述利用训练文本集中的训练文本训练所述目标翻译模型，并在训练所述目标翻译模型的过程中，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，将不参与所述训练文本运算的层和节点屏蔽掉，包括：

3.根据权利要求2所述的翻译模型的压缩方法，其特征在于，所述确定所述目标翻译模型中不参与所述训练文本运算的层和节点，包括：

所述翻译模型的压缩方法还包括：

4.根据权利要求3所述的模型压缩方法，其特征在于，所述利用压缩信息确定模型，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，包括：

5.根据权利要求4所述的翻译模型的压缩方法，其特征在于，所述利用所述压缩信息确定模型，以及所述目标翻译模型每层的表征信息和每层所包含的子层中至少一个子层的表征信息，确定所述目标翻译模型中不参与所述训练文本运算的层和节点，包括：

6.根据权利要求4所述的翻译模型的压缩方法，其特征在于，确定所述目标翻译模型每层的表征信息，以及所述目标翻译模型每层所包含的子层中至少一个子层的表征信息，包括：

7.根据权利要求5所述的翻译模型的压缩方法，其特征在于，所述门限概率网络包括多个门限特征确定模块，一个门限特征确定模块与所述目标翻译模型的一个层对应；

8.根据权利要求1所述的翻译模型的压缩方法，其特征在于，所述目标翻译模型的每个层均设置有开关；

所述将不参与所述训练文本运算的层和节点屏蔽掉，包括：

9.一种翻译模型的压缩装置，其特征在于，包括：翻译模型获取模块、翻译模型训练及压缩模块和压缩后翻译模型确定模块；

10.一种模型压缩设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的翻译模型的压缩方法的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的翻译模型的压缩方法的各个步骤。