CN113159168A

CN113159168A - 基于冗余词删除的预训练模型加速推理方法和系统

Info

Publication number: CN113159168A
Application number: CN202110420970.7A
Authority: CN
Inventors: 孙茂松; 叶德铭; 林衍凯; 黄宇飞
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-23
Anticipated expiration: 2041-04-19
Also published as: CN113159168B

Abstract

本发明实施例提供一种基于冗余词删除的预训练模型加速推理方法和系统，其中所述方法包括：使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调，得到一个微调好的初始模型；在微调好的初始模型中添加若干层词选择层，在所述微调好的初始模型中逐层向前传递词的过程中，在输入的词中仅保留通过所述词选择层的词进入到下一层；其中，所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。本发明实施例提供的一种预训练语言模型加速推理方法，不但可以降低预训练语言模型推理时的资源消耗，还可以拓展其至长文本处理以获得更好的效果。同时，本发明可以快速得到不同加速度下相对性能较好的模型，具有良好的实用性。

Description

基于冗余词删除的预训练模型加速推理方法和系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于冗余词删除的预训练模型加速推理方法和系统。

背景技术

大规模预训练语言模型在无监督文本上进行预训练，并在下游任务微调，其中最具代表性的工作是以多层双向Transformer层为骨架的BERT模型。近年来，以BERT为代表的预训练语言模型在许多自然语言处理任务上取得优异的表现，在自然语言推断，机器问答与文本分类任务上都取得当前最好的效果。

然而，预训练语言模型包含大量参数，在推理时通常会消耗大量的计算资源，导致他们在使用时存在着较大的延迟。在真实的硬件和功耗受限场景下，如在手机终端上，或在实时应用场景下，如在搜索引擎上，人们都难以部署表现最好的预训练语言模型。因此，提高预训练语言模型在下游任务上的推理速度能使得优质的机器理解能力得到更广泛的应用。

在具体应用中，人们需要根据实际需求选择一个符合速度要求时性能最好的预训练语言模型。针对有不同的速度要求，人们需要重新训练不同规模的预训练语言模型，而预训练需要在大规模语料库上进行随机遮盖词预测，耗费大量的计算资源。因此，快速地针对不同的速度要求得到相对性能较好的模型亦十分重要。

此外，在机器问答和文本分类任务中，机器阅读更多的文本时通常能从大量的文本信息中获得更多线索，整合这些线索能获得更好的性能。然而当前的预训练语言模型均以多层双向Transformer层为骨架，参与Transformer层自注意机制的所有词之间需要两两计算注意权重，所以自注意力的时间复杂度与参与序列长度的平方成正比。因此，预训练模型在长文本上的运行时间随着序列变长而急剧增长，这限制了将预训练语言模型在长文本任务上的应用，即限制了其综合建模更多文本信息的能力。

因此，如何在真实世界的应用场景中快速得到满足不同速度要求时相对性能较高的预训练语言模型，如何使得预训练语言模型在大量文本信息的任务上能有更高效的表现，这两者都是亟待解决的问题。

发明内容

本发明提供一种基于冗余词删除的预训练模型加速推理方法和系统，用以解决现有技术中存在的技术缺陷。

本发明提供一种基于冗余词删除的预训练模型加速推理方法，包括：

使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调，得到一个微调好的初始模型；

在微调好的初始模型中添加若干层词选择层，在所述微调好的初始模型中逐层向前传递词的过程中，在输入的词中仅保留通过所述词选择层的词进入到下一层；

其中，所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，所述使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调，得到一个微调好的初始模型包括：

将给定下游任务的句子中的所有单词转化为连续的词向量表示输入预训练语言模型；

在预训练语言模型将输入的词向量表示转化为词的富上下文信息的向量表示后，将所述富上下文信息的向量表示和样本标签输入至所述预训练语言模型中的分类器进行微调训练，得到一个微调好的初始模型。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，所述将输入的词向量表示转化为词的富上下文信息的向量表示具体包括：

设置第0层的词向量表示为输入单词的词向量表示，第i层的词向量表示H_i通过以下公式得到：

M_i-1＝LayerNorm(H_i-1+Self-ATT(H_i-1))

H_i＝LayerNorm(M_i-1+FFN(M_i-1))

其中，H_i-1为第i-1层表示，M_i-1为H_i-1通过自注意力机制模块Self-ATT计算得到中间计算结果，H_i为第i层的向量表示，中间计算结果M_i-1通过全连接模块FFN计算得到的第i层的表示，LayerNorm为归一化函数。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，所述词选择层包括选词策略评估网络：

所述选词策略评估网络用于对所述输入的词进行重要度评估，计算保留所述输入的词的概率值：

其中，

为输入第t个词选择层时序列中n个词的表示，a_t为这n个词的动作状态集合，每个词的动作状态为选择或跳过；θ＝{W₁,W₂,b₁,b₂}为可训练的选词策略评估网络的参数，W1,W2为可训练的变换矩阵，b1,b2为可训练的偏置向量；GeLU为GeLU激活函数；σ为sigmoid激活函数，输出为一个0～1的概率值。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，所述词选择层包括选词修剪网络：

所述选词修剪网络用于筛选出所述输入的词的概率值不小于预设阈值的词；将筛选出的词序列记为

其中n^*≤n；

将筛选出的词序列传入下一个Transformer层中，得到下一层的表示：

其中

分别为筛选出的词序列

在输入第t个词选择层时的表示；得到的H′包含筛选出的词序列信息进入到下一层。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到包括：

根据

使用伯努利分布采样得到筛选出的词序列，并优化词选择层以获得满足预设条件的期望奖励；

期望奖励函数定义为：

R＝logpr(y＝Y|X)-λ·∑_t|{a_t＝Select}|

其中X,Y分别为样本数据以及预先确定的词信息量标签，Pr(y＝Y|X)为分类概率值；∑_t|{a_t＝Select}|为各选择层的筛选出的词总数；通过调整比例值λ得到满足不同预设条件的词选择层。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，所述方法还包括：

若当前为最终层，将第r层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要值；所述重要值I的定义为：

其中，H_l和H_r分别为第l层和的r层的词序列表示，

为最终分类器损失函数L对H_r的导数，其中，r>l；将所述重要度作为预先确定的词信息量标签，选择重要值I最大的K个词作为一种推荐选词序列，协助所述加速推理方法的训练。

本发明还提供了一种基于冗余词删除的预训练模型加速推理系统，包括：

微调模块，用于使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调，得到一个微调好的初始模型；

加速推理模块，用于在微调好的初始模型中添加若干层词选择层，在所述微调好的初始模型中逐层向前传递词的过程中，在输入的词中仅保留通过所述词选择层的词进入到下一层；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于冗余词删除的预训练模型加速推理方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于冗余词删除的预训练模型加速推理方法的步骤。

本发明实施例提供的一种预训练语言模型加速推理方法，能够解决现有技术中存在的预训练语言模型推理效率较低，且难以处理长序列的问题，本发明不但可以降低预训练语言模型推理时的资源消耗，还可以拓展其至长文本处理以获得更好的效果。同时，可以快速得到不同加速度下相对性能较好的模型，具有良好的实用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于冗余词删除的预训练模型加速推理方法的流程示意图；

图2是本发明一实施例提供的基于冗余词删除的预训练模型加速推理系统的示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于冗余词删除的预训练模型加速推理方法，参见图1，包括：

S1:使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调，得到一个微调好的初始模型；

大规模预训练语言模型在无监督文本上进行预训练，并在下游任务微调，其中最具代表性的工作是以多层双向Transformer层为骨架的BERT模型。预训练语言模型一般采用BERT模型，近年来，以BERT为代表的预训练语言模型在许多自然语言处理任务上取得优异的表现，在自然语言推断，机器问答与文本分类任务上都取得当前最好的效果。

预训练语言模型BERT的输入为句子的所有单词。首先将这所有单词转化为连续的向量表示。这里，每一个输入的单词转化为一个词向量矩阵中的向量。进一步地，我们还使用位置向量来对词的位置进行区分。最终的词向量定义为词向量矩阵中的向量与位置向量之和。

并通过多层双向Transformer层将输入的词向量表示转化为词的富上下文信息的向量表示。这里，一个Transformer层操作通过残差操作和层规约(LayerNorm)级联一个自注意力机制模块Self-ATT和一个全连接模块FFN。

S2:在微调好的初始模型中添加若干层词选择层，在所述微调好的初始模型中逐层向前传递词的过程中，在输入的词中仅保留通过所述词选择层的词进入到下一层；

在BERT逐层向前传递词的过程删去信息量较少的冗余词，保留需要进一步编码的词进入到后续层。

本发明实施例提供的一种预训练语言模型加速推理方法，能够解决现有技术中存在的预训练语言模型推理效率较低，且难以处理长序列的问题，不但可以降低预训练语言模型推理时的资源消耗，还可以拓展其至长文本处理以获得更好的效果。同时，本发明可以快速得到不同加速度下相对性能较好的模型，具有良好的实用性。

在预训练语言模型将输入的词向量表示转化为词的富上下文信息的向量表示后，将所述富上下文信息的向量表示和样本标签输入至预训练语言模型中的分类器中进行微调训练，得到一个微调好的初始模型。

M_i-1＝LayerNorm(H_i-1+Self-ATT(H_i-1))

H_i＝LayerNorm(M_i-1+FFN(M_i-1))

其中，H_i-1为第i-1层表示，M_i-1为H_i-1通过自注意力机制模块Self-ATT计算得到中间计算结果，H_i为第i层的向量表示，中间计算结果M_i-1通过全连接模块FFN计算得到的第i层的表示，LayerNorm为归一化函数。最后，将最终层(第L层)的表示H_L将输入至分类器进行微调训练。

在预训练语言模型BERT中插入添加若干层词选择层，进一步的，发现添加两层词选择层最为有效。例如，对于包含12层Transformer层的预训练语言模型，在第2层和第6层前加入词选词层，对于包含6层Transformer层的预训练语言模型，在第2层和第4层前加入词选择层。

根据本发明提供的基于冗余词删除的预训练模型加速推理方法，将词在进入词选择层前的当前层的表示，输入至策略评估网络，评估其重要度。也就是说，所述词选择层包括选词策略评估网络：

其中，

所述选词修剪网络用于筛选出所述输入的词的概率值不小于预设阈值的词；预设阈值可以设为0.5，保留

的词。将筛选出的词序列记为

其中n^*≤n；

其中

分别为筛选出的词序列

在输入第t个词选择层时的表示；得到的H′包含筛选出的词序列信息进入到下一层。得到的H′包含当前重要的词信息，将继续参与后续层的特征提取。可以认为被删除的词已经编码了足够的信息，并将被删除的冗余词的当前层表示作为他们的最终层表示。

在训练中，我们根据

使用伯努利分布采样得到选择词序列，并优化词选择层以获得更高的期望奖励。奖励值包括两项:

(1)选词后最终分类层的预测概率值；

(2)选择的保留词数目。

进一步的，期望的是选词后最终分类层的预测概率值尽量大以满足性能要求，且选择的保留词数目尽量小以满足速度需求。所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到包括：

根据

期望奖励函数定义为：

R＝log pr(y＝Y|X)-λ·∑_t|{a_t＝Select}|

特别地，通过估计删去词对预测的影响，在前期训练中，我们为强化学习提供启发式的参考选词策略以加速收敛，若当前为第l层，我们计算将第r(r>l)层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要度，所述方法还包括：

若当前为最终层，将第r层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要值；选择重要值I最大的K个词，所述重要值I的定义为：

其中，H_l和H_r分别为第l层和的r层的词序列表示，

为最终分类器损失函数L对H_r的导数，其中，r>l，K可以根据实际需要设定，K为正整数，启发式的参考的选词策略选择重要值I最大的K个词。其中，K设置为当前策略网络的期望选词个数，以与当前采样的选词序列的选词个数保持相近。在强化学习学习训练中，采样若干个选词序列，计算并比较他们的奖励值，以对采样的各个选词序列进行奖惩。在前期训练中，插入一条启发式的参考选词序列作为一种较优解引导策略网络优化。而在中后期训练中我们则不再加入此序列，开放优化自由度，让策略网络自我进化。在训练过程将词选择层进行一个较好的初始化后，以给定任务的损失函数优化选词后的网络，使其适应删除冗余词后的词序列，同时训练词选择网络。两种训练的损失函数以1:1的比例相加联合训练得到最终模型。

本发明实施例公开了一种基于冗余词删除的预训练模型加速推理系统，参见图2，包括：

微调模块10，用于使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调，得到一个微调好的初始模型；

加速推理模块20，用于在微调好的初始模型中添加若干层词选择层，在所述微调好的初始模型中逐层向前传递词的过程中，在输入的词中仅保留通过所述词选择层的词进入到下一层；

图3示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行一种基于冗余词删除的预训练模型加速推理方法，该方法包括：

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行一种基于冗余词删除的预训练模型加速推理方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行一种基于冗余词删除的预训练模型加速推理方法，该方法包括：

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。