CN114817500B

CN114817500B - 一种基于量化的长文本问答推理方法、设备及介质

Info

Publication number: CN114817500B
Application number: CN202210446660.7A
Authority: CN
Inventors: 陈其宾; 李锐; 张晖
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2024-05-31
Anticipated expiration: 2042-04-26
Also published as: CN114817500A

Abstract

本申请公开了一种基于量化的长文本问答推理方法、设备及介质。方法包括：获取训练数据，根据训练数据训练得到Longformer模型；确定Longformer模型的模型结构，并根据模型结构确定Longformer模型的量化粒度，根据量化粒度对Longformer模型进行量化；确定Longformer模型的量化裁减范围，并对量化裁减范围进行优化，从而将Longformer模型量化至INT8数据类型，得到整型模型；将整型模型部署到服务器上，以通过整型模型对长文本问答任务进行推理。本申请基于Longformer提出的滑动窗口注意力机制对Longformer模型进行针对性的量化，提高了模型在长文本问答任务上的推理效率，具有较强的实用性。

Description

一种基于量化的长文本问答推理方法、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于量化的长文本问答推理方法、设备及介质。

背景技术

近年来，神经网络模型被广泛应用在许多领域，并取得了非常好的效果。其中，Transformer模型自提出后，席卷自然语言处理领域，并扩展到计算机视觉领域，均取得巨大成功。另外，各种Transformer变体层出不穷，Longformer是Transformer的一个变体，用于解决Transformer处理文本长度有限的问题，Longformer采用滑动窗口注意力机制，适合处理长文本数据问题，包括长文本问答任务。但是，神经网络模型由于模型复杂度高、模型大，导致推理时效率较低，推理时间较长。因此，如何设计低资源消耗的，可以实时预测的、同时保证预测精度的模型成为一个现实问题。

发明内容

本申请提出了一种基于量化的长文本问答推理方法，包括：获取训练数据，根据所述训练数据训练得到Longformer模型；确定所述Longformer模型的模型结构，并根据所述模型结构确定所述Longformer模型的量化粒度，根据所述量化粒度对所述Longformer模型进行量化；确定所述Longformer模型的量化裁减范围，并对所述量化裁减范围进行优化，从而将所述Longformer模型量化至INT8数据类型，得到整型模型；将所述整型模型部署到服务器上，以通过所述整型模型对长文本问答任务进行推理。

在一个示例中，确定所述Longformer模型的模型结构，并根据所述模型结构确定所述Longformer模型的量化粒度，具体包括：确定所述Longformer模型的注意力机制，将所述注意力机制的窗口作为第一量化粒度；确定所述Longformer模型的嵌入层、前馈层，将所述嵌入层和所述前馈层的张量作为第二量化粒度。

在一个示例中，根据所述量化粒度对所述Longformer模型进行量化，具体包括：O＝X₁X₂+B，其中，O为所述注意力机制、所述嵌入层和所述前馈层的线性层，X₁和X₂为模型输入的量化矩阵，B为预先设定的计算偏置。

在一个示例中，确定所述Longformer模型的量化裁减范围，从而将所述Longformer模型量化至INT8数据类型，具体包括：设定Q_α(α∈{1,2})表示为X_α量化版本；Q₂＝||X₂*127clipping_range(X2)＝X2*s2；QB＝Bs1s2；/> 其中，s_α为X_α的量化因子，clipping_range(X_α)为X_α的裁减范围，Q_B为中间计算量。

在一个示例中，对所述量化裁减范围进行优化，具体包括：确定所述量化裁剪范围的分位数和均方误差，根据所述分位数和所述均方误差对所述量化裁剪范围进行优化。

在一个示例中，根据所述分位数和所述均方误差对所述量化裁剪范围进行优化，具体包括：r＝percentile(X,p)；其中，X为量化矩阵，p为矩阵X百分位，r为裁剪范围上限，x为矩阵X的元素，clip(x)为矩阵X中元素x裁剪后的值，mse(X)为矩阵X和量化后的X的均方误差，其中，量化后的X为/>

在一个示例中，所述方法还包括：其中，N为矩阵X元素的个数，p_min为p的最小值；将所述p从所述p_min开始遍历取值，每次取值加1，直到所述mse(X)不再减小为止，得到最优的p，从而得到得到最优的裁剪范围。

在一个示例中，一个所述张量包含多个所述窗口；所述第一量化粒度使用所述窗口作为矩阵进行量化；所述第二量化粒度使用所述张量作为矩阵进行量化。

另一方面，本申请还提出了一种基于量化的长文本问答推理设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述一种基于量化的长文本问答推理设备能够执行：如上述任意一个示例所述的方法。

另一方面，本申请还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：如上述任意一个示例所述的方法。

本申请基于Longformer提出的滑动窗口注意力机制对Longformer模型进行针对性的量化，并基于窗口的量化粒度提高了模型量化精度。另外，本专利通过优化量化裁剪范围，有效降低了量化噪音，进而提高了模型量化精度。在保证精度的前提下，通过对Longformer模型量化，提高了模型在长文本问答任务上的推理效率，具有较强的实用性。此外，由于量化对模型压缩比例大，减少了硬件内存以及计算资源需求，具有较强的经济效益。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于量化的长文本问答推理方法的流程示意图；

图2为本申请实施例中一种基于量化的长文本问答推理设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

传统Transformer模型在处理长文本时存在一些问题，因为它们均采用“我全都要看”型的注意力(attention)机制，即每一个token都要与其他所有token进行交互，无论是空间还是时间复杂度都高达O(n²)。为了解决这个问题，之前有些工作是将长文本切分为若干个较短的Text Segment，然后逐个处理，例如Transformer-XL。但这会导致不同的TextSegment之间无法进行交互，因而必然存在大量的信息丢失。

本文提出的Longformer，改进了Transformer传统的自注意力(self-attention)机制。具体来说，每一个token只对固定窗口大小附近的token进行局部注意力(localattention)。并且Longformer针对具体任务，在原有local attention的基础上增加了一种全局注意力(global attention)。

Longformer在长文档任务中的表现优于其他大多数模型，可以明显减少内存和时间的复杂度。

如图1所示，本申请实施例提供的一种基于量化的长文本问答推理方法，该方法包括：

S101、获取训练数据，根据所述训练数据训练得到Longformer模型。

Longformer采用滑动窗口注意力机制，适合处理长文本数据问题，包括长文本问答任务。基于长文本问答训练数据，训练得到Longformer浮点数模型。

S102、确定所述Longformer模型的模型结构，并根据所述模型结构确定所述Longformer模型的量化粒度，根据所述量化粒度对所述Longformer模型进行量化。2348

在深度神经网络模型应用中，量化是削减模型大小的一种常用方法。实际上就是把高位宽表示的权值和激活值用更低位宽来表示。模型量化是目前工业界最有效的模型优化方法之一，如FP32-->INT8可以实现四倍的参数压缩，在压缩内存的同时可以实现更快速的计算，进行极端的二值量化理论上甚至可以实现三十二倍的压缩，但是过度的压缩会导致模型的精度快速下降。量化是指定点与浮点等数据之间建立一种数据映射关系，使得以较小的精度损失代价获得了较好的收益，量化是将信号的连续取值近似为有限多个离散值的过程。在对Longformer模型的模型结构进行量化时，根据模型结构确定Longformer模型的量化粒度，根据量化粒度对Longformer模型进行量化。

在一个实施例中，Longformer模型提出了移动窗口注意力机制，因此在注意力机制部分使用窗口作为量化粒度(在此称为第一量化粒度)，模型嵌入层、前馈层使用张量作为量化粒度(在此称为第二量化粒度)，

在一个实施例中，在Longformer注意力机制中，一个张量包含多个窗口，因此基于窗口量化粒度的量化精度更高。窗口量化粒度，即第一量化粒度是指使用一个窗口作为矩阵X进行量化，而张量量化粒度，即第二量化粒度指使用一个张量作为矩阵X进行量化。

在一个实施例中，量化到INT8数据类型时，模型嵌入层、前馈层以及注意力机制实际主要包括线性操作，考虑输入为X₁，X₂，偏置为B，输出为O的线性层：

O＝X₁X₂+B。

假设Q_α(α∈{1,2})表示为X_α量化版本，s_α表示为X_α的量化因子，clipping_range(X_α)表示为X_α的裁减范围，能够使用Q_α和Q_B和s_α得到O。

Q_B＝||Bs₁s₂||。

S103、确定所述Longformer模型的量化裁减范围，并对所述量化裁减范围进行优化，从而将所述Longformer模型量化至INT8数据类型，得到整型模型。567

量化参数可以利用一些标准来决定。通常选择量化参数是根据浮点值的最大最小计算出，这种计算量化因子实际是有问题的，这种属于不饱和的线性量化，会导致精度损失较大。通过分位数以及均方误差，优化量化的裁剪范围，在保证精度的前提下，通过对Longformer模型量化，提高了模型在长文本问答任务上的推理效率，具有较强的实用性。从而可以有效降低量化噪音，进而提高模型量化精度。将Longformer模型量化至INT8数据类型，得到整型模型

在一个实施例中，确定量化裁剪范围的分位数和均方误差，根据分位数和均方误差对量化裁剪范围进行优化。假设X表示量化矩阵，p表示矩阵X百分位，r为裁剪范围上限，x为矩阵X的元素，clip(x)为矩阵X中元素x裁剪后的值，mse(X)为矩阵X和量化后的X的均方误差，其中，量化后的X为公式如下：

r＝percentile(X,p)。

通过最小化mse(X)优化获取p。由于取整算法的存在，mse(X)不可导。因此本实施例采用了一种简易算法。假设矩阵X元素个数为N，最小p值为p_min。

令p从p_min取值开始遍历，每次加1，直到mse(X)不再减小为止，得到最优的p后，可以通过上述公式得到最优的裁剪范围。

S104、将所述整型模型部署到服务器上，以通过所述整型模型对长文本问答任务进行推理。

使用上述方式对训练的Longformer浮点模型量化，将模型各层权重和输入量化为INT8数据类型，得到整型模型。将量化模型部署到服务器上，用于长文本问答任务的推理。

如图2所示，本申请实施例还提供了一种基于量化的长文本问答推理设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述一种基于量化的长文本问答推理设备能够执行如上述任意一个实施例所述的方法。

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：如上述任意一个实施例所述的方法。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于量化的长文本问答推理方法，其特征在于，包括：

获取训练数据，根据所述训练数据训练得到Longformer模型；

确定所述Longformer模型的模型结构，并根据所述模型结构确定所述Longformer模型的量化粒度，根据所述量化粒度对所述Longformer模型进行量化；

确定所述Longformer模型的量化裁减范围，并对所述量化裁减范围进行优化，从而将所述Longformer模型量化至INT8数据类型，得到整型模型；

将所述整型模型部署到服务器上，以通过所述整型模型对长文本问答任务进行推理；

确定所述Longformer模型的模型结构，并根据所述模型结构确定所述Longformer模型的量化粒度，具体包括：

确定所述Longformer模型的注意力机制，将所述注意力机制的窗口作为第一量化粒度；

确定所述Longformer模型的嵌入层、前馈层，将所述嵌入层和所述前馈层的张量作为第二量化粒度；

根据所述量化粒度对所述Longformer模型进行量化，具体包括：

O＝X₁X₂+B，其中，O为所述注意力机制、所述嵌入层和所述前馈层的线性层，X₁和X₂为模型输入的量化矩阵，B为预先设定的计算偏置；

确定所述Longformer模型的量化裁减范围，从而将所述Longformer模型量化至INT8数据类型，具体包括：

设定Q_α(α∈{1,2})表示为X_α量化版本；

Q_B＝||Bs₁s₂||；

其中，s_α为X_α的量化因子，clipping_range(X_α)为X_α的裁减范围，Q_B为中间计算量。

2.根据权利要求1所述的方法，其特征在于，对所述量化裁减范围进行优化，具体包括：

确定所述量化裁剪范围的分位数和均方误差，根据所述分位数和所述均方误差对所述量化裁剪范围进行优化。

3.根据权利要求2所述的方法，其特征在于，根据所述分位数和所述均方误差对所述量化裁剪范围进行优化，具体包括：

r＝percentile(X,p)；

其中，X为量化矩阵，p为矩阵X百分位，r为裁剪范围上限，x为矩阵X的元素，clip(x)为矩阵X中元素x裁剪后的值，mse(X)为矩阵X和量化后的X的均方误差，其中，量化后的X为

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

其中，N为矩阵X元素的个数，p_min为p的最小值；

将所述p从所述p_min开始遍历取值，每次取值加1，直到所述mse(X)不再减小为止，得到最优的p，从而得到得到最优的裁剪范围。

5.根据权利要求1所述的方法，其特征在于，一个所述张量包含多个所述窗口；

所述第一量化粒度使用所述窗口作为矩阵进行量化；

所述第二量化粒度使用所述张量作为矩阵进行量化。

6.一种基于量化的长文本问答推理设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述一种基于量化的长文本问答推理设备能够执行：如权利要求1-5中任意一项权利要求所述的方法。

7.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：如权利要求1-5中任意一项权利要求所述的方法。