CN115951859A

CN115951859A - 一种分段线性量化方法及相关装置

Info

Publication number: CN115951859A
Application number: CN202211710556.0A
Authority: CN
Inventors: 裴朝科; 林布德
Original assignee: Shenzhen Ouye Semiconductor Co ltd
Current assignee: Shenzhen Ouye Semiconductor Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-04-11

Abstract

本申请公开了一种分段线性量化方法及相关装置，所述方法包括对待量化网络模型进行量化，得到候选量化模型；将所述候选量化模型量化为至少两个目标量化模型，并将所述至少两个目标量化模型部署于NPU端。本申请通过先将浮点型的待量化网络模型量化为整数型的候选量化模型，然后再通过分段量化将候选量化模型量化为多个目标量化模型，这样一方面可以保证NPU端上部署的网络模型的模型精度，又可以使得NPU无需进行浮点计算，从而可以降低对NPU端的消耗，另一方面通过反量化得到的为整数型的网络模型，不会受到NPU带宽的限制，进而可以提高其部署的网络模型的运行和计算速度。

Description

一种分段线性量化方法及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种分段线性量化方法及相关装置。

背景技术

目前普遍使用的量化方法包括PTQ(训练后量化)和QTA(量化感知训练)，其中，PTQ(训练后量化)在低bit(例如，4bit等)量化时，会导致量化后的模型精度损失严重。QTA(量化感知训练)虽然可以保证量化后的模型精度，但是QTA(量化感知训练)对数据的依赖性较强，需要较多的训练数据。然而，在实际的工业应用中，训练数据经常难以获得，从而限制了QTA(量化感知训练)的使用。

为了解决上述问题，有研究者提供了PWLQ(piecewise linear quantization分段线性量化)，通过在浮点域上寻找一个或者多个合适的与之，对浮点进行截断，然后将不同区间量化值不同数据位。然而，由于不同量化区间存在重叠部分，从而需要分段量化后的数据反量化会返回float32后进行计算。但在实际操作中，NPU(neural-network processingunits嵌入式神经网络处理器)对float32进行计算会导致NPU的消耗巨大，同时float32数据在NPU上搬运会受带宽限制影响，导致float32运行和计算速度慢。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种分段线性量化方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种分段线性量化方法，所述方法包括：

对待量化网络模型进行量化，得到候选量化模型，其中，所述待量化网模型的数据类型为浮点型，候选量化模型的数据类型为整数型；

将所述候选量化模型量化为至少两个目标量化模型，并将所述至少两个目标量化模型部署于NPU端，其中，每个目标量化模型均的数据类型均为整数型。

所述分段线性量化方法，其中，所述待量化网络模型的数据类型为float32，候选量化模型的数据类型为int8。

所述分段线性量化方法，其中，所述至少两个目标量化模型中的每个目标量化模型的数据位数均小于候选量化模型的数据位数。

所述分段线性量化方法，其中，所述将所述候选量化模型量化为至少两个目标量化模型具体包括：

对于候选量化模型中的待量化参数，将所述待量化参数划分为至少两个量化区间；

获取每个量化区间对应的数据位数，并按照各量化区间对应的数据位数对候选量化模型进行量化，以得到至少两个目标量化模型，其中，至少两个目标量化模型与至少两个量化区间一一对应。

所述分段线性量化方法，其中，所述对于候选量化模型中的待量化参数，将所述待量化参数划分为至少两个量化区间具体包括：

对于候选量化模型中的待量化参数，寻找所述待量化参数对应的至少一个断点；

基于所述至少一个断点将所述待量化参数划分为至少两个量化区间。

所述分段线性量化方法，其中，所述将所述至少两个目标量化模型部署于NPU端之后，所述方法包括：

通过NPU端对各目标量化模型进行反量化，以得到候选量化模型；

通过NPU端基于所述候选量化模型进行模型推理，以得到推理结果。

所述分段线性量化方法，其中，所述NPU端中用于执行反量化的计算单元存储于内存搬迁指令内，以使得当基于所述内存搬迁指令向缓冲器内导入数据时，对各目标量化模型进行反量化，以得到候选量化模型。

本申请实施例第二方面提供了一种分段线性量化系统，所述系统包括：

第一量化模块，用于对待量化网络模型进行量化，得到候选量化模型，其中，所述待量化网模型的数据类型为浮点型，候选量化模型的数据类型为整数型；

第二量化模块，用于将所述候选量化模型量化为至少两个目标量化模型，其中，每个目标量化模型均的数据类型均为整数型。

部署模块，用于将所述至少两个目标量化模型部署于NPU端。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的分段线性量化方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的分段线性量化方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种分段线性量化方法及相关装置，所述方法包括对待量化网络模型进行量化，得到候选量化模型；将所述候选量化模型量化为至少两个目标量化模型，并将所述至少两个目标量化模型部署于NPU端。本申请通过先将浮点型的待量化网络模型量化为整数型的候选量化模型，然后再通过分段量化将候选量化模型量化为多个目标量化模型，这样一方面可以保证NPU端上部署的网络模型的模型精度，又可以使得NPU无需进行浮点计算，从而可以降低对NPU端的消耗，另一方面通过反量化得到的为整数型的网络模型，不会受到NPU带宽的限制，进而可以提高其部署的网络模型的运行和计算速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的分段线性量化方法的流程图。

图2为本申请提供的分段线性量化方法的一个示例图。

图3为NPU端部署至少两个目标量化模型后的推理流程的一个示例图。

图4为本申请提供的分段线性量化系统的结构原理图。

图5为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种分段线性量化方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

经过研究发现，目前普遍使用的量化方法包括PTQ(训练后量化)和QTA(量化感知训练)，其中，PTQ(训练后量化)在低bit(例如，4bit等)量化时，会导致量化后的模型精度损失严重。QTA(量化感知训练)虽然可以保证量化后的模型精度，但是QTA(量化感知训练)对数据的依赖性较强，需要较多的训练数据。然而，在实际的工业应用中，训练数据经常难以获得，从而限制了QTA(量化感知训练)的使用。

为了解决上述问题，有研究者提供了PWLQ(piecewise linear quantization分段线性量化)，通过在浮点域上寻找一个或者多个合适的与之，对浮点进行截断，然后将不同区间量化值不同数据位。然而，由于不同量化区间存在重叠部分，从而需要分段量化后的数据反量化会浮点数据进行计算。但在实际操作中，NPU(neural-network processing units嵌入式神经网络处理器)对浮点计算的过程计算代价较大，使得采用PWLQ量化的量化模型无法使用于NPU端。

为了解决上述问题，在本申请实施例中，对待量化网络模型进行量化，得到候选量化模型；将所述候选量化模型量化为至少两个目标量化模型，并将所述至少两个目标量化模型部署于NPU端。本申请通过先将浮点型的待量化网络模型量化为整数型的候选量化模型，然后再通过分段量化将候选量化模型量化为多个目标量化模型，这样一方面可以保证NPU端上部署的网络模型的模型精度，又可以使得NPU无需进行浮点计算，从而可以降低对NPU端的消耗，另一方面通过反量化得到的为整数型的网络模型，不会受到NPU带宽的限制，进而可以提高其部署的网络模型的运行和计算速度。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种分段线性量化方法，如图1所示，所述方法包括：

S10、对待量化网络模型进行量化，得到候选量化模型。

具体地，待量化网络模型为浮点型的网络模型，即待量化网模型的数据类型为浮点型，候选量化模型为整数型的网络模型，即候选量化模型的数据类型为整数型。其中，对待量化网络模型进行量化可以采用PTQ(训练后量化)类型的量化算法，也可以采用QTA(量化感知训练)类型的量化算法对待量化网络模型进行量化。例如，采用KL散度量化方法、percentile量化方法、ACIQ量化方法等。

进一步，在对待量化网络模型进行量化时，对待量化网络模型的模型权重以及激活层输出项等采用浮点型的模型数据，例如，如图2所示，待量化网络模型中的模型权重的数据类型为float32，那么对待量化网络模型进行量化为对待量化模型中的模型权重进行量化，以将模型权重的数据类型量化为int8。

S20、将所述候选量化模型量化为至少两个目标量化模型，并将所述至少两个目标量化模型部署于NPU端。

具体地，每个目标量化模型均通过对候选量化模型中的待量化参数的部分数据进行量得到的，其中，每个目标量化模型均的数据类型均为整数型，并且每个目标量化模型的数据位数均小于候选量化模型的数据位数。例如，如图2所属，至少两个目标量化模型包括目标量化模型A和目标量化模型B，目标量化模型A的数据类型为int4，目标量化模型B的数据类型为int3等。此外，在实际应用中，至少两个目标量化模型中可以由部分目标量化模型的数据类型相同，部分目标量化模型的数据类型不同；也可以每个目标量化模型的数据类型均不相同，还可以是每个目标量化模型的数据类型均相同。

在一个实现方式中，所述将所述候选量化模型量化为至少两个目标量化模型具体包括：

获取每个量化区间对应的数据位数，并按照各量化区间对应的数据位数对候选量化模型进行量化，以得到至少两个目标量化模型。

具体地，待量化参数可以为候选量化模型中的模型权重等，将所述待量化参数划分为至少两个量化区间指的是将待量化参数在其所处数据域上进行截断以形成至少两个数据段，每个数据端为一个量化区间。

在获取到至少两个量化区间后，为每个量化区间配置数据位数，其中，量化区间配置的数据位数为待量化参数属于该量化区间的数据段对应的量化后的数据位数。也就是说，将待量化参数属于该量化区间的数据段的数据类型量化为该量化区间对应的数据位数。由此可知，至少两个量化模型与至少两个量化区间一一对应，每个目标量化模型为对其对应的量化区间进行量化得到。例如，所述待量化参数划分为两个量化区间，分别记为Tail和Middle，其中Tail对应int4，Middle对应int3，那么对Tail进行int4量化得到一目标量化模型，对Middle进行int3量化得到一目标凉凉模型。

在一个实现方式中，所述对于候选量化模型中的待量化参数，将所述待量化参数划分为至少两个量化区间具体包括：

具体地，寻找所述待量化参数对应的至少一个断点指的是在待量化数据所属的数据域中寻找断点，例如，候选量化模型的数据类型为int8，那么在int8值域上寻找至少一个断点。其中，断点的寻找方式可以采用PWLQ中的断点寻找方式，这里就不再赘述。

进一步，在寻找到断点后，基于断点对待量化参数进行划分得到若干候选子区域，然后将若干候选子区域中的对称候选子区域进行合并表示，以得到至少两个量化区间。在一个实现方式中，由于候选量化模型中的模型权重符合钟型曲线，从而在获取到寻找到n个断点后，可以将基于断点将待量化参数划分为2n+1段表示为对称的n+1段即量化区间的数量等于断点的数量1。例如，断点的数量为1，那么量化区间的数量为2。这是由于候选量化模型中的模型权重符合钟型曲线，从而在寻找到n个断点后，基于断点将待量化参数划分为2n+1段表示为对称的n+1段。例如，断点为1个，候选量化模型被分为2*1+1＝3段，分别记为[-∞，-bkp]，[-bkp,bkp]和[bkp,-∞]，第一段和第三段是对称的，从而确定两段对称的区间，分别为[±∞，±bkp],[-bkp，bkp]，断点为2个，候选量化模型被分成2*2+1＝5段，由于第一端和第五段对称，第二段和第四段对称，从而确定三段对称的区间，分别为[±∞，±bkp1],[±bkp1，±bkp2]，[-bkp2，bkp2]，其

中，|bkp1|>|bkp2|)。此外，由于每个量化区间均对应的有两个量化参数，5分别为scale(缩放尺度)和zero point(零点)，从而通过将候选量化

模型分段量化为至少两个目标量化模型后，会得到2(n+1)个参数，其中，n为断点的数量。

在一个实现方式中，所述将所述至少两个目标量化模型部署于NPU端

之后，所述方法包括：

0通过NPU端对各目标量化模型进行反量化，以得到候选量化模型；

具体地，NPU端部署若干目标量化模型，从而NUP端可以获取到个目标量化模型对应的量化参数，即NPU端可以获取到至少两组量化参数，至少

两组量化参数与至少两组目标量化模型一一对应。此外，在NPU端进行模5型推理时，可以各目标量化模型各自对应的量化参数后，然后基于量化参

数进行反量化来都得到候选量化模型，以便通过候选量化模型进行量化，这样使得NPU端上使用至少两个低bit的目标量化模型来存储候选量化模型，并且在进行推理时，可以通过反量化来得到候选量化模型，并通过候

选量化模型进行推理，保证了NPU端的推理性能。同时，通过反量化得到0的候选量化模型为整数型的，使得NPU端无需进行浮点计算，可以避免NPU

端的带宽限制，从而可以提高NPU端的计算速度。

举例说明：候选量化模型为int8模型，至少两个目标量化模型包括int4的目标量化模型A和int3的目标量化模型B，那么NPU端部署目标量化模

型A和int3的目标量化模型B，NPU端在推理时，如图3所示，首先加载5目标量化模型A和目标量化模型B的量化模型参数，然后分别对目标量化

模型A和目标量化模型B进行模型反量化，得到候选量化模型，最后通过候选量化模型进行模型推理，得到推理结果。

在一个实现方式中，所述NPU端中用于执行反量化的计算单元存储于内存搬迁指令内，以使得当基于所述内存搬迁指令向缓冲器内导入数据时，对各目标量化模型进行反量化，以得到候选量化模型。

具体地，内存搬迁指令用于将控制外部数据导入NPU端的buffer(缓冲器)，其中，内存搬迁指令内存储有计算单元，这样在将外部数据导入buffer时，可以同步将目标量化模型反量化回候选量化模型，这样可以确定反量化的过程可以在数据搬运过程中被计算，可以不对NPU端增加任何额外消耗的情况下完成目标量化模型的计算和搬运。

综上所述，本实施例提供了一种分段线性量化方法及相关装置，所述方法包括对待量化网络模型进行量化，得到候选量化模型；将所述候选量化模型量化为至少两个目标量化模型，并将所述至少两个目标量化模型部署于NPU端。本申请通过先将浮点型的待量化网络模型量化为整数型的候选量化模型，然后再通过分段量化将候选量化模型量化为多个目标量化模型，这样一方面可以保证NPU端上部署的网络模型的模型精度，又可以使得NPU无需进行浮点计算，从而可以降低对NPU端的消耗，另一方面通过反量化得到的为整数型的网络模型，不会受到NPU带宽的限制，进而可以提高其部署的网络模型的运行和计算速度。

基于上述分段线性量化方法，本实施例提供了一种分段线性量化系统，如图4所示，所述系统包括：

第一量化模块100，用于对待量化网络模型进行量化，得到候选量化模型，其中，所述待量化网模型的数据类型为浮点型，候选量化模型的数据类型为整数型；

第二量化模块200，用于将所述候选量化模型量化为至少两个目标量化模型，其中，每个目标量化模型均的数据类型均为整数型。

部署模块300，用于将所述至少两个目标量化模型部署于NPU端。

基于上述分段线性量化方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的分段线性量化方法中的步骤。

基于上述分段线性量化方法，本申请还提供了一种终端设备，如图5所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种分段线性量化方法，其特征在于，所述方法包括：

2.根据权利要求1所述分段线性量化方法，其特征在于，所述待量化网络模型的数据类型为float32，候选量化模型的数据类型为int8。

3.根据权利要求1所述分段线性量化方法，其特征在于，所述至少两个目标量化模型中的每个目标量化模型的数据位数均小于候选量化模型的数据位数。

4.根据权利要求1所述分段线性量化方法，其特征在于，所述将所述候选量化模型量化为至少两个目标量化模型具体包括：

5.根据权利要求4所述分段线性量化方法，其特征在于，所述对于候选量化模型中的待量化参数，将所述待量化参数划分为至少两个量化区间具体包括：

6.根据权利要求1-5任意一项所述分段线性量化方法，其特征在于，所述将所述至少两个目标量化模型部署于NPU端之后，所述方法包括：

7.根据权利要求6所述分段线性量化方法，其特征在于，所述NPU端中用于执行反量化的计算单元存储于内存搬迁指令内，以使得当基于所述内存搬迁指令向缓冲器内导入数据时，对各目标量化模型进行反量化，以得到候选量化模型。

8.一种分段线性量化系统，其特征在于，所述系统包括：

部署模块，用于将所述至少两个目标量化模型部署于NPU端。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的分段线性量化方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的分段线性量化方法中的步骤。