CN114841339A

CN114841339A - 网络模型量化方法、装置、电子设备和存储介质

Info

Publication number: CN114841339A
Application number: CN202210405692.2A
Authority: CN
Inventors: 夏立超; 唐剑; 赵东宇; 刘宁; 张法朝; 奉飞飞
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-02

Abstract

本申请涉及人工智能技术领域，提供一种网络模型量化方法、装置、电子设备和存储介质，其中方法包括：缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。本申请提供的方法、装置、电子设备和存储介质，通过对激活值范围进行缩小处理，解决饱和量化处理模型精度损失较大的问题，最终实现低精度损失的网络模型量化。

Description

网络模型量化方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种网络模型量化方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的快速发展，人工智能的应用范围越来越广泛，尤其对于深度神经网络模型而言，其分类、预测和检测能力已超越人类。然而，在神经网络模型的实际部署中，由于模型大且计算复杂度高，导致在算力有限且存储空间有限的边缘设备中无法进行部署。因此，需要对神经网络模型进行模型量化处理，以使模型量化处理后的神经网络模型能够部署于边缘设备。模型量化是一种常用的模型压缩方法，量化模型既可以减少存储又可以减少计算力，还可以提升模型的推理速度，并降低设备功耗。

然而，模型量化处理后的神经网络模型精度较低。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种网络模型量化方法，用以解决饱和量化处理模型精度损失较大的缺陷，实现低精度损失的网络模型量化。

本申请还提供一种网络模型量化装置、电子设备和存储介质。

根据本申请第一方面实施例的网络模型量化方法，包括：

缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；

训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

根据本申请实施例的网络模型量化方法，将待处理网络模型的激活值范围进行缩小，从而在对激活值范围缩小处理后的目标网络模型进行重新训练后，该重新训练后的目标网络模型的激活值范围已经被限制在一个较小的范围内，从而可以防止在饱和量化处理过程中，网络模型整体样本激活值变化范围较大而单次模型推理激活值变化范围较小的问题，进而解决饱和量化处理模型精度损失较大的问题，最终实现低精度损失的网络模型量化。

根据本申请的一个实施例，所述缩小处理待处理网络模型的激活值范围，包括：

确定待处理网络模型中满足预设条件的待处理网络层，所述预设条件包括以下至少一项：

所述待处理网络层的反量化处理后的浮点数之间的差异小于预设差异；

所述待处理网络层的反量化处理后的浮点数与所述待处理网络层的激活值相比得到的误差大于预设误差；

其中，所述反量化处理后的浮点数为对所述待处理网络层的激活值进行量化处理后再进行反量化处理得到的浮点数；

缩小处理所述待处理网络层的激活值范围。

根据本申请实施例的网络模型量化方法，确定待处理网络模型中激活值范围符合预设条件的待处理网络层，从而只需对符合预设条件的网络层进行激活值范围缩小处理，即只需对激活值范围过大的网络层进行激活值范围缩小处理，相比对所有网络层进行激活值范围缩小处理，本申请实施例最终得到的网络模型精度更高，同时，对待处理网络模型的激活值范围进行缩小处理的效率更高。因此，本申请实施例可以进一步降低网络模型量化的精度损失，并提高网络模型量化的效率。

根据本申请的一个实施例，所述反量化处理后的浮点数是通过如下方式确定的：

获取所述待处理网络模型的训练数据，并在所述训练数据中筛选出校验数据；

将所述校验数据输入至所述待处理网络模型，获取所述校验数据经所述待处理网络模型处理产生的激活值数据集，所述激活值数据集包括所述校验数据中每一样本在所述待处理网络模型中各网络层的激活值；

基于所述激活值数据集确定所述各网络层的激活值分布情况，并基于所述各网络层的激活值分布情况确定所述各网络层的激活值量化系数，所述激活值量化系数用于对激活值进行饱和量化处理；

基于所述各网络层的激活值量化系数，对所述每一样本在所述各网络层的激活值进行量化处理后再进行反量化处理，得到所述每一样本在所述各网络层的反量化后的浮点数。

根据本申请的一个实施例，所述基于所述各网络层的激活值分布情况确定所述各网络层的激活值量化系数，包括：

基于所述各网络层的激活值分布情况，确定所述各网络层的最大激活值和最小激活值，所述各网络层中任一网络层的最大激活值为所述校验数据中所有样本经对应网络层处理产生的最大激活值，所述各网络层中任一网络层的最小激活值为所述校验数据中所有样本经对应网络层处理产生的最小激活值；

将所述各网络层的最大激活值和所述各网络层的最小激活值，进行差值运算得到所述各网络层的激活极差值；

基于所述各网络层的激活极差值和所述各网络层的最大激活值，确定所述各网络层的激活值量化系数。

根据本申请的一个实施例，所述缩小处理所述待处理网络层的激活值范围，包括以下至少一项：

确定所述待处理网络层的权重范围的第一限制参数，并基于所述第一限制参数对所述待处理网络模型进行优化，所述第一限制参数用于限制所述待处理网络层的权重范围；

确定所述待处理网络模型的输入数据范围的第二限制参数，并基于所述第二限制参数对所述待处理网络模型进行优化，所述第二限制参数用于限制所述目标网络模型的输入数据范围。

根据本申请的一个实施例，所述第一限制参数是根据所述待处理网络模型的第一优化需求确定的，所述第一优化需求为将所述待处理网络层的权重限制在大于等于第一阈值且小于等于第二阈值的范围。

根据本申请的一个实施例，所述第二限制参数是根据所述待处理网络模型的第二优化需求确定的，所述第二优化需求为对所述目标网络模型的输入数据进行归一化处理。

根据本申请第二方面实施例的网络模型量化装置，包括：

处理模块，用于缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；

量化模块，用于训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

根据本申请第三方面实施例的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述网络模型量化方法。

根据本申请第四方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述网络模型量化方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

将待处理网络模型的激活值范围进行缩小，从而在对激活值范围缩小处理后的目标网络模型进行重新训练后，该重新训练后的目标网络模型的激活值范围已经被限制在一个较小的范围内，从而可以防止在饱和量化处理过程中，网络模型整体样本激活值变化范围较大而单次模型推理激活值变化范围较小的问题，进而解决饱和量化处理模型精度损失较大的问题，最终实现低精度损失的网络模型量化。

进一步地，确定待处理网络模型中激活值范围符合预设条件的待处理网络层，从而只需对符合预设条件的网络层进行激活值范围缩小处理，即只需对激活值范围过大的网络层进行激活值范围缩小处理，相比对所有网络层进行激活值范围缩小处理，本申请实施例最终得到的网络模型精度更高，同时，对待处理网络模型的激活值范围进行缩小处理的效率更高。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的网络模型量化方法的流程示意图之一；

图2是本申请实施例提供的网络模型量化方法的流程示意图之二；

图3是本申请实施例提供的网络模型量化方法的流程示意图之三；

图4是本申请实施例提供的网络模型量化装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着人工智能技术的快速发展，人工智能的应用范围越来越广泛，尤其对于深度神经网络模型而言，其分类、预测和检测能力已超越人类，然而，在神经网络模型的实际部署中，由于模型大且计算复杂度高，导致在算力有限且存储空间有限的边缘设备中无法进行部署，因此，需要对神经网络模型进行模型量化处理，以使模型量化处理后的神经网络模型能够部署于边缘设备。模型量化是一种常用的模型压缩方法，量化模型既可以减少存储又可以减少计算力，还可以提升模型的推理速度，并降低设备功耗。

模型量化方案主要分为两大类，一类是伪量化，另一类是真实量化。其中，伪量化仅仅对神经网络模型的权重进行量化，在存储时可以减少存储资源使用，例如把float32模型量化为int8模型，存储使用为原来的1/4，但是在使用过程中，由于激活值仍旧是float32类型，所以运行内存并未降低，仍无法在算力有限的边缘设备中进行部署；而真实量化是将权重和激活值同时进行量化，进而可以降低存储使用并降低算力，因此，真实量化处理后的神经网络模型可以部署于边缘设备。

然而，在真实量化过程中，由于激活值范围较大通常会采用饱和量化法对激活值进行量化。而饱和量化法是从浮点数据分布中寻找一个最优阈值，进而把大于这个最优阈值的部分截断，从而仅对最优阈值内的浮点数据进行量化，但是在神经网络模型整体样本激活值变化范围较大而单次模型推理激活值变化范围较小时，量化精度损失较大，导致量化后的神经网络模型精度较低。

针对上述问题，本申请提出以下各实施例。图1是本申请实施例提供的网络模型量化方法的流程示意图之一，如图1所示，该网络模型量化方法包括：

步骤110，缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的。

此处，待处理网络模型为需要进行模型量化处理的神经网络模型。在一种实施例中，该待处理网络模型为量化精度损失较大的模型，具体地，对该待处理网络模型的激活值进行饱和量化处理时，其量化精度损失较大，基于此，该待处理网络模型为需要进行量化精度优化处理的模型，以减小该待处理网络模型进行饱和量化处理的精度损失。

该待处理网络模型为基于训练数据进行训练的网络模型，该待处理网络模型可以用来进行分类、识别、检测等任务，本申请实施例对该待处理网络模型的应用场景不作具体限定。

其中，训练数据可以包括训练集、测试集和验证集。

需要说明的是，待处理网络模型可以在本申请实施例的应用终端中获取得到，也可以接收其他终端设备发送的待处理网络模型，本申请实施例对待处理网络模型的获取方式不作具体限定。

该待处理网络模型可以包括若干网络层，该待处理网络模型中每一网络层均可以输出激活值，具体地，在输入数据输入至该待处理网络模型时，可以获取输入数据经待处理网络模型处理产生的激活值。

需要说明的是，每一输入数据在各网络层均可输出激活值，基于此，多个输入数据在每一网络层输出的激活值包括多个，然后，确定多个激活值中的最大激活值和最小激活值，进而确定该网络层的激活值范围。

此处，目标网络模型为对待处理网络模型进行优化处理后的网络模型，即目标网络模型为进行量化精度优化处理后的模型，基于此，目标网络模型在重新训练后，其进行饱和量化处理的精度损失相对未优化的待处理网络模型更小。

在一些实施例中，只需对待处理网络模型中不符合预设条件的网络层进行激活值范围缩小处理，即只需对激活值范围过大的网络层进行激活值范围缩小处理。其中，激活值范围过大的判断标准可以通过预设条件进行定义，即预设条件可以根据实际需求进行设定，例如，根据实际网络模型的精度要求进行设定，本申请实施例对此不作具体限定。

在另一些实施例中，可以对待处理网络模型中各网络层进行激活值范围缩小处理。

此处，任一网络层进行激活值范围缩小处理包括以下方式：

第一种方式，限制该网络层的权重范围。

具体地，确定该网络层的权重范围的第一限制参数，并基于第一限制参数对该待处理网络模型进行优化，将优化后的待处理网络模型确定为目标网络模型。也就是说，在目标网络模型进行重新训练时，该目标网络模型中该网络层的权重范围被限制在一预设范围内，该预设范围可以通过第一限制参数确定得到，例如，该预设范围为-1到1之间，即[-1，1]。

第二种方式，对待处理网络模型的输入数据进行压缩，限制该待处理网络模型的输入数据范围。

具体地，确定该待处理网络模型的输入数据范围的第二限制参数，并基于该第二限制参数对待处理网络模型进行优化，将优化后的待处理网络模型确定为目标网络模型。也就是说，在目标网络模型进行重新训练时，该目标网络模型的输入数据范围被限制在一预设范围内，该预设范围可以通过第二限制参数确定得到，例如，该预设范围为0到1之间，即[0，1]，即可以对目标网络模型的输入数据进行归一化处理。

第三种方式，对网络层的输入数据进行压缩，限制该网络层的输入数据范围。

具体地，确定该网络层的输入数据范围的第三限制参数，并基于该第三限制参数对待处理网络模型进行优化，将优化后的待处理网络模型确定为目标网络模型。也就是说，在目标网络模型进行重新训练时，该目标网络模型中该网络层的输入数据范围被限制在一预设范围内，该预设范围可以通过第三限制参数确定得到，例如，该预设范围为0到1之间，即[0，1]，即可以对该网络层的输入数据进行归一化处理。

当然，还可以包括其他激活值范围缩小处理方式，本申请实施例不再一一赘述。

步骤120，训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

具体地，获取对待处理网络模型进行训练的训练数据，基于该训练数据对该目标网络模型重新进行训练。当然，也可以在该训练数据的基础上进行改变，从而基于改变后的训练数据，对该目标网络模型重新进行训练，本申请实施例对此不作具体限定。

此处，对训练后的目标网络模型进行模型量化处理包括权重量化处理和激活值量化处理。该权重量化处理的方法可以根据实际需求进行设定，本申请实施例对此不作具体限定。该激活值量化处理方法可以根据实际需求进行设定，本申请实施例对此不作具体限定。

在一实施例中，激活值量化处理采用饱和量化法。其中，饱和量化法是从浮点数据分布中寻找一个最优阈值，进而把大于这个最优阈值的部分截断，从而仅对最优阈值内的浮点数据进行量化；更为具体地，饱和量化法在相关现有技术中已具体描述，本申请实施例不再赘述。

可以理解的是，模型量化后的目标网络模型，相比模型量化后的待处理网络模型，模型量化后的目标网络模型精度更高。也就是说，目标网络模型进行饱和量化处理的精度损失相比待处理网络模型更小。

本实施例中，训练后的目标网络模型为float32模型，即训练后的目标网络模型的权重为float32类型，训练后的目标网络模型的激活值也为float32类型，此时，模型量化处理后的目标网络模型可以为int8模型，即模型量化处理后的目标网络模型的权重为int8类型，模型量化处理后的目标网络模型的激活值也为int8类型。当然，本申请实施例不仅限于常见的8bit量化，对于其他位数的量化，本申请实施例也可以应用，例如二值量化(1bit量化)，因此，本申请实施例对该量化位数并不作具体限定。

本申请实施例提供的网络模型量化方法，缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，激活值范围是基于待处理网络模型的激活值的最大值和激活值的最小值确定的；训练目标网络模型，并对训练后的目标网络模型进行模型量化处理。通过上述方式，将待处理网络模型的激活值范围进行缩小，从而在对激活值范围缩小处理后的目标网络模型进行重新训练后，该重新训练后的目标网络模型的激活值范围已经被限制在一个较小的范围内，从而可以防止在饱和量化处理过程中，网络模型整体样本激活值变化范围较大而单次模型推理激活值变化范围较小的问题，进而解决饱和量化处理模型精度损失较大的问题，最终实现低精度损失的网络模型量化。

基于上述实施例，图2是本申请实施例提供的网络模型量化方法的流程示意图之二，如图2所示，上述步骤110中，缩小处理待处理网络模型的激活值范围，包括：

步骤111，确定待处理网络模型中满足预设条件的待处理网络层。

所述预设条件包括以下至少一项：

其中，所述反量化处理后的浮点数为对所述待处理网络层的激活值进行量化处理后再进行反量化处理得到的浮点数。

此处，预设条件用于定义激活值范围过大的判断标准，该预设条件可以根据实际需要进行设定，例如，可以根据该待处理网络模型的实际精度要求进行设定，本申请实施例对此不作具体限定。

可以理解的是，待处理网络模型中不符合预设条件的待处理网络层可以为0个、1个或多个。

在一些实施例中，预设条件可以为只要有一个样本在该网络层的反量化后的浮点数分析后有问题的，该网络层就是不符合预设条件的待处理网络层。

在另一些实施例中，预设条件可以为存在大于预设数量的样本在该网络层的反量化后的浮点数分析后有问题的，该网络层就是不符合预设条件的待处理网络层。其中，预设数量可以根据实际需要进行设定，本申请实施例对此不作具体限定。

此处，对任一样本在任一网络层的反量化后的浮点数进行分析的步骤如下实施例：

在一实施例中，待处理网络层的反量化处理后的浮点数之间的差异小于预设差异。具体地，分析该样本在该网络层的反量化后的浮点数是否是多样的，即是否可以表现出数据之间的信息差异，若是多样的，即数据之间具有明显的信息差异，则该网络层量化后精度损失较小，分析结果为无问题；若不是多样的，即数据之间不具有明显的信息差异，则该网络层量化后精度损失较大，分析结果为有问题。

在另一实施例中，待处理网络层的反量化处理后的浮点数与待处理网络层的激活值相比得到的误差大于预设误差。具体地，将该样本在该网络层的激活值与该样本在该网络层的反量化后的浮点数进行对比，基于对比结果，确定分析结果是否有问题。例如，量化前的激活值与反量化后的浮点数明显差别很大，则确定分析结果有问题；量化前的激活值与反量化后的浮点数差别不大，则确定分析结果无问题。

步骤112，缩小处理所述待处理网络层的激活值范围。

此处，待处理网络层进行激活值范围缩小处理包括以下方式：

第一种方式，限制该待处理网络层的权重范围。

具体地，确定该待处理网络层的权重范围的第一限制参数，并基于第一限制参数对该待处理网络模型进行优化，以使后续将优化后的待处理网络模型确定为目标网络模型。

若采用该第一种方式，在目标网络模型进行重新训练时，该目标网络模型中该待处理网络层的权重范围被限制在一预设范围内，该预设范围可以通过第一限制参数确定得到，例如，该预设范围为-1到1之间，即[-1，1]。

具体地，确定该待处理网络模型的输入数据范围的第二限制参数，并基于该第二限制参数对待处理网络模型进行优化，以使后续将优化后的待处理网络模型确定为目标网络模型。

若采用该第二种方式，在目标网络模型进行重新训练时，该目标网络模型的输入数据范围被限制在一预设范围内，该预设范围可以通过第二限制参数确定得到，例如，该预设范围为0到1之间，即[0，1]，即可以对目标网络模型的输入数据进行归一化处理。

第三种方式，对待处理网络层的输入数据进行压缩，限制该待处理网络层的输入数据范围。

具体地，确定该待处理网络层的输入数据范围的第三限制参数，并基于该第三限制参数对待处理网络模型进行优化，以使后续将优化后的待处理网络模型确定为目标网络模型。

若采用该第三种方式，在目标网络模型进行重新训练时，该目标网络模型中该待处理网络层的输入数据范围被限制在一预设范围内，该预设范围可以通过第三限制参数确定得到，例如，该预设范围为0到1之间，即[0，1]，即可以对该待处理网络层的输入数据进行归一化处理。

需要说明的是，上述第一种方式和第二种方式毫无关系，可以独立采用，也可以均采用。上述第二种方式和第三种方式择一采用即可。

本申请实施例提供的网络模型量化方法，确定待处理网络模型中满足预设条件的待处理网络层；对待处理网络层的激活值范围进行缩小处理。通过上述方式，确定待处理网络模型中激活值范围符合预设条件的待处理网络层，从而只需对符合预设条件的网络层进行激活值范围缩小处理，即只需对激活值范围过大的网络层进行激活值范围缩小处理，相比对所有网络层进行激活值范围缩小处理，本申请实施例最终得到的网络模型精度更高，同时，对待处理网络模型的激活值范围进行缩小处理的效率更高。因此，本申请实施例可以进一步降低网络模型量化的精度损失，并提高网络模型量化的效率。

基于上述任一实施例，图3是本申请实施例提供的网络模型量化方法的流程示意图之三，如图3所示，所述反量化处理后的浮点数是通过如下方式确定的：

步骤310，获取所述待处理网络模型的训练数据，并在所述训练数据中筛选出校验数据。

此处，训练数据为对该待处理网络模型进行训练的数据，该训练数据可以包括训练集、测试集和验证集。

此处，校验数据为训练数据的子集，该校验数据可以包括多个样本。

在一实施例中，可以在训练数据中随机筛选出预设数量的样本作为校验数据。其中，预设数量可以根据实际需求进行设定，本申请实施例对此不作具体限定。

在另一实施例中，可以在训练数据中筛选出预设数量的有代表性的样本作为校验数据。具体地，如何筛选出有代表性的样本，可以采用主成分分析法对训练数据进行筛选处理，其中，累积贡献率的阈值可以根据预设数量进行设定，由于主成分分析法在现有相关技术中已具体赘述，对此本申请实施例不再具体赘述；还可以对训练数据进行相关性分析，从而筛选出相互之间相关性低的样本作为校验数据；当然，还可以采用其他方法筛选出有代表性的样本作为校验数据，本申请实施例不再一一赘述。

步骤320，将所述校验数据输入至所述待处理网络模型，获取所述校验数据经所述待处理网络模型处理产生的激活值数据集，所述激活值数据集包括所述校验数据中每一样本在所述待处理网络模型中各网络层的激活值。

由于待处理网络模型为网络模型，因此，将校验数据输入至待处理网络模型，可以获取校验数据经待处理网络模型处理产生的激活值。

需要说明的是，由于待处理网络模型可以包括若干网络层，因此，激活值数据集包括待处理网络模型中各网络层的激活值。此外，由于校验数据包括多个样本，因此，激活值数据集包括校验数据中每一样本的激活值。综上，激活值数据集包括校验数据中每一样本在待处理网络模型中各网络层的激活值。

步骤330，基于所述激活值数据集确定所述各网络层的激活值分布情况，并基于所述各网络层的激活值分布情况确定所述各网络层的激活值量化系数，所述激活值量化系数用于对激活值进行饱和量化处理。

由于激活值数据集包括校验数据中每一样本在待处理网络模型中各网络层的激活值，因此，可以确定各网络层的激活值分布情况。可以理解的是，任一网络层的激活值分布情况为校验数据中每一样本在该任一网络层的激活值的分布情况。

此处，激活值量化系数为饱和量化的量化系数，例如，该激活值量化系数可以包括饱和量化缩放因子、Zero Point值等等。可以理解的是，每一网络层均有对应的激活值量化系数。

具体地，任一网络层的激活值量化系数的确定步骤如下实施例：

在一实施例中，可以基于该网络层的激活值分布情况，确定该网络层的最大激活值和最小激活值，该网络层的最大激活值为校验数据中所有样本经该网络层处理产生的最大激活值，该网络层的最小激活值为校验数据中所有样本经该网络层处理产生的最小激活值；然后，将该网络层的最大激活值和该网络层的最小激活值，进行差值运算得到该网络层的激活极差值；最后，基于该网络层的激活极差值，确定该网络层的激活值量化系数。

在另一实施例中，基于该网络层的激活值分布情况，并采用KL散度算法计算该网络层的激活值量化缩放因子。其中，KL散度算法在现有相关技术中已有具体描述，此处不再描述。

当然，还可以包括其他实施例确定网络层的激活值量化系数，本申请实施例对此不作具体限定。

步骤340，基于所述各网络层的激活值量化系数，对所述每一样本在所述各网络层的激活值进行量化处理后再进行反量化处理，得到所述每一样本在所述各网络层的反量化后的浮点数。

在具体实施过程中，基于一个单独样本在一个网络层的激活值进行量化处理后再进行反量化处理，得到该样本在该网络层的反量化后的浮点数。基于此，不断循环上述步骤，从而得到每一样本在各网络层的反量化后的浮点数。

需要说明的是，对激活值进行量化处理得到定点数，对该定点数再进行反量化处理得到浮点数。

本申请实施例提供的网络模型量化方法，通过上述方式，从训练数据中筛选出校验数据，进而基于该校验数据得到激活值分布情况，并计算激活值量化系数，从而可以对激活值进行量化和反量化处理，以供评估量化精度损失情况，最终基于量化精度损失情况确定哪一网络层为待处理网络层，为待处理网络层的确定提供支持。

基于上述任一实施例，该方法中，上述步骤330中，基于所述各网络层的激活值分布情况确定所述各网络层的激活值量化系数，包括：

此处，激活值量化系数可以包括饱和量化缩放因子和Zero Point值。

为便于理解本申请实施例，以下通过公式推导进行说明。

激活值转换为定点数的公式(即量化处理的公式)如下所示：

式中，Q为定点数，R为激活值(量化前的浮点数)，S为饱和量化缩放因子，Z为ZeroPoint值。

定点数转换为浮点数的公式(即反量化处理的公式)如下所示：

R＝(Q-Z)*S；

式中，Q为定点数，R为反量化后的浮点数，S为饱和量化缩放因子，Z为Zero Point值。

因此，需要计算饱和量化缩放因子才能进行量化和反量化，具体地，基于各网络层的激活极差值，确定各网络层的饱和量化缩放因子。该饱和量化缩放因子S的计算公式如下：

式中，R_max为最大激活值，R_min为最小激活值，R_max-R_min为激活极差值，Q_max为最大定点值，Q_min为最小定点值，例如，int8量化处理，Q_max可以为127，Q_min可以为-128，或者，Q_max可以为255，Q_min可以为0。

因此，需要计算Zero Point值才能进行量化和反量化，具体地，基于各网络层的最大激活值和饱和量化缩放因子，确定各网络层的Zero Point值。该Zero Point值Z的计算公式如下：

Z＝Q_max-R_max÷S；

式中，Q_max为最大定点值，R_max为最大激活值，S为饱和量化缩放因子，例如，int8量化处理，Q_max可以为127或255。

本申请实施例提供的网络模型量化方法，通过上述方式，从训练数据中筛选出校验数据，进而基于该校验数据得到激活值分布情况，并计算激活值量化系数，从而可以对激活值进行量化和反量化处理，进而评估量化精度损失情况，最终基于量化精度损失情况确定哪一网络层为待处理网络层，为待处理网络层的确定提供支持。

本申请实施例提供的网络模型量化方法，通过上述方式，基于激活值分布情况确定激活极差值，进而计算激活值量化系数，为激活值量化系数的确定提供支持。

基于上述任一实施例，该方法中，上述步骤112包括：

确定所述待处理网络层的权重范围的第一限制参数，并基于所述第一限制参数对所述待处理网络模型进行优化，所述第一限制参数用于限制所述待处理网络层的权重范围；和/或，

在一实施例中，确定待处理网络层的权重范围的第一限制参数，并基于第一限制参数对待处理网络模型进行优化。

此处，第一限制参数是基于待处理网络模型的第一优化需求确定的。其中，第一优化需求可以根据实际需求进行设定，例如，第一优化需求为将待处理网络层的权重限制在大于等于-1且小于等于1的范围；或者，第一优化需求为将待处理网络层的权重限制在大于等于-2且小于等于2的范围，本发明实施例对第一优化需求不做具体限定。需要说明的是，将优化后的待处理网络模型确定为目标网络模型后，在目标网络模型进行重新训练时，该目标网络模型中该待处理网络层的权重范围被限制在一预设范围内，该预设范围可以通过第一限制参数确定得到。

进一步地，所述第一限制参数是根据所述待处理网络模型的第一优化需求确定的，所述第一优化需求为将所述待处理网络层的权重限制在大于等于第一阈值且小于等于第二阈值的范围。

其中，第一阈值和第二阈值均可以根据实际需要进行设定，例如第一阈值为-1，第二阈值为1。

具体地，将该待处理网络层的权重范围限制在一预设范围内，该预设范围通过该第一限制参数确定得到，即该预设范围为-1到1之间，即[-1，1]。

在另一实施例中，确定待处理网络模型的输入数据范围的第二限制参数，并基于第二限制参数对待处理网络模型进行优化。

此处，第二限制参数是基于待处理网络模型的第二优化需求确定的。其中，第二优化需求可以根据实际需求进行设定，例如，第二优化需求为对目标网络模型的输入数据进行归一化处理；或者，第二优化需求为对目标网络模型的输入数据进行数据压缩，以使目标网络模型的输入数据范围限制在大于等于-2且小于等于2的范围，本发明实施例对第二优化需求不做具体限定。

需要说明的是，将优化后的待处理网络模型确定为目标网络模型后，在目标网络模型进行重新训练时，该目标网络模型的输入数据范围被限制在一预设范围内，该预设范围可以通过第二限制参数确定得到。

进一步地，所述第二限制参数是根据所述待处理网络模型的第二优化需求确定的，所述第二优化需求为对所述目标网络模型的输入数据进行归一化处理。

具体地，将该目标网络模型的输入数据范围限制在一预设范围内，该预设范围可以通过第二限制参数确定得到，即该预设范围为0到1之间，即[0，1]。

在另一实施例中，确定待处理网络层的权重范围的第一限制参数，并基于第一限制参数对待处理网络模型进行优化，并确定待处理网络模型的输入数据范围的第二限制参数，并基于第二限制参数对待处理网络模型进行优化。

需要说明的是，将优化后的待处理网络模型确定为目标网络模型后，在目标网络模型进行重新训练时，该目标网络模型中该待处理网络层的权重范围被限制在一预设范围内，且该目标网络模型的输入数据范围也被限制在一预设范围内。

进一步地，所述第一限制参数是根据所述待处理网络模型的第一优化需求确定的，所述第一优化需求为将所述待处理网络层的权重限制在大于等于第一阈值且小于等于第二阈值的范围；所述第二限制参数是根据所述待处理网络模型的第二优化需求确定的，所述第二优化需求为对所述目标网络模型的输入数据进行归一化处理。

本申请实施例提供的网络模型量化方法，通过限制网络模型的输入数据范围和/或限制网络模型中待处理网络层的权重范围，限制待处理网络层的激活值范围，为待处理网络层的激活值范围的限制提供支持，从而可以防止在饱和量化处理过程中，待处理网络层整体样本激活值变化范围较大而单次模型推理激活值变化范围较小的问题，进而解决饱和量化处理模型精度损失较大的问题，最终实现低精度损失的网络模型量化。

下面对本申请提供的网络模型量化装置进行描述，下文描述的网络模型量化装置与上文描述的网络模型量化方法可相互对应参照。

图4是本申请实施例提供的网络模型量化装置的结构示意图，如图4所示，该网络模型量化装置，包括：

处理模块410，用于缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；

量化模块420，用于训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

本申请实施例提供的网络模型量化装置，缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，激活值范围是基于待处理网络模型的激活值的最大值和激活值的最小值确定的；训练目标网络模型，并对训练后的目标网络模型进行模型量化处理。通过上述方式，将待处理网络模型的激活值范围进行缩小，从而在对激活值范围缩小处理后的目标网络模型进行重新训练后，该重新训练后的目标网络模型的激活值范围已经被限制在一个较小的范围内，从而可以防止在饱和量化处理过程中，网络模型整体样本激活值变化范围较大而单次模型推理激活值变化范围较小的问题，进而解决饱和量化处理模型精度损失较大的问题，最终实现低精度损失的网络模型量化。

基于上述任一实施例，该处理模块410包括：

网络层确定单元，用于确定待处理网络模型中满足预设条件的待处理网络层，所述预设条件包括以下至少一项：

缩小处理单元，用于缩小处理所述待处理网络层的激活值范围。

基于上述任一实施例，该网络层确定单元还用于：

基于上述任一实施例，该缩小处理单元还用于：

基于上述任一实施例，所述第一限制参数是根据所述待处理网络模型的第一优化需求确定的，所述第一优化需求为将所述待处理网络层的权重限制在大于等于第一阈值且小于等于第二阈值的范围。

基于上述任一实施例，所述第二限制参数是根据所述待处理网络模型的第二优化需求确定的，所述第二优化需求为对所述目标网络模型的输入数据进行归一化处理。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行网络模型量化方法，该方法包括：缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的网络模型量化方法，该方法包括：缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的网络模型量化方法，该方法包括：缩小处理待处理网络模型的激活值范围，并将激活值范围缩小处理后的待处理网络模型确定为目标网络模型，所述激活值范围是基于所述待处理网络模型的激活值的最大值和激活值的最小值确定的；训练所述目标网络模型，并对训练后的目标网络模型进行模型量化处理。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

以上实施方式仅用于说明本申请，而非对本申请的限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行各种组合、修改或者等同替换，都不脱离本申请技术方案的精神和范围，均应涵盖在本申请的权利要求范围中。

Claims

1.一种网络模型量化方法，其特征在于，包括：

2.根据权利要求1所述的网络模型量化方法，其特征在于，所述缩小处理待处理网络模型的激活值范围，包括：

缩小处理所述待处理网络层的激活值范围。

3.根据权利要求2所述的网络模型量化方法，其特征在于，所述反量化处理后的浮点数是通过如下方式确定的：

4.根据权利要求3所述的网络模型量化方法，其特征在于，所述基于所述各网络层的激活值分布情况确定所述各网络层的激活值量化系数，包括：

5.根据权利要求2至4任一项所述的网络模型量化方法，其特征在于，所述缩小处理所述待处理网络层的激活值范围，包括以下至少一项：

6.根据权利要求5所述的网络模型量化方法，其特征在于，所述第一限制参数是根据所述待处理网络模型的第一优化需求确定的，所述第一优化需求为将所述待处理网络层的权重限制在大于等于第一阈值且小于等于第二阈值的范围。

7.根据权利要求5所述的网络模型量化方法，其特征在于，所述第二限制参数是根据所述待处理网络模型的第二优化需求确定的，所述第二优化需求为对所述目标网络模型的输入数据进行归一化处理。

8.一种网络模型量化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述网络模型量化方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络模型量化方法。