CN114239861A

CN114239861A - 基于多教师联合指导量化的模型压缩方法及系统

Info

Publication number: CN114239861A
Application number: CN202111543069.5A
Authority: CN
Inventors: 曾焕强; 胡浩麟; 陈婧; 施一帆; 朱建清; 黄德天; 温廷羲
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25

Abstract

本发明实例公开了一种基于多教师联合指导量化的网络模型压缩方法及系统，利用模型量化降低深度神经网络的存储开销，提高推理速度；基于在线同步学习的联合训练范式，结合集成学习中对弱学习进行线性组合构建强学习的思想，由多个教师网络对学生网络进行量化感知训练，充分利用教师网络提供的量化梯度信息，以弥补量化压缩造成的性能损失；最后，再以全精度模型作为教师网络，通过离线知识蒸馏进一步训练量化学生网络，最终得到精度不逊于复杂模型的轻量级模型。本发明有效结合了模型量化、知识蒸馏以及集成学习的优势，在实现模型压缩与加速的同时也提升了模型性能。

Description

基于多教师联合指导量化的模型压缩方法及系统

技术领域

本发明实施例涉及机器学习技术领域，具体涉及一种基于多教师联合指导量化的模型压缩方法及系统。

背景技术

网络模型压缩是指在不显著影响模型精度的前提下，通过对深度神经网络进行压缩和加速来轻量级模型，从而使深度学习模型能够部署到资源有限的边缘设备上，具有非常重要的实际应用价值。网络模型压缩广泛应用于各类人工智能任务，例如物体识别与检测、实例分割以及自然语言处理等。

量化是一种网络模型压缩与加速方法，其核心思想是以远低于32位全精度的比特位数来存储神经网络中的权重参数与特征激活值，从而显著降低网络模型的内存开销，提升推理速度；基于多教师架构的知识蒸馏是另一种模型压缩方法，采用在线同步学习与集成学习的思想，以多个教师网络的类别分布输出联合监督学生网络的训练，完成知识迁移，使学生网络突破其性能瓶颈。

发明内容

为此，本发明实施例提供一种基于多教师联合指导量化的网络模型压缩方法及系统，对深度神经网络进行有效的压缩与加速，并提高其分类性能。

为了实现上述目的，本发明实施例提供如下技术方案：

一种基于多教师联合指导量化的网络模型压缩方法，其特征在于，包括：

S11，基于均匀量化策略，根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器；

S12，设计学生网络与教师网络，结合量化器分别对两个网络进行低比特位数预训练，得到初始化的量化学生网络与量化教师网络，同时保留原始的全精度教师网络；

S13，基于在线同步学习的训练范式，对量化学生网络、量化教师网络及全精度教师网络进行联合训练；

S14，利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏，对量化学生网络进行蒸馏训练，直至收敛，得到轻量级学生网络，实现对教师网络的模型压缩。

优选的，所述S11，具体包括：

基于均匀量化策略，根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器。为了将参数、激活值的数值分布限制在k比特位数所能表示的区间内，首先定义截断函数：

其中t表示输入，max,min分别表示区间的最大值与最小值。

对于权重参数w，将其量化为分布在区间[-2^k-1,2^k-1-1]中的整数，则作用于权重参数的量化器为

对于特征激活值a，将其量化为分布在区间[0,2^k-1]中的整数，则作用于特征激活值的量化器为

优选的，所述S12，具体包括：

设计学生网络与教师网络，其中教师网络采用ResNet-56，其网络结构为[16,(16,16)×9,(32,32)×9,(64,64)×9,avg,FC]，学生网络采用ResNet-32，其网络结构为[16,(16,16)×5,(32,32)×5,(64,64)×5,avg,FC]，其中每个数字代表卷积+批标准化+ReLU激活函数三层结构，数字大小代表卷积层输出通道数，×N代表相同卷积块重复次数，avg表示全局平均池化，FC表示全连接层。

将S11所得量化器作用于网络模型中的权重参数与特征激活值，分别对教师、学生网络进行低比特位数预训练，得到初始化的量化学生网络与量化教师网络，同时保留原始的全精度教师网络。

优选的，所述S13，具体包括：

基于在线同步学习的训练范式，对量化学生网络、量化教师网络及全精度教师网络进行联合训练。在线同步学习时，上述三个网络各自的训练损失函数为：

其中，φ_i∈(φ₁,φ₂,φ₃)分别表示量化学生网络、量化教师网络及全精度教师网络，N＝3，表示当前有3个网络进行在线同步学习；D_KL为相对熵损失函数，

为第i个网络的交叉熵损失函数，p_i为第i个网络的类别预测分布。

优选的，所述S14，具体包括：

利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏，对量化学生网络进行蒸馏训练。知识蒸馏损失函数为：

L_KD＝(1-λ)L_C+λD_KL(p_T||p_S)

其中，L_C表示交叉熵损失函数，D_KL表示相对熵损失函数，p_T与p_S分别表示全精度教师网络与量化学生网络输出的类别预测分布，λ表示平衡知识蒸馏损失与交叉熵损失的相对贡献的超参数。通过知识蒸馏，训练学生网络直至收敛，得到轻量级网络模型，实现对教师网络的模型压缩。

另一方面，一种基于多教师联合指导量化的网络模型压缩系统，包括：

量化器获取模块，用于基于均匀量化策略，根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器；

量化预训练模块，用于设计学生网络与教师网络，结合量化器分别对两个网络进行低比特位数预训练，得到初始化的量化学生网络与量化教师网络，同时保留原始的全精度教师网络；

联合训练模块，用于基于在线同步学习的训练范式，对量化学生网络、量化教师网络及全精度教师网络进行联合训练；

离线知识蒸馏模块，用于利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏，对量化学生网络进行蒸馏训练，直至收敛，得到轻量级学生网络，实现对教师网络的模型压缩。

再一方面，一种计算机可读存储介质，其上存储有程序指令，其所述程序指令被处理器执行时实现一种基于多教师联合指导量化的模型压缩方法的步骤。

本发明实施例具有以下优点：

本发明提供一种基于多教师联合指导量化的网络模型压缩方法及系统，首先对模型中的权重参数与特征激活值分别进行量化，显著降低了模型的存储开销并提升其推理速度；基于集成学习与知识蒸馏的思想，构建了多教师网络与学生网络在线同步学习的架构，充分利用量化梯度信息，弥补模型量化带来的性能损失；最后，结合离线知识蒸馏的模型压缩方法，进一步提升量化学生网络的精度，得到轻量级、高性能、易部署的模型，增强深度学习算法在实际场景中的适用性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩方法的流程图；

图2为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩方法中在线同步学习方法示意图；

图3为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩方法的整体训练流程图；

图4为本发明实施例提供的一种基于多教师联合指导量化的网络模型压缩系统的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，本实施例一种基于多教师联合指导量化的网络模型压缩方法，该方法包括：

步骤S11，基于均匀量化策略，根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器；

其中，均匀量化是指将参数的连续取值近似转化为有限多个等间隔离散值的过程。为了将参数、激活值的数值分布限制在k比特位数所能表示的区间内，首先定义截断函数：

其中t表示输入，max,min分别表示区间的最大值与最小值。

结合上述量化器，得到权重参数与特征激活值的量化结果，如下：

其中，

与

为量化后的权重参数与特征激活值；

表示向下取整运算；S_W与S_A是可学习的超参数，分别表示在参数与激活值量化过程中的缩放因子，其作用是将参数、激活值的数值分布缩放至量化区间中，避免丢失过多信息。

步骤S12，设计学生网络与教师网络，结合量化器分别对两个网络进行低比特位数预训练，得到初始化的量化学生网络与量化教师网络，同时保留原始的全精度教师网络。

训练和测试采用的数据集为CIFAR-100数据集。CIFAR-100数据集中含有总计60000张彩色图像，分属于100个不同类别，每张图像分辨率为32×32。数据集预先划分为训练集和测试集，其中训练集内含50000张图像，测试集内含10000张图像，每类各有500个训练图像和100个测试图像。

本实施例中，在量化预训练阶段，采用随机梯度下降法对教师、学生网络分别进行训练，批次大小为64，初始学习率为0.01，每10次迭代将其减小至初始值的1/10，总迭代次数为30。

步骤S13，基于在线同步学习的训练范式，对量化学生网络、量化教师网络及全精度教师网络进行联合训练。

其中，φ_i∈(φ₁,φ₂,φ₃)分别表示量化学生网络、量化教师网络及全精度教师网络，N＝3，表示当前有3个网络进行在线同步学习；D_KL为相对熵损失函数，对于网络φ₁，需要与φ₂、φ₃分别计算相对熵损失。以网络φ₁与φ₂为例，φ₁对应的相对熵损失函数表示如下：

其中，p₁与p₂表示网络φ₁与φ₂的类别预测分布；J表示输入样本及标签的总数，x_j表示第j个输入样本；M表示当前分类任务中的类别总数，m表示其中的第m类；τ表示知识蒸馏的温度超参数，

表示在输入样本x_j时，第i个网络对第m类的预测概率，即网络中softmax分类器的输出，表示如下：

其中，

表示在输入样本x_j时，第i个网络对于第m类的预测结果，即网络中softmax分类器的输入。

为第i个网络的交叉熵损失函数，表示如下：

其中，J表示输入样本及标签的总数，x_j与y_j分别表示第j个输入样本与其对应的标签；I(y_j,m)为指示函数，表示如下：

本实施例中，在联合训练阶段，采用随机梯度下降法对全精度教师网络、量化教师网络以及量化学生网络进行在线同步训练，批次大小为64，初始学习率为0.01，在第80次迭代时将其减小至初始值的1/10，总迭代次数为100。

参见图2所示，在线同步学习的训练范式能够让多个教师网络与学生网络构成集合，使他们在训练过程中共同学习，并进行灵活调整。基于量化后的教师、学生网络的输出分布对全精度教师网络进行量化感知训练，能够提高其对量化信息的适应性。

步骤S14，利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏，对量化学生网络进行蒸馏训练，直至收敛，得到轻量级学生网络，实现对教师网络的模型压缩。

L_KD＝(1-λ)L_C+λD_KL(p_T||p_S)

其中，L_C表示交叉熵损失函数，D_KL表示相对熵损失函数，p_T与p_S分别表示全精度教师网络与量化学生网络输出的类别预测分布，λ表示平衡知识蒸馏损失与交叉熵损失的相对贡献的超参数，优选的，λ＝0.9。

本实施例中，在离线知识蒸馏阶段，采用随机梯度下降法对量化学生网络进行知识蒸馏训练，批次大小为64，初始学习率为0.01，在第20次迭代时将其减小至初始值的1/10，总迭代次数为80。

参见图3所示，结合上述量化预训练、基于在线同步学习的联合训练以及离线知识蒸馏训练，构成本发明实例的整体训练流程。

参见图4所示，本实施例一种基于多教师联合指导量化的网络模型压缩系统，包括：

量化器获取模块401，用于基于均匀量化策略，根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器；

量化预训练模块402，用于设计学生网络与教师网络，结合量化器分别对两个网络进行低比特位数预训练，得到初始化的量化学生网络与量化教师网络，同时保留原始的全精度教师网络；

联合训练模块403，用于基于在线同步学习的训练范式，对量化学生网络、量化教师网络及全精度教师网络进行联合训练；

离线知识蒸馏模块404，用于利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏，对量化学生网络进行蒸馏训练，直至收敛，得到轻量级学生网络，实现对教师网络的模型压缩；

另一方面，本发明还提供一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现以下步骤：

基于均匀量化策略，根据量化比特位数为深度神经网络权重参数与特征激活值分别设计量化器；

设计学生网络与教师网络，结合量化器分别对两个网络进行低比特位数预训练，得到初始化的量化学生网络与量化教师网络，同时保留原始的全精度教师网络；

基于在线同步学习的训练范式，对量化学生网络、量化教师网络及全精度教师网络进行联合训练；

利用联合训练后的全精度教师网络与量化学生网络进行离线知识蒸馏，对量化学生网络进行蒸馏训练，直至收敛，得到轻量级学生网络，实现对教师网络的模型压缩。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。