CN118133921A

CN118133921A - 基于最优组合压缩序列的神经网络模型压缩方法和系统

Info

Publication number: CN118133921A
Application number: CN202410272966.4A
Authority: CN
Inventors: 邹桉; 沈颖涛; 马叶涵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Filing date: 2024-03-11
Publication date: 2024-06-04

Abstract

本发明提供了一种基于最优组合压缩序列的神经网络模型压缩方法和系统，包括：步骤1：利用原模型的中间输出作为软目标训练一个自定义学生模型来继承原模型的推理性能；步骤2：在学生模型每一层上通过预设标准所构成的节点重要指数来判断并删除特定的节点/节点连接及其对应的模型参数；步骤3：改变学生模型参数的比特数，将原模型的每个浮点参数都转换成对应的整型参数；步骤4：动态地调节每一次推理需要经过的学生模型层数，学生模型在推理的同时动态改变自身的结果，动态地实现压缩的结果。本发明解决了多种模型压缩方法组合的问题，实现了在部署连续压缩方案以及全面验证压缩后模型性能上的便利性和可配置性。

Description

基于最优组合压缩序列的神经网络模型压缩方法和系统

技术领域

本发明涉及神经网络模型压缩技术领域，具体地，涉及一种基于最优组合压缩序列的神经网络模型压缩方法和系统。

背景技术

为了支持神经网络在轻量级计算平台上的应用，近年来提出了多种神经网络压缩技术。这些技术利用不同的角度，如网络架构、神经元和比特精度，以最小的精度压缩深度神经网络。

同时，以推理阶段固定的计算图和参数为特征，动态压缩表现出在运行时自适应网络结构或参数以适应不同输入的能力。在应用多次压缩时，(Qi et al.,2021)结合修剪和量化来压缩cnn，实现了约50％的浮点操作数减少，而精度仅下降0.15％到0.37％。(Liet al.,2023)将卷积神经网络上的提前退出与量化相结合，不仅避免了浮点计算，而且在准确率下降1％-3％的情况下，减少了超过50％的计算量下降。

(Zhao et al.,2023)提出深度混合压缩网络，采用松弛混合精度量化、松弛权重剪枝和知识蒸馏等方法克服均匀量化的局限性。(Han et al.,2015)利用了剪枝、训练量化和哈夫曼编码来减少神经网络执行过程中的网络参数存储和能量开销。

近年来各热门的模型压缩技术，尽管在神经网络上使用了不同的压缩方法，但没有探索三种及以上经典压缩方法之间的相互作用和最佳排序。受显著减少计算和参数成本的潜力的激励，本发明研究了压缩技术之间的相互作用，并建立了一个最优的神经网络压缩序列，在相同精度损失限制下，该压缩序列范式(在配套的合理超参数下)压缩率远超单个压缩方法形成的压缩后模型。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于最优组合压缩序列的神经网络模型压缩方法和系统。

根据本发明提供的基于最优组合压缩序列的神经网络模型压缩方法，包括：

步骤1：应用架构级技术知识蒸馏，利用原模型的中间输出作为软目标训练一个自定义学生模型来继承原模型的推理性能；

步骤2：应用神经元级技术剪枝，在学生模型每一层上通过预设标准所构成的节点重要指数来判断并删除特定的节点/节点连接及其对应的模型参数；

步骤3：应用亚神经元级技术量化，直接改变学生模型参数的比特数，将原模型的每个浮点参数都转换成对应的整型参数；

步骤4：使用动态架构级技术早期退出，在推理时起效，动态地调节每一次推理需要经过的学生模型层数，学生模型在推理的同时动态改变自身的结果，动态地实现压缩的结果。

优选地，所述步骤1包括：将老师模型作为待压缩模型进行加载，将学生模型作为超参数所定义的压缩后模型进行初始化，训练集以同样的顺序同时输入老师模型和学生模型，每加载同一批数据，取老师模型SoftMax层前的包含所有分类结果概率值的中间输出作为软目标，与训练集硬目标为权重进行加权后成为学生模型的最终训练目标，该最终训练目标与学生模型输出结果的交叉熵损失作为总损失进行正常梯度回归，训练后得到的模型即为压缩后模型。

优选地，所述步骤2包括：通道剪枝通过探测模型推理过程中输出特征大小、卷积核大小和输出特征变化幅度，确定每个卷积核的重要性指数，并且从模型参数中去除相应的低重要度卷积核，由此实现计算复杂度和模型大小的压缩。

优选地，所述步骤3包括：针对卷积神经网络的8bit量化，量化操作在训练时进行，该操作根据原卷积核中模型参数的上下限或者数据分布，将32bit浮点型模型参数通过单调递增函数转换成8bit整型参数，该操作的训练时微调与量化操作一同进行，前向转播时使用量化后8bit整型参数，在梯度回归时使用量化前32bit浮点参数，经过训练时量化直接得出量化后的由整型构成的模型，从而实现模型压缩。

优选地，所述步骤4包括：在模型中间若干位置内置退出层，并针对所有退出层进行一次模型训练，使得每个退出层都能输出在该位置退出能够获得的最高正确率的推理结果，推理时中间层特征图每到达一个退出层节点就先尝试从退出层退出，如果退出层结果不满足置信阈值超参数，则特征图继续在原网络中前向传递；如果退出层输出满足置信阈值，推理当即结束，取该退出层输出为最终推理结果。

根据本发明提供的基于最优组合压缩序列的神经网络模型压缩系统，包括：

模块M1：应用架构级技术知识蒸馏，利用原模型的中间输出作为软目标训练一个自定义学生模型来继承原模型的推理性能；

模块M2：应用神经元级技术剪枝，在学生模型每一层上通过预设标准所构成的节点重要指数来判断并删除特定的节点/节点连接及其对应的模型参数；

模块M3：应用亚神经元级技术量化，直接改变学生模型参数的比特数，将原模型的每个浮点参数都转换成对应的整型参数；

模块M4：使用动态架构级技术早期退出，在推理时起效，动态地调节每一次推理需要经过的学生模型层数，学生模型在推理的同时动态改变自身的结果，动态地实现压缩的结果。

优选地，所述模块M1包括：将老师模型作为待压缩模型进行加载，将学生模型作为超参数所定义的压缩后模型进行初始化，训练集以同样的顺序同时输入老师模型和学生模型，每加载同一批数据，取老师模型SoftMax层前的包含所有分类结果概率值的中间输出作为软目标，与训练集硬目标为权重进行加权后成为学生模型的最终训练目标，该最终训练目标与学生模型输出结果的交叉熵损失作为总损失进行正常梯度回归，训练后得到的模型即为压缩后模型。

优选地，所述模块M2包括：通道剪枝通过探测模型推理过程中输出特征大小、卷积核大小和输出特征变化幅度，确定每个卷积核的重要性指数，并且从模型参数中去除相应的低重要度卷积核，由此实现计算复杂度和模型大小的压缩。

优选地，所述模块M3包括：针对卷积神经网络的8bit量化，量化操作在训练时进行，该操作根据原卷积核中模型参数的上下限或者数据分布，将32bit浮点型模型参数通过单调递增函数转换成8bit整型参数，该操作的训练时微调与量化操作一同进行，前向转播时使用量化后8bit整型参数，在梯度回归时使用量化前32bit浮点参数，经过训练时量化直接得出量化后的由整型构成的模型，从而实现模型压缩。

优选地，所述模块M4包括：在模型中间若干位置内置退出层，并针对所有退出层进行一次模型训练，使得每个退出层都能输出在该位置退出能够获得的最高正确率的推理结果，推理时中间层特征图每到达一个退出层节点就先尝试从退出层退出，如果退出层结果不满足置信阈值超参数，则特征图继续在原网络中前向传递；如果退出层输出满足置信阈值，推理当即结束，取该退出层输出为最终推理结果。

与现有技术相比，本发明具有如下的有益效果：

(1)通过对蒸馏、剪枝、量化和早期退出的封装性实现和兼容性优化，解决了多种模型压缩方法组合的问题，实现了在部署连续压缩方案以及全面验证压缩后模型性能上的便利性和可配置性；

(2)通过多种数据集、多种模型、多种超参数组合的网格搜索，形成了从压缩序列+超参数组合到最终模型性能的大范围查找表，从实验结果所得出的压缩方法之间彼此的关系和影响和对压缩方法的结构性认知解决了最优压缩序列的问题，证明了从架构到单元，从静态到动态的压缩准则，得出了DPQE的最优压缩序列范式，该压缩序列所产生的压缩模型在主流卷积和transformer神经网络和常用数据集上可以稳定地达到100至1000倍的计算量压缩率，并且精度损失可以降到忽略不计。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为可配置组合序列压缩框架示意图；

图2为通道剪枝技术在该框架中实现的示意图；

图3为知识蒸馏技术在该框架中实现的示意图；

图4为整型训练时量化技术在该框架中实现的示意图；

图5为早期退出技术在该框架中实现的示意图；

图6为最优模型压缩序列。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例

本发明基于封装实现和兼容性优化的经典模型压缩技术(包括知识蒸馏，剪枝，量化，早期退出)，构建了一个可配置组合序列压缩框架，如图1。基于拓扑排序和压缩技术结构特性提出的最优压缩序列范式：D(蒸馏)P(剪枝)Q(量化)E(早期退出)通过该框架下多模型，多数据集，遍历组合序列，网格搜索超参数的实验方式被证明。压缩后模型具有较低的精度损失和极高的计算量压缩率和模型压缩率，远胜于单个压缩方法的模型性能。

该项技术包含一个四种经典模型压缩技术组合形成的神经网络模型压缩序列范式和兼容的可配置组合压缩框架。

可配置组合压缩框架：为了得出最优压缩序列范式，首先软件实现了可配置组合压缩框架，该框架支持四种经典模型压缩技术：剪枝P(Pruning，如图2)，知识蒸馏D(Distillation，如图3)，量化Q(Quantization，如图4)和早期退出E(Early Exit，如图5)。基于封装的理念，该框架各压缩模块之间互相兼容，同时又可完全独立地调节超参数，因此通过该框架可以自定义组合压缩序列，并且得出每种压缩序列与参数组合决定的最终压缩后模型的推理精度，理论比特操作数和模型大小。

模型压缩序列范式：基于对各模型压缩理论特性的认知，遵从图6中顺序的最优模型压缩序列被提出。

首先应用架构级技术知识蒸馏，它利用原模型的中间输出作为软目标训练一个完全自定义的更小的学生模型来大体继承原模型的推理性能，这改变了模型整体类别/层数/宽度(全局通道数)，因为学生模型可以是原模型的低宽度/层数变式，也可以是完全不同的另一个模型，这产生了模型架构级的变动；其次应用神经元级技术剪枝，它在模型每一层上通过一定的标准所构成的节点重要指数来判断并删除特定的节点/节点连接及其对应的模型参数，它改变模型局部节点连接情况，模型的变动发生在每一个节点及其与其他节点的连接上；之后应用亚神经元级技术量化，它直接改变模型参数的比特数，原模型的每个浮点参数都被转换成对应的整型参数，模型的结构完全没有变动，变动深入进节点参数内部；最后使用动态架构级技术早期退出，它在推理时起效，动态地调节每一次推理需要经过的模型层数，与前三种静态改变模型的方法不同，早期推出的模型变动产生在模型训练完成，部署之后，模型在推理的同时动态改变自身的结果，动态地实现压缩的结果，因而早期退出是一个动态的模型架构级压缩技术。

压缩序列范式的证明：利用此框架，可以通过网格搜索的方式探究对于特定的压缩序列，每种参数组合的压缩后模型性能。从拓扑排序的角度，证明了DP，DQ，DE，PQ，PE，QE较之它们的反向序列具有普适的更优性能，因而它们的拓扑排序指向唯一最优解DPQE。从实验遍历的角度，同样证明了DPQE比之其他23种压缩方法排列拥有更好的性能。网格搜索的结果形成了从压缩序列+超参数组合到最终模型性能的大范围查找表。

图1为可配置组合序列压缩框架示意图。该框架的压缩单元由经过(与其他各压缩方法之间的)兼容性优化的剪枝，知识蒸馏，量化和早期退出压缩技术所构成。各压缩模块之间高度独立，因而构成了模型压缩序列的可配置组成单元。用户可以自由调节压缩序列中各模块的相对位置，自由修改每个压缩模块的超参数(这决定了每个压缩方法的配置，不同的压缩方法拥有不同种类的超参数)，(进一步地)可以删除压缩模块或将某一压缩模块重复性地插入在序列的不同位置。压缩模块的独立性和兼容确保了上一个压缩模块将只会输出模型本身到下一个压缩模块，而下一个压缩模块通过将模型进行兼容性转换，模型压缩和重训练微调后亦继续传输压缩后模型。而坐标图表示的是框架内置的压缩效果测评单元，它支持网格搜索/遍历超参数和序列顺序批生成压缩后模型，并自动验证压缩后模型的推理结果，因而可以自动验证模型的推理精度，计算量压缩率，模型压缩率以及其他自定义验证标准，并把它绘制成易于理解的点图。

图2为通道剪枝技术在该框架中实现的示意图。以卷积神经网络为例，输入/输出特征图均具有不同的通道数(对应不同的图像特征)，每个卷积核对应着一个输入通道到一个输出通道的转换(以矩阵相乘形式)。通道剪枝通过探测模型推理过程中输出特征大小/卷积核大小/输出特征变化幅度等可配置指标，确定每个卷积核的重要性指数，并且从模型参数中去除相应的低重要度卷积核。由此实现计算复杂度和模型大小的压缩。

图3为知识蒸馏技术在该框架中实现的示意图。老师模型作为待压缩模型被加载，而学生模型作为超参数所定义的压缩后模型被初始化。训练集以同样的顺序同时输入这两个模型。每加载同一批数据，取老师模型SoftMax层前的包含所有分类结果概率值的中间输出作为软目标，与训练集正确标签也就是硬目标以为权重进行加权后成为学生模型的最终训练目标。该目标与学生模型输出结果的交叉熵损失则作为总损失进行正常梯度回归。训练后得到的模型即为压缩后模型。

图4为整型训练时量化技术在该框架中实现的示意图。以卷积神经网络的8bit量化为例，量化操作在训练时进行。该操作根据原卷积核中模型参数的上下限或者数据分布，将32bit浮点型模型参数通过某种单调递增函数(通常是线性的)转换成8bit整型参数。该操作的训练时微调与量化操作一同进行，前向转播时使用量化后8bit整型参数，而在梯度回归(也就是反向传播)时使用量化前32bit浮点参数。经过训练时量化直接得出量化后的由整型构成的模型，整型数据计算更快，存储占用更低，从而实现模型压缩。

图5为早期退出技术在该框架中实现的示意图。根据模型的不同，在模型中间适当的若干位置内置特定结构的退出层。并针对所有退出层额外做一次模型训练使得每个退出层都能输出在该位置退出能够获得的最高正确率的推理结果。推理时中间层特征图每到达一个退出层节点就会先尝试从退出层退出，如果退出层结果不满足置信阈值超参数，则特征图会继续在原网络中前向传递，如图中第一个退出层所示；而如果退出层输出满足了置信阈值，推理当即结束，取该退出层输出为最终推理结果。早期退出因退出层的加入略微增加模型大小，但在推理时的计算量得以有效降低，是模型架构层的动态压缩技术。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于最优组合压缩序列的神经网络模型压缩方法，其特征在于，包括：

2.根据权利要求1所述的基于最优组合压缩序列的神经网络模型压缩方法，其特征在于，所述步骤1包括：将老师模型作为待压缩模型进行加载，将学生模型作为超参数所定义的压缩后模型进行初始化，训练集以同样的顺序同时输入老师模型和学生模型，每加载同一批数据，取老师模型SoftMax层前的包含所有分类结果概率值的中间输出作为软目标，与训练集硬目标为权重进行加权后成为学生模型的最终训练目标，该最终训练目标与学生模型输出结果的交叉熵损失作为总损失进行正常梯度回归，训练后得到的模型即为压缩后模型。

3.根据权利要求1所述的基于最优组合压缩序列的神经网络模型压缩方法，其特征在于，所述步骤2包括：通道剪枝通过探测模型推理过程中输出特征大小、卷积核大小和输出特征变化幅度，确定每个卷积核的重要性指数，并且从模型参数中去除相应的低重要度卷积核，由此实现计算复杂度和模型大小的压缩。

4.根据权利要求1所述的基于最优组合压缩序列的神经网络模型压缩方法，其特征在于，所述步骤3包括：针对卷积神经网络的8bit量化，量化操作在训练时进行，该操作根据原卷积核中模型参数的上下限或者数据分布，将32bit浮点型模型参数通过单调递增函数转换成8bit整型参数，该操作的训练时微调与量化操作一同进行，前向转播时使用量化后8bit整型参数，在梯度回归时使用量化前32bit浮点参数，经过训练时量化直接得出量化后的由整型构成的模型，从而实现模型压缩。

5.根据权利要求1所述的基于最优组合压缩序列的神经网络模型压缩方法，其特征在于，所述步骤4包括：在模型中间若干位置内置退出层，并针对所有退出层进行一次模型训练，使得每个退出层都能输出在该位置退出能够获得的最高正确率的推理结果，推理时中间层特征图每到达一个退出层节点就先尝试从退出层退出，如果退出层结果不满足置信阈值超参数，则特征图继续在原网络中前向传递；如果退出层输出满足置信阈值，推理当即结束，取该退出层输出为最终推理结果。

6.一种基于最优组合压缩序列的神经网络模型压缩系统，其特征在于，包括：

7.根据权利要求6所述的基于最优组合压缩序列的神经网络模型压缩系统，其特征在于，所述模块M1包括：将老师模型作为待压缩模型进行加载，将学生模型作为超参数所定义的压缩后模型进行初始化，训练集以同样的顺序同时输入老师模型和学生模型，每加载同一批数据，取老师模型SoftMax层前的包含所有分类结果概率值的中间输出作为软目标，与训练集硬目标为权重进行加权后成为学生模型的最终训练目标，该最终训练目标与学生模型输出结果的交叉熵损失作为总损失进行正常梯度回归，训练后得到的模型即为压缩后模型。

8.根据权利要求6所述的基于最优组合压缩序列的神经网络模型压缩系统，其特征在于，所述模块M2包括：通道剪枝通过探测模型推理过程中输出特征大小、卷积核大小和输出特征变化幅度，确定每个卷积核的重要性指数，并且从模型参数中去除相应的低重要度卷积核，由此实现计算复杂度和模型大小的压缩。

9.根据权利要求6所述的基于最优组合压缩序列的神经网络模型压缩系统，其特征在于，所述模块M3包括：针对卷积神经网络的8bit量化，量化操作在训练时进行，该操作根据原卷积核中模型参数的上下限或者数据分布，将32bit浮点型模型参数通过单调递增函数转换成8bit整型参数，该操作的训练时微调与量化操作一同进行，前向转播时使用量化后8bit整型参数，在梯度回归时使用量化前32bit浮点参数，经过训练时量化直接得出量化后的由整型构成的模型，从而实现模型压缩。

10.根据权利要求6所述的基于最优组合压缩序列的神经网络模型压缩系统，其特征在于，所述模块M4包括：在模型中间若干位置内置退出层，并针对所有退出层进行一次模型训练，使得每个退出层都能输出在该位置退出能够获得的最高正确率的推理结果，推理时中间层特征图每到达一个退出层节点就先尝试从退出层退出，如果退出层结果不满足置信阈值超参数，则特征图继续在原网络中前向传递；如果退出层输出满足置信阈值，推理当即结束，取该退出层输出为最终推理结果。