CN113361707A

CN113361707A - 一种模型压缩方法、系统及计算机可读介质

Info

Publication number: CN113361707A
Application number: CN202110570265.5A
Authority: CN
Inventors: 赵生捷; 张斌; 张荣庆
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-07

Abstract

本发明涉及一种模型压缩方法、系统及计算机可读介质，其中模型压缩方法包括：步骤1：获得训练完成的原始模型；步骤2：搜索原始模型中每一层的最佳剪枝率，然后对模型进行滤波器级别的剪枝；步骤3：对剪枝后的模型进行量化；步骤4：采用知识蒸馏的方式进行知识迁移，然后将知识迁移后的模型在训练数据集上进行fine‑tune微调，获得压缩模型。与现有技术相比，本发明具有实现自动压缩、适应硬件环境、模型体积小性能好、方便快捷的等优点。

Description

一种模型压缩方法、系统及计算机可读介质

技术领域

本发明涉及模型压缩技术领域，尤其是涉及一种基于神经架构搜索的模型压缩方法、系统及计算机可读介质。

背景技术

随着近些年来深度学习技术的快速发展，深度神经网络在许多的任务上都表现出了十分优秀的性能，例如计算机视觉，语音识别，自然语言处理等等，深度学习模型凭借着其强大的学习能力在许多主流的数据集上都取得了最优的表现。尽管如此，深度学习模型往往具有着海量的参数，在训练和推断阶段会占用大量的计算资源，因此在一些资源受限的设备上无法对其进行相应的部署，例如手机，嵌入式设备等等。

模型压缩的目的是要实现一种从原始模型简化而来又没有明显降低精度的模型。简化模型是一种在尺寸或者推理阶段所消耗的时间方面都比原始模型减少的模型。具体而言，减小大小意味着压缩的模型具有越来越少的参数，因此在运行时使用更少的RAM，这是理想的，因为它释放了内存供应用程序的其他部分使用。等待时间的减少是指基于训练后的模型的输入，模型做出预测或推理所需的时间减少，通常可在运行时转化为更低的能耗。模型大小和延迟通常是并行的，因为较大的模型需要更多的内存访问。

模型压缩技术主要有以下几种方法：轻量化网络结构设计，剪枝，量化，以及知识蒸馏。轻量化网络设计是指在模型的设计之初就用一些手段来减少体积，例如深度可分离卷积，通道shuffle等等。剪枝技术的主要思想是寻找出模型中包含信息较少的滤波器，然后将其剔除，因为训练完成后的模型在许多情况下是包含了许多冗余信息的，也就是说很多滤波器的权值是十分接近于0的，通过找出这些对于模型学习没有任何帮助的滤波器可以在很大程度上减少模型的体积。在模型的参数存储过程中为了保证精度，往往是使用浮点数来对权重进行存储的，而浮点数所占用的空间也更多，量化的目的就是使用低位的整数来代替浮点数，从而降低存储权重时占用的空间。

现有技术中的模型压缩方法需要人工设定每一层的剪枝率，在模型压缩过程中需要人工干预，自动化程度不高。另外，模型压缩时需要考虑具体的环境以确定需要将模型压缩到何种程度，然而现有的模型压缩方法均未考虑模型压缩是否适合硬件环境，虽然压缩效果较好，但是并未考虑压缩后是否适合当前的硬件环境，或者是否进行了过度压缩。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种实现自动压缩、适应硬件环境、模型体积小性能好、方便快捷的模型压缩方法、系统及计算机可读介质。

本发明的目的可以通过以下技术方案来实现：

一种模型压缩方法，所述的模型压缩方法包括：

步骤1：获得训练完成的原始模型；

步骤2：搜索原始模型中每一层的最佳剪枝率，然后对模型进行滤波器级别的剪枝；

步骤3：对剪枝后的模型进行量化；

步骤4：采用知识蒸馏的方式进行知识迁移，然后将知识迁移后的模型在训练数据集上进行fine-tune微调，获得压缩模型。

优选地，所述的步骤1具体为：

使用原始训练数据集对模型进行训练，使用模型预测标签图与真实标签图之间的交叉熵来对原始模型进行优化，获得训练完成的原始模型。

优选地，所述的步骤2具体为：获得模型的每一层相应的剪枝率，在获得剪枝率后，对模型中每一层的滤波器按照权值的大小由高到低进行排序，然后根据每一层相应的剪枝率获得需要保留的滤波器以及需要删除的滤波器。

更加优选地，所述的模型每一层的剪枝率基于强化学习的神经架构搜索子方法获得。

更加优选地，所述的基于强化学习的神经架构搜索子方法具体为：

节点从环境中接收当前的状态，该状态代表了当前层的特征表示，节点输出当前层的剪枝率，根据该剪枝率对模型的当前层进行压缩；

随后节点移动到下一层，按照上述方法对模型的当前层进行压缩；

在完成最后一层的压缩之后，在验证集上对模型的性能进行评估，并将其作为reward反馈返回给节点，返回的内容包括：

R_err＝-loss

R_flops＝-loss*log(flops)

R_param＝-loss*log(params)

其中，R_err为模型损失reward，R_flops为计算量reward；R_param为参数量reward；loss为损失函数；flops为计算量；params为参数量；

节点根据reward反馈调整节点参数。

优选地，所述的步骤3具体为：使用低比特位取代原始模型中的浮点数，实现模型的量化。

优选地，所述的步骤4具体为：

步骤4-1：将原始模型作为教师网络，经过剪枝以及量化后的模型作为学生网络，采用知识蒸馏的方式进行知识迁移；

步骤4-2：将进行知识迁移后的模型在原始的训练数据集上进行fine-tune微调。

更加优选地，所述的教师网络与学生网络采用联合训练方式，损失函数为：

其中，x为模型输入；W_T为教师网络参数；W_A为学生网络参数；α，β，γ为损失函数权重；

为教师网络softmax输出的交叉熵loss；

为学生网络softmax输出的交叉熵loss；

为学生-教师网络蒸馏loss。

一种用于上述任一项所述模型压缩方法的模型压缩系统，所述的模型压缩系统包括依次相连的模型预训练模块、剪枝模块、量化模块和知识蒸馏模块；

模型预训练模块，用于对模型进行训练和优化，获得训练好的模型；

剪枝模块，用于通过基于强化学习的神经架构搜索子方法对模型进行滤波器级别的剪枝；

量化模块，用于对剪枝后的模型进行量化处理；

知识蒸馏模块，用于将原始模型作为教师网络，经过剪枝以及量化后的模型作为学生网络，采用知识蒸馏的方式进行知识迁移，并对完成知识迁移的模型进行fine-tune微调，获得完成压缩的模型。

一种计算机可读介质，所述的计算机可读介质存储有上述任一项所述的模型压缩方法。

与现有技术相比，本发明具有以下有益效果：

一、实现自动压缩：本发明中的模型压缩方法改进了传统的模型剪枝方法，摆脱了对人工设定每一层的剪枝率的依赖，一方面这在一定的程度上也减少了网络的超参数，另一方面通过引入了神经架构搜索技术，从而整套优化流程更为简洁，模型能够自动地学习到有用的信息而不需要过度的人工干预；同时本发明中的模型压缩方法也更加适用于语义分割场景中，因为语义分割模型对裁剪率更加敏感。

二、适应硬件环境：本发明中的模型压缩方法既是对网络结构的路径搜索，也是采用强化学习中的DDPG(深度确定性策略梯度法)来产生连续空间上的具体压缩比率，通过约束FLOPs和准确率设定奖励值，因此得到的压缩策略是适应当前硬件环境的，因为在优化的过程中将计算成本纳入了目标函数当中，压缩效果更好。

三、体积小：本发明中的模型压缩方法引入了协同剪枝以及量化的思想，在模型进行滤波器剪枝完毕之后，会采用量化的手段进一步地降低模型的体积；同时引入了知识蒸馏的思想，在原始模型经过了剪枝以及量化之后，模型的体积会大幅度缩小，学习能力也会有所下降，而知识蒸馏可以赋予小模型和大模型一样的学习能力，在将体积压缩到更小的同时，还能够保证模型的学习能力，有效实现了模型的压缩。

四、方便快捷：本发明中的模型压缩方法可以通过端到端的方式对网络进行训练以及优化，整个流程十分简洁，无需进行复杂的后期调优，使用起来方便快捷。

附图说明

图1为本发明中模型压缩方法的流程示意图；

图2为本发明实施例中语义分割训练示意图；

图3为本发明基于强化学习的神经架构搜索子方法的示意图；

图4为本发明实施例中知识蒸馏的示意图；

图5为本发明中模型压缩系统的结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种模型压缩方法，其流程如图1所示，包括：

步骤1：在训练数据集上对模型进行优化与训练，获得训练完成的原始模型，具体为：

使用训练数据集对模型进行训练，使用模型预测标签图与真实标签图之间的交叉熵来对原始模型进行优化，获得训练完成的原始模型；

步骤2：基于神经架构搜索子方法自动搜索原始模型中每一层的最佳剪枝率，然后对模型进行滤波器级别的剪枝，具体为：

基于神经架构搜索子方法来为模型的每一层决定相应的剪枝率，在获得剪枝率后，对模型中每一层的滤波器按照权值的大小由高到低进行排序，然后根据每一层相应的剪枝率获得需要保留的滤波器以及需要删除的滤波器；

步骤3：对剪枝后的模型进行量化，具体为：

使用低比特位取代原始模型中的浮点数，实现模型的量化；

步骤4：采用知识蒸馏的方式进行知识迁移，然后将知识迁移后的模型在训练数据集上进行fine-tune微调，获得压缩模型，具体为：

下面本实施例以语义分割任务为例，语义分割任务的示例如图2所示，使用上述方法实现对语义分割模型的压缩：

步骤1：在训练数据集上对模型进行优化与训练，得到训练完成的原始模型；

用G表示的语义分割网络由提取特征的backbone和多尺度空间金字塔池化(ASPP)模块组成，该模块是为语义分割任务所定制的像素级分类器。G的输出是具有与输入图像相同的宽度和高度的全分辨率C类标签图。本实施例将DeepLab-v2框架与在ImageNet上进行预训练好的ResNet-101作为基础模型，事实证明，该框架在语义分割任务中表现良好。由于深层特征表示对于语义分割任务来说至关重要，因此在conv4和conv5层中引入了空洞卷积来扩大感受野的范围。

在源域数据集上通过优化网络预测输出与真实标签图之间的标准交叉熵损失来训练语义分割网络。在训练阶段仅将源域图像送入到语义分割网络，而目标域图像与语义分割网络参数的优化无关。将带标签的源域数据集记为

其中每一个样本x∈R^H×W×3是一张大小为H×W×3的图像，该图像对应的标签图y∈R^H×W×C提供了图像中每一个像素的真实标签。语义分割主干网络G以源域图像x作为输入，然后输出一张预测分割图p＝G(x)∈R^H ^×W×C。该分割图的通道维度可以看作是某一个像素在各个类别上的置信度分布。如果特定类别的预测概率非常高，那么结果将是低熵的。相反，如果每个类别的预测概率均匀分布，则结果具有较高的熵，并且可能不确定。我们使用源域图像通过最小化以下交叉熵损失来优化分割模型：

步骤2：基于神经架构搜索技术自动搜索原始模型中每一层的最佳剪枝率，然后对模型进行滤波器级别的剪枝；

本实施例利用强化学习来有效的搜索动作空间，由于模型压缩对系数率非常敏感，并且需要细粒度的动作空间，从而导致离散动作数量激增，如此大的动作空间很难有效地探索，因此使用连续动作空间α∈(0,1]，这样可以实现更细粒度和更精确的压缩。如图3所示，所设计的代理从环境中接收当前的状态，该状态代表了当前层的特征表示，然后会输出一个特定的剪枝率，接下来根据该剪枝率和特定的剪枝算法来对模型进行压缩。然后代理会移动到下一层，按照和之前一样的方法对该层进行压缩。在完成了最后一层的压缩之后，会在验证集上对模型的性能进行评估，然后作为reward返回给代理，其中包含的三部分损失如下所示：

R_err＝-loss

R_flops＝-loss*log(flops)

R_param＝-loss*log(params)

步骤3：对剪枝后的模型进一步地进行量化操作，使用低比特位来取代原始模型中的浮点数，减少内存占用；

训练后的模型权重或激活值往往在一个有限的范围内分布，如激活值范围为[-2.0,6.0]，然后使用int8进行模型量化，则定点量化值范围为[-128,127]，那么S和Z的求值过程如下所示：

Z＝127-6.031372549≈127-191.25≈-64.25≈-64

如果此时我们有一个真实的激活值为0.28即R＝0.28，那么对应Q的求解过程如下所示：

Q＝0.28÷0.031372549+(-64)≈8.925-64≈-55.075≈-55

其中，S为顶点量化后可表示的最小刻度；Z为0浮点值对应的量化定点值；Q为量化后的定点值。

步骤4：将原始模型作为教师网络，经过剪枝以及量化后的模型作为学生网络，采用知识蒸馏的方式进行知识迁移，然后再将模型在原始数据集上进行fine-tune微调；

包括以下步骤：

步骤4-1：将原始模型作为教师网络，经过剪枝以及量化后的模型作为学生网络，采用知识蒸馏的方式进行知识迁移，让经过压缩后的模型也能够学习到原始模型的知识；

如图4所示，教师网络与学生网络采用联合训练的方式，此时教师网络的知识及学习方式都会影响学生网络的学习，具体如下(式中三项分别为教师网络softmax输出的交叉熵loss、学生网络softmax输出的交叉熵loss、以及教师网络数值输出与学生网络softmax输出的交叉熵loss)：

步骤4-2：在进行完第一步的知识迁移之后，然后再将模型在原始数据集上进行fine-tune，fine-tune的目的是使得压缩后的模型能够更加适应最初训练所用的数据集，进一步地进行参数的优化。

另外，本实施例还涉及一种模型压缩系统，其结构如图5所示，包括依次相连的模型预训练模块、剪枝模块、量化模块和知识蒸馏模块；

量化模块，用于对剪枝后的模型进行量化处理；

本实施例还涉及一种计算机可读介质，该介质内存储有上述任一项模型压缩方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型压缩方法，其特征在于，所述的模型压缩方法包括：

步骤1：获得训练完成的原始模型；

步骤3：对剪枝后的模型进行量化；

2.根据权利要求1所述的一种模型压缩方法，其特征在于，所述的步骤1具体为：

3.根据权利要求1所述的一种模型压缩方法，其特征在于，所述的步骤2具体为：获得模型的每一层相应的剪枝率，在获得剪枝率后，对模型中每一层的滤波器按照权值的大小由高到低进行排序，然后根据每一层相应的剪枝率获得需要保留的滤波器以及需要删除的滤波器。

4.根据权利要求3所述的一种模型压缩方法，其特征在于，所述的模型每一层的剪枝率基于强化学习的神经架构搜索子方法获得。

5.根据权利要求4所述的一种模型压缩方法，其特征在于，所述的基于强化学习的神经架构搜索子方法具体为：

R_err＝-loss

R_flops＝-loss*log(flops)

R_param＝-loss*log(params)

节点根据reward反馈调整节点参数。

6.根据权利要求1所述的一种模型压缩方法，其特征在于，所述的步骤3具体为：使用低比特位取代原始模型中的浮点数，实现模型的量化。

7.根据权利要求1所述的一种模型压缩方法，其特征在于，所述的步骤4具体为：

8.根据权利要求7所述的一种模型压缩方法，其特征在于，所述的教师网络与学生网络采用联合训练方式，损失函数为：

为教师网络softmax输出的交叉熵loss；

为学生网络softmax输出的交叉熵loss；

为学生-教师网络蒸馏loss。

9.一种用于如权利要求1-8中任一项所述模型压缩方法的模型压缩系统，其特征在于，所述的模型压缩系统包括依次相连的模型预训练模块、剪枝模块、量化模块和知识蒸馏模块；

量化模块，用于对剪枝后的模型进行量化处理；

10.一种计算机可读介质，其特征在于，所述的计算机可读介质存储有如权利要求1-8中任一项所述的模型压缩方法。