CN116863279A

CN116863279A - 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Info

Publication number: CN116863279A
Application number: CN202311120043.9A
Authority: CN
Inventors: 毛锐; 田凤君; 练智超
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-10-10
Anticipated expiration: 2043-09-01
Also published as: CN116863279B

Abstract

本发明公开了用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，在训练移动端搭载的识别模型时，计算训练样本中每一张图片的每一个像素的相关性系数，获得输入样本的像素特征贡献度，根据特征贡献度形成贡献度热力图分布；将贡献度热力图作为知识蒸馏中的第二教师，通过第二教师向第一教师遮盖无用特征；学生模型从第一教师中学习关键决策特征，得到分类模型，将训练完的模型，搭载在无人机上去进行图像的识别或分类。本发明利用可解释算法的特点，来提取输入样本中对分类决策起重要作用的特征区域，在蒸馏算法进行知识传递的过程中，减少无用特征的传递，即加快了蒸馏过程，又提高了蒸馏后学生模型的分类精度，提高了训练后模型质量。

Description

用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

技术领域

本发明涉及模型蒸馏方法，特别是基于可解释指导的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法。

背景技术

在近几十年计算机视觉领域的发展中，深度神经网络是一个不可或缺的份子。他在各种真实场景的任务，例如图像分类、语义分割和目标检测中起到了关键性的作用。但是这些任务的完成通常需要很高的计算量和内存需求，性能的优势是以训练和部署具有数百万个参数的资源密集型网络为代价的。目前应用的重心逐渐转移到移动和嵌入式设备，大型CNN的计算成本、内存消耗和功耗等要求限制了他们在现实中的安装和部署，所以产生了模型压缩技术。模型压缩分为模型剪枝、模型量化和知识蒸馏等几个方向，知识蒸馏（KD）代表着将知识从大模型（教师模型）向小模型（学生模型）中转移的方法，该方法在不引入额外成本的情况下提高了小模型的性能。

KD首先提出通过最小化师生预测对数之间的KL-Divergence来传递知识，logit蒸馏实际上传递了暗知识，即分配给不正确类别的相对概率。自Fitnets以来，大部分的研究注意力都集中在从中间层的深层特征中提取知识上，利用特征作为传递的知识慢慢成为主流。近年来，对比表示蒸馏（CRD）通过使用对比目标来传递特征表示（倒数第二层）上的知识，而不是logits，在各种任务中取得了优异的效果。所以虽然logit蒸馏计算和存储成本比较低，但是基于特征的蒸馏在知识的选择和传递上更具备优势。

发明内容

本发明解决的技术问题：提供一种利用可解释算法提取样本中的分类决定因子，在知识传递中优先传递拥有关键分类因子的特征，从而解决小样本情况下的模型蒸馏问题。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，主要包括以下步骤：

步骤1：在训练移动端搭载的识别模型时，首先利用LRP算法计算训练样本中每一张图片的每一个像素的相关性系数，获得输入样本的像素特征贡献度，然后根据输入样本的特征贡献度形成贡献度热力图分布；

步骤2：将生成的贡献度热力图作为知识蒸馏中的第二教师，通过第二教师向第一教师遮盖无用特征；

步骤3：学生模型从第一教师中学习关键决策特征，得到最终的分类模型；

步骤4：将训练完的模型，搭载在移动端设备如无人机上去进行图像的识别或分类。

进一步地，在步骤1中的实现方法如下：

步骤1.1：对于一个移动端的图像分类任务，/>是移动端模型的训练集输入的集合，/>是移动端模型的训练集所有类别的集合，给定一个输出/>，

，

其中，f (x)表示神经网络的输出，表示神经网络输出层输出的n维向量；y表示所有类别的集合；

LRP计算出输入图片中每一个像素的相关性系数，计算方法如下：

；

其中，表示第l+1层的第k个神经元的相关性系数，作为对于分类决策的贡献度；/>表示第l层的所有与k号神经元有关的所有神经元的的相关性系数之和，i表示神经网络第i层。

步骤1.2：对l+1层的所有神经元的相关性系数取和，通过和号交换性质，得出第l+1层的所有神经元的相关性系数之和等于第l层多有神经元的相关性系数之和；

步骤1.3：步骤1.1中，LRP算法计算出输入图片中每一个像素对于分类决策的贡献度，根据贡献度大小生成该图片的贡献度热力图。

进一步地，第l层多有神经元的相关性系数之和的计算方法为：

。

进一步地，在步骤2中，将生成的贡献度热力图作为知识蒸馏中的第二教师，通过第二教师向第一教师遮盖无用特征，方法如下：

在网络训练中，使用和/>分别代表第一教师和第二教师中第m个特征块中的第i个特征图，对于/>中的特征，选取贡献度大于/>的部分将其覆盖在/>上，其余特征归零，表示为：

；

其中，表示经过遮盖后的第m个特征块中的第i个特征图，/>表示贡献度大小。

进一步地，在步骤3中，学生模型从第一教师中学习关键决策特征，得到最终的分类模型，方法如下：

步骤3.1：保留ground-truth的损失，以提高学生网络收敛速度；

步骤3.2：采用师生模型中的KL散度作为损失帮助学生网络更加直接和迅速的学习教师中的知识；

步骤3.3：获得总蒸馏损失。

进一步地，ground-truth的损失公式如下：

；

其中，表示交叉熵函数，/>表示输入的预测分类，/>表示真实的分类。

进一步地，教师模型和学生模型的logits损失的公式如下：

；

其中，KL表示计算KL散度的函数，表示经过遮盖后的第m个特征块中的第i个特征图，/>表示学生网络中第m个特征块中的第i个特征图。

进一步地，步骤3.3中，总蒸馏损失如下：

；

其中，表示调整/>在最终目标函数中所占比例的超参数，/>表示教师模型和学生模型的logits损失，/>表示ground-truth的损失。

有益效果：与现有技术相比，本发明具有以下有点：

（1）本发明通过引入可解释算法，将知识对分类决策的贡献度进行可视化。计算原始数据集在教师网络中对分类决策的贡献度，利用贡献度的不同，将图片转化为根据贡献度分布的热力图形成遮盖数据集。

（2）构建第二教师打破传统蒸馏方法中单一教师只有一次传递知识的阶段，能够更加迅速直接的传递有效知识，从而加速蒸馏的过程和提高蒸馏的精度。

（3）本发明相比于其他模型蒸馏方法，解决在数据量小的情况下小模型的分类精度低的问题，同时在师生异构的组合方面也具有很好的灵活性。

（4）本发明可以应用于移动端的检测模型和识别模型，如无人机上加载的轻量模型。由于芯片的限制无法加载大模型保证识别精度，可以利用蒸馏算法训练出拥有高精度识别度和小体量的模型加载在无人机上进行使用。

附图说明

图1是本发明基于可解释指导的模型蒸馏方法的流程示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

本发明的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，获得输入样本的像素特征贡献度；根据输入样本的特征贡献度形成贡献度热力图分布；将生成的贡献度热力图作为知识蒸馏中的第二教师，通过第二教师向第一教师遮盖无用特征；学生模型从第一教师中学习关键决策特征，得到最终的分类模型。具体包括如下步骤1-步骤4共四大步骤：

步骤1：在训练移动端搭载的识别模型时，首先利用LRP算法计算训练样本中每一张图片的每一个像素的相关性系数，也就是获得输入样本的像素特征贡献度，根据输入样本的特征贡献度形成贡献度热力图分布，方法如下：

，

采用LRP（Layer-wise Relevance Propagation）算法计算出输入图片中每一个像素的相关性系数，计算方法如下：

；

步骤1.2：对l+1层的所有神经元的相关性系数取和，通过和号交换性质，得出第l+1层的所有神经元的相关性系数之和等于第l层多有神经元的相关性系数之和。

步骤2：将生成的贡献度热力图作为知识蒸馏中的第二教师，通过第二教师向第一教师遮盖无用特征，方法如下：在网络训练中，使用和分别代表第一教师和第二教师中第m个特征块中的第i个特征图，对于中的特征，选取贡献度大于的部分将其覆盖在上，其余特征归零，表示为：

；

步骤3：学生模型从第一教师中学习关键决策特征，得到最终的分类模型，方法如下：

步骤3.1：ground-truth的损失能起到极快的提高学生网络收敛速度的重要作用，所以对其进行一个保留，ground-truth的损失公式如下：

；

其中，表示交叉熵函数，/>表示输入的预测分类，/>表示真实的分类。步骤3.2：采用教师模型和学生模型的logits损失/>帮助学生网络更加直接和迅速的学习教师中的知识；

教师模型和学生模型的logits损失的公式如下：

；

进一步地，步骤3.3中，总蒸馏损失如下：

；

通过以下实验验证本发明的方法有效性和效率：

评估指标为分类模型的Top-1和Top-5识别率。

首先选择数据集，本发明选择了Tiny-ImageNet数据集，Tiny-imagenet数据集是斯坦福大学提供的图像分类数据集，其中包含200个类别，每个类别包含500张训练图像，50张验证图像及50张测试图像。该数据集模拟在移动端场景下如训练无人机识别模型使用的小样本数据。接着本发明选择使用MobileNet和ResNet作为本发明的深度神经网络模型，该神经网络均使用小体量模型从而满足移动端场景下只能搭载轻量级模型的情况，分别选择同构网络和异构网络作为不同的师生架构，将训练好的模型加载在无人机上进行实验。

表1 本发明在不同师生架构下的模型识别率

表2 本发明对比其他主流蒸馏方法的识别率

表1展现了本方法在ResNet34，ResNet18的师生架构下，蒸馏过后的学生模型比教师模型识别效果提升0.89%；在ResNet50，ResNet34的师生架构下，相比教师模型提升了0.62%；在ResNet34，MobileNet的师生架构下，相比与教师模型提升了0.91%。该蒸馏方法蒸馏出的模型大小和学生模型大小一样，但模型识别效果超过教师模型。满足移动端场景下搭载高精度、小体量模型的要求。表2中将本发明的方法同目前主流根据logits和特征的方法比较来说，在小样本数据集上有明显提升。

表1和表2的结果表示，本发明的方法能有效提高学生的分类精度，其中在小模型的训练上本发明的方法的效果更为明显一些，满足小模型在移动端场景下的高精度要求。通过添加了一个新阶段的知识传递，减少了学生学习到无用知识的过程，最终学生的分类效果甚至比教师更加的准确。并且不论是基于logits还是基于特征的蒸馏方法在分类精度上都低于本发明的方法，大部分方法在数据量较小的前提下都无法获取足够的知识以提高分类精度，而本发明的方法在知识有限的前提下能够提取关键知识，从而超越教师模型的效果。本发明的方法在处理数据量小，小容量网络难以训练的情况下有较好的表现。

本发明融合了可解释和知识蒸馏，来优化知识传递的过程。本发明相比于其他模型蒸馏方法，在保证模型的分类精度的同时，具有更快速的知识传递速度。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，主要包括以下步骤：

步骤4：将训练完的模型，搭载在移动端设备无人机上去进行图像的识别或分类。

2.根据权利要求1所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，在步骤1中的具体实现方法如下：

，

；

其中，表示第l+1层的第k个神经元的相关性系数，作为对于分类决策的贡献度；表示第l层的所有与k号神经元有关的所有神经元的的相关性系数之和，i表示神经网络第i层；

3.根据权利要求2所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，第l层多有神经元的相关性系数之和的计算方法为：

。

4.根据权利要求1所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，在步骤2中，将生成的贡献度热力图作为知识蒸馏中的第二教师，通过第二教师向第一教师遮盖无用特征，方法如下：

在网络训练中，使用和/>分别表示第一教师和第二教师中第m个特征块中的第i个特征图，对于/>中的特征，选取贡献度大于/>的部分将其覆盖在/>上，其余特征归零，表示为：

；

5.根据权利要求1所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，在步骤3中，学生模型从第一教师中学习关键决策特征，得到最终的分类模型，方法如下：

步骤3.1：保留ground-truth的损失，以提高学生网络收敛速度；

步骤3.3：获得总蒸馏损失。

6.根据权利要求5所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，ground-truth的损失公式如下：

；

7.根据权利要求5所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，教师模型和学生模型的logits损失的公式如下：

；

其中，KL表示计算KL散度的函数，表示经过遮盖后的第m个特征块中的第i个特征图，表示学生网络中第m个特征块中的第i个特征图。

8.根据权利要求5所述的用于移动端模型轻量化的基于可解释指导的模型蒸馏方法，其特征在于，

步骤3.3中，总蒸馏损失如下：

；

其中，表示调整/>和/>在最终目标函数中所占比例的超参数，/>表示教师模型和学生模型的logits损失，/>表示ground-truth的损失。