CN112906747A

CN112906747A - 一种基于知识蒸馏的图像分类方法

Info

Publication number: CN112906747A
Application number: CN202110092971.3A
Authority: CN
Inventors: 杨新武; 孙芃; 斯迪文
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-04

Abstract

本发明公开一种基于知识蒸馏的图像分类方法，该方法采用知识蒸馏的方法训练得到轻量级的分支模型，在推断时只需要加载部分模型，提高运行时的速度。本发明通过这种训练和推断的方法，既降低了模型参数量，同时准确率不降低，推断时的运算量和参数量得到压缩，为实现一个高效的推理过程提供了更加精简的模型。

Description

一种基于知识蒸馏的图像分类方法

技术领域

本发明属于神经网络模型压缩领域。具体是在图像分类任务中，采用老师网络的监督学生网络所有分支的训练，并且学生网络最后一层的输出监督其余分支的训练，同时在分支结构中使用通道注意力机制selayer提高蒸馏效果的一种有效方法。

背景技术

在图像领域中，卷积神经网络占有很重要的地位。近年来的研究进展表明卷积神经网络的精度可以通过增加网络的深度和宽度来改善，但随着深度的增加，卷积神经网络效果变得越来越好的同时也让训练变得更加困难。卷积神经网络取得如此的成功，但是在实际应用中部署网络，尤其是在移动设备或者嵌入式便携设备上，会受到大规模的参数量和计算量的限制。深而宽的卷积神经网络在推断的时候需要更多的时间和能耗。为了解决这个问题，一些深度神经网络的压缩算法被提出用来训练高效的卷积神经网络模型，以便于取得更快的运行时速度。

卷积神经网络的改进已经在以下的工作中被广泛的研究。一些网络量化的方法被提出来替代复杂的卷积神经网络运算。这些网络模型使用低比特权重和激活值，从而应用比特运算的小存储量和高效计算。另一个流行的技术是采用深度分离卷积，对每个通道采用可分离的卷积核，然后在所有的通道上接入一个点乘的卷积。还有的方法是致力于寻找一个替代现有标准卷积的高效卷积方法训练一个新的神经网络。还有一些其他的工作引入了剪枝等方法，这些工作都依赖于高运算量的重新训练过程来维持减少参数后的神经网络的精度。此外，近年来的另外一个研究方向是模型蒸馏，将大的“老师”网络压缩成一个小的“学生”网络，进而很容易的部署在资源有限的硬件上。然而，找到更小的学生网络结构并且可以逼近老师网络的性能依然是这个领域的一个重大挑战。

图像分类任务是图像领域基础任务之一，在诸多复杂的图像任务中都包含分类任务，如果分类任务的模型参数量降低和推断速度能够提高，对于压缩复杂任务的模型参数量压缩具有重要意义。本发明是为了降低分类任务的模型参数量，同时提高分类任务的模型推断速度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的是对于图像分类任务，提出一种基于内部监督和外部监督结合的知识蒸馏的方法，该方法采用知识蒸馏的手段训练得到轻量级的图像分类模型，在推断时只需要加载部分模型，提高运行时的速度。

本发明采用技术方案如下：

步骤1：初试化多分支结构的学生网络和老师网络，老师网络加载训好的模型，并冻结所有参数，不参与训练，学生网络不冻结参数，参与训练。

步骤2：对于图像分类数据集，首先取一批数据和对应的标签，进行数据预处理，按照batch_size分开，输入数据Xbatch,真实标签Ybatch。

步骤3：将Xbatch数据分别传入带有多分支结构的学生网络和老师网络中，分别得到学生网络的的四个输出s_1，s_2,s_3,s_4,和老师网络的一个输出t。

步骤4：整个损失函数由三部分组成，分别是交叉熵损失，相对熵损失，中间层损失。

学生网络的输出层第一个分支结构的相对熵损失函数由两部分构成，第一部分是s_1和s_4构成相对熵损失，第二部分是s_1和老师网络的输出t构成相对熵损失。学生网络的输出层第二个分支结构的相对熵损失函数由两部分构成，第一部分是s_2和s_4构成相对熵损失，第二部分是s_2和老师网络的输出t构成相对熵损失。学生网络的输出层第三个分支结构的相对熵损失函数由两部分构成，第一部分是s_3和s_4构成相对熵损失，第二部分是s_3和老师网络的输出t构成相对熵损失。学生网络的输出层第四个结构的相对熵损失函数由s_4和老师网络的输出t构成。

学生网络的每一个分支结构都要和真实标签Ybatch计算交叉熵损失。

学生网络每一个分支的中间层都需要和深层分支中间层计算中间层损失。

步骤5：对于总的损失和链式法则进行反向传播和梯度计算，然后更新所有权重

步骤6：重复上述步骤至200个epoch(每一个epoch代表遍历整个训练集)，学生网络收敛。

对于步骤4损失计算的进一步说明，给定属于M类N个样本的数据集，使用Y表示标签，分类器(结构中有多个分类器都是这样)输出后设置softmax。

损失主要有三部分构成:标签损失，蒸馏损失，特征损失。

标签损失。第一个损失来源于数据集的标签。对于每一个分类器，都计算标签y和pⁿ概率的交叉熵，在训练的过程中标签y引导每个分类器的正确概率尽可能高。

蒸馏损失。在传统的知识蒸馏中，有一个输出为a^s的学生网络Net和一个输出为a^t的教师网络Net，他们之间计算损失。

特征损失。在最终FC层之前，计算了不同的特征映射之间的L2距离。在一个网络的内部进行特征损失的计算，由于在一个网络中所以不存在分支网络与深层网络之间能力出现较大差距导致无法拟合。hint loss迫使学生接近教师的权重分布，也就是缩小了不同分支之间的差距。

每一个分支分类器K的损失由标签损失,蒸馏损失,特征损失组成，为了平衡这三个部分的损耗。

第四个分类器后面的损失由两部分组成，分别是标签损失,蒸馏损失。

本发明的第二个创新在于对于分支结构卷积层的改进。在为了减少参数量，在分支结构中应当用较少的卷积层，如何控制卷积层数量的同时保持较高的准确率。在分支结构使用selayer强化分支结构抽取特征的能力。

第一个操作是将每一个通道对应的特征以一个标量的形式提取出来。首先考虑输出特征中每个通道的信息在通道上都是独立的，将每一个通道全局空间信息压缩到一个标量中。通过使用全局平均池化来生成基于通道的信息来实现的。形式上，统计量

是通过将U的空间维数H×W进行压缩而得到的；通过使用平均池化生成通道级信息来实现将全局空间信息压缩到信道信号中。形式上，通过将U通过其空间维度H×W压缩来生成统计量

使得z的第c个元素由上面的公式计算得到。

第二个操作是为了利用在压缩操作中的信息，该操作旨在捕获通道与通道之间相关性。要实现这一目标，函数必须满足两个标准：第一，它必须是灵活的(特别是，它必须能够学习通道之间的非线性交互)；第二，它必须学习非互斥关系，因为需要确保强化多个通道的表示，而不是one-hot表示形式，只提取top K的通道特征。

Excitation操作将基于输入的通道量z映射到一组通道权重。SElayer本质上引入了根据输入特征进行通道的自注意力函数。

本发明专利创新性是对于图像分类任务，引入老师网络和多分支学生网络的模块，目的是为了更好提高学生网络多分支结构的准确率，从而在更多的图像分类场景上使用参数量较少的分支结构，将参数量较多的主干结构砍掉。使最终部署的网络结构更加简单。使用老师网络可以给学生网络的多个分支提供更多的监督信息，使训练过程更加高效，更快的收敛。

本发明摒弃了之前的知识蒸馏方案中学生网络只有一个输出的结构，充分挖掘了学生网络本身的能力，提高了每一个分支的准确率。对于本发明中针对图像分类任务使用的α和β超参数是为了控制不同的损失的比例，需要不同的分类数量和具体场景要求改变不同损失配比，提高最终的蒸馏效果，使最终分类预测的准确率得到提升。

附图说明

图1是本发明的结构图。

图2是本发明知识蒸馏过程示意图。

图3是本发明selayer分支结构示意图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

本发明将通过例子并参照附图的方式说明，其中：

一种基于内部监督和外部监督结合的知识蒸馏的方法，该方法采用知识蒸馏的手段训练得到轻量级的图像分类模型，在推断时只需要加载部分模型，提高运行时的速度。

本发明采用技术方案如下：

步骤2：对于图像分类数据集，首先取一批数据和对应的标签，进行数据预处理，按照batch_size分开，输入数据Xbatch，真实标签Ybatch，

步骤3：将Xbatch数据分别传入带有多分支结构的学生网络和老师网络中，分别得到学生网络的的四个输出s_1，s_2，s_3，s_4，和老师网络的一个输出t。

整体损失函数为loss_K＝loss_L+α*loss_{KD_sum}+β*loss_Fi.

对于步骤4损失计算的进一步说明，

给定属于M类N个样本的数据集，使用Y表示标签，分类器(结构中有多个分类器都是这样)输出后设置softmax，如下：

这里的z是全连接层的输出。

是i_th软化后的分类结果的概率。T通常设置为3，T表示蒸馏温度。T越大，概率分布越柔和。

损失主要有三部分构成：标签损失，蒸馏损失，特征损失。

标签损失。第一个损失来源于数据集的标签。对于每一个分类器，都计算标签y和pⁿ概率的交叉熵，在训练的过程中标签y引导每个分类器的正确概率尽可能高。损失函数计算如下：

loss_L＝Cross Entropy(pⁿ，y) (3)

蒸馏损失。在传统的知识蒸馏中，有一个输出为a^s的学生网络Net和一个输出为a^t的教师网络Net，他们之间计算损失，公式如下：

KL散度公式如下，

和

是软化以后的概率输出。

其中τ表示温度。温度越高，学生网络的概率分布越柔和，知识也越丰富。

上述每一个分支分类器的蒸馏损失有两部分构成，分别是当前分支分类器和最后一个分类器的损失，以及当前分支分类器和老师网络输出的损失。

si_t的蒸馏损失是由学生网络的分支分类器和老师网络的输出损失，si_s4的蒸馏损失是分支网络和最后一个分类器的输出损失。

其中F_i表示第i层FC之前的特征图.Block4模块后FC之前的特征图.

每一个分支分类器K的损失由标签损失，蒸馏损失，特征损失组成，为了平衡这三个部分的损耗，引入了两个超参数α和β，公式如下：

loss_K＝loss_L+α*loss_{KD_sum}+β*loss_Fi

K是分支结构的数量

第四个分类器后面的损失由两部分组成，分别是标签损失，蒸馏损失，公式如下：

loss_N＝loss_KD+loss_L

loss_KD是第四个分类器和老师网络的输出损失构成的。

训练期间，计算上述三部分损失的总和作为loss_total。

selayer主要包括Squeeze和Excitation两个操作，可以适用于任何映射。F_tr：X→U，X∈R^{H′×W′×C′}，U∈R^H×W×C，以卷积为例，卷积核为V＝[v₁，v₂，...，v_C]，其中v_c表示第c个卷积核。那么输出U＝[u₁，u₂，...，u_C]：

其中*代表卷积操作，而

代表一个3D卷积核，其输入一个channel上的空间特征，它学习特征空间关系，但是由于对各个channel的卷积结果做了求和操作，所以通道级别的特征关系与卷积核学习到的空间关系混合在一起。而SE模块就是为了抽离这种混杂关系，使得模型直接学习到通道级特征关系。

是通过将U的空间维数H×W进行压缩而得到的，从而计算z：

通过使用平均池化生成通道级信息来实现将全局空间信息压缩到信道信号中。形式上，通过将U通过其空间维度H×W压缩来生成统计量

使得z的第c个元素由上面的公式计算得到。

为了满足这些要求，选择使用门控机制和S形激活：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

δ使用ReLU激活函数。

和

为了降低模型复杂度以及提升泛化能力，这里采用包含两个全连接层的bottleneck结构，其中第一个FC层起到降维的作用，降维系数为r是个超参数，然后采用ReLU函数激活。最后的FC层恢复原始的维度。通过使用sc重新缩放U来获得特征的最终输出：

这里

和F_scale(u_c，s_c)指的是标量s_c和特征图

之间的通道方式乘法。

Claims

1.一种基于知识蒸馏的图像分类方法，特征在于，包括：

步骤1：初试化多分支结构的学生网络和老师网络，老师网络加载训好的模型，并冻结所有参数，不参与训练，学生网络不冻结参数，参与训练；

步骤2：对于图像分类数据集，首先取一批数据和对应的标签，进行数据预处理，按照batch_size分开，输入数据Xbatch,真实标签Ybatch；

步骤3：将Xbatch数据分别传入带有多分支结构的学生网络和老师网络中，分别得到学生网络的的四个输出s_1，s_2,s_3,s_4,和老师网络的一个输出t；

步骤4：整个损失函数由三部分组成，分别是交叉熵损失，相对熵损失，中间层损失；

学生网络的输出层第一个分支结构的相对熵损失函数由两部分构成，第一部分是s_1和s_4构成相对熵损失，第二部分是s_1和老师网络的输出t构成相对熵损失；学生网络的输出层第二个分支结构的相对熵损失函数由两部分构成，第一部分是s_2和s_4构成相对熵损失，第二部分是s_2和老师网络的输出t构成相对熵损失；学生网络的输出层第三个分支结构的相对熵损失函数由两部分构成，第一部分是s_3和s_4构成相对熵损失，第二部分是s_3和老师网络的输出t构成相对熵损失；学生网络的输出层第四个结构的相对熵损失函数由s_4和老师网络的输出t构成；

步骤5：对于总的损失和链式法则进行反向传播和梯度计算，然后更新所有权重；

步骤6：重复上述步骤至200个epoch，每一个epoch代表遍历整个训练集，学生网络收敛。

2.根据权利要求1所述的一种基于知识蒸馏的图像分类方法，其特征在于，所述随机生成学生网络的权重，包括：

学生网络有多个出口，学生网络的输出有多个，

同一个网络层的权值精度一样；

同一个网络层的激活值精度一样。

3.根据权利要求1所述的一种基于知识蒸馏的图像分类方法，其特征在于，老师网络加载训练的权重，不参与学生网络的训练过程，包括：老师网络有一个出口，老师网络的输出只有一个。

4.根据权利要求1所述的一种基于知识蒸馏的图像分类方法，其特征在于，老师网络的输出监督学生网络的训练，包括：

学生网络的每一个分支结构都要和真实标签Ybatch计算交叉熵损失；

5.根据权利要求1所述的一种基于知识蒸馏的图像分类方法，其特征在于，学生网络的分支结构加入了selayer，包括：在分支结构中的入口处和出口处加入selayer。