CN112116030B

CN112116030B - 一种基于向量标准化和知识蒸馏的图像分类方法

Info

Publication number: CN112116030B
Application number: CN202011091695.0A
Authority: CN
Inventors: 郭嘉; 蔡登�; 何晓飞; 陈铭浩; 胡尧; 朱琛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-08-30
Anticipated expiration: 2040-10-13
Also published as: CN112116030A

Abstract

本发明公开了一种基于向量标准化和知识蒸馏的图像分类方法，包括以下步骤：(1)构建并训练一个教师模型，所述教师模型采用深度卷积神经网络；(2)构建一个比教师模型小的学生模型，所述学生模型也采用深度卷积神经网络；(3)使用蒸馏损失函数对学生模型进行训练，在训练过程中，对学生模型和教师模型输出的概率编码向量进行标准化；(4)将待分类的图像输入训练好的学生模型，进行分类预测。利用本发明，能够在不引入额外参数及计算开销的情况下，提升学生网络的性能，提高图像分类精度。

Description

一种基于向量标准化和知识蒸馏的图像分类方法

技术领域

本发明属于图像分类技术领域，尤其是涉及一种基于向量标准化和知识蒸馏的图像分类方法。

背景技术

随着人工智能时代的到来，深度学习技术已被广泛应用于多种图像分类领域：如人脸识别，自动驾驶，故障检测等。

模型压缩是当前深度学习模型部署最为热门的问题之一。它要求模型在参数变少的情况下，仍保持一定的精度。目前，最热门的方法包括参数量化，模型剪枝，知识蒸馏等。其中，知识蒸馏的方法效果较好，得到了广泛的重视。

在知识蒸馏中，一个较大的模型(教师)将知识传递到一个较小的模型(学生)上。在一些数据集上，知识蒸馏能够大大提升学生网络的性能。而无人驾驶汽车在部署视觉应用时，对模型响应延时，以及计算资源具有较高的要求。

视觉模型主要由深度卷积网络组成。图像矩阵从网络的输入端输入后，在输出端输出目标分属各个类别的概率值。其中，最大的概率值所对应的类别，被视为模型的预测类别。而在那些错误的类别上，模型仍会赋予不同大小的概率。这些概率被认为编码了类别间相似度的信息。如，一只猫除了在猫的类别上赋予最大的概率值之外，还会对一些相似的类别(如狗)赋予比相差较大的类别(如汽车)更大的概率值。知识蒸馏，就是利用这样的相似度信息，利用一个较大的模型，将这种知识传递到一个较小的模型上。

然而，知识蒸馏面临被称为“容量差距”的问题。这描述了蒸馏过程中出现的一个问题，如果教师网络变得过大，学生网络的性能反而会下降。这导致在进行蒸馏时，存在需要手动选择合适大小的教师网络问题。另外，这也导致无法简单的通过使用较大的教师网络来增强学生网络的性能。

发明内容

本发明提供了一种基于向量标准化和知识蒸馏的图像分类方法，能够在不引入额外参数及计算开销的情况下，提升学生网络的性能，提高图像分类精度。

一种基于向量标准化和知识蒸馏的图像分类方法，包括以下步骤：

(1)构建并训练一个教师模型，所述教师模型采用深度卷积神经网络；

(2)构建一个比教师模型小的学生模型，所述学生模型也采用深度卷积神经网络；

(3)使用蒸馏损失函数对学生模型进行训练，在训练过程中，对学生模型和教师模型输出的概率编码向量进行标准化；

(4)学生模型训练完毕，将待分类的图像输入训练好的学生模型，进行分类预测。

本发明的方法，首先训练一个较大的深度卷积网络作为教师网络，然后在教师网络的监督信息下，训练一个较小的学生网络。该方法能够帮助一个较小的深度卷积网络保留教师网络的部分性能。同时，在概率值向量后加入了标准化方法，以解决容量差距问题。

步骤(1)的具体过程为：

(1-1)选择训练数据，对训练数据标准化以及做数据增强，随后送到深度卷积神经网络的输入层；

(1-2)将输入层得到的图像信号，送入多层卷积网络中；

(1-3)在网络的最高层，得到对类别信息的概率编码值；

(1-4)使用交叉熵损失函数对深度卷积神经网络进行训练；

(1-5)重复上述步骤，直到深度卷积神经网络收敛，得到训练好的教师模型。

进一步地，步骤(1-4)中，所述的交叉熵损失函数为：

式中，L_ce为交叉熵损失函数，y_i为标签，

为模型的输出概率分布。

进一步地，步骤(3)中，所述的蒸馏损失函数包括两部分，第一部分为学生网络与教师网络的KL散度，第二部分为交叉熵损失函数，可按照经验对两个损失函数赋予权重。具体为：

定义f_i(x)为第i个样本的模型输出向量，

为标准化后的向量再乘一常数的向量，该常数一般为教师网络输出向量长度的平均值。

则第一部分的损失函数为

其中

为

代表了教师网络的概率分布输出，

代表了学生网络的概率分布输出。τ为超参数。

第二部分的损失函数交叉熵损失函数：

其中，

总的损失函数为L_kl与L_ce的加权和，即：

L＝αL_kl+(1-α)L_ce

其中，参数α为0到1之间的超参数。

对学生模型和教师模型输出的概率编码向量进行标准化具体为：让不同图像对应的概率编码向量拥有统一的模长，统一的模长为教师网络类别编码向量模长的平均值。

与现有技术相比，本发明具有以下有益效果：

1、本发明在教师网络的监督信息下，训练一个较小的学生网络，能够更好的利用教师模型的监督信号，提升学生模型的训练精度。

2、本发明在类别概率值向量后使用标准化，缓解了容量差距问题，方法简单有效，没有引入额外参数和计算开销，也没有损失教师网络的性能。

3、本发明解决了对于温度超参数敏感的问题。

4、本发明在多项数据集上，取得了良好的效果，大大提升了学生网络的性能。

附图说明

图1为本发明方法的流程示意图；

图2为本发明中知识蒸馏整体框架的示意图；

图3为教师网络大小和学生网络性能关系示意图；

图4为本发明实施例中学生网络和教师网络概率编码向量的模长(即长度)和标准化向量(即方向)的差距(使用平均方差损失)示意图；

图5为本发明实施例中蒸馏对温度超参数敏感性示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于向量标准化和知识蒸馏的图像分类方法，包括以下步骤：

S01，训练一个教师模型。

本实施例中，使用ImageNet数据集作为训练集，任务是给定一张图像，判断该图像的类别。该数据集一共包括一千种类别，包括动物，汽车等。

教师模型为一个残差卷积神经网络(也可使用别的图像识别人工神经网络)，将图像输入到残差卷积神经网络中。该神经网络主要包括两项技术，卷积网络及残差网络。该残差卷积网络可参照2016年发表在国际顶级会议IEEE International Conference onComputer Vision上的《Deep Residual Learning for Image Recognition》。

训练使用交叉熵损失函数，一般训练若干个周期后，模型收敛。训练教师网络的具体步骤为：

S101，选择训练数据，对训练数据标准化以及做数据增强，随后送到深度卷积网络的输入层。

S102，将输入层得到的图像信号，送入多层卷积网络中。

S103，在网络的最高层，得到对类别信息的概率编码值。

S104，使用交叉熵损失函数对网络进行训练。

S105，重复上述步骤，直到深度卷积模型收敛。

S02，训练学生模型。

训练学生网络的具体步骤为：

S201，选择训练数据，对训练数据标准化以及做数据增强，随后送到深度卷积网络的输入层。

S202，将输入层得到的图像信号，送入多层卷积网络中。

S203，在网络的最高层，得到对类别信息的概率编码值。

S204，对学生网络和教师网络的概率编码的向量进行标准化，即让不同图像对应的概率编码向量拥有统一的模长，该模长一般为教师网络类别编码向量模长的平均值。

S205，使用定义的蒸馏损失函数进行训练。

S206，重复上述步骤，直到深度卷积模型收敛。

学生模型与教师模型类似，一般为较小或相同大小的卷积网络。本发明中，知识蒸馏的整体框架如图2所示，与教师模型类似，学生模型的训练仍包括交叉熵损失函数。在通过SoftMax计算概率分布之前，先将模型的输出向量，即logits，进行标准化。之后，计算学生模型和教师模型的KL散度，与交叉熵相加得到最终的损失函数。

S03，用训练好的学生模型进行预测任务。

现有的蒸馏技术受限于容量差距问题，即当教师网络变大时，蒸馏效果往往变差，不能利用更大的教师模型的更好的性能。如图3所示，当教师网络变大时，学生网络性能变差。一个简单的思路是可以选择一个大小合适的教师网络，但这样的话，教师网络的性能就受到了限制。

本发明将容量差距量化为模长的差距和方向的差距，并通过标准化，解决了这一问题。如果将学生网络学习教师网络时，学生网络和教师网络概率编码向量的模长和标准化向量的平均方差损失分别记录，如图4可见，则这两个将会随着教师网络的增大而增大。这说明，容量差距可以体现在模长的差距和标准化向量(即方向)的差距。而通过标准化，学生可以不学教师网络的模长信息，于是，学生网络的性能得以提升。

另外，本发明还解决了蒸馏对温度超参数敏感的问题。如图5所示，普通的蒸馏(KD)对温度参数敏感，而本发明(SKD)在温度变化时都可以得到很好的性能。

为了证明本发明方法的有效性，在ImageNet数据集上进行了对比实验。ImageNet含有1.4M的数据，分布在一千个类别。

对比实验结果如表1所示。表中所有模型均为ResNet18，表1中，第一列为baseline模型，没有使用蒸馏方法。本发明的方法为SKD，下标代表使用的教师模型大小。

表1

可以看出，在图像分类任务上，本发明的方法对比其他蒸馏方法以及基础模型，都有明显提升。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。