CN111144456A

CN111144456A - 一种基于本征特征迁移的深度模型压缩方法

Info

Publication number: CN111144456A
Application number: CN201911276620.7A
Authority: CN
Inventors: 张金霞; 魏海坤; 张侃健
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-05-12
Anticipated expiration: 2039-12-13
Also published as: CN111144456B

Abstract

本发明涉及一种基于本征特征迁移的深度模型压缩方法，所述方法包括以下步骤：基于奇异值分解方法，将老师深度模型中的一组特征图进行分解，提取老师深度模型中的本征特征图组；将学生深度模型中的一组特征图与老师深度模型中的本征特征图组进行对齐；基于奇异值计算各本征特征图的权重；通过最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值，将老师深度模型中的本征特征迁移给学生深度模型，从而提高学生深度模型的性能。本发明提取老师深度模型中最本质的本征特征图，并有效迁移给学生深度模型，有助于提高深度模型压缩的精度，获得高性能的学生深度模型。

Description

一种基于本征特征迁移的深度模型压缩方法

技术领域

本发明涉及一种压缩方法，具体涉及基于本征特征迁移的深度模型压缩方法，属于模型压缩技术领域。

背景技术

深度神经网络模型在许多计算机视觉和模式识别任务中取得了非常好的性能，比如图像分类和目标检测。然而，深度神经网络模型的一个主要缺陷是模型中包含大量的参数，这就需要设备具有大容量的内存和强大的计算能力。这使得深度模型不能在具有有限内存的任务中进行应用，比如手机等移动设备。

近期，有一部分研究者尝试在保持模型性能的前提下压缩深度网络模型并减少计算负担。在这些方法中，知识蒸馏是一类比较有效的方法，该方法的核心是将老师深度模型中的知识传递给学生深度模型。一般，老师深度模型是一个大且复杂的网络模型，而学生深度模型是一个小且快速的网络模型。将老师深度模型中学到的知识传递给学生深度模型，能够得到一个高性能的压缩模型。

一部分学者通过生成并拟合老师深度模型的软标签来进行知识传递。另一部分学者将特征图的平均值或者分布作为知识传递给学生深度模型。这些工作都证明了知识蒸馏方法的有效性，然而这些方法都间接地使用特征图的知识，使得所传递的知识有限。因此，迫切的需要一种新的方案解决上述技术问题。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于本征特征迁移的深度模型压缩方法，该技术方案能够获得高性能的学生深度模型，能够提高压缩的学生深度模型在图像分类任务中的分类准确率。

为了实现上述目的，本发明的技术方案如下，一种基于本征特征迁移的深度模型压缩方法，所述方法包括以下步骤：

S1：基于奇异值分解方法，将老师深度模型中的一组特征图进行分解，提取老师深度模型中的本征特征图组；

S2：将学生深度模型中的一组特征图与老师深度模型中的本征特征图组进行对齐；

S3：基于奇异值计算各本征特征图的权重；

S4：通过最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值，将老师深度模型中的本征特征迁移给学生深度模型，从而获得高性能的学生深度模型。

进一步的，所述步骤S1中，提取老师深度模型中卷积层对应的特征图张量A∈R^H ^×W×C，该张量包含了C个特征图，每个特征图的高度为H，宽度为W，将三维的特征图张量A转换成二维的特征图矩阵M∈R^(H×W)×C。

所述步骤S1中，使用已有的奇异值分解方法(SVD方法)，对老师深度模型中的一组特征图M进行分解：

M＝UΣV^T；

其中，U是分解之后的左奇异矩阵，U中每一列是一个左奇异向量，∑是奇异值矩阵，其对角元素包含了M的所有非零奇异值，V^T是右奇异向量V的共轭转置，V中每一列是一个右奇异向量。所述步骤S1中，使用左奇异矩阵U中前K个向量作为老师深度模型中的本征特征图组E：

E＝U[:,1:K]。

进一步的，所述步骤S2中，提取学生深度模型中卷积层对应的特征图张量A_s∈R^H ^×W×K，该张量包含了K个特征图，每个特征图的高度为H，宽度为W，将三维的特征图张量A_s转换成二维的特征图矩阵F∈R^(H×W)×K。

所述步骤S2中，根据学生深度模型中特征图与老师深度模型中本征特征图的相似度，将学生深度模型中的一组特征图F与老师深度模型中的本征特征图组E进行对齐。E_i是老师深度模型中本征特征图组中的第i个本征特征图，F_j是学生深度模型中特征图组的第j个特征图，那么两个特征图之间的相似度sim(E_i,F_j)通过下式进行计算：

其中，||E_i||和||F_j||分别表示老师深度模型的本征特征图E_i和学生深度模型的特征图F_j的L2范数。*表示两个特征向量的点积。|E_i*F_j|表示本征特征图E_i和特征图F_j点积的绝对值。

所述步骤S2中，使用以下公式获得与老师深度模型中第i个本征特征图对齐的学生特征图的下标a_i，使得对齐的学生特征图与本征特征图具有最大的相似度：

所述步骤S2中，最终与第i个本征特征图对齐后的学生特征图F_i ^align为：

其中，

表示下标为ai的学生特征图，

表示本征特征图E_i和学生特征图

点积的正负号。

进一步的，所述步骤S3中，基于奇异值矩阵∑中包含的奇异值计算特征图的权重。∑是一个对角矩阵，其中包含了不同的奇异值σ_i。使用前K个奇异值σ＝{σ_i|1≤i≤K}计算特征图的权重：

其中，w_i表示第i个本征特征图的权重，σ_i表示第i个奇异值，||σ||表示前K个奇异值的2范数。

进一步的，所述步骤S4中，最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值，获得高性能的学生深度模型：

其中，K表示总共包含的特征图的个数，L是计算的加权差值。w_i表示第i个本征特征图的权重，E_i表示老师深度模型中第i个本征特征图，F_i ^align表示学生模型中与第i个本征特征图对齐的学生特征图。||E_i-F_i ^align||₂表示用2范数计算两个特征图的差值。

相对于现有技术，本发明具有如下优点，该技术方案提取老师深度模型中最本质的本征特征，将学生深度模型中的特征图与本征特征图进行对齐，计算各特征图的权重，通过最小化老师深度模型中的本征特征图和学生深度模型中特征图的加权差值，将老师深度模型的本征特征知识传递给学生模型，从而获得高性能的学生深度模型，能够提高压缩的学生深度模型在图像分类任务中的分类准确率。

附图说明

图1为实施例的整体流程示意图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，一种基于本征特征迁移的深度模型压缩方法，依次包括以下步骤：

S1：基于奇异值分解方法，将老师深度模型中的一组特征图进行分解，提取老师深度模型中的本征特征图组；在本实施例中，提取老师深度模型中卷积层对应的特征图张量A∈R^H×W×C，该张量包含了C个特征图，每个特征图的高度为H，宽度为W。将三维的特征图张量A转换成二维的特征图矩阵M∈R^(H×W)×C。在本实施例中，使用已有的奇异值分解方法，对老师深度模型中的一组特征图M进行分解：

M＝UΣV^T；

其中，U是分解之后的左奇异矩阵，U中每一列是一个左奇异向量。∑是奇异值矩阵，其对角元素包含了M的所有非零奇异值。V^T是右奇异向量V的共轭转置，V中每一列是一个右奇异向量。

在本实施例中，使用左奇异矩阵U中前K个向量作为老师深度模型中的本征特征图组E：

E＝U[:,1:K]。

在本实施例中，提取学生深度模型中卷积层对应的特征图张量A_s∈R^H×W×K，该张量包含了K个特征图，每个特征图的高度为H，宽度为W。将三维的特征图张量A转换成二维的特征图矩阵F∈R^(H×W)×K。

在本实施例中，根据学生深度模型中特征图与老师深度模型中本征特征图的相似度，将学生深度模型中的一组特征图F与老师深度模型中的本征特征图组E进行对齐。E_i是老师深度模型中本征特征图组中的第i个本征特征图，F_j是学生深度模型中特征图组的第j个特征图，那么两个特征图之间的相似度sim(E_i,F_j)通过下式进行计算：

在本实施例中，使用以下公式获得与老师深度模型中第i个本征特征图对齐的学生特征图的下标a_i，使得对齐的学生特征图与本征特征图具有最大的相似度：

在本实施例中，最终与第i个本征特征图对齐后的学生特征图F_i ^align为：

其中，

表示下标为ai的学生特征图，

表示本征特征图E_i和学生特征图

点积的正负号。

S3：基于奇异值计算各本征特征图的权重；

在本实施例中，基于奇异值矩阵∑中包含的奇异值计算特征图的权重。∑是一个对角矩阵，其中包含了不同的奇异值σ_i。使用前K个奇异值σ＝{σ_i|1≤i≤K}计算特征图的权重：

在本实施例中，最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值，获得高性能的学生深度模型：

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

此处，我们将具有16层的VGG网络作为老师深度模型，将特征通道数只有老师深度模型四分之一的网络作为学生深度模型。

使用分类准确率(Accuracy)和参数大小(Params)在CIFAR-10数据库上进行了实验，并将本方法和老师深度模型TE、没有知识传递的学生深度模型ST和其他两种具有代表性的模型压缩方法KD和AT进行了比较。本发明的方法简称Ours。

CIFAR-10数据库包含了6万张大小为32x32的彩色图片，其中5万张是训练图片，1万张是测试图片。这个数据库包含10类目标。各个方法的分类准确率和模型参数大小如下表所示。

可以看出，老师深度模型的参数大小约是学生深度模型参数大小的16倍。ST是没有知识传递的学生深度模型，与老师深度模型相比，性能下降了8.7％左右。两种具有代表性的模型压缩方法KD和AT能够使压缩的学生深度模型性能有所提高。本专利提出方法的性能超过了这两种具有代表性的模型压缩方法KD和AT。上述结果表明本专利方法能够更好地提取和传递老师深度模型中的知识，获得更高性能的学生深度模型。

Claims

1.一种基于本征特征迁移的深度模型压缩方法，其特征在于，所述方法包括以下步骤：

S3：基于奇异值计算各本征特征图的权重；

2.根据权利要求1所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S1中，提取老师深度模型中卷积层对应的特征图张量A∈R^H×W×C，该张量包含了C个特征图，每个特征图的高度为H，宽度为W，将三维的特征图张量A转换成二维的特征图矩阵M∈R^(H ^×W)×C。

3.根据权利要求2所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S1中，使用已有的奇异值分解方法(SVD方法)，对老师深度模型中的一组特征图M进行分解：

M＝UΣV^T

其中，U是分解之后的左奇异矩阵，U中每一列是一个左奇异向量，∑是奇异值矩阵，其对角元素包含了M的所有非零奇异值，V^T是右奇异向量V的共轭转置，V中每一列是一个右奇异向量。

4.根据权利要求2所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S1中，使用左奇异矩阵U中前K个向量作为老师深度模型中的本征特征图组E：

E＝U[:,1:K]。

5.根据权利要求1所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S2中，提取学生深度模型中卷积层对应的特征图张量A_s∈R^H×W×K，该张量包含了K个特征图，0<K<C，其中C为老师模型特征图的个数，每个特征图的高度为H，宽度为W，将三维的特征图张量A，转换成二维的特征图矩阵F∈R^(H×W)×K。

6.根据权利要求5所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S2中，根据学生深度模型中特征图与老师深度模型中本征特征图的相似度，将学生深度模型中的一组特征图F与老师深度模型中的本征特征图组E进行对齐。E_i是老师深度模型中本征特征图组中的第i个本征特征图，F_j是学生深度模型中特征图组的第j个特征图，两个特征图之间的相似度sim(E_i,F_j)通过下式进行计算：

其中，||E_i||和||F_j||分别表示老师深度模型的本征特征图E_i和学生深度模型的特征图F_j的L2范数。*表示两个特征向量的点积，|E_i*F_j|表示本征特征图E_i和特征图F_j点积的绝对值。

7.根据权利要求5所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S2中，使用以下公式获得与老师深度模型中第i个本征特征图对齐的学生特征图的下标a_i，使得对齐的学生特征图与本征特征图具有最大的相似度：

。

8.根据权利要求5所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S2中，最终与第i个本征特征图对齐后的学生特征图F_i ^align为：

其中，表示下标为a_i的学生特征图，

表示本征特征图E_i和学生特征图

点积的正负号。

9.根据权利要求1所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S3中，基于奇异值矩阵∑中包含的奇异值计算本征特征图的权重。∑是一个对角矩阵，其中包含了不同的奇异值σ_i，使用前K个奇异值σ＝{σ_i|1≤i≤K}计算特征图的权重：

10.根据权利要求1所述的基于本征特征迁移的深度模型压缩方法，其特征在于，所述步骤S4中，最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值，获得高性能的学生深度模型：

其中，K表示总共包含的特征图的个数，L是计算的加权差值，w_i表示第i个本征特征图的权重，E_i表示老师深度模型中第i个本征特征图，F_i ^align表示学生模型中与第i个本征特征图对齐的学生特征图，||E_i-F_i ^align||₂表示用2范数计算两个特征图的差值。