CN111144456A - 一种基于本征特征迁移的深度模型压缩方法 - Google Patents
一种基于本征特征迁移的深度模型压缩方法 Download PDFInfo
- Publication number
- CN111144456A CN111144456A CN201911276620.7A CN201911276620A CN111144456A CN 111144456 A CN111144456 A CN 111144456A CN 201911276620 A CN201911276620 A CN 201911276620A CN 111144456 A CN111144456 A CN 111144456A
- Authority
- CN
- China
- Prior art keywords
- depth model
- student
- feature
- intrinsic
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于本征特征迁移的深度模型压缩方法,所述方法包括以下步骤:基于奇异值分解方法,将老师深度模型中的一组特征图进行分解,提取老师深度模型中的本征特征图组;将学生深度模型中的一组特征图与老师深度模型中的本征特征图组进行对齐;基于奇异值计算各本征特征图的权重;通过最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值,将老师深度模型中的本征特征迁移给学生深度模型,从而提高学生深度模型的性能。本发明提取老师深度模型中最本质的本征特征图,并有效迁移给学生深度模型,有助于提高深度模型压缩的精度,获得高性能的学生深度模型。
Description
技术领域
本发明涉及一种压缩方法,具体涉及基于本征特征迁移的深度模型压缩方法,属于模型压缩技术领域。
背景技术
深度神经网络模型在许多计算机视觉和模式识别任务中取得了非常好的性能,比如图像分类和目标检测。然而,深度神经网络模型的一个主要缺陷是模型中包含大量的参数,这就需要设备具有大容量的内存和强大的计算能力。这使得深度模型不能在具有有限内存的任务中进行应用,比如手机等移动设备。
近期,有一部分研究者尝试在保持模型性能的前提下压缩深度网络模型并减少计算负担。在这些方法中,知识蒸馏是一类比较有效的方法,该方法的核心是将老师深度模型中的知识传递给学生深度模型。一般,老师深度模型是一个大且复杂的网络模型,而学生深度模型是一个小且快速的网络模型。将老师深度模型中学到的知识传递给学生深度模型,能够得到一个高性能的压缩模型。
一部分学者通过生成并拟合老师深度模型的软标签来进行知识传递。另一部分学者将特征图的平均值或者分布作为知识传递给学生深度模型。这些工作都证明了知识蒸馏方法的有效性,然而这些方法都间接地使用特征图的知识,使得所传递的知识有限。因此,迫切的需要一种新的方案解决上述技术问题。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于本征特征迁移的深度模型压缩方法,该技术方案能够获得高性能的学生深度模型,能够提高压缩的学生深度模型在图像分类任务中的分类准确率。
为了实现上述目的,本发明的技术方案如下,一种基于本征特征迁移的深度模型压缩方法,所述方法包括以下步骤:
S1:基于奇异值分解方法,将老师深度模型中的一组特征图进行分解,提取老师深度模型中的本征特征图组;
S2:将学生深度模型中的一组特征图与老师深度模型中的本征特征图组进行对齐;
S3:基于奇异值计算各本征特征图的权重;
S4:通过最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值,将老师深度模型中的本征特征迁移给学生深度模型,从而获得高性能的学生深度模型。
进一步的,所述步骤S1中,提取老师深度模型中卷积层对应的特征图张量A∈RH ×W×C,该张量包含了C个特征图,每个特征图的高度为H,宽度为W,将三维的特征图张量A转换成二维的特征图矩阵M∈R(H×W)×C。
所述步骤S1中,使用已有的奇异值分解方法(SVD方法),对老师深度模型中的一组特征图M进行分解:
M=UΣVT;
其中,U是分解之后的左奇异矩阵,U中每一列是一个左奇异向量,∑是奇异值矩阵,其对角元素包含了M的所有非零奇异值,VT是右奇异向量V的共轭转置,V中每一列是一个右奇异向量。所述步骤S1中,使用左奇异矩阵U中前K个向量作为老师深度模型中的本征特征图组E:
E=U[:,1:K]。
进一步的,所述步骤S2中,提取学生深度模型中卷积层对应的特征图张量As∈RH ×W×K,该张量包含了K个特征图,每个特征图的高度为H,宽度为W,将三维的特征图张量As转换成二维的特征图矩阵F∈R(H×W)×K。
所述步骤S2中,根据学生深度模型中特征图与老师深度模型中本征特征图的相似度,将学生深度模型中的一组特征图F与老师深度模型中的本征特征图组E进行对齐。Ei是老师深度模型中本征特征图组中的第i个本征特征图,Fj是学生深度模型中特征图组的第j个特征图,那么两个特征图之间的相似度sim(Ei,Fj)通过下式进行计算:
其中,||Ei||和||Fj||分别表示老师深度模型的本征特征图Ei和学生深度模型的特征图Fj的L2范数。*表示两个特征向量的点积。|Ei*Fj|表示本征特征图Ei和特征图Fj点积的绝对值。
所述步骤S2中,使用以下公式获得与老师深度模型中第i个本征特征图对齐的学生特征图的下标ai,使得对齐的学生特征图与本征特征图具有最大的相似度:
所述步骤S2中,最终与第i个本征特征图对齐后的学生特征图Fi align为:
进一步的,所述步骤S3中,基于奇异值矩阵∑中包含的奇异值计算特征图的权重。∑是一个对角矩阵,其中包含了不同的奇异值σi。使用前K个奇异值σ={σi|1≤i≤K}计算特征图的权重:
其中,wi表示第i个本征特征图的权重,σi表示第i个奇异值,||σ||表示前K个奇异值的2范数。
进一步的,所述步骤S4中,最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值,获得高性能的学生深度模型:
其中,K表示总共包含的特征图的个数,L是计算的加权差值。wi表示第i个本征特征图的权重,Ei表示老师深度模型中第i个本征特征图,Fi align表示学生模型中与第i个本征特征图对齐的学生特征图。||Ei-Fi align||2表示用2范数计算两个特征图的差值。
相对于现有技术,本发明具有如下优点,该技术方案提取老师深度模型中最本质的本征特征,将学生深度模型中的特征图与本征特征图进行对齐,计算各特征图的权重,通过最小化老师深度模型中的本征特征图和学生深度模型中特征图的加权差值,将老师深度模型的本征特征知识传递给学生模型,从而获得高性能的学生深度模型,能够提高压缩的学生深度模型在图像分类任务中的分类准确率。
附图说明
图1为实施例的整体流程示意图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1,一种基于本征特征迁移的深度模型压缩方法,依次包括以下步骤:
S1:基于奇异值分解方法,将老师深度模型中的一组特征图进行分解,提取老师深度模型中的本征特征图组;在本实施例中,提取老师深度模型中卷积层对应的特征图张量A∈RH×W×C,该张量包含了C个特征图,每个特征图的高度为H,宽度为W。将三维的特征图张量A转换成二维的特征图矩阵M∈R(H×W)×C。在本实施例中,使用已有的奇异值分解方法,对老师深度模型中的一组特征图M进行分解:
M=UΣVT;
其中,U是分解之后的左奇异矩阵,U中每一列是一个左奇异向量。∑是奇异值矩阵,其对角元素包含了M的所有非零奇异值。VT是右奇异向量V的共轭转置,V中每一列是一个右奇异向量。
在本实施例中,使用左奇异矩阵U中前K个向量作为老师深度模型中的本征特征图组E:
E=U[:,1:K]。
S2:将学生深度模型中的一组特征图与老师深度模型中的本征特征图组进行对齐;
在本实施例中,提取学生深度模型中卷积层对应的特征图张量As∈RH×W×K,该张量包含了K个特征图,每个特征图的高度为H,宽度为W。将三维的特征图张量A转换成二维的特征图矩阵F∈R(H×W)×K。
在本实施例中,根据学生深度模型中特征图与老师深度模型中本征特征图的相似度,将学生深度模型中的一组特征图F与老师深度模型中的本征特征图组E进行对齐。Ei是老师深度模型中本征特征图组中的第i个本征特征图,Fj是学生深度模型中特征图组的第j个特征图,那么两个特征图之间的相似度sim(Ei,Fj)通过下式进行计算:
其中,||Ei||和||Fj||分别表示老师深度模型的本征特征图Ei和学生深度模型的特征图Fj的L2范数。*表示两个特征向量的点积。|Ei*Fj|表示本征特征图Ei和特征图Fj点积的绝对值。
在本实施例中,使用以下公式获得与老师深度模型中第i个本征特征图对齐的学生特征图的下标ai,使得对齐的学生特征图与本征特征图具有最大的相似度:
在本实施例中,最终与第i个本征特征图对齐后的学生特征图Fi align为:
S3:基于奇异值计算各本征特征图的权重;
在本实施例中,基于奇异值矩阵∑中包含的奇异值计算特征图的权重。∑是一个对角矩阵,其中包含了不同的奇异值σi。使用前K个奇异值σ={σi|1≤i≤K}计算特征图的权重:
其中,wi表示第i个本征特征图的权重,σi表示第i个奇异值,||σ||表示前K个奇异值的2范数。
S4:通过最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值,将老师深度模型中的本征特征迁移给学生深度模型,从而获得高性能的学生深度模型。
在本实施例中,最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值,获得高性能的学生深度模型:
其中,K表示总共包含的特征图的个数,L是计算的加权差值。wi表示第i个本征特征图的权重,Ei表示老师深度模型中第i个本征特征图,Fi align表示学生模型中与第i个本征特征图对齐的学生特征图。||Ei-Fi align||2表示用2范数计算两个特征图的差值。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
此处,我们将具有16层的VGG网络作为老师深度模型,将特征通道数只有老师深度模型四分之一的网络作为学生深度模型。
使用分类准确率(Accuracy)和参数大小(Params)在CIFAR-10数据库上进行了实验,并将本方法和老师深度模型TE、没有知识传递的学生深度模型ST和其他两种具有代表性的模型压缩方法KD和AT进行了比较。本发明的方法简称Ours。
CIFAR-10数据库包含了6万张大小为32x32的彩色图片,其中5万张是训练图片,1万张是测试图片。这个数据库包含10类目标。各个方法的分类准确率和模型参数大小如下表所示。
可以看出,老师深度模型的参数大小约是学生深度模型参数大小的16倍。ST是没有知识传递的学生深度模型,与老师深度模型相比,性能下降了8.7%左右。两种具有代表性的模型压缩方法KD和AT能够使压缩的学生深度模型性能有所提高。本专利提出方法的性能超过了这两种具有代表性的模型压缩方法KD和AT。上述结果表明本专利方法能够更好地提取和传递老师深度模型中的知识,获得更高性能的学生深度模型。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
Claims (10)
1.一种基于本征特征迁移的深度模型压缩方法,其特征在于,所述方法包括以下步骤:
S1:基于奇异值分解方法,将老师深度模型中的一组特征图进行分解,提取老师深度模型中的本征特征图组;
S2:将学生深度模型中的一组特征图与老师深度模型中的本征特征图组进行对齐;
S3:基于奇异值计算各本征特征图的权重;
S4:通过最小化学生深度模型中特征图组和老师深度模型中本征特征图组的加权差值,将老师深度模型中的本征特征迁移给学生深度模型,从而获得高性能的学生深度模型。
2.根据权利要求1所述的基于本征特征迁移的深度模型压缩方法,其特征在于,所述步骤S1中,提取老师深度模型中卷积层对应的特征图张量A∈RH×W×C,该张量包含了C个特征图,每个特征图的高度为H,宽度为W,将三维的特征图张量A转换成二维的特征图矩阵M∈R(H ×W)×C。
3.根据权利要求2所述的基于本征特征迁移的深度模型压缩方法,其特征在于,所述步骤S1中,使用已有的奇异值分解方法(SVD方法),对老师深度模型中的一组特征图M进行分解:
M=UΣVT
其中,U是分解之后的左奇异矩阵,U中每一列是一个左奇异向量,∑是奇异值矩阵,其对角元素包含了M的所有非零奇异值,VT是右奇异向量V的共轭转置,V中每一列是一个右奇异向量。
4.根据权利要求2所述的基于本征特征迁移的深度模型压缩方法,其特征在于,所述步骤S1中,使用左奇异矩阵U中前K个向量作为老师深度模型中的本征特征图组E:
E=U[:,1:K]。
5.根据权利要求1所述的基于本征特征迁移的深度模型压缩方法,其特征在于,所述步骤S2中,提取学生深度模型中卷积层对应的特征图张量As∈RH×W×K,该张量包含了K个特征图,0<K<C,其中C为老师模型特征图的个数,每个特征图的高度为H,宽度为W,将三维的特征图张量A,转换成二维的特征图矩阵F∈R(H×W)×K。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911276620.7A CN111144456B (zh) | 2019-12-13 | 2019-12-13 | 一种基于本征特征迁移的深度模型压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911276620.7A CN111144456B (zh) | 2019-12-13 | 2019-12-13 | 一种基于本征特征迁移的深度模型压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144456A true CN111144456A (zh) | 2020-05-12 |
CN111144456B CN111144456B (zh) | 2023-07-18 |
Family
ID=70518096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911276620.7A Active CN111144456B (zh) | 2019-12-13 | 2019-12-13 | 一种基于本征特征迁移的深度模型压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144456B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365886A (zh) * | 2021-01-18 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 语音识别模型的压缩方法、装置和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
CN109492754A (zh) * | 2018-11-06 | 2019-03-19 | 深圳市友杰智新科技有限公司 | 一种基于深度神经网络模型压缩和加速方法 |
CN110008880A (zh) * | 2019-03-27 | 2019-07-12 | 深圳前海微众银行股份有限公司 | 一种模型压缩方法及装置 |
CN110163236A (zh) * | 2018-10-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN110276413A (zh) * | 2019-06-28 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 一种模型压缩方法及装置 |
CN110503135A (zh) * | 2019-07-31 | 2019-11-26 | 上海交通大学烟台信息技术研究院 | 用于电力设备边缘侧识别的深度学习模型压缩方法及系统 |
-
2019
- 2019-12-13 CN CN201911276620.7A patent/CN111144456B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
CN110163236A (zh) * | 2018-10-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN109492754A (zh) * | 2018-11-06 | 2019-03-19 | 深圳市友杰智新科技有限公司 | 一种基于深度神经网络模型压缩和加速方法 |
CN110008880A (zh) * | 2019-03-27 | 2019-07-12 | 深圳前海微众银行股份有限公司 | 一种模型压缩方法及装置 |
CN110276413A (zh) * | 2019-06-28 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 一种模型压缩方法及装置 |
CN110503135A (zh) * | 2019-07-31 | 2019-11-26 | 上海交通大学烟台信息技术研究院 | 用于电力设备边缘侧识别的深度学习模型压缩方法及系统 |
Non-Patent Citations (1)
Title |
---|
雷杰: "深度网络模型压缩综述" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365886A (zh) * | 2021-01-18 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 语音识别模型的压缩方法、装置和计算机设备 |
CN112365886B (zh) * | 2021-01-18 | 2021-05-07 | 深圳市友杰智新科技有限公司 | 语音识别模型的训练方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111144456B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717568B (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
Sun et al. | A sparse and low-rank near-isometric linear embedding method for feature extraction in hyperspectral imagery classification | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN111554268A (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
CN110210515A (zh) | 一种图像数据多标签分类方法 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN108090403A (zh) | 一种基于3d卷积神经网络的人脸动态识别方法及系统 | |
CN105046272B (zh) | 一种基于简洁非监督式卷积网络的图像分类方法 | |
CN105678231A (zh) | 一种基于稀疏编码和神经网络的行人图片检测方法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN107133640A (zh) | 基于局部图像块描述子和费舍尔向量的图像分类方法 | |
CN109886391A (zh) | 一种基于空间正反对角卷积的神经网络压缩方法 | |
CN105095857A (zh) | 基于关键点扰动技术的人脸数据增强方法 | |
CN107194314A (zh) | 融合模糊2dpca和模糊2dlda的人脸识别方法 | |
CN111144456B (zh) | 一种基于本征特征迁移的深度模型压缩方法 | |
CN109840506B (zh) | 利用结合关系互动的视频转换器解决视频问答任务的方法 | |
CN105718858B (zh) | 一种基于正负广义最大池化的行人识别方法 | |
CN112528077A (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN106529601A (zh) | 基于稀疏子空间多任务学习的图像分类预测方法 | |
CN114863174A (zh) | 一种基于多尺度注意力特征融合的小样本分类算法 | |
CN103218611A (zh) | 基于分布式协同学习的人体运动跟踪方法 | |
CN107169410A (zh) | 用于人脸识别的基于lbp特征的结构型稀疏表示分类方法 | |
CN113469196A (zh) | 一种基于注意力深度卷积神经分类网络的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |