CN108921294A

CN108921294A - 一种用于神经网络加速的渐进式块知识蒸馏方法

Info

Publication number: CN108921294A
Application number: CN201810758814.XA
Authority: CN
Inventors: 李玺; 赵涵斌; 汪慧
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-11-30

Abstract

本发明公开了一种用于神经网络加速的渐进式块知识蒸馏方法，方法具体包括以下步骤：输入原复杂网络和相关参数；将原复杂网络分成多个子网络块，按块设计学生子网络块并随机初始化参数；将输入的原复杂网络作为第一次块蒸馏过程的教师网络，块蒸馏过程完成得到一个学生网络，其中第一个学生子网络块参数最优；将上一次块蒸馏过程得到的学生网络作为下一次块蒸馏过程的教师网络，得到下一个学生网络，其中块蒸馏结束的学生子网络块参数最优；所有子网络块蒸馏过程完成，得到最终的简单学生网络以及最优参数。本发明能在一般的硬件架构上能够达到对模型压缩加速的效果，同时实现简单，是一个既有效并且实用简单的深度网络模型压缩加速算法。

Description

一种用于神经网络加速的渐进式块知识蒸馏方法

技术领域

本发明涉及深度网络模型压缩加速领域，尤其涉及一种用于神经网络加速的渐进式块知识蒸馏方法。

背景技术

从2016年开始，人工智能热潮席卷了全球。包括谷歌、微软、百度、阿里巴巴、腾讯等国内外各大公司纷纷投入大量的力量到有关人工智能的研究中；中国政府在不久前也发布了《新一代人工智能发展规划》，制定了未来中国人工智能发展的目标。这几年来，深度学习的迅猛发展，使得计算机视觉、自然语言处理等一系列领域的最先进的算法性能都有了跨越式的进展。在人工智能领域，传统的芯片计算架构无法支撑深度学习等并行计算的需求，面对未来10年高达2000亿美元的市场，谷歌、英伟达等国内外芯片公司纷纷投入研究新的人工智能芯片(云端训练、云端推理、设备端推理、类脑芯片)来更好地储备数据、加速计算过程。但在工业界深度学习算法却还没得到较好的应用，其中一个原因是深度神经网络的模型庞大、计算量巨大，动辄数百兆的深度神经网络部署到实际产品中困难较大。另一方面，在一些嵌入式的平台上，存储计算资源都十分有限，深度学习算法的移植更加困难。所以，研究深度网络模型的压缩加速，是一个对工业界和学术界都非常有价值的问题，以ResNet-50为例，它有50层卷积网络、超过95MB的储存需求，如果剪枝一些冗余的权重后，其大概能节约75％的参数和50％的计算时间。当前主要用于深度网络模型压缩加速的方案有参数剪枝和共享、低秩分解、知识蒸馏等。有些方案(如低秩分解)只能够实现理论上对模型的压缩加速，但在实际硬件结构上依然无法达到对模型加速的效果；有些方案(如知识蒸馏)能够在实际的硬件条件下实现对模型的压缩加速，但是实现起来较复杂。本发明基于这些问题，致力于研究设计出一个既有效并且实用简单的深度网络模型压缩加速算法，能在一般的硬件架构上能够达到对模型压缩加速的效果，同时实现起来相对简单。

目前有关压缩和加速卷积神经网络模型的方法大致可以分为四种方案：基于参数剪枝与共享的方法(又包括模型量化和二值化、参数共享、结构矩阵三类)，基于低秩分解的方法，基于转换卷积滤波器的方法，基于知识蒸馏的方法。从原理上来说，前三种方案的想法都关注如何通过不同的低存储成本的计算加速技术来获得一个有效的网络，通过计算加速角度的方案大多在实现运用上需要配合一定的硬件支持；相反，第四种方案知识蒸馏是通过一个教师-学生的学习策略来实现将原来的网络模型压缩成一个低复杂度的模型的目的，在不损失太多模型准确率的情况下，低复杂度的网络模型能够具备高运算效率以及较少的存储开销，因此知识蒸馏方案相比前三种方案在应用上所需的硬件要求更少。然而，对于知识蒸馏方案，对模型蒸馏过程的有效性经常受到两方面的困难，一方面来自教师-学生网络的优化问题，另一方面是关于学生网络结构的设计问题。知识蒸馏方案的缺陷是对于如何设计以及学习一个好的学生网络非常困难。对于知识蒸馏方案，对模型蒸馏过程的有效性经常受到两方面的困难，一方面来自教师-学生网络的优化问题，另一方面是关于学生网络结构的设计问题。大多现有的策略从教师模型中都只用一步的机制来获得学生模型，在一个巨大搜索空间中找到逼近教师网络函数的学生网络函数需要非常多的网络配置，在实际中，这个非联合优化过程也是难以处理和不稳定的。通过子网络块的形式的蒸馏方案是非常容易优化的，但是不能够有效地保持层特定子网络块之间的序列依赖关系。另外，现有的对学生子网络块的设计准则也不能很好地保护原子网络块在特征提取中的感受野信息。

发明内容

为了解决现有技术中存在的问题，本发明旨在研究设计出一种用于神经网络加速的渐进式块知识蒸馏方法，该方法能在一般的硬件架构上能够达到对模型压缩加速的效果，同时实现相对简单。针对知识蒸馏方案的缺陷，对于如何设计以及学习一个好的学生网络非常困难，本发明将网络分成多个子网络块，在子网络块级别上根据提出的设计准则设计学生网络，然后渐进式地逐块地蒸馏神经网络中的知识，大大降低设计和训练学生网络的难度。本发明具体采用的技术方案如下：

一种用于神经网络加速的渐进式块知识蒸馏方法包括以下步骤：

S1、输入原复杂网络和相关参数，定义方法目标；

S2、将原复杂网络分成多个子网络块，基于学生子网络块设计准则，按块设计学生子网络块并随机初始化其参数；

S3、蒸馏第一个子网络块，将S1中输入的原复杂网络作为第一次块蒸馏过程的教师网络，一次块蒸馏过程完成后得到第一个学生网络，其中蒸馏完成的第一个学生子网络块具有最优参数；

S4、蒸馏下一个子网络块，将上一次块蒸馏过程得到的学生网络作为本次块蒸馏过程的教师网络，一次块蒸馏过程完成得到下一个学生网络，其中蒸馏完成的下一个学生子网络块具有最优参数；

S5、重复步骤S4直到所有子网络块蒸馏过程完成，将最后一次块蒸馏得到的学生网络和最优参数作为最终的简单学生网络以及最终参数。

作为优选，S1中所述的原复杂网络定义如下：

原复杂网络T由N个子网络块构成，表示如下：

t_i是在T中的第i个子网络块，i∈{1，2，...，N}，c是分类器的映射函数，为简化网络表达的符号；

该复杂网络的参数表示为W_c和是指c和t_i的参数，i∈{1，2，...，N}；

所述的子网络块定义如下：一个神经网络由卷积层、池化层和全连接层构成，将神经网络中两个相邻池化层间的子网络定义为一个子网络块。

作为优选，S1中所述的方法目标定义如下：设计一个具有高计算效率和低存储占用空间的学生网络，并学习训练得到最优的参数；所述学生网络由N个学生子网络块构成，用表示，其中s_i表示S中的第i个学生子网络块，i∈{1，2，...，N}，c是分类器的映射函数；所述最优的参数用表示，W_c和是指c和s_i的参数。

作为优选，所述S2包含以下子步骤：

S21、将原复杂网络T分成N个子网络块{t₁，t₂，t₃，...，t_N}；

S22、根据所述学生子网络块设计准则，按块设计得到N个学生子网络块{s₁，s₂，s₃，...，s_N}；

S23、随机初始化学生子网络块的参数；

所述的学生子网络块设计准则具体操作如下：首先，根据子网络块的结构，将块中包含的所有卷积层的通道数剪枝一半来构建一个简单的学生子网络块，然后通过在块的末尾添加一层1×1的卷积层将输出的通道数量扩展为原子网络块的输出通道数量。

作为优选，所述的一次块蒸馏过程表示如下：

其中Ak表示第k次块蒸馏的中间网络，s_j是指蒸馏结束参数最优的学生子网络块，t_i是教师子网络块；A^k的参数表示如下：

块蒸馏过程通过最小化目标损失函数得到学生子网络块的最优参数；蒸馏第k个子网络块时，对于单个输入数据样本对(I，y)的目标损失函数表示为：

其中λ_local是用来平衡目标损失函数的两项影响的参数，表示整个目标损失函数的第一项，表示整个目标损失函数的第二项，I是整个网络的单个输入数据样本，y是单个输入数据样本的真实标签，||·||_F表示F范数，softmax(·)表示网络最终的输出和y的softmax损失值；

因此，针对共有M个输入数据样本对的训练数据集{(I⁽¹⁾，y⁽¹⁾，...(I^(M)，y^(M))}，其最终的目标损失函数表示通过优化这个目标损失函数，得到对应子网络块的最优参数。

与传统知识蒸馏方法相比，本发明的一种用于神经网络加速的渐进式块知识蒸馏方法能够有效地对深度神经网络进行压缩和加速，并且实现简单；本发明的渐进式的块知识蒸馏策略以及在子网络块级别上设计学生子网络块克服了传统知识蒸馏方法的缺陷，能够大大降低设计和学习学生网络的难度。

附图说明

图1为本发明方法流程图；

图2为本发明提出的学生子网络块设计准则的示意图；

图3为本发明的渐进式块知识蒸馏算法的示意图；

图4为传统知识蒸馏算法的示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述。

如图1所示，一种用于神经网络加速的渐进式块知识蒸馏方法包括以下步骤：

S1、输入原复杂网络和相关参数，定义方法目标；

本步骤中，所述的原复杂网络定义如下：

原复杂网络T由N个子网络块构成，表示如下：

本步骤中所述的方法目标定义如下：设计一个具有高计算效率和低存储占用空间的学生网络，并学习训练得到最优的参数；所述学生网络由N个学生子网络块构成，用表示，其中s_i表示S中的第i个学生子网络块，i∈{1，2，...，N}，c是分类器的映射函数；所述最优的参数用表示，W_c和是指c和s_i的参数。

本步骤包含以下几个子步骤：

S22、根据所述学生子网络块设计准则设计得到N个学生子网络块{s₁，s₂，s₃，...，s_N}；

S23、随机初始化学生子网络块的参数；

所述的学生子网络块设计准则具体操作如下：首先，根据教师子网络块的结构，将块中包含的所有卷积层的通道数剪枝一半来构建一个简单的学生子网络块，然后通过在块的末尾添加一层1×1的卷积层将输出的通道数量扩展为原教师子网络块的输出通道数量。图2展现的是使用本文提出的学生子网络块的设计原则，根据一个包含两层K×K卷积层的教师子网络块设计对应的学生子网络块的过程，不难发现，使用本发明提出的设计准则能够保持教师子网络块和设计得到的学生子网络块的感受一致。基于这种子网络块设计方案，设计的学生子网络块不可以改变下一个/上一个块的输入/输出大小，同时需要保持感受不变，可以作为设计子网络块的准则。另外，学生子网络块的设计基于教师子网络的结构，但是相比教师子网络块，包含更少的参数量和更少的浮点数运算。

通过步骤S3和S4可知：通过本发明的方法对N个教师子网络块构成的原复杂网络T压缩加速需要N个块知识蒸馏过程。用一个辅助函数来表示在第k个块学习阶段的中间网络，s_j是指已经优化好的学生子网络块，t_i是教师子网络块。A^k的参数可以用表示。A⁰是原教师网络T，A^N是优化后得到的学生网络S。

本发明的渐进式的块知识蒸馏如图3所示(传统的知识蒸馏如图4所示)：首先最左边是我们用第一次蒸馏来蒸馏第一个块的过程，将原复杂网络作为第一次蒸馏过程的教师网络，教师子网络块和学生子网络块如图3所示；然后通过第二次蒸馏来蒸馏第二个子网络块，以第一次蒸馏过程得到的学生网络作为教师网络，蒸馏第二个子网块；同理，经过渐进式的多个子网络块优化过程，直至得到最终的一个学生网络，便完成了对原模型的压缩和加速。

蒸馏每个块主要的方法是通过优化一个目标损失函数，损失函数由局部损失和分类损失两项构成，以蒸馏第k个教师子网络块为例，第一项局部损失是用于让学生子网块输出的特征图匹配教师子网块输出的特征图，是比较学生子网络块s_k的输出与教师网络对应位置的教师子网络块t_k的输出，定义为第二项是本身就有的分类损失，是为了让学生网络的最后的输出逼近真实的标注结果(ground truth)，被定义为可以对蒸馏得到的知识进行一个矫正。在蒸馏第k个教师子网络块的过程中对于单个输入数据样本对(I，y)的目标损失函数可以表示成 λ_local是用来平衡目标损失函数的两项的影响，I是整个网络的单个输入数据样本，y是单个输入数据样本的真实标签，||·||_F表示F范数，softmax(·)表示网络最终的输出和y的softmax损失值；

因此，针对共有M个输入数据样本的训练数据集{(I⁽¹⁾，y⁽¹⁾，...(I^(M)，y^(M))}最终的目标函数表示

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

下面基于上述方法进行仿真实验，本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对实验结果展示其效果。

本实施例使用用于图像分类任务在CIFAR100、ImageNet数据集上的原始复杂VGG-16网络，首先将VGG-16分为5个教师子网络块，然后开展基于本发明方法的压缩和加速。

实施效果如表1和表2所示。如表1所示，在CIFAR100数据集上，本发明对初始模型(OriginalVGG)进行压缩，在对原模型的参数量减少40％，计算量减少169％的情况下，模型的Top-1准确率只下降了2.22％，Top-5准确率只下降了1.89％。如表2，在ImageNet数据集上，本发明与最近最先进的方法(APoZ-1、APoZ-2、Taylor-1、Taylor-2、ThiNet-Conv、ThiNet-GAP等)的结果作对比分析，从原理上来说，本发明基于渐进式的块学习机制以及保护结构的设计准则，不但能够很好地维持压缩后的模型的准确率还可以提高准确率，同时减少了显著的计算量。与其他先进方法的结果对比，可以观察到本文提出的方法压缩后的模型准确率是最高的，并且模型的计算量的减少量也是与其他方法相当的。

表1 本发明方法在CIFAR100数据集上的实施效果

表2 本发明方法在ImageNet数据集上的实施效果

综上，本发明实施例区别于现有技术，在子网络块级别上对原始VGG-16网络进行压缩和加速，渐进式地对网络块进行块知识蒸馏。相比现有技术，在减少相同程度的网络的参数量和计算量的时候，模型的收敛速度更快，并且实现更简单。

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种用于神经网络加速的渐进式块知识蒸馏方法，包括以下步骤：

S1、输入原复杂网络和相关参数，定义方法目标；

2.根据权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法，其特征在于S1中所述的原复杂网络定义如下：

原复杂网络T由N个子网络块构成，表示如下：

3.根据权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法，其特征在于S1中所述的方法目标定义如下：设计一个具有高计算效率和低存储占用空间的学生网络，并学习训练得到最优的参数；所述学生网络由N个学生子网络块构成，用表示，其中s_i表示S中的第i个学生子网络块，i∈{1，2，...，N}，c是分类器的映射函数；所述最优的参数用表示，W_c和是指c和s_i的参数。

4.根据权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法，其特征在于所述S2包含以下子步骤：

S23、随机初始化学生子网络块的参数；

5.如权利要求1所述的一种用于神经网络加速的渐进式块知识蒸馏方法，S3中所述的一次块蒸馏过程表示如下：

其中A^k表示第k次块蒸馏的中间网络，s_j是指蒸馏结束参数最优的学生子网络块，t_i是教师子网络块；A^k的参数表示如下：

因此，针对共有M个输入数据样本对的训练数据集{(I⁽¹⁾，y⁽¹⁾)，...(I^(M)，y^(M))}，其最终的目标损失函数表示通过优化这个目标损失函数，得到对应子网络块的最优参数。