CN110580525B

CN110580525B - 适用于资源受限的设备的神经网络压缩方法及系统

Info

Publication number: CN110580525B
Application number: CN201910477603.3A
Authority: CN
Inventors: 欧中洪; 刘云峰; 孔慧慧; 宋美娜; 宋俊德
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2021-05-11
Anticipated expiration: 2039-06-03
Also published as: CN110580525A

Abstract

本申请提出一种神经网络压缩方法及系统。其中，神经网络压缩方法，包括：根据预设的初始降维能量比得到降维能量比集合；从原始训练集中进行抽样，以根据抽样数据得到抽样集；根据所述抽样集对神经网络模型中的每一层进行测试，以确定在降维能量比集合中每一个降维能量比下的精度损失；根据最小的精度损失对应的降维能量比计算每一层对应的低秩值；根据每一层对应的低秩值对神经网络压缩进行压缩，以得到压缩模型。本申请的神经网络压缩方法，对神经网络每一层进行压缩敏感度预检测，然后根据敏感度为每一层分配合适的低秩rank，最后进行低秩分解得到压缩模型，具有分配效率高且分配合理的优点，避免压缩后精度的过多下降。

Description

适用于资源受限的设备的神经网络压缩方法及系统

技术领域

本申请涉及信息处理领域，尤其涉及一种适用于资源受限的设备的神经网络压缩方法及系统。

背景技术

卷积神经网络(CNNs)的性能在计算机视觉领域达到了前所未有的高度，包括图像分类、目标检测与识别和其他领域。然而，良好的性能是以牺牲计算复杂性和存储空间为代价的。例如，VGG-16模型拥有超过1.38亿个参数，需要超过550MiB的存储空间，在CPU上平均需要60秒才能处理完一张224×224大小的图像。因此，在资源受限的设备(例如，智能手机)上部署CNN是一项巨大的挑战。

低秩分解是用于模型压缩的一种代表性方法。其思路是将一个大的权重矩阵分解为几个参数较少的矩阵相乘。为每一层所分配的低秩rank权衡着压缩率与低秩模型的性能。通过为每个层分配合适的rank，低秩分解能够实现高压缩率，同时保持相对较低的精度损失。目前分配rank的方案主要是以下两种方式：(1)手动分配。根据具体CNN的特点，手动为每一层分配一个低秩rank。(2)均一标准分配。将每一层同等对待，使用相同的标准为每一层分配低秩rank。

通过以上方法得到每一层的rank，然后使用低秩分解方法得到压缩模型。针对压缩模型精度下降较为严重的问题，再次使用训练集对压缩模型进行fine-tune回升精度。

方式(1)简单、无需复杂的算法，但是这高度依赖于经验，而且当CNN层数较多时，手动分配效率低下；方式(2)通过对每一层使用相同的PCA能量比为每一层计算出低秩rank，但是它没有考虑到每一层的敏感度是不一样的，造成有的层冗余裁剪不彻底，而有的层又裁剪过度，导致精度下降严重。

发明内容

本申请旨在至少解决上述技术问题之一。

为此，本申请的第一个目的在于提出一种适用于资源受限的设备的神经网络压缩方法。该方法，对神经网络每一层进行压缩敏感度预检测，然后根据敏感度为每一层分配合适的低秩rank，最后进行低秩分解得到压缩模型，具有分配效率高且分配合理的优点，避免压缩后精度的过多下降。

本申请的第二个目的在于提出一种种适用于资源受限的设备的神经网络压缩系统。

为了实现上述目的，本申请的第一方面公开了一种适用于资源受限的设备的神经网络压缩方法，包括：根据预设的初始降维能量比得到降维能量比集合；从原始训练集中进行抽样，以根据抽样数据得到抽样集；根据所述抽样集对神经网络模型中的每一层进行测试，以确定在所述降维能量比集合中每一个降维能量比下的精度损失；根据最小的精度损失对应的降维能量比计算每一层对应的低秩值；根据所述每一层对应的低秩值对所述神经网络进行压缩，以得到压缩模型，并将得到的模型部署到资源受限设备上。

本申请的神经网络压缩方法，对神经网络每一层进行压缩敏感度预检测，然后根据敏感度为每一层分配合适的低秩rank，最后进行低秩分解得到压缩模型，具有分配效率高且分配合理的优点，避免压缩后精度的过多下降。

在一些示例中，还包括：构造局部损失函数和全局损失函数；对所述局部损失函数和全局损失函数进行融合，以得到目标函数；根据所述目标函数对所述压缩模型进行恢复训练。

在一些示例中，所述局部损失函数为：

其中，

是第i个base和tutor block的输出，m_i＝Hⁱ×Wⁱ×Cⁱ。

在一些示例中，所述全局损失函数为：

其中，G是交叉熵损失函数，λ和μ是权衡各项比例的超参数，label是真实标签。

在一些示例中，所述目标函数为：

其中，λ_i，(i＝1,2,…,p)是权衡每个local loss的超参数。

本申请的第二方面公开了一种适用于资源受限的设备的神经网络压缩系统，包括：压缩模块，用于根据预设的初始降维能量比得到降维能量比集合，并从原始训练集中进行抽样，以根据抽样数据得到抽样集，以及根据所述抽样集对神经网络模型中的每一层进行测试，以确定在所述降维能量比集合中每一个降维能量比下的精度损失，并根据最小的精度损失对应的降维能量比计算每一层对应的低秩值，以及根据所述每一层对应的低秩值对所述神经网络进行压缩，以得到压缩模型，并将得到的模型部署到资源受限设备上。

本申请的神经网络压缩系统，对神经网络每一层进行压缩敏感度预检测，然后根据敏感度为每一层分配合适的低秩rank，最后进行低秩分解得到压缩模型，具有分配效率高且分配合理的优点，避免压缩后精度的过多下降。

在一些示例中，还包括：精度恢复模块，用于构造局部损失函数和全局损失函数，并对所述局部损失函数和全局损失函数进行融合，以得到目标函数，以及根据所述目标函数对所述压缩模型进行恢复训练。

在一些示例中，所述局部损失函数为：

其中，

是第i个base和tutor block的输出，

Hⁱ×Wⁱ×Cⁱ。

在一些示例中，所述全局损失函数为：

在一些示例中，所述目标函数为：

其中，λ_i，(i＝1,2,…,p)是权衡每个local loss的超参数。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本申请一个实施例的神经网络压缩方法的流程图；

图2是原始卷积操作的示意图；

图3是在低秩下分解后的卷积操作示意图；

图4是根据本申请一个实施例的神经网络压缩系统的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

图1是根据本申请一个实施例的神经网络压缩方法的流程图。

本申请实施例的神经网络压缩方法是基于低秩分解的，因此，首先对低秩分解进行说明。一个原始的卷积层操作如图2所示，原始卷积操作公式表示为：

低秩分解的主要思想是将一个卷积层分解成两个新的卷积层。如图3所示，第一层有R个d×1×C的filter，以维度为H×W×C的tensor作为Input，产生维度为H’×W×R的Ouput’；第二层有N个1×d×C的filter，以Output’为输入，产生维度为H’×W’×N的Output，其维度与图1中原卷积的输出维度相同。因此，低秩R控制着每一层的压缩强度，R越小，压缩的越多。

如图1所示，根据本申请实施例的神经网络压缩方法包括下述步骤。

S101：根据预设的初始降维能量比得到降维能量比集合。

S102：从原始训练集中进行抽样，以根据抽样数据得到抽样集。

S103：根据抽样集对神经网络模型中的每一层进行测试，以确定在降维能量比集合中每一个降维能量比下的精度损失。

S104：根据最小的精度损失对应的降维能量比计算每一层对应的低秩值。

S105：根据每一层对应的低秩值对神经网络压缩进行压缩，以得到压缩模型。

也就是说，为每一层分配合适的低秩R至关重要。将四维卷积核转化为二维矩阵F，

定义为PCA能量，σ_j为协方差矩阵

的第j大的特征值。PCA能量比定义为

通过一个PCA能量比能计算得到一个确切的低秩rank。定义用户对精度损失的容忍度δ，函数f(M)代表测试模型M的精度。优化目标为：

其中，L为CNN层数，R_l为第l层满足精度限制的最优低秩rank，M_l为只分解第l层得到的模型，

为每一层在精度损失容忍度δ限制下的最优rank。

为了求解R^*并得到相应的压缩模型，本申请包括：

给定基础PCA能量比θb∈(0,1)，令

得到PCA能量比集合θ＝{θb,2θb,…,Tθb}；

从原始训练集中抽样，比如每一类抽样5张图片，使用少量的图片组成TinySet；

对CNN每一层l，使用上步中得到的TinySet测试出它在PCA能量比集合θ中每一个PCA能量比下的精度损失，找出满足精度损失容忍度δ的最小PCA能量比，并求出对应的低秩

根据每层最优低秩R^*，使用低秩分解方法对原CNN进行分解，得到压缩模型。

在本申请的一个实施例中，神经网络压缩方法，还包括：构造局部损失函数和全局损失函数；对所述局部损失函数和全局损失函数进行融合，以得到目标函数；根据所述目标函数对所述压缩模型进行恢复训练。

其中，局部损失函数为：

其中，

是第i个base和tutor block的输出，m_i＝Hⁱ×Wⁱ×Cⁱ。

其中，所述全局损失函数为：

其中，所述目标函数为：

其中，λ_i，(i＝1,2,…,p)是权衡每个local loss的超参数。

具体来说，由于直接将低秩分解应用于多个层而不进行重新训练，导致了每层的近似误差累计过大。通过fine-tune恢复精度，效果不好。本申请中，由student网络、teacher网络和headmaster网络构成，其中，student网络即为RAD压缩后得到的网络，teacher网络为压缩前的原网络，headmaster网络为另一精度更高的网络。本申请在teacher网络中定义base block，以及student网络中定义tutor block。其中，base block被定义为teacher网络中隐藏层的输出，负责指导student网络的学习过程。类似地，tutorblock被定义为student网络中的块，负责从teacher的base block学习中间层知识。进一步引入headmaster网络将其泛化能力迁移到学生网络。

其中，损失函数由以下三步骤构成：

学习local knowledge。首先使用Euclidean distance构造一个local损失函数，旨在对齐student和teacher网络的中间输出，有助于克服梯度消失的问题。将整个网络划分为p个block，第i个block之间的local损失函数为：

其中，

是第i个base和tutor block的输出。m_i＝Hⁱ×Wⁱ×Cⁱ。

学习global knowledge。定义q_s，q_t和q_h分别为student、teacher和headmaster网络的“softmax”输出。然后使用温度超参数τ[7]来软化q_s，q_t和q_h，分别得到软化后的概率分布为

和

因此，global损失函数为：

其中G是交叉熵损失函数，λ和μ是权衡各项比例的超参数，label是真实标签。

融合knowledge。将上述的local knowledge和global knowledge融合，形成SchoolNet的优化目标函数：

其中，λ_i,(i＝1,2,…,p)是权衡各个local loss的超参数。

根据本申请的神经网络压缩方法，通过上述的损失函数，联合teacher网络和headmaster网络对student网络进行恢复训练，有效恢复压缩后模型的精度，提升恢复后的精度。

图4是根据本申请一个实施例的神经网络压缩系统的结构框图。如图4所示，根据本申请一个实施例的神经网络压缩系统400，包括：压缩模块410，用于根据预设的初始降维能量比得到降维能量比集合，并从原始训练集中进行抽样，以根据抽样数据得到抽样集，以及根据所述抽样集对神经网络模型中的每一层进行测试，以确定在所述降维能量比集合中每一个降维能量比下的精度损失，并根据最小的精度损失对应的降维能量比计算每一层对应的低秩值，以及根据所述每一层对应的低秩值对所述神经网络压缩进行压缩，以得到压缩模型。

结合图4所示，在本申请的一个实施例中，还包括：精度恢复模块420，用于构造局部损失函数和全局损失函数，并对所述局部损失函数和全局损失函数进行融合，以得到目标函数，以及根据所述目标函数对所述压缩模型进行恢复训练。

在本申请的一个实施例中，所述局部损失函数为：

其中，

是第i个base和tutor block的输出，m_i＝Hⁱ×Wⁱ×Cⁱ。

在本申请的一个实施例中，所述全局损失函数为：

在本申请的一个实施例中，所述目标函数为：

其中，λ_i，(i＝1,2,…,p)是权衡每个local loss的超参数。

本申请的神经网络压缩系统，对神经网络每一层进行压缩敏感度预检测，然后根据敏感度为每一层分配合适的低秩rank，最后进行低秩分解得到压缩模型，具有分配效率高且分配合理的优点，避免压缩后精度的过多下降，此外，通过上述的损失函数，联合teacher网络和headmaster网络对student网络进行恢复训练，有效恢复压缩后模型的精度，提升恢复后的精度。

需要说明的是，本申请实施例的神经网络压缩系统的具体实现方式与本申请实施例的神经网络压缩方法的具体实现方式类似，具体请参见方法部分的描述，此处不做赘述。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施例，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

Claims

1.一种适用于资源受限的设备的神经网络压缩方法，其特征在于，包括：

根据预设的初始降维能量比得到降维能量比集合；

从原始训练集中进行抽样，以根据抽样数据得到抽样集；

根据所述抽样集对神经网络模型中的每一层进行测试，以确定在所述降维能量比集合中每一个降维能量比下的精度损失；

根据最小的精度损失对应的降维能量比计算每一层对应的低秩值；

根据所述每一层对应的低秩值对所述神经网络进行压缩，以得到压缩模型，并将得到的模型部署到资源受限设备上。

2.根据权利要求1所述的神经网络压缩方法，其特征在于，还包括：

构造局部损失函数和全局损失函数；

对所述局部损失函数和全局损失函数进行融合，以得到目标函数；

根据所述目标函数对所述压缩模型进行恢复训练。

3.根据权利要求2所述的神经网络压缩方法，其特征在于，所述局部损失函数为：

其中，

是第i个base和tutor block的输出，m_i＝Hⁱ×Wⁱ×Cⁱ，base block被定义为teacher网络中隐藏层的输出，tutor block被定义为student网络中的块。

4.根据权利要求3所述的神经网络压缩方法，其特征在于，所述全局损失函数为：

其中，G是交叉熵损失函数，λ和μ是权衡各项比例的超参数，label是真实标签，q_s，q_t和q_h分别为student、teacher和headmaster网络的softmax输出。

5.根据权利要求4所述的神经网络压缩方法，其特征在于，所述目标函数为：

其中，λ_i，(i＝1,2,…,p)是权衡每个local loss的超参数。

6.一种适用于资源受限的设备的神经网络压缩系统，其特征在于，包括：

压缩模块，用于根据预设的初始降维能量比得到降维能量比集合，并从原始训练集中进行抽样，以根据抽样数据得到抽样集，以及根据所述抽样集对神经网络模型中的每一层进行测试，以确定在所述降维能量比集合中每一个降维能量比下的精度损失，并根据最小的精度损失对应的降维能量比计算每一层对应的低秩值，以及根据所述每一层对应的低秩值对所述神经网络进行压缩，以得到压缩模型，并将得到的模型部署到资源受限设备上。

7.根据权利要求6所述的神经网络压缩系统，其特征在于，还包括：

精度恢复模块，用于构造局部损失函数和全局损失函数，并对所述局部损失函数和全局损失函数进行融合，以得到目标函数，以及根据所述目标函数对所述压缩模型进行恢复训练。

8.根据权利要求7所述的神经网络压缩系统，其特征在于，所述局部损失函数为：

其中，

9.根据权利要求8所述的神经网络压缩系统，其特征在于，所述全局损失函数为：

10.根据权利要求9所述的神经网络压缩系统，其特征在于，所述目标函数为：

其中，λ_i，(i＝1,2,…,p)是权衡每个local loss的超参数。