CN110428045A

CN110428045A - 基于Tucker算法的深度卷积神经网络压缩方法

Info

Publication number: CN110428045A
Application number: CN201910738065.9A
Authority: CN
Inventors: 袁国慧; 贺晨; 王卓然; 彭真明; 曲超; 范文澜; 赵浩浩; 张鹏年; 赵学功; 王慧; 何艳敏; 蒲恬; 周宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-11-08

Abstract

本发明涉及基于Tucker算法的深度卷积神经网络压缩方法，包括：A.获得深度卷积神经网络模型；B.使用EVBMF算法依次估计所述深度卷积神经网络模型中每一个隐藏层参数的分解秩；C.根据深度卷积神经网络模型中隐藏层的参数张量和对应的分解秩，通过Tucker算法依次分解每一个参数张量，产生多个低秩子张量；D.通过所述的低秩子张量生成新的隐藏层，并将深度卷积神经网络模型中原有的隐藏层替换为所述新的隐藏层，生成新的深度卷积神经网络模型。本发明基于Tucker算法的深度卷积神经网络压缩方法，能够大幅度提高压缩倍数，并且有效减少了压缩时间和系统开销。

Description

基于Tucker算法的深度卷积神经网络压缩方法

技术领域

本发明涉及深度神经网络技术领域，具体讲是基于Tucker算法的深度卷积神经网络压缩方法。

背景技术

近年来，以卷积神经网络为代表的深度学习技术在自然语言处理、自动驾驶、目标跟踪等领域取得了显著的成果。得益于信息时代中容易获得的数据集和计算性能不断提升的图像处理器(GPU)，深度学习技术实现了超越传统计算机视觉技术的性能。为了能在现有数据中学习到更具泛化性的特征，卷积神经网络被设计得越来越复杂，网络的模型层数、参数数量、占用内存和硬盘储存等也随之增加。所以深度学习的实施难以离开高性能设备。

另一方面，深度学习所具有的强大性能导致各个领域对实际部署神经网络的需求越来越大。例如移动互联网领域中将神经网络移植到手机、穿戴设备、嵌入式系统等低性能设备上。这些设备的计算性能和内存空间都远远不及高性能设备，导致卷积神经网络难以发挥出理论上的性能。所以卷积神经网络的实际部署需要一种高效的加速和压缩方法来降低计算和储存开销。

在开发阶段，卷积神经网络经常被设计得过参数化，这样可以促进网络的训练能收敛到更合适的参数。但是在卷积神经网络训练完成后，大部分参数对最终结果的贡献都很小，所以存在冗余。另一方面，当一个执行复杂任务的卷积神经网络被微调到简单任务时，也会使大量参数失去原有作用。这些方面都表明卷积神经网络是一种计算效率较低的结构，所以在训练好的卷积神经网络中存在极大的可压缩的参数。

卷积神经网络的压缩通常着眼于减少参数量和计算次数。目前常用的压缩方法有以下几种：

逐层压缩：矩阵分解、张量分解、权值共享、稀疏连接等；

模型整体压缩：知识蒸馏、模仿学习等；

序列化：稀疏矩阵、霍夫曼编码等。

其中的张量分解的使用量最多，因为它只需要卷积神经网络本身，而其他方法均需要数据集的支持。此外张量分解专门针对卷积神经网络的过参数化的特性，其基本思想是使用一系列低质子张量来近似原本的巨大的张量。这意味着张量分解可以很好的处理VGG模型(一种图像处理模型)这种明显过参数化的网络，特别是将其微调到简单任务的情况。

目前已有的张量分解流程包括以下思路：

迭代式Tucker分解(一种高阶的主成分分析方法，它将一个张量表示成一个核心(core)张量沿每一个mode乘上一个矩阵)：从卷积神经网络的底部输入层开始，逐层地使用Tucker分解隐藏层。每次分解后都要微调网络整体参数。这种方法可以有效地压缩每一个隐藏层，但是将压缩方法变成了一种反复试错的操作，导致实际计算十分繁琐。并且在每次微调后，卷积神经网络整体的参数都发生了改变，这将影响后续层的分解效果。

端对端式CP分解：首先使用CP分解所有隐藏层，然后只进行一次网络参数的微调。这种方法可以最大限度利用卷积神经网络本身的参数，不会被反复的微调所影响。实际运算中，CP分解会分解隐藏层的所有维度。而隐藏层的卷积核的部分典型尺寸为3×3，所以这个维度的分解难以压缩大量参数，并且计算量十分巨大。

发明内容

本发明提供了一种基于Tucker算法的深度卷积神经网络压缩方法，以实现更高的压缩倍数，以及提升压缩速度。

本发明基于Tucker算法的深度卷积神经网络压缩方法，包括：

A.获得深度卷积神经网络模型，例如可以为AlexNet、VGG或ResNet等深度卷积神经网络模型；

B.使用EVBMF算法(经验变分贝叶斯矩阵分解，Empirical Variational BayesMatrix Factorization)依次估计所述深度卷积神经网络模型中每一个隐藏层参数的分解秩；

C.根据深度卷积神经网络模型中隐藏层的参数张量和对应的分解秩，通过Tucker算法依次分解每一个参数张量，产生多个低秩子张量；

D.通过所述的低秩子张量生成新的隐藏层，并将深度卷积神经网络模型中原有的隐藏层替换为所述新的隐藏层，生成新的深度卷积神经网络模型。

本发明的方法是以端对端的思想处理整个卷积神经网络，从而避免了传统迭代式分解中卷积神经网络参数会改变的问题，同时利用了Tucker算法可以处理特定维度的特性，避免了分解隐藏层的卷积核的问题。本发明的方法与现有的加速和压缩方法相比，能够有效地保留原始张量中的有效成分，去除噪声成分，所以在保持网络性能的情况下，网络的参数量具有更大的压缩倍数，因此最终能够获得更高的压缩倍数。

具体的，步骤B包括：

B1.依次遍历深度卷积神经网络模型的每一个卷积层，提取出每个卷积层的核参数K∈R^D×D×S×T和偏置参数B∈R^T，表示了核参数K是一个4维的张量，每一维的大小分别为D、D、S、T，其中R表示拓扑空间，D表示核维度，S表示输入维度，T表示输出维度，则对于输入张量X∈R^H×W×S，则卷积层的输出张量Y为：

其中，输出张量Y∈R^H'×W'×T，H和W分别为输入张量X在空域中的长和宽，H'＝H-D+1，W'＝W-D+1，δ为一半的核维度，δ＝(D-1)/2，i、j、s和t分别为计算时的中间变量，并且s∈S，t∈T，x和y分别为输出张量Y的空间坐标的中间变量，并且x∈H'，y∈W'；通过x、y和t依次在[1,H']、[1,W']和[1,T]中循环，计算得到当前的输出张量Y(x,y,t)。

B2.所述核参数K按照输入维度S和输出维度T张开为矩阵K₁∈R^(D×D×T)×S和矩阵K₂∈R^(D×D×S)×T，通过EVBMF算法估计矩阵K₁和矩阵K₂分别对应的分解秩R₃和R₄；

B3.在全连接层中核参数K∈R^S×T，输入张量X∈R^S，则全连接层的输出张量Y为：

其中，输出张量Y∈R^S。

具体的，步骤C中所述通过Tucker算法依次分解每一个参数张量为：

C1.通过(式3)依次分解每一个卷积层的核参数K：

在通过(式3)生成的多个低秩子张量中，r₃和r₄分别为计算时的中间变量，R₃和R₄分别对应为所述矩阵K₁和矩阵K₂的分解秩，r₃∈R₃，r₄∈R₄，卷积层的核张量第一因子矩阵第二因子矩阵

C2.将全连接层看作是核参数K∈R^S×T的卷积层，通过Tucker算法分解核参数K为：

其中全连接层的核张量

具体的，步骤D包括：

D1.依次遍历深度卷积神经网络模型的每个卷积层，并结合(式1)和(式3)，将原有的卷积层替换为(式5)至(式7)的3个新生成的卷积层的叠加：

其中，中间结果Z∈R^H×W×T，中间结果Z'∈R^H'×W'×T，(式6)表示常规卷积，其卷积核参数取自Tucker算法分解得到的所述卷积层的核张量C'；(式5)和(式7)均表示卷积核为1×1的卷积运算，其卷积核参数取自Tucker算法分解得到的第一因子矩阵U⁽³⁾和第二因子矩阵U⁽⁴⁾；

D2.将全连接层看作是核参数K∈R^S×T的卷积层，结合(式2)和(式4)，将原有的全连接层替换为(式8)和(式9)2个新生成的全连接层的叠加：

其中，中间结果(式8)和(式7)的核参数取自Tucker算法分解得到的低秩子张量C'U⁽³⁾和第二因子矩阵U⁽⁴⁾；

D3.所有卷积层和全连接层都被替换后，得到新的深度卷积神经网络模型。

进一步的，步骤D之后再执行步骤E：使用深度卷积神经网络模型的原始训练数据对步骤D生成的新的深度卷积神经网络模型的参数进行微调。

具体的，步骤E包括：

E1.分别加载新的深度卷积神经网络模型和原始深度卷积神经网络模型的训练数据；

E2.使用自适应动量估计(Adaptive Moment Estimation，Adam)优化器以分类交叉熵为损失函数进行参数的优化；其中，分类交叉熵L的计算为：

其中，M表示数据样本o的类别总数，c表示数据样本o的类别，y_(o,c)表示数据样本o是否归为类别c，p_(o,c)表示数据样本o归为类别c的预测概率。

优选的，所述的深度卷积神经网络模型为至少包括一层卷积层和/或一层全连接层的神经模型。

同时，还对本发明方法的实际复杂度进行了如下分析：原始深度卷积网络中的一层卷积层的参数量为D²ST，对应D²STW’H’次乘-加运算。而分解后的三层小卷积层的参数量为SR₃+D²R₃R₄+TR₄，对应SR₃HW+D²STW’H’+TR₄W’H’次乘-加运算。同理，对于全连接层，一层全连接层的参数量为ST，对应ST次乘-加运算。而分解后的二层全连接层的参数量为SR₃+TR₄，对应SR₃+TR₄次乘-加运算。以上隐藏层的压缩率可以简化为ST/R₃R₄。在EVBMF算法估计出合适的R₃和R₄时，深度卷积网络的参数量和计算次数都能够得到大幅度的降低，因此能够显著的减低存储、内存开销和计算开销。

综上所述，本发明基于Tucker算法的深度卷积神经网络压缩方法，能够大幅度提高压缩倍数，并且有效减少了压缩时间和系统开销。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明基于Tucker算法的深度卷积神经网络压缩方法的流程图。

图2为实施例采用的原始深度卷积神经网络模型结构示意图。

图3为图2的深度卷积神经网络模型的一层隐藏层的张量的分解结果。

图4为对图2的深度卷积神经网络模型的用低秩子张量重构隐藏层的示意图。

具体实施方式

如图1所示本发明基于Tucker算法的深度卷积神经网络压缩方法，包括：

A.获得深度卷积神经网络模型，所述的深度卷积神经网络模型可以为AlexNet、VGG或ResNet等深度卷积神经网络模型，本实施例中采用ResNet深度卷积神经网络模型，如图2所示，在ResNet深度卷积神经网络模型中包括有卷积层和全连接层。

B.使用EVBMF算法(经验变分贝叶斯矩阵分解，Empirical Variational BayesMatrix Factorization)依次估计所述深度卷积神经网络模型中每一个隐藏层参数的分解秩，具体为：

B1.依次遍历深度卷积神经网络模型的每一个卷积层，提取出每个卷积层的核参数K∈R^D×D×S×T和偏置参数B∈R^T，其中R表示拓扑空间，D表示核维度，S表示输入维度，T表示输出维度，则对于输入张量X∈R^H×W×S，则卷积层的输出张量Y为：

其中，输出张量Y∈R^S。

C.根据深度卷积神经网络模型中隐藏层的参数张量和对应的分解秩，通过Tucker算法依次分解每一个参数张量，产生多个低秩子张量：

C1.通过(式3)依次分解每一个卷积层的核参数K，分解的示意如图3所示：

其中全连接层的核张量

D.通过所述的低秩子张量生成新的隐藏层，并将深度卷积神经网络模型中原有的隐藏层替换为所述新的隐藏层，生成新的深度卷积神经网络模型，具体为：

D1.依次遍历深度卷积神经网络模型的每个卷积层，并结合(式1)和(式3)，将原有的卷积层替换为(式5)至(式7)的3个新生成的卷积层的叠加，如图4所示：

E.使用深度卷积神经网络模型的原始训练数据对步骤D生成的新的深度卷积神经网络模型的参数进行微调：

E2.使用自适应动量估计(Adaptive Moment Estimation，Adam)优化器以分类交叉熵L为损失函数进行参数的优化；其中，分类交叉熵的计算为：

通过使用Tucker算法将所有隐藏层的张量参数分解为多个低秩子张量的叠加，用参数较少的低秩子张量来逼近原始张量，从而实现了深度卷积网络的加速和压缩。并且通过端对端的思想来处理整个卷积神经网络，从而避免了现有迭代式分解中卷积神经网络参数会改变的问题，同时还利用了Tucker算法可以处理特定维度的特性，避免了分解隐藏层的卷积核的问题，能够有效地保留原始张量中的有效成分，去除噪声成分，所以在保持网络性能的情况下，网络的参数量有更大的压缩倍数，能够最终获得更高的压缩倍数。

以下验证本发明方法的网络性能和压缩率。从复杂的ImageNet竞赛的1000类图像分类任务迁移到简单的白内障的2分类图像分类任务，存在双重过参数化的问题。具体测试了SPPH_Cataracts数据集。SPPH_Cataracts数据集是一个包含5473个眼科白内障病患样本的数据集，该数据集可以被应用于检测机器学习算法的性能。

表1：

网络模型	参数量/兆	运行时间/毫秒	分类精度(％)	压缩率
					原始网络	23	2078	95.5	1
本发明	5	1761	95.3	4.6

通过表1可知，经过本发明的方法进行处理后，新的ResNet深度卷积神经网络的参数量压缩到5兆字节，运行时间减到1761毫秒，而分类精度仅值下降了0.2％。以上结果都表明，本发明的方法能够在保持深度卷积神经网络性能的情况下，实现网络的高效加速和压缩。

Claims

1.基于Tucker算法的深度卷积神经网络压缩方法，其特征包括：

A.获得深度卷积神经网络模型；

B.使用EVBMF算法依次估计所述深度卷积神经网络模型中每一个隐藏层参数的分解秩；

2.如权利要求1所述的基于Tucker算法的深度卷积神经网络压缩方法，其特征为：步骤B包括：

其中，输出张量Y∈R^H'×W'×T，H和W分别为输入张量X在空域中的长和宽，H'＝H-D+1，W'＝W-D+1，δ为一半的核维度，δ＝(D-1)/2，i、j、s和t分别为计算时的中间变量，并且s∈S，t∈T，x和y分别为输出张量Y的空间坐标的中间变量，并且x∈H'，y∈W'；

B2.将所述核参数K按照输入维度S和输出维度T张开为矩阵K₁∈R^(D×D×T)×S和矩阵K₂∈R^(D ^×D×S)×T，通过EVBMF算法估计矩阵K₁和矩阵K₂分别对应的分解秩R₃和R₄；

其中，输出张量Y∈R^S。

3.如权利要求2所述的基于Tucker算法的深度卷积神经网络压缩方法，其特征为：步骤C中所述通过Tucker算法依次分解每一个参数张量为：

C1.通过(式3)依次分解每一个卷积层的核参数K：

其中全连接层的核张量

4.如权利要求3所述的基于Tucker算法的深度卷积神经网络压缩方法，其特征为：步骤D包括：

5.如权利要求1所述的基于Tucker算法的深度卷积神经网络压缩方法，其特征为：步骤D之后再执行步骤E：使用深度卷积神经网络模型的原始训练数据对步骤D生成的新的深度卷积神经网络模型的参数进行微调。

6.如权利要求5所述的基于Tucker算法的深度卷积神经网络压缩方法，其特征为：步骤E包括：

E2.使用自适应动量估计优化器以分类交叉熵为损失函数进行参数的优化；其中，分类交叉熵L的计算为：

7.如权利要求1至6之一所述的基于Tucker算法的深度卷积神经网络压缩方法，其特征为：所述的深度卷积神经网络模型为至少包括一层卷积层和/或一层全连接层的神经模型。