CN110210618A

CN110210618A - 动态修剪深度神经网络权重和权重共享的压缩方法

Info

Publication number: CN110210618A
Application number: CN201910427397.5A
Authority: CN
Inventors: 裴文江; 徐国现; 夏亦犁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-06

Abstract

本发明提出一种动态修剪深度神经网络权重和权重共享的压缩方法，它在非结构化剪枝的基础上，在保证精度稳定的情况下进一步降低深度神经网络模型的参数冗余。本发明先对深度神经网络模型进行动态修剪操作，主要分为剪枝和剪接两个部分，剪接可以最大程度保留网络中重要的权重连接，避免修剪过程中存在的误操作，另外为了提高模型修剪后的精度，在修剪过程中加入L1正则化；然后对修剪后的网络进一步K‑Means量化，使得权重共享。本发明提出的压缩方法，可以保证模型的精度没有损失的情况下，大大减少深度神经网络中的冗余参数，降低模型的存储内存。本发明在基于ImageNet数据集的AlexNet网络上进行本压缩方法实验，将原始网络压缩了52倍，并且没有造成精度的损失。

Description

动态修剪深度神经网络权重和权重共享的压缩方法

技术领域

本发明涉及计算机视觉与人工智能、多媒体信号处理领域，特别是涉及动态修剪深度神经网络权重和权重共享的压缩方法。

背景技术

近年来，深度神经网络引起广泛关注，普遍应用于图像处理、语音处理、自然语言处理等领域，并取得了优秀成果。深度神经网络高检测精度使其在移动终端有着广泛应用前景。其中卷积神经网络将图像识别的精度提升了一个量级，例如在人脸识别方面超过了人类正常的识别水平。然而，深度神经网络强大的表现能力主要依赖于百万甚至上亿的参数量和GPU的高计算能力。尽管它非常强大，但大量的权重参数会消耗大量的存储空间、内存带宽、计算资源以及能量消耗，即使用GPU进行加速也难以满足移动端的需求，所以在实际应用中仍然受限。进行深度神经网络的压缩可以减少模型的计算资源、加快推理速度、减少能源的消耗和降低成本。目前，针对深度神经网络中的参数冗余问题，研究人员提出了研究人员们相继提出了不同的解决方法。他们对于压缩和加速深度神经网络的工作大致可分为矩阵分解、低精度权重、参数修剪、量化和权重共享。本发明主要基于参数修剪和权重共享方法，目前的参数修剪压缩方法无法在高压缩率的情况下保证模型精度的稳定。为了提高深度神经网络的压缩率，本发明提出了动态修剪深度神经网络权重和权重共享的压缩方法。

其中参数修剪方面主要是基于动态修剪网络方法，它与Han等人提出的迭代剪枝的不同主要表现在以下两个方面：

1)它的整个修剪网络包括两个关键操作：修剪和剪接。修剪操作是为了压缩模型，但过度修剪和不正确修剪会造成精度的损失。剪接操作主要是恢复已经删除的重要连接。

2)剪接操作的加入避免了迭代剪枝中的微调过程，提高了网络的学习效率。

动态修剪不仅可以保证高压缩率的情况下保证模型精度的稳定，还可以减低网络的训练时间。为了进一步降低模型的存储，将修剪后的模型进行K-Means量化，使得权重共享，并且保证模型精度的稳定，从而提出了一种动态修剪深度神经网络权重和权重共享的压缩方法。

发明内容

为了解决以上问题，本发明提供动态修剪深度神经网络权重和权重共享的压缩方法，针对深度神经网络的压缩，算法在满足高压缩率的同时，保证模型对模型的精度不造成损失，这样可以有利于算法的可移植性。本发明在非结构化剪枝的基础上，在保证精度稳定的情况下进一步降低深度神经网络模型的参数冗余，提出一种动态修剪深度神经网络权重和权重共享的压缩方法。本发明先对深度神经网络模型进行动态修剪操作，主要分为剪枝和剪接两个部分，剪接可以最大程度保留网络中重要的权重连接，避免修剪过程中存在的误操作，另外为了提高模型修剪后的精度，在修剪过程中加入L1正则化；然后对修剪后的网络进一步K-Means量化，使得权重共享。本发明提出的压缩方法，可以保证模型的精度没有损失的情况下，大大减少深度神经网络中的冗余参数，降低模型的存储内存。本发明在基于ImageNet数据集的AlexNet网络上进行动态修剪网络权重和权重共享，将原始网络压缩了52倍，并且没有造成精度的损失，为达此目的，本发明提供动态修剪深度神经网络权重和权重共享的压缩方法：

所述的方法包括如下步骤：

(1)将深度神经网络模型进行预训练；

(2)根据权值重要性进行网络修剪和网络剪接；

(3)将修剪和剪接后的模型参数进行一次更新；

(4)迭代层重复步骤(2)和(3)，完成网络的权重修剪操作；

(5)初始化K-Means质心；

(6)确定量化阈值；

(7)微调量化后的网络，完成网络权重共享操作。

作为本发明进一步改进，所述步骤(1)中对深度神经网络模型进行预训练，具体步骤为：

步骤2.1：对于一个特定深度神经网络模型，对选择的数据集上通过常规的训练，学习网络中的参数，保存训练后的模型。

作为本发明进一步改进，所述步骤(2)中根据权值重要性进行网络修剪和网络剪接，具体步骤为：

步骤3.1：通过权值的绝对值来衡量权重的重要性，将步骤2.1训练好的模型进行修剪和剪接，修剪相对较小的幅度的参数，保留或剪接幅度较大的参数，其中设定的阈值对最终的压缩率有着显著的影响，对于某个特定层，基于其连接权重的平均绝对值和方差来设置单个阈值，为了提高动态修剪网络方法的鲁棒性，使用两个阈值a_k和b_k＝a_k+t，其中t是一个偏置项，因此，权重度量函数可以表示为如式1所示，对于超出此范围的权值将度量函数输出设置为T_k中的相对应的值，这意味着这些权值在当前迭代中既不会被修剪也不会被剪接，另外，为了加速网络收敛，一方面使用p＝σ(iter)为修剪和剪枝添加概率因子，其中σ(·)为非单调递增函数并σ(0)＝1，随着网络的迭代次数iter增加，p逐渐减小甚至为0，即网络不再进行修剪和剪接，另一方面将卷积层和全连接层分开进行动态修剪；

作为本发明进一步改进，所述步骤(3)中将修剪和剪接后的模型参数进行一次更新，具体步骤为：

步骤4.1：对于第k层，网络的损失函数L由下式表示

其中W_k表示第k层连接权重矩阵，T_k是二进制矩阵，表示网络的连接状态，即它们是否被修剪，I由W_k中每个元素在矩阵中的索引组成，h_k(·)是判别函数，如果参数w在当前层中是重要的，则h_k(w)＝1，否则h_k(w)＝0，然后根据拉格朗日乘法和梯度下降法，

W_k由下式更新；

其中β为正学习率，公式3中的偏导数可以通过链式求导规则应用随机选择的小批量样本计算，一旦矩阵W_k和T_k被更新，它们将被应用于重新计算整个网络激活和损失函数梯度。

作为本发明进一步改进，所述步骤(4)中迭代重复权利要求3和权利要求4的操作，完成网络的权重修剪操作，具体步骤为：

步骤5.1：在网络的学习过程中需不断维护网络的结构，迭代重复进行网络修剪、剪接和参数更新，得到高精度的稀疏网络模型，对于最终的稀疏网络模型通过CSR形式来存储，用相对位置替代绝对位置存储索引值，偏移量超过最大间隔，通过补零来补齐偏移，另外，为了提高模型修剪后的精度，在模型修剪过程中添加L1正则化，如下式4

所示；

其中L是正则化后的损失函数，L₀是原始的损失函数，λ表示正则化因子。

作为本发明进一步改进，所述步骤(5)中初始化K-Means质心，具体步骤为：

步骤6.1：将步骤5.1修剪后得到的稳定的网络模型中的权值通过线性初始化，在权值最大值和最小值之间均匀量化输出，如公式5所示，其中n为量化的位数，

作为本发明进一步改进，所述步骤(6)中确定量化阈值，具体步骤为：

步骤7.1：使用一维K-Means确定每一个权值w_ij的量化输出值c_k，同一个簇内的权值共享同一个质心值，其中某个权值一旦确定了使用量化输出c_k的值量化，选择关系不再发生改变。

作为本发明进一步改进，所述步骤(7)中微调量化后的网络，完成网络权重共享操作，具体步骤为：

步骤8.1：计算正常的前向传播和反向传播，另外由于网络进行剪枝后，权值矩阵已经变为稀疏矩阵，权值矩阵中为0的值表示该连接已经被移除，因此这些位置的值置0，微调的对象为簇类质心即量化后的输出；

步骤8.2：上一步完成后，每一个权值相应的簇已经确定，聚类索引和聚类质心也被保存下来，当生成梯度矩阵后，微调簇类质心，微调的方式是对属于同一簇内的所有权值对应的梯度求和，乘以学习率，再从质心中减去，如下公式6所示；

其中为第n次微调后的结果，lr为学习率，c_k为聚类属于k簇的所有权值构成的集合，grad(w)表示权值w对应的梯度，微调过程中的初值为K-Means输出的聚类质心，完成量化后，原来的稀疏矩阵变为一个稀疏矩阵和一个查找权重表，权重查找表为每个连接存储共享权重表的索引，原来稀疏矩阵存储权值w的位置变成存储w所属簇编号k，k的位数小于权值w的位数，达到了压缩的目的，查找表索引为簇编号，值为该簇的聚类质心c_k，还原一个矩阵的过程变成首先从稀疏矩阵中找到对应的簇编号，再从查找表中查找该类对应的值；

至此便完成了动态修剪深度神经网络权重和权重共享的压缩方法。

作为本发明进一步改进，所述ImageNet数据集是ILSVRC挑战的大规模数据集，训练数据集总共包含1000个类别和120万个图像，验证数据集包含50000个图像，其中每个类50个图像，使用Top-1和Top-5准确度报告分类性能，Top-1精度测量正确标记图像的比例，如果概率最大的五个标签中的一个是正确的标签，则该图像被认为具有Top-5精度的正确标签。

作为本发明进一步改进，所建立模型的实验平台如下：Ubuntu 14系统，采用3个GeForce GTX 108显卡，采用Caffe框架来进行网络压缩和测试，在AlexNet网络上基于ImageNet数据集进行图片分类测试压缩性能，其中AlexNet网络的量化过程将卷积层量化为8bit，全连接层量化为5bit，网络的预训练过程没有进行，直接采用官方已训练好的网络模型，在网络修剪过程中初始学习率设置为0.001，lr_policy为exp，gamma为0.99993，训练中网络的动量设置为0.9，权重衰减设置为0.0005，小批次的大小设置为32。

有益效果：本发明先对深度神经网络模型进行动态修剪操作，主要分为剪枝和剪接两个部分，剪接可以最大程度保留网络中重要的权重连接，避免修剪过程中存在的误操作，另外为了提高模型修剪后的精度，在修剪过程中加入L1正则化；然后对修剪后的网络进一步K-Means量化，使得权重共享。本发明提出的压缩方法，可以保证模型的精度没有损失的情况下，大大减少深度神经网络中的冗余参数，降低模型的存储内存。本发明在基于ImageNet数据集的AlexNet网络上进行动态修剪网络权重和权重共享，将原始网络压缩了52倍，并且没有造成精度的损失。

附图说明

图1为动态修剪深度神经网络权重和权重共享的压缩方法整体流程。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供动态修剪深度神经网络权重和权重共享的压缩方法，本发明在非结构化剪枝的基础上，在保证精度稳定的情况下进一步降低深度神经网络模型的参数冗余，本发明先对深度神经网络模型进行动态修剪操作，主要分为剪枝和剪接两个部分，剪接可以最大程度保留网络中重要的权重连接，避免修剪过程中存在的误操作，另外为了提高模型修剪后的精度，在修剪过程中加入L1正则化；然后对修剪后的网络进一步K-Means量化，使得权重共享。本发明提出的压缩方法，可以保证模型的精度没有损失的情况下，大大减少深度神经网络中的冗余参数，降低模型的存储内存。本发明在基于ImageNet数据集的AlexNet网络上进行动态修剪网络权重和权重共享，将原始网络压缩了52倍，并且没有造成精度的损失。

下面以AlexNet网络基于公开数据集ImageNet为例，结合附图对本发明一种动态修剪深度神经网络权重和权重共享的压缩方法的具体实施方式作进一步详细说明，整体流程说明书附图1所示。

步骤1：直接采用官方已训练好的预训练模型，在验证集上测试模型初始图片分类TOP-1和TOP-5准确率。

步骤2：将步骤1中的预训练模型进行根据权值重要性进行权重修剪和剪接，修剪过程主要移除重要性低的权重，剪接过程主要恢复被误操作修剪的权重。其中卷积层和全连接层分别进行操作。

步骤3：根据拉格朗日乘法和梯度下降法将修剪和剪接后的模型参数进行一次更新。

步骤4：迭代重复进行网络修剪、剪接和参数更新，得到高精度的稀疏网络模型，保存最终收敛的稀疏网络模型。对于最终的稀疏网络模型通过CSR形式来存储，用相对位置替代绝对位置存储索引值，偏移量超过最大间隔，通过补零来补齐偏移，相对稀疏索引用4bit存储。另外，为了提高模型修剪后的精度，在模型修剪过程中添加L1正则化。

步骤5：将步骤4修剪后得到的稳定的AlexNet网络模型中的权值通过线性初始化，在权值最大值和最小值之间均匀量化输出。

步骤6：使用一维K-Means确定每一个权值量化输出值，同一个簇内的权值共享同一个质心值，在后续的选择关系中始终唯一。其中卷积层量化为8bit，全连接层量化为5bit。

步骤7：通过ImageNet数据集中的训练集根据梯度下降法对量化后的网络进行微调来恢复网络精度。

步骤8：通过ImageNet数据集中的验证集测试压缩后网络对图片分类的TOP-1和TOP-5预测精度。在数据集ImageNet上的测试结果如说明书表1所示。

本发明中模型训练的超参数为：

表1 AlexNet模型基于ImageNet数据集测试结果

表2 AlexNet模型基于ImageNet数据集压缩前后各层的参数分布

至此完成了AlexNet模型基于ImageNet数据集的网络压缩和图片分类测试。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：

所述的方法包括如下步骤：

(1)将深度神经网络模型进行预训练；

(2)根据权值重要性进行网络修剪和网络剪接；

(3)将修剪和剪接后的模型参数进行一次更新；

(4)迭代层重复步骤(2)和(3)，完成网络的权重修剪操作；

(5)初始化K-Means质心；

(6)确定量化阈值；

(7)微调量化后的网络，完成网络权重共享操作。

2.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(1)中对深度神经网络模型进行预训练，具体步骤为：

3.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(2)中根据权值重要性进行网络修剪和网络剪接，具体步骤为：

4.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(3)中将修剪和剪接后的模型参数进行一次更新，具体步骤为：

步骤4.1：对于第k层，网络的损失函数L由下式表示

其中W_k表示第k层连接权重矩阵，T_k是二进制矩阵，表示网络的连接状态，即它们是否被修剪，I由W_k中每个元素在矩阵中的索引组成，h_k(·)是判别函数，如果参数w在当前层中是重要的，则h_k(w)＝1，否则h_k(w)＝0，然后根据拉格朗日乘法和梯度下降法，W_k由下式更新；

5.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(4)中迭代重复权利要求3和权利要求4的操作，完成网络的权重修剪操作，具体步骤为：

步骤5.1：在网络的学习过程中需不断维护网络的结构，迭代重复进行网络修剪、剪接和参数更新，得到高精度的稀疏网络模型，对于最终的稀疏网络模型通过CSR形式来存储，用相对位置替代绝对位置存储索引值，偏移量超过最大间隔，通过补零来补齐偏移，另外，为了提高模型修剪后的精度，在模型修剪过程中添加L1正则化，如下式4所示；

6.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(5)中初始化K-Means质心，具体步骤为：

7.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(6)中确定量化阈值，具体步骤为：

8.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述步骤(7)中微调量化后的网络，完成网络权重共享操作，具体步骤为：

9.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所述ImageNet数据集是ILSVRC挑战的大规模数据集，训练数据集总共包含1000个类别和120万个图像，验证数据集包含50000个图像，其中每个类50个图像，使用Top-1和Top-5准确度报告分类性能，Top-1精度测量正确标记图像的比例，如果概率最大的五个标签中的一个是正确的标签，则该图像被认为具有Top-5精度的正确标签。

10.根据权利要求1所述的动态修剪深度神经网络权重和权重共享的压缩方法，其特征在于：所建立模型的实验平台如下：Ubuntu 14系统，采用3个GeForce GTX 108显卡，采用Caffe框架来进行网络压缩和测试，在AlexNet网络上基于ImageNet数据集进行图片分类测试压缩性能，其中AlexNet网络的量化过程将卷积层量化为8bit，全连接层量化为5bit，网络的预训练过程没有进行，直接采用官方已训练好的网络模型，在网络修剪过程中初始学习率设置为0.001，lr_policy为exp，gamma为0.99993，训练中网络的动量设置为0.9，权重衰减设置为0.0005，小批次的大小设置为32。