CN112132062B

CN112132062B - 一种基于剪枝压缩神经网络的遥感图像分类方法

Info

Publication number: CN112132062B
Application number: CN202011021851.6A
Authority: CN
Inventors: 彭剑; 李海峰; 黄浩哲; 陈力; 崔振琦
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-06-29
Anticipated expiration: 2040-09-25
Also published as: AU2021102597A4; CN112132062A

Abstract

本发明公开了一种基于剪枝压缩神经网络的遥感图像分类方法，包括：对遥感图像识别问题训练一个初始的神经网络模型，将所述模型作为待剪枝的初始模型；利用初始模型学习到的输出函数

对参数微小改变的敏感性来逐层计算模型中参数的敏感性矩阵

；对参数的敏感性矩阵

的值进行排序，修剪掉不重要的参数；重新训练未被剪枝的剩余权重；当一层修剪完成之后，对下一层的修剪过程重复步骤即可；使用修剪完成后的神经网络模型对遥感图像进行分类。本发明方法提供了一种更加精确、实用、可靠的方法来计算模型中各参数的重要程度，从而将那些不重要的参数进行剔除，最终获得一个满意的压缩比例，用于更高效地进行遥感图像分类识别。

Description

一种基于剪枝压缩神经网络的遥感图像分类方法

技术领域

本发明涉及遥感图像处理与识别技术领域，尤其涉及一种基于剪枝压缩神经网络的遥感图像分类方法。

背景技术

近年来，深度神经网络在遥感目标识别、遥感图像分类等领域取得了重大突破，然而，尽管深度学习模型的性能十分强大，但现有的深度学习模型参数量巨大，网络结构十分复杂，因此，会带来计算和存储两方面的困难，难以部署到那些内存和计算资源有限的移动设备或者嵌入式设备上。研究表明深度学习模型存在严重的过参数化问题，并不是所有的参数都在模型中发挥作用，部分参数作用有限、表达冗余，甚至会降低模型的性能，而这些参数对于模型的推理只能起到很小的作用或者不起作用。因此，如何对深度学习模型的参数进行压缩，减小模型的参数量，加快模型的推理速度，在资源受限的条件下将深度学习模型部署到移动设备或者嵌入式设备上，增强深度学习模型的实用性成为一项重要的研究内容，具有深远的意义和价值。

为了解决深度学习模型中存在的模型参数量巨大、计算复杂度高的问题，过去的一些研究主要集中于寻找模型中重要的参数或者结构，通过将重要的参数或者结构保留下来，剔除那些不重要的参数或者结构来达到模型压缩的目的。当前主流的模型压缩方法包括：1）模型剪枝；2）权重量化；3）设计轻量化模型结构；4）知识蒸馏；5）低秩矩阵分解等，其中，寻找模型中的重要结构的方法本质上属于粗粒度的压缩方法，相比于寻找重要的参数的方法来说，在压缩倍数上往往较低，而当前基于重要参数对模型进行压缩的方法在计算参数重要性上准确性很低，从而影响了模型最终的压缩效果。因此，为了更大程度的对模型的参数量进行压缩，需要一种更加精确、实用、可靠、有效的方法来计算模型中各参数的重要程度，从而将那些不重要的参数进行剔除，最终获得一个满意的压缩比例，用于更高效地进行遥感图像分类识别。

发明内容

有鉴于此，本发明的目的在于提供一种基于剪枝压缩神经网络的遥感图像分类方法，所述方法能够有效解决深度神经网络模型在对遥感图像分类的过程中参数量巨大、计算复杂度高的问题，使得经过剪枝压缩的神经网络模型能够更高效地实现遥感图像的分类。

本发明的目的是这样实现的，一种基于剪枝压缩神经网络的遥感图像分类方法，包括以下步骤：

步骤1，对遥感图像分类问题训练一个初始的神经网络模型，训练完成后保存所述模型，将所述模型作为待剪枝的初始模型；

步骤2，利用初始模型学习到的输出函数

，对模型输出的敏感性大的参数就是重要的参数，反之则为不重要的参数，其中

表示模型的输入，

表示模型的参数；

步骤3，对参数的敏感性矩阵

的值进行排序，设置阈值，生成对应的掩膜矩阵，该掩膜矩阵是由0，1构成，参数的敏感性矩阵

中小于该阈值的参数对应位置的掩膜矩阵的值设置为0，表示该参数不重要会被修剪，参数的敏感性矩阵

中大于该阈值的参数对应位置的掩膜矩阵的值设置为1，表示会保留该参数，将掩膜矩阵与模型参数进行乘法运算，从而修剪掉不重要的参数；

步骤4，重新训练未被剪枝的剩余权重，以补偿剪枝带来的精度下降，已经修剪掉的权重对应的梯度在反向传播中也应置为0，即保证修剪掉的权重在重新训练的过程中不会再更新；

步骤5，当一层修剪完成之后，对下一层的修剪过程重复步骤2、步骤3和步骤4即可；

步骤6，使用所有层修剪完成后的神经网络模型对遥感图像进行分类。

具体地，步骤2中所述的逐层计算模型中参数的敏感性矩阵

，包括以下步骤：

对于给定的样本

，模型的输出记为

，将参数的微小改变量

对模型最终的输出

的改变进行二阶泰勒展开：

（1）

其中，

为输出函数

在样本

上对参数

的梯度，H为Hessian矩阵，代表输出函数

在样本

上参数

的二阶偏导数；

利用对角Fisher信息矩阵来近似的逼近Hessian矩阵，对于多分类问题，使用输出函数

的l2范数的平方对参数的梯度来代替计算参数敏感性，通过一次反向传播就可以计算出参数的敏感性矩阵；公式如下：

（2）

按照下列公式计算模型中该层中的每个参数

的敏感性矩阵

：

（3）

其中，

代表网络模型中每个参数

对于该任务的敏感性矩阵，

表示第

个样本点，

表示样本总数。

具体地，所述的方法，步骤3中所述的对参数的敏感性矩阵

中大于该阈值的参数对应位置的掩膜矩阵的值设置为1，表示会保留该参数，将掩膜矩阵与模型参数进行乘法运算，从而修剪掉不重要的参数，包括以下步骤：

将参数的敏感性矩阵

的值按照由小到大的顺序进行排序，设置该层阈值大小

；

按照下列公式计算得到掩膜矩阵

：

（4）

其中，

代表掩膜矩阵

中的第i行第j列的元素；

得到掩膜矩阵后，按照下列公式修剪参数：

（5）

其中，

为修剪后的参数，

为修剪前的参数，

为掩膜矩阵。

更进一步地，步骤4中所述的保证修剪掉的权重在重新训练的过程中不会再更新，在对剪枝后的网络进行重新训练时，按照下列公式来保证网络中已经修剪掉的参数不会再参与梯度的更新：

（6）

其中，

为修剪后的参数的梯度，

为修剪前的参数的梯度，

为掩膜矩阵。

与现有方法相比，本发明方法的优点在于：（1）本发明提出了一种新的度量参数敏感性的方法，该方法可以准确的计算出模型中每个参数的重要程度；（2）本发明提出的计算参数敏感性的方法不限制模型必须做图像分类任务，该方法是与场景无关的，可以在任意场景中使用本发明提出的方法来计算模型中每个参数的重要程度；（3）本发明提出的方法在计算参数重要程度时不需要标签，使得该方法能够更适用于真实场景中；（4）本发明提出的方法能够更大程度上对模型的参数量进行压缩，达到一个满意的压缩比例。

附图说明

图1示出了本发明实施例的流程示意图；

图2示出了本发明实施例选用的UC-Merced Land Use数据集每个场景类的部分影像示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例的流程示意图。一种基于剪枝压缩神经网络的遥感图像分类方法，包括以下步骤：

步骤2，利用初始模型学习到的输出函数

表示模型的输入，

表示模型的参数；

对于给定的样本

，模型的输出记为

，将参数的微小改变量

对模型最终的输出

的改变进行二阶泰勒展开：

（1）

其中，

为输出函数

在样本

上对参数

的梯度，H为Hessian矩阵，代表输出函数

在样本

上参数

的二阶偏导数；

Hessian矩阵的计算复杂度很高，因此，利用对角Fisher信息矩阵来近似的逼近Hessian矩阵，对于多分类问题，使用输出函数

的l2范数的平方对参数的梯度来代替计算参数敏感性，只需要通过一次反向传播就可以计算出参数的敏感性矩阵。公式如下：

（2）

按照下列公式计算模型中该层中的每个参数

的敏感性矩阵

：

（3）

其中，

代表网络模型中每个参数

对于该任务的敏感性矩阵，

表示第

个样本点，

表示样本总数。

步骤3，对参数的敏感性矩阵

将参数的敏感性矩阵

的值按照由小到大的顺序进行排序，手动设置该层阈值大小

；

按照下列公式计算得到掩膜矩阵

：

（4）

其中，

代表掩膜矩阵

中的第i行第j列的元素；

得到掩膜矩阵后，按照下列公式修剪参数：

（5）

其中，

为修剪后的参数，

为修剪前的参数，

为掩膜矩阵；

在对剪枝后的网络进行重新训练时，按照下列公式来保证网络中已经修剪掉的参数不会再参与梯度的更新：

（6）

其中，

为修剪后的参数的梯度，

为修剪前的参数的梯度，

为掩膜矩阵；

步骤5，当一层修剪完成之后，对下一层的修剪过程重复步骤2、步骤3和步骤4即可。

步骤6，使用修剪完成后的神经网络模型对遥感图像进行分类。

实验主要是从深度学习模型在压缩倍数、精度损失和参数剪枝比三个方面上的表现来对本发明提出的方法的有效性进行评价。本发明的实验主要是用来证明本发明提出的方法能够有效的减少深度学习模型的参数量、降低计算的复杂度。

基于UC-Merced Land Use数据集，如图2，将UC-Merced数据集按照4：1的比例划分训练集和测试集，使用Alexnet网络做分类任务，在训练初始模型时，使用在ImageNet数据集上预训练的Alexnet网络，冻结所有卷积层，在UC-Merced Land Use数据集上进行微调，学习率设置为1e^-4，batch size设置为64，为了防止过拟合，对训练集使用了随机翻转、裁剪等操作来进行数据增强。在对初始模型进行剪枝时，学习率设置为1e^-5，batch size设置为64，每层的剪枝比例分别为60%,90%,80%,60%,80%,93%,95%,99%。使用精度损失、压缩倍数以及参数剪枝比三个指标来评价模型压缩方法的性能。

（1）精度损失：剪枝前后模型的性能损失是评价模型压缩方法的一个重要指标；

（2）压缩倍数：

（3）参数剪枝比：

其中，p为剪枝前的参数总量，q为剪枝后的参数总量。

实验结果如下，表1示出了本发明提出的方法与其他方法性能对比。其中，整体剪枝的方法是使用本发明提出的评估参数敏感性的方法，一次性对网络中的所有层进行剪枝，剪枝完成后，对网络进行重新训练恢复精度；韩松提出的基于重要连接的方法是将权值的大小看作是网络中连接的重要性大小，通过删除低于给定阈值的连接来对网络进行剪枝，为了达到较好的压缩倍数，在以上两种对比方法中，剪枝-再训练的过程可反复进行。从实验结果中可以看到，本发明提出的逐层剪枝的方法可以将Alexnet网络的参数量压缩13.97倍，修剪掉92.84%的参数，而且压缩前后模型的性能仅损失了0.52%；在实验的过程中，整体剪枝的方法以及韩松提出的基于重要连接的方法需要对阈值做精细的微调，此外，在两组实验上，整体剪枝的方法以及韩松提出的基于重要连接的方法在参数量的压缩倍数、参数剪枝比两个指标上的性能均不如本发明提出的逐层剪枝的方法。实验证明了本发明提出的逐层剪枝的方法比其他方法的压缩效果更好，可以将模型的参数量压缩更多倍。

表1 本发明提出的方法与其他方法性能对比

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。