CN117035044B

CN117035044B - 基于输出激活映射的过滤器剪枝方法、图像分类系统及边缘设备

Info

Publication number: CN117035044B
Application number: CN202311291335.9A
Authority: CN
Inventors: 陆景祺; 张武; 左冠鹏; 王瑞卿; 金�秀; 刘波; 江朝晖; 饶元
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-01-12
Anticipated expiration: 2043-10-08
Also published as: CN117035044A

Abstract

本发明公开了一种基于输出激活映射的过滤器剪枝方法，包括以下步骤：S1：设定超参数；S2：预训练初始模型得到基线模型，作为当前需要剪枝的模型；S3：对当前需要剪枝的模型运行基于相关性和冗余度的过滤器综合评价准则；S4：根据每个卷积层的过滤器排名，修剪每层相应数量的贡献较小的过滤器；S5：对剪枝后的模型进行再训练以此恢复精度下降；S6：判断每层剩余过滤器的数量是否已经达到每层需要保留的过滤器的数量，直至模型剪枝完毕。还公开了一种基于输出激活映射的过滤器剪枝方法的图像分类系统及其边缘设备。本发明从相关性和冗余度两个方面综合评价过滤器贡献以此进行过滤器剪枝，保证了剪枝后模型优越的图像分类性能。

Description

基于输出激活映射的过滤器剪枝方法、图像分类系统及边缘设备

技术领域

本发明涉及计算机视觉和深度学习领域，特别是涉及一种基于输出激活映射的过滤器剪枝方法、图像分类系统及边缘设备。

背景技术

近年来，深度卷积神经网络CNNs为深度神经网络DNNs的一大分支，在图像分类等计算机视觉领域应用广泛。但是，众所周知，深度学习任务具有很高的计算密度，因此也需要高性能的计算设备以及海量的计算资源，使得CNNs很难部署在资源受限的设备上。这也让深度学习应用的性能和成本逐渐成为不可忽视的挑战。

为此，对CNNs进行过滤器剪枝以此得到轻量化模型成为研究趋势。在修剪参数释放大量存储空间以降低使用成本的同时，过滤器剪枝仍然能够保持甚至提升模型的精度。一种已有的方法认为过滤器激活映射与类标签之间的类互信息可以反馈出该过滤器对类标签信息的提取情况，进而根据类互信息对每层的过滤器进行排名，进而修剪类互信息较小的过滤器达到压缩模型的目的。但是，这种方法没有考虑高-类互信息，即强-类相关性的过滤器之间可能存在高冗余的情况，导致错误选择。

因此亟需提供一种新型的基于输出激活映射的过滤器剪枝方法、图像分类系统及边缘设备来解决上述问题。

发明内容

本发明所要解决的技术问题是提供一种基于输出激活映射的过滤器剪枝方法、图像分类系统及边缘设备，从相关性和冗余度两个方面综合评价过滤器贡献以此进行过滤器剪枝，保证了剪枝后模型优越的图像分类性能。此外，图像分类模型在边缘设备上部署的成本需要更低。

为解决上述技术问题，本发明采用的第一个技术方案是：提供一种基于输出激活映射的过滤器剪枝方法，包括以下步骤：

S1：设定超参数：分层剪枝率、每层需要保留的过滤器的数量和修剪迭代时每层剩余过滤器的数量；

S2：预训练初始模型得到基线模型，并将基线模型作为当前需要剪枝的模型；

S3：对当前需要剪枝的模型运行基于相关性和冗余度的过滤器综合评价准则；

S4：根据所述分层剪枝率与修剪迭代前每层剩余过滤器的数量的乘积得到每层需要修剪的过滤器数量，再结合步骤S3得到的每个卷积层的过滤器排名，修剪每层相应数量的贡献较小的过滤器；

S5：对剪枝后的模型进行再训练以此恢复精度下降；

S6：判断每层剩余过滤器的数量是否已经达到所述每层需要保留的过滤器的数量，若未达到，则返回步骤S3，继续评价过滤器贡献并执行步骤S3至S5，直至模型剪枝完毕。

在本发明一个较佳实施例中，所述基于相关性和冗余度的过滤器综合评价准则的执行步骤包括：

S301：将数据集分为多个小批次数据集，并依次输入基线模型进行图像分类;

S302：遍历所有小批次数据集；

S303：对于当前的小批次数据集，计算该组图像对应类标签的熵以及每个过滤器输出激活映射的熵，根据求得的熵计算每个过滤器输出激活映射与类标签之间的类互信息；

S304：根据类互信息大小对过滤器进行排名，在每个卷积层中选出具有最大类互信息的过滤器作为被选过滤器，剩余过滤器为候选过滤器；

S305：计算每层候选过滤器与每层对应的被选过滤器之间的冗余度；

S306：计算每个过滤器的相关冗余权重；

S307：计算每个过滤器的相关性；

S308：从相关性和冗余度两个方面综合评价过滤器贡献；

S309：判断是否遍历所有小批次数据集，若未遍历，则返回至S302，执行步骤S303-S308，若全部遍历，则执行步骤S310；

S310：将每个过滤器对应的所有小批次数据集的贡献求和取均值，最终得到每个过滤器在整个数据集上的贡献；

S311：根据贡献对过滤器进行分层排名。

进一步的，所述某个小批次数据集的图像对应类标签的熵、第层第/>个过滤器输出激活映射的熵和其输出激活映射与类标签/>之间的类互信息的计算包括步骤：

（1）对于给定的大小为的小批次数据集，其中图像的类标签/>，第/>层第/>个过滤器/>输出的激活映射/>；

（2）使用高斯核函数分别计算类标签和过滤器/>对应的/>大小的Gram矩阵/>和/>：

其中对于所有的，/>,/>是高斯核宽度，/>是Frobenius范数；

（3）信息熵使用归一化的Gram矩阵的特征值计算：

其中,其中/>，/>是/>的第i个特征值；

（4）计算某个小批次数据集的图像对应类标签的熵和第/>层第/>个过滤器输出激活映射的熵/>：

（5）计算第层第/>个过滤器/>输出激活映射与类标签/>之间的类互信息：

其中，和/>的联合熵使用各自的归一化Gram矩阵/>和/>的Hadamard乘积/>，计算：

。

进一步的，计算每层候选过滤器与每层对应的被选过滤器之间的冗余度的具体步骤包括：

（1）根据类互信息大小对过滤器进行排名，在每个卷积层中选出具有最大类互信息的过滤器作为被选过滤器，剩余过滤器为候选过滤器/>，其中/>代表候选过滤器集中的任意一个元素；

（2）计算每层候选过滤器与每层对应的被选过滤器之间的冗余度：

其中：

进一步的，过滤器的相关冗余权重和相关性/>的计算方法包括：

（1）候选过滤器：

其中，联合互信息的计算表达式为：

量化冗余的互信息的计算表达式为：

；

交互信息的计算表达式为：

；

条件互信息的计算表达式为：

；

（2）被选过滤器：

；

，其中/>是条件互信息。

进一步的，从相关性和冗余度两个方面综合评价过滤器贡献的计算方法包括：

（1）候选过滤器：

（2）被选过滤器：

其中被选过滤器的相关冗余权重为2，冗余度为0。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种基于输出激活映射的过滤器剪枝方法的图像分类系统，包括：

预训练模块，用于初始化卷积神经网络的参数，将数据集分为多个小批次数据集，用每个小批次数据集的数据预训练网络，更新网络参数直到模型收敛，得到图像分类的基线模型；

过滤器贡献评价模块，在剪枝迭代中，用于对当前需要剪枝的模型运行基于相关性和冗余度的过滤器综合评价准则，得到每个过滤器在整个数据集上的贡献，根据贡献对过滤器进行分层排名；

过滤器剪枝模块，用于根据所述预训练模块得到的网络参数与所述过滤器贡献评价模块得到的每个卷积层的过滤器排名，对模型进行过滤器剪枝，利用剪枝后的图像分类模型进行图像分类。

在本发明一个较佳实施例中，所述过滤器贡献评价模块对过滤器进行分层排名的具体步骤包括：

遍历所有小批次数据集，对于当前的小批次数据集：计算该组图像对应类标签的熵以及每个过滤器输出激活映射的熵，根据求得的熵计算每个过滤器输出激活映射与类标签之间的类互信息，根据类互信息大小对过滤器进行排名，在每个卷积层中选出具有最大类互信息的过滤器作为被选过滤器，计算每层候选过滤器与每层对应的被选过滤器之间的冗余度，计算每个过滤器的相关冗余权重，计算每个过滤器的相关性，从相关性和冗余度两个方面综合评价过滤器贡献；遍历所有小批次数据集之后，将每个过滤器对应的所有小批次数据集的贡献求和取均值，最终得到每个过滤器在整个数据集上的贡献，根据贡献对过滤器进行分层排名。

在本发明一个较佳实施例中，所述过滤器剪枝模块对模型进行过滤器剪枝的具体步骤包括：

设定超参数：分层剪枝率、每层需要保留的过滤器的数量和修剪迭代时每层剩余过滤器的数量；根据分层修剪率与每个卷积层的过滤器排名，修剪每层相应数量的贡献较小的过滤器，对剪枝后的模型进行再训练以此恢复精度下降，剪枝与再训练迭代进行，当每层剩余过滤器的数量已经达到对应需要保留的过滤器的数量时，模型剪枝完毕。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种部署图像分类系统的边缘设备，包括存储器和处理器，所述存储器存储计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的步骤和计算方法。

本发明的有益效果是：

（1）本发明基于互信息理论，提出了新的相关冗余过滤器权重，以此评价过滤器贡献。根据过滤器贡献对过滤器进行筛选，提高了过滤器选择的准确性与合理性，保证了模型的分类效果；

（2）本发明联合考虑过滤器的相关性和冗余度，提出了新的过滤器综合评价准则。在保证模型分类性能的前提下，减少了网络参数量，节省了边缘设备的内存资源，降低了图像分类模型在边缘设备上的部署成本。

附图说明

图1是本发明基于输出激活映射的过滤器剪枝方法的流程图；

图2是所述基于相关性和冗余度的过滤器综合评价准则的流程图；

图3是根据本发明的描述候选过滤器输出激活映射与类标签/>之间的类互信息的维恩图；

图4是根据本发明的描述候选过滤器和被选过滤器/>分别输出的激活映射与类标签三者关系的维恩图；

图5是本发明中可视化条件互信息的第一种特殊情况的维恩图；

图6是本发明中可视化条件互信息的第二种特殊情况的维恩图；

图7是所述基于输出激活映射的过滤器剪枝方法的图像分类系统的结构框图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

首先对相关术语进行解释：

卷积神经网络：卷积神经网络是一种对输入数据进行卷积操作以此完成特征提取的深度学习模型。

输出激活映射：输出激活映射是指通过卷积操作得到的特征图。对于每个过滤器，它对应的输出激活映射是由该过滤器对输入数据进行卷积操作得到的输出特征图。

信息熵：信息熵是信息论中用于度量随机变量不确定性的一种度量方法。它表示一个随机事件所包含的信息量大小。如图4中的是被选过滤器的熵，/>是候选过滤器的熵。

互信息：互信息是信息论中用于度量两个随机变量之间相互依赖程度的一种度量方法。它衡量的是当知道一个随机变量的取值时，对另一个随机变量的不确定性减少的程度。本发明涉及到的互信息分为类互信息、交互信息、条件互信息和联合互信息。图3中的交叉区域表示候选过滤器输出激活映射与类标签之间的类互信息。图4中，区域1表示候选过滤器、被选过滤器和类标签共同提供的交互信息/>。区域2表示类互信息：当考虑候选过滤器时，被选过滤器提取的类标签信息。区域3表示条件互信息：当被选过滤器确定后，候选过滤器提取的类标签信息。区域1、2、3组成的并集表示联合互信息/>，区域4表示相关冗余过滤器级权重的冗余互信息/>。

请参阅图1，本发明实施例包括：

一种基于输出激活映射的过滤器剪枝方法，包括以下步骤：

结合图2，所述基于相关性和冗余度的过滤器综合评价准则的执行步骤包括：

S301：将数据集分为多个mini-batch（小批次数据集），并依次输入基线模型进行图像分类;

S302：遍历所有mini-batch；

S303：对于当前的mini-batch，计算该组图像对应类标签的熵以及每个过滤器输出激活映射的熵，根据求得的熵计算每个过滤器输出激活映射与类标签之间的类互信息；具体计算方法如下：

（1）对于当前给定的大小为的mini-batch，其中图像的类标签/>，第/>层第/>个过滤器/>输出的激活映射/>；

（2）使用高斯核函数分别计算类标签和过滤器/>对应的/>大小的Gram矩阵和/>：

其中对于所有的，/>,/>是高斯核宽度，/>是Frobenius范数；

（3）信息熵使用归一化的Gram矩阵的特征值计算：

其中,其中/>，/>是/>的第i个特征值；

（4）计算某个mini-batch的图像对应类标签的熵和第/>层第/>个过滤器输出激活映射的熵/>：

。

S304：根据类互信息大小对过滤器进行排名，在每个卷积层中选出具有最大类互信息的过滤器作为被选过滤器，剩余过滤器为候选过滤器/>，其中/>代表候选过滤器集中的任意一个元素；

S305：计算每层候选过滤器与每层对应的被选过滤器之间的冗余度：

；

其中，

；

306：计算每个过滤器的相关冗余权重：

候选过滤器：；

被选过滤器：；

其中：

；

本发明中的的取值范围为/>，/>表示候选过滤器与类标签之间的类相关性，/>则表示二者之间的冗余度。/>说明候选过滤器与类标签的类相关性较低，但冗余度较高。/>说明候选过滤器与类标签高度相关。由此，数值越接近2，当前过滤器入选概率就越高。

这里需要说明的是，理论上，第一个被选过滤器应与类标签的类相关性最大，即该过滤器的激活映射与类标签的类互信息最大。最终被选过滤器组成的子集一定具备强-类相关性，因此随后的选择也应保持候选过滤器与类标签的高度类相关性。然而，在大型数据集与复杂紧凑的CNN中，候选过滤器提取的输入图片的特征与类标签之间没有类相关性的情况是不可避免的。因此，如果候选过滤器与被选过滤器之间没有冗余（图5）或低冗余（图6），则当前候选过滤器的相关冗余权重仍然很高而导致错误选择。因此，本发明提供一种新的过滤器相关性计算方法。

S307：计算每个过滤器的相关性：

候选过滤器：/>

被选过滤器：/>

其中：

；

S308：从相关性和冗余度两个方面综合评价过滤器贡献：

候选过滤器：

被选过滤器：

；

S309：判断是否已遍历所有mini-batch，如果判断结果是否定的，即还有未遍历到的mini-batch，则返回步骤S302，继续遍历剩余的mini-batch，并执行S303-S308。另一方面，如果判断结果是肯定的，即已遍历完所有的mini-batch，完成对过滤器在每个mini-batch上的贡献的计算，则前进到S310；

S310：将每个过滤器对应的所有mini-batch的贡献求和取均值，最终得到每个过滤器在整个数据集上的贡献；

S311：根据贡献对过滤器进行分层排名，至此，过滤器综合评价准则结束。

S4：根据所述分层剪枝率与剪枝迭代前修剪迭代时每层剩余过滤器的数量的乘积得到每层需要修剪的过滤器数量，再结合步骤S3得到的每个卷积层的过滤器排名，修剪每层相应数量（即计算得出的每层需要修剪的过滤器数量）的贡献较小的过滤器；

S5：对剪枝后的模型进行再训练以此恢复精度下降；

S6：判断每层剩余过滤器的数量是否已经达到所述每层需要保留的过滤器的数量，若未达到，则返回步骤S3，继续评价过滤器贡献并执行步骤S3至S5，继续修剪过滤器，直至模型剪枝完毕。

参阅图7，本发明示例中还提供一种基于输出激活映射的过滤器剪枝方法的图像分类系统，包括：

预训练模块，用于初始化卷积神经网络的参数，将数据集分为多个mini-batch，用每个mini-batch的数据预训练网络，更新网络参数直到模型收敛，得到图像分类的基线模型；

其中，所述过滤器贡献评价模块对过滤器进行分层排名的具体步骤包括：

遍历所有mini-batch，对于当前的mini-batch：计算该组图像对应类标签的熵以及每个过滤器输出激活映射的熵，根据求得的熵计算每个过滤器输出激活映射与类标签之间的类互信息，根据类互信息大小对过滤器进行排名，在每个卷积层中选出具有最大类互信息的过滤器作为被选过滤器，计算每层候选过滤器与每层对应的被选过滤器之间的冗余度，计算每个过滤器的相关冗余权重，计算每个过滤器的相关性，从相关性和冗余度两个方面综合评价过滤器贡献；遍历所有mini-batch之后，将每个过滤器对应的所有mini-batch的贡献求和取均值，最终得到每个过滤器在整个数据集上的贡献，根据贡献对过滤器进行分层排名。

具体的，所述过滤器剪枝模块对模型进行过滤器剪枝的具体步骤包括：

本发明示例中还提供一种部署图像分类系统的边缘设备，包括存储器和处理器，所述存储器存储计算机程序，所述处理器执行所述计算机程序时实现如上所述的步骤和计算方法。本发明实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信号处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于输出激活映射的过滤器剪枝方法，其特征在于，包括以下步骤：

S3：对当前需要剪枝的模型运行基于相关性和冗余度的过滤器综合评价准则，执行步骤包括：

S302：遍历所有小批次数据集；

S303：对于当前的小批次数据集，计算当前小批次数据集的图像对应类标签的熵以及每个过滤器输出激活映射的熵，根据求得的熵计算每个过滤器输出激活映射与类标签之间的类互信息；

S305：计算每层候选过滤器与每层对应的被选过滤器之间的冗余度，具体步骤包括：

（1）根据类互信息大小对过滤器进行排名，在每个卷积层中选出具有最大类互信息的过滤器作为被选过滤器，剩余过滤器为候选过滤器/>，其中，/>代表候选过滤器集中的任意一个元素；/>表示第/>个卷积层；

；

其中：

；

和/>的联合熵使用各自的归一化Gram矩阵/>和/>的Hadamard乘积/>计算：；

S306：计算每个过滤器的相关冗余权重；

S307：计算每个过滤器的相关性；

过滤器的相关冗余权重和相关性/>的计算方法包括：

（1）候选过滤器：

；

其中，联合互信息的计算表达式为：

；

量化冗余的互信息的计算表达式为：

；

交互信息的计算表达式为：

；

条件互信息的计算表达式为：

；

（2）被选过滤器：

；

，其中/>是条件互信息；

S308：从相关性和冗余度两个方面综合评价过滤器贡献，计算方法包括：

（1）候选过滤器：

；

（2）被选过滤器：

；

其中被选过滤器的相关冗余权重为2，冗余度为0；

S311：根据贡献对过滤器进行分层排名；

S5：对剪枝后的模型进行再训练来恢复模型下降的精度；

2.根据权利要求1所述的基于输出激活映射的过滤器剪枝方法，其特征在于，所述当前小批次数据集的图像对应类标签的熵、第层第/>个过滤器/>输出激活映射的熵和其输出激活映射与类标签/>之间的类互信息的计算包括步骤：

(2）使用高斯核函数分别计算类标签和过滤器/>对应的/>大小的Gram矩阵/>和/>：

；

其中,对于所有的，/>,/>是高斯核宽度，/>是Frobenius范数；

（3）信息熵使用归一化的Gram矩阵的特征值计算：

；

其中，/>，/>是/>的归一化矩阵/>的第/>个特征值， />是/>的归一化矩阵/>的第/>个特征值；

（4）计算当前小批次数据集的图像对应类标签的熵和第/>层第/>个过滤器输出激活映射的熵/>：

；

。

3.一种基于输出激活映射的过滤器剪枝方法的图像分类系统，用于根据如权利要求1至2中任一项所述的方法得到的模型进行图像分类。

4.一种部署图像分类系统的边缘设备，包括存储器和处理器，所述存储器存储计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法。