CN112734029A

CN112734029A - 一种神经网络通道剪枝方法、存储介质及电子设备

Info

Publication number: CN112734029A
Application number: CN202011599910.8A
Authority: CN
Inventors: 蔡林航; 安竹林; 徐勇军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30

Abstract

本发明提供了一种神经网络通道剪枝的方法、存储方法及电子设备，其基于最大迭代剪枝周期获取每个迭代剪枝周期内待剪枝的通道的权重衰减系数，并在每个迭代剪枝周期内基于当前周期的权重衰减系数调整待剪枝的通道的权重，以重新训练待剪枝的神经网络直至最大迭代剪枝周期结束。本发明的方法使得神经网络的结点信息在迭代剪枝过程中能够得到更加充分的利用，从而弱化剪枝带来的模型性能下降。

Description

一种神经网络通道剪枝方法、存储介质及电子设备

技术领域

本发明涉及机器学习技术领域，尤其涉及一种神经网络通道剪枝方法、存储介质及电子设备。

背景技术

当前，深度学习已经在计算机视觉、语音处理和自然语言处理等领域获得极大的成功，例如图像分类、目标检测和图像分割。但是深度网络模型往往参数数量巨大，很难直接部署到手机等存储、计算资源受限的终端设备上。因此，需要对深度网络模型进行压缩以提高计算效率并扩大应用范围。通道剪枝作为一种常用的结构化剪枝方法，通过剪去深度神经网络模型中对模型性能影响较小的通道(特征图)，可以有效减少模型的参数量和计算量，实以现压缩模型大小并加快模型推理速度。

然而，传统的通道剪枝方法中，随着网络中通道的减少，模型表达能力也受到严重影响，并最终影响模型的性能。

因此，亟需一种能够保持模型性能的神经网络通道剪枝的方法、存储介质及电子设备。

发明内容

因此，本发明一方面提供了一种神经网络通道剪枝的方法，包括：确定待剪枝的神经网络的最大迭代剪枝周期；在每个迭代剪枝周期内，评估所述待剪枝的神经网络中各个通道的重要性以确定当前迭代剪枝周期内待剪枝的通道；基于所述最大迭代剪枝周期获取当前迭代剪枝周期内所述待剪枝的通道的权重衰减系数；依据所述权重衰减系数调整所述待剪枝的通道的权重，并重新训练所述待剪枝的神经网络；重复上述步骤直至完成所述最大迭代剪枝周期。

可选地，其中，通过L2范数或者跨层权重相关性评估待剪枝的神经网络中各个通道的重要性。

可选地，其中，所述当前迭代剪枝周期内待剪枝的通道的权重衰减系数的计算公式为：

其中，t为当前迭代剪枝周期，t_max为最大迭代剪枝周期，α₀为待剪枝的通道的初始权重衰减系数，∈₁表示在最大迭代剪枝周期时待剪枝的通道的权重衰减系数与0之差。

本发明另一方面提供一种神经网络通道剪枝的方法，包括：确定待剪枝的神经网络的最大迭代剪枝周期以及所述待剪枝的神经网络的目标剪枝比例；在每个迭代剪枝周期内，评估所述待剪枝的神经网络中各个通道的重要性以确定当前迭代剪枝周期内待剪枝的通道；基于所述最大迭代剪枝周期获取当前迭代剪枝周期内待剪枝的通道的权重衰减系数；基于所述最大迭代剪枝周期以及所述目标剪枝比例，获取当前迭代剪枝周期内所述待剪枝的神经网络的剪枝比例；依据当前周期的权重衰减系数和剪枝比例调整所述待剪枝的通道的权重，并重新训练所述待剪枝的神经网络；重复上述步骤直至完成所述最大迭代剪枝周期。

可选地，其中，所述当前迭代剪枝周期内所述待剪枝神经网络的剪枝比例的计算公式为：

其中，t为当前迭代剪枝周期数，t_max为最大迭代剪枝周期，P_f为待剪枝的神经网络的目标剪枝比例，∈₂表示在最大迭代剪枝周期时的剪枝比例与目标剪枝比例之差。

本发明的另一方面提供了一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一项所述的方法。

本发明的另一方面提供了一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现上述任一项所述的方法。

本发明实施例的技术方案可以包括以下有益效果：

本发明通过逐渐衰减重要性低的结点的参数的方式对该结点进行剪枝，以在模型迭代剪枝过程中更加充分地利用结点信息，进而缓和因剪枝导致网络模型性能明显下降。在另一个实施例中，通过逐渐增加剪枝比例，可以有效避免在训练初期由于网络模型性能还比较差，直接执行目标剪枝比例可能会对模型性能产生的负面影响，同时能够更好地保持模型的训练信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了一个硬通道剪枝方法的示意图；

图2示出了另一个硬通道剪枝方法的示意图；

图3示出了一个软通道剪枝方法的示意图；

图4示出了本发明一个实施例的神经网络通道剪枝的方法；

图5示出了本发明一个实施例中迭代剪枝周期与权重衰减系数呈反比的示意图；

图6示出了本发明另一个实施例的神经网络通道剪枝的方法。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

通道剪枝是指剪去深度神经网络模型中对模型性能影响较小的通道(也称为“结点”，在本发明中两者表示同一含义，可以互换)，以压缩模型大小并加快模型的推理速度。为了避免因剪枝造成模型性能下降，在剪枝后通常会对模型的权重(又称为“参数”，在本发明中二者表示同一含义，可以互换)进行微调，即将模型重新训练几个周期，以恢复模型的性能。传统的通道剪枝方法包括硬通道剪枝和软通道剪枝。

硬通道剪枝(Hard Filter Pruning，HFP)是指将模型中重要性较低的结点的参数设置为0，并且被剪枝的结点在下一次迭代剪枝时不再参与模型的训练，也不再更新其参数值。因此，在硬通道剪枝中，由于被剪的结点失去了活性，模型表达能力也会相应地下降。并且，模型中被剪枝结点的数量越多，模型压缩的比例越大，剩余结点的数量也就越少，相应地模型性能下降的幅度也越大。

图1示出了一个硬通道剪枝方法的示意图。如图1所示，网络模型中被剪枝的结点A和结点B的参数被置为0，并停止更新。

图2示出了另一个硬通道剪枝方法的示意图。如图2所示，在迭代剪枝的过程中，随着网络模型的剪枝比例逐渐从0％增加到25％、50％和75％，被剪枝的结点越来越多，即越来越多的结点失去了活性，从而导致模型表达能力也相应地逐步下降。

软通道剪枝(Soft Filter Pruning，SFP)是指将模型中重要性较低的结点的参数设置为0，但被剪枝的结点仍可以在下一次迭代剪枝时继续参与模型的训练并更新参数，以保持模型表达能力。

图3示出了一个软通道剪枝方法的示意图。如图3所示，网络模型中被剪枝的结点A＇和结点B＇的参数被置为0，但其仍然保持活性，可以在下一次网络训练中更新参数。

然而，无论是硬通道剪枝方法还是软通道剪枝方法，都是将被剪枝的结点的参数直接设置为0，导致模型中参数数量的骤然减少，进而影响网络模型的稳定性，造成模型性能下降。

对此，本发明的一个实施例提供了一种神经网络通道剪枝的方法，该方法通过逐渐衰减重要性低的结点的参数的方式对该结点进行剪枝，以在模型迭代剪枝过程中更加充分地利用结点信息，进而缓和因剪枝导致网络模型性能明显下降。

图4示出了本发明一个实施例的神经网络通道剪枝的方法。如图4所示，该方法包括以下步骤：

S410，确定待剪枝的神经网络的最大迭代剪枝周期。

可以根据待剪枝的神经网络模型的结构或者网络模型输入数据的规模等因素，设定待剪枝的神经网络的最大迭代剪枝周期。

S420，在每个迭代剪枝周期内，评估待剪枝的神经网络中各个结点的重要性以确定当前迭代剪枝周期内待剪枝的结点。

结点的重要性用于表征网络模型中的结点对该模型性能的影响程度。结点的重要性越高，表示该结点对模型性能的影响力越大。在一个实施例中，可以通过结点的L2范数来评估结点的重要性。在其他实施例中，也可以通过跨层权重相关性、批量归一化层的缩放系数或权重相似性等其他方法评估待剪枝的神经网络中各个结点的重要性。

S430，基于最大迭代剪枝周期获取当前迭代剪枝周期内待剪枝的结点的权重衰减系数。

结点的权重衰减系数用于表征结点的参数的减小比例。每个迭代剪枝周期内，结点的权重衰减系数不相同。结点的权重衰减系数与最大迭代剪枝周期相关，其随着迭代剪枝周期数的增加而逐渐降低，并在最大迭代剪枝周期时接近于0(或者等于0)。通过将结点的权重衰减系数与该结点的参数相乘，可以在最大迭代剪枝周期内逐渐将待剪枝的结点的参数收敛为0，以实现剪枝。

在一个实施例中，可以通过以下公式计算当前迭代剪枝周期内待剪枝的结点的权重衰减系数：

其中，t为当前迭代剪枝周期，t_max为最大迭代剪枝周期，α₀为待剪枝的结点的初始权重衰减系数，∈₁表示在最大迭代剪枝周期时待剪枝的结点的权重衰减系数与0之间的差距。

在一个实施例中，可以将待剪枝的结点的初始权重衰减系数α₀设置为1，以尽可能弱化剪枝在训练初期对模型性能的影响，并将∈₁设置为一个接近于0的非负小数，比如1e-5或1e-7,以实现在达到最大的迭代剪枝周期数t_max时，被剪权重衰减系数α(t_max)接近于0。在另一个实施例中，也可以将α(t_max)直接置为零，以确保最终剪枝得到的网络权重的稀疏性，达到剪枝的目的。

S440，依据权重衰减系数调整待剪枝的结点的权重，并重新训练待剪枝的神经网络。

通过将待剪枝的结点的参数与当前周期的权重衰减系数相乘，可以减小待剪枝的结点的参数，并利用减小后的结点的参数，继续训练待剪枝的神经网络，以恢复待剪枝的神经网络的性能。减小后的结点的参数可以作为下一个迭代剪枝周期中待剪枝的结点的初始参数，继续参与迭代剪枝训练。

S450，重复上述步骤S420-S440，直至完成最大迭代剪枝周期。

在每个剪枝迭代周期内，都基于最大迭代剪枝周期获取每个迭代剪枝周期内待剪枝的结点的权重衰减系数，并基于当前周期的权重衰减系数调整待剪枝的通道的参数，重新训练待剪枝的神经网络，直至最大迭代剪枝周期结束。如图5所示，当最大迭代剪枝周期足够大时候，待剪枝的结点的权重衰减系数将无限接近于0，最终可以得到压缩后的网络模型。

通过上述实施例，使得模型的结点信息在迭代剪枝过程中能够得到更加充分的利用，以弱化剪枝带来的模型性能下降。

在另一个实施例中，还提供了一种神经网络通道剪枝的方法，该方法不仅通过逐渐减小通道的参数的方式对该通道进行剪枝，还采用了渐进式剪枝的方法，通过在每个迭代剪枝周期内逐渐增加剪枝比例，并最终在最大迭代剪枝周期时达到网络模型的目标剪枝比例，以实现剪枝。

图6示出了本发明另一个实施例的神经网络通道剪枝的方法。如图6所示，该方法包括以下步骤：

步骤S610，确定待剪枝的神经网络的最大迭代剪枝周期。

步骤S620，确定待剪枝的神经网络的目标剪枝比例。

目标剪枝比例是指待剪枝的神经网络完成剪枝时被剪去的结点的数量占原始网络模型中全部结点的数量的比例。可以根据待剪枝的神经网络模型的结构或者网络模型输入数据的规模等因素，设定待剪枝网络模型的剪枝比例，例如30％或75％等。

步骤S630，在每个迭代剪枝周期内，评估待剪枝的神经网络中各个结点的重要性以确定当前迭代剪枝周期内待剪枝的结点。

步骤S640，基于最大迭代剪枝周期获取当前迭代剪枝周期内待剪枝的结点的权重衰减系数。

其中，步骤S610、S630以及S640与上述步骤S410-S430类似，在此不再赘述。

步骤S650，基于最大迭代剪枝周期以及目标剪枝比例，获取当前迭代剪枝周期内待剪枝的神经网络的剪枝比例。

由于采用了渐进式剪枝的方法，每个迭代剪枝周期内的剪枝比例会随着迭代剪枝周期的增加而逐渐增大，并最终在最大迭代剪枝周期时达到网络模型的目标剪枝比例，以实现剪枝。

在一个实施例中，可以通过下列公式计算当前迭代剪枝周期内待剪枝神经网络的剪枝比例：

在一个实施例中，可以将待剪枝的神经网络的初始剪枝比例设置为0，并将∈₂设置为一个接近于0的非负小数，比如1e-5或1e-7,以实现在达到最大的迭代剪枝周期数t_max时，剪枝比例P(t_max)与目标剪枝比例P_f之差接近于0。在另一个实施例中，也可以将P(t_max)直接置为零，以确保按照目标剪枝比例进行剪枝。

步骤S660，依据当前周期的权重衰减系数和剪枝比例调整待剪枝的结点的权重，并重新训练待剪枝的神经网络。

通过将待剪枝的结点的参数与当前周期的权重衰减系数以及当前周期的剪枝比例相乘，可以减小待剪枝的结点的参数，并利用减小后的结点的参数，继续训练待剪枝的神经网络，以恢复待剪枝的神经网络的性能。减小后的结点的参数可以作为下一个迭代剪枝周期中待剪枝的结点的初始参数，继续参与迭代剪枝训练。

步骤S670，重复上述步骤S630-S660，直至完成最大迭代剪枝周期。

与上述实施例类似，在每个剪枝迭代周期内，都基于最大迭代剪枝周期获取每个迭代剪枝周期内待剪枝的结点的权重衰减系数，基于最大迭代剪枝周期以及目标剪枝比例获取每个迭代剪枝周期内待剪枝的神经网络的剪枝比例，通过当前周期的权重衰减系数以及当前周期的剪枝比例调整待剪枝的结点的参数，并重新训练待剪枝的神经网络，直至最大迭代剪枝周期结束，最终可以得到压缩后的网络模型。

上述实施例通过逐渐增加剪枝比例，可以有效避免在训练初期由于网络模型性能还比较差，直接执行目标剪枝比例可能会对模型性能产生的负面影响，同时能够更好地保持模型的训练信息。

在本发明的又一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序或可执行指令，当所述计算机程序或可执行指令被执行时实现如前述实施例中所述的技术方案，其实现原理类似，此处不再赘述。在本发明的实施例中，计算机可读存储介质可以是任何能够存储数据且可以被计算装置读取的有形介质。计算机可读存储介质的实例包括硬盘驱动器、网络附加存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学或非光学数据存储装置。计算机可读存储介质也可以包括分布在网络耦合计算机系统上的计算机可读介质，以便可以分布式地存储和执行计算机程序或指令。

本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是非逻辑性的或不能工作。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外，本申请附图中的各个元素仅仅为了示意说明，并非按比例绘制。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种神经网络通道剪枝的方法，包括：

步骤1，确定待剪枝的神经网络的最大迭代剪枝周期；

步骤2，在每个迭代剪枝周期内，评估所述待剪枝的神经网络中各个通道的重要性以确定当前迭代剪枝周期内待剪枝的通道；

步骤3，基于所述最大迭代剪枝周期获取当前迭代剪枝周期内所述待剪枝的通道的权重衰减系数；

步骤4，依据所述权重衰减系数调整所述待剪枝的通道的权重，并重新训练所述待剪枝的神经网络；

步骤5，重复上述步骤2-4直至完成所述最大迭代剪枝周期。

2.根据权利要求1所述的方法，其中，通过L2范数或者跨层权重相关性评估所述待剪枝的神经网络中各个通道的重要性。

3.根据权利要求1所述的方法，其中，所述当前迭代剪枝周期内待剪枝的通道的权重衰减系数的计算公式为：

4.一种神经网络通道剪枝的方法，包括：

步骤1，确定待剪枝的神经网络的最大迭代剪枝周期以及所述待剪枝的神经网络的目标剪枝比例；

步骤3，基于所述最大迭代剪枝周期获取当前迭代剪枝周期内待剪枝的通道的权重衰减系数；

步骤4，基于所述最大迭代剪枝周期以及所述目标剪枝比例，获取当前迭代剪枝周期内所述待剪枝的神经网络的剪枝比例；

步骤5，依据当前周期的权重衰减系数和剪枝比例调整所述待剪枝的通道的权重，并重新训练所述待剪枝的神经网络；

步骤6，重复上述步骤2-5直至完成所述最大迭代剪枝周期。

5.根据权利要求4所述的方法，其中，所述当前迭代剪枝周期内所述待剪枝神经网络的剪枝比例的计算公式为：

6.一种存储介质，其中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现权利要求1-5中任一项所述的方法。

7.一种电子设备，包括处理器和存储器，所述存储器中存储有计算机程序，在所述计算机程序被处理器执行时，能够用于实现权利要求1-5中任一项所述的方法。