CN110807514A

CN110807514A - 一种基于lo正则的神经网络剪枝方法

Info

Publication number: CN110807514A
Application number: CN201911022069.3A
Authority: CN
Inventors: 徐勇军; 谢戚鑫; 李超; 安竹林
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-18

Abstract

本发明提供一种基于L0正则的神经网络剪枝方法，通过加入L0正则项进行神经网络训练，实现了神经网络训练过程和剪枝过程的半耦合，训练过程中加入L0正则化惩罚，就可以在训练的过程中隐式地将剪枝的过程融入进去。通过加入L0正则项训练得到的神经模型在剪枝步骤中性能损失更小，能有效对抗参数量骤降对结果的影响程度；在经过剪枝之后重训练之后，模型精度可以获得大比例提升，而且重训练过程的时间开销极小，几轮迭代后便收敛到较好的精度水平。

Description

一种基于LO正则的神经网络剪枝方法

技术领域

本发明涉及人工智能领域，具体说涉及人工智能领域相关深度神经网络模型的压缩处理，更具体地说，涉及一种基于L0正则的神经网络剪枝方法。

背景技术

受益于第三次工业革命，互联网的发展和庞大的社交网络关系群的建立，信息通过电子媒介开始大量广泛的传播，举例来说，Flicker(一个提供图片分享的虚拟网络相册平台)每天产生大约3.6TB的图片数据，而搜索引擎巨头Google每天处理的数据量达到20,000TB。据美国国家安全局的报告称，每天全世界大概有1.8PB的数据在互联网上产生，这其中包括文本，图像，视频等。我们发现传统的统计方法或者机器学习方法已经无法有效地分析和处理如此规模的海量数据，因此，深度学习方法成为目前处理大数据学习问题的一个重要解决方案之一。对神经网络的研究其实早在1940年就已经开始，但是直到2006年，作为神经网络延伸的深度学习的概念才开始在机器学习的圈子内活跃起来，并在随后的几年内不断催生出落地工业界的有效产品。到目前为止，深度学习因为其高层信息抽取和多层次表达能力，已经在很多领域内表现出相对于传统方法(如支持向量机、朴素贝叶斯方法等)的绝对优势。典型的应用场景包括自动驾驶、语音识别、机器翻译、情感分析、推荐系统、辅助医疗、农业植保、安防检测、围棋博弈等。

近几年来，在深度学习领域内的研究热点从如何提升神经网络的性能开始向其他方面拓展，其中一个很重要的方向便是如何将深度神经网络模型部署到终端设备上。由此产生的一个新概念便是“边缘计算”(Edge Computing)，边缘计算用于描述发生在边缘设备上的计算任务。这个概念的最早提出是在2013年的美国太平洋西北国家实验室的一份2页纸的内部报告中，LaMothe用“边缘计算”这个新名词来描述靠近物或数据源头位置的计算方式，其相对于传统的云计算方式作出区别，云计算将数据统一上传到称之为“云”的计算资源中心，并实时完成计算将结果返回。而边缘计算则直接在边缘设备上完成计算，省去了数据和云之间的交互过程，在保持性能的同时满足实时性的要求。

然而边缘计算设备有限的计算能力无法支撑深度学习模型庞大的计算开销。目前针对该问题比较主流的解决方案便是在将深度学习模型部署到边缘设备上之前进行压缩，以此来适应弱计算力平台的计算和能耗瓶颈。神经网络剪枝的概念就是将复杂神经网络模型参数部分进行删除，同时保证尽可能小的性能损失。

目前神经网络剪枝的一套主流流程包括三步：

第一步、复杂模型预训练，通过标准的神经网络训练流程完成对复杂模型的训练；

第二步、在第一步得到的模型基础上，设计剪枝策略按照设定的比例删除一部分次要的参数；

第三步、对剩下的参数重新进行训练，尽可能地让模型性能恢复到未剪枝前的状态。

现有的剪枝方法流程孤立模型的训练过程(第一步)和剪枝过程(第二步)，所以有极大的风险造成被删除的参数在重训练(第三步)的过程中重新被发现重要性提升，但是在该方法框架下被删除的参数无法恢复，这会影响最后压缩后模型的性能恢复。另外，该方法中剪枝过程没有有效的信息来引导剪枝的进行，具体表现为无法指导模型在不同层的剪枝比例。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的基于L0正则的神经网络剪枝方法。将L0正则项引入神经网络训练过程，即在神经网络训练的过程中就开始引导网络权重变得稀疏，随后再剪枝，相当于在神经网络训练完成的时候就已经存在稀疏的权重结构，所以可以看作是将剪枝的一部分工作提前转移到训练阶段来做，实现半耦合，可以有效减少模型的参数数量，压缩之后的模型可以实现在弱计算力的边缘设备上有效部署，性能损失小。

根据本发明的一种基于LO正则的神经网络剪枝方法，用于神经网络数据部署到边缘设备前的压缩处理，包括如下步骤：

S1、根据边缘设备的计算能力和神经网络数据原参数权重设置剪枝比例阈值；

S2、加入LO正则项对神经网络进行自主训练，使神经网络的数据参数稀疏化；并对经加入L0正则项训练的神经网络数据后参数权重仍未达到剪枝比例阈值的神经网络执行步骤S3-S4；

S3、根据步骤S1设置的剪枝比例阈值对步骤S2中经加入L0正则项训练的神经网络数据进行剪枝处理；

S4、对经过剪枝处理后的神经网络进行重训练。

其中，所述步骤S1包括如下步骤；

S11、获取边缘设备计算能力信息、神经网络原参数权重对应数据量；

S12、根据边缘设备计算能力计算边缘设备可计算的数据量；

S13、根据步骤S12中的边缘设备可计算的数据量，确定神经网络需要剪枝的数据比例，设置为剪枝比例阈值，剪枝比例阈值＝1-边缘设备可计算的数据量/神经网络原参数权重对应数据量。

所述步骤S3包括如下步骤：

S31、根据剪枝比例阈值，获得经加入LO正则项训练后的神经网络数据的实际剪枝比例，实际剪枝比例为预设的剪枝比例阈值与神经网络数据经加入LO正则训练后的获得的剪枝比例之差；

S32、根据实际剪枝比例，对经加入LO正则项训练后的神经网络数据进行剪枝处理。

S33、依照神经网络中权重值的绝对值大小从小到大删除权重直到达到剪枝比例阈值。

优选的，所述步骤S3包括如下步骤：

S31’、根据剪枝比例阈值，确定经加入L0正则项训练后的神经网络数据的实际剪枝比例；

S32’、基于经加入L0正则项训练后的神经网络数据的参数权重，根据步骤S31‘中确定的实际剪枝比例确定剪枝参数阈值；

S33’、根据步骤S32’确定的剪枝参数阈值对经加入L0正则项训练后的神经网络数据进行剪枝处理，删掉小于剪枝参数阈值的参数。

优选的，采用包含重参数和矫正函数方式的L0正则项来优化神经网络参数的方式进行神经网络训练，训练目标是进行神经网络参数优化，优化目标为：

其中，R代表优化目标，θ代表网络中的参数，g(s)是受Φ控制的取值在[0,1]之间的随机分布，g(s)点乘θ从而实现权重参数的表达。(xi，yi)代表每个训练样本和对应标签，共有N个样本。h代表神经网络所表达的函数，L代表损失函数。加号右侧是由L0正则项带来的额外惩罚，该值由s变量的概率密度函数计算而来，λ是调节L0正则化强度的一个系数。

与现有技术相比，本发明的优点在于：本发明通过加入L0正则项进行训练，实现了神经网络训练过程和剪枝过程的半耦合，训练过程中加入L0正则化惩罚，就可以在训练的过程中隐式地将剪枝的过程融入进去。通过加入L0正则项训练得到的神经模型在剪枝步骤中性能损失更小，能有效对抗参数量骤降对结果的影响程度；在经过剪枝之后重训练之后，模型精度可以获得大比例提升，而且重训练过程的时间开销极小，几轮迭代后便收敛到较好的精度水平。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

首先介绍一下与本发明方法相关的理论背景。

正则化(Regularization)是指在损失函数之外，作为额外的惩罚项对模型的参数做一些特定的限制，比如训练深层神经网络模型的时候，如果我们的训练数据规模有限，往往会面临严重的过拟合问题，因为模型参数不受任何限制，所以它们会以一种尽可能复杂的分布来拟合到有限的数据上，但是这不是我们希望训练模型的初衷，我们希望模型具有简洁的参数分布，学习到的是数据内部的有效特征表达，这样的模型才能在未出现在训练数据中的但是和训练数据保持一致分布的数据上表现出良好的泛化能力。为了抑制模型的过拟合，我们引入正则化项作为额外的损失，来惩罚模型参数向复杂紊乱的方向发展。L0正则对非零权重值的惩罚强度为1，对值为零的权重值惩罚强度为0。

发明人在进行神经网络剪枝研究时，发现深度神经网络剪枝传统流程中训练和剪枝孤立，容易造成不可逆的性能损失。现有技术的剪枝方法是先训练再剪枝，且剪枝时按照预设的剪枝比例针对神经网络每一层数据按照相同比例进行剪枝，但是神经网络每一层数据的权重是不一样的，如果按照相同比例进行剪枝处理，可能会删除重要的参数且无法恢复。因为我们发现在剪枝过程中，不同层的剪枝比例是非常关键的，如果呆板地为模型设定全局剪枝比例或者对每层设定固定剪枝比例都不能很好地保证在重训练过程中模型性能的恢复。

本发明提出一种基于L0正则的神经网络剪枝方法，借助正则化方法，可以解决现有技术存在的缺陷。具体地，在神经网络训练的过程中就开始引导网络权重变得稀疏，随后再剪枝，相当于在神经网络训练完成的时候就已经存在稀疏的权重结构，所以可以看作是将剪枝的一部分工作提前转移到训练阶段来做，实现半耦合。本发明提出的这种基于L0正则的神经网络剪枝方法，可以有效减少模型的参数数量，压缩之后的模型可以实现在弱计算力的边缘设备上有效部署，性能损失小。

本发明的一种基于L0正则的神经网络剪枝方法，用于神经网络数据部署到边缘设备前的压缩处理，概况地说，包括如下步骤：

步骤1、对原始的复杂神经网络加入L0正则项之后进行训练,获得初始模型参数；

步骤2、按照预设的剪枝比例阈值对步骤1中训练后的神经网络进行剪枝处理；

步骤3、重新训练剪枝处理后剩余部分的神经网络参数，使模型的性能恢复到接近到初始状态。

为了更好的理解本发明，下面结合实施例及示例详细说明本发明的每一步。

T1、根据边缘设备的计算能力和神经网络原数据量设置剪枝比例阈值。根据边缘设备的计算能力，可以得知其最大可计算数据量，然后对比神经网络原数据的数据量，可以得知神经网络需要剪掉的数据量，需要剪掉的数据量占原数据量的比例就是剪枝比例阈值，剪枝比例阈值＝1-边缘设备可计算的数据量/神经网络原参数权重对应数据量。例如，根据边缘设备计算能力，需要剪掉原始神经网络中10％的参数，只留下90％，则剪枝比例阈值设为0.1。

T2、对原始的复杂神经网络模型加入L0正则项之后进行训练获得初始模型参数,即加入L0正则项对原始神经网络进行自主训练，使神经网络的数据参数稀疏化，且参数稀疏化是经加入L0正则项之后进行训练自主获得的。

神经网络训练的目的是令一个初始的神经网络模型进行大量的迭代训练之后获得较好的性能表现，同时训练得到的权重参数值可以为后续的剪枝提供参考。本实施例是在该训练过程中引入了L0正则化项，相对于传统方法，引入L0正则项可以令神经网络中的权重参数变得稀疏化。根据一个示例，假设神经网络模型有1，000，000个参数，传统方法训练结束这1,000,000参数都是非零值，引入L0正则项进行训练后，大概会有50％以上的参数已经变成了0，此时的稀疏度很高，这种稀疏状态可以有效抵抗后续剪枝操作带来的模型性能损伤。基于此，在同样的压缩比例下，引入L0正则项可以实现更好的精度保留。在神经网络训练的阶段引入L0正则化惩罚，来引导神经网络稀疏化，而这种稀疏化可以在剪枝的时候让神经网络性能受到的伤害更小。

根据本发明的一个实施例，下面采用模型的方式来具体说明加入L0正则项对神经网络进行自主训练的过程。

通过在神经网络训练过程中引入L0正则化项，使得网络在训练的过程中权重趋于稀疏化。采用建立模型函数的方式来说明加入L0正则项对神经网络进行训练的过程，假设D为神经网络训练数据，其中包含N组训练数据以及对应的标签对((x₁，y₁)，...，(x_N，y_N))，带有L0正则化项的神经网络参数优化目标为：

其中I[·]是符号函数，当括号内的条件满足时取1，否则取0。引入L0正则化项之后，网络在优化的过程中会鼓励参数朝着0的方向改变，惩罚非零的参数，并对非零的参数施加相同的惩罚强度，与参数幅值无关。加号右侧的是L0正则化项。符号的意义可以参考第一条注释，R是优化目标，θ是网络的权重参数，N是数据总量，L是损失函数，h等价于神经网络代表的函数，(xi,yi)是训练数据，λ是L0正则化项的权重参数。

由于L0正则虽然在引导模型参数的稀疏性上相对于其他正则化方式有得天独厚的优势，但是不幸的是L0由于其不可微的性质导致上面的式子无法像传统的神经网络一样使用随机批梯度下降的方法去迭代优化。

优选的，使用重参数技巧，引入一个新的随机变量z，且z服从伯努利分布。令θ满足

新引入的z_j可以等效地看做是一个门控开关，因为z_j服从伯努利分布，所以当z_j＝1时代表门控开关为使能状态，该处的权重有效，当z_j＝0时代表门控开关为失能状态，该处的权重

失效。于是，令q(z_j|π_j)＝Bern(π_j)，带有L0正则化项的神经网络优化目标可以重写为

其中符号⊙代表点乘,经过重参数技巧，现在公式中的第二项

已经可以直接被优化，但是第一项中的z因为服从的是一个离散的01分布，所以其依然不可微。所以需要再对z作出如下的优化使其成为一个可微的随机变量。引入一个新的随机变量s，且s是一个受参数φ控制的连续随机变量。如下面的公式所示,随机变量z由s经过一个硬S型矫正函数(Hard Sigmoid Rectification)得到:

s～q(s|φ)

z＝min(1，max(0，s))

至此，通过一系列设定构建了一个取值位于[0,1]中间的截断式连续随机变量z，因为z是连续的，所以可以通过计算z的累计概率来作为L0正则化的惩罚项。累计概率函数(CDF)由下面公式计算获得：

q(z≠0|φ)＝1-Q(s≤0|φ)

最终，获得一个经过平滑的服从伯努利分布的门控开关变量z，神经网络的优化目标被改写为下式：

此处第一行公式等号右侧的第一项代表的是模型拟合在训练数据集上产生的损失，第二项代表的是对模型复杂程度的额外惩罚。现在，整体的损失函数对参数φ是可微的，所以我们可以使用采用高效的随机批梯度下降方法来优化这个问题,并将其用在神经网络训练自主训练中，使得神经网络参数可以自主训练并使参数稀疏化，在训练完成后可以得到已经具备充分的稀疏结构的神经网络，即使不经过后续剪枝步骤，也可以直接完成50％以上的参数剪枝力度，而且不同的层在训练过程中自发地表现出不同的稀疏程度，为剪枝提供参考指导。

T3、判断步骤T2中经加入L0正则项训练后的神经网络参数权重是否已经达到预设的剪枝比例阈值，若是，则结束流程，若不是，则执行步骤T4。

经过引入L0正则项进行训练后，神经网络已经实现50％以上的剪枝，若预设的剪枝比例阈值小于0.5，则无需再进行后续剪枝处理，若是预设的剪枝比例阈值大于0.5，则需要进一步进行剪枝处理。引入L0正则项训练形成的神经网络参数稀疏化可以在剪枝的时候让神经网络性能受到的伤害更小，可以在同样的压缩比例下，实现更好的精度保留，比如已有方法剪枝90％，损失10％，本发明方法可以在剪枝90％时，损失5％，或者说在保证不损失原始模型性能的前提下，可以做到更好的剪枝比例，比如在保证剪枝后的模型精度和原始模型相同时，现有方法可以最多剪枝93％，本发明方法可以剪枝95％。

T4、分析经加入L0正则项训练后的神经网络参数权重相较于原始神经网络参数权重的缩小的比例，用剪枝比例阈值与该缩小的比例的差值作为经加入L0正则项训练后的神经网络参数的实际剪枝比例，并根据该实际剪枝比例对加入L0正则项训练后的神经网络参数进行剪枝处理。

根据实际剪枝比例，对经加入L0正则项训练后的神经网络参数按照从小到大删除权重，直到神经网络参数权重达到剪枝比例阈值。由于神经网络包括多层数据，经加入LO正则项对神经网络进行自主训练后，神经网络数据每一层的数据参数稀疏度不同，相对于原神经网络每一层已经实现了一定程度的剪枝。优选的，分析经加入LO正则项对神经网络进行训练后的网络参数，分析确定剪枝参数阈值，针对神经网络每一层数据按照参数阈值进行剪枝处理，删掉小于剪枝参数阈值的参数，使最后的神经网络符合预设的剪枝比例阈值。

T5、对经过步骤T4剪枝处理后的神经网络进行重训练，得到符合剪枝比例阈值要求的压缩数据，神经网络模型的性能恢复接近到初始状态。因为剪枝之后神经网络毕竟丢失了一部分权重值，所以我们需要重新对剩下的权重参数再进行一定轮次的训练，让模型的精度尽可能地恢复。

通过加入L0正则项进行训练，实现了神经网络训练过程和剪枝过程的半耦合，训练过程中加入L0正则化惩罚，就可以在训练的过程中隐式地将剪枝的过程融入进去。通过加入L0正则项训练得到的神经模型在剪枝步骤中性能损失更小，能有效对抗参数量骤降对结果的影响程度；在经过剪枝之后重训练之后，模型精度可以获得大比例提升，而且重训练过程的时间开销极小，几轮迭代后便收敛到较好的精度水平。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于LO正则的神经网络剪枝方法，用于神经网络数据部署到边缘设备前的压缩处理，其特征在于，包括如下步骤：

S2、加入LO正则项对神经网络进行自主训练，使神经网络的数据参数稀疏化；

S4、对经过剪枝处理后的神经网络进行重训练。

2.根据权利要求1所述的一种基于LO正则的神经网络剪枝方法，其特征在于，所述步骤S1包括如下步骤；

S12、根据边缘设备计算能力计算边缘设备可计算的数据量；

S13、根据步骤S12中的边缘设备可计算的数据量，确定神经网络需要剪枝的数据比例，设置为剪枝比例阈值。

3.根据权利要求2所述的一种神经网络剪枝方法，其特征在于，

剪枝比例阈值＝1-边缘设备可计算的数据量/神经网络原参数权重对应数据量。

4.据1所述的一种神经网络剪枝方法，其特征在于，对经加入L0正则项训练的神经网络数据后参数权重仍未达到剪枝比例阈值的神经网络执行步骤S3-S4。

5.根据4所述的一种神经网络剪枝方法，其特征在于，所述步骤S3包括如下步骤：

6.根据权利要求5所述的一种神经网络剪枝方法，其特征在于，所述步骤S3还包括：

7.根据4所述的一种神经网络剪枝方法，其特征在于，

所述步骤S3包括如下步骤：

8.根据权利要求1-7任一所述的一种基于L0正则的神经网络剪枝方法，其特征在于，采用包含重参数和矫正函数方式的L0正则项来优化神经网络参数的方式进行神经网络训练，训练目标是进行神经网络参数优化，优化目标为：

g()＝min(I,max(O,.))

9.一种计算机可读存储介质，其特征在于，其上包含有能够实现权利要求1至8任一所述装置功能的模块。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。