CN107832847A

CN107832847A - 一种基于稀疏化后向传播训练的神经网络模型压缩方法

Info

Publication number: CN107832847A
Application number: CN201711012694.0A
Authority: CN
Inventors: 孙栩; 任宣丞; 马树铭; 位冰镇
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-03-23

Abstract

本发明公布了一种神经网络模型的稀疏化后向传播压缩方法，属于信息技术领域，涉及机器学习和深度学习技术。在后向传播过程中，神经网络模型的每层利用上一层的输出梯度作为输入计算梯度，进行k大值稀疏化处理，得到稀疏化处理后的向量和稀疏回传的次数，记录k个值对应的索引；利用稀疏化梯度对神经网络的参数进行更新；根据k大值下标索引，删除回传次数少的神经元，对模型进行压缩。本发明在后向传播过程中采用基于k大值的稀疏化方法，通过消除不活跃的神经元，压缩模型大小，提高深度神经网络的训练和推理速度，并保持良好的精度。

Description

一种基于稀疏化后向传播训练的神经网络模型压缩方法

技术领域

本发明属于信息技术领域，涉及机器学习和深度学习技术，尤其涉及一种基于k大值的稀疏化(Sparsify)神经网络模型的压缩算法。

背景技术

神经网络模型的训练过程分为两个步骤：前向传播(Forward Propagation)和后向传播(Backward Propagation)。前向传播计算神经网络各层的输出，后向传播根据前向传播输出结果的梯度计算模型参数的梯度，最后神经网络模型利用这些梯度对参数进行更新。然而在实际应用中，部署的模型只进行推理操作，即前向传播操作。

现有的神经网络模型训练方法，模型的大小，或者说维度，是预先根据经验值设定的。方法的弊端是模型往往过于庞大，一方面使得神经网络的训练和推理耗时长，计算量和耗电量大；另一方面，会引入大量与实例相关度低的信息，从而使训练得到的神经网络模型的准确度较低，产生过拟合(Overfitting)现象。针对上述方法存在的问题，陆续有一些模型压缩算法提出，如针对前馈神经网络的权值裁剪算法、针对循环神经网络的权值渐进裁剪算法、针对卷积神经网络的参数量化方法等；然而，由于对于深度神经网络模型中的任意一层，上述算法都需要单独指定超参数来控制该层最后的维度，因此，这些现有方法在实际应用中并不灵活，难于适用于深度神经网络的训练。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于稀疏化后向传播训练的神经网络模型压缩方法，是一种基于k大值的稀疏化后向传播的模型压缩方法，通过消除与实例相关度低的参数来压缩神经网络的维度，以提高模型在实际推理中的速度，并保持良好的精度。

本发明提供的技术方案是：

一种神经网络模型的稀疏化后向传播压缩方法，在后向传播过程中采用基于k大值的稀疏化方法，通过消除不活跃的神经元，压缩模型大小，提高深度神经网络的训练和推理速度，保持良好效果，包括如下步骤：基于稀疏化后向传播训练的神经网络模型压缩方法

1)前向传播过程：

在前向传播的过程中，神经网络的每一层接受上层的输入x，通过给定的线性变换输出y和非线性变换输出z，并作为下一层的输入，最后一层的输出为整个网络的输出结果。前向传播的网络可以是前馈神经网络(MLP)，循环神经网络(RNN)或长短时记忆网络(LSTM)等采用后向传播(如图3)进行梯度计算的神经网络模型。

2)后向传播过程：

神经网络模型每一层的后向传播需要利用上一层的输出梯度(1≤i≤n,n为向量维度)作为输入计算梯度，本发明在后向传播过程中对输出梯度进行k大值稀疏化(Sparsify)的处理，并记录每一维度稀疏回传的次数(前k大值的下标索引对应的向量S的累积)，本发明称之为神经元的活跃程度。即保留前向传播输出梯度的绝对值(absolutevalue,i.e.magnitude)最大的k个值(k的大小小于向量z的维度大小)，剩余的梯度值全部为0，并将前k大值下标索引以向量的形式S记录下来。例如则其中为上一层梯度，为2大值稀疏化处理后的梯度，S为前2大值下标索引对应的向量(前k大值下标对应的值为1，其余下标对应的值为0)。利用这个稀疏化处理后的向量进行梯度计算得到参数梯度，由于经过稀疏化处理，梯度计算时只需要计算与前k大值有关的部分，剩余值为0的部分不需要参与计算，可以降低后向传播的计算量；并且记录得到的神经元活跃程度S将有助于后续压缩过程中确定哪些神经元是作用不大的。

具体地，本发明通过式1对输出梯度的绝对值做稀疏化处理：

其中，σ′_i是稀疏化处理后的向量；topk代表一个k大值稀疏化操作，即保留输入向量的所有维度的绝对值中前k大的值(k的大小小于向量z的维度n)，剩余的值全部为0，例如则利用这个稀疏化处理后的向量σ′_i进行梯度计算得到参数梯度。

利用经式1进行稀疏化处理后的向量σ′_i计算参数矩阵W的梯度，计算公式为式2：

其中，表示参数矩阵W的梯度中行标为i、列标为j的值，表示输入向量中下标为j的值，σ′_i表示输出向量z经过k大值稀疏化后的梯度中下标为i的值，{t₁,t₂,…,t_k}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标，x^T表示对向量进行转置，由列向量变为行向量。

利用经式1进行稀疏化处理后的向量σ′_i计算输入向量x的梯度，计算公式为式3：

其中，表示输入向量x的梯度中下标为i的值，表示参数矩阵中行标为i、列标为j的值，σ′_j表示输出向量z经过k大值稀疏化后的梯度中下标为j的值，{t₁,t₂,…,t_k}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标，Σ_j表示以下标j求和，W^T表示对矩阵进行转置。

同时，本发明通过式4对前k大值下标索引对应的向量S进行累计，该值将用于后续的压缩过程：

S_i+＝1ifi∈{t₁,t₂,…,t_k}else0 (式4)

其中，S_i表示向量S中下标为i的值，{t₁,t₂,…,t_k}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标。

当神经网络有多层时，本层的输入向量x即为下层的输出向量，因此输入向量x的梯度可以作为下一层的输出结果梯度传递下去；同时针对每一层，将有一个k大值下表索引累积向量，用于之后的压缩过程。

采用本发明方法训练神经网络模型，由于每一层的梯度都经过了topk稀疏化处理(式1)，只保留了与训练实例最相关的信息，可以大幅度地降低计算量和计算时间，并提高模型的准确度。

3)根据2)中后向传播求得的稀疏化梯度，对神经网络的参数进行更新：

本发明方法适用于所有采用了标准后向传播(图3)的训练算法，例如亚当(Adam)训练算法、自适应次梯度(Adagrad)训练算法、随机梯度下降算法(SGD)等。由于稀疏化梯度只保留了与实例最相关的信息，因此可以提高模型训练的可靠性。

需要注意的是，对于亚当(Adam)训练算法、自适应次梯度(Adagrad)训练算法这类的更新策略，由于它们对于每个参数维护了额外的历史梯度信息，当模型压缩发生时，模型的计算模式发生了巨大的改变，这些历史梯度不再具有指导意义，因而这些信息应当归零。

本发明方法适用于所有采用了标准后向传播(图3)的神经网络模型，例如前馈神经网络(MLP)，循环神经网络(RNN)，长短时记忆网络(LSTM)等。

4)模型压缩过程：

当训练了足够的样例之后，即上述步骤1)-3)循环进行了多次后，本发明提出根据2)得到的k大值下标索引，通过删除回传次数较少的神经元(neuron)，即模型输出一维所对应的参数，对模型进行压缩。

具体地，本发明通过式5确定要删除的神经元回传次数的上界θ：

θ＝t_p*prune_rate (式5)

其中，θ为回传次数的上界，t_p为在这一个压缩统计周期中，训练过的样例数目，即1)-3)循环的次数，是每个神经元可能回传的最大次数；prune_rate为大于0小于1的参数，用于控制边界的浮动。

对于回传次数小于θ的神经元，本发明将该神经元对应的参数删除；对于回传次数大于θ的神经元，在该压缩时刻，其参数将得到保留。在压缩完成后，该层对应的k大值下表索引累积向量，即S将被归零，以便记录下一个模型压缩周期中神经元的活跃程度。

值得说明的是，本发明所说的压缩包括但不限于对本层的压缩。在一个具有多层的神经网络模型中，当压缩较低一层时，较高一层也会被压缩。其机制是，当压缩较低一层时，其输出的维度也相应的减小，即那些被压缩的神经元的输出不再存在；此时较高一层的输入维度也减小，该层对应被删除输入维度的参数也应当被删除，但该操作不会影响到较高层的输出维度。

容易看出，通过本发明，模型可以被实质性的压缩，即整行、整列的参数被删除，前向传播的计算量大幅减少。这不仅导致了训练速度的提升；更重要的是提升了推理的速度。由于训练中排除了不相关信息的干扰，压缩后的模型的效果较未压缩模型也有了进一步的改进。

需要注意的是，采用本发明训练具有多层的神经网络模型，每一层的大小是在训练中自适应的确定的，且对于多层只需要一个prune_rate即可实现获得层维度不同的多层模型的目标。其作用机制是，对于不同层，在每个样例的后向传播过程中，其k大值累积情况是不同的，这反映了不同层的神经元不同的活跃特征。对于某些层，每个样例的k大值可能是相似，那么得到的层的维度将比k略大；对于另一些层，每个样例的k大值可能是差异较大的，当累积的时候，每个维度上的得到的次数将会偏低，因而最终的维度也会较小。

本发明方法适用于所有采用了标准后向传播(图3)的神经网络模型，例如前馈神经网络(MLP)，循环神经网络(RNN)，长短时记忆网络(LSTM)等，但具体应用的方式可能不同。

例如，对于长短时记忆网络，本发明可以如下应用：

长短时记忆网络可以由如下公式表达：

其中，x_t表示t时刻时的输入向量，h_t表示t时刻的输出向量，一般称作隐层输出，W_f,W_i,W_o,W_C分别表示4个参数矩阵，b_f,b_i,b_o,b_C表示4个参数偏移(bias)向量，σ表示sigmoid函数，tanh表示tanh函数。

其中含有4个矩阵乘法，即可以看作存在4个前述单元；然而由于式6中按位乘法的存在，4单元间存在着约束关系，即4个单元的维度必须一致。为符合这一约束关系，我们可以将4个单元的k大值累积向量合并为1个，在压缩过程中，根据这一合并的k大值累积向量同时压缩4个单元。这一应用恰恰说明了本发明在应用上的灵活性，只要采用了标准后向传播的神经网络模型，都可以应用本发明进行压缩。

与现有技术相比，本发明的有益效果是：

本发明通过基于k大值的稀疏化后向传播的训练方法来降低训练时间和计算量，以及提高神经网络的准确度；并通过累计的k大值下标进行进行模型压缩，进一步降低了前向传播的计算量，缩短了模型推理时间。通过本发明提供的后向传播方法和模型压缩方法，减少了神经网络的训练时间，和推理时间；尤其减少了神经网络模型的计算量、存储量和耗电量，模型压缩没有降低模型的准确度，甚至由于更加充分的训练了至关重要的模型参数，神经网络模型的准确度得到了提高。

附图说明

图1是本发明提供的一种基于k大值的稀疏化后向传播的模型压缩方法的流程框图。

图2是前向传播过程；

其中，(a)为前向传播计算流程；(b)为前向传播概念示意图。

图3是现有方法的后向传播过程；

其中，(a)为现有后向传播具体计算流程(参数矩阵的梯度计算)；(b)为现有后向传播具体计算流程(输入向量的梯度计算)；(c)为现有后向传播的概念图。

图4是本发明方法中的后向传播；

其中，(a)为本发明方法的稀疏化后向传播具体计算流程(参数矩阵的稀疏化梯度计算)；(b)为本发明方法的稀疏化后向传播具体计算流程(输入向量的稀疏化梯度计算)；(c)为本发明方法的稀疏化后向传播的概念图。

图5是本发明中基于活跃程度的神经元删除的模型压缩示意图。

图6是本发明经过模型压缩后的前向传播和稀疏化后向传播过程；

其中，(a)为经过模型压缩后的前向传播过程；(b)为经过模型压缩后的稀疏话后向传播过程。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种神经网络模型的稀疏化后向传播训练方法，是一种基于k大值的稀疏化后向传播的训练方法，图1是本发明方法的流程框图。

神经网络最基本的计算单元是一个线性变换加上一个非线性变换，因此，具体实施以最基本的神经网络计算单元为例，计算公式如下：

y＝Wx

z＝σ(y)

其中，W是模型的参数矩阵，x是输入向量，y是线性变换后的输出，σ是非线性变换的函数，z是非线性变换后的输出。

本发明提供的神经网络模型的稀疏化后向传播训练方法包括如下步骤：

1)通过前向传播过程计算深度神经网络每一层的结果z：

图2示意了前向传播过程。给定输入m维向量x，n乘m维参数矩阵W，先通过线性变换得到中间结果y(n维)，再通过非线性变换函数σ得到神经网络的输出z(n维)；

2)后向传播过程：

图3示意了现有的后向传播过程，其中，(a)为现有后向传播具体计算流程(参数矩阵的梯度计算)；(b)为现有后向传播具体计算流程(输入向量的梯度计算)；(c)为现有后向传播的概念图。图4示意了本发明方法中的后向传播过程，其中，(a)为本发明方法的稀疏化后向传播具体计算流程(参数矩阵的稀疏化梯度计算)；(b)为本发明方法的稀疏化后向传播具体计算流程(输入向量的稀疏化梯度计算)；(c)为本发明方法的稀疏化后向传播的概念图。

本发明中，后向传播(如图4)时需要利用前向传播的输出梯度计算输入x和参数矩阵W的梯度。与现有的后向传播方法(图3)不同，本发明通过式1对输出梯度的绝对值做稀疏化处理：

其中，topk代表一个K大值稀疏化操作，即保留输入向量的所有维度的绝对值中前k大的值(k的大小小于向量z的维度n)，剩余的值全部为0，例如则利用这个稀疏化处理后的向量σ′_i进行梯度计算得到参数梯度。

利用式1进行稀疏化处理后的向量σ′_i计算参数矩阵W的梯度，计算公式为式2：

利用经1进行稀疏化处理后的向量σ′_i计算输入向量x的梯度，计算公式为式3：

其中，{t₁,t₂,…,t_k}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标。

S_i+＝1ifi∈{t₁,t₂,…,t_k}else0 (式4)

当神经网络有多层时，本层的输入向量x即为下层的输出向量，因此输入向量x的梯度可以作为下一层的输出结果梯度传递下去。

3)根据求得的稀疏化梯度对神经网络的参数进行更新。

4)模型压缩过程：

图5示意了根据累积的k大值下标进行基于阈值的压缩的概念图。

具体地，本发明通过式5确定要删除的神经元回传次数的阈值θ：

θ＝t_p*prune_rate (式5)

其中t_p为在这一个压缩统计周期中，训练过的样例数目，即1)-3)循环的次数，是每个神经元可能回传的最大次数；prune_rate为大于0小于1的参数，用于控制边界的浮动。

对于回传次数小于θ的神经元，对应图5中颜色较浅的神经元，本发明将该神经元对应的参数删除；对于回传次数大于θ的神经元，在该压缩时刻，其参数将得到保留。在压缩完成后，该层对应的k大值下表索引累积向量，即S将被归零，以便记录下一个模型压缩周期中神经元的活跃程度。

图6进一步示意了当模型压缩后，模型训练的实际过程。其中左侧为模型压缩后的前向传播，可见由于神经元的减少，计算大大简化；右侧为模型压缩后的稀疏后向传播的示意，可见模型压缩并不影响稀疏后向的实施。

需要注意的是，公布实例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种神经网络模型的稀疏化后向传播压缩方法，通过在后向传播过程中采用基于k大值的稀疏化方法，消除不活跃的神经元，压缩模型大小，从而提高深度神经网络的训练和推理速度；包括如下步骤：

1)在前向传播的过程中，神经网络模型的每一层接受上层的输入x，通过线性变换输出y、通过非线性变换输出z，作为下一层的输入；最后一层的输出为网络输出结果；

2)在后向传播过程中，执行如下步骤：

21)神经网络模型的每一层利用上一层的输出梯度(1≤i≤n,n为向量维度)作为输入计算梯度，对输出梯度进行k大值稀疏化处理，得到稀疏化处理后的向量；并记录每一维度稀疏回传的次数，记为神经元的活跃程度，用于在后续压缩过程中确定神经元的作用；即保留前向传播输出梯度的绝对值最大的k个值(k小于向量z的维度大小)，剩余的值全部为0，并将这k个值对应的索引记录下来；

具体通过式1对输出梯度的绝对值做稀疏化处理：

其中，σ′_i是稀疏化处理后得到的向量；topk代表一个k大值稀疏化操作，即保留输入向量的所有维度的绝对值中前k大的值，k的大小小于向量z的维度n，剩余的值设为0；

22)利用稀疏化处理后得到的向量σ′_i进行梯度计算，得到参数梯度；

利用式2计算参数矩阵W的梯度：

其中，表示参数矩阵W的梯度中行标为i、列标为j的值；表示输入向量中下标为j的值，σ′_i表示输出向量z经过k大值稀疏化后的梯度中下标为i的值；{t₁,t₂,…,t_k}(1≤k≤n)代表的所有维度的绝对值中前k大的值的下标；x^T表示对向量进行转置，由列向量变为行向量；

利用式3计算输入向量x的梯度：

其中，表示输入向量x的梯度中下标为i的值；表示参数矩阵中行标为i、列标为j的值；σ_j′表示输出向量z经过k大值稀疏化后的梯度中下标为j的值；Σ_j表示以下标j求和；W^T表示对矩阵进行转置；

23)通过式4对前k大值下标索引进行累计，用于后续的压缩过程：

S_i+＝1 if i∈{t₁,t₂,…,t_k}else 0 (式4)

其中，S_i表示S_i向量S中下标为i的值；

当神经网络有多层时，本层的输入向量x即为下层的输出向量；输入向量x的梯度可作为下一层的输出结果梯度传递下去；每一层均有一个k大值下表索引累积向量，用于之后的压缩过程；

3)根据步骤2)中后向传播求得的稀疏化梯度，对神经网络的参数进行更新，可用于所有采用标准后向传播的训练算法，由此提高模型训练的可靠性；

4)模型压缩过程：上述步骤1)～3)循环执行多次后，根据步骤2)得到的k大值下标索引和神经元的活跃程度，删除回传次数少的神经元，对模型进行压缩。

2.如权利要求1所述神经网络模型的稀疏化后向传播压缩方法，其特征是，步骤4)中，具体通过式5确定要删除的神经元回传次数的上界θ：

θ＝t_p*prune_rate (式5)

其中，t_p为在这一个压缩统计周期中训练过的样例数目，即循环次数，是每个神经元可能回传的最大次数；prune_rate为大于0小于1的参数，用于控制边界的浮动；

删除回传次数小于θ的神经元对应的参数；对于回传次数大于θ的神经元，在该压缩时刻，保留其参数；

在压缩完成后，该层对应的k大值下表索引累积向量S被归零，以便记录下一个模型压缩周期中神经元的活跃程度。

3.如权利要求1所述神经网络模型的稀疏化后向传播压缩方法，其特征是，所述压缩包括但不限于对本层的压缩；在具有多层的神经网络模型中，当压缩较低一层时，其输出的维度相应减小，被压缩的神经元的输出不再存在；此时较高一层的输入维度也减小，该层对应被删除输入维度的参数被删除，较高一层的输出维度不受影响。

4.如权利要求1所述神经网络模型的稀疏化后向传播压缩方法，其特征是，当训练具有多层的神经网络模型时，在训练中每一层的大小是自适应的；对于不同层，在后向传播过程中，k大值累积情况不同，反映不同层神经元的活跃特征。