CN110309919A

CN110309919A - 基于结构化贝叶斯后验概率估计的神经网络压缩方法

Info

Publication number: CN110309919A
Application number: CN201910615130.9A
Authority: CN
Inventors: 王�琦; 李学龙; 郭年辉
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-08

Abstract

本发明公开了一种基于结构化贝叶斯后验概率估计的神经网络压缩方法，用于解决现有神经网络压缩方法存在非结构化压缩的技术问题。技术方案是通过重参数技巧在训练过程中对模型参数w引入方差可学习的高斯噪声，将神经网络从数值优化问题变换为概率推理问题，实现基于因果推理的贝叶斯参数估计。同时采用分组概率估计的约束方法，实现分组的参数不确定性估计，结合稀疏先验，实现结构化的分组参数压缩，更有利于模型的移动端部署。本发明从分组贝叶斯估计的角度实现了神经网络参数的稀疏学习，解决了现有神经网络压缩方法非结构化压缩的技术问题。

Description

基于结构化贝叶斯后验概率估计的神经网络压缩方法

技术领域

本发明涉及一种神经网络压缩方法，特别涉及一种基于结构化贝叶斯后验概率估计的神经网络压缩方法。

背景技术

深度神经网络已经在多个领域如计算机视觉，语音识别，机器人控制等取得了显著的成功。然而，有着海量参数的神经网络模型容易对训练数据过拟合而在测试时表现较差。因此，在模型训练时引入合适的正则化是必要的。其中最常用的一种正则化方式对神经网络推理过程引入噪声，如通过在训练阶段随机抛弃神经元及其对应的链接，实现对神经网络中协同自适应性问题的正则化效果，该方法被称为二值Dropout。另一种能达到相同效果的替代方法为对神经元的输入叠加乘性高斯噪声，这种方法被称为高斯Dropout。最近的研究表明，高斯Dropout可以被看做贝叶斯正则化的一种特殊情况，因此通过对神经网络引入高斯Dropout将神经网络转化为支持贝叶斯理论分析方法的概率模型，这为通过贝叶斯估计实现神经网络参数不确定分析提供了有利基础。

神经网络参数压缩从参数稀疏类型的角度，可以分为结构化压缩与非结构化压缩两个方向，其中，“Han S,Mao H,Dally W J.Deep Compression:Compressing Deep NeuralNetworks with Pruning,Trained Quantization and Huffman Coding[J].Fiber,2015,56(4):3--7.”为代表的非结构化压缩模型压缩算法已经被证明有效并能实现高度稀疏的神经网络结构。尽管高度稀疏是神经网络压缩的重要目标之一，但这样的非结构化稀疏并不意味着模型加速，因为由非结构化的稀疏矩阵并不能在现有的神经网络软件库中得到很好的支持。与此同时，由于移动硬件设备在计算和存储资源上的限制，同时实现参数压缩与计算加速是十分重要的，实现对深度学习模型的有效压缩是大规模深度学习应用的重要基础。

发明内容

为了克服现有神经网络压缩方法存在非结构化压缩的不足，本发明提供一种基于结构化贝叶斯后验概率估计的神经网络压缩方法。该方法通过重参数技巧在训练过程中对模型参数w引入方差可学习的高斯噪声，将神经网络从数值优化问题变换为概率推理问题，实现基于因果推理的贝叶斯参数估计。同时采用分组概率估计的约束方法，实现分组的参数不确定性估计，结合稀疏先验，实现结构化的分组参数压缩，更有利于模型的移动端部署。本发明从分组贝叶斯估计的角度实现了神经网络参数的稀疏学习，解决了现有神经网络压缩方法非结构化压缩的技术问题。

本发明解决其技术问题所采用的技术方案：一种基于结构化贝叶斯后验概率估计的神经网络压缩方法，其特点是包括以下步骤：

步骤一、构建常规神经网络参数，与此同时，为每一个参数配置一个基于梯度调整的参数α，作为后验概率分布的方差。

步骤二、在每一次前向推理时，利用中心极限定理得到参数后验概率分布以及参数层输出的分组后验概率分布，根据步骤一参数层输出后验概率分布的公式化表示，再结合高斯分布线性可加性，得到分组表示的组合高斯分布表示，并使用重参数技巧得到所述组合高斯分布的实际采样结果：

步骤三、将采样得到的参数层输出和剪枝掩码相乘，消除已经被剪枝参数在前向传播中的影响，再将计算结果作为下一层的输入，当再次进行线性层推理时，重复步骤二。

步骤四、完成一次前向传播后，计算需要优化的变分下限，包括对数似然期望值、后验概率分布与先验分布间的KL散度约束值。

步骤五、根据随机梯度下降对神经网络参数进行调整，对步骤四得到的当前迭代步的变分下限最小化处理。

步骤六、至此完成了模型参数W与分布参数α的调整，根据分布参数α的数值，对用于剪枝的掩码进行更新并重新回到步骤二：

logα_ij＝3

步骤七、根据最终掩码对神经网络进行剪枝，得到压缩过后的神经网络结构及其参数。

本发明的有益效果是：该方法通过重参数技巧在训练过程中对模型参数w引入方差可学习的高斯噪声，将神经网络从数值优化问题变换为概率推理问题，实现基于因果推理的贝叶斯参数估计。同时采用分组概率估计的约束方法，实现分组的参数不确定性估计，结合稀疏先验，实现结构化的分组参数压缩，更有利于模型的移动端部署。本发明从分组贝叶斯估计的角度实现了神经网络参数的稀疏学习，解决了现有神经网络压缩方法非结构化压缩的技术问题。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于结构化贝叶斯后验概率估计的神经网络压缩方法的流程图。

图2是本发明方法与其他两种方法压缩及加速结果的对比图。

具体实施方式

参照图1。本发明基于结构化贝叶斯后验概率估计的神经网络压缩方法具体步骤如下：

logα_ij＝3

本发明的效果通过以下仿真实验做进一步的说明。

1、仿真条件。

本发明是在中央处理器为i5-3470 3.2GHz CPU、内存16G、NVIDIA 1080TIGPU、WINDOWS 10操作系统上，运用Pytorch软件进行的仿真。

仿真中使用的数据及模型分别为CIFAR10数据集以及VGG模型。

2、仿真内容。

为了验证算法的有效性，选择与两种算法进行对比。分别为SparseVD压缩算法与SBP压缩算法。SparseVD检测算法由Aly等人在文献“Molchanov D,Ashukha A,VetrovD.Variational Dropout Sparsifies Deep Neural Networks[J].2017.”中提出。SBP压缩算法由Neklyudov等人在文献“Neklyudov K,Molchanov D,Ashukha A,et al.Structuredbayesian pruning via log-normal multiplicative noise[C]//Advances in NeuralInformation Processing Systems.2017:6778-6787.”中提出。

在验证结果集上，为了体现公平的原则，三种算法均使用同一种数据及基础模型库，由VGG实验室发布的CIFAR10公开数据集以及VGG16模型。压缩及加速结果显示在图2中。

相比于其他两种算法的结果，我们(Ours)的结果不论是在各层通道压缩数量，还是在CPU或者GPU以及理论加速效果，都有相较于其他两种算法更好的效果。

总的来说，本发明具有高压缩度，精度丢失少的特点，通过以上仿真实验也可以验证本发明的有效性。

Claims

1.一种基于结构化贝叶斯后验概率估计的神经网络压缩方法，其特征在于包括以下步骤：

步骤一、构建常规神经网络参数，与此同时，为每一个参数配置一个基于梯度调整的参数α，作为后验概率分布的方差；

步骤三、将采样得到的参数层输出和剪枝掩码相乘，消除已经被剪枝参数在前向传播中的影响，再将计算结果作为下一层的输入，当再次进行线性层推理时，重复步骤二；

步骤四、完成一次前向传播后，计算需要优化的变分下限，包括对数似然期望值、后验概率分布与先验分布间的KL散度约束值；

步骤五、根据随机梯度下降对神经网络参数进行调整，对步骤四得到的当前迭代步的变分下限最小化处理；

logα_ij＝3