CN112712176A

CN112712176A - 深度神经网络的压缩方法和装置

Info

Publication number: CN112712176A
Application number: CN202011617996.2A
Authority: CN
Inventors: 冯落落; 尹青山; 李锐; 王建华
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-27

Abstract

本发明提供了一种深度神经网络的压缩方法和装置，该方法包括：获取已训练好的深度神经网络；对所述深度神经网络进行轻量化压缩，得到第一神经网络；对所述第一神经网络进行量化，得到第二神经网络；对所述第二神经网络的权重进行霍夫曼编码，得到目标神经网络。本发明的方案通过将轻量化网络压缩算法对深度神经网络进行压缩，大大降低了深度神经网络的参数数量，同时也提高了深度神经网络的精度；同时对经过轻量化压缩后的第一神经网络进行量化和霍夫曼编码，进一步优化了目标神经网络的大小，使得目标神经网络可以更好地部署在外部设备中，以完成目标检测任务。

Description

深度神经网络的压缩方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种深度神经网络的压缩方法和装置。

背景技术

随着深度神经网络相关技术研究的迅速发展，相关领域内涌现了大批与深度神经网络相关的技术，如应用于视觉领域的卷积神经网络和应用于语音识别或自然语言处理领域的递归神经网络等，这些神经网络技术均极大地提高了相应领域的处理精度。

深度神经网络与浅层学习相比，深度神经网络的开发潜力巨大。通过深度神经网络模型的多层处理结构可以提取和分析样本的表征特征，由浅入深地逐层变换和计算样本特征并计算处理结果。通过对深度神经网络模型进行增宽增长处理，可以使深度神经网络模型获得相对更优的处理结果。

然而，深度神经网络模型的参数通常在百万、千万或上亿数量级，因此对计算和存储设备的要求较高。由于深度神经网络模型存储及计算时深度神经网络模型的参数传输等问题，限制了深度神经网络模型在移动设备上的应用。

目前，通常采用减少深度神经网络模型的参数、节点数目以及改变多样性类方法，达到压缩深度神经网络模型的目的。虽然，这样可以对神经网络模型进行一定的压缩，然而，精简后的深度神经网络模型的精度较低。

发明内容

本发明实施例提供了深度神经网络的压缩方法和装置，能够提高深度神经网络的精度。

第一方面，本发明实施例提供了深度神经网络的压缩方法，包括：

获取已训练好的深度神经网络；

对所述深度神经网络进行轻量化压缩，得到第一神经网络；

对所述第一神经网络进行量化，得到第二神经网络；

对所述第二神经网络的权重进行霍夫曼编码，得到目标神经网络。

在一种可能的设计中，所述对所述深度神经网络进行轻量化压缩，得到第一神经网络，包括：

设置初始学习率为0.01，使所述学习率随着迭代次数线性减少，直至所述深度神经网络达到收敛状态，得到第一神经网络。

采用DepthWise卷积替换所述深度神经网络中的卷积，得到第一神经网络，其中，当所述深度神经网络中的输入层自上而下均匀地分为n份时，所述DepthWise卷积的个数为所述深度神经网络中的卷积的个数的1/n。

在一种可能的设计中，所述对所述第一神经网络进行量化，得到第二神经网络，包括：

对所述第一神经网络中的参数按照预设映射规则进行映射，得到第二神经网络，其中，第二神经网络中的每个参数均不为0，第二神经网络中的参数数量小于所述第一神经网络中的参数数量，且第二神经网络中的参数数量为正整数。

第二方面，本发明实施例提供了深度神经网络的压缩装置，包括：

获取模块，用于获取已训练好的深度神经网络；

第一获得模块，用于对所述深度神经网络进行轻量化压缩，得到第一神经网络；

第二获得模块，用于对所述第一神经网络进行量化，得到第二神经网络；

目标获得模块，用于对所述第二神经网络的权重进行霍夫曼编码，得到目标神经网络。

在一种可能的设计中，所述第一获得模块，用于执行如下操作：

在一种可能的设计中，所述第二获得模块，用于执行如下操作：

第三方面，本发明实施例提供了深度神经网络的压缩装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述所述的方法。

第四方面，本发明实施例提供了计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述所述的方法。

由上述方案可知，本发明提供的深度神经网络的压缩方法和装置，通过将轻量化网络压缩算法对深度神经网络进行压缩，大大降低了深度神经网络的参数数量，同时也提高了深度神经网络的精度；同时对经过轻量化压缩后的第一神经网络进行量化和霍夫曼编码，进一步优化了目标神经网络的大小，使得目标神经网络可以更好地部署在外部设备中，以完成目标检测任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的深度神经网络的压缩方法的流程图；

图2是本发明一个实施例提供的深度神经网络的压缩装置所在设备的示意图；

图3是本发明一个实施例提供的深度神经网络的压缩装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于本领域技术人员理解，下面对本申请实施例中涉及到的基本概念介绍如下。

一个深度学习模型通常包含数以百万计甚至千万计的参数和十几层甚至几十层的网络，通常需要非常大的计算代价和存储空间。神经网络压缩是指通过改变网络结构或利用量化、近似的方法来减少网络的参数或存储空间,在不影响神经网络性能的情况下，降低网络计算代价和存储空间。

神经网络压缩是深度学习技术的重要组成部分。网络压缩技术对于神经网络的工业应用至关重要，这是因为目前的移动设备上的带宽比较有限，较小的模型更有利于网络传输；二是目前的移动设备上的计算能力和电池电量比较有限，小的模型更有利于提升计算效率和降低电池损耗。

然而，在目前神经网络压缩方法中，压缩后的神经网络的精度不够高。为解决该技术问题，本申请一个实施例提供了一种深度神经网络的压缩方法。

图1是本发明一个实施例提供的深度神经网络的压缩方法的流程图。如图1所示，该方法可以包括以下步骤：

步骤101、获取已训练好的深度神经网络。

在本步骤中，训练的过程例如包括：

S1、将训练数据集中的每个样本值输入至预设的神经网络，对所述神经网络进行深度学习训练，通过所述神经网络输出的每个样本值的训练值，对所述神经网络中预设的至少一个参数进行更新；

S2、获取所述深度学习训练过程中，所述至少一个参数中每个参数的至少一个更新值；

S3、针对所述至少一个参数中的任一参数，对该参数的至少一个更新值进行变分后验推断，获取该参数的变分后验分布的均值，并用该均值替换该参数。

在本实施例中，通过对预设的神经网络进行深度学习训练，对所述神经网络中预设的至少一个参数进行更新，获取了所述神经网络每个参数更新过程中的至少一个更新值，所述神经网络中每个参数的至少一个更新值表征了该参数的变化规律，所述神经网络中每个参数的变分推断后验分布的均值相对该参数更加准确，因此在所述神经网络更新后的每个变分推断后验分布的均值的基础上，对所述神经网络进行压缩，极大提升了压缩后的神经网络预测准确率。

在步骤S1中，需要说明的是，预设的至少一个参数可以为所述神经网络的所有参数，也可以是所述神经网络的其中一部分参数。对所述神经网络进行深度学习训练的算法有多种，在此不进行限定。举例来说，通过梯度下降算法对所述神经网络进行深度学习训练。

在步骤S2中，所述深度学习训练过程中，所述至少一个参数中每个参数会产生很多个更新值，步骤S2中获取的就是这些更新值。

在步骤S3中，针对所述至少一个参数中的任一参数w为例，本申请采用以下方法对w进行变分推断。在贝叶斯模型中，多情况下需要求解后验概率(Posterior)。然而，在实际模型中很难通过简单的贝叶斯理论求得后验概率的公式解，这时就需要用近似解来代替后验概率。

针对神经网络中的参数w，首先设定其先验概率分布为p(w)、变分后验估计为q(w)。其中，p(w)和q(w)的分布不做限定，举例来说，p(w)服从均值为0其方差为v的高斯分布，其中z服从对数-均匀分布p(z)，对数-均匀分布即为对一个均匀分布取对数的分布。本发明实施例可以采用q(w|z)近似p(w|z)并进行变分推断，变分推断执行完毕后，会有w的一个变分后验分布,然后将原始的参数w替换为变分推断的后验w'。

此外，本步骤中训练的神经网络模型可以是用于图像分类的VGG、ResNet、MobileNet，还可以是用于目标检测的SSD、Yolov3等神经网络模型，在此不进行限定。

步骤102、对所述深度神经网络进行轻量化压缩，得到第一神经网络。

在本步骤中，通过对深度神经网络进行轻量化压缩，使得神经网络具有更少的参数量，并且能够保持较高的精度。

在具体实现时，轻量化压缩的一种方式例如可以包括如下步骤：

在该实施例中，通过设定初始学习率为0.01进行训练，这种方式得到的第一神经网络在分类精度上可以保证一定精度，但其精度并不如采用DepthWise卷积代替深度神经网络中的卷积的方式高。

为保证神经网络具有更少的参数量，并且能够保持较高的精度，轻量化压缩的一种方式例如可以包括如下步骤：

在本实施例中，DepthWise卷积相比其他的卷积，在获得相同的featuremap(特征图)时，参数数量会少很多。例如，深度神经网络中的输入层自上而下均匀地分为n份，在输入通道为M，输出通道为N，卷积核的大小为K时，其他卷积的参数个数为M*N*K*K，如果是DepthWise卷积，参数个数为(M/n)*(N/n)*K*K。由此可见，DepthWise的参数数量要少很多。

步骤103、对所述第一神经网络进行量化，得到第二神经网络。

在本步骤中，神经网络模型在部署到预先设定的设备之前，需要利用量化技术对神经网络模型进一步压缩，例如可以把神经网络模型中的Float32类型权重量化到int8类型。

在具体实现时，步骤103例如可以包括如下步骤：

在本实施例中，通过预设映射规则，将第一神经网络中的P个参数映射为第二神经网络中的Q个参数，即将P个参数转化为更少数目的不为0的参数，进一步降低了神经网络的参数数目。举例来说，将(s-0.5，s+0.5]映射为s，s为正整数，参数一为1.1、参数二为1.2、参数三为1.3，将参数一、参数二、参数三均映射为1。

步骤104、对所述第二神经网络的权重进行霍夫曼编码，得到目标神经网络。

在本步骤中，霍夫曼编码(Huffman Coding)是一种编码方式，该编码方式是可变字长编码(VLC)的一种，其可以完全依据字符出现概率来构造异字头的平均长度最短的码字。通过对第二神经网络的权重进行霍夫曼编码，减少了第二神经网络中的参数的存储空间，从而使得压缩后的神经网络存储空间和计算代价更小。

在本发明实施例中，通过将轻量化网络压缩算法对深度神经网络进行压缩，大大降低了深度神经网络的参数数量，同时也提高了深度神经网络的精度；同时对经过轻量化压缩后的第一神经网络进行量化和霍夫曼编码，进一步优化了目标神经网络的大小，使得目标神经网络可以更好地部署在外部设备中，以完成目标检测任务。

本发明实施例提出的深度神经网络压缩方法对现有技术进行了很大的优化，现有的神经网络压缩技术中，神经网络压缩和神经网络预测准确率的优化没有很好地整合起来，神经网络压缩通常作为一个后续处理步骤。本发明实施例提出了一种全新的神经网络压缩方法，有机融合了神经网络压缩和神经网络准确率的提升，作为一个自然的整体进行优化，可以显著提升神经网络压缩对效果，以及打破神经网络压缩的技术壁垒。

本发明实施例提出的上述深度神经网络压缩方法不仅具有坚实的理论基础，在实际应用中也展现出了很好的效果。在实际实验中，在稠密的前馈网络、卷积网络以及递归神经网络中实验了上述方法，从实验结果可以发现该方法可以在更大的压缩比的条件下实现和其他神经网络的压缩算法类似的实际应用效果，证明该方法具有很强的优越性。

深度学习在过去几年，在许多计算机视觉领域发生了革命性的变化，包括图像分类、目标检测、人脸识别等领域。但是训练好的神经网络模型往往很大，例如Vgg16，光权重文件就好几百兆。因此神经网络模型往往需要部署到云端，这样人们在使用模型的时候，往往是通过把数据上传到云端，然后把云端训练后的结果传输到边缘设备端，然后进行展示。但是这种方式是存在一定问题的，例如像自动驾驶这种对实时性要求很高的设备，云端传输延迟会对安全性能造成很大问题，还有一些在网络条件不可达的地方，神经网络算法就不能使用了。因此为了解决该问题，本发明实施例将神经网络算法直接部署到边缘设备端。深度学习部署到边缘设备端面临计算资源有限，存储空间有限的问题，本发明实施例利用上述方案将神经网络模型部署到边缘设备端，可以实现一个很好的效果。

如图2和图3所示，本发明实施例提供了一种深度神经网络的压缩装置所在的设备和深度神经网络的压缩装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本发明实施例提供的深度神经网络的压缩装置所在设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、和非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

如图3所示，本实施例提供的深度神经网络的压缩装置，包括：

获取模块301，用于获取已训练好的深度神经网络；

第一获得模块302，用于对所述深度神经网络进行轻量化压缩，得到第一神经网络；

第二获得模块303，用于对所述第一神经网络进行量化，得到第二神经网络；

目标获得模块304，用于对所述第二神经网络的权重进行霍夫曼编码，得到目标神经网络。

在本发明实施例中，获取模块301可用于执行上述方法实施例中的步骤101，第一获得模块302可用于执行上述方法实施例中的步骤102，第二获得模块303可用于执行上述方法实施例中的步骤103，目标获得模块304可用于执行上述方法实施例中的步骤104。

在本发明的一个实施例中，所述第一获得模块302，用于执行如下操作：

在本发明的一个实施例中，所述第二获得模块303，用于执行如下操作：

可以理解的是，本发明实施例示意的结构并不构成对深度神经网络的压缩装置的具体限定。在本发明的另一些实施例中，深度神经网络的压缩装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种深度神经网络的压缩装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行本发明任一实施例中的深度神经网络的压缩方法。

本发明实施例还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的深度神经网络的压缩方法的指令。具体地，可以提供配有存储介质的方法或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该方法或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作方法等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.深度神经网络的压缩方法，其特征在于，包括：

获取已训练好的深度神经网络；

对所述深度神经网络进行轻量化压缩，得到第一神经网络；

对所述第一神经网络进行量化，得到第二神经网络；

2.根据权利要求1所述的方法，其特征在于，所述对所述深度神经网络进行轻量化压缩，得到第一神经网络，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述深度神经网络进行轻量化压缩，得到第一神经网络，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述对所述第一神经网络进行量化，得到第二神经网络，包括：

5.深度神经网络的压缩装置，其特征在于，包括：

获取模块，用于获取已训练好的深度神经网络；

6.根据权利要求5所述的装置，其特征在于，所述第一获得模块，用于执行如下操作：

7.根据权利要求5所述的装置，其特征在于，所述第一获得模块，用于执行如下操作：

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述第二获得模块，用于执行如下操作：

9.深度神经网络的压缩装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一项所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4中任一项所述的方法。