CN111582471A

CN111582471A - 一种神经网络模型压缩方法及装置

Info

Publication number: CN111582471A
Application number: CN202010306190.5A
Authority: CN
Inventors: 方济生
Original assignee: Jeejio Beijing Technology Co ltd
Current assignee: Jeejio Beijing Technology Co ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-25

Abstract

本发明实施例涉及一种神经网络模型压缩方法及装置，所述方法包括：对已训练的神经网络模型中的权重和激活值进行量化；确定量化后的神经网络模型中每一层的位剪枝强度；针对所述量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重进行剪枝处理；对剪枝处理后的神经网络模型进行重训练。由此，可以实现充分地降低神经网络模型的位冗余，进一步则可以使得神经网络模型在位串行加速器上具有良好的性能表现。

Description

一种神经网络模型压缩方法及装置

技术领域

本发明实施例涉及神经网络技术领域，尤其涉及一种神经网络模型压缩方法及装置。

背景技术

目前，神经网络在计算机视觉、语音处理等领域已经取得了突破性的进展，因而成为现代人工智能应用的基础。随着物联网技术的发展，越来越多的深度神经网络模型需要部署到端设备或者边缘设备上以满足各式各样的需求，例如人脸识别、物流自动分解等。而随着神经网络模型的层数越来越多，神经网络模型权重的数量也随之增长，再加之受限于端设备或者边缘设备的性能和功耗，因此，各种的加速器技术应用而生。

其中，位串行加速器相较于其他神经网络加速器，通过改进的位串行乘法部件可以跳过8bit中位为0的运算，而只保留位为1的运算，由此可以实现性能的提升。同时对于相同的神经网络结构而言，权重二进制中1的占比越低，位串行加速器则能够跳过更多的冗余计算，也就能够更有效的实现性能的提升，因此，对神经网络模型压缩(也可称为去冗余)以提高权值位稀疏度(即提高权重二进制中0的比例)具有重要意义。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种神经网络模型压缩方法及装置。

第一方面，本发明实施例提供一种神经网络模型压缩方法，所述方法包括：

对已训练的神经网络模型中的权重和激活值进行量化；

确定量化后的神经网络模型中每一层的位剪枝强度；

针对所述量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重进行剪枝处理；

对剪枝处理后的神经网络模型进行重训练。

在一个可能的实施方式中，所述对已训练的神经网络模型中的权重和激活值进行量化，包括：

依据设定的量化位宽对已训练的神经网络模型中的权重和激活值进行量化。

在一个可能的实施方式中，所述确定量化后的神经网络模型中每一层的位剪枝强度，包括：

利用启发式算法对量化后的神经网络模型中每一层的冗余度进行测试；

依据测试结果确定量化后的神经网络模型中每一层的位剪枝强度。

在一个可能的实施方式中，所述对剪枝处理后的神经网络模型进行重训练，包括：

利用改进的梯度下降算法对剪枝处理后的神经网络模型进行重训练，所述改进的随机梯度下降算法是指：利用直通梯度估计法确定下降梯度并判断使用所述下降梯度更新量化后的权重是否能够满足设定条件，如果是，则使用所述下降梯度更新量化后的权重；如果否，则不对所述量化后的权重进行更新。

在一个可能的实施方式中，所述方法还包括：

将重训练后的神经网络模型部署到位串行加速器上。

第二方面，本发明实施例提供一种神经网络模型压缩装置，所述装置包括：

量化模块，用于对已训练的神经网络模型中的权重和激活值进行量化；

确定模块，用于确定量化后的神经网络模型中每一层的位剪枝强度；

剪枝模块，用于针对所述量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重进行剪枝处理；

重训练模块，用于对位剪枝处理后的神经网络模型进行重训练。

在一个可能的实施方式中，所述量化模块对已训练的神经网络模型中的权重和激活值进行量化，包括：

在一个可能的实施方式中，所述确定模块确定量化后的神经网络模型中每一层的位剪枝强度，包括：

在一个可能的实施方式中，所述重训练模块对剪枝处理后的神经网络模型进行重训练，包括：

第三方面，本发明实施例提高一种电子设备，包括处理器、通信接口、存储器和通信总线；

其中，所述处理器、通信接口、存储器通过所述通信总线进行相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序，所述处理器执行所述计算机程序时实现本发明神经网络模型压缩方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明神经网络模型压缩方法的步骤。

本发明实施例提供的方法，通过对已训练的神经网络模型中的权重和激活值进行量化，确定量化后的神经网络模型中每一层的位剪枝强度，针对量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重和激活值进行剪枝处理，对剪枝处理后的神经网络模型进行重训练，相较于现有技术中以权重值为最小粒度的网络模型剪枝，可以充分地降低神经网络模型的位冗余，进一步则可以使得神经网络模型在位串行加速器上具有良好的性能表现。

附图说明

图1为位串行加速器中位串行乘法部件的示意图；

图2为本发明一示例性实施例提供的一种神经网络模型压缩方法的实施例流程图；

图3为本发明一示例性实施例提供的一种神经网络模型压缩装置的实施例框图；

图4为本发明一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，首先对本发明涉及的应用场景进行说明：

位串行加速器相较于其他神经网络加速器，通过改进的位串行乘法部件可以跳过8bit中位为0的运算，而只保留位为1的运算，由此可以实现性能的提升。具体的，如图1所示，为位串行加速器中位串行乘法部件的示意图。通过图1可见，位串行加速器首先找到8bit权重二进制表示中1的位置，然后使用移位器和累加器进行乘法以及求和运算。

由上述描述可知，权重二进制表示中1的占比和分布会影响到神经网络模型在位串行加速器上的性能表现。其中，从宏观上来说，对于相同的网络结构，权重二进制表示中1的占比更低时，位串行加速器能够跳过更多的冗余计算，从而实现性能的提升。因此，在需要将神经网络模型部署到位串行加速器的应用场景下，对神经网络模型压缩以提高权值位稀疏度(即提高权重二进制中0的比例)具有重要意义。

基于此，本发明提出一种神经网络模型压缩方法，通过该方法对已训练的神经网络模型进行压缩，可以充分降低神经网络模型的位冗余，之后，将压缩后的神经网络模型部署到位串行加速器上，则可以使得神经网络模型在位串行加速器上具有良好的性能表现。

以下则通过具体的实施例对本发明提出的神经网络模型压缩方法进行说明：

请参见图2，为本发明一示例性实施例提供的一种神经网络模型压缩方法的实施例流程图，包括以下步骤：

步骤201：对已训练的神经网络模型中的权重和激活值进行量化。

作为一个实施例，上述已训练的神经网络模型可以为深度神经网络模型中比较常见的ImageNet分类模型，具体可以AlexNet分类模型、ResNet18分类模型、ResNet50分类模型、或者MobileNetv1分类模型。其中，AlexNet分类模型为稠密型网络模型，存在较多的冗余计算，而另外三个分类模型均为稀疏型网络模型，存在较少的冗余计算。

应当理解的是，上述所描述的模型结构仅仅作为举例，在实践中，可以应用本发明对任意结构的模型进行压缩，本发明对此不做限制。

由于模型量化可以减少神经网络模型占用的存储空间并节省内存带宽，而且在对神经网络模型进行量化后，则可以使用低位宽的运算器替代高位宽的运算器，从而节省网络推理时延和功耗。基于此，在本发明实施例中提出首先对已训练的神经网络模型中的权重和激活值进行量化。

作为一个实施例，可以采用统一的量化位宽对已训练的神经网络模型中的权重和激活值进行量化。

作为一个优选的实现方式，由于当前研究表明，在网络推理时，仅需要使用8bit表示神经网络模型中的权重和激活值就可以保证原有的网络在相关任务上保持原有的预测准确度，同时，在对神经网络模型进行8bit量化后可以不用重新训练神经网络模型，也就是说，若采用8bit的量化位宽，通过离线量化便可以使神经网络模型保持原有的预测正确率。因此，上述量化位宽可以为8bit，即将已训练的神经网络模型中的权重和激活值表示为8bit二进制格式。

步骤202：确定量化后的神经网络模型中每一层的位剪枝强度。

作为一个实施例，可以利用启发式算法对量化后的神经网络模型中每一层的冗余度进行测试，依据测试结果确定量化后的神经网络模型中每一层的位剪枝强度。其中，冗余度与位剪枝强度具有正相关关系，即冗余度越高，位剪枝强度越大，反之，冗余度越低，位剪枝强度越小。

步骤203：针对量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重进行剪枝处理。

由此可见，在本发明中，神经网络模型剪枝的最小粒度是位，因此可以充分地降低神经网络模型的位冗余。

步骤204：对剪枝处理后的神经网络模型进行重训练。

作为一个实施例，可以利用改进的梯度下降算法对剪枝处理后的神经网络模型进行重训练。这里所说的改进是指：在获取下降梯度时，利用直通梯度估计法获取下降梯度，以及在使用下降梯度更新权重时，采用可选择的更新方式，即可以先判断使用下降梯度更新量化后的权重是否能够满足设定条件，如果是，则使用下降梯度更新量化后的权重；如果否，则可以不对量化后的权重进行更新。

上述设定条件是指：控制权重向二进制表示中1的比例减少的方向进行更新。

由上述实施例可见，通过对已训练的神经网络模型中的权重和激活值进行量化，确定量化后的神经网络模型中每一层的位剪枝强度，针对量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重进行剪枝处理，对剪枝处理后的神经网络模型进行重训练，相较于现有技术中以权重值为最小粒度的神经网络模型剪枝，可以充分地降低神经网络模型的位冗余，进一步则可以使得神经网络模型在位串行加速器上具有良好的性能表现。

请参见图3，为本发明一示例性实施例提供的一种神经网络模型压缩装置的实施例框图，该装置包括：量化模块31、确定模块32、剪枝模块33以及重训练模块34。

其中，量化模块31，用于对已训练的神经网络模型中的权重和激活值进行量化；

确定模块32，用于确定量化后的神经网络模型中每一层的位剪枝强度；

剪枝模块33，用于针对所述量化后的神经网络模型的每一层，基于该层的位剪枝强度对该层中的权重进行剪枝处理；

重训练模块34，用于对剪枝处理后的神经网络模型进行重训练。

在一实施例中，所述量化模块31对已训练的神经网络模型中的权重和激活值进行量化，包括：

在一实施例中，所述确定模块32确定量化后的神经网络模型中每一层的位剪枝强度，包括：

在一实施例中，所述重训练模块34对剪枝处理后的神经网络模型进行重训练，包括：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

请继续参见图4，本申请还提供一种电子设备，包括处理器401、通信接口402、存储器403，以及通信总线404。

其中，处理器401、通信接口402、存储器403通过通信总线404进行相互间的通信；

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的计算机程序，处理器401执行所述计算机程序时实现本申请提供的任一神经网络模型压缩方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请提供的任一神经网络模型压缩方法的步骤。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种神经网络模型压缩方法，其特征在于，所述方法包括：

对已训练的神经网络模型中的权重和激活值进行量化；

确定量化后的神经网络模型中每一层的位剪枝强度；

对剪枝处理后的神经网络模型进行重训练。

2.根据权利要求1所述的方法，其特征在于，所述对已训练的神经网络模型中的权重和激活值进行量化，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定量化后的神经网络模型中每一层的位剪枝强度，包括：

4.根据权利要求1所述的方法，其特征在于，所述对剪枝处理后的神经网络模型进行重训练，包括：

5.根据权利要求1～4任一所述的方法，其特征在于，所述方法还包括：

将重训练后的神经网络模型部署到位串行加速器上。

6.一种神经网络模型压缩装置，其特征在于，所述装置包括：

重训练模块，用于对剪枝处理后的神经网络模型进行重训练。

7.根据权利要求6所述的装置，其特征在于，所述量化模块对已训练的神经网络模型中的权重和激活值进行量化，包括：

8.根据权利要求6所述的装置，其特征在于，所述确定模块确定量化后的神经网络模型中每一层的位剪枝强度，包括：

9.根据权利要求6所述的装置，其特征在于，所述重训练模块对剪枝处理后的神经网络模型进行重训练，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-5任一所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述方法的步骤。