CN110188877A

CN110188877A - 一种神经网络压缩方法与装置

Info

Publication number: CN110188877A
Application number: CN201910460244.0A
Authority: CN
Inventors: 景璐
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-30

Abstract

本发明公开了一种神经网络压缩方法与装置，包括：对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络；以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式，对稀疏网络执行权重量化，以得到可用网络；使用可用网络以整数移位计算方式处理特征值。本发明的技术方案能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩，降低神经网络的时间和空间计算复杂度，缩短工作用时和减少占用的存储空间，便于移植到移动设备和嵌入式设备。

Description

一种神经网络压缩方法与装置

技术领域

本发明涉及深度学习领域，并且更具体地，特别是涉及一种神经网络压缩方法与装置。

背景技术

近年来随着深度学习技术的快速发展，实际应用中需要处理和识别大量数据集，所以对深度学习模型的的精度要求越来越高。CNN(卷积神经网络)在计算机视觉领域(在图像分类、目标检测、语义分割等方向)发挥着重要的作用。为了达到更好的识别效果和处理更加复杂的任务，神经网络模型层数越来越深，例如对于ImageNet竞赛的冠军模型AlexNet、GoogLeNet、ResNets等，模型层数由8层提高到了100多层，对于110层的ReNet，有高达1.7Milloin的模型参数及近200MB的存储空间需求，大规模的参数导致的结果是模型对于硬件设备的浮点(或整数)乘法资源(乘法计算占整个神经网络计算90％以上的计算量)、存储资源的要求越来越高，这使得它难以被部署到资源有限的移动端和嵌入式系统上，极大限制了深度学习产品在移动端、嵌入式设备上的发展。

针对现有技术中神经网络的时间和空间计算复杂度高的问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种神经网络压缩方法与装置，能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩，降低神经网络的时间和空间计算复杂度，缩短工作用时和减少占用的存储空间，便于移植到移动设备和嵌入式设备。

基于上述目的，本发明实施例的一方面提供了一种神经网络压缩方法，包括以下步骤：

对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络；

以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式，对稀疏网络执行权重量化，以得到可用网络；

使用可用网络以整数移位计算方式处理特征值。

在一些实施方式中，对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络包括：

训练神经网络，获得神经网络的层间各神经元的连接权重作为网络参数；

裁剪掉连接权重值低于指定阈值的连接，使得神经网络具有稀疏结构；

重新训练稀疏结构，获得稀疏网络。

在一些实施方式中，对稀疏网络执行权重量化，以得到可用网络包括：

将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组；

将量化权重组中的连接权重根据网络参数的精度而量化为2的整数次幂或0；

通过仅修改重训练权重组中的网络参数且不修改量化权重组中的网络参数，重新训练量化后的稀疏网络，以获得可用网络。

在一些实施方式中，将量化权重组中的连接权重根据网络参数的精度而量化为2的整数次幂或0包括：

确定一个不超过特征值的精度的网络参数的精度；

基于网络参数的精度生成量化集合，量化集合中包括0、(网络参数的精度位数的平方-2)/2个连续的2的正整数次幂、和与该连续的2的正整数次幂分别相对应的连续的2的负整数次幂；

将量化权重组中的每个连接权重分别量化为量化集合中与连接权重最接近的数值。

在一些实施方式中，量化集合中还包括不与量化权重组中的任何连接权重的量化产生对应关系的拓展位。

在一些实施方式中，将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组，包括：

将连接权重按照其数值大小聚类为量化权重组和重训练权重组，其中量化权重组的连接权重数值较大，重训练权重组的连接权重数值较小。

在一些实施方式中，使用可用网络以整数移位计算方式处理特征值包括：根据特征值计算卷积。

在一些实施方式中，根据特征值计算卷积包括：由特征值、膨胀因子根据二进制整数移位计算方式确定卷积。

在一些实施方式中，特征值的精度为8位；网络参数的精度被压缩到4位。

基于上述目的，本发明实施例的另一方面提供了一种神经网络压缩装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行上述的方法。

本发明具有以下有益技术效果：本发明实施例提供的神经网络压缩方法与装置，通过对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络，以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式，对稀疏网络执行权重量化，以得到可用网络，使用可用网络以整数移位计算方式处理特征值的技术方案，能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩，降低神经网络的时间和空间计算复杂度，缩短工作用时和减少占用的存储空间，便于移植到移动设备和嵌入式设备。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的神经网络压缩方法的流程示意图；

图2为本发明提供的神经网络压缩方法的模型裁剪示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”、“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩的神经网络压缩方法的实施例。图1示出的是本发明提供的神经网络压缩方法的实施例的流程示意图。

所述神经网络压缩方法，包括以下步骤：

步骤S101，对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络；

步骤S103，以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式，对稀疏网络执行权重量化，以得到可用网络；

步骤S105，使用可用网络以整数移位计算方式处理特征值。

本发明实施例能够解决深层神经网络中模型参数规模大、对设备浮点计算能力需求高、难以部署到移动端和嵌入式端等资源受限设备上的问题。本发明实施例是一种对神经网络模型的权重参数进行压缩的自适应调节方法：一方面进行裁剪以减少模型参数数量，另一方面进行量化以降低模型复杂度。压缩后的模型可用于神经网络在嵌入式端快速部署，同时保证原始模型的精度基本不受影响。压缩后的低比特整数神经网络模型结合量化后的特征值，可将浮点乘法计算为转化为整数移位计算，消除深度神经网络计算对设备浮点计算能力的依赖，也降低了系统功耗。

重新训练稀疏结构，获得稀疏网络。

模型裁剪首先采用权重裁剪的方式来剔除不重要连接对网络规模的影响，然后基于裁剪后的模型进行权重量化，实现深层神经网络模型的进一步压缩。该方法的优势在于一方面通过裁剪来减少模型中的冗余数据，另一方面通过量化重训练可实现模型的进一步压缩及精度恢复，这样可以减少传统压缩方法带来的精度损失情况。

模型裁剪的具体方式详见图2。首先对神经网络进行常规训练，得到各层之间连接的权重系数(即各个神经节点之间连接的重要程度)。然后将权重参数值低于指定阈值的连接裁剪掉，使得神经网络结构变为稀疏结构。再对神经网络中裁剪后保留的权重系数进行重新训练，以弥补由于模型裁剪所导致的精度损失。

确定一个不超过特征值的精度的网络参数的精度；

权重裁剪后的神经网络模型结构变得稀疏，在内存中存储的表现为稀疏矩阵，而硬件资源对稀疏矩阵的计算效率是比较低的，并且一些裁剪带来的精度损失在一定程度上难以弥补。模型量化的主要目标是对网络模型裁剪后保留的重要连接，用低比特位代替高比特位表示，如将32bit表示的浮点数转换为4bit表示，即将模型压缩8倍。这样一方面可以压缩模型规模，另一方面可以降低模型复杂度，保证网络具有更广泛的适用性，还可以通过重训练来恢复精度和部分重要连接。

权重量化首先将神经网络中的连接权重按照权值大小进行聚类，分为和两组：

其中，表示量化权重组，表示重训练权重组，且的权重值大于的权重值。

然后将中的权重参数量化为2的整次幂或者0。首先根据量化比特数计算出量化值域(量化集合)然后将中的权重量化到量化值域P_l中，量化规则是将中的权重量化到P_l中差值最小的值上，以最大限度保持原始模型的特征。

完成量化分组之后再重新训练整个神经网络，目的是补偿由于权重量化所带来的精度损失，重训练重点针对未被量化的权重组，已被量化的权重保持不变。

在一些实施方式中，将稀疏网络中作为网络参数的连接权重聚类为量化权重组和重训练权重组，为：将连接权重按照其数值大小聚类为量化权重组和重训练权重组，其中量化权重组的连接权重数值较大，重训练权重组的连接权重数值较小。

使用二进制整数移位计算方式相比于现有技术的浮点乘法计算可以额外地节省更多的计算量，并且进一步降低计算时间复杂度，更有利于移植到移动设备和嵌入式设备上的可用性。

量化后的4比特网络参数为实际模型数据的次幂数的编码形式，其编码格式如下表所示：

对于深度神经网络的每一层卷积计算，都有一个参数exp，假如exp＝-5，而4比特编码值为0001，即代表实际的权重值为-2^(-5+1)＝-0.0625。

由上表可见，量化后的权重可表示为：

Qweight＝(-1)^s*2^m (1)

其中s表示权重的符号，m等于(exp+i)。

卷积计算可由如下公式计算：

量化之后的特征图数据可表示为：

Qfeature＝feature*2^-Q (3)

假设量化后的输入特征为Qfeature，系数为Q1，卷积计算结果为Qresult，量化系数为Q2，则结合公式(1)和公式(3)，公式(2)可转换为：

四舍五入后的最终计算结果为：

rounding_Qresult＝(Qresults＞＞(Inflat-1)+1)＞＞1 (5)

其中Inflat是为了提高计算精度，引入的膨胀因子。由公式(2)和公式(5)的对比可见，由于网络参数的精度不超过输入特征的精度，浮点乘法计算得以转化为整数移位计算。

从上述实施例可以看出，本发明实施例提供的神经网络压缩方法，通过对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络，以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式，对稀疏网络执行权重量化，以得到可用网络，使用可用网络以整数移位计算方式处理特征值的技术方案，能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩，降低神经网络的时间和空间计算复杂度，缩短工作用时和减少占用的存储空间，便于移植到移动设备和嵌入式设备。

需要特别指出的是，上述神经网络压缩方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于神经网络压缩方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩的神经网络压缩装置的实施例。所述装置包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行如上述的方法。

从上述实施例可以看出，本发明实施例提供的神经网络压缩装置，通过对用于处理特征值的神经网络执行模型裁剪，以得到稀疏网络，以将稀疏网络中的网络参数的精度压缩到不超过特征值的精度的方式，对稀疏网络执行权重量化，以得到可用网络，使用可用网络以整数移位计算方式处理特征值的技术方案，能够针对不同神经网络或不同类型的神经网络在基本不影响计算精度的前提下执行压缩，降低神经网络的时间和空间计算复杂度，缩短工作用时和减少占用的存储空间，便于移植到移动设备和嵌入式设备。

需要特别指出的是，上述神经网络压缩装置的实施例采用了所述神经网络压缩方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述神经网络压缩方法的其他实施例中。当然，由于所述神经网络压缩方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述神经网络压缩装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种神经网络压缩方法，其特征在于，包括以下步骤：

以将所述稀疏网络中的网络参数的精度压缩到不超过所述特征值的精度的方式，对所述稀疏网络执行权重量化，以得到可用网络；

使用所述可用网络以整数移位计算方式处理所述特征值。

2.根据权利要求1所述的方法，其特征在于，对用于处理所述特征值的所述神经网络执行模型裁剪，以得到所述稀疏网络包括：

训练所述神经网络，获得所述神经网络的层间各神经元的连接权重作为所述网络参数；

裁剪掉所述连接权重值低于指定阈值的所述连接，使得所述神经网络具有稀疏结构；

重新训练所述稀疏结构，获得所述稀疏网络。

3.根据权利要求1所述的方法，其特征在于，对所述稀疏网络执行权重量化，以得到可用网络包括：

将所述稀疏网络中作为所述网络参数的连接权重聚类为量化权重组和重训练权重组；

将所述量化权重组中的所述连接权重根据所述网络参数的精度而量化为2的整数次幂或0；

通过仅修改所述重训练权重组中的所述网络参数且不修改所述量化权重组中的所述网络参数，重新训练量化后的所述稀疏网络，以获得所述可用网络。

4.根据权利要求3所述的方法，其特征在于，将所述量化权重组中的所述连接权重根据所述网络参数的精度而量化为2的整数次幂或0包括：

确定一个不超过所述特征值的精度的所述网络参数的精度；

基于所述网络参数的精度生成量化集合，所述量化集合中包括0、所述(网络参数的精度位数的平方-2)/2个连续的2的正整数次幂、和与所述连续的2的正整数次幂分别相对应的连续的2的负整数次幂；

将所述量化权重组中的每个所述连接权重分别量化为所述量化集合中与所述连接权重最接近的数值。

5.根据权利要求4所述的方法，其特征在于，所述量化集合中还包括不与所述量化权重组中的任何所述连接权重的量化产生对应关系的拓展位。

6.根据权利要求3所述的方法，其特征在于，将所述稀疏网络中作为所述网络参数的所述连接权重聚类为所述量化权重组和所述重训练权重组，包括：

将所述连接权重按照其数值大小聚类为所述量化权重组和所述重训练权重组，其中所述量化权重组的所述连接权重数值较大，所述重训练权重组的所述连接权重数值较小。

7.根据权利要求1所述的方法，其特征在于，使用所述可用网络以整数移位计算方式处理所述特征值包括：根据所述特征值计算卷积。

8.根据权利要求7所述的方法，其特征在于，根据所述特征值计算卷积包括：由所述特征值、膨胀因子根据二进制整数移位计算方式确定所述卷积。

9.根据权利要求1-8中任意一项所述的方法，其特征在于，所述特征值的精度为8位；所述网络参数的精度被压缩到4位。

10.一种神经网络压缩装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行如权利要求1-9中任意一项所述的方法。