CN112288046B

CN112288046B - 一种用于神经网络的基于混合粒度的联合稀疏方法

Info

Publication number: CN112288046B
Application number: CN202011553635.6A
Authority: CN
Inventors: 卓成; 郭楚亮; 尹勋钊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-26
Anticipated expiration: 2040-12-24
Also published as: JP7122041B2; CN112288046A; US20220207374A1; JP2022101461A

Abstract

本发明公开了一种用于神经网络的基于混合粒度的联合稀疏方法，该联合稀疏方法包括独立的向量级细粒度稀疏化和块级粗粒度稀疏化，通过对两种稀疏方式独立生成的剪枝蒙版进行按位逻辑与运算，获得最终的剪枝蒙版，进而获得稀疏化后的神经网络的权重矩阵。本发明联合稀疏性始终获得介于块稀疏和平衡稀疏模式之间的推理速度，而无需考虑向量级细粒度稀疏化的向量行大小和块级粗粒度稀疏化的向量块大小。用于神经网络卷积层和全连结层的剪枝，具有稀疏粒度可变，通用硬件推理加速，模型推理精度高的优点。

Description

一种用于神经网络的基于混合粒度的联合稀疏方法

技术领域

本发明涉及结构化稀疏、轻量化网络结构、卷积神经网络等工程技术领域，特别涉及一种用于神经网络的基于混合粒度的联合稀疏方法。

背景技术

近年来深度学习，尤其是卷积神经网络（CNN），以计算机视觉，语音识别和语言处理领域的高准确性取得了巨大的成功。由于数据量的增长，深度神经网络规模变得越来越大，以具有通用的特征提取能力。另一方面，随着深度神经网络的过参数化，大型模型通常在训练和推理过程中需要大量的计算和存储资源。面对这些挑战，人们越来越关注以最小化计算成本压缩和加速神经网络的技术，例如张量分解，数据量化和网络稀疏化。

在稀疏化中，对于不同的修剪数据对象，其稀疏模式可以分为细粒度和粗粒度的稀疏模式，其目的是消除不重要的元素或连接。细粒度的稀疏模式更有可能保留更高的模型准确性。然而，由于计算复杂性，在实践中很难直接衡量权重元素在神经网络中的重要性。因此，细粒度的权重修剪方法通常基于幅度标准，但这经常会导致权重结构的随机重塑，而通用加速器（如GPU）对此的支持很差。换句话说，剪枝后的权重结构的随机性、不规则性导致细粒度稀疏模式只能节省内存占用空间，而几乎不能加速GPU上的推理。

与细粒度的稀疏模式不同，粗粒度的稀疏模式被认为是有益的替代方案，有助于提高硬件实现效率，粗粒度稀疏模式往往以一块特定区域，而不是单个元素为单位进行剪枝。它可以将神经网络语义（例如内核，过滤器和通道）合并到CNN中，并在修剪后保留紧凑的子结构。最近，已经观察到结构稀疏训练对GPU加速有帮助。但是，相关研究通常涉及正则化约束项，例如需要昂贵的除法和平方根运算L1和L2范数。这样的方法还在每个层中自动生成不同的稀疏度比率，使得最终达到的稀疏度水平不可控。

为了优先保障足够的稀疏度水平，研究人员提出了另一类结构化稀疏模式，即依靠用户指定或计算出的目标稀疏度阈值，以迭代方式对网络进行剪枝。例如，块稀疏模式和平衡稀疏模式。但是，具有可接受的模型精度的块稀疏模式，通常仅能够生成稀疏度相对较低的权重结构。

因此，为了同时获得高的模型精度和快的硬件执行速度，总是希望在结构均匀性和稀疏度之间取得平衡。直观的观察是采用更平衡的工作负载和更细粒度的稀疏模式。因此，本发明提出了一种基于混合粒度的联合稀疏方法，是实现卷积神经网络中高效的GPU推理的关键。

发明内容

本发明的目的在于针对目前结构化稀疏方法的现有技术的不足，提供了一种基于混合粒度的联合稀疏方法，用于神经网络卷积层和全连结层的剪枝，具有稀疏模式粒度可变，通用硬件推理加速，模型推理精度高的优点。

本发明的目的是通过以下技术方案来实现的：一种用于神经网络的基于混合粒度的联合稀疏方法，该方法用于图像识别，首先采集若干图像数据并人为加注标签，生成图像数据集，将图像数据集作为训练集输入卷积神经网络，随机初始化卷积神经网络各层的权重矩阵，用迭代的方式训练并采用联合稀疏过程，对卷积神经网络进行剪枝；

所述联合稀疏过程具体为通过用户事先设定目标稀疏度（target sparsity）、粒度混合比例（mixing ratio），可获得不同剪枝粒度的剪枝蒙版。包括独立的向量级细粒度稀疏化（vector-wise fine-grained sparsity）和块级粗粒度稀疏化（block-wisecoarse-grained sparsity），向量级细粒度稀疏化和块级粗粒度稀疏化各自的稀疏度根据用户事先设定目标稀疏度和粒度混合比例通过稀疏度补偿方法估计得到；

所述向量级细粒度稀疏化将行数为#row，列数为#col的权重矩阵，在矩阵边缘填充零列，使得补零后的最小矩阵列数正好被K整除，分为若干个行数为1，列数为K的向量行，并对于每个向量行，将向量行内元素进行基于幅度的剪枝，在剪枝蒙版Ⅰ上将相应元素位置的1置为0，使得剪枝蒙版Ⅰ上0的个数满足向量级细粒度稀疏化的稀疏度要求；

所述块级粗粒度稀疏化将行数为#row，列数为#col的矩阵，在矩阵边缘填充零行和/或零列，使得补零后的最小矩阵正好被R行、S列大小的块整除，分为若干个行数为R，列数为S的向量块，计算每个不包含填充零行或零列的向量块的重要性得分和（psum）；参与计算重要性得分和的所有向量块，按照重要性得分和大小进行基于幅度的剪枝，将剪枝蒙版Ⅱ上参与计算重要性得分和的向量块相应元素位置的1置为0，使得剪枝蒙版Ⅱ上0的个数满足块级粗粒度稀疏化的稀疏度要求；

将向量级细粒度稀疏化得到的剪枝蒙版Ⅰ和块级粗粒度稀疏化得到的剪枝蒙版Ⅱ进行按位逻辑与运算，获得最终的剪枝蒙版Ⅲ；将最终的剪枝蒙版Ⅲ与行数为#row，列数为#col的矩阵进行按位逻辑与运算，获得稀疏化后的权重矩阵；

卷积神经网络各层的权重矩阵稀疏化并完成训练后，将待识别的图像输入到卷积神经网络中，进行图像识别。

进一步地，所述向量级细粒度稀疏化是按照向量行内元素的绝对值大小进行基于幅度的剪枝。

进一步地，所述向量块的重要性得分和为向量块内每个元素的平方的和。

进一步地，所述向量级细粒度稀疏化和块级粗粒度稀疏化的剪枝蒙版Ⅰ和剪枝蒙版Ⅱ矩阵中的元素初始均为1。

进一步地，向量级细粒度稀疏化和块级粗粒度稀疏化基于幅度的剪枝是在剪枝蒙版Ⅰ和剪枝蒙版Ⅱ上，将向量行或向量块中小于稀疏度阈值的对应位置的元素置为0。

进一步地，根据用户事先设定目标稀疏度和粒度混合比例，通过稀疏度补偿方法估计得到向量级细粒度稀疏化和块级粗粒度稀疏化各自的稀疏度的过程如下：

其中

，

和

分别是用户事先设定目标稀疏度，向量级细粒度稀疏度和块级粗粒度稀疏度；p为粒度混合比例，为0-1之间的数。

本发明的有益效果如下：

1）提出的一种基于混合粒度的联合稀疏方法，该方法不需要正则约束项，可以实现混合的稀疏粒度，从而减少推理开销并保证模型精度。

2）提出了一种稀疏补偿方法来优化和保证所达到的稀疏率。在相同的目标稀疏度下，所实现的稀疏度可通过拟议的超参数进行调整，从而在模型精度和稀疏比之间进行权衡。

3）联合稀疏性始终获得介于块稀疏（block sparsity）和平衡稀疏（balancedsparsity）模式之间的推理速度，而无需考虑向量级细粒度稀疏化的向量行大小和块级粗粒度稀疏化的向量块大小。

附图说明

图1（a）为向量级细粒度稀疏化的剪枝蒙版；

图1（b）为联合稀疏方法的剪枝蒙版；

图1（c）为块级粗粒度稀疏化的剪枝蒙版；

图2是向量级细粒度稀疏化的实施例；

图3是采用了稀疏度补偿方法后可以达到的实际稀疏度。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1（a）、图1（b）和图1（c）所示，本发明提出的一种用于神经网络的基于混合粒度的联合稀疏方法，该方法用于图像识别，如机读卡试卷的自动批阅，首先采集若干图像数据并人为加注标签，生成图像数据集，并分为训练数据集和测试数据集；将训练数据集输入卷积神经网络，随机初始化卷积神经网络各层的权重矩阵，用迭代的方式训练并采用联合稀疏过程，对卷积神经网络进行剪枝；利用测试数据集交叉验证训练效果，并通过反向传播算法更新各层权重矩阵，直至训练完成，此时神经网络对于输入的机读卡试卷，能通过与正确答案比对，判断正误题目；所述联合稀疏过程具体为通过用户事先设定目标稀疏度和粒度混合比例，获得不同剪枝粒度的剪枝蒙版；包括独立的向量级细粒度稀疏化和块级粗粒度稀疏化，向量级细粒度稀疏化和块级粗粒度稀疏化各自的稀疏度根据用户事先设定目标稀疏度和粒度混合比例通过稀疏度补偿方法估计得到；包括以下实施步骤：

（1）向量级细粒度稀疏化：所述向量级细粒度稀疏化将行数为#row，列数为#col的权重矩阵，在矩阵边缘填充零列，使得补零后的最小矩阵列数正好被K整除，分为若干个行数为1，列数为K的向量行，并对于每个向量行，将向量行内元素按照绝对值大小进行基于幅度的剪枝，在剪枝蒙版Ⅰ上将相应元素位置的1置为0，使得剪枝蒙版Ⅰ上0的个数满足向量级细粒度稀疏化的稀疏度要求；

向量级细粒度稀疏化因为具有细粒度的优点，并且几乎不对稀疏结构施加约束，对联合稀疏方法的模型精度保持至关重要。此外，与在整个网络中进行排序、剪枝的非结构化稀疏性不同，向量级细粒度稀疏化式在网络的特定区域内（例如在行内的向量中）对权重进行排序和剪枝，更为直接、有效。图2展示了权重矩阵行中的向量级细粒度稀疏化的示例。权重矩阵中的每一行都被划分为若干大小相等的行数为1，列数为K的向量行，并且将根据当前迭代轮次的稀疏阈值剪枝绝对值最小的权重。因此，剪枝后的权重可以在向量级（vector-wise）和通道级（channel-wise）实现相同的稀疏度。

除了能够在网络的特定区域中高效实施，并保持模型准确性和简化权重元素排序复杂度之外，向量级细粒度稀疏化的好处还在于具有均衡的工作负载，适用于并行GPU线程之间的共享内存。对于各种GPU平台，参数K可以指定为共享内存中的最大容量。

（2）块级粗粒度稀疏化：所述块级粗粒度稀疏化将行数为#row，列数为#col的矩阵，在矩阵边缘填充零行和/或零列，使得补零后的最小矩阵正好被R行、S列大小的块整除，分为若干个行数为R，列数为S的向量块，计算每个不包含填充零行或零列的向量块的重要性得分和，所述向量块的重要性得分和为向量块内每个元素的平方的和；参与计算重要性得分和的所有向量块，按照重要性得分和大小进行基于幅度的剪枝，将剪枝蒙版Ⅱ上参与计算重要性得分和的向量块相应元素位置的1置为0，使得剪枝蒙版Ⅱ上0的个数满足块级粗粒度稀疏化的稀疏度要求；

与细粒度剪枝相比，粗粒度剪枝通常在塑造更硬件友好型的子结构方面有更好的表现，但代价是模型精度通常有所降低。块级粗粒度稀疏化的目的是为GPU的计算并行性提供合适的矩阵子结构。现有部署在深度学习应用场景中的商用GPU（例如Volta，Turing和Nvidia A100 GPU）普遍采用称为Tensor Core的专用硬件，该硬件在快速矩阵乘法方面具有优势，并支持新的数据类型。这为深层神经网络带来了好处，在深层神经网络中，基本算术计算是卷积层和全连接层中的大量标准矩阵乘法，其乘法计算速度而不是内存限制了性能表现。

一种解决方案是使分区后的块的大小适合GPU tile尺寸和流式多处理器（SM）个数。理想的情况是矩阵尺寸可被块大小整除，而创建的GPU tile数可被SM个数整除。给定一个特定的神经网络模型，SM个数通常可以被整除，因此本发明将重点放在适用于GPU tile的块大小上。通过选择与GPU tile大小相同的粗粒度稀疏度的分块尺寸，可以完全占用GPUtile。此外，由于加法比乘法占用小得多的时间和面积开销，而且权重梯度在反向传播中是现成可用的，所以本发明应用一阶泰勒近似局部和作为剪枝向量块的标准。

（3）基于混合粒度的联合稀疏方法：实现基于混合粒度的联合稀疏方法的总体思路是由独立生成的细粒度稀疏化剪枝蒙版Ⅰ和粗粒度稀疏化剪枝蒙版Ⅱ，通过按位逻辑与运算，形成最终的剪枝蒙版Ⅲ。将最终的剪枝蒙版Ⅲ与行数为#row，列数为#col的矩阵进行按位逻辑与运算，获得稀疏化后的权重矩阵；

本发明独立生成矩阵中的元素初始均为1的剪枝蒙版Ⅰ和剪枝蒙版Ⅱ，在剪枝蒙版Ⅰ和剪枝蒙版Ⅱ上，将向量行或向量块中小于稀疏度阈值的对应位置的元素置为0，而不是依次对剪枝蒙版应用向量级细粒度稀疏化和块级粗粒度稀疏化，因为某些通道可能比其他通道更重要，在这些更有价值的通道中，大量重要权重将在顺序修剪中被修剪，从而潜在地导致模型准确性下降。

卷积神经网络各层的权重矩阵稀疏化并完成训练后，采集需要批阅的机读卡试卷的图像数据，将待识别的图像数据输入到卷积神经网络中，进行图像识别，输出各机读卡试卷的分数。

为了获得联合稀疏方法的混合稀疏粒度，本发明设置了一个人为设定的超参数，表示为粒度混合比例p，以控制向量级细粒度稀疏化对目标稀疏度贡献的稀疏度比例。例如，如果卷积层的目标稀疏度为0.7（即剪枝后的卷基层权重矩阵中零的比例达到70％），并且粒度混合比例p为0.8，则向量级细粒度稀疏化，和块级粗粒度稀疏化所贡献的稀疏度应为分别为0.56和0.14。通过检查卷积层中实际达到的稀疏度，我们发现稀疏度低于目标稀疏度，因为细粒度稀疏化剪枝蒙版Ⅰ和粗粒度稀疏化剪枝蒙版Ⅱ会在某些权重元素上重叠。这可以解释为，某些权重在两种剪枝标准中都被衡量为有价值。因此，本发明提出了稀疏度补偿方法，并重新近似了向量级细粒度稀疏化和块级粗粒度稀疏化各自的稀疏度：

其中

，

和

分别是用户事先设定目标稀疏度，向量级细粒度稀疏度和块级粗粒度稀疏度；p为粒度混合比例，为0-1之间的数。这种稀疏度补偿方法可以从另一个角度来看：对于混合比p大于0.5，重新近似了目标稀疏度的向量级细粒度稀疏化可以视为目标稀疏度的主要贡献者，而块级的粗粒度稀疏化还会根据另一个权重剪枝标准，进一步产生更多的零。对于p小于0.5的情况反之亦然。如图3所示，当采用稀疏度补偿方法时，无论其值如何，都可以完全实现预定的目标稀疏性。此外，当p接近0或1时，出现了更明显的主剪枝方案，其稀疏度比接近目标稀疏度。或者，当p大约为0.5时，富余的稀疏度可以通过调整初始密集训练的时间，在可实现的稀疏度与模型精度之间进行权衡。

在生成细粒度稀疏化剪枝蒙版Ⅰ和粗粒度稀疏化剪枝蒙版Ⅱ时，本发明迭代地修剪权重矩阵，并在每次剪枝后，对网络进行几个时期的重新训练。修剪然后再训练被定义为一次迭代。在实践中，迭代修剪通常能修剪更多的权重元素，同时保持模型的准确性。本发明使用一阶导数为正但递减的指数函数来计算当前的稀疏度阈值：

其中

和

分别是当前时期（epoch）

的向量级细粒度稀疏化阈值和块级粗粒度稀疏化阈值。

是最初的剪枝时期，因为早期的密集训练对于保持模型的准确性至关重要。而r控制阈值按指数增长的快慢。本发明在整个训练过程迭代剪枝和训练过程，以达到目标稀疏度，然后将生成细粒度稀疏化剪枝蒙版Ⅰ和粗粒度稀疏化剪枝蒙版Ⅱ，通过按位逻辑与运算，形成最终的剪枝蒙版Ⅲ。特别地，可以通过p=1来实现平衡稀疏模式，而可以通过p=0来实现块稀疏模式和通道级的结构的稀疏模式。

本专利不局限于上述最佳实施方式。任何人在本专利的启示下都可以得出其他各种形式的基于混合粒度的联合稀疏模式及其实现方法，凡依照本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种用于神经网络的基于混合粒度的联合稀疏方法，其特征在于，该方法用于图像识别，首先采集若干图像数据并人为加注标签，生成图像数据集，将图像数据集作为训练集输入卷积神经网络，随机初始化卷积神经网络各层的权重矩阵，用迭代的方式训练并采用联合稀疏过程，对卷积神经网络进行剪枝；

所述联合稀疏过程具体为通过用户事先设定目标稀疏度和粒度混合比例，获得不同剪枝粒度的剪枝蒙版；包括独立的向量级细粒度稀疏化和块级粗粒度稀疏化，向量级细粒度稀疏化和块级粗粒度稀疏化各自的稀疏度根据用户事先设定目标稀疏度和粒度混合比例通过稀疏度补偿方法估计得到；

所述块级粗粒度稀疏化将行数为#row，列数为#col的权重矩阵，在矩阵边缘填充零行和/或零列，使得补零后的最小矩阵正好被R行、S列大小的块整除，分为若干个行数为R，列数为S的向量块，计算每个不包含填充零行或零列的向量块的重要性得分和；参与计算重要性得分和的所有向量块，按照重要性得分和大小进行基于幅度的剪枝，将剪枝蒙版Ⅱ上参与计算重要性得分和的向量块相应元素位置的1置为0，使得剪枝蒙版Ⅱ上0的个数满足块级粗粒度稀疏化的稀疏度要求；

2.根据权利要求1所述的一种用于神经网络的基于混合粒度的联合稀疏方法，其特征在于，所述向量级细粒度稀疏化是按照向量行内元素的绝对值大小进行基于幅度的剪枝。

3.根据权利要求1所述的一种用于神经网络的基于混合粒度的联合稀疏方法，其特征在于，所述向量块的重要性得分和为向量块内每个元素的平方的和。

4.根据权利要求1所述的一种用于神经网络的基于混合粒度的联合稀疏方法，其特征在于，所述向量级细粒度稀疏化和块级粗粒度稀疏化的剪枝蒙版Ⅰ和剪枝蒙版Ⅱ矩阵中的元素初始均为1。

5.根据权利要求1所述的一种用于神经网络的基于混合粒度的联合稀疏方法，其特征在于，向量级细粒度稀疏化和块级粗粒度稀疏化基于幅度的剪枝是在剪枝蒙版Ⅰ和剪枝蒙版Ⅱ上，将向量行或向量块中小于稀疏度阈值的对应位置的元素置为0。

6.根据权利要求1所述的一种用于神经网络的基于混合粒度的联合稀疏方法，其特征在于，根据用户事先设定目标稀疏度和粒度混合比例，通过稀疏度补偿方法估计得到向量级细粒度稀疏化和块级粗粒度稀疏化各自的稀疏度的过程如下：

其中

，

和