CN115374935B

CN115374935B - 一种神经网络的剪枝方法

Info

Publication number: CN115374935B
Application number: CN202211122342.1A
Authority: CN
Inventors: 汪鹏; 朴星泉; 汪成亮; 吴昊; 杨镡; 黄哲通; 任骜
Original assignee: Chongqing University; First Affiliated Hospital of Army Medical University
Current assignee: Chongqing University; First Affiliated Hospital of Army Medical University
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-08-11
Anticipated expiration: 2042-09-15
Also published as: CN115374935A

Abstract

本发明提出了一种神经网络的剪枝方法，包括以下步骤：S1，根据硬件资源的规模、时序约束、以及先验知识，确定脉动阵列规模，再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模，确定最大筛选通道数和过滤器分组的最小数量；S2，将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络；S3，训练完毕后，通过编译器产生指令，对加速器的剪枝模式进行配置；S4，然后加速器接收解码后的指令，将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中；S5，数据全部加载至硬件内部资源后，加速器开始进行卷积计算，脉动阵列开始工作，最终得到卷积结果。本发明能够在满足脉动阵列SA工作模式，保证其工作效率的前提下，减少了模型的参数量，提高了模型推理的速度。

Description

一种神经网络的剪枝方法

技术领域

本发明涉及CNN卷积处理技术领域，特别是涉及一种神经网络的剪枝方法。

背景技术

近年来，神经网络被大量应用在计算机视觉、机器翻译、语音识别等领域中。随着神经网络技术的不断发展，其网络结构的设计愈发复杂。其最直观的表现就在于网络的层数越来越多、网络的参数量越来越大，这极大的增加了神经网络的运算工作量。过多的参数量使得神经网络难以部署在存储资源有限的硬件资源上、或因数据传输带宽的限制难以充分发挥硬件资源的计算能力。因此研究一种神经网络的剪枝方法，对神经网络进行剪枝处理是十分必要的。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种神经网络的剪枝方法。

为了实现本发明的上述目的，本发明提供了一种神经网络的剪枝方法，包括以下步骤：

S1，根据硬件资源的规模、时序约束、以及先验知识，确定脉动阵列规模，再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模，确定最大筛选通道数和过滤器分组的最小数量；

S2，将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络；

S3，训练完毕后，通过编译器产生指令，对加速器的剪枝模式进行配置，每一层卷积运算前配置一次；

S4，然后加速器接收解码后的指令，将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中；

S5，数据全部加载至硬件内部资源后，加速器开始进行卷积计算，脉动阵列开始工作，最终得到卷积结果。

进一步地，S3包括：

S3-1，对通道选择模式进行配置：根据指令，选择输入特征图数据相邻2ⁿ个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中，也可以选择将每一通道的数据都输入至PE运算单元中；

S3-2，对过滤器分组模式进行配置：进行卷积运算时，输入特征图数据需要分别与不同的过滤器进行点乘操作；对于不同分组的过滤器，根据上一步配置的多个通道备选数据中选择不同通道的数据输入至该组内的PE单元中；相同分组的过滤器则选择相同的通道数据。

进一步地，所述S3-1还包括：

若选择输入特征图数据相邻2个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中，则通过门控时钟方式，关闭其中两路通道的数据传输，以降低加速器能耗开销，提高加速器整体系统的能效比，此时通道选择数据只会在前两个通道内进行选择。

进一步地，所述S3-2还包括：

当过滤器分组大于过滤器分组的最小数量时，为了满足电路正常需求，同时减少通道选择数据的参数量，需要对原始通道选择数据进行填充处理。

进一步地，所述输入特征图数据根据其通道的不同将其存储至对应的随机存储器中。

进一步地，随机存储器的数量等于PE运算阵列的总行数与预设的筛选通道数相乘。

进一步地，所述输入特征图数据的通道数等于PE运算阵列的行数，或为PE运算阵列行数的倍数，若不满足该条件，则对输入特征数据进行填充零操作以满足该条件。

综上所述，由于采用了上述技术方案，本发明能够在满足脉动阵列SA工作模式，保证其工作效率的前提下，减少了模型的参数量，提高了模型推理的速度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明数据存放在加速器内部BRAM中的示意图。

图2是本发明实施例通道选择模式为四选一的示意图。

图3是本发明实施例对过滤器分组模式配置为2的示意图。

图4是本发明SA阵列工作示意图。

图5是本发明实施例某一个特征点前四个通道数据在不同时钟周期时选择输入给一行PE单元数据的示意图。

图6是本发明实施例在某一时钟周期内，某一行PE阵列整体数据流情况。

图7是本发明实施例通道选择模式为二选一时某一列PE阵列的数据流情况。

图8是本发明实施例过滤器配置分组模式最小为2，通道剪枝模式为二选一时对原始通道选择数据进行填充的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明实施例中，神经网络加速器是部署在Xilnx-xczu19eg-ffvb1517-1-e上，根据时序以及板载资源的约束，确定加速器内的脉动阵列(Systolic array，SA)规模为16*16，最多能在相邻4个通道进行数据的剪枝。

S1：根据硬件资源的数量、时序约束、先验知识等条件确定SA阵列的规模为16*16以及数据最大筛选通道数4，从而可以获取输入特征数据存储所消耗的存储资源数量；

具体地，将PE运算阵列的总行数和预设的筛选通道数相乘，得到随机存取存储器的数量，在该实例中，消耗的是FPGA板载资源块随机存储器(block ram，BRAM)。

S2：根据S1得到的随机存储器的数量，输入特征图数据根据其通道的不同将其存储至对应的随机存储器中。

特征图由多个二维特征点组成，对于输入特征图中的某一个特征点的数据，根据该特征点数据的通道，将其存放至对应的BRAM中，其中一个BRAM对应一个通道。如图1所示，每个特征点均存放于n个通道中。数据存放在加速器内部BRAM中的形式如图1所示。其中，m代表特征点的个数，n为每一个特征点的通道数，在该实施例内，数据按照通道分别被存放在n个BRAM中。

具体的，输入特征图的数据通道数应等于PE运算阵列的行数，或为PE运算阵列行数的倍数，若不满足该条件，应对输入特征数据进行填充零(padding)操作以满足该条件。

S3：在每一层神经网络开始计算前，对剪枝的模式进行配置。配置的内容主要有两部分：一是对通道选择模式进行配置。在该实施例中，可以选择相邻两个或四个通道数据选择其中一个输入至SA阵列中的其中一个运算处理单元(Processor element，PE)中，也可以选择将每一通道的数据都输入至PE运算单元中。如图2所示，图中的x代表的是某一输入特征点，图中的通道选择模式为四选一，根据通道选择信号，选出通道y，作为PE单元的输入数据。

二是对过滤器(filter)分组模式进行配置。进行卷积运算时，输入特征图数据需要分别与不同的filter进行点乘操作。对于不同分组的filter，可以根据上一步配置的多个通道备选数据中选择不同通道的数据输入至该组内的PE单元中。其中，相同分组的filter应选择相同的通道数据，每一层卷积网络的filter尺寸均相同。

具体示例如图3所示，图中输入特征图数据尺寸为为1*1*4，filter的尺寸为1*1*2，共有4个filter，filter分组模式设置为2即分为2组，输入特征图数据通道剪枝模式为二选一。图3中采用灰色、白色色块对每两个通道数据进行区分，灰色代表这一组内的第一个通道，白色代表这一组内第二个通道。每个filter的通道数在训练过程中已经进行预处理，使得权重数据减少一半。对于filter 0与filter 1，在输入特征图前两个通道中选择第一个通道数据相乘，在后两个通道中选择第二个通道数据相乘。对于filter 2与filter 3，在前两个通道中选择第二个通道数据相乘，在后两个通道中选择第一个通道数据相乘。此外，权重数据存于filter内。

显然，对于一些数据较为稀疏的卷积运算层，对数据进行一定程度的剪枝，对于算法模型的精度不会造成过大的影响，(输入特征图内很多0-较为稀疏，对结果没影响)并且能有效的减少模型的参数量。对于filter的分组而言，每一个组中的filter数量越少，越能够减轻剪枝后对模型精度的影响。但同时，过多的分组数量(每组内filter个数较少)也会导致通道选择参数的规模增大。因此，对于不同神经网络层，应选用不同的方法去配置其输入特征图数据通道数据剪枝模式以及filter的分组模式，使得其能够在加速器推理的速率、算法模型的精度、算法模型参数的规模之间寻求一种平衡。(其中filter分组*组内filter个数＝SA列数)

S4：当加速器开始进行工作时，需要将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据存储至加速器内部的硬件缓存单元中(在此实施例中使用的为BRAM、Ultra RAM、LUT RAM等FPGA板载存储资源)。特别地，对于输入特征图数据，应按照S1中提到的方法，将对应通道的数据存入至对应的BRAM中。

S5：在分块内数据全部加载完成后，加速器开始进行卷积计算，SA阵列开始工作。如图4所示，对于普通的SA，输入特征数据在每一行(列)是流动的。对于同一行的PE阵列而言，除了第一列PE单元的输入特征图数据直接来自于BRAM，其余PE单元的输入特征数据均来自于其前一列的PE单元。

在本方法内，对于输入特征数据在同一行PE单元中的传播做了一定的改进，对于每一行的PE单元，增加一个剪枝控制模块来选择输入特征数据传输至PE单元中。图5展示的内容为其中某一个特征点前四个通道数据在不同时钟周期时选择输入给一行PE单元数据的过程。其中，设定的输入特征图数据通道数据剪枝模式为四选一，设定每2个filter为一组，SA阵列的列数为16。在SA阵列开始计算时，将四个相邻的输入通道数据从数据缓存单元读取至剪枝处理模块内，根据对应filter分组的通道数据，将选择后的信号传输至PE单元中。由于对filter的分组设置为2，因此偶数列的PE单元的输入来自于剪枝模块，其余PE单元的特征数据的输入方式与普通SA的输入方式相同。

图6为在某一时钟周期内，某一行PE阵列整体数据流情况，由图可见，该方法满足SA的工作原理，能实现数据的脉动，并能够实现对于输入特征数据的剪枝操作，有效的降低了算法模型的参数规模、提高了加速器推理的速度，在不考虑数据传输带来的时间开销的理想条件下，此时剪枝后的运算速度是剪枝前的4倍。

图7为通道选择模式为二选一时某一列PE阵列的数据流情况，由于在该实施例内最大支持的剪枝模式为四选一，在剪枝模式配置为二选一时，通过门控时钟方式，关闭其中两路通道的数据传输，以降低加速器能耗开销，提高加速器整体系统的能效比，此时通道选择数据只会在前两个通道内进行选择。

当filter分组模式设置大于最小分组时，为了满足电路正常需求，同时减少通道选择数据的参数量，需要对原始通道选择数据进行填充处理。在该实例中，filter配置分组模式最小为2，通道选择模式为二选一，SA的规模为16*16，每一行PE单元电路及剪枝控制模块如图7所示。在该实例中，对于任一输入特征点每两个通道，应有四个通道选择数据，以满足本实例的filter分组模式。如图8所示，将上述四个通道选择数据进行填充，确保电路能够正确工作。

本发明从硬件资源的数量，算法模型推理速度要求、推理精度要求多方面考虑，提出了一种可配置的剪枝方法。根据硬件资源的数量以及脉动阵列的规模，确定出能够支持的通道选择模式。根据算法模型特点以及参数规模的考虑，确定出对filter进行分组的最大组数。在加速器进行计算时，根据预先训练好的权重数据以及通道选择数据，对输入特征图的通道数据进行选择，有效的降低了运算量、提高了模型计算的速度。同时，在不同神经网络层根据网络结构的特征，可以对数据剪枝模式及filter的分组进行配置，能满足不同算法模型、不同神经网络结构的需要。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种神经网络的剪枝方法，其特征在于，包括以下步骤：

S2，将S1得到的最大筛选通道数和过滤器分组的最小数量训练神经网络；

S3，训练完毕后，通过编译器产生指令，对加速器的剪枝模式进行配置；

S3-2，对过滤器分组模式进行配置：进行卷积运算时，输入特征图数据需要分别与不同的过滤器进行点乘操作；对于不同分组的过滤器，根据上一步配置的多个通道备选数据中选择不同通道的数据输入至该组内的PE单元中；相同分组的过滤器则选择相同的通道数据；

2.根据权利要求1所述的一种神经网络的剪枝方法，其特征在于，所述S3-1还包括：

若选择输入特征图数据相邻2个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中，则通过门控时钟方式，关闭其中两路通道的数据传输。

3.根据权利要求1所述的一种神经网络的剪枝方法，其特征在于，所述S3-2还包括：

当过滤器分组大于过滤器分组的最小数量时，对原始通道选择数据进行填充处理。

4.根据权利要求1所述的一种神经网络的剪枝方法，其特征在于，所述输入特征图数据根据其通道的不同将其存储至对应的随机存储器中。

5.根据权利要求4所述的一种神经网络的剪枝方法，其特征在于，随机存储器的数量等于PE运算阵列的总行数与预设的筛选通道数相乘。

6.根据权利要求1所述的一种神经网络的剪枝方法，其特征在于，所述输入特征图数据的通道数等于PE运算阵列的行数，或为PE运算阵列行数的倍数，若不满足该条件，则对输入特征数据进行填充零操作以满足该条件。