CN112286864A

CN112286864A - 加速可重构处理器运行的稀疏化数据处理方法及系统

Info

Publication number: CN112286864A
Application number: CN202011552162.8A
Authority: CN
Inventors: 唐士斌; 欧阳鹏
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Beijing Qingwei Intelligent Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-01-29
Anticipated expiration: 2040-12-24
Also published as: US20230068450A1; CN112286864B; WO2022134465A1

Abstract

本发明提供加速可重构处理器运行的稀疏化数据处理方法，包括：沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将权重矩阵划分为多个单元块。将待计算权重矩阵中的列向单元块组成为一组。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。PE阵列依次读取计算组中各单元块的向量值，将当前单元的非零权重值和距离上一非零权重的零权重单元间隔数作为当前单元的有效权重地址存入与计算组能对应的存储地址中。从而本发明采用的分组规则稀疏化策略更有利算法精度收敛，在同样的算法精度下，可以提供更高的稀疏率。同时，本发明提供了加速可重构处理器运行的稀疏化数据处理系统。

Description

加速可重构处理器运行的稀疏化数据处理方法及系统

技术领域

本发明涉及可重构处理器领域，具体应用于可重构处理器在度学习的神经网络计算在图像检测、图像识别、语音识别等领域的计算。本发明具体涉及加速可重构处理器运行的稀疏化数据处理方法及系统。

背景技术

基于深度学习的神经网络计算在图像检测、图像识别、语音识别等领域被广泛的应用，而神经网络中的卷积运算与全连接运算消耗大量的存储资源、计算资源与带宽资源，成为神经网络在智能摄像头、智能耳机、智能音箱等智能设备上实施的瓶颈。稀疏化技术是一种通过训练的方式约束卷积计算与全连接运算中用到权重中非零权重的比例，以此降低存储权重的存储开销。同时研究发现，稀疏化同样可以用于减少卷积计算与全连接计算的乘加次数，并减少数据传输的带宽。然而，训练过程中随机的稀疏化权重不利于充分挖掘硬件的计算资源与带宽资源。

发明内容

本发明的目的是提供加速可重构处理器运行的稀疏化数据处理方法，采用的分组规则稀疏化策略更有利算法精度收敛，在同样的算法精度下，可以提供更高的稀疏率。

本发明的另一个目的是提供加速可重构处理器运行的稀疏化数据处理系统，在同样的算法精度下，可以提供更高的稀疏率。

本发明的第一个方面，提供了加速可重构处理器运行的稀疏化数据处理方法，可重构处理器包括PE阵列。PE阵列具有P×Q个PE单元。稀疏化数据处理方法包括：

步骤S101，沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将权重矩阵划分为多个单元块。单元块中包括多个有效权重。

步骤S102，将待计算权重矩阵中的列向单元块组成为一组。判断一组中单元块中有效权重总数是否多于P*Q/2,若是，则将一组平均拆分为两组单元块。获取待计算权重矩阵中不超过P*Q/2的一组单元块数量为分组划分数量。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。

步骤S103，PE阵列依次读取所述计算组中各单元块的向量值，若当前单元块的向量值为非零权重，则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。

在本发明提供了加速可重构处理器运行的稀疏化数据处理方法的另一种实施方式中，步骤S103后还包括：

步骤S104,通过PE中的P*Q个PE单元，根据待处理阵列的每个计算组的有效权重地址获取有效权重地址所对应的非零权重值及其对应的存储地址。根据非零权重值对应的存储地址读取其对应的卷积计算值。

步骤S105，根据每个计算组中的非零权重值其对应的卷积计算值实现深度学习的神经网络模型中的卷积或全连接层计算。

在本发明提供了加速可重构处理器运行的稀疏化数据处理方法的又一种实施方式中，步骤S105后还包括：步骤S106，输出神经网络模型中的卷积或全连接层计算结果。

在本发明提供了加速可重构处理器运行的稀疏化数据处理方法的又一种实施方式中，PE阵列中的P×Q个PE单元为8×8的PE单元。

本发明的第二个方面，提供了加速可重构处理器运行的稀疏化数据处理系统，可重构处理器包括PE阵列。PE阵列具有P×Q个PE单元。稀疏化数据处理系统包括：

一个权重划分单元，其配置为沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将权重矩阵划分为多个单元块。单元块中包括多个有效权重。

一个分组单元，其配置为将待计算权重矩阵中的列向单元块组成为一组。判断一组中单元块中有效权重总数是否多于P*Q/2,若是，则将一组平均拆分为两组单元块。获取待计算权重矩阵中不超过P*Q/2的一组单元块数量为分组划分数量。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。和

一个存储单元，其配置为PE阵列依次读取所述计算组中各单元块的向量值，若当前单元块的向量值为非零权重，则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。

在本发明提供了加速可重构处理器运行的稀疏化数据处理系统的另一种实施方式中，该系统还包括：

一个提取单元,其配置为通过PE中的P×Q个PE单元，根据待处理阵列的每个计算组的有效权重地址获取有效权重地址所对应的非零权重值及其对应的存储地址。根据非零权重值对应的存储地址读取其对应的卷积计算值。和

一个计算单元，其配置为根据每个计算组中的非零权重值其对应的卷积计算值实现深度学习的神经网络模型中的卷积或全连接层计算。

在本发明提供了加速可重构处理器运行的稀疏化数据处理系统的再一种实施方式中，该系统还包括：一个输出单元，其配置为输出神经网络模型中的卷积或全连接层计算结果。

在本发明提供了加速可重构处理器运行的稀疏化数据处理系统的再一种实施方式中，PE阵列中的P×Q个PE单元为8×8的PE单元。

下文将以明确易懂的方式，结合附图对加速可重构处理器运行的稀疏化数据处理方法及系统的特性、技术特征、优点及其实现方式予以进一步说明。

附图说明

图1是用于说明在本发明一种实施方式中，加速可重构处理器运行的稀疏化数据处理方法的流程示意图。

图2是用于说明在本发明另一种实施方式中，加速可重构处理器运行的稀疏化数据处理方法的流程示意图。

图3是用于说明在本发明再一种实施方式中，加速可重构处理器运行的稀疏化数据处理方法的流程示意图。

图4是用于说明在本发明一种实施方式中，加速可重构处理器运行的稀疏化数据处理系统的组成示意图。

图5是用于说明在本发明一种实施方式中，权重矩阵的一种划分示意图。

图6是用于说明在本发明一种实施方式中，权重矩阵的另一种划分示意图。

图7是用于说明在本发明一种实施方式中，一种稀疏化矩阵存储格式的示意图。

图8是用于说明在本发明一种实施方式中，另一种稀疏化矩阵存储格式的示意图。

图9是用于说明在本发明一种实施方式中，再一种稀疏化矩阵存储格式的示意图。

具体实施方式

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示结构相同或结构相似但功能相同的部件。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中只示意性地表示出了与本示例性实施例相关的部分，它们并不代表其作为产品的实际结构及真实比例。

本发明的第一个方面，提供了加速可重构处理器运行的稀疏化数据处理方法，可重构处理器包括PE阵列。PE阵列具有P×Q个PE单元。如图1所示，稀疏化数据处理方法包括：

步骤S101，划分多个单元块。

本步骤中，沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将权重矩阵划分为多个单元块。单元块中包括多个有效权重。

本发明提出了一种硬件友好的规则稀疏方法与加速硬件设计。规则稀疏化，是一种分组稀疏化结构。

如，将一个权重矩阵MxN以Q x P为粒度分成(M/Q)x(N/P)个小块，其中约束矩阵Kx Q中的权重数量不超过P*Q/2（其中P和Q表示了卷积阵列的尺寸）。即PE阵列中P×Q个PE单元的尺寸。

以具体实例来讲，图5所示，给出了一个64x64的权重矩阵，其中P=8，Q=8（即PE阵列为8×8个PE单元），即对权重矩阵的划分单元为PE阵列中PE单元的数量，从而便于通过PE阵列对权重矩阵计算。

图5所示，划分单元块1.......64（对应划分区域1、2.....64）每一个中所包括的8×8个单元，从而将整个64x64的权重矩阵分成了8x8个矩阵。

步骤S102，获取多个计算组。

本步骤中，将待计算权重矩阵中的列向单元块组成为一组。判断一组中单元块中有效权重总数是否多于P×Q/2,若是，则将一组平均拆分为两组单元块。获取待计算权重矩阵中不超过P×Q/2的一组单元块数量为分组划分数量。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。

例如，图5所示，将计算权重矩阵中的列向单元块1~8组成一组。其组成一组的原则是，其组内的有效权重（即非零权重）数量不超过(8×8)/2（PE单元数量的1/2）,即32个，原因在于，其64个PE单元中要预留1/2，作为上述有效权重的地址存储位置。

例如：当一组中单元块1~8的有效权重数量小于32时，如1~8个单元块中有效权重数量为20、9~16个单元块中有效权重数量为15、17~24个单元块中有效权重数量为10、25~32个单元块中有效权重数量为31、33~40个单元块中有效权重数量为30、41~48个单元块中有效权重数量为28、49~56个单元块中有效权重数量为8、57~64个单元块中有效权重数量为11。

从上述单元块的有效权重数量可知，其有效权重数量最多的一组为，25~32个单元块中有效权重数量为31。因没有超过32，因此其可以将列向的8个单元块划分为一组，权重矩阵将被划分为8组,分别为1~8个单元块的第一组、9~16个单元块的第二组......57~64个单元块的第八组。

如图6所示，当一组中单元块1~8的有效权重数量超过32时，如1~8个单元块中有效权重数量为56时，则将1~8拆分为：1~4单元块为一组5~8单元块一组，以此类推。直到其一个计算组中单元块的有效权重数量小于32为止。因此，其可以将列向的4个单元块划分为一组，权重矩阵将被划分为8组,分别为1~4个单元块的第一组G1、5~16个单元块的第二组......61~64个单元块的第128组。因此，在一个权重矩阵中，计算组的划分依据为列向单元块组合后能小于32的组合。

图5以64x64的权重矩阵为例，其中K=32，P=8，约束K x Q中的权重数量不超过32=8^2/2。按照对工程应用需求的不同，可以灵活选取不同的分组策略，如：八个矩阵划分为一个组（group），记为G8，如图6所示，每个G8的区域包含8个8x8矩阵(一个方格表示一个8x8矩阵)，不超过P*Q/2个非零权重，即非零权重少于32。如：四个矩阵划分为一个组（group），

对于全连接计算的权重矩阵，M=fo，N=fi；其中，fo为：输出特征通道数；fi为：输入特征通道数。

对于卷积计算的卷积权重模板，M=fo，N=kx*ky*fi；其中，fo为：输出特征通道数；fi为：输入特征通道数； kx、ky为：卷积模板的尺寸。

因此，本发明采用的分组稀疏化方式同时适用于卷积、全连接计算的权重稀疏化。此外，相比于现有技术提出的聚集规则稀疏化，本发明采用的分组规则稀疏化策略更有利算法精度收敛，在同样的算法精度下，可以提供更高的稀疏率。

步骤S103，获取有效权重地址。

本步骤中，PE阵列依次读取所述计算组中各单元块的向量值，若当前单元块的向量值为非零权重，则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。

如图7所示，稀疏化矩阵存储格式，本发明采用稀疏化编码的方式对稀疏化后的权重矩阵进行存储，用非零权重值与非零权重值之间的间隔位数，轮流排列，实现了对权重矩阵的压缩，如在G8情况下，可以达到压缩4倍的效果。具体存储格式如下图所示，图6展示了对于一个16位向量，如何采用本发明的存储格式进行压缩，黄色部分为非零部分，白色部分全为零，按照本发明的存储方式，该向量记为（A,0)(B,3)(C,7)(D,2)，数字表示两个非零权重之间零的个数，相较于原存储向量A000B0000000C00D，有效的降低了存储的容量，减少了数据传输的带宽。

硬件加速设计，本发明采用一个P*Q的MAC阵列加速卷积与稀疏化操作。P*Q的MAC阵列，每次读入一个P维的输入特征向量与P*Q个权重，计算得到Q维的输出特征向量。

在稀疏化模式下，每次读入K维的特征向量与稀疏化后的P*Q/2个非零权重，计算时通过对存储格式中的间隔长度数值的提取，将约束矩阵还原，获得每个非零权重对应相乘的输入特征向量的位置，计算得到Q维的输出特征向量。

稀疏化解码：根据稀疏化编码，从矩阵的左上角开始，从上到下，从左到右补全K xQ矩阵。例如以6x4的矩阵为例，他的稀疏化编码(1,0)(2,3)(4,5)(3,6)(5,5)，括号中，第一个数表示非零权重值，第二个数表示这个非零数和上一个非零数或者起点的间隔。这个矩阵是如图8所示。

此时将稀疏化编码解码成为数据和地址的形式（value，address），因为约束矩阵一共有64*8（29）个数，故地址长度为9bit。

在约束后的K x Q矩阵中，每一列只允许最多8个非零数值，通过逻辑电路将这些非零数值取出并且读出非零权重以及所在列的序号，以图7所示矩阵为例，就有第一个非零数1的权重值为1，他的序号是1；第二个非零数的数值是2，他的序号是5。如图7所示。

根据这一列读出的序号，取出所给K维输入特征向量对应序号下的数值，然后将相同序号下列向量中的数值和矩阵第一列序号下的数值进行乘加操作，并借此得到输出数值，在图9的情况下，就是1x2+2x9=20。并行展开，同时把每一行非零权重与输入特征向量进行乘加操作，总共得到Q个这样加乘的结果数值，输出一个Q维的结果向量output。

比如在第二列中，只有一个非零数4，序号是5，那么应该从特征向量中取出第五个数值也就是9，得到4x9=36；再到第三列，取出非零数3，序号是6，然后与特征向量中第6个数值相乘，也就是3x8 =24；再到第四列，取出非零数5，序号是6，然后与特征向量中第6个数值相乘，也就是5x8=40。这样我们得到了这样操作下的四个数：20,36,24,40。则output为(20,36,24,40)。如果是一个Q列矩阵，那么会这样子得到Q个数值，将这Q个数构成一个向量，也就是output向量。

如图2所示，在本发明提供了加速可重构处理器运行的稀疏化数据处理方法的另一种实施方式中，步骤S103后还包括：

步骤S104,读取卷积计算值。

本步骤中，通过PE中的P×Q个PE单元，根据待处理阵列的每个计算组的有效权重地址获取有效权重地址所对应的非零权重值及其对应的存储地址。根据非零权重值对应的存储地址读取其对应的卷积计算值。

步骤S105，实现卷积或全连接层计算。

本步骤中，根据每个计算组中的非零权重值其对应的卷积计算值实现深度学习的神经网络模型中的卷积或全连接层计算。

在本发明提供了加速可重构处理器运行的稀疏化数据处理方法的又一种实施方式中，如图3所示，在步骤S105后还包括：

步骤S106，输出结果。

在本步骤中，输出神经网络模型中的卷积或全连接层计算结果。

本发明的第二个方面，提供了加速可重构处理器运行的稀疏化数据处理系统，如图4所示，可重构处理器包括PE阵列。PE阵列具有P×Q个PE单元。稀疏化数据处理系统包括：

一个权重划分单元101，其配置为沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将权重矩阵划分为多个单元块。单元块中包括多个有效权重。

一个分组单元201，其配置为将待计算权重矩阵中的列向单元块组成为一组。判断一组中单元块中有效权重总数是否多于P*Q/2,若是，则将一组平均拆分为两组单元块。获取待计算权重矩阵中不超过P*Q/2的一组单元块数量为分组划分数量。根据分组划分数量沿待计算权重矩阵的列向将待计算权重矩阵划分为多个计算组。和

一个存储单元301，其配置为PE阵列依次读取所述计算组中各单元块的向量值，若当前单元块的向量值为非零权重，则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。

如图4所示，在本发明提供了加速可重构处理器运行的稀疏化数据处理系统的另一种实施方式中，该系统还包括：

一个提取单元401,其配置为通过PE中的P*Q个PE单元，根据待处理阵列的每个计算组的有效权重地址获取有效权重地址所对应的非零权重值及其对应的存储地址。根据非零权重值对应的存储地址读取其对应的卷积计算值。和

一个计算单元501，其配置为根据每个计算组中的非零权重值其对应的卷积计算值实现深度学习的神经网络模型中的卷积或全连接层计算。

在本发明提供了加速可重构处理器运行的稀疏化数据处理系统的再一种实施方式中，PE阵列中的P*Q个PE单元为8×8的PE单元。

应当理解，虽然本说明书是按照各个实施方式中描述的，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.加速可重构处理器运行的稀疏化数据处理方法，其特征在于，所述可重构处理器包括PE阵列；所述PE阵列具有P×Q个PE单元；所述稀疏化数据处理方法包括：

步骤S101，沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将所述权重矩阵划分为多个单元块；所述单元块中包括多个有效权重；

步骤S102，将所述待计算权重矩阵中的列向单元块组成为一组；判断所述一组中单元块中有效权重总数是否多于P×Q/2,若是，则将所述一组平均拆分为两组单元块；获取待计算权重矩阵中不超过P×Q/2的一组单元块数量为分组划分数量；根据所述分组划分数量沿所述待计算权重矩阵的列向将所述待计算权重矩阵划分为多个计算组；

步骤S103，所述PE阵列依次读取所述计算组中各单元块的向量值，若当前单元块的向量值为非零权重，则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。

2.根据权利要求1所述的稀疏化数据处理方法，其特征在于，所述步骤S103后还包括：

步骤S104,通过所述PE中的P×Q个PE单元，根据待处理阵列的每个计算组的有效权重地址获取所述有效权重地址所对应的非零权重值及其对应的存储地址；根据所述非零权重值对应的存储地址读取其对应的卷积或全连接的特征输入值；

步骤S105，根据每个计算组中的非零权重值其对应的特征输入值实现深度学习的神经网络模型中的卷积或全连接层计算。

3.根据权利要求2所述的稀疏化数据处理方法，其特征在于，所述步骤S105后还包括：

步骤S106，输出所述神经网络模型中的卷积或全连接层计算结果。

4.根据权利要求1所述的稀疏化数据处理方法，其特征在于，所述PE阵列中的P×Q个PE单元为8×8的PE单元。

5.加速可重构处理器运行的稀疏化数据处理系统，其特征在于，所述可重构处理器包括PE阵列；所述PE阵列具有P×Q个PE单元；所述稀疏化数据处理系统包括：

一个权重划分单元，其配置为沿待计算稀疏化权重矩阵的行列方向以P×Q为一个划分单元，将所述权重矩阵划分为多个单元块；所述单元块中包括多个有效权重；

一个分组单元，其配置为将所述待计算权重矩阵中的列向单元块组成为一组；判断所述一组中单元块中有效权重总数是否多于P×Q/2,若是，则将所述一组平均拆分为两组单元块；获取待计算权重矩阵中不超过P×Q/2的一组单元块数量为分组划分数量；根据所述分组划分数量沿所述待计算权重矩阵的列向将所述待计算权重矩阵划分为多个计算组；和

一个存储单元，其配置为所述PE阵列依次读取所述计算组中各单元块的向量值，若当前单元块的向量值为非零权重，则将当前单元块的非零权重值和距离上一非零权重的零权重单元块间隔数作为当前单元块的有效权重地址存入与所述计算组能对应的存储地址中。

6.根据权利要求5所述的稀疏化数据处理系统，其特征在于，所述系统还包括：

一个提取单元,其配置为通过所述PE中的P×Q个PE单元，根据待处理阵列的每个计算组的有效权重地址获取所述有效权重地址所对应的非零权重值及其对应的存储地址；根据所述非零权重值对应的存储地址读取其对应的卷积或全连接的特征输入值；和

一个计算单元，其配置为根据每个计算组中的非零权重值其对应的卷积或全连接的特征输入值实现深度学习的神经网络模型中的卷积或全连接层计算。

7.根据权利要求6所述的稀疏化数据处理系统，其特征在于，所述系统还包括：

一个输出单元，其配置为输出所述神经网络模型中的卷积或全连接层计算结果。

8.根据权利要求5所述的稀疏化数据处理系统，其特征在于，所述PE阵列中的P×Q个PE单元为8×8的PE单元。