CN111626410B

CN111626410B - 一种稀疏卷积神经网络加速器及计算方法

Info

Publication number: CN111626410B
Application number: CN201910149310.2A
Authority: CN
Inventors: 余成宇; 李志远; 毛文宇; 鲁华祥; 边昳
Original assignee: Institute of Semiconductors of CAS; University of Chinese Academy of Sciences
Current assignee: Institute of Semiconductors of CAS; University of Chinese Academy of Sciences
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2023-09-05
Anticipated expiration: 2039-02-27
Also published as: CN111626410A

Abstract

一种稀疏卷积神经网络加速器及计算方法，其中，加速器包括：卷积计算模块，用于对输入特征图进行乘加处理，生成中间结果，其中，卷积计算模块由9个计算单元组成，每一计算单元由一个及以上的乘加器组成，同一计算单元中乘加器的激活输入相同，9个计算单元设置有一额外激活输入；非线性及池化模块，用于对中间结果进行非线性计算及池化计算，生成输出特征图；全连接层计算模块，用于对输出特征图进行全连接计算，生成最终结果。通过对多个卷积计算模块组合出不同的工作模式，能够在有效利用激活稀疏性加速卷积神经网络计算的同时，产生较小的额外资源开销和较低的负载失衡。

Description

一种稀疏卷积神经网络加速器及计算方法

技术领域

本公开涉及深度学习领域，具体地，涉及一种稀疏卷积神经网络加速器及计算方法。

背景技术

近年来，由于大数据时代海量数据的获取以及计算机性能的显著提升，以卷积神经网络为代表的深度学习算法在许多领域体现出了巨大的优越性。然而，像典型的分类网络VGG-16，需要15.5G次乘加操作和138M的参数量，巨大的计算量和参数量使得卷积神经网络的实际应用困难重重。实验表明卷积神经网络具有本征的稀疏性，有效的利用稀疏性能够通过降低计算量的方式极大地提升计算性能，而现有卷积神经网络加速器的设计忽视了卷积神经网络稀疏性对加速器设计的重要意义。

设计卷积神经网络加速器的核心问题在于数据共享和复用情况下，以何种形式大规模并行展开乘加器。卷积神经网络中的卷积计算在使用常见的激活函数(ReLU)时，激活结果会出现大量的零值，而零值不影响下一层网络的计算结果，本发明针对这种卷积神经网络中激活稀疏性的特点，跳过对零值的乘累加计算，从而降低实际计算量，提升计算性能。然而，利用激活稀疏性需要增加额外的逻辑以判断或处理激活输入，这会增加额外的资源开销；此外，不同的激活输入稀疏性不相同，队列长度不同，并行计算时因为等待最长队列会降低并行效率；并且，使用平铺方式共享激活输入展开输出特征图的方式是有上限的，过量的展开输出特征图方向会导致并行效率降低。

发明内容

(一)要解决的技术问题

本公开提供了一种稀疏卷积神经网络加速器及计算方法，至少解决以上技术问题。

(二)技术方案

本公开提供了一种稀疏卷积神经网络加速器，包括：卷积计算模块，用于对输入特征图进行乘加处理，生成中间结果，其中，所述卷积计算模块由9个计算单元组成，每一所述计算单元由一个及以上的乘加器组成，同一所述计算单元中乘加器的激活输入相同，所述9个计算单元设置有一额外激活输入；非线性及池化模块，用于对所述中间结果进行非线性计算及池化计算，生成输出特征图；全连接层计算模块，用于对所述输出特征图进行全连接计算，生成最终结果。

可选地，每一所述计算单元对所述输入特征图进行判断，并确定一非零的激活输入作为所述额外激活输入。

可选地，所述加速器中卷积计算模块的数量为一个及以上，根据所述输出特征图的数量确定所述卷积计算模块的工作模式。

可选地，当所述输入特征图的尺寸大于预设值时，对所述输入特征图进行切分，根据切分状态和所述输出特征图的数量确定所述卷积计算模块的工作模式。

可选地，所述9个计算单元形成3×3卷积核，每一所述计算单元将其生成的乘加结果传递至下一个与其连接的计算单元，或者经由所述计算单元所在行的FIFO缓存传递至下一行的计算单元，该计算单元以其接收到的乘加结果为初始值继续进行乘加计算。

可选地，所述FIFO缓存不小于所述输出特征图的行长度。

可选地，所述加速器还包括：DRAM模块，用于存储原始图像以及所述最终结果；DMA模块，用于从所述DRMA模块中获取所述原始图像，并生成所述原始图像对应的输入特征图，以及从所述全连接层计算模块中获取所述最终结果并传输至所述DRMA模块；缓存模块，用于缓存所述计算单元和乘加器的计算参数；控制模块，用于控制所述卷积计算模块、非线性及池化模块、全连接层计算模块和DMA模块。

可选地，所述加速器还包括网络模块，用于将所述DMA模块中的输入特征图传输至所述卷积计算模块，并将所述卷积计算模块的乘加结果传输至所述非线性及池化模块，以及将所述非线性及池化模块的输出特征图传输至所述全连接层计算模块。

可选地，在同一个所述卷积计算模块中，每一所述计算单元中乘加器的数量相同。

本公开还提供了一种稀疏卷积神经网络加速器的计算方法，包括：S1，卷积计算模块利用一个额外逻辑对输入特征图进行判断，根据判断结果确定一非零的激活输入，获取所述激活输入对应的权重参数以计算所述卷积计算模块；S2，利用所述卷积计算模块对所述输入特征图进行乘加处理，生成中间结果，其中，所述卷积计算模块中的每一计算单元内乘加器的计算是并行进行的，所述计算单元同时传递其计算结果至下一个与其连接的计算单元，并使用所述卷积计算模块中的FIFO缓存整行计算结果以传递到下一行计算单元；S3，对所述中间结果进行非线性计算及池化计算，生成输出特征图；S4，将所述输出特征图作为下一层计算的输入特征图，重复执行操作S1-S3直至最后一层计算；S5，对最后一层计算的输出特征图进行全连接计算，生成最终结果。

(三)有益效果

本公开提供的稀疏卷积神经网络加速器及计算方法，具有以下有益效果：

(1)通过配置额外激活输入，利用激活稀疏性跳过值为零的激活输入的乘累加计算，减少实际计算量，提升计算性能；

(2)单个卷积计算模块包含9个计算单元，每个极端单元又由一定数量的乘加器组成，使得一个卷积计算模块完全共享激活输入，只有一条计算队列，既保证了并行计算效率，又节省了利用稀疏性的额外逻辑开销，与只平铺展开输出图特征的并行展开结构相比，在同样的并行计算效率和额外逻辑开销下，并行展开了9倍的乘加器，单位计算力的性能和资源更高效；

(3)多个卷积计算模块之间可以组合出不同的工作模式，能够有效地适应不同的卷积神经网络层次，有效地提高了卷积神经网络加速器对不同卷积神经网络层次的适应性和利用率。

附图说明

图1示意性示出了本公开实施例提供的稀疏卷积神经网络加速器的结构框图。

图2示意性示出了本公开实施例提供的卷积计算模块的结构框图。

图3示意性示出了本公开实施例提供的计算单元的结构框图。

图4示意性示出了本公开实施例提供的卷积计算模块组合可配置的多种工作模式示意图。

图5示意性示出了本公开实施例提供的VGG-16网络在ImageNet数据集环境下不同的并行展开结构加速器加速效果比较。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开的第一实施例示出了稀疏卷积神经网络加速器的结构。图1示意性示出了本公开实施例提供的稀疏卷积神经网络加速器的结构框图。图2示意性示出了本公开实施例提供的卷积计算模块的结构框图。图3示意性示出了本公开实施例提供的计算单元的结构框图。结合图2和图3，对图1所示结构进行详细的说明。

如图1所示，稀疏卷积神经网络加速器包括卷积计算模块、非线性及池化模块、全连接层计算模块、DRAM模块、DMA模块、缓存模块、控制模块和网络模块。

卷积计算模块由9个计算单元(PE)组成，每一计算单元由一个及以上的乘加器(MAC)组成，本实施例中以32个乘加器为例进行说明。

如图3所示，32个乘加器对输出特征图方向以平铺展开的方式组成一个计算单元，即这32个乘加器的激活输入相同，这32个乘加器分别同时与该激活输入对应的32个不同的输出特征图对应的权重相乘累加，并同时并行输出这一组32个输出特征图对应的一组乘累加结果。在同一个卷积计算模块中，每一个计算单元中乘加器的数量相同。

如图2所示，将9个图3中产生的计算单元对卷积内核方向以二维脉动阵列展开的方式组成一个卷积计算模块，这9个计算单元形成3×3卷积核，即为这9个计算单元设置一有效的额外激活输入，分别与3×3卷积核对应的权重进行乘累加。

有效的额外激活输入是指每一计算单元对输入特征图经过判断或处理逻辑，并确定的一非零激活输入。计算窗口指卷积计算时卷积核在输入特征图上滑窗的一个时间节点。依次输入本计算窗口的所有激活输入，在计算窗口这个时间节点，各计算单元依次对若干个输入特征图(本实施例中设定为N个)进行判断或处理逻辑，选择有效的额外激活输入进行乘累加计算。

计算窗口结束时，每一个计算单元同时将其生成的乘加结果传递至下一个与其连接的计算单元，对于处于不同两行的两个计算单元之间乘加结果的传递，需经过该计算单元所在行的先入先出(FIFO)缓存传递至下一行的计算单元，对于每一个特定的卷积计算层，FIFO缓存深度设定为此卷积层的行长度。例如，对于图2中每一行的前两个计算单元而言，其可直接将乘加结果传递至下一个与其连接的计算单元；对于图2中前两行(即Row0和Row1)的第三个计算单元而言，其需要将乘加结果传递至其所在行的FIFO缓存，以Row0和Row1之间的乘加结果传递为例，Row0中第三个计算单元将乘加结果传递至Row0中的FIFO缓存，Row1中第一个计算单元从Row0中的FIFO缓存中获取乘加结果。在下一个计算窗口开始时，Row0中第一个计算单元以输入特征图为初始值，其它计算单元以传递来的一组乘加结果为初始值继续进行乘加计算。此外，FIFO缓存深度是可调节的，但是最大缓存深度是固定的，最大缓存深度应不小于输出特征图的行长度。

每当一组乘加结果经过若干个计算窗口周期，完整遍历这9个计算单元之后，这一组乘加结果经卷积计算模块Row2中的第三个计算单元输出，由此完成了32个输出特征图上一个点的计算。从第一组有效乘加结果输出开始，重复以上卷积计算模块的操作，随着该3×3卷积核遍历整个输入特征图，依次完成32个输出特征图上所有点对应的乘加结果的计算。将这些所有的乘加结果定义为中间结果。

本实施例中卷积计算模块中所有的计算单元共享一个有效的额外激活输入，复用乘加结果，每一个卷积计算模块仅需配置一个判断或处理激活输入的逻辑单元，节省了利用稀疏性的额外逻辑开销。

非线性及池化模块，用于对卷积计算模块输出的中间结果进行非线性计算及池化计算，生成32个输出特征图。非线性及池化模块可包括非线性子模块和池化子模块，其中，非线性子模块用于对中间结果进行非线性计算，池化子模块用于对中间结果进行池化计算。非线性子模块和池化子模块不是每一层计算中所必须的，根据控制模块的设置确定每一层计算中是否需要使用非线性子模块和池化子模块。

全连接层计算模块，用于对输出特征图进行全连接计算，生成最终结果。DRAM模块，用于存储原始图像、图像参数以及最终结果。DMA模块，用于从DRMA模块中获取原始图像，并生成原始图像对应的输入特征图，以及从全连接层计算模块中获取最终结果并传输至DRMA模块。缓存模块，用于缓存计算单元和乘加器进行乘加计算所需的计算参数。控制模块，用于控制卷积计算模块、非线性及池化模块、全连接层计算模块和DMA模块的计算。网络模块，包含输入网络子模块和输出网络子模块，通过输入网络子模块将DMA模块中的输入特征图传输至卷积计算模块，并通过输出网络子模块将卷积计算模块的乘加结果传输至非线性及池化模块，以及将非线性及池化模块的输出特征图传输至全连接层计算模块。

本公开的第二实施例示出了多种工作模式。图4示意性示出了本公开实施例提供的卷积计算模块组合可配置的多种工作模式示意图。以下对图4所示的四种工作模式进行详细的说明。

加速器中卷积计算模块的数量为一个及以上，当卷积计算模块的数量大于一个时，可根据输出特征图的数量调整调整输入输出数据通道，组成进而确定每一卷积计算模块的工作模式，从而组成不同的工作模式来适应不同的网络结构。此外，对于尺寸特别大的输入特征图，当输入特征图的尺寸大于预设值时，可以对输入特征图进行切分，根据切分状态(即是否切分)和输出特征图的数量确定卷积计算模块的工作模式。

以4个卷积计算模块为例，图4(A)-4(D)分别示出了四种不同的工作模式，其中IFM表示输入特征图，OFM表示输出特征图。不同的激活输入数量可以控制并行卷积计算的输出特征图数量，适应规格不同的卷积神经网络层次。如图4(A)所示的1IFM-4OFM模式下，4个卷积计算单元共享相同的激活输入，同时计算128个输出特征图。如图4(B)所示的4IFM-1OFM模式下，激活输入会按输入特征图通道方向均分到4个卷积计算单元，4个核心的乘加结果会依次求和再输出，同时计算32个输出特征图。如图4(C)所示的2IFM-2OFM模式，其介于1IFM-4OFM和4IFM-1OFM，适用于有64个输出特征图的层，以充分利用卷积计算模块的计算能力。如图4(D)所示的左右分块(BlockMode)模式适用于卷积神经网络输入层尺寸极大的场景，能够解决输入特征图尺寸特别大，FIFO缓存整行计算结果时可能出现的FIFO深度不够的问题，该模式下将FIFO缓存的深度需求缩减为原来的一半。

本公开的第三实施例示出了一种稀疏卷积神经网络加速器的计算方法。包括以下操作：

S1，卷积计算模块利用一个额外逻辑依次对若干个输入特征图进行判断或处理逻辑，根据判断结果确定一非零的激活输入，获取该激活输入对应的权重参数以计算卷积计算模块。

S2，利用卷积计算模块对输入特征图进行乘加处理，生成中间结果，其中，卷积计算模块中的每一计算单元内乘加器的计算是并行进行的，计算单元间的计算是以脉动阵列形式同时流水进行的，同时流水进行即为所有的计算单元同时传递计算结果至下一个与其连接的计算单元，并使用卷积计算模块中的FIFO缓存整行计算结果以传递到下一行计算单元。这一操作是通过为同一计算单元内的乘加器设置一共享的激活输入，以及通过为卷积计算模块中的9个计算单元设置一共享的额外激活输入实现的。

S3，对中间结果进行非线性计算及池化计算，生成输出特征图。

S4，将输出特征图作为下一层计算的输入特征图，重复执行操作S1-S3直至最后一层计算。

S5，对最后一层计算的输出特征图进行全连接计算，生成最终结果。

本公开的第四实施例针对经典的VGG-16神经网络进行了实验，实验结果如图5所示。图5示意性示出了本公开实施例提供的VGG-16网络在ImageNet数据集环境下不同的并行展开结构加速器加速效果比较。在ImageNet数据集下，相对于原始稠密网络，本公开利用激活稀疏性将卷积性能提升了1.92倍，并且由于本发明单核心内部没有负载失衡损失，本公开的加速效果比图中其它结构的加速效果更好。

需要说明的是，在附图或说明书正文中，未描述的卷积神经网络基础单元，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

还需要说明的是，本发明可提供包含特定值的参数的示范，但这些参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应值。此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种稀疏卷积神经网络加速器，包括：

卷积计算模块，用于对输入特征图进行乘加处理，生成中间结果，其中，所述卷积计算模块由9个计算单元组成，每一所述计算单元由一个及以上的乘加器组成，同一所述计算单元中乘加器的激活输入相同，所述9个计算单元设置有一额外激活输入；其中，所述9个计算单元形成3×3卷积核，每一所述计算单元将其生成的乘加结果传递至下一个与其连接的计算单元，或者经由所述计算单元所在行的FIFO缓存传递至下一行的计算单元，该计算单元以其接收到的乘加结果为初始值继续进行乘加计算；

非线性及池化模块，用于对所述中间结果进行非线性计算及池化计算，生成输出特征图；

全连接层计算模块，用于对所述输出特征图进行全连接计算，生成最终结果。

2.根据权利要求1所述的稀疏卷积神经网络加速器，其中，每一所述计算单元对所述输入特征图进行判断，并确定一非零的激活输入作为所述额外激活输入。

3.根据权利要求1所述的稀疏卷积神经网络加速器，其中，所述加速器中卷积计算模块的数量为一个及以上，根据所述输出特征图的数量确定所述卷积计算模块的工作模式。

4.根据权利要求3所述的稀疏卷积神经网络加速器，其中，当所述输入特征图的尺寸大于预设值时，对所述输入特征图进行切分，根据切分状态和所述输出特征图的数量确定所述卷积计算模块的工作模式。

5.根据权利要求1所述的稀疏卷积神经网络加速器，其中，所述FIFO缓存不小于所述输出特征图的行长度。

6.根据权利要求1所述的稀疏卷积神经网络加速器，其中，所述加速器还包括：

DRAM模块，用于存储原始图像以及所述最终结果；

DMA模块，用于从所述DRAM模块中获取所述原始图像，并生成所述原始图像对应的输入特征图，以及从所述全连接层计算模块中获取所述最终结果并传输至所述DRAM模块；

缓存模块，用于缓存所述计算单元和乘加器的计算参数；

控制模块，用于控制所述卷积计算模块、非线性及池化模块、全连接层计算模块和DMA模块。

7.根据权利要求6所述的稀疏卷积神经网络加速器，其中，所述加速器还包括网络模块，用于将所述DMA模块中的输入特征图传输至所述卷积计算模块，并将所述卷积计算模块的乘加结果传输至所述非线性及池化模块，以及将所述非线性及池化模块的输出特征图传输至所述全连接层计算模块。

8.根据权利要求1所述的稀疏卷积神经网络加速器，其中，在同一个所述卷积计算模块中，每一所述计算单元中乘加器的数量相同。

9.一种利用权利要求1-8任一项所述的稀疏卷积神经网络加速器进行计算的方法，包括：

S1，卷积计算模块利用一个额外逻辑对输入特征图进行判断，根据判断结果确定一非零的激活输入，获取所述激活输入对应的权重参数以计算所述卷积计算模块；

S2，利用所述卷积计算模块对所述输入特征图进行乘加处理，生成中间结果，其中，所述卷积计算模块中的每一计算单元内乘加器的计算是并行进行的，所述计算单元同时传递其计算结果至下一个与其连接的计算单元，并使用所述卷积计算模块中的FIFO缓存整行计算结果以传递到下一行计算单元；

S3，对所述中间结果进行非线性计算及池化计算，生成输出特征图；

S4，将所述输出特征图作为下一层计算的输入特征图，重复执行操作S1-S3直至最后一层计算；