CN112101510A

CN112101510A - 卷积神经网络推理加速方法、加速器、设备及存储介质

Info

Publication number: CN112101510A
Application number: CN202011081286.2A
Authority: CN
Inventors: 徐天赐; 景璐
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2020-12-18

Abstract

本发明公开了一种卷积神经网络推理加速方法、加速器、设备及存储介质，所述方法包括：判断待计算卷积层的类型；当卷积层为Depthwise卷积层时，令输出特征图通道数维度的向量化尺寸等于输入特征图通道数维度的向量化尺寸；将输入特征图通道数维度循环次数设置为1；将输入特征图的通道计算依据改为输出特征图通道；将卷积计算结果在输入通道向量维度的加和改为输入通道向量维度的选通；输入特征图数据与卷积核数据进行乘加计算，得到输出特征图数据。所述加速器包括：类型区分开关、类型设置模块和卷积计算模块。本发明能够降低架构的复杂度，降低计算的复杂度，节省系统的计算资源和存储资源。

Description

卷积神经网络推理加速方法、加速器、设备及存储介质

技术领域

本发明涉及深度学习领域，具体涉及一种卷积神经网络推理加速方法、加速器、设备及存储介质。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是人工神经网络的一种，广泛应用于图像分类、目标识别、行为识别、语音识别、自然语言处理与文档分类等领域。近几年，随着计算机计算能力的增长与CNN结构的发展，CNN网络的识别准确度有了很大提高，但与此同时，CNN的深度也不断加深，网络结构更加复杂，计算量也越来越大，因此需要图形处理器(Graphics Processing Unit，GPU)、现场可编程门阵列(Field－Programmable GateArray，FPGA)、应用集成电路(Application Specific Integrated Circuit，ASIC)等异构计算设备来加速CNN推理计算。

Depthwise卷积是深度可分离卷积的一种，应用于MobileNet、Xception等网络，可以降低过拟合并减少计算量。Depthwise卷积不同于普通卷积，普通卷积中一个卷积核参与全部通道特征数据的卷积，一个通道的特征数据与全部卷积核进行卷积计算，而Depthwise卷积中一个卷积核仅参与一个通道特征图的卷积，一个通道的特征图只与一个卷积核进行卷积计算。而现有的加速CNN推理计算的方法一般通过并行数据访问与并行计算提高普通卷积计算效率，但大都不支持Depthwise卷积的优化计算。因此，若对Depthwise卷积进行计算，需要将Depthwise卷积转化为普通卷积，Depthwise卷积中的权重数据需要大量补充零数据，并且在计算过程中进行大量的特征图与零数据相乘和卷积部分和结果与零数据相加的操作，浪费了大量计算资源与存储资源，并且还须对模型数据做转换处理。

发明内容

为了解决上述技术问题，本发明提出了一种卷积神经网络推理加速方法、加速器、设备及存储介质，能够降低架构的复杂度，降低计算的复杂度，节省系统的计算资源和存储资源。

为实现上述目的，本发明采用以下技术方案：

一种卷积神经网络推理加速方法，包括：

判断待计算卷积层的类型；

当卷积层为Depthwise卷积层时，令输出特征图通道数维度的向量化尺寸等于输入特征图通道数维度的向量化尺寸；将输入特征图通道数维度循环次数设置为1；将输入特征图的通道计算依据改为输出特征图通道；将卷积计算结果在输入通道向量维度的加和改为输入通道向量维度的选通；

输入特征图数据与卷积核数据进行乘加计算，得到输出特征图数据。

进一步地，所述输入特征图数据与卷积核数据进行乘加计算，包括：在输出特征图通道数、特征图高度、特征图宽度、输入特征图通道数、卷积核高度和卷积核宽度六个维度上迭代，按如上顺序遍历完成卷积计算。

进一步地，所述输出特征图通道数维度、特征图宽度维度、输入特征图通道数维度和卷积核宽度维度的迭代索引为向量索引，迭代终值为ceil(N,N_VECTOR)、ceil(OW,OW_VECTOR)、ceil(C,C_VECTOR)和ceil(FW,FW_VECTOR)；特征图高度维度和卷积核高度维度的迭代索引为对应尺寸，迭代步长为1。

进一步地，所述输入通道向量维度的选通条件为匹配卷积计算模块负责的输出通道对应的输入通道。

进一步地，所述方法应用于基于应用集成电路或现场可编程门阵列的卷积神经网络推理加速器。

进一步地，所述乘加计算一次完成W_VECTOR×C_VECTOR个输入特征图数据与FW_VECTOR×C_VECTOR个卷积核数据的计算，产生OW_VECTOR个输出特征图数据；

其中，W_VECTOR为特征图宽度维度的向量化尺寸；C_VECTOR为维度的向量化尺寸；FW_VECTOR为卷积核宽度维度的向量化尺寸；C_VECTOR为输入特征图通道数维度的向量化尺寸；OW_VECTOR为(W_VECTOR-FW_VECTOR+1)。

进一步地，N_VECTOR个卷积计算模块同时使用不同输出通道的卷积核对同一块特征图数据进行卷积计算，同时产生N_VECTOR个输出通道的输出特征图数据；其中，N_VECTOR为输出特征图向量。

本发明还提出了一种卷积神经网络推理加速器，包括：

类型区分开关，用于区分判断待计算卷积层的类型，控制类型设置模块修改计算架构；

类型设置模块，用于根据待计算卷积层的类型修改计算架构；当卷积层为Depthwise卷积层时，令输出特征图通道数维度的向量化尺寸等于输入特征图通道数维度的向量化尺寸；将输入特征图通道数维度循环次数设置为1；将输入特征图的通道计算依据改为输出特征图通道；将卷积计算结果在输入通道向量维度的加和改为输入通道向量维度的选通；

卷积计算模块，用于对输入特征图数据与卷积核数据进行乘加计算，得到输出特征图数据。

本发明还提出了一种卷积神经网络推理加速设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述卷积神经网络推理加速方法的步骤。

本发明还提出了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述卷积神经网络推理加速方法的步骤。

本发明的有益效果是：

本发明通过提出一种卷积神经网络推理加速方法、加速器、设备及存储介质，解决了现有技术中必须将Depthwise卷积转化为普通卷积才能进行卷积计算的问题，节省了大量被浪费的计算资源与存储资源，使通用卷积计算架构能够以低架构复杂度与低计算复杂度兼容Depthwise卷积操作，提高了加速器的通用性，灵活支持MobileNet、Xception等多种类型的含有Depthwise卷积计算的流行CNN模型。

附图说明

图1是本发明实施例卷积神经网络推理加速方法流程示意图；

图2是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图1；

图3是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图2；

图4是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图3；

图5是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图4；

图6是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图5；

图7是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图6；

图8是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图7；

图9是本发明实施例卷积神经网络推理加速方法卷积计算过程示意图8；

图10是本发明实施例卷积神经网络推理加速器结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

如图1所示，本发明实施例公开了一种卷积神经网络推理加速方法，包括：

判断待计算卷积层的类型；

具体地，所述输入特征图数据与卷积核数据进行乘加计算，包括：在输出特征图通道数、特征图高度、特征图宽度、输入特征图通道数、卷积核高度和卷积核宽度六个维度上迭代，按如上顺序遍历完成卷积计算。输出特征图通道数为最外层循环，卷积核宽度为最内层循环，由内向外各个维度遍历完成后最终完成卷积计算。

由于在输出特征图通道数维度、特征图宽度维度、输入特征图通道数维度和卷积核宽度维度存在向量化处理，所述输出特征图通道数维度、特征图宽度维度、输入特征图通道数维度和卷积核宽度维度的迭代索引为向量索引，迭代终值为ceil(N,N_VECTOR)、ceil(OW,OW_VECTOR)、ceil(C,C_VECTOR)和ceil(FW,FW_VECTOR)；特征图高度维度和卷积核高度维度的迭代索引为对应尺寸，迭代步长为1。

卷积计算由原来的输入通道向量维度的加和改为输入通道向量维度的选通，选通输入通道向量中单一的输入通道，选通条件为匹配卷积计算模块负责的输出通道对应的输入通道。

本发明实施例所述卷积神经网络推理加速方法可以应用于基于应用集成电路或现场可编程门阵列的卷积神经网络推理加速器，可以用于MobileNet、Xception等卷积神经网络模型。以基于FPGA的卷积神经网络推理加速方法为例，图2至图9示出了一个典型的基于FPGA的CNN推理加速器的卷积计算过程。图中，N为输出特征图通道数，H为特征图高度，W为特征图宽度，C为输入特征图通道数，FH为卷积核高度，FW为卷积核宽度。

CNN中卷积计算的实质为N个尺寸为FH×FW×C的卷积核数据与尺寸为H×W×C的特征图数据进行卷积计算，生成尺寸为OH×OW×N的输出特征图的过程(其中，对于步长Stride＝1的情况，OH＝H-FH+1，OW＝W-FW+1)。其中，一个卷积核的卷积计算具体过程为卷积核数据与特征图数据在C维度上一一对应，在宽度与高度的维度上，尺寸为FH×FW的卷积核在尺寸为H×W的特征图平面上滑动遍历，每次滑动，FH×FW×C个卷积核数据与对应位置的FH×FW×C个特征图数据进行点乘并相加的操作，生成一个输出特征图数据，遍历完成后生成尺寸为OH×OW二维输出特征图数据。N个卷积和完成滑动遍历后生成OH×OW×N个输出特征图数据。其中，本层卷积计算的输出特征图通道数N与下一层的输入特征图通道数C是等价的。

对于基于FPGA的CNN推理加速器，图2至图8详细描述了经过并行访存与计算优化的卷积计算具体步骤，图9中的深色数据块代表当前正在参与计算的卷积核数据，虚线数据块代表当前正在参与计算的特征图数据，数据块为在宽度与C两个维度上延展的二维数据，代表当前计算数据在宽度与C两个维度上进行并行计算。若在C维度上的向量化尺寸为C_VECTOR，在W维度上的向量化尺寸为W_VECTOR，在FW维度上的向量化尺寸为FW_VECTOR，则一次计算完成W_VECTOR×C_VECTOR个输入特征图数据与FW_VECTOR×C_VECTOR个卷积核数据的乘加计算，产生OW_VECTOR个输出特征图数据(其中，OW_VECTOR＝W_VECTOR-FW_VECTOR+1)。另外，如图2至图8右侧所示，N_VECTOR个卷积计算模块同时使用不同输出通道的卷积核对同一块特征图数据进行卷积计算，同时产生N_VECTOR个输出通道的输出特征图数据。因此，一次计算产生OW_VECTOR×N_VECTOR个输出特征图数据。

其中，特征图数据与卷积核数据的乘加计算在N、H、W、C、FH、FW六个维度上迭代，N为最外层循环，FW为最内层循环，由内向外各个维度遍历完成后最终完成卷积计算。其中C、FH、FW三个维度的迭代完成后完成一个W维度的OW_VECTOR尺寸的输出特征图数据。对比图2与图3可以看出FW维度的迭代过程，对比图2与图4可以看出FH维度的迭代过程，对比图2与图5可以看出C维度的迭代过程，对比图2与图6可以看出W维度的迭代过程，对比图2与图7可以看出H维度的迭代过程，对比图2与图8可以看出N维度的迭代过程。其中，N维度、W维度、C维度与FW维度上由于存在向量化处理，迭代索引为向量索引，迭代终值为ceil(N,N_VECTOR)、ceil(OW,OW_VECTOR)、ceil(C,C_VECTOR)、ceil(FW,FW_VECTOR)；H维度与FH维度迭代索引为对应尺寸本身，每次迭代的步长为1。

当待计算卷积层为Depthwise卷积层时，需要对上述计算架构作如下修改：

令N_VECTOR＝C_VECTOR；

将Depthwise层的C维度循环次数设为1。在此配置下，对于Depthwise卷积层，卷积计算的六维循环(N、H、W、C、FH、FW)降低为五维循环(N、H、W、FH、FW)，将C维度循环压缩为单次循环，实际上是对Depthwise层取消了C维度循环，但不与原计算架构冲突。

对于Depthwise层，输入特征图的通道计算依据由C通道改为N通道。

对于Depthwise层，卷积计算模块由原来的C_VECTOR维度的加和改为C_VECTOR维度的选通，选通C_VECTOR中单一的输入通道，选通原则为匹配本卷积计算模块负责的输出通道对应的输入通道。对于Depthwise层，仅将卷积计算模块的原有功能——卷积计算结果在输入通道向量维度的加和、卷积计算结果在卷积核宽度向量维度的加和、卷积计算结果在卷积核宽度向量索引维度的加和、卷积计算结果在卷积核高度维度的加和、卷积计算结果在输入通道索引维度的加和(即对应C_VECTOR,FW_VECTOR,ceil(FW,FW_VECTOR),FH,ceil(C,C_VECTOR)五个维度)——之中输入通道向量维度的加和改为输入通道向量维度的选通。在N维度复用与上述C_VECTOR维度选通的联合作用下，实现输出通道向量索引、输出通道向量(N_VECTOR)与输入通道向量索引、输入通道向量(C_VECTOR)的一一对应，即输出通道与输入通道的一一对应。

本发明实施例通过上述修改实现了对Depthwise卷积层的兼容。

如图2所示，本发明实施例还提出了一种卷积神经网络推理加速器，包括：

本发明实施例还提出了一种卷积神经网络推理加速设备，包括：

存储器，用于存储计算机程序；

本发明实施例还提出了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述卷积神经网络推理加速方法的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种卷积神经网络推理加速方法，其特征在于，包括：

判断待计算卷积层的类型；

2.根据权利要求1所述的卷积神经网络推理加速方法，其特征在于，所述输入特征图数据与卷积核数据进行乘加计算，包括：在输出特征图通道数、特征图高度、特征图宽度、输入特征图通道数、卷积核高度和卷积核宽度六个维度上迭代，按如上顺序遍历完成卷积计算。

3.根据权利要求2所述的卷积神经网络推理加速方法，其特征在于，所述输出特征图通道数维度、特征图宽度维度、输入特征图通道数维度和卷积核宽度维度的迭代索引为向量索引，迭代终值为ceil(N,N_VECTOR)、ceil(OW,OW_VECTOR)、ceil(C,C_VECTOR)和ceil(FW,FW_VECTOR)；特征图高度维度和卷积核高度维度的迭代索引为对应尺寸，迭代步长为1。

4.根据权利要求1所述的卷积神经网络推理加速方法，其特征在于，所述输入通道向量维度的选通条件为匹配卷积计算模块负责的输出通道对应的输入通道。

5.根据权利要求1所述的卷积神经网络推理加速方法，其特征在于，所述方法应用于基于应用集成电路或现场可编程门阵列的卷积神经网络推理加速器。

6.根据权利要求1所述的卷积神经网络推理加速方法，其特征在于，所述乘加计算一次完成W_VECTOR×C_VECTOR个输入特征图数据与FW_VECTOR×C_VECTOR个卷积核数据的计算，产生OW_VECTOR个输出特征图数据；

7.根据权利要求6所述的卷积神经网络推理加速方法，其特征在于，N_VECTOR个卷积计算模块同时使用不同输出通道的卷积核对同一块特征图数据进行卷积计算，同时产生N_VECTOR个输出通道的输出特征图数据；其中，N_VECTOR为输出特征图向量。

8.一种卷积神经网络推理加速器，其特征在于，包括：

9.一种卷积神经网络推理加速设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述卷积神经网络推理加速方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述卷积神经网络推理加速方法的步骤。