CN111667052B

CN111667052B - 专用神经网络加速器的标准与非标准卷积一致性变换方法

Info

Publication number: CN111667052B
Application number: CN202010463952.2A
Authority: CN
Inventors: 王维; 伍骏
Original assignee: Shanghai Saifang Technology Co ltd
Current assignee: Shanghai Saifang Technology Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-04-25
Anticipated expiration: 2040-05-27
Also published as: CN111667052A

Abstract

本发明公开了专用神经网络加速器的标准与非标准卷积一致性变换方法，涉及神经网络技术领域。本发明包括专用网络加速器启动计算前步骤和硬件处理流程；专用网络加速器启动计算前步骤具体为：系统主控制器将被加速网络层的输入特征图、卷积核系数及偏置系数等数据从外部的大容量存储器搬移到片上系统的高速存储器；硬件处理流程包括：S01、判断是否需要对输入数据进行常量填充、行列置换等数据预处理；S02、将预处理后或无需处理的数据搬移数据到片上存储器；S03、主控制器配置专用神经网络加速器后启动计算。本发明可以有效控制算法兼容性设置，提高了专用神经网络对卷积类算法的扩展性，有效提高硬件复用率，降低功耗。

Description

专用神经网络加速器的标准与非标准卷积一致性变换方法

技术领域

本发明属于神经网络技术领域，特别是涉及专用神经网络加速器的标准与非标准卷积一致性变换方法。

背景技术

标准卷积层(normal convolution)与全连接层(fully-connected)是深度神经网络中最常见的网络层类型，如卷积神经网络(CNN)，所以，标准卷积层是很多专用神经网络加速器设计的重要参考算法，对标准卷积层运算的加速效率是衡量一个专用神经网络加速器性能的主要参考指标。但随着一些新型深度神经网络的提出，如MobileNet，Xception，一些具有特殊应用的非标准卷积算法被提出，如深度卷积(depthwise convolution)、反卷积(或称转置卷积，deconvolution或transposed convolution)及膨胀卷积(或称空洞卷积，dilated convolution)，这对已完成设计或已产品化的专用神经网络加速器兼容新型算法的扩展能力提出了较高要求，可能会导致对旧版加速器结构进行调整，甚至重新设计。

一些专用神经网络加速器在设计时，对标准卷积与非标准卷积采用直接映射的方式，分别为不同卷积算法设计专用处理电路实现，或者将相似卷积算法合并，复用相同硬件实现，如全连接运算复用标准卷积硬件运算，而其他类型卷积采用直接映射，或者专用加速器只运行特定类型卷积，而其他类型或新出现的卷积类算法使用通用处理器实现(包括CPU,GPU,DSP)；另一方面，对于新出现的非标准卷积算法的支持，已完成设计或已产品化的专用神经网络加速器需要修改原有硬件结构支持新算法，或使用通用处理器实现，而无法使用专用加速器对其进行加速。

本发明要解决的技术问题是提出了一种适用于专用神经网络加速器的标准卷积与非标准卷积的一致性变换方法，解决专用神经网络加速器对卷积类算法的兼容性问题。

发明内容

本发明提供了专用神经网络加速器的标准与非标准卷积一致性变换方法，解决了以上问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明的专用神经网络加速器的标准与非标准卷积一致性变换方法，所述专用神经网络加速器采用矩阵乘加矩阵，所述用神经网络加速器的一个处理单元(PE)内部包含乘法器、加法器等运算器件，完成一个特征点与权重系数的乘加运算，对处理单元进行分组，便于支持多个卷积核运算；其特征在于，变换方法包括专用网络加速器启动计算前步骤和硬件处理流程：

所述专用网络加速器启动计算前步骤具体为：系统主控制器将被加速网络层的输入特征图、卷积核系数及偏置系数等数据从外部的大容量存储器搬移到片上系统的高速存储器；

所述硬件处理流程包括：

S01、系统主控制器根据当前被加速卷积网络层类型，判断是否需要对输入数据进行常量填充、行列置换等数据预处理；

S02、将预处理后或无需处理的数据搬移数据到片上存储器；

S03、主控制器配置专用神经网络加速器后启动计算。

进一步地，所述系统主控制器包括MCU、CPU、DSP。

进一步地，所述大容量存储器采用包括动态随机存取存储器DRAM、高带宽存储器HBM。

进一步地，所述高速存储器采用包括静态随机存取存储器SRAM。

本发明相对于现有技术包括有以下有益效果：

1、本发明通过对标准卷积与非标准卷积(典型的包括分组卷积、全连接、深度卷积、反卷积及膨胀卷积)运算逻辑的分析，提出一种一致性变换方法，通过这种一致性变换方法能够将标准卷积与非标准卷积的差异性统一转化为输入特征图变换问题，而不影响各类卷积算法运算逻辑，因此，这种通过解决统一的特征图变换问题来消除不同类型卷积运算差异的方式，可以有效控制算法兼容性设置，提高了专用神经网络对卷积类算法的扩展性。

2、使用本发明提出的一致性变换方法，标准卷积与非标准卷积的差异可以通过在数据搬移阶段添加一个数据预处理过程，根据特征的卷积类型对输入特征图进行变换，经过预变换后，标准卷积与非标准卷积能够运行在已有硬件结构上，而无需额外的硬件支持，甚至标准卷积与非标准卷积能够复用同一个硬件结构完成运算，而无需额外硬件支持；一致性变换不仅解决了专用神经网络加速器对卷积类算法的兼容性问题，还能够有效提高硬件复用率，降低功耗。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明具体实施例的使用专用神经网络加速器对标准卷积与非标准卷积运算加速的统一处理流程步骤图；

图2为3x3标准卷积运算图；

图3为全连接运算图；

图4为3x3深度卷积运算图；

图5为3x3反卷积图；

图6为3x3转置卷积图；

图7为3x3膨胀卷积(或空洞卷积)运算图；

图8为一种包含专用神经网络加速器的系统实例图；

图9为一种计算标准卷积与非标准卷积的计算矩阵的硬件结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

标准卷积层是深度神经网络中最常见的一种网络层，对标准卷积运算的加速效果也是评价一个专用神经网络加速器性能的基本指标，所以，支持标准卷积层运算的乘法矩阵(GEMM)是专用神经网络加速器中的基本组成部分。就算法而言，标准卷积层运算是输入特征图与卷积核的卷积运算，结果为输出特征图。图2为3x3标准卷积运算，从图中可见，输入特征图通常为三维结构，每幅输入特征图具有二维尺寸HxW，对于图像类型的输入特征图表示一幅由垂直方向H个像素，水平方向W个像素构成的图片。第三维为通道方向，即尺寸为HxW输入特征图的数量C，每幅输入特征图代表一个通道的输入信息。对三维输入特征图进行卷积，卷积核(或称为滤波器)也具有三维结构CxVxH，C表示输入特征图的通道数，VxW表示卷积核的二维尺寸，如图2中的3x3卷积核，且二维卷积核内的值不全相同，每个通道上的卷积核称为一个卷积核分量，且卷积核分量的二维尺寸通常小于特征图的二维尺寸，对图2所示的3x3标准卷积，H>3,W>3。使用不同尺寸的卷积核对输入特征图进行卷积，能够得到不同粒度和不同类型的特征。标准卷积层的输出称为输出特征图，是输入特征图与卷积核的卷积结果，也是三维的，即每个输出通道中包含一个二维特征图。卷积核的数量与输出特征图的通道数匹配。所以，使用N个尺寸为CxVxH的卷积核对C个通道输入特征图进行标准卷积，将产生N个通道的输出特征图。如图2所示的3x3标准卷积，操作数包括左侧C个通道尺寸为HxW的特征图及右侧N个Cx3x3卷积核(每个3D卷积核包含C个分量)，运算过程包含两个步骤：其一，每个通道上3x3卷积核分量与输入特征图上3行3列交叉的9个特征点进行乘加运算，并沿垂直方向对C个通道的乘加结果进行累加，分别得到底部N个输出特征图中的一个特征点；其二，所有输入通道上的3x3卷积核分量沿水平或垂直方向按照指定步长滑动一次，并重复前一步骤，得到输出特征图的第二个特征点，依次类推，最终得到N个完整输出特征图。

分组卷积是标准卷积的一种特殊形式，在图2所示的3x3标准卷积中，如果每幅输出特征图不是全部输入通道的卷积累加和，而是部分输入通道特征图的卷积累加和，如将输入通道C划分为T组，C1，C2,…Ct，C＝C1+C2+…+Ct，分别对每组输入特征图进行卷积，即为分组卷积。显然，分组后的卷积与原来的标准卷积操作数相同，但输出特征图更多了。因此，分组卷积运算与标准卷积运算相比，分组卷积需对输入通道上的特征图进行分组。

图3是另一种常见的卷积型网络层，即全连接层。从图3可以看到，全连接层运算与标准卷积很相似，与标准卷积运算相比，全连接的输入是单通道的，而非标准卷积普遍的多通道；全连接的卷积核尺寸与单通道内的特征图尺寸相同，而非标准卷积普遍使用的小卷积核；全连接虽同为多输出通道，但每个输出通道上的特征图中只有一个特征点，而非标准卷积输出特征图通常由大量特征点构成。综上，全连接卷积运算与标准卷积运算相比，全连接卷积运算为单输入通道，卷积核尺寸与输入特征图尺寸相同，输出为多通道，且每个输出通道上的特征图只包含一个特征值。

图4是一种3x3深度卷积层，对比图2所示3x3标准卷积运算，深度卷积运算每个输入通道对应一个卷积核，产生一幅输出特征图，即深度卷积是二维运算，而非标准卷积的三维运算。因此，深度卷积运算与标准卷积运算相比，深度卷积输出为单通道，是一个输入通道特征图与一个二维卷积核的运算结果。

反卷积(或称转置卷积)与标准卷积的特征很相似，差异在于标准卷积的输出特征图的二维尺寸一般小于或者等于输入特征图的二维尺寸，而反卷积的输出特征图二维尺寸一般大于输入特征图二维尺寸，所以，反卷积是对输入特征图进行了上采样操作。因此，与标准卷积输入特征图相比，反卷积需要在原始输入特征图上插入一些填充值得到指定尺寸的特征图，之后再进行标准卷积运算。图5是一种3x3反卷积，在2x2的原始输入特征图二维数据四周各添加2行/列常量(如0)生成了一幅尺寸为6x6的新特征图，之后用3x3卷积核对其进行标准卷积运算，便得到输出通道上尺寸为4x4的特征图；图6是另一种3x3反卷积实例，显然，与前一种反卷积的差异在于对原始特征图添加填充值的插入位置不同。综上，反卷积(或转置卷积)运算可划分为两个步骤：其一，对输入特征图按照指定样式填充常量值，生成一组新尺寸的多通道输入特征图；其二，标准卷积运算。

图7为3x3膨胀卷积(或称空洞卷积)，也是与标准卷积特征很相似的一种非标准卷积。不同于反卷积，膨胀卷积不是对二维输入特征图插入填充值，而是对卷积核进行填充值插入。卷积核中相邻权重系数的插入间隔称为膨胀系数，图7中卷积核的膨胀系数为1。之后使用膨胀后的卷积核对输入特征图进行标准卷积运算。因此，膨胀卷积的运算也可以分解为两个步骤：第一，对卷积核按照膨胀系数进行填充值插入，或者如图7下半部分所示，直接对输入特征图的行列进行置换，经过行列变换后的输入特征图的行列顺序与对卷积核进行膨胀后对应的行列一致，这样便可使用新的输入特征图与未做膨胀处理的卷积核直接运算；第二，使用新的输入特征图或膨胀后的卷积核进行标准卷积运算。

综上所述，非标准卷积与标准卷积的差异主要体现在，输入特征图与卷积核在输入通道上的对比关系不同，以及输入特征图与卷积核的二维样式不同，相同点是主要运算皆为乘累加。而第一个差异本身就包含在标准卷积的运算特征中，即标准卷积包含输入通道数为1，且有多个卷积核的情况，所以，全连接是标准卷积的一种特例；也包含输入通道数为1，且只有1个卷积核的情况，所以，深度卷积是标准卷积的一种特例。对于反卷积与膨胀卷积则是在标准卷积的基础上增加了一个数据预处理的过程。因此，可以对标准卷积运算与非标准卷积进行一致性变换，统一将标准卷积与非标准卷积运算划分为两个阶段：第一，数据预处理，对输入特征图或卷积核进行常量填充，并选择特定数量的输入特征图与卷积核；第二，进行乘累加卷积运算。

基于上述一致性变换方法，下面结合实例介绍一种标准卷积与非标准卷积高硬件复用率的运算加速方法。

专用神经网络加速器启动计算前，需要通过图8所示的系统主控制器(如MCU,CPU,DSP)将被加速网络层的输入特征图、卷积核系数及偏置系数等数据从外部的大容量存储器(如动态随机存取存储器DRAM,高带宽存储器HBM)搬移到片上系统的高速存储器(如静态随机存取存储器SRAM)。

对于主控制器，由于其具备软件可编程性，可以在搬移数据前，对搬移数据进行灵活的尺度变换操作，实现前文描述的一致性处理，而且，通过数据预处理消除标准卷积与非标准卷积差异的方式，与主控制器的软件可编程性相结合，对新出现的非标准卷积具备很强的兼容性和扩展性。

图9是常见于专用神经网络加速器中的矩阵乘加矩阵，一个处理单元(PE)内部包含乘法器、加法器等运算器件，完成一个特征点与权重系数的乘加运算。对处理单元进行分组，便于支持多个卷积核运算。假设图9每行由PW个处理单元(PE)构成，共PH行，每通道输入特征图二维尺寸为HxW，对于3x3标准卷积运算，最多可以支持PW/3个3x3卷积核，垂直方向上，最大支持PH/3个通道特征图输入的三行数据进行计算。对于分组卷积可以根据分组数，拆分为多组标准运算即可，无需额外处理。对于全连接运算，由于每个卷积核的二维尺寸与单通道输入特征图尺寸相同，所以，假设最大支持PHxPW’(PHxPW’<＝HxW，PHxPW’<＝PHxPW)个输入特征点导入，那么，每个卷积核可载入的数据量也为PHxPW’，最大可支持卷积核数量为[PW/(PHxPW’)]。对于深度卷积运算，由于每个输入通道特征图只能与一个卷积核计算，所以，只能加载一个通道特征图及卷积核进行卷积。对于反卷积与膨胀卷积，经过数据搬移前的数据预处理之后，二者运算与标准卷积相同，无需额外处理。综上，通过在数据搬移前添加数据预处理过程，消除了标准卷积与非标准卷积的差异性，使得不同类型卷积能够在相同硬件上实现，极大的提高了硬件复用率，降低了功耗，提高增加处理单元数量可以进一步提高计算并行度，提高运算效率。

如图1所示，描述了应用本发明提出的一致性变换方法的硬件处理流程，步骤如下：

S02、将预处理后或无需处理的数据搬移数据到片上存储器；

S03、主控制器配置专用神经网络加速器后启动计算。

关键技术点

1、适用于专用神经网络加速器的标准卷积与非标准卷积的一致性变换方法；

2、通过上面所述一致性变换方法，可将标准卷积与非卷积在专用神经网络加速器上的运算加速过程划分为两个处理阶段，1)数据预处理，2)卷积计算加速，两阶段处理流程不仅消除了非标准卷积与标准卷积之间的差异，也提高了也完成设计或已产品化的专用神经网络加速器的扩展性，尤其是，阶段二的卷积运算既可以使用少量具有特定功能处理电路对标准卷积与非标准卷积分别加速，以对特定卷积算法保持运算效率和兼容性，也可以复用相同硬件实现标准卷积与非标准卷积，以提高硬件资源复用率，降低硬件功耗。

本发明相对于现有技术具有以下有益效果：

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.专用神经网络加速器的标准与非标准卷积一致性变换方法，所述专用神经网络加速器采用矩阵乘加矩阵，所述用神经网络加速器的一个处理单元(PE)内部包含乘法器、加法器等运算器件，完成一个特征点与权重系数的乘加运算，对处理单元进行分组，便于支持多个卷积核运算；其特征在于，变换方法包括专用网络加速器启动计算前步骤和硬件处理流程：

所述硬件处理流程包括：

S02、将预处理后或无需处理的数据搬移数据到片上存储器；

S03、主控制器配置专用神经网络加速器后启动计算。

2.根据权利要求1所述的专用神经网络加速器的标准与非标准卷积一致性变换方法，其特征在于，所述系统主控制器包括MCU、CPU、DSP。

3.根据权利要求1所述的专用神经网络加速器的标准与非标准卷积一致性变换方法，其特征在于，所述大容量存储器采用包括动态随机存取存储器DRAM、高带宽存储器HBM。

4.根据权利要求1所述的专用神经网络加速器的标准与非标准卷积一致性变换方法，其特征在于，所述高速存储器采用包括静态随机存取存储器SRAM。