CN109993293B

CN109993293B - 一种适用于堆叠式沙漏网络的深度学习加速器

Info

Publication number: CN109993293B
Application number: CN201910150398.XA
Authority: CN
Inventors: 栗涛; 陈弟虎; 梁东宝; 萧嘉乐; 叶灵昶
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2021-04-13
Anticipated expiration: 2039-02-28
Also published as: CN109993293A

Abstract

本发明公开了一种适用于堆叠式沙漏网络的深度学习加速器，并行计算的层计算单元提高了计算并行度，数据缓存模块在加快计算速度的同时提高了载入到加速器内部缓存的数据的利用率；同时加速器内部的数据调整器可以根据计算层操作的不同能够进行自适应的数据排布顺序的变化，能够增加获取数据的完整性，提高数据获取的效率，减少访存过程的延时。因此，本加速器在提高算法计算速度的同时通过减少内存访问次数及提高访存效率来有效地降低了内存带宽，从而实现加速器整体的计算加速性能。

Description

一种适用于堆叠式沙漏网络的深度学习加速器

技术领域

本发明属于神经网络训练领域，具体涉及一种适用于堆叠式沙漏网络的深度学习加速器。

背景技术

深度神经网络(Deep Neural Networks)是深度学习中的算法模型，由于其与传统算法相比有更加出色的表现，现已被广泛地应用在图像分类、目标识别、姿态识别等各个领域中。深度神经网络需要进行大量的数据计算，传统的通用处理器由于架构的限制导致计算速度较慢，不能满足实时应用的需求，因此需要设计专用的神经网络加速器为深度神经网络的实时计算提供硬件支持。

在姿态识别应用中，一种识别准确度较高的称为堆叠式沙漏网络(StackedHourglass Network)的深度神经网络结构被提出。该算法的网络结构中包含深度可分离卷积模块和多层次残差结构，在计算过程中这些计算层需要计算单元大量访问内存获取计算所需要的数据。访存过程中产生的延时将会占用大部分硬件运行时间，因此新的网络结构会大大减慢硬件计算的速度。

堆叠式沙漏网络结构中大量使用了深度可分离卷积模块和多层次残差结构，在计算过程中这些计算层需要计算单元大量访问内存获取计算所需要的数据，访存过程中产生的延时将会占用大部分硬件运行时间，过去的深度神经网络加速器中没有对上述提到的网络结构的访存方式提供优化的计算电路，因此并不能为该结构提供有效的加速效果。同时，由于没有优化的电路设计导致的额外的访存也会带来额外的功耗，使得带有该种加速器单元的设备的续航能力大大降低。

发明内容

为了克服上述技术缺陷，本发明提供一种适用于堆叠式沙漏网络的深度学习加速器，在提高算法计算速度的同时通过减少内存访问次数及提高访存效率来有效地降低了内存带宽，从而实现加速器整体的计算加速性能。

为了解决上述问题，本发明按以下技术方案予以实现的：

一种适用于堆叠式沙漏网络的深度学习加速器，包括控制模块、数据计算模块和数据缓存模块；

所述控制模块，连接至主控处理器，用于接收所述主控处理器输入的控制信号，根据所述控制信号控制所述数据计算模块和所述数据缓存模块；

所述数据计算模块包括多个层计算单元；所述层计算单元用于执行堆叠式沙漏网络中的数据处理操作；

所述层计算单元包括：

数据调整器，用于根据预设的卷积信息对输入的图像处理数据进行重新排列；所述图像处理数据包括图像数据和权值数据；所述卷积信息包括卷积核大小和步长；

乘法器，用于对重排后的所述图像处理数据按位进行并行的乘法操作；

可配置级数的加法器，用于对所述数据调整器的输出结果和所述乘法器的输出结果执行累加操作；

所述数据缓存模块，连接至系统内存，用于获取所述系统内存中的所述图像处理数据并传输至所述数据计算模块，或将所述层计算单元的输出结果进行缓存，或将所述输出结果输入至所述层计算单元进行计算。

进一步的，所述数据调整器将所述图像数据以矩阵形式排布，按照所述卷积核大小和步长，将每一步欲进行卷积操作的向量数据依次取出，并按卷积顺序排列得到重排后的图像数据；

所述数据调整器将所述权值数据按次序读取并根据卷积顺序进行复制排列得到重排后的权值数据；

所述数据调整器将所述重排后的图像数据和所述重排后的权值数据并行输入所述乘法器；

所述乘法器将所述图像数据和对应位的所述权值数据进行并行的乘法操作。

进一步的，所述层计算单元间设置有数据重排模块，用于根据输出端所连接的所述层计算单元的卷积类型对数据进行方向重排。

进一步的，所述卷积类型包括逐层卷积和逐点卷积；

当所述卷积类型为逐层卷积时，所述数据重排模块将所述数据按照“行-列-通道”的方向顺序进行遍历排列；

当所述卷积类型为逐点卷积时，所述数据重排模块将所述数据按照“通道-行-列”的方向顺序进行遍历排列。

进一步的，所述层计算单元还包括：

RELU计算单元，用于对所述加法器的输出结果使用RELU激活函数进行处理。

进一步的，所述层计算单元的输出结果包括中间结果和残差结果；所述中间结果用于直接输入到下一层的所述层计算单元的输入端；所述残差结果用于旁路至对应的层计算单元的输入端；

所述数据缓存模块包括：

中间结果储存器，用于储存所述中间结果；

残差结果储存器，用于以压栈结构的形式对所述残差结果进行储存。

进一步的，所述层计算单元还包括：

上采样映射器，用于在所述层计算单元执行上采样操作时，将输出结果的地址映射至输入数据的地址得到上采样结果。

进一步的，所述上采样映射器以行地址拼接列地址的方式表示像素的地址，所述行地址和所述列地址均为二进制地址；

在执行上采样操作时，所述上采样映射器将输出结果的像素地址映射至输入数据的变换像素地址，所述变换像素地址为尾端截去固定位数的所述行地址拼接尾端截去固定位数的所述列地址。

进一步的，所述固定位数满足：n＝log₂(s)

其中，n为所述固定位数，s为所述上采样操作的步长的数值。

进一步的，所述层计算单元的输入为两组256位操作数向量，每组256位的操作数向量代表16个16位的定点操作数。

相对于现有技术，本发明的有益效果为：

附图说明

图1是本发明的实施例中所述适用于堆叠式沙漏网络的深度学习加速器的结构示意图；

图2是本发明的实施例中所述层计算单元的结构示意图；

图3是本发明的实施例中所述数据调整器的图像数据调整示意图；

图4是本发明的实施例中所述数据调整器的权值数据调整示意图；

图5是本发明的实施例中所述数据重排模块的数据重排示意图；

图6是本发明的实施例中所述网络残差结构和数据缓存模块的示意图；

图7是本发明的实施例中所述上采样的数据处理示意图；

图8是本发明的实施例中所述上采样映射器的数据地址映射的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本实施例公开了一种适用于堆叠式沙漏网络的深度学习加速器，包括控制模块1、数据计算模块2和数据缓存模块3；

控制模块1，连接至主控处理器，用于接收主控处理器输入的控制信号，根据控制信号控制数据计算模块2和数据缓存模块3；

具体的，如图2所示，数据计算模块2包括多个层计算单元21；层计算单元21用于执行堆叠式沙漏网络中的数据处理操作；

层计算单元21包括：

数据调整器211，用于根据预设的卷积信息对输入的图像处理数据进行重新排列；图像处理数据包括图像数据和权值数据；卷积信息包括卷积核大小和步长；

乘法器212，用于对重排后的图像处理数据按位进行并行的乘法操作；

可配置级数的加法器213，用于对数据调整器的输出结果和乘法器的输出结果执行累加操作；

数据缓存模块3，连接至系统内存，用于获取系统内存中的图像处理数据并传输至数据计算模块，或将层计算单元的输出结果进行缓存，或将输出结果输入至层计算单元进行计算。

通过上述公开的深度学习加速器，并行计算的层计算单元提高了计算并行度，数据缓存模块在加快计算速度的同时提高了载入到加速器内部缓存的数据的利用率；同时加速器内部的数据调整器可以根据计算层操作的不同能够进行自适应的数据排布顺序的变化，能够增加获取数据的完整性，提高数据获取的效率，减少访存过程的延时。因此，本加速器在提高算法计算速度的同时通过减少内存访问次数及提高访存效率来有效地降低了内存带宽，从而实现加速器整体的计算加速性能。

具体的，层计算单元的输入为两组256位操作数向量，每组256位的操作数向量代表16 个16位的定点操作数。

在进一步的实施例中，数据调整器将图像数据以矩阵形式排布，按照卷积核大小和步长，将每一步欲进行卷积操作的向量数据依次取出，并按卷积顺序排列得到重排后的图像数据；

以16位的图像数据的输入向量为例，若欲实施步长为1的3×3卷积，如图3中左侧所示，首先以矩阵形式将输入向量的16个数排列成输入图像中的4×4的二维数据块，再将每一步欲进行卷积操作的向量数据依次取出，并按卷积顺序排列，经过重排之后的输入数据为 1×18的数据向量，可以同时计算两个在行方向相邻的数据点的卷积操作；

若要进行步长为2的3×3卷积，如图3中右侧所示，经过重排后的输入数据为1×18的数据向量，同样可以同时计算两个在行方向上相邻的数据点的卷积操作。

在进一步的实施例中，数据调整器将权值数据按次序读取并根据卷积顺序进行复制排列得到重排后的权值数据；具体的，以3×3卷积层的权值数据为例，如图4所示，数据调整器将权值数据按次序读取并根据卷积顺序进行复制排列，使权值向量的前9位重复排列形成1 ×18的重排后的权值数据。

进一步的，数据调整器将重排后的图像数据和重排后的权值数据并行输入乘法器；乘法器将图像数据和对应位的权值数据进行并行的乘法操作。通过上述数据重排操作，根据计算层操作的不同能够进行自适应的数据排布顺序的变化，能够增加获取数据的完整性，提高数据获取的效率，减少访存过程的延时，乘法器也可以对重排后的图像数据和权值数据进行并行计算，大大提高了计算的效率。

在进一步的实施例中，本加速器对堆叠式沙漏算法中大量存在的深度可分离卷积模块进行优化。深度可分离卷积(Depthwise Separable Convolution)模块中包含逐层卷积 (Depthwise Convolution)和逐点卷积(Pointwise Convolution)。本加速器中的层计算单元间设置有数据重排模块，用于根据输出端所连接的层计算单元的卷积类型对数据进行方向重排。

具体的，卷积类型包括逐层卷积和逐点卷积；

当卷积类型为逐层卷积时，不同通道的数据点分别与卷积核中不同通道的权值进行卷积操作，因此如图4左侧所示，数据重排模块将数据按照“行-列-通道”的方向顺序进行遍历排列；

当卷积类型为逐点卷积时，对于逐点卷积来说，需要将不同通道上对应宽高的点与卷积核中不同通道的权值进行卷积操作，如果仍保留“行-列-通道”的数据排布顺序的话会导致加速器从存储器获取数据时无法实现连续的取数操作，这样会进一步增加访存所带来的延时，因此如图4右侧所示，数据重排模块将数据按照“通道-行-列”的方向顺序进行遍历排列。

通过上述操作，数据重拍模块根据不同的卷积类型对图像数据进行重新排列，大大提高了加速器获取数据时的效率。

在进一步的实施例中，层计算单元还包括：

RELU计算单元，用于对加法器的输出结果使用以下RELU激活函数进行处理：

ReLU(x)＝x>0？x∶0

进一步的，堆叠式沙漏网络结构中存在大量的残差结构，需要将网络中的部分中间结果进行保存，将部分残差结果旁路到网络的后部分进行进一步的操作。这样的残差结构需要加速器对输出结果的地址在不同情况下进行变化。网络中的残差结构如图5左侧所示，如层n-1 的输出结果不仅要为层n提供输入数据，并且还要与层n+1的输出结果进行相加操作。因此层n-1的输出结果需要额外划分一块内存空间进行存放，直到该残差结果不再为后续层的操作需要，内存空间才能够得到释放。因此，在进一步的实施例中，层计算单元的输出结果包括中间结果和残差结果；中间结果用于直接输入到下一层的层计算单元的输入端；残差结果用于旁路至对应的层计算单元的输入端；

进一步的，数据缓存模块包括：

中间结果储存器，用于储存中间结果；

残差结果储存器，用于以压栈结构的形式对残差结果进行储存。

具体实施中，如图5右侧所示，中间结果1和2用于轮流存放正常次序的网络的中间结果(即没有残差结果输出的层)，使用两个内存空间用于存放中间结果是因为每一层的输出结果是下一层的输入结果，因为需要保存该层的输出结果直到下一层操作的数据输入完毕。下端的残差结果1-n是加速器根据需要动态分配的残差结果存放的内存空间。动态分配的方式参考通用处理器中压栈的方式，即当该层的输出结果需要作为残差作另外保存的时候，输出结果保存到当前的残差栈指针所指的位置即以下的一块空间，完成保存后栈指针往下移动到保存数据的末端处；当栈指针上方的残差数据不再需要的时候，栈指针往上移动到上一个残差数据块的末端。完成一次网络的运算后，栈指针应该回到最初的位置，即中间结果保存区的下方。

进一步的，堆叠式沙漏网络中存在上采样操作。如图6所示，以步长为2的上采样操作为例，上采样操作将1×1的输入数据转化为同一个2×2的输出数据块(如图所示，输入的数据“0”经过上采样操作后输出2×2的数据块“0 1 8 9”)，因此上采样操作的输出结果需要占据输入数据的4倍的内存空间，同时将数据搬运出入加速器的时间增加4倍。

为解决上采样操作中数据搬运速度过慢的问题，在进一步的实施例中，加速器的层计算单元还包括：

上采样映射器，用于在层计算单元执行上采样操作时，将输出结果的地址映射至输入数据的地址得到上采样结果。

具体的，所述上采样映射器以行地址拼接列地址的方式表示像素的地址，所述行地址和所述列地址均为二进制地址；

在执行上采样操作时，所述上采样映射器将输出结果的像素地址映射至输入数据的变换像素地址，所述变换像素地址为尾端截去固定位数的所述行地址拼接尾端截去固定位数的所述列地址；具体的，固定位数满足：n＝log₂(s)，其中，n为固定位数，s为上采样操作的步长的数值。

具体的，以列数为2的幂的二维数据块为例，如图7所示，数据块的地址可以表示为行地址左移与列地址拼接的形式，该种地址的形式同时适用于上采样前后的数据表达。获取上采样操作后的数据时，等效于将数据地址的行地址部分和列地址部分同时截去最后一位重新拼接得到新的地址(以步长为2为例)，然后将新的地址用于上采样操作前的数据的获取。该方法节省了上采样操作所带来的额外时间，并且节省了存放上采样的中间结果的内存空间。

具体的，以图像大小为16x16的二维数据块为例，某像素的行地址＝(5)₁₀＝(0101)₂列地址＝(3)₁₀＝(0011)₂那么上采样后的地址应该是{(0101)₂,(0011)₂}＝(01010011)₂，上采样映射器将数据地址的行地址部分和列地址部分同时截去最后一位重新拼接得到新的地址，就是{(010)₂(001)₂}＝(010001)₂，即将输出结果的(01010011)₂这一地址的数据映射至输入数据的(010001)这一地址即可得到上采样结果。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，故凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围。

Claims

1.一种适用于堆叠式沙漏网络的深度学习加速器，其特征在于，包括控制模块、数据计算模块和数据缓存模块；

所述层计算单元包括：

可配置级数的加法器，用于对所述数据调整器的输出结果和所述乘法器的输出结果执行累加操作；所述数据缓存模块，连接至系统内存，用于获取所述系统内存中的所述图像处理数据并传输至所述数据计算模块，或将所述层计算单元的输出结果进行缓存，或将所述输出结果输入至所述层计算单元进行计算；

所述层计算单元间设置有数据重排模块，用于根据输出端所连接的所述层计算单元的卷积类型对数据进行方向重排；

所述卷积类型包括逐层卷积和逐点卷积；

2.根据权利要求1所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，

所述数据调整器将所述图像数据以矩阵形式排布，按照所述卷积核大小和步长，将每一步欲进行卷积操作的向量数据依次取出，并按卷积顺序排列得到重排后的图像数据；

3.根据权利要求1所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，所述层计算单元还包括：

4.根据权利要求1所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，所述层计算单元的输出结果包括中间结果和残差结果；所述中间结果用于直接输入到下一层的所述层计算单元的输入端；所述残差结果用于旁路至对应的层计算单元的输入端；

所述数据缓存模块包括：

中间结果储存器，用于储存所述中间结果；

5.根据权利要求1所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，所述层计算单元还包括：

6.根据权利要求5所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，所述上采样映射器以行地址拼接列地址的方式表示像素的地址，所述行地址和所述列地址均为二进制地址；

7.根据权利要求6所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，所述固定位数满足：n＝log₂(s)

8.根据权利要求1所述的适用于堆叠式沙漏网络的深度学习加速器，其特征在于，所述层计算单元的输入为两组256位操作数向量，每组256位的操作数向量代表16个16位的定点操作数。