CN108229671A

CN108229671A - 一种降低加速器外部数据存储带宽需求的系统和方法

Info

Publication number: CN108229671A
Application number: CN201810037870.4A
Authority: CN
Inventors: 李斌; 罗聪; 吴朝晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2018-06-29
Anticipated expiration: 2038-01-16
Also published as: CN108229671B

Abstract

本发明公开了一种降低加速器外部数据存储带宽需求的系统和方法，系统包括：乘法累加计算单元、缓存单元和算术逻辑计算单元，其中所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵，所述计算矩阵用于并行地处理输入数据与权值的乘法累加操作，在所述计算矩阵中，数据向右或者向左地横向流动以及向上或者向下地纵向流动。使得PE计算子单元可以按行和按列加载输入数据，进而使得本系统中的数据具有复用性，减少了数据加载的次数，降低了对数据带宽的占用，从而实现降低卷积神经网络极速器外部数据的存储带宽需求。本发明可以广泛应用于数据处理领域。

Description

一种降低加速器外部数据存储带宽需求的系统和方法

技术领域

本发明涉及数据处理领域，尤其是一种降低加速器外部数据存储带宽需求的系统和方法。

背景技术

近年来，随着人工智能的热度上升，人们提出了越来越多的深度学习算法模型以解决当前存在的研究问题，而卷积神经网络在机器视觉领域上取得了巨大的成就。卷积神经网络由于其权值的可重用性大大降低了其权值参数的数量，加速了深度学习模型的计算效率。但是随着卷积神经网络的研究不断深入，层数更多、结构更加复杂的模型被提出来，其自身的大量卷积运算需要硬件加载其大量的权值数据与输入数据，因此嵌入式人工智能硬件处理单元对外部内存带宽的需求增大，而目前外部数据存储器的数据带宽成了卷积神经网络加速器发展的瓶颈。

为了解决内存带宽需求增大的问题，目前主要采取的方案是选用存储带宽更高的外部存储器。但是外部存储器的带宽的增加依赖于存储技术的发展，往往需要付出更高的成本。

因此市场上需要一种能够降低数据存储带宽需求的技术。

发明内容

为解决上述技术问题，本发明的第一目的在于：提供一种能够降低加速器外部数据存储带宽需求的系统。

本发明的第二目的在于：提供一种能够降低加速器外部数据存储带宽需求的方法。

本发明所采取的第一种技术方案是：

一种降低加速器外部数据存储带宽需求的系统，包括：

乘法累加计算单元，用于并行地对输入数据与权值进行处理以及向缓存单元或者算术逻辑单元输出数据，所述处理包括乘法累加操作、比较操作、批标准化操作和激活操作；所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵，所述计算矩阵用于并行地处理输入数据与权值的乘法累加操作，在所述计算矩阵中，数据向右或者向左地横向流动以及向上或者向下地纵向流动，所述P为正整数；

缓存单元，用于存储乘法累加计算单元或者算术逻辑计算单元输出的数据；

算术逻辑计算单元，用于对乘法累加计算单元的输出数据和缓存单元中缓存的数据进行加减操作；

所述乘法累加计算单元、片上分布式缓存单元和算术逻辑计算单元之间两两相互连接。

进一步，所述计算矩阵中的每个PE计算子单元均包括一个用于暂存当前输入数据的第一寄存器、一个用于暂存来自右侧或者左侧的相邻PE计算子单元的数据的第二寄存器以及一个用于暂存来自下侧或者上侧的相邻PE计算子单元的数据的第三寄存器。

进一步，所述算术逻辑计算单元包括P*P个加减计算子单元，所述P*P个加减计算子单元用于并行地计算乘法累加计算单元或者缓存单元输出的多个数据，或者用于向乘法累加计算单元或者缓存单元并行地输出多个数据。

进一步，所述缓存单元为片上分布式缓存单元，所述缓存单元包括P*P个存储子单元，所述P*P个存储子单元用于并行地缓存乘法累加计算单元或者算术逻辑计算单元输出的多个数据，或者用于向乘法累加计算单元或者算术逻辑计算单元并行地输出已缓存的多个数据。

本发明所采取的第二种技术方案是：

一种降低加速器外部数据存储带宽需求的方法，包括以下步骤：

通过乘法累加计算单元加载卷积层的输入数据，并且将输入数据与权值进行乘法累加操作；

对完成乘法累加操作后得到的结果进行批标准化；

将批标准化得到的结果进行激活，得到特征图；

所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵，所述计算矩阵用于并行处理输入数据与权值的乘法累加操作，在所述计算矩阵中，数据向右或者向左地横向流动以及向上或者向下地纵向流动。

进一步，所述批标准化的表达式为：

其中，y_i表示输入数据经过批标准化后的结果，x_i表示输入数据，γ表示比例系数，μ表示训练时最小批量数据集的平均值，β表示偏移量，ε表示一个大于零的常数，σ²表示训练时最小批量数据集的方差，m表示最小批量数据集的输入数据的个数。需要注意的是，所述ε是一个很小的正数，目的是为了防止σ²＝0而导致公式运算出错。其中，γ、μ、β、σ²均是训练时得到的，因此本发明中仅仅是将这些外部得到的数据进行加、减或乘的操作即可达到本发明的技术效果，因此不对上述参数进行展开解释

进一步，所述将批标准化得到的结果进行激活，得到特征图这一步骤中，所述激活采用的激活函数的表达式为：

y＝(x＞0)？x:0.1*x；

y表示激活后特征图的输入数据，x表示激活前特征图的输入数据。

本发明系统的有益效果是：包括乘法累加计算单元、缓存单元和算术逻辑计算单元，所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵，在所述计算矩阵中，数据可以向右或者向左地横向流动以及向上或者向下地纵向流动，使得PE计算子单元可以按行和按列加载输入数据，进而使得本系统中的数据具有复用性，减少了数据加载的次数，降低了对数据带宽的占用，从而实现降低卷积神经网络极速器外部数据的存储带宽需求。

本发明方法的有益效果是：包括通过乘法累加计算单元加载卷积层的输入数据，并且将输入数据与权值进行乘法累加操作；对完成乘法累加操作后得到的结果进行批标准化；和将批标准化得到的结果进行激活，得到特征图的步骤，所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵，在所述计算矩阵中，数据可以向右或者向左地横向流动以及向上或者向下地纵向流动，使得PE计算子单元可以按行和按列加载输入数据，进而使得本方法中的数据具有复用性，减少了数据加载的次数，降低了对数据带宽的占用，从而实现降低卷积神经网络极速器外部数据的存储带宽需求。

附图说明

图1为本发明一种降低加速器外部数据存储带宽需求的系统的模块框图；

图2为乘法累加计算单元的内部模块框图；

图3为单个PE计算子单元的内部模块框图；

图4为并行卷积计算流程图；

图5是最大池化计算流程图；

图6为片上分布式缓存单元的内部模块框图；

图7为算术逻辑计算单元的内部模块框图；

图8为卷积操作数据状态控制流程图；

图9为本发明一种降低加速器外部数据存储带宽需求的方法的流程图。

具体实施方式

参照图1和图2，一种降低加速器外部数据存储带宽需求的系统，包括：

参照图3，进一步作为优选的实施方式，所述计算矩阵中的每个PE计算子单元均包括一个用于暂存当前输入数据的第一寄存器、一个用于暂存来自右侧或者左侧的相邻PE计算子单元的数据的第二寄存器以及一个用于暂存来自下侧或者上侧的相邻PE计算子单元的数据的第三寄存器。

参照图6，进一步作为优选的实施方式，所述缓存单元为片上分布式缓存单元，所述缓存单元包括P*P个存储子单元(即图中的DRAM)，所述P*P个存储子单元用于并行地缓存乘法累加计算单元或者算术逻辑计算单元输出的多个数据，或者用于向乘法累加计算单元或者算术逻辑计算单元并行地输出已缓存的多个数据。

参照图7，进一步作为优选的实施方式，所述算术逻辑计算单元包括P*P个加减计算子单元，所述P*P个加减计算子单元用于并行地计算乘法累加计算单元或者缓存单元输出的多个数据，或者用于向乘法累加计算单元或者缓存单元并行地输出多个数据。

参照图9，一种降低加速器外部数据存储带宽需求的方法，包括以下步骤：

对完成乘法累加操作后得到的结果进行批标准化；

将批标准化得到的结果进行激活，得到特征图；

进一步作为优选的实施方式，所述批标准化的表达式为：

其中，y_i表示输入数据经过批标准化后的结果，x_i表示输入数据，γ表示比例系数，μ表示训练时最小批量数据集的平均值，β表示偏移量，ε表示一个大于零的常数，σ²表示训练时最小批量数据集的方差，m表示最小批量数据集的输入数据的个数。需要注意的是，所述ε是一个很小的正数(可以是0.01、0.1或者0.001等等)，目的是为了防止σ²＝0而导致公式运算出错。其中，γ、μ、β、σ²均是训练时得到的，因此本发明中仅仅是将这些外部得到的数据进行加、减或乘的操作即可达到本发明的技术效果，因此不对上述参数进行展开解释。

进一步作为优选的实施方式，所述将批标准化得到的结果进行激活，得到特征图这一步骤中，所述激活采用的激活函数的表达式为：

y＝(x＞0)？x:0.1*x；

下面结合说明书附图和具体的实施例对本发明进行进一步的说明。

本实施例在FPGA硬件平台上使用yolo卷积神经网络模型实现快速人脸检测，以说明本发明能够降低卷积神经网络硬件对外部数据存储带宽的需求。但是本发明的实施方式不限于此。

所述yolo卷积神经网络模型具有22层卷积层、5层最大池化层、两层连线层、一层重组层、一层分类层以及一层预处理模块，该模型可以实现输入图片数据的实时运算处理并输出检测结果。

在本实施例中，输入图片大小经过预处理后变为416*416，卷积核大小为3*3或者1*1，池化层步长大小为2*2，输入数据为32bit浮点数。卷积过程通过如图1所示的硬件架构进行处理，MAC计算单元(即乘法累加计算单元)用于处理乘法累加操作、最大池化操作和激活函数操作，ALU计算单元(即算术逻辑计算单元)用于处理加减操作，片上分布式DRAM存储单元(即缓存单元)用于存储中间值。

如图2所示，MAC计算单元中PE计算子单元是进行乘法累加操作和最大池化操作的基本计算单元，本实施例中总共有13*13个并行的PE计算子单元，这些PE计算子单元能够同时处理13*13个数据。如图3所示，每个PE计算子单元内部有三个输入寄存器，一个用于暂存当前输入数据的寄存器(即图中的寄存器N)、一个用于暂存来自右边PE计算子单元的数据的寄存器(即图中的寄存器R)和一个用于暂存来自底部PE计算子单元的数据的寄存器(即图中的寄存器B)。所述PE计算子单元内部还包括乘法器、累加器、比较器、选择器以及相应的控制逻辑电路。

如图1和图2所示，外部数据通过MAC计算单元的输入端加载，首先逐行加载数据进PE计算子单元(如图2所示，行输入接口加载数据加载行数据，即图中的B节点)，MAC计算单元内部的PE计算子单元数据从下到上流动，完成所有PE计算子单元数据的初始化之后，开始从右边加载输入数据的列数据(如图2所示，列输入接口加载数据列数据，即图中的A节点，C点表示输入卷积核大小的输入节点)，内部的PE计算子单元数据从右向左流动，实现数据的复用，降低数据带宽的需求。

为了简化该数据复用过程的说明，如图4所示，本实施例的PE计算子单元有2*2个，卷积核大小为3*3。为了方便区别不同的PE计算子单元，下面图标中以“PE0～PE3”表示四个不同的PE计算子单元。

(1)在#0时刻，初始化分别载入四个PE计算子单元输入数据X00、X10、X01、X11，与权值K00相乘，每个PE计算子单元计算后得到表1中的结果：

表1

(PE0)X00K00	(PE1)X10K00
		(PE2)X01K00	(PE3)X11K00

(2)在#1时刻，左边PE0、PE2分别载入从右边PE1、PE3传递过来的X10、X11，右边PE1、PE3从新加载输入数据的X20、X21，同时与权值K10相乘，累加得到表2中的结果：

表2

(PE0)X00K00+X10K10	(PE1)X10K00+X20K10
		(PE2)X01K00+X11K10	(PE3)X11K00+X21K10

(3)在#2时刻，左边PE0、PE2分别载入从右边PE1、PE3传递过来的X20、X21，右边PE1、PE3从新加载输入数据的X30、X31，同时与权值K20相乘，累加得到表3中的结果：

表3

(PE0)X00K00+X10K10+X20K20	(PE1)X10K00+X20K10+X30K20
		(PE2)X01K00+X11K10+X21K20	(PE3)X11K00+X21K10+X31K20

(4)在#3时刻，第一行的卷积核与第一行的输入数据相卷积的水平方向计算完毕，输入数据向下滑动，上面的PE0、PE1分别载入从底部PE2、PE3传递过来的X01、X11，底部的PE2、PE3重新载入下一行输入数据X02、X12，同时与权值K01相乘，累加得到表4中的结果：

表4

(5)继续进行时刻#1和#2的操作，计算完毕该行水平位置的数据后再向下滑动，如此交替反复进行卷积计算，直到计算完毕卷积核与输入数据的所有卷积运算，最后计算结果为表5所示的结果：

表5

一个通道与卷积核计算的中间结果会存在片上分布式DRAM存储单元，下一个通道与卷积核计算后的结果通过ALU计算单元与存储在片上分布式DRAM存储单元的中间结果相加后再次存在片上分布式DRAM存储单元中，如此反复计算，直到所有通道与卷积核的计算完毕，再对得到的数据进行批标准化BN(Batch Normalization)操作，并且对批标准化的结果使用leaky激活函数进行激活。

所述批标准化BN表达式为：

其中

公式中的y_i表示输入数据经过批标准化后的结果，x_i表示输入数据，γ表示比例系数，μ表示训练时最小批量数据集的平均值，β表示偏移量，ε表示一个大于零的常数，σ²表示训练时最小批量数据集的方差，m表示最小批量数据集的输入数据的个数。需要注意的是，所述ε是一个很小的正数(可以是0.01、0.1或者0.001等等)，目的是为了防止σ²＝0而导致公式运算出错。

批标准化BN操作之后，采用激活函数对数据进行激活，所述leaky激活函数的表达式为：

y＝(x＞0)？x:0.1*x；

最后计算结果再通过输出缓存模块把得到的新的feature map(特征图)数据存入DDR内存(即外部存储器)中。

最大池化操作由MAC计算单元中的PE计算子单元进行处理，图5示出了最大池化操作过程。即将分割的单元内最大的数据取出。

因此按照该计算过程，除了初始化需要加载13x13个输入数据外，开始计算之后，每次MAC计算单元只需要加载一列或者一行数据，即13个，而采用现有技术，仍然需要加载13x13个数据，因此，本发明的结构比现有技术降低了13x12个数据量的加载，比采用单数据流驱动的流水线卷积运算结构具有更高的数据复用性。

如图6所示，在本实施例中片上分布式DRAM存储单元划分为13x13个存储子单元(即图中的DRAM)，用于同时能存储乘累加MAC计算单元或者ALU计算单元的13x13个输出数据，或者向这两个计算单元同时输出暂存的13x13个数据用于计算，在不影响数据的计算并行度的情况下减少了数据频繁地与外部存储单元的交互，从而减少了外部存储带宽的需求。

如图7所示，ALU计算单元划分为13x13个并行的加减计算子单元，用于能够同时计算MAC计算单元和片上分布式DRAM存储单元传过来的输出数据，或者向这两个单元输出加减计算完毕的输出结果，进行后续处理。由于其结构采取多个并行计算结构，不影响整个模块内部数据的计算并行度。

图8示出了该数据的卷积操作状态控制流程图，数据经过初始化加载进并行PE计算子单元，然后进入R、B模式，即行列加载模式，实现数据复用。当完成一个块的数据计算，如果尚未计算完一个输入特征图数据，将会继续初始化，再进行行列加载模式，当一个卷积核的所有通道计算完毕后，累加得到的最后结果进入后面的批标准化BN操作和激活操作，最后输出卷积操作过后的一个输出特征图。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种降低加速器外部数据存储带宽需求的系统，其特征在于，包括：

2.根据权利要求1所述的一种降低加速器外部数据存储带宽需求的系统，其特征在于：所述计算矩阵中的每个PE计算子单元均包括一个用于暂存当前输入数据的第一寄存器、一个用于暂存来自右侧或者左侧的相邻PE计算子单元的数据的第二寄存器以及一个用于暂存来自下侧或者上侧的相邻PE计算子单元的数据的第三寄存器。

3.根据权利要求1所述的一种降低加速器外部数据存储带宽需求的系统，其特征在于：所述算术逻辑计算单元包括P*P个加减计算子单元，所述P*P个加减计算子单元用于并行地计算乘法累加计算单元或者缓存单元输出的多个数据，或者用于向乘法累加计算单元或者缓存单元并行地输出多个数据。

4.根据权利要求1所述的一种降低加速器外部数据存储带宽需求的系统，其特征在于：所述缓存单元为片上分布式缓存单元，所述缓存单元包括P*P个存储子单元，所述P*P个存储子单元用于并行地缓存乘法累加计算单元或者算术逻辑计算单元输出的多个数据，或者用于向乘法累加计算单元或者算术逻辑计算单元并行地输出已缓存的多个数据。

5.一种降低加速器外部数据存储带宽需求的方法，其特征在于，包括以下步骤：

对完成乘法累加操作后得到的结果进行批标准化；

将批标准化得到的结果进行激活，得到特征图；

所述乘法累加计算单元包括一个由P*P个PE计算子单元组成的计算矩阵，所述计算矩阵用于并行处理输入数据与权值的乘法累加操作，在所述计算矩阵中，数据向右或者向左地横向流动以及向上或者向下地纵向流动，所述P为正整数。

6.根据权利要求5所述的一种降低加速器外部数据存储带宽需求的方法，其特征在于：所述批标准化的表达式为：

其中，y_i表示输入数据经过批标准化后的结果，x_i表示输入数据，γ表示比例系数，μ表示训练时最小批量数据集的平均值，β表示偏移量，ε表示一个大于零的常数，σ²表示训练时最小批量数据集的方差，m表示最小批量数据集的输入数据的个数。

7.根据权利要求5所述的一种降低加速器外部数据存储带宽需求的方法，其特征在于：所述将批标准化得到的结果进行激活，得到特征图这一步骤中，所述激活采用的激活函数的表达式为：

y＝(x>0)？x:0.1*x；

其中，y表示激活后特征图的输入数据，x表示激活前特征图的输入数据。