CN109934339B

CN109934339B - 一种基于一维脉动阵列的通用卷积神经网络加速器

Info

Publication number: CN109934339B
Application number: CN201910168042.9A
Authority: CN
Inventors: 陆生礼; 庞伟; 罗几何; 李宇峰
Original assignee: Southeast University-Wuxi Institute Of Integrated Circuit Technology; Southeast University
Current assignee: Southeast University-Wuxi Institute Of Integrated Circuit Technology; Southeast University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2023-05-16
Anticipated expiration: 2039-03-06
Also published as: CN109934339A

Abstract

本发明公开一种基于一维脉动阵列的通用卷积神经网络加速器，AXI4总线接口用于实现模式配置指令的载入以及待计算数据的读取与结果数据的批量发送；模式配置器通过模式配置指令配置各个功能模块为对应工作类型；数据调度模块可并发进行待计算数据缓存、计算数据读取、卷积结果缓存以及卷积结果处理与输出任务；卷积计算模块采用一维脉动阵列的模式进行卷积计算；待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO，用于缓存对应数据；结果处理模块进行卷积神经网络中常见的结果处理操作。此种加速器能够兼容卷积神经网络中的不同计算类型并进行高并行度计算来有效加速，同时只需要较低的片外访存带宽需求以及少量的片上存储资源。

Description

一种基于一维脉动阵列的通用卷积神经网络加速器

技术领域

本发明属于电子信息和深度学习技术领域，特别涉及一种基于一维脉动阵列(1-DSystolicArray)的通用卷积神经网络硬件加速器。

背景技术

近年来，深度卷积神经网络近来受到了广泛的关注，从2012年Google Brain团队使用深度神经网络“认猫”到16/17年Deepmind团队的AlphaGO/AlphaZero在围棋场上的所向无敌，以卷积神经网络为代表的“深度学习”，吸引到的不仅仅是大众的目光，还有学术界与产业界极大的兴趣。通过研究人员和工程师们的努力，现在卷积神经网络已经在很多方向上得到了广泛的应用，例如图像识别、目标检测、自然语言处理等。

但高性能的卷积神经网络所需参数量与计算量也非常大，如针对高清图像的检测/识别/语义分割等任务，仅仅模型的权重数据便高达数百兆字节，即便是推断过程也往往需要数十至数千亿的乘累加操作，数据的访存频率、计算量、存储空间需求无不给计算平台带来很大的压力，需要找到方法构建一个高性能的通用卷积神经网络硬件加速器以解决上述问题，本案由此产生。

发明内容

本发明的目的，在于提供一种基于一维脉动阵列的通用卷积神经网络加速器，其可兼容卷积神经网络中的不同计算类型并进行高并行度计算来有效加速，同时只需要较低的片外访存带宽需求以及少量的片上存储资源。

为了达成上述目的，本发明的解决方案是：

一种基于一维脉动阵列的通用卷积神经网络加速器，包括：

AXI4总线接口，是基于AXI总线协议的面向地址映射的高性能总线接口，通过其实现模式配置指令的载入以及待计算数据的读取与结果数据的批量发送，加速器可直接挂载到支持AXI4协议的主设备上工作；

模式配置器，通过模式配置指令配置各个功能模块为对应工作类型，从而适配不同类型的卷积神经网络计算模式；

数据调度模块，可并发进行待计算数据缓存、计算数据读取、卷积结果缓存以及卷积结果处理与输出任务，内置的数据调度逻辑可大幅减少外部指令开销并提高数据调度效率；

卷积计算模块，作为卷积神经网络加速器的主体，其卷积计算单元的并行度为N，单个卷积计算单元内部包含L×M个乘累加单元，采用一维脉动阵列的模式进行卷积计算并针对多种卷积类型做了结构优化，卷积计算单元后跟一个J级加法树进行计算结果的整合，J等于log₂N；

待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO，用于缓存对应数据，待计算数据缓存区包括N个特征图缓存单元和权重缓存单元，特征图缓存单元采用乒乓操作，保存当前计算需要的特征图行像素值及下一次计算需要的特征图行像素值，卷积结果缓存区及输出结果缓冲FIFO并行度均为M，卷积计算完成后数据由卷积结果缓存区取出，经由结果处理模块处理后通过输出结果缓冲FIFO传出；

结果处理模块，包括标准化、池化、激活函数、量化处理四个子模块，对应四种卷积神经网络中常见的结果处理操作，并行度为M，卷积结果以流水线的方式依次经过这四个模块的处理，其中标准化模块简化成标准化系数乘加操作，激活模块采取Relu激活函数，池化模块与量化模块设计了可配置分支以对应不同的池化类型与量化精度。

上述卷积计算模块采用一维脉动阵列的组合形式进行并行卷积计算，由N个卷积计算单元组成，每个卷积计算单元对应一个特征图缓存单元和一个权重缓存单元；根据卷积核的行数KH，又可以将卷积计算单元分成G组，G等于每批计算时特征图缓存单元分别缓存有G个特征图输入通道的KH行数据中的一行，而同一组权重缓存单元均缓存M个卷积核的该组对应通道的权重，对应输入通道不改变时下一批计算时只需更新每组特征图缓存单元中的S个缓存单元即可，S为卷积步长。

上述卷积计算单元执行计算时，通过L级移位寄存器提供特征图行数据给卷积计算单元阵列而无需额外展开，同时权重缓存单元直接提供M个卷积核的相应位置权重值，即一个卷积计算单元L×M阵列每次计算可完成L个特征图数据与M个权重数据两两之间的定点数乘法并可累加同位置上次计算的结果。

上述卷积计算模块在卷积计算单元输出结果时，会通过J级加法树对N个卷积计算单元对应位置结果进行累加，包括同一卷积核同一通道KH行结果累加×同一卷积核G通道累加，将累加结果行L个结果拼接后存入M个卷积结果缓存区。

在卷积结果缓存区到输出缓冲FIFO之间增加了结果处理模块，可将与卷积层相关联的计算全部在加速器内完成，结果处理模块包括标准化、池化、激活、量化四个子模块，卷积结果以流水线的方式依次经过这四个功能模块的处理，其中标准化模块将偏置加法与标准化过程简化成一次标准化系数乘加操作，激活模块采取Relu激活函数，池化模块与量化模块设计了可配置处理分支以对应不同的池化类型与量化精度。

上述AXI4总线接口与各缓存区会将多组数据合并后进行收发，提高传输效率。

采用上述方案后，本发明注重卷积神经网络硬件加速器的通用性及内部数据复用性，基于一维脉动阵列的计算结构既可能灵活的实现多种计算模式，又可以方便的实现片内特征图数据复用和权重复用以提高计算效率；通过数据调度模块、数据缓存区、卷积计算模块的相互配合，保证了该卷积神经网络硬件加速器的高效运行，降低了通信等待时间；结果处理模块的加入令该加速器能完成卷积神经网络模型的绝大部分工作加速，提高最终系统的运行效率。

本发明在基于YOLO算法的物体检测分类应用中得到验证，在FPGA平台上使用100MHz的工作频率，使用计算阵列大小为3×8，并行度为32的卷积计算单元，输入数据精度为8位定点数的情况下，最大算力可达150GOPS，对1280pixels×720pixels的视频流可进行实时处理检测分类任务，即处理速度达到30FPS，同时精度损失不超过5％。

附图说明

图1是本发明的组成结构示意图；

图2是本发明的缓存-计算执行结构示意图；

图3是本发明卷积计算单元结构示意图；

图4是本发明结果处理模块分支示意图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示为本发明设计的加速器各模块组成结构，其工作方法如下：

片外处理器预先向加速器发送模式配置指令，模式配置器接收指令后对其进行解码，并依此对各功能模块的配置端口置位或对配置寄存器赋值。数据调度模块的可配置部分包括特征图行长ML、卷积核行数KH、卷积核列数KL、卷积核步长S、卷积核个数KC、特征图填充数PAD、单通道计算行数LC、池化类型PT、数据更新模式DR这几个配置寄存器。当片外处理器通过AXI4总线接口从片外存储器(实施例中为DDR3)发来有效数据时，数据调度模块根据特征图行长ML数值将特征图数据按行存放到各个特征图存储单元，数据更新模式DR为全部更新时会将下一批特征图数据依次写入各组所有的特征图缓存单元，部分更新时每组只轮流更新参考卷积核步长S个特征图缓存单元；再依据卷积核行数KH、卷积核列数KL、卷积核步长S、卷积核个数KC的数值信息，将权重值分别按通道存放在各组卷积核存储单元里；标准化系数则在输出处理前存放在M个标准化参数存储区里，数据总量只有2×KC个。在收到片外处理器的计算命令后，加速器开始执行计算任务，此时数据调度模块自发进行待计算数据对齐取出，对单个特征图存储单元而言，在取出其中所存特征图行的起始和结束位置时，会依特征图填充数PAD自动补零填充，每KL次移位计算将完成一批卷积计算，之后通过KL和卷积核步长S生成下一次卷积计算特征图数据地址；单个卷积核存储单元只需在每次计算中依次取出其在该组对应行数据数的KL个权重值即可，需要注意这里的权重值是M个卷积核对应位置权重值拼接在一起的。在收到片外处理器的输出命令后，数据调度模块切换卷积结果缓存区的结果接收块与结果发送块，按不同的池化类型PT发送已计算完成的卷积结果数据，例如池化类型为不池化的话，就按行的从左到右，从上到下，从前通道到后通道的顺序依次发送，如果池化类型为2×2最大池化的话，就按Z字型顺序发送，第1～2行由上到下，由左到右发送，再是3～4行，目的是使结果处理完成后输出结果缓冲FIFO接收的数据是按顺序排列好的；结果处理模块均为多级流水线操作，除标准化处理模块外其他子模块需要分别被池化类型参数PT、激活函数类型参数AT、量化类型参数QT几个参数配置成对应功能类型；当卷积结果缓存结果发送块数据全部读出时，返回给片外处理器结果准备完成信号，之后由处理器通过AXI4接口从结果输出缓存FIFO中读出结果数据。

参照图2，模式配置完成后，即可进行后续的数据缓存-计算操作。加速器的缓存-计算执行结构里采用了乒乓操作和流水线设计来提高效率与降低能耗。加速器工作时，待计算数据载入待计算数据缓存区、待计算数据缓存区读出数据送入卷积计算模块与卷积计算模块计算结果存入卷积结果缓存区、卷积结果缓存区结果经结果处理模块处理后由结果输出缓冲FIFO输出三者间是可以并发的相对独立的过程。待计算数据缓存区分为特征图缓存区、权重缓存区。在本发明的实施例中，特征图缓存区由简单双口块存储器(Simple DualPort BlockRAM)构成，输入位宽64，深度512，输出位宽8，深度4096，32个；卷积核缓存区也由简单双口块存储器构成，输入位宽都是64，深度为256，32个；标准化参数缓存区由单口分布式存储器(Single Port Distribute RAM)构成，数据位宽64，深度16，8个；卷积结果缓存区由简单双口块存储器构成，数据位宽96，深度4096，两组，每组8个；输出结果缓冲FIFO由块存储器构成，输入输出位宽64，深度4096，8个。AXI4总线接口的数据位宽为64位，特征图和权重数据采用8位定点精度。特征图缓存区与卷积核缓存区按深度地址均分存储空间为两部分进行乒乓缓存，以特征图缓存单元为例，当前半部分存储空间数据缓存完成后，将这一部分作为计算模块数据提取区，即从读地址0～2047范围内读出数据，后半部分存储空间作为下一批特征图数据缓存区，即在写地址256～511范围内写入数据。卷积结果缓存区情况有所不同，在存入卷积结果时往往需要取出上一批对应位置计算结果进行累加，故而计算过程的结果写入与输出过程的结果读出无法共存，需要划分成独立的两块存储空间交替进行，一轮计算包括次行遍历，P是该轮同通道输入特征图行数，KN是卷积核通道数，也即输入特征图通道数，P的数量受到单组卷积结果缓存单元大小限制。结果处理模块使用了流水线设计，不需要重复存储数据，只需要少量的寄存器资源以及十余个时钟延迟即可。

在本发明的实施例中，首先通过AXI4总线向特征图缓存区写入数据，输入数据事先按行分块，比如卷积核尺寸KL×KH为3×3时，计算组数G等于即10组，输入特征图数据即为通道0的第0～2行、通道1的第0～2行一直到通道9的第0～2行，数据调度模块会将其按行分别存放在30个特征图缓存单元里，然后总线再向卷积核缓存区写入数据，一共KC个卷积核，例如16个，只需要对应通道的部分，即3×3×10×16个权重值，按通道分为10组，每组为3×3×16个权重值，一组内的3个卷积核缓存单元均保存有这144个权重值。少数情况如特征图输入通道达不到时，计算组数只能取到实际输入通道数。特征图数据和卷积核数据缓存完成后，片外处理器发来计算启动信号，各缓存单元并行将数据送入卷积计算模块进行计算，特征图缓存单元和卷积核缓存单元与卷积计算单元一一对应。

参照图3，卷积计算单元同时接收特征图数据和权重数据，在本发明的实施例中，特征图输入端口位宽为8，权重输入端口位宽为64，即每次传入1个特征图数据和8个权重数据，计算单元包含3×8的乘累加计算阵列，使用DSP48作为乘累加器。若该计算组负责计算特征图的第0通道1、2、3行时，第一个计算单元则对应特征图第0通道第1行。该计算单元工作时，先将移位寄存器填充满，即先将特征图第0通道第1行的第0、1、2个数据依次传入移位寄存器，然后这3个特征图数据分别于来自8个不同卷积核通道0第0行第0个权重值进行乘法运算；下个时钟则是特征图第1、2、3个数据与对应卷积核第1个权重进行乘法并累加上个时钟结果；第三个时钟同理，此时卷积计算单元完成了8个卷积核3个卷积位置上的1×3×1的卷积计算，将此结果导出至加法树，最终相当于一组3个计算单元完成了3×3×1的卷积计算，10组计算单元则完成了3×3×10的卷积计算，即所有计算单元输出经过5级加法树后得到8个卷积核3个卷积位置上3×3×10的卷积计算(中间)结果，除每个卷积核前10个通道计算外，结果存入前还先从卷积结果存储单元取出对应位置此前通道结果进行累加，此后将同一卷积核的3个结果拼接为1个，将8个卷积核的结果分别存入8个卷积结果存储单元；在第四个时钟继续传入特征图数据使移位寄存器变为第3、4、5个数据，又可以令卷积核数据回到该行第0个权重，立即开启下一批卷积计算，在该行特征图全部计算完成后，还可以更换另外8个卷积核就该行再次进行卷积计算，直到KC个卷积核全部计算完毕。考虑到卷积类型的多样性，计算单元的移位寄存器部分还设计了分支与备用结构来提高效率。分支结构对应步长为2的卷积核，将不需要与当前权重进行乘法的特征图数据置于分支处，避免浪费计算资源，分支还可以进一步扩展以对应更大的步长。备用结构则有两种用途，首先对应1×1卷积核时，原策略每三次移位只对应一次计算，计算资源有67％的时间是空置的，此时可以使移位寄存器一寄存的特征图数据保持不变，通过更换权重数据重复进行次卷积计算并分别输出,如3次，即与24个卷积核进行卷积计算，备用的移位寄存器二则继续更新移位数据，计算和更新完成后由移位寄存器二接替提供特征图数据进行下一批的计算；另一种情况则是卷积核行宽KL过大时，一批卷积计算结束后移位寄存器数据对应特征图行位置已经越过了下一批卷积的起始位置，此时可以用移位寄存器一正常计算，移位寄存器二先跟随移位，到达下一批计算起始位置时移位寄存器二停止更新，在本批计算完成后即可直接启用移位寄存器二进行计算。

参照图4，一轮计算完成后，对应组的8个结果缓存区切换到结果输出任务，该组结果缓存区每个卷积结果缓存单元对应一个结果处理模块以及一个输出结果缓冲FIFO。结果处理模块有四个子模块，在本发明的实施例中，会将拼接的卷积结果数据直接送入后续处理子模块内部再行拆分。首先在输出启动前将对应输出通道的标准化参数写入标准化参数缓存区，在输出的卷积结果处理过程中与结果数据对齐取出，每个卷积核的计算结果对应一对参数a和b，在标准化子模块与卷积结果x进行乘加操作，即输出y＝ax+b，直接通过a、b的取值区分不同模式。使用了批量标准化方法的卷积神经网络模型在推断的时候计算公式为也可表示为其中γ和β为可训练参数，E[x^(b)]是训练中权重批均值的均值，Var[x^(b)]是训练中权重批方差的无偏估计，a取且b取即可完成标准化操作，也可以分别a为1且b为卷积核偏置参数实现卷积偏置累加操作，或a为1且b为0，不作处理；后一级的池化模块有较多的分支，如是否池化、池化规格是2×2还是3×3、步长为1还是2或是3、是最大池化还是平均池化，根据具体需求对每种池化方式设计了状态机，根据配置模式选择对应状态机来完成任务；激活函数处理模块采用了relu激活函数，输入为负数则将其置零，为正数则保留，消耗硬件资源少；量化模块则是为了保持前后数据精度及减少输出带宽负载，处理时使用输入数据若向上/向下溢出则取上限/下限，低位直接截断的策略。输出结果缓冲FIFO接收处理好的结果数据并通过AXI4总线向外发送，采用了异步FIFO设计，支持片外处理器与片外存储器以更高的时钟频率接收结果数据。

综合上述，本发明一种基于一维脉动阵列的通用卷积神经网络加速器，可以接收输入特征图以及卷积核参数并高效快速地完成卷积乘累加计算以及后续的结果处理，而且可以通过模式配置指令配置各个功能模块以适配不同的卷积神经网络结构，最后还采用了多种优化策略提高了加速器的计算效率。本发明能直接适配各种卷积神经网络结构，拥有较少的通信带宽开销和较高的计算效率，适用范围广，硬件友好度高。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于一维脉动阵列的通用卷积神经网络加速器，其特征在于包括：

AXI4总线接口，用于连接片外处理器和片外存储器，实现模式配置指令的载入、待计算数据的读取及结果数据的发送；

模式配置器，用于根据模式配置指令将各个功能模块设置为对应工作类型，从而适配不同类型的卷积神经网络计算模式；

数据调度模块，用于并发进行待计算数据缓存、计算数据读取、卷积结果缓存及卷积结果处理与输出任务；

卷积计算模块，包含N个卷积计算单元和一个J级加法树，J等于log₂N，N个卷积计算单元的输出端均连接加法树，每个卷积计算单元内部包含L×M个乘累加单元，其中L代表移位寄存器级数，M代表卷积核个数；

结果处理模块，用于完成与卷积层相关联的计算，并将计算结果送入输出结果缓冲FIFO；以及，

待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO，用于缓存对应数据；待计算数据缓存区包括N个特征图缓存单元和权重缓存单元，特征图缓存单元采用乒乓操作，保存当前计算需要的特征图行像素值及下一次计算需要的特征图行像素值；卷积结果缓存区及输出结果缓冲FIFO并行度均为M，卷积计算完成后数据由卷积结果缓存区取出，经由结果处理模块处理后通过输出结果缓冲FIFO传出；

所述卷积计算模块采用一维脉动阵列的组合形式进行并行卷积计算，由N个卷积计算单元组成，每个卷积计算单元对应一个特征图缓存单元和一个权重缓存单元；根据卷积核的行数KH，将卷积计算单元分成G组，G等于每批计算时特征图缓存单元分别缓存有G个特征图输入通道的KH行数据中的一行，而同一组权重缓存单元均缓存M个卷积核的该组对应通道的权重，对应输入通道不改变时下一批计算时只需更新每组特征图缓存单元中的S个缓存单元即可，S为卷积步长。

2.如权利要求1所述的加速器，其特征在于：所述卷积计算单元执行计算时，通过L级移位寄存器提供特征图行数据给计算单元阵列，同时权重缓存单元直接提供M个卷积核的相应位置权重值，即一个卷积计算单元L×M阵列每次计算会完成L个特征图数据与M个权重数据两两之间的定点数乘法并能够累加同位置上次计算的结果。

3.如权利要求1所述的加速器，其特征在于：所述卷积计算模块在卷积计算单元输出结果时，通过J级加法树对N个卷积计算单元对应位置结果进行累加，包括同一卷积核同一通道KH行结果累加，以及同一卷积核G通道累加，将累加结果行L个结果拼接后存入M个卷积结果缓存区。

4.如权利要求1所述的加速器，其特征在于：所述结果处理模块包括标准化模块、池化模块、激活函数模块、量化处理模块四个子模块，对应四种卷积神经网络中的结果处理操作，并行度为M，卷积结果以流水线的方式依次经过这四个模块的处理，其中标准化模块简化成标准化系数乘加操作，激活函数模块采取Relu激活函数，池化模块与量化处理模块设计了可配置分支以对应不同的池化类型与量化精度。

5.如权利要求1所述的加速器，其特征在于：所述AXI4总线接口与待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO将多组数据合并后进行收发。