CN112418396A

CN112418396A - 一种基于fpga的稀疏激活感知型神经网络加速器

Info

Publication number: CN112418396A
Application number: CN202011304282.6A
Authority: CN
Inventors: 袁海英; 曾智勇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26

Abstract

本发明公开了一种基于FPGA的稀疏激活感知型神经网络加速器，包括了读命令发生器、数据分配器、T_m个运算子通道、大小为T_m×T_n的乘累加阵列、由T_n个加法树组成的加法树组、功能模块和输出缓存。数据分配器将片外存储器读入的数据分配给尽可能少的运算子通道。运算通道将权重和非0激活送入到乘累加阵列，乘累加阵列进行运算卷积乘累加。本发明还提供一种基于FPGA的稀疏激活神经网络运算数据流，它重建非0激活值的位置并且匹配对应的权重。本发明具有很高的数据复用性，减少了数据的搬移节省功耗，未用到的运算子通道及其后续模块被门控时钟所关闭，同样节省了功耗，它可以高效感知稀疏激活，使绝大部分为非0激活所进行的运算，加快了运算速度。

Description

一种基于FPGA的稀疏激活感知型神经网络加速器

技术领域

本发明涉及电子信息和深度学习领域，特别是一种基于FPGA的高效稀疏激活感知型神经网络加速器。

背景技术

卷积神经网络(CNN)近些年来已经成为计算机视觉任务中最流行和有效的算法之一，因其准确率明显高于传统算法，在图像分类，人脸识别，和语义分割等领域得到了广泛的应用。随着CNN网络模型规模不断扩大，需要更多的计算和存储资源，CPU由于其并行计算资源的不足，面对大规模的CNN运算已经现得力不从心，相反，具有大量流处理器的GPU成为了CNN训练和推理的主流平台，但是其运行CNN时高能耗的缺陷无法避免。FPGA作为一种可编程的逻辑器件，其不仅具有较高的灵活性可以适应各种网络结构，强大的逻辑计算资源和和其较高的能源效率也使其成为了运行CNN的很有前途的硬件平台。

在深度CNN中，其计算量是十分巨大的，这些运算的激活和权重很大一部分都为0，通过利用这些稀疏性，可以在不降低网络预测精度的前提下提升大规模网络的推理性能。其中激活的稀疏是在推理过程中产生的，特别是现代卷积神经网络中大规模使用的矫正线性单元，但是与权重稀疏不同的是，推理时产生的稀疏位置很难在训练时进行控制，这就造成现有的利用稀疏激活神经网络加速器方案对稀疏激活的利用率较为低下。

发明内容

本发明的目的在于针对现有技术利用稀疏激活神经网络加速器方案对稀疏激活的利用率较为低下的不足，提出了一种基于FPGA的稀疏激活感知型神经网络加速器，该加速器实现了较高的片上数据复用，同时使用的数据分配方式减少功耗并对稀疏激活中的0值实现了高效跳过。

本发明为实现上述技术目的，所实施的技术方案为：

一种基于FPGA的稀疏激活感知型神经网络加速器，其特征在于，包括：读命令发生器、数据分配器、T_m个运算子通道、大小为T_m×T_n的乘累加阵列、由T_n个加法树组成的加法树组、功能模块和输出缓存。

所述读命令发生器用于向外部总线发送读请求寻址片外存储器存储的激活和权重数据，其读请求按照T_n个输入通道的激活和权重为单位进行，读取顺序为：特征图从宽度到高度再到输入通道深度；权重从宽度到高度，随后从输入通道深度到输出通道深度。

所述数据分配器，用于将片外存储器读入的数据以输入通道为单位分配给运算子通道，内部维持1个输入通道的计数器,在输入通道为Chin的情况下，计数器的溢出值为ceil(Chin/T_n)-ceil(ceil(Chin/T_n)/T_m)，跨步为ceil(ceil(Chin/T_n)/T_m)，计数条件为上一个输入通道寻址完毕，此处ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。只要没溢出，每次计数条件的触发都引起下一个运算子通道的数据分配，一旦溢出，重新分配给第一个运算子通道。没有获得数据的运算子通道及其后续模块被门控时钟所关闭。

所述运算子通道包含片上激活和权重缓存、地址发生器、应答器、稀疏感知器和非0缓存，它接收到的数据首先存储在权重和激活的片上缓存内，片上缓存由FPGA中的blockram构成，激活地址发生器产生运算所需激活的地址，经过应答器应答确认数据已读入后，从激活缓存输出T_n个激活，数据进入稀疏感知器，稀疏感知器输出非0激活和偏移值并送入非0缓存中，非0缓存输出的偏移值进入权重地址发生器中，使用来自稀疏感知器的偏移加上其当前运行状态定位到具体的权重地址，该地址索引到T_n个权重，权重和非0激活送入到后面的乘累加阵列。

所述乘累加阵列接收运算子通道送过来的数据，包含T_m×T_n个乘累加器(MAC)所组成的运算矩阵用以运算卷积中的乘累加，每一个MAC用FPGA中的DSP资源构成，每一行MAC都接收到同样的运算子通道输送的数据，输出为部分和，并送入后面的加法树组。

所述由T_n个加法树组成的加法树组中的每一个加法树输入端为乘累加阵列的每一列MAC的输出，以将其部分和相加得到完整的T_n个输出激活。

可选地，所述读命令发生器寻址内部维持两个输入通道计数器，计数器A和计数器B，在输入通道为Chin的情况下，计数器A的溢出值为ceil(Chin/T_n)-ceil(ceil(Chin/T_n)/T_m)，跨步为ceil(ceil(Chin/T_n)/T_m)，计数条件为上一个输入通道寻址完毕，计数器B的溢出值为ceil(ceil(Chin/T_n)/T_m)-1，跨步为1，计数条件为计数器A溢出，此处ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。所寻址的输入通道为计数器A和计数器B的值之和。

可选地，所述稀疏感知器输入的T_n个激活值被暂存在该模块内部寄存器中，同时生成一个掩膜表，本质为T_n位的寄存器，如果激活值为0该表对应位就为0，否则为1。非0指针的生成依赖T_n级数据选择器，第n级的数据选择器的输入端为n+1级数据选择器的输出端和指针寄存器输出的值加n，其控制端为掩膜判断逻辑，该逻辑判断输入的指针对应位的掩膜值是否为1。第1级数据选择器输出的非0指针的值可以作为偏移值输出,指针指向当前要输出的非0激活，每个时钟周期都输出非0激活及其对应的偏移值。

可选地，所述加法树组的每一个输入接口设置了先入先出缓存，将来自乘累加阵列输出的非同时到达的数据暂存，待所有先入先出缓存均不空再做加法运算。

可选地，在乘累加阵列的第x行y列上的MAC运算输入通道从Dtm×x到Dtm×(x+1)、输出通道从ceil(Chout/Tn)×y到ceil(Chout/Tn)×(y+1)的卷积运算，这里Dtm＝ceil(ceil(Chin/T_n)/T_m)，Chin为输入通道深度，ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。

一种基于FPGA的稀疏激活神经网络运算数据流，将卷积运算按照每Dtm输入通道切分为一个运算片，在输入通道深度为Chin的情况下，Dtm＝ceil(ceil(Chin/T_n)/T_m)，此处ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。多个运算片包含多个运算条带，所述运算条带包含T_n个输入通道的输入激活和权重数据，数据以一个运算条带为单位在运算子通道内部流动；所述运算条带内部寻址非0激活并输出其相对位置的指针，所述运算条带的位置和指针重建非0激活值的位置并且匹配对应的权重。

可选地，所述运算条带在运算子通道内部流动方式为：每个时钟周期流动T_n个输出通道的输出激活所对应的输入激活和权重数据，流动顺序为输出激活的宽度到高度再到输出通道深度。

本发明所采用的技术方案具有的优点和有益效果是：

实现了高效的并行计算，每个时钟周期可以达到T_m×T_n次乘累加运算，并且同一行MAC使用相同的激活，使得其有很高的数据复用性，减少了数据的搬移节省功耗，没有用到的运算子通道及其后续模块被门控时钟所关闭，同样节省了功耗。可以高效感知稀疏激活，配合使用了缓存的加法树使得加速器的稀疏运算效率很高，绝大部分为非0激活所进行的运算，加快了运算速度。

附图说明

图1为本发明的结构示意图；

图2为运算子通道的结构示意图；

图3为乘累加阵列的结构示意图；

图4为加法树组的结构示意图；

具体实施方式

如图1所示的结构，本实施例涉及一种基于FPGA的稀疏激活感知型神经网络加速器，包括读命令发生器、数据分配器、T_m个运算子通道、大小为T_m×T_n的乘累加阵列、由T_n个加法树组成的加法树组、功能模块和输出缓存。

所述数据分配器，用于将片外存储器读入的数据以输入通道为单位分配给运算子通道，内部维持1个输入通道的计数器,在输入通道为Chin的情况下，计数器的溢出值为ceil(Chin/T_n)-ceil(ceil(Chin/T_n)/T_m)，跨步为ceil(ceil(Chin/T_n)/T_m)，计数条件为上一个输入通道寻址完毕，此处ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。只要没溢出，每次计数条件的触发都引起下一个运算子通道的数据分配，一旦溢出，重新分配给第一个运算子通道。这时，只要不满足Chin>T_n×T_m，T_m个运算子通道就不会都有数据，没有数据的运算子通道及其后续模块使用门控时钟关闭，以降低系统功耗。

所述运算子通道的结构参见图2，接收到的数据首先存储在权重和激活的片上缓存上，片上缓存由FPGA中的block ram构成，激活地址发生器产生运算所需激活的地址，经过应答器应答确认数据已读入后，激活缓存输出T_n个激活，数据流入稀疏感知器，稀疏感知器每个周期输出一个非0激活，及其对应的偏移对，完成压缩功能以重建非0激活及其拓扑信息。非0激活经过非0缓存后广播给T_n个MAC单元，偏移进入权重寻址发生器，该模块进行寻址权重，使用来自稀疏感知器的偏移加上其当前运行状态就可以定位到具体的权重地址，该地址索引到T_n个权重值，这样T_n个MAC每个周期都可以得到一组权重和激活数据，没有空闲，以保证后级模块的最大运行效率。

所述稀疏感知器接收来自运算子通道中激活缓存输出的T_n个激活，所述稀疏感知器输入的T_n个激活值被暂存在该模块内部寄存器中，同时生成一个掩膜表，本质为Tn位的寄存器，如果激活值为0该表对应位就为0，否则为1。非0指针的生成依赖T_n级数据选择器，第n级的数据选择器的输入端为n+1级数据选择器的输出端和指针寄存器输出的值加n，其控制端为掩膜判断逻辑，该逻辑判断输入的指针对应位的掩膜值是否为1。第1级数据选择器输出的非0指针的值可以作为偏移值输出,指针指向当前要输出的非0激活，每个时钟周期都输出非0激活及其对应的偏移值。稀疏感知器的输出格式为第0位为stripe_new，该标志位标志着激活缓存输出新的T_n个激活，1+log₂T_n位为偏移值，高16位输出非0值，以这种方式传输所耗费的额外硬件资源很少，以T_n＝16为例，非数据位占比仅23.8％，这有效地减少内部数据传输的带宽消耗。由于其输入是T_n个激活，输出是每个时钟周期一个非0激活，所以这是种动态、无需解压的激活数据压缩方式阻止非0数据流入MAC，其输出速度等于MAC运算速度，从而保持MAC处于一直忙碌工作状态，有效地提高了运算效率。

所述乘累加阵列接收运算子通道传送过来的数据，通过图3的多个MAC上交错的行和列来分配卷积与并行化卷积的向量运算，该阵列尺寸为T_m×T_n，每一列将输出通道运算分为T_n份，每一行将输入通道运算分为T_m份，即：阵列的横向将T_n个输出通道乘加运算平铺，阵列的纵向将T_m个输入通道乘加运算平铺。为了最大程度地实现输入激活的复用，每一行T_n个MAC共享同一个激活，其建立了相同的激活连接，而连接到T_n个权重核。在乘累加阵列的第x行y列上的MAC运算输入通道从Dtm×x到Dtm×(x+1)、输出通道从ceil(Chout/Tn)×y到ceil(Chout/Tn)×(y+1)的卷积运算，这里Dtm＝ceil(ceil(Chin/T_n)/T_m)，Chin为输入通道深度，ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。任意2个MAC的运算不会重叠，由此避免内部互联数据传输所带来的资源消耗。

所述加法树组如图4将每一列MAC的输出都连接到一个单独的加法树中，这样T_n个加法树将T_n列MAC输出的部分和相加以得到T_n个完整的输出，为了防止前几层卷积层的负载不平衡带来的MAC的数据输出速率不同而造成水桶效应，所述加法树组在输入端口前增加先入先出存储器，暂时存下累加器输出的部分和来将加法运算和乘加运算解耦，在T_m＝16的结构中，将先入先出存储器深度设为16可以较好地缓解前几层卷积层的负载不平衡问题，并以最优资源效率的情况下延缓运算时先入先出存储器进入近满状态。

加法树组输出T_n个运算结果进入功能模块，功能模块进行relu运算或者池化运算，运算结果进入宽度为16×T_n bits的输出缓存，当输出缓存存储的数据深度达到了外部总线的突发长度或者加法树组运算全部完成时，将数据以突发的形式写入到外部存储中。

Claims

1.一种基于FPGA的稀疏激活感知型神经网络加速器，其特征在于，包括：读命令发生器、数据分配器、T_m个运算子通道、大小为T_m×T_n的乘累加阵列、由T_n个加法树组成的加法树组、功能模块和输出缓存；

所述读命令发生器用于向外部总线发送读请求寻址片外存储器存储的激活和权重数据，其读请求按照T_n个输入通道的激活和权重为单位进行，读取顺序为：特征图从宽度到高度再到输入通道深度；权重从宽度到高度，随后从输入通道深度到输出通道深度；

所述数据分配器，用于将片外存储器读入的数据以输入通道为单位分配给运算子通道，内部维持1个输入通道的计数器,在输入通道为Chin的情况下，计数器的溢出值为ceil(Chin/T_n)-ceil(ceil(Chin/T_n)/T_m)，跨步为ceil(ceil(Chin/T_n)/T_m)，计数条件为上一个输入通道寻址完毕，此处ceil()表示向上取整,“/”为除法，T_m和T_n为乘累加阵列的高度和宽度；只要没溢出，每次计数条件的触发都引起下一个运算子通道的数据分配，一旦溢出，重新分配给第一个运算子通道；没有获得数据的运算子通道及其后续模块被门控时钟所关闭；

所述运算子通道包含片上激活和权重缓存、地址发生器、应答器、稀疏感知器和非0缓存，它接收到的数据首先存储在权重和激活的片上缓存内，片上缓存由FPGA中的block ram构成，激活地址发生器产生运算所需激活的地址，经过应答器应答确认数据已读入后，从激活缓存输出T_n个激活，数据进入稀疏感知器，稀疏感知器输出非0激活和偏移值并送入非0缓存中，非0缓存输出的偏移值进入权重地址发生器中，使用来自稀疏感知器的偏移加上其当前运行状态位到具体的权重地址，该地址索引到T_n个权重，权重和非0激活送入到后面的乘累加阵列；

所述乘累加阵列接收运算子通道送过来的数据，包含T_m×T_n个乘累加器(MAC)所组成的运算矩阵用以运算卷积中的乘累加，每一个MAC用FPGA中的DSP资源构成，每一行MAC都接收到同样的运算子通道输送的数据，输出为部分和，并送入后面的加法树组；

2.根据权利要求1所述基于FPGA的稀疏激活感知型神经网络加速器，其特征在于，所述读命令发生器寻址内部维持两个输入通道计数器，计数器A和计数器B，在输入通道为Chin的情况下，计数器A的溢出值为ceil(Chin/T_n)-ceil(ceil(Chin/T_n)/T_m)，跨步为ceil(ceil(Chin/T_n)/T_m)，计数条件为上一个输入通道寻址完毕，计数器B的溢出值为ceil(ceil(Chin/T_n)/T_m)-1，跨步为1，计数条件为计数器A溢出，此处ceil()表示向上取整，“/”为除法,T_m和T_n为乘累加阵列的高度和宽度；所寻址的输入通道为计数器A和计数器B的值之和。

3.根据权利要求1所述基于FPGA的稀疏激活感知型神经网络加速器，其特征在于，所述稀疏感知器输入的T_n个激活值被暂存在该模块内部寄存器中，同时生成一个掩膜表，本质为Tn位的寄存器，如果激活值为0该表对应位就为0，否则为1；非0指针的生成依赖T_n级数据选择器，第n级的数据选择器的输入端为n+1级数据选择器的输出端和指针寄存器输出的值加n，其控制端为掩膜判断逻辑，该逻辑判断输入的指针对应位的掩膜值是否为1；第1级数据选择器输出的非0指针的值作为偏移值输出,指针指向当前要输出的非0激活，每个时钟周期都输出非0激活及其对应的偏移值。

4.根据权利要求1所述基于FPGA的稀疏激活感知型神经网络加速器，其特征在于，所述加法树组的每一个输入接口设置了先入先出缓存，将来自乘累加阵列输出的非同时到达的数据暂存，待所有先入先出缓存均不空再做加法运算。

5.根据权利要求1所述基于FPGA的稀疏激活感知型神经网络加速器，其特征在于，在乘累加阵列的第x行y列上的MAC运算输入通道从Dtm×x到Dtm×(x+1)、输出通道从ceil(Chout/Tn)×y到ceil(Chout/Tn)×(y+1)的卷积运算，这里Dtm＝ceil(ceil(Chin/T_n)/T_m)，Chin为输入通道深度，ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度。

6.一种基于FPGA的稀疏激活神经网络运算数据流的方法，其特征在于，将卷积运算按照每Dtm输入通道切分为一个运算片，在输入通道深度为Chin的情况下，Dtm＝ceil(ceil(Chin/T_n)/T_m)，此处ceil()表示向上取整，“/”为除法，T_m和T_n为乘累加阵列的高度和宽度；运算片包含多个运算条带，所述运算条带包含T_n个输入通道的输入激活和权重数据，数据以一个运算条带为单位在运算子通道内部流动；所述运算条带内部寻址非0激活并输出其相对位置的指针，所述运算条带的位置和指针重建非0激活值的位置并且匹配对应的权重。

7.根据权利要求6所述方法，其特征在于，运算条带在运算子通道内部流动方式为：每个时钟周期流动T_n个输出通道的输出激活所对应的输入激活和权重数据，流动顺序为输出激活的宽度到高度再到输出通道深度。