CN113269316B

CN113269316B - 支持稀疏神经网络计算加速器的稀疏数据选择逻辑模块

Info

Publication number: CN113269316B
Application number: CN202110331653.8A
Authority: CN
Inventors: 吴昌
Original assignee: Fudan University; Zhuhai Fudan Innovation Research Institute
Current assignee: Fudan University; Zhuhai Fudan Innovation Research Institute
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-11
Anticipated expiration: 2041-03-26
Also published as: CN113269316A

Abstract

本发明属于集成电路设计技术领域，具体为支持稀疏神经网络计算加速器的稀疏数据选择逻辑模块。对应于稀疏度最大为r的神经网络加速器，本发明的稀疏数据选择逻辑模块由r组选择模块组成，每个选择模块包括一个FIFO、一个N输入MUX及一个缓存REG；其计算过程为：分r个时钟节拍读入r×N个数据至FIFO，同时每个节拍从FIFO输出的N个数中选出对应非零权重的有效数N/r个至输出REG中；r个时钟节拍共生成N个有效数据完成选择计算。本发明设计简单、速度快，在保证计算效率与传统方案同等的前提下降低数据带宽与逻辑资源需求r倍，也即数据带宽与逻辑资源与稀疏率无关。从而可以有效的应用在高稀疏度的神经网络计算上。

Description

支持稀疏神经网络计算加速器的稀疏数据选择逻辑模块

技术领域

本发明属于集成电路设计技术领域，具体涉及一种支持稀疏神经网络计算加速器的稀疏数据选择逻辑模块。

背景技术

神经网络是一种重要的人工智能解决方案，在图像处理与识别、机器视觉、视频检测、语音识别上都有重要的作用。而专用计算加速器的设计对于神经网络计算的落地应用至关重要。目前神经网络计算加速器有ASIC方案与FPGA方案，另外通用GPU也有集成面向神经网络的专用计算单元的趋势，以达到高计算速度、低能耗、低成本的综合效果。

稀疏神经网络是一种含有大量零值权重数据的神经网络。从神经元结构角度看，稀疏神经网络是由稀疏神经元构成，而每个稀疏神经元有大量的权重为零，这表示其对应的输入数据为无关数据，可以剪枝消除，从而达到成倍的减少计算量的效果。对于面向图像处理与视频检测的卷积神经网络，近年的研究表明通过有效训练，可以达到稀疏率75％至90％而基本保持神经网络的识别准确率。这里，稀疏率指数值为零的权重数量与总权重数量的比例。研究设计面向稀疏神经网络的计算加速器可以在同样的神经元计算单元的情况下成倍的提高计算速度，并降低计算能耗，从而具有非常大的实用价值。

稀疏神经网络计算加速器与普通神经网络计算加速器相比，需要增加一个数据选择模块。其作用是从输入数据中选出对应非零权重的数据以传给神经元进行点积计算。

假设每个神经元计算单元的输入数是N，神经网络总权重数量与非零权重数量的比例是r，我们称其为稀疏度。稀疏神经网络加速器需要在每个时钟节拍里读入r×N个输入数据并选出 N个对应于非零权重的数据传给神经元进行计算。我们以一个2选1MUX为面积计算单位。这种设计需要N个r×N输入的MUX，其面积为A＝N×(rN-1)＝rN²-N。相应的数据输入带宽为B＝r×N×W,其中W为数据位宽。这个方案导致面积与数据带宽都正比于稀疏度r。从而对于高稀疏度的神经网络会导致较高的设计成本。

发明内容

本发明的目的在于提供一种可降低输入数据带宽和面积需求的支持稀疏神经网络计算加速器的稀疏数据选择逻辑模块。

本发明提出的支持稀疏神经网络计算加速器的稀疏数据选择逻辑模块，采用一种多时钟的选择逻辑以及选择逻辑与计算逻辑相结合的流水线结构方案，相比于传统的方案，可以大大输入数据带宽及逻辑资源需求。

一个加速器由多个PU组成,并且共享同一组输入数据,PU代表一个神经元计算单元,每个 PU可以接受N个输入数据并与预先存储的N个权重进行点积计算。

本发明设计的稀疏数据选择逻辑模块，对应于支持稀疏度最大为r的神经网络加速器，选择逻辑模块有r组选择模块组成；每个选择模块包括一个FIFO，一个N输入MUX及一个缓存REG。其计算过程为：分r个时钟节拍读入r×N个数据至FIFO，同时每个节拍从FIFO输出的N个数中选出对应非零权重的有效数N/r个至输出REG中；r个时钟节拍共生成N个有效数据完成选择计算。由于PU的点积计算可以在一个时钟节拍完成，为了使选择计算与点积计算同步，本发明使用r个MUX，同时对r个网络输出通道的权重选择r组对应的数据。这样，可以在r个节拍选出r组数据，再用r个节拍完成对应的r个点积计算，实现数据输入、选择与点积计算的同步。

本发明中，关于权重数据编码，采用直接地址(directindex)编码方式，每一个非零权重需要log₂N数据位表达。

本发明中，选择逻辑面积为

输入数据带宽为B_s＝N×W。可见

计算与数据调度算法，具体步骤为：

(1)每一个时钟节拍从片上内存(或外部内存通过总线)读入N个数据并写入FIFO中；

(2)每一个时钟节拍从FIFO中读出N个数据传给MUX，并根据非零权重的坐标选出N/r个数据写入缓存REG中；

(3)r个时钟节拍可以在缓存REG中写入N个数据；r个REG中存入r个输出通道的N个数据；

(4)分r个时钟节拍把r个REG的数据传给点积计算单元。

本发明中，稀疏度r可以达到4～10。

算法的伪代码见附录。

本发明还包括具有上述稀疏数据选择逻辑模块的稀疏神经网络计算加速器。

本发明具有如下优势：

(1)多时钟稀疏数据选择逻辑，降低了数据输入带宽。

对于稀疏度为r的神经网络及输入数为N的神经元计算单元，需要读入r×N个数以选出N 个对应非零权重的数据。通过r个时钟节拍而不是来完成数据读入。从而将数据输入总线的带宽从r×N×W降到了N×W,即降低了r倍，其中W为数据位宽。

(2)多时钟稀疏数据选择逻辑，降低了面积需求。

从r×N个数选出N个数，需要A＝N×(rN-1)＝rN²-N个2选1MUX。本发明通过r个时钟节拍，使用N选

的MUX，并同时处理r个输出通道，选择逻辑的总面积为

从而可以将电路面积降低r倍。

(3)多输出通道计算达到稀疏数据选择与点积计算的平衡实现数据输入与计算的高效流水线。

由于本发明通过r个时钟节拍进行稀疏数据选择，为了保持数据输入与点积计算的计算速度(延时)平衡，在每一个神经元计算单元同时计算r个输出通道，达到数据输入与点积计算的平衡以实现流水线计算。

本发明的特点是，设计简单、速度快；在保证计算效率与传统方案同等的前提下降低数据带宽与逻辑资源需求r倍，也即数据带宽与逻辑资源与稀疏率无关。从而可以有效的应用在高稀疏度的神经网络计算上。本发明设计方案既可以适用于面向ASIC的神经网络计算加速器，也可以适用于面向FPGA的加速器。

附图说明

图1为本发明稀疏数据选择逻辑模组结构图。

具体实施方式

本发明设计了一个在FPGA上实现的稀疏神经网络加速器。其中PU由16个DSP单元构成一个神经元计算单元。整个加速器有32个PU。稀疏度r＝4。通过网络稀疏化训练软件确保每一个卷积层的权重按照稀疏度4进行稀疏化。具体地，对于4维权重数组[n，c，k_x，k_y]，其中n为输出通道数，c为输入通道数，k_x、k_y是卷积核在x方向和y方向的长度。本发明的网络稀疏软件可以将权重数组按c方向每16个数只保留16/4＝4个非零值。计算过程是首先将 32×4＝128个输出通道的权重存入32个PU的缓存，每个PU处理4个输出通道的计算。采用乒乓buffer，即读入下一组权重和卷积计算同时进行。卷积计算过程是每一个时种节拍从片上存储模块读入16个输入图片(featuremap)是数并同时发给32个PU。每个PU里面的4 组FIFO接受数据并传到4组MUX逻辑，按照4个输出通道的权重选择参数选出4组4个非零权重对于的输入数存入寄存器Reg1。4个时钟节拍可以接受4组输入数并选出4组对于非零权重的输入数，其中每组16个。而且分4个时钟节拍通过一个(4选1)MUX输出到数据寄存器中，和相应的权重进行点积计算。

本发明的设计在XilinxXC7VX690t上综合实现。数据位宽为8bit，片上内存大小为2MB。数据总线的位宽为16×8＝128bit。选择逻辑部分占用了640个slice，电路延迟为0.685ns。片上内存占用了457个BRAM。

同时设计实现了传统方案。按照N＝16，r＝4，数据位宽同样为8bit，片上内存大小为 2MB。这种方案需要的数据总线宽度为64×8＝512bit。这个设计的选择逻辑需要占用2176 个slice，电路延迟为1ns。片上内存需要463个BRAM。

可以看出本发明的设计方案可以减少逻辑资源3.4倍，电路延迟降低1.45倍。由于可以降低数据带宽，BRAM个数也有所降低。

附录

算法的伪代码：

。

Claims

1.一种支持稀疏神经网络计算加速器的稀疏数据选择逻辑装置，其中，一个加速器由多个PU组成,并且共享同一组输入数据；PU代表一个神经元计算单元,每个PU可以接受N个输入数据并与预先存储的N个权重进行点积计算；其特征在于，对应于稀疏度最大为r的神经网络加速器，稀疏数据选择逻辑装置由r组选择模块组成；每个选择模块包括一个FIFO，一个N输入MUX及一个缓存REG；

其计算过程为：分r个时钟节拍读入r×N个数据至FIFO，同时每个节拍从FIFO输出的N个数中选出对应非零权重的有效数N/r个至输出REG中；r个时钟节拍共生成N个有效数据完成选择计算；

由于PU的点积计算在一个时钟节拍完成，为了使选择计算与点积计算同步，使用r个MUX，同时对r个网络输出通道的权重选择r组对应的数据；这样，在r个节拍选出r组数据，再用r个节拍完成对应的r个点积计算，实现数据输入、选择与点积计算的同步；

计算与数据调度的具体流程为：

(1)每一个时钟节拍从片上内存读入N个数据并写入FIFO中；

(3)r个时钟节拍在缓存REG中写入N个数据；r个REG中存入r个输出通道的N个数据；

(4)分r个时钟节拍把r个REG的数据传给点积计算单元。

2.根据权利要求1所述的稀疏数据选择逻辑装置，其特征在于，权重数据编码采用直接地址编码方式，每一个非零权重需要log₂N数据位表达。

3.一种具有如权利要求1或2所述稀疏数据选择逻辑装置的稀疏神经网络计算加速器。