CN113033795A

CN113033795A - 基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器

Info

Publication number: CN113033795A
Application number: CN202110332549.0A
Authority: CN
Inventors: 张玲; 杨晶; 石匆; 林英撑; 何伟; 李睿
Original assignee: Chongqing University
Current assignee: Chongqing Xianfeng Intelligent Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-25
Anticipated expiration: 2041-03-29
Also published as: CN113033795B

Abstract

本发明公开了一种基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，包括第一特征提取器、第二特征提取器、分类引擎和控制器；第一特征提取器设置在第一层，用于卷积计算、膜电位更新以及池化操作；第二特征提取器设置在第二层，用于卷积计算、膜电位更新以及池化操作，该第二特征提取器的输入端与第一特征提取器的输出端连接；所述分类引擎设置在第三层，用于对目标的分类，其由多个并行设置的全连接单元和一个脉冲计数器组成，分类引擎的输入端与第二特征提取器的输出端连接；所述控制器用于负责控制输入权重，该控制器分别与第一特征提取器、第二特征提取器和分类引擎连接。本发明能够提高网络的仿生性，提高了计算效率，节省了资源消耗。

Description

基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器

技术领域

本发明属于神经网络硬件加速器技术领域，具体涉及一种基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器。

背景技术

深度神经网络在图像分类、目标跟踪和目标分割等专业领域都达到了突出的效果，但在计算以及实现效率上与生物大脑还存在根本的差异。在大脑中，信息是以脉冲序列为载体进行传递，具有高度仿生性的脉冲神经网络可以很好地模拟这种生物神经元的信息处理机制，并具有计算效率高、占用资源少、易于硬件实现等优势，因此脉冲神经网络成为人工智能领域的研究焦点。目前脉冲神经网络的研究已经有了一些成果，但它的应用仍然处于起步阶段。例如TrueNorth，SpiNNaker等神经形态平台主要设计目的是为了模拟神经科学领域的生物大脑行为，并不适用于低成本、高速的实际嵌入式应用场景。这些已报道的神经形态芯片并不是scnn的合适架构，因为它们在推理过程中不能利用卷积层的结构规律。另一方面，传统神经网络(例如AlexNet、VGG19)等深度学习模型在众多领域上表现出良好的效果，这得益于深度学习模型具有显著的特征提取能力，但此类深度学习模型由于计算量大、占用资源多、需要依赖顶级显卡加速，使得这些模型无法应用到成本有限的、实时的嵌入场景中。

因此，有必要开发一种新的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器。

发明内容

本发明的目的是提供一种基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，能提高网络的仿生性，并能大大提高计算效率，且能节省资源消耗。

本发明所述的一种基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，包括第一特征提取器、第二特征提取器、分类引擎和控制器；

所述第一特征提取器设置在第一层，用于卷积计算、膜电位更新以及池化操作；

所述第二特征提取器设置在第二层，用于卷积计算、膜电位更新以及池化操作，该第二特征提取器的输入端与第一特征提取器的输出端连接；

所述分类引擎设置在第三层，用于对目标的分类，其由多个并行设置的全连接单元和一个脉冲计数器组成，分类引擎的输入端与第二特征提取器的输出端连接；

所述控制器用于负责控制输入权重，该控制器分别与第一特征提取器、第二特征提取器和分类引擎连接。

可选地，所述第一特征提取器包括16个脉冲卷积计算单元，每个脉冲卷积计算单元包括两个用于对输入数据进行缓存的行缓存，以及由9个选择器和4个加法器构成的2-D卷积矩阵；

所述第二特征提取器包括32组脉冲卷积计算单元，每组由16个脉冲卷积计算单元组成。

可选地，所述第一特征提取器和第二特征提取器中，还包括膜电位计算单元，同一通道共享一个膜电位计算单元，用于对卷积过后的结果进行膜电位在每个时间步泄露积分计算；

所述膜电位计算单元由1个加法器、1个乘法器、1个选择器和1块膜电位内存组成，其中，加法器的一输入端与脉冲卷积计算单元的输出端连接，加法器的输出端与乘法器的一输入端连接，选择器的输出端与乘法器的另一输入端连接，乘法器的输出端与膜电压内存的输入端连接，膜电位内存的输出端与加法器的另一输入端连接。

可选地，所述第一特征提取器和第二特征提取器中，还包括池化单元，同一通道共享一个池化单元，用于对膜电位计算单元计算后的结果进行或处理，完成池化；

所述池化单元包括一个移位寄存器和一个四输入或门，所述移位寄存器与四输入或门连接。

可选地，所述分类引擎包括10组并行设置的全连接单元和一个脉冲计数器，各全连接单元分别与脉冲计数器连接。

可选地，所述全连接单元由32个选择器、五级流水线加法树和一个累加器组成，用于完成对第二层的32个输出脉冲图进行并行计算；其中，所述五级流水线加法树中第一级的加法器的两输入端分别与2个选择器的输出端连接；五级流水线加法树中第五级的加法器的输出端与累加器的输入端连接。

可选地，所述脉冲计数器包括10个计数器，脉冲计数器用于对输出脉冲计数，在时间长度为T，脉冲数量最大的类即为分类结果。

本发明具有以下优点：

(1)把卷积神经网络的特征提取方法引入到深度脉冲神经网络中，使脉冲神经网络的结构更加完整，梯度性地提升了网络的整体性能。

(2)基于时间步的二值脉冲图设计了多级流水线的脉冲卷积处理单元和全连接层，以最大限度提高系统处理速度，且避免缓存中间结果，节省资源并提高处理性能，取得了良好的效果，具有应用价值和推广前景。

(3)具有良好的深度可扩展性，能够很好地扩展不同深度，以满足不同的精度或速度要求的嵌入式应用场景。

附图说明

图1为本实施例中设计加速器的流程图；

图2为本实施例的总体架构图；

图3为本实施例中特征提取处理单元的示意图；

图4为本实施例中全连接单元的示意图；

图5为不同深度下的系统性能的对比示意图；

图6为LIF神经元的示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

本实施例中，一种基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，包括第一特征提取器、第二特征提取器、分类引擎和控制器。所述第一特征提取器设置在脉冲卷积神经网络的第一层，用于卷积计算、膜电位更新以及池化操作。所述第二特征提取器设置在脉冲卷积神经网络的第二层，用于卷积计算、膜电位更新以及池化操作，该第二特征提取器的输入端与第一特征提取器的输出端连接。所述分类引擎设置在脉冲卷积神经网络的第三层，用于对目标的分类，其由多个并行设置的全连接单元和一个脉冲计数器组成，分类引擎的输入端与第二特征提取器的输出端连接。所述控制器用于负责控制输入权重，该控制器分别与第一特征提取器、第二特征提取器和分类引擎连接。

将输入图像通过速率编码生成分时间步的脉冲序列后发送到第一特征提取器和第二特征提取器，神经元膜电位累加，当膜电位超过预设膜阈值Vth，由神经元产生一个输出脉冲并重置膜电压；最后通过脉冲计数器对输出脉冲计数，在时间长度为T，脉冲数量最大的类即为分类结果。

本实施例中，以脉冲神经网络为基础理论设计方案框架，结合卷积神经网络，构建脉冲卷积神经网络，并对现有的神经元进行改进，使其易于硬件实现。最后根据优化后的脉冲卷积神经网络架构设计有效的硬件加速器以及具体计算引擎。

本实施例所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，能够最大限度地保证其速度的同时节省了资源消耗，使其能够有效地部署在成本和功耗有限的嵌入式应用设备，且实现了高速性能和最大限度的脉冲数据吞吐量。

本实施例中，设计总流程如下：

首先，根据不同精度或速度要求的嵌入式应用确定网络的拓扑结构、量化参数精度，然后训练相应拓扑结构的卷积神经网络，接下来将卷积神经网络训练所得的所有参数应用于脉冲卷积神经网络，然后根据得到的脉冲卷积神经网络设计神经形态架构和计算引擎，最后完成加速器设计并在FPGA(现场可编程逻辑门阵列)上验证设计原型。总体流程，参见图1。

本实施例中，设计过程主要分为以下三个步骤：

1.基于卷积神经网络转换得到脉冲卷积神经网络；

2.设计脉冲卷积神经网络架构和计算引擎；

3.FPGA原型验证。

以下对各步骤进行详细的说明：

1.基于卷积神经网络转换得到脉冲卷积神经网络，具体为：

步骤1.1，提供一个待转换的卷积神经网络，其包含卷积层，激活函数，池化层以及全连接。

步骤1.2，修改待转换卷积神经网络的结构。

(1)对输入图像进行归一化处理，并且增加abs()函数，这是预处理阶段，abs()函数确保第一次卷积的输入值都是非负的，如果输入值是正值，此步骤可忽略。

(2)将卷积层中的偏值设为0(即公式(一)中的b)，以及全连接层中的偏值也设置为0，其他设置保持不变。其中x代表特征图，w代表一系列的卷积核系数，b为偏值，l表示输入通道。

x＝∑_lw^l*x^l+b(公式一)。

步骤1.4，原先使用激活函数的层，将激活函数替换为ReLU()激活函数。

步骤1.5，池化层用平均池化替换最大值池化。

步骤1.6，所述的卷积神经网络参数(包括卷积层所得核系数以及全连接层的权重)迁移至脉冲卷积神经网络中，重新构建脉冲卷积神经网络，脉冲卷积采用选择器替换原先昂贵的乘法器(完成卷积所需的乘法器)，激活函数的位置采用脉冲卷积神经网络中的Leaky integrate-and-fire(LIF)神经元模型替换，计算膜电压，当电压超过预先设定的阈值时，发射输出脉冲，膜电压重置为静息电位，如膜电压低于预先设定阈值，记录当前的电压值，并当膜电压低于静息电位时，将膜电压重置为静息电位。将LIF神经元模型的膜电位V根据以下离散模式的公式进行描述：

t是离散时间步,V_m(t)是神经元膜电位,τ_m是泄漏时间常数,w_i是神经元突触的权重,s_i(t)是输入脉冲序列:在离散时间步t时刻，如神经元收到一个脉冲，s_i(t)是1，否则是0。如图6所示，LIF神经元通过突触权重不断地将输入脉冲整合到膜电位上，在没有输入脉冲的时刻呈指数级泄漏。一旦膜电位超过预先设定的阈值Vth，神经元就会发射输出脉冲，并立即将V_m(t)复位到静息水平。这种泄漏的整合和发射过程重复，直到输入尖峰序列的结束。

2，设计专用加速器硬件架构和计算引擎

步骤2.1，总体架构设计

如图2所示，本实施例中，涉及的基于时间步的二值脉冲图脉冲卷积神经网络加速，包括第一特征提取器、第二特征提取器、分类引擎和控制器。

第一特征提取器和第二特征提取器均包括卷积计算、膜电位更新以及池化操作，其中：

卷积运算构建高度并行的计算电路，以保证系统的高吞吐率。假设输入通道为N，输出通道为M，高度并行的卷积计算同时计算同一层所有神经元的活动即同时输出M个神经元的值。

分类引擎由全连接和脉冲计数器组成。

本实施例中，提出了基于时间步的二值的特征图的脉冲卷积操作可以有效简化神经网络计算，首先，将输入图像进行速率编码生成分时间步的脉冲序列并发送到第一特征提取器和第二特征提取器，神经元膜电位累加，当膜电位超过预先设定的膜阈值Vth，由神经元产生一个输出脉冲并重置膜电压。最后通过脉冲计数器对输出脉冲计数，在时间长度为T，脉冲数量最大的类即为分类结果。

控制器为全局控制器，整个架构仅包括一个控制器，其主要负责控制输入权重。

步骤2.2，电路设计

原始像素值脉冲编码过后形成时间步的二值图像，不同时间步的二值脉冲图按行展开成一张张量，以脉冲流的形式输入网络，本实施例中将时间步长T取值为100。根据输入脉冲的二值特性，其值只有0或1，将完成传统卷积的昂贵乘法器采用选择器代替，节省计算资源消耗。如图3(a)所示，输入二值脉冲图的大小为n×n(n＝28)，卷积核的大小为k×k(k＝3)，然后由滤波器的大小确定一个脉冲卷积计算单元使用的加法器数和选择器的数量，由脉冲图的大小确定行缓存的深度。这些计算单元构成一个二维的计算数组，如图3(b)所示，每个时钟完成一个脉冲的卷积运算。然后经过膜电压计算单元，膜电位内存中的值被初始化为0，然后，在不同的时间步对同一神经元进行泄露。当膜电位超过阈值时，发射一个脉冲并清零。当所有时间步执行完成也做清零操作，以保证下一个脉冲图的正常计算。整个架构采用基于时间步的脉冲流流水线设计方式，并且对同一卷积通道共享一个膜电位计算单元，共用一个膜电位内存，节省存储资源消耗，如图3(c)所示。降低脉冲图维数的计算成为池化，单独应用到每个通道，使网络具有鲁棒性和不变的小位移失真，定义接受域大小为2×2，如图3(d)所示，本实施例中采用一个移位行缓存(Shift reg)及一个四输入或门实现了池化，当使能信号(En)有效时，做或操作，得到输出脉冲(Spike)。

本实施例中，位于第一层的第一特征提取器中包含了16个脉冲卷积计算单元(图3(b)为一个脉冲卷积计算单元的原理图)，卷积核大小为3×3，运用两个大小为28×8bit的行缓存(即图3(b)中的Row buffer1和Row buffer2)对输入数据进行缓存，使用9个选择器(Mux)和4个加法器构成2-D卷积矩阵。所述第二特征提取器包括32组脉冲卷积计算单元，每组由16个脉冲卷积计算单元组成，负责完成卷积运算。第一层的同一通道共享一个膜电位计算单元(参见图3(c)为一个膜电位计算单元的原理图)，由1个乘法器、1个选择器和一个膜电位内存(图3(c)中的Potential Memory)组成，膜电位内存采用28×28的BRAM。主要负责对卷积过后的结果进行膜电位在每个时间步泄露积分计算(图3(c)中的Leaky/reset表示泄露/复位)。第一层的同一通道共享一个池化单元(参见图3(d)为一个池化单元的结构示意图)，该池化单元包括一个移位寄存器(采用30×1bit的移位寄存器)和一个四输入的或门，对膜电位计算后的结果进行或处理，完成池化。

本实施例中，位于第二层的第二特征提取器中包含了32组脉冲卷积计算单元，每组由16个脉冲卷积计算单元，负责完成卷积运算，保证高度并行计算，使整个系统的吞吐率最大化。第二层的同一通道共享一个膜电位计算单元，由1个乘法器、1个选择器和一个膜电位内存(采用14×14的BRAM作为膜电位内存)组成。主要负责对卷积过后的结果进行膜电位在每个时间步泄露积分计算。第二层的同一通道共享一个池化单元，该池化单元包括一个的移位寄存器(采用16×1bit的移位寄存器)和一个四输入的或门，对膜电位计算后的结果进行或处理，完成池化。

如图2所示，本实施例中，分类引擎由多组并行的全连接单元和脉冲计数器组成。

如图4所示，全连接单元可以看作一种特殊的卷积层，但一次卷积需要长时间的等待,等待上一层计算全部完成，降低了系统的速度。本实施例中，采用全并行的流水线设计方式，假设第二层同时输出m张特征图，利用m个选择器和流水线的加法树并行处理m张特征图。例如数据集MNIST，图像输入的大小28×28，在忽略脉冲流的延迟情况下，只需要消耗784个时钟(在100MHz时钟下，用时7.84us)即可得到一个时间步的神经元的输出结果。脉冲计数器有十个神经元，每个神经元代表一个分类。同时更新10个输出神经元的膜电位，并计算每个神经元发出的脉冲数，分类结果由整个实际按窗口内脉冲数目最多的神经元决定。

如图2所示，本实施例中，所述分类引擎包括10组全连接单元(对应分类的种类)和一个脉冲计数器，分类引擎负责完成对目标的分类。如图4所示，全连接单元由五级流水线加法树(Pipelined Adder tree)、32个选择器(MUX)和一个累加器(ACC)组成，其中，所述五级流水线加法树中第一级的加法器的两输入端分别与2个选择器的输出端连接；五级流水线加法树中第五级的加法器的输出端与累加器的输入端连接。全连接单元用于对第二层的32个输出脉冲图进行并行计算。脉冲计数器包括10个计数器，在时间长度为T，脉冲计数器负责对输出脉冲计数，脉冲数量最大的类即为分类结果。

3，加速器FPGA原型实现

本实施例中，通过构建不同深度的脉冲卷积神经网络来证明了网络架构的深度可扩展性，具体的架构如表Ⅰ所示。

表I.不同卷积深度的脉冲卷积神经网络

模型	架构
		Convx1	28×28-16c3-2s-10
Convx2	28×28-16c3-2s-32c3-2s-10
		Convx3	28×28-16c3-16c3-2s-32c3-2s-10

在不同深度下，脉冲卷积神经网络系统的性能，参见图5。

本实施例中，在Zynq-7045芯片上实现了该脉冲卷积神经网络推理加速器的FPGA原型。加速器以100MHz的时钟频率运行，资源消耗较少，在不同的深度下实现具体资源消耗如表II所示。本加速器在28×28分辨率的MNIST、Fashion-MNIST图像上可以达到1275帧每秒的运行速度，而且功耗分别为0.471w，0.859w，1.241w(在XilinxVivado工具下评估)，证明了本加速器可以低成本、高速地实现神经网络推理。

表II.FPGA资源利用情况

本实施例中，提出了一个成本有效和高速VLSI(超大规模集成电路)硬件框架用于脉冲卷积神经网络推理。把卷积神经网络的特征提取方法引入到深度脉冲神经网络中，保证了脉冲神经网络结构的完整性，梯度性地提升了网络的整体性能。基于时间步的二值脉冲图设计了多级流水线的脉冲卷积处理单元和全连接层，以最大限度提高系统处理速度，且避免缓存中间结果，节省资源并提高处理性能，取得了良好的效果，具有应用价值和推广前景。所提出的系统架构具有良好的可扩展性，可以很好的扩展不同深度，以满足不同的精度或速度要求的嵌入式应用场景。

Claims

1.一种基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：包括第一特征提取器、第二特征提取器、分类引擎和控制器；

2.根据权利要求1所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：所述第一特征提取器包括16个脉冲卷积计算单元，每个脉冲卷积计算单元包括两个用于对输入数据进行缓存的行缓存，以及由9个选择器和4个加法器构成的2-D卷积矩阵；

3.根据权利要求2所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：所述第一特征提取器和第二特征提取器中，还包括膜电位计算单元，同一通道共享一个膜电位计算单元，用于对卷积过后的结果进行膜电位在每个时间步泄露积分计算；

所述膜电位计算单元由1个加法器、1个乘法器、1个选择器和1个膜电位内存组成，其中，加法器的一输入端与脉冲卷积计算单元的输出端连接，加法器的输出端与乘法器的一输入端连接，选择器的输出端与乘法器的另一输入端连接，乘法器的输出端与膜电位内存的输入端连接，膜电位内存的输出端与加法器的另一输入端连接。

4.根据权利要求3所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：所述第一特征提取器和第二特征提取器中，还包括池化单元，同一通道共享一个池化单元，用于对膜电位计算单元计算后的结果进行或处理，完成池化；

5.根据权利要求1至4任一所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：所述分类引擎包括10组并行设置的全连接单元和一个脉冲计数器，各全连接单元分别与脉冲计数器连接。

6.根据权利要求5所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：所述全连接单元由32个选择器、五级流水线加法树和一个累加器组成，用于完成对第二层的32个输出脉冲图进行并行计算；其中，所述五级流水线加法树中第一级的加法器的两输入端分别与2个选择器的输出端连接；五级流水线加法树中第五级的加法器的输出端与累加器的输入端连接。

7.根据权利要求5所述的基于时间步的二值脉冲图的脉冲卷积神经网络硬件加速器，其特征在于：所述脉冲计数器包括10个计数器，脉冲计数器用于对输出脉冲计数，在时间长度为T，脉冲数量最大的类即为分类结果。