CN110390385A

CN110390385A - 一种基于bnrp的可配置并行通用卷积神经网络加速器

Info

Publication number: CN110390385A
Application number: CN201910572582.3A
Authority: CN
Inventors: 陆生礼; 范雪梅; 庞伟; 刘昊; 舒程昊; 付成龙
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-29
Anticipated expiration: 2039-06-28
Also published as: WO2020258529A1; CN110390385B

Abstract

本发明公开了一种基于BNRP的可配置并行通用卷积神经网络加速器，属于计算、推算、计数的技术领域。加速器包含：模式配置器、卷积计算器、BNRP计算器、数据通信单元、数据压缩编码/解码器。卷积计算器包含T个大小为R*C的脉动卷积阵列,每个脉动卷积阵列配置相应的输入、输出特征图缓存区、配置信息数据缓存区。BNRP计算器可执行两种计算模式，包含：R*T个数据输入和输出接口、R*T个池化器、归一化计算模块和非线性激活计算模块，各功能模块按流水线方式并行执行。本发明能够根据各种网络结构的特点，动态配置并行加速计算模块执行模式.且通用性好，对网络结构层复杂且规模相对较大的卷积神经网络，可极大地降低计算复杂度，功耗低、吞吐量高。

Description

一种基于BNRP的可配置并行通用卷积神经网络加速器

技术领域

本发明公开了一种基于BNRP的可配置并行通用卷积神经网络加速器，属于计算、推算、计数的技术领域。

背景技术

近年来，深度学习大大加速了机器学习和人工智能的发展且在各个研究领域和商业应用都取得了显著的成效。目前，已验证使用最广泛的深度神经网络(DNN，Deep NeuralNetwork)和卷积神经网络(CNN，Convolutional Neural Network)在解决图像识别、语音识别和其它复杂机器学习任务时具有更为出色的能力。然而，随着实际应用场景的越加复杂以及实际应用场景对精度要求的提高，神经网络的网络拓扑结构不断变化，相应地，网络规模急剧扩大，例如，具有1000亿个神经元连接的百度脑以及具有10亿个神经元连接的Google cat-recognizing系统。因此，如何通过计算加速和先进的技术低耗、高速地实现大规模深度学习神经网络模型成为机器学习和人工智能领域的重要问题。

深度神经网络不仅计算量大还需要存储数百万甚至近亿的网络参数，因此，目前主要通过高性能多核CPU(Central Processing Unit，中央处理器)和GPU(GraphicProcessing Unit，图形处理器)来完成基于深度神经网络的实时检测识别。然而，对于机器人、消费电子产品、智能汽车等功耗、体积及成本受限的移动设备，几乎无法通过CPU或者GPU移植复杂多样的卷积神经网络模型。因此，使用通用器件构建可灵活配置的高性能、低功耗通用硬件加速器可满足卷积神经网络大量计算和存储的需求。

与GPU加速相比，FPGA和ASIC等硬件加速器可使用更低的功耗并实现至少50％的性能。然而，FPGA和ASIC都具有相对有限的计算资源、存储器和I/O带宽，因此，使用硬件加速器开发复杂且大规模的DNN具有挑战性。而近年来基于FPGA高层综合工具的研发给FPGA设计带来很大突破，在不影响性能的情况下大幅度提高了研发效率。FPGA是一种成本低、灵活性高的可编程标准器件，且具有功耗低、并行性高等优点，非常适合卷积神经网络计算的硬件加速。而ASIC虽然具有较长的开发周期且成本高以及灵活性较低的的缺陷，但由于ASIC是定制化的，所以在性能和功耗上都要优于GPU和FPGA。Google 2016年发布的TPU系列ASIC AI芯片的性能是传统GPU的14到16倍，中星微电子发布的NPU的性能是GPU的118倍。

因此，将FPGA或ASIC应用于移动工作平台，基于仅利用适度的存储和通信带宽即可实现高计算吞吐量的脉动卷积阵列和高并行度流水线方式来设计卷积神经网络可配置通用硬件加速器是有效的解决方案。

发明内容

本发明的发明目的是针对上述背景技术的不足，提供了一种基于BNRP的可配置并行通用卷积神经网络加速器，能够支持各种规模卷积神经网络结构的计算加速，通用性好，对片上存储资源和I/O带宽需求较低，提高了计算并行度和吞吐量，解决了现有硬件加速器有限的片上存储和I/O带宽不能适应卷积神经网络大吞吐量计算需求的技术问题。

本发明为实现上述发明目的采用如下技术方案：

一种基于BNRP的可配置并行通用卷积神经网络加速器，包括：模式配置器、并行计算加速单元(卷积计算器、BNRP计算器)、数据缓存单元(输入输出特征图缓存、权重参数缓存)、数据通信单元(AXI4总线接口、AHB总线接口)、数据压缩编码/解码器。输入特征图数据In_Map、权重参数和BN参数通过数据通信单元中的AXI4总线接口经过数据压缩编码/解码器压缩编码后缓存到对应的In_Map Buffer、权重缓存和BN参数缓存区；加速器计算模式和功能配置信息则通过数据通信单元中的AHB总线接口传输到模式配置器；模式配置器根据接收到的配置信息对并行计算加速单元的计算模式和功能进行配置，并行计算加速单元读取In_Map Buffer、权重缓存和BN参数缓存区数据后，根据配置参数逐层、行、列和通道按并行流水线方式进行相应的卷积、批量归一化、非线性激活或者池化操作；每层网络提取完特征后输出的特征图数据回传到数据压缩编码/解码器进行解码后，再通过AXI4总线接口回传到加速器外部数据存储单元。

基于上述技术方案的优选方案，并行计算加速单元，包括：T个卷积计算阵列和BNRP计算器；卷积计算阵列基于脉动阵列架构，大小为R*C，每次可对C张特征图的R行数据进行卷积计算，卷积计算结果保存在输出缓存Output Buffer中；相应的，BNRP计算器包含R*T个数据输入接口、R*T个输出接口、R*T个“2*2池化器”和R*T个“3*3池化器”，由模式配置器配置每次仅个池化器处于使能状态，S表示池化步长(S＝1、2)。

基于上述技术方案的优选方案，模式配置器从AHB总线接口读取的当前处理数据所在网络层次、网络模型参数、缓存数据读写地址等网络配置信息缓存在卷积计算器的数据缓存区；模式配置器从AHB总线接口读取的是否进行批量归一化(Batch Normalization，BN)、非线性激活(ReLu)、池化(Pooling)、数据压缩编码/解码功能操作以及计算模式配置参数等计算模式和功能配置参数传输到BNRP计算器。

基于上述技术方案的优选方案，BNRP计算器按流水线方式并行执行批量归一化(Batch Normalization，BN)、非线性激活(ReLu)或者4种池化(Pooling)操作，根据标志位可配置执行上述一种或者几种操作，且根据配置参数执行相应的计算模式，模式1：执行BN操作后先执行pooling操作，再执行ReLu操作；模式2：执行BN操作后先执行ReLu操作，再执行pooling操作。

基于上述技术方案的优选方案，BNRP计算器，当输入特征图尺寸map_size>R且按配置需要进行pooling操作时，根据网络模型、脉动卷积阵列行数R以及配置参数，配置将m行输入特征图数据交错缓存到2m块片上BlockRAM。

基于上述技术方案的优选方案，“2*2池化器”由两个二选一比较器Comparator2_1和Comparator2_2组成一个四选一比较器，每个时钟输入两个特征图数据到Comparator2_2，每2个时钟输出一个2*2pooling值，当S＝1时：保存Comparator2_2输出值作为下一个时钟Comparator2_1输出值；“3*3池化器”由三个三选一比较器Comparator3_1、Comparator3_2和Comparator3_3组成一个九选一比较器，每个时钟输入三个特征图数据，每3个时钟输出一个3*3pooling值，当S＝1时：保存Comparator3_2输出值，作为下一个时钟Comparator3_1输出值，保存Comparator3_3输出值，作为下一个时钟Comparator3_2输出值，当S＝2时：保存Comparator3_3输出值，作为下一个时钟Comparator3_1输出值。

基于上述技术方案的优选方案，2*R*T个池化器根据配置信息部分被使能，其它的处于关闭状态；其中，“2*2池化器”根据配置参数执行2*2AP或者2*2MP操作，“3*3池化器”根据配置参数执行3*3AP或者3*3MP操作；每种池化器各有R*T个，均按序编号(1、2、3、···、R*T)，当S＝2时编号为奇数的池化器被使能。

基于上述技术方案的优选方案，卷积计算阵列和BNRP计算器，若配置需进行BN操作，则在进行ReLu操作之前，先通过设计三个比较器判断特征图数据map[i][j]、BN权重参数a[i][j]和b[i][j]与0的大小，若map[i][j]≤0、a[i][j]≥0同时b[i][j]≤0，则卷积计算阵列无需对该map[i][j]和a[i][j]进行乘法计算，且无需对b[i][j]进行加法计算，BNRP计算器模式1的BN操作对应输出值为0，BNRP计算器模式2的BN操作和ReLu操作对应输出值均为0。

本发明采用上述技术方案，具有以下有益效果：

(1)本发明运用并行流水线方式设计BNRP计算器，通过动态配置并行计算器的参数尤其是BNRP计算器的计算执行模式减小神经网络加速器的计算量，尤其是对网络结构层较大的卷积神经网络，可极大地加速卷积神经网络加速器的计算，同时减少重复计算进而降低加速器功耗；基于脉动阵列架构设计了卷积计算阵列，仅利用适度的存储和I/O通信带宽即可实现高计算吞吐量，且有效地提高了数据的重用率，进一步降低了数据传输时间。

(2)通过模式配置器的设计，可根据网络结构特点动态配置BNRP计算器计算执行模式，更具有通用性，不再受网络模型结构和层数约束，也省略了不必要的中间值缓存，减少了内存资源的使用。

附图说明

图1是本发明公开的加速器的结构示意图。

图2是本发明BNRP计算器的结构示意图。

图3是本发明BNRP计算器工作流程的示意图。

图4是本发明3*3池化器执行池化操作的示意图。

具体实施方式

下面结合附图对发明的技术方案进行详细说明。

本发明公开的基于BNRP的可配置并行通用卷积神经网络加速器如图1所示，包括：模式配置器、卷积计算器和BNRP计算器组成的并行计算加速单元、输入输出特征图缓存和权重参数缓存组成的数据缓存单元、AXI4总线接口和AHB总线接口组成的数据通信单元、数据压缩编码/解码器。加速器的工作状态包括读取配置参数状态、读取数据状态、计算状态、发送数据状态。

模式配置器通过AHB总线从加速器外部读取模式配置参数，其中，是否要进行BN、ReLu或者pooling操作以及执行模式、网络层数、特征图尺寸等配置信息传输到BNRP计算器；网络层数、特征图尺寸和批次、卷积核大小等信息传输到卷积计算器的数据缓存区；网络层数、数据读写使能和地址等配置信息传输到数据压缩编码/解码器。

数据压缩编码/解码器读取数据读取使能和地址信号后，通过AXI4总线从加速器外部读取相应的权重参数(卷积核和偏置)传输到权重参数缓存区，读取相应的输入特征图数据传输到In_Map Buffer。

卷积计算器接收到计算使能信号后，从数据缓存区读取到网络层数、特征图尺寸和批次、卷积核大小，按脉动方式读取权重参数和输入特征图数据进行相应的卷积计算。计算完成后，输出结束标志信息给BNRP计算器，且将卷积计算结果输出到Out_Map Buffer。

参照图2，BNRP计算器接收模式配置参数后等待卷积计算器发送的计算完成标志信息，若配置需要执行BN操作，则发起BN参数读取请求，从BN参数缓存区读取相应的BN参数；否则，不执行BN操作。

参照图3，BNRP计算器根据配置信息判断需要执行的计算模式。若配置执行模式1，则先执行pooling操作，根据接收的网络模型参数(池化步长)和特征图尺寸，将需要缓存的特征图输入像素值发送到相应的Block RAM，且使能相应的池化器，完成pooling计算后执行ReLu操作；若配置执行模式2，则先执行ReLu操作。其中，最大池化器计算过程如下：

平均池器计算过程如下：

k＝1，2表示池化器尺寸，IMap表示输入特征图像素值，OMap表示输出特征图像素值，OMap[c][i][j]表示第C个输出特征图的第i行、第j列像素值。

参照图4，以卷积计算阵列行数为R＝6，输入特征图尺寸为13*13同时池化器尺寸k＝3以及池化步长s＝2为例，输出特征图尺寸为6*6。由于，输出特征图行和列对应计算过程原理相同，下面仅针对行计算进行详细说明：

第1次卷积计算输出特征图的1、2、3、4、5、6行到对应的BlockRAM1、BlockRAM2、BlockRAM3、BlockRAM4、BlockRAM5、BlockRAM6，且缓存第5行数据到BlockRAM5B，缓存第6行数据到BlockRAM6B，使能1C、3、5号池化器。1C号池化器首次输出值为无效值；3号池化器执行R1、R2、R3三行池化计算，输出Out_Map第1行像素值；5号池化器执行R3、R4、R5三行池化计算，输出Out_Map第2行像素值。

第2次卷积计算输出特征图的7、8、9、10、11、12行到对应的BlockRAM1、BlockRAM2、BlockRAM3、BlockRAM4、BlockRAM5、BlockRAM6，且缓存第11行数据到BlockRAM5B，缓存第12行数据到BlockRAM6B，使能1B、3、5号池化器。1B号池化器执行R5、R6、R7三行池化计算，输出Out_Map第3行像素值；3号池化器执行R7、R8、R9三行池化计算，输出Out_Map第4行像素值；5号池化器执行R9、R10、R11三行池化计算，输出Out_Map第5行像素值。

第3次卷积计算输出特征图的13行和5行随机数到对应的BlockRAM1、2、3、4、5、6，此时，卷积输出特征图尺寸map_size<R，因此无需缓存，使能1C号池化器。1C号池化器执行R11、R12、R13三行池化计算，输出Out_Map第6行像素值，完成本层输入图像的池化操作。在实际应用设计过程中，1B和1C号池化器可使用多路选择器和比较器组合成一个编号为1的3*3池化器。所以在实际计算过程中，池化步长s＝2时，使能编号为奇数的池化器。

经验证，当配置使用模式1时，先执行pooling操作缩小了特征图尺寸，可减少或者的ReLu操作计算量；当配置使用模式2时，先执行ReLu操作使得特征图数据值均修正到非零数集，pooling操作无需考虑输入像素值的符号位，减小了pooling计算的复杂度和比较器功耗。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，在技术方案基础上所做符合本申请发明构思的任何改动均落入本发明保护范围之内。

Claims

1.一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，包括：

模式配置器，从外部读取网络参数、特征图参数、计算模式和功能配置参数，根据读取的参数输出切换加速器工作状态的指令，

数据压缩编码/解码器，在收到模式配置器发送的网络参数、数据读写使能指令和地址配置信息后对从外部读取的特征图数据、权重数据、BN参数进行编码，在接收到BNRP计算器输出的计算结果时对计算结果进行解码，

BN参数缓存器，用于存储编码后的BN参数，

输入特征图缓存器，用于存储编码后的输入特征图数据，

权重参数缓存器，用于存储编码后的权重数据，

数据缓存器，用于存储模式配置器从外部读取的网络参数、特征图尺寸参数，在进入计算状态后从权重参数缓存器读取编码后的权重数据，

卷积计算器，在收到模式配置器发送的计算使能指令后，从数据缓存器读取网络参数、特征图参数、权重数据，从输入特征图缓存器和权重参数缓存器读取输入特征图数据和权重数据后进行卷积计算，

输出特征图缓存器，用于存储卷积计算器输出的卷积结果，及，

BNRP计算器，在收到模式配置器发送的计算模式和卷积计算器输出的卷积计算结束标志后，根据模式配置器发送的功能配置参数对卷积计算器输出的卷积结果执行先批量归一化后池化再非线性激活的计算模式或者先批量归一化后非线性激活再池化的计算模式。

2.根据权利要求1所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，所述BNRP计算器包括：

R*T个数据输入接口，接收卷积计算器T个卷积阵列输出的R行特征图，

BN操作模块，在模式配置器发送的功能配置参数包含批归一化操作指令时，从BN参数缓存器读取BN参数后对数据输入端口接收的数据进行批量归一化操作，

Relu操作模块，在模式配置器发送的计算模式为先批量归一化后池化再非线性激活时，对池化结果进行非线性激活，在模式配置器发送的计算模式为先批量归一化后非线性激活再池化时，对批量归一化后的数据进行非线性激活，及，

R*T个池化器，在模式配置器发送的计算模式为先批量归一化后池化再非线性激活时输出批量归一化数据的池化结果，在模式配置器发送的计算模式为先批量归一化后非线性激活再池化时输出非线性激活后的批量归一化数据的池化结果。

3.根据权利要求2所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，所述BNRP计算器还包括模式简化模块，在执行非线性激活操作前，模式选择器读取BNRP计算器数据输入接口接收的特征图数据以及BN权重参数和偏置参数，在不需要对特征图数据进行乘法运算和偏置加运算时将先批量归一化后池化再非线性激活这一计算模式下的批量归一化指令置零，或将先批量归一化后非线性激活再池化这一计算模式下的批量归一化操作指令及非线性激活指令置零。

4.根据权利要求3所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，所述模式简化模块包括三个分别判断特征图数据、BN权重参数和偏置参数与0大小关系的比较器，在同时满足特征数数据小于或等于0、BN权重参数大于或等于0、偏置参数小于或等于0这三个条件时，输出先批量归一化后池化再非线性激活这一计算模式中批量归一化指令为零的配置参数，或先批量归一化后非线性激活再池化这一计算模式中批量归一化操作指令及非线性激活指令均为零的配置参数。

5.根据权利要求2所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，当模式配置器发送的功能配置参数包含执行2*2最大池化指令时，所述R*T个池化器为R*T个2*2池化器，2*2池化器是由第一二选一比较器和第二二选一比较器组成的一个四选一比较器，每个时钟输入两个特征图数据到两个二选一比较器的输出端，四选一比较器每2个时钟输出一个2*2 pooling值，当池化步长为1时，保存第二二选一比较器的输出值作为下一个时钟第一二选一比较器的输出值；当模式配置器发送的功能配置参数包含执行2*2平均池化指令时，将最大池化模式的比较器配置成1/2除法器。

6.根据权利要求2所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，当模式配置器发送的功能配置参数包含执行3*3最大池化指令时，所述R*T个池化器为R*T个3*3池化器，3*3池化器是由第一三选一比较器、第二三选一比较器、第三三选一比较器组成的一个九选一比较器，每个时钟输入三个特征图数据到三个三选一比较器的输入端，九选一比较器每3个时钟输出一个3*3 pooling值，当池化步长为1时，保存第二三选一比较器的输出值作为下一个时钟第一三选一比较器的输出值，保存第三三选一比较器的输出值作为下一个时钟第二三选一比较器的输出值，当池化步长为2时，保存第三三选一比较器的输出值作为下一个时钟第一三选一比较器的输出值；当模式配置器发送的功能配置参数包含执行3*3平均池化指令时，将最大池化模式的比较器配置成1/3除法器。

7.根据权利要求1所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，所述模式配置器通过AHB总线从外部读取网络参数、特征图参数、计算模式和功能配置参数，所述网络参数包括网络层数和卷积核大小，特征图参数包括特征图尺寸参数和批次，计算模式为对卷积计算器输出的卷积结果执行先批量归一化后池化再非线性激活或者先批量归一化后非线性激活再池化，功能配置参数包括是否进行批量归一化操作、是否进行非线性激活操作、是否进行池化操作。

8.根据权利要求1所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，所述数据压缩编码/解码器通过AXI4总线从外部读取的特征图数据、权重数据、BN参数。

9.根据权利要求1所述一种基于BNRP的可配置并行通用卷积神经网络加速器，其特征在于，在输入特征图数据大于卷积计算器的阵列行数且需要执行池化操作时，将m行输入特征图数据交错缓存到2m块片上Block RAM。