CN107689948B

CN107689948B - 应用于神经网络硬件加速系统的高效数据访存管理装置

Info

Publication number: CN107689948B
Application number: CN201611105491.1A
Authority: CN
Inventors: 李於彬; 单羿
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2016-08-22
Filing date: 2016-12-05
Publication date: 2020-09-01
Anticipated expiration: 2036-12-05
Also published as: CN107689224A; CN107679617B; CN107689948A; CN107239825B; CN107239825A; CN107689224B; CN107679617A

Abstract

一种应用于神经网络硬件加速系统的数据访存管理装置，部署在存储器和计算单元之间传输数据，该装置包括：参数访存控制电路，从存储器中读取计算单元请求的参数，经过转换位宽后，输出至计算单元；向量访存控制电路，从存储器读取计算单元请求的向量，经过位宽转换后，输出至计算单元；计算结果数据控制电路，从计算单元读取计算结果，经过位宽转换后，输出至存储器；控制电路，控制所述参数访存控制电路、向量访存控制电路、计算结果数据控制电路与所述存储器、所述计算单元之间的交互。该装置可以高效地实现神经网络硬件加速系统的数据访存管理。

Description

应用于神经网络硬件加速系统的高效数据访存管理装置

本申请要求于2016年8月22日提交的美国专利申请No.15/242,622、于2016年8月22日提交的美国专利申请No.15/242,624的优先权。其全部内容在此参考并入。

发明领域

本发明装置涉及神经网络硬件加速系统，特别地，该装置应用于神经网络硬件加速系统中可实现高效的访存管理。

背景技术

人工神经网络

人工神经网络(Artificial Neural Networks,ANN)也简称为神经网络(NNs)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。近年来神经网络发展很快，被广泛应用于很多领域，包括图像识别、语音识别，自然语言处理，天气预报，基因表达，内容推送等等。

在近几年里，神经网络的规模不断增长，公开的比较先进的神经网络都有数亿个链接，属于计算和访存密集型应用。现有技术方案中通常是采用通用处理器(CPU)或者图形处理器(GPU)来实现。由于软件指令的顺序执行特性，上述实现方案不能更充分的挖掘网络中的并行潜力，计算速度受到限制；而且CPU和GPU的功耗也很大。

为了缓解(克服)上述困难，基于FPGA或ASIC的神经网络硬件加速系统最近也被提出。随着计算并行度的提升，数据访存的带宽需求越来越大。

图1示出了神经网络硬件加速系统的系统结构。如图1所示，包括：多个硬件计算核、一个数据访存控制装置、一个存储器、一个神经网络控制器。

稀疏神经网络的压缩编码

如前所述，对于稀疏矩阵的处理，为了减少内存，往往需要对矩阵进行压缩存储，比较经典的存储方法包括：行压缩(Compressed Row Storage CRS)和列压缩存储(Compressed Column Storage CCS)。

为了利用激励函数的稀疏性，可以将编码稀疏权重矩阵W存入压缩列存储(CCS)格式的变量中。

对于W矩阵每列W_j，我们存储一个包含非零权重的向量v，以及等长向量z，向量z用于编码v的相应条目之前零的个数，v和z各自由一个四位数值表示。如果超过15个零出现在一个非零的条目，在向量v中添加一个零。例如，以下列被编码为：

[0,0,1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3]

v＝[1,2,0,3],z＝[2,0,15,2]。

所有列的v和z的都存储在一对大阵列中，其中指针向量p指向每个列的向量的开始。p指针向量中的最后一项指向超过最后一个向量元素,这样p_j+1-p_j给出了第j列中的非零数(包括填补的零)。

通过压缩列存储格式(CCS format)中列存储稀疏矩阵，使得利用激励函数的稀疏性变得容易。只需要用每个非零激励与其相应列中的所有非零元素相乘。

美国专利US Patent 9317482“UNIVERSAL FPGA/ASIC MATRIX-VECTORMULTIPLICATION ARCHITECTURE”中更详细地披露了如何使用Compressed Sparse Row(CSR)在基于CPU和GPU的方案中，其中也采用Compressed Variable Length Bi t Vector(CVBV)format。

CVBV也是一种应用于神经网络的压缩方法。例如，该方法被如下美国专利提出：UNIVERSAL FPGA/ASIC MATRIX-VECTOR MULTIPLICATION ARCHITECTURE专利申请号：US13/651,464公开日：2014年4月17日，申请日：2012年10月14日。

专利摘要：通用单比特流FPGA库或ASIC可以实现矩阵向量乘法的加速，适用于稠密矩阵及多种形式的稀疏矩阵。该发明中，针对硬件优化的稀疏矩阵格式被称为压缩可变长位向量(CVBV,Compressed Variable Length Bit Vector)，该格式用来充分利用FPGA的优势，且与通常基于CPU或GPU的行压缩方法相比，该格式能减少矩阵所需存储空间及带宽要求。

该专利也提出了一类稀疏矩阵格式，这类格式与现有的格式比更适合于在FPGA上实现，其能减少存储空间和带宽的需求。该专利描述了分段CVBV格式的，以实现并行解码。

发明人之前的研究成果：采用EIE并行处理压缩神经网络

本发明的发明人之一曾经提出了一种高效的推理引擎(EIE)。详见EIE:EfficientInference Engine on Compressed Deep Neural Network，载于ISCA 2016。为了更好的理解本发明，在此简要介绍EIE的方案。

图2显示了一种高效的推理引擎(EIE),适用于用于机器学习应用的压缩深度神经网络模型，尤其是采用上述CCS或CRS格式存储的压缩DNN。

中央控制单元(CCU)控制PEs的阵列，每个PEs计算压缩网络中的一片(slice)。CCU从分布式前置零检测网络接收非零输入激励，并把它们广播给PEs。

上述方案中，几乎所有EIE中的计算对于PEs是局部的，除了向所有PEs广播的非零输入激励的集合。然而，激励集合和广播的时间并不是关键的，因多数PEs需要多种周期来完成每个输入激励的计算。

激励队列和负载平衡

输入激励向量a_j的非零元素和相应的指标索引j被CCU广播到每个PE中的激励队列。如果任何一个PE有一个完整的队列，广播失效。在任何时间，每个PE处理在其队列头部的激励。

激励队列：允许每个PE建立一个工作队列，以消除可能出现的过载不平衡。因为在一个给定列j中的非零的数量可能对于不同PE会有所不同。

指针读取单元：在激励队列头部的条目的索引j被用来查找开始和结束的指针P_j和P_j+1，对应于第j列的v和x阵列。为了允许在一个周期中读取两个指针且使用单口SRAM阵列，在两SRAM内存库中存储指针，使用地址的LSB在内存库之间进行选择。p_j，p_j+1总会在不同的内存库中。EIE指针的长度是16位。

稀疏矩阵读取单元：稀疏矩阵读取单元使用指针的p_j，p_j+1从稀疏矩阵SRAM读I_j列的该PE片(slice)的非零元素(如果有的话)。SRAM中的每个条目是8位长度，包含v的4位数据和x的4位数据。

为了效率，编码的稀疏矩阵I的PE的片(slice)被存储在64位宽的SRAM中。因此，每次从SRAM读取8条。当前指针p的高13位用于选择SRAM行，低3位选择该行中的八条之一。单个(v,x)条被提供给每个周期的算术单元。

运算单元：算术单元从稀疏矩阵读取单元接收(v，x)条，执行乘法累加操作b_x＝b_x+v×a_j。索引x是用来索引一个累加器阵列(目的地激励寄存器)，而v乘以在激励队列头部的激励值。因为v以4位编码形式存储，它首先通过查表(codebook)扩展成16位定点数。如果在两个相邻的周期上选择相同的累加器，则提供旁路通路，将加法器的输出导向其输入。

激励读/写：激励读/写单元包含两个激励寄存器文件，分别容纳一轮FC层计算期间的源激励值和目的地激励值。在下一层，源和目标寄存器文件交换它们的角色。因此，不需要额外的数据传输来支持多层前馈计算。

每个激励寄存器文件拥有64个16位激励。这足以容纳64PEs的4K激励向量。更长的激励向量可容纳在2KB的激励SRAM中。当激励向量大于4K长度时，M×V将分批次(batch)完成，其中每个批次的长度是4K或更少。所有本地减法是在寄存器完成，SRAM只在批次的开始时被读取、在结束时被写入。

分布式前置非零检测：输入激励分层次地分布于各个PE。为了利用输入向量稀疏性，我们使用前置非零检测逻辑来选择第一个正向(positive)的结果。每一组4PEs进行输入激励的局部前置非零检测。结果被发送到前置非零检测节点(lnzd节点)。4个lnzd节点找到下一个非零激励，并发送结果给lnzd节点树。这样的布线不会因为添加PEs而增加。在根lnzd节点，正向激励是通过放置在H树的单独导线被广播给所有PEs。

中央控制单元：中央控制单元(CCU)是根lnzd节点。它与主控器，如CPU通讯，通过设置控制寄存器来监控每个PE的状态。中央单元有两种模式：I/O和计算。

在I/O模式，所有的PEs闲置，每个PE的激励和权重可以通过与中央单元连接的DMA访问。

在计算模式，CCU会持续地从源激励存储库顺序收集和发送数值，直到输入长度溢出。通过设置指针阵列的输入长度和起始地址，EIE将被指示执行不同的层。

EIE等定制神经网络硬件加速系统带来性能提升的同时，也带来了挑战。定制该设计方案在计算单元(PE)数量增加时，位置向量(Pointer Vector)所占用的存储量也会线性增长。如果采用512个PE，EIE的设计就需要512*2＝1024存储单元；同时随着PE数量的增加，权值译码模块采用的存储表个数也线性增加，如采用512个PE也需要512个存储表。在定制芯片中上述两个问题随着PE量的增加都是很大的挑战。

本发明提出了一种应用于神经网络硬件加速系统的高效数据访存管理装置，可以更高效的为神经网络计算单元提供所需的各种参数和向量，并保存计算结果。

发明内容

本发明的目的在于提供一种应用于神经网络硬件加速系统的数据访存管理装置，为具有更高计算能力的计算单元更快的提供所需的数据，并保存计算结果。

为了实现发明目的，本发明提出一种应用于神经网络的数据访存管理装置，部署在存储器和计算单元之间传输数据，该装置包括：

参数访存控制电路，从存储器中读取计算单元请求的参数，经过转换位宽后，输出至计算单元；

向量访存控制电路，从存储器读取计算单元请求的向量，经过位宽转换后，输出至计算单元；

计算结果数据控制电路，从计算单元读取计算结果，经过位宽转换后，输出至存储器；

控制电路，控制所述参数访存控制电路、向量访存控制电路、计算结果数据控制电路与所述存储器、所述计算单元之间的交互。

作为对本发明的一种改进，所述参数访存控制电路进一步包括：

一个或多个参数缓存，用于缓存所接收的参数；

一个或多个位宽转换器，用于对所述参数进行位宽转换操作。

作为对本发明的另一种改进，所述参数访存控制电路中的位宽转换器的数量确定方法如下：m为计算单元的数量、n为每个计算单元一次计算需要的输入数据数量，d为计算的延时，则位宽转换器的数量＝[m×n÷d]，其中“[]”为向上取整运算。

作为对本发明的一种改进，所述向量访存控制电路进一步包括：

一个或多个向量缓存，用于缓存所接收的向量；

一个或多个位宽转换器，用于对所述向量进行位宽转换操作。

作为对本发明的另一种改进，所述向量访存控制电路中的位宽转换器的数量确定方法如下：m为计算单元的数量、n为每个计算单元一次计算需要的输入数据数量，d为计算的延时，则位宽转换器的数量＝[m×n÷d]，其中“[]”为向上取整运算。

作为对本发明的一种改进，所述计算结果数据控制电路进一步包括：

一个或多个结果数据缓存，用于缓存所接收的结果数据；

一个或多个位宽转换器，用于对所述结果数据进行位宽转换操作。

作为对本发明的另一种改进，所述计算结果控制电路中位宽转换器的数量确定方法如下：m为计算单元的数量、n为每个计算单元一次计算输出结果数据数量，d为计算的延时，则位宽转换器的数量＝[m×n÷d]，其中“[]”为向上取整运算。

作为对本发明的一种改进，所述位宽转换使用两个级联的512比特转64比特和64比特转16比特的异步FIFO实现。

作为对本发明的一种改进，所述参数至少包括所述神经网络的权重数据、偏置数据、对角阵数据。

附图说明

图1示出了一种神经网络硬件加速系统的系统结构。

图2示出了一种实现压缩神经网络的高效的硬件设计。

图3示出了根据本发明的一种数据访存管理装置的结构。

图4示出了根据本发明的一种参数访存控制电路和向量访存控制电路结构。

图5示出了根据本发明的一种计算结果数据控制电路的结构。

图6示出了根据本发明的一种实施例在基于FPGA开发的神经网络加速系统中部署情况。

图7示出了应用于图6系统中，根据本发明的一种向量访存控制电路的设计。

图8示出了应用于图6系统中，根据本发明的一种计算结果数据控制电路的设计。

具体实施方法

图3示出了该数据访存管理装置的结构。该装置从存储器中读取参数和向量输出到计算单元(PE)，从计算单元(PE)中读取计算结果输出到存储器中。

图3所示的装置包括：输入数据访存管理模块和输出数据数据访存管理模块。所述装置所述输入数据包括参数和向量，所述输出数据是计算结果数据。所述装置位于存储器与计算单元之间。

在神经网络硬件加速系统中，通常存储器的位宽相对较大。例如，现有技术多采用动态随机存储器(DDR)，数据读写位宽为512比特。而计算单元对一些数据所要求的位宽会比较小(例如16比特)。所以位宽转换操作的主要任务是将从存储器读取的大位宽数据分割成多个小位宽的数据发送，或是将小位宽的计算结果合并成一个大位宽的数据发送。

根据本发明的另一实施例，一种应用与神经网络硬件加速系统的数据访存管理装置，包括：参数访存控制电路，向量访存控制电路，计算结果访存管理模块以及控制电路。此外，所述控制电路负责控制数据流向，决定输入数据发送的目标计算单元，以及每个计算单元计算结果发送的目标位宽转换器。

图4进一步示出参数访存控制电路和向量访存控制电路。其中，虚线代表控制电路的控制信号，用于控制数据流向。

所述参数访存控制电路从存储器中读取计算单元请求的参数。所述读出的参数的位宽和存储器数据读写位宽一致，需要经过转换位宽后，输出至计算单元。

基于神经网络的类型和计算单元的要求不同，所述参数也可以不同。例如，可以是神经网络的权重数据(weight)、偏置数据(bias)、对角阵数据(diagonal matrix)。如果是压缩的神经网络，参数还包括指针数据(pointer)。

如图4所示，所述参数访存控制电路包括位宽转换器。位宽转换器将读取的参数进行位宽转换，目标位宽与计算单元要求一致。

所述向量访存控制电路从存储器读取计算单元请求的向量，所述向量的位宽和存储器数据读写位宽一致，需要经过位宽转换后，输出至计算单元。

如图4所示，所述向量访存控制电路包括位宽转换器。位宽转换器将读取的向量进行位宽转换，目标位宽与计算单元要求一致。

可选地，所述参数访存控制电路和向量访存控制电路中还包括相应的参数缓存和向量缓存。参数缓存和向量缓存连续性地从存储器读取参数或向量，再输出至位宽转换器中，提高计算结果的读取速度，避免再次产生计算结果时，上一次的结果还没有全部读出，被覆盖丢失。

可选地，位宽转换器的数量可以为多个。每一个位宽转换器负责若干计算单元，以此来进一步提高计算资源的利用率和计算单元的并行能力。位宽转换器的数量可以用如下方法确定：

假设计算单元的数量为m、每个计算单元一次计算需要的输入数据数量为n以及计算的延时(即两次计算之间的时钟数)为d，则位宽转换器的数量≥m×n÷d。

图5示出所述计算结果访存管理模块，包含计算结果数据控制电路。其中，虚线代表控制电路的控制信号，用于控制数据流向。

所述计算结果数据控制电路从计算单元读取计算结果，位宽和计算单元的要求一致，经过位宽转换后，输出至存储器。

所述计算结果数据控制电路包括位宽转换器，位宽转换器将读取的计算结果进行位宽转换，目标位宽与存储器读写位宽一致。

可选地，所述计算结果数据控制电路还包括结果数据缓存。结果数据缓存连续性地从计算单元中读取计算结果，再输出至存储器中，提高存储器利用效率。

假设计算单元的数量为m、每个计算单元一次计算输出的向量数量为n、以及计算的延时(即两次计算之间的时钟数)为d，则位宽转换器的数量≥m×n÷d。

实施例：

图6是符合本发明的一种实施例在基于FPGA开发的神经网络加速系统中部署情况。

图6的系统包含：PCIE总线、两个片外存储器DDR3_1和DDR3_2和两个相应的DDR3_1控制器和DDR3_2控制器、计算单元数据总线。

对于DDR1片外存储器，数据读写位宽为512比特。数据由CPU通过PCIE发送给FPGA，计算结果也通过PCIE返回给FPGA。

加速系统含有32个并行计算单元，需要的向量为16比特位宽，需要的偏置、对角阵数据位宽为16比特，指针和权重数据为512比特。

因此，在这个加速系统中，需要进行位宽转换的数据的是向量、偏置和对角阵数据。

在DDR3_1控制器和DDR3_2控制器中，分别包含：计算结果访存管理模块、输入数据访存管理模块、Buffer_Wr_DDR3、Buffer_Rd_DDR3。

图6所示各个模块之间的数据类型和流向以不同的箭头表示，其中包括：输入向量数据、指针数据、偏置&对角阵数据、权重数据和计算结果数据。

相应地，图6所示的输入数据访存管理模块进一步包括：向量访存控制电路和参数访存控制电路等。

图7进一步例示了图6系统中输入数据访存管理模块中的向量访存控制电路。

图7所示电路中，位宽转换器110、120、130、140负责将一个512比特的数据分割成32个16比特位宽的向量，并发送给计算单元。

具体而言，从图7所示存储器中依次读出线程0，线程1，线程2等所需要的向量，然后采用分布式存储的策略缓存到各个向量缓存150、160、170、180中，分别由对应的位宽转换器110、120、130、140并行处理，并发送给计算单元。

图7中，Xi表示线程i需要的向量。

图7所示的位宽转换器可以使用两个级联的512比特转64比特和64比特转16比特的异步FIFO实现。

图6的参数访存控制电路(未示出)与图7的向量访存控制电路相似。

图8是图6系统中的计算结果数据控制电路。

如图8所示，结果数据缓存250、260、270、280从计算单元中读取结果数据，并将其发送至对应的位宽转换器210、220、230、240，后者负责将计算单元一个线程输出的连续32个计算结果拼接成一个512比特存入存储器中。

图8中，位宽转换器250、260、270、280可以以使用32个16比特的寄存器阵列实现，每输入一个16比特，寄存器地址加1，每完成一次32个16比特的输入，向外输出一个512比特。

技术效果

基于上述技术方案可知，本发明提出的用于神经网络硬件加速系统的高效数据访存管理装置有以下优点：

1)避免数据访问过程成为神经网络计算中的瓶颈。主要通过并行的输入数据处理减少数据的准备时间；

2)避免计算结果较长时间占用计算单元中的片上存储。有益于克服计算暂停或结果丢失等问题，增加系统的稳定性；

多个线程共用一个位宽转换器，在满足计算带宽需求地同时可以减少片上存储资源的使用量，增加资源利用效率。

Claims

1.一种应用于神经网络硬件加速系统的数据访存管理装置，所述数据访存管理装置用于在存储器和计算单元之间传输数据，该装置包括：

参数访存控制电路，从存储器中读取计算单元请求的参数，经过位宽转换后，输出至计算单元，其中，读取的参数的位宽与存储器数据读写位宽一致，位宽转换的目标位宽与计算单元要求一致；

向量访存控制电路，从存储器读取计算单元请求的向量，经过位宽转换后，输出至计算单元，其中，读取的向量的位宽与存储器数据读写位宽一致，位宽转换的目标位宽与计算单元要求一致；

计算结果数据控制电路，从计算单元读取计算结果，经过位宽转换后，输出至存储器，其中，读取的计算结果的位宽与计算单元的要求一致，位宽转换的目标位宽与存储器数据读写位宽一致；

2.根据权利要求1的装置，其中所述参数访存控制电路进一步包括：

一个或多个参数缓存，用于缓存所接收的参数；

3.根据权利要求2的装置，

所述参数访存控制电路中的位宽转换器的数量确定方法如下：m为计算单元的数量、n为每个计算单元一次计算需要的输入数据数量，d为计算的延时，则位宽转换器的数量＝[m×n÷d]，其中“[]”为向上取整运算。

4.根据权利要求1的装置，其中所述向量访存控制电路进一步包括：

一个或多个向量缓存，用于缓存所接收的向量；

5.根据权利要求4的装置，

所述向量访存控制电路中的位宽转换器的数量确定方法如下：m为计算单元的数量、n为每个计算单元一次计算需要的输入数据数量，d为计算的延时，则位宽转换器的数量＝[m×n÷d]，其中“[]”为向上取整运算。

6.根据权利要求1的装置，其中所述计算结果数据控制电路进一步包括：

一个或多个结果数据缓存，用于缓存所接收的结果数据；

7.根据权利要求6的装置，

所述计算结果控制电路中位宽转换器的数量确定方法如下：m为计算单元的数量、n为每个计算单元一次计算输出结果数据数量，d为计算的延时，则位宽转换器的数量＝[m×n÷d]，其中“[]”为向上取整运算。

8.根据权利要求1的装置，所述位宽转换使用两个级联的512比特转64比特和64比特转16比特的异步FIFO实现。

9.根据权利要求1的装置，所述参数至少包括所述神经网络的权重数据、偏置数据、对角阵数据。