CN107704916B

CN107704916B - 一种基于fpga实现rnn神经网络的硬件加速器及方法

Info

Publication number: CN107704916B
Application number: CN201611107809.XA
Authority: CN
Inventors: 康君龙; 韩松; 单羿
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2016-08-12
Filing date: 2016-12-05
Publication date: 2020-07-03
Anticipated expiration: 2036-12-05
Also published as: CN107239829A; CN107704916A; US10621486B2; CN107729999B; US20180046894A1; CN107239829B; CN107729999A

Abstract

本发明提出一种实现循环神经网络(RNN)的方法，所述方法包括步骤：初始化步骤，完成数据的初始化，即，将计算W_hxx所需的数据读入FPGA片上内存，包括输入向量x，和输入向量x对应权重矩阵W_hx的所有信息；步骤1，计算单元开始计算W_hxx，同时将计算W_hhx所需的数据读入FPGA片上内存；步骤2，计算单元计算W_hhh_t‑1，其中h_t‑1是隐含层对上一个输入向量的激励值，同时将计算下一个W_hxx所需的数据读入FPGA片上内存；迭代重复执行上述步骤1和步骤2。本发明另外提出一种用于实现RNN神经网络的装置，包括输入接收单元，用于接收多个输入向量或隐含层激励值向量；多个计算单元PE，每个计算单元包括稀疏矩阵读取单元，运算单元和运算缓存单元；数据组合单元，用于接收从各个计算单元中的缓存单元输出的矩阵运算的结果，并将其组合成一个完整的矩阵运算结果输出至加法器；控制单元，用于对所述多个计算单元进行全局控制。

Description

一种基于FPGA实现RNN神经网络的硬件加速器及方法

本申请要求于2016年8月22日提交的美国专利申请No.15/242,622、于2016年8月22日提交的美国专利申请No.15/242,624、于2016年8月22日提交的美国专利申请15/242,625的优先权。

技术领域

本申请涉及人工智能领域，特别涉及一种基于FPGA实现RNN神经网络的硬件加速器及方法。

背景技术

RNN简介

循环神经网络(RNN)是一类人工神经网络，其中单元之间的连接形成有向循环。这创建了网络的内部状态，其允许其展现动态的时间行为。RNN可以通过具有循环隐藏状态来处理可变长度序列，其中每个时刻的激活依赖于先前时刻的激活。

传统地，标准RNN以如下方式计算下一步骤的隐藏层：

h_t＝f(W^(hh)h_t-1+W^(hx)x_t)

其中f是平滑的有界函数，例如逻辑S形函数(logistic sigmoid function)或双曲正切函数。W^(hh)是状态到状态的循环权重矩阵，W^(hx)是输入到隐藏权重矩阵。

输入序列是x＝(x₁，...，x_T)。我们可以将任意长度的序列的概率分解为：

p(x₁，...，x_T)＝p(x₁)p(x₂|x₁)p(x₃|x₁，x₂)...p(x_T|x₁，...，x_T-1)

然后，如图1所示，我们可以训练RNN来对该概率分布建立模型，给定隐藏状态h_t，使其预测下一个符号x_t+1的概率。其中h_t是所有先前符号x₁，x₂，...x_t的函数：

p(x_t+1|x₁，...，x_t)＝f(h_t)

隐藏层激活通过从t＝1到T和从n＝2到N重复以下等式来计算：

其中W项表示权重矩阵(例如W_ih ⁿ是将输入连接到第n个隐藏层的权重矩阵，W_h ¹ _h ¹是第一隐藏层的循环连接，等等)，b项表示偏置向量(例如b_y是输出偏置向量)，H是隐藏层函数。

给定隐藏序列，输出序列的计算如下：

其中Y是输出层函数。因此，完整网络定义了这样一个函数，由权重矩阵作为参数，从输入历史序列x(1：t)到输出向量y_t

图2示出了RNN的基本网络框架，其中上一次隐藏层的输出作为这一次隐藏层的输入，即当前层的输出仅和上一层的隐藏层、当前层的输入有关。

神经网络的压缩

近年来，神经网络的规模不断增长，公开的比较先进的神经网络都有数亿个连接，属于计算和访存密集型应用。现有方案这些算法通常是在通用处理器(CPU)或者图形处理器(GPU)上实现。随着晶体管电路逐渐接近极限，摩尔定律也受到了极大的挑战。在神经网络逐渐变大的情况下，模型压缩就变得极为重要。模型压缩将稠密神经网络变成稀疏神经网络，可以有效减少计算量、降低访存量。

CRS和CCS

如前所述，对于稀疏矩阵的处理，为了减少内存，往往需要对矩阵进行压缩存储，比较经典的存储方法包括：行压缩(Compressed Row Storage CRS)和列压缩存储(Compressed Column Storage CCS)。

为了利用激励函数的稀疏性，可以将编码稀疏权重矩阵W存入压缩列存储(CCS)格式的变量中。

对于W矩阵每列W_j，我们存储一个包含非零权重的向量v，以及等长向量z，向量z用于编码v的相应条目之前零的个数，v和z各自由一个四位数值表示。如果超过15个零出现在一个非零的条目，在向量v中添加一个零。例如，以下列被编码为：

[0,0,1,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3]

v＝[1,2,0,3],z＝[2,0,15,2]。

所有列的v和z的都存储在一对大阵列中，其中指针向量p指向每个列的向量的开始。p指针向量中的最后一项指向超过最后一个向量元素,这样p_j+1-p_j给出了第j列中的非零数(包括填补的零)。

通过压缩列存储格式(CCS format)中列存储稀疏矩阵，使得利用激励函数的稀疏性变得容易。只需要用每个非零激励与其相应列中的所有非零元素相乘。

美国专利US Patent 9317482“UNIVERSAL FPGA/ASIC MATRIX-VECTORMULTIPLICATION ARCHITECTURE”中更详细地披露了如何使用Compressed Sparse Row(CSR)在基于CPU和GPU的方案中，其中也采用Compressed Variable Length Bi t Vector(CVBV)format。

稀疏神经网络存储需要编码，计算之前需要解码。但是，现有通用处理器(例如GPU或CPU)并不能从稀疏化技术中获得较好的收益。已公开实验表明模型压缩率较低时，现有通用处理器的加速比有限。

因此，希望专有定制电路(例如FPGA)可以解决上述问题，以使得处理器在较低压缩率下获得更好的加速比。

本发明的目的之一是采用高并发流水线设计来设计专有定制电路，从而能够有效处理稀疏神经网络，从而获得更好的计算效率，更低的处理延时。

发明内容

为了实现发明目的，本发明提出一种实现循环神经网络(RNN)的方法，所述RNN神经网络的权重矩阵包括：W_hh，W_hh隐含层之间的权重矩阵，以及W_hx，W_hx是输入到隐含层权值矩阵，输入序列是x＝(x₁,x₂...,x_T)，所述方法包括步骤：初始化步骤：完成数据的初始化，即，将计算W_hxx所需的数据读入FPGA片上内存，包括输入向量x，和输入向量x对应权重矩阵W_hx的所有信息；步骤1，计算单元(PEs)开始计算W_hxx，同时将计算W_hhx所需的数据读入FPGA片上内存；步骤2，计算单元(PEs)计算W_hhh_t-1，其中h_t-1是隐含层对上一个输入向量的激励值，同时将计算下一个W_hxx所需的数据读入FPGA片上内存；迭代重复执行上述步骤1和步骤2。

此外，上述步骤1和步骤2还包括：在计算当前输入向量的矩阵向量乘法的同时，计算上一个输入向量的激励值和RNN网络输出。

另一方面，本发明提出一种用于实现RNN神经网络的装置，该装置包括：输入接收单元(ActQueue)，用于接收多个输入向量或隐含层激励值向量，并将多个其分配到多个计算单元；多个计算单元PE，每个计算单元包括：稀疏矩阵读取单元(PtrRead、SpmatRead)，用于读取所述神经网络的权重矩阵W，其中所述权重矩阵W被用于表示所述神经网络中的权重；运算单元(ALU)，用于执行所述神经网络矩阵运算中的乘法运算和加法运算；运算缓存单元(Act Buffer)，用于存储从运算单元(ALU)中输出的矩阵运算的中间结果以及最终计算结果，并将矩阵运算最终计算结果输出至数据组合单元；数据组合单元，用于接收从各个计算单元(PE)中的缓存单元(Act Buffer)输出的矩阵运算的结果，并将其组合成一个完整的矩阵运算结果输出至加法器；控制单元(controller)，用于对所述多个计算单元(PE)进行全局控制。

此外，上述装置还可以包括以下装置：函数模块(function)，连接到所述加法器，用于实现所述RNN神经网络中的激活函数。

此外，上述装置还可以包括以下装置：向量缓存单元(Buffer Group)，从函数模块接收所属RNN神经网络中的隐含层激励值向量，存储所述RNN神经网络中的隐含层的激励值向量和偏置等。

此外，上述装置还可以包括以下装置：加法树，针对数据组合单元输出的结果向量、向量缓存单元输出的矩阵运算结果向量和偏置向量，完成RNN神经网络算法中的向量累加操作。

此外，输入接收单元(ActQueue)还包括多个先进先出缓存(FIFO)单元，各个先进先出缓存(FIFO)单元与各个计算单元相对应。

此外，所述稀疏矩阵读取单元包括：位置单元，用于读取存储稀疏权重矩阵W中的各个非零权重值的位置信息；解码单元，用于编码权重矩阵进行解码，以获得稀疏矩阵中的非零权重值。

此外，所述运算单元(ALU)包括：多个乘法器，其中所述乘法器读取输入向量和权重值以进行对应的乘法计算；多个加法器，对所述乘法运算的结果进行加法计算。

此外，所述缓存单元还包括第一输出缓冲器和第二输出缓冲器，所述第一、第二输出缓冲器交替地接收并输出各个计算结果，其中在一个输出缓冲器接收当前计算结果时，另一个输出缓冲器输出前一个计算结果。

此外，所述向量缓存单元(Buffer Group)还包括多个子缓存单元，用于存储各个隐含层的计算结果h_t。

附图说明

通过下面说明书和所附的权利要求书并与附图结合，将会更加充分地清楚理解本发明内容的上述和其他特征。可以理解，这些附图仅描绘了本发明内容的若干实施方式，因此不应认为是对本发明内容范围的限定。通过采用附图，本发明内容将会得到更加明确和详细地说明。

图1显示了包含隐藏状态的神经网络的模型的例子。

图2显示了包含隐藏状态的RNN神经网络的模型例子。

图3显示了一种用于实现压缩神经网络的高效的硬件设计。

图4进一步显示了基于图3所示的硬件设计方案来把工作任务分配到多个计算单元。

图5显示了对应图4的某个计算单元(PE₀)的矩阵压缩(例如CCS)格式。

图6显示了图3的硬件设计方案中的解码器(weight decoder)部分，用于对编码的矩阵进行解码。

图7显示了根据本发明实施例的在一个信道的多个计算单元(PE)的布置。

图8显示了根据本发明的实施例的状态机的状态转移。

图9显示了矩阵稀疏性不平衡对计算资源利用的影响。

图10显示了根据本发明一个实施例的特定硬件设计来实施神经网络运算的例子。

具体实施方式

发明人之前的研究成果：采用EIE并行处理压缩神经网络

本发明的发明人之一曾经提出了一种高效的推理引擎(EIE)。为了更好的理解本发明，在此简要介绍EIE的方案。

图3显示了一种高效的推理引擎(EIE),适用于用于机器学习应用的压缩深度神经网络模型，尤其是采用上述CCS或CRS格式存储的压缩DNN。

中央控制单元(CCU)控制PEs的阵列，每个PEs计算压缩网络中的一片(slice)。CCU从分布式前置零检测网络接收非零输入激励，并把它们广播给PEs。

上述方案中，几乎所有EIE中的计算对于PEs是局部的，除了向所有PEs广播的非零输入激励的集合。然而，激励集合和广播的时间并不是关键的，因多数PEs需要多种周期来完成每个输入激励的计算。

激励队列和负载平衡

输入激励向量a_j的非零元素和相应的指标索引j被CCU广播到每个PE中的激励队列。如果任何一个PE有一个完整的队列，广播失效。在任何时间，每个PE处理在其队列头部的激励。

激励队列：允许每个PE建立一个工作队列，以消除可能出现的过载不平衡。因为在一个给定列j中的非零的数量可能对于不同PE会有所不同。

指针读取单元：在激励队列头部的条目的索引j被用来查找开始和结束的指针P_j和P_j+1，对应于第j列的v和x阵列。为了允许在一个周期中读取两个指针且使用单口SRAM阵列，在两SRAM内存库中存储指针，使用地址的LSB在内存库之间进行选择。p_j，p_j+1总会在不同的内存库中。EIE指针的长度是16位。

稀疏矩阵读取单元：稀疏矩阵读取单元使用指针的p_j，p_j+1从稀疏矩阵SRAM读I_j列的该PE片(slice)的非零元素(如果有的话)。SRAM中的每个条目是8位长度，包含v的4位数据和x的4位数据。

为了效率，编码的稀疏矩阵I的PE的片(slice)被存储在64位宽的SRAM中。因此，每次从SRAM读取8条。当前指针p的高13位用于选择SRAM行，低3位选择该行中的八条之一。单个(v,x)条被提供给每个周期的算术单元。

运算单元：算术单元从稀疏矩阵读取单元接收(v，x)条，执行乘法累加操作b_x＝b_x+v×a_j。索引x是用来索引一个累加器阵列(目的地激励寄存器)，而v乘以在激励队列头部的激励值。因为v以4位编码形式存储，它首先通过查表(codebook)扩展成16位定点数。如果在两个相邻的周期上选择相同的累加器，则提供旁路通路，将加法器的输出导向其输入。

激励读/写：激励读/写单元包含两个激励寄存器文件，分别容纳一轮FC层计算期间的源激励值和目的地激励值。在下一层，源和目标寄存器文件交换它们的角色。因此，不需要额外的数据传输来支持多层前馈计算。

每个激励寄存器文件拥有64个16位激励。这足以容纳64PEs的4K激励向量。更长的激励向量可容纳在2KB的激励SRAM中。当激励向量大于4K长度时，M×V将分批次(batch)完成，其中每个批次的长度是4K或更少。所有本地减法是在寄存器完成，SRAM只在批次的开始时被读取、在结束时被写入。

分布式前置非零检测：输入激励分层次地分布于各个PE。为了利用输入向量稀疏性，我们使用前置非零检测逻辑来选择第一个正向(positive)的结果。每一组4PEs进行输入激励的局部前置非零检测。结果被发送到前置非零检测节点(lnzd节点)，如图3所示。4个lnzd节点找到下一个非零激励，并发送结果给lnzd节点树。这样的布线不会因为添加PEs而增加。在根lnzd节点，正向激励是通过放置在H树的单独导线被广播给所有PEs。

中央控制单元：中央控制单元(CCU)是根lnzd节点。它与主控器，如CPU通讯，通过设置控制寄存器来监控每个PE的状态。中央单元有两种模式：I/O和计算。

在I/O模式，所有的PEs闲置，每个PE的激励和权重可以通过与中央单元连接的DMA访问。

在计算模式，CCU会持续地从源激励存储库顺序收集和发送数值，直到输入长度溢出。通过设置指针阵列的输入长度和起始地址，EIE将被指示执行不同的层。

图4显示了如何使用多个处理单元(PEs)，交织计算矩阵W的各个行，分配矩阵W和并行化矩阵向量计算。

对于N个PEs，PE_k拥有所有列W_i，输出激励b_i和输入激励a_i，因子i(mod N)＝k。PE_k中的列W_j的部分被存储为CCS格式，但计数的零仅指这个PE的列的子集的零。每个PE有自己的v，x和p阵列，v，x和p阵列用于编码其所计算的稀疏矩阵的一部分。

图4中，显示了矩阵W和向量a和b在4PEs交错。相同颜色的元素都存储在相同的PE里。

图4中，将输入激励向量a(长度为8)乘以一个16×8权重矩阵W产生一个输出激励向量b(长度为16)在n＝4的PEs上。a，b和W的元素根据他们的PE配置情况进行颜色编码。每一个PE拥有W的4行，a的2个元素，和b的4个元素。

通过扫描向量a以找到它的下一个非零值a_j，依据索引j向所有PEs广播a_j，进行稀疏矩阵×稀疏向量运算。每个PE再将a_j乘以在列Wj部分的非零元素，在累加器中累加各个部分和，以输出激励向量b中的每个元素。在CCS表示中，这些非零权重被连续存储，每个PE只需沿着其v阵列从位置p_j到p_j+1-1加载权重。为了寻址输出累加器，通过保持x阵列条目的运行总和，产生对应于每个权重W_ij的行数i。

在图4的例子中，第一个非零是PE₂上的a₂。a₂的值和其列索引2向所有PEs广播。每个PE将a₂乘以其列2部分中的每个非零值。PE₀将a₂乘以W_0,2和W_12,2；PE₁在列2中全为零，故不执行乘法；PE₂将a₂乘以W_2,2和W_14,2，等等。将每个点积的结果相加到相应的行累加器。例如，PE₀计算b₀＝b₀+W_0,2a₂和b₁₂＝b₁₂+W_12,2a₂。在每层的计算前，累加器被初始化为零。

交错(interleaved)CCS表示法有助于利用激励向量a的动态稀疏性，权重矩阵W的静态稀疏性。

通过仅广播输入激励a的非零元素，利用了输入激励的稀疏性。a中对应于零的列被完全跳过。交错(interleaved)CCS表示法允许每个PE迅速在每列找到非零并乘以a_j。这种组织方式也保持了所有的计算在本地PE，除了广播输入激励以外。

图4中的矩阵的交错CCS表示法如图5所示。

图5显示了对应图4的PE₀的相对索引的存储器布局、间接加权和交错的CCS格式。

相对行索引(relative row index)：当前非零权值与前一个非零权值之间的零元素的个数；

列位置(column pointer)：当前“列位置”与前一个“列位置”之差＝本列的非零权值的个数。

基于图5的编码方式来读取非零权值方式：

(1)读取2个连续的“列位置”，求差，该差值＝本列的非零权重的个数

(2)利用相对行索引，获得该列的非零权重的行位置，从而获得非零权重的行、列位置信息。

此外，图5所示的权重值是被进一步压缩后得到的虚拟权重(virtual weight)。

图6示出了根据EIE的硬件结构中的解码器(weight decoder)部分。

如图6所示，权重查找表(weight look-up)和索引(index Accum)对应于图3的权重解码器(weight decoder)。通过权重查找表和索引，解码器把虚拟权重(例如，4bit)解码为真实权重(例如，16bi t)。

这是因为压缩DNN模型具有稀疏性，以索引方式存储和编码。在对输入数据进行处理时，压缩DNN的编码权重被解码，通过权重查找表被转换为真实权重，再进行计算。

本发明提出的改进

如上文所述，现有技术方案中稠密RNN网络需要较大IO带宽、较多存储和计算资源。为了适应算法需求，模型压缩技术变得越来越流行。

模型压缩后的稀疏神经网络存储需要编码，计算需要解码。但是，现有通用处理器(例如GPU或CPU)并不能充分利用从稀疏化技术的优势。已公开实验表明模型压缩率较低时，现有通用处理器的加速比有限。

因此，本发明的目的在于提供一种稀疏神经网络(例如RNN)加速器的实现装置和方法，以便达到提高计算性能、降低响应延时的目的。

为了实现上述目的，本发明提出一种支持稀疏化RNN网络的定制电路，其针对稀疏化RNN网络的结构设计状态机，采用ping-pong缓存并行化流水线设计，有效平衡IO带宽和计算效率，实现较好的性能功耗比。

EIE实现对神经网络局部运算的加速，及对矩阵与向量间乘法的加速，本发明在此基础上实现了对整个RNN网络的运算的加速，除了矩阵和向量间乘法的运算外，还实现了加法树运算和激活函数运算。

图7示出了根据本发明实施例的硬件布局。其中图7示出在一个信道的多个计算单元(PE)的布置。

如图7所示，每个计算单元(PE)主要包括如下模块：

输入接收单元110：该模块用于接收并存储稀疏神经网络的输入向量，并把输入向量发送至运算单元140。

该模块还包含多个先进先出缓存(FIFO)，每个计算单元PE对应一个FIFO，从而在相同输入向量的情况下能够有效平衡多个计算单元之间计算量的差异。

多个计算单元PE可以共享输入向量。

FIFO深度的设置可以选取经验值，FIFO深度过大会造成浪费资源，过小又不能有效地平衡不同PE之间的计算差异。

位置单元(PtrRead模块)120：该模块用于读取并存储压缩后的稀疏神经网络的指针信息，并将指针信息输出至解码单元(SpmatRead)130。

例如，如果稀疏矩阵采用CCS存储格式，那么位置单元120存储列指针向量(即图5中的第3行)。其中，在输入接收单元110(ActQueue)头部的条目的索引j被用来查找开始和结束的列指针P_j和P_j+1。向量中的P_j+1-P_j值表示第j列中非零元素的个数。在本发明的一个实施例中，包括两个乒乓结构缓存(ping-pong buffer)。

解码单元(SpmatRead模块)130：该模块用于存储压缩后的稀疏神经网络的权重信息，并将其输出至运算单元(ALU模块)140。

在本发明的一个实施例中，权重信息包括相对索引值和权重值等(即图5中的前两行)。

在本发明的一个实施例中，信息的读取和处理也由两个乒乓结构缓存(ping-pongbuffer)并行处理。此外，该模块基于位置单元120输出的P_j+1和P_j值读取权重矩阵中对应的权重值，系统从指针P_j移动至P_j+1-1即可加载j列的权重值。

运算单元(ALU模块)140：该模块用于实现乘累加计算，其根据输入接收单元(ActQueue模块)110输出的数据和解码单元(SpmatRead模块)130输出的相对索引值以及权重值进行矩阵运算，并把运算结果输出至运算缓存单元(Act Buffer模块)150。

该模块主要进行以下两步计算：第一步，读取神经元的输入向量和权重值以进行对应的乘法计算；第二步，根据相对索引值读取运算缓存单元150(Act Buffer)中对应位置历史累加结果，再与第一步结果进行加法运算。

在本发明的另一种实施例中，为了提高并发度，在本发明的实施例中，该模块采用多个乘法和加法树来完成一列矩阵中的非零元素与向量元素的乘累加运算。如图7所示，运算单元140包括：4个乘法器，3个加法器。

运算缓存单元150：该模块用于存储从运算单元140中输出的矩阵运算的中间结果以及最终计算结果，并将矩阵运算最终计算结果输出至数据组合单元(Assemble模块)160。

在本发明的实施例中，为提高下一级的计算效率，运算缓存单元150的存储也采用乒乓结构缓存(ping-pong buffer)设计，进行流水线操作。

数据组合单元(Assemble模块)160：该模块用于接收从各个PE中运算缓存单元150输出的矩阵运算的结果，并将其组合成一个完整的运算结果输出至加法树180。

由于本发明的并行设计，每个PE都将矩阵中的部分列与输入向量进行乘累加运算，得到结果向量的一部分。数据组合单元160将这些部分组合成一个完整的结果向量。

向量缓存单元170：该模块针对RNN网络的运行特点，存储隐含层的计算结果和偏置等，加快后续运算。

如上所述，RNN网络隐藏层激活通过从t＝1到T和从n＝2到N重复以下等式来计算。

该模块由一组缓存组成，用于存储各个隐含层的计算结果h_t。

当输入接收单元110或加法树180需要h_t用于运算时，便可以从向量缓存单元170快速读取。

加法树(Adder Tree模块)180：该模块用于完成RNN网络算法中的向量累加操作。

例如，当所有PE共同完成稀疏矩阵与向量的运算后，该模块将多个权重(稀疏矩阵)与向量的结果进行累加(即完成以下公式的计算)，同时将累加后的结果输出给函数模块190。

函数模块190：该模块用于实现算法中的激活函数运算。

常见的激活函数包括sigmoid/tanh等。当加法树模块完成了各组权重与向量的叠加运算后，经该激活函数后可获得最终的计算结果。

控制单元模块200：该模块负责全局控制。

本发明设计RNN状态机，通过状态机的状态转移，实现RNN网络操作的高速流水运行。状态机的控制包括，控制指针向量的读取、控制输入向量与权值矩阵的信号同步、控制内部乒乓结构缓存(ping-pong buffer)的切换、控制运算单元的计算。

本发明的实施例中，定制电路的并行化流水线设计体现在对状态机的控制上，流水线设计可以有效地平衡IO带宽与计算性能。

图8示出了根据本发明的实施例的状态机的状态转移。

具体而言，在每个状态中包括数据读取和计算。

图8所示的状态机中，前三行操作是获取权重、指针、输入向量，以准备下一次计算。第四行中的操作是矩阵向量乘法，第五行中的操作是涉及求和和激活函数等的计算。水平方向上的操作必须被顺序执行，垂直方向上的操作同时执行。

根据本发明的一个实施例中，状态机包括三个状态。

在初始化状态中，完成数据的初始化，即，准备计算W_hxx所需的数据。其中，x为输入向量，W_hx包含向量对应权重矩阵的所有信息，例如，在采用CCS压缩时，包含指针信息、相对索引值和权重值等。

在状态1中，计算单元PEs开始计算W_hxx_t，同时从外部内存读取W_hh，。

在状态2中，PE计算W_hhh_t-1，同时从内存读取指针，下一个输入向量和W_hx。

如图8所示，状态1和状态2交替进行。

当一层对应的稀疏矩阵与向量的运算完成后，在计算下一层的矩阵运算(第4行)的同时，进行加法树和激活函数等运算(第5行)，从而达到高效流水的目的。

x的准备由输入接收单元110完成，W_hx的准备由位置单元120和解码单元130完成。

在本发明的一个实施例中,使用上述模块实现稀疏RNN网络加速器过程如下:

步骤1：初始化，依据全局控制信息(包括初始值等)，位置单元120读取RNN权值矩阵的位置信息；

步骤2：根据步骤1的位置信息解码单元130读取稀疏神经网络的位置索引、权重值；

步骤3：根据全局控制信息，把输入接收单元110输入向量广播给多个计算单元PE；

步骤4：运算单元140把解码单元130输出的权重值与输入接收单元110输出的输入向量对应元素做乘法计算，得到矩阵运算的中间结果，存储至运算缓存单元150中；

步骤5：运算单元模块140根据步骤3的位置索引值读取运算缓存单元150中相应位置的中间结果，然后将其与步骤4的乘法结果做加法计算；

步骤6：根据步骤2的索引值把步骤5的加法结果写入运算缓存单元150中；

步骤7：分别读取运算缓存单元150中和向量缓存单元170中存储的隐藏层数据输入给加法树模块180进行累加运算；

步骤8：步骤7中输出的结果经激活函数(Function)模块190后得到RNN的全部或部分计算结果，部分运算结果存储到向量缓存单元170中。

例子

接下来，以2个计算单元(Process Element,简称PE)PE0和PE1计算一个矩阵向量乘，采用列存储(ccs)为例，简要说明基于本发明的硬件进行相应运算的基本思路。

压缩后RNN中矩阵稀疏度并不平衡，这导致计算资源的利用率降低。

如图9所示，假设输入向量a包含6个元素{a0,a1,a2,a3,a4,a5}，权值矩阵包含8×6个元素。2个PE(PE0和PE1)负责计算a3×w[3]，这里a3是输入向量第4个元素，w[3]是权值矩阵的第4列。

从图9中可见，PE0和PE1的工作负载并不相同，PE0进行3次乘法运算，PE1只进行一次。

现有技术中，系统会使PE1完成a3的运算后处于等待状态，直至PE0完成3次加法运算后，再开始进行a4的运算。

本发明的实施例中，在输入接收单元110加入先入先出缓存(FIFO)，将输入向量a的一部分加载到FIFO中。

在本发明实施例中，PE1完成a3的运算后，会从FIFO中读取a4继续计算。这样的设计平衡了计算单元间元素稀疏度的差异，提高了计算资源的利用率。

参见图10，假设权值矩阵W和输入向量X如图10所示。奇数行元素由PE0完成，偶数行元素由PE1完成。输出向量的奇数元素由PE0计算所得，输出向量的偶数元素由PE1计算所得。输入向量X会被广播给两个计算单元PE0,PE1。

针对PE0中的操作如下：

表1为PE0对应的权重，相对索引位置和列位置信息。

权值	W00	W20	W41	W62	W43	W04	W24	W45	W26
										相对行索引	0	0	4	4	2	1	0	4	2
列位置	0	2	3	4	5	7	8	9	9

表1

位置单元120(pointer)：存储奇数行非零元素的列位置信息，其中P(j+1)-P(j)为第j列中非零元素的个数。

解码单元130：存储奇数行非零元素的权值和相对行索引。

输入接收单元110：存储输入向量x_t，该模块把输入向量广播给两个计算单元PEO和PE1，为了平衡计算单元间元素稀疏度的差异，每个计算单元的入口都添加先进先出缓存(FIFO)来提高计算效率。

解码单元130读取矩阵元素，例如W₀₀，将其输出至运算单元140，计算出W₀₀·X₀₀的结果存储在运算缓存单元150中。待本行计算完毕后，运算缓存单元150将中间结果(W₀₀·X₀₀和W₀₄·X₀₄)输出至运算单元140，计算出矩阵运算最终结果Y₀并输出。

数据组合单元160将PE0输出的Y₀，Y₂，Y₄，Y₆和PE1输出的Y₁，Y₃，Y₅，Y₇组合成完整的输出向量Y。

这时系统完成了一层隐藏层的运算。

将输出向量Y存至向量缓存单元170，待系统计算出其它隐含层计算结果后，加法树180计算出最终的结果并输出。

技术效果

基于上述技术方案可知，根据本发明的稀疏RNN网络加速器的实现装置和方法，通过计算单元采用高并发设计，达到了平衡计算、片上存储、逻辑资源之间的关系等目的，从而提高了计算性能、降低了响应延时。

本发明与发明人之一以前提出的EIE硬件结构相比较。

在EIE中，一个计算单元在一个周期仅能实现一个乘加计算，而一个计算单元前后的模块却需要较多的存储和逻辑单元。因此，无论是ASIC还是FPGA可编程芯片都会存在资源相对不均衡的问题。实现过程中，并发度越高，则需要的片上存储和逻辑资源相对越多，而芯片中需要的计算资源DSP与上述两者越不均衡。

另一方面，本发明提出的方案中，计算单元采用高并发设计，在增加了DSP资源的同时，没有使得其他的逻辑电路相应的增加，达到了平衡计算、片上存储、逻辑资源之间的关系等目的。

接下来，以现有的现场可编程门阵列FPGA芯片为例，简要说明本发明通过计算单元采用高并发设计，从而实现平衡芯片资源利用率的目的。

现有FPGA中，中端芯片含有30多万查找表LUT资源、60多万寄存器FF资源、一千多个片上RAM资源，两千多个计算资源(DSP)。

例如，对于矩阵乘向量运算(其中，矩阵为2048*1024，向量为1024)，采用32个计算单元PE，则需要32个位置单元(PtrRead模块)、32个解码单元(SpmatRead模块)，32个运算缓存单元(Act Buffer模块)以及32个乘累加器DSP。此时，LUT应用22％的资源、FF应用15％的资源、片上RAM应用20％的资源、而DSP仅应用1.5％资源。显然，整芯片的DSP资源应用不均衡。

然而，如果使用根据本发明的装置，在每个计算单元PE中采用10个DSP用于完成解码后数据的计算，那么整芯片DSP的资源利用率会达到15％，因此，芯片的资源应用相对均衡，同时计算耗时更短，运算更高效，这对于后续的更高并发度的版本升级也有较好的意义。

Claims

1.一种实现循环神经网络RNN的方法，所述RNN神经网络的权重矩阵包括：W_hh，W_hh隐含层之间的权重矩阵，以及W_hx，W_hx是输入到隐含层权值矩阵，输入序列是x＝(x₁,x₂...,x_T)，所述方法包括步骤：

初始化步骤：完成数据的初始化，即，将计算W_hxx所需的数据读入FPGA片上内存，包括输入向量x，和输入向量x对应权重矩阵W_hx的所有信息；

步骤1，计算单元开始计算W_hxx，同时将计算W_hhx所需的数据读入FPGA片上内存；

步骤2，计算单元计算W_hhh_t-1，其中h_t-1是隐含层对上一个输入向量的激励值，同时将计算下一个W_hxx所需的数据读入FPGA片上内存；

迭代重复执行上述步骤1和步骤2。

2.根据权利要求1所述的方法，其中步骤1和步骤2还包括：

在计算当前输入向量的矩阵向量乘法的同时，计算上一个输入向量的激励值和RNN网络输出。

3.根据权利要求1所述的方法，其中

所述初始化步骤、步骤1、步骤2是按照时钟顺序执行；

所述步骤1和步骤2被周期性地执行。

4.一种基于FPGA实现压缩后RNN神经网络的方法，包括以下步骤：

接收数据，从外部存储器将计算权值矩阵运算所需要的数据加载到FPGA片上存储器，所述数据包括输入向量，偏置向量，以及压缩后的权值矩阵数据；

解压数据，根据上述接收数据步骤读取的数据以及权值矩阵的压缩方法，利用FPGA片上处理器解压出权值矩阵原始数据，并存储至FPGA片上存储器；

矩阵运算，使用FPGA片上乘法器和加法器进行权值矩阵和向量的乘加运算，并把结果向量存储至FPGA片上存储器，所述向量包括输入向量以及隐含层的激励值向量；

向量加法运算，使用FPGA片上加法器进行向量加法运算，并将结果存储在FPGA片上存储器，所述向量包括上述矩阵运算的结果向量和偏置向量；

激活函数运算，对上述向量加法运算的结果进行激活函数运算，并将结果存储在FPGA片上存储器；

迭代上述接收数据、解压数据、矩阵运算、向量加法运算、激活函数运算步骤，算出RNN网络的激励值序列，再根据激励值序列利用FPGA片上乘法器和加法器进行矩阵运算和向量加法运算计算出RNN输出序列。

5.根据权利要求4所述方法，还包括：

在接收数据之后，将接收到权值矩阵数据分配给多个并行的矩阵运算单元进行计算，矩阵运算结束后，将各个矩阵运算单元的结果组合成完整的结果向量。

6.根据权利要求5所述方法，还包括：

在每个矩阵运算单元内部，使用FPGA片上多个乘法器和加法器同时进行乘法或加法运算。

7.根据权利要求4所述方法，所述接收数据、解压数据、矩阵运算步骤的至少一个是通过片上存储器的一对乒乓结构的缓存来实现。

8.一种用于实现RNN神经网络的装置，包括：

输入接收单元，用于接收多个输入向量或隐含层激励值向量，并将多个其分配到多个计算单元；

多个计算单元PE，每个计算单元包括：

稀疏矩阵读取单元，用于读取所述神经网络的权重矩阵W，其中所述权重矩阵W被用于表示所述神经网络中的权重；

运算单元，用于执行所述神经网络矩阵运算中的乘法运算和加法运算；

运算缓存单元，用于存储从运算单元中输出的矩阵运算的中间结果以及最终计算结果，并将矩阵运算最终计算结果输出至数据组合单元；

数据组合单元，用于接收从各个计算单元中的缓存单元输出的矩阵运算的结果，并将其组合成一个完整的矩阵运算结果输出至加法器；

控制单元，用于对所述多个计算单元进行全局控制；

函数模块，连接到加法树，用于实现所述RNN神经网络中的激活函数；

向量缓存单元，从函数模块接收所属RNN神经网络中的隐含层激励值向量，存储所述RNN神经网络中的隐含层的激励值向量和偏置；

加法树，针对数据组合单元输出的结果向量、向量缓存单元输出的矩阵运算结果向量和偏置向量，完成RNN神经网络算法中的向量累加操作。

9.根据权利要求8所述的装置，输入接收单元还包括：

多个先进先出缓存单元，各个先进先出缓存单元与各个计算单元相对应。

10.根据权利要求8所述的装置，其中所述稀疏矩阵读取单元包括：

位置单元，用于读取存储稀疏权重矩阵W中的各个非零权重值的位置信息；

解码单元，用于编码权重矩阵进行解码，以获得稀疏矩阵中的非零权重值。

11.根据权利要求8所述的装置，其中所述运算单元包括：

多个乘法器，其中所述乘法器读取输入向量和权重值以进行对应的乘法计算；

多个加法器，对所述乘法运算的结果进行加法计算。

12.根据权利要求8所述的装置，所述缓存单元还包括：

第一输出缓冲器和第二输出缓冲器，所述第一、第二输出缓冲器交替地接收并输出各个计算结果，其中在一个输出缓冲器接收当前计算结果时，另一个输出缓冲器输出前一个计算结果。

13.根据权利要求8所述的装置，所述向量缓存单元还包括：

多个子缓存单元，用于存储各个隐含层的计算结果h_t。