CN108446761A

CN108446761A - 一种神经网络加速器及数据处理方法

Info

Publication number: CN108446761A
Application number: CN201810244097.9A
Authority: CN
Inventors: 韩银和; 闵丰; 许浩博; 王颖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-08-24
Anticipated expiration: 2038-03-23
Also published as: CN108446761B

Abstract

本发明涉及一种神经网络加速器，包括存储单元，用于存储LSTM网络的神经元数据和权值数据并输出；向量乘累加矩阵单元，用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果；加法单元，用于从所述向量乘累加矩阵单元接收数据，并针对所述接收的数据执行偏移量加法操作；激活单元，用于从所述多功能运算单元和/或所述存储单元接收数据，并针对所述接收的数据执行激活操作并输出激活结果；向量平行乘累加单元，用于从所述激活单元和/或所述存储单元接收数据，并针对所述接收的数据执行乘法和累加操作。各模块通过端对端链接组成以权值行向量为单位与输入向量执行数据处理的流水线工作机制。

Description

一种神经网络加速器及数据处理方法

技术领域

本发明涉及计算领域，特别涉及一种面向LSTM的神经网络加速器及数据处理方法。

背景技术

神经网络是人工智能领域具有高发展水平的感知模型之一，一经出现就成为了学术界和工业界的研究热点，随着研究的不断深入，不同类型的神经网络被相继提出，例如，长短期记忆网络(LSTM,Long Short-Term Memory)。

LSTM网络是一种时间递归的循环神经网络，能够学习长期的依赖信息，常被用于学习语言翻译、机器人控制、图像分析等，其计算过程的主要占用部分为各门值向量乘累加运算与各层迭代运算过程，现有技术中在针对LSTM网络进行计算时，常会出现资源使用不均衡的情况，例如在进行有关串行关系的运算或以元素为单位进行数据处理时，会出现计算资源的闲置状态；而在以向量维度规模计算量时，其计算资源消耗又过大；这就导致了硬件资源利用率的降低。

因此，需要一种资源利用率高的适用于LSTM网络的神经网络加速器及数据处理方法。

发明内容

本发明提供一种面向LSTM的神经网络加速器，包括存储单元，用于存储LSTM网络的神经元数据和权值数据并输出；向量乘累加矩阵单元，用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果；加法单元，用于从所述向量乘累加矩阵单元接收数据，并针对所述接收的数据执行偏移量加法操作；激活单元，用于从所述多功能运算单元和/或所述存储单元接收数据，并针对所述接收的数据执行激活操作并输出激活结果；向量平行乘累加单元，用于从所述激活单元和/或所述存储单元接收数据，并针对所述接收的数据执行乘法和累加操作。

优选的，向量乘累加矩阵单元包括用于针对LSTM网络中的多个权值矩阵与输入的拼接向量执行乘累加运算的乘累加计算阵列。

优选的，所述乘累加阵列以所述权值矩阵行为单位执行所述权值矩阵与所述拼接向量的乘运算。

优选的，所述多个权值矩阵分别对应于LSTM网络的输入门、遗忘门、记忆门与输出门。

优选的，所述拼接向量由当前输入向量与上一级输出向量拼接构成。

优选的，所述权值矩阵的每行均包括针对所述输入向量的权值向量和针对所述上一级输出向量的权值向量。

优选的，所述存储单元包括用于存储输入数据的数据存储单元、用于暂存输入数据和中间计算结果的数据缓存单元、用于存储输入权值的权值存储单元以及用于暂存权值的权值缓存单元；其中，所述中间计算结果是LSTM网络的输出门向量与记忆门向量。

优选的，所述神经网络加速器还包括控制单元，用于控制所述存储单元、所述向量乘累加矩阵单元、所述激活单元、所述加法单元以及所述向量平行乘累加单元执行针对LSTM网络的运算。

根据本发明的一个方面，还一种利用如上所述的神经网络加速器进行数据处理的方法，包括以下步骤：

接收并处理LSTM网络的输入数据；

针对输入数据与权值矩阵执行流水线式运算；

将运算获得的记忆门向量存储并执行进一步运算；

将运算获得的最终输出向量存储并输出。

优选的，将所述存储的记忆门向量和所述最终输出向量作为下一层的输入数据执行运算。

相对于现有技术，本发明取得了如下有益技术效果：本发明提供的面向LSTM的神经网络加速器及数据处理方法，利用了LSTM网络中门值向量元素生成的独立性，将不同公式中的权值矩阵与输入向量之间的运算以行为单位进行了拆分，从而建立数据处理的流水线机制，实现了以较少的计算单元完成针对LSTM网络的运算，提升了神经网络加速器对LSTM网络神经元数据处理的硬件资源利用率以及处理效率。

附图说明

图1是本发明提供的神经网络加速器结构示意图。

图2是利用图1所示神经网络加速器进行计算的示意图。

图3是利用图1所示神经网络加速器进行数据处理的方法流程图。

图4是本发明提供的权值矩阵与拼接向量的乘法运算示意图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图，对本发明的实施例中提供的神经网络加速器及数据处理方法进一步详细说明。

在进行LSTM网络的计算时，主要是针对将信息从上一个单元传递到下一个单元的“单元状态(cell state)”的计算，LSTM网络会利用一种信息选择性通过的结构，即“门(gate)”，来控制对该“单元状态(cell state)”丢弃或者增加信息，以实现遗忘或记忆的功能。

已知LSTM模型的公式为：

I_t＝δ(W_xi·X_t+W_hi·H_(t-1)+b_it) 1.1

F_t＝δ(W_xf·X_t+W_hf·H_(t-1)+b_ft) 1.2

O_t＝δ(W_xo·X_t+W_ho·H_(t-1)+b_ot) 1.3

G_t＝h(W_xg·X_t+W_hg·H_(t-1)+b_gt) 1.4

C_t＝F_t×C_t-1+I_t×G_t 1.5

H_t＝O_t×h(C_t) 1.6

其中，“·”表示矩阵的乘法运算，，“×”表示向量的平行乘操作，，“δ”与“h”分别表示不同的激活函数，X_t为输入向量，H_t-1为上一级输出向量，C_t-1为上一级记忆门向量，I_t为输入门，F_t为遗忘门，C_t为记忆门，O_t为输出门，上述向量针对各门的对应权值分别为W_i、W_f、W_g和W_o，b为各门对应的偏移量，若输入向量的维度规定为n_i，其它向量的维度规定为n_o，则各权值矩阵的行数为n_o，列数为向量X_t与H_t-1位的维数之和。

发明人经研究发现，在LSTM网络计算过程中，由于向量与权值的乘累加过程与部分门值向量的运算存在串联关系，导致在进行有关串行关系的运算时，计算单元难以被完全利用；另外，在单次执行与向量维度对应的相关运算时，由于以向量维度规模进行计算的资源消耗较大，现有的采用以元素为单位进行数据处理时，其权值与向量对应的矩阵运算单元的闲置时间又将延长，为了解决上述问题，提高硬件资源利用率，发明人提出了一种能够同时针对多个LSTM的门计算公式进行计算的神经网络加速器及数据处理方法。

图1是本发明提供的神经网络加速器结构示意图，如图1所示，该神经网络加速器1包括控制单元11、存储单元12、向量乘累加矩阵单元13、激活单元14、加法单元15以及向量平行乘累加单元16。

存储单元12包括用于存储输入神经元数据的数据存储模块121、用于暂存输入数据或部分中间计算结果的数据缓存模块122、用于存储LSTM网络权值的权值存储模块123以及用于暂存LSTM权值的权值缓存模块124。其中，数据存储模块121与数据缓存模块122相连并可进行数据交互，可存储待处理的输入神经元数据，以及部分LSTM网络的中间运算结果(例如，输出门值O_t)；权值存储模块123与权值缓存模块124相连并可进行数据交互，可存储已训练完成的权值。

向量乘累加矩阵单元13包括乘累加计算阵列，可用于完成LSTM模型内部权值与输入向量之间的向量乘累加运算，在执行运算时，可将权值矩阵与输入向量的计算分解为以权值行为单位的向量乘累加运算，其获得的乘累加结果对应着所求门值向量的单个元素，从而使各门值向量单一元素之间的计算相互独立，同时针对多个门计算公式执行向量乘累加运算，形成流水线式的运算方法；

激活单元14包括多种激活函数功能模块，用于完成LSTM网络中各门值向量元素的激活操作；

加法单元15包括多个加法模块，用于完成偏移量的加法运算；

向量平行乘累加单元16包括乘法模块161和累加模块162，用于完成LSTM网络门值中的向量平行乘法运算及累加运算。

控制单元11可用于接收并分析神经网络参数，执行控制指令，控制完成数据传输以及模块调度等任务。

在本发明的一个实施例中，图2是利用图1所示神经网络加速器进行计算的示意图，如图2所示，在执行运算时，控制单元11控制数据存储模块121和权值存储模块123分别将神经元的输入数据和权值数据输出至数据缓存模块122和权值缓存模块124；进而控制上述数据以及数据缓存模块122中暂存的数据共同加载到向量乘累加矩阵单元13执行乘法运算和累加部分执行累加运算；待完成乘累加计算后，将获得的结果输入至加法单元15中进行偏移量加法运算，接着将获得的运算结果输入至激活单元14执行sigmoid激活或tanh激活操作，然后将获得的激活结果输出至向量平行乘累加单元16执行向量的平行乘累加操作，其中，在运算时获得的中间运算结果需要暂存的，可输入至数据缓存模块121；向量平行乘累加单元16运算完成后，将获得的最终结果输出或保存。

本发明还提供一种利用上述神经网络加速器进行数据处理的方法，图3是利用图1所示神经网络加速器进行数据处理的方法流程图，如图3所示，该方法具体包括以下步骤：

步骤S10、输入数据处理

LSTM网络的输入数据一般可包括输入向量X、上一级输出向量H以及上一级记忆门向量C，为了实现以权值矩阵行为单位进行任务划分，首先需要对输入数据中的输入向量X与上一级输出向量H进行拼接，用于执行上述LSTM公式1.1-1.4中的矩阵向量的乘累加操作。

假设输入向量X的维度为10，门值向量(例如遗忘门向量F、输入门向量I、记忆门向量C、最终输出门向量H、中间向量G)的维度均为20，则四个权值矩阵规模均为20×30，偏移量向量维度为20。

经过拼接，可获得拼接向量维度为30，为了同时针对公式1.1-1.4进行运算，可将上述拼接向量进行四分复制并传输到4行乘累加矩阵中，以并行完成公式1.1-1.4的向量运算任务。

步骤S20、执行运算

将四个门值所对应的权值与步骤S10获得的拼接向量分别输入向量乘累加矩阵单元、加法单元、激活单元以及向量平行乘累加单元执行运算，其中可包含多级流水线式运算过程，具体步骤如下：

S201、针对输入门权值W_i、遗忘门权值W_f、输出门权值W_o以及记忆门权值W_g，图4是本发明提供的权值矩阵与拼接向量的乘法运算示意图，如图4所示，此处各门的权值由两部分构成，即针对输入向量X的权值和针对上一级输出向量H的权值，在向量乘累加矩阵单元中按行载入上述获得的4个维度为30的拼接向量，分别执行公式1.1-1.4中所包含的矩阵向量乘累加操作，经计算获得中间运算结果；其中，图4中的每一拍表示的是所述向量乘累加矩阵单元完成一次向量乘累加运算所需时间。

S202、将上述获得中间运算结果按流水线方式，先输入加法单元执行偏移量加法，然后将获得的结果输入至激活单元分别执行sigmoid激活操作(针对公式1.1-1.3)与tanh激活操作(针对公式1.4)，从而进一步完成公式1.1-1.4的运算，并输出获得的输入门值向量I_t元素、遗忘门权值向量F_t元素、输出门权值向量O_t元素以及中间向量G_t元素；

S203、根据公式1.5，将上述激活单元输出的输入门值向量I_t元素、遗忘门权值向量F_t元素以及中间向量G_t元素输入至向量平行乘累加单元，同时载入上一级记忆门向量C_t-1中所对应的元素执行向量乘法和加法的运算，从而获得一个本层记忆门向量C_t元素用于进一步运算，同时，将上述获得的本层记忆门向量C_t元素复制一份传递至数据缓存单元以用于下一层数据的输入；

S204、根据公式1.6，将上述获得的本层记忆门向量C_t元素输入至激活单元，经tanh激活操作后与输出门权值向量O_t元素再次输入至向量平行乘累加单元执行乘法运算，从而获得一个本层最终输出向量H_t元素用于输出，同时，将上述获得的本层最终输出向量H_t元素复制一份传递至数据缓存单元以用于下一层数据的输入。

特别说明的是，由于上述运算方法是一种以权值行为单位的数据流水线式处理方法，其使各级之间实现的是数据端对端的传递，因此，步骤S201至步骤S204每一次执行时所获得的结果均为对应向量中的单一维度值，实际运算过程中，需经过执行从步骤S201至步骤S204的多次流水式运算。才能获得本层完整的记忆门向量C_t和最终输出向量H_t，

在本发明的一个实施例中，执行上述步骤S201的乘累加运算时，可采用树形的累加器进行运算。

在本发明的一个实施例中，执行上述步骤S201的乘累加运算中的按行载入时，其中每一次所能载入的行数可以根据实际运算量以及硬件资源的带宽进行调整，即根据向量乘累加矩阵单元的运算能力进行调整。

在本发明的一个实施例中，由于LSTM网络中部分公式的门值运算不同步，具体指上述步骤S202完成后获得的输出门值向量O_t元素，需等待步骤S203完成后才可共同用于执行步骤S204的运算，此时，可将先获得的输出门值向量O_t元素作为中间运算结果暂存入数据缓存单元，或者其它具有暂存功能的存储单元中，以便延续数据的流水线传递。

相对于现有技术，在本发明实施例中所提供的神经网络加速器及数据处理方法，采用流水线的数据处理机制，实现针对LSTM网络的端对端的数据处理方法，提高了资源利用率。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种神经网络加速器，包括

存储单元，用于存储LSTM网络的神经元数据和权值数据并输出；

向量乘累加矩阵单元，用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果；

加法单元，用于从所述向量乘累加矩阵单元接收数据，并针对所述接收的数据执行偏移量加法操作；

激活单元，用于从所述多功能运算单元和/或所述存储单元接收数据，并针对所述接收的数据执行激活操作并输出激活结果；

向量平行乘累加单元，用于从所述激活单元和/或所述存储单元接收数据，并针对所述接收的数据执行乘法和累加操作。

2.根据权利要求1所述的神经网络加速器，其特征在于，向量乘累加矩阵单元包括用于针对LSTM网络中的多个权值矩阵与拼接向量执行乘累加运算的乘累加计算阵列。

3.根据权利要求2所述的神经网络加速器，其特征在于，所述乘累加阵列以所述权值矩阵行为单位执行所述权值矩阵与所述拼接向量的乘运算。

4.根据权利要求3所述的神经网络加速器，其特征在于，所述多个权值矩阵分别对应于LSTM网络的输入门、遗忘门、记忆门与输出门。

5.根据权利要求3所述的神经网络加速器，其特征在于，所述拼接向量由当前输入向量与上一级输出向量拼接构成。

6.根据权利要求5所述的神经网络加速器，其特征在于，所述权值矩阵的每行均包括针对所述输入向量的权值向量和针对所述上一级输出向量的权值向量。

7.根据权利要求1所述的神经网络加速器，其特征在于，所述存储单元包括用于存储输入数据的数据存储单元、用于暂存输入数据和中间计算结果的数据缓存单元、用于存储输入权值的权值存储单元以及用于暂存权值的权值缓存单元；其中，所述中间计算结果是LSTM网络的输出门向量与记忆门向量。

8.根据权利要求7所述的神经网络加速器，其特征在于，所述神经网络加速器还包括控制单元，用于控制所述存储单元、所述向量乘累加矩阵单元、所述激活单元、所述加法单元以及所述向量平行乘累加单元执行针对LSTM网络的运算。

9.一种利用如权利要求1至8任一项所述的神经网络加速器进行数据处理的方法，包括以下步骤：

接收并处理LSTM网络的输入数据；

针对输入数据与权值矩阵执行流水线式运算；

将运算获得的记忆门向量存储并执行进一步运算；

将运算获得的最终输出向量存储并输出。

10.根据权利要求9所述的数据处理方法，其特征在于，将所述存储的记忆门向量和所述最终输出向量作为下一层的输入数据执行运算。