CN111723906A

CN111723906A - 一种循环神经网络的加速计算方法、系统及相关装置

Info

Publication number: CN111723906A
Application number: CN202010476888.1A
Authority: CN
Inventors: 董刚; 赵雅倩; 李仁刚; 杨宏斌; 刘海威; 蒋东东
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-29

Abstract

本申请提供一种循环神经网络的加速计算方法，包括：获取所述循环神经网络的参数矩阵乘式；对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵；将所述二维矩阵按照预设顺序输入至三维脉动阵列；根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。本申请大大缩短了大尺寸矩阵相乘的计算时间，缩减了计算所需的硬件资源。本申请还提供一种循环神经网络的加速计算系统、计算机可读存储介质和终端，具有上述有益效果。

Description

一种循环神经网络的加速计算方法、系统及相关装置

技术领域

本申请涉及深度学习领域，特别涉及一种循环神经网络的加速计算方法、系统及相关装置。

背景技术

循环神经网络(Recurrent Neural Network,简称RNN)是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。对循环神经网络的研究始于二十世纪80-90年代，并在二十一世纪初发展为深度学习算法之一，其中双向循环神经网络(Bidirectional RNN,Bi-RNN)、门控循环单元网络(Gated RecurrentUnit networks,GRU)和长短期记忆网络(Long Short-Term Memory networks，LSTM)是常见的循环神经网络。

在循环神经网络的计算过程中，其网络参数通常以矩阵形式存在，即运算过程涉及大量矩阵相乘运算，但一旦矩阵的行列数较长时，将极大的占用系统硬件资源，同时不利于深度学习算法运行，降低了深度学习效率。

因此，如何提高循环神经网络的计算效率是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种循环神经网络的加速计算方法、加速计算系统、计算机可读存储介质和终端，能够提高循环神经网络的计算效率。

为解决上述技术问题，本申请提供一种循环神经网络的加速计算方法，具体技术方案如下：

获取所述循环神经网络的参数矩阵乘式；

对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵；

将所述二维矩阵按照预设顺序输入至三维脉动阵列；

根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。

可选的，对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵包括：

利用预设计算单元分别对所述参数矩阵乘式中的乘数和被乘数分割，得到二维矩阵。

可选的，利用预设计算单元分别对所述参数矩阵乘式中的乘数和被乘数分割，得到二维矩阵包括：

利用预设计算单元对所述参数矩阵乘式中被乘数长度为M的行向量分割成

的二维矩阵；所述被乘数为N×M的矩阵；

利用预设计算单元对所述参数矩阵乘式中乘数长度为M的列向量分割成

的二维矩阵；所述乘数为M×N的矩阵；

其中，预设计算单元k为所述三维脉动阵列中每行或每列的计算单元数据。

可选的，根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果包括：

调用FPGA的寄存器转换级电路运行所述三维脉动阵列，计算得到所述参数矩阵乘式的输出结果。

可选的，所述三维脉动阵列的计算单元总数为k*k*N。

本申请还提供一种循环神经网络的加速计算系统，包括：

获取模块，用于获取所述循环神经网络的参数矩阵乘式；

矩阵向量乘模块，用于对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵；将所述二维矩阵按照预设顺序输入至三维脉动阵列；

计算模块，用于根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。

可选的，所述矩阵向量乘模块包括：

分割单元，用于利用预设计算单元分别对所述参数矩阵乘式中的乘数和被乘数分割，得到二维矩阵。

可选的，所述计算模块为用于调用FPGA的寄存器转换级电路运行所述三维脉动阵列，计算得到所述参数矩阵乘式的输出结果的模块。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种终端，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种循环神经网络的加速计算方法，包括：获取所述循环神经网络的参数矩阵乘式；对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵；将所述二维矩阵按照预设顺序输入至三维脉动阵列；根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。

本申请通过对参数矩阵乘式中的乘数和被乘数分别做分割，将一维向量转化为二维矩阵，避免了当参数矩阵乘式行列数较大时造成的计算困难，简化了计算过程。同时采用三维脉动阵列对各二维矩阵之间的相乘做并行处理，同步实现了多个向量相乘，大大缩短了大尺寸矩阵相乘的计算时间，缩减了计算所需的硬件资源。本申请还提供一种循环神经网络的加速计算系统、计算机可读存储介质和终端，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种循环神经网络的加速计算方法的流程图；

图2为本申请实施例所提供的参数矩阵乘式中被乘数按行分割示意图；

图3为本申请实施例所提供的参数矩阵乘式中乘数按列分割示意图；

图4为本申请实施例所提供的一种三维脉动阵列计算顺序示意图；

图5为本申请实施例所提供的一种循环神经网络的加速计算系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

RNN是一个序列到序列的模型，可以作这样的定义：

Xt:表示t时刻的输入，ot:表示t时刻的输出，St:表示t时刻的记忆。

RNN的基础为：

St＝f(U*Xt+W*St-1)

这里的f函数是神经网络中的激活函数，较为常见的为tanh，也可为其他函数。U、W为网络模型的参数，通常都采用矩阵形式。因此可以看到，在RNN的计算中输入序列(这里可以看成是向量)和参数矩阵的乘法是计算的主体。如何快速地完成矩阵和向量的乘法运算，是改善RNN速度性能的重要方法。由于向量可以看作为维度值为1的矩阵，因此下面以矩阵乘为代表，简单介绍具体的计算过程。

矩阵相乘只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有意义。一个m×n的矩阵就是m×n个数排成m行n列的一个数阵。

请参考图1，图1为本申请实施例所提供的一种循环神经网络的加速计算方法的流程图，该方法包括：

S101：获取所述循环神经网络的参数矩阵乘式；

S102：对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵；

本步骤旨在对参数矩阵乘式中的两个矩阵进行分割。需要注意的是，对于矩阵A乘矩阵B，这里的乘数指的是矩阵A，被乘数指矩阵B。由于矩阵相乘存在相乘顺序，因此本申请中采用乘数和被乘数加以区分。

可选的，在进行分割时，可以利用预设计算单元分别对所述参数矩阵乘式中的乘数和被乘数分割，得到二维矩阵。在此对于预设计算单元不做具体限定，当预设计算单元越大，所得到的二维矩阵越多，但各二维矩阵之间相乘时的计算量降低。因此，预设计算单元可以由本领域技术人员自行设定。同样的，预设计算单元还会对步骤S104中的三维脉动阵列产生相关影响，即预设计算单元k为所述三维脉动阵列中每行或每列的计算单元数据。

本步骤从矩阵乘法的定义出发，由于矩阵的相乘实际上是乘数的列与被乘数的行相乘，因此对于被乘数位置的矩阵N×M按行进行分割，将长度为M的行向量转化成

的二维矩阵，这里的

为向上取整符号，然后按行的顺序组合成三维矩阵，如图2所示，图2为本申请实施例所提供的参数矩阵乘式中被乘数按行分割示意图。

参见图3，图3为本申请实施例所提供的参数矩阵乘式中乘数按列分割示意图，将乘数位置的矩阵M×N按列进行分割，将长度为M的列向量转化成

的二维矩阵。根据矩阵乘法的运算规则，被乘数和乘数矩阵的尺寸必须对应相同，即被乘数的列数等于乘数的行数。预设计算单元k是计算乘法的脉动阵列每行/列的计算单元数目，脉动阵列的计算单元总数为k×k×N。这里对乘数的列数没有限制，因此，当乘数的列数为1的时候，乘数矩阵成为一个列向量，从而实现了矩阵和向量之间的乘法计算。

S103：将所述二维矩阵按照预设顺序输入至三维脉动阵列；

在得到二维矩阵后，需要进行二维矩阵之间的运算，而在运算时，可以利用三维脉动阵列计算。

参见图4，图4为本申请实施例所提供的一种三维脉动阵列计算顺序示意图，对三维脉动阵列进行计算的过程以k＝4，M＝32为例，进行了描述。如图4所示，被乘数矩阵中按行分割出来并转化为二维矩阵之后，从脉动阵列的一侧按图4下部数字方格所示的顺序输入，数字大小关系代表输入顺序。而乘数矩阵中按列分割并转化成二维矩阵，从脉动阵列的一侧按图4中右部数字方格所示的顺序输入，数字大小关系代表输入顺序，且输入顺序与二维矩阵的生成顺序相关，即同一组二维矩阵中，先生成先输入。由此可以看出，本实施例中采用的输入顺序为将每八个二维矩阵作为一组依次输入，每两组之间间隔一个时钟周期。每个时钟周期内从脉动阵列的两侧各输入一排方格，经过11个时钟周期后得到计算结果。如图4中上右部分的方框所示，8个数据组成一行，共有4行，但这4行不是同时输入到脉动阵列中，而是依次错开一个时钟周期。因此四排数据共需要8+3＝11个时钟周期才能完成输入并得到最后的计算结果。如图4中计算阵列中有斜格图案的位置处，即计算结果。计算阵列由N个k×k的计算子阵列组成三维脉动阵列，利用高并行度加速矩阵乘法的计算。

当然，容易理解的是，本领域技术人员还可以采用其他预设顺序，在此不一一举例限定，例如每组可以包含6个二维矩阵，或者每组之间间隔两个或多个时钟周期等。但需要注意的是，无论采用何种顺序输入二维矩阵，均应保证其计算数据未发生变化，

S104：根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。

本步骤旨在对三维脉动阵列进行计算，可选的，可以通过调用FPGA的寄存器转换级电路运行所述三维脉动阵列，计算得到所述参数矩阵乘式的输出结果。

本申请提出了一种矩阵向量乘的三维计算架构及实现方法。通过对矩阵及向量相乘计算过程的分析，提出了一种将大尺寸矩阵先分割再重排序然后进行脉动阵列计算的三维计算架构。目前对于矩阵乘计算的方法基本都是采用并行计算和流水线操作的方法。本申请采用了将矩阵按行或按列进行重排序，将其一维向量转化成二维子矩阵，然后采用三维脉动阵列架构并行处理，同步实现了多个向量相乘的操作。一方面缩减了计算所需的硬件资源，另一方面缩短了大尺寸矩阵相乘的计算时间。

下面对本申请实施例提供的一种循环神经网络的加速计算系统进行介绍，下文描述的加速计算系统与上文描述的加速计算方法可相互对应参照。

参见图5，图5为本申请实施例所提供的一种循环神经网络的加速计算系统结构示意图，本申请还提供一种循环神经网络的加速计算系统，包括：

获取模块100，用于获取所述循环神经网络的参数矩阵乘式；

矩阵向量乘模块200，用于对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵；将所述二维矩阵按照预设顺序输入至三维脉动阵列；

计算模块300，用于根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。

基于上述实施例，作为优选的实施例，所述矩阵向量乘模块200可以包括：

基于上述实施例，作为优选的实施例，所述计算模块300为用于调用FPGA的寄存器转换级电路运行所述三维脉动阵列，计算得到所述参数矩阵乘式的输出结果的模块。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种终端，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述终端还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种循环神经网络的加速计算方法，其特征在于，包括：

获取所述循环神经网络的参数矩阵乘式；

将所述二维矩阵按照预设顺序输入至三维脉动阵列；

根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果。

2.根据权利要求1所述的加速计算方法，其特征在于，对所述参数矩阵乘式中的乘数和被乘数进行分割，得到二维矩阵包括：

3.根据权利要求2所述的加速计算方法，其特征在于，利用预设计算单元分别对所述参数矩阵乘式中的乘数和被乘数分割，得到二维矩阵包括：

的二维矩阵；所述被乘数为N×M的矩阵；

的二维矩阵；所述乘数为M×N的矩阵；

4.根据权利要求1所述的加速计算方法，其特征在于，根据所述三维脉动阵列确定所述参数矩阵乘式的输出结果包括：

5.根据权利要求3所述的加速计算方法，其特征在于，所述三维脉动阵列的计算单元总数为k*k*N。

6.一种循环神经网络的加速计算系统，其特征在于，包括：

获取模块，用于获取所述循环神经网络的参数矩阵乘式；

7.根据权利要求6所述的加速计算系统，其特征在于，所述矩阵向量乘模块包括：

8.根据权利要求6所述的加速计算系统，其特征在于，所述计算模块为用于调用FPGA的寄存器转换级电路运行所述三维脉动阵列，计算得到所述参数矩阵乘式的输出结果的模块。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-5任一项所述的方法的步骤。