CN112906887A

CN112906887A - 稀疏gru神经网络加速的实现方法和装置

Info

Publication number: CN112906887A
Application number: CN202110195253.9A
Authority: CN
Inventors: 龙湘蒙; 支小莉; 童维勤; 张庆杰
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-04
Anticipated expiration: 2041-02-20
Also published as: CN112906887B

Abstract

本发明提供了稀疏GRU神经网络加速的实现方法和装置，其中方法包括以下步骤：S1、使用CPU或GPU训练GRU神经网络模型，并对训练后的模型参数进行剪枝和量化；使用三元组方法存储稀疏的参数矩阵，并对模型的输入进行量化；S2、使用buffer将存储模型参数的三元组和量化后的输入传输至FPGA的外部存储器中；S3、在FPGA中实现稀疏GRU神经网络的计算，并将最终结果传输至所述外部存储器中。本稀疏GRU神经网络加速的实现方法和装置能够提高计算效率，减少了输入传输的时间和数据传输的次数，从而降低功耗和延时。

Description

稀疏GRU神经网络加速的实现方法和装置

技术领域

本发明涉及神经网络技术领域，尤其涉及稀疏GRU神经网络加速的实现方法和装置。

背景技术

近年来，深度学习的崛起不断推动着人工智能的发展。而深度神经网络作为深度学习的重要工具，其通过增加模型的层数和更多的训练数据量来保证模型的拟合能力，带来的是模型权重参数和计算量的爆炸式增长。为了提升神经网络的性能，常采用异构计算方案。目前大部分研究者都使用GPU来加速深度神经网络，图形处理器(GPU)被用于计算密集任务，具有高带宽、高并行性的特点，但其具有较高的功耗，一块高性能的GPU芯片的功耗可达300W以上。ASIC也是异构加速器的一种。ASIC是一种为专用目的设计、面向特定用户需求的定制芯片，具有性能更强、体积更小和可靠性更高等优点，广泛用于工业生产。但由于其属于定置电路，因此具有较低的灵活性，并不适合加速不断发展、更新的深度神经网络。FPGA(Field-Programmable Gate Array，现场可编程门阵列)属于专用集成电路中的一种，采用硬件的方式来实现逻辑和算法，可以针对需求设计多种计算部件来同时实现数据并行和流水线并行。

循环神经网络(RNN)是一种深学习应用常用网络。为解决循环神经网络带来的梯度爆炸问题，研究者提出了RNN的变体长短时记忆网络(LSTM)以及从LSTM改进的门控循环单元网络(GRU)。GRU通过简化LSTM循环单元的结构减少了计算所需的参数，从而提高了网络整体性能，被广泛应用于机器翻译、文本分类和文本生成等实际应用中。通常研究者使用GPU来加速GRU神经网络，但由于GRU神经网络具有时序依赖的特性，很难达到高度并行。现有的大多数FPGA神经网络加速器都是针对卷积神经网络或全连接神经网络而设计的，对GRU神经网络支持较少。同时大多数深度神经网络均具有参数多、计算量大的特点，如何利用资源有限的FPGA进行加速仍是难点。

发明内容

有鉴于此，本发明要解决的技术问题是提供稀疏GRU神经网络加速的实现方法和装置，能够基于FPGA实现稀疏GRU神经网络的加速。

本发明的技术方案是这样实现的：

一种稀疏GRU神经网络加速的实现方法，包括以下步骤：

S1、使用CPU或GPU训练GRU神经网络模型，并对训练后的模型参数进行剪枝和量化；使用三元组方法存储稀疏的参数矩阵，并对模型的输入进行量化；

S2、使用buffer将存储模型参数的三元组和量化后的输入传输至FPGA的外部存储器中；

S3、在FPGA中实现稀疏GRU神经网络的计算，并将最终结果传输至所述外部存储器中。

优选的，所述使用三元组方法存储稀疏的参数矩阵具体包括：

将参数矩阵分为n*m块，以块为单位进行排序；在进行稀疏矩阵压缩时，保持分块的顺序，序号靠前的块中的元素存储在序号靠后的块中的元素之前。

优选的，所述在FPGA中实现稀疏GRU神经网络的计算具体包括：

通过加速器实现稀疏GRU神经网络的计算，所述加速器包括输入读取模块、模型参数解码模块、上一时刻状态传递模块、计算模块和输出写回模块。

优选的，所述输入读写模块包括输入读写单元，用于从FPGA的外部存储器中读取GRU神经网络的输入；

所述模型参数解码模块包括重置更新门解码计算单元和候选值解码计算单元，用于将稀疏GRU网络的模型参数即三元组解码并向量化，依次发送给计算模块；

所述上一时刻状态传递模块包括状态传递单元，用于在初始时刻h₀生成初始状态值和在h_t时刻(t不为0)接收的上一时刻的状态值，对其向量化后发送给计算模块；

所述计算模块，包括当前状态值的计算，并将将最终状态值发送输出写回模块的输出写回单元；

所述输出写回模块，包括所述输出写回单元，用于获取最终时刻的输出并写回FPGA的外部存储器。

优选的，所述重置更新门解码计算单元解码重置门的权重和给更新门的权重，并将其向量化，依次发送给计算模块；在对上述参数进行向量化的过程中，将相同输入计算的重置门权重参数和更新门权重参数放置于同一结构体中；

候选值解码计算单元解码候选值的权重，并将其向量化，依次发送给计算模块。

优选的，所述重置更新门解码计算单元和候选值解码计算单元根据稀疏矩阵后的三元组进行解码；遍历权重矩阵结合当前三元组的行和列判断该非0元素是否存在当前矩阵中，若存在设为三元组的值，否则设为0；分块进行发送。

优选的，所述状态传递单元在初始时刻h₀生成全部值均为0的初始状态值，在h_t时刻(t不为0)接收由计算模块发送的上一时刻状态值，即h_t-1时刻计算出的状态值，对其向量化后发送给计算模块。

优选的，所述计算模块包括重置更新门计算单元、重置状态值计算单元、候选值计算单元和当前时刻计算单元，

所述重置更新门计算单元获取从输入读取模块发送的向量化输入数据、从模型参数解码模块发送来的重置更新门结构体数据和从上一时刻状态模块发送来的状态值，以流水线的方式进行重置门和更新门的计算，并通过激活函数非线性化，将重置门计算值和更新门计算值分别发送给重置状态值计算单元和当前时刻计算单元；

所述重置状态值计算单元获取重置门计算单元的重置门计算值和来自于上一时刻状态传递模块的上一时刻状态值，以流水线的方式依次进行计算重置后的上一时刻状态，并依次发送给候选值计算单元；

所述候选值计算单元获取从输入读取模块发送的向量化输入数据、从模型参数解码模块发送来的重置更新门结构体数据和从重置状态值计算单元发送的重置后的上一时刻状态值，以流水线的方式依次进行候选值计算和激活函数计算，得到候选值发送给当前时刻计算单元；

所述当前时刻计算单元获取更新门计算单元的更新值、重置状态值计算单元的重置状态值和候选值计算单元的候选值，进行当前时刻计算以得到当前状态值；如果当前时间不为最终时刻，将当前状态值通过channel发送给上一时刻状态传递模块的状态传递单元，启动下一时刻的计算；否则将最终状态值发送输出写回模块的输出写回单元。

本发明实施例还提出了一种稀疏GRU神经网络加速的实现装置，包括：

训练子装置，用于使用CPU或GPU训练GRU神经网络模型，并对训练后的模型参数进行剪枝和量化；使用三元组方法存储稀疏的参数矩阵，并对模型的输入进行量化；

传输子装置，用于使用buffer将存储模型参数的三元组和量化后的输入传输至FPGA的外部存储器中；

计算子装置，用于在FPGA中实现稀疏GRU神经网络的计算，并将最终结果传输至所述外部存储器中。

本发明提出的稀疏GRU神经网络加速的实现方法和装置，对GRU神经网络的权重进行剪枝和量化，对于量化和剪枝后的稀疏权重矩阵通过三元组的方法进行压缩存储。压缩GRU神经网络能减少权重参数所占用的内存，避免FPGA片上内存不足的情况出现。量化将权重参数从浮点数转换为定点小数，不仅减少了FPGA的内存消耗也减少了DSP的消耗；将神经网络模型参数存储于FPGA的存储器中，能够有效的减少主机端(CPU)和设备端(FPGA)数据传输的次数，从而减少延时，实现稀疏GRU神经网络的加速。

附图说明

图1为本发明实施例提出的稀疏GRU神经网络加速的实现方法流程图；

图2为本发明实施例提出的稀疏GRU神经网络加速的实现方法中三元组稀疏矩阵压缩示意图；

图3为本发明实施例提出的稀疏GRU神经网络加速的实现方法中矩阵方块以及序号图；

图4为本发明实施例提出的稀疏GRU神经网络加速的实现方法中GRU神经网络加速器架构图

图5为本发明实施例提出的稀疏GRU神经网络加速的实现装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提出了一种稀疏GRU神经网络加速的实现方法，包括以下步骤：

可见，本发明提出的稀疏GRU神经网络加速的实现方法，对GRU神经网络的权重进行剪枝和量化，对于量化和剪枝后的稀疏权重矩阵通过三元组的方法进行压缩存储。压缩GRU神经网络能减少权重参数所占用的内存，避免FPGA片上内存不足的情况出现。量化将权重参数从浮点数转换为定点小数，不仅减少了FPGA的内存消耗也减少了DSP的消耗；将神经网络模型参数存储于FPGA的存储器中，能够有效的减少主机端(CPU)和设备端(FPGA)数据传输的次数，从而减少延时，实现稀疏GRU神经网络的加速。

在本发明的一个优选实施例中，使用三元组方法存储稀疏的参数矩阵具体包括：

如图2所示，三元组方法存储稀疏的参数矩阵，即使用三个数组分别存储模型参数的行、列和值，最后对模型的输入进行量化。

由于在FPGA上计算是通过分块的方式计算。分块示意如图3所示，一个矩阵被分为n*m块，以块为单位进行排序。在进行稀疏矩阵压缩的时候，需要保持分块的顺序，即序号靠前的块中的元素一定存储在序号靠后的块中的元素之前。可减少在FPGA上进行解码时的延时。

在本发明的一个优选实施例中，所述在FPGA中实现稀疏GRU神经网络的计算具体包括：

在FPGA上实现稀疏GRU神经网络的推理过程，设计多个模块，通过kernel设计每个模块的一个或多个计算单元，各个计算单元并行启动，根据时序性依赖进行计算。通过channel实现kernel之间的数据传输，最后结果写回FPGA的外部存储器中。

设计加速器模块如图4所示，共有五个模块，分别是输入读取模块、模型参数解码模块、上一时刻状态传递模块、计算模块和输出写回模块。每个模块具有不同的功能。

在本发明的一个优选实施例中，所述输入读写模块包括输入读写单元，用于从FPGA的外部存储器中读取GRU神经网络的输入。

模型参数解码模块的功能是将稀疏GRU网络的模型参数即三元组解码并向量化，依次发送给下一计算单元。其包括两个计算单元：重置更新门解码计算单元和候选值解码计算单元。重置更新门解码计算单元解码重置门的权重和给更新门的权重，并将其向量化，依次发送给计算模块。在对上述参数进行向量化的过程中，将相同输入计算的重置门权重参数和更新门权重参数放置于同一结构体中。候选值解码计算单元解码候选值的权重，并将其向量化，依次发送给计算模块。

根据稀疏矩阵后的三元组进行解码。如图3所示的分块进行传输权重矩阵的时候，每个块在矩阵中有它的左上、左下、右上和右下四个顶点坐标，遍历权重矩阵结合当前三元组的行和列即可判断该非0元素是否存在当前矩阵中，若存在设为三元组的值，否则设为0。分块进行发送。

上一时刻状态传递模块的主要功能是在在初始时刻h₀生成初始状态值和在h_t时刻(t不为0)接收的上一时刻的状态值。上一时刻状态传递模块包括状态传递单元，其在初始时刻h₀生成全部值均为0的初始状态值，在h_t时刻(t不为0)接收由计算模块发送的上一时刻状态值，即h_t-1时刻计算出的状态值，对其向量化后发送给计算模块。

计算模块，包括当前状态值的计算，并将将最终状态值发送输出写回模块的输出写回单元；

计算模块包括多个计算单元：重置更新门计算单元、重置状态值计算单元、候选值计算单元和当前时刻计算单元。重置更新门计算单元获取从输入读取模块发送的向量化输入数据、从模型参数解码模块发送来的重置更新门结构体数据和从上一时刻状态模块发送来的状态值，以流水线的方式进行重置门和更新门的计算，并通过激活函数非线性化，将重置门计算值和更新门计算值分别发送给重置状态值计算单元和当前时刻计算单元。

重置状态值计算单元获取重置门计算单元的重置门计算值和来自于上一时刻状态传递模块的上一时刻状态值，以流水线的方式依次进行计算重置后的上一时刻状态，并依次发送给候选值计算单元。

候选值计算单元获取从输入读取模块发送的向量化输入数据、从模型参数解码模块发送来的重置更新门结构体数据和从重置状态值计算单元发送的重置后的上一时刻状态值，以流水线的方式依次进行候选值计算和激活函数计算，得到候选值发送给当前时刻计算单元；

当前时刻计算单元来自于更新门计算单元的更新值、重置状态值计算单元的重置状态值和候选值计算单元的候选值，进行当前时刻计算以得到当前状态值；如果当前时间不为最终时刻，将当前状态值通过channel发送给上一时刻状态传递模块的状态传递单元，启动下一时刻的计算。否则将最终状态值发送输出写回模块的输出写回单元。

输出写回模块的功能是获取最终时刻的输出并写回FPGA的外部存储器。输出写回模块包括最终输出单元，其获取当前时刻计算单元状态值，即最终时刻输出，并将其存储于FPGA的外部存储器中。

将最终输出从FPGA的外部存储器传输至主机端。

GRU计算过程如下：

r_t＝σ(W_r·[h_t-1，x_t]+b_r)

z_t＝σ(W_z·[h_t-1，x_t]+b_z)

支持多种机器学习平台的输入，如tensorflow、pytorch和caffe等。此方法实现了GRU神经网络的计算过程。

如图5所示，本发明实施例还提出了一种稀疏GRU神经网络加速的实现装置，包括：

训练子装置11，用于使用CPU或GPU训练GRU神经网络模型，并对训练后的模型参数进行剪枝和量化；使用三元组方法存储稀疏的参数矩阵，并对模型的输入进行量化；

传输子装置12，用于使用buffer将存储模型参数的三元组和量化后的输入传输至FPGA的外部存储器中；

计算子装置13，用于在FPGA中实现稀疏GRU神经网络的计算，并将最终结果传输至所述外部存储器中，并将最终结果从所述外部存储器传输至所述主机端。

本发明提出的稀疏GRU神经网络加速的实现方法和装置，由于FPGA资源(内存、DSP和逻辑单元等)有限，对GRU神经网络的权重进行剪枝和量化，对于量化和剪枝后的稀疏权重矩阵通过三元组的方法进行压缩存储。压缩GRU神经网络能减少权重参数所占用的内存，避免FPGA片上内存不足的情况出现。量化将权重参数从浮点数转换为定点小数，不仅减少了FPGA的内存消耗也减少了DSP的消耗。

将神经网络模型参数存储于FPGA的存储器中，能够有效的减少主机端(CPU)和设备端(FPGA)数据传输的次数，从而减少数据传输的延时；GRU神经网络大部分的时间都消耗于矩阵相乘、加法操作和数据传输，可通过循环展开和权重合并等操作提高并行程度，从而提高计算效率；通过将重置门和重置门的权重参数保存在同一结构体，只需要获得一次输入，减少了输入传输的时间，降低了延时；通过channel可将各计算单元的计算结果保存在FPGA内部，无需与外部存储器通信，通过减少数据传输的次数从而降低功耗和延时。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种稀疏GRU神经网络加速的实现方法，其特征在于，包括以下步骤：

2.如权利要求1所述的稀疏GRU神经网络加速的实现方法，其特征在于，所述使用三元组方法存储稀疏的参数矩阵具体包括：

3.如权利要求1所述的稀疏GRU神经网络加速的实现方法，其特征在于，

所述在FPGA中实现稀疏GRU神经网络的计算具体包括：

4.如权利要求3所述的稀疏GRU神经网络加速的实现方法，其特征在于，所述输入读写模块包括输入读写单元，用于从FPGA的外部存储器中读取GRU神经网络的输入；

5.如权利要求4所述的稀疏GRU神经网络加速的实现方法，其特征在于，所述重置更新门解码计算单元解码重置门的权重和给更新门的权重，并将其向量化，依次发送给计算模块；在对上述参数进行向量化的过程中，将相同输入计算的重置门权重参数和更新门权重参数放置于同一结构体中；

6.如权利要求5所述的稀疏GRU神经网络加速的实现方法，其特征在于，所述重置更新门解码计算单元和候选值解码计算单元根据稀疏矩阵后的三元组进行解码；遍历权重矩阵结合当前三元组的行和列判断该非0元素是否存在当前矩阵中，若存在设为三元组的值，否则设为0；分块进行发送。

7.如权利要求4所述的稀疏GRU神经网络加速的实现方法，其特征在于，所述状态传递单元在初始时刻h₀生成全部值均为0的初始状态值，在h_t时刻(t不为0)接收由计算模块发送的上一时刻状态值，即h_t-1时刻计算出的状态值，对其向量化后发送给计算模块。

8.如权利要求4所述的稀疏GRU神经网络加速的实现方法，其特征在于，所述计算模块包括重置更新门计算单元、重置状态值计算单元、候选值计算单元和当前时刻计算单元，

9.一种稀疏GRU神经网络加速的实现装置，其特征在于，包括：