CN111680794A

CN111680794A - 一种基于fpga的文本生成装置、方法及电子设备

Info

Publication number: CN111680794A
Application number: CN202010520373.7A
Authority: CN
Inventors: 刘奇
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-09-18

Abstract

本发明涉及一种基于FPGA的文本生成装置、方法及电子设备。上述文本生成装置包括存储单元、数据读取单元、前向运算单元和反向传播单元；存储单元用于存储配套文件，配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件；数据读取单元用于读取存储在存储单元中的配套文件，以提供给前向运算单元和反向传播单元，基于前向运算单元和反向传播单元进行的前向运算和反向传播，实现文本生成的训练和测试。本发明的上述基于FPGA的文本生成装置、方法及电子设备，运算速度快、功耗低，能够应用于嵌入式系统。

Description

一种基于FPGA的文本生成装置、方法及电子设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于FPGA的文本生成装置、方法及电子设备。

背景技术

文本生成是自然语言处理(Natural Language Processing，NLP)技术研究的热点领域，传统的文本生成方法多是通过使用tensorflow、caffe等软件平台实现RNN、LSTM，再使用CPU或GPU完成神经网络的运算。

然而，上述传统的文本生成方法的运算速度慢、实时性差，而且限制了其应用场景的拓展。

因此，针对以上不足，需要提供一种速度快、功耗低、可以应用于嵌入式系统的文本生成器。

发明内容

本发明要解决的技术问题在于现有基于tensorflw、caffe等开源框架软件实现RNN的技术存在运算速度慢、功耗高、难以应用于嵌入式系统的问题，针对现有技术中的缺陷，提供一种基于FPGA的文本生成装置、方法及电子设备。

为了解决上述技术问题，本发明提供了一种基于FPGA的文本生成装置，所述文本生成装置包括存储单元、数据读取单元、前向运算单元和反向传播单元；其中，所述存储单元用于存储配套文件，所述配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件；所述数据读取单元用于读取存储在所述存储单元中的所述配套文件，以提供给所述前向运算单元和所述反向传播单元，基于所述前向运算单元和所述反向传播单元进行的前向运算和反向传播，实现文本生成的训练和测试。

进一步地，所述存储单元包括：寄存器模块，用于存储初始权值矩阵文件；ROM模块，用于存储所述训练数据集文件和所述测试数据集文件。

进一步地，所述前向运算单元采用流水线结构设计，用于实现矩阵的乘法、加法以及激活函数relu、softmax的运算，并将每一步运算的数据保存在所述寄存器模块中对应的寄存器中。

进一步地，所述反向传播单元采用流水线结构设计，用于实现矩阵的乘法、加法及减法，以将运算过程中的偏导数运算转换为矩阵的乘法、加法和减法运算。

本发明还提供了一种基于FPGA的文本生成方法，所述文本生成方法基于文本生成装置实现，所述文本生成装置包括存储单元、数据读取单元、前向运算单元和反向传播单元；所述文本生成方法包括：预先在所述存储单元中存储配套文件，所述配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件；通过所述数据读取单元读取存储在所述存储单元中的所述配套文件，以提供给所述前向运算单元和所述反向传播单元，基于所述前向运算单元和所述反向传播单元进行的前向运算和反向传播，实现文本生成的训练和测试。

进一步地，将所述初始权值矩阵文件存储在寄存器模块中，将所述训练数据集文件和所述测试数据集文件存储在ROM模块中。

进一步地，所述前向运算单元采用流水线结构设计，实现矩阵的乘法、加法以及激活函数relu、softmax的运算，并将每一步运算的数据保存在所述寄存器模块中对应的寄存器中。

进一步地，所述反向传播单元采用流水线结构设计，实现矩阵的乘法、加法及减法，以将运算过程中的偏导数运算转换为矩阵的乘法、加法和减法运算。

本发明还提供了一种电子设备，该电子设备包括如上所述的文本生成装置。

实施本发明的一种基于FPGA的文本生成装置、方法及电子设备，具有以下有益效果：实现了基于FPGA的RNN运算过程，通过设计适用于RNN的专用计算电路，显著提高了RNN的运算速度，降低了功耗，实现了基于FPGA的文本生成器，同时为文本生成应用于嵌入式系统提供了解决方案。

本发明实施例的基于FPGA的文本生成装置、方法及电子设备，相比于CPU极大地提升了运算速度，在使用同一数据集的前提下，相比基于tensorflow开发的RNN，通过测试发现训练时间缩短了约60倍。

此外，上述基于FPGA的文本生成装置、方法及电子设备，相比于采用GPU的方式，极大地降低了功耗，GPU的功耗通常在100W以上，本发明的功耗约为60mw。

此外，本发明的基于FPGA的文本生成装置、方法及电子设备，完成了文本生成功能，摆脱了需要依赖于tensorflow等开源框架通过软件开发RNN的现状，可以广泛应用于嵌入式系统中，拓展了文本生成功能的应用范围。

附图说明

图1是本发明实施例一的一种基于FPGA的文本生成装置的结构示意图；

图2是本发明实施例二的一种基于FPGA的文本生成装置中的存储单元的一种可能结构的示意图；

图3是本发明实施例三的一种基于FPGA的文本生成装置的示意图；

图4是本发明实施例五的一种基于FPGA的文本生成方法的流程图。

图中：1：存储单元；2：数据读取单元；3：前向运算单元；4：反向传播单元；110：寄存器模块；120：ROM模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例提供的一种基于FPGA的文本生成装置，文本生成装置包括存储单元1、数据读取单元2、前向运算单元3和反向传播单元4。

在上述文本生成装置中，存储单元1用于存储配套文件，配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件。

此外，如图1所示，数据读取单元2用于读取存储在存储单元1中的配套文件，以提供给前向运算单元3和反向传播单元4，作为训练和测试的数据来源，基于前向运算单元3和反向传播单元4进行的前向运算和反向传播，实现文本生成的训练和测试。

在RNN的运算过程中，需要用到初始权值矩阵、训练数据集和测试数据集，初始权值矩阵参与RNN的运算，训练数据集是训练过程的输入数据，测试数据集则用于训练结束后的的测试输入。

实施例二

如图2所示，本实施例二与实施例一基本相同，相同之处不再赘述，不同之处在于：存储单元1例如可以包括寄存器模块110和ROM模块120。

其中，寄存器模块110可用于存储初始权值矩阵文件，而ROM模块120可用于存储训练数据集文件和测试数据集文件。

实施例三

如图3所示，本实施例三与实施例一基本相同，相同之处不再赘述，不同之处在于：前向运算单元3可以采用流水线结构设计，用于实现矩阵的乘法、加法以及激活函数relu、softmax的运算，并将每一步运算的数据保存在寄存器模块110中对应的寄存器中；反向传播单元4也可采用流水线结构设计，用于实现矩阵的乘法、加法及减法，以将运算过程中的偏导数运算转换为矩阵的乘法、加法和减法运算。

寄存器模块110可以包括一个或多个寄存器，每个寄存器例如可以分别记为第一寄存器、第二寄存器等等，依此类推。这样，当设计多个运算步骤时，可以将每一步运算的数据分别保存在对应的寄存器中。

相比于传统的NN，RNN在结构上的相同点是分为三层：输入层、隐含层和输出层，不同点是RNN在隐含层存在反馈，将本时刻的隐含层状态作为反馈到输入层作为下一个时刻的输入，为了模拟RNN的这种特性，设计了如图1所示的基于FPGA的硬件架构。硬件架构分为存储、数据读取、前向运算、反向传播四个模块。存储模块中，训练数据集、测试数据集存放在ROM中，初始权值矩阵使用寄存器保存。数据读取模块中，读取ROM中的数据作为训练和测试的数据来源。训练过程中数据经过前向运算模块和反向传播模块获得训练后的权值矩阵。测试过程中数据经过前向运算模块获得测试结果。

由此，通过设计流水线结构，可以设计出专用的硬件电路，不需要编写软件代码即可完成RNN的训练和测试过程。

实施例四

本发明还提供了一种电子设备，该电子设备包括如上实施例一至三中任一所述的文本生成装置。

实施例五

本发明实施例还提供了一种基于FPGA的文本生成方法。

如图4所示，本发明的文本生成方法基于上文实施例一至三中所述的任一种文本生成装置实现，文本生成装置包括存储单元1、数据读取单元2、前向运算单元3和反向传播单元4。

在本发明的上述文本生成方法中，首先执行步骤S410，预先在存储单1元中存储配套文件，其中，配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件。

作为示例，在步骤S410中，例如可以将初始权值矩阵文件存储在寄存器模块中，将训练数据集文件和测试数据集文件存储在ROM模块中。

接着，在步骤S420中，通过数据读取单元2读取存储在存储单元1中的配套文件，以提供给前向运算单元3和反向传播单元4，基于前向运算单元3和反向传播单元4进行的前向运算和反向传播，实现文本生成的训练和测试。

作为示例，在步骤S420中，例如可以采用流水线结构设计实现前向运算单元3，从而实现矩阵的乘法、加法以及激活函数relu、softmax的运算，并将每一步运算的数据保存在寄存器模块中对应的寄存器中。

此外，作为示例，可以采用流水线结构设计实现反向传播单元4，从而实现矩阵的乘法、加法及减法，以将运算过程中的偏导数运算转换为矩阵的乘法、加法和减法运算。

综上，本发明实施例的上述基于FPGA的文本生成装置、方法及电子设备，其针对RNN设计了专用的FPGA硬件架构，测试过程中数据经过前向运算单元3获得测试结果。

目前，关于文本生成的研究应用是在PC机上完成的，通过tensorflow、caffe等开源框架进行编程实现RNN或LSTM，经过译码后在CPU或GPU上完成相关运算，然而CPU与GPU都存在着功耗高、神经网络训练时间过长的问题，而出现问题的主要原因是CPU与GPU不是针对RNN或LSTM设计的专用硬件电路，因此计算效率较低、功耗较高。

本发明的一种基于FPGA的文本生成方法，其通过编写配套文件、设计硬件架构和设计流水线结构，能够克服现有技术的不足。下面描述一个详细优选实施例。

首先描述对于配套文件的编写。配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件。初始权值矩阵文件保存在FPGA内部的寄存器中，便于计算过程中快速获取权值数据，训练数据集文件和测试数据集文件保存在基于FPGA设计的ROM中，分别用于RNN的训练和测试。

接着，描述硬件架构设计。硬件架构可以分为存储单元、数据读取单元、前向运算单元和反向传播单元。存储单元即保存着配套文件的寄存器和ROM。数据读取单元是一组寄存器，可以将存储单元中的数据读取到特定的寄存器中保存，后续运算过程中特定的寄存器参与运算。前向运算单元实现了矩阵的乘法、加法和激活函数relu、softmax运算，矩阵的乘法和加法可以转化为向量的运算，向量运算可以等效为寄存器之间的运算，针对激活函数relu和softmax的实现设计了专用的IP核，输入正确的数据即可获得激活函数的二进制运算结果。反向传播单元实现了矩阵的乘法、加法、减法，同时针对反向传播计算过程中出现的偏导数运算，通过数学推导的方式，等效为矩阵的乘法、加法和减法运算，避免了偏导数运算以及激活函数的导数运算。

然后，描述存储单元。FPGA内部拥有巨量的门电路和寄存器，可以构建一定容量的ROM作为存储单元。构建ROM的方式为IP核例化，根据存储文件的大小，可以构建合适容量的ROM。通过IP核例化的存储单元由于在FPGA内部，因此相比于FPGA外接ROM，读写速度更快，有效降低运算时间。

对于数据读取单元，FPGA内部的运算是基于寄存器实现的，因此在存储单元中保存的数据必须读取到寄存器中才能用于硬件运算，针对运算过程中需要的不同数据，设计不同的寄存器组，将数据依次保存在相应的寄存器组中，即完成了数据从存储单元到专用寄存器组的读取。

RNN的运算过程包括前向运算和反向传播，前向运算是根据输入结合当前的权值矩阵获得输出数据的过程，输出的数据参与反向传播从而完成一个完整的训练过程。前向运算过程中需要实现矩阵的乘法、加法以及激活函数relu、softmax运算，其中矩阵可以等效为多个向量，因此矩阵的运算可以等效为向量的运算，而向量可以等效为寄存器组，因此可以通过分解矩阵运算为寄存器运算的方式来实现矩阵运算。针对激活函数relu和softmax运算，设计了专用的IP核，输入数据即可获得二进制数据结果。

此外，在RNN的运算过程中，反向传播过程是完成训练任务的环节，前向计算过程的输出与期望输出获得误差，误差进行反向传播，求出误差总和后对权值矩阵进行更新，从而完成一次完整的训练过程。反向传播过程中需要实现矩阵的乘法、加法、减法以及误差的偏导数运算，其中矩阵的乘法、加法、减法运算可以等效为寄存器运算，而偏导数运算可以通过数学推导的方式进行简化，最终简化为矩阵的乘法、加法和减法运算。

值得一提的是，在本发明的实施例中，对于流水线结构的设计是基于CPU的软件实现方案、基于冯诺依曼架构而实现的，运算单元需要根据软件编译生成的二进制代码来执行相应的运算，同时需要给出地址信息才能读取到存储器中的数据，这种架构在执行RNN运算时，很多时间浪费在数据的读取、地址信息的获取上，运算效率低。FPGA因其独有的硬件电路可编程的特点，可以设计针对RNN的专用硬件电路，采用流水线结构，不需要编写程序即可实现RNN的训练过程，显著提高运算速度。

综上所述，在本发明的实施例中，设计了基于FPGA的文本生成装置和方法，编写了配套文件，包括初始权值矩阵文件、训练数据集文件和测试数据集文件，保存在FPGA内部存储单元中，在此基础上设计了基于FPGA的硬件架构，存储单元存储相应的数据，数据读取单元获取需要的数据，前向运算单元和反向传播单元共同实现RNN的训练和测试，流水线结构的设计不需要编写软件即可实现RNN的训练和测试，提高了文本生成装置和方法的运算速度。本发明实施例通过设计基于FPGA的文本生成装置和方法，摆脱了文本生成对PC的依赖，相比于PC显著提高了训练速度，同时降低了功耗，拓展了文本生成在嵌入式领域的应用。

由此，通过实施本发明的一种基于FPGA的文本生成装置、方法及电子设备，能基于FPGA的RNN运算过程，通过设计适用于RNN的专用计算电路，显著提高了RNN的运算速度，降低了功耗，实现了基于FPGA的文本生成器，同时为文本生成应用于嵌入式系统提供了解决方案。

该文本生成装置能够充分利用FPGA的运算速度优势，改善实时性，拓展应用场景。

此外，在本发明的实施例中还针对RNN设计了基于FPGA的流水线结构，无需程序即可实现RNN的训练和测试过程。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于FPGA的文本生成装置，其特征在于：所述文本生成装置包括存储单元、数据读取单元、前向运算单元和反向传播单元；

其中，所述存储单元用于存储配套文件，所述配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件；

所述数据读取单元用于读取存储在所述存储单元中的所述配套文件，以提供给所述前向运算单元和所述反向传播单元，基于所述前向运算单元和所述反向传播单元进行的前向运算和反向传播，实现文本生成的训练和测试。

2.根据权利要求1所述的文本生成装置，其特征在于，所述存储单元包括：寄存器模块，用于存储初始权值矩阵文件；ROM模块，用于存储所述训练数据集文件和所述测试数据集文件。

3.根据权利要求2所述的文本生成装置，其特征在于：所述前向运算单元采用流水线结构设计，用于实现矩阵的乘法、加法以及激活函数relu、softmax的运算，并将每一步运算的数据保存在所述寄存器模块中对应的寄存器中。

4.根据权利要求2或3所述的文本生成装置，其特征在于：所述反向传播单元采用流水线结构设计，用于实现矩阵的乘法、加法及减法，以将运算过程中的偏导数运算转换为矩阵的乘法、加法和减法运算。

5.一种基于FPGA的文本生成方法，其特征在于：所述文本生成方法基于文本生成装置实现，所述文本生成装置包括存储单元、数据读取单元、前向运算单元和反向传播单元；所述文本生成方法包括：

预先在所述存储单元中存储配套文件，所述配套文件包括初始权值矩阵文件、训练数据集文件和测试数据集文件；

通过所述数据读取单元读取存储在所述存储单元中的所述配套文件，以提供给所述前向运算单元和所述反向传播单元，基于所述前向运算单元和所述反向传播单元进行的前向运算和反向传播，实现文本生成的训练和测试。

6.根据权利要求5所述的文本生成方法，其特征在于：将所述初始权值矩阵文件存储在寄存器模块中，将所述训练数据集文件和所述测试数据集文件存储在ROM模块中。

7.根据权利要求6所述的文本生成方法，其特征在于：所述前向运算单元采用流水线结构设计，实现矩阵的乘法、加法以及激活函数relu、softmax的运算，并将每一步运算的数据保存在所述寄存器模块中对应的寄存器中。

8.根据权利要求6或7所述的文本生成方法，其特征在于：所述反向传播单元采用流水线结构设计，实现矩阵的乘法、加法及减法，以将运算过程中的偏导数运算转换为矩阵的乘法、加法和减法运算。

9.一种电子设备，其特征在于：包括如权利要求1-4中任一项所述的文本生成装置。