CN115660035B - 一种用于lstm网络的硬件加速器及lstm模型 - Google Patents

一种用于lstm网络的硬件加速器及lstm模型 Download PDF

Info

Publication number
CN115660035B
CN115660035B CN202211688789.5A CN202211688789A CN115660035B CN 115660035 B CN115660035 B CN 115660035B CN 202211688789 A CN202211688789 A CN 202211688789A CN 115660035 B CN115660035 B CN 115660035B
Authority
CN
China
Prior art keywords
weight
module
mvms
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211688789.5A
Other languages
English (en)
Other versions
CN115660035A (zh
Inventor
郝小龙
犹锋
刘宝升
李洪斌
刘超
彭启伟
刘金锁
仲启磊
余磊
程鼎
许能
韩斌
樊卫东
冯敏
吕进
胡启杨
马明宇
曹岑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Original Assignee
Nari Information and Communication Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Information and Communication Technology Co filed Critical Nari Information and Communication Technology Co
Priority to CN202211688789.5A priority Critical patent/CN115660035B/zh
Publication of CN115660035A publication Critical patent/CN115660035A/zh
Application granted granted Critical
Publication of CN115660035B publication Critical patent/CN115660035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于LSTM网络的硬件加速器及LSTM模型,硬件加速器包括:串并联转换模块:用于对输入信息和上一时间步的输出信息进行串并转换,将多个16位定点数转换为多维向量;Weight模块:用于存储权值和非零权值的位置索引;多路选择器:用于基于Weight模块中的非零权值的位置信息,对串并联转换模块输出的多维向量进行筛选;MVMs模块:用于对Weight模块的权值和多路选择器筛选的位置信息进行矩阵向量的乘法运算;点乘法单元:用于MVMs模块的输出进行激活函数和点乘运算。本发明极大的提高电网事故分析及事故后预评的效率,降低事故分析的时间。

Description

一种用于LSTM网络的硬件加速器及LSTM模型
技术领域
本发明涉及一种用于LSTM网络的硬件加速器及LSTM模型,属于计算机硬件加速技术领域。
背景技术
LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
电网事故分析及事故后预评系统由数据采集设备、数据服务器、专家分析系统以及用户应用组成。数据采集设备采集电网各类数据;数据服务器对采集的数据进行存储和处理,并通过专家分析系统采用创新设计跨专业的安全风险数据规范。提出基于LSTM的模型预测方法,建立事故评价指标体系及指标量化计算方法,深入分析各风险因素对电网事故、设备事故及人身事故的影响程度,并提出相应的相应处理意见汇总到处理知识库,然后用户应用可以在处理知识库中检索相关故障的处理方式以提高故障的处理效率,由于预测计算复杂且计算量大,电网事故分析及事故后预评的效率较低。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种用于LSTM网络的硬件加速器及用于电网事故分析及事故后预评的LSTM模型,能够极大的提高电网事故分析及事故后预评的效率,降低事故分析的时间。为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种用于LSTM网络的硬件加速器,包括:
串并联转换模块:用于对输入信息和上一时间步的输出信息进行串并转换,将多个16位定点数转换为多维向量;
Weight 模块:用于存储权值和非零权值的位置索引;
多路选择器:用于基于Weight 模块中的非零权值的位置信息,对串并联转换模块输出的多维向量进行筛选;
MVMs 模块:用于对Weight 模块的权值和多路选择器筛选的位置信息进行矩阵向量的乘法运算;
点乘法单元:用于MVMs 模块的输出进行激活函数和点乘运算。
结合第一方面,进一步地,还包括偏置模块,所述偏置模块用于存储偏置信息ifoc
结合第一方面,进一步地,所述MVMs 模块,包括
MVMs-G运算单元:用于进行门控单元组itft、ot参数矩阵和向量的乘法运算;
MVMs-C 运算单元:用于进行候选记忆细胞单元组C t 的权值矩阵和向量的乘法运算;
加法器:用于将MVMs-G运算单元、MVMs-C 运算单元的运算结果和从偏置模块中读取的偏置信息进行求和。
结合第一方面,进一步地,所述MVMs-G运算单元和MVMs-C 运算单元的平行度关系,通过下式表示:
(1)
其中,PL x PL h 表示输入信息𝑥𝑡和上一个时间步的输出信息h t-1的并行度,PL x G PL x C ,PL h G ,PL h C 分别表示MVMs-G 和MVMs-C 模块中的输入信息𝑥𝑡和上一个时间步的输出h 𝑡−1的并行度。
结合第一方面,进一步地,一个时钟周期内从Weight 模块中读取出的权值的数量为PL x +PL h ,所述Weight 模块的内存分配步骤为:
每个非零权值被量化为 4bits 定点数,每个非零权值用额外的 4bits 内存来存储其位置信息,则带宽需求𝐵𝑚的公式如下所示:
Bm=8 ∗ (PL x +PL h ) (2)
输入𝑥𝑡的维度为160,而输出ℎ𝑡的维度为1024,由于GBC 压缩算法中,门控单元组的压缩率为1/16,候选记忆细胞单元组的压缩率为4/16,则权值矩阵压缩后的非零权值的数量N为:
N=(1024 + 160) ∗1024 ∗4/Rop(3)
LSTM 网络的运算压缩率𝑅𝑜𝑝为64/7,存储器的深度需求D𝑚为:
Dm=⌈N ∗8/Bm ⌉(4)
在FPGA 中用BRAM 资源存储权值矩阵,而FPGA 所允许的最小单位0.5的BRAN 最大带宽为36bits,最大深度为210,最大内存为18Kb,则存储权值矩阵所需BRAM 的数量𝑁𝑢𝑚𝐵为:
NumB=⌈max(Bm/36bits,Dm/210bits, Bm Dm/18kb) /2⌉(5)。
结合第一方面,进一步地,所述多路选择器由多个MUX 单元组成,计算步骤为:
每16 个权值被划分为一组,每组门控单元的参数矩阵保留1 个非零权值,每组候选记忆细胞单元的参数矩阵保留4 个非零权值,第p组16 个输入信息(𝑥𝑝,0 ∼𝑥𝑝,15)中需要根据对应的一个遗忘门参数矩阵的非零权值信息(𝑖𝑝,0),通过 MUX 单元筛选出对应的位置的信息(𝑥-𝑖𝑝,0);
筛选出其他组门控单元和候选记忆细胞单元的非零权值对应的输入信息。
结合第一方面,进一步地,还包括:FIFO-C缓存单元,所述FIFO-C缓存单元与点乘法单元连接,存储候选记忆细胞单元组C t 的权值矩阵,传送到下一时间步中用于计算下个时间步的候选记忆细胞单元组的权值矩阵。
第二方面,本发明提供了一种用于电网事故分析及事故后预评的LSTM模型,包括第一方面所述的用于LSTM网络的硬件加速器。
与现有技术相比,本发明实施例所提供的一种用于LSTM网络的硬件加速器及用于电网事故分析及事故后预评的LSTM模型所达到的有益效果包括:
本发明一种用于LSTM网络的硬件加速器包括:串并联转换模块:用于对输入信息和上一时间步的输出信息进行串并转换,将多个16位定点数转换为多维向量;Weight 模块:用于存储权值和非零权值的位置索引;多路选择器:用于基于Weight 模块中的非零权值的位置信息,对串并联转换模块输出的多维向量进行筛选;MVMs 模块:用于对Weight 模块的权值和多路选择器筛选的位置信息进行矩阵向量的乘法运算;点乘法单元:用于MVMs模块的输出进行激活函数和点乘运算。本发明根据不同矩阵压缩率的设置,调整MVMs模块的并行度,对Weight 模块的内存分配进行优化,有利于提高硬件的运算效率,能够极大的提高电网事故分析及事故后预评的效率,降低事故分析的时间。
附图说明
图1是本发明实施例一提供的一种用于LSTM网络的硬件加速器的结构示意图;
图2是本发明实施例一提供的一种用于LSTM网络的硬件加速器的流水线架构示意图。
实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本发明实施例提供了一种用于LSTM网络的硬件加速器,包括:串并联转换模块、Weight 模块、多路选择器、MVMs 模块、点乘法单元、偏置模块、FIFO-C缓存单元。
如图1所示,串并联转换模块包括S-P-H 和 S-P-X,用于分别对输入信息𝑥𝑡和上一时间步的输出信息h 𝑡-1进行串并转换,将多个16位定点数转换为多维向量。图1中,h 𝑡表示当前时间步的输出信息,x 1 ~x T 表示实例化的输入信息,根据实际使用中输入信息的数量进行编号。
如图1所示,偏置模块用于存储偏置信息ifoc。MVMs 模块用于对Weight 模块的权值和多路选择器筛选的位置信息进行矩阵向量的乘法运算。MVMs 模块包括MVMs-G运算单元、MVMs-C 运算单元和加法器。MVMs-G运算单元:用于进行门控单元组itft、ot参数矩阵和向量的乘法运算。MVMs-C 运算单元:用于进行候选记忆细胞单元组C t 的权值矩阵和向量的乘法运算。加法器:用于将MVMs-G运算单元、MVMs-C 运算单元的运算结果和从偏置模块中读取的偏置信息进行求和。
由于候选记忆细胞组和门控单元组的压缩率不同,因此 MVMs-C和 MVMs-G 中执行乘法运算的次数不同,对平行度的匹配显得十分重要。门控单元组矩阵的压缩率为1/16,而候选记忆细胞单元组矩阵的压缩率为4/16,为了保证流水线架构的正常运行,MVMs-C中乘法器的数量应为 MVMs-G 的4倍,从而提高硬件效率,MVMs-G运算单元和MVMs-C 运算单元的平行度关系,通过下式表示:
(1)
其中,PL x PL h 表示输入信息x t 和上一个时间步的输出信息h t-1的并行度,PL x G PL x C ,PL h G ,PL h C 分别表示MVMs-G 和MVMs-C 模块中的输入信息𝑥𝑡和上一个时间步的输出h 𝑡−1的并行度。
Weight 模块用于存储权值和非零权值的位置索引,Weight 模块的内存带宽设计十分重要。
一个时钟周期内从Weight 模块中读取出的权值的数量为PL x +PL h ,所述Weight模块的内存分配步骤为:
每个非零权值被量化为 4bits 定点数,每个非零权值用额外的 4bits 内存来存储其位置信息,则带宽需求𝐵𝑚的公式如下所示:
Bm=8 ∗ (PL x +PL h ) (2)
输入𝑥𝑡的维度为160,而输出ℎ𝑡的维度为1024,由于GBC 压缩算法中,门控单元组的压缩率为1/16,候选记忆细胞单元组的压缩率为4/16,则权值矩阵压缩后的非零权值的数量N为:
N=(1024 + 160) ∗1024 ∗4/Rop(3)
LSTM 网络的运算压缩率𝑅𝑜𝑝为64/7,存储器的深度需求D𝑚为:
Dm=⌈N ∗8/Bm ⌉(4)
在FPGA 中用BRAM 资源存储权值矩阵,而FPGA 所允许的最小单位0.5的BRAN 最大带宽为36bits,最大深度为210,最大内存为18Kb,则存储权值矩阵所需BRAM 的数量𝑁𝑢𝑚𝐵为:
NumB=⌈max(Bm/36bits,Dm/210bits, Bm Dm/18kb) /2⌉(5)。
多路选择器用于基于Weight 模块中的非零权值的位置信息,对串并联转换模块输出的多维向量进行筛选。
点乘法单元用于MVMs 模块的输出进行激活函数和点乘运算。
如图2所示为流水线架构的示意图,包括:
首先,输入信息𝑥𝑡和上一个时间步的输出h 𝑡−1在 S-P-X和 S-P-H 模块中完成串并转换,将多个 16 位定点数转换位多维向量。图2中,h𝑡表示当前时间步的输出信息。
其次,从 Weight 模块中读取出非零权值的位置信息,串并转换模块输出的多维向量根据非零权值的位置信息在KMUX模块中啥选出对应位置的𝑥和h
这些选定的信息和相应的非零权值被送入MVMs 模块中进行乘加运算。
最后,在点乘法单元中完成激活函数和点乘运算。
计算出的记忆细胞𝑐𝑡和输出信息ℎ𝑡分别存储在 FIFO-C 缓存单元和 S-P-H,存储在FIFO-C 缓存单元和 S-P-H中的值将作为输入信息(𝑐𝑡-1h 𝑡−1)传送到下一个时间步中用于计算下个时间步的记忆细胞和输出的值。
多路选择器负责筛选出非零权值对应位置的输入信息。多路选择器由多个MUX单元组成,计算步骤为:
每16 个权值被划分为一组,每组门控单元的参数矩阵保留1 个非零权值,每组候选记忆细胞单元的参数矩阵保留4 个非零权值,第p组16 个输入信息(𝑥𝑝,0 ∼𝑥𝑝,15)中需要根据对应的一个遗忘门参数矩阵的非零权值信息(𝑖𝑝,0),通过 MUX 单元筛选出对应的位置的信息(𝑥-𝑖𝑝,0);筛选出其他组门控单元和候选记忆细胞单元的非零权值对应的输入信息。
多路选择器筛选后在信息在MVMs 模块进行乘加运算。𝑃𝐿𝑥和𝑃𝐿ℎ表示输入信息𝑥𝑡和上一个时间步的输出信息h𝑡−1的并行度(一个时钟周期内相关的乘法运算的次数), MVMs-C 模块和 MVMs-G 模块均采用这种结构。然而,由于门控单元组和候选记忆细胞单元组的压缩率不同,MVMs-G 和 MVMs-C 中的并行度也不同。
本实施例提出了一种用于LSTM网络的硬件加速器,根据不同矩阵压缩率的设置,调整矩阵向量乘法运算单元(MVM)的并行度,并提供合理的时序匹配等优化措施来提高硬件的运算效率。
实施例二:
本发明实施例提供了一种用于电网事故分析及事故后预评的LSTM模型,包括实施例一所述的用于LSTM网络的硬件加速器。
一种用于电网事故分析及事故后预评的LSTM模型的预测方法,建立事故评价指标体系及指标量化计算方法,深入分析各风险因素对电网事故、设备事故及人身事故的影响程度,并提出相应的相应处理意见汇总到处理知识库,然后用户应用可以在处理知识库中检索相关故障的处理方式以提高故障的处理效率。依托实施例一所提出的用于LSTM网络的硬件加速器,可以极大的提高电网事故分析及事故后预评的效率,降低事故分析的时间。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (3)

1.一种用于LSTM网络的硬件加速器,其特征在于,包括:
串并联转换模块:用于对输入信息和上一时间步的输出信息进行串并转换,将多个16位定点数转换为多维向量;
Weight模块:用于存储权值和非零权值的位置索引;
多路选择器:用于基于Weight模块中的非零权值的位置信息,对串并联转换模块输出的多维向量进行筛选;
MVMs模块:用于对Weight模块的权值和多路选择器筛选的位置信息进行矩阵向量的乘法运算;所述MVMs模块包括:
MVMs-G运算单元:用于进行门控单元组it、ft、ot参数矩阵和向量的乘法运算;
MVMs-C运算单元:用于进行候选记忆细胞单元组Ct的权值矩阵和向量的乘法运算;
加法器;用于将MVMs-G运算单元、MVMs-C运算单元的运算结果和从偏置模块中读取的偏置信息进行求和;
所述MVMs-G运算单元和MVMs-C运算单元的并行度关系,通过下式表示:
其中,PLx和PLh表示输入信息xt和上一个时间步的输出信息ht-1的并行度,PLx G,PLx C,PLh G,PLh C分别表示MVMs-G和MVMs-C模块中的输入信息xt和上一个时间步的输出ht-1的并行度;
点乘法单元:用于对MVMs模块的输出进行激活和点乘运算;
偏置模块,所述偏置模块用于存储偏置信息i、f、o、c;
一个时钟周期内从Weight模块中读取出的权值的数量为PLx+PLh,所述Weight模块的内存分配步骤为:
每个非零权值被量化为4bits定点数,每个非零权值用额外的4bits内存来存储其位置信息,则带宽需求Bm的公式如下所示:
Bm= 8 * (PLx+ PLh) (2)
输入xt的维度为160,而输出ht的维度为1024,由于GBC压缩算法中,门控单元组的压缩率为1/16,候选记忆细胞单元组的压缩率为4/16,则权值矩阵压缩后的非零权值的数量N为:
N= (1024 + 160) *1024 *4/Rop (3)
LSTM网络的运算压缩率Rop为64/7,存储器的深度需求Dm为:
在FPGA中用BRAM资源存储权值矩阵,而FPGA所允许的最小单位0.5的BRAN最大带宽为36bits,最大深度为210,最大内存为18Kb,则存储权值矩阵所需BRAM的数量NumB为:
2.根据权利要求1所述的用于LSTM网络的硬件加速器,其特征在于,所述多路选择器由多个MUX单元组成,计算步骤为:
每16个权值被划分为一组,每组门控单元的参数矩阵保留1个非零权值,每组候选记忆细胞单元的参数矩阵保留4个非零权值,第p组16个输入信息(xp,0~xp,15)中需要根据对应的一个遗忘门参数矩阵的非零权值信息(ip,0),通过MUX单元筛选出对应的位置的信息(x-ip,0);
筛选出其他组门控单元和候选记忆细胞单元的非零权值对应的输入信息。
3.根据权利要求1所述的用于LSTM网络的硬件加速器,其特征在于,还包括:FIFO-C缓存单元,所述FIFO-C缓存单元与点乘法单元连接,存储候选记忆细胞单元组Ct的权值矩阵,传送到下一时间步中用于计算下个时间步的候选记忆细胞单元组的权值矩阵。
CN202211688789.5A 2022-12-28 2022-12-28 一种用于lstm网络的硬件加速器及lstm模型 Active CN115660035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211688789.5A CN115660035B (zh) 2022-12-28 2022-12-28 一种用于lstm网络的硬件加速器及lstm模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211688789.5A CN115660035B (zh) 2022-12-28 2022-12-28 一种用于lstm网络的硬件加速器及lstm模型

Publications (2)

Publication Number Publication Date
CN115660035A CN115660035A (zh) 2023-01-31
CN115660035B true CN115660035B (zh) 2023-08-11

Family

ID=85023656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211688789.5A Active CN115660035B (zh) 2022-12-28 2022-12-28 一种用于lstm网络的硬件加速器及lstm模型

Country Status (1)

Country Link
CN (1) CN115660035B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446761A (zh) * 2018-03-23 2018-08-24 中国科学院计算技术研究所 一种神经网络加速器及数据处理方法
CN111723913A (zh) * 2020-06-19 2020-09-29 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备及可读存储介质
CN113191488A (zh) * 2021-04-30 2021-07-30 华中科技大学 一种面向lstm网络模型的硬件加速系统
CN113222133A (zh) * 2021-05-24 2021-08-06 南京航空航天大学 一种基于fpga的压缩lstm加速器及加速方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10698657B2 (en) * 2016-08-12 2020-06-30 Xilinx, Inc. Hardware accelerator for compressed RNN on FPGA
KR102555057B1 (ko) * 2018-05-09 2023-07-12 에스케이하이닉스 주식회사 웨이트 매트릭스를 포맷하는 방법, 포맷된 데이터를 사용하는 가속기 및 이를 포함하는 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446761A (zh) * 2018-03-23 2018-08-24 中国科学院计算技术研究所 一种神经网络加速器及数据处理方法
CN111723913A (zh) * 2020-06-19 2020-09-29 浪潮电子信息产业股份有限公司 一种数据处理方法、装置、设备及可读存储介质
CN113191488A (zh) * 2021-04-30 2021-07-30 华中科技大学 一种面向lstm网络模型的硬件加速系统
CN113222133A (zh) * 2021-05-24 2021-08-06 南京航空航天大学 一种基于fpga的压缩lstm加速器及加速方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LSTM神经网络模型权值及门控参数量化方法研究;李坤平;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》(第01期);第I140-94页 *

Also Published As

Publication number Publication date
CN115660035A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN108268947A (zh) 用于提高神经网络的处理速度的装置和方法及其应用
CN114218875A (zh) 一种用于流场预测的加速方法及装置
CN109165006B (zh) Softmax函数的设计优化及硬件实现方法及系统
CN101833691A (zh) 一种基于fpga的最小二乘支持向量机串行结构实现方法
CN113283587A (zh) 一种Winograd卷积运算加速方法及加速模块
CN114358216B (zh) 基于机器学习框架的量子聚类方法及相关装置
CN112685911A (zh) 一种材料计算框架、方法、系统及计算机设备
CN114266416A (zh) 基于相似日的光伏发电功率短期预测方法、装置及存储介质
CN108256644A (zh) 微处理器电路以及执行神经网络运算的方法
CN115660035B (zh) 一种用于lstm网络的硬件加速器及lstm模型
Wen et al. MapReduce-based BP neural network classification of aquaculture water quality
CN113918882A (zh) 可硬件实现的动态稀疏注意力机制的数据处理加速方法
CN113902109A (zh) 一种神经网络规则化位串行计算的压缩方法及装置
CN117273092A (zh) 一种模型量化方法、装置、电子设备及存储介质
Chen et al. A DNN optimization framework with unlabeled data for efficient and accurate reconfigurable hardware inference
CN114595627A (zh) 模型量化方法、装置、设备及存储介质
CN111476408B (zh) 一种电力通信设备状态预测方法及系统
CN114065923A (zh) 一种卷积神经网络的压缩方法、系统及加速装置
CN114742036A (zh) 一种预训练语言模型的组合式模型压缩方法及系统
CN110276448B (zh) 一种模型压缩方法及装置
CN113158134A (zh) 非侵入式负荷辨识模型的构建方法、装置和存储介质
CN113986194A (zh) 基于预处理的神经网络近似乘法器实现方法及装置
CN112783473A (zh) 一种使用单个DSP单元并行计算6个4Bit和3Bit整形数据乘法运算方法
CN111382860B (zh) 一种lstm网络的压缩加速方法及fpga加速器
CN116151340B (zh) 并行随机计算神经网络系统及其硬件压缩方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant