CN108446761A - 一种神经网络加速器及数据处理方法 - Google Patents
一种神经网络加速器及数据处理方法 Download PDFInfo
- Publication number
- CN108446761A CN108446761A CN201810244097.9A CN201810244097A CN108446761A CN 108446761 A CN108446761 A CN 108446761A CN 201810244097 A CN201810244097 A CN 201810244097A CN 108446761 A CN108446761 A CN 108446761A
- Authority
- CN
- China
- Prior art keywords
- vector
- data
- unit
- neural network
- network accelerator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种神经网络加速器,包括存储单元,用于存储LSTM网络的神经元数据和权值数据并输出;向量乘累加矩阵单元,用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果;加法单元,用于从所述向量乘累加矩阵单元接收数据,并针对所述接收的数据执行偏移量加法操作;激活单元,用于从所述多功能运算单元和/或所述存储单元接收数据,并针对所述接收的数据执行激活操作并输出激活结果;向量平行乘累加单元,用于从所述激活单元和/或所述存储单元接收数据,并针对所述接收的数据执行乘法和累加操作。各模块通过端对端链接组成以权值行向量为单位与输入向量执行数据处理的流水线工作机制。
Description
技术领域
本发明涉及计算领域,特别涉及一种面向LSTM的神经网络加速器及数据处理方法。
背景技术
神经网络是人工智能领域具有高发展水平的感知模型之一,一经出现就成为了学术界和工业界的研究热点,随着研究的不断深入,不同类型的神经网络被相继提出,例如,长短期记忆网络(LSTM,Long Short-Term Memory)。
LSTM网络是一种时间递归的循环神经网络,能够学习长期的依赖信息,常被用于学习语言翻译、机器人控制、图像分析等,其计算过程的主要占用部分为各门值向量乘累加运算与各层迭代运算过程,现有技术中在针对LSTM网络进行计算时,常会出现资源使用不均衡的情况,例如在进行有关串行关系的运算或以元素为单位进行数据处理时,会出现计算资源的闲置状态;而在以向量维度规模计算量时,其计算资源消耗又过大;这就导致了硬件资源利用率的降低。
因此,需要一种资源利用率高的适用于LSTM网络的神经网络加速器及数据处理方法。
发明内容
本发明提供一种面向LSTM的神经网络加速器,包括存储单元,用于存储LSTM网络的神经元数据和权值数据并输出;向量乘累加矩阵单元,用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果;加法单元,用于从所述向量乘累加矩阵单元接收数据,并针对所述接收的数据执行偏移量加法操作;激活单元,用于从所述多功能运算单元和/或所述存储单元接收数据,并针对所述接收的数据执行激活操作并输出激活结果;向量平行乘累加单元,用于从所述激活单元和/或所述存储单元接收数据,并针对所述接收的数据执行乘法和累加操作。
优选的,向量乘累加矩阵单元包括用于针对LSTM网络中的多个权值矩阵与输入的拼接向量执行乘累加运算的乘累加计算阵列。
优选的,所述乘累加阵列以所述权值矩阵行为单位执行所述权值矩阵与所述拼接向量的乘运算。
优选的,所述多个权值矩阵分别对应于LSTM网络的输入门、遗忘门、记忆门与输出门。
优选的,所述拼接向量由当前输入向量与上一级输出向量拼接构成。
优选的,所述权值矩阵的每行均包括针对所述输入向量的权值向量和针对所述上一级输出向量的权值向量。
优选的,所述存储单元包括用于存储输入数据的数据存储单元、用于暂存输入数据和中间计算结果的数据缓存单元、用于存储输入权值的权值存储单元以及用于暂存权值的权值缓存单元;其中,所述中间计算结果是LSTM网络的输出门向量与记忆门向量。
优选的,所述神经网络加速器还包括控制单元,用于控制所述存储单元、所述向量乘累加矩阵单元、所述激活单元、所述加法单元以及所述向量平行乘累加单元执行针对LSTM网络的运算。
根据本发明的一个方面,还一种利用如上所述的神经网络加速器进行数据处理的方法,包括以下步骤:
接收并处理LSTM网络的输入数据;
针对输入数据与权值矩阵执行流水线式运算;
将运算获得的记忆门向量存储并执行进一步运算;
将运算获得的最终输出向量存储并输出。
优选的,将所述存储的记忆门向量和所述最终输出向量作为下一层的输入数据执行运算。
相对于现有技术,本发明取得了如下有益技术效果:本发明提供的面向LSTM的神经网络加速器及数据处理方法,利用了LSTM网络中门值向量元素生成的独立性,将不同公式中的权值矩阵与输入向量之间的运算以行为单位进行了拆分,从而建立数据处理的流水线机制,实现了以较少的计算单元完成针对LSTM网络的运算,提升了神经网络加速器对LSTM网络神经元数据处理的硬件资源利用率以及处理效率。
附图说明
图1是本发明提供的神经网络加速器结构示意图。
图2是利用图1所示神经网络加速器进行计算的示意图。
图3是利用图1所示神经网络加速器进行数据处理的方法流程图。
图4是本发明提供的权值矩阵与拼接向量的乘法运算示意图。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图,对本发明的实施例中提供的神经网络加速器及数据处理方法进一步详细说明。
在进行LSTM网络的计算时,主要是针对将信息从上一个单元传递到下一个单元的“单元状态(cell state)”的计算,LSTM网络会利用一种信息选择性通过的结构,即“门(gate)”,来控制对该“单元状态(cell state)”丢弃或者增加信息,以实现遗忘或记忆的功能。
已知LSTM模型的公式为:
It=δ(Wxi·Xt+Whi·H(t-1)+bit) 1.1
Ft=δ(Wxf·Xt+Whf·H(t-1)+bft) 1.2
Ot=δ(Wxo·Xt+Who·H(t-1)+bot) 1.3
Gt=h(Wxg·Xt+Whg·H(t-1)+bgt) 1.4
Ct=Ft×Ct-1+It×Gt 1.5
Ht=Ot×h(Ct) 1.6
其中,“·”表示矩阵的乘法运算,,“×”表示向量的平行乘操作,,“δ”与“h”分别表示不同的激活函数,Xt为输入向量,Ht-1为上一级输出向量,Ct-1为上一级记忆门向量,It为输入门,Ft为遗忘门,Ct为记忆门,Ot为输出门,上述向量针对各门的对应权值分别为Wi、Wf、Wg和Wo,b为各门对应的偏移量,若输入向量的维度规定为ni,其它向量的维度规定为no,则各权值矩阵的行数为no,列数为向量Xt与Ht-1位的维数之和。
发明人经研究发现,在LSTM网络计算过程中,由于向量与权值的乘累加过程与部分门值向量的运算存在串联关系,导致在进行有关串行关系的运算时,计算单元难以被完全利用;另外,在单次执行与向量维度对应的相关运算时,由于以向量维度规模进行计算的资源消耗较大,现有的采用以元素为单位进行数据处理时,其权值与向量对应的矩阵运算单元的闲置时间又将延长,为了解决上述问题,提高硬件资源利用率,发明人提出了一种能够同时针对多个LSTM的门计算公式进行计算的神经网络加速器及数据处理方法。
图1是本发明提供的神经网络加速器结构示意图,如图1所示,该神经网络加速器1包括控制单元11、存储单元12、向量乘累加矩阵单元13、激活单元14、加法单元15以及向量平行乘累加单元16。
存储单元12包括用于存储输入神经元数据的数据存储模块121、用于暂存输入数据或部分中间计算结果的数据缓存模块122、用于存储LSTM网络权值的权值存储模块123以及用于暂存LSTM权值的权值缓存模块124。其中,数据存储模块121与数据缓存模块122相连并可进行数据交互,可存储待处理的输入神经元数据,以及部分LSTM网络的中间运算结果(例如,输出门值Ot);权值存储模块123与权值缓存模块124相连并可进行数据交互,可存储已训练完成的权值。
向量乘累加矩阵单元13包括乘累加计算阵列,可用于完成LSTM模型内部权值与输入向量之间的向量乘累加运算,在执行运算时,可将权值矩阵与输入向量的计算分解为以权值行为单位的向量乘累加运算,其获得的乘累加结果对应着所求门值向量的单个元素,从而使各门值向量单一元素之间的计算相互独立,同时针对多个门计算公式执行向量乘累加运算,形成流水线式的运算方法;
激活单元14包括多种激活函数功能模块,用于完成LSTM网络中各门值向量元素的激活操作;
加法单元15包括多个加法模块,用于完成偏移量的加法运算;
向量平行乘累加单元16包括乘法模块161和累加模块162,用于完成LSTM网络门值中的向量平行乘法运算及累加运算。
控制单元11可用于接收并分析神经网络参数,执行控制指令,控制完成数据传输以及模块调度等任务。
在本发明的一个实施例中,图2是利用图1所示神经网络加速器进行计算的示意图,如图2所示,在执行运算时,控制单元11控制数据存储模块121和权值存储模块123分别将神经元的输入数据和权值数据输出至数据缓存模块122和权值缓存模块124;进而控制上述数据以及数据缓存模块122中暂存的数据共同加载到向量乘累加矩阵单元13执行乘法运算和累加部分执行累加运算;待完成乘累加计算后,将获得的结果输入至加法单元15中进行偏移量加法运算,接着将获得的运算结果输入至激活单元14执行sigmoid激活或tanh激活操作,然后将获得的激活结果输出至向量平行乘累加单元16执行向量的平行乘累加操作,其中,在运算时获得的中间运算结果需要暂存的,可输入至数据缓存模块121;向量平行乘累加单元16运算完成后,将获得的最终结果输出或保存。
本发明还提供一种利用上述神经网络加速器进行数据处理的方法,图3是利用图1所示神经网络加速器进行数据处理的方法流程图,如图3所示,该方法具体包括以下步骤:
步骤S10、输入数据处理
LSTM网络的输入数据一般可包括输入向量X、上一级输出向量H以及上一级记忆门向量C,为了实现以权值矩阵行为单位进行任务划分,首先需要对输入数据中的输入向量X与上一级输出向量H进行拼接,用于执行上述LSTM公式1.1-1.4中的矩阵向量的乘累加操作。
假设输入向量X的维度为10,门值向量(例如遗忘门向量F、输入门向量I、记忆门向量C、最终输出门向量H、中间向量G)的维度均为20,则四个权值矩阵规模均为20×30,偏移量向量维度为20。
经过拼接,可获得拼接向量维度为30,为了同时针对公式1.1-1.4进行运算,可将上述拼接向量进行四分复制并传输到4行乘累加矩阵中,以并行完成公式1.1-1.4的向量运算任务。
步骤S20、执行运算
将四个门值所对应的权值与步骤S10获得的拼接向量分别输入向量乘累加矩阵单元、加法单元、激活单元以及向量平行乘累加单元执行运算,其中可包含多级流水线式运算过程,具体步骤如下:
S201、针对输入门权值Wi、遗忘门权值Wf、输出门权值Wo以及记忆门权值Wg,图4是本发明提供的权值矩阵与拼接向量的乘法运算示意图,如图4所示,此处各门的权值由两部分构成,即针对输入向量X的权值和针对上一级输出向量H的权值,在向量乘累加矩阵单元中按行载入上述获得的4个维度为30的拼接向量,分别执行公式1.1-1.4中所包含的矩阵向量乘累加操作,经计算获得中间运算结果;其中,图4中的每一拍表示的是所述向量乘累加矩阵单元完成一次向量乘累加运算所需时间。
S202、将上述获得中间运算结果按流水线方式,先输入加法单元执行偏移量加法,然后将获得的结果输入至激活单元分别执行sigmoid激活操作(针对公式1.1-1.3)与tanh激活操作(针对公式1.4),从而进一步完成公式1.1-1.4的运算,并输出获得的输入门值向量It元素、遗忘门权值向量Ft元素、输出门权值向量Ot元素以及中间向量Gt元素;
S203、根据公式1.5,将上述激活单元输出的输入门值向量It元素、遗忘门权值向量Ft元素以及中间向量Gt元素输入至向量平行乘累加单元,同时载入上一级记忆门向量Ct-1中所对应的元素执行向量乘法和加法的运算,从而获得一个本层记忆门向量Ct元素用于进一步运算,同时,将上述获得的本层记忆门向量Ct元素复制一份传递至数据缓存单元以用于下一层数据的输入;
S204、根据公式1.6,将上述获得的本层记忆门向量Ct元素输入至激活单元,经tanh激活操作后与输出门权值向量Ot元素再次输入至向量平行乘累加单元执行乘法运算,从而获得一个本层最终输出向量Ht元素用于输出,同时,将上述获得的本层最终输出向量Ht元素复制一份传递至数据缓存单元以用于下一层数据的输入。
特别说明的是,由于上述运算方法是一种以权值行为单位的数据流水线式处理方法,其使各级之间实现的是数据端对端的传递,因此,步骤S201至步骤S204每一次执行时所获得的结果均为对应向量中的单一维度值,实际运算过程中,需经过执行从步骤S201至步骤S204的多次流水式运算。才能获得本层完整的记忆门向量Ct和最终输出向量Ht,
在本发明的一个实施例中,执行上述步骤S201的乘累加运算时,可采用树形的累加器进行运算。
在本发明的一个实施例中,执行上述步骤S201的乘累加运算中的按行载入时,其中每一次所能载入的行数可以根据实际运算量以及硬件资源的带宽进行调整,即根据向量乘累加矩阵单元的运算能力进行调整。
在本发明的一个实施例中,由于LSTM网络中部分公式的门值运算不同步,具体指上述步骤S202完成后获得的输出门值向量Ot元素,需等待步骤S203完成后才可共同用于执行步骤S204的运算,此时,可将先获得的输出门值向量Ot元素作为中间运算结果暂存入数据缓存单元,或者其它具有暂存功能的存储单元中,以便延续数据的流水线传递。
相对于现有技术,在本发明实施例中所提供的神经网络加速器及数据处理方法,采用流水线的数据处理机制,实现针对LSTM网络的端对端的数据处理方法,提高了资源利用率。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。
Claims (10)
1.一种神经网络加速器,包括
存储单元,用于存储LSTM网络的神经元数据和权值数据并输出;
向量乘累加矩阵单元,用于从所述存储单元接收数据并针对所述接收的数据执行向量乘累加运算并输出运算结果;
加法单元,用于从所述向量乘累加矩阵单元接收数据,并针对所述接收的数据执行偏移量加法操作;
激活单元,用于从所述多功能运算单元和/或所述存储单元接收数据,并针对所述接收的数据执行激活操作并输出激活结果;
向量平行乘累加单元,用于从所述激活单元和/或所述存储单元接收数据,并针对所述接收的数据执行乘法和累加操作。
2.根据权利要求1所述的神经网络加速器,其特征在于,向量乘累加矩阵单元包括用于针对LSTM网络中的多个权值矩阵与拼接向量执行乘累加运算的乘累加计算阵列。
3.根据权利要求2所述的神经网络加速器,其特征在于,所述乘累加阵列以所述权值矩阵行为单位执行所述权值矩阵与所述拼接向量的乘运算。
4.根据权利要求3所述的神经网络加速器,其特征在于,所述多个权值矩阵分别对应于LSTM网络的输入门、遗忘门、记忆门与输出门。
5.根据权利要求3所述的神经网络加速器,其特征在于,所述拼接向量由当前输入向量与上一级输出向量拼接构成。
6.根据权利要求5所述的神经网络加速器,其特征在于,所述权值矩阵的每行均包括针对所述输入向量的权值向量和针对所述上一级输出向量的权值向量。
7.根据权利要求1所述的神经网络加速器,其特征在于,所述存储单元包括用于存储输入数据的数据存储单元、用于暂存输入数据和中间计算结果的数据缓存单元、用于存储输入权值的权值存储单元以及用于暂存权值的权值缓存单元;其中,所述中间计算结果是LSTM网络的输出门向量与记忆门向量。
8.根据权利要求7所述的神经网络加速器,其特征在于,所述神经网络加速器还包括控制单元,用于控制所述存储单元、所述向量乘累加矩阵单元、所述激活单元、所述加法单元以及所述向量平行乘累加单元执行针对LSTM网络的运算。
9.一种利用如权利要求1至8任一项所述的神经网络加速器进行数据处理的方法,包括以下步骤:
接收并处理LSTM网络的输入数据;
针对输入数据与权值矩阵执行流水线式运算;
将运算获得的记忆门向量存储并执行进一步运算;
将运算获得的最终输出向量存储并输出。
10.根据权利要求9所述的数据处理方法,其特征在于,将所述存储的记忆门向量和所述最终输出向量作为下一层的输入数据执行运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810244097.9A CN108446761B (zh) | 2018-03-23 | 2018-03-23 | 一种神经网络加速器及数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810244097.9A CN108446761B (zh) | 2018-03-23 | 2018-03-23 | 一种神经网络加速器及数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446761A true CN108446761A (zh) | 2018-08-24 |
CN108446761B CN108446761B (zh) | 2021-07-20 |
Family
ID=63196782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810244097.9A Active CN108446761B (zh) | 2018-03-23 | 2018-03-23 | 一种神经网络加速器及数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446761B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062471A (zh) * | 2019-11-23 | 2020-04-24 | 复旦大学 | 用于加速bert神经网络运算的深度学习加速器 |
CN111191774A (zh) * | 2018-11-14 | 2020-05-22 | 上海富瀚微电子股份有限公司 | 面向精简卷积神经网络的低代价加速器架构及其处理方法 |
WO2020125092A1 (zh) * | 2018-12-20 | 2020-06-25 | 中科寒武纪科技股份有限公司 | 计算装置及板卡 |
WO2020224516A1 (zh) * | 2019-05-09 | 2020-11-12 | 深圳大普微电子科技有限公司 | 一种神经网络硬件加速器 |
CN112580787A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 神经网络加速器的数据处理方法、装置、设备及存储介质 |
CN112862059A (zh) * | 2019-11-28 | 2021-05-28 | 华为技术有限公司 | 长短期记忆lstm网络计算设备以及计算设备 |
CN113191494A (zh) * | 2021-05-24 | 2021-07-30 | 南京航空航天大学 | 一种基于fpga的高效lstm加速器 |
TWI746126B (zh) * | 2020-08-25 | 2021-11-11 | 創鑫智慧股份有限公司 | 矩陣乘法裝置及其操作方法 |
WO2022062391A1 (zh) * | 2020-09-25 | 2022-03-31 | 苏州浪潮智能科技有限公司 | 一种加速rnn网络的系统、方法及存储介质 |
CN115660035A (zh) * | 2022-12-28 | 2023-01-31 | 南京南瑞信息通信科技有限公司 | 一种用于lstm网络的硬件加速器及lstm模型 |
CN116805155A (zh) * | 2023-08-25 | 2023-09-26 | 太初(无锡)电子科技有限公司 | 一种lstm网络处理方法、装置、设备及可读存储介质 |
US11995442B2 (en) | 2021-04-23 | 2024-05-28 | Nxp B.V. | Processor having a register file, processing unit, and instruction sequencer, and operable with an instruction set having variable length instructions and a table that maps opcodes to register file addresses |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115276642A (zh) | 2021-04-29 | 2022-11-01 | 恩智浦美国有限公司 | 具有电平转换器的光耦合器电路 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468335A (zh) * | 2015-11-24 | 2016-04-06 | 中国科学院计算技术研究所 | 流水级运算装置、数据处理方法及片上网络芯片 |
CN106775599A (zh) * | 2017-01-09 | 2017-05-31 | 南京工业大学 | 递归神经网络的多计算单元粗粒度可重构系统及方法 |
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN107579821A (zh) * | 2017-09-19 | 2018-01-12 | 厦门市美亚柏科信息股份有限公司 | 密码字典生成方法及计算机可读存储介质 |
CN107609641A (zh) * | 2017-08-30 | 2018-01-19 | 清华大学 | 稀疏神经网络架构及其实现方法 |
CN107679618A (zh) * | 2017-07-28 | 2018-02-09 | 北京深鉴科技有限公司 | 一种静态策略定点化训练方法及装置 |
-
2018
- 2018-03-23 CN CN201810244097.9A patent/CN108446761B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468335A (zh) * | 2015-11-24 | 2016-04-06 | 中国科学院计算技术研究所 | 流水级运算装置、数据处理方法及片上网络芯片 |
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN106775599A (zh) * | 2017-01-09 | 2017-05-31 | 南京工业大学 | 递归神经网络的多计算单元粗粒度可重构系统及方法 |
CN107679618A (zh) * | 2017-07-28 | 2018-02-09 | 北京深鉴科技有限公司 | 一种静态策略定点化训练方法及装置 |
CN107609641A (zh) * | 2017-08-30 | 2018-01-19 | 清华大学 | 稀疏神经网络架构及其实现方法 |
CN107579821A (zh) * | 2017-09-19 | 2018-01-12 | 厦门市美亚柏科信息股份有限公司 | 密码字典生成方法及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
PENG OUYANG 等: "A fast and power efficient architecture to parallelize LSTM based RNN for cognitive intelligence applications", 《2017 54TH ACM/EDAC/IEEE DESIGN AUTOMATION CONFERENCE (DAC)》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191774A (zh) * | 2018-11-14 | 2020-05-22 | 上海富瀚微电子股份有限公司 | 面向精简卷积神经网络的低代价加速器架构及其处理方法 |
CN111191774B (zh) * | 2018-11-14 | 2023-04-07 | 上海富瀚微电子股份有限公司 | 面向精简卷积神经网络的低代价加速器架构及其处理方法 |
WO2020125092A1 (zh) * | 2018-12-20 | 2020-06-25 | 中科寒武纪科技股份有限公司 | 计算装置及板卡 |
WO2020224516A1 (zh) * | 2019-05-09 | 2020-11-12 | 深圳大普微电子科技有限公司 | 一种神经网络硬件加速器 |
CN111062471B (zh) * | 2019-11-23 | 2023-05-02 | 复旦大学 | 用于加速bert神经网络运算的深度学习加速器 |
CN111062471A (zh) * | 2019-11-23 | 2020-04-24 | 复旦大学 | 用于加速bert神经网络运算的深度学习加速器 |
CN112862059A (zh) * | 2019-11-28 | 2021-05-28 | 华为技术有限公司 | 长短期记忆lstm网络计算设备以及计算设备 |
US11379185B2 (en) | 2020-08-25 | 2022-07-05 | Neuchips Corporation | Matrix multiplication device and operation method thereof |
TWI746126B (zh) * | 2020-08-25 | 2021-11-11 | 創鑫智慧股份有限公司 | 矩陣乘法裝置及其操作方法 |
WO2022062391A1 (zh) * | 2020-09-25 | 2022-03-31 | 苏州浪潮智能科技有限公司 | 一种加速rnn网络的系统、方法及存储介质 |
US11775803B2 (en) | 2020-09-25 | 2023-10-03 | Inspur Suzhou Intelligent Technology Co., Ltd. | System and method for accelerating RNN network, and storage medium |
CN112580787A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 神经网络加速器的数据处理方法、装置、设备及存储介质 |
CN112580787B (zh) * | 2020-12-25 | 2023-11-17 | 北京百度网讯科技有限公司 | 神经网络加速器的数据处理方法、装置、设备及存储介质 |
US11995442B2 (en) | 2021-04-23 | 2024-05-28 | Nxp B.V. | Processor having a register file, processing unit, and instruction sequencer, and operable with an instruction set having variable length instructions and a table that maps opcodes to register file addresses |
CN113191494A (zh) * | 2021-05-24 | 2021-07-30 | 南京航空航天大学 | 一种基于fpga的高效lstm加速器 |
CN115660035A (zh) * | 2022-12-28 | 2023-01-31 | 南京南瑞信息通信科技有限公司 | 一种用于lstm网络的硬件加速器及lstm模型 |
CN115660035B (zh) * | 2022-12-28 | 2023-08-11 | 南京南瑞信息通信科技有限公司 | 一种用于lstm网络的硬件加速器及lstm模型 |
CN116805155A (zh) * | 2023-08-25 | 2023-09-26 | 太初(无锡)电子科技有限公司 | 一种lstm网络处理方法、装置、设备及可读存储介质 |
CN116805155B (zh) * | 2023-08-25 | 2024-01-19 | 太初(无锡)电子科技有限公司 | 一种lstm网络处理方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108446761B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446761A (zh) | 一种神经网络加速器及数据处理方法 | |
US10691996B2 (en) | Hardware accelerator for compressed LSTM | |
CN107862374B (zh) | 基于流水线的神经网络处理系统和处理方法 | |
CN108376285A (zh) | 一种面向多变异体lstm神经网络加速器及数据处理方法 | |
EP3298545B1 (en) | Vector computation unit in a neural network processor | |
EP3298547B1 (en) | Batch processing in a neural network processor | |
Zeng et al. | Matrix representation of spiking neural P systems | |
CN107918794A (zh) | 基于计算阵列的神经网络处理器 | |
CN112529166A (zh) | 融合神经元模型、神经网络结构及训练、推理方法、存储介质和设备 | |
CN107609641A (zh) | 稀疏神经网络架构及其实现方法 | |
CN107886167A (zh) | 神经网络运算装置及方法 | |
CN107239824A (zh) | 用于实现稀疏卷积神经网络加速器的装置和方法 | |
CN107766292B (zh) | 一种神经网络处理方法及处理系统 | |
EP3674982A1 (en) | Hardware accelerator architecture for convolutional neural network | |
CN110580519B (zh) | 一种卷积运算装置及其方法 | |
CN108960414B (zh) | 一种基于深度学习加速器实现单广播多运算的方法 | |
CN108734270A (zh) | 一种兼容型神经网络加速器及数据处理方法 | |
CN109657794B (zh) | 一种基于指令队列的分布式深度神经网络性能建模方法 | |
CN108320018A (zh) | 一种人工神经网络运算的装置及方法 | |
KR102396447B1 (ko) | 파이프라인 구조를 가지는 인공신경망용 연산 가속 장치 | |
CN108985449B (zh) | 一种对卷积神经网络处理器的控制方法及装置 | |
CN104834216A (zh) | 一种基于bp神经网络调节pi控制器参数的电路及方法 | |
CN115952729A (zh) | 一种基于强化学习的多智能体追逃博弈方法及设备 | |
CN109697511B (zh) | 数据推理方法、装置及计算机设备 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |