CN107633298A - 一种基于模型压缩的递归神经网络加速器的硬件架构 - Google Patents
一种基于模型压缩的递归神经网络加速器的硬件架构 Download PDFInfo
- Publication number
- CN107633298A CN107633298A CN201710151781.8A CN201710151781A CN107633298A CN 107633298 A CN107633298 A CN 107633298A CN 201710151781 A CN201710151781 A CN 201710151781A CN 107633298 A CN107633298 A CN 107633298A
- Authority
- CN
- China
- Prior art keywords
- addition unit
- multiplicaton addition
- multiplicaton
- matrix
- recurrent neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 26
- 230000006835 compression Effects 0.000 title claims abstract description 13
- 238000007906 compression Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000007935 neutral effect Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 19
- 238000013139 quantization Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000011002 quantification Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于模型压缩的递归神经网络加速器的硬件架构。硬件架构包含以下部分:矩阵乘加单元,用于实现神经网络中主要的矩阵向量乘法运算,该单元由多个乘加单元簇组成,每个乘加单元簇内包含多个由不同的基本乘加单元构成的乘加单元块,其数量直接决定加速器的并行度和吞吐率;多个双端片上静态随机存储器,其中有三个用于存储递归神经网络计算时产生的中间结果,并且有两个构成乒乓存储结构以提高数据存取效率,其余存储器用于存储神经网络的参数;多个非线性计算单元,用于实现神经网络中的非线性函数;控制单元,用于产生相关控制信号及控制数据流的流动。本发明可以实现很高的硬件效率,且可扩展性强,是一种可用于智能人机交互、机器人控制等相关领域嵌入式系统的合理方案。
Description
技术领域
本发明涉及计算机及电子信息技术领域,特别是一种基于模型压缩的递归神经网络加速器的硬件架构。
背景技术
递归神经网络有着强大的非线性拟合能力,其天然的递归结构十分适用于建模序列数据,如文本、语音和视频等。目前,递归神经网络模型在自然语言处理领域,尤其是在语音识别和机器翻译上已经取得了接近甚至超过人类的效果或准确率;通过结合增强学习,递归神经网络在机器人自适应控制和学习领域也有广泛的应用前景。这些技术是实现智能人机交互所必须的,但是在嵌入式设备上运行递归神经网络模型存在着诸多问题。一方面,递归神经网络模型需要存储大量的参数,而且计算量巨大;另一方面,嵌入式系统所能提供的存储资源和计算能力十分有限,无法满足模型存储和计算的需求,实时性和功耗上也面临着诸多挑战。由前者催生出一些模型压缩技术来减少网络模型的参数以减少模型的存储需求,并降低模型的计算复杂度。但是,现有的解决方案多采用GPU芯片,过高的功耗使之无法应用于嵌入式场景;而目前嵌入式系统中广泛采用的硬件平台无法很好地利用前述模型压缩技术。因此有必要设计专门的硬件架构以充分利用已有模型压缩技术。
现有的模型压缩技术可以粗略归为两大类,一类不减少模型参数个数,但可以减少参数存储所需要的空间。如通过剪枝使参数矩阵变稀疏,而后可通过特殊的格式存储稀疏参数矩阵;也可采用不同的参数量化方法,减少存储每个参数需要的比特。另一类是通过对参数矩阵施加特殊的约束减少参数个数或是减少计算复杂度,如通过哈希映射将网络参数限制为几种特殊的值,存储时存储值及每个参数所属的类别;或是将参数矩阵限制为一些结构化矩阵,如托普利兹矩阵或循环矩阵,不但可以减少存储空间,也可以通过快速算法减少计算的时间复杂度。
混合量化和结构化矩阵约束(尤其是循环矩阵约束)是十分高效的两种模型压缩技术,但目前已有的基于模型压缩的硬件架构多使用单一量化方式,且未考虑结构化矩阵约束带来的优势,因而还未很好地利用这两种技术,其在嵌入式场景下巨大的优势和潜力尚待发掘。
发明内容
发明目的:
本发明所要解决的技术问题是针对递归神经网络无法满足嵌入式系统低功耗、低延迟的需求,提出一种基于模型压缩的递归神经网络加速器的硬件架构,使递归神经网络在低功耗、实时嵌入式系统上的应用成为可能。
技术方案:
为了解决上述技术问题,本发明公开了一种基于模型压缩的递归神经网络加速器的硬件架构,其特征在于,包括以下部分:
1、矩阵乘加单元MAT-VEC,用于实现神经网络中主要的矩阵向量乘法运算,该单元内含多个乘加单元簇MVU/CMVU,每个乘加单元簇用于处理递归神经网络中的一个矩阵向量乘法。
2、多个硬件友好的非线性计算单元Sigmoid/Tanh,用于实现神经网络中的非线性函数。
3、多个双端片上静态随机存储器,其中有两个存储中间状态的存储器HRAM0和HRAM1组成乒乓存储结构以提高数据存取效率,其余还包括另外一个状态存储器CRAM和由多个参数存储单元组成的参数存储单元块WRAMs用于存储递归神经网络的模型参数。
4、控制单元,用于产生相关控制信号及控制数据流的流动。
其中,乘加单元簇MVU/CMVU是本硬件架构的主要计算单元,每个乘加单元簇包含多个乘加单元块B-PE,而每个乘加单元块内又包含多个基本乘加单元PE。基本乘加单元用于实现多个数之间的基本乘加运算,不同的量化方法对应于不同的基本乘加单元结构。不同基本乘加单元的输出在乘加单元块内求和作为乘加单元块的输出,多个基本乘加单元的求和可以根据需要插入流水线以减少时序延迟,提高系统吞吐率。
对于循环矩阵向量乘法,通过一种针对硬件优化了的循环矩阵向量乘法重组方法,使其可以与普通的矩阵向量乘法共享相同的硬件架构,唯一的不同在于每个乘加单元簇中需额外包含与乘加单元块个数相同的移位单元用于实现额外的移位操作。为了区分该类乘加单元簇与普通乘加单元簇,将用于实现循环矩阵向量乘法的乘加单元簇定义为CMVU,而普通乘加单元簇定义为MVU。
整个递归神经网络加速器的并行度由上述乘加单元簇、乘加单元块和基本乘加单元的个数共同决定。
有益效果:
本发明所述硬件架构在底层支持不同的参数量化方法,在上层支持普通矩阵和循环矩阵两种类型的矩阵向量乘法运算,因而可以很好地利用模型压缩带来的算法上的优势,只需较少的存储空间和计算复杂度就可以获得较好的性能,硬件效率高;另一方面,本发明所述硬件架构有着十分简洁而统一的结构单元,支持配置成不同的并行度,可扩展性强,也可以在较低功耗下实现较高的吞吐率,适用于低功耗、实时嵌入式系统,是一种可用于智能人机交互、机器人控制等相关领域嵌入式系统的合理方案。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的顶层硬件架构图。
图2是两种不同量化方法下的基本乘加单元硬件架构图。
图3是乘加单元块的内部结构图。
图4是矩阵向量乘法所用棋盘分解方式说明图。
具体实施方式:
下面详细描述本发明的实施例。本实施例中将包含多个硬件单元输入输出变量的定义和说明,以及为了说明某一功能而引证的具体示例,旨在用于解释本发明,而不能理解为对本发明的限制。因递归神经网络包含多种变体,本实施例将不限制具体的递归神经网络变体类型,只讨论通用情况。
拥有n个输入和输出节点的递归神经网络的基本单元可定义为:
ht=f(Wxt+Uht-1+b), (1)
其中,ht∈Rn×1为t时刻递归神经网络的隐状态(中间状态),同时也作为t时刻的输出;xt∈Rn×1为t时刻的输入向量;W、U∈Rn×n、b∈Rn×1为递归神经网络的模型参数,b为偏置项,W和U为参数矩阵;f为非线性函数,常见的有σ和tanh:
如公式1所示,每个递归神经网络的基本单元共有两个矩阵向量乘法和一个非线性函数。递归神经网络往往由一个至多个类似的基本单元组成。一次性计算所有的矩阵向量乘法对于存储资源和计算能力受限的嵌入式系统而言是不现实的,因此有必要将其分解成多个子计算过程。本实施例采用如图4所示的棋盘划分方法,将整个n×n矩阵乘以n×1向量的计算过程分解成p2个矩阵乘以向量的子过程。下面结合图1描述公式(1)所定义基本单元在本发明所述硬件架构下的计算流程:
对于每个时刻的输入,控制单元将依据图4所示棋盘划分方式,每次从存储单元WRAMs和HRAM0/HRAM1中读取相应的参数和中间状态到矩阵乘加单元MAT-VEC中,并按照图4所示从左至右,从上至下的顺序完成子矩阵向量乘法,计算结果保存在MAT-VEC中进行累加;当整行的p个子矩阵向量乘法完成之后,对应结果将输出至非线性计算单元完成非线性计算,进行状态更新后将更新后的状态存至状态存储单元,同时MAT-VEC单元清零进行下一行的子矩阵向量乘法计算,依次类推直至整个计算过程完成。
从公式(1)可以看到,t时刻的状态向量ht中每个元素的更新要取决于整个t-1时刻的状态向量ht-1,根据图4所示棋盘划分方式,每次整个模块只更新部分结果,直接将更新后的部分结果存回原存储地址将覆盖上一时刻的状态导致后续计算出错。为了解决这一问题,可以引入乒乓存储结构。如图1所示,维持两个大小相同的存储单元HRAM0和HRAM1,每个时刻从其中一个存储单元读取上一时刻的状态,更新后的状态存储于另外一个存储单元中,从而解决上述问题,同时提高数据存储效率。
如果在MAT-VEC单元中使用两个乘加单元簇,每个乘加单元簇处理公式(1)中的一个矩阵向量乘法,则整个更新过程共需要p2个时钟周期。
MAT-VEC是本发明所述硬件架构的主要单元,下面将从最基本的单元开始介绍其功能和实现细节:
1、基本乘加单元PE为模块的基本单元,用于实现多个数的乘加运算。对于不同的参数量化方式,其结构会有所不同。表格1给出了两种优选的量化方法,其中M为待量化的参数,表格右侧数学定义中的操作均为原子级操作,即若M为矩阵,则M>0.5表示对矩阵中每个元素的大小与0.5进行比较。round函数表示将元素裁为与之最接近的整数,sign为符号函数,用于析离元素的正负号。对于表1中量种量化方式,ExpQ将参数取值范围限制为2的倍数,因而参数的乘法可以用移位操作实现;Qm,f为常见的量化方式,将参数量化成m位整数、f位小数外加一位符号位表示的形式。
表格1
对应于表1所述量化方式,图2给出了对应PE单元的硬件架构,可以实现k1个数的乘加运算,k1的大小可以根据实际情况进行选择。图2中带下标e的变量表示该变量使用ExpQ量化方式,否则为Qm,f量化方式。每个PE单元可实现以下功能:
对于ExpQ量化方式,乘法可以使用移位实现,大大减少了所需硬件资源;在对参数进行存储时亦可考虑更叫高效的存储方式。本实施例优选地给出一种存储格式,参数根据图2表示为we,并设len为参数的量化宽度,第i位为we,i,we,i,j(j<i)表示we的第j位到第i位,则其格式可以表示为:最高位为符号位,其符号表示为s(we);其余len-1位表示we的指数项;因为当we为0时指数项无法用有限位数表示,在本实施例中规定当we指数项的大小为-2len-1时we为0。
根据以上存储格式的定义,公式(3)中基本的运算w[i]·hx[i]可表示为:
如图2所示ExpQ量化基本乘加单元,使用ExpQ量化的参数在输入PE单元后先经过解码单元ShiftDec分离出符号位和指数项,并判断对应数是否为0;指数项被输出与其他输入进行乘加(实际为移位)操作,而判断后的符号位和标志是否为0的标志位将被输入值修正单元VC以修正乘加后的值,得到准确结果。
2、如图3所示乘加单元块B-PE含k2个PE单元,可以认为是粗粒度版本的PE。每个PE单元的输出在B-PE单元内进一步的求和,该求和中间可以根据需要插入流水线以减少时延,插入位置在图3中用虚线加以标识。
3、乘加单元簇MVU/CMVU内含多个B-PE单元。根据前述介绍,每个MVU/CMVU每次处理一个的矩阵乘以的向量。假设MVU/CMVU中含r个B-PE单元,则r应满足
对于循环矩阵的情况,考虑y=Wh,其中为循环矩阵,对应的元向量w=(w1,w2,…,wn)T,则:
由公式(5)可以看出,直接对其使用,图4所示棋盘分解方式十分低效,无法很好地利用循环矩阵约束带来的优势。为此,我们考虑对公式(5)进行重组使其适用于棋盘分解的方式。优选地,我们考虑可以将元向量w根据前述相关参数的定义分解为p个子元向量:
wi=(wi,wi+p,Wi+2p,…,wi+(r-1)p),i=1,2,…,p (6)
每个子元向量wi对应于一个子循环矩阵Wi:
相应地,将向量h也按照类似w的方式分解:
hi=(hi,hi+p,hi+2p,…,hi+(r-1)p),i=1,2,…,p (8)
另外再定义大小一个r×r的辅助矩阵Sr:
结合以上定义,原始公式(5)可以等价为:
可以看出,对公式(5)进行重组后得到的公式(10)满足图4所示棋盘划分方式。对于带循环矩阵约束的矩阵,乘加单元簇在处理子矩阵向量乘法时,每次只需根据当前处理的行列位置读取相应的子元向量并判断对应的子循环矩阵是否需要额外乘以Sr即可。对某一子循环矩阵左乘Sr等价于对该子循环矩阵做一次额外的行循环位移操作,而子循环矩阵的每一行都是上一行的循环右移。因此,相对于MVU单元,CMVU单元内需包含额外的位移单元来实现相应的功能。
整个计算流程由控制单元进行控制,用于给出复位或清零信号,指示当前正在处理的子矩阵向量乘法位置等。非线性计算单元Sigmoid/Tanh用于实现公式(2)中的非线性函数,在硬件上可以通过查找表实现,也可通过分段函数近似后使用纯组合逻辑实现,其实现方式并不唯一。
通过本发明实施例的上述硬件架构,扩展性强,可以在较低功耗下实现较高的吞吐率。而硬件架构中的主要单元MAT-VEC和其内部组成部件MVU/CMVU、B-PE、PE等均给出了功能说明,具体实现这些部分的功能的方法和途径很多。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (2)
1.一种基于模型压缩的递归神经网络加速器的硬件架构,其特征在于,硬件架构包括:
(11)矩阵乘加单元MAT-VEC,用于实现神经网络中主要的矩阵向量乘法运算,该单元内含多个乘加单元簇MVU/CMVU,每个乘加单元簇用于处理递归神经网络中的一个矩阵向量乘法;
(12)多个硬件友好的非线性计算单元Sigmoid/Tanh,用于实现神经网络中的非线性函数;
(13)多个双端片上静态随机存储器,其中有两个存储中间状态的存储器HRAM0和HRAM1组成乒乓存储结构以提高数据存取效率,其余还包括另外一个状态存储器CRAM和由多个参数存储单元组成的参数存储单元块WRAMs用于存储递归神经网络的模型参数;
(14)控制单元,用于产生相关控制信号及控制数据流的流动。
2.权利要求1所述的乘加单元簇MVU/CMVU,其特征在于,包括:
(21)多个乘加单元块B-PE,每个乘加单元块内包含多个基本乘加单元PE,不同基本乘加单元的输出在乘加单元块内求和作为乘加单元块的输出,多个基本乘加单元的求和可以根据需要插入流水线以减少时序延迟,提高系统吞吐率;
(22)如(21)所述基本乘加单元,用于实现多个数之间的基本乘加运算,不同的量化方法对应于不同的基本乘加单元结构;
(23)对于循环矩阵向量乘法,通过一种针对硬件优化了的循环矩阵向量乘法重组方法,使其可以与普通的矩阵向量乘法共享相同的硬件架构,唯一的不同在于每个乘加单元簇中需额外包含与乘加单元块个数相同的移位单元用于实现额外的移位操作,为了区分该类乘加单元簇与普通乘加单元簇,将用于实现循环矩阵向量乘法的乘加单元簇定义为CMVU,而普通乘加单元簇定义为MVU;
(24)整个递归神经网络加速器的并行度由权利要求1和权利要求2所述乘加单元簇、乘加单元块和基本乘加单元的个数共同决定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710151781.8A CN107633298B (zh) | 2017-03-10 | 2017-03-10 | 一种基于模型压缩的递归神经网络加速器的硬件架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710151781.8A CN107633298B (zh) | 2017-03-10 | 2017-03-10 | 一种基于模型压缩的递归神经网络加速器的硬件架构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107633298A true CN107633298A (zh) | 2018-01-26 |
CN107633298B CN107633298B (zh) | 2021-02-05 |
Family
ID=61099121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710151781.8A Active CN107633298B (zh) | 2017-03-10 | 2017-03-10 | 一种基于模型压缩的递归神经网络加速器的硬件架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633298B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472350A (zh) * | 2018-10-30 | 2019-03-15 | 南京大学 | 一种基于块循环稀疏矩阵的神经网络加速系统 |
CN109597965A (zh) * | 2018-11-19 | 2019-04-09 | 深圳力维智联技术有限公司 | 基于深度神经网络的数据处理方法、系统、终端及介质 |
CN110414630A (zh) * | 2019-08-12 | 2019-11-05 | 上海商汤临港智能科技有限公司 | 神经网络的训练方法、卷积计算的加速方法、装置及设备 |
CN111107076A (zh) * | 2019-12-16 | 2020-05-05 | 电子科技大学 | 一种安全高效的矩阵乘法外包方法 |
CN111667052A (zh) * | 2020-05-27 | 2020-09-15 | 上海赛昉科技有限公司 | 专用神经网络加速器的标准与非标准卷积一致性变换方法 |
CN112055862A (zh) * | 2018-05-04 | 2020-12-08 | 苹果公司 | 可扩展神经网络处理引擎 |
CN112292668A (zh) * | 2018-06-27 | 2021-01-29 | 亚马逊技术股份有限公司 | 基于附接的加速器的推理服务 |
CN113490943A (zh) * | 2019-07-31 | 2021-10-08 | 华为技术有限公司 | 一种集成芯片以及处理传感器数据的方法 |
US11269529B2 (en) | 2019-12-31 | 2022-03-08 | Kunlunxin Technology (Beijing) Company Limited | Neural network data processing apparatus, method and electronic device |
US11960935B2 (en) | 2018-06-27 | 2024-04-16 | Amazon Technologies, Inc. | Fault-tolerant accelerator based inference service |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289445A1 (en) * | 2013-03-22 | 2014-09-25 | Antony Savich | Hardware accelerator system and method |
CN105913118A (zh) * | 2015-12-09 | 2016-08-31 | 上海大学 | 一种基于概率计算的人工神经网络硬件实现装置 |
CN106127301A (zh) * | 2016-01-16 | 2016-11-16 | 上海大学 | 一种随机神经网络硬件实现装置 |
CN106355246A (zh) * | 2015-10-08 | 2017-01-25 | 上海兆芯集成电路有限公司 | 三配置神经网络单元 |
CN106447034A (zh) * | 2016-10-27 | 2017-02-22 | 中国科学院计算技术研究所 | 一种基于数据压缩的神经网络处理器、设计方法、芯片 |
CN106485317A (zh) * | 2016-09-26 | 2017-03-08 | 上海新储集成电路有限公司 | 一种神经网络加速器以及神经网络模型的实现方法 |
CN106487503A (zh) * | 2015-08-28 | 2017-03-08 | 香港城市大学 | 基于剪裁的霍普菲尔德神经网络的多元密码学 |
-
2017
- 2017-03-10 CN CN201710151781.8A patent/CN107633298B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289445A1 (en) * | 2013-03-22 | 2014-09-25 | Antony Savich | Hardware accelerator system and method |
CN106487503A (zh) * | 2015-08-28 | 2017-03-08 | 香港城市大学 | 基于剪裁的霍普菲尔德神经网络的多元密码学 |
CN106355246A (zh) * | 2015-10-08 | 2017-01-25 | 上海兆芯集成电路有限公司 | 三配置神经网络单元 |
CN105913118A (zh) * | 2015-12-09 | 2016-08-31 | 上海大学 | 一种基于概率计算的人工神经网络硬件实现装置 |
CN106127301A (zh) * | 2016-01-16 | 2016-11-16 | 上海大学 | 一种随机神经网络硬件实现装置 |
CN106485317A (zh) * | 2016-09-26 | 2017-03-08 | 上海新储集成电路有限公司 | 一种神经网络加速器以及神经网络模型的实现方法 |
CN106447034A (zh) * | 2016-10-27 | 2017-02-22 | 中国科学院计算技术研究所 | 一种基于数据压缩的神经网络处理器、设计方法、芯片 |
Non-Patent Citations (2)
Title |
---|
JAEHA KUNG 等: "Dynamic Approximation with Feedback Control for Energy-Efficient Recurrent Neural Network Hardware", 《ACM ISLPED》 * |
YOUSHEN XIA 等: "A Recurrent Neural Network for Solving Nolinear Projection Equations", 《IEEE》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11989640B2 (en) | 2018-05-04 | 2024-05-21 | Apple Inc. | Scalable neural network processing engine |
CN112055862B (zh) * | 2018-05-04 | 2024-05-07 | 苹果公司 | 可扩展神经网络处理引擎 |
CN112055862A (zh) * | 2018-05-04 | 2020-12-08 | 苹果公司 | 可扩展神经网络处理引擎 |
CN112292668A (zh) * | 2018-06-27 | 2021-01-29 | 亚马逊技术股份有限公司 | 基于附接的加速器的推理服务 |
CN112292668B (zh) * | 2018-06-27 | 2024-04-26 | 亚马逊技术股份有限公司 | 基于附接的加速器的推理服务 |
US11960935B2 (en) | 2018-06-27 | 2024-04-16 | Amazon Technologies, Inc. | Fault-tolerant accelerator based inference service |
CN109472350B (zh) * | 2018-10-30 | 2021-11-16 | 南京大学 | 一种基于块循环稀疏矩阵的神经网络加速系统 |
CN109472350A (zh) * | 2018-10-30 | 2019-03-15 | 南京大学 | 一种基于块循环稀疏矩阵的神经网络加速系统 |
CN109597965B (zh) * | 2018-11-19 | 2023-04-18 | 深圳力维智联技术有限公司 | 基于深度神经网络的数据处理方法、系统、终端及介质 |
CN109597965A (zh) * | 2018-11-19 | 2019-04-09 | 深圳力维智联技术有限公司 | 基于深度神经网络的数据处理方法、系统、终端及介质 |
CN113490943A (zh) * | 2019-07-31 | 2021-10-08 | 华为技术有限公司 | 一种集成芯片以及处理传感器数据的方法 |
CN110414630A (zh) * | 2019-08-12 | 2019-11-05 | 上海商汤临港智能科技有限公司 | 神经网络的训练方法、卷积计算的加速方法、装置及设备 |
CN111107076A (zh) * | 2019-12-16 | 2020-05-05 | 电子科技大学 | 一种安全高效的矩阵乘法外包方法 |
US11269529B2 (en) | 2019-12-31 | 2022-03-08 | Kunlunxin Technology (Beijing) Company Limited | Neural network data processing apparatus, method and electronic device |
CN111667052B (zh) * | 2020-05-27 | 2023-04-25 | 上海赛昉科技有限公司 | 专用神经网络加速器的标准与非标准卷积一致性变换方法 |
CN111667052A (zh) * | 2020-05-27 | 2020-09-15 | 上海赛昉科技有限公司 | 专用神经网络加速器的标准与非标准卷积一致性变换方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107633298B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633298A (zh) | 一种基于模型压缩的递归神经网络加速器的硬件架构 | |
CN110378468B (zh) | 一种基于结构化剪枝和低比特量化的神经网络加速器 | |
CN109190756B (zh) | 基于Winograd卷积的运算装置及包含该装置的神经网络处理器 | |
CN107578095B (zh) | 神经网络计算装置及包含该计算装置的处理器 | |
CN107992329A (zh) | 一种计算方法及相关产品 | |
CN110276450A (zh) | 基于多粒度的深度神经网络结构化稀疏系统和方法 | |
CN109472350A (zh) | 一种基于块循环稀疏矩阵的神经网络加速系统 | |
CN103761068B (zh) | 优化的蒙哥马利模乘硬件 | |
Mohanty et al. | Memory footprint reduction for power-efficient realization of 2-D finite impulse response filters | |
CN104112053B (zh) | 一种面向图像处理的可重构架构平台设计方法 | |
CN101782893A (zh) | 可重构数据处理平台 | |
CN110163359A (zh) | 一种计算装置及方法 | |
Cai et al. | Piece-by-piece approach to solving large nonlinear water resources management models | |
CN107256424A (zh) | 三值权重卷积网络处理系统及方法 | |
CN102043886A (zh) | 集成电路下层硬件映射方法、数据控制流时序约束方法及装置 | |
CN107644252A (zh) | 一种多机制混合的递归神经网络模型压缩方法 | |
CN108921292A (zh) | 面向深度神经网络加速器应用的近似计算系统 | |
CN107341133A (zh) | 基于任意维数矩阵lu分解的可重构计算结构的调度方法 | |
CN110007896A (zh) | 具有时钟选通的用于执行矩阵乘法的硬件单元 | |
CN110276447A (zh) | 一种计算装置及方法 | |
CN113222150A (zh) | 一种量子态的变换方法及装置 | |
CN105160097B (zh) | 一种利用人口迁移算法的三值fprm电路面积优化方法 | |
CN102054109B (zh) | 集成电路下层硬件映射方法、数据控制流生成方法及装置 | |
CN108875957B (zh) | 原生张量处理器及使用原生张量处理器的系统 | |
Huang et al. | A high performance multi-bit-width booth vector systolic accelerator for NAS optimized deep learning neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190505 Address after: Room 816, Block B, Software Building 9 Xinghuo Road, Jiangbei New District, Nanjing, Jiangsu Province Applicant after: Nanjing Fengxing Technology Co., Ltd. Address before: 210023 Xianlin Avenue 163 Nanjing University Electronic Building 229, Qixia District, Nanjing City, Jiangsu Province Applicant before: Nanjing University |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |