CN111626410B - 一种稀疏卷积神经网络加速器及计算方法 - Google Patents
一种稀疏卷积神经网络加速器及计算方法 Download PDFInfo
- Publication number
- CN111626410B CN111626410B CN201910149310.2A CN201910149310A CN111626410B CN 111626410 B CN111626410 B CN 111626410B CN 201910149310 A CN201910149310 A CN 201910149310A CN 111626410 B CN111626410 B CN 111626410B
- Authority
- CN
- China
- Prior art keywords
- calculation
- module
- convolution
- neural network
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
Abstract
一种稀疏卷积神经网络加速器及计算方法,其中,加速器包括:卷积计算模块,用于对输入特征图进行乘加处理,生成中间结果,其中,卷积计算模块由9个计算单元组成,每一计算单元由一个及以上的乘加器组成,同一计算单元中乘加器的激活输入相同,9个计算单元设置有一额外激活输入;非线性及池化模块,用于对中间结果进行非线性计算及池化计算,生成输出特征图;全连接层计算模块,用于对输出特征图进行全连接计算,生成最终结果。通过对多个卷积计算模块组合出不同的工作模式,能够在有效利用激活稀疏性加速卷积神经网络计算的同时,产生较小的额外资源开销和较低的负载失衡。
Description
技术领域
本公开涉及深度学习领域,具体地,涉及一种稀疏卷积神经网络加速器及计算方法。
背景技术
近年来,由于大数据时代海量数据的获取以及计算机性能的显著提升,以卷积神经网络为代表的深度学习算法在许多领域体现出了巨大的优越性。然而,像典型的分类网络VGG-16,需要15.5G次乘加操作和138M的参数量,巨大的计算量和参数量使得卷积神经网络的实际应用困难重重。实验表明卷积神经网络具有本征的稀疏性,有效的利用稀疏性能够通过降低计算量的方式极大地提升计算性能,而现有卷积神经网络加速器的设计忽视了卷积神经网络稀疏性对加速器设计的重要意义。
设计卷积神经网络加速器的核心问题在于数据共享和复用情况下,以何种形式大规模并行展开乘加器。卷积神经网络中的卷积计算在使用常见的激活函数(ReLU)时,激活结果会出现大量的零值,而零值不影响下一层网络的计算结果,本发明针对这种卷积神经网络中激活稀疏性的特点,跳过对零值的乘累加计算,从而降低实际计算量,提升计算性能。然而,利用激活稀疏性需要增加额外的逻辑以判断或处理激活输入,这会增加额外的资源开销;此外,不同的激活输入稀疏性不相同,队列长度不同,并行计算时因为等待最长队列会降低并行效率;并且,使用平铺方式共享激活输入展开输出特征图的方式是有上限的,过量的展开输出特征图方向会导致并行效率降低。
发明内容
(一)要解决的技术问题
本公开提供了一种稀疏卷积神经网络加速器及计算方法,至少解决以上技术问题。
(二)技术方案
本公开提供了一种稀疏卷积神经网络加速器,包括:卷积计算模块,用于对输入特征图进行乘加处理,生成中间结果,其中,所述卷积计算模块由9个计算单元组成,每一所述计算单元由一个及以上的乘加器组成,同一所述计算单元中乘加器的激活输入相同,所述9个计算单元设置有一额外激活输入;非线性及池化模块,用于对所述中间结果进行非线性计算及池化计算,生成输出特征图;全连接层计算模块,用于对所述输出特征图进行全连接计算,生成最终结果。
可选地,每一所述计算单元对所述输入特征图进行判断,并确定一非零的激活输入作为所述额外激活输入。
可选地,所述加速器中卷积计算模块的数量为一个及以上,根据所述输出特征图的数量确定所述卷积计算模块的工作模式。
可选地,当所述输入特征图的尺寸大于预设值时,对所述输入特征图进行切分,根据切分状态和所述输出特征图的数量确定所述卷积计算模块的工作模式。
可选地,所述9个计算单元形成3×3卷积核,每一所述计算单元将其生成的乘加结果传递至下一个与其连接的计算单元,或者经由所述计算单元所在行的FIFO缓存传递至下一行的计算单元,该计算单元以其接收到的乘加结果为初始值继续进行乘加计算。
可选地,所述FIFO缓存不小于所述输出特征图的行长度。
可选地,所述加速器还包括:DRAM模块,用于存储原始图像以及所述最终结果;DMA模块,用于从所述DRMA模块中获取所述原始图像,并生成所述原始图像对应的输入特征图,以及从所述全连接层计算模块中获取所述最终结果并传输至所述DRMA模块;缓存模块,用于缓存所述计算单元和乘加器的计算参数;控制模块,用于控制所述卷积计算模块、非线性及池化模块、全连接层计算模块和DMA模块。
可选地,所述加速器还包括网络模块,用于将所述DMA模块中的输入特征图传输至所述卷积计算模块,并将所述卷积计算模块的乘加结果传输至所述非线性及池化模块,以及将所述非线性及池化模块的输出特征图传输至所述全连接层计算模块。
可选地,在同一个所述卷积计算模块中,每一所述计算单元中乘加器的数量相同。
本公开还提供了一种稀疏卷积神经网络加速器的计算方法,包括:S1,卷积计算模块利用一个额外逻辑对输入特征图进行判断,根据判断结果确定一非零的激活输入,获取所述激活输入对应的权重参数以计算所述卷积计算模块;S2,利用所述卷积计算模块对所述输入特征图进行乘加处理,生成中间结果,其中,所述卷积计算模块中的每一计算单元内乘加器的计算是并行进行的,所述计算单元同时传递其计算结果至下一个与其连接的计算单元,并使用所述卷积计算模块中的FIFO缓存整行计算结果以传递到下一行计算单元;S3,对所述中间结果进行非线性计算及池化计算,生成输出特征图;S4,将所述输出特征图作为下一层计算的输入特征图,重复执行操作S1-S3直至最后一层计算;S5,对最后一层计算的输出特征图进行全连接计算,生成最终结果。
(三)有益效果
本公开提供的稀疏卷积神经网络加速器及计算方法,具有以下有益效果:
(1)通过配置额外激活输入,利用激活稀疏性跳过值为零的激活输入的乘累加计算,减少实际计算量,提升计算性能;
(2)单个卷积计算模块包含9个计算单元,每个极端单元又由一定数量的乘加器组成,使得一个卷积计算模块完全共享激活输入,只有一条计算队列,既保证了并行计算效率,又节省了利用稀疏性的额外逻辑开销,与只平铺展开输出图特征的并行展开结构相比,在同样的并行计算效率和额外逻辑开销下,并行展开了9倍的乘加器,单位计算力的性能和资源更高效;
(3)多个卷积计算模块之间可以组合出不同的工作模式,能够有效地适应不同的卷积神经网络层次,有效地提高了卷积神经网络加速器对不同卷积神经网络层次的适应性和利用率。
附图说明
图1示意性示出了本公开实施例提供的稀疏卷积神经网络加速器的结构框图。
图2示意性示出了本公开实施例提供的卷积计算模块的结构框图。
图3示意性示出了本公开实施例提供的计算单元的结构框图。
图4示意性示出了本公开实施例提供的卷积计算模块组合可配置的多种工作模式示意图。
图5示意性示出了本公开实施例提供的VGG-16网络在ImageNet数据集环境下不同的并行展开结构加速器加速效果比较。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
本公开的第一实施例示出了稀疏卷积神经网络加速器的结构。图1示意性示出了本公开实施例提供的稀疏卷积神经网络加速器的结构框图。图2示意性示出了本公开实施例提供的卷积计算模块的结构框图。图3示意性示出了本公开实施例提供的计算单元的结构框图。结合图2和图3,对图1所示结构进行详细的说明。
如图1所示,稀疏卷积神经网络加速器包括卷积计算模块、非线性及池化模块、全连接层计算模块、DRAM模块、DMA模块、缓存模块、控制模块和网络模块。
卷积计算模块由9个计算单元(PE)组成,每一计算单元由一个及以上的乘加器(MAC)组成,本实施例中以32个乘加器为例进行说明。
如图3所示,32个乘加器对输出特征图方向以平铺展开的方式组成一个计算单元,即这32个乘加器的激活输入相同,这32个乘加器分别同时与该激活输入对应的32个不同的输出特征图对应的权重相乘累加,并同时并行输出这一组32个输出特征图对应的一组乘累加结果。在同一个卷积计算模块中,每一个计算单元中乘加器的数量相同。
如图2所示,将9个图3中产生的计算单元对卷积内核方向以二维脉动阵列展开的方式组成一个卷积计算模块,这9个计算单元形成3×3卷积核,即为这9个计算单元设置一有效的额外激活输入,分别与3×3卷积核对应的权重进行乘累加。
有效的额外激活输入是指每一计算单元对输入特征图经过判断或处理逻辑,并确定的一非零激活输入。计算窗口指卷积计算时卷积核在输入特征图上滑窗的一个时间节点。依次输入本计算窗口的所有激活输入,在计算窗口这个时间节点,各计算单元依次对若干个输入特征图(本实施例中设定为N个)进行判断或处理逻辑,选择有效的额外激活输入进行乘累加计算。
计算窗口结束时,每一个计算单元同时将其生成的乘加结果传递至下一个与其连接的计算单元,对于处于不同两行的两个计算单元之间乘加结果的传递,需经过该计算单元所在行的先入先出(FIFO)缓存传递至下一行的计算单元,对于每一个特定的卷积计算层,FIFO缓存深度设定为此卷积层的行长度。例如,对于图2中每一行的前两个计算单元而言,其可直接将乘加结果传递至下一个与其连接的计算单元;对于图2中前两行(即Row0和Row1)的第三个计算单元而言,其需要将乘加结果传递至其所在行的FIFO缓存,以Row0和Row1之间的乘加结果传递为例,Row0中第三个计算单元将乘加结果传递至Row0中的FIFO缓存,Row1中第一个计算单元从Row0中的FIFO缓存中获取乘加结果。在下一个计算窗口开始时,Row0中第一个计算单元以输入特征图为初始值,其它计算单元以传递来的一组乘加结果为初始值继续进行乘加计算。此外,FIFO缓存深度是可调节的,但是最大缓存深度是固定的,最大缓存深度应不小于输出特征图的行长度。
每当一组乘加结果经过若干个计算窗口周期,完整遍历这9个计算单元之后,这一组乘加结果经卷积计算模块Row2中的第三个计算单元输出,由此完成了32个输出特征图上一个点的计算。从第一组有效乘加结果输出开始,重复以上卷积计算模块的操作,随着该3×3卷积核遍历整个输入特征图,依次完成32个输出特征图上所有点对应的乘加结果的计算。将这些所有的乘加结果定义为中间结果。
本实施例中卷积计算模块中所有的计算单元共享一个有效的额外激活输入,复用乘加结果,每一个卷积计算模块仅需配置一个判断或处理激活输入的逻辑单元,节省了利用稀疏性的额外逻辑开销。
非线性及池化模块,用于对卷积计算模块输出的中间结果进行非线性计算及池化计算,生成32个输出特征图。非线性及池化模块可包括非线性子模块和池化子模块,其中,非线性子模块用于对中间结果进行非线性计算,池化子模块用于对中间结果进行池化计算。非线性子模块和池化子模块不是每一层计算中所必须的,根据控制模块的设置确定每一层计算中是否需要使用非线性子模块和池化子模块。
全连接层计算模块,用于对输出特征图进行全连接计算,生成最终结果。DRAM模块,用于存储原始图像、图像参数以及最终结果。DMA模块,用于从DRMA模块中获取原始图像,并生成原始图像对应的输入特征图,以及从全连接层计算模块中获取最终结果并传输至DRMA模块。缓存模块,用于缓存计算单元和乘加器进行乘加计算所需的计算参数。控制模块,用于控制卷积计算模块、非线性及池化模块、全连接层计算模块和DMA模块的计算。网络模块,包含输入网络子模块和输出网络子模块,通过输入网络子模块将DMA模块中的输入特征图传输至卷积计算模块,并通过输出网络子模块将卷积计算模块的乘加结果传输至非线性及池化模块,以及将非线性及池化模块的输出特征图传输至全连接层计算模块。
本公开的第二实施例示出了多种工作模式。图4示意性示出了本公开实施例提供的卷积计算模块组合可配置的多种工作模式示意图。以下对图4所示的四种工作模式进行详细的说明。
加速器中卷积计算模块的数量为一个及以上,当卷积计算模块的数量大于一个时,可根据输出特征图的数量调整调整输入输出数据通道,组成进而确定每一卷积计算模块的工作模式,从而组成不同的工作模式来适应不同的网络结构。此外,对于尺寸特别大的输入特征图,当输入特征图的尺寸大于预设值时,可以对输入特征图进行切分,根据切分状态(即是否切分)和输出特征图的数量确定卷积计算模块的工作模式。
以4个卷积计算模块为例,图4(A)-4(D)分别示出了四种不同的工作模式,其中IFM表示输入特征图,OFM表示输出特征图。不同的激活输入数量可以控制并行卷积计算的输出特征图数量,适应规格不同的卷积神经网络层次。如图4(A)所示的1IFM-4OFM模式下,4个卷积计算单元共享相同的激活输入,同时计算128个输出特征图。如图4(B)所示的4IFM-1OFM模式下,激活输入会按输入特征图通道方向均分到4个卷积计算单元,4个核心的乘加结果会依次求和再输出,同时计算32个输出特征图。如图4(C)所示的2IFM-2OFM模式,其介于1IFM-4OFM和4IFM-1OFM,适用于有64个输出特征图的层,以充分利用卷积计算模块的计算能力。如图4(D)所示的左右分块(BlockMode)模式适用于卷积神经网络输入层尺寸极大的场景,能够解决输入特征图尺寸特别大,FIFO缓存整行计算结果时可能出现的FIFO深度不够的问题,该模式下将FIFO缓存的深度需求缩减为原来的一半。
本公开的第三实施例示出了一种稀疏卷积神经网络加速器的计算方法。包括以下操作:
S1,卷积计算模块利用一个额外逻辑依次对若干个输入特征图进行判断或处理逻辑,根据判断结果确定一非零的激活输入,获取该激活输入对应的权重参数以计算卷积计算模块。
S2,利用卷积计算模块对输入特征图进行乘加处理,生成中间结果,其中,卷积计算模块中的每一计算单元内乘加器的计算是并行进行的,计算单元间的计算是以脉动阵列形式同时流水进行的,同时流水进行即为所有的计算单元同时传递计算结果至下一个与其连接的计算单元,并使用卷积计算模块中的FIFO缓存整行计算结果以传递到下一行计算单元。这一操作是通过为同一计算单元内的乘加器设置一共享的激活输入,以及通过为卷积计算模块中的9个计算单元设置一共享的额外激活输入实现的。
S3,对中间结果进行非线性计算及池化计算,生成输出特征图。
S4,将输出特征图作为下一层计算的输入特征图,重复执行操作S1-S3直至最后一层计算。
S5,对最后一层计算的输出特征图进行全连接计算,生成最终结果。
本公开的第四实施例针对经典的VGG-16神经网络进行了实验,实验结果如图5所示。图5示意性示出了本公开实施例提供的VGG-16网络在ImageNet数据集环境下不同的并行展开结构加速器加速效果比较。在ImageNet数据集下,相对于原始稠密网络,本公开利用激活稀疏性将卷积性能提升了1.92倍,并且由于本发明单核心内部没有负载失衡损失,本公开的加速效果比图中其它结构的加速效果更好。
需要说明的是,在附图或说明书正文中,未描述的卷积神经网络基础单元,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
还需要说明的是,本发明可提供包含特定值的参数的示范,但这些参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应值。此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种稀疏卷积神经网络加速器,包括:
卷积计算模块,用于对输入特征图进行乘加处理,生成中间结果,其中,所述卷积计算模块由9个计算单元组成,每一所述计算单元由一个及以上的乘加器组成,同一所述计算单元中乘加器的激活输入相同,所述9个计算单元设置有一额外激活输入;其中,所述9个计算单元形成3×3卷积核,每一所述计算单元将其生成的乘加结果传递至下一个与其连接的计算单元,或者经由所述计算单元所在行的FIFO缓存传递至下一行的计算单元,该计算单元以其接收到的乘加结果为初始值继续进行乘加计算;
非线性及池化模块,用于对所述中间结果进行非线性计算及池化计算,生成输出特征图;
全连接层计算模块,用于对所述输出特征图进行全连接计算,生成最终结果。
2.根据权利要求1所述的稀疏卷积神经网络加速器,其中,每一所述计算单元对所述输入特征图进行判断,并确定一非零的激活输入作为所述额外激活输入。
3.根据权利要求1所述的稀疏卷积神经网络加速器,其中,所述加速器中卷积计算模块的数量为一个及以上,根据所述输出特征图的数量确定所述卷积计算模块的工作模式。
4.根据权利要求3所述的稀疏卷积神经网络加速器,其中,当所述输入特征图的尺寸大于预设值时,对所述输入特征图进行切分,根据切分状态和所述输出特征图的数量确定所述卷积计算模块的工作模式。
5.根据权利要求1所述的稀疏卷积神经网络加速器,其中,所述FIFO缓存不小于所述输出特征图的行长度。
6.根据权利要求1所述的稀疏卷积神经网络加速器,其中,所述加速器还包括:
DRAM模块,用于存储原始图像以及所述最终结果;
DMA模块,用于从所述DRAM模块中获取所述原始图像,并生成所述原始图像对应的输入特征图,以及从所述全连接层计算模块中获取所述最终结果并传输至所述DRAM模块;
缓存模块,用于缓存所述计算单元和乘加器的计算参数;
控制模块,用于控制所述卷积计算模块、非线性及池化模块、全连接层计算模块和DMA模块。
7.根据权利要求6所述的稀疏卷积神经网络加速器,其中,所述加速器还包括网络模块,用于将所述DMA模块中的输入特征图传输至所述卷积计算模块,并将所述卷积计算模块的乘加结果传输至所述非线性及池化模块,以及将所述非线性及池化模块的输出特征图传输至所述全连接层计算模块。
8.根据权利要求1所述的稀疏卷积神经网络加速器,其中,在同一个所述卷积计算模块中,每一所述计算单元中乘加器的数量相同。
9.一种利用权利要求1-8任一项所述的稀疏卷积神经网络加速器进行计算的方法,包括:
S1,卷积计算模块利用一个额外逻辑对输入特征图进行判断,根据判断结果确定一非零的激活输入,获取所述激活输入对应的权重参数以计算所述卷积计算模块;
S2,利用所述卷积计算模块对所述输入特征图进行乘加处理,生成中间结果,其中,所述卷积计算模块中的每一计算单元内乘加器的计算是并行进行的,所述计算单元同时传递其计算结果至下一个与其连接的计算单元,并使用所述卷积计算模块中的FIFO缓存整行计算结果以传递到下一行计算单元;
S3,对所述中间结果进行非线性计算及池化计算,生成输出特征图;
S4,将所述输出特征图作为下一层计算的输入特征图,重复执行操作S1-S3直至最后一层计算;
S5,对最后一层计算的输出特征图进行全连接计算,生成最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149310.2A CN111626410B (zh) | 2019-02-27 | 2019-02-27 | 一种稀疏卷积神经网络加速器及计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910149310.2A CN111626410B (zh) | 2019-02-27 | 2019-02-27 | 一种稀疏卷积神经网络加速器及计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626410A CN111626410A (zh) | 2020-09-04 |
CN111626410B true CN111626410B (zh) | 2023-09-05 |
Family
ID=72272476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910149310.2A Active CN111626410B (zh) | 2019-02-27 | 2019-02-27 | 一种稀疏卷积神经网络加速器及计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626410B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931919B (zh) * | 2020-09-24 | 2021-04-27 | 南京风兴科技有限公司 | 一种基于脉动阵列的稀疏神经网络计算方法及装置 |
US20210319317A1 (en) * | 2021-06-24 | 2021-10-14 | Intel Corporation | Methods and apparatus to perform machine-learning model operations on sparse accelerators |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
-
2019
- 2019-02-27 CN CN201910149310.2A patent/CN111626410B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
Non-Patent Citations (1)
Title |
---|
Shijin Zhang 等."Cambricon-X: An Accelerator for Sparse Neural Networks".《IEEE/ACM International Symposium on Microarchitecture》.2016,第1-12页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111626410A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445012B (zh) | 一种基于fpga的分组卷积硬件加速器及其方法 | |
CN110210610B (zh) | 卷积计算加速器、卷积计算方法及卷积计算设备 | |
CN108229645B (zh) | 卷积加速和计算处理方法、装置、电子设备及存储介质 | |
Mao et al. | Mednn: A distributed mobile system with enhanced partition and deployment for large-scale dnns | |
CN111242289B (zh) | 一种规模可扩展的卷积神经网络加速系统与方法 | |
CN109063825B (zh) | 卷积神经网络加速装置 | |
CN111488983B (zh) | 一种基于fpga的轻量级cnn模型计算加速器 | |
CN109409511B (zh) | 一种用于动态可重构阵列的卷积运算数据流调度方法 | |
US11989638B2 (en) | Convolutional neural network accelerating device and method with input data conversion | |
CN107993186A (zh) | 一种基于Winograd算法的3D CNN加速方法及系统 | |
CN104899182A (zh) | 一种支持可变分块的矩阵乘加速方法 | |
CN111898733A (zh) | 一种深度可分离卷积神经网络加速器架构 | |
CN113807509B (zh) | 神经网络加速装置、方法和通信设备 | |
US20210326687A1 (en) | Neural Network System and Data Processing Technology | |
CN111626410B (zh) | 一种稀疏卷积神经网络加速器及计算方法 | |
CN110705703A (zh) | 基于脉动阵列的稀疏神经网络处理器 | |
Hall et al. | From TensorFlow graphs to LUTs and wires: Automated sparse and physically aware CNN hardware generation | |
CN114995782B (zh) | 数据处理方法、装置、设备和可读存储介质 | |
CN111340198A (zh) | 基于fpga的数据高度复用的神经网络加速器 | |
CN110555512B (zh) | 一种二值卷积神经网络数据重用方法及装置 | |
JP2022538735A (ja) | データ処理方法、装置、記憶媒体及び電子機器 | |
Niu et al. | SPEC2: Spectral sparse CNN accelerator on FPGAs | |
CN114003201A (zh) | 矩阵变换方法、装置及卷积神经网络加速器 | |
CN116306840A (zh) | 神经网络运算方法、装置、芯片、电子设备和存储介质 | |
CN110766136B (zh) | 一种稀疏矩阵与向量的压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |