CN111062472A - 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 - Google Patents
一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 Download PDFInfo
- Publication number
- CN111062472A CN111062472A CN201911268184.9A CN201911268184A CN111062472A CN 111062472 A CN111062472 A CN 111062472A CN 201911268184 A CN201911268184 A CN 201911268184A CN 111062472 A CN111062472 A CN 111062472A
- Authority
- CN
- China
- Prior art keywords
- excitation
- weight
- neural network
- output
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Feedback Control In General (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于结构化剪枝的稀疏神经网络加速器及其加速方法,属于稀疏神经网络加速领域。本发明采用软硬件协同优化,对卷积神经网络进行结构化剪枝,并基于此设计硬件加速器,每个计算核并行地计算多张输出特征图,共享相同的输入激励。受益于结构化剪枝,每个计算核的负载均衡。计算核内的每个乘法器共享相同的输入激励,并且由于卷积运算窗口滑动的特性,输入激励可以在时间维度上复用。本发明通过结构化剪枝和数据流设计,保证输入激励和权重数据的高复用率,以及运算核的负载均衡;结合计算核的六级流水线,完全跳过了零值激励与权重的读取和运算,最大化地利用了神经网络的稀疏特性,提升了卷积神经网络加速器的吞吐率和能效。
Description
技术领域
本发明属于稀疏神经网络加速领域,尤其涉及一种基于结构化剪枝的稀疏神经网络加速器及其加速方法。
背景技术
卷积神经网络被广泛应用于计算机视觉、语音识别、自然语言处理、定向广告推荐和网络搜索等领域。虽然卷积神经网络能提供出色的效果,但是它运算参数量大,计算复杂度高。传统处理器性能和功耗的限制,使得大规模的卷积神经网络很难在嵌入式或终端设备上进行实现。因此,在保证卷积神经网络预测准确度的前提下,利用网络的稀疏性对网络模型进行压缩和加速成为了目前研究的热点。
网络稀疏性体现在激励稀疏和权重稀疏两个方面。激励稀疏的原因为:很多神经网络使用了线性整流函数(ReLu)作为激活函数,导致小于零的激励被置为零;部分神经网络(如对抗生成网络)包含了使用零值插入对输入特征图进行向上采样的译码层。权重的稀疏性来自于剪枝。剪枝通过某种度量标准确定需要被剪去的权重。激励稀疏和权重稀疏都可以被利用以提升硬件加速器的处理速度和能效。但是网络的稀疏性带来的连接不规则阻碍了加速器性能的提升。目前克服上述不规则性的方法主要有两种:第一种方法将输入激励向量和权重向量进行笛卡尔积运算,同时计算输出激励在输出特征图中的坐标,再用计算所得的坐标控制矩阵开关将笛卡尔积运算结果存到对应的位置;第二种方法是先读取压缩权重,再恢复压缩权重值在原权重矩阵中的位置,然后将输入激励向量和权重向量进行相与,筛选出有效计算的输入激励和权重值进行运算(两种同时为非零值时才是有效计算)。所述有效计算指输入激励和权重均为非零值时,它们相乘的过程称为有效计算。第一种方法的问题是需要额外计算输出激励的坐标,增加了计算功耗。同时对卷积层进行笛卡尔积运算会使输出存在哈希冲突,而对全连接层进行笛卡尔积运算只有部分输出有效。第二种方法的问题是卷积运算中每个输入激励需要和不同三维卷积核中权重相乘,因此输入激励和不同三维卷积核都要进行筛选,筛选过程会带来大量功耗,并且筛选单元输出的高扇出会增加设计布线和时序优化的难度。这两种方法都对卷积神经网络加速器利用剪枝提升性能和能效带来了负面影响。
本发明要解决的技术问题是:硬件加速器能在不计算权重坐标或输出激励坐标的前提下,高效地利用网络的稀疏性,跳过零操作数对应的运算。
发明内容
本发明旨在压缩稀疏权重和激励以减少存储空间的需求和数据搬移,并跳过零值权重与激励的读取和运算,提升加速器加速效果,降低加速器功耗。
为了实现上述目的,本发明采用如下技术方案:
本发明采用软硬件协同优化,对卷积神经网络进行结构化剪枝,并基于此设计硬件加速器。一种基于结构化剪枝的稀疏神经网络加速器,包括:
主控制器,用于解析指令集并产生输入激励、权重的读取地址和输出激励的存储地址,以及对运算流程进行控制的控制信号。
计算核,用于完成稀疏卷积的乘加运算、激活运算和池化运算;
输出激励编码器,对输出激励进行压缩并编码,产生输出激励索引对;
输出激励缓存器,缓存输出激励编码器产生的输出激励索引对;
输入激励缓存器,缓存从片外存储器读取的输入激励索引对;
权重缓存器,缓存从片外存储器读取的权重索引对;
所述的稀疏神经网络加速器通过AXI总线与片外存储器相连,所述片外存储器用于动态随机存取原始图片、权重、神经网络计算的中间结果和最终输出的特征图。
由于神经网络的参数数量巨大,对于VGG-16等大型网络而言,即使经过模型压缩,也难以把权重完全存在缓存器内。同时网络部分层的输出特征图尺寸巨大,同样需要DRAM。本发明使用了多种缓存器,包括输入激励缓存器、输出激励缓存器和权重缓存器;本发明将网络分块进行计算,需要重复使用的数据存在缓存器中,以减少对DRAM的重复读取,降低读取功耗。
作为本发明的优选,所述计算核包括激励索引寄存器、激励寄存器、权重地址指针寄存器、权重寄存器、部分和寄存器、ReLu模块和池化模块;计算核处理压缩激励和权重。为保证只有非零数据被读取,输入激励的读取需要在权重读取之前。为了处理数据读取的这种依赖并保持吞吐率,计算核内部部署六级流水线,前两级流水线上分布激励索引寄存器和激励寄存器,用于读取非零激励索引对;第三、四级流水线上分布权重地址指针寄存器和权重寄存器,分别用于读取权重地址指针和非零权重索引对;最后两级流水线设有多个部分和寄存器,用于存储MAC乘加运算的部分和结果。当输出激励的整个卷积运算完成后,输出激励经过ReLu模块和池化模块,从计算核输出。
所述的基于结构化剪枝的稀疏神经网络加速器的加速方法,包括以下步骤:
S01:对神经网络进行结构化剪枝,得到压缩模型和表征压缩权重位置的索引集;
S02:结合压缩模型网络各层参数,将压缩模型映射到硬件,以指令流的形式表示映射关系;
S03:主控制器载入指令流,产生输入激励、权重的读取地址和输出激励的存储地址,将输入激励索引对和权重索引对分别存储到输入激励缓存器和权重缓存器;将输入特征图和卷积核分块,并将每一块的输入激励和权重分发到对应的计算核中;
S04:计算核的前两级流水线上的激励索引寄存器和激励寄存器读取非零激励索引对,激励索引寄存器存储输入激励的间接索引,该间接索引作为输出激励寄存器的读地址;在一个非零激励索引对被读取后,第三、四级流水线读取对应的非零权重;权重地址指针寄存器根据输入激励索引输出对应的权重地址的头指针和尾指针,权重寄存器根据地址指针输出多个权重索引对;第五、六级流水线进行乘加运算,运算结果存储在部分和寄存器中;每块数据计算完成时,首先沿输入通道方向更新输入激励和权重,然后沿卷积窗口滑动的轨迹更新输入激励和权重,直到一层卷积层运算完成;当稀疏卷积运算完成后,再经线性整流运算和池化运算,产生输出激励并从计算核输出;
S05:进行输出激励的压缩编码,并将输出激励和索引对存储到输出激励缓存器;
S06:判断当前层是否为最后一层,如果不是,返回步骤S04;否则将输出激励直接输出到片外存储器,完成整个神经网络的推理加速。
作为本发明的优选,每个计算核并行地计算多张输出特征图,因此共享相同的输入激励。受益于结构化剪枝,每个计算核的负载均衡。计算核内的每个乘法器共享相同的输入激励,并且由于卷积运算窗口滑动的特性,输入激励可以在时间维度上复用。
作为本发明的优选,所述的结构化剪枝具体为:对于初始的密集神经网络,将四维卷积核分为多个三维卷积核,卷积层中不同三维卷积核的相同位置的权重同时剪去,全连接层中权重矩阵的某些行整行剪去。
本发明具备的有益效果:
(1)本发明通过结构化剪枝和数据流设计,保证输入激励和权重数据的高复用率,以及运算核的负载均衡;
(2)现有技术有将权重的稀疏性应用在加速器的设计中,但无法利用输入激励的稀疏性,当输入激励为零时,只是关断计算单元,而不能跳过计算。本发明能同时利用权重和输入激励的稀疏性,结合计算核的六级流水线,从而完全跳过了零值激励与权重的读取和运算,最大化地利用了神经网络的稀疏特性,进一步提升了卷积神经网络加速器的吞吐率和能效。
附图说明
图1为加速器工作流程图;
图2为结构化剪枝示例图,(a)卷积核的结构化剪枝;(b)权重矩阵的结构化剪枝;
图3为硬件加速器顶层架构;
图4为主控制器结构图;
图5为映射示意图;
图6为计算核结构图;
图7为权重编码和索引示意图;
图8为稀疏加速示意图。
具体实施方式
以下结合具体实施例对本发明做进一步说明。
如图1所示为基于结构化剪枝的稀疏神经网络加速器加速方法流程示意图。首先,对卷积网络模型进行结构化剪枝,得到压缩模型和表征压缩权重位置的索引集;然后结合网络各层参数完成压缩模型到硬件的映射,生成指令流;接着加速器主控制器载入指令流,并控制加速器从片外存储器读取输入激励和权重到对应的缓存器;计算核根据主控制器的控制信号实现稀疏卷积运算、线性整流运算和池化运算,产生输出激励,并将输出激励压缩编码,输出激励和索引对存储到输出激励缓存器;最后判断当前层是否为最后一层,如果不是,返回计算核继续载入数据进行运算,否则将输出激励直接输出到片外存储器,完成整个神经网络的推理加速。
结构化剪枝的策略如下:对于初始的密集神经网络,其卷积层四维卷积核尺寸为R×R×C×F,把R×R×C的卷积核称为一个三维卷积核,共计F个三维卷积核。对三维卷积核进行分组,每个小组的内的三维卷积核采用相同的剪枝方式;其全连接层权重矩阵的尺寸为IC×OC,由OC个列向量组成,将多个列向量归为一组,组内的列向量采用相同的剪枝方式。如图2(a)所示为将所有三维卷积核归位一组时的剪枝结果,(b)为将所有列向量归位一组时的剪枝结果。当剪枝后准确度下降明显时,会调整分组情况,将卷积核/列向量分成更多组。
如图3所示为硬件加速器结构示意图。整体结构包括了:
主控制器,用于解析从上位机CPU接收的指令流,控制网络运算的数据流并产生各模块控制信号;
计算核,根据主控制器控制信号完成稀疏卷积的乘加运算、激活运算和池化运算,产生输出激励;
输出激励编码器,对输出激励进行压缩并进行CSC(按列压缩)编码,输出激励和索引成对存储;
输入激励缓存器,缓存从片外存储器读取的输入激励和索引;
输出激励缓存器,缓存输出激励编码器产生的激励索引对;
权重缓存器,缓存从片外存储器读取的权重和索引;
片外存储器,动态随机存取存储器(DRAM),存储原始图片、权重、神经网络计算的中间结果和最终输出的特征图。
如图4所示,主控制器包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器。指令集解码器对指令集进行解码,生成各计数器的判断上限和下限。七个计数器依次级联,前一级上溢信号overflow作为下一级增信号inc,七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程。地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址,以及当前输出激励的存储地址。控制向量生成器读入计数器的输出,生成控制信号ctrl,控制计算核。
基于结构化剪枝的稀疏神经网络加速器的映射步骤为:首先,将输入特征图和卷积核分块,并将数据分发到对应计算核中;接着,每块数据计算完成时,优先沿输入通道方向更新输入激励和权重;然后沿着卷积窗口滑动的轨迹更新输入激励和权重,直到一层卷积层运算完成。因为不同计算核并行地计算输出特征图的不同输出通道,所以计算核共享相同的输入激励。图5显示了每次分发至计算核的输入激励和权重。其中,输入激励被展开成一个向量,M0个卷积核的权重被展开成一个二维矩阵,矩阵高M0,宽C0×R×R。因为输入激励和权重是稀疏的,且激励和权重均经过压缩编码,因此实际只传输非零的数据和对应的索引。
如图6所示为计算核结构图。只计算稀疏编码后的激励和权重的前提是解决数据读取的依赖。数据读取依赖来自两个方面:编码后,读取压缩权重需要先读取地址指针;读取权重前需要先读取非零激励值,再根据输入激励索引确定权重的地址指针,从而读取权重。所以为了保证计算核的吞吐量,计算核内部署了六级流水线。前两级流水线用于读取输入激励索引对,因为不同输入激励对应的非零权重数量可能不同,因此每个输入激励的有效时间可能不同。计算核会根据主控制器的使能信号决定第一级流水线中输入激励索引的生命周期。第三、四级流水线分别用于读取权重地址指针和非零权重索引对。最后两级流水线完成MAC乘加运算。MAC运算的结果根据权重索引存入部分和寄存器中。当一组输出激励计算完成后,计算核对其进行线性整流运算和池化运算,并将结果输出。
输出激励进行CSC编码,权重矩阵压缩编码方式如图7所示。由于神经网络进行了结构化剪枝,卷积核按照实施例所示映射(图5)后,权重矩阵呈现列稀疏性,即权重矩阵的某些列元素全为零。索引表示非零权重列与前一个非零权重列之间的列数,地址指针表示每一列元素的个数。网络模型压缩阶段已完成对权重的编码,非零权重和索引被存储在独立的DRAM中。所述基于结构化剪枝的稀疏神经网络加速器通过AXI总线与该DRAM相连。
图8为稀疏加速过程,示例中,R等于3,M0等于4。第一个非零激励对应的R×R列权重中仅有四列为非零值。加速开始时,计算核的激励索引寄存器收到主控制器使能信号,输出第一个索引“0”。输入激励寄存器根据该索引读出第一个非零激励“X0”。接着该索引“0”向后级传输。权重地址指针寄存器根据该索引输出第一组权重的地址指针“0”和“4”。权重寄存器根据地址指针并行输出第一组权重{a,b,c,d}。然后该组权重并行地和X0进行MAC运算,并将部分和存入部分和寄存器的第一个地址(由权重索引决定)。因为X0的生命周期为四个时钟周期,所以第五个时钟周期才有新的使能信号来到计算核。计算核开始进行非零激励X2对应的运算。如果X2没有对应的非零权重,则X2不会往下级传输。整个过程由六级流水线实现,保证了计算核的吞吐量。
利用pytorch对VGG16各卷积层输出激励进行可视化,发现总体上有近60%的输入激励为零,本发明能跳过这60%的零值激励对应的运算。若只考虑权重的稀疏性而不利用输入激励的稀疏性,当输入激励为零时,关断计算单元,则与本发明完全跳过零值激励的读取和运算相比,经对比,本发明的吞吐量提升近2.5倍。
综上所述,本发明通过结构化剪枝和数据流设计,保证输入激励和权重数据的高复用率,以及运算核的负载均衡;结合计算核的六级流水线,完全跳过了零值激励与权重的读取和运算,最大化地利用了神经网络的稀疏特性,提升了卷积神经网络加速器的吞吐率和能效。
Claims (6)
1.一种基于结构化剪枝的稀疏神经网络加速器,其特征在于,包括:
主控制器,用于解析指令集并产生输入激励、权重的读取地址和输出激励的存储地址,以及对运算流程进行控制的控制信号。
计算核,用于完成稀疏卷积的乘加运算、激活运算和池化运算;
输出激励编码器,对输出激励进行压缩并编码,产生输出激励索引对;
输出激励缓存器,缓存输出激励编码器产生的输出激励索引对;
输入激励缓存器,缓存从片外存储器读取的输入激励索引对;
权重缓存器,缓存从片外存储器读取的权重索引对;
所述的稀疏神经网络加速器通过AXI总线与片外存储器相连,所述片外存储器用于动态随机存取原始图片、权重、神经网络计算的中间结果和最终输出的特征图。
2.如权利要求1所述的基于结构化剪枝的稀疏神经网络加速器,其特征在于,所述计算核包括激励索引寄存器、激励寄存器、权重地址指针寄存器、权重寄存器、部分和寄存器、ReLu模块和池化模块;计算核内部部署六级流水线,前两级流水线上分布激励索引寄存器和激励寄存器,用于读取非零激励索引对;第三、四级流水线上分布权重地址指针寄存器和权重寄存器,分别用于读取权重地址指针和非零权重索引对;最后两级流水线设有多个部分和寄存器,用于存储MAC乘加运算的部分和结果。
3.如权利要求1所述的基于结构化剪枝的稀疏神经网络加速器,其特征在于,所述主控制器包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器;指令集解码器对指令集进行解码,生成各计数器的判断上限和下限;七个计数器依次级联,前一级上溢信号作为下一级增信号,七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程;地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址,以及当前输出激励的存储地址;控制向量生成器读入计数器的输出,生成控制信号,用于控制计算核。
4.一种权利要求2所述的基于结构化剪枝的稀疏神经网络加速器的加速方法,其特征在于,包括以下步骤:
S01:对神经网络进行结构化剪枝,得到压缩模型和表征压缩权重位置的索引集;
S02:结合压缩模型网络各层参数,将压缩模型映射到硬件,以指令流的形式表示映射关系;
S03:主控制器载入指令流,产生输入激励、权重的读取地址和输出激励的存储地址,将输入激励索引对和权重索引对分别存储到输入激励缓存器和权重缓存器;将输入特征图和卷积核分块,并将每一块的输入激励和权重分发到对应的计算核中;
S04:计算核的前两级流水线上的激励索引寄存器和激励寄存器读取非零激励索引对,在一个非零激励索引对被读取后,第三、四级流水线读取对应的非零权重;权重地址指针寄存器根据输入激励索引输出对应的权重地址的头指针和尾指针,权重寄存器根据地址指针输出多个权重索引对;第五、六级流水线进行乘加运算,运算结果存储在部分和寄存器中;每块数据计算完成时,首先沿输入通道方向更新输入激励和权重,然后沿卷积窗口滑动的轨迹更新输入激励和权重,直到一层卷积层运算完成;当稀疏卷积运算完成后,再经线性整流运算和池化运算,产生输出激励并从计算核输出;
S05:进行输出激励的压缩编码,并将输出激励和索引对存储到输出激励缓存器;
S06:判断当前层是否为最后一层,如果不是,返回步骤S04;否则将输出激励直接输出到片外存储器,完成整个神经网络的推理加速。
5.如权利要求4所述的基于结构化剪枝的稀疏神经网络加速器的加速方法,其特征在于,每个计算核并行计算多张特征图,计算核内的每个乘法器共享相同的输入激励,且将输入激励在时间维度上进行复用。
6.如权利要求4所述的基于结构化剪枝的稀疏神经网络加速器的加速方法,其特征在于,所述的结构化剪枝具体为:对于初始的密集神经网络,将四维卷积核分为多个三维卷积核,卷积层中不同三维卷积核的相同位置的权重同时剪去,全连接层中权重矩阵的某些行整行剪去。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911268184.9A CN111062472B (zh) | 2019-12-11 | 2019-12-11 | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911268184.9A CN111062472B (zh) | 2019-12-11 | 2019-12-11 | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062472A true CN111062472A (zh) | 2020-04-24 |
CN111062472B CN111062472B (zh) | 2023-05-12 |
Family
ID=70300572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911268184.9A Active CN111062472B (zh) | 2019-12-11 | 2019-12-11 | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062472B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832705A (zh) * | 2020-06-30 | 2020-10-27 | 南京航空航天大学 | 一种卷积神经网络的压缩方法及其实现电路 |
CN112015473A (zh) * | 2020-07-23 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015472A (zh) * | 2020-07-16 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
US11030528B1 (en) * | 2020-01-20 | 2021-06-08 | Zhejiang University | Convolutional neural network pruning method based on feature map sparsification |
CN112926733A (zh) * | 2021-03-10 | 2021-06-08 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN113077047A (zh) * | 2021-04-08 | 2021-07-06 | 华南理工大学 | 一种基于特征图稀疏性的卷积神经网络加速器 |
CN113254391A (zh) * | 2021-06-25 | 2021-08-13 | 之江实验室 | 一种神经网络加速器卷积计算和数据载入并行方法及装置 |
CN113313247A (zh) * | 2021-02-05 | 2021-08-27 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏神经网络的运算方法 |
CN113673690A (zh) * | 2021-07-20 | 2021-11-19 | 天津津航计算技术研究所 | 一种水下噪声分类卷积神经网络加速器 |
CN113723044A (zh) * | 2021-09-10 | 2021-11-30 | 上海交通大学 | 一种基于数据稀疏性的超额行激活存算一体加速器设计 |
CN113780529A (zh) * | 2021-09-08 | 2021-12-10 | 北京航空航天大学杭州创新研究院 | 一种面向fpga的稀疏卷积神经网络多级存储计算系统 |
WO2023044707A1 (en) * | 2021-09-24 | 2023-03-30 | Intel Corporation | Methods and apparatus to accelerate convolution |
US11763150B2 (en) | 2020-06-30 | 2023-09-19 | Moffett International Co., Limited | Method and system for balanced-weight sparse convolution processing |
CN117273101B (zh) * | 2020-06-30 | 2024-05-24 | 墨芯人工智能科技(深圳)有限公司 | 用于均衡权重稀疏卷积处理的方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341544A (zh) * | 2017-06-30 | 2017-11-10 | 清华大学 | 一种基于可分割阵列的可重构加速器及其实现方法 |
CN107609641A (zh) * | 2017-08-30 | 2018-01-19 | 清华大学 | 稀疏神经网络架构及其实现方法 |
CN109598338A (zh) * | 2018-12-07 | 2019-04-09 | 东南大学 | 一种基于fpga的计算优化的卷积神经网络加速器 |
CN109711532A (zh) * | 2018-12-06 | 2019-05-03 | 东南大学 | 一种针对硬件实现稀疏化卷积神经网络推断的加速方法 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
CN110110851A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种lstm神经网络的fpga加速器及其加速方法 |
CN110378468A (zh) * | 2019-07-08 | 2019-10-25 | 浙江大学 | 一种基于结构化剪枝和低比特量化的神经网络加速器 |
CN110390383A (zh) * | 2019-06-25 | 2019-10-29 | 东南大学 | 一种基于幂指数量化的深度神经网络硬件加速器 |
-
2019
- 2019-12-11 CN CN201911268184.9A patent/CN111062472B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341544A (zh) * | 2017-06-30 | 2017-11-10 | 清华大学 | 一种基于可分割阵列的可重构加速器及其实现方法 |
CN107609641A (zh) * | 2017-08-30 | 2018-01-19 | 清华大学 | 稀疏神经网络架构及其实现方法 |
CN109711532A (zh) * | 2018-12-06 | 2019-05-03 | 东南大学 | 一种针对硬件实现稀疏化卷积神经网络推断的加速方法 |
CN109598338A (zh) * | 2018-12-07 | 2019-04-09 | 东南大学 | 一种基于fpga的计算优化的卷积神经网络加速器 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
CN110110851A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种lstm神经网络的fpga加速器及其加速方法 |
CN110390383A (zh) * | 2019-06-25 | 2019-10-29 | 东南大学 | 一种基于幂指数量化的深度神经网络硬件加速器 |
CN110378468A (zh) * | 2019-07-08 | 2019-10-25 | 浙江大学 | 一种基于结构化剪枝和低比特量化的神经网络加速器 |
Non-Patent Citations (2)
Title |
---|
WEI XU, YI LI, JINGHONG MIAO, AND JIAXIANG ZHAO: "Design of Sparse Cosine-Modulated Filter Banks Using BP Neural Network", 《IN PROCEEDINGS OF THE 2018 INTERNATIONAL CONFERENCE ON ELECTRONICS AND ELECTRICAL ENGINEERING TECHNOLOGY (EEET "18)》 * |
查羿,潘红兵: "一种负载均衡的LSTM硬件加速器设计", 《南京大学学报(自然科学)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11030528B1 (en) * | 2020-01-20 | 2021-06-08 | Zhejiang University | Convolutional neural network pruning method based on feature map sparsification |
CN111832705A (zh) * | 2020-06-30 | 2020-10-27 | 南京航空航天大学 | 一种卷积神经网络的压缩方法及其实现电路 |
US11763150B2 (en) | 2020-06-30 | 2023-09-19 | Moffett International Co., Limited | Method and system for balanced-weight sparse convolution processing |
CN117273101A (zh) * | 2020-06-30 | 2023-12-22 | 墨芯人工智能科技(深圳)有限公司 | 用于均衡权重稀疏卷积处理的方法及系统 |
CN111832705B (zh) * | 2020-06-30 | 2024-04-02 | 南京航空航天大学 | 一种卷积神经网络的压缩方法及其实现电路 |
CN117273101B (zh) * | 2020-06-30 | 2024-05-24 | 墨芯人工智能科技(深圳)有限公司 | 用于均衡权重稀疏卷积处理的方法及系统 |
CN112015472B (zh) * | 2020-07-16 | 2023-12-12 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015472A (zh) * | 2020-07-16 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015473A (zh) * | 2020-07-23 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015473B (zh) * | 2020-07-23 | 2023-06-27 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN113313247A (zh) * | 2021-02-05 | 2021-08-27 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏神经网络的运算方法 |
CN113313247B (zh) * | 2021-02-05 | 2023-04-07 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏神经网络的运算方法 |
CN112926733A (zh) * | 2021-03-10 | 2021-06-08 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN112926733B (zh) * | 2021-03-10 | 2022-09-16 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN113077047A (zh) * | 2021-04-08 | 2021-07-06 | 华南理工大学 | 一种基于特征图稀疏性的卷积神经网络加速器 |
CN113077047B (zh) * | 2021-04-08 | 2023-08-22 | 华南理工大学 | 一种基于特征图稀疏性的卷积神经网络加速器 |
CN113254391A (zh) * | 2021-06-25 | 2021-08-13 | 之江实验室 | 一种神经网络加速器卷积计算和数据载入并行方法及装置 |
CN113673690A (zh) * | 2021-07-20 | 2021-11-19 | 天津津航计算技术研究所 | 一种水下噪声分类卷积神经网络加速器 |
CN113673690B (zh) * | 2021-07-20 | 2024-05-28 | 天津津航计算技术研究所 | 一种水下噪声分类卷积神经网络加速器 |
CN113780529B (zh) * | 2021-09-08 | 2023-09-12 | 北京航空航天大学杭州创新研究院 | 一种面向fpga的稀疏卷积神经网络多级存储计算系统 |
CN113780529A (zh) * | 2021-09-08 | 2021-12-10 | 北京航空航天大学杭州创新研究院 | 一种面向fpga的稀疏卷积神经网络多级存储计算系统 |
CN113723044A (zh) * | 2021-09-10 | 2021-11-30 | 上海交通大学 | 一种基于数据稀疏性的超额行激活存算一体加速器设计 |
CN113723044B (zh) * | 2021-09-10 | 2024-04-05 | 上海交通大学 | 一种基于数据稀疏性的超额行激活存算一体加速器设计方法 |
WO2023044707A1 (en) * | 2021-09-24 | 2023-03-30 | Intel Corporation | Methods and apparatus to accelerate convolution |
Also Published As
Publication number | Publication date |
---|---|
CN111062472B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062472A (zh) | 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法 | |
CN110378468B (zh) | 一种基于结构化剪枝和低比特量化的神经网络加速器 | |
CN108241890B (zh) | 一种可重构神经网络加速方法及架构 | |
CN111242289B (zh) | 一种规模可扩展的卷积神经网络加速系统与方法 | |
US20180157969A1 (en) | Apparatus and Method for Achieving Accelerator of Sparse Convolutional Neural Network | |
CN108805266A (zh) | 一种可重构cnn高并发卷积加速器 | |
CN105528191B (zh) | 数据累加装置、方法及数字信号处理装置 | |
CN109472350A (zh) | 一种基于块循环稀疏矩阵的神经网络加速系统 | |
CN112200300B (zh) | 卷积神经网络运算方法及装置 | |
CN107239823A (zh) | 一种用于实现稀疏神经网络的装置和方法 | |
CN112257844B (zh) | 一种基于混合精度配置的卷积神经网络加速器及其实现方法 | |
CN109840585B (zh) | 一种面向稀疏二维卷积的运算方法和系统 | |
CN112668708B (zh) | 一种提高数据利用率的卷积运算装置 | |
CN112286864B (zh) | 加速可重构处理器运行的稀疏化数据处理方法及系统 | |
CN112465110A (zh) | 一种卷积神经网络计算优化的硬件加速装置 | |
CN109993293A (zh) | 一种适用于堆叠式沙漏网络的深度学习加速器 | |
WO2021203125A1 (en) | Processing data stream modification to reduce power effects during parallel processing | |
CN110414672B (zh) | 卷积运算方法、装置及系统 | |
CN113762493A (zh) | 神经网络模型的压缩方法、装置、加速单元和计算系统 | |
CN113158132A (zh) | 一种基于非结构化稀疏的卷积神经网络加速系统 | |
CN111667052A (zh) | 专用神经网络加速器的标准与非标准卷积一致性变换方法 | |
CN104572588A (zh) | 矩阵求逆处理方法和装置 | |
Wang et al. | Balancing memory-accessing and computing over sparse DNN accelerator via efficient data packaging | |
CN110766136A (zh) | 一种稀疏矩阵与向量的压缩方法 | |
GB2602570A (en) | Selecting encoding options |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |