CN110378468B - 一种基于结构化剪枝和低比特量化的神经网络加速器 - Google Patents

一种基于结构化剪枝和低比特量化的神经网络加速器 Download PDF

Info

Publication number
CN110378468B
CN110378468B CN201910609993.5A CN201910609993A CN110378468B CN 110378468 B CN110378468 B CN 110378468B CN 201910609993 A CN201910609993 A CN 201910609993A CN 110378468 B CN110378468 B CN 110378468B
Authority
CN
China
Prior art keywords
weight
excitation
accelerator
neural network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910609993.5A
Other languages
English (en)
Other versions
CN110378468A (zh
Inventor
黄科杰
朱超阳
沈海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910609993.5A priority Critical patent/CN110378468B/zh
Publication of CN110378468A publication Critical patent/CN110378468A/zh
Priority to PCT/CN2020/099891 priority patent/WO2021004366A1/zh
Application granted granted Critical
Publication of CN110378468B publication Critical patent/CN110378468B/zh
Priority to US17/485,645 priority patent/US20220012593A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本发明公开了一种基于结构化剪枝和低比特量化的神经网络加速器,采用软硬件协同优化,对卷积神经网络进行结构化剪枝和低比特量化,并基于此在FPGA上设计的硬件加速器。该加速器通过结构化剪枝和计算阵列上的数据共享,充分利用神经网络推理运算过程中的数据可重利用性,降低筛选有效计算的输入激励和权重的功耗,缓解激励选择单元和计算阵列之间的高传输带宽压力,结合低比特量化技术,减小权重参数的数量和存储位宽,进一步提升卷积神经网络加速器的吞吐率和能效。本发明的神经网络加速器可减轻剪枝后神经网络运算的不规则性对加速器利用剪枝提升性能和能效的负面影响,且可在一定范围的预测准确度损失下,提升加速器加速效果,降低加速器功耗。

Description

一种基于结构化剪枝和低比特量化的神经网络加速器
技术领域
本发明公开了一种稀疏卷积神经网络加速器,尤其涉及一种基于结构化剪枝和低比特量化的神经网络加速器,涉及稀疏卷积神经网络加速以及低比特量化技术。
背景技术
卷积神经网络在计算机视觉、机器人控制、视频分析、语音识别、自然语言处理、定向广告推荐和网络搜索等广泛应用中迅速发挥作用。虽然卷积神经网络能提供出色的效果,但是它运算参数量大,计算复杂度高。由于传统处理器性能和功耗的限制,使得大规模的卷积神经网络很难在嵌入式或终端设备上进行实现。因此,在保证卷积神经网络预测准确度的前提下,压缩网络模型和设计专用的硬件加速器成为了目前研究的热点。
网络模型压缩的方法包括:剪枝、量化、块循环表示等。剪枝后,神经网络变得稀疏,卷积核被压缩存储,不同卷积核中被剪去的权重可能不同,导致网络的推理运算存在不规则性。基于稀疏神经网络的加速器架构需要克服这种不规则性,以利用剪枝进一步改善加速器性能和能效。目前克服上述不规则性的方法主要有两种:第一种方法将输入激励向量和权重向量进行笛卡尔积运算,同时计算输出激励在输出特征图中的坐标,再用计算所得的坐标控制矩阵开关将笛卡尔积运算结果存到对应的位置;第二种方法是先读取压缩权重,再恢复压缩权重值在原权重矩阵中的位置,然后将输入激励向量和权重向量进行相与,筛选出有效计算的输入激励和权重值进行运算(两种同时为非零值时才是有效计算)。所述有效计算指输入激励和权重均为非零值时,它们相乘的过程称为有效计算。第一种方法的问题是需要额外计算输出激励的坐标,增加了计算功耗。同时对卷积层进行笛卡尔积运算会使输出存在哈希冲突,而对全连接层进行笛卡尔积运算只有部分输出有效。第二种方法的问题是卷积运算中每个输入激励需要和不同三维卷积核中权重相乘,因此输入激励和不同三维卷积核都要进行筛选,筛选过程会带来大量功耗,并且筛选单元输出的高扇出会增加设计布线和时序优化的难度。这两种方法都对卷积神经网络加速器利用剪枝提升性能和能效带来了负面影响。
当前基于稀疏神经网络的加速器多采用半精度浮点数或定点数运算,也有个别加速器使用权重共享的方法,对权重进行编码后存储和传输,在计算时进行解码,计算精度仍旧是半精度浮点数。研究表明,对卷积神经网络进行低比特量化,能够在不显著降低预测准确度的前提下,减小权重的位宽,降低硬件乘加运算的功耗。
发明内容
针对现有技术的不足,本发明提出一种基于结构化剪枝和低比特量化的神经网络加速器,旨在减轻剪枝后神经网络运算的不规则性对加速器利用剪枝提升性能和能效的负面影响,并结合低比特量化技术,在一定范围的预测准确度损失下,提升加速器加速效果,降低加速器功耗。
本发明采用软硬件协同优化,对卷积神经网络进行结构化剪枝和低比特量化,并基于此在FPGA上设计硬件加速器。具体技术方案如下:
所述基于结构化剪枝和低比特量化的神经网络加速器的工作流程,如图1:
S01:对神经网络进行结构化剪枝和低比特量化,得到压缩模型和表征压缩权重位置的索引集;
S02:对压缩模型进行分析,得到网络各层的参数和操作数位宽,并结合给定的硬件资源确定可扩展计算阵列的尺寸,结合网络各层参数和计算阵列尺寸完成压缩网络到硬件的映射,以指令集的形式表示映射关系;
S03:将主控制器、激励选择单元、处理单元等加速器组成部分以IP核的形式预先设计好,根据计算阵列尺寸调用IP核组成加速器系统;
S04:加速器读入输入激励、网络压缩模型、索引集和指令集,开启加速器。
所述基于结构化剪枝和低比特量化的神经网络加速器包括:主控制器、激励选择单元、可扩展计算阵列、多功能处理单元、DMA、DRAM和缓存器。整体结构如图2所示。
主控制器负责解析指令集,产生输入激励、权重的读取地址和输出激励的存储地址,以及对运算流程进行控制的控制信号。主控制器结构如图3所示,其包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器。指令集解码器对指令集进行解码,生成各计数器的判断上限和下限。七个计数器依次级联,前一级上溢信号overflow作为下一级增信号inc,七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程。地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址,以及当前输出激励的存储地址,并传输给DMA。控制向量生成器读入计数器的输出,生成控制信号ctrl,控制激励选择单元和计算阵列。
激励选择单元,根据索引集跳过零值权重对应的计算过程,选出非零值权重对应的输入激励和权重索引传输给计算阵列。如图4,激励选择单元包括:输入激励寄存器、索引解码器和选择器。输入激励寄存器根据主控制器的控制信号{pop,push},完成输入激励的读入和推出。索引解码器将权重索引解码,生成跳变量jump。选择器根据jump信号实现输入激励的筛选。
可扩展计算阵列,计算阵列由N×M个处理单元(PE)组成,每个PE存储神经网络的部分权重,根据接收的索引确定权重的读取地址,并判断接收的输入激励是否为零从而控制权重的读取和PE内乘法器的开关;根据主控制器的控制信号判断当前计算的输出激励是否完成了一个输入通道的输入激励和权重的卷积,如果是,则将输出激励存储到输出激励缓存器。
多功能处理单元,完成网络的池化、激活和归一化运算。
DMA连接DRAM和缓存器,根据主控制器的控制信息管理数据的读写。
DRAM,神经网络的参数数量巨大,对于VGG-16等大型网络而言,即使经过模型压缩,也难以把权重完全存在缓存器内。同时网络部分层的输出特征图尺寸巨大,同样需要DRAM。
缓存器,包括输入激励缓存器、输出激励缓存器和索引缓存器。网络分块进行计算,需要重复使用的数据存在缓存器中,以减少对DRAM的重复读取,降低读取功耗。
进一步的,所述的结构化剪枝过程可以如图5所示,卷积层中不同三维卷积核相同位置的权重被同时剪去,即不同卷积核具有相同的索引。激励选择单元只需要将输入特征图和一个卷积核索引进行筛选,即可得到所有有效计算的输入激励和权重索引;全连接层中权重矩阵的某些行被整行剪去,输入激励行向量的对应列元素不需要进行计算,因此可以不被存储。
进一步的,所述的映射具体为:对于具有N×M个PE的计算阵列,卷积层计算时,计算阵列的每一行计算单元共享相同的权重,每一列共享相同的输入激励,因此整个计算阵列共享N个输入激励和一个权重索引;全连接层计算时,计算阵列每一行共享相同的输入激励,每个PE的权重各不相同,但是结构化剪枝使得同一列PE的权重索引相同,因此计算阵列共享N个输入激励和N个权重索引。
进一步的,所述的低比特量化具体为:对网络权重参数wi进行以2为底的对数量化,量化结果
Figure BDA0002122048330000041
时,向上取整;反之,向下取整。不同网络具有不同的量化位宽要求。计算输入激励和权重的乘积时,可以用移位操作实现乘法运算。
本发明的优点如下:
本发明通过结构化剪枝和计算阵列上的数据共享,充分利用了神经网络推理运算过程中的数据可重利用性,降低了筛选有效计算的输入激励和权重的功耗,缓解了激励选择单元和计算阵列之间的高传输带宽压力,结合低比特量化技术,减小了权重参数的数量和存储位宽,进一步提升了卷积神经网络加速器的吞吐率和能效。
附图说明
图1加速器工作流程图;
图2硬件加速器顶层架构;
图3主控制器结构图;
图4激励选择单元结构图;
图5结构化剪枝示例图,(a)卷积核的结构化剪枝;(b)权重矩阵的结构化剪枝;
图6压缩权重和索引图;
图7卷积运算模式图;
图8全连接层运算模式图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。
本实施例对神经网络进行结构化剪枝,剪枝后稀疏网络的权重经过按行压缩再存储,同时还需存储记录权重位置的索引和行指针,如图6。索引表示两个非零权重之间“0”的个数,每一行的第一个非零权重的索引等于该行内此非零权重之前“0”的个数。行指针表示每一行内非零权重的总数。
本实施例对结构化剪枝后的神经网络模型进行低比特量化,量化过程可由以下公式表示:
Figure BDA0002122048330000051
w′i=Quantize[log2wi] (2)
其中,w表示权重向量,x表示输入激励。函数Bitshift(a,b)表示将a移动b位,移动方向由b的符号决定。当b>0时,Bitshift(a,b)将a向左移b位,反之,向右移。函数Quantize[y]对y进行取整。当
Figure BDA0002122048330000052
时,向上取整,反之,向下取整。经过量化后,输入激励和权重的乘法运算转化为了移位运算,运算功耗大大降低。
本实施例将卷积层分块计算,并将卷积运算的循环展开,以充分利用计算阵列的并行性,提高数据的重利用。卷积层分块计算和循环展开的伪代码如下:
Figure BDA0002122048330000061
本实施例运用循环展开使计算阵列同时计算输出特征图的N个通道的M个输出激励,即计算阵列的不同行计算输出特征图的不同通道,同一行内的不同计算单元计算输出特征图某一通道的不同输出激励。因此,计算阵列的每一行共享相同的权重,每一列共享相同的输入激励。同时,输入到不同行的权重来自不同三维卷积核的相同位置,结构化剪枝后同一层内不同三维卷积核具有相同的索引,因此整个计算阵列共享同一个权重索引。
本实施例将输入特征图X(H,W,C)与四维卷积核W(R,R,C,F)卷积得到输出特征图(U,V,F)的过程映射到N×M计算阵列,映射关系如下:
Figure BDA0002122048330000062
Figure BDA0002122048330000063
本实施例中,卷积到计算阵列每一行的映射是相同的,图7描述了输入特征图X(10,10,1)与四维卷积核W(3,3,1,16)的卷积过程在计算阵列某一行的运算模式,假设计算阵列每一行只有4个PE。图7(a)为不经过结构化剪枝的网络卷积运算模式,因为V=8,所以owmax=2,即每个PE需要计算两个输出激励。图7(b)为结构化剪枝网络的卷积运算模式,相比于(a),模式(b)根据索引判断权重是否为零,权重为零时对应的计算可以跳过,判断过程在激励选择单元实现。
本实施例中,全连接层的运算如图8,权重矩阵的某些行被整行剪去,因此输入激励向量的对应列元素不参与计算。本实施例在当前层的下一层是全连接层时,用下一层的权重索引筛选当前层的输出激励,如图8(b),并构建流水线将筛选过程隐藏在当前层输出激励计算和下一层输入激励读取之间,如图8(c)。
本实施例中,激励选择单元实现输入激励的筛选。计算卷积层时,激励选择单元根据主控制器的控制信息读取权重索引jump,输入激励向量Data_in包含2M个输入激励,选择器将Data_in>>jump,以跳过权重为0时的计算。当权重计算到每一行最后一个权重时,主控制器给激励选择单元push信号,把新的输入激励存入激励寄存器中;当计算完一行权重时,主控制器给激励单元pop信号,输出新的输入激励向量Data_in。计算全连接层时,选择器读入当前层的输出激励和下一层的索引,筛选出非零权重对应的输出激励。

Claims (5)

1.一种基于结构化剪枝和低比特量化的神经网络加速器,其特征在于,该加速器是采用软硬件协同优化,对卷积神经网络进行结构化剪枝和低比特量化,并基于此在FPGA上设计硬件,包括主控制器、激励选择单元、可扩展计算阵列、多功能处理单元、DMA、DRAM和缓存器;
主控制器负责解析指令集,产生输入激励、权重的读取地址和输出激励的存储地址,以及对运算流程进行控制的控制信号;
激励选择单元,根据索引集跳过零值权重对应的计算过程,选出非零值权重对应的输入激励和权重索引传输给计算阵列;
可扩展计算阵列,计算阵列由N×M个处理单元PE组成,每个PE存储神经网络的部分权重,根据接收的索引确定权重的读取地址,并判断接收的输入激励是否为零从而控制权重的读取和PE内乘法器的开关;根据主控制器的控制信号判断当前计算的输出激励是否完成了一个输入通道的输入激励和权重的卷积,如果是,则将输出激励存储到输出激励缓存器;
多功能处理单元,完成网络的池化、激活和归一化运算;
DMA连接DRAM和缓存器,根据主控制器的控制信息管理数据的读写;
所述的加速器的工作流程如下:
S01:对神经网络进行结构化剪枝和低比特量化,得到压缩模型和表征压缩权重位置的索引集;结构化剪枝过程如下:卷积层中不同三维卷积核相同位置的权重被同时剪去,即不同卷积核具有相同的索引,激励选择单元只需要将输入特征图和一个卷积核索引进行筛选,即可得到所有有效计算的输入激励和权重索引;全连接层中权重矩阵的部分行被整行剪去,输入激励行向量的对应列元素不需要进行计算,不被存储;
S02:对压缩模型进行分析,得到网络各层的参数和操作数位宽,并结合给定的硬件资源确定可扩展计算阵列的尺寸,结合网络各层参数和计算阵列尺寸完成压缩网络到硬件的映射,以指令集的形式表示映射关系;
S03:将加速器组成部分:主控制器、激励选择单元、处理单元以IP核的形式预先设计好,根据计算阵列尺寸调用IP核组成加速器系统;
S04:加速器读入输入激励、网络压缩模型、索引集和指令集,开启加速器。
2.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器,其特征在于,所述的主控制器包含一个指令集解码器、一个地址生成器、一个控制向量生成器和七个计数器;指令集解码器对指令集进行解码,生成各计数器的判断上限和下限;七个计数器依次级联,前一级上溢信号overflow作为下一级增信号inc,七个计数器的输出{kw,kh,ow,oh,ic,oc,l}表示加速进程;地址生成器根据计数器的输出生成下一个时钟周期计算所需的输入激励和权重的读取地址,以及当前输出激励的存储地址,并传输给DMA;控制向量生成器读入计数器的输出,生成控制信号ctrl,控制激励选择单元和计算阵列。
3.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器,其特征在于,所述的激励选择单元包括:输入激励寄存器、索引解码器和选择器;输入激励寄存器根据主控制器的控制信号{pop,push},完成输入激励的读入和推出;索引解码器将权重索引解码,生成跳变量jump;选择器根据jump信号实现输入激励的筛选。
4.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器,其特征在于,S02中所述的映射具体为:对于具有N×M个PE的计算阵列,卷积层计算时,计算阵列的每一行计算单元共享相同的权重,每一列共享相同的输入激励,因此整个计算阵列共享N个输入激励和一个权重索引;全连接层计算时,计算阵列每一行共享相同的输入激励,每个PE的权重各不相同,但是结构化剪枝使得同一列PE的权重索引相同 ,因此计算阵列共享N个输入激励和N个权重索引。
5.根据权利要求1所述的基于结构化剪枝和低比特量化的神经网络加速器,其特征在 于,S01所述的低比特量化具体为:对网络权重参数wi进行以2为底的对数量化,量化结果
Figure DEST_PATH_IMAGE001
时,向上取整;反之,向下取整。
CN201910609993.5A 2019-07-08 2019-07-08 一种基于结构化剪枝和低比特量化的神经网络加速器 Active CN110378468B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910609993.5A CN110378468B (zh) 2019-07-08 2019-07-08 一种基于结构化剪枝和低比特量化的神经网络加速器
PCT/CN2020/099891 WO2021004366A1 (zh) 2019-07-08 2020-07-02 基于结构化剪枝和低比特量化的神经网络加速器及方法
US17/485,645 US20220012593A1 (en) 2019-07-08 2021-09-27 Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910609993.5A CN110378468B (zh) 2019-07-08 2019-07-08 一种基于结构化剪枝和低比特量化的神经网络加速器

Publications (2)

Publication Number Publication Date
CN110378468A CN110378468A (zh) 2019-10-25
CN110378468B true CN110378468B (zh) 2020-11-20

Family

ID=68252417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910609993.5A Active CN110378468B (zh) 2019-07-08 2019-07-08 一种基于结构化剪枝和低比特量化的神经网络加速器

Country Status (3)

Country Link
US (1) US20220012593A1 (zh)
CN (1) CN110378468B (zh)
WO (1) WO2021004366A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738428B (zh) * 2019-03-25 2023-08-25 上海寒武纪信息科技有限公司 计算装置、方法及相关产品
US11487998B2 (en) 2019-06-17 2022-11-01 Qualcomm Incorporated Depth-first convolution in deep neural networks
CN110378468B (zh) * 2019-07-08 2020-11-20 浙江大学 一种基于结构化剪枝和低比特量化的神经网络加速器
CN110796238B (zh) * 2019-10-29 2020-12-08 上海安路信息科技有限公司 基于arm架构fpga硬件系统的卷积神经网络权重压缩方法及其装置
CN110889204B (zh) * 2019-11-06 2021-07-30 北京中科胜芯科技有限公司 一种神经网络模型参数压缩方法
CN110852422B (zh) * 2019-11-12 2022-08-16 吉林大学 基于脉冲阵列的卷积神经网络优化方法及装置
CN110991608B (zh) * 2019-11-25 2021-08-13 恒烁半导体(合肥)股份有限公司 一种卷积神经网络量化计算方法及系统
CN111062472B (zh) * 2019-12-11 2023-05-12 浙江大学 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN111242277B (zh) * 2019-12-27 2023-05-05 中国电子科技集团公司第五十二研究所 一种基于fpga设计的支持稀疏剪枝的卷积神经网络加速器
CN111401554B (zh) * 2020-03-12 2023-03-24 交叉信息核心技术研究院(西安)有限公司 支持多粒度稀疏与多模式量化的卷积神经网络的加速器
KR102474787B1 (ko) * 2020-03-30 2022-12-06 포항공과대학교 산학협력단 일정한 확률의 인덱스 매칭을 수행하는 희소성 인식 신경 처리 유닛 및 처리 방법
CN111563589B (zh) * 2020-04-14 2024-01-16 中科物栖(南京)科技有限公司 一种神经网络模型的量化方法及装置
CN111582446B (zh) * 2020-04-28 2022-12-06 北京达佳互联信息技术有限公司 用于神经网络剪枝的系统和神经网络的剪枝处理方法
CN111738427B (zh) * 2020-08-14 2020-12-29 电子科技大学 一种神经网络的运算电路
CN114186677A (zh) * 2020-09-15 2022-03-15 中兴通讯股份有限公司 加速器参数确定方法及装置、计算机可读介质
CN113159302B (zh) * 2020-12-15 2022-07-19 浙江大学 一种用于可重构神经网络处理器的路由结构
CN112631983B (zh) * 2020-12-28 2023-05-02 电子科技大学 一种面向稀疏神经网络的片上系统
CN112819684B (zh) * 2021-03-02 2022-07-26 成都视海芯图微电子有限公司 一种面向图像文本识别的加速装置
CN112926733B (zh) * 2021-03-10 2022-09-16 之江实验室 一种语音关键词检测专用芯片
CN113052307B (zh) * 2021-03-16 2022-09-06 上海交通大学 一种面向忆阻器加速器的神经网络模型压缩方法及系统
CN115222015A (zh) 2021-04-21 2022-10-21 阿里巴巴新加坡控股有限公司 指令处理装置、加速单元和服务器
US11775317B2 (en) * 2021-04-30 2023-10-03 International Business Machines Corporation Locate neural network performance hot spots
CN113408723B (zh) * 2021-05-19 2023-04-07 北京理工大学 一种面向遥感应用的卷积神经网络剪枝和量化同步压缩方法
CN113269312B (zh) * 2021-06-03 2021-11-09 华南理工大学 一种联合量化与剪枝搜索的模型压缩方法及其系统
CN113361695B (zh) * 2021-06-30 2023-03-24 南方电网数字电网研究院有限公司 卷积神经网络加速器
CN113487020B (zh) * 2021-07-08 2023-10-17 中国科学院半导体研究所 用于神经网络计算的参差存储结构及神经网络计算方法
CN113657595B (zh) * 2021-08-20 2024-03-12 中国科学院计算技术研究所 基于神经网络实时剪枝的神经网络加速器
CN114781629B (zh) * 2022-04-06 2024-03-05 合肥工业大学 基于并行复用的卷积神经网络的硬件加速器及并行复用方法
CN114463161B (zh) * 2022-04-12 2022-09-13 之江实验室 一种基于忆阻器的神经网络处理连续图像的方法和装置
CN115374935B (zh) * 2022-09-15 2023-08-11 重庆大学 一种神经网络的剪枝方法
CN115393174B (zh) * 2022-10-27 2023-03-24 之江实验室 一种粗粒度的图像神经网络加速器指令集架构方法及装置
CN115965067B (zh) * 2023-02-01 2023-08-25 苏州亿铸智能科技有限公司 一种针对ReRAM的神经网络加速器
CN115828044B (zh) * 2023-02-17 2023-05-19 绍兴埃瓦科技有限公司 基于神经网络双重稀疏性矩阵乘法运算电路、方法和装置
CN115879530B (zh) * 2023-03-02 2023-05-05 湖北大学 一种面向rram存内计算系统阵列结构优化的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389208A (zh) * 2017-08-09 2019-02-26 上海寒武纪信息科技有限公司 数据的量化装置及量化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916531B1 (en) * 2017-06-22 2018-03-13 Intel Corporation Accumulator constrained quantization of convolutional neural networks
CN107977704B (zh) * 2017-11-10 2020-07-31 中国科学院计算技术研究所 权重数据存储方法和基于该方法的神经网络处理器
CN109472350B (zh) * 2018-10-30 2021-11-16 南京大学 一种基于块循环稀疏矩阵的神经网络加速系统
CN109598338B (zh) * 2018-12-07 2023-05-19 东南大学 一种基于fpga的计算优化的卷积神经网络加速器
CN109886397A (zh) * 2019-03-21 2019-06-14 西安交通大学 一种针对卷积层的神经网络结构化剪枝压缩优化方法
CN110378468B (zh) * 2019-07-08 2020-11-20 浙江大学 一种基于结构化剪枝和低比特量化的神经网络加速器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389208A (zh) * 2017-08-09 2019-02-26 上海寒武纪信息科技有限公司 数据的量化装置及量化方法

Also Published As

Publication number Publication date
WO2021004366A1 (zh) 2021-01-14
CN110378468A (zh) 2019-10-25
US20220012593A1 (en) 2022-01-13

Similar Documents

Publication Publication Date Title
CN110378468B (zh) 一种基于结构化剪枝和低比特量化的神经网络加速器
CN111062472B (zh) 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN110058883B (zh) 一种基于opu的cnn加速方法及系统
US11847550B2 (en) Sparse convolutional neural network accelerator
CN110555450B (zh) 人脸识别神经网络调整方法和装置
US20180204110A1 (en) Compressed neural network system using sparse parameters and design method thereof
Sohoni et al. Low-memory neural network training: A technical report
CN110413255B (zh) 人工神经网络调整方法和装置
CN110555508B (zh) 人工神经网络调整方法和装置
CN109543830B (zh) 一种用于卷积神经网络加速器的拆分累加器
CN112200300B (zh) 卷积神经网络运算方法及装置
Nakahara et al. High-throughput convolutional neural network on an FPGA by customized JPEG compression
US20220164663A1 (en) Activation Compression Method for Deep Learning Acceleration
Fan et al. Reconfigurable acceleration of 3D-CNNs for human action recognition with block floating-point representation
CN112329910A (zh) 一种面向结构剪枝结合量化的深度卷积神经网络压缩方法
CN112598129A (zh) 基于ReRAM神经网络加速器的可调硬件感知的剪枝和映射框架
CN112668708A (zh) 一种提高数据利用率的卷积运算装置
CN113392973A (zh) 一种基于fpga的ai芯片神经网络加速方法
Struharik et al. Conna–compressed cnn hardware accelerator
Abd El-Maksoud et al. Power efficient design of high-performance convolutional neural networks hardware accelerator on FPGA: A case study with GoogLeNet
Niu et al. SPEC2: Spectral sparse CNN accelerator on FPGAs
Qi et al. Learning low resource consumption cnn through pruning and quantization
Guo et al. A high-efficiency fpga-based accelerator for binarized neural network
CN110414672B (zh) 卷积运算方法、装置及系统
US10559093B2 (en) Selecting encoding options

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant