CN115374935A - 一种神经网络的剪枝方法 - Google Patents

一种神经网络的剪枝方法 Download PDF

Info

Publication number
CN115374935A
CN115374935A CN202211122342.1A CN202211122342A CN115374935A CN 115374935 A CN115374935 A CN 115374935A CN 202211122342 A CN202211122342 A CN 202211122342A CN 115374935 A CN115374935 A CN 115374935A
Authority
CN
China
Prior art keywords
data
neural network
training
channel
accelerator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211122342.1A
Other languages
English (en)
Other versions
CN115374935B (zh
Inventor
朴星泉
汪成亮
汪鹏
吴昊
杨镡
黄哲通
任骜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
First Affiliated Hospital of Army Medical University
Original Assignee
Chongqing University
First Affiliated Hospital of Army Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, First Affiliated Hospital of Army Medical University filed Critical Chongqing University
Priority to CN202211122342.1A priority Critical patent/CN115374935B/zh
Publication of CN115374935A publication Critical patent/CN115374935A/zh
Application granted granted Critical
Publication of CN115374935B publication Critical patent/CN115374935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出了一种神经网络的剪枝方法,包括以下步骤:S1,根据硬件资源的规模、时序约束、以及先验知识,确定脉动阵列规模,再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模,确定最大筛选通道数和过滤器分组的最小数量;S2,将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络;S3,训练完毕后,通过编译器产生指令,对加速器的剪枝模式进行配置;S4,然后加速器接收解码后的指令,将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中;S5,数据全部加载至硬件内部资源后,加速器开始进行卷积计算,脉动阵列开始工作,最终得到卷积结果。本发明能够在满足脉动阵列SA工作模式,保证其工作效率的前提下,减少了模型的参数量,提高了模型推理的速度。

Description

一种神经网络的剪枝方法
技术领域
本发明涉及CNN卷积处理技术领域,特别是涉及一种神经网络的剪枝方法。
背景技术
近年来,神经网络被大量应用在计算机视觉、机器翻译、语音识别等领域中。随着神经网络技术的不断发展,其网络结构的设计愈发复杂。其最直观的表现就在于网络的层数越来越多、网络的参数量越来越大,这极大的增加了神经网络的运算工作量。过多的参数量使得神经网络难以部署在存储资源有限的硬件资源上、或因数据传输带宽的限制难以充分发挥硬件资源的计算能力。因此研究一种神经网络的剪枝方法,对神经网络进行剪枝处理是十分必要的。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种神经网络的剪枝方法。
为了实现本发明的上述目的,本发明提供了一种神经网络的剪枝方法,包括以下步骤:
S1,根据硬件资源的规模、时序约束、以及先验知识,确定脉动阵列规模,再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模,确定最大筛选通道数和过滤器分组的最小数量;
S2,将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络;
S3,训练完毕后,通过编译器产生指令,对加速器的剪枝模式进行配置,每一层卷积运算前配置一次;
S4,然后加速器接收解码后的指令,将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中;
S5,数据全部加载至硬件内部资源后,加速器开始进行卷积计算,脉动阵列开始工作,最终得到卷积结果。
进一步地,S3包括:
S3-1,对通道选择模式进行配置:根据指令,选择输入特征图数据相邻2n个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中,也可以选择将每一通道的数据都输入至PE运算单元中;
S3-2,对过滤器分组模式进行配置:进行卷积运算时,输入特征图数据需要分别与不同的过滤器进行点乘操作;对于不同分组的过滤器,根据上一步配置的多个通道备选数据中选择不同通道的数据输入至该组内的PE单元中;相同分组的过滤器则选择相同的通道数据。
进一步地,所述S3-1还包括:
若选择输入特征图数据相邻2个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中,则通过门控时钟方式,关闭其中两路通道的数据传输,以降低加速器能耗开销,提高加速器整体系统的能效比,此时通道选择数据只会在前两个通道内进行选择。
进一步地,所述S3-2还包括:
当过滤器分组大于过滤器分组的最小数量时,为了满足电路正常需求,同时减少通道选择数据的参数量,需要对原始通道选择数据进行填充处理。
进一步地,所述输入特征图数据根据其通道的不同将其存储至对应的随机存储器中。
进一步地,随机存储器的数量等于PE运算阵列的总行数与预设的筛选通道数相乘。
进一步地,所述输入特征图数据的通道数等于PE运算阵列的行数,或为PE运算阵列行数的倍数,若不满足该条件,则对输入特征数据进行填充零操作以满足该条件。
综上所述,由于采用了上述技术方案,本发明能够在满足脉动阵列SA工作模式,保证其工作效率的前提下,减少了模型的参数量,提高了模型推理的速度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明数据存放在加速器内部BRAM中的示意图。
图2是本发明实施例通道选择模式为四选一的示意图。
图3是本发明实施例对过滤器分组模式配置为2的示意图。
图4是本发明SA阵列工作示意图。
图5是本发明实施例某一个特征点前四个通道数据在不同时钟周期时选择输入给一行PE单元数据的示意图。
图6是本发明实施例在某一时钟周期内,某一行PE阵列整体数据流情况。
图7是本发明实施例通道选择模式为二选一时某一列PE阵列的数据流情况。
图8是本发明实施例过滤器配置分组模式最小为2,通道剪枝模式为二选一时对原始通道选择数据进行填充的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明实施例中,神经网络加速器是部署在Xilnx-xczu19eg-ffvb1517-1-e上,根据时序以及板载资源的约束,确定加速器内的脉动阵列(Systolic array,SA)规模为16*16,最多能在相邻4个通道进行数据的剪枝。
S1:根据硬件资源的数量、时序约束、先验知识等条件确定SA阵列的规模为16*16以及数据最大筛选通道数4,从而可以获取输入特征数据存储所消耗的存储资源数量;
具体地,将PE运算阵列的总行数和预设的筛选通道数相乘,得到随机存取存储器的数量,在该实例中,消耗的是FPGA板载资源块随机存储器(block ram,BRAM)。
S2:根据S1得到的随机存储器的数量,输入特征图数据根据其通道的不同将其存储至对应的随机存储器中。
特征图由多个二维特征点组成,对于输入特征图中的某一个特征点的数据,根据该特征点数据的通道,将其存放至对应的BRAM中,其中一个BRAM对应一个通道。如图1所示,每个特征点均存放于n个通道中。数据存放在加速器内部BRAM中的形式如图1所示。其中,m代表特征点的个数,n为每一个特征点的通道数,在该实施例内,数据按照通道分别被存放在n个BRAM中。
具体的,输入特征图的数据通道数应等于PE运算阵列的行数,或为PE运算阵列行数的倍数,若不满足该条件,应对输入特征数据进行填充零(padding)操作以满足该条件。
S3:在每一层神经网络开始计算前,对剪枝的模式进行配置。配置的内容主要有两部分:一是对通道选择模式进行配置。在该实施例中,可以选择相邻两个或四个通道数据选择其中一个输入至SA阵列中的其中一个运算处理单元(Processor element,PE)中,也可以选择将每一通道的数据都输入至PE运算单元中。如图2所示,图中的x代表的是某一输入特征点,图中的通道选择模式为四选一,根据通道选择信号,选出通道y,作为PE单元的输入数据。
二是对过滤器(filter)分组模式进行配置。进行卷积运算时,输入特征图数据需要分别与不同的filter进行点乘操作。对于不同分组的filter,可以根据上一步配置的多个通道备选数据中选择不同通道的数据输入至该组内的PE单元中。其中,相同分组的filter应选择相同的通道数据,每一层卷积网络的filter尺寸均相同。
具体示例如图3所示,图中输入特征图数据尺寸为为1*1*4,filter的尺寸为1*1*2,共有4个filter,filter分组模式设置为2即分为2组,输入特征图数据通道剪枝模式为二选一。图3中采用灰色、白色色块对每两个通道数据进行区分,灰色代表这一组内的第一个通道,白色代表这一组内第二个通道。每个filter的通道数在训练过程中已经进行预处理,使得权重数据减少一半。对于filter 0与filter 1,在输入特征图前两个通道中选择第一个通道数据相乘,在后两个通道中选择第二个通道数据相乘。对于filter 2与filter 3,在前两个通道中选择第二个通道数据相乘,在后两个通道中选择第一个通道数据相乘。此外,权重数据存于filter内。
显然,对于一些数据较为稀疏的卷积运算层,对数据进行一定程度的剪枝,对于算法模型的精度不会造成过大的影响,(输入特征图内很多0-较为稀疏,对结果没影响)并且能有效的减少模型的参数量。对于filter的分组而言,每一个组中的filter数量越少,越能够减轻剪枝后对模型精度的影响。但同时,过多的分组数量(每组内filter个数较少)也会导致通道选择参数的规模增大。因此,对于不同神经网络层,应选用不同的方法去配置其输入特征图数据通道数据剪枝模式以及filter的分组模式,使得其能够在加速器推理的速率、算法模型的精度、算法模型参数的规模之间寻求一种平衡。(其中filter分组*组内filter个数=SA列数)
S4:当加速器开始进行工作时,需要将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据存储至加速器内部的硬件缓存单元中(在此实施例中使用的为BRAM、Ultra RAM、LUT RAM等FPGA板载存储资源)。特别地,对于输入特征图数据,应按照S1中提到的方法,将对应通道的数据存入至对应的BRAM中。
S5:在分块内数据全部加载完成后,加速器开始进行卷积计算,SA阵列开始工作。如图4所示,对于普通的SA,输入特征数据在每一行(列)是流动的。对于同一行的PE阵列而言,除了第一列PE单元的输入特征图数据直接来自于BRAM,其余PE单元的输入特征数据均来自于其前一列的PE单元。
在本方法内,对于输入特征数据在同一行PE单元中的传播做了一定的改进,对于每一行的PE单元,增加一个剪枝控制模块来选择输入特征数据传输至PE单元中。图5展示的内容为其中某一个特征点前四个通道数据在不同时钟周期时选择输入给一行PE单元数据的过程。其中,设定的输入特征图数据通道数据剪枝模式为四选一,设定每2个filter为一组,SA阵列的列数为16。在SA阵列开始计算时,将四个相邻的输入通道数据从数据缓存单元读取至剪枝处理模块内,根据对应filter分组的通道数据,将选择后的信号传输至PE单元中。由于对filter的分组设置为2,因此偶数列的PE单元的输入来自于剪枝模块,其余PE单元的特征数据的输入方式与普通SA的输入方式相同。
图6为在某一时钟周期内,某一行PE阵列整体数据流情况,由图可见,该方法满足SA的工作原理,能实现数据的脉动,并能够实现对于输入特征数据的剪枝操作,有效的降低了算法模型的参数规模、提高了加速器推理的速度,在不考虑数据传输带来的时间开销的理想条件下,此时剪枝后的运算速度是剪枝前的4倍。
图7为通道选择模式为二选一时某一列PE阵列的数据流情况,由于在该实施例内最大支持的剪枝模式为四选一,在剪枝模式配置为二选一时,通过门控时钟方式,关闭其中两路通道的数据传输,以降低加速器能耗开销,提高加速器整体系统的能效比,此时通道选择数据只会在前两个通道内进行选择。
当filter分组模式设置大于最小分组时,为了满足电路正常需求,同时减少通道选择数据的参数量,需要对原始通道选择数据进行填充处理。在该实例中,filter配置分组模式最小为2,通道选择模式为二选一,SA的规模为16*16,每一行PE单元电路及剪枝控制模块如图7所示。在该实例中,对于任一输入特征点每两个通道,应有四个通道选择数据,以满足本实例的filter分组模式。如图8所示,将上述四个通道选择数据进行填充,确保电路能够正确工作。
本发明从硬件资源的数量,算法模型推理速度要求、推理精度要求多方面考虑,提出了一种可配置的剪枝方法。根据硬件资源的数量以及脉动阵列的规模,确定出能够支持的通道选择模式。根据算法模型特点以及参数规模的考虑,确定出对filter进行分组的最大组数。在加速器进行计算时,根据预先训练好的权重数据以及通道选择数据,对输入特征图的通道数据进行选择,有效的降低了运算量、提高了模型计算的速度。同时,在不同神经网络层根据网络结构的特征,可以对数据剪枝模式及filter的分组进行配置,能满足不同算法模型、不同神经网络结构的需要。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种神经网络的剪枝方法,其特征在于,包括以下步骤:
S1,根据硬件资源的规模、时序约束、以及先验知识,确定脉动阵列规模,再根据硬件资源的规模、时序约束、以及先验知识、脉动阵列规模,确定最大筛选通道数和过滤器分组的最小数量;
S2,将S1得到的最大筛选通道数和过滤器分组的最小数量以及其它约束条件训练神经网络;
S3,训练完毕后,通过编译器产生指令,对加速器的剪枝模式进行配置;
S4,然后加速器接收解码后的指令,将输入特征图数据、经过训练压缩后的权重数据、根据训练生成的剪枝模式配置信息、以及经过训练生成的通道选择数据加载至加速器内部的硬件缓存单元中;
S5,数据全部加载至硬件内部资源后,加速器开始进行卷积计算,脉动阵列开始工作,最终得到卷积结果。
2.根据权利要求1所述的一种神经网络的剪枝方法,其特征在于,S3包括:
S3-1,对通道选择模式进行配置:根据指令,选择输入特征图数据相邻2n个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中,也可以选择将每一通道的数据都输入至PE运算单元中;
S3-2,对过滤器分组模式进行配置:进行卷积运算时,输入特征图数据需要分别与不同的过滤器进行点乘操作;对于不同分组的过滤器,根据上一步配置的多个通道备选数据中选择不同通道的数据输入至该组内的PE单元中;相同分组的过滤器则选择相同的通道数据。
3.根据权利要求2所述的一种神经网络的剪枝方法,其特征在于,所述S3-1还包括:
若选择输入特征图数据相邻2个通道数据选择其中一个输入至SA脉动阵列中的其中一个运算处理单元PE中,则通过门控时钟方式,关闭其中两路通道的数据传输。
4.根据权利要求2所述的一种神经网络的剪枝方法,其特征在于,所述S3-2还包括:
当过滤器分组大于过滤器分组的最小数量时,对原始通道选择数据进行填充处理。
5.根据权利要求1所述的一种神经网络的剪枝方法,其特征在于,所述输入特征图数据根据其通道的不同将其存储至对应的随机存储器中。
6.根据权利要求5所述的一种神经网络的剪枝方法,其特征在于,随机存储器的数量等于PE运算阵列的总行数与预设的筛选通道数相乘。
7.根据权利要求1所述的一种神经网络的剪枝方法,其特征在于,所述输入特征图数据的通道数等于PE运算阵列的行数,或为PE运算阵列行数的倍数,若不满足该条件,则对输入特征数据进行填充零操作以满足该条件。
CN202211122342.1A 2022-09-15 2022-09-15 一种神经网络的剪枝方法 Active CN115374935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211122342.1A CN115374935B (zh) 2022-09-15 2022-09-15 一种神经网络的剪枝方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211122342.1A CN115374935B (zh) 2022-09-15 2022-09-15 一种神经网络的剪枝方法

Publications (2)

Publication Number Publication Date
CN115374935A true CN115374935A (zh) 2022-11-22
CN115374935B CN115374935B (zh) 2023-08-11

Family

ID=84072412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211122342.1A Active CN115374935B (zh) 2022-09-15 2022-09-15 一种神经网络的剪枝方法

Country Status (1)

Country Link
CN (1) CN115374935B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024150875A1 (ko) * 2023-01-11 2024-07-18 주식회사 사피온코리아 시스톨릭 어레이와 메모리 간의 데이터 전달을 위한 방법 및 장치

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336468A1 (en) * 2017-05-16 2018-11-22 Nec Laboratories America, Inc. Pruning filters for efficient convolutional neural networks for image recognition in surveillance applications
CN110796251A (zh) * 2019-10-28 2020-02-14 天津大学 基于卷积神经网络的图像压缩优化方法
CN112183744A (zh) * 2020-09-25 2021-01-05 中国科学院计算技术研究所 一种神经网络剪枝方法及装置
US20210097375A1 (en) * 2019-09-27 2021-04-01 Amazon Technologies, Inc. Transposed convolution using systolic array
US20220012593A1 (en) * 2019-07-08 2022-01-13 Zhejiang University Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization
CN114662689A (zh) * 2022-03-31 2022-06-24 重庆大学 一种神经网络的剪枝方法、装置、设备及介质
WO2022141754A1 (zh) * 2020-12-31 2022-07-07 之江实验室 一种卷积神经网络通用压缩架构的自动剪枝方法及平台
CN114925823A (zh) * 2022-05-12 2022-08-19 南京航空航天大学 一种卷积神经网络压缩方法及边缘侧fpga加速器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336468A1 (en) * 2017-05-16 2018-11-22 Nec Laboratories America, Inc. Pruning filters for efficient convolutional neural networks for image recognition in surveillance applications
US20220012593A1 (en) * 2019-07-08 2022-01-13 Zhejiang University Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization
US20210097375A1 (en) * 2019-09-27 2021-04-01 Amazon Technologies, Inc. Transposed convolution using systolic array
CN110796251A (zh) * 2019-10-28 2020-02-14 天津大学 基于卷积神经网络的图像压缩优化方法
CN112183744A (zh) * 2020-09-25 2021-01-05 中国科学院计算技术研究所 一种神经网络剪枝方法及装置
WO2022141754A1 (zh) * 2020-12-31 2022-07-07 之江实验室 一种卷积神经网络通用压缩架构的自动剪枝方法及平台
CN114662689A (zh) * 2022-03-31 2022-06-24 重庆大学 一种神经网络的剪枝方法、装置、设备及介质
CN114925823A (zh) * 2022-05-12 2022-08-19 南京航空航天大学 一种卷积神经网络压缩方法及边缘侧fpga加速器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FENG SHI 等: "Sparse Winograd Convolutional neural networks on small-scale systolic arrays", ARXIV:1810.01973V1, pages 1 - 7 *
H. T. KUNG: "Packing Sparse Convolutional Neural Networks for Efficient Systolic Array Implementations: Column Combining Under Joint Optimization", MULTIPLIERARXIV: 1811.04770V1, pages 1 - 13 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024150875A1 (ko) * 2023-01-11 2024-07-18 주식회사 사피온코리아 시스톨릭 어레이와 메모리 간의 데이터 전달을 위한 방법 및 장치

Also Published As

Publication number Publication date
CN115374935B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111242289B (zh) 一种规模可扩展的卷积神经网络加速系统与方法
CN111445012B (zh) 一种基于fpga的分组卷积硬件加速器及其方法
CN110390385B (zh) 一种基于bnrp的可配置并行通用卷积神经网络加速器
CN110348574B (zh) 一种基于zynq的通用卷积神经网络加速结构及设计方法
CN109409510B (zh) 神经元电路、芯片、系统及其方法、存储介质
CN111898733B (zh) 一种深度可分离卷积神经网络加速器架构
CN112149811A (zh) 调度感知张量分发模块
CN111079923B (zh) 适用于边缘计算平台的Spark卷积神经网络系统及其电路
CN113220630B (zh) 一种硬件加速器的可重构阵列优化方法及自动调优方法
CN110222818A (zh) 一种用于卷积神经网络数据存储的多bank行列交织读写方法
CN108304925B (zh) 一种池化计算装置及方法
CN113240101B (zh) 卷积神经网络软硬件协同加速的异构SoC实现方法
CN111768458A (zh) 一种基于卷积神经网络的稀疏图像处理方法
CN109740619B (zh) 用于目标识别的神经网络终端运行方法和装置
CN111210019A (zh) 一种基于软硬件协同加速的神经网络推断方法
CN115374935A (zh) 一种神经网络的剪枝方法
JP7332722B2 (ja) データ処理方法、装置、記憶媒体及び電子機器
CN108520297A (zh) 可编程深度神经网络处理器
Zhang et al. Hardware-software codesign of weight reshaping and systolic array multiplexing for efficient CNNs
CN113780529B (zh) 一种面向fpga的稀疏卷积神经网络多级存储计算系统
CN112001492A (zh) 关于二值权重DenseNet模型的混合流水式加速架构及加速方法
CN114239816B (zh) 一种卷积神经网络-图卷积神经网络可重构硬件加速架构
CN110728303A (zh) 基于卷积神经网络数据复杂度的动态自适应计算阵列
Zhu et al. Optimization of convolutional neural network hardware structure based on FPGA
CN116882467B (zh) 面向边缘端的多模式可配置的神经网络加速器电路结构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Peng

Inventor after: Pu Xingquan

Inventor after: Wang Chengliang

Inventor after: Wu Hao

Inventor after: Yang Chan

Inventor after: Huang Zhetong

Inventor after: Ren Ao

Inventor before: Pu Xingquan

Inventor before: Wang Chengliang

Inventor before: Wang Peng

Inventor before: Wu Hao

Inventor before: Yang Chan

Inventor before: Huang Zhetong

Inventor before: Ren Ao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant