CN113033794A - 基于深度可分离卷积的轻量级神经网络硬件加速器 - Google Patents

基于深度可分离卷积的轻量级神经网络硬件加速器 Download PDF

Info

Publication number
CN113033794A
CN113033794A CN202110332526.XA CN202110332526A CN113033794A CN 113033794 A CN113033794 A CN 113033794A CN 202110332526 A CN202110332526 A CN 202110332526A CN 113033794 A CN113033794 A CN 113033794A
Authority
CN
China
Prior art keywords
convolution
neural network
processing unit
channel
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110332526.XA
Other languages
English (en)
Other versions
CN113033794B (zh
Inventor
林英撑
李睿
石匆
何伟
张玲
杨晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Xianfeng Electronic Technology Research Institute Co.,Ltd.
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110332526.XA priority Critical patent/CN113033794B/zh
Publication of CN113033794A publication Critical patent/CN113033794A/zh
Application granted granted Critical
Publication of CN113033794B publication Critical patent/CN113033794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Neurology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于深度可分离卷积的轻量级神经网络硬件加速器,包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器;卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络;A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中;每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元;每个1×1点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器。本发明解决了以往加速器在推理过程产生高能耗片外访存问题,同时节省了资源并提高了处理性能。

Description

基于深度可分离卷积的轻量级神经网络硬件加速器
技术领域
本发明属于神经网络硬件加速器技术领域,具体涉及一种基于深度可分离卷积的轻量级神经网络硬件加速器。
背景技术
如今,卷积神经网络在图像分类,医学图像分割和目标追踪领域取得了巨大的成功。典型的卷积神经网络(例如VGG16和GoogLeNet)的计算量很大,并且依赖于高成本,低能效的图形处理单元或远程计算中心。在能源和成本预算紧张的情况下,很难将它们部署在便携式或移动实时系统上。以往的研究主要集中在两个方向来解决该问题,一是在算法层面优化卷积神经网络以减少计算和存储访问(如拓扑结构优化和模型压缩)。另一个方向是设计基于超大规模集成电路的卷积神经网络加速器以实现低成本高能效卷积神经网络推理。现有的卷积神经网络硬件加速器例如Eyeriss和Google TPU适用于大多数已知的神经网络模型,具备很强的通用性,但对于拓扑结构并不规整的网络模型如基于深度可分离卷积的网络,其脉动阵列利用率低,这会导致不必要的成本和能量损失。
因此,因必要开发一种新的基于深度可分离卷积的轻量级神经网络硬件加速器。
发明内容
本发明的目的是提供一种基于深度可分离卷积的轻量级神经网络硬件加速器,能有效减少高功耗片外访存量,同时能节省资源并提高处理性能。
本发明所述的一种基于深度可分离卷积的轻量级神经网络硬件加速器,包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器;
所述卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络;
所述A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中;
所述A路K×K通道卷积处理单元并行阵列中的每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元;其中,所述乘法器用于计算通道卷积和批标准化中所涉及的乘法操作;所述加法器用于累加通道卷积结果,累加K×K次后输出前项和;所述激活函数计算单元用于对输出值非线性激活;
所述多路1×1点卷积处理单元并行阵列中的每个1×1点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器;其中,所述多路选择器用于实现点卷积中的乘法操作;所述两级加法器树用于对点卷积乘法结果求和;所述累加器用于累加点卷积结果。
优选地,将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络,具体为:
分析模型权重分布:神经网络MobileNet包括标准卷积层、通道卷积层、点卷积层以及全连接层,分析标准卷积层、通道卷积层、点卷积层以及全连接层的权重分布情况;
确定各层量化精度:标准卷积层和通道卷积层的精度均大于等于8比特,点卷积层和全连接层的精度均小于8比特;
量化感知训练:数据集选取CIFAR-10和ImageNet两个经典数据集,数据预处理包括数据增强、标准化,神经网络MobileNet通过量化感知训练后得到轻量级神经网络。
优选地,所述点卷积处理单元并行阵列由8个8选1选择器和8个伪乘法器组成;所述8选1选择器用于在不同的时钟周期为对应的伪乘法器选择来自不同通道的数据和与之相应的权重;8个伪乘法器用于实现64通道中间结果特征图的1×1点卷积。
优选地,所述A为32至128中的任意值。
优选地,所述K为3,或为5。
优选地,所述激活函数计算单元采用ReLU激活函数。
本发明具有以下优点:
(1)本发明提出了将神经网络压缩方法应用于神经网络加速器低功耗设计,相比于以往加速器,本发明所设计加速器可片上存储神经网络参数,从而有效地减少了高功耗片外访存量,适用于功耗有限应用场景。
(2)本发明实现了软硬件协同设计,基于电路设计理论优化神经网络量化过程以使其更适于硬件实现。基于轻量级卷积神经网络拓扑结构设计了并行流水线深度卷积处理单元和点卷积处理单元阵列,以紧密耦合的方式处理深度卷积和点卷积,能够节省资源并提高处理性能,取得了良好的效果,具有应用价值和推广前景。
(3)本发明提出了使用多路选择器替代乘法器完成点卷积乘法运算,有效地节省了硬件资源,适用于成本有限的物端设备。
附图说明
图1为本实施例中设计加速器的流程图;
图2为本实施例中MobileNet参数分布示意图;
图3为本实施例中深度可分离卷积的示意图;
图4为本实施例的总体架构图;
图5为本实施例中3×3通道卷积处理单元的示意图;
图6为本实施例中1×1点卷积处理单元的示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
本实施例中,如图3和图4所示,一种基于深度可分离卷积的轻量级神经网络硬件加速器,包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器。所述卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络。
如图4所示,所述A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中。
如图5所示,所述A路K×K通道卷积处理单元并行阵列中的每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元;其中,所述乘法器用于计算通道卷积和批标准化中所涉及的乘法操作;所述加法器用于累加通道卷积结果,累加K×K次后输出前项和;所述激活函数计算单元用于对输出值非线性激活。本实施例中,所述A为32至128中的任意值。所述K为3,或为5。所述激活函数计算单元采用ReLU激活函数。
如图6所示,所述多路1×1点卷积处理单元并行阵列中的每个1×1点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器;其中,所述多路选择器用于实现点卷积中的乘法操作;所述两级加法器树用于对点卷积乘法结果求和;所述累加器用于累加点卷积结果。
本实施例中,以卷积神经网络为基础理论设计方案框架,进而引入软硬协同设计机制,在最大限度保证神经网络模型性能的同时对神经网络进行量化感知训练,最后根据优化后的网络结构定制有效的加速器硬件架构以及具体计算引擎。
首先,结合轻量级神经网络MobileNet权重分布、模型拓扑结构以及硬件设计优化经验配置量化训练参数。接下来对模型进行量化感知训练得到可存储于片上的超轻量卷积神经网络;再根据优化后神经网络结构定制加速器硬件框架和计算引擎,最后完成加速器设计并在FPGA上验证设计原型,本方案的总体流程参见图1。
本实施例中,一种基于深度可分离卷积的轻量级神经网络硬件加速器设计过程主要包括:(1)基于量化感知训练方法压缩轻量级神经网络,(2)定制专用加速器硬件架构和计算引擎,(3)FPGA原型验证。
以下结合附图对以上三个步骤进行详细的说明:
(1)基于量化感知训练方法压缩轻量级神经网络
步骤1-1,分析模型权重分布:
神经网络MobileNet包括标准卷积层、通道卷积层、点卷积层以及全连接层,分析标准卷积层、通道卷积层、点卷积层以及全连接层的权重分布情况。参加图2,本实施例中,标准卷积层:0.02%,点卷积层:74.59%,通道卷积层:1.06%,全连接层:24.33%。分析可得针对权重较多的点卷积层和全连接层进行量化,可以取得较好的压缩效果。
步骤1-2,确定各层量化精度:
为了最大程度保证量化后网络精度损失低,需要确定各层量化精度。本实施例中,深度可分离卷积结构参见图3,标准卷积层需要较高精度权重(大于等于8比特),用于特征提取的通道卷积层需要较高精度权重(大于等于8比特)以保证提取足够的特征信息,用于特征组合的点卷积层和全连接层可以使用较低比特精度(小于8比特)的权重。考虑硬件设计资源优化,对计算量最多的点卷积层的权重三值量化以将乘法器替换为多路选择器优化电路设计,对全连接层权重采用四比特量化。
步骤1-3,量化感知训练:
训练后量化对信息损失较大,而量化感知训练是在训练过程中模拟量化的过程,这样训练之后的量化模型可以最大地逼近原始浮点模型的精度。数据集选取CIFAR-10和ImageNet两个经典数据集,数据预处理包括数据增强、标准化等方法,GPU为两张NVIDIA2080Ti显卡,训练结果如表1所示。
表1:对于不同数据集的量化网络训练参数和性能表
Figure BDA0002996752040000041
Figure BDA0002996752040000051
(2)设计专用加速器硬件架构和计算引擎
步骤2-1.总体架构设计:
本实施例中,以下以A为64,K为3对基于深度可分离卷积的轻量级神经网络硬件加速器的硬件架构进行详细说明:
如图4所示,所述基于深度可分离卷积的轻量级神经网络硬件加速器包括64路(通道)3×3通道卷积处理单元并行阵列(DPE Array)、64路1×1点卷积处理单元并行阵列(PPEArray)以及用于缓冲卷积神经网络和输入输出特征图的片上存储器。由多个通道卷积层和点卷积层组成的深度神经网络可以分层执行。当一层的输入或输出通道数大于64时,这些通道可以拆分为更小的子组并按顺序进行处理。在该架构中,64路3×3通道卷积处理单元并行阵列和64路1×1点卷积处理单元并行阵列紧密耦合,不需要额外的中间结果存储器,参见图4。此外,通过将64路3×3通道卷积处理单元并行阵列和64路1×1点卷积处理单元并行阵列部署在像素级流水线中,使得在一个像素位置上的点卷积和下一相邻像素位置上的深度卷积可以并行处理,以提高系统吞吐量。调度程序为每个DPE/PPE分配卷积层中对应的一个通道。
步骤2-2.电路设计:
如图5所示,所述3×3通道卷积处理单元的电路主要包括1个乘法器、1个加法器和1个激活函数(ReLU)计算单元。卷积和批标准化(BN)步骤共享乘法器和加法器,以节省硬件资源。为了实现通道卷积,每个时钟周期将一个特征图像素(Pixel)以及与其相对应权重(Weight)加载到通道卷积处理单元中,并将它们的乘积累加到寄存器Sum(如图5中的虚线路径所示)。在连续9(如果是5×5通道卷积处理单元,在连续25)个时钟周期完成3×3(如果是5×5通道卷积处理单元,此处完成5×5)卷积后,该电路被配置为处理累加值和参数(γ,β)以计算BN(x)=γx+β(如图5粗实线路径),其中,BN(x)表示对输出结果进行批标准化,其中,γ和β都是可学习参数,分别用作对经过卷积后的值进行缩放和平移;在硬件系统启动之前,权重γ和β被编程到图2中的片上参数存储器中,并在涉及计算时缓冲到阵列单元的寄存器中。特别是,为了节省乘法器使用以降低成本,电路中的乘法器可以被用来计算点卷积的批标准化,这样做的代价仅仅是输出滞后一个时钟周期。最后,批标准化的结果被送至激活函数计算单元以计算ReLU(x)=max(0,x),其中,ReLU(·)为激活函数。此外,通道卷积中的乘法器可以视作全连接层中的单个神经元,通过数据调度完成全连接层计算。
如图6所示,1×1点卷积处理单元的电路主要由多路选择器(由8个8选1选择器和8个伪乘法器组成)、1个两级加法器树(2-Stage Adder Tree)、1个累加器(Acc.)组成。基于时分复用方法,本实施例中,采用8个伪乘法器实现了64通道中间结果特征图的1×1点卷积。因此,点卷积占64/8=8个时钟周期,累加器的结果将被装载到3×3通道卷积处理单元中继续完成批标准化和激活函数计算并输出最终结果。1×1点卷积处理单元使用比3×3通道卷积处理单元更多的乘法器来保持它们的处理速度匹配,这样就不会产生流水线瓶颈。8选1选择器(Mul_sel)在不同的时钟周期为伪乘法器选择来自不同通道的数据和与之相应的权重。1×1点卷积处理单元还可以通过其两级加法器数和累加器完成最大支持8×8输入大小的全局池化运算。
(3)加速器FPGA原型实现
在Zynq-7045芯片上实现该卷积神经网络推理加速器的FPGA原型。加速器以150MHz的时钟频率运行,资源消耗较少,如表2所示。本实施例中的加速器在32×32分辨率的CIFAR-10图像上能够达到3,266帧每秒的运行速度,在128×128分辨率的图像上能够达到157帧每秒,证明了本加速器能够低成本高速地实现神经网络推理。
表2.FPGA资源利用情况
Figure BDA0002996752040000061
本实施例中,图3中的Depthwise Convolution表示深度卷积;PointwiseConvolution表示点卷积;Input表示输入;Output表示输出;C表示输入特征图通道数;M表示输入特征图的宽度和高度(这里宽高一致);IFM表示中间结果特征图;c表示通道卷积卷积核个数;N表示点卷积卷积核个数;K表示卷积核尺寸。
本实施例中,图4中的I/O Data and Parameter Memory表示输入/输出数据和参数存储;DPE是Depthwise Processing Element的缩写,表示通道卷积处理单元;PointwiseProcessing Element是PPE的缩写,表示点卷积处理单元。
图5中的Conv.表示卷积运算;Batch Norm表示批归一化。
图6中的TW buffer表示三值权重缓冲区;Batch Nor表示批归一化。
本加速器提出了二次压缩优化轻量级神经网络以实现片上存储神经网络,有效地减少了高能耗的片外访存量,对于神经网络加速器的低功耗设计具有实际参考意义。本加速器设计了并行流水线深度卷积处理单元和点卷积处理单元阵列,以紧密耦合的方式处理深度卷积和点卷积,能够节省资源和提高处理性能。本加速器提出了使用多路选择器替代乘法器完成点卷积乘法运算,有效地节省了硬件资源。

Claims (6)

1.一种基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器;
所述卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络;
所述A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中;
所述A路K×K通道卷积处理单元并行阵列中的每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元;其中,所述乘法器用于计算通道卷积和批标准化中所涉及的乘法操作;所述加法器用于累加通道卷积结果,累加K×K次后输出前项和;所述激活函数计算单元用于对输出值非线性激活;
所述多路1×1点卷积处理单元并行阵列中的每个1×1 点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器;其中,所述多路选择器用于实现点卷积中的乘法操作;所述两级加法器树用于对点卷积乘法结果求和;所述累加器用于累加点卷积结果。
2.根据权利要求1所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络,具体为:
分析模型权重分布:神经网络MobileNet包括标准卷积层、通道卷积层、点卷积层以及全连接层,分析标准卷积层、通道卷积层、点卷积层以及全连接层的权重分布情况;
确定各层量化精度:标准卷积层和通道卷积层的精度均大于等于8比特,点卷积层和全连接层的精度均小于8比特;
量化感知训练:数据集选取CIFAR-10和ImageNet两个经典数据集,数据预处理包括数据增强、标准化,神经网络MobileNet通过量化感知训练后得到轻量级神经网络。
3.根据权利要求1或2所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述点卷积处理单元并行阵列由8个8选1选择器和8个伪乘法器组成;所述8选1选择器用于在不同的时钟周期为对应的伪乘法器选择来自不同通道的数据和与之相应的权重;8个伪乘法器用于实现64通道中间结果特征图的1×1点卷积。
4.根据权利要求3所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述A为32至128中的任意值。
5.根据权利要求1或2或4所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述K为3,或为5。
6.根据权利要求4所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述激活函数计算单元采用ReLU激活函数。
CN202110332526.XA 2021-03-29 2021-03-29 基于深度可分离卷积的轻量级神经网络硬件加速器 Active CN113033794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110332526.XA CN113033794B (zh) 2021-03-29 2021-03-29 基于深度可分离卷积的轻量级神经网络硬件加速器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110332526.XA CN113033794B (zh) 2021-03-29 2021-03-29 基于深度可分离卷积的轻量级神经网络硬件加速器

Publications (2)

Publication Number Publication Date
CN113033794A true CN113033794A (zh) 2021-06-25
CN113033794B CN113033794B (zh) 2023-02-28

Family

ID=76452645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110332526.XA Active CN113033794B (zh) 2021-03-29 2021-03-29 基于深度可分离卷积的轻量级神经网络硬件加速器

Country Status (1)

Country Link
CN (1) CN113033794B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298241A (zh) * 2021-07-27 2021-08-24 北京大学深圳研究生院 一种深度可分离卷积神经网络加速方法和加速器
CN113591025A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN114154630A (zh) * 2021-11-23 2022-03-08 北京理工大学 一种量化MobileNet的硬件加速器及其设计方法
CN114722751A (zh) * 2022-06-07 2022-07-08 深圳鸿芯微纳技术有限公司 运算单元的构架选择模型训练方法和构架选择方法
CN115879530A (zh) * 2023-03-02 2023-03-31 湖北大学 一种面向rram存内计算系统阵列结构优化的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090030A1 (en) * 2018-09-19 2020-03-19 British Cayman Islands Intelligo Technology Inc. Integrated circuit for convolution calculation in deep neural network and method thereof
CN111369430A (zh) * 2020-03-09 2020-07-03 中山大学 基于移动深度学习引擎的移动端人像智能背景替换方法
CN111488983A (zh) * 2020-03-24 2020-08-04 哈尔滨工业大学 一种基于fpga的轻量级cnn模型计算加速器
WO2020215124A1 (en) * 2019-04-26 2020-10-29 The University Of Sydney An improved hardware primitive for implementations of deep neural networks
CN111898733A (zh) * 2020-07-02 2020-11-06 西安交通大学 一种深度可分离卷积神经网络加速器架构
CN111967468A (zh) * 2020-08-10 2020-11-20 东南大学 一种基于fpga的轻量级目标检测神经网络的实现方法
CN112001495A (zh) * 2020-08-26 2020-11-27 展讯通信(上海)有限公司 神经网络的优化方法、系统、设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090030A1 (en) * 2018-09-19 2020-03-19 British Cayman Islands Intelligo Technology Inc. Integrated circuit for convolution calculation in deep neural network and method thereof
WO2020215124A1 (en) * 2019-04-26 2020-10-29 The University Of Sydney An improved hardware primitive for implementations of deep neural networks
CN111369430A (zh) * 2020-03-09 2020-07-03 中山大学 基于移动深度学习引擎的移动端人像智能背景替换方法
CN111488983A (zh) * 2020-03-24 2020-08-04 哈尔滨工业大学 一种基于fpga的轻量级cnn模型计算加速器
CN111898733A (zh) * 2020-07-02 2020-11-06 西安交通大学 一种深度可分离卷积神经网络加速器架构
CN111967468A (zh) * 2020-08-10 2020-11-20 东南大学 一种基于fpga的轻量级目标检测神经网络的实现方法
CN112001495A (zh) * 2020-08-26 2020-11-27 展讯通信(上海)有限公司 神经网络的优化方法、系统、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YINGCHENG LIN,ET AL: ""A High-speed Low-cost CNN Inference Accelerator for Depthwise Separable Convolution"", 《2020 IEEE INTERNATIONAL CONFERENCE ON INTEGRATED CIRCUITS, TECHNOLOGIES AND APPLICATIONS (ICTA)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298241A (zh) * 2021-07-27 2021-08-24 北京大学深圳研究生院 一种深度可分离卷积神经网络加速方法和加速器
CN113298241B (zh) * 2021-07-27 2021-10-22 北京大学深圳研究生院 一种深度可分离卷积神经网络加速方法和加速器
CN113591025A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN113591025B (zh) * 2021-08-03 2024-06-14 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN114154630A (zh) * 2021-11-23 2022-03-08 北京理工大学 一种量化MobileNet的硬件加速器及其设计方法
CN114722751A (zh) * 2022-06-07 2022-07-08 深圳鸿芯微纳技术有限公司 运算单元的构架选择模型训练方法和构架选择方法
CN114722751B (zh) * 2022-06-07 2022-09-02 深圳鸿芯微纳技术有限公司 运算单元的构架选择模型训练方法和构架选择方法
CN115879530A (zh) * 2023-03-02 2023-03-31 湖北大学 一种面向rram存内计算系统阵列结构优化的方法

Also Published As

Publication number Publication date
CN113033794B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
Wang et al. Efficient hardware architectures for deep convolutional neural network
CN113033794B (zh) 基于深度可分离卷积的轻量级神经网络硬件加速器
CN111459877B (zh) 基于FPGA加速的Winograd YOLOv2目标检测模型方法
US10698657B2 (en) Hardware accelerator for compressed RNN on FPGA
Ma et al. Scalable and modularized RTL compilation of convolutional neural networks onto FPGA
CN109409511B (zh) 一种用于动态可重构阵列的卷积运算数据流调度方法
US10691996B2 (en) Hardware accelerator for compressed LSTM
US20180204110A1 (en) Compressed neural network system using sparse parameters and design method thereof
CN111898733B (zh) 一种深度可分离卷积神经网络加速器架构
CN107633297B (zh) 一种基于并行快速fir滤波器算法的卷积神经网络硬件加速器
CN109447241A (zh) 一种面向物联网领域的动态可重构卷积神经网络加速器架构
CN113283587B (zh) 一种Winograd卷积运算加速方法及加速模块
Kala et al. UniWiG: Unified winograd-GEMM architecture for accelerating CNN on FPGAs
CN111767994B (zh) 一种神经元计算装置
CN110766128A (zh) 卷积计算单元、计算方法及神经网络计算平台
CN111931927B (zh) 一种在npu中减少计算资源占用的方法及装置
Xu et al. Efficient fast convolution architectures for convolutional neural network
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
CN111340198A (zh) 基于fpga的数据高度复用的神经网络加速器
Arredondo-Velazquez et al. A streaming architecture for Convolutional Neural Networks based on layer operations chaining
CN115423081A (zh) 一种基于fpga的cnn_lstm算法的神经网络加速器
Niu et al. SPEC2: Spectral sparse CNN accelerator on FPGAs
CN114004351A (zh) 一种卷积神经网络硬件加速平台
Yin et al. FPGA-based high-performance CNN accelerator architecture with high DSP utilization and efficient scheduling mode
CN110716751A (zh) 高并行度计算平台、系统及计算实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230712

Address after: 401120 No.107 dataguzhong Road, Xiantao street, Yubei District, Chongqing

Patentee after: Chongqing Xianfeng Electronic Technology Research Institute Co.,Ltd.

Address before: 400030 No. 174 Sha Jie street, Shapingba District, Chongqing

Patentee before: Chongqing University

TR01 Transfer of patent right