CN110598844A - 一种基于fpga的并行卷积神经网络加速器及加速方法 - Google Patents

一种基于fpga的并行卷积神经网络加速器及加速方法 Download PDF

Info

Publication number
CN110598844A
CN110598844A CN201910722954.6A CN201910722954A CN110598844A CN 110598844 A CN110598844 A CN 110598844A CN 201910722954 A CN201910722954 A CN 201910722954A CN 110598844 A CN110598844 A CN 110598844A
Authority
CN
China
Prior art keywords
convolution
fpga
data
neural network
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910722954.6A
Other languages
English (en)
Inventor
刘强
徐欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910722954.6A priority Critical patent/CN110598844A/zh
Publication of CN110598844A publication Critical patent/CN110598844A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于FPGA的并行卷积神经网络加速器,包括:FPGA模块和数据预处理模块,所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核;所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器;所述数据预处理模块根据输入图像尺寸及所述卷积核的大小,对图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到所述FPGA模块的卷积核中。本发明还提供一种基于FPGA的并行卷积神经网络加速方法。本发明基于FPGA实现卷积神经网络加速,提高架构设计的通用性,适应多种输入图像尺寸,采用了数据对齐并行处理的方法实现数据层面的并行处理与传输,实现多卷积核并行计算。

Description

一种基于FPGA的并行卷积神经网络加速器及加速方法
技术领域
本发明涉及一种卷积神经网络加速器及加速方法,特别涉及一种基于FPGA的并行卷积神经网络加速器及加速方法。
背景技术
目前,近年来,深度学习极大促进了机器学习的发展,其强大的数据处理能力已被成功应用到了许多分析领域,而卷积神经网络就是一种出色的学习模型。然而由于庞大的数据存储以及数据处理已经使得通用处理器无法满足其需求.所以,为卷积神经网络算法设计出高效的专用处理单元迫在眉睫。因此具有较高性能和利用率的FPGA引起了人们极大的注意。
采用不同的架构设计方法会导致加速器不同的性能,例如国内研究中浙江大学的余子健等人通过分析卷积运算的并行特征,研究了激活函数的实现方式,采用流水结构,设计了基于主机+FPGA的模式的卷积神经网络加速器[1],但其并行度较低,所以导致数据处理速度也较低;Zhang等人提出的全精度卷积神经网络加速器,由于采用较高的全精度卷积神经网路加速器,数据传输速率较低,整体计算性能较低;Li等人提出了一种端到端的卷积神经网络加速器,即在FPGA上实现所有卷积层,这种方式充分利用了片上资源,但是只针对较小的神经网络。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种提高数据处理速度的基于FPGA的并行卷积神经网络加速器及加速方法;其采用数据并行处理与多卷积核并行计算的方式,充分利用了资源,提高了数据的处理速度。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种基于FPGA的并行卷积神经网络加速器,包括:FPGA模块和数据预处理模块,所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核;所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器;所述数据预处理模块根据输入图像尺寸及所述卷积核的大小,对图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到所述FPGA模块的卷积核中。
进一步地,所述FPGA模块包括:N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元;每个所述卷积计算单元包括M个所述卷积核;每个所述卷积核的大小为K×K;每个所述结果缓存区缓存一个所述卷积计算单元的计算结果;其中:K值为所述卷积核的边长,其根据实现的神经网络的需求选取;M、N值在FPGA板上资源允许的范围内,M选择输出图像边长可以整除的数;K、M、N同时满足下式条件:(K×K)mult×M×N≤MULTsum,式中MULTsum为所述FPGA模块中的DSP资源与LUT资源之和;(K×K)mult为实现一个K×K大小的卷积计算所消耗的资源。
进一步地,所述结果缓存区采用双FIFO缓存器架构。
本发明还提供了一种基于FPGA的并行卷积神经网络加速方法,采用内设卷积核的FPGA模块对输入的图像数据进行卷积神经网络运算;在运算前,采用内设线性储存器的数据预处理模块,根据输入图像尺寸和FPGA模块内卷积核的大小,对输入的图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到FPGA模块的卷积核中。
进一步地,所述FPGA模块内设置N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元;每个卷积计算单元内设置M个卷积核;每个卷积核的大小设置为K×K;每个结果缓存区缓存一个卷积计算单元的计算结果;其中:其中:K值为所述卷积核的边长,其根据实现的神经网络的需求选取;M、N值在FPGA板上资源允许的范围内,M选择输出图像边长可以整除的数;K、M、N同时满足下式条件:(K×K)mult×M×N≤MULTsum,式中MULTsum为所述FPGA模块中的DSP资源与LUT资源之和;(K×K)mult为实现一个K×K大小的卷积计算所消耗的资源。
进一步地,当处理的图像边长不是并行度的整数倍时,对输入的图像数据进行无效数据补充,以使其边长可以整除。
进一步地,多个卷积核在同一张图片上进行滑动卷积,经所述数据预处理模块处理后的图像数据被映射到N个卷积计算单元。
进一步地,同一个卷积计算单元内的卷积核的权值系数相同,不同卷积计算单元内的卷积核的权值系数相互独立;先将不同卷积计算单元的卷积核的权值系数分别对应缓存在N个卷积核权值系数缓存区内,再映射到N个卷积计算单元。
进一步地,一个输入图像通道的卷积结果计算完毕后,暂存输出至结果缓存区,并使用结果缓存区的加法器与下一个输入图像通道的计算结果进行累加,结果缓存区的存储数据更新为累加值,重复累加直到全部输入图像通道计算完毕后,结果缓存区输出计算结果。
进一步地,结果缓存区采用双FIFO缓存器;其中一个FIFO缓存器用于存历史数据,另一个FIFO缓存器用于存当前数据。
本发明具有的优点和积极效果是:基于FPGA实现卷积神经网络加速器,通过对卷积神经网络算法进行分析,为了提高架构设计的通用性,适应多种输入图像尺寸,采用了数据对齐并行处理的方法实现数据层面的并行处理与传输,采用K×K卷积核乘加并行计算,多卷积核并行计算的方法,实现卷积核层面的并行计算,可根据本发明,建立性能与资源模型,通过数值求解,找到最佳并行方案,较大提升资源使用率,同时也提高了图像计算的速度,使整体计算性能达到应用要求。本发明最终在Xilinx Zynq XC7Z045上实现的SSD网络在175HMz的频率下可以达到44.59帧/秒,能效达到31.54GOP/s/W。
附图说明
图1是本发明的多卷积并行计算架构图。
图2是本发明的图像数据输入示意图。
图3是本发明的预处理模块架构图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
本申请中各英文缩写的中文释义为:
FPGA:现场可编程门阵列;
Relu:线性整流单元;
FIFO:先进先出储存器;
DSP:数字信号处理单元;
LUT:显示查找表。
请参见图1至图3,一种基于FPGA的并行卷积神经网络加速器,包括:FPGA模块和数据预处理模块,所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核;所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器;所述数据预处理模块根据输入图像尺寸及所述卷积核的大小,对图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到所述FPGA模块的卷积核中。数据预处理模块和FPGA模块可以制成一体,也可以单独设置,单独设置时,数据预处理模块可采用独立FPGA芯片制成,也可以采用其他芯片或模组制成。
优选地,所述FPGA模块可包括:N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元;每个所述卷积计算单元可包括M个所述卷积核;每个所述卷积核的大小可为K×K;每个所述结果缓存区可缓存一个所述卷积计算单元的计算结果;其中:K值为所述卷积核的边长,其可根据实现的神经网络的需求选取;M、N值在FPGA板上资源允许的范围内,M可选择输出图像边长可以整除的数;K、M、N可同时满足下式条件:(K×K)mult×M×N≤MULTsum,式中MULTsum为所述FPGA模块中的DSP资源与LUT资源之和;(K×K)mult为实现一个K×K大小的卷积计算所消耗的资源。为减少整体运行时间,M尽量选择输出图像边长可以整除的数。
备用单元用于其他类型的计算和数据处理,卷积神经网络模型中,除了基本的卷积计算,还会包括其他的Relu,池化等操作,因此在卷积计算完成后,每个卷积单元都需要一个其他计算模块,一共包含N个其他计算模块。
为提高运算速度,所述结果缓存区可采用双FIFO缓存器架构。这样当计算模块速度大于结果输出速度,结果缓存区利用了双FIFO缓存器结构,无需等待上一周期的数据输出,即可开始下一周期的计算。提供了效率及计算速度。
本发明还提供一种基于FPGA的并行卷积神经网络加速方法实施例,该方法采用内设卷积核的FPGA模块对输入的图像数据进行卷积神经网络运算;在运算前,采用内设线性储存器的数据预处理模块,根据输入图像尺寸和FPGA模块内卷积核的大小,对输入的图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到FPGA模块的卷积核中。数据预处理模块和FPGA模块可以制成一体,也可以单独设置,单独设置时,数据预处理模块可采用独立FPGA芯片制成,也可以采用其他芯片或模组制成。
优选地,所述FPGA模块内可设置N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个其他备用单元;每个卷积计算单元内可设置M个卷积核;每个卷积核的大小可设置为K×K;每个结果缓存区可缓存一个卷积计算单元的计算结果;其中:其中:K值为所述卷积核的边长,其可根据实现的神经网络的需求选取;M、N值在FPGA板上资源允许的范围内,M可尽量选择输出图像边长可以整除的数;K、M、N可同时满足下式条件:(K×K)mult×M×N≤MULTsum,式中MULTsum为所述FPGA模块中的DSP资源与LUT资源之和;(K×K)mult为实现一个K×K大小的卷积计算所消耗的资源。为减少整体运行时间,M尽量选择输出图像边长可以整除的数。
对于K×K大小卷积运算,需要将输入图像的按着K行对齐排列输出。输入图像数据从数据储存器中按行取出后,将进入线性储存器中进行行对齐的转换,如图3所示。线性储存器的数据读取的并行度仍然为M,这里卷积核大小K设置为3,由于K个储存器同时进行数据输出,因此一个时钟周期可得到K×M个数据。再根据滑动步长的大小对K×M个数据进行组合,即可得到M个K×K卷积矩阵。
备用单元可用于其他类型的计算和数据处理,卷积神经网络模型中,除了基本的卷积计算,还可包括其他的Relu,池化等操作,因此在卷积计算完成后,每个卷积单元都需要一个其他计算模块,一共可包含N个其他计算模块。
图像数据可按行依次放入到输入数缓存区,为了提高数据传输的速度,设置数据读取的并行度可为M,即一个时钟周期读取M个图像数据。当图像边长不为并行度的整数倍时,可对其进行数据无效数据补充,以使其保证边长可以整除。请参考图2,图2中假设图像边长为3×M-2个,因此需要先对一行的数据进行补充成3×M个,此时数据可经过3个时钟周期完成。
多个卷积核可在同一张图片上进行滑动卷积,经所述数据预处理模块处理后的图像数据可被映射到N个卷积计算单元。
同一个卷积计算单元内的卷积核的权值系数可相同,不同卷积计算单元内的卷积核的权值系数可相互独立;可先将不同卷积计算单元的卷积核的权值系数分别对应缓存在N个卷积核权值系数缓存区内,再映射到N个卷积计算单元。
一个输入图像通道的卷积结果计算完毕后,可暂存输出至结果缓存区,并可使用结果缓存区的加法器与下一个输入图像通道的计算结果进行累加,结果缓存区的存储数据更新为累加值,重复累加,直到全部输入图像通道计算完毕,然后从结果缓存区输出计算结果。
结果缓存区可采用双FIFO缓存器;其中一个FIFO缓存器可用于存历史数据,另一个FIFO缓存器可用于存当前数据。这样当计算模块速度大于结果输出速度,结果缓存区利用了双FIFO缓存器结构,无需等待上一周期的数据输出,即可开始下一周期的计算。提供了效率及计算速度。
本发明的工作原理:
图像数据将按行依次放入到输入数缓存区,为了提高数据传输的速度,设置数据读取的并行度为M,即一个时钟周期读取M个图像数据。当图像边长不为并行度的整数倍时,需要对其进行数据无效数据补充,请参考图2,以使其保证边长可以整除。图2中假设图像边长为3×M-2个,因此需要先对一行的数据进行补充成3×M个,此时数据可经过3个时钟周期完成。
对于K×K大小卷积运算,需要将输入图像的按着K行对齐排列输出。输入图像数据从数据储存器中按行取出后,将进入线性储存器中进行行对齐的转换,如图3所示。线性储存器的数据读取的并行度仍然为M,这里卷积核大小K设置为3,由于K个储存器同时进行数据输出,因此一个时钟周期可得到K×M个数据。再根据滑动步长的大小对K×M个数据进行组合,即可得到M个K×K卷积矩阵。
由上述可知,一个周期可得到M个K×K输入图像矩阵,因此可同时进行一个卷积核的M个像素点的计算。如图1所示,卷积核的模块中包含M个K×K乘加单元,所用权值系数为同一卷积核的权值系数,将得到的M个卷积矩阵分别输入M个计算单元中。
为了提升卷积核计算并行度,可根据实际上板资源,可进行多个卷积核的并行计算。由于卷积层的计算为不同的卷积核在同一张图片上进行卷积,每个卷积核之间的计算为不相关,因此可以包含N个不同的卷积核的计算单元。如图1所示,由于是多个卷积核对同一张图片进行卷积,所以输入数据将映射到所有的N个卷积计算模块。通过采用本高并行设计方法,可使加速器包含N个不同的卷积核的计算单元,每个卷积核计算单元包含M个并行乘加单元,即可同时进行N×M个K×K像素点的计算。
针对每一个卷积核计算单元都需要将其计算结果暂时缓存,N个卷积计算单元需要N个缓存区以来存取不同卷积核的计算结果。并且由于输入图像的通道数都为>1,图像的一个通道的卷积结果计算完毕后,需要暂存输出缓存区,等到下一个通道的计算结果到来后进行累加,最终等到图像的通道全部计算完毕后,才可输出。由于本设计中计算模块速度大于结果输出速度,结果缓存区利用了双FIFO缓存器结构,无需等待上一周期的数据输出,即可开始下一周期的计算。
备用计算模块用于其他计算模块,卷积神经网络模型中,除了基本的卷积计算,还会包括其他的Relu,池化等操作,因此在卷积计算完成后,每个卷积单元都需要一个其他计算模块,一共包含N个其他计算模块。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。

Claims (10)

1.一种基于FPGA的并行卷积神经网络加速器,其特征在于,包括:FPGA模块和数据预处理模块,所述FPGA模块内设有对输入数据进行卷积神经网络运算的卷积核;所述数据预处理模块内设有对输入数据进行行对齐转换的线性储存器;所述数据预处理模块根据输入图像尺寸及所述卷积核的大小,对图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到所述FPGA模块的卷积核中。
2.根据权利要求1所述的基于FPGA的并行卷积神经网络加速器,其特征在于,所述FPGA模块包括:N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元;每个所述卷积计算单元包括M个所述卷积核;每个所述卷积核的大小为K×K;每个所述结果缓存区缓存一个所述卷积计算单元的计算结果;其中:K值为所述卷积核的边长,其根据实现的神经网络的需求选取;M、N值在FPGA板上资源允许的范围内,M选择输出图像边长可以整除的数;K、M、N同时满足下式条件:(K×K)mult×M×N≤MULTsum,式中MULTsum为所述FPGA模块中的DSP资源与LUT资源之和;(K×K)mult为实现一个K×K大小的卷积计算所消耗的资源。
3.根据权利要求2所述的基于FPGA的并行卷积神经网络加速器,其特征在于,所述结果缓存区采用双FIFO缓存器架构。
4.一种基于FPGA的并行卷积神经网络加速方法,其特征在于,采用内设卷积核的FPGA模块对输入的图像数据进行卷积神经网络运算;在运算前,采用内设线性储存器的数据预处理模块,根据输入图像尺寸和FPGA模块内卷积核的大小,对输入的图像数据进行数据对齐预处理,生成卷积矩阵,并行输入到FPGA模块的卷积核中。
5.根据权利要求4所述的基于FPGA的并行卷积神经网络加速方法,其特征在于,所述FPGA模块内设置N个卷积计算单元、N个结果缓存区、N个卷积核权值系数缓存区以及N个备用单元;每个卷积计算单元内设置M个卷积核;每个卷积核的大小设置为K×K;每个结果缓存区缓存一个卷积计算单元的计算结果;其中:其中:K值为所述卷积核的边长,其根据实现的神经网络的需求选取;M、N值在FPGA板上资源允许的范围内,M选择输出图像边长可以整除的数;K、M、N同时满足下式条件:(K×K)mult×M×N≤MULTsum,式中MULTsum为所述FPGA模块中的DSP资源与LUT资源之和;(K×K)mult为实现一个K×K大小的卷积计算所消耗的资源。
6.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法,其特征在于,当处理的图像边长不是并行度的整数倍时,对输入的图像数据进行无效数据补充,以使其边长可以整除。
7.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法,其特征在于,多个卷积核在同一张图片上进行滑动卷积,经所述数据预处理模块处理后的图像数据被映射到N个卷积计算单元。
8.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法,其特征在于,同一个卷积计算单元内的卷积核的权值系数相同,不同卷积计算单元内的卷积核的权值系数相互独立;先将不同卷积计算单元的卷积核的权值系数分别对应缓存在N个卷积核权值系数缓存区内,再映射到N个卷积计算单元。
9.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法,其特征在于,一个输入图像通道的卷积结果计算完毕后,暂存输出至结果缓存区,并使用结果缓存区的加法器与下一个输入图像通道的计算结果进行累加,结果缓存区的存储数据更新为累加值,重复累加直到全部输入图像通道计算完毕后,结果缓存区输出计算结果。
10.根据权利要求5所述的基于FPGA的并行卷积神经网络加速方法,其特征在于,结果缓存区采用双FIFO缓存器;其中一个FIFO缓存器用于存历史数据,另一个FIFO缓存器用于存当前数据。
CN201910722954.6A 2019-08-06 2019-08-06 一种基于fpga的并行卷积神经网络加速器及加速方法 Pending CN110598844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722954.6A CN110598844A (zh) 2019-08-06 2019-08-06 一种基于fpga的并行卷积神经网络加速器及加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722954.6A CN110598844A (zh) 2019-08-06 2019-08-06 一种基于fpga的并行卷积神经网络加速器及加速方法

Publications (1)

Publication Number Publication Date
CN110598844A true CN110598844A (zh) 2019-12-20

Family

ID=68853597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722954.6A Pending CN110598844A (zh) 2019-08-06 2019-08-06 一种基于fpga的并行卷积神经网络加速器及加速方法

Country Status (1)

Country Link
CN (1) CN110598844A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861862A (zh) * 2020-06-28 2020-10-30 浙江大华技术股份有限公司 图像处理网络的位图数据处理方法、装置和计算机设备
CN113705795A (zh) * 2021-09-16 2021-11-26 深圳思谋信息科技有限公司 卷积处理方法、装置、卷积神经网络加速器和存储介质
CN114819129A (zh) * 2022-05-10 2022-07-29 福州大学 一种并行计算单元的卷积神经网络硬件加速方法
CN116152307A (zh) * 2023-04-04 2023-05-23 西安电子科技大学 一种基于fpga的sar图像配准预处理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302417A (zh) * 1998-03-24 2001-07-04 计量仪器股份有限公司 识别与测量通过激光扫描通道的包的自动系统和方法
CN101403962A (zh) * 2008-11-13 2009-04-08 山东大学 基于fpga的异步双fifo的数据缓存方法
CN103001738A (zh) * 2012-11-23 2013-03-27 华为技术有限公司 接收机及数据处理的方法
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器
WO2019137060A1 (zh) * 2018-01-15 2019-07-18 合肥工业大学 基于多播片上网络的卷积神经网络硬件加速器及其工作方式

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302417A (zh) * 1998-03-24 2001-07-04 计量仪器股份有限公司 识别与测量通过激光扫描通道的包的自动系统和方法
CN101403962A (zh) * 2008-11-13 2009-04-08 山东大学 基于fpga的异步双fifo的数据缓存方法
CN103001738A (zh) * 2012-11-23 2013-03-27 华为技术有限公司 接收机及数据处理的方法
WO2019137060A1 (zh) * 2018-01-15 2019-07-18 合肥工业大学 基于多播片上网络的卷积神经网络硬件加速器及其工作方式
CN109934339A (zh) * 2019-03-06 2019-06-25 东南大学 一种基于一维脉动阵列的通用卷积神经网络加速器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861862A (zh) * 2020-06-28 2020-10-30 浙江大华技术股份有限公司 图像处理网络的位图数据处理方法、装置和计算机设备
CN113705795A (zh) * 2021-09-16 2021-11-26 深圳思谋信息科技有限公司 卷积处理方法、装置、卷积神经网络加速器和存储介质
CN114819129A (zh) * 2022-05-10 2022-07-29 福州大学 一种并行计算单元的卷积神经网络硬件加速方法
CN116152307A (zh) * 2023-04-04 2023-05-23 西安电子科技大学 一种基于fpga的sar图像配准预处理装置

Similar Documents

Publication Publication Date Title
CN110598844A (zh) 一种基于fpga的并行卷积神经网络加速器及加速方法
CN108108809B (zh) 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
US20230325348A1 (en) Performing concurrent operations in a processing element
CN109447241B (zh) 一种面向物联网领域的动态可重构卷积神经网络加速器架构
CN111488983A (zh) 一种基于fpga的轻量级cnn模型计算加速器
CN112465110B (zh) 一种卷积神经网络计算优化的硬件加速装置
CN110516801A (zh) 一种高吞吐率的动态可重构卷积神经网络加速器架构
CN111047008B (zh) 一种卷积神经网络加速器及加速方法
CN111898733A (zh) 一种深度可分离卷积神经网络加速器架构
CN113033794B (zh) 基于深度可分离卷积的轻量级神经网络硬件加速器
CN109472734B (zh) 一种基于fpga的目标检测网络及其实现方法
Shahshahani et al. Memory optimization techniques for fpga based cnn implementations
CN111931925A (zh) 基于fpga的二值化神经网络的加速系统
Xiao et al. FPGA-based scalable and highly concurrent convolutional neural network acceleration
Shu et al. High energy efficiency FPGA-based accelerator for convolutional neural networks using weight combination
Piyasena et al. Reducing dynamic power in streaming CNN hardware accelerators by exploiting computational redundancies
CN108647780B (zh) 面向神经网络的可重构池化操作模块结构及其实现方法
Kwon et al. Sparse convolutional neural network acceleration with lossless input feature map compression for resource‐constrained systems
CN113516236A (zh) 基于zynq平台的vgg16网络并行加速处理方法
CN102970545A (zh) 一种基于二维离散小波变换算法的静态图像压缩方法
CN113158132A (zh) 一种基于非结构化稀疏的卷积神经网络加速系统
CN116888591A (zh) 一种矩阵乘法器、矩阵计算方法及相关设备
CN109948787B (zh) 用于神经网络卷积层的运算装置、芯片及方法
Xiao et al. A mobilenet accelerator with high processing-element-efficiency on fpga
CN114372012B (zh) 一种通用、可配置的高能效池化计算单行输出系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191220

WD01 Invention patent application deemed withdrawn after publication