CN114489496A - 基于fpga人工智能加速器的数据存储和传输方法 - Google Patents

基于fpga人工智能加速器的数据存储和传输方法 Download PDF

Info

Publication number
CN114489496A
CN114489496A CN202210041910.9A CN202210041910A CN114489496A CN 114489496 A CN114489496 A CN 114489496A CN 202210041910 A CN202210041910 A CN 202210041910A CN 114489496 A CN114489496 A CN 114489496A
Authority
CN
China
Prior art keywords
data
module
fpga
artificial intelligence
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210041910.9A
Other languages
English (en)
Other versions
CN114489496B (zh
Inventor
王堃
张泽旭
陈思光
张载龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210041910.9A priority Critical patent/CN114489496B/zh
Publication of CN114489496A publication Critical patent/CN114489496A/zh
Application granted granted Critical
Publication of CN114489496B publication Critical patent/CN114489496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0613Improving I/O performance in relation to throughput
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于FPGA人工智能加速器的数据存储和传输方法,本发明在人工智能领域中主要针对硬件设备功耗受限制的场景中性能提升问题进行深入研究,从人工智能加速器架构方面进行设计并优化。本发明基于FPGA人工智能加速器的数据存储和传输方法不但实现了高效地存储和传输数据,且对卷积神经网络进行加速,而且还有效提高吞吐量降低延迟,适用于对严格限制功耗和要求低延迟的应用场景,提高了智能硬件的计算效率。

Description

基于FPGA人工智能加速器的数据存储和传输方法
技术领域
本发明涉及一种基于FPGA人工智能加速器的数据存储和传输方法,属于图像算法技术领域。
背景技术
随着人们对深度学习的深入研究,基于卷积神经网络算法精度得到了大幅提高,已经开始越来越广泛地应用于交通、安防、自动驾驶、航空航天等领域。改进后算法通过卷积神经网络提取图像中所需要的信息实现对图像中目标的定位和分类,涉及大量并行性运算,目前大多数卷积神经网络主要都是基于CPU、GPU实现的,基于CPU的卷积神经网络处理器无法利用卷积神经网络高并行性的特性,无法获得较高的计算吞吐量,并且其也存在功耗过高的问题。基于GPU的卷积神经网络处理器虽然可以利用卷积神经网络的计算并行性,获得很高的计算吞吐量,但是其功耗过高限制了其应用在嵌入式等对功耗要求高的场景。
另一方面,伴随着物联网时代到来,网络数据传输量激增,给云端数据中心运算处理带来极大负担,而边缘计算技术能分担服务器端的运算压力。为了满足边缘计算的需求,人们进行了大量研究,包括专用集成电路和基于FPGA的深度学习加速器。由于设计灵活性高和开发时间短的优点,FPGA已广泛应用于高效的深度学习。但是,大部分卷积神经网络的权重数量多,运算量庞大,需要存储资源、运算资源充足的FPGA才能满足需求。
有鉴于此,针对图像识别领域和人工智能领域中硬件设备功耗受限导致性能不够满足需求的问题,确有必要提出一种基于FPGA人工智能加速器的数据存储和传输方法,以解决上述问题。
发明内容
本发明的目的在于提供一种基于FPGA人工智能加速器的数据存储和传输方法,以优化加速器内部存储器和片上数据之间交互,使加速器内部数据更高效地存储传输。
为实现上述目的,本发明提供了一种基于FPGA人工智能加速器的数据存储和传输方法,所述数据存储和传输方法主要包括:
步骤1,设计ARM端的架构:所述ARM端包括图像收集模块、预处理模块以及数据发送模块;使用图像收集模块通过以太网将图像传递给预处理模块,所述预处理模块在ARM端对收集到的数据进行预处理并将处理好的数据发送给所述数据收发模块;所述数据收发模块将图像数据和网络权重参数数据发送到FPGA端的DDR4存储器上;
步骤2,设计FPGA端的架构:所述FPGA端包括输入缓冲模块、输出缓冲模块、DMA、DDR4以及逻辑运算模块;DMA从DDR4中读取图像数据和网络权重数据并发送到输入缓冲模块;输入缓冲模块将数据发送到逻辑运算模块进行处理;逻辑运算模块完成神经网络的各种运算;输出缓冲模块将逻辑运算模块运算完的输出数据发送到DDR4上;DMA将运算结果从DDR4中读出来并发送到ARM端的数据收发模块;
步骤3,优化FPGA端数据存储传输通路。
作为本实用新型的进一步改进,所述步骤3具体包括:
步骤3.1,增加乒乓buffer:在双缓冲的基本思想上建立可编程逻辑上的缓冲设计,所述双缓冲区以乒乓方式,以使数据传输时间与计算时间重叠;
步骤3.2,对神经网络权重参数重排序:根据权重参数数据,对各层的神经网络权重参数根据当前层的特定进行参数排序。
作为本实用新型的进一步改进,在步骤1中,所述图像收集模块为网络摄像头模块。
作为本实用新型的进一步改进,在步骤1中,所述预处理模块为视频流预处理模块。
作为本实用新型的进一步改进,在步骤1中,所述数据收发模块与所述预处理模块之间的交互为AXI总线和DMA进行交互。
作为本实用新型的进一步改进,在步骤1中,所述DDR4存储器与片上数据缓冲之间的数据交互是由DMA完成。
作为本实用新型的进一步改进,步骤2中所述各种运算包括卷积、池化、累加和地址映射。
本发明的有益效果是:本发明优化了加速器内部存储器和片上数据之间交互,使加速器内部数据更高效地存储传输,有效提高了吞吐量降低延迟,适用于对严格限制功耗和要求低延迟的应用场景,提高了智能硬件的计算效率。
附图说明
图1是本发明中ARM端整体流程的示意图。
图2是本发明中FPGA端整体流程的示意图。
图3是本发明中乒乓搬运的结构示意图。
图4是本发明中在DRAM中从参数排序的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的基于FPGA人工智能加速器的数据存储和传输方法主要包括:步骤1,设计ARM端的架构:ARM端有网络摄像头模块、视频流预处理模块、数据发送模块。本方法使用网络摄像头通过以太网口将图像传递给处理器系统(ARM端),在ARM端使用OpenCV库编写的相关软件代码对视频流进行预处理。然后数据收发模块通过AXI总线和DMA进行交互,并将图像数据和网络权重参数数据发送到FPGA端的DDR4存储器上,由DMA完成DDR4存储器与片上数据缓冲之间的数据交互。
如图1所示为ARM端的整体流程图。最终分配给ARM端,负责图像采集、预处理以及数据的发送。
步骤2,设计FPGA端的架构:如图2所示,FPGA端有输入输出缓冲模块、DMA、DDR4、逻辑运算模块。DMA从DDR中读取图像数据和网络权重数据并发送到输入缓冲模块。输入缓冲模块将数据发送到逻辑运算模块进行。逻辑运算模块负责完成神经网络的各种运算,涉及卷积、池化、累加和地址映射等。输出缓冲单元用于将卷积神经网络运算完的输出featuremap数据发送到DDR4上。DMA将运算结果从DDR4中读出来并发送到ARM端的数据收发模块。
步骤3,优化FPGA端数据存储传输通路。通过优化来高效地存储和传输数据,来对卷积神经网络进行加速。将卷积神经网络应用于实现低功耗、特殊应用的高性能集成电路FPGA,展示出了性能的提升。对于数据存储传输通路的优化有以下两点:
1)乒乓buffer
可编程逻辑上的缓冲设计建立在双缓冲区的基本思想之上,其中双缓冲区以乒乓方式,以使数据传输时间与计算时间重叠。本方法将乒乓buffer分为四组:两组用于存储输入feature map和卷积核权重,两组用于存储输出feature map。每个缓冲区都包含几个独立的缓冲库,每个输入缓冲库的数量等于feature map的平铺大小Tn;每个输出缓冲组中的缓冲库的数量等于输出feature map的并行运算通道数Tm。为了提高带宽利用率,采用双缓冲组来实现乒乓操作,一个用于装载操作,另一个用于卸载操作。图3显示了多个计算核数据传输阶段的时间,其中N为输入feature map的通道数。对于第一阶段,计算引擎正在处理输入缓冲组0,同时将下一阶段数据装载到输入缓冲区组1,然后在下一阶段执行相反的操作,这是输入特征图和权重的乒乓球操作。当N/Tn阶段的计算核数据搬运完成后,将执行一次卸载操作,运算出来的输出feature map将被写回到DDR。在N/Tn阶段,卸载操作将会卸载输出缓冲组0里的输出结果,直到输出缓冲组1中重用的临时数据生成新的结果,这是输出feature map的乒乓操作。如图3所示,通过乒乓Buffer的设计,将从DDR读取数据的时延、在可编程逻辑上进行数据处理的时延和将处理完的数据写回DDR的时延重叠,减少总时延。
2)参数重排
对于权重参数数据,由于神经网络每层各不相同,与当前层和数据通路有关,可以对各层的神经网络权重参数根据当前层的特定进行参数重新排序,以减少访问内存的次数和增大突发传输的数据长度。假设神经网络第一层的权重规模为16*3*3*3(nof*nif*wky*wkx)也可以看作16*3*9(nof*nif*(wky*wkx)),其中nif为输入特征图的通道数,nof为输出特征图的通道书,wkx和wky为卷积核的长度。权重重排序前存取如图4所示,参数在DDR中没有按照排列顺序存储,需要按照箭头顺序从内存中取出。但由于权重参数在DDR中没有连续存放,一共需要访问DDR 16*3次,每次突发传输数据9个。如图4所示,数重新排序后将要读取的参数数据在DDR中顺序存储,在取出参数数据时只需要读取3次DDR,每次取出数据长度位16*9=144。减少搬运权重参数数据的次数,提高了带宽的使用率,降低了传输时延。
经实验证明,这种FPGA人工智能加速器中的数据存储和传输方法,有效提高吞吐量降低延迟,适用于对严格限制功耗和要求低延迟的应用场景,提高了智能硬件的计算效率。
综上所述,本发明优化了加速器内部存储器和片上数据之间交互,使加速器内部数据更高效地存储传输,有效提高了吞吐量降低延迟,适用于对严格限制功耗和要求低延迟的应用场景,提高了智能硬件的计算效率。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (7)

1.一种基于FPGA人工智能加速器的数据存储和传输方法,其特征在于,所述数据存储和传输方法主要包括:
步骤1,设计ARM端的架构:所述ARM端包括图像收集模块、预处理模块以及数据发送模块;使用图像收集模块通过以太网将图像传递给预处理模块,所述预处理模块在ARM端对收集到的数据进行预处理并将处理好的数据发送给所述数据收发模块;所述数据收发模块将图像数据和网络权重参数数据发送到FPGA端的DDR4存储器上;
步骤2,设计FPGA端的架构:所述FPGA端包括输入缓冲模块、输出缓冲模块、DMA、DDR4以及逻辑运算模块;DMA从DDR4中读取图像数据和网络权重数据并发送到输入缓冲模块;输入缓冲模块将数据发送到逻辑运算模块进行处理;逻辑运算模块完成神经网络的各种运算;输出缓冲模块将逻辑运算模块运算完的输出数据发送到DDR4上;DMA将运算结果从DDR4中读出来并发送到ARM端的数据收发模块;
步骤3,优化FPGA端数据存储传输通路。
2.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于,所述步骤3具体包括:
步骤3.1,增加乒乓buffer:在双缓冲的基本思想上建立可编程逻辑上的缓冲设计,所述双缓冲区以乒乓方式,以使数据传输时间与计算时间重叠;
步骤3.2,对神经网络权重参数重排序:根据权重参数数据,对各层的神经网络权重参数根据当前层的特定进行参数排序。
3.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于:在步骤1中,所述图像收集模块为网络摄像头模块。
4.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于:在步骤1中,所述预处理模块为视频流预处理模块。
5.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于:在步骤1中,所述数据收发模块与所述预处理模块之间的交互为AXI总线和DMA进行交互。
6.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于:在步骤1中,所述DDR4存储器与片上数据缓冲之间的数据交互是由DMA完成。
7.根据权利要求1所述的基于FPGA人工智能加速器的数据存储和传输方法,其特征在于:步骤2中所述各种运算包括卷积、池化、累加和地址映射。
CN202210041910.9A 2022-01-14 2022-01-14 基于fpga人工智能加速器的数据存储和传输方法 Active CN114489496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210041910.9A CN114489496B (zh) 2022-01-14 2022-01-14 基于fpga人工智能加速器的数据存储和传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210041910.9A CN114489496B (zh) 2022-01-14 2022-01-14 基于fpga人工智能加速器的数据存储和传输方法

Publications (2)

Publication Number Publication Date
CN114489496A true CN114489496A (zh) 2022-05-13
CN114489496B CN114489496B (zh) 2024-05-21

Family

ID=81511984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210041910.9A Active CN114489496B (zh) 2022-01-14 2022-01-14 基于fpga人工智能加速器的数据存储和传输方法

Country Status (1)

Country Link
CN (1) CN114489496B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294648A (zh) * 2013-05-08 2013-09-11 中国人民解放军国防科学技术大学 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法
CN103543819A (zh) * 2013-10-29 2014-01-29 华为终端有限公司 功耗控制方法和终端
CN103873779A (zh) * 2014-04-11 2014-06-18 厦门麦克玛视电子信息技术有限公司 一种停车场用智能相机的控制方法
CN104320615A (zh) * 2014-10-17 2015-01-28 智擎信息系统(上海)有限公司 一种智能视频安防系统及其信号处理方法
CN107025317A (zh) * 2015-10-07 2017-08-08 阿尔特拉公司 用于实施卷积神经网络加速器上的层的方法和装置
CN109922367A (zh) * 2017-12-13 2019-06-21 德克萨斯仪器股份有限公司 视频输入端口
CN109995942A (zh) * 2019-03-28 2019-07-09 中国医学科学院生物医学工程研究所 一种智能终端的护眼方法及系统
CN110058883A (zh) * 2019-03-14 2019-07-26 成都恒创新星科技有限公司 一种基于opu的cnn加速方法及系统
CN110674927A (zh) * 2019-09-09 2020-01-10 之江实验室 一种用于脉动阵列结构的数据重组方法
CN111582467A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 人工智能加速器和电子设备
CN112486901A (zh) * 2020-11-30 2021-03-12 清华大学 基于乒乓缓冲的存内计算系统及方法
CN112508184A (zh) * 2020-12-16 2021-03-16 重庆邮电大学 一种基于卷积神经网络的快速图像识别加速器设计方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294648A (zh) * 2013-05-08 2013-09-11 中国人民解放军国防科学技术大学 支持多mac运算部件向量处理器的分块矩阵乘法向量化方法
CN103543819A (zh) * 2013-10-29 2014-01-29 华为终端有限公司 功耗控制方法和终端
CN103873779A (zh) * 2014-04-11 2014-06-18 厦门麦克玛视电子信息技术有限公司 一种停车场用智能相机的控制方法
CN104320615A (zh) * 2014-10-17 2015-01-28 智擎信息系统(上海)有限公司 一种智能视频安防系统及其信号处理方法
CN107025317A (zh) * 2015-10-07 2017-08-08 阿尔特拉公司 用于实施卷积神经网络加速器上的层的方法和装置
CN109922367A (zh) * 2017-12-13 2019-06-21 德克萨斯仪器股份有限公司 视频输入端口
CN110058883A (zh) * 2019-03-14 2019-07-26 成都恒创新星科技有限公司 一种基于opu的cnn加速方法及系统
CN109995942A (zh) * 2019-03-28 2019-07-09 中国医学科学院生物医学工程研究所 一种智能终端的护眼方法及系统
CN110674927A (zh) * 2019-09-09 2020-01-10 之江实验室 一种用于脉动阵列结构的数据重组方法
CN111582467A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 人工智能加速器和电子设备
CN112486901A (zh) * 2020-11-30 2021-03-12 清华大学 基于乒乓缓冲的存内计算系统及方法
CN112508184A (zh) * 2020-12-16 2021-03-16 重庆邮电大学 一种基于卷积神经网络的快速图像识别加速器设计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张庭亮;甄倩倩;胡明明;: "基于FPGA的目标边缘提取硬件加速系统的设计", 山西大同大学学报(自然科学版), no. 05, 28 October 2017 (2017-10-28), pages 32 - 35 *
张路煜: "SoC《系统中多端口DMA控制器的设计》", 电子测量技术, vol. 37, no. 9, 30 September 2014 (2014-09-30), pages 32 - 36 *
王超;王腾;马翔;周学海;: "基于FPGA的机器学习硬件加速研究进展", 计算机学报, no. 06, 15 June 2020 (2020-06-15), pages 191 - 212 *
陈正博: "人工智能加速体系结构综述", 《信息工程大学学报》, vol. 21, no. 2, pages 164 - 171 *

Also Published As

Publication number Publication date
CN114489496B (zh) 2024-05-21

Similar Documents

Publication Publication Date Title
CN111488983B (zh) 一种基于fpga的轻量级cnn模型计算加速器
CN109284817B (zh) 深度可分离卷积神经网络处理架构/方法/系统及介质
CN108108809B (zh) 一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法
JP2019036298A (ja) 知能型高帯域幅メモリシステム及びそのための論理ダイ
CN109447241B (zh) 一种面向物联网领域的动态可重构卷积神经网络加速器架构
US11989638B2 (en) Convolutional neural network accelerating device and method with input data conversion
CN107657581A (zh) 一种卷积神经网络cnn硬件加速器及加速方法
CN113051216B (zh) 一种基于FPGA加速的MobileNet-SSD目标检测装置及方法
CN110852428A (zh) 基于fpga的神经网络加速方法和加速器
CN111210019B (zh) 一种基于软硬件协同加速的神经网络推断方法
CN111582465B (zh) 基于fpga的卷积神经网络加速处理系统、方法以及终端
CN113792621B (zh) 一种基于fpga的目标检测加速器设计方法
CN109086879B (zh) 一种基于fpga的稠密连接神经网络的实现方法
CN110598844A (zh) 一种基于fpga的并行卷积神经网络加速器及加速方法
CN109472734B (zh) 一种基于fpga的目标检测网络及其实现方法
CN111126309A (zh) 基于fpga的卷积神经网络架构方法及其人脸识别方法
CN114003201A (zh) 矩阵变换方法、装置及卷积神经网络加速器
CN113516236A (zh) 基于zynq平台的vgg16网络并行加速处理方法
CN113158132A (zh) 一种基于非结构化稀疏的卷积神经网络加速系统
CN114489496A (zh) 基于fpga人工智能加速器的数据存储和传输方法
Lee et al. Accelerating Deep Neural Networks Using FPGAs and ZYNQ
CN115688892A (zh) 一种稀疏权重Fused-Layer卷积加速器结构的FPGA实现方法
Huang et al. A low-bit quantized and hls-based neural network fpga accelerator for object detection
CN112346704B (zh) 一种用于卷积神经网络的全流水线型乘加单元阵列电路
CN113673691A (zh) 基于存算结合的多通道卷积fpga架构及其工作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant