CN112966807A - 基于存储资源受限fpga的卷积神经网络实现方法 - Google Patents

基于存储资源受限fpga的卷积神经网络实现方法 Download PDF

Info

Publication number
CN112966807A
CN112966807A CN201911280774.3A CN201911280774A CN112966807A CN 112966807 A CN112966807 A CN 112966807A CN 201911280774 A CN201911280774 A CN 201911280774A CN 112966807 A CN112966807 A CN 112966807A
Authority
CN
China
Prior art keywords
input
size
convolution
channels
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911280774.3A
Other languages
English (en)
Other versions
CN112966807B (zh
Inventor
王浩
曹姗
徐树公
张舜卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201911280774.3A priority Critical patent/CN112966807B/zh
Publication of CN112966807A publication Critical patent/CN112966807A/zh
Application granted granted Critical
Publication of CN112966807B publication Critical patent/CN112966807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/781On-chip cache; Off-chip memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于存储资源受限FPGA的卷积神经网络实现方法,利用卷积层处于神经网络中的不同的位置,对于靠前的大尺寸小通道的特征图层,采取按高度维度分块输入特征图和卷积核,缓存全部卷积核参数的方式进行缓存;对于靠后的小尺寸大通道的特征图层,采取按输入通道分块输入特征图和卷积核,缓存部分通道的全尺寸输入特征图和卷积核参数的方式进行缓存。本发明在不增加FPGA与外部存储器之间传输数据的前提下,针对大尺寸卷积神经网络和小存储资源FPGA都适用,充分利用卷积神经网络的特点,分层设计存储方案,节约片上的存储资源。

Description

基于存储资源受限FPGA的卷积神经网络实现方法
技术领域
本发明涉及的是一种神经网络应用领域的技术,具体是一种基于存储资源受限FPGA的卷积神经网络实现方法。
背景技术
卷积神经网络是目前最先进的人工智能算法之一,但卷积神经网络的优异性能是依赖大量参数进行大规模计算,例如典型的vgg16网络,参数量就高达1.38亿个,而乘加运算次数更是高达155亿次。所以对于传统的CPU平台很难高效地处理卷积神经网络模型,特别是对于需要实时处理的任务,如目标检测,人脸识别等情况会更加糟糕。
现有技术中有通过将特征图分块便于更好地计算,同时由于不同卷积核之间,不同通道之间的卷积运算互不影响,但由于卷积核存在大量的复用,需要以滑窗的形式遍历整个输入特征图,所以卷积核在一层计算中从始至终都需要存在,所以大多数的硬件实现都会选择将一层的权值参数全部存储在片上存储器中。但对于一些资源有限的FPGA并不能存储一层所有的权值参数,这时候可能需要反复从片外存储器中读取数据,相较于直接从片上存储器读取数据,片外存储器读取数据会占用更多的时间,同时会消耗更多的能量,从而阻碍在硬件上实现卷积神经网络。
发明内容
本发明针对现有技术在资源有限的FPGA上无法满足每一层的权值参数都能完全缓存在FPGA的片上存储器中的缺陷,提出一种基于存储资源受限FPGA的卷积神经网络实现方法,在不增加FPGA与外部存储器之间传输数据的前提下,针对大尺寸卷积神经网络和小存储资源FPGA都适用,充分利用卷积神经网络的特点,分层设计存储方案,节约片上的存储资源。
本发明是通过以下技术方案实现的:
本发明涉及一种基于存储资源受限FPGA的卷积神经网络实现方法,利用卷积层处于神经网络中的不同的位置,对于靠前的大尺寸小通道的特征图层,采取按高度维度分块输入特征图和卷积核,缓存全部卷积核参数的方式进行缓存;对于靠后的小尺寸大通道的特征图层,采取按输入通道分块输入特征图和卷积核,缓存部分通道的全尺寸输入特征图和卷积核参数的方式进行缓存。
由于卷积神经网络的从前向后的过程中,特征图的尺寸(对应图中正方体的长和高)会越来越小,而通道数(对应图中正方体的宽)会越来越大。本发明中靠后的小尺寸大通道的特征图层尺寸小于30*30像素,对应此时特征图的通道数相对较大;相应地,靠前的大尺寸小通道的特征图层尺寸大于等于30*30像素。
但针对不同的卷积神经网络,通道数会有不同的值。
所述的缓存全部卷积核参数是指:将每一层的卷积核参数全部缓存到片上存储器中,对输入特征图和输出特征图按高度维度分块,每当第一批的数据处理完成后,会从外部存储器中缓存新的一批输入特征图。同理对于输出特征图,每当本发明得到一行数据时,将其输出到外部存储器中,以便下一层使用。
所述的缓存部分通道的全尺寸输入特征图和卷积核参数是指:每一次缓存部分输入通道上的全尺寸输入特征图,以及同样长度输入通道上的所有卷积核参数;每当该批通道计算完成时,读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。
技术效果
本发明整体解决了在资源有限的FPGA上无法满足每一层的权值参数都能完全缓存在FPGA的片上存储器的问题。
与现有技术相比,本发明适用范围广,针对大尺寸卷积神经网络和小存储资源FPGA都适用且显著地节约片上的存储资源。
附图说明
图1为本发明结构示意图;
图2为实施例中卷积神经网络特征图尺寸变化示意图;
图3为实施例中靠前层卷积硬件实现方法示意图;
图4为实施例中靠后层卷积硬件实现方法示意图;
图5为实施例中vgg16的FPGA实现资源利用情况示意图;
图6为实施例中VIPLFaceNet的FPGA实现资源利用情况示意图。
具体实施方式
如图1所示,为本实施例涉及一种基于存储资源受限FPGA的卷积神经网络架构,包括:权值缓存器、特征图的输入缓存器、特征图的输出缓存器和乘加单元,其中:权值缓存器和输入缓存器通过总线与片外DDR相连并分别用于存储权值参数和输入特征图参数,权值缓存器和输入缓存器分别将存储的参数传输到乘加单元中的乘法单元以完成乘法运算,乘法单元将乘法运算结果输出至乘加单元中的加法单元以完成加法运算,输出缓存器存储部分和数据,同时输出部分和数据到加法单元完成加法运算,输出缓存器通过总线将最终运算结果输出外部DDR中完成一层卷积运算。
所述的部分和数据是指:部分输入通道的数据相加的中间结果,如实施例中的部分输入通道就是指16个输入通道。
如图2所示,本实施例进一步涉及基于上述架构的参数优化缓存方法,针对卷积神经网络不同层的特点采用不同的分块缓存方法,使得大型卷积神经网络可以在资源有限的FPGA完成,同时避免反复从外部存储器读取数据,具体分为两个阶段,第一阶段是靠前层的卷积实现,第二阶段是靠后层的卷积实现。
如图3所示,为所述的按高度维度分块在靠前层卷积中的实现过程,由于靠前层的特征图尺寸很大,而卷积核的参数量又相对较少,因此将每一层的卷积核参数全部缓存到片上存储器中,对输入特征图和输出特征图按高度维度分块,每当第一批的数据处理完成后,会从外部存储器中缓存新的一批输入特征图。同理对于输出特征图,每当得到一行数据时,将其输出到外部存储器中,以便下一层使用,具体为:卷积的尺寸是3*3,所以每3行的特征图划分成一个特征子图,这样就会将一个大的特征图划分成许多小的特征图。每次只需要缓存一个特征子图到片上存储器中。
如图4所示,为本实施例对于靠后层的卷积实现方法,由于其特征图的尺寸已经变得很小,但是通道数将会变得非常大,这将会导致靠后层的卷积核的参数将会变得非常多,以致于片上的存储器不能完全缓存一行的卷积核参数,因此对输入特征图和卷积核按通道维度进行分块,每一次缓存部分输入通道上的全尺寸输入特征图以及同样长度输入通道上的所有卷积核参数;每当该批通道计算完成时,读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。
所述的在通道维度进行分块采用但不限于:将一个32个通道的特征图以16个通道为一块分两个,每个16个通道的特征子图。
以通道维度进行分块,可以避免将整个卷积核全部读到片上存储,同时全尺寸的输入特征图读到片上,那么当部分输入通道的卷积核于这些部分通道的全尺寸输入特征图完成计算后,完全可以用新的卷积核参数来覆盖这些旧的参数,而无需重新开辟一段新的存储空间来存储这些数据。
如表1所示,为上述方法在卷积神经网络vgg16卷积层的网络结构的实现,靠前层的卷积核尺寸比较小,例如,第一层卷积核的参数量N1=3*3*3*64=1728
当每个参数使用16位定点,那么第一层卷积核参数所需要的存储量为27Kbit。则最后一层卷积核的参数量N2=3*3*512*512=2359296
同样当每个参数使用16位定点,那么最后一层卷积核参数所需要的存储量为36Mbit。可以发现随着卷积的深入,卷积核的通道数和个数会越来越大,参数量会高出一个量级。以Xilinx Zynq UltraScale+MPSoC ZCU102 FPGA为例,片上一共有912块BRAM,每块BRAM的存储大小为36Kbit,所以片上BRAM总的存储资源为32.1Mbit。显然片上的存储资源根本无法存储后面几层的卷积核参数。
同时可以发现第一层的输入特征图尺寸为224*224,总共有3个输入通道,最后一层的输入特征图尺寸为14*14,总共有512个输入通道。输入特征图随着卷积的深入,尺寸会越来越小,同时输入通道会越来越大。
综上,本实施例优选以卷积层8为分界点,因为卷积层8的输入尺寸开始变得很小,缓存一张完整尺寸的特征图的存储代价变得很小。对于前七层卷积,缓存一层卷积核所有的参数,同时对输入特征图按高度维度分块,每次缓存三行输入特征图的所有输入通道,这样三行输入特征图与所有的卷积核计算之后,得到一行输出特征图的所有通道的值,并将其输出到片外DDR存储器中,同时可以缓存新的一行输入特征图,并覆盖已经计算完成的一行输入特征图,以此循环完成一层的卷积运算。对于后6层数据,采取输入通道分块的策略,每16个输入通道为一块数据块,片上缓存16个输入通道的全部卷积核参数,同时缓存16个输入通道的全尺寸输入特征图。每当16个输入通道的卷积计算完成之后,得到一个完整尺寸输出特征图的部分和结果,同时缓存新一组16通道的输入特征图和卷积核参数。
如图5所示,为在Xilinx Zynq UltraScale+MPSoC ZCU102 FPGA上,使用本发明方法实现vgg16的资源利用情况,从图中可以看出,BRAM的使用达到了97%。在150MHz的频率下,检测单张图片需要0.72s的时间。
表1 vgg16卷积层网络结构
Figure BDA0002316682490000041
Figure BDA0002316682490000051
如表2所示,为上述方法在卷积神经网络VIPLFaceNet卷积层的网络结构上的具体实现,从表格中可以发现,该网络只有第一层的输入特征图的尺寸会比较大,其余层的特征图尺寸都比较小,所以本发明以第一层为分界点。第一层采取缓存所有卷积核的所有参数,对输入特征图采取行分块。因为第一层的卷积核的尺寸是9*9,所以为了便于所有层硬件可以复用,所以第一层的9*9的卷积核拆分成3*3*9,即第一层的输入通道将会变成27。
对于其余6层数据,采取输入通道分块的策略,同样每16个输入通道为一块数据块,片上缓存16个输入通道的全部卷积核参数,同时缓存16个输入通道的全尺寸输入特征图。每当16个输入通道的卷积计算完成之后,得到一个完整尺寸输出特征图的部分和结果,同时缓存新一组16通道的输入特征图和卷积核参数。图6所示的是在Xilinx ZynqUltraScale+MPSoC ZCU102 FPGA上,使用本方法实现VIPLFaceNet的资源利用情况,从图中可以看出,BRAM只使用了41%。在150MHz的频率下,检测单张图片需要0.074s的时间。
表2 VIPLFaceNet卷积层网络结构
层数 输入尺寸 卷积核尺寸 输出尺寸
卷积层1 228*228*3 9*9*3*48 55*55*48
卷积层2 27*27*48 3*3*48*128 27*27*128
卷积层3 27*27*128 3*3*128*128 27*27*128
卷积层4 13*13*128 3*3*128*256 13*13*256
卷积层5 13*13*256 3*3*256*192 13*13*192
卷积层6 13*13*192 3*3*192*192 13*13*192
卷积层7 13*13*192 3*3*192*128 13*13*128
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (6)

1.一种基于存储资源受限FPGA的卷积神经网络实现方法,其特征在于,利用卷积层处于神经网络中的不同的位置,对于靠前的大尺寸小通道的特征图层,采取按高度维度分块输入特征图和卷积核,缓存全部卷积核参数的方式进行缓存;对于靠后的小尺寸大通道的特征图层,采取按输入通道分块输入特征图和卷积核,缓存部分通道的全尺寸输入特征图和卷积核参数的方式进行缓存;
所述的靠后的小尺寸大通道的特征图层尺寸小于30*30像素,相应地靠前的大尺寸小通道的特征图层尺寸大于等于30*30像素。
2.根据权利要求1所述的基于存储资源受限FPGA的卷积神经网络实现方法,其特征是,所述的缓存全部卷积核参数是指:将每一层的卷积核参数全部缓存到片上存储器中,对输入特征图和输出特征图按高度维度分块,每当第一批的数据处理完成后,会从外部存储器中缓存新的一批输入特征图,同理对于输出特征图,每当本发明得到一行数据时,将其输出到外部存储器中,以便下一层使用。
3.根据权利要求1所述的基于存储资源受限FPGA的卷积神经网络实现方法,其特征是,所述的缓存部分通道的全尺寸输入特征图和卷积核参数是指:每一次缓存部分输入通道上的全尺寸输入特征图,以及同样长度输入通道上的所有卷积核参数;每当该批通道计算完成时,读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。
4.根据权利要求1所述的基于存储资源受限FPGA的卷积神经网络实现方法,其特征是,对输入特征图和卷积核按通道维度进行分块,每一次缓存部分输入通道上的全尺寸输入特征图以及同样长度输入通道上的所有卷积核参数;每当该批通道计算完成时,读取新一批通道数据并累加在当前输出特征图上直至完成所有通道上的计算。
5.根据权利要求4所述的基于存储资源受限FPGA的卷积神经网络实现方法,其特征是,所述的在通道维度进行分块采用:将一个32个通道的特征图以16个通道为一块分两个,每个16个通道的特征子图。
6.一种实现上述任一权利要求所述方法的卷积神经网络架构,其特征在于,包括:权值缓存器、特征图的输入缓存器、特征图的输出缓存器和乘加单元,其中:权值缓存器和输入缓存器通过总线与片外DDR相连并分别用于存储权值参数和输入特征图参数,权值缓存器和输入缓存器分别将存储的参数传输到乘加单元中的乘法单元以完成乘法运算,乘法单元将乘法运算结果输出至乘加单元中的加法单元以完成加法运算,输出缓存器存储部分和结果,同时输出部分和数据到加法单元完成加法运算,输出缓存器通过总线将最终运算结果输出外部DDR中完成一层卷积运算。
CN201911280774.3A 2019-12-13 2019-12-13 基于存储资源受限fpga的卷积神经网络实现方法 Active CN112966807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911280774.3A CN112966807B (zh) 2019-12-13 2019-12-13 基于存储资源受限fpga的卷积神经网络实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911280774.3A CN112966807B (zh) 2019-12-13 2019-12-13 基于存储资源受限fpga的卷积神经网络实现方法

Publications (2)

Publication Number Publication Date
CN112966807A true CN112966807A (zh) 2021-06-15
CN112966807B CN112966807B (zh) 2022-09-16

Family

ID=76270830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911280774.3A Active CN112966807B (zh) 2019-12-13 2019-12-13 基于存储资源受限fpga的卷积神经网络实现方法

Country Status (1)

Country Link
CN (1) CN112966807B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625963A (zh) * 2021-07-16 2021-11-09 南京大学 基于存算一体器件的卷积神经网络层间的存储装置及方法
CN114565501A (zh) * 2022-02-21 2022-05-31 格兰菲智能科技有限公司 用于卷积运算的数据加载方法及其装置
CN116776945A (zh) * 2023-06-26 2023-09-19 中国科学院长春光学精密机械与物理研究所 一种基于zynq平台的vgg16网络加速器设计实现方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN108647777A (zh) * 2018-05-08 2018-10-12 济南浪潮高新科技投资发展有限公司 一种实现并行卷积计算的数据映射系统及方法
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109086879A (zh) * 2018-07-05 2018-12-25 东南大学 一种基于fpga的稠密连接神经网络的实现方法
CN109784489A (zh) * 2019-01-16 2019-05-21 北京大学软件与微电子学院 基于fpga的卷积神经网络ip核
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN108647777A (zh) * 2018-05-08 2018-10-12 济南浪潮高新科技投资发展有限公司 一种实现并行卷积计算的数据映射系统及方法
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109086879A (zh) * 2018-07-05 2018-12-25 东南大学 一种基于fpga的稠密连接神经网络的实现方法
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
CN109784489A (zh) * 2019-01-16 2019-05-21 北京大学软件与微电子学院 基于fpga的卷积神经网络ip核

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANG HU ET AL.: ""A Resources-Efficient Configurable Accelerator for Deep Convolutional Neural Networks"", 《IEEE》 *
徐睿 等: ""基于Winograd稀疏算法的卷积神经网络加速器设计与研究"", 《计算机工程与科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113625963A (zh) * 2021-07-16 2021-11-09 南京大学 基于存算一体器件的卷积神经网络层间的存储装置及方法
CN114565501A (zh) * 2022-02-21 2022-05-31 格兰菲智能科技有限公司 用于卷积运算的数据加载方法及其装置
CN114565501B (zh) * 2022-02-21 2024-03-22 格兰菲智能科技有限公司 用于卷积运算的数据加载方法及其装置
CN116776945A (zh) * 2023-06-26 2023-09-19 中国科学院长春光学精密机械与物理研究所 一种基于zynq平台的vgg16网络加速器设计实现方法

Also Published As

Publication number Publication date
CN112966807B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN112966807B (zh) 基于存储资源受限fpga的卷积神经网络实现方法
CN109214504B (zh) 一种基于fpga的yolo网络前向推理加速器设计方法
CN111199273B (zh) 卷积计算方法、装置、设备及存储介质
CN113313243B (zh) 神经网络加速器的确定方法、装置、设备以及存储介质
CN110688088B (zh) 一种面向神经网络的通用非线性激活函数计算装置和方法
CN108573305B (zh) 一种数据处理方法、设备及装置
CN111079923B (zh) 适用于边缘计算平台的Spark卷积神经网络系统及其电路
CN108154229B (zh) 基于fpga加速卷积神经网络框架的图片处理方法
CN112668708A (zh) 一种提高数据利用率的卷积运算装置
CN106910162A (zh) 基于fpga的图像缩放处理方法及装置
CN111738433A (zh) 一种可重配置的卷积硬件加速器
US20220253668A1 (en) Data processing method and device, storage medium and electronic device
CN111008691B (zh) 一种权值和激活值都二值化的卷积神经网络加速器架构
CN107748913A (zh) 一种深度神经网络的通用小型化方法
CN113222129B (zh) 一种基于多级缓存循环利用的卷积运算处理单元及系统
CN107085827B (zh) 基于硬件平台实现的超分辨力图像复原方法
CN115982418B (zh) 一种提升ai计算芯片超分运算性能的方法
CN112183732A (zh) 卷积神经网络加速方法、装置和计算机设备
TWI740725B (zh) 資料傳遞及合併的方法
CN112988229A (zh) 基于异构计算的卷积神经网络资源优化配置方法
CN115293978A (zh) 卷积运算电路和方法、图像处理设备
CN113744220B (zh) 一种基于pynq的无预选框检测系统
CN112905526B (zh) 一种多种类型卷积的fpga实现方法
CN112001492B (zh) 关于二值权重DenseNet模型的混合流水式加速架构及加速方法
CN114004351A (zh) 一种卷积神经网络硬件加速平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant