CN111126309A - 基于fpga的卷积神经网络架构方法及其人脸识别方法 - Google Patents

基于fpga的卷积神经网络架构方法及其人脸识别方法 Download PDF

Info

Publication number
CN111126309A
CN111126309A CN201911366823.5A CN201911366823A CN111126309A CN 111126309 A CN111126309 A CN 111126309A CN 201911366823 A CN201911366823 A CN 201911366823A CN 111126309 A CN111126309 A CN 111126309A
Authority
CN
China
Prior art keywords
crp
module
neural network
convolutional neural
fpga
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911366823.5A
Other languages
English (en)
Inventor
刘�文
蒋云翔
朱佳
蔡晔
丁杰
郝志杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHA HAIGE BEIDOU INFORMATION TECHNOLOGY CO LTD
Original Assignee
CHANGSHA HAIGE BEIDOU INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANGSHA HAIGE BEIDOU INFORMATION TECHNOLOGY CO LTD filed Critical CHANGSHA HAIGE BEIDOU INFORMATION TECHNOLOGY CO LTD
Priority to CN201911366823.5A priority Critical patent/CN111126309A/zh
Publication of CN111126309A publication Critical patent/CN111126309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于FPGA的卷积神经网络架构方法,包括系统初始化;根据crp的内部状态启动dma,读取ps侧的图像信息;根据S3FD算法,复用crp模块从而完成conv计算;对crp模块内部的乘加卷积运算进行实现与调度;对结构帧控模块进行复用;对结构层孔模块进行复用;对crp_calc模块进行复用本发明还公开了包括所述基于FPGA的卷积神经网络架构方法的人脸识别方法。本发明提供的这种基于FPGA的卷积神经网络架构方法及其人脸识别方法,采用FPGA复用的方式实现卷积神经网络的架构,兼顾了FPGA内部资源和卷积神经网络的运算速度;而且本发明方法的可靠性高,适用性好。

Description

基于FPGA的卷积神经网络架构方法及其人脸识别方法
技术领域
本发明属于图像识别领域,具体涉及一种基于FPGA的卷积神经网络架构方法及其人脸识别方法。
背景技术
随着经济技术的发展,智能网络时代已经到来。而人脸识别技术,也已经广泛应用于人们的生产和生活当中,给人们的生产和生活带来了无尽的便利。
现今的人脸识别技术,往往依靠的是传统的CNN算法,即卷积神经网络算法。传统的CNN算法大多基于通用处理器实现,在实时性和功耗方面都不能满足应用的需求。就目前卷积神经网络应用技术的发展而言,算法本身需要对图片等数据进行卷积运算操作,致使CPU运算速度极慢,资源消耗极高;而这也是限制卷积神经网络发展的一大重要因素。
现阶段出现了各种基于FPGA的卷积神经网络架构的设计,也确实为神经网络的发展解决了一些难题,但是由于各种算法中CNN层数不同,乘加运算量的差异,同时也受制于FPGA内部资源及功耗,对于一些权重位宽较大、个数较多的架构,FPGA并不能满足设计要求。这就要求对算法进行剪枝优化处理:剪枝能使算法的运算量降低,节省FPGA的逻辑消耗;但是,经过剪枝之后的算法在精度方面会降低,影响算法实现的效果。
因此,目前并没有一种能够兼顾性能和资源的基于FPGA的卷积神经网络架构方法。
发明内容
本发明的目的之一在于提供一种能够兼顾性能和资源、可靠性高且适用性好的基于FPGA的卷积神经网络架构方法。
本发明的目的之二在于提供一种包括了所述基于FPGA的卷积神经网络架构方法的人脸识别方法。
本发明提供的这种基于FPGA的卷积神经网络架构方法,包括如下步骤:
S1.系统初始化;
S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块),读取ps(programmable system)侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算;所述conv为卷积神经网络运算模块;
S4.对crp模块内部的乘加卷积运算进行实现与调度;
S5.对结构帧控模块进行复用;
S6.对结构层孔模块进行复用;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块。
步骤S1所述的系统初始化,具体包括接收CPU通过APB总线下发的各项数据。
所述的各项数据包括DMA的读写首地址,图像信息、卷积核信息和反量化信息。
步骤S4所述的crp模块,具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算。
步骤S5所述的对结构帧控模块进行复用,具体包括接收总线下发的配置信息,存储到内部RAM(crp_cfg_ram);接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块。
步骤S6所述的对结构层孔模块进行复用,具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧。
步骤S7所述的对crp_calc模块进行复用,具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值。
本发明还提供了一种包括所述的基于FPGA的卷积神经网络架构方法的人脸识别方法,具体还包括如下步骤:
S8.采用步骤S1~S7的方法,动态进行多人脸的快速识别和比对。
本发明提供的这种基于FPGA的卷积神经网络架构方法及其人脸识别方法,采用FPGA复用的方式实现卷积神经网络的架构,兼顾了FPGA内部资源和卷积神经网络的运算速度;而且本发明方法的可靠性高,适用性好。
附图说明
图1为本发明的架构方法的方法流程示意图。
图2为本发明的架构方法的系统框图。
图3为本发明的架构方法的crp内部框图。
图4为本发明的在具体应用时的框图。
图5为本发明的识别方法的方法流程示意图。
具体实施方式
如图2所示为本发明的架构方法的系统框图:图中共包括5种模块:
psddr4(PS侧DDR4内存条)
ps(programmable system)是zynq的cpu端,视频流数据存储在ps端的ddr4中,根据CPU指定的地址读取数据;
DMA(直接存储器访问模块)
系统从ps(pl)端的ddr4中通过DMA主动读(写)图像数据的方式,DMA的启动由逻辑控制,每次DMA的首地址由CPU通过apb写寄存器来指定;
axi_ram(寄存器读写模块)
实现CPU主动读写逻辑端的配置寄存器,主要寄存器包括DMA的读写首地址,图像信息、卷积核信息、反量化信息等
crp(卷积神经网络模块)
卷积神经网络实现的核心部分,循环调用该模块来实现多层CRP的运算;
pl ddr4(逻辑端DDR4内存条)
逻辑端的ddr4用于存储每层crp之后的特征值及最终输出的结果等;
如图1所述为本发明的架构方法的方法流程示意图:本发明提供的这种基于FPGA的卷积神经网络架构方法,包括如下步骤:
S1.系统初始化;具体包括接收CPU通过APB总线下发的各项数据,如DMA的读写首地址,图像信息、卷积核信息和反量化信息等;
S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块),读取ps(programmable system)侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算,共19层crp处理;所述conv为卷积神经网络运算模块;
S4.对crp模块内部的乘加卷积运算进行实现与调度;crp内部框图如图3所示:具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算;
S5.对结构帧控模块进行复用;具体包括接收总线下发的配置信息,存储到内部RAM(crp_cfg_ram);接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块;
S6.对结构层孔模块进行复用;具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块;具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值。
输入图像M:
a00 a01 a02 a03 a04
a10 a11 a12 a13 a14
a20 a21 a22 a23 a24
a30 a31 a32 a33 a34
a40 a41 a42 a43 a44
b00 b01 b02 b03 b04
b10 b11 b12 b13 b14
b20 b21 b22 b23 b24
b30 b31 b32 b33 b34
b40 b41 b42 b43 b44
c00 c01 c02 c03 c04
c10 c11 c12 c13 c14
c20 c21 c22 c23 c24
c30 c31 c32 c33 c34
c40 c41 c42 c43 c44
输出通道卷积核为:
Figure BDA0002338642700000061
其中输入图像通道M为3,图像大小为5*5,卷积核大小为3*3,输出通道N=1(例子中无pading),输出通道N0计算如下:
N0=a00*w0+a01*w1+a02*w2+a10*w3+a11*w4+a12*w5+a20*w6+a21*w7+a22*w8+b00*w9+b01*w10+b02*w11+b10*w12+b11*w13+b12*w14+b20*w15+b21*w16+b22*w17+c00*w18+c01*w19+c02*w20+c10*w21+c11*w22+c12*w23+c20*w24+c21*w25+c22*w26+bias0
=(a00,b00,c00,a01,b01,c01,a02,b02,c02,a10,b10,c10,a11,b11,c11,a12,b12,c12,a20,b20,c20,a21,b21,c21,a22,b22,c22)*(w0,w9,w18,w1,w10,w19,w2,w11,w20,w3,w12,w21,w4,w13,w22,w5,w14,w23,w6,w15,w24,w7,w16,w25,w8,w17,w26)+bias0
如图4所示为本发明的在具体应用时的框图:在本系统中,FPGA采用带有arm内核的zynq,整个系统的实现完全基于FPGA完成,先由ps侧的arm采集外视频存入ps侧的DDR4中,pl侧由逻辑电路来实现,读取ps侧的原视频数据,经缩放后进入卷积神经网络中,该部分是系统的核心功能部分,通过卷积运算提取出视频中的人脸等关键特征值输送给后端处理,得出人脸的位置,进而在视频中能准确的画出人脸的位置方框。
如图5所述为本发明的识别方法的方法流程示意图:本发明还提供了一种包括所述的基于FPGA的卷积神经网络架构方法的人脸识别方法,具体还包括如下步骤:
S1.系统初始化;具体包括接收CPU通过APB总线下发的各项数据,如DMA的读写首地址,图像信息、卷积核信息和反量化信息等;
S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块),读取ps(programmable system)侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算;共19层crp处理;
S4.对crp模块内部的乘加卷积运算进行实现与调度;crp内部框图如图3所示:具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算;
S5.对结构帧控模块进行复用;具体包括接收总线下发的配置信息,存储到内部RAM(crp_cfg_ram);接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块;
S6.对结构层孔模块进行复用;具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块;具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值;
S8.采用步骤S1~S7的方法,动态进行多人脸的快速识别和比对。
本发明提供的该卷积神经网络架构方法及其人脸识别方法,较其他方案及平台有多种优势,具体体现在:
1.FPGA基于可编程逻辑实现硬件功能,具有灵活性强,设计维护方便等优点。阵列式、可重构的数据流引擎(权重、数据流入、计算合理配合),配合大量分布式RAM的设计,可以让FPGA适配特定的神经网络,在本发明中针对特定的SDF网络可以达到较高的峰值性能,这也是FPGA功耗比GPU做的更低的原因。
2.相比较其他的实现方案,由于卷积神经网络运算量大,采用CPU计算,受限于CPU的主频及核数,且CPU并不擅长运算;DSP虽然有强大的运算能力,但也同样受限于硬件资源配置;FPGA的并行处理架构可以同时多线程运算,运算主频可调,且没有软件中的群延时等问题,对于处理卷积神经网络中大量乘加运算有着十分显著的优势,能极大的缩短数据运算的延时,这在视频图像处理中有着十分重要的作用,虽然FPGA不合适做浮点运算,但是通过算法优化压缩网络、压缩权重、配合适配的NPU结构,更小的计算量达到接近的浮点运算的精度。

Claims (8)

1.一种基于FPGA的卷积神经网络架构方法,包括如下步骤:
S1.系统初始化;
S2.根据crp的内部状态启动dma,读取ps侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算;所述conv为卷积神经网络运算模块;
S4.对crp模块内部的乘加卷积运算进行实现与调度;
S5.对结构帧控模块进行复用;
S6.对结构层孔模块进行复用;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块。
2.根据权利要求1所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S1所述的系统初始化,具体包括接收CPU通过APB总线下发的各项数据。
3.根据权利要求2所述的基于FPGA的卷积神经网络架构方法,其特征在于所述的各项数据包括DMA的读写首地址,图像信息、卷积核信息和反量化信息。
4.根据权利要求3所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S4所述的crp模块,具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算。
5.根据权利要求4所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S5所述的对结构帧控模块进行复用,具体包括接收总线下发的配置信息,存储到内部RAM;接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块。
6.根据权利要求5所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S6所述的对结构层孔模块进行复用,具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧。
7.根据权利要求6所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S7所述的对crp_calc模块进行复用,具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值。
8.一种包括了权利要求1~7之一所述的基于FPGA的卷积神经网络架构方法的人脸识别方法,其特征在于还包括如下步骤:
S8.采用步骤S1~S7的方法,动态进行多人脸的快速识别和比对。
CN201911366823.5A 2019-12-26 2019-12-26 基于fpga的卷积神经网络架构方法及其人脸识别方法 Pending CN111126309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366823.5A CN111126309A (zh) 2019-12-26 2019-12-26 基于fpga的卷积神经网络架构方法及其人脸识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366823.5A CN111126309A (zh) 2019-12-26 2019-12-26 基于fpga的卷积神经网络架构方法及其人脸识别方法

Publications (1)

Publication Number Publication Date
CN111126309A true CN111126309A (zh) 2020-05-08

Family

ID=70503106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366823.5A Pending CN111126309A (zh) 2019-12-26 2019-12-26 基于fpga的卷积神经网络架构方法及其人脸识别方法

Country Status (1)

Country Link
CN (1) CN111126309A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738424A (zh) * 2020-06-29 2020-10-02 湖南国科微电子股份有限公司 神经网络处理方法、装置、电子设备及存储介质
CN111860784A (zh) * 2020-07-24 2020-10-30 上海仪电(集团)有限公司中央研究院 基于arm和fpga的卷积神经识别系统及方法
CN113255446A (zh) * 2021-04-20 2021-08-13 长沙海格北斗信息技术有限公司 人脸检测系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854018A (zh) * 2012-12-07 2014-06-11 哈尔滨恒誉名翔科技有限公司 一种智能多平台图像采集识别系统
CN205726177U (zh) * 2016-07-01 2016-11-23 浪潮集团有限公司 一种基于卷积神经网络芯片的安防监控系统
US20180046913A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Combining cpu and special accelerator for implementing an artificial neural network
US20180046903A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Deep processing unit (dpu) for implementing an artificial neural network (ann)
CN108416422A (zh) * 2017-12-29 2018-08-17 国民技术股份有限公司 一种基于fpga的卷积神经网络实现方法及装置
CN109032781A (zh) * 2018-07-13 2018-12-18 重庆邮电大学 一种卷积神经网络算法的fpga并行系统
CN109446996A (zh) * 2018-10-31 2019-03-08 北京智慧眼科技股份有限公司 基于fpga的人脸识别数据处理装置及处理方法
CN109740619A (zh) * 2018-12-27 2019-05-10 北京航天飞腾装备技术有限责任公司 用于目标识别的神经网络终端运行方法和装置
CN109948777A (zh) * 2018-11-14 2019-06-28 深圳大学 基于fpga实现的卷积神经网络以及基于fpga实现卷积神经网络的实现方法
CN110458279A (zh) * 2019-07-15 2019-11-15 武汉魅瞳科技有限公司 一种基于fpga的二值神经网络加速方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854018A (zh) * 2012-12-07 2014-06-11 哈尔滨恒誉名翔科技有限公司 一种智能多平台图像采集识别系统
CN205726177U (zh) * 2016-07-01 2016-11-23 浪潮集团有限公司 一种基于卷积神经网络芯片的安防监控系统
US20180046913A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Combining cpu and special accelerator for implementing an artificial neural network
US20180046903A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Deep processing unit (dpu) for implementing an artificial neural network (ann)
CN108416422A (zh) * 2017-12-29 2018-08-17 国民技术股份有限公司 一种基于fpga的卷积神经网络实现方法及装置
CN109032781A (zh) * 2018-07-13 2018-12-18 重庆邮电大学 一种卷积神经网络算法的fpga并行系统
CN109446996A (zh) * 2018-10-31 2019-03-08 北京智慧眼科技股份有限公司 基于fpga的人脸识别数据处理装置及处理方法
CN109948777A (zh) * 2018-11-14 2019-06-28 深圳大学 基于fpga实现的卷积神经网络以及基于fpga实现卷积神经网络的实现方法
CN109740619A (zh) * 2018-12-27 2019-05-10 北京航天飞腾装备技术有限责任公司 用于目标识别的神经网络终端运行方法和装置
CN110458279A (zh) * 2019-07-15 2019-11-15 武汉魅瞳科技有限公司 一种基于fpga的二值神经网络加速方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738424A (zh) * 2020-06-29 2020-10-02 湖南国科微电子股份有限公司 神经网络处理方法、装置、电子设备及存储介质
CN111738424B (zh) * 2020-06-29 2023-12-26 湖南国科微电子股份有限公司 神经网络处理方法、装置、电子设备及存储介质
CN111860784A (zh) * 2020-07-24 2020-10-30 上海仪电(集团)有限公司中央研究院 基于arm和fpga的卷积神经识别系统及方法
CN113255446A (zh) * 2021-04-20 2021-08-13 长沙海格北斗信息技术有限公司 人脸检测系统

Similar Documents

Publication Publication Date Title
CN111126309A (zh) 基于fpga的卷积神经网络架构方法及其人脸识别方法
US11449576B2 (en) Convolution operation processing method and related product
US20220012593A1 (en) Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization
CN106991477B (zh) 一种人工神经网络压缩编码装置和方法
JP2019036298A (ja) 知能型高帯域幅メモリシステム及びそのための論理ダイ
CN111488983A (zh) 一种基于fpga的轻量级cnn模型计算加速器
Nakahara et al. High-throughput convolutional neural network on an FPGA by customized JPEG compression
US11468145B1 (en) Storage of input values within core of neural network inference circuit
CN113033794B (zh) 基于深度可分离卷积的轻量级神经网络硬件加速器
CN111079923A (zh) 适用于边缘计算平台的Spark卷积神经网络系统及其电路
US11625607B2 (en) Method of structured network pruning and sparsity speed-up
CN110598844A (zh) 一种基于fpga的并行卷积神经网络加速器及加速方法
US11568227B1 (en) Neural network inference circuit read controller with multiple operational modes
WO2019095333A1 (zh) 一种数据处理方法及设备
CN114399035A (zh) 搬运数据的方法、直接存储器访问装置以及计算机系统
US20240046081A1 (en) Data transfer for non-dot product computations on neural network inference circuit
WO2020041934A1 (zh) 一种数据处理设备以及一种数据处理方法
CN114489496B (zh) 基于fpga人工智能加速器的数据存储和传输方法
CN115081603A (zh) 执行Winograd卷积的计算装置、集成电路装置及板卡
CN111131836A (zh) 一种基于fpga的jpeg2000编码并行运算方法
WO2021036668A1 (zh) 神经网络的全局池化方法及众核系统
CN113673690B (zh) 一种水下噪声分类卷积神经网络加速器
Wang et al. Dynamic Neural Network Accelerator for Multispectral detection Based on FPGA
Chen et al. High Speed Winograd Convolutional Circuit for Convolutional Neural Networks
US11409356B1 (en) Using data correlation to reduce the power consumption of signal processing systems without affecting the precision of computation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination