CN111126309A - 基于fpga的卷积神经网络架构方法及其人脸识别方法 - Google Patents
基于fpga的卷积神经网络架构方法及其人脸识别方法 Download PDFInfo
- Publication number
- CN111126309A CN111126309A CN201911366823.5A CN201911366823A CN111126309A CN 111126309 A CN111126309 A CN 111126309A CN 201911366823 A CN201911366823 A CN 201911366823A CN 111126309 A CN111126309 A CN 111126309A
- Authority
- CN
- China
- Prior art keywords
- crp
- module
- neural network
- convolutional neural
- fpga
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于FPGA的卷积神经网络架构方法,包括系统初始化;根据crp的内部状态启动dma,读取ps侧的图像信息;根据S3FD算法,复用crp模块从而完成conv计算;对crp模块内部的乘加卷积运算进行实现与调度;对结构帧控模块进行复用;对结构层孔模块进行复用;对crp_calc模块进行复用本发明还公开了包括所述基于FPGA的卷积神经网络架构方法的人脸识别方法。本发明提供的这种基于FPGA的卷积神经网络架构方法及其人脸识别方法,采用FPGA复用的方式实现卷积神经网络的架构,兼顾了FPGA内部资源和卷积神经网络的运算速度;而且本发明方法的可靠性高,适用性好。
Description
技术领域
本发明属于图像识别领域,具体涉及一种基于FPGA的卷积神经网络架构方法及其人脸识别方法。
背景技术
随着经济技术的发展,智能网络时代已经到来。而人脸识别技术,也已经广泛应用于人们的生产和生活当中,给人们的生产和生活带来了无尽的便利。
现今的人脸识别技术,往往依靠的是传统的CNN算法,即卷积神经网络算法。传统的CNN算法大多基于通用处理器实现,在实时性和功耗方面都不能满足应用的需求。就目前卷积神经网络应用技术的发展而言,算法本身需要对图片等数据进行卷积运算操作,致使CPU运算速度极慢,资源消耗极高;而这也是限制卷积神经网络发展的一大重要因素。
现阶段出现了各种基于FPGA的卷积神经网络架构的设计,也确实为神经网络的发展解决了一些难题,但是由于各种算法中CNN层数不同,乘加运算量的差异,同时也受制于FPGA内部资源及功耗,对于一些权重位宽较大、个数较多的架构,FPGA并不能满足设计要求。这就要求对算法进行剪枝优化处理:剪枝能使算法的运算量降低,节省FPGA的逻辑消耗;但是,经过剪枝之后的算法在精度方面会降低,影响算法实现的效果。
因此,目前并没有一种能够兼顾性能和资源的基于FPGA的卷积神经网络架构方法。
发明内容
本发明的目的之一在于提供一种能够兼顾性能和资源、可靠性高且适用性好的基于FPGA的卷积神经网络架构方法。
本发明的目的之二在于提供一种包括了所述基于FPGA的卷积神经网络架构方法的人脸识别方法。
本发明提供的这种基于FPGA的卷积神经网络架构方法,包括如下步骤:
S1.系统初始化;
S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块),读取ps(programmable system)侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算;所述conv为卷积神经网络运算模块;
S4.对crp模块内部的乘加卷积运算进行实现与调度;
S5.对结构帧控模块进行复用;
S6.对结构层孔模块进行复用;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块。
步骤S1所述的系统初始化,具体包括接收CPU通过APB总线下发的各项数据。
所述的各项数据包括DMA的读写首地址,图像信息、卷积核信息和反量化信息。
步骤S4所述的crp模块,具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算。
步骤S5所述的对结构帧控模块进行复用,具体包括接收总线下发的配置信息,存储到内部RAM(crp_cfg_ram);接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块。
步骤S6所述的对结构层孔模块进行复用,具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧。
步骤S7所述的对crp_calc模块进行复用,具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值。
本发明还提供了一种包括所述的基于FPGA的卷积神经网络架构方法的人脸识别方法,具体还包括如下步骤:
S8.采用步骤S1~S7的方法,动态进行多人脸的快速识别和比对。
本发明提供的这种基于FPGA的卷积神经网络架构方法及其人脸识别方法,采用FPGA复用的方式实现卷积神经网络的架构,兼顾了FPGA内部资源和卷积神经网络的运算速度;而且本发明方法的可靠性高,适用性好。
附图说明
图1为本发明的架构方法的方法流程示意图。
图2为本发明的架构方法的系统框图。
图3为本发明的架构方法的crp内部框图。
图4为本发明的在具体应用时的框图。
图5为本发明的识别方法的方法流程示意图。
具体实施方式
如图2所示为本发明的架构方法的系统框图:图中共包括5种模块:
psddr4(PS侧DDR4内存条)
ps(programmable system)是zynq的cpu端,视频流数据存储在ps端的ddr4中,根据CPU指定的地址读取数据;
DMA(直接存储器访问模块)
系统从ps(pl)端的ddr4中通过DMA主动读(写)图像数据的方式,DMA的启动由逻辑控制,每次DMA的首地址由CPU通过apb写寄存器来指定;
axi_ram(寄存器读写模块)
实现CPU主动读写逻辑端的配置寄存器,主要寄存器包括DMA的读写首地址,图像信息、卷积核信息、反量化信息等
crp(卷积神经网络模块)
卷积神经网络实现的核心部分,循环调用该模块来实现多层CRP的运算;
pl ddr4(逻辑端DDR4内存条)
逻辑端的ddr4用于存储每层crp之后的特征值及最终输出的结果等;
如图1所述为本发明的架构方法的方法流程示意图:本发明提供的这种基于FPGA的卷积神经网络架构方法,包括如下步骤:
S1.系统初始化;具体包括接收CPU通过APB总线下发的各项数据,如DMA的读写首地址,图像信息、卷积核信息和反量化信息等;
S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块),读取ps(programmable system)侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算,共19层crp处理;所述conv为卷积神经网络运算模块;
S4.对crp模块内部的乘加卷积运算进行实现与调度;crp内部框图如图3所示:具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算;
S5.对结构帧控模块进行复用;具体包括接收总线下发的配置信息,存储到内部RAM(crp_cfg_ram);接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块;
S6.对结构层孔模块进行复用;具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块;具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值。
输入图像M:
a00 | a01 | a02 | a03 | a04 |
a10 | a11 | a12 | a13 | a14 |
a20 | a21 | a22 | a23 | a24 |
a30 | a31 | a32 | a33 | a34 |
a40 | a41 | a42 | a43 | a44 |
b00 | b01 | b02 | b03 | b04 |
b10 | b11 | b12 | b13 | b14 |
b20 | b21 | b22 | b23 | b24 |
b30 | b31 | b32 | b33 | b34 |
b40 | b41 | b42 | b43 | b44 |
c00 | c01 | c02 | c03 | c04 |
c10 | c11 | c12 | c13 | c14 |
c20 | c21 | c22 | c23 | c24 |
c30 | c31 | c32 | c33 | c34 |
c40 | c41 | c42 | c43 | c44 |
输出通道卷积核为:
其中输入图像通道M为3,图像大小为5*5,卷积核大小为3*3,输出通道N=1(例子中无pading),输出通道N0计算如下:
N0=a00*w0+a01*w1+a02*w2+a10*w3+a11*w4+a12*w5+a20*w6+a21*w7+a22*w8+b00*w9+b01*w10+b02*w11+b10*w12+b11*w13+b12*w14+b20*w15+b21*w16+b22*w17+c00*w18+c01*w19+c02*w20+c10*w21+c11*w22+c12*w23+c20*w24+c21*w25+c22*w26+bias0
=(a00,b00,c00,a01,b01,c01,a02,b02,c02,a10,b10,c10,a11,b11,c11,a12,b12,c12,a20,b20,c20,a21,b21,c21,a22,b22,c22)*(w0,w9,w18,w1,w10,w19,w2,w11,w20,w3,w12,w21,w4,w13,w22,w5,w14,w23,w6,w15,w24,w7,w16,w25,w8,w17,w26)+bias0
如图4所示为本发明的在具体应用时的框图:在本系统中,FPGA采用带有arm内核的zynq,整个系统的实现完全基于FPGA完成,先由ps侧的arm采集外视频存入ps侧的DDR4中,pl侧由逻辑电路来实现,读取ps侧的原视频数据,经缩放后进入卷积神经网络中,该部分是系统的核心功能部分,通过卷积运算提取出视频中的人脸等关键特征值输送给后端处理,得出人脸的位置,进而在视频中能准确的画出人脸的位置方框。
如图5所述为本发明的识别方法的方法流程示意图:本发明还提供了一种包括所述的基于FPGA的卷积神经网络架构方法的人脸识别方法,具体还包括如下步骤:
S1.系统初始化;具体包括接收CPU通过APB总线下发的各项数据,如DMA的读写首地址,图像信息、卷积核信息和反量化信息等;
S2.根据crp(卷积神经网络模块)的内部状态启动dma(直接存储器访问模块),读取ps(programmable system)侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算;共19层crp处理;
S4.对crp模块内部的乘加卷积运算进行实现与调度;crp内部框图如图3所示:具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算;
S5.对结构帧控模块进行复用;具体包括接收总线下发的配置信息,存储到内部RAM(crp_cfg_ram);接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块;
S6.对结构层孔模块进行复用;具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块;具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值;
S8.采用步骤S1~S7的方法,动态进行多人脸的快速识别和比对。
本发明提供的该卷积神经网络架构方法及其人脸识别方法,较其他方案及平台有多种优势,具体体现在:
1.FPGA基于可编程逻辑实现硬件功能,具有灵活性强,设计维护方便等优点。阵列式、可重构的数据流引擎(权重、数据流入、计算合理配合),配合大量分布式RAM的设计,可以让FPGA适配特定的神经网络,在本发明中针对特定的SDF网络可以达到较高的峰值性能,这也是FPGA功耗比GPU做的更低的原因。
2.相比较其他的实现方案,由于卷积神经网络运算量大,采用CPU计算,受限于CPU的主频及核数,且CPU并不擅长运算;DSP虽然有强大的运算能力,但也同样受限于硬件资源配置;FPGA的并行处理架构可以同时多线程运算,运算主频可调,且没有软件中的群延时等问题,对于处理卷积神经网络中大量乘加运算有着十分显著的优势,能极大的缩短数据运算的延时,这在视频图像处理中有着十分重要的作用,虽然FPGA不合适做浮点运算,但是通过算法优化压缩网络、压缩权重、配合适配的NPU结构,更小的计算量达到接近的浮点运算的精度。
Claims (8)
1.一种基于FPGA的卷积神经网络架构方法,包括如下步骤:
S1.系统初始化;
S2.根据crp的内部状态启动dma,读取ps侧的图像信息;
S3.根据S3FD算法,复用crp模块从而完成conv计算;所述conv为卷积神经网络运算模块;
S4.对crp模块内部的乘加卷积运算进行实现与调度;
S5.对结构帧控模块进行复用;
S6.对结构层孔模块进行复用;
S7.对crp_calc模块进行复用;所述crp_calc模块为卷积神经网络的乘加运算模块。
2.根据权利要求1所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S1所述的系统初始化,具体包括接收CPU通过APB总线下发的各项数据。
3.根据权利要求2所述的基于FPGA的卷积神经网络架构方法,其特征在于所述的各项数据包括DMA的读写首地址,图像信息、卷积核信息和反量化信息。
4.根据权利要求3所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S4所述的crp模块,具体包括crp_frame_ctrl模块,crp_layer_ctrl模块和crp_calc模块;crp_frame_ctrl模块用于负责帧控制与调度;crp_layer_ctrl模块用于负责crp层的控制与调度,crp_calc模块用于完成卷积神经网络的乘加运算。
5.根据权利要求4所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S5所述的对结构帧控模块进行复用,具体包括接收总线下发的配置信息,存储到内部RAM;接收前一级模块帧信息,缓存到信息FIFO;控制读取帧信息,逐层从crp_cfg_ram读取配置信息,下发给crp_layer_ctrl模块和crp_calc模块。
6.根据权利要求5所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S6所述的对结构层孔模块进行复用,具体包括控制向ps侧读weight和bias数据;控制向pl侧发起读图像数据,启动crp_calc计算;根据索引值,控制每一层的数据流;根据配置要求将特征值及输出的结果缓存到pl侧。
7.根据权利要求6所述的基于FPGA的卷积神经网络架构方法,其特征在于步骤S7所述的对crp_calc模块进行复用,具体为对S3FD卷积神经网络的乘加进行运算;卷积计算规则为:先把卷积窗口内像素值分别和卷积核相应元素进行相乘,然后将相乘结果相加,最后加上偏置值。
8.一种包括了权利要求1~7之一所述的基于FPGA的卷积神经网络架构方法的人脸识别方法,其特征在于还包括如下步骤:
S8.采用步骤S1~S7的方法,动态进行多人脸的快速识别和比对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366823.5A CN111126309A (zh) | 2019-12-26 | 2019-12-26 | 基于fpga的卷积神经网络架构方法及其人脸识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366823.5A CN111126309A (zh) | 2019-12-26 | 2019-12-26 | 基于fpga的卷积神经网络架构方法及其人脸识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111126309A true CN111126309A (zh) | 2020-05-08 |
Family
ID=70503106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911366823.5A Pending CN111126309A (zh) | 2019-12-26 | 2019-12-26 | 基于fpga的卷积神经网络架构方法及其人脸识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126309A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738424A (zh) * | 2020-06-29 | 2020-10-02 | 湖南国科微电子股份有限公司 | 神经网络处理方法、装置、电子设备及存储介质 |
CN111860784A (zh) * | 2020-07-24 | 2020-10-30 | 上海仪电(集团)有限公司中央研究院 | 基于arm和fpga的卷积神经识别系统及方法 |
CN113255446A (zh) * | 2021-04-20 | 2021-08-13 | 长沙海格北斗信息技术有限公司 | 人脸检测系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854018A (zh) * | 2012-12-07 | 2014-06-11 | 哈尔滨恒誉名翔科技有限公司 | 一种智能多平台图像采集识别系统 |
CN205726177U (zh) * | 2016-07-01 | 2016-11-23 | 浪潮集团有限公司 | 一种基于卷积神经网络芯片的安防监控系统 |
US20180046913A1 (en) * | 2016-08-12 | 2018-02-15 | DeePhi Technology Co., Ltd. | Combining cpu and special accelerator for implementing an artificial neural network |
US20180046903A1 (en) * | 2016-08-12 | 2018-02-15 | DeePhi Technology Co., Ltd. | Deep processing unit (dpu) for implementing an artificial neural network (ann) |
CN108416422A (zh) * | 2017-12-29 | 2018-08-17 | 国民技术股份有限公司 | 一种基于fpga的卷积神经网络实现方法及装置 |
CN109032781A (zh) * | 2018-07-13 | 2018-12-18 | 重庆邮电大学 | 一种卷积神经网络算法的fpga并行系统 |
CN109446996A (zh) * | 2018-10-31 | 2019-03-08 | 北京智慧眼科技股份有限公司 | 基于fpga的人脸识别数据处理装置及处理方法 |
CN109740619A (zh) * | 2018-12-27 | 2019-05-10 | 北京航天飞腾装备技术有限责任公司 | 用于目标识别的神经网络终端运行方法和装置 |
CN109948777A (zh) * | 2018-11-14 | 2019-06-28 | 深圳大学 | 基于fpga实现的卷积神经网络以及基于fpga实现卷积神经网络的实现方法 |
CN110458279A (zh) * | 2019-07-15 | 2019-11-15 | 武汉魅瞳科技有限公司 | 一种基于fpga的二值神经网络加速方法及系统 |
-
2019
- 2019-12-26 CN CN201911366823.5A patent/CN111126309A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854018A (zh) * | 2012-12-07 | 2014-06-11 | 哈尔滨恒誉名翔科技有限公司 | 一种智能多平台图像采集识别系统 |
CN205726177U (zh) * | 2016-07-01 | 2016-11-23 | 浪潮集团有限公司 | 一种基于卷积神经网络芯片的安防监控系统 |
US20180046913A1 (en) * | 2016-08-12 | 2018-02-15 | DeePhi Technology Co., Ltd. | Combining cpu and special accelerator for implementing an artificial neural network |
US20180046903A1 (en) * | 2016-08-12 | 2018-02-15 | DeePhi Technology Co., Ltd. | Deep processing unit (dpu) for implementing an artificial neural network (ann) |
CN108416422A (zh) * | 2017-12-29 | 2018-08-17 | 国民技术股份有限公司 | 一种基于fpga的卷积神经网络实现方法及装置 |
CN109032781A (zh) * | 2018-07-13 | 2018-12-18 | 重庆邮电大学 | 一种卷积神经网络算法的fpga并行系统 |
CN109446996A (zh) * | 2018-10-31 | 2019-03-08 | 北京智慧眼科技股份有限公司 | 基于fpga的人脸识别数据处理装置及处理方法 |
CN109948777A (zh) * | 2018-11-14 | 2019-06-28 | 深圳大学 | 基于fpga实现的卷积神经网络以及基于fpga实现卷积神经网络的实现方法 |
CN109740619A (zh) * | 2018-12-27 | 2019-05-10 | 北京航天飞腾装备技术有限责任公司 | 用于目标识别的神经网络终端运行方法和装置 |
CN110458279A (zh) * | 2019-07-15 | 2019-11-15 | 武汉魅瞳科技有限公司 | 一种基于fpga的二值神经网络加速方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738424A (zh) * | 2020-06-29 | 2020-10-02 | 湖南国科微电子股份有限公司 | 神经网络处理方法、装置、电子设备及存储介质 |
CN111738424B (zh) * | 2020-06-29 | 2023-12-26 | 湖南国科微电子股份有限公司 | 神经网络处理方法、装置、电子设备及存储介质 |
CN111860784A (zh) * | 2020-07-24 | 2020-10-30 | 上海仪电(集团)有限公司中央研究院 | 基于arm和fpga的卷积神经识别系统及方法 |
CN113255446A (zh) * | 2021-04-20 | 2021-08-13 | 长沙海格北斗信息技术有限公司 | 人脸检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126309A (zh) | 基于fpga的卷积神经网络架构方法及其人脸识别方法 | |
US11449576B2 (en) | Convolution operation processing method and related product | |
US20220012593A1 (en) | Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization | |
CN106991477B (zh) | 一种人工神经网络压缩编码装置和方法 | |
JP2019036298A (ja) | 知能型高帯域幅メモリシステム及びそのための論理ダイ | |
CN111488983A (zh) | 一种基于fpga的轻量级cnn模型计算加速器 | |
Nakahara et al. | High-throughput convolutional neural network on an FPGA by customized JPEG compression | |
US11468145B1 (en) | Storage of input values within core of neural network inference circuit | |
CN113033794B (zh) | 基于深度可分离卷积的轻量级神经网络硬件加速器 | |
CN111079923A (zh) | 适用于边缘计算平台的Spark卷积神经网络系统及其电路 | |
US11625607B2 (en) | Method of structured network pruning and sparsity speed-up | |
CN110598844A (zh) | 一种基于fpga的并行卷积神经网络加速器及加速方法 | |
US11568227B1 (en) | Neural network inference circuit read controller with multiple operational modes | |
WO2019095333A1 (zh) | 一种数据处理方法及设备 | |
CN114399035A (zh) | 搬运数据的方法、直接存储器访问装置以及计算机系统 | |
US20240046081A1 (en) | Data transfer for non-dot product computations on neural network inference circuit | |
WO2020041934A1 (zh) | 一种数据处理设备以及一种数据处理方法 | |
CN114489496B (zh) | 基于fpga人工智能加速器的数据存储和传输方法 | |
CN115081603A (zh) | 执行Winograd卷积的计算装置、集成电路装置及板卡 | |
CN111131836A (zh) | 一种基于fpga的jpeg2000编码并行运算方法 | |
WO2021036668A1 (zh) | 神经网络的全局池化方法及众核系统 | |
CN113673690B (zh) | 一种水下噪声分类卷积神经网络加速器 | |
Wang et al. | Dynamic Neural Network Accelerator for Multispectral detection Based on FPGA | |
Chen et al. | High Speed Winograd Convolutional Circuit for Convolutional Neural Networks | |
US11409356B1 (en) | Using data correlation to reduce the power consumption of signal processing systems without affecting the precision of computation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |