CN110991631A - 一种基于fpga的神经网络加速系统 - Google Patents

一种基于fpga的神经网络加速系统 Download PDF

Info

Publication number
CN110991631A
CN110991631A CN201911186403.9A CN201911186403A CN110991631A CN 110991631 A CN110991631 A CN 110991631A CN 201911186403 A CN201911186403 A CN 201911186403A CN 110991631 A CN110991631 A CN 110991631A
Authority
CN
China
Prior art keywords
convolution
neural network
module
data
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911186403.9A
Other languages
English (en)
Inventor
郭太良
林志文
林志贤
张永爱
周雄图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911186403.9A priority Critical patent/CN110991631A/zh
Publication of CN110991631A publication Critical patent/CN110991631A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于FPGA的神经网络加速系统。该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。本发明是通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,降低系统整体功耗、提高推断速度。

Description

一种基于FPGA的神经网络加速系统
技术领域
本发明属于人工智能与电子领域,具体涉及一种基于FPGA的神经网络加速系统。
背景技术
随着近些年深度学习的迅速发展和广泛的应用,卷积神经网络(CNN)已经成为检测和识别领域最好的方法,它可以自动地从数据集中学习提取特征,而且网络层数越多,提取的特征越有全局性。通过局部连接和权值共享可以提高模型的泛化能力,大幅度提高了识别分类的精度。
并且随着物联网的发展,部署嵌入式端的卷积神经网络要处理大量的数据,这将会消耗大量的资源与能量,而嵌入式设备通常用电池维持工作,频繁更换电池将会提高成本,因此对于推断阶段的运算加速以及低功耗设计有重要实际意义。
本发明采取的加速方案,可以极大地加快神经网络推断速度,有效地降低整个系统的功耗,并且占用资源少,易于实现。
发明内容
本发明的目的在于提供一种基于FPGA的神经网络加速系统,特别是在资源和能源受限的嵌入式端的方案,可以极大地加快神经网络推断速度,有效地降低整个系统的功耗,并且占用资源少,易于实现。
为实现上述目的,本发明的技术方案是:一种基于FPGA的神经网络加速系统,该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。
在本发明一实施例中,包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块;卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入,而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图,然后通过非零检测模块对卷积特征图进行检测得到非零神经元,再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作,最后分类输出模块复用卷积处理模块,读取数据和神经网络权值,完成矩阵运算得到输出值,遍历输出值即可求出分类值。
在本发明一实施例中,所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为:通过K个卷积处理模块对待卷积数据进行卷积处理,而后采用加法树结构将卷积的结果相加,并行生成K个卷积特征图,然后采用K个池化模块对卷积特征图降维。
在本发明一实施例中,所述池化模块采用最大值池化,池化尺寸为2×2,步长为2。
在本发明一实施例中,所述卷积处理模块采用移位寄存器作为输入缓存,卷积处理模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,而后使用4层加法树结构将结果与偏置相加,然后通过ReLU函数激活,该函数表达式为y = max(0,x)。
相较于现有技术,本发明具有以下有益效果:本发明是通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,降低系统整体功耗、提高推断速度。
附图说明
图1是本发明的基于FPGA的神经网络加速系统的整体模块框图。
图2是本发明的系统时序图。
图3是本发明的卷积处理模块设计图。
图4是本发明的零神经元统计图。
图5是本发明的稀疏矩阵乘法器设计图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于FPGA的神经网络加速系统,该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。该系统包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块;卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入,而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图,然后通过非零检测模块对卷积特征图进行检测得到非零神经元,再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作,最后分类输出模块复用卷积处理模块,读取数据和神经网络权值,完成矩阵运算得到输出值,遍历输出值即可求出分类值。
所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为:通过K个卷积处理模块对待卷积数据进行卷积处理,而后采用加法树结构将卷积的结果相加,并行生成K个卷积特征图,然后采用K个池化模块对卷积特征图降维,将整个过程流水化操作,提高计算效率。
所述池化模块采用最大值池化,池化尺寸为2×2,步长为2。
所述卷积处理模块采用移位寄存器作为输入缓存,卷积处理模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,而后使用4层加法树结构将结果与偏置相加,然后通过ReLU函数激活,该函数表达式为y = max(0,x)。
以下为本发明的具体实现过程。
参考图1所示,为本发明系统模块框图。包括数据输入模块,卷积处理模块,池化模块,卷积控制模块,非零检测模块,稀疏矩阵乘法器,分类输出模块。数据输入模块负责输入待卷积的数据和神经网络权值。卷积处理模块通过加法树结构与流水线设计完成卷积使用非零检测模块对卷积特征图进行检测,得到非零神经元,然后复用卷积处理单元构成稀疏矩阵乘法器,将非零神经元和神经网络权值做乘加操作,利用神经网络神经元的稀疏性可以减少大量乘加操作以及存储资源。输出模块复用卷积的处理单元,读取数据和神经网络权值,完成矩阵运算得到输出值,然后遍历输出值即可求出分类值。
参考图2所示,为本发明的系统时序图。首先,卷积控制器控制数据输入模块输入待卷积数据和神经网络权值,第一层卷积层完成特征提取,然后池化完成降维,然后第二层的卷积分组进行卷积和池化,池化的操作和卷积操作并行执行,从时序上节省了时间,然后使用非零检测模块完成非零神经元检测,非零神经元输入给稀疏矩阵乘法器完成全连接层计算,最后计算输出结果并且求得分类值。
在本实施例中,池化模块用于对输入特征图降低维度和提取信息,池化分为平均值池化和最大值池化,本发明使用最大值池化,池化尺寸为2×2,步长为2。池化模块使用比较器得到最大值,经过两次比较得到结果。经研究发现,池化操作不影响卷积操作,因此设计了池化与卷积的并行计算,如图2所示。并行操作节省了池化运算的时间,加快了网络的计算速度。
参考图3所示,为本发明的卷积处理模块设计图。在本实施例中,卷积模块采用移位寄存器作为输入缓存,本发明卷积模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,然后使用4层加法树结构将结果与偏置相加。然后通过ReLU函数激活,该函数表达式为y = max(0,x),因此只要判断输入数据的符号位即可,使用一个数据选择器即可完成运算,消耗一个时钟。第一层卷积的不同卷积核是独立计算的,所以使用16个PE同时计算,提高然后通过流水线技术,可以在一个时钟周期内产生16个卷积输出,输出数据的延迟包括读取数据延迟和加法树的延迟,实现并行化计算和高吞吐率。
参考图4所示,为本发明的零神经元统计图。在本实施例中,全连接层将所有输入特征图和输出向量相连接,每个神经元的值由卷积层特征图加权求和得到。本发明多次实验发现全连接层有大量为0的神经元,如图3所示。因此可以利用神经元的稀疏性减少乘法的操作。在本实施例中,全连接层神经元有4608个,而多次实验发现,非零神经元不超过200个,有极大的稀疏比例,因此可以仅计算非零神经元的矩阵运算,节省大量运算资源,提高运算效率。
参考图5所示,为本发明的稀疏矩阵乘法器设计图。其包括非零神经元检测模块,复用的卷积处理单元和一个累加器。在本实施例中,首先,遍历所有神经元的数值,得到非零神经元的位置和数值,然后保存下来。然后复用卷积处理单元,并且读取非零神经元对应位置的神经网络权值,完成卷积操作,然后通过累加器相加,得到下一层神经元的数值。因为全连接层神经元具有极大的稀疏性,所以可以通过这种方法大大减小计算的空间复杂度和时间复杂度,节省大量资源。
输出模块对全连接层神经元做矩阵运算,然后通过Softmax层得到所有分类的概率。但是由于Softmax函数含有指数运算,需要消耗大量运算资源和时间,而且对于结果没有影响,所以将Softmax层移除,直接使用输出层值的大小来分类。本发明多次实验发现输出层没有稀疏性,大部分神经元不为零,输出模块的计算复用稀疏矩阵乘法器的第二个虚框部分进行计算,由卷积处理单元与累加器组成,分别计算输出层的40个分类的值,40个运算单元共用一路数据输入,采用滑动窗口读取数据,多个卷积处理单元同时计算,由串行加法器输出结果。最后遍历求得输出值最大值,并输出分类结果。
本设计对卷积神经网络的推断采用并行化的设计。因为许多矩阵运算可以复用卷积处理单元来处理,重复利用了运算资源。由于卷积神经网络天然具有的特性,设计了并行处理数据和流水线,参考图4实验结果,利用全连接层神经元的稀疏性,设计了稀疏矩阵乘法器大大提高运算速度,减少资源的使用。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于FPGA的神经网络加速系统,其特征在于,该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。
2.根据权利要求1所述的一种基于FPGA的神经网络加速系统,其特征在于,包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块;卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入,而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图,然后通过非零检测模块对卷积特征图进行检测得到非零神经元,再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作,最后分类输出模块复用卷积处理模块,读取数据和神经网络权值,完成矩阵运算得到输出值,遍历输出值即可求出分类值。
3.根据权利要求2所述的一种基于FPGA的神经网络加速系统,其特征在于,所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为:通过K个卷积处理模块对待卷积数据进行卷积处理,而后采用加法树结构将卷积的结果相加,并行生成K个卷积特征图,然后采用K个池化模块对卷积特征图降维。
4.根据权利要求2或3所述的一种基于FPGA的神经网络加速系统,其特征在于,所述池化模块采用最大值池化,池化尺寸为2×2,步长为2。
5.根据权利要求2或3所述的一种基于FPGA的神经网络加速系统,其特征在于,所述卷积处理模块采用移位寄存器作为输入缓存,卷积处理模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,而后使用4层加法树结构将结果与偏置相加,然后通过ReLU函数激活,该函数表达式为y = max(0,x)。
CN201911186403.9A 2019-11-28 2019-11-28 一种基于fpga的神经网络加速系统 Pending CN110991631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911186403.9A CN110991631A (zh) 2019-11-28 2019-11-28 一种基于fpga的神经网络加速系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911186403.9A CN110991631A (zh) 2019-11-28 2019-11-28 一种基于fpga的神经网络加速系统

Publications (1)

Publication Number Publication Date
CN110991631A true CN110991631A (zh) 2020-04-10

Family

ID=70087578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911186403.9A Pending CN110991631A (zh) 2019-11-28 2019-11-28 一种基于fpga的神经网络加速系统

Country Status (1)

Country Link
CN (1) CN110991631A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401543A (zh) * 2020-06-08 2020-07-10 深圳市九天睿芯科技有限公司 一种全片上存储的神经网络加速器及其实现方法
CN111882050A (zh) * 2020-07-20 2020-11-03 复旦大学 基于fpga的用于提高bcpnn速度的设计方法
CN112015472A (zh) * 2020-07-16 2020-12-01 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN112015473A (zh) * 2020-07-23 2020-12-01 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN112288085A (zh) * 2020-10-23 2021-01-29 中国科学院计算技术研究所 一种卷积神经网络加速方法及系统
WO2022134872A1 (zh) * 2020-12-25 2022-06-30 中科寒武纪科技股份有限公司 数据处理装置、数据处理方法及相关产品
US11409675B2 (en) 2020-12-22 2022-08-09 Samsung Electronics Co., Ltd. Data transmission method for convolution operation, fetcher, and convolution operation apparatus
WO2022206138A1 (zh) * 2021-04-02 2022-10-06 嘉楠明芯(北京)科技有限公司 一种基于神经网络的运算方法以及装置
CN116167425A (zh) * 2023-04-26 2023-05-26 浪潮电子信息产业股份有限公司 一种神经网络加速方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229967A (zh) * 2016-08-22 2017-10-03 北京深鉴智能科技有限公司 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速系统
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109635944A (zh) * 2018-12-24 2019-04-16 西安交通大学 一种稀疏卷积神经网络加速器及实现方法
CN109871949A (zh) * 2017-12-22 2019-06-11 泓图睿语(北京)科技有限公司 卷积神经网络加速器及加速方法
CN109993297A (zh) * 2019-04-02 2019-07-09 南京吉相传感成像技术研究院有限公司 一种负载均衡的稀疏卷积神经网络加速器及其加速方法
US20190251442A1 (en) * 2018-02-14 2019-08-15 Nvidia Corporation Pruning convolutional neural networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229967A (zh) * 2016-08-22 2017-10-03 北京深鉴智能科技有限公司 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法
CN107239824A (zh) * 2016-12-05 2017-10-10 北京深鉴智能科技有限公司 用于实现稀疏卷积神经网络加速器的装置和方法
CN109871949A (zh) * 2017-12-22 2019-06-11 泓图睿语(北京)科技有限公司 卷积神经网络加速器及加速方法
CN108280514A (zh) * 2018-01-05 2018-07-13 中国科学技术大学 基于fpga的稀疏神经网络加速系统和设计方法
US20190251442A1 (en) * 2018-02-14 2019-08-15 Nvidia Corporation Pruning convolutional neural networks
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速系统
CN108932548A (zh) * 2018-05-22 2018-12-04 中国科学技术大学苏州研究院 一种基于fpga的稀疏度神经网络加速系统
CN109635944A (zh) * 2018-12-24 2019-04-16 西安交通大学 一种稀疏卷积神经网络加速器及实现方法
CN109993297A (zh) * 2019-04-02 2019-07-09 南京吉相传感成像技术研究院有限公司 一种负载均衡的稀疏卷积神经网络加速器及其加速方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘勤让等: "利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计", 《电子与信息学报》 *
肖皓等: "面向卷积神经网络的FPGA硬件加速器设计", 《工业控制计算机》 *
袁博等: "针对定点小数乘法器位宽的优化算法", 《西安电子科技大学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401543A (zh) * 2020-06-08 2020-07-10 深圳市九天睿芯科技有限公司 一种全片上存储的神经网络加速器及其实现方法
CN112015472A (zh) * 2020-07-16 2020-12-01 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN112015472B (zh) * 2020-07-16 2023-12-12 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN111882050A (zh) * 2020-07-20 2020-11-03 复旦大学 基于fpga的用于提高bcpnn速度的设计方法
CN111882050B (zh) * 2020-07-20 2024-02-06 复旦大学 基于fpga的用于提高bcpnn速度的设计方法
CN112015473B (zh) * 2020-07-23 2023-06-27 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN112015473A (zh) * 2020-07-23 2020-12-01 中国科学院计算技术研究所 基于数据流架构的稀疏卷积神经网络加速方法及系统
CN112288085A (zh) * 2020-10-23 2021-01-29 中国科学院计算技术研究所 一种卷积神经网络加速方法及系统
CN112288085B (zh) * 2020-10-23 2024-04-09 中国科学院计算技术研究所 一种基于卷积神经网络的图像检测方法及系统
US11409675B2 (en) 2020-12-22 2022-08-09 Samsung Electronics Co., Ltd. Data transmission method for convolution operation, fetcher, and convolution operation apparatus
US11797461B2 (en) 2020-12-22 2023-10-24 Samsung Electronics Co., Ltd. Data transmission method for convolution operation, fetcher, and convolution operation apparatus
WO2022134872A1 (zh) * 2020-12-25 2022-06-30 中科寒武纪科技股份有限公司 数据处理装置、数据处理方法及相关产品
WO2022206138A1 (zh) * 2021-04-02 2022-10-06 嘉楠明芯(北京)科技有限公司 一种基于神经网络的运算方法以及装置
CN116167425A (zh) * 2023-04-26 2023-05-26 浪潮电子信息产业股份有限公司 一种神经网络加速方法、装置、设备及介质
CN116167425B (zh) * 2023-04-26 2023-08-04 浪潮电子信息产业股份有限公司 一种神经网络加速方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110991631A (zh) 一种基于fpga的神经网络加速系统
CN110458279B (zh) 一种基于fpga的二值神经网络加速方法及系统
CN111459877B (zh) 基于FPGA加速的Winograd YOLOv2目标检测模型方法
CN109784489B (zh) 基于fpga的卷积神经网络ip核
US11586417B2 (en) Exploiting activation sparsity in deep neural networks
US20190087713A1 (en) Compression of sparse deep convolutional network weights
Li et al. Laius: An 8-bit fixed-point CNN hardware inference engine
CN110321997B (zh) 高并行度计算平台、系统及计算实现方法
CN110543939B (zh) 一种基于fpga的卷积神经网络后向训练的硬件加速实现装置
CN109993279B (zh) 一种基于查找表计算的双层同或二值神经网络压缩方法
CN113051216B (zh) 一种基于FPGA加速的MobileNet-SSD目标检测装置及方法
Li et al. A multistage dataflow implementation of a deep convolutional neural network based on FPGA for high-speed object recognition
CN113344179B (zh) 基于fpga的二值化卷积神经网络算法的ip核
Xiao et al. FPGA implementation of CNN for handwritten digit recognition
CN113283587A (zh) 一种Winograd卷积运算加速方法及加速模块
Adel et al. Accelerating deep neural networks using FPGA
Irmak et al. An energy-efficient FPGA-based convolutional neural network implementation
Zhuang et al. Vlsi architecture design for adder convolution neural network accelerator
Shi et al. A locality aware convolutional neural networks accelerator
Gao et al. FPGA-based accelerator for independently recurrent neural network
Srinivasan et al. A TinyML based Residual Binarized Neural Network for real-time Image Classification
Kang et al. Design of convolution operation accelerator based on FPGA
CN112836793B (zh) 浮点可分离卷积计算加速装置、系统以及图像处理方法
Özkilbaç et al. Real-Time Fixed-Point Hardware Accelerator of Convolutional Neural Network on FPGA Based
CN110765413B (zh) 矩阵求和结构及神经网络计算平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410

RJ01 Rejection of invention patent application after publication