CN110991631A - 一种基于fpga的神经网络加速系统 - Google Patents
一种基于fpga的神经网络加速系统 Download PDFInfo
- Publication number
- CN110991631A CN110991631A CN201911186403.9A CN201911186403A CN110991631A CN 110991631 A CN110991631 A CN 110991631A CN 201911186403 A CN201911186403 A CN 201911186403A CN 110991631 A CN110991631 A CN 110991631A
- Authority
- CN
- China
- Prior art keywords
- convolution
- neural network
- module
- data
- pooling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 230000001133 acceleration Effects 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000013461 design Methods 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 35
- 210000002569 neuron Anatomy 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 230000026676 system process Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000000034 method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于FPGA的神经网络加速系统。该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。本发明是通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,降低系统整体功耗、提高推断速度。
Description
技术领域
本发明属于人工智能与电子领域,具体涉及一种基于FPGA的神经网络加速系统。
背景技术
随着近些年深度学习的迅速发展和广泛的应用,卷积神经网络(CNN)已经成为检测和识别领域最好的方法,它可以自动地从数据集中学习提取特征,而且网络层数越多,提取的特征越有全局性。通过局部连接和权值共享可以提高模型的泛化能力,大幅度提高了识别分类的精度。
并且随着物联网的发展,部署嵌入式端的卷积神经网络要处理大量的数据,这将会消耗大量的资源与能量,而嵌入式设备通常用电池维持工作,频繁更换电池将会提高成本,因此对于推断阶段的运算加速以及低功耗设计有重要实际意义。
本发明采取的加速方案,可以极大地加快神经网络推断速度,有效地降低整个系统的功耗,并且占用资源少,易于实现。
发明内容
本发明的目的在于提供一种基于FPGA的神经网络加速系统,特别是在资源和能源受限的嵌入式端的方案,可以极大地加快神经网络推断速度,有效地降低整个系统的功耗,并且占用资源少,易于实现。
为实现上述目的,本发明的技术方案是:一种基于FPGA的神经网络加速系统,该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。
在本发明一实施例中,包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块;卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入,而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图,然后通过非零检测模块对卷积特征图进行检测得到非零神经元,再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作,最后分类输出模块复用卷积处理模块,读取数据和神经网络权值,完成矩阵运算得到输出值,遍历输出值即可求出分类值。
在本发明一实施例中,所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为:通过K个卷积处理模块对待卷积数据进行卷积处理,而后采用加法树结构将卷积的结果相加,并行生成K个卷积特征图,然后采用K个池化模块对卷积特征图降维。
在本发明一实施例中,所述池化模块采用最大值池化,池化尺寸为2×2,步长为2。
在本发明一实施例中,所述卷积处理模块采用移位寄存器作为输入缓存,卷积处理模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,而后使用4层加法树结构将结果与偏置相加,然后通过ReLU函数激活,该函数表达式为y = max(0,x)。
相较于现有技术,本发明具有以下有益效果:本发明是通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,降低系统整体功耗、提高推断速度。
附图说明
图1是本发明的基于FPGA的神经网络加速系统的整体模块框图。
图2是本发明的系统时序图。
图3是本发明的卷积处理模块设计图。
图4是本发明的零神经元统计图。
图5是本发明的稀疏矩阵乘法器设计图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于FPGA的神经网络加速系统,该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。该系统包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块;卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入,而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图,然后通过非零检测模块对卷积特征图进行检测得到非零神经元,再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作,最后分类输出模块复用卷积处理模块,读取数据和神经网络权值,完成矩阵运算得到输出值,遍历输出值即可求出分类值。
所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为:通过K个卷积处理模块对待卷积数据进行卷积处理,而后采用加法树结构将卷积的结果相加,并行生成K个卷积特征图,然后采用K个池化模块对卷积特征图降维,将整个过程流水化操作,提高计算效率。
所述池化模块采用最大值池化,池化尺寸为2×2,步长为2。
所述卷积处理模块采用移位寄存器作为输入缓存,卷积处理模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,而后使用4层加法树结构将结果与偏置相加,然后通过ReLU函数激活,该函数表达式为y = max(0,x)。
以下为本发明的具体实现过程。
参考图1所示,为本发明系统模块框图。包括数据输入模块,卷积处理模块,池化模块,卷积控制模块,非零检测模块,稀疏矩阵乘法器,分类输出模块。数据输入模块负责输入待卷积的数据和神经网络权值。卷积处理模块通过加法树结构与流水线设计完成卷积使用非零检测模块对卷积特征图进行检测,得到非零神经元,然后复用卷积处理单元构成稀疏矩阵乘法器,将非零神经元和神经网络权值做乘加操作,利用神经网络神经元的稀疏性可以减少大量乘加操作以及存储资源。输出模块复用卷积的处理单元,读取数据和神经网络权值,完成矩阵运算得到输出值,然后遍历输出值即可求出分类值。
参考图2所示,为本发明的系统时序图。首先,卷积控制器控制数据输入模块输入待卷积数据和神经网络权值,第一层卷积层完成特征提取,然后池化完成降维,然后第二层的卷积分组进行卷积和池化,池化的操作和卷积操作并行执行,从时序上节省了时间,然后使用非零检测模块完成非零神经元检测,非零神经元输入给稀疏矩阵乘法器完成全连接层计算,最后计算输出结果并且求得分类值。
在本实施例中,池化模块用于对输入特征图降低维度和提取信息,池化分为平均值池化和最大值池化,本发明使用最大值池化,池化尺寸为2×2,步长为2。池化模块使用比较器得到最大值,经过两次比较得到结果。经研究发现,池化操作不影响卷积操作,因此设计了池化与卷积的并行计算,如图2所示。并行操作节省了池化运算的时间,加快了网络的计算速度。
参考图3所示,为本发明的卷积处理模块设计图。在本实施例中,卷积模块采用移位寄存器作为输入缓存,本发明卷积模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,然后使用4层加法树结构将结果与偏置相加。然后通过ReLU函数激活,该函数表达式为y = max(0,x),因此只要判断输入数据的符号位即可,使用一个数据选择器即可完成运算,消耗一个时钟。第一层卷积的不同卷积核是独立计算的,所以使用16个PE同时计算,提高然后通过流水线技术,可以在一个时钟周期内产生16个卷积输出,输出数据的延迟包括读取数据延迟和加法树的延迟,实现并行化计算和高吞吐率。
参考图4所示,为本发明的零神经元统计图。在本实施例中,全连接层将所有输入特征图和输出向量相连接,每个神经元的值由卷积层特征图加权求和得到。本发明多次实验发现全连接层有大量为0的神经元,如图3所示。因此可以利用神经元的稀疏性减少乘法的操作。在本实施例中,全连接层神经元有4608个,而多次实验发现,非零神经元不超过200个,有极大的稀疏比例,因此可以仅计算非零神经元的矩阵运算,节省大量运算资源,提高运算效率。
参考图5所示,为本发明的稀疏矩阵乘法器设计图。其包括非零神经元检测模块,复用的卷积处理单元和一个累加器。在本实施例中,首先,遍历所有神经元的数值,得到非零神经元的位置和数值,然后保存下来。然后复用卷积处理单元,并且读取非零神经元对应位置的神经网络权值,完成卷积操作,然后通过累加器相加,得到下一层神经元的数值。因为全连接层神经元具有极大的稀疏性,所以可以通过这种方法大大减小计算的空间复杂度和时间复杂度,节省大量资源。
输出模块对全连接层神经元做矩阵运算,然后通过Softmax层得到所有分类的概率。但是由于Softmax函数含有指数运算,需要消耗大量运算资源和时间,而且对于结果没有影响,所以将Softmax层移除,直接使用输出层值的大小来分类。本发明多次实验发现输出层没有稀疏性,大部分神经元不为零,输出模块的计算复用稀疏矩阵乘法器的第二个虚框部分进行计算,由卷积处理单元与累加器组成,分别计算输出层的40个分类的值,40个运算单元共用一路数据输入,采用滑动窗口读取数据,多个卷积处理单元同时计算,由串行加法器输出结果。最后遍历求得输出值最大值,并输出分类结果。
本设计对卷积神经网络的推断采用并行化的设计。因为许多矩阵运算可以复用卷积处理单元来处理,重复利用了运算资源。由于卷积神经网络天然具有的特性,设计了并行处理数据和流水线,参考图4实验结果,利用全连接层神经元的稀疏性,设计了稀疏矩阵乘法器大大提高运算速度,减少资源的使用。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种基于FPGA的神经网络加速系统,其特征在于,该系统依据卷积神经网络天然具有的并行性以及全连接层的稀疏性,通过运算资源重用,并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器大大提高运算速度,减少资源的使用,从而在不影响卷积神经网络推断准确率的情况下,提高推断速度。
2.根据权利要求1所述的一种基于FPGA的神经网络加速系统,其特征在于,包括数据输入模块、卷积处理模块、池化模块、卷积控制模块、非零检测模块、稀疏矩阵乘法器、分类输出模块;卷积控制模块控制待卷积数据和神经网络权值经数据输入模块输入,而后由卷积处理模块和池化模块对待卷积数据进行卷积和降维得到卷积特征图,然后通过非零检测模块对卷积特征图进行检测得到非零神经元,再而通过复用卷积处理模块构成的稀疏矩阵乘法器对非零神经元和神经网络权值做乘加操作,最后分类输出模块复用卷积处理模块,读取数据和神经网络权值,完成矩阵运算得到输出值,遍历输出值即可求出分类值。
3.根据权利要求2所述的一种基于FPGA的神经网络加速系统,其特征在于,所述由卷积处理模块和池化模块对数据进行卷积和降维得到卷积特征图的具体实现方式为:通过K个卷积处理模块对待卷积数据进行卷积处理,而后采用加法树结构将卷积的结果相加,并行生成K个卷积特征图,然后采用K个池化模块对卷积特征图降维。
4.根据权利要求2或3所述的一种基于FPGA的神经网络加速系统,其特征在于,所述池化模块采用最大值池化,池化尺寸为2×2,步长为2。
5.根据权利要求2或3所述的一种基于FPGA的神经网络加速系统,其特征在于,所述卷积处理模块采用移位寄存器作为输入缓存,卷积处理模块的卷积核尺寸为3×3,每次读取9个权值,使用9个定点小数乘法器,而后使用4层加法树结构将结果与偏置相加,然后通过ReLU函数激活,该函数表达式为y = max(0,x)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911186403.9A CN110991631A (zh) | 2019-11-28 | 2019-11-28 | 一种基于fpga的神经网络加速系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911186403.9A CN110991631A (zh) | 2019-11-28 | 2019-11-28 | 一种基于fpga的神经网络加速系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991631A true CN110991631A (zh) | 2020-04-10 |
Family
ID=70087578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911186403.9A Pending CN110991631A (zh) | 2019-11-28 | 2019-11-28 | 一种基于fpga的神经网络加速系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991631A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401543A (zh) * | 2020-06-08 | 2020-07-10 | 深圳市九天睿芯科技有限公司 | 一种全片上存储的神经网络加速器及其实现方法 |
CN111882050A (zh) * | 2020-07-20 | 2020-11-03 | 复旦大学 | 基于fpga的用于提高bcpnn速度的设计方法 |
CN112015472A (zh) * | 2020-07-16 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015473A (zh) * | 2020-07-23 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112288085A (zh) * | 2020-10-23 | 2021-01-29 | 中国科学院计算技术研究所 | 一种卷积神经网络加速方法及系统 |
WO2022134872A1 (zh) * | 2020-12-25 | 2022-06-30 | 中科寒武纪科技股份有限公司 | 数据处理装置、数据处理方法及相关产品 |
US11409675B2 (en) | 2020-12-22 | 2022-08-09 | Samsung Electronics Co., Ltd. | Data transmission method for convolution operation, fetcher, and convolution operation apparatus |
WO2022206138A1 (zh) * | 2021-04-02 | 2022-10-06 | 嘉楠明芯(北京)科技有限公司 | 一种基于神经网络的运算方法以及装置 |
CN116167425A (zh) * | 2023-04-26 | 2023-05-26 | 浪潮电子信息产业股份有限公司 | 一种神经网络加速方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
CN108280514A (zh) * | 2018-01-05 | 2018-07-13 | 中国科学技术大学 | 基于fpga的稀疏神经网络加速系统和设计方法 |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速系统 |
CN108932548A (zh) * | 2018-05-22 | 2018-12-04 | 中国科学技术大学苏州研究院 | 一种基于fpga的稀疏度神经网络加速系统 |
CN109635944A (zh) * | 2018-12-24 | 2019-04-16 | 西安交通大学 | 一种稀疏卷积神经网络加速器及实现方法 |
CN109871949A (zh) * | 2017-12-22 | 2019-06-11 | 泓图睿语(北京)科技有限公司 | 卷积神经网络加速器及加速方法 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
US20190251442A1 (en) * | 2018-02-14 | 2019-08-15 | Nvidia Corporation | Pruning convolutional neural networks |
-
2019
- 2019-11-28 CN CN201911186403.9A patent/CN110991631A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229967A (zh) * | 2016-08-22 | 2017-10-03 | 北京深鉴智能科技有限公司 | 一种基于fpga实现稀疏化gru神经网络的硬件加速器及方法 |
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
CN109871949A (zh) * | 2017-12-22 | 2019-06-11 | 泓图睿语(北京)科技有限公司 | 卷积神经网络加速器及加速方法 |
CN108280514A (zh) * | 2018-01-05 | 2018-07-13 | 中国科学技术大学 | 基于fpga的稀疏神经网络加速系统和设计方法 |
US20190251442A1 (en) * | 2018-02-14 | 2019-08-15 | Nvidia Corporation | Pruning convolutional neural networks |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速系统 |
CN108932548A (zh) * | 2018-05-22 | 2018-12-04 | 中国科学技术大学苏州研究院 | 一种基于fpga的稀疏度神经网络加速系统 |
CN109635944A (zh) * | 2018-12-24 | 2019-04-16 | 西安交通大学 | 一种稀疏卷积神经网络加速器及实现方法 |
CN109993297A (zh) * | 2019-04-02 | 2019-07-09 | 南京吉相传感成像技术研究院有限公司 | 一种负载均衡的稀疏卷积神经网络加速器及其加速方法 |
Non-Patent Citations (3)
Title |
---|
刘勤让等: "利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计", 《电子与信息学报》 * |
肖皓等: "面向卷积神经网络的FPGA硬件加速器设计", 《工业控制计算机》 * |
袁博等: "针对定点小数乘法器位宽的优化算法", 《西安电子科技大学学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401543A (zh) * | 2020-06-08 | 2020-07-10 | 深圳市九天睿芯科技有限公司 | 一种全片上存储的神经网络加速器及其实现方法 |
CN112015472A (zh) * | 2020-07-16 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015472B (zh) * | 2020-07-16 | 2023-12-12 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN111882050A (zh) * | 2020-07-20 | 2020-11-03 | 复旦大学 | 基于fpga的用于提高bcpnn速度的设计方法 |
CN111882050B (zh) * | 2020-07-20 | 2024-02-06 | 复旦大学 | 基于fpga的用于提高bcpnn速度的设计方法 |
CN112015473B (zh) * | 2020-07-23 | 2023-06-27 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112015473A (zh) * | 2020-07-23 | 2020-12-01 | 中国科学院计算技术研究所 | 基于数据流架构的稀疏卷积神经网络加速方法及系统 |
CN112288085A (zh) * | 2020-10-23 | 2021-01-29 | 中国科学院计算技术研究所 | 一种卷积神经网络加速方法及系统 |
CN112288085B (zh) * | 2020-10-23 | 2024-04-09 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的图像检测方法及系统 |
US11409675B2 (en) | 2020-12-22 | 2022-08-09 | Samsung Electronics Co., Ltd. | Data transmission method for convolution operation, fetcher, and convolution operation apparatus |
US11797461B2 (en) | 2020-12-22 | 2023-10-24 | Samsung Electronics Co., Ltd. | Data transmission method for convolution operation, fetcher, and convolution operation apparatus |
WO2022134872A1 (zh) * | 2020-12-25 | 2022-06-30 | 中科寒武纪科技股份有限公司 | 数据处理装置、数据处理方法及相关产品 |
WO2022206138A1 (zh) * | 2021-04-02 | 2022-10-06 | 嘉楠明芯(北京)科技有限公司 | 一种基于神经网络的运算方法以及装置 |
CN116167425A (zh) * | 2023-04-26 | 2023-05-26 | 浪潮电子信息产业股份有限公司 | 一种神经网络加速方法、装置、设备及介质 |
CN116167425B (zh) * | 2023-04-26 | 2023-08-04 | 浪潮电子信息产业股份有限公司 | 一种神经网络加速方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991631A (zh) | 一种基于fpga的神经网络加速系统 | |
CN110458279B (zh) | 一种基于fpga的二值神经网络加速方法及系统 | |
CN111459877B (zh) | 基于FPGA加速的Winograd YOLOv2目标检测模型方法 | |
CN109784489B (zh) | 基于fpga的卷积神经网络ip核 | |
US11586417B2 (en) | Exploiting activation sparsity in deep neural networks | |
US20190087713A1 (en) | Compression of sparse deep convolutional network weights | |
Li et al. | Laius: An 8-bit fixed-point CNN hardware inference engine | |
CN110321997B (zh) | 高并行度计算平台、系统及计算实现方法 | |
CN110543939B (zh) | 一种基于fpga的卷积神经网络后向训练的硬件加速实现装置 | |
CN109993279B (zh) | 一种基于查找表计算的双层同或二值神经网络压缩方法 | |
CN113051216B (zh) | 一种基于FPGA加速的MobileNet-SSD目标检测装置及方法 | |
Li et al. | A multistage dataflow implementation of a deep convolutional neural network based on FPGA for high-speed object recognition | |
CN113344179B (zh) | 基于fpga的二值化卷积神经网络算法的ip核 | |
Xiao et al. | FPGA implementation of CNN for handwritten digit recognition | |
CN113283587A (zh) | 一种Winograd卷积运算加速方法及加速模块 | |
Adel et al. | Accelerating deep neural networks using FPGA | |
Irmak et al. | An energy-efficient FPGA-based convolutional neural network implementation | |
Zhuang et al. | Vlsi architecture design for adder convolution neural network accelerator | |
Shi et al. | A locality aware convolutional neural networks accelerator | |
Gao et al. | FPGA-based accelerator for independently recurrent neural network | |
Srinivasan et al. | A TinyML based Residual Binarized Neural Network for real-time Image Classification | |
Kang et al. | Design of convolution operation accelerator based on FPGA | |
CN112836793B (zh) | 浮点可分离卷积计算加速装置、系统以及图像处理方法 | |
Özkilbaç et al. | Real-Time Fixed-Point Hardware Accelerator of Convolutional Neural Network on FPGA Based | |
CN110765413B (zh) | 矩阵求和结构及神经网络计算平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |
|
RJ01 | Rejection of invention patent application after publication |