CN111667053B - 一种卷积神经网络加速器的前向传播计算加速方法 - Google Patents
一种卷积神经网络加速器的前向传播计算加速方法 Download PDFInfo
- Publication number
- CN111667053B CN111667053B CN202010484509.3A CN202010484509A CN111667053B CN 111667053 B CN111667053 B CN 111667053B CN 202010484509 A CN202010484509 A CN 202010484509A CN 111667053 B CN111667053 B CN 111667053B
- Authority
- CN
- China
- Prior art keywords
- ports
- convolution
- results
- multiplied
- port
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 title claims abstract description 19
- 230000001133 acceleration Effects 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 5
- 238000009825 accumulation Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 6
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 238000005265 energy consumption Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及通信技术,特别涉及一种卷积神经网络加速器的前向传播计算加速方法,所述加速器包括上位机和FPGA模块,其中FPGA模块设置有两个端口,这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及图片大小为M×M像素的像素信息;本发明与现有技术相比抛开数据上传云端的限制,减轻计算压力,并且本发明采用的FPGA模块作为可编程逻辑器件,拥有丰富计算逻辑、高灵活性和可扩展性、开发周期短、低能耗以及易修改等优势。
Description
技术领域
本发明涉及通信技术,特别涉及一种卷积神经网络加速器的前向传播计算加速方法。
背景技术
作为人工智能(Artificial Intelligence, AI)代表算法,卷积神经网络(Convolutional Neural Network, CNN)在图像识别、语音处理、机器翻译等领域中起到关键作用。但数据量的爆炸式增长,使CNN出现了计算速度慢、识别率低等问题,有必要设计CNN加速器。
CNN加速器可采用CPU(Central Processing Unit)串行计算,但执行过程中涉及取指令以及复杂译码,导致加速不明显,采用内部搭建复杂电路的GPU(GraphicsProcessing Unit)方式运行功耗过高,而采用ASIC(Application Specific IntegratedCircuit)方法,开发周期较长,不易对算法进行调整。
FPGA(Field Programmable Gate Array)作为可编程逻辑器件,拥有丰富计算逻辑、高灵活性和可扩展性、开发周期短、低能耗以及易修改等优势。因此,亟需设计新型的、基于FPGA的CNN加速器,从而抛开数据上传云端的限制,减轻计算压力,对AI发展具有重要意义。
发明内容
为了加速CNN前向传播阶段的计算,本发明提出一种卷积神经网络加速器的前向传播计算加速方法,所述加速器包括上位机和FPGA模块,其中FPGA模块设置有两个端口,这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及图片的像素信息大小为M×M。
本发明还提出一种卷积神经网络加速器的前向传播计算加速方法,该加速方法在一种卷积神经网络加速器的FPGA模块运行,具体包括以下步骤:
S1、将FPGA模块的两个端口输入,并利用L个N1×N1卷积核同时对奇数行和偶数行输入像素按照不同区域进行扫描;对扫描区域内像素与对应卷积核权重进行乘积,每逢乘积结果数为N1×N1时,输出一个累加结果,立即与偏置进行相加,并进入激活函数Sigmoid,将其输出值作为最终的累加结果;最后将所有(M-N1+1)×(M-N1+1)个累加结果平均到RAM的A和B端口,当每个端口的累加结果计数为(M-N1+1)×(M-N1+1)÷2时,完成并行卷积;
S2、对A端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较,依照卷积结果降序排列,同时对B端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较,依照卷积结果降序排列,之后将A和B端口位于同一排列位置的卷积结果进行比较,输出较大值,当输出(M-N1+1)÷2×(M-N1+1)÷2个卷积结果时,最大池化处理结束;
S3、对(M-N1+1)÷2×(M-N1+1)÷2个像素执行步骤S1的并行卷积过程,当A和B端口的累加结果计数均为((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2时,并行卷积处理结束,A和B端口的输出卷积结果;
S4、对A和B端口各自拥有的((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2个卷积结果执行步骤S2的最大池化处理过程,当较大者计数为((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2时,最大池化处理结束;
S5、将((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2个像素分成((M-N1+1)÷2-N1+1)÷2个像素矩阵,每个像素矩阵列数为((M-N1+1)÷2-N1+1)÷2,行数为1,将A和B端口分别读取的奇数行和偶数行权重下采样成两个列数为1,行数为((M-N1+1)÷2-N1+1)÷2的权重矩阵,将((M-N1+1)÷2-N1+1)÷2个像素矩阵同时与两个权重矩阵相乘,从而得到((M-N1+1)÷2-N1+1)个分类,至此,完成对一幅图像的识别。
本发明与现有技术相比抛开数据上传云端的限制,减轻计算压力,并且本发明采用的FPGA模块作为可编程逻辑器件,拥有丰富计算逻辑、高灵活性和可扩展性、开发周期短、低能耗以及易修改等优势。
附图说明
图1为本发明一种卷积神经网络加速器整体逻辑外观示意图;
图2为本发明一种卷积神经网络加速器结构示意图;
图3为本发明实施例提供的CNN加速器前向传播计算加速流程示意图;
图4为本发明实施例方法与CPU方案的计算时间对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种卷积神经网络加速器的前向传播计算加速方法,该加速方法在一种卷积神经网络加速器的FPGA模块运行,如图2,具体包括以下步骤:
S1、将FPGA模块的两个端口输入,并利用L个N1×N1卷积核同时对奇数行和偶数行输入像素按照不同区域进行扫描;对扫描区域内像素与对应卷积核权重进行乘积,每逢乘积结果数为N1×N1时,输出一个累加结果,立即与偏置进行相加,并进入激活函数Sigmoid,将其输出值作为最终的累加结果;最后将所有(M-N1+1)×(M-N1+1)个累加结果平均到RAM的A和B端口,当每个端口的累加结果计数为(M-N1+1)×(M-N1+1)÷2时,完成并行卷积;
S2、对A端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较,依照卷积结果降序排列,同时对B端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较,依照卷积结果降序排列,之后将A和B端口位于同一排列位置的卷积结果进行比较,输出较大值,当输出(M-N1+1)÷2×(M-N1+1)÷2个卷积结果时,最大池化处理结束;
S3、对(M-N1+1)÷2×(M-N1+1)÷2个像素执行步骤S1的并行卷积过程,当A和B端口的累加结果计数均为((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2时,并行卷积处理结束,A和B端口的输出卷积结果;
S4、对A和B端口各自拥有的((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2个卷积结果执行步骤S2的最大池化处理过程,当较大者计数为((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2时,最大池化处理结束;
S5、将((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2个像素分成((M-N1+1)÷2-N1+1)÷2个像素矩阵,每个像素矩阵列数为((M-N1+1)÷2-N1+1)÷2,行数为1,将A和B端口分别读取的奇数行和偶数行权重下采样成两个列数为1,行数为((M-N1+1)÷2-N1+1)÷2的权重矩阵,将((M-N1+1)÷2-N1+1)÷2个像素矩阵同时与两个权重矩阵相乘,从而得到((M-N1+1)÷2-N1+1)个分类,至此,完成对一幅图像的识别。
实施例1
本发明提出一种卷积神经网络加速器,如图1,包括上位机和FPGA模块,其中FPGA模块设置有两个端口,这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及大小为M×M的图片的像素信息,其中每个像素信息对应一个权重。
在本发明FPGA模块中运行前述的一种卷积神经网络加速器的前向传播计算加速方法,本实施例使用的FPGA是Xilinx公司的XC6VLX550T开发板,工作频率为100MHz。图4列出了该频率下FPGA的前向传播计算速度,一般来说,对于单幅图像来说,仅统计实际计算速度,忽略图像传播时间。一幅图像需要进行的乘累加次数为16.8万次,使用CPU的时间为0.506毫秒,而本实施例只使用了0.126毫秒,加速了3.63倍以上。将实施例扩展使用MNIST数据集进行测试,CPU耗时5.158秒,而扩展使用后的实施例只使用1.4624秒,加速比为3.19。
实施例2
如图3所示,本实施例从FPGA模块的两个端口RAM的A和B端口分别读取的奇数行和偶数行权重以及32×32(M=32)个像素首输入并行卷积层C1,该层的L=6个5×5(N1=5)卷积核同时对奇数行和偶数行输入像素按照不同区域进行扫描,并对扫描区域内像素与对应卷积核权重进行乘积,每逢乘积结果数为5×5=25时,输出一个累加结果,立即与偏置进行相加,并进入激活函数Sigmoid,将其输出值作为最终的累加结果。最后将所有28×28=784个累加结果平均到RAM的A和B端口。每个端口的累加结果计数为28×28÷2=392时,并行卷积处理结束,A和B端口的卷积结果同时输入最大池化层S2,该层对A端口的392个卷积结果两两比较,依次标记较大者位置为1, 2, ...14×14,同时对B端口的392个卷积结果两两比较,依次标记较大者位置为1, 2, ...,1, 2, ...,14×14,之后将A和B端口位于等值标记位置的两个较大者进行比较,输出较大者。当较大者计数为14×14=196时,最大池化处理结束,再输入并行卷积层C3,该层对14×14个像素执行并行卷积操作,当A和B端口的累加结果计数均为(10×10)÷2=50时,并行卷积处理结束,A和B端口的卷积结果同时进行最大池化层S4,该层对A和B端口各自拥有的50个卷积结果执行最大池化操作,当较大者计数为5×5=25时,最大池化处理结束,进入全连接层F5,该层首先将5×5个像素分成5个像素矩阵,每个像素矩阵列数为5,行数为1,将A和B端口分别读取的奇数行和偶数行权重下采样成两个列数为1,行数为5的权重矩阵,将5个像素矩阵同时与两个权重矩阵相乘,从而得到10个分类,至此,完成对一幅图像的识别。
本发明中涉及的权重和偏置的值均是在上位机中神经网络算法迭代训练过程后经过下采样获得。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种卷积神经网络加速器的前向传播计算加速方法,其特征在于,加速器包括上位机和FPGA模块,其中FPGA模块设置有两个端口,这两个端口分别按照奇数行、偶数行的规则读取上位机训练得到的M×M个权重、以及图片大小为M×M像素的像素信息,加速器的前向传播计算的加速方法具体包括以下步骤:
S1、将FPGA模块的两个端口输入,并利用L个N1×N1卷积核同时对奇数行和偶数行输入像素按照不同区域进行扫描;对扫描区域内像素与对应卷积核权重进行乘积,每逢乘积结果数为N1×N1时,输出一个累加结果,立即与偏置进行相加,并进入激活函数Sigmoid,将其输出值作为最终的累加结果;最后将所有(M-N1+1)×(M-N1+1)个累加结果平均到RAM的A和B端口,当每个端口的累加结果计数为(M-N1+1)×(M-N1+1)÷2时,完成并行卷积;
S2、对A端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较,依照卷积结果降序排列,同时对B端口的(M-N1+1)×(M-N1+1)÷2个卷积结果两两比较,依照卷积结果降序排列,之后将A和B端口位于同一排列位置的卷积结果进行比较,输出较大值,当输出(M-N1+1)÷2×(M-N1+1)÷2个卷积结果时,最大池化处理结束;
S3、对(M-N1+1)÷2×(M-N1+1)÷2个像素执行步骤S1的并行卷积过程,当A和B端口的累加结果计数均为((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2时,并行卷积处理结束,A和B端口的输出卷积结果;
S4、对A和B端口各自拥有的((M-N1+1)÷2-N1+1)×((M-N1+1)÷2-N1+1)÷2个卷积结果执行步骤S2的最大池化处理过程,当较大者计数为((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2时,最大池化处理结束;
S5、将((M-N1+1)÷2-N1+1)÷2×((M-N1+1)÷2-N1+1)÷2个像素分成((M-N1+1)÷2-N1+1)÷2个像素矩阵,每个像素矩阵列数为((M-N1+1)÷2-N1+1)÷2,行数为1,将A和B端口分别读取的奇数行和偶数行权重下采样成两个列数为1,行数为((M-N1+1)÷2-N1+1)÷2的权重矩阵,将((M-N1+1)÷2-N1+1)÷2个像素矩阵同时与两个权重矩阵相乘,从而得到((M-N1+1)÷2-N1+1)个分类,至此,完成对一幅图像的识别。
2.根据权利要求1所述的一种卷积神经网络加速器的前向传播计算加速方法,其特征在于,1<N1<(M+2)÷2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484509.3A CN111667053B (zh) | 2020-06-01 | 2020-06-01 | 一种卷积神经网络加速器的前向传播计算加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484509.3A CN111667053B (zh) | 2020-06-01 | 2020-06-01 | 一种卷积神经网络加速器的前向传播计算加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111667053A CN111667053A (zh) | 2020-09-15 |
CN111667053B true CN111667053B (zh) | 2023-05-09 |
Family
ID=72385463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010484509.3A Active CN111667053B (zh) | 2020-06-01 | 2020-06-01 | 一种卷积神经网络加速器的前向传播计算加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667053B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228240A (zh) * | 2016-07-30 | 2016-12-14 | 复旦大学 | 基于fpga的深度卷积神经网络实现方法 |
CN106250939A (zh) * | 2016-07-30 | 2016-12-21 | 复旦大学 | 基于fpga+arm多层卷积神经网络的手写体字符识别方法 |
WO2016210014A1 (en) * | 2015-06-25 | 2016-12-29 | Microsoft Technology Licensing, Llc | Memory bandwidth management for deep learning applications |
CN108537330A (zh) * | 2018-03-09 | 2018-09-14 | 中国科学院自动化研究所 | 应用于神经网络的卷积计算装置及方法 |
WO2019079025A1 (en) * | 2017-10-17 | 2019-04-25 | Xilinx, Inc. | ORDERING STATIC BLOCKS IN MATERIAL SYSTEMS DEFINED BY MASSIVELY PARALLEL SOFTWARE |
CN109948784A (zh) * | 2019-01-03 | 2019-06-28 | 重庆邮电大学 | 一种基于快速滤波算法的卷积神经网络加速器电路 |
CN110097174A (zh) * | 2019-04-22 | 2019-08-06 | 西安交通大学 | 基于fpga和行输出优先的卷积神经网络实现方法、系统及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11726950B2 (en) * | 2019-09-28 | 2023-08-15 | Intel Corporation | Compute near memory convolution accelerator |
-
2020
- 2020-06-01 CN CN202010484509.3A patent/CN111667053B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016210014A1 (en) * | 2015-06-25 | 2016-12-29 | Microsoft Technology Licensing, Llc | Memory bandwidth management for deep learning applications |
CN106228240A (zh) * | 2016-07-30 | 2016-12-14 | 复旦大学 | 基于fpga的深度卷积神经网络实现方法 |
CN106250939A (zh) * | 2016-07-30 | 2016-12-21 | 复旦大学 | 基于fpga+arm多层卷积神经网络的手写体字符识别方法 |
WO2019079025A1 (en) * | 2017-10-17 | 2019-04-25 | Xilinx, Inc. | ORDERING STATIC BLOCKS IN MATERIAL SYSTEMS DEFINED BY MASSIVELY PARALLEL SOFTWARE |
CN108537330A (zh) * | 2018-03-09 | 2018-09-14 | 中国科学院自动化研究所 | 应用于神经网络的卷积计算装置及方法 |
CN109948784A (zh) * | 2019-01-03 | 2019-06-28 | 重庆邮电大学 | 一种基于快速滤波算法的卷积神经网络加速器电路 |
CN110097174A (zh) * | 2019-04-22 | 2019-08-06 | 西安交通大学 | 基于fpga和行输出优先的卷积神经网络实现方法、系统及装置 |
Non-Patent Citations (2)
Title |
---|
A programmable parallel accelerator for learning and classification;Cadambi S等;《nternational Conference on Parallel Architectures & Compilation Techniques》;20101231;第1-3页 * |
基于CNN的SAR目标识别FPGA加速器设计;李昕卓;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215(第2期);第I135-736页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111667053A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784489B (zh) | 基于fpga的卷积神经网络ip核 | |
Chen et al. | An enhanced hybrid MobileNet | |
CN107609641B (zh) | 稀疏神经网络架构及其实现方法 | |
CN110458279B (zh) | 一种基于fpga的二值神经网络加速方法及系统 | |
CN109978161B (zh) | 一种通用的卷积-池化同步处理卷积核系统 | |
CN107844826B (zh) | 神经网络处理单元及包含该处理单元的处理系统 | |
CN108629406B (zh) | 用于卷积神经网络的运算装置 | |
CN111445012A (zh) | 一种基于fpga的分组卷积硬件加速器及其方法 | |
Solovyev et al. | Fixed-point convolutional neural network for real-time video processing in FPGA | |
CN110807522B (zh) | 一种神经网络加速器的通用计算电路 | |
CN114781629B (zh) | 基于并行复用的卷积神经网络的硬件加速器及并行复用方法 | |
US11983616B2 (en) | Methods and apparatus for constructing digital circuits for performing matrix operations | |
CN107563430A (zh) | 一种基于稀疏自动编码器和灰度关联分析法的卷积神经网络算法优化方法 | |
CN113240101B (zh) | 卷积神经网络软硬件协同加速的异构SoC实现方法 | |
CN113313252B (zh) | 一种基于脉动阵列的深度可分离卷积实现方法 | |
CN114519425A (zh) | 一种规模可扩展的卷积神经网络加速系统 | |
CN111667053B (zh) | 一种卷积神经网络加速器的前向传播计算加速方法 | |
CN110716751B (zh) | 高并行度计算平台、系统及计算实现方法 | |
Kang et al. | Design of convolution operation accelerator based on FPGA | |
US11526305B2 (en) | Memory for an artificial neural network accelerator | |
US20220164127A1 (en) | Memory for an Artificial Neural Network Accelerator | |
Solovyev et al. | Real-Time Recognition of Handwritten Digits in FPGA Based on Neural Network with Fixed Point Calculations | |
CN110163793B (zh) | 卷积计算加速方法和装置 | |
CN110765413B (zh) | 矩阵求和结构及神经网络计算平台 | |
CN109343826B (zh) | 一种面向深度学习的可重构处理器运算单元 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231219 Address after: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province Patentee after: Shenzhen Hongyue Information Technology Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |