CN109491938A - 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 - Google Patents
一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 Download PDFInfo
- Publication number
- CN109491938A CN109491938A CN201811425474.5A CN201811425474A CN109491938A CN 109491938 A CN109491938 A CN 109491938A CN 201811425474 A CN201811425474 A CN 201811425474A CN 109491938 A CN109491938 A CN 109491938A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural networks
- data
- computing unit
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims abstract description 75
- 101150043088 DMA1 gene Proteins 0.000 claims abstract description 26
- 101150090596 DMA2 gene Proteins 0.000 claims abstract description 26
- 239000000872 buffer Substances 0.000 claims description 21
- 230000003139 buffering effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 238000004080 punching Methods 0.000 claims 1
- 238000013139 quantization Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 10
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000000151 deposition Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/28—Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
- G06F13/287—Multiplexed DMA
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法,属于智能计算技术领域,包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输;DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输;DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输;DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。本发明可以有效提高卷积神经网络加速器的计算效率和内存使用效率。
Description
技术领域
本发明涉及智能计算技术领域,具体地说是一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法。
背景技术
卷积神经网络(CNN)算法在人工智能领域中应用最为广泛的算法,广泛应用于安防、自动驾驶、计算机视觉等领域。CNN本质上是一个多层感知机,其成功的原因关键在于它所采用的局部连接和共享权值的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。CNN是神经网络中的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
各类应用所需智能算法对计算平台的运算能力要求越来越高。以图像类算法为例,性能较好的模型权重参数规模在65M以上,模型的单次前向推理操作数超过了10G Ops,诸如VGG-19模型,操作数已经达到40G Ops。经过计算,单处理器的理想性能应该满足4-8TOPS。因此,如何提高神经网络的数据传输效率和计算效率,成为AI领域的关键问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法,可以提高卷积神经网络加速器的计算效率和内存使用效率,提升计算单元间的数据传输效率。
本发明解决其技术问题所采用的技术方案是:
一种面向卷积神经网络加速的多通道DMA控制器,包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,
DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输;
DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输;
DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输;
DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输;
DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。
其中,所述DMA0控制器传输的连续数据包含权重、偏置和图像数据。DMA0控制器将内存中的权重、偏置和图像数据等连续存储项传输至卷积神经网络加速器计算单元。
进一步的,所述DMA1控制器传输的数据包含计算单元计算中间数据。DMA1控制器将计算单元输出的计算中间数据传输至内存,这些中间数据因为其碎片化,所以可能在内存中是离散存储。
进一步的,所述DMA2控制器传输的离散数据包含计算单元计算中间数据。DMA2控制器可以将内存中离散存储的计算中间数据传输至卷积神经网络加速器计算单元。
进一步的,所述DMA3控制器传输的数据包含计算单元计算中间数据。DMA3控制器完成卷积神经网络加速器各计算单元的计算中间数据的数据交换传输。
进一步的,所述DMA4控制器传输的数据为依据卷积神经网络加速逻辑的控制指令。DMA4控制器将内存中存储的指令传输至卷积神经网络加速器各计算单元。
在整个加速过程中,CPU解析上层模型并分解为指令,通过内存控制器存储至内存的连续区域,除此之外均由DMA控制器完成数据的传输,CPU无需参与,因此可以大大提升计算效率。由上述的数据传输方式可知,卷积神经网络加速器的各计算单元之间的频繁小数据交互由DMA3控制器直接完成,无需写回内存,可直接进行单元件传输,可以提升数据传输效率。
本发明还公开了一种卷积神经网络加速方法,通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输,从而减少CPU参与数据传输;包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。通过上述这些数据传输,实现卷积神经网络加速器各计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,可以提高计算效率;另外,卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
具体的,DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输;DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输;DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输;DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输;则该卷积神经网络实现加速的具体方式如下:
1)、CPU解析上层模型并分解为指令,通过内存控制器存储DDR4的连续区域;
2)、DMA4将指令传送入指令缓冲;
3)、同时,DMA0将内存中的连续存储项传送入输入数据缓冲;
4)、计算单元依据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲;
5)、DMA1将计算中间数据传送入内存;此中间数据因为其碎片化,因此,可能是离散存储的;
6)、DMA2将计算中间数据传送入计算单元,系统重复步骤3)至步骤6),直至输出最后判定结果;
若计算单元之间存在数据交换,则通过DMA3进行传输。
由此可知,整个计算流程,除了开始的模型分解,CPU全程无需参与,因此计算效率大大提升,而计算单元之间的频繁小数据交互,无需写回内存,可直接进行单元间传输,因此,提升了数据传输效率。
其中,所述连续存储项包含图像、权重和偏置等连续存储项。
本发明还公开了一种卷积神经网络加速器,包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器(即DMA0、DMA1、DMA2、DMA3和DMA4),DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲;DMA4通过内存控制器将内存中的指令送入指令缓冲;所述多个计算单元根据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲,多个计算单元之间通过DMA3进行数据交换传输;DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存;DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。
通过5个DMA控制器可以实现卷积神经网络加速器计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,提高计算效率;卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
本发明的一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法与现有技术相比,具有以下有益效果:
多通道DMA控制器的使用,可以提高卷积神经网络加速器的计算效率和内存使用效率,同时,提升计算单元间的数据传输效率。
通过该卷积神经网络加速方法,整个计算流程中,除了开始的模型分解,CPU全程无需参与,因此计算效率大大提升,而计算单元之间的频繁小数据交互,无需写回内存,可直接进行单元间传输,因此,提升了数据传输效率。
附图说明
图1是本发明的面向卷积神经网络加速的多通道DMA架构框图;
图2是本发明的卷积神经网络加速方法的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种面向卷积神经网络加速的多通道DMA控制器,包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,
DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输。所述DMA0控制器传输的连续数据包含权重、偏置和图像数据。DMA0控制器将内存中的权重、偏置和图像数据等连续存储项传输至卷积神经网络加速器计算单元。
DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输。所述DMA1控制器传输的数据包含计算单元计算中间数据。DMA1控制器将计算单元输出的计算中间数据传输至内存,这些中间数据因为其碎片化,所以可能在内存中是离散存储。
DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输。所述DMA2控制器传输的离散数据包含计算单元计算中间数据。DMA2控制器可以将内存中离散存储的计算中间数据传输至卷积神经网络加速器计算单元。
DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输。所述DMA3控制器传输的数据包含计算单元计算中间数据。DMA3控制器完成卷积神经网络加速器各计算单元的计算中间数据的数据交换传输。
DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。所述DMA4控制器传输的数据为依据卷积神经网络加速逻辑的控制指令。DMA4控制器将内存中存储的指令传输至卷积神经网络加速器各计算单元。
卷积神经网络加速器计算单元依据DMA0传输的数据和DMA4传输的指令进行计算,将计算数据输出、并通过DMA1传输至内存离散存储,通过DMA2将内存中离散存储的数据再传输至计算单元,重复进行前述计算直至输出最后判定结果。其中,计算单元之间的数据交互通过DMA3的传输实现,避免使用CPU,且不需要存入内存。
在整个加速过程中,CPU解析上层模型并分解为指令,通过内存控制器存储至内存的连续区域,除此之外均由DMA控制器完成数据的传输,CPU无需参与,因此可以大大提升计算效率。由上述的数据传输方式可知,卷积神经网络加速器的各计算单元之间的频繁小数据交互由DMA3控制器直接完成,无需写回内存,可直接进行单元件传输,可以提升数据传输效率。
在本发明的另一个实施例中,一种卷积神经网络加速方法,通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输,从而减少CPU的数据传输;包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。通过上述这些数据传输,实现卷积神经网络加速器各计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,可以提高计算效率;另外,卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
具体的,DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输;DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输;DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输;DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输;则该卷积神经网络实现加速的具体方式如下:
1)、CPU解析上层模型并分解为指令,通过内存控制器存储DDR4的连续区域;
2)、DMA4将指令传送入指令缓冲;
3)、同时,DMA0将内存中的连续存储项传送入输入数据缓冲;所述连续存储项包含图像、权重和偏置等连续存储项;
4)、计算单元依据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲;
5)、DMA1将计算中间数据传送入内存;(此中间数据因为其碎片化,因此,可能是离散存储的)
6)、DMA2将计算中间数据传送入计算单元,系统重复步骤3)至步骤6),直至输出最后判定结果;
若计算单元之间存在数据交换,则通过DMA3进行传输。
由此可知,整个计算流程,除了开始的模型分解,CPU全程无需参与,因此计算效率大大提升,而计算单元之间的频繁小数据交互,无需写回内存,可直接进行单元间传输,因此,提升了数据传输效率。
在本发明的另一个实施例中,一种卷积神经网络加速器,包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器(即DMA0、DMA1、DMA2、DMA3和DMA4),DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲;DMA4通过内存控制器将内存中的指令送入指令缓冲;所述多个计算单元根据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲,多个计算单元之间通过DMA3进行数据交换传输;DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存;DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。
计算单元依据DMA0传输至输入数据缓冲的连续数据和DMA4传输至指令缓冲的指令进行计算,将计算数据输出至输出数据缓冲、并通过DMA1传输至内存离散存储,再通过DMA2将内存中离散存储的数据再传输至输入数据缓冲、计算单元根据该数据重复进行前述计算直至输出最后判定结果。其中,计算单元之间的数据交互通过DMA3的传输实现。
通过上述5个DMA控制器可以实现卷积神经网络加速器计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,提高计算效率;卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (10)
1.一种面向卷积神经网络加速的多通道DMA控制器,其特征在于包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,
DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输;
DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输;
DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输;
DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输;
DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。
2.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA0传输的连续数据包含权重、偏置和图像数据。
3.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA1传输的数据包含计算单元计算中间数据。
4.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA2传输的离散数据包含计算单元计算中间数据。
5.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA3传输的数据包含计算单元计算中间数据。
6.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA4传输的数据为依据卷积神经网络加速逻辑的控制指令。
7.一种卷积神经网络加速方法,其特征在于通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输,从而减少CPU的数据传输;包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。
8.根据权利要求7所述的一种卷积神经网络加速方法,其特征在于DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输;
DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输;
DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输;DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输;则该卷积神经网络实现加速的具体方式如下:
1)、CPU解析上层模型并分解为指令,通过内存控制器存储DDR4的连续区域;
2)、DMA4将指令传送入指令缓冲;
3)、同时,DMA0将内存中的连续存储项传送入输入数据缓冲;
4)、计算单元依据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲;
5)、DMA1将计算中间数据传送入内存;
6)、DMA2将计算中间数据传送入计算单元,系统重复步骤3)至步骤6),
直至输出最后判定结果;
若计算单元之间存在数据交换,则通过DMA3进行传输。
9.根据权利要求8所述的一种卷积神经网络量化方法,其特征在于所述连续存储项包含图像、权重和偏置。
10.一种卷积神经网络加速器,其特征在于包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器,DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲;DMA4通过内存控制器将内存中的指令送入指令缓冲;所述多个计算单元根据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲,多个计算单元之间通过DMA3进行数据交换传输;DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存;DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811425474.5A CN109491938A (zh) | 2018-11-27 | 2018-11-27 | 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811425474.5A CN109491938A (zh) | 2018-11-27 | 2018-11-27 | 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109491938A true CN109491938A (zh) | 2019-03-19 |
Family
ID=65697795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811425474.5A Pending CN109491938A (zh) | 2018-11-27 | 2018-11-27 | 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109491938A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347506A (zh) * | 2019-06-28 | 2019-10-18 | Oppo广东移动通信有限公司 | 基于lstm的数据处理方法、装置、存储介质与电子设备 |
CN111401541A (zh) * | 2020-03-10 | 2020-07-10 | 湖南国科微电子股份有限公司 | 一种数据传输控制方法及装置 |
CN111752879A (zh) * | 2020-06-22 | 2020-10-09 | 深圳鲲云信息科技有限公司 | 一种基于卷积神经网络的加速系统、方法及存储介质 |
CN112396072A (zh) * | 2019-08-14 | 2021-02-23 | 上海大学 | 基于asic与vgg16的图像分类加速方法及装置 |
WO2021155669A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州浪潮智能科技有限公司 | 一种基于分布式权值存储加速神经网络计算的架构及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180248562A1 (en) * | 2017-02-24 | 2018-08-30 | Texas Instruments Incorporated | Matrix compression accelerator system and method |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速系统 |
CN108806243A (zh) * | 2018-04-24 | 2018-11-13 | 东南大学 | 一种基于Zynq-7000的交通流量信息采集终端 |
CN108875926A (zh) * | 2017-10-30 | 2018-11-23 | 上海寒武纪信息科技有限公司 | 语言翻译方法及相关产品 |
CN108885596A (zh) * | 2017-12-29 | 2018-11-23 | 深圳市大疆创新科技有限公司 | 数据处理方法、设备、dma控制器及计算机可读存储介质 |
-
2018
- 2018-11-27 CN CN201811425474.5A patent/CN109491938A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180248562A1 (en) * | 2017-02-24 | 2018-08-30 | Texas Instruments Incorporated | Matrix compression accelerator system and method |
CN108875926A (zh) * | 2017-10-30 | 2018-11-23 | 上海寒武纪信息科技有限公司 | 语言翻译方法及相关产品 |
CN108885596A (zh) * | 2017-12-29 | 2018-11-23 | 深圳市大疆创新科技有限公司 | 数据处理方法、设备、dma控制器及计算机可读存储介质 |
CN108806243A (zh) * | 2018-04-24 | 2018-11-13 | 东南大学 | 一种基于Zynq-7000的交通流量信息采集终端 |
CN108665059A (zh) * | 2018-05-22 | 2018-10-16 | 中国科学技术大学苏州研究院 | 基于现场可编程门阵列的卷积神经网络加速系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347506A (zh) * | 2019-06-28 | 2019-10-18 | Oppo广东移动通信有限公司 | 基于lstm的数据处理方法、装置、存储介质与电子设备 |
CN110347506B (zh) * | 2019-06-28 | 2023-01-06 | Oppo广东移动通信有限公司 | 基于lstm的数据处理方法、装置、存储介质与电子设备 |
CN112396072A (zh) * | 2019-08-14 | 2021-02-23 | 上海大学 | 基于asic与vgg16的图像分类加速方法及装置 |
CN112396072B (zh) * | 2019-08-14 | 2022-11-25 | 上海大学 | 基于asic与vgg16的图像分类加速方法及装置 |
WO2021155669A1 (zh) * | 2020-02-03 | 2021-08-12 | 苏州浪潮智能科技有限公司 | 一种基于分布式权值存储加速神经网络计算的架构及方法 |
CN111401541A (zh) * | 2020-03-10 | 2020-07-10 | 湖南国科微电子股份有限公司 | 一种数据传输控制方法及装置 |
CN111752879A (zh) * | 2020-06-22 | 2020-10-09 | 深圳鲲云信息科技有限公司 | 一种基于卷积神经网络的加速系统、方法及存储介质 |
CN111752879B (zh) * | 2020-06-22 | 2022-02-22 | 深圳鲲云信息科技有限公司 | 一种基于卷积神经网络的加速系统、方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109491938A (zh) | 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 | |
CN111242277B (zh) | 一种基于fpga设计的支持稀疏剪枝的卷积神经网络加速器 | |
CN108122027B (zh) | 一种神经网络模型的训练方法、装置及芯片 | |
CN112464784A (zh) | 一种基于混合并行的分布式训练方法 | |
CN107391719A (zh) | 一种云环境中分布式流数据处理方法及系统 | |
CN104123304B (zh) | 数据驱动的并行排序系统和方法 | |
CN107688853A (zh) | 一种用于执行神经网络运算的装置及方法 | |
CN106951926A (zh) | 一种混合架构的深度学习系统方法及装置 | |
CN107122244A (zh) | 一种基于多gpu的图数据处理系统及方法 | |
CN111783357B (zh) | 一种基于减少旅客延误的中转行程优化方法及系统 | |
Zhang et al. | Edge-to-edge cooperative artificial intelligence in smart cities with on-demand learning offloading | |
CN111611062A (zh) | 云边协同分层计算方法及云边协同分层计算系统 | |
CN116883229A (zh) | 异构gpu集群中加速神经网络训练的流水线并行方法 | |
CN111368988A (zh) | 一种利用稀疏性的深度学习训练硬件加速器 | |
WO2024077819A1 (zh) | 多传感器多服务器工业物联网的信息年龄优化调度方法 | |
CN115130649B (zh) | 一种面向流水线分布式端云协同推理的深度学习模型划分方法和装置 | |
CN111740925A (zh) | 一种基于深度强化学习的Coflow调度方法 | |
CN109409509A (zh) | 一种针对基于fpga的卷积神经网络加速器的数据结构和加速方法 | |
Wang et al. | A policy-based reinforcement learning approach for high-speed railway timetable rescheduling | |
CN103888452B (zh) | 用于报文压缩的保序方法和装置 | |
CN103971514B (zh) | 一种急救车后送路径选择方法 | |
CN104063282B (zh) | IaaS云可变规模资源池管理方法、装置和服务器 | |
CN109767002A (zh) | 一种基于多块fpga协同处理的神经网络加速方法 | |
CN104461720A (zh) | 一种可分任务调度模型的求解方法及系统 | |
CN115016937B (zh) | 一种面向流水线并行训练的内存调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |