CN109491938A - 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 - Google Patents

一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 Download PDF

Info

Publication number
CN109491938A
CN109491938A CN201811425474.5A CN201811425474A CN109491938A CN 109491938 A CN109491938 A CN 109491938A CN 201811425474 A CN201811425474 A CN 201811425474A CN 109491938 A CN109491938 A CN 109491938A
Authority
CN
China
Prior art keywords
convolutional neural
neural networks
data
computing unit
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811425474.5A
Other languages
English (en)
Inventor
姜凯
于治楼
秦刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201811425474.5A priority Critical patent/CN109491938A/zh
Publication of CN109491938A publication Critical patent/CN109491938A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • G06F13/287Multiplexed DMA
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法,属于智能计算技术领域,包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输;DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输;DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输;DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。本发明可以有效提高卷积神经网络加速器的计算效率和内存使用效率。

Description

一种面向卷积神经网络加速的多通道DMA控制器和卷积神经 网络加速方法
技术领域
本发明涉及智能计算技术领域,具体地说是一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法。
背景技术
卷积神经网络(CNN)算法在人工智能领域中应用最为广泛的算法,广泛应用于安防、自动驾驶、计算机视觉等领域。CNN本质上是一个多层感知机,其成功的原因关键在于它所采用的局部连接和共享权值的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。CNN是神经网络中的一种,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
各类应用所需智能算法对计算平台的运算能力要求越来越高。以图像类算法为例,性能较好的模型权重参数规模在65M以上,模型的单次前向推理操作数超过了10G Ops,诸如VGG-19模型,操作数已经达到40G Ops。经过计算,单处理器的理想性能应该满足4-8TOPS。因此,如何提高神经网络的数据传输效率和计算效率,成为AI领域的关键问题。
发明内容
本发明的技术任务是针对以上不足之处,提供一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法,可以提高卷积神经网络加速器的计算效率和内存使用效率,提升计算单元间的数据传输效率。
本发明解决其技术问题所采用的技术方案是:
一种面向卷积神经网络加速的多通道DMA控制器,包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,
DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输;
DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输;
DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输;
DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输;
DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。
其中,所述DMA0控制器传输的连续数据包含权重、偏置和图像数据。DMA0控制器将内存中的权重、偏置和图像数据等连续存储项传输至卷积神经网络加速器计算单元。
进一步的,所述DMA1控制器传输的数据包含计算单元计算中间数据。DMA1控制器将计算单元输出的计算中间数据传输至内存,这些中间数据因为其碎片化,所以可能在内存中是离散存储。
进一步的,所述DMA2控制器传输的离散数据包含计算单元计算中间数据。DMA2控制器可以将内存中离散存储的计算中间数据传输至卷积神经网络加速器计算单元。
进一步的,所述DMA3控制器传输的数据包含计算单元计算中间数据。DMA3控制器完成卷积神经网络加速器各计算单元的计算中间数据的数据交换传输。
进一步的,所述DMA4控制器传输的数据为依据卷积神经网络加速逻辑的控制指令。DMA4控制器将内存中存储的指令传输至卷积神经网络加速器各计算单元。
在整个加速过程中,CPU解析上层模型并分解为指令,通过内存控制器存储至内存的连续区域,除此之外均由DMA控制器完成数据的传输,CPU无需参与,因此可以大大提升计算效率。由上述的数据传输方式可知,卷积神经网络加速器的各计算单元之间的频繁小数据交互由DMA3控制器直接完成,无需写回内存,可直接进行单元件传输,可以提升数据传输效率。
本发明还公开了一种卷积神经网络加速方法,通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输,从而减少CPU参与数据传输;包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。通过上述这些数据传输,实现卷积神经网络加速器各计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,可以提高计算效率;另外,卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
具体的,DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输;DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输;DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输;DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输;则该卷积神经网络实现加速的具体方式如下:
1)、CPU解析上层模型并分解为指令,通过内存控制器存储DDR4的连续区域;
2)、DMA4将指令传送入指令缓冲;
3)、同时,DMA0将内存中的连续存储项传送入输入数据缓冲;
4)、计算单元依据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲;
5)、DMA1将计算中间数据传送入内存;此中间数据因为其碎片化,因此,可能是离散存储的;
6)、DMA2将计算中间数据传送入计算单元,系统重复步骤3)至步骤6),直至输出最后判定结果;
若计算单元之间存在数据交换,则通过DMA3进行传输。
由此可知,整个计算流程,除了开始的模型分解,CPU全程无需参与,因此计算效率大大提升,而计算单元之间的频繁小数据交互,无需写回内存,可直接进行单元间传输,因此,提升了数据传输效率。
其中,所述连续存储项包含图像、权重和偏置等连续存储项。
本发明还公开了一种卷积神经网络加速器,包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器(即DMA0、DMA1、DMA2、DMA3和DMA4),DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲;DMA4通过内存控制器将内存中的指令送入指令缓冲;所述多个计算单元根据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲,多个计算单元之间通过DMA3进行数据交换传输;DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存;DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。
通过5个DMA控制器可以实现卷积神经网络加速器计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,提高计算效率;卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
本发明的一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法与现有技术相比,具有以下有益效果:
多通道DMA控制器的使用,可以提高卷积神经网络加速器的计算效率和内存使用效率,同时,提升计算单元间的数据传输效率。
通过该卷积神经网络加速方法,整个计算流程中,除了开始的模型分解,CPU全程无需参与,因此计算效率大大提升,而计算单元之间的频繁小数据交互,无需写回内存,可直接进行单元间传输,因此,提升了数据传输效率。
附图说明
图1是本发明的面向卷积神经网络加速的多通道DMA架构框图;
图2是本发明的卷积神经网络加速方法的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种面向卷积神经网络加速的多通道DMA控制器,包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,
DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输。所述DMA0控制器传输的连续数据包含权重、偏置和图像数据。DMA0控制器将内存中的权重、偏置和图像数据等连续存储项传输至卷积神经网络加速器计算单元。
DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输。所述DMA1控制器传输的数据包含计算单元计算中间数据。DMA1控制器将计算单元输出的计算中间数据传输至内存,这些中间数据因为其碎片化,所以可能在内存中是离散存储。
DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输。所述DMA2控制器传输的离散数据包含计算单元计算中间数据。DMA2控制器可以将内存中离散存储的计算中间数据传输至卷积神经网络加速器计算单元。
DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输。所述DMA3控制器传输的数据包含计算单元计算中间数据。DMA3控制器完成卷积神经网络加速器各计算单元的计算中间数据的数据交换传输。
DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。所述DMA4控制器传输的数据为依据卷积神经网络加速逻辑的控制指令。DMA4控制器将内存中存储的指令传输至卷积神经网络加速器各计算单元。
卷积神经网络加速器计算单元依据DMA0传输的数据和DMA4传输的指令进行计算,将计算数据输出、并通过DMA1传输至内存离散存储,通过DMA2将内存中离散存储的数据再传输至计算单元,重复进行前述计算直至输出最后判定结果。其中,计算单元之间的数据交互通过DMA3的传输实现,避免使用CPU,且不需要存入内存。
在整个加速过程中,CPU解析上层模型并分解为指令,通过内存控制器存储至内存的连续区域,除此之外均由DMA控制器完成数据的传输,CPU无需参与,因此可以大大提升计算效率。由上述的数据传输方式可知,卷积神经网络加速器的各计算单元之间的频繁小数据交互由DMA3控制器直接完成,无需写回内存,可直接进行单元件传输,可以提升数据传输效率。
在本发明的另一个实施例中,一种卷积神经网络加速方法,通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输,从而减少CPU的数据传输;包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。通过上述这些数据传输,实现卷积神经网络加速器各计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,可以提高计算效率;另外,卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
具体的,DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输;DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输;DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输;DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输;则该卷积神经网络实现加速的具体方式如下:
1)、CPU解析上层模型并分解为指令,通过内存控制器存储DDR4的连续区域;
2)、DMA4将指令传送入指令缓冲;
3)、同时,DMA0将内存中的连续存储项传送入输入数据缓冲;所述连续存储项包含图像、权重和偏置等连续存储项;
4)、计算单元依据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲;
5)、DMA1将计算中间数据传送入内存;(此中间数据因为其碎片化,因此,可能是离散存储的)
6)、DMA2将计算中间数据传送入计算单元,系统重复步骤3)至步骤6),直至输出最后判定结果;
若计算单元之间存在数据交换,则通过DMA3进行传输。
由此可知,整个计算流程,除了开始的模型分解,CPU全程无需参与,因此计算效率大大提升,而计算单元之间的频繁小数据交互,无需写回内存,可直接进行单元间传输,因此,提升了数据传输效率。
在本发明的另一个实施例中,一种卷积神经网络加速器,包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器(即DMA0、DMA1、DMA2、DMA3和DMA4),DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲;DMA4通过内存控制器将内存中的指令送入指令缓冲;所述多个计算单元根据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲,多个计算单元之间通过DMA3进行数据交换传输;DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存;DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。
计算单元依据DMA0传输至输入数据缓冲的连续数据和DMA4传输至指令缓冲的指令进行计算,将计算数据输出至输出数据缓冲、并通过DMA1传输至内存离散存储,再通过DMA2将内存中离散存储的数据再传输至输入数据缓冲、计算单元根据该数据重复进行前述计算直至输出最后判定结果。其中,计算单元之间的数据交互通过DMA3的传输实现。
通过上述5个DMA控制器可以实现卷积神经网络加速器计算单元之间的数据交互以及其与内存之间的数据交换,减少CPU在数据交换中的参与频率,提高计算效率;卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现,无需写回内存,直接进行单元间传输,可以提升数据传输效率。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (10)

1.一种面向卷积神经网络加速的多通道DMA控制器,其特征在于包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器,其中,
DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输;
DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输;
DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输;
DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输;
DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。
2.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA0传输的连续数据包含权重、偏置和图像数据。
3.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA1传输的数据包含计算单元计算中间数据。
4.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA2传输的离散数据包含计算单元计算中间数据。
5.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA3传输的数据包含计算单元计算中间数据。
6.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器,其特征在于所述DMA4传输的数据为依据卷积神经网络加速逻辑的控制指令。
7.一种卷积神经网络加速方法,其特征在于通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输,从而减少CPU的数据传输;包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。
8.根据权利要求7所述的一种卷积神经网络加速方法,其特征在于DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输;
DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输;
DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输;DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输;DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输;则该卷积神经网络实现加速的具体方式如下:
1)、CPU解析上层模型并分解为指令,通过内存控制器存储DDR4的连续区域;
2)、DMA4将指令传送入指令缓冲;
3)、同时,DMA0将内存中的连续存储项传送入输入数据缓冲;
4)、计算单元依据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲;
5)、DMA1将计算中间数据传送入内存;
6)、DMA2将计算中间数据传送入计算单元,系统重复步骤3)至步骤6),
直至输出最后判定结果;
若计算单元之间存在数据交换,则通过DMA3进行传输。
9.根据权利要求8所述的一种卷积神经网络量化方法,其特征在于所述连续存储项包含图像、权重和偏置。
10.一种卷积神经网络加速器,其特征在于包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器,DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲;DMA4通过内存控制器将内存中的指令送入指令缓冲;所述多个计算单元根据指令和输入数据进行计算,并将计算中间数据输出至输出数据缓冲,多个计算单元之间通过DMA3进行数据交换传输;DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存;DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。
CN201811425474.5A 2018-11-27 2018-11-27 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法 Pending CN109491938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811425474.5A CN109491938A (zh) 2018-11-27 2018-11-27 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811425474.5A CN109491938A (zh) 2018-11-27 2018-11-27 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法

Publications (1)

Publication Number Publication Date
CN109491938A true CN109491938A (zh) 2019-03-19

Family

ID=65697795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811425474.5A Pending CN109491938A (zh) 2018-11-27 2018-11-27 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法

Country Status (1)

Country Link
CN (1) CN109491938A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347506A (zh) * 2019-06-28 2019-10-18 Oppo广东移动通信有限公司 基于lstm的数据处理方法、装置、存储介质与电子设备
CN111401541A (zh) * 2020-03-10 2020-07-10 湖南国科微电子股份有限公司 一种数据传输控制方法及装置
CN111752879A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 一种基于卷积神经网络的加速系统、方法及存储介质
CN112396072A (zh) * 2019-08-14 2021-02-23 上海大学 基于asic与vgg16的图像分类加速方法及装置
WO2021155669A1 (zh) * 2020-02-03 2021-08-12 苏州浪潮智能科技有限公司 一种基于分布式权值存储加速神经网络计算的架构及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180248562A1 (en) * 2017-02-24 2018-08-30 Texas Instruments Incorporated Matrix compression accelerator system and method
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速系统
CN108806243A (zh) * 2018-04-24 2018-11-13 东南大学 一种基于Zynq-7000的交通流量信息采集终端
CN108885596A (zh) * 2017-12-29 2018-11-23 深圳市大疆创新科技有限公司 数据处理方法、设备、dma控制器及计算机可读存储介质
CN108875926A (zh) * 2017-10-30 2018-11-23 上海寒武纪信息科技有限公司 语言翻译方法及相关产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180248562A1 (en) * 2017-02-24 2018-08-30 Texas Instruments Incorporated Matrix compression accelerator system and method
CN108875926A (zh) * 2017-10-30 2018-11-23 上海寒武纪信息科技有限公司 语言翻译方法及相关产品
CN108885596A (zh) * 2017-12-29 2018-11-23 深圳市大疆创新科技有限公司 数据处理方法、设备、dma控制器及计算机可读存储介质
CN108806243A (zh) * 2018-04-24 2018-11-13 东南大学 一种基于Zynq-7000的交通流量信息采集终端
CN108665059A (zh) * 2018-05-22 2018-10-16 中国科学技术大学苏州研究院 基于现场可编程门阵列的卷积神经网络加速系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347506A (zh) * 2019-06-28 2019-10-18 Oppo广东移动通信有限公司 基于lstm的数据处理方法、装置、存储介质与电子设备
CN110347506B (zh) * 2019-06-28 2023-01-06 Oppo广东移动通信有限公司 基于lstm的数据处理方法、装置、存储介质与电子设备
CN112396072A (zh) * 2019-08-14 2021-02-23 上海大学 基于asic与vgg16的图像分类加速方法及装置
CN112396072B (zh) * 2019-08-14 2022-11-25 上海大学 基于asic与vgg16的图像分类加速方法及装置
WO2021155669A1 (zh) * 2020-02-03 2021-08-12 苏州浪潮智能科技有限公司 一种基于分布式权值存储加速神经网络计算的架构及方法
CN111401541A (zh) * 2020-03-10 2020-07-10 湖南国科微电子股份有限公司 一种数据传输控制方法及装置
CN111752879A (zh) * 2020-06-22 2020-10-09 深圳鲲云信息科技有限公司 一种基于卷积神经网络的加速系统、方法及存储介质
CN111752879B (zh) * 2020-06-22 2022-02-22 深圳鲲云信息科技有限公司 一种基于卷积神经网络的加速系统、方法及存储介质

Similar Documents

Publication Publication Date Title
CN109491938A (zh) 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法
Wang et al. Dynamic job-shop scheduling in smart manufacturing using deep reinforcement learning
CN109902818B (zh) 一种面向深度学习训练任务的分布式加速方法及系统
CN111242277B (zh) 一种基于fpga设计的支持稀疏剪枝的卷积神经网络加速器
CN108122027B (zh) 一种神经网络模型的训练方法、装置及芯片
CN110348574A (zh) 一种基于zynq的通用卷积神经网络加速结构及设计方法
CN107257329B (zh) 一种数据分段卸载发送方法
CN107122244A (zh) 一种基于多gpu的图数据处理系统及方法
CN107391719A (zh) 一种云环境中分布式流数据处理方法及系统
CN107066239A (zh) 一种实现卷积神经网络前向计算的硬件结构
CN112464784A (zh) 一种基于混合并行的分布式训练方法
CN111611062B (zh) 云边协同分层计算方法及云边协同分层计算系统
CN109426553A (zh) 任务切分装置及方法、任务处理装置及方法、多核处理器
CN113472597B (zh) 分布式卷积神经网络细粒度的参数传输调度方法及装置
CN106991474B (zh) 深度神经网络模型并行的全连接层数据交换方法及系统
CN111368988B (zh) 一种利用稀疏性的深度学习训练硬件加速器
WO2020233257A1 (zh) 一种无患者数据共享的多中心生物医学数据协同处理系统及方法
CN115994567A (zh) 一种深度神经网络模型并行计算任务异步调度方法
CN109740748A (zh) 一种基于fpga的卷积神经网络加速器
CN105956666A (zh) 一种机器学习方法及系统
CN106844483A (zh) 一种日志数据流处理方法
CN109639596A (zh) 一种用于车载can-canfd混合网络的网关调度方法
CN113313451A (zh) 一种基于改进布谷鸟算法的多目标优化物流调度方法
CN107800700A (zh) 一种路由器和片上网络传输系统及方法
CN109767002A (zh) 一种基于多块fpga协同处理的神经网络加速方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190319

RJ01 Rejection of invention patent application after publication