CN109491938A

CN109491938A - 一种面向卷积神经网络加速的多通道dma控制器和卷积神经网络加速方法

Info

Publication number: CN109491938A
Application number: CN201811425474.5A
Authority: CN
Inventors: 姜凯; 于治楼; 秦刚
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-03-19

Abstract

本发明公开了一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法，属于智能计算技术领域，包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器，其中，DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输；DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输；DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输；DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输；DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。本发明可以有效提高卷积神经网络加速器的计算效率和内存使用效率。

Description

一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法

技术领域

本发明涉及智能计算技术领域，具体地说是一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法。

背景技术

卷积神经网络(CNN)算法在人工智能领域中应用最为广泛的算法，广泛应用于安防、自动驾驶、计算机视觉等领域。CNN本质上是一个多层感知机，其成功的原因关键在于它所采用的局部连接和共享权值的方式，一方面减少了的权值的数量使得网络易于优化，另一方面降低了过拟合的风险。CNN是神经网络中的一种，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

各类应用所需智能算法对计算平台的运算能力要求越来越高。以图像类算法为例，性能较好的模型权重参数规模在65M以上，模型的单次前向推理操作数超过了10G Ops，诸如VGG-19模型，操作数已经达到40G Ops。经过计算，单处理器的理想性能应该满足4-8TOPS。因此，如何提高神经网络的数据传输效率和计算效率，成为AI领域的关键问题。

发明内容

本发明的技术任务是针对以上不足之处，提供一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法，可以提高卷积神经网络加速器的计算效率和内存使用效率，提升计算单元间的数据传输效率。

本发明解决其技术问题所采用的技术方案是：

一种面向卷积神经网络加速的多通道DMA控制器，包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器，其中，

DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输；

DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输；

DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输；

DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输；

DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。

其中，所述DMA0控制器传输的连续数据包含权重、偏置和图像数据。DMA0控制器将内存中的权重、偏置和图像数据等连续存储项传输至卷积神经网络加速器计算单元。

进一步的，所述DMA1控制器传输的数据包含计算单元计算中间数据。DMA1控制器将计算单元输出的计算中间数据传输至内存，这些中间数据因为其碎片化，所以可能在内存中是离散存储。

进一步的，所述DMA2控制器传输的离散数据包含计算单元计算中间数据。DMA2控制器可以将内存中离散存储的计算中间数据传输至卷积神经网络加速器计算单元。

进一步的，所述DMA3控制器传输的数据包含计算单元计算中间数据。DMA3控制器完成卷积神经网络加速器各计算单元的计算中间数据的数据交换传输。

进一步的，所述DMA4控制器传输的数据为依据卷积神经网络加速逻辑的控制指令。DMA4控制器将内存中存储的指令传输至卷积神经网络加速器各计算单元。

在整个加速过程中，CPU解析上层模型并分解为指令，通过内存控制器存储至内存的连续区域，除此之外均由DMA控制器完成数据的传输，CPU无需参与，因此可以大大提升计算效率。由上述的数据传输方式可知，卷积神经网络加速器的各计算单元之间的频繁小数据交互由DMA3控制器直接完成，无需写回内存，可直接进行单元件传输，可以提升数据传输效率。

本发明还公开了一种卷积神经网络加速方法，通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输，从而减少CPU参与数据传输；包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。通过上述这些数据传输，实现卷积神经网络加速器各计算单元之间的数据交互以及其与内存之间的数据交换，减少CPU在数据交换中的参与频率，可以提高计算效率；另外，卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现，无需写回内存，直接进行单元间传输，可以提升数据传输效率。

具体的，DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输；DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输；DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输；DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输；DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输；则该卷积神经网络实现加速的具体方式如下：

1)、CPU解析上层模型并分解为指令，通过内存控制器存储DDR4的连续区域；

2)、DMA4将指令传送入指令缓冲；

3)、同时，DMA0将内存中的连续存储项传送入输入数据缓冲；

4)、计算单元依据指令和输入数据进行计算，并将计算中间数据输出至输出数据缓冲；

5)、DMA1将计算中间数据传送入内存；此中间数据因为其碎片化，因此，可能是离散存储的；

6)、DMA2将计算中间数据传送入计算单元，系统重复步骤3)至步骤6)，直至输出最后判定结果；

若计算单元之间存在数据交换，则通过DMA3进行传输。

由此可知，整个计算流程，除了开始的模型分解，CPU全程无需参与，因此计算效率大大提升，而计算单元之间的频繁小数据交互，无需写回内存，可直接进行单元间传输，因此，提升了数据传输效率。

其中，所述连续存储项包含图像、权重和偏置等连续存储项。

本发明还公开了一种卷积神经网络加速器，包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器(即DMA0、DMA1、DMA2、DMA3和DMA4)，DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲；DMA4通过内存控制器将内存中的指令送入指令缓冲；所述多个计算单元根据指令和输入数据进行计算，并将计算中间数据输出至输出数据缓冲，多个计算单元之间通过DMA3进行数据交换传输；DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存；DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。

通过5个DMA控制器可以实现卷积神经网络加速器计算单元之间的数据交互以及其与内存之间的数据交换，减少CPU在数据交换中的参与频率，提高计算效率；卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现，无需写回内存，直接进行单元间传输，可以提升数据传输效率。

本发明的一种面向卷积神经网络加速的多通道DMA控制器和卷积神经网络加速方法与现有技术相比，具有以下有益效果：

多通道DMA控制器的使用，可以提高卷积神经网络加速器的计算效率和内存使用效率，同时，提升计算单元间的数据传输效率。

通过该卷积神经网络加速方法，整个计算流程中，除了开始的模型分解，CPU全程无需参与，因此计算效率大大提升，而计算单元之间的频繁小数据交互，无需写回内存，可直接进行单元间传输，因此，提升了数据传输效率。

附图说明

图1是本发明的面向卷积神经网络加速的多通道DMA架构框图；

图2是本发明的卷积神经网络加速方法的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

DMA0控制器用于内存控制器至卷积神经网络加速器计算单元的连续数据传输。所述DMA0控制器传输的连续数据包含权重、偏置和图像数据。DMA0控制器将内存中的权重、偏置和图像数据等连续存储项传输至卷积神经网络加速器计算单元。

DMA1控制器用于卷积神经网络加速器计算单元至内存控制器的数据传输。所述DMA1控制器传输的数据包含计算单元计算中间数据。DMA1控制器将计算单元输出的计算中间数据传输至内存，这些中间数据因为其碎片化，所以可能在内存中是离散存储。

DMA2控制器用于内存控制器至卷积神经网络加速器计算单元的离散数据传输。所述DMA2控制器传输的离散数据包含计算单元计算中间数据。DMA2控制器可以将内存中离散存储的计算中间数据传输至卷积神经网络加速器计算单元。

DMA3控制器用于卷积神经网络加速器计算单元之间的数据传输。所述DMA3控制器传输的数据包含计算单元计算中间数据。DMA3控制器完成卷积神经网络加速器各计算单元的计算中间数据的数据交换传输。

DMA4控制器用于内存控制器至卷积神经网络加速器计算单元的指令传输。所述DMA4控制器传输的数据为依据卷积神经网络加速逻辑的控制指令。DMA4控制器将内存中存储的指令传输至卷积神经网络加速器各计算单元。

卷积神经网络加速器计算单元依据DMA0传输的数据和DMA4传输的指令进行计算，将计算数据输出、并通过DMA1传输至内存离散存储，通过DMA2将内存中离散存储的数据再传输至计算单元，重复进行前述计算直至输出最后判定结果。其中，计算单元之间的数据交互通过DMA3的传输实现，避免使用CPU，且不需要存入内存。

在本发明的另一个实施例中，一种卷积神经网络加速方法，通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输，从而减少CPU的数据传输；包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。通过上述这些数据传输，实现卷积神经网络加速器各计算单元之间的数据交互以及其与内存之间的数据交换，减少CPU在数据交换中的参与频率，可以提高计算效率；另外，卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现，无需写回内存，直接进行单元间传输，可以提升数据传输效率。

2)、DMA4将指令传送入指令缓冲；

3)、同时，DMA0将内存中的连续存储项传送入输入数据缓冲；所述连续存储项包含图像、权重和偏置等连续存储项；

5)、DMA1将计算中间数据传送入内存；(此中间数据因为其碎片化，因此，可能是离散存储的)

若计算单元之间存在数据交换，则通过DMA3进行传输。

在本发明的另一个实施例中，一种卷积神经网络加速器，包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器(即DMA0、DMA1、DMA2、DMA3和DMA4)，DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲；DMA4通过内存控制器将内存中的指令送入指令缓冲；所述多个计算单元根据指令和输入数据进行计算，并将计算中间数据输出至输出数据缓冲，多个计算单元之间通过DMA3进行数据交换传输；DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存；DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。

计算单元依据DMA0传输至输入数据缓冲的连续数据和DMA4传输至指令缓冲的指令进行计算，将计算数据输出至输出数据缓冲、并通过DMA1传输至内存离散存储，再通过DMA2将内存中离散存储的数据再传输至输入数据缓冲、计算单元根据该数据重复进行前述计算直至输出最后判定结果。其中，计算单元之间的数据交互通过DMA3的传输实现。

通过上述5个DMA控制器可以实现卷积神经网络加速器计算单元之间的数据交互以及其与内存之间的数据交换，减少CPU在数据交换中的参与频率，提高计算效率；卷积神经网络加速器计算单元之间的数据传输通过DMA控制器实现，无需写回内存，直接进行单元间传输，可以提升数据传输效率。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种面向卷积神经网络加速的多通道DMA控制器，其特征在于包括DMA0控制器、DMA1控制器、DMA2控制器、DMA3控制器和DMA4控制器，其中，

2.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器，其特征在于所述DMA0传输的连续数据包含权重、偏置和图像数据。

3.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器，其特征在于所述DMA1传输的数据包含计算单元计算中间数据。

4.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器，其特征在于所述DMA2传输的离散数据包含计算单元计算中间数据。

5.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器，其特征在于所述DMA3传输的数据包含计算单元计算中间数据。

6.根据权利要求1所述的一种面向卷积神经网络加速的多通道DMA控制器，其特征在于所述DMA4传输的数据为依据卷积神经网络加速逻辑的控制指令。

7.一种卷积神经网络加速方法，其特征在于通过多通道DMA控制器进行卷积神经网络加速器计算单元与内存控制器之间的数据传输，从而减少CPU的数据传输；包括内存控制器至卷积神经网络加速器计算单元的连续数据传输、卷积神经网络加速器计算单元至内存控制器的数据传输、内存控制器至卷积神经网络加速器计算单元的离散数据传输、卷积神经网络加速器计算单元之间的数据传输以及内存控制器至卷积神经网络加速器计算单元的指令传输。

8.根据权利要求7所述的一种卷积神经网络加速方法，其特征在于DMA0控制器负责内存控制器至卷积神经网络加速器计算单元的连续数据传输；

DMA1控制器负责卷积神经网络加速器计算单元至内存控制器的数据传输；

DMA2控制器负责内存控制器至卷积神经网络加速器计算单元的离散数据传输；DMA3控制器负责卷积神经网络加速器计算单元之间的数据传输；DMA4控制器负责内存控制器至卷积神经网络加速器计算单元的指令传输；则该卷积神经网络实现加速的具体方式如下：

2)、DMA4将指令传送入指令缓冲；

3)、同时，DMA0将内存中的连续存储项传送入输入数据缓冲；

5)、DMA1将计算中间数据传送入内存；

6)、DMA2将计算中间数据传送入计算单元，系统重复步骤3)至步骤6)，

直至输出最后判定结果；

若计算单元之间存在数据交换，则通过DMA3进行传输。

9.根据权利要求8所述的一种卷积神经网络量化方法，其特征在于所述连续存储项包含图像、权重和偏置。

10.一种卷积神经网络加速器，其特征在于包括多个计算单元、指令缓冲、输入数据缓冲、输出数据缓冲以及DMA[0:4]5个DMA控制器，DMA0通过内存控制器将内存中的连续存储项送入输入数据缓冲；DMA4通过内存控制器将内存中的指令送入指令缓冲；所述多个计算单元根据指令和输入数据进行计算，并将计算中间数据输出至输出数据缓冲，多个计算单元之间通过DMA3进行数据交换传输；DMA1通过内存控制器将输出数据缓冲的计算中间数据送入内存；DMA2通过内存控制器将内存中的离散计算中间数据送入计算单元。