CN108205702B

CN108205702B - 一种多输入多输出矩阵卷积的并行处理方法

Info

Publication number: CN108205702B
Application number: CN201711473269.1A
Authority: CN
Inventors: 郭阳; 张军阳; 杨超; 田希; 扈啸; 李斌
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-12-01
Anticipated expiration: 2037-12-29
Also published as: CN108205702A

Abstract

一种多输入多输出矩阵卷积的并行处理方法，其步骤为：S1：依据向量处理器的向量处理单元VPE的数量N等参数确定输出特征图的最优计算方案；S2：将M张输入特征图依次存入外部存储DDR中，将N个输入卷积核按照第3维，按行的方式进行拼接；S3：加载输入特征图1的第一个元素，广播至向量寄存器，同时加载AM中卷积核的第一行元素至向量寄存器中；S4：进行k×k次累加，完成输入特征图1的计算；同时加载第2幅输入特征图；S5：重复直至完成N个输出特征图第一个元素的计算；S6：根据移动步长完成N个输出特征图所有元素的计算；S7：以上步骤循环最终完成。本发明具有实现简单、操作方便、可提高向量处理器并行性、能提高处理器运算效率等优点。

Description

一种多输入多输出矩阵卷积的并行处理方法

技术领域

本发明主要涉及到人工智能、机器学习、卷积神经网络领域，特指一种多输入多输出矩阵卷积的并行处理方法。

背景技术

随着深度学习技术的兴起，基于卷积神经网络的目标识别技术取得了突破性的进展，其在图像识别、语音识别、自然语言处理等领域取得了广泛的使用。矩阵卷积是一种计算密集型和访存密集型计算，而卷积神经网络模型中的矩阵卷积运算往往占据一个卷积神经网络模型计算量的85％以上，因此如何加速矩阵卷积运算是当前研究的一个重点和难点。

针对计算和访存密集型的矩阵卷积运算，当下学术界核工业界提出了不同的加速该运算的方法，有基于FPGA的从硬件上设计支持卷积计算的专用神经网络加速器，有基于GPU的采用基于FFT的方法或者将卷积核矩阵扩充成大矩阵进而通过矩阵与矩阵的乘法来加速矩阵卷积的计算，不管是哪种方法，基本上都是针对某种体系结构进行的优化，可以通过硬件上的支持以及算法上的改进来进行加速运算。

如图1所示，向量处理器就是其中的一种新型的体系结构，其包括向量处理器单元(VPU)和标量处理单元(SPU)，向量处理部件中通常包含多个并行的向量处理单元(VPE)，VPE之间可以通过规约和混洗进行数据交互，所有的VPE基于SIMD执行同样的操作。

矩阵卷积是卷积神经网络模型中常用的核心模块之一，其不仅是计算密集和访存密集，由于矩阵卷积计算中卷积核的规模一般比较小，因此，若不能采取合理的计算方法，即使使用高性能的计算设备也难以发挥出应有的计算优势。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现简单、操作方便、可提高向量处理器并行性、能提高处理器运算效率的多输入多输出矩阵卷积的并行处理方法。

为解决上述技术问题，本发明采用以下技术方案：

一种多输入多输出矩阵卷积的并行处理方法，其步骤为：

S1：依据向量处理器的向量处理单元VPE的数量N、输入特征图的数量M，卷积核的数量P，卷积核的尺寸k，移动步长s，确定输出特征图的最优计算方案；

S2：将M张输入特征图依次存入外部存储DDR中，将N个输入卷积核按照第3维，按行的方式进行拼接，并将完成拼接后的卷积核矩阵传入向量处理器的向量存储体中；其中，N≤P；

S3：加载输入特征图1的第一个元素，广播至向量寄存器，同时加载AM中卷积核的第一行元素至向量寄存器中，进行乘加并累加至累加寄存器中；

S4：进行k×k次累加，完成输入特征图1的计算；同时加载第2幅输入特征图，并加载第2个卷积核矩阵的第一行元素；

S5：重复S3-S4直至完成N个输出特征图第一个元素的计算；

S6：根据水平或垂直方向的移动步长，移动s个元素的距离，重复步骤S3-S5直至完成N个输出特征图所有元素的计算；

S7：以上步骤共循环P/N次，最终完成P个输出特征图所有元素的计算。

作为本发明的进一步改进：所述步骤S1中，VPE的数量N为每次计算得出的输出特征图的数量，取P为N的整数倍。

作为本发明的进一步改进：若P不为N的整数倍，则多余的输出特征图单独进行处理。

作为本发明的进一步改进：所述步骤S1中，卷积核的尺寸为方阵，取卷积核的规模为长等于高，即卷积核为方阵。

作为本发明的进一步改进：所述步骤S1中，卷积核的移动步长是1、或2、或3。

作为本发明的进一步改进：所述步骤S2中，N个卷积核的每一个卷积核中，有M个k×k规模的卷积核，该M个k×k的卷积核与M个输入特征图进行对应的卷积操作，并累加求和得出输出特征图中的一个元素。

与现有技术相比，本发明的优点在于：本发明的多输入多输出矩阵卷积的并行处理方法，依据向量处理器的体系结构特点和卷积核的数量和规模，确定最优的多输入多输出特征图的实现方式，有效地提高了向量处理器的计算效率；通过合理的卷积核排列方式，将不规整的卷积计算变成了只有乘法和加速的累加操作，且增加了最内核循环的次数，而最内核循环次数的多少是影响程序软件流水和循环展开的重要因素，因此，该实现方法可以大大提高算法的执行效率。这些优点使得本发明的方法实现简单，操作方便，能够充分挖掘向量处理器的指令、数据、任务等各个层次的并行性，从而充分发挥多MAC运算部件向量处理器所具有的高性能计算能力的优点。

附图说明

图1是向量处理器的一般结构示意图。

图2是3输入特征图加载顺序示意图。

图3是2个卷积核向量化加载示意图。

图4是本发明中的多输入特征图结构示意图。

图5是多输入卷积核结构示意图。

图6是多输出特征图结构示意图。

图7是本发明方法的总流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图7所示，本发明的一种多输入多输出矩阵卷积的并行处理方法，其步骤为：

S5：重复S3-S4直至完成N个输出特征图第一个元素的计算；

S7：以上步骤共循环P/N次，最终可以完成P个输出特征图所有元素的计算。

在本实施例中，上述步骤S1中，一般VPE的数量N为每次计算得出的输出特征图的数量，且为了叙述方便，一般取P为N的整数倍，在实际的计算过程中，若P不为NP的整数倍，则多余的输出特征图单独进行处理。

在本实施例中，上述步骤S1中，由于当前卷积神经网络模型中，卷积核的尺寸一般为方阵，因此本发明中取卷积核的规模为长等于高，即卷积核为方阵。

在本实施例中，上述步骤S1中，由于当前卷积神经网络模型中，卷积核的移动步长一般可以是1、2、3，在实际的实现过程中根据移动步长来偏移相应的距离；

在本实施例中，上述步骤S2中，N个卷积核的每一个卷积核中，有M个k×k规模的卷积核，该M个k×k的卷积核需要与M个输入特征图进行对应的卷积操作，并累加求和得出输出特征图中的一个元素。

在具体实施例中，卷积核的数量决定输出特征图的数量，即有几个卷积核就会输出几张特征图，且卷积核一般是三维的。每个卷积核从第3维进行拼接。

参见图2-图6所示，本发明的一个具体应用实例，在该实例中，本发明的详细流程为：

S1：首先根据向量处理器中向量处理单元VPE的数量N，输入特征图的数量M，卷积核的数量P，卷积核的规模k×k，移动步长s，确定向量处理器每次可以同时计算出的输出特征图的数量N，在本示例程序中取N为2，即每次可以同时计算两个输出特征图的元素，M取3，即有3个特征图作为输入，P取2，即整个卷积计算可以得出2个输出特征图，k取3，即3×3的卷积窗口，s取1，即水平或垂直方向的移动步长为1；

S2：将2个卷积核按照图3所示的方向，排列成一个卷积核矩阵，并将该卷积核矩阵置入向量存储体AM中，将3幅输入特征图置入DDR中；

S3：广播第1个输入特征图对应卷积窗口的第1个元素至向量寄存器中，同时加载卷积核矩阵的第1行元素，对应元素相乘并累加至累加寄存器中；

S4：按行方向顺移至下一行，同时加载卷积核矩阵的第2行元素，对应元素相乘并累加至步骤S3中的累加寄存器中；

S5：重复步骤S3-S4 9次，完成第1幅输入特征图的累加计算；

S6：顺移至第2幅输入特征图，重复步骤S3—S5完成第2个输入特征图的累加计算；

S7：顺移至第3幅输入特征图，重复步骤S3—S5完成第3个输入特征图的累加计算；

S8：通过步骤S1-S7，最终同时得出2幅输出特征图第一个元素的计算；

S9：输入特征图顺移至下一个卷积窗口，重复步骤S1-S8直至完成2幅输出特征图元素所有元素的计算。

综上所述，通过本发明所实现的基于向量处理器的体系结构特点和卷积核的数量和规模，确定最优的多输出特征图的实现方式，有效地提高了向量处理器的计算访存比；将复用次数较多的若干个卷积核按照某种方式顺序排列，使得向量处理器中每个PE只针对一幅输出特征图的计算，各PE之间完全相互独立，该方法使得多输入多输出的卷积计算得以高效进行。这些优点使得本发明的方法实现简单，操作方便，能够充分挖掘向量处理器的指令、数据、任务等各个层次的并行性，从而充分发挥多PE运算部件向量处理器所具有的高性能计算能力的优点。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种多输入多输出矩阵卷积的并行处理方法，其特征在于，步骤为：

S5：重复S3-S4直至完成N个输出特征图第一个元素的计算；

2.根据权利要求1所述的多输入多输出矩阵卷积的并行处理方法，其特征在于，所述步骤S1中，VPE的数量N为每次计算得出的输出特征图的数量，取P为N的整数倍。

3.根据权利要求2所述的多输入多输出矩阵卷积的并行处理方法，其特征在于，若P不为N的整数倍，则多余的输出特征图单独进行处理。

4.根据权利要求1-3中任意一项所述的多输入多输出矩阵卷积的并行处理方法，其特征在于，所述步骤S1中，卷积核的尺寸为方阵，取卷积核的规模为长等于高，即卷积核为方阵。

5.根据权利要求1-3中任意一项所述的多输入多输出矩阵卷积的并行处理方法，其特征在于，所述步骤S1中，卷积核的移动步长是1、或2、或3。

6.根据权利要求1-3中任意一项所述的多输入多输出矩阵卷积的并行处理方法，其特征在于，所述步骤S2中，N个卷积核的每一个卷积核中，有M个k×k规模的卷积核，该M个k×k的卷积核与M个输入特征图进行对应的卷积操作，并累加求和得出输出特征图中的一个元素。