CN107885700B

CN107885700B - 一种大规模矩阵卷积的多核实现方法

Info

Publication number: CN107885700B
Application number: CN201711475199.3A
Authority: CN
Inventors: 郭阳; 张军阳; 杨超; 田希; 扈啸; 李斌; 全拥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-05-14
Anticipated expiration: 2037-12-29
Also published as: CN107885700A

Abstract

一种大规模矩阵卷积的多核实现方法，其步骤为：S1：根据多核处理器的核数M，单核VPE的数量为P，输入特征图的尺寸W×H×C，卷积核的尺寸k×k，通道数为C，卷积核的数量N，水平或垂直移动步长s，确定输入特征图的多核划分方法；S2：将输入特征图按行进行划分，将卷积核k×k×C×N按N方向进行划分，单核分到的卷积核数量为P；S3：将按行划分后的输入特征图分给若干计算核，将划分后的卷积核分给相应的核；S4：所有核同时进行同样的操作，直至完成整个输入特征图的卷积操作。本发明具有实现简单、操作方便、可提高大规模矩阵卷积并行性、可以充分利用多核处理器加速等优点。

Description

一种大规模矩阵卷积的多核实现方法

技术领域

本发明主要涉及到卷积神经网络、人工智能领域，特指一种大规模矩阵卷积的多核实现方法。

背景技术

卷积是信号处理、图像处理领域的一种常用计算，一般包括一维的线性卷积和二维的矩阵卷积，是一种典型的计算密集型和访存密集型计算，二维矩阵卷积是当前卷积神经网络模型中最常用的计算，也是耗时、耗资源最多的一种计算，一般要占据一个卷积神经网络模型计算量的85％以上。因此，研究矩阵卷积的加速方法一直是当前的一个研究热点。

大规模矩阵卷积，一般是指输入特征图比较大，而卷积核往往比较小，由于卷积核需要在输入特征图上滑动进行点积和累加运算，计算之间往往存在相关性，因此，难以并行起来，尤其是多核的并行更是比较困难。

多核处理器是加速大规模矩阵计算的一种重要方式，若能采取合理的矩阵划分方式往往能够大大加速矩阵卷积的计算过程，一般来说N个处理核理论上可以获得N倍的加速比，因此，一方面需要有计算速度更快的处理器，另一方面也需要有合适的多核矩阵划分方法，只有算法和硬件的合理配合才能发挥最大的计算效率。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现简单、操作方便、可提高大规模矩阵卷积并行性、可以充分利用多核处理器加速的大规模矩阵卷积的多核实现方法。

为解决上述技术问题，本发明采用以下技术方案：

一种大规模矩阵卷积的多核实现方法，其步骤为：

S1：根据多核处理器的核数M，单核VPE的数量为P，输入特征图的尺寸W×H×C，卷积核的尺寸k×k，通道数为C，卷积核的数量N，水平或垂直移动步长s，确定输入特征图的多核划分方法；

S2：将输入特征图按行进行划分，将卷积核k×k×C×N按N方向进行划分，单核分到的卷积核数量为P；

S3：将按行划分后的输入特征图分给若干计算核，将划分后的卷积核分给相应的核；

S4：所有核同时进行同样的操作，直至完成整个输入特征图的卷积操作。

作为本发明的进一步改进：所述步骤S1中的输入特征图，W表示长，H表示宽，C表示通道。

作为本发明的进一步改进：所述输入特征图中彩色图像用3通道表示，黑白图用1通道表示。

作为本发明的进一步改进：所述输入特征图中k表示卷积核的尺寸，为方阵。

作为本发明的进一步改进：所述输入特征图中s表示卷积核在输入特征图上面的水平或垂直滑动步长，且一般水平滑动步长和垂直滑动步长相同。

作为本发明的进一步改进：所述步骤S1中，输入特征图的通道数和卷积核的通道数相同，且一般取N为P的整数倍。

作为本发明的进一步改进：所述步骤S3中计算任务的划分原则是所有核的计算任务相等。

与现有技术相比，本发明的优点在于：本发明的大规模矩阵卷积的多核实现方法，是依据多核处理器的体系结构特点和大规模矩阵卷积的计算方式，提出的一种有效的大规模矩阵卷积计算的多核划分方法，该方法将输入特征图和卷积核同时进行多核划分，使得原本有计算相关性的矩阵卷积计算变成了完全无关的矩阵卷积计算，使得大规模矩阵卷积的计算效率随着计算核心的增加而增加。这些优点使得本发明的方法实现简单，操作方便，能够充分挖掘多核处理器的各个层级的并行性。

附图说明

图1是本发明在具体应用实例中12核处理器结构示意图。

图2是本发明在具体应用实例中3通道输入特征图按行划分方案。

图3是本发明在具体应用实例中第1组输入特征图4核共享示意图。

图4是本发明在具体应用实例中第2组输入特征图4核共享示意图。

图5是本发明在具体应用实例中第3组输入特征图4核共享示意图。

图6是本发明在具体应用实例中第1组输入特征图4组卷积核划分示意图。

图7是本发明在具体应用实例中第2组输入特征图4组卷积核划分示意图。

图8是本发明在具体应用实例中第3组输入特征图4组卷积核划分示意图。

图9是本发明方法的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图9所示，本发明的一种大规模矩阵卷积的多核实现方法，其步骤为：

在具体应用实例中，上述步骤S1中，一般输入特征图的尺寸很大，W表示长，H表示宽，C表示通道，例如彩色图像用3通道表示，黑白图用1通道表示，k表示卷积核的尺寸，一般为方阵，s表示卷积核在输入特征图上面的水平或垂直滑动步长，且一般水平滑动步长和垂直滑动步长相同；

在具体应用实例中，上述步骤S1中，输入特征图的通道数和卷积核的通道数相同，且一般取N为P的整数倍；

在具体应用实例中，上述步骤S3中，由于多核的计算时间是由最长的某个核的计算时间所决定，因此，计算任务的划分原则是所有核的计算任务尽量相等。

参见图1-图8所示，本发明在一个具体应用实例中，所采用12核处理器的结构示意图。在该实施例中，本发明的具体流程为：

S1：根据多核处理器的核数M，单核VPE的数量为P，输入特征图的尺寸W×H×C，卷积核的尺寸k×k，通道数为C，卷积核的数量N，水平或垂直移动步长s，确定输入特征图的多核划分方法，这里取M为12，VPE为16，输入特征图为243×243×3，卷积核为7×7×3×64，水平或垂直移动步长为2；

S2：将输入特征图按行进行划分，即1到83行为第一组，77到163行为第二组，157到243行为第三组；

S3：将卷积核矩阵在第4维进行划分，即将7×7×3×64划分成7×7×3×16×4，共4组7×7×3×16；

S4：核0、1、2、3共享输入特征图的0到83行，核4、5、6、7共享输入特征图的77到163行，核8、9、10、11共享输入特征图的157到243行；

S5：核0、1、2、3共享4组卷积核，核4、5、6、7共享4组卷积核，核8、9、10、11共享4组卷积核；

S6：核0、1、2、3与输入特征图的0到83进行计算，可以同时得出输出64个输出特征图的第一部分，核4、5、6、7与输入特征图的77到163进行计算，可以同时得出输出特征图的第二部分，核8、9、10、11与输入特征图的157到243行进行计算，可以同时得出输出特征图的第三部分，

S7：所有12个计算核同时计算完成可以同时得出64个输出特征图。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种大规模矩阵卷积的多核实现方法，其特征在于，步骤为：

S1：根据多核处理器的核数M，单核VPE的数量为P，输入特征图的尺寸W×H×C，W表示长，H表示宽，C表示通道，卷积核的尺寸k×k，卷积核的数量N，水平或垂直移动步长s，确定输入特征图的多核划分方法；

2.根据权利要求1所述的大规模矩阵卷积的多核实现方法，其特征在于，所述输入特征图中彩色图像用3通道表示，黑白图用1通道表示。

3.根据权利要求1所述的大规模矩阵卷积的多核实现方法，其特征在于，所述输入特征图中k表示卷积核的尺寸，为方阵。

4.根据权利要求1所述的大规模矩阵卷积的多核实现方法，其特征在于，所述输入特征图中s表示卷积核在输入特征图上面的水平或垂直滑动步长，且水平滑动步长和垂直滑动步长相同。

5.根据权利要求1-4中任意一项所述的大规模矩阵卷积的多核实现方法，其特征在于，所述步骤S1中，输入特征图的通道数和卷积核的通道数相同，且取N为P的整数倍。

6.根据权利要求1-4中任意一项所述的大规模矩阵卷积的多核实现方法，其特征在于，所述步骤S3中，计算任务的划分原则是所有核的计算任务相等。