CN112446471B

CN112446471B - 基于异构众核处理器的卷积加速方法

Info

Publication number: CN112446471B
Application number: CN201910799257.0A
Authority: CN
Inventors: 王飞; 周文浩; 肖谦; 吴伟; 朱琪; 钱宏; 沈莉; 管茂林
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-09-13
Anticipated expiration: 2039-08-28
Also published as: CN112446471A

Abstract

本发明公开一种基于异构众核处理器的卷积加速方法，包括以下步骤：S1、根据异构众核处理器的核数，确定输入特征图和卷积核的多核划分方法，实现众核并行加速，S2、各计算核心将划分后的数据通过DMA的方式传输至片上存储器，实现片上存储加速，S3、将卷积操作核心计算过程中的标量计算操作优化为向量计算操作，实现SIMD指令加速，S4、结合异构众核处理器流水线特性，对卷积操作核心计算过程的指令流进行优化，以提高执行效率，实现指令并行加速。本发明对卷积操作进行加速，显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。

Description

基于异构众核处理器的卷积加速方法

技术领域

本发明涉及一种基于异构众核处理器的卷积加速方法，属于计算机技术领域。

背景技术

卷积是深度学习中最重要的概念之一。整个卷积神经网络的训练和推理过程中，卷积操作占据了绝大部份的计算量。异构高性能计算平台通常需要为卷积神经网络的训练和推理任务提供计算支持。当前，有一系列面向深度神经网络的核心函数库为不同的处理器架构提供了深度优化的卷积接口，如MKL-DNN之于X86 CPU，CUDNN之于Nvidia GPU，这些接口对于卷积神经网络计算有显著的加速效果。

目前，常用的卷积计算优化方法主要包含直接面向卷积计算的优化方法、空间域展开的优化方法和频域映射的优化方法三类。其中，空间域展开和频域映射的优化方式需要对输入数据和参数矩阵做预处理，这需要额外的内存空间，并对内存访问速度有较高的要求。对于一些异构众核处理器，其内存容量和最高访存速度并不十分突出，需要利用其他的体系结构特征进行卷积神经网络的性能加速。

发明内容

本发明的目的是提供一种基于异构众核处理器的卷积加速方法，该基于异构众核处理器的卷积加速方法对卷积操作进行加速，显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。

为达到上述目的，本发明采用的技术方案是：一种基于异构众核处理器的卷积加速方法，包括以下步骤：

S1、根据异构众核处理器的核数，确定输入特征图和卷积核的多核划分方法，实现众核并行加速，具体步骤如下：

S11、根据众核处理器核数M，确定单个计算核心分配的数据量P；

S12、对输入特征图和卷积核进行降维，将输入特征图C_c*k_c*k_c按照k_c、k_c、C_c的顺序转换为一维向量，将卷积核N_r*C_r*k_r*k_r按k_r、k_r、C_r、N_r的顺序转换为一维向量；

S13、将降维后的输入特征图和卷积核分给M个计算核，每个计算核分配的数据量大小为P；

S2、各计算核心将S13中分配的数据通过DMA的方式传输至片上存储器，实现片上存储加速，具体步骤如下：

S21、针对每个计算核心分配的数据量P，分配一个2P空间大小的片上局部存储器区域，其中一半空间用于主存的读写，另一半的空间参与计算，以保证计算核访存的相互独立，实现计算访存重叠；

S22、对输入特征图和卷积核进行数据重排，即将输入特征图中与矩阵计算相关的k_c维度作为最低维，并将卷积核N_r*C_r*k_r*k_r的N_r、 C_r两维做180度旋转，以实现更高效的DMA操作；

S23、对输入特征图进行分块处理，每块大小C_c*k_c*k_r，计算核每次读入一块，而非一个元素对应的输入特征矩阵；

S3、将卷积操作核心计算过程中的标量计算指令优化为向量计算指令，实现SIMD指令加速，具体步骤如下：

S31、分析卷积操作核心计算过程的数据依赖关系，根据异构众核处理器SIMD指令所能处理的向量宽度，对卷积操作核心计算进行循环展开；

S32、使用向量计算指令替换标量计算指令，并进行相应的标量与向量数据的类型转换操作；

S4、结合异构众核处理器流水线特性，对卷积操作核心计算过程的指令流进行优化，以提高执行效率，实现指令并行加速，具体步骤如下：

S41、在S31的基础上，将卷积操作核心计算再展开两次，为指令调度提供优化空间；

S42、根据指令流水线特征对数据装载指令、向量计算指令不同的指令进行调度。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明基于异构众核处理器的卷积加速方法，其利用异构众核处理器强大的众核并行能力，高速的片上存储能力、丰富的向量SIMD指令，以及流水线的优势，使用异构并行加速、片上存储加速、SIMD指令加速和指令并行加速的方法，对卷积操作进行加速，显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。

附图说明

附图1为本发明基于异构众核处理器的卷积加速方法流程图。

具体实施方式

实施例：一种基于异构众核处理器的卷积加速方法，包括以下步骤：

S22、对输入特征图和卷积核进行数据重排，即将输入特征图中与矩阵计算相关的k_c维度作为最低维，并将卷积核N_r*C_r*k_r*k_r的N_r、C_r两维做180度旋转，以实现更高效的DMA操作；

实施例进一步解释如下：

本发明方案具体流程如图1所示，包括众核并行加速、片上存储加速、SIMD指令加速和指令并行加速四部分的工作，充分利用其多级存储层次和向量指令集等特性，以及异构众核处理器片上存储快速、任务映射灵活和数据并行高效等体系结构优势，提升了卷积神经网络在异构众核处理器上的训练和推理性能。

首先，根据异构众核处理器的核数，确定输入特征图和卷积核的多核划分方法，实现众核并行加速，具体如下：

根据众核处理器核数M，确定单个计算核心分配的数据量P；

对输入的特征图和卷积核进行降维，将输入特征图C_c*k_c*k_c按照k_c、k_c、C_c的顺序转换为一维向量，将卷积核N_r*C_r*k_r*k_r按k_r、k_r、C_r、N_r的顺序转换为一维向量；

将降维后的输入特征图和卷积核分给若干计算核。

接着，各计算核心将划分后的数据通过DMA（直接存储器访问）的方式传输至片上存储器，实现片上存储加速，具体如下：

针对卷积计算每一部分数据，分配一个双倍于所需要空间大小的片上局部存储器区域，其中一半空间用于主存的读写，同时另一半的空间参与计算，保证计算核访存的相互独立，实现计算访存重叠；

对输入和输出特征图进行数据重排，将与矩阵计算相关的维度作为最低维，并且将卷积核N_r*C_r*k_r*k_r的N_r、 C_r两维做180度旋转，从而实现更加高效的DMA操作；

对输入特征图进行分块处理，每次读入一块，而非一个元素对应的输入特征矩阵，这些数据可以共享相同的卷积参数矩阵，来完成多次内层的矩阵乘计算。

再次，将卷积操作核心计算过程中的标量计算操作优化为向量计算操作，具体如下：

分析卷积操作核心计算过程的数据依赖关系，根据异构众核处理器SIMD指令所能处理的向量宽度，对卷积操作核心计算进行循环展开；

使用向量计算指令替换标量计算指令，并增加相应的标量与向量数据的类型转换操作。

最后，为了提高执行效率，结合异构众核处理器流水线特性，对卷积操作核心计算过程的指令流进行优化，具体如下：

对卷积操作核心计算循环展开；

根据指令流水线特征对数据装载指令、向量计算指令等不同的指令进行调度。

采用上述基于异构众核处理器的卷积加速方法时，其利用异构众核处理器强大的众核并行能力，高速的片上存储能力、丰富的向量SIMD指令，以及流水线的优势，使用异构并行加速、片上存储加速、SIMD指令加速和指令并行加速的方法，对卷积操作进行加速，显著提升了卷积神经网络在异构众核处理器上的训练和推理性能。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

异构：不同架构的中央处理器或特定硬件加速单元依据相关技术标准和规范有机内在融合在一颗芯片上，不同异构内核之间实现协同计算。

卷积神经网络：一类包含卷积或相关计算且具有深度结构的前馈神经网络。

片上存储器：与CPU集成在一个芯片上的存储系统。

SIMD指令：单指令流多数据流指令。

处理器流水线：是一种将指令分解为多步，并让不同指令的各步操作重叠，从而实现几条指令并行处理，以加速程序运行过程的技术。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于异构众核处理器的卷积加速方法，其特征在于：包括以下步骤：