CN112559197A

CN112559197A - 基于异构众核处理器的卷积计算数据重用方法

Info

Publication number: CN112559197A
Application number: CN201910852525.0A
Authority: CN
Inventors: 林蓉芬; 袁欣辉; 尹万旺; 魏迪; 杨金才; 王丹云; 董恩铭
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2021-03-26
Anticipated expiration: 2039-09-10
Also published as: CN112559197B

Abstract

本发明公开一种基于异构众核处理器的卷积计算数据重用方法，CPU通过数据块A和数据块B完成数据块C的卷积计算，包括以下步骤：S1、根据异构众核处理器的内核数，二维映射成N*N个，将数据块A、数据块B、数据块C划分为N*N块，第（i，j）号内核将第（j，i）块数据从内存读取到自己的片上存储器内，数据块C（i，j）的卷积计算需要数据块A（i，k）和数据块B（k，j），其中k=1，2，……，N；S2、进入循环k，循环次数从1到N，共N次，利用得到的数据块A、数据块B完成数据块C的第K次卷积计算。本发明显著降低卷积计算在异构众核处理器上的内存访存需求，充分发挥众核计算能力，从而实现卷积计算高性能，提升其在异构众核处理器上的计算性能。

Description

基于异构众核处理器的卷积计算数据重用方法

技术领域

本发明涉及一种基于异构众核处理器的卷积计算数据重用方法，属于深度学习技术领域。

背景技术

卷积是深度学习中最重要的概念之一。整个卷积神经网络的训练和推理过程中，卷积操作占据了绝大部份的计算量。高性能计算平台通常要针对这类核心运算提供专门的解决方案。对于计算密集型的函数，比如深度学习中的卷积，如何及时地给强大的计算内核提供足够多的数据，是需要解决的问题。异构众核处理器具有超强的计算能力和多级存储层次以及高效的片内通信方式，为实现高效的数据重用提供可能。

目前常用的卷积计算优化方法主要包含直接面向卷积计算的优化方法、空间域展开的优化方法和频域映射的优化方法三类。其中，空间域展开和频域映射的优化方式需要对输入数据和参数矩阵做预处理，这需要额外的内存空间，并对内存访问速度有较高的要求。对于一些异构众核处理器，内存的最高访存速度与众核强大的计算能力并不匹配，造成卷积计算只能发挥CPU计算性能的10%~20%。

发明内容

本发明的目的是提供一种基于异构众核处理器的卷积计算数据重用方法，该基于异构众核处理器的卷积计算数据重用方法显著降低卷积计算在异构众核处理器上的内存访存需求，充分发挥众核计算能力，从而实现卷积计算高性能，提升其在异构众核处理器上的计算性能。

为达到上述目的，本发明采用的技术方案是：一种基于异构众核处理器的卷积计算数据重用方法，CPU通过数据块A和数据块B完成数据块C的卷积计算，包括以下步骤：

S1、根据异构众核处理器的内核数NUM，将异构众核处理器的内核二维映射成N*N个内核，其中N的值为不超过NUM的平方根的最大整数，并对N*N个内核进行编号，将数据块A、数据块B、数据块C各自按二维等分划分为N*N块，第（i，j）号内核将数据块A、数据块B以及数据块C的第（j，i）块数据分别从内存读取到自己的片上存储器内，数据块C（i，j）的卷积计算需要数据块A（i，k）和数据块B（k，j），其中k=1，2，……，N；

S2、进入循环k，循环次数从1到N，共N次，利用得到的数据块A、数据块B完成数据块C的第K次卷积计算，具体如下：

S21、第（k，v）号内核通过片上通信将数据块A传递给第（u，v）号内核，其中，u=1，……，k-1，k+1，……，N，v=1，……，N；

S22、第（u，k）号内核通过片上通信将数据块B传递给第（u，v）号内核，其中，v=1，……，k-1，k+1，……，N，u=1，……，N；

S23、第（u，v）号内核利用得到的数据块A、数据块B，完成自己片上存储器的数据块C（v，u）的第k次卷积计算，其中，u=1，……，N，v=1，……，N；

S24、第（u，v）号内核将其片上存储器内完成卷积计算的数据块C（v，u）存入内存中。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明基于异构众核处理器的卷积计算数据重用方法，其利用异构众核处理器任务映射灵活、片上通信灵活和数据并行高效等体系结构优势，将数据通过片上通信在内核间传递、提高数据重用率，显著降低卷积计算在异构众核处理器上的内存访存需求，充分发挥众核计算能力，从而实现卷积计算高性能，提升其在异构众核处理器上的计算性能。

附图说明

附图1为本发明基于异构众核处理器的卷积计算数据重用方法流程图。

具体实施方式

实施例：一种基于异构众核处理器的卷积计算数据重用方法，基于大规模异构系统，CPU通过数据块A和数据块B完成数据块C的卷积计算，包括以下步骤：

实施例进一步解释如下：

CPU通过数据块A、B完成数据块C的计算C=AXB，其中X表示卷积操作。

（1）首先，根据异构众核处理器的内核数二维映射成N*N个，将数据块A、B、C划分为N*N块，第（i，j）号内核将第（j，i）块数据取到自己的片上存储器内。数据块C（i，j）的卷积计算需要数据块A（i，k）和数据块B（k，j）（其中k=1，2，……，N）。

（2）进入循环k，循环次数从1到N，共N次：

1、第（k， v）号内核通过片上通信将数据块A传递给第（u，v）号内核（u=1，……，k-1，k+1，……，N，v=1，……，N）

2、第（u， k）号内核通过片上通信将数据块B传递给第（u，v）号内核（v=1，……，k-1，k+1，……，N，u=1，……，N）

3、第（u，v）号内核利用得到的数据块A、B，完成自己片上存储器的数据块C（v，u）的第k次卷积计算。（u=1，……，N，v=1，……，N）

（3）第（u，v）号将片上存储器的数据C（v，u）存入内存中。

采用上述基于异构众核处理器的卷积计算数据重用方法时，其利用异构众核处理器任务映射灵活、片上通信灵活和数据并行高效等体系结构优势，将数据通过片上通信在内核间传递、提高数据重用率，显著降低卷积计算在异构众核处理器上的内存访存需求，充分发挥众核计算能力，从而实现卷积计算高性能，提升其在异构众核处理器上的计算性能。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

异构：不同架构的中央处理器或特定硬件加速单元依据相关技术标准和规范有机内在融合在一颗芯片上，不同异构内核之间实现协同计算。

卷积神经网络：一类包含卷积或相关计算且具有深度结构的前馈神经网络。

片上存储器：与CPU集成在一个芯片上的存储系统。

片上通信：CPU支持的异构内核间的一种数据交互方式。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于异构众核处理器的卷积计算数据重用方法，CPU通过数据块A和数据块B完成数据块C的卷积计算，其特征在于：包括以下步骤：