CN112559435A

CN112559435A - 基于片上分块的大规模三维矩阵转置的众核并行优化方法

Info

Publication number: CN112559435A
Application number: CN201910918612.1A
Authority: CN
Inventors: 王礼生; 孙唯哲; 王臻; 陈德训; 刘鑫; 赵朋朋; 李芳�; 陈鑫; 郭恒
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2021-03-26

Abstract

本发明公开一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，包括以下步骤：S1、根据三维数组的最高维对每个从核的任务进行划分，利用异构众核访存接口实现数据的快速传输；S2、利用片上加速接口对矩阵进行分块，通过片上加速接口对每个分块进行加速运算。本发明将三维数组进行片上分块，利用异构众核架构对分块进行并行加速，实现高效的数组转置，适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件，极大的提高程序整体性能。

Description

基于片上分块的大规模三维矩阵转置的众核并行优化方法

技术领域

本发明属于数值计算技术领域，尤其涉及一种基于片上分块的大规模三维矩阵转置的众核并行优化方法。

背景技术

近年随着高性能计算的发展，众多工程应用软件对数值计算性能追求越来越高。在数值求解过程中，往往需要用到大量的矩阵转置操作，即多维数组的转置。高效的数组转置算法可以极大提高程序整体性能。实现异构众核架构上数组的快速转置。

实现数组转置的一般方法是建立一个三维数组的副本，通过交换数组下标的方法对数组进行转置。采用这种方法会产生大量的不连续访存，极大的影响性能。

发明内容

本发明目的在于提供一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，该众核并行优化方法解决通用算法在异构众核架构下效率低下问题，实现异构众核架构上的三维矩阵的快速转置。

为达到上述目的，本发明采用的技术方案是：一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，包括以下步骤：

S1、按三维数组中最不连续的一维即最高维进行分块，分块过程如下：假设三维数组三个维度的大小分别为L、M、N，且在内存中优先存储大小为N的那一维数据，则大小为L的那一维是最不连续的一维即最高维；对L进行分块，要求分成的每一块的大小，假设为l，与其余两维大小的乘积不超过异构众核架构中每个计算核心的缓存大小，即l×M×N不超过异构众核架构中每个计算核心的缓存大小，若超过，则将分块大小设为1；

S2、每个计算核心根据S1中的分块结果和自己的编号计算自己计算的数据在异构众核架构的控制核心的内存中的位置，并从控制核心的内存中将数据加载到自己的缓存中；

S3、每个计算核心计算S2中加载到自己缓存的数据，计算时依次计算分块的那一维，即S1中的l上的每一个值对应的二维矩阵，即S1中的M×N；

S31、在计算一个M×N时，对其按8×8进行分块，对每个8×8分块利用异构众核片上快速转置接口进行转置运算；

S32、在分块过程中，若M不能被8整除，设m为M被8除的余数，则对M×N分块中（M-m）×N的部分直接进行转置运算，不使用异构众核片上快速转置接口；

S33、若N不能被8整除，则对M×N分块中8×（N-8）的部分使用异构众核片上快速转置接口进行转置运算；

S4、计算核心完成自己缓存上所有数据的转置运算后，将运算结果写回控制核心的内存中的对应位置；

S5、重复S2到S4直到完成整个三维矩阵转置运算。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明基于片上分块的大规模三维矩阵转置的众核并行优化方法，该众核并行优化方法将三维数组进行片上分块，利用异构众核架构对分块进行并行加速，实现高效的数组转置，适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件，极大的提高程序整体性能。

附图说明

附图1为本发明4*4矩阵转置示意图；

附图2为本发明8*8矩阵的转置过程示意图；

附图3为本发明大规模三维矩阵转置的众核并行优化方法流程图。

具体实施方式

下面结合实施例对本发明作进一步描述：

实施例：一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，包括以下步骤：

S5、重复S2到S4直到完成整个三维矩阵转置运算。

本发明上述内容进一步解释如下：

以4*4 矩阵为例，一个分块加速运算过程如图1，4*4矩阵通过片上加速接口，一共使用2次调用就可以实现4*4矩阵的转置。

8*8矩阵转置可以利用4*4矩阵转置的结果多用一次接口调用就可以实现8*8矩阵的转置，转置过程如图2所示，图2为初始矩阵、中间矩阵以及转置后矩阵。

经测试，与数组转置的一般方法相比，64*100*100规模的矩阵转置可以实现20倍的加速。

采用上述基于片上分块的大规模三维矩阵转置的众核并行优化方法时，其基于片上分块算法的异构众核快速矩阵转置算法，适用于绝大多数数值计算中需要对大规模三维矩阵转置的众多工程应用软件，极大提高性能。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

离散访存：英文为Discrete to Access Memory，数值计算中对数组下标的不连续访问，导致频繁读写内存，进而影响计算效率。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于片上分块的大规模三维矩阵转置的众核并行优化方法，其特征在于：包括以下步骤：

S1、按三维数组中最不连续的一维，即最高维进行分块，分块过程如下：假设三维数组三个维度的大小分别为L、M、N，且在内存中优先存储大小为N的那一维数据，则大小为L的那一维是最不连续的一维即最高维；对L进行分块，要求分成的每一块的大小，假设为l，与其余两维大小的乘积不超过异构众核架构中每个计算核心的缓存大小，即l×M×N不超过异构众核架构中每个计算核心的缓存大小，若超过，则将分块大小设为1；

S2、每个计算核心根据S1中的分块结果和自己的编号，计算自己计算的数据在异构众核架构的控制核心的内存中的位置，并从控制核心的内存中将数据加载到自己的缓存中；

S5、重复S2到S4直到完成整个三维矩阵转置运算。