CN112433853A

CN112433853A - 一种面向超级计算机数据并行应用的异构感知数据划分方法

Info

Publication number: CN112433853A
Application number: CN202011385997.9A
Authority: CN
Inventors: 张兴军; 韩立; 李靖波; 屈俞岐; 董小社; 孙辉; 胡成龙; 魏嘉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-02
Anticipated expiration: 2040-11-30
Also published as: CN112433853B

Abstract

本发明公开了一种面向超级计算机数据并行应用的异构感知数据划分方法，针对超级计算机体系结构与其编程特点，结合数据并行应用的程序特性，将函数性能模型与τ‑Lop通信模型相结合，对数据划分问题进行最优化建模，并将最优化问题抽象为搜索树的搜索算法，利用强化学习中的蒙特卡洛树搜索方法快速搜索最优解，从而得出应用程序在超算平台上的最优划分结果。此方法为针对超级计算机平台开发、移植或优化数据并行应用的开发人员提供了一种通用的数据划分方法，实现对超算平台计算资源的充分利用，减小程序计算和通信开销，提升程序性能。

Description

一种面向超级计算机数据并行应用的异构感知数据划分方法

技术领域

本发明属于计算机系统结构中的高性能计算领域，特别涉及一种面向超级计算机数据并行应用的异构感知数据划分方法。

背景技术

数据并行应用是指把数据划分成若干块分别映像到不同的处理器上，每一台处理器运行同样的处理程序对所分派的数据进行处理的应用，尤其对于异构处理器来说，数据并行应用的运行性能很大程度上取决于如何将所计算的数据在不同的处理器上进行划分与映射。

由于TianHe-2A超算平台中CPU与加速器的计算性能的巨大差异，以及节点间、节点内处理器间以及处理器内的各种通信方式的巨大性能差异，使得在TianHe-2A系统中对数据并行应用做数据划分成为了对应用做性能优化的关键步骤。现有技术无法实现结合TianHe-2A体系架构与编程特点使其上的数据并行应用充分发挥TianHe-2A超算平台及其处理器强大的计算能力并且能够完美地在CPU与加速器之间保持负载均衡。

发明内容

本发明的目的在于提供一种面向超级计算机数据并行应用的异构感知数据划分方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种面向超级计算机数据并行应用的异构感知数据划分方法，包括以下步骤：

步骤1，分析数据并行应用的计算特性，获取能够代表该应用计算特征的特征程序；

步骤2，使用步骤1获得的特征程序在超级计算机上进行实际测试，给定不同的计算数据量，得出相应的计算时间开销，从而得到不同的异构处理器的计算速度与所计算数据量大小的函数关系，构建函数性能模型；

步骤3，使用步骤2获得的函数性能模型，来预测出给定拓扑条件下应用的计算开销；

步骤4，分析数据并行应用的通信特性，结合超级计算机的硬件架构特性，得到给定拓扑条件下的通信关系与通信方式；

步骤5，使用τ-Lop通信模型对数据并行应用中的通信行为进行建模，再通过给定的benchmark在超级计算机上实测出τ-Lop模型的模型参数；

步骤6，使用步骤5获得的τ-Lop模型来预测给定拓扑条件下应用的通信开销；

步骤7，在给定拓扑条件下，针对步骤3预测的计算开销与步骤6预测的通信开销，对面向超级计算机的数据并行应用的异构感知数据划分问题建立最优化模型；

步骤8，对步骤7所建立的最优化模型，构建一棵多路平衡搜索树，由于该树在结构上的特殊性，采用蒙特卡洛树搜索的方法进行最优划分方案的求解，面向超级计算机的数据并行应用的异构感知数据划分方法结束。

进一步的，在步骤1中，数据并行应用是指把数据划分成若干块分别映像到不同的处理器上，每一台处理器运行同样的处理程序对所分派的数据进行处理的应用；计算特性是指对应用程序的运行时间与所计算数据量大小的函数关系的一种抽象；特征程序是指能够代表原应用程序的计算特征，并且运行时间尽可能小的程序，为原应用程序的一次迭代。

进一步的，在步骤2中，超级计算机指的是天河二号升级系统；

在天河二号升级系统上做实际测试时包含：

4)对于天河二号升级系统单节点的硬件平台，抽象为10个处理器，包括8个由一个SN与一个专用CPU核组成的抽象处理器与2个去除专用核的CPU组成的抽象处理器；

5)对每一组计算数据量，要在不同的处理器上同时运行程序以考虑资源竞争的影响；

6)对每一组计算数据量，要反复测试直到测得的运行时间满足一定的精度条件以破除随机性的影响，展示客观规律；

函数性能模型是指一种用于描述处理器性能的计算性能模型，它将处理器的速度抽象化为一个特定于具体应用且随着计算数据量大小变化而变化的函数，利用这些处理器速度函数对给定计算量的应用做只考虑计算性能的数据划分。

进一步的，在步骤3中，拓扑条件是指对数据划分方案的一种抽象，其表示为一个长度为p的数组x＝[x₁，x₂，...，x_p]，其中x_i表示第i个处理器所分配到的数据量，数组所有元素之和等于应用程序总数据量n；给定拓扑条件下的应用计算开销是指如下公式，其中s_i(x)表示第i个处理器计算x个数据量的速度，M为速度函数自变量取值范围，t_comp为其计算开销；

subjectto x₀+x₁+…+x_p-1＝n

0≤x_i≤M，i＝0，1，…，p-1

where p，n∈Z≥0and s_i(x)∈R＞0

进一步的，在步骤4中，分析给定拓扑条件下的通信关系与通信方式是指在给定数据划分方案即x数组以后，确定要通信的两端的数据分别位于哪一节点/处理器/核上计算，从而根据硬件平台信息确定任意一对通信关系所经历的通信信道，在天河二号升级系统中，节点之间采用网络通信，节点内部CPU与SN之间采用RDMA方式通信，而处理器内部核之间采用共享内存方式通信。

进一步的，在步骤5中，τ-Lop通信模型是指用于预测并行应用的通信开销的一种通信性能模型，它对点对点通信以及集合通信都做了详细的建模，支持并发传输的建模，并且对异构系统有相应的扩展，其中点对点通信中包含了对共享内存通信、网络通信、RDMA通信以及并发通信四种方式的建模；benchmark是指基准测试程序，是用来测量性能的一系列基准程序；τ-Lop的模型参数主要包含两部分，o^c表示在通信信道c中从通信函数调用到通信开始的时间，L^c(m，τ)表示在通信信道c中τ个长度为m的数据并发传输所需要的时间，这两个参数通过在超级计算机上运行IMB基准测试程序得到。

进一步的，在步骤6中，给定拓扑条件下应用的通信开销是指如下公式，其中p表示处理器个数，xi表示第i个处理器所分配到的数据量，m_j为第j个数据块要通信的长度，c_j为第j个数据块通信所用的传输信道，t_comm为其通信开销；

subject to x₀+x₁+…+x_p-1＝n

where p，n，m，c∈Z≥0。

进一步的，在步骤7中，建立的最优化模型是指如下公式所示，其中p表示处理器个数，n表示数据总量，x_i表示第i个处理器所分配到的数据量，m_j为第j个数据块要通信的长度，c_j为第j个数据块通信所用的传输信道，s_i(x)表示第i个处理器的速度函数，速度函数自变量取值范围为0～M，D_opt为最优的划分方案，t_opt为其最优运行时间。该式子表示对于一个数据并行应用来说，优化目标是找到最优的划分方案使得应用程序的计算开销与通信开销之和最小；

subject to x₀+x₁+…+x_p-1＝n

0≤x_i≤M，i＝0，1，…，p-1

where p，m，c，n∈Z≥0and s_i(x)∈R＞0。

进一步的，在步骤8中，构建多路平衡搜索树是指对于数据划分问题的最优化模型，将其抽象为一个P层M叉的搜索树，其中P为处理器个数，M为处理器速度函数的自变量取值范围，该搜索树的每个节点表示当前还有多少数据尚未分配，搜索树的每一条边表示给当前处理器分配若干数据的操作，求解最优化模型被抽象为在搜索树中搜索最优叶子节点的模型；该树在结构上的特殊性是指该树上每一个节点的值都是当前拓扑的计算开销与通信开销之和，该搜索树为非叶子节点值均为0的搜索树；蒙特卡洛树搜索通过选择、扩展、仿真、反向传播四个步骤来构建一个原搜索树的子树，搜索出最优解。

与现有技术相比，本发明有以下技术效果：

本发明公开了一种面向超级计算机数据并行应用的异构感知数据划分方法，针对超级计算机体系结构与其编程特点，结合数据并行应用的程序特性，将函数性能模型与τ-Lop通信模型相结合，对数据划分问题进行最优化建模，并将最优化问题抽象为搜索树的搜索算法，利用强化学习中的蒙特卡洛树搜索方法快速搜索最优解，从而得出应用程序在超级计算机上的最优划分结果。此方法为针对超级计算机平台开发、移植或优化数据并行应用的开发人员提供了一种通用的数据划分方法，实现对超算平台计算资源的充分利用，减小程序计算和通信开销，提升程序性能。

附图说明

图1为本发明的流程图。

具体实施方式

以下结合附图对本发明进一步说明：

本发明提出的一种面向超级计算机数据并行应用的异构感知数据划分方法，针对超级计算机平台体系结构及其编程特性，结合数据并行应用的程序特性，对数据划分问题进行最优化建模，利用强化学习中的蒙特卡洛树搜索方法快速搜索最优解，从而得出应用程序在超算平台上的最优划分方案。

请参阅图1，一种面向超级计算机数据并行应用的异构感知数据划分方法，包括以下步骤：

步骤1，分析数据并行应用的计算特性，即应用程序的运行时间大致受哪些因素影响，哪些影响较大等，然后获取能够代表该应用计算特征的特征程序，特征程序应尽可能大使得其能完美代表原应用程序的计算特性，特征程序也应尽可能小使得其运行时间尽可能短，通常特征程序选择为原应用程序的一次迭代；

步骤2，使用步骤1获得的特征程序在超级计算机系统上进行实际测试，其中超级计算机指的是天河二号升级系统。由于TianHe-2A单节点体系结构包含2个12核的CPU和8个32核的SN，而且SN的使用需要CPU核的参与调动，因此将TianHe-2A单节点抽象为10个抽象处理器，包含8个SN+专用CPU核组成的抽象处理器以及2个8CPU核组成的抽象处理器。在TianHe-2A平台实际测试时，对每一组计算数据量，要在不同的处理器上同时运行程序，用来考虑资源竞争的影响，同时对每一组计算数据量，要反复测试直到测试得到的运行时间满足一定的精度条件，比如要在95％置信区间中达到0.05的精度，用来破除随机性的影响，从而显示出客观规律；在实际测试之后，就可以用测得的给定计算数据量下特征程序的运行时间来构造出一个抽象处理器性能与应用程序数据量之间的函数关系，从而得到函数性能模型；

步骤3，使用步骤2获得的函数性能模型，那么如果给定一个拓扑条件/数据划分方案，即一个长度为p的数组x(p为处理器个数)，其中x_i表示第i个处理器所分配到的数据量，数组所有元素之和等于应用程序总数据量n，那么就可以预测当前拓扑条件下应用的计算开销，如下公式所示，其中s_i(x)表示第i个处理器的速度函数，M为速度函数自变量取值范围，t_comp为其计算开销；

subject to x₀+x₁+…+x_p-1＝n

0≤x_i≤M，i＝0，1，…，p-1

where p，n∈Z≥0and s_i(x)∈R＞0

步骤4，分析数据并行应用的通信特性，在给定拓扑条件下，即指定划分方案数组x后，就可以确定通信的两端的数据分别位于哪一节点/处理器/核上计算，再结合TianHe-2A硬件平台特性，就可以确定任意一对通信关系所经历的通信信道，其中，节点之间采用网络通信，节点内部CPU与SN之间采用RDMA方式通信，而处理器内部核之间采用共享内存方式通信，从而就得到了给定拓扑条件下的通信关系与通信方式；

步骤5，使用τ-Lop通信模型对数据并行应用中的通信行为进行建模，这种通信模型是一种用于预测并行应用的通信开销的性能模型，它对点对点通信以及集合通信都做了详细的建模，支持并发传输的建模，并且对异构系统有相应的扩展，其中点对点通信中包含了对共享内存通信、网络通信、RDMA通信以及并发通信四种方式的建模，再通过IMB基准测试程序在TianHe-2A系统上实测出τ-Lop模型的模型参数，包含o^c与L^c(m，τ)两部分，o^c表示在通信信道c中从通信函数调用到通信开始的时间，L^c(m，τ)表示在通信信道c中τ个长度为m的数据并发传输所需要的时间；

步骤6，使用步骤5获得的τ-Lop模型来预测给定拓扑条件下应用的通信开销，如下公式所示，p表示处理器个数，x_i表示第i个处理器所分配到的数据量，m_j为第j个数据块要通信的长度，c_j为第j个数据块通信所用的传输信道，t_comm为其通信开销；

subject to x₀+x₁+…+x_p-1＝n

where p，n，m，c∈Z≥0

步骤7，在给定拓扑条件下，针对步骤3预测的计算开销与步骤6预测的通信开销，对基于TianHe-2A系统的数据并行应用的数据划分问题建立最优化模型，模型如下公式所示，其中p表示处理器个数，n表示数据总量，x_i表示第i个处理器所分配到的数据量，m_j为第j个数据块要通信的长度，c_j为第j个数据块通信所用的传输信道，s_i(x)表示第i个处理器的速度函数，速度函数自变量取值范围为0～M，D_opt为最优的划分方案，t_opt为其最优运行时间。该式子表示对于一个数据并行应用来说，优化目标是找到最优的划分方案使得应用程序的计算开销与通信开销之和最小。

subject to x₀+x₁+…+x_p-1＝n

0≤x_i≤M，i＝0，1，…，p-1

where p，m，c，n∈Z≥0and s_i(x)∈R＞0

步骤8，对步骤7所建立的最优化模型，将其抽象成一棵多路平衡搜索树，该树共p层M叉，其中P为处理器个数，M为处理器速度函数的自变量取值范围，该搜索树的每个节点表示当前还有多少数据尚未分配，搜索树的每一条边表示给当前处理器分配若干数据的操作，求解最优化模型被抽象为在搜索树中搜索最优叶子节点的模型；由于该树在结构上的特殊性，即该树上每一个节点的值都是当前拓扑的计算开销与通信开销之和，由于最终拓扑的确定是预测通信开销的必要条件，因此该搜索树中非叶子节点的值是不可确定的，也就是说该搜索树为非叶子节点值均为0的搜索树，因此该搜索树需采用强化学习方法求解，同时由于该树的搜索空间极大(M^P)，而可行解空间极度稀疏，因此采用蒙特卡洛树搜索的方法进行最优划分方案的求解；蒙特卡洛树搜索是指一种启发式搜索算法，通过选择、扩展、仿真、反向传播四个步骤来构建一个原搜索树的子树，从而快速搜索出最优解，需要说明的是，搜索出的解一般是局部最优解，因此求解时需要指定最大迭代步数或者最长计算时间，从而搜索出在指定条件下的最优划分方案。

完成以上步骤之后就得到了当前数据并行应用的最优划分方案，后续可以根据该划分方案进行应用的配置。至此，面向超级计算机的数据并行应用的异构感知数据划分方法结束。

Claims

1.一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤1中，数据并行应用是指把数据划分成若干块分别映像到不同的处理器上，每一台处理器运行同样的处理程序对所分派的数据进行处理的应用；计算特性是指对应用程序的运行时间与所计算数据量大小的函数关系的一种抽象；特征程序是指能够代表原应用程序的计算特征，并且运行时间尽可能小的程序，为原应用程序的一次迭代。

3.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤2中，超级计算机指的是天河二号升级系统；

在天河二号升级系统上做实际测试时包含：

1)对于天河二号升级系统单节点的硬件平台，抽象为10个处理器，包括8个由一个SN与一个专用CPU核组成的抽象处理器与2个去除专用核的CPU组成的抽象处理器；

2)对每一组计算数据量，要在不同的处理器上同时运行程序以考虑资源竞争的影响；

3)对每一组计算数据量，要反复测试直到测得的运行时间满足一定的精度条件以破除随机性的影响，展示客观规律；

4.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤3中，拓扑条件是指对数据划分方案的一种抽象，其表示为一个长度为p的数组x＝[x₁,x₂,…,x_p]，其中x_i表示第i个处理器所分配到的数据量，数组所有元素之和等于应用程序总数据量n；给定拓扑条件下的应用计算开销是指如下公式，其中s_i(x)表示第i个处理器计算x个数据量的速度，M为速度函数自变量取值范围，t_comp为其计算开销；

subject to x₀+x₁+…+x_p-1＝n

0≤x_i≤M,i＝0,1,…,p-1

where p,n∈Z≥0 and s_i(x)∈R>0

5.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤4中，分析给定拓扑条件下的通信关系与通信方式是指在给定数据划分方案即x数组以后，确定要通信的两端的数据分别位于哪一节点/处理器/核上计算，从而根据硬件平台信息确定任意一对通信关系所经历的通信信道，在天河二号升级系统中，节点之间采用网络通信，节点内部CPU与SN之间采用RDMA方式通信，而处理器内部核之间采用共享内存方式通信。

6.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤5中，τ-Lop通信模型是指用于预测并行应用的通信开销的一种通信性能模型，它对点对点通信以及集合通信都做了详细的建模，支持并发传输的建模，并且对异构系统有相应的扩展，其中点对点通信中包含了对共享内存通信、网络通信、RDMA通信以及并发通信四种方式的建模；benchmark是指基准测试程序，是用来测量性能的一系列基准程序；τ-Lop的模型参数主要包含两部分，o^c表示在通信信道c中从通信函数调用到通信开始的时间，L^c(m,τ)表示在通信信道c中τ个长度为m的数据并发传输所需要的时间，这两个参数通过在超级计算机上运行IMB基准测试程序得到。

7.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤6中，给定拓扑条件下应用的通信开销是指如下公式，其中p表示处理器个数，x_i表示第i个处理器所分配到的数据量，m_j为第j个数据块要通信的长度，c_j为第j个数据块通信所用的传输信道，t_comm为其通信开销；

subject to x₀+x₁+…+x_p-1＝n

where p,n,m,c∈Z≥0。

8.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤7中，建立的最优化模型是指如下公式所示，其中p表示处理器个数，n表示数据总量，x_i表示第i个处理器所分配到的数据量，m_j为第j个数据块要通信的长度，c_j为第j个数据块通信所用的传输信道，s_i(x)表示第i个处理器的速度函数，速度函数自变量取值范围为0～M，D_opt为最优的划分方案，t_opt为其最优运行时间；该式子表示对于一个数据并行应用来说，优化目标是找到最优的划分方案使得应用程序的计算开销与通信开销之和最小；

subject to x₀+x₁+…+x_p-1＝n

0≤x_i≤M,i＝0,1,…,p-1

where p,m,c,n∈Z≥0 and s_i(x)∈R>0。

9.根据权利要求1所述的一种面向超级计算机数据并行应用的异构感知数据划分方法，其特征在于，在步骤8中，构建多路平衡搜索树是指对于数据划分问题的最优化模型，将其抽象为一个P层M叉的搜索树，其中P为处理器个数，M为处理器速度函数的自变量取值范围，该搜索树的每个节点表示当前还有多少数据尚未分配，搜索树的每一条边表示给当前处理器分配若干数据的操作，求解最优化模型被抽象为在搜索树中搜索最优叶子节点的模型；该树在结构上的特殊性是指该树上每一个节点的值都是当前拓扑的计算开销与通信开销之和，该搜索树为非叶子节点值均为0的搜索树；蒙特卡洛树搜索通过选择、扩展、仿真、反向传播四个步骤来构建一个原搜索树的子树，搜索出最优解。