CN103019852B

CN103019852B - 一种适用于大规模集群的mpi并行程序负载问题三维可视化分析方法

Info

Publication number: CN103019852B
Application number: CN201210459069.1A
Authority: CN
Inventors: 李云春; 黎洪达; 李巍; 李允�
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2015-11-11
Anticipated expiration: 2032-11-14
Also published as: CN103019852A

Abstract

本发明公开了适用于大规模集群的MPI并行程序负载问题三维可视化分析方法，该方法首先对并行程序中的轮廓日志调用路径函数进行过滤，然后建立两级函数分组树形模型，再统计从叶节点向根节点统计每个进程的每个函数分组的总运行时间；从叶节点向根节点计算各个子节点与其父亲节点的负载相似度；根据计算出的总运行时间和负载相似度的结果，生成函数分组的三维柱状图。本发明的方法实现了按照两级函数分组树形模型，逐层分析，快速定位存在负载问题的函数。

Description

一种适用于大规模集群的MPI并行程序负载问题三维可视化分析方法

技术领域

本发明涉及一种适用于大规模集群的负载问题的定位方法，更特别地说，是指一种采用三维可视化分析方法对大规模集群的MPI并行程序负载问题进行定位处理。

背景技术

大规模集群是指CPU核心数超过1000以上的分布式计算机系统。随着大规模集群的不断涌现和并行应用的快速发展，对大规模并行程序的设计也提出了更高的要求。大规模并行程序，并行运行在一千个以上节点的并行系统上，执行过程复杂以及具有不可预见性，使得并行程序的实际性能与预期的性能往往有很大的差距，而并行计算的目的就是获得比程序串行执行更好的程序性能，如何充分发挥高性能计算机系统的效能，是并行程序设计者必须要考虑的事情。并行程序的执行与并行计算环境的各个组成部分，并行程序本身的设计以及它们之间的匹配程度，包括硬件体系结构、操作系统、程序设计语言、编译器、程序算法、消息传递库等各种要素的交互影响，使得获得好的并行计算性能成为程序设计者所面临的巨大的挑战。程序执行过程中的负载不平衡问题严重影响并行程序的执行性能，影响高性能计算机系统的效能发挥。

负载平衡是指在并行系统中使各个节点尽量均衡地分配工作任务的技术，通过在处理机之间均衡地、合理地分配任务，以获得最大可能的执行速度。在大规模集群（clusters）系统中，一个大任务通常被划分为不同的子任务，而后被分配到每个处理器节点并行执行。考虑到硬件性能、网络带宽、CPU利用率和内存利用率等方面的问题，程序在执行过程中，可能出现一些进程较早完成某阶段任务而处于空闲等待状态，而另外一些进程则需要很长时间才能完成所分配的任务。这就产生了负载不平衡现象，从而造成执行程序的总进程时间的延长（总进程时间记为T_total）。

负载不平衡IB主要表现在执行程序的各个进程时间上的开销，则某一个进程的总进程时间（ID表示进程的标识）的开销表达为其中表示进程间通信的时间开销，表示进程用于计算的时间开销，表示进程用于处理输入输出的时间开销。

MPI（MessagePassingInterface）并行程序依据进程间的通信分为阻塞通信BC、非阻塞通信NBC、集合通信COC及单边通信OSC；MPI并行程序依据输入输出分为阻塞读BR、非阻塞读NBR、阻塞写BW及非阻塞写NBW。所述阻塞通信BC是指进程调用阻塞通信函数后，一直等到接收方成功接收消息，通信操作完全结束才返回。所述非阻塞通信NBC是指不必等待通信操作完全完成便可以返回，该通信操作可以交给特定的通信硬件去完成，在该通信硬件完成该通信操作的同时，处理机可以同时进行计算操作，实现计算和通信的重叠。所述阻塞通信BC和非阻塞通信NBC都是一对一的通信。所述集合通信COC是指特定的组内的所有进程参加通信，涉及多个发送方或者多个接收方，形成一对多、多对一或者多对多的通信方式。所述单边通信OSC，也称远程存储访问，即直接对非本地的存储空间进行访问，它的最大特点是无需对方进程的参与通信。所述阻塞读BR是指进程调用阻塞读函数后，一直等到读操作完全结束才返回。所述非阻塞读NBR是指不必等待读操作完全完成便可以返回，该读操作可以交给特定的硬件去完成，在该硬件完成该读操作的同时，处理机可以同时进行计算操作，实现计算和输入输出的重叠。所述阻塞写BW是指进程调用阻塞写函数后，一直等到写操作完全结束才返回。所述非阻塞写NBW是指不必等待写操作完全完成便可以返回，该写操作可以交给特定的硬件去完成，在该硬件完成该写操作的同时，处理机可以同时进行计算操作，实现计算和输入输出的重叠。

为了实现MPI并行程序的负载平衡，在MPI并行程序设计时，需要性能分析工具，辅助程序设计者了解并行程序执行行为，定位负载问题所在，从而优化程序，使得每个进程所分配的任务能在大致相同的进程时间内完成，达到负载平衡，提高MPI并行程序的运行效率。

目前，性能分析工具一般采用数据挖掘技术，并结合调用图、柱状图、堆栈条形图等多种二维图示方法，向用户展示MPI并行程序性能数据。但二维图形内容只有水平的X轴与垂直的Y轴，因此显示的内容有限，且不能较好的展示性能数据的分布特征和相互间的关系。

发明内容

本发明的目的是提供一种大规模并行程序负载问题三维可视化分析方法，对并行程序的轮廓数据进行函数过滤，建立两级函数分组，统计各级分组的时间开销，计算子分组和父亲分组的负载相似度，以三维图形的方式向用户展示并行程序的计算结果，帮助用户快速准确定位并行程序的负载问题。

本发明是一种适用于大规模集群的MPI并行程序负载问题三维可视化分析方法，其特征在于：该方法包括有下列步骤：

第一步：函数过滤

过滤除去大规模MPI并行程序轮廓日志中的调用路径函数CPF以及过小函数MITF，得到大规模MPI并行程序的轮廓日志数据中的有效函数VF；

第二步：构建函数两级分组

第201步：将MPI并行程序中所有进程P作为树形结构中的根节点FR；

第202步：对所有进程P的有效函数VF进行一级函数分组，获得根节点FR下一层节点，即第一层子节点ACH；

第203步：对所有进程P的有效函数VF进行二级函数分组，获得根节点FR再一层节点，即第二层子节点BCH；

第204步：依据二级函数分组中的对象对所有进程P的有效函数VF进行分组，得到树形结构的叶节点CL；

采用树形结构对所述的有效函数VF进行两级函数分组，得到有效函数VF的分组树形结构；

第三步：函数时间统计

函数时间统计是从叶节点CL向根节点统计每个进程的每个函数分组的总运行时间；

第四步：获取负载相似度

负载相似度的获取是从叶节点CL向根节点计算各个子节点与其父亲节点的负载相似度。

第五步：图形生成

根据计算出的总运行时间和负载相似度的结果，生成函数分组的三维柱状图。

本发明针对大规模集群的MPI并行程序负载问题三维可视化分析方法的优点在于：

①通过过滤调用路径函数以及独占运行时间过小的函数，减少了用于大规模并行程序性能分析的数据量。

②通过对函数进行两级分组和负载相似度分析，能够快速定位并行程序的负载问题。

③通过提供三维可视化方式，从多个角度去展示性能数据，帮助用户直观、快速掌握并行程序负载情况。

附图说明

图1是本发明适用于大规模集群的MPI并行程序中负载问题的三维可视化分析的示意图。

图2是一个MPI并行程序中所有进程P的有效函数VF的两级分组的树形结构图。

图3是本发明MPI并行程序独占时间开销的三维柱状图。

具体实施方式

下面将结合附图对本发明做进一步的详细说明。

本发明是以一个典型的矩阵乘MPI（MessagePassingInterface）并行程序Cannon（为人名，译为加农）为例，对本发明方法进行具体说明。其中，使用开源工具TAU（TuningandAnalysisUtilities，译文调优和分析工具）完成对Cannon的插桩，通过PBS（PortableBatchSystem，译文为任务调度管理系统）脚本提交作业，获取性能数据。参见图1所示，本发明是一种适用于大规模集群的MPI并行程序中负载问题的三维可视化分析方法，该方法包括有下列步骤：

第一步：函数过滤

过滤除去大规模MPI并行程序轮廓日志中的调用路径函数CPF以及独占运行时间过小的函数MITF（简称为过小函数MITF），得到大规模MPI并行程序的轮廓日志数据中的有效函数VF；

在本发明中，采用调用栈的方式识别调用路径，从而过滤除去所述调用路径函数CPF。

在本发明中，过滤除去所述过小函数MITF采用了时间阈值方式，所述时间阈值一般设为1～10毫秒。

第二步：构建函数两级分组

第204步：依据二级函数分组中的对象对所有进程P的有效函数VF进行分组，得到树形结构的叶节点CL。

在本发明中，第二步骤采用树形结构对所述的有效函数VF进行两级函数分组，得到有效函数VF的分组树形结构。

在本发明中，树形结构采用清华大学出版社于1992年6月出版的《数据结构》第二版；作者严蔚敏，吴伟民；第六章树和二叉树，第6.1节树的结构定义和基本操作中的图6.1树的示例。

参见图2所示，一个MPI并行程序中所有进程P的有效函数VF的两级分组的树形结构。

图中，根节点为MPI并行程序中所有进程P，第一层子节点ACH包括有通信分组COMM、计算分组CAL和输入输出分组IO。第二层子节点BCH包括有阻塞通信BC、非阻塞通信NBC、集合通信COC、单边通信OSC、阻塞读BR、非阻塞读NBR、阻塞写BW、非阻塞写NBW、以及计算二级分组UD；叶节点CL包括有所述阻塞通信BC的阻塞通信库函数

AA = {A_{1}^{BC}, A_{2}^{BC}, \cdot \cdot \cdot, A_{a}^{BC}};

同理可得：

所述非阻塞通信NBC的非阻塞通信库函数

BB = {B_{1}^{NBC}, B_{2}^{NBC}, \cdot \cdot \cdot, B_{b}^{NBC}};

所述集合通信COC的集合通信库函数

所述单边通信OSC的单边通信库函数

所述阻塞读BR的阻塞读库函数

所述非阻塞读NBR的非阻塞读库函数

所述阻塞写BW的阻塞写库函数

所述非阻塞写NBW的非阻塞写库函数

所述计算二级分组UD的用户自定义函数

所述阻塞通信库函数是指MPI并行程序中的具有阻塞通信特征的库函数，表示MPI并行程序中具有阻塞通信特征的第一个库函数，表示MPI并行程序中具有阻塞通信特征的第二个库函数，表示MPI并行程序中具有阻塞通信特征的第a个库函数，也称为任意一个MPI并行程序中具有阻塞通信特征的库函数。

所述非阻塞通信库函数是指MPI并行程序中的具有非阻塞通信特征的库函数，表示MPI并行程序中具有非阻塞通信特征的第一个库函数，表示MPI并行程序中具有非阻塞通信特征的第二个库函数，表示MPI并行程序中具有非阻塞通信特征的第b个库函数，也称为任意一个MPI并行程序中具有非阻塞通信特征的库函数。

所述单边通信库函数是指MPI并行程序中的具有单边通信特征的库函数，表示MPI并行程序中具有单边通信特征的第一个库函数，表示MPI并行程序中具有单边通信特征的第二个库函数，表示MPI并行程序中具有单边通信特征的第d个库函数，也称为任意一个MPI并行程序中具有单边通信特征的库函数。

所述阻塞读库函数是指MPI并行程序中的具有阻塞读特征的库函数，表示MPI并行程序中具有阻塞读特征的第一个库函数，表示MPI并行程序中具有阻塞读特征的第二个库函数，表示MPI并行程序中具有阻塞读特征的第e个库函数，也称为任意一个MPI并行程序中具有阻塞读特征的库函数。

所述非阻塞读库函数是指MPI并行程序中的具有非阻塞读特征的库函数，表示MPI并行程序中具有非阻塞读特征的第一个库函数，表示MPI并行程序中具有非阻塞读特征的第二个库函数，表示MPI并行程序中具有非阻塞读特征的第f个库函数，也称为任意一个MPI并行程序中具有非阻塞读特征的库函数。

所述阻塞写库函数是指MPI并行程序中的具有阻塞写特征的库函数，表示MPI并行程序中具有阻塞写特征的第一个库函数，表示MPI并行程序中具有阻塞写特征的第二个库函数，表示MPI并行程序中具有阻塞写特征的第g个库函数，也称为任意一个MPI并行程序中具有阻塞写特征的库函数。

所述非阻塞写库函数是指MPI并行程序中的具有非阻塞写特征的库函数，表示MPI并行程序中具有非阻塞写特征的第一个库函数，表示MPI并行程序中具有非阻塞写特征的第二个库函数，表示MPI并行程序中具有非阻塞写特征的第h个库函数，也称为任意一个MPI并行程序中具有非阻塞写特征的库函数。

所述用户自定义函数是用户为实现某种计算而编写的函数，可简称为计算函数，表示MPI并行程序中用户自定义的第一个计算函数，表示MPI并行程序中用户自定义的第二个计算函数，表示MPI并行程序中用户自定义的第k个计算函数，也称为任意一个MPI并行程序中用户自定义的计算函数。

第三步：函数时间统计

在本发明中，函数时间统计是从叶节点CL向根节点统计每个进程的每个函数分组的总运行时间。

所述阻塞通信库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的阻塞通信的总时间记为

所述非阻塞通信库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的非阻塞通信的总时间记为

所述集合通信库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的集合通信的总时间记为

所述单边通信库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的单边通信的总时间记为

第P个进程中的通信分组的总时间记为

所述阻塞读库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的阻塞读的总时间记为

所述非阻塞读库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的非阻塞读的总时间记为

所述阻塞写库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的阻塞写的总时间记为

所述非阻塞写库函数中的函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的非阻塞写的总时间记为

第P个进程中的输入输出分组的总时间记为

所述用户自定义函数中函数进程时间为表示第P个进程中的的运行时间，表示第P个进程中的的运行时间，表示第P个进程中的的运行时间。则第P个进程中的用户自定义函数的总时间记为

第P个进程中的计算分组的总时间记为

第P个进程中的总时间记为

在本发明中，依据函数分组，对大规模MPI并行程序轮廓日志中函数性能数据集进行独占运行时间统计。

第四步：获取负载相似度

在本发明中，负载相似度的获取是从叶节点CL向根节点计算各个子节点与其父亲节点的负载相似度。

函数与阻塞通信分组BC的负载相似度记为其中D(X)表示X的方差，max(X)表示X的最大值，min(X)表示X的最小值；

同理，函数与阻塞通信分组BC的负载相似度记为

函数与阻塞通信分组BC的负载相似度记为

函数与非阻塞通信分组NBC的负载相似度记为

函数与集合通信分组COC的负载相似度记为

函数与单边通信分组OSC的负载相似度记为

函数与阻塞读分组BR的负载相似度记为

函数与非阻塞读分组NBR的负载相似度记为

函数与阻塞写分组BW的负载相似度记为

函数与非阻塞写分组NBW的负载相似度记为

函数与计算二级分组UD的负载相似度记为

在本发明中，阻塞通信分组BC与通信分组COMM的负载相似度记为：

在本发明中，非阻塞通信分组NBC与通信分组COMM的负载相似度记为：

在本发明中，集合通信分组COC与通信分组COMM的负载相似度记为：

在本发明中，单边通信分组OSC与通信分组COMM的负载相似度记为：

在本发明中，阻塞读分组BR与输入输出分组IO的负载相似度记为：

在本发明中，非阻塞读分组NBR与输入输出分组IO的负载相似度记为：

在本发明中，阻塞写分组BW与输入输出分组IO的负载相似度记为：

在本发明中，非阻塞写分组NBW与输入输出分组IO的负载相似度记为：

在本发明中，计算二级分组UD与计算分组CAL的负载相似度记为：因为所以Sim(UD,CAL)＝1；

在本发明中，通信分组COMM与根节点FR的负载相似度记为：

在本发明中，输入输出分组IO与根节点FR的负载相似度记为：

在本发明中，计算分组CAL与根节点FR的负载相似度记为：

如图3所示，将MPI并行程序的独占时间开销的三维柱状图中可以看出，图中，X轴表示根节点FR和一级函数分组，一级函数分组按照负载相似度的由大到小排列；Y轴表示独占运行时间；Z表示各个进程（即，进程序号）。一级函数分组负载问题分析，观察根节点FR，根据不同进程（线程）的时间总开销初步判断程序负载情况，然后，根据相似度依次观察分析每个一级函数分组负载情况。如果该并行程序负载不平衡，则展开其中三维图形与根节点分组负载相似度最高的函数分组。

本发明采用三维图形方式来展示MPI并行程序的性能数据，除了有水平的X轴与垂直的Y轴外，还有进深的Z轴，它包含360度的信息，能从多个角度去展示性能数据，且三维图形的立体感、光影效果要比二维平面图形要好的多，如图3所示的三维图形，X轴表示函数，Y轴表示独占运行时间，Z表示各个进程，采用颜色过渡表示法强化时间开销差异。采用这种三维可视化的方法则可以更好的展示性能数据，为用户进行性能分析提供有效的支持。

第五步：图形生成

本发明公开的一种适用于大规模集群的MPI并行程序负载问题三维可视化分析方法，该方法首先对并行程序中的轮廓日志调用路径函数CPF进行过滤，然后建立两级函数分组树形模型，再统计从叶节点CL向根节点统计每个进程的每个函数分组的总运行时间；从叶节点CL向根节点计算各个子节点与其父亲节点的负载相似度；根据计算出的总运行时间和负载相似度的结果，生成函数分组的三维柱状图。本发明的方法实现了按照两级函数分组树形模型，逐层分析，快速定位存在负载问题的函数。

Claims

1.一种适用于大规模集群的MPI并行程序负载问题三维可视化分析方法，其特征在于：该方法包括有下列步骤：

第一步：函数过滤

第二步：构建函数两级分组

第三步：函数时间统计

第四步：获取负载相似度

负载相似度的获取是从叶节点CL向根节点计算各个子节点与其父亲节点的负载相似度；

第五步：图形生成

2.根据权利要求1所述的适用于大规模集群的MPI并行程序负载问题三维可视化分析方法，其特征在于：第一步中采用了调用栈的方式识别调用路径，从而过滤除去所述调用路径函数CPF。

3.根据权利要求1所述的适用于大规模集群的MPI并行程序负载问题三维可视化分析方法，其特征在于：第一步中过滤除去所述过小函数MITF采用了时间阈值方式，所述时间阈值设为1～10毫秒。