CN105700998A

CN105700998A - 一种对并行程序的性能进行监测分析的方法及装置

Info

Publication number: CN105700998A
Application number: CN201610022070.6A
Authority: CN
Inventors: 赵祯龙; 李瑞丰
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2016-01-13
Filing date: 2016-01-13
Publication date: 2016-06-22

Abstract

本发明公开了一种对并行程序的性能进行监测分析的方法及装置，该方法包括：对分布式并行程序的运行过程进行监测，采集所述并行程序的性能数据；将采集到的所述性能数据进行分布式存储；对所述性能数据进行分布式并行处理，得到反映所述并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的方法及装置，通过分布式存储、分布式处理的方式，避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力，改善了以往对单个单文件的处理分析方法，大大减少了网络通信量，提高了处理效率。

Description

一种对并行程序的性能进行监测分析的方法及装置

技术领域

本发明涉及高性能程序监测技术领域，特别是涉及一种对并行程序的性能进行监测分析的方法及装置。

背景技术

并行程序优化是当今分布式并行计算领域的一个重要问题。从编译角度对并行程序进行优化是一个重要的方法，但是编译时无法对程序的执行流程有一个准确的预知，例如程序的分支，以及接收用户输入的参数等。所以，程序运行时的反馈信息对并行程序优化有着关键的意义。在并行程序的监测方面已经有大量的研究成果和成熟的工具，通过插桩和库包装的方法，采集并行程序的各维度信息。

而高性能应用往往具有计算周期长、计算量大的特点。对于一个每秒百万亿次计算能力的高性能机群系统来说，一个并行任务的性能踪迹数据非常巨大。而对于这些庞大的性能数据，并不是单台物理机的存储系统能够胜任的，而且采集时性能数据本身是分布在各节点之上的，数据在汇聚时会进行大量的通信，占用网络带宽。在中小规模机群系统中可以采用1对n的通信模型，当计算规模在几十个节点以下的时候尚可以获得较好的性能，而当计算规模扩展到几百甚至几千、上万时，这样的通信模式将无法满足数据通信、数据存储、数据分析的要求。

发明内容

本发明的目的是提供一种对并行程序的性能进行监测分析的方法及装置，目的在于解决现有程序性能监测分析过程中网络通信以及分析效率较差的问题。

为解决上述技术问题，本发明提供一种对并行程序的性能进行监测分析的方法，包括：

对分布式并行程序的运行过程进行监测，采集所述并行程序的性能数据；

将采集到的所述性能数据进行分布式存储；

对所述性能数据进行分布式并行处理，得到反映所述并行程序的性能的分析结果信息。

可选地，所述采集所述并行程序的性能数据包括：

采集所述并行程序的各维度信息作为所述性能参数，所述维度信息包括：函数的执行时间、程序的硬件技术接口以及系统的程序信息。

可选地，所述将采集到的所述性能数据进行分布式存储包括：

每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中。

可选地，所述对所述性能数据进行分布式并行处理包括：

计算节点利用MapReduce模型对所述性能数据进行分布式并行处理。

可选地，还包括：

对所述分析结果信息进行可视化显示。

本发明还提供了一种对并行程序的性能进行监测分析的装置，包括：

采集模块，用于对分布式并行程序的运行过程进行监测，采集所述并行程序的性能数据；

存储模块，用于将采集到的所述性能数据进行分布式存储；

处理模块，用于对所述性能数据进行分布式并行处理，得到反映所述并行程序的性能的分析结果信息。

可选地，所述采集模块具体用于：

可选地，所述存储模块具体用于：

可选地，所述处理模块具体用于：

可选地，还包括：

显示模块，用于对所述分析结果信息进行可视化显示。

本发明所提供的对并行程序的性能进行监测分析的方法及装置，通过对分布式并行程序的运行过程进行监测，采集并行程序的性能数据；将采集到的性能数据进行分布式存储；对性能数据进行分布式并行处理，得到反映并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的方法及装置，通过分布式存储、分布式处理的方式，避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力，改善了以往对单个单文件的处理分析方法，大大减少了网络通信量，提高了处理效率。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的对并行程序的性能进行监测分析的方法的一种具体实施方式的流程图；

图2为本发明所提供的对并行程序的性能进行监测分析的方法的另一种具体实施方式的流程图；

图3为本发明实施例提供的对并行程序的性能进行监测分析的装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的对并行程序的性能进行监测分析的方法的一种具体实施方式的流程图如图1所示，该方法包括：

步骤S101：对分布式并行程序的运行过程进行监测，采集所述并行程序的性能数据；

步骤S102：将采集到的所述性能数据进行分布式存储；

步骤S103：对所述性能数据进行分布式并行处理，得到反映所述并行程序的性能的分析结果信息。

本发明所提供的对并行程序的性能进行监测分析的方法，通过对分布式并行程序的运行过程进行监测，采集并行程序的性能数据；将采集到的性能数据进行分布式存储；对性能数据进行分布式并行处理，得到反映并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的方法，通过分布式存储、分布式处理的方式，避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力，改善了以往对单个单文件的处理分析方法，大大减少了网络通信量，提高了处理效率。

并行编程模型多种多样，其中，MPI、OpenMP、CUDA、Hadoop是并行编程模型中的代表，本发明可用于MPI、OpenMP、CUDA、Hadoop以及几种混合模式中，这均不影响本发明的实现。具体地，本发明将并行程序性能数据多节点机分布的特点与Hadoop分布式文件系统的特点相结合，改善了性能数据汇聚环境，并利用MapReduce进行并行数据分析，剖析并行程序的行为，找出并行程序的瓶颈，最终为程序的优化提出可行的解决方案。

在上述实施例的基础上，本发明所提供的对并行程序的性能进行监测分析的方法中采集所述并行程序的性能数据的步骤可以具体为：

需要指出的是，本发明实施例中分析维度不仅限于函数的执行时间，还结合程序的硬件计数器接口(如PAPI)和系统的proc信息，可以获得如浮点指令数，L1、L2缓存命中率、分支指令数、IO数据量等重要信息，利用现有的踪迹向剖析数据转换工具可以进行多维度的统计。

利用这些数据，可以进行应用级和系统级的优化。

其中，对于应用级的优化为从应用层面寻找程序的瓶颈点，为用户编程提供优化方案。

首先，将各应用领域的benchmark(如NPB、SHOC、SPEC等)作为训练数据，统计其各维度信息，构建支持向量机。

由于各benchmark已经比较成熟，其应用背景和程序结构特点也都是已知的，可对这些benchmark进行分类。如著名的“七个小矮人”的分类方法。美国超算领域知名的数学算法专家PhillipColella在2004年提出了科学计算的七种算法模型，也被称作“七个小矮人”，包括：结构化网格、非结构化网格、快速傅里叶变换、稠密矩阵线性代数、稀疏矩阵线性代数、粒子动力学、蒙特卡洛。这些都是高性能计算领域的经典问题和算法，也是计算时的重点和难点。针对这七类问题，给出相应的优化方案。然后，用户程序运行应用程序获得相应的类别和相应的优化方案来辅助程序设计人员改进算法。

对于系统级的优化为从系统层面寻找并行计算系统的瓶颈点，辅助调试，为系统本身的优化提供方案。

通过Tracing向profiling数据的转换，可以获知函数调用中的异常信号，如最大执行时间，最高的cache缺失率等，这些异常点往往就是程序执行中的瓶颈所在。结合函数的调用关系树状结构，可以获得这些异常点的关联程度。对于SPMD编程方式的多个进程来说，它们之间的行为具有相似性。综合上述信息，可以搜索一个程序中的瓶颈。最后反馈给用户优化方案。

本发明所提供的对并行程序的性能进行监测分析的方法的另一种具体实施方式的流程图如图2所示，该方法包括：

步骤S201：对分布式并行程序的运行过程进行监测，采集所述并行程序的性能数据；

步骤S202：每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中；

在并行程序的运行过程中，对并行程序函数进行插桩，每个计算节点将采集到的性能数据存储到HDFS分布式文件系统中，可在主机本地施加缓存，进行异步的数据存储，这样能够进一步提高存储效率和性能。

步骤S203：计算节点利用MapReduce模型对所述性能数据进行分布式并行处理，得到反映所述并行程序的性能的分析结果信息。

得到分析结果信息后，将最终的分析结果存放于HDFS中，可根据需要取得。

进一步地，本发明所提供的对并行程序的性能进行监测分析的方法还可以包括：

步骤S204：对所述分析结果信息进行可视化显示。

本发明实施例基于分布式的存储和分布式处理，性能数据不需要再通过数据汇聚网进行传输，和集中式的存储和处理，大大提高了计算、存储、网络的效率。

下面对本发明实施例提供的对并行程序的性能进行监测分析的装置进行介绍，下文描述的对并行程序的性能进行监测分析的装置与上文描述的对并行程序的性能进行监测分析的方法可相互对应参照。

图3为本发明实施例提供的对并行程序的性能进行监测分析的装置的结构框图，参照图3对并行程序的性能进行监测分析的装置可以包括：

采集模块100，用于对分布式并行程序的运行过程进行监测，采集所述并行程序的性能数据；

存储模块200，用于将采集到的所述性能数据进行分布式存储；

处理模块300，用于对所述性能数据进行分布式并行处理，得到反映所述并行程序的性能的分析结果信息。

作为一种具体实施方式，本发明所提供的对并行程序的性能进行监测分析的装置中采集模块100可以具体用于：

作为一种具体实施方式，本发明所提供的对并行程序的性能进行监测分析的装置中存储模块200可以具体用于：

作为一种具体实施方式，本发明所提供的对并行程序的性能进行监测分析的装置中处理模块300可以具体用于：

作为一种具体实施方式，本发明所提供的对并行程序的性能进行监测分析的装置还可以进一步包括：

显示模块，用于对所述分析结果信息进行可视化显示

本发明所提供的对并行程序的性能进行监测分析的装置，通过对分布式并行程序的运行过程进行监测，采集并行程序的性能数据；将采集到的性能数据进行分布式存储；对性能数据进行分布式并行处理，得到反映并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的装置，通过分布式存储、分布式处理的方式，避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力，改善了以往对单个单文件的处理分析方法，大大减少了网络通信量，提高了处理效率。

综上，本发明通过分布式存储、分布式处理的方式，较传统的分散存储、汇聚、集中存储、集中处理的方式在优化网络通信和提高分析效率方面都有了很好的改进，在大规模分布式对象存储系统实践中具有很高的技术价值和实用价值。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的对并行程序的性能进行监测分析的方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种对并行程序的性能进行监测分析的方法，其特征在于，包括：

将采集到的所述性能数据进行分布式存储；

2.如权利要求1所述的对并行程序的性能进行监测分析的方法，其特征在于，所述采集所述并行程序的性能数据包括：

3.如权利要求2所述的对并行程序的性能进行监测分析的方法，其特征在于，所述将采集到的所述性能数据进行分布式存储包括：

4.如权利要求1至3任一项所述的对并行程序的性能进行监测分析的方法，其特征在于，所述对所述性能数据进行分布式并行处理包括：

5.如权利要求4所述的对并行程序的性能进行监测分析的方法，其特征在于，还包括：

对所述分析结果信息进行可视化显示。

6.一种对并行程序的性能进行监测分析的装置，其特征在于，包括：

存储模块，用于将采集到的所述性能数据进行分布式存储；

7.如权利要求6所述的对并行程序的性能进行监测分析的装置，其特征在于，所述采集模块具体用于：

8.如权利要求7所述的对并行程序的性能进行监测分析的装置，其特征在于，所述存储模块具体用于：

9.如权利要求6至8任一项所述的对并行程序的性能进行监测分析的装置，其特征在于，所述处理模块具体用于：

10.如权利要求9所述的对并行程序的性能进行监测分析的装置，其特征在于，还包括：

显示模块，用于对所述分析结果信息进行可视化显示。