CN111813626A

CN111813626A - 一种高性能计算应用的性能监测系统

Info

Publication number: CN111813626A
Application number: CN202010633496.1A
Authority: CN
Inventors: 冯景华; 刘光明; 李宇奇; 谭昕雨; 徐斌; 张健
Original assignee: National Supercomputer Center In Tianjin
Current assignee: National Supercomputer Center In Tianjin
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-23

Abstract

本发明涉及一种高性能计算应用的性能监测系统，包括：数据采集客户端，用于实时采集一个或多个集群上的高性能计算应用的性能指标数据；数据收集服务器，用于从数据采集客户端获取所述性能指标数据，并存储至数据存储服务器中；数据存储服务器，用于存储所述性能指标数据；作业信息获取模块，部署在每一集群的边界节点上，用于获取一个或多个待监测作业的作业信息，并根据所述作业信息从所述数据存储服务器中获取待监测作业对应的目标性能指标数据；监测结果确定模块，用于基于待监测作业对应的目标性能指标数据，确定单个作业的监测结果，或者确定多个作业的监测结果。本发明能够实时监测相同或不同集群上的单个或多个高性能计算应用的性能。

Description

一种高性能计算应用的性能监测系统

技术领域

本发明涉及高性能计算技术领域，尤其涉及一种高性能计算应用的性能监测系统。

背景技术

作为数据中心的传统技术，高性能计算技术一直以来都具有举足轻重地位。高性能计算应用的发展很大程度上决定了一个国家在高性能计算的领域的发展高度。如何监测高性能计算应用，来确定一个高性能计算应用是否适合当前高性能计算集群，以及是否能够效率最大化的利用当前平台，是高性能计算领域重要的技术问题，也是高性能计算集群运维人员、应用推广人员以及普通用户所关注的。

现有的高性能计算应用的性能监测技术层出不穷，现有的性能监控和调优软件从应用软件层面上对高性能计算应用本身进行性能监控，通过使用这些软件可以监测高性能计算应用在计算集群上的使用效率。但是，这些软件使用起来颇为不便，需要使用人员具有较高的专业度以及对应用代码足够了解，且使用者需要手动插桩或者编译后动态调用，同时，该类软件通常不具备实时监测的功能，即无法在高性能计算应用运行的过程中对软件性能进行检测并展示，需要等待计算应用计算完成后，才可以监测到应用在运行过程中的状态。此外，现有技术仅能监测单个的高性能计算应用，且不能实现在跨集群的高性能计算应用性能监测。

发明内容

本发明目的在于，提供一种高性能计算应用的性能监测系统，能够实时监测相同或不同集群上的单个或多个高性能计算应用的性能。

本发明提供了一种高性能计算应用的性能监测系统，包括：

数据采集客户端，用于实时采集一个或多个集群上的高性能计算应用的性能指标数据；

数据收集服务器，用于从所述数据采集客户端获取所述性能指标数据，并存储至数据存储服务器中；

数据存储服务器，用于存储所述性能指标数据；

作业信息获取模块，部署在每一所述集群的边界节点上，用于获取一个或多个待监测作业的作业信息，并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据，其中，所述作业是指应用运行的一次过程，每一所述作业由对应集群中的多个节点执行，所述作业信息包括作业id、作业对应的集群id，作业对应的应用信息、作业的起始时间信息；

监测结果确定模块，用于基于所述待监测作业对应的目标性能指标数据，确定单个作业的监测结果，或者确定多个作业的监测结果，所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。

进一步的，所述数据采集客户端以毫秒级随机时间间隔采集数据，所述数据收集服务器以预设的时间间隔访问所述数据采集客户端的数据接口，获取所述性能指标数据。

进一步的，所述数据存储服务器采用三级存储方式来存储所述性能指标数据，包括：

第一数据存储单元，设置在所述数据收集服务器内存中，用于存储第一预设时间内的性能指标数据；

第二数据存储单元，部署在近端，用于存储大于所述第一预设时间小于第二预设时间内的性能指标数据；

第三数据存储单元，部署在远端，用于存储超过所述第二预设时间内的性能指标数据。

进一步的，所述第一数据存储单元、第二数据存储单元和第三数据存储单元均为以时序数据的形式存储所述性能数据。

进一步的，所述性能指标数据包括：系统指标数据、物理参数指标数据、计算指标数据和文件系统指标数据。

进一步的，所述监测结果确定模块包括第一性能监测单元，用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果，具体采用改进多层级roofline折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果。

进一步的，当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时，具体用于：

分别采用算力与访存带宽和算力与文件系统访问带宽的关系对单个作业进行监测，设定算力为π，访存带宽为β，访问带宽为γ，则访存计算强度上限为：

文件系统计算强度上限为：

当

小于访存计算强度上限I_mmax时，则判断所述访存带宽导致的应用性能受限；

当

小于文件系统计算强度上限I_fmax时，则判断所述访问带宽导致的应用性能受限；

当

大于等于访存计算强度上限I_mmax时，则判断所述算力导致应用性能受限；

当

大于等于文件系统计算强度上限I_fmax时，则判断所述算力导致应用性能受限。

进一步的，所述监测结果确定模块包括第二性能监测单元，用于基于多个待监测作业对应的目标性能指标数据确定所述多个作业的监测结果，具体包括：

根据所需对比的参数，获取每一作业的每一目标性能数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数中的至少一个，其中：

在每一作业运行时间段内，设定Metric为指标名称变量，n为节点名称变量，d_y为某个时间点的指标数据，每个节点的某一个指标的指标集记为Metric_n＝{d₁,d₂,d_3,d₄.....d_y-3,d_y-2,d_y-1,d_y}，一个作业包含一或多个节点的指标数据，设定job为作业id，cluster为集群id，则每个作业的某个指标的指标集则记为：

第一对比参数的计算公式为：

minvalue＝min(Metric_{cluster_job})；

其中，min表示计算一组数据最小值；

第二对比参数的计算公式为：

maxvalue＝max(Metric_{cluster_job})；

其中，max表示计算一组数据最大值；

第三对比参数的计算公式为：

其中，len表示求一组数据的长度；

第四对比参数的计算公式为：

其中，avg表示avgvalue的简称；

将所有待监测作业对应的目标性能指标数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数进行综合对比，确定资源利用率最高的应用。

进一步的，所述系统还包括前端模块，用于获取用户输入的作业id和集群id，并根据所述用户输入的作业id和集群id确定目标作业。

进一步的，所述前端模块还用于输出和显示监测结果。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种高性能计算应用的性能监测系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明既可以监测单个作业，观测该作业的实时运行状态，监测运行中和运行结束的作业，分析作业性能情况和故障原因。又可以选择监测多个作业，观测多个作业的运行情况对比，还可以实现用户在可视化平台上直接选择需要监测的高性能计算作业，帮助用户在不同参数和不同集群之间进行合适的选择。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供的高性能计算应用的性能监测系统示意图；

图2为本发明另一实施例提供的高性能计算应用的性能监测系统示意图。

【符号说明】

1：数据采集客户端 2：数据收集服务器

3：数据存储服务器 4：作业信息获取模块

5：监测结果确定模块 6：前端模块

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种高性能计算应用的性能监测系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种高性能计算应用的性能监测系统，如图1所示，包括数据采集客户端1、数据收集服务器2、数据存储服务器3、作业信息获取模块4和监测结果确定模块5，其中，数据采集客户端1用于实时采集一个或多个集群上的高性能计算应用的性能指标数据。数据收集服务器2用于从所述数据采集客户端1获取所述性能指标数据，并存储至数据存储服务器3中。数据存储服务器3用于存储所述性能指标数据。作业信息获取模块4部署在每一所述集群的边界节点上，用于获取一个或多个待监测作业的作业信息，并根据所述作业信息从所述数据存储服务器3中获取所述待监测作业对应的目标性能指标数据，其中，所述作业是指应用运行的一次过程，每一所述作业由对应集群中的多个节点执行，所述作业信息包括作业id、作业对应的集群id，作业对应的应用信息、作业的起始时间信息等。监测结果确定模块5用于基于所述待监测作业对应的目标性能指标数据，确定单个作业的监测结果，或者确定多个作业的监测结果，所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业等。

作为一种示例，所述系统还包括前端模块6，如图2所示，用于获取用户输入的作业id和集群id，并根据所述用户输入的作业id和集群id确定目标作业，可以理解的是，作业id和集群id的集合索引可以唯一确定一个作业，运维人员、普通用户可以根据作业id和集群id选择单个或者多个不同作业进入到功能界面，如果需要查询历史作业的监控记录，则可通过表单输入需要查询的作业id和集群id。所述前端模块6还用于输出和显示监测结果。这样可以使用户在可视化平台上直接选择需要监测的高性能计算作业，如果选择监测单个作业，则可以观测该作业的实时运行状态，可监测运行中和运行结束的作业，分析作业性能情况和故障原因。如果选择监测多个作业，则可以观测多个作业的运行情况对比，帮助用户在不同参数和不同集群之间进行合适的选择。

作为一种示例，所述数据采集客户端1以毫秒级随机时间间隔采集数据，可以有效提高数据采样效率，其中时间间隔可以是固定的或非固定的。所述数据收集服务器2以预设的时间间隔访问所述数据采集客户端1的数据接口，获取所述性能指标数据，预设的时间间隔可以根据用户具体的监测需求来定。

作为一种示例，所述性能指标数据包括：系统指标数据、物理参数指标数据、计算指标数据和文件系统指标数据，每一类数据具体包括的参数如表1所示：

表1

为了提高数据查询效率，作为一种示例，所述数据存储服务器3采用三级存储方式来存储所述性能指标数据，包括第一数据存储单元、第二数据存储单元和第三数据存储单元，所述第一数据存储单元设置在所述数据收集服务器2内存中，用于存储第一预设时间内的性能指标数据，例如存储近一个小时内的近端热数据。第二数据存储单元，部署在近端，用于存储大于所述第一预设时间小于第二预设时间内的性能指标数据，例如存储产生超过一小时小于十天的近端冷数据。第三数据存储单元部署在远端，用于存储超过所述第二预设时间内的性能指标数据，例如存储超过10天的远端冷数据。用户查询数据首先通过近端热数据进行查询，如超过时间，则查询近端冷数据，最后查询远端数据库。所述第一数据存储单元、第二数据存储单元和第三数据存储单元均为以时序数据的形式存储所述性能数据，时序数据是指时间序列数据，时间序列数据是同一统一指标按时间顺序记录的数据列。

作为示例，所述监测结果确定模块5包括第一性能监测单元，当选择监测单个作业时，用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果，具体可采用改进多层级屋顶(roofline)折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果，可供用户观察作业不同节点之间的运行情况和目标作业的资源利用率，通过时序数据识别作业分配内存的时间段、I/O读写的时间段以及大量网络请求的时间段，还可以帮助运维人员和用户更好地了解作业情况，有的放矢的去进行调优。

以下通过几个示例对第一性能监测单元监测单个作业的过程进行说明：

实施例一、

原生roofline模型只考虑了算力与访存带宽的关系，但是在计算平台中，存储是多层级的，因此本发明实施例采用改进的多层级roofline折线图来监测应用，当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时，具体用于：

文件系统计算强度上限为：

当

当

当

当

第一性能监测单元采用改进多层级roofline折线图监测单个作业，可以判断产生应用性能的瓶颈。

实施例二、

当第一性能监测单元采用雷达图监测单个作业时，雷达图可设置为六维雷达图，维度可分别设置为CPU利用率、浮点数计算速度、IO读写速度、网络读写速度、IO读写次数和内存利用率。外围为系统各相应指标的峰值，IO读写次数的外圈极值等于IO带宽极值。内圈为作业所有节点在作业开始到监测时间之间的均值，通过均值对于峰值的比例，可以判断出该应用是否还有优化的空间，例如，网络带宽峰值为100M/s，而内圈的均值仅为20M/s，则在网络利用率方面，该应用还可以加强。整体上，计算每一个维度与上限的比例，得到百分比数值，计算六个维度的均值，得到系统资源利用率的均值，作为总计通过功能站前端将结果返回给用户参考。

实施例三、

当第一性能监测单元采用时序图监测单个作业时，可获取作业相关节点的所有采集指标的时序图，最终可通过可视化界面展示，用户通过可视化界面可以直观看到资源分配是否均衡，例如，时序图会把所有节点的CPU利用率利用时序的方式展示出来，理论上，如果资源均衡，则所有节点的CPU利用率会是比较接近的，但是在资源分配不均衡的情况下，某些节点的CPU利用率则会明显低于其他节点，在这种情况下，需要去查看低利用率节点的具体运行状态。系统后台计算以指标为单位在同一时间点在所有节点的均值，并标记出低于均值20％的指标点。

实施例四、

当第一性能监测单元采用节点热力图监测单个作业时，可通过节点热力图展示作业运行过程中的节点负载情况，节点图标上以具体数值展示负载情况，并以颜色波谱展示数值选择段，负载越高，颜色越深。如果用户查看的是正在运行的作业，则节点热力图展示了当前作业所占用节点的实时负载情况，负载越高的节点颜色越深，如果用户查看的是已经结束的作业，则节点热力图展示的是作业运行过程中，所占用节点的平均负载。如果用户对某个节点的运行状态表示疑问，则可以通过节点热力图，进入到该节点状态页面中，可以查看该节点中所有采集到的指标在作业全周期的指标数据，以及节点的系统日志。结合以上数据，可以查找到问题根源。

本发明实施例所述系统不仅可以监测单个作业，还可同时监测多个作业，作为一种示例，所述监测结果确定模块5包括第二性能监测单元，当选择监测多个作业时，用于基于多个待监测作业对应的目标性能指标数据确定所述多个作业的监测结果，具体包括：

第一对比参数的计算公式为：

minvalue＝min(Metric_{cluster_job})；

其中，min表示计算一组数据最小值；

第二对比参数的计算公式为：

maxvalue＝max(Metric_{cluster_job})；

其中，max表示计算一组数据最大值；

第三对比参数的计算公式为：

其中，len表示求一组数据的长度；

第四对比参数的计算公式为：

其中，avg表示avgvalue的简称。

将所有待监测作业对应的目标性能指标数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数进行综合对比，确定资源利用率最高的应用。本示例中，第一对比参数、第二对比参数、第三对比参数和第四对比参数分别为最大值、最小值、平均值和方差，可以以柱状图的形式可视化出来，用户或者运维人员通过可视化界面柱状图的形态，根据不同指标含义对比出不同作业的资源利用率和计算效率，从而可以做出合适的选择。

以下通过一具体示例来说明如何将所有待监测作业对应的目标性能指标数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数进行综合对比：

实施例五、

选定CPU利用率、网络传输速率、IO读写速率、浮点数计算次数(GFLOPS)、上下文交换次数、内存利用率、CPU温度作为评价基准数据集，基于基准数据集计算应用在不同集群的适应性，适应性最高的集群获得推荐。当选中两个作业时，设定每个作业的统计值Sjob初始为0，两个作业的指标进行比较，CPU利用率、网络传输速率、IO读写速率、GFLOPS、内存利用率进行比较时，均采用最大值、平均值和方差进行比较，数值比较大的一方Sjob加1，上下文交换次数以及CPU温度做比较值，采用均值和最小值进行比较，数值比较小的一方Sjob加一，当比较完成后，获得Sjob统计值较大的一个作业将获得推荐。设定指标数目为Nmetric,作业得分为Scorejob＝(Sjob/2*Nmetric)*100％。系统可将把各个作业的Scorejob及作业信息打印在前端可视化界面，供用户参考。

可以理解是的，当选择多个作业时，比较方法与两个作业比较时一致，不同点为当多个作业比较CPU利用率、网络传输速率、IO读写速率、GFLOPS、内存利用率的最大值、平均值和方差时，所有参与比较的作业中数值最大的一个作业Sjob加一，当上下文交换次数以及CPU温度的最小值、平均值和方差进行比较，数值最小的一个作业Sjob加一，具体过程在此不作赘述。

通过将所有待监测作业对应的目标性能指标数据对应的第一对比参数、第二对比参数、第三对比参数和第四对比参数进行综合对比，即可确定资源利用率最高的应用，用户可参考此结果选择对应的应用。

本发明实施例既可以监测单个作业，观测该作业的实时运行状态，监测运行中和运行结束的作业，分析作业性能情况和故障原因。又可以选择监测多个作业，观测多个作业的运行情况对比，还可以实现用户在可视化平台上直接选择需要监测的高性能计算作业，帮助用户在不同参数和不同集群之间进行合适的选择。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。