CN117472697B

CN117472697B - 一种集群监控方法、装置及电子设备和存储介质

Info

Publication number: CN117472697B
Application number: CN202311804672.3A
Authority: CN
Inventors: 李龙翔; 刘羽
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-15
Anticipated expiration: 2043-12-26
Also published as: CN117472697A

Abstract

本申请公开了一种集群监控方法、装置及电子设备和存储介质，涉及计算机技术领域，该方法包括：搜索当前硬件平台支持的性能事件，获取性能事件的监控结果；根据性能事件的监控结果确定性能事件之间的相关性，并基于性能事件之间的相关性进行性能事件的分组；对性能事件组进行监控，并确定性能事件组的监控结果；根据性能事件组的监控结果确定目标性能事件组，对目标性能事件组中的性能事件进行监控。本申请通过对硬件平台进行监控准确判断硬件平台运行过程中的性能瓶颈。

Description

一种集群监控方法、装置及电子设备和存储介质

技术领域

本申请涉及计算机技术领域，更具体地说，涉及一种集群监控方法、装置及电子设备和存储介质。

背景技术

现代处理器都集成了性能计数器（PMU，Performance Monitor Unit），其能够收集应用程序、操作系统以及处理器性能信息，这些信息可以帮助确认应用程序或操作系统内热点，分析软件运行瓶颈。由于不同厂家制造处理器部件与流水线不同，PMU单元个数与支持监控性能事件也有较大差别。即使是同一厂家，在不同型号设备上支持的性能监控事件也有较大差异。

对于硬件支持的所有性能监控事件，Linux系统内并没有对应的监控说明文档，用户在使用时无法了解当前硬件所支持的所有性能事件或是每个事件所支持性能指标具体含义。对于使用者来说，在不同厂商的不同型号处理器上对软件进行性能分析时，需要参考硬件厂商提供的软件手册了解当前硬件平台支持的性能事件。这对于使用者是非常高的负担，由于不了解新平台支持的所有性能事件，用户无法确认在程序执行过程中需要监控哪些性能指标，导致无法准确判断程序在新平台运行过程中性能瓶颈。

因此，如何通过对硬件平台进行监控准确判断硬件平台运行过程中的性能瓶颈是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种集群监控方法、装置及电子设备和存储介质，通过对硬件平台进行监控准确判断硬件平台运行过程中的性能瓶颈。

为实现上述目的，本申请提供了一种集群监控方法，包括：

搜索当前硬件平台支持的性能事件，获取所述性能事件的监控结果；

根据所述性能事件的监控结果确定所述性能事件之间的相关性，并基于所述性能事件之间的相关性进行性能事件的分组；

对性能事件组进行监控，并确定所述性能事件组的监控结果；

根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控。

其中，所述获取所述性能事件的监控结果，包括：

运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。

其中，所述在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果，包括：

将所述性能事件的事件参数输入性能分析工具，以在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。

其中，所述事件参数包括事件编号、掩码编号和事件名称中任一项或任几项的组合。

其中，所述运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果，包括：

根据所述当前硬件平台的性能计数器数量确定同时监控的性能事件数量Nu；

每次运行测试软件时，利用性能分析工具监控所述测试软件运行过程中Nu个性能事件的监控结果；

运行Np/Nu次所述测试软件之后，得到所述当前硬件平台支持的性能事件的监控结果；其中，Np为所述当前硬件平台支持的性能事件的数量。

其中，所述根据所述性能事件的监控结果确定所述性能事件之间的相关性，包括：

对所述性能事件的监控结果进行归一化处理，并根据所述性能事件归一化处理后的监控结果确定所述性能事件之间的相关性。

其中，对所述性能事件的监控结果进行归一化处理，包括：

根据归一化处理公式对所述性能事件的监控结果进行归一化处理；其中，所述归一化处理公式为：，/>为第t时刻归一化处理前的监控结果，/>为第t时刻归一化处理后的监控结果。

其中，根据所述性能事件归一化处理后的监控结果确定所述性能事件之间的相关性，包括：

根据相关性计算公式确定所述性能事件之间的相关性；其中，所述相关性计算公式为：

；

其中，为性能事件X归一化处理前的监控结果序列，/>为性能事件Y归一化处理前的监控结果序列，T为时刻点总数，t为时刻编号，t=1、2、…、T，为/>傅里叶变换后频域序列，/>为/>傅里叶变换后频域序列，k=1、2、…、T，/>为频域编号，/>=1、2、…、T，/>为性能事件X与性能事件Y之间的相关性，，/>，/>为性能事件X第t时刻归一化处理后的监控结果，/>为性能事件Y第t时刻归一化处理后的监控结果，i为虚数。

其中，所述基于所述性能事件之间的相关性进行性能事件的分组，包括：

确定相关性系数最低的第一性能事件和第二性能事件，将所述第一性能事件和所述第二性能事件分别作为一级性能事件创建第一性能事件组和第二性能事件组；

根据其他性能事件与所述第一性能事件、所述第二性能事件之间的相关性系数对所述其他性能事件进行分组；其中，所述其他性能事件为除所述第一性能事件和所述第二性能事件之外的性能事件。

其中，所述根据其他性能事件与所述第一性能事件、所述第二性能事件之间的相关性系数对所述其他性能事件进行分组，包括：

判断其他性能事件与所述一级性能事件之间的相关性系数的最小值是否小于预设值；

若是，则将所述其他性能事件作为二级性能事件加入所述最小值对应的一级性能事件所属的性能事件组中；

若否，则将所述其他性能事件作为一级性能事件创建其他性能事件组。

其中，所述对性能事件组进行监控，并确定所述性能事件组的监控结果，包括：

对性能事件组中的一级性能事件进行监控，并将所述性能事件组中一级性能事件的监控结果作为所述性能事件组的监控结果。

其中，对所述目标性能事件组中的性能事件进行监控，包括：

对所述目标性能事件组中的一级性能事件和二级性能事件进行监控。

为实现上述目的，本申请提供了一种集群监控装置，包括：

搜索模块，用于搜索当前硬件平台支持的性能事件，获取所述性能事件的监控结果；

分组模块，用于根据所述性能事件的监控结果确定所述性能事件之间的相关性，并基于所述性能事件之间的相关性进行性能事件的分组；

第一监控模块，用于对性能事件组进行监控，并确定所述性能事件组的监控结果；

第二监控模块，用于根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控。

其中，所述搜索模块具体用于：运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。

其中，所述搜索模块具体用于：将所述性能事件的事件参数输入性能分析工具，以在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。

其中，所述搜索模块具体用于：根据所述当前硬件平台的性能计数器数量确定同时监控的性能事件数量Nu；每次运行测试软件时，利用性能分析工具监控所述测试软件运行过程中Nu个性能事件的监控结果；运行Np/Nu次所述测试软件之后，得到所述当前硬件平台支持的性能事件的监控结果；其中，Np为所述当前硬件平台支持的性能事件的数量。

其中，所述分组模块具体用于：对所述性能事件的监控结果进行归一化处理，并根据所述性能事件归一化处理后的监控结果确定所述性能事件之间的相关性。

其中，所述分组模块具体用于：根据归一化处理公式对所述性能事件的监控结果进行归一化处理；其中，所述归一化处理公式为：，/>为第t时刻归一化处理前的监控结果，/>为第t时刻归一化处理后的监控结果。

其中，所述分组模块具体用于：根据相关性计算公式确定所述性能事件之间的相关性；其中，所述相关性计算公式为：

；

其中，所述分组模块具体用于：确定相关性系数最低的第一性能事件和第二性能事件，将所述第一性能事件和所述第二性能事件分别作为一级性能事件创建第一性能事件组和第二性能事件组；根据其他性能事件与所述第一性能事件、所述第二性能事件之间的相关性系数对所述其他性能事件进行分组；其中，所述其他性能事件为除所述第一性能事件和所述第二性能事件之外的性能事件。

其中，所述分组模块具体用于：判断其他性能事件与所述一级性能事件之间的相关性系数的最小值是否小于预设值；若是，则将所述其他性能事件作为二级性能事件加入所述最小值对应的一级性能事件所属的性能事件组中；若否，则将所述其他性能事件作为一级性能事件创建其他性能事件组。

其中，所述第一监控模块具体用于：对性能事件组中的一级性能事件进行监控，并将所述性能事件组中一级性能事件的监控结果作为所述性能事件组的监控结果。

其中，所述第二监控模块具体用于：对所述目标性能事件组中的一级性能事件和二级性能事件进行监控。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述集群监控方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述集群监控方法的步骤。

通过以上方案可知，本申请提供的一种集群监控方法，包括：搜索当前硬件平台支持的性能事件，获取所述性能事件的监控结果；根据所述性能事件的监控结果确定所述性能事件之间的相关性，并基于所述性能事件之间的相关性进行性能事件的分组；对性能事件组进行监控，并确定所述性能事件组的监控结果；根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控。

本申请提供的集群监控方法，自动收集当前平台支持的所有性能事件，并通过基准测试监控结果，对性能事件进行分组，将趋势相近的性能事件划分至一组，分组监控可以减少用户需要筛选的监控指标数量，降低监控过程操作步骤并提高效率。通过性能事件收集和分组过程自动化，能够保证用户在平台上进行性能监控时获得性能指标的完整性。通过同时对多组性能事件组监控，迅速搜索性能瓶颈，对单个性能事件组中对多个事件进行详细监控，从而判断具体性能瓶颈。本申请还公开了一种集群监控装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种集群监控方法的流程图；

图2为根据一示例性实施例示出的另一种集群监控方法的流程图；

图3为根据一示例性实施例示出的一种集群监控装置的结构图；

图4为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。另外，在本申请实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

现代处理器都集成了性能计数器（PMU），其能够收集应用程序、操作系统以及处理器性能信息，这些信息可以帮助确认应用程序或操作系统内热点，分析软件运行瓶颈。PMU具有监控过程中额外开销较低，对目标应用干扰较小等优点，并且能够同时记录多个微架构性能事件特征。目前Linux系统内通过性能监控工具perf等可以对PMU监控事件进行读写，从而实现对用户运行程序性能进行监控。

由于不同厂家制造处理器部件与流水线不同，PMU单元个数与支持监控性能事件也有较大差别。即使是同一厂家，在不同型号设备上支持的性能监控事件也有较大差异。随着处理器集成度越来越高，指令流水线越来复杂，PMU支持的性能事件个数也越来越多。在目前主流处理器中，其发布软件手册内支持的性能事件多达200多种，而PMU支持的性能事件个数多达数万种，但是每个核心包含的PMU单元个数仅有个位数，远少于其所支持性能事件个数。对于硬件支持的所有性能监控事件，Linux系统内并没有对应的监控说明文档，用户在使用时无法了解当前硬件所支持的所有性能事件或是每个事件所支持性能指标具体含义。

在使用Linux系统内的Perf工具对性能事件监控时，也可以通过多重复用方法，在有限的PMU单元中运行过程中多次编程性能事件从而获得更多性能指标结果。这种监控方法获得性能监控结果并不准确，由于不同指标并非在同一时刻时间获得结果，可能会有性能瓶颈分析错误情况。

在Linux系统内常用的perf工具中，将性能监控指标分为了软件（software）和硬件（hardware）两部分。对于一些常用的性能分析工具，在新硬件平台运行时需要用户指定性能事件，无法对平台支持的性能监控事件进行判断与分类。

对于使用者来说，在不同厂商的不同型号处理器上对软件进行性能分析时，需要参考硬件厂商提供的软件手册了解当前硬件平台支持的性能事件。这对于使用者是非常高的负担，由于不了解新平台支持的所有性能事件，用户无法确认在程序执行过程中需要监控哪些性能指标，导致无法准确判断程序在新平台运行过程中性能瓶颈。

因此，在本申请中，自动收集当前平台支持的所有性能事件，并通过基准测试监控结果，对性能事件进行分组，将趋势相近的性能事件划分至一组，分组监控可以减少用户需要筛选的监控指标数量，降低监控过程操作步骤并提高效率。通过性能事件收集和分组过程自动化，能够保证用户在平台上进行性能监控时获得性能指标的完整性。通过同时对多组性能事件组监控，迅速搜索性能瓶颈，对单个性能事件组中对多个事件进行详细监控，从而判断具体性能瓶颈。

本申请实施例公开了一种集群监控方法，通过对硬件平台进行监控准确判断硬件平台运行过程中的性能瓶颈。

参见图1，根据一示例性实施例示出的一种集群监控方法的流程图，如图1所示，包括：

S101：搜索当前硬件平台支持的性能事件，获取所述性能事件的监控结果；

在本步骤中，查找当前硬件平台上支持的所有性能事件，可以通过lscpu命令读取CPU（Central Processing Unit，中央处理器）型号，并在数据库中寻找该处理器支持性能事件列表，性能事件通常指的是在计算机系统运行过程中，能够反映系统性能的一些事件，性能事件可以包括CPU使用率、内存使用情况、磁盘I/O（Input/Output，输入/输出）、网络I/O等。进一步的，获取这些性能事件的监控结果，这些性能事件的监控结果可以通过系统监控工具或性能分析工具来获取。需要说明的是，根据具体需要可以选择不同的工具和技术来获取不同的性能事件的监控结果。

作为一种可行的实施方式，所述获取所述性能事件的监控结果，包括：运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。在具体实施中，运行基准测试软件HPCG（High Performance Conjugate Gradient，高性能共轭梯度测试），并测试过程中使用perf监控程序运行过程中各个性能事件结果。

作为一种可行的实施方式，所述在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果，包括：将所述性能事件的事件参数输入性能分析工具，以在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。在具体实施中，perf运行过程中，需要输入同时监控的性能事件的事件参数，可以包括事件编号eventX、掩码编号umaskX和事件名称nameX等，如下所示：

作为一种优选实施方式，所述运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果，包括：根据所述当前硬件平台的性能计数器数量确定同时监控的性能事件数量Nu；每次运行测试软件时，利用性能分析工具监控所述测试软件运行过程中Nu个性能事件的监控结果；运行Np/Nu次所述测试软件之后，得到所述当前硬件平台支持的所有性能事件的监控结果；其中，Np为所述当前硬件平台支持的所有性能事件的数量。

在监控过程中，同时监控性能事件个数Nu按照当前平台PMU个数确定，确保监控性能事件准确性。最终运行HPCG程序Np/Nu次之后，可以通过perf获取所有性能事件监控结果。

S102：根据所述性能事件的监控结果确定所述性能事件之间的相关性，并基于所述性能事件之间的相关性进行性能事件的分组；

在具体实施中，根据所获取的性能事件的监控结果，确定这些性能事件之间的相关性。性能事件之间的相关性指的是不同性能事件之间存在的联系或依赖关系。例如，CPU使用率和内存使用情况通常是密切相关的，因为当CPU使用率较高时，内存使用也可能会相应增加。又如，磁盘I/O和网络I/O是密切相关的，当网络IO增加时会导致磁盘IO的增加。通过确定这些相关性，可以对性能事件进行更深入的分析和理解。

进一步的，基于这些相关性对性能事件进行分组，将趋势相近的性能事件划分至一组。这可以帮助将相关的性能事件整合在一起，以便更容易地理解和处理。例如，可以将CPU使用率和内存使用情况分为一组，将磁盘I/O和网络I/O分为另一组，这样就可以更方便地对这些组进行性能分析和优化。

作为一种可行的实施方式，所述根据所述性能事件的监控结果确定所述性能事件之间的相关性，包括：对所述性能事件的监控结果进行归一化处理，并根据所述性能事件归一化处理后的监控结果确定所述性能事件之间的相关性。

在具体实施中，根据归一化处理公式对所述性能事件的监控结果进行归一化处理；其中，所述归一化处理公式为：，/>为第t时刻归一化处理前的监控结果，/>为第t时刻归一化处理后的监控结果。

进一步的，根据相关性计算公式确定所述性能事件之间的相关性；其中，所述相关性计算公式为：

；

通过上述相关性计算公式，将各性能事件在时域上的监控结果序列转换为频域上的监控结果序列，并计算频域上的监控结果序列之间的相似度进而确定性能事件之间的相关性。将各性能事件在时域上的监控结果序列转换为频域上的监控结果序列，可以消除时间依赖性，另外，性能事件的监控结果的频域成分更容易被分解和识别，能够更好的理解性能事件的特性，性能事件的监控结果的频域成分更容易被分析和比较，能够更好的理解性能事件之间的关系。可见，通过将性能事件的时域序列转换为频域序列，可以提高计算性能事件之间的相关性的准确度。

S103：对性能事件组进行监控，并确定所述性能事件组的监控结果；

在本步骤中，对于每个性能事件组，都要进行监控，并确定每个组的监控结果。性能事件组是经过相关性分析后得出的性能事件的集合。这些性能事件组内的性能事件通常具有一定的关联性，可以一起进行分析和优化。对每个性能事件组进行监控，是为了获取这些事件组的实时数据和趋势，以便了解当前硬件平台的性能状况。确定每个性能事件组的监控结果，是为了分析和理解这些性能事件组的运行状况。根据监控结果，可以判断出哪些性能事件组在特定情况下存在问题，或者哪些组需要进行优化。此外，通过对监控结果的比较和分析，还可以发现不同性能事件组之间的相互影响和依赖关系。

S104：根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控。

在本步骤中，根据性能事件组的监控结果，确定目标性能事件组，并对目标组中的所有性能事件进行监控。目标性能事件组通常指的是那些对系统性能有重要影响或者需要特别关注的一组性能事件。根据之前获取的性能事件组的监控结果，可以确定哪些组是需要优先关注和优化的目标组。对目标性能事件组中的所有性能事件进行监控，是为了获取这些事件的实时数据和趋势，以便了解每个事件的性能状况。

本申请实施例提供的集群监控方法，自动收集当前平台支持的所有性能事件，并通过基准测试监控结果，对性能事件进行分组，将趋势相近的性能事件划分至一组，分组监控可以减少用户需要筛选的监控指标数量，降低监控过程操作步骤并提高效率。通过性能事件收集和分组过程自动化，能够保证用户在平台上进行性能监控时获得性能指标的完整性。通过同时对多组性能事件组监控，迅速搜索性能瓶颈，对单个性能事件组中对多个事件进行详细监控，从而判断具体性能瓶颈。

本申请实施例公开了一种集群监控方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图2，根据一示例性实施例示出的另一种集群监控方法的流程图，如图2所示，包括：

S201：搜索当前硬件平台支持的性能事件，获取所述性能事件的监控结果；

S202：根据所述性能事件的监控结果确定所述性能事件之间的相关性；

S203：确定相关性系数最低的第一性能事件和第二性能事件，将所述第一性能事件和所述第二性能事件分别作为一级性能事件创建第一性能事件组和第二性能事件组；

S204：根据其他性能事件与所述第一性能事件、所述第二性能事件之间的相关性系数对所述其他性能事件进行分组；其中，所述其他性能事件为除所述第一性能事件和所述第二性能事件之外的性能事件；

在本实施例中，根据性能事件间相关系统构造相关矩阵，其中编号/>分别为第i和第j个性能事件。将相关矩阵中最大元素/>对应的行和列编号对应的两性能事件x1和x2作为两个性能组的一级性能事件，对于其他性能事件，根据其与性能事件x1和x2的距离将其划分至相应的性能事件组中。作为一种可行的实施方式，可以将其他性能事件作为二级性能事件划分至x1和x2中距离最近的性能事件所属的性能事件组中。

作为一种优选实施方式，所述根据其他性能事件与所述第一性能事件、所述第二性能事件之间的相关性系数对所述其他性能事件进行分组，包括：判断其他性能事件与所有所述一级性能事件之间的相关性系数的最小值是否小于预设值；若是，则将所述其他性能事件作为二级性能事件加入所述最小值对应的一级性能事件所属的性能事件组中；若否，则将所述其他性能事件作为一级性能事件创建其他性能事件组。

在具体实施中，对于其他性能事件，确定相关矩阵中其与当前的所有一级性能事件之间的相关性系数的最小值，若该最小值小于预设值，则将其作为二级性能事件加入该最小值对应的一级性能事件所属的性能事件组中，否则，将其作为一级性能事件创建一个新的性能事件组。预设值可以根据实际情况灵活设置，例如可以设置为0.2。重复上述过程，直至所有性能事件分组完成。

进一步的，可以将性能事件组包含性能事件按照json（JavaScript ObjectNotation，JavaScript对象表示法）格式存储在单独的文件中，命名为group1、group2等。

S205：对性能事件组中的一级性能事件进行监控，并将所述性能事件组中一级性能事件的监控结果作为所述性能事件组的监控结果；

在具体实施中，用户可使用性能热点搜索功能对所有性能组事件进行大范围搜索，判断主要的热点性能结果。性能热点搜索功能基于性能分组结果实现，在用户使用时会调用perf命令对group组中一级事件进行同时监控，如下所示：

在运行完毕后，统计监控结果一级性能事件性能指标，作为性能组监控结果代表值，从而分析对应的热点性能事件。

S206：根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的一级性能事件和二级性能事件进行监控。

在具体实施中，用户根据性能热点搜索结果，对单个性能组中一级、二级性能事件进行详细分析，判断具体性能瓶颈。在用户使用时会调用perf命令对性能组中所有性能事件同时监控，对应命令与性能热点搜索相似。在获得所有性能事件监控结果后，可以进一步分析影响性能具体原因，从而判断出程序运行主要瓶颈。

下面介绍本申请提供的一种应用实施例，具体包括以下步骤：

步骤1：在用户部署自动监控集群硬件性能工具后，软件通过lscpu命令读取CPU型号，并在数据库中寻找该处理器支持性能事件列表。如果未找到对应处理器型号，反馈用户不支持在当前平台进行自动监控性能操作。

步骤2：在确定处理器型号及对应性能事件列表后，在当前平台安装HPCG基准测试软件，并自动开始执行测试。软件部署和测试采用脚本自动执行，软件编译完成并开始运行后，调用perf命令对性能事件列表中所有性能事件进行监控。每次监控性能事件个数按照当前平台PMU性能计数器个数Nu确定，最终需要循环监控Np/Nu次才能完成所有性能事件监控结果，并按照CSV（Comma-Separated Values，逗号分隔值）格式储存在结果文件中。

步骤3：调用性能分类模块根据监控结果构造性能事件相关矩阵，并按照自顶向下方法进行分类，每组性能事件存储在单个json文件中。

步骤4：用户调用性能热点搜索模块时，使用./auto_perf_scan -o<result_file>命令运行，此时会调用perf对性能事件组中一级事件进行监控，并将性能事件监控结果作为性能事件组代表值存储在csv结果文件中。

步骤5：用户调用性能热点分析模块时，使用./auto_perf_analysis<input_file>-n<group_id>-o<result_file>命令运行。此时会调用对<group_id>性能组中所有性能事件进行监控，并将结果储存在csv结果文件中。

进一步的，在Intel SkyLake CPU平台使用上述工具进行测试，运行命令生成性能事件监控结果，如下所示：

./auto_perf_scan -o skylake_event.csv。

在输出文件中，列举出每组性能事件和基本信息，如下所示：

$ cat skylake_event.csv

event_grp, event_name, event_code, event_umask

1, INST_RETIRED.ANY, 00H, 01H

1, CPU_CLK_UNHALTED.THREAD, 00H, 02H

1, CPU_CLK_UNHALTED.REF_TSC, 00H, 03H

1, CPU_CLK_THREAD_UNHALTED.REF_XCLK, 3CH, 01H

1, CPU_CLK_UNHALTED.RING0_TRANS, 3CH, 00H

1, LONGEST_LAT_CACHE.MISS, 2EH, 41H

1, ARITH.DIVIDER_ACTIVE, 14H, 01H

2, BR_INST_RETIRED.ALL_BRANCHES, C4H, 00H

2, BR_MISP_RETIRED.ALL_BRANCHES, C5H, 00H

其中第一列为划分性能事件组编号，第二列为时间名称，第三和第四列为性能事件编号。

获得性能事件分组结果后，使用如下命令对性能事件组1中性能事件详细分析，对应命令如下：

./auto_perf_analysis skylake_event.csv -n 1 -o skylake_perf.csv。

运行后获得监控结果文件内容如下所示。其中第一列为监控时间步，第二列为性能事件名称，第三列为性能事件监控结果。

$ cat skylake_perf.csv

time, events, counts

1, INST_RETIRED.ANY,380456573

1, CPU_CLK_UNHALTED.THREAD, 255838305

1, CPU_CLK_UNHALTED.REF_TSC, 380456573

1, CPU_CLK_THREAD_UNHALTED.REF_XCLK, 254798270

1, CPU_CLK_UNHALTED.RING0_TRANS, 400967658

1, LONGEST_LAT_CACHE.MISS, 313243093

1, ARITH.DIVIDER_ACTIVE, 333879988

下面对本申请实施例提供的一种集群监控装置进行介绍，下文描述的一种集群监控装置与上文描述的一种集群监控方法可以相互参照。

参见图3，根据一示例性实施例示出的一种集群监控装置的结构图，如图3所示，包括：

搜索模块301，用于搜索当前硬件平台支持的性能事件，获取所述性能事件的监控结果；

分组模块302，用于根据所述性能事件的监控结果确定所述性能事件之间的相关性，并基于所述性能事件之间的相关性进行性能事件的分组；

第一监控模块303，用于对性能事件组进行监控，并确定所述性能事件组的监控结果；

第二监控模块304，用于根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控。

本申请实施例提供的集群监控装置，自动收集当前平台支持的所有性能事件，并通过基准测试监控结果，对性能事件进行分组，将趋势相近的性能事件划分至一组，分组监控可以减少用户需要筛选的监控指标数量，降低监控过程操作步骤并提高效率。通过性能事件收集和分组过程自动化，能够保证用户在平台上进行性能监控时获得性能指标的完整性。通过同时对多组性能事件组监控，迅速搜索性能瓶颈，对单个性能事件组中对多个事件进行详细监控，从而判断具体性能瓶颈。

在上述实施例的基础上，作为一种优选实施方式，所述搜索模块301具体用于：运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。

在上述实施例的基础上，作为一种优选实施方式，所述搜索模块301具体用于：将所述性能事件的事件参数输入性能分析工具，以在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果。

在上述实施例的基础上，作为一种优选实施方式，所述事件参数包括事件编号、掩码编号和事件名称中任一项或任几项的组合。

在上述实施例的基础上，作为一种优选实施方式，所述搜索模块301具体用于：根据所述当前硬件平台的性能计数器数量确定同时监控的性能事件数量Nu；每次运行测试软件时，利用性能分析工具监控所述测试软件运行过程中Nu个性能事件的监控结果；运行Np/Nu次所述测试软件之后，得到所述当前硬件平台支持的性能事件的监控结果；其中，Np为所述当前硬件平台支持的性能事件的数量。

在上述实施例的基础上，作为一种优选实施方式，所述分组模块302具体用于：对所述性能事件的监控结果进行归一化处理，并根据所述性能事件归一化处理后的监控结果确定所述性能事件之间的相关性。

在上述实施例的基础上，作为一种优选实施方式，所述分组模块302具体用于：根据归一化处理公式对所述性能事件的监控结果进行归一化处理；其中，所述归一化处理公式为：，/>为第t时刻归一化处理前的监控结果，/>为第t时刻归一化处理后的监控结果。

在上述实施例的基础上，作为一种优选实施方式，所述分组模块302具体用于：根据相关性计算公式确定所述性能事件之间的相关性；其中，所述相关性计算公式为：

；

在上述实施例的基础上，作为一种优选实施方式，所述分组模块302具体用于：确定相关性系数最低的第一性能事件和第二性能事件，将所述第一性能事件和所述第二性能事件分别作为一级性能事件创建第一性能事件组和第二性能事件组；根据其他性能事件与所述第一性能事件、所述第二性能事件之间的相关性系数对所述其他性能事件进行分组；其中，所述其他性能事件为除所述第一性能事件和所述第二性能事件之外的性能事件。

在上述实施例的基础上，作为一种优选实施方式，所述分组模块302具体用于：判断其他性能事件与所述一级性能事件之间的相关性系数的最小值是否小于预设值；若是，则将所述其他性能事件作为二级性能事件加入所述最小值对应的一级性能事件所属的性能事件组中；若否，则将所述其他性能事件作为一级性能事件创建其他性能事件组。

在上述实施例的基础上，作为一种优选实施方式，所述第一监控模块303具体用于：对性能事件组中的一级性能事件进行监控，并将所述性能事件组中一级性能事件的监控结果作为所述性能事件组的监控结果。

在上述实施例的基础上，作为一种优选实施方式，所述第二监控模块304具体用于：对所述目标性能事件组中的一级性能事件和二级性能事件进行监控。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于上述程序模块的硬件实现，且为了实现本申请实施例的方法，本申请实施例还提供了一种电子设备，图4为根据一示例性实施例示出的一种电子设备的结构图，如图4所示，电子设备包括：

通信接口1，能够与其它设备比如网络设备等进行信息交互；

处理器2，与通信接口1连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的集群监控方法。而所述计算机程序存储在存储器3上。

当然，实际应用时，电子设备中的各个组件通过总线系统4耦合在一起。可理解，总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统4。

本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。

可以理解，存储器3可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（ROM，Read Only Memory）、可编程只读存储器（PROM，Programmable Read-Only Memory）、可擦除可编程只读存储器（EPROM，Erasable Programmable Read-Only Memory）、电可擦除可编程只读存储器（EEPROM，Electrically Erasable Programmable Read-Only Memory）、磁性随机存取存储器（FRAM，ferromagnetic random access memory）、快闪存储器（Flash Memory）、磁表面存储器、光盘、或只读光盘（CD-ROM，Compact Disc Read-Only Memory）；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器（RAM，Random AccessMemory），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（SRAM，Static Random Access Memory）、同步静态随机存取存储器（SSRAM，Synchronous Static Random Access Memory）、动态随机存取存储器（DRAM，Dynamic Random Access Memory）、同步动态随机存取存储器（SDRAM，SynchronousDynamic Random Access Memory）、双倍数据速率同步动态随机存取存储器（DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory）、增强型同步动态随机存取存储器（ESDRAM，Enhanced Synchronous Dynamic Random Access Memory）、同步连接动态随机存取存储器（SLDRAM，SyncLink Dynamic Random Access Memory）、直接内存总线随机存取存储器（DRRAM，Direct Rambus Random Access Memory）。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器2中，或者由处理器2实现。处理器2可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器3，处理器2读取存储器3中的程序，结合其硬件完成前述方法的步骤。

处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器3，上述计算机程序可由处理器2执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、CD-ROM等存储器。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机、服务器、网络设备等）执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种集群监控方法，其特征在于，包括：

根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控；

判断其他性能事件与所有所述一级性能事件之间的相关性系数的最小值是否小于预设值；其中，所述其他性能事件为除所述第一性能事件和所述第二性能事件之外的性能事件；

若否，则将所述其他性能事件作为一级性能事件创建其他性能事件组；

对性能事件组中的一级性能事件进行监控，并将所述性能事件组中一级性能事件的监控结果作为每个所述性能事件组的监控结果；

2.根据权利要求1所述集群监控方法，其特征在于，所述获取所述性能事件的监控结果，包括：

3.根据权利要求2所述集群监控方法，其特征在于，所述在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果，包括：

4.根据权利要求3所述集群监控方法，其特征在于，所述事件参数包括事件编号、掩码编号和事件名称中任一项或任几项的组合。

5.根据权利要求2所述集群监控方法，其特征在于，所述运行测试软件，并在测试过程中利用性能分析工具监控所述测试软件运行过程中所述性能事件的监控结果，包括：

运行Np/Nu次所述测试软件之后，得到所述当前硬件平台支持的所有性能事件的监控结果；其中，Np为所述当前硬件平台支持的所有性能事件的数量。

6.根据权利要求1所述集群监控方法，其特征在于，所述根据所述性能事件的监控结果确定所述性能事件之间的相关性，包括：

7.根据权利要求6所述集群监控方法，其特征在于，对所述性能事件的监控结果进行归一化处理，包括：

根据归一化处理公式对所述性能事件的监控结果进行归一化处理；其中，所述归一化处理公式为：

，/>为第t时刻归一化处理前的监控结果，/>为第t时刻归一化处理后的监控结果。

8.根据权利要求7所述集群监控方法，其特征在于，根据所述性能事件归一化处理后的监控结果确定所述性能事件之间的相关性，包括：

；

其中，为性能事件X归一化处理前的监控结果序列，/>为性能事件Y归一化处理前的监控结果序列，T为时刻点总数，t为时刻编号，t=1、2、…、T，为/>傅里叶变换后频域序列，/>为/>傅里叶变换后频域序列，k=1、2、…、T，/>为频域编号，/>=1、2、…、T，/>为性能事件X与性能事件Y之间的相关性，，/>，/>为性能事件X第t时刻归一化处理后的监控结果，/> 为性能事件Y第t时刻归一化处理后的监控结果，i为虚数。

9.一种集群监控装置，其特征在于，包括：

第二监控模块，用于根据所述性能事件组的监控结果确定目标性能事件组，对所述目标性能事件组中的性能事件进行监控；

其中，所述分组模块具体用于：确定相关性系数最低的第一性能事件和第二性能事件，将所述第一性能事件和所述第二性能事件分别作为一级性能事件创建第一性能事件组和第二性能事件组；判断其他性能事件与所有所述一级性能事件之间的相关性系数的最小值是否小于预设值；其中，所述其他性能事件为除所述第一性能事件和所述第二性能事件之外的性能事件；若是，则将所述其他性能事件作为二级性能事件加入所述最小值对应的一级性能事件所属的性能事件组中；若否，则将所述其他性能事件作为一级性能事件创建其他性能事件组；

其中，所述第一监控模块具体用于：对性能事件组中的一级性能事件进行监控，并将所述性能事件组中一级性能事件的监控结果作为每个所述性能事件组的监控结果；

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至8任一项所述集群监控方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述集群监控方法的步骤。