CN113900894A

CN113900894A - 一种预测大规模集群状态的方法、系统、设备及介质

Info

Publication number: CN113900894A
Application number: CN202111166580.8A
Authority: CN
Inventors: 崔坤磊
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

一种使用马尔科夫链预测和评估大规模集群状态的方法，其包括：获取表示集群状态的特征参数；响应于获取到所述特征参数，将所述特征参数转换成特征向量；根据所历史日志数据计算马尔科夫链的状态转移矩阵；根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态。本发明方案针对现有技术中存在的问题提出了使用马尔科夫链对集群整体健康度进行预测和评估的方法，其最大的特色和优势在于可以对集群未来的功能完整性和健康状态进行量化评估，根据其评估状态给予管理员及时的预警。

Description

一种预测大规模集群状态的方法、系统、设备及介质

技术领域

本发明属于计算机领域，具体涉及一种使用马尔科夫链预测和评估大规模集群状态的方法、系统、设备及介质。

背景技术

大规模计算机集群在科学研究和社会生活中的需求越来越高，承担的角色越来越重要，计算力已经成为科研实力和经济发展水平的事实参考标准。在生命科学、气象、石油、军事工业中，超级计算机是不可或缺的生产工具，各大国均在建设自己的E级超算。然而，随着超算规模的扩大、集群中节点数增加，动辄数万个节点的超算系统在日常管理和维护上显然不能完全人工完成，不仅效率低，人工评估显然时效性也很差，不能及时对集群当下和未来的健康情况做出准确的判断。

(现有方案)目前广泛应用于集群管理和监控的开源工具如ganglia、wgcloud等可以监控集群中每个节点的工作状态，其作业负载、资源利用率、是否在线等，均能实现在线、实时的监控。虽然可以具体到集群的每一个节点，但是只能对集群的当前状态进行评估，不能恰当地对集群未来的健康状态进行合理的预测，对集群未来风险的预警缺少支持。

因此，亟需一种有效解决上述问题的技术方案。

发明内容

为解决以上问题，本发明提出了一种使用马尔科夫链预测和评估大规模集群状态的方法，包括：

获取表示集群状态的特征参数；

响应于获取到所述特征参数，将所述特征参数转换成特征向量；

根据所历史日志数据计算马尔科夫链的状态转移矩阵；

根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态。

在本发明的一些实施方式中，获取表示集群状态的特征参数包括：

获取所述大规模集群中的集群整体功能完备情况、计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数。

在本发明的一些实施方式中，获取所述大规模集群中的集群整体功能完备情况、计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数，包括：

每隔预定时间获取所述大规模集群中的集群整体功能完备情况、计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数。

在本发明的一些实施方式中，获取所述大规模集群中的集群整体功能完备情况、计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数，还包括：

根据所述大规模集群中的节点个数，制定获取所述表示集群状态的特征参数的预定时间间隔。

在本发明的一些实施方式中，将所述特征参数转换成特征向量，包括：

根据所述预定时间内的每个所述特征参数所表示的集群状态的正常节点个数和异常节点个数计算所述特征参数所表示的集群状态的概率值；

将多个所述特征参数所表示的集群状态的概率值组合成所述集群状态的概率向量。

在本发明的一些实施方式中，根据所历史日志数据计算马尔科夫链的状态转移矩阵，包括：

根据所述多个预定时间间隔内的所述集群状态的概率向量计算所述马尔科夫链的状态转移矩阵。

在本发明的一些实施方式中，根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态，包括：

计算当前时间间隔的所述多个所述特征参数所表示的集群状态的概率值组合成所述集群状态的概率向量，并将所述概率向量乘以所述马尔科夫链的状态转移矩阵得到所述大规模集群的状态的预测结果。

本发明的另一方面还提出了一种使用马尔科夫链预测和评估大规模集群状态的系统，包括：

解析模块，所述解析模块配置用于获取表示集群状态的特征参数；

向量转换模块，所述向量转换模块配置用于响应于获取到所述特征参数，将所述特征参数转换成特征向量；

转移矩阵模块，所述转移矩阵模块配置用于根据所历史日志数据计算马尔科夫链的状态转移矩阵；

预测模块，所述预测模块配置用于根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态。

本发明的再一方面还提出了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时上线上述实施方式中任意一项所述的方法的步骤。

本发明的又一方面还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实施方式中任意一项所述的方法的步骤。

本发明方案针对以上问题提出了使用马尔科夫链对集群整体健康度进行预测和评估的方法，其最大的特色和优势在于可以对集群未来的功能完整性和健康状态进行量化评估，根据其评估状态给予管理员及时的预警。

本发明方案将集群按各组成子系统的功能划分类别，将集群运行过程中发生的所有错误和异常按以上分类统计各错误分类之间的状态转移概率矩阵，并以月份为时间间隔离散化集群运行时间，计算下一个时间点的集群状态向量。本方案是基于集群管理和应用实践中真实的数据统计，实现方法简单且成本低，可以为管理员提供一个可信的集群健康状况预测管理和指导。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种使用马尔科夫链预测和评估大规模集群状态的方法的实施例流程图；

图2为本发明实施例提供的一种使用马尔科夫链预测和评估大规模集群状态的系统的结构图；

图3为本发明的实施例提供的计算机设备的结构示意图；

图4为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

如图1所示，本发明提出了一种使用马尔科夫链预测和评估大规模集群状态的方法，包括：

步骤S1、获取表示集群状态的特征参数；

步骤S2、响应于获取到所述特征参数，将所述特征参数转换成特征向量；

步骤S3、根据所历史日志数据计算马尔科夫链的状态转移矩阵；

步骤S4、根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态。

在本实施例中，在步骤S1中，从集群管理系统中获取能够表示集群状态的多个参数的值。具体通过集群的日志系统从历史日志信息中获取到对应的集群状态数据，将集群状态数据作为特征参数用于后续的预测评估的相关训练。

在步骤S2中，将步骤S1中获取到的表示集群状态的多个特征参数转换成特征向量。具体为，将每个集群状态的参数通过相应的计算方式转换成可用于马尔科夫链计算的数值类型，以方便后续的计算。即将日志中表示对应集群状态数据以个数或比例的方式转换成可以用于计算的数值，并按照预定的顺序组成特征向量。

在步骤S3中，将步骤S2中的特征向量(多个)根据马尔科夫链的转移矩阵计算方法计算该集群的多个特征参数表示的状态的特征向量的转移矩阵，并保存以在后续的预测步骤中对集群的状态进行预测。

在步骤S4中，在完成集群状态的马尔科夫链的转移矩阵计算之后，可根据该转移矩阵对，当下的集群状态进行预测，具体是通过计算当前的集群的多个状态的特征向量，并将该当前状态的特征向量与该集群的状态的马尔科夫链的转移矩阵按照马尔科夫链的计算方式进行计算，得到下一个集群状态的预测值，作为预测结果。

在本实施例中，本发明按照以下五个衡量维度对集群的状态进行评估：集群整体功能完备、计算系统异常、网络系统异常、存储系统异常、电源系统异常。按照前后顺序以字母i表示，具体地功能完备为1，计算系统异常为2，网络系统异常为3，存储系统异常为4，电源系统异常为5。

在本实施例中，对上述5个维度的特征参数的数据的统计是，通过在历史日志数据中，集群在上述5个维度上出现异常的个数，并且是根据日志数据中的预定时间的间隔内的数据进行统计。具体地，可以按照月为单位，统计历史数据每一月的出现计算机系统异常的节点个数、出现网络异常的节点的个数、出现存储系统异常的节点的个数以及出现电源系统异常的个数。另外只要上述4个状态出现任一一个的异常，则集群整体功能完备情况参数的值就不为1。最后统计上述5个特征参数的数据。

在本实施例中，本发明中，本发名对以预定时间间隔内获取历史日志数据中集群的状态的时间称为观察窗口。观察窗口的大小可根据集群的规模而设定，即规模越大其日志数据中出现异常和正常的概率更接近真实情况，如果集群的规模只有一个节点，很可能一年内的日志数据中异常的情况为0，难以充分体现集群中的硬件和软件的性能及稳定性。所以当集群中的节点数量越大时，越能体现硬件和软件的稳定性。即出现异常的机会就大，10000个节点出现异常的机会要远比100个节点出现异常的机会多。因此。当集群的规模越大时将对该集群状态的观察窗口(预定时间)设定为更小。例如有10万个节点，则以1天为时间间隔统计历史日志中的异常个数。若只有100个节点，则以一个月为时间间隔统计历史日志中的异常个数。

在本实施例中，在对集群中的上述5个特征参数所表示状态从历史日志数据中得到对应的异常数时，需要将上述5个维度的异常转换成特征向量，在本实施例中，在计算对应维度得的特征向量的值时过程如下：

以当前观察窗口的对应的状态异常数除以上一个观察窗口对应的状态的正常数。例如，以100个节点为例，在初始时，5个维度的特征参数中的计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数的正常数为全部100，集群整体功能完备情况为100或为1。以计算系统异常为例，在第二个观察窗口，计算系统异常个数为5，则第二个窗口的计算系统异常特征向量的正常的值为95/100。若在第三个观察窗口，计算系统异常个数为10个，则第三个观察窗口的计算系统异常特征向量的值为90/95。以此类推最后计算出历史日志数据中按照预定时间的所有的特征向量的值。在本实施例中特征向量的值指的是概率。

在本实施了中，在获取到足够数量的包含上述5个维度的特征向量之后，将多个特征向量按照马尔科夫链的状态转移矩阵方式计算器状态转移矩阵。具体地，由状态转移的无后效性和全概率公式可以写出马尔科夫链的基本方程为：

n＝1,2,…,k。其中a_i(n)和p_ij应满足：

由此可以引入状态转移概率矩阵P＝(p_ij)_k*k。很明显，P为非负阵且P的行和为1。

在本实施例中，在得到用于描述集群状态的马尔科夫链的状态转移矩阵之后，便可通过当前的集群的特征向量与状态转移矩阵按照马尔科夫链的计算方式计算得到预测结果。

本发明提供一个优先的实施例，内容如下：

一：定义集群的状态概率向量。

集群功能完备一般可以按以下五个衡量维度：集群整体功能完备、计算系统异常、网络系统异常、存储系统异常、电源系统异常，以字母i表示。简单地，功能完备为1，计算系统异常为2，网络系统异常为3，存储系统异常为4，电源系统异常为5；以上述五个维度各自发生错误或异常的概率定义状态概率向量的五个元素。

设定一个合理的时间间隔(例如一个月)为观察窗口，以字母n表示第n个观察窗口。

系统的状态用随机变量X_n表示，且X_n＝i的概率记作a_i(n)，即状态概率，表示i在n时发生错误的概率。

根据以上可以定义集群系统的状态概率向量：a(n)＝(a_1(n),a_2(n),a_3(n),a_4(n)，a_5(n))。如果设计衡量集群功能健康度的维度不同，那么状态概率向量的元素数量也不同，本设计方案中以上述五个维度为例讨论说明。

本实施例中一般认为在一个集群实施、交付后的初始状态为“功能完备状态”，因此其初始状态概率向量为(1,0,0,0,0)。

二：定义集群状态转移概率矩阵。

从X_n＝i到X_n+1＝j的概率记作p_ij，即状态转移概率，表示到下一个观察窗口时状态i转移到状态j的概率。X_n+1的取值只取决于X_n的取值及状态转移概率，而与X_n-1，X_n-2，…的取值无关。

由状态转移的无后效性和全概率公式可以写出马尔科夫链的基本方程为：

n＝1,2,…,k。其中a_i(n)和p_ij应满足：

p_ij≥0i,j＝1,2,…,k

在本设计方案中，按集群功能的四个维度以及默认的“功能完备”状态引入了五个衡量维度，即引入了五个维度的状态：集群功能完备为1，计算系统异常为2，网络系统异常为3，存储系统异常为4，电源系统异常为5，那么本案例中的状态转移概率矩阵是一个5*5的非负方阵

本发明方案中，状态转移概率矩阵的一般构建方法如下：选择一个或多个大规模集群，按月度为时间间隔(观察窗口)，统计自集群交付之初每个月的对应状态1–5的节点数量，并根据发生异常状态的节点的上一个观察窗口所处的状态，计算其发生的频率。举例来说，集群总节点数为N，其中有n个节点在上一观察窗口状态正常，到当前观察窗口时其网络功能异常，则其状态转移概率

为当前观察窗口。对每一个观察窗口，均要统计任意两个状态之间的转移概率，即每个观察窗口都会得到一个状态转移概率矩阵。对得到的每个观察窗口的状态转移概率矩阵，可以取平均作为一个固定的状态转移概率矩阵贯穿始终，也可以在不同的集群生命阶段动态调整使用不同的状态转移概率矩阵，以提高状态预测的准确性。

为做展示，在此给出一个矩阵P的示例(其中具体数值可根据实际情况修改)：

以上评价维度的划分、根据评价维度进行的状态概率向量的定义、以及根据评价维度进行的状态转移概率矩阵的说明仅用以说明本申请的技术方案，而并非对其限制。应当说明和理解的是，实施人员可以根据实际情况对本实施例记载的不同评估维度、状态概率向量、状态转移概率矩阵根据实际情况进行修改，而这些修改和替换并不使相应技术方案的本质脱离本申请实施方案的精神和范围。

三：按观察窗口为一个迭代，计算马尔科夫链每一个观察窗口的状态概率，用以预测和评估集群整体健康状态。

定义状态概率向量和状态转移概率矩阵后，基本的马尔科夫链方程可以表示为：a(n+1)＝a(n)P，由此可以得到自初始状态开始计算第n个观察窗口时的方程为：a(n)＝a(0)Pⁿ。根据公式a(n)＝a(0)Pⁿ，带入当前时间间隔的概率向量便可得到下一个时间间隔(观察窗口的)集群的状态概率。

本发明方案针对以上问题提出了使用马尔科夫链对集群整体健康度进行预测和评估的方法，其最大的特色和优势在于可以对集群未来的功能完整性和健康状态进行量化评估，根据其评估状态给予管理员及时的预警。本发明方案将集群按各组成子系统的功能划分类别，将集群运行过程中发生的所有错误和异常按以上分类统计各错误分类之间的状态转移概率矩阵，并以月份为时间间隔离散化集群运行时间，计算下一个时间点的集群状态向量。本方案是基于集群管理和应用实践中真实的数据统计，实现方法简单且成本低，可以为管理员提供一个可信的集群健康状况预测管理和指导。

如图2所示，本发明的另一方面还提出了一种使用马尔科夫链预测和评估大规模集群状态的系统，包括：

解析模块1，所述解析模块1配置用于获取表示集群状态的特征参数；

向量转换模块2，所述向量转换模块2配置用于响应于获取到所述特征参数，将所述特征参数转换成特征向量；

转移矩阵模块3，所述转移矩阵模块3配置用于根据所历史日志数据计算马尔科夫链的状态转移矩阵；

预测模块4，所述预测模块4配置用于根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态。

如图3所示，本发明的再一方面还提出了一种计算机设备，包括：

至少一个处理器21；以及

存储器22，所述存储器存储有可在所述处理器上运行的计算机程序23，所述处理器执行所述程序时实现一种使用马尔科夫链预测和评估大规模集群状态的方法，包括：

获取表示集群状态的特征参数；

根据所历史日志数据计算马尔科夫链的状态转移矩阵；

如图4所示，本发明的又一方面还提出了一种计算机可读存储介质401，所述计算机可读存储介质401存储有计算机程序402，所述计算机程序被处理器执行时实现一种使用马尔科夫链预测和评估大规模集群状态的方法，包括：

获取表示集群状态的特征参数；

根据所历史日志数据计算马尔科夫链的状态转移矩阵；

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

Claims

1.一种使用马尔科夫链预测和评估大规模集群状态的方法，其特征在于，包括：

从历史日志数据中获取表示集群状态的特征参数；

根据所历史日志数据计算马尔科夫链的状态转移矩阵；

所述马尔科夫链的状态转移矩阵和当前集群状态的特征向量进行迭代计算以预测所述大规模集群的状态。

2.根据权利要求1所述的方法，其特征在于，所述获取表示集群状态的特征参数包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述大规模集群中的集群整体功能完备情况、计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取所述大规模集群中的集群整体功能完备情况、计算系统异常的节点个数、网络系统异常的节点个数、存储系统异常的节点个数、电源系统异常的节点个数，还包括：

5.根据权利要求3或4所述的方法，其特征在于，所述将所述特征参数转换成特征向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所历史日志数据计算马尔科夫链的状态转移矩阵，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述马尔科夫链的状态转移矩阵迭代计算预测所述大规模集群的状态，包括：

8.一种使用马尔科夫链预测和评估大规模集群状态的系统，其特征在于，包括：

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。