CN114860496A

CN114860496A - 一种集群故障时长预测方法、装置、设备及存储介质

Info

Publication number: CN114860496A
Application number: CN202210581041.9A
Authority: CN
Inventors: 崔坤磊
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-05

Abstract

本发明涉及计算机技术领域，尤其涉及一种集群故障时长预测方法、集群故障时长预测装置、计算机设备及计算机可读存储介质。所述集群故障时长预测方法包括：按照预设时间间隔统计集群的历史故障时长以得到原始序列；基于所述原始序列采用灰色系统理论构建灰色预测模型；采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。本发明的方案基于集群的历史故障时长和灰色系列理论构建灰色预测模型，实现了对集群未来的故障时长进行预测，避免不确定因素的干扰，预测结果准确，可以为用户提供可信的集群故障时长的预判，为集群的运维管理、故障诊断提供依据。

Description

一种集群故障时长预测方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种集群故障时长预测方法、装置、设备及存储介质。

背景技术

大规模计算机集群在科学研究和社会生活中的需求越来越高，承担的角色越来越重要，计算力已经成为科研实力和经济发展水平的事实参考标准。在生命科学、气象、石油、军事工业中，超级计算机是不可或缺的生产工具，各大国均在建设自己的E级超算。然而，随着超算规模的扩大、集群中节点数增加、集群工作环境异常、用户使用、意外操作等因素，集群会出现单点故障或局部故障，一旦出现故障，无论故障大小，我们均认为集群整体的系统功能是不完备的。我们将从故障发生时到故障解决时的这段时间计入集群故障时长，那么每月应当有集群本月的总故障时长时间的统计。

影响集群某段时间的故障时长的因素有很多，可以判断某些因素确实与集群故障时长存在相关关系(比如各零部件老化)，但更多地存在一些因素，不确定它们与集群故障时长是否存在确定关系或者难以确定它们与集群故障时长具体是怎样的相关关系，因此并不能准确又全面地列出所有与集群故障时长相关的所有因素，也难以建立这些因素与集群故障时长的准确关系表达式。由此可见，目前对集群故障时长并没有行之有效的预测方法，仅仅处在对故障时长的监测阶段，给集群的管理和故障排除带来了极大的不便。

发明内容

有鉴于此，有必要针对以上技术问题，提供一种集群故障时长预测方法、集群故障时长预测装置、计算机设备及计算机可读存储介质。

根据本发明的第一方面，提供了一种集群故障时长预测方法，所述集群故障时长预测方法可以包括：

按照预设时间间隔统计集群的历史故障时长以得到原始序列；

基于所述原始序列采用灰色系统理论构建灰色预测模型；

采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。

在一些实施例中，所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括：

以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长；

将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。

在一些实施例中，所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括：

对所述原始序列进行灰色一次累加处理，以得到一次累加序列；

对所述一次累加序列进行紧邻均值生成操作，以得到紧邻均值序；

将所述一次累加序列代入公式一，以得到微分方程；

其中，a表示发展系数，b表示控制系数，X⁽¹⁾表示一次累加序列，

表示一次累加序列中的第n个数据，

表示原始序列的第n个数据；

基于公式二对所述微分方程进行离散化，以得到离散化后模型的方程；

基于公式三和公式四分别构造第一矩阵和第二矩阵；

其中，Y为第一矩阵，B为第二矩阵，

表示原始矩阵中的第n个数据，

表示一次累加序列中的第n个数据；

基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数；

将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程，并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。

在一些实施例中，所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括：

采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列；

将所述目标序列代入所述灰色预测模型，以得到当前时间所在时间间隔对应的预测故障时长。

在一些实施例中，所述预设时间间隔为一个月。

在一些实施例中，所述预设数量为12。

在一些实施例中，所述集群为超算规模计算机集群。

根据本发明的第二方面，提供了一种集群故障时长预测装置，所述集群故障时长预测装置包括：

统计模块，所述统计模块配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列；

模型构建模块，所述模型构建模块配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型；

预测模块，所述预测模块配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。

根据本发明的第三方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行前述的集群故障时长预测方法。

根据本发明的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时执行前述的集群故障时长预测方法。

上述一种集群故障时长预测方法，首先按照预设时间间隔统计集群的历史故障时长以得到原始序列，然后基于原始序列采用灰色系统理论构建灰色预测模型，最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测，基于集群的历史故障时长和灰色系列理论构建灰色预测模型，实现了对集群未来的故障时长进行预测，避免不确定因素的干扰，预测结果准确，可以为用户提供可信的集群故障时长的预判，为集群运维管理、故障诊断提供依据。

此外，本发明还提供了一种集群故障时长预测装置、一种计算机设备和一种计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明一个实施例提供的一种集群故障时长预测方法的流程示意图；

图2为本发明另一个实施例提供的另一种集群故障时长预测方法的流程示意图；

图3为本发明又一个实施例提供的一种集群故障时长预测装置的结构示意图；

图4本发明另一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在一个实施例中，请参照图1所示，本发明提供了一种集群故障时长预测方法100，具体来说所述集群故障时长预测方法可以包括以下步骤：

步骤101，按照预设时间间隔统计集群的历史故障时长以得到原始序列；

步骤102，基于所述原始序列采用灰色系统理论构建灰色预测模型；

步骤103，采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。

在一些实施中，前述步骤101，按照预设时间间隔统计集群的历史故障时长以得到原始序列具体步骤包括以下步骤：

在一些实施例中，前述步骤102，基于所述原始序列采用灰色系统理论构建灰色预测模型具体包括以下步骤：

将所述一次累加序列代入公式一，以得到微分方程；

表示一次累加序列中的第n个数据，

表示原始序列的第n个数据；

基于公式三和公式四分别构造第一矩阵和第二矩阵；

其中，Y为第一矩阵，B为第二矩阵，

表示原始矩阵中的第n个数据，

表示一次累加序列中的第n个数据；

在一些实施例中，前述步骤103，采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测具体包括以下步骤：

在一些实施例中，所述预设时间间隔为一个月。

在一些实施例中，所述预设数量为12。

在一些实施例中，所述集群为超算规模计算机集群。

在另一个实施例中，请参照图2所示，为了便于理解本发明的技术方案，下面以应用于的E级超算集群为例详细说明本发明的技术方案，不妨做以下假设：(1)决定集群故障时长的因素较多，有些是确定的(如零部件老化)因素，更多的是不确定因素，且不确定因素难以与故障时长建立明确的相关关系；(2)集群故障时长的统计结果必然是真实有效的，它包含了所有因素的结果，并且统计信息是与时间序列有关的。本实施例提供了另一种集群故障时长预测方法200，具体来说集群故障时长预测方法200可以包括以下步骤：

步骤201，按月统计集群的故障时长，得到故障时长的原始序列

步骤202，将X⁽⁰⁾累加得到新序列

令

计算可得序列。具体来说：

…

步骤203，构造紧邻均值生成序列Z⁽¹⁾。对步骤202中的X⁽¹⁾取相邻两个量的均值，得到序列Z⁽¹⁾。令

计算可得Z⁽¹⁾。具体为：

…

步骤204，单变量、一阶的灰度模型相应的微分方程为

需要将以上方程离散化。令Δt为1单位，则近似有

假设在Δt＝1的时间内，变量

不会出现突变，那么可以使用

作为背景值替换

因此离散化后模型的方程为

步骤205，求解参数发展系数a、控制系数b。令

为待求参数变量，则原方程写为：Y＝BΦ。参数向量φ可用最小二乘法求解，即[a b]^T＝(B^TB)^-1B^TY。

步骤206，求得发展系数a、控制系数b后，将发展系数a、控制系数b代入微分方程并解方程，可以得到回归预测的方程：

步骤207，有了回归预测方程后可以很容易求得预测的一阶累加序列X⁽¹⁾，根据一阶累加序列计算预测的X⁽⁰⁾，即为预测的集群故障时长。

需要说明的是，在具体实施过程中预测得到故障时长还能够用于对后续月份继续进行预测，不妨假设采用以上回归预测的方程实现使用四个月预测一个月的故障时长，继续以将预测的故障时长和前三个月的故障时长继续预测前一次预测月份之后的一个月故障时长，以此类推实现后续多个月份的故障时长预测。

本实施例的集群故障时长预测方法，具有以下优势和特点：1：适用于含有不确定因素的问题，即不需要列出所有与集群故障有关的因素。2：使用等时间距观测到的实际值构造灰色预测模型，达到能够预测未来数据值的目的。3：适用于小样本数据，此外本发明方法易于与各类型的集群进行结合，具有较强的灵活性。

在又一个实施例中，请参照图3所示，本发明还提供了一种集群故障时长预测装置300，其特征在于，所述集群故障时长预测装置300可以包括：

统计模块301，所述统计模块301配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列；

模型构建模块302，所述模型构建模块302配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型；

预测模块303，所述预测模块303配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。

上述一种集群故障时长预测装置300，首先按照预设时间间隔统计集群的历史故障时长以得到原始序列，然后基于原始序列采用灰色系统理论构建灰色预测模型，最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测，基于集群的历史故障时长和灰色系列理论构建灰色预测模型，实现了对集群未来的故障时长进行预测，避免不确定因素的干扰，预测结果准确，可以为用户提供可信的集群故障时长的预判，为集群运维管理、故障诊断提供依据。

在一些实施例中，所述统计模块301进一步配置用于：

在一些实施例中，所述模型构建模块302进一步配置用于：

将所述一次累加序列代入公式一，以得到微分方程；

表示一次累加序列中的第n个数据，

表示原始序列的第n个数据；

基于公式三和公式四分别构造第一矩阵和第二矩阵；

其中，Y为第一矩阵，B为第二矩阵，

表示原始矩阵中的第n个数据，

表示一次累加序列中的第n个数据；

在一些实施例中，所述预测模块303进一步配置用于：

在一些实施例中，所述预设时间间隔为一个月。

在一些实施例中，所述预设数量为12。

在一些实施例中，所述集群为超算规模计算机集群。

需要说明的是，关于集群故障时长预测装置300的具体限定可以参见上文中对集群故障时长预测方法100或200的限定，在此不再赘述。上述集群故障时长预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本发明的另一方面，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图请参照图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的集群故障时长预测方法，具体来说，所述方法包括以下步骤：

基于所述原始序列采用灰色系统理论构建灰色预测模型；

将所述一次累加序列代入公式一，以得到微分方程；

表示一次累加序列中的第n个数据，

表示原始序列的第n个数据；

基于公式三和公式四分别构造第一矩阵和第二矩阵；

其中，Y为第一矩阵，B为第二矩阵，

表示原始矩阵中的第n个数据，

表示一次累加序列中的第n个数据；

在一些实施例中，所述预设时间间隔为一个月。

在一些实施例中，所述预设数量为12。

在一些实施例中，所述集群为超算规模计算机集群。

根据本发明的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上所述的集群故障时长预测方法，具体来说，包括执行以下步骤：

基于所述原始序列采用灰色系统理论构建灰色预测模型；

将所述一次累加序列代入公式一，以得到微分方程；

表示一次累加序列中的第n个数据，

表示原始序列的第n个数据；

基于公式三和公式四分别构造第一矩阵和第二矩阵；

其中，Y为第一矩阵，B为第二矩阵，

表示原始矩阵中的第n个数据，

表示一次累加序列中的第n个数据；

在一些实施例中，所述预设时间间隔为一个月。

在一些实施例中，所述预设数量为12。

在一些实施例中，所述集群为超算规模计算机集群。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。