CN114860496A - 一种集群故障时长预测方法、装置、设备及存储介质 - Google Patents

一种集群故障时长预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114860496A
CN114860496A CN202210581041.9A CN202210581041A CN114860496A CN 114860496 A CN114860496 A CN 114860496A CN 202210581041 A CN202210581041 A CN 202210581041A CN 114860496 A CN114860496 A CN 114860496A
Authority
CN
China
Prior art keywords
cluster
fault
sequence
prediction
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210581041.9A
Other languages
English (en)
Inventor
崔坤磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210581041.9A priority Critical patent/CN114860496A/zh
Publication of CN114860496A publication Critical patent/CN114860496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明涉及计算机技术领域,尤其涉及一种集群故障时长预测方法、集群故障时长预测装置、计算机设备及计算机可读存储介质。所述集群故障时长预测方法包括:按照预设时间间隔统计集群的历史故障时长以得到原始序列;基于所述原始序列采用灰色系统理论构建灰色预测模型;采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。本发明的方案基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群的运维管理、故障诊断提供依据。

Description

一种集群故障时长预测方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种集群故障时长预测方法、装置、设备及存储介质。
背景技术
大规模计算机集群在科学研究和社会生活中的需求越来越高,承担的角色越来越重要,计算力已经成为科研实力和经济发展水平的事实参考标准。在生命科学、气象、石油、军事工业中,超级计算机是不可或缺的生产工具,各大国均在建设自己的E级超算。然而,随着超算规模的扩大、集群中节点数增加、集群工作环境异常、用户使用、意外操作等因素,集群会出现单点故障或局部故障,一旦出现故障,无论故障大小,我们均认为集群整体的系统功能是不完备的。我们将从故障发生时到故障解决时的这段时间计入集群故障时长,那么每月应当有集群本月的总故障时长时间的统计。
影响集群某段时间的故障时长的因素有很多,可以判断某些因素确实与集群故障时长存在相关关系(比如各零部件老化),但更多地存在一些因素,不确定它们与集群故障时长是否存在确定关系或者难以确定它们与集群故障时长具体是怎样的相关关系,因此并不能准确又全面地列出所有与集群故障时长相关的所有因素,也难以建立这些因素与集群故障时长的准确关系表达式。由此可见,目前对集群故障时长并没有行之有效的预测方法,仅仅处在对故障时长的监测阶段,给集群的管理和故障排除带来了极大的不便。
发明内容
有鉴于此,有必要针对以上技术问题,提供一种集群故障时长预测方法、集群故障时长预测装置、计算机设备及计算机可读存储介质。
根据本发明的第一方面,提供了一种集群故障时长预测方法,所述集群故障时长预测方法可以包括:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
在一些实施例中,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
Figure BDA0003662314070000021
其中,a表示发展系数,b表示控制系数,X(1)表示一次累加序列,
Figure BDA0003662314070000022
表示一次累加序列中的第n个数据,
Figure BDA0003662314070000023
表示原始序列的第n个数据;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
Figure BDA0003662314070000024
基于公式三和公式四分别构造第一矩阵和第二矩阵;
Figure BDA0003662314070000031
Figure BDA0003662314070000032
其中,Y为第一矩阵,B为第二矩阵,
Figure BDA0003662314070000033
表示原始矩阵中的第n个数据,
Figure BDA0003662314070000034
表示一次累加序列中的第n个数据;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
根据本发明的第二方面,提供了一种集群故障时长预测装置,所述集群故障时长预测装置包括:
统计模块,所述统计模块配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列;
模型构建模块,所述模型构建模块配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型;
预测模块,所述预测模块配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
根据本发明的第三方面,还提供了一种计算机设备,该计算机设备包括:
至少一个处理器;以及
存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的集群故障时长预测方法。
根据本发明的第四方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行前述的集群故障时长预测方法。
上述一种集群故障时长预测方法,首先按照预设时间间隔统计集群的历史故障时长以得到原始序列,然后基于原始序列采用灰色系统理论构建灰色预测模型,最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测,基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群运维管理、故障诊断提供依据。
此外,本发明还提供了一种集群故障时长预测装置、一种计算机设备和一种计算机可读存储介质,同样能实现上述技术效果,这里不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例提供的一种集群故障时长预测方法的流程示意图;
图2为本发明另一个实施例提供的另一种集群故障时长预测方法的流程示意图;
图3为本发明又一个实施例提供的一种集群故障时长预测装置的结构示意图;
图4本发明另一个实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在一个实施例中,请参照图1所示,本发明提供了一种集群故障时长预测方法100,具体来说所述集群故障时长预测方法可以包括以下步骤:
步骤101,按照预设时间间隔统计集群的历史故障时长以得到原始序列;
步骤102,基于所述原始序列采用灰色系统理论构建灰色预测模型;
步骤103,采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
上述一种集群故障时长预测方法,首先按照预设时间间隔统计集群的历史故障时长以得到原始序列,然后基于原始序列采用灰色系统理论构建灰色预测模型,最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测,基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群运维管理、故障诊断提供依据。
在一些实施中,前述步骤101,按照预设时间间隔统计集群的历史故障时长以得到原始序列具体步骤包括以下步骤:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,前述步骤102,基于所述原始序列采用灰色系统理论构建灰色预测模型具体包括以下步骤:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
Figure BDA0003662314070000061
其中,a表示发展系数,b表示控制系数,X(1)表示一次累加序列,
Figure BDA0003662314070000062
表示一次累加序列中的第n个数据,
Figure BDA0003662314070000063
表示原始序列的第n个数据;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
Figure BDA0003662314070000064
基于公式三和公式四分别构造第一矩阵和第二矩阵;
Figure BDA0003662314070000071
Figure BDA0003662314070000072
其中,Y为第一矩阵,B为第二矩阵,
Figure BDA0003662314070000073
表示原始矩阵中的第n个数据,
Figure BDA0003662314070000074
表示一次累加序列中的第n个数据;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,前述步骤103,采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测具体包括以下步骤:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
在另一个实施例中,请参照图2所示,为了便于理解本发明的技术方案,下面以应用于的E级超算集群为例详细说明本发明的技术方案,不妨做以下假设:(1)决定集群故障时长的因素较多,有些是确定的(如零部件老化)因素,更多的是不确定因素,且不确定因素难以与故障时长建立明确的相关关系;(2)集群故障时长的统计结果必然是真实有效的,它包含了所有因素的结果,并且统计信息是与时间序列有关的。本实施例提供了另一种集群故障时长预测方法200,具体来说集群故障时长预测方法200可以包括以下步骤:
步骤201,按月统计集群的故障时长,得到故障时长的原始序列
Figure BDA0003662314070000081
步骤202,将X(0)累加得到新序列
Figure BDA0003662314070000082
Figure BDA0003662314070000083
计算可得序列。具体来说:
Figure BDA0003662314070000084
Figure BDA0003662314070000085
Figure BDA0003662314070000086
步骤203,构造紧邻均值生成序列Z(1)。对步骤202中的X(1)取相邻两个量的均值,得到序列Z(1)。令
Figure BDA0003662314070000087
计算可得Z(1)。具体为:
Figure BDA0003662314070000088
Figure BDA0003662314070000089
Figure BDA00036623140700000810
步骤204,单变量、一阶的灰度模型相应的微分方程为
Figure BDA00036623140700000811
需要将以上方程离散化。令Δt为1单位,则近似有
Figure BDA00036623140700000812
Figure BDA0003662314070000091
假设在Δt=1的时间内,变量
Figure BDA0003662314070000092
不会出现突变,那么可以使用
Figure BDA0003662314070000093
作为背景值替换
Figure BDA0003662314070000094
因此离散化后模型的方程为
Figure BDA0003662314070000095
Figure BDA0003662314070000096
步骤205,求解参数发展系数a、控制系数b。令
Figure BDA0003662314070000097
Figure BDA0003662314070000098
为待求参数变量,则原方程写为:Y=BΦ。参数向量φ可用最小二乘法求解,即[a b]T=(BTB)-1BTY。
步骤206,求得发展系数a、控制系数b后,将发展系数a、控制系数b代入微分方程并解方程,可以得到回归预测的方程:
Figure BDA0003662314070000099
Figure BDA00036623140700000910
步骤207,有了回归预测方程后可以很容易求得预测的一阶累加序列X(1),根据一阶累加序列计算预测的X(0),即为预测的集群故障时长。
需要说明的是,在具体实施过程中预测得到故障时长还能够用于对后续月份继续进行预测,不妨假设采用以上回归预测的方程实现使用四个月预测一个月的故障时长,继续以将预测的故障时长和前三个月的故障时长继续预测前一次预测月份之后的一个月故障时长,以此类推实现后续多个月份的故障时长预测。
本实施例的集群故障时长预测方法,具有以下优势和特点:1:适用于含有不确定因素的问题,即不需要列出所有与集群故障有关的因素。2:使用等时间距观测到的实际值构造灰色预测模型,达到能够预测未来数据值的目的。3:适用于小样本数据,此外本发明方法易于与各类型的集群进行结合,具有较强的灵活性。
在又一个实施例中,请参照图3所示,本发明还提供了一种集群故障时长预测装置300,其特征在于,所述集群故障时长预测装置300可以包括:
统计模块301,所述统计模块301配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列;
模型构建模块302,所述模型构建模块302配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型;
预测模块303,所述预测模块303配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
上述一种集群故障时长预测装置300,首先按照预设时间间隔统计集群的历史故障时长以得到原始序列,然后基于原始序列采用灰色系统理论构建灰色预测模型,最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测,基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群运维管理、故障诊断提供依据。
在一些实施例中,所述统计模块301进一步配置用于:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述模型构建模块302进一步配置用于:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
Figure BDA0003662314070000111
其中,a表示发展系数,b表示控制系数,X(1)表示一次累加序列,
Figure BDA0003662314070000112
表示一次累加序列中的第n个数据,
Figure BDA0003662314070000113
表示原始序列的第n个数据;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
Figure BDA0003662314070000114
基于公式三和公式四分别构造第一矩阵和第二矩阵;
Figure BDA0003662314070000115
Figure BDA0003662314070000116
其中,Y为第一矩阵,B为第二矩阵,
Figure BDA0003662314070000117
表示原始矩阵中的第n个数据,
Figure BDA0003662314070000118
表示一次累加序列中的第n个数据;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述预测模块303进一步配置用于:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
需要说明的是,关于集群故障时长预测装置300的具体限定可以参见上文中对集群故障时长预测方法100或200的限定,在此不再赘述。上述集群故障时长预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
根据本发明的另一方面,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图请参照图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的集群故障时长预测方法,具体来说,所述方法包括以下步骤:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
在一些实施例中,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
Figure BDA0003662314070000131
其中,a表示发展系数,b表示控制系数,X(1)表示一次累加序列,
Figure BDA0003662314070000132
表示一次累加序列中的第n个数据,
Figure BDA0003662314070000133
表示原始序列的第n个数据;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
Figure BDA0003662314070000134
基于公式三和公式四分别构造第一矩阵和第二矩阵;
Figure BDA0003662314070000135
Figure BDA0003662314070000136
其中,Y为第一矩阵,B为第二矩阵,
Figure BDA0003662314070000137
表示原始矩阵中的第n个数据,
Figure BDA0003662314070000141
表示一次累加序列中的第n个数据;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
根据本发明的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上所述的集群故障时长预测方法,具体来说,包括执行以下步骤:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
在一些实施例中,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
Figure BDA0003662314070000151
其中,a表示发展系数,b表示控制系数,X(1)表示一次累加序列,
Figure BDA0003662314070000152
表示一次累加序列中的第n个数据,
Figure BDA0003662314070000153
表示原始序列的第n个数据;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
Figure BDA0003662314070000154
基于公式三和公式四分别构造第一矩阵和第二矩阵;
Figure BDA0003662314070000155
Figure BDA0003662314070000156
其中,Y为第一矩阵,B为第二矩阵,
Figure BDA0003662314070000157
表示原始矩阵中的第n个数据,
Figure BDA0003662314070000161
表示一次累加序列中的第n个数据;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种集群故障时长预测方法,其特征在于,所述集群故障时长预测方法包括:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
2.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
3.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
Figure FDA0003662314060000011
其中,a表示发展系数,b表示控制系数,X(1)表示一次累加序列,
Figure FDA0003662314060000012
Figure FDA0003662314060000013
表示一次累加序列中的第n个数据,
Figure FDA0003662314060000014
Figure FDA0003662314060000015
Figure FDA0003662314060000016
表示原始序列的第n个数据;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
Figure FDA0003662314060000017
基于公式三和公式四分别构造第一矩阵和第二矩阵;
Figure FDA0003662314060000021
Figure FDA0003662314060000022
其中,Y为第一矩阵,B为第二矩阵,
Figure FDA0003662314060000023
表示原始矩阵中的第n个数据,
Figure FDA0003662314060000024
表示一次累加序列中的第n个数据;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
4.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
5.根据权利要求2所述的集群故障时长预测方法,其特征在于,所述预设时间间隔为一个月。
6.根据权利要求5所述的集群故障时长预测方法,其特征在于,所述预设数量为12。
7.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述集群为超算规模计算机集群。
8.一种集群故障时长预测装置,其特征在于,所述装置包括:
统计模块,所述统计模块配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列;
模型构建模块,所述模型构建模块配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型;
预测模块,所述预测模块配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器中运行的计算机程序,所述处理器执行所述程序时执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1-7任意一项所述的方法。
CN202210581041.9A 2022-05-25 2022-05-25 一种集群故障时长预测方法、装置、设备及存储介质 Pending CN114860496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210581041.9A CN114860496A (zh) 2022-05-25 2022-05-25 一种集群故障时长预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210581041.9A CN114860496A (zh) 2022-05-25 2022-05-25 一种集群故障时长预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114860496A true CN114860496A (zh) 2022-08-05

Family

ID=82641514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210581041.9A Pending CN114860496A (zh) 2022-05-25 2022-05-25 一种集群故障时长预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114860496A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983892A (zh) * 2023-03-21 2023-04-18 北京云庐科技有限公司 价格预测模型创建方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983892A (zh) * 2023-03-21 2023-04-18 北京云庐科技有限公司 价格预测模型创建方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN107707431A (zh) 一种面向云平台的数据安全监测方法及系统
Zhao et al. Comparisons of replacement policies with periodic times and repair numbers
EP1552353A2 (en) Process for determining competing cause event probability and/or system availability during the simultaneous occurrence of multiple events
Mercier et al. A condition‐based imperfect replacement policy for a periodically inspected system with two dependent wear indicators
Cherkaoui et al. Quantitative assessments of performance and robustness of maintenance policies for stochastically deteriorating production systems
JP5387779B2 (ja) 運用管理装置、運用管理方法、及びプログラム
CN105913124A (zh) 基于贝叶斯网络及基层数据的系统健康状态预测方法
CN115829297B (zh) 装配式建筑的工作包生成方法、装置、终端及存储介质
CN114860496A (zh) 一种集群故障时长预测方法、装置、设备及存储介质
D'Amico et al. Reliability measures of second-order semi-Markov chain applied to wind energy production
US20220058099A1 (en) Device monitoring systems
Nikolić et al. Self-healing dilemmas in distributed systems: Fault correction vs. fault tolerance
CN114626562A (zh) 大型公共建筑设备运行状态智能监测方法及系统
CN113900894A (zh) 一种预测大规模集群状态的方法、系统、设备及介质
Stefanyshyn A Method of Forecasting of Indexes of Dynamic System that evolves slowly, based on Time Series Analysis
CN114138634B (zh) 测试用例的选取方法、装置、计算机设备和存储介质
Felsberger et al. Cost and availability improvements for fault-tolerant systems through optimal load-sharing policies
Daraghmi et al. Accurate and time‐efficient negative binomial linear model for electric load forecasting in IoE
CN109887253B (zh) 石油化工装置报警的关联分析方法
WO2021017284A1 (zh) 基于皮质学习的异常检测方法、装置、终端设备及存储介质
Chen et al. Decentralized maintenance for multistate systems with heterogeneous components
Inaba Performance Evaluation of IoT-enabled Predictive Maintenance
Wang et al. HARRD: Real-time software rejuvenation decision based on hierarchical analysis under weibull distribution
PARK PERFORMANCE ATTRIBUTES ANALYSIS OF NHPP-BASED SOFTWARE DEVELOPMENT COST MODEL WITH INVERSE-TYPE DISTRIBUTION PROPERTIES
CN115619031A (zh) 停电时长预测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination