CN114860496A - 一种集群故障时长预测方法、装置、设备及存储介质 - Google Patents
一种集群故障时长预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114860496A CN114860496A CN202210581041.9A CN202210581041A CN114860496A CN 114860496 A CN114860496 A CN 114860496A CN 202210581041 A CN202210581041 A CN 202210581041A CN 114860496 A CN114860496 A CN 114860496A
- Authority
- CN
- China
- Prior art keywords
- cluster
- fault
- sequence
- prediction
- time interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000009825 accumulation Methods 0.000 claims description 39
- 230000035508 accumulation Effects 0.000 claims description 39
- 238000011161 development Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 4
- 238000012423 maintenance Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract 1
- 230000018109 developmental process Effects 0.000 description 19
- 230000032683 aging Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/13—Differential equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明涉及计算机技术领域,尤其涉及一种集群故障时长预测方法、集群故障时长预测装置、计算机设备及计算机可读存储介质。所述集群故障时长预测方法包括:按照预设时间间隔统计集群的历史故障时长以得到原始序列;基于所述原始序列采用灰色系统理论构建灰色预测模型;采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。本发明的方案基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群的运维管理、故障诊断提供依据。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种集群故障时长预测方法、装置、设备及存储介质。
背景技术
大规模计算机集群在科学研究和社会生活中的需求越来越高,承担的角色越来越重要,计算力已经成为科研实力和经济发展水平的事实参考标准。在生命科学、气象、石油、军事工业中,超级计算机是不可或缺的生产工具,各大国均在建设自己的E级超算。然而,随着超算规模的扩大、集群中节点数增加、集群工作环境异常、用户使用、意外操作等因素,集群会出现单点故障或局部故障,一旦出现故障,无论故障大小,我们均认为集群整体的系统功能是不完备的。我们将从故障发生时到故障解决时的这段时间计入集群故障时长,那么每月应当有集群本月的总故障时长时间的统计。
影响集群某段时间的故障时长的因素有很多,可以判断某些因素确实与集群故障时长存在相关关系(比如各零部件老化),但更多地存在一些因素,不确定它们与集群故障时长是否存在确定关系或者难以确定它们与集群故障时长具体是怎样的相关关系,因此并不能准确又全面地列出所有与集群故障时长相关的所有因素,也难以建立这些因素与集群故障时长的准确关系表达式。由此可见,目前对集群故障时长并没有行之有效的预测方法,仅仅处在对故障时长的监测阶段,给集群的管理和故障排除带来了极大的不便。
发明内容
有鉴于此,有必要针对以上技术问题,提供一种集群故障时长预测方法、集群故障时长预测装置、计算机设备及计算机可读存储介质。
根据本发明的第一方面,提供了一种集群故障时长预测方法,所述集群故障时长预测方法可以包括:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
在一些实施例中,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
基于公式三和公式四分别构造第一矩阵和第二矩阵;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
根据本发明的第二方面,提供了一种集群故障时长预测装置,所述集群故障时长预测装置包括:
统计模块,所述统计模块配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列;
模型构建模块,所述模型构建模块配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型;
预测模块,所述预测模块配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
根据本发明的第三方面,还提供了一种计算机设备,该计算机设备包括:
至少一个处理器;以及
存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的集群故障时长预测方法。
根据本发明的第四方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行前述的集群故障时长预测方法。
上述一种集群故障时长预测方法,首先按照预设时间间隔统计集群的历史故障时长以得到原始序列,然后基于原始序列采用灰色系统理论构建灰色预测模型,最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测,基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群运维管理、故障诊断提供依据。
此外,本发明还提供了一种集群故障时长预测装置、一种计算机设备和一种计算机可读存储介质,同样能实现上述技术效果,这里不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例提供的一种集群故障时长预测方法的流程示意图;
图2为本发明另一个实施例提供的另一种集群故障时长预测方法的流程示意图;
图3为本发明又一个实施例提供的一种集群故障时长预测装置的结构示意图;
图4本发明另一个实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在一个实施例中,请参照图1所示,本发明提供了一种集群故障时长预测方法100,具体来说所述集群故障时长预测方法可以包括以下步骤:
步骤101,按照预设时间间隔统计集群的历史故障时长以得到原始序列;
步骤102,基于所述原始序列采用灰色系统理论构建灰色预测模型;
步骤103,采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
上述一种集群故障时长预测方法,首先按照预设时间间隔统计集群的历史故障时长以得到原始序列,然后基于原始序列采用灰色系统理论构建灰色预测模型,最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测,基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群运维管理、故障诊断提供依据。
在一些实施中,前述步骤101,按照预设时间间隔统计集群的历史故障时长以得到原始序列具体步骤包括以下步骤:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,前述步骤102,基于所述原始序列采用灰色系统理论构建灰色预测模型具体包括以下步骤:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
基于公式三和公式四分别构造第一矩阵和第二矩阵;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,前述步骤103,采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测具体包括以下步骤:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
在另一个实施例中,请参照图2所示,为了便于理解本发明的技术方案,下面以应用于的E级超算集群为例详细说明本发明的技术方案,不妨做以下假设:(1)决定集群故障时长的因素较多,有些是确定的(如零部件老化)因素,更多的是不确定因素,且不确定因素难以与故障时长建立明确的相关关系;(2)集群故障时长的统计结果必然是真实有效的,它包含了所有因素的结果,并且统计信息是与时间序列有关的。本实施例提供了另一种集群故障时长预测方法200,具体来说集群故障时长预测方法200可以包括以下步骤:
…
…
步骤207,有了回归预测方程后可以很容易求得预测的一阶累加序列X(1),根据一阶累加序列计算预测的X(0),即为预测的集群故障时长。
需要说明的是,在具体实施过程中预测得到故障时长还能够用于对后续月份继续进行预测,不妨假设采用以上回归预测的方程实现使用四个月预测一个月的故障时长,继续以将预测的故障时长和前三个月的故障时长继续预测前一次预测月份之后的一个月故障时长,以此类推实现后续多个月份的故障时长预测。
本实施例的集群故障时长预测方法,具有以下优势和特点:1:适用于含有不确定因素的问题,即不需要列出所有与集群故障有关的因素。2:使用等时间距观测到的实际值构造灰色预测模型,达到能够预测未来数据值的目的。3:适用于小样本数据,此外本发明方法易于与各类型的集群进行结合,具有较强的灵活性。
在又一个实施例中,请参照图3所示,本发明还提供了一种集群故障时长预测装置300,其特征在于,所述集群故障时长预测装置300可以包括:
统计模块301,所述统计模块301配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列;
模型构建模块302,所述模型构建模块302配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型;
预测模块303,所述预测模块303配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
上述一种集群故障时长预测装置300,首先按照预设时间间隔统计集群的历史故障时长以得到原始序列,然后基于原始序列采用灰色系统理论构建灰色预测模型,最后采用灰色预测模型对未来预设时间间隔内的故障时间进行预测,基于集群的历史故障时长和灰色系列理论构建灰色预测模型,实现了对集群未来的故障时长进行预测,避免不确定因素的干扰,预测结果准确,可以为用户提供可信的集群故障时长的预判,为集群运维管理、故障诊断提供依据。
在一些实施例中,所述统计模块301进一步配置用于:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述模型构建模块302进一步配置用于:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
基于公式三和公式四分别构造第一矩阵和第二矩阵;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述预测模块303进一步配置用于:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
需要说明的是,关于集群故障时长预测装置300的具体限定可以参见上文中对集群故障时长预测方法100或200的限定,在此不再赘述。上述集群故障时长预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
根据本发明的另一方面,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图请参照图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的集群故障时长预测方法,具体来说,所述方法包括以下步骤:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
在一些实施例中,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
基于公式三和公式四分别构造第一矩阵和第二矩阵;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
根据本发明的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上所述的集群故障时长预测方法,具体来说,包括执行以下步骤:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
在一些实施例中,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
在一些实施例中,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
基于公式三和公式四分别构造第一矩阵和第二矩阵;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
在一些实施例中,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
在一些实施例中,所述预设时间间隔为一个月。
在一些实施例中,所述预设数量为12。
在一些实施例中,所述集群为超算规模计算机集群。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种集群故障时长预测方法,其特征在于,所述集群故障时长预测方法包括:
按照预设时间间隔统计集群的历史故障时长以得到原始序列;
基于所述原始序列采用灰色系统理论构建灰色预测模型;
采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
2.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述按照预设时间间隔统计集群的历史故障时长以得到原始序列的步骤包括:
以预设时间间隔单位统计该时间间隔内每次故障发生时到故障解决持续的时间之和以得到每个时间间隔对应的故障时长;
将连续预设数量个时间间隔对应的故障时长按照时间先后顺序组成序列作为原始序列。
3.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述基于所述原始序列采用灰色系统理论构建灰色预测模型的步骤包括:
对所述原始序列进行灰色一次累加处理,以得到一次累加序列;
对所述一次累加序列进行紧邻均值生成操作,以得到紧邻均值序;
将所述一次累加序列代入公式一,以得到微分方程;
基于公式二对所述微分方程进行离散化,以得到离散化后模型的方程;
基于公式三和公式四分别构造第一矩阵和第二矩阵;
基于所述第一矩阵和第二矩阵采用最小二乘法对所述微分方程和所述离散化后模型的方程进行求解以得到所述发展系数和控制系数;
将所述发展系数和控制系数代入到所述微分方程并进行求解以得到回归预测方程,并基于累加处理对回归预测方程进行还原以生成所述灰色预测模型。
4.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测的步骤包括:
采集当前时间之前的预设数量个时间间隔对应的故障时长作为目标序列;
将所述目标序列代入所述灰色预测模型,以得到当前时间所在时间间隔对应的预测故障时长。
5.根据权利要求2所述的集群故障时长预测方法,其特征在于,所述预设时间间隔为一个月。
6.根据权利要求5所述的集群故障时长预测方法,其特征在于,所述预设数量为12。
7.根据权利要求1所述的集群故障时长预测方法,其特征在于,所述集群为超算规模计算机集群。
8.一种集群故障时长预测装置,其特征在于,所述装置包括:
统计模块,所述统计模块配置用于按照预设时间间隔统计集群的历史故障时长以得到原始序列;
模型构建模块,所述模型构建模块配置用于基于所述原始序列采用灰色系统理论构建灰色预测模型;
预测模块,所述预测模块配置用于采用所述灰色预测模型对未来预设时间间隔内的故障时间进行预测。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器中运行的计算机程序,所述处理器执行所述程序时执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581041.9A CN114860496A (zh) | 2022-05-25 | 2022-05-25 | 一种集群故障时长预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581041.9A CN114860496A (zh) | 2022-05-25 | 2022-05-25 | 一种集群故障时长预测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114860496A true CN114860496A (zh) | 2022-08-05 |
Family
ID=82641514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210581041.9A Pending CN114860496A (zh) | 2022-05-25 | 2022-05-25 | 一种集群故障时长预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860496A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983892A (zh) * | 2023-03-21 | 2023-04-18 | 北京云庐科技有限公司 | 价格预测模型创建方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-05-25 CN CN202210581041.9A patent/CN114860496A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983892A (zh) * | 2023-03-21 | 2023-04-18 | 北京云庐科技有限公司 | 价格预测模型创建方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107707431A (zh) | 一种面向云平台的数据安全监测方法及系统 | |
Zhao et al. | Comparisons of replacement policies with periodic times and repair numbers | |
EP1552353A2 (en) | Process for determining competing cause event probability and/or system availability during the simultaneous occurrence of multiple events | |
Mercier et al. | A condition‐based imperfect replacement policy for a periodically inspected system with two dependent wear indicators | |
Cherkaoui et al. | Quantitative assessments of performance and robustness of maintenance policies for stochastically deteriorating production systems | |
JP5387779B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
CN105913124A (zh) | 基于贝叶斯网络及基层数据的系统健康状态预测方法 | |
CN115829297B (zh) | 装配式建筑的工作包生成方法、装置、终端及存储介质 | |
CN114860496A (zh) | 一种集群故障时长预测方法、装置、设备及存储介质 | |
D'Amico et al. | Reliability measures of second-order semi-Markov chain applied to wind energy production | |
US20220058099A1 (en) | Device monitoring systems | |
Nikolić et al. | Self-healing dilemmas in distributed systems: Fault correction vs. fault tolerance | |
CN114626562A (zh) | 大型公共建筑设备运行状态智能监测方法及系统 | |
CN113900894A (zh) | 一种预测大规模集群状态的方法、系统、设备及介质 | |
Stefanyshyn | A Method of Forecasting of Indexes of Dynamic System that evolves slowly, based on Time Series Analysis | |
CN114138634B (zh) | 测试用例的选取方法、装置、计算机设备和存储介质 | |
Felsberger et al. | Cost and availability improvements for fault-tolerant systems through optimal load-sharing policies | |
Daraghmi et al. | Accurate and time‐efficient negative binomial linear model for electric load forecasting in IoE | |
CN109887253B (zh) | 石油化工装置报警的关联分析方法 | |
WO2021017284A1 (zh) | 基于皮质学习的异常检测方法、装置、终端设备及存储介质 | |
Chen et al. | Decentralized maintenance for multistate systems with heterogeneous components | |
Inaba | Performance Evaluation of IoT-enabled Predictive Maintenance | |
Wang et al. | HARRD: Real-time software rejuvenation decision based on hierarchical analysis under weibull distribution | |
PARK | PERFORMANCE ATTRIBUTES ANALYSIS OF NHPP-BASED SOFTWARE DEVELOPMENT COST MODEL WITH INVERSE-TYPE DISTRIBUTION PROPERTIES | |
CN115619031A (zh) | 停电时长预测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |