CN114661499A - 故障的预测方法及装置 - Google Patents

故障的预测方法及装置 Download PDF

Info

Publication number
CN114661499A
CN114661499A CN202210228080.0A CN202210228080A CN114661499A CN 114661499 A CN114661499 A CN 114661499A CN 202210228080 A CN202210228080 A CN 202210228080A CN 114661499 A CN114661499 A CN 114661499A
Authority
CN
China
Prior art keywords
fault
information
prediction value
value
predicted value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210228080.0A
Other languages
English (en)
Inventor
马冲
秦浩军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210228080.0A priority Critical patent/CN114661499A/zh
Publication of CN114661499A publication Critical patent/CN114661499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种故障的预测方法及装置。该故障的预测方法及装置可用于信息安全领域。本申请中,数据中心平台基于N个服务器中每个服务器的运行状态特征和运行时间顺序,使用一阶灰色模型获得第一故障预测值和使用时间序列模型获得第二故障预测值;然后基于N个服务器中每个服务器的资源使用情况,使用灰色Verhulst模型获得第三故障预测值;再根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值;最后将第四故障预测值和故障阈值信息输入至决策树分类模型,从而确定出中心平台是否发生故障。该方法能够在数据中心未发生故障之前提前预防故障,从而降低数据中心发生故障后会影响整个网络的正常稳定运行的概率。

Description

故障的预测方法及装置
技术领域
本申请涉及信息安全领域,尤其涉及一种故障的预测方法及装置。
背景技术
数据中心平台是指由大量服务器、网络设备、冷却设备以及供电设备等构成,用来在互联网基础设施上传递、加速、展示、计算和存储数据信息的平台。可以理解的是,数据中心平台的安全是网络正常运行的前提,数据中心平台一旦发生故障,则有可能会带来经济损失,因此,当数据中心平台出现故障后,运维人员对数据中心平台进行及时的修复是至关重要的。
目前,运维人员都是在数据中心平台发生故障以后,通过监控相关运行参数来对故障进行修复。然而,在数据中心平台发生故障到运维人员对故障进行修复是需要一定的时间的,而在这段时间内,数据中心平台发生的故障可能会影响整个网络的正常稳定运行。
因此,如何能够在数据中心平台未发生故障之前提前预防故障,成为亟待解决的技术问题。
发明内容
本申请提供一种故障的预测方法及装置,能够在数据中心平台未发生故障之前提前预防故障,从而降低数据中心平台发生故障后会影响整个网络的正常稳定运行的概率。
第一方面,本申请实施例提供一种故障的预测方法,包括:获取第一信息,所述第一信息指示所述N个服务器中每个服务器的运行状态特征,N为正整数;获取第二信息,所述第二信息指示所述N个服务器中每个服务器的运行时间顺序;获取第三信息,所述第三信息指示所述N个服务器中每个服务器的资源使用情况;使用一阶灰色模型对所述第一信息和所述第二信息进行预测,获得第一故障预测值;使用时间序列模型对所述第一信息和所述第二信息进行预测,获得第二故障预测值;使用灰色Verhulst模型对所述第三信息进行预测,获得第三故障预测值;根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值;将所述第四故障预测值和故障阈值信息输入至决策树分类模型,获得目标故障信息,所述目标故障信息指示所述数据中心平台是否发生故障。
本实施例提供的故障的预测方法,数据中心平台能够基于N个服务器中每个服务器的运行状态特征和运行时间顺序,分别使用一阶灰色模型获得第一故障预测值和使用时间序列模型获得第二故障预测值;然后基于N个服务器中每个服务器的资源使用情况,使用灰色Verhulst模型获得第三故障预测值;再根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值;最后再将第四故障预测值和故障阈值信息输入至决策树分类模型,从而确定出中心平台是否发生故障。应理解,由于本实施例中的数据中心平台能够通过提前预测数据中心平台是否故障,因此可以使得运维人员可以在真实故障还没有发生之前提前对数据中心平台进行修复,从而降低数据中心平台发生故障后会影响整个网络的正常稳定运行的概率。
结合第一方面,在一种可能的实现方式中,根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值,包括:对所述第一故障预测值、所述第二故障预测值和所述第三故障预测值进行加权求和,获得所述第四故障预测值。
结合第一方面,在一种可能的实现方式中,所述根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值,包括:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的神经网络模型,获得所述第四故障预测值。
结合第一方面,在一种可能的实现方式中,所述根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值,包括:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的支持向量机模型,获得所述第四故障预测值。
结合第一方面,在一种可能的实现方式中,所述N个服务器中每个服务器的资源使用情况包括以下一种或多种:中央处理器CPU使用情况、内存的使用情况、网络的资源使用情况。
结合第一方面,在一种可能的实现方式中,在所述目标故障信息指示所述数据中心平台发生故障时,所述方法还包括:发送第一信息,所述第一信息中包括用于指示所述数据中心平台发生故障的信息。
第二方面,本申请提供一种故障的预测装置,所述装置包括:获取模块,用于获取第一信息,所述第一信息指示所述N个服务器中每个服务器的运行状态特征,N为正整数;所述获取模块,还用于获取第二信息,所述第二信息指示所述N个服务器中每个服务器的运行时间顺序;所述获取模块,还用于获取第三信息,所述第三信息指示所述N个服务器中每个服务器的资源使用情况;预测模块,用于使用一阶灰色模型对所述第一信息和所述第二信息进行预测,获得第一故障预测值;所述预测模块,还用于使用时间序列模型对所述第一信息和所述第二信息进行预测,获得第二故障预测值;所述预测模块,还用于使用灰色Verhulst模型对所述第三信息进行预测,获得第三故障预测值;处理模块,用于根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值;所述处理模块,还用于将所述第四故障预测值和故障阈值信息输入至决策树分类模型,获得目标故障信息,所述目标故障信息指示所述数据中心平台是否发生故障。
结合第二方面,在一种可能的实现方式中,所述处理模块具体用于:对所述第一故障预测值、所述第二故障预测值和所述第三故障预测值进行加权求和,获得所述第四故障预测值。
结合第二方面,在一种可能的实现方式中,所述处理模块具体用于:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的神经网络模型,获得所述第四故障预测值。
结合第二方面,在一种可能的实现方式中,所述处理模块具体用于:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的支持向量机模型,获得所述第四故障预测值。
结合第二方面,在一种可能的实现方式中,所述N个服务器中每个服务器的资源使用情况包括以下一种或多种:中央处理器CPU使用情况、内存的使用情况、网络的资源使用情况。
结合第二方面,在一种可能的实现方式中,在所述目标故障信息指示所述数据中心平台发生故障时,所述装置还包括发送模块,用于发送第一信息,所述第一信息中包括用于指示所述数据中心平台发生故障的信息。
第三方面,本申请提供一种数据中心平台,包括第二方面或其中任意一种可能的实现方式中所述的故障的预测装置。
第四方面,本申请提供一种故障的预测装置,包括:存储器和处理器;所述存储器用于存储程序指令;所述处理器用于调用所述存储器中的程序指令执行如第一方面或其中任意一种可能的实现方式所述的方法。
在一些实现方式中,该装置可以是芯片。这种实现方式中,可选地,该装置还可以包括通信接口,用于与其他装置或设备进行通信。
第五方面,本申请提供一种计算机可读介质,所述计算机可读介质存储用于计算机执行的程序代码,该程序代码包括用于执行第一方面或其中任意一种可能的实现方式所述的方法的指令。
第六方面,本申请提供一种计算机程序产品,所述计算机程序产品中包括计算机程序代码,当所述计算机程序代码在计算机上运行时,使得所述计算机实现如第一方面或其中任意一种可能的实现方式所述的方法。
其中,第二方面至第六方面中任一种实现方式所带来的技术效果可参见上述第一方面的任一种可能的实现方法所带来的技术效果,不予赘述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的应用场景的结构性示意图;
图2为本申请一个实施例提供的故障的预测方法的流程性示意图;
图3为本申请一个实施例提供的数据中心平台的架构示意图;
图4为本申请一个实施例提供的故障的预测装置的结构性示意图;
图5为本申请另一个实施例提供故障的预测装置的结构性示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
数据中心平台是指由大量服务器、网络设备、冷却设备以及供电设备等构成,用来在互联网基础设施上传递、加速、展示、计算和存储数据信息的平台。可以理解的是,数据中心平台的安全是网络正常运行的前提,数据中心平台一旦发生故障,则有可能会带来经济损失,因此,当数据中心平台出现故障后,运维人员对数据中心进行及时的修复是至关重要的。
为便于理解,图1示出了本申请的应用场景的结构性示意图。如图1所示,在数据中心平台100中,包括由N个服务器101和故障检测装置102。其中,故障检测装置102可以通过分析N个服务器101中的数据来确定数据中心平台100是否发生故障,从而使得能够在数据中心平台100发生故障后,向运维人员输出提示信息,例如可以输出报警信息来提示运维人员数据中心平台100发生了故障。
需要说明的是,图1所示的故障检测装置102也可以部署在云端,本申请实施例对此不做限定。
目前,故障检测装置103都是在检测出故障后,才向运维人员输出提示信息,即运维人员都是在数据中心平台100发生故障以后,通过监控相关运行参数来对故障进行修复。然而,在数据中心平台100发生故障到运维人员对故障进行修复是需要一定的时间的,而在这段时间内,数据中心平台100发生的故障可能会影响整个网络的正常稳定运行。因此,如何能够在数据中心平台100未发生故障之前提前预防故障,成为亟待解决的技术问题。
鉴于此,本申请实施提出一种故障的预测方法及装置,通过提前预测数据中心平台是否故障,以使得运维人员可以在真实故障还没有发生之前提前对数据中心平台进行修复,从而降低数据中心平台发生故障后会影响整个网络的正常稳定运行的概率。
图2为本申请一个实施例提供的故障的预测方法的流程性示意图。如图2所示,本申请实施例的方法可以包括S201、S202、S203、S204、S205、S206、S207和S208。本申请实施例的方法可以由图1中的故障检测装置102执行。
在此说明的是,本实施例中的故障检测装置是用于预测包括服务器的数据中心平台是否发生故障的装置。本实施例中,数据中心平台包括N个服务器。
还在此说明的是,本申请实施例对该故障检测装置的部署不做限制,例如该故障检测装置可以与服务器部署在一起,也可以是故障检测装置部署在云端。
S201,获取第一信息,所述第一信息指示N个服务器中每个服务器的运行状态特征。
应理解,当数据中心平台运行时,N个服务器中的每个服务器都会有一些运行状态特征,示例性地,每个服务器的运行状态特征可以包括指示每个服务器是否稳定运行的信息,又或者每个服务器的进程运行情况等等,本申请实施例对此不做限定。
还应理解,不同的服务器,例如配置不同的服务器,其运行状态特征可能是不一样的。因此,本实施例中,故障检测装置可以获取N个服务器中每个服务器的运行状态特征。
在具体实施时,一种获取第一信息的方式为:故障检测装置可以向N个服务器中的灭个服务器发送请求消息,以请求每个服务器向其发送运行状态特征。而在另一种可实现方式中,故障检测装置可以接收由每个服务器主动发送的运行状态特征。
S202,获取第二信息,所述第二信息指示N个服务器中每个服务器的运行时间顺序。
本实施例中,故障检测装置还获取N个服务器中每个服务器的运行时间顺序。
应理解,当数据中心平台运行时,N个服务器中的每个服务器的运行时间可能是不一样的。例如,数据中心平台在10分钟内可能会运行5个服务器,但是这5个服务器在该10分钟内的运行顺序可能时不一样的,假设将这5个服务器分别成为服务器1、服务器2、服务器3、服务器4和服务器5,那么可能在这10分钟内的前2分钟,运行的有服务器1、服务器2,而在第三分钟至第五分钟运行的有服务器3,在第六分钟至第八分钟运行的有服务器4,在这10分钟内的最后2分钟,运行的有服务器5。即这5个服务器的运行时间顺序是不一样的。
S203,获取第三信息,所述第三信息指示N个服务器中每个服务器的资源使用情况。
本实施例中,故障检测装置还获取N个服务器中每个服务器的资源使用情况。
示例性地,N个服务器中每个服务器的资源使用情况包括以下一种或多种:中央处理器(central processing unit,CPU)使用情况、内存的使用情况、网络的资源使用情况。
S204,使用一阶灰色模型对所述第一信息和所述第二信息进行预测,获得第一故障预测值。
其中,一阶灰色模型是对灰色系统进行预测的模型。一阶灰色模型的含义是:用一阶微分方程对X个变量建立模型。一阶灰色模型的作用是通过把分散在时间轴上的离散数据看成一组连续变化的序列,最后构建一个以时间为变量的连续微分方程,通过数学方法确定方程中的参数,从而实现预测目的。其中,有关一阶灰色模型的详细概念以及描述可以参考相关技术中的描述,此处不再赘述。
具体地,在本实施例中,基于N个服务器中每个服务器的数值特征和时间特征,使用一阶灰色模型进行分析,即通过N个服务器中每个服务器的运行状态特征和每个服务器的运行时间顺序来预测数据中心平台发生故障的概率(即本实施例中的第一故障预测值)。
S205,使用时间序列模型对所述第一信息和所述第二信息进行预测,获得第二故障预测值。
时间序列模型是通过时间序列的历史数据揭示现象随时间变化的规律,并将这种规律延伸到未来,从而对该现象的未来做出预测。由于时间序列的数据彼此之间存在着统计上的依赖关系。因此,时间序列的这种依赖关系可以用相应地数学模型近似描述,通过对该数学模型的分析研究,能够本质的认识时间序列的结构与特征,从而达到最小方差意义上的最优预测。
本实施例种,由于时间序列模型可以反映不同时刻设备观测值的相关性,即反应出不同时刻的状态变化的“惯性”,而这种“惯性”现象实际上反应了设备运行的变化趋势。基于此,本实施例还基于N个服务器中每个服务器的数值特征和时间特征,使用时间序列模型进行分析,即通过N个服务器中每个服务器的运行状态特征和每个服务器的运行时间顺序来预测数据中心平台发生故障的概率(即本实施例中的第二故障预测值)。
S206,使用灰色Verhulst模型对所述第三信息进行预测,获得第三故障预测值。
应理解,当数据中心平台出现系统异常时,每个服务器的资源使用情况的变化特点是增长曲线呈S形,而Verhulst模型是一种适用于非单调的摆动发展序列或具有饱和状态的S形序列的模型,鉴于此,本申请实施例中,还基于N个服务器中每个服务器的资源使用情况,使用Verhulst模型来进行分析,即通过N个服务器中每个服务器的每个服务器的资源使用情况来预测数据中心平台发生故障的概率(即本实施例中的第三故障预测值)。
S207,根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值。
由于使用一阶灰色模型进行预测、使用时间序列模型进行预测、以及使用Verhulst模型进行预测时,不同的模型具有不同的特点,例如时间序列模型重视相邻数据的相似性。而灰色预测模型重视分析数据的变化趋势。除此以外,一阶灰色模型和Verhulst预测模型的数学原理也有区别,有着各自的优势。一阶灰色模型对于长期随时间变化的数据分析效果较好;而Verhulst预测模型更善于描述具有饱和状态的过程。
因此,本实施例中,当基于一阶灰色模型获取到了第一故障预测值、基于时间序列模型获取到了第二故障预测值以及基于Verhulst模型获取到了第三故障预测值之后,为了能够更全面的反映出数据中心平台将是否有可能发生故障,还根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值,即通过第一故障预测值、第二故障预测值和第三故障预测值,综合得到一个第四故障预测值。应理解,该第四故障预测值相比第一故障预测值、第二故障预测值和第三故障预测值中的任意一个或者任意两个,都能更全面的反映出数据中心平台的状态。
在一种可实现方式中,所述根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值,包括:对第一故障预测值、第二故障预测值和所述第三故障预测值进行加权求和,获得第四故障预测值。
在另一种可能的实现方式中,所述根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值,包括:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的神经网络模型,获得所述第四故障预测值。
在又一种可能的实现方式中,所述根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值,包括:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的支持向量机模型,获得所述第四故障预测值。
S208,将第四故障预测值和故障阈值信息输入至决策树分类模型,获得目标故障信息,所述目标故障信息指示所述数据中心平台是否发生故障。
本实施例中,故障阈值信息是用于本实施例中的故障检测装置判断预测结果对应的状态是否异常的信息。
在此说明的是,本申请实施例对故障阈值信息的具体来源不做限定。例如,可以是数据中心平台中的故障阈值分析器基于分析数据中心平台在不同时期的运行情况后,给出的用于故障判定的故障阈值信息。
在此说明的是,本实施例对故障阈值信息的个数不做限定。示例性地,可以根据数据中心平台的不同特征设置不同的故障阈值信息。例如,本实施例中可以设置与资源使用情况对应的故障阈值信息,还可以设置与运行状态特征对应的故障阈值信息等等。
在本实施例中,当获得了第四故障预测值后,就将该第四故障预测值与故障阈值信息共同作为决策树分类模型的输入数据,决策树分类模型再对输入数据分析后,输出目标故障信息。其中,该目标故障信息可以用于指示数据中心平台是否发生故障。在此说明的是,决策树分类模型是一种用于分类的模型,例如用于二分类,其详细描述可以参考相关技术中的描述,此处不再赘述。
本实施例提供的故障的预测方法,数据中心平台能够基于N个服务器中每个服务器的运行状态特征和运行时间顺序,分别使用一阶灰色模型获得第一故障预测值和使用时间序列模型获得第二故障预测值;然后基于N个服务器中每个服务器的资源使用情况,使用灰色Verhulst模型获得第三故障预测值;再根据第一故障预测值、第二故障预测值和第三故障预测值,获得第四故障预测值;最后再将第四故障预测值和故障阈值信息输入至决策树分类模型,从而确定出中心平台是否发生故障。应理解,由于本实施例中的数据中心平台能够通过提前预测数据中心平台是否故障,因此可以使得运维人员可以在真实故障还没有发生之前提前对数据中心平台进行修复,从而降低数据中心平台发生故障后会影响整个网络的正常稳定运行的概率。
在一种可实施方案中,图3示出了可用于实现上述故障的预测方法的数据中心平台的结构性示意图。如图3所示,在该数据中心平台中,包括多个服务器,例如图中的服务器1,服务2,……服务器N、还包括运维平台和数据分析器、时间序列模型模块、一阶灰色模型模块、Verhulst模型模块、模型权重分析模块和故障阈值分析模块。
其中,运维平台用于数据中心平台的监控报警和日志生成,数据分析器用于对多个服务器发送的信息进行分析,模型权重分析模块用于根据不同场景考虑对不同预测模型的侧重,从而针对不同的数据合理地调整不同模型的权重,以使得预测结果可靠性更高。故障阈值分析模块用于根据历史数据和数据中心平台的当前运行情况,给出正常状态和异常状态的临界值(即给出阈值故障阈值信息)。
具体地,在该数据中心平台中,数据中心平台可以在运行过程中,从运维平台采集N个服务器中每个服务器的信息数据(例如每个服务器的运行状态特征、运行时间顺序和资源使用情况),并运行数据分析器,对数据进行预处理,筛选有意义的数据,将含义重复的数据合并和删减获得预处理后的数据,再将预处理后的数据分类写入文件中(如图中所示,分别写入数值特征文件、时间特征文件和资源特征文件中);之后,对数值特征文件中的数据和时间特征文件中的数据分别使用一阶灰色模型和时间序列模型进行处理,对资源特征文件中的数据使用Verhulst模型模块进行处理,再将三种模型各自计算出的故障预测值,带入模型权重分析器给出的权重,得到最终的故障预测值。此外,故障阈值分析器结合历史数据和数据中心当前运行情况,给出故障阈值信息;最后,故障阈值信息和最终的故障预测值输入至决策树分类模型,该决策树分类模型经过分析,最终预测出数据中心平台是否将有故障的信息。进一步地,还可以发送故障信息,以向运维人员提示。
在此说明的是,本实施例中的资源特征文件中存储资源特征,用于表示资源使用情况,例如是CPU的使用情况、内存的使用情况、网络的资源使用情况等。数值特征文件中存储数值特征,用于是指用于表示各个服务器的运行状态。时间特征文件中存储时间特征,用于指示各个服务器的运行时间顺序。
图4为本申请一个实施例提供的故障的预测装置的结构性示意图。如图4所示,所述装置400中包括:获取模块401、预测模块402和处理模块403。
其中,获取模块401用于获取第一信息,所述第一信息指示所述N个服务器中每个服务器的运行状态特征;所述获取模块401,还用于获取第二信息,所述第二信息指示所述N个服务器中每个服务器的运行时间顺序;所述获取模块401,还用于获取第三信息,所述第三信息指示所述N个服务器中每个服务器的资源使用情况;预测模块402,用于使用一阶灰色模型对所述第一信息和所述第二信息进行预测,获得第一故障预测值;所述预测模块402,还用于使用时间序列模型对所述第一信息和所述第二信息进行预测,获得第二故障预测值;所述预测模块402,还用于使用灰色Verhulst模型对所述第三信息进行预测,获得第三故障预测值;处理模块403,用于根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值;所述处理模块403,还用于将所述第四故障预测值和故障阈值信息输入至决策树分类模型,获得目标故障信息,所述目标故障信息指示所述数据中心平台是否发生故障。
作为一种示例,所述获取模块401可以用于执行图2所述的方法中的获取第二信息的步骤。例如,收发模块401用于执行S201。
在一种可能的实现方式中,所述处理模块403具体用于:对所述第一故障预测值、所述第二故障预测值和所述第三故障预测值进行加权求和,获得所述第四故障预测值。
在一种可能的实现方式中,所述处理模块403具体用于:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的神经网络模型,获得所述第四故障预测值。
在一种可能的实现方式中,所述处理模块403具体用于:将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的支持向量机模型,获得所述第四故障预测值。
在一种可能的实现方式中,所述N个服务器中每个服务器的资源使用情况包括以下一种或多种:中央处理器CPU使用情况、内存的使用情况、网络的资源使用情况等。
在一种可能的实现方式中,在所述目标故障信息指示所述数据中心平台发生故障时,所述装置还包括发送模块404,用于发送第一信息,所述第一信息中包括用于指示所述数据中心平台发生故障的信息。
图5为本申请另一个实施例提供的故障的预测装置的结构性示意图。图5所示的装置可以用于执行前述任意一个实施例所述的方法。
如图5所示,本实施例的装置500包括:存储器501、处理器502、通信接口503以及总线504。其中,存储器501、处理器502、通信接口503通过总线504实现彼此之间的通信连接。
存储器501可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器501可以存储程序,当存储器501中存储的程序被处理器502执行时,处理器502用于执行图2所示的方法的各个步骤。
处理器502可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本申请图2所示的方法。
处理器502还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例图2的方法的各个步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器502还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器502读取存储器501中的信息,结合其硬件完成本申请装置包括的单元所需执行的功能,例如,可以执行图2所示实施例的各个步骤/功能。
通信接口503可以使用但不限于收发器一类的收发装置,来实现装置500与其他设备或通信网络之间的通信。
总线504可以包括在装置500各个部件(例如,存储器501、处理器502、通信接口503)之间传送信息的通路。
应理解,本申请实施例所示的装置500可以是电子设备,或者,也可以是配置于电子设备中的芯片。
需要说明的是,本申请中的故障的预测方法及装置可用于大数据领域,也可用于除大数据领域以外的任意领域。本申请对故障的预测方法及装置的应用领域不作限定。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种故障的预测方法,其特征在于,包括:
获取第一信息,所述第一信息指示N个服务器中每个服务器的运行状态特征,N为正整数;
获取第二信息,所述第二信息指示所述N个服务器中每个服务器的运行时间顺序;
获取第三信息,所述第三信息指示所述N个服务器中每个服务器的资源使用情况;
使用一阶灰色模型对所述第一信息和所述第二信息进行预测,获得第一故障预测值;
使用时间序列模型对所述第一信息和所述第二信息进行预测,获得第二故障预测值;
使用灰色Verhulst模型对所述第三信息进行预测,获得第三故障预测值;
根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值;
将所述第四故障预测值和故障阈值信息输入至决策树分类模型,获得目标故障信息,所述目标故障信息指示所述数据中心平台是否发生故障。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值,包括:
对所述第一故障预测值、所述第二故障预测值和所述第三故障预测值进行加权求和,获得所述第四故障预测值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值,包括:
将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的神经网络模型,获得所述第四故障预测值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值,包括:
将所述第一故障预测值、所述第二故障预测值和所述第三故障预测值输入至预设的支持向量机模型,获得所述第四故障预测值。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述N个服务器中每个服务器的资源使用情况包括以下一种或多种:中央处理器CPU使用情况、内存的使用情况、网络的资源使用情况。
6.根据权利要求5所述的方法,其特征在于,在所述目标故障信息指示所述数据中心平台发生故障时,所述方法还包括:
发送第一信息,所述第一信息中包括用于指示所述数据中心平台发生故障的信息。
7.一种故障的预测装置,其特征在于,包括:
获取模块,用于获取第一信息,所述第一信息指示N个服务器中每个服务器的运行状态特征,N为正整数;
所述获取模块,还用于获取第二信息,所述第二信息指示所述N个服务器中每个服务器的运行时间顺序;
所述获取模块,还用于获取第三信息,所述第三信息指示所述N个服务器中每个服务器的资源使用情况;
预测模块,用于使用一阶灰色模型对所述第一信息和所述第二信息进行预测,获得第一故障预测值;
所述预测模块,还用于使用时间序列模型对所述第一信息和所述第二信息进行预测,获得第二故障预测值;
所述预测模块,还用于使用灰色Verhulst模型对所述第三信息进行预测,获得第三故障预测值;
处理模块,用于根据所述第一故障预测值、所述第二故障预测值和所述第三故障预测值,获得第四故障预测值;
所述处理模块,还用于将所述第四故障预测值和故障阈值信息输入至决策树分类模型,获得目标故障信息,所述目标故障信息指示所述数据中心平台是否发生故障。
8.一种故障的预测装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1至6中任一项所述的方法。
9.一种计算机可读介质,其特征在于,所述计算机可读介质存储用于计算机执行的程序代码,该程序代码包括用于执行如权利要求1至6中任一项所述的方法的指令。
10.一种计算机程序产品,所述计算机程序产品中包括计算机程序指令,其特征在于,当所述计算机程序指令在计算机上运行时,使得所述计算机执行如权利要求1至6中任一项所述的方法。
CN202210228080.0A 2022-03-08 2022-03-08 故障的预测方法及装置 Pending CN114661499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210228080.0A CN114661499A (zh) 2022-03-08 2022-03-08 故障的预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210228080.0A CN114661499A (zh) 2022-03-08 2022-03-08 故障的预测方法及装置

Publications (1)

Publication Number Publication Date
CN114661499A true CN114661499A (zh) 2022-06-24

Family

ID=82029564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210228080.0A Pending CN114661499A (zh) 2022-03-08 2022-03-08 故障的预测方法及装置

Country Status (1)

Country Link
CN (1) CN114661499A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115981969A (zh) * 2023-03-10 2023-04-18 中国信息通信研究院 区块链数据平台的监控方法和装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115981969A (zh) * 2023-03-10 2023-04-18 中国信息通信研究院 区块链数据平台的监控方法和装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN102713862B (zh) 故障原因提取装置、故障原因提取方法和程序记录介质
US11170314B2 (en) Detection and protection against mode switching attacks in cyber-physical systems
US9379951B2 (en) Method and apparatus for detection of anomalies in integrated parameter systems
CA2995864A1 (en) Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
CN109981333B (zh) 一种应用于数据中心的运维方法和运维设备
US8386848B2 (en) Root cause analysis for complex event processing
CN109992473B (zh) 应用系统的监控方法、装置、设备及存储介质
US10215814B2 (en) System and method for cognitive alarm management for the power grid
CN114444074A (zh) 一种异常区块链节点检测方法及装置
CN110490132B (zh) 数据处理方法和装置
CN114661499A (zh) 故障的预测方法及装置
CN112769615B (zh) 一种异常分析方法及装置
CN108362957B (zh) 设备故障诊断方法、装置、储存介质和电子设备
Maatouk et al. Availability maximization and cost study in multi-state systems
US20200052988A1 (en) Determining the health of an iot application
US20200213203A1 (en) Dynamic network health monitoring using predictive functions
Winkelvos et al. A property based security risk analysis through weighted simulation
US20210325447A1 (en) Electrical Power Analyzer for Large and Small Scale Devices for Environmental and Ecological Optimization
KR102350636B1 (ko) 플랜트 고장 예지 장치 및 방법
KR20190069109A (ko) 에너지 공급망의 이상징후 검출을 위한 데이터 증강 및 학습 장치
CN111240881A (zh) 基于贝叶斯网络的Web服务组合异常诊断方法
CN115098326A (zh) 一种系统异常检测方法及装置、存储介质及电子设备
Shalan et al. Runtime prediction of failure modes from system error logs
KR102463732B1 (ko) 머신 러닝 기반의 고장 형태 영향 분석 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination