CN104346246B - 故障预测方法和装置 - Google Patents
故障预测方法和装置 Download PDFInfo
- Publication number
- CN104346246B CN104346246B CN201310337288.7A CN201310337288A CN104346246B CN 104346246 B CN104346246 B CN 104346246B CN 201310337288 A CN201310337288 A CN 201310337288A CN 104346246 B CN104346246 B CN 104346246B
- Authority
- CN
- China
- Prior art keywords
- historical information
- failure
- information
- alarm command
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Alarm Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例提供了一种故障预测方法和装置,所述方法包括:获取系统的第一历史信息,并将所述第一历史信息在预警规则集合中进行匹配;当所述第一历史信息匹配成功,生成预警指令;响应所述预警指令,获取系统的第二历史信息,所述第二历史信息包括所述第一历史信息;将所述第二历史信息在撤警规则集合中进行匹配,所述撤警规则包括历史信息与系统无故障状态的对应关系;当所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。通过本申请实施例,提高了故障预测的准确性。
Description
技术领域
本申请涉及故障处理技术领域,更具体的说是涉及一种故障预测方法和装置。
背景技术
故障是指系统不能完成规定功能或性能退化不满足规定要求的状态。在现有的很多应用系统中,例如数据中心系统,通信系统,卫星系统,车载系统等中,故障都有可能发生。因此,故障预测成为提供系统可靠性的有效方式之一。
现有技术中,故障预测方法通常是基于规则的预测技术,即是通过采集系统运行信息,并与预警规则进行匹配,若存在与系统运行信息匹配的预设规则,说明系统将会在一定时间出现故障,从而给出故障提示信息,以便于运维人员采取相应措施以解决故障,例如迁移故障节点、更换故障节点等。
发明人在实现本发明的过程中发现,由于系统的复杂性以及故障模式的复杂性,采用现有的这种故障预测方式,预警规则通常具有一定的局限性,使得预测结果并不准确。
发明内容
有鉴于此,本申请提供了一种故障预测方法和装置,用以解决现有技术中故障预测不准确的技术问题。
为实现上述目的,本申请提供如下技术方案:
本申请的第一方面提供了一种故障预测方法,包括:
获取系统的第一历史信息,并将所述第一历史信息在预警规则集合中进行匹配;
当所述第一历史信息匹配成功,生成预警指令;
响应所述预警指令,获取系统的第二历史信息,所述第二历史信息包括所述第一历史信息;
将所述第二历史信息在撤警规则集合中进行匹配,所述撤警规则包括历史信息与系统无故障状态的对应关系;
当所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
结合第一方面,在第一种可能实现方式中,所述响应所述预警指令,获取系统的第二历史信息包括:
响应所述预警指令,当系统生成最新历史信息时,获取系统的第二历史信息,所述第二历史信息包括所述最新历史信息。
结合第一方面,在第二种可能实现方式中,所述生成预警指令后,所述方法还包括:
输出故障提示信息;
则所述生成撤警指令后,所述方法还包括:
响应所述撤警指令,输出所述故障提示信息无效的故障撤销提示信息。
结合第一方面,在第三种可能实现方式中,所述方法还包括:
当所述第二历史信息匹配失败,确定所述预警指令有效。
结合第一方面、第一方面的第一种可能实现方式、第一方面的第二种可能实现方式或者第一方面的第三种可能实现方式,在第四种可能实现方式中,所述方法还包括:
统计预警指令有效或预警指令无效,故障未发生时对应的第一历史信息,以及故障发生时对应的第一历史信息;
确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息;
根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
结合第一方面的第四种可能实现方式,在第五种可能实现方式中,所述确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息包括:
当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时,确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息。
结合第一方面的第四种可能实现方式,在第六种可能实现方式中,所述确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息包括:
确定故障未发生时对应的每一第一历史信息中,分别与故障发生时对应的每一第一历史信息不同子历史信息形成的多个子历史信息集;
确定所述多个子历史信息集中个数最多的目标子历史信息。
结合第一方面、第一方面的第一种可能实现方式、第一方面的第二种可能实现方式或者第一方面的第三种可能实现方式,在第七种可能实现方式中,所述方法还包括:
统计预警指令有效,且故障未发生时对应的多个目标第一历史信息;
根据所述多个目标第一历史信息中包括的子历史信息,确定不同子历史信息中个数最多的目标子历史信息;
根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
本申请的第二方面提供了一种故障预测装置,包括:
第一获取模块,用于获取系统的第一历史信息;
第一匹配模块,用于将所述第一获取模块获取的所述第一历史信息在预警规则集合中进行匹配;
预警指令生成模块,用于当所述第一匹配模块中所述第一历史信息匹配成功,生成预警指令;
第二获取模块,用于响应所述预警指令生成模块生成的所述预警指令,获取系统的第二历史信息,所述第二历史信息包括所述第一历史信息;
第二匹配模块,用于将所述第二获取模块获取的所述第二历史信息在撤警规则集合中进行匹配,所述撤警规则包括历史信息与系统无故障状态的对应关系;
撤警指令生成模块,用于当所述第二匹配模块中所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
结合第二方面,在第一种可能实现方式中,所述第二获取模块具体用于响应所述预警指令生成模块生成的所述预警指令,当检测到系统生成最新历史信息时,获取系统的第二历史信息。
结合第二方面,在第二种可能实现方式中,还包括:
第一提示模块,用于响应所述预警指令生成模块生成的所述预警指令,输出故障提示信息;
第二提示模块,用于响应所述撤警指令生成模块生成的撤警指令,输出所述故障提示信息无效的故障撤销提示信息。
结合第二方面,在第三种可能实现方式中,还包括:
确定模块,用于当所述第二匹配模块所述第二历史信息匹配失败,确定所述预警指令有效。
结合第二方面、第二方面的第一种可能实现方式、第二方面的第二种可能实现方式或者第二方面的第三种可能实现方式,在第四种可能实现方式中,还包括:
第一统计模块,用于统计预警指令有效或预警指令无效,故障未发生时对应的第一历史信息,以及故障发生时对应的第一历史信息;
第一信息确定模块,用于确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息;
规则生成模块,用于根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
结合第二方面的第四种可能实现方式,在第五种可能实现方式中,还包括:
检测模块,用于检测预警指令有效或无效时,故障是否发生,当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时,触发所述第一信息确定模块。
结合第二方面的第四种可能实现方式,在第六种可能实现方式中,所述第一信息确定模块包括:
第一子确定模块,用于确定所述故障未发生时对应的每一第一历史信息中,与所述故障发生时对应的每一第一历史信息不同的子历史信息集;
第二子确定模块,用于确定不同子历史信息集中个数最多的目标子历史信息。
结合第二方面、第二方面的第一种可能实现方式、第二方面的第二种可能实现方式或者第二方面的第三种可能实现方式,在第七种可能实现方式中,还包括:
第二统计模块,用于统计预警指令有效,且故障未发生时对应的多个目标第一历史信息;
第二信息确定模块,用于根据所述多个目标第一历史信息中包括的子历史信息,确定不同子历史信息中个数最多的目标子历史信息;
规则生成模块,用于根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
经由上述的技术方案可知,与现有技术相比,本申请提供了一种故障预测方法和装置,获取系统的第一历史信息,并在预警规则集合中进行匹配;若第一历史信息匹配成功,生成预警指令;响应该预警指令,获取系统的第二历史信息,并在撤警规则集合中进行匹配;若第二历史信息匹配成功,则生成撤警指令,确定该预警指令无效。通过本申请实施例提高了故障预测的准确性,避免了误报以及漏报的发生。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请一种故障预测方法一个实施例的流程图;
图2为本申请一种故障预测方法另一个实施例的流程图;
图3为本申请故障预测方法中撤警规则生成方法一个实施例的流程图;
图4为本申请故障预测方法中撤警规程生成方法另一个实施例的流程图;
图5为本申请一种故障预测装置一个实施例的结构示意图;
图6为本申请一种故障预测装置另一个实施例的结构示意图;
图7为本申请一种故障预测装置又一个实施例的结构示意图;
图8为本申请一种故障预测装置又一个实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的主要思想之一可以包括:
将获取的系统的第一历史信息,在预警规则集合中进行匹配;若第一历史信息匹配成功,生成预警指令;响应该预警指令,获取系统的第二历史信息,并在撤警规则集合中进行匹配;若第二历史信息匹配成功,则生成撤警指令,确定该预警指令无效。本申请实施例通过将包括第一历史信息的第二历史信息在撤警规则集合中进行匹配,确定此时系统是否存在系统无故障的特定情况,从而可以准确的进行故障预测,避免了故障预测误报的发生,且预警规则集合不变,保证了漏报率。
图1为本申请一种故障预测方法一个实施例的流程图,该方法可以包括以下几个步骤:
步骤101:获取系统的第一历史信息,并将所述第一历史信息在预警规则集合中进行匹配。
系统运行过程中,可以实时将系统运行信息或运行事件等信息进行记录,保存在系统日志文件或数据库中,即为系统的历史信息。本申请即是根据系统的历史信息对系统可能会发生的故障进行预测。
本申请的故障预测技术方案可以适用于不同系统中,例如数据中心系统,通信系统,卫星系统,车载系统等。
当需要对系统进行故障预测时,即获取系统记录存储的历史信息,为了描述上的区分,此处命名为“第一历史信息”。该第一历史信息可以是指当前系统记录的所有历史信息,包括多个子历史信息,可以是系统发生的事件或执行的任务等。
当然,由于对系统存储空间的限制,系统记录的历史信息需要根据存储量等条件,按照时间先后顺序,将较早生成的历史信息删除,以保证系统存储空间,同时还可以保证故障预测的准确性。
对系统进行故障预,可以实时执行,或者当检测到系统生成最新历史信息时即执行。
步骤102:当所述第一历史信息匹配成功,生成预警指令。
预警规则包括历史信息与系统故障状态的对应关系,还可以包括故障发生时间等信息。若有与第一历史信息匹配的预警规则,表明系统在一定时间内可能会发生故障,即生成预警指令。
例如当存在历史信息A和历史信息B时,5分钟后,系统将出现故障。因此若第一历史信息中包括信息A和B,则表明第一历史信息匹配成功,系统将在5分钟后出现故障。
本申请实施例中,生成预警指令后,可以立即输出故障提示信息,以提示运维人员系统将在一定时间后发生故障,并执行后续操作步骤。当然也可以暂不输出故障提示信息,直接执行后续操作步骤。
步骤103:响应所述预警指令,获取系统的第二历史信息。
所述第二历史信息包括所述第一历史信息。
在生成预警指令后,响应该预警指令,会继续获取系统的第二历史信息。此时该第二历史信息包括该第一历史信息,也即第二历史信息的信息内容可以与第一历史信息的信息内容相同,或者由于系统运行时会不断生成新的历史信息,因此第二历史信息的信息内容包括且大于第一历史信息的信息内容。
其中,响应该预警指令的同时,可以立即获取系统的历史信息,也可以在等待一定触发时机再获取系统的第二历史信息。
步骤104:将所述第二历史信息在撤警规则集合中进行匹配。
步骤105:当所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
撤警规则包括历史信息与系统无故障状态的对应关系。
获取到第二历史信息,即将第二历史信息在撤警规则集合中进行匹配,判断是否有与第二历史信息匹配的撤警规则,若存在与第二历史信息匹配的撤警规则,表明第二历史信息匹配成功,在第二历史信息下,系统将不会发生故障。由于第二历史信息包括该第一历史信息,若确定出系统不会发生故障,则可确定根据第一历史信息所生成的预警指令无效,为虚假预警指令,因此相应的生成撤警指令,以撤销该预警指令,系统无须进入预警状态。
而当第二历史信息匹配失败,则表明根据第一历史信息所确定预警指令有效,系统即进入预警状态。
当确定出预警指令有效时,可以输出故障提示信息,以提示运维人员采取相应的措施。
而若预警指令生成时,即输出了故障提示信息,则在确定出预警指令无效后,通过响应撤警指令,可以输出故障撤销提示信息,以提示运维人员故障提示信息无效。
正如背景技术中所述,现有技术中在进行故障预测时,常常会出现故障预测误报的情况,即在系统历史信息与预警规则匹配时,系统并未发生故障。而由于系统已经进入预警状态,运维人员会采取一系列措施降低故障影响,例如迁移故障节点,更换故障节点等,而若故障未发生时,采取的这些措施即会造成资源的浪费。
发明人在实现本申请技术方案的过程中发现,将导致误报的预警规则从预警规则集合中删除,可以避免误报的发生,但是这一方式,由于预警规则删除,则可能会导致漏报率增加,同样导致预测不准确,且降低了系统的可靠性。
因此发明人转变思想,发现在系统历史信息与预警规则匹配时,系统未发生故障的现象与特定情况有关,该特定情况可能是系统出现了新的历史信息,或者系统当前时刻在特定时间范围内,因此基于这一技术发现,通过设置撤警规则,在系统第一历史信息与预警规则集合匹配成功时,获取系统第二历史信息,将第二历史信息在撤警规则集合进行匹配,若匹配成功则表明此时系统存在系统无故障的特定情况,系统不会发生故障,从而可以提示运维人员无需进行预警措施。通过当第一历史信息与预警规则集合匹配成功时,继续将系统第二历史信息在撤警规则集合中进行匹配,可以保证故障预测的准确性,降低了误报率,同时避免了漏报率的增加。
图2为本申请一种故障预测方法另一个实施例的流程图,该方法可以包括以下几个步骤:
步骤201:获取系统的第一历史信息。
步骤202:将所述第一历史信息在预警规则集合中进行匹配。
步骤203:当所述第一历史信息匹配成功,生成预警指令。
上述步骤执行操作与上述方法实施例相应操作步骤相近,在此不再赘述。
步骤204:响应所述预警指令,当检测系统生成最新历史信息时,获取系统的第二历史信息。
该第二历史信息包括所述第一历史信息以及所述最新历史信息。
本实施例中,响应预警指令后,当检测到系统生成最新历史信息时,再触发获取系统的第二历史信息。
例如获取的系统第一历史信息中至少包括信息E2和E3,而预警规则集合中包括如果E2和E3同时出现,系统在一定时间后将出现故障的预警规则。则第一历史信息匹配成功,生成预警指令。
响应该预警指令,当检测到系统生成最新历史信息E4时,则获取系统第二历史信息,此时第二历史信息至少包括E2、E3和E4。
步骤205:将所述第二历史信息在撤警规则集合中进行匹配。
所述撤警规则包括历史信息与系统无故障状态的对应关系。
由于第二历史信息与第一历史信息不同,加入了最新生成的历史信息,此时第二历史信息还可以作为新的第一历史信息,返回步骤201继续执行下一轮的故障预测。
步骤206:当所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
步骤207:当所述第二历史信息匹配失败,确定所述预警指令有效。
仍以步骤204例子为例,撤警规则集合中若包括如果E2、E3和E4同时出现或者如果历史信息中包括E4,系统将不会发生故障的撤警规则,第二历史信息在撤警规则集合中进行匹配时即会匹配成功,则生成撤警指令,确定步骤203所生成的预警指令无效。
而若第二历史信息匹配失败,即撤警规则集合中没有与第二历史信息匹配的规则,则表明步骤203所生成的预警指令有效。
作为一种可能实现方式,在确定预警指令有效时,可以输出该故障提示信息,以提示运维人员采取故障措施。
当然为了避免漏报率,保证系统可靠性,作为另一种可能实现方式,当生成预警指令,响应该预警指令,即输出故障提示信息,以避免后续若检测不到系统生成最新的系统信息而导致故障漏报,以避免影响系统可靠性。
因此若生成撤销指令时,还需要响应该撤警指令,输出该故障提示信息无效的故障撤销提示信息,以提示该故障提示信息无效,运维人员无需采取对应的措施。
当然为了避免预警指令生成后即输出故障提示信息,在未生成撤销指令撤销该故障提示信息时,运维人员已采取相应的故障措施,作为又一种可能实现方式,当生成预警指令,响应该预警指令,若检测到在预设时间内未生成撤销指令,则输出故障提示信息,从而可以节省系统资源,还可以避免信息反复输出增加的系统运算量。
本实施例中,该最新系统历史信息的存在,或者该最新系统历史信息与第一历史信息同时存在,系统可能不会发生故障,该最新系统历史信息即是系统故障预测误报发生时的特定情况,根据该特定情况设置撤警规则,则可以避免误报的发生。
当然系统误报的特定情况还可能包括其他情况,例如当前系统运行时刻等,可能系统在某一时间段内运行时,第一历史信息的出现也不会触发系统故障,因此也可以据此设置撤警规则等。
在本实施例中,当获取的系统的第一历史信息与预警规则集合匹配成功时,生成预警指令;响应该预警指令,当检测到系统生成最新历史信息时,获取当前系统的第二历史信息,该第二历史信息包括第一历史信息以及该最新历史信息。将该第二历史信息与撤警规则集合进行匹配,若匹配成功,表明第一历史信息和该最新历史信息同时存在时,不会发生系统故障,则生成撤警指令,确定预警指令失效,无需运维人员采取故障措施,而若第二历史信息与撤警规则不匹配,则表明生成的预警指令有效。即当仅存在第一历史信息时,系统会生成预警指令且该预警指令有效,而若第一历史信息与第一历史信息后最新生成的历史信息同时存在,则系统不会发生故障,由于已生成第一历史信息对应的预警指令,因此需要撤销该预警指令,确定该预警指令无效。通过本实施例,提高了故障预测准确度,保证了不增加漏报率前提下,降低了误报率。
本申请各实施例中,该撤警规则集合中的撤警规则可以由用户预先设置,并可以进行更新。当系统发生故障预测误报与历史信息的不同有关时,该撤警规则也可以根据故障预测的结果信息动态生成并更新。因此如图3所示,为本申请故障预测方法中撤警规则生成方法一个实施例的流程图,可以包括:
步骤301:统计预警指令有效或预警指令无效,故障未发生时对应的第一历史信息,以及故障发生时对应的第一历史信息。
根据系统运行的记录事件,可以统计出预警指令有效时,故障未发生对应的第一历史信息以及故障发生的第一历史信息。
或者预警指令无效,故障未发生对应的第一历史信息以及故障发生的第一历史信息。
该步骤301的操作可以实时进行或周期进行,若周期进行,则统计的在该周期内的第一历史信息。统计的信息可以进行保存,以方便后续使用。
本步骤在故障预测过程中的任一步骤之前或之后执行均可以,本申请并不限定其与前述方法实施例各步骤的先后顺序。
步骤302:确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息。
当预警指令有效时,故障未发生,则表明出现误报,而故障发生,则表明预测准确。当预警指令无效时,故障未发生,则表明预测准备,而故障发生,则表明出现错报。
此时,将故障未发生时对应的第一历史信息中,除去与故障发生时对应的第一历史信息相同的子历史信息,即得到目标子历史信息。
例如预警指令有效时,故障未发生对应的第一历史信息包括E、D、C、H,故障发生时对应的第一历史信息包括D、A、C、F,则可以得到目标子历史信息为E、H。
其中,为了提高预测准确度,该步骤302可以具体包括:
确定故障未发生对应的每一第一历史信息中,分别与所述故障发生时对应的每一第一历史信息不同的子历史信息形成的多个子历史信息集;
确定多个子历史信息集中个数最多的目标子历史信息。
由于在不同时刻获取的历史信息包括的子历史信息内容不同,故障未发生时对应的每一第一历史信息,以及故障发生时对应的每一第一历史信息,可以分别进行比较,从而可以得到多个子历史信息集。
例如得到的多个子历史信息集可能包括(E、H)、(E、J、T)、(A、E、R)等等。
从上述不同子历史信息集中,可以确定出个数最多的子历史信息为E,其即为目标子历史信息。
其中,本步骤302可以是在每一次故障预测后,当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时触发执行。
步骤303:根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
根据得到的目标子历史信息,可以生成撤警规则,例如系统历史信息中包括该目标子历史信息时,系统无故障发生。
根据生成的撤警规则,可以更新撤警规则集合,包括插入、修改、删除等操作。
通过本实施例中可以由系统自动生成撤警规则并更新,提高了撤警匹配的准确性,从而可以提高故障预测的准确性。
图4为本申请故障预测方法中撤警规则生成方法另一个实施例的流程图,可以包括:
步骤401:统计预警指令有效,且故障未发生时对应的多个目标第一历史信息。
步骤402:根据所述多个目标第一历史信息中包括的子历史信息,确定不同子历史信息中个数最多的目标子历史信息。
步骤403:根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
其中,该步骤402可以是在检测预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时执行的。
当预警指令有效,而故障未发生,表明出现误报,统计多次误报对应的目标第一历史信息,可以从多个目标第一历史信息中确定共同的特征,当系统历史信息中存在这些共同的特征时,则系统可能就不会发生故障。
本实施例中,即是统计多个第一历史信息中出现次数最多的子历史信息,作为目标子历史信息。该目标子历史信息即是发生故障预测误报的特定情况。因此根据目标子历史信息可以生成撤警规则,例如系统历史信息中包括该目标子历史信息时,则系统无故障发生。
根据生成的撤警规则,可以更新撤警规则集合,包括插入、修改、删除等操作。
通过本实施例中可以由系统自动生成撤警规则并更新,提高了撤警匹配的准确性,从而可以提高故障预测的准确性。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
图5为本申请一种故障预测装置一个实施例的结构示意图,该装置可以包括:
第一获取模块501,用于获取系统的第一历史信息。
第一匹配模块502,用于将所述第一获取模块获取的所述第一历史信息在预警规则集合中进行匹配。
预警指令生成模块503,用于当所述第一匹配模块中所述第一历史信息匹配成功,生成预警指令。
本申请的故障预测技术方案可以适用于不同系统中,例如数据中心系统,通信系统,卫星系统,车载系统等。
预警规则包括历史信息与系统故障状态的对应关系,还可以包括故障发生时间等信息。若有与第一历史信息匹配的预警规则,表明系统在一定时间内可能会发生故障,即生成预警指令。
生成预警指令后,装置可以立即输出故障提示信息,以提示运维人员系统将在一定时间后发生故障,并执行后续操作步骤。当然也可以暂不输出故障提示信息,而是触发第二获取模块执行。
第二获取模块504,用于响应所述预警指令生成模块生成的所述预警指令,获取系统的第二历史信息。
所述第二历史信息包括所述第一历史信息。第二历史信息的信息内容可以与第一历史信息的信息内容相同,或者由于系统运行时会不断生成新的历史信息,因此第二历史信息的信息内容包括且大于第一历史信息的信息内容。
第二匹配模块505,用于将所述第二获取模块获取的所述第二历史信息在撤警规则集合中进行匹配。
所述撤警规则包括历史信息与系统无故障状态的对应关系。
撤警指令生成模块506,用于当所述第二匹配模块中所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
获取到第二历史信息,即将第二历史信息在撤警规则集合中进行匹配,判断是否有与第二历史信息匹配的撤警规则,若存在与第二历史信息匹配的撤警规则,表明第二历史信息匹配成功,在第二历史信息下,系统将不会发生故障。由于第二历史信息包括该第一历史信息,若确定出系统不会发生故障,则可确定根据第一历史信息所确定的预警指令无效,因此相应的生成撤警指令,以撤销该预警指令,系统无须进入预警状态。
而当第二历史信息匹配失败,则表明根据第一历史信息所确定预警指令有效,系统即进入预警状态。
在本实施例中,当获取的系统的第一历史信息与预警规则集合匹配成功时,生成预警指令;响应该预警指令,获取当前系统的第二历史信息,该第二历史信息包括第一历史信息。将该第二历史信息与撤警规则集合进行匹配,若匹配成功,表明不会发生系统故障,则生成撤警指令,确定预警指令失效,无需运维人员采取故障措施。通过本实施例在预警指令生成后,对系统历史信息继续进行撤警匹配,确定系统是否存在特定情况以避免故障预测误报发生,因此提高了故障预测准确度,降低了误报率,同时避免了漏报率的增加。
图6为本申请一种故障预测装置另一个实施例的结构示意图,该装置可以包括:
第一获取模块601,用于获取系统的第一历史信息。
第一匹配模块602,用于将所述第一获取模块获取的所述第一历史信息在预警规则集合中进行匹配。
预警指令生成模块603,用于当所述第一匹配模块中所述第一历史信息匹配成功,生成预警指令。
第二获取模块604,用于响应所述预警指令生成模块生成的所述预警指令,当检测到系统生成最新历史信息时,获取系统的第二历史信息。
其中该第二历史信息包括所述第一历史信息以及该最新历史信息。
第二匹配模块605,用于将所述第二获取模块获取的所述第二历史信息在撤警规则集合中进行匹配。
其中,该撤警规则包括历史信息与系统无故障状态的对应关系。
撤警指令生成模块606,用于当所述第二匹配模块中所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
确定模块607:用于当所述第二匹配模块所述第二历史信息匹配失败,确定所述预警指令有效。
第一提示模块608,用于响应所述预警指令生成模块生成的所述预警指令,输出故障提示信息。
第二提示模块609,用于根据响应所述撤警指令生成模块生成的撤警指令,输出所述故障提示信息无效的故障撤销提示信息。
当然为了避免预警指令生成后即输出故障提示信息,在未生成撤销指令撤销该故障提示信息时,运维人员已采取相应的故障措施,因此当生成预警指令,响应该预警指令,若检测到在第一预设时间内未生成撤销指令,则输出故障提示信息,从而可以节省系统资源,还可以避免信息反复输出增加的系统运算量。
本实施例中,该最新系统历史信息的存在,或者该最新系统历史信息与第一历史信息同时存在,系统就可能不会发生故障,该最新系统历史信息即是系统故障预测误报时的特定情况,根据该特定情况设置撤警规则,则可以避免误报的发生。
当然系统误报的特定情况还可能包括其他情况,例如当前系统运行时刻等,可能系统在某一时间段内运行时,第一历史信息的出现也不会触发系统故障,因此也可以据此设置撤警规则等。
在本实施例中,当获取的系统的第一历史信息与预警规则集合匹配成功时,生成预警指令;响应该预警指令,当检测到系统生成最新历史信息时,获取当前系统的第二历史信息,该第二历史信息包括第一历史信息以及该最新历史信息。将该第二历史信息与撤警规则集合进行匹配,若匹配成功,表明第一历史信息和该最新历史信息同时存在时,不会发生系统故障,则生成撤警指令,确定预警指令失效,无需运维人员采取故障措施,而若第二历史信息与撤警规则不匹配,则表明生成的预警指令有效。通过本实施例,提高了故障预测准确度,保证了在不漏报前提下,降低了误报率。
图7为本申请一种故障预测装置又一个实施例的结构示意图,该装置可以包括第一获取模块701、第一匹配模块702、预警指令生成模块703、第二获取模块704、第二匹配模块705以及撤警指令生成模块706,此外还可以包括确定模块、第一提示模块以及第二提示模块,各模块功能可以参见图5或图6所示的相应模块的描述,在此不再赘述,本实施例于上述实施例不同之处在于,还可以包括:
第一统计模块707,用于统计预警指令有效或预警指令无效,故障未发生时对应的第一历史信息,以及故障发生时对应的第一历史信息。
第一信息确定模块708,用于确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息。
当预警指令有效时,故障未发生,则表明出现误报,而故障发生,则表明预测准确。当预警指令无效时,故障未发生,则表明预测准备,而故障发生,则表明出现错报。
此时,将故障未发生时对应的第一历史信息中,除去与故障发生时对应的第一历史信息相同的子历史信息,即得到目标子历史信息。
其中,为了提高预测准确度,该第一信息确定模块708可以包括:
第一子确定模块7081,用于确定所述故障未发生时对应的每一第一历史信息中,分别与所述故障发生时对应的每一第一历史信息不同的子历史信息形成的多个子历史信息集;
第二子确定模块7082,用于确定所述多个子历史信息集中个数最多的目标子历史信息。
规则生成模块709,用于根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
根据得到的目标子历史信息,可以生成撤警规则,例如系统历史信息中包括该目标子历史信息时,系统无故障发生。
根据生成的撤警规则,可以更新撤警规则集合,包括插入、修改、删除等操作。
其中,本实施例所述装置还可以包括:
检测模块710,用于检测预警指令有效或无效时,故障是否发生,当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时,触发所述第一信息确定模块。也即第一信息确定模块可以是在每一次故障预测后,当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时再触发启动。
通过本实施例,系统可以自动生成撤警规则并更新,提高了撤警匹配的准确性,进一步提高了故障预测的准确性。
图8为本申请一种故障预测装置又一个实施例的结构示意图,该装置可以包括第一获取模块801、第一匹配模块802、预警指令生成模块803、第二获取模块804、第二匹配模块805以及撤警指令生成模块806,此外还可以包括确定模块、第一提示模块以及第二提示模块,各模块功能可以参见图5或图6相应模块的描述,在此不再赘述,本实施例于上述实施例不同之处在于,还可以包括:
第二统计模块807,用于统计预警指令有效,且故障未发生时对应的多个目标第一历史信息。
第二信息确定模块808,用于根据所述多个目标第一历史信息中包括的子历史信息,确定不同子历史信息中个数最多的目标子历史信息。
规则生成模块809,用于根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
当然该第二信息确定模块可以是当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时,触发启动的。
当预警指令有效,而故障未发生,表明出现误报,统计多次误报对应的目标第一历史信息,可以从多个目标第一历史信息中确定共同的特征,当系统历史信息中存在这些共同的特征时,则系统可能就不会发生故障。
本实施例中,统计多个第一历史信息中出现次数最多的子历史信息,作为目标子历史信息。该目标子历史信息即是发生故障预测误报的特定情况。因此根据目标子历史信息可以生成撤警规则,例如系统历史信息中包括该目标子历史信息时,则系统无故障发生。
根据生成的撤警规则,可以更新撤警规则集合,包括插入、修改、删除等操作。
通过本实施例,系统可以自动生成撤警规则并更新,提高了撤警匹配的准确性,进一步可以提高故障预测的准确性。
本申请实施例所述的装置在实际应用中,可以应用到不同的系统中,例如数据中心系统,通信系统,卫星系统,车载系统等。该装置可以集成到系统的故障预测设备中,部署本申请所述装置的故障预测设备,可以提高故障预测的准确性,同时避免了误报和漏报的发生。
通过以上描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。因此本申请还提供了一种故障预测设备,该故障预测设备主要包括存储器和通过总线与存储器连接的处理器。
该存储器存储故障预测程序。
该处理器运行该故障预测程序。
该生成程序可以包括程序代码,所述程序代码包括计算机操作指令。
该处理器可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
该存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
该故障预测程序具体可以包括:
第一获取模块、第一匹配模块、预警指令生成模块、第二获取模块、第二匹配模块以及撤警指令生成模块。
该故障预测程序各模块具体实现可以参见图5或图6所示的相应模块,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (16)
1.一种故障预测方法,其特征在于,包括:
获取系统的第一历史信息,并将所述第一历史信息在预警规则集合中进行匹配;
当所述第一历史信息匹配成功,生成预警指令;
响应所述预警指令,获取系统的第二历史信息,所述第二历史信息包括所述第一历史信息;
将所述第二历史信息在撤警规则集合中进行匹配,所述撤警规则包括历史信息与系统无故障状态的对应关系;
当所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
2.根据权利要求1所述的方法,其特征在于,所述响应所述预警指令,获取系统的第二历史信息包括:
响应所述预警指令,当系统生成最新历史信息时,获取系统的第二历史信息,所述第二历史信息包括所述最新历史信息。
3.根据权利要求1所述的方法,其特征在于,所述生成预警指令后,所述方法还包括:
输出故障提示信息;
则所述生成撤警指令后,所述方法还包括:
响应所述撤警指令,输出所述故障提示信息无效的故障撤销提示信息。
4.根据权利要求1所述的方法,其特征在在于,所述方法还包括:
当所述第二历史信息匹配失败,确定所述预警指令有效。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:
统计预警指令有效,故障未发生时对应的第一历史信息以及故障发生时对应的第一历史信息,或者预警指令无效,故障未发生时对应的第一历史信息以及故障发生时对应的第一历史信息;
确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息;
根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
6.根据权利要求5所述的方法,其特征在于,所述确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息包括:
当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时,确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息。
7.根据权利要求5所述的方法,其特征在于,所述确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息包括:
确定故障未发生时对应的每一第一历史信息中,分别与故障发生时对应的每一第一历史信息不同的子历史信息形成的多个子历史信息集;
确定所述多个子历史信息集中个数最多的目标子历史信息。
8.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:
统计预警指令有效,且故障未发生时对应的多个目标第一历史信息;
根据所述多个目标第一历史信息中包括的子历史信息,确定个数最多的目标子历史信息;
根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
9.一种故障预测装置,其特征在于,包括:
第一获取模块,用于获取系统的第一历史信息;
第一匹配模块,用于将所述第一获取模块获取的所述第一历史信息在预警规则集合中进行匹配;
预警指令生成模块,用于当所述第一匹配模块中所述第一历史信息匹配成功,生成预警指令;
第二获取模块,用于响应所述预警指令生成模块生成的所述预警指令,获取系统的第二历史信息,所述第二历史信息包括所述第一历史信息;
第二匹配模块,用于将所述第二获取模块获取的所述第二历史信息在撤警规则集合中进行匹配,所述撤警规则包括历史信息与系统无故障状态的对应关系;
撤警指令生成模块,用于当所述第二匹配模块中所述第二历史信息匹配成功,生成撤警指令,确定所述预警指令无效。
10.根据权利要求9所述的装置,其特征在于,所述第二获取模块具体用于响应所述预警指令生成模块生成的所述预警指令,当检测到系统生成最新历史信息时,获取系统的第二历史信息。
11.根据权利要求9所述的装置,其特征在于,还包括:
第一提示模块,用于响应所述预警指令生成模块生成的所述预警指令,输出故障提示信息;
第二提示模块,用于响应所述撤警指令生成模块生成的撤警指令,输出所述故障提示信息无效的故障撤销提示信息。
12.根据权利要求9所述的装置,其特征在于,还包括:
确定模块,用于当所述第二匹配模块所述第二历史信息匹配失败,确定所述预警指令有效。
13.根据权利要求9~12任一项所述的装置,其特征在于,还包括:
第一统计模块,用于统计预警指令有效,故障未发生时对应的第一历史信息以及故障发生时对应的第一历史信息,或者预警指令无效,故障未发生时对应的第一历史信息以及故障发生时对应的第一历史信息;
第一信息确定模块,用于确定故障未发生时对应的第一历史信息中,与故障发生时对应的第一历史信息不同的目标子历史信息;
规则生成模块,用于根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
14.根据权利要求13所述的装置,其特征在于,还包括:
检测模块,用于检测预警指令有效或无效时,故障是否发生,当预警指令有效,且故障未发生,或者当预警指令无效,且故障发生时,触发所述第一信息确定模块。
15.根据权利要求13所述装置,其特征在于,所述第一信息确定模块包括:
第一子确定模块,用于确定故障未发生时对应的每一第一历史信息中,分别与故障发生时对应的每一第一历史信息不同的子历史信息形成的多个子历史信息集;
第二子确定模块,用于确定所述多个子历史信息集中个数最多的目标子历史信息。
16.根据权利要求9~12任一项所述的装置,其特征在于,还包括:
第二统计模块,用于统计预警指令有效,且故障未发生时对应的多个目标第一历史信息;
第二信息确定模块,用于根据所述多个目标第一历史信息中包括的子历史信息,确定不同子历史信息中个数最多的目标子历史信息;
规则生成模块,用于根据所述目标子历史信息,生成撤警规则,更新所述撤警规则集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310337288.7A CN104346246B (zh) | 2013-08-05 | 2013-08-05 | 故障预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310337288.7A CN104346246B (zh) | 2013-08-05 | 2013-08-05 | 故障预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104346246A CN104346246A (zh) | 2015-02-11 |
CN104346246B true CN104346246B (zh) | 2017-12-15 |
Family
ID=52501921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310337288.7A Active CN104346246B (zh) | 2013-08-05 | 2013-08-05 | 故障预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104346246B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101378A (zh) * | 2018-07-20 | 2018-12-28 | 郑州云海信息技术有限公司 | 一种自动化测试存储设备历史报表工具的方法及系统 |
CN113807731B (zh) * | 2021-09-28 | 2024-04-09 | 一汽出行科技有限公司 | 车辆预警信息的处理方法、装置、计算机设备及存储介质 |
CN114330769A (zh) * | 2021-12-24 | 2022-04-12 | 深圳优地科技有限公司 | 一种机器人故障预警方法、装置、机器人以及服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101800675A (zh) * | 2010-02-25 | 2010-08-11 | 华为技术有限公司 | 故障监控方法、监控设备及通信系统 |
CN102042909A (zh) * | 2009-10-14 | 2011-05-04 | 中国北车集团大同电力机车有限责任公司 | 机车故障诊断方法和系统 |
CN102809965A (zh) * | 2012-07-30 | 2012-12-05 | 燕山大学 | 一种基于故障频繁模式的液压设备故障预警方法 |
CN203101070U (zh) * | 2012-12-01 | 2013-07-31 | 南车青岛四方机车车辆股份有限公司 | 基于物联网的高速列车走行部故障诊断与远程监测系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7496796B2 (en) * | 2006-01-23 | 2009-02-24 | International Business Machines Corporation | Apparatus, system, and method for predicting storage device failure |
-
2013
- 2013-08-05 CN CN201310337288.7A patent/CN104346246B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102042909A (zh) * | 2009-10-14 | 2011-05-04 | 中国北车集团大同电力机车有限责任公司 | 机车故障诊断方法和系统 |
CN101800675A (zh) * | 2010-02-25 | 2010-08-11 | 华为技术有限公司 | 故障监控方法、监控设备及通信系统 |
CN102809965A (zh) * | 2012-07-30 | 2012-12-05 | 燕山大学 | 一种基于故障频繁模式的液压设备故障预警方法 |
CN203101070U (zh) * | 2012-12-01 | 2013-07-31 | 南车青岛四方机车车辆股份有限公司 | 基于物联网的高速列车走行部故障诊断与远程监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104346246A (zh) | 2015-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231174B (zh) | 异常告警方法、装置、设备及存储介质 | |
US9298525B2 (en) | Adaptive fault diagnosis | |
CN110995482B (zh) | 告警分析方法、装置、计算机设备及计算机可读存储介质 | |
KR20180108446A (ko) | Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법 | |
CN105191257A (zh) | 用于检测多阶段事件的方法和装置 | |
CN110516971A (zh) | 异常检测的方法、装置、介质和计算设备 | |
CN106254137B (zh) | 监管系统的告警根源分析系统及方法 | |
CN105264861A (zh) | 用于检测多阶段事件的方法和设备 | |
CN112308126A (zh) | 故障识别模型训练方法、故障识别方法、装置及电子设备 | |
CN111143167B (zh) | 用于多平台的告警归并方法及装置、设备、存储介质 | |
CN108880845A (zh) | 一种信息提示的方法以及相关装置 | |
CN108919776A (zh) | 一种故障评估方法及终端 | |
CN104346246B (zh) | 故障预测方法和装置 | |
CN106330588A (zh) | 一种bfd检测方法与装置 | |
CN108337108A (zh) | 一种基于关联分析的云平台故障自动化定位方法 | |
CN115794588A (zh) | 内存故障预测方法、装置、系统及监测服务器 | |
CN116418653A (zh) | 基于多指标根因定位算法的故障定位方法及装置 | |
CN110502399A (zh) | 故障检测方法及装置 | |
CN110995506B (zh) | 告警量异常的定位方法、装置、存储介质和计算机设备 | |
CN115378794A (zh) | 一种基于快照模式的网关故障检测方法及装置 | |
JP7303461B2 (ja) | 復旧判定装置、復旧判定方法、および、復旧判定プログラム | |
WO2006062483A1 (en) | Method and system for intelligent traffic incident management | |
CN111095868A (zh) | 软件定义网络中的数据流量管理 | |
CA2843004C (en) | Adaptive fault diagnosis | |
CN113778802B (zh) | 异常预测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |