CN108170581A - 一种故障预警方法、装置及电子设备 - Google Patents

一种故障预警方法、装置及电子设备 Download PDF

Info

Publication number
CN108170581A
CN108170581A CN201711444996.5A CN201711444996A CN108170581A CN 108170581 A CN108170581 A CN 108170581A CN 201711444996 A CN201711444996 A CN 201711444996A CN 108170581 A CN108170581 A CN 108170581A
Authority
CN
China
Prior art keywords
fault
fault correlation
keyword
failure
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711444996.5A
Other languages
English (en)
Inventor
孙琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711444996.5A priority Critical patent/CN108170581A/zh
Publication of CN108170581A publication Critical patent/CN108170581A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Abstract

本发明实施例提供了一种故障预警方法、装置及电子设备,应用于互联网技术领域,所述方法包括:获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例通过历史故障预测当前系统,可以提前预知故障的发生,在故障发生之前发送故障预警消息,提高系统的可用性。

Description

一种故障预警方法、装置及电子设备
技术领域
本发明涉及互联网技术领域,特别是涉及一种故障预警方法、装置及电子设备。
背景技术
目前,互联网技术的发展酝酿出各类分布式系统,这些分布式系统一般都比较复杂,涉及很多个子模块,任何一个子模块出现故障都可能导致整个系统不可用。因此,如何保证整个分布式系统的高可用性,以及快速地恢复故障成为各互联网公司系统运维人员亟待解决的问题。
现有技术中,通常是在故障发生后,通过事后报警发现故障的,例如,可以通过zabbix等监控系统发现故障,并进行处理。其中,zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案,zabbix可以监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让运维人员快速定位/解决存在的各种问题。可见,当运维人员收到故障报警的时候,故障已经发生了,虽然事后报警的行为可以达到快速恢复故障的目的,但是导致整个分布式系统的可用性较低。
发明内容
本发明实施例的目的在于提供一种故障预警方法、装置及电子设备,以提前预知故障的发生,提高系统的可用性。具体技术方案如下:
本发明实施例提供了一种故障预警方法,所述方法包括:
获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断所述当前系统日志中是否包含故障关联关键词,所述故障关联关键词是所述故障关联规则中的关键词,所述故障关联规则是根据历史故障事件对应的历史故障日志建立的;
若所述当前系统日志中包含故障关联关键词,判断所述故障关联关键词是否符合所述故障关联规则中的故障发生条件;
若所述故障关联关键词符合所述故障发生条件,确定所述系统即将发生故障,发送故障预警消息。
可选的,所述故障关联规则的建立方式包括:
获取多个历史故障事件以及所述多个历史故障事件分别对应的历史故障日志中的故障关联关键词;
通过神经网络对历史故障事件以及故障关联关键词进行学习,得到故障关联规则,其中,所述故障关联规则包括:故障关联关键词和故障关联事件的对应关系。
可选的,所述判断所述故障关联关键词是否符合所述故障关联规则中的故障发生条件,包括:
判断所述故障关联关键词出现的频率是否大于预设频率阈值,所述预设频率阈值是在所述故障关联规则中设置的值;
所述故障关联关键词符合所述故障发生条件具体为:所述故障关联关键词出现的频率大于预设频率阈值。
可选的,所述确定所述系统即将发生故障,发送故障预警消息,包括:
确定所述系统即将发生所述故障关联关键词对应的故障关联事件,发送所述故障关联事件对应的故障预警消息。
可选的,若所述故障关联关键词的个数为多个,
所述判断所述故障关联关键词出现的频率是否大于预设频率阈值,包括:
分别判断各故障关联关键词出现的频率是否大于所述各故障关联关键词对应的预设频率阈值。
本发明实施例提供了一种故障预警装置,所述装置包括:
当前系统日志判断模块,用于获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断所述当前系统日志中是否包含故障关联关键词,所述故障关联关键词是所述故障关联规则中的关键词,所述故障关联规则是根据历史故障事件对应的历史故障日志建立的;
故障发生条件判断模块,用于若所述当前系统日志中包含故障关联关键词,判断所述故障关联关键词是否符合所述故障关联规则中的故障发生条件;
故障预警模块,用于若所述故障关联关键词符合所述故障发生条件,确定所述系统即将发生故障,发送故障预警消息。
可选的,本发明实施例的故障预警装置,还包括:
历史故障获取模块,用于获取多个历史故障事件以及所述多个历史故障事件分别对应的历史故障日志中的故障关联关键词;
故障关联规则建立模块,用于通过神经网络对历史故障事件以及故障关联关键词进行学习,得到故障关联规则,其中,所述故障关联规则包括:故障关联关键词和故障关联事件的对应关系。
可选的,所述故障发生条件判断模块具体用于,判断所述故障关联关键词出现的频率是否大于预设频率阈值,所述预设频率阈值是在所述故障关联规则中设置的值;所述故障关联关键词符合所述故障发生条件具体为:所述故障关联关键词出现的频率大于预设频率阈值。
可选的,所述故障预警模块具体用于,确定所述系统即将发生所述故障关联关键词对应的故障关联事件,发送所述故障关联事件对应的故障预警消息。
可选的,若所述故障关联关键词的个数为多个,
所述故障发生条件判断模块具体用于,分别判断各故障关联关键词出现的频率是否大于所述各故障关联关键词对应的预设频率阈值。
本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一所述的故障预警方法的步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的故障预警方法的步骤。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的故障预警方法的步骤。
本发明实施例提供的故障预警方法、装置及电子设备,通过获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例根据历史故障预测当前系统,可以提前预知故障的发生,并在故障发生之前发送故障预警消息,这样,系统运维人员可以采取相应的措施,提高系统的可用性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例的故障预警方法的流程图;
图2为本发明实施例的故障关联规则的建立方式的流程图;
图3为本发明实施例的故障预警装置的结构图;
图4为本发明实施例的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决现有技术中,在故障发生之后才能发现故障的问题,本发明实施例提供了一种故障预警方法、装置及电子设备,以提前预知故障的发生,提高系统的可用性。
下面首先对本发明实施例所提供的故障预警方法进行详细介绍。
参见图1,图1为本发明实施例的故障预警方法的流程图,包括以下步骤:
S101,获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的。
具体的,系统在运行时生成相应的日志,通过该日志可以查看系统的运行状态,尤其在发生故障时,可以通过日志对发生故障的原因进行定位。本发明实施例中,当前系统日志也就是系统运行时实时生成的日志。由于在故障发生之前,可以生成预示即将发生该故障的相关日志,因此,故障关联规则是通过对历史故障进行分析,确定故障发生前生成日志的规律,得到的日志与即将发生的故障之间的联系。例如,对于ActiveMQ系统,服务端的桥接断开会导致消息在两个broker之间无法流通,最终导致消费者无法消费消息,桥接断开一般是由于系统中存在慢消费者导致的,所以在桥接断开前,将有慢消费相关的日志出现。
本发明实施例中,由于日志中包含很多信息,而导致故障发生的信息通常为日志中的关键词,故障关联关键词即为导致故障发生的关键词,因此,故障关联规则包括:故障关联关键词和故障关联事件之间的对应关系。故障关联关键词是故障关联规则中的关键词,故障关联关键词是根据历史故障日志得到的。那么,在得到当前系统日志之后,可以通过判断当前系统日志中是否包含故障关联关键词,进而判断系统是否即将发生故障。下文将对故障关联规则的建立方法进行详细描述,在此不再赘述。
S102,若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件。
需要说明的是,如果当前系统日志中包含故障关联关键词,表明系统可能即将发生故障。那么,需要进一步判断当前系统日志中的故障关联关键词是否符合故障关联规则中的故障发生条件。其中,故障发生条件指的是导致故障发生的条件,当然,故障发生条件是在建立故障关联规则的时候建立的,并且不同故障对应的故障发生条件可以是不同的。
S103,若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。
本发明实施例中,如果故障关联关键词符合故障发生条件,那么可以确定系统即将发生故障,发送故障预警消息。这样,系统运维人员在收到故障预警消息之后,采取相应的措施,防止故障的发生。
本发明实施例提供的故障预警方法,通过获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例根据历史故障预测当前系统,可以提前预知故障的发生,并在故障发生之前发送故障预警消息,这样,系统运维人员可以采取相应的措施,提高系统的可用性。
图1实施例中故障关联规则的建立方式的流程可参见图2,包括以下步骤:
S201,获取多个历史故障事件以及多个历史故障事件分别对应的历史故障日志中的故障关联关键词。
本发明实施例中,故障关联规则是根据发生故障的历史故障事件以及历史故障事件对应的历史故障日志建立的,即,从发生故障的历史故障事件中确定发生故障的规律。那么,首先需要获取多个历史故障事件以及多个历史故障事件分别对应的历史故障日志中的故障关联关键词。当然,获取的历史故障事件越多,得到的故障关联规则将越准确。
举例而言,某些慢消费者的出现,会被消息系统broker发现,并将这些消费者标记为慢消费者。如果消费者没有做出变更,会持续不断地打印以下日志:
2017-11-08 17:32:50,269|WARN|TopicSubscription:consumer has twice itsprefetch limit pending,without an ack;it appears to be slow
2017-11-08 17:32:50,269|WARN|TopicSubscription:consumer has twice itsprefetch limit pending,without an ack;it appears to be slow
2017-11-08 17:32:50,269|WARN|TopicSubscription:consumer has twice itsprefetch limit pending,without an ack;it appears to be slow
2017-11-08 17:32:51,269|WARN|TopicSubscription:consumer has twice itsprefetch limit pending,without an ack;it appears to be slow
2017-11-08 17:32:51,269|WARN|TopicSubscription:consumer has twice itsprefetch limit pending,without an ack;it appears to be slow
……
如果大量的慢消费者长时间出现,会导致两个broker之间的桥接断开,会出现以下日志:
2017-11-08 17:40:55,269|ERROR|TopicSubscription:The bridge betweenbrokers is broken
……
当上述情况出现的时候,说明已经开始对服务可用性产生了影响。
从以上历史故障事件对应的历史故障日志中,可以提取出故障关联关键词slow、prefetch limit、consumer,相应的历史故障事件为The bridge between brokers isbroken。
S202,通过神经网络对历史故障事件以及故障关联关键词进行学习,得到故障关联规则,其中,故障关联规则包括:故障关联关键词和故障关联事件的对应关系。
本发明实施例中,可以从历史故障事件对应的历史故障日志中获取故障关联关键词,通过神经网络对历史故障事件和历史故障事件对应的故障关联关键词进行学习,可以得到故障关联关键词和故障关联事件的对应关系。其中,故障关联关键词和故障关联事件的对应关系还包括故障发生条件,也就是说,故障关联关键词满足某种条件才可能导致故障关联事件的发生。当然,通过数学算法得到故障关联关键词和故障关联事件的对应关系也都是可以的。
例如,S201中的历史故障日志,通过本发明实施例的关联规则学习,可以得到以下规则:
“slow”、“prefetch limit”和“prefetch limit”同时出现,并且三个故障关联关键词出现的频率Count(“slow”、“prefetch limit”、“consumer”)>50,将导致故障事件(Thebridge between brokers is broken)的发生。
本发明实施例可以对历史故障日志进行分析,得到故障关联规则,之后,根据故障关联规则对系统日志进行实时分析,实现提前预警的目的。
本发明的一种实现方式中,判断故障关联关键词是否符合故障关联规则中的故障发生条件,包括:
判断故障关联关键词出现的频率是否大于预设频率阈值,预设频率阈值是在故障关联规则中设置的值,故障关联关键词符合故障发生条件具体为:故障关联关键词出现的频率大于预设频率阈值。
本发明实施例中,故障发生条件可以是故障关联关键词大于预设频率阈值,当然,不同故障关联关键词对应的预设频率阈值可以是不同的。判断故障关联关键词是否符合故障关联规则中的故障发生条件的方法并不唯一,也就是说,通过不同的算法得到的故障发生条件可以是不同的。例如,判断故障关联关键词是否符合故障关联规则中的故障发生条件可以为,判断故障关联关键词出现的频率是否大于预设频率阈值,还可以为判断故障关联关键词出现的概率是否大于预设概率阈值等。若故障关联关键词出现的频率大于预设频率阈值,则确定该故障关联关键词对应的故障关联事件即将发生,发送故障关联事件对应的故障预警消息。这样,可以根据不同的故障预警消息,确定即将发生哪种故障。
其中,若故障关联关键词的个数为多个,判断故障关联关键词出现的频率是否大于预设频率阈值,包括:
分别判断各故障关联关键词出现的频率是否大于各故障关联关键词对应的预设频率阈值。
本发明实施例中,可以是一个故障关联关键词导致某种故障的发生,还可以是多个故障关联关键词导致某种故障的发生,若故障关联关键词的个数为多个,分别判断各故障关联关键词出现的频率是否大于各故障关联关键词对应的预设频率阈值。根据多个故障关联关键词,可以更准确地判断故障是否即将发生。
本发明实施例还提供了一种故障预警装置,参见图3,图3为本发明实施例的故障预警装置的结构图,包括:
当前系统日志判断模块301,用于获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;
故障发生条件判断模块302,用于若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;
故障预警模块303,用于若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。
本发明实施例提供的故障预警装置,通过获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例根据历史故障预测当前系统,可以提前预知故障的发生,并在故障发生之前发送故障预警消息,这样,系统运维人员可以采取相应的措施,提高系统的可用性。
需要说明的是,本发明实施例的装置是应用上述故障预警方法的装置,则上述故障预警方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
可选的,本发明实施例的故障预警装置,还包括:
历史故障获取模块,用于获取多个历史故障事件以及多个历史故障事件分别对应的历史故障日志中的故障关联关键词;
故障关联规则建立模块,用于通过神经网络对历史故障事件以及故障关联关键词进行学习,得到故障关联规则,其中,故障关联规则包括:故障关联关键词和故障关联事件的对应关系。
可选的,故障发生条件判断模块具体用于,判断故障关联关键词出现的频率是否大于预设频率阈值,预设频率阈值是在故障关联规则中设置的值,故障关联关键词符合故障发生条件具体为:故障关联关键词出现的频率大于预设频率阈值。
可选的,故障预警模块具体用于,确定系统即将发生故障关联关键词对应的故障关联事件,发送故障关联事件对应的故障预警消息。
可选的,本发明实施例的故障预警装置中,若故障关联关键词的个数为多个,故障发生条件判断模块具体用于,分别判断各故障关联关键词出现的频率是否大于各故障关联关键词对应的预设频率阈值。
本发明实施例还提供了一种电子设备,参见图4,图4为本发明实施例的电子设备的结构图,包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402、存储器403通过通信总线404完成相互间的通信;
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述实施例中任一故障预警方法的步骤。
需要说明的是,上述电子设备提到的通信总线404可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述电子设备与其他设备之间的通信。
存储器403可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器401可以是通用处理器,包括:CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,本发明实施例的电子设备中,处理器通过执行存储器上所存放的程序,通过获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例根据历史故障预测当前系统,可以提前预知故障的发生,并在故障发生之前发送故障预警消息,这样,系统运维人员可以采取相应的措施,提高系统的可用性。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一故障预警方法的步骤。
本发明实施例的计算机可读存储介质中存储的指令在计算机上运行时,通过获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例根据历史故障预测当前系统,可以提前预知故障的发生,并在故障发生之前发送故障预警消息,这样,系统运维人员可以采取相应的措施,提高系统的可用性。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一故障预警方法的步骤。
可见,本发明实施例的计算机程序产品,当其在计算机上运行时,通过获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断当前系统日志中是否包含故障关联关键词,故障关联关键词是故障关联规则中的关键词,故障关联规则是根据历史故障事件对应的历史故障日志建立的;若当前系统日志中包含故障关联关键词,判断故障关联关键词是否符合故障关联规则中的故障发生条件;若故障关联关键词符合故障发生条件,确定系统即将发生故障,发送故障预警消息。本发明实施例根据历史故障预测当前系统,可以提前预知故障的发生,并在故障发生之前发送故障预警消息,这样,系统运维人员可以采取相应的措施,提高系统的可用性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD(Solid State Disk,固态硬盘))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于故障预警装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种故障预警方法,其特征在于,所述方法包括:
获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断所述当前系统日志中是否包含故障关联关键词,所述故障关联关键词是所述故障关联规则中的关键词,所述故障关联规则是根据历史故障事件对应的历史故障日志建立的;
若所述当前系统日志中包含故障关联关键词,判断所述故障关联关键词是否符合所述故障关联规则中的故障发生条件;
若所述故障关联关键词符合所述故障发生条件,确定所述系统即将发生故障,发送故障预警消息。
2.根据权利要求1所述的故障预警方法,其特征在于,所述故障关联规则的建立方式包括:
获取多个历史故障事件以及所述多个历史故障事件分别对应的历史故障日志中的故障关联关键词;
通过神经网络对历史故障事件以及故障关联关键词进行学习,得到故障关联规则,其中,所述故障关联规则包括:故障关联关键词和故障关联事件的对应关系。
3.根据权利要求1所述的故障预警方法,其特征在于,所述判断所述故障关联关键词是否符合所述故障关联规则中的故障发生条件,包括:
判断所述故障关联关键词出现的频率是否大于预设频率阈值,所述预设频率阈值是在所述故障关联规则中设置的值;
所述故障关联关键词符合所述故障发生条件具体为:所述故障关联关键词出现的频率大于预设频率阈值。
4.根据权利要求1所述的故障预警方法,其特征在于,所述确定所述系统即将发生故障,发送故障预警消息,包括:
确定所述系统即将发生所述故障关联关键词对应的故障关联事件,发送所述故障关联事件对应的故障预警消息。
5.根据权利要求3所述的故障预警方法,其特征在于,若所述故障关联关键词的个数为多个,
所述判断所述故障关联关键词出现的频率是否大于预设频率阈值,包括:
分别判断各故障关联关键词出现的频率是否大于所述各故障关联关键词对应的预设频率阈值。
6.一种故障预警装置,其特征在于,所述装置包括:
当前系统日志判断模块,用于获取系统在运行时生成的当前系统日志,根据预先建立的故障关联规则,判断所述当前系统日志中是否包含故障关联关键词,所述故障关联关键词是所述故障关联规则中的关键词,所述故障关联规则是根据历史故障事件对应的历史故障日志建立的;
故障发生条件判断模块,用于若所述当前系统日志中包含故障关联关键词,判断所述故障关联关键词是否符合所述故障关联规则中的故障发生条件;
故障预警模块,用于若所述故障关联关键词符合所述故障发生条件,确定所述系统即将发生故障,发送故障预警消息。
7.根据权利要求6所述的故障预警装置,其特征在于,所述装置还包括:
历史故障获取模块,用于获取多个历史故障事件以及所述多个历史故障事件分别对应的历史故障日志中的故障关联关键词;
故障关联规则建立模块,用于通过神经网络对历史故障事件以及故障关联关键词进行学习,得到故障关联规则,其中,所述故障关联规则包括:故障关联关键词和故障关联事件的对应关系。
8.根据权利要求6所述的故障预警装置,其特征在于,所述故障发生条件判断模块具体用于,判断所述故障关联关键词出现的频率是否大于预设频率阈值,所述预设频率阈值是在所述故障关联规则中设置的值;所述故障关联关键词符合所述故障发生条件具体为:所述故障关联关键词出现的频率大于预设频率阈值。
9.根据权利要求6所述的故障预警装置,其特征在于,所述故障预警模块具体用于,确定所述系统即将发生所述故障关联关键词对应的故障关联事件,发送所述故障关联事件对应的故障预警消息。
10.根据权利要求8所述的故障预警装置,其特征在于,若所述故障关联关键词的个数为多个,
所述故障发生条件判断模块具体用于,分别判断各故障关联关键词出现的频率是否大于所述各故障关联关键词对应的预设频率阈值。
11.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一所述的故障预警方法的步骤。
CN201711444996.5A 2017-12-27 2017-12-27 一种故障预警方法、装置及电子设备 Pending CN108170581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711444996.5A CN108170581A (zh) 2017-12-27 2017-12-27 一种故障预警方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711444996.5A CN108170581A (zh) 2017-12-27 2017-12-27 一种故障预警方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN108170581A true CN108170581A (zh) 2018-06-15

Family

ID=62518317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711444996.5A Pending CN108170581A (zh) 2017-12-27 2017-12-27 一种故障预警方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108170581A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002031A (zh) * 2018-06-26 2018-12-14 卡斯柯信号有限公司 一种应用于监测系统设备故障诊断及智能预警的方法
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN109710585A (zh) * 2018-08-20 2019-05-03 平安普惠企业管理有限公司 多系统关联预警方法、装置、设备及计算机可读存储介质
CN110417575A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 运维监控平台的告警方法、装置和计算机设备
CN110647446A (zh) * 2018-06-26 2020-01-03 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
CN110718022A (zh) * 2018-07-13 2020-01-21 中兴通讯股份有限公司 智能电表的告警方法、服务器及计算机可读存储介质
CN111177095A (zh) * 2019-12-10 2020-05-19 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN113447290A (zh) * 2021-06-25 2021-09-28 上海三一重机股份有限公司 一种工程机械故障预警方法、装置及工程机械

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3635257B2 (ja) * 2001-10-19 2005-04-06 株式会社野村総合研究所 異常入力検出装置
CN102752624A (zh) * 2012-06-08 2012-10-24 深圳创维-Rgb电子有限公司 电视机故障远程诊断的方法、电视机及系统
CN103760901A (zh) * 2013-12-31 2014-04-30 北京泰乐德信息技术有限公司 一种基于关联规则分类器的轨道交通故障识别方法
CN104881354A (zh) * 2015-06-30 2015-09-02 北京奇虎科技有限公司 云盘监控方法及装置
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置
CN106021062A (zh) * 2016-05-06 2016-10-12 广东电网有限责任公司珠海供电局 关联故障的预测方法和系统
CN106202511A (zh) * 2016-07-21 2016-12-07 浪潮(北京)电子信息产业有限公司 一种基于日志分析的告警方法和系统
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3635257B2 (ja) * 2001-10-19 2005-04-06 株式会社野村総合研究所 異常入力検出装置
CN102752624A (zh) * 2012-06-08 2012-10-24 深圳创维-Rgb电子有限公司 电视机故障远程诊断的方法、电视机及系统
CN103760901A (zh) * 2013-12-31 2014-04-30 北京泰乐德信息技术有限公司 一种基于关联规则分类器的轨道交通故障识别方法
CN104881354A (zh) * 2015-06-30 2015-09-02 北京奇虎科技有限公司 云盘监控方法及装置
CN105740121A (zh) * 2016-01-26 2016-07-06 中国银行股份有限公司 一种日志文本监控与预警方法、装置
CN106021062A (zh) * 2016-05-06 2016-10-12 广东电网有限责任公司珠海供电局 关联故障的预测方法和系统
CN106202511A (zh) * 2016-07-21 2016-12-07 浪潮(北京)电子信息产业有限公司 一种基于日志分析的告警方法和系统
CN107341068A (zh) * 2017-06-28 2017-11-10 北京优特捷信息技术有限公司 通过自然语言处理进行运维排障的方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647446B (zh) * 2018-06-26 2023-02-21 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
CN109002031A (zh) * 2018-06-26 2018-12-14 卡斯柯信号有限公司 一种应用于监测系统设备故障诊断及智能预警的方法
WO2020001077A1 (zh) * 2018-06-26 2020-01-02 卡斯柯信号有限公司 一种应用于监测系统设备故障诊断及智能预警的方法
CN110647446A (zh) * 2018-06-26 2020-01-03 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
US11809269B2 (en) 2018-06-26 2023-11-07 Casco Signal Co., Ltd. Fault diagnosis and intelligent warning method for monitoring system device
CN110718022A (zh) * 2018-07-13 2020-01-21 中兴通讯股份有限公司 智能电表的告警方法、服务器及计算机可读存储介质
CN109710585A (zh) * 2018-08-20 2019-05-03 平安普惠企业管理有限公司 多系统关联预警方法、装置、设备及计算机可读存储介质
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN110417575A (zh) * 2019-06-17 2019-11-05 平安科技(深圳)有限公司 运维监控平台的告警方法、装置和计算机设备
CN111177095B (zh) * 2019-12-10 2023-10-27 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111177095A (zh) * 2019-12-10 2020-05-19 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN113447290B (zh) * 2021-06-25 2022-11-29 上海三一重机股份有限公司 一种工程机械故障预警方法、装置及工程机械
WO2022267879A1 (zh) * 2021-06-25 2022-12-29 上海三一重机股份有限公司 一种工程机械故障预警方法、装置及工程机械
CN113447290A (zh) * 2021-06-25 2021-09-28 上海三一重机股份有限公司 一种工程机械故障预警方法、装置及工程机械

Similar Documents

Publication Publication Date Title
CN108170581A (zh) 一种故障预警方法、装置及电子设备
US10585774B2 (en) Detection of misbehaving components for large scale distributed systems
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
CN110275814A (zh) 一种业务系统的监控方法及装置
CN109088775B (zh) 异常监控方法、装置以及服务器
CN108681496A (zh) 磁盘故障的预测方法、装置及电子设备
KR102440335B1 (ko) 이상 감지 관리 방법 및 그 장치
US9524223B2 (en) Performance metrics of a computer system
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN108418710B (zh) 一种分布式监控系统、方法及装置
US20160308747A1 (en) Determining a risk level for server health check processing
US20160110653A1 (en) Method and apparatus for predicting a service call for digital printing equipment from a customer
EP3729117B1 (en) Apparatus for monitoring an actuator system, method for providing an apparatus for monitoring an actuator system and method for monitoring an actuator system
US20170364401A1 (en) Monitoring peripheral transactions
CN110837457A (zh) 任务管理方法、装置、电子设备及存储介质
US10990090B2 (en) Apparatus and method for automatic detection and classification of industrial alarms
CN112532435A (zh) 一种运维方法、运维管理平台、设备及介质
CN108400885A (zh) 一种服务可用性检测方法、装置及电子设备
CN116502166A (zh) 一种基于其他设备数据的预测方法、装置、设备和介质
WO2018035765A1 (zh) 网络异常的检测方法及装置
CN106533812A (zh) 一种应用服务器
US20140188772A1 (en) Computer-implemented methods and systems for detecting a change in state of a physical asset
CN115150289B (zh) 基于复合监控的异常处理方法及系统
Wang et al. Reliability of systems subject to competing failure propagation and probabilistic failure isolation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615