CN107370618B - 故障排查方法、装置及电子设备 - Google Patents

故障排查方法、装置及电子设备 Download PDF

Info

Publication number
CN107370618B
CN107370618B CN201710416427.3A CN201710416427A CN107370618B CN 107370618 B CN107370618 B CN 107370618B CN 201710416427 A CN201710416427 A CN 201710416427A CN 107370618 B CN107370618 B CN 107370618B
Authority
CN
China
Prior art keywords
task
monitoring index
index sequence
type
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710416427.3A
Other languages
English (en)
Other versions
CN107370618A (zh
Inventor
胡嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710416427.3A priority Critical patent/CN107370618B/zh
Publication of CN107370618A publication Critical patent/CN107370618A/zh
Application granted granted Critical
Publication of CN107370618B publication Critical patent/CN107370618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种故障排查方法及装置。该方法包括:获得故障报警信息;根据故障报警信息,确定发生故障的第一任务;根据预存的任务注册信息表,确定第一任务所对应的运行参数值,运行参数值包括:第一类运行参数值和/或第二类运行参数值,第一类运行参数值包括:第一预设时间段内在第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的运维操作的数量及运维操作出现故障的数量,第二类运行参数值包括:第二预设时间段内第一任务的异常监控指标对应的第一监控指标序列以及与第一任务相关的至少一个第二任务的第二监控指标序列;根据运行参数值确定第一任务对应的故障评估值;根据故障评估值,确定第一任务的故障原因。

Description

故障排查方法、装置及电子设备
技术领域
本发明涉及系统服务技术领域,特别是涉及一种故障排查方法、装置及电子设备。
背景技术
在日常运维中,当运行的任务发生故障时,需要对发生故障的原因进行排查,从而分析故障发生的原因,避免同样的故障再次发生。在复杂的系统中,一个任务通常会与多个其他任务相关,且通常会依赖多种不同的资源。任务故障,可能是由任务本身的逻辑错误导致的,也可能是由于运维操作导致,也可能是由系统中其他任务的故障而导致,可以看出,故障的成因是复杂的,想要追踪故障的根本原因比较困难。
例如,一个在yarn集群上运行的流任务,通过消息系统接收流式数据输入,然后将结果存储至couchbase、hbase等多个数据库中。某次故障可能是由于消息系统的运维人员为其他任务的消息队列进行扩容操作,导致消息系统发生消息堆积,从而导致当前任务发生故障;又或者是由于网络通信发生故障,导致当前任务发生故障。可见,对于这种情况,从任务本身进行排查通常无法发现真实的起因。
又例如,一个流任务的输入数据来自于另一个流任务的输出数据,两者通过消息系统进行数据传输。当上游的流任务发生故障时,可能会传导至下游任务,导致下游任务也发生故障。
目前的故障排查方式通常是由运维人员通过调试任务,根据经验对故障进行复现,再分析可能的原因。但是,从以上两个例子可以看出,实际应用中,故障的成因是不同的,如果直接对故障进行排查,可能会缺少明确的排查目标。因此,现有的人工排查故障的方式缺乏针对性,效率较低。
发明内容
本发明实施例的目的在于提供一种故障排查方法、装置、电子设备及计算机可读存储介质,以提供故障产生的原因,实现有针对性的排查故障,提高故障排查的效率。具体技术方案如下:
一种故障排查方法,包括:
获得故障报警信息;
根据所述故障报警信息,确定发生故障的第一任务;
根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值,其中,所述运行参数值包括:第一类运行参数值和/或第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列;
根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;
根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。
如上所述的方法,其中,所述运行参数值包括所述第一类运行参数值,所述根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值,包括:
利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;
将各所述第一任务产生故障的可能性分数确定为所述第一任务所对应的故障评估值。
如上所述的方法,其中,所述运行参数值包括所述第二类运行参数值,所述根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值,包括:
利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;
将所述第一监控指标序列与各第二监控指标序列之间的相关性确定为所述第一任务所对应的故障评估值。
如上所述的方法,其中,所述运行参数值包括所述第一类运行参数值和所述第二类运行参数值,所述根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值,包括:
利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;以及,
利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;
将各所述第一任务产生故障的可能性分数以及所述第一监控指标序列与各第二监控指标序列之间的相关性,确定为所述第一任务所对应的故障评估值。
如上所述的方法,其中,所述预定分数计算公式为:
Figure BDA0001313182560000031
其中,s(Fau|Opt)表示所述第一任务产生故障的可能性分数,Opt表示所述运维操作的类型,N(Opt)表示所述Opt类型的运维操作的数量,N(Fau,Opt)表示所述Opt类型的运维操作出现故障的数量。
如上所述的方法,其中,所述预设相关性计算公式为:
Figure BDA0001313182560000032
其中,r(d)表示所述第一监控指标序列与所述第二监控指标序列之间的相关性,x(i)表示所述第一监控指标序列x中第i个值,y(i)表示所述第二监控指标序列y中第i个值,mx、my分别表示所述第一监控指标序列x和所述第二监控指标序列y的均值,d表示所述第一监控指标序列和所述第二监控指标序列之间的时间延迟。
如上所述的方法,其中,所述根据所确定出的故障评估值,确定所述第一任务所对应的故障原因,包括:
分别判断各个所述第一任务产生故障的可能性分数是否大于第一预设阈值;
将第一运维操作确定为所述第一任务发生故障的原因,所述第一运维操作为大于所述第一预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作。
如上所述的方法,其中,所述根据所确定出的故障评估值,确定所述第一任务所对应的故障原因,包括:
分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第二预设阈值;
将第二任务发生故障确定为所述第一任务发生故障的原因,所述第二任务为第一序列所对应的任务,所述第一序列为所对应相关性大于所述第二预设阈值的第二监控指标序列。
如上所述的方法,其中,所述第二任务发生故障包括:
所述第二任务本身的逻辑发生故障,或者,所述第二任务所依赖的资源发生故障。
如上所述的方法,其中,所述根据所确定出的故障评估值,确定所述第一任务所对应的故障原因,包括:
分别判断各个所述第一任务产生故障的可能性分数是否大于第三预设阈值;以及分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第四预设阈值;
将第三运维操作以及第三任务发生故障确定为所述第一任务发生故障的原因,所述第三运维操作为大于所述第三预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作,所述第三任务为第二序列所对应的任务,所述第二序列为所对应相关性大于所述第四预设阈值的第二监控指标序列。
一种故障排查装置,包括:
获得模块,用于获得故障报警信息;
第一确定模块,用于根据所述故障报警信息,确定发生故障的第一任务;
第二确定模块,用于根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值,其中,所述运行参数值包括:第一类运行参数值和/或第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列;
第三确定模块,用于根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;
第四确定模块,用于根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。
如上所述的装置,其中,所述运行参数值包括所述第一类运行参数值,所述第三确定模块包括:
第一计算子模块,用于利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;
第一确定子模块,用于将各所述第一任务产生故障的可能性分数确定为所述第一任务所对应的故障评估值。
如上所述的装置,其中,所述运行参数值包括所述第二类运行参数值,所述第三确定模块包括:
第二计算子模块,用于利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;
第二确定子模块,用于将所述第一监控指标序列与各第二监控指标序列之间的相关性确定为所述第一任务所对应的故障评估值。
如上所述的装置,其中,所述运行参数值包括所述第一类运行参数值和所述第二类运行参数值,所述第三确定模块具体用于:
第三计算子模块,用于利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;以及,利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;
第三确定子模块,用于将各所述第一任务产生故障的可能性分数以及所述第一监控指标序列与各第二监控指标序列之间的相关性,确定为所述第一任务所对应的故障评估值。
如上所述的装置,其中,所述预定分数计算公式为:
Figure BDA0001313182560000061
其中,s(Fau|Opt)表示所述第一任务产生故障的可能性分数,Opt表示所述运维操作的类型,N(Opt)表示所述Opt类型的运维操作的数量,N(Fau,Opt)表示所述Opt类型的运维操作出现故障的数量。
如上所述的装置,其中,所述预设相关性计算公式为:
Figure BDA0001313182560000062
其中,r(d)表示所述第一监控指标序列与所述第二监控指标序列之间的相关性,x(i)表示所述第一监控指标序列x中第i个值,y(i)表示所述第二监控指标序列y中第i个值,mx、my分别表示所述第一监控指标序列x和所述第二监控指标序列y的均值,d表示所述第一监控指标序列和所述第二监控指标序列之间的时间延迟。
如上所述的装置,其中,所述第四确定模块包括:
第一判断子模块,用于分别判断各个所述第一任务产生故障的可能性分数是否大于第一预设阈值;
第四确定子模块,用于将第一运维操作确定为所述第一任务发生故障的原因,所述第一运维操作为大于所述第一预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作。
如上所述的装置,其中,所述第四确定模块包括:
第二判断子模块,用于分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第二预设阈值;
第五确定子模块,用于将第二任务发生故障确定为所述第一任务发生故障的原因,所述第二任务为第一序列所对应的任务,所述第一序列为所对应相关性大于所述第二预设阈值的第二监控指标序列。
如上所述的装置,其中,所述第二任务发生故障包括:
所述第二任务本身的逻辑发生故障,或者,所述第二任务所依赖的资源发生故障。
如上所述的装置,其中,所述第四确定模块包括:
第三判断子模块,用于分别判断各个所述第一任务产生故障的可能性分数是否大于第三预设阈值;以及分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第四预设阈值;
第六确定子模块,用于将第三运维操作以及第三任务发生故障确定为所述第一任务发生故障的原因,所述第三运维操作为大于所述第三预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作,所述第三任务为第二序列所对应的任务,所述第二序列为所对应相关性大于所述第四预设阈值的第二监控指标序列。
本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明所述的故障排查方法步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的故障排查方法步骤。
本发明实施例提供的故障排查方法、装置及电子设备计算机可读存储介质,该方法通过获得故障报警信息;根据所述故障报警信息,确定发生故障的第一任务;根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值;根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。可见,本方案在确定发生故障的任务的故障原因时基于该任务对应的运行参数值,考虑到了任务的实际运行状态,而并非人工通过经验分析,因此,可以实现有针对性的故障排查,从而提高故障排查的效率。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的故障排查方法的流程图;
图2为本发明实施例提供的故障排查装置的结构示意图;
图3为本发明实施例提供的电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决现有技术问题,本发明实施例提供了故障排查方法及装置。
下面首先对本发明实施例所提供的故障排查方法进行介绍。
需要说明的是,本发明实施例所提供的故障排查方法可以运行于电子设备中,该电子设备可以终端设备,也可以为服务器,这都是合理的。另外,本实施例提供的故障排查方法具体可以由故障排查装置执行,即本发明实施例所提供的故障排查方法的执行主体为故障排查装置。
图1为本发明实施例提供的故障排查方法的流程图。如图1所示,本实施例提供的故障排查方法,可以包括:
步骤101、获得故障报警信息。
具体的,所述故障报警信息是通过监控或用户报障获得的,当然并不局限于此。具体的,监控的方式有很多,例如,对任务和任务所依赖的资源的相关指标进行监控,当这些相关指标的数值出现异常大或异常小的情况,会发出该任务发生故障的警告;用户报障通常是用户在使用服务或资源的过程中出现故障,向运维人员报告。
步骤102、根据所述故障报警信息,确定发生故障的第一任务。
其中,在获得故障报警信息后,可以首先根据故障报警信息来确定出发生故障的第一任务,进而排查引发该第一任务故障的因素。例如,接到用户的报障电话,根据用户报障的内容,获知发生故障的第一任务,或者,故障排查装置检测到任务或任务所依赖的资源的相关指标的数值出现异常发出的警告,根据该警告确定发生故障的第一任务。可以理解的是,可以采用现有技术来实现根据所述故障报警信息,确定发生故障的第一任务的过程。
步骤103、根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值。
其中,所述运行参数值包括:第一类运行参数值和/或第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列。
可以理解的是,资源类的故障起因,通常是由于运维人员对资源进行不当运维操作后,导致相关任务发生故障,或者是由于资源本身发生故障导致相关任务发生故障。对于运维操作导致的故障,本实施例中,通过对运维操作进行注册,来分析运维操作与故障之间的关系;对于资源本身的故障,可以通过对资源的相关指标进行监控,将资源和任务的监控指标进行关联分析,获得两者之间的关系。因此,在分析资源类的故障起因时,本实施例中,在确定发生故障的第一任务后,可以确定与所述第一任务对应的第一类运行参数值,即,确定第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量。对于上下游任务故障传导导致的故障,本实施例中,是通过对上下游任务的一些指标进行监控,分析任务的监控指标序列之间的相关性来确定。在分析故障起因时,需要确定在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列。当然,对于某些特定的任务,为了提高排查的全面性,可以同时利用第一第一类运行参数值和第二类运行参数值。其中,某些特定的内容可以是系统或人为规定的任务,在此不做限定。
需要说明的是,故障排查装置会对系统中所进行的所有运维操作进行注册,同时也会对系统中的资源以及任务进行监控。实际应用中,对于运维操作,故障排查装置会根据操作类型进行记录,比如,扩容业务、迁移业务、添加业务、删除业务等;对于任务的监控,监控指标通常根据任务的不同可以包含:心跳监控、吞吐量监控、堆积监控等,对于资源的监控,监控指标可以包含:CPU监控、内存监控、磁盘监控、网络监控等。本实施例对此不进行限制。
步骤104、根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值。
在确定出所述第一任务所对应的运行参数值后,可以根据运行参数值的具体类型以及具体数值,来确定所述第一任务所对应的故障评估值,其中,运行参数值的类型不同,所对应的故障评估值的类型不同。
为了布局清楚以及方案清晰,后续对根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值的具体实现方式进行详细介绍。
步骤105、根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。
在确定出故障评估值后,可以依据故障评估值的具体类型以及具体数值来确定所述第一任务所对应的故障原因。为了布局清楚和方案清晰,后续对根据所确定出的故障评估值,确定所述第一任务所对应的故障原因的具体实现方式进行详细介绍。
本实施例提供的故障排查方法,可以通过获得故障报警信息;根据所述故障报警信息,确定发生故障的第一任务;根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值;根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。由此,在确定发生故障的任务的故障原因时基于该任务对应的运行参数值,考虑到了任务的实际运行状态,而并非人工通过经验分析,因此,可以实现有针对性的故障排查,从而提高故障排查的效率。
下面对根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值的具体实现方式以及根据所确定出的故障评估值,确定所述第一任务所对应的故障原因的具体实现方式进行详细介绍。
具体的,在一种可行的实现方式中:
所述运行参数值包括所述第一类运行参数值,上述步骤104具体包括:利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;将各所述第一任务产生故障的可能性分数确定为所述第一任务所对应的故障评估值;
相应的,上述步骤105具体包括:分别判断各个所述第一任务产生故障的可能性分数是否大于第一预设阈值;将第一运维操作确定为所述第一任务发生故障的原因,所述第一运维操作为大于所述第一预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作。
需要说明的是,在分析运维操作与故障类型之间的关系时,本实施例关心的主体是,发生在某个资源上的某种类型的运维操作,与依赖该资源的相关任务的故障之间的关系。
假设在整个系统中,有资源1,资源2,……,资源n,共n个资源。此外有任务1,任务2,……,任务m,共m个任务。对于每一个任务,可能会依赖n个任务中的多个资源,某一个资源也可能会被多个任务所依赖。因此资源和任务之间的关系是多对多的关系。
对于每一个资源,统计发生在其的各类型的运维操作的数量,以及各类型的运维操作出现故障的数量,基于这些统计量,利用预定分数计算公式,计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数,具体的,所述预定分数计算公式为:
Figure BDA0001313182560000121
其中,s(Fau|Opt)表示所述第一任务产生故障的可能性分数,Opt表示所述运维操作的类型,N(Opt)表示所述Opt类型的运维操作的数量,N(Fau,Opt)表示所述Opt类型的运维操作出现故障的数量。
并且,对于同一个资源的不同类型的运维操作,所述第一任务产生故障的可能性分数越大,表示第一任务的故障是由某种类型的运维操作所导致的概率越大。但对于不同的资源,不同运维操作的分数之间无法比较,并且,对于不同的资源,所设置的第一预设阈值也不同。
实际应用中,当一个任务发生故障时,分析任务故障与运维操作之间的关系的过程为:计算任务所依赖的所有资源在一定时间内进行的所有运维操作所对应的产生故障的分数,如果某资源在第一预设时间段内没有运维操作,则分数记为0;若发生过运维操作,则分数大于所述第一预设阈值表示需要考虑故障的原因是由于该类型的运维操作导致。
在另一种可行的实现方式中:
所述运行参数值包括所述第二类运行参数值,上述步骤104具体包括:利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;将所述第一监控指标序列与各第二监控指标序列之间的相关性确定为所述第一任务所对应的故障评估值;
相应的,上述步骤105具体包括:分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第二预设阈值;将第二任务发生故障确定为所述第一任务发生故障的原因,所述第二任务为第一序列所对应的任务,所述第一序列为所对应相关性大于所述第二预设阈值的第二监控指标序列。需要说明的是,对于相关性的分析,对于所有的任务,都会有相应的监控指标,每个监控指标可以视为监控指标序列,在本实施例中,通过交叉相关计算不同监控指标序列之间的相关性。
实际应用中,对于两个监控指标序列,如果两者的时间戳不一样,那么首先需要对这两个监控指标序列进行线性插值,从而获得具有相同时间戳的两个监控指标序列,然后,根据所述预设相关性计算公式计算两条监控指标序列之间的相关性。具体的,所述预设相关性计算公式为:
Figure BDA0001313182560000131
其中,r(d)表示所述第一监控指标序列与所述第二监控指标序列之间的相关性,x(i)表示所述第一监控指标序列x中第i个值,y(i)表示所述第二监控指标序列y中第i个值,mx、my分别表示所述第一监控指标序列x和所述第二监控指标序列y的均值,d表示所述第一监控指标序列和所述第二监控指标序列之间的时间延迟。
并且,当某个任务发生故障时,该任务的一个或多个监控指标序列也会发生异常。此时,分析与该任务相关的任务的监控指标序列,与该任务发生异常的监控指标序列之间的相关性,如果两者呈明显正相关或负相关,那么在一定的d的取值下r(d)值较大,此时可以考虑当前任务的故障可能是由依赖资源的故障或相关任务的故障导致。
需要说明的是,所述第二任务发生故障包括:所述第二任务本身的逻辑发生故障,或者,所述第二任务所依赖的资源发生故障。
在又一种可行的实现方式中:
所述运行参数值同时包括所述第一类运行参数值和所述第二类运行参数值,则相应的,上述步骤104具体包括:
利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;以及,利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;将各所述第一任务产生故障的可能性分数以及所述第一监控指标序列与各第二监控指标序列之间的相关性,确定为所述第一任务所对应的故障评估值;
相应的,上述步骤105具体包括:分别判断各个所述第一任务产生故障的可能性分数是否大于第三预设阈值;以及分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第四预设阈值;将第三运维操作以及第三任务发生故障确定为所述第一任务发生故障的原因,所述第三运维操作为大于所述第三预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作,所述第三任务为第二序列所对应的任务,所述第二序列为所对应相关性大于所述第四预设阈值的第二监控指标序列。在该种实现方式中,具体的预定分数计算公式和预设相关性计算公式,可参照上述实施例中的描述,在此不再赘述。
在该种实现方式中,根据所确定出的故障评估值确定所述第一任务对应的故障原因,可参照上述实施例中的描述,在此不再赘述。
相应于上述方法实施例,本发明实施例还提供了故障排查装置。
图2为本发明实施例提供的故障排查装置的结构示意图。如图2所示,本实施例提供的故障排查装置可以包括:
获得模块21,用于获得故障报警信息;
第一确定模块22,用于根据所述故障报警信息,确定发生故障的第一任务;
第二确定模块23,用于根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值,其中,所述运行参数值包括:第一类运行参数值和/或第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列;
第三确定模块24,用于根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;
第四确定模块25,用于根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。
一种可行的实施方式中,所述运行参数值包括所述第一类运行参数值,所述第三确定模块24包括:第一计算子模块,用于利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;第一确定子模块,用于将各所述第一任务产生故障的可能性分数确定为所述第一任务所对应的故障评估值。
相应的,所述第四确定模块25包括:第一判断子模块,用于分别判断各个所述第一任务产生故障的可能性分数是否大于第一预设阈值;第四确定子模块,用于将第一运维操作确定为所述第一任务发生故障的原因,所述第一运维操作为大于所述第一预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作。
另一种可行的实施方式中,所述运行参数值包括所述第二类运行参数值,所述第三确定模块24包括:第二计算子模块,用于利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;第二确定子模块,用于将所述第一监控指标序列与各第二监控指标序列之间的相关性确定为所述第一任务所对应的故障评估值。
相应的,所述第四确定模块25包括:第二判断子模块,用于分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第二预设阈值;第五确定子模块,用于将第二任务发生故障确定为所述第一任务发生故障的原因,所述第二任务为第一序列所对应的任务,所述第一序列为所对应相关性大于所述第二预设阈值的第二监控指标序列。其中,所述第二任务发生故障包括:所述第二任务本身的逻辑发生故障,或者,所述第二任务所依赖的资源发生故障。
又一种可行的实施方式中,所述运行参数值包括所述第一类运行参数值和所述第二类运行参数值,所述第三确定模块24具体用于:第三计算子模块,用于利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;以及,利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;第三确定子模块,用于将各所述第一任务产生故障的可能性分数以及所述第一监控指标序列与各第二监控指标序列之间的相关性,确定为所述第一任务所对应的故障评估值。
相应的,所述第四确定模块25包括:第三判断子模块,用于分别判断各个所述第一任务产生故障的可能性分数是否大于第三预设阈值;以及分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第四预设阈值;第六确定子模块,用于将第三运维操作以及第三任务发生故障确定为所述第一任务发生故障的原因,所述第三运维操作为大于所述第三预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作,所述第三任务为第二序列所对应的任务,所述第二序列为所对应相关性大于所述第四预设阈值的第二监控指标序列。
其中,所述预定分数计算公式为:
Figure BDA0001313182560000161
其中,s(Fau|Opt)表示所述第一任务产生故障的可能性分数,Opt表示所述运维操作的类型,N(Opt)表示所述Opt类型的运维操作的数量,N(Fau,Opt)表示所述Opt类型的运维操作出现故障的数量。
所述预设相关性计算公式为:
Figure BDA0001313182560000162
其中,r(d)表示所述第一监控指标序列与所述第二监控指标序列之间的相关性,x(i)表示所述第一监控指标序列x中第i个值,y(i)表示所述第二监控指标序列y中第i个值,mx、my分别表示所述第一监控指标序列x和所述第二监控指标序列y的均值,d表示所述第一监控指标序列和所述第二监控指标序列之间的时间延迟。
本实施例提供的故障排查装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现本发明的故障排查方法步骤,具体实现如下步骤:
获得故障报警信息;
根据所述故障报警信息,确定发生故障的第一任务;
根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值,其中,所述运行参数值包括:第一类运行参数值和/或第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列;
根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;
根据所确定出的故障评估值,确定所述第一任务所对应的故障原因。
本实施例提供的电子设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现本发明实施例中的故障排查方法步骤。
本实施例提供的计算机可读存储介质,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
需要说明的是,上述电子设备提到的通信总线304可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,简称EISA)总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器303可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器303还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器301可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (5)

1.一种故障排查方法,其特征在于,包括:
获得故障报警信息;
根据所述故障报警信息,确定发生故障的第一任务;
根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值,其中,所述运行参数值包括:第一类运行参数值和第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列;
根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;
根据所确定出的故障评估值,确定所述第一任务所对应的故障原因;
其中,所述根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值,包括:
利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;以及,
利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;
将各所述第一任务产生故障的可能性分数以及所述第一监控指标序列与各第二监控指标序列之间的相关性,确定为所述第一任务所对应的故障评估值;
所述预定分数计算公式为:
Figure FDA0002390423740000011
其中,s(Fau|Opt)表示所述第一任务产生故障的可能性分数,Opt表示所述运维操作的类型,N(Opt)表示所述Opt类型的运维操作的数量,N(Fau,Opt)表示所述Opt类型的运维操作出现故障的数量;
所述预设相关性计算公式为:
Figure FDA0002390423740000021
其中,r(d)表示所述第一监控指标序列与所述第二监控指标序列之间的相关性,x(i)表示所述第一监控指标序列x中第i个值,y(i)表示所述第二监控指标序列y中第i个值,mx、my分别表示所述第一监控指标序列x和所述第二监控指标序列y的均值,d表示所述第一监控指标序列和所述第二监控指标序列之间的时间延迟。
2.根据权利要求1所述的方法,其特征在于,所述根据所确定出的故障评估值,确定所述第一任务所对应的故障原因,包括:
分别判断各个所述第一任务产生故障的可能性分数是否大于第三预设阈值;以及分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第四预设阈值;
将第三运维操作以及第三任务发生故障确定为所述第一任务发生故障的原因,所述第三运维操作为大于所述第三预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作,所述第三任务为第二序列所对应的任务,所述第二序列为所对应相关性大于所述第四预设阈值的第二监控指标序列。
3.一种故障排查装置,其特征在于,包括:
获得模块,用于获得故障报警信息;
第一确定模块,用于根据所述故障报警信息,确定发生故障的第一任务;
第二确定模块,用于根据预存的任务注册信息表,确定所述第一任务所对应的运行参数值,其中,所述运行参数值包括:第一类运行参数值和第二类运行参数值,所述第一类运行参数值包括:第一预设时间段内在所述第一任务所依赖的至少一个资源上进行的至少一个运维操作的类型、各类型的所述运维操作的数量、各类型的所述运维操作出现故障的数量,所述第二类运行参数值包括:在第二预设时间段内所述第一任务的异常监控指标所对应的第一监控指标序列、以及与所述第一任务相关的至少一个第二任务的第二监控指标序列;
第三确定模块,用于根据所述第一任务所对应的运行参数值,确定所述第一任务所对应的故障评估值;
第四确定模块,用于根据所确定出的故障评估值,确定所述第一任务所对应的故障原因;
所述第三确定模块具体用于:
第三计算子模块,用于利用预定分数计算公式,分别计算所述第一预设时间段内,在所述第一任务所依赖的各个资源上进行各个类型的运维操作后,所述第一任务产生故障的可能性分数;以及,利用预设相关性计算公式,分别计算所述第一监控指标序列与所述至少一个第二任务的第二监控指标序列中的各个第二监控指标序列之间的相关性;
第三确定子模块,用于将各所述第一任务产生故障的可能性分数以及所述第一监控指标序列与各第二监控指标序列之间的相关性,确定为所述第一任务所对应的故障评估值;
所述预定分数计算公式为:
Figure FDA0002390423740000031
其中,s(Fau|Opt)表示所述第一任务产生故障的可能性分数,Opt表示所述运维操作的类型,N(Opt)表示所述Opt类型的运维操作的数量,N(Fau,Opt)表示所述Opt类型的运维操作出现故障的数量;
所述预设相关性计算公式为:
Figure FDA0002390423740000032
其中,r(d)表示所述第一监控指标序列与所述第二监控指标序列之间的相关性,x(i)表示所述第一监控指标序列x中第i个值,y(i)表示所述第二监控指标序列y中第i个值,mx、my分别表示所述第一监控指标序列x和所述第二监控指标序列y的均值,d表示所述第一监控指标序列和所述第二监控指标序列之间的时间延迟。
4.根据权利要求3所述的装置,其特征在于,所述第四确定模块包括:
第三判断子模块,用于分别判断各个所述第一任务产生故障的可能性分数是否大于第三预设阈值;以及分别判断所述第一监控指标序列与各个所述第二监控指标序列之间的相关性是否大于第四预设阈值;
第六确定子模块,用于将第三运维操作以及第三任务发生故障确定为所述第一任务发生故障的原因,所述第三运维操作为大于所述第三预设阈值的所述第一任务产生故障的可能性分数所对应的运维操作,所述第三任务为第二序列所对应的任务,所述第二序列为所对应相关性大于所述第四预设阈值的第二监控指标序列。
5.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-2任一所述的方法步骤。
CN201710416427.3A 2017-06-05 2017-06-05 故障排查方法、装置及电子设备 Active CN107370618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710416427.3A CN107370618B (zh) 2017-06-05 2017-06-05 故障排查方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710416427.3A CN107370618B (zh) 2017-06-05 2017-06-05 故障排查方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107370618A CN107370618A (zh) 2017-11-21
CN107370618B true CN107370618B (zh) 2020-06-05

Family

ID=60304866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710416427.3A Active CN107370618B (zh) 2017-06-05 2017-06-05 故障排查方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107370618B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108111880B (zh) * 2017-12-21 2020-08-11 河南蛮蛮云计算技术有限公司 排障方法及排障系统
CN113127528A (zh) * 2019-12-30 2021-07-16 中移信息技术有限公司 系统根因定位方法、装置、设备及计算机存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2579156B1 (en) * 2010-06-07 2019-08-28 Nec Corporation Malfunction detection device, obstacle detection method, and program recording medium
CN104052612B (zh) * 2013-03-13 2017-08-25 中国移动通信集团广东有限公司 一种电信业务的故障识别与定位的方法及系统
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN103793601A (zh) * 2014-01-20 2014-05-14 广东电网公司电力科学研究院 基于异常搜索和组合预测的汽轮机组在线故障预警方法
CN106600115A (zh) * 2016-11-28 2017-04-26 湖北华中电力科技开发有限责任公司 一种企业信息系统运维智能分析方法
CN106603299B (zh) * 2016-12-28 2020-05-01 北京奇艺世纪科技有限公司 一种服务健康指数的生成方法及装置

Also Published As

Publication number Publication date
CN107370618A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
US7711987B2 (en) System and method for problem determination using dependency graphs and run-time behavior models
CN103797468A (zh) 系统异常的自动化检测
CN111814999B (zh) 一种故障工单生成方法、装置、设备
CN112631913A (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN110740061A (zh) 故障预警方法、装置及计算机存储介质
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
CN101399883A (zh) 异常监测管理方法及装置
CN107370618B (zh) 故障排查方法、装置及电子设备
CN112152833B (zh) 一种网络异常报警方法、装置及电子设备
CN108880838B (zh) 业务故障的监控方法及装置、计算机设备及可读介质
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN111585833B (zh) 一种探测cdn节点公网质量的方法、装置和计算机设备
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN113391611B (zh) 动力环境监控系统的预警方法、装置及系统
CN110990223A (zh) 一种基于系统日志的监控告警方法及装置
TWI644228B (zh) 伺服器及其監控方法
CN112835780B (zh) 一种业务检测方法及装置
CN114610560B (zh) 系统异常监控方法、装置和存储介质
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN114172796A (zh) 通信网络的故障定位方法及相关装置
CN107147526A (zh) 智能网络故障检测方法及系统
CN113807697A (zh) 基于告警关联的派单方法及装置
CN107957915B (zh) 一种被调用方系统的心跳检测方法、存储介质和服务器
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
CN112152834B (zh) 一种网络异常报警方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant