CN108234196A - 故障检测方法及装置 - Google Patents

故障检测方法及装置 Download PDF

Info

Publication number
CN108234196A
CN108234196A CN201711319664.4A CN201711319664A CN108234196A CN 108234196 A CN108234196 A CN 108234196A CN 201711319664 A CN201711319664 A CN 201711319664A CN 108234196 A CN108234196 A CN 108234196A
Authority
CN
China
Prior art keywords
alarm item
fisrt fault
item
alarm
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711319664.4A
Other languages
English (en)
Other versions
CN108234196B (zh
Inventor
刘桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711319664.4A priority Critical patent/CN108234196B/zh
Publication of CN108234196A publication Critical patent/CN108234196A/zh
Application granted granted Critical
Publication of CN108234196B publication Critical patent/CN108234196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Abstract

本发明实施例提供了一种故障检测方法及装置,该方法包括:检测故障队列中是否包括报警项,当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果,当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列。其中,检测结果用于指示服务器集群是否存在第一故障,第一报警项为至少一个报警项中的第一个报警项,第二报警项对应的第二故障为第一故障引起的。本发明实施例通过在故障队列中加入第二报警项,可以在对第一故障进行检测之后,再对第二故障进行检测,避免了只能通过人工分析获知第一故障可能引发第二故障,减少了人工分析的成本,提高了故障检测的效率,提高了故障检测的灵活性。

Description

故障检测方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种故障检测方法及装置。
背景技术
随着互联网技术的不断发展,用户数量和网络流量迅速增长,使得越来越多的服务器无法单独为用户提供优质的服务,因此需要通过服务器集群为用户提供服务。而在服务器集群工作的过程中,需要对服务器集群进行监控,检测服务器集群是否出现故障。
相关技术中,服务器集群的监控系统在检测到出现故障时,可以触发警报,并通过邮件、短信或者站内信等方式通知故障处理人员,故障处理人员在收到通知后则可以确定故障并解决相应的故障,在解决故障后可以向监控人员反馈处理情况,监控人员确认故障处理完成后,则可以解除警报。
但是,监控系统只能对已经出现的故障进行报警,而对于已经出现的故障可能引发的其他故障只能通过人工分析,但是随着服务器集群规模的扩大,会导致人工分析的成本过高。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种故障检测方法及装置。
根据本发明的第一方面,提供了一种故障检测方法,所述方法包括:
检测故障队列中是否包括报警项;
当所述故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果;所述检测结果用于指示服务器集群是否存在第一故障,所述第一报警项为所述至少一个报警项中的第一个报警项;
当所述检测结果指示所述服务器集群存在所述第一故障时,将第二报警项加入所述故障队列,所述第二报警项对应的第二故障为所述第一故障引起的。
可选的,在所述检测故障队列中是否包括报警项之前,所述方法还包括:
当检测到所述服务器集群存在初始故障时,建立所述故障队列;
将所述初始故障所对应的初始报警项加入所述故障队列。
可选的,所述对第一报警项所对应的第一故障进行检测,得到检测结果,包括:
获取所述第一报警项的触发概率,所述触发概率用于指示引发所述第一故障的概率;
当所述触发概率大于概率阈值时,对所述第一故障进行检测,得到所述检测结果。
可选的,所述获取所述第一报警项的触发概率,包括:
根据预先设置的状态转移矩阵,获取所述第一报警项的触发概率。
可选的,所述对第一报警项所对应的第一故障进行检测,得到检测结果,包括:
根据所述第一报警项,获取与所述第一报警项对应的检测手段,所述检测手段用于指示检测所述服务器集群是否存在所述第一故障的方式;
采用所述检测手段对所述第一故障进行检测,得到所述检测结果。
可选的,在所述将第二报警项加入所述故障队列之前,所述方法还包括:
根据预先设置的故障关系链,获取所述第二报警项。
可选的,在所述对第一报警项所对应的第一故障进行检测,得到检测结果之后,所述方法还包括:
当所述检测结果指示所述服务器集群存在所述第一故障时,根据所述第一报警项,获取与所述第一报警项对应的处理手段,所述处理手段用于指示处理所述第一故障的方式;
根据所述处理手段,对所述第一故障进行处理。
可选的,在所述根据所述处理手段,对所述第一故障进行处理之后,所述方法还包括:
在日志中记录对所述第一故障所执行的处理行为。
可选的,所述方法还包括:
当所述故障队列中不包括报警项时,根据所述日志,更新所述第一报警项的触发概率。
可选的,所述至少一个报警项中的每个报警项对应一个三元组,所述三元组包括报警项、与报警项对应的检测手段和与报警项对应的处理手段。
根据本发明的第二方面,提供了一种故障检测装置,所述装置包括:
第一检测模块,用于检测故障队列中是否包括报警项;
第二检测模块,用于当所述故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果;所述检测结果用于指示服务器集群是否存在第一故障,所述第一报警项为所述至少一个报警项中的第一个报警项;
第一添加模块,用于当所述检测结果指示所述服务器集群存在所述第一故障时,将第二报警项加入所述故障队列,所述第二报警项对应的第二故障为所述第一故障引起的。
可选的,所述装置还包括:
队列建立模块,用于当检测到所述服务器集群存在初始故障时,建立所述故障队列;
第二添加模块,用于将所述初始故障所对应的初始报警项加入所述故障队列。
可选的,所述第二检测模块包括:
概率获取子模块,用于获取所述第一报警项的触发概率,所述触发概率用于指示引发所述第一故障的概率;
第一检测子模块,用于当所述触发概率大于概率阈值时,对所述第一故障进行检测,得到所述检测结果。
可选的,所述概率获取子模块包括:
概率获取单元,用于根据预先设置的状态转移矩阵,获取所述第一报警项的触发概率。
可选的,所述第二检测模块包括:
检测手段获取子模块,用于根据所述第一报警项,获取与所述第一报警项对应的检测手段,所述检测手段用于指示检测所述服务器集群是否存在所述第一故障的方式;
第二检测子模块,用于采用所述检测手段对所述第一故障进行检测,得到所述检测结果。
可选的,所述装置还包括:
报警项获取模块,用于根据预先设置的故障关系链,获取所述第二报警项。
可选的,所述装置还包括:
处理手段获取模块,用于当所述检测结果指示所述服务器集群存在所述第一故障时,根据所述第一报警项,获取与所述第一报警项对应的处理手段,所述处理手段用于指示处理所述第一故障的方式;
故障处理模块,用于根据所述处理手段,对所述第一故障进行处理。
可选的,所述装置还包括:
记录模块,用于在日志中记录对所述第一故障所执行的处理行为。
可选的,所述装置还包括:
更新模块,用于当所述故障队列中不包括报警项时,根据所述日志,更新所述第一报警项的触发概率。
可选的,所述至少一个报警项中的每个报警项对应一个三元组,所述三元组包括报警项、与报警项对应的检测手段和与报警项对应的处理手段。
本发明实施例包括以下优点:通过检测故障队列中是否包括报警项,当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果,当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列,该第二报警项对应的第二故障为第一故障引起的。通过在故障队列中加入第二报警项,可以在对第一故障进行检测之后,再对第二故障进行检测,避免了只能通过人工分析获知第一故障可能引发第二故障,减少了人工分析的成本,提高了故障检测的效率,提高了故障检测的灵活性。
附图说明
图1是本发明实施例提供的一种故障检测方法的流程图;
图2是本发明实施例提供的另一种故障检测方法的流程图;
图3是本发明实施例提供的一种故障检测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
参照图1,示出了一种故障检测方法的流程图,该方法具体可以包括如下步骤:
步骤101、检测故障队列中是否包括报警项。
其中,该故障队列用于存储待检测的故障所对应的报警项,可以根据故障队列中存储的报警项对服务器集群进行检测;该报警项用于指示服务器集群中可能存在的故障。
为了维护服务器集群能够稳定的运行,可以实时对故障队列中的报警项进行监控,也可以周期性的检查故障队列中是否包括报警项,以便确认服务器集群中是否存在故障,从而在后续步骤中,可以根据检测到的报警项对服务器集群可能存在的故障进行排查。
需要说明的是,该故障队列可以是服务器集群在检测到出现故障后生成的,也可以是始终存在的,本发明实施例对此不做限定。例如,服务器集群可以在检测到出现故障后,生成故障队列,并将检测到的故障所对应的报警项加入生成的故障队列中;或者,当服务器集群检测到出现故障后,即可将检测到的故障所对应的报警项加入始终存在的故障队列中。
步骤102、当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果。
其中,该检测结果用于指示服务器集群是否存在第一故障,该第一报警项可以为至少一个报警项中的第一个报警项。
当检测到故障队列中包括至少一个报警项时,说明服务器集群中可能存在故障,需要通过相应的检测手段对至少一个报警项中的第一报警项进行检测,判断服务器集群中是否存在第一报警项所对应的第一故障,从而得到检测结果。
需要说明的是,如果故障队列为服务器集群在检测到故障后生成的,且在步骤101中是第一次对故障队列中是否存在报警项进行判断,则步骤102中必定存在报警项,且报警项只有一个,得到的检测结果也必然指示服务器集群中存在第一报警项所对应的故障。因此,如果故障队列为服务器集群在检测到故障后生成的,且在步骤101中是第一次对故障队列中是否存在报警项进行判断,则可以不对报警项对应的故障进行检测,并执行步骤103。
但是,如果在步骤101中不是第一次对故障队列中是否存在报警项进行判断,则故障队列中可能存在报警项,也可能不存在报警项,如果存在报警项,则对第一报警项进行检测得到检测结果,检测结果指示服务器集群可能存在故障,也可能不存在故障。
步骤103、当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列。
其中,该第二报警项对应的第二故障为第一故障引起的。
在对第一故障进行检测后,如果得到的检测结果指示服务器集群存在第一故障,而第一故障又有可能引发第二报警项所对应的第二故障,则需要在确定服务器集群存在第一故障后,将第二报警项加入故障队列,以便可以继续对第二故障进行检测,维护服务器集群的稳定运行。
而且,在将第二报警项加入故障队列时,可以将第二报警项加入故障队列中至少一个报警项的尾部,以便在后续检测的过程中可以先对第一报警项之后的其他报警项进行检测,在检测完后再对第二报警项进行检测。
另外,在确定第二报警项的过程中,可以根据预先设置的故障关系链查找第一报警项所对应的位置,再查找第一报警项可能引起的第二报警项,从而确定第二报警项。但是,如果故障关系链中不存在第一报警项可能引起的第二报警项,则确定不存在第二报警项,也无需将第二报警项加入故障队列。
其中,该故障关系链可以为马尔科夫链,也可以为其他关系链,本发明实施例对此不做限定。
需要说明的是,本发明实施例仅是以某一个报警项为例进行说明,但是在实际应用中,服务器集群可以循环执行步骤101至步骤103,也即是不断检测故障队列中是否包括报警项,并根据检测结果对故障队列中添加新的报警项,直至故障队列中不存在报警项。
具体地,在将第二报警项加入故障队列后,服务器集群可以继续判断故障队列中是否还包括其他报警项,如果故障队列中包括其他报警项,则可以对该报警项进行检测,并向故障队列中添加该报警项可能引起的其他报警项。但是,如果故障队列中不包括其他报警项,则说明对服务器集群中可能存在的故障遍历检测完毕,当前不存在可能引发的故障。
本发明实施例包括以下优点:通过检测故障队列中是否包括报警项,当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果,当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列,该第二报警项对应的第二故障为第一故障引起的。通过在故障队列中加入第二报警项,可以在对第一故障进行检测之后,再对第二故障进行检测,避免了只能通过人工分析获知第一故障可能引发第二故障,减少了人工分析的成本,提高了故障检测的效率,提高了故障检测的灵活性。
参照图2,示出了另一种故障检测方法的流程图,该方法具体可以包括如下步骤:
步骤201、将服务器集群存在的初始故障所对应的初始报警项加入故障队列。
当检测到服务器集群存在初始故障时,可以建立故障队列,并将该初始故障所对应的初始报警项加入该故障队列。其中,可以周期性地对服务器集群进行检测,确定服务器集群是否存在故障;也可以在服务器集群触发故障时进行检测,本发明实施例对此不做限定。
另外,该故障队列不但可以在服务器集群检测到初始故障时建立,还可以提前建立,当服务器集群检测到出现初始故障时,即可将该初始故障所对应的初始报警项加入预先建立的故障队列中。
而且,在向故障队列中加入报警项时,还可以向故障队列中加入与报警项相对应的三元组,该三元组可以包括报警项、与报警项对应的检测手段和与报警项对应的处理手段。也即,故障队列中的每个报警项可以对应一个三元组。
其中,与报警项对应的检测手段用于指示检测服务器集群是否存在故障的方式,与报警项对应的处理手段用于指示处理故障的方式,使得服务器集群可以根据该检测手段确定服务器集群是否存在与该报警项对应的故障,并根据该处理手段对该报警项所对应的故障进行维护处理。
例如,当故障队列中存在第一报警项时,与该第一报警项对应的检测手段用于指示检测服务器集群是否存在该第一故障的方式,与第一报警项对应的处理手段用于指示处理第一故障的方式。
步骤202、检测故障队列中是否包括报警项。
本步骤202与步骤101类似,在此不再赘述。
步骤203、当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果。
在对第一报警项对应的第一故障进行检测之前,可以获取第一报警项的触发概率,当该触发概率大于概率阈值时,则可以对该第一故障进行检测,得到检测结果。
其中,该触发概率用于指示引发第一故障的概率,也即是服务器集群中可能由于其他故障引发第一故障,导致服务器集群中存在第一故障的概率;该概率阈值可以根据服务器集群的出现故障的实际情况进行设定,也可以根据工作人员的经验进行设置,本发明实施例对此不做限定。
具体地,在确定故障队列中包括至少一个报警项时,可以先获取触发第一故障的触发概率,如果该触发概率大于概率阈值,则说明服务器集群中有可能存在第一故障,则需要对第一故障进行检测,得到检测结果。
但是,如果该触发概率不大于概率阈值,则说明服务器集群中可能不存在第一故障,也即是存在第一故障的概率较低,为了提高故障检测的效率则可以不对第一故障进行检测,认为服务器集群中不存在第一故障。
另外,在获取第一报警项的触发概率的过程中,可以根据预先设置的状态转移矩阵,获取第一报警项的触发概率,其中该状态转移矩阵用于记录各个报警项之间的关联关系,并记录任意一个报警项所对应的故障引发另一个报警项所对应的故障的概率。而且,该状态转移矩阵可以采用图数据结构(Graph结构)进行表示,也可以采用其他结构进行表示,本发明实施例对此不做限定。
例如,第一故障可能引发第二故障,则在该状态转移矩阵中可以记录第一报警项与第二报警项之间的关联关系,并记录第一故障引发第二故障的概率,相应的,第二报警项对应的触发概率即为第一故障引发第二故障的概率。
在确定第一报警项的触发概率大于概率阈值时,则可以根据第一报警项,获取与该第一报警项对应的检测手段,并采用该检测手段对该第一故障进行检测,得到检测结果。
其中,该检测手段可以通过故障队列中与第一报警项对应的三元组获得。
具体地,在确定第一报警项的触发概率大于概率阈值后,则可以在故障队列中查找与该第一报警项对应的三元组,并在该三元组中获取与该第一报警项对应的检测手段,最后根据该检测手段对第一报警项对应的故障进行检测,得到检测结果。
需要说明的是,在获取检测结果后,即可对故障队列中的第一报警项进行删除,避免再次对第一故障进行检测。相应的,在至少一个报警项中,在第一报警项之后且与第一报警项相邻的报警项可以成为新的第一报警项,以便对新的报警项进行相应的检测。
步骤204、根据处理手段,对第一故障进行处理。
在得到检测结果后,当检测结果指示服务器集群存在第一故障时,服务器集群可以根据第一报警项,获取与该第一报警项对应的处理手段,并根据该处理手段,对第一故障进行处理。
具体地,当检测结果指示服务器集群存在第一故障时,服务器集群可以根据第一报警项,在故障队列中查找与第一报警项对应的三元组,在查找到三元组后,可以在三元组中获取与该第一报警项对应的处理手段,并根据该处理手段对第一故障进行相应的处理,完成对服务器集群的维护工作。
其中,该处理手段可以是工作人员预先设置的,也可以是服务器集群通过其他方式获取的,本发明实施例对此不做限定。
步骤205、在日志中记录对第一故障所执行的处理行为。
服务器集群可以通过日志对服务器集群的行为进行记录,因此,服务器集群在对第一故障进行处理后,即可对该处理行为进行记录,以便在后续步骤中,可以根据记录后的日志对第一故障的触发概率进行调整,提高触发概率的准确度。
步骤206、根据预先设置的故障关系链,获取第二报警项。
在服务器集群出现故障时,通常可能会由一个故障引发其他的故障,因此可以预先设置故障关系链,该故障关系链中可以记录某个故障与该故障可能引发的其他故障的关联关系。
其中,该故障关系链可以为马尔科夫链,也可以为其他关系链,本发明实施例对此不做限定。
例如,该故障关系链中可以记录步骤203中第一报警项对应的第一故障,并记录有第一故障可能引发的第二故障,还可以记录可能引发第一故障的其他故障。
步骤207、当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列。
本步骤207与步骤103类似,在此不再赘述。
步骤208、当故障队列中不包括报警项时,根据日志,更新第一报警项的触发概率。
在将第二报警项加入故障队列后,服务器集群可以继续检测故障队列中是否包括报警项,并根据检测结果向故障队列中添加报警项。当检测到故障队列中不包括报警项时,则说明服务器集群已经将初始故障可能引发的其他故障遍历完毕,并对检测到出现的概率进行处理,使得服务器集群可以正常运行。
而且,在确定和处理相应的故障后,服务器集群还可以在日志中记录相应的处理行为,并在确定故障队列中不包括报警项时,对第一报警项和其他报警项所对应的触发概率进行调整,以便可以获取更加精准的触发概率。
具体地,可以在步骤203中的状态转移矩阵增加第一报警项对应故障的触发次数,以便在根据多个故障的触发次数确定故障概率时,可以提高第一报警项对应故障的触发概率。
本发明实施例包括以下优点:通过检测故障队列中是否包括报警项,当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果,当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列,该第二报警项对应的第二故障为第一故障引起的。通过在故障队列中加入第二报警项,可以在对第一故障进行检测之后,再对第二故障进行检测,避免了只能通过人工分析获知第一故障可能引发第二故障,减少了人工分析的成本,提高了故障检测的效率,提高了故障检测的灵活性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了一种故障检测装置300的框图,该装置具体可以包括:
第一检测模块301,用于检测故障队列中是否包括报警项;
第二检测模块302,用于当该故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果;该检测结果用于指示服务器集群是否存在第一故障,该第一报警项为该至少一个报警项中的第一个报警项;
第一添加模块303,用于当该检测结果指示该服务器集群存在该第一故障时,将第二报警项加入该故障队列,该第二报警项对应的第二故障为该第一故障引起的。
可选的,该装置还可以包括:
队列建立模块,用于当检测到该服务器集群存在初始故障时,建立该故障队列;
第二添加模块,用于将该初始故障所对应的初始报警项加入该故障队列。
可选的,该第二检测模块302可以包括:
概率获取子模块,用于获取该第一报警项的触发概率,该触发概率用于指示引发第一故障的概率;
第一检测子模块,用于当该触发概率大于概率阈值时,对该第一故障进行检测,得到该检测结果。
可选的,该概率获取子模块可以包括:
概率获取单元,用于根据预先设置的状态转移矩阵,获取该第一报警项的触发概率。
可选的,该第二检测模块302可以包括:
检测手段获取子模块,用于根据该第一报警项,获取与该第一报警项对应的检测手段,该检测手段用于指示检测该服务器集群是否存在该第一故障的方式;
第二检测子模块,用于采用该检测手段对该第一故障进行检测,得到该检测结果。
可选的,该装置还可以包括:
报警项获取模块,用于根据预先设置的故障关系链,获取该第二报警项。
可选的,该装置还可以包括:
处理手段获取模块,用于当该检测结果指示该服务器集群存在该第一故障时,根据该第一报警项,获取与该第一报警项对应的处理手段,该处理手段用于指示处理该第一故障的方式;
故障处理模块,用于根据该处理手段,对该第一故障进行处理。
可选的,该装置还可以包括:
记录模块,用于在日志中记录对该第一故障所执行的处理行为。
可选的,该装置还可以包括:
更新模块,用于当该故障队列中不包括报警项时,根据该日志,更新该第一报警项的触发概率。
可选的,该至少一个报警项中的每个报警项对应一个三元组,该三元组包括报警项、与报警项对应的检测手段和与报警项对应的处理手段。
本发明实施例包括以下优点:通过检测故障队列中是否包括报警项,当故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果,当检测结果指示服务器集群存在第一故障时,将第二报警项加入故障队列,该第二报警项对应的第二故障为第一故障引起的。通过在故障队列中加入第二报警项,可以在对第一故障进行检测之后,再对第二故障进行检测,避免了只能通过人工分析获知第一故障可能引发第二故障,减少了人工分析的成本,提高了故障检测的效率,提高了故障检测的灵活性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种故障检测方法和一种故障检测装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种故障检测方法,其特征在于,所述方法包括:
检测故障队列中是否包括报警项;
当所述故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果;所述检测结果用于指示服务器集群是否存在第一故障,所述第一报警项为所述至少一个报警项中的第一个报警项;
当所述检测结果指示所述服务器集群存在所述第一故障时,将第二报警项加入所述故障队列,所述第二报警项对应的第二故障为所述第一故障引起的。
2.根据权利要求1所述的方法,其特征在于,在所述检测故障队列中是否包括报警项之前,所述方法还包括:
当检测到所述服务器集群存在初始故障时,建立所述故障队列;
将所述初始故障所对应的初始报警项加入所述故障队列。
3.根据权利要求1所述的方法,其特征在于,所述对第一报警项所对应的第一故障进行检测,得到检测结果,包括:
获取所述第一报警项的触发概率,所述触发概率用于指示引发所述第一故障的概率;
当所述触发概率大于概率阈值时,对所述第一故障进行检测,得到所述检测结果。
4.根据权利要求3所述的方法,其特征在于,所述获取所述第一报警项的触发概率,包括:
根据预先设置的状态转移矩阵,获取所述第一报警项的触发概率。
5.根据权利要求1所述的方法,其特征在于,所述对第一报警项所对应的第一故障进行检测,得到检测结果,包括:
根据所述第一报警项,获取与所述第一报警项对应的检测手段,所述检测手段用于指示检测所述服务器集群是否存在所述第一故障的方式;
采用所述检测手段对所述第一故障进行检测,得到所述检测结果。
6.根据权利要求1所述的方法,其特征在于,在所述将第二报警项加入所述故障队列之前,所述方法还包括:
根据预先设置的故障关系链,获取所述第二报警项。
7.根据权利要求1所述的方法,其特征在于,在所述对第一报警项所对应的第一故障进行检测,得到检测结果之后,所述方法还包括:
当所述检测结果指示所述服务器集群存在所述第一故障时,根据所述第一报警项,获取与所述第一报警项对应的处理手段,所述处理手段用于指示处理所述第一故障的方式;
根据所述处理手段,对所述第一故障进行处理。
8.根据权利要求7所述的方法,其特征在于,在所述根据所述处理手段,对所述第一故障进行处理之后,所述方法还包括:
在日志中记录对所述第一故障所执行的处理行为。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当所述故障队列中不包括报警项时,根据所述日志,更新所述第一报警项的触发概率。
10.根据权利要求1至9任一所述的方法,其特征在于,所述至少一个报警项中的每个报警项对应一个三元组,所述三元组包括报警项、与报警项对应的检测手段和与报警项对应的处理手段。
11.一种故障检测装置,其特征在于,所述装置包括:
第一检测模块,用于检测故障队列中是否包括报警项;
第二检测模块,用于当所述故障队列中包括至少一个报警项时,对第一报警项所对应的第一故障进行检测,得到检测结果;所述检测结果用于指示服务器集群是否存在第一故障,所述第一报警项为所述至少一个报警项中的第一个报警项;
第一添加模块,用于当所述检测结果指示所述服务器集群存在所述第一故障时,将第二报警项加入所述故障队列,所述第二报警项对应的第二故障为所述第一故障引起的。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
队列建立模块,用于当检测到所述服务器集群存在初始故障时,建立所述故障队列;
第二添加模块,用于将所述初始故障所对应的初始报警项加入所述故障队列。
13.根据权利要求11所述的装置,其特征在于,所述第二检测模块包括:
概率获取子模块,用于获取所述第一报警项的触发概率,所述触发概率用于指示引发所述第一故障的概率;
第一检测子模块,用于当所述触发概率大于概率阈值时,对所述第一故障进行检测,得到所述检测结果。
14.根据权利要求13所述的装置,其特征在于,所述概率获取子模块包括:
概率获取单元,用于根据预先设置的状态转移矩阵,获取所述第一报警项的触发概率。
15.根据权利要求11所述的装置,其特征在于,所述第二检测模块包括:
检测手段获取子模块,用于根据所述第一报警项,获取与所述第一报警项对应的检测手段,所述检测手段用于指示检测所述服务器集群是否存在所述第一故障的方式;
第二检测子模块,用于采用所述检测手段对所述第一故障进行检测,得到所述检测结果。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括:
报警项获取模块,用于根据预先设置的故障关系链,获取所述第二报警项。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括:
处理手段获取模块,用于当所述检测结果指示所述服务器集群存在所述第一故障时,根据所述第一报警项,获取与所述第一报警项对应的处理手段,所述处理手段用于指示处理所述第一故障的方式;
故障处理模块,用于根据所述处理手段,对所述第一故障进行处理。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
记录模块,用于在日志中记录对所述第一故障所执行的处理行为。
19.根据权利要求18所述的装置,其特征在于,所述装置还包括:
更新模块,用于当所述故障队列中不包括报警项时,根据所述日志,更新所述第一报警项的触发概率。
20.根据权利要求11至19任一所述的装置,其特征在于,所述至少一个报警项中的每个报警项对应一个三元组,所述三元组包括报警项、与报警项对应的检测手段和与报警项对应的处理手段。
CN201711319664.4A 2017-12-12 2017-12-12 故障检测方法及装置 Active CN108234196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711319664.4A CN108234196B (zh) 2017-12-12 2017-12-12 故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711319664.4A CN108234196B (zh) 2017-12-12 2017-12-12 故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN108234196A true CN108234196A (zh) 2018-06-29
CN108234196B CN108234196B (zh) 2021-07-16

Family

ID=62649350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711319664.4A Active CN108234196B (zh) 2017-12-12 2017-12-12 故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN108234196B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535920A (zh) * 2019-08-14 2019-12-03 北京汽车股份有限公司 上报故障的方法、装置、存储介质以及车辆

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512390A (zh) * 2002-12-20 2004-07-14 ������������ʽ���� 故障预测系统及程序和方法及设备、打印机和管理服务器
CN102857365A (zh) * 2012-06-07 2013-01-02 中兴通讯股份有限公司 网管系统中故障预防及智能修复方法和装置
CN103278719A (zh) * 2013-06-06 2013-09-04 广东电网公司佛山供电局 基于矩阵图及置信度的电力设备故障检测方法和系统
US20140006607A1 (en) * 2012-07-02 2014-01-02 Fujitsu Limited Monitoring method and apparatus
CN104267711A (zh) * 2014-11-03 2015-01-07 四川烟草工业有限责任公司 烟草物流系统运行状态监测及故障诊断方法
CN105988886A (zh) * 2015-04-21 2016-10-05 中国银联股份有限公司 一种运维过程中的故障处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512390A (zh) * 2002-12-20 2004-07-14 ������������ʽ���� 故障预测系统及程序和方法及设备、打印机和管理服务器
CN102857365A (zh) * 2012-06-07 2013-01-02 中兴通讯股份有限公司 网管系统中故障预防及智能修复方法和装置
US20140006607A1 (en) * 2012-07-02 2014-01-02 Fujitsu Limited Monitoring method and apparatus
CN103278719A (zh) * 2013-06-06 2013-09-04 广东电网公司佛山供电局 基于矩阵图及置信度的电力设备故障检测方法和系统
CN104267711A (zh) * 2014-11-03 2015-01-07 四川烟草工业有限责任公司 烟草物流系统运行状态监测及故障诊断方法
CN105988886A (zh) * 2015-04-21 2016-10-05 中国银联股份有限公司 一种运维过程中的故障处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535920A (zh) * 2019-08-14 2019-12-03 北京汽车股份有限公司 上报故障的方法、装置、存储介质以及车辆

Also Published As

Publication number Publication date
CN108234196B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
US10410135B2 (en) Systems and/or methods for dynamic anomaly detection in machine sensor data
US7493236B1 (en) Method for reporting the status of a control application in an automated manufacturing environment
CN105550113B (zh) Web测试方法与测试机
CN107807877B (zh) 一种代码性能测试的方法和装置
US7378962B2 (en) Sensor node management and method for monitoring a seal condition of an enclosure
US7835814B2 (en) Tool for reporting the status and drill-down of a control application in an automated manufacturing environment
KR101748122B1 (ko) 경보의 오류율 계산 방법
CN105787248A (zh) 基于时间序列数据的分析的异常感测和预测系统及方法
US7793162B2 (en) Method for reporting the status and drill-down of a control application in an automated manufacturing environment
CN110460460B (zh) 业务链路故障定位方法、装置及设备
CN105183619B (zh) 一种系统故障预警方法和系统
US8874963B2 (en) Operations management apparatus, operations management method and program thereof
CA2859872C (en) Method and system for message tracking and checking
CN112788022B (zh) 流量异常检测方法、装置、存储介质及处理器
US9076321B2 (en) Real time control chart generation and monitoring of safety systems
US20210288897A1 (en) Mitigating failure in request handling
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
JP2011138405A (ja) 障害箇所推定システム、障害箇所推定装置および障害箇所推定方法
CN108809734A (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
Al Mamun et al. Lstm recurrent neural network (rnn) for anomaly detection in cellular mobile networks
CN114063582B (zh) 用于监控产品测试过程的方法和装置
CN108234196A (zh) 故障检测方法及装置
CN112769615B (zh) 一种异常分析方法及装置
CN115102834A (zh) 一种变更风险评估方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant