CN103812719A - 集群系统的失效预测方法及装置 - Google Patents

集群系统的失效预测方法及装置 Download PDF

Info

Publication number
CN103812719A
CN103812719A CN201210450162.6A CN201210450162A CN103812719A CN 103812719 A CN103812719 A CN 103812719A CN 201210450162 A CN201210450162 A CN 201210450162A CN 103812719 A CN103812719 A CN 103812719A
Authority
CN
China
Prior art keywords
failure
event
sequence
events
group system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210450162.6A
Other languages
English (en)
Other versions
CN103812719B (zh
Inventor
付晓毓
任睿
詹剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Institute of Computing Technology of CAS
Original Assignee
Huawei Technologies Co Ltd
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Institute of Computing Technology of CAS filed Critical Huawei Technologies Co Ltd
Priority to CN201210450162.6A priority Critical patent/CN103812719B/zh
Publication of CN103812719A publication Critical patent/CN103812719A/zh
Application granted granted Critical
Publication of CN103812719B publication Critical patent/CN103812719B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种集群系统的失效预测方法及装置。方法包括:根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;对事件序列簇进行因果关联分析,获取因果关联路径簇;对因果关联路径簇进行失效分析,获取集群系统的失效模式;根据失效模式,对集群系统进行失效预测。本发明实施例提供的集群系统的失效预测方法及装置对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。可以通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高失效预测的召回率。

Description

集群系统的失效预测方法及装置
技术领域
本发明实施例涉及计算机技术,尤其涉及一种集群系统的失效预测方法及装置。
背景技术
随着集群系统在大规模生产性计算平台中的广泛应用,集群系统的失效和错误也频繁出现,集群系统的失效或错误造成的业务中断、数据泄漏甚至数据丢失往往会带给用户沉重的打击。因此,集群系统的安全性、可靠性以及可用性的重要性也日渐突出。
现有技术中,通常会通过对集群系统日志中的失效事件进行简单的统计以得到失效事件序列关联规则(简称失效规则),再根据失效规则对集群系统进行失效预测,从而提升集群系统的安全性、可靠性以及可用性。通常可以使用预测召回率这一指标来评价失效预测结果的有效性,预测召回率用于表示预测正确的失效事件数在需要被预测的所有失效事件中所占的比例。
但由于集群系统日志中记录了许多冗余事件,例如无征兆情况下发生的失效事件或者出现次数较少的失效事件,导致据此统计获得的失效规则可靠性较低。所以现有技术中失效预测方法的预测召回率尚待提高。
发明内容
本发明实施例提供一种集群系统的失效预测方法及装置。
第一方面,本发明实施例提供的集群系统的失效预测方法包括:
根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;对所述事件序列簇进行因果关联分析,获取因果关联路径簇;对所述因果关联路径簇进行失效分析,获取所述集群系统的失效模式;根据所述失效模式,对所述集群系统进行失效预测。
在第一方面的第一种可能的实现方式中,所述根据集群系统的失效事件集合对事件序列模式集合进行聚类分析之前,还包括:从所述集群系统的日志事件库中获取所述失效事件集合和所述事件序列模式集合。
根据第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇,包括:在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件属于所述失效事件集合;将所述第一事件序列模式和所述第一事件序列模式的第一支持度计数添加至所述事件序列簇。
根据第一方面或第一方面的前两种可能的实现方式,在第三种可能的实现方式中,所述根据所述事件序列簇,获取因果关联路径簇,包括:根据所述事件序列簇构建因果关系网;根据所述因果关系网获取所述因果关联路径簇。
根据第一方面或第一方面的前三种可能的实现方式,在第四种可能的实现方式中,所述对所述因果关联路径簇进行失效分析,获取所述集群系统的失效模式,包括:以所述因果关联路径簇中包含的第二失效事件为后件,以所述因果关联路径簇中包含的处于所述第二失效事件前一位置的事件为前件,将所述前件与所述后件构造为二元失效因果路径簇;根据事件类型表,查找所述前件与所述后件分别对应的前件事件类型标识与后件事件类型标识,将所述二元失效因果路径簇中包含的所述前件与所述后件分别替换为所述前件事件类型标识与所述后件事件类型标识,得到由所述前件事件类型标识与所述后件事件类型标识构成的所述失效模式。
根据第一方面或第一方面的前四种可能的实现方式,在第五种可能的实现方式中,所述根据所述失效模式,对所述集群系统进行失效预测,包括:根据所述失效模式,对失效事件序列关联规则库进行更新;采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
根据第五种可能的实现方式,在第六种可能的实现方式中,根据所述失效模式,对失效事件序列关联规则库进行更新,包括:根据所述失效模式,获取第二事件序列模式;将所述第二事件序列模式对应的失效事件序列关联规则添加至所述失效事件序列关联规则库。
根据第五种或者第六种可能的实现方式,在第七种可能的实现方式中,所述采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测,包括:在预测有效窗口内,采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
第二方面,本发明实施例提供的集群系统的失效预测装置包括
事件序列簇获取模块,用于根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;因果关联路径簇获取模块,用于对所述事件序列簇进行因果关联分析,获取因果关联路径簇;失效模式获取模块,用于对所述因果关联路径簇进行失效分析,获取所述集群系统的失效模式;失效预测模块,用于根据所述失效模式,对所述集群系统进行失效预测。
在第二方面的第一种可能的实现方式中,还包括:事件获取模块,用于从所述集群系统的日志事件库中获取所述失效事件集合和所述事件序列模式集合。
根据第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述事件序列簇获取模块具体用于:在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件属于所述失效事件集合;将所述第一事件序列模式和所述第一事件序列模式的第一支持度计数添加至所述事件序列簇。
根据第二方面或第二方面的前两种可能的实现方式,在第三种可能的实现方式中,所述因果关联路径簇获取模块具体用于:根据所述事件序列簇构建因果关系网;根据所述因果关系网获取所述因果关联路径簇。
根据第二方面或第二方面的前三种可能的实现方式,在第四种可能的实现方式中,所述失效模式获取模块具体用于:以所述因果关联路径簇中包含的第二失效事件为后件,以所述因果关联路径簇中包含的处于所述第二失效事件前一位置的事件为前件,将所述前件与所述后件构造为二元失效因果路径簇;根据事件类型表,查找所述前件与所述后件分别对应的前件事件类型标识与后件事件类型标识,将所述二元失效因果路径簇中包含的所述前件与所述后件分别替换为所述前件事件类型标识与所述后件事件类型标识,得到由所述前件事件类型标识与所述后件事件类型标识构成的所述失效模式。
根据第二方面或第二方面的前四种可能的实现方式,在第五种可能的实现方式中,所述失效预测模块具体用于:根据所述失效模式,对失效事件序列关联规则库进行更新;采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
根据第五种可能的实现方式,在第六种可能的实现方式中,所述失效预测模块具体还用于:根据所述失效模式,获取第二事件序列模式;将所述第二事件序列模式对应的失效事件序列关联规则添加至所述失效事件序列关联规则库。
根据第五种或者第六种可能的实现方式,在第七种可能的实现方式中,所述失效预测模块还用于:在预测有效窗口内,采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
本发明实施例提供的集群系统的失效预测方法及装置,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。可以通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高失效预测的召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的集群系统的失效预测方法一实施例的流程图;
图2为本发明提供的集群系统的失效预测方法中获得事件序列簇的方法实施例流程图;
图3A为本发明提供的集群系统的失效预测方法中获取因果关联路径簇的方法实施例流程图;
图3B为根据表1中的事件序列簇SC1构建因果关系网的实施例示意图;
图3C为根据事件序列簇SC3获取因果关联路径簇的实施例示意图;
图4为本发明提供的集群系统的失效预测方法中获取集群系统的失效模式的方法实施例流程图;
图5为本发明提供的集群系统的失效预测方法中根据失效模式对集群系统进行失效预测的方法实施例流程图;
图6为本发明提供的集群系统的失效预测方法中采用更新后的失效事件序列关联规则库对集群系统进行失效预测的方法实施例简图;
图7为本发明提供的集群系统的失效预测装置一实施例的结构示意图;
图8为本发明提供的集群系统的失效预测装置另一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的集群系统的失效预测方法一实施例的流程图,如图1所示,本实施例提供的集群系统的失效预测方法包括:
S110、根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇。集群系统的事件序列是要将系统日志中的一系列事件看作按照事件发生的时间戳先后顺序所组成的序列,通过定义大规模系统日志的事件序列模式来描述系统事件之间的频繁关联,事件序列模式集合包含了所有的事件序列模式。
S120、对事件序列簇进行因果关联分析,获取因果关联路径簇。
S130、对因果关联路径簇进行失效分析,获取集群系统的失效模式。
S140、根据失效模式,对集群系统进行失效预测。
本实施例提供的集群系统的失效预测方法,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高了失效预测的召回率。
可选地,图1所示实施例中,根据集群系统的失效事件集合对事件序列模式集合进行聚类分析之前,还包括:从集群系统的日志事件库中获取失效事件集合和事件序列模式集合。即用于获取事件序列簇的失效事件集合和事件序列模式集合可以从集群系统的日志事件库中获得。
图2为本发明提供的集群系统的失效预测方法中获得事件序列簇的方法实施例流程图,如图2所示,本实施例提供的集群系统的失效预测方法中,根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇,包括:在事件序列模式集合中查找包含第一失效事件的第一事件序列模式,第一失效事件属于失效事件集合;确定所述事件序列簇包括第一事件序列模式和第一事件序列模式的第一支持度计数。
具体地,本发明实施例中,获得事件序列簇的方法可以包括:
S202、对事件序列模式集合SM和失效事件集合FE进行初始化;将已经经过S208-S218处理过的失效事件集合定义为Ef,可以将Ef称为已处理失效事件集合,初始化已处理失效事件集合Ef,令Ef=φ。
S204、初始化事件序列簇SCi和事件聚类集ECi,令SCi=φ且ECi=φ。
S206、判断失效事件集合FE中的第一失效事件fej(1≤j<t)是否属于已处理失效事件集合Ef:若第一失效事件fej属于已处理失效事件集合Ef,则继续通过S206对下一失效事件fej+1进行判断;若第一失效事件fej不属于已处理失效事件集合Ef,则执行S208。
S208、在事件序列模式集合SM中搜索包含第一失效事件fej的第一事件序列模式,令sc={SM中包含fej且支持度计数大于阈值的第一事件序列模式的集合}。
对于事件序列模式集合SM中事件序列模式的支持度计数,需要说明的是,如果A是事件序列模式集合SM中的一个事件序列模式,A的支持度计数是指A在经过序列模式挖掘得到的原始序列数据库中出现的次数,在序列模式集合SM中用一个正整数表示,可以记为
Figure BDA00002391026300061
S210、判断sc是否为空,若sc不为空,则执行S212;若sc为空,则判断fej是否属于FE(S216),如果fej属于FE,则令fej=fej+1后返回S206,如果fej不属于FE,则令fej=fej+1后执行S218。
S212、若sc不为空,令ec={sc包含的第一事件序列模式里所包含的所有事件的事件标识(log id)的集合},SCi=SCi+sc,ECi=ECi+ec;令ef=ef+{ec中包含的事件标识中的失效事件的事件标识的集合},Ef=Ef+{fej},SM=SM-sc。
S214、判断事件序列模式集合SM以及ef是否为空,若事件序列模式集合SM与ef都不为空再次从S204开始执行上述过程,直至事件序列模式集合SM或ef为空。
S218、通过S216判断获知fej不属于FE后,判断在S212或S216中得到的ef中的fej是否属于Ef,如果ef中的fej属于Ef,则继续通过S218对下一fej+1进行判断;如果ef中的fej不属于Ef,则返回S208,直至ef为空。
上述实施例提供的获得事件序列簇的方法例如具体可以包括:
如果失效事件集合FE={1055,1800,1883,1884,2173,1992};
如果事件序列模式集合SM如表1所示:
表1:
那么,根据上述失效事件集合FE对事件序列模式SM集合进行聚类分析,获得事件序列簇SC1和事件聚类集EC1的过程可以如表2所示:
表2:
Figure BDA00002391026300072
同理,根据上述失效事件集合FE对事件序列模式SM集合进行聚类分析,获得事件序列簇SC2和事件聚类集EC2的过程可以如表3所示:
表3:
Figure BDA00002391026300082
本发明实施例提供的集群系统的失效预测方法中,根据失效事件集合FE对事件序列模式SM集合进行聚类而获得事件序列簇SC2的实现方式不以此为限,具体算法更不在本发明实施例的限制范围内。
本实施例提供的集群系统的失效预测方法,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高了失效预测的召回率。
图3A为本发明提供的集群系统的失效预测方法中获取因果关联路径簇的方法实施例流程图,如图3A所示,本实施例提供的集群系统的失效预测方法中,根据事件序列簇,获取因果关联路径簇,包括:根据事件序列簇构建因果关系网;根据因果关系网获取因果关联路径簇。
具体地,在本发明实施例中,获取因果关联路径簇的方法可以包括:
S302、根据事件序列簇SCi构建因果关系网G_causalj。具体构建因果关系网G_causalj的方法可以包括:在各事件序列簇中,以事件序列模式中的事件为顶点(Vertex),以先后次序关系为边(Edge),以序列模式支持度为各边对应的权值(Weight),分别构建与事件序列簇对应的因果关系网G_causalj=(Vertexk,Edgem,Weightm),其中各因果关系网G_causalj中的顶点数分别为事件聚类集ECi中的事件数即事件标识(log id)数。
S304、在因果关系网G_causalj中,只保留相连顶点间权值最大的一条有向边,以简化因果关系网。需要说明的是,只保留相连顶点间权值最大的有向边,既不会破坏因果关系网的连通性,而且还能将因果关系网进行化简,便于生成因果关系树。
S306、检查化简后的因果关系网是否存在环路,若存在则删除环路中的权值最小的边(S308)。
S310、经过步骤S304~S308对因果关系网G_causalj进行化简和去环路,形成一棵或多棵因果关系树后,从根节点按权值最大遍历因果关系树。
S312、获取因果关联路径簇Ccausal_pathj
以使用上述实施例提供的获取因果关联路径簇的方法,以根据表1中的事件序列簇SCi获取因果关联路径簇为例:
图3B为根据表1中的事件序列簇SC1构建因果关系网的实施例示意图,如图3B所示,以事件序列模式中的事件为顶点,顶点分别为:1055、1800、1839、1883、1884、2185、2132;以先后次序关系为边,以序列模式支持度为各边对应的权值,各边对应的权值分别为:76、36、18、6、2、2;构建与与表1中事件序列簇SC1对应的因果关系网;
对图3B所示的因果关系网进行化简去环路后,可以生成的因果关联路径簇包括:
因果关联路径1:1055→1800→1839→1883→1884→2185;
因果关联路径2:1055→1800→1839→1883→2132。
图3C为根据事件序列簇SC3获取因果关联路径簇的实施例示意图,其中事件序列簇SC3为:
<1833 1839>:7  <1839 3424>:2  <1839 3314>:13  <1839 2185>:2<1839 2174>:17  <1839 2148>:2  <1839 2132>:2  <1839 1889>:5  <18391884>:2  <1839 1883>:2  <1839 1833>:5  <1839 1564>:2  <1839 1055>:2<1889 1839>:2  <2174 1839>:2  <2873 2879>:30  <2873 2242>:105  <28732142>:966  <2873 2141>:66  <2873 2073>:35  <3314 2873>:50
如图3C所示,首先构建与与事件序列簇SC3对应的因果关系网30,对因果关系网30进行化简后,得到化简后的因果关系网31,再将化简后的因果关系网31进行去环路处理,得到因果关系树32,最后可以根据因果关系树32获得包含多条因果关联路径的因果关联路径簇,其中最长的一条因果关联路径为:1833→1839→3314→2873→2142。
本发明实施例提供的集群系统的失效预测方法中,根据事件序列簇获取因果关联路径簇方法的实现方式不以此为限,具体算法更不在本发明实施例的限制范围内。
本实施例提供的集群系统的失效预测方法,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高了失效预测的召回率。
图4为本发明提供的集群系统的失效预测方法中获取集群系统的失效模式的方法实施例流程图,如图4所示,本实施例提供的集群系统的失效预测方法中,对因果关联路径簇进行失效分析,获取集群系统的失效模式,包括:以因果关联路径簇中包含的第二失效事件为后件,以因果关联路径簇中包含的处于第二失效事件前一位置的事件为前件,将前件与后件构造为二元失效因果路径簇;根据事件类型表,查找前件与后件分别对应的前件事件类型标识与后件事件类型标识,将二元失效因果路径簇中包含的前件与后件分别替换为前件事件类型标识与后件事件类型标识,得到由前件事件类型标识与后件事件类型标识构成的失效模式。
具体地,在本发明实施例中,获取集群系统的失效模式的方法可以包括:
S402、读取因果关联路径簇Ccausal_pathj中每一条因果关联路径中的第二失效事件。由于因果关联路径表示了事件发生之间的因果先后顺序,根据事件类型表找出各条因果关联路径中的第二失效事件。
S404、生成以第二失效事件为终结点的二元失效因果路径簇。具体而言,以因果关联路径上的第二失效事件为后件,第二失效事件前一位置的事件为前件(即第二失效事件不能为二元失效因果路径中的头结点),构造以第二失效事件为终结点的二元子路径,生成二元失效因果路径簇。
S406、根据事件类型表中事件标识(log id)和事件类型标识(event id)的对应关系,找出二元失效因果路径簇中前件和后件的事件标识分别对应的前件事件类型标识和后件事件类型标识。
S408、将二元失效因果路径簇中包含的前件与后件分别替换为前件事件类型标识与后件事件类型标识,得到由前件事件类型标识与后件事件类型标识构成的失效模式。并将失效模式保存到失效模式库FM。
下面以Hadoop系统,即来自中国移动研究院的系统的日志中的因果关联路径簇所包含的一条因果关系路径:142→2015→1969→1171→1170→1169→1160→1261→1260→1259→1264→1253→1710为例,说明上述实施例提供的获取集群系统的失效模式的方法:
第一步、根据事件类型表1,发现事件1171和事件1261对应的严重程度(severity)为failure,即事件1171和事件1261为失效事件。
事件类型表1:
  log id   node id   event id   severity   eventtype keywords
  1171   104   145  failure   Memory Memory for crash
  1261   112   145  failure   Memory Memory for crash
第二步、以失效事件为终结点,即分别以失效事件1171和失效事件1261为后件,失效事件前一位置的事件为前件,构造二元子路径,生成二元失效因果路径:1969→1171(支持度:1536)和1160→1261(支持度:1024)。
第三步、根据事件类型表2和事件类型表1,找出前件1969和1160分别对应的前件事件类型标识(event id):171和21;找出后件1171和1261分别对应的后件事件类型标识(event id):145和145。
事件类型表2:
  log id   node id   event id   severity   eventtype   keywords
  1969   160   171   error   Software   could not identify password
  1160   104   21   warning   Memory   Address already in use
第四步、将二元失效因果路径簇中包含的二元失效因果路径:1969→1171和1160→1261中的前件1969和1160,以及后件1171和1261分别替换为前件事件类型标识171和21,以及后件事件类型标识145和145,得到由前件事件类型标识与后件事件类型标识构成的失效模式:171→145和21→145。可以将获取的失效模式保存到失效模式库FM。
通过对不同系统日志的因果关联路径簇进行失效模式的获取,Hadoop系统具有35个失效模式,美国洛斯阿拉莫斯国家实验室的高性能计算机(LANL-HPC)系统具有26个失效模式,美国劳伦斯利弗莫尔国家实验室蓝色基因超级计算机(LLNL-Bluegene/L)系统具有32个失效模式。
本实施例提供的集群系统的失效预测方法,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高了失效预测的召回率。
图5为本发明提供的集群系统的失效预测方法中根据失效模式对集群系统进行失效预测的方法实施例流程图,如图5所示,本实施例提供的集群系统的失效预测方法中,根据失效模式对集群系统进行失效预测可以包括:根据失效模式,对失效事件序列关联规则库进行更新;采用更新后的失效事件序列关联规则库,对集群系统进行失效预测。
其中,根据失效模式,对失效事件序列关联规则库进行更新,可以包括:根据失效模式,获取第二事件序列模式;将第二事件序列模式添加至失效事件序列关联规则库。
具体地,在本发明实施例中,根据失效模式对集群系统进行失效预测的方法可以包括:
S502、扫描失效模式库FM,读取其中的一个失效模式fmi(i=1,2,...γ),结合事件类型表获取失效模式fmi(i=1,2,...γ)事件的事件类型标识(eventid);并按照事件类型标识搜索日志事件库,获取所有可能的多个第二事件序列模式sm_new
S504、可以计算第二事件序列模式sm_new的支持度Sup(sm_new)和其对应的事件序列关联规则的置信度Conf(sm_new):
由于第二事件序列模式sm_new并未实际存在于事件序列模式集合SM中,所以此处仅给出该序列模式对应的事件序列关联规则的近似支持度,本发明实施例对该支持度的计算方法不做具体限制,但可以包括:
Sup(sm_new)=Sup(fmi);
置信度用来度量事件序列关联规则的置信程度,即在规则前件发生的情况下规则后件发生的概率。由于第二事件序列模式sm_new并未实际存在于事件序列模式集合SM中,所以此处仅给出该序列模式对应的事件序列关联规则的近似置信度,本发明实施例对该置信度的计算方法不做具体限制,但可以包括:
Figure BDA00002391026300131
S506、将计算过支持度和置信度的所有第二事件序列模式sm_new添加到失效事件序列关联规则库FR,得到更新后的失效事件序列关联规则库FR0
其中,失效事件序列关联规则库FR是根据事件序列模式集合SM,通过失效事件序列关联规则挖掘算法来生成的,属于现有技术,不再赘述。
下面以Hadoop系统日志中失效模式库FM中的失效模式171→145为例,根据该失效模式,并结合事件类型表3:
事件类型表3:
  logid   eventid   severity   eventtype   nodeid
  23   145   failure   memory   0
  27   171   error   software   0
  63   145   failure   memory   2
  65   171   error   sofware   2
  97   171   failure   memory   4
  99   145   error   software   4
  122   171   failure   memory   11
  124   145   error   sofware   11
  144   171   failure   memory   12
  146   145   error   sofware   12
  168   171   failure   memory   13
  170   145   error   sofware   13
  200   171   failure   memory   15
  201   145   error   software   15
  233   171   failure   memory   16
  234   145   error   software   16
  856   171   failure   memory   80
  857   145   error   software   80
  1117   171   failure   memory   100
  1118   145   error   software   100
  1406   171   failure   memory   120
  1412   145   error   software   120
  1709   171   failure   memory   140
  1710   145   error   software   140
  1967   171   failure   memory   160
  1969   145   error   software   160
  2310   171   failure   memory   180
  2312   145   error   software   180
  2594   171   failure   memory   200
  2596   145   error   software   200
  2919   171   failure   memory   220
  2921   145   error   software   220
  3224   171   failure   memory   240
  3225   145   error   software   240
  3506   171   failure   memory   260
  3507   145   error   software   260
可以获取18个第二事件序列模式:
<27 23>、<65 63>、<99 97>、<124 122>、<146 144>、<170 168>、<201 200>、<234233>、<857 856>、<1118 1117>、<1412 1406>、<1710 1709>、<1969 1967>、<23122310>、<2596 2594>、<2921 2919>、<3225 3224>、<3507 3506>。
可以在计算出以上第二事件序列模式的支持度和置信度之后,将第二事件序列模式添加到已有的失效事件序列关联规则库FR中,得到更新后的失效事件序列关联规则库FR0。
本实施例提供的集群系统的失效预测方法,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高了失效预测的召回率。
图6为本发明提供的集群系统的失效预测方法中采用更新后的失效事件序列关联规则库对集群系统进行失效预测的方法实施例简图,如图6所示,本实施例提供的集群系统的失效预测方法中,采用更新后的失效事件序列关联规则库,对集群系统进行失效预测,包括:在预测有效窗口内,采用更新后的失效事件序列关联规则库,对集群系统进行失效预测。
本发明实施例中的失效预测,可以根据集群系统的日志事件库中的历史日志事件,采用上述实施例中的实现方式,对失效事件序列关联规则库进行更新。
再采用更新后的失效事件序列关联规则库对集群系统进行失效预测,而失效预测需在预先设定的预测有效窗口内进行,也就是说被预测事件发生时间需在预测时间点之后并在预测过期时间点之前,以进一步保证失效预测的召回率。
在集群系统的失效预测中,通常可以采取失效预测召回率指标来衡量对事件预测结果的有效性。失效预测召回率可以表示为:
Recall = TP EventNum
其中,失效预测正确数TP表示预测正确的失效事件在预测有效窗口中发生的数目;EventNum表示需要被预测的所有失效事件的数目。那么,失效预测召回率Recall表示预测正确的失效事件数在需要被预测的所有失效事件中所占的比例。
在进行失效预测时,当一个事件发生时,根据该事件所在的事件序列关联规则,计算可能发生事件的概率,由此产生失效事件预测。如果预计可能发生的失效事件在预测有效窗口实际发生,就表明预测成功;否则,预测失败。
所以,失效预测召回率Recall越高,表示失效预测越成功。
表4为本发明实施例提供的集群系统的失效预测方法的失效预测召回率与现有技术的失效预测方法的失效预测召回率的实验数据对比表,如表4所示,本发明实施例提供的集群系统的失效预测方法与现有技术相比,提高了失效预测召回率,从而有助于提高集群系统失效预测的总体效果。
表4:
Figure BDA00002391026300161
在本发明实施例实施的过程中,基于因果关联路径簇获取的失效模式,不仅可以用于失效预测,还可以用于对集群系统失效行为进行更进一步的分析,进而用于集群系统的故障诊断等。
本实施例提供的集群系统的失效预测方法,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高了失效预测的召回率。
图7为本发明提供的集群系统的失效预测装置一实施例的结构示意图,如图7所示,本实施例提供的集群系统的失效预测装置700可以包括:事件序列簇获取模块720、因果关联路径簇获取模块730、失效模式获取模块740以及失效预测模块750,在此基础上,还可以包括事件获取模块710,具体地:
事件序列簇获取模块720,用于根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;
因果关联路径簇获取模块730,用于对事件序列簇进行因果关联分析,获取因果关联路径簇;
失效模式获取模块740,用于对因果关联路径簇进行失效分析,获取集群系统的失效模式;
失效预测模块750,用于根据失效模式,对集群系统进行失效预测。
可选地,还包括:
事件获取模块710,用于从集群系统的日志事件库中获取失效事件集合和事件序列模式集合。
可选地,事件序列簇获取模块720具体用于:在事件序列模式集合中查找包含第一失效事件的第一事件序列模式,第一失效事件属于失效事件集合;确定事件序列簇包括第一事件序列模式和第一事件序列模式的第一支持度计数。
可选地,因果关联路径簇获取模块730具体用于:根据事件序列簇构建因果关系网;根据因果关系网获取因果关联路径簇。
可选地,失效模式获取模块740具体用于:以因果关联路径簇中包含的第二失效事件为后件,以因果关联路径簇中包含的处于第二失效事件前一位置的事件为前件,将前件与后件构造为二元失效因果路径簇;根据事件类型表,查找前件与后件分别对应的前件事件类型标识与后件事件类型标识,将二元失效因果路径簇中包含的前件与后件分别替换为前件事件类型标识与后件事件类型标识,得到由前件事件类型标识与后件事件类型标识构成的失效模式。
可选地,失效预测模块750具体用于:根据失效模式,对失效事件序列关联规则库进行更新;采用更新后的失效事件序列关联规则库,对集群系统进行失效预测。
可选地,失效预测模块750具体还用于:根据失效模式,获取第二事件序列模式;将第二事件序列模式添加至失效事件序列关联规则库。
可选地,失效预测模块750还用于:在预测有效窗口内,采用更新后的失效事件序列关联规则库,对集群系统进行失效预测。
本实施例的集群系统的失效预测装置700,可以用于执行图1~图6所示方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明提供的集群系统的失效预测装置另一实施例的结构示意图,如图8所示,本实施例提供的集群系统的失效预测装置800可以包括至少一个处理器801,例如CPU,至少一个网络接口802以及其他用户接口803,存储器804,至少一个通信总线805以及操作系统806。通信总线805用于实现这些装置之间的连接通信。存储器804可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器804可选的可以包含至少一个位于远离前述处理器801的存储装置。操作系统806,包含各种程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器801,用于根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;
处理器801,用于对事件序列簇进行因果关联分析,获取因果关联路径簇;
处理器801,用于对因果关联路径簇进行失效分析,获取集群系统的失效模式;
处理器801,用于根据失效模式,对集群系统进行失效预测。
可选地,处理器801用于从集群系统的日志事件库中获取失效事件集合和事件序列模式集合。
可选地,处理器801具体用于:在事件序列模式集合中查找包含第一失效事件的第一事件序列模式,第一失效事件属于失效事件集合;确定事件序列簇包括第一事件序列模式和第一事件序列模式的第一支持度计数。
可选地,处理器801具体用于:根据事件序列簇构建因果关系网;根据因果关系网获取因果关联路径簇。
可选地,处理器801具体用于:以因果关联路径簇中包含的第二失效事件为后件,以因果关联路径簇中包含的处于第二失效事件前一位置的事件为前件,将前件与后件构造为二元失效因果路径簇;根据事件类型表,查找前件与后件分别对应的前件事件类型标识与后件事件类型标识,将二元失效因果路径簇中包含的前件与后件分别替换为前件事件类型标识与后件事件类型标识,得到由前件事件类型标识与后件事件类型标识构成的失效模式。
可选地,处理器801具体用于:根据失效模式,对失效事件序列关联规则库进行更新;采用更新后的失效事件序列关联规则库,对集群系统进行失效预测。
可选地,处理器801具体还用于:根据失效模式,获取第二事件序列模式;将第二事件序列模式添加至失效事件序列关联规则库。
可选地,处理器801还用于:在预测有效窗口内,采用更新后的失效事件序列关联规则库,对集群系统进行失效预测。
本实施例的集群系统的失效预测装置800,可以用于执行图1~图6所示方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
综上所述,本发明实施例提供的集群系统的失效预测方法及装置,对事件序列模式集合进行聚类获得因果关联路径簇,从而获得集群系统的失效模式,根据获取的失效模式对集群系统进行失效预测。可以通过对集群系统日志进行深度的分析和挖掘,获得用于失效预测的可靠的失效规则,进而提高失效预测的召回率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种集群系统的失效预测方法,其特征在于,包括:
根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;
对所述事件序列簇进行因果关联分析,获取因果关联路径簇;
对所述因果关联路径簇进行失效分析,获取所述集群系统的失效模式;
根据所述失效模式,对所述集群系统进行失效预测。
2.根据权利要求1所述的方法,其特征在于,所述根据集群系统的失效事件集合对事件序列模式集合进行聚类分析之前,还包括:
从所述集群系统的日志事件库中获取所述失效事件集合和所述事件序列模式集合。
3.根据权利要求1或2所述的方法,其特征在于,所述根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇,包括:
在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件属于所述失效事件集合;
确定所述事件序列簇包括所述第一事件序列模式和所述第一事件序列模式的第一支持度计数。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述对所述事件序列簇进行因果分析,获取因果关联路径簇,包括:
根据所述事件序列簇构建因果关系网;
根据所述因果关系网获取所述因果关联路径簇。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述对所述因果关联路径簇进行失效分析,获取所述集群系统的失效模式,包括:
以所述因果关联路径簇中包含的第二失效事件为后件,以所述因果关联路径簇中包含的处于所述第二失效事件前一位置的事件为前件,将所述前件与所述后件构造为二元失效因果路径簇;
根据事件类型表,查找所述前件与所述后件分别对应的前件事件类型标识与后件事件类型标识,将所述二元失效因果路径簇中包含的所述前件与所述后件分别替换为所述前件事件类型标识与所述后件事件类型标识,得到由所述前件事件类型标识与所述后件事件类型标识构成的所述失效模式。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述根据所述失效模式,对所述集群系统进行失效预测,包括:
根据所述失效模式,对失效事件序列关联规则库进行更新;
采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
7.根据权利要求6所述的方法,其特征在于,根据所述失效模式,对失效事件序列关联规则库进行更新,包括:
根据所述失效模式,获取第二事件序列模式;
将所述第二事件序列模式对应的失效事件序列关联规则添加至所述失效事件序列关联规则库。
8.根据权利要求6或7所述的方法,其特征在于,所述采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测,包括:
在预测有效窗口内,采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
9.一种集群系统的失效预测装置,其特征在于,包括
事件序列簇获取模块,用于根据集群系统的失效事件集合对事件序列模式集合进行聚类分析,获得事件序列簇;
因果关联路径簇获取模块,用于对所述事件序列簇进行因果关联分析,获取因果关联路径簇;
失效模式获取模块,用于对所述因果关联路径簇进行失效分析,获取所述集群系统的失效模式;
失效预测模块,用于根据所述失效模式,对所述集群系统进行失效预测。
10.根据权利要求9所述的装置,其特征在于,还包括:
事件获取模块,用于从所述集群系统的日志事件库中获取所述失效事件集合和所述事件序列模式集合。
11.根据权利要求9或10所述的装置,其特征在于,所述事件序列簇获取模块具体用于:
在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件属于所述失效事件集合;
确定所述事件序列簇包括所述第一事件序列模式和所述第一事件序列模式的第一支持度计数。
12.根据权利要求9~11中任一项所述的装置,其特征在于,所述因果关联路径簇获取模块具体用于:
根据所述事件序列簇构建因果关系网;
根据所述因果关系网获取所述因果关联路径簇。
13.根据权利要求9~12中任一项所述的装置,其特征在于,所述失效模式获取模块具体用于:
以所述因果关联路径簇中包含的第二失效事件为后件,以所述因果关联路径簇中包含的处于所述第二失效事件前一位置的事件为前件,将所述前件与所述后件构造为二元失效因果路径簇;
根据事件类型表,查找所述前件与所述后件分别对应的前件事件类型标识与后件事件类型标识,将所述二元失效因果路径簇中包含的所述前件与所述后件分别替换为所述前件事件类型标识与所述后件事件类型标识,得到由所述前件事件类型标识与所述后件事件类型标识构成的所述失效模式。
14.根据权利要求9~13中任一项所述的装置,其特征在于,所述失效预测模块具体用于:
根据所述失效模式,对失效事件序列关联规则库进行更新;
采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
15.根据权利要求14所述的装置,其特征在于,所述失效预测模块具体还用于:
根据所述失效模式,获取第二事件序列模式;
将所述第二事件序列模式对应的失效事件序列关联规则添加至所述失效事件序列关联规则库。
16.根据权利要求14或15所述的装置,其特征在于,所述失效预测模块还用于:
在预测有效窗口内,采用更新后的失效事件序列关联规则库,对所述集群系统进行失效预测。
CN201210450162.6A 2012-11-12 2012-11-12 集群系统的失效预测方法及装置 Expired - Fee Related CN103812719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210450162.6A CN103812719B (zh) 2012-11-12 2012-11-12 集群系统的失效预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210450162.6A CN103812719B (zh) 2012-11-12 2012-11-12 集群系统的失效预测方法及装置

Publications (2)

Publication Number Publication Date
CN103812719A true CN103812719A (zh) 2014-05-21
CN103812719B CN103812719B (zh) 2018-05-18

Family

ID=50708960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210450162.6A Expired - Fee Related CN103812719B (zh) 2012-11-12 2012-11-12 集群系统的失效预测方法及装置

Country Status (1)

Country Link
CN (1) CN103812719B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN110096529A (zh) * 2019-04-16 2019-08-06 中科金联(北京)科技有限公司 一种基于多维矢量数据的网络数据挖掘方法和系统
CN111143103A (zh) * 2019-12-26 2020-05-12 北京浪潮数据技术有限公司 一种关联关系确定方法、装置、设备及可读存储介质
CN112069227A (zh) * 2020-08-18 2020-12-11 之江实验室 一种面向事件序列的因果建模方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315618A (zh) * 2008-05-30 2008-12-03 中国科学院计算技术研究所 一种效用计算的机群系统及其运行时环境管理方法
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315618A (zh) * 2008-05-30 2008-12-03 中国科学院计算技术研究所 一种效用计算的机群系统及其运行时环境管理方法
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598800A (zh) * 2015-10-14 2017-04-26 中兴通讯股份有限公司 一种硬件故障分析系统和方法
CN110096529A (zh) * 2019-04-16 2019-08-06 中科金联(北京)科技有限公司 一种基于多维矢量数据的网络数据挖掘方法和系统
CN111143103A (zh) * 2019-12-26 2020-05-12 北京浪潮数据技术有限公司 一种关联关系确定方法、装置、设备及可读存储介质
CN112069227A (zh) * 2020-08-18 2020-12-11 之江实验室 一种面向事件序列的因果建模方法及装置
CN112069227B (zh) * 2020-08-18 2024-02-27 之江实验室 一种面向事件序列的因果建模方法及装置

Also Published As

Publication number Publication date
CN103812719B (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
EP3258458B1 (en) Share recovery system, share recovery apparatus, share recovery method, and program
CN102298569A (zh) 在线学习算法的并行化
CN102142032B (zh) 一种分布式文件系统的数据读写方法及系统
CN111858146B (zh) 用于恢复数据的方法、设备和计算机程序产品
CN103812719A (zh) 集群系统的失效预测方法及装置
CN106445643A (zh) 克隆、升级虚拟机的方法及设备
CN109558263A (zh) 一种固态硬盘数据读取错误的处理方法及相关装置
CN107818106B (zh) 一种大数据离线计算数据质量校验方法和装置
CN108182278A (zh) 一种fru信息维护方法及相关装置
CN104348905A (zh) 一种离线推送消息的方法及装置
CN103503388B (zh) 一种分布式队列消息读取方法及设备、系统
CN113761293A (zh) 图数据强连通分量挖掘方法、装置、设备及存储介质
CN105117303A (zh) 一种数据恢复的方法及设备
Zhang et al. Feature model validation: A constraint propagation-based approach
CN114138786A (zh) 一种联机交易消息去重方法、装置、介质、产品和设备
CN114240179A (zh) 一种基于事件图谱的财务流程挖掘方法和相关装置
CN104025056B (zh) 一种数据恢复的方法及设备
CN103970860A (zh) 一种数据处理的方法、装置及系统
CN104598512B (zh) 数据群集管理装置及方法
CN109783569A (zh) 一种基于区块链的账本记录方法、装置及终端设备
CN114691686B (zh) 生成区块状态承诺的方法
CN115828312B (zh) 一种面向电力用户社交网络的隐私保护方法及系统
CN103425571A (zh) 一种源代码完整性检测方法和装置
CN111061640B (zh) 一种软件可靠性测试用例筛选方法及系统
KR102476358B1 (ko) 소스코드 레벨에서의 오픈소스 소프트웨어 (oss) 구성요소 식별을 위한 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180518

Termination date: 20201112