CN109885456A - 一种基于系统日志聚类的多类型故障事件预测方法及装置 - Google Patents

一种基于系统日志聚类的多类型故障事件预测方法及装置 Download PDF

Info

Publication number
CN109885456A
CN109885456A CN201910127212.9A CN201910127212A CN109885456A CN 109885456 A CN109885456 A CN 109885456A CN 201910127212 A CN201910127212 A CN 201910127212A CN 109885456 A CN109885456 A CN 109885456A
Authority
CN
China
Prior art keywords
event
failure
log
rule
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910127212.9A
Other languages
English (en)
Inventor
应时
杨喆
王冰明
程国力
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910127212.9A priority Critical patent/CN109885456A/zh
Publication of CN109885456A publication Critical patent/CN109885456A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

为了能够在故障预测时进一步提供故障的相关信息,本发明公开了一种基于系统日志聚类的多类型故障事件预测方法,基于日志消息分类和标注日志事件,以提供故障的相关信息,利用改进的层次聚类算法挖掘故障事件各自相关的频繁事件序列,基于频繁事件序列生成故障事件预测规则,并实现对规则的过滤,基于规则的匹配实现多类型故障事件的预测。本发明实现了不仅能够有效的进行故障事件预测,而且能够提供故障的相关信息的技术效果。

Description

一种基于系统日志聚类的多类型故障事件预测方法及装置
技术领域
本发明涉及无软件工程技术领域,具体涉及一种基于系统日志聚类的多类型故障事件预测方法及装置。
背景技术
大规模的科学和工程应用在社会的许多方面,例如国家经济、健康发展和军事以及安全等方面一直起着关键的作用。由于这些应用对计算以及存储的大量需求,高端计算系统的研究得以快速发展。具有数百甚至数千个处理器的大规模集群正在被设计和部署。然而,在这些系统中,即使单个组件是高度可靠的,大量组件的存在和交互也不可避免地增加了系统发生故障的概率。随着应用程序和系统的规模以及复杂性的不断增加,故障的发生已经成为一种常态,而不仅仅是一个意外。
一般来说,系统中的故障大致可以分为两类,即软件故障和硬件故障。系统的软件故障和硬件故障都会严重影响到系统的性能和运营成本。例如,故障可能会使系统的节点不可用,从而降低系统利用率。此外,故障还会导致在节点上执行的应用程序中止,从而浪费已经完成的工作量。另外,故障也会导致系统管理成本的增加。例如,系统管理员可能需要检测故障、诊断问题并找出最佳的补救措施;而对于硬件故障,还可能需要重新设置节点,更换主板、磁盘等;在软件故障方面,可能需要迁移应用程序,重新启动应用程序,重新初始化/更新软件模块等。事实上,由此引起的人员参与都将会增加总运营成本,这在许多生产环境中已经成为一个严重的问题。此外,对于大规模的集群系统,随着系统组件数量的增加,全系统的平均故障间隔时间逐渐减少,可靠性正在成为一个主要问题。
现有技术中,随着高性能计算系统对故障恢复需求的增多,各种容错技术已经被提出,如故障感知的资源管理和调度、检查点,运行时弹性支持等。但是,这些技术的进步很大程度上取决于是否可以预测故障的发生,即故障预测。例如,对于主动的容错方法(如抢占式进程迁移),需要故障预测,以实现低成本的故障避免;对于反应性(被动)的方法(如检查点),有效的故障预测可以告诉我们何时何地执行检查点,以降低运营成本,而不是盲目地选择一个频率,然后周期性地执行动作。因此,有效的故障分析和预测可以显着增强这些技术,从而提高系统对故障的应变能力,并降低总体拥有成本。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
现有的故障预测方法多是对未来是否会发生故障进行的二分类预测,无法提供故障的相关信息。
发明内容
有鉴于此,本发明提供了一种基于系统日志聚类的多类型故障事件预测方法及装置,用以解决或者至少部分解决现有技术的方法存在无法提供故障的相关信息的技术问题。
本发明第一方面提供了一种基于系统日志聚类的多类型故障事件预测方法,包括:
基于日志消息对日志事件进行分类和标注;
通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与各类预设故障事件相关的频繁事件序列;
基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤;
根据过滤后的故障事件预测规则进行多类型故障事件预测。
在一种实施方式中,在基于日志消息对日志事件进行分类和标注之后,所述方法还包括:
过滤冗余日志事件。
在一种实施方式中,过滤冗余日志事件具体包括:
基于日志事件之间的时间间隔的阈值进行冗余日志事件的过滤。
在一种实施方式中,基于日志消息对日志事件进行分类和标注具体包括:
采用正则表达式对日志消息中的变量进行匹配,并采用预设符号对匹配成功的变量进行替换;
基于编辑距离对进行变量替换后的日志消息进行分组并标注事件ID,且具有不同事件ID的日志事件为不同类型的日志事件。
在一种实施方式中,通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与每类预设故障相关的频繁事件序列,包括:
基于统一时间窗口,生成与预设故障事件相关的日志事件序列集;
选取日志事件序列之间的最长公共子序列作为序列之间的相似性度量,利用改进的层次聚类算法,挖掘出频繁事件序列。
在一种实施方式中,基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤,包括:
在频繁事件序列中截取不同长度的预设数量子序列,生成故障预测规则;
将生成的故障事件预测规则在训练集上进行预测,并统计每条故障预测规则正确预测与错误预测的次数,再根据正确预测与错误预测的比率对故障预测规则进行过滤。
在一种实施方式中,根据过滤后的故障事件预测规则进行多类型故障事件预测,包括:
与当前发生的事件进行匹配,选取用于故障事件预测的候选规则;
选取当前事件之前一段事件序列,并判断候选规则中的序列是否为之前一段事件序列的子序列,若是,则匹配成功,并将匹配成功的候选规则加入匹配规则集;
根据匹配规则集中的规则,进行故障事件预测。
基于同样的发明构思,本发明第二方面提供了一种基于系统日志聚类的多类型故障事件预测装置,包括:
日志事件标注模块,用于基于日志消息对日志事件进行分类和标注;
日志事件序列聚类模块,用于通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与各类预设故障事件相关的频繁事件序列;
故障事件预测规则生成及过滤模块,用于基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤;
故障事件预测模块,用于根据过滤后的故障事件预测规则进行多类型故障事件预测。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于系统日志聚类的多类型故障事件预测方法,首先基于日志消息来分类和标注日志事件,然后通过改进的层次聚类算法来挖掘每类故障各自相关的频繁事件序列,再基于频繁事件序列生成故障事件预测规则,进一步对预测规则进行过滤,最后应用故障事件预测规则实现对多类型故障事件的预测。
相对于现有技术中对未来是否会发生故障进行的二分类预测,而无法提供故障的相关信息而言,本发明主要基于日志消息来分类和标注日志事件,通过挖掘与各类故障事件各自相关的频繁事件序列,实现对多种类型故障事件的预测。基于该方法,不仅能够有效的进行故障事件预测,而且能够提供故障的相关信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于系统日志聚类的多类型故障事件预测方法的流程图;
图2为本发明实施例中的方法概述图;
图3为本发明实施例中日志事件序列生成示意图;
图4为本发明实施例中故障事件预测时间关系示意图;
图5为本发明实施例中基于系统日志聚类的多类型故障事件预测装置的结构框图;
图6为本发明实施例中一种计算机可读存储介质的结构框图;
图7为本发明实施例中计算机设备的结构图。
具体实施方式
本发明的目的在于提供一种基于系统日志聚类的多类型故障事件预测方法及装置,用以改善现有技术的方法存在无法提供故障的相关信息的技术问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于系统日志聚类的多类型故障事件预测方法,请参见图1和2,该方法包括:
步骤S1:基于日志消息对日志事件进行分类和标注。
在一种实施方式中,步骤S1可以通过下述方式来实现:
步骤S1.1:采用正则表达式对日志消息中的变量进行匹配,并采用预设符号对匹配成功的变量进行替换;
步骤S1.2:基于编辑距离对进行变量替换后的日志消息进行分组并标注事件ID,且具有不同事件ID的日志事件为不同类型的日志事件。
具体来说,预设符号可以根据需要进行选取,例如*、&等。在具体的实施过程中,日志消息通常包括两种类型的信息,一种是自由格式的文本字符串,用来描述事件的语义信息;另一种是系统事件中的变量或参数,用来表示一些重要的系统属性。本实施方式使用正则表达式对日志消息中的变量(如数字、IP地址、目录等)进行匹配,匹配成功后,使用“*”进行替换。
然后使用编辑距离对变量替换后的日志消息进行分组。编辑距离是指两个字串之间,由一个转换成另一个所需的最少的字符编辑操作(插入、删除和替换)次数。本实施方式基于日志消息的单词来计算编辑距离,而不是字符。对于进行变量替换后的日志消息,如果两条日志消息之间的编辑距离小于预定的阈值,则将它们划分在同一组。对于同一组中的日志消息,使用相同的日志事件ID进行标注。
其中,为了提高效率,在基于日志消息对日志事件进行分类和标注之后,所述方法还包括步骤S2:
过滤冗余日志事件。
步骤S2具体包括:
基于日志事件之间的时间间隔的阈值进行冗余日志事件的过滤。
具体来说,基于事件之间的时间间隔的阈值进行过滤,即当一个事件被报告时,首先寻找距离该事件最近的且未被过滤的(而不是在原始日志中距离其最近的具有相同ID的事件),具有相同日志事件ID的事件,然后计算它们之间的时间间隔,若时间间隔小于预设的阈值,则删除该事件,否则保留该事件。
步骤S3:通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与各类预设故障事件相关的频繁事件序列。
在一种实施方式中,步骤S3可以通过下述方式来实现:
步骤S3.1:基于统一时间窗口,生成与预设故障事件相关的日志事件序列集;
步骤S3.2:选取日志事件序列之间的最长公共子序列作为序列之间的相似性度量,利用改进的层次聚类算法,挖掘出频繁事件序列。
具体来说,首先是与故障事件相关的日志事件序列的生成。本发明的基本思想是基于日志事件的相关性来进行故障预测。目前,最有效的故障相关分析方法是时间相关分析。因此,本发明采用基于统一时间窗口的方式来生成与故障事件相关的日志事件序列。如图3所示,本实施方式通过截取发生在故障事件之前的一段时间窗口内的日志事件,来生成日志事件序列。对于每个故障事件,可以得到多个日志事件序列,称之为与该故障事件相关的日志事件序列集。
然后进行频繁事件序列的挖掘。
首先对日志事件序列相似性度量的选取进行介绍。本发明在选取日志事件序列之间的相似性度量时,主要考虑到两点:(a)日志事件的有序性,即日志事件是按照时间的先后顺序排列的;(b)日志事件交错存在的特性,具体来说,在原始的日志文件中,日志消息根据其对应的时间戳进行排列,形成日志消息序列,但是,由于集群系统中可能同时进行着多个不同的任务和操作,所以生成的日志消息序列中事件是无规律交错存在的。
考虑到日志事件的以上两点特征,本发明以日志事件序列之间的最长公共子序列(LCS)作为序列之间的相似性度量。关于最长公共子序列,它与最长公共子串不同的是:子序列不需要在原始序列中占据连续的位置。也就是说,最长公共子序列,既保留了原始序列的有序性,同时,相对于原始序列,它可以是非连续的,这也是本发明选取最长公共子序列作为日志事件序列之间的相似性度量的原因。
与故障事件相关的日志事件序列集生成后,本发明将使用改进的聚合层次聚类算法对日志事件序列集进行聚类。在聚类之前,需要说明的是:由于本发明是对多种类型的故障事件进行预测,所以在生成事件序列时,每类故障都会生成一个与之相关的日志事件序列集;然后,使用聚类算法分别对每一类故障事件的日志事件序列集进行聚类,以挖掘各自相关的频繁事件序列,而不是把所有的事件序列放在一起进行聚类。下面对聚类算法进行介绍。
凝聚层次聚类算法的一般步骤为:首先将每个对象作为单独的一个簇,然后逐次合并相近的对象或簇,直到所有的簇合并为一个簇,或者满足某个终止条件。本发明在原有算法的基础上做了两点改进:
(1)在对两个簇进行合并时,本发明不是选择最接近的两个簇进行合并,而是设置了一个相似性度量的阈值,即最长公共子序列的长度的阈值,任意满足该阈值的两个簇都将进行合并,并且该阈值随着合并过程逐次递减。相似性度量的阈值逐次递减的原因是:基于相同时间窗口截取得到的事件序列长度差异较大,而且,日志事件序列之间的最长公共子序列的长度也有较大差异。若相似性度量的阈值设置为固定值,当该值较大时,会导致一些日志事件序列无法聚在一起,当该值较小时,会把一些不相似的序列也聚在一起。本发明则通过设置一个随着合并过程逐次递减的相似性度量的阈值,来解决该问题。
(2)每经过一轮合并,本发明会将日志事件序列数目超过一定阈值的簇剔出,不再参加下次合并,同时把该簇放进最终结果集。在这里,日志事件序列数目的阈值反应出了由聚类得到的频繁序列的频繁程度。而之所以把满足该阈值的簇剔出,不再参加下次合并,是因为相似性度量的阈值是随合并逐次递减的,若不剔出,总会与别的簇以较小的相似性度量值再次合并,而导致过度合并。
以上两点改进,既能优化日志事件序列的聚类,以便得到更好地频繁事件序列,同时有效地减少了日志事件序列聚类所需的时间。以下给出了本发明所使用的聚类算法的具体步骤:
(1)定义阈值:包括cfes_th,即两个簇的当前频繁事件序列(Currently FrequentEvent Sequence,CFES)的LCS长度的阈值,当两个簇的CFES的LCS长度超过该阈值时,就合并这两个簇;decrease_len:即cfes_th每次递减的长度;seqNum_th:簇中事件序列数量的阈值,当超过该阈值时,该簇将被剔出,放进结果集。
(2)对于初始的簇集,每一个事件序列属于单独的一个簇,且该簇的CFES为该事件序列本身。
(3)对于任意两个簇,如果它们的CFES的LCS的长度超过cfes_th,则合并这两个簇,并以这两个簇的CFES的LCS作为新新生成的簇的CFES。
(4)经过一轮合并之后,遍历现有的簇,当簇中事件序列的数量大于seqNum_th时,剔出该簇,不再参加下次合并,同时把该簇放进最终结果集。
(5)改变cfes_th,cfes_th=cfes_th-decrease_len。
(6)回到步骤(3),循环执行,直至所有的簇都放进了结果集,或者cfes_th小于等于0。
聚类之后,结果集中的簇的CFES,就是我们所求的与故障事件相关的频繁事件序列。如下所示,算法1给出了本发明所使用的凝聚层次聚类算法的伪代码。
步骤S4:基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤。
在一种实施方式中,步骤S4可以通过下述方式来实现:
步骤S4.1:在频繁事件序列中截取不同长度的预设数量子序列,生成故障预测规则;
步骤S4.2:将生成的故障事件预测规则在训练集上进行预测,并统计每条故障预测规则正确预测与错误预测的次数,再根据正确预测与错误预测的比率对故障预测规则进行过滤。
具体地,步骤4.1生成故障事件预测规则。在生成与故障事件相关的日志事件序列时,对于不同类型的故障事件,我们截取的是发生在故障事件之前的相同长度的时间窗口内的事件序列,进而基于日志事件序列生成的频繁事件序列。但事实上,对于不同类型的故障事件,如软件故障、硬件故障以及网络故障等,与其相关的日志事件序列所涉及的时间范围在一定的差异。因此,不宜直接使用频繁事件序列来进行故障事件预测。本发明基于频繁事件序列生成故障事件预测规则,从而进行故障事件预测。对于频繁事件序列F={e1,e2...en,f},其中f表示故障事件,ei(1≤i≤n)表示与该故障事件相关的事件,我们从序列{e1,e2...en}中截取若干长度不同的连续子序列{em+1,em+2...em+j}(1≤m+1<m+j≤n),进而生成故障事件预测规则R={em+1,em+2...em+j}→f。
步骤4.2,过滤故障事件预测规则。在生成故障事件预测规则时,生成了一些不适用的故障事件预测规则。另外,频繁事件序列与故障事件之间并不存在必然的因果关系,相同的频繁事件序列可能与多个故障事件相关,也可能和非故障事件相关。因此,在预测之前,我们必须要对故障事件预测规则进行过滤,以提高预测的准确率。
对于生成的故障事件预测规则,我们首先在训练集上进行预测,并统计每条规则正确预测与错误预测的次数,然后根据正确预测与错误预测的比率对其进行过滤。并且,通过控制过滤所使用的正确预测与错误预测的比率,可以对预测的准确率和召回率进行调整。当过滤所使用的正确预测与错误预测的比率较低时,召回率比较高。当提高过滤所使用的正确预测与错误预测的比率时,可以提高准确率,但是召回率会下降。对于故障事件预测规则,除了根据其在训练集上的预测结果对其进行过滤外,还可以在正式预测时动态过滤。例如,对于在训练集上预测总数较少、正确与错误预测比率较低的规则,如果其在正式预测时,第一次就预测错误,则删除该规则。
步骤S5:根据过滤后的故障事件预测规则进行多类型故障事件预测。
具体地,步骤S5可以通过下述方式来实现:
步骤S5.1:与当前发生的事件进行匹配,选取用于故障事件预测的候选规则;
步骤S5.2:选取当前事件之前一段事件序列,并判断候选规则中的序列是否为之前一段事件序列的子序列,若是,则匹配成功,并将匹配成功的候选规则加入匹配规则集;
步骤S5.3:根据匹配规则集中的规则,进行故障事件预测。
具体来说,对于故障事件预测,需要关注三个重要的时间点:predicting point、predicted point和expiration point。这三个时间点之间的关系如图4所示。其中,predicting point表示进行故障事件预测的时间点,predicted point表示被预测的故障事件实际发生的时间点,expiration point表示预测失效的时间点,即:如果被预测的故障事件实际发生的时间在expiration point之后,那么该预测也是无效的。在故障事件预测时,若被预测事件在有效时间内发生,则称这是一次正确预测,否则,称这是一次错误预测。
本发明通过判断一定长度的日志事件序列是否包含规则中的事件序列进行故障事件预测,
其中,步骤5.1,选取故障事件预测规则。对于故障事件预测规则R={em+1,em+2...em+j}→f,我们用em+j来匹配当前发生的事件,即当事件e发生时,我们选取em+j与e相同的预测规则作为候选规则,以此生成候选规则集。
步骤5.2,匹配故障事件预测规则。选取当前事件e之前的一段事件序列,并判断候选规则中的序列{em+1,em+2...em+j-1}是否是该序列的子序列,若是,则称匹配成功,并将该候选规则加入匹配规则集中,以此生成匹配规则集。
步骤5.3,故障事件预测。对于匹配规则集中的规则R={em+1,em+2...em+j}→f,我们预测在未来的一段时间内,故障事件f将会发生。若f在有效时间内发生,则预测成功,否则,即是预测失败。若匹配规则集中有多个预测规则R1→f1、R2→f2和R3→f1,则我们预测在未来的一段时间内,故障事件f1和f2将会发生。
总体来说,本发明为了能够在故障预测时进一步提供故障的相关信息,公开了一种基于系统日志聚类的多类型故障事件预测方法,基于日志消息分类和标注日志事件,以提供故障的相关信息,利用改进的层次聚类算法挖掘故障事件各自相关的频繁事件序列,基于频繁事件序列生成故障事件预测规则,并实现对规则的过滤,基于规则的匹配实现多类型故障事件的预测。
基于同一发明构思,本申请还提供了与实施例一中一种基于系统日志聚类的多类型故障事件预测方法对应的装置,详见实施例二。
实施例二
本实施例提供了一种基于系统日志聚类的多类型故障事件预测装置,请参见图5,该装置包括:
日志事件标注模块201,用于基于日志消息对日志事件进行分类和标注;
日志事件序列聚类模块203,用于通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与各类预设故障事件相关的频繁事件序列;
故障事件预测规则生成及过滤模块204,用于基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤;
故障事件预测模块205,用于根据过滤后的故障事件预测规则进行多类型故障事件预测。
在一种实施方式中,本实施例的装置还包括冗余日志事件过滤模块202,用于在基于日志消息对日志事件进行分类和标注之后:
过滤冗余日志事件。
在一种实施方式中,冗余日志事件过滤模块202具体用于:
基于日志事件之间的时间间隔的阈值进行冗余日志事件的过滤。
在一种实施方式中,日志事件标注模块201具体用于:
采用正则表达式对日志消息中的变量进行匹配,并采用预设符号对匹配成功的变量进行替换;
基于编辑距离对进行变量替换后的日志消息进行分组并标注事件ID,且具有不同事件ID的日志事件为不同类型的日志事件。
在一种实施方式中,日志事件序列聚类模块203具体用于:
基于统一时间窗口,生成与预设故障事件相关的日志事件序列集;
选取日志事件序列之间的最长公共子序列作为序列之间的相似性度量,利用改进的层次聚类算法,挖掘出频繁事件序列。
在一种实施方式中,故障事件预测规则生成及过滤模块204具体用于:
在频繁事件序列中截取不同长度的预设数量子序列,生成故障预测规则;
将生成的故障事件预测规则在训练集上进行预测,并统计每条故障预测规则正确预测与错误预测的次数,再根据正确预测与错误预测的比率对故障预测规则进行过滤。
在一种实施方式中,故障事件预测模块205具体用于:
与当前发生的事件进行匹配,选取用于故障事件预测的候选规则;
选取当前事件之前一段事件序列,并判断候选规则中的序列是否为之前一段事件序列的子序列,若是,则匹配成功,并将匹配成功的候选规则加入匹配规则集;
根据匹配规则集中的规则,进行故障事件预测。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于系统日志聚类的多类型故障事件预测方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
请参见图6,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于系统日志聚类的多类型故障事件预测方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图7,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中一种基于系统日志聚类的多类型故障事件预测方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于系统日志聚类的多类型故障事件预测方法,其特征在于,包括:
基于日志消息对日志事件进行分类和标注;
通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与各类预设故障事件相关的频繁事件序列;
基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤;
根据过滤后的故障事件预测规则进行多类型故障事件预测。
2.如权利要求1所述的方法,其特征在于,在基于日志消息对日志事件进行分类和标注之后,所述方法还包括:
过滤冗余日志事件。
3.如权利要求2所述的方法,其特征在于,过滤冗余日志事件具体包括:
基于日志事件之间的时间间隔的阈值进行冗余日志事件的过滤。
4.如权利要求1所述的方法,其特征在于,基于日志消息对日志事件进行分类和标注具体包括:
采用正则表达式对日志消息中的变量进行匹配,并采用预设符号对匹配成功的变量进行替换;
基于编辑距离对进行变量替换后的日志消息进行分组并标注事件ID,且具有不同事件ID的日志事件为不同类型的日志事件。
5.如权利要求1所述的方法,其特征在于,通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与每类预设故障相关的频繁事件序列,包括:
基于统一时间窗口,生成与预设故障事件相关的日志事件序列集;
选取日志事件序列之间的最长公共子序列作为序列之间的相似性度量,利用改进的层次聚类算法,挖掘出频繁事件序列。
6.如权利要求1所述的方法,其特征在于,基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤,包括:
在频繁事件序列中截取不同长度的预设数量子序列,生成故障预测规则;
将生成的故障事件预测规则在训练集上进行预测,并统计每条故障预测规则正确预测与错误预测的次数,再根据正确预测与错误预测的比率对故障预测规则进行过滤。
7.如权利要求1所述的方法,其特征在于,根据过滤后的故障事件预测规则进行多类型故障事件预测,包括:
与当前发生的事件进行匹配,选取用于故障事件预测的候选规则;
选取当前事件之前一段事件序列,并判断候选规则中的序列是否为之前一段事件序列的子序列,若是,则匹配成功,并将匹配成功的候选规则加入匹配规则集;
根据匹配规则集中的规则,进行故障事件预测。
8.一种基于系统日志聚类的多类型故障事件预测装置,其特征在于,包括:
日志事件标注模块,用于基于日志消息对日志事件进行分类和标注;
日志事件序列聚类模块,用于通过改进的层次聚类算法从进行分类和标注后的日志事件中,挖掘出与各类预设故障事件相关的频繁事件序列;
故障事件预测规则生成及过滤模块,用于基于频繁事件序列生成故障事件预测规则,并对预测规则进行过滤;
故障事件预测模块,用于根据过滤后的故障事件预测规则进行多类型故障事件预测。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
CN201910127212.9A 2019-02-20 2019-02-20 一种基于系统日志聚类的多类型故障事件预测方法及装置 Pending CN109885456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910127212.9A CN109885456A (zh) 2019-02-20 2019-02-20 一种基于系统日志聚类的多类型故障事件预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910127212.9A CN109885456A (zh) 2019-02-20 2019-02-20 一种基于系统日志聚类的多类型故障事件预测方法及装置

Publications (1)

Publication Number Publication Date
CN109885456A true CN109885456A (zh) 2019-06-14

Family

ID=66928551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910127212.9A Pending CN109885456A (zh) 2019-02-20 2019-02-20 一种基于系统日志聚类的多类型故障事件预测方法及装置

Country Status (1)

Country Link
CN (1) CN109885456A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143312A (zh) * 2019-12-24 2020-05-12 广东电科院能源技术有限责任公司 一种电力日志的格式解析方法、装置、设备和存储介质
CN111585799A (zh) * 2020-04-29 2020-08-25 杭州迪普科技股份有限公司 网络故障预测模型建立方法及装置
CN112306961A (zh) * 2019-07-24 2021-02-02 中移动信息技术有限公司 日志处理方法、装置、设备及存储介质
CN113268734A (zh) * 2021-04-27 2021-08-17 中国科学院信息工程研究所 一种基于信息流分析的关键主机事件识别方法
CN113992666A (zh) * 2021-09-18 2022-01-28 阿里巴巴(中国)有限公司 云资源分配方法、系统、设备及存储介质
WO2023040300A1 (zh) * 2021-09-14 2023-03-23 中兴通讯股份有限公司 数据处理方法、电子设备、存储介质及程序产品
CN115878421A (zh) * 2022-12-09 2023-03-31 国网湖北省电力有限公司信息通信公司 一种基于日志时序关联特征挖掘的数据中心设备级故障预测方法、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893208A (zh) * 2016-03-31 2016-08-24 城云科技(杭州)有限公司 基于隐半马尔可夫模型的云计算平台系统故障预测方法
US20180005127A1 (en) * 2016-06-29 2018-01-04 Alcatel-Lucent Usa Inc. Predicting problem events from machine data
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893208A (zh) * 2016-03-31 2016-08-24 城云科技(杭州)有限公司 基于隐半马尔可夫模型的云计算平台系统故障预测方法
US20180005127A1 (en) * 2016-06-29 2018-01-04 Alcatel-Lucent Usa Inc. Predicting problem events from machine data
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王卫华等: "一种基于日志聚类的多类型故障预测方法", 《计算机工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306961A (zh) * 2019-07-24 2021-02-02 中移动信息技术有限公司 日志处理方法、装置、设备及存储介质
CN112306961B (zh) * 2019-07-24 2024-03-19 中移动信息技术有限公司 日志处理方法、装置、设备及存储介质
CN111143312A (zh) * 2019-12-24 2020-05-12 广东电科院能源技术有限责任公司 一种电力日志的格式解析方法、装置、设备和存储介质
CN111585799A (zh) * 2020-04-29 2020-08-25 杭州迪普科技股份有限公司 网络故障预测模型建立方法及装置
CN113268734A (zh) * 2021-04-27 2021-08-17 中国科学院信息工程研究所 一种基于信息流分析的关键主机事件识别方法
CN113268734B (zh) * 2021-04-27 2023-11-24 中国科学院信息工程研究所 一种基于信息流分析的关键主机事件识别方法
WO2023040300A1 (zh) * 2021-09-14 2023-03-23 中兴通讯股份有限公司 数据处理方法、电子设备、存储介质及程序产品
CN113992666A (zh) * 2021-09-18 2022-01-28 阿里巴巴(中国)有限公司 云资源分配方法、系统、设备及存储介质
CN113992666B (zh) * 2021-09-18 2023-12-29 阿里巴巴(中国)有限公司 云资源分配方法、系统、设备及存储介质
CN115878421A (zh) * 2022-12-09 2023-03-31 国网湖北省电力有限公司信息通信公司 一种基于日志时序关联特征挖掘的数据中心设备级故障预测方法、系统及介质
CN115878421B (zh) * 2022-12-09 2023-11-14 国网湖北省电力有限公司信息通信公司 一种数据中心设备级故障预测方法、系统及介质

Similar Documents

Publication Publication Date Title
CN109885456A (zh) 一种基于系统日志聚类的多类型故障事件预测方法及装置
Guan et al. Ensemble of Bayesian predictors and decision trees for proactive failure management in cloud computing systems.
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
Di Martino et al. Measuring and understanding extreme-scale application resilience: A field study of 5,000,000 HPC application runs
Fu et al. Logmaster: Mining event correlations in logs of large-scale cluster systems
Liu et al. An optimal checkpoint/restart model for a large scale high performance computing system
Tan et al. Adaptive system anomaly prediction for large-scale hosting infrastructures
Yu et al. Practical online failure prediction for blue gene/p: Period-based vs event-driven
Gujrati et al. A meta-learning failure predictor for blue gene/l systems
US20220027257A1 (en) Automated Methods and Systems for Managing Problem Instances of Applications in a Distributed Computing Facility
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
Jones et al. Application monitoring and checkpointing in hpc: looking towards exascale systems
Fu et al. Quantifying temporal and spatial correlation of failure events for proactive management
US20120072767A1 (en) Recovery of failed disks in an array of disks
Lan et al. Adaptive fault management of parallel applications for high-performance computing
Bhaduri et al. Detecting abnormal machine characteristics in cloud infrastructures
Su et al. Passive and partially active fault tolerance for massively parallel stream processing engines
CN107818106B (zh) 一种大数据离线计算数据质量校验方法和装置
Kumar T et al. Intelligent Fault‐Tolerant Mechanism for Data Centers of Cloud Infrastructure
Liu et al. Multi-task hierarchical classification for disk failure prediction in online service systems
Sigdel et al. Realizing best checkpointing control in computing systems
Gainaru et al. Errors and faults
Liu et al. A reliability-aware approach for an optimal checkpoint/restart model in hpc environments
Meng et al. Driftinsight: detecting anomalous behaviors in large-scale cloud platform
Jin et al. Workflow anomaly detection with graph neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190614