CN108243058B - 一种基于告警定位故障的方法和装置 - Google Patents

一种基于告警定位故障的方法和装置 Download PDF

Info

Publication number
CN108243058B
CN108243058B CN201611230698.1A CN201611230698A CN108243058B CN 108243058 B CN108243058 B CN 108243058B CN 201611230698 A CN201611230698 A CN 201611230698A CN 108243058 B CN108243058 B CN 108243058B
Authority
CN
China
Prior art keywords
alarm
alarms
network element
analyzing
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611230698.1A
Other languages
English (en)
Other versions
CN108243058A (zh
Inventor
胡莉
雷中杰
李林
樊炼
许佳
王卉
薛超
徐庆
黄璐
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Hubei Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Hubei Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Hubei Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201611230698.1A priority Critical patent/CN108243058B/zh
Publication of CN108243058A publication Critical patent/CN108243058A/zh
Application granted granted Critical
Publication of CN108243058B publication Critical patent/CN108243058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于告警定位故障的方法,所述方法包括:排除告警数据库中无关联关系的告警;在告警数据库中剩余告警中,针对同一个网元分析所述剩余告警得到同一网元告警关系集合,同时,针对不同网元分析所述剩余告警得到不同网元告警关系集合;基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;由根源告警定位故障。本发明实施例还公开一种基于告警定位故障的装置,能够提高分析告警根源的速度和正确率,进而提升故障定位的及时性及准确性。

Description

一种基于告警定位故障的方法和装置
技术领域
本发明涉及计算机领域,尤其涉及一种基于告警定位故障的方法和装置。
背景技术
随着计算机应用系统及网络复杂度的日益提升,特别是大数据、互联网等新技术的快速发展,涉及的新硬件、应用软件资源类型越来越多,告警的种类和数量也急剧增加,告警之间的关联关系越来越复杂。告警是了解网元、网络运行情况以及进行故障定位的主要信息来源。为了保证网络的正常运行,需要定期监控和处理告警。
目前主要是通过系统运维人员在排障过程中积累的经验,结合资源的拓扑关联关系,分析告警根源实现定位故障。由于依赖于运维人员的经验,人工梳理应用系统的各种资源关系以及各种资源所包含的各类告警,因此分析告警根源速度慢且正确率低,导致了故障定位错误率高。
发明内容
本发明实施例提供了一种基于告警定位故障的方法,能够提高分析告警根源的速度和正确率,进而提升故障定位的及时性及准确性。
本发明实施例还提供了一种基于告警定位故障的装置,能够提高分析告警根源的速度和正确率,进而提升故障定位的及时性及准确性。
一种基于告警定位故障的方法,所述方法包括:
排除告警数据库中无关联关系的告警;
在告警数据库中剩余告警中,针对同一个网元分析所述剩余告警得到同一网元告警关系集合,同时,针对不同网元分析所述剩余告警得到不同网元告警关系集合;
基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;
由根源告警定位故障。
可选的,所述排除告警数据库中无关联关系的告警之前,还包括:
剔除告警数据库中特征字段为空的告警。
可选的,所述排除告警数据库中无关联关系的告警,包括:
提取告警数据库中告警的告警发生时间和告警类型;
利用频繁模式增长FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格,排除告警数据库中无关联关系的告警。
可选的,所述告警类型的数据类型是数值型;
所述利用FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格,包括:
离散化所述告警类型;
利用FP-Growth算法分析由所述告警发生时间和离散化后的告警类型构成的表格。
可选的,所述针对同一个网元分析所述剩余告警得到同一网元告警关系集合,包括:
针对同一个网元,提取所述剩余告警的告警发生时间和告警类型;
利用FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格得到同一网元告警关系集合。
可选的,所述针对不同网元分析所述剩余告警得到不同网元告警关系集合,包括:
合并所述剩余告警的网元标识ID、所述剩余告警的网元类型和所述剩余告警的告警类型获得新字段;
利用FP-Growth算法分析由所述剩余告警的告警发生时间和所述新字段构成的表格得到不同网元告警关系集合。
可选的,所述告警发生时间,包括:一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。
可选的,所述方法还包括:
基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的次要告警。
一种基于告警定位故障的装置,所述装置包括:
排除模块,用于排除告警数据库中无关联关系的告警;
分析模块,用于在告警数据库中剩余告警中,针对同一个网元分析所述剩余告警得到同一网元告警关系集合,同时,针对不同网元分析所述剩余告警得到不同网元告警关系集合;
确定模块,用于基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;
定位模块,用于由根源告警定位故障。
可选的,所述装置还包括:
剔除模块,用于剔除告警数据库中特征字段为空的告警。
可选的,所述排除模块,还用于:
提取告警数据库中告警的告警发生时间和告警类型;
利用频繁模式增长FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格,排除告警数据库中无关联关系的告警。
可选的,所述告警类型的数据类型是数值型;
所述排除模块,还用于:离散化所述告警类型;利用FP-Growth算法分析由所述告警发生时间和离散化后的告警类型构成的表格。
可选的,所述分析模块,还用于针对同一个网元,提取所述剩余告警的告警发生时间和告警类型;利用FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格得到同一网元告警关系集合。
可选的,所述分析模块,还用于合并所述剩余告警的网元标识ID、所述剩余告警的网元类型和所述剩余告警的告警类型获得新字段;利用FP-Growth算法分析由所述剩余告警的告警发生时间和所述新字段构成的表格得到不同网元告警关系集合。
可选的,所述告警发生时间,包括:一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。
可选的,所述确定模块,还用于基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的次要告警。
从上述技术方案中可以看出,在本发明实施例中排除告警数据库中无关联关系的告警;在告警数据库中剩余告警中,针对同一个网元分析剩余告警得到同一网元告警关系集合,同时,针对不同网元分析剩余告警得到不同网元告警关系集合;基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;由根源告警定位故障。由于可以基于同一网元告警关系集合和不同网元告警关系集合迅速确定实时告警对应的根源告警,因此能够提高分析告警根源的速度和正确率,进而提升故障定位的及时性及准确性。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明实施例基于告警定位故障的方法流程示意图;
图2为本发明实施例排除告警数据库中无关联关系的告警流程示意图;
图3为本发明实施例确定告警关系集合的流程示意图;
图4为本发明实施例基于告警定位故障的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细的说明。
在本发明实施例中,首先排除告警数据库中无关联关系的告警;然后分别针对同一个网元和不同网元分析获得同一网元告警关系集合和不同网元告警关系集合;由于可以基于同一网元告警关系集合和不同网元告警关系集合迅速确定实时告警对应的根源告警,因此能够提高分析告警根源的速度和正确率,进而提升故障定位的及时性及准确性。
告警网元类型包括但不限于:主机、数据库、网络、进程、应用系统和数据库表等。
告警类型包括但不限于:主机宕告警、主机CPU利用率告警、主机内存利用率告警、主机文件系统利用率告警、文件目录积压告警、进程内存使用率告警、进程宕告警、进程CPU使用率告警、数据库宕告警(数据库通断告警)和数据库表积压告警等。
参见图1是基于告警定位故障的方法流程示意图,具体包括以下步骤:
101、排除告警数据库中无关联关系的告警。
具体的,提取告警数据库中告警的告警发生时间和告警类型,根据告警发生时间确定时间窗,并将时间窗依次编号,处理成以时间窗编号为列、以告警类型为行的时间窗-告警类型表格,使用频繁模式增长(FP—Growth)算法对时间窗-告警类型表格进行告警关联性分析,排除告警数据库中无关联关系的告警。
参见图2为排除告警数据库中无关联关系的告警流程示意图,具体包括:
1011、提取告警数据库中告警的告警发生时间和告警类型。
在告警数据库中,选取告警的告警发生时间(event_time)和告警的告警类型(org_type)两个字段进行分析。
需要将告警(按告警类型划分)处理成购物篮数据集的形式。见表1所示。
表1
标识 事务中的元素
1 Alarm1、Alarm4、Alarm5
2 Alarm2、Alarm3、Alarm4、Alarm8
3 Alarm3
4 Alarm2、Alarm9
需要说明的是,由于FP-Growth算法所需的数据类型是完全的标称型数据,如果有数值型属性,必须先离散化换算标称型数据。标称型数据是在有限目标集中取值,如真与假,1和0。数值型变量可以从无限的数值集合中取值,如0.100,42.001等。当然,如果告警类型没有数值型属性,则无需转换告警类型的数据属性。
a)在告警数据库中,选取告警的告警类型(org_type)字段,每个告警类型转换成表1中时间窗-告警类型表格中的一列(从第二列开始)。
b)时间窗选取,并编号作为表2的第一列。
考虑到时间窗的选取对告警内容的关联分析有一定的影响,不固定的选取每十分钟一个间隔作为一个时间窗,而是以第一个告警发生时间作为时间的开始,累计十分钟的告警数据作为第一个时间窗的数据,十分钟后第一个告警发生时间作为下一个时间窗的开始,并累计十分钟的数据作为第二个时间窗的数据,以此类推。
如:1、12:00-12:10
2、12:10-12:20
3、12:22—12:32
……
也就是说,告警发生时间与时间窗有一定的关系。可以理解为,告警发生时间包括一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。将告警发生时间与时间窗相关联,是考虑到在第一告警发生时间后发生第二告警的可能性较大,因此将告警发生时间与时间窗关联有助于精确分析告警之间的关联关系。
c)生成的时间窗-告警类型表格见表2所示。
其中第一行是统计时间内的所有告警类型,第一列是对时间窗的编号,告警类型和时间窗的交叉项中数值为1代表该时间窗内发生某类告警,数值为0代表该时间窗内未发生某类告警。
表2
时间窗 内存 ping http telnet 表空间 网络设备端口宕 文件大小 SSH 进程 网络设备宕
1 1 0 0 0 0 0 0 0 1 0
2 0 0 0 0 0 0 0 0 1 0
3 0 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 1 0 0 0 1
5 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0 0
7 0 0 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 0
12 0 0 0 0 0 0 0 0 0 0
13 1 0 0 0 0 0 0 0 0 0
14 0 0 0 0 0 0 0 0 0 0
1012、由生成的时间窗-告警类型,利用FP-Growth算法分析由告警发生时间和告警类型构成的表格,排除告警数据库中无关联关系的告警。
具体的,使用FP-Growth算法,设置支持度阀值和置信度阀值,分析告警关联。在本发明中,根据实践经验支持度的取值范围为0~0.6;置信度的取值范围为0~0.7。在上述取值范围内,所得到的集合的准确度更高。
分析的输出结果为具备强关联关系的集合,即这些告警类型在故障产生时会同时出现,具备相关性。也即,排除告警数据库中无关联关系的告警。
FP-Growth算法中使用了称为频繁模式树(FP-tree,Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。
FP-Growth算法的基本思路:不断地迭代FP-tree构造和投影的过程。
1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。
2、对每个新构建的FP-tree重复1过程,直到构造的新FP-tree为空,或者只包含一条路径。
3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。
支持度(Support):表示项集{X,Y}在总项集里出现的概率。支持度取值范围:0~1。
公式为:
Support(X→Y)=P(X,Y)/P(I)=P(X∪Y)/P(I)=num(XUY)/num(I)
其中,I表示总事务集,X,Y表示元素。num()表示求事务集里特定项集出现的次数。
比如,num(I)表示总事务集的个数
num(X∪Y)表示含有{X,Y}的事务集的个数(个数也叫次数)。
置信度(Confidence)表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。即在含有X的项集中,含有Y的可能性。置信度取值范围:0~1,公式为:
Confidence(X→Y)=P(Y|X)=P(X,Y)/P(X)=P(XUY)/P(X)
P(Y|X):在X发生的事件中同时发生Y的概率;
P(X,Y):事件X和事件Y同时发生的概率
P(X):事件X发生的概率。
根据分析出的告警类型之间的关联关系,进一步筛选告警数据库,如:{告警类型a}—>{告警类型b},即从在a个告警类型中筛选出b个告警类型,其中a大于等于b。将无关联关系告警类型的告警全部排除,重新得到排除后的告警全集。
在步骤101之前,还可以对告警数据库中告警进行预处理。即,剔除告警数据库中特征字段为空的告警。
具体的,从告警数据库中提取一段连续时间内(如最近2个月)发生的所有告警。选择告警中的告警发生时间(event_time)、告警类型(org_type)、告警网元(object_id)、网元类型(object_class)和告警内容等特征字段。将上述特征字段值为空的告警剔除。剔除无效告警,可以提高分析数据的有效性。
102、在告警数据库中剩余告警中,针对同一个网元分析剩余告警得到同一网元告警关系集合,同时,针对不同网元分析剩余告警得到不同网元告警关系集合。
排除告警数据库中无关联关系的告警后,在告警数据库中剩余告警中,同时针对同一个网元和不同网元进行分析。也就是说,步骤1021与1022并没有执行的先后顺序,两个步骤是同时执行的。对于网元的分析从两个维度展开,这样做的目的在于全面分析剩余告警,从而获得更准确的告警关系集合。
参见图3为确定告警关系集合的流程示意图,包括以下步骤:
1021、针对同一个网元分析有关联关系的告警得到同一网元告警关系集合。
排除告警数据库中无关联关系的告警后,在告警数据库中剩余告警中,提取剩余告警的网元ID、剩余告警的告警发生时间和剩余告警的告警类型。将剩余告警的告警类型依次编号,并处理成对每一个网元ID以时间窗编号为列、以剩余告警的告警类型编号为行的时间窗-告警类型表格,使用FP-Growth算法对每一个网元ID的时间窗-告警类型表格进行告警关联性分析,得到同一网元告警关系集合。
具体的,针对同一个网元分析有关联关系的告警得到同一网元告警关系集合,包括:
1021a、针对同一个网元,提取剩余告警的告警发生时间和告警类型。
对每一个网元来说,第一行是对告警类型(org_type)的编号,第一列是对时间窗(event_time)的编号,告警类型和时间窗的交叉项中数值为1代表该时间窗内发生某种告警,数值为0代表没有发生某种告警。生成的时间窗-告警类型表格如表3所示。
此处设置时间窗在方式与在步骤1011中设置时间窗在方式是相同的,在此不再重复说明。
表3
网元id1:
时间窗 1 2 3 4 5 6 7 8 9 ……
1 1 0 0 1 0 1 1 0 0
2 1 1 0 1 0 0 0 0 1
3 0 1 0 1 0 0 0 0 1
4 0 1 0 0 0 1 0 0 0
5 1 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0
网元id2:
时间窗 1 2 3 4 5 6 7 8 9 ……
1 0 0 0 0 0 1 1 0 0
2 0 1 0 1 0 0 0 0 1
3 0 1 0 1 0 1 0 0 0
4 0 1 0 1 0 1 0 0 0
5 0 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0
1021b、利用FP-Growth算法分析由告警发生时间和告警类型构成的表格得到同一网元告警关系集合。
每个网元对应一个如表3中的一个表格,利用FP-Growth算法分析表3得到有关联关系的告警类型,即在网元i发生告警类型n的告警时,会同时产生告警类型m的告警。即,网元i:{告警类型n}->{告警类型m}。合并所有网元对应的关联关系得到同一网元告警关系集合。
1022、针对不同网元分析剩余告警得到不同网元告警关系集合。
排除告警数据库中无关联关系的告警后,在告警数据库中剩余告警中,提取剩余告警的网元ID、剩余告警的网元类型、剩余告警的告警发生时间和剩余告警的告警类型。
合并剩余告警的网元标识ID、剩余告警的网元类型和剩余告警的告警类型获得新字段,处理成以时间窗编号为列、以新字段为行的时间窗-新字段表格,再使用FP-Growth算法对该表格分析,得到不同网元告警关系集合。
具体的,针对不同网元分析剩余告警得到不同网元告警关系集合,包括:
1022a:合并剩余告警的网元标识ID、剩余告警的网元类型和剩余告警的告警类型获得新字段。
分析剩余告警,将剩余告警的告警网元(object_id)、剩余告警的告警类型(org_type)、剩余告警的网元类型(object_class)三个字段的值合并,形成一个新的字段并进行编号。
第一行是对org_type+object_id+object_class的编号,第一列是对时间窗的编号,org_type+object_id+object_class和时间窗的交叉项中数值为1代表该时间窗内发生某网元某种告警;数值为0代表没有发生某网元某种告警。生成的表格如表4所示。
此处设置时间窗在方式与在步骤1011中设置时间窗在方式是相同的,在此不再重复说明。
表4
时间窗 1 2 3 4 5 6 7 8 9 ……
1 0 0 0 1 0 1 0 0 0
2 1 1 0 1 0 0 0 0 1
3 0 1 0 1 0 0 0 0 1
4 0 1 0 0 0 1 0 0 0
5 1 0 0 0 0 0 0 0 0
6 0 0 0 0 0 0 0 0 0
1022b:利用FP-Growth算法分析由剩余告警的告警发生时间和新字段构成的表格得到不同网元告警关系集合。
对于表格4中在各个表格,设置其支持度阀值、置信度阀值,使用FP-Growth算法,
输出具备强关联关系的不同网元告警关系集合,即这些告警项在故障产生时会同时出现,具备相关性。如:{(告警网元+网元类型+告警类型)k}—>{(告警网元+网元类型+告警类型)p}。
103、基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警。
接收实时告警,基于同一网元告警关系集合和不同网元告警关系集合可以迅速确定实时告警对应的根源告警。其次,还可以基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的次要告警。
104、由根源告警定位故障。
可以依据根源告警迅速定位故障所在位置。
综上,采用告警定位故障的方法在排除告警数据库中无关联关系的告警后,针对同一个网元分析剩余告警得到同一网元告警关系集合,同时,针对不同网元分析剩余告警得到不同网元告警关系集合。不再依赖于人工运维经验的积累,实现关系集合的自动分析及结果输出,适应了不断变化计算机应用网络拓扑结构,极大提高了工作效率。
由于可以基于同一网元告警关系集合和不同网元告警关系集合迅速确定实时告警对应的根源告警,因此能够提高分析告警根源的速度和正确率,进而提升故障定位的及时性及准确性。使运维人员能从大量的告警中准确定位根源告警并进行及时处理,更好保障了系统的稳定。
参见图4为本发明实施例基于告警定位故障的装置结构示意图,包括:排除模块401,分析模块402,确定模块403和定位模块404。
具体的,排除模块401,用于排除告警数据库中无关联关系的告警;
分析模块402,用于在告警数据库中剩余告警中,针对同一个网元分析剩余告警得到同一网元告警关系集合,同时,针对不同网元分析剩余告警得到不同网元告警关系集合;
确定模块403,用于基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;
定位模块404,用于由根源告警定位故障。
此外,基于告警定位故障的装置还可以包括:剔除模块,用于剔除告警数据库中特征字段为空的告警。
从告警数据库中提取一段连续时间内(如最近2个月)发生的所有告警。选择告警中的告警发生时间(event_time)、告警类型(org_type)、告警网元(object_id)、网元类型(object_class)和告警内容等特征字段。将上述特征字段值为空的告警剔除。剔除无效告警,可以提高分析数据的有效性。
具体的,排除模块401还用于:提取告警数据库中告警的告警发生时间和告警类型;利用FP-Growth算法分析由告警发生时间和告警类型构成的表格,排除告警数据库中无关联关系的告警。
提取告警数据库中告警的告警发生时间和告警类型,根据告警发生时间确定时间窗,并将时间窗依次编号,处理成以时间窗编号为列、以告警类型为行的时间窗-告警类型表格,使用频繁模式增长FP-Growth算法对时间窗-告警类型表格进行告警关联性分析,排除告警数据库中无关联关系的告警。
考虑到时间窗的选取对告警内容的关联分析有一定的影响,不固定的选取每十分钟一个间隔作为一个时间窗,而是以第一个告警发生时间作为时间的开始,累计十分钟的告警数据作为第一个时间窗的数据,十分钟后第一个告警发生时间作为下一个时间窗的开始,并累计十分钟的数据作为第二个时间窗的数据,以此类推。
如:1、12:00-12:10
2、12:10—12:20
3、12:22-12:32
……
也就是说,告警发生时间与时间窗有一定的关系。可以理解为,告警发生时间包括一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。将告警发生时间与时间窗相关联,是考虑到在第一告警发生时间后发生第二告警的可能性较大,因此将告警发生时间与时间窗有助于精确分析告警之间的关联关系。
具体的,使用FP-Growth算法,设置支持度阀值和置信度阀值,分析告警关联。在本发明中,根据实践经验支持度的取值范围为0~0.6;置信度的取值范围为0~0.7。在上述取值范围内,所得到的集合的准确度更高。
具体的,告警类型的数据类型是数值型;
排除模块401还用于:离散化告警类型;利用FP-Growth算法分析由告警发生时间和离散化后的告警类型构成的表格。
需要说明的是,由于FP-Growth算法所需的数据类型是完全的标称型数据,如果有数值型属性,必须先离散化换算标称型数据。标称型数据是在有限目标集中取值,如真与假,1和0。数值型变量可以从无限的数值集合中取值,如0.100,42.001等。
具体的,分析模块402还用于针对同一个网元,提取剩余告警的告警发生时间和告警类型;利用FP-Growth算法分析由告警发生时间和告警类型构成的表格得到同一网元告警关系集合。
具体的,分析模块402,还用于合并剩余告警的网元标识ID、剩余告警的网元类型和剩余告警的告警类型获得新字段;利用FP-Growth算法分析由剩余告警的告警发生时间和新字段构成的表格得到不同网元告警关系集合。
其中,告警发生时间包括:一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。
确定模块403,还用于基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的次要告警。
综上,采用告警定位故障的装置在排除模块401排除告警数据库中无关联关系的告警后,分析模块402针对同一个网元分析剩余告警得到同一网元告警关系集合,同时,针对不同网元分析剩余告警得到不同网元告警关系集合。不再依赖于人工运维经验的积累,实现关系集合的自动分析及结果输出,适应了不断变化计算机应用网络拓扑结构,极大提高了工作效率。
由于可以确定模块403基于同一网元告警关系集合和不同网元告警关系集合迅速确定实时告警对应的根源告警,因此能够提高分析告警根源的速度和正确率,进而提升定位模块404故障定位的及时性及准确性。使运维人员能从大量的告警中准确定位根源告警并进行及时处理,更好保障了系统的稳定。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (14)

1.一种基于告警定位故障的方法,其特征在于,所述方法包括:
排除告警数据库中无关联关系的告警;
在告警数据库中剩余告警中,针对同一个网元分析所述剩余告警得到同一网元告警关系集合,同时,针对不同网元分析所述剩余告警得到不同网元告警关系集合;
基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;
由根源告警定位故障;
所述针对不同网元分析所述剩余告警得到不同网元告警关系集合,包括:
合并所述剩余告警的网元标识ID、所述剩余告警的网元类型和所述剩余告警的告警类型获得新字段;
利用FP-Growth算法分析由所述剩余告警的告警发生时间和所述新字段构成的表格得到不同网元告警关系集合。
2.根据权利要求1所述基于告警定位故障的方法,其特征在于,所述排除告警数据库中无关联关系的告警之前,还包括:
剔除告警数据库中特征字段为空的告警。
3.根据权利要求1所述基于告警定位故障的方法,其特征在于,所述排除告警数据库中无关联关系的告警,包括:
提取告警数据库中告警的告警发生时间和告警类型;
利用频繁模式增长FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格,排除告警数据库中无关联关系的告警。
4.根据权利要求3所述基于告警定位故障的方法,其特征在于,
所述告警类型的数据类型是数值型;
所述利用FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格,包括:
离散化所述告警类型;
利用FP-Growth算法分析由所述告警发生时间和离散化后的告警类型构成的表格。
5.根据权利要求1所述基于告警定位故障的方法,其特征在于,所述针对同一个网元分析所述剩余告警得到同一网元告警关系集合,包括:
针对同一个网元,提取所述剩余告警的告警发生时间和告警类型;
利用FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格得到同一网元告警关系集合。
6.根据权利要求1、3、4或5所述基于告警定位故障的方法,其特征在于,所述告警发生时间,包括:一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。
7.根据权利要求1所述基于告警定位故障的方法,其特征在于,所述方法还包括:
基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的次要告警。
8.一种基于告警定位故障的装置,其特征在于,所述装置包括:
排除模块,用于排除告警数据库中无关联关系的告警;
分析模块,用于在告警数据库中剩余告警中,针对同一个网元分析所述剩余告警得到同一网元告警关系集合,同时,针对不同网元分析所述剩余告警得到不同网元告警关系集合;
确定模块,用于基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的根源告警;
定位模块,用于由根源告警定位故障;
所述分析模块,还用于合并所述剩余告警的网元标识ID、所述剩余告警的网元类型和所述剩余告警的告警类型获得新字段;利用FP-Growth算法分析由所述剩余告警的告警发生时间和所述新字段构成的表格得到不同网元告警关系集合。
9.根据权利要求8所述基于告警定位故障的装置,其特征在于,所述装置还包括:
剔除模块,用于剔除告警数据库中特征字段为空的告警。
10.根据权利要求8所述基于告警定位故障的装置,其特征在于,所述排除模块,还用于:
提取告警数据库中告警的告警发生时间和告警类型;
利用频繁模式增长FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格,排除告警数据库中无关联关系的告警。
11.根据权利要求8所述基于告警定位故障的装置,其特征在于,所述告警类型的数据类型是数值型;
所述排除模块,还用于:离散化告警类型;利用FP-Growth算法分析由告警发生时间和离散化后的告警类型构成的表格。
12.根据权利要求8所述基于告警定位故障的装置,其特征在于,所述分析模块,还用于针对同一个网元,提取所述剩余告警的告警发生时间和告警类型;利用FP-Growth算法分析由所述告警发生时间和所述告警类型构成的表格得到同一网元告警关系集合。
13.根据权利要求8、10、11或12所述基于告警定位故障的装置,其特征在于,所述告警发生时间,包括:一个或多个时间窗,第一个时间窗以第一个告警发生时间作为起点。
14.根据权利要求8所述基于告警定位故障的装置,其特征在于,所述确定模块,还用于基于同一网元告警关系集合和不同网元告警关系集合确定实时告警对应的次要告警。
CN201611230698.1A 2016-12-27 2016-12-27 一种基于告警定位故障的方法和装置 Active CN108243058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611230698.1A CN108243058B (zh) 2016-12-27 2016-12-27 一种基于告警定位故障的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611230698.1A CN108243058B (zh) 2016-12-27 2016-12-27 一种基于告警定位故障的方法和装置

Publications (2)

Publication Number Publication Date
CN108243058A CN108243058A (zh) 2018-07-03
CN108243058B true CN108243058B (zh) 2021-04-06

Family

ID=62701978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611230698.1A Active CN108243058B (zh) 2016-12-27 2016-12-27 一种基于告警定位故障的方法和装置

Country Status (1)

Country Link
CN (1) CN108243058B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409668B (zh) * 2018-09-21 2022-02-15 华中科技大学 基于数据挖掘的抽水蓄能机组故障关联关系分析方法
CN110411547A (zh) * 2019-08-01 2019-11-05 吉旗(成都)科技有限公司 用于货车感知物联网设备的故障远程自动诊断方法及装置
CN110730100B (zh) * 2019-10-21 2022-03-08 中国民航信息网络股份有限公司 一种告警信息处理方法、装置及服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0549937A1 (en) * 1992-01-03 1993-07-07 International Business Machines Corporation Methods and systems for alarm correlation and fault localization in communication network
CN101252477A (zh) * 2008-03-27 2008-08-27 杭州华三通信技术有限公司 一种网络故障根源的确定方法及分析装置
CN101582807A (zh) * 2009-07-02 2009-11-18 北京讯风光通信技术开发有限责任公司 一种基于北向接口实现网络管理的方法及系统
CN101808015A (zh) * 2009-02-18 2010-08-18 普天信息技术研究院有限公司 一种告警信息相关性的分析方法和装置
CN102571407A (zh) * 2010-12-30 2012-07-11 中国移动通信集团河北有限公司 告警关联分析方法及装置
CN104348667A (zh) * 2014-11-11 2015-02-11 上海新炬网络技术有限公司 基于告警信息的故障定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0549937A1 (en) * 1992-01-03 1993-07-07 International Business Machines Corporation Methods and systems for alarm correlation and fault localization in communication network
CN101252477A (zh) * 2008-03-27 2008-08-27 杭州华三通信技术有限公司 一种网络故障根源的确定方法及分析装置
CN101808015A (zh) * 2009-02-18 2010-08-18 普天信息技术研究院有限公司 一种告警信息相关性的分析方法和装置
CN101582807A (zh) * 2009-07-02 2009-11-18 北京讯风光通信技术开发有限责任公司 一种基于北向接口实现网络管理的方法及系统
CN102571407A (zh) * 2010-12-30 2012-07-11 中国移动通信集团河北有限公司 告警关联分析方法及装置
CN104348667A (zh) * 2014-11-11 2015-02-11 上海新炬网络技术有限公司 基于告警信息的故障定位方法

Also Published As

Publication number Publication date
CN108243058A (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
US10733149B2 (en) Template based data reduction for security related information flow data
US9928155B2 (en) Automated anomaly detection service on heterogeneous log streams
CN106656536B (zh) 一种用于处理服务调用信息的方法与设备
US11010223B2 (en) Method and system of automatic event and error correlation from log data
CN107391353B (zh) 基于日志的复杂软件系统异常行为检测方法
US7509234B2 (en) Root cause diagnostics using temporal data mining
CN110995482B (zh) 告警分析方法、装置、计算机设备及计算机可读存储介质
CN106104496A (zh) 用于任意时序的不受监督的异常检测
CN112615888B (zh) 一种网络攻击行为的威胁评估方法及装置
CN108243058B (zh) 一种基于告警定位故障的方法和装置
CN106375339A (zh) 基于事件滑动窗口的攻击模式检测方法
US20170140309A1 (en) Database analysis device and database analysis method
CN111352808A (zh) 告警数据处理方法、装置、设备及存储介质
Folmer et al. Detection of temporal dependencies in alarm time series of industrial plants
CN110149223B (zh) 故障定位方法和设备
CN111294233A (zh) 网络告警统计分析方法、系统及计算机可读存储介质
WO2015131558A1 (zh) 告警相关性数据挖掘方法和装置
Miller et al. Matched filtering for subgraph detection in dynamic networks
CN114039758A (zh) 一种基于事件检测模式的网络安全威胁识别方法
CN115544519A (zh) 对计量自动化系统威胁情报进行安全性关联分析的方法
US20190215340A1 (en) Method and system for determining incorrect behavior of components in a distributed it system generating out-of-order event streams with gaps
CN115955355A (zh) 一种攻击事件知识图谱的输出方法及装置
Hei et al. Feature extraction optimization for bitstream communication protocol format reverse analysis
EP4169223A1 (en) Method and apparatus to detect scripted network traffic
CN110399278B (zh) 基于数据中心异常监控的告警融合系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant