CN114513802A - 一种基于事件流的承载网故障分析方法及装置 - Google Patents

一种基于事件流的承载网故障分析方法及装置 Download PDF

Info

Publication number
CN114513802A
CN114513802A CN202210006059.6A CN202210006059A CN114513802A CN 114513802 A CN114513802 A CN 114513802A CN 202210006059 A CN202210006059 A CN 202210006059A CN 114513802 A CN114513802 A CN 114513802A
Authority
CN
China
Prior art keywords
alarm
fault
root
data
rooted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210006059.6A
Other languages
English (en)
Other versions
CN114513802B (zh
Inventor
余萌
赵昱
彭智聪
张永昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Wuhan Fiberhome Technical Services Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Wuhan Fiberhome Technical Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd, Wuhan Fiberhome Technical Services Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN202210006059.6A priority Critical patent/CN114513802B/zh
Publication of CN114513802A publication Critical patent/CN114513802A/zh
Application granted granted Critical
Publication of CN114513802B publication Critical patent/CN114513802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition

Abstract

本发明涉及网络设备管理技术领域,提供了一种基于事件流的承载网故障分析方法及装置。包括:将预处理后的告警数据按第一时间周期进行切片得到切片数据;根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,并判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景;若历史的故障场景与待寻根的故障场景的相似度满足预设域条件,则所述历史的故障场景与待寻根的故障场景的根因相同。本发明通过历史的根衍规则和历史的故障场景从众多告警数据中发现根因,摆脱了单纯依靠人工无法快速定位告警中的根告警的情况,且提高了根因挖掘的效率。

Description

一种基于事件流的承载网故障分析方法及装置
技术领域
本发明涉及网络设备管理技术领域,特别是涉及一种基于事件流的承载网故障分析方法及装置。
背景技术
随着云计算、5G互联的兴起,网络容量需求日益增加,传统的10G网络逐步被100G替代。随着数据中心的兴起,100G骨干网大规模部署,发生告警、出现异常的概率增大。运维人员在面对海量告警时,需要尽快找出根告警,快速定位异常原因、解决问题。
传统的故障分析,主要是通过人工经验梳理出告警中的根告警(其中,根告警具体为:如A告警的发生一定会引发B告警的发生,则A告警就是根告警,B告警就是衍生告警)。但是随着网络规模不断扩大,单纯依靠人工无法快速定位告警中的根因(即根告警),且利用人工梳理出告警中的根告警非常困难。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
本发明要解决的技术问题是:
传统的故障分析,主要是通过人工经验梳理出告警中的根告警,但是随着网络规模不断扩大,单纯依靠人工无法快速定位告警中的根告警,且利用人工梳理出告警中的根告警非常困难。
本发明采用如下技术方案:
第一方面,本发明提供了一种基于事件流的承载网故障分析方法,包括:
将预处理后的告警数据按第一时间周期进行切片得到切片数据;
根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,并判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景;
若历史的故障场景与所述待寻根的故障场景的相似度满足预设域条件,则所述历史的故障场景与所述待寻根的故障场景的根因相同。
优选的,所述将预处理后的告警数据按第一时间周期进行切片得到切片数据,具体包括:
将预处理后的告警数据按告警发生时间的先后顺序排列为告警队列,并将所述告警队列按第一时间周期进行切片得到切片数据。
优选的,所述根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,具体包括:
所述历史挖掘的根衍规则包括白名单;
若从切片数据中选择出与白名单中的根衍规则匹配的告警数据,则将选择出的各告警数据分为一组;
将分为一组的各告警数据中与匹配上的白名单中的根衍规则中的根告警相同的告警数据标记为预备根告警。
优选的,所述判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景,具体包括:
根据拓扑信息判断各组中标记为预备根告警的告警数据是否具有业务影响关系;
若有业务影响关系,则具有业务影响关系的各组的距离满足预设距离条件。
优选的,计算历史的故障场景与待寻根的故障场景的相似度,具体包括:
从历史的所有的故障场景和待寻根的故障场景的各告警数据的告警名称中获取告警特征词,根据各告警特征词计算历史的故障场景和待寻根的故障场景之间的相似度。
优选的,所述根据各告警特征词计算历史的故障场景和待寻根的故障场景之间的相似度,具体包括:
分别计算历史的故障场景和待寻根的故障场景中各告警特征词出现的频率,以便分别得到历史的故障场景和待寻根的故障场景的词频集;
计算各告警特征词的逆文档频率集,分别将历史的故障场景的词频集和待寻根的故障场景的词频集与逆文档频率集相乘,以便计算历史的故障场景和待寻根的故障场景之间的相似度。
优选的,所述计算各告警特征词的逆文档频率集,具体包括:
根据所有故障场景的总数和含有各告警特征词的故障场景的数量的比值计算得到各告警特征词的逆文档频率集;
其中,所述所有故障场景的总数为历史的所有的故障场景的数量与所述待寻根的故障场景的数量的总和。
优选的,告警数据的预处理,具体包括:
提取告警数据中的属性信息,其中,提取的告警数据的属性信息包括告警发生时间、告警清除时间、网元标识、单盘标识、端口标识、告警分类、告警名称、告警发生的业务层次中的一项或者多项。
优选的,告警数据的预处理,具体还包括:过滤所述告警数据中的闪断告警和折叠振荡告警。
第二方面,一种基于事件流的承载网故障分析装置,其特征在于,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行第一方面所述的基于事件流的承载网故障分析方法。
本发明通过将预处理后的告警数据按第一时间周期进行切片得到切片数据;并根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,将距离满足预设距离条件的各组分为同一个待寻根的故障场景,然后从历史的故障场景中匹配与该待寻根的故障场景的相似度满足预设域条件的故障场景,从而将满足预设域条件的历史的故障场景的根因设置为该待寻根的故障场景的根因,本发明摆脱了单纯依靠人工无法快速定位告警中的根告警的情况,且提高了根因挖掘的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于事件流的承载网故障分析方法的流程图;
图2是本发明实施例提供的一种基于事件流的承载网故障分析方法中对告警数据进行切片的示意图;
图3是本发明实施例提供的一种基于事件流的承载网故障分析方法的历史的根衍规则的挖掘的示意图;
图4是本发明实施例提供的一种基于事件流的承载网故障分析方法的历史的根衍规则的挖掘的示意图;
图5是本发明实施例提供的一种基于事件流的承载网故障分析方法的示意图;
图6是本发明实施例提供的一种基于事件流的承载网故障分析装置的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1:
本发明实施例1提供了一种基于事件流的承载网故障分析方法,如图1所示,包括:
步骤101,将预处理后的告警数据按第一时间周期进行切片得到切片数据;获取告警数据后,首先对获取的告警数据进行预处理,然后将预处理后的各告警数据按告警发生时间的先后顺序排列为告警队列,并将告警队列按照第一时间周期进行切片得到多组切片数据。对第一时间周期进行设定,具体为:实际运维场景中,一个根告警可能会引发衍生告警,且根告警和各衍生告警之间的告警发生时间是比较接近的。但是由于承载网上可能存在各设备的时钟未同步等其他原因,会导致衍生告警与根告警之间的告警发生时间差会增加,因此在按照第一时间周期对告警数据进行切片时,设定的第一时间周期不可过短,以尽可能保证一个根告警与其引发的衍生告警数据被放在一个切片数据中。其中,告警数据的预处理,具体包括:每一条告警数据的属性信息有多个字段,提取每一条告警数据的重要属性信息,具体包括告警发生时间、告警清除时间、网元标识、单盘标识、端口标识、告警分类、告警名称、告警发生的业务层次,其中,“网元标识+单盘标识+端口标识”代表了告警发生的网元/单盘/端口位置,可以结合路由表得出拓扑信息,并进一步可以得到告警数据之间的业务影响关系。告警数据的预处理还包括过滤告警数据中的闪断告警和折叠振荡告警。
步骤102,根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,并判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景;
历史挖掘的根衍规则包括白名单和黑名单。其中,白名单中记录了基于历史的告警数据挖掘的,且经过运维和设备专家确认正确的根衍规则。黑名单中记录了历史的告警数据挖掘的,且经过运维和设备专家确认不正确的根衍规则,对新的告警数据的根因的挖掘不具有参考价值。其中,历史挖掘的根衍规则中,每组历史的根衍规则中有一个根告警;根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,具体为:假设某一新的切片数据中的告警数据为<a,c,s,d,h,q,l>,其中,<a,c,s,d,h,q,l>中的字母为告警数据,假设根据白名单中的根衍规则查询到“a,h,s”为一组根衍规则,且“a,h,s”中a为根告警;“c,d”为一组根衍规则,且c为根告警;“q,l”为一组根衍规则,且l为根告警;因此将<a,c,s,d,h,q,l>中的“a,h,s”分为一组,“c,d”分为一组,“q,l”分为一组,则分组后的切片数据记为<(a,h,s),(c,d),(q,l)>,并分别将每组中的根告警a,c和l标记为预备根告警;然后判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景,如:根据拓扑信息判断各预备根告警a,c和l之间是否具有业务影响关系,如果预备根告警a,c和l之间具有业务影响关系,则将(a,h,s),(c,d),(q,l)三组分为同一个故障场景,该故障场景为待寻根的故障场景,假设该待寻根的故障场景被命名为故障场景1,即由这三组告警组成的故障场景1只有一个根因,但是此时该根因是未知的。
步骤103,若历史的故障场景与待寻根的故障场景的相似度满足预设域条件,则所述历史的故障场景与待寻根的故障场景的根因相同。从历史的故障场景中匹配与故障场景1的相似度满足预设域条件的故障场景,假设从历史的故障场景中匹配到与故障场景1的相似度满足预设域条件的故障场景2,其中,故障场景2的根因为已知的根因A,由于故障场景1与故障场景2的相似度满足预设域条件,则故障场景1的根因也为根因A。其中,相似度满足预设域条件,具体为:计算故障场景1与故障场景2的余弦乘积(即相似度),若余弦乘积越小,则故障场景1与故障场景2的相似度越高,假设故障场景1与故障场景2的余弦乘积为0,且预设域条件为余弦乘积小于等于0.3,由于故障场景1与故障场景2的余弦乘积0小于0.3,因此故障场景1与故障场景2的相似度满足预设域条件。此处仅仅是为了解释说明,并不用于限定本发明。
优选的,所述将预处理后的告警数据按第一时间周期进行切片得到切片数据,具体包括:将预处理后的告警数据按告警发生时间的先后顺序排列为告警队列,并将所述告警队列按第一时间周期进行切片得到切片数据。
每一条告警数据进行预处理后的属性信息包括告警发生时间、告警清除时间、网元标识、单盘标识、端口标识、告警分类、告警名称、告警发生的业务层次,且告警数据在预处理过程后剩下的都是对分析根因有用的告警数据。根据告警数据的告警发生时间的先后顺序排列为告警队列,并将告警队列按照第一时间周期进行切片得到多组切片数据。对第一时间周期的设定以尽可能保证由一个根告警引发的衍生告警所上报的告警数据可以被放在一个切片数据中为准,如图2所示,假设时间轴上的a、b、c、d、e、f为告警数据,且假设a、b、c、d、e、f中有一个根告警,其他的为衍生告警,如果按照切片方式1和切片方式2对告警数据a、b、c、d、e、f进行切片时,那么告警数据a、b、c、d、e、f无法放在一个切片数据中,而按照切片方式3对告警数据a、b、c、d、e、f进行切片时,可以将告警数据a、b、c、d、e、f放在一个切片数据中;基于该原则,按照整时间点(以分钟为单位)对告警进行切片。依据文献研究、专家经验和大量数据分析,由一个根告警引发的各衍生告警在5分钟的时间内可以完成告警数据的上报。所以,以第一时间周期为5分钟对告警数据进行切片且以整数时间点完成时间切片,例如:1:00~1:05等。以上仅仅是经验数据,可以根据实际情况进行设置,并不用于限定本发明。
优选的,所述根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,具体包括:所述历史挖掘的根衍规则包括白名单;
所述历史挖掘的根衍规则包括白名单和黑名单。其中,白名单中记录了基于历史的告警数据挖掘的,且经过运维和设备专家确认正确的根衍规则。黑名单中记录了历史的告警数据挖掘的,且经过运维和设备专家确认不正确的根衍规则,对新的告警数据的根因的挖掘不具有参考价值,基于历史的告警数据挖掘根衍规则的方法包括多种。
可选的,其中一种根衍规则的挖掘方法包括:如图3所示,假设某历史的告警数据按照告警发生时间的先后顺序排列为告警队列后为:a1,a3,a4,a5,a1,a2,a3,a3,a4,a4,a5,a3,a4,a5,其中,a1,a2,a3,a4,a5为告警数据的告警名称,按照第一时间周期进行切片后,a1,a3,a4,a5为一个切片数据,a1,a2,a3为一个切片数据,a3,a4为一个切片数据,a4,a5为一个切片数据,a3,a4,a5为一个切片数据,首先,挖掘各告警名称出现的频次,可知,告警名称为a1,a2,a3,a4,a5的告警数据出现的频次分别为2,1,4,4,3,然后选择告警名称出现的频次大于等于第一预设频次的告警数据,其中假设此处的第一预设频次为2,则可选择出a1,a3,a4,a5,然后将a1,a3,a4,a5进行组合,得到告警对(a1,a3),(a1,a4),(a1,a5),(a3,a4),(a3,a5),(a4,a5),进一步选择出各告警对在切片数据中出现的频次大于等于2的告警对,依次类推,直至无法进行频次挖掘,最终得到告警对(a3,a4,a5),为了提升了历史的根衍规则挖掘的精确度,在最终得到的告警对(a3,a4,a5)的基础上加上约束条件,并经过运维和设备专家确认,若(a3,a4,a5)加约束条件正确,则将挖掘的根衍规则(即最终得到的告警对)放入白名单,若(a3,a4,a5)加约束条件不正确,则将挖掘的根衍规则放入黑名单;在黑白名单的根衍规则中以告警数据的告警名称和约束条件的形式进行保存。其中,放入白名单的各根衍规则中均含有一个经过运维和设备专家确认的根告警。
可选的,所述的约束条件具体包括7类:同端口、同网元、同业务、同业务ID关联、直连对端网元、直连对端端口、同环网元。
可选的,另一种根衍规则的挖掘方法包括:如图4所示,假设某告警数据按照告警发生时间的先后顺序排列为告警队列后进行切片,得到的切片数据分别为切片数据1=<a(abc)(ac)d(cf)>,切片数据2=<(ad)c(bc)(ae)>,切片数据3=<(ef)(ab)(df)cb>,切片数据4=<eg(af)cbc>,其中,切片数据中涉及的字母均为告警数据中的告警名称,且每一个切片数据中涉及的小括号内的多个字母为根据当前的白名单得到的具有根衍规则的告警数据,如,切片数据1=<a(abc)(ac)d(cf)>中的(abc),(ac)和(cf)为当前白名单得到的根衍规则。需要注意的是,如果前缀的后一位不是一个完全的项集,则需要加一个占位符“_”。
这里我们以d为例子来挖掘根衍规则。
方法如下,首先递归以d为前缀所对应的投影序列,即统计某一个字母在d的哪几个后缀中出现,如,{a:1,b:2,c:3,d:0,e:1,f:1,_f:1}。其中c:3表示字母c在d的3个后缀中均出现,注意f和_f是不一样的,因为前者与前缀d处于不同项集,而后者与前缀d处于不同项集。然后筛选出频次≥2的字母,这里的频次可以人为进行设置,可知b:2,c:3,因此可以得到前缀为d的2项频繁序列为<db>和<dc>。
接着分别递归以db和dc为前缀所对应的投影序列,首先看db前缀,此时对应的投影后缀只有<_c(ae)>,此时_c,a,e的频次均为1,达不到要求,因此无法找到以db为前缀的频繁序列。然后递归另外一个前缀dc。以dc为前缀的投影序列为<_f>,<(bc)(ae)>,<b>,此时我们进行频次统计,结果为{b:2,a:1,c:1,e:1,_f:1},只有b满足频次≥2,因此我们得到前缀为dc的三项频繁序列为<dcb>。我们继续递归以<dcb>为前缀的频繁序列。由于前缀<dcb>对应的投影序列<(_c)ae>频次均为1,达不到要求,因此不能产生4项频繁序列。至此以d为前缀的频繁序列挖掘结束,产生的频繁序列为<d><db><dc><dcb>,即<d><db><dc><dcb>为根据一系列告警数据挖掘的根衍规则,最后经过专家经验确认是否进入黑、白名单。
以上两种方法仅仅是举例说明根衍规则的挖掘。具体的可以根据实际场景的需求选择合适的方法对根衍规则进行挖掘。
若从切片数据中选择出与白名单中的根衍规则匹配的告警数据,则将选择出的各告警数据分为一组;
假设某一个切片数据中的告警数据为<a,c,a,s,d,h,q,l>,其中<a,c,a,s,d,h,q,l>的字母为告警数据的告警名称,其中第一个字母“a”和第三个字母“a”的告警名称相同,假设根据白名单中的根衍规则查询到“a,h,s”(其中白名单的根衍规则中保存的为告警名称和约束条件)为一组根衍规则,且“a,h,s”的约束条件为同单盘,而根据切片数据中的各告警数据的属性信息可知,第三个字母“a”与h,s为同单盘,因此将第三个字母“a”与h,s分为一组,且根据白名单中的根衍规则“a,h,s”可知a为根告警;假设根据白名单中的根衍规则还查询到“a,c,d,q,l”为一组根衍规则,且“a,c,d,q,l”的约束条件为同单盘,而根据切片数据中的各告警数据的属性信息可知,第一个字母“a”与c,d,q,l为同单盘,因此将第一个字母“a”与c,d,q,l分为一组,且根据白名单中的根衍规则“a,c,d,q,l”可知c为根告警。
将分为一组的各告警数据中与匹配上的白名单中的根衍规则中的根告警相同的告警数据标记为预备根告警。
由于切片数据<a,c,a,s,d,h,q,l>中第三个字母“a”与h,s分为一组,且a为根告警,则将该根告警a标记为预备根告警;第一个字母“a”与c,d,q,l分为一组,且c为根告警,则将根告警c标记为预备根告警。
优选的,所述判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景,具体包括:
根据拓扑信息判断各组中标记为预备根告警的告警数据是否具有业务影响关系;
基于切片数据中各告警数据的属性信息可以得到拓扑信息,从而分析告警数据之间的业务影响关系。拓扑信息是网络业务结构信息,整个承载网可以抽象为一个图,网元是图的点,业务是图的边。在OTN网络中,边比较特殊,它是分层的,同路径上低层级的业务的告警数据更可能是根告警。
本实施例提供一种实际场景中可实现的方式,具体为,假设一个切片数据中的告警数据为:
Figure BDA0003455514470000101
根据历史的根衍规则查询到网元高温和网元误码为一组约束条件为同单盘的根衍规则,且该根衍规则中网元高温为根告警,如图5所示,则将告警发生时间为1:01、告警名称为网元高温、单盘标识为19726987的告警数据1与告警发生时间为1:02、告警名称为网元误码、单盘标识为19726987的告警数据3分为一组,记为(网元高温,网元误码),将网元高温标记为预备根告警;根据历史的根衍规则查询到网元高温、网元误码和网元中断为一组约束条件为同单盘的根衍规则,且该根衍规则中网元误码为根告警,同理,可将告警数据2、告警数据4和告警数据5分为一组,记为(网元高温,网元误码,网元中断),将网元误码标记为预备根告警;然后根据拓扑信息判断标记为预备根告警的网元高温和网元误码对应的告警数据1和告警数据4之间是否具有业务影响,若有业务影响关系,则具有业务影响关系的各组的距离满足预设距离条件。假设根据拓扑信息可知标记为预备根告警的网元高温和网元误码对应的告警数据1和告警数据4之间具有业务影响关系,则说明(网元高温,网元误码)和(网元高温,网元误码,网元中断)的距离满足预设距离条件。因此将(网元高温,网元误码)和(网元高温,网元误码,网元中断)分为同一个故障场景,该故障场景为待寻根的故障场景。
优选的,计算历史的故障场景与待寻根的故障场景的相似度,具体包括:
从历史的所有的故障场景和待寻根的故障场景的各告警数据的告警名称中获取告警特征词,以便根据各告警特征词计算历史的故障场景和待寻根的故障场景之间的相似度。
本实施例提供一种实际场景中可实现的方式,具体为:
从历史的所有的故障场景和待寻根的故障场景的各告警数据的告警名称中获取告警特征词,如从待寻根的故障场景(即分为的各组)的(网元高温,网元误码)和(网元高温,网元误码,网元中断)中提取的告警特征词为网元、高温、误码、中断,历史的故障场景中所有的告警特征词为单盘、断电,将各告警特征词转换为编码向量,如:
网元的编码向量为:100000,
单盘的编码向量为:010000,
高温的编码向量为:001000,
误码的编码向量为:000100,
中断的编码向量为:000010,
断电的编码向量为:000001。
优选的,所述根据各告警特征词计算历史的故障场景和待寻根的故障场景之间的相似度,具体包括:
分别计算历史的故障场景和待寻根的故障场景中各告警特征词出现的频率,以便分别得到历史的故障场景和待寻根的故障场景的词频集;
假设(网元高温,网元误码)和(网元高温,网元误码,网元中断)为同一个待寻根的故障场景,该待寻根的故障场景称为故障场景1,将(网元高温,网元误码)和(网元高温,网元误码,网元中断)分别称为告警组1和告警组2;某一个历史的故障场景为故障场景2,该故障场景2由告警组3和告警组4组成,假设故障场景2的告警组3和告警组4分别为(单盘高温,单盘误码)和(单盘高温,单盘误码,单盘中断)。
现在需要计算故障场景1和故障场景2之间的相似度,具体的,首先,利用编码向量的方法表示各告警特征词在故障场景1和故障场景2中出现的次数,以分别得到历史的故障场景(即故障场景2)和待寻根的故障场景(即故障场景1)的词频集,如下所示:
故障场景1:
告警组1:(网元高温101000,网元误码100100)201100,其中,201100表示各告警特征词网元、单盘、高温、误码、中断和断电出现的次数分别为2、0、1、1、0、0;
告警组2:(网元高温101000,网元误码100100,网元中断100010)301110,其中,301110表示各告警特征词网元、单盘、高温、误码、中断和断电出现的次数分别为3、0、1、1、1、0;
告警组1和告警组2取并集,得到502210,502210表示各告警特征词网元、单盘、高温、误码、中断和断电在故障场景1中出现的次数分别为5、0、2、2、1、0。
故障场景2:
告警组3:(单盘高温011000,单盘误码010100)021100,其中,021100表示各告警特征词网元、单盘、高温、误码、中断和断电出现的次数分别为0、2、1、1、0、0;
告警组4:(单盘高温011000,单盘误码010100,单盘中断010010)031110,其中,031110表示各告警特征词网元、单盘、高温、误码、中断和断电出现的次数分别为0、3、1、1、1、0;
告警组3和告警组4取并集,得到052210,052210表示各告警特征词网元、单盘、高温、误码、中断和断电在故障场景2中出现的次数分别为0、5、2、2、1、0。
然后根据告警组1和告警组2的并集502210计算故障场景1中各告警特征词网元、单盘、高温、误码、中断和断电出现的频率分别为0.5,0,0.2,0.2,0.1,0,即故障场景1的词频集=(0.5,0,0.2,0.2,0.1,0);
根据根据告警组3和告警组4的并集052210计算故障场景2中各告警特征词网元、单盘、高温、误码、中断和断电出现的频率分别为0,0.5,0.2,0.2,0.1,0,即故障场景2的词频集=(0,0.5,0.2,0.2,0.1,0)。
优选的,计算各告警特征词的逆文档频率集,分别将历史的故障场景的词频集和待寻根的故障场景的词频集与逆文档频率集相乘,以便计算历史的故障场景和待寻根的故障场景之间的相似度。
优选的,所述计算各告警特征词的逆文档频率集,具体包括:
根据所有故障场景的总数和含有各告警特征词的故障场景的数量的比值计算得到各告警特征词的逆文档频率集,具体为:
逆文档频率=ln(故障场景总数/(含有某个告警特征词的故障场景+e-9));
其中,所述所有故障场景的总数为历史的所有的故障场景的数量与待寻根的故障场景的数量的总和。所有故障场场景的总数为3(即历史的故障场景有2个,再加上1个待寻根的故障场景1),其中一个故障场景对应1个根因。假设从历史的所有的故障场景和待寻根的故障场景的故障场景1中提取的告警特征词为网元、单盘、高温、误码、中断和断电。
计算网元的逆文档频率,故障场景总数3,假设含有网元的故障场景的个数为1,则ln(2/(1+e-9))≈0.69;
计算单盘的逆文档频率,故障场景总数3,假设含有单盘的故障场景的个数为1,则ln(2/(1+e-9))≈0.69;
计算高温的逆文档频率,故障场景总数3,假设含有高温的故障场景的个数为2,则ln(2/(2+e-9))≈0;
计算误码的逆文档频率,故障场景总数3,假设含有误码的故障场景的个数为2,则ln(2/(2+e-9))≈0;
计算中断的逆文档频率,故障场景总数3,假设含有中断的故障场景的个数为2,则ln(2/(2+e-9))≈0;
计算断电的逆文档频率,故障场景总数3,假设含有中断的故障场景的个数为2,则ln(2/(2+e-9))≈0;
则逆文档频率集=(0.69,0.69,0,0,0,0)。
分别将历史的故障场景的词频集和待寻根的故障场景的词频集与逆文档频率集相乘,即:
故障场景1的词频集*逆文档频率集=(0.5,0,0.2,0.2,0.1,0)*(0.69,0.69,0,0,0,0)=(0.345,0,0,0,0,0);
故障场景2的词频集*逆文档频率集=(0,0.5,0.2,0.2,0.1,0)*(0.69,0.69,0,0,0,0)=(0,0.345,0,0,0,0);
计算历史的故障场景和待寻根的故障场景之间的相似度,即计算(0.345,0,0,0,0,0)和(0,0.345,0,0,0,0)的余弦乘积,如下所示:
(0.345,0,0,0,0,0)*(0,0.345,0,0,0,0)=0*0.345+0*0.345+0*0+0*0+0*0+0*0=0,可知(0.345,0,0,0,0,0)和(0,0.345,0,0,0,0)的余弦乘积为0(即故障场景1与故障场景2的相似度),余弦乘积越小,则故障场景1与故障场景2的相似度越高,假设预设域条件为余弦乘积小于等于0.3,由于故障场景1与故障场景2的余弦乘积0小于0.3,因此故障场景1与故障场景2的相似度满足预设域条件,因此故障场景2的根因即为故障场景1的根因,由于历史的故障场景2的根因是已知的,因此便可以得到故障场景1的根因。此处仅仅是为了解释说明,并不用于限定本发明。
本发明通过将预处理后的告警数据按第一时间周期进行切片得到切片数据;
并根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,将距离满足预设距离条件的各组分为同一个待寻根的故障场景,然后从历史的故障场景中匹配与待寻根的故障场景的相似度满足预设域条件的故障场景,从而将满足预设域条件的历史的故障场景的根因设置为待寻根的故障场景的根因,本发明摆脱了单纯依靠人工无法快速定位告警中的根告警的情况,且提高了根因挖掘的效率。
实施例2:
在上述实施例1提供的基于事件流的承载网故障分析方法的基础上,本发明还提供了一种可用于实现上述方法的基于事件流的承载网故障分析装置,如图6所示,是本发明实施例的装置架构示意图。本实施例的基于事件流的承载网故障分析装置包括一个或多个处理器21以及存储器22。其中,图6中以一个处理器21为例。
所述处理器21和所述存储器22可以通过总线或者其他方式连接,图6中以通过总线连接为例。
所述存储器22作为一种基于事件流的承载网故障分析方法非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如实施例1中的基于事件流的承载网故障分析方法。所述处理器21通过运行存储在所述存储器22中的非易失性软件程序、指令以及模块,从而执行基于事件流的承载网故障分析装置的各种功能应用以及数据处理,即实现实施例1的基于事件流的承载网故障分析方法。
所述存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,所述存储器22可选包括相对于所述处理器21远程设置的存储器,这些远程存储器可以通过网络连接至所述处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的基于事件流的承载网故障分析方法,例如,执行以上描述的图1所示的各个步骤。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于事件流的承载网故障分析方法,其特征在于,包括:
将预处理后的告警数据按第一时间周期进行切片得到切片数据;
根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,并判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景;
若历史的故障场景与所述待寻根的故障场景的相似度满足预设域条件,则所述历史的故障场景与所述待寻根的故障场景的根因相同。
2.根据权利要求1所述的基于事件流的承载网故障分析方法,其特征在于,所述将预处理后的告警数据按第一时间周期进行切片得到切片数据,具体包括:
将预处理后的告警数据按告警发生时间的先后顺序排列为告警队列,并将所述告警队列按第一时间周期进行切片得到切片数据。
3.根据权利要求1所述的基于事件流的承载网故障分析方法,其特征在于,所述根据历史挖掘的根衍规则对切片数据中的告警数据进行分组,具体包括:
所述历史挖掘的根衍规则包括白名单;
若从切片数据中选择出与白名单中的根衍规则匹配的告警数据,则将选择出的各告警数据分为一组;
将分为一组的各告警数据中与匹配上的白名单中的根衍规则中的根告警相同的告警数据标记为预备根告警。
4.根据权利要求3所述的基于事件流的承载网故障分析方法,其特征在于,所述判断各组之间的距离,将距离满足预设距离条件的各组分为同一个待寻根的故障场景,具体包括:
根据拓扑信息判断各组中标记为预备根告警的告警数据是否具有业务影响关系;
若有业务影响关系,则具有业务影响关系的各组的距离满足预设距离条件。
5.根据权利要求1所述的基于事件流的承载网故障分析方法,其特征在于,计算历史的故障场景与待寻根的故障场景的相似度,具体包括:
从历史的所有的故障场景和待寻根的故障场景的各告警数据的告警名称中获取告警特征词,根据各告警特征词计算历史的故障场景和待寻根的故障场景之间的相似度。
6.根据权利要求5所述的基于事件流的承载网故障分析方法,其特征在于,所述根据各告警特征词计算历史的故障场景和待寻根的故障场景之间的相似度,具体包括:
分别计算历史的故障场景和待寻根的故障场景中各告警特征词出现的频率,以便分别得到历史的故障场景和待寻根的故障场景的词频集;
计算各告警特征词的逆文档频率集,分别将历史的故障场景的词频集和待寻根的故障场景的词频集与逆文档频率集相乘,以便计算历史的故障场景和待寻根的故障场景之间的相似度。
7.根据权利要求6所述的基于事件流的承载网故障分析方法,其特征在于,所述计算各告警特征词的逆文档频率集,具体包括:
根据所有故障场景的总数和含有各告警特征词的故障场景的数量的比值计算得到各告警特征词的逆文档频率集;
其中,所述所有故障场景的总数为历史的所有的故障场景的数量与所述待寻根的故障场景的数量的总和。
8.根据权利要求1所述的基于事件流的承载网故障分析方法,其特征在于,告警数据的预处理,具体包括:
提取告警数据中的属性信息,其中,提取的告警数据的属性信息包括告警发生时间、告警清除时间、网元标识、单盘标识、端口标识、告警分类、告警名称、告警发生的业务层次中的一项或者多项。
9.根据权利要求8所述的基于事件流的承载网故障分析方法,其特征在于,告警数据的预处理,具体还包括:
过滤所述告警数据中的闪断告警和折叠振荡告警。
10.一种基于事件流的承载网故障分析装置,其特征在于,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行权利要求1-9任一所述的基于事件流的承载网故障分析方法。
CN202210006059.6A 2022-01-04 2022-01-04 一种基于事件流的承载网故障分析方法及装置 Active CN114513802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210006059.6A CN114513802B (zh) 2022-01-04 2022-01-04 一种基于事件流的承载网故障分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210006059.6A CN114513802B (zh) 2022-01-04 2022-01-04 一种基于事件流的承载网故障分析方法及装置

Publications (2)

Publication Number Publication Date
CN114513802A true CN114513802A (zh) 2022-05-17
CN114513802B CN114513802B (zh) 2023-06-09

Family

ID=81549799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210006059.6A Active CN114513802B (zh) 2022-01-04 2022-01-04 一种基于事件流的承载网故障分析方法及装置

Country Status (1)

Country Link
CN (1) CN114513802B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130042147A1 (en) * 2010-03-11 2013-02-14 Nec Corporation Fault analysis rule extraction device, fault analysis rule extraction method and storage medium
CN108446184A (zh) * 2018-02-23 2018-08-24 北京天元创新科技有限公司 分析故障根原因的方法和系统
US20190294486A1 (en) * 2018-03-20 2019-09-26 Optumsoft, Inc. Matchset-based automatic root cause analysis
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
WO2020238810A1 (zh) * 2019-05-25 2020-12-03 华为技术有限公司 一种告警分析方法及相关设备
CN112769615A (zh) * 2021-01-05 2021-05-07 中国银联股份有限公司 一种异常分析方法及装置
CN113543180A (zh) * 2020-04-15 2021-10-22 大唐移动通信设备有限公司 一种告警处理方法和装置
CN113542039A (zh) * 2021-09-16 2021-10-22 浩鲸云计算科技股份有限公司 一种通过ai算法定位5g网络虚拟化跨层问题的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130042147A1 (en) * 2010-03-11 2013-02-14 Nec Corporation Fault analysis rule extraction device, fault analysis rule extraction method and storage medium
CN108446184A (zh) * 2018-02-23 2018-08-24 北京天元创新科技有限公司 分析故障根原因的方法和系统
US20190294486A1 (en) * 2018-03-20 2019-09-26 Optumsoft, Inc. Matchset-based automatic root cause analysis
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
WO2020238810A1 (zh) * 2019-05-25 2020-12-03 华为技术有限公司 一种告警分析方法及相关设备
CN113543180A (zh) * 2020-04-15 2021-10-22 大唐移动通信设备有限公司 一种告警处理方法和装置
CN112769615A (zh) * 2021-01-05 2021-05-07 中国银联股份有限公司 一种异常分析方法及装置
CN113542039A (zh) * 2021-09-16 2021-10-22 浩鲸云计算科技股份有限公司 一种通过ai算法定位5g网络虚拟化跨层问题的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG SHAN ET AL.: "Root Cause Analysis of Failures for Power Communication Network Based on CNN", 《2020 12TH INTERNATIONAL CONFERENCE ON COMMUNICATION SOFTWARE AND NETWORKS (ICCSN)》 *
张国光 等: "5G网络维护自动化及优化智能化研究", 邮电设计技术 *
张玲玉: "AIOps中异常检测及根因分析算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN114513802B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN111158977B (zh) 一种异常事件根因定位方法及装置
CN109657879B (zh) 预测路线获取方法、装置、计算机设备及存储介质
CN110019876B (zh) 数据查询方法、电子设备及存储介质
CN113609347B (zh) 数据存储及查询方法、装置及数据库系统
CN111078513B (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN109684290B (zh) 日志存储方法、装置、设备及计算机可读存储介质
CN112434039A (zh) 数据的存储方法、装置、存储介质以及电子装置
US20220278914A1 (en) Anomaly detection method and apparatus
CN101808351A (zh) 业务影响分析方法和系统
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN108063685B (zh) 日志分析方法及装置
CN111241217A (zh) 数据处理的方法、装置和系统
CN112131278A (zh) 轨迹数据的处理方法及装置、存储介质、电子装置
CN111309696A (zh) 日志处理方法及装置、电子设备、可读介质
CN114513802A (zh) 一种基于事件流的承载网故障分析方法及装置
CN110110234A (zh) 一种大数据实时搜索系统和方法
CN114090735A (zh) 一种文本匹配方法、装置、设备及存储介质
CN117421188A (zh) 告警定级方法、装置、设备及可读存储介质
CN110830978B (zh) 基于区域的用户数据处理方法、装置、设备及介质
CN109858682B (zh) 消失路线预测方法、装置、计算机设备及存储介质
EP3511830A1 (en) Method for monitoring devices in a network, computerized system and application program interface
Gfeller Finding longest approximate periodic patterns
CN110766102B (zh) 一种确定驻留时长的方法、装置、设备及存储介质
CN112866934A (zh) 地铁用户识别方法与系统
CN112784025A (zh) 一种目标事件的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant