CN113259168B - 一种故障根因分析方法及装置 - Google Patents
一种故障根因分析方法及装置 Download PDFInfo
- Publication number
- CN113259168B CN113259168B CN202110591618.XA CN202110591618A CN113259168B CN 113259168 B CN113259168 B CN 113259168B CN 202110591618 A CN202110591618 A CN 202110591618A CN 113259168 B CN113259168 B CN 113259168B
- Authority
- CN
- China
- Prior art keywords
- alarm information
- target
- fault
- causal relationship
- alarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供一种故障根因分析方法及装置,包括:在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;基于获取到的告警信息生成故障图;针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系;将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警,从而实现网络设备故障的自动根因分析。
Description
技术领域
本申请涉及计算机通信领域,尤其涉及一种故障根因分析方法及装置。
背景技术
随着信息技术革命的不断发展和持续深化,现代通信网络遍布我们生活的各个地方,应用于各种生活场景下,极大地改善了人们的生活。这就要求通信网络必须具有极高的可靠性和安全性,当复杂的网络结构中的某些节点出现通信故障时,需要自动、快速、智能地诊断出故障,才能根据故障原因进行网络的恢复。
因此,如何确定故障产生的原因就成为亟待解决的问题。
发明内容
有鉴于此,本申请提供一种故障根因分析方法及装置,用于自动确定网络设备产生故障的原因。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提供一种故障根因分析方法,所述方法包括:
在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;所述告警信息由至少一个目标设备上的网元生成;
基于获取到的告警信息生成故障图;所述故障图维护了:每个目标设备上各网元的从属关系,每个目标设备上网元对应的告警信息、以及各目标设备之间的拓扑关系;
针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系;
将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警。
可选的,所述获取与该目标故障相关的告警信息,包括:
获取所述故障通知消息携带的该目标故障的生成时刻;
在所有设备上报的告警信息中,选择在所述生成时刻前后的预设时间段内产生的告警信息,作为与该目标故障相关的告警信息。
可选的,所述基于确定出的告警信息生成故障图,包括:
获取各目标设备的网元树;其中,所述网元树依据目标设备上各网元的从属关系生成;所述网元树包括根节点和多级叶节点;根节点表示该目标设备,每级叶节点表示该目标设备上的网元,每级叶节点代表的网元从属于其相连的上一级叶节点代表的网元;
在获取的网元树中,将与目标故障相关的告警信息与对应的节点进行关联,形成各目标设备的告警树;
基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。
可选的,所述从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系,包括:
将所述故障告警信息作为指定告警信息;
在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则;所述目标因果关系规则中的结果为该指定告警信息;
针对每一目标因果关系规则,若确定所述故障图中存在该目标因果关系规则中的原因对应的告警信息,则将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,返回所述在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则的步骤;若确定所述故障图中不存在所述目标因果关系规则中原因对应的告警信息,则维持所述预设集合不变;
在处理完所有目标因果关系规则后,将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因对应的告警信息作为所述目标告警信息。
可选的,所述基于所述至少一条因果关系链,确定该目标故障的根因告警,包括:
确定各因果关系链的疑似概率,选择疑似概率符合预设条件的因果关系链;
基于选择出的因果关系链,确定出该目标故障的根因告警。
可选的,所述因果关系链包括多个节点,以及相邻两个节点的有向连边;
其中,所述因果关系链的尾节点表示所述故障告警信息,其他节点表示目标告警信息,两个相邻节点之间的有向连边表示这两个节点所代表的告警信息的因果关系,因果关系被预配置了可信度;
所述确定各因果关系链的疑似概率,包括:
针对每一因果关系链,基于该因果关系链上有向连边对应的因果关系的可信度,确定该因果关系链的疑似概率。
根据本申请的第二方面,提供一种故障根因分析装置,所述装置包括:
获取单元,用于在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;所述告警信息由至少一个目标设备上的网元生成;
生成单元,用于基于获取到的告警信息生成故障图;所述故障图维护了:每个目标设备上各网元的从属关系,每个目标设备上网元对应的告警信息、以及各目标设备之间的拓扑关系;
确定单元,用于针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系;
分析单元,用于将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警。
可选的,所述获取单元,在获取与该目标故障相关的告警信息时,用于获取所述故障通知消息携带的该目标故障的生成时刻;在所有设备上报的告警信息中,选择在所述生成时刻前后的预设时间段内产生的告警信息,作为与该目标故障相关的告警信息。
可选的,所述生成单元,在基于确定出的告警信息生成故障图时,用于获取各目标设备的网元树;其中,所述网元树依据目标设备上各网元的从属关系生成;所述网元树包括根节点和多级叶节点;根节点表示该目标设备,每级叶节点表示该目标设备上的网元,每级叶节点代表的网元从属于其相连的上一级叶节点代表的网元;在获取的网元树中,将与目标故障相关的告警信息与对应的节点进行关联,形成各目标设备的告警树;基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。
可选的,所述确定单元,在从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系时,用于将所述故障告警信息作为指定告警信息;在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则;所述目标因果关系规则中的结果为该指定告警信息;针对每一目标因果关系规则,若确定所述故障图中存在该目标因果关系规则中的原因对应的告警信息,则将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,返回所述在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则的步骤;若确定所述故障图中不存在所述目标因果关系规则中原因对应的告警信息,则维持所述预设集合不变;在处理完所有目标因果关系规则后,将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因对应的告警信息作为所述目标告警信息。
可选的,所述分析单元,在基于所述至少一条因果关系链,确定该目标故障的根因告警时,用于确定各因果关系链的疑似概率,选择疑似概率符合预设条件的因果关系链;基于选择出的因果关系链,确定出该目标故障的根因告警。
可选的,所述因果关系链包括多个节点,以及相邻两个节点的有向连边;
其中,所述因果关系链的尾节点表示所述故障告警信息,其他节点表示目标告警信息,两个相邻节点之间的有向连边表示这两个节点所代表的告警信息的因果关系,因果关系被预配置了可信度;
所述分析单元,在确定各因果关系链的疑似概率时,用于针对每一因果关系链,基于该因果关系链上有向连边对应的因果关系的可信度,确定该因果关系链的疑似概率。
由上述描述可知,由于本申请可基于与目标故障相关的告警信息生成故障图,并依据故障图,将该故障图中与目标故障相关的告警信息按照因果关系,串联成因果关系链,依据因果关系链确定出目标故障的根因告警,从而实现了故障根因的自动分析。
附图说明
图1是本申请一示例性实施例示出的一种故障根因分析方法的流程图;
图2是本申请一示例性实施例示出的一种生成告警树的示意图;
图3是本申请一示例性实施例示出的一种告警树的示意图;
图4是本申请一示例性实施例示出的一种故障图的示意图;
图5是本申请一示例性实施例示出的另一种故障图的示意图;
图6是本申请一示例性实施例示出的一种因果关系链的示意图;
图7是本申请一示例性实施例示出的一种电子设备的硬件结构图;
图8是本申请一示例性实施例示出的一种故障根因分析装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请旨在提出一种故障根因分析方法,在本申请中,在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息,并基于获取到的告警信息生成故障图。然后,针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的目标故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系,并基于所述故障告警信息和各目标告警信息及其之间的因果关系,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警。
由于本申请可基于与目标故障相关的告警信息生成故障图,并依据故障图,将该故障图中与目标故障相关的告警信息按照因果关系,串联成因果关系链,依据因果关系链确定出目标故障的根因告警,从而实现了故障根因的自动分析。
参见图1,图1是本申请一示例性实施例示出的一种故障根因分析方法的流程图,该方法可应用在电子设备上。
其中,该电子设备可以是计算机、服务器、服务器集群、数据中心等,这里只是对电子设备进行示例性地说明,不对其进行具体地限定。
该方法可包括如下所示步骤:
步骤101:电子设备在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;所述告警信息由至少一个目标设备上的网元生成。
在本申请中,电子设备可以维护和管理至少一个网络设备。当网络设备上的网元发生异常时,网元会产生异常信息,网络设备会将异常信息构造成统一格式的告警信息,并将告警信息上报给电子设备。
其中,上述网元是指网络设备上的元件,可以是物理元件,也可以是逻辑元件,这里不进行具体地限定。比如网络设备包括机箱、板卡、物理接口,那么机箱、板卡、物理接口都是该网络设备的网元。
上述告警信息可包括:告警产生的时间,告警类型,产生该告警信息的网元标识、以及告警的相关参数信息等。
告警的相关参数信息用于描述告警,比如该告警为接口告警,该相关参数信息为接口状态为down状态等,比如该告警为BFD会话断开告警,该相关参数可以是BFD会话的相关信息,比如维持BFD会话两端设备的地址信息等。这里只是对告警的相关参数信息进行示例性地说明,不对其进行具体地限定。
下面通过具体地例子对告警信息进行说明。
例如,网元产生的异常信息可以为:
%May 12 23:11:43:561 2020 12508 W DEV/2/BOARD_STATE_FAULT: -MDC=1;Board state changed to Fault on slot 2, type is LSXM1CGQ36TD1.
上报电子设备的告警信息可以为:
warn_type = BOARD_STATE_FAULT, NE = tuple (device=12508 W, chassis =0, board =2),paramter=NULL,Time:May 12 23:11:43:561 2020。
其中,warn_type表示告警类型,在该例中,该告警类型表示板卡状态故障。
NE表示网元标识,在该例中,该网元标识为设备12508W的第0个机箱中的第二个板卡。
告警的相关参数为空。
告警产生的时间为:May 12 23:11:43:561 2020。
再例如,网元产生的异常信息可以为:
%May 12 23:11:43:567 2020 12508 W IFNET/3/PHY_UPDOWN: -MDC=1;Physical state on the interface Vlan-interface4094 changed to down.
上报电子设备的告警信息可以为:
===> warn_type = PHY_UPDOWN, NE = tuple (device=12508 W, int vlan =4094),paramter=tuple(status=down),Time: May 12 23:11:43:567 2020.
其中,warn_type表示告警类型,在该例中,该告警类型表示物理接口正常与否。
NE表示网元标识,在该例中,该网元标识为设备12508W的VLAN4049的接口。
告警的相关参数为接口down掉。
告警产生的时间为:May 12 23:11:43:567 2020。
在本申请实施例中,电子设备接收到网络设备上报的告警信息后,可记录该告警信息。
此外,当网络设备产生故障时,网络设备还可向电子设备上报故障通知消息,该故障通知消息携带了目标故障标识。
电子设备可在已记录的告警信息中,获取与该目标故障相关的告警信息。
在一种可选的获取方式中,该故障通知消息还携带了目标故障的生成时刻。电子设备可在已记录的告警信息中,选择在所述生成时刻前、和/或后的预设时间段内产生的告警信息,作为与该目标故障相关的告警信息。换句话来说,电子设备可在已记录的告警信息中,选择告警生成时间该生成时刻前和/或后的预设时间段的告警信息,作为与该目标故障相关的告警信息。
例如,假设目标故障的生成时刻为2020.5.12.23:00:00。
预设时间段为5分钟,则电子设备可将告警生成时间在2020.5.12.22:55:00至2020.5.12.23:05:00的告警信息作为与该目标故障相关的告警信息。
比如,设备1上的一个网元在2020.5.12.22:30:00产生第一个告警信息,在2020.5.12.22:56:00产生第二个告警信息。
设备2上的一个网元在2020.5.12.22:57:00产生第三个告警信息。
则将设备1上的一个网元产生的第二个告警信息、以及设备2上的一个网元产生的第三个告警信息作为与该目标故障相关的告警信息。
步骤102:电子设备基于获取到的告警信息生成故障图;所述故障图维护了:每个目标设备上各网元的从属关系,每个目标设备上网元对应的告警信息、以及各目标设备之间的拓扑关系。
下面通过步骤1021至步骤1023对步骤102进行详细地说明。
步骤1021:获取各目标设备的网元树。
在实现时,电子设备上预设有各网络设备的网元树,电子设备可从各网络设备的网元树中,获取目标设备的网元树。
下面对网元树进行详细地描述。
电子设备可以依据目标设备的各网元的从属关系,构建网元树。构建出的网元树包括根节点和多级叶节点。其中,根节点表示该目标设备,每级叶节点表示该目标设备上的网元,每级叶节点代表的网元从属于上一级叶节点代表的网元。
例如,假设目标设备80.0.0.13包括机箱0,机箱0包括板卡11和板卡5;
板卡11包括物理接口Port11/2/1,物理接口Port11/2/1包括逻辑接口Port11/2/1.1和逻辑接口Port11/2/1.4094;
板卡5包括物理接口Port5/2/1,物理接口Port5/2/1包括逻辑接口Port5/2/1.1和逻辑接口Port5/2/1.4094。
该目标设备的网元树如图2中的(a)图所示,该网元树包括1个根节点和4级叶节点。其中,根节点表示目标设备80.0.0.13。
第一级叶节点包括一个节点,该节点表示机箱0;
第二级叶节点包括两个节点,其中,一个节点表示板卡11,另一个节点表示板卡5。
第三级叶节点包括两个节点,其中,节点“Port11/2/1”与节点“板卡11”相连,节点“Port11/2/1”表示物理接口Port11/2/1;节点“Port5/2/1”与节点“板卡5”相连,节点“Port5/2/1”表示物理接口Port5/2/1;
第四级叶节点包括四个节点。其中,节点“Port11/2/1.1”与节点“Port11/2/1”相连,节点“Port11/2/1.1”表示逻辑接口Port11/2/1.1;
节点“Port11/2/1.4094”与节点“Port11/2/1”相连,节点“Port11/2/1.4094” 表示逻辑接口Port11/2/1.4094;
节点“Port5/2/1.1”与节点“Port5/2/1”相连,节点“Port5/2/1.1”表示逻辑接口Port5/2/1.1;
节点“Port5/2/1.4094”与节点“Port5/2/1”相连,节点“Port5/2/1.4094”表示逻辑接口Port5/2/1.4094。
以上即为目标设备的网元树。
步骤1022:在获取的网元树中,将与目标故障相关的告警信息与对应的节点进行关联,形成各目标设备的告警树。
在实现时,针对每一告警信息,电子设备在故障图中,将该告警信息与该告警信息包含的网元标识对应的网元关联,从而形成个目标设备的告警树。
例如,仍以图2中的(a)图为例,假设,告警信息1和告警信息3携带的网元标识为“设备80.0.0.13,机箱0,板卡11,Port11/2/1,Port11/2/1.1”,则在图2中的(a)图,将告警信息1和告警信息3与图2的(a)图所示的故障图中的第四级节点中的节点“Port11/2/1.1”关联形成设备80.0.0.13的告警树,即如图2中的(b)图所示。
步骤1023:基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。
在实现时,电子设备上预记录了各个目标设备的拓扑关系,电子设备可以基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。在一种可选的实现方式中,电子设备上记录的拓扑关系可以是设备1的端口A与设备2的端口B相连,电子设备可在设备1对应的告警树中找到端口A对应的节点,在设备2对应的告警树中找到端口B对应的节点,然后电子设备将找到的两个节点相连,从而将两个设备对应的告警树连接起来。
例如,参见图3,假设目标设备为设备80.0.0.13和设备177.17.17.7的告警树如图3所示。
其中,设备80.0.0.13的告警树中的节点“Port11/2/1.1”与告警信息1和告警信息3关联。设备177.17.17.7的告警树中的节点“Int vlan11”与告警信息10关联。
假设设备80.0.0.13和设备177.17.17.7的拓扑关系为:设备80.0.0.13上的物理接口Port11/2/1与设备177.17.17.7上的物理接口Port1/0/1相连,则电子设备可基于该拓扑关系,将设备80.0.0.13的告警树中的节点“Port11/2/1”与设备177.17.17.7的告警树中的节点“Port1/0/1”相连,从而形成如图4所示的故障图。
需要说明的是,上述故障图可以是基于知识图谱的相关技术构造,这里只是对故障图的构造方式进行示例性地说明,不对其进行具体地限定。
步骤103:针对每个目标设备,电子设备在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系。
下面通过步骤1031至步骤1032对步骤103进行详细地说明。
步骤1031:针对每个目标设备,从所述故障图中检测该目标设备是否具有该目标故障所指示的故障告警信息。
由于本申请是将目标故障产生时刻前和/或后预设时间段内的告警信息,作为与目标故障相关的告警信息。所以这些告警信息里包括:目标故障所指示的故障告警信息和其他告警信息。
例如,假设目标故障是BFD会话断开,假设与目标故障相关的告警信息包括:物理接口down掉、逻辑接口down掉、以及BFD CHANGE FSM(即BFD协议状态机变化)。则BFDCHANGE FSM是故障告警信息,物理接口down掉、逻辑接口down掉是其他告警信息。
在实现步骤1031时,针对每个目标设备,电子设备可从故障图中确定出该目标设备对应的告警树,然后在检查告警树上的任一节点是否关联有目标故障所指示的故障告警信息。
若该告警树上的有一节点关联有故障告警信息,则执行步骤1032。
若该告警树上的所有节点都没有关联故障告警信息,则获取下一个目标设备,对该目标设备执行1031的步骤。
例如,如图5所示,假设目标故障为BFD会话断开。
针对图5中的设备1,由于设备1对应的告警树的节点“int vlan 204”关联有故障告警信息BFD_CHANGE_FSM,所以可以确定设备1具有故障告警信息,可以对设备1执行步骤1032。
针对图5中的设备2,由于设备2对应的告警树的节点“int vlan 100”关联有故障告警信息BFD_CHANGE_FSM,所以可以确定设备2具有故障告警信息,可以对设备2执行步骤1032。
步骤1032:在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系。
在介绍步骤1032之前,先介绍几个概念。
1、因果关系规则
在本申请中,预配置了多条因果关系规则,该因果关系规则可包括:因果关系、以及对因果关系中的原因和结果的描述信息。
比如:因果关系规则为:
PHY_UPDOWN(warn1) ----> LINK_UPDOWN(warn2);
satisfy: warn1.NE== warn2.NE && Warn1.Para.status==Warn2. Para.status
其中,“PHY_UPDOWN(warn1) ----> LINK_UPDOWN(warn2)”为因果关系。“PHY_UPDOWN”表示物理接口正常与否,“LINK_UPDOWN”表示链路正常与否。该因果关系中的原因为“PHY_UPDOWN”、结果为“LINK_UPDOWN”,该因果关系表示物理接口的正常与否决定了链路的正常与否。
其中,“satisfy”为该因果关系中的原因和结果的描述信息,或者说匹配条件。该描述信息表示:物理接口和逻辑接口来自于同一网元,并且物理接口和逻辑接口的接口状态相同。
再比如:因果关系规则为:
CPU_HIGH_SEVERE (warn1) ----> BFD_CHANGE_FSM (warn2)
Satisfy:warn1.NE.device =warn2.NE.device && warn1.NE.device.slot是所在设备的主用主控板。
其中,“CPU_HIGH_SEVERE (warn1) ----> BFD_CHANGE_FSM (warn2)”为因果关系,“CPU_HIGH_SEVERE”表示CPU使用率高,“BFD_CHANGE_FSM”表示BFD协议状态机变化。
该因果关系中的原因为“CPU_HIGH_SEVERE”,结果为“BFD_CHANGE_FSM”。该因果关系表示了CPU高使用率会引发BFD协议状态机变化。
其中,“satisfy”为该因果关系中的原因和结果的描述信息,或者说匹配条件。该描述信息表示:产生CPU使用率高这条告警信息的网元所在的设备、与产生BFD协议状态机变化这条告警信息的网元所在的设备相同,并且产生CPU使用率高这条告警信息的网元为设备的主用主控板。
2、可信度
在本申请中,还预先为各因果关系规则配置了可信度,用于说明该因果关系规则的可信程度。
比如:为因果关系规则1配置可信度为85%,表示该因果关系成立的可信程度为85%。
在实现“从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系”时,电子设备可依据预设多条因果关系规则,在故障图中查找故障告警信息的直接原因对应的告警或者间接原因对应的告警,并将直接原因对应的告警和间接原因对应的告警作为目标告警信息,将匹配到的预设因果关系规则所指示的因果关系,确定为故障告警信息和目标告警信息的因果关系。
具体地,参见下面步骤A1至步骤A4。
步骤A1:将所述故障告警信息作为指定告警信息;
步骤A2:在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则;所述目标因果关系规则中的结果为该指定告警信息;
在实现时,电子设备可以该指定告警信息所包含的告警标识作为关键字,然后在多条因果关系规则中,查找以该关键字作为结果的因果关系规则,作为与该指定告警信息匹配的目标因果关系规则。
步骤A3:针对每一目标因果关系规则,若确定所述目标因果关系规则中原因对应的告警信息在所述故障图中,则将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,返回所述在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则的步骤(即步骤A2);若确定所述目标因果关系规则中原因对应的告警信息不在所述故障图中,则维持所述预设集合不变。
在实现时,在确定出目标因果关系规则后,针对每一目标因果关系规则,电子设备可从该目标因果关系规则中确定出原因。然后,电子设备可检测该故障图中是否存在该原因对应的告警信息。
具体地,在检测故障图中是否存在该原因对应的告警信息时,电子设备可将故障图中的每一告警信息与该原因对应的告警信息进行匹配。在匹配时,电子设备可检测故障图中的该告警信息的告警标识是否与原因对应的告警标识一致,以及检测该故障图中的告警信息的相关参数是否与原因对应的描述信息相同,若两者都相同,则确定两者匹配,则确定故障图中存在该原因。
例如,假设因果关系规则1为:
BFD_CHANGE_FSM (warn1) ----- > BFD_CHANGE_FSM (warn2)
Satisfy: warn1.paramter.sip == warn2.paramter.dip &&warn1.paramter.dip == warn2.paramter.sip。(表示原因告警中的BFD会话的源IP地址是结果告警中的BFD会话目的IP地址,原因告警中的BFD会话的目的IP地址是结果告警中的BFD会话源IP地址)
假设,故障告警信息为BFD_CHANGE_FSM,假设电子设备找了到以该故障告警信息作为结果的因果关系规则为因果关系规则1。
电子设备可在故障图查找是否存在告警标识为BFD_CHANGE_FSM的告警信息,若存在,电子设备可进一步查看该告警信息的相关参数,以确认该告警信息相关参数所显示的BFD会话的源IP地址是否与故障告警信息中BFD会话目的IP地址相同,该告警信息相关参数所显示的BFD会话的目的IP地址是否与故障告警信息中BFD会话源IP地址相同,若均相同,则确定该告警信息为该因果关系规则中的原因,则确定该故障图中存在该因果关系规则1中的原因。
在本申请中,若该故障图中存在该原因对应的告警信息,则将将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,并返回步骤A2。
若该故障图中不存在该原因对应的告警信息,则维持该预设集合不变。
步骤A4:在确定处理完所有目标因果关系规则后,将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因作为所述目标告警信息。
在确定按照步骤A2-A3处理完每次循环得到的每一目标因果关系规则后,可将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因作为所述目标告警信息。
下面结合图5,并通过具体的例子对步骤A1-A4进行具体地说明。
假设:预设因果关系规则如下所示:
因果关系规则1:
BFD_CHANGE_FSM (warn1) ----- > BFD_CHANGE_FSM (warn2)(原因告警为BFD协议状态机变化,结果告警为BFD协议状态机变化)
Satisfy: warn1.paramter.sip == warn2.paramter.dip &&warn1.paramter.dip == warn2.paramter.sip。(表示原因告警中的BFD会话的源IP地址是结果告警中的BFD会话目的IP地址,原因告警中的BFD会话的目的IP地址是结果告警中的BFD会话源IP地址)
因果关系规则2:
Rule2:CPU_HIGH_SEVERE (warn1) ----> BFD_CHANGE_FSM (warn2)(原因告警为CPU使用率高,结果告警为BFD协议状态机变化)
Satisfy: warn1.NE.device = warn2.NE.device && warn1.NE.device.slot是所在设备的主用主控板(表示产生原因告警的网元所在设备与产生结果告警的网元所在设备相同,且产生原因告警的网元在设备的主用主控板上)。
因果关系规则3:
INTVLAN_LINK_UPDOWN (warn1) ----> BFD_CHANGE_FSM (warn2)(原因告警为VLAN连接异常,结果告警为BFD协议状态机变化);
Satisfy:warn1.NE.device=warn2.NE.device&&|warn1.timestamp-warn2.timestamp|<0.5s.(表示产生原因告警的网元所在设备与产生结果告警的网元所在设备相同,产生原因告警与产生结果告警的时间差小于0.5秒)。
因果关系规则4:
PORT_LINK_UPDOWN (warn1) ----> INTVLAN_LINK_UPDOWN (warn2)(原因告警为物理接口连接异常,结果告警为VLAN连接异常)
Satisfy:warn1.NE = warn2.NE(表示产生原因告警的网元与产生结果告警的网元相同)。
假设,生成的故障图如图5所示。
假设目标故障为BFD会话断开,该目标故障所指示的故障告警信息为BFD_CHANGE_FSM。
针对设备2,电子设备可检测故障图中设备2对应的告警树是否存在该故障告警信息,在本例中,故障图中设备2对应的告警树是否存在该故障告警信息,所以电子设备可在故障图中查找与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息的因果关系。
具体地,电子设备可以在上述4个因果关系规则中,查找以BFD_CHANGE_FSM作为结果的因果关系规则。在本例中,查找到的因果关系规则为因果关系规则1、因果关系规则2和因果关系规则3。
对于因果关系规则1,电子设备可检测故障图中是否存在该因果关系规则1中的原因。
具体地,如图5所示,假设设备1上的告警BFD_CHANGE_FSM的相关参数为:BFD会话的源IP地址为IP1,目的IP地址为IP2。假设设备2上的故障告警BFD_CHANGE_FSM的相关参数为:BFD会话的源IP地址为IP2,目的IP地址为IP1。
由于设备1上的告警BFD_CHANGE_FSM的相关参数满足因果关系规则1的描述信息,所以确定故障图中存在因果关系规则1中的原因。
因此,电子设备可将该因果关系规则1所指示的因果关系加入预设集合中,当前预设集合为{ BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2)}。
对于因果关系规则2,故障图中虽然存在CPU_High_SEVER的告警标识,但该告警信息对应设备1,而故障告警信息对应设备2,与因果关系规则2中的描述信息不符合,所以确定故障图中不存在因果关系规则2中的原因。
对于因果关系规则3,故障图中虽然存在INTVLAN_LINK_UPDOWN的告警标识,但该告警对应设备1,而故障告警信息对应设备2,与因果关系规则3中的描述信息不符合,所以确定故障图中不存在因果关系规则3中的原因。
然后,电子设备可以将因果关系规则1中原因对应的告警信息作为指定告警信息(即BFD_CHANGE_FSM(设备1)),在上述4个预设规则中查找是否存在以该指定告警信息为结果的因果关系规则,查找到的因果关系规则为因果关系规则2和因果关系规则3。
针对因果关系规则2,由于故障图中存在因果关系规则2中原因对应的告警信息(即图5中的CPU_High_SEVER(设备1板卡1)的告警信息,并且该告警信息来自于设备1,而指定告警信息BFD_CHANGE_FSM也来自于设备1,因此符合因果关系规则2中描述的原因对应的告警信息),所以电子设备将因果关系规则2所指示的因果关系添加到预设集合中,当前预设集合为:
{ BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2) ;
CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1)}
然后,电子设备可以以因果关系规则2中的原因作为指定告警信息(即CPU High_SEVER(设备1板卡1)),在上述4个预设因果关系规则中查找以该指定告警信息作为结果的因果关系规则,在本例中,4个预设因果关系规则中不存在以该指定告警信息作为结果的因果关系规则,此时电子设备可维持预设集合不变。
针对因果关系规则3,由于故障图中存在因果关系规则3中原因对应的告警信息(即图5中的INTVLAN_LINK_UPDOWN(int vlan 204)的告警信息,并且该告警信息来自于设备1,而指定告警信息BFD_CHANGE_FSM也来自于设备1,因此符合因果关系规则3中描述的原因对应的告警信息),所以电子设备将因果关系规则3所指示的因果关系添加到预设集合中,当前预设集合为:
{ BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2) ;
CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1);
NTVLAN_LINK_UPDOWN(int vlan 204) -> BFD_CHANGE_FSM(设备1)}
然后,电子设备可以以因果关系规则3中的原因作为指定告警信息(即设备1INTVLAN_LINK_UPDOWN),在上述4个预设因果关系规则中查找以该指定告警信息作为结果的因果关系规则,在本例中,可以查找到因果关系规则4。
由于故障图中存在因果关系规则4中原因对应的告警信息(即图5中的设备1的PORT_LINK_UPDOWN的告警信息,并且该告警信息来自于设备1,而指定告警信息INTVLAN_LINK_UPDOWN也来自于设备1,因此符合因果关系规则4中描述的原因对应的告警信息),所以电子设备将因果关系规则4所指示的因果关系添加到预设集合中,当前预设集合为:
{ BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2) ;
CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1);
NTVLAN_LINK_UPDOWN(int vlan 204) -> BFD_CHANGE_FSM(设备1);
PORT_LINK_UPDOWN(H1/4/0/1)-> INTVLAN_LINK_UPDOWN(int vlan 204) }
然后,电子设备可以以因果关系规则4中的原因作为指定告警信息(即PORT_LINK_UPDOWN(H1/4/0/1)),在上述4个预设因果关系规则中查找以该指定告警信息作为结果的因果关系规则,在本例中,4个预设因果关系规则中不存在以该指定告警信息作为结果的因果关系规则,此时电子设备可维持预设集合不变。
在确定处理完每次循环得到的每一个目标因果关系后,电子设备可将预设集合中的各因果关系的原因作为目标告警信息,即BFD_CHANGE_FSM(设备1)、CPU_High_SEVER(设备1 板卡1)、NTVLAN_LINK_UPDOWN(int vlan 204)和PORT_LINK_UPDOWN(H1/4/0/1)。
电子设备可将预设集合中的各因果关系规则所指示的因果关系作为故障告警信息和目标告警信息之间的因果关系,即该因果关系包括:
BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2) ;
CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1);
NTVLAN_LINK_UPDOWN(int vlan 204) -> BFD_CHANGE_FSM(设备1);
PORT_LINK_UPDOWN(H1/4/0/1)-> INTVLAN_LINK_UPDOWN(int vlan 204)。
当然,电子设备还会设备1进行上述类似的分析,得到针对设备1的故障告警信息、目标告警信息及其之间的因果关系,这里不再赘述。
以上完成步骤103的描述
步骤104:电子设备将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链。
在实现时,电子设备将所述故障告警信息和各目标告警信息按照所述因果关系串接起来,形成因果关系链。
其中,该因果关系链的首节点对应的告警信息可以表示为根本原因,该因果关系链的尾节点代表故障告警信息可以表示为最终结果,该因果关系链的上一个节点是下一个节点的产生原因,换句话来说,上一个节点对应的告警信息引起了下一个节点的告警信息。
例如,假设故障告警信息为第三个告警信息,目标告警信息为第一个告警信息和第二个告警信息,这三个告警信息的因果关系是:第一个告警信息引发第二个告警信息,第二个告警信息引发第三个告警信息,所以基于故障告警信息和目标告警信息及其之间的因果关系,形成的因果关系链为第一个告警信息->第二个告警信息->第三个告警信息。下面仍以步骤1032中的设备2的例子为例再进行举例说明:
假设目标故障为BFD会话断开;
故障告警信息为:BFD_CHANGE_FSM(设备2) ;
目标告警信息为:BFD_CHANGE_FSM(设备1)、CPU_High_SEVER(设备1板卡1)、NTVLAN_LINK_UPDOWN(int vlan 204)和PORT_LINK_UPDOWN(H1/4/0/1);
因果关系为:
BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2) ;
CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1);
NTVLAN_LINK_UPDOWN(int vlan 204) -> BFD_CHANGE_FSM(设备1);
PORT_LINK_UPDOWN(H1/4/0/1)-> INTVLAN_LINK_UPDOWN(int vlan 204)。
如图6所示,电子设备可以基于因果关系将故障告警信息和目标告警信息连接,生成两条因果关系链。
其中,一条因果关系链为:
PORT_LINK_UPDOWN(H1/4/0/1)-> INTVLAN_LINK_UPDOWN(int vlan 204)-> BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2);
另一条因果关系链为:
CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2)。
以上完成步骤104的介绍。
步骤105:电子设备基于所述至少一条因果关系链,确定该目标故障的根因告警。
在实现时,电子设备可计算各因果关系链的疑似概率,然后选择疑似概率符合预设条件的因果关系链,并基于选择出的因果关系链确定产生该目标故障的原因。
下面分别从“计算各因果关系链的疑似概率”和“选择疑似概率符合预设条件的因果关系链”进行介绍。
1)计算各因果关系链的疑似概率
在本申请中,本申请为各因果关系规则配置了可信度。
此外,由图6可知,生成的因果关系链包括多个节点,以及相邻两个节点的有向连边;其中,所述因果关系链的尾节点表示所述故障告警信息,其他节点表示目标告警信息,两个相邻节点之间的有向连边表示这两个节点所代表的告警信息的因果关系,因果关系被预配置了可信度。
针对每一因果关系链,电子设备可基于该因果关系链上有向连边对应的因果关系的可信度,确定该因果关系链的疑似概率。
例如,如图6所示:
对于因果关系链“PORT_LINK_UPDOWN(H1/4/0/1)-> INTVLAN_LINK_UPDOWN(intvlan 204)-> BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2)”(这里为了方便叙述称为第一条因果关系链)来说:
节点PORT_LINK_UPDOWN(H1/4/0/1)与节点INTVLAN_LINK_UPDOWN(int vlan 204)之间的有向连边对应因果关系规则4,假设因果关系规则4对应的可信度为90%;
节点INTVLAN_LINK_UPDOWN(int vlan 204)与节点BFD_CHANGE_FSM(设备1)之间的有向连边对应因果关系规则3,假设因果关系规则3对应的可信度为80%;
节点BFD_CHANGE_FSM(设备1)与节点BFD_CHANGE_FSM(设备2)之间的有向连边对应因果关系规则1,假设因果关系规则1对应的可信度为100%。
由此,电子设备可计算该第一条因果关系链的疑似概率为因果关系规则1对应可信度、因果关系规则3对应的可信度、以及因果关系规则4对应的可信度之间的乘积,即为100%*80%*90%=0.72。
对于因果关系链“CPU_High_SEVER(设备1板卡1)-> BFD_CHANGE_FSM(设备1)->BFD_CHANGE_FSM(设备2)”(这里为了方便叙述称为第二条因果关系链)来说:
节点CPU_High_SEVER(设备1板卡1)与节点与节点BFD_CHANGE_FSM(设备1)之间的有向连边对应因果关系规则2,假设因果关系规则2对应的可信度为60%;
节点BFD_CHANGE_FSM(设备1)与节点BFD_CHANGE_FSM(设备2)之间的有向连边对应因果关系规则1,假设因果关系规则1对应的可信度为100%。
由此,电子设备可计算该第二条因果关系链的疑似概率为因果关系规则1对应可信度、以及因果关系规则2对应的可信度之间的乘积,即为100%*60%=0.6。
2)选择疑似概率符合预设条件的因果关系链
其中,该预设条件可以是疑似概率最大的因果关系链,也可以是因果关系最大的前N个因果关系链,也可以是疑似概率大于预设阈值的因果关系链。这里只是对预设条件进行示例性地说明,不对其进行具体地限定。
因此在选择疑似概率符合预设条件的因果关系链时,电子设备可选择预设条件可以是疑似概率最大的因果关系链,也可以是因果关系最大的前N个因果关系链,也可以是疑似概率大于预设阈值的因果关系链,这里不进行具体地限定。
在本申请实施例中,在选择出疑似概率符合预设条件的因果关系链,电子设备可依据选择出的因果关系链,确定目标故障的根因告警。
仍以上述例子为例,假设选择出的因果关系链为第一条因果关系链,即PORT_LINK_UPDOWN(H1/4/0/1)-> INTVLAN_LINK_UPDOWN(int vlan 204)-> BFD_CHANGE_FSM(设备1)-> BFD_CHANGE_FSM(设备2),此时可确定造成目标故障的原因是设备1的物理接口H1/4/0/1故障。
由上述描述可知,由于本申请可基于与目标故障相关的告警信息生成故障图,并依据故障图,将该故障图中与目标故障相关的告警信息按照因果关系,串联成因果关系链,依据因果关系链确定出目标故障的根因告警,从而实现了故障根因的自动分析。
参见图7,图7是本申请一示例性实施例示出的一种电子设备的硬件结构图。
该电子设备包括:通信接口701、处理器702、机器可读存储介质703和总线704;其中,通信接口701、处理器702和机器可读存储介质703通过总线704完成相互间的通信。处理器702通过读取并执行机器可读存储介质703中与故障根因分析控制逻辑对应的机器可执行指令,可执行上文描述的故障根因分析方法。
本文中提到的机器可读存储介质703可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:易失存储器、非易失性存储器或者类似的存储介质。具体地,机器可读存储介质703可以是RAM(Radom Access Memory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。
参见图8,图8是本申请一示例性实施例示出的一种故障根因分析装置的框图,该装置可应用在电子设备上,可包括如下所示单元。
获取单元801,用于在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;所述告警信息由至少一个目标设备上的网元生成;
生成单元802,用于基于获取到的告警信息生成故障图;所述故障图维护了:每个目标设备上各网元的从属关系,每个目标设备上网元对应的告警信息、以及各目标设备之间的拓扑关系;
确定单元803,用于针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系;
分析单元804,用于将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警。
可选的,所述获取单元801,在获取与该目标故障相关的告警信息时,用于获取所述故障通知消息携带的该目标故障的生成时刻;在所有设备上报的告警信息中,选择在所述生成时刻前后的预设时间段内产生的告警信息,作为与该目标故障相关的告警信息。
可选的,所述生成单元802,在基于确定出的告警信息生成故障图时,用于获取各目标设备的网元树;其中,所述网元树依据目标设备上各网元的从属关系生成;所述网元树包括根节点和多级叶节点;根节点表示该目标设备,每级叶节点表示该目标设备上的网元,每级叶节点代表的网元从属于其相连的上一级叶节点代表的网元;在获取的网元树中,将与目标故障相关的告警信息与对应的节点进行关联,形成各目标设备的告警树;基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。
可选的,所述确定单元803,在从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系时,用于将所述故障告警信息作为指定告警信息;在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则;所述目标因果关系规则中的结果为该指定告警信息;针对每一目标因果关系规则,若确定所述故障图中存在该目标因果关系规则中的原因对应的告警信息,则将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,返回所述在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则的步骤;若确定所述故障图中不存在所述目标因果关系规则中原因对应的告警信息,则维持所述预设集合不变;在处理完所有目标因果关系规则后,将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因对应的告警信息作为所述目标告警信息。
可选的,所述分析单元804,在基于所述至少一条因果关系链,确定该目标故障的根因告警时,用于确定各因果关系链的疑似概率,选择疑似概率符合预设条件的因果关系链;基于选择出的因果关系链,确定出该目标故障的根因告警。
可选的,所述因果关系链包括多个节点,以及相邻两个节点的有向连边;
其中,所述因果关系链的尾节点表示所述故障告警信息,其他节点表示目标告警信息,两个相邻节点之间的有向连边表示这两个节点所代表的告警信息的因果关系,因果关系被预配置了可信度;
所述分析单元804,在确定各因果关系链的疑似概率时,用于针对每一因果关系链,基于该因果关系链上有向连边对应的因果关系的可信度,确定该因果关系链的疑似概率。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (10)
1.一种故障根因分析方法,其特征在于,所述方法包括:
在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;所述告警信息由至少一个目标设备上的网元生成;
基于获取到的告警信息生成故障图;所述故障图维护了:每个目标设备上各网元的从属关系,每个目标设备上网元对应的告警信息、以及各目标设备之间的拓扑关系;
针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系;
将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警;
所述从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系,包括:
将所述故障告警信息作为指定告警信息;
在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则;所述目标因果关系规则中的结果为该指定告警信息;
针对每一目标因果关系规则,若确定所述故障图中存在该目标因果关系规则中的原因对应的告警信息,则将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,返回所述在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则的步骤;若确定所述故障图中不存在所述目标因果关系规则中原因对应的告警信息,则维持所述预设集合不变;
在处理完所有目标因果关系规则后,将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因对应的告警信息作为所述目标告警信息。
2.根据权利要求1所述的方法,其特征在于,所述获取与该目标故障相关的告警信息,包括:
获取所述故障通知消息携带的该目标故障的生成时刻;
在所有设备上报的告警信息中,选择在所述生成时刻前后的预设时间段内产生的告警信息,作为与该目标故障相关的告警信息。
3.根据权利要求1所述的方法,其特征在于,所述基于确定出的告警信息生成故障图,包括:
获取各目标设备的网元树;其中,所述网元树依据目标设备上各网元的从属关系生成;所述网元树包括根节点和多级叶节点;根节点表示该目标设备,每级叶节点表示该目标设备上的网元,每级叶节点代表的网元从属于其相连的上一级叶节点代表的网元;
在获取的网元树中,将与目标故障相关的告警信息与对应的节点进行关联,形成各目标设备的告警树;
基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。
4.根据权利要求1所述的方法,其特征在于,所述基于所述至少一条因果关系链,确定该目标故障的根因告警,包括:
确定各因果关系链的疑似概率,选择疑似概率符合预设条件的因果关系链;
基于选择出的因果关系链,确定出该目标故障的根因告警。
5.根据权利要求4所述的方法,其特征在于,所述因果关系链包括多个节点,以及相邻两个节点的有向连边;
其中,所述因果关系链的尾节点表示所述故障告警信息,其他节点表示目标告警信息,两个相邻节点之间的有向连边表示这两个节点所代表的告警信息的因果关系,因果关系被预配置了可信度;
所述确定各因果关系链的疑似概率,包括:
针对每一因果关系链,基于该因果关系链上有向连边对应的因果关系的可信度,确定该因果关系链的疑似概率。
6.一种故障根因分析装置,其特征在于,所述装置包括:
获取单元,用于在接收到针对目标故障的故障通知消息时,获取与该目标故障相关的告警信息;所述告警信息由至少一个目标设备上的网元生成;
生成单元,用于基于获取到的告警信息生成故障图;所述故障图维护了:每个目标设备上各网元的从属关系,每个目标设备上网元对应的告警信息、以及各目标设备之间的拓扑关系;
确定单元,用于针对每个目标设备,在从所述故障图中确定出所述目标设备具有该目标故障所指示的故障告警信息时,从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系;
分析单元,用于将所述故障告警信息和各目标告警信息按照所述因果关系进行连接,生成以该故障告警信息作为链尾的至少一条因果关系链,并基于所述至少一条因果关系链,确定该目标故障的根因告警;
所述确定单元,在从所述故障图中确定与该故障告警信息具有因果关系的目标告警信息,以及故障告警信息和目标告警信息之间的因果关系时,用于将所述故障告警信息作为指定告警信息;在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则;所述目标因果关系规则中的结果为该指定告警信息;针对每一目标因果关系规则,若确定所述故障图中存在该目标因果关系规则中的原因对应的告警信息,则将该目标因果关系规则所指示的因果关系添加到预设集合中,并将该原因对应的告警信息作为指定告警信息,返回所述在预设的多条因果关系规则中,查找与该指定告警信息匹配的目标因果关系规则的步骤;若确定所述故障图中不存在所述目标因果关系规则中原因对应的告警信息,则维持所述预设集合不变;在处理完所有目标因果关系规则后,将所述预设集合中的因果关系作为故障告警信息与各目标告警信息之间的因果关系,将该预设集合中的因果关系中的原因对应的告警信息作为所述目标告警信息。
7.根据权利要求6所述的装置,其特征在于,所述获取单元,在获取与该目标故障相关的告警信息时,用于获取所述故障通知消息携带的该目标故障的生成时刻;在所有设备上报的告警信息中,选择在所述生成时刻前后的预设时间段内产生的告警信息,作为与该目标故障相关的告警信息。
8.根据权利要求6所述的装置,其特征在于,所述生成单元,在基于确定出的告警信息生成故障图时,用于获取各目标设备的网元树;其中,所述网元树依据目标设备上各网元的从属关系生成;所述网元树包括根节点和多级叶节点;根节点表示该目标设备,每级叶节点表示该目标设备上的网元,每级叶节点代表的网元从属于其相连的上一级叶节点代表的网元;在获取的网元树中,将与目标故障相关的告警信息与对应的节点进行关联,形成各目标设备的告警树;基于预设的各目标设备的拓扑关系,将各目标设备的告警树进行连接,形成故障图。
9.根据权利要求6所述的装置,其特征在于,所述分析单元,在基于所述至少一条因果关系链,确定该目标故障的根因告警时,用于确定各因果关系链的疑似概率,选择疑似概率符合预设条件的因果关系链;基于选择出的因果关系链,确定出该目标故障的根因告警。
10.根据权利要求9所述的装置,其特征在于,所述因果关系链包括多个节点,以及相邻两个节点的有向连边;
其中,所述因果关系链的尾节点表示所述故障告警信息,其他节点表示目标告警信息,两个相邻节点之间的有向连边表示这两个节点所代表的告警信息的因果关系,因果关系被预配置了可信度;
所述分析单元,在确定各因果关系链的疑似概率时,用于针对每一因果关系链,基于该因果关系链上有向连边对应的因果关系的可信度,确定该因果关系链的疑似概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591618.XA CN113259168B (zh) | 2021-05-28 | 2021-05-28 | 一种故障根因分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591618.XA CN113259168B (zh) | 2021-05-28 | 2021-05-28 | 一种故障根因分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113259168A CN113259168A (zh) | 2021-08-13 |
CN113259168B true CN113259168B (zh) | 2021-11-23 |
Family
ID=77185181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110591618.XA Active CN113259168B (zh) | 2021-05-28 | 2021-05-28 | 一种故障根因分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113259168B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886120B (zh) * | 2021-09-28 | 2024-02-27 | 济南浪潮数据技术有限公司 | 一种服务器故障诊断方法、装置、设备及可读存储介质 |
CN114629813A (zh) * | 2021-12-30 | 2022-06-14 | 亚信科技(中国)有限公司 | 意图报告上报方法、装置、电子设备、存储介质及产品 |
CN114520994A (zh) * | 2022-02-18 | 2022-05-20 | 华为技术有限公司 | 一种确定根因故障的方法及装置 |
CN114637649A (zh) * | 2022-03-01 | 2022-06-17 | 清华大学 | 一种基于oltp数据库系统的告警根因分析方法及装置 |
CN114760186A (zh) * | 2022-03-23 | 2022-07-15 | 深信服科技股份有限公司 | 告警分析方法、装置、电子设备及存储介质 |
CN114710396B (zh) * | 2022-04-08 | 2023-06-23 | 中国联合网络通信集团有限公司 | 一种网络告警的处理方法和服务器 |
CN115396289B (zh) * | 2022-08-31 | 2024-03-22 | 广东电网有限责任公司 | 一种故障告警确定方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8059548B1 (en) * | 2004-10-26 | 2011-11-15 | Sprint Communications Company L.P. | Automatic displaying of alarms in a communications network |
CN109684181A (zh) * | 2018-11-20 | 2019-04-26 | 华为技术有限公司 | 告警根因分析方法、装置、设备及存储介质 |
CN110276147A (zh) * | 2019-06-24 | 2019-09-24 | 广东工业大学 | 一种基于数字孪生模型的制造系统故障溯源方法、系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7062683B2 (en) * | 2003-04-22 | 2006-06-13 | Bmc Software, Inc. | Two-phase root cause analysis |
CN103746831B (zh) * | 2013-12-24 | 2017-08-18 | 华为技术有限公司 | 一种告警分析的方法、装置及系统 |
CN104796273B (zh) * | 2014-01-20 | 2018-11-16 | 中国移动通信集团山西有限公司 | 一种网络故障根源诊断的方法和装置 |
CN108306748B (zh) * | 2017-01-12 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 网络故障定位方法、装置及交互装置 |
CN112152830B (zh) * | 2019-06-28 | 2023-08-04 | 中国电力科学研究院有限公司 | 一种智能的故障根因分析方法及系统 |
CN112448836B (zh) * | 2019-09-04 | 2023-09-15 | 中兴通讯股份有限公司 | 故障根因确定方法、装置、服务器和计算机可读介质 |
CN112636967A (zh) * | 2020-12-18 | 2021-04-09 | 北京浪潮数据技术有限公司 | 一种根因分析方法、装置、设备及存储介质 |
CN112822052B (zh) * | 2021-01-08 | 2022-03-29 | 河海大学 | 一种基于网络拓扑和告警的网络故障根因定位方法 |
-
2021
- 2021-05-28 CN CN202110591618.XA patent/CN113259168B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8059548B1 (en) * | 2004-10-26 | 2011-11-15 | Sprint Communications Company L.P. | Automatic displaying of alarms in a communications network |
CN109684181A (zh) * | 2018-11-20 | 2019-04-26 | 华为技术有限公司 | 告警根因分析方法、装置、设备及存储介质 |
CN110276147A (zh) * | 2019-06-24 | 2019-09-24 | 广东工业大学 | 一种基于数字孪生模型的制造系统故障溯源方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113259168A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113259168B (zh) | 一种故障根因分析方法及装置 | |
JP2021087222A (ja) | 故障根本原因決定方法及び装置並びにコンピュータ記憶媒体 | |
CN112787841B (zh) | 故障根因定位方法及装置、计算机存储介质 | |
US10977152B2 (en) | Rule-based continuous diagnosing and alerting from application logs | |
US8245079B2 (en) | Correlation of network alarm messages based on alarm time | |
US8443078B2 (en) | Method of determining equivalent subsets of agents to gather information for a fabric | |
US20200021511A1 (en) | Performance analysis for transport networks using frequent log sequence discovery | |
CN113973042B (zh) | 用于网络问题的根本原因分析的方法和系统 | |
CN112769605B (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN112737800A (zh) | 服务节点故障定位方法、调用链生成方法及服务器 | |
WO2020016834A1 (en) | Systems and methods for reporting computer security incidents | |
CN114172785A (zh) | 告警信息处理方法、装置、设备和存储介质 | |
CN109997337B (zh) | 网络健康信息的可视化 | |
US20040158780A1 (en) | Method and system for presenting neighbors of a device in a network via a graphical user interface | |
CN117148815A (zh) | 无线控制器故障检测方法、装置和计算机设备 | |
Wang et al. | Learning, indexing, and diagnosing network faults | |
EP3756310B1 (en) | Method and first node for managing transmission of probe messages | |
CN112468400A (zh) | 一种故障定位方法、装置、设备和介质 | |
US9965340B2 (en) | Graph-enhanced event management | |
US11895183B2 (en) | Detecting anomalies in a distributed application | |
CN113992495B (zh) | 告警信息的处理方法、装置、计算机设备和存储介质 | |
RU2801825C2 (ru) | Способ, комплекс обработки информации об отказах устройств беспроводных сенсорных сетей передачи данных и связанных сетей | |
CN113992562B (zh) | 路由信息的更新方法、系统及路由分析器 | |
CN114513398B (zh) | 网络设备告警处理方法、装置、设备及存储介质 | |
CN109101187B (zh) | 一种进行数据重构的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |