CN115022153B - 故障根因分析方法、装置、设备和存储介质 - Google Patents

故障根因分析方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115022153B
CN115022153B CN202210637698.2A CN202210637698A CN115022153B CN 115022153 B CN115022153 B CN 115022153B CN 202210637698 A CN202210637698 A CN 202210637698A CN 115022153 B CN115022153 B CN 115022153B
Authority
CN
China
Prior art keywords
alarm
root cause
fault
events
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210637698.2A
Other languages
English (en)
Other versions
CN115022153A (zh
Inventor
满欣
许广洋
李家炎
陈凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210637698.2A priority Critical patent/CN115022153B/zh
Publication of CN115022153A publication Critical patent/CN115022153A/zh
Application granted granted Critical
Publication of CN115022153B publication Critical patent/CN115022153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种故障根因分析方法,涉及大数据领域。该方法包括:获取目标网络中实体对象出现的N个告警事件;将所述N个告警事件更新至第一知识图谱中对应的所述实体对象上;抽取所述N个告警事件中的M个告警事件,得到根因证据集;根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱;利用所述第二知识图谱进行故障根因分析,得到故障定位结果。本公开实施例可以减少故障根因分析过程中的数据量和复杂度,并减少可能对分析造成干扰的内容,便于迅速得到故障定位结果,提升网络运维效率。本公开还提供了一种故障根因分析装置、设备、存储介质和程序产品。

Description

故障根因分析方法、装置、设备和存储介质
技术领域
本公开涉及大数据领域,更具体地,涉及一种故障根因分析方法、装置、设备、介质和程序产品。
背景技术
通信网络需要庞大而复杂的基础网络设备来实现。在此基础上,往往还会配置接口、网络协议、路由表项等信息,来实现基础网络设备之间的互联互通。可见通信网络具有较大的规模和复杂程度,因此每出现一次网络故障都会出现大量的告警。
对于出现的大量告警,一般主要是针对单指标和网元进行监测告警,以及一些特殊的布尔逻辑进行同类事件压缩,然后技术人员基于自身经验分析同类事件,定位可能根因并依次解决问题。
发明人在实施本公开的发明构思过程中,发现相关技术中至少存在以下问题:由于基础网络设备、接口、网络协议和路由表项等信息数量较多,在出现大量网络告警事件的情况下,难以快速定位到故障根因,导致网络运维效率较低。
发明内容
鉴于上述问题,本公开提供了提高网络运维效率的故障根因分析方法、装置、设备、介质和程序产品。
本公开实施例的一个方面提供了一种故障根因分析方法,包括:获取目标网络中实体对象出现的N个告警事件,其中,所述实体对象包括设备、接口或协议中至少一种;将所述N个告警事件更新至第一知识图谱中对应的所述实体对象上,其中,所述第一知识图谱包括所述实体对象之间的连接关系;抽取所述N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N;根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱,其中,所述第二知识图谱包括所述M个告警事件,以及至少部分所述实体对象之间的连接关系;利用所述第二知识图谱进行故障根因分析,得到故障定位结果。
根据本公开的实施例,所述N个告警事件为特定时间窗口内出现的事件,所述抽取所述N个告警事件中的M个告警事件包括:利用时序关联算法抽取所述N个告警事件中的至少一个第一事件序列,其中,每个所述第一事件序列的出现次数大于或等于第一阈值,每个所述第一事件序列包括具有先后顺序的至少两个告警事件;从所述至少一个第一事件序列中确定所述M个告警事件。
根据本公开的实施例,包括:利用因果关系算法对所述至少一个第一事件序列进行处理,得到至少一个第二事件序列,其中,每个所述第二事件序列具有大于或等于第二阈值的权重系数;其中,所述从所述至少一个第一事件序列中确定所述M个告警事件包括:从所述至少一个第二事件序列中确定所述M个告警事件。
根据本公开的实施例,包括:利用故障分析规则确定所述至少一个第一事件序列或所述至少一个第二事件序列,其中,所述故障分析规则根据所述目标网络的历史故障根因而获得。
根据本公开的实施例,所述得到根因证据集包括:抽取所述第二事件序列中的每个告警事件对应的实体对象类型,构造所述根因证据集。
根据本公开的实施例,所述根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱包括:从所述第一知识图谱中获得至少一个所述告警类别对应的连接子图,其中,每个所述连接子图包括对应告警类别下的告警事件、该告警类别下的告警事件与实体对象的对应关系和实体对象之间的关联关系;基于根因证据集精简对应告警类别的连接子图,得到所述第二知识图谱。
根据本公开的实施例,所述基于根因证据集精简对应告警类别的连接子图包括:删除对应告警类别的连接子图中,所述根因证据集未包括的告警事件;和/或所述方法还包括删除所述第一知识图谱中不存在告警事件的实体对象。
根据本公开的实施例,所述利用所述第二知识图谱进行故障根因分析,得到故障定位结果包括:从所述第二知识图谱中确定至少一条根因路径,其中,所述至少一条根因路径中每条根因路径用于表征一条所述实体对象之间的故障传播关系;根据所述权重系数,对所述至少一条根因路径进行排序,得到排序结果;根据所述排序结果得到所述故障定位结果。
本公开实施例的另一方面提供了一种故障根因分析装置,包括:事件获取模块,用于获取目标网络中实体对象出现的N个告警事件,其中,所述实体对象包括设备、接口或协议中至少一种;事件更新模块,用于将所述N个告警事件更新至第一知识图谱中对应的所述实体对象上,其中,所述第一知识图谱包括所述实体对象之间的连接关系;事件抽取模块,用于抽取所述N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N;图谱精简模块,用于根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱,其中,所述第二知识图谱包括所述M个告警事件,以及至少部分所述实体对象之间的连接关系;故障定位模块,用于利用所述第二知识图谱进行故障根因分析,得到故障定位结果。
本公开实施例的另一方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行如上所述的方法。
本公开实施例的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
本公开实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
上述一个或多个实施例具有如下有益效果:在出现N个告警事件时,将其更新至第一知识图谱中对应的实体对象上,其中,第一知识图谱用于可视化的展示目标网络中的实体对象之间的关系,及告警事件与实体对象的对应关系。并且,可从N个告警事件中抽取出M个告警事件得到根因证据集,并对更新后的第一知识图谱进行精简。能够利用第二知识图谱进行故障根因分析。从而减少了故障根因分析过程中的数据量和复杂度,减少可能对分析造成干扰的内容,便于迅速得到故障定位结果,提升网络运维效率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的故障根因分析方法的应用场景图;
图2示意性示出了根据本公开实施例的故障根因分析方法的流程图;
图3示意性示出了根据本公开实施例的确定M个告警事件的流程图;
图4示意性示出了根据本公开的另一实施例的确定M个告警事件的流程图;
图5示意性示出了根据本公开实施例的部分告警类别的示意图;
图6示意性示出了根据本公开实施例的更新后的第一知识图谱的示意图;
图7示意性示出了根据本公开实施例的第二知识图谱的示意图;
图8示意性示出了根据本公开实施例的得到第二知识图谱的流程图;
图9示意性示出了根据本公开实施例的精简连接子图的流程图;
图10示意性示出了根据本公开实施例的得到故障定位结果的流程图;
图11示意性示出了根据本公开实施例的故障根因分析装置的结构框图。
图12示意性示出了根据本公开实施例的适于实现故障根因分析方法的电子设备的方框图。
具体实施方式
为了便于理解本公开实施例的技术方案,首先对本公开涉及的一些技术术语进行介绍。
目标网络:利用本公开的故障根因分析方法监控的通信网络。
实体对象:目标网络中实体对象的类型可以包括网络设备、接口和协议等。
告警事件:在目标网络出现故障时,通过日志可以查询到具体实体对象的告警信息。可以将每条告警信息记为一个告警事件。
告警类别:可以包括设备、链路、协议和Overlay等若干类别。
时序关联算法:用于获取满足一定支持度要求的频繁序列集合。例如PrefixSpan算法,该算法的输入为序列数据集和支持度阈值,输出为所有满足支持度要求的频繁序列集。
因果关系算法:由于一个实体对象可能服务于或从属于另一个实体对象,在数据传输过程中存在一定的规律。因果关系算法用于计算出一个告警事件与另一个告警事件之间的引起与被引起的关系,可以通过权重系数来表明因果关系的强弱。
连接子图:通过部分实体对象出现的告警事件的告警类别,得到的知识图谱中的部分内容。
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
以数据中心的通信网络为例。随着技术的发展,数据中心承担量级逐渐增大的数据处理任务。数据中心的通信网络中基础网络设备、接口、协议和路由表项等实体对象的数量愈加庞大,且实体对象之间还存在复杂的连接关系。在将实体对象及其之间的连接关系通过知识图谱的形式进行展示的基础上直接进行故障分析,难以快速定位出故障根因。因为包含通信网络中全量数据的知识图谱所表征的信息依然非常复杂,在进行故障分析时可能会处理与该次故障无关的图数据,数据量大且容易被干扰,导致分析速度慢,故障定位结果不准确。
本公开的实施例提供了一种故障根因分析方法、装置、设备、介质和程序产品。该方法包括:获取目标网络中实体对象出现的N个告警事件,其中,实体对象包括设备、接口或协议中至少一种。将N个告警事件更新至第一知识图谱中对应的实体对象上,其中,第一知识图谱包括实体对象之间的连接关系。抽取N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N。根据根因证据集对更新后的第一知识图谱进行精简,得到第二知识图谱,其中,第二知识图谱包括M个告警事件,以及至少部分实体对象之间的连接关系。利用第二知识图谱进行故障根因分析,得到故障定位结果。
根据本公开的实施例,在出现N个告警事件时,将其更新至第一知识图谱中对应的实体对象上,其中,第一知识图谱用于可视化的展示目标网络中的实体对象之间的关系。并且,可基于告警类别从N个告警事件中抽取出M个告警事件得到根因证据集,并对更新后的第一知识图谱进行精简。能够利用第二知识图谱进行故障根因分析。从而减少了故障根因分析过程中的数据量和复杂度,减少可能对分析造成干扰的内容,便于迅速得到故障定位结果,提升网络运维效率。
图1示意性示出了根据本公开实施例的故障根因分析方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括分析设备110和通信网络中的网络设备,其中,网络设备包括路由设备121、网关122和集线器123。网络设备是组成通信网络的一部分。需要说明的是,网络设备并不仅限于图1中所示的设备种类,其仅为示例。通信网络可以包括是数据中心网络(data center network,DCN)、城域网络、广域网络、园区网络、虚拟局域网(virtual local area network,VLAN)或虚拟扩展局域网(virtualextensible local area network,VXLAN)等,本公开实施例对通信网络的类型不做限定。
分析设备110可以采集网络设备清单、设备配置信息及设备的物理连线关系等数据信息。其中物理连接关系可以根据协议信息确定,如链路层发现协议(Link LayerDiscovery Protocol,LLDP),其提供了一种标准的链路层发现方式,可以将本端设备的信息发送给直接相邻的邻居。又如Cisco发现协议(Cisco Discovery Protocol,CDP),其是Cisco专有的用来发现临接点的协议,只显示直接相连的设备信息。
分析设备110可以根据上述数据信息,解析实体对象及相应的连接关系。例如根据配置信息,可以抽取出设备-设备接口-Ospf network-Ospf Area-Ospf五类实体及相应的关系(仅为示例)。其中,Ospf(Open shortest path firs)为开放式最短路径优先协议。Ospf network用于发布对应路由,使能对应接口Ospf功能配置区域所包含的网段,并在指定网段的接口上使用Ospf。Ospf Area目的在于控制链路状态信息lsa泛洪的范围,如包括骨干区域、标准区域、末梢区域等。
分析设备110还可以采集通信网络中的告警日志信息,从中得到告警事件。在一些实施例中,分析设备110利用采集到的数据信息构建知识图谱结构的拓扑图,即第一知识图谱。并可将告警事件挂接到第一知识图谱中的实体对象上。
分析设备110可以是提供各种服务的服务器,或服务器集群,例如对用户利用终端设备所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
应该理解,图1中的分析设备和网络设备的数量和种类仅仅是示意性的。根据实现需要,可以具有任意数目和种类的分析设备和网络设备。
以下将基于图1描述的场景,通过图2~图10对本公开实施例的故障根因分析方法进行详细描述。该故障根因分析方法可以利用分析设备110执行。
图2示意性示出了根据本公开实施例的故障根因分析方法的流程图。
如图2所示,该实施例的故障根因分析方法包括操作S210~操作S250。
在操作S210,获取目标网络中实体对象出现的N个告警事件,其中,实体对象包括设备、接口或协议中至少一种。
在操作S220,将N个告警事件更新至第一知识图谱中对应的实体对象上,其中,第一知识图谱包括实体对象之间的连接关系。
示例性地,实体对象作为第一知识图谱中的各个节点。各个节点之间相互连接。在此基础上,每个节点还挂接有对应的配置信息,如设备型号、链路类别、接口功能、协议名称、网络层级和从属关系等,还可以挂接有监控指标信息,如负载率和吞吐量等。
示例性地,以可视化的形式将N个告警事件挂接到第一知识图谱上,具体地,将实体对象、故障传播关系与告警事件建立关联,构成一张用于故障根因分析的图谱。
在一些实施例中,可以实时采集目标网络的故障以及告警事件。当人员实施操作导致故障发生或目标网络本身故障发生而发出告警时,可以动态更新至第一知识图谱。在实体对象之间发生关系变更时,也可以动态更新至第一知识图谱。换言之,第一知识图谱的动态更新根据实时采集的设备配置信息、动态实体对象关系及实时推送的告警实现。例如可以在实时推送的告警基础上,剔除非重要及无效告警后得到N个告警事件,并挂接在对应实体对象上。
在操作S230,抽取N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N。即根因证据集可以包括至少两个告警事件。
根据本公开的实施例,在操作S230之前可以初步获得告警类别,在一些实施例中,例如针对原始的告警数据,取同一型号的设备告警,结合具体的告警信息和监控项等信息分类,可以确定每一型号的设备对应的接口、协议等信息,对接口、协议相关的告警事件进行分类。例如,可以通过告警标识符获得告警类别。在另一些实施例中,为了提高告警类别的准确性,可以对通过告警标识符获得的告警类别进行确认或修正,以免通过告警标识符获得的告警类别与该告警的实际根因类别不一致。不同型号的设备可能出现的故障不同,随之发出的告警也不同。因此,通过每一型号的设备设置对应的根因类别,可以提高抽取结果的可靠性。
在操作S240,根据根因证据集对更新后的第一知识图谱进行精简,得到第二知识图谱,其中,第二知识图谱包括M个告警事件,以及至少部分实体对象之间的连接关系。
在操作S250,利用第二知识图谱进行故障根因分析,得到故障定位结果。
根据本公开的实施例,通过在线采集目标网络的数据,基于构建的第一知识图谱,叠加实时告警、日志或KPI等事件信息,进行故障聚合和根因推理分析。当告警事件发生时,动态更新第一知识图谱并触发故障定位,实现了自动化挖掘故障根因,提升了网络运维的敏捷度。
根据本公开的实施例,在出现N个告警事件时,将其更新至第一知识图谱中对应的实体对象上,其中,第一知识图谱用于可视化的展示目标网络中的实体对象之间的关系,及告警事件与实体对象的对应关系。并且,可从N个告警事件中抽取出M个告警事件得到根因证据集,并对更新后的第一知识图谱进行精简。能够利用第二知识图谱进行故障根因分析。从而减少了故障根因分析过程中的数据量和复杂度,减少可能对分析造成干扰的内容,便于迅速得到故障定位结果,提升网络运维效率。
图3示意性示出了根据本公开实施例的确定M个告警事件的流程图。
如图3所示,操作S230中抽取N个告警事件中的M个告警事件包括操作S310~操作S320。
在操作S310,利用时序关联算法抽取N个告警事件中的至少一个第一事件序列,其中,每个第一事件序列的出现次数大于或等于第一阈值,每个第一事件序列包括具有先后顺序的至少两个告警事件。
示例性地,N个告警事件为特定时间窗口内出现的事件。特定时间窗口可以是1min、5min或10min等时间段(仅为示例)。可以设置告警时间切片粒度,实时获取时间切片(即时间窗口)内的告警数据。其作用在于,实体对象中任一对象出现故障会引发多个对象的告警,认为时间切片内出现的告警事件可能具有关联性。告警事件可以包括实体对象信息以及具体的告警信息。
示例性地,第一事件序列可认为是频繁事件序列,即在特定时间窗口内多个告警事件多次共同出现。具体地,若出现次数大于或等于第一阈值即可确定一个事件序列。第一阈值可以是预设的确定值,如10次(仅为示例)。也可以是动态值,如对各个事件序列的出现次数排序,取排在前列的事件序列。如取前10个事件序列,那么第10个事件序列的出现次数即为第一阈值。
在一些实施例中,还可以根据设备、接口和协议之间的关系对多个告警事件之间的时间关联度进行计算,并赋予不同的支持度。可以将支持度大于一定阈值的序列作为最终的第一事件序列。支持度为第一事件序列的权重系数。
根据本公开的实施例,还可以利用故障分析规则确定至少一个第一事件序列,其中,故障分析规则根据目标网络的历史故障根因而获得。具体地,通过历史故障中分析的根因,可以得到每次故障中各个告警事件出现的先后关系,以此作为故障分析规则。换言之,故障分析规则可以是已经经过验证的事件序列。
利用故障分析规则可以抽取出时序关联算法没有得到的第一事件序列。若故障分析规则与时序关联算法得到的第一事件序列相同,可以增加该序列的支持度,提高故障根因分析的准确性。
在一些实施例中,故障分析规则可以灵活配置,可以根据技术人员的经验设置,也可以结合通用知识、本地或互联网持续累积的知识库进行设置。比如设置实体对象或告警信息的告警级别,若不符合告警级别则放弃分析,若符合,则保留。在符合告警级别但不具有与之时序关联的其他告警事件的情况下,可以将该告警事件单独处理。
在操作S320,从至少一个第一事件序列中确定M个告警事件。
根据本公开的实施例,利用时序关联算法对N个告警事件进行时间关联的梳理,能够得到告警事件之间的有效时序联系。另外,针对没有与之时序相关的告警事件可以根据告警级别等因素进行单独处理或舍弃,相当于对N个告警事件进行了一次筛选。
图4示意性示出了根据本公开的另一实施例的确定M个告警事件的流程图。
如图4所示,该实施例的确定M个告警事件包括操作S410~操作S420。
在操作S410,利用因果关系算法对至少一个第一事件序列进行处理,得到至少一个第二事件序列,其中,每个第二事件序列中告警事件之间具有因果关系,每个第二事件序列具有大于或等于第二阈值的权重系数。
示例性地,可以使用现在已有的或未来开发的因果关系算法。例如可以采用因果发现算法工具包:CausalDiscoveryToolbox,其中包含的算法有PC、GES、CCDr等。
PC算法根据开发者Peter Spirts和Clark Glimour命名,其是因果发现中最著名的基于分数的方法,该算法对变量和变量集进行条件测试,以获得可能的因果边。
GES(Greedy Equivalence Search algorithm,贪婪干涉等价搜索算法),是一种基于分数的贝叶斯算法,通过在数据上计算似然分数最小化来启发式地搜索图,以获得因果边。
CCD(Concave penalized Coordinate Descent with reparametrization,参数化的凹点惩罚坐标下降法),是一种基于分数的用来学习贝叶斯网络的快速结构学习算法,该方法使用稀疏正则化和块循环坐标下降。
示例性地,采用多种因果发现算法训练告警数据,基于各个算法输出的因果边再结合人工审查筛选确定最终的因果边(包含因果节点),因果边确定,相应的因果节点也确定。
示例性地,因果边的权重采用条件概率计算,即:基于告警样本数据和因果发现算法给出的因果边(包括两个因果节点),【因节点发生告警的条件下果节点发生告警的次数】与【因节点总共发生的告警次数】的比值作为该因果边的权重。
示例性地,对每个第一事件序列进行因果关系计算,可以得到对应的权重系数。若权重系数过低,则认为没有一定程度的因果关系,将该第一事件序列放弃。然后,将满足一定权重系数(如大于或等于第二阈值)的第一事件序列作为第二事件序列。权重系数即为第二事件序列的权重系数。参照第一阈值的确定方法,第二阈值可以是确定值也可以是根据排序确定的动态值。
根据本公开的实施例,还可以利用故障分析规则确定第二事件序列。例如根据目标网络的历史故障根因而获得的事件序列作为故障分析规则,若因果关系算法确定出了相同序列,则提高权重系数。若因果关系算法淘汰了某个序列,但是历史上出现了该序列,则将其确定为第二事件序列,并赋予一定的权重系数。同样提高了故障根因分析的准确性。
在操作S420,从至少一个第二事件序列中确定M个告警事件。
根据本公开的实施例,利用因果关系算法对第一事件序列进行梳理,保留下的序列中告警事件之间具有一定的因果关系。从而避免了第一事件序列中的告警事件仅存在时间先后顺序,实际上没有因果关系的情况,能够减小故障根因分析的复杂度。因此,若第一事件序列中的全部或部分告警事件没有一定程度上因果关系,则进行舍弃,相当于对N个告警事件进行了又一次筛选。
图5示意性示出了根据本公开实施例的部分告警类别的示意图。图6示意性示出了根据本公开实施例的更新后的第一知识图谱的示意图。图7示意性示出了根据本公开实施例的第二知识图谱的示意图。
如图5所示,可以包括设备类告警、链路类告警、协议类告警和Overlay类告警。其中,Device(设备)、Board(板卡)、FAN和POWER等对应设备类告警。Physical-interface(物理接口)、Loopback-interface(环回口)、VLAN和STP等对应链路类告警。Ospf(Ospf进程)、Ospf-area、Ospf-Network、Dfs-group等对应协议类告警,VRF(虚拟路由转发)、VRF-IPV4-family、VRF-IPV6-family和VXLAN等对应Overlay类告警。
分类过程以告警中的部分字段作为特征,判断出告警所属的类别及对应的具体实体。例如:由日志信息:XXX,DCI-spine-01%%01OSPF/4/XXX”,可判断该告警是协议类OSPF的告警,其实体为DCI-spine-01。
根据本公开的实施例,操作S230中得到根因证据集包括抽取所述第二事件序列中的每个告警事件对应的实体对象类型,构造所述根因证据集。
示例性地,根因证据集可以包括因果关系算法所输出的至少一个第二事件序列中的所有告警事件(即M个告警事件)、告警事件之间的因果关系和告警事件与实体对象之间的关系等。不过根因证据集并未包括至少一个第二事件序列中的全部信息,而是在至少一个第二事件序列的基础上抽象处理,例如某个第二事件序列中包括“接口Eth-trunk47变为down状态”,根因证据集中该告警事件表征为“接口Eth-trunk变为down状态”。
在一些实施例中,不同告警事件的日志格式或表征形式可能并不相同,在确定根因证据集包括哪些要素(如类别、实体对象和告警事件等)的基础上,可以转换为统一的格式,便于后续的根因分析。
示例性地,在得到根因证据集后,可以告警类别为单位对N个告警事件进行告警收敛获得告警收敛结果,然后执行得到第二知识图谱的操作。以下将结合图8进一步介绍。
图8示意性示出了根据本公开实施例的得到第二知识图谱的流程图。
如图8所示,操作S240中根据根因证据集对更新后的第一知识图谱进行精简,得到第二知识图谱包括操作S810~操作S820。
在操作S810,从第一知识图谱中获得至少一个告警类别对应的连接子图,其中,每个所述连接子图包括对应告警类别下的告警事件、实体对象,以及该告警类别下的告警事件与实体对象的对应关系和实体对象之间的关联关系。
如图6所示,第一知识图谱中的实体对象可以包括设备1~3以及接口1~4,第一知识图谱还包括实体对象之间的关联关系。其中,实线表示从属关系,实线的箭头表示从属方向。虚线表示连接关系,虚线的箭头表示数据传输方向,例如接口1从属设备1,接口2从属设备2。
更新后的第一知识图谱中包括实体对象与告警事件之间的关系,即部分实体对象挂接了出现的告警事件。具体地,接口1可能出现了3个告警事件,如接口Eth-trunk47变为down状态、接口Eth-trunk47的mstp状态变为discarding状态、接口Eth-trunk47变成阻塞状态。除接口1的3个告警事件外,接口2还出现了TrunkStatus改变的告警事件。设备1可能出现了2个告警事件,如链路聚合协商失败和TrunkStatus改变。除设备1的2个告警事件外,设备2还出现了设备M-log成员接口状态变为down状态的告警事件。
参照图6,对于设备类的告警类别,其连接子图包括设备1及从属于设备1的接口1、设备2及从属于设备2的接口2、设备与接口之间的连接关系和接口之间的连接关系,连接子图还包括每个设备的告警事件、每个接口的告警事件、每个接口与告警事件之间的连接关系以及每个设备与告警事件之间的连接关系。
在操作S820,基于根因证据集精简对应告警类别的连接子图,得到第二知识图谱。
示例性地,更新后的连接子图包括对应告警类别下的各节点之间的最终连接关系,即告警因果图(最终经过精简后的有告警消息发出的各节点的因果图)。第二知识图谱包括所有精简后的连接子图。
根据本公开的实施例,第一知识图谱是根据目标网络中的全量数据得到的,其可能包含了多余的信息。若直接基于第一知识图谱进行故障分析,计算的数据量和复杂度较高。基于根因证据集精简连接子图可以减少故障分析过程中的计算数据量和复杂度。
需要说明的是,图6所示的第一知识图谱仅是示例,其还可以包括设备配置信息、kpi等相关网络数据。第一知识图谱中两个实体对象之间的关系还可为依赖关系或对等关系等关系。
图9示意性示出了根据本公开实施例的精简连接子图的流程图。
如图9所示,操作S820中基于根因证据集精简对应告警类别下的连接子图包括操作S910和操作S920中的至少一个。
在操作S910,删除对应告警类别的连接子图中,根因证据集未包括的告警事件。
如图7所示,例如链路类的根因证据集中包括接口1以及接口Eth-trunk47变为down状态,接口2以及接口Eth-trunk47变为down状态,则可以把其余的告警事件删除。
在操作S920,删除第一知识图谱中不存在告警事件的实体对象。
示例性地,不存在告警事件可以是第一知识图谱中的实体对象节点没有挂接告警事件。
一种情况下,某些实体对象没有发出告警,则可以删除。另一种情况下,某些实体对象发出了告警,但是没有包括在根因证据集内,导致在第一知识图谱中删除告警事件后,该些实体对象不存在告警,也可以删除。
如图7所示,接口3、接口4和设备3不存在告警事件,则可以从第一知识图谱中删除。
根据本公开的实施例,第二知识图谱相对于第一知识图谱包含了更少的信息,能够减少故障根因分析的数据量和复杂度。
图10示意性示出了根据本公开实施例的得到故障定位结果的流程图。
如图10所示,操作S250中利用第二知识图谱进行故障根因分析,得到故障定位结果包括操作S1010~操作S1030。
在操作S1010,从第二知识图谱中确定至少一条根因路径,其中,至少一条根因路径中每条根因路径用于表征一条实体对象之间的故障传播关系。
示例性地,可以利用图领域检索算法(如基于图的AP聚类优化算法等)根据第二知识图谱中的连接关系获得根因路径。
示例性地,一条根因路径包括该路径上的实体对象,以及每个实体对象挂接的告警事件。从可视化的角度而言,可以高亮或以不同的颜色显示,例如高亮显示接口1、设备1、两者之间的连接线以及告警事件。因此,其故障传播关系为:接口1出现的接口Eth-trunk47变为down状态,导致设备1出现链路聚合协商失败和TrunkStatus改变。
在操作S1020,根据权重系数,对至少一条根因路径进行排序,得到排序结果。
根据本公开的实施例,由于知识图谱包含了丰富的图数据信息,因此根据图数据信息获得根因路径可以挖掘出潜在的问题。
示例性地,操作S1010中可以是遍历第二知识图谱中可能存在的路径。某些根因路径可能包括与第二事件序列相同的告警事件,因此,可以借助第二事件序列的权重系数来确定概率较大的根因路径。若某些根因路径与第二事件序列不同,可以利用因果关系算法计算权重系数。
需要说明的是,在一些实施例中,也可以直接根据第二事件序列的权重系数确定根因路径。技术人员可以更加直观的观察到故障传播关系。
在操作S1030,根据排序结果得到故障定位结果。
示例性地,可以将排序为前3(仅为示例)的根因路径作为故障定位结果进行展示。
示例性地,还可以利用故障分析规则辅助确定根因路径。若出现历史上出现过的故障,则可以快速定位。
根据本公开的实施例,利用第二知识图谱可以快速定位到故障根因,提高网络运维效率。
基于上述故障根因分析方法,本公开还提供了一种故障根因分析装置。以下将结合图11对该装置进行详细描述。
图11示意性示出了根据本公开实施例的故障根因分析装置的结构框图。
如图11所示,该实施例的故障根因分析装置1100包括事件获取模块1110、事件更新模块1120、事件抽取模块1130、图谱精简模块1140和故障定位模块1150。
事件获取模块1110可以执行操作S210,用于获取目标网络中实体对象出现的N个告警事件,其中,实体对象包括设备、接口或协议中至少一种。
事件更新模块1120可以执行操作S220,用于将N个告警事件更新至第一知识图谱中对应的实体对象上,其中,第一知识图谱包括实体对象之间的连接关系。
事件抽取模块1130可以执行操作S230,用于抽取N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N。
根据本公开的实施例,事件抽取模块1130还可以执行操作S310~操作S320,操作S410~操作S420在此不做赘述。
根据本公开的实施例,事件抽取模块1130得到根因证据集包括:抽取所述第二事件序列中的每个告警事件对应的实体对象类型,构造所述根因证据集。
图谱精简模块1140可以执行操作S240,用于根据根因证据集对更新后的第一知识图谱进行精简,得到第二知识图谱,其中,第二知识图谱包括M个告警事件,以及至少部分实体对象之间的连接关系。
根据本公开的实施例,图谱精简模块1140还可以执行操作S810~操作S820,操作S910~操作S920,在此不做赘述。
故障定位模块1150可以执行操作S250,用于利用第二知识图谱进行故障根因分析,得到故障定位结果。
根据本公开的实施例,故障定位模块1150还可以执行操作S1010~操作S1030,在此不做赘述。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例,事件获取模块1110、事件更新模块1120、事件抽取模块1130、图谱精简模块1140和故障定位模块1150中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,事件获取模块1110、事件更新模块1120、事件抽取模块1130、图谱精简模块1140和故障定位模块1150中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,事件获取模块1110、事件更新模块1120、事件抽取模块1130、图谱精简模块1140和故障定位模块1150中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图12示意性示出了根据本公开实施例的适于实现故障根因分析方法的电子设备的方框图。
如图12所示,根据本公开实施例的电子设备1200包括处理器1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1203中,存储有电子设备1200操作所需的各种程序和数据。处理器1201、ROM 1202以及RAM 1203通过总线1204彼此相连。处理器1201通过执行ROM 1202和/或RAM1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1200还可以包括输入/输出(I/O)接口1205,输入/输出(I/O)接口1205也连接至总线1204。电子设备1200还可以包括连接至I/O接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206。包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207。包括硬盘等的存储部分1208。以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM 1203以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的方法。
在该计算机程序被处理器1201执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1209被下载和安装,和/或从可拆卸介质1211被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种故障根因分析方法,包括:
获取目标网络中实体对象出现的N个告警事件,其中,所述实体对象包括设备、接口或协议中至少一种;
将所述N个告警事件更新至第一知识图谱中对应的所述实体对象上,其中,所述第一知识图谱包括所述实体对象之间的连接关系;
抽取所述N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N;
根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱,其中,所述第二知识图谱包括所述M个告警事件,以及至少部分所述实体对象之间的连接关系;
利用所述第二知识图谱进行故障根因分析,得到故障定位结果;
其中,所述N个告警事件为特定时间窗口内出现的事件,所述抽取所述N个告警事件中的M个告警事件包括:
利用时序关联算法抽取所述N个告警事件中的至少一个第一事件序列,其中,每个所述第一事件序列的出现次数大于或等于第一阈值,每个所述第一事件序列包括具有先后顺序的至少两个告警事件;
利用因果关系算法对所述至少一个第一事件序列进行处理,得到至少一个第二事件序列,其中,每个所述第二事件序列具有大于或等于第二阈值的权重系数;
从所述至少一个第二事件序列中确定所述M个告警事件。
2.根据权利要求1所述的方法,其中,包括:
利用故障分析规则确定所述至少一个第一事件序列或所述至少一个第二事件序列,其中,所述故障分析规则根据所述目标网络的历史故障根因而获得。
3.根据权利要求1所述的方法,其中,所述得到根因证据集包括:
抽取所述第二事件序列中的每个告警事件对应的实体对象类型,构造所述根因证据集。
4.根据权利要求3所述的方法,其中,所述根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱包括:
从所述第一知识图谱中获得至少一个连接子图,其中,每个所述连接子图包括对应告警类别下的告警事件、该告警类别下的告警事件与实体对象的对应关系和实体对象之间的关联关系;
基于根因证据集精简对应告警类别的连接子图,得到所述第二知识图谱。
5.根据权利要求4所述的方法,其中,所述基于根因证据集精简对应告警类别的连接子图包括:
删除对应告警类别的连接子图中,所述根因证据集未包括的告警事件;和/或
其中,所述方法还包括:
删除所述第一知识图谱中不存在告警事件的实体对象。
6.根据权利要求5所述的方法,其中,所述利用所述第二知识图谱进行故障根因分析,得到故障定位结果包括:
从所述第二知识图谱中确定至少一条根因路径,其中,所述至少一条根因路径中每条根因路径用于表征一条所述实体对象之间的故障传播关系;
根据所述权重系数,对所述至少一条根因路径进行排序,得到排序结果;
根据所述排序结果得到所述故障定位结果。
7.一种故障根因分析装置,包括:
事件获取模块,用于获取目标网络中实体对象出现的N个告警事件,其中,所述实体对象包括设备、接口或协议中至少一种;
事件更新模块,用于将所述N个告警事件更新至第一知识图谱中对应的所述实体对象上,其中,所述第一知识图谱包括所述实体对象之间的连接关系;
事件抽取模块,用于抽取所述N个告警事件中的M个告警事件,得到根因证据集,其中,N和M分别为大于或等于2的整数,M小于或等于N;
图谱精简模块,用于根据所述根因证据集对更新后的所述第一知识图谱进行精简,得到第二知识图谱,其中,所述第二知识图谱包括所述M个告警事件,以及至少部分所述实体对象之间的连接关系;
故障定位模块,用于利用所述第二知识图谱进行故障根因分析,得到故障定位结果;
其中,所述N个告警事件为特定时间窗口内出现的事件,所述抽取所述N个告警事件中的M个告警事件包括:
利用时序关联算法抽取所述N个告警事件中的至少一个第一事件序列,其中,每个所述第一事件序列的出现次数大于或等于第一阈值,每个所述第一事件序列包括具有先后顺序的至少两个告警事件;
利用因果关系算法对所述至少一个第一事件序列进行处理,得到至少一个第二事件序列,其中,每个所述第二事件序列具有大于或等于第二阈值的权重系数;
从所述至少一个第二事件序列中确定所述M个告警事件。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。
CN202210637698.2A 2022-06-07 2022-06-07 故障根因分析方法、装置、设备和存储介质 Active CN115022153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210637698.2A CN115022153B (zh) 2022-06-07 2022-06-07 故障根因分析方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210637698.2A CN115022153B (zh) 2022-06-07 2022-06-07 故障根因分析方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115022153A CN115022153A (zh) 2022-09-06
CN115022153B true CN115022153B (zh) 2024-04-23

Family

ID=83073180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210637698.2A Active CN115022153B (zh) 2022-06-07 2022-06-07 故障根因分析方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115022153B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115720186A (zh) * 2022-10-26 2023-02-28 中盈优创资讯科技有限公司 一种基于设备拓扑和因果关系的异常根因定位方法及装置
CN116055292A (zh) * 2022-12-30 2023-05-02 中国联合网络通信集团有限公司 基于知识图谱的信息处理方法、装置和设备
CN116760690B (zh) * 2023-08-18 2023-11-03 中移(苏州)软件技术有限公司 故障根因分析方法、装置、服务器及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN111858123A (zh) * 2020-07-29 2020-10-30 中国工商银行股份有限公司 基于有向图网络的故障根因分析方法和装置
CN112446341A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 告警事件识别方法、系统、电子设备及存储介质
CN112632148A (zh) * 2020-12-10 2021-04-09 国家电网有限公司 一种考虑极端气候条件下配电网元器件智能预警方法
CN112887119A (zh) * 2019-11-30 2021-06-01 华为技术有限公司 故障根因确定方法及装置、计算机存储介质
CN112988446A (zh) * 2021-05-19 2021-06-18 新华三技术有限公司 一种故障根因检测方法及装置
CN113268370A (zh) * 2021-05-11 2021-08-17 西安交通大学 一种根因告警分析方法、系统、设备及存储介质
CN114138759A (zh) * 2021-11-08 2022-03-04 国家电网公司华中分部 基于知识图谱推理的二次设备故障处理推送方法及系统
CN114492576A (zh) * 2021-12-22 2022-05-13 天翼云科技有限公司 一种异常用户检测方法、系统、存储介质及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN112887119A (zh) * 2019-11-30 2021-06-01 华为技术有限公司 故障根因确定方法及装置、计算机存储介质
CN111858123A (zh) * 2020-07-29 2020-10-30 中国工商银行股份有限公司 基于有向图网络的故障根因分析方法和装置
CN112446341A (zh) * 2020-12-07 2021-03-05 北京明略软件系统有限公司 告警事件识别方法、系统、电子设备及存储介质
CN112632148A (zh) * 2020-12-10 2021-04-09 国家电网有限公司 一种考虑极端气候条件下配电网元器件智能预警方法
CN113268370A (zh) * 2021-05-11 2021-08-17 西安交通大学 一种根因告警分析方法、系统、设备及存储介质
CN112988446A (zh) * 2021-05-19 2021-06-18 新华三技术有限公司 一种故障根因检测方法及装置
CN114138759A (zh) * 2021-11-08 2022-03-04 国家电网公司华中分部 基于知识图谱推理的二次设备故障处理推送方法及系统
CN114492576A (zh) * 2021-12-22 2022-05-13 天翼云科技有限公司 一种异常用户检测方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN115022153A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN115022153B (zh) 故障根因分析方法、装置、设备和存储介质
EP3039821B1 (en) Apparatus and method for processing data streams in a communication network
US10726354B2 (en) Concurrently forecasting multiple time series
US9832280B2 (en) User profile configuring method and device
US9477572B2 (en) Performing predictive modeling of virtual machine relationships
CN111339071A (zh) 一种多源异构数据的处理方法及装置
US10572811B2 (en) Methods and systems for determining probabilities of occurrence for events and determining anomalous events
US20170288979A1 (en) Blue print graphs for fusing of heterogeneous alerts
CN115858796A (zh) 一种故障知识图谱构建方法及装置
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN114791846B (zh) 一种针对云原生混沌工程实验实现可观测性的方法
CN114020581A (zh) 基于拓扑优化FP-Growth算法的告警关联方法
CN114598539A (zh) 根因定位方法、装置、存储介质及电子设备
JP2017069895A (ja) 障害切り分け方法および障害切り分けを行う管理サーバ
CN112000548A (zh) 大数据组件的监测方法、装置及电子设备
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN114461792A (zh) 告警事件关联方法、装置、电子设备、介质及程序产品
KR20210058468A (ko) 지능형 에지 네트워킹의 인공지능 운용자 지원 시스템 장치 및 방법
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质
WO2024088025A1 (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN113271216B (zh) 一种数据处理方法及相关设备
CN113918534A (zh) 一种策略处理系统及方法
CN109409411B (zh) 基于运维管理的问题定位方法、装置及存储介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
Bingöl et al. Topic-based influence computation in social networks under resource constraints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant