CN112887119A - 故障根因确定方法及装置、计算机存储介质 - Google Patents

故障根因确定方法及装置、计算机存储介质 Download PDF

Info

Publication number
CN112887119A
CN112887119A CN201911208147.9A CN201911208147A CN112887119A CN 112887119 A CN112887119 A CN 112887119A CN 201911208147 A CN201911208147 A CN 201911208147A CN 112887119 A CN112887119 A CN 112887119A
Authority
CN
China
Prior art keywords
network
fault
entity
abnormal
abnormal event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911208147.9A
Other languages
English (en)
Other versions
CN112887119B (zh
Inventor
王仲宇
谢于明
张震伟
高云鹏
肖欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911208147.9A priority Critical patent/CN112887119B/zh
Priority to JP2020196836A priority patent/JP7108674B2/ja
Priority to US17/106,915 priority patent/US11362884B2/en
Priority to EP20210626.6A priority patent/EP3882772A1/en
Priority to KR1020200163947A priority patent/KR102480708B1/ko
Publication of CN112887119A publication Critical patent/CN112887119A/zh
Application granted granted Critical
Publication of CN112887119B publication Critical patent/CN112887119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0627Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请公开了一种故障根因确定方法及装置、计算机存储介质,属于网络技术领域。管理设备获取发生故障的目标网络的故障特征。该故障特征基于发生故障的目标网络的知识图谱确定。该知识图谱上包括网络实体和异常事件实体。异常事件实体与异常网络实体连接。异常网络实体为目标网络中产生异常事件的网络实体。异常事件实体用于指示异常网络实体产生的异常事件。网络实体的类型为网络设备、接口、协议或业务。管理设备根据故障特征,确定目标网络的故障根因。本申请考虑到了设备之间的故障传播,提高了确定网络中的故障根因的准确性。

Description

故障根因确定方法及装置、计算机存储介质
技术领域
本申请涉及网络技术领域,特别涉及一种故障根因确定方法及装置、计算机存储介质。
背景技术
由于当前网络中的故障原因较为复杂,例如在数据中心网络(data centernetwork,DCN)中,地址解析协议(Address Resolution Protocol,ARP)表项超限、设备重启或路由器标识(router identity)冲突等均会导致网络故障,因此网络故障排查的难度较高。
目前提出了通过故障树确定网络中产生故障的根本原因(以下简称:故障根因)的方式。在基于规则的故障树中,一个根因判定规则可以对应一个故障根因,当在故障场景下获取到的网络数据的表现情况符合一个根因判定规则时,可以确定导致出现该故障场景的故障根因为该根因判定规则对应的故障根因。其中,一个根因判定规则可以是通过与门和或门对多个单规则的组合。
但是,由于目前的故障树通常基于单个设备的故障传播规则构建,而实际网络中不同设备之间可能也会发生故障传播,此时故障树无法对网络中的故障根因进行准确定位。因此采用故障树在网络中进行故障根因定位的准确性较低。
发明内容
本申请提供了一种故障根因确定方法及装置、计算机存储介质,可以解决目前网络中故障根因定位的准确性较低的问题。
第一方面,提供了一种故障根因确定方法。该方法包括:管理设备获取发生故障的目标网络的故障特征。该故障特征基于发生故障的目标网络的知识图谱确定。该知识图谱上包括网络实体和异常事件实体。异常事件实体与异常网络实体连接。异常网络实体为目标网络中产生异常事件的网络实体。异常事件实体用于指示异常网络实体产生的异常事件。网络实体的类型为网络设备、接口、协议或业务。管理设备根据故障特征,确定目标网络的故障根因。
本申请中,基于发生故障的网络的知识图谱确定发生故障的网络的故障特征,由于知识图谱是基于整个网络生成的,获取的网络的故障特征也是基于整个网络的,因此本申请在采用网络的故障特征确定网络的故障根因时,可以考虑到设备之间的故障传播,提高了确定网络中的故障根因的准确性。
可选地,管理设备根据故障特征,确定目标网络的故障根因的实现过程,包括:
管理设备将故障特征输入故障根因推理模型,以获取故障根因推理模型根据故障特征输出的目标网络的故障根因,该故障根因推理模型基于已知故障根因的多个知识图谱样本训练得到。
本申请中,采用基于已知故障根因的多个知识图谱样本训练得到的故障根因推理模型确定网络的故障根因,可以准确地确定网络中的故障根因,避免将故障根因在网络中的异常表现确定为故障根因,进一步提高了确定网络中的故障根因的准确性。
可选地,管理设备获取发生故障的目标网络的故障特征的实现过程,包括:
管理设备获取发生故障的目标网络的知识图谱。管理设备基于知识图谱,确定目标网络的故障特征。
可选地,管理设备基于知识图谱,确定目标网络的故障特征的实现过程,包括:
管理设备根据知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定知识图谱与故障传播关系库的故障匹配度。和/或,对知识图谱上的每个异常网络实体,管理设备获取异常网络实体的邻居网络实体,得到异常网络实体对应的邻居网络实体特征。和/或,对知识图谱上的每个异常事件实体,管理设备从知识图谱上获取异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,该目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
本申请中,目标网络的故障特征包括:目标网络的知识图谱与故障传播关系库的故障匹配度,目标网络的知识图谱上的各个异常网络实体分别对应的邻居网络实体特征,和/或,目标网络的知识图谱上的各个异常事件实体分别对应的邻居异常事件实体特征。
可选地,管理设备获取已知故障根因的多个知识图谱样本,该知识图谱样本上标识有知识图谱样本所属的网络发生一次故障时,知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及用于指示异常网络实体产生的异常事件的异常事件实体。管理设备分别基于多个知识图谱样本,确定各个知识图谱样本所属的网络的故障特征。管理设备根据各个知识图谱样本所属的网络的故障特征以及各个知识图谱样本对应的故障根因,训练得到故障根因推理模型。
可选地,管理设备分别基于多个知识图谱样本,确定各个知识图谱样本所属的网络的故障特征的实现过程,包括:
对每个知识图谱样本:管理设备根据知识图谱样本与故障传播关系库中各个故障传播关系的匹配度,确定该知识图谱样本与故障传播关系库的故障匹配度。和/或,对知识图谱样本上的每个异常网络实体,管理设备获取异常网络实体的邻居网络实体,得到异常网络实体对应的邻居网络实体特征。和/或,对知识图谱样本上的每个异常事件实体,管理设备从知识图谱样本上获取异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,该目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
可选地,每个知识图谱样本对应一个故障根因。
第二方面,提供了一种故障根因确定方法。该方法包括:管理设备获取发生故障的目标网络的知识图谱。该知识图谱上包括网络实体和异常事件实体。该异常事件实体与异常网络实体连接。异常网络实体为目标网络中产生异常事件的网络实体。异常事件实体用于指示异常网络实体产生的异常事件。网络实体的类型为网络设备、接口、协议或业务。管理设备基于知识图谱,确定目标网络的故障特征。该故障特征用于确定目标网络的故障根因。
可选地,管理设备基于知识图谱,确定目标网络的故障特征的实现过程,包括:
管理设备根据知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定知识图谱与故障传播关系库的故障匹配度。和/或,对知识图谱上的每个异常网络实体,管理设备获取异常网络实体的邻居网络实体,得到异常网络实体对应的邻居网络实体特征。和/或,对知识图谱上的每个异常事件实体,管理设备从知识图谱上获取异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,该目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
第三方面,提供了一种故障根因确定装置。所述装置包括多个功能模块,所述多个功能模块相互作用,实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
第四方面,提供了一种故障根因确定装置。所述装置包括多个功能模块,所述多个功能模块相互作用,实现上述第二方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现,且所述多个功能模块可以基于具体实现进行任意组合或分割。
第五方面,提供了一种故障根因确定装置,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如第一方面任一所述的故障根因确定方法。
第六方面,提供了一种故障根因确定装置,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如第二方面任一所述的故障根因确定方法。
第七方面,提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如第一方面或第二方面任一所述的故障根因确定方法。
第八方面,提供了一种芯片,芯片包括可编程逻辑电路和/或程序指令,当芯片运行时,实现上述第一方面或第二方面及其各实施方式中的方法。
本申请提供的技术方案带来的有益效果至少包括:
本申请中,基于发生故障的网络的知识图谱确定发生故障的网络的故障特征,由于知识图谱是基于整个网络生成的,获取的网络的故障特征也是基于整个网络的,因此本申请在采用网络的故障特征确定网络的故障根因时,可以考虑到设备之间的故障传播,提高了确定网络中的故障根因的准确性。另外,本申请采用基于已知故障根因的多个知识图谱样本训练得到的故障根因推理模型确定网络的故障根因,可以准确地确定网络中的故障根因,避免将故障根因在网络中的异常表现确定为故障根因,进一步提高了确定网络中的故障根因的准确性。
附图说明
图1是本申请实施例提供的故障根因确定方法所涉及的应用场景示意图;
图2是本申请实施例提供的一种故障根因确定方法的流程示意图;
图3是本申请实施例提供的一种知识图谱的结构示意图;
图4是本申请实施例提供的另一种知识图谱的结构示意图;
图5是本申请实施例提供的发生故障的目标网络的知识图谱的示意图;
图6是本申请实施例提供的一种故障根因确定装置的结构示意图;
图7是本申请实施例提供的另一种故障根因确定装置的结构示意图;
图8是本申请另一实施例提供的一种故障根因确定装置的结构示意图;
图9是本申请实施例提供的一种故障根因确定装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的故障根因确定方法所涉及的应用场景示意图。如图1所示,该应用场景中包括管理设备101以及通信网络中的网络设备102a-102c(统称为网络设备102)。图1中管理设备和网络设备的数量仅用作示意,不作为对本申请实施例提供的故障根因确定方法所涉及的应用场景的限制。其中,通信网络可以是数据中心网络(datacenter network,DCN)、城域网络、广域网络、园区网络、虚拟局域网(virtual local areanetwork,VLAN)或虚拟扩展局域网(virtual extensible local area network,VXLAN)等,本申请实施例对通信网络的类型不做限定。
可选地,管理设备101可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。网络设备102可以是交换机或路由器等。可选地,请继续参见图1,该应用场景中还可以包括控制设备103。控制设备103用于管理和控制通信网络中的网络设备102。管理设备101与控制设备103之间通过有线网络或无线网络连接,控制设备103与网络设备102之间通过有线网络或无线网络连接。控制设备103可以是网络控制器,网络管理设备,网关或其它具有控制能力的设备。控制设备103可以是一台或多台设备。
其中,控制设备103中可以存储有该控制设备103管理的通信网络的组网拓扑。控制设备103还用于收集通信网络中的网络设备102的设备信息以及通信网络中产生的异常事件等,并向管理设备101提供通信网络的组网拓扑、网络设备102的设备信息以及通信网络中产生的异常事件等。网络设备的设备信息包括网络设备的网络配置信息和/或路由表项等。网络配置信息通常包括接口配置信息、协议配置信息以及业务配置信息等。可选地,控制设备103可以周期性地采集网络设备102的设备信息以及通信网络中产生的异常事件。示例地,控制设备可以采用简单网络管理协议(simple network management protocol,SNMP)或网络遥测(network telemetry)技术采集网络设备的异常信息以及通信网络中产生的异常事件。当网络设备102的设备信息发生变更时,网络设备102主动向控制设备103上报变更后的设备信息;当通信网络发生故障时,网络设备102主动向控制设备103上报产生的异常事件。当然,在某些应用场景中,管理设备也可以与通信网络中的网络设备直接连接,也即是,该应用场景中也可以不包括控制设备,本申请实施例对此不做限定。
图2是本申请实施例提供的一种故障根因确定方法的流程示意图。可以应用于如图1所示的应用场景中的管理设备101。如图2所示,该方法包括:
步骤201、获取发生故障的目标网络的知识图谱。
该知识图谱上包括网络实体和异常事件实体。异常事件实体与异常网络实体连接。异常网络实体为目标网络中产生异常事件的网络实体。异常事件实体用于指示异常网络实体产生的异常事件。网络实体的类型为网络设备、接口、协议或业务。
可选地,步骤201的实现过程,包括:
在步骤2011中,当目标网络发生故障时,管理设备获取目标网络中产生的异常事件。
异常事件中携带有产生该异常事件的网络实体的标识。目标网络发生故障指目标网络中的网络设备发生故障,网络设备的故障类型包括接口故障、协议故障(包括无法正常收发协议报文等)以及业务故障等。可选地,异常事件包括告警日志、状态变化日志以及异常关键绩效指标(key performance indicator,KPI)中的一个或多个。告警日志中包括网络设备中异常网络实体的标识以及告警类型。状态变化日志中包括配置文件变化信息和/或路由表项变化信息等,例如状态变化日志中可以包括“接入子接口删除”以及“目的IP主机路由删除”等信息。异常关键绩效指标用于描述某个网络实体的某种指标出现异常。
在步骤2012中,管理设备在目标网络的初始知识图谱上标识出目标网络中产生异常事件的异常网络实体,得到发生故障的目标网络的知识图谱。
本申请实施例中,管理设备在目标网络的初始知识图谱上标识出目标网络中产生异常事件的异常网络实体,指管理设备在目标网络的初始知识图谱上添加异常事件实体,并使该异常事件实体与产生该异常事件实体指示的异常事件的异常网络实体连接。
目标网络的初始知识图谱基于该目标网络的网络数据生成。目标网络的网络数据包括目标网络的组网拓扑以及目标网络中多个网络设备的设备信息。网络设备的设备信息包括网络设备的网络配置信息,具体包括接口配置信息、协议配置信息和业务配置信息中的一个或多个。设备信息还可以包括路由表项等。可选地,网络设备的接口配置信息包括接口的互联网协议(Internet Protocol,IP)地址、接口支持的协议类型以及接口支持的业务类型等。网络设备的协议配置信息包括协议的标识符,协议的标识符用于唯一标识该协议,协议的标识符可以采用字符、字母和/或数字等表示。网络设备的业务配置信息包括网络设备使用的业务,例如虚拟专用网络(virtual private network,VPN)业务和/或动态主机配置协议(Dynamic Host Configuration Protocol,DHCP)业务等。
可选地,当目标网络发生故障时,管理设备还可以获取目标网络的网络数据,并从网络数据中提取多个知识图谱三元组,然后根据多个知识图谱三元组生成初始知识图谱。其中,每个知识图谱三元组包括两个网络实体以及该两个网络实体之间的关系。两个网络实体之间的关系可以是依赖关系、从属关系或对等关系等。示例地,网络设备与接口之间的关系为从属关系,即接口属于网络设备。又示例地,建立通信连接的两个接口之间的关系为对等关系。
可选地,知识图谱中类型为网络设备的网络实体可以采用网络设备的名称、媒体访问控制(media access control,MAC)地址、硬件地址、开放式最短路径优先(openshortest path first,OSPF)路由(简称:OSPF router或OsRouter,可以在OSPF层唯一标识网络设备)或其它可唯一标识网络设备的标识符表示。类型为接口的网络实体可以采用接口的名称表示。类型为协议的网络实体可以采用协议的标识符表示。知识图谱三元组以图的形式表示,知识图谱三元组由点和边两个基本元素构成,点表示网络实体,边表示两个网络实体之间的关系,例如依赖关系、从属关系或对等关系等。当两个网络实体之间为对等关系时,可以采用无方向的边连接该两个网络实体。当两个网络实体之间为依赖关系或从属关系时,可以采用有方向的边(例如箭头)连接该两个网络实体,该边的方向由依赖的网络实体指向被依赖的网络实体,或者,该边的方向由附属的网络实体指向被附属的网络实体。
可选地,管理设备基于目标网络的网络类型对应的抽象业务模型,从网络数据中提取知识图谱三元组对应的结构化数据(例如json数据),例如可以包括OsRouter、OSPF层的网段(简称:OsNetwork)、网络设备上的物理接口信息、OSPF邻居状态改变信息以及边界网关协议(Border Gateway Protocol,BGP)状态机的状态值改变信息等。然后对提取的结构化数据进行解析并转换成知识图谱三元组。其中,抽象业务模型用于反映不同网络实体之间的关系。不同网络类型对应的抽象业务模型可以不同。抽象业务模型实质上为用于定义不同网络实体之间的依赖关系的数据对象。例如,抽象业务模型中可以定义:每个网络设备具有一个或多个接口,也即是,接口属于网络设备;接口上可以承载转发业务,例如接口上可以承载三层IP转发业务,即接口支持采用内部网关协议(interior gatewayprotocol,IGP)转发报文,也即是,三层IP转发业务或IGP依赖于接口;三层IP转发业务之上可以承载VXLAN隧道、流量工程(traffic engineering,TE)隧道以及BGP,也即是,VXLAN隧道、TE隧道以及BGP依赖于三层IP转发业务;TE隧道之上可以承载VPN业务,也即是,VPN业务依赖于TE隧道;等等。其中,三层IP转发业务之上可以承载VXLAN隧道,表示承载有三层IP转发业务的接口可作为VXLAN隧道的端点;三层IP转发业务之上可以承载TE隧道,表示承载有三层IP转发业务的接口可作为TE隧道的端点;三层IP转发业务之上可以承载BGP,表示承载有三层IP转发业务的接口可收发基于BGP的协议报文;TE隧道之上可以承载VPN业务,表示承载有TE隧道的接口可支持VPN业务。
可选地,管理设备可以从网络设备的网络配置信息中提取知识图谱三元组对应的结构化数据,也可以基于网络设备的路由表项提取知识图谱三元组对应的结构化数据。
可选地,管理设备可以周期性地获取目标网络中网络设备的设备信息,并生成目标网络的初始知识图谱。管理设备在生成目标网络的初始知识图谱之后,还可以在管理设备中或与管理设备连接的存储设备中存储该目标网络的初始知识图谱,以便后续使用,例如目标网络的初始知识图谱可以作为确定网络实体间的故障传播关系的基础,和/或,作为故障根因推理的基础等。示例地,当目标网络在某个周期内发生故障时,管理设备可以在该周期对应的初始知识图谱上标识出产生异常事件的异常网络实体,得到标识有异常网络实体的知识图谱,进而提高了标识有异常网络实体的知识图谱的获取效率。
示例地,假设目标网络中包括两个网络设备,分别为网络设备A和网络设备B。网络设备A具有3个接口,该3个接口的名称分别为10GE1/0/1、10GE1/0/2和10GE1/0/3。网络设备B具有4个接口,该4个接口的名称分别为10GE3/0/1、10GE3/0/2、10GE3/0/3和10GE3/0/4。网络设备A和网络设备B均支持OSPF协议,OSPF协议是一个IGP。网络设备A中OSPF协议的标识符采用10.89.46.25表示,包括3个路由IP,分别为11.11.11.11、11.11.11.12和11.11.11.13。网络设备B中OSPF协议的标识符采用10.89.49.37表示,包括4个路由IP,分别为11.12.11.11、11.12.11.12、11.12.11.13和11.12.11.14。网络设备A的接口“10GE1/0/2”与网络设备B的接口“10GE3/0/2”连接,且该两个接口之间采用OSPF协议通信,其中,网络设备A的接口“10GE1/0/2”采用的路由IP为11.11.11.11,网络设备B的接口“10GE3/0/2”采用的路由IP为11.12.11.14。则基于上述网络数据可以得到如图3所示的初始知识图谱。
进一步的,假设网络设备A的接口“10GE1/0/2”发生故障,路由IP“11.11.11.11”不通,导致目标网络发生故障时,可以在如图3所示的初始知识图谱上,将接口“10GE1/0/2”对应的网络实体和路由IP“11.11.11.11”对应的网络实体标识为异常网络实体,参见图4,可以通过在异常网络实体上连接异常事件实体,以标识出异常网络实体。异常事件实体可以采用特殊的图形或颜色等区别于网络实体。例如参见图4,可以采用三角形表示异常事件实体。可选地,异常事件实体中还可以标识出具体的异常事件,例如物理接口宕机或OSPF邻居状态改变等。
示例地,图5是本申请实施例提供的发生故障的目标网络的知识图谱的示意图。如图5所示,该知识图谱中包括10个网络实体(网络实体A-J),以及5个异常事件实体(异常事件实体a-e)。其中,网络实体A与异常事件实体a连接,网络实体B与异常事件实体b连接,网络实体H与异常事件实体c连接,网络实体I与异常事件实体d连接,网络实体J与异常事件实体e连接。也即是,网络实体A、网络实体B、网络实体H、网络实体I和网络实体J均为异常网络实体。
步骤202、基于发生故障的目标网络的知识图谱,确定目标网络的故障特征。
可选地,目标网络的故障特征包括:目标网络的知识图谱与故障传播关系库的故障匹配度,目标网络的知识图谱上的各个异常网络实体分别对应的邻居网络实体特征,和/或,目标网络的知识图谱上的各个异常事件实体分别对应的邻居异常事件实体特征。
在第一种情况下,当目标网络的故障特征包括目标网络的知识图谱与故障传播关系库的故障匹配度时,步骤202的实现过程包括:管理设备根据知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定该知识图谱与故障传播关系库的故障匹配度。其中,知识图谱与故障传播关系的匹配度可以是该故障传播关系在该知识图谱中的出现次数。或者,知识图谱与故障传播关系的匹配度也可以表示该故障传播关系是否与该知识图谱匹配。若该故障传播关系在该知识图谱中出现过,则确定该故障传播关系与该知识图谱匹配,此时知识图谱与故障传播关系的匹配度采用第一值表示;若该故障传播关系在该知识图谱中未出现过,则确定该故障传播关系与该知识图谱不匹配,此时知识图谱与故障传播关系的匹配度采用第二值表示。第一值和第二值不同。
知识图谱与故障传播关系库的故障匹配度可以包括该知识图谱与故障传播关系库中各个故障传播关系的匹配度的集合。例如,故障传播关系库中包括故障传播关系1、故障传播关系2和故障传播关系3,故障传播关系1在知识图谱中的出现次数为2,故障传播关系2在知识图谱中的出现次数为0,故障传播关系3在知识图谱中的出现次数为1,则知识图谱与故障传播关系库的故障匹配度可以表示为:{{故障传播关系1;2},{故障传播关系2;0},{故障传播关系3;1}}。或者,知识图谱与故障传播关系库的故障匹配度可以包括该知识图谱与故障传播关系库中目标故障传播关系的匹配度的集合,知识图谱与目标故障传播关系的匹配度不为0。则参考前述例子,知识图谱与故障传播关系库的故障匹配度可以表示为:{{故障传播关系1;2},{故障传播关系3;1}}。
本申请实施例中,故障传播关系可以以文本的形式来表示,也可以以图形的形式来表示。比如,对于文本形式的故障传播关系“OsNetwork-L3link-BGPpeer”,该故障传播关系用于指示OsNetwork内邻居协议状态故障导致BGP Loopback口IP不可达(L3link),最终导致BGP邻居(BGP Peer)断链。
可选地,故障传播关系库中的故障传播关系可以是人工确定的,也可以是管理设备基于多个知识图谱样本学习到的。管理设备可以获取多个知识图谱样本,每个知识图谱样本上分别标识有该知识图谱样本所属的网络发生一次故障时,该知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及根因故障网络实体。管理设备基于该多个知识图谱样本,确定故障传播关系。其中,每个知识图谱样本为一个故障案例,知识图谱样本中的异常网络实体以及根因故障网络实体由人工确定。可选地,管理设备可以采用图嵌入算法等学习该多个知识图谱样本中的故障传播关系。或者,当同一知识图谱三元组中的两个网络实体同时发生异常的概率大于某个阈值时,管理设备可以确定该两个网络实体之间会进行故障传播。
示例地,在如图4所示的知识图谱中,当网络设备A的接口“10GE1/0/2”发生故障时,会导致该接口无法正常通信,进而会导致该接口采用的路由IP“11.11.11.11”不通。因此管理设备可以得到一组故障传播关系:接口故障导致该接口采用的路由IP不通。
可选地,上述知识图谱样本所属的网络为目标网络,或者,上述知识图谱样本所属的网络为与目标网络的网络类型相同的其它网络。上述多个知识图谱样本可以属于同一网络,也可以属于多个网络,本申请实施例对此不做限定。
由于目标网络发生故障时,目标网络的知识图谱上通常会存在多个异常网络实体,而这些异常网络实体的存在可能均为故障根因导致的异常表现,而目标网络中真正的故障根因可能并不是知识图谱上呈现出的某个异常网络实体对应的异常事件。例如,当网络中发生端口拥塞时,知识图谱上呈现出的异常事件包括BGP协议异常和OSPF协议异常等,而不会呈现端口故障这样的故障根因;又例如,当网络中出现二层环路时,知识图谱上呈现出的异常事件包括多个端口流量突增、多个端口出现流量风暴抑制和多个端口出现MAC漂移等,而不会呈现二层环路这样的故障根因。又由于故障传播关系用于指示知识图谱上的不同网络实体之间的故障传播路径,因此基于故障传播关系库中的故障传播关系可能无法直接推理得到目标网络的故障根因。
本申请实施例中,目标网络的知识图谱与故障传播关系库的故障匹配度用于反映基于故障传播关系库直接推理得到目标网络的故障根因的概率。目标网络的知识图谱与故障传播关系库中的某个故障传播关系的匹配度越高,表示基于该故障传播关系直接推理得到目标网络的故障根因的概率越高。
可选地,当目标网络的知识图谱与故障传播关系库中的各个故障传播关系的匹配度均低于匹配度阈值时,管理设备采用本申请实施例提供的故障根因确定方法确定目标网络的故障根因。否则,管理设备基于故障传播关系库中的故障传播关系,确定目标网络的故障根因。
在第二种情况下,当目标网络的故障特征包括目标网络的知识图谱上的各个异常网络实体分别对应的邻居网络实体特征时,步骤202的实现过程包括:对知识图谱上的每个异常网络实体,管理设备获取该异常网络实体的邻居网络实体,得到该异常网络实体对应的邻居网络实体特征。
其中,异常网络实体的邻居网络实体指与该异常网络实体直接连接的网络实体,也即是,异常网络实体与该异常网络实体的邻居网络实体之间的跳数等于1。
可选地,配置图搜索的广度参数为N,N为正整数。管理设备采用广度优先算法,以异常网络实体为头节点,在知识图谱上获取该异常网络实体的N个邻居网络实体。当异常网络实体的邻居网络实体的数量少于或等于N时,管理设备获取该异常网络实体的所有邻居网络实体。当异常网络实体的邻居网络实体的数量大于N时,管理设备随机获取该异常网络实体的N个邻居网络实体。为了保证获取的异常网络实体对应的邻居网络实体特征的准确性,可以将图搜索的广度参数N设置的足够大,以使管理设备能够获取每个异常网络实体的所有邻居网络实体。
示例地,参见如图5所示的知识图谱,异常网络实体A的邻居网络实体包括异常网络实体B,异常网络实体A对应的邻居网络实体特征可以表示为:{异常网络实体A:{异常网络实体B}}。异常网络实体B的邻居网络实体包括异常网络实体A和异常网络实体H,异常网络实体B对应的邻居网络实体特征可以表示为:{异常网络实体B:{异常网络实体A,异常网络实体H}}。异常网络实体H的邻居网络实体包括异常网络实体B、正常网络实体C、正常网络实体D、正常网络实体E、正常网络实体F、正常网络实体G和异常网络实体I,异常网络实体H对应的邻居网络实体特征可以表示为:{异常网络实体H:{异常网络实体B、正常网络实体C、正常网络实体D、正常网络实体E、正常网络实体F、正常网络实体G,异常网络实体I}}。异常网络实体I的邻居网络实体包括异常网络实体H和异常网络实体J,异常网络实体I对应的邻居网络实体特征可以表示为:{异常网络实体I:{异常网络实体H,异常网络实体J}}。异常网络实体J的邻居网络实体包括异常网络实体I,异常网络实体J对应的邻居网络实体特征可以表示为:{异常网络实体J:{异常网络实体I}}。当然,每个异常网络实体对应的邻居网络实体特征也可以用图形的形式表示,本申请实施例对此不作限定。
在第三种情况下,当目标网络的故障特征包括目标网络的知识图谱上的各个异常事件实体分别对应的邻居异常事件实体特征时,步骤202的实现过程包括:对知识图谱上的每个异常事件实体,管理设备从知识图谱上获取该异常事件实体到达各个目标异常事件实体的路径,得到该异常事件实体对应的邻居异常事件实体特征。目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
可选地,配置图搜索的深度参数为M。管理设备采用深度优先算法,以异常事件实体为头节点,在知识图谱上该异常事件实体的深度范围M内获取其它异常事件实体(即上述目标异常事件实体)。
示例地,假设M=3,参见如图5所示的知识图谱,以异常事件实体a为头节点,在其深度范围M内的其它异常事件实体包括异常事件实体b,异常事件实体a对应的邻居异常事件实体特征可以表示为:{异常事件实体a-异常网络实体A-异常网络实体B-异常事件实体b}。以异常事件实体b为头节点,在其深度范围M内的其它异常事件实体包括异常事件实体a和异常事件实体c,异常事件实体b对应的邻居异常事件实体特征可以表示为:{异常事件实体b-异常网络实体B-异常网络实体A-异常事件实体a;异常事件实体b-异常网络实体B-异常网络实体H-异常事件实体c}。以异常事件实体c为头节点,在其深度范围M内的其它异常事件实体包括异常事件实体b和异常事件实体d,异常事件实体c对应的邻居异常事件实体特征可以表示为:{异常事件实体c-异常网络实体H-异常网络实体B-异常事件实体b;异常事件实体c-异常网络实体H-异常网络实体I-异常事件实体d}。以异常事件实体d为头节点,在其深度范围M内的其它异常事件实体包括异常事件实体c和异常事件实体e,异常事件实体d对应的邻居异常事件实体特征可以表示为:{异常事件实体d-异常网络实体I-异常网络实体H-异常事件实体c;异常事件实体d-异常网络实体I-异常网络实体J-异常事件实体e}。以异常事件实体e为头节点,在其深度范围M内的其它异常事件实体包括异常事件实体d,异常事件实体e对应的邻居异常事件实体特征可以表示为:{异常事件实体e-异常网络实体J-异常网络实体I-异常事件实体d}。当然,每个异常事件实体对应的邻居异常事件实体特征也可以用图形的形式表示,本申请实施例对此不作限定。
步骤203、根据目标网络的故障特征,确定目标网络的故障根因。
可选地,管理设备将目标网络的故障特征输入故障根因推理模型,以获取故障根因推理模型根据该故障特征输出的目标网络的故障根因。该故障根因推理模型基于已知故障根因的多个知识图谱样本训练得到。可选地,管理设备获取故障根因推理模型的过程,包括:
在步骤2031中,管理设备获取已知故障根因的多个知识图谱样本,该知识图谱样本上标识有知识图谱样本所属的网络发生一次故障时,该知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及用于指示异常网络实体产生的异常事件的异常事件实体。
可选地,每个知识图谱样本对应一个故障根因。示例地,知识图谱样本的示意图可参考图5。
在步骤2032中,管理设备分别基于多个知识图谱样本,确定各个知识图谱样本所属的网络的故障特征。
可选地,知识图谱样本所属的网络的故障特征包括:知识图谱样本与故障传播关系库的故障匹配度,知识图谱样本上的各个异常网络实体分别对应的邻居网络实体特征,和/或,知识图谱样本上的各个异常事件实体分别对应的邻居异常事件实体特征。
对每个知识图谱样本,管理设备根据知识图谱样本与故障传播关系库中各个故障传播关系的匹配度,确定知识图谱样本与故障传播关系库的故障匹配度;和/或,对知识图谱样本上的每个异常网络实体,管理设备获取异常网络实体的邻居网络实体,得到该异常网络实体对应的邻居网络实体特征;和/或,对知识图谱样本上的每个异常事件实体,管理设备从知识图谱样本上获取该异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。管理设备基于知识图谱样本,确定知识图谱样本所属的网络的故障特征的实现过程可参考上述步骤202中管理设备确定目标网络的故障特征的实现过程,本申请实施例在此不做赘述。
在步骤2033中,管理设备根据各个知识图谱样本所属的网络的故障特征以及各个知识图谱样本对应的故障根因,训练得到故障根因推理模型。
其中,故障根因推理模型实质上为能够反映网络的故障特征与网络的故障根因之间的对应关系的数据对象。本申请实施例中,管理设备根据多个知识图谱样本所属的网络的故障特征和每个知识图谱样本对应的故障根因(即标签),采用有监督学习算法进行多次迭代训练,得到故障根因推理模型。
可选地,故障根因推理模型也可以是由其它设备训练得到后发送给管理设备的,本申请实施例对此不作限定。
可选地,管理设备在确定目标网络的故障根因之后,可以将该目标网络的故障根因发送给运维支撑系统(operations support system,OSS)或其它与管理设备连接的终端设备,供OSS或终端设备显示,以便于运维人员快速获取目标网络的故障根因,提高故障修复效率,即能够缩短网络设备由故障状态转为工作状态所耗费的时间,网络设备由故障状态转为工作状态所耗费的时间也可称为平均修复时间(mean time to recovery,MTTR)。
本申请实施例中,管理设备可以包括一台设备或多台设备。当管理设备包括一台设备时,上述故障根因确定方法涉及的所有步骤均由该设备执行。或者,当管理设备包括多台设备,例如包括第一设备、第二设备和第三设备时,第一设备可以生成发生故障的目标网络的知识图谱,并将目标网络的知识图谱发送给第二设备;第二设备基于发生故障的目标网络的知识图谱,确定目标网络的故障特征,并将目标网络的故障特征发送给第三设备;第三设备根据目标网络的故障特征,确定目标网络的故障根因。
本申请实施例提供的故障根因确定方法的步骤先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
综上所述,本申请实施例提供的故障根因确定方法中,基于发生故障的网络的知识图谱确定发生故障的网络的故障特征,由于知识图谱是基于整个网络生成的,获取的网络的故障特征也是基于整个网络的,因此本申请实施例在采用网络的故障特征确定网络的故障根因时,可以考虑到设备之间的故障传播,提高了确定网络中的故障根因的准确性。另外,本申请采用基于已知故障根因的多个知识图谱样本训练得到的故障根因推理模型确定网络的故障根因,可以准确地确定网络中的故障根因,避免将故障根因在网络中的异常表现确定为故障根因,进一步提高了确定网络中的故障根因的准确性。
图6是本申请实施例提供的一种故障根因确定装置的结构示意图。可以应用于如图1所示的应用场景中的管理设备101。如图6所示,该装置60包括:
第一获取模块601,用于获取发生故障的目标网络的故障特征,该故障特征基于发生故障的目标网络的知识图谱确定,该知识图谱上包括网络实体和异常事件实体,异常事件实体与异常网络实体连接,异常网络实体为目标网络中产生异常事件的网络实体,异常事件实体用于指示异常网络实体产生的异常事件,网络实体的类型为网络设备、接口、协议或业务。
第一确定模块602,用于根据故障特征,确定目标网络的故障根因。
综上所述,本申请实施例提供的故障根因确定装置,基于发生故障的网络的知识图谱确定发生故障的网络的故障特征,由于知识图谱是基于整个网络生成的,获取的网络的故障特征也是基于整个网络的,因此本申请实施例在采用网络的故障特征确定网络的故障根因时,可以考虑到设备之间的故障传播,提高了确定网络中的故障根因的准确性。
可选地,第一确定模块,用于:将故障特征输入故障根因推理模型,以获取故障根因推理模型根据故障特征输出的目标网络的故障根因,该故障根因推理模型基于已知故障根因的多个知识图谱样本训练得到。
可选地,第一获取模块,用于:获取发生故障的目标网络的知识图谱;基于知识图谱,确定目标网络的故障特征。
可选地,第一获取模块,还用于:根据知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定知识图谱与故障传播关系库的故障匹配度;和/或,对知识图谱上的每个异常网络实体,获取异常网络实体的邻居网络实体,得到异常网络实体对应的邻居网络实体特征;和/或,对知识图谱上的每个异常事件实体,从知识图谱上获取异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
可选地,如图7所示,装置60还包括:
第二获取模块603,用于获取已知故障根因的多个知识图谱样本,该知识图谱样本上标识有该知识图谱样本所属的网络发生一次故障时,该知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及用于指示异常网络实体产生的异常事件的异常事件实体;
第二确定模块604,用于分别基于多个知识图谱样本,确定各个知识图谱样本所属的网络的故障特征;
训练模块605,用于根据各个知识图谱样本所属的网络的故障特征以及各个知识图谱样本对应的故障根因,训练得到故障根因推理模型。
可选地,第二确定模块,用于:对每个知识图谱样本:根据知识图谱样本与故障传播关系库中各个故障传播关系的匹配度,确定知识图谱样本与故障传播关系库的故障匹配度;和/或,对知识图谱样本上的每个异常网络实体,获取异常网络实体的邻居网络实体,得到异常网络实体对应的邻居网络实体特征;和/或,对知识图谱样本上的每个异常事件实体,从知识图谱样本上获取异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
可选地,每个知识图谱样本对应一个故障根因。
综上所述,本申请实施例提供的故障根因确定装置,基于发生故障的网络的知识图谱确定发生故障的网络的故障特征,由于知识图谱是基于整个网络生成的,获取的网络的故障特征也是基于整个网络的,因此本申请实施例在采用网络的故障特征确定网络的故障根因时,可以考虑到设备之间的故障传播,提高了确定网络中的故障根因的准确性。另外,本申请采用基于已知故障根因的多个知识图谱样本训练得到的故障根因推理模型确定网络的故障根因,可以准确地确定网络中的故障根因,避免将故障根因在网络中的异常表现确定为故障根因,进一步提高了确定网络中的故障根因的准确性。
图8是本申请另一实施例提供的一种故障根因确定装置的结构示意图。可以应用于如图1所示的应用场景中的管理设备101。如图8所示,该装置80包括:
获取模块801,用于获取发生故障的目标网络的知识图谱,该知识图谱上包括网络实体和异常事件实体,异常事件实体与异常网络实体连接,异常网络实体为目标网络中产生异常事件的网络实体,异常事件实体用于指示异常网络实体产生的异常事件,网络实体的类型为网络设备、接口、协议或业务。
确定模块802,用于基于知识图谱,确定目标网络的故障特征,故障特征用于确定目标网络的故障根因。
可选地,确定模块,用于:根据知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定知识图谱与故障传播关系库的故障匹配度;和/或,对知识图谱上的每个异常网络实体,获取异常网络实体的邻居网络实体,得到异常网络实体对应的邻居网络实体特征;和/或,对知识图谱上的每个异常事件实体,从知识图谱上获取异常事件实体到达各个目标异常事件实体的路径,得到异常事件实体对应的邻居异常事件实体特征,目标异常事件实体与异常事件实体之间的跳数小于或等于M,M为正整数。
综上所述,本申请实施例提供的故障根因确定装置,基于发生故障的网络的知识图谱确定发生故障的网络的故障特征,由于知识图谱是基于整个网络生成的,获取的网络的故障特征也是基于整个网络的,因此本申请实施例在采用网络的故障特征确定网络的故障根因时,可以考虑到设备之间的故障传播,提高了确定网络中的故障根因的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是本申请实施例提供的一种故障根因确定装置的框图。该故障根因确定装置可以是管理设备,管理设备可以是网络控制器,网络管理设备,网关或其它具有控制能力的设备。如图9所示,管理设备90包括:处理器901和存储器902。
存储器902,用于存储计算机程序,所述计算机程序包括程序指令;
处理器901,用于调用所述计算机程序,实现如图2所示的故障根因确定方法中的一个或多个步骤。
可选地,该管理设备90还包括通信总线903和通信接口904。
其中,处理器901包括一个或者一个以上处理核心,处理器901通过运行计算机程序,执行各种功能应用以及数据处理。
存储器902可用于存储计算机程序。可选地,存储器可存储操作系统和至少一个功能所需的应用程序单元。操作系统可以是实时操作系统(Real Time eXecutive,RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。
通信接口904可以为多个,通信接口904用于与其它存储设备或网络设备进行通信。例如与控制设备或网络设备进行通信。
存储器902与通信接口904分别通过通信总线903与处理器901连接。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如图2所示的故障根因确定方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本申请实施例中,术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的构思和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (21)

1.一种故障根因确定方法,其特征在于,所述方法包括:
获取发生故障的目标网络的故障特征,所述故障特征基于所述发生故障的目标网络的知识图谱确定,所述知识图谱上包括网络实体和异常事件实体,所述异常事件实体与异常网络实体连接,所述异常网络实体为所述目标网络中产生异常事件的网络实体,所述异常事件实体用于指示所述异常网络实体产生的异常事件,所述网络实体的类型为网络设备、接口、协议或业务;
根据所述故障特征,确定所述目标网络的故障根因。
2.根据权利要求1所述的方法,其特征在于,所述根据所述故障特征,确定所述目标网络的故障根因,包括:
将所述故障特征输入故障根因推理模型,以获取所述故障根因推理模型根据所述故障特征输出的所述目标网络的故障根因,所述故障根因推理模型基于已知故障根因的多个知识图谱样本训练得到。
3.根据权利要求1或2所述的方法,其特征在于,所述获取发生故障的目标网络的故障特征,包括:
获取所述发生故障的目标网络的知识图谱;
基于所述知识图谱,确定所述目标网络的故障特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述知识图谱,确定所述目标网络的故障特征,包括:
根据所述知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定所述知识图谱与所述故障传播关系库的故障匹配度;
和/或,对所述知识图谱上的每个异常网络实体,获取所述异常网络实体的邻居网络实体,得到所述异常网络实体对应的邻居网络实体特征;
和/或,对所述知识图谱上的每个异常事件实体,从所述知识图谱上获取所述异常事件实体到达各个目标异常事件实体的路径,得到所述异常事件实体对应的邻居异常事件实体特征,所述目标异常事件实体与所述异常事件实体之间的跳数小于或等于M,M为正整数。
5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
获取已知故障根因的多个知识图谱样本,所述知识图谱样本上标识有所述知识图谱样本所属的网络发生一次故障时,所述知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及用于指示所述异常网络实体产生的异常事件的异常事件实体;
分别基于所述多个知识图谱样本,确定各个所述知识图谱样本所属的网络的故障特征;
根据各个所述知识图谱样本所属的网络的故障特征以及各个所述知识图谱样本对应的故障根因,训练得到所述故障根因推理模型。
6.根据权利要求5所述的方法,其特征在于,所述分别基于所述多个知识图谱样本,确定各个所述知识图谱样本所属的网络的故障特征,包括:
对每个所述知识图谱样本:
根据所述知识图谱样本与故障传播关系库中各个故障传播关系的匹配度,确定所述知识图谱样本与所述故障传播关系库的故障匹配度;
和/或,对所述知识图谱样本上的每个异常网络实体,获取所述异常网络实体的邻居网络实体,得到所述异常网络实体对应的邻居网络实体特征;
和/或,对所述知识图谱样本上的每个异常事件实体,从所述知识图谱样本上获取所述异常事件实体到达各个目标异常事件实体的路径,得到所述异常事件实体对应的邻居异常事件实体特征,所述目标异常事件实体与所述异常事件实体之间的跳数小于或等于M,M为正整数。
7.根据权利要求5或6所述的方法,其特征在于,每个所述知识图谱样本对应一个故障根因。
8.一种故障根因确定方法,其特征在于,所述方法包括:
获取发生故障的目标网络的知识图谱,所述知识图谱上包括网络实体和异常事件实体,所述异常事件实体与异常网络实体连接,所述异常网络实体为所述目标网络中产生异常事件的网络实体,所述异常事件实体用于指示所述异常网络实体产生的异常事件,所述网络实体的类型为网络设备、接口、协议或业务;
基于所述知识图谱,确定所述目标网络的故障特征,所述故障特征用于确定所述目标网络的故障根因。
9.根据权利要求8所述的方法,其特征在于,所述基于所述知识图谱,确定所述目标网络的故障特征,包括:
根据所述知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定所述知识图谱与所述故障传播关系库的故障匹配度;
和/或,对所述知识图谱上的每个异常网络实体,获取所述异常网络实体的邻居网络实体,得到所述异常网络实体对应的邻居网络实体特征;
和/或,对所述知识图谱上的每个异常事件实体,从所述知识图谱上获取所述异常事件实体到达各个目标异常事件实体的路径,得到所述异常事件实体对应的邻居异常事件实体特征,所述目标异常事件实体与所述异常事件实体之间的跳数小于或等于M,M为正整数。
10.一种故障根因确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取发生故障的目标网络的故障特征,所述故障特征基于所述发生故障的目标网络的知识图谱确定,所述知识图谱上包括网络实体和异常事件实体,所述异常事件实体与异常网络实体连接,所述异常网络实体为所述目标网络中产生异常事件的网络实体,所述异常事件实体用于指示所述异常网络实体产生的异常事件,所述网络实体的类型为网络设备、接口、协议或业务;
第一确定模块,用于根据所述故障特征,确定所述目标网络的故障根因。
11.根据权利要求10所述的装置,其特征在于,所述第一确定模块,用于:
将所述故障特征输入故障根因推理模型,以获取所述故障根因推理模型根据所述故障特征输出的所述目标网络的故障根因,所述故障根因推理模型基于已知故障根因的多个知识图谱样本训练得到。
12.根据权利要求10或11所述的装置,其特征在于,所述第一获取模块,用于:
获取所述发生故障的目标网络的知识图谱;
基于所述知识图谱,确定所述目标网络的故障特征。
13.根据权利要求12所述的装置,其特征在于,所述第一获取模块,还用于:
根据所述知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定所述知识图谱与所述故障传播关系库的故障匹配度;
和/或,对所述知识图谱上的每个异常网络实体,获取所述异常网络实体的邻居网络实体,得到所述异常网络实体对应的邻居网络实体特征;
和/或,对所述知识图谱上的每个异常事件实体,从所述知识图谱上获取所述异常事件实体到达各个目标异常事件实体的路径,得到所述异常事件实体对应的邻居异常事件实体特征,所述目标异常事件实体与所述异常事件实体之间的跳数小于或等于M,M为正整数。
14.根据权利要求10至13任一所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取已知故障根因的多个知识图谱样本,所述知识图谱样本上标识有所述知识图谱样本所属的网络发生一次故障时,所述知识图谱样本所属的网络中产生异常事件的所有异常网络实体以及用于指示所述异常网络实体产生的异常事件的异常事件实体;
第二确定模块,用于分别基于所述多个知识图谱样本,确定各个所述知识图谱样本所属的网络的故障特征;
训练模块,用于根据各个所述知识图谱样本所属的网络的故障特征以及各个所述知识图谱样本对应的故障根因,训练得到所述故障根因推理模型。
15.根据权利要求14所述的装置,其特征在于,所述第二确定模块,用于:
对每个所述知识图谱样本:
根据所述知识图谱样本与故障传播关系库中各个故障传播关系的匹配度,确定所述知识图谱样本与所述故障传播关系库的故障匹配度;
和/或,对所述知识图谱样本上的每个异常网络实体,获取所述异常网络实体的邻居网络实体,得到所述异常网络实体对应的邻居网络实体特征;
和/或,对所述知识图谱样本上的每个异常事件实体,从所述知识图谱样本上获取所述异常事件实体到达各个目标异常事件实体的路径,得到所述异常事件实体对应的邻居异常事件实体特征,所述目标异常事件实体与所述异常事件实体之间的跳数小于或等于M,M为正整数。
16.根据权利要求14或15所述的装置,其特征在于,每个所述知识图谱样本对应一个故障根因。
17.一种故障根因确定装置,其特征在于,所述装置包括:
获取模块,用于获取发生故障的目标网络的知识图谱,所述知识图谱上包括网络实体和异常事件实体,所述异常事件实体与异常网络实体连接,所述异常网络实体为所述目标网络中产生异常事件的网络实体,所述异常事件实体用于指示所述异常网络实体产生的异常事件,所述网络实体的类型为网络设备、接口、协议或业务;
确定模块,用于基于所述知识图谱,确定所述目标网络的故障特征,所述故障特征用于确定所述目标网络的故障根因。
18.根据权利要求17所述的装置,其特征在于,所述确定模块,用于:
根据所述知识图谱与故障传播关系库中各个故障传播关系的匹配度,确定所述知识图谱与所述故障传播关系库的故障匹配度;
和/或,对所述知识图谱上的每个异常网络实体,获取所述异常网络实体的邻居网络实体,得到所述异常网络实体对应的邻居网络实体特征;
和/或,对所述知识图谱上的每个异常事件实体,从所述知识图谱上获取所述异常事件实体到达各个目标异常事件实体的路径,得到所述异常事件实体对应的邻居异常事件实体特征,所述目标异常事件实体与所述异常事件实体之间的跳数小于或等于M,M为正整数。
19.一种故障根因确定装置,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如权利要求1至7任一所述的故障根因确定方法。
20.一种故障根因确定装置,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器,用于调用所述计算机程序,实现如权利要求8或9所述的故障根因确定方法。
21.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有指令,当所述指令被处理器执行时,实现如权利要求1至9任一所述的故障根因确定方法。
CN201911208147.9A 2019-11-30 2019-11-30 故障根因确定方法及装置、计算机存储介质 Active CN112887119B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201911208147.9A CN112887119B (zh) 2019-11-30 2019-11-30 故障根因确定方法及装置、计算机存储介质
JP2020196836A JP7108674B2 (ja) 2019-11-30 2020-11-27 故障根本原因決定方法及び装置並びにコンピュータ記憶媒体
US17/106,915 US11362884B2 (en) 2019-11-30 2020-11-30 Fault root cause determining method and apparatus, and computer storage medium
EP20210626.6A EP3882772A1 (en) 2019-11-30 2020-11-30 Fault root cause determining method and apparatus, and computer storage medium
KR1020200163947A KR102480708B1 (ko) 2019-11-30 2020-11-30 오류 근본 원인 결정 방법 및 장치, 그리고 컴퓨터 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911208147.9A CN112887119B (zh) 2019-11-30 2019-11-30 故障根因确定方法及装置、计算机存储介质

Publications (2)

Publication Number Publication Date
CN112887119A true CN112887119A (zh) 2021-06-01
CN112887119B CN112887119B (zh) 2022-09-16

Family

ID=73646170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911208147.9A Active CN112887119B (zh) 2019-11-30 2019-11-30 故障根因确定方法及装置、计算机存储介质

Country Status (5)

Country Link
US (1) US11362884B2 (zh)
EP (1) EP3882772A1 (zh)
JP (1) JP7108674B2 (zh)
KR (1) KR102480708B1 (zh)
CN (1) CN112887119B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113535449A (zh) * 2021-07-08 2021-10-22 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN113572633A (zh) * 2021-06-15 2021-10-29 阿里巴巴新加坡控股有限公司 根因定位方法、系统、设备及存储介质
CN114422325A (zh) * 2021-12-30 2022-04-29 优刻得科技股份有限公司 内容分发网络异常定位方法、装置、设备及存储介质
CN114978877A (zh) * 2022-05-13 2022-08-30 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN115022153A (zh) * 2022-06-07 2022-09-06 中国工商银行股份有限公司 故障根因分析方法、装置、设备和存储介质
CN115883320A (zh) * 2021-09-27 2023-03-31 中国联合网络通信集团有限公司 网络设备异常分析方法、装置、电子设备及可读存储介质
CN117436593A (zh) * 2023-12-18 2024-01-23 广州市意立环保科技有限公司 基于人工智能的焚烧炉系统故障预测方法及系统

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7010268B2 (ja) * 2019-04-19 2022-01-26 オムロン株式会社 通信監視システムおよび通信監視方法
CN114528132A (zh) * 2020-10-30 2022-05-24 伊姆西Ip控股有限责任公司 存储系统故障的深层次原因分析
US11775753B1 (en) * 2021-04-05 2023-10-03 Robert Stanley Grondalski Method for converting parser determined sentence parts to computer understanding state machine states that understand the sentence in connection with a computer understanding state machine
US20230069074A1 (en) * 2021-08-20 2023-03-02 Nec Laboratories America, Inc. Interdependent causal networks for root cause localization
CN113608916B (zh) * 2021-10-08 2022-01-04 苏州浪潮智能科技有限公司 故障诊断的方法、装置、电子设备及存储介质
CN114024836B (zh) * 2021-11-03 2023-08-25 中盈优创资讯科技有限公司 一种stn网络a环断点确定方法及装置
CN114785674A (zh) * 2022-04-27 2022-07-22 中国电信股份有限公司 故障定位方法及装置、计算机可存储介质
JP2024005871A (ja) * 2022-06-30 2024-01-17 株式会社日立製作所 プロセッサシステムおよび不具合診断方法
CN117540228A (zh) * 2022-07-29 2024-02-09 中兴通讯股份有限公司 故障处理方法、设备和存储介质
WO2024057531A1 (en) * 2022-09-16 2024-03-21 Rakuten Mobile, Inc. System, method, and medium for proactive monitoring of a network
CN116702073B (zh) * 2023-05-18 2024-03-15 德联易控科技(北京)有限公司 一种故障事件的提示方法、装置、电子设备及存储介质
CN117131457B (zh) * 2023-10-26 2024-01-26 杭州海兴泽科信息技术有限公司 基于ai模型的电力大数据采集处理方法及系统
CN117252351B (zh) * 2023-11-20 2024-02-02 上海熠源数据科技有限公司 基于ai大模型的生产质量辅助决策方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055684A1 (en) * 2007-08-23 2009-02-26 Jamjoom Hani T Method and apparatus for efficient problem resolution via incrementally constructed causality model based on history data
US20120005533A1 (en) * 2010-07-02 2012-01-05 Oracle International Corporation Methods And Apparatus For Cross-Host Diagnosis Of Complex Multi-Host Systems In A Time Series With Probablistic Inference
US20150170037A1 (en) * 2013-12-16 2015-06-18 Alcatel-Lucent Usa Inc. System and method for identifying historic event root cause and impact in a data center
US20150280968A1 (en) * 2014-04-01 2015-10-01 Ca, Inc. Identifying alarms for a root cause of a problem in a data processing system
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
CN109522192A (zh) * 2018-10-17 2019-03-26 北京航空航天大学 一种基于知识图谱和复杂网络组合的预测方法
US20190163551A1 (en) * 2017-11-30 2019-05-30 Optumsoft, Inc. Automatic root cause analysis using ternary fault scenario representation
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法
US20190286504A1 (en) * 2018-03-15 2019-09-19 Ca, Inc. Graph-based root cause analysis

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393386B1 (en) * 1998-03-26 2002-05-21 Visual Networks Technologies, Inc. Dynamic modeling of complex networks and prediction of impacts of faults therein
JP3711879B2 (ja) 2001-03-09 2005-11-02 三菱電機株式会社 ネットワーク障害解析装置およびネットワーク障害解析方法
JP4437416B2 (ja) 2004-03-05 2010-03-24 三菱電機株式会社 ネットワーク保守システム
JP4445300B2 (ja) 2004-03-18 2010-04-07 富士通株式会社 ネットワーク障害推定方法及びネットワーク障害推定装置
WO2017109903A1 (ja) 2015-12-24 2017-06-29 株式会社 東芝 異常原因推定装置及び異常原因推定方法
CN105956665B (zh) * 2016-04-29 2017-06-06 北京清睿智能科技有限公司 一种基于动态不确定因果图的启发式检测系统异常原因的方法
US10977574B2 (en) * 2017-02-14 2021-04-13 Cisco Technology, Inc. Prediction of network device control plane instabilities
US11281518B2 (en) * 2017-02-24 2022-03-22 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for fault localization in a cloud environment
US10708152B2 (en) * 2017-03-23 2020-07-07 Cisco Technology, Inc. Predicting application and network performance
US10873794B2 (en) * 2017-03-28 2020-12-22 Cisco Technology, Inc. Flowlet resolution for application performance monitoring and management
US10749883B1 (en) * 2017-05-02 2020-08-18 Hrl Laboratories, Llc Automatic anomaly detector
US10637715B1 (en) * 2017-05-02 2020-04-28 Conviva Inc. Fault isolation in over-the-top content (OTT) broadband networks
US10812318B2 (en) * 2017-05-31 2020-10-20 Cisco Technology, Inc. Associating network policy objects with specific faults corresponding to fault localizations in large-scale network deployment
US10776409B2 (en) * 2017-06-21 2020-09-15 International Business Machines Corporation Recommending responses to emergent conditions
US10902062B1 (en) * 2017-08-24 2021-01-26 Amazon Technologies, Inc. Artificial intelligence system providing dimension-level anomaly score attributions for streaming data
KR101910926B1 (ko) * 2017-09-13 2018-10-23 주식회사 티맥스 소프트 It 시스템의 장애 이벤트를 처리하기 위한 기법
US11106442B1 (en) * 2017-09-23 2021-08-31 Splunk Inc. Information technology networked entity monitoring with metric selection prior to deployment
US10594542B2 (en) * 2017-10-27 2020-03-17 Cisco Technology, Inc. System and method for network root cause analysis
US10666494B2 (en) * 2017-11-10 2020-05-26 Nyansa, Inc. System and method for network incident remediation recommendations
US10616043B2 (en) * 2017-11-27 2020-04-07 Google Llc Real-time probabilistic root cause correlation of network failures
CN112074834A (zh) * 2018-05-03 2020-12-11 西门子股份公司 用于运营技术系统的分析装置、方法、系统和存储介质
US20190384255A1 (en) * 2018-06-19 2019-12-19 Honeywell International Inc. Autonomous predictive real-time monitoring of faults in process and equipment
CN110659173B (zh) * 2018-06-28 2023-05-26 中兴通讯股份有限公司 一种运维系统及方法
US10942919B2 (en) * 2018-06-29 2021-03-09 Entigenlogic Llc Generating further knowledge to process query
US11743132B2 (en) * 2018-07-12 2023-08-29 Ribbon Communications Operating Company, Inc. Most probable cause determination for telecommunication events
US10679007B2 (en) * 2018-08-30 2020-06-09 Intelligent Fusion Technology, Inc. Method and system for pattern discovery and real-time anomaly detection based on knowledge graph
EP3633959B1 (en) * 2018-10-05 2024-05-15 Tata Consultancy Services Limited Automation of data analytics in an internet of things (iot) platform
US11388040B2 (en) * 2018-10-31 2022-07-12 EXFO Solutions SAS Automatic root cause diagnosis in networks
US11126493B2 (en) * 2018-11-25 2021-09-21 Aloke Guha Methods and systems for autonomous cloud application operations
US10915435B2 (en) * 2018-11-28 2021-02-09 International Business Machines Corporation Deep learning based problem advisor
US20200175406A1 (en) * 2018-11-30 2020-06-04 Silot Pte. Ltd. Apparatus and methods for using bayesian program learning for efficient and reliable knowledge reasoning
US11271795B2 (en) * 2019-02-08 2022-03-08 Ciena Corporation Systems and methods for proactive network operations
US11017572B2 (en) * 2019-02-28 2021-05-25 Babylon Partners Limited Generating a probabilistic graphical model with causal information
US11082287B2 (en) * 2019-03-11 2021-08-03 At&T Intellectual Property I, L.P. Data driven systems and methods to isolate network faults
US11531908B2 (en) * 2019-03-12 2022-12-20 Ebay Inc. Enhancement of machine learning-based anomaly detection using knowledge graphs
US11011183B2 (en) * 2019-03-25 2021-05-18 Cisco Technology, Inc. Extracting knowledge from collaborative support sessions
US11275791B2 (en) * 2019-03-28 2022-03-15 International Business Machines Corporation Automatic construction and organization of knowledge graphs for problem diagnoses
US11082434B2 (en) * 2019-04-06 2021-08-03 International Business Machines Corporation Inferring temporal relationships for cybersecurity events
US10679133B1 (en) * 2019-06-07 2020-06-09 Peritus.AI, Inc. Constructing and utilizing a knowledge graph for information technology infrastructure
US11115432B2 (en) * 2019-07-08 2021-09-07 Servicenow, Inc. Multi-application recommendation engine for a remote network management platform
US11138163B2 (en) * 2019-07-11 2021-10-05 EXFO Solutions SAS Automatic root cause diagnosis in networks based on hypothesis testing
US11765056B2 (en) * 2019-07-24 2023-09-19 Microsoft Technology Licensing, Llc Techniques for updating knowledge graphs for correlating service events in computer network diagnostics
US10805171B1 (en) * 2019-08-01 2020-10-13 At&T Intellectual Property I, L.P. Understanding network entity relationships using emulation based continuous learning
US11399037B2 (en) * 2019-09-06 2022-07-26 Paypal, Inc. Anomaly behavior detection in interactive networks
US20210103807A1 (en) * 2019-10-07 2021-04-08 Babylon Partners Limited Computer implemented method and system for running inference queries with a generative model
US11640465B2 (en) * 2019-11-13 2023-05-02 Vmware, Inc. Methods and systems for troubleshooting applications using streaming anomaly detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055684A1 (en) * 2007-08-23 2009-02-26 Jamjoom Hani T Method and apparatus for efficient problem resolution via incrementally constructed causality model based on history data
US20120005533A1 (en) * 2010-07-02 2012-01-05 Oracle International Corporation Methods And Apparatus For Cross-Host Diagnosis Of Complex Multi-Host Systems In A Time Series With Probablistic Inference
US20150170037A1 (en) * 2013-12-16 2015-06-18 Alcatel-Lucent Usa Inc. System and method for identifying historic event root cause and impact in a data center
US20150280968A1 (en) * 2014-04-01 2015-10-01 Ca, Inc. Identifying alarms for a root cause of a problem in a data processing system
CN107171819A (zh) * 2016-03-07 2017-09-15 北京华为数字技术有限公司 一种网络故障诊断方法及装置
US20190163551A1 (en) * 2017-11-30 2019-05-30 Optumsoft, Inc. Automatic root cause analysis using ternary fault scenario representation
US20190286504A1 (en) * 2018-03-15 2019-09-19 Ca, Inc. Graph-based root cause analysis
CN109522192A (zh) * 2018-10-17 2019-03-26 北京航空航天大学 一种基于知识图谱和复杂网络组合的预测方法
CN109992440A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于知识图谱和机器学习的it根故障分析识别方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098723B (zh) * 2021-06-07 2021-09-17 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113098723A (zh) * 2021-06-07 2021-07-09 新华三人工智能科技有限公司 一种故障根因定位方法、装置、存储介质及设备
CN113572633A (zh) * 2021-06-15 2021-10-29 阿里巴巴新加坡控股有限公司 根因定位方法、系统、设备及存储介质
CN113572633B (zh) * 2021-06-15 2023-05-19 阿里巴巴新加坡控股有限公司 根因定位方法、系统、设备及存储介质
CN113535449A (zh) * 2021-07-08 2021-10-22 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN113535449B (zh) * 2021-07-08 2024-05-03 平安科技(深圳)有限公司 异常事件修复处理方法、装置、计算机设备及存储介质
CN115883320A (zh) * 2021-09-27 2023-03-31 中国联合网络通信集团有限公司 网络设备异常分析方法、装置、电子设备及可读存储介质
CN114422325A (zh) * 2021-12-30 2022-04-29 优刻得科技股份有限公司 内容分发网络异常定位方法、装置、设备及存储介质
CN114978877B (zh) * 2022-05-13 2024-04-05 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN114978877A (zh) * 2022-05-13 2022-08-30 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN115022153A (zh) * 2022-06-07 2022-09-06 中国工商银行股份有限公司 故障根因分析方法、装置、设备和存储介质
CN115022153B (zh) * 2022-06-07 2024-04-23 中国工商银行股份有限公司 故障根因分析方法、装置、设备和存储介质
CN117436593A (zh) * 2023-12-18 2024-01-23 广州市意立环保科技有限公司 基于人工智能的焚烧炉系统故障预测方法及系统
CN117436593B (zh) * 2023-12-18 2024-05-24 广州市意立环保科技有限公司 基于人工智能的焚烧炉系统故障预测方法及系统

Also Published As

Publication number Publication date
US20210168021A1 (en) 2021-06-03
CN112887119B (zh) 2022-09-16
EP3882772A1 (en) 2021-09-22
JP7108674B2 (ja) 2022-07-28
KR20210068313A (ko) 2021-06-09
KR102480708B1 (ko) 2022-12-22
US11362884B2 (en) 2022-06-14
JP2021087222A (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
CN112887119B (zh) 故障根因确定方法及装置、计算机存储介质
CN112787841B (zh) 故障根因定位方法及装置、计算机存储介质
WO2022083540A1 (zh) 故障恢复预案确定方法、装置及系统、计算机存储介质
CN112491636B (zh) 数据处理方法及装置、计算机存储介质
EP3188409B1 (en) Oam mechanisms for evpn active-active services
US20060256733A1 (en) Methods and devices for discovering the topology of large multi-subnet LANs
CN110266550B (zh) 故障影响预测的方法及装置
CN112956158B (zh) 结构数据平面监视
Kozat et al. On optimal topology verification and failure localization for software defined networks
US9893979B2 (en) Network topology discovery by resolving loops
US20230254244A1 (en) Path determining method and apparatus, and computer storage medium
US10148515B2 (en) Determining connections of non-external network facing ports
US9667439B2 (en) Determining connections between disconnected partial trees
CN113190368A (zh) 实现表项检查的方法、装置及系统、计算机存储介质
CN110995502B (zh) 网络配置管理方法、装置、交换设备及可读存储介质
CN116132299A (zh) 一种处理方法及装置
US20230216763A1 (en) Network reachability verification method and apparatus, and computer storage medium
US9160626B2 (en) Method and apparatus for object grouping and state modeling for application instances
CN107733677A (zh) 一种叠加网络的告警生成方法和装置
CN114519095A (zh) 数据处理方法、装置及系统、计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant