CN114338417A - 网络系统的假设驱动的诊断 - Google Patents
网络系统的假设驱动的诊断 Download PDFInfo
- Publication number
- CN114338417A CN114338417A CN202011489036.2A CN202011489036A CN114338417A CN 114338417 A CN114338417 A CN 114338417A CN 202011489036 A CN202011489036 A CN 202011489036A CN 114338417 A CN114338417 A CN 114338417A
- Authority
- CN
- China
- Prior art keywords
- root cause
- network
- resource
- hypotheses
- hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 55
- 239000000523 sample Substances 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims 2
- 230000036541 health Effects 0.000 description 50
- 238000000899 pressurised-fluid extraction Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 10
- 238000013499 data model Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000013515 script Methods 0.000 description 6
- 230000001364 causal effect Effects 0.000 description 5
- 230000001934 delay Effects 0.000 description 5
- 238000013480 data collection Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000246 remedial effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/0636—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0681—Configuration of triggering conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Abstract
涉及网络系统的假设驱动的诊断。一种示例方法包括:由一个或多个处理器获得数据,该数据指示:网络中的多个资源之间的资源依赖性、以及多个网络事件与多个资源中的一个或多个资源之间的事件依赖性;基于多个资源的资源类型和多个网络事件的事件类型,生成贝叶斯模型;接收网络中的故障的指示;收集故障数据,并且基于贝叶斯模型和故障数据,生成针对故障的多个根本原因假设;基于与多个根本原因假设相关联的相应的根本原因概率,对多个根本原因假设进行排序;以及输出经排序的多个根本原因假设。
Description
技术领域
本公开涉及计算机网络,并且更具体地,涉及使用假设来指导诊断以诊断网络问题。
背景技术
计算机网络是可以交换数据和共享资源的互连计算设备的汇集。各种设备进行操作以促进计算设备之间的通信。例如,计算机网络可以包括路由器、交换机、网关、防火墙和各种其他设备,以提供和促进网络通信。这些设备可以向应用提供诸如当前状态、错误事件、和资源使用信息的信息,作为分析网络性能中的辅助并且用于分析系统中的错误。作为示例,这种信息对于确定系统中的错误的根本原因可以有用。
物联网(IoT)的数目的激增以及需要大型数据中心来托管云和Web应用,导致了对有效分析、评估、和/或控制复杂、异构和分布式网络的机制的需求。网络系统往往需要分布式和快速诊断解决方案技术来分析相关事件。在复杂的网络中,网络的底层中的故障可能会导致大量更高层的服务故障,这可以直接或可以不直接地被连接到发生故障的组件。
发明内容
本公开描述了用于生成和评估根本原因假设的技术,根本原因假设尝试解释网络中的故障或不利事件的原因。在一些示例中,系统(诸如网络健康监测器或控制器)可以基于被定义以用于网络的资源和事件来构造或被配置有贝叶斯模型。可以使用资源类型和事件类型而不是使用资源和事件的特定实例来定义贝叶斯模型。当网络故障出现时,系统将应用贝叶斯模型来提供潜在根本原因假设的集合,根本原因假设解释针对该故障所接收的故障数据,并且解释针对该集合中的每个假设的概率。系统可以使用被定义以用于资源的探测器来反驳集合中的一个或多个假设。然后,在一些情况下,系统可以向用户(诸如网络管理员)提供未被探测器反驳的其余假设的经排序集合,用户可以使用它来执行手动调查并且执行改善措施,以解决网络中的故障或不利事件。
在一个示例中,本公开描述了一种方法,方法包括:由一个或多个处理器获得数据,该数据指示:网络中的多个资源之间的资源依赖性、以及多个网络事件与多个资源中的一个或多个资源之间的事件依赖性;基于多个资源的资源类型和多个网络事件的事件类型,生成贝叶斯模型;接收网络中的故障的指示;收集故障数据,并且基于贝叶斯模型和故障数据,生成针对故障的多个根本原因假设;基于与多个根本原因假设相关联的相应的根本原因概率,对多个根本原因假设进行排序;以及输出经排序的多个根本原因假设。
在另一示例中,本公开描述了一种设备,该设备包括存储器和处理电路装置,该处理电路装置被配置为:获得数据,该数据指示:网络中的多个资源之间的资源依赖性、以及多个网络事件与多个资源中的一个或多个资源之间的事件依赖性;基于多个资源的资源类型和多个网络事件的事件类型,生成贝叶斯模型;接收网络中的故障的指示;收集故障数据,并且基于贝叶斯模型和故障数据,生成针对故障的多个根本原因假设;基于与多个根本原因假设相关联的相应的根本原因概率,对多个根本原因假设进行排序;以及输出经排序的多个根本原因假设。
在另外的示例中,本公开描述了一种在其上存储有指令的计算机可读存储介质,该指令在被执行时使一个或多个处理器:获得数据,该数据指示:网络中的多个资源之间的资源依赖性、以及多个网络事件与多个资源中的一个或多个资源之间的事件依赖性;基于多个资源的资源类型和多个网络事件的事件类型,生成贝叶斯模型;接收网络中的故障的指示;收集故障数据,并且基于贝叶斯模型和故障数据,生成针对故障的多个根本原因假设;基于与多个根本原因假设相关联的相应的根本原因概率,对多个根本原因假设进行排序;以及输出经排序的多个根本原因假设。
在附图和以下描述中阐明了本公开的一种或多种技术的细节。根据说明书和附图以及权利要求书,本发明的其他特征、目的和优点将变得明显。
附图说明
图1是图示根据本公开的一个或多个方面的示例网络的框图,该示例网络被配置为执行假设驱动的诊断。
图2是图示根据本公开的一个或多个方面的示例网络健康监测器的框图,该示例网络健康监测器可以用于执行根本原因分析。
图3是图示根据本公开的一个或多个方面的资源依赖性模型的示例部分的概念图。
图4是图示根据本公开的一个或多个方面的表示资源依赖性模型的示例依赖性图的概念图。
图5图示了根据本公开的一个或多个方面的示例贝叶斯模型,该示例贝叶斯模型可以由贝叶斯网络系统基于图4的资源依赖性图中图示的示例资源依赖性来生成。
图6是根据本公开的一个或多个方面的流程图,其图示了由示例网络健康监测器执行以生成潜在根本原因假设的操作。
图7A和图7B图示了资源类型和探测器属性的软件定义。
相同的附图标记贯穿全文和附图表示相同的元件。
具体实施方式
根本原因分析(RCA),也被称为故障诊断,是一种从可能的候选事件/条件的集合标识触发网络组件故障的启动条件或事件的过程,可能的候选事件/条件在离散时间窗口内被生成或存在于离散时间窗口内。对于运营商而言,RCA可以是重要的任务,以维护网络的正常运行。可以用于执行RCA的各种技术包括模型遍历技术和依赖性图技术。
模型遍历技术可以使用对象模型来确定故障传播。网络可以使用各种组件以及组件之间的关系被表示。基于表示网络的该模型,故障依赖性可以被推断,并且被用于标识问题的根本原因。模型遍历技术不直接指定故障依赖性,而是在运行时期间从模型导出故障依赖性。这些技术适于经常改变的网络。但是,就其本身而言,模型遍历技术不能处理更复杂的故障传播场景(例如,模型遍历技术通常使故障传播以一次仅发生一个问题的假设为基础,等等)。
依赖性图技术使用有向图来建模对象事件之间的依赖性。节点表示网络元件(例如,诸如网络设备和/或主机设备的设备)。从节点A:事件到节点B:事件的有向边指示:节点A中的故障可以引起节点B中的故障。依赖性图通常被用在不经常改变的网络中。在经常改变的网络中,依赖性需要被经常更新。如上所述,尤其是鉴于连接设备的数目的迅速增加,网络复杂性正在增加分布式网络的相对复杂的拓扑,并且正在增加物联网(IoT)的采用。由于设备能力和配置的差异,这些因素也导致网络的异构性。
典型网络的大小、复杂性和异构性可以导致表示网络的图和模型同样大并且复杂。可以将根本原因分析比喻为确定国际象棋游戏中的最佳移动。每个棋子可以具有多个选项以移动,并且每个移动之后都可以跟随有更多可选移动,从而在游戏期间产生数百万可能的移动。类似地,考虑到图中每个节点或模型中每个对象处的可能选项的数目,使用这样的图或模型执行根本原因分析可能甚至更加复杂。结果,使用模型遍历技术或依赖性图技术对表示网络配置的模型和/或图执行根本原因分析,可能由于执行这样的分析所需的计算资源而不切实际。
本文描述的技术可以使用网络的贝叶斯模型。贝叶斯模型中的节点可以表示资源类型和事件类型,而不是表示资源和事件的特定实例。贝叶斯模型可以使用剧本被最初创建,并且使用其他网络模型(诸如资源依赖性模型和诊断模型)被修改。贝叶斯模型可以包括概率值,该概率值指示具体资源类型是网络故障的根本原因的概率。换句话说,概率与资源类型相关联,而不是与资源的特定实例相关联。
现代数据中心和/或网络经常通过可靠性和服务水平而被评估、比较、和区分。在一些情况下,对于提供网络和计算服务以用于租用的数据中心,数据中心客户倾向于期望服务水平协议(“SLA”),这些协议规定或保证数据中心的端到端服务性能。因此,处理可能影响网络性能和服务SLA的故障或其他事件可能很重要。有时将诸如平均故障间隔时间(MTBF)和平均修复时间(MTTR)的度量用作SLA的基础。对于受这样的SLA约束的数据中心提供商,在检测到网络资源的故障时快速准确地做出反应特别重要。
本文描述的技术的实际应用包括可以自动标识网络故障的潜在根本原因的系统。附加地,系统可以接收来自用户的输入以确认根本原因或添加新的根本原因。因此,本文描述的技术的另外的实际应用是:系统可以被训练以更好地预测根本原因。本文描述的技术可以提供优于当前系统的技术优势。例如,由于资源类型少于所有资源类型的资源的实例,因此如本文所述使用资源类型所构造的贝叶斯模型比基于资源的实例的贝叶斯模型复杂性低。结果,与在评估针对资源的每个实例的概率的系统中相比,潜在根本原因的评估可以被更快地完成,并且利用更少的计算资源。这可以减少MTTR(SLA中的潜在重要因素)。附加地,根本原因观察可以跨资源类型的多个实例被应用,而不是仅应用于个体资源。这提供了可以跨相同资源类型的不同实例利用观察的优势。
图1是图示根据本公开的一个或多个方面的示例网络的框图,该示例网络被配置为执行假设驱动的诊断。网络102包括可以使用诸如控制器110的控制系统或控制器设备来管理的设备、组件或元件。在一些示例中,网络102可以是由企业或其他组织操作或管理的企业网络。网络102的被管理的元件114A-114G(统称为“元件114”)包括经由通信链路互连以形成使得能够交换资源和信息的通信拓扑的设备。元件114可以被组织为一个或多个资源组,并且可以包括例如路由器、交换机、网关、网桥、集线器、服务器、防火墙或其他入侵检测系统(IDS)或入侵防御系统、计算设备、计算终端、打印机、存储设备、其他网络设备、或这样的设备的组合。被直接或间接耦合到网络102的设备可以以分组、帧、或根据由任何其他协议定义的任何其他离散数据单元(诸如由异步传输模式(ATM)协议定义的信元,或由用户数据报协议(UDP)定义的数据报)来传输数据。将元件114互连的通信链路可以是物理链路(例如,光学、铜等)、无线链路或其任何组合。
网络102被示为经由通信链路被耦合到公共网络118(例如,因特网)。公共网络118可以包括例如一个或多个客户端计算设备。公共网络118可以提供对Web服务器、应用服务器、公共数据库、媒体服务器、最终用户设备、以及其他类型的网络资源设备和内容的访问。
控制器110可以被通信耦合到元件114。在一些示例中,控制器110形成设备管理系统的一部分,为了易于在图1中图示而示出了设备管理系统的仅一个设备。控制器110可以被直接或间接耦合到各个元件114。一旦元件114被部署和被激活,管理员112就可以使用控制器110(或多个这样的管理设备)利用设备管理协议来管理设备。一种示例设备协议是简单网络管理协议(SNMP),其允许控制器110遍历和修改管理信息库(MIB),管理信息库(MIB)存储在被管理元件114中的每个被管理元件内的配置数据。SNMP协议的另外的详细信息可以在以下文献中找到:Harrington等人,RFC 3411,“An Architecture for DescribingSimple Network Management Protocol(SNMP)Management Frameworks”,NetworkWorking Group,the Internet Engineering Task Force draft,2002年12月,其在tools.ietf.org/html/rfc3411处可获得,其全部内容通过引用并入本文。
控制器110(也被称为网络管理系统(NMS)或NMS设备)和元件114可以由企业的信息技术(IT)组维护。管理员112可以与控制器110交互,以远程监测和配置元件114。例如,管理员112可以:从控制器110接收有关元件114中任何一个元件的警报;查看元件114的配置数据;修改元件114的配置数据;向网络102添加新设备;从网络102移除现有设备;或者以其他方式操纵网络102和其中的设备。尽管本文关于企业网络进行了描述,但是本公开的技术还适用于公共和私有的其他网络类型,包括LAN、VLAN、VPN等。
在一些示例中,管理员112使用控制器110或本地工作站,例如通过telnet(远程登陆)、安全外壳(SSH)或其他这样的通信会话,来直接与元件114交互。也就是说,元件114通常提供用于直接交互的接口,诸如命令行接口(CLI)、基于Web的接口、图形用户接口(GUI)等,用户可以通过这些接口与设备交互以直接发出基于文本的命令。例如,这些接口通常允许用户例如通过telnet、安全外壳(SSH)、超文本传输协议(HTTP)、或其他网络会话与设备直接交互,以根据定义的语法录入文本,来将命令提交给被管理的元件。在一些示例中,用户使用控制器110发起与元件114中的一个元件(例如,元件14F)的SSH会话115,以直接配置元件14F。以该方式,用户可以以用于直接执行的格式将命令提供给元件114。
此外,管理员112还可以创建脚本,该脚本可以由控制器110提交给元件114中的任何一个元件或所有的元件114。例如,除了CLI接口之外,元件114还可以提供用于接收脚本的接口,所述脚本根据脚本语言来指定命令。在某种意义上,脚本可以由控制器110输出,以自动调用(invoke)被管理元件114上对应的远程程序调用(RPC)。脚本可以符合例如可扩展标记语言(XML)或另一种数据描述语言。
管理员112可以使用控制器110来配置元件114以指定某些操作特点,这些操作特点进一步实现管理员112的目标。例如,管理员112可以为元件114指定关于安全性、设备可访问性、业务工程、服务质量(QoS)、网络地址转换(NAT)、分组过滤、分组转发、速率限制的具体操作策略、或其他策略。控制器110使用一种或多种被设计用于管理被管理网络元件114内的配置数据的网络管理协议来执行配置,诸如,SNMP协议或网络配置协议(NETCONF)协议、或其派生(诸如,瞻博设备管理接口)。控制器110可以与元件114中的一个或多个元件建立NETCONF会话。
网络健康监测器106可以监测网络102,以确定网络102是否正在经历诸如故障、吞吐量问题或其他网络问题的问题。网络健康监测器106可以使用从控制器110、管理员112、以及从元件114接收的信息,来创建或接收网络102的一个或多个数据模型,该一个或多个数据模型可以被存储在模型数据库116中。如上所述,数据模型可以被用于描述网络中的元件以及网络中元件之间的依赖性。数据模型可以在假设驱动的诊断中由网络健康监测器106使用,以确定事件的潜在根本原因。例如,网络健康监测器106可以接收指示网络性能问题的事件信息,诸如网络102中的吞吐量问题或错误状况。网络健康监测器106可以将由控制器110创建的数据模型与由网络健康监测器106创建的数据模型一起使用,以生成关于问题的根本原因的多个假设。网络健康监测器106可以消除不可能的假设,并且基于其余假设的概率排名从其余假设之中选择最可能的根本原因。
网络健康监测器106可以将YANG建模用于被存储在模型数据库116中的数据模型以及可以被存储在配置数据库108中的低级设备配置模型。该数据可以包含跨YANG实体的关系,诸如列表项和容器。如本文更详细讨论的,控制器110可以将YANG数据模型转换为图数据模型,并且将YANG验证转换为数据验证。YANG在以下文献中被描述:(i)Bjorklund,“YANG—A Data Modeling Language for the Network Configuration Protocol(NETCONF)”,Internet Engineering Task Force,RFC 6020,2010年10月,在tools.ietf.org/html/rfc6020处可获得,(ii)Clemm等人,“A YANG Data Model forNetwork Topologies”,Internet Engineering Task Force,RFC 8345,2018年3月,在统一资源位置(URL)tools.ietf.org/html/rfc8345(有时被称为“RFC 8345”)处可获得。在2017年03月17日提交的、名称为:“Configuring And Managing Network Devices UsingProgram Overlay On Yang-Based Graph Database”的美国专利申请号15/462465中描述了使用针对高级配置数据的图模型来管理网络设备的技术,其全部内容通过引用并入本文。
图2是图示根据本公开的一个或多个方面的示例网络健康监测器的框图,该示例网络健康监测器可以用于执行根本原因分析。在图2图示的示例中,网络健康监测器106包括控制单元202、网络接口214和用户接口212。网络接口214表示可以将网络健康监测器106通信耦合到控制器110或其他外部设备(例如,图1的元件114中的任一个元件)的示例接口。网络接口214可以表示无线和/或有线接口,例如,以太网接口或无线电波,其被配置为根据无线标准(诸如,IEEE802.11无线联网协议中的一个或多个(诸如,802.11a/b/g/n或其他这样的无线协议)进行通信。尽管在图2的非限制性示例中图示了仅一个网络接口,但在各种示例中,网络健康监测器106可以包括多个网络接口。
控制单元202表示硬件、实施软件的硬件、和/或固件的任何组合,以用于实施归属于控制单元202及其组成模块和元件的功能性。当控制单元202包含软件或固件时,控制单元202还包括用于存储和执行软件或固件的任何必要硬件,诸如一个或多个处理器或处理单元。通常,处理单元可以包括一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、固定功能电路装置、可编程处理电路装置、或任何其他等效的集成或分立逻辑电路装置、以及这样的组件的任何组合。通常使用固定和/或可编程处理电路装置来实施处理单元。
用户接口212表示一个或多个接口,诸如管理员112的用户通过该接口与网络健康监测器106交互,例如以提供输入和接收输出。例如,用户接口212可以表示下述中的一个或多个:监测器、键盘、鼠标、触摸屏、触摸板、触控板、扬声器、相机、麦克风等。此外,尽管在该示例中,网络健康监测器106包括用户接口212,但是管理员112不需要直接与健康监测器106交互,而是可以例如经由网络接口214远程访问健康监测器106。
在图2图示的示例中,控制单元202执行网络根本原因分析器206、贝叶斯网络系统204、用户接口模块208、网络接口模块210、以及探测器222A-222N(统称为“探测器222”),以执行针对网络102的根本原因分析。控制单元202执行用户接口模块208,以从用户接口212接收输入和/或经由用户接口212提供输出。控制单元202还执行网络接口模块210,以经由网络接口214发送和接收数据(例如,以分组化的形式)。网络根本原因分析器206、贝叶斯网络系统204、用户接口模块208、网络接口模块210、以及探测器222A-222N可以被实施为相应的硬件单元,或者被实施在由适当的硬件基础设施实施的软件或固件中,或者被实施为上述的组合。
贝叶斯网络系统204可以创建和维护贝叶斯模型218,贝叶斯模型218描述网络资源类型和事件类型之间的关系,并且基于这样的依赖性描述根本原因。贝叶斯模型也可以被称为贝叶斯网络、信念网络、决策网络、或概率有向无环图模型。在一些方面,贝叶斯模型218是概率图模型,其经由有向无环图(DAG)表示变量的集合及变量的条件依赖性。DAG是具有定向链接的图,并且其不包含定向循环。
在一些方面,贝叶斯网络系统204基于资源依赖性模型216和诊断模型220中的信息创建贝叶斯模型218。资源依赖性模型216可以是图模型,其中图模型中的节点表示网络资源。该资源可以包括例如网络服务、硬件和/或软件单元、以及元件114的表。资源可以是物理资源或逻辑资源,其可以生成警报、事件、或其他类型的故障数据。因此,资源可以包括例如网络隧道(诸如标签交换路径(LSP))、虚拟专用网络(VPN)、虚拟路由和转发(VRF)表、硬件接口、逻辑接口等。资源依赖性模型216中的节点可以表示资源,并且节点之间的边可以表示依赖性。依赖性边可以跨设备资源、跨设备资源到服务、以及跨服务。在一些方面,资源依赖性模型216可以是可编程的,使得该模型可以随着资源和服务随时间改变而被创建和被改变。在一些方面,资源依赖性模型216和/或贝叶斯模型218可以由剧本224编程。关于资源依赖性模型216的创建和维护的更多细节可以在2020年08月04日提交的、名称为“USING A PROGRAMMABLE RESOURCE DEPENDENCY MATHEMATICAL MODEL TO PERFORM ROOTCAUSE ANALYSIS”、美国专利申请号16/947507中找到,其全部内容通过引用合并于此。
图3是图示资源依赖性模型的示例部分的概念图。在该示例中,资源依赖性模型包括资源A节点302、资源C节点304、和资源B节点306。在一些方面,网络健康监测器106以相反的顺序确定依赖性:
依赖性(资源)→[资源的列表]
因此,使用图3的资源依赖性模型作为示例,如果资源A使用资源B(如由从资源A节点302到资源B节点306的边310所示),则网络健康监测器可以生成以下资源依赖性模型:
依赖性(资源B)→[资源A,资源C]
资源节点A 302、C 304和B 306分别具有与该节点相关联的探测器222。在一些方面,探测器222可以与资源依赖性模型216中的资源节点相关联。探测器可以是可以被编程为执行操作以测试由资源节点表示的资源的软件、固件、或硬件模块。在一些示例中,探测器222可以:执行ping命令;执行双向转发检测(BFD);执行“Traceroute”命令;使与资源相关联的计数器相互关联;或者执行被设计为评估与资源节点相关联的资源的可操作性的其他操作。探测器可以涉及消息传递、查询资源、获取值、计算值、以及以其他方式确定资源的操作条件。阈值可以与探测器相关联。在一些方面,阈值可以是预先确定或可配置的值。在一些方面,可以例如使用机器学习算法来自动学习阈值。贝叶斯网络系统204可以使用阈值来确定资源是否“通过”由探测器222提供的测试。例如,针对资源的基于ping的探测器的阈值999可以指定1000个ping分组中的999个必须成功从该资源被返回,以便贝叶斯网络系统204认为该资源通过探测器测试。类似地,阈值100ms可以指定99%的ping尝试必须具有100ms以下的往返时间。对于基于BFD的探测器,阈值四(4)可以指定远程路由器资源上的路由信息需要不迟于BFD时间周期的四倍更新。
在图3图示的示例中,资源节点A 302与探测器222A和222B相关联,资源节点C 304与探测器222C相关联,并且资源节点B 306与探测器222A和222D相关联。如图3中所示,相同的探测器(例如,探测器222A)可以被指派给多于一个的资源节点。
在图7A和图7B中提供了XML代码的示例,该XML代码包括定义资源节点和探测器的数据字段。在图7A中,XML代码的部分702定义被标记为“ping”的探测器,并且定义探测器逻辑的位置(例如,路径)、参量以及触发探测器错误的条件。在图7B中,部分704包括定义LSP资源对象的字段。部分704中的LSP资源对象的定义包括关联706,关联706将ping探测器与LSP资源相关联。
图4是图示根据本公开的一个或多个方面的表示资源依赖性模型的示例依赖性图400的概念图。依赖性图400示出了具有多个资源层的资源组,包括槽401A、401B、401C、和401D(“槽401”),槽中的每个槽可以是与网络或网络设备相关联的许多端口集中器或模块化端口集中器中的一个。在图4中也图示了PFE 402A至402C(“PFE402”)、以太网接口403A至403D(“接口403”)、标签交换路径(LSP)404A至404C(“LSP 404”)、外部边界网关协议(eBGP)服务405A至405C(“eBGP服务405”)、虚拟路由和转发实例(VRF)406A至406C(“VRF 406”)、以及客户边缘设备或延时407A至407C(“客户边缘延时407”)。尽管在图4中图示了有限数目的槽401、PFE 402、接口403、LSP 404、VRF 406、客户边缘延时407,但本文描述的技术可以应用于具有任何数量的这样的资源或其他类型的资源的其他网络。
依赖性图400可以对应于网络(诸如,结合图1描述的网络102)的资源依赖性模型。依赖性图400图示了跨实例的每个集合或跨每个层(例如,跨槽401到PFE 402)的依赖性。依赖性图400中示出的任何实例(例如,PFE 402、接口403、LSP 404、eBGP服务405、VRF406、和/或客户边缘延时407中的任何一个)都可能会经历故障、不良、差错、或可能影响网络的操作的其他事件。例如,槽401A和PFE402中的每个PFE具有依赖性关系,其中影响槽401A的事件可以影响PFE 402中的每个PFE。类似地,影响PFE 402B的事件可以影响接口403中的一些接口或所有接口。
返回图2,诊断模型220捕获各种资源之间的因果(在本文中有时被称为“相关性”)关系。例如,诊断模型220可以反映跨在网络102上出现的事件的因果关系。事件可以是物理事件或逻辑事件,其可以从物理事件和/或网络状态被导出。因果关系被定义在资源和资源警报/事件之间。当因果关系被定义在资源之间时,资源上的警报或事件将对“支持资源”产生影响。当因果关系被定义在资源和资源警报/事件之间时,资源上的事件将对“被支持资源”事件产生影响。在一些方面,诊断模型220可以是可编程诊断模型,其可以由诸如控制器110的控制器来实现,并且可以由控制器110提供给网络健康监测器106。关于示例可编程诊断模型的创建和使用的细节可以在2020年03月17日提交的、名称为“PROGRAMMABLEDIAGNOSIS MODEL FOR CORRELATION OF NETWORK EVENTS”的美国专利申请16/821745和2020年07月14日提交的、名称为“FAILURE IMPACT ANALYSIS OF NETWORK EVENTS”的美国专利申请16/946994中找到,其全部内容通过引用以其整体并入于此。
如上所述,贝叶斯网络系统204基于资源依赖性模型216和诊断模型220中的数据生成贝叶斯模型218。控制器110可以生成资源依赖性模型216和诊断模型220,以供网络健康监测器106使用,网络健康监测器106可以使用资源依赖性模型216和诊断模型220来创建贝叶斯模型218。在一些方面,贝叶斯网络系统204可以基于模型216和220中的数据的子集来生成贝叶斯模型218,而不是将所有资源和事件包括在资源依赖性模型216和诊断模型220中。数据的子集可以表示资源依赖性模型216和诊断模型220中的资源和事件的更高级别的抽象。作为示例,贝叶斯网络系统204可以基于资源依赖性模型216和诊断模型220中的资源的类型和事件的类型来生成贝叶斯模型218,而不是基于资源和事件的实例。例如,贝叶斯模型218可以包括作为资源的抽象表示的节点。因此,单个边缘路由器节点可以表示系统中的任何不同类型的边缘路由器,而不管边缘路由器的制造商或边缘路由器的版本如何,而不是针对系统中的每个边缘路由器包括一个节点。
图5图示了根据本公开的一个或多个方面的示例贝叶斯模型500,其可以由贝叶斯网络系统204基于图4的资源依赖性图400中图示的示例资源依赖性来生成。示例贝叶斯模型500包括资源依赖性模型中的针对资源的每个类型的节点,而不是包括针对每个资源实例的节点。如图5中所示,示例贝叶斯模型500包括MPC槽节点502、PFE节点504、ET接口节点506、LSP节点508、E-BGP节点510、VRF节点512和CE延时节点514。图中的节点中的每个节点对应于一个资源类型,该资源类型代表依赖性模型中该类型的所有资源实例。结果,贝叶斯网络系统204生成如下的贝叶斯模型218:比所生成的包括针对资源的每个实例的节点的模型复杂性低并且更易于维护。例如,MPC槽节点502是代表针对MPC槽401A-401D的资源类型的类型节点。PFE节点504是代表针对PFE 402A-402C的资源类型的类型节点。ET接口节点506是代表针对ET接口403A-403D的资源类型的类型节点。LSP节点508是代表针对LSP404A-404C的资源类型的类型节点。E-BGP节点510是代表针对eBGP服务405A-405C的资源类型的类型节点。VRF节点512是代表针对VRF 406A-406C的资源类型的类型节点。最后,CE延时节点514是代表针对事件CE延时407A-407C的类型的类型节点。表1说明了与针对示例贝叶斯模型500的VRF 512相关联的示例概率。
表1
如示例贝叶斯模型500中所示,VRF 512与两个节点LSP 508和E-BGP 510关联。表1的LSP和E-BGP列指示对应资源是否存在故障数据,其中“T”指示存在故障数据,“F”指示不存在故障数据。在给定LSP和E-BGP的故障数据的四种可能组合的情况下,“T”列和“F”列提供LSP 508或E-BGP 510是VRF问题的根本原因的概率。因此,如果LSP 508和E-BGP 510都未指示故障,则LSP 508和E-BGP510都不太可能是VRF 512中故障的根本原因。如果LSP 508未指示故障,而E-BGP 510指示故障,则有80%的概率E-BGP 510是故障的根本原因。如果LSP508指示故障并且E-BGP 510未指示故障,则有90%的概率LSP 508是VRF 512中故障的根本原因。最后,如果LSP 508和E-BGP 510两者都指示故障,则有99%的概率LSP 508是故障的根本原因。
如通过比较图3和图4中图示的图可以看出的,基于资源和事件的类型而不是资源和事件的实例来生成贝叶斯模型导致更低的复杂性,并且因此更易于处理模型。例如,示例贝叶斯模型500中的节点的数目(7个节点)少于资源依赖性图400中的节点的数目(23个节点)。因此,贝叶斯模型500可以比资源依赖性模型400更有效地被评估和被维护。
返回图2,如上所述,贝叶斯模型218可以是概率图模型。贝叶斯模型中的概率可以指示与节点相关联的概率,即由该节点指示的资源的类型是与假设匹配的针对故障数据的根本原因的概率。换句话说,概率与资源类型而不是资源的特定实例相关联。在一些方面,贝叶斯网络系统204生成贝叶斯模型218,其中每个节点被初始化为在节点之间具有相等概率。
上面关于图2的讨论总体上描述了与配置和/或初始化用于网络健康监测器106或控制器110的贝叶斯网络系统204相关联的操作方面。这些操作方面可以在网络健康监测器106和/或控制器110的初始化期间发生。现在将讨论在网络102的操作期间,由贝叶斯网络系统204和/或网络健康监测器106对贝叶斯模型218的使用的方面。
网络健康监测器106可以从网络102的设备114和控制器110接收故障数据。故障数据可以描述可以与网络102(图1)中的设备114和/或链路相关联的事件和警报。控制单元202可以执行网络根本原因分析器206和贝叶斯网络系统204,以分析故障数据并且例如经由用户接口模块208和用户接口212将针对故障数据的潜在根本原因提供给管理员112。
在一些方面,网络健康监测器106可以确定故障数据收集是否完成。如果故障数据收集完成,则网络健康监测器106可以使用贝叶斯网络系统204基于故障数据来确定一个或多个根本原因假设。如果故障数据收集未完成,则网络健康监测器106可以延长观察时段,并且等待另外的故障数据到达。这样的数据可以被称为“迟到”故障数据。在一些方面,如果与故障节点相对应的资源和与故障节点的子节点相对应的子资源的可编程百分比或预先确定百分比报告了故障,则可以认为故障数据收集完成。作为示例,考虑具有十个LSP的网络系统。假设从LSP中的五个LSP接收到指示警报的故障数据。这可能是只有五个故障LSP的情况。但是,这也可能是所有十个LSP都故障的情况,但尚未接收针对尚未报告任何故障数据的五个LSP的故障数据。备选地,与十个LSP相关联的网络接口可能发生故障,并且尚未报告与该接口相关联的故障数据。在该情况下,开始根本原因分析可能为时过早,因为可能要接收可以支持更好或更具体的根本原因分析的更多故障数据。
网络根本原因分析器206可以确定故障数据是否足够完整,并且如果是,则生成与故障数据相对应的根本原因假设的集合。例如,根本原因假设的集合是潜在根本原因,其中故障数据与针对根本原因的条件匹配。如果故障数据不完整,则网络根本原因分析器206可以延长观察时段并且等待另外的故障数据到达。作为示例,故障节点可能在相对长时间内不发送警报。但是,根本原因分析可以在相邻节点检测到可能由故障节点引起的中断之后的某个时间开始。在该情况下,可能需要等待一些时间来等待警报从专用节点到达,但是如果警报没有及时到达,则网络根本原因分析器206可以开始根本原因分析。一旦接收到第一个故障(许多其他故障尚未明朗),根本原因分析就可以开始。但是,由于“故障模式”不完整,因此根本原因分析可以涉及考虑许多可能的根本原因,如果足够的故障信息可用,这些可能的根本原因很容易被驳回。
贝叶斯网络系统204可以基于由网络健康监测器106接收的故障数据来评估根本原因假设的集合。集合中的每个假设可以标识贝叶斯模型218中使该假设被生成的一个或多个节点。贝叶斯网络系统204可以使用贝叶斯模型218向所生成的根本原因假设的集合中的每个根本原因假设指派概率。例如,贝叶斯网络系统204可以将故障数据与资源和事件依赖性进行比较,以确定潜在根本原因假设的集合,并且确定与集合中的每个根本原因假设相关联的概率。
贝叶斯网络系统204可以使探测器222被执行以用于根本原因假设的集合中所指示的资源。在一些方面,探测器222可以被用来尝试反驳假设。例如,根本原因假设的集合中的一个根本原因假设可能是“如果未从源节点接收到分组,则路由引擎可能关闭”。可能存在两种可能性,可能没有分组要由路由引擎转发(这不是故障),或者在路由引擎中可能存在阻止分组被转发的内部故障。被配置为执行ping命令的探测器222可以与资源依赖性模型216中的路由引擎资源节点相关联。贝叶斯网络系统204可以执行针对路由引擎的探测器,例如,贝叶斯网络系统可以向路由引擎发出ping命令。如果接收到对ping命令的响应,则根本原因假设被反驳,因为如果接收到ping响应,则路由引擎正在操作。贝叶斯网络系统204因此可以从根本原因假设的集合移除被反驳的根本原因假设。在该情况下,可以使用ping探测器来区分路由引擎没有需要转发的分组的情况与阻止分组被转发的内部故障。
在贝叶斯网络系统204执行了与资源类型相关联的探测器并且从根本原因假设的集合移除了任何被反驳的根本原因假设之后,贝叶斯网络系统204可以对该集合中的其余根本原因假设进行排名。在一些方面,根本原因假设可以根据贝叶斯模型218中所指派的概率而被排名。
在一些方面,网络健康监测器106可以利用用户接口模块208,以经由用户接口212向管理员112呈现经排序的根本原因假设。在一些其他方面,网络健康监测器106可以利用网络接口模块210,以经由网络接口214向另一系统(例如,日志记录或管理性系统)传输经排序的根本原因假设。管理员112可以查看根本原因假设,并且确定根本原因假设中的哪个根本原因假设(如果有的话)是正确的。
在一些方面,网络健康监测器106可以响应于网络中的故障,而从用户(例如,管理员112)接收关于被呈现给用户的根本原因假设的集合的反馈。例如,用户可以提供确认假设正确或指示假设不正确的反馈。响应于该反馈,贝叶斯网络系统204可以调整与对应的根本原因假设相关联的概率。例如,响应于接收到根本原因假设正确地描述了故障的反馈,贝叶斯网络系统204可以增加与对应的根本原因假设相关联的概率。类似地,响应于接收到根本原因假设不正确的反馈,贝叶斯网络系统204可以降低与对应的根本原因假设相关联的概率。作为另一示例,用户可以向资源模型216中的资源节点添加新探测器,该新探测器可以协助验证与节点的资源类型相关联的根本原因假设。例如,可能存在以下情况:呈现给用户的所有潜在根本原因假设可能不正确。用户可以创建新的根本原因假设,并且可以选取可以被用于反驳假设的资源探测器。可以例如经由用户接口212将新的根本原因假设添加到贝叶斯模型218。
在一些方面,网络健康监测器106可以在经排序的根本原因假设的集合中选择最可能的根本原因假设,并且基于所选择的根本原因假设自动执行补救动作。例如,如果所选择的根本原因假设指示网络节点关闭,则网络健康监测器106可以采取动作来复位或重新引导(reboot)网络节点以使网络节点回到操作状态。在基于上述用户反馈对贝叶斯模型218进行充分训练之后,可以进行补救动作的自动选择。在一些其他方面,可以导入或安装已经在不同网络上充分训练的贝叶斯218,以在当前网络上使用,从而避免了需要训练针对当前网络的贝叶斯模型218。
现在将给出上述系统的操作的一个示例。出于示例的目的,示例网络包括三个节点N1、N2和N3。从N1到N3以及从N3到N1的LSP的集合分别被标记为LSP13和LSP31。在该示例中,故障使PFE1“忘记”LSP13的标签。结果,LSP13的网络分组被丢弃,并且没有出现在预期的接口计数器上。
在故障之前,从资源模型和诊断模型导出贝叶斯模型。探测器在贝叶斯网络模型中与资源模型中的可用探测器相关联。在该示例中,探测器可以包括ping、BFD、traceroute探测器等。
故障的症状可以是:针对以太网虚拟专用线(EVPL)的以太网操作、管理和维护(OAM)在节点N3上超时。当故障被报告给网络健康监测器时,网络根本原因分析器206可以确定可用故障信息是否完整。在该示例中,网络根本原因分析器206可以确定基础资源(例如,与子资源节点相关联的资源)是否也生成了故障数据(例如,警报)。在该示例中,节点N1也可以报告OAM超时。
网络根本原因分析器206可以基于资源依赖性模型中的服务器资源来生成多个根本原因假设。除上述警报之外,网络中还存在以下情况。
1.LDP和BGP不显示错误或异常
2.LSP13和LSP31被配置并且不提供警报
3.PFE没有警报
4.以太网接口ETH-x未发出警报
贝叶斯网络系统204可以基于贝叶斯模型218对假设进行评分。如上所述,在初始状态下,贝叶斯模型中的资源中的每个资源具有相等概率。贝叶斯网络系统204可以执行与资源相关联的探测器,以尝试反驳假设中的每个假设。在该示例中,假定探测器产生以下结果:
1.与PFE资源相关联的探测器获取指示PFE正在转发分组的分组转发统计,因此PFE可操作,并且PFE是根本原因的PFE假设被反驳。
2.与节点资源关联的探测器从节点N1 ping节点N3,反之亦然。两个节点都对ping作出响应,指示节点的以太网接口可操作。因此,节点N3和N1可操作,并且指示节点N3或节点N1是根本原因的根本原因假设被反驳。
3.与LSP资源相关联的探测器ping LSP31。对ping的响应被接收,指示LSP31是操作。因此,指示LSP31是根本原因的假设被反驳。
4.与LSP资源关联的探测器ping LSP13。没有接收到对ping的响应。因此,指示LSP13的假设未被反驳。
贝叶斯网络系统204对未被反驳的假设(例如,LSP13是根本原因)进行排名,并且网络健康监测器106以概率顺序呈现假设。网络健康监测器106可以寻求用户输入来确认假设,可能基于手动根本原因分析技术。在该示例中,实际根本原因是故障的PFE,并且因此与贝叶斯网络系统204预测的根本原因不同(例如,LSP13关闭)。用户可以提供输入以选择贝叶斯模型中的不同节点,不同节点指示PFE是潜在根本原因,并且可以选择旨在改进贝叶斯网络系统204的预测的探测器。网络健康监测器106可以接收该输入并且相应地修改贝叶斯模型218和/或资源依赖性模型216。
图2中图示和/或在本公开的其他地方图示或描述的模块(例如,网络健康监测器106、网络根本原因分析器206、贝叶斯网络系统204、UI模块208、网络接口模块210、探测器222A-222N(统称为“探测器222”))可以使用驻留在一个或多个计算设备中和/或在一个或多个计算设备处执行的软件、硬件、固件、或硬件、软件和固件的混合来执行所描述的操作。例如,计算设备可以用多个处理器或多个设备来执行这样的模块中的一个或多个模块。计算设备可以执行这样的模块中的一个或多个模块作为在底层硬件上执行的虚拟机。这样的模块中的一个或多个模块可以作为操作系统或计算平台的一个或多个服务来执行。这样的模块中的一个或多个模块可以作为计算平台的应用层处的一个或多个可执行程序来执行。在其他示例中,由模块提供的功能性可以由专用硬件设备来实施。
尽管某些模块、数据存储、组件、程序、可执行文件、数据项、功能单元和/或在一个或多个存储设备内包括的其他项目可以被分开图示,但是这种项目中的一个或多个可以被组合并且作为单个模块、组件、程序、可执行文件、数据项或功能单元操作。例如,一个或多个模块或数据存储可以被组合或部分组合,使得它们作为单个模块操作或提供功能。此外,一个或多个模块可以彼此交互和/或结合地操作,使得例如一个模块充当另一个模块的服务或扩展。此外,每个模块、数据存储、组件、程序、可执行文件、数据项、功能单元或在存储设备内图示的其它项可以包括多个组件、子组件、模块、子模块、数据存储和/或其他未图示的组件或模块或数据存储。
此外,每个模块、数据存储、组件、程序、可执行文件、数据项、功能单元或存储设备内图示的其他项目可以以可下载或预先安装的应用或“app”来实现。在一些其他示例中,每个模块、数据存储、组件、程序、可执行文件、数据项、功能单元、或在存储设备内图示的其他项目可以被实现为在计算设备上执行的操作系统的一部分。
图6是根据本公开的一个或多个方面的流程图,其图示了由示例网络健康监测器执行以生成潜在根本原因假设的操作。下面在图1和图2的控制器110和网络健康监测器106的上下文内描述图6。在一些其他示例中,图6中描述的操作可以由一个或多个其他组件、模块、系统、或设备执行。此外,在一些其他示例中,结合图6描述的操作可以被合并、被以不同的顺序执行、被并行地执行、被省略、或者可以包含未具体示出或描述的附加操作。
在图6中所图示并且根据本文描述的技术的一个或多个方面的过程中,网络健康监测器106可以获得数据,该数据指示网络中的资源之间的资源依赖性、以及网络事件与资源中的一个或多个资源之间的事件依赖性(605)。例如,网络健康监测器106可以从控制器110获得指示资源和事件依赖性的数据。
网络健康监测器106生成比资源依赖性模型或诊断模型更高级别的贝叶斯模型(610)。例如,贝叶斯模型中的节点可以是资源的资源类型和网络事件的事件类型,而不是特定的资源实例或事件实例。
网络健康监测器106接收网络中的故障的指示(615)。指示可以是警报或网络中出现的事件。响应于故障的指示,网络健康监测器106收集故障数据,并且基于贝叶斯模型,生成根本原因假设的集合(620)。故障数据可以包括作为警报或事件的一部分而被提供的数据,该数据最初指示网络中的故障。
对于集合中的每个根本原因假设,网络健康监测器106可以执行探测器,该探测器与故障数据中所标识的资源相关联并且与根本原因假设相关联。在一些方面,探测器的输出可以被用于反驳假设。如果探测器的输出反驳了假设(625),则从根本原因假设的集合移除该根本原因假设(630,625的“是”分支)。如果探测器的输出没有反驳该假设,则获得该集合中的下一个根本原因假设(如果有的话)(625的“否”分支)。
可以可选地基于如由贝叶斯模型所确定的根本原因假设的概率,来对根本原因假设的集合中的其余假设进行排序(635)。其余的根本原因假设的集合可以被输出(640)。例如,可以经由用户接口向用户显示其余假设的集合。
对于包括在任意流程图表或流程图中的本文所描述的过程、装置和其他示例或图示,本文所描述的任何技术中包括的某些操作、动作、步骤或事件可以以不同序列执行,可以被添加、合并或完全忽略(例如,并非所有描述的动作或事件对于技术的实践都是必需的)。另外,在某些示例中,操作、动作、步骤或事件可以例如通过多线程处理、中断处理或多个处理器同时地而不是顺序地被执行。另外的某些操作动作、步骤或事件可以自动被执行,即使没有明确标识为自动地被执行。另外,被描述为自动地被执行的某些操作、动作、步骤或事件可以备选地不是自动被执行,而是在一些示例中,这种操作、动作、步骤或事件可以响应于输入或另一事件而被执行。
为了便于说明,在附图和/或本文中引用的其他图示中仅示出了有限数目的设备。然而,根据本公开的一个或多个方面的技术可以与更多这种系统、组件、设备、模块和/或其他项一起被执行,并且对这种系统、组件、设备、模块和/或其他项的集体引用可以表示任何数目的这种系统、组件、设备、模块和/或其他项。
本文包括的附图均图示了本公开的一个方面的至少一个示例实现。然而,本公开的范围不限于这种实现。因此,除了图中所图示的那些之外,本文描述的系统、方法或技术的其他示例或备选实现在其他情况下可能是合适的。这种实现可以包括附图中包括的设备和/或组件的子集和/或可以包括附图中未示出的附加设备和/或组件。
以上阐述的详细描述旨在作为各种配置的描述,并且不旨在表示可以实践本文描述的概念的仅有配置。详细描述包括具体细节,以便提供对各种概念的充分理解。然而,可以在没有这些具体细节的情况下实践这些概念。在一些实例中,在引用的图中以框图形式示出了公知的结构和组件,以避免模糊这种概念。
因此,尽管可以参考特定附图描述各种系统、设备和/或组件的一个或多个实现,但是这种系统、设备和/或组件可以以多种不同方式实现。例如,在本文中作为分离的设备而被图示的一个或多个设备可以备选地被实现为单个设备;作为分离的组件而被图示的一个或多个组件可以备选地被实现为单个组件。另外,在一些示例中,在本文的图中作为单个设备而图示的一个或多个设备可以备选地被实现为多个设备;作为单个组件而图示的一个或多个组件可以备选地被实现为多个组件。这种多个设备和/或组件中的每一个可以经由有线或无线通信而直接耦合和/或经由一个或多个网络而远程耦合。另外,可以在本文的各个图中图示的一个或多个设备或组件可以备选地被实现为这种图中未示出的另一设备或组件的一部分。以这种方式和其他方式,本文描述的一些功能可以经由两个以上设备或组件的分布式处理来执行。
另外,某些操作、技术、特征和/或功能在本文中可以被描述为由特定组件、设备和/或模块执行。在其他的一些示例中,这种操作、技术、特征和/或功能可以由不同的组件、设备或模块来执行。因此,可以在本文中被描述为属于一个或多个组件、设备或模块的一些操作、技术、特征和/或功能可以在其他的一些示例中属于其他组件、设备和/或模块,即使本文没有以这种方式具体描述。
尽管已经结合一些示例的描述标识了特定优点,但是各种其他示例可以包括所列举的优点中的一些、没有或全部。根据本公开,技术或其他方面的其他优点对本领域技术人员变得显而易见。另外,尽管本文已经公开了特定示例,但是可以使用任何数目的技术来实现本公开的方面,无论当前是否已知,因此,本公开不限于本公开中具体描述和/或图示的示例。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任意组合来实现。如果以软件实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上和/或通过计算机可读介质进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括:对应于诸如数据存储介质的有形介质的计算机可读存储介质、或包括促进将计算机程序从一处传递到另一处(例如,依照通信协议)的任意介质的通信介质。以这种方式,计算机可读介质通常可以对应于(1)非暂态的有形计算机可读存储介质或(2)诸如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以获取用于实现本公开中描述的技术的指令、代码和/或数据结构的任意可用介质。计算机程序产品可以包括计算机可读介质。
作为示例而非限制,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、光盘存储器、磁盘存储或其它磁存储设备、闪存或可以用于以指令或数据结构的形式存储期望的程序代码并可以由计算机访问的任意其他介质。另外,任何连接都被适当地称为计算机可读介质。例如,如果指令使用同轴电缆、光纤电缆、双绞线或诸如红外线、无线电和微波的无线技术从网站、服务器或其他远程源传输,则同轴电缆、光纤电缆、双绞线或诸如红外、无线电和微波的无线技术都包括在介质的定义中。然而,应当理解的是,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂态介质,而是代之针对非暂态、有形的存储介质。上述的组合也应当被包括在计算机可读介质的范围内
指令可以由诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等价的集成或离散逻辑电路装置的一个或多个处理器执行。因此,本文使用的术语“处理器”或“处理电路装置”可以均指代任何前述结构或适于所描述的技术的实现的任何其他结构。另外,在一些示例中,所描述的功能可以在专用硬件和/或软件模块内提供。另外,这些技术可以完全在一个或多个电路或逻辑元件中实现。
本公开的技术可以在各种各样的设备或装置中实现,包括无线电话、移动或非移动计算设备、可穿戴或不可穿戴计算设备、集成电路(IC)或IC的集合(例如芯片组)。在本公开中描述了各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能方面,但是不一定需要通过不同的硬件单元来实现。相反,如上所述,各种单元可以组合在硬件单元中或者通过包括如上所述的一个或多个处理器的互操作硬件单元的集合结合合适的软件和/或固件来提供。
Claims (19)
1.一种方法,包括:
由一个或多个处理器获得数据,所述数据指示:网络中的多个资源之间的资源依赖性、以及多个网络事件与所述多个资源中的一个或多个资源之间的事件依赖性;
基于所述多个资源的资源类型和所述多个网络事件的事件类型,生成贝叶斯模型;
接收所述网络中的故障的指示;
收集故障数据,并且基于所述贝叶斯模型和所述故障数据,生成针对所述故障的多个根本原因假设;
基于与所述多个根本原因假设相关联的相应的根本原因概率,对所述多个根本原因假设进行排序;以及
输出经排序的所述多个根本原因假设。
2.根据权利要求1所述的方法,还包括:
执行与所述多个根本原因假设中的根本原因假设相关联的探测器,并且响应于确定所述探测器反驳了所述根本原因假设,从所述多个根本原因假设移除所述根本原因假设。
3.根据权利要求1所述的方法,还包括:
接收对所述多个根本原因假设中的根本原因假设的确认;以及
增加与对应于经确认的所述根本原因假设的每个节点相关联的概率。
4.根据权利要求1至3中任一项所述的方法,还包括
确定所述故障数据是否完整;以及
响应于确定所述故障数据完整,等待第一时间段,并且在所述第一时间段消逝之后,生成所述多个根本原因假设。
5.根据权利要求4所述的方法,还包括:
响应于确定所述故障数据不完整,等待比所述第一时间段长的第二时间段,并且在所述第二时间段消逝之后,生成所述多个根本原因假设。
6.根据权利要求4所述的方法,其中确定所述故障数据完整包括:确定阈值百分比的子资源已提供故障信息,其中所述子资源对应于资源依赖性模型中的资源节点的子节点,并且所述资源节点对应于提供了所述故障数据的资源。
7.根据权利要求1至3中任一项所述的方法,还包括:
接收所述多个根本原因假设中的用户生成的根本原因假设;
接收与所述用户生成的根本原因假设相关联的探测器的指示;以及
将所述用户生成的根本原因假设添加到所述贝叶斯网络。
8.根据权利要求7所述的方法,其中所述探测器包括新探测器,并且其中所述方法还包括:接收资源节点的资源特性到所述新探测器的输入的映射。
9.根据权利要求1至3中任一项所述的方法,还包括:将与所述贝叶斯模型的每个节点相关联的概率初始化为相等概率。
10.一种设备,包括:
存储器和处理电路装置,所述处理电路装置被配置为:
获得数据,所述数据指示:网络中的多个资源之间的资源依赖性、以及多个网络事件与所述多个资源中的一个或多个资源之间的事件依赖性;
基于所述多个资源的资源类型和所述多个网络事件的事件类型,生成贝叶斯模型;
接收所述网络中的故障的指示;
收集故障数据,并且基于所述贝叶斯模型和所述故障数据,生成针对所述故障的多个根本原因假设;
基于与所述多个根本原因假设相关联的相应的根本原因概率,对所述多个根本原因假设进行排序;以及
输出经排序的所述多个根本原因假设。
11.根据权利要求10所述的设备,其中所述处理电路装置还被配置为:
执行与所述多个根本原因假设中的根本原因假设相关联的探测器,并且响应于确定所述探测器反驳了所述根本原因假设,从所述多个根本原因假设移除所述根本原因假设。
12.根据权利要求10所述的设备,其中所述处理电路装置还被配置为:
接收对所述多个根本原因假设中的根本原因假设的确认;以及
增加与对应于所述经确认的根本原因假设的每个节点相关联的概率。
13.根据权利要求10至12中任一项所述的设备,其中所述处理电路装置还被配置为:
确定所述故障数据是否完整;以及
响应于确定所述故障数据完整,等待第一时间段,并且在所述第一时间段消逝之后,生成所述多个根本原因假设。
14.根据权利要求13所述的设备,其中所述处理电路装置还被配置为:
响应于确定所述故障数据不完整,等待比所述第一时间段长的第二时间段,并且在所述第二时间段消逝之后,生成所述多个根本原因假设。
15.根据权利要求13所述的设备,其中确定所述故障数据完整包括:确定阈值百分比的子节点已提供故障信息。
16.根据权利要求10至12中任一项所述的设备,其中所述处理电路装置还被配置为:
接收所述多个根本原因假设中的用户生成的根本原因假设;
接收与所述用户生成的根本原因假设相关联的探测器的指示;以及
将所述用户生成的根本原因假设添加到所述贝叶斯模型。
17.根据权利要求16所述的设备,其中所述探测器包括新探测器,并且其中所述指令还包括用于接收资源节点的资源特性到所述新探测器的输入的映射的指令。
18.根据权利要求10至12中任一项所述的设备,其中所述处理电路装置还被配置为:将与所述贝叶斯模型的每个节点相关联的概率初始化为相等概率。
19.一种被编码有指令的计算机可读存储介质,所述指令用于使一个或多个可编程处理器执行根据权利要求1至9中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/032,799 US11888679B2 (en) | 2020-09-25 | 2020-09-25 | Hypothesis driven diagnosis of network systems |
US17/032,799 | 2020-09-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114338417A true CN114338417A (zh) | 2022-04-12 |
Family
ID=73855169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011489036.2A Pending CN114338417A (zh) | 2020-09-25 | 2020-12-16 | 网络系统的假设驱动的诊断 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11888679B2 (zh) |
EP (1) | EP3975478B1 (zh) |
CN (1) | CN114338417A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024182914A1 (en) * | 2023-03-03 | 2024-09-12 | Mavenir Systems, Inc. | Method for enabling automated repair action based on alarms |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220215243A1 (en) * | 2021-01-05 | 2022-07-07 | Capital One Services, Llc | Risk-Reliability Framework for Evaluating Synthetic Data Models |
US12106026B2 (en) | 2021-01-05 | 2024-10-01 | Capital One Services, Llc | Extensible agents in agent-based generative models |
US11729202B2 (en) * | 2021-03-17 | 2023-08-15 | Butchershop Creative, LLC | Reducing project failure probability through generation, evaluation, and/or dependency structuring of a critical event object |
US11411805B1 (en) * | 2021-07-12 | 2022-08-09 | Bank Of America Corporation | System and method for detecting root cause of an exception error in a task flow in a distributed network |
US11706130B2 (en) * | 2021-07-19 | 2023-07-18 | Cisco Technology, Inc. | Root-causing user experience anomalies to coordinate reactive policies in application-aware routing |
US12074807B2 (en) * | 2022-08-26 | 2024-08-27 | Ciena Corporation | Detecting shortfalls in an agreement between a publisher and a subscriber |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5381417A (en) * | 1992-02-25 | 1995-01-10 | Hewlett Packard Company | Circuit testing system |
WO2003005200A1 (en) * | 2001-07-06 | 2003-01-16 | Computer Associates Think, Inc. | Method and system for correlating and determining root causes of system and enterprise events |
US20050137762A1 (en) * | 1997-10-28 | 2005-06-23 | Snap-On Technologies, Inc. | System for dynamic diagnosis of apparatus operating conditions |
US20090094076A1 (en) * | 2007-10-05 | 2009-04-09 | Reddy Sudhakar Y | Method and system using linear programming for estimating test costs for bayesian diagnostic models |
US7636424B1 (en) * | 2004-04-30 | 2009-12-22 | Sprint Comminications Company L.P. | Method and system for selectively displaying alarms in a communications network |
WO2010033106A1 (en) * | 2008-09-16 | 2010-03-25 | The Boeing Company | Method and system using linear programming for estimating test costs for bayesian diagnostic models |
CN103403686A (zh) * | 2010-12-30 | 2013-11-20 | 施耐德电气It公司 | 用于根本原因分析的系统和方法 |
US20150003595A1 (en) * | 2011-04-25 | 2015-01-01 | Transparency Sciences, Llc | System, Method and Computer Program Product for a Universal Call Capture Device |
US20150074035A1 (en) * | 2013-09-02 | 2015-03-12 | Appnomic Systems Private Limited | Detecting root cause for transaction degradation using causal bayesian networks |
CN104462842A (zh) * | 2014-12-22 | 2015-03-25 | 厦门大学 | 一种基于贝叶斯网络的故障数据挖掘诊断方法 |
CN105227342A (zh) * | 2014-06-27 | 2016-01-06 | 瞻博网络公司 | 用于网络服务域中的服务规划和配置的图形数据库 |
CN107317695A (zh) * | 2016-04-26 | 2017-11-03 | 瞻博网络公司 | 用于调试网络节点内联网故障的方法、系统和装置 |
US20170372212A1 (en) * | 2016-06-28 | 2017-12-28 | Ca, Inc. | Model based root cause analysis |
US20180218264A1 (en) * | 2017-01-30 | 2018-08-02 | Conduent Business Services, Llc | Dynamic resampling for sequential diagnosis and decision making |
CN109523786A (zh) * | 2018-11-30 | 2019-03-26 | 哈尔滨工业大学 | 一种高速公路交通事故成因分析方法 |
US20190165988A1 (en) * | 2017-11-27 | 2019-05-30 | Google Llc | Real-time probabilistic root cause correlation of network failures |
US20190230003A1 (en) * | 2013-03-15 | 2019-07-25 | NetBrain Technologies, Inc. | System for creating network troubleshooting procedure |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5130936A (en) * | 1990-09-14 | 1992-07-14 | Arinc Research Corporation | Method and apparatus for diagnostic testing including a neural network for determining testing sufficiency |
US6154849A (en) | 1998-06-30 | 2000-11-28 | Sun Microsystems, Inc. | Method and apparatus for resource dependency relaxation |
US6336138B1 (en) | 1998-08-25 | 2002-01-01 | Hewlett-Packard Company | Template-driven approach for generating models on network services |
GB0127551D0 (en) * | 2001-11-16 | 2002-01-09 | Abb Ab | Analysing events |
US6847970B2 (en) | 2002-09-11 | 2005-01-25 | International Business Machines Corporation | Methods and apparatus for managing dependencies in distributed systems |
DE60309286T2 (de) | 2003-04-23 | 2007-05-31 | Comptel Corp. | Ereignisvermittlung |
CA2433379A1 (en) | 2003-06-25 | 2004-12-25 | Ibm Canada Limited - Ibm Canada Limitee | Modulo scheduling of multiple instruction chains |
US20050091356A1 (en) * | 2003-10-24 | 2005-04-28 | Matthew Izzo | Method and machine-readable medium for using matrices to automatically analyze network events and objects |
US7552447B2 (en) | 2004-05-26 | 2009-06-23 | International Business Machines Corporation | System and method for using root cause analysis to generate a representation of resource dependencies |
CA2510556C (en) * | 2004-07-01 | 2013-02-19 | Cae Inc. | Method and system for simulation-based troubleshooting and fault verification in operator-controlled complex systems |
US7912940B2 (en) * | 2004-07-30 | 2011-03-22 | Microsoft Corporation | Network system role determination |
US7350107B2 (en) * | 2005-04-29 | 2008-03-25 | Microsoft Corporation | Method and apparatus for performing network diagnostics |
US20080021918A1 (en) | 2005-12-23 | 2008-01-24 | Rao Viswanatha H | Enterprise service management unifier system |
US8443074B2 (en) | 2007-03-06 | 2013-05-14 | Microsoft Corporation | Constructing an inference graph for a network |
WO2010062435A1 (en) * | 2008-09-04 | 2010-06-03 | Telcordia Technologies, Inc. | Computing diagnostic explanations of network faults from monitoring data |
JP5129725B2 (ja) * | 2008-11-19 | 2013-01-30 | 株式会社日立製作所 | 装置異常診断方法及びシステム |
US8407170B2 (en) * | 2008-11-25 | 2013-03-26 | Lockheed Martin Corporation | Root-cause analysis system and associated methods |
US8264702B2 (en) * | 2009-12-04 | 2012-09-11 | Xerox Corporation | Method and system for determining root cause of problems in members of a fleet of multi-function devices |
JP5347949B2 (ja) * | 2009-12-24 | 2013-11-20 | 富士通株式会社 | トラブル対処プログラム及びトラブル対処方法 |
US8411577B2 (en) * | 2010-03-19 | 2013-04-02 | At&T Intellectual Property I, L.P. | Methods, apparatus and articles of manufacture to perform root cause analysis for network events |
US8156377B2 (en) * | 2010-07-02 | 2012-04-10 | Oracle International Corporation | Method and apparatus for determining ranked causal paths for faults in a complex multi-host system with probabilistic inference in a time series |
US20130097183A1 (en) | 2011-10-14 | 2013-04-18 | Zenoss, Inc. | Method and apparatus for analyzing a root cause of a service impact in a virtualized environment |
US20130339515A1 (en) * | 2012-06-13 | 2013-12-19 | International Business Machines Corporation | Network service functionality monitor and controller |
US9098328B2 (en) | 2012-06-26 | 2015-08-04 | Wal-Mart Stores, Inc. | Systems and methods for event stream processing |
US10333820B1 (en) | 2012-10-23 | 2019-06-25 | Quest Software Inc. | System for inferring dependencies among computing systems |
CN104796270B (zh) | 2014-01-16 | 2018-03-27 | 国际商业机器公司 | 在云应用的问题诊断中推荐可疑组件的方法及装置 |
GB2536499A (en) | 2015-03-20 | 2016-09-21 | Fujitsu Ltd | Method, program, and apparatus, for managing a stored data graph |
US9832082B2 (en) * | 2015-06-30 | 2017-11-28 | Mist Systems, Inc. | Monitoring wireless access point events |
US9772898B2 (en) * | 2015-09-11 | 2017-09-26 | International Business Machines Corporation | Identifying root causes of failures in a deployed distributed application using historical fine grained machine state data |
US10200252B1 (en) | 2015-09-18 | 2019-02-05 | Quest Software Inc. | Systems and methods for integrated modeling of monitored virtual desktop infrastructure systems |
US10235227B2 (en) | 2015-10-12 | 2019-03-19 | Bank Of America Corporation | Detection, remediation and inference rule development for multi-layer information technology (“IT”) structures |
US10762062B2 (en) | 2016-04-04 | 2020-09-01 | Xerox Corporation | Data governance: change management based on contextualized dependencies |
US10277478B2 (en) * | 2016-06-08 | 2019-04-30 | Genesys Telecommunications Laboratories, Inc. | Connected machine initiated service |
US10164858B2 (en) * | 2016-06-15 | 2018-12-25 | Time Warner Cable Enterprises Llc | Apparatus and methods for monitoring and diagnosing a wireless network |
US10043187B2 (en) * | 2016-06-23 | 2018-08-07 | Nice Ltd. | System and method for automated root cause investigation |
US10148506B1 (en) | 2016-06-28 | 2018-12-04 | Juniper Networks, Inc. | Network configuration service discovery |
US10200248B1 (en) | 2016-06-30 | 2019-02-05 | Juniper Networks, Inc. | Translating high-level configuration instructions to low-level device configuration |
US10102111B2 (en) | 2016-08-05 | 2018-10-16 | International Business Machines Corporation | Prioritizing resiliency tests of microservices |
US11831492B2 (en) | 2016-08-16 | 2023-11-28 | Nicira, Inc. | Group-based network event notification |
US10180864B2 (en) | 2016-11-11 | 2019-01-15 | Sap Se | Increasing efficiency of an event processing system |
US10516761B1 (en) | 2017-03-17 | 2019-12-24 | Juniper Networks, Inc. | Configuring and managing network devices using program overlay on Yang-based graph database |
US10708152B2 (en) | 2017-03-23 | 2020-07-07 | Cisco Technology, Inc. | Predicting application and network performance |
US10554477B2 (en) | 2017-09-13 | 2020-02-04 | Cisco Technology, Inc. | Network assurance event aggregator |
CN109905270B (zh) * | 2018-03-29 | 2021-09-14 | 华为技术有限公司 | 定位根因告警的方法、装置和计算机可读存储介质 |
US10862779B2 (en) | 2018-04-23 | 2020-12-08 | Vmware, Inc. | Application dependency determination based on application logs |
US11604443B2 (en) * | 2018-08-23 | 2023-03-14 | Johnson Controls Tyco IP Holdings LLP | System and method for distributed device configuration and authorization |
US11388040B2 (en) | 2018-10-31 | 2022-07-12 | EXFO Solutions SAS | Automatic root cause diagnosis in networks |
US11514347B2 (en) * | 2019-02-01 | 2022-11-29 | Dell Products L.P. | Identifying and remediating system anomalies through machine learning algorithms |
US10601640B1 (en) * | 2019-05-23 | 2020-03-24 | Accenture Global Solutions Limited | Enriched self-healing for cloud platforms |
CN112073208B (zh) * | 2019-05-25 | 2022-01-14 | 成都华为技术有限公司 | 一种告警分析方法、装置、芯片系统、存储介质 |
US10983856B2 (en) * | 2019-06-28 | 2021-04-20 | Microsoft Technology Licensing, Llc | Identifying root causes of performance issues |
CN112448836B (zh) * | 2019-09-04 | 2023-09-15 | 中兴通讯股份有限公司 | 故障根因确定方法、装置、服务器和计算机可读介质 |
US10970143B1 (en) | 2019-11-19 | 2021-04-06 | Hewlett Packard Enterprise Development Lp | Event action management mechanism |
JP7387469B2 (ja) * | 2020-02-04 | 2023-11-28 | 株式会社日立産機システム | 通信装置、監視サーバ及びログ収集方法 |
-
2020
- 2020-09-25 US US17/032,799 patent/US11888679B2/en active Active
- 2020-12-16 EP EP20214726.0A patent/EP3975478B1/en active Active
- 2020-12-16 CN CN202011489036.2A patent/CN114338417A/zh active Pending
-
2023
- 2023-11-29 US US18/523,569 patent/US20240097968A1/en active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5381417A (en) * | 1992-02-25 | 1995-01-10 | Hewlett Packard Company | Circuit testing system |
US20050137762A1 (en) * | 1997-10-28 | 2005-06-23 | Snap-On Technologies, Inc. | System for dynamic diagnosis of apparatus operating conditions |
WO2003005200A1 (en) * | 2001-07-06 | 2003-01-16 | Computer Associates Think, Inc. | Method and system for correlating and determining root causes of system and enterprise events |
US7636424B1 (en) * | 2004-04-30 | 2009-12-22 | Sprint Comminications Company L.P. | Method and system for selectively displaying alarms in a communications network |
US20090094076A1 (en) * | 2007-10-05 | 2009-04-09 | Reddy Sudhakar Y | Method and system using linear programming for estimating test costs for bayesian diagnostic models |
WO2010033106A1 (en) * | 2008-09-16 | 2010-03-25 | The Boeing Company | Method and system using linear programming for estimating test costs for bayesian diagnostic models |
CN103403686A (zh) * | 2010-12-30 | 2013-11-20 | 施耐德电气It公司 | 用于根本原因分析的系统和方法 |
US20150003595A1 (en) * | 2011-04-25 | 2015-01-01 | Transparency Sciences, Llc | System, Method and Computer Program Product for a Universal Call Capture Device |
US20190230003A1 (en) * | 2013-03-15 | 2019-07-25 | NetBrain Technologies, Inc. | System for creating network troubleshooting procedure |
US20150074035A1 (en) * | 2013-09-02 | 2015-03-12 | Appnomic Systems Private Limited | Detecting root cause for transaction degradation using causal bayesian networks |
CN105227342A (zh) * | 2014-06-27 | 2016-01-06 | 瞻博网络公司 | 用于网络服务域中的服务规划和配置的图形数据库 |
CN104462842A (zh) * | 2014-12-22 | 2015-03-25 | 厦门大学 | 一种基于贝叶斯网络的故障数据挖掘诊断方法 |
CN107317695A (zh) * | 2016-04-26 | 2017-11-03 | 瞻博网络公司 | 用于调试网络节点内联网故障的方法、系统和装置 |
US20170372212A1 (en) * | 2016-06-28 | 2017-12-28 | Ca, Inc. | Model based root cause analysis |
US20180218264A1 (en) * | 2017-01-30 | 2018-08-02 | Conduent Business Services, Llc | Dynamic resampling for sequential diagnosis and decision making |
US20190165988A1 (en) * | 2017-11-27 | 2019-05-30 | Google Llc | Real-time probabilistic root cause correlation of network failures |
CN109523786A (zh) * | 2018-11-30 | 2019-03-26 | 哈尔滨工业大学 | 一种高速公路交通事故成因分析方法 |
Non-Patent Citations (1)
Title |
---|
张磊;: "一种基于FMEA的贝叶斯诊断网络", 军民两用技术与产品, no. 08, 21 August 2007 (2007-08-21) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024182914A1 (en) * | 2023-03-03 | 2024-09-12 | Mavenir Systems, Inc. | Method for enabling automated repair action based on alarms |
Also Published As
Publication number | Publication date |
---|---|
EP3975478B1 (en) | 2024-08-07 |
US20220103417A1 (en) | 2022-03-31 |
EP3975478A1 (en) | 2022-03-30 |
US20240097968A1 (en) | 2024-03-21 |
US11888679B2 (en) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11888679B2 (en) | Hypothesis driven diagnosis of network systems | |
Yu et al. | Fault management in software-defined networking: A survey | |
US10541891B2 (en) | Network configuration predictive analytics engine | |
Yan et al. | G-rca: a generic root cause analysis platform for service quality management in large ip networks | |
US9059939B2 (en) | End-to-end network service assurance solution | |
da Costa Cordeiro et al. | Data plane programmability beyond openflow: Opportunities and challenges for network and service operations and management | |
Mahimkar et al. | Detecting the performance impact of upgrades in large operational networks | |
US20120253728A1 (en) | Method and system for intelligent automated testing in a multi-vendor, multi-protocol heterogeneous environment | |
CN114006823B (zh) | 用于网络事件的故障影响分析的方法、系统及存储介质 | |
Harrington | Guidelines for Considering Operations and Management of New Protocols and Protocol Extensions | |
Tang et al. | Intelligence enabled sdn fault localization via programmable in-band network telemetry | |
Xie et al. | Joint monitoring and analytics for service assurance of network slicing | |
Alcock et al. | Improving intent correctness with automated testing | |
AT&T | ||
Ranjbar | Troubleshooting and Maintaining Cisco IP Networks (TSHOOT) Foundation Learning Guide: Foundation Learning for the CCNP TSHOOT 642-832 | |
US11088928B2 (en) | Service aware conditional path monitoring | |
Ibrahim et al. | Examining the performance of software defined virtual local area network | |
US11115298B2 (en) | Digital intellectual capital-based service assurance for intent-based networking | |
Abar et al. | A knowledge-based strategy for the automated support to network management tasks | |
Danciu et al. | IT Service Management: Getting the View | |
Fonseca | Benchmarking SDN Controllers | |
Aryan | Software Defined Networks troubleshooting using formal approaches for monitoring, probing and self-correction (auto-correction) | |
Jovanovic | Development of Service Assurance Techniques for Intent Based Networking | |
Breslau et al. | G-RCA: A Generic Root Cause Analysis Platform for Service Quality Management in Large IP Networks | |
CN117331598A (zh) | 针对推荐软件映像的软件映像得分 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |