CN113973042A

CN113973042A - 用于网络问题的根本原因分析的方法和系统

Info

Publication number: CN113973042A
Application number: CN202110420913.9A
Authority: CN
Inventors: A·默钱; 陈金玲; C·F·克拉克
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2020-07-24
Filing date: 2021-04-19
Publication date: 2022-01-25
Anticipated expiration: 2041-04-19
Also published as: DE102021109228A1; CN113973042B; US20220029876A1; US11349703B2

Abstract

本公开涉及用于网络问题的根本原因分析的方法和系统。提供了一种网络中的事件分析系统。在操作期间，系统可以确定网络中的一组监测元素。相应的监测元素可以促进监测网络中的事件。然后，系统可以将相应的监测元素表示为图的节点。如果对应的监测元素基于关系定义是相关的，则系统可以将图的节点对与边连接。该系统可以基于来自网络中的一个或多个交换机上的一个或多个监测代理的通知来激活与网络中的问题相对应的图的一组节点。随后，系统可以通过遍历图的一组激活的节点来确定问题的根本原因，并且确定用于缓解根本原因的恢复动作。

Description

用于网络问题的根本原因分析的方法和系统

技术领域

本公开涉及通信网络。更具体地，本公开涉及用于促进网络中问题的根本原因分析的方法和系统。

附图说明

图1示出了根据本申请的实施例的促进网络中的根本原因分析的示例性事件分析系统。

图2A示出了根据本申请的实施例的示例性根本原因(RC)图。

图2B示出了根据本申请的实施例的示例性网络范围RC图。

图3示出了根据本申请的实施例的表示交换机的不同监测代理的RC图的示例性覆盖过程。

图4A呈现示出了根据本申请的实施例的事件分析系统生成RC图的过程的流程图。

图4B呈现示出了根据本申请的实施例的表示交换机的不同监测代理的RC图的覆盖过程的流程图。

图5A呈现示出了根据本申请的实施例的使用RC图执行根本原因分析的事件分析系统的过程的流程图。

图5B呈现了根据本申请的实施例的示出应用基于根本原因分析的恢复操作的事件分析系统的过程的流程图。

图6示出了根据本申请的实施例的促进事件分析系统的示例性计算机系统。

图7示出了根据本申请的实施例的促进事件分析系统的示例性设备。

在附图中，相同的参考数字表示相同的附图元件。

具体实施方式

以下描述是为了使本领域技术人员能够制造和使用本发明而提出的，并且是在特定应用及其要求的上下文中提供的。对所公开的实施例的各种修改对于本领域技术人员将是显而易见的，并且在不脱离本发明的精神和范围的情况下，本文定义的一般原理可以应用于其他实施例和应用。因此，本发明不限于所示的实施例，而是应被赋予与权利要求一致的最宽范围。

概述

因特网是在物理和虚拟装置上运行的各种应用的传递媒介。这样的应用带来了对带宽的日益增长的需求。因此，设备供应商竞相制造能够执行各种功能的交换机。然而，所产生的交换机的复杂性会增加检测交换机中的错误的难度。此外，网络可以包括多个这样的复杂交换机。另外，网络可以包括不同类型的交换机。每种类型的交换机可能具有不同的硬件、容量和功能。例如，交换机可以包括多个组件，诸如端口、转发硬件和用于存储状态的内存装置。此外，交换机可以维护各种协议并执行相应的操作，诸如路由协议、生成树协议和网络虚拟化。

管理员可以配置单个组件或协议。利用现有技术，自动化和计算机智能可以用于支持大型分布式网络中的配置操作。为促进自动化，交换机可以配备监测代理(MA)。MA可以允许管理员监测交换机资源，并提供基于各种预定义规则向管理员发出警报的框架。然而，基于单个事件来理解网络范围问题的根本原因可能具有挑战性。因此，如果发生事件(例如，异常或错误)，管理员可能需要对网络中的每个交换机单独进行故障排除。

本发明的一个实施例提供了一种网络中的事件分析系统。在操作期间，系统可以确定网络中的一组监测元素。相应的监测元素可以促进监测网络中的事件。然后，系统可以将相应的监测元素表示为图的节点。如果对应的监测元素基于关系定义是相关的，则系统可以将图的节点对与边连接。该系统可以从网络中的一个或多个交换机上的监测代理接收指示网络中的问题的通知。相应的监测代理可以基于一个或多个监测规则监测一个或多个交换机组件。然后，系统可以激活与问题相对应的图的一组节点。随后，系统可以通过遍历图的一组激活的节点来确定问题的根本原因，并确定用于缓解根本原因的恢复动作。

在该实施例的变型中，一组监测元素可以包括网络中相应交换机中的相应监测规则、由监测规则监测的一个或多个交换机组件以及基于监测规则促进监测操作的监测代理。此外，相应的监测规则可以包括用于触发监测规则的条件。

在该实施例的变型中，该组激活的节点与网络中的多个交换机的监测元素相对应。

在该实施例的变型中，系统可以确定问题是否为关键问题。如果问题是非关键问题，则系统可以在网络中的交换机上执行恢复动作。在这种情况下，交换机可以包括在图的一组激活的节点中表示的一个或多个交换机组件。

在另一变型中，如果问题是关键问题，则系统可以在执行恢复动作之前从用户获得确认。

在该实施例的变型中，关系定义指示一对监测元素是否彼此相关。然后，系统可以基于以下项中的一个或多个来确定图中的相应节点对的关系定义：(i)机器学习技术，以及(ii)用户反馈。

在该实施例的变型中，系统可以通过确定已经由问题触发的一组监测规则并且确定相应节点来激活图的一组节点。这些对应节点可以包括与该组触发的监测规则相对应的相应节点、与所触发的监测规则相关联的一个或多个交换机组件、以及与监测规则相关联的一个或多个监测代理。

在该实施例的变型中，系统可以通过将最短路径算法应用于该组激活的节点的相应子图并且确定由最短路径算法识别的一组关键节点来遍历图的该组激活的节点。相应的关键节点可以与受该问题影响的交换机组件相对应。

在另一变型中，系统可以在一组关键节点中确定多个相关节点，并且覆盖图中的多个相关节点。

在另一变型中，系统可以通过识别激活所覆盖的节点的原因来确定根本原因。

本文描述的实施例通过以下方式解决了有效地识别网络问题的根本原因的问题：(i)在图中表示相应的监测代理、一组相应的监测规则以及被监测的交换机组件；以及(ii)遍历图以确定可能导致网络问题的交换机组件。交换机组件可以是交换机的任何组件。通过识别与网络问题相关的交换机组件，可以自动检测问题的根本原因。如果事件不是关键事件，则交换机可以执行与根本原因相对应的恢复动作。

利用现有技术，相应的交换机可以配备一个或多个监测代理。每个监测代理都可以监测交换机的特定功能。例如，一个监测代理可以监测交换机的相应端口的端口状态，而另一监测代理可以监测传入和传出的分组(packet)传输。相应的监测代理可以识别与交换机的相应特征相关联的事件。但是，由于交换机可以具有大量的特征，并且可以设置在各种场景中，因此交换机的监测代理报告的事件可以是多种多样的，并且数量很大。

解决网络事件(例如，由异常事件引起的问题)可以包括识别该事件并快速解决引起该事件的问题以减少影响。管理员手动标识资源和动作以解决监测代理报告的事件可能容易出错且耗时。另外，网络的多个交换机可以具有不同的交换机类型。因此，对于同一网络事件，来自不同交换机的监测代理的警报可能不相关。因此，基于来自不同监测代理的警报(例如，基于不同的故障排除指南)手动解决问题可能耗时且容易出错。

为了解决该问题，事件分析系统可以协助管理员识别网络中(例如，跨多个交换机)事件的根本原因。通过提供由事件引起的问题的根本原因分析，系统可以促进从事件中快速恢复，从而减少影响。在操作期间，系统可以预生成根本原因(RC)图。图的每个节点都可以表示监测元素，该监测元素可以是监测代理、用于监测交换机组件的规则以及交换机组件。规则可以指定与触发规则的组件关联的条件。规则可以是逻辑规则，如果超过与相应交换机组件相关联的阈值，则可以触发该逻辑规则。规则也可以是过渡规则，如果检测到与相应交换机组件相关联的改变，则可以触发该过渡规则。例如，如果组件是端口，则规则可以是来自端口的数据传输速率低于阈值。

在RC图中，如果表示节点的监测元素之间存在关系，则系统可以使用边连接节点对。关系可能存在于监测代理与使用规则监测交换机组件的规则之间。关系也可以存在于规则与由规则监测的交换机组件之间。该系统可以维护关系定义，该关系定义包括可以为网络中的相应交换机定义的相应关系。可以基于自动发现过程或来自用户的指令来确定关系。对于自动发现过程，系统可以使用机器学习从事件集群中识别网络行为模式。换句话说，该系统可以使用网络行为模式训练机器学习技术。然后，机器学习技术可以自动或半自动(例如，基于用户反馈)生成图中的连接。该系统可以将表示该图的图信息(例如，表示该图的顶点和边的图矩阵)存储在图数据库中，该图数据库可以是被设计为在交换机中存储信息的关系数据库。

如果触发了监测规则，则监测代理可以检测交换机中的问题。交换机可以维护可以存储规则的事件数据库。事件数据库也可以是关系数据库。当基于触发的规则检测到问题时，系统可以启用或激活图中的对应节点。例如，监测分组传输或端口状态的监测代理可以包括可以由端口处的分组丢失触发的规则。该系统可以激活与监控器、规则以及基于该规则被监测的端口相对应的节点。

该系统可以使用图遍历算法(例如，使用最短路径算法)遍历相应的激活的子图，该子图可以包括表示相关监测元素的节点。基于遍历，系统可以确定可能与引起问题的交换机组件相对应的节点。例如，如果图是树，则遍历可以识别与问题相关联的一个或多个叶节点。如果多个这样的子图指示可能的原因，则系统可以用最小的顺序覆盖子图以生成覆盖图。然后，系统可以确定与问题相对应的覆盖节点。在一些实施例中，系统可以在动作数据结构中(例如，在动作数据库中)预加载一组恢复动作，每个恢复动作可以解决交换机的非关键问题。相应的恢复动作可以被表示为可以在交换机上执行的一系列步骤或操作。在检测到根本原因时，系统可以确定与检测到的根本原因相关联的恢复动作，并执行恢复动作以解决由根本原因表示的非关键问题。

在本公开中，术语“交换机”在一般意义上使用，并且它可以指在任何网络层中操作的任何独立或结构交换机。“交换机”不应被解释为将本发明的实施例限制在第二层网络。可以将业务转发到外部装置或另一交换机的任何装置可以被称为“交换机”。可以将业务转发到终端装置的任何物理或虚拟装置(例如，在计算装置上操作的虚拟机/交换机)可以被称为“交换机”。“交换机”的示例包括但不限于第二层交换机、第三层路由器、路由交换机、Gen-Z网络的组件或包括多个类似或异构的较小物理和/或虚拟交换机的结构交换机(fabric switch)。

术语“分组(packet)”是指可以跨网络一起传输的一组比特。“分组”不应被解释为将本发明的实施例限制在第3层网络。“分组”可以由其他术语代替，这些术语涉及一组比特，诸如“消息”、“帧”、“信元”、“数据报”或“事务(transaction)”。

网络架构

图1示出了根据本申请的实施例的促进网络中的根本原因分析的示例性事件分析系统。如图1所示，网络100包括交换机101、102、103、104和105。在一些实施例中，网络100是Gen-Z网络，并且网络100的相应交换机(诸如交换机102)是Gen-Z组件。Gen-Z网络可以是内存语义结构，其可以用于与计算环境中的装置通信。通过统一通信路径和通过简单的内存语义简化软件，Gen-Z组件可以促进复杂系统的高性能解决方案。在这种情况下，网络100中的交换机之间的通信是基于内存语义结构的。在一些进一步的实施例中，网络100是以太网和/或IP网络，并且网络100的相应交换机(诸如交换机102)是以太网交换机和/或IP路由器。在这种情况下，网络100中的交换机之间的通信基于以太网和/或IP。

利用现有技术，相应的交换机可以被配备一个或多个监测代理，每个监测代理可以监测交换机的单个特征。在网络100中，监测代理140可以监测交换机101的特征。类似地，监测代理150和160可以监测交换机102的相应特征。例如，监测代理150和160可以监测交换机102的端口172和174的端口状态和分组传输。类似地，监测代理140可以监测交换机101的端口的端口状态。监测代理150可以识别与交换机102的端口状态相关联的网络事件130(例如，端口变得不可用)。然而，由于交换机102可以具有大量的特征并且部署在网络100中的各种场景中(例如，作为聚合交换机、边缘交换机或核心交换机)，因此由交换机102的监测代理报告的事件可以是多种多样且数量众多的。

解决网络事件130(例如，由网络100中的异常事件引起的问题)可以包括识别事件130并快速解决引起事件130的问题以减少对网络100的影响。管理员基于来自监测代理140、150和160的通知，来手动识别资源和动作以解决事件130可能是容易出错且耗时的。另外，网络100的多个交换机可以具有不同的交换机类型。因此，对于同一事件130，来自不同交换机的监测代理的警报可能不相关。因此，基于来自不同监测代理的警报手动解析事件130可能是时间密集且容易出错的。

为了解决该问题，事件分析系统110可以协助管理员识别事件130的根本原因。在一些实施例中，系统110可以在网络管理器170上运行。网络管理器170可以位于网络100中或者可以部署在云中(例如，可经由因特网访问)，并且促进网络100中相应交换机的网络配置和管理。通过提供与事件130相关联的问题的根本原因分析，系统110可以促进从事件130的快速恢复。在操作期间，系统110可以包括可以预生成RC图180的图引擎114。RC图180可以包括网络100的相应监测元素。图引擎114可以使用图180来确定事件130的根本原因。图引擎114可以在系统110的用户界面120上呈现图180。

图180的每个节点可以表示监测元素，诸如监测代理、用于监测交换机组件的规则和交换机组件。规则可以是逻辑规则，如果与相应交换机组件相关联的阈值被超过，则可以触发该逻辑规则。规则也可以是过渡规则，如果检测到与相应交换机组件相关联的改变，则可以触发该过渡规则。例如，监测代理140和150可以分别配置有监测规则142和152，以分别监测交换机101和102的端口状态。这里，规则152可以指示监测代理150应当监测端口172和174的相应状态是否已经改变。规则152可以包括条件，该条件可以指定如果端口172或174的状态改变则应触发规则152。基于规则152，监测代理150然后可以监测端口172和174的相应端口状态。类似地，监测代理160可以配置有监测规则162以监测交换机102的数据传输。这里，规则162可以指示监测代理160应当监测经由端口172和174的数据传输的量或速率。规则162可以包括一个条件，该条件可以指定如果经由端口172或174的数据传输的速率或量下降到阈值以下，则应触发规则162。基于规则152，监测代理150然后可以监测端口172和174的相应端口状态。

在RC图180中，如果表示节点的监测元素之间存在关系，则图引擎114可以使用边连接节点对。可以基于自动发现过程或来自用户的指令来确定关系。系统110可以将表示图180的图信息存储在图数据库124中。图数据库124可以存储关于图的拓扑信息。此外，图数据库124可以维护图180的相应节点的一组元数据。例如，如果节点表示监测代理，则元数据可以包括该监测代理的识别信息。另一方面，如果节点表示端口，则元数据可以包括相应的端口号。

图180可以包括与网络100中的相应交换机的相应监测代理相关联的子图。每个子图可以包括表示为监测代理定义的监测规则的节点和表示所监测的交换机组件的节点。因此，表示端口172和174的节点可以出现在与监测代理150和160相关联的子图中。类似地，在不同交换机上基于相同规则进行监测的监测代理可以具有不同的子图。因此，即使监测代理140和150两者都可以监测端口状态，监测代理140和150中的每一个都可以在图180中具有子图。

如果监测规则152被触发，则监测代理150可以检测交换机102中的问题。系统110可以维护事件数据库122，该事件数据库122可以存储规则152(以及规则142和162)。当基于触发规则152检测到问题时，系统110的事件引擎112可以从交换机102接收触发通知132(例如，网络消息)。图引擎114然后可以启用或激活图180中的相应节点。例如，如果监测代理150监测端口172和174的端口状态，则规则152可以由端口172或174处的分组丢失触发。图引擎114可以激活与监控器150、规则152和端口172和174相对应的节点。

图引擎114可以使用图遍历算法遍历图180中的相应激活的子图，并确定可以与引起事件130的交换机组件相对应的节点。例如，如果图是树，则遍历可以识别与事件130相关联的一个或多个叶节点。如果多个这样的子图指示可能的原因，则图引擎114可以评估子图中的每一个以确定根本原因。为了进一步加快根本原因评估过程，图引擎114可以以最小的阶数覆盖子图以生成覆盖图182。图引擎114然后可以确定覆盖图182中与事件130相对应的节点。图引擎114然后可以基于所确定的节点来确定根本原因。在一些实施例中，系统110可以预加载一组恢复动作(例如，在动作数据库中)，每个恢复动作可以解决非关键问题。

然后，系统110的动作引擎116可以获得与根本原因相对应的恢复动作134。动作引擎116可以确定可以由恢复动作134指定并可在交换机102上执行的一系列步骤或操作。事件数据库122可以维护关键事件和非关键事件的列表。恢复引擎118可以在事件数据库122中查找事件130并确定事件130是否是关键事件。如果事件130是关键事件，则恢复引擎118可以在交换机102上执行恢复动作134的操作以解决事件130。然而，如果事件130是关键事件，则恢复引擎118可以在用户界面120中呈现事件130和恢复动作134。管理员可以验证恢复动作134是否是适当的恢复动作。一旦接收到验证或批准，恢复动作134就可以在交换机102上执行恢复动作134的操作。

图2A示出了根据本申请的实施例的示例性RC图。图180可以包括与监测代理150、规则152和端口172和174相对应的节点。在该示例中，规则152可以监测交换机102的端口的端口状态。图180还可以包括交换机102的另一端口202的节点。然而，端口202可以是非活动的(例如，由生成树协议禁用)。监测代理150可以被配置有另一规则204，其可以促进监测交换机102的端口的端口计数。如果在表示节点的监测元素之间存在关系，则图引擎114可以使用边连接节点对。由于监测代理150被配置有规则152和204，因此表示监测代理150的节点可以经由相应的边连接到表示规则152和204的节点。类似地，由于规则152监测交换机102的端口的端口状态，因此表示规则152的节点可以经由相应的边连接到表示端口172、174和202的节点。

系统110可以维护包括可以为交换机102定义的相应关系的关系定义。可以基于自动发现过程或来自用户的指令来确定关系。对于自动发现过程，图引擎114可以使用机器学习从事件集群中识别网络行为模式，机器学习可以自动或半自动地生成图180中的连接。如果由监测代理150由于端口状态改变而触发规则152，则图引擎114可以激活与监测代理150、规则152以及端口172和174(用粗线表示)相对应的节点以及耦接这些节点的边。然而，由于端口202可以是非活动的，因此表示端口202的节点可能不被激活。另一方面，由于交换机102的端口计数没有改变，因此规则204可能不被触发。因此，从表示规则204的节点诱导的子图可以不被激活，即使表示监测代理150的节点被激活。

图引擎114然后可以使用图遍历算法遍历从表示监测代理150的节点诱导的激活的子图。图遍历算法的示例可以包括但不限于最短路径算法和深度优先搜索算法，其可以在树中产生最短路径。如果图180是树，则遍历算法可以确定表示交换机组件(诸如端口)的叶节点(用虚线表示)。以这种方式，图引擎114可以使用图遍历来确定与受事件影响的交换机组件相对应的一个或多个关键节点。如果事件影响端口状态,则通过遍历激活的子图，图引擎114可以基于图180中识别的关键节点来识别端口172和174可能已经受到事件的影响。

图引擎114可以重复结合图2A描述的图生成过程，以生成从表示网络100的相应交换机的相应监测代理的节点诱导的子图。图2B示出了根据本申请的实施例的示例性网络范围RC图。除了从表示交换机102的监测代理的节点诱导的子图的节点之外，图180还可以包括从表示网络100的其他交换机(诸如交换机101)的监测代理的节点诱导的子图。

图180可以包括与交换机101的监测代理140、规则142以及端口212和214相对应的节点。在该示例中，规则142可以监测交换机101的端口的端口状态。监测代理140可以配置有另一规则208，其可以促进监测交换机101的端口的端口计数。如果在表示节点的监测元素之间存在关系，则图引擎114可以使用边连接节点对。由于监测代理140配置有规则142和208，因此表示监测代理140的节点可以经由相应的边连接到表示规则142和208的节点。类似地，由于规则142监测交换机101的端口的端口状态，因此表示规则142的节点可以经由相应的边连接到表示端口212和214的节点。

假设交换机101的端口214耦接到交换机102的端口。因此，交换机102的端口的端口状态改变也会引起交换机101中的端口状态改变。因此，由于端口状态改变，规则142也可以由监测代理140触发。因此，图引擎114可以激活与监测代理140、规则142和端口214(用粗线表示)相对应的节点以及耦接这些节点的边。由于规则204未被触发，因此从表示规则204的节点诱导的子图可以不被激活，即使表示监测代理150的节点被激活。应当注意，由于监测代理140和150可能不具有关系，因此图引擎114可能不连接图180中的对应节点。因此，图180可以是不相交的图。在一些实施例中，图引擎114可以将与监测代理140和150相对应的节点与虚拟边耦接，以指示这些监测代理在同一网络100中。

图引擎114还可以重复如结合图2A所描述的图生成过程，以生成从表示交换机的相应监测代理的节点诱导的子图。由于多个监测代理可以监测相同的交换机组件，因此表示这样的交换机组件的节点可以出现在多个子图中。为了确定涉及这样的交换机组件的根本原因，图引擎114可以与相应的节点重叠。图3示出了根据本申请的实施例的表示交换机的不同监测代理的RC图的示例性覆盖过程。

图180还可以包括与交换机102的监测代理160、规则162以及端口172和174相对应的节点。在该示例中，规则142可以监测交换机102的端口的端口计数。交换机102还可以包括另一监测代理312，其可以配置有规则314。在该示例中，规则314可以促进对交换机102的配置的监测。然而，由于端口不可用而导致的配置改变可能不是关键事件。因此，图引擎114可以将由表示监测代理312的节点诱导的子图呈现为“非关键”子图(用虚线表示)。假设事件影响交换机102的端口，诸如端口172。因此，规则152可以由监测代理150由于端口状态改变而触发，规则162可以由监测代理160由于传输速率改变而触发，并且规则314可以由监测代理312由于配置改变而触发。

由于从监测代理150、160和312诱导的每个子图可以包括表示端口172的节点，因此每个节点可以由图引擎114(用粗线表示)激活。此外，图引擎114还可以激活表示由监测代理150诱导的子图中端口174的节点，因为规则152可以促进对交换机102的相应端口的端口状态的监测。图引擎114然后可以遍历图180的激活的子图。基于图遍历，图引擎114可以将子图中的一组节点(例如，与交换机102的端口相对应的叶节点)识别为关键节点。

由于可以将不同子图上的多个节点识别为关键节点，因此图引擎114可以确定关键节点是否相关(例如，与同一交换机组件相对应)。例如，图引擎114可以确定一组相关的关键节点表示交换机102的相同端口172。图引擎114然后可以覆盖节点以生成覆盖图182。由于由图引擎114识别的关键节点可以包括与端口172和174相对应的节点，因此覆盖图182还可以包括与端口172和174相对应的节点。表示端口172的节点可以通过覆盖可以表示端口172的所有激活的节点来生成。应当注意，由于与端口172和174相对应的节点在它们之间可以不具有边，因此覆盖图182可以是不相交的图。在一些实施例中，图引擎114可以包括在覆盖图182中的虚拟节点，以连接节点并生成连续图。通过分析覆盖图182，图引擎114可以确定事件的根本原因与交换机102的端口172相关。

操作

图4A呈现了一流程图，其示出了根据本申请的实施例的事件分析系统生成RC图的过程。在操作期间，系统可以选择交换机中的监测代理并在RC图中生成相应的节点(操作402)。然后，系统可以在RC图中生成用于为监测代理定义的规则的节点(操作404)和用于由监测代理的规则监测的交换机组件的节点(操作406)。系统可以基于与节点相关联的关系信息使用边来连接节点(操作408)。以这种方式，在RC图中生成从监测代理诱导的子图。

随后，系统将包括表示子图的节点和边的信息的图信息存储在图数据库中(操作410)。然后，系统可以检查每个监测代理是否已经被表示在RC图中(操作412)。如果每个监测代理已经被表示，则系统可以检查是否已经遍历了所有交换机(操作414)。如果尚未遍历所有交换机，则系统可以选择下一个交换机(操作414)。如果每个监测代理尚未被表示(操作414)或在选择下一个交换机(操作416)时，系统可以选择下一个监测代理并继续在RC图中生成相应的节点(操作402)。

图4B呈现了一流程图，其示出了根据本申请的实施例的表示交换机的不同监测代理的RC图的覆盖过程。在操作期间，系统可以确定监测规则已经被触发(操作452)。然后，系统可以识别已经触发的一个或多个条件(操作454)并且识别已经触发条件的交换机组件(操作456)。然后，系统可以激活相应的节点(操作458)。相应的节点可以包括表示配置有监测规则的监测代理、监测规则和交换机组件的节点。

系统然后可以检查是否已经检查了与监测代理相关联的所有监测规则(操作460)。如果尚未检查所有监测规则，则系统可以继续确定下一个触发的监测规则(操作452)。另一方面，如果已经检查了所有监测规则，则系统可以遍历激活的子图(操作462)。然后，系统可以基于遍历来选择与问题相关的关键节点(操作464)。在图3的示例中，关键节点可以是表示端口172和174的节点。

图5A呈现了一流程图，其示出了根据本申请的实施例事件分析系统使用RC图执行根本原因分析的过程。系统可以确定RC图中的激活的节点对(操作502)，并且确定激活的节点是否相关(操作504)。然后，系统可以确定是否已经确定相关性(操作506)。在确定相关性时，系统可以覆盖节点对中的节点(操作508)并且确定是否已经遍历所有节点(操作512)。

如果没有确定相关性(操作506)或尚未遍历所有节点(操作512)，则系统可以继续确定RC图中的激活的节点对(操作502)。另一方面，如果已经遍历所有节点，则系统可以生成包括覆盖节点的覆盖图(操作514)。然后，系统可以识别可以触发与覆盖图中的节点相关联的条件的问题(操作516)。随后，系统可以将所识别的问题确定为根本原因(操作518)。

图5B呈现了一流程图，其示出了根据本申请的实施例的事件分析系统基于根本原因分析应用恢复操作的过程。在操作期间，系统可以在动作数据结构中查找根本原因(操作552)并且确定映射到根本原因的恢复动作(操作554)。系统可以确定问题是否是关键问题(操作556)。如果问题是关键问题，则系统可以在系统的用户界面中呈现根本原因和恢复动作(操作558)。另一方面，如果问题是非关键问题，则系统可以在交换机上应用恢复动作(操作560)。

示例性计算机系统

图6示出了根据本申请的实施例的促进事件分析系统的示例性计算机系统。计算机和通信系统600包括处理器602、内存装置604和存储装置608。内存装置604可以包括易失性内存装置(例如，双列直插式内存模块(DIMM))。此外，计算机和通信系统600可以被耦接到显示装置610、键盘612和指点装置614。存储装置608可以存储操作系统616、事件分析系统618和数据636。事件分析系统618可以促进系统110的操作。

事件分析系统618可以包括指令，当由计算机和通信系统600执行时，该指令可以使计算机和通信系统600执行在本公开中描述的方法和/或过程。具体地，事件分析系统618可以包括指令，该指令用于为网络中的相应交换机表示相应监测代理、为该监测代理配置的相应监测规则以及基于该监测规则被监测的作为RC图中的节点的相应交换机组件(图逻辑框620)。此外，事件分析系统618可以包括用于在用户界面上呈现RC图的指令，RC图可以由事件分析系统618在显示装置610上呈现(图逻辑框620)。

事件分析系统618还可以包括用于确定是否已在交换机的监测代理上触发监测规则并识别已触发监测规则的相应事件(和相关问题)的指令(触发逻辑框622)。此外，事件分析系统618可以包括用于激活RC图中的相关节点的指令，从而在RC图中生成一个或多个激活的子图(激活逻辑框624)。此外，事件分析系统618可以包括用于基于图遍历确定相应激活的子图中的关键节点的指令(分析逻辑框626)。事件分析系统618然后可以包括用于识别一组相关的关键节点并覆盖相关的关键节点的指令(图逻辑框620)。

事件分析系统618可以包括用于确定引起事件的问题的根本原因的指令(分析逻辑框626)。此外，如果基础(underlying)问题是非关键问题，则事件分析系统618可以包括用于识别恢复动作并在交换机上执行恢复动作以缓解事件的影响的指令(恢复逻辑框628)。事件分析系统618可以进一步包括用于发送和接收消息的指令(通信逻辑框630)。数据636可以包括可以促进事件分析系统618的操作的任何数据。数据636可以包括但不限于与网络中的相应监测代理和为该监测代理配置的相应监测规则相关的信息、事件数据库、图数据库和恢复数据结构。

图7示出了根据本申请的实施例的促进事件分析系统的示例性设备。事件分析设备700可以包括多个单元或设备，其可以经由有线、无线、量子光或电通信信道彼此通信。设备700可以使用一个或多个集成电路来实现，并且可以包括比图7所示的单元或设备更少或更多的单元或设备。此外，设备700可以集成在计算机系统中，或者实现为能够与其他计算机系统和/或装置通信的单独装置。具体地，设备700可以包括单元702至712，其执行与图6的计算机和通信系统600的模块620至630类似的功能或操作，包括：图单元702；触发单元704；激活单元706；分析单元708；恢复单元710；和通信单元712。

在本详细描述中描述的数据结构和代码通常存储在计算机可读存储介质上，该存储介质可以是可以存储代码和/或数据以供计算机系统使用的任何装置或介质。计算机可读存储介质包括但不限于易失性存储器、非易失性存储器、诸如盘、磁带、CD(光盘)、DVD(数字多功能盘或数字视频盘)的磁和光存储装置或能够存储现在已知或以后开发的计算机可读介质的其他介质。

在具体实施方式部分中描述的方法和过程可以被实现为代码和/或数据，这些代码和/或数据可以存储在如上所述的计算机可读存储介质中。当计算机系统读取和执行存储在计算机可读存储介质上的代码和/或数据时，计算机系统执行体现为数据结构和代码并存储在计算机可读存储介质内的方法和过程。

本文描述的方法和过程可以由硬件模块或设备执行和/或包括在硬件模块或设备中。这些模块或设备可以包括但不限于专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)、在特定时间执行特定软件模块或代码段的专用或共享处理器和/或现在已知或以后开发的其他可编程逻辑器件。当硬件模块或设备被激活时，它们执行包括在其中的方法和过程。

仅出于说明和描述的目的，已经给出了本发明的实施例的前述描述。它们并非旨在穷举或限制本公开。因此，许多修改和变化对于本领域技术人员将是显而易见的。本发明的范围由所附权利要求限定。

Claims

1.一种用于促进网络中的根本原因分析的方法，包括：

确定所述网络中的一组监测元素，其中相应的监测元素促进监测所述网络中的事件；

将相应的监测元素表示为图的节点，其中如果对应的监测元素基于关系定义是相关的，则所述图的节点对被与边连接；

从所述网络中的一个或多个交换机上的监测代理接收指示所述网络中的问题的通知，其中相应的监测代理基于一个或多个监测规则来监测一个或多个交换机组件；

激活所述图的与所述问题相对应的一组节点；

通过遍历所述图的一组激活的节点来确定所述问题的根本原因；以及

确定用于缓解所述根本原因的恢复动作。

2.根据权利要求1所述的方法，其中所述一组监测元素包括：在所述网络中的相应交换机中的相应监测规则、由所述监测规则监测的一个或多个交换机组件以及促进基于所述监测规则的监测操作的监测代理；并且其中相应的监测规则包括用于触发所述监测规则的条件。

3.根据权利要求1所述的方法，其中所述一组激活的节点与所述网络中的多个交换机的监测元素相对应。

4.根据权利要求1所述的方法，进一步包括：

确定所述问题是否为关键问题；以及

响应于所述问题是非关键问题，在所述网络中的交换机上执行所述恢复动作，其中所述交换机包括在所述图的所述一组激活的节点中表示的一个或多个交换机组件。

5.根据权利要求4所述的方法，进一步包括：响应于所述问题是关键问题，在执行所述恢复动作之前从用户获得确认。

6.根据权利要求1所述的方法，其中所述关系定义指示一对监测元素是否彼此相关，并且其中所述方法进一步包括：基于以下一项或多项来确定针对所述图中的相应节点对的所述关系定义：

机器学习技术；以及

用户反馈。

7.根据权利要求1所述的方法，其中激活所述图的所述一组节点包括：

确定已经由所述问题触发的一组监测规则；以及

确定与一组触发的监测规则相对应的相应节点、与所触发的监测规则相关联的一个或多个交换机组件、以及与所述监测规则相关联的一个或多个监测代理。

8.根据权利要求1所述的方法，其中遍历所述图的所述一组激活的节点包括：

将最短路径算法应用于所述一组激活的节点的相应子图；以及

确定由所述最短路径算法识别的一组关键节点，其中相应的关键节点与受所述问题影响的交换机组件相对应。

9.根据权利要求8所述的方法，进一步包括：

在所述一组关键节点中确定多个相关节点；以及

覆盖所述图中的所述多个相关节点。

10.根据权利要求9所述的方法，其中确定所述根本原因进一步包括识别激活所覆盖的所述节点的原因。

11.一种存储指令的非暂时性计算机可读存储介质，所述指令在由计算机执行时，使所述计算机执行用于促进网络中的根本原因分析的方法，所述方法包括：

激活所述图的与所述问题相对应的一组节点；

确定用于缓解所述根本原因的恢复动作。

12.根据权利要求11所述的计算机可读存储介质，其中所述一组监测元素包括：在所述网络中的相应交换机中的相应监测规则、由所述监测规则监测的一个或多个交换机组件、以及促进基于所述监测规则的监测操作的监测代理；并且其中相应的监测规则包括用于触发所述监测规则的条件。

13.根据权利要求11所述的计算机可读存储介质，其中所述一组激活的节点与所述网络中的多个交换机的监测元素相对应。

14.根据权利要求11所述的计算机可读存储介质，其中所述方法进一步包括：

确定所述问题是否为关键问题；以及

15.根据权利要求14所述的计算机可读存储介质，其中所述方法进一步包括：响应于所述问题是关键问题，在执行所述恢复动作之前从用户获得确认。

16.根据权利要求11所述的计算机可读存储介质，其中所述关系定义指示一对监测元素是否彼此相关，并且其中所述方法进一步包括：基于以下一项或多项来确定针对所述图中的相应节点对的所述关系定义：

机器学习技术；以及

用户反馈。

17.根据权利要求11所述的计算机可读存储介质，其中激活所述图的所述一组节点包括：

确定已经由所述问题触发的一组监测规则；以及

18.根据权利要求11所述的计算机可读存储介质，其中遍历所述图的所述一组激活的节点包括：

19.根据权利要求18所述的计算机可读存储介质，其中所述方法进一步包括：

在所述一组关键节点中确定多个相关节点；以及

覆盖所述图中的所述多个相关节点。

20.根据权利要求19所述的计算机可读存储介质，其中确定所述根本原因进一步包括识别激活所覆盖的所述节点的原因。