CN112822032B

CN112822032B - 网络的网络模型感知诊断

Info

Publication number: CN112822032B
Application number: CN202010209093.4A
Authority: CN
Inventors: C·亚; J·耳; J·安蒂奇; P·吉科; H·玛利
Original assignee: Juniper Networks Inc
Current assignee: Juniper Networks Inc
Priority date: 2019-11-18
Filing date: 2020-03-23
Publication date: 2024-03-22
Anticipated expiration: 2040-03-23
Also published as: EP3823215A1; CN112822032A

Abstract

使用网络感知诊断技术管理网络设备。一种用于监测网络的示例方法包括由管理多个网络设备的控制器设备构建部署的图模型，该部署的图模型包括表示在网络内的网络设备上操作的服务的多个模型。该方法还包括由控制器设备接收在网络设备之一上操作的服务正在经历故障的警报。另外，该方法包括由控制器设备遍历部署的图模型内的建模的依赖性，以对正在经历故障的服务执行根本原因分析，以确定导致故障的资源级事件。该方法包括由控制器设备基于该遍历来提供指示故障的根本原因的报告。

Description

网络的网络模型感知诊断

相关申请的交叉引用

本申请要求于2019年11月18日提交的印度临时申请No.201941046895的优先权的权益，其全部内容通过引用合并于此。

技术领域

本公开涉及计算机网络，并且更具体地涉及网络设备的管理。

背景技术

计算机网络是可以交换数据和共享资源的互连计算设备的集合。各种设备进行操作以支持计算设备之间的通信。例如，计算机网络可以包括路由器、交换机、网关、防火墙和各种其他设备以提供和支持网络通信。

这些网络设备通常包括用于本地或远程地配置设备的机制，诸如管理接口。通过与管理接口进行交互，客户端可以执行配置任务以及执行操作命令以收集和查看被管理设备的操作数据。例如，客户端可以配置设备的接口卡，调整所支持的网络协议的参数，指定设备内的物理组件，修改由路由器维护的路由信息，访问驻留在设备上的软件模块和其他资源，以及执行其他配置任务。另外，客户端可以允许用户查看当前操作参数、系统日志、与网络连接性有关的信息、网络活动或来自设备的其他状态信息，以及查看并且响应于从设备接收的事件信息。

网络配置服务可以由多个不同的设备执行，诸如具有服务卡的路由器和/或专用服务设备。这样的服务包括连接性服务，诸如第三层虚拟专用网(L3VPN)、虚拟专用局域网服务(VPLS)和对等(P2P)服务。其他服务包括网络配置服务，诸如Dot1q VLAN服务。网络管理系统(NMS)和NMS设备(也称为控制器或控制器设备)可以支持这些服务，使得管理员可以轻松地创建和管理这些高级网络配置服务。

特别地，设备的用户配置可以被称为“意图”。基于意图的联网系统使管理员能够描述意图的网络/计算/存储状态。用户意图可以分类为业务策略或无状态意图。业务策略或有状态意图可以基于网络的当前状态进行解析。无状态意图可以是描述意图的网络/计算/存储状态的完全声明性方式，而无需关注当前网络状态。

意图可以被表示为可以使用统一图来建模的意图数据模型。意图数据模型可以表示为连通图，使得可以跨意图数据模型来实现业务策略。例如，可以使用其顶点通过具有(has)边和引用(ref)边连接的连通图来表示数据模型。控制器设备可以将意图数据模型建模为统一图，使得意图模型可以表示为已连接。以这种方式，可以跨意图数据模型实现业务策略。当使用统一图模型对意图进行建模时，扩展新的意图支持需要扩展图模型和编译逻辑。

为了配置设备以执行意图，用户(诸如管理员)可以编写转换程序，该转换程序将高级配置指令(例如，根据意图数据模型的指令，该意图数据模型可以表示为统一图模型)转换为低级配置指令(例如，根据设备配置模型的指令)。作为配置服务支持的一部分，用户/管理员可以提供意图数据模型以及意图数据模型与设备配置模型之间的映射。

为了简化用户的映射定义，控制器设备可以被设计为提供以简单方式定义映射的能力。例如，某些控制器设备提供对速度模板和/或可扩展样式表语言转换(XSLT)的使用。这样的转换器包含从意图数据模型到低级设备配置模型的转换或映射逻辑。通常，意图数据模型的相对较少量的变化会影响跨设备配置的相对大量的特性。当从意图数据模型创建、更新和删除服务时，可以使用不同的转换器。

发明内容

通常，本公开描述了用于管理网络设备的技术。网络管理系统(NMS)设备(在本文中也称为控制器设备)可以使用低级(即，设备级)配置数据(例如，是用另一下一代(YANG)数据建模语言表示的)来配置网络设备。此外，控制器设备可以基于网络设备的配置数据来管理网络设备。根据本公开的技术，使用模型遍历技术和依赖性图技术两者的网络模型定义捕获网络模型和设备模型两者、对应的遥测规则、以及节点、服务和/或多层服务之间的依赖关系。在标识故障的根本原因时，网络诊断服务(i)执行节点级根本原因分析，该分析对相关资源进行分组并且检查相关资源在相关资源的事件之间是否具有因果关系，(ii)服务级根本原因分析，该分析适用于(a)基于链接的因果依赖性，(b)然后是服务到节点事件依赖性，并且(c)然后是跨服务事件的依赖性，以及(iii)多层RCA，其收集服务到服务因果事件依赖性以按分层顺序进行遍历。基于这些收集的关系，网络诊断服务可以导航事件并且标识问题的来源。

在一个示例中，一种用于监测网络的方法包括：由管理多个网络设备的控制器设备构建部署的图模型，该部署的图模型包括表示在网络内的网络设备上操作的服务的多个模型。该方法还包括由控制器设备接收在网络设备之一上操作的服务正在经历故障的警报。另外，该方法包括由控制器设备遍历部署的图模型内的建模的依赖性，以对正在经历故障的服务执行根本原因分析，以确定导致故障的资源级事件。该方法包括由控制器设备基于该遍历来提供指示故障的根本原因的报告。

一种管理多个网络设备的示例控制器设备包括在电路系统中实现的一个或多个处理单元。控制器设备构建部署的图模型，该部署的图模型包括表示在网络内的网络设备上操作的服务的多个模型。控制器设备还接收在网络设备之一上操作的服务正在经历故障的警报。控制器设备遍历部署的图模型内的建模的依赖性，以对正在经历故障的服务执行根本原因分析，以确定导致故障的资源级事件。另外，控制器设备基于该遍历提供指示故障的根本原因的报告。

一种示例控制器设备管理多个网络设备。控制器设备包括在电路系统中实现的一个或多个处理单元。控制器设备构建和维护部署的图模型，该部署的图模型包括网络设备、在网络设备上操作的服务、以及多层服务之间的建模的依赖性。控制器设备检测在网络设备上操作的一个或多个服务的多个故障。控制器设备遍历部署的图模型内的建模的依赖性以执行根本原因分析。控制器设备基于该遍历来提供指示故障的根本原因的报告。

在附图和以下描述中阐述了一个或多个示例的细节。根据说明书和附图以及根据权利要求书，其他特征、目的和优点将很清楚。

附图说明

图1是示出包括使用管理设备管理的企业网络的元素的示例的框图；

图2是示出图1的管理设备的一组示例组件的框图；

图3是示出示例网络感知诊断(NAD)模型的组件的概念图，该NAD模型可以由诸如图1和2的控制器设备等控制器设备来实现；

图4是示出用于将两个资源链接在一起的数据结构的概念图；

图5A和5B描绘了示出示例服务、节点、路径和示例服务节点关系的概念图；

图6是示出图2的示例网络诊断服务的框图；

图7示出了跟随节点、服务和多层依赖性以到达故障的根本原因的图形示例；以及

图8是可以由图1和2的管理设备实现的用于使用网络感知诊断过程来执行根本原因分析的示例方法的流程图。

具体实施方式

故障诊断(有时称为“根本原因分析”或“RCA”)是一种根据在时间窗口中生成的一组事件来标识网络组件故障的根本原因的过程。故障诊断是运营商维护网络正常运行的关键任务。用于执行RCA的几种可能技术包括模型遍历技术和依赖性图技术。

模型遍历技术使用对象模型来确定故障传播。网络由各种组件以及组件之间的关系表示。基于该模型，可以推断出故障依赖性，并且将其用于标识问题的根本原因。模型遍历技术并不直接指定故障依赖性，而是在运行时期间从模型中得到它们。这些技术适用于经常变化的网络。但是，就其本身而言，模型遍历技术无法处理更复杂的故障传播场景(例如，假定一次仅发生一个问题)。依赖性图技术使用有向图来建模对象事件之间的依赖性。节点表示网络元素(例如，主机)。从节点A:event(A：事件)到节点B:event(B：事件)的边指示节点A的故障可能导致节点B的故障。依赖性图通常用于不经常变化的网络。在频繁变化的网络中，依赖性需要经常更新。网络很复杂。例如，一个网络可以覆盖在另一网络之上。例如，虚拟专用网络(VPN)覆盖在将其用作传输层的互联网协议(IP)网络上。网络需要一种机制以将跨层的问题与通用的模型驱动的解决方案关联，该通用的模型驱动的解决方案可以应用于可以支持频繁变化的网络并且一次支持多个并发故障的任何网络和服务拓扑。

如下所述，本公开的网络模型感知诊断技术使用元素模型、服务模型和多层模型。元素模型说明使用各种资源(例如，分组转发引擎(PFE)、线卡、接口、机箱、CPU等)并且捕获这些资源之间的关系的网络设备。捕获跨资源的各种事件之间的依赖性。服务模型说明跨设备分布的服务(例如，第3层(L3)VPN/虚拟专用LAN服务(VPLS)、标签交换路径(LSP)隧道等)。服务模型包括在服务级别捕获的各种事件。服务模型捕获(i)服务和服务端点关联，(ii)各种端点之间的连接性链接(路径)(例如，具有端点节点A、B、C的VPN服务包含节点A与节点B之间的隧道和节点A与节点C之间的隧道等)，(iii)跨服务事件的依赖性，(iv)跨端点事件的依赖性，以及(v)设备事件与服务事件之间的依赖性。网络是分层的。因此，基础层中的链接断开或较低层服务中的任何其他问题也会导致很多较高层服务故障，即使这些服务没有直接连接到故障的组件。多层模型捕获(i)服务到服务的依赖性，(ii)服务链接到服务链接依赖性，以及(iii)跨服务事件的依赖性。如下所述，网络感知诊断技术包括网络模型和设备模型两者。网络模型定义包括服务和服务端点，并且捕获服务到服务依赖性和服务到设备资源关联。

图1是示出包括使用控制器设备110管理的企业网络102的元素的示例的框图。企业网络102的被管理元素114A-114G(统称为“元素114”)包括经由通信链接互连以形成通信拓扑以交换资源和信息的网络设备。元素114(通常也称为网络设备或远程网络设备)可以包括例如路由器、交换机、网关、网桥、集线器、服务器、防火墙或其他入侵检测系统(IDS)或入侵防御系统(IDP)、计算设备、计算终端、打印机、其他网络设备、或这样的设备的组合。虽然在本公开中被描述为传输、传送或以其他方式支持分组，但是企业网络102可以传输根据由任何其他协议定义的任何其他离散数据单元的数据，诸如由异步传输模式(ATM)协议定义的单元、或由用户数据报协议(UDP)定义的数据报。互连元素114的通信链接可以是物理链接(例如，光、铜等)、无线链接或其任何组合。

企业网络102被示出为经由通信链接耦合到公共网络118(例如，互联网)。公共网络18可以包括例如一个或多个客户端计算设备。公共网络18可以提供对web服务器、应用服务器、公共数据库、媒体服务器、最终用户设备以及其他类型的网络资源设备和内容的访问。

控制器设备110经由企业网络102通信地耦合到元素114。在一些示例中，控制器设备110形成设备管理系统的一部分，尽管出于图1中的示例的目的而仅示出了设备管理系统的一个设备。控制器设备110可以直接或间接耦合到各种元素114。一旦元素114被部署和激活，管理员112就使用控制器设备110(或多个这样的管理设备)来使用设备管理协议来管理网络设备。一个示例设备协议是允许控制器设备110遍历和修改存储每个被管理元素114内的配置数据的管理信息库(MIB)的简单网络管理协议(SNMP)。SNMP协议的更多细节可以在从http://tools.ietf.org/html/rfc3411可获取的2002年12月的互联网工程任务组草稿的网络工作组的RFC 3411的Harrington等人的“An Architecture for DescribingSimple Network Management Protocol(SNMP)Management Frameworks”(其全部内容通过引用合并于此)中找到。

在通常的实践中，控制器设备110(也称为网络管理系统(NMS)或NMS设备)和元素114由企业的IT组集中维护。管理员112与控制器设备110交互以远程监测和配置元素114。例如，管理员112可以从控制器设备110接收关于任何元素114的警报，查看元素114的配置数据，修改元素114的配置数据，向企业网络102添加新的网络设备，从企业网络102中移除现有的网络设备，或者以其他方式操纵企业网络102和其中的网络设备。尽管关于企业网络进行描述，但是本公开的技术适用于公共和私有的其他网络类型，包括LAN、VLAN、VPN等。

在一些示例中，管理员112使用控制器设备10或本地工作站来与元素114直接交互，例如通过远程登录、安全外壳(SSH)或其他这样的通信会话。也就是说，元素114通常提供用于直接交互的接口，诸如命令行接口(CLI)、基于web的接口、图形用户接口(GUI)等，用户可以通过这些接口与设备交互以直接发出基于文本的命令。例如，这些接口通常允许用户直接与设备交互(例如，通过远程登录、安全外壳(SSH)、超文本传输协议(HTTP)或其他网络会话)以根据定义的语法来输入文本以向被管理元素提交命令。在一些示例中，用户使用控制器设备110与元素114之一(例如，元素14F)发起SSH会话115以直接配置元素14F。以这种方式，用户可以将用于执行的格式的命令直接提供给元素114。

此外，管理员112还可以创建可以由控制器设备110提交给任何或所有元素114的脚本。例如，除了CLI接口，元素114还提供用于接收根据脚本语言指定命令的脚本的接口。在某种意义上，脚本可以由控制器设备110输出以在被管理元素114上自动调用对应的远程过程调用(RPC)。脚本可以符合例如可扩展标记语言(XML)或另一种数据描述语言。

管理员112使用控制器设备110来将元素114配置为指定某些操作特性以进一步实现管理员112的目标。例如，管理员112可以为元素114指定关于以下各项的特定操作策略：安全性、设备可访问性、流量工程、服务质量(QoS)、网络地址转换(NAT)、分组过滤、分组转发、速率限制或其他策略。控制器设备110使用被设计用于管理被管理网络元素114内的配置数据的一种或多种网络管理协议(诸如SNMP协议或网络配置协议(NETCONF)协议或其衍生品，诸如瞻博网络设备管理接口)来执行配置。控制器设备10可以与一个或多个元素114建立NETCONF会话。

控制器设备110可以被配置为将新的意图数据模型与现有的(或旧的)意图数据模型进行比较，确定新的意图数据模型与现有的意图数据模型之间的差异，并且将反应性映射器应用于新的意图数据模型与旧的意图数据模型之间的差异。特别地，控制器设备110确定新的数据模型是否包括相对于旧的意图数据模型的任何附加配置参数、以及新的数据模型是否修改或省略了旧的意图数据模型中包括的任何配置参数。

意图数据模型可以是统一图模型，而低级配置数据可以用YANG来表示，这在以下各项中描述：(i)在tools.ietf.org/html/rfc6020可获取的2010年10月的互联网工程任务组的RFC 6020的Bjorklund的“YANG-A Data Modeling Language for the NetworkConfiguration Protocol(NETCONF)”，以及(ii)在tools.ietf.org/html/rfc8345(有时称为“RFC 8345”)可获取的2018年3月的RFC 8345的互联网工程任务组的Clemm等人的“AYANG Data Model for Network Topologies”。在某些示例中，意图数据模型可以用YAMLAin’t标记语言(YAML)来表示。控制器设备10可以包括用于转换意图数据模型差异的各种反应性映射器。这些功能被配置为接受意图数据模型(其可以表示为结构化的输入参数，例如，根据YANG或YAML)。这些功能还被配置为输出低级设备配置数据模型改变的相应集合，例如，设备配置添加和移除。也就是说，y1＝f1(x)，y2＝f2(x)，...yN＝fN(x)。

控制器设备110可以将YANG建模用于意图数据模型和低级设备配置模型。该数据可以包含跨YANG实体的关系，诸如列表项和容器。如下面更详细地讨论的，控制器设备110可以将YANG数据模型转换为图数据模型，并且将YANG验证转换为数据验证。用于使用图模型来针对高级配置数据来管理网络设备的技术在2017年3月17日提交的题为“CONFIGURINGAND MANAGING NETWORK DEVICES USING PROGRAM OVERLAY ON YANG-BASED GRAPHDATABASE”的美国专利申请No.15/462,465(其全部内容通过引用合并于此)中进行了描述。

控制器设备110可以从管理员112之一接收表示关于统一意图数据模型的创建、更新和/或删除动作中的任何一个或全部的数据。控制器设备110可以被配置为针对应用于图模型的创建、更新和删除中的每个使用相同的编译逻辑。

通常，像控制器设备110一样，控制器针对意图、低级数据模型和资源使用分层数据模型。分层数据模型可以基于YANG或YAML。如上所述，分层数据模型可以表示为图。现代系统已经支持简化网络管理的意图。意图是声明性的。为了实现意图，控制器设备110尝试选择最佳资源。

控制器设备110包括具有网络感知诊断过程的网络诊断服务以在一个或多个网络元素114故障时支持根本原因分析(RCA)。图2中示出了示例网络诊断服务。网络感知诊断模型包括捕获资源(例如，元素114和在元素114上运行的服务等)的库存模型、服务模型、网络模型、多层服务模型和/或诊断模型、以及在库存模型、服务模型、网络模型和多层服务模型中定义的资源之间的因果关系。网络感知诊断过程执行设备级RCA、服务级RCA和多层服务RCA。对于设备级RCA，为了标识根本原因，控制器设备110对相关资源进行分组，并且确定相关资源是否在事件之间具有因果关系。基于所确定的因果关系，控制器设备110基于模型来导航到事件，并且标识问题的来源。对于服务级RCA，服务具有一组节点和链接。事件依赖性捕获(i)服务事件与服务到节点事件之间的因果关系，以及(ii)服务端点上下文内的设备事件(有时称为“基于链接的事件”)之间的因果关系。例如，source.interface(来源.接口)拥塞可能会导致VPN端点、网络设备A和网络设备B(其中来源是网络设备A，并且目的地是网络设备B)内的destination.interface.packet(目的地.接口.分组)丢失。为了标识根本原因，控制器设备110应用设备级因果事件依赖性，然后应用基于链接的因果依赖性，然后将服务应用于节点事件依赖性，并且然后应用跨服务事件的依赖性。对于多层服务RCA，使用服务到服务因果事件依赖性基于分层顺序来标识故障的来源。

图2是示出了图1的控制器设备110的一组示例组件的框图。在该示例中，控制器设备110包括控制单元202、网络接口204和用户接口206。网络接口204表示可以将控制器设备100通信地耦合到外部设备(例如，图1的元素114之一)的示例接口。网络接口204可以表示无线和/或有线接口，例如，以太网接口或被配置为根据无线标准(诸如一个或多个IEEE802.11无线联网协议(诸如802.11a/b/g/n或其他这样的无线协议))进行通信的无线电设备。在各种示例中，控制器设备100可以包括多个网络接口，尽管出于示例目的而仅示出了一个网络接口。

控制单元202表示用于实现归属于控制单元202及其组成模块和元素的功能的硬件、软件和/或固件的任何组合。当控制单元202包括软件或固件时，控制单元202还包括用于存储和执行软件或固件的任何必要的硬件，诸如一个或多个处理器或处理单元。通常，处理单元可以包括一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或任何其他等效的集成或离散逻辑电路系统、以及这样的组件的任何组合。此外，通常使用固定和/或可编程逻辑电路系统来实现处理单元。

用户接口206表示诸如图1的管理员112等用户可以用来与控制器设备110交互以例如提供输入和接收输出的一个或多个接口。例如，用户接口206可以表示监测器、键盘、鼠标、触摸屏、触摸板、触控板、扬声器、相机、麦克风等中的一种或多种。此外，尽管在该示例中控制器设备100包括用户接口206，但是管理员112不需要直接与控制器设备100交互，而是可以例如经由网络接口204来远程地访问控制器设备100。

控制单元202的功能可以被实现为固定或可编程数字逻辑电路系统中的一个或多个处理单元。这样的数字逻辑电路系统可以包括一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或任何其他等效的集成或离散逻辑电路系统、以及这样的组件的任何组合。当被实现为可编程逻辑电路系统时，控制单元202还可以包括用于存储将由控制单元202的(多个)处理单元执行的硬件或固件指令的一个或多个计算机可读存储介质。

在该示例中，控制单元202包括用户接口模块208、网络接口模块210和管理模块212。控制单元202执行用户接口模块208以从用户接口206接收输入和/或向用户接口206提供输出。控制单元202还执行网络接口模块210以经由网络接口204发送和接收数据(例如，分组)。用户接口模块208、网络接口模块210和管理模块212也可以实现为相应的硬件单元，用软件或固件来实现，或者其组合。

控制单元202执行管理模块212以管理各种网络设备，例如，图1的元素114。管理包括例如根据从用户(例如，图1的管理员112)接收的指令来配置网络设备，以及向用户提供提交用于配置网络设备的指令的能力。管理模块212访问存储用于帮助管理各种网络设备的数据的各种数据库，诸如配置数据库214、模型数据库216、推断数据库218和遥测数据库220。虽然数据库214-220被示出为单独的数据库，但是这些数据库214-220中的一个或多个可以被组合或以其他方式重新布置。在该示例中，管理模块212还包括配置模块222和网络诊断服务224。

管理模块212被配置为从诸如管理员112等用户接收针对一组被管理网络设备的意图统一图建模的配置数据。这样的意图统一图建模的配置数据可以被称为“意图数据模型”。随着时间的流逝，用户可以更新配置数据，例如，以添加新服务，移除现有服务或者修改由被管理设备执行的现有服务。统一意图数据模型可以根据例如YANG或YAML来构建。图模型可以包括通过边以分层方式连接的多个顶点。在YANG中，图模型的边通过“叶引用(leafref)”元素来表示。在YAML的情况下，这样的边可以用“引用(ref)”边来表示。类似地，父到子顶点关系可以用“具有(has)”边来表示。例如，元素A的顶点使用具有边引用元素B的顶点，可以理解为表示“元素A具有元素B”。

配置数据库214通常包括描述被管理网络设备(例如，元素114)的信息。配置数据库214可以包括指示设备标识符(诸如MAC和/或IP地址)、设备类型、设备供应商、设备种类(例如，路由器、交换机、网桥、集线器等)等的信息。配置数据库214还存储用于被管理设备(例如，元素114)的当前配置信息(例如，意图数据模型，或者在某些情况下，既存储意图数据模型又存储低级配置信息)。

模型数据库214包括由用户经由配置模块222配置的描述网络102的结构的模型。如下所述，模型数据库包括网络感知诊断模型，该网络感知诊断模型由网络诊断服务224用来执行根本原因分析以找到作为事件的起源的故障元素114，即使故障不是事件的直接原因。

图3是示出可以由诸如控制器设备10等控制器设备实现的示例网络感知诊断(NAD)模型300的组件的概念图。NAD模型300从多个角度对网络进行建模以可用于经常变化并且一次支持多个并发故障的网络。在所示示例中，NAD模型300包括网络模型302和诊断模型304。网络模型302可配置为应用于任何网络和服务拓扑。网络模型302可以针对网络特定信息可增强，但是仍然遵循相同的结构，从而以一致的方式处理RCA基础设施。

NAD模型300由网络诊断服务224用来执行节点级RCA和服务级RCA。在标识根本原因时，节点级RCA对相关资源进行分组，并且检查相关资源在相关资源的事件之间是否具有因果关系。对于服务级RCA，NAD模型300应用基于链接的因果依赖性，然后是服务到节点事件依赖性，然后是跨服务事件的依赖性。对于多层RCA，NAD模型300收集要以分层顺序遍历的服务到服务因果事件依赖性。基于这些关系，NAD模型300导航事件并且标识问题的来源。

NAD模型300包括网络模型306和设备模型308(有时称为“元素模型”)两者。网络模型306的定义包括(i)服务和服务端点，以及(ii)捕获服务到服务依赖性和服务到设备资源关联。网络模型306还包括跨网络中的层的服务到服务依赖性和服务到设备资源关联。设备模型308的定义捕获设备中的各种对象(例如，接口、虚拟路由和转发(VRF)、机箱、现场可更换单元(FRU)等)(有时称为“节点”)。一些对象可以具有配置。每个对象具有状态属性。模型306和308还捕获跨资源的依赖性。依赖性被解析并且保存在模型数据库216中。应用可编程接口(API)提供用于使用配置模块222来跨这些模型添加新模型定义和依赖性的方法。

图4是示出用于将两个资源链接在一起的数据结构的概念图。在某些示例中，YANG数据类型“dependencyref(依赖性引用)”用于引用数据树中的特定资源。“dependencyref”定义两个资源(例如，图4的资源A 402和资源B 404)之间的依赖性。“path(路径)”子语句选择一组列表关键字实例，并且ref(引用)值空间是这些列表关键字实例的一组值。如果具有dependencyref类型的叶子表示对有效数据施加限制的配置或库存数据，则它引用的叶子也表示配置。这样的叶子对有效数据施加约束。当数据有效时，所有dependencyref节点都引用现有的列表关键字实例。下面提供使用dependencyref来引用数据树中特定资源的示例：

考虑引用现有接口的以下leafref(叶引用)：

这会将以下特性添加到被引用资源：

使用接口ge-0/0/1资源和department-vrf资源：

以下是由本公开的教导增强的基于RFC 8345的服务模型306的示例dependency-ref定义的示例。dependency-ref在两个资源之间创建引用边。引用者对象包含“ref”特性，并且被引用对象包含“reffer-list(引用-列表)”特性。由设备模型308对其进行增强。库存资源(例如，设备、节点等)在网络或网络拓扑或服务拓扑中的节点、链接和/或终止点中是可引用的。

/>

设备模型308捕获设备库存对象和拓扑中节点资源的引用。设备模型308包含一组资源。资源对象包含资源ID、资源类型、父资源ID(在分层资源的情况下)和从属资源(资源可以由其他资源支持并且映射到节点中的一个或多个其他资源上)。设备模型308支持应用在通用级别(其中不需要特定库存的细节)上在任何网络的库存上运行，并且可以用库存特定的属性进行增强。以下是通过本公开的教导增强的基于RFC 8345的YANG中的资源对象的示例。

/>

图5A和5B描绘了示出可以由服务模型306和设备模型308建模的示例服务、节点、链接和示例服务节点关系的概念图。另外，图5B示出了可以在服务模型306中建模的示例多层服务关系。图5A示出了使用通过链接连接在一起以执行服务的三个设备(“D1”、“D2”和“D3”)502A-502C的服务(“服务1”)500。在图5A的所示示例中，D1(“设备1”)502A具有三个资源(“R1”、“R2”和“R3”)504A-504C。D1 502A依赖于R1 504A和R2 504B。R1 506A依赖于R3504C。D1 502A与D2 502B之间的链接依赖于R3 504C。图5B示出了具有两个服务(“服务1”和“服务2”)500A和500B的模型。第1层上的服务1 500A依赖于第2层上的服务2 500B。具体地，服务1 500A的D1 502A与D3 502C之间的链接依赖于服务2 500B的D4 506A与D5 506B之间以及D2 506B与D6 506C之间的链接。

诊断模型304捕获各种资源之间的因果关系(有时在本文中称为“相关性”)。在资源和资源警告/事件之间定义了因果关系。当在资源之间定义因果关系时，资源上的任何严重警告/事件都会对“支持资源”产生影响。当在资源警告/事件之间定义因果关系时，资源上的事件会导致影响关于“被支持的资源”事件。

对于库存资源，每个资源对象利用警告被增强。警告定义设备资源上的操作状态数据。警告包含若干特性，包括名称、ID和/或严重性。每个资源对象具有状态属性和状态元数据。库存资源的因果关系捕获被支持的资源上的事件之间的依赖性，使得设备资源事件->设备资源事件(例如，PFE存储器事件->接口分组丢失)。

对于服务模型和多层因果事件，每个网络对象利用警告被增强。警告定义设备资源上的操作状态数据。警告包含若干特性，包括名称、ID和/或严重性。每个资源对象具有状态属性和状态元数据。服务模型和多层因果事件捕获服务内的事件之间的因果关系。在一些示例中，因果事件可以是服务警告，使得服务事件1->服务事件2(例如，VPN前缀限制超出->VPN路由表限制)。在一些示例中，因果事件基于设备资源之间的链接来捕获警告依赖性，使得来源<设备资源事件>->目的地<设备资源事件>(例如，source.Interface拥塞->destination.interface.packet丢失)。对于多层服务，网络或服务上的事件会导致其他被支持的网络或服务出现问题。这些事件被捕获作为跨服务的事件相关性，使得service.event1->service.event2(服务.事件1->服务.事件2)(例如，LSP.interface(LSP.接口)拥塞->VPN.latency(VPN.等待时间))。以下是警告定义的示例。

NAD模型300使用各种设备级、服务级和多层服务相关性(例如，因果关系)。设备级相关性基于设备内的建模的依赖性。这些依赖性基于设备模型308被导航并且与相关事件进行分组以标识诊断模型304中问题的(多个)来源。服务级相关性包括网络模型306中维护的服务资源到设备资源依赖性。基于这些依赖性，建立服务到设备相关性并且将其存储在诊断模型304中。服务级相关性使用在网络模型306中定义的服务之间的依赖性。多层服务相关性建立跨层和服务的因果关系。例如，LSP事件可能会导致VPN出现问题。这些因果关系被存储在诊断模型304中。

推断数据库218是知识库，该知识库存储由推断引擎226用于响应于警报的根本原因而生成事件的数据和规则。由推断引擎226生成的事件可以用于例如基于存储在遥测数据库220中的补救动作推荐来推荐和/或采取自主动作。例如，关于元素114之间的接口上的分组丢失的警报的根本原因分析可以得出结论，警报是由路由器元素的分组转发引擎中的存储器错误引起的。在这样的示例中，推断引擎226可以基于遥测数据库220中的信息来为该元素114推荐存储器管理技术。

网络诊断服务224响应于接收到服务、设备和/或链接未在预期参数内起作用的警报而执行根本原因分析。网络诊断服务224使用NAD模型300来在网络中导航以确定哪个设备或资源是错误的原因。当接收到警报时，网络诊断服务224基于与警报相关联的服务、设备和/或链接的依赖性来将资源分组在一起。使用NAM模型300，网络诊断服务224导航依赖性，直到它到达一个或多个资源。

图6是示出图2的示例网络诊断服务224的框图。网络诊断服务224接收资源未在预期参数内起作用的警报602，并且输出智能事件604，该智能事件包括警报602的一个或多个根本原因并且在一些示例中包括用于改善(多个)根本原因的补救动作。在所示示例中，网络诊断服务224包括输入队列606、事件处理程序608、模型加载器610和智能事件生成器612。

输入队列606从网络102内的网络设备114接收警报602以用于处理。事件处理程序608从输入队列606中选择警报602(例如，基于队列中的时间和/或优先级等)，并且经由模型加载器610从模型数据库216中检索网络诊断模型300，包括网络模型302和诊断模型304。在所示示例中，事件处理程序608基于设备级的建模的依赖性、设备资源模型依赖性、服务到资源的建模的依赖性、多层服务依赖性和/或服务模型中的依赖性(统称为“网络诊断模型依赖性”)来形成相关服务、节点和/或资源的组。事件处理程序608在没有分组服务、节点和/或资源的情况下遍历网络诊断模型依赖性以确定作为警报的根本原因的资源。基于例如网络诊断模型依赖性以及与在诊断模型304中建模的警报602相关联的因果关系，推断引擎226使用事件数据库218来以产生警报的方式来确定是什么事件引起了资源故障。智能事件生成器612生成标识事件的智能事件604。在一些示例中，智能事件生成器612基于存储在遥测数据库220中的补救动作生成智能事件604以包括用于校正所标识的事件的一个或多个动作。

图7示出了跟随节点、服务和多层依赖性以到达故障的根本原因的图形示例。在所示示例中，可以在D2 502B上检测到故障。因为D2 502B包括来自D1 502A的链接，所以网络诊断服务224基于(a)该链接上的依赖性和(b)D1 502A的依赖性来形成组。链接依赖于节点R1 504A。另外，D1 502A依赖于节点R3 504C，并且节点R1 504A依赖于节点R3 504C。通过遍历相关的依赖性，网络诊断服务224将节点R3 504C上的事件标识为问题的来源。

图8是可以由图1和2的管理设备110来实现的用于使用网络感知诊断模型300来执行根本原因分析的示例方法的流程图。首先，配置模块222通过定义网络中包含的节点来构建网络的元素模型(框802)。配置模块222通过利用(i)服务和节点以及(ii)跨网络层的服务之间的关系(例如，链接、依赖性等)的拓扑来定义网络中包含的服务来构建网络的服务模型(框804)。配置模块222通过捕获资源、资源事件和被支持的资源中的依赖性之间的因果关系来构建网络的诊断模型(框806)。

网络诊断服务224不时地接收警报602(框808)。使用所构建的模型(例如，在框802至806处构建的模型)，网络诊断服务224对相关的资源进行分组(例如，经由链接，经由依赖性，等等)(框810)。网络诊断服务224确定哪些相关资源具有与警报602相关联的因果关系(框812)。网络诊断服务224通过基于对因果关系的导航来确定与警报有关的事件的来源来执行根本原因分析(框814)。

本公开中描述的技术可以至少部分由硬件、软件、固件或其任意组合来实现。例如，所描述技术的各个方面可以在一个或多个处理器内实现，包括一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或任何其他等效的集成或离散逻辑电路系统、以及这样的组件的任何组合。术语“处理器”或“处理电路系统”通常可以是指单独的或与其他逻辑电路系统或任何其他等效电路系统组合的任何前述逻辑电路系统。包括硬件的控制单元也可以执行本公开的一种或多种技术。

这样的硬件、软件和固件可以在同一设备内或在单独的设备内实现以支持本公开中描述的各种操作和功能。另外，任何所描述的单元、模块或组件可以一起或单独地实现为分立但可互操作的逻辑器件。将不同特征描述为模块或单元旨在突出不同的功能方面，而不一定暗示这样的模块或单元必须通过单独的硬件或软件组件来实现。相反，与一个或多个模块或单元相关联的功能可以通过单独的硬件或软件组件来执行，或者可以集成在通用的或单独的硬件或软件组件内。

本公开中描述的技术还可以在包含指令的计算机可读介质(诸如计算机可读存储介质)中实现或编码。嵌入或编码在计算机可读介质中的指令可以引起可编程处理器或其他处理器例如在指令被执行时执行该方法。计算机可读介质可以包括非暂态计算机可读存储介质和暂态通信介质。有形且非暂态的计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、闪存、硬盘、CD-ROM、软盘、盒式磁带、磁性介质、光学介质或其他计算机可读存储介质。术语“计算机可读存储介质”是指物理存储介质，而不是信号、载波或其他暂态介质。

已经描述了各种示例。这些和其他示例在所附权利要求的范围内。

Claims

1.一种用于监测网络的方法，包括：

由管理多个网络设备的控制器设备构建部署的图模型，所述部署的图模型包括表示在所述网络内的所述网络设备上操作的服务的多个模型，所述多个模型包括：1)设备模型，表示所述网络设备和所述网络设备的资源，2)服务模型，表示由所述网络设备提供的服务、所述网络设备之间的关系的拓扑以及在所述服务中的每个服务中所述网络设备中的哪个网络设备被涉及，以及3)诊断模型，表示所述资源和资源事件之间的因果关系；

由所述控制器设备在所述控制器设备的存储器中存储所述部署的图模型，所述部署的图模型包括所述多个模型中的每个模型；

由所述控制器设备接收在所述网络设备中的一个网络设备上操作的服务正在经历故障的警报；

由所述控制器设备遍历所述部署的图模型内的建模的依赖性，来对正在经历所述故障的所述服务执行根本原因分析，以确定导致所述故障的资源级事件，所述部署的图模型包括所述设备模型、所述服务模型和所述诊断模型；以及

由所述控制器设备基于所述遍历来提供指示所述故障的所述根本原因的报告。

2.根据权利要求1所述的方法，其中所述服务模型还表示多层服务，所述多层服务包括在网络的多个层处操作的服务。

3.根据权利要求1所述的方法，其中所述多个模型中的至少一个模型包括所述网络设备、所述网络设备的资源、在所述网络设备上操作的服务、以及多层服务之间的依赖性。

4.根据权利要求1所述的方法，其中所述多个模型中的至少一个模型包括与网络设备、所述网络设备的资源、在所述网络设备上操作的服务、以及多层服务相关联的事件之间的依赖性。

5.根据权利要求1所述的方法，其中遍历所述部署的图模型内的所述建模的依赖性包括：

基于与正在经历故障的所述网络设备相关联的网络组件的所述建模的依赖性来对所述网络组件进行分组；以及

遍历分组的所述网络组件内的所述建模的依赖性，直到到达没有依赖性的网络设备的资源。

6.根据权利要求1所述的方法，其中提供所述报告包括提供用于补救所述故障的所述根本原因的建议。

7.根据权利要求1所述的方法，还包括由所述控制器设备自动执行用于补救所述故障的所述根本原因的动作。

8.根据权利要求1所述的方法，其中构建所述部署的图模型包括从意图数据模型构建所述部署的图模型。

9.一种用于管理多个网络设备的控制器设备，所述控制器设备包括：

存储器；以及

一个或多个处理单元，所述一个或多个处理单元在电路系统中被实现并且被配置为：

构建部署的图模型，所述部署的图模型包括表示在网络内的所述网络设备上操作的服务的多个模型，所述多个模型包括：1)设备模型，表示所述网络设备和所述网络设备的资源，2)服务模型，表示由所述网络设备提供的服务、所述网络设备之间的关系的拓扑以及在所述服务中的每个服务中所述网络设备中的哪个网络设备被涉及，以及3)诊断模型，表示所述资源和资源事件之间的因果关系；

在所述存储器中存储所述部署的图模型，所述部署的图模型包括所述多个模型中的每个模型；

接收在所述网络设备中的一个网络设备上操作的服务正在经历故障的警报；

遍历所述部署的图模型内的建模的依赖性，来对正在经历所述故障的所述服务执行根本原因分析，以确定导致所述故障的资源级事件，所述部署的图模型包括所述设备模型、所述服务模型和所述诊断模型；以及

基于所述遍历来提供指示所述故障的所述根本原因的报告。

10.根据权利要求9所述的控制器设备，其中所述服务模型还表示多层服务，所述多层服务包括在网络的多个层处操作的服务。

11.根据权利要求9所述的控制器设备，其中所述多个模型中的至少一个模型包括所述网络设备、所述网络设备的资源、在所述网络设备上操作的服务、以及多层服务之间的依赖性。

12.根据权利要求9所述的控制器设备，其中所述多个模型中的至少一个模型包括与网络设备、所述网络设备的资源、在所述网络设备上操作的服务、以及多层服务相关联的事件之间的依赖性。

13.根据权利要求9所述的控制器设备，其中为了遍历所述部署的图模型内的所述建模的依赖性，所述一个或多个处理单元被配置为：

14.根据权利要求9所述的控制器设备，其中为了提供所述报告，所述一个或多个处理单元被配置为：提供用于补救所述故障的所述根本原因的建议。

15.根据权利要求9所述的控制器设备，其中所述一个或多个处理单元还被配置为：自动执行用于补救所述故障的所述根本原因的动作。

16.一种用于管理多个网络设备的控制器设备，所述控制器设备包括：

存储器；以及

一个或多个处理单元，所述一个或多个处理单元在电路系统中实现并且被配置为：

构建部署的图模型，所述部署的图模型包括多个模型，所述多个模型包括：1)设备模型，表示所述网络设备、所述网络设备的资源和所述网络设备之间的建模的依赖性，2)服务模型，表示在所述网络设备上操作的服务、所述网络设备之间的关系的拓扑以及在所述服务中的每个服务中所述网络设备中的哪个网络设备被涉及，所述服务包括多层服务，所述多层服务在网络的多个层处操作，以及3)诊断模型，表示所述资源和资源事件之间的因果关系；

在所述存储器中存储所述部署的图模型；

接收多个警报，所述多个警报表示在所述网络设备上操作的所述服务中的一个或多个服务的多个故障；

遍历所述部署的图模型内的所述建模的依赖性以执行根本原因分析，所述部署的图模型包括所述设备模型、所述服务模型和所述诊断模型；

基于所述遍历来提供指示所述故障的所述根本原因的报告。

17.根据权利要求16所述的控制器设备，其中为了提供所述报告，所述一个或多个处理单元被配置为：提供用于补救所述故障的所述根本原因的建议。

18.根据权利要求16所述的控制器设备，其中所述一个或多个处理单元还被配置为：自动执行用于补救所述故障的所述根本原因的动作。

19.根据权利要求16所述的控制器设备，其中遍历所述部署的图模型内的所述建模的依赖性以执行根本原因分析，所述一个或多个处理单元被配置为：

20.一种用于监测网络的设备，包括：

用于由管理多个网络设备的控制器设备构建部署的图模型的装置，所述部署的图模型包括表示在所述网络内的所述网络设备上操作的服务的多个模型，所述多个模型包括：1)设备模型，表示所述网络设备和所述网络设备的资源，2)服务模型，表示由所述网络设备提供的服务、所述网络设备之间的关系的拓扑以及在所述服务中的每个服务中所述网络设备中的哪个网络设备被涉及，以及3)诊断模型，表示所述资源和资源事件之间的因果关系；

用于由所述控制器设备在所述控制器设备的存储器中存储所述部署的图模型的装置，所述部署的图模型包括所述多个模型中的每个模型；

用于由所述控制器设备接收在所述网络设备中的一个网络设备上操作的服务正在经历故障的警报的装置；

用于由所述控制器设备遍历所述部署的图模型内的建模的依赖性，来对正在经历所述故障的所述服务执行根本原因分析，以确定导致所述故障的资源级事件的装置，所述部署的图模型包括所述设备模型、所述服务模型和所述诊断模型；以及

用于由所述控制器设备基于所述遍历来提供指示所述故障的所述根本原因的报告的装置。

21.根据权利要求20所述的设备，其中所述服务模型还表示多层服务，所述多层服务包括在网络的多个层处操作的服务。

22.根据权利要求20所述的设备，其中所述多个模型中的至少一个模型包括所述网络设备、所述网络设备的资源、在所述网络设备上操作的服务、以及多层服务之间的依赖性。

23.根据权利要求20所述的设备，其中所述多个模型中的至少一个模型包括与网络设备、所述网络设备的资源、在所述网络设备上操作的服务、以及多层服务相关联的事件之间的依赖性。

24.根据权利要求20所述的设备，其中用于遍历所述部署的图模型内的所述建模的依赖性的装置包括：

用于基于与正在经历故障的所述网络设备相关联的网络组件的所述建模的依赖性来对所述网络组件进行分组的装置；以及

用于遍历分组的所述网络组件内的所述建模的依赖性，直到到达没有依赖性的网络设备的资源的装置。

25.根据权利要求20所述的设备，其中用于提供所述报告的装置包括用于提供用于补救所述故障的所述根本原因的建议的装置。

26.根据权利要求20所述的设备，还包括用于由所述控制器设备自动执行用于补救所述故障的所述根本原因的动作的装置。

27.根据权利要求20所述的设备，其中用于构建所述部署的图模型的装置包括用于从意图数据模型构建所述部署的图模型的装置。

28.一种非瞬态计算机可读介质，存储指令，所述指令在被执行时，使得处理器执行根据权利要求1至8中任一项所述的方法。