CN118138509A

CN118138509A - 网络异常检测和缓解

Info

Publication number: CN118138509A
Application number: CN202310108740.6A
Authority: CN
Inventors: 易卜拉欣·萨法维
Original assignee: Juniper Networks Inc
Current assignee: Juniper Networks Inc
Priority date: 2022-12-01
Filing date: 2023-02-10
Publication date: 2024-06-04
Also published as: EP4380123A1; US20240187302A1

Abstract

本公开涉及网络异常检测和缓解。网络管理系统可以检测拥塞和其他网络问题，识别问题的根本原因并调用补救措施。网络管理系统可以从网络中的各种设备收集网络数据的时间序列。网络管理系统可以使用所收集的网络数据来确定度量，该度量指示网络是否正在经历拥塞和/或异常，如果正在经历，则根本原因是什么。一旦识别了根本原因，就可以采取自动和/或手动的纠正措施。

Description

网络异常检测和缓解

相关申请

本申请要求2022年12月1日提交的美国申请第18/060,910号的权益，该申请的全部内容通过引用结合于此。

技术领域

本公开总体上涉及计算机网络，并且更具体地，涉及对计算机网络的监控和故障排除。

背景技术

由于各种原因，网络可能存在通信问题。诸如配置错误或组件故障等异常情况可能会导致网络拥塞或网络性能问题。通常，如果存在网络错误，用户会抱怨网络问题，并且然后，信息技术(IT)技术人员可能需要调试网络，以便找到有问题的配置或有问题的组件并修复。等待IT技术人员解决问题可能会使网络用户的网络性能长期低于标准，从而导致用户不满。需要熟练的IT技术人员来解决配置问题和异常，可能会使解决网络异常的成本高昂。

发明内容

总体上，本公开描述了一种或多种技术，用于检测拥塞和其他网络问题，识别问题的根本原因，并且用及时、高效和成本有效的方式调用补救措施。网络管理系统可以从网络中的各种设备收集网络数据的时间序列。网络管理系统(NMS)可以使用所收集的网络数据来确定度量，该度量指示网络是否正在经历拥塞和/或异常，如果正在经历，则根本原因是什么。一旦识别了根本原因，就可以采取自动和/或手动的纠正措施。网络管理系统可以从网络设备收集统计，将所收集的统计合并到向量中，并聚集这些向量。网络管理系统可以使用基于人工智能(AI)的机器学习(ML)模型来处理网络数据的聚集时间序列，以检测网络中的异常，这些异常指示可能影响用户的服务水平体验的网络降级。

可以使用无监督的ML过程来训练ML模型。在一些方面，基于正在进行的测量的网络统计来训练ML模型。NMS可以基于历史值预测下一个测量值，并且当测量值偏离预测值超过动态AI学习阈值时，AI系统可以宣布异常事件。除了检测异常，系统可以识别a)发生异常的时间段，以及b)触发异常检测的向量分量。一旦检测到异常，系统就可以识别问题设备并采取纠正措施。识别设备可以使用网络数据的空间或时间分析。

本文描述的系统和方法可以提供优于现有系统的技术优势。例如，本文描述的系统和方法可以减少检测数据流量问题的时间。还可以通过将网络作为一个整体来检查，而不是分别检查每个设备的操作，来大大减少所需的计算。只有当检测到异常时，系统才会调用额外的资源来对网络中的每个单独的设备执行计算更密集的分析，以识别有问题的组件。

在一个示例中，本公开涉及一种方法，该方法包括：在计算设备处从网络中的多个网络设备接收由多个网络设备收集的网络数据；从网络数据确定统计的时间序列；在计算设备处聚集来自多个网络设备的统计的时间序列，以产生聚集的统计；在计算设备处评估所聚集的统计，以确定网络中的异常，该异常具有相关联的异常时间段；以及响应于确定网络中的异常，在计算设备处使用在相关联的异常时间段期间收集的统计的时间序列的子集来确定多个网络设备中的至少一个网络设备与异常相关。

在另一示例中，本公开涉及一种计算设备，该计算设备包括：存储器；以及一个或多个处理器，耦接到存储器并且被配置为：从网络中的多个网络设备接收由多个网络设备收集的统计；聚集来自多个网络设备的统计，以产生聚集的统计；评估所聚集的统计，以确定网络中的异常，该异常具有相关联的异常时间段；以及使用由多个网络设备在相关联的异常时间段期间收集的统计来确定多个网络设备中的至少一个网络设备与异常相关。

在又一示例中，本公开涉及一种其上存储有指令的非暂时性计算机可读存储介质，当执行指令时，使得一个或多个处理器：从网络中的多个网络设备接收由多个网络设备收集的统计；聚集来自多个网络设备的统计，以产生聚集的统计；评估所聚集的统计，以确定网络中的异常，该异常具有相关联的异常时间段；以及使用由多个网络设备在相关联的异常时间段期间收集的统计来确定多个网络设备中的至少一个网络设备与异常相关。

在所附附图和以下描述中阐述了本公开的技术的一个或多个示例的细节。从说明书和附图以及权利要求书中，这些技术的其他特征、目的和优点将是显而易见的。

附图说明

图1A是根据本公开的一种或多种技术的包括网络管理系统的示例网络系统的框图。

图1B是示出根据本公开的一种或多种技术的图1A的网络系统的进一步示例细节的框图。

图2是根据本公开的一种或多种技术的示例访问点设备的框图。

图3是根据本公开的一种或多种技术的示例网络管理系统的框图。

图4是根据本公开的一种或多种技术的示例用户设备的框图。

图5是根据本公开的一种或多种技术的示例网络节点(诸如路由器或交换机)的框图。

图6A是示出根据本公开的一种或多种技术的检测网络异常的示例操作流程的概念图。

图6B是示出根据本公开的一种或多种技术的响应于检测到网络异常而进行补救措施的示例操作流程的概念图。

图7是根据本公开的一种或多种技术的在网络中检测到的示例异常周期的图表。

图8是根据本公开的一种或多种技术的在网络中检测到的示例异常周期的图表，其具有网络设备的统计的图表。

图9是示出根据本公开的一种或多种技术的检测网络异常的示例操作流程的概念图。

图10是示出根据本公开的一种或多种技术的使用分布式网络异常检测来检测网络异常的示例操作流程的概念图。

图11是示出根据本公开的一种或多种技术的检测网络异常的示例操作的流程图。

具体实施方式

图1A是根据本公开的一种或多种技术的包括网络管理系统(NMS)130的示例网络系统100的框图。示例网络系统100包括多个站点102A-102N，在这些站点上，网络服务提供商分别管理一个或多个无线网络106A-106N。尽管在图1A中，每个站点102A-102N被示为分别包括单个无线网络106A-106N，但是在一些示例中，每个站点102A-102N可以包括多个无线网络，并且本公开不限于这一方面。

每个站点102A-102N包括多个网络设备，这些网络设备包括网络访问服务器(NAS)设备(诸如访问点(AP)142、交换机146或路由器145)以及有线设备143。例如，站点102A包括多个AP 142A-1至142A-M。类似地，站点102N包括多个AP 142N-1至142N-M。每个AP 142可以是任何类型的无线访问点，包括但不限于商业或企业AP、路由器或连接到有线网络并能够向站点内的客户端设备提供无线网络访问的任何其他设备。

每个站点102A-102N还包括诸如客户端设备，也称为用户设备(UE)，通常称为UE或客户端设备148的网络设备，表示每个站点内的各种无线使能设备。例如，多个UE 148A-1到148A-K当前位于站点102A。类似地，多个UE 148N-1到148N-K当前位于站点102N。每个UE148可以是任何类型的无线客户端设备，包括但不限于移动设备，诸如智能电话、平板电脑或膝上型计算机、个人数字助手(PDA)、无线终端、智能手表、智能戒指或其他可穿戴设备。UE 148还可以包括有线客户端设备，例如，诸如打印机、安全设备、环境传感器的物联网设备，或者连接到有线网络并被配置为通过一个或多个无线网络106进行通信的任何其他设备。有线设备143可以是作为有线网络的一部分的任何计算设备。

为了向UE 148提供无线网络服务和/或通过无线网络106进行通信，站点102处的AP 142和其他有线客户端设备经由物理电缆(例如，以太网电缆)直接或间接地连接到一个或多个网络设备(例如，交换机、路由器等)。在图1A的示例中，站点102A包括交换机146A，在站点102A处的AP 142A-1到142A-M中的每一个都连接到该交换机。类似地，站点102N包括交换机146N，在站点102N处的AP 142N-1到142N-M中的每一个都连接到该交换机。尽管在图1A中示出，好像每个站点102包括单个交换机146，并且给定站点102的所有AP 142都连接到单个交换机146，但是在其他示例中，每个站点102可以包括更多或更少的交换机和/或路由器。此外，给定站点的AP和其他有线客户端设备可以连接到两个或更多交换机和/或路由器。此外，一个站点处的两个或更多个交换机可以例如经由中心辐射式架构中的网状或部分网状拓扑来彼此连接和/或连接到两个或更多个路由器。在一些示例中，互连的交换机和路由器包括位于托管无线网络106的站点102处的有线局域网(LAN)。

示例网络系统100还包括用于在有线网络内提供网络服务的各种网络组件，包括例如用于认证用户和/或UE 148的认证、授权和计费(AAA)服务器110、用于在认证时向UE148动态分配网络地址(例如，IP地址)的动态主机配置协议(DHCP)服务器116、用于将域名解析为网络地址的域名系统(DNS)服务器122、多个服务器128A-128X(统称为“服务器128”)(例如，web服务器、数据库服务器、文件服务器等)以及网络管理系统(NMS)130。如图1A所示，网络100的各种设备和系统经由一个或多个网络134(例如，因特网和/或企业内部网)耦合在一起。

在图1A的示例中，NMS 130是管理一个或多个站点102A-102N处的无线网络106A-106N的基于云的计算平台。如本文进一步描述的，NMS130提供了一套集成的管理工具，并实现了本公开的各种技术。通常，NMS130可以提供基于云的平台，用于无线网络数据获取、监控、活动记录、报告、预测分析、网络异常识别和警报生成。在一些示例中，NMS 130向与管理员设备111交互和/或操作管理员设备111的站点或网络管理员(“管理员”)输出通知，诸如警报、告警、仪表板上的图形指示器、日志消息、文本/SMS消息、电子邮件消息等和/或关于无线网络问题的建议。此外，在一些示例中，NMS 130响应于从与管理员设备111交互和/或操作管理员设备111的管理员接收的配置输入而操作。

管理员和管理员设备111可以包括与一个或多个站点102相关联的IT人员和管理员计算设备。管理员设备111可以被实现为用于呈现输出和/或接受用户输入的任何合适的设备。例如，管理员设备111可以包括显示器。管理员设备111可以是计算系统，诸如由用户和/或管理员操作的移动或非移动计算设备。根据本公开的一个或多个方面，管理员设备111可以例如表示工作站、膝上型或笔记本计算机、台式计算机、平板计算机或可以由用户操作和/或呈现用户接口的任何其他计算设备。管理员设备111可以与NMS 130物理分离和/或位于不同的位置，使得管理员设备111可以经由网络134或其他通信手段与NMS 130通信。

在一些示例中，一个或多个NAS设备(例如，AP 142、交换机146或路由器145)可以经由物理电缆(例如，以太网电缆)连接到边缘设备150A-150N。边缘设备150包括云管理的无线局域网(LAN)控制器。每个边缘设备150可以包括在站点102处的内部设备，该内部设备与NMS130通信，以将某些微服务从NMS 130扩展到内部NAS设备，同时使用NMS 130及其分布式软件架构来进行可扩展和有弹性的操作、管理、故障检修和分析。

网络系统100的每个网络设备(例如，服务器110、116、122和/或128、AP 142、UE148、交换机146以及任何其他附接到网络系统100或形成网络系统的一部分的服务器或设备)可以包括系统日志或错误日志模块，其中，这些网络设备中的每一个记录网络设备的状态，包括正常操作状态和错误条件。在整个本公开中，网络系统100的一个或多个网络设备(例如，服务器110、116、122和/或128、AP 142、UE 148以及交换机146)当由不同于NMS 130的实体所拥有、操作和/或与之相关联时，可以被认为是“第三方”网络设备，使得NMS 130不接收、收集或以其他方式访问第三方网络设备的记录状态和其他数据。在一些示例中，边缘设备150可以提供代理，通过该代理可以向NMS 130报告第三方网络设备的记录状态和其他数据。

在一些示例中，NMS 130监控分别从每个站点102A-102N处的无线网络106A-106N接收的网络数据137，例如，一个或多个服务水平体验(SLE)值或度量，并且管理网络资源，诸如每个站点处的AP 142和其他网络设备，以向该站点处的终端用户、IoT设备和客户端传送高质量的无线体验。例如，NMS 130可以包括虚拟网络助手(VNA)133，该虚拟网络助手实现用于为IT操作提供实时洞察和简化的故障诊断的事件处理平台，并且自动采取纠正措施或提供建议，以主动解决无线网络问题。例如，VNA 133可以包括事件处理平台，该平台被配置为处理来自与网络134内的AP 142和/或节点相关联的传感器和/或代理的数百或数千个并发的网络数据流137。例如，根据本文描述的各种示例，NMS 130的VNA 133可以包括底层分析和网络错误识别引擎以及警报系统。VNA 133的底层分析引擎可以将历史数据和模型应用于入站事件流，以计算断言，诸如构成网络错误状况的事件的已识别异常或预测发生。此外，VNA 133可以提供实时警报和报告，以经由管理员设备111向站点或网络管理员通知任何预测的事件、异常、趋势，并且可以执行根本原因分析和自动或辅助的错误补救。在一些示例中，NMS 130的VNA 133可以应用机器学习技术来识别从网络数据流137中检测到或预测到的错误状况的根本原因。如果可以自动解决根本原因，则VNA 133可以调用一个或多个纠正措施来纠正错误状况的根本原因，从而自动改善底层SLE度量，并且还自动改善用户体验。

由NMS 130的VNA 133实现的操作的进一步示例细节的描述见2017年11月28日发布的题为“监控无线访问点事件(Monitoring Wireless Access Point Events)”的美国专利第9,832,082号、2021年9月30日发布的题为“使用机器学习模型的网络系统故障解决(Network System Fault Resolution Using a Machine Learning Model)”的美国公开第US2021/0306201号、2021年4月20日发布的题为“用于虚拟网络助手的系统和方法(Systemsand Methods for a Virtual Network Assistant)”的美国专利第10,985,969号、2021年3月23日发布的题为“用于促进故障检测和/或预测性故障检测的方法和设备(Methods andApparatus for Facilitating Fault Detection and/or Predictive FaultDetection)”的美国专利第10,958,585号、2021年3月23日发布的题为“时空建模方法(Method for Spatio-Temporal Modeling)”的美国专利第10,958,537号以及2020年12月8日发布的题为“通过BLE广告传送AP错误代码的方法(Method for Conveying AP ErrorCodes Over BLE Advertisements)”的美国专利第10,862,742号，所有这些专利的全部内容通过引用结合于此。

在操作中，NMS 130观察、收集和/或接收网络数据137，该网络数据可以采取例如从消息、计数器和统计中提取的数据的形式。根据一个具体实施方式，计算设备是NMS 130的一部分。根据其他实施方式，NMS 130可以包括一个或多个计算设备、专用服务器、虚拟机、容器、服务或用于执行本文描述的技术的其他形式的环境。类似地，实现VNA 133的计算资源和组件可以是NMS 130的一部分，可以在其他服务器或执行环境上执行，或者可以分布到网络134内的节点(例如，路由器、交换机、控制器、网关等)。

在网络内，配置错误的网络设备很常见。这种错误配置的网络设备可能导致次优性能。例如，错误的配置或故障组件可能会导致网络拥塞。网络设备的其他问题(诸如有缺陷的网络设备)也可能导致性能降低。

如上所述，以前，网络性能问题是由用户自己决定的。缓慢的网络性能将导致用户抱怨，此时信息技术(IT)技术人员将调试网络，以找到有问题的配置或有问题的组件并修复。等待IT技术人员纠正问题会使网络用户的网络性能长期低于标准。此外，对熟练IT技术人员的需求使得该解决方案成本高昂。

当存在大量网络设备时，监控网络设备的问题可能是困难的。使用诸如人工智能等技术来分别分析每个网络设备的所有统计的计算能力可能是重要的。

网络管理系统130可以通过将监控划分为两个步骤来减轻计算负担：1)确定网络整体是否有问题，并且然后2)如果网络整体有问题，则确定可能导致问题的特定网络设备。

根据本公开的一种或多种技术，使用网络异常检测和缓解模块135的NMS 130可以在一发生拥塞和/或网络异常就检测到，识别异常的根本原因，并调用补救措施。补救措施可能涉及自动向IT技术人员发送消息、自动重启网络设备以及改变配置。在一个示例中，NMS 130执行改变网络设备的配置、改变网络设备的软件版本以及重启网络设备或网络设备的组件中的一个或多个。以这种方式，使用网络异常检测和缓解模块135的NMS 130可以自动改善网络性能，而不是等待用户受到影响并向IT技术人员抱怨。

使用网络异常检测和缓解模块135的NMS 130可以被配置为接收由网络设备收集的网络数据。网络设备可以是网络中网络设备的全部或子集。该网络数据可以是与网络设备处的网络操作相关的统计或其他数据。示例统计包括接收和传输的分组或帧的数量、丢弃的分组或帧以及失真接收的分组和帧等。

使用网络异常检测和缓解模块135的NMS 130可以从网络数据确定统计的时间序列。例如，使用网络异常检测和缓解模块135的NMS 130可以为每个网络设备产生多个统计的向量。可以在多个时间段从为每个网络设备收集的k个统计创建k大小的向量，从而得到每个网络设备的k大小的向量的时间序列。

使用网络异常检测和缓解模块135的NMS 130可以聚集来自多个网络设备的统计的时间序列，以产生聚集的统计。该聚集可以包括函数，诸如加法、平均值、最小值、最大值、标准偏差、方差、中值或其他单独或组合的值。该聚集允许检查整个网络的异常。单个或少量网络设备处的异常操作在聚集到聚集统计中时可能通常很明显。对于影响整个网络的严重问题尤其如此。

如果输入网络的分组数量增加，则网络的吞吐量也应该增加。如果有巨大的需求并且网络的吞吐量没有增加，则可以确定异常。此外，如果错误率上升而流量负载没有上升，则可以确定异常。

使用网络异常检测和缓解模块135的NMS 130可以评估聚集的统计，以确定网络中的异常，该异常具有相关联的异常时间段。如下所述，机器学习模型可以用于检测网络中的异常和相关联的异常时间段。例如，机器学习模型可以基于过去的统计产生某些统计的未来估计。例如，机器学习模型可以基于输入分组量来产生对丢弃分组的估计。这种相关性和估计可以由机器学习模型基于历史操作来学习。

使用网络异常检测和缓解模块135的NMS 130可以使用在相关联的异常时间段期间收集的统计的时间序列的子集来确定多个网络设备中的至少一个网络设备与异常相关。使用网络异常检测和缓解模块135的NMS130可以使用机器学习模型来确定在相关联的异常时间段期间哪些网络设备具有异常统计。

本公开的技术提供了一个或多个技术优势和实际应用。例如，这些技术可以减少检测网络异常的时间。此外，这些技术还可以通过最初将网络作为一个整体来检查，而不是单独检查每个网络设备的操作，来大大减少所需的计算。只有当检测到异常时，系统才会调用额外的资源来对网络的每个单独的组件执行计算更密集的分析，以识别有问题的组件。该方法可以使用无监督和有监督的AI方法的混合来训练机器学习模型。无监督的方法用于训练模型，以识别可能影响客户的系统级体验的异常网络行为，而受监督的方法用于训练关于潜在的补救措施的系统。该技术提供了一种用于检测网络异常和识别有问题的组件的自动化方法。在某些情况下，可能会调用自动缓解措施。

尽管本公开的技术在该示例中被描述为由NMS 130执行，但是本文描述的技术可以由任何其他计算设备、系统和/或服务器执行，并且本公开不限于这一方面。例如，被配置为执行本公开的技术的功能的一个或多个计算设备可驻留在专用服务器中，或包括在除了NMS 130之外的任何其他服务器中，或可分布在整个网络100中，并且可形成或可不形成NMS130的一部分。

图1B是示出了图1A的网络系统的进一步示例细节的框图。在该示例中，图1B示出了被配置为根据基于人工智能/机器学习的计算平台来操作的NMS 130，该计算平台提供了全面的自动化、洞察力和保证(Wi-Fi保证、有线和无线LAN保证和WAN保证)，范围从“客户端”(例如，连接到无线网络106和有线LAN 175(图1B的最左侧)的用户设备148、路由器和交换机(为了简单起见未示出))到“云”，例如，可以由数据中心179内的计算资源托管的基于云的应用服务181(图1B的最右侧)。

如本文所述，NMS 130提供一套集成的管理工具，并实现本公开的各种技术。通常，NMS 130可以提供基于云的平台，用于无线网络数据获取、监控、活动记录、报告、预测分析、网络异常识别和警报生成。例如，网络管理系统130可以被配置为主动监控和自适应地配置网络101，网络101可以类似于图1A的网络100，以便提供自驱动能力。此外，VNA 133包括自然语言处理引擎，以提供AI驱动的支持和故障排除、异常检测、AI驱动的位置服务以及具有强化学习的AI驱动的射频(RF)优化。

如图1B的示例所示，AI驱动的NMS 130还提供对软件定义的广域网(SD-WAN)177的配置管理、监控和自动监督，该软件定义的广域网作为将无线网络106和有线LAN 175通信地耦合到数据中心179和应用服务181的中间网络来操作。通常，SD-WAN 177在托管无线网络106(诸如分支或校园网络)的有线网络175的“轴辐”路由器187A与云栈中进一步向上朝向基于云的应用服务181的“中枢”路由器187B之间提供无缝、安全、流量工程连接。SD-WAN177通常操作和管理底层物理广域网(WAN)上的覆盖网络，该覆盖网络提供到地理上分离的客户网络的连接。换言之，SD-WAN 177将软件定义的网络(SDN)能力扩展到WAN，并允许网络将底层物理网络基础设施与虚拟化网络基础设施和应用程序分离，使得可以以灵活和可扩展的方式配置和管理网络。

在一些示例中，SD-WAN 177的底层路由器可以实现有状态的、基于会话的路由方案，其中，路由器187A、187B动态地修改由客户端设备148发起的原始分组报头的内容，以在不需要使用隧道和/或额外标签的情况下沿着所选路径(例如，路径189)将流量导向应用服务181。以这种方式，路由器187A、187B对于大型网络来说可以更加高效和可扩展，因为无隧道的、基于会话的路由的使用可以使得路由器187A、187B能够通过消除在隧道端点执行封装和解封装的需要来实现可观的网络资源。此外，在一些示例中，每个路由器187A、187B可以独立地执行路径选择和流量工程，以控制与每个会话相关联的分组流，而不需要使用集中式SDN控制器来进行路径选择和标签分发。在一些示例中，路由器187A、187B将基于会话的路由实现为由瞻博网络公司(Juniper Networks,Inc)提供的安全向量路由(SVR)。

关于基于会话的路由和SVR的额外信息见2017年8月8日发布的题为“计算机网络分组流控制器(COMPUTER NETWORK PACKET FLOW CONTROLLER)”的美国专利第9,729,439号；2017年8月8日发布的题为“使用分组签名处理会话的网络设备和方法(NETWORK DEVICEAND METHOD FOR PROCESSING A SESSION USING A PACKET SIGNATURE)”的美国专利第9,729,682号；2017年9月12日发布的题为“具有扩展会话管理的网络分组流控制器(NETWORKPACKET FLOW CONTROLLER WITH EXTENDED SESSION MANAGEMENT)”的美国专利第9,762,485号；2018年1月16日发布的题为“具有优化统计功能的路由器(ROUTER WITH OPTIMIZEDSTATISTICAL FUNCTIONALITY)”的美国专利第9,871,748号；2018年5月29日发布的题为“基于名称的路由系统和方法(NAME-BASED ROUTING SYSTEM AND METHOD)”的美国专利第9,985,883号；2019年2月5日发布的题为“基于丢包检测的链路状态监控(LINK STATUSMONITORING BASED ON PACKET LOSS DETECTION)”的美国专利第10,200,264号；2019年4月30日发布的题为“无状态网络中的有状态负载平衡(STATEFUL LOAD BALANCING IN ASTATELESS NETWORK)”的美国专利第10,277,506号；2019年10月1日发布的题为“具有扩展会话管理的网络分组流控制器(NETWORK PACKET FLOW CONTROLLER WITH EXTENDEDSESSION MANAGEMENT)”的美国专利第10,432,522号；以及2021年7月27日发布的题为“在线性能监控(IN-LINE PERFORMANCE MONITORING)”的美国专利第11,075,824号，这些专利的全部内容通过引用整体结合于此。

在一些示例中，AI驱动的NMS 130可以实现网络系统100的基于意图的配置和管理，包括实现用于配置和管理与无线网络106、有线LAN网络175和/或SD-WAN 177相关联的设备的意图驱动的工作流的构造、呈现和执行。例如，声明性要求表达了网络组件的期望配置，而没有指定确切的本地设备配置和控制流。通过利用声明性要求，可以指定应该完成什么，而不是应该如何完成。声明性要求可以与描述实现配置的确切设备配置语法和控制流的命令性指令形成对比。通过利用声明性要求而不是命令性指令，减轻了用户和/或用户系统确定实现用户/系统的期望结果所需的确切设备配置的负担。例如，当利用来自不同厂商的各种不同类型的设备时，指定和管理精确的命令性指令来配置网络的每个设备通常是困难和繁重的。随着新设备的添加和设备故障的发生，网络设备的类型和种类可以动态地改变。管理来自不同厂商的具有不同配置协议、语法和软件版本的各种不同类型的设备，来配置设备的凝聚网络，这通常是难以实现的。因此，通过仅要求用户/系统指定声明性要求，这些要求指定了适用于各种不同类型的设备的期望结果，网络设备的管理和配置变得更加高效。基于意图的网络管理系统的更多示例细节和技术在题为“基于意图的分析(Intent-based Analytics)”的美国专利第10,756,983号和题为“自动生成现有计算机网络的基于意图的网络模型(Automatically generating an intent-based network model of anexisting computer network)”的美国专利第10,992,543号中有所描述，这两个专利均通过引用结合于此。

图2是根据本公开的一种或多种技术的示例访问点(AP)设备200的框图。图2中示出的示例访问点200可以用于实现如本文参考图1A所示和所述的任何AP 142。访问点200可以包括例如Wi-Fi、蓝牙和/或蓝牙低能量(BLE)基站或任何其他类型的无线访问点。

在图2的示例中，访问点200包括经由总线214耦接在一起的有线接口230、无线接口220A-220B、一个或多个处理器206、存储器212和输入/输出210，各种元件可以通过总线交换数据和信息。有线接口230表示物理网络接口，并且包括用于发送和接收网络通信(例如，分组)的接收器232和发送器234。有线接口230经由电缆(诸如以太网电缆)将访问点200直接或间接地耦接到有线网络内的有线网络设备，诸如图1A的一个交换机146。

第一无线接口220A和第二无线接口220B表示无线网络接口，并且分别包括接收器222A和222B，每个接收器包括接收天线，访问点200可以经由该接收天线从无线通信设备(诸如图1A的UE 148)接收无线信号。第一无线接口220A和第二无线接口220B还分别包括发送器224A和224B，每个发送器包括发送天线，访问点200可以经由发送天线向无线通信设备(诸如图1A的UE 148)发送无线信号。在一些示例中，第一无线接口220A可以包括Wi-Fi802.11接口(例如，2.4GHz和/或5GHz)，第二无线接口220B可以包括蓝牙接口和/或蓝牙低能量(BLE)接口。

处理器206是可编程的基于硬件的处理器，该处理器被配置为执行存储在计算机可读存储介质(诸如存储器212)中的软件指令，诸如用于定义软件或计算机程序的软件指令，诸如包括存储设备(例如，磁盘驱动器或光盘驱动器)或存储器(诸如闪存或RAM)或任何其他类型的易失性或非易失性存储器的非暂时性计算机可读介质，其存储指令，以使一个或多个处理器206执行本文描述的技术。

存储器212包括一个或多个被配置为存储与访问点200的操作相关联的编程模块和/或数据的设备。例如，存储器212可以包括计算机可读存储介质，诸如包括存储设备(例如，磁盘驱动器或光驱)或存储器(诸如闪存或RAM)或任何其他类型的易失性或非易失性存储器的非暂时性计算机可读介质，其存储指令，以使一个或多个处理器206执行本文描述的技术。

在该示例中，存储器212存储可执行软件，包括应用编程接口(API)240、通信管理器242、配置设置250、设备状态日志252、数据存储设备254和日志控制器255。设备状态日志252包括特定于访问点200的事件列表。例如，事件可以包括正常事件和错误事件两者的日志，诸如存储器状态、重新启动或重启事件、崩溃事件、具有自恢复的云断开事件、低链路速度或链路速度摆动事件、以太网端口状态、以太网接口分组错误、升级失败事件、固件升级事件、配置改变等以及每个事件的时间和日期戳。日志控制器255基于来自NMS 130的指令确定设备的记录级别。数据254可以存储访问点200使用和/或生成的任何数据，包括从UE148收集的数据，诸如用于计算一个或多个SLE度量的数据，该数据由访问点200发送，用于NMS 130对无线网络106A进行基于云的管理。

输入/输出(I/O)210表示能够与用户交互的物理硬件组件，诸如按钮、显示器等。尽管未示出，但是存储器212通常存储用于控制关于经由I/O 210接收的输入的用户接口的可执行软件。通信管理器242包括程序代码，当由处理器206执行时，该程序代码允许访问点200经由任何接口230和/或220A-220C与UE 148和/或网络134通信。配置设置250包括访问点200的任何设备设置，诸如每个无线接口220A-220C的无线电设置。这些设置可以手动配置，或者可以由NMS 130远程监控和管理，以周期性地(例如，每小时或每天)优化无线网络性能。网络134可以包括广域网(WAN)，网络106包括局域网(LAN)。

如本文所述，AP设备200以及交换机和路由器可以测量来自状态日志252的网络数据并将其报告给NMS 130。网络数据可以包括事件数据、遥测数据和/或其他SLE相关数据。网络数据可以包括指示无线网络的性能和/或状态的各种参数。这些参数可以由无线网络中的一个或多个UE设备和/或一个或多个AP来测量和/或确定。NMS 130可以基于从无线网络中的AP接收的SLE相关数据来确定一个或多个SLE度量，并将SLE度量存储为网络数据137(图1A)。

当AP设备200是被监控的网络的一个网络设备时，日志控制器255可以用于收集本公开中公开的技术的统计。AP设备200然后可以将统计提供给NMS 130进行分析。诸如交换机和路由器的其他网络设备也可以向NMS 130提供统计，以供分析。

图3是根据本公开的一种或多种技术的示例网络管理系统(NMS)300的框图。NMS300可以用于实现例如图1A至图1B图中的NMS 130。在这样的示例中，NMS 300负责分别监控和管理站点102A-102N处的一个或多个无线网络106A-106N。

NMS 300包括通信接口330、一个或多个处理器306、用户接口310、存储器312和数据库318。各种元件经由总线314耦接在一起，各种元件可以通过总线314交换数据和信息。在一些示例中，NMS 300从客户端设备148、AP 142、交换机146和网络134内的其他网络节点(例如，图1B的路由器187)中的一个或多个接收数据，这些数据可用于计算一个或多个SLE度量和/或更新数据库318中的网络数据316。NMS 300分析该数据，用于无线网络106A-106N的基于云的管理。在一些示例中，NMS 300可以是图1A所示的另一服务器的一部分，或者是任何其他服务器的一部分。

处理器306执行存储在计算机可读存储介质(诸如存储器312)中的软件指令，诸如用于定义软件或计算机程序的软件指令，诸如包括存储设备(例如，磁盘驱动器或光盘驱动器)或存储器(诸如闪存或RAM)或任何其他类型的易失性或非易失性存储器的非暂时性计算机可读介质，其存储指令，以使一个或多个处理器306执行本文描述的技术。

通信接口330可以例如包括以太网接口。通信接口330将NMS 300耦合到网络和/或因特网，诸如图1A所示的任何网络134，和/或任何局域网。通信接口330包括接收器332和发送器334，NMS 300通过接收器332和发送器334向/从客户端设备148、AP 142、交换机146、服务器110、116、122、128和/或形成如图1A所示的网络系统100的一部分的任何其他网络节点、设备或系统中的任何一个接收/发送数据和信息。在网络系统100包括不同于NMS 300的实体拥有和/或与其相关联的“第三方”网络设备的本文描述的一些场景中，NMS 300不接收、收集或以其他方式访问来自第三方网络设备的网络数据。

由NMS 300接收的数据和信息可以例如包括遥测数据、SLE相关数据或从客户端设备AP 148、AP 142、交换机146以及其他网络节点(例如，图1B的路由器187)中的一个或多个接收的事件数据，由NMS 300用来远程监控无线网络106A-106N的性能以及从客户端设备到基于云的应用服务器的应用会话。NMS 300还可以经由通信接口330向任何网络设备(诸如客户端设备148、AP 142、交换机146、网络134内的其他网络节点、管理设备111)发送数据，以远程管理无线网络106A-106N和部分有线网络。

存储器312包括被配置为存储与NMS 300的操作相关联的编程模块和/或数据的一个或多个设备。例如，存储器312可以包括计算机可读存储介质，诸如包括存储设备(例如，磁盘驱动器或光驱)或存储器(诸如闪存或RAM)或任何其他类型的易失性或非易失性存储器的非暂时性计算机可读介质，其存储指令，以使一个或多个处理器306执行本文描述的技术。

在该示例中，存储器312包括API 320、SLE模块322、虚拟网络助手(VNA)/AI引擎350和无线电资源管理(RRM)引擎360。根据所公开的技术，VNA/AI引擎350包括网络异常检测和缓解模块352。NMS 300还可以包括被配置用于无线网络106A-106N和部分有线网络的远程监控和管理(包括对AP 142/200、交换机146以及其他网络设备(例如，图1B的路由器187)中的任何一个的远程监控和管理)的任何其他编程模块、软件引擎和/或接口。

SLE模块322使得能够为每个网络106A-106N设置和跟踪SLE度量的阈值。SLE模块322进一步分析由AP(诸如来自每个无线网络106A-106N中的UE的任何AP 142)收集的SLE相关数据以及有线网络设备(诸如交换机146、路由器187和网络175的其他有线网络设备)的SLE度量。例如，AP 142A-1至142A-N、交换机147、路由器187从当前连接到无线网络106A和有线网络175的UE 148A-1至148A-N和有线设备收集SLE相关数据。该数据被发送到NMS300，其由SLE模块322执行，以确定当前连接到无线网络106A的每个UE 148A-1至148A-N的一个或多个SLE度量。除了由无线网络106A中的一个或多个AP 142A-1至142A-N收集的任何网络数据之外，该数据被发送到NMS 300，并例如作为网络数据316存储在数据库318中。

RRM引擎360监控每个站点102A-102N的一个或多个度量，以便了解和优化每个站点的RF环境。例如，RRM引擎360可以在站点102处监控无线网络106的覆盖和容量SLE度量，以便识别无线网络106中的SLE覆盖和/或容量的潜在问题，并调整每个站点处的访问点的无线电设置，以解决所识别的问题。例如，RRM引擎可以确定每个网络106A-106N中所有AP142上的信道和发送功率分布。例如，RRM引擎360可以监控事件、功率、信道、带宽和连接到每个AP的客户端的数量。RRM引擎360可以进一步自动改变或更新站点102处的一个或多个AP 142的配置，目的是改善覆盖和容量SLE度量，从而为用户提供改善的无线体验。

VVNA/AI引擎350分析从网络设备接收的数据及其自己的数据，以识别何时在一个网络设备处遇到不期望的异常状态。例如，VNA/AI引擎350可以识别任何不期望的或异常状态的根本原因，例如，指示一个或多个网络设备处的连接问题的任何不良SLE度量。此外，VNA/AI引擎350可以自动调用一个或多个旨在解决一个或多个不良SLE度量的所识别的根本原因的纠正措施。可由VNA/AI引擎350自动调用的纠正措施的示例可包括但不限于调用RRM 360来重新启动一个或多个AP、调整/修改特定AP中特定无线电的发送功率、向特定AP添加SSID配置、改变一个AP或一组AP上的信道等。纠正措施还可以包括重新配置交换机和/或路由器、重启交换机和/或路由器、调用新软件到AP、交换机或路由器的下载等。这些纠正措施仅出于示例目的给出，并且本公开不限于这一方面。如果自动纠正措施不可用或者不足以解决根本原因，则VNA/AI引擎350可以主动提供通知，该通知包括将由IT人员(例如，使用管理员设备111的站点或网络管理员)采取的推荐纠正措施，以解决网络错误。

根据本公开的一种或多种技术，网络异常检测和缓解模块352可以用于检测和缓解网络中的异常。如本公开中别处所讨论的，网络异常检测和缓解模块352可以接收、聚集和分析来自网络设备的统计。网络异常检测和缓解模块352可以是VNA/AI引擎的一部分。网络异常检测和缓解模块352可以使用一个或多个机器学习(ML)模型380。ML模型380可用于确定聚集向量的预测分量值、要与预测值进行比较的阈值以及缓解步骤。

在一些示例中，ML模型380可以包括使用训练数据训练的受监督的ML模型，该训练数据包括从网络设备(例如，客户端设备、AP、交换机和/或其他网络节点)接收的预先收集的带标签的网络数据，以识别网络异常并执行操作来缓解网络异常。受监督的ML模型可以包括逻辑回归、朴素贝叶斯、支持向量机(SVM)等中的一种。在其他示例中，ML模型380可以包括无监督的ML模型，诸如被训练来确定聚集向量的预测分量值的ML模型。尽管图3中未示出，但是在一些示例中，数据库318可以存储训练数据，并且VNA/AI引擎350或专用训练模块可以被配置为基于训练数据来训练ML模型380，以确定训练数据的一个或多个特征的适当权重。

网络异常检测和缓解模块352可以从网络设备(诸如交换机、路由器和AP)接收统计。网络异常检测和缓解模块352可以将统计存储在数据库318中。在一个示例中，在多个时间段收集每个监控网络设备的k个统计，以形成每个网络设备的统计的时间序列。

网络异常检测和缓解模块352然后可以聚集每个网络设备的统计的时间序列，以形成作为整体的网络的聚集的统计的时间序列。该聚集可以包括函数，诸如加法、平均值、最小值、最大值、标准偏差、方差、中间值或其他单独或组合的值。

网络异常检测和缓解模块352然后可以使用聚集的统计时间序列来确定网络是否正在经历诸如网络拥塞的异常。在一个示例中，ML模型380可以用于预测聚集的统计时间序列的未来值，并且网络异常检测和缓解模块352然后可以将预测值与真实值进行比较，以确定异常。例如，如果预测值与实际值相差超过阈值量，则可以确定异常。

网络异常检测和缓解模块352然后可以使用该统计(k个监控统计中的统计)来确定哪个网络设备造成了异常。网络异常检测和缓解模块352可以分析在异常周期期间每个网络设备的统计的时间序列，寻找被发现造成异常的统计。除了检测异常之外，网络异常检测和缓解模块352可以识别发生异常的时间段以及触发异常检测的统计或向量分量。

网络异常检测和缓解模块352然后可以对在异常时间段期间收集的相关统计的时间序列的子集执行更详细的分析，以确定哪些网络或网络设备造成了异常。

下面讨论两种不同的方法来识别造成网络异常的网络设备：一种方法依赖于空间分析，另一种方法依赖于时间分析。在空间方法中，网络异常检测和缓解模块352可以在异常周期内对每个网络设备的统计的时间序列求和，以获得每个网络设备的单个代表值。网络异常检测和缓解模块352可以使用先前识别的促进识别异常的向量的特定分量。网络异常检测和缓解模块352然后可以确定哪一个设备更多造成所识别的异常。例如，如下面更详细讨论的，网络异常检测和缓解模块352可以计算网络的分量代表值与每个网络设备的每个代表值之间的互信息系数。

时间方法检查异常周期内随时间的统计行为。网络异常检测和缓解模块352可以确定具有相应时间序列的网络设备可以被识别为有问题的网络设备，该相应时间序列在异常周期期间表现出与网络聚集时间序列的最高相关性。

在识别网络设备之后，网络异常检测和缓解模块352可以发起对网络设备要完成的措施。例如，网络异常检测和缓解模块352可以自动重新配置或重启网络设备。可替代地，可以向IT技术人员发送关于网络设备的通知。

图4示出了根据本公开的一种或多种技术的示例用户设备(UE)设备400。图4中示出的示例UE设备400可以用于实现如本文参考图1A示出和描述的任何UE 148，或者替代地实现有线客户端设备。UE设备400可以包括任何类型的有线或无线客户端设备，并且本公开不限于这一方面。例如，UE设备400可以包括移动设备，诸如智能电话、平板或膝上型计算机、个人数字助手(PDA)、无线终端、智能手表、智能戒指或任何其他类型的移动或可佩戴设备。在一些示例中，UE 400还可以包括有线客户端设备，例如，IoT设备，诸如打印机、安全传感器或设备、台式计算机、VoIP电话、环境传感器或连接到有线网络并被配置为通过一个或多个无线网络进行通信的任何其他设备。

UE设备400包括有线接口430、无线接口404、一个或多个处理器406、存储器412和用户接口410。各种元件经由总线414耦接在一起，各种元件可以通过总线交换数据和信息。有线接口430表示物理网络接口，并且包括接收器432和发送器434。如果需要，有线接口430可以用于经由电缆(诸如图1A的一个以太网电缆)将UE 400直接或间接地耦接到有线网络内的有线网络设备，诸如图1A的一个交换机146。

第一无线接口420A、第二无线接口420B和第三无线接口420C分别包括接收器422A、422B和422C，每个接收器包括接收天线，UE 400可以经由接收天线从无线通信设备(诸如图1A的AP 142、图2的AP 200、其他UE 148或被配置用于无线通信的其他设备)接收无线信号。第一无线接口420A、第二无线接口420B和第三无线接口420C还分别包括发送器424A、424B和424C，每个发送器包括发送天线，UE 400可以经由这些发送天线向无线通信设备(诸如图1A的AP 142、图2的AP 200、其他UE 148和/或被配置用于无线通信的其他设备)发送无线信号。在一些示例中，第一无线接口420A可以包括Wi-Fi 802.11接口(例如，2.4GHz和/或5GHz)，第二无线接口420B可以包括蓝牙接口和/或蓝牙低能量接口。第三无线接口420C可以例如包括蜂窝接口，UE设备400可以通过该蜂窝接口连接到蜂窝网络。

处理器406执行存储在计算机可读存储介质(诸如存储器412)中的软件指令，诸如用于定义软件或计算机程序的软件指令，诸如包括存储设备(例如，磁盘驱动器或光盘驱动器)或存储器(诸如闪存或RAM)或任何其他类型的易失性或非易失性存储器的非暂时性计算机可读介质，其存储指令，以使一个或多个处理器406执行本文描述的技术。

存储器412包括被配置为存储与UE 400的操作相关联的编程模块和/或数据的一个或多个设备。例如，存储器412可以包括计算机可读存储介质，诸如非暂时性计算机可读介质，包括存储设备(例如，磁盘驱动器或光盘驱动器)或存储器(诸如闪存或RAM)或任何其他类型的易失性或非易失性存储器，其存储指令，以使一个或多个处理器406执行本文描述的技术。

在该示例中，存储器412包括操作系统440、应用程序442、通信模块444、配置设置450和数据存储设备454。通信模块444包括程序代码，当由处理器406执行时，该程序代码使得UE 400能够使用有线接口430、无线接口420A-420B和/或蜂窝接口420C中的任何一个进行通信。配置设置450包括针对无线接口420A-420B和/或蜂窝接口420C中的每一个的UE400设置的任何设备设置。

数据存储设备454可以例如包括状态/错误日志，该日志包括特定于UE 400的事件列表。根据基于来自NMS 130的指令的日志级别，事件可以包括正常事件和错误事件的日志。数据存储设备454可以存储由UE 400使用和/或生成的任何数据，诸如用于计算一个或多个SLE度量或识别相关行为数据的数据，该数据由UE 400收集，并且直接传输到NMS 130或者传输到无线网络106中的任何AP 142，以便进一步传输到NMS 130。

如本文所述，UE 400可以测量并向NMS 130报告来自数据存储设备454的网络数据。该网络数据可以包括事件数据、遥测数据和/或其他SLE相关数据。网络数据可以包括指示无线网络的性能和/或状态的各种参数。NMS 130可基于从无线网络中的UE或客户端设备接收到的SLE相关数据来确定一个或多个SLE度量并将SLE度量存储为网络数据137(图1A)。

可选地，UE设备400可以包括NMS代理456。NMS代理456是安装在UE 400上的NMS130的软件代理。在一些示例中，NMS代理456可以被实现为在UE 400上运行的软件应用。NMS代理456从UE 400收集包括详细的客户端设备属性的信息，包括对UE 400漫游行为的洞察。该信息提供了对客户端漫游算法的洞察，因为漫游是客户端设备的决定。在一些示例中，NMS代理456可以在UE 400上显示客户端设备属性。NMS代理456经由UE 400所连接的AP设备向NMS 130发送客户端设备属性。NMS代理456可以被集成到定制应用中或者作为位置应用的一部分。NMS代理456可以被配置为识别设备连接类型(例如，蜂窝或Wi-Fi)以及相应的信号强度。例如，NMS代理456识别访问点连接及其相应的信号强度。NMS代理456可以存储指定由UE 400识别的AP及其相应的信号强度的信息。NMS代理456或UE 400的其他元件还收集关于UE 400与哪些AP连接的信息，该信息还指示UE 400没有与哪些AP连接。UE 400的NMS代理456经由其连接的AP向NMS 130发送该信息。以这种方式，UE 400不仅发送关于UE 400与之连接的AP的信息，还发送关于UE 400识别出并且没有与之连接的其他AP的信息及其信号强度。AP进而将该信息转发给NMS，包括关于UE 400除了自身之外识别的其他AP的信息。这种额外的粒度级别使得NMS 130以及最终的网络管理员能够直接从客户端设备的角度更好地确定Wi-Fi或有线体验。

在一些示例中，NMS代理456进一步丰富了服务级别中利用的客户端设备数据。例如，NMS代理456可以超越基本的指纹识别来提供诸如设备类型、制造商和不同版本的操作系统等属性的补充细节。在详细的客户端属性中，NMS 130可以显示从NMS客户端代理456接收的UE 400的无线电硬件和固件信息。NMS代理456可以得出的细节越多，VNA/AI引擎在高级设备分类方面就越好。NMS 130的VNA/AI引擎不断学习，并在区分特定设备问题或广泛设备问题的能力方面变得更加准确，诸如明确识别特定OS版本正在影响某些客户端。

在一些示例中，NMS代理456可以使得用户界面410显示提示，提示UE 400的终端用户在NMS代理456能够向NMS报告设备的位置、客户端信息和网络连接数据之前启用位置许可。NMS代理456然后将开始向NMS报告连接数据以及位置数据。以这种方式，客户端设备的终端用户可以控制NMS代理456是否能够向NMS报告客户端设备信息。

在一些情况下，UE 400可以是使用NMS代理456向NMS提供统计的监控网络设备。在其他情况下，如果UE 400被认为不可能是网络异常的原因，则UE 400不提供这样的统计。

UE 400也可以用作分布式或边缘计算的一部分，其中，在边缘执行一些分析。UE400也可以是混合架构的一部分，其中，部分在边缘执行计算，部分在基于中心云的NMS执行计算。

图5是示出根据本公开的一种或多种技术的示例网络节点500的框图。在一个或多个示例中，网络节点500实现附接到图1A的网络134的设备或服务器，例如，交换机146、AAA服务器110、DHCP服务器116、DNS服务器122、web服务器128等或支持图1B的无线网络106、有线LAN 175或SD-WAN 177以及数据中心179中的一个或多个的另一网络设备，例如，路由器187。

在该示例中，网络节点500包括经由总线514耦接在一起的有线接口502(例如，以太网接口)、处理器506、输入/输出508(例如，显示器、按钮、键盘、小键盘、触摸屏、鼠标等)以及存储器512，各种元件可以通过总线交换数据和信息。有线接口502将网络节点500耦合到网络，诸如企业网络。尽管通过示例的方式仅示出了一个接口，但是网络节点可以并且通常确实具有多个通信接口和/或多个通信接口端口。有线接口502包括接收器520和发送器522。

存储器512存储可执行软件应用程序532、操作系统540和数据/信息530。数据530可以包括存储网络节点500的事件数据(包括行为数据)的系统日志和/或错误日志。在网络节点500包括“第三方”网络设备的示例中，同一实体不拥有或访问AP或有线客户端设备和网络节点500两者。因此，在网络节点500是第三方网络设备的示例中，NMS 130不接收、收集或以其他方式访问来自网络节点500的网络数据。

在网络节点500包括服务器的示例中，网络节点500可以经由接收器520接收数据和信息，例如，包括操作相关信息，例如，注册请求、AAA服务、DHCP请求、简单通知服务(SNS)查找和网页请求，并且经由发送器522发送数据和信息，例如，包括配置信息、认证信息、网页数据等。

在网络节点500包括有线网络设备的示例中，网络节点500可以经由有线接口502连接到一个或多个AP或其他有线客户端设备，例如，IoT设备。例如，网络节点500可以包括多个有线接口502和/或有线接口502可以包括多个物理端口，以经由相应的以太网电缆连接到站点内的多个AP或其他有线客户端设备。在一些示例中，连接到网络节点500的每个AP或其他有线客户端设备可以经由网络节点500的有线接口502访问有线网络。在一些示例中，连接到网络节点500的AP以及其他有线客户端设备中的一个或多个可以均经由相应的以太网电缆和有线接口502的以太网供电(PoE)端口从网络节点500获取电力。

在网络节点500包括采用有状态的、基于会话的路由方案的基于会话的路由器的示例中，网络节点500可以被配置为独立地执行路径选择和流量工程。基于会话的路由的使用可以使得网络节点500能够避免使用集中式控制器(诸如SDN控制器)来执行路径选择和流量工程，并且避免使用隧道。在一些示例中，网络节点500可以将基于会话的路由实现为由瞻博网络公司提供的安全向量路由(SVR)。在网络节点500包括作为企业网络站点的网络网关操作的基于会话的路由器(例如，图1B的路由器187A)的情况下，网络节点500可以通过底层物理WAN(例如，图1B的SD-WAN177)与一个或多个其他基于会话的路由器建立多个对等路径(例如，图1B的逻辑路径189)，这些路由器作为企业网络的其他站点的网络网关(例如，图1B的路由器187B)操作。作为基于会话的路由器操作的网络节点500可以在对等路径级别收集数据，并将对等路径数据报告给NMS 130。

在网络节点500包括基于分组的路由器的示例中，网络节点500可以采用基于分组或基于流的路由方案，来根据例如由执行路径选择和流量工程的集中式控制器建立的定义的网络路径转发分组。在网络节点500包括作为企业网络的站点的网络网关操作的基于分组的路由器(例如，图1B的路由器187A)的情况下，网络节点500可以通过底层物理WAN(例如，图1B的SD-WAN 177)与作为企业网络的其他站点的网络网关操作的一个或多个其他基于分组的路由器(例如，图1B的路由器187B)建立多个隧道(例如，图1B的逻辑路径189)。作为基于分组的路由器操作的网络节点500可以在隧道级收集数据，并且该隧道数据可以由NMS 130经由API或开放配置协议来检索，或者该隧道数据可以由NMS代理544或在网络节点500上运行的另一模块报告给NMS 130。

在网络节点500包括路由器或交换机的示例中，路由器和/或交换机可以包括入口和出口缓冲器以及路由模块(未示出)。

网络节点500收集和报告的数据可以包括周期性报告的数据和事件驱动的数据。网络节点500被配置为经由双向转发检测(BFD)探测和从逻辑路径(例如，对等路径或隧道)级别的消息和/或计数器提取的数据来收集逻辑路径统计。在一些示例中，网络节点500被配置为根据第一周期性间隔(例如，每3秒、每5秒等)来收集统计和/或采样其他数据。网络节点500可以将收集和采样的数据作为路径数据存储在例如缓冲器中。

在一些示例中，网络节点500可选地包括NMS代理544。NMS代理544可以根据第二周期性间隔(例如，每3分钟)周期性地创建统计数据封装。在统计数据封装中周期性报告的收集和采样的数据在本文可以被称为“oc-stat”。在一些示例中，统计数据封装还可以包括关于连接到网络节点500的客户端和相关客户端会话的细节。NMS代理544然后可以将该统计数据封装报告给云中的NMS 130。在其他示例中，NMS 130可以经由API、开放式配置协议或另一种通信协议从网络节点500请求、检索或以其他方式接收统计数据封装。由NMS代理544或网络节点500的另一模块创建的统计数据封装可以包括标识网络节点500的报头以及来自网络节点500的每个逻辑路径的统计和数据样本。在其他示例中，当事件发生时，响应于网络节点500处某些事件的发生，NMS代理544向云中的NMS130报告事件数据。事件驱动的数据在本文可以被称为“oc-事件”。NMS130可以收集统计和数据样本，并使用收集和采样的数据来检测网络异常，如下所述。

图6A是示出根据本公开的一种或多种技术的检测网络拥塞和异常的示例操作流程的概念图。在一个示例中，使用网络异常检测和缓解模块135的NMS 130可以监控从网络设备收集的网络统计，如操作604所示。监控的网络设备可以是网络中的所有网络设备或一组选定的网络设备。例如，可以选择处于关键位置或具有显著业务流量从而具有战略重要性的网络设备。网络设备可以包括但不限于诸如路由器、交换机和访问点的设备。

在非限制性示例中，使用网络异常检测和缓解模块135的NMS 130可以从多个网络设备收集以下统计：

stats＝['rx_packets','rx_errors','rx_undersize_errors','tx_oversize_errors’,

'rx_fcserrors','rx_overrun_errors’,'rx_mcast_packets','rx_bcast_packets',

'rx_I2_channel_error’,'rx_fifo_errors','rx_resource_errors',

‘rx_ucast_packets’,'tx_packets','tx_errors','tx_mtuerrors’,'tx_mcast_packets',

'tx_bcast_packets','tx_ucast_packets']

其中：

rx/tx_packets-交换机端口接收/发送的分组数量

rx/tx_errors-从交换机端口接收/发送的格式错误的帧

rx_undersize_errors-由于尺寸不足错误，从交换机端口接收的格式错误的帧

rx_oversize_errors-由于尺寸过大错误，从交换机端口接收的格式错误的帧

tx_fcserrors-由于FCS错误，从交换机端口接收的格式错误的帧

rx_overrun_errors-当缓冲器变满而内核无法清空时，接收的格式错误的帧

rx/tx_mcast_packets-交换机端口接收/发送的多播分组的数量

rxitx_bcast_packets-交换机端口接收/发送的广播分组的数量

rx_I2_channel_error-由于第2层错误，从交换机端口接收的格式错误的帧

tx_fifo_errors-每个队列丢弃的分组的数量

rx_resource_errors-由于资源问题，从交换机端口接收的格式错误的帧

rx/ix_ucast_packets-交换机端口接收/发送的单播分组的数量

tx_mtuerrors-大小超过接口最大传输单位(MTU)的分组的数量

讨论这十八(18)个统计，作为示例，但是应当理解，可以使用其他统计或统计集。NMS 130可以使用随时间收集的统计来形成统计的时间序列。统计的时间序列可用于确定网络是否正经历拥塞问题或异常，如果经历了，则确定拥塞或异常的根本原因。一旦识别了根本原因，就可以采取自动和/或手动的纠正措施。

当机器学习引擎构建模型时，机器学习引擎可以在机器学习训练期间给予不太相关的统计较低的权重。可以忽略或从系统中移除不太相关的统计，并且不再收集不太相关的统计。

网络设备可以周期性地收集统计，并将统计发送给NMS 130进行处理。NMS 130可以选择从网络设备接收的一些或所有统计，以包括在k个元素的向量中(例如，在该示例中为18维)，并且周期性测量产生向量的时间序列，每个向量具有来自用于测量网络性能的每个网络设备的k个元素。

如框606所示，使用网络异常检测和缓解模块135的NMS 130可以将来自网络设备的向量聚集成单个向量。该集合可以包括函数，诸如，加法、平均值、最小值、最大值、标准偏差、方差、中间值或其他单独或组合的值。

如框608所示，聚集的向量时间序列然后可以用于检测网络中的异常。例如，使用网络异常检测和缓解模块135的NMS 130可以将基于人工智能(AI)的机器学习(ML)系统应用于聚集的向量时间序列，以检测网络行为中的异常，指示可能影响用户的服务水平体验的网络降级。

异常检测可以基于使用无监督的ML过程训练的机器学习模型。在一些方面，可以使用先前收集的网络数据的历史来训练机器学习模型。在一些方面，可以基于正在进行的测量的网络统计，通过正在进行的ML模型的训练来修改机器学习模型。使用机器学习模型的NMS 130可以基于历史值预测下一个测量值，并且当测量值偏离预测值超过动态AI学习阈值时，NMS 130可以宣布网络整体的异常事件。除了检测异常之外，NMS 130可以识别a)发生异常的时间段，以及b)触发异常检测的向量分量。NMS130然后可以对在异常时间段期间收集的统计的时间序列的子集执行更详细的分析，以确定哪些网络或网络设备造成了异常。在下面参考图6B提供关于这一分析的进一步细节。

图6B是示出根据本公开的一种或多种技术的响应于检测到网络异常而进行补救措施的示例操作流程的概念图。在框610中，一旦NMS 130确定异常，NMS 130可以识别有问题的组件并采取纠正措施。受监督的机器学习通常用于训练模型采取适当的补救措施，需要进行这些补救措施来响应于识别有问题的设备和问题性质。NMS 130可以使用两种不同的方法来识别造成网络异常的网络设备，下面讨论这两种方法：一种方法依赖于空间分析，另一种方法依赖于时间分析。

图7是根据本公开的一种或多种技术的在网络中检测到的示例异常周期的图表。图7的图表示出了各种聚集的统计(每个统计被表示为图表中的不同带)以及检测到的异常周期702。图7的图表为下面讨论的空间方法和时间方法的讨论提供了背景。

在空间方法中，NMS 130可以在异常周期(例如，异常周期702)对每个网络设备的相关统计的向量分量值的时间序列求和，以获得每个网络设备的单个代表值。NMS 130可以使用针对异常识别的向量的先前识别的特定分量。

NMS 130然后可以确定哪一个设备更多导致所识别的异常。例如，NMS 130可以计算网络的分量代表值与每个网络设备的每个代表值之间的互信息系数。两个值的互信息是两个值之间相互依赖的度量。通常，通过观察一个值来量化获得的关于另一值的信息量。可以对在早期步骤中发现异常的统计进行这种互信息分析。在这种情况下，互信息可以指示异常周期的整个网络的聚集统计的概率分布与每个网络设备的统计的概率分布有多接近。这允许识别导致故障的网络设备。一旦识别了网络设备，就可以基于导致异常的特定网络设备来采取纠正措施。

图8是根据本公开的一种或多种技术的在网络中检测到的示例异常周期的图表，其具有网络设备的统计的图表。时间方法检查系数随时间的变化行为，突出显示异常。看图8，在异常周期中，NMS 130可以检索异常周期期间所有分量值的值。NMS 130然后可以将对应于每个网络设备的每个时间序列与聚集的网络时间序列相关联。具有与网络聚集时间序列表现出最高相关性的相应时间序列的网络设备可以被识别为有问题的网络设备。一旦识别了网络设备，就可以基于导致异常的特定网络设备来采取纠正措施。

在图8中，线802示出了网络整体的统计，诸如错误率。线804示出了在第一网络设备处随时间的聚集统计，诸如错误率。线806示出了在第二网络设备处随时间的统计，诸如错误率。如该示例所示，网络整体的线802的曲线形状与第一设备的线804的曲线形状的相关性大于与第二网络设备的线806的曲线形状的相关性。以这种，NMS 130可以使用该相关性来确定第一网络设备造成了异常，因此确定这是罪魁祸首。

图9是示出根据本公开的一种或多种技术的检测网络异常的示例操作流程的概念图。在该示例中，将测量结果提供给中央位置，以进行异常检测。在图9中，n个不同的网络设备收集统计。这n个网络设备向中央位置提供统计，以执行异常检测。可以聚集来自n个网络设备的统计，并且然后如上所述进行分析以检测异常。

图10是示出根据本公开的一种或多种技术的使用分布式网络异常检测来检测网络异常的示例操作流程的概念图。在图10的示例中，以分布式方式进行计算，作为分布式计算在多个网络设备中进行，而不是全部在基于中央云的计算服务器中进行。

在图10中，n个不同的网络设备收集统计。这n个网络设备然后可以基于来自网络设备的本地统计进行异常检测。如上所述，这可能具有计算上的缺点。可替代地，可以将统计发送到多个其他位置以进行异常检测。此后，也可以进行集中相关。

图11是示出根据本公开的一种或多种技术的检测网络异常的示例操作的流程图。NMS 130可以从网络中的多个网络设备接收由多个网络设备(诸如交换机、路由器、负载平衡器等)收集的网络数据(1102)。NMS 130可以从网络数据确定统计的时间序列(1104)。NMS130可以聚集来自多个网络设备的统计的时间序列，以产生聚集的统计(1106)。NMS 130可以评估所聚集的统计以确定网络中的异常，该异常具有相关联的异常时间段(1108)。响应于确定网络中的异常，NMS 130可以使用在相关联的异常时间段期间收集的时间序列统计的子集来确定多个网络设备中的至少一个网络设备与异常相关(1110)。

本文描述的技术可以以硬件、软件、固件或其任意组合来实现。被描述为模块、单元或组件的各种特征可以在集成逻辑设备中一起实现，或者作为分立但可互操作的逻辑设备或其他硬件设备单独实现。在一些情况下，电子电路的各种特征可以被实现为一个或多个集成电路设备，诸如集成电路芯片或芯片组。

如果以硬件实现，则本公开可以涉及一种设备，诸如处理器或集成电路设备，诸如集成电路芯片或芯片组。可替代地或另外，如果以软件或固件实现，则该技术可以至少部分地由包括指令的计算机可读数据存储介质来实现，这些指令在被执行时使处理器执行一种或多种上述方法。例如，计算机可读数据存储介质可以存储由处理器执行的这种指令。

计算机可读介质可以形成计算机程序产品的一部分，该计算机程序产品可以包括包装材料。计算机可读介质可以包括计算机数据存储介质，诸如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁或光数据存储介质等。在一些示例中，制品可以包括一个或多个计算机可读存储介质。

在一些示例中，计算机可读存储介质可以包括非暂时性介质。术语“非暂时性”可以指示存储介质不包含在载波或传播信号中。在某些示例中，非暂时性存储介质可以存储可以随时间改变的数据(例如，在RAM或高速缓存中)。

代码或指令可以是由处理电路执行的软件和/或固件，该处理电路包括一个或多个处理器，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他等效的集成或分立逻辑电路。因此，本文使用的术语“处理器”可以指任何前述结构或者适合于实现本文描述的技术的任何其他结构。此外，在一些方面，可以在软件模块或硬件模块内提供本公开中描述的功能。

Claims

1.一种计算机网络监控方法，包括：

在计算设备处从网络中的多个网络设备接收由所述多个网络设备收集的网络数据；

从所述网络数据确定统计的时间序列；

在所述计算设备处聚集来自所述多个网络设备的所述统计的时间序列，以产生聚集的统计；

在所述计算设备处评估所述聚集的统计，以确定所述网络中的异常，所述异常具有相关联的异常时间段；以及

响应于确定所述网络中的所述异常，在所述计算设备处使用在所述相关联的异常时间段期间收集的时间序列统计的子集来确定所述多个网络设备中的至少一个网络设备与所述异常相关。

2.根据权利要求1所述的方法，还包括确定对所述多个网络设备中的所述至少一个网络设备要采取的措施。

3.根据权利要求2所述的方法，其中，确定所述要采取的措施使用受监督的机器学习。

4.根据权利要求2所述的方法，还包括改变所述多个网络设备中的所述至少一个网络设备的配置、改变所述至少一个网络设备的软件版本以及重启所述至少一个网络设备或所述至少一个网络设备的组件中的一个或多个。

5.根据权利要求1至4所述的方法，其中，检测所述异常包括：

使用所述统计的时间序列来确定预测的聚集统计；以及

使用所述预测的聚集统计来确定测量的聚集统计在正常范围之外。

6.根据权利要求1至4所述的方法，其中，检测所述异常使用无监督的机器学习。

7.根据权利要求1至4所述的方法，其中，确定所述多个网络设备中的所述至少一个网络设备与所述异常相关使用空间方法，所述空间方法组合所述异常时间段内的网络数据值，并根据所述网络数据值计算互信息系数以确定与所述异常相关的所述至少一个网络设备。

8.根据权利要求1至4所述的方法，其中，确定所述多个网络设备中的所述至少一个网络设备与所述异常相关使用时间方法，所述时间方法使用异常周期内的统计的曲线来确定所述至少一个网络设备。

9.一种计算机可读存储介质，编码有用于使一个或多个可编程处理器执行根据权利要求1至8中任一项所述的方法的指令。

10.一种计算设备，包括：

存储器；以及

一个或多个处理器，耦接到所述存储器并且被配置为：

从网络中的多个网络设备接收由所述多个网络设备收集的统计；

聚集来自所述多个网络设备的统计，以产生聚集的统计；评估所述聚集的统计，以确定所述网络内的异常，所述异常具有相关联的异常时间段；以及

使用由所述多个网络设备在所述相关联的异常时间段期间收集的所述统计来确定所述多个网络设备中的至少一个网络设备与所述异常相关。

11.根据权利要求10所述的计算设备，其中，所述一个或多个处理器还被配置为确定对所述多个网络设备中的所述至少一个网络设备要采取的措施。

12.根据权利要求11所述的计算设备，其中，为了确定所述要采取的措施，所述一个或多个处理器被配置为使用受监督的机器学习。

13.根据权利要求11所述的计算设备，其中，所述一个或多个处理器还被配置为执行改变所述多个网络设备中的所述至少一个网络设备的配置、改变所述至少一个网络设备的软件版本以及重启所述至少一个网络设备或所述至少一个网络设备的组件中的一个或多个。

14.根据权利要求10至13所述的计算设备，其中，为了检测所述异常，所述一个或多个处理器还被配置为：

使用所述统计的时间序列来确定预测的聚集统计；以及

15.根据权利要求10至13所述的计算设备，其中，为了检测所述异常，所述一个或多个处理器被配置为使用无监督的机器学习。

16.根据权利要求10至13所述的计算设备，其中，为了确定所述多个网络设备中的所述至少一个网络设备与所述异常相关，所述一个或多个处理器被配置为使用空间方法，所述空间方法组合所述异常时间段内的网络数据值，并根据所述网络数据值计算互信息系数以确定与所述异常相关的所述至少一个网络设备。

17.根据权利要求10至13所述的计算设备，其中，为了确定所述多个网络设备中的所述至少一个网络设备与所述异常相关，所述一个或多个处理器被配置为使用时间方法，所述时间方法使用异常周期内的统计的曲线来确定所述至少一个网络设备。