CN113473511A

CN113473511A - 经由机器学习模型的网络系统故障解决

Info

Publication number: CN113473511A
Application number: CN202010535033.1A
Authority: CN
Inventors: 王继生; 吴小英; S·谢弗; D·杰
Original assignee: Juniper Networks Inc
Current assignee: Juniper Networks Inc
Priority date: 2020-03-31
Filing date: 2020-06-12
Publication date: 2021-10-01
Also published as: JP2021164144A; US20210306201A1; CA3079866A1; US11985025B2; US20230188409A1; AU2020203317A1; EP3889716A1; US11570038B2

Abstract

本公开的实施例涉及经由机器学习模型的网络系统故障解决。公开了用于自动解决在复杂的网络系统中的故障的实施例。一些实施例监测系统操作参数值和网络组件之间的消息交换中的一个或多个。机器学习模型检测复杂的网络系统中的故障，并且基于故障的原因而选择动作。在该动作被应用于复杂的网络系统之后，附加的监测被执行以确定故障已经被解决或者附加动作将被应用以进一步解决故障。

Description

经由机器学习模型的网络系统故障解决

技术领域

本公开大体上涉及对网络系统的诊断。具体地，所公开的实施例描述了使用机器学习模型来自动解决网络系统中的故障(fault)。

背景技术

复杂的无线网络(诸如，Wi-Fi网络)的用户可能遭遇系统级体验(SLE)参数降级，这可能由各种复杂的因素导致。为了确保复杂的无线网络满足其用户群体的需求，重要的是迅速解决系统操作可能出现的任何问题。解决问题可以包括：标识系统级体验问题的一个或多个根本原因，并且发起校正措施。然而，当网络由大量设备(包括不同类型和功能性的设备)组成时，标识根本原因可以花费大量时间。如果系统在该时间段期间不起作用或者在降低的容量下操作，则系统的用户可以受影响，在一些情况下，系统的用户可以受严重影响。因此，需要将与复杂的网络系统相关联的问题的根本原因隔离的改进的方法。

附图说明

通过结合附图参照以下描述，可以更好地理解本文中的实施例，在这些附图中，相同的附图标记指示相同或者功能相似的元件。这些附图包括以下内容：

图1是在所公开的实施例中的一个或多个实施例中所实现的示例系统的概观图。

图2示出了在所公开的实施例中的一个或多个实施例中所实现的示例消息部分。

图3示出了由所公开的实施例中的一个或多个实施例维持的示例数据结构。

图4A示出了纠正基础根本原因的动作的示例。

图4B示出了未补救基础根本原因的示例动作。

图4C示出了未补救基础根本原因的动作的示例。

图5是用于检测并且解决网络系统的问题的示例过程的流程图。

图6是用于选择要在所监测的系统上调用的动作的示例过程的流程图。

图7示出了根据本公开的一些示例的示例机器学习模块700。

图8图示了在所公开的实施例中的一个或多个实施例中所实现的数据流。

图9示出了与在所公开的实施例中的一个或多个实施例中所实现的机器学习模型相关的数据流。

图10是用于确定所监测的系统所经历的问题的类别的示例方法的流程图。

图11A是用于根据需要迭代地应用诊断动作，直到充分地标识了根本原因(例如，概率大于阈值)或者没有诊断动作可用于注入为止的示例过程的流程图。

图11B是用于确定哪个诊断动作应该被执行的示例过程的流程图。

图12是用于确定是执行在所公开的实施例中的一个或多个实施例中被执行的纠正动作还是诊断动作的示例过程的流程图。

图13A是用于确定是否注入诊断动作的示例过程的流程图。

图13B是用于确定是否注入诊断动作的示例过程的流程图。

图14A是示出了所公开的实施例中的一个或多个实施例的操作的图表。

图14B图示了以下实施例：如果成本小于预定阈值，则其应用更昂贵的动作，并且类似地，如果成本更高的动作的成本高于预定阈值，则其应用没那么昂贵的动作。

图14C图示了基于特定根本原因正在监测的系统中引起问题的置信水平或者概率来确定要应用的动作的实施例。

图14D图示了以下实施例：基于预定阈值及其与根本原因正引起由该实施例所监测的系统标识的问题的置信水平或者概率的关系来选择动作。

图15图示了可以执行本文所讨论的技术(例如，方法)中的任何一种或者多种技术的示例机器的框图。

具体实施方式

公开了确定并且执行针对复杂的网络系统(例如，无线网络系统)的校正动作以提高系统性能的示例实施例。基于服务水平体验参数或者更一般地，操作参数来评估复杂的系统的性能。这些参数可以包括以下参数：诸如，数据传输时延测量、成功的连接尝试的百分比、可用于关联的接入点(AP)的百分比、错误统计(诸如，经由掉线的连接、分组冲突或者错误的其他源而生成的错误)、系统吞吐量测量或者其他SLE参数。

一些实施例还监测在复杂的网络系统内所交换的消息。该消息信息还被提供至机器学习模型，该机器学习模型被训练为标识故障和所述故障的潜在根本原因。在各种实施例中，故障可以包括机器学习模型被训练为对其进行检测的与标称系统操作的任何偏差。例如，在一些实施例中，故障包括时延、吞吐量、抖动、错误计数或者满足标准的其他操作参数中的任何一个或多个。标准被定义以便检测不期望的系统状况。例如，示例标准对设备(诸如，接入点)的时延进行评估，以确定时延是否低于预定时延阈值。在一些实施例中，故障可以被定义为包括满足一个或多个相应标准的两个或者更多个操作参数。例如，在一些实施例中，故障可以被定义为包括设备的满足第一标准的时延和设备的满足第二标准的吞吐量(同时满足两个条件，其中在彼此的预定经过时间内测量时延和吞吐量)。故障的根本原因与导致故障的条件相关。例如，根本原因可以包括特定设备的软件问题和/或固件问题、两个设备之间的不起作用的网络连接或者其他根本原因。

与根本原因标识一起，所公开的实施例标识要采取以解决系统问题或者获得附加的诊断信息的可能动作，该附加的诊断信息然后可以被应用于提高根本原因标识的置信度。这些动作包括以下中的一个或多个：将特定的信标无线电初始化；重启无线电；重新启动设备；重启软件组件；重启计算机；改变软件组件或者硬件组件的操作参数；向系统组件查询状态信息；请求系统组件执行任务或者其他动作。

这些动作中的每个动作与概率相关联，从而指示动作将解决问题的概率。动作还与成本相关联。例如，引起关闭大量用户会话的第一动作通常将比对用户群体透明的第二动作具有更高的成本。

然后，所公开的实施例基于所标识的概率和相关联的成本来选择行动途径。所公开的实施例中的一些实施例按照迭代的方式来操作，因为向系统应用第一动作，并且然后，监测系统以采集附加数据。例如，如果第一动作被设计为解决问题，则所公开的实施例监测系统以确定问题是否已被解决(例如，所监测的系统已经返回到标称操作)。如果第一动作被设计为提供附加的诊断信息，则在应用第二动作之后监测系统以采集附加的诊断信息。在一些情况下，在应用第一动作之后基于系统行为来标识附加的动作。该过程可以迭代，直到系统实现标称性能为止，此时，认为诊断过程完成。

一些实施例利用如下面在等式1中所定义的成本函数：

Cost_{Action i}＝c1*(受影响的用户的数量)*(Impact_{Action i})等式1

其中：

Cost_{Action i}–注入特定动作的成本

C1–预定系数

Impact_{Action i}–动作特定参数，例如：

0.1用于将无线电信标初始化，

0.2用于重置无线电，

0.3用于重新启动设备，以及

0.4用于重置设备的功率。

一些实施例提供被配置为接受定义特定问题的根本原因的输入的用户界面。例如，在一些情况下，人(例如，IT技术人员)诊断系统问题，并且标识根本原因。用户界面被配置为：允许人标识问题发生的时间段，并且还录入有关根本原因和校正动作的信息。在一些方面中，用户界面还为操作员提供将分布列表或者警告列表与所标识的根本原因和/或校正动作相关联的能力。基于由用户界面提供的输入，生成指示症状信息、诊断信息和校正信息的训练数据。

在一些实施例中，至少部分地经由人类支持人员的辅助来训练机器学习模型。在该操作模式下，技术人员(例如，现场支持工程师)可以对网络系统的故障进行分析并且标识根本原因。然后，技术人员能够将定义故障和根本原因的信息和响应于故障而要采取的可能动作录入到训练数据库中。然后，该训练数据库被用来进一步训练机器学习模型，这得益于由技术人员提供的输入。

一些实施例被配置为自动进行缺陷报告。例如，一些实施例经由面向服务的接口或者通过缺陷报告系统的提供方可获得的其他API与缺陷报告系统(例如，Jira)接口连接。一些实施例对缺陷报告系统执行自动搜索以获得定义与在如上所述的自动诊断期间所标识的那些参数相似的参数的现有缺陷。如果标识了相似的缺陷报告，则一些实施例基于最近的诊断来将报告更新为指示附加的、缺陷的发生率。如果在缺陷数据库内未标识相似的缺陷，则将生成新的缺陷报告。用测得的操作参数中的信息以及从如上所述的诊断过程得出的信息来填充新的缺陷报告。

图1是在所公开的实施例中的一个或多个实施例中所实现的示例系统的概述图。图1示出了与无线终端104a、104b、104c和104d通信的三个AP 102a至AP 102c。AP 102a与交换机106通信。AP 102b和交换机106与路由器108通信。路由器108与网络110(诸如，互联网)通信。网络管理系统112还被连接至网络110，并且被配置为至少与AP 102a至AP 102c和路由器108具有网络连接性。

网络管理系统112被配置为监测系统100的活动。网络管理系统112经由包括与系统100的操作相关的信息的消息114a、114b、114c、114d、114e、114f、114g、114h、114i和114j来监测系统100的活动。例如，在各个实施例中，消息114a至114i指示系统100中所包括的各种设备的操作参数值、在系统100的网络组件之间所交换的消息的消息活动或者其他信息。例如，网络管理系统112采集与设备中的一个或多个设备(诸如，AP 102a至AP 102d、无线终端104a至104d、交换机106或者路由器108中的任何一个)的操作参数相关的信息。该信息可以包括由相应设备维持的统计信息。例如，在一些实施例中，AP 102a至AP 102d中的一个或多个维持以下统计信息：该统计信息描述例如，与相应AP相关联的无线终端的数量、通信时延或者吞吐量、在与无线终端建立连接或者关联时的延迟、检测到的通信错误、分组冲突、分组错误、CPU利用率、存储器利用率、I/O容量以及表征在AP处的通信状况的其他度量。在一些实施例中，网络管理系统112还被配置为监测在系统100的网络组件之间的单独消息。例如，在一些实施例中，网络管理系统被配置为监测在AP 102a与交换机106或者在AP 102b与路由器108之间所传递的网络消息。在一些方面中，这种监测是经由设备(例如，AP 102a或者AP 102b)向网络管理系统提供的消息摘要信息而实现的。下面提供了消息摘要信息的示例。

基于所监测的活动和操作参数，网络管理系统被配置为至少在检测到特定条件时对系统100的组件中的一个或多个组件执行一个或多个动作。例如，通过监测操作参数和/或在网络组件之间所传递的单独的消息，网络管理系统112标识系统100正在以降低的水平(相对于标称水平)进行操作。进一步基于对操作参数和消息的监测，网络管理系统112标识系统100的性能降低的可能根本原因，并且确定要采取的一个或多个动作。在一些情况下，(多个)动作被设计为对由网络管理系统标识的问题进行校正。在其他情况下，动作提供允许网络管理系统确定问题的根本原因的附加诊断信息。下面进一步阐述了这些概念：

图2示出了在所公开的实施例中的一个或多个实施例中所实现的示例消息部分。在各种实施例中，下面关于图2所讨论的消息部分200、消息部分220和消息部分230被包括在上面关于图1所讨论的消息114a至114j中的一个或多个消息中。在所公开的实施例中的一些实施例中，图2中所示出的示例消息部分的一个或多个字段被用于将在网络系统(例如，100)的网络组件设备之间所交换的消息内容信息传送至网络管理系统(例如，110)以便进行处理。

图2示出了消息部分200、消息部分220和消息部分230。消息部分200包括时间戳字段204、源设备字段206、目的地设备字段208、类型字段210、长度字段212和关注参数(parameters of interest)字段214。时间戳字段204指示由消息部分200的其余字段描述的消息信息被生成的时间。源设备字段206标识消息的源设备。目的地设备字段208指示消息的目的地设备。类型字段210指示消息的类型。例如，在一些实施例中，类型字段210指示消息是数据消息、连接请求消息、连接建立消息、连接重置消息还是某种其他消息类型。长度字段指示消息的长度。关注参数字段214指示消息中可能感兴趣的任何其他特性。在一些实施例中，关注参数字段214包括用于在解释关注参数字段214的内容时辅助设备对消息部分200进行译码的标记值。在将有关在系统100的组件之间所传递的单独的消息的信息发送至网络管理系统112的那些实施例中使用消息部分200。该消息部分200通常不聚集与多个消息相关的数据，而是表示单个消息。例如，虽然消息部分200提供有关在系统100的组件之间所传递的消息的、详细程度的细节，但是其可以对系统100产生比下面所讨论的其他消息更多的开销。

示例消息部分220包括时间戳字段222、源设备字段224、目的地设备字段226、类型字段228和计数字段229。时间戳字段222定义由消息部分220传达的消息信息被生成的时间段。在一些实施例中，所公开的实施例中的一个或多个实施例所采用的机器学习模型依赖于被存储在时间戳字段222中的值以建立消息交换的时间序列，根据该消息序列，得出对复杂的网络系统的诊断。源设备字段224标识一个或多个消息的源设备。目的地设备字段226标识由消息部分220表示的一个或多个消息的目的地设备。类型字段228指示由消息部分220表示的一个或多个消息的类型。计数字段229标识由消息部分220表示的消息的数量。因此，虽然消息部分200表示单个消息，并且因此，可以更详细地表示消息(例如，经由关注参数字段214和长度字段212)，但是消息部分220总结在公共源(例如，源设备字段224)与目的地(例如，目的地设备字段226)之间所交换的特定类型的多个消息。一些实施例被配置为利用消息部分200和消息部分220两者。例如，一些实施例利用消息部分220来总结满足第一标准的消息，并且利用消息部分200来传送有关满足第二标准的消息的信息。例如，经由消息部分200来表示某些类型的消息(例如，错误消息)，其中更详细的信息被提供至网络管理系统112，而消息部分220被用来表示其他消息类型(例如，数据消息或者指示标称操作的其他消息)。

示例消息部分230包括时间戳字段232、CPU利用率字段234、存储器利用率字段236、时延字段238、分组错误计数字段240、冲突计数字段242、连接数量字段244和其他操作参数值字段246。虽然消息部分200和消息部分220总结或者提供有关在被监测的系统(例如，100)的组件之间所传递的消息的信息，消息部分230被设计为将来自被监测的系统的网络组件(例如，AP 102a至AP 102d)的参数值传送至网络管理系统112。时间戳字段232定义由消息部分230定义的操作参数值相关的时间段。源设备字段233标识其参数由消息部分230描述的设备。CPU利用率字段234定义生成消息部分230的设备的CPU利用率。存储器利用率字段236定义生成消息部分230的设备的存储器利用率。时延字段238定义网络上设备所给予的或者设备所经历的时延。分组错误字段240定义由设备检测到的分组错误的数量。冲突计数字段242定义设备所经历的分组冲突的数量。连接数量字段244定义由设备维持的连接的数量。其他操作参数值字段246定义设备的一个或多个其他操作参数值。例如，由消息部分230指示的其他操作参数值可以包括但不限于：接入点名称、基本服务集标识符(BSSID)、通信信道、通信频带、媒体访问控制(MAC)信息、网络组件设备的相关联的无线终端(例如，在AP处)的数量或者服务集名称。

图3示出了由所公开的实施例中的一个或多个实施例维持的示例数据结构。虽然关于图3将数据结构描述为关系数据库表，但是其他实施例利用其他数据组织方法。例如，一些实施例利用传统的内部存储器结构，诸如，数组或者链表、树、队列、图或者其他数据结构。在其他实施例中，依赖于非结构化数据存储技术。

图3示出了模型输出表300、根本原因表310、动作表320、警告列表表330、类别表340和诊断动作表350。模型输出表300包括概率字段304、原因标识符字段306和组件标识符字段308。概率字段304定义经由原因标识符字段306而被标识的根本原因是由如在本公开中所采用的模型标识的问题的根本原因的概率。原因标识符字段306唯一地标识根本原因，并且可以与下面所讨论的在根本原因表310中的字段312进行交叉引用。组件标识符字段308标识与(经由原因标识符字段306而标识的)原因相关联的组件。例如，组件标识符字段308标识软件组件或者过程、硬件组件或者过程或者设备。根本原因表310将(经由原因标识符字段312而标识的)原因映射至(经由字段314而标识的)一个或多个动作。根本原因表310还包括警告列表标识符字段316。该警告列表标识符字段316标识在标识了特定原因(由原因标识符字段312标识的原因)时发出警告的地址的列表。因此，根本原因表310表示多个不同的动作(或者单个动作)可以适合于(经由原因标识符字段312而标识的)单个路由原因。

动作表320包括动作标识符字段322、动作类型字段324、动作函数字段325、成本函数字段326、置信度值(例如，如果采取了动作，则为解决概率)328和动作允许字段329。动作标识符字段322唯一地标识在所公开的实施例中的一个或多个实施例中所执行的特定动作。动作类型字段324指示动作是被设计为纠正问题还是提供关于问题的根本原因的附加诊断信息。动作函数字段325存储允许实现执行所标识的动作的信息。例如，在一些实施例中，动作函数字段325可以存储实现动作的API的入口点。动作的示例包括：重启接入点中的特定无线电；重启接入点中的信标；仅重启接入点中具有特定频率(例如，2.4Ghz和/或5Ghz)的无线电；重启设备(诸如，AP)。可能动作的其他示例包括：使在设备上运行的软件升级；使驱动程序软件升级；应用软件升级；针对特定模块的软件升级。

成本函数字段326针对动作定义成本函数。所公开的实施例中的至少一些实施例利用由字段326定义的成本函数来确定调用动作的成本。该成本信息在一些实施例中被用于在多个动作之间进行选择。置信度值字段328针对纠正动作指示该动作将解决根本原因问题的概率。当确定是否调用动作时，一些实施例可以使动作的成本与动作解决根本原因的概率或者置信度相关。例如，一些实施例基于动作的影响除以该影响解决所标识的问题的概率或者置信度来确定执行动作的成本。换言之，一些实施例确定动作的成本与动作解决基础问题的概率或者置信度反向相关。动作允许字段329定义是否可以在特定实现中自动执行动作。例如，一些实施例提供允许系统管理员或者其他个人定义所公开的实施例可以自动执行哪些纠正动作的用户界面。在各个实施例中，该用户界面是图形用户界面或者甚至是简单的事物，诸如，定义允许的动作或者不允许的动作的文本配置文件。因此，一些实施例在执行动作之前查阅(consult)允许字段329以确认允许这种动作。或者，如上面和下面针对警告列表标识符字段316和警告列表表330所描述的，如果未将动作标记为允许的，则仍然可以针对适当的分布列表生成一个或多个警告。

警告列表表330包括警告列表标识符字段332和警告地址字段334。警告列表标识符字段332唯一地标识警告分布列表。警告地址字段334标识警告分布地址(经由警告列表标识符字段332而标识的警告分布地址)中所包括的一个地址。当警告分布列表包括多个地址时，针对单个警告列表标识符值的多个行被包括在警告列表表330中。

类别表340包括类别标识符字段342和警告列表标识符字段344。类别标识符字段342可以与上面关于根本原因表310所讨论的类别id字段315交叉引用。在宁愿将分布列表或者警告列表与原因的类别(例如，软件、硬件、驱动器等)而不是与每个单独的原因(例如，除以零、存储器不足等)相关联的实施例中实现类别表340或者相似的数据结构。因此，一些实施例将分布与根本原因的类别而不是与每个根本原因本身相关联。

诊断动作表350包括组件类型标识符字段352和动作标识符字段354。诊断动作表350从组件类型(经由字段352)映射至在所指示类型的组件正在经历问题(或者可能正在经历问题)时要采取的可能的诊断动作(例如，经由字段354)。

注入历史表360包括动作标识符字段362、注入时间字段364、组件标识符字段366和概率提高字段368。动作标识符字段362唯一地标识诊断动作。动作标识符字段362可以与动作标识符字段362或者动作标识符字段322或者动作标识符字段354交叉引用。注入时间字段364标识注入诊断动作的时间。组件标识符字段366标识对其执行注入的组件。例如，如果动作是重启，则组件标识符字段366标识被重启的组件。在各个实施例中，组件标识符由多个部分组成。例如，在一些方面中，第一部分标识物理设备(例如，站地址或者其他唯一标识符)，并且第二部分标识物理设备的组件(例如，无线芯片、CPU、软件组件或者其他硬件组件)。根据示例实施例，当没有将诊断动作注入到表现出是性能降低的根本原因的更高可能性的相同组件中时，表360包括标识将诊断动作注入到其中的组件的第一组件ID、标识表现出是基础问题的根本原因的最高可能性的组件的第二组件ID(在图中未示出)。当超过一次注入相同的诊断动作时，表360还包括指示在通过重新应用诊断动作来标识根本原因时而实现的提高的概率提高字段368。

组件表370从经由字段372的组件标识符映射至经由字段374的组件类型。一些实施例利用组件表370来从组件标识符确定组件的类型。例如，下面所讨论的、机器学习模型的一些实施例提供可能的根本原因和潜在地导致问题的组件的组件标识符。组件表370在一些实施例中被用于通过机器学习模型来确定组件标识符的类型。

图4A是演示了纠正基础根本原因的动作的示例的数据的图表400A。在这种情况下，测得的SLE参数是在特定链路(以太网链路)上的以太网错误的计数器。在将动作(在这种情况下，是通信链路的重启)注入到系统中之前，系统经历了较高的链路错误率。在时间410时，调用重启动作405。注入的动作被证明是将错误率降低到零的校正动作。不需要采取进一步的动作。

图4B是演示了未补救基础根本原因的示例动作的数据的图表400B。在图4B的示例数据中的测得的SLE参数是在以太网链路上的以太网错误的计数器。在注入动作(在这种情况下，是通信链路的重启)之前，系统经历了较高的错误率。在时间420a至420j时，调用重启动作415a，重启动作415b，重启动作415c，重启动作415d，重启动作415e，重启动作415f，重启动作415g，重启动作415h，重启动作415i和重启动作415j。图4B示出了注入的动作未纠正基础问题，并且以太网错误以相同的速率继续发生，并且因此，未受重启动作的影响。在图4B中在不同的时间处所示出的错误计数被记录并且被存储，以供以后添加至下面所进一步讨论的历史信息730。

所公开的实施例中的一些实施例在执行动作之后测量SLE和系统参数值。例如，在图4B的示例中，在重启链路之后监测以太网错误率。如果作为链路重启的结果，错误率没有降低，则标识新的根本原因。例如，在一些实施例中，新的根本原因指示问题是由以太网电缆松动或者HW问题导致的。然后，一些实施例经由任何已知的消息传送技术来生成警告，该警告用于通知人类支持技术人员纠正问题。在这种情况下，警告可以指示应该验证以太网链路的物理连接，并且如果物理连接一切正常，则应该将以太网硬件换出以进行服务。

图4C是演示了未补救基础根本原因的动作的数据的图表400C。在这种情况下，测得的SLE参数是在特定以太网链路上的以太网错误的计数器。在执行动作(例如，通信链路的重启)之前，所监测的系统经历了较高的错误率。在时间430a、时间430b、时间430c、时间430d和时间430e中的每一个时间时，执行重启动作425a、重启动作425b、重启动作425c、重启动作425d和重启动作425e。如由图表400C示出的，动作未纠正基础问题，并且以太网错误以未受(多个)重启动作影响的相同速率继续发生。在时间430a、时间430b、时间430c、时间430d和时间430e中的每一个时间时，可以出现这种情况。在一些实施例中，记录并且存储错误计数，并且将其包括在历史SLE测量中。如下面所进一步讨论的，这些错误计数可以被用作针对机器学习模型的训练。

在该特定示例中，所公开的实施例在动作(例如，在链路重启之后的以太网错误率)被执行之后监测SLE测量值和系统参数(例如，CPU利用率、存储器消耗等)，并且确定由于动作未解决问题，因此，问题最可能是由在所监测的系统的软件或者固件中的缺陷导致的。然后，一些所公开的实施例经由任何已知的消息传送技术来生成警告以向人类警告问题。一些实施例自动发起对被安装在所监测的系统上的软件和/或固件的更新。例如，如果实施例确定基础问题是由软件导致的(而不是由某一其他组件(例如硬件)导致的)并且这些现有软件和/或固件版本低于阈值版本级别，则执行升级。在一些实施例中，在现有软件和/或固件版本的已知缺陷与所监测的系统所表现出的问题之间进行分析。如果表现出的问题与针对现有软件/固件版本所描述的问题相似，则所公开的实施例发起将软件和/或固件升级到较新版本(这可能将解决问题)。

图5是用于检测并且解决网络系统的问题的示例过程的流程图。在一些实施例中，下面关于图5所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面关于图5和过程500所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图5所讨论的功能中的一个或多个功能。

在开始操作502之后，过程500移至操作505，该操作505监测网络系统的操作参数值和/或消息交换。例如，如上面关于图1和图2所讨论的，网络组件设备(诸如，AP 102a至AP102c、路由器108、无线终端104a至104d或者交换机106中的一个或多个)的操作参数值被提供至网络管理系统(例如，112)。在一些实施例中，网络组件设备中的每个网络组件设备维持指示这些设备的操作参数的统计信息。在其他实施例中，网络监测设备被部署在网络系统内的战略位置处，以便在网络组件设备直接介入或者未直接介入的情况下采集该信息。

该统计信息包括以下中的一个或多个：CPU利用率、存储器利用率，已建立的连接的数量、时延测量、吞吐量测量、掉线连接计数、漫游信息、分组错误信息、冲突信息、媒体访问控制(MAC)信息、接入点标识信息(诸如，基本服务集标识符、关联标识符)或者组件健康和/或网络性能的其他指示符。在一些实施例中，操作505还包括：获得有关在所监测的网络系统的网络组件设备之间所交换的消息的信息。例如，如上面所讨论的，在一些方面中，包括示例消息部分200、消息部分220或者消息部分230的一个或多个字段的消息被提供至网络管理系统(例如，112)。该一个或多个字段传达与在所监测的网络系统的组件之间所交换的消息的数量和类型相关的信息。网络管理系统(例如，执行过程500的设备)从网络系统的一个或多个组件设备接收操作参数值和/或消息交换信息。例如，AP 102a至AP 102c中的一个或多个可以向网络管理系统(例如，112)发送消息(例如，消息部分200、消息部分220或者消息部分230中的任何一个)。

与每个网络组件设备的操作相关的统计信息可以被描述为时间序列。因此，在一些实施例中，操作505包括：从网络系统中所包括的多个设备接收相应设备操作参数值的时间序列。在一些实施例中，如下面所进一步讨论的，这些时间序列中的每个时间序列被提供至机器学习模型。

判定操作510基于所监测的操作参数值来确定是否检测到故障。在一些方面中，对故障的检测是经由机器学习模型来检测的。例如，如上面所讨论的，在一些实施例中，机器学习模型被训练为检测在次佳的或者不令人满意的条件下操作的系统。在其他实施例中，该检测基于相对于一个或多个标准来对所监测的系统的一个或多个操作参数值进行评估。在一些实施例中，基于由机器学习模型提供的概率或者置信度高于阈值而检测到故障。例如，如下面关于图9所讨论的，机器学习模型的一些实施例提供对应的多个根本原因是造成故障的原因的多个概率或者置信度指示。如果所有这些概率或者置信度指示都低于预定阈值，则一些实施例将所监测的系统的操作解释为被认为是正常的或者标称的。(例如，未检测到故障)。如果这些指示中的任何一个指示都高于预定阈值，则判定操作510确定检测到故障(注意，在一些实施例中，每个根本原因可以具有其自己的用于检测故障的预定阈值)。如果检测到故障，则过程500从判定操作510移至操作515。或者，如果未检测到故障，则过程500从判定操作510移回操作505。

在操作515中，对有问题的操作状况的根本原因进行预测。如上面所讨论的，在一些实施例中，训练机器学习模型被训练为指示在所监测的系统中出现多个不同的根本原因的概率。如上面关于图3所讨论的，在一些实施例中，机器学习模型生成多个概率(例如，304)，其中每个概率或者置信度与根本原因相关联(例如，经由字段306)。

在操作520中，基于根本原因来选择动作。如上面所讨论的，根本原因可以与多个可能动作相关联。操作520针对可能动作的相应成本和解决问题的概率或者置信度来对可能动作进行评估。下面关于图6进一步讨论了这一点。

操作525执行所选择的动作。所选择的动作可以包括以下中的一个或多个：重启被监测的网络系统中所包括的网络设备的软件进程或者组件；重置整个网络设备(例如，电力循环)；调整网络设备或者网络设备的软件组件的一个或多个配置参数；重置网络设备的特定硬件组件(例如，重置网络设备的网卡或者芯片，同时维持设备的GPU的操作)。在一些实施例中，执行动作包括：确定原因的类别，例如，原因是由硬件、软件、驱动器还是其他技术组件产生的。在一些实施例中，执行动作包括：基于原因来向特定分布列表转发通知。例如，如上面关于图3所讨论的，一些实施例将分布列表(例如，经由警告列表标识符字段316)与原因相关联。在至少一些实施例中，然后在标识了原因时通知分布列表。注意，在一些情况下，所选择的动作可以是空或者不执行动作。这可以引起向指定的分布列表生成警告，而不执行任何校正动作。

操作530响应于所执行的动作来监测系统。例如，如上面关于图4A至图4C所讨论的，在一些情况下，对在动作被执行之后的系统行为进行分析以确定系统是否已经返回到正常操作。当所选择的动作被设计为解决问题时，是这种情况。在一些情况下，所选择的动作被设计为引出用于确定根本原因的附加信息。例如，在一些实施例中，所选择的动作向网络组件查询状态信息，或者请求网络组件执行功能。请求的结果可以被用于确定网络组件是正确地运行还是经历故障。

在一些实施例中，操作530中对系统的监测由机器学习模型执行。机器学习模型生成系统是否已经返回到正常操作的指示符。在一些实施例中，通过一个或多个启发法来处理操作参数值和/或在网络组件设备之间的消息交换的被监测的时间序列，其中启发法的输出(处理过的时间序列)被提供至机器学习模型。例如，在一些实施例中，启发法确定链路错误率随时间的变化率，而不是向机器学习模型提供具体的链路错误。例如，在一些实施例中，变化率被分类为随时间恒定、随时间缓慢增加或者随时间更快地增加。一些实施例对链路错误率的变化的时间框架进行分类。例如，时间框架被分类为链路错误在重启之后n秒开始增长、在重启之后立即开始增长或者其他分类。在这些实施例中，启发法将这些不同的分类中的每个分类映射成不同的错误增长类型。然后，错误增长类型被提供至机器学习模型。

判定操作535对系统是否已经返回到正常操作或者标称操作进行评估。如果系统已经返回到正常操作，则过程500从判定操作535返回到操作505，并且继续监测系统以获得对问题的新指示。如果系统还未返回到正常操作，则过程500从判定操作535移至操作515，其中已经标识了第二根本原因。通常，在操作515的第二次迭代中所标识的第二根本原因比在操作515的第一次迭代期间所标识的根本原因更具体。

图6是用于选择要在所监测的系统上调用的动作的示例过程的流程图。在一些实施例中，下面关于图6所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面关于图6和过程600所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图6所讨论的功能中的一个或多个功能。

在一些实施例中，网络管理系统112执行下面关于图10所讨论的功能中的一个或多个功能。

在一些实施例中，在已经标识了问题的根本原因时利用下面所讨论的过程600。根本原因与可以响应于根本原因而被执行的一个或多个动作相关联。这些动作具有与它们相关联的各种成本。例如，在一些实施例中，第一动作对用户是透明的，并且不会产生负面影响(向网络组件查询状态信息)。第二动作导致用户丢失连接性或者按照某一其他方式经历降低的功能性(例如，较慢的数据传递、较高的网络抖动等)。因此，在一些实施例中，基于成本而选择第一动作。下面所讨论的过程600还考虑了每个动作将解决根本原因问题的概率或者置信度。因此，当一些动作可能会给所监测的系统带来更高的成本时，如果相对于其他没那么昂贵的动作，这些动作还提供较高的解决概率或者解决置信度，则在一些情况下，它们可以是合理的。

在开始操作602之后，在操作604中标识动作。在至少一些实施例中，该动作与根本原因相关联(例如，经由根本原因表310)。在操作605中，确定与动作相关联的成本。例如，如上面关于图3所讨论的，一些实施例维持动作表(例如，320)或者提供针对特定动作的成本信息的其他数据结构。在一些实施例中，基于确定的根本原因来标识特定动作(例如，经由上面所讨论的根本原因表310)。在一些实施例中，动作的成本是被监测的系统的一个或多个参数的函数。例如，在经历严重降级的系统中，相对而言，一些动作(例如，重启计算机或者其他网络组件)的成本可能会比在仅经历小问题的系统上执行动作时要小。因此，针对动作的一些成本函数可以接收用于确定适当的成本的输入参数。在各个实施例中，输入参数可以包括上面所讨论的操作参数中的任何一个或多个操作参数。在一些实施例中，动作的成本基于受动作影响的用户的数量。在一些实施例中，在利用成本来确定要执行的动作之前动态地确定该成本。

在操作610中，确定动作解决根本问题的概率或者置信度。例如，如上面所讨论的，一些实施例经由动作表(例如，320)来将解决概率与动作相关联。

在操作615中，基于成本和概率或者置信度来确定动作的得分。在一些实施例中，通过将成本除以概率或者置信度来确定得分。在一些其他实施例中，可以在执行乘法之前向成本和/或概率或者置信度应用一个或多个权重。

判定操作620确定是否有附加动作可用于比较(例如，与根本原因相关联的多个动作)。如果存在附加动作，则过程600从判定操作620移至操作605。在至少一些实施例中，随着过程600迭代，第二动作和第二成本以及第二概率或者第二置信度被标识，从而获得了第二得分。附加的迭代可以导致第三动作、第三成本和第三概率/置信度，并且然后，可以确定第三得分。如果没有剩余其他动作，则过程600从判定操作620移至操作625，该操作625比较所确定的(多个)得分以选择动作。在一些实施例中，具有最高或者最低得分的动作被确定或选择。然后，该动作被应用于被监测的网络系统。

图7示出了根据本公开的一些示例的示例机器学习模块700。示例机器学习模块700利用训练模块710和预测模块720。训练模块710将历史信息730用作特征确定模块750a的输入。可以对历史信息730进行标记。示例历史信息可以包括历史操作参数值，诸如，上面所讨论的操作参数值中的任何操作参数值，诸如但不限于：CPU利用率、存储器利用率、时延测量、错误计数、冲突度量、吞吐量测量。在一些示例实施例中，如上面所解释的，输入包括历史数据或者通过启发法而被处理的操作参数数据。在一些实施例中，历史信息730还包括对在被监测的系统的网络组件之间所传递的消息的一个或多个指示。例如，在一些实施例中，上面针对消息部分200、消息部分220或者消息部分230所描述的字段中的一个或多个字段被包括在历史信息中。在一些实施例中，历史信息730还包括由所公开的实施例执行的动作和所监测的系统在动作被执行之后的操作参数值和/或消息传送活动。因此，在至少一些实施例中，历史信息包括网络系统对所选择的动作的响应。例如，如果所公开的实施例所选择的动作查询网络组件的状态或者请求将由网络组件执行的任务，则在一些实施例中，该动作和结果被包括在历史信息中。在一些实施例中，这些指示被存储在网络数据的训练库(例如，诸如历史信息730)中。

被包括在训练库中的标签/注释信息735指示例如，与时间相关的网络数据是否与标称的或者可接受的系统性能相关联。标签还指示与时间相关的网络数据是否与不可接受的或者有问题的系统性能相关联或者是否指示不可接受的或者有问题的系统性能。在一些实施例中，标签/注释训练数据还指示表示有问题的系统性能的网络数据的根本原因。在一些实施例中，还提供标签用于系统对由所公开的实施例执行的动作的反应。例如，在一些情况下，机器学习模型生成建议的动作，该建议的动作包括：生成针对被监测的系统的状态请求。备选地，机器学习模型生成了建议的动作，该建议的动作生成了系统执行特定任务(传递数据；打开连接；重启服务器等)的请求。该生成的动作被包括在历史训练数据中。然后，应用指示所监测的系统对所生成的动作的响应是否指示所生成的动作解决了问题的标签，或者对所生成的动作的响应指示问题的第二或者不同的根本原因的标签。

特征确定模块750a从该历史信息730确定一个或多个特征。一般而言，特征是一组信息输入，并且是被确定为预测特定结果的信息。在一些示例中，特征可以是所有历史活动数据，但是在其他示例中，特征可以是历史活动数据的子集。在一些实施例中，特征被编码到特征向量760中。在一些实施例中，特征确定模块750a在处理历史信息730时利用一种或者多种启发法来确定特征向量760中的特征。机器学习算法770基于特征向量760和标签来产生模型718。

在预测模块720中，当前信息790可以被用作特征确定模块750b的输入。在所公开的实施例中的当前信息790包括上面针对历史信息730所描述的相似的指示。然而，当前信息790针对所监测的系统的同时的消息传送活动或者操作参数值提供这些指示。例如，在一些实施例中，所监测的系统的同时的活动被提供至特征确定模块750b，以确定所监测的系统是否正经历操作问题，并且如果是，则确定最可能的根本原因是什么。

特征确定模块750b可以从当前信息790确定与特征确定模块750a从历史信息730确定的相同特征集或者不同特征集。在一些示例中，特征确定模块750a和750b是相同的模块。特征确定模块750b产生特征向量715。在一些实施例中，特征确定模块750b在处理当前信息790时利用一种或者多种启发法来确定特征向量715中的特征。然后，将特征向量715作为输入提供至模型718以生成输出795。下面关于图9讨论了输出795的示例。训练模块710可以按照离线方式来操作以训练模型718。然而，预测模块720可以被设计为按照在线方式来操作。应该注意，可以经由附加训练和/或用户反馈来周期性地更新模型718。

可以从许多不同的潜在监督或者无监督机器学习算法中选择机器学习算法770。监督学习算法的示例包括人工神经网络、贝叶斯网络、基于实例的学习、支持向量机、决策树(例如，迭代二分法3、C4.5、分类和回归树(CART)、卡方自动交互检测器(CHAID)等)、随机森林、线性分类器、二次分类器、k最近邻、线性回归、逻辑回归、隐式马尔可夫模型、基于人工生命的模型、模拟退火和/或病毒学。无监督学习算法的示例包括：期望最大化算法、向量量化和信息瓶颈方法。无监督模型可以不具有训练模块710。在示例实施例中，使用回归模型，并且模型718是与针对特征向量760和特征向量715中的每个特征的学习重要性相对应的系数向量。在一些实施例中，为了计算得分，采用特征向量715和模型718的系数向量的点积。

图8图示了在所公开的实施例中的一个或多个实施例中所实现的数据流。图8图示了上面关于图7所讨论的历史信息730，该历史信息730由所公开的实施例中的至少一些实施例用于训练机器学习模型。历史信息可以包括操作参数值的时间序列810a。在至少一些实施例中，针对上面所讨论的示例操作参数中的一个或多个示例操作参数的时间序列被提供作为历史信息。例如，在一些实施例中，与分组错误、CPU利用率、存储器利用率、时延、吞吐量或者其他操作参数相关的时间序列被提供作为历史信息。注意，针对被监测的系统的一个或多个网络设备或者组件提供操作参数时间序列中的一个或多个操作参数时间序列。因此，例如，在一些方面中，提供上面关于图1所讨论的AP 102a至AP 102c中的每一个的操作参数(例如，在AP 102a处经历的时延和在AP 102b处经历的时延)。

图8还示出了在被包括在历史信息730中之前通过启发法815而处理的第二操作参数时间序列810b。虽然图8示出了在第二操作参数时间序列810b被存储或者被包括在历史信息730中之前应用启发法815，但是在一些实施例中，在从历史信息730中读取第二操作参数时间序列810b之后但是在将其提供至机器学习模型之前将启发法815应用于第二操作参数时间序列810b。

在各个实施例中，历史信息730还包括消息交换信息820。消息交换信息表示有关在所监测的系统的组件之间所交换的消息的信息。例如，关于图1，消息交换信息820指示在例如，AP 102c与无线终端104c，AP 102b与路由器108，交换机106与路由器108或者AP 102c与无线终端104d之间所交换的消息。消息交换信息820当然不限于这些示例。在一些实施例中，消息交换信息820包括上面针对消息部分200、消息部分220或者消息部分230中的任何一个或多个所讨论的字段中的一个或多个字段。在一些实施例中，消息交换信息820是消息交换信息的时间序列。例如，如果无线终端104c向AP 102a发送关联请求消息并且AP 102a用关联响应消息来响应关联请求消息，则消息交换信息820表示关联请求消息在时间上在关联响应消息之前。

图8中还示出了上面关于图7所讨论的标签/注释信息735。在一些实施例中，不依赖于机器学习模型来确定被监测的系统是否按照可接受的方式在起作用。例如，一些实施例监测一个或多个操作参数值，并且针对确定所监测的参数值的可接受性的对应标准来对这些所监测的值进行评估。如果所监测的参数值未满足标准，则所监测的操作参数值被认为是不可接受的。

在一些实施例中，标签/注释信息735包括根本原因指示符860。该根本原因指示符860与历史信息730在时间上相关。在一些实施例中，根本原因指示符860是网络设备或者组件特定的。例如，在一些实施例中，根本原因指示符指示造成问题的设备和/或设备的组件(例如，接入点的网络接口芯片)中的一个或多个。在至少一些实施例中，根本原因指示符860与上面关于图3所讨论的根本原因表310一致。一些实施例还将一个或多个纠正动作与被包括在根本原因指示符860中的每个根本原因指示符相关联。

图9示出了与在所公开的实施例中的一个或多个实施例中所实现的机器学习模型相关的数据流。图9示出了上面关于图7所讨论的模型718和由模型生成的输出795。该输出795包括一个或多个根本原因指示符935。该一个或多个根本原因指示符935中的每一个指示根本原因(例如，诸如关于图3所示模型输出表300和/或根本原因表310所描述的根本原因ID)。注意，通过提供根本原因的指示符，机器学习模型基于根本原因来提供要采取的可能动作。例如，如上面关于图3所讨论的，一些实施例经由与根本原因表310相似的数据结构来将原因映射至动作。在一些其他实施例中，机器学习模型718提供原因和动作两者，或者仅提供原因。

一个或多个根本原因指示符935中的每一个还包括组件id字段940b。该组件id940b指示被标识为导致问题的特定组件。在各个实施例中，组件id 940b标识物理设备、设备的软件或者固件组件、设备的特定硬件组件(例如，芯片、接口、电源或者其他设备组件)中的一个。

一个或多个根本原因指示符935中的每一个还包括概率或者置信度指示符940c。该概率或者置信度指示符940c指示被监测的系统正经历由对应的单独的根本原因指示符940a所标识的根本原因导致的问题的概率。

图10是用于确定所监测的系统所经历的问题的类别的示例方法的流程图。在一些实施例中，下面关于图10所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在存储器(例如，1504、1506)中的指令(例如，下面的1524)将硬件处理电路装置(例如，1502)配置为执行下面所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图10所讨论的功能中的一个或多个功能。

在开始操作1005之后，过程1000移至操作1010，该操作1010监测操作参数值。例如，如上面关于图1和图2所讨论的，网络组件设备(诸如，AP 102a至AP 102c、路由器108、无线终端104a至104d或者交换机106中的一个或多个)的操作参数值被提供至网络管理系统(例如，112)。在一些实施例中，网络组件设备中的每个网络组件设备维持指示这些设备的操作参数的统计信息。在其他实施例中，网络监测设备被部署在网络系统内的战略位置处，以便在网络组件设备直接介入或者未直接介入的情况下采集该信息。

判定操作1015确定在所监测的操作参数(例如，在操作1010期间所监测的)中是否检测到任何劣化。如果未检测到劣化，则过程1000从判定操作1015移至操作1010，在该操作1010中，如上面所描述的那样继续监测操作参数值。或者，当检测到性能劣化时，过程1000从判定操作1015移至操作1020，该操作1020注入诊断动作。

在一些实施例中，操作1020经由机器学习模型(诸如，上面关于图7至图9所讨论的机器学习模型718)来获得导致问题的可能组件。例如，如上面关于图9所讨论的，机器学习模型718的一些实施例生成根本原因指示(例如，940a)和与根本原因相关联的组件标识符(例如，940b)。基于组件标识符，操作1020然后标识可以被采取以获得有关可能的问题的附加信息的一个或多个诊断动作(例如，经由诊断动作表350)。当对于给定组件，可能有多个诊断动作时，各个实施例使用各种技术来选择采取哪个动作。一些实施例选择成本最低的诊断动作。如上面所讨论的，在一些实施例中，动态地确定诊断动作的成本。例如，在一些实施例中，基于被标识为可能是问题的源的特定组件和/或设备以及当前通过该设备或者组件进行通信的用户的数量，确定成本。在一些实施例中，成本与受诊断动作影响的用户的数量成比例。一些实施例使用更复杂的技术来确定选择诊断动作中的哪个诊断动作，诸如，下面关于图13A和过程1300所描述的那些技术。一些实施例根据过程1350和图13B来确定选择诊断动作中的哪个诊断动作。

在操作1020中注入诊断动作之后，过程1000移至操作1025，该操作1025在已经执行了对动作的注入之后再次监测操作参数值。在至少一些实施例中，操作1025按照与操作1010相似的方式来操作。

在操作1030中，第二所监测的操作参数值被提供至分类器或者机器学习模型(例如，718)。

在操作1035中，获得与基础问题的原因相关联的类别。在一些实施例中，操作1035从机器学习模型(例如，718)获得类别。例如，如关于图9所讨论的，机器学习模型提供基础问题的一个或多个可能的原因(例如，根本原因表310中的原因标识符312)。与每个原因相关联的是类别标识符字段315。因此，在一些实施例中，操作1035确定基础问题的最可能的原因和与该最可能的原因相关联的类别。

判定操作1040确定最可能的原因的概率或者置信度是否高于预定阈值或者是否满足标准。如果该概率或者置信度高于阈值，则过程1000移至操作1045，该操作1045执行与原因相关联的动作。例如，如上面关于图3所讨论的，可以经由根本原因表310来将动作与原因相关联。

在执行了判定操作1040或者操作1045之后，过程1000移至操作1050，该操作1050发送指示所标识的原因和问题的经由操作1035而被标识的类别的警告。在一些实施例中，警告被发送至与原因相关联的地址。例如，如上面关于图3所讨论的，每个原因具有与其相关联的警告分布列表。在一些其他实施例中，警告被发送至与问题的类别相关联的地址。例如，如果已经将问题的根本原因标识为特定软件模块或者特定硬件模块，则系统选择正确的分布列表，并且自动向团队发送可以迅速解决问题的通知。这是操作1050获得地址以发送警告的方式的一个示例。在操作1050完成之后，过程1000移至结束操作1055。

图11A是用于根据需要迭代地应用诊断动作，直到充分地标识了根本原因(例如，概率大于阈值)或者没有诊断动作可用于注入为止的示例过程的流程图。在所公开的实施例中的一个或多个实施例中执行示例过程1100。在一些实施例中，下面所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子硬件存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图11B所讨论的功能中的一个或多个功能。

在开始操作1105之后，过程1100移至将成本因子初始化为初始值的操作1110。在一些方面中，初始值为一(1)。如下面所描述的，成本因子被用于在执行应用诊断动作的多次迭代时调整针对诊断动作的成本公差(在一些实施例中，通常较低)。

在操作1115中，确定故障或者问题的可能的根本原因。如上面所讨论的，在至少一些实施例中，基于对被监测的系统的所监测的操作参数值进行分析的机器学习模型来标识可能的根本原因。操作1115还包括：标识可能的根本原因是对问题的原因的准确确定或者正确确定的概率或者置信度。例如，如上面关于图9所描述的，在一些实施例中，机器学习模型718提供指示单独的根本原因指示符940a和相关联的概率或者置信度指示符940c两者的一个或多个根本原因指示符935。操作1115的一些实施例还基于可能的根本原因来标识纠正动作。例如，如上面关于图3所讨论的，一些实施例维持根本原因与纠正动作之间的关联。例如，图3图示了经由原因表310的这种关联，该原因表310包括原因标识符字段312和动作标识符字段314。一些实施例标识与可能的根本原因相关联的组件标识符。例如，如上面关于图9所讨论的，在一些实施例中，机器学习模型提供指示可能导致根本原因的组件的输出(例如，940b)。

判定操作1120确定与根本原因相关联的概率或者置信度是否高于预定阈值。如果概率高于预定阈值，则过程1100从判定操作1120移至操作1125，在该操作1125中，执行纠正动作。在一些实施例中，纠正动作与根本原因相关联。例如，如上面关于图3所讨论的，一些实施例实现将根本原因与动作相关联(例如，经由原因标识符字段312和动作标识符字段314)的原因表310。然后，过程在操作1149中结束。

如果概率或者置信度不高于阈值，则过程1100从判定操作1120移至操作1128，其中该操作确定该过程愿意接受的、诊断动作的最高成本。在一些实施例中，该成本是基于成本因子和由机器学习模型提供的概率或者置信度指示符940c以及根本原因而被确定的。然后，过程1100移至操作1130，该操作1130至少部分地基于成本因子来选择诊断动作。下面关于图11B和过程1150讨论了操作1130的一个实施例。下面关于图13A和过程1300讨论了操作1130的另一实施例。一些实施例选择与组件相关联的成本更低的诊断动作。至少在一些实施例中，经由来自机器学习模型的输出来如上面所描述的那样标识组件。下面关于图13B和过程1350讨论了操作1130的另一实施例。

判定操作1135确定操作1130是否选择了诊断动作。例如，如果确定存在相关联的成本小于特定阈值的诊断动作，则操作1130能够选择诊断动作。类似地，如果确定与所有可能的诊断动作相关联的成本都大于所述阈值，则操作1130可能不能选择诊断动作。如果不是，则过程1100从判定操作1135移至结束操作1149。或者，如果选择了动作，则过程1100从判定操作1135移至操作1138，该操作1138注入所选择的动作。然后，过程1100从操作1138移至操作1140。在操作1140中，调整成本因子。如上所述，一些实施例迭代地注入尝试提高已经标识了根本原因的概率的诊断动作。对于每次迭代，一些实施例减少了每个随后注入的动作的成本公差。如在回顾下面所进一步讨论的过程1150和图11B之后将变得清楚的，在至少一些示例实施例中，在操作1140中减少成本因子实现了该方法。在已经在操作1140中减少成本因子之后，过程1100返回到1115，在该1115中，重新确定根本原因，并且处理继续。

图11B是用于确定哪个诊断动作应该被执行的示例过程的流程图。在所公开的实施例中的一个或多个实施例中执行图11B所示过程1150。在一些实施例中，下面所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子硬件存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图11B所讨论的功能中的一个或多个功能。过程1150的一些实施例与上面关于图11A所讨论的过程1100整合。例如，在一些实施例中，过程1150实现图11A所示操作1130。因此，在这些实施例中，过程1150继承过程1100所利用的一个或多个参数、状态和/或变量。

在开始操作1155之后，过程1150移至操作1165，该操作1165基于成本因子来设置成本公差。至少在一些实施例中，成本因子是从过程1100继承的。一些实施例实现基于已经标识了正确的根本原因的概率或者置信度指示符940c和成本因子来动态地确定成本公差的函数。作为一个示例，如果成本因子是第一值，则过程1150将成本公差阈值设置为第一公差异，否则，过程1150将成本公差阈值设置为第二公差异。至少在一些实施例中，第一公差异高于第二公差异。在一些实施例中，成本因子随着后续迭代而降低。例如，在一些实施例中，成本因子具有初始值一(1)，其中在一些实施例中，后续值减少十分之一(0.1)。成本因子针对每次迭代而减少的量根据实施例而变化。在一些实施例中，针对诊断动作的成本公差与在根本原因确定中的置信度(例如，由机器学习模型(诸如，上面关于图7和图9所讨论的模型718)提供的)成反比。

在操作1165完成之后，过程1150移至标识多个诊断动作的操作1170。标识诊断动作的方式可以根据实施例而变化。如上面所讨论的，在一些实施例中，首先基于由机器学习模型标识为与基础问题的根本原因相关联的组件或者组件类型(例如，940b)来标识一个或多个诊断动作。这些实施例维持组件和/或组件类型与(多个)诊断动作之间的关联(例如，经由诊断动作表350)。当机器学习模型将特定类型的组件标识为与可能的问题相关联时，考虑与该组件类型相关联的(多个)诊断动作以便注入到所监测的系统。在至少一些实施例中，组件标识符和/或组件类型信息是从过程1100继承的。

在操作1175中，确定多个诊断动作中的每个诊断动作的成本。如上面所讨论的，一些实施例动态地确定动作成本。在一些实施例中，动作成本至少部分地基于受动作的执行影响的用户的数量。因此，例如，如果动作包括重启无线设备，则在一些实施例中，使用当前经由该设备而传送的用户数量来确定执行所述动作的成本。

操作1180从多个诊断动作中选择诊断动作。操作1180确保所选择的动作的成本小于由成本公差指示的成本。当多个诊断动作可用时，实施例可以在操作1180中选择单个诊断动作的方式方面发生变化。操作1180的一些实施例基于可用的候选诊断动作的成本来对可用的候选诊断动作进行排名。从排名中消除成本超过成本公差的动作。然后，这些实施例根据排名来选择诊断动作。例如，过程1150的第一次迭代选择排名最高(成本最低)的诊断动作，其中随后的迭代选择排名逐渐变低的诊断动作。一些实施例可以不仅基于成本而且基于先前对那些动作的注入来调整可能的动作的排名。例如，一些实施例追踪由注入诊断动作导致的根本原因的置信度水平的任何提高。然后，排名基于成本和先前的相对提高两者。其他实施例可以使用此处所提供的示例的备选技术来从多个候选诊断操作或者可能的诊断操作中进行选择。图13提供了在多次迭代中选择诊断动作的方式的另一示例。在操作1180完成之后，过程1100移至结束操作1190。

图12是用于确定是执行在所公开的实施例中的一个或多个实施例中被执行的纠正动作还是诊断动作的示例过程的流程图。在一些实施例中，下面所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子硬件存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图12所讨论的功能中的一个或多个功能。

在开始操作1205之后，过程1200移至操作1210，该操作1210对从机器学习模型接收到的可能原因和纠正动作以及概率进行评估。例如，在利用提供基础问题的一个或多个可能原因以及与那些原因中的每个原因相关联的概率的机器学习模型的实施例中(例如，如上面针对一个或多个根本原因指示符935(包括单独的根本原因指示符940a和概率或者置信度指示符940c)所说明的)，操作1210比较概率以确定基础问题的概率最高的原因。

判定操作1215对在操作1210中所标识的、概率或者置信度最高的原因是否满足第一标准进行评估。在一些实施例中，第一标准对与原因相关联的概率或者置信度是否高于第一预定阈值进行评估。如果满足第一标准(例如，概率或者置信度高于第一预定阈值)，则过程1200从判定操作1215移至下面所讨论的操作1248。如果不满足第一标准，则过程1200从判定操作1215移至操作1220。

操作1220基于最高概率来设置诊断动作公差阈值。在一些实施例中，如果最高概率在第一范围内，则将诊断动作阈值设置为第一值，并且如果最高概率落入第二范围内，则将诊断动作阈值设置为第二值。所公开的实施例预期任何数量的范围和值。因此，判定操作1215和操作1220描述了用于采取至少部分基于与一个或多个纠正动作相关联的置信度水平或者概率是否高于阈值的诊断动作的阈值的示例实现。因此，如果存在用于纠正问题的高置信度解决方案，则减少了对进一步的诊断动作的需求。通过针对诊断动作降低公差阈值的成本，这些实施例在已经在解决方案中获得相对较高的置信度时抑制了更昂贵的诊断动作。

在操作1230中，选择诊断动作。在一些实施例中，基于与由操作1210标识的最可能的原因相关联的组件来获得诊断动作。例如，如上面关于图3所讨论的，一些实施例将组件类型与诊断动作相关联(例如，经由诊断动作表350)。在一些情况下，多个诊断操作与组件或者组件类型相关联。各个实施例使用各种技术来选择诊断动作。一些实施例选择多个诊断动作中成本最低的诊断动作。其他实施例确定与注入多个诊断动作中的每个诊断动作相关联的得分，并且基于该得分来选择诊断动作。图13描述了选择诊断动作的一个实施例。图11B还描述了选择诊断动作的另一实施例。

判定操作1240对操作1230所选择的诊断动作的成本是否小于诊断动作阈值进行评估。如上面所讨论的，一些实施例基于将会受诊断动作的执行影响的用户的数量来动态地对与诊断动作相关联的成本进行评估或者确定这些成本。在一些实施例中，用户的数量是经由在其上执行诊断动作的设备来进行通信的用户的数量。

如果执行诊断动作的成本小于诊断动作阈值，则过程1200从判定操作1240移至操作1245，该操作1245执行诊断动作。在至少一些实施例中，执行诊断动作包括：重启AP的特定无线电；重启特定模块；重启AP的所有无线电；使AP断电等以及在注入的诊断动作之后立即采集操作参数。在一些实施例中，执行诊断动作包括：通知与诊断动作相关联的警告列表(例如，经由根本原因表310的警告列表标识符字段316)中所包括的地址。如果诊断动作的成本超过诊断动作阈值(注入诊断动作的感知利益)，则过程1200从判定操作1240移至操作1248，该操作1248执行与概率或者置信度最高的原因相关联的纠正动作。至少在如上面所讨论的操作1210中标识了概率最高的原因。在一些实施例中，如果纠正动作解决问题的概率低于预定的较低概率阈值，则不执行纠正动作。在一些实施例中，操作1248还包括向与根本原因相关联的一个或多个消息(例如，经由原因表310)传送地址生成警告。在操作1245或者操作1248完成之后，过程1200移至结束操作1249。

图12图示了对已经标识了基础问题的根本原因的概率的单次评估。如果已经标识了根本原因的概率低于特定阈值，则调用多个动作中用于促进对附加的调试信息的采集的一个动作。每个注入的动作(例如，重启信标；重启无线电；重启特定软件模块；重启特定硬件模块；重启AP；使AP的功率循环等)具有与其相关联的成本。在一些实施例中，规则定义注入系统愿意接受的动作的影响(成本)与已经确定基础问题的根本原因的置信度成反比。

在注入用于促进对附加的调试数据的采集的动作之后，将该附加的调试数据提供至机器学习模型。基于附加的调试数据，机器学习模型输出对根本原因及其对应概率的新估计。将这些新概率与阈值相比较，并且如果新概率仍然低于特定阈值，则确定第二新公差阈值，并且将其用于决定应该将哪个调试(数据采集)动作注入到系统中。将新动作注入到系统中，并且采集新数据并且将其用作尝试标识攻击型(offending)组件的机器学习模型的输入。

在一些实施例中，该过程继续迭代，直到将特定组件确定为基础问题或者故障的根本原因为止，或者直到确定与采集附加数据的效益相比较，注入用于促进附加数据采集的另一动作的成本太过昂贵为止。在一些实施例中，每当注入特定动作时，用于接受动作注入的成本的公差阈值都被降低。这样，注入特定动作的次数被限制，因为每当在注入特定动作之后，针对动作的可接受的成本阈值都被降低。

图13A是用于基于对注入动作的成本效益分析来确定要注入的动作的示例过程的流程图。在所公开的实施例中的一个或多个实施例中执行图13A所示过程1300。在一些实施例中，下面所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子硬件存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面关于图13A和过程1300所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图13A和过程1300所讨论的功能中的一个或多个功能。上面关于图11A所讨论的、操作1130的一些实施例包括下面关于图13A和过程1300所讨论的功能中的一个或多个功能。上面关于图10所讨论的、操作1020的一些实施例实现下面关于图13A和过程1300所讨论的功能中的一个或多个功能。

在开始操作1305之后，过程1300移至操作1310，在该操作1310中，标识多个候选诊断动作或者可能的诊断动作。如上面所讨论的，一些实施例经由组件类型与诊断动作之间的映射(例如，经由诊断动作表350和/或组件表370)来标识候选诊断动作或者可能的诊断动作。在一些实施例中，基于来自机器学习模型的指示问题的可能根本原因的输出来获得组件类型(例如，由机器学习模型718输出的组件标识符940b标识可能是问题的来源的组件)。

操作1315从多个可能的诊断动作中选择单个动作。如下面所描述的，操作1315被设计为随着过程1300迭代来迭代地从多个诊断动作中选择不同的诊断动作。

在操作1315之后，判定操作1320确定先前是否已经注入了所选择的诊断动作。在一些实施例中，对先前是否已经注入了诊断动作的确定对先前是否已经在当前时间的预定经过时间内注入了动作进行评估。在一些实施例中，对先前是否注入了动作的确定与对可能的根本原因的特定确定相关。例如，过程1300的一些实施例从如上面关于图11A所讨论的过程1100继承根本原因确定(例如，如由操作1115确定的)。一些实施例维持动作注入的历史。(例如，经由注入历史表360)。这些实施例追踪注入的动作的历史以及在注入动作之后发生的、根本原因确定中的概率的任何提高。在一些实施例中，过程1300从该信息确定注入的动作的效益。该效益可以特定于特定的组件或者组件类型(例如，经由组件id字段366和/或组件表370)。

如果先前没有注入动作，则过程1300从判定操作1320移至操作1325，该操作1325确定动作的成本。例如，如上面所讨论的，一些实施例维持动作与应用动作的成本之间的关联。(例如，动作表320将成本函数存储在成本函数字段326中以便计算动作的成本，这提供了对动作的成本的动态确定)。在至少一些实施例中，对动作的成本的动态确定基于经由所标识的组件而被传送的用户数量。然后，操作1325基于成本来确定动作的得分。在一些实施例中，得分与成本成反比。

如果先前注入了动作，则过程1300从判定操作1320移至操作1330，该操作1330确定注入动作的历史。确定该历史可以包括：确定先前已经注入了特定动作的次数以及注入特定动作的特定情况(例如，以对组件、注入时间等问题进行校正)。

操作1335基于先前对动作的注入来对根本原因确定中的概率的任何先前变化进行评估。例如，如果在第一根本原因确定和第二根本原因确定之间注入了动作，则操作1335确定在与第一根本原因确定和第二根本原因确定相关联的概率之间的差异。操作1335的一些实施例确定在多对根本原因确定之间的置信度水平或者概率的多个差异。一些实施例基于由先前对动作的注入导致的先前概率确定中的差异来预测概率确定中的差异。例如，一些实施例检查动作的注入历史，并且基于概率差异的历史来预测注入动作中的下一概率提高。

判定操作1336对所确定的概率变化是否满足标准进行评估。在一些实施例中，标准对在根本原因确定中的概率或者置信度的提高率是否超过阈值率进行评估。在一些实施例中，标准对注入动作的概率或者置信度值随着时间的变化进行评估。如果变化量或者变化率低于阈值，则一些实施例从判定操作1336移至判定操作1345。这引起不针对当前诊断动作生成得分，并且实际上从考虑中移除当前诊断动作。否则，过程1300从判定操作1336移至操作1340。

操作1340基于操作1335中的所确定的概率变化和动作的成本来确定动作的得分。例如，操作1340的一些实施例使在注入动作之间的概率差异或者概率提高与动作成本相关，其中相对于提供相对更好的得分的成本，概率的提高更大。

判定操作1345确定在多个诊断动作中是否存在要评估的附加动作。如果附加的诊断动作可用于确定成本/效益测量，则过程1300从判定操作1345移至操作1315。操作1315选择附加动作，并且处理如上面所描述的那样继续。或者，如果已经处理了多个动作中的所有动作，则过程1300从判定操作1345移至操作1346，该操作1346从具有得分的多个动作中选择要注入的动作。该选择至少部分地基于由过程1300确定的得分。例如，在一些实施例中，选择具有最高得分的动作。在操作1346完成之后，过程1300移至结束操作1348。

图13B是用于基于对注入动作的成本效益分析来确定要注入的动作的示例过程的流程图。在所公开的实施例中的一个或多个实施例中执行图13B所示过程1350。在一些实施例中，下面所讨论的功能中的一个或多个功能由硬件处理电路装置执行。例如，在一些实施例中，被存储在电子硬件存储器(例如，1504和/或1506)中的指令(例如，1524)将硬件处理电路装置(例如，1502)配置为执行下面关于图13B和过程1350所讨论的功能中的一个或多个功能。在一些实施例中，网络管理系统112执行下面关于图13B和过程1350所讨论的功能中的一个或多个功能。上面关于图11A所讨论的、操作1130的一些实施例包括下面关于图13B和过程1350所讨论的功能中的一个或多个功能。上面关于图10所讨论的、操作1020的一些实施例实现下面关于图13B和过程1350所讨论的功能中的一个或多个功能。

在开始操作1355之后，过程1350移至操作1360，在该操作1310中，标识多个候选诊断动作或者可能的诊断动作。如上面所讨论的，一些实施例经由组件类型与诊断动作之间的映射(例如，经由诊断动作表350和/或组件表370)来标识候选诊断动作或者可能的诊断动作。在一些实施例中，基于来自机器学习模型的指示问题的可能根本原因的输出来获得组件类型(例如，由机器学习模型718输出的组件标识符940b标识可能是问题的来源的组件)。

判定操作1365确定是否存在满足可容许的成本阈值的任何诊断操作。如果没有满足该标准的诊断操作，则该过程在操作1399中结束。然而，如果判定操作1365标识了其成本低于可容许的成本阈值的一个或多个诊断动作，则过程1350移至操作1370，该操作1370从多个可能的诊断动作中选择单个动作。如下面所描述的，操作1370被设计为随着过程1350迭代来迭代地从多个诊断动作中选择不同的诊断动作。

在操作1370之后，操作1375注入或者调用诊断动作，并且系统采集所得到的操作数据并且将其用作以新的确定性概率来确定根本原因的机器学习过程的输入。如先前所描述的，新的概率确定性被用于确定附加诊断动作的新的公差成本。

在操作1375完成之后，过程1350移至确定先前是否已经使用了所选择的诊断动作的判定操作1380。如果这是第一次使用诊断动作，则过程移至操作1396。

操作1396检查在操作1375中得出的公差成本，并且如果其发现具有高于新的成本公差的成本的诊断动作，则其从多个可能的诊断动作的列表中移除这些动作。

在操作1396完成之后，过程1350循环回到操作1360。

返回到对判定操作1380的讨论，如果先前已经调用了相同的动作，则过程1350从判定操作1380移至操作1385，在该操作1385中，检查该诊断动作的影响历史。更具体地，操作1390确定在已经通过连续调用所述诊断动作而实现的根本原因确定中的置信度之间的变化。

判定操作1392确定在根本原因的确定中的变化或者提高是否大于预定阈值。如果判定操作1392确定对所述诊断动作的重用使对根本原因的确定提高了超过阈值，则过程1350移至操作1396，并且然后，返回到如上所述的操作1310。在该路径上，可以再次尝试所述诊断操作，因为有希望提高标识根本原因的概率。

然而，如果操作1392确定重用所述诊断动作未提高采集可以帮助机器学习确定根本原因的新信息的能力，则该过程移至操作1394，在该操作1394中，所述诊断动作被从可能的诊断动作的列表中移除。

过程1350然后移至操作1396，该操作1396的功能如上所述。在操作1396完成之后，过程1350返回到操作1310，其中至少一个诊断较少的动作在可能的诊断动作的列表中。

图14A是示出了所公开的实施例中的一个或多个实施例的操作的图表。图14A图示了以下规则：当所标识的根本原因导致问题的概率或者置信度低于阈值1405时，可以向被监测的系统应用具有比第二诊断动作更大的成本的动作(诊断动作)。类似地，图14A的实施例操作为在图14A中应用预定规则，该预定规则指示当ML模型产生的根本原因的置信度低于阈值1405时，网络管理可以注入具有更高的(逐步升高)成本的动作，并且类似地，当根本原因导致所标识的问题的置信度或者概率高于预定阈值时，应用成本更低的动作。换句话说，在一些实施例中，如果可以自动解决基础问题的置信度较低，则可以注入成本相对更高的诊断动作以采集附加诊断信息。然而，当以高置信度确定根本原因时，仅允许注入成本相对更低的诊断动作，因为对附加诊断信息的需求相对较小。

图14B图示了在所公开的实施例中的一些实施例中所实现的示例预配置规则。图14B中的规则指导网络管理：如果与被用于确定根本原因的所注入的动作相关联的成本小于预定成本公差阈值1410，则允许将更昂贵的动作注入到设备中，并且类似地，如果被用于确定根本原因的所注入的动作的成本高于预定阈值，则不允许将下一更昂贵的动作注入到设备中。如上面所解释的，每当在将动作注入到系统中之后，都获得新的当前信息并且将其用作机器学习过程的输入。机器学习产生输出795作为用于成为基础问题的根本原因的候选以及与这些根本原因候选中的每个候选相关联的概率。结果，系统计算用于允许将附加动作注入到通信系统中的新的成本阈值。因此，在每次迭代中，动态地计算预定成本公差阈值1410。

图14C图示了另一示例预配置规则，其中按照弯曲成本公差阈值1415来指导网络管理，该弯曲成本公差阈值1415是机器学习模型在确定基础问题的根本原因时的置信度的函数。弯曲成本公差阈值1415说明了当机器学习已经标识了基础问题的根本原因的置信度较低时，该规则允许注入或者调用成本更高的诊断动作，例如，重启AP(而不是仅重启AP中的特定无线电)。因此，例如，当纠正动作解决故障或者基础问题的能力的置信度低于阈值时，对于注入或者调用，一些实施例确定成本相对更高的诊断动作是可接受的。这与在标识根本原因和调用解决问题的纠正动作的置信度相对更高时针对所注入的诊断动作的成本公差相对更低形成对比。

图14D图示了预配置规则的另一示例，其中按照阈值1420来指导网络管理，该阈值1420是机器学习模型基于对相同动作的两次连续调用(注入促进采集附加的调试信息的动作)来确定基础问题的根本原因时的置信度之间的差异的函数。具体地，如在图13中更详细地解释的，当重复地注入(相同)动作，采集当前信息(例如，信息790)和确定根本原因的增量效益(成本增量)产生更低的成本效益时，一些实施例允许将诊断动作升级为更昂贵的诊断动作。成本更高的动作可以具有比成本更低的动作相对更广的影响范围。

图15图示了可以执行本文所讨论的技术(例如，方法)中的任何一种或者多种技术的示例机器1500的框图。机器1500(例如，计算机系统)可以包括硬件处理器1502(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或者其任意组合)、主存储器1504和静态存储器1506，它们中的一些或者全部可以经由互连链路1508(例如，总线)来与彼此通信。

主存储器1504的特定示例包括随机存取存储器(RAM)和半导体存储器设备，在一些实施例中，这些半导体存储器设备可以包括半导体中的存储位置(诸如，寄存器)。静态存储器1506的具体示例包括非易失性存储器，诸如，半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪速存储器设备；磁盘，诸如，内部硬盘和可移除磁盘；磁光盘；RAM；以及CD-ROM盘和DVD-ROM盘。

机器1500可以进一步包括显示设备1510、输入设备1512(例如，键盘)和用户界面(UI)导航设备1514(例如，鼠标)。在示例中，显示设备1510、输入设备1512和UI导航设备1514可以是触摸屏显示器。机器1500可以附加地包括大容量存储装置(例如，驱动单元)1516、信号生成设备1518(例如，扬声器)、网络接口设备1520和一个或多个传感器1521，诸如，全球定位系统(GPS)传感器、罗盘、加速度计或者其他传感器。机器1500可以包括输出控制器1528，诸如，用于传送或者控制一个或多个外围设备(例如，打印机、读卡器等)的串行连接(例如，通用串行总线(USB)、并行连接或者其他有线连接或者无线连接(例如，红外线(IR)、近场通信(NFC)等)。在一些实施例中，硬件处理器1502和/或指令1524可以包括处理电路装置和/或收发器电路装置。

大容量存储装置1516可以包括机器可读存储介质1522，该机器可读存储介质1522上存储有由本文所描述的任何一种或者多种技术或者功能实施或者利用的一组或者多组数据结构或者指令1524(例如，软件)。在机器1500执行指令1524期间，指令1524还可以完全或者至少部分地驻留在主存储器1504内、静态存储器1506内或者硬件处理器1502内。在示例中，硬件处理器1502、主存储器1504、静态存储器1506或者大容量存储装置1516中的一个或者任何组合可以组成机器可读介质。

机器可读介质的具体示例可以包括：非易失性存储器，诸如，半导体存储器设备(例如，EPROM或者EEPROM)和闪速存储器设备；磁盘，诸如，内部硬盘和可移除磁盘；磁光盘；RAM；以及CD-ROM盘和DVD-ROM盘。

虽然机器可读介质1522被图示为单个介质，但是术语“机器可读介质”可以包括被配置为存储指令1524的单个介质或者多个介质(例如，集中式或者分布式数据库和/或相关联的高速缓存和服务器)。

机器1500的装置可以是以下中的一个或多个：硬件处理器1502(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或者其任意组合)、主存储器1504和静态存储器1506、一个或多个传感器1521、网络接口设备1520、一根或者多根天线1560、显示设备1510、输入设备1512、UI导航设备1514、大容量存储装置1516、指令1524、信号生成设备1518和输出控制器1528。该装置可以被配置为执行本文所公开的方法和/或操作中的一种或者多种方法和/或操作。该装置可以旨在作为机器1500的组件以执行本文所公开的方法和/或操作中的一种或者多种方法和/或操作，和/或以执行本文所公开的方法和/或操作中的一种或者多种方法和/或操作的一部分。在一些实施例中，该装置可以包括用于接收功率的引脚或者其他装置。在一些实施例中，该装置可以包括功率调节硬件。

术语“机器可读介质”可以包括能够存储、编码或者承载用于由机器1500执行并且使机器1500执行本公开的技术中的任何一种或者多种技术的指令的任何介质，或者能够存储、编码或者承载由这种指令使用或者与这种指令相关联的数据结构的任何介质。非限制性机器可读介质示例可以包括固态存储器以及光学介质和磁介质。机器可读介质的具体示例可以包括：非易失性存储器，诸如，半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪速存储器设备)；磁盘，诸如，内部硬盘和可移除磁盘；磁光盘；随机存取存储器(RAM)；以及CD-ROM盘和DVD-ROM盘。在一些示例中，机器可读介质可以包括非瞬态机器可读介质。在一些示例中，机器可读介质可以包括不是瞬态传播信号的机器可读介质。

可以进一步经由网络接口设备152使用传输介质来在通信网络1526上传输或者接收指令1524，该网络接口设备152利用多个传输协议中的任何一种传输协议(例如，帧中继、互联网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)。示例通信网络可以包括：局域网(LAN)、广域网(WAN)、分组数据网络(例如，互联网)、移动电话网络(例如，蜂窝网络)、普通老式电话(POTS)网络和无线数据网络(例如，被称为

的电气和电子工程师协会(IEEE)802.11系列标准、被称为

的IEEE802.16系列标准)、IEEE 802.15.4系列标准、长期演进(LTE)系列标准、通用移动电信系统(UMTS)系列标准、对等(P2P)网络等。

在示例中，网络接口设备1520可以包括用于连接至通信网络1526的一个或多个物理插孔(例如，以太网插孔、同轴插孔或者电话插孔)或者一根或者多根天线。在示例中，网络接口设备1520可以包括用于使用单输入多输出(SIMO)技术、多输入多输出(MIMO)技术或者多输入单输出(MISO)技术中的至少一种技术来进行无线通信的一根或者多根天线1560。在一些示例中，网络接口设备1520可以使用多用户MIMO技术来进行无线通信。术语“传输介质”应该被认为包括能够存储、编码或者承载用于由机器1500执行的指令的任何无形介质，并且包括数字通信信号或者模拟通信信号或者用于促进这种软件的通信的其他无形介质。

如本文所描述的示例可以包括逻辑或者多个组件、模块或者机构，或者可以在逻辑或者多个组件、模块或者机构上操作。模块是能够执行指定操作的有形实体(例如，硬件)，并且可以按照特定方式来配置或者布置模块。在示例中，可以按照指定的方式来将电路布置为模块(例如，内部地或者相对于外部实体(诸如，其他电路))。在示例中，可以通过固件或者软件(例如，指令、应用部分或者应用)来将一个或多个计算机系统(例如，独立的客户端或者服务器计算机系统)或者一个或多个硬件处理器的全部或者一部分配置为操作为执行指定操作的模块。在示例中，软件可以驻留在机器可读介质上。在示例中，软件在由模块的基础硬件执行时使硬件执行指定操作。

虽然已经关于事件的特定序列讨论了上述流程图，但是应该了解，可以在不实质地影响(多个)实施例的操作的情况下对该序列进行改变。附加地，本文所说明的示例技术不限于具体说明的实施例，而是还可以与其他示例实施例一起利用本文所说明的示例技术，并且每个所描述的特征可单独地和分别地要求保护。

本领域的技术人员应该认识到：虽然上述讨论集中于对SLE参数的测量，但是术语(关键绩效指标)KPI参数和SLE参数应该被视为是可互换的，并且这样，所公开的实施例涵盖其中与SLE参数一起使用或者代替SLE参数而使用KPI参数的场景。

可以在(多个)无线通信设备/系统(诸如，IEEE 802.11收发器等)上实现上述系统。可以与该技术一起使用的无线协议的示例包括：IEEE802.11a、IEEE 802.11b、IEEE802.11g、IEEE 802.11n、IEEE 802.11ac、IEEE 802.11ad、IEEE 802.11af、IEEE 802.11ah、IEEE 802.11ai、IEEE802.11aj、IEEE 802.11aq、IEEE 802.11ax、Wi-Fi、LTE、4G、

WirelessHD、WiGig、WiGi、3GPP、无线LAN、WiMAX、DensiFi SIG、Unifi SIG、3GPP LAA(许可辅助访问)等。类似地，可以在(多个)有线通信设备/系统和/或(多个)光学通信设备/系统上实现上述实施例。

附加地，可以实现这些系统、方法和协议以改进以下中的一个或多个：专用计算机、已编程的微处理器或者微控制器和(多个)外围集成电路元件、ASIC或者其他集成电路、数字信号处理器、硬连线的电子器件或者逻辑电路(诸如，分立元件电路)、可编程逻辑设备(诸如，PLD、PLA、FPGA、PAL)、调制解调器、发送器/接收器、任何可比较的装置等。通常，能够实现状态机，进而能够实现本文所说明的方法的任何设备都可以受益于根据本文所提供的公开内容的各种通信方法、协议和技术。

如本文所描述的处理器的示例可以包括但不限于以下各项中的至少一项：

800和801、具有4G LTE集成和64位计算的

610和615、具有64位架构的

A7处理器、

M7运动协处理器、

系列、

Core^TM系列处理器、

系列处理器、

Atom^TM系列处理器、Intel

系列处理器、

i5-4670K和i7-4770K 22nm Haswell、

i5-3570K 22nmIvy Bridge、

FX^TM系列处理器、

FX-4300、FX-6300和FX-8350 32nmVishera、

Kaveri处理器、Texas

Jacinto C6000^TM汽车信息娱乐处理器、Texas

OMAP^TM汽车级移动处理器、

Cortex^TM-M处理器、

Cortex-A和ARM926EJ-S^TM处理器、

AirForce BCM4704/BCM4703无线联网处理器、AR7100无线网络处理单元、其他行业等效的处理器，并且可以使用任何已知的或者将来开发的标准、指令集、库和/或架构来执行计算功能。

此外，可以容易地使用提供可以在各种计算机或者工作站平台上使用的便携式源代码的对象或者面向对象的软件开发环境来在软件中实现所公开的方法。备选地，可以使用标准的逻辑电路或者VLSI设计来在硬件中部分地或者完全地实现所公开的系统。使用软件还是硬件来实现根据实施例的系统取决于系统的速度要求和/或效率要求、特定功能以及所利用的特定软件或者硬件系统或者微处理器或者微计算机系统。通过本文所提供的功能描述和具有计算机和电信领域的一般基本知识，适用领域的普通技术人员可以容易地使用任何已知的或者以后开发的系统或者结构、设备和/或软件来在硬件和/或软件中实现本文所说明的通信系统、方法和协议。

此外，可以容易地在可以被存储在存储介质上以在控制器和存储器、专用计算机、微处理器等的协作下提高已编程的通用计算机的性能的软件和/或固件中实现所公开的方法。在这些实例中，系统和方法可以被实现为被嵌入在个人计算机上的程序(诸如，小应用程序、JAVA.RTM或者CGI脚本)、驻留在服务器或者计算机工作站上的资源、被嵌入在专用通信系统或者系统组件中的例程等。还可以通过物理地将系统和/或方法并入到软件系统和/或硬件系统(诸如，通信收发器的硬件系统和软件系统)中来实现系统。

因此，明显的是，至少已经提供了用于增强和提高通信可靠性的系统和方法。虽然已经结合多个实施例描述了实施例，但是显然，对于可适用领域的普通技术人员而言，许多备选方案、修改和变化将是明显的或者是明显的。因此，本公开旨在涵盖在本公开的精神和范围内的所有这种备选方案、修改、等效物和变型。

示例1是一种方法，包括：从网络系统的一个或多个设备接收操作参数值的时间序列；将操作参数值的时间序列提供至机器学习模型；从机器学习模型接收对在网络系统的操作中的故障的原因的指示；基于原因来选择要对网络系统执行的第一动作；执行第一动作；以及向机器学习模型通知所执行的第一动作。

在示例2中，示例1的主题可选地包括：在执行动作之后，从网络系统接收操作参数值的第二时间序列；基于第二时间序列来确定故障是否被解决；以及基于故障是否被解决来有条件地向网络系统应用第二动作。

在示例3中，示例1至2中任何一个或多个的主题可选地包括：标识与第一类根本原因相关联的第一分布列表；以及标识与第二类根本原因相关联的第二分布列表；以及基于第一分布列表和第二分布列表来生成警告。

在示例4中，示例1至3中任何一个或多个的主题可选地包括：其中接收操作参数值的时间序列包括：从网络系统中所包括的多个设备接收相应设备操作参数值的时间序列；以及将时间序列中的每个时间序列提供至机器学习模型。

在示例5中，示例1至4中任何一个或多个的主题可选地包括：其中操作参数值指示以下各项中的一项或多项：网络组件的CPU利用率、网络组件的存储器利用率、网络组件处的时延、网络组件的吞吐量、由网络组件维持的连接的数量、在网络组件处的分组错误计数或者在网络组件处的相关联的无线终端的数量。

在示例6中，示例1至5中任何一个或多个的主题可选地包括：其中操作参数值指示以下各项中的一项或多项：接入点名称、服务集标识符、信道、频带、媒体访问控制(MAC)信息或者基本服务集标识符。

在示例7中，示例1至6中任何一个或多个的主题可选地包括：从网络系统的一个或多个设备接收指示在网络系统的设备之间所交换的消息内容的信息；以及将指示消息内容的信息提供至机器学习模型。

在示例8中，示例1至7中任何一个或多个的主题可选地包括：其中选择第一动作包括：确定第一动作的第一成本和与原因相关联的第二动作的第二成本；以及基于第一成本和第二成本来选择第一动作或第二动作。

在示例9中，示例8的主题可选地包括：其中第一动作或第二动作是以下各项中的一项：重置网络系统中所包括的设备；生成对网络系统的组件的状态请求；重置网络系统中所包括的设备的硬件组件；重置网络系统中所包括的设备的软件组件或固件组件；或者请求网络系统的组件执行任务。

在示例10中，示例1至9中任何一个或多个的主题可选地包括：对所选择的动作将解决故障的置信度进行第一次评估；基于第一次评估来设置诊断动作成本阈值；基于诊断动作成本阈值来对诊断动作进行第二次评估；以及基于第二次评估来有条件地执行诊断动作。

在示例11中，示例10的主题可选地包括：如果置信度高于预定阈值，则将诊断动作成本阈值设置为第一值，否则，将诊断动作成本阈值设置为第二值，其中第一值低于第二值。

在示例12中，示例10至11中任何一个或多个的主题可选地包括：注入具有第一成本的第一诊断动作，而不是具有第二成本的第二诊断动作，第二成本低于第一成本，注入响应于置信度低于升级阈值。

在示例13中，示例10至12中任何一个或多个的主题可选地包括：第一次注入第一诊断动作，该第一诊断动作具有第一成本；在第一诊断动作的注入之后，监测操作参数值；基于所监测的操作参数来确定第一根本原因和相关联的第一概率；基于第一概率低于预定阈值的确定来第二次注入第一诊断动作；在第二次注入第一诊断动作之后，第二次监测操作参数值；确定与第一根本原因相关联的第二概率；基于第一概率和第二概率来调整诊断成本阈值；以及基于调整过的诊断成本阈值来确定是否注入附加诊断动作。

在示例14中，示例13的主题可选地包括：确定第一概率与第二概率之间的差异，其中确定是否注入附加诊断动作基于该差异。

示例15是一种包括指令的非瞬态计算机可读存储介质，这些指令在被执行时将硬件处理电路装置配置为执行操作，这些操作包括：从网络系统的一个或多个设备接收操作参数值的时间序列；将操作参数值的时间序列提供至机器学习模型；从机器学习模型接收对在网络系统的操作中的故障的原因的指示；基于原因来选择要对网络系统执行的第一动作；执行第一动作；以及向机器学习模型通知所执行的第一动作。

在示例16中，示例15的主题可选地包括：在执行动作之后，从网络系统接收操作参数值的第二时间序列；基于第二时间序列来确定故障是否被解决；以及基于故障是否被解决来有条件地向网络系统应用第二动作。

在示例17中，示例15至16中任何一个或多个的主题可选地包括：标识与第一类根本原因相关联的第一分布列表；以及标识与第二类根本原因相关联的第二分布列表；以及基于第一分布列表和第二分布列表来生成警告。

在示例18中，示例15至17中任何一个或多个的主题可选地包括：其中接收操作参数值的时间序列包括：从网络系统中所包括的多个设备接收相应设备操作参数值的时间序列；以及将时间序列中的每个时间序列提供至机器学习模型。

在示例19中，示例15至18中任何一个或多个的主题可选地包括：其中操作参数值指示以下各项中的一项或多项：网络组件的CPU利用率、网络组件的存储器利用率、网络组件处的时延、网络组件的吞吐量、由网络组件维持的连接的数量、在网络组件处的分组错误计数或者在网络组件处的相关联的无线终端的数量。

在示例20中，示例15至19中任何一个或多个的主题可选地包括：其中操作参数值指示以下各项中的一项或多项：接入点名称、服务集标识符、信道、频带、媒体访问控制(MAC)信息或者基本服务集标识符。

在示例21中，示例15至20中任何一个或多个的主题可选地包括：从网络系统的一个或多个设备接收指示在网络系统的设备之间所交换的消息内容的信息；以及将指示消息内容的信息提供至机器学习模型。

在示例22中，示例15至21中任何一个或多个的主题可选地包括：其中选择第一动作包括：确定第一动作的第一成本和与原因相关联的第二动作的第二成本；以及基于第一成本和第二成本来选择第一动作或第二动作。

在示例23中，示例22的主题可选地包括：其中第一动作或第二动作是以下各项中的一项：重置网络系统中所包括的设备；生成对网络系统的组件的状态请求；重置网络系统中所包括的设备的硬件组件；重置网络系统中所包括的设备的软件组件或固件组件；或者请求网络系统的组件执行任务。

在示例24中，示例15至23中任何一个或多个的主题可选地包括：对所选择的动作将解决故障的置信度进行第一次评估；基于第一次评估来设置诊断动作成本阈值；基于诊断动作成本阈值来对诊断动作进行第二次评估；以及基于第二次评估来有条件地执行诊断动作。

在示例25中，示例24的主题可选地包括：如果置信度高于预定阈值，则将诊断动作成本阈值设置为第一值，否则，将诊断动作成本阈值设置为第二值，其中第一值低于第二值。

在示例26中，示例24至25中任何一个或多个的主题可选地包括：注入具有第一成本的第一诊断动作，而不是具有第二成本的第二诊断动作，第二成本低于第一成本，注入响应于置信度低于升级阈值。

在示例27中，示例24至26中任何一个或多个的主题可选地包括：第一次注入第一诊断动作，该第一诊断动作具有第一成本；在第一诊断动作的注入之后，监测操作参数值；基于所监测的操作参数来确定第一根本原因和相关联的第一概率；基于第一概率低于预定阈值的确定来第二次注入第一诊断动作；在第二次注入第一诊断动作之后，第二次监测操作参数值；确定与第一根本原因相关联的第二概率；基于第一概率和第二概率来调整诊断成本阈值；以及基于调整过的诊断成本阈值来确定是否注入附加诊断动作。

在示例28中，示例27的主题可选地包括：确定第一概率与第二概率之间的差异，其中确定是否注入附加诊断动作基于该差异。

实例29是一种系统，包括：硬件处理电路装置；一个或多个硬件存储器，该一个或多个硬件存储器存储指令，这些指令在被执行时将硬件处理电路装置配置为执行操作，这些操作包括：从网络系统的一个或多个设备接收操作参数值的时间序列；将操作参数值的时间序列提供至机器学习模型；从机器学习模型接收对在网络系统的操作中的故障的原因的指示；基于原因来选择要对网络系统执行的第一动作；执行第一动作；以及向机器学习模型通知所执行的第一动作。

在示例30中，示例29的示例可选地包括操作，这些操作还包括：在执行动作之后，从网络系统接收操作参数值的第二时间序列；基于第二时间序列来确定故障是否被解决；以及基于故障是否被解决来有条件地向网络系统应用第二动作。

在示例31中，示例29至30中任何一个或多个的主题可选地包括操作，这些操作还包括：标识与第一类根本原因相关联的第一分布列表；以及标识与第二类根本原因相关联的第二分布列表；以及基于第一分布列表和第二分布列表来生成警告。

在示例32中，示例29至31中任何一个或多个的主题可选地包括：其中接收操作参数值的时间序列包括：从网络系统中所包括的多个设备接收相应设备操作参数值的时间序列；以及将时间序列中的每个时间序列提供至机器学习模型。

在示例33中，示例29至32中任何一个或多个的主题可选地包括：其中操作参数值指示以下各项中的一项或多项：网络组件的CPU利用率、网络组件的存储器利用率、网络组件处的时延、网络组件的吞吐量、由网络组件维持的连接的数量、在网络组件处的分组错误计数或者在网络组件处的相关联的无线终端的数量。

在示例34中，示例29至33中任何一个或多个的主题可选地包括：其中操作参数值指示以下各项中的一项或多项：接入点名称、服务集标识符、信道、频带、媒体访问控制(MAC)信息或者基本服务集标识符。

在示例35中，示例29至34中任何一个或多个的主题可选地包括操作，这些操作还包括：从网络系统的一个或多个设备接收指示在网络系统的设备之间所交换的消息内容的信息；以及将指示消息内容的信息提供至机器学习模型。

在示例36中，示例29至35中任何一个或多个的主题可选地包括：其中选择第一动作包括：确定第一动作的第一成本和与原因相关联的第二动作的第二成本；以及基于第一成本和第二成本来选择第一动作或第二动作。

在示例37中，示例36的主题可选地包括：其中第一动作或第二动作是以下各项中的一项：重置网络系统中所包括的设备；生成对网络系统的组件的状态请求；重置网络系统中所包括的设备的硬件组件；重置网络系统中所包括的设备的软件组件或固件组件；或者请求网络系统的组件执行任务。

在示例38中，示例29至37中任何一个或多个的主题可选地包括操作，这些操作进还包括：对所选择的动作将解决故障的置信度进行第一次评估；基于第一次评估来设置诊断动作成本阈值；基于诊断动作成本阈值来对诊断动作进行第二次评估；以及基于第二次评估来有条件地执行诊断动作。

在示例39中，示例38的主题可选地包括操作，这些操作还包括：如果置信度高于预定阈值，则将诊断动作成本阈值设置为第一值，否则，将诊断动作成本阈值设置为第二值，其中第一值低于第二值。

在示例40中，示例38至39中任何一个或多个的主题可选地包括操作，这些操作还包括：注入具有第一成本的第一诊断动作，而不是具有第二成本的第二诊断动作，第二成本低于第一成本，注入响应于置信度低于升级阈值。

在示例41中，示例38至40中任何一个或多个的主题可选地包括操作，这些操作还包括：第一次注入第一诊断动作，该第一诊断动作具有第一成本；在第一诊断动作的注入之后，监测操作参数值；基于所监测的操作参数来确定第一根本原因和相关联的第一概率；基于第一概率低于预定阈值的确定来第二次注入第一诊断动作；在第二次注入第一诊断动作之后，第二次监测操作参数值；确定与第一根本原因相关联的第二概率；基于第一概率和第二概率来调整诊断成本阈值；以及基于调整过的诊断成本阈值来确定是否注入附加诊断动作。

在示例42中，示例41的主题可选地包括操作，这些操作还包括：确定第一概率与第二概率之间的差异，其中确定是否注入附加诊断动作基于该差异。

Claims

1.一种方法，包括：

从网络系统的一个或多个设备接收操作参数值的时间序列；

将操作参数值的所述时间序列提供至机器学习模型；

从所述机器学习模型接收对在所述网络系统的操作中的故障的原因的指示；

基于所述原因来选择要对所述网络系统执行的第一动作；

执行所述第一动作；以及

向所述机器学习模型通知所执行的所述第一动作。

2.根据权利要求1所述的方法，还包括：

在执行所述第一动作之后，从所述网络系统接收操作参数值的第二时间序列；

基于所述第二时间序列来确定所述故障是否被解决；以及

基于所述故障是否被解决来有条件地向所述网络系统应用第二动作。

3.根据权利要求1所述的方法，还包括：

对所选择的所述第一动作将解决所述故障的置信度进行第一次评估；

基于所述第一次评估来设置诊断动作成本阈值；

基于所述诊断动作成本阈值来对诊断动作进行第二次评估；以及

基于所述第二次评估来有条件地执行所述诊断动作。

4.一种包括指令的非瞬态计算机可读存储介质，所述指令在被执行时将硬件处理电路装置配置为执行操作，所述操作包括：

从网络系统的一个或多个设备接收操作参数值的时间序列；

将操作参数值的所述时间序列提供至机器学习模型；

基于所述原因来选择要对所述网络系统执行的第一动作；

执行所述第一动作；以及

向所述机器学习模型通知所执行的所述第一动作。

5.根据权利要求4所述的非瞬态计算机可读存储介质，其中选择所述第一动作包括：确定所述第一动作的第一成本和与所述原因相关联的第二动作的第二成本；以及基于所述第一成本和所述第二成本来选择所述第一动作或所述第二动作。

6.根据权利要求5所述的非瞬态计算机可读存储介质，其中所述第一动作或所述第二动作是以下各项中的一项：重置所述网络系统中所包括的设备；生成对所述网络系统的组件的状态请求；重置所述网络系统中所包括的设备的硬件组件；重置所述网络系统中所包括的设备的软件组件或固件组件；或者请求所述网络系统的组件执行任务。

7.一种系统，包括：

硬件处理电路装置；

一个或多个硬件存储器，所述一个或多个硬件存储器存储指令，所述指令在被执行时将所述硬件处理电路装置配置为执行操作，所述操作包括：

从网络系统的一个或多个设备接收操作参数值的时间序列；

将操作参数值的所述时间序列提供至机器学习模型；

基于所述原因来选择要对所述网络系统执行的第一动作；

执行所述第一动作；以及

向所述机器学习模型通知所执行的所述第一动作。

8.根据权利要求7所述的系统，所述操作还包括：

基于所述第二时间序列来确定所述故障是否被解决；以及

9.根据权利要求7所述的系统，所述操作还包括：标识与第一类根本原因相关联的第一分布列表；以及标识与第二类根本原因相关联的第二分布列表；以及基于所述第一分布列表和第二分布列表来生成警告。

10.根据权利要求7所述的系统，其中接收操作参数值的所述时间序列包括：从所述网络系统中所包括的多个设备接收相应设备操作参数值的时间序列；以及将所述时间序列中的每个时间序列提供至所述机器学习模型。

11.根据权利要求7所述的系统，其中所述操作参数值指示以下各项中的一项或多项：网络组件的CPU利用率、网络组件的存储器利用率、网络组件处的时延、网络组件的吞吐量、由网络组件维持的连接的数量、在网络组件处的分组错误计数或者在网络组件处的相关联的无线终端的数量。

12.根据权利要求7所述的系统，其中所述操作参数值指示以下各项中的一项或多项：接入点名称、服务集标识符、信道、频带、媒体访问控制(MAC)信息或者基本服务集标识符。

13.根据权利要求7所述的系统，所述操作还包括：从所述网络系统的一个或多个设备接收指示在所述网络系统的设备之间所交换的消息内容的信息；以及将指示消息内容的所述信息提供至所述机器学习模型。

14.根据权利要求7所述的系统，其中选择所述第一动作包括：确定所述第一动作的第一成本和与所述原因相关联的第二动作的第二成本；以及基于所述第一成本和所述第二成本来选择所述第一动作或所述第二动作。

15.根据权利要求14所述的系统，其中所述第一动作或所述第二动作是以下各项中的一项：重置所述网络系统中所包括的设备；生成对所述网络系统的组件的状态请求；重置所述网络系统中所包括的设备的硬件组件；重置所述网络系统中所包括的设备的软件组件或硬件组件；或者请求所述网络系统的组件执行任务。

16.根据权利要求7所述的系统，所述操作还包括：

基于所述第一次评估来设置诊断动作成本阈值；

基于所述第二次评估来有条件地执行所述诊断动作。

17.根据权利要求16所述的系统，所述操作还包括：如果所述置信度高于预定阈值，则将所述诊断动作成本阈值设置为第一值，否则，将所述诊断动作成本阈值设置为第二值，其中所述第一值低于所述第二值。

18.根据权利要求16所述的系统，所述操作还包括：注入具有第一成本的第一诊断动作，而不是具有第二成本的第二诊断动作，所述第二成本低于所述第一成本，所述注入响应于所述置信度低于升级阈值。

19.根据权利要求16所述的系统，所述操作还包括：

第一次注入第一诊断动作，所述第一诊断动作具有第一成本；

在所述第一诊断动作的所述注入之后，监测操作参数值；

基于所监测的所述操作参数来确定第一根本原因和相关联的第一概率；

基于所述第一概率低于预定阈值的确定来第二次注入所述第一诊断动作；

在所述第二次注入所述第一诊断动作之后，第二次监测操作参数值；

确定与所述第一根本原因相关联的第二概率；

基于所述第一概率和所述第二概率来调整诊断成本阈值；以及

基于调整过的所述诊断成本阈值来确定是否注入附加诊断动作。

20.根据权利要求19所述的系统，所述操作还包括：确定所述第一概率与所述第二概率之间的差异，其中所述确定是否注入所述附加诊断动作基于所述差异。