CN105075179B

CN105075179B - 用于基于学习机器对异常网络性能的检测的方法和装置

Info

Publication number: CN105075179B
Application number: CN201480019368.0A
Authority: CN
Inventors: 让-菲利普·瓦瑟尔; 格雷戈瑞·莫穆德; 素格力·达斯古普塔
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2013-02-05
Filing date: 2014-02-04
Publication date: 2019-03-15
Anticipated expiration: 2034-02-04
Also published as: WO2014123923A1; CN105075179A; CA2900075A1; US20140222998A1; US9628362B2; CA2900075C; EP2954645A1; EP2954645B1

Abstract

在一个实施例中，描述并示出了关于基于学习机器对异常网络性能的检测的技术。具体地，在一个实施例中，边界路由器从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i；然后拦截从该边界路由器的计算机网络中的节点发送的x_i和M_i。由此，边界路由器然后可以基于x_i和M_i建立回归函数F；并且可以基于回归函数F来检测在所拦截的x_i和M_i中的一个或多个异常。在另一实施例中，对边界路由器进行指示的NMS从边界路由器接收检测到的异常。

Description

用于基于学习机器对异常网络性能的检测的方法和装置

相关申请

本申请要求于2013年2月5日递交、发明人为Vasseur等、题为“LEARNING MACHINEBASED DETECTION OF ABNORMALNETWORK PERFORMANCE”的美国临时申请No.61/761,117和于2013年7月31日递交的美国专利申请No.13/955,860的优先权，这两个申请的内容通过引用被合并于此。

技术领域

本公开总体涉及计算机网络，并且更具体地，涉及在计算机网络内对学习机器的使用。

背景技术

低功率和有损网络(Low power and Lossy Network，LLN)(例如，物联网(IoT)网络)具有大量应用，例如，传感器网络、智能网格、以及智慧城市。LLN面临各种挑战，例如，有损链路、低带宽、低质量收发机、电池操作、低存储和/或处理能力等。这些网络的挑战性因大量的节点(大于“经典的”IP网络的数量级)而加重，因此使得路由、服务质量(QoS)、安全性、网络管理以及流量工程等面临严峻的挑战。

机器学习(ML)关注算法的设计和开发，这些算法作为输入的经验数据(例如，网络统计信息和状态、以及性能指示符)，识别这些数据中复杂的模式，并且根据建模来解决诸如回归(回归在数学上通常极难解决)之类的复杂问题。一般地，这些模式和模型的计算之后被用来自动(即，闭环控制)做出决策或帮助做出决策。ML是用来处理很难的问题(例如，计算机视觉、机器人学、数据挖掘、搜索引擎等)的非常广泛的学科，但最普遍的任务如下：线性和非线性回归、分类、集群、降维、异常检测、优化、关联规则学习。

ML算法中一个非常普遍的模式为使用底层模型M，给定输入数据，其参数被优化以最小化与M相关联的成本函数。例如，在分类的情景中，模型M可以是直线，其将数据分成两类，以使得M＝a*x+b*y+c，并且成本函数将是被错误分类的点的数目。然后ML算法包括对参数a、b、c进行调整，以使得被错误分类的点的数目最小。在优化阶段(或学习阶段)之后，模型M可被很容易地用来对新的数据点进行分类。通常，M是统计模型，并且给定输入数据，成本函数与M的似然成反比。应当注意，上面的示例是对通常具有较高维的更加复杂的回归问题的过分简化。

学习机器(LM)是依赖于一个或多个ML算法的计算实体，该一个或多个ML算法用于执行学习机器尚未被明确编程来执行的任务。具体地，LM能够调整其行为来适应其环境(即，无需先验配置静态规则的“自适应”)。在LLN的情景中，并且更一般地在IoT(或万联网(Internet of Everything，IoE))的情景中，该能力将非常重要，因为网络将面对变化的状况和需求，并且网络对于网络运营商的有效管理而言将变得太大。此外，LLN一般可以根据其所期望的用途和所部署的环境而显著不同。

迄今为止，不论LLN的复杂性的总体水平如何，在“经典的”方法(基于已知的算法)效率低下的情况下或者当数据量不能由人工处理以在考虑参数的数目的情况下预测网络行为时，LM尚未普遍用于LLN。

发明内容

根据本发明实施例的一个方面，提供了一种用于计算机网络的方法，包括：在边界路由器处从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；拦截从所述边界路由器的计算机网络中的节点i发送的一组x_i和M_i；基于从NMS接收的该组x_i和M_i建立回归函数F；以及基于所述回归函数F来检测在所拦截的该组x_i和M_i中的一个或多个异常。

根据本发明实施例的另一方面，提供了一种用于计算机网络的方法，包括：由网络管理服务器(NMS)确定一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；将该组网络属性x_i和网络性能度量M_i发送至计算机网络的边界路由器；以及从所述边界路由器接收被拦截的从所述计算机网络中的节点i发送的一组x_i和M_i中的一个或多个检测到的异常，所述一个或多个检测到的异常是基于由所述边界路由器基于由NMS确定的该组x_i和M_i而建立的回归函数F检测的

根据本发明实施例的又一方面，提供了一种用于边界路由器的装置，包括：一个或多个网连接口，用于与计算机网络进行通信；处理器，其耦合于所述网络接口并且适用于执行一个或多个指令；以及存储器，其被配置为存储所述处理器可执行的指令，所述指令当被所述处理器执行时实现以下操作：从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；拦截从所述计算机网络中的节点i发送的一组x_i和M_i；基于从NMS接收的该组x_i和M_i建立回归函数F；以及基于所述回归函数F来检测在所拦截的该组x_i和M_i中的一个或多个异常。

根据本发明实施例的又一方面，提供了一种用于网络管理服务器(NMS)的装置，包括：一个或多个网连接口，用于与计算机网络的边界路由器进行通信；处理器，其耦合于所述网络接口并且适用于执行一个或多个指令；以及存储器，其被配置为存储所述处理器可执行的指令，所述指令当被所述处理器执行时实现以下操作：确定一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；将该组网络属性x_i和网络性能度量M_i发送至计算机网络的边界路由器；以及从所述边界路由器接收被拦截的从所述计算机网络中的节点i发送的一组x_i和M_i中的一个或多个检测到的异常，所述一个或多个检测到的异常是基于由所述边界路由器基于所确定的该组x_i和M_i而建立的回归函数F检测的。

附图说明

本文的实施例可以通过结合附图参照下文的描述进行更好的理解，其中，相似的参考标号指示等同地或功能上类似的要素，其中：

图1示出了示例通信网络；

图2示出了示例网络设备/节点；

图3示出了图1的通信网络中的示例有向非循环图(DAG)；

图4示出了示例贝叶斯(Bayesian)网络；

图5示出了用于线性回归的示例贝叶斯网络；

图6示出了示例学习机器网络；

图7A-7C示出了示例学习机器网络；

图8示出了示例特征树；

图9示出了示例学习机器架构；

图10示出了示例回归图；

图11示出了示例学习机器架构实现方式；

图12尤其从边界路由器的角度，示出了根据本文所描述的一个或多个实施例的基于学习机器对异常网络性能的检测的示例简化过程；

图13示出了根据本文所描述的一个或多个实施例的用于建立回归函数并且确定用作回归算法的输入的相关特征的示例简化过程；

图14尤其从网络管理服务器(NMS)的角度，示出了根据本文所描述的一个或多个实施例的基于学习机器对异常网络性能的检测的示例简化过程。

具体实施方式

概述

根据本公开的一个或多个实施例，示出并描述了与基于学习机器对异常网络性能的检测有关的技术。具体地，在一个实施例中，边界路由器从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i，然后拦截从边界路由器的计算机网络中的节点发送的x_i和M_i。由此，边界路由器然后可以基于x_i和M_i来建立回归函数F，并且能够基于回归函数F来检测所拦截的x_i和M_i中的一个或多个异常。

在另一实施例中，NMS确定一组网络属性x_i和网络性能度量M_i，将其发送至计算机网络的边界路由器，并且从边界路由器接收所拦截的从计算机网络中的节点发送的x_i和M_i中的一个或多个检测到的异常，其中，一个或多个检测到的异常是基于由边界路由器基于x_i和M_i所建立的回归函数F检测的。

具体实施方式说明

计算机网络是在地理上分布的节点的集合，这些节点通过分段和通信链路进行互连，以在端节点(例如，个人计算机和工作站或其他设备(例如，传感器等))之间传输数据。从局域网(LAN)到广域网(WAN)的范围内的许多类型的网络是可用的。LAN通常通过位于大致相同的物理位置(例如，建筑物或校园)的专用私有通信链路来连接节点。另一方面，WAN一般通过长距离通信链路(例如，公共载波电话线、光学光路、同步光网络(SONET)、同步数字体系(SDH)链路或诸如IEEE61334、IEEE P1901.2等的电线通信(PLC))来连接地理上分散的节点。此外，移动Ad-Hoc网络(MANET)是一种无线ad-hoc网络，其一般被认为是由无线链路连接的移动路由器(以及相关联的主机)的自配置网络，它们的联合形成了任意的拓扑结构。

具体地，智能对象网络(例如，传感器网络)是具有空间分布的自主设备(例如，传感器、致动器等)的特定类型的网络，这些自主设备以合作的方式监控不同位置处的物理或环境状况，例如，能量/电力消耗、资源消耗(例如，对于高级的测量仪器或“AMI”应用而言，水/气等)、温度、压力、振动、声音、辐射、运动、污染等。其他类型的智能对象包括例如负责开启/关闭引擎或执行任何其他动作的致动器。传感器网络(一种类型的智能对象网络)是典型的共享介质网络，例如，无线或PLC网络。也就是说，除了一个或多个传感器，传感器网络中的每个传感器设备(节点)一般可以装备有无线电收发机或其他通信端口(例如，PLC、微控制器以及诸如电池之类的能量源)。通常，智能对象网络被看作现场区域网络(FAN)、邻居区域网络(NAN)、个人区域网络(PAN)等。一般地，智能对象节点(例如，传感器)上的大小和成本约束导致对诸如能量、存储器、计算速度以及带宽之类的资源的相应约束。

图1是示例计算机网络100的示意性框图，其说明性地包括通过各种通信方法进行互连的节点/设备110(例如，如所示出的标签，“根”、“11”、“12”…“45”以及下面图2中所描述的)。例如，链路105可以是有线链路或共享介质(例如，无线链路、PLC链路等)，其中，诸如路由器、传感器、计算机之类的某些节点110可以例如基于距离、信号强度、当前的操作状态、位置等与其他节点110进行通信。说明性的根节点(例如，FAN的现场区域路由器(FAR))可以通过WAN 130与局部网络互连，其可以容纳一个或多个其他相关的设备，例如，管理设备或服务器150(例如，网络管理服务器(NMS)、动态主机配置协议(DHCP)服务器、约束应用协议(CoAP)服务器等)。本领域技术人员明白，任意数目的节点、设备、链路等可以用于接收机网络，并且本文所示出的视图是出于简化的目的。另外，本领域技术人员还将理解，尽管网络以某一方向示出，尤其具有“根”节点，但网络100仅仅是一示例说明，其不意欲限制本公开。

数据分组140(例如，流量和/或消息)可以使用预定义的网络通信协议(例如，某些已知的有线协议、无线协议(例如，IEEE标准802.15.4、WiFi、蓝牙等)、PLC协议、或其他适当地共享介质协议)在计算机网络100的节点/设备之间进行交换。在该上下文中，协议包括定义节点彼此如何交互的一组规则。

图2是可以被用于本文所描述的一个或多个实施例的示例节点/设备200(例如，如上面图1所示的任意节点或设备)的示意性框图。该设备可以包括通过系统总线250互联的一个或多个网络接口210(例如，有线、无线、PLC等)、至少一个处理器220和存储器240以及电源260(例如，电池、外接电源等)。

(一个或多个)网络接口210包含用于通过耦合至网络100的链路105来传输数据的机械电路、电学电路以及信令电路。网络接口可以被配置为使用各种不同的通信协议来发送和/或接收数据。还应当注意，这些节点可以具有两种不同类型的网络连接(例如，无线连接和有线/物理连接)，并且此处的视图仅出于说明的目的。另外，尽管网络接口210被示出为与电源260分离，但对于PLC(其中，PLC信号可以被耦合到馈入电源的电力线)，网络接口210可以通过电源260进行通信，或者可以是电源的整体组件。

存储器240包括多个存储位置，这些存储位置可由处理器220和网络接口210寻址，并且用于存储与本文所描述的实施例相关联的数据结构和软件程序。应当注意，某些设备可能具有有限的存储器或者没有存储器(例如，没有用于存储除了在设备和相关联的缓存上操作的程序/处理之外的存储器)。处理器220可以包括适用于运行软件程序和操纵数据结构245的硬件元件或硬件逻辑。操作系统242尤其通过调用支持在设备上运行的服务和/或软件处理的操作来在功能上组织设备，其中，操作系统242的一部分通常驻留在存储器240中并且由处理器来运行。如本文所描述的，这些软件处理和/或服务可以包括路由处理/服务244和说明性的“学习机器”处理248，其可以根据网络100内的特定节点/设备而配置有从智能学习机器算法到仅与智能学习机器进行通信的范围内的功能。还应注意，尽管学习机器处理248被示出为在集中式存储器240中，但替代的实施例可将该处理具体地在网络接口210内操作。

其他处理器和存储器类型(包括各种计算机可读介质)可以被用来存储和运行涉及本文所描述的技术的程序指令，这对本领域技术人员而言是显而易见的。另外，尽管该描述阐述了各种处理，但明确预期各种处理可以被实现为被配置来根据本文的技术(例如，根据类似处理的功能)进行操作的模块。另外，尽管已单独地示出和/或描述了这些处理，但本领域技术人员将理解，这些处理可以是其他处理内的例程或模块。

路由处理(服务)244包含由处理器220运行的计算机可执行指令，以执行由一个或多个路由协议(例如，本领域技术人员将理解的先应式路由协议和反应式路由协议)所提供的功能。这些功能可以在有能力的设备上被配置为对路由/转发表(数据结构245)进行管理，路由/转发表例如包含用来做出路由/转发决策的数据。具体地，在先应式路由中，在计算到网络中任意目的地的路由之前发现并且已知连接，例如，诸如开放最短路径优先(OSPF)、或中间系统到中间系统(ISIS)、或最优链路状态路由(OLSR)之类的链路状态路由。在另一方面，反应式路由发现邻居(即，不具有网络拓扑结构的先验知识)，并且响应于到目的地所需的路由，向网络发送路由请求以确定哪个邻居节点可以用来到达所期望的目的地。示例反应式路由协议可以包括Ad-hoc按需距离矢量(AODV)、动态源路由(DSR)、动态MANET按需路由(DYMO)等。应当注意，在不能或未被配置来存储路由条目的设备上，路由处理244可以仅包括提供源路由技术所必需的机制。也就是说，对于源路由，网络中的其他设备可以确切地告诉具有较少能力的设备将分组发送至哪里，并且具有较少能力的设备简单地按照指导来转发分组。

应当注意，网状网络近几年日益流行并且实用。具体地，诸如无线网络或PLC网络之类的共享介质网状网络通常在被称为低功耗有损网络(LLN)的网络上，LLN是路由器及其互连被约束的一类网络：LLN路由器通常在约束(例如，处理功率、存储器和/或能量(电池))下进行操作，并且其互连说明性地由高损耗速率、低数据速率和/或不稳定性来表征。LLN包括从几十个到几千甚至几百万个LLN路由器的任何事物，并且支持点到点流量(在LLN内的设备之间)、点到多流量(从诸如根节点之类的中央控制点到LLN内的设备的子集)以及多点到点流量(从LLN内的设备到中央控制点)。

LLN的示例实现方式是“物联网”网络。宽松地，术语“物联网”或“IoT”(或“万联网”或“IoE”)可以由本领域技术人员用于指代唯一可标识的对象(事物)及其在基于网络的架构中的虚拟表示。具体地，互联网演进的下一前沿是不仅仅连接计算机和通信设备的能力，还有连接一般“对象”(例如，灯、装置、交通工具、HVAC(采暖、通风和空调)、窗户和窗帘以及百叶窗、门、锁等)的能力。“物联网”因而一般指代诸如传感器和致动器之类的对象(例如，智能对象)通过计算机网络(例如，IP)进行互连，其中，计算机网络可以是公共互联网或私有网络。这样的设备已在工业中使用了数十载，通常以非IP或私有协议的形式使用，这些非IP或私有协议通过协议转换网关的方式而连接到IP网络。随着诸如智能网格、智慧城市、以及建筑和工业自动化以及汽车(例如，其能够互连用于感知像功率质量、轮胎压力和温度之类的事物的上百万的对象并且能够致动引擎和灯)之类的大量应用的出现，扩展适用于这些网络的IP协议极为重要。

在由Winter等提出的题为“RPL：IPv6Routing Protocol for Low Power andLossy Networks(RPL：用于低功率有损网络的IPv6路由协议)”的互联网工程任务组(IETF)提议标准，请求注解(RFC)6550(2012年3月)中规定的示例协议提供了支持从LLN内的设备到中央控制点(例如，一般地，LLN边界路由器(LBR)、FAR、或“根节点/设备”)的多点到点(MP2P)流量以及从中央控制点到LLN内的设备的点到多点(P2MP)流量(还有点到点或“P2P”流量)。RPL(发音为“ripple”)一般可以被描述为距离矢量路由协议，其除了定义限制控制流量、支持修护等的一组特征之外，还建立用于路由流量/分组140的有向非循环图(DAG)。应当注意，如本领域技术人员可以理解的，RPL还支持多拓扑路由(MTR)的概念，借此，可以根据单独的需求来建立多个DAG以承载流量。

另外，有向非循环图(DAG)是具有某一属性的有向图，该属性使得所有的边以期望不存在循环(回路)的方式来导向。所有的边被包含在指向一个或多个根节点(例如，“簇首(clusterhead)”或“汇集点(sink)”)并且在该一个或多个根节点处终止的路径中，通常用来互连具有较大基础设施(例如，互联网、广域网、或其他域)的DAG的设备。此外，面向目的地的DAG(Destination Oriented DAG，DODAG)是生根于单个目的地的DAG，即，在没有向外的边的单个DAG根处。DAG内的特定节点的“双亲”是该特定节点在去往DAG根的路径上的直接继承者，以使得双亲具有比特定节点自身低的“等级”，其中，节点的等级标识了节点相对于DAG根的位置(例如，节点离根越远，则该节点的等级越高)。还应注意，树是一种DAG，其中，DAG中的每个设备/节点一般具有一个双亲或一个优选双亲。DAG一般可以基于目标函数(OF)(例如，通过DAG处理和/或路由处理244)来建立。目标函数的角色一般用来规定如何建立DAG的规则(例如，双亲的数目、备用双亲，等等)。

图3示出了例如可以通过上面所描述的技术在图1的网络100内建立的示例简化DAG。例如，可以针对每个节点来选定某些链路105以与特定双亲进行通信(因而反之，与孩子(如果存在)进行通信)。这些选定的链路形成DAG 310(如粗线所示)，其从根节点延伸到一个或多个叶子节点(没有孩子的节点)。流量/分组140(图1所示)然后可以以向上至根的方向或向下至叶子节点的方向来穿过DAG 310，如本文具体描述的。

(一个或多个)学习机器技术

如上所述，机器学习(ML)关注算法的设计和开发，这些算法作为输入的经验数据(例如，网络统计信息和状态、以及性能指标)，识别这些数据中的复杂模式，并且根据建模来解决诸如回归之类的复杂问题。ML算法中一个非常普遍的模式为使用底层模型M，给定输入数据，则其参数被优化以最小化与M相关联的成本函数。例如，在分类的情景中，模型M可以是直线，其将数据分成两类，以使得M＝a*x+b*y+c，并且成本函数将是被错误分类的点的数目。ML算法然后包括对参数a、b、c进行调整，以使得被错误分类的点的数目最小。在优化阶段(或学习阶段)之后，模型M可被很容易地用来对新的数据点进行分类。通常，M是统计模型，并且给定输入数据，成本函数与M的似然成反比。

还如上所述，学习机器(LM)是依赖于一个或多个ML算法的计算实体，该一个或多个ML算法用于执行学习机器尚未被明确编程来执行的任务。具体地，LM能够调整其行为来适应其环境。在LLN的情景中，并且更一般地在IoT(或万联网(Internet of Everything，IoE))的情景中，该能力将非常重要，因为网络将面对变化的状况和需求，并且网络对于网络运营商的有效管理而言将变得太大。迄今为止，不论LLN的复杂性的总体水平如何，在“经典的”方法(基于已知的算法)效率低下的情况下或者数据量不能由人工处理以在考虑参数的数目的情况下预测网络行为时，LM尚未普遍用于LLN。

具体地，许多LM可以以概率图模型(也被称为贝叶斯网络(BN))的形式来表达。BN是图G＝(V,E)，其中，V是一组顶点，E是一组边。这些顶点是随机变量，例如，X、Y和Z(见图4)，其联合分布P(X,Y,Z)由条件概率的乘积给出：

(公式1)P(X，Y，Z)＝P(Z|X，Y)P(Y|X)P(X)

公式1中的条件概率由图4中的图的边给出。在LM的情景中，BN被用来构建模型M及其参数。

为了估计节点i(或链路)的网络属性(被标注为x_i)(例如，跳数、等级、防火墙版本，等等)与给定的网络度量M_i之间的关系，可以执行线性回归。更具体地，给出下面的公式：

(公式2)M_i＝F(x_i)＝b^Tx_i+ε，

其中，x_i是所观察的数据的d维向量(例如，诸如等级、跳数、到FAR的距离之类的端节点属性)，M_i是目标度量(例如，加入网络的时间)，其有时也被标注为y_i。建立这样的知道一组所观察的特征的性能度量模型对于执行根本原因分析、网络监控以及配置很关键：例如，作为节点等级、链路质量等的函数的路径延迟然后可被用来确定网络中哪里出现异常，从而采取一些适当的行动来修复该问题。在上面的公式2中，术语ε是用于对所估计的M_i的不确定性和/或噪声进行建模的高斯(Gaussian)随机变量。线性回归包括找到满足最大似然准则(当ε是高斯的时，其与最小平方准则一致)的加权向量b。具体地，最优b必须最小化均方误差(MSE)：

(公式3)MSE＝∑_i(b^Tx_i-y_i)²/N

其中，N是输入的数据点的总数，即，i＝1，…，N。

换言之，b是针对每一个所观察的值x_i的一组权重，其用来计算提供F的值的函数F。MSE是用来计算模型函数F的“质量”的度量。

解公式2的常用方法是正常最小二乘法(OLS)公式，其涉及“d×d”矩阵求逆，其中，d是维数。立即出现三个主要问题：(i)x_i的维度可以很大，从而使得OLS在计算成本方面过于昂贵(近似O(d³))，(ii)存在共线性(即，当若干个节点属性强相关时，例如，针对跳数和ETX的情形)，OLS在数值上变得不稳定(即，舍入和截断误差被放大，使得MSE指数型增长)，(iii)OLS基本上是非概率的(即，其不考虑其构成变量的整体分布，而其仅跟踪平均值)，其不能很好的应对噪声和异常值，并且当ε不是高斯时其不可应用。

为了克服这些限制，该问题可以被表述为BN(参见图5)。现在，所有的变量被看作是随机变量，即使它们此时全部被观察：输入变量x_i和输出变量y_i二者是实验数据，并且b此时是BN的(非概率性)参数。通过将该方法推进一点，也可以将b转换为随机变量，并且尝试从实验数据(也就是说，对x_i和y_i进行的观察)中推断出b。然而，该推断问题是非平凡的，尤其当该学习算法的一个期望的特征是能够识别x的非相关维度(即，与输出的x呈弱相关的输入维度)的特征，并且自动地将b中的相应权重设置为零(或非常小的)值。

该问题通过一个最近提出的称作变分贝叶斯最小平方(Variational BayesLeast Square，VBLS)回归(Ting、D'Souza、Vijayakumar以及Schaal，2010)的算法来解决。也就是说，该算法在高维度回归问题中允许进行有效的学习和特征选择，同时避免使用昂贵的且数字上脆弱的矩阵求逆。VBLS添加了一系列可以被看作噪声、因子b_j·x_ij的伪目标的非观察随机变量z_ij，并且其和∑_jz_ij是对y_i的估计。进而，权重b_j被建模为随机变量，从而允许进行自动特征检测，即，如果各x_ij与y_i之间不存在相关性，则b_j的平均值快速收敛到零。

VBLS使用具有后验分布的变分近似的预期最大化(Expectation Maximization)算法的变体来估算非观察变量z_i和b的分布。，其在分析上是不易处理的。由于它是完全的贝叶斯方法，因此除了隐藏参数的初始(在先)分布之外，VBLS不需要任何参数化，这些隐藏参数以不提供信息的方式来设置，即，具有导致平坦分布的很大的方差。

当估算x_i与M_i之间的映射时的另一关键问题在于它们的关系可能是非线性的。即使在该情形中，也可以使用来自诸如VBLS之类的线性回归的工具：不是执行原始数据x与M_i之间的映射，而是可以通过利用输入数据的非线性变换来扩展输入空间从而增加输入空间的维度。这些变换可以被称为特征，并且被标注为f_j(x)。这些特征f_j(x)可以是一维或多维x的非线性函数。下面是一些示例：

f_i(x)＝x_i

f_d+1(x)＝x₁·x₂

f_d+2(x)＝exp(x₁)

f_d+3(x)＝x₁ ³

f_d+4(x)＝log(x₁)

在该上下文中，可以按照如下公式来重写线性回归：

(公式4)M_i＝F(x_i)＝∑_jb_jf_j(x_i)+εfor j＝1，2，...

然而，该方法带来一个关键挑战：存在无限的可能的特征f_j(x)。因而，即使VBLS具有以有效的方式来执行特征选择的能力，但探求该组无限大的特征的问题尚待解决。另外，当仅考虑输入维度的简单组合时(例如，f₁(x)＝x₁·x₂，f₂(x)＝x₁ ²·x₂或f₃(x)＝x₁·x₂ ²)，不能保证能够构建准确的映射F(x_i)，因为可能需要合并x的非整数幂(平方根，等)或诸如exp(.)、log(.)之类的更复杂的函数、或者甚至是三角函数(例如，sin(.)、cos(.)等)。特征“类型”的“目录”需要以或多或少智能的方式来探求，以使得能够构建最精确的映射F(x_i)。针对该问题的解决方案从基于专家知识的人工特征选择到对使用元启发式的解空间的自动探求而变化。

目前，技术包括：1)静态配置一组相关的网络属性，以在LLN的情形中使用具有简单网络管理协议(SNMP)或CoAP的管理信息库(MIB)进行监控，从而监控网络行为和性能(例如，路由、链路负荷)；2)取回NMS上的所有信息；3)分析一个或多个具体网络性能度量(被称为M_i)(例如，服务质量(QoS)或节点n_i加入网络的时间)；以及4)(例如，基于3)找到感兴趣的M_i的度量和n_i的属性(标注为x_i)之间的关联。换言之，当前的技术使用集中式方法来执行网络监控和疑难排除，从而根据一组所监控的数据(路由树、链路可靠性等)构建一模型来估计性能度量(例如，路径延迟)。

几年以前，4)通过网络专家来人工执行。随着现有网络的复杂性的增加，需要使用各种技术(分析学)来处理大范围的x_i并且执行给定的一组x_i和M_i之间的关联。需要这样的关联，以建立网络性能度量模型，并且确定M_i是正常的还是异常的，从而得到根本原因分析。应当注意，根本原因分析是监控、疑难排除以及配置复杂网络中主要的挑战之一。

不幸的是，上面所描述的方法对于LLN不合适；实际上，相关网络属性的数目非常大，从而使得静态方法难以实现，并且包括取回所有可能的x_i的“蛮力”方法是不可能的，因为在LLN/IoT中的NMS以及端节点之间在所有层处可用的带宽非常有限。这使得当前的模型不仅对于LLN而言不合适，而且根本普遍不可用。因此，可以观察到，在目前开发的LLN(例如，如图6所示，其示出了网络100的替代视图)中，由NMS取回非常有限的数目的x_i，从而使得网络的管理不可能进行(在监控、疑难排除、甚至配置方面)。

因此，本文的技术提出了依赖于分布式学习机器(被称为LM_d：学习机器分布)的分布式架构，该分布式学习机器被托管(host)于位于LLN与现场区域网络之间的边缘处的LBR/FAR上以使用经修改的精确的线性回归函数F(f₁(x_i),…,f_m(x_i))建立M_i的模型，其中，f_j(x_i)是被称为“特征”的用来建立回归函数F的非线性函数。应当注意，出于说明的目的，M是诸如路径延迟之类的服务质量(被称为Q)，但本文的技术可以应用于各种其他度量，例如，节点加入网状网的时间、PAN迁移频率等。

换言之，本文的技术使用由NMS驱动的分布式方法，包括使用由现场区域路由器(FAR)托管的分布式学习机器，FAR一旦接到感兴趣的网络性能度量的通知，则本地拦截一组网络属性，从而建立回归函数并且检测异常。本文的技术包括1)NMS与学习机器(LM)之间进行合作交互以随着一组所监控的网络属性(x_i)一起向LM通知感兴趣的度量M_i，2)由LM拦截这组x_i和度量M_i以建立回归函数F和对VBLS算法进行新型修改从而动态计算一组最优特征f()，3)用于引导对M_i的寻找以最大化所获得的信息的技术，4)用于基于VBLS提供的置信度区间来检测异常的技术，以及5)向NMS报告所检测的异常。一般地，对于操作，参照图7A-图7C。

说明性地，本文所描述的技术例如可以根据学习机器处理248通过硬件、软件和/或固件来执行，其中，学习机器处理248可以包含由处理器220(或接口210的独立处理器)运行的计算机可执行指令以(例如，可选地与其他处理结合)执行与本文所描述的技术有关的功能。例如，本文的技术的某些方面可以被作为对常规协议的扩展，例如，对各种通信协议(例如，路由处理244)的扩展，由此，本文的技术的某些方面可以由本领域所理解的运行那些协议的类似组件来处理。另外，尽管本文的技术的某些方面可以从单个节点/设备的角度进行描述，但本文所描述的实施例可以被执行为分布式智能，还可以被称为边缘/分布式计算，例如，除了或代替在服务器150内托管智能，还可以在现场区域网络的节点110内托管智能。

操作上，本文的技术的第一部分与托管于LBR(例如，现场区域路由器)上的分布式学习机器(LM_d)与NMS之间的交互有关。终端用户执行的一个任务包括配置一组使用CoAP协议来监控的网络属性。各种技术可以被用来最小化针对网络监控所生成的流量，以使得NMS将网络属性值x_i(链路负荷、链路质量、路由参数等)填入其数据库。第二参数是感兴趣的网络性能M(例如，QoS、加入时间、PAN迁移等)，即M_i。

本文的技术规定了由NMS用来传输一组x_i和M_i二者的新型单播IPv6消息；与当前的方法不同，当接收到该组x_i和M_i时，这组x_i由LM_d拦截，从而减少了LBR与NMS之间的整体控制平面和的网络管理流量，因为网络属性被LM_d有效消耗。

本发明的第二部分是上面所简要描述的对VBLS算法进行修改。如已经指出的，为了建立检测异常所需的回归函数F，LM_d需要确定相关特征f_j(x)的列表L_rel。首先，利用d个基本线性特征f_j(x)＝x_j,j＝1,…,d以及一些非线性特征来填充L_rel，其中，这些非线性特征包括对原始输入数据的两种类型的变换：(1)输入维度的各种组合的乘积(例如，f(x)＝x₁·x₂或f(x)＝x₁·x₃)或(2)原始输入的非线性函数(例如，f(x)＝exp(x₁)或者f(x)＝sinc(x₁))。原则上，还可以允许将这些变换混合(例如，f(x)＝exp(x₁·x₂))，或者还包括对输入维度的线性组合的非线性变换(例如，f(x)＝exp(x₁+x₂))。然而，出于最实际的目的，前两个选项就足够了(并且其可以允许显著减小搜索空间)。为了生成这些特征，本文的技术使用特征构建(FC)算法，该算法以随机的方式来构建新的特征，但尝试较低复杂度(即，涉及较少项)的偏好特征。下面将详细地对该算法进行描述。

一旦确定了特征列表L_rel＝[f₁(x),…,f_d(x)]，则可以将其用作线性回归算法的输入，以确定F(x)。应当注意，d通常很大(大约几千维度或几千个特征的量级)，并且许多特征可能共线，从而排除了对常规的线性回归策略(例如，OLS)的使用。而且，本文的技术旨在于确定哪些特征与M_i的预测不相关，以将其从L_rel中移除，并且添加到黑名单L_irr中(作为不相关)。FC算法将使用L_irr来限制其在之后的迭代中的搜索空间。如先前所述，本文的技术可以使用VBLS算法来处理很高维度的输入空间以及多个共线维度的存在二者(尤其是提供对每一维度的关联性的估计)。

FC算法是随机搜索算法，该算法尝试基于基本输入维度x₁,…,x_d来构建随机非线性特征。

具体地，某一特征可以被表示为树，该树的内部节点是运算符并且外部节点(也被称为叶子)是常数值或输入维度x₁,…,x_d(参见图8)。运算符是从用户定义的目录(该用户定义的目录是从NMS获取的)中随机选出的，并且它们可以是一元的(如sin()、sinc()、exp()等非线性函数)或二元的(加法、减法、乘法、除法等)。本文的技术通过使用分层方法来随机生成特征，在该分层方法中，树由单个内部节点组成，而叶子可以是其他树。不论何时必须生成新的特征，本文的技术随机地挑选一运算符(可能对简单的运算符(例如，乘法)具有一些偏好)并且从如下之一随机选择操作数：(1)L_rel，具有与其关联性b_i成比例的可能性，或者(2)随机生成的运算符。

FC算法维护候选解列表[S₁,…,S_N]。每个候选解S_i是利用上面构建的特征F_i列表进行操作的VBLS实例。所有的候选解可以用相同的原始输入数据进行训练，但每一个候选解使用不同组的特征。当创建候选解时，其所有特征被添加到L_rel。在每次迭代时，其关联性(即，由VBLS计算的值b_i)被更新并且最不相关的特征被定期从L_rel中删除。

以定期(用户定义的)间隔计算每一S_i的适合性(即，表示S_i的质量的分数)。通常，本文的技术使用纯粹线性模型所产生的MSE与由S_i按照适合性所产生的MSE之间的比率。然后，候选解以与其适合性成反比的概率被(上述生成的)新的解随机替换。可选地，可以使用所谓的“精英(elitist)”方案，在该方案中，从不替换最佳方案。使用这一迭代方法，本文的技术在(通过(1)重复使用来自L_rel的最相关的特征以及(2)使用优胜劣汰策略)关注有前景的解的同时(通过构建随机非线性特征)探求解空间。

图9中大体示出的整体方法使用了具有增强和修改的常规的协同进化方法。实际上，不是尝试使整个回归函数进化，而是本文的技术将问题划分为函数的进化及其建立块(特征)。由于本文的技术依赖于用于确定后者的最佳权重的VBLS，因此这些技术与原始的方法相比，能够实现搜索空间的重大减小。首先，该算法简单地查找特征的最佳组合，并且VBLS起到确定其关联性的作用。第二，显然地，由于建立块比整个回归函数简单，因此相应的搜索空间明显较小。

本文的技术的第三部分是用于以近似最优的方式来引导对M_i的寻找的策略。本文的技术有助于FC算法区分各个候选解S₁,…,S_N。具体地，为此，这些技术寻找针对所有候选解之间的M_i的预测产生最大散度的那些节点n_j。更具体地，对于具有x_j给出的属性的每个节点n_j，这些技术计算由针对每个候选解S₁,…,S_N的M的估计组成的向量M_i＝[Mⁱ ₁,…,Mⁱ _N]及其方差σ_i(可选地，这些技术可以计算将考虑每个候选的适合性的加权方差)。待寻找的下一节点是将该方差最大化的节点，因为期望证明尽可能多的模型错误，从而加速选择处理。

本文的技术的第四部分是使用所计算的回归函数F的异常检测本身。因为VBLS提供了对估计M_i的置信区间(参见图10)，即，捕捉(100-2·x)％的节点的期望的极值的区间[M_i,x％,M_i,(100-x)％]，可以通过验证任何新测量的度量M_i确实在该区间之内来较为容易地实现异常检测。

本文的技术的第五部分是对由FAR的LM_d发送至NMS的新定义的IPv6消息的规定，从而提供M_i的经计算的回归函数。这一函数然后可以用于NMS上，以可视化各个节点属性与感兴趣的度量M_i之间的关系。例如，可以观察典型的LLN中的跳数与延迟之间的依赖关系，或者该模块可以被用来示出网络中节点的位置和端到端路径可靠性之间的直接依赖关系、或者节点数目对整体延迟或抖动的影响。该信息然后可以由端用户用来计算满足知道其他网络属性的特定SLA的概率(例如，如果QoS(例如，路径延迟)是等级节点、链路质量以及节点类型的函数，则在知道路由拓扑结构的情况下，可以计算将在小于Xms(SLA)内到达的节点数目)。而且，网络管理员能够检测异常，并且采取动作来修复网络中的性能问题。

特别地，图11中示出了该架构的实现方式的概述。该实现方式包括若干个逻辑部分：预处理层(Pre-Processing Layer，PPL)、编排层(Orchestration Layer，OL)以及学习机器(LM)模块本身。

1.预处理层：预处理层存在两个子部分。它们是状态跟踪引擎(State TrackingEngine，STE)和度量计算引擎(Metric Computation Engine，MCE)。

a.STE在FAR上本机地运行。它的责任是跟踪其可见的所有网络元件(端节点和FAR本身)的各种特性(例如，路由分组、DHCP分组、节点加入、双亲变化等)。在示例实现方式中，所有这些状态被存储在文件中并且被周期性地推送到MCE中。STE可以被实现在现有的线程中，并且作为处理分组转发的同一处理的一部分来运行。

b.MCE可以被实现于子板上，并且可以包括通过TCP套接字接收来自STE的所有信息的服务器。所有这些信息然后被推送到数据库中。MCE还计算度量并且利用数据库API从数据库收集所要求的数据。这些度量然后由正在子板上运行的LM算法来使用。MCE可以被写为独立式处理，其一旦通过套接字被接收，则填入数据库。

2.编排层：该部分负责作为加入PPL与LM模块的各个部分的粘合剂。其可以作为新的线程被实现于FAR上，并且其是与STE相同的处理的一部分。OL创建两个套接字，一个与LM模块进行通信，另一个与MCE进行通信。LM的套接字被用来周期性地与LM进行通信。LM通过该套接字发送周期性请求，基于该请求OL可以采取动作。MCE套接字仅用于将信息从STE发送至MCE，以使得数据库能够填入最新度量。

3.学习机器模块：LM模块可以本机地被运行于FAR的子板上。LM模块包括FC算法，FC算法使用某一库来用于随机数生成和线性代数运算。FC算法说明性地维护不断被馈送由MCE计算的数据的VBLS的若干实例。以定期间隔，FC算法针对各个节点n_i来估算其候选解的一致性，并且后续通过其专用套接字来向编排层发送对于QoS寻找的请求。

图12尤其从边界路由器(学习机器、FAR等)的角度，根据本文所描述的一个或多个实施例示出了用于基于学习机器对异常网络性能的检测的示例简化过程1200。过程1200可以开始于步骤1205，并且继续到步骤1210，其中，如上面所详细描述的，边界路由器从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i。因此，在步骤1215中，边界路由器然后可以开始拦截从边界路由器的计算机网络中的节点发送的x_i和M_i(和/或寻找来自针对所有候选解中的M_i的预测产生最大散度的节点n_j的M_i)，如上所述。基于x_i和M_i，边界路由器然后可以在步骤1220中建立回归函数F，并且在步骤1225中可以以上面详述的方式使用回归函数F来检测在所拦截的x_i和M_i中的一个或多个异常。可选地，如上所述，边界路由器可以在步骤1230中向NMS报告一个或多个检测到的异常，和/或可以在步骤1235中向NMS报告回归函数F。过程1200说明性地在步骤1240处结束，但应当注意，具有如下选择：接收更新的x_i和M_i、或者继续拦截x_i和M_i并且检测异常。

特别地，图13根据本文所描述的一个或多个实施例，示出了用于建立回归函数F并且确定用作回归算法的输入的相关特征f_j(x)(即，确定函数F(x))的示例简化过程1300。过程1300可以开始于步骤1305，并且继续至步骤1310，其中，如上面所详细描述的，可以利用特征构建算法来生成多个特征以将多个特征填入一列表，该特征构建算法为常数值或输入维度之一随机地配对运算符。在步骤1315中，通过基于相应特征的基于VBLS的权重来确定特征是否与M_i的预测不相关，在步骤1320中，这些与M_i的预测不相关的特征可以从该列表中移除。说明性过程1300然后可以在步骤1325中结束(但应当注意，能够继续相应地更新该组相关的特征)。

此外，图14尤其从网络管理服务器(NMS)的角度，示出了根据本文所描述的一个或多个实施例的基于学习机器对异常网络性能的检测的示例简化过程1400。过程1400可以开始于步骤1405，并且继续至步骤1410，其中，如上面所详细描述的，NMS确定一组网络属性x_i和网络性能度量M_i，在步骤1415中该组网络属性x_i和网络性能度量M_i可以被发送至计算机网络的边界路由器。因此，在步骤1420中，NMS应当以上面详述的方式，从边界路由器接收被拦截的从计算机网络中的节点发送的x_i和M_i中的一个或多个检测到的异常，这些异常时基于由边界路由器基于x_i和M_i而建立的回归函数F而检测的。可选地，如上所述，在步骤1425中，NMS还可以从边界路由器接收回归函数F。过程1400在步骤1430中结束，应当注意，具有如下选择：更新x_i和M_i和/或接收检测到的异常或更新的回归函数。

应当注意，尽管过程1200-1400中的某些步骤如上所述是可选的，但图12-图14中所示出的步骤仅仅是用于说明的示例，并且可以根据需要包括或排除某些其他步骤。另外，尽管步骤的特定顺序被示出，但该顺序仅仅是说明性的，并且可以在不背离本文的实施例的范围的情况下来使用对步骤的任意合适的安排。而且，尽管过程1200-1400被单独描述，但来自每个过程的某些步骤可以被包括在彼此的过程中，并且这些过程不意为互相排斥。

因此，本文所描述的技术提供了基于学习机器对异常网络性能的检测。具体地，当前用来监控、疑难排除以及配置网络性能的方法需要取回许多网络属性，从而导致不适用于LLN的大量控制流量信息(由于其约束性质(例如，大量设备、属性、有限带宽等))。根据本文的技术，可以建立各种网络度量的模型，并且利用非常有限的控制平面流量以高度可扩展的方式执行异常检测。具体地，本文的技术使得FAR能够对诸如QoS或加入时间之类的节点度量执行预测分析，即，其可以在无需寻找的情况下预测节点的QoS，从而作为针对许多其他高级特征的实现技术。

尽管已经示出并且描述了提供基于学习机器对异常网络性能的检测的说明性实施例，但应当理解，在本文的实施例的精神和范围内，可以做出各种其他的适应和修改。例如，已经针对LLN和相关的协议对实施例进行了描述和示出。然而，这些实施例在其广义上不是限制性的，事实上，可以与其他类型的通信网络和/或协议一起使用。另外，尽管已经针对通信网络的特定情景中的学习机器对实施例进行了描述和示出，但某些技术和/或这些技术的某些方面一般可以在无需涉及通信网络的情况下应用于学习机器，这将被本领域技术人员所理解。

前面的描述针对具体实施例。然而，显而易见的是，可以对所描述的实施例做出其他变化和修改，从而实现其优势中的一些优势或全部优势。例如，应当明确预期，本文所描述的部件和/或元件可以被实现为软件，该软件被存储于具有在计算机、硬件、固件或其组合上运行的程序指令的有形(非暂态)计算机可读介质(例如，盘/CD/RAM/EEPROM/等)。因此，本说明书只通过示例的方式进行，而非以其他方式限制本文的实施例的范围。因此，所附权利要求的目的在于覆盖进入本文的实施例的真正精神和范围内的所有这样的变化或修改。

Claims

1.一种用于计算机网络的方法，包括：

在边界路由器处从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；

拦截从所述边界路由器的计算机网络中的节点i发送的一组x_i和M_i；

基于从所述NMS接收的该组x_i和M_i建立回归函数F；以及

基于所述回归函数F来检测在所拦截的该组x_i和M_i中的一个或多个异常。

2.如权利要求1所述的方法，还包括：

向所述NMS报告一个或多个检测到的异常。

3.如权利要求1所述的方法，还包括：

向所述NMS报告所述回归函数F。

4.如权利要求1所述的方法，其中，建立所述回归函数F包括：

确定用作回归算法的输入的相关特征以确定函数F。

5.如权利要求4所述的方法，其中，确定相关特征包括：

将多个特征填入列表；以及

将与M_i的预测不相关的特征从所述列表中移除。

6.如权利要求5所述的方法，其中，填入包括：

利用特征构建算法生成多个特征，该特征构建算法针对常数值或输入维度中的一个随机地配对运算符。

7.如权利要求5所述的方法，还包括：

基于相应特征的基于变分贝叶斯最小平方(VBLS)的权重来确定特征是否与M_i的预测不相关。

8.一种用于计算机网络的方法，包括：

由网络管理服务器(NMS)确定一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；

将该组网络属性x_i和网络性能度量M_i发送至计算机网络的边界路由器；以及

从所述边界路由器接收被拦截的从所述计算机网络中的节点i发送的一组x_i和M_i中的一个或多个检测到的异常，所述一个或多个检测到的异常是基于由所述边界路由器基于由所述NMS确定的该组x_i和M_i而建立的回归函数F检测的。

9.如权利要求8所述的方法，还包括：

在所述NMS处接收来自所述边界路由器的所述回归函数F。

10.一种用于边界路由器的装置，包括：

一个或多个网连接口，用于与计算机网络进行通信；

处理器，其耦合于所述网络接口并且适用于执行一个或多个指令；以及

存储器，其被配置为存储所述处理器可执行的指令，所述指令当被所述处理器执行时实现以下操作：

从网络管理服务器(NMS)接收一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；

拦截从所述计算机网络中的节点i发送的一组x_i和M_i；

基于从所述NMS接收的该组x_i和M_i建立回归函数F；以及

11.如权利要求10所述的装置，其中，所述指令当被所述处理器执行时还实现以下操作：

向所述NMS报告一个或多个检测到的异常。

12.如权利要求10所述的装置，其中，所述指令当被所述处理器执行时还实现以下操作：

向所述NMS报告所述回归函数F。

13.如权利要求10所述的装置，其中，所述建立所述回归函数F为：

确定用作回归算法的输入的相关特征以确定函数F。

14.如权利要求13所述的装置，其中，所述确定相关特征为：

将多个特征填入列表；以及

将与M_i的预测不相关的特征从所述列表中移除。

15.如权利要求14所述的装置，其中，所述填入为：

16.如权利要求14所述的装置，其中，所述指令当被所述处理器执行时还实现以下操作：

17.一种用于网络管理服务器(NMS)的装置，包括：

一个或多个网连接口，用于与计算机网络的边界路由器进行通信；

确定一组网络属性x_i和网络性能度量M_i，其中x_i是节点i的网络属性，M_i是节点i的网络性能度量；

从所述边界路由器接收被拦截的从所述计算机网络中的节点i发送的一组x_i和M_i中的一个或多个检测到的异常，所述一个或多个检测到的异常是基于由所述边界路由器基于所确定的该组x_i和M_i而建立的回归函数F检测的。

18.如权利要求17所述的装置，其中，所述指令当被所述处理器执行时还实现以下操作：

接收来自所述边界路由器的所述回归函数F。