CN107683597B

CN107683597B - 用于异常检测的网络行为数据收集和分析

Info

Publication number: CN107683597B
Application number: CN201680032330.6A
Authority: CN
Inventors: 纳温德拉·亚达夫; 艾伦·沙伊布; 拉奇塔·阿卡斯迪
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2015-06-04
Filing date: 2016-05-16
Publication date: 2021-08-13
Anticipated expiration: 2036-05-16
Also published as: CN107683597A; WO2016195985A1; US20160359695A1; EP3304813A1

Abstract

在一个实施例中，一种方法包括：在运行于网络设备处的分析模块处接收从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，以从发送到网络组件和从网络组件发送的分组中获得网络流量数据，并且从网络中的多个角度监视网络内的网络流；在分析模块处处理网络流量数据，其中网络流量数据包括进程信息、用户信息和主机信息；并且基于对网络行为的动态建模在分析模块处标识网络流量数据内的异常。本文还公开了装置和逻辑。

Description

用于异常检测的网络行为数据收集和分析

相关申请声明

本申请要求于2015年6月4日提交的名称为“通过网络行为的普遍视角的异常检测(ANOMALY DETECTION WITH PERVASIVE VIEW OF NETWORK BEHAVIOR)”的美国临时申请No.62/171,044的优先权(代理人案号CISCP1283+)。该临时申请的内容通过引用整体合并于此。

技术领域

本公开一般涉及通信网络，并且更具体地，涉及异常检测。

背景技术

大数据被定义为体积如此之大速度如此之高、以至于使用传统的关系数据库工具无法进行经济的处理和分析的数据。通常情况下，机器生成的数据与其它数据源相结合，对企业及其(IT)信息技术组织都构成挑战。随着组织中的数据爆炸性增长，大部分新数据都是非结构化的，企业及其IT组织面临着一系列与可伸缩性、复杂性和安全性有关的特殊问题。

异常检测用于标识不符合预期模式或数据的行为的项目、事件或流量。例如，异常检测系统可以学习正常活动，并对与正常行为相背离的行为采取行动。传统的网络异常检测通常发生在高层级上，而不是基于当大数据实现时的网络流量的综合视角，因此导致了一些限制。

附图说明

图1示出了其中可以实现本文描述的实施例的网络的示例。

图2描绘了用于实现本文描述的实施例的网络设备的示例。

图3示出了根据一个实施例的、用于异常检测的网络行为收集和分析系统。

图4示出了根据一个实施例的图3的系统的细节。

图5是图示根据一个实施例的、利用网络的普遍视角的异常检测的概述的流程图。

图6示出了根据一个实施例的用于异常检测的处理流程。

贯穿附图的多个视图，相应的附图标记表示相应的部件。

具体实施方式

概述

在一个实施例中，一种方法通常包括：在运行于网络设备处的分析模块处接收从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，以从发送到网络组件和从网络组件发送的分组获得网络流量数据，并且从网络中的多个角度监视网络内的网络流；在分析模块处处理网络流量数据，其中网络流量数据包括进程信息、用户信息和主机信息；并且基于对网络行为的动态建模在分析模块处标识网络流量数据内的异常。

在另一实施例中，装置通常包括接口，该接收从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，以从发送到网络组件和从网络组件发送的分组获得网络流量数据，并且从网络中的多个角度监视网络内的网络流；以及用于处理来自分组的网络流量数据的处理器，其中网络流量数据包括进程信息、用户信息和主机信息，并且基于对网络行为的动态建模在网络设备处标识网络流量数据内的异常。

在又一实施例中，逻辑被编码在一种或多种非暂态计算机可读介质上以供执行，并且当被执行时，该逻辑可操作来：处理从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，来从发送到网络组件和从网络组件发送的分组获得网络流量数据，并且从网络中的多个角度监视网络内的网络流，并且基于对网络行为的动态建模来标识网络流量内的异常，其中网络流量数据包括进程信息、用户信息和主机信息。

示例的实施例

以下描述被呈现以使本领域普通技术人员能够制造和使用实施例。具体实施例和应用的描述仅作为示例被提供，并且各种修改对于本领域技术人员将是显而易见的。本文描述的一般原理可以在不背离实施例的范围的情况下应用于其它应用。因此，实施例不限于所示出的那些，而是将被赋予与本文所描述的原理和特征一致的最宽范围。为清楚起见，没有详细描述涉及实施例的技术领域中已知的技术材料的细节。

传统的异常检测发生在高层级上，并且不检查所有的流量。限制包括黑名单而不是白名单的方案、有限的规模(不普及)、没有动态性(反应性防病毒签名和手动设计的逻辑)以及单一的观点。用于检测网络中的恶意行为的常规技术通常从网络中的单个有利位置收集数据，并使用特定(静态)规则或签名来标识当时的可疑行为。由于传统的安全系统是基于特定的规则和签名，因此这些方法不是一般化的，不能标识新颖的但类似的恶意活动。而且，随着越来越多的领域产生看似无休止的数据量，机器学习技术对数据进行分类和理解是至关重要的。

本文描述的实施例针对将机器学习异常检测技术应用于大规模普遍网络行为元数据。例如，可以使用异常检测系统来标识潜在地指示恶意行为的可疑网络活动。例如，标识的异常可用于包括网络取证、决策制定和执行的下游目的。本文描述的实施例(也称为Tetration Analytics)提供了大数据分析平台，其监视所有事物(或几乎所有事物)同时提供普遍的安全性。一个或多个实施例可以提供应用依赖性映射、应用策略定义、策略模拟、非侵入式检测、分布式拒绝服务检测、数据中心广泛可视性和取证、或其任何组合。

如下面详细描述的，使用多个有利位置在整个网络(例如数据中心)收集网络数据。这使用来自每个(或几乎每个)数据分组的元数据提供了网络行为的普遍视角。一个或多个实施例可以从每个(或几乎每个)主机、进程、和用户角度提供可视性。网络元数据被结合到中央大数据分析平台中以供分析。由于有关网络行为的信息是从多个角度捕获的，因此可以将各种数据源关联起来，为数据分析提供强大的信息来源。

关于随时间收集并存储在中央位置的网络行为的全面和普遍的信息使得使用机器学习算法来检测可疑活动成为可能。可以使用建模正常或典型网络行为的多种方案，并且不符合该预期行为的活动可能被标记为可疑并且可能受到调查。机器学习允许基于网络行为的动态建模来标识网络流量内的异常。

现在参考附图，并且首先参考图1，示出了其中可以实现本文描述的实施例的简化网络。这些实施例在包括多个网络设备的数据通信网络的上下文中操作。网络可以包括经由任何数量的节点(该节点辅助网络内数据的传递)(例如，路由器、交换机、网关、控制器、边缘设备、接入设备、汇聚设备、核心节点、中间节点或其它网络设备)进行通信的任何数量的网络设备。节点可以通过一个或多个网络(例如，局域网(LAN)、城域网(MAN)、广域网(WAN)、虚拟专用网络(VPN)、虚拟局域网(VLAN)、无线网络，企业网络，企业网络，互联网、内联网、无线接入网络、公共交换网络或任何其它网络)进行通信。网络流量也可在主校园和远程分支或任何其它网络之间传播。

在图1的示例中，结构10包括多个脊节点12a、12b以及叶节点14a、14b、14c、14d。叶节点14a、14b、14c可以连接到一个或多个端点(主机)16a、16b、16c、16d(例如，托管虚拟机(VM)18的服务器)。叶节点14a、14b、14c、14d分别经由链路20连接到多个脊节点12a、12b。在图1所示的示例中，每个叶节点14a、14b、14c、14d连接到每个脊节点12a、12b，并被配置为路由主机16a、16b、16c、16d和其它网络元件之间的通信。

叶节点14a、14b、14c、14d和主机16a、16b、16c、16d可以经由任何数量的节点或网络进行通信。如图1的示例所示，一个或多个服务器16b、16c可以经由网络28(例如，层2(L2)网络)进行通信。在图1所示的示例中，边界叶节点14d与位于外部网络24(例如，互联网/WAN(广域网))中的边缘设备22(例如，路由器)进行通信。边界叶14d可用于将任何类型的外部网络设备、服务(例如防火墙31)或网络(例如，层3(L3)网络)连接到结构10。

脊节点12a、12b和叶节点14a、14b、14c、14d可以是包括被配置为执行转发功能的网络交换或路由元件的交换机、路由器或其它网络设备(例如，L2、L3或L2/L3设备)。叶节点14a、14b、14c、14d可以包括例如为主机16a、16b、16c、16d、虚拟机18或其它设备或外部网络(例如，网络24)提供连接性的访问端口(或非结构端口)，以及为脊交换机12a、12b提供上行链路的结构端口。

例如，叶节点14a、14b、14c、14d可以作为交换元件(例如机架顶部(ToR)交换机)或任何其它网络元件来实现。叶节点14a、14b、14c、14d还可以包括行末或行中间拓扑或任何其它拓扑中的聚合交换机。叶节点14a、14b、14c、14d可以位于网络结构10的边缘，并因此表示物理网络边缘。一个或多个叶节点14a、14b、14c、14d可将端点组(EGP)连接到网络结构10、内部网络(例如，网络28)或任何外部网络(例如，网络24)。例如，EPG可以用于将应用映射到网络。

端点16a、16b、16c、16d可以经由叶节点14a、14b、14c连接到网络结构10。在图1所示的示例中，端点16a和16d分别直接连接到叶节点14a和14c，该叶节点14a和14c可以将主机连接到网络结构10或任何其它叶节点。端点16b和16c经由L2网络28连接到叶节点14b。端点16b、16c和L2网络28可以定义LAN(局域网)。LAN可以通过位于相同的一般物理位置(例如，建筑物或校园)的专用通信链路与节点相连接。

WAN(广域网)24可以经由L3网络(未示出)连接到叶节点14d。WAN 24可以通过长距离通信链路(例如，公共载波电话线路、光路径、同步光纤网络(SONET)或同步数字体系(SDH)链路)连接地理上分散的节点。互联网是连接不同网络并提供各种网络节点之间全球通信的WAN的示例。节点可以通过根据预定的协议(例如，传输控制协议(TCP)/互联网协议(IP))交换离散的帧或数据分组来通过网络进行通信。

一个或多个端点可以在其上实例化有一个或多个虚拟交换机(未示出)用于与一个或多个虚拟机18的通信。如端点16d所示，可以在被安装在服务器上的管理程序19之上的每个物理服务器上创建和运行虚拟交换机和虚拟机18。为便于说明，仅在端点16d上示出了管理程序19，但应当理解，其上安装有虚拟机18的其它端点中的一个或多个端点也可以包括管理程序。而且，一个或多个端点可以包括虚拟交换机。虚拟机18被配置为与其它虚拟机交换通信。网络可以包括托管任意数量的虚拟机18的任何数量的物理服务器。主机还可以包括没有虚拟机的刀片/物理服务器(例如，图1中的主机16c)。

本文使用的术语“主机”或“端点”可以指物理设备(例如，服务器，端点16a、16b、16c、16d)或者虚拟元件(例如，虚拟机18)。端点可以包括任何通信设备或组件，例如计算机、服务器、管理程序、虚拟机、容器，(例如，运行在虚拟机上的)进程、交换机、路由器、网关、主机、设备，外部网络等。

一个或多个网络设备可以配置有将覆盖网络(未示出)与网络结构10连接的虚拟隧道端点(VTEP)功能。覆盖网络可以允许在物理网络基础设施上创建和分层虚拟网络。

实施例包括网络行为数据收集和分析系统，其包括分布在整个网络中的多个传感器26、收集器32和分析模块30。数据监视和收集系统可以与现有的交换硬件和软件集成，并且例如在以应用为中心的基础设施(ACI)内运行。

在某些实施例中，传感器26位于整个网络中的组件处从而监测所有的分组。例如，传感器26可以被用于收集遍历网络(例如，东-西、南-北)的每个分组的元数据。传感器26可以安装在网络组件中，以从在网络组件处发送的和从网络组件接收的分组中获得网络流量数据，并监视网络内的所有网络流。本文使用的术语“组件”可以指网络的组件(例如，进程、模块、片、刀片、服务器、管理程序、机器、虚拟机、交换机、路由器、网关等)。

在一些实施例中，传感器26位于每个网络组件处以允许在数据传输的每一跳处的粒度分组统计和数据。在其它实施例中，传感器26可以不安装在网络的所有组件或部件中(例如，共享主机环境，在该共享主机环境中客户具有对一些虚拟机18的排他控制)。

传感器26可驻留在数据中心网络(例如，虚拟分区、管理程序、物理服务器、交换机、路由器、网关或任何其它网络设备)的节点上。在图1所示的示例中，传感器26位于服务器16c、虚拟机18、管理程序19，、叶节点14a、14b、14c、14d和防火墙31。传感器26还可以位于一个或多个脊节点12a、12b或介于网络元件之间。

网络设备(例如，端点16a、16b、16d)可以包括在设备内的各种组件(例如，虚拟机、管理程序、主机)上运行的多个传感器26，从而监视所有分组(例如，来自和去往组件的分组37a，37b)。例如，图1的示例中的网络设备16d包括驻留在管理程序19上的、以及运行在主机上的虚拟机18的传感器26。

在整个网络中的组件处的传感器26的安装允许分析去往和来自ACI内的分组的路径上的每个点的网络流量数据。该分层的传感器结构提供对发送数据的组件(即，虚拟机、管理程序、交换机)和数据被发送的时间的标识，以及在网络中每个点发送和接收的数据分组的特性。这也允许确定哪个特定过程和虚拟机18与网络流相关联。为了做出该确定，运行在与流相关联的虚拟机18上的传感器26可以分析来自虚拟机的流量以及在虚拟机上运行的所有进程；并且基于来自虚拟机的流量以及在虚拟机上运行的进程，传感器26可以提取流并且处理信息以具体确定虚拟机中的哪个进程负责该流。传感器26还可以提取用户信息从而标识哪个用户和进程与特定流相关联。在一个示例中，传感器26随后可以标记进程和用户信息并将其发送到收集器32，该收集器32为各种传感器26在虚拟机18、管理程序19以及交换机14a、14b、14c、14d中收集统计和分析数据。

如先前所述，传感器26被定位以标识整个系统中传输的分组和网络流。例如，如果运行在主机16d上的多个VM 18中的一个从互联网24接收分组37a，则它可以经过路由器22、防火墙31、交换机14d、14c、管理程序19以及该VM。由于这些组件中的每一个包含传感器26，因此分组37a将被标识并报告给收集器32。在另一示例中，如果分组37b从在主机16d上运行的VM 18发送到在主机16a上运行的VM 18，则沿包括VM 18、管理程序19、叶节点14c、叶节点14a和节点16a处的VM的数据路线所安装的传感器将从分组收集元数据。

传感器26可用于收集包括但不限于包括来自每个(或几乎每个)分组的元数据的网络信息、进程信息、用户信息、虚拟机信息、租户信息、网络拓扑信息、或基于从数据路径上被发送的每个数据分组收集的数据的其它信息。网络流量数据可以与分组、分组的集合、流量、流量组等相关联。网络流量数据可以包括例如VM ID、传感器ID、关联的进程ID、关联的进程名称、进程用户名称、传感器私钥、传感器的地理位置、环境细节等等。网络流量数据还可以包括描述OSI(开放系统互连)模型的所有层上的通信的信息。例如，网络流量数据还可以包括信号强度(如果适用)、源/目的地MAC(介质访问控制)地址、源/目的地IP(互联网协议)地址、协议、端口号、加密数据、请求过程、采样分组等等。在一个或多个实施例中，传感器26可以被配置为仅捕获代表性的分组样本。

系统还可以收集网络性能数据，该数据可以包括例如特定于由网络设备发起的文件传输的信息、交换的电子邮件、重传的文件、注册表访问、文件访问、网络故障、组件故障等。也可以收集诸如带宽、吞吐量、延迟、抖动、错误率等之类的其它数据。

由于传感器26位于整个网络中，因此使用多个有利点(即，从网络中的多个角度)来收集数据以提供网络行为的普遍视角。从多个角度捕获网络行为信息，而不仅仅是位于数据路径中或与数据路径中的组件通信的单个传感器，允许了来自各种数据源的数据相互关联，从而为数据分析和异常检测提供有用的信息源。例如，向收集器32提供数据的多个传感器26可以提供来自各种网络视角(视角V1、视角V2、视角V3等)的信息，如图1所示。

传感器26可以包括例如(例如，运行在虚拟机、容器、虚拟交换机、管理程序、物理服务器或其它设备上的)软件，专用集成电路(ASIC)(例如，交换机的组件、网关、路由器、独立分组监视器、PCAP(数据分组捕获)模块)，或其它设备。传感器26还可以在操作系统(例如，Linux、Windows)或裸机环境下操作。在一个示例中，ASIC可以用于提供10毫秒到1000毫秒(或更多或更少)的输出间隔，并且软件可以用于提供大约1秒(或更多或更少)的输出间隔。传感器26可以是轻量级的，因此对数据中心中的正常流量和计算资源影响最小。传感器26可以例如嗅探通过其主机网络接口卡(NIC)发送的分组，或者单独的进程可以被配置为将流量报告给传感器。传感器执行可以包括例如硬件、ACI/独立、软件、IP表、Windows过滤平台等。

当传感器26捕获通信时，它们可以不断地将网络流量数据发送到收集器32用于存储。传感器26可将其记录发送到一个或多个收集器32。在一个示例中，传感器可以被分配主要和次要收集器32。在另一示例中，传感器26可以通过发现进程来确定最佳收集器32。

在某些实施例中，传感器26可以在将网络流量数据发送到收集器32之前对其进行预处理。例如，传感器26可以移除无关或重复的数据或创建数据的摘要(例如，等待时间、数据分组、每个流发送的字节、标记的异常活动等)。收集器32可以用作系统的网络存储器，或收集器可以组织、总结和预处理数据。例如，收集器32可以将数据进行制表、对流量流进行表征、将分组进行匹配，以标识流量流和连接链路，或标记异常数据。收集器32还可以根据各个时间段合并网络流量数据。

在收集器32处收集的信息可以包括例如网络信息(例如，来自东-西和南-北的每个分组的元数据)，处理信息，用户信息(例如，用户标识(ID)、用户组、用户凭证)，虚拟机信息(例如，VM ID、处理能力、位置、状态)，租户信息(例如，访问控制列表)，网络拓扑等。收集的数据还可以包括描述分组流信息的分组流数据，或者该收集的数据可以从分组流信息中导出，分组流信息可以包括例如流量相关的所有分组所共有的五元组或其它值集合(例如，源地址、目的地址、源端口、目的端口和协议值，或者这些或其它标识符的任何组合)。收集器32可以利用可具有各种格式或模式的各种类型的数据库结构和存储器。

在一些实施例中，收集器32可以直接连接到架顶式交换机(例如，叶节点)。在其它实施例中，收集器32可以位于行末端交换机附近。在某些实施例中，叶节点14a、14b、14c、14d中的一个或多个可以各自具有关联的收集器32。例如，如果叶节点是架顶式交换机，则每个机架可以包含分配的收集器32。系统可以包括任何数量的收集器32(例如，一个或多个)。

分析模块30被配置为接收和处理由收集器32收集的并由位于整个网络上的节点上的传感器26检测到的网络流量数据。分析模块30可以是例如独立的网络装备，或者实现为可以分布到VM、VM集群、软件即服务(SaaS)或其它合适的分布模型的VM映像。分析模块30也可以位于端点或其它网络设备中的一个处，或者分布在一个或多个网络设备中。

在某些实施例中，分析模块30可以在主动-备用模型中实现，以确保高可用性，其中，第一分析模块起主要作用并且第二分析模块起次要作用。如果第一分析模块发生故障，则第二分析模块可以接管控制。

如图1所示，分析模块30包括异常检测器34。异常检测器34可以在可操作以进行以下内容的任何计算机或网络设备(例如，服务器、控制器、设备、管理站或其它处理设备或网络元件)处操作：接收网络性能数据并基于所接收的信息标识其中异常地偏离了其它特征的特征。例如，异常检测模块34可以通过对于在发生安全违规之前发生的行为和事件进行监视和分析，来了解是什么导致安全违规，从而防止将来发生这样的事件。

计算机网络可能暴露于各种不同的攻击，其暴露计算机系统的脆弱性从而危害其安全。例如，在网络上发送的网络流量可能与恶意程序或设备相关联。异常检测模块34可以被提供有对应于攻击的网络状态、和对应于正常操作的网络状态的示例。随后，异常检测模块34可以分析网络流量数据以识别网络何时受到攻击。在一些示例实施例中，网络可以在可信任环境内操作一段时间，使得异常检测器34可以建立基准常态。分析模块30可以包括数据库或各种组件的规范和期望。数据库可以包括来自外部源的数据。在某些实施例中，分析模块30可以使用机器学习技术来使用异常检测模块34标识对网络的安全威胁。由于恶意软件在不断发展和变化，机器学习可以被用来动态更新用于标识恶意流量模式的模型。机器学习算法用于基于对网络行为的动态建模提供网络流量内的异常的标识。

异常检测模块34可用于标识与数据集中的其它示例不同的观察。例如，如果存在具有已知异常标签的示例数据的训练集合，则可以使用监督式异常检测技术。监督式异常检测技术利用已被标记为“正常”和“异常”的数据集，并且训练分类器。在不确定训练数据中的示例是否是异常值的情况下，可以使用无监督的异常技术。无监督的异常检测技术可以用于在通过查找看似适合数据集的其余部分的实例而假设数据集中的大多数实例是正常的情况下，来检测未标记的测试数据集中的异常

在一个实施例中，基于机器学习的网络异常检测可以基于蜜罐(honeypot)35的使用。蜜罐35可以是其中没有期望的网络流量与其相关联的虚拟机(VM)。例如，蜜罐35可以在没有合法的目的情况下被添加到网络中。因此，根据定义，任何观察到的与此虚拟机相关的流量都是可疑的。为了简化，图1的网络中仅示出了一个蜜罐35，然而网络可以在网络内各个位置处包括任意数量的蜜罐。下面进一步描述具有蜜罐35的基于机器学习的异常检测的示例。如下所述，蜜罐35可以用于收集标记的恶意网络流量，以用作对无监督和监督式机器学习技术的输入。

下面参考图3进一步描述，在某些实施例中，分析模块30可以使用应用依赖性模块来确定网络内的组件的依赖性。例如，如果第一组件常规地将数据发送到第二组件而第二组件不从第二组件发送数据到第一组件，则分析模块30可以确定第二组件依赖于第一组件，但是第一组件可能不依赖于第二组件。但是，如果第二组件也向第一组件发送数据，则它们可能是相互依赖的。这些组件可能是进程、虚拟机、管理程序、VLAN等。一旦分析模块30确定了组件依赖性，就其可以形成组件(应用)依赖性映射。当分析模块30试图确定故障的根本原因(例如，一个组件的故障可能级联并引起其相关组件的故障)时，该映射可能是有启发性的。当试图当预测组件脱机时会发生什么情况时，该映射还可以帮助分析模块30。

分析模块30可以建立组件行为的模式和规范。例如，它可以确定某些进程(正常运行时)将仅使用一小组端口向特定VM发送一定数量的流量。分析模块30可以通过分析各个组件或者通过分析来自类似组件(例如，具有类似配置的VM)的数据来建立这些规范。类似地，分析模块30可以确定网络操作的期望。例如，它可以确定两个组件之间的预期延迟、组件的预期吞吐量、组件的响应时间、典型的数据分组大小、流量签名等。分析模块30可以将其依赖性映射与模式分析组合以产生反应预期。例如，如果流量对于一个组件增加，作为响应，其它组件可以预测地增加流量(或等待时间、计算时间等)。

分析模块30还可以用于解决策略使用(例如，每个规则的有效程度、规则是否可以被删除)，策略违规(例如，谁违反、违反了什么)，策略遵从性/审计(例如，策略是否被实际应用)，策略“如果(what if)”，策略建议等。在一个实施例中，分析模块30还可以发现应用或选择在其上发现应用的机器，并且随后运行应用依赖性算法。分析模块30随后可以可视化和评估数据，并发布用于模拟的策略。分析模块可以用于探索策略分支(例如，添加白名单)。这些策略随后可以发布给策略控制器，并且实时合规性得以监视。一旦策略发布，即可生成实时合规性报告。这些可用于选择应用相关性目标和辅助信息。

应当理解，图1中示出的以及上面描述的网络设备和拓扑仅仅是示例，并且本文描述的实施例可以在不超出实施例的范围的情况下，在包括不同网络拓扑或网络设备的网络中实现，或者使用不同的协议实现。例如，虽然网络结构10在本文中被图示和描述为叶脊结构，但是实施例可以基于任何网络拓扑来实现，包括任何数据中心或云网络结构。本文描述的实施例可以例如在包括三层(例如，核心、聚集和访问级别)、胖树、网格、总线、集线器和辐条等的其它拓扑中实现。根据各种架构，传感器26和收集器32可以适当地放置在整个网络中。网络可以包括辅助数据通过网络的任何数量和类型的网络设备(例如，路由器、交换机、网关、控制器、设备)、操作为端点或主机(例如，服务器、虚拟机、客户端)的网络元件、和与任何数量的网络的通信中的任何数量的网络站或域。

此外，图1中示出的以及上面描述的拓扑结构易于扩展，并且可以容纳大量的组件以及更复杂的布置和配置。例如，网络可以包括可以是地理上分散的或位于相同的地理区域中的任何数量的结构10。因此，网络节点可以被用于任何合适的网络拓扑结构中，该网络拓扑结构可以包括互连以形成大而复杂的网络的任意数量的服务器、虚拟机、交换机、路由器、设备、控制器、网关或其它节点，该网络可以包括云或雾计算。节点可以通过采用任何合适的有线或无线连接的一个或多个接口耦接到其它节点或网络，这提供了电子通信的可行路径。

图2示出了可以用来实现本文描述的实施例的网络设备40的示例。在一个实施例中，网络设备40是可以以硬件、软件或其任何组合来实现的可编程机器。网络设备40包括一个或多个处理器42、存储器44、网络接口46和分析/异常检测模块48(图1中所示的分析模块30、异常检测器34)。

存储器44可以是存储供处理器42执行和使用的各种应用、操作系统、模块和数据的易失性存储器或非易失性存储器。例如，分析/异常检测组件(例如，模块、代码、逻辑、软件、固件等)可被存储在存储器44中。设备可以包括任何数量的存储器组件。

逻辑可被编码在一个或多个有形介质中以供处理器42执行。例如，处理器42可以执行存储在诸如存储器44之类的计算机可读介质中的代码，以执行下面关于图5和6描述的过程。计算机可读介质可以是，例如电子(例如，RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程只读存储器))、磁、光学(例如CD，DVD)、电磁、半导体技术或任何其它合适的介质。网络设备可以包括任何数量的处理器42。在一个示例中，计算机可读介质包括非暂态计算机可读介质。

网络接口46可以包括用于接收数据或将数据发送到其它设备的任何数量的接口(线卡、端口)。网络接口46可以包括例如用于连接到计算机或网络的以太网接口。如图1所示以及上面所描述的，接口46可以被配置为接收从分布在整个网络中的多个传感器26收集的流量数据。网络接口46可以被配置为使用各种不同的通信协议传送或接收数据。接口可以包括用于通过耦接到网络的物理链路传送数据的机械、电气和信令电路。网络设备40还可以包括任何数量的输入或输出设备。

应当理解，图2中示出的以及上面描述的网络设备40仅仅是示例，并且可以使用网络设备的不同配置。例如，网络装置40可进一步包含可操作以辅助本文所描述的能力的硬件、软件、处理器、装置、组件、模块或元件的任何适合的组合。

图3示出根据一个实施例的网络行为数据收集和分析系统的示例。系统可以包括以上参照图1描述的传感器26、收集器32和分析模块(引擎)30。在图3所示的示例中，系统还包括外部数据源50、策略引擎52和呈现模块54。分析模块30通过收集器32和从外部数据源50接收来自传感器26的输入，同时还与策略引擎52进行交互，该策略引擎52可以从网络/安全策略控制器(未示出)接收输入。例如，分析模块30可以经由呈现模块54(例如，经由拉取或推送通知)向用户界面或第三方工具提供输入。

在一个实施例中，传感器26可以由配置和图像管理器55提供和维护。例如，当新的虚拟机18被实例化或当现有的VM迁移时，配置管理器55可以在VM上提供和配置新的传感器26(图1和3)。

如先前所述，传感器26可驻留在数据中心网络的节点上。一个或多个传感器26可以包括例如软件，例如运行(驻留)在虚拟分区上的软件(其可以是VM(VM传感器26a)的实例)、管理程序(管理程序传感器26b)、沙箱、容器(容器传感器26c)、虚拟交换机、物理服务器或任何在其中运行软件的其它环境。传感器26还可以包括专用集成电路(ASIC)(ASIC传感器26d)(例如，交换机、网关、路由器、独立分组监视器或包括分组捕获(PCAP)模块(PCAP传感器26e)或类似技术的其他网络设备的组件)、或独立单元(例如，连接到网络设备的监视端口的设备，或者沿数据中心的主干(链路、路径)串联连接的设备)。

传感器26可以通过高速连接将它们的记录发送到一个或多个收集器32以进行存储。在某些实施例中，一个或多个收集器32可以从外部数据源50(例如，白名单50a、IP监视列表50b、Whois数据50c或带外数据)接收数据。在一个或多个实施例中，系统可以包括收集器32和分析模块30之间的宽带宽连接。

如上所述，分析模块30包括异常检测模块34，该异常检测模块34可以使用机器学习技术来标识对网络的安全威胁。异常检测模块34可以包括对应于攻击的网络状态和对应于正常操作的网络状态的示例。随后，异常检测模块34可以分析网络流量数据以识别网络何时受到攻击。分析模块30可以存储数据库中的各种组件的规范和期望，其也可以合并来自外部源50的数据。随后，分析模块30可以创建关于组件如何使用策略引擎52进行交互的访问策略。还可以在系统外部建立策略，并且策略引擎52可以将它们并入到分析模块30中。

呈现模块54为系统提供外部接口，并且可以包括例如服务层54a、认证模块54b、web前端和UI(用户接口)54c、公共警报模块54d和第三方工具54e。呈现模块54可以预处理、汇总、过滤或组织数据以用于外部呈现。

服务层54a可以作为呈现模块54和分析模块30之间的接口来操作。呈现模块54可以用于生成网页。web前端54c可以例如与服务层54a连接，以在包括条形图、核心图、树形图、非循环依赖图、线图、表格等的网页中呈现来自服务层的数据。

公共警报模块54d可以使用通过分析模块30生成或可通过分析模块30访问的分析数据，并标识满足指定标准的网络条件并将警报推送到第三方工具54e。第三方工具54e的一个示例是安全的信息和事件管理(SIEM)系统。第三方工具54e可以通过API(应用编程接口)从服务层54a检索信息，并且例如根据SIEM的用户界面呈现信息。

图4图示了根据一个实施例的、图3中所示的网络行为数据收集和分析系统的数据处理架构的示例。如前所述，系统包括配置/图像管理器55，其可以用于配置或管理向一个或多个收集器32提供数据的传感器26。数据移动器60将来自收集器32的数据传输到一个或多个处理引擎64。处理引擎64还可以接收带外数据50或APIC(应用策略基础设施控制器)通知62。数据可以在数据湖(data lake)或其它存储库处被接收和处理。数据湖可以被配置为例如存储275Tb(Tbyte)(或更多或更少)的原始数据。系统可以包括任何数量的引擎，包括例如用于标识流的引擎(流引擎64a)或用于标识攻击(包括DDoS(分布式拒绝服务))的引擎(攻击引擎64b、DDoS引擎64c)。系统还可以包括搜索引擎64d和策略引擎64e。搜索引擎64d可以被配置为例如执行结构化搜索、NLP(自然语言处理)搜索、或者可视搜索。数据可以从一个或多个处理组件提供给引擎。

处理/计算引擎64还可以包括处理组件64f，其可操作用于例如标识主机特征64g和应用特征64h并且执行应用依赖性映射(ADM 64j)。例如，DDoS引擎64c可以当ADM 64j离线生成模型的同时在线生成模型。在一个实施例中，处理引擎是水平可扩展系统，该系统包括预定义的静态行为规则。计算引擎可以从一个或多个策略/数据处理组件64i接收数据。

流量监视系统还可以包括总体上在66处指示的持久性和API(应用编程接口)部分。系统的该部分可以包括与数据库程序(例如，JDBC(JAVA数据库连接)66e、警报66f、RoR(软件开发(Ruby on Rails))66g)相接口的各种数据库程序和访问协议(例如，Spark、Hive、SQL(结构化查询语言)66a、Kafka 66b、Druid 66c、Mongo 66d)。这些或其它应用可以被用来标识、组织、总结或呈现以供在(总体上在68处指示并且在上文参照图3描述的)用户界面和服务组件处使用的数据。用户接口和服务段68可以包括可以接收来自缓存器68d和认证模块68e的输入的各种接口，包括例如即席查询68a、第三方工具68b和全堆栈web服务器68c。

应当理解，图3和图4中所示以及上面描述的系统和体系结构仅仅是示例，并且在不背离实施例的范围的情况下，系统可以包括以各种配置或架构布置的任何数量或类型的组件(例如，数据库、过程、应用、模块、引擎、接口)。例如，传感器26和收集器32可以属于一个硬件或软件模块或多个单独的模块。其它模块还可以组合成更少的组件或进一步分成更多的组件。

图5是示出根据一个实施例的利用网络行为的普遍视角用于异常检测的过程的概述的流程图。在步骤70，分析模块30接收从分布在整个网络中和定位在网络组件内的多个传感器26收集的网络流量数据，以从被发送到网络组件的分组和从网络组件发送的分组中获得数据，并且从网络中多角度监视网络内的所有网络流(图1和5)。在分析模块处(步骤72)处理收集的网络流量数据。网络流量数据包括进程信息、用户信息和主机信息。基于网络行为的动态建模来标识网络内的异常(步骤74)。例如，可以使用机器学习算法来持续更新正常网络行为的模型，用于标识异常和可能的恶意网络行为。

图6示出根据一个实施例的用于异常检测的处理流程的概述。如上文关于图1描述的，数据在分布在整个网络中的传感器26处被收集，以监视经过网络的所有分组(步骤80)。数据可以包括例如原始流量数据。所收集的数据可以是大数据(即，包括具有不同类型数据的大的数据集合)并且可以是多维的。数据从网络中的多个角度被捕获以提供普遍的网络视角。收集的数据分组包括网络信息、进程信息、用户信息和主机信息。

在一个或多个实施例中，数据源在步骤82处经历清理和处理。在数据清理中，可以应用基于规则的算法，并将已知攻击从数据中移除，用于到异常检测的输入。例如，这可以被用来减少由于已知的恶意活动的密度估计的污染。

在步骤84处标识(派生、生成)数据的特征。收集的数据可以包括任何数量的特征。可以将特征表达为例如矢量、数组、表格、列、图形或任何其它表示。例如，网络元数据特征可以是混合的并且涉及分类、二进制和数字特征。特征分布可能是不规则的，表现出尖锐和(口袋形)稀疏。该规模可能不同、特征可能不是独立的，并可能表现出不规则的关系。本文描述的实施例提供适用于具有这些特征的数据的异常检测系统。如下所述，定义了一种用于标识具有许多特征的多维数据中的网络流量异常的非参数可伸缩方法。

原始特征可以被用来导出合并的信号。例如，从流级数据中，可以为每个流方向计算每个数据分组的平均字节数。也可以计算前向与反向字节比和分组比。此外，正向和反向TCP标志(例如SYN(同步)、PSH(推)、FIN(完成)等)可以被分类为两者均缺失、两者均为零、两者均大于1、仅前向和仅反向。导出的对数变换可能会产生许多数字化(右偏(rightskewed))特征。特征集还可以针对不同的分析水平而导出。

在某些实施例中，离散数字特征(例如，字节计数和分组计数)被放置到不同大小的箱中(步骤86)。可以使用单变量转换点，从而通过观察数据的变化来定义箱的范围。在一个示例中，可以使用统计测试来标识分布中的有意义的转换点。

在一个或多个实施例中，异常检测可以基于时间序列分箱多元特征密度估计的累积概率(步骤88)。在一个示例中，可以为每个分箱特征组合计算密度以提供时间序列分箱特征密度估计。可以使用非参数多变量密度估计来标识异常。多变量密度的估计可以基于离散化特征组合的历史频率来生成。这提供了增强的数据可视性和可理解性，帮助进行异常值调查和取证，并为其它潜在度量、查看、查询和实验输入提供构建块。

随后可以基于具有相等或更小密度的区域的累积概率来计算稀有度(rareness)(步骤90)。可以基于多元小区密度的顺序来确定稀有度。在一个示例中，具有最低密度的分箱特征组合对应于最少见的区域。在一个或多个实施例中，可以将较高的权重分配给更近期观察到的数据，并且基于具有相同或更小密度的区域的累积概率来计算稀有度值。与所有其它观测相比，并不计算每个观察的稀有度值，而是可以基于特定上下文来计算稀有度值。

具有历史上少见的特征组合的新的观察可以被标记为异常，而与通常观察到的特征组合相对应的新观察并不被标记为异常(步骤92)。异常可以包括，例如点异常、上下文异常、集体异常。点异常是相对于其余数据异常的观察。上下文异常相对于特定上下文(或数据子集)是异常的。集体异常是一组关于数据异常的观察。所有这些类型的异常都适用于标识网络数据中的可疑活动。在一个实施例中，使用相同的标识符组的成员来定义上下文异常。

所标识的异常可以用于检测可能指示恶意行为的可疑网络活动(步骤94)。所标识的异常可用于下游目的，包括网络取证、策略制定和执行。例如，可以使用一个或多个实施例来自动生成最佳签名，随后可以将其快速传播以帮助控制恶意软件家族的传播。

应当理解，图5和图6所示以及上面描述的过程仅仅是示例，并且步骤可以在不脱离实施例的范围的情况下被添加、组合、移除或修改。

如上所述，一个或多个实施例可以使用机器学习。机器学习是计算机科学的一个领域，其目标是使用示例观察(训练数据)来开发可用于对新观测进行预测的模型。在一个实施例中，基于机器学习的网络异常检测可以基于蜜罐35的使用(图1)。模型或逻辑不是基于理论，而是基于经验或数据驱动的。蜜罐35可以用于获得被标记的数据以输入到机器学习算法。

如前所述，通过监督式学习，训练数据示例包含感兴趣结果变量的标签。存在示例输入，并且感兴趣的结果变量的值在训练数据中是已知的。监督式学习的目标是学习用于将输入映射到感兴趣结果的方法。随后监督式模型针对新观察对变量的值进行预测。监督式机器学习算法使用带标记的训练数据源。但是，获取已知的恶意网络数据可能是困难的或耗时的。

蜜罐35可以用于获得被标记的数据以输入到机器学习算法。如上面关于图1描述的，蜜罐35可以是其中没有期望的网络流量将会与其关联的虚拟机(VM)。例如，蜜罐35可以在没有合法的目的的情况下被添加到网络中。因此，根据定义，任何与此虚拟机关联的流量都是可疑的。这是获得已知恶意数据作为监督式机器学习分类器的数据源输入的方法。

在网络数据收集引擎的上下文中，大部分流量数据是未标记的。也就是说，对于大多数流量而言流量是攻击还是良性是未知的。目标是将每个流标记为可疑或不可疑。但是，通过离线或通过任何方式收集任何被标记的数据，可能非常困难。被标记的(特别具有代表性的)数据是非常有价值的，因为监督式机器学习是相当有预见性的。

一旦收集到与虚拟机相关的大量数据，就可以将其用作具有可疑标签的训练数据。收集的不与恶意软件35相关联(并且因此不被认定为恶意)的数据，被用于表示良性训练数据。随后可以基于流元数据特征，来应用各种监督式学习技术(例如，逻辑回归、SVM(支持向量机)、决策树等)来标识这两个类别(良性的/恶意的)。随后使用区分这些类的特征模式将新流(与蜜罐不相关)分类为倾向于可疑的或良性的。

在无监督的学习中，有一些示例输入，但是没有结果值。无监督学习的目标可以是找到数据中的模式或预测的期望结果。可以使用聚类和其它无监督的机器学习技术来标识观察到的并且与蜜罐35相关的不同类型的可疑流量。蜜罐数据提供了丰富的可疑数据源，从中的取证可以对各种类型的恶意活动产生洞察和理解。

从上文可以看出，本文描述的实施例提供了许多优点。例如，异常检测系统提供了大数据分析平台，该大数据平台可用于监视来自多个有利位置的所有事件(例如，所有分组、所有网络流)以提供网络行为的普遍视角。关于网络行为的全面和普遍的信息可以随时间被收集，并存储在中央位置，以使得能够使用机器学习算法来检测可疑活动。一个或多个实施例可以提供来自主机、进程和用户视角的改善的数据可视性和改善的可理解性。某些实施例可用于辅助异常值调查和取证，并为其它潜在度量、查看、查询或实验输入提供构建块。

尽管已经根据所示实施例描述了方法和设备，但是本领域普通技术人员将容易认识到可以在不脱离实施例的范围的情况下做出变化。因此，包含在上述说明书中和附图中所示的所有内容，应当理解为说明性的而不是限制性的。

Claims

1.一种用于异常检测的方法，包括：

在运行在网络设备处的分析模块处接收从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，以从发送到所述网络组件和从所述网络组件发送的分组中获得所述网络流量数据，并且从所述网络中的多个角度监视所述网络内的网络流；

在所述分析模块处处理所述网络流量数据，所述网络流量数据包括进程信息、用户信息和主机信息；

使用所述网络流量数据对网络行为进行动态建模，以持续更新正常网络行为的模型；以及

基于所述对网络行为的动态建模，在所述分析模块处标识所述网络流量数据内的异常，包括：

为每个分箱特征组合计算密度以提供时间序列分箱特征密度估计；

对于每个特征组合，基于在具有相等或更小密度的特征组合中获得特征的累积概率来为该特征组合计算稀有度；并且

将具有历史上少见的特征组合的新观察标记为异常。

2.如权利要求1所述的方法，其中，处理所述网络流量数据包括：将所述网络行为从所述网络中的多个角度进行关联。

3.如权利要求1所述的方法，其中，所述网络设备包括用于检查大数据的处理器，该大数据包括具有不同类型数据的大的数据的集合。

4.如权利要求1所述的方法，其中，所述网络流量数据包括来自经过所述多个传感器中的一个传感器的每个分组的元数据。

5.如权利要求1所述的方法，其中，标识所述异常包括：在包括多个特征的多维数据中标识所述异常。

6.如权利要求1所述的方法，其中，基于网络行为的动态模型来标识所述异常包括：利用机器学习算法来检测可疑活动。

7.如权利要求6所述的方法，还包括从蜜罐接收数据以供在机器学习中的使用。

8.如权利要求1所述的方法，还包括生成应用依赖性映射用于标识所述异常。

9.如权利要求1所述的方法，其中，标识所述异常包括：计算非参数多变量密度估计。

10.一种用于异常检测的装置，包括：

接口，用于接收从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，以从发送到所述网络组件和从所述网络组件发送的分组获得所述网络流量数据，并且从网络中的多个角度监视所述网络内的网络流；以及

处理器，用于处理所述网络流量数据，所述网络流量数据包括进程信息、用户信息和主机信息，使用所述网络流量数据对网络行为进行动态建模，以持续更新正常网络行为的模型，并且基于所述对网络行为的动态建模在所述网络设备处标识在所述网络流量数据内的异常，包括：

将具有历史上少见的特征组合的新观察标记为异常。

11.如权利要求10所述的装置，其中，处理所述网络流量数据包括：将所述网络行为从所述网络中的多个角度进行关联。

12.如权利要求10所述的装置，其中，所述处理器可操作来检查大数据，该大数据包括具有不同类型数据的大的数据的集合。

13.如权利要求10所述的装置，其中，所述网络流量数据包括来自经过所述多个传感器中的一个传感器的每个分组的元数据。

14.如权利要求10所述的装置，还包括分布式拒绝服务检测器。

15.如权利要求10所述的装置，其中，基于对所述网络行为的动态模型来标识所述异常包括：利用机器学习算法来检测可疑活动。

16.如权利要求10所述的装置，其中，所述处理器还被配置为生成应用依赖性映射以用于标识所述异常。

17.一种在其上存储有可执行代码的非暂态计算机可读介质，所述可执行代码在由处理器执行时使得所述处理器执行以下操作：

处理从分布在整个网络中并安装在网络组件中的多个传感器收集的网络流量数据，以从发送到所述网络组件和从所述网络组件发送的分组获得所述网络流量数据，并且从所述网络中的多个角度监视所述网络内的网络流，所述网络流量数据包括进程信息、用户信息和主机信息；

基于所述对网络行为的动态建模来标识所述网络流量数据内的异常，包括：

将具有历史上少见的特征组合的新观察标记为异常。

18.如权利要求17所述的非暂态计算机可读介质，其中，所述可执行代码在由所述处理器执行时还使得所述处理器将所述网络行为从所述网络中的多个角度进行关联以标识所述异常。

19.如权利要求17所述的非暂态计算机可读介质，其中，从蜜罐接收数据的机器学习算法被用于检测可疑活动。

20.如权利要求17所述的非暂态计算机可读介质，其中，通过计算非参数多变量密度估计来标识所述异常。