CN110730156B

CN110730156B - 用于异常检测的分布式机器学习

Info

Publication number: CN110730156B
Application number: CN201910639469.2A
Authority: CN
Inventors: 林健; M.埃尔斯纳; R.威廉姆斯; M.J.博尔丁; 潘越; P.S.泰勒; 李承达; J.林顿
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-07-17
Filing date: 2019-07-16
Publication date: 2022-03-22
Anticipated expiration: 2039-07-16
Also published as: US20200028862A1; US11362910B2; CN110730156A

Abstract

一种基于分层机器学习的基础结构，其包括第一机器学习(ML)层，该第一机器学习层被配置为在企业网络环境内执行，并且在本地学习对于一组用例的统计，并且警告与所学习的分布的偏差。用例典型地彼此独立。第二机器学习层在企业网络环境外部执行，并且例如通过确定在第一层本地运行的多个独立用例之间的相关性来提供进一步的学习支持。优选地，为了可扩展性和性能，第二层在云计算环境中执行。

Description

用于异常检测的分布式机器学习

技术领域

本公开一般涉及检测例如在企业网络中的异常或恶意网络活动或用户行为的技术。

背景技术

企业安全是要求跨安全、策略、控制、威胁模型和威胁检测场景(用例)的协调的复杂问题。这些策略、模型和控制的实现要求广泛使用威胁监控技术和安全设备，以及具有安全、商业和技术技能的人力资源。具体而言，规模越来越大的威胁要求自动化来支持负责防止、检测和响应这些威胁的安全分析人员。在大多数情况下，分析人员必须手动搜索大范围的数据源(一些私有的，许多公共的)、查看过去的威胁事件及它们是如何被处理的、检查重复事件、当前开放的类似事件和知识数据库等，以确定处理此信息的合适响应过程。数据收集、分析和确定警报的最终处置的过程对于分析人员来说既耗时又乏味。

有多种工具可用于威胁监控以分析大范围的数据源来识别指示威胁、安全策略和控制异常的模式。当检测到这些威胁和/或异常时，创建可操作的警报。一种这样的工具是

用户行为分析(User Behavior Analytics，UBA)。这种类型的UBA系统利用机器学习(machine learning，ML)的进步，并且它将用户上下文添加到网络、日志、漏洞(vulnerability)和威胁数据以更快、更准确地检测攻击。使用该工具，安全分析人员可以容易地看到有风险的用户、查看他们的异常活动并深入到导致用户风险得分的底层日志和流数据中。

异常检测系统可以提供许多用例以从不同的视角检测异常，即使每个用例独立地工作。这些用例包括，例如，用户量活动异常、异常出站传输尝试、访问的风险性IP的地址数量异常、用户行为与组的偏差等。尽管UBA系统在其预期目的下工作良好，但在使用它们时有时会出现几个问题。一个问题是，随着新用例的不断增加，系统性能成为瓶颈，典型地是由于系统无法扩展。另一个问题是每个用例都有独立的结果；因此，再次随着用例数量的增加，安全分析人员更加难以使用和关联生成的结果。

因此，仍然需要解决这些性能问题，并在这些类型的操作环境中提供增强的异常检测。

发明内容

为此，本公开提供了基于“分层”(或“分布式”)机器学习的基础结构或框架，其用于检测企业中网络活动或其它用户行为模式的异常。一般来说，方案的分布性质通过提供第一(或“本地”)机器学习(ML)层来实现，该第一机器学习(ML)层被配置为在企业网络环境本身内执行，并且提供机器学习以在本地学习对于一组用例的统计，并且(例如，向安全分析人员)警告与所学习的分布的偏差。用例中的一个或多个用例彼此独立。在典型的实施方式中，第一层作为安全信息和事件管理(Security Information and Event Management，SIEM)平台中安装的应用执行。此外，该框架还包括企业网络环境外部的第二(或“中央”或“全局”)ML层，该第二ML层例如通过确定在第一层本地运行的多个独立用例之间的相关性来提供进一步的ML支持。优选地，为了可扩展性和性能，第二层在云计算环境中执行，因为来自独立用例的相关统计是计算密集型的，并且在本地环境本身中不可行。通过以这种方式分布机器学习，提供了增强的异常检测框架，其中该框架解决了与当前技术水平相关联的性能和其它操作限制。

前面已经概述了主题的一些更相关的特征。这些特征应该被解释为仅仅是说明性的。通过以不同的方式应用所公开的主题或者通过修改将被描述的主题，可以获得许多其它有益的结果。

附图说明

为了更完整地理解主题及其优点，现在参考以下结合附图的描述，其中：

图1描绘了其中可以实施说明性实施例的示例性方面的分布式数据处理环境的示例性框图；

图2是其中可以实施说明性实施例的示例性方面的数据处理系统的示例性框图；

图3示出了其中可以实践本公开的技术的安全智能平台；

图4描绘了根据已知技术的数据中心操作环境中的1级安全威胁监控操作；

图5描绘了包括可以被本公开的分布式ML框架利用的云计算基础结构的数据中心；

图6描绘了包括第一层(例如，包括用户行为分析(UBA)功能的安全信息事件管理(SIEM)平台)、和云支持的第二层的本公开的基础分布式ML框架；

图7描绘了针对一组独立用例在第一层中执行从而生成一组ML模型(所学习的分布)的代表性UBA型系统，其中针对该一组ML模型检测和警告异常；

图8描绘了第二层中的一组代表性的计算功能和支持元素，其用于对从第一层流式传输(stream)或以其它方式提供的信息执行附加机器学习；以及

图9描绘了在代表性实施例中支持第二ML层的代表性云计算基础结构的进一步细节。

具体实施方式

现在参考附图，具体参考图1-2，提供了其中可以实施本公开的说明性实施例的数据处理环境的示例图。应该理解，图1-2仅仅是示例性的，并不意图断言或暗示对于其中可以实施所公开主题的方面或实施例的环境的任何限制。在不脱离本发明的精神和范围的情况下，可以对所描绘的环境进行许多修改。

现在参考附图，图1描绘了其中可以实施说明性实施例的各方面的示例性分布式数据处理系统的图形表示。分布式数据处理系统100可以包括其中可以实施说明性实施例的各方面的计算机的网络。分布式数据处理系统100包含至少一个网络102，该至少一个网络102是用于在分布式数据处理系统100内连接在一起的各种设备和计算机之间提供通信链路的介质。网络102可以包括连接，诸如有线、无线通信链路或光缆。

在所描绘的示例中，服务器104和服务器106与存储单元108一起连接到网络102。此外，客户端110、112和114也连接到网络102。这些客户端110、112和114可以是例如个人计算机、网络计算机等。在所描绘的示例中，服务器104提供数据，诸如引导(boot)文件，操作系统映像和到客户端110、112和114的应用。在所描绘的示例中，客户端110、112和114是针对服务器104的客户端。分布式数据处理系统100可以包括附加的服务器、客户端和未示出的其它设备。

在所描述的示例中，分布式数据处理系统100是具有网络102的互联网，该网络102代表使用传输控制协议/互联网协议(Transmission Control Protocol/InternetProtocol，TCP/IP)协议套件以相互通信的网络和网关的全局集合。互联网的核心是主要节点或主机之间的高速数据通信线路的骨干，其由数千个商业、政府、教育和路由数据和消息的其它计算机系统组成。当然，分布式数据处理系统100也可以被实施为包括多个不同类型的网络，诸如例如内部网、局域网(local area network，LAN)、广域网(wide areanetwork，WAN)等。如上所述，图1意图作为示例，而不是作为用于所公开主题的不同实施例的架构限制，因此，图1中所示的特定元素不应该被认为是对其中可以实施本发明的说明性实施例的环境的限制。

现在参考图2，示出了其中可以实施说明性实施例的各方面的示例性数据处理系统的框图。数据处理系统200是实施用于本公开的说明性实施例的过程的计算机可用代码或指令可以位于其中的计算机的示例，诸如图1中的客户端110。

现在参考图2，示出了其中可以实施说明性实施例的数据处理系统的框图。数据处理系统200是实施用于说明性实施例的过程的计算机可用程序代码或指令可以位于其中的计算机的示例，诸如图1中的服务器104或客户端110的计算机的示例。在该说明性示例中，数据处理系统200包括通信结构(fabric)202，其提供处理器单元204、存储器206、永久存储装置208、通信单元210、输入/输出(input/output，I/O)单元212和显示器214之间的通信。

处理器单元204用于执行可加载到存储器206的软件的指令。处理器单元204可以是一组一个或多个处理器，或者可以是多处理器内核，这取决于具体的实施方式。此外，处理器单元204可以使用其中主处理器与辅助处理器存在于单个芯片上的一个或多个异构处理器系统来实施。作为另一个说明性示例，处理器单元204可以是包含相同类型的多个处理器的对称多处理器(symmetric multi-processor，SMP)系统。

存储器206和永久存储装置208是存储设备的示例。存储设备是能够临时和/或永久存储信息的任何硬件。在这些示例中，存储器206可以是例如随机存取存储器或任何其它合适的易失性或非易失性存储设备。永久存储装置208可以采取取决于具体的实施方式的各种形式。例如，永久存储装置208可以包含一个或多个组件或设备。例如，永久存储装置208可以是硬盘驱动器、闪存存储器、可重写光盘、可重写磁带或上述的一些组合。永久存储装置208使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久存储装置208。

在这些示例中，通信单元210提供与其它数据处理系统或设备的通信。在这些示例中，通信单元210是网络接口卡。通信单元210可以通过使用物理和无线通信链路之一或两者来提供通信。

输入/输出单元212允许与可连接到数据处理系统200的其它设备的数据的输入和输出。例如，输入/输出单元212可以通过键盘和鼠标为用户输入提供连接。此外，输入/输出单元212可以向打印机传送输出。显示器214提供向用户显示信息的机构。

用于操作系统和应用或程序的指令位于永久存储装置208上。这些指令可以被加载到存储器206中，以用于由处理器单元204执行。可以通过处理器单元204使用计算机实施的指令来执行不同实施例的过程，该计算机实施的指令可以位于诸如存储器206的存储器中。这些指令被称为可由处理器单元204中的处理器读取和执行的程序代码、计算机可用程序代码或计算机可读程序代码。不同实施例中的程序代码可以体现在不同的物理或有形计算机可读介质上，诸如存储器206或永久存储装置208。

程序代码216以功能形式位于计算机可读介质218上，该计算机可读介质218是选择性可移动的，并且可以被加载到或传递到数据处理系统200上，以用于由处理器单元204执行。在这些示例中，程序代码216和计算机可读介质218形成计算机程序产品220。在一个示例中，计算机可读介质218可以是有形的形式，诸如，例如插入或布局到作为永久存储装置208一部分的驱动器或其它设备中以用于传递到存储设备(诸如作为永久存储装置208一部分的硬盘)的光盘或磁盘。在有形形式中，计算机可读介质218也可以采取永久存储装置的形式，诸如连接到数据处理系统200的硬盘驱动器、拇指驱动器或闪存存储器。计算机可读介质218的有形形式也被称为计算机可记录存储介质。在一些情况下，计算机可记录介质218可以是不可移动的。

可替换地，程序代码216可以从计算机可读介质218通过到通信单元210的通信链路和/或通过到输入/输出单元212的连接被传递到数据处理系统200。在说明性示例中，通信链路和/或连接可以是物理的或无线的。计算机可读介质也可以采取非有形介质的形式，诸如包含程序代码的通信链路或无线传输。针对数据处理系统200示出的不同组件并不意味着对其中实施不同实施例的方式提供架构限制。不同的说明性实施例可以在数据处理系统中实施，该数据处理系统包括除了针对数据处理系统200示出的组件之外的组件或者代替针对数据处理系统200示出的组件。图2中示出的其它组件可以不同于所示的说明性示例。作为一个示例，数据处理系统200中的存储设备是可以存储数据的任何硬件装置。存储器206、永久存储装置208和计算机可读介质218是有形形式的存储设备的示例。

在另一个示例中，总线系统可以用于实施通信结构202并且可以包括一条或多条总线，诸如系统总线或输入/输出总线。当然，总线系统可以使用提供附接到总线系统的不同组件或设备之间的数据传递的任何合适类型的架构来实施。另外，通信单元可以包括用于发送和接收数据一个或多个设备，诸如调制解调器或网络适配器。此外，存储器可以是，例如，诸如在可以在通信结构202中存在的接口和存储器控制器中枢(hub)中找到的存储器206或高速缓存。

用于执行本发明操作的计算机程序代码可以以一种或多种编程语言的任意组合编写，包括诸如Java^TM、Smalltalk、C++等的面向对象的编程语言，以及诸如“C”编程语言或类似的编程语言的传统的过程编程语言。程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户计算机且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。后一种场景下，远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。

本领域普通技术人员将理解，图1-2中的硬件可以取决于实施方式而有所不同。除了图1-2中描述的硬件之外或代替图1-2中描述的硬件，可以使用其它内部硬件或外围设备，诸如闪存存储器、等效的非易失性存储器或光盘驱动器等。此外，除了先前提到的SMP系统之外，说明性实施例的过程可以应用于多处理器数据处理系统，而不脱离所公开的主题精神和范围。

如将会看到的，这里描述的技术可以在诸如图1所示的标准客户端-服务器范例内结合操作，其中客户端机器与在一组一台或多台机器上执行的可访问互联网的基于网络的门户进行通信。终端用户操作能够访问门户并与门户交互的可连接互联网的设备(例如，桌上型计算机、笔记本计算机、使能互联网的移动设备等)。典型地，每个客户端或服务器机器都是包括硬件和软件的诸如图2所示的数据处理系统，并且这些实体通过诸如互联网、内联网、外联网、专用网络或任何其它通信介质或链路的网络互相通信。数据处理系统典型地包括一个或多个处理器、操作系统、一个或多个应用以及一个或多个实用程序。数据处理系统中的应用提供对网络服务的本地支持，包括但不限于对HTTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从负责开发和维护这些标准的万维网联盟(World Wide Web Consortium，W3C)获得；关于HTTP和XML的进一步的信息可从互联网工程任务组(Internet Engineering Task Force，IETF)获得。假定熟悉这些标准。

具有事件取证(forensic)的安全智能平台

图3示出了已知类型的安全智能平台。通常，该平台提供由搜索驱动的数据探索、会话重建和取证智能以帮助安全事件调查。在相关部分，平台300包括一组数据包捕获器件302、事件取证模块器件304、分布式数据库306和安全智能控制台308。数据包捕获和模块器件被配置为网络器件，或者它们可以被配置为虚拟器件。数据包捕获器件302可操作以从网络捕获数据包(使用已知的数据包捕获(packet capture，pcap)应用编程接口(application programming interfaces，API)或其它已知的技术)，以及将这种数据(例如，实时日志事件和网络流)提供给分布式数据库306，其中在该分布式数据库306中数据被存储并可供取证模块304和安全智能控制台308分析。数据包捕获器件以面向会话的方式操作，捕获流中的所有数据包，并索引元数据和有效载荷以使能快速的、由搜索驱动的数据探索。数据库306提供了取证库，其是包括由数据包捕获器件收集的信息的分布式和异构数据集。控制台308提供可访问网络或云的用户界面(user interface，UI)，该用户界面暴露“取证”仪表板标签以促进通过调查员的事件调查工作流。使用该仪表板，调查员选择安全事件。事件取证模块304检索用于所选择的安全事件的所有数据包(包括元数据、有效载荷等)并重建会话以用于分析。

实施这种类型的事件调查工作流的代表性商业产品是

Security

Incident Forensics V7.2.3(或更高版本)。使用该平台，调查员跨存储在数据库中的分布式和异构数据集进行搜索，并接收统一的搜索结果列表。搜索结果可以合并在网格中，并且可以在“数字印象(digital impression)”工具中可视化，使得用户可以探索身份之间的关系。

具体而言，现在描述从取证库中的网络流量和文档提取相关数据的典型事件取证调查。根据这种方案，平台首先使能搜索和标记许多记录的简单、高级的方案，然后使调查员能够关注标记的记录，以识别记录的最终集。在典型的工作流中，调查员确定哪些材料是相关的。然后，他或她用该材料来证明假设或“案例”以开发新线索，其中该新线索可以通过在现有案例中使用其它方法来跟进。典型地，调查员首先通过粗粒度的行动关注他或她的调查，然后继续将这些发现微调到相关的最终结果集中。图3的底部示出了这种基础工作流。然后，平台中的可视化和分析工具可以用于手动和自动评估相关性的结果。相关记录可以被打印、导出或提交处理。

如上所述，平台控制台提供了用户界面以促进这种工作流。因此，例如，平台在界面显示标签上提供搜索结果页面作为默认页面。调查员使用搜索结果来搜索和访问文档。调查员可以使用其它工具来推进调查。这些工具中的一个工具是数字印象工具。数字印象是识别身份线索的一组编译的关联性和关系。数字印象重建网络关系有助于揭示攻击实体的身份、它是如何通信的、以及它与什么通信。在网络流量和文档中发现的已知实体或个人被自动标记。取证事件模块304可操作以关联彼此交互的所标记的标识符，以产生数字印象。数字印象报告中的聚集关系表示与攻击者、网络相关的实体或任何数字印象元数据术语相关联的连续聚集的电子存在。使用该工具，调查员可以点击与文档相关联的任何标记的数字印象标识符。得到的数字印象报告以表格形式列出，并按标识符类型组织。

概括地说，数字印象重建网络关系，以帮助调查员识别攻击实体和与之通信的其它实体。安全智能平台包括取证事件模块，其中该取证事件模块可操作以关联彼此交互的所标记的标识符，以产生数字印象。数字印象报告中的聚集关系代表与攻击者、网络相关的实体或任何数字印象元数据术语相关联的连续聚集的电子存在。使用该工具，调查员可以点击与文档相关联的任何标记的数字印象标识符。得到的数字印象报告以表格形式列出，并按标识符类型组织。

典型地，在上述系统中使用的器件被实施为网络连接的非显示设备。例如，专门为执行传统面向中间件服务的架构(service oriented architecture，SOA)功能而建立的器件在某些计算机环境中是普遍的。SOA中间件器件可以简化、帮助保护或加速XML和网络服务的部署，同时扩展跨企业的现有SOA基础结构。中间件专用硬件和轻量级中间件堆栈的使用可以解决传统软件解决方案所面临的性能负担。此外，器件形状因素为实施中间件SOA功能提供安全、可消费的封装。这些类型的设备提供的一个特别的优点是从后端系统卸载处理。这种类型的网络器件典型地是机架式设备。该设备包括使器件能够充当针对敏感信息的安全电子仓库(vault)的物理安全性。典型地，该器件被制造、预加载软件，然后部署在企业或其它网络操作环境内或与企业或其它网络操作环境相关联；可替换地，框(box)可以位于本地，然后被供应有可以例如在私有或内部云计算环境内被安全地部署和管理的、标准或定制的中间件虚拟映像。器件可以包括硬件和固件加密支持，以可能加密硬盘上的数据。任何用户，包括管理用户，都不能访问物理磁盘上的任何数据。具体而言，优选地，操作系统(例如，Linux)锁定根帐户并且不提供命令窗口，并且用户没有文件系统访问权限。典型地，该器件不包括显示设备、CD或其它光驱，或者任何能够使设备与其连接的USB、火线或其它端口。它被设计成封闭且安全的环境，其具有有限的可访问性并且只有经过认证和授权的个人才能访问。

这种类型的器件可以促进安全信息事件管理(SIEM)。例如，

Security

SIEM是包括可以配置为这种类型的器件的数据包数据捕获器件的企业解决方案。这种设备可操作，例如，以捕获实时第4层网络流数据，其中然后可以根据该实时第4层网络流数据，例如使用深度数据包检查和其它技术来分析第7层应用有效载荷。它使用基于流的网络知识、安全事件相关性和基于资产的漏洞评估的组合来提供情景感知和合规性支持。在基础的QRadar SIEM安装中，诸如图3中所示的系统被配置为聚集事件和流数据，并生成报告。如上所述，用户(例如，SOC分析人员)可以调查攻击，以确定网络问题的根本原因。

概括地说，安全信息和事件管理(SIEM)工具提供了用于对IT安全事件和漏洞进行分析、管理、监控和报告的一系列服务。这种服务典型地包括跨数据网络聚集关于被监控的访问和意外事件的事件，并在相关上下文中分析它们以确定它们对所绘制的更高阶安全事件的贡献。它们还可以包括分析防火墙配置、用于查看当前和潜在的网络流量模式的连接可视化工具和网络拓扑，将资产漏洞与网络配置和流量关联以识别有效攻击路径和高风险资产，以及支持对网络流量、拓扑和漏洞暴露的策略合规性监控。一些SIEM工具有能力基于对通过公共网络信息模型处理的设备配置的转换分析来建立诸如路由器、防火墙和交换机的受管(managed)网络设备的拓扑。结果是可用于模拟安全威胁、对防火墙过滤器进行操作分析和其它应用的位置组织。然而，主设备标准完全基于网络和网络配置。虽然有多种方法可以启动用于受管的资产/系统的发现功能，并且虽然用户界面中的控制是半自动化受管的(即，通过用户界面的方案，其允许基于对在底层网络中的初始配置和改变/删除两者的发现来数据驱动具有拓扑的半自动、基于人工输入的布局以及其显示和格式化)，但是在产生全自动布局分析和建议的布局分析方面没有提供任何信息。

图4描绘了使用分析平台400(诸如，IBM QRadar)提供1级安全威胁监控的安全操作中心(Security Operation Center，SOC)。平台400从多种日志源402(诸如防火墙、入侵检测和预防系统、反病毒系统、网络代理以及其它系统和网络设备)接收警报(在步骤(1)处)。在步骤(2)处，警报被存储在警报数据库404中。在步骤(3)处，警报被提供给由安全分析人员408操纵的威胁监控控制台406。正如众所周知的，SOC典型地由不同级别的安全分析人员操纵。1级(L1)分析人员408负责监控报告的安全事件，并负责根据SOC规则、策略和程序来关闭或升级这些事件。安全分析人员408典型地与客户端410交互，该客户端410是具有正在针对安全威胁而被监控的应用的企业实体。虽然未示出，但是典型地，SOC具有一个或多个附加级别的安全分析人员，例如2级(L2)和3级(L3)分析人员。典型地，L2安全分析人员处理来自L1分析人员的升级，并执行其它经营和管理功能，如监控L1分析人员的表现以确保安全事件被及时处理、指导等。3级分析人员处理(来自L2分析人员的)进一步的升级，并在SOC中提供附加的更高级的经营和管理功能。当然，级别的数量以及与每个级别相关联的各种任务可以变化，并且特定于实施方式。

如所描绘的，L1分析人员进行有关警报的发现，典型地，其中目标是在接收到警报后约15-20分钟内进行这种发现。典型地，该发现将警报作为假阳性关闭(步骤5(a))，或将警报升级(步骤5(b))为可能的攻击。假阳性发现存储在警报数据库404中。攻击发现典型地被报告给其应用受到影响的客户端410。取决于实施方式(例如，SOC策略、客户端程序等)，采取一些补救或其它行动(步骤6(b))；可替换地，客户端410可以指示警报确实是假阳性，因此应该被关闭(步骤6(c))。响应动作412可以以自动方式(例如，以编程方式)、手动地或者通过自动和手动操作的结合来执行。动作可以由SOC人员、由客户或由SOC人员和客户的组合来执行。还如所描绘的，关于对警报的响应的信息也被提供给票务系统414，并且这种信息然后可以被报告回安全分析人员(步骤7(c))。然后，安全分析人员可以利用关于如何处理(或以其它方式关闭)警报的信息来更新警报数据库(如步骤8(c))。因此，警报及其相关联的处理信息存储在警报数据库404中，并且可用作前进的数据源。

作为附加背景技术，企业典型地包括身份管理系统，通过该身份管理系统，公司可以定义和管理组织角色以及对资源的访问权限。角色分配包括将用户分配到一个或多个组织中的商业角色。组织角色用于根据人们在组织中的功能对他们进行分组。因此，例如，所有公司雇员都被授予组织中的雇员角色。典型地，用户可以被分配到公司中的一个或多个组织角色，诸如，例如站点经理、项目经理、HR经理等，以及诸如大学联络员或社区协调员的辅助雇员角色。将用户分配到组织角色可以使能基于角色供应对受管的资源的访问权限。例如，身份管理器中的服务代表不同类型的受管的资源，诸如

数据库、

机器等。组织角色可以借助于供应策略链接到服务，将组织角色中的人员授权给链接到服务的受管的资源上的帐户。

企业典型地包括托管(host)组织中的每个目录的目录服务。每个这种目录典型地存储关于特定应用以及有权限使用该应用或应用实例的(多个)用户或(多个)用户组的信息。代表性目录可经由作为在TCP/IP堆栈顶上运行的目录服务协议的轻量目录访问协议(Lightweight Directory Access Protocol，LDAP)来访问。LDAP提供了基于客户端-服务器的机构，该机构可用于连接到、搜索和修改网络可访问的目录。使用LDAP，目录客户端可以查询目录应用并获取用户/组数据。

云计算模型

如上所述，本公开的分布式机器学习技术优选地利用位于云计算环境中的计算元件。因此，提供了关于云计算的以下附加背景。

云计算是一种服务交付模式，用于使能对可配置计算资源(例如网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务)共享池进行方便、按需的网络访问，该可配置计算资源的共享池可以利用最少的管理工作或与服务提供商的交互来快速供应和释放。这种云模型可能至少包括五个特性、至少三种服务模型和至少四种部署模型，所有这些都在Peter Mell和Tim Grance 2011年9月的“The NIST Definition of Cloud Computing”中有更具体的描述和定义。

具体而言，以下是典型特性：

按需自助服务：云消费者可以自动地根据需要单方面供应诸如服务器时间和网络存储的计算能力，而不要求与服务提供商进行人工交互。

广泛的网络访问：能力可以通过网络获取，并且通过标准机制访问，这种标准机制促进了通过不同种类的瘦客户端平台或厚客户端平台(例如移动电话、膝上型电脑和PDA)的使用。

资源池：提供商的计算资源被归入资源池以通过多租户(multi-tenant)模式服务于多重消费者，其中按需动态地分配和再分配不同的物理资源和虚拟资源。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)供应能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于供应的可用能力往往显得是无限的，并能在任意时候都能取得任意数量的能力

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量，自动地控制和优化资源效用。可以监控、控制和报告资源使用情况，为所利用的服务的提供商和消费者双方提供透明度。

服务模式典型地如下：

软件即服务(Software as a Service，SaaS)：向消费者提供的能力是使用提供商在云基础结构上运行的应用。可以通过诸如网络浏览器的瘦客户端接口(例如基于网络的电子邮件)从各种客户端设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础结构。

平台即服务(Platform as a Service，PaaS)：向消费者提供的能力是在云基础结构上部署消费者创建或获得的应用，该应用利用提供商支持的程序设计语言和工具来创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础结构，但对其部署的应用具有控制权，并且对应用托管环境配置可能也具有控制权。

基础结构即服务(Infrastructure as a Service，IaaS)：向消费者提供的能力是消费者能够供应在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其它基础计算资源。消费者既不管理也不控制底层的云基础结构，但是对操作系统、存储和其部署的应用具有控制权，并且对选择网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型典型地如下：

私有云：云基础结构单独为组织运行。该云基础结构可以由该组织或第三方管理并且可以存在于内部或外部。

共同体云：云基础结构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、策略和合规考虑)的特定共同体。该共同体云可以由该组织或第三方管理并且可以存在于内部或外部。

公共云：使云基础结构供公众或大型产业群使用并由出售云服务的组织拥有。

混合云：云基础结构由两个或更多云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，其中集中在无状态性、低耦合、模块性和语意互操作性。云计算的核心是包含互连节点网络的基础结构。代表性云计算节点如以上图2所示。具体而言，在云计算节点中，由计算机系统/服务器，其可与许多其它通用或专用计算系统环境或配置一起运行。适合于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统以及包括任何上述系统或设备的分布式云计算环境等。计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。通常，程序模块可以包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等等。计算机系统/服务器可以在由远程处理设备执行任务的分布式云计算环境中实践，其中该远程处理设备通过通信网络链接。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质两者中。

在典型的云计算环境中，提供一组功能抽象层。这些包括硬件和软件层、虚拟化层、管理层和工作负载层。

硬件和软件层包括硬件和软件组件。硬件组件的示例包括：大型计算机(在一个示例中是

系统)；基于RISC(Reduced Instruction Set Computer，精简指令集计算机)架构的服务器(在一个示例中是IBM

系统；IBM

系统；IBM

系统)；存储设备；网络和联网组件。软件组件的示例：包括网络应用服务器软件(在一个示例中是IBM

应用服务器软件)；和数据库软件(在一个示例中是IBM

数据库软件)。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere和DB2是国际商业机器公司在全球许多管辖区注册的商标)

虚拟化层提供了抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器；虚拟存储装置；包括虚拟专用网络的虚拟网络；虚拟应用和操作系统；和虚拟客户端。

管理层提供各种管理功能。例如，资源供应提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价可以提供在云计算环境内利用资源时的成本跟踪，并为这些资源的消费的计费或开发票。在一个示例中，这些资源可以包括应用软件许可证。安全性提供用于云消费者和任务的身份验证，以及用于数据和其它资源的保护。用户门户为消费者和系统管理员提供对云计算环境的访问。服务级别管理提供云计算资源分配和管理，使得满足所要求的服务级别。服务水平协议(Service Level Agreement，SLA)规划和实施提供根据SLA预期未来要求的云计算资源的预先安排和采购。

工作负载层提供利用云计算环境的功能。

因此，代表性云计算环境具有一组高级功能组件，该一组高级功能组件包括前端身份管理器、商业支持服务(business support service，BSS)功能组件、运营支持服务(operational support service，OSS)功能组件以及计算云组件。身份管理器负责与请求客户端接口，以提供身份管理，并且该组件可以用一个或多个已知系统来实施，诸如从纽约阿尔蒙克的IBM公司获得的Tivoli联邦身份管理器(Tivoli Federated IdentityManager，TFIM)。在合适的情况下，TFIM可用于向其它云组件提供联合单点登录(federatedsingle sign-on，F-SSO)。商业支持服务组件提供某些管理功能，例如计费支持。运营支持服务组件用于提供对其它云组件(诸如虚拟机(virtual machine，VM))实例的供应和管理。虚拟机是安装在软件上、但是模仿硬件机器的操作系统或应用环境。云组件表示典型地作为多个虚拟机实例的主计算资源，该多个虚拟机实例用于执行可经由云访问的目标应用。一个或多个数据库用于存储目录、日志和其它工作数据。(前端身份管理器所包括的)所有这些组件位于云“内部”，但这不是必需的。在替代实施例中，身份管理器可以在云外部操作。服务提供商也可以在云外部操作。

一些云基于非传统的IP网络。因此，例如，云可以基于使用MAC地址散列的、具有特殊单层IP路由的基于CLOS的两层网络。这里描述的技术可以用在这样的非传统云中。

图5示出了支持资源的虚拟化的、并且(多个)数据库服务器典型地安装在其中的典型IT基础结构。为解释的目的，提供共享(公共)资源的IT数据中心是“提供商”，以及使用这些共享资源管理以托管、存储和管理其数据和应用(所有形式)的客户或公司是“订户”(或“客户”或“租户”)。在图5中，示出了示例虚拟机托管环境(在此可替换地称为数据中心或“云”)。此环境包括典型地经由监管程序管理VLAN 506连接到物理数据中心网络504的主机(host machine，HV)502(例如，服务器或类似的物理机器计算设备)。虽然没有明确描述，但是典型地环境还包括负载平衡器、网络数据交换机(例如，顶架交换机)、防火墙等。如图5所示，物理服务器502每个都适配于使用虚拟化技术动态地提供一个或多个虚拟机(VM)508。这种技术可以从商业上获得，例如从

或其它获得。服务器虚拟化是本领域众所周知的技术。如所描绘的，多个VM可以布局到单个主机中，并共享主机的CPU、存储器和其它资源，从而提高组织的数据中心的利用率。在这种环境中，租户应用510的在网络器件512中托管，租户数据存储在数据贮存和数据库514中。应用和数据贮存典型地经由网络管理/存储VLAN 516连接到物理数据中心网络504。总的来说，虚拟机、应用和租户数据表示订户可访问的虚拟化资源管理域505。通过该域，订户的雇员可以(使用各种基于角色的权限)访问和管理已经由提供商分配并由物理IT基础结构支持的虚拟化资源。基础结构的底部示出了提供商可访问的管理域515。该域包括提供商雇员管理门户518、BSS/OSS管理功能520、各种身份和访问管理功能522、安全策略服务器524和管理服务器映像528的管理功能526。这些功能经由管理VLAN 530连接到物理数据中心网络。提供商的雇员有专门的权限(可能还有特定的客户端/网络)，他们可以根据该权限访问他们用来管理IT数据中心基础结构(例如，硬件和软件安装、配置、监控、技术支持、计费等)的运营和商业支持服务(OSS/BSS)。

概括地说，云计算基础结构提供虚拟机托管环境，该虚拟机托管环境包括经由网络连接的多个主机(例如，服务器或类似的物理机器计算设备)和一个或多个管理服务器。典型地，每个物理服务器都适配于使用虚拟化技术(诸如VMware ESX/ESXi)动态提供一个或多个虚拟机。多个VM可以布局到单个主机中，并且共享主机的CPU、存储器和其它资源，从而提高组织的数据中心的利用率。在其它任务中，管理服务器监控基础结构，并根据需要自动操纵VM布局，例如通过在主机之间移动虚拟机。

在非限制性实施方式中，代表性平台技术在不限制的情况下是具有VMwarevSphere 4.1 Update 1和5.0的IBM System

服务器。

用于异常检测的双层机器学习系统

利用以上作为背景，下面描述本公开的主题。

如上所述，这里的方案是提供基于“分层”(或“分布式”)机器学习的方案，该方案用于检测企业中网络活动或其它用户行为模式的异常。同样如上所述，该方案的分布性质是通过提供进行协作以提供集成的分布式ML框架的“第一”和“第二”基于机器学习的层来实现的。如将要描述的，并且在典型的实施方式中，第一层在与企业网络相关联的本地操作环境中执行，诸如在企业防火墙后面(内部)执行。不要求第一层的确切定位或位置，尽管典型地它将作为SIEM(或其它这种基于企业的安全平台功能)的安装的应用来定位。该第一层被配置为提供机器学习以在本地学习对于一组用例的统计，并警告(例如，向安全分析人员警告)与所学习的分布(ML模型)的偏差。如下所述，典型地，一个或多个用例彼此独立，并且在优选实施例中，所有或基本上所有的用例彼此独立。图6描绘了本公开的包括第一本地层和第二中央层的基础的分布式ML框架。第二层有时在这里被称为“全局(global)”层，尽管“全局”的概念不一定具有地理内涵。

参考图6，第一层作为UBA系统执行，例如在安全信息事件管理(SIEM)平台内执行。如所描绘的，SIEM 600支持作为安装的应用的UBA 604。如将要描述的，UBA 604利用机器学习606来学习对于在本地运行的一组用例的统计，例如使用从数据服务器608提供的数据，其中经由用户界面610进行异常报告。具体而言，数据服务器608提供网络、日志、漏洞和威胁数据，并且UBA 604(利用ML 606)分析该数据以更快速和准确地检测攻击。用这种工具，且如上所述(关于与图3-4相关联的描述)，安全分析人员可以容易地看到有风险的用户，查看他们的异常活动并深入到导致用户风险得分的底层日志和流数据中。还如所描绘的，在SIEM 600中执行的第一层与在云计算环境602中执行的第二层相关联地操作。在代表性用例中，第二层在一个或多个云数据中心中或跨一个或多个云数据中心实施，诸如如图5所描绘的。第二层可以专用于第一层，或者在替代实施例中，第二层可以作为共享执行环境来操作(如下面进一步描述的)，其中该共享执行环境提供对多个第一层的支持。服务提供商可以操作第二层“即服务(as-a-service)”，并且因此为多个(潜在)不同的第一层环境提供基于第二层的ML(也将在下面描述)。在又一个替代实施例中，整体或部分的机器学习甚至可以跨仅两个以上的层来实施；因此，例如，可以有多层的分布式机器学习，其中一个层(或级别)的输出潜在地为下一后续层播种，以此类推。

回到图6，并且在通常情况下，因此第二(或“中央”)ML层在第一层在其中执行的企业网络环境外部执行，并且第二层为正在第一层中执行的ML提供进一步的ML支持。这样，可以说第二层“扩展”了由第一层或在第一层内执行的ML功能。这种类型的代表性扩展是第二层确定在第一层中本地运行(执行)的多个独立用例之间或当中的“相关性”。这种相关性提供了进一步更细粒度的异常检测，然后该异常检测可以被报告给安全分析人员或以其它方式采取措施。如上所述，为了可扩展性和性能，第二层优选在云计算环境602中执行。如图6中所描绘的这种分布式ML架构是非常有利的，特别是因为关联来自独立用例的统计是非常计算密集的并且在本地环境本身中是不可行的。通过以这种方式分布机器学习，提供了增强的异常检测框架，其中该增强的异常检测框架解决与当前最新级别相关联的性能和其它操作限制。

图7描绘了针对一组独立用例在第一层中执行从而生成一组ML模型(所学习的分布)的代表性UBA型系统700，其中根据该一组ML模型检测和警告异常，优选地由本地系统根据该一组ML模型检测和警告异常。这种本地分析系统优选地包括多个用例702。为了说明的目的，每个用例702使用不同的机器学习算法(分析)706，尽管这不一定是必需的。在这个示例中，对于每个用例的训练数据是时间序列数据704，诸如每个时间间隔被监控的用户的活动特性。典型地，每个分析706独立运行，并且它们的训练数据不必相同。当ML执行时，生成一组所学习的分布708。所学习的分布也称为ML模型，并且然后以已知的方式使用这种模型来检测异常，其中偏差被报告给安全分析人员或以其它方式采取措施。一个特定的用例按时间跟踪用户的一般活动，并创建针对用户的所预测的每周行为模式的模型；然后，如果用户的行为偏离了所学习的行为，则这被认为是可疑的，并且生成事件来增加用户的风险得分。其它用例可以涉及出站传输尝试、IP地址访问等模型。虽然图7描绘了执行仅基于时间序列的分析的第一层，但是这不是限制，因为一个或多个分析可以基于时间序列数据以外的其它数据。因此，例如，一种这样的替代方案可以对用户组行为建模，并使用该模型来识别给定用户行为(相对于组模型)是否表示潜在异常。除非另有说明，否则在本地ML层中执行的用例的特定性质不是对本公开的限制。

由基于SIEM的UBA系统生成的(多个)模型典型地具有独立值(因为它们可以用于本地异常行为检测和报告)；根据本公开，如图8所描绘的和现在描述的，在第一层中生成的信息也被提供给第二层。此外，提供给第一层的训练数据典型地也被提供给第二层，其它数据源也是如此。典型地，从第一层输出的信息以连续的方式被流式传输到第二层，尽管来自第一层的信息也可以被批量提供，或者响应于从云侧发起的请求响应协议而被提供。层之间的通信典型地发生在安全传输介质(例如，专用网络)上，或者通过使用诸如SSL/TLS的已知技术来保护信息本身(例如，经由加密)。分布式ML框架的本地端和云侧之间的(多个)通信的特定性质不是限制。

从第一层到第二层的信息的供应提供了显著的优点。具体而言，如已经描述的，随着用例(诸如图7中的702)被连续添加到系统中，由于系统不能扩展，系统的性能成为瓶颈。此外，数量增加的用例的独立结果(如通过应用模型708生成的独立结果)使得安全分析人员很难使用并关联根据这些用例生成的结果。因此，分布式ML系统的第二层解决了这些缺陷。

图8描绘了第二层中的一组代表性的计算功能和支持元素，并且该组代表性的计算功能和支持元素用于对从第一层流式传输或以其它方式从第一层提供的信息执行附加机器学习。如将要描述的，在典型的操作场景中，这些计算功能提供进一步的(或扩展的)机器学习，诸如估计相对于独立用例的指数加权移动平均值和方差。然后，由基于云的分析产生的得到的模型用于对从本地系统接收(或以其它方式提供给框架的基于云的部分)的新数据点进行评分。在一个实施例中，并且如下所述，在云中计算的指数加权移动平均值和方差是马氏距离(Mahalanobis distance，MD)，其是点和分布之间距离的多维测量(类似于测量点与分布均值之间有多少标准偏差)。虽然马氏距离是一个优选地度量，但它不意图限制，因为可以在云中计算的其它度量包括但不限于皮尔逊的卡方检验、匹配可能性等。

如图8所描绘的，第一层包括SIEM 800，其中该SIEM 800使用本地ML 801和数据803以经由UBA系统802生成见解(insight)和配置。已经在上面描述了这种操作，例如已经在图7中基于时间序列的用例的上下文中描述了这种操作。右侧描绘了云中的ML组件，并且这些组件包括一组数据源804、消息传递系统806、数据处理(handling)(ETL 808)、数据处理(processing)810和数据存储装置812。这些组件的代表性实施方式是

安全云(

Security Cloud，ISC)。数据源804可以变化，并且典型地与在企业中执行或与企业相关联的数据源组件相关联；因此，数据源可以包括SIEM、网络代理、IPS、威胁智能系统(例如，来自

X-Force Exchange)等。数据源也可以包括外部数据源(例如，可从第三方数据库获得的威胁信息)。消息传递系统806(例如，Apache Kafka)提供流式处理，并且用于接收配置和其它数据(例如，来自安全分析人员)，以及用于为在云中执行的组件调度任务。在一个实施例中，消息传递系统被配置为消息传递中枢，并且根据可以被给定数据源804“看到”(被给定数据源804订阅)的各种主题以发布/订阅方式操作。数据ETL(Extract,Transform/and Load functions，提取、转换/加载功能)808从各种数据源接收数据，并且然后，通过ETL层处理的数据被提供用于进一步处理(即ML分析)。如所描绘的，数据处理810可以经由流式处理和/或使用图形处理来批量执行。模型和分析结果然后被存储在数据存储层812中，例如，SQL和NoSQL数据库。还如所描绘的，基于云的系统还可以包括接口到其它ML系统的ML工具包814。因此，工具包可以使用户能够执行定制的原型以分析数据。

因此，在优选实施例中，云层被提供有各种类型的信息，诸如：配置、用于本地层的训练数据、来自本地层的输出、以及来自其它来源(例如，参见图8中的804)的潜在训练数据。在一个实施例中(下面在MD计算的上下文中描述)，云层只需要接收来自本地层的输出，即表示异常的数据点，但是这不是限制。

图9描绘了在代表性实施例中支持第二ML层的代表性云计算基础结构的进一步细节。如所描绘的，云层包括几个子系统，即：驱动程序900、云对象存储(cloud objectstorage，COS)系统902和并行计算平台904(例如Apache Spark集群)。这些子系统之间的通信由连接器910提供，该连接器910可以被实施为SDK(例如，Boto3、Aspera、Livy和Stocator)。子系统之间的认证由认证服务912提供。在示例性操作场景中，驱动程序900将配置914和训练数据916推送到云存储902。驱动程序900还将ML功能(例如，以应用包的形式)部署到Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)905上，其中该Hadoop分布式文件系统与包括主(领导者)节点906和一组计算节点908的Spark集群位于同一位置。在Spark集群上运行的ML应用将ML配置和训练数据检索到HDFS 905，然后它以已知的方式对Spark集群组件执行机器学习计算。基于Spark集群的ML库(例如高斯混合模型和潜在狄利克雷分配(Latent Dirichlet allocation，LDA))可以用于此目的。结果在云中报告，和/或返回给与企业相关联的安全分析人员。上述云基础结构组件仅仅是代表性的。

因此，在本公开的上下文中，提供分布式机器学习环境，其中优选地，学习的第一部分在本地环境中运行，而学习的第二部分在云上运行。在第一层中，机器学习优选地用于学习对于多个用例的统计，而第二层优选地捕获本地运行的多个用例之间的相关性。以下描述提供了这种分层方案的一个示例场景。

本地检测(在本地UBA应用上)：

令

代表用于分析用例k的、直到时间t的用户日志活动(训练数据)：

在上面，U是用户总数，W表示滑动窗口的长度，以及K是在本地环境中运行的用例总数。用户j在时间t处的异常得分

通过与对于此用户的训练数据的平均值的活动偏差来测量：

当得分大于直到时间t-1的过去数据的标准偏差的一部分时，时间t处的用户j被标记为异常，即，

其中θ是分数系数，并且

是标准偏差，被表示为：

随着获得新数据点，更新

和

在这种过程中，滑动窗口的长度W可用于限制训练数据的大小。因此，例如，假设一个月的训练数据，当分析基于每小时的数据时，W的值为672，当分析基于每天的数据时，W的值为30。应用指数加权移动平均，然后优选地在线(即，在云上)更新

和

例如，如下：

其中α是权重因子。

在代表性时间序列分析中，用例(在本地运行的用例)分析低维度的时间系列数据，例如，训练数据中的仅一个特征(或者只是几个特征)。使用如下所述的基于云的资源，这种时间序列分析可以被推广到高维度的特征，甚至对于这样的单独用例。在代表性操作场景中，系统对这种高维度的数据应用维度缩减技术，例如通过应用潜在狄利克雷分配(LDA)。

全局检测(在云应用上)：

在云中执行的机器学习算法包括，例如，潜在狄利克雷分配(LDA)、高斯混合模型(Gaussian Mixture Model，GMM)等。在涉及上述场景(即，本地运行的多个低维度的用例)的实施例中，云上的应用可操作以捕获不同用例之间的相关性。现在描述这种多用例相关性。

具体而言，且如上所述，优选地，马氏距离(MD)函数用于捕获不同用例中观察到的参数之间的相关性。与欧几里德距离相反，MD区分多变量数据组，并且当它们的尺度不同时，揭示一个参数对其它参数的变化性影响。

为此，令：

表示针对所有K个用例的在时间t处的用户j的候选异常，令A_j表示包含对于所有K个用例的、在最后T个时隙内用户j的异常数据点的T×K矩阵。

对于每个新数据点t以及对于用户j，滑动窗口中不同用例之间的MD被计算为：

其中μ_j＝(μ_j，1，μ_j，2，…，μ_j，K)^T是平均向量，并且μ_j，k是用例k中用户j的测量的平均，S_j是这些K个用例的协方差矩阵：

矩阵S_j的第k行和第k’列的元素被计算为：

MD_j，t测量用例测量相互偏离的程度，这遵循具有K个自由度的卡方(chi-square)分布。在一个实施例中，如果：

则针对时间t处的用户j发出警报。

如普通技术人员将理解的，上述计算(其发生在云上，并且云层通过其学习对于每个用户的相关性统计)在本地环境中不可行，至少部分是因为它针对优选的所有用例优选地使用所有训练数据。如上所述，典型地在本地环境中，用例只使用自己的一组训练数据。然而，考虑到云资源是可扩展的，云计算在计算和存储方面是高效的。优选地，在表示异常的每个新数据点上为每个单独的用户维护和更新MD矩阵；因此，资源需求并非无关紧要，尤其是对于拥有大量用户的大型企业而言。

上述ML算法或计算并不意图受到限制，而是仅仅作为如何使用框架执行分布式学习的示例场景来提供。可以受益于或以其它方式利用这里的分布式学习方案的其它方法包括但不限于超参数优化(诸如支持向量机)、梯度计算(诸如随机梯度下降)、提升算法(诸如梯度提升机)、随机森林、MapReduce(用于处理分布式数据源)、期望最大化算法、神经网络等。

这里的机器学习系统提供了显著的优点。它利用多层分布式学习方案，使得每一层学习都合适地利用可用的硬件和可用的软件资源。该方法尤其使能时间序列分析的多个用例之间的相关性(例如，通过马氏距离)，从而使本地系统具有同时运行的多个用例，其中每一个用例都可以使用不同的算法。分布式机器学习使能够稳健地检测网络活动或用户行为中出现的异常。该方案细粒度、高效且可扩展。更一般地，这里的技术提供了增强的网络活动和用户行为分析系统，该系统可检测内部威胁，帮助安全分析人员检测网络上发生的异常或恶意行为。

此主题可以全部或部分实施为服务。机器学习(ML)功能可以作为独立功能提供，或者它可以利用来自其它基于ML的产品和服务的功能。

在典型的用例中，SIEM或其它安全系统已经于此与用户界面相关联，该用户界面可用于可视化呈现警报，从警报数据库搜索和检索相关信息，以及执行与其相关的其它已知输入和输出功能。

如上所述，这里的方案被设计成在安全系统(诸如SIEM)内或与该安全系统相关联地以自动化方式实施。

本公开中描述的功能可以全部或部分实施为独立方案，例如由硬件处理器执行的基于软件的功能，或者它可以作为受管的服务(包括经由SOAP/XML接口作为网络服务)而可用。这里描述的特定硬件和软件实施方式细节仅仅是为了说明的目的，并不意味着限制所描述主题的范围。

更一般地，所公开主题的上下文中的计算设备每个都是包括硬件和软件的数据处理系统(诸如如图2所示)，并且这些实体通过诸如互联网、内联网、外联网、专用网络或任何其它通信介质或链路的网络相互通信。数据处理系统上的应用提供对网络和其它已知的服务和协议的本地支持，包括但不限于对HTTP、FTP、SMTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从负责开发和维护这些标准的万维网联盟(W3C)获得；关于HTTP、FTP、SMTP和XML的进一步的信息可从互联网工程任务组(IETF)获得。假设熟悉这些已知的标准和协议。

这里描述的方案可以在各种服务器侧架构中或者与该各种服务器侧架构相结合地实施，该各种服务器侧架构包括简单的n层架构、网络门户、联合系统等等。这里的技术可以在松散耦合的服务器(包括基于“云”的)环境中实践。

更一般地，这里描述的主题可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在优选实施例中，该功能是以软件实施，包括但不限于固件、常驻软件、微代码等。此外，如上所述，基于身份上下文的访问控制功能可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式，其中该计算机可用或计算机可读介质提供用于由计算机或任何指令执行系统使用或与之相结合地使用的程序代码。为了本描述的目的，计算机可用或计算机可读介质可以是能够包含或存储用于由指令执行系统、装置或设备使用或与之相结合地使用的程序的任何装置。介质可以是电子、磁、光、电磁、红外或半导体系统(或装置或设备)。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、硬磁盘和光盘。光盘的当前示例包括压缩盘—只读存储器(compact disk–read only memory，CD-ROM)、压缩盘—读/写(compact disk–read/write，CD-R/W)和DVD。计算机可读介质是有形物品。

计算机程序产品可以是具有程序指令(或程序代码)以实施一个或多个所述功能的产品。这些指令或代码可以在通过网络从远程数据处理系统下载之后，存储在数据处理系统的计算机可读存储介质中。或者，这些指令或代码可以存储在服务器数据处理系统中的计算机可读存储介质中，并且适配于通过网络下载到远程数据处理系统，以用于在远程系统内的计算机可读存储介质中使用。

在代表性实施例中，威胁处置和建模技术在专用计算机中实施，优选地在由一个或多个处理器执行的软件中实施。软件被维持在与一个或多个处理器相关联的一个或多个数据贮存或存储器中，并且软件可以被实施为一个或多个计算机程序。总的来说，这种专用硬件和软件包括上述功能。

虽然以上描述了由本发明的某些实施例执行的操作的特定顺序，但是应当理解，这种顺序是示例性的，因为替代实施例可以以不同的顺序执行操作、组合某些操作、重叠某些操作等。说明书中对给定实施例的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例不一定包括该特定的特征、结构或特性。

最后，虽然已经分别描述了系统的给定组件，但是普通技术人员将理解，一些功能可以在给定指令、程序序列、代码部分等中组合或共享。

这里的技术提供了对另一种技术或技术领域(例如，安全事件和事件管理(SIEM)系统、其它安全系统)的改进，以及对基于自动化的网络安全分析的改进。

这里使用的“层”的概念并不意图限制，例如，要求在分布式ML功能之间或之中的某种刚性类型的分层关系。“层”也可以被设想为“级别”，或者更一般地，可以被设想或基于分布式ML功能的组件或部分。

Claims

1.一种用于与企业环境相关联的异常检测的方法，包括：

提供第一机器学习以训练至少第一分析和第二分析，所述第一分析对应于第一用例，并且所述第二分析对应于与所述第一用例不同的第二用例；

输出从所述第一机器学习导出的异常信息，所述异常信息包括作为应用所述第一分析和第二分析的结果而检测到的数据点；以及

基于所述异常信息提供第二机器学习以捕获至少第一用例和第二用例中观察到的参数之间的相关性；

其中，所述第一机器学习发生在企业网络中，并且所述第二机器学习发生在与所述企业网络不同的云计算环境中。

2.如权利要求1所述的方法，其中，所述第一用例中的每个用例使用不同的训练数据集。

3.如权利要求2所述的方法，其中，所述训练数据集是时间序列数据。

4.如权利要求1所述的方法，还包括从企业网络向云计算环境输出配置和训练数据。

5.如权利要求1所述的方法，其中，所述相关性是多维距离测量。

6.如权利要求1所述的方法，还包括基于由所述第二机器学习提供的所捕获的相关性，针对检测到的网络活动或用户行为采取行动。

7.一种用于与企业环境相关联的异常检测的装置，包括：

硬件处理器；

计算机存储器，保存由所述硬件处理器执行的计算机程序指令以用于与企业环境相关联的异常检测，所述计算机程序指令被配置为实施如权利要求1-6中的任一项所述的方法的步骤。

8.一种计算机可读介质，其上存储有计算机指令，所述计算机指令在被处理器执行时实施如权利要求1-6中的任一项所述的方法的步骤。

9.一种用于与企业环境相关联的异常检测的系统，包括用于实施如权利要求1-6中的任一项所述的方法的步骤的装置。

10.一种用于异常检测的机器学习系统，包括：

第一机器学习系统，在第一操作环境中执行，所述第一机器学习系统训练至少第一分析和第二分析，所述第一分析对应于第一用例，并且所述第二分析对应于与所述第一用例不同的第二用例；和

第二机器学习系统，在远离所述第一机器学习系统的第二操作环境中执行，所述第二机器学习系统被配置为捕获至少第一用例和第二用例中观察到的参数之间的多维距离测量相关性，所述观察到的参数被所述第一机器学习系统导出，

其中所述第一机器学习系统作为安全事件和事件管理平台SIEM中的应用执行，并且其中所述第二机器学习系统作为在具有所述第二操作环境的云计算基础结构中的应用执行。