CN103577514A

CN103577514A - 用于自动数据探索的方法和装置

Info

Publication number: CN103577514A
Application number: CN201310213773.3A
Authority: CN
Inventors: A·贝格尔兹莫; N·马斯特纳德; S·帕塔萨拉蒂; A·V·里亚博夫; D·图拉加; O·乌德雷亚
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-08-02
Filing date: 2013-05-31
Publication date: 2014-02-12
Also published as: US20140040279A1

Abstract

本发明涉及一种用于自动数据探索的方法和装置。用于自动数据探索的方法包括：从分析流模式选择多个分析流；执行任务，其中通过所述多个分析流跟踪所述任务；接收所述多个分析流中的每个分析流的反馈；确定所述多个分析流中的每个分析流的性能得分；以及根据所述性能得分来调整所述流。

Description

用于自动数据探索的方法和装置

技术领域

本发明一般地涉及数据挖掘、机器学习以及数据探索，更具体地说，涉及选择和部署数据分析的分析流。

背景技术

数据挖掘和机器学习这两门学科涉及开发用于从经验数据中发现演进模式和行为并支持基于这些模式和行为执行决策的工具。

针对特定数据使用特定挖掘或学习方法通常涉及根据给定数据表示使用数据源，从数据中提取感兴趣的特征子集，将特征引入学习方法中以构建模型，以及根据反馈或真实情况演进或改善模型。这些方法依赖用户的经验。通常，用户跨方法进行整合，具体而言，用户专注于选择学习方法和选择感兴趣的特征。针对数据探索选择特定机器学习方法是一个耗时的人工密集型过程，需要机器学习和经验数据领域中的专门技能。

发明内容

根据本发明的一个实施例，一种用于自动数据探索的方法包括：从分析流模式选择多个分析流；执行任务，其中通过所述多个分析流跟踪所述任务；接收所述多个分析流中的每个分析流的反馈；确定所述多个分析流中的每个分析流的性能得分；以及根据所述性能得分来调整所述流。

根据本发明的一个实施例，一种用于自动数据探索的方法包括：从分析流模式选择多个分析流以便检测计算机网络业务中的异常；执行用于检测所述计算机网络业务中的所述异常的任务，其中通过所述多个分析流跟踪所述任务；接收所述多个分析流中的每个分析流的反馈；确定所述多个分析流中的每个分析流的性能得分，所述得分指示相应分析流检测所述计算机网络业务中的恶意软件活动的能力；以及根据所述性能得分来调整所述流。

附图说明

下面将参考附图更详细地描述本发明的优选实施例，这些附图是：

图1是根据本发明的一个实施例的分析流模式；

图2是根据本发明的一个实施例的基于图1的分析流模式的示例性分析流；

图3是根据本发明的一个实施例的用于执行机器学习任务的端到端应用的图示；以及

图4是根据本发明的一个实施例的用于实现用于自动数据探索的方法的计算机系统的示意图。

具体实施方式

根据本发明的一个实施例，机器学习任务可以利用应用的分析流和各种任务的对应分析流模式。这些任务包括—但不限于—自动选择学习方法（多个）、从原始数据推导出特征，选择输入到每种方法的特征，以及根据反馈改变包含在这些任务中的方法、特征、模型以及变量参数。

在许多领域中，用于最终用户（例如，领域专家）的一组流可以遵循特定模式。流开发人员可以指定独立的流和流模式。流模式描述在结构上类似并执行类似任务的可能流的空间。

将根据计算机网络的安全分析应用描述本发明的各示例性实施例。应该理解，此处描述的实施例仅作为示例，在不偏离本发明的范围的情况下，本领域的技术人员可以在其中做出各种其它更改和修改。

图1是根据本发明的一个实施例的计算机网络的安全分析应用的示例性分析流模式。图1的分析流模式为通用模板或模式，其归纳并编码一组任务中的不同分析流。分析流模式可以由域专家指定，从一个或多个传感器或探测器（例如，输出事件、实时数据、数据记录等）推导出等。

分析流模式跟踪任务之间的数据流。例如，图1的分析流模式包括引入数据源（101）、属性选择（102）、从选定属性提取特征（103），属性分组（104）（例如，根据所提取的特征）、数据聚合（105）、统计模型构建（106），以及统计上的意外事件（statistical surprises）的检测（107），例如计算机网络安全应用中的入侵检测。

图2是根据本发明的一个实施例的示例性分析流，其引入域名服务器（DNS）数据流。图2所示的分析流是图1的分析流模式的一个实例。

可经由分析本体、推理、自动化流合成/计划方法等从分析流模式提取分析流。例如，在一个示例性自动计划和分析流生成工具（例如，MARIO）中，该工具使用注释分析流构造块（例如，已标记组件）存储库，接受分析流模式，以及从构造块中自动创建一个或多个分析流。更具体地说，MARIO是跨平台流程合成器，可用于跨多个信息处理平台合成和部署应用。MARIO生成高级平台无关的流，并调用平台特定的后端插件以生成和部署这些流的平台特定实现。分析流是分析流模式的实例。

分析流模式可使用专用语言来编写，例如Cascade。Cascade是描述图模式的语言。模式提供自上而下的结构化方法来定义允许的流。通过这种方式，模式帮助将规划者的搜索空间限于较小的有用流集合。模式还可以帮助针对特定域中的信息处理捕捉可重用的设计模式。

不同的平台可以具有它们自己的流语言，例如BPEL适用于面向服务的系统，SPL在IBM的Systems S流处理平台中使用，Pig Latin在ApachePig中使用等。Cascade与平台和领域无关。它允许以递归的方式描述组件，其中组件可以是原始组件，也可以是复合组件，它在内部定义组件流。Cascade组件可通过将一组标签与分析流模式中的每个输出端口相关联来为开发人员提供注释。

图2的分析流表示数据源（201）和各种原子运算符（200）的特定合成。原子运算符（200）表示不同的数据探索和数据处理过程。原子运算符可以被视为容纳实现数据流分析的运算符的容器。原子运算符可分布在一个或多个计算机节点上。原子运算符可以包括分析运算符、数据变换、过滤器、统计模型构建器等。

现在更详细地参考图2，在引入特定数据流（例如，网络中的用户发出的DNS查询）的分析流中，第一原子运算符（201）将DNS数据流引入包括原子运算符（200）的分析管道。数据流可具有特定模式（Schema）。此外，并非模式（Schema）中的所有属性都可用于当前实例。

一旦被引入，就可从DNS数据流提取感兴趣的属性。例如，原子运算符可用于从DNS查询和响应字段提取属性。在图2中，可以通过一组原子运算符（202a-202c）执行属性提取。例如，所提取的属性可以包括DNS查询的源、查询所针对的域名，查询的状态（成功或失败），以及时间戳。

提取属性之后，可以执行从所提取的属性推导出特定感兴趣的特征的过程（203）。这些过程可以包括从IP地址推导出子网，从时间戳推导出一天内的某一时间。

在图2的示例性实例中，推导过程203之后是数据聚合过程（204）。聚合指将多个数据项组合成单个数据记录，过滤指删除被认为不必进一步分析的数据记录。数据聚合过程（204）可以包括以聚合方式将数据流中的多个数据项收集在一起并进行概述。

数据聚合可以在完整的数据流上执行，也可以在跨多个兴趣分组对数据流进行分区之后执行。例如，在恶意软件检测的情况下，推导出的聚合可以包括网络中的每个主机在一个时间窗口上做出的多个查询、多个成功的查询、多个未成功的查询，以及多个分别包含成功查询和未成功查询的不同查询。

数据聚合过程（204）可以后跟统计模型构建过程（205）。例如，统计模型构建过程（205）可以包括根据用户在某一时段（例如，一个小时）内访问的不同域的数量来构建用户的直方图。将理解，可使用其它各种统计模型。例如，对应于已访问的子网、内容分析等的统计模型。

统计模型构建过程（205）可以后跟用于检测统计上的意外事件或异常的过程（206）。检测过程（206）可以包括提取其查询计数超过均值一定程度（例如，超过三个标准差以上）的用户(多个)。将理解，可以实现其它各种检测过程并且本发明不限于此处描述的实例。

在一个统计模型实例中，可以定期确定主机的协议和端口的熵。在该实例中，相应的检测过程可以根据过去的300个值检测熵的变化（例如，高于阈值）。在另一实例中，统计模型可以测量针对每个主机触发的入侵检测系统警报的一分钟直方图的小波系数，并且检测过程可以在各时点处选取那些在小波系数（例如，高频系数或低频系数）中具有异常高能量的主机。在又一实例中，统计模型可以确定直方图在一段时间间隔上的k均值聚类，并且检测过程可以选取出异常值。如上所述，可以构想其它各种模型和过程，此处提供的特定实例并非旨在作为限制。数据源可以包括来自网络的DNS查询。其它数据源可以包括入侵检测系统（IDS）/入侵防御系统（IPS）警报、防火墙警报和/或日志、DNS响应、路由器在网络中创建的网络流记录，以及原始网络业务和/或踪迹，以及诸如安全更新（例如，在公共域中发现和公布的软件补丁和漏洞）之类的其它数据源。分析流模式可以编码所有这些可能的选项，而具体的分析流（100）将数据源和流中的其它原子运算符进行具体化(crystallize)。

图3示出端到端应用用来执行机器学习任务的方法。现在参考图3，可从网络引入DNS网络业务（301）。

在方框（302），所述方法选择各种分析流。这些分析流可以涉及属性选择、特征提取以及将主机分类为被感染或未被感染。在方框（302），所述方法可以包括构建分类器并使用分类器对主机进行分类。

方框（302）可被实现为自动反馈的一个实例。在一组分析流根据它们确定的感染行为准则来标记主机时，在方框（303），所述方法可以根据来自外部源的真实情况（304）推导出反馈。例如，在方框（303），所述方法可以包括确定网络中哪些被主机访问的域是因特网中的黑名单域（作为内容分析的结果）的一部分。所述方法可以包括在给定网络探测数据之后，检测弱基础设施，例如检测基础设施中的瓶颈。所述方法可以还包括检测网络业务中的恶意软件内容。

方框（303）的反馈可以由方框（302）用于改善所述一组分析流。更具体地说，在方框（302），所述方法可以确定哪些流根据反馈（305）正确地预测受感染的主机并为这些流提供较高的权重。这些流更可能被保留。类似地，在方框（302），所述方法可以确定哪些流未与反馈很好地匹配，并且这些流可被丢弃和/或被其它流取代，例如被较新的流取代。通过所述方式，可增加整体检测速度。决定保留哪些流以及丢弃哪些流的任务可以由机器学习算法自动执行。

反馈可以由一个或多个外部源提供，也可以通过从系统到一个或多个外部源的多个订阅来获知。反馈可以确认或拒绝至少一个分析流的执行。例如，反馈可以确认某一域被正确标记。

尽管图3所示的探索的一个目标是分类，但是此处体现的发明概念可用于其它任务，例如异常检测，构建主机行为统计模型，以及群集。

本发明的各实施例的方法可非常适合于在电子设备或备选系统中使用。因此，本发明的各实施例可以采取完全的硬件实施例或组合了在此可统称为“处理器”、“电路”、“模块”或“系统”的软件和硬件方面的实施例的形式。此外，本发明的实施例还可以采取在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可用或计算机可读介质的任意组合。计算机可用或计算机可读介质可以是计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

上面参考所述方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的实施例。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。

这些计算机程序指令可以存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。

这些计算机程序指令可以存储在能使得计算机、其它可编程数据处理装置或其它设备以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

例如，图4是示出用于执行自动数据探索的方法的示例性计算机系统的框图。计算机系统401可以包括处理器402、与所述处理器耦合（例如，通过总线404或备选的连接手段）的存储器403，以及在操作上与处理器402对接的输入/输出（I/O）电路405-406。处理器402可被配置为执行本发明中描述的一种或多种方法，这些方法的示例性实施例在上面的附图中示出并在此处进行描述。

本发明的各实施例可以实现为存储在存储器403中并由处理器402执行以处理来自信号源408的信号的例程407。因此，计算机系统401为通用计算机系统，当执行本发明的例程407时，变为专用计算机系统。

将理解，如在此使用的，术语“处理器”旨在包括任何处理设备，例如，包括中央处理单元（CPU）和/或其它处理电路（例如，数字信号处理器（DSP）、微处理器等）的处理设备。此外，将理解，术语“处理器”可以指在处理器中包含多个处理核的多核处理器，或指一个以上的处理设备，并且与某一处理设备关联的各种组件可以被其它处理设备共享。

如在此使用的，术语“存储器”旨在包括内存或与处理器或CPU关联的其它计算机可读介质，例如随机存取存储器（RAM）、只读存储器（ROM）、固定存储介质（例如，硬盘）、可移动存储介质（例如，软盘）、闪存等。此外，如在此使用的，术语“I/O电路”旨在例如包括一个或多个用于将数据输入处理器的输入设备（例如，键盘、鼠标等），和/或一个或多个用于呈现与处理器关联的结果的输出设备（例如，打印机、监视器等）。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

尽管此处参考附图描述了本发明的示例性实施例，但是将理解，本发明并不限于这些精确的实施例，在不偏离所附权利要求的范围的情况下，本领域的技术人员可以对这些实施例做出各种其它更改和修改。

Claims

1.一种用于自动数据探索的方法，所述方法包括：

经由相连计算机节点的网络接收数据流；

提取所述数据流的多个属性；

从每个所述属性推导出多个特征；

聚合所述数据流的多个数据项；

在给出所述属性、所述特征以及所述数据项的聚合的情况下，创建所述数据流的模型；以及

根据所述模型检测所述数据流中的事件。

2.根据权利要求1的方法，其中在完整的所述数据流上执行所述聚合。

3.根据权利要求1的方法，还包括对所述数据流进行分区，其中在所述数据流的一个分区上执行所述聚合。

4.根据权利要求1的方法，其中所述事件与所述模型不一致。

5.根据权利要求4的方法，还包括接收与所述模型的已测量性能对应的反馈。

6.根据权利要求5的方法，还包括根据所述反馈来调整所述数据流的所述多个属性的提取。

7.一种用于自动数据探索的装置，所述装置包括：

被配置为从分析流模式选择多个分析流的模块；

被配置为执行任务的模块，其中通过所述多个分析流跟踪所述任务；

被配置为接收所述多个分析流中的每个分析流的反馈的模块；

被配置为确定所述多个分析流中的每个分析流的性能得分的模块；以及

被配置为根据所述性能得分来调整从所述分析流模式选择所述多个分析流的模块。

8.根据权利要求7的装置，其中被配置为调整所述多个分析流的选择的模块包括被配置为从所述模式添加流的模块。

9.根据权利要求7的装置，其中被配置为调整所述多个分析流的选择的模块包括被配置为从现有选择删除流的模块。

10.根据权利要求7的装置，还包括被配置为请求所述反馈的模块。

11.根据权利要求10的装置，其中由外部源提供所述反馈。

12.根据权利要求10的装置，其中通过到外部源的多个订阅来获知所述反馈。

13.一种用于自动数据探索的方法，所述方法包括：

从分析流模式选择多个分析流以便检测相连计算机节点的网络之间的计算机网络业务中的异常；

执行用于检测所述计算机网络业务中的所述异常的任务，其中通过所述多个分析流跟踪所述任务；

接收所述多个分析流中的每个分析流的反馈；

确定所述多个分析流中的每个分析流的性能得分，所述得分指示相应分析流检测所述计算机网络业务中的恶意软件活动的能力；以及

根据所述性能得分来调整所述多个分析流的选择。

14.根据权利要求13的方法，其中调整所述多个分析流的选择包括从所述模式添加分析流。

15.根据权利要求13的方法，其中所述多个分析流的选择包括从现有选择删除分析流。

16.根据权利要求13的方法，其中还包括请求所述反馈。

17.根据权利要求13的方法，其中由外部源提供所述反馈。

18.根据权利要求13的方法，其中通过到外部源的多个订阅来获知所述反馈。

19.根据权利要求13的方法，其中所述反馈是对至少一个分析流的性能的确认。

20.根据权利要求13的方法，其中所述反馈是对至少一个分析流的性能的拒绝。

21.一种用于自动数据探索的装置，用于执行权利要求1至6中的任一权利要求的方法步骤。