CN105493096A

CN105493096A - 分布式模式发现

Info

Publication number: CN105493096A
Application number: CN201380079165.6A
Authority: CN
Inventors: 高飞; 赵志鹏; 阿努拉克·辛格拉
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Antite Software Co., Ltd.
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2016-04-13
Also published as: EP3039566A1; WO2015030741A1; EP3039566A4; US20160212158A1

Abstract

本文公开的示例实施例涉及分布式模式发现。接收单项项集。如果对应的单项项集是新的单项集，或对应的单项项集的对应事务集的项集大小低于阈值，则针对对应的单项项集建立新的候选项集。向一组节点输出新的候选项集和对应的事务标识符。

Description

分布式模式发现

背景技术

安全信息和事件管理(SIEM)技术提供对网络硬件和应用所生成的安全警报的实时分析。SIEM技术可检测对计算网络的可能威胁。这些可能威胁可根据对安全事件的分析来确定。

附图说明

下面的详细描述参照附图，其中：

图1和图2是根据各种示例的能够分布式模式发现的系统的框图；

图3是根据一个示例的用于基于分布式模式发现的规则来生成单项项集(itemset)的方法的流程图；

图4是根据一个示例的用于确定分布式模式发现的新候选项集的方法的流程图；

图5是根据一个示例的用于输出包括频繁项集的元组的方法的流程图；

图6是根据一个示例的用于从包括频繁项集的元组确定所发现的模式的方法的流程图；以及

图7是根据一个示例的能够建立新候选项集的计算设备的框图。

具体实施方式

模式发现是基于数据挖掘的先发制人的方法，用于解决安全信息和事件管理(SIEM)系统面临的许多挑战。随着大安全数据和专业的信息攻击者采用的先进的协作技术的涌现，SIEM系统正面临各种挑战，例如，零日漏洞探索、慢攻击、从一个系统到另一个系统的长期渗透、以及信息泄露。此外，黑客正在其仓库中增加之前从未见过的新武器。

先发制人的方法可用于不通过匹配已知的签名来检测系统异常，而是通过关联安全信息并发现系统中未知模式的痕迹来检测系统异常。SIEM中的模式发现是确定这些漏洞的有用方法。

在某些示例中，网络的安全信息/事件管理可包括从网络和网络设备收集反映网络活动和/或设备的操作的数据、以及分析数据以提高安全性。网络设备的示例可包括防火墙、入侵检测系统、服务器、工作站、个人计算机，等。可分析数据以检测模式，该模式可指示网络或网络设备上的攻击或异常。所检测的模式可用于例如定位数据中的那些模式。例如，模式可指示尝试访问网络中的计算机并安装恶意软件的蠕虫或其他类型的计算机病毒的活动。

从网络和网络设备收集的数据用于事件。事件可以为可被监控和分析的任意活动。针对事件采集的数据称作事件数据。可实施所采集的事件数据的分析，以确定事件是否与威胁或一些其他情况关联。与事件关联的活动的示例可包括登录、退出、通过网络发送数据、发电子邮件、访问应用、读或写数据、端口扫描、安装软件等。事件数据可从网络设备所生成的消息、日志文件条目来收集，或从其他源收集。安全系统还可生成事件数据，例如，相关事件和审计事件。

在一些示例中，还可通过建立已在线下学习的系统的正常模式的基线来实现异常检测。发生任何异常时，系统可检测新的模式并警告系统管理。SIEM的单个节点上的模式发现可限制于系统资源(例如，存储器、具有数据库(DB)的IO带宽，等)，使得其缺少处理大数据的能力，这在现代先进的企业安全体系中是常见的。此外，如果以批处理模式实现模式发现，则实时发现新模式是有挑战性的。

因此，本文描述的各种实施例涉及一种实时的能够扩展传统模式发现的分布式模式发现引擎。此外，各种实施例可用于在关联的数据流式传入时，实时响应新的模式。模式发现程序可分流并分成多个级。此外，多个节点可用于多个级。

如图1中进一步描述的，这些节点可包括事务项节点、单项计数节点、事务项集生成器(builder)节点、项集计数器节点、以及模式输出节点。一个或多个节点可分配于模式发现的每个级。在一些示例中，映射/归约、Storm(风暴)、或其他方法可用于平衡工作负载。因此，本文描述的方法可避免数据集中的I/O瓶颈以及计算集中的瓶颈。有利地，本文描述的方法可改善发现实时模式的性能。可在流处理框架上实现映射/归约和/或Storm方法，以提供在多级上流模式发现处理的机制，以及在一个或多个节点上并行化每级中的任务，以避免瓶颈。这允许实时处理持续流动的安全信息和事件数据。

节点可检查事件组成，并将相关事件组识别为事务。随后可确定频繁项集。在某些示例中，频繁项集是一起频繁地出现在不同事务中的相关事件组。因此，一个或多个安全事件可包括在事务中。可被定制以例如满足消费者指定的标准的这些频繁项集中的一些是恶意攻击的痕迹，且可用作未来分析的签名。

这可能是关联项集挖掘的情况，其可在形式上被描述如下：令I＝{a₁,a₂,a₃…,a_m}是项集，且事务数据库DB是I的子集的集合，由DB＝{T₁,T₂,T₃…,T_n}表示，其中T_i(1≤i≤n)称为事务。可能模式A的由supp(A)表示的支集是DB中包含A的事务的数量，且可能模式A的由length(A)表示的长度是A中项的数量。在一个示例中，当且仅当supp(A)≥ξ₁且length(A)≥ξ₂时，A被认为是频繁模式，其中ξ₁是模式支集的预定义阈值，且ξ₂是模式长度的预定义阈值。项的示例可包括用于模式发现的字段和参数。模式长度可认为是活动的数量。

根据示例，针对模式发现选择字段和参数。事件数据中的事件可具有大量的属性。事件数据可根据与事件数据中的事件的属性关联的字段来存储。例如，字段是描述事件数据中的事件的属性。字段的示例包括事件的日期/时间、事件名称、事件类别、事件ID、源地址、源MAC地址、目的地址、目的MAC地址、用户ID、用户权限、设备客户字符串等等。事件数据可存储在由字段组成的表中。在一些情况下，反映不同事件属性的数以百计的字段可用于存储事件数据。

针对模式发现，选择字段中的一些。例如，所选择的字段可包括来自表的字段的集合。集合中的多个字段可包括来自表的字段中的一个或多个。集合的所选择的字段可基于各种统计来选择，且可存储在模式发现分布(profile)中。模式发现分布是用于发现事件数据中的模式的任何数据。模式发现分布可包括字段的集合、用于模式发现的参数和其他信息。

除了包括字段之外，参数可用于模式发现。参数可包括在模式发现分布中，以供模式发现。参数可规定模式发现分布中的字段与事件数据匹配的条件，以检测模式。此外，参数可用于调整所检测的模式的数量。参数的一个示例是模式长度，模式长度是活动数。模式长度参数可表示为了将被认为是模式的活动所执行的不同活动的最小数量。参数的另一个示例是可重复性参数，可重复性参数可表示为了使其被认为是模式而重复不同活动的最小次数。在一个示例中，重复性与两个字段关联。例如，重复性可被表示为其上活动被重复的源和目标字段的不同组合。源和目标IP地址的不同组合的最小数是重复性参数的示例。可调整这些参数，直至预定量的匹配模式被识别。

在某些示例中，模式是一系列多个不同活动，例如事务。频繁模式可被检测为满足某些参数(例如，支集和长度)的可能模式。在模式的示例中，一系列活动包括扫描端口、识别打开的端口、向该端口发送具有特定的有效载荷的包、登录到计算机系统以及将程序存储在计算机系统上的特定位置中。

此外，识别重复的模式。例如，如果多个不同的活动重复，则可认为是重复的模式。此外，模式可在两个计算机系统之间。因此，模式可包括与不同的计算机系统关联的源字段和目标字段。在一个示例中，源字段和目标字段是计算机系统的互联网协议(IP)地址。源字段和目标字段描述计算机系统之间的事务。模式活动还可通过除源字段和目标字段中的一个之外的或替代源字段和目标字段中的一个的其他字段，而分组在一起。在一个示例中，可跨用户ID分析模式活动，以识别多个用户所重复的活动的序列或集合。在另一示例中，可跨信用卡号或客户分析模式活动，以识别跨多个信用卡账户的活动的序列或集合。

除源字段和目标字段中的一个之外的或者替代源字段和目标字段中的一个的其他事件字段，可包括在模式发现分布中。在一个示例中，字段用于识别特定模式，且称作模式识别字段。在一个示例中，模式识别字段是事件名称或事件类别。在另一示例中，其可为信用卡交易量。在又一示例中，其可为用于检测应用URL访问模式的事件请求URL字段。

病毒的模式的一个简单化示例如下。一个事件是端口扫描。端口的扫描发生在源机器上。下一个事件是向目标机器发送包。下一个事件可为登录到目标机器。下一个事件可为在目标机器处的端口扫描以及其他事件的重复。以此方式，病毒可复制。通过检测重复的事件为模式，可检测病毒。例如，针对模式发现所选择的字段可为事件名称，并且重复性参数是4，且活动参数的数量是3。被检测的唯一事件具有端口扫描的事件名称、包传输以及目标/目的机器上的登录。事件数是3。此模式包括3个不同的事件(例如，端口扫描、包传输以及目标/目的机器上的登录)，其满足活动参数的数量。如果例如在模式发现运行期间，此模式被检测至少支集次数，则其满足重复性参数，且其被认为模式匹配。可生成通知消息或其它类型的警告。

多个模式发现分布可被创建用于检测各种不同的参数，如果检测到模式，则可实施动作。例如，如果模式表示网络安全上的攻击，则可实施通知、警告、或其他动作以停止攻击。其它动作可包括显示模式中的事件，以供网络管理员分析。

图1和图2是根据各种示例的能够分布式模式发现的系统的框图。系统100可包括经由通信网络112与彼此和/或其他设备通信的事务项节点102、单项计数节点104、事务项集生成器节点106、项集计数器节点108、模式输出节点110。在某些示例中，节点102、104、106、108、110是计算设备，例如，服务器、客户端计算机、台式机、移动计算机，等等。可经由一个或多个处理元件、存储器器、和/或其他组件实现各节点。

节点中的每个可包括通信模块132、142、152、162、172。通信模块132、142、152、162、172可用于在各节点之间通信，和/或与作为通信网络112的部分和/或另一个网络的部分的其他设备通信。

本文所用的方法可用于分布式流处理。在一些示例中，可使用像STORM或映射/归约方法这样的分布式实时计算平台。使用分布式系统，可通过将数据分成独立的更小部分来处理大数据，并并行处理它们。还可使用本文的方法促进扩展。分布式计算平台可用于实时处理无边界数据流。

事务项节点102可包括项对模块134。此级处的节点可接收来自数据收集器的事务数据。事务数据可基于数据来自哪被格式。数据可来自如上所述的各种源。示例的源包括SIEM和日志管理设备，但数据还可直接从数据库和文件系统接收。这些事务项节点102可向下一个单项计数节点104输出项和事务标识符(ID)对。因此，单项计数节点104的输入可被预处理且是统一的。一个示例输出包括在表1中：

表1：

项	事务标识符
		登录	用户1
源控制访问	用户1
		登录	用户2

单项计数节点104可经由通信模块142接收项和事务标识符对。可维护单项事务集表144。单项事务集表144可包括与特定的单项事务集的倍数关联的计数。

表2：单项事务集表：

项	事务集
		<登录>	<用户1，用户2，用户3>
<源控制访问>	<用户1>

表3：单项节点的输出：

项集	事务集
		<登录>	<用户1，用户2，用户3>

如果项的事务集的大小超过阈值ξ₁，则单项是频繁单项，且编成单项项集。单项项集及其事务集一起输出到事务项集生成器节点106。在一些示例中，在系统将想要输出单频繁项集的情况下，单项项集和事务集还可输出到模式输出节点110。

此外，在一些示例中，可包括附加的分割节点，以将每个项集的事务集分成单独的事务ID，并向事务项集生成器节点106输出项集及其事务ID的对。

事务项集生成器节点106维护事务-频繁项集表154。表4示出事务-频繁项集表的简单示例。

表4：事务-频繁项集表：

事务标识符	项
		用户1	登录
用户1	源控制访问
		用户2	登录

当项集及其事务ID的新对流入时，事务生成器模块156检查该表。如果它是新的单项集或项集大小未达到事务的阈值(例如，最大项大小)，则事务生成器模块156将尝试建立所有可能的新候选项集，该项集具有大小＝[进入项集].大小+1，且元素为进入项集元素加上事务ID的(不在进入项集中的)的频繁单项中的一个。与其事务ID配对的新候选项集被输出到项集计数器节点108。示例输出在表5中示出：

表5：

项集	事务集
		<登录，源控制访问>	<用户1>

项集计数器节点108保持追踪每个候选项集的事务集。随着新的项集-事务ID进入，合并模块164联合进入的事务ID与相同项集的事务集，以生成项集和事务集的新元组(见下面的示例输出)。合并之后，频繁项集模块166检查新元组是否使项集为频繁项集(例如，对应的事务集大小是否超过ξ₁)。因此，可基于一组规则确定新元组是否是频繁项集。如果是，向模式输出节点110发送频繁项集。在一些示例中，频繁项集还被发送至附加的分割节点，该分割节点可使用其作为创建下一级别的候选项集的基础。示例输出在表6中示出：

表6

项集	事务集
		<登录，源控制访问>	<用户1，用户2，用户3>

模式输出节点110接收频繁项集。模式输出节点110输出所发现的模式。对于所有进入的[项集]-[事务集]对，如果项集的大小大于ξ₂，且其对应的事务集大小大于ξ₁，则其被认为是将输出的所发现的模式。模式模块174可生成与要输出的所发现的模式关联的模式数据。输出可为向一个或多个SIEM、一个或多个其他安全设备(例如，入侵保护系统)、数据库等输出。在一些示例中，模式数据被格式化为对应的输出类型。

根据上述方法，模式发现程序可分成多个级/节点，且可实时发现模式。对于每个级/节点集，映射/归约方法、STORM或其他处理可用于平衡各级处的多个节点之间的工作负载。因此，本文描述的方法可在发现模式的同时避免数据和计算集中的瓶颈。

通信网络112可使用有线通信、无线通信、或其结合。此外，通信网络112可包括多个子通信网络，例如，数据网络、无线网络、电话网络，等。这样的网络可包括例如：公共数据网络，例如，互联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、有线电视网络、光纤网络、其结合，等等。在某些示例中，无线网络可包括蜂窝网络、卫星通信、无线LAN，等。此外，通信网络112可采用各设备之间的直接网络链接的形式。各种通信结构和基础设施可用于实现通信网络。

通过示例的方式，各节点和/或其他设备通过经由通信协议或多个协议接入通信网络112来与彼此和其他组件通信。协议可为定义通信网络112的节点如何与其它节点交互的一组规则。此外，网络节点之间的通信可通过交换离散的数据包或发送消息来实现。包可包括与协议关联的头信息(例如，关于要联系的网络节点的位置的信息)以及有效载荷信息。在一些示例中，节点可经由独立于其他设备的网络通信。

诸如适合于获取和执行指令的中央处理单元(CPU)或微处理器、和/或电子电路之类的处理器，可被配置为实施本文描述的模块132、134、142、144、146、152、154、156、162、164、166、172、174中的任意模块的功能。在某些场景下，指令和/或其他信息(例如，模式、事件、和/或项信息)可包括在存储器中。此外，可由各节点提供输入/输出接口。例如，像键盘、传感器、触摸界面、鼠标、麦克风等这样的输入设备可用于接收来自节点周围环境的输入。此外，像显示器这样的输出设备可用于为用户呈现信息。输出设备的示例包括扬声器、显示设备、放大器，等等。此外，在某些实施例中，一些组件可用于实现本文描述的其他组件的功能。

例如，各模块中的每个可包括包含用于实现本文描述的功能的电子电路的硬件设备。此外或作为替代，每个模块可被实现为编码在计算设备的机器可读存储介质上且可由至少一个处理器执行的一系列指令。应注意，在一些实施例中，一些模块被实现为硬件设备，而其他模块被实现为可执行指令。

图3是根据一个示例的用于基于分布式模式发现的规则来生成单项项集的方法的流程图。一个或多个计算设备可用于实现方法300。此外，用于执行方法300的组件可分布于多个设备中。方法300可以以存储在机器可读存储介质上的可执行指令的形式、和/或以电子电路的形式来实现。

事务项节点102接收来自收集器的事务数据。如上所述的，事务项节点102的项对模块134根据事务数据确定多个单项和事务标识符对(302)。在304处，事务项节点102向第二节点(例如，单项计数节点104)集输出单项和事务标识符对。

单项计数节点104接收单项和事务标识符对。单项计数节点104确定单项的事务集的事务大小是否大于阈值。如果是，则对应的单项被标记为对应的频繁单项，且生成对应的单项项集(306)，如上面进一步详述的。向第三节点(例如，事务项集生成器节点106)集发送对应的单项项集和对应的事务集。

图4是根据一个示例的用于确定分布式模式发现的新候选项集的方法的流程图。系统100的节点可用于实现方法400。此外，用于执行方法400的组件可分布于多个设备中。方法400可以以存储在机器可读存储介质上的可执行指令的形式、和/或以电子电路的形式来实现。

事务项集生成器节点106可从一个或多个单项计数节点104接收单项项集。各节点中的一个可基于负载均衡接收特定的项集。在402处，事务项集生成器节点106可维护事务-频繁项集表。每个节点可维护其自身的表，和/或可使用公共资源(例如，数据库)。

事务项集生成器节点106可确定对应的单项项集是否是新的单项项集、或是否具有小于阈值的对应事务集的事务集大小。如果是，则在404处，事务项集生成器节点106可建立新的候选项集，如上面详述的。在406处，(例如，向项集计数器节点108)输出新的候选项集和对应的事务标识符。

图5是根据一个示例的用于输出包括频繁项集的元组的方法的流程图。系统100的节点可用于实现方法500。此外，用于执行方法500的组件可分布于多个设备中。方法500可以以存储在机器可读存储介质上的可执行指令的形式、和/或以电子电路的形式来实现。

在502处，项集计数器节点108可从方法400接收新的候选项集。可使用STORM或映射/归约负载均衡方案来确定接收新的候选项集的节点。在504处，合并模块164将新的候选项集事务标识符与候选项集的对应事务集合并，以生成新的元组，如之前详述的。频繁项集模块166检查新的元组，以基于一组规则确定新的元组是否使候选项集成为频繁项集。在一个示例中，规则可为：如果对应的事务集大小大于ξ₁，则项集是频繁项集。在506处，如果存在频繁项集，则例如向一组模式输出节点110输出元组和频繁项集。

图6是根据一个示例的用于根据包括频繁项集的元组来确定所发现的模式的方法的流程图。系统100的节点可用于实现方法600。此外，用于执行方法600的组件可分布于多个设备中。方法600可以以存储在机器可读存储介质上的可执行指令的形式、和/或以电子电路的形式来实现。

在602处，一组模式输出节点110接收从方法500输出的元组和频繁项集。单独的节点可基于像SORTM架构或映射/归约方法这样的负载均衡系统接收元组和频繁项集。

在一个示例中，对于所有进入的[项集]-[事务集]对，如果项集的大小大于ξ₂，且其对应的事务集大小大于ξ₁，则其被认为是将输出的所发现的模式。模式模块174可生成与所发现的模式关联的模式数据供输出。在604处，输出所发现的模式。输出可为向一个或多个SIEM、一个或多个其他的安全设备(例如，入侵保护系统)、数据库等输出。在一些示例中，模式数据被格式化为对应的输出类型。

图7是根据一个示例的能够建立新候选项集的计算设备的框图。计算设备700包括例如处理器710、和包括用于建立新候选项集的指令722、724、726的机器可读存储介质720。计算设备700可为例如笔记本电脑、服务器、工作站、台式机、或其他计算设备。

处理器710可为至少一个中央处理单元(CPU)、至少一个基于半导体的微处理器、至少一个图形处理单元(GPU)、适用于获取和执行存储在机器可读存储介质720中的指令的其他硬件设备、或其结合。例如，处理器710可包括一个芯片上的多个核，包括跨多个芯片的多个核、(例如，如果计算设备700包括多个节点设备)跨多个设备的多个核、或其结合。处理器710可获取、解码、以及执行指令722、724、726，以实现诸如方法400之类的方法。类似地，其他设备可以能够从其他非暂时性机器可读存储介质读指令，以实施像方法300、500、600等这样的方法。作为获取和执行指令的替代或除了获取和执行指令之外，处理器710可包括包含用于实施指令722、724、726的功能的多个电子组件的至少一个集成电路(IC)、其他控制逻辑、其他电子电路、或其结合。

机器可读存储介质720可为包含或存储可执行指令的任意电子的、磁性的、光学的、或其他物理的存储设备。因此，机器可读存储介质可为例如随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、存储驱动、光盘只读存储器(CD-ROM)，等等。因此，机器可读存储介质可为非暂时性的。如本文详述的，机器可读存储介质720可被编码有用于建立候选项集的一系列可执行指令。

计算设备可执行通信指令726，以向其他设备发送通信以及从其他设备接收通信。在一个实施例中，计算设备从一个或多个单项计数节点104接收单项项集。计算设备700可表示一组事务项集生成器节点中的一个节点。可基于负载均衡方法，决定对应的单项项集被发送至计算设备700、或由计算设备700接收。在一些示例中，可使用映射/归约方法或STORM。此外，单项项集可对应于其对应的事务集大小大于阈值(例如，大于阈值ξ₁)的对应项。这些可以在可从一组事务项节点102接收项对的一个或多个单项计数节点104处被处理。如上所述，事务项节点102可从数据收集器接收要分析的数据。

计算设备可维护事务-频繁项集表。当项集及其事务ID的新对流入时，可执行项集计数器指令724以检查该表。如果其为新的单项集或项集大小未达到事务的阈值(例如，最大项大小)，则可执行项集生成器指令722，以尝试建立所有可能的新候选项集，该项集具有大小＝[进入的项集].大小+1，且元素为进入的项集元素加上事务ID的(未在进入的项集中的)频繁单项中的一个。因此，如果对应的单项项集是新的项项集，或对应的单项项集的对应事务集的项集大小低于阈值，则针对对应的单项项集建立新候选项集。输出与其事务ID配对的新候选项集。在一些示例中，如上所述，输出是到一组项集计数器节点的输出。

Claims

1.一种用于分布式模式发现的系统，包括：

多个节点，各自包括至少一个处理器和存储器，

其中所述节点中的第一节点是从多个其它节点接收多个项集和事务标识符对的事务项集生成器节点；

其中所述第一节点确定所述项集和事务标识符对与频繁项集表相比是否是新的；

其中所述第一节点确定对应的项集和事务标识符对是否具有低于事务的阈值项集大小的计数；以及

如果所述对应的项集和事务标识符对具有低于所述阈值项集大小的所述计数，则所述第一节点生成与其对应的事务标识符配对的新候选项集，并向所述节点中的第二节点发送所述新候选项集对。

2.根据权利要求1所述的系统，进一步包括：

所述节点中的作为接收所述新候选项集对的项集计数器节点的所述第二节点；

其中所述第二节点追踪所述新候选项集对中的每个的多个事务集，并且将所述对应的事务标识符与相同的候选项集的事务集合并，以生成新的元组。

3.根据权利要求2所述的系统，

其中所述第二节点基于一组规则确定所述新的元组是否是频繁项集；且

其中如果所述新的元组是频繁项集，则所述新的元组被发送至所述节点中的第三节点。

4.根据权利要求3所述的系统，进一步包括：

作为模式输出节点的所述第三节点，其中所述模式输出节点接收所述新的元组并生成与所述新的元组关联的模式数据。

5.根据权利要求1所述的系统，进一步包括：

所述节点中的维护单项-事务集表的第四节点，

其中如果单项的事务集及其对应的事务标识符的大小大于阈值，则所述单项被标记为频繁单项，且所述项集和事务标识符对中的一个被生成。

6.根据权利要求5所述的系统，进一步包括：

所述节点中的第五节点，所述第五节点从数据收集器接收事务数据，生成所述单项和对应的事务标识符，并且向所述第四节点输出所述单项和对应的事务标识符。

7.一种用于分布式模式发现的方法，包括：

在第一组节点处接收来自收集器的事务数据；

根据所述事务数据确定多个单项和事务标识符对；

向第二组节点输出所述单项和事务标识符对，

其中所述第二组节点确定所述单项中的每个的事务集的事务大小是否大于阈值，且如果是，则将对应的单项标记为对应的频繁单项，并生成对应的单项项集，

其中向第三组节点发送所述对应的单项项集和所述对应的事务集。

8.根据权利要求7所述的方法，进一步包括：

在所述第三组节点处接收所述对应的单项项集；

确定所述对应的单项项集是否是新的单项集或者所述对应的事务集的项集大小是否低于阈值，针对所述对应的单项项集建立新的候选项集；

向第四组节点输出所述新的候选项集和对应的事务标识符。

9.根据权利要求8所述的方法，进一步包括：

在所述第四组节点处接收所述新的候选项集；

将所述新的候选项集事务标识符与所述候选项集的相应事务集合并，以生成新的元组。

10.根据权利要求9所述的方法，进一步包括：

检查所述新的元组，以基于一组规则确定所述新的元组是否使所述候选项集为频繁项集。

11.根据权利要求10所述的方法，进一步包括：

向第五组节点输出所述新的元组，其中所述第五组节点生成所述频繁项集的关联模式。

12.一种存储指令的非暂时性机器可读存储介质，所述指令如果由用于分布式模式发现的设备的至少一个处理器执行，则使所述设备：

接收单项项集；

如果对应的单项项集是新的单项集，或所述对应的单项项集的对应事务集的项集大小低于阈值，则针对所述对应的单项项集建立新的候选项集，以及

向一组节点输出所述新的候选项集和对应的事务标识符。

13.根据权利要求12所述的非暂时性机器可读存储介质，其中所述对应的单项项集从多个节点被接收，且与对应的事务集大小大于阈值的对应项相对应。

14.根据权利要求13所述的非暂时性机器可读存储介质，其中所述对应的单项项集进一步基于在其它多个节点处被处理的数据收集器。

15.根据权利要求13所述的非暂时性机器可读存储介质，其中所述设备被选择为基于负载均衡接收所述对应的单项项集。