CN105389337A

CN105389337A - 用于统计显著性模式的搜索大数据空间的方法

Info

Publication number: CN105389337A
Application number: CN201510677026.4A
Authority: CN
Inventors: 王阳; 安德森·赖安; 范戆
Original assignee: Shuling Technology Co Ltd
Current assignee: Shuling Technology Co Ltd
Priority date: 2015-05-13
Filing date: 2015-10-16
Publication date: 2016-03-09
Also published as: SG10201503755QA; US20160335300A1

Abstract

根据本发明的实施例，提供了一种方法和分布式处理系统，用于通过统计分析从任意大数据集合中发现统计显著性模式。本发明提供了一种检测不同阶统计模式的新的分布系统和算法。此外，本发明提供了一种用于模式候选项生成的数据域的有效遍历，该模式候选项生成支持多代理分布计算模型。通过增加或减少代理的数量，该系统可以处理较大或较小的问题。此外，本发明提供了一种在分布存储中更有效地划分数据以进行统计分析的方案。

Description

用于统计显著性模式的搜索大数据空间的方法

技术领域

本发明涉及一种用于统计显著性模式的搜索大数据空间的方法，更具体地，涉及一种利用树结构、截断算法、划分方案以及分布式处理系统来统计显著性模式的搜索大数据空间的方法。本发明的应用包括但不限于在分布式处理系统上处理大数据，例如社会媒体数据、科研数据以及工业处理数据。

背景技术

在大数据分析时代，自动发现定性和定量统计显著性模式已经成为一项基本任务。然而，随着现有数据量的日益增长，尤其是当数据太大而不能存储于单个计算机时，发现完整的固有模式和规律被证明是很重要的，尤其是当域知识不可用、太薄弱或者不理想时的假设生成阶段。

假设分析域由N个属性(特征或变量)表示。对于该N个属性中的每个属性，都具有可能值的值域。模式发现的目的在于通过观察到的发生发现该属性和/或其值之间的关系。如果该关系本身是统计的，并且我们需要努力发现统计显著性关系，该模式就变成利用包含M个观察数据(样品或记录)的观察集D，在由N个属性作为特征的域内搜索统计显著性关系的过程。

首先，严格意义来讲，在统计模式发现中，高阶模式不会由低阶模式引出，反之亦然。这意味着只有通过统计显著性检验的模式才算是模式。从另一角度看，它意味着必须对整个问题域进行探索。在处理穷举检索尚为可行的小问题域中，这种现象重要性较低。然而当处理的问题域变大时，我们就要面对严峻的考验。

由于维数的原因，对不同阶的候选项进行穷举域检索不再可行。减小搜索空间的策略变得有必要。此外，如果域非常大，则在单计算单元上运行搜索空间减小策略在计算上又会变得不可行。理想化地，解决方案应该是允许大量独立的候选项生成辅助在子域同时工作，同时不会彼此影响的分布式算法。对于较大的问题，工作辅助的数量会增加，而对于较小的问题，工作辅助的数量会减少。从统计检验角度上看，数据的原子操作为对出现次数计数。当数据变大时，尤其是当数据不能存储在单个计算单元的主存储器或者甚至本地物理存储时，发生次数计数的性能就会受到影响。

需要提供一种以分布且可扩展的方式为高阶统计模式搜索大数据空间的改进的系统和方法，从而提供一种利用传统计算设备分析极大数据集合的能力。

发明内容

本发明实施例提供了一种用于搜索不同阶模式候选项的大数据域的自组织候选项树算法，该算法利用多种辅助可支持分布计算。在数据域中具有排好序的原子事件列表，符合要求的树结点通过将其右侧的兄弟结点——如果存在的话——变成其子结点，生长到下一阶(生成下一阶)。

有益地，通过这种方式创建的候选项列表可以保证不会遗漏潜在的候选项，同时，也不存在被重复检验的候选项。

此外，从任何一个符合条件的结点起，生成的更高阶的候选项具有仅由该直接父结点包含的信息，这就是它被命名为自组织树的原因。在分布计算环境中，由于工作单元不需要与其他结点通信，因此这是非常理想的。

此外，本发明的实施例提供了一种候选项树删减策略，以删除无信息候选项，从而避免穷举搜索。该策略可在支持分布计算的本地树分支上操作。如果不再对域的一个子空间进行探索，则根据删减标准取消结点，然后不会再生成该子空间的其他候选项。

本发明实施例提供了一种数据划分方法，该方法在多个分布计算存储之间横向分布数据，利用多种辅助有效地对发生次数计数。所有表格数据集合为横向划分的。每一个划分均具有所有属性，但是只具有一部分观察数据，并且位于分布存储系统如Hadoop分布式文件系统的一个结点上。这种划分策略可保证在对每个分段上的发生计数进行总计，从而可以获得完整的数据集合中的发生总计数，这使得分布系统如HapoopMapReduce以及Spark的计数操作极其有效。

本发明实施例提供了一种用于从大数据集合中发现高阶统计显著性模式的分布系统设计。该系统得益于多代理结构，并且可以通过添加新的计算和存储结点处理任意大数据集。

考虑到一般性、通用性、有效性以及灵活性，本发明实施例非常适用于任意大数据集合的自动模式发现、假设生成、预测模型以及趋势监测。这在大数据分析、数据挖掘、社会媒体分析、卫生保健、生产以及需要数据分析的其他领域具有明显应用。

根据本发明第一方面，提供了一种用于统计显著性模式的搜索大数据空间的方法。该方法包括以下步骤：从具有多个观察数据的数据集合中采集具有多个属性的原始事件；通过设置虚拟根，并以排序顺序将不同属性的原始事件作为虚拟根的下一级别的结点，初始化树结构；通过每次选择结点中的一个叶结点，并将被选择叶结点右侧的兄弟结点变成其子结点，每个叶结点逐次进行，使树结构生长到下一级别；通过从虚拟根遍历到叶结点，从树结构中生成具有至少两个具有不同属性的原始事件的复合事件；验证每个复合事件是否满足预先确定的标准；如果该复合事件不能满足预先确定的标准，则将包含该不符合条件的复合事件的其他复合事件从树结构中取消；如果该复合事件满足预先确定的标准，则它变成模式候选项，然后验证该模式候选项是否为统计显著性模式；以及在生长树结构的步骤后重复这些步骤，直到该树结构的级别达到预定义的阶限制或者不能再生成新的子结点。

根据本发明第二方面，提供了一种用于统计显著性模式的搜索大数据空间的分布式处理系统。该系统包括多个存储结点，该存储结点用于存储从具有多个观察数据的数据集合中划分的数据片、从具有多个观察数据的数据集合中采集具有多个属性的原始事件，并且通过设置虚拟根，并以排序顺序将原始事件作为虚拟根的下一级别的叶结点，初始化树结构，还包括多个计算结点，该计算结点为属于同一父结点的具有不同属性的结点集合而分配，并且为该结点集合执行以下步骤：通过每次选择结点组合中的一个叶结点，并将被选择叶结点右侧的兄弟结点变成其下一级别的子结点，每个叶结点逐次进行，使树结构生长到下一级别；从树结构中生成具有至少两个具有不同属性的原始事件的复合事件；验证每个复合事件是否满足预先确定的标准；如果该复合事件不能满足预先确定的标准，则将包含该不符合条件的复合事件的其他复合事件从树结构中取消；如果该复合事件满足预先确定的标准，则将它变成模式候选项，然后验证该候选项是否为统计显著性模式；以及在生长树结构的步骤后重复这些步骤，直到该树结构的级别达到预定义的阶限制或者不能再生成子结点。

根据本发明第三方面，提供了一种包括用于统计显著性模式的搜索大数据空间的程序代码的计算机可读介质。该程序代码执行以下步骤：从具有多个观察数据的数据集合中采集具有属性的原始事件；通过设置虚拟根，并以排序顺序将不同属性的原始事件作为虚拟根的下一级别的叶结点，初始化树结构；通过每次选择结点中的一个叶结点，并将被选择叶结点右侧的兄弟结点变成其下一级别的子结点，使树结构生长到下一级别；通过从虚拟根遍历到叶结点，从树结构中生成具有至少两个具有不同属性的原始事件的复合事件；验证每个复合事件是否满足预先确定的标准；如果该复合事件不能满足预先确定的标准，则将包含该不符合条件的复合事件的其他复合事件从树结构中取消；如果该复合事件满足预先确定的标准，则它变成模式候选项，然后验证该候选项是否为统计显著性模式；在生长树结构的步骤后重复这些步骤，直到该树结构的级别达到预定义的阶限制或者不能再生成子结点。

通过下文详细描述并结合附图，本发明的特征和有益效果会更加明显。从这方面讲，在详细解释本发明至少一个实施例之前，需要理解本发明的应用并仅不限于下文描述及其提供的示例中，或者附图描述中提出的结构细节以及元件的布置。本发明可能根据其他实施例实现，并且可以多种方式实现和执行。此外，应该理解此处采用的用语和术语仅做描述和协助理解的目的，不作为对本发明的限制。

附图说明

图1A-1D描述了根据本发明一实施例的一种生成树结构的方法，其可用于通过提取给定原始事件的所有组合以生成复合事件；

图2为描述利用自组织候选项树和截断方案发现统计模式的方法的流程图；

图3描述了根据本发明一实施例的横向划分方案；

图4显示了描述根据本发明一实施例的分布式处理方案的网络图；

图5为描述利用分布式处理系统的发现统计模式的方法的流程图。

具体实施方式

在本发明中，对给定要素的描述或者在具体附图中对具体要素标号的考虑和使用，或者在对应描述性内容中对附图的参考均包括同样的、等同的或者类似的要素，或者在另一附图中确定的要素的标号，或者与其相关的描述性内容。除特别说明外，附图或相关文本中使用的“/”应理解为“和/或”。

模式发现过程包括或包含两个相互关联的行为：第一个行为是生成模式候选项，而第二个行为是根据它们的统计显著性确定候选项是否为模式候选项。候选项生成行为执行问题域搜索策略，而模式确定行为执行统计显著性检验。本发明对两种行为均进行论述。

根据本发明一实施例，描述了一种发现统计显著性模式或者统计模式的方法。根据本发明一实施例的模式发现过程基本可以公式化为两步程序，即模式候选项生成以及候选项显著性检验。模式候选项生成的目的在于找到原始事件，或者达到特定阶的复合事件的所有组合，而候选项显著性检验是用于验证模式候选项是否满足预先确定的标准(如下文描述的Tc)，并且值得进一步进行统计显著性模式检验。

作为本发明的出发点，对一些基本概念进行介绍。根据本发明，提供了一种包含大量观察数据的大数据集合，模式发现在该大数据集合中或大数据集合上执行。大数据集合的非限制性的代表性实例包括：在过去十年里书店的交易记录；在过去十年里加拿大的Visa信用卡交易；或者在2014年或者自2014年以来通过中国移动手机用户发出的文本信息。

可以通过从数据源中文本挖掘和/或提取有意义的数据，从数据源中形成数据集合。该数据源可由机器和/或人类行为生成。该数据集合可能是大数据集合，该大数据集合利用传统数据分析技术无法处理，或者处理效率极低。

该数据集合可包括M个观察数据或样本。该数据集合中的每个观察数据或样本可用N个属性、特征或变量表述；每个属性、特征或变量可以取有限集合中的一个值。令X＝{X₁,…,X_n}表示该属性集合。则来自该有限集合的任意属性X_i均可以取定义为属性域内的一个值，并用D_i表示。因而该N个属性形成了N维空间D，该N维空间为整个数据空间，在该数据空间内生成观察数据集合，并且从该数据空间中将会发现模式。

例如，假定该数据集合为某一书店在近10年来的交易观察数据集合。观察数据可包括或者为从该书店购书的人的身高、发色、性别以及年龄。

观察数据的属性可具有对应的名称与值。对于一观察数据，身高可具有值，如170cm、175cm和180cm，或者范围，如160～165cm、165～170cm以及170～175cm。该属性集合或该属性的域，身高D_i可表示为D_i＝{170cm,175cm,180cm…}或D_i＝{160～165cm,165～170cm,170～175cm,…}。

仅为了协助理解本说明的目的，本实例仅考虑少量属性，然而在大数据的实际操作时，需要考虑大量的观察数据及其属性。

根据本发明，属性X_i的原始事件或者原子事件X_i实现从D_i中取值。即X_i＝x_i1为原始事件，其中x_i1∈D_i。例如，身高＝170cm或者身高＝160～165cm为原始事件或者该属性的实现。

可以从数据集合或数据源中采集、给出、导出或者提取出原始事件。任何见于数据集合或者数据源的属性-值对均可为原始事件。可以使用任何公知的数据采集算法从数据集合或数据源中采集原始事件。如下文将要描述的，原始事件将用作起始点或者基本单元，以发现根据本发明一实施例的统计模式或者统计显著性模式。

根据一实施例，复合事件可被定义为不同属性的两个或多个原始事件的集合。该复合事件的阶可被定义为在该复合事件内的原始事件的个数。例如，(x₁₁,x₂₁,x₃₁)为属性x₁、x₂和x₃的第三阶复合事件。即(身高＝170cm，发色＝黑色，性别＝男)为属性即身高、发色和性别的第三阶复合事件。

根据本发明一实施例，模式候选项可以被定义为满足若干预先确定标准，即Tc的复合事件。在本发明一实施例中，该预先确定标准可以是复合事件的发生期望值(E_occur)或者发生概率的值高于给定阈值。可以根据来自数据集合的复合事件内含有的原始事件的概率，计算该发生期望值或发生概率。

根据本发明一实施例，具有i个独立模型的原始事件{x₁₁,x₂₁,…,x_i1}的复合事件的发生期望值E_occur可被定义为数据集合的观察数据的数量M与构成该复合事件的每个原始事件的概率的乘积，并且可计算如下：

E_occur＝M·Π_iP(x_ij)(1)

对于具有三个原始事件{x₁₁,x₂₁,…,x_i1}的复合事件，

E_occur＝M·P(x₁₁)·P(x₂₁)·P(x₃₁).(2)

在这里，P(xij)为数据集合中的原始事件xij的边缘概率，并且可通过数据集合直接计算如下：

P (x i j) = \frac{# o f o c c u r r e n c e o f x i j i n a d a t a s e t D}{M} - - - (3)

在本发明一实施例中，如果根据公式(1)的独立模型下的发生期望值大于期望阈值，例如25，则该复合事件(x₁₁,x₂₁,x₃₁)为模式候选项。该用于确定模式候选项的程序可即时执行，以确定该复合事件是否值得统计显著性检验。考虑到多种因素，如应用的计算环境和要求精度，应该根据应用去选择、确定或改变该阈值。

对于满足发生期望值标准的模式候选项，或者有效模式候选项，可采用检验以确定它是否为统计显著性模式。只有通过该检验的模式候选项才有可能被归类为统计显著性模式。在一实施例中，统计显著性模式或者统计模式被定义为通过统计显著性检验Tp的模式候选项。

根据本发明一实施例，统计显著性检验Tp可以是利用调整残差的显著性假设检验，该调整残差如“A.K.CWongandYWang.Highorderpatterndiscoveryfromdiscrete-valueddata.IEEETans.OnKnowledgeandDataEngineering,9(6):877-893,1997”中所描述。残差为实际发生次数与发生期望值的差值。如果该复合事件(x₁₁,x₂₁,x₃₁)的调整残差大于1.96，则该复合事件可被归类为置信度为95％的统计显著性模式。在本发明的若干个实施例中，该统计显著性检验Tp可以是任何形式的统计显著性检验，以从数据库中发现或提取有意义的统计模式。

例如，假设提供给我们近十年来加拿大内的Visa信用卡交易的数据集合。进一步假设在该数据集合中共有1000个交易，并且原始事件x₁₁为该Visa信用卡用于购买电子产品，而x₂₁为该Visa信用卡由一名女性使用。x₁₁和x₂₁的边缘概率分别为P(x₁₁)＝0.2以及P(x₂₁)＝0.5。由于购买电子产品和卡持有者的性别是独立的，则一个女性购买电子产品的交易的期望数量被计算为1000*0.2*0.5＝100。既然100要高于阈值，例如25，因此可以采用Tp检验。

然而，我们从1000例交易中观察到实际只有10个女性卡持有者购买电子产品的交易。则残差为(10-100)＝-90。现在，需要知道-90在统计上是否为显著的。所以，我们通过将-90与变量SQRT(1000*0.2*0.5*(1-0.2)*(1-0.5))相除计算调整残差。结果为-14.23。假定一调整残差的渐近正态分布，在95％的置信度上，由于14.23<-1.96，因此其不具有显著性。这意味着女性卡持有者不太可能使用Visa购买电子产品。

在若干个实施例中，该统计显著性检验Tp可以包括或者可以是已知显著性检验(一种或多种)中的任何一种类型。例如，除了调节残差，可以使用简单阈值和/或双侧t-检验。

在大数据空间中存在很多属性，该属性的域也可以非常大。组合的总数量可以随阶以指数形式增长。理想化地，即使在分布计算环境中，每个工作结点在其自身子域工作时，应该使其与其他结点之间的关联最小化。鉴于这些考虑，本发明提出了一种从低阶到高阶动态即时生成的树结构。

树结构的生成可定位于数据集合的特定部分，以使分布工作结点在数据集合的该部分独立工作，而不需要与其他工作结点产生关联。

图1A-1D描述了根据本发明一实施例的生成所谓自组织树的树结构的方法，该方法通过提取给定原始事件的所有组合生成复合事件。此外，引入根据本发明的截断或删减方案，以减少处理数据的容量。为简化目的，假设只具有五个原始事件A、B、C、D和E。然而，在实际大数据操作中，根据应用会有更多的原始事件。此外，假定这些原始事件具有不同的属性但属于同一数据集合。

在一实施例中，该数据集合可划分为多个片。在这种情况下，则可执行图1A-1D描述的相关过程，用于特定数据片或分段数据集合。

参考图1A，为本文描述目的，该自组织树的虚拟根可设置为虚拟级别0。所有的原始事件A、B、C、D和E从给定数据集合中采集，并且以预先确定的顺序排序，例如，从左到右，并且被分配到下一虚拟级别1。该预先确定的顺序可以为该原始事件的名称的字母顺序。

为本文描述目的，在该自组织候选项树中，上级或前级原始事件或结点称为下级或后级原始事件或结点的父结点。同样地，下级或后级的结点或原始事件称为上级或者前级的结点或原始事件的子结点。

候选项树该自组织候选项树被创建之初为具有被称为根的特殊结点的空树。该根结点除了提供该树的入口之外别无他用。

第一级别或者该根的直接子结点包含具有固定顺序的所有可能的原始事件。假定该五个原始事件采集如下：

身高＝171-175cm；

发色＝黑色；

性别＝男；

年龄＝15-24；

职业＝学生。

级别1树结点可以由属性名称和值以字母顺序组织，或者A：年龄＝15-24；B：性别＝男；C：发色＝黑色；D：身高＝171-175cm；E：职业＝学生(以英文属性名称排序)。

该自组织候选项树通过迭代选择当前级别的叶结点，并将所有具有同一父结点(其兄弟结点)且位于当前选择叶结点的右侧的结点(或者如图1A中所述的所有右侧的原始事件)变成下一级别，作为其子结点，从而生长到下一级别。可以对当前级别的所有叶结点迭代执行，直到没有结点可以移动到下一级别。

参考图1B，该自组织树生成虚拟级别2。可以通过将原始事件A右侧的原始事件，即B、C、D和E变成下一级别2，以生成其子结点。以相同的方式，可以通过将原始事件B右侧的原始事件，即C、D和E变成级别2，以生成其子结点。可以通过将D和E变成级别2，以生成原始事件C的子结点。可以通过将E变成级别2，以生成原始事件E的子结点。由于在最后一个原始事件E的右侧不具有结点，因此它不具有下一级别或者子结点。

一旦生成多于两级原始事件，就会产生复合事件，或者具有不同属性的原始事件的组合。如上文所述，复合事件为具有不同属性的两个或多个原始事件的集合。可以通过逐个，或者从虚拟根结点遍历到每个页结点，按照从虚拟根到页，或者最后一级或最低级的原始事件的路径读取原始事件，从而生成复合事件。在本发明中，“叶结点”可以是树结构的较低级别中不具有子结点的结点(或原始事件)。参考图1B，复合事件可以生成为或提取为{A,B}、{A,C}、{A,D}、{A,E}、{B,C}、{B,D}、{B,E}、{C,D}、{C,E}和{D,E}。

根据本发明一实施例，一旦生成新的级别，就可以从该自组织候选项树中生成或提取该复合事件。每个复合事件被验证是否成为有效的模式候选项。如果复合事件不能满足一个或多个标准Tc，任何包括该复合事件的其他复合事件均从该自组织树中取消或移除，从而减小处理容量。对于满足该标准的所有有效模式候选项，执行检验Tp，以确定该候选项是否为统计模式。如果模式候选项通过检验Tp，则该候选项变成统计显著性模式并记录为统计模式。

在一实施例中，可以将Tc检验和Tp检验合并为一个过程。即Tc检验以及Tp检验均可以应用于每一个生成的复合事件。

当树结构生长时，可以通过取消无效复合事件以及其潜在子结点协助该过程。假定父复合事件不能够通过模式候选检验Tc，则其所有的子结点，即包含该父复合事件的复合事件也不会通过该模式候选检验Tc。因此，跳过包含这种父结点的复合事件的模式候选项检验Tc是有益的。

预先确定标准Tc被用于保证随后的统计显著性检验Tp是有效的。既然显著性模式表现出观察到发生次数显著大于或者小于其发生期望值的性质，统计显著性测试通常检验模式候选项的观察发生次数和发生期望值的差值，即残差。

在统计中，为了使检验有效，基于渐近性的残差分析通常需要复合事件的发生期望值大于阈值。如之前陈述的，独立假设下的ith阶复合事件的发生期望通过M·Π_iP(x_ij)或等式(1)计算。由于P(x_ij)是原始事件x_ij的边缘概率，因此，它永远小于或等于1。如果所述复合事件的发生期望值小于有效统计检验的阈值，则他的任何子复合事件，即包含所述复合事件的高阶复合事件，都不会是模式候选项，因为它们所有的发生期望值均小于阈值。因此，当自组织树的结点被认为是非候选项时，则从该结点起不再需要继续该过程，并且需要将该结点删除。

对于生成的或提取的复合事件，需要执行验证以从该复合事件中找出模式候选项。如上文所述，对于每一个复合事件，都要计算并查看发生期望值，以确定该发生期望值是否高于阈值。

参考图1B，假设复合事件{A,D}不能满足标准Tc。这由如图1B所示的通向非候选项结点的虚线表示。如图1C所示，在包含复合事件{A,D}的路径上不会再生成子结点。

参考图1C，在级别2的所有结点中依次选择叶结点，并且将被选择的叶结点的右侧兄弟结点变成其子结点(在级别3)或者将右侧原始事件变成级别2的下一级别，从而生成虚拟级别3。该子结点在一结点组中生成，该结点组在级别1中具有同一父结点。例如，级别2中的原始事件B的子结点通过将C、D和E变成级别3而生成。

从图1C的树中生成复合事件的方式与从图1B中生成复合事件的方式相同。在图1C中，复合事件生成为{A,B,C}、{A,B,D}、{A,C,D}和{A,C,E}等。假设如图1C虚线所指示的，在图1C生成的复合事件之中，或者该自组织候选项树的级别3中，复合事件{A,C,D}以及{A,C,E}未通过Tc检验。则以后任何包含{A,C,D}或{A,C,E}的结点均从树中取消或删除。

考虑到根据本发明一实施例的截断或删减方案，可生成如图1D所示的最终自组织树。通过图1D所示的树，复合事件可在级别4生成为{A,B,C,E}和{A,B,D,E}，并在级别5生成{A,B,C,D,E}。对于这些复合事件，检验为模式候选项标准Tc，并且对于有效模式候选项，可采用统计模式检验Tp。

类似于上述描述，如果观察到的或实际的候选项的发生次数为0，则源自该候选项的所有更高阶的复合事件均具有零发生次数。因此，应该将其删减或截断。任何可用于消除原始事件组合的域知识均可以用于进一步删减模式候选项的搜索空间。

为了当前的描述目的，本发明描述了树从上向下生长，并且将所有右侧的原始事件变为下一级别。然而相关领域的普通技术人员可以理解，该树可以在任何方向上生长，如从下向上、从左到右，或者从右到左。此外，相关领域的普通技术人员可以理解，“将右侧原始事件变成该树的下一级别的子结点”这一方案可以以多种方式修改并执行，只要保证可以生成该原始事件或者复合事件的穷举组合。例如，每个原始事件的子结点可以通过将所有左侧的原始事件变成下一级别生成。

图2为根据本发明一实施例，利用自组织候选项树以及截断方案发现统计模式的方法的流程图。

在步骤S21中，通过设置虚拟根以及将级别设置为零，对自组织候选项树进行初始化。

在步骤S22中，所有的原始事件均从给定数据集合或者数据源中采集，并且被置为排序次序的直接子结点，或者级别1的虚拟根的结点，该次序如从左到右。如上所述，原始事件可以是见于数据集合或者数据源的任何属性-值对。可以使用任何公知的数据采集算法从数据集合或数据源中采集原始事件。

在步骤S23中，通过选择叶结点，或者该原始事件中的原始事件，并且将其在级别1中所有右侧的兄弟结点变成下一级别，使树生长到级别2。

在步骤S24中，通过按照从虚拟根到页，或者到最后一级或最低级的原始事件的路径逐个地读取原始事件，或者通过从虚拟根遍历到树中的每个页结点，来从具有至少两个级别的树生成复合事件。

在步骤S25中，通过计算复合事件的发生期望值(E_occur)或发生概率，并将其与给定阈值(例如预先确定的或者可选择的/编程指定的阈值)比较，确定每个复合事件是否符合预先确定的标准Tc。如果复合事件不能满足需要的标准，或者不能成为模式候选项，则任何包括该复合事件的其他复合事件均被从该自组织树中取消或者删除，以减小处理容量。

在步骤S26中，对于每个有效的模式候选项，采用统计显著性检验Tp，确定它是否为统计显著性模式。在上述描述的方式中，调整残差检验可作为Tp。如果该模式候选项在统计上是显著的，则将它记录为统计模式。如果该模式的发生概率为0，则应该将其从自组织树中删除，以减小处理容量。

在步骤S27中，如果树的级别还未达到预定义的阶限制，并且可以生成更多子结点，则以相同的方式，通过选择叶结点，并将该叶结点右侧的所有兄弟结点变成其在下一级别3的子结点，为原始事件生成树的下一级别3，属于无效模式候选项的除外。

接下来，该过程返回到步骤S23。并重复步骤S23-S27，直到级别达到预定义的阶限制，或者达到最大可能值，或者不能再生成子结点。在图1A-1D的实例中，其最大可能值为级别5。

具有如上所述空间截断或删减的自组织候选项树可有效地解决维度的指数性质。然而在大数据分析中，该大量记录也可能在执行统计模式发现中造成困难，尤其是当数据集合太大，以至于不能存入一个物理计算单元中。

对于处理数据的统计分析，最基本的操作是频率计算，该计数关于找出单个原始事件xi的记录的个数，或者联合事件(复合事件)(xij)的记录的个数。当整个数据集合未存储在单个存储单元内时，如果一些记录的部分分散在多个存储单元时，寻找该复合事件的频率则是困难的。例如，如果我们需要对复合事件(A,B,C)的发生次数进行计算，并且A部分存储在单元1，B部分存储在存储单元2，而C部分存储在存储单元3，该三个单元必须互相通信才能够找出A、B、C同时发生的记录的次数。

鉴于此，根据本发明一实施例，提出一种用于有效处理数据的数据划分策略。如图3所示，如果存在S个有效的存储结点20，该数据集D可被划分为S个子集合，每个子集合仅包括M/S个完整的记录。这种划分策略可被称为横向划分，因为它不会破坏任何单个记录的完整性。记录或观察数据会存储在并且仅存储在S个结点中的其中一个结点上。即，属于一个观察的所有的原始事件存储在同一结点上。

通过横向划分，事件，原始或者复合事件，的计算可以在每个结点22上执行，并且在头结点21的总数为其总计数。这种简单的操作不需要存储结点之间的任何通信或数据交换，因此明显提高了计数过程的速度。

很多用于分布数据和数据操作的方法已经被研究、提出和执行。其中，具有MapReduce的Hadoop以及在Hadoop集群上的ApacheSpark为具有前景的实例。可利用该方法容易地实现根据本发明提出的用于频率计数的大数据集合的横向划分。

根据本发明的实施例，我们可以将用于搜索大数据空间的分布式处理系统利用于统计显著性模式。不失一般性地，假设具有S个存储结点和W个计算结点，则根据本发明的模式发现过程可以利用S个存储结点和W个计算结点处理。

参考图4，每个横向划分数据(子)集合可以存储在存储集群20中的其中一个存储结点22中。在每个存储结点22中，自组织候选项树可如图1A-1D或图2相关描述的方式生成。为了生成自组织候选项树，原始事件可分布到W个计算结点中的一个，从而每个计算结点具有拥有共同父结点的子结点，或者在每个计算结点中，所有的子结点属于同一个父结点。需要说明的是，图1A-1D描述的实施例中的级别1中，由于只存在一个父结点，即虚拟根，因此只会分配一个计算结点。换言之，在级别1，图1A-1D描述的原始事件A、B、C、D和E具有一个父结点或者属于一个父结点，可分配到一个计算结点。然而在级别2，可以根据需要采用更多的计算结点。例如，级1中以A起始的分支可以分配到一个计算结点，而级别1中以B起始的分支可以分配到另一个计算结点。

对于每一个工作结点31，发生期望值检验Tc可用于每一个通向叶结点或复合事件的路径，以确定它们是否为模式候选项。可利用存储集群20计算该发生期望值检验Tc。如果发现模式候选项，则用Tp对其进行检验。可利用存储集群20计算Tp。如果它是一个模式，则在每个存储结点20将其记录为统计显著性模式，并且由存储头21计算总数。

如果复合事件不能成为模式候选项，则该复合事件从该自组织候选项树中被删除。通过将剩余的右侧兄弟结点变成下一级，该树生长出更深的级别。如果存在空载计算结点，该叶结点会重新分布到该空载计算结点。当达到最大级别或者不能再产生子结点时，过程结束。

图5为描述根据本发明一实施例的利用分布式处理系统发现统计模式的方法的流程图。

在步骤S51中，将数据集合划分为S个数据片，并且每个数据片可被装载到包括S个存储结点的存储集群中。在步骤S52中，通过设置虚拟根以及将级别设置为零，对自组织候选项树进行初始化。在步骤S53中，所有的原始事件均从数据集合中采集，并且被置为排序次序的级别1的虚拟根的直接子结点，该次序例如从左到右。在步骤S54中，该原始事件被分布到W个计算结点中，从而每个计算结点具有给定父结点的所有子结点。在步骤S55中，在每个计算结点，通过选择叶结点，然后将其右侧的所有的兄弟结点变成其子结点，该树以级别1开始，生长到下一级别。在步骤S56中，在每个计算结点，通过以从虚拟根到叶结点的路径读取原始事件，或者从虚拟根遍历到每个树中的每个叶结点，或者最后级别或最低级别的原始事件，每个计算结点逐一执行，以生成复合事件。在步骤S57中，对于每一个复合事件，通过计算复合事件的发生期望值(E_occur)或发生概率，并将其与给定阈值比较，确定它们是否符合预先确定的标准Tc。在步骤S58中，来自步骤S57的模式候选项由Tp检验显著性。如果候选项通过该检验，则它为模式并且被记录。

在步骤S59中，如果该树的级别达到预定义的阶限制，或者无法产生新的级别，该过程结束，否则，该过程返回到步骤S55。并重复步骤S55～S59，直到级别达到预定义的阶限制，或者不能生成新的子结点(相当于图1A-1D实例中的级别5)为止。

本领域技术人员可以识别多种类型的可由计算机读取的存储器和介质，如本文中所描述的，例如用户计算机、文件管理计算机服务器，或者其他在本发明实施例保护范围内可能使用的计算机和机器。计算机可读介质的实例包括但不限于如只读存储器(ROM)、CD-ROM、以及DVD-ROM的非易失性硬编码介质，或者可擦除电子可编程只读存储器(EEPROM)、如软盘、硬盘驱动器、CD-R/RW、DVD-RAM、DVD-R/RW、DVD+R/RW、闪存驱动器、记忆棒以及其他更新类型的存储器的可记录介质，以及如数字和模拟通信链接的传输型介质。例如，该介质包括或包含存储在其中/其上的操作指令，以及与上文描述的系统的具体方法步骤相关的指令或指令集，并且可以通过处理单元执行在计算机上操作。本领域技术人员可以理解，该介质可以在其他位置，而非文件管理计算机服务器，或者作为对文件管理计算机服务器的补充，以存储位于其上的程序产品，例如包括软件。

本发明具体实施例论述了至少一个方面、问题、限制和/或相对于搜索大数据空间，用于统计显著性模式的现有技术，本发明具有的优势。尽管本发明描述了与某些实施例关联的特征、方面和/或优势，但是其他实施例也可以表现出这些特征、方面和/或优势，并且并非所有的实施例有必要具有这些特征、方面和/或优势，均在本发明保护范围之内。本领域普通技术人员可以理解，上文公开的多个系统、组件、过程或者其替换方案可以与其他系统、组件、过程和/或应用理想地结合。此外，本领域普通技术人员可以公开多个实施例的多种修改、替换以及/或者改进，均在本发明的保护范围之内。

Claims

1.一种用于统计显著性模式的搜索大数据空间的方法，其特征在于，所述方法包括以下步骤：

从具有多个观察数据的数据集合中采集具有多个属性的原始事件；

通过设置虚拟根，并以排序顺序将不同属性的原始事件作为虚拟根的下一级别的结点，初始化树结构；

通过每次选择结点中的一个叶结点，并将被选择叶结点右侧的兄弟结点变成其子结点，每个叶结点逐次进行，使树结构生长到下一级别；

通过从虚拟根遍历到叶结点，从树结构中生成具有至少两个具有不同属性的原始事件的复合事件；

验证每个复合事件是否满足预先确定的标准；

如果所述复合事件不能满足预先确定的标准，则将包含不符合条件的复合事件的其他复合事件从树结构中取消；

如果所述复合事件满足预先确定的标准，则它变成模式候选项，然后验证所述模式候选项是否为统计显著性模式；以及

在生长树结构的步骤后重复这些步骤，直到所述树结构的级别达到预定义的阶限制或者不能再生成新的子结点。

2.根据权利要求1所述的方法，其特征在于，所述原始事件为所述数据集合中可见的任意一对属性及其值。

3.根据权利要求1所述的方法，其特征在于，所述数据集合为从大数据集合中划分的数据片。

4.根据权利要求1所述的方法，其特征在于，验证所述复合事件是否满足预先确定的标准的步骤还包括以下步骤：

计算所述复合事件的发生期望值；以及

确定所述发生期望值是否高于预先确定的阈值。

5.根据权利要求1所述的方法，其特征在于，验证所述模式候选项是否为统计显著性模式的步骤还包括以下步骤：

计算数据集合中复合事件的实际发生次数；

计算实际发生次数和发生期望值间的差值；以及

基于所述差值确定所述模式候选项是否为统计显著性模式。

6.根据权利1所述的方法，其特征在于，生成原始事件的复合事件的步骤包括步骤：

通过在树结构中从虚拟根遍历到每个叶结点，生成所述原始事件的组合。

7.根据权利要求1所述的方法，其特征在于，所述数据集合被划分为多个数据片，并且所述数据片被存储在分布存储集群中。

8.根据权利要求1所述的方法，其特征在于，树结构生长步骤之后的步骤由分布计算结点执行，并且每个分布计算结点在属于同一父结点的原始事件集合的树结构生长步骤之后执行步骤。

9.一种用于统计显著性模式的搜索大数据空间的分布式处理系统，其特征在于，所述系统包括：

多个存储结点，所述存储结点用于存储从具有多个观察数据的数据集合中划分的数据片、从具有多个观察数据的数据集合中采集具有多个属性的原始事件，并且通过设置虚拟根，并以排序顺序将原始事件作为虚拟根的下一级别的结点，初始化树结构；以及

多个计算结点，所述计算结点为属于同一父结点的具有不同属性的结点集合而分配，并且为所述结点集合执行以下步骤：

通过每次选择结点组合中的一个叶结点，并将被选择叶结点右侧的兄弟结点变成其下一级别的子结点，每个叶结点逐次进行，使树结构生长到下一级别；

从树结构中生成具有至少两个具有不同属性的原始事件的复合事件；

验证每个复合事件是否满足预先确定的标准；

如果所述复合事件满足预先确定的标准，则将它变成模式候选项，然后验证所述候选项是否为统计显著性模式；以及

在生长树结构的步骤后重复这些步骤，直到所述树结构的级别达到预定义的阶限制或者不能再生成子结点。

10.根据权利要求9所述的系统，其特征在于，验证所述复合事件是否满足预先确定的标准的步骤还包括以下步骤：

计算所述复合事件的发生期望值；以及

确定所述发生期望值是否高于预先确定的阈值。

11.根据权利要求9所述的系统，其特征在于，验证所述模式候选项是否为统计显著性模式的步骤还包括以下步骤：

计算数据集合中复合事件的实际发生次数；

计算实际发生次数和发生期望值间的差值；以及

基于所述差值确定所述模式候选项是否为统计显著性模式。

12.根据权利要求9所述的系统，其特征在于，生成原始事件的复合事件的步骤包括步骤：

13.一种包括用于统计显著性模式的搜索大数据空间的程序代码的计算机可读介质，其特征在于，所述程序代码执行以下步骤：

从具有多个观察数据的数据集合中采集具有属性的原始事件；

通过每次选择结点中的一个叶结点，并将被选择叶结点右侧的兄弟结点变成其下一级别的子结点，使树结构生长到下一级别；

验证每个复合事件是否满足预先确定的标准；

如果所述复合事件不能满足预先确定的标准，则将包含该不符合条件的复合事件的其他复合事件从树结构中取消；

如果所述复合事件满足预先确定的标准，则它变成模式候选项，然后验证所述候选项是否为统计显著性模式；以及

14.根据权利要求13所述的计算机可读介质，其特征在于，所述原始事件为所述数据集合中可见的任意对的属性及其值。

15.根据权利要求13所述的计算机可读介质，其特征在于，所述数据集合为从大数据集合中划分的数据片。

16.根据权利要求13所述的计算机可读介质，其特征在于，验证所述复合事件是否满足预先确定的标准的步骤还包括以下步骤：

计算所述复合事件的发生期望值；以及

确定所述发生期望值是否高于预先确定的阈值。

17.根据权利要求13所述的计算机可读介质，其特征在于，验证所述模式候选项是否为统计显著性模式的步骤还包括以下步骤：

计算数据集合中复合事件的实际发生次数；

计算实际发生次数和发生期望值间的差值；以及

基于所述差值确定所述模式候选项是否为统计显著性模式。

18.根据权利要求13所述的计算机可读介质，其特征在于，生成原始事件的复合事件的步骤包括以下步骤：

19.根据权利要求13所述的计算机可读介质，其特征在于，所述数据集合被划分为多个数据片，并且所述数据片被存储在分布存储集群中。

20.根据权利要求13所述的计算机可读介质，其特征在于，树结构生长步骤之后的步骤由分布计算结点执行，并且每个分布计算结点在属于同一父结点的原始事件集合的树结构生长步骤之后执行所述树结构生长步骤之后的步骤。