CN1581166A

CN1581166A - 通过在线和离线组件聚类进化数据流的方法和设备

Info

Publication number: CN1581166A
Application number: CNA2004100563262A
Authority: CN
Inventors: 查汝·C·阿格瓦尔; 俞士纶
Original assignee: International Business Machines Corp
Current assignee: Google LLC
Priority date: 2003-08-14
Filing date: 2004-08-06
Publication date: 2005-02-16
Anticipated expiration: 2024-08-06
Also published as: JP2005100363A; CN100416560C; US7353218B2; US20070226209A1; JP5089854B2; US20050038769A1

Abstract

提供一种对数据流的数据进行聚类的技术。首先从数据流产生在线统计信息。当要求或希望离线处理时，执行在线统计信息的离线处理。通过来自数据流的数据点的接收，以及数据组的形成和更新，能够产生在线统计信息。通过围绕采样数据点，对多组数据点重新聚类，并报告新形成的群集，可实现离线处理。

Description

通过在线和离线组件聚类进化数据流的方法和设备

技术领域

本发明涉及数据聚类(clustering)，更具体地说，涉及通过产生的在线统计和离线处理，聚类进化数据流(evolving data stream)。

背景技术

硬件技术的最新发展已允许公司和机构自动地快速记录日常生活的事务(例如银行业务，信用卡，股票，电信等)。这种过程的记录带来大量的数据，所述数据以极大的速度增长。数据的连续到达被称为数据流。由于数据流在各种各样应用中的使用，近年来已得到广泛研究，例如参见B.Babcock等的“Models and Issues in Data StreamSystems”，ACM PODS Conference 2002；P.Domingos等的“MiningHigh-Speed Data Streams”，ACM SIGKDD Conference，2000；S.Guha等的“Clustering Data Streams”，IEEE FOCS Conference，2000；和L.O′Callaghan等的“Streaming-Data Algorithms For High-QualityClustering”，ICDE Conference，2002。

数据流的聚类把给定的一批数据点分成一组或多组类似的数据点。在数据库、数据挖掘和统计学界已广泛研究了聚类，例如参见P.Bradley等的“Scaling Clustering Algorithms to Large Databases”，SIGKDD Conference，1998；S.Guha等的“CURE：An EfficientClustering Algorithm for Large Databases’，ACM SIGMODConference，1998；R.Ng等的“Efficient and Effective ClusteringMethods for Spatial Data Mining’，Very Large Data BasesConference，1994；R.Dubes等的“Algorithms for Clustering Data”，Prentice Hall，New Jersey，1998；和L.Kaufman等的“Finding Groupsin Data-An Introduction to Cluster Analysis”，Wiley Series inProbability and Math Sciences，1990。在数据流环境的上下文下也已研究了聚类，例如参见S.Guha等和L.O′Callaghan等的文献。

由于数据流的聚类导致大量数据的到达，因此它使传统的聚类方法效率低。近年来，已开发了供和数据流一起应用的一趟(one-pass)聚类方法。但是，数年内关于数据流提供的简单的一趟聚类方法的结果会由数据流的过时历史记录占据支配地位。

聚类数据流的其它现有方法关于整个数据流计算群集(cluster)，例如参见L.O′Callaghan等的文献。这些技术把数据流聚类看作一趟聚类方法的变型。虽然这样的技术可用在许多聚类应用中，但是数据流的聚类要求数据流上下文中的仔细定义。数据流应被看作具有随时间不断进化的数据的无穷过程。从而，基础群集也随着时间显著变化。群集的本质会随着计算群集的时刻，以及测量群集的时间范围而变化。例如，用户可能希望检查在上个月，去年或过去10年中发生的群集，所有这些群集均截然不同。

数据流固有地对方法设计施加一趟约束。很难利用传统的方法，提供在不同类型的时间范围内计算群集的灵活性。例如，基于流的k-means方法的直接扩展(例如参见L.O′Callaghan等的文献)会要求同时保持在所有可能时间范围内，聚类方法的中间结果。这种计算负担随着数据流的发展而增大，会很快成为在线实现的瓶颈。此外，在许多情况下，分析员会希望确定先前某一时刻的群集，把它们与当前群集进行比较。这需要更大的簿记，对于快速数据流来说，这将很快变得难以处理。

由于在计算过程中，不能再访数据流，因此聚类方法需要保持大量的信息，以使得重要细节不被丢失。例如，在其执行过程中，连续形式的k-means方法保存根据需要而变化或合并的许多群集中心，例如参见L.O′Callaghan等的文献。由于k-means方法对数据点的到达顺序非常敏感，因此当数据流的特性随着时间而进化时，这种方法是不可预测的。例如，一旦两个群集中心被合并，那么稍后当数据流的进化需要把群集分开时，根本没有办法以知情方式把群集分开。

于是当数据随着时间而明显进化时，需要改进群集的质量。另外还需要提供在数据流的不同部分上发现和探索群集的更强大功能。

发明内容

本发明涉及数据聚类技术。更具体地说，本发明涉及通过产生的在线统计和离线处理，聚类进化数据流。

例如，在本发明的一个方面，聚类数据流的数据的技术包括下述步骤。首先，从数据流产生在线统计信息。随后，当要求或者需要离线处理时，执行在线统计信息的离线处理。

有利的是，本发明的技术按照用户易于访问和管理的方式，高效且有效地对数据流进行聚类。

本发明技术的另一有益性质在于其在用户定义的时段内计算群集的灵活性。另外，本发明可提供在先时刻的群集与数据流的当前群集的比较。用户可在数据流的不同部分中发现和探索群集。

结合附图，根据例证实施例的下述详细说明，本发明的这些及其它目的、特征和优点将变得显而易见。

附图说明

图1是根据本发明的一个实施例，图解说明适于使用各种方法的硬件实现的方框图；

图2是根据本发明的一个实施例，图解说明在线微聚类和离线宏聚类交互作用法的流程图；

图3是根据本发明的一个实施例，图解说明微群集保持方法的流程图；

图4是根据本发明的一个实施例，图解说明高级群集产生方法的流程图；

图5是根据本发明的一个实施例，图解说明微群集进化分析方法的流程图。

具体实施方式

下面将利用例证的数据处理系统体系结构，举例说明本发明。但是本发明显然并不局限于供任意特殊的系统体系结构之用。相反，本发明适用于其中希望实现高效和有效数据流聚类的任意数据处理系统。

为了实现数据流聚类，以微群集的形式保持和数据局部性相关的统计信息。这些统计数据点被定义为群集特征矢量的时间延伸(temporal extension)，例如参见T.Zhang等的“BIRCH：An EfficientData Clustering Method for Very Large Databases”，ACM SIGMODConference，1996。由于其可加性，微群集被用在数据流聚类中。微群集被保存为遵循特定模式的时间快照(snapshot)。这种模式提供存储要求和从不同的时间范围取回摘要统计信息的能力之间的有效折衷。微群集中的摘要信息随后被取决于各种用户输入，例如时间范围或聚类的粒度的离线组件使用。

于是，根据本发明，数据流聚类被分成在线微聚类组件和离线宏聚类组件。在线微聚类组件使用有效的方法把恰当的摘要统计信息保存在快速数据流中。离线组件使用这些摘要统计信息和其它用户输入，以便当需要时，向用户提供群集的快速理解。由于离线组件使用摘要统计信息作为输入，因此离线组件效率高。这种两阶段方法还向用户提供研究在不同时间周期内，群集的进化本质的灵活性。

假定数据流包括一批在时间戳记T₁...T_k...到达的多维记录X₁...X_k...，每个X_i是包含由X_i＝x_i ¹...x_i ^d表示的d维的多维记录。

具有时间戳记T_i1...T_in的一批d维点X_i1...X_in的微群集被定义为2.d+3元组(CF2^x，CF1^x，CF2^t，CF1^t，n)，其中{CF2^x}和{CF1^x}分别对应于d个条目的一个矢量。这些条目中每一个的定义如下所示：

·对于每一维，数据值的平方和被保存在{CF2^x}中。从而，{CF2^x}包含d个值。{CF2^x}的第p个条目等于

·对于每一维，数据值的和被保存{CF1^x}中。从而，{CF1^x}包含d个值。{CF1^x}的第p个条目等于

·时间戳记T_i1...T_in的平方和被保存在CF2^t中；

·时间戳记T_i1...T_in的和被保存在CF1^t中；以及

·数据点的数目被保存在n中。

微群集定义是群集特征矢量的时间延伸。一批点C的微群集由CFT(C)表示。这种摘要信息是数据流方法的自然选择，因为它可用相对于不同数据点的加法方式来表示。在给定时刻，和数据流中的主要微群集相关的统计信息由所述方法保持。和以前的方法(例如参见L.O′Callaghan等的文献)相比，所述方法确保能够有效地保持非常大量的微群集。在线更新方法的极大粒度确保能够在进化数据流中提供质量好得多的群集。

微群集被保存在数据流中称为快照的特定时刻。离线宏聚类方法使用这些较细级别的微群集，以便在特定时间范围内产生高级群集。当时钟时间为t_c时，用户可能希望根据长度为h的历史记录，找到数据流中的群集。宏聚类方法使用保存为快照t_c和(t_c-h)的微群集的减法性质，以便找到长度为h的历史记录或时间范围中的高级群集。减法性质是微聚类表示法的一种非常重要的特性，它使得能够产生不同时间范围内的高级群集。由于不能保存每个时刻的快照，因此选择微群集被保存的特定时间很重要。选择这些特定时间的目的是确保能够近似任意用户规定的时间范围(t_c-h，t_c)中的群集。

在金字塔形时间框架中，根据新近性(recency)，以不同等级的粒度保存快照。快照被分成可从1变化到log(T)的不同等级，这里T是自数据流的起点开始过去的时钟时间。特定类别的快照的等级定义保持快照的时间粒度的级别。如下所述保持不同等级的快照。

·以aⁱ的时间间隔产生第i等级的快照，这里a是整数并且a≥1。具体地说，在当从数据流的起点以来的时钟值可被aⁱ整除的时刻，获得第i等级的各个快照。时钟时间的一个单位是粒度的最小级别。从而，第0等级快照测量最小粒度级别下的时间间隔。

·在任意指定时刻，保存等级i的最后a+1个快照。

上面的定义为快照存储方面的较大冗余创造条件。例如，为8的时钟时间可被2⁰，2¹，2²和2³除尽(这里a＝2)。于是，在为8的时钟时间的微群集的状态同时对应于等级0，等级1，等级2和等级3快照。

参见图1，图1是根据本发明的一个实施例，图解说明适合于使用各种方法的硬件实现的方框图。如图所示，例证的系统包括通过大型网络10与服务器20耦接的客户机。服务器20可包括与主存储器40和磁盘50耦接的中央处理器(CPU)30。假定多个客户机能够通过大型网络10与服务器20交互作用。要认识到网络10可以是公共信息网，例如因特网或万维网，但是，另一方面，客户机和服务器可通过专用网络，局域网或其它一些适当的网络进行连接。

本发明的数据聚类计算在服务器20上的CPU 30上进行，并被发送给一个或多个客户机。客户机产生关于数据流的各种特性的查询，这些查询由服务器20响应。在处理过程中，要处理的数据集的全部或多个部分被保存在磁盘50上。主存储器40被用于保存在处理过程中产生的一些或全部统计信息。结果被返回给发出请求的客户机。

在一个优选实施例中，包括实现这里所述的本发明的方法的指令或代码的软件组件可被保存在上面参考服务器说明的一个或多个存储设备中，并且当准备好被使用时，被CPU 30部分或整个装入并执行。

现在参见图2，图2是根据本发明的一个实施例，图解说明在线微聚类和离线宏聚类相互作用法的流程图。该方法始于步骤200，在步骤200，输入数据流。在步骤210，从数据流接收数据点。在步骤220中，该数据点被用于更新在线统计信息。图3中更详细地说明了该在线微聚类步骤。在步骤230中，确定群集的分析是否需要离线处理。如果需要离线处理，那么在步骤240中进行离线处理。在图4中更详细地说明了该离线宏聚类步骤。方法随后返回步骤210。如果不需要离线处理，那么方法直接返回步骤210。当不再从数据流收到数据点时，方法在步骤250终止。

现在参见图3，图3是根据本发明的一个实施例，图解说明微群集保持方法的流程图。图3可被看作图2中步骤220的详细说明。该方法始于步骤300，在步骤300，输入来自数据流的数据点。在步骤310，找出最接近于到来数据点的一组数据点。在步骤320中，确定到最近组的距离是否大于用户规定的阈值。如果所述距离大于阈值，那么在步骤330中，产生其中具有单个数据点的新组。如果不存在任何组，也可产生一个新组。如果所述距离小于阈值，那么在步骤335中，该数据点被加入所述最近组中。在任一情况下，在步骤340中，更新更新组或新组统计信息。在更新组统计信息中，微群集中的数据点的计数被更新。另外，当恰当的时间窗口过去时，快照被明确保存。该方法在步骤350终止。

现在参见图4，图4是根据本发明的一个实施例，图解说明高级群集产生方法的流程图。根据图3中的细粒度微群集产生高级宏群集。当用户想要获得数据流中高级群集的图象(picture)时，以离线进程的形式执行该步骤。该方法也可被看作图2中步骤240的详细说明。该方法始于步骤400。在步骤410中，本发明的技术对k个代表性伪点采样。在步骤420中，围绕代表性伪点重新聚类微群集组。每个微群集组被分配给其最近的代表性伪点。该方法是一种迭代进程。这种迭代的次数由用户事先决定。在步骤430中，确定是否需要任意更多次的迭代。如果需要更多次的迭代，那么在步骤440中，代表性伪点被重新定义为重新聚类的点的质心(centroid)。该方法随后返回步骤420。如果不需要更多次的迭代，那么该方法在步骤450中报告重新聚类方法已找到的对应群集。通过确定用户规定的时段内的相关各组，随后重新产生群集，也可在用户规定的时段内产生这些群集。该方法在步骤460结束。

现在参见图5，图5是根据本发明的一个实施例，图解说明微群集进化分析方法的流程图。该方法始于步骤500。在步骤510中，在恰当的时间范围内进行减法。在所述减法中，从当前微群集统计信息中减去在先时间范围的微群集统计信息。在步骤520中，该方法根据减后的统计信息，确定进化分类。例如，当在时间t₁时存在群集组，但是在时间t₂＞t₁时不存在群集组，这意味着该组已在时间间隔(t₁，t₂)中被删除。另一方面，如果t₁＞t₂，则意味着在时间间隔(t₂，t₁)中已产生一个新组。该方法在步骤530结束。

因此，如上所述，本发明提供一种聚类大型进化数据流的高效和有效方法。和试图一次对整个流聚类，而不是把数据流看作随时间不断变化的过程的现有技术相比，该方法具有明显的优点。聚类模型提供表征进化环境中，不同时间范围内的数据流群集的各种功能。这是通过仔细划分在线统计数据收集组件和离线分析组件之间的工作来实现的。从而，本发明的方法向实时并且不断变化的环境中的分析员提供显著的灵活性。

虽然已参考附图说明了本发明的例证实施例，但是本发明显然并不局限于这些实施例，在不脱离本发明的范围或精神的情况下，本领域的技术人员能够做出各种其它变化和修改。

Claims

1、一种对数据流的数据进行聚类的方法，包括下述步骤：

从数据流产生在线统计信息；和

当要求或希望离线处理时，执行在线统计信息的离线处理。

2、按照权利要求1所述的方法，还包括确定是否要求或希望离线处理的步骤。

3、按照权利要求1所述的方法，其中产生在线统计信息的步骤包括下述步骤：

从数据流接收一个数据点；和

从数据流更新在线统计信息。

4、按照权利要求3所述的方法，其中更新在线统计信息的步骤包括下述步骤：

找出和所述数据点最接近的一组数据点；

确定到最近数据点组的距离是否大于阈值；

如果到最近数据点组的距离大于阈值，那么产生具有所述数据点的新组；

如果到最近数据点组的距离小于阈值，那么把所述数据点加入最近数据点组中；和

如果产生新组，那么更新新组的统计信息，或者如果所述数据点被加入最接近数据点组中，那么更新最接近数据点组的统计信息。

5、按照权利要求1所述的方法，其中执行离线处理的步骤包括下述步骤：

对预定数目的数据点采样；

围绕采样的数据点重新聚类各组数据点；

确定是否需要采样和重新聚类的额外迭代；

如果需要额外迭代，那么在围绕重新定义的采样点重新聚类各组数据点之前，把采样点重新定义为数据点的重新聚类组的质心；和

报告在重新聚类中形成的群集。

6、按照权利要求1所述的方法，其中执行离线处理的步骤包括利用在线统计信息产生高级群集的步骤。

7、按照权利要求6所述的方法，其中在线统计信息是低级群集。

8、按照权利要求7所述的方法，其中利用在线统计信息产生高级群集的步骤包括对低级群集重新聚类的步骤。

9、按照权利要求1所述的方法，其中执行离线处理的步骤包括利用在线统计信息监视数据流进化的步骤。

10、按照权利要求9所述的方法，其中利用在线统计信息监视数据流进化的步骤包括比较位于两个不同范围的在线统计信息的步骤。

11、按照权利要求9所述的方法，其中利用在线统计信息监视数据流进化的步骤包括下述步骤：

使规定范围内的在线统计信息相减；和

根据相减后的统计信息，确定进化分类。

12、按照权利要求1所述的方法，还包括根据金字塔形分布，保存特定时间的在线统计信息。

13、一种对数据流的数据进行聚类的设备，所述设备包括：

存储器；和

与所述存储器耦接的至少一个处理器，所述至少一个处理器进行操作，以便：(i)从数据流产生在线统计信息；和(ii)当要求或希望离线处理时，执行在线统计信息的离线处理。

14、按照权利要求13所述的设备，其中所述至少一个处理器还进行操作，以便确定是否要求或希望离线处理。

15、按照权利要求13所述的设备，其中产生在线统计信息的操作包括：

从数据流接收一个数据点；和

从数据流更新在线统计信息。

16、按照权利要求15所述的设备，其中更新在线统计信息的操作包括：

找出和所述数据点最接近的一组数据点；

确定到最近数据点组的距离是否大于阈值；

如果到最近数据点组的距离小于阈值，那么把所述数据点加入最接近数据点组中；和

17、按照权利要求13所述的设备，其中执行离线处理的操作包括：

对预定数目的数据点采样；

围绕采样的数据点重新聚类各组数据点；

确定是否需要采样和重新聚类的额外迭代；

报告在重新聚类中形成的群集。

18、按照权利要求13所述的设备，其中执行离线处理的操作包括利用在线统计信息产生高级群集。

19、按照权利要求13所述的设备，其中在线统计信息是低级群集。

20、按照权利要求19所述的设备，其中利用在线统计信息产生高级群集的操作用于对低级群集重新聚类。

21、按照权利要求13所述的设备，其中执行离线处理的操作用于利用在线统计信息监视数据流进化。

22、按照权利要求21所述的设备，其中利用在线统计信息监视数据流进化的操作用于比较位于两个不同范围的在线统计信息。

23、按照权利要求21所述的设备，其中利用在线统计信息监视数据流进化的操作用于：

使规定范围内的在线统计信息相减；和

根据相减后的统计信息，确定进化分类。

24、按照权利要求13所述的设备，其中所述至少一个处理器还进行操作，以便根据金字塔形分布保存特定时间的在线统计信息。

25、一种对数据流的数据进行聚类的产品，包括包含一个或多个程序的机器可读介质，所述一个或多个程序当被执行时，实现下述步骤：

从数据流产生在线统计信息；和

当要求或希望离线处理时，执行在线统计信息的离线处理。