CN1581166A - 通过在线和离线组件聚类进化数据流的方法和设备 - Google Patents

通过在线和离线组件聚类进化数据流的方法和设备 Download PDF

Info

Publication number
CN1581166A
CN1581166A CNA2004100563262A CN200410056326A CN1581166A CN 1581166 A CN1581166 A CN 1581166A CN A2004100563262 A CNA2004100563262 A CN A2004100563262A CN 200410056326 A CN200410056326 A CN 200410056326A CN 1581166 A CN1581166 A CN 1581166A
Authority
CN
China
Prior art keywords
statistical information
data
online
cluster
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100563262A
Other languages
English (en)
Other versions
CN100416560C (zh
Inventor
查汝·C·阿格瓦尔
俞士纶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1581166A publication Critical patent/CN1581166A/zh
Application granted granted Critical
Publication of CN100416560C publication Critical patent/CN100416560C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供一种对数据流的数据进行聚类的技术。首先从数据流产生在线统计信息。当要求或希望离线处理时,执行在线统计信息的离线处理。通过来自数据流的数据点的接收,以及数据组的形成和更新,能够产生在线统计信息。通过围绕采样数据点,对多组数据点重新聚类,并报告新形成的群集,可实现离线处理。

Description

通过在线和离线组件聚类 进化数据流的方法和设备
技术领域
本发明涉及数据聚类(clustering),更具体地说,涉及通过产生的在线统计和离线处理,聚类进化数据流(evolving data stream)。
背景技术
硬件技术的最新发展已允许公司和机构自动地快速记录日常生活的事务(例如银行业务,信用卡,股票,电信等)。这种过程的记录带来大量的数据,所述数据以极大的速度增长。数据的连续到达被称为数据流。由于数据流在各种各样应用中的使用,近年来已得到广泛研究,例如参见B.Babcock等的“Models and Issues in Data StreamSystems”,ACM PODS Conference 2002;P.Domingos等的“MiningHigh-Speed Data Streams”,ACM SIGKDD Conference,2000;S.Guha等的“Clustering Data Streams”,IEEE FOCS Conference,2000;和L.O′Callaghan等的“Streaming-Data Algorithms For High-QualityClustering”,ICDE Conference,2002。
数据流的聚类把给定的一批数据点分成一组或多组类似的数据点。在数据库、数据挖掘和统计学界已广泛研究了聚类,例如参见P.Bradley等的“Scaling Clustering Algorithms to Large Databases”,SIGKDD Conference,1998;S.Guha等的“CURE:An EfficientClustering Algorithm for Large Databases’,ACM SIGMODConference,1998;R.Ng等的“Efficient and Effective ClusteringMethods for Spatial Data Mining’,Very Large Data BasesConference,1994;R.Dubes等的“Algorithms for Clustering Data”,Prentice Hall,New Jersey,1998;和L.Kaufman等的“Finding Groupsin Data-An Introduction to Cluster Analysis”,Wiley Series inProbability and Math Sciences,1990。在数据流环境的上下文下也已研究了聚类,例如参见S.Guha等和L.O′Callaghan等的文献。
由于数据流的聚类导致大量数据的到达,因此它使传统的聚类方法效率低。近年来,已开发了供和数据流一起应用的一趟(one-pass)聚类方法。但是,数年内关于数据流提供的简单的一趟聚类方法的结果会由数据流的过时历史记录占据支配地位。
聚类数据流的其它现有方法关于整个数据流计算群集(cluster),例如参见L.O′Callaghan等的文献。这些技术把数据流聚类看作一趟聚类方法的变型。虽然这样的技术可用在许多聚类应用中,但是数据流的聚类要求数据流上下文中的仔细定义。数据流应被看作具有随时间不断进化的数据的无穷过程。从而,基础群集也随着时间显著变化。群集的本质会随着计算群集的时刻,以及测量群集的时间范围而变化。例如,用户可能希望检查在上个月,去年或过去10年中发生的群集,所有这些群集均截然不同。
数据流固有地对方法设计施加一趟约束。很难利用传统的方法,提供在不同类型的时间范围内计算群集的灵活性。例如,基于流的k-means方法的直接扩展(例如参见L.O′Callaghan等的文献)会要求同时保持在所有可能时间范围内,聚类方法的中间结果。这种计算负担随着数据流的发展而增大,会很快成为在线实现的瓶颈。此外,在许多情况下,分析员会希望确定先前某一时刻的群集,把它们与当前群集进行比较。这需要更大的簿记,对于快速数据流来说,这将很快变得难以处理。
由于在计算过程中,不能再访数据流,因此聚类方法需要保持大量的信息,以使得重要细节不被丢失。例如,在其执行过程中,连续形式的k-means方法保存根据需要而变化或合并的许多群集中心,例如参见L.O′Callaghan等的文献。由于k-means方法对数据点的到达顺序非常敏感,因此当数据流的特性随着时间而进化时,这种方法是不可预测的。例如,一旦两个群集中心被合并,那么稍后当数据流的进化需要把群集分开时,根本没有办法以知情方式把群集分开。
于是当数据随着时间而明显进化时,需要改进群集的质量。另外还需要提供在数据流的不同部分上发现和探索群集的更强大功能。
发明内容
本发明涉及数据聚类技术。更具体地说,本发明涉及通过产生的在线统计和离线处理,聚类进化数据流。
例如,在本发明的一个方面,聚类数据流的数据的技术包括下述步骤。首先,从数据流产生在线统计信息。随后,当要求或者需要离线处理时,执行在线统计信息的离线处理。
有利的是,本发明的技术按照用户易于访问和管理的方式,高效且有效地对数据流进行聚类。
本发明技术的另一有益性质在于其在用户定义的时段内计算群集的灵活性。另外,本发明可提供在先时刻的群集与数据流的当前群集的比较。用户可在数据流的不同部分中发现和探索群集。
结合附图,根据例证实施例的下述详细说明,本发明的这些及其它目的、特征和优点将变得显而易见。
附图说明
图1是根据本发明的一个实施例,图解说明适于使用各种方法的硬件实现的方框图;
图2是根据本发明的一个实施例,图解说明在线微聚类和离线宏聚类交互作用法的流程图;
图3是根据本发明的一个实施例,图解说明微群集保持方法的流程图;
图4是根据本发明的一个实施例,图解说明高级群集产生方法的流程图;
图5是根据本发明的一个实施例,图解说明微群集进化分析方法的流程图。
具体实施方式
下面将利用例证的数据处理系统体系结构,举例说明本发明。但是本发明显然并不局限于供任意特殊的系统体系结构之用。相反,本发明适用于其中希望实现高效和有效数据流聚类的任意数据处理系统。
为了实现数据流聚类,以微群集的形式保持和数据局部性相关的统计信息。这些统计数据点被定义为群集特征矢量的时间延伸(temporal extension),例如参见T.Zhang等的“BIRCH:An EfficientData Clustering Method for Very Large Databases”,ACM SIGMODConference,1996。由于其可加性,微群集被用在数据流聚类中。微群集被保存为遵循特定模式的时间快照(snapshot)。这种模式提供存储要求和从不同的时间范围取回摘要统计信息的能力之间的有效折衷。微群集中的摘要信息随后被取决于各种用户输入,例如时间范围或聚类的粒度的离线组件使用。
于是,根据本发明,数据流聚类被分成在线微聚类组件和离线宏聚类组件。在线微聚类组件使用有效的方法把恰当的摘要统计信息保存在快速数据流中。离线组件使用这些摘要统计信息和其它用户输入,以便当需要时,向用户提供群集的快速理解。由于离线组件使用摘要统计信息作为输入,因此离线组件效率高。这种两阶段方法还向用户提供研究在不同时间周期内,群集的进化本质的灵活性。
假定数据流包括一批在时间戳记T1...Tk...到达的多维记录X1...Xk...,每个Xi是包含由Xi=xi 1...xi d表示的d维的多维记录。
具有时间戳记Ti1...Tin的一批d维点Xi1...Xin的微群集被定义为2.d+3元组(CF2x,CF1x,CF2t,CF1t,n),其中{CF2x}和{CF1x}分别对应于d个条目的一个矢量。这些条目中每一个的定义如下所示:
·对于每一维,数据值的平方和被保存在{CF2x}中。从而,{CF2x}包含d个值。{CF2x}的第p个条目等于
·对于每一维,数据值的和被保存{CF1x}中。从而,{CF1x}包含d个值。{CF1x}的第p个条目等于
Figure A20041005632600101
·时间戳记Ti1...Tin的平方和被保存在CF2t中;
·时间戳记Ti1...Tin的和被保存在CF1t中;以及
·数据点的数目被保存在n中。
微群集定义是群集特征矢量的时间延伸。一批点C的微群集由CFT(C)表示。这种摘要信息是数据流方法的自然选择,因为它可用相对于不同数据点的加法方式来表示。在给定时刻,和数据流中的主要微群集相关的统计信息由所述方法保持。和以前的方法(例如参见L.O′Callaghan等的文献)相比,所述方法确保能够有效地保持非常大量的微群集。在线更新方法的极大粒度确保能够在进化数据流中提供质量好得多的群集。
微群集被保存在数据流中称为快照的特定时刻。离线宏聚类方法使用这些较细级别的微群集,以便在特定时间范围内产生高级群集。当时钟时间为tc时,用户可能希望根据长度为h的历史记录,找到数据流中的群集。宏聚类方法使用保存为快照tc和(tc-h)的微群集的减法性质,以便找到长度为h的历史记录或时间范围中的高级群集。减法性质是微聚类表示法的一种非常重要的特性,它使得能够产生不同时间范围内的高级群集。由于不能保存每个时刻的快照,因此选择微群集被保存的特定时间很重要。选择这些特定时间的目的是确保能够近似任意用户规定的时间范围(tc-h,tc)中的群集。
在金字塔形时间框架中,根据新近性(recency),以不同等级的粒度保存快照。快照被分成可从1变化到log(T)的不同等级,这里T是自数据流的起点开始过去的时钟时间。特定类别的快照的等级定义保持快照的时间粒度的级别。如下所述保持不同等级的快照。
·以ai的时间间隔产生第i等级的快照,这里a是整数并且a≥1。具体地说,在当从数据流的起点以来的时钟值可被ai整除的时刻,获得第i等级的各个快照。时钟时间的一个单位是粒度的最小级别。从而,第0等级快照测量最小粒度级别下的时间间隔。
·在任意指定时刻,保存等级i的最后a+1个快照。
上面的定义为快照存储方面的较大冗余创造条件。例如,为8的时钟时间可被20,21,22和23除尽(这里a=2)。于是,在为8的时钟时间的微群集的状态同时对应于等级0,等级1,等级2和等级3快照。
参见图1,图1是根据本发明的一个实施例,图解说明适合于使用各种方法的硬件实现的方框图。如图所示,例证的系统包括通过大型网络10与服务器20耦接的客户机。服务器20可包括与主存储器40和磁盘50耦接的中央处理器(CPU)30。假定多个客户机能够通过大型网络10与服务器20交互作用。要认识到网络10可以是公共信息网,例如因特网或万维网,但是,另一方面,客户机和服务器可通过专用网络,局域网或其它一些适当的网络进行连接。
本发明的数据聚类计算在服务器20上的CPU 30上进行,并被发送给一个或多个客户机。客户机产生关于数据流的各种特性的查询,这些查询由服务器20响应。在处理过程中,要处理的数据集的全部或多个部分被保存在磁盘50上。主存储器40被用于保存在处理过程中产生的一些或全部统计信息。结果被返回给发出请求的客户机。
在一个优选实施例中,包括实现这里所述的本发明的方法的指令或代码的软件组件可被保存在上面参考服务器说明的一个或多个存储设备中,并且当准备好被使用时,被CPU 30部分或整个装入并执行。
现在参见图2,图2是根据本发明的一个实施例,图解说明在线微聚类和离线宏聚类相互作用法的流程图。该方法始于步骤200,在步骤200,输入数据流。在步骤210,从数据流接收数据点。在步骤220中,该数据点被用于更新在线统计信息。图3中更详细地说明了该在线微聚类步骤。在步骤230中,确定群集的分析是否需要离线处理。如果需要离线处理,那么在步骤240中进行离线处理。在图4中更详细地说明了该离线宏聚类步骤。方法随后返回步骤210。如果不需要离线处理,那么方法直接返回步骤210。当不再从数据流收到数据点时,方法在步骤250终止。
现在参见图3,图3是根据本发明的一个实施例,图解说明微群集保持方法的流程图。图3可被看作图2中步骤220的详细说明。该方法始于步骤300,在步骤300,输入来自数据流的数据点。在步骤310,找出最接近于到来数据点的一组数据点。在步骤320中,确定到最近组的距离是否大于用户规定的阈值。如果所述距离大于阈值,那么在步骤330中,产生其中具有单个数据点的新组。如果不存在任何组,也可产生一个新组。如果所述距离小于阈值,那么在步骤335中,该数据点被加入所述最近组中。在任一情况下,在步骤340中,更新更新组或新组统计信息。在更新组统计信息中,微群集中的数据点的计数被更新。另外,当恰当的时间窗口过去时,快照被明确保存。该方法在步骤350终止。
现在参见图4,图4是根据本发明的一个实施例,图解说明高级群集产生方法的流程图。根据图3中的细粒度微群集产生高级宏群集。当用户想要获得数据流中高级群集的图象(picture)时,以离线进程的形式执行该步骤。该方法也可被看作图2中步骤240的详细说明。该方法始于步骤400。在步骤410中,本发明的技术对k个代表性伪点采样。在步骤420中,围绕代表性伪点重新聚类微群集组。每个微群集组被分配给其最近的代表性伪点。该方法是一种迭代进程。这种迭代的次数由用户事先决定。在步骤430中,确定是否需要任意更多次的迭代。如果需要更多次的迭代,那么在步骤440中,代表性伪点被重新定义为重新聚类的点的质心(centroid)。该方法随后返回步骤420。如果不需要更多次的迭代,那么该方法在步骤450中报告重新聚类方法已找到的对应群集。通过确定用户规定的时段内的相关各组,随后重新产生群集,也可在用户规定的时段内产生这些群集。该方法在步骤460结束。
现在参见图5,图5是根据本发明的一个实施例,图解说明微群集进化分析方法的流程图。该方法始于步骤500。在步骤510中,在恰当的时间范围内进行减法。在所述减法中,从当前微群集统计信息中减去在先时间范围的微群集统计信息。在步骤520中,该方法根据减后的统计信息,确定进化分类。例如,当在时间t1时存在群集组,但是在时间t2>t1时不存在群集组,这意味着该组已在时间间隔(t1,t2)中被删除。另一方面,如果t1>t2,则意味着在时间间隔(t2,t1)中已产生一个新组。该方法在步骤530结束。
因此,如上所述,本发明提供一种聚类大型进化数据流的高效和有效方法。和试图一次对整个流聚类,而不是把数据流看作随时间不断变化的过程的现有技术相比,该方法具有明显的优点。聚类模型提供表征进化环境中,不同时间范围内的数据流群集的各种功能。这是通过仔细划分在线统计数据收集组件和离线分析组件之间的工作来实现的。从而,本发明的方法向实时并且不断变化的环境中的分析员提供显著的灵活性。
虽然已参考附图说明了本发明的例证实施例,但是本发明显然并不局限于这些实施例,在不脱离本发明的范围或精神的情况下,本领域的技术人员能够做出各种其它变化和修改。

Claims (25)

1、一种对数据流的数据进行聚类的方法,包括下述步骤:
从数据流产生在线统计信息;和
当要求或希望离线处理时,执行在线统计信息的离线处理。
2、按照权利要求1所述的方法,还包括确定是否要求或希望离线处理的步骤。
3、按照权利要求1所述的方法,其中产生在线统计信息的步骤包括下述步骤:
从数据流接收一个数据点;和
从数据流更新在线统计信息。
4、按照权利要求3所述的方法,其中更新在线统计信息的步骤包括下述步骤:
找出和所述数据点最接近的一组数据点;
确定到最近数据点组的距离是否大于阈值;
如果到最近数据点组的距离大于阈值,那么产生具有所述数据点的新组;
如果到最近数据点组的距离小于阈值,那么把所述数据点加入最近数据点组中;和
如果产生新组,那么更新新组的统计信息,或者如果所述数据点被加入最接近数据点组中,那么更新最接近数据点组的统计信息。
5、按照权利要求1所述的方法,其中执行离线处理的步骤包括下述步骤:
对预定数目的数据点采样;
围绕采样的数据点重新聚类各组数据点;
确定是否需要采样和重新聚类的额外迭代;
如果需要额外迭代,那么在围绕重新定义的采样点重新聚类各组数据点之前,把采样点重新定义为数据点的重新聚类组的质心;和
报告在重新聚类中形成的群集。
6、按照权利要求1所述的方法,其中执行离线处理的步骤包括利用在线统计信息产生高级群集的步骤。
7、按照权利要求6所述的方法,其中在线统计信息是低级群集。
8、按照权利要求7所述的方法,其中利用在线统计信息产生高级群集的步骤包括对低级群集重新聚类的步骤。
9、按照权利要求1所述的方法,其中执行离线处理的步骤包括利用在线统计信息监视数据流进化的步骤。
10、按照权利要求9所述的方法,其中利用在线统计信息监视数据流进化的步骤包括比较位于两个不同范围的在线统计信息的步骤。
11、按照权利要求9所述的方法,其中利用在线统计信息监视数据流进化的步骤包括下述步骤:
使规定范围内的在线统计信息相减;和
根据相减后的统计信息,确定进化分类。
12、按照权利要求1所述的方法,还包括根据金字塔形分布,保存特定时间的在线统计信息。
13、一种对数据流的数据进行聚类的设备,所述设备包括:
存储器;和
与所述存储器耦接的至少一个处理器,所述至少一个处理器进行操作,以便:(i)从数据流产生在线统计信息;和(ii)当要求或希望离线处理时,执行在线统计信息的离线处理。
14、按照权利要求13所述的设备,其中所述至少一个处理器还进行操作,以便确定是否要求或希望离线处理。
15、按照权利要求13所述的设备,其中产生在线统计信息的操作包括:
从数据流接收一个数据点;和
从数据流更新在线统计信息。
16、按照权利要求15所述的设备,其中更新在线统计信息的操作包括:
找出和所述数据点最接近的一组数据点;
确定到最近数据点组的距离是否大于阈值;
如果到最近数据点组的距离大于阈值,那么产生具有所述数据点的新组;
如果到最近数据点组的距离小于阈值,那么把所述数据点加入最接近数据点组中;和
如果产生新组,那么更新新组的统计信息,或者如果所述数据点被加入最接近数据点组中,那么更新最接近数据点组的统计信息。
17、按照权利要求13所述的设备,其中执行离线处理的操作包括:
对预定数目的数据点采样;
围绕采样的数据点重新聚类各组数据点;
确定是否需要采样和重新聚类的额外迭代;
如果需要额外迭代,那么在围绕重新定义的采样点重新聚类各组数据点之前,把采样点重新定义为数据点的重新聚类组的质心;和
报告在重新聚类中形成的群集。
18、按照权利要求13所述的设备,其中执行离线处理的操作包括利用在线统计信息产生高级群集。
19、按照权利要求13所述的设备,其中在线统计信息是低级群集。
20、按照权利要求19所述的设备,其中利用在线统计信息产生高级群集的操作用于对低级群集重新聚类。
21、按照权利要求13所述的设备,其中执行离线处理的操作用于利用在线统计信息监视数据流进化。
22、按照权利要求21所述的设备,其中利用在线统计信息监视数据流进化的操作用于比较位于两个不同范围的在线统计信息。
23、按照权利要求21所述的设备,其中利用在线统计信息监视数据流进化的操作用于:
使规定范围内的在线统计信息相减;和
根据相减后的统计信息,确定进化分类。
24、按照权利要求13所述的设备,其中所述至少一个处理器还进行操作,以便根据金字塔形分布保存特定时间的在线统计信息。
25、一种对数据流的数据进行聚类的产品,包括包含一个或多个程序的机器可读介质,所述一个或多个程序当被执行时,实现下述步骤:
从数据流产生在线统计信息;和
当要求或希望离线处理时,执行在线统计信息的离线处理。
CNB2004100563262A 2003-08-14 2004-08-06 通过在线和离线组件聚类进化数据流的方法和设备 Expired - Fee Related CN100416560C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/641,951 2003-08-14
US10/641,951 US7353218B2 (en) 2003-08-14 2003-08-14 Methods and apparatus for clustering evolving data streams through online and offline components

Publications (2)

Publication Number Publication Date
CN1581166A true CN1581166A (zh) 2005-02-16
CN100416560C CN100416560C (zh) 2008-09-03

Family

ID=34136487

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100563262A Expired - Fee Related CN100416560C (zh) 2003-08-14 2004-08-06 通过在线和离线组件聚类进化数据流的方法和设备

Country Status (3)

Country Link
US (2) US7353218B2 (zh)
JP (1) JP5089854B2 (zh)
CN (1) CN100416560C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100442287C (zh) * 2005-04-20 2008-12-10 国际商业机器公司 处理数据流的方法和设备
CN102495938A (zh) * 2011-10-19 2012-06-13 武汉科技大学 对含噪声点的实时数据流进行聚类和聚类边界界定的方法
CN102693361A (zh) * 2012-05-07 2012-09-26 北京航空航天大学 一种大数据量的趋势曲线绘制方法
CN107315760A (zh) * 2012-04-05 2017-11-03 微软技术许可有限责任公司 用于连续图更新和计算的平台
CN108475218A (zh) * 2016-01-14 2018-08-31 起元技术有限责任公司 可恢复流处理

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937269B2 (en) * 2005-08-22 2011-05-03 International Business Machines Corporation Systems and methods for providing real-time classification of continuous data streams
US7421452B2 (en) * 2006-06-14 2008-09-02 International Business Machines Corporation Method and apparatus for predicting future behavior of data streams
WO2008034213A1 (en) * 2006-09-18 2008-03-27 Infobright Inc. A method and system for data compression in a relational database
US8266147B2 (en) * 2006-09-18 2012-09-11 Infobright, Inc. Methods and systems for database organization
US8195734B1 (en) 2006-11-27 2012-06-05 The Research Foundation Of State University Of New York Combining multiple clusterings by soft correspondence
JP4990696B2 (ja) * 2007-06-27 2012-08-01 株式会社日立製作所 ストリームデータの処理方法およびストリームデータ処理システム
US20090171902A1 (en) * 2007-12-28 2009-07-02 Microsoft Corporation Life recorder
JP5647602B2 (ja) * 2009-04-27 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America データ処理装置、データ処理方法、プログラム、及び集積回路
US9141300B2 (en) * 2009-09-22 2015-09-22 Emc Corporation Performance improvement of a capacity optimized storage system using a performance segment storage system and a segment storage system
US8533318B2 (en) * 2009-10-06 2013-09-10 International Business Machines Corporation Processing and presenting multi-dimensioned transaction tracking data
US9195713B2 (en) * 2009-11-08 2015-11-24 Hewlett-Packard Development Company, L.P. Outlier data point detection
US8417727B2 (en) 2010-06-14 2013-04-09 Infobright Inc. System and method for storing data in a relational database
US8521748B2 (en) 2010-06-14 2013-08-27 Infobright Inc. System and method for managing metadata in a relational database
US9165051B2 (en) * 2010-08-24 2015-10-20 Board Of Trustees Of The University Of Illinois Systems and methods for detecting a novel data class
US20130140887A1 (en) * 2010-12-09 2013-06-06 Sanyo Electric Co., Ltd. Clustering method, optimization method using the same, power supply control device
JP5946423B2 (ja) * 2013-04-26 2016-07-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation システム・ログの分類方法、プログラム及びシステム
US9411632B2 (en) 2013-05-30 2016-08-09 Qualcomm Incorporated Parallel method for agglomerative clustering of non-stationary data
CN104699702A (zh) * 2013-12-09 2015-06-10 中国银联股份有限公司 数据挖掘及分类方法
US10496921B2 (en) 2016-05-03 2019-12-03 Fujitsu Limited Neural network mapping dictionary generation
US11461372B1 (en) 2021-03-18 2022-10-04 Bae Systems Information And Electronic Systems Integration Inc. Data clustering in logic devices using unsupervised learning

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257206A (en) * 1991-04-08 1993-10-26 Praxair Technology, Inc. Statistical process control for air separation process
DE69218912T2 (de) * 1991-08-28 1997-10-09 Becton Dickinson Co Schwerkraftsattraktionsmaschine zur anpassungsfähigen autoclusterbildung n-dimensionaler datenströme
US5765166A (en) * 1996-04-23 1998-06-09 Raytheon Company Use of symmetric multiprocessors for multiple hypothesis tracking
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
US6134532A (en) * 1997-11-14 2000-10-17 Aptex Software, Inc. System and method for optimal adaptive matching of users to most relevant entity and information in real-time
US6012058A (en) * 1998-03-17 2000-01-04 Microsoft Corporation Scalable system for K-means clustering of large databases
US20030154072A1 (en) * 1998-03-31 2003-08-14 Scansoft, Inc., A Delaware Corporation Call analysis
US6092072A (en) * 1998-04-07 2000-07-18 Lucent Technologies, Inc. Programmed medium for clustering large databases
US6393460B1 (en) * 1998-08-28 2002-05-21 International Business Machines Corporation Method and system for informing users of subjects of discussion in on-line chats
US6006259A (en) * 1998-11-20 1999-12-21 Network Alchemy, Inc. Method and apparatus for an internet protocol (IP) network clustering system
US6564197B2 (en) * 1999-05-03 2003-05-13 E.Piphany, Inc. Method and apparatus for scalable probabilistic clustering using decision trees
JP3562572B2 (ja) * 2000-05-02 2004-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
JP3606556B2 (ja) * 2000-05-16 2005-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
DE60116877T2 (de) * 2000-08-11 2006-09-14 British Telecommunications P.L.C. System und verfahren zum erfassen von ereignissen
US7003509B2 (en) * 2003-07-21 2006-02-21 Leonid Andreev High-dimensional data clustering with the use of hybrid similarity matrices
US6772375B1 (en) * 2000-12-22 2004-08-03 Network Appliance, Inc. Auto-detection of limiting factors in a TCP connection
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
JP2002304400A (ja) * 2001-04-03 2002-10-18 Ricoh Co Ltd 文書分類装置
US6915241B2 (en) * 2001-04-20 2005-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method for segmentation and identification of nonstationary time series
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
KR100518781B1 (ko) * 2001-10-17 2005-10-06 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션 장치,클러스터링 장치 및 그 방법
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
US7028230B2 (en) * 2001-11-05 2006-04-11 Nokia Corporation Partially filling block interleaver for a communication system
US6801917B2 (en) * 2001-11-13 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for partitioning a plurality of items into groups of similar items in a recommender of such items
US20040103013A1 (en) * 2002-11-25 2004-05-27 Joel Jameson Optimal scenario forecasting, risk sharing, and risk trading
US6765532B2 (en) * 2002-12-17 2004-07-20 Bae Systems Information And Electronic Systems Integration Inc. Wideband signal detection and tracking system
US6947933B2 (en) * 2003-01-23 2005-09-20 Verdasys, Inc. Identifying similarities within large collections of unstructured data
US7557805B2 (en) * 2003-04-01 2009-07-07 Battelle Memorial Institute Dynamic visualization of data streams
US7089266B2 (en) * 2003-06-02 2006-08-08 The Board Of Trustees Of The Leland Stanford Jr. University Computer systems and methods for the query and visualization of multidimensional databases

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100442287C (zh) * 2005-04-20 2008-12-10 国际商业机器公司 处理数据流的方法和设备
US7739284B2 (en) 2005-04-20 2010-06-15 International Business Machines Corporation Method and apparatus for processing data streams
CN102495938A (zh) * 2011-10-19 2012-06-13 武汉科技大学 对含噪声点的实时数据流进行聚类和聚类边界界定的方法
CN107315760A (zh) * 2012-04-05 2017-11-03 微软技术许可有限责任公司 用于连续图更新和计算的平台
CN102693361A (zh) * 2012-05-07 2012-09-26 北京航空航天大学 一种大数据量的趋势曲线绘制方法
CN102693361B (zh) * 2012-05-07 2014-11-26 北京航空航天大学 一种大数据量的趋势曲线绘制方法
CN108475218A (zh) * 2016-01-14 2018-08-31 起元技术有限责任公司 可恢复流处理

Also Published As

Publication number Publication date
JP2005100363A (ja) 2005-04-14
CN100416560C (zh) 2008-09-03
US7353218B2 (en) 2008-04-01
US20070226209A1 (en) 2007-09-27
JP5089854B2 (ja) 2012-12-05
US20050038769A1 (en) 2005-02-17

Similar Documents

Publication Publication Date Title
CN100416560C (zh) 通过在线和离线组件聚类进化数据流的方法和设备
Tao et al. Spatio-temporal aggregation using sketches
Gan et al. Moment-based quantile sketches for efficient high cardinality aggregation queries
Khalilian et al. Data stream clustering by divide and conquer approach based on vector model
Phillips Acceleration of k-means and related clustering algorithms
US20100179855A1 (en) Large-Scale Behavioral Targeting for Advertising over a Network
KR100385528B1 (ko) 다차원 데이터 표시 방법 및 기록 매체
CN1855097A (zh) 处理数据流的方法和设备
US10210280B2 (en) In-memory database search optimization using graph community structure
Gama et al. Data stream processing
Gaber et al. Data stream mining
Youn et al. Efficient data stream clustering with sliding windows based on locality-sensitive hashing
US20110213740A1 (en) System and method for resource adaptive classification of data streams
CN110334290B (zh) 一种基于MF-Octree的时空数据快速检索方法
US11567952B2 (en) Systems and methods for accelerating exploratory statistical analysis
Elnekave et al. Incremental clustering of mobile objects
CN114329094A (zh) 一种基于Spark的大规模高维数据近似近邻查询系统和方法
US20210117447A1 (en) Adaptive data clustering for databases
Sun et al. Spatio-temporal join selectivity
Ahsani et al. Improvement of CluStream algorithm using sliding window for the clustering of data streams
CN108536823B (zh) 一种物联网感知大数据的缓存设计和查询方法
Gothwal et al. The survey on skyline query processing for data-specific applications
Liu Approximate Query Processing.
Brönnimann et al. Efficient data-reduction methods for on-line association rule discovery
Wu et al. NEIST: A neural-enhanced index for spatio-temporal queries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: GOOGLE INC.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORP.

Effective date: 20120503

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120503

Address after: American California

Patentee after: Google Inc.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080903

Termination date: 20170806

CF01 Termination of patent right due to non-payment of annual fee