CN101833553B - 对数据进行聚类的方法、设备和系统 - Google Patents

对数据进行聚类的方法、设备和系统 Download PDF

Info

Publication number
CN101833553B
CN101833553B CN 200910126215 CN200910126215A CN101833553B CN 101833553 B CN101833553 B CN 101833553B CN 200910126215 CN200910126215 CN 200910126215 CN 200910126215 A CN200910126215 A CN 200910126215A CN 101833553 B CN101833553 B CN 101833553B
Authority
CN
China
Prior art keywords
stagewise
tree
data
generates
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200910126215
Other languages
English (en)
Other versions
CN101833553A (zh
Inventor
范志刚
李季檩
吴亚栋
吴波
陈芒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp High Tech Research And Development (shanghai) Co Ltd
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to CN 200910126215 priority Critical patent/CN101833553B/zh
Publication of CN101833553A publication Critical patent/CN101833553A/zh
Application granted granted Critical
Publication of CN101833553B publication Critical patent/CN101833553B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对数据进行聚类的方法、设备和系统。首先创建分级生成树,然后进行迭代图缩减和约束图切分;并且最后实现了分级式分割。通过分割的子图来获得聚类结果。本发明的计算成本低,处理速度快,聚类精度高,并且鲁棒性强。聚类的结果具有较好的统计特征。本发明可以用于各种数据分类系统。

Description

对数据进行聚类的方法、设备和系统
技术领域
本发明涉及数据挖掘和信息索引,具体涉及一种对数据进行聚类的方法、设备和系统,其允许快速并精确地对输入的数据项进行聚类。
背景技术
目前,人们会接触到大量的数据。如何对这些数据进行分析、整理、聚类或者挖掘,进而获得其中的规律性,的问题是困扰人们的问题。
现有的数据聚类方法主要是基于传统的K-means算法,模糊K-means或者分级式汇聚的聚类模型。专利文献1(CN1881218A)披露了一种聚类技术。在该专利文献1中,提出了使用多维数据特征和迭代式汇聚合并策略。该方法通过逐级合并聚类来从各个元素创建分级结构。在汇聚式聚类过程中,每个元素最初被放在其自己的组中。首先确定那个单元要被融合到一个簇中。通常,根据所选的距离度量,将距离最接近的两个元素融合到一个簇中。重复执行该迭代步骤多次,将最终产生的簇作为聚类结果。
但是,该专利文献1所披露的数据聚类方法对于大规模数据集而言处理速度较慢。该方法不能使用分布式和并行计算来解决聚类过程中的大规模计算问题,这是因为该方法针对计算任务的分级式分解而言,没有合适的模型结构。由于无法进行分级式分解,聚类任务不能在并行平台上进行,并且必须使用串行计算。因此,对于大规模聚类问题来说,该方法的速度非常低。
另外,该专利文献1所披露的数据聚类方法主要使用传统的分级式汇聚分类步骤,它不能获得数据空间的统计特征。因此,该方法针对现实世界的数据集而言鲁棒性差。尤其对于大规模数据集,该方法将严重恶化,并且降低了聚类精度和鲁棒性,因为其丢失了数据集的特征空间中的统计细节。同时,该方法需要用户设置较多的参数。这样对于用户而言非常不方便,并且对于现实世界的应用没有自适应能力。在该方法中,不同的参数设置可能会严重影响聚类的精度,因为聚类过程是通过这些参数来初始化的,且聚类结果严重依赖于参数设置。当使用该方法时,较差的参数设置必将导致较差的聚类结果,但是用户却不知道如何找到最佳的参数设置。因此,该专利文献1所披露的方法很难为用户产生较好的聚类结果。该方法对于实际的应用来说,也是不够的。
发明内容
本发明的目的是提出一种对数据进行聚类的方法和设备,允许对大规模数据进行分级式聚类,以便提高聚类的速度和精度。
在本发明的一个方面,提出了一种对数据进行聚类的方法,包括步骤:针对输入的数据项创建分级式生成树;对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成子树来获得聚类结果。
在本发明的另一方面,提出了一种对数据进行聚类的设备,包括:分级式生成树创建单元,针对输入的数据项创建分级式生成树;图缩减单元,对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;图切分单元,对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及分级式分割单元,选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成多个子树来获得聚类结果。
利用本发明的上述方法和设备,能够基于分级式结构,以并行的方式对大规模数据集合进行计算,提高了聚类过程的计算速度。
另外,本发明的方法和设备使用自适应的分割并包围和从粗到细的策略来对大规模数据集合进行计算。因此具有较高的数据聚类精度。
另外,本发明所提出的方法和设备采用基于并行计算和分级式结构,允许进行在线的实时应用。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1A示出了根据本发明实施例的数据处理系统的结构示意图;
图1B示出了根据本发明实施例的数据处理系统中的聚类装置的结构示意图;
图2示出了根据本发明实施例的聚类设备对数据进行聚类的过程的流程图;
图3A和3B是描述分级式生成树的产生过程的示意图;
图4是描述迭代式图缩减过程的示意图;
图5是描述受约束的图切分处理过程的示意图;
图6是描述分级是分割的处理过程的示意图。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
图1A示出了根据本发明实施例的数据处理系统的结构示意图。该数据处理系统例如是用于信息浏览和索引的各种数据聚类系统和图像聚类系统。
如图1A所示,该系统包括对输入的原始数据进行预处理的预处理部分11、对预处理后的数据进行特征提取的特征提取部分12、存储数据的存储设备13、对数据进行聚类的聚类装置和输出聚类结果的输出单元15。虽然以分离的功能模块的形式来描述该系统的功能,但是也可以以具体的实体结构来实现相应的功能。例如,图1A所示的数据预处理部分11、特征提取部分12和数据聚类装置14可以实现为计算机的CPU和RAM。并且该系统既能够在通用计算机上实现,也能够在嵌入式系统中实现。如图1A所示,输入到系统中的是原始数据,一方面用于记录到存储设备13中,另一方面对其进行聚类操作,输出聚类结果。由系统的输出单元15输出的是针对数据的聚类标记。
该数据预处理部分11例如对输入的图像进行噪声消除之类的操作,输出经过预处理的图像。对于其他的数据,例如银行或者网页数据,该数据预处理部分11可以对输入的数据进行重新整理,排序等操作,方便后续的处理。
然后,特征提取部分12例如对经过预处理的图像进行特征提取,例如进行特征提取,得到能够描述该图像的特征矢量,作为要进行聚类的数据。
本发明的信息处理设备不但支持在线处理,而且也支持离线处理。例如用户可以首先对输入的原始数据进行预处理和特征提取后,将带聚类的数据项存储在存储设备13中,然后由数据聚类装置14进行聚类操作。作为另一实施例,聚类装置14可以直接对特征提取部分12所输入的带聚类的数据进行聚类操作。
图1B示出了根据本发明实施例的数据处理系统中的聚类装置的结构示意图。如图1所示,根据本发明实施例的聚类装置14包括分级式生成树(HST:Hierarchical Spanning Tree)创建模块141,图缩减(Graph Shrinking)模块142、图切分(Graph cuts)模块143和分级式分割(Hierarchical Partitioning)模块。下面参照附图2~6详细说明本发明实施例的聚类装置14的详细构成和各个模块的具体操作过程。
如图2所示,在步骤S11,将要聚类的数据项和预设参数值从特征提取部分12和/或存储设备13中输入到HST创建模块141中。例如输入任意顺序的数据点列表和两个距离阈值,T1和T2,其中T1大于T2
然后,在步骤S12,HST创建模块141从列表中取一个数据点,并且计算它与列表中的其他数据点的距离。将彼此之间的距离小于距离阈值T1的所有数据点放在一个超球内。并且从列表中移除彼此之间的距离小于距离阈值T2的所有数据点。
重复上述过程,直到列表空。结果,在该过程中创建了大量的超球。在每个超球中,使用Prim算法创建最小生成树,如图3A所示。该计算任务可以以分布式计算的并行方式来执行。
然后,对于具有重叠数据点的任意两个超球,HST创建模块141将最接近的数据点链接起来,使得该链接能够在两个超球和重叠数据点之间建立桥梁,并且将两个超球链接起来,如图3B中的虚线所示。该计算任务也可以以并行方式来完成。在所有超球中,使用Prim算法将超球看作数据点,删除一些边,从而使得将所有超球链接在一起的剩余边形成针对这些超球的最小生成树。最终在整个数据集上创建了分级式生成树。
在步骤S13,图缩减模块142执行迭代式图缩减。如图4所示,在分级式生成树中,将数据点称为边缘点,因为它们仅仅有一个边。图缩减模块142删除与边缘点联系的边,并且将所有的边缘点收缩到分级式生成树上。并且,再次融合新的边缘点。重复该迭代式缩减步骤M次,以便缩减边缘点。重复该迭代式缩减步骤M次,以便缩减边缘点。结果,分级式生成树被缩减,并且边缘点被标记出来,如图4中的粗线段所示。
在步骤S14,图切分模块143执行受约束的图切分处理。如图5所示,在缩减的分级式生成树中,图切分模块143基于两个数据点所在的集合之间的距离和各个集合中数据点的稀疏度来计算连接两个数据点的边的图切分值。例如如下对链接数据点m和n的边t计算受约束的图切分值Mcut(m,n):
Mcut ( m , n ) = cut ( m , n ) assoc ( A m ) + cut ( m , n ) assoc ( A n )
其中Am和An是数据点的集合,并且
cut(m,n)=wmn,表示两个集合Am和An之间的距离
Figure G2009101262157D00052
表示集合Am中元素的稀疏度
Figure G2009101262157D00061
表示集合An中元素的稀疏度wij是链接数据点i和j的边的长度。Am是从点m搜索到的点集合。该搜索过程从点m开始,并且不跨过链接点m和n的边。图切分模块143产生由数据点m和与其毗邻的点构成的列表L,但是其中不包括数据点n。然后,图切分模块产生仅仅由点m构成的另一列表LL。在列表L的点之间的边中找到最短的边s。标记链接点m和k的最短的边s。并且将点k和与其毗邻的点添加到列表L中,以及将点k添加到列表LL中。然后,从列表L中的点之间的边中再次找到最短的边(除了上述的最短边)。重复上述过程H次,列表LL中就有H+1个点。结果,将列表LL设置为点集合Am。并且点集合An可以通过相同的搜索过程来得到。最后,分级式生成树中的每个边都有一个因子Mcut。
在步骤S15,分级式分割模块144执行分级式分割操作。如图6所示,分级式分割模块144选择具有最大Mcut的边作为合适的位置来将分级式生成树切分成子树。在每个子树中,按照上述的原理将子树分裂成两个子树。因此,该分割过程可以按照分级的方式来进行。因此,整个数据图被分割成X个子树。每个子树就是作为簇的数据集合。因此,数据聚类就完成了。
相比于现有的技术,本发明实施例的方法能够基于分级式结构,以并行的方式对大规模数据集合进行计算。因此提高了聚类过程的计算速度。
另外,本发明实施例的方案允许使用自适应的分割并包围和从粗到细的策略来对大规模数据集合进行计算。因此具有较高的数据聚类精度。
另外,本发明实施例的方案基于并行计算和分级式结构,允许进行在线的实时应用。
上面的描述仅用于实现本发明的实施方式,本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均应该属于本发明的权利要求来限定的范围,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种对数据进行聚类的方法,包括步骤:
针对输入的数据点创建分级式生成树;
对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;
对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及
选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成子树来获得聚类结果;
其中,所述针对输入的数据点创建分级式生成树的步骤包括:
从包括多个数据点的列表中取一个数据点,并且计算它与列表中的其他数据点的距离;
将彼此之间的距离小于第一距离阈值的所有数据点放在一个超球内;
从列表中移除彼此之间的距离小于第二距离阈值的所有数据点,其中第一距离阈值大于第二距离阈值;
针对所述超球,创建最小生成树;
对于具有重叠数据点的任意两个超球,将最接近的数据点链接起来;
在所有超球中,将超球看作数据点,删除一些边,从而使得将所有超球链接在一起的剩余边形成针对这些超球的最小生成树,作为所述分级式生成树;
其中所述对创建的分级式生成树执行迭代式图缩减的步骤包括:
重复如下过程来缩减分级式生成树:
删除与分级式生成树的边缘点联系的边;
将分级式生成树的所有的边缘点收缩到分级式生成树上;以及
融合新的边缘点。
2.如权利要求1所述的方法,其中所述对创建的分级式生成树执行迭代式图缩减的步骤还包括:
标记缩减后的分级式生成树的边缘点。
3.如权利要求1所述的方法,其中切分值的计算包括:
基于两个数据点各自所在的集合之间的距离和各个集合中数据点的稀疏度来计算连接两个数据点的边的图切分值,其中数据点所在的集合是从该数据点搜索到的点集合,从该数据点开始搜索但是不跨过链接这两个数据点之间的边。
4.一种对数据进行聚类的设备,包括:
分级式生成树创建单元,针对输入的数据点创建分级式生成树;
图缩减单元,对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;
图切分单元,对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及
分级式分割单元,选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成多个子树来获得聚类结果;
其中,所述分级式生成树创建单元从包括多个数据点的列表中取一个数据点,并且计算它与列表中的其他数据点的距离,将彼此之间的距离小于第一距离阈值的所有数据点放在一个超球内,从列表中移除彼此之间的距离小于第二距离阈值的所有数据点,其中第一距离阈值大于第二距离阈值,针对所述超球,创建最小生成树,对于具有重叠数据点的任意两个超球,将最接近的数据点链接起来,在所有超球中,将超球看作数据点,删除一些边,从而使得将所有超球链接在一起的剩余边形成针对这些超球的最小生成树,作为所述分级式生成树;
所述图缩减单元重复如下过程来缩减分级式生成树:
删除与分级式生成树的边缘点联系的边;
将分级式生成树的所有的边缘点收缩到分级式生成树上;以及
融合新的边缘点。
5.如权利要求4所述的设备,其中所述图缩减单元还标记缩减后的分级式生成树的边缘点。
6.如权利要求4所述的设备,其中图切分单元基于两个数据点各自所在的集合之间的距离和各个集合中数据点的稀疏度来计算连接两个数据点的边的图切分值,其中数据点所在的集合是从该数据点搜索到的点集合,从该数据点开始搜索但是不跨过链接这两个数据点之间的边。
7.一种信息处理系统,包括如权利要求4~6之一所述的设备。
CN 200910126215 2009-03-09 2009-03-09 对数据进行聚类的方法、设备和系统 Expired - Fee Related CN101833553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910126215 CN101833553B (zh) 2009-03-09 2009-03-09 对数据进行聚类的方法、设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910126215 CN101833553B (zh) 2009-03-09 2009-03-09 对数据进行聚类的方法、设备和系统

Publications (2)

Publication Number Publication Date
CN101833553A CN101833553A (zh) 2010-09-15
CN101833553B true CN101833553B (zh) 2013-09-11

Family

ID=42717624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910126215 Expired - Fee Related CN101833553B (zh) 2009-03-09 2009-03-09 对数据进行聚类的方法、设备和系统

Country Status (1)

Country Link
CN (1) CN101833553B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243641A (zh) * 2011-04-29 2011-11-16 西安交通大学 大规模数据的高效聚类方法
CN102663141B (zh) * 2012-05-17 2014-06-04 西安交通大学 一种基于多核并行的多路量化分级聚类方法
TWI474139B (zh) * 2012-09-20 2015-02-21 Min Hwei College Of Health Care Man 資料分群方法與其電腦程式軟體
CN104462139A (zh) * 2013-09-24 2015-03-25 中国科学院上海高等研究院 用户行为的聚类方法和系统
CN104516995A (zh) * 2013-09-29 2015-04-15 华为技术有限公司 网络流图缩减方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687932A (zh) * 2005-05-30 2005-10-26 北大方正集团有限公司 一种用于基于内容的海量图片快速检索的索引构建方法
CN101169868A (zh) * 2006-10-25 2008-04-30 爱克发医疗保健公司 用于分割数字医学图像的方法
CN101178720A (zh) * 2007-10-23 2008-05-14 浙江大学 一种面向互联网微内容的分布式聚类方法
CN101231760A (zh) * 2007-01-24 2008-07-30 中国科学院自动化研究所 一种树状形体的立体分解和分级骨架提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836557A (ja) * 1994-07-25 1996-02-06 Olympus Optical Co Ltd クラスタ分類装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687932A (zh) * 2005-05-30 2005-10-26 北大方正集团有限公司 一种用于基于内容的海量图片快速检索的索引构建方法
CN101169868A (zh) * 2006-10-25 2008-04-30 爱克发医疗保健公司 用于分割数字医学图像的方法
CN101231760A (zh) * 2007-01-24 2008-07-30 中国科学院自动化研究所 一种树状形体的立体分解和分级骨架提取方法
CN101178720A (zh) * 2007-10-23 2008-05-14 浙江大学 一种面向互联网微内容的分布式聚类方法

Also Published As

Publication number Publication date
CN101833553A (zh) 2010-09-15

Similar Documents

Publication Publication Date Title
CN101833553B (zh) 对数据进行聚类的方法、设备和系统
CN101582080B (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
WO2014116487A1 (en) Api usage pattern mining
CN110162522A (zh) 一种分布式数据搜索系统及方法
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN103064966B (zh) 一种从单记录网页中抽取规律噪音的方法
Willson The equality of fractional dimensions for certain cellular automata
CN106599189A (zh) 基于云计算的动态Skyline查询装置
CN103020283A (zh) 一种基于背景知识的动态重构的语义检索方法
CN101887531A (zh) 一种飞行数据知识获取系统及其获取方法
CN111512304A (zh) 在二维方面立方体上对文本挖掘进行方面聚类
CN103886118B (zh) 一种针对集成电路异质型逻辑单元的重综合方法
Wu et al. High dimensional data clustering algorithm based on sparse feature vector for categorical attributes
JP2005209115A (ja) ログ要約装置、ログ要約プログラムおよび記録媒体
CN103793504B (zh) 一种基于用户偏好与项目属性的聚类初始点选择方法
CN107657067B (zh) 一种基于余弦距离的前沿科技信息快速推送方法及系统
CN104898933A (zh) 一种高速列车需求数据的处理方法及装置
CN105095225A (zh) 文件数据的获取方法和装置
Leung et al. Efficient mining of constrained frequent patterns from streams
Waghamare et al. Data mining technique for reduction of association rules in distributed system
CN104516978B (zh) 用于数据库入侵检测领域的压缩中间候选频繁项集的方法
Breslauer et al. Near real-time suffix tree construction via the fringe marked ancestor problem
CN102110172B (zh) 一种分布式Web文档聚类方法
CN106156000A (zh) 基于求交算法的搜索方法及搜索系统
Hadzic et al. XML document clustering using structure-preserving flat representation of XML content and structure

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160412

Address after: 201200 room 2, building 1387, 102 Zhang Dong Road, Zhangjiang hi tech park, Shanghai, Pudong New Area

Patentee after: SHARP high tech research and development (Shanghai) Co., Ltd.

Address before: Japan's Osaka Osaka Abeno Chang Chi Cho 22 No. 22 545-8522

Patentee before: Sharp Corporation

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130911

Termination date: 20180309

CF01 Termination of patent right due to non-payment of annual fee