CN102243641A - 大规模数据的高效聚类方法 - Google Patents

大规模数据的高效聚类方法 Download PDF

Info

Publication number
CN102243641A
CN102243641A CN2011101096898A CN201110109689A CN102243641A CN 102243641 A CN102243641 A CN 102243641A CN 2011101096898 A CN2011101096898 A CN 2011101096898A CN 201110109689 A CN201110109689 A CN 201110109689A CN 102243641 A CN102243641 A CN 102243641A
Authority
CN
China
Prior art keywords
data
cluster
sampling
center
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101096898A
Other languages
English (en)
Inventor
廖开阳
刘贵忠
惠有师
肖莉
王喆
南楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN2011101096898A priority Critical patent/CN102243641A/zh
Publication of CN102243641A publication Critical patent/CN102243641A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种大规模数据高效聚类方法,对原始数据进行分级采样,采样级数由将要聚类的级数决定,采样数据的数据量逐级增加,最后一级数据大小要满足两个条件,一是要大于原始数据的5%,二是要大于总聚类中心数的30倍;应用K-均值聚类算法对第一级采样数据进行聚类;应用快速量化方法把下级采样数据量化到当前级的所有中心上;应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类;合并当前级各分组中的聚类中心成为一类大的中心。本发明应用了分级采样、小中心数分级自适应聚类、快速量化的方法,从而减少了聚类时间。

Description

大规模数据的高效聚类方法
技术领域
本发明涉及聚类分析、数据挖掘、数据中的知识发现等技术领域,特别涉及大规模数据高效聚类方法。
背景技术
近年来,计算机技术和通信技术的高速发展给人类社会文明带来了巨大的变化,人们能够以更快速、更方便、更廉价的方式获取和储存数据;数据库应用的规模、范围和深度也在不断的扩大,大量数据库被用于商业管理、政府办公、科学研究和工程开发等方面;并且这一势头仍将持续快速的发展下去,使得数据量及其信息量以指数级形式的增长。但在拥有大规模数据的同时,我们对数据中所蕴涵的信息缺乏充分的理解和应用,应用传统的数据分析手段已经远远不能满足现在的数据分析和处理的要求。数据库中蕴藏的丰富信息得不到充分的发掘和利用,让我们陷入了一个数据丰富,信息匮乏的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂的大规模数据中挖掘有用信息,并且发现其中存在的关系和规则,帮助人们进行决策和研究,从而带来巨大的信息价值。
聚类分析作为一项实用技术,已经被广泛应用于多个领域,如模式识别、图像处理、信息检索、市场研究和数据分析等。以互联网中的应用为例,众多产品和任务都有使用聚类技术的需求,比如搜索引擎中对搜索结果进行聚类,社区产品中通过用户聚类来发现兴趣相似用户,新闻网站通过聚类来挖掘焦点新闻,还有在问答系统中聚合相似的提问等。
一般的聚类算法,能够有效的处理维度低,数量少的数据集,但是随着数据量增大,维数增多,很多聚类算法从计算能力,内存消耗上都超出了普通计算机的能力,无法再进行处理。随着数据库技术和互联网的发展,大规模数据越来越多,对其的聚类分析也越来越热。如何有效聚类大规模数据,这就给研究人员带来了机遇和挑战。近年来,针对大规模数据的聚类问题得到数据挖掘领域的广泛关注,许多著名的研究机构和大学都已经开始了大规模数据高效聚类的研究。目前,大规模数据高效聚类的研究已经成为国际数据挖掘研究领域的一个重点。但是,现有的聚类方法应用到大规模数据中还存在很多问题,其主要的问题就是时效性和准确性的问题。另外大规模数据的有效聚类分析对生物学、心理学、考古学、地质学、地理学等方面的应用研究也都有重要作用。
发明内容
本发明的目标是提供一种大规模数据的高效聚类方法。
为了实现上述目标,大规模数据高效聚类方法,包括以下步骤:
对原始数据应用随机采样算法进行分级采样,采样级数由将要聚类的级数决定,采样数据的数据量逐级增加,最后一级数据大小要满足两个条件,一是要大于原始数据的5%,二是要大于总聚类中心数的30倍;
应用K-均值聚类算法对第一级采样数据进行聚类;
应用快速量化方法,包括分级比较量化、动态缓冲加速量化、高效内存管理三步,把下级采样数据量化到当前级的所有中心上;
应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类;
合并当前级各分组中的聚类中心成为一类大的中心。
所述对原始数据进行分级采样,采样级数由将要聚类的级数决定,采样数据的数据量逐级增加,先把分散在各文件中的原始数据读取出来存放在一个文件中,形成一个大的数据集,然后应用随机采样算法对这个大的数据集进行分级采样。
所述应用随机采样算法对这个大的数据集进行分级采样,随机采样算法是指从N个数据中随机取出n个取样数据,其基本思想是:从第N-n+1条数据开始,做以下操作,设当前处理的是第t个数据(n+1≤t≤N),u是产生的一个随机数(u∈(0,t-1)),若u<n,则把第u个数据换成第t个数据。其中分级采样,是指应用随机采样算法采出m个样本数据集Ui,i=1,...,m,并且U1<U2<...<Um
所述应用K-均值聚类算法对第一级采样数据进行聚类,得到k个聚类中心,这里k=10,这样就以得到10个初始中心。
所述应用快速量化方法把下级采样数据量化到当前级的所有中心上,包括下列步骤:
分级比较量化;
动态缓冲加速量化;
高效内存管理。
所述分级比较量化,是指对需要量化的数据从第一级中心开始向下逐级量化,这样每一级只需要比较k次,如果有m级则只需要比较mk次,如果直接从第m级进行量化则须比较km次,这样基于当前级k个聚类中心,对下级采样数据以最邻近准则进行分类,所有的数据按照离k个聚类中心的距离的远近而划分成k个组。
所述动态缓冲加速量化,是指在量化过程中须要反复打开、关闭量化后分组文件来保存当前数据,根据类中心数目的大小动态地对每个分组文件建立一个适当大小的缓冲器,只当缓冲器满或量化完成时才打开分组文件,一次性写入缓冲器内所有数据,然后关闭文件。
所述高效内存管理,是指,首先,只在量化前从外存中读取当前级中心及所有前级中心数据到内存,当量化完成后释放所有中心所占内存,其次,动态建立量化时所用的缓冲器,用完立即释放内存,最后,在合并中心时,把当前聚类产生的中心直接写入文件中,并释放内存,保证有足够大的内存完成聚类工作。
所述应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类,是指对量化后的每个分组的数据文件,继续采用k-均值算法进行聚类,进一步划分成k组,k的大小由每个分组数据的大小自适应地确定,所谓自适应是指k值初始值为10,如果分组数据量大则k值会大一些,反之,k值会小一些,这样根据分组数据量的大小来自动确定k的大小。
所述合并当前级各分组中的聚类中心成为一类大的中心是指把当前级的km个分组数据经再次k-均值算法聚类后的中心进行合并,每当k-均值算法聚类完成后,就将这k个聚类中心依次写入下级中心文件中,这样经km次聚类就产生了一个大的中心文件,共km+1个聚类中心。
从以上技术方案可以看出,本发明方案具有以下有益效果:
(1)能够在普通配置的单机上对大规模数据进行聚类;
(2)聚类结果精确、可靠;
(3)时间复杂度低,仅为O(NPkt),其中N是所有对象的数目,P是数据对象的维数,k是分级单次聚类的中心数,t是迭代的次数,通常t<<n,k<<n,p<<n;
(4)适用范围广泛,适用于模式识别、数据分析、图像处理和信息检索等需要对大规模数据进行聚类分析的领域。
附图说明
图1为本发明方法的处理流程图;
图2为本发明方法中的聚类过程示例图,其中k=2;
图3为本发明方法中的聚类分级示例图。
下面结合附图对本发明的内容作进一步详细说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明对大规模数据进行高效聚类的流程示意图。首先,对原始数据进行分级采样,采样级数由将要聚类的级数决定,采样数据的数据量逐级增加,最后一级的数据的大小至少为原始数据的%5且不少于30倍总的聚类中心数;其次,应用K-均值聚类算法对第一级采样数据进行聚类;然后,应用快速量化方法把下级采样数据量化到当前级的所有中心上;接下来,应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类;最后,合并当前级各分组中的聚类中心成为一类大的中心。
如图2所示,为本发明方法中的聚类过程示例图。在本示例中k=2,主要是为了便于理解,在实际的应用中可以取得大一些。在图2中,聚类的主要思想为把整个数据集分为两类,然后在这两类的基础上再进一步划分,按照这种方法继续划分下去,就可以把原数据集分成很多类。
如图3所示,为本发明方法中最终聚类分级示例图。第一级为10类,每二级在第一级的分类基础上进一步划分,但由于采用了自适应聚类方法,这时算法自动选择最佳分类个数,因此第二级总的分类个数大约为100个左右。下一级的分类也采用同样的方法,分类个数大约为1000个左右。
大规模的数据超过了一般计算机的处理能力,但是如果大规模数据的一个小量的取样能够很好地代表整体,那就可以先对取样进行聚类分析,得到近似全局的聚类信息,然后根据这些信息,再处理取样剩余的数据,就比较简单了。这就是本发明基于采样的聚类的基本思想,具体实现方法如下:首先,为了便于采样,把分散在各文件中的原始数据读取出来存放在一个文件中,形成一个大的数据集;然后,应用随机采样算法对这个大的数据集进行分级采样,采出m个样本数据集Ui,i=1,..,m,并且U1<U2<...<Um。随机采样算法,是指从N个数据中随机取出n个取样数据,其基本思想是:从第N-n+1条数据开始,做以下操作,设当前处理的是第t个数据(n+1≤t≤N),u是产生的一个随机数(u∈(0,t-1)),若u<n,则把第u个数据换成第t个数据。在对大规模数据进行聚类分析时,数据采样是一种常用的提高聚类效率的方法,然而,由于没有考虑到整个数据,聚类质量质量必然会受到影响,但是只要取样均匀且取样率适当,则采样数据也可以较好地反映整个数据状况,从而在保证聚类质量的同时提高聚类效率。取样率为多少合适呢?本发明采用Chernoff bounds理论来解决这个问题。
Chernoff bounds理论:对于一个类u,如果取样大小s满足:
s ≥ fN + N | u | log ( 1 δ ) + N | u | ( log ( 1 δ ) ) 2 + 2 f | u | log ( 1 δ ) - - - ( 1 )
其中0≤f≤1,那么样本中属于类u的点的个数小于f|u|的概率小于δ,0≤δ≤1。
分级聚类中采用这种分级随机采样的方法可以从以下几个方面提高聚类性能:
1)减少数据中的异常点;
2)减少由于单次采样而带来的聚类中心不够精确的问题;
3)可以聚更多的类中心;
4)可以对更大的数据集进行聚类,而且精度高;
5)可以在很大程度上提高聚类速度。
聚类(clustering),基于物以类聚的朴素思想,是将物理或抽象对象集合划分为由类似的对象组成的多个类或簇(cluster)的过程。聚类使得每个类中的数据点之间最大程度地相似,而不同类中的数据点最大程度地不同,从而发现数据集中有效的、有用的信息。
在机器学习领域,聚类与分类不同,它是一种无监督的学习过程。聚类一般没有训练过程,它直接处理未知样本,把这些样本聚合成不同的类。
聚类的数学描述如下:
给定数据集合V={vi|i=1,2,...,n},其中vi为数据对象,根据数据对象间的相似程度将数据集合分成k组,{Cj|j=1,2,...,k},
Figure BDA0000058452860000061
并满足:
Ci∩Cj=Φ,i≠j    (2)
∪Ci=V             (3)
则该过程称为聚类,Ci,i=1,2,...,k称为类。
一九六七年,麦克奎因(MacQueen)提出了K均值概念处理聚类问题的算法。在此种算法中,常常采用误差平方和准则函数作为聚类准则函数。
D = Σ i = 1 K Σ x ∈ C i | | x - x ‾ i | | 2 - - - ( 4 )
其中,
Figure BDA0000058452860000063
是类Ci中数据对象的均值,是类Ci的聚类中心,代表Ci。每个聚类子样被分配到最近的聚类中心所属的集合之中,形成了K个聚类数目的初始分布.对于p维向量xi和xj之间的距离度量,常用传统的欧氏距离(Euclidean Distance)的方法:
d ( x i , x j ) = | | x i - x j | | = [ Σ k = 1 p ( x ik - x jk ) 2 ] 1 2 - - - ( 5 )
按这种初始分布计算得到的聚类中心作聚类集合后,可以得到新的聚类分布。经若干次这种迭代过程,K个聚类的均值就会趋于不变.这种方法得到的聚类分布对应着总聚类平方偏差和的最小值。由于K-均值聚类法简便,提出得又早,因此它已成为最大众化的聚类方法而被广泛应用.
对于一个大小为N的数据集,指定的聚类中心数为K,数据对象的维数为P,则一次迭代的时间耗费由三部分组成:将每一个数据对象归到离它最近的聚类中心所在的类,需要时间O(NPK);新类产生以后计算新的聚类中心所需的时间为O(NP);计算聚类准则函数D值所需时间O(NP);而迭代次数t则由数据集大小、聚类数以及数据分布情况决定,算法总的时间复杂度为O(NPKt)。
作为一个经典、常用的基于划分的聚类算法,K-均值聚类算法具有以下优点:
1)步骤简单,容易实现
2)空间和时间效率较高,时间复杂度为O(NPKt),通常来讲,K<<N,P<<N,且t<<N。
本发明应用K-均值聚类算法对第一级采样数据进行聚类,得到k个聚类中心。从前面的性能分析中我们可以看出时间复杂度为O(NPkt),与k的大小正比,因此提高速度的有效方法是尽量减小k值。但是,k值过小,在整个数据总的分类中心数C一定的情况下,
C=km,m=0,1,2,3,...(6)
就意味着分级的级数m就会增加,m过大也会增加采样、量化以及检索的难度,因此经过权衡,这里k=10,这样就可以得到10个初始中心。
这10个初始中心相对于原始大规模数据来说是相当粗的分类,还远远达不到实用的目的,因此还须在这10个初始类上进一步分类。在下级的聚类中,首先要把下级的采样数据根据欧氏距离划分到当前级的类中心,每类中心生成一个小的数据集,然后,对每个小的数据集分别进行K-均值聚类。应用快速量化方法可以把下级采样数据快速量化(划分)到当前级的所有中心上,本发明的快速量化方法包括下列步骤:
1)分级比较量化。所谓分级比较量化是指对需要量化的数据从第一级中心开始向下逐级量化,这样每一级只需要比较k次,如果有m级则只需要比较mk次。如果直接从第m级进行量化则须比较km次,因此采用分级比较量化可以大节省量化时间。这样基于当前级k个聚类中心,对下级采样数据以最邻近准则进行分类,所有的数据就可以按照离k个聚类中心的距离的远近而划分成k个组。
2)动态缓冲加速量化。在量化过程中须要反复打开、关闭量化后分组文件来保存当前数据,对每个数据经比较后都打开、关闭文件是很费时的,特别是当文件越来越大,打开文件并且将文件指针移到文件末尾所需的时间就会越来越长。本发明方法根据类中心数目的大小动态地对每个分组文件建立一个适当大小的缓冲器,只当缓冲器满或量化完成时才打开分组文件,一次性写入缓冲器内所有数据,然后关闭文件,从而大大减少打开、关闭文件的次数。
3)高效内存管理。内存受到硬件、操作系统和开发平台等的限制,在整个聚类的过程中都会很紧张,很容易产生内存不足的情况。通过研究发现,本系统在运行过程中,中心数据的存放、量化和聚类都需要占用很大的内存。大本发明方法在使用内存时采用如下方法来解决内存不足的问题:首先,只在量化前从外存中读取当前级中心及所有前级中心数据到内存,当量化完成后释放所有中心所占内存。其次,动态建立量化时所用的缓冲器,用完立即释放内存。最后,在合并中心时,把当前聚类产生的中心直接写入文件中,并释放内存,保证有足够大的内存完成聚类工作。
量化完成后,对量化后的每个分组的数据集,继续采用k-均值算法进行聚类,进一步划分成k组,但k的大小由每个分组数据的大小自适应地确定:
k = [ N tem × C org N sam ] - - - ( 7 )
其中,Corg为预先设定的本级聚类中心的总数,Ntem为分组数据的个数,Nsam为本级采样数据的个数。如果分组数据量大则k值会大一些,反之,k值会小一些,这样根据分组数据量的大小来自动确定k的大小。采用固定k值的分级k-均值算法进行聚类的过程中,由于数据的分布不均匀,容易出现过度划分的问题,即可能会出现某一个分组中的数据非常的少,不足以进一步聚类划分或者可以进一步聚类划分但其结果不精确。采用这种自适应k-均值算法进行进一步聚类划分可以解决这种过度划分的问题。
对于当前的第m级,共有km个分组,经再次k-均值算法聚类后,共有产生的下级总的分类中心数为km+1个。
为了便于下一步的处理,须要把当前级的km个分组数据经再次k-均值算法聚类后的中心进行合并。本发明应用的方法是每当k-均值算法聚类完成后,就将这k个聚类中心与下级中心集合合并,这样经km次聚类就产生了一个大的中心集合,共km+1个聚类中心。
通过这种方式循环前面的步骤4至步骤6,就可以产生一个足够大的,分类精细的中心集了。如果应用这个中心对原始的所有数据进行量化,就可以完成对原始大规模数据进行精细的分类了。
对于一个大小为N的数据集,指定的聚类中心数为C=km,数据对象的维数为P,分级聚类的级数为m,迭代次数为t,则本发明聚类方法的时间耗费可以这样计算:
1)单次运行K-均值聚类算法,时间复杂度为:
O ( N k m - 1 Pkt ) = O ( N k m - 2 Pt ) ;
2)第i级,须循环运行K-均值聚类算法ki次,则时间复杂度为:
Figure BDA0000058452860000092
当i=m-1时(m级中心只须分m-1次就可聚完),时间复杂度为:O(NPkt);
3)第i级,将每一个数据对象归到离它最近的聚类中心所在的类,需要时间
Figure BDA0000058452860000093
当i=m时,时间复杂度为:O(NPmk);m<t,因此,算法总的时间复杂度为O(NPkt)。
本发明的方法应用在国家科技部“863”计划项目,“网络视频复制检测、定位和追踪技术”(No.2009AA01Z409)中。实验中对TRECVID2007数据库中的109个视频,总共提取的特征数据1600万,分5级聚10万类,共用时间1.2小时;对TRECVID2009数据库中的400个视频,总共提取的特征数据6400万,分6级聚100万类,共用时间25小时。

Claims (10)

1.大规模数据高效聚类方法,其特征在于,包括以下步骤:
对原始数据应用随机采样算法进行分级采样,采样级数由将要聚类的级数决定,采样数据的数据量逐级增加,最后一级数据大小要满足两个条件,一是要大于原始数据的5%,二是要大于总聚类中心数的30倍;
应用K-均值聚类算法对第一级采样数据进行聚类;
应用快速量化方法,包括分级比较量化、动态缓冲加速量化、高效内存管理三步,把下级采样数据量化到当前级的所有中心上;
应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类;
合并当前级各分组中的聚类中心成为一类大的中心。
2.根据权利要求1所述的方法,其特征在于,所述对原始数据进行分级采样,采样级数由将要聚类的级数决定,采样数据的数据量逐级增加,先把分散在各文件中的原始数据读取出来存放在一个文件中,形成一个大的数据集,然后应用随机采样算法对这个大的数据集进行分级采样。
3.根据权利要求2所述的方法,其特征在于,所述应用随机采样算法对这个大的数据集进行分级采样,随机采样算法是指从N个数据中随机取出n个取样数据,其基本思想是:从第N-n+1条数据开始,做以下操作,设当前处理的是第t个数据(n+1≤t≤N),u是产生的一个随机数(u∈(0,t-1)),若u<n,则把第u个数据换成第t个数据。其中分级采样,是指应用随机采样算法采出m个样本数据集Ui,i=1,...,m,并且U1<U2<...<Um
4.根据权利要求1所述的方法,其特征在于,所述应用K-均值聚类算法对第一级采样数据进行聚类,得到k个聚类中心,这里k=10,这样就以得到10个初始中心。
5.根据权利要求1所述的方法,其特征在于,所述应用快速量化方法把下级采样数据量化到当前级的所有中心上,包括下列步骤:
分级比较量化;
动态缓冲加速量化;
高效内存管理。
6.根据权利要求5所述的方法,其特征在于,所述分级比较量化,是指对需要量化的数据从第一级中心开始向下逐级量化,这样每一级只需要比较k次,如果有m级则只需要比较mk次,如果直接从第m级进行量化则须比较km次,这样基于当前级k个聚类中心,对下级采样数据以最邻近准则进行分类,所有的数据按照离k个聚类中心的距离的远近而划分成k个组。
7.根据权利要求5所述的方法,其特征在于,所述动态缓冲加速量化,是指在量化过程中须要反复打开、关闭量化后分组文件来保存当前数据,根据类中心数目的大小动态地对每个分组文件建立一个适当大小的缓冲器,只当缓冲器满或量化完成时才打开分组文件,一次性写入缓冲器内所有数据,然后关闭文件。
8.根据权利要求5所述的方法,其特征在于,所述高效内存管理,是指,首先,只在量化前从外存中读取当前级中心及所有前级中心数据到内存,当量化完成后释放所有中心所占内存,其次,动态建立量化时所用的缓冲器,用完立即释放内存,最后,在合并中心时,把当前聚类产生的中心直接写入文件中,并释放内存,保证有足够大的内存完成聚类工作。
9.根据权利要求1所述的方法,其特征在于,所述应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类,是指对量化后的每个分组的数据文件,继续采用k-均值算法进行聚类,进一步划分成k组,k的大小由每个分组数据的大小自适应地确定,所谓自适应是指k值初始值为10,如果分组数据量大则k值会大一些,反之,k值会小一些,这样根据分组数据量的大小来自动确定k的大小。
10.根据权利要求1所述的方法,其特征在于,所述合并当前级各分组中的聚类中心成为一类大的中心是指把当前级的km个分组数据经再次k-均值算法聚类后的中心进行合并,每当k-均值算法聚类完成后,就将这k个聚类中心依次写入下级中心文件中,这样经km次聚类就产生了一个大的中心文件,共km+1个聚类中心。
CN2011101096898A 2011-04-29 2011-04-29 大规模数据的高效聚类方法 Pending CN102243641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101096898A CN102243641A (zh) 2011-04-29 2011-04-29 大规模数据的高效聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101096898A CN102243641A (zh) 2011-04-29 2011-04-29 大规模数据的高效聚类方法

Publications (1)

Publication Number Publication Date
CN102243641A true CN102243641A (zh) 2011-11-16

Family

ID=44961703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101096898A Pending CN102243641A (zh) 2011-04-29 2011-04-29 大规模数据的高效聚类方法

Country Status (1)

Country Link
CN (1) CN102243641A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622446A (zh) * 2012-03-19 2012-08-01 南京大学 一种基于Hadoop的并行k近邻分类方法
CN102663141A (zh) * 2012-05-17 2012-09-12 西安交通大学 一种基于多核并行的多路量化分级聚类方法
CN102799682A (zh) * 2012-05-10 2012-11-28 中国电力科学研究院 一种海量数据预处理方法及其系统
CN103150470A (zh) * 2013-02-18 2013-06-12 大连理工大学 一种动态数据环境下的数据流概念漂移可视化方法
CN103324153A (zh) * 2012-06-28 2013-09-25 上海市张江高科技园区新能源技术有限公司 锅炉安全自动监测装置及方法
CN104063518A (zh) * 2014-07-14 2014-09-24 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN104346445A (zh) * 2014-10-28 2015-02-11 浪潮电子信息产业股份有限公司 一种快速从大规模数据中筛选离群数据的方法
CN104462585A (zh) * 2014-12-29 2015-03-25 芜湖乐锐思信息咨询有限公司 一种大数据分类系统
CN106650113A (zh) * 2016-12-26 2017-05-10 招商局重庆交通科研设计院有限公司 一种基于模糊聚类的桥梁监测数据异常情况识别方法
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN109200387A (zh) * 2017-07-06 2019-01-15 佛山科学技术学院 一种智能医疗拔针提醒方法及拔针提醒系统
CN110942783A (zh) * 2019-10-15 2020-03-31 国家计算机网络与信息安全管理中心 一种基于音频多级聚类的群呼型骚扰电话分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833553A (zh) * 2009-03-09 2010-09-15 夏普株式会社 对数据进行聚类的方法、设备和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833553A (zh) * 2009-03-09 2010-09-15 夏普株式会社 对数据进行聚类的方法、设备和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李龙杰: "F-Miner: 一种新的频繁项集挖掘算法", 《中国优秀硕士学位论文全文数据库,中国学术期刊(光盘版)电子期刊》 *
林卫等: "脑fMRI特征重建的分层快速聚类方法", 《计算机工程与应用》 *
胡泽林等: "高速缓存优化的并行连接算法", 《计算机工程与设计》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622446A (zh) * 2012-03-19 2012-08-01 南京大学 一种基于Hadoop的并行k近邻分类方法
CN102799682A (zh) * 2012-05-10 2012-11-28 中国电力科学研究院 一种海量数据预处理方法及其系统
CN102799682B (zh) * 2012-05-10 2015-01-07 中国电力科学研究院 一种海量数据预处理方法及其系统
CN102663141A (zh) * 2012-05-17 2012-09-12 西安交通大学 一种基于多核并行的多路量化分级聚类方法
CN102663141B (zh) * 2012-05-17 2014-06-04 西安交通大学 一种基于多核并行的多路量化分级聚类方法
CN103324153A (zh) * 2012-06-28 2013-09-25 上海市张江高科技园区新能源技术有限公司 锅炉安全自动监测装置及方法
CN103150470B (zh) * 2013-02-18 2015-12-23 大连理工大学 一种动态数据环境下的数据流概念漂移可视化方法
CN103150470A (zh) * 2013-02-18 2013-06-12 大连理工大学 一种动态数据环境下的数据流概念漂移可视化方法
CN104063518A (zh) * 2014-07-14 2014-09-24 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN104063518B (zh) * 2014-07-14 2017-06-09 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN104346445A (zh) * 2014-10-28 2015-02-11 浪潮电子信息产业股份有限公司 一种快速从大规模数据中筛选离群数据的方法
CN104346445B (zh) * 2014-10-28 2016-09-07 浪潮电子信息产业股份有限公司 一种快速从大规模数据中筛选离群数据的方法
CN104462585A (zh) * 2014-12-29 2015-03-25 芜湖乐锐思信息咨询有限公司 一种大数据分类系统
CN106650113A (zh) * 2016-12-26 2017-05-10 招商局重庆交通科研设计院有限公司 一种基于模糊聚类的桥梁监测数据异常情况识别方法
CN109200387A (zh) * 2017-07-06 2019-01-15 佛山科学技术学院 一种智能医疗拔针提醒方法及拔针提醒系统
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN110942783A (zh) * 2019-10-15 2020-03-31 国家计算机网络与信息安全管理中心 一种基于音频多级聚类的群呼型骚扰电话分类方法
CN110942783B (zh) * 2019-10-15 2022-06-17 国家计算机网络与信息安全管理中心 一种基于音频多级聚类的群呼型骚扰电话分类方法

Similar Documents

Publication Publication Date Title
CN102243641A (zh) 大规模数据的高效聚类方法
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN102663100A (zh) 一种两阶段混合粒子群优化聚类方法
CN100495408C (zh) 一种文本聚类元学习方法及装置
Du et al. Parallel processing of improved KNN text classification algorithm based on Hadoop
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN110784455B (zh) 基于线性递减权重粒子群算法优化Xgboost模型方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
CN109669990A (zh) 一种基于dbscan对密度不规则数据进行异常挖掘的改进算法
Untoro et al. Evaluation of decision tree, k-NN, Naive Bayes and SVM with MWMOTE on UCI dataset
CN103744958B (zh) 一种基于分布式计算的网页分类方法
US7548856B2 (en) Systems and methods for discriminative density model selection
Yi-bin et al. Improvement of ID3 algorithm based on simplified information entropy and coordination degree
Alsammak et al. An enhanced performance of K-nearest neighbor (K-NN) classifier to meet new big data necessities
Wu et al. Optimization and improvement based on K-Means Cluster algorithm
McConville et al. Vertex clustering of augmented graph streams
Wang et al. Fuzzy C-means clustering algorithm for automatically determining the number of clusters
Al-Khamees et al. Survey: Clustering techniques of data stream
Purnawansyah et al. K-Means clustering implementation in network traffic activities
CN105956113B (zh) 基于粒子群优化的视频数据挖掘高维聚类方法
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
Pattanshetti et al. Performance evaluation and analysis of feature selection algorithms
Wang et al. Sknn algorithm for filling missing oil data based on knn

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111116