CN102243641A

CN102243641A - 大规模数据的高效聚类方法

Info

Publication number: CN102243641A
Application number: CN2011101096898A
Authority: CN
Inventors: 廖开阳; 刘贵忠; 惠有师; 肖莉; 王喆; 南楠
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-04-29
Filing date: 2011-04-29
Publication date: 2011-11-16

Abstract

本发明提供了一种大规模数据高效聚类方法，对原始数据进行分级采样，采样级数由将要聚类的级数决定，采样数据的数据量逐级增加，最后一级数据大小要满足两个条件，一是要大于原始数据的5％，二是要大于总聚类中心数的30倍；应用K-均值聚类算法对第一级采样数据进行聚类；应用快速量化方法把下级采样数据量化到当前级的所有中心上；应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类；合并当前级各分组中的聚类中心成为一类大的中心。本发明应用了分级采样、小中心数分级自适应聚类、快速量化的方法，从而减少了聚类时间。

Description

大规模数据的高效聚类方法

技术领域

本发明涉及聚类分析、数据挖掘、数据中的知识发现等技术领域，特别涉及大规模数据高效聚类方法。

背景技术

近年来，计算机技术和通信技术的高速发展给人类社会文明带来了巨大的变化，人们能够以更快速、更方便、更廉价的方式获取和储存数据；数据库应用的规模、范围和深度也在不断的扩大，大量数据库被用于商业管理、政府办公、科学研究和工程开发等方面；并且这一势头仍将持续快速的发展下去，使得数据量及其信息量以指数级形式的增长。但在拥有大规模数据的同时，我们对数据中所蕴涵的信息缺乏充分的理解和应用，应用传统的数据分析手段已经远远不能满足现在的数据分析和处理的要求。数据库中蕴藏的丰富信息得不到充分的发掘和利用，让我们陷入了一个数据丰富，信息匮乏的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂的大规模数据中挖掘有用信息，并且发现其中存在的关系和规则，帮助人们进行决策和研究，从而带来巨大的信息价值。

聚类分析作为一项实用技术，已经被广泛应用于多个领域，如模式识别、图像处理、信息检索、市场研究和数据分析等。以互联网中的应用为例，众多产品和任务都有使用聚类技术的需求，比如搜索引擎中对搜索结果进行聚类，社区产品中通过用户聚类来发现兴趣相似用户，新闻网站通过聚类来挖掘焦点新闻，还有在问答系统中聚合相似的提问等。

一般的聚类算法，能够有效的处理维度低，数量少的数据集，但是随着数据量增大，维数增多，很多聚类算法从计算能力，内存消耗上都超出了普通计算机的能力，无法再进行处理。随着数据库技术和互联网的发展，大规模数据越来越多，对其的聚类分析也越来越热。如何有效聚类大规模数据，这就给研究人员带来了机遇和挑战。近年来，针对大规模数据的聚类问题得到数据挖掘领域的广泛关注，许多著名的研究机构和大学都已经开始了大规模数据高效聚类的研究。目前，大规模数据高效聚类的研究已经成为国际数据挖掘研究领域的一个重点。但是，现有的聚类方法应用到大规模数据中还存在很多问题，其主要的问题就是时效性和准确性的问题。另外大规模数据的有效聚类分析对生物学、心理学、考古学、地质学、地理学等方面的应用研究也都有重要作用。

发明内容

本发明的目标是提供一种大规模数据的高效聚类方法。

为了实现上述目标，大规模数据高效聚类方法，包括以下步骤：

对原始数据应用随机采样算法进行分级采样，采样级数由将要聚类的级数决定，采样数据的数据量逐级增加，最后一级数据大小要满足两个条件，一是要大于原始数据的5％，二是要大于总聚类中心数的30倍；

应用K-均值聚类算法对第一级采样数据进行聚类；

应用快速量化方法，包括分级比较量化、动态缓冲加速量化、高效内存管理三步，把下级采样数据量化到当前级的所有中心上；

应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类；

合并当前级各分组中的聚类中心成为一类大的中心。

所述对原始数据进行分级采样，采样级数由将要聚类的级数决定，采样数据的数据量逐级增加，先把分散在各文件中的原始数据读取出来存放在一个文件中，形成一个大的数据集，然后应用随机采样算法对这个大的数据集进行分级采样。

所述应用随机采样算法对这个大的数据集进行分级采样，随机采样算法是指从N个数据中随机取出n个取样数据，其基本思想是：从第N-n+1条数据开始，做以下操作，设当前处理的是第t个数据(n+1≤t≤N)，u是产生的一个随机数(u∈(0，t-1))，若u＜n，则把第u个数据换成第t个数据。其中分级采样，是指应用随机采样算法采出m个样本数据集U_i，i＝1，...，m，并且U₁＜U₂＜...＜U_m。

所述应用K-均值聚类算法对第一级采样数据进行聚类，得到k个聚类中心，这里k＝10，这样就以得到10个初始中心。

所述应用快速量化方法把下级采样数据量化到当前级的所有中心上，包括下列步骤：

分级比较量化；

动态缓冲加速量化；

高效内存管理。

所述分级比较量化，是指对需要量化的数据从第一级中心开始向下逐级量化，这样每一级只需要比较k次，如果有m级则只需要比较mk次，如果直接从第m级进行量化则须比较k^m次，这样基于当前级k个聚类中心，对下级采样数据以最邻近准则进行分类，所有的数据按照离k个聚类中心的距离的远近而划分成k个组。

所述动态缓冲加速量化，是指在量化过程中须要反复打开、关闭量化后分组文件来保存当前数据，根据类中心数目的大小动态地对每个分组文件建立一个适当大小的缓冲器，只当缓冲器满或量化完成时才打开分组文件，一次性写入缓冲器内所有数据，然后关闭文件。

所述高效内存管理，是指，首先，只在量化前从外存中读取当前级中心及所有前级中心数据到内存，当量化完成后释放所有中心所占内存，其次，动态建立量化时所用的缓冲器，用完立即释放内存，最后，在合并中心时，把当前聚类产生的中心直接写入文件中，并释放内存，保证有足够大的内存完成聚类工作。

所述应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类，是指对量化后的每个分组的数据文件，继续采用k-均值算法进行聚类，进一步划分成k组，k的大小由每个分组数据的大小自适应地确定，所谓自适应是指k值初始值为10，如果分组数据量大则k值会大一些，反之，k值会小一些，这样根据分组数据量的大小来自动确定k的大小。

所述合并当前级各分组中的聚类中心成为一类大的中心是指把当前级的k^m个分组数据经再次k-均值算法聚类后的中心进行合并，每当k-均值算法聚类完成后，就将这k个聚类中心依次写入下级中心文件中，这样经k^m次聚类就产生了一个大的中心文件，共k^m+1个聚类中心。

从以上技术方案可以看出，本发明方案具有以下有益效果：

(1)能够在普通配置的单机上对大规模数据进行聚类；

(2)聚类结果精确、可靠；

(3)时间复杂度低，仅为O(NPkt)，其中N是所有对象的数目，P是数据对象的维数，k是分级单次聚类的中心数，t是迭代的次数，通常t＜＜n，k＜＜n，p＜＜n；

(4)适用范围广泛，适用于模式识别、数据分析、图像处理和信息检索等需要对大规模数据进行聚类分析的领域。

附图说明

图1为本发明方法的处理流程图；

图2为本发明方法中的聚类过程示例图，其中k＝2；

图3为本发明方法中的聚类分级示例图。

下面结合附图对本发明的内容作进一步详细说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明对大规模数据进行高效聚类的流程示意图。首先，对原始数据进行分级采样，采样级数由将要聚类的级数决定，采样数据的数据量逐级增加，最后一级的数据的大小至少为原始数据的％5且不少于30倍总的聚类中心数；其次，应用K-均值聚类算法对第一级采样数据进行聚类；然后，应用快速量化方法把下级采样数据量化到当前级的所有中心上；接下来，应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类；最后，合并当前级各分组中的聚类中心成为一类大的中心。

如图2所示，为本发明方法中的聚类过程示例图。在本示例中k＝2，主要是为了便于理解，在实际的应用中可以取得大一些。在图2中，聚类的主要思想为把整个数据集分为两类，然后在这两类的基础上再进一步划分，按照这种方法继续划分下去，就可以把原数据集分成很多类。

如图3所示，为本发明方法中最终聚类分级示例图。第一级为10类，每二级在第一级的分类基础上进一步划分，但由于采用了自适应聚类方法，这时算法自动选择最佳分类个数，因此第二级总的分类个数大约为100个左右。下一级的分类也采用同样的方法，分类个数大约为1000个左右。

大规模的数据超过了一般计算机的处理能力，但是如果大规模数据的一个小量的取样能够很好地代表整体，那就可以先对取样进行聚类分析，得到近似全局的聚类信息，然后根据这些信息，再处理取样剩余的数据，就比较简单了。这就是本发明基于采样的聚类的基本思想，具体实现方法如下：首先，为了便于采样，把分散在各文件中的原始数据读取出来存放在一个文件中，形成一个大的数据集；然后，应用随机采样算法对这个大的数据集进行分级采样，采出m个样本数据集U_i，i＝1，..，m，并且U₁＜U₂＜...＜U_m。随机采样算法，是指从N个数据中随机取出n个取样数据，其基本思想是：从第N-n+1条数据开始，做以下操作，设当前处理的是第t个数据(n+1≤t≤N)，u是产生的一个随机数(u∈(0，t-1))，若u＜n，则把第u个数据换成第t个数据。在对大规模数据进行聚类分析时，数据采样是一种常用的提高聚类效率的方法，然而，由于没有考虑到整个数据，聚类质量质量必然会受到影响，但是只要取样均匀且取样率适当，则采样数据也可以较好地反映整个数据状况，从而在保证聚类质量的同时提高聚类效率。取样率为多少合适呢？本发明采用Chernoff bounds理论来解决这个问题。

Chernoff bounds理论：对于一个类u，如果取样大小s满足：

s &GreaterEqual; fN + \frac{N}{| u |} \log (\frac{1}{δ}) + \frac{N}{| u |} \sqrt{{(\log (\frac{1}{δ}))}^{2} + 2 f | u | \log (\frac{1}{δ})} - - - (1)

其中0≤f≤1，那么样本中属于类u的点的个数小于f|u|的概率小于δ，0≤δ≤1。

分级聚类中采用这种分级随机采样的方法可以从以下几个方面提高聚类性能：

1)减少数据中的异常点；

2)减少由于单次采样而带来的聚类中心不够精确的问题；

3)可以聚更多的类中心；

4)可以对更大的数据集进行聚类，而且精度高；

5)可以在很大程度上提高聚类速度。

聚类(clustering)，基于物以类聚的朴素思想，是将物理或抽象对象集合划分为由类似的对象组成的多个类或簇(cluster)的过程。聚类使得每个类中的数据点之间最大程度地相似，而不同类中的数据点最大程度地不同，从而发现数据集中有效的、有用的信息。

在机器学习领域，聚类与分类不同，它是一种无监督的学习过程。聚类一般没有训练过程，它直接处理未知样本，把这些样本聚合成不同的类。

聚类的数学描述如下：

给定数据集合V＝{v_i|i＝1，2，...，n}，其中v_i为数据对象，根据数据对象间的相似程度将数据集合分成k组，{C_j|j＝1，2，...，k}，

并满足：

C_i∩C_j＝Φ，i≠j (2)

∪C_i＝V (3)

则该过程称为聚类，C_i，i＝1，2，...，k称为类。

一九六七年，麦克奎因(MacQueen)提出了K均值概念处理聚类问题的算法。在此种算法中，常常采用误差平方和准则函数作为聚类准则函数。

D = Σ_{i = 1}^{K} \underset{x &Element; C_{i}}{Σ} {| | x - {\overset{&OverBar;}{x}}_{i} | |}^{2} - - - (4)

其中，

是类C_i中数据对象的均值，是类C_i的聚类中心，代表C_i。每个聚类子样被分配到最近的聚类中心所属的集合之中，形成了K个聚类数目的初始分布.对于p维向量x_i和x_j之间的距离度量，常用传统的欧氏距离(Euclidean Distance)的方法：

d (x_{i}, x_{j}) = | | x_{i} - x_{j} | | = {[Σ_{k = 1}^{p} {(x_{ik} - x_{jk})}^{2}]}^{\frac{1}{2}} - - - (5)

按这种初始分布计算得到的聚类中心作聚类集合后，可以得到新的聚类分布。经若干次这种迭代过程，K个聚类的均值就会趋于不变.这种方法得到的聚类分布对应着总聚类平方偏差和的最小值。由于K-均值聚类法简便，提出得又早，因此它已成为最大众化的聚类方法而被广泛应用.

对于一个大小为N的数据集，指定的聚类中心数为K，数据对象的维数为P，则一次迭代的时间耗费由三部分组成：将每一个数据对象归到离它最近的聚类中心所在的类，需要时间O(NPK)；新类产生以后计算新的聚类中心所需的时间为O(NP)；计算聚类准则函数D值所需时间O(NP)；而迭代次数t则由数据集大小、聚类数以及数据分布情况决定，算法总的时间复杂度为O(NPKt)。

作为一个经典、常用的基于划分的聚类算法，K-均值聚类算法具有以下优点：

1)步骤简单，容易实现

2)空间和时间效率较高，时间复杂度为O(NPKt)，通常来讲，K＜＜N，P＜＜N，且t＜＜N。

本发明应用K-均值聚类算法对第一级采样数据进行聚类，得到k个聚类中心。从前面的性能分析中我们可以看出时间复杂度为O(NPkt)，与k的大小正比，因此提高速度的有效方法是尽量减小k值。但是，k值过小，在整个数据总的分类中心数C一定的情况下，

C＝k^m，m＝0，1，2，3，...(6)

就意味着分级的级数m就会增加，m过大也会增加采样、量化以及检索的难度，因此经过权衡，这里k＝10，这样就可以得到10个初始中心。

这10个初始中心相对于原始大规模数据来说是相当粗的分类，还远远达不到实用的目的，因此还须在这10个初始类上进一步分类。在下级的聚类中，首先要把下级的采样数据根据欧氏距离划分到当前级的类中心，每类中心生成一个小的数据集，然后，对每个小的数据集分别进行K-均值聚类。应用快速量化方法可以把下级采样数据快速量化(划分)到当前级的所有中心上，本发明的快速量化方法包括下列步骤：

1)分级比较量化。所谓分级比较量化是指对需要量化的数据从第一级中心开始向下逐级量化，这样每一级只需要比较k次，如果有m级则只需要比较mk次。如果直接从第m级进行量化则须比较k^m次，因此采用分级比较量化可以大节省量化时间。这样基于当前级k个聚类中心，对下级采样数据以最邻近准则进行分类，所有的数据就可以按照离k个聚类中心的距离的远近而划分成k个组。

2)动态缓冲加速量化。在量化过程中须要反复打开、关闭量化后分组文件来保存当前数据，对每个数据经比较后都打开、关闭文件是很费时的，特别是当文件越来越大，打开文件并且将文件指针移到文件末尾所需的时间就会越来越长。本发明方法根据类中心数目的大小动态地对每个分组文件建立一个适当大小的缓冲器，只当缓冲器满或量化完成时才打开分组文件，一次性写入缓冲器内所有数据，然后关闭文件，从而大大减少打开、关闭文件的次数。

3)高效内存管理。内存受到硬件、操作系统和开发平台等的限制，在整个聚类的过程中都会很紧张，很容易产生内存不足的情况。通过研究发现，本系统在运行过程中，中心数据的存放、量化和聚类都需要占用很大的内存。大本发明方法在使用内存时采用如下方法来解决内存不足的问题：首先，只在量化前从外存中读取当前级中心及所有前级中心数据到内存，当量化完成后释放所有中心所占内存。其次，动态建立量化时所用的缓冲器，用完立即释放内存。最后，在合并中心时，把当前聚类产生的中心直接写入文件中，并释放内存，保证有足够大的内存完成聚类工作。

量化完成后，对量化后的每个分组的数据集，继续采用k-均值算法进行聚类，进一步划分成k组，但k的大小由每个分组数据的大小自适应地确定：

k = [\frac{N_{tem} \times C_{org}}{N_{sam}}] - - - (7)

其中，C_org为预先设定的本级聚类中心的总数，N_tem为分组数据的个数，N_sam为本级采样数据的个数。如果分组数据量大则k值会大一些，反之，k值会小一些，这样根据分组数据量的大小来自动确定k的大小。采用固定k值的分级k-均值算法进行聚类的过程中，由于数据的分布不均匀，容易出现过度划分的问题，即可能会出现某一个分组中的数据非常的少，不足以进一步聚类划分或者可以进一步聚类划分但其结果不精确。采用这种自适应k-均值算法进行进一步聚类划分可以解决这种过度划分的问题。

对于当前的第m级，共有k^m个分组，经再次k-均值算法聚类后，共有产生的下级总的分类中心数为k^m+1个。

为了便于下一步的处理，须要把当前级的k^m个分组数据经再次k-均值算法聚类后的中心进行合并。本发明应用的方法是每当k-均值算法聚类完成后，就将这k个聚类中心与下级中心集合合并，这样经k^m次聚类就产生了一个大的中心集合，共k^m+1个聚类中心。

通过这种方式循环前面的步骤4至步骤6，就可以产生一个足够大的，分类精细的中心集了。如果应用这个中心对原始的所有数据进行量化，就可以完成对原始大规模数据进行精细的分类了。

对于一个大小为N的数据集，指定的聚类中心数为C＝k^m，数据对象的维数为P，分级聚类的级数为m，迭代次数为t，则本发明聚类方法的时间耗费可以这样计算：

1)单次运行K-均值聚类算法，时间复杂度为：

O (\frac{N}{k^{m - 1}} Pkt) = O (\frac{N}{k^{m - 2}} Pt);

2)第i级，须循环运行K-均值聚类算法kⁱ次，则时间复杂度为：

当i＝m-1时(m级中心只须分m-1次就可聚完)，时间复杂度为：O(NPkt)；

3)第i级，将每一个数据对象归到离它最近的聚类中心所在的类，需要时间

当i＝m时，时间复杂度为：O(NPmk)；m＜t，因此，算法总的时间复杂度为O(NPkt)。

本发明的方法应用在国家科技部“863”计划项目，“网络视频复制检测、定位和追踪技术”(No.2009AA01Z409)中。实验中对TRECVID2007数据库中的109个视频，总共提取的特征数据1600万，分5级聚10万类，共用时间1.2小时；对TRECVID2009数据库中的400个视频，总共提取的特征数据6400万，分6级聚100万类，共用时间25小时。

Claims

1.大规模数据高效聚类方法，其特征在于，包括以下步骤：

应用K-均值聚类算法对第一级采样数据进行聚类；

合并当前级各分组中的聚类中心成为一类大的中心。

2.根据权利要求1所述的方法，其特征在于，所述对原始数据进行分级采样，采样级数由将要聚类的级数决定，采样数据的数据量逐级增加，先把分散在各文件中的原始数据读取出来存放在一个文件中，形成一个大的数据集，然后应用随机采样算法对这个大的数据集进行分级采样。

3.根据权利要求2所述的方法，其特征在于，所述应用随机采样算法对这个大的数据集进行分级采样，随机采样算法是指从N个数据中随机取出n个取样数据，其基本思想是：从第N-n+1条数据开始，做以下操作，设当前处理的是第t个数据(n+1≤t≤N)，u是产生的一个随机数(u∈(0，t-1))，若u＜n，则把第u个数据换成第t个数据。其中分级采样，是指应用随机采样算法采出m个样本数据集U_i，i＝1，...，m，并且U₁＜U₂＜...＜U_m。

4.根据权利要求1所述的方法，其特征在于，所述应用K-均值聚类算法对第一级采样数据进行聚类，得到k个聚类中心，这里k＝10，这样就以得到10个初始中心。

5.根据权利要求1所述的方法，其特征在于，所述应用快速量化方法把下级采样数据量化到当前级的所有中心上，包括下列步骤：

分级比较量化；

动态缓冲加速量化；

高效内存管理。

6.根据权利要求5所述的方法，其特征在于，所述分级比较量化，是指对需要量化的数据从第一级中心开始向下逐级量化，这样每一级只需要比较k次，如果有m级则只需要比较mk次，如果直接从第m级进行量化则须比较k^m次，这样基于当前级k个聚类中心，对下级采样数据以最邻近准则进行分类，所有的数据按照离k个聚类中心的距离的远近而划分成k个组。

7.根据权利要求5所述的方法，其特征在于，所述动态缓冲加速量化，是指在量化过程中须要反复打开、关闭量化后分组文件来保存当前数据，根据类中心数目的大小动态地对每个分组文件建立一个适当大小的缓冲器，只当缓冲器满或量化完成时才打开分组文件，一次性写入缓冲器内所有数据，然后关闭文件。

8.根据权利要求5所述的方法，其特征在于，所述高效内存管理，是指，首先，只在量化前从外存中读取当前级中心及所有前级中心数据到内存，当量化完成后释放所有中心所占内存，其次，动态建立量化时所用的缓冲器，用完立即释放内存，最后，在合并中心时，把当前聚类产生的中心直接写入文件中，并释放内存，保证有足够大的内存完成聚类工作。

9.根据权利要求1所述的方法，其特征在于，所述应用自适应K-均值聚类算法对当前级量化后的分组数据分别进行聚类，是指对量化后的每个分组的数据文件，继续采用k-均值算法进行聚类，进一步划分成k组，k的大小由每个分组数据的大小自适应地确定，所谓自适应是指k值初始值为10，如果分组数据量大则k值会大一些，反之，k值会小一些，这样根据分组数据量的大小来自动确定k的大小。

10.根据权利要求1所述的方法，其特征在于，所述合并当前级各分组中的聚类中心成为一类大的中心是指把当前级的k^m个分组数据经再次k-均值算法聚类后的中心进行合并，每当k-均值算法聚类完成后，就将这k个聚类中心依次写入下级中心文件中，这样经k^m次聚类就产生了一个大的中心文件，共k^m+1个聚类中心。