CN103077228A

CN103077228A - 一种基于集合特征向量的快速聚类方法和装置

Info

Publication number: CN103077228A
Application number: CN2013100004065A
Authority: CN
Inventors: 武森; 姜敏; 魏桂英; 鄂旭
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2013-01-02
Filing date: 2013-01-02
Publication date: 2013-05-01
Anticipated expiration: 2033-01-02
Also published as: CN103077228B

Abstract

本发明提供一种基于集合特征向量的快速聚类方法和装置。所述方法有如下步骤：1）将输入的混合属性数据转化为二值属性；2）按照对象稀疏性指数或不干涉序列指数排序；3）令排序后的第一个对象单独成类，得到其集合特征向量，然后顺序扫描其余待聚类对象，由当前扫描到的对象并入已经创建类的集合差异度与集合差异度上限b1的大小决定该对象是并入某个已经创建的类中还是单独创建一个新类；4）对步骤3）得到的初次聚类结果进行二次聚类，然后去除聚类结果中的孤立点，得到最终聚类结果。本发明只需要对数据进行一次排序和一次扫描即可完成聚类过程，兼顾聚类质量的同时，大幅降低了聚类所需的时间，而且聚类结果可以不受数据输入顺序的影响。

Description

一种基于集合特征向量的快速聚类方法和装置

技术领域

本发明涉及数据挖掘、聚类分析、高维数据聚类等技术领域，具体涉及一种基于集合特征向量的快速聚类方法和装置。

背景技术

聚类是数据挖掘领域最为常见的任务之一，用于发现在数据集中未知的对象类。

对高维数据的处理能力是聚类研究的一个重要内容。许多聚类算法在维数比较低的情况下能够生成质量比较高的聚类结果，却难以应用于高维数据的情况，有时甚至可能会产生错误的聚类结果。

在提出本发明之前，我们已经在高维数据挖掘领域，特别是高维稀疏数据挖掘领域，提出了一个有效的算法——CABOSFV聚类算法。

CABOSFV算法从集合的角度定义了一种新的差异度计算方法，称为“稀疏特征差异度（Sparse Feature Distance，SFD）”以此反映一个集合内部对象间的相似程度，并通过新定义的一个概念“稀疏特征向量（Sparse Feature Vector，SFV）”来概括一个对象集合所包含的全部聚类相关信息，可以方便地计算集合内对象的相似程度。稀疏特征向量能够对数据进行有效压缩，使得数据处理量大大减少，并且只需进行一次数据扫描就可以生成聚类结果。

CABOSFV聚类算法中差异度的计算是基于集合给出的，其定义如下：

集合的稀疏差异度：假设有n个对象，描述每个对象的属性有m个，Y为其中的一个对象子集，其中的对象个数可以用|Y|表示，在该子集中所有对象稀疏特征取值皆为1的属性个数为a(0≤a≤m)，稀疏特征取值不全相同的属性个数为e(0≤e≤m)，则集合Y的稀疏差异度SFD(Y)定义为：

SFD (Y) = \frac{e}{| Y | \times a} .

一个集合的稀疏差异度表明了该集合内部各对象间的差异程度。差异程度越大，对象间越不相似；差异度越小，则对象间越相似。集合的稀疏差异度是CABOSFV聚类算法进行相似度计算和数据压缩的基础。

为了减少数据处理量，CABOSFV聚类算法对数据进行了有效地压缩，这是通过一个新的概念“稀疏特征向量”来实现的。

稀疏特征向量：假设有n个对象，描述每个对象的属性有m个，Y为其中的一个对象子集，其中的对象个数可以用|Y|表示，在该子集中所有对象稀疏特征取值皆为1的属性个数为a(0≤a≤m)，对应的属性序号为j₁，j₂，…，j_a，稀疏特征取值不全相同的属性个数为e(0≤e≤m)，对应的属性序号为k₁,k₂,…,k_e，向量SFV(Y)＝(|Y|，S(Y)，NS(Y)，SFD(Y))称为对象集合Y的稀疏特征向量。

其中，|Y|为Y中对象的个数；

S(Y)为Y中所有对象稀疏特征取值皆为1的属性序号集合{j₁，j₂，…，j_a}；

NS(Y)为稀疏特征取值不全相同的属性序号集合{k₁,k₂,…,k_e}；

SFD(Y)为集合Y的稀疏差异度。

显然：a=|S(Y)|，e=|NS(Y)|，所以有：

SFD (Y) = \frac{| NS |}{| Y | \times | S |} = \frac{e}{| Y | \times a} .

稀疏特征向量概括了一个对象集合的稀疏特征及该集合内对象间的稀疏差异度。这样，对于一个对象集合，我们只需存储其稀疏特征向量就可以描述该集合的稀疏情况，而不必保存该集合中所有对象的信息。稀疏特征向量不仅减少了数据量，而且还具有特别好的性质——在两个集合合并时稀疏特征向量具有可加性。

利用稀疏特征向量的可加性，可以在对象集合进行合并时精确地计算稀疏特征向量，得到全新的稀疏差异度。这样，在根据对象的稀疏特征进行聚类时，即可以降低数据存储量和计算量，同时可以保证稀疏差异度计算的精确性。下面我们介绍CABOSFV聚类算法的步骤。

假设有n个对象，描述第i个对象的m个稀疏特征取值分别对应于二态变量值x_i1,x_i2,…,x_im，一个类内对象的差异度上限为b，那么CABOSFV聚类算法处理步骤如下：

1）由每一个对象建立一个集合，分别记为Xi(0)，i∈{1，2，...，n}。

2）根据稀疏特征向量可加性，计算SFV(X₁ ⁽⁰⁾∪X₂ ⁽⁰⁾)＝SFV(X₁ ⁽⁰⁾)+SFV(X₂ ⁽⁰⁾)，如果合并后集合内部差异度不大于差异度上限b，那么将X₁ ⁽⁰⁾与X₂ ⁽⁰⁾合并到一个集合，作为一个已有类，记为X₁ ⁽¹⁾；如果合并后集合的内部差异度大于差异度上限b，那么将X₁ ⁽⁰⁾和X₂ ⁽⁰⁾分别作为一个已有类，记为X₁ ⁽¹⁾与X₂ ⁽¹⁾。将已有类的个数记为c。

3）针对集合X₃ ⁽⁰⁾，同理计算SFV(X₃ ⁽⁰⁾∪X_k ⁽¹⁾)＝SFV(X₃ ⁽⁰⁾)+SFV(X_k ⁽¹⁾)，k∈{1，2，…，c}，寻找i₀，使得

SFD ({X_{3}}^{(0)} \cup {X_{i}}_{o}^{(1)}) = \min_{k &Element; {1,2, . . ., c}} SFD ({X_{3}}^{(0)} \cup {X_{k}}^{(1)}) .

如果得到的

不大于差异度上限b，那么将X₃ ⁽⁰⁾合并到中，仍记为

如果大于差异度上限b，那么将X₃ ⁽⁰⁾作为一个新的类，记为X_c+1 ⁽¹⁾，类的个数c＝c+1。

4）对X_i ⁽⁰⁾，i∈{4，5，...，n}，重复执行步骤3）所示的操作。

5）在最终形成的每一个类X_k ⁽¹⁾，k∈{1，2，...，c}中，包含对象个数较少的类定位孤立对象类，从最终形成的类中去除，余下的各类作为最终聚类的结果。

从上述步骤不难看出，CABOSFV算法具有简洁高效的特点，其只需要对数据进行一次扫描即可自下而上的得出聚类结果。然而CABOSFV算法也存在一些不足：①聚类结果不均匀，各聚类结果的规模差别很大，而且倾向于产生规模较大的类；②聚类结果受差异度上限b影响严重，设定不同的b值可能会得到差异较大的聚类结果；③聚类结果受数据输入顺序影响，即使完全相同的数据按照不同的数据输入CABOSFV算法，也会得出不尽相同的聚类结果。以上缺陷使得CABOSFV算法聚类结果的质量不稳定，严重制约了该算法的发展和应用。另外，CABOSFV算法只能应用于二值属性的数据，而不能应用于更为普遍的分类属性、混合数据。

发明内容

本发明所要解决的技术问题是消除CABOSFV聚类算法所存在的部分缺陷，在兼顾聚类质量的同时提升聚类效率，同时将应用领域扩大到整个混合属性数据聚类的范畴，即所处理的数据可以是区间属性、分类属性和二值属性的任意组合，既可以是普通的，也可以是稀疏的。

本发明的技术方案是：一种基于集合特征向量的快速聚类方法，该方法：①能够对混合属性数据进行聚类；②按照某种指数对数据进行排序后再进行聚类；③进行两次聚类。其参数是集合差异度b₁和拓展集合差异度b₂。

该方法包括如下步骤：

1）将输入的混合属性数据转化为二值属性后，按照对象稀疏性指数或不干涉序列指数排序。

2）令排序后的第一个对象单独成类，得到其集合特征向量。

3）顺序扫描其余待聚类对象，如果将当前扫描到的对象并入任何一个已经创建的类，都会使得并入后的集合差异度大于集合差异度上限b₁，则创建一个新类，该新类仅包含当前扫描到的对象；否则，将当前对象并入使得并入后集合差异度最小的类中，并更新该类的集合特征向量。

4）将步骤3）得到的初次聚类结果作为输入进行二次聚类。

5）去除聚类结果中的孤立点，得到最终聚类结果。

根据本发明的另一个方面，提供了一种基于集合特征向量的快速聚类装置。该装置包括：数据输入模块，用于将各种形式的媒介中载有的信息转换为计算机系统中的数据；数据属性转换模块，用于将混合属性数据转换为二值属性数据；数据排序模块，用于按照稀疏性指数或不干涉序列指数对数据进行排序；初次聚类模块，用于对排序后的数据进行初次聚类；二次聚类模块，用于对初次聚类后的数据进行而次聚类；结果展示模块，用于将处理后的结果以可视化的方式展现出来。

另外，本发明的实施例还提供了用于实现上述基于集合特征向量的快速聚类方法的计算机程序。

本发明的有益效果是：该方法与CABOSFV算法相比，具有更高的聚类稳定性和更好的聚类质量；相对于经典的k-means和k-modes聚类算法，在兼顾聚类质量的同时，具有更高的聚类效率，能够处理的数据类型也更为丰富。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。

图1是示出了本发明实施例的基于集合特征向量的快速聚类方法的框架性流程图；

图2是示出了本发明实施例的基于集合特征向量的快速聚类方法的详细流程图；

图3是示出了本发明实施例的基于集合特征向量的快速聚类装置的结构示意图。

具体实施方式

下面结合附图对本发明的实施例作出详细说明。首先描述根据本发明的实施例的基于集合特征向量的快速聚类方法。

图1示出了本发明实施例的基于集合特征向量的快速聚类方法的框架性流程图。图2则示出了详细流程图。总的来说，该方法包括数据属性转换步骤、数据排序步骤、初次聚类步骤和二次聚类步骤。

在步骤101中，将输入的混合属性数据转化为二值属性数据。为了方便描述，下文称这一步骤为数据属性转换步骤。

在数据属性转换步骤中，需要将数据中的分类属性和区间属性都转换为二值属性。将分类属性转换为二值属性的方法是：设分类属性C_t,t＝1,2，...,m₂共有h_t个属性值，分别为

则该分类属性C_t映射到二值属性后的属性为C′_t1,C′_t2，…,

当对象x在属性C_t上取第k(k∈{1,2，...,h_t})个分类属性值v_tk时，C′_tk=1，而C′_ts=0(s=1，...,h_t，且s≠k)。将区间属性数据转换为二值属性数据的方法有两种，可以根据聚类精度的需求从中选择。第一种方法是设定一个阈值t，然后将大于等于t的区间属性值标记为1，将小于t的区间属性值标记为0即可。第二种方法则适用于对聚类精度要求较高的情况，其原理是首先按照一定的标准将区间属性划分为若干个层次，并将这些层次的编号视为分类属性，继而运用上文中提到的将分类属性数据转换为二值属性数据的方法将其转换为二值属性。

在步骤102中，按照对象稀疏性指数或不干涉序列指数对数据进行排序。这一步也称数据排序步骤。下面给出不干涉序列指数的定义：

不干涉序列指数：设一个数据集X有n个对象，每个对象共有m个二值属性，对象x的属性值分别为d₁(x),d₂(x)，...,d_m(x),(d_i(x)=0或1,i＝1,2,…,m)，则对象x的不干涉序列指数定义为：q(x，M)=d₁(x)M₁+d₂(x)M₂+…+d_m(x)M_m。

其中(M₁,M₂,…，M_m)为某选定的不干涉序列M＝(M₁,M₂,M₃，...,M_i，...)的前m项。

不干涉序列：当一个正整数数列M＝(M₁,M₂,M₃，...,M_i，...)的第n项大于前n-1项的和时，即

n≥2，将这个数列称为不干涉序列。

不干涉序列M＝(M₁,M₂,M₃，...,M_i，...)可以通过下述方式来构造：

M₁=任意正整数，M₂=任意正整数且大于M₁，M₃＝M₁+M₂+1，M_i=2M_i-1(i>3)。

例如：1,2,4,8,16,32,64…，1,3,5,10,20,40,80…，1,4,6,12,24,48,96…

在步骤103中，对数据进行初次聚类。这一步骤也称初次聚类步骤。该步骤包括如下子步骤：

1）令排序后的第一个对象单独成类，得到其集合特征向量。下面给出集合特征向量的定义。

集合特征向量：假设有n个对象，描述每个对象的属性有m个，Y为其中的一个对象子集，其中的对象个数可以用|Y|表示，在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m)，对应的属性序号为j₁，j₂，...，j_a，取值不全相同的属性个数为e(0≤e≤m)，对应的属性序号为k₁,k₂，...,k_e，向量SFV(Y)＝(|Y|，S(Y)，NS(Y)，SD(Y))称为对象集合Y的集合特征向量。其中S(Y)为Y中所有对象取值都为1的属性序号集合，NS(Y)为取值不全相同的属性序号集合，SD(Y)为集合差异度。

集合特征向量是稀疏特征向量的范化。我们在实践中发现，稀疏特征向量这种形式不只可以运用到高维稀疏数据聚类中，将其推广到普通数据聚类中也是能够起到显著数据压缩作用的。当然，其最重要的作用在于用一个向量概括了一个集合参与下一步聚类所需的全部信息。

2）顺序扫描其余待聚类对象，如果当前扫描到的对象并入任何一个已经创建的类，都会使得并入后的集合差异度大于集合差异度上限b₁，则创建一个新类，该新类仅包含当前扫描到的对象；否则，将当前对象并入使得并入后集合差异度最小的类中，并更新该类的集合特征向量。下面给出集合差异度的定义。

集合差异度：假设有n个对象，描述每个对象的属性有m个，Y为其中的一个对象子集，其中的对象个数可以用|Y|表示，在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m)，取值不全相同的属性个数为e(0≤e≤m)，则集合Y的集合差异度SD(Y)定义为：

SFD (Y) = \frac{e}{| Y | \times a} .

在步骤104中将步骤103中得到的初次聚类结果作为输入进行二次聚类。该步骤也称二次聚类步骤。下面给出二次聚类步骤中涉及的定义和方法。

集合属性值：设函数f：x_i→v_k表示集合X中的对象x_i对应的属性值v_k(i＝1,2，...，n；k＝1,2，...，l)，其中l表示所有属性取值的总数量。当集合X内的每个对象都对应某个属性值v_k时，称该属性值为集合X的集合属性值。集合X的所有集合属性值可以表示为AVS(X)。

拓展集合差异度：对于数据集U，X为U的一个划分X＝{X₁，X₂，...，X_k}，k∈N。X_i是X中的某一个元素，X_i的集合属性值为AVS(X_i)。Q是X的一个子集，|Q|为其元素个数，|Q|≤k。对于该子集中的所有集合，相同的集合属性个数为S(Q)，不全相同的集合属性值个数为NS(Q)。则定义为子集Q的拓展集合差异度。对应地，定义ESFV(Q)＝(|Q|，S(Q)，NS(Q)，ESD(Q))为拓展集合特征向量。

二次聚类的具体方法是：将各个初次聚类结果的集合特征向量视作待聚类对象集，将每个集合特征向量的S集中的属性作为该集合特征向量的集合属性值，并将步骤2）和步骤3）中的集合差异度、集合特征向量对应改变为拓展集合差异度和拓展集合特征向量，同时将集合差异度上限b₁改变为拓展集合差异度上限b₂后，按照步骤2）和步骤3）进行聚类。

在二次聚类步骤中，还应去除聚类结果中对象个数小于阈值k的簇，得到最终聚类结果。

上述基于集合特征向量的快速聚类方法只需要对数据进行一次排序和一次扫描即可完成聚类过程。相对CABOSFV算法具有更高的聚类稳定性和更好的聚类质量；相对于经典的k-means和k-modes聚类算法，在兼顾聚类质量的同时，具有更高的聚类效率，能够处理的数据类型也更为丰富。

图3示出了本发明实施例的基于集合特征向量的快速聚类装置的结构示意图。该装置的部分模块（302至305）与上述方法相对应。

数据输入模块301，用于将载于其他媒介上的信息数字化并读入计算机中，或将载于其他计算机、存储设备中的信息直接读入该装置所处的计算机中。数据属性转换模块302，用于按照步骤101所述的方法对数据进行属性转换。数据排序模块303，用于按照步骤102所述的方法对数据进行排序。初次聚类模块304，用于按照步骤103所述的方法对数据进行初次聚类。二次聚类模块305，用于按照步骤104所述的方法对数据进行二次排序。结果展示模块306，用于将二次聚类模块305得到的聚类结果以图形或/和文字的形式展示出来。

尽管上面已经通过对本发明的具体实施实例的描述对本发明进行了披露，但是，应该理解，上述所有实施例和示例均是示例性的，而非限定性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者同等物。这些修改、改进或者同等物也应当被认为包括在本发明的保护范围内。

Claims

1.一种基于集合特征向量的快速聚类方法，其特征在于，包括以下步骤：

（1）数据属性转换步骤：将输入的混合属性数据转化为二值属性；

（2）数据排序步骤：按照对象稀疏性指数或不干涉序列指数对数据进行排序；

（3）初次聚类步骤：该步骤包括两个子步骤：

首先，令排序后的第一个对象单独成类，得到其集合特征向量，

然后，顺序扫描其余待聚类对象，如果将当前扫描到的对象并入任何一个已经创建的类中，都会使得并入后的集合差异度大于集合差异度上限b₁，则创建一个新类，该新类仅包含当前扫描到的对象；否则，将当前对象并入使得并入后集合差异度最小的类中，并更新该类的集合特征向量；

（4）二次聚类步骤：将初次聚类步骤得到的初次聚类结果作为输入进行二次聚类。然后去除聚类结果中的孤立点，得到最终聚类结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤2）中的对象稀疏性指数是指对象属性中取值为1的个数；所述不干涉序列指数是指不干涉序列与对象的属性的内积，其计算方法如下：设一个二值属性数据集X有n个对象，每个对象共有m个属性。X为数据集X中的一个对象，其属性值分别为d₁(x),d₂(x),…,d_m(x),(d_i(x)=0或1,i=1,2,…,m)，则对象x的不干涉序列指数为：q(x，M)=d₁(x)M₁+d₂(x)M₂+…+d_m(x)M_m其中(M₁,M₂,…，M_m)为某选定的不干涉序列M＝(M₁,M₂,M₃,…,M_i,…)的前m项。

3.根据权利要求1所述的方法，其特征在于，所述步骤3）中的集合特征向量是指集合内所有对象参与聚类所需的相关信息的特征表示向量，其定义如下：设一个二值属性数据集有n个对象，描述每个对象的属性有m个，Y为其中的一个对象子集，其中的对象个数可以用|Y|表示，在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m)，对应的属性序号为j₁，j₂，...，j_a，取值不全相同的属性个数为e(0≤e≤m)，对应的属性序号为k₁,K₂,…,k_e，则向量SFV(Y)＝(|Y|，S(Y)，NS(Y)，SD(Y))称为对象集合Y的集合特征向量。其中S(Y)为Y中所有对象取值都为1的属性序号集合，NS(Y)为取值不全相同的属性序号集合，SD(Y)为集合差异度；所述集合差异度是指集合内对象间的差异程度，其计算方法如下：设一个二值属性数据集有n个对象，描述每个对象的属性有m个，Y为其中的一个对象子集，其中的对象个数记为|Y|，在该子集中所有对象取值皆为1的属性个数为a(0≤a≤m)，取值不全相同的属性个数为e(0≤e≤m)，则定义

为子集Y的集合差异度。

4.根据权利要求1所述的方法，其特征在于，所述步骤4）中对初次聚类结果进行二次聚类是指将初次聚类结果中各个类的集合特征向量视作待聚类对象，将每个集合特征向量的S集中的属性作为该集合特征向量的集合属性值，并将步骤2）和步骤3）中的集合差异度、集合特征向量对应改变为拓展集合差异度和拓展集合特征向量，同时将集合差异度上限b₁改变为拓展集合差异度上限b₂后，按照步骤2）和步骤3）进行聚类的过程。

5.根据权利要求4所述的方法，其特征在于，所述的集合属性值定义如下：设函数f：x_i→v_k表示集合X中的某个对象x_i对应的属性值v_k(i＝1,2，...，n；k＝1,2，...，l)，其中l表示所有属性取值的总数量。当集合X内的每个对象都对应某个属性值v_k时，称该属性值为集合X的集合属性值，集合X的所有集合属性值可以表示为AVS(X)。

6.根据权利要求4所述的方法，其特征在于，所述的拓展集合差异度是指多个集合之间的总体差异程度。其计算方法如下：对于数据集U，X为U的一个划分X＝{X₁，X₂，...，X_k}，k∈N，X_i是X中的某一个元素，X_i的集合属性值为AVS(X_i)，Q是X的一个子集，|Q|为其元素个数，|Q|≤k，对于该子集中的所有集合，相同的集合属性个数为S(Q)，不全相同的集合属性值个数为NS(Q)，则定义为子集Q的拓展集合差异度，对应地，定义ESFV(Q)＝(|Q|，S(Q)，NS(Q)，ESD(Q))为拓展集合特征向量。

7.一种基于集合特征向量的快速聚类装置，其特征在于，包括以下组成模块：

数据输入模块：用于将载于其他媒介上的信息数字化并且读入计算机中，或者将载于其他计算机、存储设备中的信息直接读入该装置所处的计算机中；

数据属性转换模块，用于对数据进行属性转换，将混合数据中的分类属性和数值属性转换为二值属性；

数据排序模块，用于按照对象稀疏性指数或不干涉序列指数对数据进行排序；

初次聚类模块，用于对数据进行初次聚类；

二次聚类模块，用于在初次聚类的基础上对数据进行二次排序；

结果展示模块，用于将二次聚类模块得到的聚类结果以图形或/和文字的形式展示出来。