CN105279524A

CN105279524A - 基于无权超图分割的高维数据聚类方法

Info

Publication number: CN105279524A
Application number: CN201510737424.0A
Authority: CN
Inventors: 陈伟; 高直; 孟海涛; 徐秀芳; 巩永旺; 韩立毛
Original assignee: Yangcheng Institute of Technology
Current assignee: Yangcheng Institute of Technology; Yancheng Institute of Technology
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2016-01-27

Abstract

本发明公开了一种基于无权超图分割的高维数据聚类方法，包括以下步骤：将高维数据集中的不同属性值映射为无权超图的节点，将每一条数据记录映射为无权超图的一条超边，超边内包含的每一个节点均为该条数据记录的属性值，得到原始无权超图；将原始无权超图分割为k个部分，将每个部分视作一个聚类子图；使用聚类子图紧密度评价聚类结果的质量，紧密度越大，聚类结果的质量越好，所述聚类子图紧密度为聚类子图内的所有节点至少被2条超边同时占有的节点数量为v1，仅被1条超边占有的节点数量为v2，将v1/v2的比值定义为聚类子图紧密度。能够全面地对高维数据集进行聚类分析，并且可以进一步提高高维数据聚类算法的运算效率。

Description

基于无权超图分割的高维数据聚类方法

技术领域

本发明属于高维数据聚类处理技术领域，具体地涉及一种基于无权超图分割的高维数据聚类方法。

背景技术

随着信息技术的高速发展，人们积累的数据量急剧增长，往往就构成了许多高维数据集。如何从海量的高维数据集中提取有用的知识成为研究人员的当务之急。数据挖掘就是为顺应这种需要而发展起来的数据处理技术。数据挖掘包含多种方法，例如关联规则、聚类、分类等。近些年，针对高维数据的聚类算法逐渐成为研究热点，它的一个典型应用就是股票市场的预测，通过对股票市场的高维数据集进行聚类分析，可以得到有投资价值的股票集合，帮助投资者获利。

高维数据集聚类分析的难点之一是其较高的时间复杂度，这使得一些经典的聚类算法在处理大规模高维数据时难以有效。高维数据集的另一个难点是其高度的噪音敏感性，这一特点使得众多已有的聚类算法的性能大大降低。因此设计高效的高维数据聚类算法是很有必要的。

对于高维数据而言，目前主要的处理方法有三种：

一种是通过选维、降维技术去除与数据簇不相关的维，然后再使用聚类算法对转换后的数据进行聚类，代表性的算法有主成分分析算法(PCA)。该算法从整个数据集找到能反应数据特征的维进行聚类。这种方法在每个簇的相关维较为相似时可以较为理想的进行聚类，然而当不同簇之间相关维差异较大的时候往往不能得到很好的结果。而现实数据中不同的数据簇往往对应着不同的相关维，所以这种针对整个数据集进行选维的方法不能很好的解决现实中的高维问题。

另一种是子空间聚类算法，这类算法的中心思想是从不同的特征子集中发现簇，代表性算法有CLIQUE、ENCLUS、PROCLUS、ORCLUS、最优映射聚类算法。子空间聚类算法的较大弊端是计算的复杂度，当数据维数很高并且要求较精确的聚类结果时，子空间的数目会急骤增长，对子空间中簇的搜索就会成为聚类操作的瓶颈，从而使算法失效。

还有一种方法是，首先使用Apriori算法挖掘出数据库中的频繁项集来构造超图的超边，超边的权重是关联规则的置信度的平均值。然后用HMETIS算法来进行超图划分。但存在的缺点是超图无法反应整个数据集的数据分布情况，无法完成对所有数据的聚类分析。

发明内容

针对上述技术问题，本发明目的是：提供一种基于无权超图分割的高维数据聚类方法，能够全面地对高维数据集进行聚类分析，并且可以进一步提高高维数据聚类算法的运算效率。

本发明的技术方案是：

一种基于无权超图分割的高维数据聚类方法，其特征在于，包括以下步骤：

S01：将高维数据集中的不同属性值映射为无权超图的节点，将每一条数据记录映射为无权超图的一条超边，超边内包含的每一个节点均为该条数据记录的属性值，得到原始无权超图；

S02：将原始无权超图分割为k个部分，将每个部分视作一个聚类子图；

S03：使用聚类子图紧密度评价聚类结果的质量，紧密度越大，聚类结果的质量越好，所述聚类子图紧密度为聚类子图内的所有节点至少被2条超边同时占有的节点数量为v1，仅被1条超边占有的节点数量为v2，将v1/v2的比值定义为聚类子图紧密度。

优选的，无权超图的分割包含三个阶段：

S11：粗化阶段：将联系紧密的节点合并，构造一系列无权超图，逐渐减小无权超图的规模，使得相邻两层超图之间的缩小率达到设定的缩小率，所述缩小率为相邻2层超图节点数目的减小百分比；

S12：初始划分阶段：将规模最小的无权超图进行初始划分，得到最初始的k个子图，所述初始划分的方法为随机划分；

S13：优化阶段：将步骤S12得到的k个子图随机选择裂变节点依次进行裂变还原，构造一系列无权超图，直至规模达到原始无权超图的规模，得到优化后的k个子图。

优选的，联系紧密的两个节点所在的超边数在超图中数目最多。

本发明的优点是：

1．本发明方法将数据集中的不同属性值映射为超图的节点，每一条数据记录映射为超图的一条超边，构造一张覆盖整个高维数据集的无权超图。然后对无权超图设计了新的超图k路分割算法，将最终的k个子图定义为k个聚类结果。

2.能够全面地对高维数据集进行聚类分析，并且进一步提高高维数据聚类算法的运算效率。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于无权超图分割的高维数据聚类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

如图1所示，该聚类算法共包含3个步骤，分别是无权超图的构造、无权超图的分割、聚类结果的评价。下面分别进行详细介绍。

1.无权超图的构造S01

定义1节点V

将高维数据集中的不同属性值映射为无权超图的节点。

定义2超边E

将每一条数据记录映射为无权超图的一条超边，超边内包含的每一个节点均为该条数据记录的某个属性值。

高维数据集的无权超图构造算法的中心思想是将高维数据集中的不同属性值映射为无权超图的节点，将高维数据集中的每条数据记录映射为一条超边，以无权超图作为数据结构来定义原数据集。

无权超图的构造算法如下：

输入:有t个属性，n条记录的高维数据集D；

输出:无权超图G(V,E)

1.fori=1totdo

2.V←Attribute(i)

3.endfor

4.fori=1tondo

5.forj=1tosum(V)do

6.ifCheck(record(i),Vj)=truethen

7.Ei←Vj

8.endif

9.endfor

10.G(V,E)←Ei

11.endfor

12.returnG(V,E)。

算法的第1行对所有属性值依次进行遍历，第2行将每个不同的属性值构造为无权超图的一个节点，通过前3行得到无权超图的所有节点。第4行对n条数据记录依次遍历，第5行对所有的无权超图节点依次遍历，第6行判断第i条数据记录是否包含Vj，如果包含，则在第7行将节点Vj划入超边Ei中，在第10行得到无权超图的所有超边，在第12行返回无权超图G(V,E)。

2.无权超图的分割S02

无权超图的分割是指在将无权超图分割为k个部分，将每个部分视作一个聚类。

无权超图的分割算法包含三个阶段：

1、粗化阶段，将联系紧密的节点合并，构造一系列无权超图，逐渐减小无权超图的规模，相邻两层超图之间达到设定缩小率，最终得到的超图规模需要足够小。

缩小率：假设上一层超图包含1000个节点，经过粗化后新的超图包含900个节点，则缩小率为10%，就是相邻2层超图节点数目的减小百分比。

对于一个节点a来说，考虑所有和a在至少一条超边中的节点，例如b、c，如果同时包含a和b的超边数大于同时包含a和c的超边数，那么a和b紧密。也就是包含a和a紧密节点的那条超边在超图中数目最多。

2、初始划分阶段，将规模最小的无权超图进行初始划分，得到最初始的k个子图。

初始划分的方法，是随机划分，遍历所有的划分，遍历所有的节点，然后生成0到1之间的随机数，如果大于等于0.5，则将当前节点置于某个划分内。小于0.5，则不置于该划分内。

3、优化阶段，由于最初始的子图划分大都不是最优的划分结果，因此需要对初始划分进行优化。将粗化的超图依次裂变还原，裂变为将一个节点裂变成2个，至于裂变节点选择是随机的，构造一系列无权超图，逐渐增大无权超图的规模，直至最原始无权超图规模。在优化阶段，调整无权超图的初始划分，逐渐减小被隔断的超图数，最终得到最优的无权超图k路划分。

无权超图分割算法为：

输入:无权超图G(V,E)

输出:无权超图的K路划分P[1..K]

1.while(check(G，min)=false)do

2.fori=1tosum(V)do

3.v←findclose(Vi)

4.compress(v,Vi)

5.ifcheckratio(G,G’)=truethen

6.break

7.endif

8.endfor

9.endwhile

10.fori=1tokdo

11.forj=1tosum(V)do

12.k=random(0,1)

13.ifk≥0.5then

14.partition(i)←Vj

15.endif

16.endfor

17.endfor

18.cutoff=0

19.fori=1tosum(E)do

20.forj=1tokdo

21.ifcheck(Ei,partition(j))=falsethen

22.cutoff=cutoff+1

23.endif

24.endfor

25.endfor

26.fori=1tosum(V)do

27.j=random(1,k）

28.ifreduced(cutoff,Vi，partition(j))=truethen

29.partition(j)←Vi

30.endif

31.endfor

32.returnpartition[1..k]。

算法的第1行判断无权超图G是否达到最小超图的规模，如果没有达到最小超图的规模，则在第2行对所有的节点进行遍历，在第3行找到节点Vi最匹配的节点v，第4行将节点Vi和节点v进行压缩，在第5行判断相邻的上下2层超图G和G’的缩小率，如果缩小率满足要求，则在第6行跳出循环，如果缩小率还未满足要求，则继续粗化。在第10行形成无权超图的k路原始分割，在第11行对所有的节点进行遍历，在第12行随机生成k，在第13行判断如果k大于0.5，则在第14行将节点Vj移动到子图partition(i)。在第18行将cutoff的取值置0。在第19行对所有的无权超图的超边E进行遍历，在第20行对无权超图的k路划分进行遍历，在第21行判断超边Ei是否包含在子图partition(j)内，如果超边Ei没有包含在子图partition(j)内，则在第22行cutoff值加1。在第26行对全部节点进行遍历，在第27行生成随机数j，在第28行判断将节点Vi移动到子图partition(j)后，cutoff值是否减小。如果cutoff值减小，那么在第29行将节点Vi移动到子图partition(j)。在第32行返回无权超图的k路分割partition[1..k]。

3.聚类结果的评价S03

由于聚类是无指导的学习过程，事先对数据的结构是未知的，因此，最终的聚类结果都需要进行有效性验证和质量评价。如果处理的数据集结构未知，聚类结果的评价就只能依赖数据集自身的特征和量值。

定义聚类子图的紧密度closeness，对于聚类子图内的所有节点，至少被2条超边同时占有的节点数量为v1，仅被1条超边占有的节点数量为v2，将v1/v2定义为聚类子图的紧密度。紧密度越大，聚类结果的质量越好。

聚类子图质量判定算法：

输入:无权超图G的聚类结果partition

输出:聚类子图的紧密度

1.onevertices←0

2.othervertices←0

3.foreachvertexinpartitiondo

4.number←0

5.foreachedgeinpartitiondo

6.ifvertexinedgethen

7.number++

8.endif

9.endfor

10.ifnumber=1then

11.onevertices++

12.else

13.othervertices++

14.endif

15.endfor

16.closeness=onevertices/othervertices

17.returncloseness。

算法的第1行将onevertices置0，第2行将othervertices置0，第3行对聚类子图内的所有节点进行遍历，第4行将number的值置0，第5行对聚类子图内的所有超边进行遍历，第6行判断节点是否在超边内，如果节点在超边内，则在第7行将number的值加1，在第10行判断number的值是否为1，如果number的值等于1，则在第11行将onevertices加1，否则在第13行将othervertices加1。在第16行计算聚类子图的紧密度。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于无权超图分割的高维数据聚类方法，其特征在于，包括以下步骤：

S02：将原始无权超图分割为k个部分，将每个部分视作一个聚类子图；

2.根据权利要求1所述的基于无权超图分割的高维数据聚类方法，其特征在于，无权超图的分割包含三个阶段：

S12：初始划分阶段：将规模最小的无权超图进行初始划分，得到最初始的k个子图，所述初始划分的方法为随机划分；

3.根据权利要求2所述的基于无权超图分割的高维数据聚类方法，其特征在于，联系紧密的两个节点所在的超边数在超图中数目最多。