CN105279524A - 基于无权超图分割的高维数据聚类方法 - Google Patents

基于无权超图分割的高维数据聚类方法 Download PDF

Info

Publication number
CN105279524A
CN105279524A CN201510737424.0A CN201510737424A CN105279524A CN 105279524 A CN105279524 A CN 105279524A CN 201510737424 A CN201510737424 A CN 201510737424A CN 105279524 A CN105279524 A CN 105279524A
Authority
CN
China
Prior art keywords
hypergraph
dimensional data
subgraph
cluster
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510737424.0A
Other languages
English (en)
Inventor
陈伟
高直
孟海涛
徐秀芳
巩永旺
韩立毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangcheng Institute of Technology
Yancheng Institute of Technology
Original Assignee
Yangcheng Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangcheng Institute of Technology filed Critical Yangcheng Institute of Technology
Priority to CN201510737424.0A priority Critical patent/CN105279524A/zh
Publication of CN105279524A publication Critical patent/CN105279524A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<b>本发明公开了一种</b><b>基于无权超图分割的高维数据聚类方法,包括以下步骤:将高维数据集中的不同属性值映射为无权超图的节点,将每一条数据记录映射为无权超图的一条超边,超边内包含的每一个节点均为该条数据记录的属性值,得到原始无权超图;将原始无权超图分割为k个部分,将每个部分视作一个聚类子图;使用聚类子图紧密度评价聚类结果的质量,紧密度越大,聚类结果的质量越好,所述聚类子图紧密度为聚类子图内的所有节点至少被2条超边同时占有的节点数量为v1,仅被1条超边占有的节点数量为v2,将v1/v2的比值定义为聚类子图紧密度</b><b>。</b><b>能够全面地对高维数据集进行聚类分析,并且可以进一步提高高维数据聚类算法的运算效率。</b>

Description

基于无权超图分割的高维数据聚类方法
技术领域
本发明属于高维数据聚类处理技术领域,具体地涉及一种基于无权超图分割的高维数据聚类方法。
背景技术
随着信息技术的高速发展,人们积累的数据量急剧增长,往往就构成了许多高维数据集。如何从海量的高维数据集中提取有用的知识成为研究人员的当务之急。数据挖掘就是为顺应这种需要而发展起来的数据处理技术。数据挖掘包含多种方法,例如关联规则、聚类、分类等。近些年,针对高维数据的聚类算法逐渐成为研究热点,它的一个典型应用就是股票市场的预测,通过对股票市场的高维数据集进行聚类分析,可以得到有投资价值的股票集合,帮助投资者获利。
高维数据集聚类分析的难点之一是其较高的时间复杂度,这使得一些经典的聚类算法在处理大规模高维数据时难以有效。高维数据集的另一个难点是其高度的噪音敏感性,这一特点使得众多已有的聚类算法的性能大大降低。因此设计高效的高维数据聚类算法是很有必要的。
对于高维数据而言,目前主要的处理方法有三种:
一种是通过选维、降维技术去除与数据簇不相关的维,然后再使用聚类算法对转换后的数据进行聚类,代表性的算法有主成分分析算法(PCA)。该算法从整个数据集找到能反应数据特征的维进行聚类。这种方法在每个簇的相关维较为相似时可以较为理想的进行聚类,然而当不同簇之间相关维差异较大的时候往往不能得到很好的结果。而现实数据中不同的数据簇往往对应着不同的相关维,所以这种针对整个数据集进行选维的方法不能很好的解决现实中的高维问题。
另一种是子空间聚类算法,这类算法的中心思想是从不同的特征子集中发现簇,代表性算法有CLIQUE、ENCLUS、PROCLUS、ORCLUS、最优映射聚类算法。子空间聚类算法的较大弊端是计算的复杂度,当数据维数很高并且要求较精确的聚类结果时,子空间的数目会急骤增长,对子空间中簇的搜索就会成为聚类操作的瓶颈,从而使算法失效。
还有一种方法是,首先使用Apriori算法挖掘出数据库中的频繁项集来构造超图的超边,超边的权重是关联规则的置信度的平均值。然后用HMETIS算法来进行超图划分。但存在的缺点是超图无法反应整个数据集的数据分布情况,无法完成对所有数据的聚类分析。
发明内容
针对上述技术问题,本发明目的是:提供一种基于无权超图分割的高维数据聚类方法,能够全面地对高维数据集进行聚类分析,并且可以进一步提高高维数据聚类算法的运算效率。
本发明的技术方案是:
一种基于无权超图分割的高维数据聚类方法,其特征在于,包括以下步骤:
S01:将高维数据集中的不同属性值映射为无权超图的节点,将每一条数据记录映射为无权超图的一条超边,超边内包含的每一个节点均为该条数据记录的属性值,得到原始无权超图;
S02:将原始无权超图分割为k个部分,将每个部分视作一个聚类子图;
S03:使用聚类子图紧密度评价聚类结果的质量,紧密度越大,聚类结果的质量越好,所述聚类子图紧密度为聚类子图内的所有节点至少被2条超边同时占有的节点数量为v1,仅被1条超边占有的节点数量为v2,将v1/v2的比值定义为聚类子图紧密度。
优选的,无权超图的分割包含三个阶段:
S11:粗化阶段:将联系紧密的节点合并,构造一系列无权超图,逐渐减小无权超图的规模,使得相邻两层超图之间的缩小率达到设定的缩小率,所述缩小率为相邻2层超图节点数目的减小百分比;
S12:初始划分阶段:将规模最小的无权超图进行初始划分,得到最初始的k个子图,所述初始划分的方法为随机划分;
S13:优化阶段:将步骤S12得到的k个子图随机选择裂变节点依次进行裂变还原,构造一系列无权超图,直至规模达到原始无权超图的规模,得到优化后的k个子图。
优选的,联系紧密的两个节点所在的超边数在超图中数目最多。
本发明的优点是:
1.本发明方法将数据集中的不同属性值映射为超图的节点,每一条数据记录映射为超图的一条超边,构造一张覆盖整个高维数据集的无权超图。然后对无权超图设计了新的超图k路分割算法,将最终的k个子图定义为k个聚类结果。
2.能够全面地对高维数据集进行聚类分析,并且进一步提高高维数据聚类算法的运算效率。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明基于无权超图分割的高维数据聚类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
如图1所示,该聚类算法共包含3个步骤,分别是无权超图的构造、无权超图的分割、聚类结果的评价。下面分别进行详细介绍。
1.无权超图的构造S01
定义1节点V
将高维数据集中的不同属性值映射为无权超图的节点。
定义2超边E
将每一条数据记录映射为无权超图的一条超边,超边内包含的每一个节点均为该条数据记录的某个属性值。
高维数据集的无权超图构造算法的中心思想是将高维数据集中的不同属性值映射为无权超图的节点,将高维数据集中的每条数据记录映射为一条超边,以无权超图作为数据结构来定义原数据集。
无权超图的构造算法如下:
输入:有t个属性,n条记录的高维数据集D;
输出:无权超图G(V,E)
1.fori=1totdo
2.V←Attribute(i)
3.endfor
4.fori=1tondo
5.forj=1tosum(V)do
6.ifCheck(record(i),Vj)=truethen
7.Ei←Vj
8.endif
9.endfor
10.G(V,E)←Ei
11.endfor
12.returnG(V,E)。
算法的第1行对所有属性值依次进行遍历,第2行将每个不同的属性值构造为无权超图的一个节点,通过前3行得到无权超图的所有节点。第4行对n条数据记录依次遍历,第5行对所有的无权超图节点依次遍历,第6行判断第i条数据记录是否包含Vj,如果包含,则在第7行将节点Vj划入超边Ei中,在第10行得到无权超图的所有超边,在第12行返回无权超图G(V,E)。
2.无权超图的分割S02
无权超图的分割是指在将无权超图分割为k个部分,将每个部分视作一个聚类。
无权超图的分割算法包含三个阶段:
1、粗化阶段,将联系紧密的节点合并,构造一系列无权超图,逐渐减小无权超图的规模,相邻两层超图之间达到设定缩小率,最终得到的超图规模需要足够小。
缩小率:假设上一层超图包含1000个节点,经过粗化后新的超图包含900个节点,则缩小率为10%,就是相邻2层超图节点数目的减小百分比。
对于一个节点a来说,考虑所有和a在至少一条超边中的节点,例如b、c,如果同时包含a和b的超边数大于同时包含a和c的超边数,那么a和b紧密。也就是包含a和a紧密节点的那条超边在超图中数目最多。
2、初始划分阶段,将规模最小的无权超图进行初始划分,得到最初始的k个子图。
初始划分的方法,是随机划分,遍历所有的划分,遍历所有的节点,然后生成0到1之间的随机数,如果大于等于0.5,则将当前节点置于某个划分内。小于0.5,则不置于该划分内。
3、优化阶段,由于最初始的子图划分大都不是最优的划分结果,因此需要对初始划分进行优化。将粗化的超图依次裂变还原,裂变为将一个节点裂变成2个,至于裂变节点选择是随机的,构造一系列无权超图,逐渐增大无权超图的规模,直至最原始无权超图规模。在优化阶段,调整无权超图的初始划分,逐渐减小被隔断的超图数,最终得到最优的无权超图k路划分。
无权超图分割算法为:
输入:无权超图G(V,E)
输出:无权超图的K路划分P[1..K]
1.while(check(G,min)=false)do
2.fori=1tosum(V)do
3.v←findclose(Vi)
4.compress(v,Vi)
5.ifcheckratio(G,G’)=truethen
6.break
7.endif
8.endfor
9.endwhile
10.fori=1tokdo
11.forj=1tosum(V)do
12.k=random(0,1)
13.ifk≥0.5then
14.partition(i)←Vj
15.endif
16.endfor
17.endfor
18.cutoff=0
19.fori=1tosum(E)do
20.forj=1tokdo
21.ifcheck(Ei,partition(j))=falsethen
22.cutoff=cutoff+1
23.endif
24.endfor
25.endfor
26.fori=1tosum(V)do
27.j=random(1,k)
28.ifreduced(cutoff,Vi,partition(j))=truethen
29.partition(j)←Vi
30.endif
31.endfor
32.returnpartition[1..k]。
算法的第1行判断无权超图G是否达到最小超图的规模,如果没有达到最小超图的规模,则在第2行对所有的节点进行遍历,在第3行找到节点Vi最匹配的节点v,第4行将节点Vi和节点v进行压缩,在第5行判断相邻的上下2层超图G和G’的缩小率,如果缩小率满足要求,则在第6行跳出循环,如果缩小率还未满足要求,则继续粗化。在第10行形成无权超图的k路原始分割,在第11行对所有的节点进行遍历,在第12行随机生成k,在第13行判断如果k大于0.5,则在第14行将节点Vj移动到子图partition(i)。在第18行将cutoff的取值置0。在第19行对所有的无权超图的超边E进行遍历,在第20行对无权超图的k路划分进行遍历,在第21行判断超边Ei是否包含在子图partition(j)内,如果超边Ei没有包含在子图partition(j)内,则在第22行cutoff值加1。在第26行对全部节点进行遍历,在第27行生成随机数j,在第28行判断将节点Vi移动到子图partition(j)后,cutoff值是否减小。如果cutoff值减小,那么在第29行将节点Vi移动到子图partition(j)。在第32行返回无权超图的k路分割partition[1..k]。
3.聚类结果的评价S03
由于聚类是无指导的学习过程,事先对数据的结构是未知的,因此,最终的聚类结果都需要进行有效性验证和质量评价。如果处理的数据集结构未知,聚类结果的评价就只能依赖数据集自身的特征和量值。
定义聚类子图的紧密度closeness,对于聚类子图内的所有节点,至少被2条超边同时占有的节点数量为v1,仅被1条超边占有的节点数量为v2,将v1/v2定义为聚类子图的紧密度。紧密度越大,聚类结果的质量越好。
聚类子图质量判定算法:
输入:无权超图G的聚类结果partition
输出:聚类子图的紧密度
1.onevertices←0
2.othervertices←0
3.foreachvertexinpartitiondo
4.number←0
5.foreachedgeinpartitiondo
6.ifvertexinedgethen
7.number++
8.endif
9.endfor
10.ifnumber=1then
11.onevertices++
12.else
13.othervertices++
14.endif
15.endfor
16.closeness=onevertices/othervertices
17.returncloseness。
算法的第1行将onevertices置0,第2行将othervertices置0,第3行对聚类子图内的所有节点进行遍历,第4行将number的值置0,第5行对聚类子图内的所有超边进行遍历,第6行判断节点是否在超边内,如果节点在超边内,则在第7行将number的值加1,在第10行判断number的值是否为1,如果number的值等于1,则在第11行将onevertices加1,否则在第13行将othervertices加1。在第16行计算聚类子图的紧密度。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种基于无权超图分割的高维数据聚类方法,其特征在于,包括以下步骤:
S01:将高维数据集中的不同属性值映射为无权超图的节点,将每一条数据记录映射为无权超图的一条超边,超边内包含的每一个节点均为该条数据记录的属性值,得到原始无权超图;
S02:将原始无权超图分割为k个部分,将每个部分视作一个聚类子图;
S03:使用聚类子图紧密度评价聚类结果的质量,紧密度越大,聚类结果的质量越好,所述聚类子图紧密度为聚类子图内的所有节点至少被2条超边同时占有的节点数量为v1,仅被1条超边占有的节点数量为v2,将v1/v2的比值定义为聚类子图紧密度。
2.根据权利要求1所述的基于无权超图分割的高维数据聚类方法,其特征在于,无权超图的分割包含三个阶段:
S11:粗化阶段:将联系紧密的节点合并,构造一系列无权超图,逐渐减小无权超图的规模,使得相邻两层超图之间的缩小率达到设定的缩小率,所述缩小率为相邻2层超图节点数目的减小百分比;
S12:初始划分阶段:将规模最小的无权超图进行初始划分,得到最初始的k个子图,所述初始划分的方法为随机划分;
S13:优化阶段:将步骤S12得到的k个子图随机选择裂变节点依次进行裂变还原,构造一系列无权超图,直至规模达到原始无权超图的规模,得到优化后的k个子图。
3.根据权利要求2所述的基于无权超图分割的高维数据聚类方法,其特征在于,联系紧密的两个节点所在的超边数在超图中数目最多。
CN201510737424.0A 2015-11-04 2015-11-04 基于无权超图分割的高维数据聚类方法 Pending CN105279524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510737424.0A CN105279524A (zh) 2015-11-04 2015-11-04 基于无权超图分割的高维数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510737424.0A CN105279524A (zh) 2015-11-04 2015-11-04 基于无权超图分割的高维数据聚类方法

Publications (1)

Publication Number Publication Date
CN105279524A true CN105279524A (zh) 2016-01-27

Family

ID=55148505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510737424.0A Pending CN105279524A (zh) 2015-11-04 2015-11-04 基于无权超图分割的高维数据聚类方法

Country Status (1)

Country Link
CN (1) CN105279524A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN107229733A (zh) * 2017-06-12 2017-10-03 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
CN107273207A (zh) * 2017-05-25 2017-10-20 天津大学 一种基于超图划分算法的相关数据存储方法
CN111382320A (zh) * 2020-03-18 2020-07-07 军事科学院系统工程研究院系统总体研究所 一种面向知识图谱的大规模数据增量处理方法
CN112183001A (zh) * 2020-10-10 2021-01-05 上海国微思尔芯技术股份有限公司 一种基于超图的多级聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079072A (zh) * 2007-06-22 2007-11-28 中国科学院研究生院 一种文本聚类元学习方法及装置
CN102024036A (zh) * 2010-11-29 2011-04-20 清华大学 基于超图的三维对象检索方法和装置
CN102819836A (zh) * 2012-06-28 2012-12-12 北京邮电大学 一种图像分割方法及系统
CN104021255A (zh) * 2014-06-20 2014-09-03 上海交通大学 Cad模型的多分辨率层次表示及层次匹配加权比较方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079072A (zh) * 2007-06-22 2007-11-28 中国科学院研究生院 一种文本聚类元学习方法及装置
CN102024036A (zh) * 2010-11-29 2011-04-20 清华大学 基于超图的三维对象检索方法和装置
CN102819836A (zh) * 2012-06-28 2012-12-12 北京邮电大学 一种图像分割方法及系统
CN104021255A (zh) * 2014-06-20 2014-09-03 上海交通大学 Cad模型的多分辨率层次表示及层次匹配加权比较方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEORGE KARYPIS ET.AL.: ""Multilevel k-way Hypergraph Partitioning"", 《VLSI DESIGN》 *
万宇文: ""用户访问模式在线挖掘推荐系统的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张洋: ""一种基于热计量数据的异常点挖掘算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN106909942B (zh) * 2017-02-28 2022-09-13 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN107273207A (zh) * 2017-05-25 2017-10-20 天津大学 一种基于超图划分算法的相关数据存储方法
CN107229733A (zh) * 2017-06-12 2017-10-03 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
CN107229733B (zh) * 2017-06-12 2020-01-14 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
CN111382320A (zh) * 2020-03-18 2020-07-07 军事科学院系统工程研究院系统总体研究所 一种面向知识图谱的大规模数据增量处理方法
CN112183001A (zh) * 2020-10-10 2021-01-05 上海国微思尔芯技术股份有限公司 一种基于超图的多级聚类方法
CN112183001B (zh) * 2020-10-10 2023-07-04 上海思尔芯技术股份有限公司 一种基于超图的集成电路的多级聚类方法

Similar Documents

Publication Publication Date Title
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN105279524A (zh) 基于无权超图分割的高维数据聚类方法
JP5092165B2 (ja) データ構築方法とシステム
JP5917719B2 (ja) 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体
US20150302432A1 (en) Classifying, Clustering, and Grouping Demand Series
WO2014109127A1 (ja) インデックス生成装置及び方法並びに検索装置及び検索方法
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN103678618A (zh) 一种基于社交网络平台的Web服务推荐方法
JP6167767B2 (ja) インデックス生成装置及び検索装置
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
CN107133257A (zh) 一种基于中心连通子图的相似实体识别方法及系统
CN110442618B (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN103778206A (zh) 一种网络服务资源的提供方法
US10133811B2 (en) Non-transitory computer-readable recording medium, data arrangement method, and data arrangement apparatus
CN106934410A (zh) 数据的分类方法及系统
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
JP5128437B2 (ja) 時系列関係グラフに基づくエンティティ分類装置および方法
CN106599122B (zh) 一种基于垂直分解的并行频繁闭序列挖掘方法
CN106407281B (zh) 图像检索方法及装置
CN104765852A (zh) 大数据背景下基于模糊算法的数据挖掘方法
Saxena Educational data mining: performance evaluation of decision tree and clustering techniques using weka platform
CN113378842A (zh) 基于分割图像特征提取的推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160127

RJ01 Rejection of invention patent application after publication