CN109241201A - 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 - Google Patents
一种基于曲率的拉普拉斯中心性峰值数据聚类方法 Download PDFInfo
- Publication number
- CN109241201A CN109241201A CN201811008668.5A CN201811008668A CN109241201A CN 109241201 A CN109241201 A CN 109241201A CN 201811008668 A CN201811008668 A CN 201811008668A CN 109241201 A CN109241201 A CN 109241201A
- Authority
- CN
- China
- Prior art keywords
- network
- node
- data
- cluster
- laplce
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于曲率的拉普拉斯中心性峰值数据聚类方法,预处理待分类数据集,使待分类数据集转化成为一个加权全耦合网络,计算数据点的拉普拉斯中心性和最小距离值;基于曲率的方法确定最优聚类数目R,然后选取同时具有高拉普拉斯中心性和距离值的R个数据点作为聚类中心;最后分配其余节点并完成聚类。本发明特点是基于曲率的方法确定最优聚类数目,可以不需要预先确定聚类数目,自动地找到聚类的正确数量,实现真正无参数的聚类。
Description
技术领域
本发明涉及数据挖掘领域,特别是指一种基于曲率的拉普拉斯中心性峰值数据聚类方法。
背景技术
随着科技的发展以及人们获取数据手段的多样化,人类所拥有的数据从数量和结构上都有了巨大的提升,如何从这些数据中挖掘有用的信息已经越来越成为一种必要的技术。传统的数据分析是对存储在数据库中的数据进行存取和简单的操作,我们通过这种方法获得的数据所蕴含的信息量仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据背后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。这就引起了对强有力的数据分析方法的急切需求。对于快速增长的海量数据,如果没有强有力的分析方法,理解它们已经远远超出了人的能力。
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类算法是数据挖掘的一种重要方法,旨在找寻数据内在的分布结构,以便做进一步的数据分析,在模式识别,机器学习,信息检索,计算机视觉等领域被广泛应用。在聚类任务中,相似性和不相似性的度量以及我们如何定义正确的聚类是重要的研究内容,根据不同的学习方法,已经有很多种类型的聚类算法被提出。然而,目前绝大多数聚类算法都需要人为设定参数,比如聚类数目,为了得到较好的聚类效果往往需要反复的进行参数调试,对聚类效果有一定影响。
发明内容
为了克服现有聚类算法在聚类过程中需要人为设定参数等问题,同时考虑提升聚类效果的性能,本发明提出了一种准确性较高、无参数、可以自动确定聚类数目的一种基于曲率的拉普拉斯中心性峰值数据聚类方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于曲率的拉普拉斯中心性峰值数据聚类方法,包括如下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
步骤六:在网络中任意选取一个节点vi,计算节点vi的最小距离值其中wij为节点vi和vj之间连边的权值,当αi取最大值时,δi=maxj(wij);遍历网络,计算所有节点的最小距离值;
步骤七:对任意节点vi,计算βi=αi·δi,遍历网络,计算所有节点的β值;
步骤八:对数据集执行N次k-means算法并计算每次的簇内方差
其中Cj表示类簇j之内的数据点集合,表示类簇j之内的数据点均值,k是类簇数目,k=1,2,...,N,N<n;
步骤九:计算每次的簇内方差的增量Δk=J(k-1)-J(k),k=2,...,N;
步骤十:计算曲率r(k)=Δk/Δk+1,k=2,...,N-1,找到曲率取最大值maxk[r(k)]时k值,这个k值就是最优的聚类数目R;
步骤十一:选取具有最高β值的R个数据点作为聚类中心,将数据集中的剩余数据点分配到距离最近的聚类中心所对应的类簇中,完成聚类。
本发明的技术构思为:本发明先通过计算数据点的拉普拉斯中心性和最小距离值;基于曲率的方法确定最优聚类数目R,然后选取同时具有高拉普拉斯中心性和距离值的R个数据点作为聚类中心;最后分配其余数据点并完成聚类。
本发明的有益效果为:基于曲率的方法确定最优聚类数目,可以不需要预先确定聚类数目,自动地找到聚类的正确数量,实现真正无参数的聚类。
附图说明
图1为一种基于曲率的拉普拉斯中心性峰值数据聚类方法流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1,一种基于曲率的拉普拉斯中心性峰值数据聚类方法,包括以下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
步骤六:在网络中任意选取一个节点vi,计算节点vi的最小距离值其中wij为节点vi和vj之间连边的权值,当αi取最大值时,δi=maxj(wij);遍历网络,计算所有节点的最小距离值;
步骤七:对任意节点vi,计算βi=αi·δi,遍历网络,计算所有节点的β值;
步骤八:对数据集执行N次k-means算法并计算每次的簇内方差
其中Cj表示类簇j之内的数据点集合,表示类簇j之内的数据点均值,k是类簇数目,k=1,2,...,N,N<n;
步骤九:计算每次的簇内方差的增量Δk=J(k-1)-J(k),k=2,...,N;
步骤十:计算曲率r(k)=Δk/Δk+1,k=2,...,N-1,找到曲率取最大值maxk[r(k)]时k值,这个k值就是最优的聚类数目R;
步骤十一:选取具有最高β值的R个数据点作为聚类中心,将数据集中的剩余数据点分配到距离最近的聚类中心所对应的类簇中,完成聚类。
如上所述,本专利实施的具体实现步骤使本发明更加清晰,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (1)
1.一种基于曲率的拉普拉斯中心性峰值数据聚类方法,其特征在于,所述方法包括如下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
步骤六:在网络中任意选取一个节点vi,计算节点vi的最小距离值其中wij为节点vi和vj之间连边的权值,当αi取最大值时,δi=maxj(wij);遍历网络,计算所有节点的最小距离值;
步骤七:对任意节点vi,计算βi=αi·δi,遍历网络,计算所有节点的β值;
步骤八:对数据集执行N次k-means算法并计算每次的簇内方差
其中Cj表示类簇j之内的数据点集合,表示类簇j之内的数据点均值,k是类簇数目,k=1,2,...,N,N<n;
步骤九:计算每次的簇内方差的增量Δk=J(k-1)-J(k),k=2,...,N;
步骤十:计算曲率r(k)=Δk/Δk+1,k=2,...,N-1,找到曲率取最大值maxk[r(k)]时k值,这个k值就是最优的聚类数目R;
步骤十一:选取具有最高β值的R个数据点作为聚类中心,将数据集中的剩余数据点分配到距离最近的聚类中心所对应的类簇中,完成聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811008668.5A CN109241201A (zh) | 2018-08-30 | 2018-08-30 | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811008668.5A CN109241201A (zh) | 2018-08-30 | 2018-08-30 | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241201A true CN109241201A (zh) | 2019-01-18 |
Family
ID=65068121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811008668.5A Pending CN109241201A (zh) | 2018-08-30 | 2018-08-30 | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241201A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084419A (zh) * | 2020-07-29 | 2020-12-15 | 浙江工业大学 | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
CN112149525A (zh) * | 2020-09-07 | 2020-12-29 | 浙江工业大学 | 一种基于拉普拉斯峰值聚类的人脸识别方法 |
-
2018
- 2018-08-30 CN CN201811008668.5A patent/CN109241201A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084419A (zh) * | 2020-07-29 | 2020-12-15 | 浙江工业大学 | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
CN112084419B (zh) * | 2020-07-29 | 2023-07-28 | 浙江工业大学 | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
CN112149525A (zh) * | 2020-09-07 | 2020-12-29 | 浙江工业大学 | 一种基于拉普拉斯峰值聚类的人脸识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hore et al. | Single pass fuzzy c means | |
CN109766950B (zh) | 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法 | |
Isaksson et al. | SOStream: Self organizing density-based clustering over data stream | |
Li et al. | Optimizing generalized pagerank methods for seed-expansion community detection | |
CN110084326B (zh) | 一种基于模糊集的工业设备异常检测方法 | |
CN104539484A (zh) | 一种动态评估网络连接可信度的方法及系统 | |
CN104679818A (zh) | 一种视频关键帧提取方法及系统 | |
CN108647691A (zh) | 一种基于点击特征预测的图像分类方法 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN109241201A (zh) | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 | |
CN114609994A (zh) | 基于多粒度正则化重平衡增量学习的故障诊断方法及装置 | |
CN109903205B (zh) | 一种公开课智能推荐方法以及管理系统 | |
CN106295677A (zh) | 一种联合拉斯正则项和特征自学习的水流图像分簇方法 | |
Tamir et al. | The pyramid fuzzy C-means algorithm | |
CN104657473B (zh) | 一种保证质量单调性的大规模数据挖掘方法 | |
CN109255378A (zh) | 一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 | |
CN115618083A (zh) | 一种面向多源异构数据归一化的方法及装置 | |
Hore et al. | Creating streaming iterative soft clustering algorithms | |
CN108874974A (zh) | 基于频繁词集的并行化话题跟踪方法 | |
CN113378946A (zh) | 一种考虑特征标签依赖度的鲁棒多标签特征选择方法 | |
Yarramalle et al. | Unsupervised image segmentation using finite doubly truncated Gaussian mixture model and hierarchical clustering | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 | |
Liu et al. | Study on Chinese text clustering algorithm based on K-mean and evaluation method on effect of clustering for software-intensive system | |
CN114510257A (zh) | 一种基于层次聚类组合的软件架构恢复方法 | |
Pan et al. | Application of Parallel Clustering Algorithm Based on R in Power Customer Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |
|
RJ01 | Rejection of invention patent application after publication |