CN109241201A

CN109241201A - 一种基于曲率的拉普拉斯中心性峰值数据聚类方法

Info

Publication number: CN109241201A
Application number: CN201811008668.5A
Authority: CN
Inventors: 杨旭华; 金林波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-18

Abstract

一种基于曲率的拉普拉斯中心性峰值数据聚类方法，预处理待分类数据集，使待分类数据集转化成为一个加权全耦合网络，计算数据点的拉普拉斯中心性和最小距离值；基于曲率的方法确定最优聚类数目R，然后选取同时具有高拉普拉斯中心性和距离值的R个数据点作为聚类中心；最后分配其余节点并完成聚类。本发明特点是基于曲率的方法确定最优聚类数目，可以不需要预先确定聚类数目，自动地找到聚类的正确数量，实现真正无参数的聚类。

Description

一种基于曲率的拉普拉斯中心性峰值数据聚类方法

技术领域

本发明涉及数据挖掘领域，特别是指一种基于曲率的拉普拉斯中心性峰值数据聚类方法。

背景技术

随着科技的发展以及人们获取数据手段的多样化,人类所拥有的数据从数量和结构上都有了巨大的提升,如何从这些数据中挖掘有用的信息已经越来越成为一种必要的技术。传统的数据分析是对存储在数据库中的数据进行存取和简单的操作，我们通过这种方法获得的数据所蕴含的信息量仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据背后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。这就引起了对强有力的数据分析方法的急切需求。对于快速增长的海量数据，如果没有强有力的分析方法,理解它们已经远远超出了人的能力。

数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类算法是数据挖掘的一种重要方法，旨在找寻数据内在的分布结构，以便做进一步的数据分析，在模式识别，机器学习，信息检索，计算机视觉等领域被广泛应用。在聚类任务中，相似性和不相似性的度量以及我们如何定义正确的聚类是重要的研究内容，根据不同的学习方法，已经有很多种类型的聚类算法被提出。然而，目前绝大多数聚类算法都需要人为设定参数，比如聚类数目，为了得到较好的聚类效果往往需要反复的进行参数调试，对聚类效果有一定影响。

发明内容

为了克服现有聚类算法在聚类过程中需要人为设定参数等问题，同时考虑提升聚类效果的性能，本发明提出了一种准确性较高、无参数、可以自动确定聚类数目的一种基于曲率的拉普拉斯中心性峰值数据聚类方法。

本发明解决其技术问题所采用的技术方案如下：

一种基于曲率的拉普拉斯中心性峰值数据聚类方法，包括如下步骤：

步骤一：预处理具有n个数据点的待分类数据集，计算任意两个数据点之间的距离，使待分类数据集转化成为一个加权全耦合网络G＝(N,E,W)，E为边集合，V为节点集合,W为节点之间连边的权值的集合，其中原数据集中的一个数据点对应着网络中的一个节点，网络中任意两个节点之间边的权值就是相应两个数据点之间的距离；

步骤二：计算每个节点的所有连边的权重之和，得到一个对角矩阵

其中

步骤三：计算加权网络G的拉普拉斯矩阵L(G)＝Y(G)-W(G)；

步骤四：计算网络G的拉普拉斯能量其中λ₁,λ₂…,λ_n表示L(G)的n个特征值；

步骤五：在网络中任意选取一个节点，计算节点v_i的拉普拉斯中心性

其中G_i表示在网络删除节点v_i后得到的一个新网络，E_L(G_i)为网络G_i的拉普拉斯能量；遍历网络，计算所有节点的拉普拉斯中心性；

步骤六：在网络中任意选取一个节点v_i，计算节点v_i的最小距离值其中w_ij为节点v_i和v_j之间连边的权值，当α_i取最大值时，δ_i＝max_j(w_ij)；遍历网络，计算所有节点的最小距离值；

步骤七：对任意节点v_i，计算β_i＝α_i·δ_i，遍历网络，计算所有节点的β值；

步骤八：对数据集执行N次k-means算法并计算每次的簇内方差

其中C_j表示类簇j之内的数据点集合，表示类簇j之内的数据点均值，k是类簇数目，k＝1,2,...,N，N＜n；

步骤九：计算每次的簇内方差的增量Δ_k＝J(k-1)-J(k)，k＝2,...,N；

步骤十：计算曲率r(k)＝Δ_k/Δ_k+1，k＝2,...,N-1，找到曲率取最大值max_k[r(k)]时k值，这个k值就是最优的聚类数目R；

步骤十一：选取具有最高β值的R个数据点作为聚类中心，将数据集中的剩余数据点分配到距离最近的聚类中心所对应的类簇中，完成聚类。

本发明的技术构思为：本发明先通过计算数据点的拉普拉斯中心性和最小距离值；基于曲率的方法确定最优聚类数目R，然后选取同时具有高拉普拉斯中心性和距离值的R个数据点作为聚类中心；最后分配其余数据点并完成聚类。

本发明的有益效果为：基于曲率的方法确定最优聚类数目，可以不需要预先确定聚类数目，自动地找到聚类的正确数量，实现真正无参数的聚类。

附图说明

图1为一种基于曲率的拉普拉斯中心性峰值数据聚类方法流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种基于曲率的拉普拉斯中心性峰值数据聚类方法，包括以下步骤：

其中

步骤三：计算加权网络G的拉普拉斯矩阵L(G)＝Y(G)-W(G)；

步骤八：对数据集执行N次k-means算法并计算每次的簇内方差

如上所述，本专利实施的具体实现步骤使本发明更加清晰，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于曲率的拉普拉斯中心性峰值数据聚类方法，其特征在于，所述方法包括如下步骤：

其中

步骤三：计算加权网络G的拉普拉斯矩阵L(G)＝Y(G)-W(G)；

步骤八：对数据集执行N次k-means算法并计算每次的簇内方差