CN109255378A - 一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 - Google Patents
一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 Download PDFInfo
- Publication number
- CN109255378A CN109255378A CN201811003268.5A CN201811003268A CN109255378A CN 109255378 A CN109255378 A CN 109255378A CN 201811003268 A CN201811003268 A CN 201811003268A CN 109255378 A CN109255378 A CN 109255378A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- node
- subset
- laplce
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于势能熵的拉普拉斯中心性峰值数据聚类方法,预处理待分类数据集,使待分类数据集转化成为一个加权全耦合网络,计算网络中所有节点的拉普拉斯中心性和最小距离值,计算网络中任意节点的势能,计算势能熵并从数据集中自动抽取参数,应用DBSCAN框架对数据集分类并完成聚类。本发明特点是从原始数据集中提取所需要的参数,然后自动地找到聚类的正确数量,实现真正无参数的聚类。这将达到准确性较高,不用人为设定参数,自动完成聚类过程的效果。
Description
技术领域
本发明涉及数据挖掘领域,特别是指一种基于势能熵的拉普拉斯中心性峰值数据聚类方法。
背景技术
随着科技的发展以及人们获取数据手段的多样化,人类所拥有的数据从数量和结构上都有了巨大的提升,如何从这些数据中挖掘有用的信息已经越来越成为一种必要的技术。传统的数据分析是对存储在数据库中的数据进行存取和简单的操作,我们通过这种方法获得的数据所蕴含的信息量仅仅是整个数据库所包含的信息量的很少一部分,隐藏在这些数据背后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息在决策生成的过程中具有重要的参考价值。这就引起了对强有力的数据分析方法的急切需求。对于快速增长的海量数据,如果没有强有力的分析方法,理解它们已经远远超出了人的能力。
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类算法是数据挖掘的一种重要方法,旨在找寻数据内在的分布结构,以便做进一步的数据分析,在模式识别,机器学习,信息检索,计算机视觉等领域被广泛应用。在聚类任务中,相似性和不相似性的度量以及我们如何定义正确的聚类是重要的研究内容,根据不同的学习方法,已经有很多种类型的聚类算法被提出。然而,目前绝大多数聚类算法都需要人为设定参数,为了得到较好的聚类效果往往需要反复的进行参数调试,对聚类效果有一定影响。
发明内容
为了克服现有聚类算法在聚类过程中需要人为设定参数和不能自动完成聚类等问题,同时考虑提升聚类效果的性能,本发明提出了一种准确性较高、无参数、可以自动完成聚类过程的一种基于势能熵的拉普拉斯中心性峰值数据聚类方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于势能熵的拉普拉斯中心性峰值数据聚类方法,包括以下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
步骤六:在网络中任意选取一个节点vi,计算节点vi的最小距离值其中wij为节点vi和vj之间连边的权值,当αi取最大值时,
δi=maxj(wij);遍历网络,计算所有节点的最小距离值;
步骤七:在网络中任意选取一个节点vi,计算节点vi的势能
其中wij表示节点vi和vj之间的距离,θ是一个正可调参数,遍历网络,计算所有节点的势能;
步骤八:计算势能熵其中θ取使H最小时的值,邻域半径eps=θ;
步骤九:对任意节点vi,计算βi=αi·δi,遍历网络,计算所有节点的β值;
步骤十:在当前数据集中选取两个具有最大β值的数据点x1和x2作为子集中心,用k=2,子集中心固定为x1和x2的k均值聚类算法将剩余数据点分配到相应的两个子集中,则当前数据集被划分为两个子集,分别称之为子集1和子集2;
步骤十一:计算当前数据集中每个数据点的密度,一个数据点的密度为以该数据点为中心、以eps为半径的邻域之内的所有数据点的数量,分别计算两个子集的边界密度bρ1和bρ2;在子集1中,最小邻域数据点数MinPts=bp1;在子集2中,MinPts=bp2;
步骤十二:在子集1和子集2中分别找出密度值小于bρ1和bρ2的数据点,这些数据点被认为是噪音点,分别从子集1和2中排除这些点;
步骤十三:分别取当前数据集为子集1和子集2,重复进行步骤十至十二,如果不满足在参数eps,MinPts的情况下x2由x1密度可达的条件,重复步骤十三;如果满足此条件,输出当前数据集为一个类簇,方法终止。
本发明的技术构思为:本发明提出用拉普拉斯中心性表征数据点的局部重要性,在此基础上使用DBSCAN框架找到聚类的数量并完成聚类。
本发明的有益效果为:我们算法的特点是从原始数据集中提取所需要的参数,然后自动地找到聚类的正确数量,实现真正无参数的聚类。这将达到准确性较高,不用人为设定参数,自动完成聚类过程的效果。
附图说明
图1为一种基于势能熵的拉普拉斯中心性峰值数据聚类方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1,一种基于势能熵的拉普拉斯中心性峰值数据聚类方法,包括以下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
步骤六:在网络中任意选取一个节点vi,计算节点vi的最小距离值其中wij为节点vi和vj之间连边的权值,当αi取最大值时,δi=maxj(wij);遍历网络,计算所有节点的最小距离值;
步骤七:在网络中任意选取一个节点vi,计算节点vi的势能
其中wij表示节点vi和vj之间的距离,θ是一个正可调参数,遍历网络,计算所有节点的势能;
步骤八:计算势能熵其中θ取使H最小时的值,邻域半径eps=θ;
步骤九:对任意节点vi,计算βi=αi·δi,遍历网络,计算所有节点的β值;
步骤十:在当前数据集中选取两个具有最大β值的数据点x1和x2作为子集中心,用k=2,子集中心固定为x1和x2的k均值聚类算法将剩余数据点分配到相应的两个子集中,则当前数据集被划分为两个子集,分别称之为子集1和子集2;
步骤十一:计算当前数据集中每个数据点的密度,一个数据点的密度为以该数据点为中心、以eps为半径的邻域之内的所有数据点的数量,为每个子集定义一个边界区域,边界区域表示分配到该子集但与其他子集的点的距离小于eps的点的集合,然后找到每个子集的边界区域中密度值最大的点,并以该点的密度作为该子集的边界密度;
步骤十二:在子集1和子集2中分别找出密度值小于bρ1和bρ2的数据点,这些数据点被认为是噪音点,分别从子集1和2中排除这些点;
步骤十三:分别取当前数据集为子集1和子集2,重复进行步骤十至十二,如果不满足在参数eps,MinPts的情况下x2由x1密度可达的条件,重复步骤十三;如果满足此条件,输出当前数据集为一个类簇,方法终止。
本实施例使用DBSCAN框架来实现聚类,DBSCAN可以把数据集划分为一系列类簇,每个类簇为密度可达的数据点的最大集合,DBSCAN算法在使用时需要提前设定两个参数:邻域半径阈值eps和最小邻域数据点数MinPts;DBSCAN相关的重要定义如下:
核心对象:对于数据集中的一个数据点xi,若它距离其他数据点不大于eps范围内的数据点的个数大于MinPts,则为xi一个核心对象;
密度直达:若数据点xj位于xi的eps区域,并且xi为核心对象,则称xj由xi密度直达;
密度可达:对于核心对象xi和xj,如果存在样本序列p1,p2,...,pn满足p1=xi,pn=xj且pt+1由pt密度直达,则称xj由xi密度可达。
如上所述,本专利实施的具体实现步骤使本发明更加清晰,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (1)
1.一种基于势能熵的拉普拉斯中心性峰值数据聚类方法,其特征在于,所述方法包括如下步骤:
步骤一:预处理具有n个数据点的待分类数据集,计算任意两个数据点之间的距离,使待分类数据集转化成为一个加权全耦合网络G=(N,E,W),E为边集合,V为节点集合,W为节点之间连边的权值的集合,其中原数据集中的一个数据点对应着网络中的一个节点,网络中任意两个节点之间边的权值就是相应两个数据点之间的距离;
步骤二:计算每个节点的所有连边的权重之和,得到一个对角矩阵
其中
步骤三:计算加权网络G的拉普拉斯矩阵L(G)=Y(G)-W(G);
步骤四:计算网络G的拉普拉斯能量其中λ1,λ2…,λn表示L(G)的n个特征值;
步骤五:在网络中任意选取一个节点,计算节点vi的拉普拉斯中心性
其中Gi表示在网络删除节点vi后得到的一个新网络,EL(Gi)为网络Gi的拉普拉斯能量;遍历网络,计算所有节点的拉普拉斯中心性;
步骤六:在网络中任意选取一个节点vi,计算节点vi的最小距离值其中wij为节点vi和vj之间连边的权值,当αi取最大值时,δi=maxj(wij);遍历网络,计算所有节点的最小距离值;
步骤七:在网络中任意选取一个节点vi,计算节点vi的势能
其中wij表示节点vi和vj之间的距离,θ是一个正可调参数,遍历网络,计算所有节点的势能;
步骤八:计算势能熵其中θ取使H最小时的值,邻域半径eps=θ;
步骤九:对任意节点vi,计算βi=αi·δi,遍历网络,计算所有节点的β值;
步骤十:在当前数据集中选取两个具有最大β值的数据点x1和x2作为子集中心,用k=2,子集中心固定为x1和x2的k均值聚类算法将剩余数据点分配到相应的两个子集中,则当前数据集被划分为两个子集,分别称之为子集1和子集2;
步骤十一:计算当前数据集中每个数据点的密度,一个数据点的密度为以该数据点为中心、以eps为半径的邻域之内的所有数据点的数量,分别计算两个子集的边界密度bρ1和bρ2;在子集1中,最小邻域数据点数MinPts=bp1;在子集2中,MinPts=bp2;
步骤十二:在子集1和子集2中分别找出密度值小于bρ1和bρ2的数据点,这些数据点被认为是噪音点,分别从子集1和2中排除这些点;
步骤十三:分别取当前数据集为子集1和子集2,重复进行步骤十至十二,如果不满足在参数eps,MinPts的情况下x2由x1密度可达的条件,重复步骤十三;如果满足此条件,输出当前数据集为一个类簇,方法终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811003268.5A CN109255378A (zh) | 2018-08-30 | 2018-08-30 | 一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811003268.5A CN109255378A (zh) | 2018-08-30 | 2018-08-30 | 一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109255378A true CN109255378A (zh) | 2019-01-22 |
Family
ID=65049738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811003268.5A Pending CN109255378A (zh) | 2018-08-30 | 2018-08-30 | 一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255378A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149525A (zh) * | 2020-09-07 | 2020-12-29 | 浙江工业大学 | 一种基于拉普拉斯峰值聚类的人脸识别方法 |
-
2018
- 2018-08-30 CN CN201811003268.5A patent/CN109255378A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149525A (zh) * | 2020-09-07 | 2020-12-29 | 浙江工业大学 | 一种基于拉普拉斯峰值聚类的人脸识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107682319B (zh) | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 | |
Isaksson et al. | SOStream: Self organizing density-based clustering over data stream | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN104112143A (zh) | 基于加权超球支持向量机算法的图像分类方法 | |
Kumar et al. | Canopy clustering: a review on pre-clustering approach to K-Means clustering | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
Jenni et al. | Pre-processing image database for efficient Content Based Image Retrieval | |
Wang et al. | Abnormal crowd behavior detection using size-adapted spatio-temporal features | |
CN110147851B (zh) | 图像筛选方法、装置、计算机设备及存储介质 | |
CN113821657A (zh) | 基于人工智能的图像处理模型训练方法及图像处理方法 | |
CN108664653A (zh) | 一种基于K-means的医疗消费客户自动分类方法 | |
TW202217597A (zh) | 圖像的增量聚類方法、電子設備、電腦儲存介質 | |
Vora et al. | Iterative spectral clustering for unsupervised object localization | |
CN109903205B (zh) | 一种公开课智能推荐方法以及管理系统 | |
CN111352926B (zh) | 数据处理的方法、装置、设备及可读存储介质 | |
KR102039244B1 (ko) | 반딧불 알고리즘을 이용한 데이터 클러스터링 방법 및 시스템 | |
CN112487991B (zh) | 一种基于特征自学习的高精度负荷辨识方法及系统 | |
TWI452477B (zh) | 以模糊相似度與k最近鄰居法為基礎之多標籤文件分類方法 | |
CN109255378A (zh) | 一种基于势能熵的拉普拉斯中心性峰值数据聚类方法 | |
CN102426598A (zh) | 一种用于网络内容安全管理的中文文本聚类的方法 | |
CN109241201A (zh) | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 | |
JP5929532B2 (ja) | イベント検出装置、イベント検出方法およびイベント検出プログラム | |
CN105447142B (zh) | 一种双模式农业科技成果分类方法及系统 | |
CN112214684A (zh) | 一种种子扩展的重叠社区发现方法及装置 | |
Amir et al. | Quantitative analysis of grouping processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |