CN107016407A - 一种反馈式密度峰值聚类方法及系统 - Google Patents
一种反馈式密度峰值聚类方法及系统 Download PDFInfo
- Publication number
- CN107016407A CN107016407A CN201710131145.9A CN201710131145A CN107016407A CN 107016407 A CN107016407 A CN 107016407A CN 201710131145 A CN201710131145 A CN 201710131145A CN 107016407 A CN107016407 A CN 107016407A
- Authority
- CN
- China
- Prior art keywords
- class
- density
- cluster
- density peaks
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出一种反馈式密度峰值聚类方法及系统,所要解决的问题是原密度峰值算法在一个类中出现多密度峰值时会被分成多个类。同时提高原算法在高维数据集上准确率。本发明包括以下步骤:1.用非负矩阵分解对数据集进行特征提取;2.根据原密度峰值聚类算法绘制决策图,选择多个聚类中心;3.用“最近邻”算法分配剩下的点,并去除噪声点;4.用SVM反馈每两个类之间的聚类结果;5.根据反馈的结果将可以合并的类进行合并;该方法不仅能够有效提高密度峰值算法的鲁棒性,很好地发现任意形状的簇,并能有效处理高维数据,具有很好的聚类效果。
Description
技术领域
本发明一种反馈式密度峰值聚类方法及系统,可以在任意形状的数据集上自动聚类,涉及模式识别和机器学习领域。特别涉及利用SVM模型反馈两个类之间的聚类结果,根据SVM训练得到的支持向量设计出一种新的反馈策略合并类,得到准确的聚类结果。
背景技术
聚类分析是非监督学习,是数据挖掘的一个重要研究方向,大体可以分为基于划分、基于层次、基于模型、基于密度和基于网格等5类聚类算法。基于密度的聚类算法将簇看作数据空间中由低密度区域分隔开的高密度对象区域,同时聚类的形状没有基准,可以用来过滤噪声孤立点数据,发现任意形状的簇。
基于密度的密度峰值聚类算法在2014年被提出,可以用于不同数据的聚类分析。密度峰值聚类算法是根据聚类中心的两大属性:聚类中心本身的密度较大,被密度不超过它的邻居包围以及聚类中心离密度大于它的点距离较远来绘制决策图,快速寻找两个属性都大的值称为密度峰值作为聚类中心。密度峰值聚类算法不需要预先设定类簇数,同时算法复杂度不高,并能应用于任意形状的数据。但当聚类时一个类中出现多个密度峰值时,异常样本点将会作为伪聚类中心被选中,一个类会被分成多个类,影响聚类结果,同时密度峰值聚类算法在高维数据集上的准确率不高。
发明内容
为了解决上述问题,本发明提出一种反馈式密度峰值聚类方法及系统。首先,用非负矩阵分解对数据集进行特征提取,然后,以基于密度峰值的聚类算法作为基础,进行聚类,最后提出一种反馈策略,对类进行合并得出正确的聚类结果。该方法不仅能够有效提高密度峰值算法的鲁棒性,在一个类中出现多个密度峰值的时候不会被多划分,发现任意形状的簇,同时能有效地处理高维数据集,具有很好地聚类效果。
本发明是通过以下方案实现的:
本发明涉及一种反馈式密度峰值聚类方法,以密度峰值聚类算法作为基础,在聚类之前引入非负矩阵分解,同时在聚类时提出一种反馈策略进行类合并,以提高聚类的准确率。
本发明具体步骤如下:
步骤1:用非负矩阵分解NMF对数据集进行特征提取。
步骤2:构成距离矩阵dij。
步骤3:利用计算每个数据点的局部密度ρi。
步骤4:利用计算每个数据点的距离属性δi。
步骤5:根据上述求出的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的数据点作为聚类中心。
步骤6:将剩余点归于密度等于或者高于当前点的最近点一类。
步骤7:计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点。
步骤8:用SVM对每两个类进行训练,反馈一个结果值。
步骤9:根据反馈值对类进行合并,得出聚类结果。
本发明具有如下优点及效果:
(1)本方法能够当一个类中出现多密度峰值时准确聚类,不会将这个类划分成多个类。
(2)通过非负矩阵分解对数据集进行预先特征提取,解决密度峰值聚类算法在高维数据集上聚类不准确的弊端,有效提高聚类的准确率。
(3)采用自定义的反馈策略进行类合并,成功降低了由于聚类中心由人为选择的错误率,提出的方法可以自动进行准确聚类。
附图说明
为了对本发明进一步理解,更清楚地说明本发明实施例,下面将对实施例描述中所需要使用的附图作简单介绍。
图1为本申请实施案例提供的一种反馈式密度峰值聚类的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施案例仅仅是本申请一部分实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例1
如图1所示,本实施案例包括以下步骤:
输入:数据集X={x1,x2,x3,……xn},截断距离dc,合并指标d。
输出:聚类结果标签。
步骤1,用非负矩阵分解对数据集进行特征提取,其计算公式如下:
步骤2,基于密度峰值聚类算法进行初始聚类。
步骤2.1:计算两两数据点之间的距离,构成距离矩阵dij,例如两个点的坐标分别为a(x11,x12,…,x1n)和b(x21,x22,…,x2n),则这两个数据点之间的距离:
步骤2.2:计算数据点的局部密度:
步骤2.3:计算数据点与具有更高密度的最近单元格之间的距离属性δi,其计算公式如下:
步骤2.4:根据局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的数据点作为聚类中心。
步骤2.5:采用最近邻算法将当前点归于密度等于或者高于当前点的最近点一类。
步骤2.6:去除噪声点,计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点。
步骤3,根据反馈策略进行类合并。
步骤3.1:利用SVM模型对类进行训练,根据训练得到的支持向量反馈每两个类的聚类结果值。假设聚类结果集C={c1,c2,c3,…ck},x={x1,x2,x3,…xn}和y={y1,y2,y3,…ym}分别为用SVM训练后类h和类p的支持向量,代表数据点到所有类h中其他数据点的最短距离,代表数据点到类p中数据点的最短距离。那么类h和类p之间的反馈值为:
步骤3.2:如果上面得到的F(Ch,Cp)>d,我们将这两个类进行合并,直到所有的类都被访问结束合并。
步骤4,返回最终聚类结果标签。
Claims (7)
1.一种反馈式密度峰值聚类方法及系统,其特征在于,利用非负矩阵分解对数据集进行降维,然后基于密度峰值聚类算法对数据进行初始聚类,再根据反馈策略合并类,得出聚类结果,该方法具体包括:
步骤1:用非负矩阵分解对数据集进行特征提取;
步骤2:构造距离矩阵dij;
步骤3:利用计算每个数据点的局部密度ρi;
步骤4:利用计算每个数据点的距离属性δi;
步骤5:根据上述求出的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的数据点作为聚类中心;
步骤6:将剩余点归于密度等于或者高于当前点的最近点一类;
步骤7:计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点;
步骤8:用SVM对每两个类进行训练,反馈一个结果值;
步骤9:根据反馈值对类进行合并,得出聚类结果。
2.根据权利要求1所述的一种反馈式密度峰值聚类方法及系统,其特征在于:利用非负矩阵分解对数据集进行降维,并利用反馈策略对初始聚类后的类进行合并,得出准确的聚类结果,这两种方法的结合可以提高原密度峰值聚类算法在一类中同时出现多密度峰值时多聚类的鲁棒性,并且可以提高在高维数据集上的准确率。
3.根据权利要求1所述的一种反馈式密度峰值聚类方法及系统,其特征在于:所述的数据集X={X1,X2,X3,……Xn}是一个n*d的矩阵,反馈系数一般取0.3~0.5,特殊情况根据实验情况调整,截断距离dc一般取2%,同样,特殊情况根据实验调整。
4.根据权利要求1所述的方法,其特征在于:所述的初始化聚类是指利用密度峰值聚类算法进行聚类,但由于原密度峰值聚类算法在一个类中出现多密度峰值时会将一个类多聚类,权利1所述的一种反馈式密度峰值聚类方法及系统采用反馈策略进行类合并,所以在选择聚类中心的时候尽可能多的选择聚类中心不会影响最后的聚类结果。
5.根据权利要求1所述的方法,其特征是,所述的步骤8使用SVM对每两个类进行训练,反馈一个结果值是指:假设得到的聚类结果集C={c1,c2,c3,…ck},x={x1,x2,x3,…xn}和y={y1,y2,y3,…ym}分别为用SVM 训练后类h和类p的支持向量,代表数据点到所有类h中其他数据点的最短距离,代表数据点到类p中数据点的最短距离。那么类h和类p之间的反馈值为:
6.根据权利要求1所述的方法,其特征是,所述的步骤9根据反馈值对类进行合并是指:如果上面得到的F(Ch,Cp)>d,我们将这两个类进行合并,直到所有的类都被访问结束合并。
7.一种实现上述任一权利要求所述方法的系统,其特征在于:密度峰值聚类模块和利用反馈策略合并类模块,其中密度峰值聚类进行初步聚类,首先用非负矩阵对数据集进行特征提取,然后基于密度峰值聚类算法绘制决策图选择聚类中心,分配所有剩余的网格单元,去除噪声单元,输出聚类结果;反馈策略合并类模块利用SVM训练前面得出的聚类结果,反馈结果值,并且根据结果值进行合并类,得出准确的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710131145.9A CN107016407A (zh) | 2017-03-07 | 2017-03-07 | 一种反馈式密度峰值聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710131145.9A CN107016407A (zh) | 2017-03-07 | 2017-03-07 | 一种反馈式密度峰值聚类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107016407A true CN107016407A (zh) | 2017-08-04 |
Family
ID=59439855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710131145.9A Pending CN107016407A (zh) | 2017-03-07 | 2017-03-07 | 一种反馈式密度峰值聚类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107016407A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729802A (zh) * | 2017-08-18 | 2018-02-23 | 浙江大学宁波理工学院 | 基于核化密度峰值的人脸图片聚类方法 |
CN108763496A (zh) * | 2018-05-30 | 2018-11-06 | 南京讯高科技有限公司 | 一种基于网格和密度的动静态数据融合客户分类算法 |
CN108846346A (zh) * | 2018-06-06 | 2018-11-20 | 浙江大学 | 基于密度峰值聚类算法的神经元峰电位在线分类方法 |
CN109840558A (zh) * | 2019-01-25 | 2019-06-04 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN110276374A (zh) * | 2019-05-10 | 2019-09-24 | 浙江工业大学 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
CN110954782A (zh) * | 2019-12-17 | 2020-04-03 | 国网山东省电力公司济宁供电公司 | 基于密度峰值聚类的配网瞬时性故障识别方法及系统 |
CN112929879A (zh) * | 2021-01-15 | 2021-06-08 | 电子科技大学 | 基于nbdp聚类的无线传感器网络恶意节点检测方法 |
CN114611575A (zh) * | 2022-01-29 | 2022-06-10 | 国网河北省电力有限公司邯郸供电分公司 | 一种故障案例分类方法以及系统 |
CN114636890A (zh) * | 2022-01-29 | 2022-06-17 | 国网河北省电力有限公司邯郸供电分公司 | 案例推理的故障定位方法以及系统、存储介质、电子设备 |
-
2017
- 2017-03-07 CN CN201710131145.9A patent/CN107016407A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729802A (zh) * | 2017-08-18 | 2018-02-23 | 浙江大学宁波理工学院 | 基于核化密度峰值的人脸图片聚类方法 |
CN108763496A (zh) * | 2018-05-30 | 2018-11-06 | 南京讯高科技有限公司 | 一种基于网格和密度的动静态数据融合客户分类算法 |
CN108846346A (zh) * | 2018-06-06 | 2018-11-20 | 浙江大学 | 基于密度峰值聚类算法的神经元峰电位在线分类方法 |
CN109840558B (zh) * | 2019-01-25 | 2022-06-17 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN109840558A (zh) * | 2019-01-25 | 2019-06-04 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN110276374A (zh) * | 2019-05-10 | 2019-09-24 | 浙江工业大学 | 自动确定聚类中心的用户行为日志密度峰值聚类方法 |
CN110954782A (zh) * | 2019-12-17 | 2020-04-03 | 国网山东省电力公司济宁供电公司 | 基于密度峰值聚类的配网瞬时性故障识别方法及系统 |
CN110954782B (zh) * | 2019-12-17 | 2021-10-26 | 国网山东省电力公司济宁供电公司 | 基于密度峰值聚类的配网瞬时性故障识别方法及系统 |
CN112929879A (zh) * | 2021-01-15 | 2021-06-08 | 电子科技大学 | 基于nbdp聚类的无线传感器网络恶意节点检测方法 |
CN112929879B (zh) * | 2021-01-15 | 2022-05-03 | 电子科技大学 | 基于nbdp聚类的无线传感器网络恶意节点检测方法 |
CN114611575A (zh) * | 2022-01-29 | 2022-06-10 | 国网河北省电力有限公司邯郸供电分公司 | 一种故障案例分类方法以及系统 |
CN114636890A (zh) * | 2022-01-29 | 2022-06-17 | 国网河北省电力有限公司邯郸供电分公司 | 案例推理的故障定位方法以及系统、存储介质、电子设备 |
CN114611575B (zh) * | 2022-01-29 | 2023-09-15 | 国网河北省电力有限公司邯郸供电分公司 | 一种故障案例分类方法以及系统 |
CN114636890B (zh) * | 2022-01-29 | 2023-10-10 | 国网河北省电力有限公司邯郸供电分公司 | 案例推理的故障定位方法以及系统、存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016407A (zh) | 一种反馈式密度峰值聚类方法及系统 | |
CN107563400A (zh) | 一种基于网格的密度峰值聚类方法及系统 | |
JP5167442B2 (ja) | 画像識別装置およびプログラム | |
CN104142918B (zh) | 基于tf‑idf特征的短文本聚类以及热点主题提取方法 | |
El Agha et al. | Efficient and fast initialization algorithm for k-means clustering | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN105354593B (zh) | 一种基于nmf的三维模型分类方法 | |
CN106845536B (zh) | 一种基于图像缩放的并行聚类方法 | |
CN102930539A (zh) | 基于动态图匹配的目标跟踪方法 | |
CN104731916A (zh) | 数据挖掘中基于密度优化初始中心的k均值聚类方法 | |
CN104392231A (zh) | 基于分块与稀疏主特征提取的快速协同显著性检测方法 | |
CN101968852A (zh) | 基于熵排序的半监督谱聚类确定聚类数的方法 | |
CN104992454A (zh) | 一种区域化自动变类的图像分割方法 | |
CN106845519A (zh) | 一种分布式实现的稀疏子空间聚类方法 | |
CN103226595A (zh) | 基于贝叶斯混合公共因子分析器的高维数据的聚类方法 | |
CN113449802A (zh) | 基于多粒度互信息最大化的图分类方法及装置 | |
CN103493067B (zh) | 识别视频的字符的方法和装置 | |
CN106022359A (zh) | 基于有序信息熵的模糊熵空间聚类分析方法 | |
CN106446947A (zh) | 基于随机子空间的高维数据软硬聚类集成方法 | |
CN105978733A (zh) | 一种基于韦布尔分布的网络流量建模方法和系统 | |
CN114978931B (zh) | 基于流形学习的网络流量预测方法、装置及存储介质 | |
Deng et al. | RISSAD: Rule-based Interactive Semi-Supervised Anomaly Detection. | |
CN107563260A (zh) | 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统 | |
CN108717444A (zh) | 一种基于分布式结构的大数据聚类方法和装置 | |
Yarramalle et al. | Unsupervised image segmentation using finite doubly truncated Gaussian mixture model and hierarchical clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170804 |
|
WD01 | Invention patent application deemed withdrawn after publication |