CN107038454A - 一种使用模糊近邻的鲁棒性密度峰值算法及系统 - Google Patents

一种使用模糊近邻的鲁棒性密度峰值算法及系统 Download PDF

Info

Publication number
CN107038454A
CN107038454A CN201710137544.6A CN201710137544A CN107038454A CN 107038454 A CN107038454 A CN 107038454A CN 201710137544 A CN201710137544 A CN 201710137544A CN 107038454 A CN107038454 A CN 107038454A
Authority
CN
China
Prior art keywords
point
fuzzy
neighbour
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710137544.6A
Other languages
English (en)
Inventor
丁世飞
杜明晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201710137544.6A priority Critical patent/CN107038454A/zh
Publication of CN107038454A publication Critical patent/CN107038454A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种使用模糊近邻的鲁棒性密度峰值算法及系统,首先,使用模糊近邻函数求解出每个样本点的近邻隶属度,然后,使用改进过的局部密度计算公式,求解局部密度。再利用原始算法中的求解步骤找出聚类中心点,完成聚类。该方式充分考虑了模糊关系对算法的影响,具有较强的鲁棒性和泛化能力。

Description

一种使用模糊近邻的鲁棒性密度峰值算法及系统
技术领域
本发明涉及模式识别和机器学习领域,具体涉及一种使用模糊近邻的鲁棒性密度峰值算法及系统。
背景技术
聚类分析的密度是通过找出以“簇”的形式存在于数据集内部的结构,用以发现数据集的内部组织。这一词指的是由近似数据点组成的被分离开来的群。直觉上讲,簇的分割具有簇内相似及簇间相异的特点。因此,数据数据被分解成许多群,这些群有相似的对象构成,同时不同的群包含了各不相同的元素。该方法论被广泛的应用于多元统计学和机器学习。
传统的聚类大致被分为4类:划分聚类、层次聚类、密度聚类和模型聚类。每类方式都各有利弊,如,划分聚类通常需要指定簇个数,且需要迭代;层次聚类同样很难找到最优的聚类个数;而传统的密度聚类算法参数调节困难;模型聚类通常需要对数据的分布情况进行假设。2014年,《Science》上发表了一篇全新的聚类方法,密度峰值聚类(DensityPeaks Clustering,DPC)。密度峰值聚类具有如下特点:无需指定簇个数;适用于任意形状的数据集;无需迭代,也不会陷入局部最优;只有一个参数,易于调节控制;无需对数据集的分布进行假设。算法简单,易于实现。由于以上特点,密度聚类算法也受到了越来越多的关注,并被应用于异常点检测、图像处理、文本处理等领域。密度峰值聚类算法给聚类问题的求解提供了新思路,能有效处理许多实际问题,其研究具有巨大的科研价值和应用潜力。
但是密度峰值聚类依然存在一些问题。例如,在同一邻域半径内,不同的近邻点分布应该产生不同的近邻隶属度,然而原始算法没有对此加以区分,难于处理不确定数据。
发明内容
为了解决上述问题,本发明提出一种使用模糊近邻的鲁棒性密度峰值算法及系统。首先,使用模糊近邻函数求解出每个样本点的近邻隶属度,然后,使用改进过的局部密度计算公式,求解局部密度。再利用原始算法中的求解步骤找出聚类中心点,完成聚类。该方式充分考虑了模糊关系对算法的影响,具有较强的鲁棒性和泛化能力。
本发明是通过以下方案实现的:
本发明涉及一种使用模糊近邻的鲁棒性密度峰值算法及系统,通过模糊最近邻方法,改进原始局部密度的求解方式,使整个聚类算法充分考虑数据的不确定因素。最后在求解出簇中心点,输出聚类结果。
本发明具体步骤如下:
步骤1,依据欧式距离公式计算相似度矩阵。
步骤2,使用模糊近邻方式重新定义近邻隶属度关系。
步骤3,根据相似度矩阵计算各个点的两个重要数值:ρi和δi
步骤3.1:依据模糊近邻隶属度计算出该点的局部密度ρi,其计算公式如下:
步骤3.2:由如下公式计算每个点的δi值:
步骤4,绘制出决定图,选出其中ρi相对较高且δi非常高的点作为簇中心点。
步骤5,将每个数据点分配给离其最近的中心点所在的簇。
通过以上内容可知,本申请提供的是一种使用模糊近邻的鲁棒性密度峰值算法及系统,首先计算相似度矩阵,求解出模糊近邻方式,然后计算出局部密度计算方式求解ρi和δi。绘制出决定图选择聚类中心点,分配剩余数据点,得到聚类结果。本申请充分考虑了模糊近邻关系,并能够很好地处理不确定性的数据,具有较强的鲁棒性和泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种使用模糊近邻的鲁棒性密度峰值算法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例1
如图1所示,本实施例包括以下步骤:
输入:数据集χ={x1,x2,…,xn}(xi∈Rd),参数dc
输出:划分好的数据类。
步骤1:计算相似矩阵。通过欧式距离求解各个数据点对间的距离,组成一个对称矩阵。
步骤2:计算模糊近邻的隶属度。通过公式(1)计算模糊近邻的隶属度。
步骤3:求解ρi和δi。依据模糊近邻隶属度以及公式(2)求解出各数据点的ρi。再依据ρi的结果以及公式(3)求解出各数据点的δi
步骤4:绘制决定图,选择中心点。依据ρi和δi的结果绘制决定图,再依据决定图选择出中心点。
步骤5:分配各数据点返回结果。将剩余没有分配的各个数据点依据其与何中心点最近,将其分配给该中心点所在的簇。返回最终聚类结果。

Claims (7)

1.一种使用模糊近邻的鲁棒性密度峰值算法及系统,首先计算数据相似度矩阵,利用模糊近邻隶属度,根据模糊近邻关系求解出ρi,在依据求解的ρi计算δi,最后绘制决定图,选择聚类中心点,分配所有数据点,得出聚类结果。
2.根据权利要求1所述的方法,其特征是,所述的数据集是一个n×d的矩阵,矩阵的每行表示一个数据点,每列表示一种属性,故这个矩阵包含n个数据点,每个数据点有d种属性,可以表示为χ={x1,x2,…,xn}(xi∈Rd)。
3.根据权利要求1所述的方法,其特征是,所述的相似度矩阵是依据欧式距离公式对每个数据点对求解出相应相似度矩阵D。
4.根据权利要求1所述的方法,其特征是,所述的相似度矩阵是依据相似度矩阵D,求解出每个点在一定半径内的模糊近邻隶属度。
5.根据权利要求1所述的方法,其特征是,所述的ρi和δi是密度峰值聚类的两个重要元素,其中ρi是该点的局部密度,δi是该点离其最近且局部密度比其高的数据点之间的距离。
6.根据权利要求1或5所述的方法,其特征是,所述的ρi和δi求解包括:
1:使用该点的前k个最近邻求解计算出该点的局部密度ρi
2:计算每个点的δi值:
7.一种实现上述任一权利要求所述方法的系统,其特征在于:特征转换模块、最近邻模块和密度峰值聚类模块,其中特征转换模块将每个数据点进行初步预处理,然后将其进行主成分分析处理得到新的数据集;最近邻模块求解出新数据集相似度矩阵和每个数据点的近邻图;密度峰值聚类模块先求解出每个数据点的ρi和δi,然后绘制决定图选择聚类中心点,分配所有数据点,输出聚类结果。
CN201710137544.6A 2017-03-09 2017-03-09 一种使用模糊近邻的鲁棒性密度峰值算法及系统 Pending CN107038454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710137544.6A CN107038454A (zh) 2017-03-09 2017-03-09 一种使用模糊近邻的鲁棒性密度峰值算法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710137544.6A CN107038454A (zh) 2017-03-09 2017-03-09 一种使用模糊近邻的鲁棒性密度峰值算法及系统

Publications (1)

Publication Number Publication Date
CN107038454A true CN107038454A (zh) 2017-08-11

Family

ID=59534119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710137544.6A Pending CN107038454A (zh) 2017-03-09 2017-03-09 一种使用模糊近邻的鲁棒性密度峰值算法及系统

Country Status (1)

Country Link
CN (1) CN107038454A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729802A (zh) * 2017-08-18 2018-02-23 浙江大学宁波理工学院 基于核化密度峰值的人脸图片聚类方法
CN109858544A (zh) * 2019-01-28 2019-06-07 重庆邮电大学 基于区间阴影集和密度峰值聚类的钢材质量检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729802A (zh) * 2017-08-18 2018-02-23 浙江大学宁波理工学院 基于核化密度峰值的人脸图片聚类方法
CN109858544A (zh) * 2019-01-28 2019-06-07 重庆邮电大学 基于区间阴影集和密度峰值聚类的钢材质量检测方法
CN109858544B (zh) * 2019-01-28 2021-01-29 重庆邮电大学 基于区间阴影集和密度峰值聚类的钢材质量检测方法

Similar Documents

Publication Publication Date Title
Kang et al. A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
CN103116766B (zh) 一种基于增量神经网络和子图编码的图像分类方法
Tong et al. A density-peak-based clustering algorithm of automatically determining the number of clusters
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN108280472A (zh) 一种基于局部密度和聚类中心优化的密度峰聚类方法
Yan et al. Multi-task clustering of human actions by sharing information
CN107563400A (zh) 一种基于网格的密度峰值聚类方法及系统
CN107016407A (zh) 一种反馈式密度峰值聚类方法及系统
CN112765477A (zh) 信息处理、信息推荐的方法和装置、电子设备和存储介质
CN107038454A (zh) 一种使用模糊近邻的鲁棒性密度峰值算法及系统
Intarapaiboon A framework for text classification using intuitionistic fuzzy sets
CN106446947A (zh) 基于随机子空间的高维数据软硬聚类集成方法
Wang et al. Multi-label remote sensing scene classification using multi-bag integration
ElAlami Supporting image retrieval framework with rule base system
Huang et al. C 2 IMUFS: Complementary and Consensus Learning-Based Incomplete Multi-View Unsupervised Feature Selection
Qin et al. PcmNet: Position-sensitive context modeling network for temporal action localization
CN105740949A (zh) 一种基于随机性best策略的群体全局优化方法
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
Zhu et al. Local information fusion network for 3D shape classification and retrieval
Wang et al. Weakly supervised object detection based on active learning
Mei et al. An efficient graph clustering algorithm by exploiting k-core decomposition and motifs
Lu et al. Cross-domain few-shot segmentation with transductive fine-tuning
Ping et al. Beyond k-Means++: Towards better cluster exploration with geometrical information
CN108510010A (zh) 一种基于预筛选的密度峰值聚类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170811

RJ01 Rejection of invention patent application after publication