CN110414583A - 一种基于可拓关联函数的改进密度峰值聚类方法 - Google Patents

一种基于可拓关联函数的改进密度峰值聚类方法 Download PDF

Info

Publication number
CN110414583A
CN110414583A CN201910661779.4A CN201910661779A CN110414583A CN 110414583 A CN110414583 A CN 110414583A CN 201910661779 A CN201910661779 A CN 201910661779A CN 110414583 A CN110414583 A CN 110414583A
Authority
CN
China
Prior art keywords
cluster
sample
point
value
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910661779.4A
Other languages
English (en)
Inventor
赵燕伟
朱芬
徐晨
桂方志
任设东
黄程侃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910661779.4A priority Critical patent/CN110414583A/zh
Publication of CN110414583A publication Critical patent/CN110414583A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于可拓关联函数的改进密度峰值聚类方法,包括:引入平均差异度作为样本密度度量标准并获得相应的相对距离;绘制相应的决策图,选取密度和相对距离都较大的样本点作为簇心;基于k邻域思想提出雏形簇概念,将雏形簇内样本点标记为已分配点;分别建立样本集和雏形簇物元模式下的节域和经典域;计算经典域和节域下的可拓距及相应的位值;构建各属性的可拓关联函数及综合关联函数;依次遍历未分配点,获取其对各雏形簇的综合关联函数值,将其分配到最大综合关联函数值所对应的簇中,并标记为已分配点,直至不存在未分配点,完成聚类。本发明对任意形状的数据集能实现准确的簇心选取和精确的聚类,具有更高的聚类准确率和更稳定的聚类性能。

Description

一种基于可拓关联函数的改进密度峰值聚类方法
技术领域
本发明涉及一种基于可拓关联函数的改进密度峰值聚类方法。
背景技术
随着大数据技术以及可拓学的快速发展,如何融合可拓学分析和挖掘数据中隐藏的知识,成为一个企业是否具有竞争力的重要因素。聚类是数据分析的重要手段,在数据挖掘、图像处理等领域被广泛应用,密度峰值聚类是2014年提出的高效聚类算法,但其存在选取的簇心质量不佳、非簇心点分配不准确引起“多米诺骨牌效应”等问题,使得聚类效果不理想,准确率不高。因此需要提出一种基于可拓关联函数的密度峰值聚类方法,基于可拓关联函数充分考虑样本点间的相关性,对其隶属程度进行定量描述,从而实现精准聚类,具有更好的准确率。
发明内容
本发明为了克服现有密度峰值聚类方法中密度度量不准确及一步分配策略所引起的聚类准确率低的不足,提供一种基于可拓关联的改进密度峰值聚类方法,借助可拓关联函数对样本间相关性的准确描述,实现更好的聚类效果。
本发明解决其技术问题所采用的技术方案是:
S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:
设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:
其中dc为截断误差,dij是样本i和j之间的欧式距离。
S2:绘制决策图,选取簇心:根据ρ和δ值,绘制样本点决策图,选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ。
S3:计算簇心的k距离及k距离邻域:由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi)。
所述的k值过大会影响聚类正确率,过小会增加算法运行时间,一般取值为簇心个数的2~4倍。
S4:建立雏形簇:将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中,形成雏形簇,并将这些样本点标记已分配点;
S5:综合关联函数的建立:根据样本数据及S4中所述的雏形簇,构造该样本集所对应的各属性关联函数;
在步骤S5中,包括如下子步骤:
S51:样本集物元构建及节域获取:对样本集根据公式(4)建立物元模型;根据公式(5)计算样本集节域:
样本物元模型:样本Oi表示为
其中C为样本Oi的属性特征,V为样本Oi属性特征所对应的值。
其中<xcj,ycj>为该样本集O第j维属性值的取值范围。
S52:雏形簇物元构建及经典域的获取:根据公式(4)建立雏形簇物元模型,并在雏形簇物元模型的基础上,根据公式(6)获取雏形簇心簇各属性的经典域。
其中<xi,j,yi,j>为第i个簇心ζi的k距离邻域N(ζi)第j维属性的取值范围。
S53:计算任意样本的可拓距及位值:由所述的节域X和经典域X0分别根据公式(7)计算出可拓距,同时根据公式(8)计算出位值
实轴上任意一点x与区间X0=<a,b>之距为:
设X0=<a,b>,X=<c,d>,且则称
为点x关于区间X0和X组成的区间套的位值。
S54:关联函数构建:由S53中所述的样本可拓距及位值,根据公式(9)建立各属性的关联函数。
称k(x)为点x关于区间X0和X的关联函数。
S55:综合关联函数的构建:由S54中所述的各属性关联函数,根据公式(10)建立样本点的综合关联函数。
其中λ1,λ2,...,λm为样本集各属性的权重系数且满足vi为对象O第i个属性对应的值。
S6:未分配点聚类:依次遍历未分配点,分别计算出其与各雏形簇的综合关联函数值,将其归属到关联度最大的簇内,并将其标记为已分配点,直至所有点完成分配,则聚类完成。
与现有技术相比,本发明的有益效果表现为:
1.采用平均差异度作为样本点的密度指标,将密度相同的样本点加以区分,使得更高质量的样本被选取为簇心的概率更大。2、在未分配点聚类中借助可拓关联函数引入分类的思想完成样本点精确的聚类;3、与其它算法基于多组算法进行对比,得到的结果科学合理,更适合任意形状的高维数据聚类,因此具有很广的应用前景。
附图说明
图1为本发明方法整体流程图图;
图2a~图2f为各算法在Aggregation数据集上聚类图,其中图2a是实际聚类结果图,图2b是本文算法聚类结果图,图2c是CFSFDP算法聚类结果图,图2d是IDPCA算法聚类结果图,图2e是DBSCAN算法聚类结果图,图2f是K-means聚类结果图;
图3a~图3f为各算法在Three cluster数据集上聚类图,其中图3a是实际聚类结果图,图3b是本文算法聚类结果图,图3c是CFSFDP算法聚类结果图,图3d是IDPCA算法聚类结果图,图3e是DBSCAN算法聚类结果图,图3f是K-means聚类结果图;
图4a~图4f为各算法在Jain数据集上聚类图,其中图4a是实际聚类结果图,图4b是本文算法聚类结果图,图4c是CFSFDP算法聚类结果图,图4d是IDPCA算法聚类结果图,图4e是DBSCAN算法聚类结果图,图4f是K-means聚类结果图;
图5a~图5f为各算法在Data1数据集上聚类图,其中图5a是实际聚类结果图,图5b是本文算法聚类结果图,图5c是CFSFDP算法聚类结果图,图5d是IDPCA算法聚类结果图,图5e是DBSCAN算法聚类结果图,图5f是K-means聚类结果图;
图6为五种算法聚类准确率对比图,其中,x轴坐标中0:样本真实分布;2:本文算法;4:CFSFDP算法;6:IDPCA算法;8:DBSCAN算法;10:K-means算法。
具体实施方式
下面结合附图和实施例例对本发明作进一步说明。
本实施例提供了基于基于可拓关联函数的密度峰值算法,包括以下步骤:
S1:将此方法与CFSFDP算法、IDPCA算法、DBSCAN算法和k-means算法进行对比。将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:
设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:
其中dc为截断误差,dij是样本i和j之间的欧式距离。
其中,本实例中采用的测试数据集来源于UCI数据库中用于测试聚类的Iris数据集和Wine数据集,各数据的特征如表1所示:
表1各数据集的基本特征
S2:决策图绘制,簇心选取:根据ρ和δ值,绘制样本点决策图,选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ。
S3:簇心的k距离及k距离邻域计算:由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi)。
所述的k值过大会影响聚类正确率,过小会增加算法运行时间,一般取值为簇心个数的2~4倍。
S4:建立雏形簇:将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中,形成雏形簇,并将这些样本点标记已分配点;
S5:综合关联函数的建立:根据样本数据及S4中所述的雏形簇,构造该样本集所对应的各属性关联函数;
在步骤S5中,包括如下子步骤:
S51:样本集物元构建及节域获取:对样本集根据公式(4)建立物元模型;根据公式(5)计算样本集节域:
样本物元模型:样本Oi表示为
其中C为样本Oi的属性特征,V为样本Oi属性特征所对应的值。
其中<xcj,ycj>为该样本集O第j维属性值的取值范围。
S52:雏形簇物元构建及经典域的获取:根据公式(4)建立雏形簇物元模型,并在雏形簇物元模型的基础上,根据公式(6)获取雏形簇心簇各属性的经典域。
其中<xi,j,yi,j>为第i个簇心ζi的k距离邻域N(ζi)第j维属性的取值范围。
S53:计算任意样本的可拓距及位值:由所述的节域X和经典域X0分别根据公式(7)计算出可拓距,同时根据公式(8)计算出位值
实轴上任意一点x与区间X0=<a,b>之距为:
设X0=<a,b>,X=<c,d>,且则称
为点x关于区间X0和X组成的区间套的位值。
S54:关联函数构建:由S53中所述的样本可拓距及位值,根据公式(9)建立各属性的关联函数。
称k(x)为点x关于区间X0和X的关联函数。
S55:综合关联函数的构建:由S54中所述的各属性关联函数,根据公式(10)建立样本点的综合关联函数。
其中λ1,λ2,...,λm为样本集各属性的权重系数且满足vi为对象O第i个属性对应的值。
S6:未分配点聚类:依次遍历未分配点,分别计算出其与各雏形簇的综合关联函数值,将其归属到关联度最大的簇内,并将其标记为已分配点,直至所有点完成分配,则聚类完成,得到聚类结果。
对本实例中所述的方法与其它对比方法分别针对四组可视化数据集:Aggregation、Jain、Three cluster和Data1进行聚类并展示,如图2,图3,图4,图5,图6所示。
针对所述聚类效果定量衡量算法的有效性,选取7组来自UCI数据库的实验数据集Iris,Wine,Seeds,Ionosphere,WDBC,waveform3和CMC数据集来测试,采用分类正确率指标进行衡量,各算法基于七个真实数据集聚类后的ACC评价指标值统计如表2所示:
表2七个数据集聚类后的ACC指标
所述正确率指标即被正确分到对应类别的样本个数与总样本个数比值。
所述实施例表明对任意形状,任意密度的数据集的聚类效果和聚类准确性均优于经典的CFSFDP算法、DBSCAN算法、K-means算法及改进的IDPCA算法。
本说明书实施例所述的内容仅仅是所提出的方法在UCI数据库中11组样本集下实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于可拓关联函数的密度峰值聚类方法,包括以下步骤:
S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:
设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:
其中dc为截断误差,dij是样本i和j之间的欧式距离;
S2:绘制决策图,选取簇心:根据ρ和δ值,绘制样本点决策图,选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ;
S3:计算簇心的k距离及k距离邻域:由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi);
所述的k值过大会影响聚类正确率,过小会增加算法运行时间,一般取值为簇心个数的2~4倍;
S4:建立雏形簇:将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中,形成雏形簇,并将这些样本点标记已分配点;
S5:综合关联函数的建立:根据样本数据及S4中所述的雏形簇,构造该样本集所对应的各属性关联函数;
在步骤S5中,包括如下子步骤:
S51:样本集物元构建及节域获取:对样本集根据公式(4)建立物元模型;根据公式(5)计算样本集节域:
样本物元模型:样本Oi表示为
其中C为样本Oi的属性特征,V为样本Oi属性特征所对应的值;
其中<xcj,ycj>为该样本集O第j维属性值的取值范围;
S52:雏形簇物元构建及经典域的获取:根据公式(4)建立雏形簇物元模型,并在雏形簇物元模型的基础上,根据公式(6)获取雏形簇心簇各属性的经典域;
其中<xi,j,yi,j>为第i个簇心ζi的k距离邻域N(ζi)第j维属性的取值范围;
S53:计算任意样本的可拓距及位值:由所述的节域X和经典域X0分别根据公式(7)计算出可拓距,同时根据公式(8)计算出位值
实轴上任意一点x与区间X0=<a,b>之距为:
设X0=<a,b>,X=<c,d>,且则称
为点x关于区间X0和X组成的区间套的位值;
S54:关联函数构建:由S53中所述的样本可拓距及位值,根据公式(9)建立各属性的关联函数;
称k(x)为点x关于区间X0和X的关联函数;
S55:综合关联函数的构建:由S54中所述的各属性关联函数,根据公式(10)建立样本点的综合关联函数;
其中λ1,λ2,...,λm为样本集各属性的权重系数且满足vi为对象O第i个属性对应的值;
S6:未分配点聚类:依次遍历未分配点,分别计算出其与各雏形簇的综合关联函数值,将其归属到关联度最大的簇内,并将其标记为已分配点,直至所有点完成分配,则聚类完成。
CN201910661779.4A 2019-07-22 2019-07-22 一种基于可拓关联函数的改进密度峰值聚类方法 Pending CN110414583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910661779.4A CN110414583A (zh) 2019-07-22 2019-07-22 一种基于可拓关联函数的改进密度峰值聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910661779.4A CN110414583A (zh) 2019-07-22 2019-07-22 一种基于可拓关联函数的改进密度峰值聚类方法

Publications (1)

Publication Number Publication Date
CN110414583A true CN110414583A (zh) 2019-11-05

Family

ID=68362316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910661779.4A Pending CN110414583A (zh) 2019-07-22 2019-07-22 一种基于可拓关联函数的改进密度峰值聚类方法

Country Status (1)

Country Link
CN (1) CN110414583A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148859A (zh) * 2020-09-27 2020-12-29 深圳壹账通智能科技有限公司 问答知识库管理方法、装置、终端设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148859A (zh) * 2020-09-27 2020-12-29 深圳壹账通智能科技有限公司 问答知识库管理方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN103916820B (zh) 基于接入点稳定度的无线室内定位方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN106131959A (zh) 一种基于Wi‑Fi信号空间划分的两级定位方法
CN110222745A (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
CN106408939A (zh) 基于密度峰值聚类的交通流量序列划分方法
CN107103336A (zh) 一种基于密度峰值的混合属性数据聚类方法
CN109949176A (zh) 一种基于图嵌入的社交网络中异常用户检测方法
CN104731916A (zh) 数据挖掘中基于密度优化初始中心的k均值聚类方法
CN108805193A (zh) 一种基于混合策略的电力缺失数据填充方法
CN103955709B (zh) 基于加权合成核与tmf的极化sar图像分类方法
CN109255363A (zh) 一种基于加权卡方距离度量的模糊k近邻分类方法及系统
CN109492022A (zh) 基于语义的改进的k-means算法的搜索方法
CN102254033A (zh) 基于熵权重的全局k-均值聚类方法
CN104463251A (zh) 基于集成极端学习机的肿瘤基因表达谱数据识别方法
CN109242174A (zh) 一种基于决策树的季节性负荷自适应划分方法
CN110366244A (zh) 一种WiFi指纹室内定位方法
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN106408571B (zh) 一种基于最优模糊因子选择的可变类遥感图像分割方法
CN109034238A (zh) 一种基于信息熵的聚类划分方法
CN110414583A (zh) 一种基于可拓关联函数的改进密度峰值聚类方法
CN101625725A (zh) 基于流形距离的人工免疫无监督图像分类方法
CN109034179B (zh) 一种基于马氏距离idtw的岩层分类方法
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN110991517A (zh) 一种面向脑卒中非平衡数据集的分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105