CN111680719A - 一种基于距离平方和差值比的聚类有效性评估方法 - Google Patents

一种基于距离平方和差值比的聚类有效性评估方法 Download PDF

Info

Publication number
CN111680719A
CN111680719A CN202010411223.2A CN202010411223A CN111680719A CN 111680719 A CN111680719 A CN 111680719A CN 202010411223 A CN202010411223 A CN 202010411223A CN 111680719 A CN111680719 A CN 111680719A
Authority
CN
China
Prior art keywords
cluster
clustering
distance
sum
rdsed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010411223.2A
Other languages
English (en)
Inventor
李向军
卿松
魏俊涛
刘凌锋
揭敏
吴晓亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202010411223.2A priority Critical patent/CN111680719A/zh
Publication of CN111680719A publication Critical patent/CN111680719A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于距离平方和差值比的聚类有效性评估方法,该方法采用一种新的聚类有效性指标——距离平方和差值比RDSED,该方法适用于聚类分析中近似最佳聚类数动态确定。首先,在分析类内与类间关系的基础上,提出了簇内平方和SSW、簇间平方和SSB、总平方和SST、簇内距离和SID、簇间平均距离ADB等概念,基于这些概念构建了一种新的聚类有效性评估指标——距离平方和差值比RDSED;其次,设计了一种基于RDSED的聚类有效性评估方法,用于动态确定近近似最佳聚类数,该方法通过在聚类数范围内由大到小依次计算RDSED值,并利用该指标值动态终止聚类有效性验证过程,最终得到近似最优的聚类数和聚类划分结果。

Description

一种基于距离平方和差值比的聚类有效性评估方法
技术领域
本发明涉及一种聚类有效评估方法领域。
背景技术
常用的聚类有效性评价方法是利用数学知识对聚类有效性指标进行建模和构建。然后在聚类算法完成对某一数据集的聚类后,通过计算CVI来评价聚类的质量。CVI不仅是衡量聚类结果有效性的客观指标,也是衡量聚类算法性能的客观依据。聚类有效性指标可以定量研究聚类有效性问题,其主要目的是找到一个性能较好的CVI,使该指标能够正确评价聚类结果,自动获得最优的聚类数目。基于CVI的聚类有效性评价主要包括五个步骤,这五个步骤紧密相关,最终得到最优的聚类数目。图1给出了聚类有效性验证流程图,它包括5个步骤。这些步骤密切相关并最终得出近似最佳聚类数:
1.对数据集赋予外部信息;
2.在预设的聚类数范围[mmin,mmax]内连续多次运行聚类算法;
3.获取聚类结果:聚类划分和真正划分。根据每个聚类数计算其对应的指标值;
4.绘制“聚类数-指标值”关系图,根据指标的最优值来确定“最佳”划分结果,进而确定近似最佳聚类数m;
5.根据CVI得出的近似最佳聚类数(m*)和“外部信息”进行比较,验证 CVI的有效性。
然而这种评估方法聚类计算量大,计算成本高,且评估的有效性偏低,为此我们提出了一种新的评价方法。
发明内容
为实现上述目的,本发明提供如下技术方案:
一种基于距离平方和差值比的聚类有效性评估方法,
给定数据集D,基于距离平方和差值比的聚类有效性评估方法步骤如下:
S1:划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n,则设置最小聚类数,最大聚类数;
S2:在数据集D上,在预设的聚类数范围[mmin,mmax]内连续运行聚类算法;
S3:根据S2中所得聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m)及RDSED(m);
S4:当RDSED(m)小于设定阈值时,表明当前的聚类解决方案是可以接受的,则继续计算下一个聚类数对应的聚类结果及相应指标值;当RDSED(m)大于等于设定阈值时,当前聚类数无效,表明前一个聚类数的聚类结果是有效的,此时终止RDSED的计算,并将前一个聚类数m+1确定为近似最佳聚类数,记为m*;
S5:如果RDSED(2)依旧小于设定阈值,则将m=2确定为最佳聚类数,并终止最佳聚类数搜索过程,此时,算法终止。
S1中,则设置最小聚类数mmin=2,最大聚类数
Figure BDA0002493332860000021
连续运行聚类算法包括HACAL、K-means中的一种或几种。
DSED为距离平方和差值,给定m×n数据集矩阵:
DSED(m)=|(SSW/SSB)·SST-SID/ADB-(n-m)|
其中,n为数据集数据对象个数,m为聚类数;
RDSED为距离平方和差值比,距离平方和差值比可定义为相邻两个聚类数对应的DSED之差与较大DSED值之比:
Figure BDA0002493332860000022
SSW为簇内平方和,假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的
Figure BDA0002493332860000023
xi∈ci,j∈[1,d],
Figure BDA0002493332860000024
簇内平方和叉积矩阵
Figure BDA0002493332860000025
叉积矩阵中主对角线元素之和为簇内平方和,非对角线元素之和则为叉积簇内平方和,因此,簇内平方和的计算公式为:
SSW=trace(SSw)
其中
Figure BDA0002493332860000026
为类簇i中心。
SSB为簇间平方和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的类簇,
Figure BDA0002493332860000031
对于聚类算法得到的所有类簇,各类簇中心和数据集中心的差值向量形成一个矩阵:
Figure BDA0002493332860000032
计算类簇
Figure BDA0002493332860000033
的叉积矩阵
Figure BDA0002493332860000034
然后计算每个类簇的叉积矩阵,求和得到簇间平方和叉积矩阵
Figure BDA0002493332860000035
对叉积矩阵中所有主对角线元素求和得到簇间平方和,对非对角线元素求和则得到叉积簇间平方和,因此,簇间平方和的计算公式为:
SSB=trace(SSB)
其中
Figure BDA0002493332860000036
表示分类至第i个类簇的数据样本个数,
Figure BDA0002493332860000037
为类簇i中心。
SST总平方和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的
Figure BDA0002493332860000038
T=xi-C,整个数据集的叉积矩阵SST=TT×T。叉积矩阵中各主对角线元素之和为总平方和,因此,总平方和的计算公式为:
SST=trace(SST)
从以上定义易得出,总平方和SST等于类内平方和SSW与类间平方和SSB 之和,即:
SST=SSW+SSB
其中
Figure BDA0002493332860000039
表示分类至第i个类簇的数据样本个数,xi为d维特征空间中的第i 个数据对象。
SID为簇内距离和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,
Figure BDA00024933328600000310
分别为类簇c1,c2,...,cm的簇内距离和,对每个类簇,簇内距离和为类内每个样本与类簇中心的欧式距离和。则整个数据集的簇内距离和为:
Figure BDA00024933328600000311
其中n为数据集的样本个数,m表示聚类个数,
Figure BDA0002493332860000041
表示分类至第i个类簇的样本个数,xjk表示类簇ci在第k个特征上第j个样本的样本值,cik表示类簇ci的第k个特征上的类簇中心。
ADB簇间平均距离:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,簇间距离定义为各类簇中心之间的欧氏距离即:
Figure BDA0002493332860000042
其中,
Figure BDA0002493332860000043
表示任意两个类簇ci与cj间的欧式距离,n为数据集中的样本个数,m表示数据集的聚类个数,cik表示类簇ci在第k 个特征上的类簇中心。
确定了相邻簇的数量,当DSED显示出较大的变化时,RDSED值将超过可接受的正常范围,这表明,在聚类有效性验证过程中,当接近最小类内距离和最大类间距离的聚类目标时,相应的聚类数可以使聚类有效性指标发生显著变化,因此,可以使用RDSED获得近似最优聚类数,并动态终止聚类有效性验证过程
本发明的有益效果是:
1、本方法通过创新性提出的一种新的聚类有效性指标RDSED动态控制聚类有效性验证过程,最终得到近似最优的聚类数和聚类划分结果,与传统聚类有效性验证过程相比,本方法减少了聚类计算量,计算成本更低。
2、与一些经典的聚类有效性评价方法相比,本发明提出的聚类有效性评价方法能够获得最接近真实聚类数的近似最优聚类数,能更有效地评估聚类划分结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的具体实施方式一起用于解释本发明,并不构成对本发明的限制。
图1为常规聚类有效性验证流程图;
图2为基于距离平方和差值比的聚类有效性评估方法流程图;
图3为形状数据集2维图;
图4为高斯数据集2维图;
图5为Spiral的聚类数-RDSED关系图;
图6为Lineblobs的聚类数-RDSED关系图;
图7为Square1的聚类数-RDSED关系图;
图8为Twenty的聚类数-RDSED关系图;
图9为Iris的聚类数-RDSED关系图;
图10为Glass的聚类数-RDSED关系图;
图11为Wine的聚类数-RDSED关系图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明一种基于距离平方和差值比的聚类有效性评估方法。在最大聚类数到最小聚类数搜寻范围内,依次计算RDSED值,当前RDSED值低于设置阈值时,则继续计算下一个聚类数对应的指标值,当RDSED值高于设置阈值时,当前聚类数无效,并动态终止聚类过程,同时将前一次RDSED指标值对应的聚类数确定为近似最佳聚类数。通过聚类有效性指标RDSED动态确定近似最佳聚类数是本方法的核心所在。
给定数据集D,基于距离平方和差值比的聚类有效性评估方法步骤如下:
S1:划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n,则设置最小聚类数mmin=2,最大聚类数
Figure BDA0002493332860000051
S2:在数据集D上,在预设的聚类数范围[mmin,mmax]内连续运行聚类算法,包括如HACAL、K-means等;
S3:根据聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m) 及RDSED(m);
S4:当RDSED(m)小于设定阈值时,表明当前的聚类解决方案是可以接受的,则继续计算下一个聚类数对应的聚类结果及相应指标值;当RDSED(m)大于等于设定阈值时,当前聚类数无效,表明前一个聚类数的聚类结果是有效的。此时终止RDSED的计算,并将前一个聚类数m+1确定为近似最佳聚类数,记为m*
S5:如果RDSED(2)依旧小于设定阈值,则将m=2确定为最佳聚类数,并终止最佳聚类数搜索过程,此时,算法终止。
聚类过程产生的类簇都是在欧式空间下进行。假设待聚类的数据集包含d 维数据,给定m×n数据集矩阵,n为数据集中的样本个数,m表示数据集的聚类个数,任意两个数据集样本xi和xj的欧式距离为:
Figure BDA0002493332860000061
由于本发明提出的CVI综合考虑了多种聚类度量,为此基于以上假设引入如下定义:
定义1簇内平方和SSW(Within-cluster Sum-of-Squares):假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的
Figure BDA0002493332860000062
xi∈ci, j∈[1,d],
Figure BDA0002493332860000063
簇内平方和叉积矩阵
Figure BDA0002493332860000064
叉积矩阵中主对角线元素之和为簇内平方和,非对角线元素之和则为叉积簇内平方和,因此,簇内平方和的计算公式为:
SSW=trace(SSw) (2)
其中
Figure BDA0002493332860000065
为类簇i中心。
定义2簇间平方和SSB(Between-cluster Sum-of-Squares):假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的类簇,
Figure BDA0002493332860000066
对于聚类算法得到的所有类簇,各类簇中心和数据集中心的差值向量形成一个矩阵:
Figure BDA0002493332860000067
计算类簇
Figure BDA0002493332860000068
的叉积矩阵
Figure BDA0002493332860000069
然后计算每个类簇的叉积矩阵,求和得到簇间平方和叉积矩阵
Figure BDA00024933328600000610
对叉积矩阵中所有主对角线元素求和得到簇间平方和,对非对角线元素求和则得到叉积簇间平方和,因此,簇间平方和的计算公式为:
SSB=trace(SSB) (4)
其中
Figure BDA0002493332860000071
表示分类至第i个类簇的数据样本个数,
Figure BDA0002493332860000072
为类簇i中心。
定义3总平方和SST(Total Sum-of-Squares):假设待聚类的数据集包含 d维数据,给定m×n数据集矩阵,对于任意的
Figure BDA0002493332860000073
T=xi-C,整个数据集的叉积矩阵SST=TT×T。叉积矩阵中各主对角线元素之和为总平方和,因此,总平方和的计算公式为:
SST=trace(SST) (5)
从以上定义易得出,总平方和SST等于类内平方和SSW与类间平方和SSB 之和,即:
SST=SSW+SSB (6)
其中
Figure BDA0002493332860000074
表示分类至第i个类簇的数据样本个数,xi为d维特征空间中的第i 个数据对象。
定义4簇内距离和SID(Sum of Intra-cluster Distance):假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,
Figure BDA0002493332860000075
分别为类簇 c1,c2,...,cm的簇内距离和,对每个类簇,簇内距离和为类内每个样本与类簇中心的欧式距离和。则整个数据集的簇内距离和为:
Figure BDA0002493332860000076
其中n为数据集的样本个数,m表示聚类个数,
Figure BDA0002493332860000077
表示分类至第i个类簇的样本个数,xjk表示类簇ci在第k个特征上第j个样本的样本值,cik表示类簇ci的第k个特征上的类簇中心。
定义5簇间平均距离ADB(Average Distance Between clusters):假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,簇间距离定义为各类簇中心之间的欧氏距离即:
Figure BDA0002493332860000078
其中,
Figure BDA0002493332860000081
表示任意两个类簇ci与cj间的欧式距离,n为数据集中的样本个数,m表示数据集的聚类个数,cik表示类簇ci在第k 个特征上的类簇中心。
利用定义1-5,定义距离平方和差值比如下:
定义6距离平方和差值比RDSED(Ratio of Deviation of Sum-of-squares andEuclid Distance):假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,距离平方和差值DSED(Deviation of Sum-of-squares and Euclid Distance) 定义为:
DSED(m)=|(SSW/SSB)·SST-SID/ADB-(n-m)| (9)
其中,n为数据集数据对象个数,m为聚类数。
距离平方和差值比可定义为相邻两个聚类数对应的DSED之差与较大DSED 值之比,
Figure BDA0002493332860000082
当初始簇形成时,簇内相似度高,簇间相似度低。这意味着每个簇内的变化是最小的,簇间的变化是最大的。这种变化表明,对于获得的每个聚类组合,需要在每个层级探究聚类的全局和本地邻近性。
为了反映聚类结构的类内相似性和类间分离性,本发明用簇内平方和与簇内距离代表类簇之内的邻近关系,用簇间平方和簇间距离表示类簇间的分离性。 SSW/SSB的比值和SID/ADB的比值反映了各个层次的变化量,这两个比值可以反映指标在不同聚类数m下的变化情况。比值越小,簇内距离越小,相似性越大。比例越大,簇间的距离就越大,因此分离也就越大。因此,SSW/SSB和SID/ADB 越小,聚类效果越好。因此,这两个比率可以有效地终止聚类有效性验证过程。
在式(9)中,当SSW/SSB非常小时(即当聚类数取值很大时),该项作用受到抑制,因此该项乘以总平方和SST。对于不同聚类数m,SST的值可以基本看作一个常数,而数据样本数与聚类数之差(n-m)则是为了制约CVI产生过大影响。由式(10)可知,当DSED(m)>DSED(m+1)时,即当前的DSED值大于前序DSED 值时,取ΔDSED(m)=DSED(m)-DSED(m+1),否则,当前的DSED值不大于前序DSED值时,取ΔDSED(m)=DSED(m+1)-DSED(m)。如果DSED(m)和DSED(m+1) 之间的差值越大,则RDSED(m)越接近于1。两者间较大的差值可能是不相容簇形成的结果,因此,此时可动态终止聚类过程,得到真实的聚类结果。如果DSED(m) 和DSED(m+1)之间的差值越小,则RDSED(m)越趋向于接近0,这表明当前的聚类解决方案是可以接受的,聚类有效性验证过程应该继续进行。从RDSED的计算公式可见,RDSED的取值范围为[0,1]。
根据定义6,确定了相邻簇的数量,当DSED显示出较大的变化时,RDSED 值将超过可接受的正常范围,这表明,在聚类有效性验证过程中,当接近最小类内距离和最大类间距离的聚类目标时,相应的聚类数可以使聚类有效性指标发生显著变化。因此,可以使用RDSED获得近似最优聚类数,并动态终止聚类有效性验证过程。
实施例一:为验证本发明提出的RDSED指标确定近似最佳聚类数的性能,本发明在基于距离平方和差值比的近似最佳聚类数动态确定算法中结合使用 K-means算法和HACAL算法,在7个数据集上设计实施了两组实验进行测试。 K-means算法是最常用的划分式聚类算法之一,通过优化簇内平方和距离来实现聚类。HACAL使用自下而上的合并策略,初始状态为每个数据对象是独立一个类簇,然后合并平均距离最小的两个类簇,直到满足某个终止条件。
聚类数的搜索范围为[2,mmax]之间的整数,其中
Figure BDA0002493332860000091
n为数据集样本个数,RDSED阈值设为0.55。当RDSED<0.55,聚类验证继续进行;当 RDSED≥0.55时,聚类验证终止。算法运行环境为:微软Windows 7(64位)操作系统,酷睿i5-2410M CPU 2.3GHz频率,内存2GB。
实验使用的数据集包括各类形状数据集、高斯数据集以及来自加州大学欧文分校的UCI机器学习库真实数据集。各数据集的聚类个数、维数以及数据集样本总数如表1所示。
Figure BDA0002493332860000092
Figure BDA0002493332860000101
表1个数据参数表
(1)2个形状数据集包括Spiral和Lineblobs,它们的二维分布图如图3 所示。
(2)2个高斯数据集包括Square1和Twenty,它们的二维分布图如图4所示。
(3)Iris数据集是3类鸢尾花植物的特征数据,其样本属性分别为:花瓣长度、花瓣宽度、萼片长度和萼片宽度。其样本空间分布1类与其它2类完全分离,而另外2类之间有部分重叠。
(4)Glass数据集中每个数据样本包含9个特征属性,分别代表玻璃碎片的折射率以及8种金属氧化物的百分含量。共分为6种不同种类且样本数各异。
(5)Wine数据集是对生长在同一地区的3个不同品种的葡萄酒化学分析结果。数据集由3类共178个数据样本组成,每个数据样本有包含13个属性,3 类没有重叠区域但分界不清晰。
实施例2:本发明首先采用来源于CSDN资源网站的人工数据集(包括2个形状数据集和2个高斯数据集)来测试RDSED指标性能,并利用聚类数-RDSED 关系图来说明这些数据集上测试的实验结果及其分析。
图5给出了K-means算法和HACAL算法在Spiral数据集上的聚类数-RDSED 关系图。图中可见,K均值算法和HACAL算法确定的近似最佳聚类数分别为2和 7,两种算法的聚类验证过程均是从mmax=31向mmin=2移动。对于K-means算法,其在m=31到m=2范围内的RDSED值都小于0.55,说明m=2为真实聚类数;而对于HACAL算法,其RDSED值在m=31到m=7范围内都是在可接受范围内,而在m=6 时,其对应的RDSED高于0.55,此时DSED(6)与DSED(7)值相差较大,m=6时聚类验证过程终止,说明m=7为真实聚类数。
图6为K-means算法和HACAL算法在Lineblobs数据集上的聚类数-RDSED 关系图。图中可见,两种算法确定的近似最佳聚类数均为2,算法聚类验证过程均是从mmax=16向mmin=2移动。两种算法在m=16到m=2范围内的RDSED值都小于0.55,说明m=2为真实聚类数。
图7给出了K-means算法和HACAL算法在Square1数据集上的聚类数-RDSED 关系图。图中可见,两种算法确定的近似最佳聚类数均为4,算法聚类验证过程均是从mmax=31向mmin=2移动。对于两种算法,它们在m=31到m=4范围内的 RDSED值都小于0.55,而在m=3时,对应的RDSED高于0.55,此时DSED(3)与 DSED(4)值相差较大,m=3时聚类验证过程终止,说明m=4为真实聚类数。
图8给出了K-means算法和HACAL算法在Twenty数据集上的聚类数-RDSED 关系图。图中可见,两种算法确定的近似最佳聚类数均为20,算法聚类验证过程均是从mmax=31向mmin=2移动。对于两种算法,其RDSED值在m=31到m=20 范围内都是在可接受范围内,即RDSED指标值小于0.55,而在m=19时,对应的 RDSED都高于0.55,此时DSED(19)与前一轮次DSED(20)值相差较大,m=19时聚类验证过程终止,说明m=20为真实聚类数。
本发明采用来源于UCI机器学习库的3个真实数据集(Iris、Glass、Wine) 来测试RDSED指标性能。同样,利用聚类数-RDSED关系图来说明这些数据集上测试的实验结果及其分析。
图9给出了K-means算法和HACAL算法在Iris数据集上的聚类数-RDSED指标关系图。图中可见两种算法确定的近似最佳聚类数均为3,聚类验证过程均是从mmax=12向mmin=2移动。对于两种算法,其RDSED值在m=12到m=3范围内都是在可接受范围内,即RDSED指标值小于0.55,而在m=2时,其对应的RDSED 高于0.55,此时DSED(2)与前一轮次DSED(3)值相差较大,m=2时聚类验证过程终止,说明m=3为真实聚类数。
图10给出了K-means算法和HACAL算法在Glass数据集上的聚类数-RDSED 关系图。图中可见,K-means算法和HACAL算法确定的近似最佳聚类数分别为8 和6,两种算法的聚类验证过程均是从mmax=14向mmin=2移动。对于K-means 算法,其RDSED值在m=14到m=8范围内都是在可接受范围内,即RDSED指标值小于0.55,而在m=7时,其对应的RDSED高于0.55,此时DSED(7)与前一轮次 DSED(8)值相差较大,m=7时聚类验证过程终止,说明m=8为真实聚类数。而对于HACAL算法,其RDSED值在m=14到m=6范围内都是在可接受范围内,即RDSED指标值小于0.55,而在m=5时,其对应的RDSED高于0.55,此时DSED(5)与前一轮次DSED(6)值相差较大,m=5时聚类验证过程终止,说明m=6为真实聚类数。
图11给出了K-means算法和HACAL算法在Wine数据集上的聚类数-RDSED 关系图。图中可见,两种算法的近似最佳聚类数均为3,算法聚类验证过程均是从mmax=13向mmin=2移动。对于两种算法,其RDSED值在m=13到m=3范围内都是在可接受范围内,即RDSED指标值小于0.55,而在m=2时,其对应的RDSED 高于0.55,此时DSED(2)与前一轮次DSED(3)值相差较大,m=2时聚类验证过程终止,说明m=3为真实聚类数。
图5-图11中在各个数据集上的RDSED指标值都是根据表2和表3的DSED 指标值算出的,其中表2为K-means算法产生的DSED指标值,表3给出的则是 HACAL算法的DSED指标值。由于每个数据集的近似最佳聚类数搜索范围都不尽相同,为便于比较,表2和表3给出了[2,20]范围内的DSED值。其中“—”表示其对应数据集在对应聚类数m不含有DSED值。两个表格分别说明了K-means 算法和HACAL算法从mmax到mmin不同聚类数下多个相邻聚类划分的数值差异 (DSED值),所提出的RDSED指标则比较这种差异来确定近似最佳聚类数。
Figure BDA0002493332860000121
表2聚类数范围在[2,20]内使用K均值算法的DSED指标值
Figure BDA0002493332860000131
表3聚类数范围在[2,20]内使用HACAL算法的DSED指标值
根据以上实验结果,我们可以发现在结合使用K-means算法和HACAL算法情形下,本发明所提出的聚类有效性指标RDSED几乎在所有实验数据集上都能得到真实聚类数。对于K-means算法,RDSED指标除了在Lineblobs和Glass上与真实聚类数不符,在其他数据集上都能发现真实聚类数;而对于HACAL算法,RDSED 指标除了在Lineblobs和Spiral上与真实聚类数不符,在其他数据集上都能发现真实聚类数。图2给出的Lineblobs分布图是在粒度较小下的分布图,若增大 Lineblobs粒度,此时该数据集的可分性就更好,而且数据样本数与聚类数之差 (n-m)对DSED值产生了过大影响,因此,本实验采用的两种算法都是在m=2处终止,无法正确发现真实聚类数。而K-means算法在Glass上得到的聚类数为8,主要原因在于较大差异的DSED提前出现,而这种较大差异并不能够一直对应实际类簇分布,也就无法得到正确聚类数。HACAL算法在Spiral上得到的聚类数为7,主要原因有两点:(1)DSED值的较大差异提前出现;(2)HACAL算法产生的链状聚类结果与实际数据集类簇位置分布不符。
此外,将图6-图11中的两条折线比较,绿线的陡峭程度高于蓝线,即K-means 算法对应的折线更加陡峭,说明稳定性较差的算法(K-means算法)能够将相邻聚类划分的数值差异(DSED值)放大,使得差异更加明显,因此,稳定性较差的算法更有利于RDSED指标发现真实聚类数,但算法的稳定性却会制约指标的稳定性。
本发明选择7个常用的聚类有效性指标(Dunn、DB、Wint、C]、Sil、Hartigan 和KL)与RDSED进行实验比较,来说明RDSED指标的性能。实验采用的数据集为Spiral、Lineblobs、Square1、Twenty、Iris、Glass和Wine。
为了说明不同CVI的稳定性,接下来我们在人工数据集和真实数据集上使用 K-means算法运行了20次,得到的近似最佳聚类数均值如表4,其中m*为真实聚类数。
K-means算法通常适用于高斯数据集的聚类,因此其在高斯数据集上的聚类效果明显优于形状数据集上的聚类结果(见表4);对于正确聚类数和样本较多的大数据集(Twenty),大部分指标的聚类数均值都能接近20,其原因是Twenty 数据集中的每个类簇都具有常规网格结构;由于CH指标对含有一定重叠度的数据集敏感,因此,在所有指标中,CH指标的性能最差;而有些CVI对于可分性较好的人工数据集也不能得到正确的聚类数,例如CH指标在Spiral数据集中得到的近似最佳聚类数均值为30;和其它7种有效性指标相比,RDSED指标在其他大部分数据集上的稳定性都最优,除了Lineblobs数据集和Glass数据集,其在其他数据集上得到的近似最佳聚类数均值都是最优的。因此,RDSED在人工数据集上得到的聚类数最接近真实聚类数,Wint次之。
Figure BDA0002493332860000141
表4 K均值算法下各CVI得到的各数据集近似最佳聚类数均值。

Claims (10)

1.一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
给定数据集D,基于距离平方和差值比的聚类有效性评估方法步骤如下:
S1:划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n,则设置最小聚类数,最大聚类数;
S2:在数据集D上,在预设的聚类数范围[mmin,mmax]内连续运行聚类算法;
S3:根据S2中所得聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m)及RDSED(m);
S4:当RDSED(m)小于设定阈值时,表明当前的聚类解决方案是可以接受的,则继续计算下一个聚类数对应的聚类结果及相应指标值;当RDSED(m)大于等于设定阈值时,当前聚类数无效,表明前一个聚类数的聚类结果是有效的,此时终止RDSED的计算,并将前一个聚类数m+1确定为近似最佳聚类数,记为m*;
S5:如果RDSED(2)依旧小于设定阈值,则将m=2确定为最佳聚类数,并终止最佳聚类数搜索过程,此时,算法终止。
2.根据权利要求1所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述S1中,则设置最小聚类数mmin=2,最大聚类数
Figure FDA0002493332850000011
3.根据权利要求1所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述连续运行聚类算法包括HACAL、K-means中的一种或几种。
4.根据权利要求1所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述DSED为距离平方和差值,给定m×n数据集矩阵:
DSED(m)=|(SSW/SSB)·SST-SID/ADB-(n-m)|
其中,n为数据集数据对象个数,m为聚类数;
所述RDSED为距离平方和差值比,距离平方和差值比可定义为相邻两个聚类数对应的DSED之差与较大DSED值之比:
Figure FDA0002493332850000012
Figure FDA0002493332850000021
5.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述SSW为簇内平方和,假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的
Figure FDA0002493332850000022
xi∈ci,j∈[1,d],
Figure FDA0002493332850000023
簇内平方和叉积矩阵
Figure FDA0002493332850000024
叉积矩阵中主对角线元素之和为簇内平方和,非对角线元素之和则为叉积簇内平方和,因此,簇内平方和的计算公式为:
SSW=trace(SSw)
其中
Figure FDA0002493332850000025
Figure FDA0002493332850000026
为类簇i中心。
6.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述SSB为簇间平方和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的类簇,
Figure FDA0002493332850000027
对于聚类算法得到的所有类簇,各类簇中心和数据集中心的差值向量形成一个矩阵:
Figure FDA0002493332850000028
计算类簇
Figure FDA0002493332850000029
的叉积矩阵
Figure FDA00024933328500000210
然后计算每个类簇的叉积矩阵,求和得到簇间平方和叉积矩阵
Figure FDA00024933328500000211
对叉积矩阵中所有主对角线元素求和得到簇间平方和,对非对角线元素求和则得到叉积簇间平方和,因此,簇间平方和的计算公式为:
SSB=trace(SSB)
其中
Figure FDA00024933328500000212
表示分类至第i个类簇的数据样本个数,
Figure FDA00024933328500000213
为类簇i中心。
7.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述SST总平方和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的
Figure FDA0002493332850000031
T=xi-C,整个数据集的叉积矩阵SST=TT×T。叉积矩阵中各主对角线元素之和为总平方和,因此,总平方和的计算公式为:
SST=trace(SST)
从以上定义易得出,总平方和SST等于类内平方和SSW与类间平方和SSB之和,即:
SST=SSW+SSB
其中
Figure FDA0002493332850000032
表示分类至第i个类簇的数据样本个数,xi为d维特征空间中的第i个数据对象。
8.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述SID为簇内距离和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,
Figure FDA0002493332850000033
分别为类簇c1,c2,...,cm的簇内距离和,对每个类簇,簇内距离和为类内每个样本与类簇中心的欧式距离和。则整个数据集的簇内距离和为:
Figure FDA0002493332850000034
其中n为数据集的样本个数,m表示聚类个数,
Figure FDA0002493332850000035
表示分类至第i个类簇的样本个数,xjk表示类簇ci在第k个特征上第j个样本的样本值,cik表示类簇ci的第k个特征上的类簇中心。
9.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述ADB簇间平均距离:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,簇间距离定义为各类簇中心之间的欧氏距离即:
Figure FDA0002493332850000036
其中,
Figure FDA0002493332850000041
表示任意两个类簇ci与cj间的欧式距离,n为数据集中的样本个数,m表示数据集的聚类个数,cik表示类簇ci在第k个特征上的类簇中心。
10.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
确定了相邻簇的数量,当DSED显示出较大的变化时,RDSED值将超过可接受的正常范围,这表明,在聚类有效性验证过程中,当接近最小类内距离和最大类间距离的聚类目标时,相应的聚类数可以使聚类有效性指标发生显著变化,因此,可以使用RDSED获得近似最优聚类数,并动态终止聚类有效性验证过程。
CN202010411223.2A 2020-05-15 2020-05-15 一种基于距离平方和差值比的聚类有效性评估方法 Pending CN111680719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010411223.2A CN111680719A (zh) 2020-05-15 2020-05-15 一种基于距离平方和差值比的聚类有效性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010411223.2A CN111680719A (zh) 2020-05-15 2020-05-15 一种基于距离平方和差值比的聚类有效性评估方法

Publications (1)

Publication Number Publication Date
CN111680719A true CN111680719A (zh) 2020-09-18

Family

ID=72434160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010411223.2A Pending CN111680719A (zh) 2020-05-15 2020-05-15 一种基于距离平方和差值比的聚类有效性评估方法

Country Status (1)

Country Link
CN (1) CN111680719A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743452A (zh) * 2021-07-21 2021-12-03 深圳供电局有限公司 电能质量评估方法及装置
CN114266304A (zh) * 2021-12-20 2022-04-01 上海应用技术大学 一种牵引供电系统电能质量分类管理的PCA—Kmeans聚类方法
CN114460055A (zh) * 2022-02-14 2022-05-10 上海交通大学 基于“聚类-回归”的光谱法监测cod的方法与装置
CN116582363A (zh) * 2023-07-12 2023-08-11 江苏政采数据科技有限公司 基于工业协议传输流量异常攻击的检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132457A1 (en) * 2014-06-27 2017-05-11 Beijing Qihoo Technology Company Limited Human face similarity recognition method and system
CN110097072A (zh) * 2019-03-19 2019-08-06 河南理工大学 一种基于二分模块度的模糊聚类评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132457A1 (en) * 2014-06-27 2017-05-11 Beijing Qihoo Technology Company Limited Human face similarity recognition method and system
CN110097072A (zh) * 2019-03-19 2019-08-06 河南理工大学 一种基于二分模块度的模糊聚类评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卿松: "基于粒子群优化的聚类分析三个关键问题研究", 《南昌大学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743452A (zh) * 2021-07-21 2021-12-03 深圳供电局有限公司 电能质量评估方法及装置
CN113743452B (zh) * 2021-07-21 2024-03-01 深圳供电局有限公司 电能质量评估方法及装置
CN114266304A (zh) * 2021-12-20 2022-04-01 上海应用技术大学 一种牵引供电系统电能质量分类管理的PCA—Kmeans聚类方法
CN114266304B (zh) * 2021-12-20 2023-09-22 上海应用技术大学 一种牵引供电系统电能质量分类管理的PCA—Kmeans聚类方法
CN114460055A (zh) * 2022-02-14 2022-05-10 上海交通大学 基于“聚类-回归”的光谱法监测cod的方法与装置
CN116582363A (zh) * 2023-07-12 2023-08-11 江苏政采数据科技有限公司 基于工业协议传输流量异常攻击的检测方法

Similar Documents

Publication Publication Date Title
CN111680719A (zh) 一种基于距离平方和差值比的聚类有效性评估方法
US6397166B1 (en) Method and system for model-based clustering and signal-bearing medium for storing program of same
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN112116952B (zh) 基于扩散及混沌局部搜索的灰狼优化算法的基因选择方法
CN112926635B (zh) 一种基于迭代自适应近邻传播算法的目标聚类方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN110377605B (zh) 一种结构化数据的敏感属性识别与分类分级方法
Shim et al. A comparison study of cluster validity indices using a nonhierarchical clustering algorithm
CN110781295A (zh) 一种多标记数据的特征选择方法及装置
CN108764307A (zh) 自然最近邻优化的密度峰值聚类方法
Charrad et al. On the number of clusters in block clustering algorithms
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
Pola et al. The NOBH-tree: Improving in-memory metric access methods by using metric hyperplanes with non-overlapping nodes
Miglio et al. The comparison between classification trees through proximity measures
Sun et al. An optimized approach on applying genetic algorithm to adaptive cluster validity index
CN106875402B (zh) 一种基于选取合适聚类数目的聚类算法的数字图像处理方法
Saligkaras et al. Seeking the truth beyond the data. An unsupervised machine learning approach
CN115527610A (zh) 一种单细胞组学数据的聚类分析方法
CN115510959A (zh) 基于自然最近邻和多簇合并的密度峰值聚类方法
CN111739582B (zh) 一种基于协同作用网络的生物组学数据分析方法
CN114638301A (zh) 基于密度相似性的密度峰值聚类算法
CN113205124A (zh) 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法
Sathiyabhama et al. Enhanced correlation search technique for clustering cancer gene expression data.
Sassi Towards fuzzy-hard clustering mapping processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918