CN111680719A

CN111680719A - 一种基于距离平方和差值比的聚类有效性评估方法

Info

Publication number: CN111680719A
Application number: CN202010411223.2A
Authority: CN
Inventors: 李向军; 卿松; 魏俊涛; 刘凌锋; 揭敏; 吴晓亮
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-18

Abstract

本发明公开了一种基于距离平方和差值比的聚类有效性评估方法，该方法采用一种新的聚类有效性指标——距离平方和差值比RDSED，该方法适用于聚类分析中近似最佳聚类数动态确定。首先，在分析类内与类间关系的基础上，提出了簇内平方和SSW、簇间平方和SSB、总平方和SST、簇内距离和SID、簇间平均距离ADB等概念，基于这些概念构建了一种新的聚类有效性评估指标——距离平方和差值比RDSED；其次，设计了一种基于RDSED的聚类有效性评估方法，用于动态确定近近似最佳聚类数，该方法通过在聚类数范围内由大到小依次计算RDSED值，并利用该指标值动态终止聚类有效性验证过程，最终得到近似最优的聚类数和聚类划分结果。

Description

一种基于距离平方和差值比的聚类有效性评估方法

技术领域

本发明涉及一种聚类有效评估方法领域。

背景技术

常用的聚类有效性评价方法是利用数学知识对聚类有效性指标进行建模和构建。然后在聚类算法完成对某一数据集的聚类后，通过计算CVI来评价聚类的质量。CVI不仅是衡量聚类结果有效性的客观指标，也是衡量聚类算法性能的客观依据。聚类有效性指标可以定量研究聚类有效性问题，其主要目的是找到一个性能较好的CVI，使该指标能够正确评价聚类结果，自动获得最优的聚类数目。基于CVI的聚类有效性评价主要包括五个步骤，这五个步骤紧密相关，最终得到最优的聚类数目。图1给出了聚类有效性验证流程图，它包括5个步骤。这些步骤密切相关并最终得出近似最佳聚类数：

1.对数据集赋予外部信息；

2.在预设的聚类数范围[mmin,mmax]内连续多次运行聚类算法；

3.获取聚类结果：聚类划分和真正划分。根据每个聚类数计算其对应的指标值；

4.绘制“聚类数-指标值”关系图，根据指标的最优值来确定“最佳”划分结果，进而确定近似最佳聚类数m；

5.根据CVI得出的近似最佳聚类数(m*)和“外部信息”进行比较，验证 CVI的有效性。

然而这种评估方法聚类计算量大，计算成本高，且评估的有效性偏低，为此我们提出了一种新的评价方法。

发明内容

为实现上述目的，本发明提供如下技术方案：

一种基于距离平方和差值比的聚类有效性评估方法，

给定数据集D，基于距离平方和差值比的聚类有效性评估方法步骤如下：

S1：划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n，则设置最小聚类数，最大聚类数；

S2：在数据集D上，在预设的聚类数范围[mmin,mmax]内连续运行聚类算法；

S3：根据S2中所得聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m)及RDSED(m)；

S4：当RDSED(m)小于设定阈值时，表明当前的聚类解决方案是可以接受的，则继续计算下一个聚类数对应的聚类结果及相应指标值；当RDSED(m)大于等于设定阈值时，当前聚类数无效，表明前一个聚类数的聚类结果是有效的，此时终止RDSED的计算，并将前一个聚类数m+1确定为近似最佳聚类数，记为m*；

S5：如果RDSED(2)依旧小于设定阈值，则将m＝2确定为最佳聚类数，并终止最佳聚类数搜索过程，此时，算法终止。

S1中，则设置最小聚类数m_min＝2，最大聚类数

连续运行聚类算法包括HACAL、K-means中的一种或几种。

DSED为距离平方和差值，给定m×n数据集矩阵：

DSED(m)＝|(SSW/SSB)·SST-SID/ADB-(n-m)|

其中，n为数据集数据对象个数，m为聚类数；

RDSED为距离平方和差值比，距离平方和差值比可定义为相邻两个聚类数对应的DSED之差与较大DSED值之比：

SSW为簇内平方和，假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，对于任意的

x_i∈c_i,j∈[1,d]，

簇内平方和叉积矩阵

叉积矩阵中主对角线元素之和为簇内平方和，非对角线元素之和则为叉积簇内平方和，因此，簇内平方和的计算公式为：

SSW＝trace(SS_w)

其中

为类簇i中心。

SSB为簇间平方和：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，对于任意的类簇，

对于聚类算法得到的所有类簇，各类簇中心和数据集中心的差值向量形成一个矩阵：

计算类簇

的叉积矩阵

然后计算每个类簇的叉积矩阵，求和得到簇间平方和叉积矩阵

对叉积矩阵中所有主对角线元素求和得到簇间平方和，对非对角线元素求和则得到叉积簇间平方和，因此，簇间平方和的计算公式为：

SSB＝trace(SS_B)

其中

表示分类至第i个类簇的数据样本个数，

为类簇i中心。

SST总平方和：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，对于任意的

T＝x_i-C，整个数据集的叉积矩阵SS_T＝T^T×T。叉积矩阵中各主对角线元素之和为总平方和，因此，总平方和的计算公式为：

SST＝trace(SS_T)

从以上定义易得出，总平方和SST等于类内平方和SSW与类间平方和SSB 之和，即：

SST＝SSW+SSB

其中

表示分类至第i个类簇的数据样本个数，x_i为d维特征空间中的第i 个数据对象。

SID为簇内距离和：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，

分别为类簇c₁,c₂,...,c_m的簇内距离和，对每个类簇，簇内距离和为类内每个样本与类簇中心的欧式距离和。则整个数据集的簇内距离和为：

其中n为数据集的样本个数，m表示聚类个数，

表示分类至第i个类簇的样本个数，x_jk表示类簇c_i在第k个特征上第j个样本的样本值,c_ik表示类簇c_i的第k个特征上的类簇中心。

ADB簇间平均距离：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，簇间距离定义为各类簇中心之间的欧氏距离即：

其中，

表示任意两个类簇c_i与c_j间的欧式距离，n为数据集中的样本个数，m表示数据集的聚类个数，c_ik表示类簇c_i在第k 个特征上的类簇中心。

确定了相邻簇的数量,当DSED显示出较大的变化时，RDSED值将超过可接受的正常范围，这表明，在聚类有效性验证过程中，当接近最小类内距离和最大类间距离的聚类目标时，相应的聚类数可以使聚类有效性指标发生显著变化，因此，可以使用RDSED获得近似最优聚类数，并动态终止聚类有效性验证过程

本发明的有益效果是：

1、本方法通过创新性提出的一种新的聚类有效性指标RDSED动态控制聚类有效性验证过程，最终得到近似最优的聚类数和聚类划分结果，与传统聚类有效性验证过程相比，本方法减少了聚类计算量，计算成本更低。

2、与一些经典的聚类有效性评价方法相比，本发明提出的聚类有效性评价方法能够获得最接近真实聚类数的近似最优聚类数，能更有效地评估聚类划分结果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的具体实施方式一起用于解释本发明，并不构成对本发明的限制。

图1为常规聚类有效性验证流程图；

图2为基于距离平方和差值比的聚类有效性评估方法流程图；

图3为形状数据集2维图；

图4为高斯数据集2维图；

图5为Spiral的聚类数-RDSED关系图；

图6为Lineblobs的聚类数-RDSED关系图；

图7为Square1的聚类数-RDSED关系图；

图8为Twenty的聚类数-RDSED关系图；

图9为Iris的聚类数-RDSED关系图；

图10为Glass的聚类数-RDSED关系图；

图11为Wine的聚类数-RDSED关系图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明一种基于距离平方和差值比的聚类有效性评估方法。在最大聚类数到最小聚类数搜寻范围内，依次计算RDSED值，当前RDSED值低于设置阈值时，则继续计算下一个聚类数对应的指标值，当RDSED值高于设置阈值时，当前聚类数无效，并动态终止聚类过程，同时将前一次RDSED指标值对应的聚类数确定为近似最佳聚类数。通过聚类有效性指标RDSED动态确定近似最佳聚类数是本方法的核心所在。

S1：划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n，则设置最小聚类数m_min＝2，最大聚类数

S2：在数据集D上，在预设的聚类数范围[mmin,mmax]内连续运行聚类算法，包括如HACAL、K-means等；

S3：根据聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m) 及RDSED(m)；

S4：当RDSED(m)小于设定阈值时，表明当前的聚类解决方案是可以接受的，则继续计算下一个聚类数对应的聚类结果及相应指标值；当RDSED(m)大于等于设定阈值时，当前聚类数无效，表明前一个聚类数的聚类结果是有效的。此时终止RDSED的计算，并将前一个聚类数m+1确定为近似最佳聚类数，记为m*

聚类过程产生的类簇都是在欧式空间下进行。假设待聚类的数据集包含d 维数据，给定m×n数据集矩阵，n为数据集中的样本个数，m表示数据集的聚类个数，任意两个数据集样本x_i和x_j的欧式距离为：

由于本发明提出的CVI综合考虑了多种聚类度量，为此基于以上假设引入如下定义：

定义1簇内平方和SSW(Within-cluster Sum-of-Squares)：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，对于任意的

x_i∈c_i， j∈[1,d]，

簇内平方和叉积矩阵

SSW＝trace(SS_w) (2)

其中

为类簇i中心。

定义2簇间平方和SSB(Between-cluster Sum-of-Squares)：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，对于任意的类簇，

计算类簇

的叉积矩阵

SSB＝trace(SS_B) (4)

其中

表示分类至第i个类簇的数据样本个数，

为类簇i中心。

定义3总平方和SST(Total Sum-of-Squares)：假设待聚类的数据集包含 d维数据，给定m×n数据集矩阵，对于任意的

SST＝trace(SS_T) (5)

SST＝SSW+SSB (6)

其中

定义4簇内距离和SID(Sum of Intra-cluster Distance)：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，

分别为类簇 c₁,c₂,...,c_m的簇内距离和，对每个类簇，簇内距离和为类内每个样本与类簇中心的欧式距离和。则整个数据集的簇内距离和为：

其中n为数据集的样本个数，m表示聚类个数，

定义5簇间平均距离ADB(Average Distance Between clusters)：假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，簇间距离定义为各类簇中心之间的欧氏距离即：

其中，

利用定义1-5，定义距离平方和差值比如下：

定义6距离平方和差值比RDSED(Ratio of Deviation of Sum-of-squares andEuclid Distance):假设待聚类的数据集包含d维数据，给定m×n数据集矩阵，距离平方和差值DSED(Deviation of Sum-of-squares and Euclid Distance) 定义为：

DSED(m)＝|(SSW/SSB)·SST-SID/ADB-(n-m)| (9)

其中，n为数据集数据对象个数，m为聚类数。

距离平方和差值比可定义为相邻两个聚类数对应的DSED之差与较大DSED 值之比，

当初始簇形成时，簇内相似度高，簇间相似度低。这意味着每个簇内的变化是最小的，簇间的变化是最大的。这种变化表明，对于获得的每个聚类组合，需要在每个层级探究聚类的全局和本地邻近性。

为了反映聚类结构的类内相似性和类间分离性，本发明用簇内平方和与簇内距离代表类簇之内的邻近关系，用簇间平方和簇间距离表示类簇间的分离性。 SSW/SSB的比值和SID/ADB的比值反映了各个层次的变化量，这两个比值可以反映指标在不同聚类数m下的变化情况。比值越小，簇内距离越小，相似性越大。比例越大，簇间的距离就越大，因此分离也就越大。因此，SSW/SSB和SID/ADB 越小，聚类效果越好。因此，这两个比率可以有效地终止聚类有效性验证过程。

在式(9)中，当SSW/SSB非常小时(即当聚类数取值很大时)，该项作用受到抑制，因此该项乘以总平方和SST。对于不同聚类数m，SST的值可以基本看作一个常数，而数据样本数与聚类数之差(n-m)则是为了制约CVI产生过大影响。由式(10)可知，当DSED(m)＞DSED(m+1)时，即当前的DSED值大于前序DSED 值时，取ΔDSED(m)＝DSED(m)-DSED(m+1)，否则，当前的DSED值不大于前序DSED值时，取ΔDSED(m)＝DSED(m+1)-DSED(m)。如果DSED(m)和DSED(m+1) 之间的差值越大，则RDSED(m)越接近于1。两者间较大的差值可能是不相容簇形成的结果，因此，此时可动态终止聚类过程，得到真实的聚类结果。如果DSED(m) 和DSED(m+1)之间的差值越小，则RDSED(m)越趋向于接近0，这表明当前的聚类解决方案是可以接受的，聚类有效性验证过程应该继续进行。从RDSED的计算公式可见，RDSED的取值范围为[0,1]。

根据定义6，确定了相邻簇的数量,当DSED显示出较大的变化时，RDSED 值将超过可接受的正常范围，这表明，在聚类有效性验证过程中，当接近最小类内距离和最大类间距离的聚类目标时，相应的聚类数可以使聚类有效性指标发生显著变化。因此，可以使用RDSED获得近似最优聚类数，并动态终止聚类有效性验证过程。

实施例一：为验证本发明提出的RDSED指标确定近似最佳聚类数的性能，本发明在基于距离平方和差值比的近似最佳聚类数动态确定算法中结合使用 K-means算法和HACAL算法，在7个数据集上设计实施了两组实验进行测试。 K-means算法是最常用的划分式聚类算法之一，通过优化簇内平方和距离来实现聚类。HACAL使用自下而上的合并策略，初始状态为每个数据对象是独立一个类簇，然后合并平均距离最小的两个类簇，直到满足某个终止条件。

聚类数的搜索范围为[2,m_max]之间的整数，其中

n为数据集样本个数，RDSED阈值设为0.55。当RDSED<0.55，聚类验证继续进行；当 RDSED≥0.55时，聚类验证终止。算法运行环境为：微软Windows 7(64位)操作系统，酷睿i5-2410M CPU 2.3GHz频率，内存2GB。

实验使用的数据集包括各类形状数据集、高斯数据集以及来自加州大学欧文分校的UCI机器学习库真实数据集。各数据集的聚类个数、维数以及数据集样本总数如表1所示。

表1个数据参数表

(1)2个形状数据集包括Spiral和Lineblobs，它们的二维分布图如图3 所示。

(2)2个高斯数据集包括Square1和Twenty，它们的二维分布图如图4所示。

(3)Iris数据集是3类鸢尾花植物的特征数据，其样本属性分别为：花瓣长度、花瓣宽度、萼片长度和萼片宽度。其样本空间分布1类与其它2类完全分离，而另外2类之间有部分重叠。

(4)Glass数据集中每个数据样本包含9个特征属性，分别代表玻璃碎片的折射率以及8种金属氧化物的百分含量。共分为6种不同种类且样本数各异。

(5)Wine数据集是对生长在同一地区的3个不同品种的葡萄酒化学分析结果。数据集由3类共178个数据样本组成，每个数据样本有包含13个属性，3 类没有重叠区域但分界不清晰。

实施例2：本发明首先采用来源于CSDN资源网站的人工数据集(包括2个形状数据集和2个高斯数据集)来测试RDSED指标性能，并利用聚类数-RDSED 关系图来说明这些数据集上测试的实验结果及其分析。

图5给出了K-means算法和HACAL算法在Spiral数据集上的聚类数-RDSED 关系图。图中可见，K均值算法和HACAL算法确定的近似最佳聚类数分别为2和 7，两种算法的聚类验证过程均是从m_max＝31向m_min＝2移动。对于K-means算法，其在m＝31到m＝2范围内的RDSED值都小于0.55，说明m＝2为真实聚类数；而对于HACAL算法，其RDSED值在m＝31到m＝7范围内都是在可接受范围内，而在m＝6 时，其对应的RDSED高于0.55，此时DSED(6)与DSED(7)值相差较大，m＝6时聚类验证过程终止，说明m＝7为真实聚类数。

图6为K-means算法和HACAL算法在Lineblobs数据集上的聚类数-RDSED 关系图。图中可见，两种算法确定的近似最佳聚类数均为2，算法聚类验证过程均是从m_max＝16向m_min＝2移动。两种算法在m＝16到m＝2范围内的RDSED值都小于0.55，说明m＝2为真实聚类数。

图7给出了K-means算法和HACAL算法在Square1数据集上的聚类数-RDSED 关系图。图中可见，两种算法确定的近似最佳聚类数均为4，算法聚类验证过程均是从m_max＝31向m_min＝2移动。对于两种算法，它们在m＝31到m＝4范围内的 RDSED值都小于0.55，而在m＝3时，对应的RDSED高于0.55，此时DSED(3)与 DSED(4)值相差较大，m＝3时聚类验证过程终止，说明m＝4为真实聚类数。

图8给出了K-means算法和HACAL算法在Twenty数据集上的聚类数-RDSED 关系图。图中可见，两种算法确定的近似最佳聚类数均为20，算法聚类验证过程均是从m_max＝31向m_min＝2移动。对于两种算法，其RDSED值在m＝31到m＝20 范围内都是在可接受范围内，即RDSED指标值小于0.55，而在m＝19时，对应的 RDSED都高于0.55，此时DSED(19)与前一轮次DSED(20)值相差较大，m＝19时聚类验证过程终止，说明m＝20为真实聚类数。

本发明采用来源于UCI机器学习库的3个真实数据集(Iris、Glass、Wine) 来测试RDSED指标性能。同样，利用聚类数-RDSED关系图来说明这些数据集上测试的实验结果及其分析。

图9给出了K-means算法和HACAL算法在Iris数据集上的聚类数-RDSED指标关系图。图中可见两种算法确定的近似最佳聚类数均为3，聚类验证过程均是从m_max＝12向m_min＝2移动。对于两种算法，其RDSED值在m＝12到m＝3范围内都是在可接受范围内，即RDSED指标值小于0.55，而在m＝2时，其对应的RDSED 高于0.55，此时DSED(2)与前一轮次DSED(3)值相差较大，m＝2时聚类验证过程终止，说明m＝3为真实聚类数。

图10给出了K-means算法和HACAL算法在Glass数据集上的聚类数-RDSED 关系图。图中可见，K-means算法和HACAL算法确定的近似最佳聚类数分别为8 和6，两种算法的聚类验证过程均是从m_max＝14向m_min＝2移动。对于K-means 算法，其RDSED值在m＝14到m＝8范围内都是在可接受范围内，即RDSED指标值小于0.55，而在m＝7时，其对应的RDSED高于0.55，此时DSED(7)与前一轮次 DSED(8)值相差较大，m＝7时聚类验证过程终止，说明m＝8为真实聚类数。而对于HACAL算法，其RDSED值在m＝14到m＝6范围内都是在可接受范围内，即RDSED指标值小于0.55，而在m＝5时，其对应的RDSED高于0.55，此时DSED(5)与前一轮次DSED(6)值相差较大，m＝5时聚类验证过程终止，说明m＝6为真实聚类数。

图11给出了K-means算法和HACAL算法在Wine数据集上的聚类数-RDSED 关系图。图中可见，两种算法的近似最佳聚类数均为3，算法聚类验证过程均是从m_max＝13向m_min＝2移动。对于两种算法，其RDSED值在m＝13到m＝3范围内都是在可接受范围内，即RDSED指标值小于0.55，而在m＝2时，其对应的RDSED 高于0.55，此时DSED(2)与前一轮次DSED(3)值相差较大，m＝2时聚类验证过程终止，说明m＝3为真实聚类数。

图5-图11中在各个数据集上的RDSED指标值都是根据表2和表3的DSED 指标值算出的，其中表2为K-means算法产生的DSED指标值，表3给出的则是 HACAL算法的DSED指标值。由于每个数据集的近似最佳聚类数搜索范围都不尽相同，为便于比较，表2和表3给出了[2,20]范围内的DSED值。其中“—”表示其对应数据集在对应聚类数m不含有DSED值。两个表格分别说明了K-means 算法和HACAL算法从mmax到mmin不同聚类数下多个相邻聚类划分的数值差异 (DSED值)，所提出的RDSED指标则比较这种差异来确定近似最佳聚类数。

表2聚类数范围在[2,20]内使用K均值算法的DSED指标值

表3聚类数范围在[2,20]内使用HACAL算法的DSED指标值

根据以上实验结果，我们可以发现在结合使用K-means算法和HACAL算法情形下，本发明所提出的聚类有效性指标RDSED几乎在所有实验数据集上都能得到真实聚类数。对于K-means算法，RDSED指标除了在Lineblobs和Glass上与真实聚类数不符，在其他数据集上都能发现真实聚类数；而对于HACAL算法，RDSED 指标除了在Lineblobs和Spiral上与真实聚类数不符，在其他数据集上都能发现真实聚类数。图2给出的Lineblobs分布图是在粒度较小下的分布图，若增大 Lineblobs粒度，此时该数据集的可分性就更好，而且数据样本数与聚类数之差 (n-m)对DSED值产生了过大影响，因此，本实验采用的两种算法都是在m＝2处终止，无法正确发现真实聚类数。而K-means算法在Glass上得到的聚类数为8，主要原因在于较大差异的DSED提前出现，而这种较大差异并不能够一直对应实际类簇分布，也就无法得到正确聚类数。HACAL算法在Spiral上得到的聚类数为7，主要原因有两点：(1)DSED值的较大差异提前出现；(2)HACAL算法产生的链状聚类结果与实际数据集类簇位置分布不符。

此外，将图6-图11中的两条折线比较，绿线的陡峭程度高于蓝线，即K-means 算法对应的折线更加陡峭，说明稳定性较差的算法(K-means算法)能够将相邻聚类划分的数值差异(DSED值)放大，使得差异更加明显，因此，稳定性较差的算法更有利于RDSED指标发现真实聚类数，但算法的稳定性却会制约指标的稳定性。

本发明选择7个常用的聚类有效性指标(Dunn、DB、Wint、C]、Sil、Hartigan 和KL)与RDSED进行实验比较，来说明RDSED指标的性能。实验采用的数据集为Spiral、Lineblobs、Square1、Twenty、Iris、Glass和Wine。

为了说明不同CVI的稳定性，接下来我们在人工数据集和真实数据集上使用 K-means算法运行了20次，得到的近似最佳聚类数均值如表4，其中m*为真实聚类数。

K-means算法通常适用于高斯数据集的聚类，因此其在高斯数据集上的聚类效果明显优于形状数据集上的聚类结果(见表4)；对于正确聚类数和样本较多的大数据集(Twenty)，大部分指标的聚类数均值都能接近20，其原因是Twenty 数据集中的每个类簇都具有常规网格结构；由于CH指标对含有一定重叠度的数据集敏感，因此，在所有指标中，CH指标的性能最差；而有些CVI对于可分性较好的人工数据集也不能得到正确的聚类数，例如CH指标在Spiral数据集中得到的近似最佳聚类数均值为30；和其它7种有效性指标相比，RDSED指标在其他大部分数据集上的稳定性都最优，除了Lineblobs数据集和Glass数据集，其在其他数据集上得到的近似最佳聚类数均值都是最优的。因此，RDSED在人工数据集上得到的聚类数最接近真实聚类数，Wint次之。

表4 K均值算法下各CVI得到的各数据集近似最佳聚类数均值。