CN113344019A

CN113344019A - 一种决策值选取初始聚类中心改进的K-means算法

Info

Publication number: CN113344019A
Application number: CN202110076198.1A
Authority: CN
Inventors: 彭显
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-09-03

Abstract

本发明提供了一种基于决策值选取初始聚类中心改进的K‑means算法，操作如下：输入：数据集D，聚类簇数k；输出：聚类结果C。Step1.对D中的每个数据对象，计算样本点x_i的局部密度ρ_i，计算样本点x_i的相对距离δ_i；Step2.根据样本点x_i的局部密度和相对距离计算决策值γ_i，并按照决策值大小进行降序排列，构造以样本点总数n为横轴，决策值γ为纵轴的决策值图；Step3.根据输入的聚类簇数，自动选取k个远离平滑区域，且决策值较大的样本点作为初始聚类中心。Step4.根据距离最近原则确定样本点所属簇标记，将样本点x_j划入相对应的簇；Step5.利用各簇的中位数代替原来的平均值，重新计算新的聚类中心μ′_i；如果μ′_i≠μ_i，则更新聚类中心，转至step4；否则，算法收敛，输出最终聚类结果，聚类结束。

Description

一种决策值选取初始聚类中心改进的K-means算法

技术领域

本发明涉及机器学习领域,特别涉及一种决策值选取初始聚类中心改进的K-means算法。

背景技术

聚类是把一个数据对象集划分为多个簇的过程，使得簇内的对象相似程度高，但与其他簇中的对象差别尽可能大^]。聚类算法作为数据挖掘的一种重要工具已经广泛地应用于各个领域，例如：图像模式识别、生物学、边界检测等。正因为聚类分析的广泛应用，国内外学者针对不同的数据对象提出了许多聚类方法，其中比较经典的有基于划分的K-means算法、基于网格的STING(STatistical INformation Grid)算法、基于密度的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法，近几年研究者提出的最新算法有近邻传播AP(Affinity Propagation)算法，该算法通过选定的偏向参数，不断更新每个数据点的归属度和吸引度来完成聚类，算法可以自行确定聚类数，但时间复杂度较高。Rodriguez等人于2014 年提出了一种快速搜索密度峰值聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks)，以数据点的局部密度和相对距离为基础绘制决策图，选取决策图中密度峰值点作为簇中心，并将其余非聚类样本点划分到最近的聚类中心所在的簇中实现聚类。

发明内容

该算法改进思路主要分两个步骤进行聚类:

S1、选取初始聚类中心；通过计算每个样本点的密度和距离，并相乘求得决策值，选取决策值较大的k个样本点作为初始聚类中心点；

S2、聚类；按传统的K-means算法进行聚类，但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代，消除离群点对聚类结果的影响；

IKDV算法主要步骤如下：

输入：数据集D，聚类簇数k；

输出：聚类结果C；

Step1.对D中的每个数据对象，计算样本点x_i的局部密度ρ_i，计算样本点x_i的相对距离δ_i；

Step2.根据样本点x_i的局部密度和相对距离计算决策值γ_i，并按照决策值大小进行降序排列，构造以样本点总数n为横轴，决策值γ为纵轴的决策值图；

Step3.根据输入的聚类簇数，自动选取k个远离平滑区域，且决策值较大的样本点作为初始聚类中心{μ₁,μ₂…,μ_k}；

Step4.根据距离最近原则确定样本点x_j(1≤j≤n)所属簇标记：

将样本点x_j划入相对应的簇：

Step5.利用各簇的中位数代替原来的平均值，重新计算新的聚类中心μ_i′；如果μ_i′≠μ_i，则更新聚类中心，转至step4；否则，算法收敛，输出最终聚类结果，聚类结束；

通过聚类评价指标对比来精确计算聚类结果的准确性，因此采用 2种评价指标对聚类结果进行定量分析，具体计算公式如下：

1)聚类准确率(clustering accuracy，简称ACC)^]：

其中，n表示样本总数，a_i表示簇i中聚类正确的样本个数；ACC 的范围在0-1之间，ACC的值越大，表明聚类结果越准确；

2)标准化互信息(normalized mutual information，简称NMI)：

其中，m表示数据集指定的聚类类别数，

表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数，

表示聚类结果簇i中数据点的个数，

表示真实标签类j中数据点的个数，NMI取值范围为 [0,1]，主要用来衡量各样本分布的吻合程度。

其中，步骤S2中的K-means算法为：

算法以决策值为基础，对K-means算法选取初始聚类中心进行优化，通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ，只有当决策值较大时，才能成为初始聚类中心点，首先给出相关定义，对于任意样本点i，局部密度ρ_i有两种计算方式：截断核和高斯核，具体定义如下：

其中，d_ij为样本点i和j的距离，d_c为样本点的截断距离，式(1) 为截断核，即i落在截断距离范围内的数据点个数，适用于聚类离散型数据集；式(2)为高斯核，指所有样本点到该点的高斯距离之和，适用于聚类连续型数据集，

相对距离δ_i指样本点i与其他局部密度更高的点之间的距离，其计算公式如下：

对于局部密度最大的点，CFSFDP算法认为该点必为聚类中心点，因此取

决策值γ_i指局部密度ρ_i与相对距离δ_i的乘积，计算公式如下：

γ_i＝ρ_i·δ_i (4)。

附图说明

图1为本算法的流程图；

图2为数据分布图；

图3决策值；

图4不同算法准确率对比图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，通过模拟数据实验对本发明实施方式作进一步的详细描述。

实施例1

参照图1-4，一种决策值选取初始聚类中心改进的K-means算法，该算法改进思路主要分两个步骤进行聚类:

IKDV算法主要步骤如下：

输入：数据集D，聚类簇数k；

输出：聚类结果C；

Step4.根据距离最近原则确定样本点x_j(1≤j≤n)所属簇标记：

将样本点x_j划入相对应的簇：

1)聚类准确率(clustering accuracy，简称ACC)]：

2)标准化互信息(normalized mutual information，简称NMI)：

其中，m表示数据集指定的聚类类别数，

表示聚类结果簇i中数据点的个数，

其中，步骤S2中的K-means算法为：

γ_i＝ρ_i·δ_i (4)。

为了进一步验证本文改进算法的稳定性和有效性，表1给出了 IKDV算法与K-means、K-mediods算法在Iris数据集上的详细情况。三种算法共运行10次，并给出了每次运行时所选取的初始中心点(用数据集中对应的编号表示)、初始聚类中心所对应的实际类别、迭代次数、运行时间。

表1三种算法在Iris数据集上的有效性结果对比

从表1中可以看出，传统的K-means算法每次选取的初始聚类中心都是随机的，导致每次聚类结果不一致；并且在很多情况下，选取的初始聚类中心可能位于同一个簇中，这样使得最初的聚类中心过于邻近，导致算法迭代次数增加。K-mediods算法利用中心点代替均值进行后续的聚类中心迭代，排除了离群点对结果的影响，比K-means 算法迭代次数少，运行速度快，但由于该算法选取初始聚类中心还是随机的，因此最终得到的聚类结果依然不稳定。本文改进的算法虽然迭代次数比K-mediods多，但每次运行所选取的初始聚类中心是唯一的，且每个聚类中心点与真实类别相对应，算法具有很好的稳定性。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。