CN113361616A

CN113361616A - 一种优化聚类中心的k-means算法

Info

Publication number: CN113361616A
Application number: CN202110669183.6A
Authority: CN
Inventors: 沈学利; 陈治琦
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-09-07

Abstract

本发明公开了一种优化聚类中心的k‑means算法，包括：求出样本数据集的样本均值C和平均距离ad；根据空间两点间的距离公式计算出所有数据对象与C的距离；通过两点间距离公式找到与方向位置点X₁的距离小于等于平均距离ad的数据点；计算所有样本集数据对象与方向位置点O₁的距离；重复上述过程，直到找到K个初始聚类中心为止。本发明提出的初始聚类中心优化的K‑Means改进算法，降低了聚类结果对初始聚类中心的依赖性，提高了聚类的精度、收敛速度以及稳定性，并且也摆脱了容易受孤立点的影响。

Description

一种优化聚类中心的k-means算法

技术领域

本发明属于图像处理和数据挖掘的技术领域，尤其涉及一种优化聚类中心的k-means算法。

背景技术

近几年时间，大数据时代的到来促使机器学习技术飞速发展。聚类分析作为传统机器学习算法中常用方法之一，由于其实用、简单和高效的特性而广受青睐，它已成功应用于许多领域，聚类也是数据挖掘中一个重要的概念，其核心是寻找数据对象中隐藏的有价值的信息。

K-Means算法作为聚类算法中最流行的算法，相较于其他的聚类算法，K-Means算法以效果较好、思想简单的优点在聚类算法中得到了广泛的应用。但是，K-Means算法也有其自身的局限性，比如算法中聚簇个数k需要事先确定，初始聚类中心由随机选取产生，离群点对聚类结果的影响等。针对上述的缺点，各个领域的学者提出了不同的改进算法。

现有技术以样本的方差作为选取K-means初始聚类中心的启发信息，以样本间的平均距离为半径，选择K个位于不同区域且在该区域方差最小的样本作为初始聚类中心，不需要其他参数选择，提出基于样本分布紧密度的最小方差优化初始聚类中心的Kmeans聚类算法。方差是数据集中各数据与其平均数之差的平方和的期望，样本方差的算术平方根为样本标准差样本方差与样本标准差都是衡量一个样本波动大小的量，样本方差或样本标准差越大，样本数据的波动就越大。方差和标准差是测算样本离散趋势最重要和最常用的指标。方差是测算数值型数据离散程度的最重要方法。K-means算法的初始聚类中心如果选择到每一个类簇的中心，其方差将最小。但这种方式所完成的聚类精度较传统K-Mean聚类算法没有明显的提高，聚类结果对初始聚类中心的依赖性高，收敛速度以及稳定性不强。

发明内容

针对传统的K-Means算法对初始聚类中心敏感而导致的聚类精度低、稳定性差等问题，本发明提出一种优化聚类中心的k-means算法，降低了聚类结果对初始聚类中心的依赖性，提高了聚类的精度、收敛速度以及稳定性，并且也摆脱了容易受孤立点的影响。

为了解决上述技术问题，本发明提供一种优化聚类中心的k-means算法，包括以下步骤：

步骤1、求出样本数据集X＝{X₁，X₂，...，X_n}的样本均值C和平均距离ad；

步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X，C)，选择满足d(X_i，C)≥d(X_j，C)，(i，j＝1，2，...，n)的数据对象X_i，找到该方向位置点并记作O₁；

步骤3、通过两点间距离公式找到与方向位置点X₁的距离小于等于平均距离ad的数据点，并将其放入到集合Z₁中，寻找结束后并统计集合Z₁中的所包含的数据点个数记作n₁，然后判断n₁是否大于等于β，其中β为样本集数据点的数目与聚类的簇类数目的比值；若满足条件，则取该集合内的所有样本数据点的均值作为初始聚类中心点；

步骤4、计算所有样本集数据对象与方向位置点O₁的距离d(X，O₁)，选择能够满足d(X_i，C)+d(X_i，O₁)≥d(X_j，C)+d(X_j，O₁)的数据对象X_i，将第二个方向位置点记作O₂，同理，计算与方向位置点O₂的距离小于等于平均距离ad的数据点，并放入集合Z₂中，并统计集合中的数据点数n₂，然后判断n₂是否大于等于β，若满足条件，则取该集合的数据点的均值为该第二个初始聚类中心点；

步骤5、重复上述过程，直到找到K个初始聚类中心为止，其中当出现某个集合中的样本数据点的数量不满足大于等于β的情况，则继续寻找下一个方向位置点进行判断，方向位置点O的寻找及确定需要满足如下条件：计算所有样本数据对象与方向位置点O距离d(X_i，O)，其中O＝(O₁，O₂，...，O_m)，然后寻找满足

的数据点O作为第m个方向位置点。

进一步的，所述步骤1中，样本数据集的平均距离为：

由上，本发明通过计算数据集所有样本的方差，以及所有样本间的距离均值，启发式地选择位于样本分布密集区域，且相距较远的样本为K-means的初始聚类中心。启发式选择过程为：首先选择方差最小的那个样本为第一个类簇的初始中心，以R为半径做圆；然后，在圆之外的样本中，寻找方差最小的样本作为第二个类簇的初始中心，以R为半径做圆；重复在剩余样本中选择下一个类簇的初始聚类中心，直到第K个类簇的初始中心选择到，便得到了K-means算法的初始聚类中心向量。本发明提出的初始聚类中心优化的K-Means改进算法，降低了聚类结果对初始聚类中心的依赖性，提高了聚类的精度、收敛速度以及稳定性，并且也摆脱了容易受孤立点的影响。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的优化聚类中心的k-means算法的流程图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

如图1所示，本发明的优化聚类中心的k-means算法，包括以下步骤：

步骤1、求出样本数据集X＝{X₁，X₂，...，X_n}的样本均值C和平均距离ad；样本数据集的平均距离为：

步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X，C)，选择满足d(X_i，C)≥d(X_j，C)，(i，j＝1，2，...，n)的数据对象X_i，找到该方向位置点并记作O₁。

步骤3、通过两点间距离公式找到与方向位置点X₁的距离小于等于平均距离ad的数据点，并将其放入到集合Z₁中，寻找结束后并统计集合Z₁中的所包含的数据点个数记作n₁，然后判断n₁是否大于等于β，其中β为样本集数据点的数目与聚类的簇类数目的比值；若满足条件，则取该集合内的所有样本数据点的均值作为初始聚类中心点。

步骤4、计算所有样本集数据对象与方向位置点O₁的距离d(X，O₁)，选择能够满足d(X_i，C)+d(X_i，O₁)≥d(X_j，C)+d(X_j，O₁)的数据对象X_i，将第二个方向位置点记作O₂，同理，计算与方向位置点O₂的距离小于等于平均距离ad的数据点，并放入集合Z₂中，并统计集合中的数据点数n₂，然后判断n₂是否大于等于β，若满足条件，则取该集合的数据点的均值为该第二个初始聚类中心点。

的数据点O作为第m个方向位置点。

鉴于传统K-Means算法的聚类结果的不稳定性，将每组实验分别进行了5组随机实验，然后计算5组实验结果的平均值来进行统计和比较，这样，可以保证实验结果的客观性和合理性。实验结果数据如表1所示。

表1实验结果具体数据

本发明首先获得数据样本均值和样本数据集的平均距离，然后根据样本与均值的距离远近来获得方向位置点，接下来就是以平均距离为半径作圆，并统计圆内的数据点的数量，然后将此数据点的数量与样本数据集总数与聚类的类别数目的比值进行比较大小，判断是否大于或等于样本数据集总数与聚类的类别数目的比值，若成立，则计算圆内的数据点的均值，并将此均值对应的数据点作为初始聚类中心；若不成立，则继续寻找方向位置点进行判断。重复以上步骤，直到寻找到K个初始聚类中心为止。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种优化聚类中心的k-means算法，其特征在于，包括以下步骤：

步骤1、求出样本数据集X＝{X₁,X₂,...,X_n}的样本均值C和平均距离ad；

步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C)，选择满足d(X_i,C)≥d(X_j,C),(i,j＝1,2,...,n)的数据对象X_i，找到该方向位置点并记作O₁；

步骤4、计算所有样本集数据对象与方向位置点O₁的距离d(X,O₁)，选择能够满足d(X_i,C)+d(X_i,O₁)≥d(X_j,C)+d(X_j,O₁)的数据对象X_i，将第二个方向位置点记作O₂，同理，计算与方向位置点O₂的距离小于等于平均距离ad的数据点，并放入集合Z₂中，并统计集合中的数据点数n₂，然后判断n₂是否大于等于β，若满足条件，则取该集合的数据点的均值为该第二个初始聚类中心点；

步骤5、重复上述过程，直到找到K个初始聚类中心为止，其中当出现某个集合中的样本数据点的数量不满足大于等于β的情况，则继续寻找下一个方向位置点进行判断，方向位置点O的寻找及确定需要满足如下条件：计算所有样本数据对象与方向位置点O距离d(X_i,O)，其中O＝(O₁,O₂,...,O_m)，然后寻找满足

(i,j＝1,2,...,n)的数据点O作为第m个方向位置点。

2.如权利要求1所述的优化聚类中心的k-means算法，其特征在于，所述步骤1中，样本数据集的平均距离为：