CN113361616A - 一种优化聚类中心的k-means算法 - Google Patents
一种优化聚类中心的k-means算法 Download PDFInfo
- Publication number
- CN113361616A CN113361616A CN202110669183.6A CN202110669183A CN113361616A CN 113361616 A CN113361616 A CN 113361616A CN 202110669183 A CN202110669183 A CN 202110669183A CN 113361616 A CN113361616 A CN 113361616A
- Authority
- CN
- China
- Prior art keywords
- sample
- distance
- points
- data
- position point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000002474 experimental method Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001507 sample dispersion Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种优化聚类中心的k‑means算法,包括:求出样本数据集的样本均值C和平均距离ad;根据空间两点间的距离公式计算出所有数据对象与C的距离;通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点;计算所有样本集数据对象与方向位置点O1的距离;重复上述过程,直到找到K个初始聚类中心为止。本发明提出的初始聚类中心优化的K‑Means改进算法,降低了聚类结果对初始聚类中心的依赖性,提高了聚类的精度、收敛速度以及稳定性,并且也摆脱了容易受孤立点的影响。
Description
技术领域
本发明属于图像处理和数据挖掘的技术领域,尤其涉及一种优化聚类中心的k-means算法。
背景技术
近几年时间,大数据时代的到来促使机器学习技术飞速发展。聚类分析作为传统机器学习算法中常用方法之一,由于其实用、简单和高效的特性而广受青睐,它已成功应用于许多领域,聚类也是数据挖掘中一个重要的概念,其核心是寻找数据对象中隐藏的有价值的信息。
K-Means算法作为聚类算法中最流行的算法,相较于其他的聚类算法,K-Means算法以效果较好、思想简单的优点在聚类算法中得到了广泛的应用。但是,K-Means算法也有其自身的局限性,比如算法中聚簇个数k需要事先确定,初始聚类中心由随机选取产生,离群点对聚类结果的影响等。针对上述的缺点,各个领域的学者提出了不同的改进算法。
现有技术以样本的方差作为选取K-means初始聚类中心的启发信息,以样本间的平均距离为半径,选择K个位于不同区域且在该区域方差最小的样本作为初始聚类中心,不需要其他参数选择,提出基于样本分布紧密度的最小方差优化初始聚类中心的Kmeans聚类算法。方差是数据集中各数据与其平均数之差的平方和的期望,样本方差的算术平方根为样本标准差样本方差与样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。方差和标准差是测算样本离散趋势最重要和最常用的指标。方差是测算数值型数据离散程度的最重要方法。K-means算法的初始聚类中心如果选择到每一个类簇的中心,其方差将最小。但这种方式所完成的聚类精度较传统K-Mean聚类算法没有明显的提高,聚类结果对初始聚类中心的依赖性高,收敛速度以及稳定性不强。
发明内容
针对传统的K-Means算法对初始聚类中心敏感而导致的聚类精度低、稳定性差等问题,本发明提出一种优化聚类中心的k-means算法,降低了聚类结果对初始聚类中心的依赖性,提高了聚类的精度、收敛速度以及稳定性,并且也摆脱了容易受孤立点的影响。
为了解决上述技术问题,本发明提供一种优化聚类中心的k-means算法,包括以下步骤:
步骤1、求出样本数据集X={X1,X2,...,Xn}的样本均值C和平均距离ad;
步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C),选择满足d(Xi,C)≥d(Xj,C),(i,j=1,2,...,n)的数据对象Xi,找到该方向位置点并记作O1;
步骤3、通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点,并将其放入到集合Z1中,寻找结束后并统计集合Z1中的所包含的数据点个数记作n1,然后判断n1是否大于等于β,其中β为样本集数据点的数目与聚类的簇类数目的比值;若满足条件,则取该集合内的所有样本数据点的均值作为初始聚类中心点;
步骤4、计算所有样本集数据对象与方向位置点O1的距离d(X,O1),选择能够满足d(Xi,C)+d(Xi,O1)≥d(Xj,C)+d(Xj,O1)的数据对象Xi,将第二个方向位置点记作O2,同理,计算与方向位置点O2的距离小于等于平均距离ad的数据点,并放入集合Z2中,并统计集合中的数据点数n2,然后判断n2是否大于等于β,若满足条件,则取该集合的数据点的均值为该第二个初始聚类中心点;
步骤5、重复上述过程,直到找到K个初始聚类中心为止,其中当出现某个集合中的样本数据点的数量不满足大于等于β的情况,则继续寻找下一个方向位置点进行判断,方向位置点O的寻找及确定需要满足如下条件:计算所有样本数据对象与方向位置点O距离d(Xi,O),其中O=(O1,O2,...,Om),然后寻找满足的数据点O作为第m个方向位置点。
进一步的,所述步骤1中,样本数据集的平均距离为:
由上,本发明通过计算数据集所有样本的方差,以及所有样本间的距离均值,启发式地选择位于样本分布密集区域,且相距较远的样本为K-means的初始聚类中心。启发式选择过程为:首先选择方差最小的那个样本为第一个类簇的初始中心,以R为半径做圆;然后,在圆之外的样本中,寻找方差最小的样本作为第二个类簇的初始中心,以R为半径做圆;重复在剩余样本中选择下一个类簇的初始聚类中心,直到第K个类簇的初始中心选择到,便得到了K-means算法的初始聚类中心向量。本发明提出的初始聚类中心优化的K-Means改进算法,降低了聚类结果对初始聚类中心的依赖性,提高了聚类的精度、收敛速度以及稳定性,并且也摆脱了容易受孤立点的影响。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的优化聚类中心的k-means算法的流程图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
如图1所示,本发明的优化聚类中心的k-means算法,包括以下步骤:
步骤1、求出样本数据集X={X1,X2,...,Xn}的样本均值C和平均距离ad;样本数据集的平均距离为:
步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C),选择满足d(Xi,C)≥d(Xj,C),(i,j=1,2,...,n)的数据对象Xi,找到该方向位置点并记作O1。
步骤3、通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点,并将其放入到集合Z1中,寻找结束后并统计集合Z1中的所包含的数据点个数记作n1,然后判断n1是否大于等于β,其中β为样本集数据点的数目与聚类的簇类数目的比值;若满足条件,则取该集合内的所有样本数据点的均值作为初始聚类中心点。
步骤4、计算所有样本集数据对象与方向位置点O1的距离d(X,O1),选择能够满足d(Xi,C)+d(Xi,O1)≥d(Xj,C)+d(Xj,O1)的数据对象Xi,将第二个方向位置点记作O2,同理,计算与方向位置点O2的距离小于等于平均距离ad的数据点,并放入集合Z2中,并统计集合中的数据点数n2,然后判断n2是否大于等于β,若满足条件,则取该集合的数据点的均值为该第二个初始聚类中心点。
步骤5、重复上述过程,直到找到K个初始聚类中心为止,其中当出现某个集合中的样本数据点的数量不满足大于等于β的情况,则继续寻找下一个方向位置点进行判断,方向位置点O的寻找及确定需要满足如下条件:计算所有样本数据对象与方向位置点O距离d(Xi,O),其中O=(O1,O2,...,Om),然后寻找满足 的数据点O作为第m个方向位置点。
鉴于传统K-Means算法的聚类结果的不稳定性,将每组实验分别进行了5组随机实验,然后计算5组实验结果的平均值来进行统计和比较,这样,可以保证实验结果的客观性和合理性。实验结果数据如表1所示。
表1实验结果具体数据
本发明首先获得数据样本均值和样本数据集的平均距离,然后根据样本与均值的距离远近来获得方向位置点,接下来就是以平均距离为半径作圆,并统计圆内的数据点的数量,然后将此数据点的数量与样本数据集总数与聚类的类别数目的比值进行比较大小,判断是否大于或等于样本数据集总数与聚类的类别数目的比值,若成立,则计算圆内的数据点的均值,并将此均值对应的数据点作为初始聚类中心;若不成立,则继续寻找方向位置点进行判断。重复以上步骤,直到寻找到K个初始聚类中心为止。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
Claims (2)
1.一种优化聚类中心的k-means算法,其特征在于,包括以下步骤:
步骤1、求出样本数据集X={X1,X2,...,Xn}的样本均值C和平均距离ad;
步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C),选择满足d(Xi,C)≥d(Xj,C),(i,j=1,2,...,n)的数据对象Xi,找到该方向位置点并记作O1;
步骤3、通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点,并将其放入到集合Z1中,寻找结束后并统计集合Z1中的所包含的数据点个数记作n1,然后判断n1是否大于等于β,其中β为样本集数据点的数目与聚类的簇类数目的比值;若满足条件,则取该集合内的所有样本数据点的均值作为初始聚类中心点;
步骤4、计算所有样本集数据对象与方向位置点O1的距离d(X,O1),选择能够满足d(Xi,C)+d(Xi,O1)≥d(Xj,C)+d(Xj,O1)的数据对象Xi,将第二个方向位置点记作O2,同理,计算与方向位置点O2的距离小于等于平均距离ad的数据点,并放入集合Z2中,并统计集合中的数据点数n2,然后判断n2是否大于等于β,若满足条件,则取该集合的数据点的均值为该第二个初始聚类中心点;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110669183.6A CN113361616A (zh) | 2021-06-16 | 2021-06-16 | 一种优化聚类中心的k-means算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110669183.6A CN113361616A (zh) | 2021-06-16 | 2021-06-16 | 一种优化聚类中心的k-means算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113361616A true CN113361616A (zh) | 2021-09-07 |
Family
ID=77534720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110669183.6A Pending CN113361616A (zh) | 2021-06-16 | 2021-06-16 | 一种优化聚类中心的k-means算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361616A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022790A (zh) * | 2022-01-10 | 2022-02-08 | 成都国星宇航科技有限公司 | 遥感图像中云层检测及图像压缩方法、装置和存储介质 |
-
2021
- 2021-06-16 CN CN202110669183.6A patent/CN113361616A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022790A (zh) * | 2022-01-10 | 2022-02-08 | 成都国星宇航科技有限公司 | 遥感图像中云层检测及图像压缩方法、装置和存储介质 |
CN114022790B (zh) * | 2022-01-10 | 2022-04-26 | 成都国星宇航科技有限公司 | 遥感图像中云层检测及图像压缩方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887015B (zh) | 一种基于局部曲面特征直方图的点云自动配准方法 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN111382797B (zh) | 一种基于样本密度和自适应调整聚类中心的聚类分析方法 | |
CN110610225A (zh) | 一种基于kriging代理模型加点策略的多目标粒子群优化算法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN111291822A (zh) | 基于模糊聚类最优k值选择算法的设备运行状态判断方法 | |
CN113344128A (zh) | 一种基于微簇的工业物联网自适应流聚类方法及装置 | |
CN111428764B (zh) | 一种用于图像类别识别的图像聚类方法 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN113361616A (zh) | 一种优化聚类中心的k-means算法 | |
CN107944487B (zh) | 一种基于混合协同过滤算法的作物育种品种推荐方法 | |
CN102708367A (zh) | 基于目标轮廓特征的图像识别方法 | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN112164144B (zh) | 一种结合d2算子和法向算子的铸件三维模型分类方法 | |
CN108537249B (zh) | 一种密度峰值聚类的工业过程数据聚类方法 | |
CN110765364A (zh) | 基于局部优化降维和聚类的协同过滤方法 | |
CN111985823B (zh) | 一种用于滚磨机定向仪的晶棒质量评估方法 | |
CN108549913A (zh) | 基于密度半径的改进K-means聚类算法 | |
CN109711439A (zh) | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法 | |
CN117575745A (zh) | 基于ai大数据的课程教学资源个性推荐方法 | |
CN116976665A (zh) | 一种基于改进topsis模型的风险评估方法 | |
CN117056761A (zh) | 一种基于x-dbscan算法的客户细分方法 | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |
|
RJ01 | Rejection of invention patent application after publication |