CN113344019A - 一种决策值选取初始聚类中心改进的K-means算法 - Google Patents

一种决策值选取初始聚类中心改进的K-means算法 Download PDF

Info

Publication number
CN113344019A
CN113344019A CN202110076198.1A CN202110076198A CN113344019A CN 113344019 A CN113344019 A CN 113344019A CN 202110076198 A CN202110076198 A CN 202110076198A CN 113344019 A CN113344019 A CN 113344019A
Authority
CN
China
Prior art keywords
clustering
cluster
decision value
sample point
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110076198.1A
Other languages
English (en)
Inventor
彭显
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110076198.1A priority Critical patent/CN113344019A/zh
Publication of CN113344019A publication Critical patent/CN113344019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于决策值选取初始聚类中心改进的K‑means算法,操作如下:输入:数据集D,聚类簇数k;输出:聚类结果C。Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi;Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心。Step4.根据距离最近原则确定样本点所属簇标记,将样本点xj划入相对应的簇;Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μ′i;如果μ′i≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束。

Description

一种决策值选取初始聚类中心改进的K-means算法
技术领域
本发明涉及机器学习领域,特别涉及一种决策值选取初始聚类中心改进的K-means算法。
背景技术
聚类是把一个数据对象集划分为多个簇的过程,使得簇内的对象相似程度高,但与其他簇中的对象差别尽可能大]。聚类算法作为数据挖掘的一种重要工具已经广泛地应用于各个领域,例如:图像模式识别、生物学、边界检测等。正因为聚类分析的广泛应用,国内外学者针对不同的数据对象提出了许多聚类方法,其中比较经典的有基于划分的K-means算法、基于网格的STING(STatistical INformation Grid)算法、基于密度的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,近几年研究者提出的最新算法有近邻传播AP(Affinity Propagation)算法,该算法通过选定的偏向参数,不断更新每个数据点的归属度和吸引度来完成聚类,算法可以自行确定聚类数,但时间复杂度较高。Rodriguez等人于2014 年提出了一种快速搜索密度峰值聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),以数据点的局部密度和相对距离为基础绘制决策图,选取决策图中密度峰值点作为簇中心,并将其余非聚类样本点划分到最近的聚类中心所在的簇中实现聚类。
发明内容
该算法改进思路主要分两个步骤进行聚类:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ12…,μk};
Step4.根据距离最近原则确定样本点xj(1≤j≤n)所属簇标记:
Figure BDA0002907575440000021
将样本点xj划入相对应的簇:
Figure BDA0002907575440000022
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μi′;如果μi′≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用 2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]
Figure BDA0002907575440000031
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC 的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
Figure BDA0002907575440000032
其中,m表示数据集指定的聚类类别数,
Figure BDA0002907575440000033
表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数,
Figure BDA0002907575440000034
表示聚类结果簇i中数据点的个数,
Figure BDA0002907575440000035
表示真实标签类j中数据点的个数,NMI取值范围为 [0,1],主要用来衡量各样本分布的吻合程度。
其中,步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
Figure BDA0002907575440000036
Figure BDA0002907575440000037
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1) 为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
Figure BDA0002907575440000041
对于局部密度最大的点,CFSFDP算法认为该点必为聚类中心点,因此取
Figure BDA0002907575440000042
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
附图说明
图1为本算法的流程图;
图2为数据分布图;
图3决策值;
图4不同算法准确率对比图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,通过模拟数据实验对本发明实施方式作进一步的详细描述。
实施例1
参照图1-4,一种决策值选取初始聚类中心改进的K-means算法,该算法改进思路主要分两个步骤进行聚类:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ12…,μk};
Step4.根据距离最近原则确定样本点xj(1≤j≤n)所属簇标记:
Figure BDA0002907575440000051
将样本点xj划入相对应的簇:
Figure BDA0002907575440000052
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μi′;如果μi′≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用 2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]:
Figure BDA0002907575440000061
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC 的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
Figure BDA0002907575440000062
其中,m表示数据集指定的聚类类别数,
Figure BDA0002907575440000063
表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数,
Figure BDA0002907575440000064
表示聚类结果簇i中数据点的个数,
Figure BDA0002907575440000065
表示真实标签类j中数据点的个数,NMI取值范围为 [0,1],主要用来衡量各样本分布的吻合程度。
其中,步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
Figure BDA0002907575440000066
Figure BDA0002907575440000067
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1) 为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
Figure BDA0002907575440000071
对于局部密度最大的点,CFSFDP算法认为该点必为聚类中心点,因此取
Figure BDA0002907575440000072
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
为了进一步验证本文改进算法的稳定性和有效性,表1给出了 IKDV算法与K-means、K-mediods算法在Iris数据集上的详细情况。三种算法共运行10次,并给出了每次运行时所选取的初始中心点(用数据集中对应的编号表示)、初始聚类中心所对应的实际类别、迭代次数、运行时间。
表1三种算法在Iris数据集上的有效性结果对比
Figure BDA0002907575440000073
Figure BDA0002907575440000081
从表1中可以看出,传统的K-means算法每次选取的初始聚类中心都是随机的,导致每次聚类结果不一致;并且在很多情况下,选取的初始聚类中心可能位于同一个簇中,这样使得最初的聚类中心过于邻近,导致算法迭代次数增加。K-mediods算法利用中心点代替均值进行后续的聚类中心迭代,排除了离群点对结果的影响,比K-means 算法迭代次数少,运行速度快,但由于该算法选取初始聚类中心还是随机的,因此最终得到的聚类结果依然不稳定。本文改进的算法虽然迭代次数比K-mediods多,但每次运行所选取的初始聚类中心是唯一的,且每个聚类中心点与真实类别相对应,算法具有很好的稳定性。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (2)

1.一种基于决策值选取初始聚类中心改进的K-means算法,其特征在于:包括以下步骤:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ12…,μk};
Step4.根据距离最近原则确定样本点xj(1≤j≤n)所属簇标记:
Figure FDA0002907575430000011
将样本点xj划入相对应的簇:
Figure FDA0002907575430000012
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μ′i;如果μ′i≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]
Figure FDA0002907575430000021
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
Figure FDA0002907575430000022
其中,m表示数据集指定的聚类类别数,
Figure FDA0002907575430000023
表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数,
Figure FDA0002907575430000024
表示聚类结果簇i中数据点的个数,
Figure FDA0002907575430000025
表示真实标签类j中数据点的个数,NMI取值范围为[0,1],主要用来衡量各样本分布的吻合程度。
2.根据权利要求1所述的一种基于决策值选取初始聚类中心改进的K-means算法,其特征在于:步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
Figure FDA0002907575430000031
Figure FDA0002907575430000032
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1)为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
Figure FDA0002907575430000033
对于局部密度最大的点,CFSFDP算法认为该点必为聚类中心点,因此取
Figure FDA0002907575430000034
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
CN202110076198.1A 2021-01-20 2021-01-20 一种决策值选取初始聚类中心改进的K-means算法 Pending CN113344019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110076198.1A CN113344019A (zh) 2021-01-20 2021-01-20 一种决策值选取初始聚类中心改进的K-means算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110076198.1A CN113344019A (zh) 2021-01-20 2021-01-20 一种决策值选取初始聚类中心改进的K-means算法

Publications (1)

Publication Number Publication Date
CN113344019A true CN113344019A (zh) 2021-09-03

Family

ID=77467671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110076198.1A Pending CN113344019A (zh) 2021-01-20 2021-01-20 一种决策值选取初始聚类中心改进的K-means算法

Country Status (1)

Country Link
CN (1) CN113344019A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780437A (zh) * 2021-09-15 2021-12-10 大连交通大学 一种dpc聚类算法的改进方法
CN114386466A (zh) * 2022-01-13 2022-04-22 贵州师范大学 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN114453836A (zh) * 2022-01-14 2022-05-10 一重集团大连核电石化有限公司 薄壁不规则球形封头上系列管座孔j形坡口的加工方法
CN115344050A (zh) * 2022-09-15 2022-11-15 安徽工程大学 一种基于改进的聚类算法堆垛机路径规划方法
CN115563522A (zh) * 2022-12-02 2023-01-03 湖南工商大学 交通数据的聚类方法、装置、设备及介质
CN116432088A (zh) * 2023-05-04 2023-07-14 常宝新材料(苏州)有限公司 一种复合光学薄膜层厚智能监测方法及系统
WO2023159886A1 (zh) * 2022-02-22 2023-08-31 苏州大学 一种概率整形qam动态均衡及数字信号处理方法
CN117828377A (zh) * 2024-03-01 2024-04-05 齐鲁工业大学(山东省科学院) 一种基于公平加权因子的教育感知聚类方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780437A (zh) * 2021-09-15 2021-12-10 大连交通大学 一种dpc聚类算法的改进方法
CN113780437B (zh) * 2021-09-15 2024-04-05 大连交通大学 一种dpc聚类算法的改进方法
CN114386466B (zh) * 2022-01-13 2024-04-05 贵州师范大学 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN114386466A (zh) * 2022-01-13 2022-04-22 贵州师范大学 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN114453836A (zh) * 2022-01-14 2022-05-10 一重集团大连核电石化有限公司 薄壁不规则球形封头上系列管座孔j形坡口的加工方法
CN114453836B (zh) * 2022-01-14 2024-04-16 一重集团大连核电石化有限公司 薄壁不规则球形封头上系列管座孔j形坡口的加工方法
WO2023159886A1 (zh) * 2022-02-22 2023-08-31 苏州大学 一种概率整形qam动态均衡及数字信号处理方法
CN115344050A (zh) * 2022-09-15 2022-11-15 安徽工程大学 一种基于改进的聚类算法堆垛机路径规划方法
CN115344050B (zh) * 2022-09-15 2024-04-26 安徽工程大学 一种基于改进的聚类算法堆垛机路径规划方法
CN115563522A (zh) * 2022-12-02 2023-01-03 湖南工商大学 交通数据的聚类方法、装置、设备及介质
CN115563522B (zh) * 2022-12-02 2023-04-07 湖南工商大学 交通数据的聚类方法、装置、设备及介质
CN116432088A (zh) * 2023-05-04 2023-07-14 常宝新材料(苏州)有限公司 一种复合光学薄膜层厚智能监测方法及系统
CN116432088B (zh) * 2023-05-04 2023-11-07 常宝新材料(苏州)有限公司 一种复合光学薄膜层厚智能监测方法及系统
CN117828377A (zh) * 2024-03-01 2024-04-05 齐鲁工业大学(山东省科学院) 一种基于公平加权因子的教育感知聚类方法及系统
CN117828377B (zh) * 2024-03-01 2024-05-10 齐鲁工业大学(山东省科学院) 一种基于公平加权因子的教育感知聚类方法及系统

Similar Documents

Publication Publication Date Title
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN111191732B (zh) 一种基于全自动学习的目标检测方法
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN106371610B (zh) 一种基于脑电信号的驾驶疲劳的检测方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
CN110781295B (zh) 一种多标记数据的特征选择方法及装置
CN109359135B (zh) 一种基于分段权重的时间序列相似性搜索方法
CN110119772B (zh) 一种基于几何形状特征融合的三维模型分类方法
CN113344113B (zh) 一种基于改进k-means聚类的Yolov3锚框确定方法
CN108268526A (zh) 一种数据分类方法和装置
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN104850867A (zh) 一种基于直觉模糊c均值聚类的目标识别方法
CN113435108A (zh) 一种基于改进的鲸鱼优化算法的战场目标分群方法
CN104778480A (zh) 一种基于局部密度和测地距离的分层谱聚类方法
CN110310322A (zh) 一种10微米级高精度器件装配表面检测方法
CN105574363A (zh) 一种基于svm-rfe和重叠度的特征选择方法
CN113052268A (zh) 区间集数据类型下基于不确定性度量的属性约简算法
CN117407732A (zh) 一种基于对抗神经网络的非常规储层气井产量预测方法
CN111639712A (zh) 一种基于密度峰值聚类和梯度提升算法的定位方法及系统
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
CN110909792A (zh) 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法
Wang et al. Fuzzy C-means clustering algorithm for automatically determining the number of clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210903