CN113344019A - 一种决策值选取初始聚类中心改进的K-means算法 - Google Patents
一种决策值选取初始聚类中心改进的K-means算法 Download PDFInfo
- Publication number
- CN113344019A CN113344019A CN202110076198.1A CN202110076198A CN113344019A CN 113344019 A CN113344019 A CN 113344019A CN 202110076198 A CN202110076198 A CN 202110076198A CN 113344019 A CN113344019 A CN 113344019A
- Authority
- CN
- China
- Prior art keywords
- clustering
- cluster
- decision value
- sample point
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004445 quantitative analysis Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于决策值选取初始聚类中心改进的K‑means算法,操作如下:输入:数据集D,聚类簇数k;输出:聚类结果C。Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi;Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心。Step4.根据距离最近原则确定样本点所属簇标记,将样本点xj划入相对应的簇;Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μ′i;如果μ′i≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束。
Description
技术领域
本发明涉及机器学习领域,特别涉及一种决策值选取初始聚类中心改进的K-means算法。
背景技术
聚类是把一个数据对象集划分为多个簇的过程,使得簇内的对象相似程度高,但与其他簇中的对象差别尽可能大]。聚类算法作为数据挖掘的一种重要工具已经广泛地应用于各个领域,例如:图像模式识别、生物学、边界检测等。正因为聚类分析的广泛应用,国内外学者针对不同的数据对象提出了许多聚类方法,其中比较经典的有基于划分的K-means算法、基于网格的STING(STatistical INformation Grid)算法、基于密度的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,近几年研究者提出的最新算法有近邻传播AP(Affinity Propagation)算法,该算法通过选定的偏向参数,不断更新每个数据点的归属度和吸引度来完成聚类,算法可以自行确定聚类数,但时间复杂度较高。Rodriguez等人于2014 年提出了一种快速搜索密度峰值聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),以数据点的局部密度和相对距离为基础绘制决策图,选取决策图中密度峰值点作为簇中心,并将其余非聚类样本点划分到最近的聚类中心所在的簇中实现聚类。
发明内容
该算法改进思路主要分两个步骤进行聚类:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi;
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ1,μ2…,μk};
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μi′;如果μi′≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用 2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]:
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC 的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
其中,m表示数据集指定的聚类类别数,表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数,表示聚类结果簇i中数据点的个数,表示真实标签类j中数据点的个数,NMI取值范围为 [0,1],主要用来衡量各样本分布的吻合程度。
其中,步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1) 为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
附图说明
图1为本算法的流程图;
图2为数据分布图;
图3决策值;
图4不同算法准确率对比图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,通过模拟数据实验对本发明实施方式作进一步的详细描述。
实施例1
参照图1-4,一种决策值选取初始聚类中心改进的K-means算法,该算法改进思路主要分两个步骤进行聚类:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi;
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ1,μ2…,μk};
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μi′;如果μi′≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用 2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]:
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC 的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
其中,m表示数据集指定的聚类类别数,表示数据点属于真实标签类j但被划分到聚类结果簇i中的个数,表示聚类结果簇i中数据点的个数,表示真实标签类j中数据点的个数,NMI取值范围为 [0,1],主要用来衡量各样本分布的吻合程度。
其中,步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1) 为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
为了进一步验证本文改进算法的稳定性和有效性,表1给出了 IKDV算法与K-means、K-mediods算法在Iris数据集上的详细情况。三种算法共运行10次,并给出了每次运行时所选取的初始中心点(用数据集中对应的编号表示)、初始聚类中心所对应的实际类别、迭代次数、运行时间。
表1三种算法在Iris数据集上的有效性结果对比
从表1中可以看出,传统的K-means算法每次选取的初始聚类中心都是随机的,导致每次聚类结果不一致;并且在很多情况下,选取的初始聚类中心可能位于同一个簇中,这样使得最初的聚类中心过于邻近,导致算法迭代次数增加。K-mediods算法利用中心点代替均值进行后续的聚类中心迭代,排除了离群点对结果的影响,比K-means 算法迭代次数少,运行速度快,但由于该算法选取初始聚类中心还是随机的,因此最终得到的聚类结果依然不稳定。本文改进的算法虽然迭代次数比K-mediods多,但每次运行所选取的初始聚类中心是唯一的,且每个聚类中心点与真实类别相对应,算法具有很好的稳定性。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (2)
1.一种基于决策值选取初始聚类中心改进的K-means算法,其特征在于:包括以下步骤:
S1、选取初始聚类中心;通过计算每个样本点的密度和距离,并相乘求得决策值,选取决策值较大的k个样本点作为初始聚类中心点;
S2、聚类;按传统的K-means算法进行聚类,但在聚类过程中用各簇的中位数代替均值进行后续聚类中心的迭代,消除离群点对聚类结果的影响;
IKDV算法主要步骤如下:
输入:数据集D,聚类簇数k;
输出:聚类结果C;
Step1.对D中的每个数据对象,计算样本点xi的局部密度ρi,计算样本点xi的相对距离δi;
Step2.根据样本点xi的局部密度和相对距离计算决策值γi,并按照决策值大小进行降序排列,构造以样本点总数n为横轴,决策值γ为纵轴的决策值图;
Step3.根据输入的聚类簇数,自动选取k个远离平滑区域,且决策值较大的样本点作为初始聚类中心{μ1,μ2…,μk};
Step5.利用各簇的中位数代替原来的平均值,重新计算新的聚类中心μ′i;如果μ′i≠μi,则更新聚类中心,转至step4;否则,算法收敛,输出最终聚类结果,聚类结束;
通过聚类评价指标对比来精确计算聚类结果的准确性,因此采用2种评价指标对聚类结果进行定量分析,具体计算公式如下:
1)聚类准确率(clustering accuracy,简称ACC)]:
其中,n表示样本总数,ai表示簇i中聚类正确的样本个数;ACC的范围在0-1之间,ACC的值越大,表明聚类结果越准确;
2)标准化互信息(normalized mutual information,简称NMI):
2.根据权利要求1所述的一种基于决策值选取初始聚类中心改进的K-means算法,其特征在于:步骤S2中的K-means算法为:
算法以决策值为基础,对K-means算法选取初始聚类中心进行优化,通过计算数据集中各样本点的局部密度ρ和相对距离δ来确定决策值γ,只有当决策值较大时,才能成为初始聚类中心点,首先给出相关定义,对于任意样本点i,局部密度ρi有两种计算方式:截断核和高斯核,具体定义如下:
其中,dij为样本点i和j的距离,dc为样本点的截断距离,式(1)为截断核,即i落在截断距离范围内的数据点个数,适用于聚类离散型数据集;式(2)为高斯核,指所有样本点到该点的高斯距离之和,适用于聚类连续型数据集,
相对距离δi指样本点i与其他局部密度更高的点之间的距离,其计算公式如下:
决策值γi指局部密度ρi与相对距离δi的乘积,计算公式如下:
γi=ρi·δi (4)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076198.1A CN113344019A (zh) | 2021-01-20 | 2021-01-20 | 一种决策值选取初始聚类中心改进的K-means算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076198.1A CN113344019A (zh) | 2021-01-20 | 2021-01-20 | 一种决策值选取初始聚类中心改进的K-means算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113344019A true CN113344019A (zh) | 2021-09-03 |
Family
ID=77467671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076198.1A Pending CN113344019A (zh) | 2021-01-20 | 2021-01-20 | 一种决策值选取初始聚类中心改进的K-means算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344019A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780437A (zh) * | 2021-09-15 | 2021-12-10 | 大连交通大学 | 一种dpc聚类算法的改进方法 |
CN114386466A (zh) * | 2022-01-13 | 2022-04-22 | 贵州师范大学 | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 |
CN114453836A (zh) * | 2022-01-14 | 2022-05-10 | 一重集团大连核电石化有限公司 | 薄壁不规则球形封头上系列管座孔j形坡口的加工方法 |
CN115344050A (zh) * | 2022-09-15 | 2022-11-15 | 安徽工程大学 | 一种基于改进的聚类算法堆垛机路径规划方法 |
CN115563522A (zh) * | 2022-12-02 | 2023-01-03 | 湖南工商大学 | 交通数据的聚类方法、装置、设备及介质 |
CN116432088A (zh) * | 2023-05-04 | 2023-07-14 | 常宝新材料(苏州)有限公司 | 一种复合光学薄膜层厚智能监测方法及系统 |
WO2023159886A1 (zh) * | 2022-02-22 | 2023-08-31 | 苏州大学 | 一种概率整形qam动态均衡及数字信号处理方法 |
CN117828377A (zh) * | 2024-03-01 | 2024-04-05 | 齐鲁工业大学(山东省科学院) | 一种基于公平加权因子的教育感知聚类方法及系统 |
-
2021
- 2021-01-20 CN CN202110076198.1A patent/CN113344019A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780437A (zh) * | 2021-09-15 | 2021-12-10 | 大连交通大学 | 一种dpc聚类算法的改进方法 |
CN113780437B (zh) * | 2021-09-15 | 2024-04-05 | 大连交通大学 | 一种dpc聚类算法的改进方法 |
CN114386466B (zh) * | 2022-01-13 | 2024-04-05 | 贵州师范大学 | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 |
CN114386466A (zh) * | 2022-01-13 | 2022-04-22 | 贵州师范大学 | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 |
CN114453836A (zh) * | 2022-01-14 | 2022-05-10 | 一重集团大连核电石化有限公司 | 薄壁不规则球形封头上系列管座孔j形坡口的加工方法 |
CN114453836B (zh) * | 2022-01-14 | 2024-04-16 | 一重集团大连核电石化有限公司 | 薄壁不规则球形封头上系列管座孔j形坡口的加工方法 |
WO2023159886A1 (zh) * | 2022-02-22 | 2023-08-31 | 苏州大学 | 一种概率整形qam动态均衡及数字信号处理方法 |
CN115344050A (zh) * | 2022-09-15 | 2022-11-15 | 安徽工程大学 | 一种基于改进的聚类算法堆垛机路径规划方法 |
CN115344050B (zh) * | 2022-09-15 | 2024-04-26 | 安徽工程大学 | 一种基于改进的聚类算法堆垛机路径规划方法 |
CN115563522A (zh) * | 2022-12-02 | 2023-01-03 | 湖南工商大学 | 交通数据的聚类方法、装置、设备及介质 |
CN115563522B (zh) * | 2022-12-02 | 2023-04-07 | 湖南工商大学 | 交通数据的聚类方法、装置、设备及介质 |
CN116432088A (zh) * | 2023-05-04 | 2023-07-14 | 常宝新材料(苏州)有限公司 | 一种复合光学薄膜层厚智能监测方法及系统 |
CN116432088B (zh) * | 2023-05-04 | 2023-11-07 | 常宝新材料(苏州)有限公司 | 一种复合光学薄膜层厚智能监测方法及系统 |
CN117828377A (zh) * | 2024-03-01 | 2024-04-05 | 齐鲁工业大学(山东省科学院) | 一种基于公平加权因子的教育感知聚类方法及系统 |
CN117828377B (zh) * | 2024-03-01 | 2024-05-10 | 齐鲁工业大学(山东省科学院) | 一种基于公平加权因子的教育感知聚类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN111191732B (zh) | 一种基于全自动学习的目标检测方法 | |
CN108846259B (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
CN106371610B (zh) | 一种基于脑电信号的驾驶疲劳的检测方法 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN107832456B (zh) | 一种基于临界值数据划分的并行knn文本分类方法 | |
CN110781295B (zh) | 一种多标记数据的特征选择方法及装置 | |
CN109359135B (zh) | 一种基于分段权重的时间序列相似性搜索方法 | |
CN110119772B (zh) | 一种基于几何形状特征融合的三维模型分类方法 | |
CN113344113B (zh) | 一种基于改进k-means聚类的Yolov3锚框确定方法 | |
CN108268526A (zh) | 一种数据分类方法和装置 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN111079788A (zh) | 一种基于密度Canopy的K-means聚类方法 | |
CN104850867A (zh) | 一种基于直觉模糊c均值聚类的目标识别方法 | |
CN113435108A (zh) | 一种基于改进的鲸鱼优化算法的战场目标分群方法 | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
CN110310322A (zh) | 一种10微米级高精度器件装配表面检测方法 | |
CN105574363A (zh) | 一种基于svm-rfe和重叠度的特征选择方法 | |
CN113052268A (zh) | 区间集数据类型下基于不确定性度量的属性约简算法 | |
CN117407732A (zh) | 一种基于对抗神经网络的非常规储层气井产量预测方法 | |
CN111639712A (zh) | 一种基于密度峰值聚类和梯度提升算法的定位方法及系统 | |
Zhang et al. | A new outlier detection algorithm based on fast density peak clustering outlier factor. | |
CN110909792A (zh) | 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法 | |
Wang et al. | Fuzzy C-means clustering algorithm for automatically determining the number of clusters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210903 |