CN111079788A - 一种基于密度Canopy的K-means聚类方法 - Google Patents
一种基于密度Canopy的K-means聚类方法 Download PDFInfo
- Publication number
- CN111079788A CN111079788A CN201911127104.8A CN201911127104A CN111079788A CN 111079788 A CN111079788 A CN 111079788A CN 201911127104 A CN201911127104 A CN 201911127104A CN 111079788 A CN111079788 A CN 111079788A
- Authority
- CN
- China
- Prior art keywords
- clustering
- density
- algorithm
- distance
- canopy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于密度Canopy的K‑means聚类方法,以密度Canopy聚类作为K‑means算法的预处理步骤,通过计算数据集的样本密度、簇内样本平均距离以及簇间距离,选取密度最大样本点为第一类聚类中心,并从数据集中去除初始密度簇;定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,在余下数据集中以权值积最大依次确定聚类中心,直到数据集为空集,并把密度Canopy聚类结果作为K‑means的类别数和初始聚类中心,最终进行数据集的聚类分析。选取UCI上的数据集对算法的有效性进行比较验证,结果表明:相比传统K‑means算法、基于Canopy的K‑means算法、半监督K‑means++算法和K‑means‑u*算法,本发明提出的基于密度Canopy的K‑means算法的聚类准确率均有所提高。
Description
技术领域
本发明涉数据分析和机器学习的相关算法,属于无监督学习领域,具体是 一种基于密度Canopy的K-means聚类方法。
背景技术
聚类算法是数据挖掘经典算法之一,一直以来受到众多学者的关注。聚类 属于无监督学习,其输入是一组未被标记的数据集,聚类根据数据自身的距离 或相似度划分为若干组,目标是使组内(内部)距离最小化,组间(外部)距离最大 化,1967年由文献1(ArthurD,Vassi lvitskii S.k-means++:the advantages of carefulseeding[C].EighteenthAcm-Siam Symposium on Discrete Algo-rithms.Society forIndustrial and AppliedMathematics,2007:1027-1035)提出的 聚类算法——K-means算法因为其原理简单、执行过程高效,实现容易、快速、 伸缩性好等优点在数据领域以及机器学习等领域应用最为广泛。
K-means算法以距离作为相似度将样本划分为若干簇,在同一簇中,样本间 的相似度较高,不同簇中样本间的相异度较高。实现步骤中随机选取聚类类别 数K值和初始中心点易造成聚类效果局部最优,导致算法不稳定,聚类准确性 下降。针对K-means算法的缺点,已有很多学者在K-means的基础上提出了改 进措施。文献2(Arthur D,VassilvitskiiS.k-means++:the advantages of careful seeding[C].Eighteenth Acm-SiamSymposium onDiscrete Algo-rithms.Society for Industrial and AppliedMathematics,2007:1027-1035)在K-Means基础上提出了 K-Means++算法,使得K个初始聚类中心相隔较远,该算法首先从数据集中随 机选取一个样本作为初始聚类中心,计算剩余样本与当前已有聚类中心的最短 距离,接着计算每个样本被选为下一个聚类中心的概率,最后按照轮盘法选出 下一个聚类中心,不断重复直至选出K个聚类中心。文献3(雷小锋,谢昆青,林 帆,等.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692.)提出一种数据采样与K-means预聚类的方法,通过多次数据采样, 分别由K-means产生一次聚类结果,然后将各次的聚类结果求交集,从而确定 出初始中心。文献4(毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计 算机工程与应用,2012,48(27):22-26.)提出将Canopy算法与K-means算法相结 合确定聚类输入参数的思想,采用了最大最小距离方法来解决Canopy聚类中、 二者值的确定问题。文献5(李金涛,艾萍,岳兆新,etal.基于K-means聚类算法的改 进[J].国外电子测量技术,2017(6))提出了基于密度的改进方法,该方法选取数据 集中密度最大的点作为第1个聚类中心点,以此为基准,选取离此点最远的点 作为第二个中心点,再在剩下的点找距离这两个初始点最远的点作为第三个点, 以此类推,直至找到K个初始中心点。
综上所述,尽管前人已取得了不少的研究成果,但在针对K-means聚类算 法的最佳K值确定和初始中心确定问题,并没有给出有效的处理方法,存在一 定的局限性和不足。所以对K-means算法的改进是一个可以长期优化的问题难 题,随着数据的增加,通过算法挖掘数据中有价值的信息具有重要意义。
发明内容
本发明为了提高K-means算法的聚类准确率和稳定性,解决算法最佳 K值和初始中心确定的问题,提出一种基于密度Canopy的K-means聚类 方法。
为实现上述目的,本发明采用的技术方案是:一种基于密度Canopy的 K-means聚类方法,输入数据集D,通过优化的密度Canopy算法对数据集D进 行预聚类,得到最优K值和初始聚类中心,然后将最优K值和初始聚类中心作 为K-means聚类的输入参数,进行K-means聚类,输出聚类结果。
其中所述优化的密度Canopy算法包括以下步骤:
计算样本元素平均距离MeanDis(D)和样本元素密度ρ(i);
选取样本元素密度值最大元素作为第一个聚类中心,将所有与第一个聚类 中心的距离小于MeanDis(D)的样本元素加入第一聚类簇,同时将这些样本元素 从数据集D中去除;
计算数据集D中余下元素的权值积w,找出最大值,选取与之对应的样本 元素作为第二个聚类中心,并得到第二聚类簇;重复进行,直到数据集D为空 集。
本发明基于密度的Canopy方法具有很强的抗噪声干扰能力,通过ρ(i)和s(i) 的值可以分析出可能的异常点,并去除该样本。对于异常点,具有离散、低密 度的特性,并且偏离正常的样本点。因而,当某一样本元素的ρ(i)值相对于正常 值特别小,s(i)值相对于正常值却特别大,可考虑该点为异常点。异常噪声点的 去除可以保证聚类的准确率,从而提升聚类的稳定性。
本发明针对现有Canopy算法距离阈值难确定的缺陷,提出一种加入样本密 度值的Canopy聚类新方法,通过密度Canopy算法获取数据集的最优K值和初 始聚类中心,作为K-means的输入参数,解决了传统的K-Means算法实现步骤 中随机选取聚类类别数K值和初始中心点易造成聚类效果局部最优,导致算法 不稳定,聚类准确性下降的问题。传统Canopy算法是随机选择阈值T1、T2,这 种随机性会对聚类结果造成很大的影响。本发明提出样本密度最大权值法,可 以降低阈值T1、T2选取随机性对聚类结果造成的不稳定,同时提升准确率。
附图说明
图1为最大权值法求取最佳聚类中心示意图;
图2为本发明的算法流程图;
图3为UCI数据集聚类结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明进行进一步详细说明,但并不用于限定本发明。
首先对本发明中涉及的计算进行以下定义:
1、密度Canopy算法基本概念
数据集D={x1,x2,...,xn},第m个样本元素记为 xm={xm1,xm2,...,xmr},1≤m≤n,r为元素xm的属性数。n表示数据集 中样本总数。
定义1数据集D中两个样本元素xp={xp1,...,xpr}与 xq={xq1,...,xqr}之间的欧氏距离为:
定义2数据集D中所有样本元素的平均距离为:
d(xi,xj)表示样本元素xi与xj之间的欧氏距离。
定义3数据集D中样本元素i的密度为:
(3)
d(i,j)表示样本元素i和j的距离。
定义4由式(3)可知,ρ(i)为满足与样本元素i的距离小于MeanDis(D) 的样本元素数。所有满足条件的样本元素构成一个簇,定义簇内样本平均距离。 为:
定义5簇间距离s(i)表示数据集中样本元素i与另一个具有更高局部密度 样本元素j之间的距离。局部密度是指一个范围内样本元素的多少,更高局部 密度就是这个范围内里的样本元素多。若样本点i的局部密度为最大,则s(i)定 义为max{d(i,j)};若存在ρ(j)>ρ(i),则s(i)定义minj:ρ(j)>ρ(i){d(i,j)}, 即:
d(i,j)表示样本点i和j之间的距离;
定义6数据集D共分为k个簇,簇Cj(j≤k)的中心为cj,聚类结果的误 差平方和为每个簇中样本元素到其所在簇中心的距离平方和。即:
2、最大权值积法
本发明的最大权值积法如下:
首先根据公式(3)计算样本元素的密度,找出密度值最大元素作为第一个 聚类中心,将所有满足定义3中样本与初始聚类中心的距离小于MeanDis(D)条 件的样本点加入当前簇,同时将这些样本点从集合D中去除;如图1所示,按 照公式(3)、(4)、(5)、(7)计算余下元素权值积w,找出最大值,并选取对 应样本元素作为第二个聚类中心,重复进行,直到集合D为空集。其中,ρ(i)越 大,代表样本点i周围元素点越多,元素越集中;a(i)越小,则越大,表示 簇中元素越紧密;s(i)越大,说明两簇之间距离越远,其相异度就越大。因而,通过最大权值法可以求出最佳聚类中心。
最后,根据提出的最大权值积法将待聚类数据集分成若干数据子集,其次, 计算出每个数据子集的样本平均值作为其相应的聚类中心,从而得到最佳聚类 数K和初始聚类中心.
本发明,首先通过密度Canopy算法对数据集进行预聚类,得到聚类的最优 K值和初始聚类中心作为K-means算法输入参数,然后执行K-means算法流程。
基于密度Canopy的K-means算法
输入:数据集D
输出:数据的聚类结果
本发明算法步骤如下:
Step1算法第1-19行完成K值与初始聚类中心的确定。通过优化的密度 Canopy算法进行数据预聚类,得到最优K值和初始聚类中心。
Step2算法第21-27行完成数据集的聚类任务。计算其余数据集中各个样本元 素到初始聚类中心的欧氏距离,根据距离最小原则将样本元素加入到对应聚类 中心所在的簇集。
Step3算法第30-31行完成新的聚类中心的计算。计算簇集元素的平均距离, 并更新为该簇新的聚类中心。
Step4比较更新的聚类中心与原始中心是否存在变化。若没有变化,则终止 算法,即得到聚类结果;否则,算法转至Step2继续循环执行。
本发明方法流程如图2所示。
输入原始待聚类数据集D;
计算样本元素平均距离MeanDis(D);
根据定义3计算样本元素密度ρ(i);
选取样本元素密度值最大元素作为第一个聚类中心C1,将所有与第一个聚 类中心的距离小于MeanDis(D)的样本元素加入第一聚类簇,同时将这些样本元 素从数据集D中去除;
计算簇内样本平均距离a(i);
计算簇间距离s(i);
若样本元素具有较小的ρ(i)值,较大的s(i)值,可考虑该样本为异常点,并 把该点从数据集D中去除;
计算数据集D中余下元素的权值积w,找出最大值,选取与之对应的样本 元素作为第二个聚类中心C2,并从数据集D中去除第二聚类簇中所有元素;重 复进行,直到数据集D为空集;
将得到的K值和初始聚类中心作为K-means的输入;
计算各个样本元素到初始聚类中心的欧氏距离,根据距离最小原则将样本 元素加入到对应聚类中心所在的簇集;
计算簇集元素的平均距离,并更新为该簇新的聚类中心;
比较新的聚类中心与原始中心是否存在变化,若没有变化,则输出聚类结 果,算法结束;否则,重新计算样本元素到初始聚类中心的欧氏距离。
本发明的实验数据来源于UCI网站,选用了以下常用的七类测试数据集:Soybean-small、Iris、Wine、Segmentation、Ionoshpere、Pima Indians Diabetes和Segmentation-T。如表1所示:每个数据集具有不同的样本元素数,每个元素又 具有不同的属性数,通过这些数据集来测试所提出算法的有效性。其中 Segmentation-T数据集在Segmentation数据集的基础上加入一定量模拟数值,用 于测试算法针对大数据集的聚类效果。
聚类效果通过以下参数进行衡量比较:完成聚类所需的时间、聚类结果的 误差平方和(根据公式6计算)、聚类结果的准确率;衡量聚类有效性的3个参 数:Rand指数、Jaccard参数以及Adjust Rand指数。其中,表2是UCI数据集 采用五种不同聚类算法(传统K-means算法、基于Canopy的K-means算法、基 于密度Canopy的K-means算法、半监督K-means++算法和K-means-u*算法)的 聚类时间和聚类结果的误差平方和的比较。
表1 UCI数据集的相关参数
表2 UCI数据集的聚类时间T(s)和聚类结果的误差平方和E
由表2中数据分析比较可以得出以下结论:
(1)在聚类时间上,传统K-means算法、半监督K-means++算法和 K-means-u*算法完成数据聚类时间更长。由于传统方法是随机选取初始中心, 算法达到稳定状态时,其迭代次数较多,因而执行时间较久,此外,半监督 K-means++算法和K-means-u*算法具有更高的算法复杂度,其完成聚类时间也 更长。两个以Canopy算法作为数据预处理的K-means聚类,其聚类时间要明显 优于传统K-means算法,这是由于此类算法首先通过Canopy算法确定K-means 的输入,然后再进行数据集的聚类,算法达到稳定时迭代次数较少,因而比传统K-means算法高效。
(2)在聚类结果的误差平方和上,本发明提出的基于密度Canopy的K-means算法的聚类效果是最佳的。传统的K-means是随机选取初始聚类中心, 其误差平方和最大,聚类效果最差。
图3是衡量聚类结果的参数比较。图3中聚类结果的参数比较表明:本发 明方法的3个参数都是最优的,准确率也最高,且聚类准确率比传统K-means 算法平均高30.7个百分点,比基于Canopy的K-means算法高6.1个百分点,相 比半监督K-means++算法和K-means-u*算法也相应提高了5.3个百分点和3.7个 百分点。
本发明提出的基于密度Canopy的K-means算法,通过计算数据集的密度, 找出数据集中的最紧密簇,通过最大权值积法依次确定初始聚类中心,并求出 簇中元素的均值作为初始聚类中心,确定最佳K值。
这种方法把数据集元素的分布情况考虑到初始值的选取,更具有客观性, 同时也解决了传统Canopy算法阈值T1、T2难确定的瓶颈。因而,本发明方法的 聚类结果更精确,收敛速度更快,最终实现聚类的全局最优。
Claims (7)
1.一种基于密度Canopy的K-means聚类方法,其特征在于:输入数据集D,通过优化的密度Canopy算法对数据集D进行预聚类,得到最优K值和初始聚类中心,然后将最优K值和初始聚类中心作为K-means聚类的输入参数,进行K-means聚类,输出聚类结果;
其中所述优化的密度Canopy算法包括以下步骤:
计算样本元素平均距离MeanDis(D)和样本元素密度ρ(i);
选取样本元素密度值最大元素作为第一个聚类中心,将所有与第一个聚类中心的距离小于MeanDis(D)的样本元素加入第一聚类簇,同时将这些样本元素从数据集D中去除;
计算数据集D中余下元素的权值积w,找出最大值,选取与之对应的样本元素作为第二个聚类中心,并得到第二聚类簇;重复进行,直到数据集D为空集。
6.根据权利要求1-5任一项所述一种基于密度Canopy的K-means聚类方法,其特征在于:当样本元素密度ρ(i)值远小于正常值,同时簇间距离s(i)值却远大于正常值,该样本元素为异常点,将该样本元素从数据集D中去除。
7.根据权利要求6所述一种基于密度Canopy的K-means聚类方法,其特征在于:所述K-means聚类包括以下步骤:
S1计算各个样本元素到初始聚类中心的欧氏距离,根据距离最小原则将样本元素加入到对应聚类中心所在的簇集;
S2计算簇集元素的平均距离,并更新为该簇新的聚类中心;
S3比较新的聚类中心与原始中心是否存在变化,若没有变化,则输出聚类结果;否则,转至步骤S1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911127104.8A CN111079788A (zh) | 2019-11-18 | 2019-11-18 | 一种基于密度Canopy的K-means聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911127104.8A CN111079788A (zh) | 2019-11-18 | 2019-11-18 | 一种基于密度Canopy的K-means聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079788A true CN111079788A (zh) | 2020-04-28 |
Family
ID=70311235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911127104.8A Pending CN111079788A (zh) | 2019-11-18 | 2019-11-18 | 一种基于密度Canopy的K-means聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079788A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597292A (zh) * | 2020-12-29 | 2021-04-02 | 招联消费金融有限公司 | 问题回复推荐方法、装置、计算机设备和存储介质 |
CN112699926A (zh) * | 2020-12-25 | 2021-04-23 | 浙江中控技术股份有限公司 | 基于人工智能技术的水泥生料立磨饱磨异常识别方法 |
CN113852845A (zh) * | 2021-02-05 | 2021-12-28 | 天翼智慧家庭科技有限公司 | 一种基于粒度聚类的数据处理方法和装置 |
CN114964777A (zh) * | 2022-05-11 | 2022-08-30 | 盐城工学院 | 一种滚动轴承故障检测方法 |
CN117632937A (zh) * | 2023-12-06 | 2024-03-01 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
-
2019
- 2019-11-18 CN CN201911127104.8A patent/CN111079788A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699926A (zh) * | 2020-12-25 | 2021-04-23 | 浙江中控技术股份有限公司 | 基于人工智能技术的水泥生料立磨饱磨异常识别方法 |
CN112699926B (zh) * | 2020-12-25 | 2023-01-20 | 浙江中控技术股份有限公司 | 基于人工智能技术的水泥生料立磨饱磨异常识别方法 |
CN112597292A (zh) * | 2020-12-29 | 2021-04-02 | 招联消费金融有限公司 | 问题回复推荐方法、装置、计算机设备和存储介质 |
CN112597292B (zh) * | 2020-12-29 | 2024-04-26 | 招联消费金融股份有限公司 | 问题回复推荐方法、装置、计算机设备和存储介质 |
CN113852845A (zh) * | 2021-02-05 | 2021-12-28 | 天翼智慧家庭科技有限公司 | 一种基于粒度聚类的数据处理方法和装置 |
CN114964777A (zh) * | 2022-05-11 | 2022-08-30 | 盐城工学院 | 一种滚动轴承故障检测方法 |
CN117632937A (zh) * | 2023-12-06 | 2024-03-01 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
CN117632937B (zh) * | 2023-12-06 | 2024-04-30 | 北京开元泰达净化设备有限公司 | 一种工业互联网大数据平台及数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079788A (zh) | 一种基于密度Canopy的K-means聚类方法 | |
CN115577275A (zh) | 一种基于lof和孤立森林的时序数据异常监测系统及方法 | |
Huang et al. | An improved knn based on class contribution and feature weighting | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN108171012B (zh) | 一种基因分类方法与装置 | |
Sujatha et al. | New fast k-means clustering algorithm using modified centroid selection method | |
CN112364914A (zh) | 基于簇相似度与变换不变性的差分隐私k均值聚类方法 | |
Chen et al. | Approximating median absolute deviation with bounded error | |
Fan et al. | Variable selection and model prediction based on lasso, adaptive lasso and elastic net | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN116720090A (zh) | 一种基于层次的自适应聚类方法 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
Sakr et al. | Genetic-based summarization for local outlier detection in data stream | |
CN107766887A (zh) | 一种局部加权的不完整数据混杂聚类方法 | |
Wang et al. | An improved integrated clustering learning strategy based on three-stage affinity propagation algorithm with density peak optimization theory | |
Yuan et al. | Outlier mining based on neighbor-density-deviation with minimum hyper-sphere | |
Boyang et al. | A design method of RBF neural network based on KNN-DPC | |
Lin et al. | Design and implementation of an improved DBSCAN algorithm | |
Yang et al. | Adaptive density peak clustering for determinging cluster center | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
Li et al. | An improved fuzzy k-means clustering with k-center initialization | |
CN112308122A (zh) | 基于双树的高维向量空间样本快速搜索方法及装置 | |
CN112214655A (zh) | 基于密度的多自适应阈值解决密度不均数据集的聚类方法 | |
Feng et al. | A genetic k-means clustering algorithm based on the optimized initial centers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |
|
RJ01 | Rejection of invention patent application after publication |