CN111079788A - 一种基于密度Canopy的K-means聚类方法 - Google Patents

一种基于密度Canopy的K-means聚类方法 Download PDF

Info

Publication number
CN111079788A
CN111079788A CN201911127104.8A CN201911127104A CN111079788A CN 111079788 A CN111079788 A CN 111079788A CN 201911127104 A CN201911127104 A CN 201911127104A CN 111079788 A CN111079788 A CN 111079788A
Authority
CN
China
Prior art keywords
clustering
density
algorithm
distance
canopy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911127104.8A
Other languages
English (en)
Inventor
龚昱文
张承畅
余洒
张华誉
徐余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911127104.8A priority Critical patent/CN111079788A/zh
Publication of CN111079788A publication Critical patent/CN111079788A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于密度Canopy的K‑means聚类方法,以密度Canopy聚类作为K‑means算法的预处理步骤,通过计算数据集的样本密度、簇内样本平均距离以及簇间距离,选取密度最大样本点为第一类聚类中心,并从数据集中去除初始密度簇;定义样本密度、簇内样本平均距离的倒数和簇间距离三者乘积为权值积,在余下数据集中以权值积最大依次确定聚类中心,直到数据集为空集,并把密度Canopy聚类结果作为K‑means的类别数和初始聚类中心,最终进行数据集的聚类分析。选取UCI上的数据集对算法的有效性进行比较验证,结果表明:相比传统K‑means算法、基于Canopy的K‑means算法、半监督K‑means++算法和K‑means‑u*算法,本发明提出的基于密度Canopy的K‑means算法的聚类准确率均有所提高。

Description

一种基于密度Canopy的K-means聚类方法
技术领域
本发明涉数据分析和机器学习的相关算法,属于无监督学习领域,具体是 一种基于密度Canopy的K-means聚类方法。
背景技术
聚类算法是数据挖掘经典算法之一,一直以来受到众多学者的关注。聚类 属于无监督学习,其输入是一组未被标记的数据集,聚类根据数据自身的距离 或相似度划分为若干组,目标是使组内(内部)距离最小化,组间(外部)距离最大 化,1967年由文献1(ArthurD,Vassi lvitskii S.k-means++:the advantages of carefulseeding[C].EighteenthAcm-Siam Symposium on Discrete Algo-rithms.Society forIndustrial and AppliedMathematics,2007:1027-1035)提出的 聚类算法——K-means算法因为其原理简单、执行过程高效,实现容易、快速、 伸缩性好等优点在数据领域以及机器学习等领域应用最为广泛。
K-means算法以距离作为相似度将样本划分为若干簇,在同一簇中,样本间 的相似度较高,不同簇中样本间的相异度较高。实现步骤中随机选取聚类类别 数K值和初始中心点易造成聚类效果局部最优,导致算法不稳定,聚类准确性 下降。针对K-means算法的缺点,已有很多学者在K-means的基础上提出了改 进措施。文献2(Arthur D,VassilvitskiiS.k-means++:the advantages of careful seeding[C].Eighteenth Acm-SiamSymposium onDiscrete Algo-rithms.Society for Industrial and AppliedMathematics,2007:1027-1035)在K-Means基础上提出了 K-Means++算法,使得K个初始聚类中心相隔较远,该算法首先从数据集中随 机选取一个样本作为初始聚类中心,计算剩余样本与当前已有聚类中心的最短 距离,接着计算每个样本被选为下一个聚类中心的概率,最后按照轮盘法选出 下一个聚类中心,不断重复直至选出K个聚类中心。文献3(雷小锋,谢昆青,林 帆,等.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692.)提出一种数据采样与K-means预聚类的方法,通过多次数据采样, 分别由K-means产生一次聚类结果,然后将各次的聚类结果求交集,从而确定 出初始中心。文献4(毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计 算机工程与应用,2012,48(27):22-26.)提出将Canopy算法与K-means算法相结 合确定聚类输入参数的思想,采用了最大最小距离方法来解决Canopy聚类中、 二者值的确定问题。文献5(李金涛,艾萍,岳兆新,etal.基于K-means聚类算法的改 进[J].国外电子测量技术,2017(6))提出了基于密度的改进方法,该方法选取数据 集中密度最大的点作为第1个聚类中心点,以此为基准,选取离此点最远的点 作为第二个中心点,再在剩下的点找距离这两个初始点最远的点作为第三个点, 以此类推,直至找到K个初始中心点。
综上所述,尽管前人已取得了不少的研究成果,但在针对K-means聚类算 法的最佳K值确定和初始中心确定问题,并没有给出有效的处理方法,存在一 定的局限性和不足。所以对K-means算法的改进是一个可以长期优化的问题难 题,随着数据的增加,通过算法挖掘数据中有价值的信息具有重要意义。
发明内容
本发明为了提高K-means算法的聚类准确率和稳定性,解决算法最佳 K值和初始中心确定的问题,提出一种基于密度Canopy的K-means聚类 方法。
为实现上述目的,本发明采用的技术方案是:一种基于密度Canopy的 K-means聚类方法,输入数据集D,通过优化的密度Canopy算法对数据集D进 行预聚类,得到最优K值和初始聚类中心,然后将最优K值和初始聚类中心作 为K-means聚类的输入参数,进行K-means聚类,输出聚类结果。
其中所述优化的密度Canopy算法包括以下步骤:
计算样本元素平均距离MeanDis(D)和样本元素密度ρ(i);
选取样本元素密度值最大元素作为第一个聚类中心,将所有与第一个聚类 中心的距离小于MeanDis(D)的样本元素加入第一聚类簇,同时将这些样本元素 从数据集D中去除;
计算数据集D中余下元素的权值积w,找出最大值,选取与之对应的样本 元素作为第二个聚类中心,并得到第二聚类簇;重复进行,直到数据集D为空 集。
本发明基于密度的Canopy方法具有很强的抗噪声干扰能力,通过ρ(i)和s(i) 的值可以分析出可能的异常点,并去除该样本。对于异常点,具有离散、低密 度的特性,并且偏离正常的样本点。因而,当某一样本元素的ρ(i)值相对于正常 值特别小,s(i)值相对于正常值却特别大,可考虑该点为异常点。异常噪声点的 去除可以保证聚类的准确率,从而提升聚类的稳定性。
本发明针对现有Canopy算法距离阈值难确定的缺陷,提出一种加入样本密 度值的Canopy聚类新方法,通过密度Canopy算法获取数据集的最优K值和初 始聚类中心,作为K-means的输入参数,解决了传统的K-Means算法实现步骤 中随机选取聚类类别数K值和初始中心点易造成聚类效果局部最优,导致算法 不稳定,聚类准确性下降的问题。传统Canopy算法是随机选择阈值T1、T2,这 种随机性会对聚类结果造成很大的影响。本发明提出样本密度最大权值法,可 以降低阈值T1、T2选取随机性对聚类结果造成的不稳定,同时提升准确率。
附图说明
图1为最大权值法求取最佳聚类中心示意图;
图2为本发明的算法流程图;
图3为UCI数据集聚类结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明进行进一步详细说明,但并不用于限定本发明。
首先对本发明中涉及的计算进行以下定义:
1、密度Canopy算法基本概念
数据集D={x1,x2,...,xn},第m个样本元素记为 xm={xm1,xm2,...,xmr},1≤m≤n,r为元素xm的属性数。n表示数据集 中样本总数。
定义1数据集D中两个样本元素xp={xp1,...,xpr}与 xq={xq1,...,xqr}之间的欧氏距离为:
Figure BDA0002277198970000031
定义2数据集D中所有样本元素的平均距离为:
Figure BDA0002277198970000032
d(xi,xj)表示样本元素xi与xj之间的欧氏距离。
定义3数据集D中样本元素i的密度为:
Figure RE-GDA0002392181560000033
(3)
其中
Figure BDA0002277198970000042
d(i,j)表示样本元素i和j的距离。
定义4由式(3)可知,ρ(i)为满足与样本元素i的距离小于MeanDis(D) 的样本元素数。所有满足条件的样本元素构成一个簇,定义簇内样本平均距离。 为:
Figure BDA0002277198970000043
定义5簇间距离s(i)表示数据集中样本元素i与另一个具有更高局部密度 样本元素j之间的距离。局部密度是指一个范围内样本元素的多少,更高局部 密度就是这个范围内里的样本元素多。若样本点i的局部密度为最大,则s(i)定 义为max{d(i,j)};若存在ρ(j)>ρ(i),则s(i)定义minj:ρ(j)>ρ(i){d(i,j)}, 即:
Figure BDA0002277198970000044
d(i,j)表示样本点i和j之间的距离;
定义6数据集D共分为k个簇,簇Cj(j≤k)的中心为cj,聚类结果的误 差平方和为每个簇中样本元素到其所在簇中心的距离平方和。即:
Figure BDA0002277198970000045
2、最大权值积法
定义7定义数据集的样本元素密度ρ(i)、簇内样本平均距离的倒数
Figure BDA0002277198970000046
和簇 间距离s(i)的乘积为权值积。即:
Figure BDA0002277198970000047
本发明的最大权值积法如下:
首先根据公式(3)计算样本元素的密度,找出密度值最大元素作为第一个 聚类中心,将所有满足定义3中样本与初始聚类中心的距离小于MeanDis(D)条 件的样本点加入当前簇,同时将这些样本点从集合D中去除;如图1所示,按 照公式(3)、(4)、(5)、(7)计算余下元素权值积w,找出最大值,并选取对 应样本元素作为第二个聚类中心,重复进行,直到集合D为空集。其中,ρ(i)越 大,代表样本点i周围元素点越多,元素越集中;a(i)越小,则
Figure RE-GDA0002392181560000044
越大,表示 簇中元素越紧密;s(i)越大,说明两簇之间距离越远,其相异度就越大。因而,通过最大权值法可以求出最佳聚类中心。
最后,根据提出的最大权值积法将待聚类数据集分成若干数据子集,其次, 计算出每个数据子集的样本平均值作为其相应的聚类中心,从而得到最佳聚类 数K和初始聚类中心.
本发明,首先通过密度Canopy算法对数据集进行预聚类,得到聚类的最优 K值和初始聚类中心作为K-means算法输入参数,然后执行K-means算法流程。
基于密度Canopy的K-means算法
输入:数据集D
输出:数据的聚类结果
Figure BDA0002277198970000052
Figure BDA0002277198970000061
本发明算法步骤如下:
Step1算法第1-19行完成K值与初始聚类中心的确定。通过优化的密度 Canopy算法进行数据预聚类,得到最优K值和初始聚类中心。
Step2算法第21-27行完成数据集的聚类任务。计算其余数据集中各个样本元 素到初始聚类中心的欧氏距离,根据距离最小原则将样本元素加入到对应聚类 中心所在的簇集。
Step3算法第30-31行完成新的聚类中心的计算。计算簇集元素的平均距离, 并更新为该簇新的聚类中心。
Step4比较更新的聚类中心与原始中心是否存在变化。若没有变化,则终止 算法,即得到聚类结果;否则,算法转至Step2继续循环执行。
本发明方法流程如图2所示。
输入原始待聚类数据集D;
计算样本元素平均距离MeanDis(D);
根据定义3计算样本元素密度ρ(i);
选取样本元素密度值最大元素作为第一个聚类中心C1,将所有与第一个聚 类中心的距离小于MeanDis(D)的样本元素加入第一聚类簇,同时将这些样本元 素从数据集D中去除;
计算簇内样本平均距离a(i);
计算簇间距离s(i);
若样本元素具有较小的ρ(i)值,较大的s(i)值,可考虑该样本为异常点,并 把该点从数据集D中去除;
计算数据集D中余下元素的权值积w,找出最大值,选取与之对应的样本 元素作为第二个聚类中心C2,并从数据集D中去除第二聚类簇中所有元素;重 复进行,直到数据集D为空集;
将得到的K值和初始聚类中心作为K-means的输入;
计算各个样本元素到初始聚类中心的欧氏距离,根据距离最小原则将样本 元素加入到对应聚类中心所在的簇集;
计算簇集元素的平均距离,并更新为该簇新的聚类中心;
比较新的聚类中心与原始中心是否存在变化,若没有变化,则输出聚类结 果,算法结束;否则,重新计算样本元素到初始聚类中心的欧氏距离。
本发明的实验数据来源于UCI网站,选用了以下常用的七类测试数据集:Soybean-small、Iris、Wine、Segmentation、Ionoshpere、Pima Indians Diabetes和Segmentation-T。如表1所示:每个数据集具有不同的样本元素数,每个元素又 具有不同的属性数,通过这些数据集来测试所提出算法的有效性。其中 Segmentation-T数据集在Segmentation数据集的基础上加入一定量模拟数值,用 于测试算法针对大数据集的聚类效果。
聚类效果通过以下参数进行衡量比较:完成聚类所需的时间、聚类结果的 误差平方和(根据公式6计算)、聚类结果的准确率;衡量聚类有效性的3个参 数:Rand指数、Jaccard参数以及Adjust Rand指数。其中,表2是UCI数据集 采用五种不同聚类算法(传统K-means算法、基于Canopy的K-means算法、基 于密度Canopy的K-means算法、半监督K-means++算法和K-means-u*算法)的 聚类时间和聚类结果的误差平方和的比较。
表1 UCI数据集的相关参数
Figure BDA0002277198970000081
表2 UCI数据集的聚类时间T(s)和聚类结果的误差平方和E
Figure BDA0002277198970000082
Figure BDA0002277198970000083
由表2中数据分析比较可以得出以下结论:
(1)在聚类时间上,传统K-means算法、半监督K-means++算法和 K-means-u*算法完成数据聚类时间更长。由于传统方法是随机选取初始中心, 算法达到稳定状态时,其迭代次数较多,因而执行时间较久,此外,半监督 K-means++算法和K-means-u*算法具有更高的算法复杂度,其完成聚类时间也 更长。两个以Canopy算法作为数据预处理的K-means聚类,其聚类时间要明显 优于传统K-means算法,这是由于此类算法首先通过Canopy算法确定K-means 的输入,然后再进行数据集的聚类,算法达到稳定时迭代次数较少,因而比传统K-means算法高效。
(2)在聚类结果的误差平方和上,本发明提出的基于密度Canopy的K-means算法的聚类效果是最佳的。传统的K-means是随机选取初始聚类中心, 其误差平方和最大,聚类效果最差。
图3是衡量聚类结果的参数比较。图3中聚类结果的参数比较表明:本发 明方法的3个参数都是最优的,准确率也最高,且聚类准确率比传统K-means 算法平均高30.7个百分点,比基于Canopy的K-means算法高6.1个百分点,相 比半监督K-means++算法和K-means-u*算法也相应提高了5.3个百分点和3.7个 百分点。
本发明提出的基于密度Canopy的K-means算法,通过计算数据集的密度, 找出数据集中的最紧密簇,通过最大权值积法依次确定初始聚类中心,并求出 簇中元素的均值作为初始聚类中心,确定最佳K值。
这种方法把数据集元素的分布情况考虑到初始值的选取,更具有客观性, 同时也解决了传统Canopy算法阈值T1、T2难确定的瓶颈。因而,本发明方法的 聚类结果更精确,收敛速度更快,最终实现聚类的全局最优。

Claims (7)

1.一种基于密度Canopy的K-means聚类方法,其特征在于:输入数据集D,通过优化的密度Canopy算法对数据集D进行预聚类,得到最优K值和初始聚类中心,然后将最优K值和初始聚类中心作为K-means聚类的输入参数,进行K-means聚类,输出聚类结果;
其中所述优化的密度Canopy算法包括以下步骤:
计算样本元素平均距离MeanDis(D)和样本元素密度ρ(i);
选取样本元素密度值最大元素作为第一个聚类中心,将所有与第一个聚类中心的距离小于MeanDis(D)的样本元素加入第一聚类簇,同时将这些样本元素从数据集D中去除;
计算数据集D中余下元素的权值积w,找出最大值,选取与之对应的样本元素作为第二个聚类中心,并得到第二聚类簇;重复进行,直到数据集D为空集。
2.根据权利要求1所述一种基于密度Canopy的K-means聚类方法,其特征在于:所述权值积w为样本元素密度ρ(i)、簇内样本平均距离的倒数
Figure FDA0002277198960000011
和簇间距离s(i)的乘积,即:
Figure FDA0002277198960000012
3.根据权利要求2所述一种基于密度Canopy的K-means聚类方法,其特征在于:所述样本元素密度ρ(i)通过以下公式计算
Figure FDA0002277198960000013
其中
Figure FDA0002277198960000014
d(i,j)表示样本元素i和j的距离。
4.根据权利要求2所述一种基于密度Canopy的K-means聚类方法,其特征在于:所述簇内样本平均距离通过以下公式计算
Figure FDA0002277198960000015
d(xi,xj)表示样本元素xi与xj之间的欧氏距离;
所述簇间距离s(i)通过以下公式计算
Figure FDA0002277198960000016
d(i,j)表示样本元素i和j之间的距离。
5.根据权利要求1所述一种基于密度Canopy的K-means聚类方法,其特征在于:所述样本元素平均距离MeanDis(D)的计算公式为:
Figure FDA0002277198960000021
6.根据权利要求1-5任一项所述一种基于密度Canopy的K-means聚类方法,其特征在于:当样本元素密度ρ(i)值远小于正常值,同时簇间距离s(i)值却远大于正常值,该样本元素为异常点,将该样本元素从数据集D中去除。
7.根据权利要求6所述一种基于密度Canopy的K-means聚类方法,其特征在于:所述K-means聚类包括以下步骤:
S1计算各个样本元素到初始聚类中心的欧氏距离,根据距离最小原则将样本元素加入到对应聚类中心所在的簇集;
S2计算簇集元素的平均距离,并更新为该簇新的聚类中心;
S3比较新的聚类中心与原始中心是否存在变化,若没有变化,则输出聚类结果;否则,转至步骤S1。
CN201911127104.8A 2019-11-18 2019-11-18 一种基于密度Canopy的K-means聚类方法 Pending CN111079788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911127104.8A CN111079788A (zh) 2019-11-18 2019-11-18 一种基于密度Canopy的K-means聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911127104.8A CN111079788A (zh) 2019-11-18 2019-11-18 一种基于密度Canopy的K-means聚类方法

Publications (1)

Publication Number Publication Date
CN111079788A true CN111079788A (zh) 2020-04-28

Family

ID=70311235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911127104.8A Pending CN111079788A (zh) 2019-11-18 2019-11-18 一种基于密度Canopy的K-means聚类方法

Country Status (1)

Country Link
CN (1) CN111079788A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597292A (zh) * 2020-12-29 2021-04-02 招联消费金融有限公司 问题回复推荐方法、装置、计算机设备和存储介质
CN112699926A (zh) * 2020-12-25 2021-04-23 浙江中控技术股份有限公司 基于人工智能技术的水泥生料立磨饱磨异常识别方法
CN113852845A (zh) * 2021-02-05 2021-12-28 天翼智慧家庭科技有限公司 一种基于粒度聚类的数据处理方法和装置
CN114964777A (zh) * 2022-05-11 2022-08-30 盐城工学院 一种滚动轴承故障检测方法
CN117632937A (zh) * 2023-12-06 2024-03-01 北京开元泰达净化设备有限公司 一种工业互联网大数据平台及数据处理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699926A (zh) * 2020-12-25 2021-04-23 浙江中控技术股份有限公司 基于人工智能技术的水泥生料立磨饱磨异常识别方法
CN112699926B (zh) * 2020-12-25 2023-01-20 浙江中控技术股份有限公司 基于人工智能技术的水泥生料立磨饱磨异常识别方法
CN112597292A (zh) * 2020-12-29 2021-04-02 招联消费金融有限公司 问题回复推荐方法、装置、计算机设备和存储介质
CN112597292B (zh) * 2020-12-29 2024-04-26 招联消费金融股份有限公司 问题回复推荐方法、装置、计算机设备和存储介质
CN113852845A (zh) * 2021-02-05 2021-12-28 天翼智慧家庭科技有限公司 一种基于粒度聚类的数据处理方法和装置
CN114964777A (zh) * 2022-05-11 2022-08-30 盐城工学院 一种滚动轴承故障检测方法
CN117632937A (zh) * 2023-12-06 2024-03-01 北京开元泰达净化设备有限公司 一种工业互联网大数据平台及数据处理方法
CN117632937B (zh) * 2023-12-06 2024-04-30 北京开元泰达净化设备有限公司 一种工业互联网大数据平台及数据处理方法

Similar Documents

Publication Publication Date Title
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN115577275A (zh) 一种基于lof和孤立森林的时序数据异常监测系统及方法
Huang et al. An improved knn based on class contribution and feature weighting
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN108171012B (zh) 一种基因分类方法与装置
Sujatha et al. New fast k-means clustering algorithm using modified centroid selection method
CN112364914A (zh) 基于簇相似度与变换不变性的差分隐私k均值聚类方法
Chen et al. Approximating median absolute deviation with bounded error
Fan et al. Variable selection and model prediction based on lasso, adaptive lasso and elastic net
CN114417095A (zh) 一种数据集划分方法及装置
CN116720090A (zh) 一种基于层次的自适应聚类方法
CN107423319B (zh) 一种垃圾网页检测方法
Sakr et al. Genetic-based summarization for local outlier detection in data stream
CN107766887A (zh) 一种局部加权的不完整数据混杂聚类方法
Wang et al. An improved integrated clustering learning strategy based on three-stage affinity propagation algorithm with density peak optimization theory
Yuan et al. Outlier mining based on neighbor-density-deviation with minimum hyper-sphere
Boyang et al. A design method of RBF neural network based on KNN-DPC
Lin et al. Design and implementation of an improved DBSCAN algorithm
Yang et al. Adaptive density peak clustering for determinging cluster center
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Li et al. An improved fuzzy k-means clustering with k-center initialization
CN112308122A (zh) 基于双树的高维向量空间样本快速搜索方法及装置
CN112214655A (zh) 基于密度的多自适应阈值解决密度不均数据集的聚类方法
Feng et al. A genetic k-means clustering algorithm based on the optimized initial centers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428

RJ01 Rejection of invention patent application after publication