CN103744962A - 一种实现K-means聚类的方法及装置 - Google Patents

一种实现K-means聚类的方法及装置 Download PDF

Info

Publication number
CN103744962A
CN103744962A CN201410005652.4A CN201410005652A CN103744962A CN 103744962 A CN103744962 A CN 103744962A CN 201410005652 A CN201410005652 A CN 201410005652A CN 103744962 A CN103744962 A CN 103744962A
Authority
CN
China
Prior art keywords
cluster
numerical value
sample
clustering
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410005652.4A
Other languages
English (en)
Other versions
CN103744962B (zh
Inventor
李傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wave Cloud Computing Service Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410005652.4A priority Critical patent/CN103744962B/zh
Publication of CN103744962A publication Critical patent/CN103744962A/zh
Application granted granted Critical
Publication of CN103744962B publication Critical patent/CN103744962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种实现K-means聚类的方法及装置,包括:对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值;利用获得的样本集形成K个集群的层次聚类,将层次聚类的K个集群的质心作为K-means聚类的初始质心;根据获取的K-means初始质心进行K-means聚类。本发明通过选取需要数量的聚类集样本进行层次聚类,以获取层次聚类的质心作为K-means聚类方法的初始质心,使K-means聚类方法不受初始质心影响。另一方面,通过聚类算法过程中不满足聚类第一数值的聚类进行删除,从最大的聚类开始拆分相应个数的聚类,以保证聚类要求的聚类集群的个数要求。

Description

一种实现K-means聚类的方法及装置
技术领域
本发明涉及数据挖掘技术,尤指一种实现K-means聚类的方法及装置。
背景技术
K-means聚类的方法作为数据挖掘领域的一种常见方法,在一些数据处理的过程中存在以下问题:
一方面,初始质心的选择对聚类结果影响很大。也就是指作为聚类方法的第一步,如果对质心的选取不是数据集中的正常数值,那么对于聚类方法获得的结果,由于初值选择的随机性,很可能得出的聚类效果是不理想的。图1为现有技术对同一聚类数据采用随机选取的初始质心进行聚类的四次聚类结果示意图,如图1所示,聚类结果a1、聚类结果a2和聚类结果a3是采用第一组随机选取初始质心的聚类结果;聚类结果b1、聚类结果b2和聚类结果b3是采用第二组随机选取初始质心的聚类结果;聚类结果c1、聚类结果c2和聚类结果c3是采用第三组随机选取初始质心的聚类结果;聚类结果d1、聚类结果d2和聚类结果d3是采用第四组随机选取初始质心的聚类结果。图2是现有技术采用随机选取初始质心的聚类结果示意图,如图2所示,聚类结果k1和聚类结果k2为聚类形成的两个结果,但是从图中可以看出,这两个聚类集群的理想效果应当属于一个聚类集群;而聚类结果k3和聚类结果K4从聚类的结果示意图上可以看出,其从聚类要达到的理想效果应当是聚类为3个集群。通过分析可见,在现有的K-means聚类方法中,如果一个数据集有K个“真实”的集群,那么随机选择的K个点作为聚类的初始质心,则每个初始质心恰好落在一个“真实”的集群上的概率很小。例如,一个数据集上有10个类,按照目前的聚类方法随机选择10个点作为初始质心。那么10个初始点正好落在10个类的集群上的概率为10!/1010=0.00036。
另一方面,K-means聚类方法对异常点的敏感性高。当数据集含存在一定数量的异常点时,则异常点对SSE的贡献必然很大(采用的是距离的平方)。由于异常点的存在导致在算法迭代的过程中,质心非常容易被异常点“吸附”过去,从而严重影响了聚类方法的分析效果。
再者,出现空集群问题。空集群是指在一次聚类方法实施的过程中,对于选取的一个或几个质心,任何一个数据点都没有被分配到该质心上,目前的K-means聚类方法无法避免聚类时出现空集群的现象。
综上所述,目前的K-means聚类方法,采用随机选取初始质心的选取进行聚类,在聚类过程中,异常点对聚类结果影响较大,且无法避免出现空集群的现象,严重影响了K-means聚类方法在数据处理过程中的使用。
发明内容
为了解决上述技术问题,本发明公开了一种实现K-means聚类的方法及装置。能够选取出适合K-means聚类的初始质心,降低K-means聚类初始质心对聚类结果的影响。
为了达到本申请的目的,本发明提供一种实现K-means聚类的方法,包括:
对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值;
利用获得的样本集形成K个集群的层次聚类,将层次聚类的K个集群的质心作为K-means聚类的初始质心;
根据获取的K-means初始质心进行K-means聚类。
进一步地,满足预先设置的相似度数值为:预先设置相似度数值,通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值,获得样本集的样本数值;
其中,S为需要计算的样本集的样本数值。
进一步地,在进行K-means聚类时,设置聚类集群的聚类第一数值,该方法还包括:
删除不满足聚类第一数值的聚类集群,在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类的集群个数不变。
另一方面,本申请还提供一种实现K-means聚类的装置,包括:样本单元、初始质心获取单元及K-means聚类单元;其中,
样本单元,用于对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值;
初始质心获取单元,用于利用样本单元获得的样本集进行形成K个集群的层次聚类,将获取的层次聚类的K个集群的质心设置为K-means聚类的初始质心;
K-means聚类单元,用于根据初始质心获取单元设置的K-means聚类的初始质心进行K-means聚类。
进一步地,样本单元具体用于:
预先设置相似度数值,通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值,获得样本集的样本数值;
其中,S为需要计算的样本集的样本数值。
进一步地,该装置还包括聚类处理单元,用于在进行K-means聚类时,设置聚类集群的第一数值,删除不满足第一数值的聚类集群;在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类集群个数不变。
本申请提出一种技术方案,包括:对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值;利用获得的样本集形成K个集群的层次聚类,将层次聚类的K个集群的质心作为K-means聚类的初始质心;根据获取的K-means初始质心进行K-means聚类。本申请还包括与方法对应的装置。本发明通过选取需要数量的聚类集样本进行层次聚类,以获取层次聚类的质心作为K-means聚类方法的初始质心,使K-means聚类方法不受初始质心影响。另一方面,通过聚类算法过程中不满足聚类第一数值的聚类进行删除,从最大的聚类开始拆分相应个数的聚类,以保证聚类要求的聚类集群的个数要求。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为现有技术对同一聚类数据采用随机选取的初始质心进行聚类的四次聚类结果示意图;
图2是现有技术采用随机选取初始质心的聚类结果示意图;
图3为本发明实现K-means聚类的方法的流程图;
图4为本发明实现K-means聚类的聚类效果示意图;
图5为本发明实现K-means聚类的装置的结构框图。
具体实施方式
图3为本发明实现K-means聚类的方法的流程图,如图3所示,包括:
步骤300、对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值。
本步骤中,满足预先设置的相似度数值为:预先设置相似度数值,通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值,获得样本集的样本数值;
其中,S为需要计算的样本集的样本数值。
需要说明的是,采用上述公式是为了获得进行层次聚类的样本集中的样本数值,样本数值的取值大小根据实际的需求进行相应的设定。假设以相似度为95%和聚类个数为20进行样本集的样本数值计算,可以获得样本数值为117。当设置的概率越大,样本数值也会呈现增大的趋势,同时,由于样本数值的增大,获得的聚类效果应当会相应的变为更为理想;需要强调的是采用其他概率的计算方法也可以得到本发明样本集的样本数值,当获得的样本集的样本数值与本发明计算样本数值相同时,采用本发明层次聚类对获取初始质心,其技术效果是相同的,应当属于本发明方法保护的范围。
另外,从本发明的计算公式可以得出,对于样本集的大小和聚类数据的数据个数无关。也就是说,如果在大数据或其他数据较多的数据挖掘领域使用本发明方法,本发明方法是具有恒优的聚类效果的,不会因为数据集群数据量大小的改变而影响本发明方法的技术效果。
步骤301、利用获得的样本集形成K个集群的层次聚类,将层次聚类的K个集群的质心作为K-means聚类的初始质心。
步骤302、根据获取的K-means初始质心进行K-means聚类。
在进行K-means聚类时,设置聚类集群的聚类第一数值,本发明方法还包括:
删除不满足聚类第一数值的聚类集群,在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类集群个数不变。
需要说明的是,聚类的第一数值,可以是一个动态的数值,针对集群数据及集群个数,和对聚类的效果要求,设置在聚类过程的一个随着聚类的进展,不断增加变化的取值;或者,还可以是一个固定的取值,在对聚类数据进行聚类到一定程度时,设置一个固定的取值,用来判断聚类是否满足一定的聚类效果,如果无法满足,则根据本发明方法,进行删除处理。
图4为本发明实现K-means聚类的聚类效果示意图,如图4所示,通过计算机模拟仿真方式,对本发明实现K-means聚类效果进行比较分析,效果示意图为维度为2维,聚类个数为15,数据集大小为5000的一次K-means聚类的聚类结果。
通过对K-means聚类的初始质心采用本发明方法进行获取,解决了初始质心的选择对结果影响很大,从聚类结果K1、聚类结果K2、聚类结果K3、聚类结果K4与图2的聚类结果k1、聚类结果k2、聚类结果k3、聚类结果k4进行比较可以很清楚的看出本发明的技术效果。
另外,在聚类过程中,采用对在进行K-means聚类时,设置聚类集群的聚类第一数值,删除不满足聚类第一数值的聚类集群,在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类集群个数不变。解决了K-means聚类方法对异常点的敏感性问题。同时,通过上述方法的处理,聚类也避免了空集群的问题,使聚类效果更加理想。
图5为本发明实现K-means聚类的装置的结构框图,如图5所示,包括:样本单元、初始质心获取单元及K-means聚类单元;其中,
样本单元,用于对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值。
样本单元具体用于:预先设置相似度数值,通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值,获得样本集的样本数值;
其中,S为需要计算的样本集的样本数值。
初始质心获取单元,用于利用样本单元获得的样本集进行形成K个集群的层次聚类,将获取的层次聚类的K个集群的质心设置为K-means聚类的初始质心。
K-means聚类单元,用于根据初始质心获取单元设置的K-means聚类的初始质心进行K-means聚类。
本发明装置还包括聚类处理单元,用于在进行K-means聚类时,设置聚类集群的第一数值,删除不满足第一数值的聚类集群;在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类集群个数不变。
需要说明的是,聚类处理单元可以是与K-means聚类单元连接,进行交互通信的一个单元,也可以是内嵌在K-means聚类单元内部的一个单元。另外,聚类单元可以是软件实现的功能单元,也可以是由相关芯片形成的功能单元。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种实现K-means聚类的方法,其特征在于,包括:
对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值;
利用获得的样本集形成K个集群的层次聚类,将层次聚类的K个集群的质心作为K-means聚类的初始质心;
根据获取的K-means初始质心进行K-means聚类。
2.根据权利要求1所述的方法,其特征在于,所述满足预先设置的相似度数值为:预先设置相似度数值,通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值,获得样本集的样本数值;
其中,S为需要计算的样本集的样本数值。
3.根据权利要求1所述的方法,其特征在于,在进行K-means聚类时,设置聚类集群的聚类第一数值,该方法还包括:
删除不满足聚类第一数值的聚类集群,在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类的集群个数不变。
4.一种实现K-means聚类的装置,其特征在于,包括:样本单元、初始质心获取单元及K-means聚类单元;其中,
样本单元,用于对聚类数据进行随机抽样得到样本集,样本集与聚类数据满足预先设置的相似度数值;
初始质心获取单元,用于利用样本单元获得的样本集进行形成K个集群的层次聚类,将获取的层次聚类的K个集群的质心设置为K-means聚类的初始质心;
K-means聚类单元,用于根据初始质心获取单元设置的K-means聚类的初始质心进行K-means聚类。
5.根据权利要求4所述的装置,其特征在于,所述样本单元具体用于:
预先设置相似度数值,通过计算公式(1-(1-1/K)s)K的数值大于或等于预先设置的相似度数值,获得样本集的样本数值;
其中,S为需要计算的样本集的样本数值。
6.根据权利要求4所述的装置,其特征在于,该装置还包括聚类处理单元,用于在进行K-means聚类时,设置聚类集群的第一数值,删除不满足第一数值的聚类集群;在删除聚类集群时,将最大集群开始的相应个数的集群进行拆分,以满足K-means聚类集群个数不变。
CN201410005652.4A 2014-01-06 2014-01-06 一种实现K‑means聚类的方法及装置 Active CN103744962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410005652.4A CN103744962B (zh) 2014-01-06 2014-01-06 一种实现K‑means聚类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410005652.4A CN103744962B (zh) 2014-01-06 2014-01-06 一种实现K‑means聚类的方法及装置

Publications (2)

Publication Number Publication Date
CN103744962A true CN103744962A (zh) 2014-04-23
CN103744962B CN103744962B (zh) 2017-01-25

Family

ID=50501980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410005652.4A Active CN103744962B (zh) 2014-01-06 2014-01-06 一种实现K‑means聚类的方法及装置

Country Status (1)

Country Link
CN (1) CN103744962B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063518A (zh) * 2014-07-14 2014-09-24 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN105118332A (zh) * 2015-09-30 2015-12-02 中国民用航空总局第二研究所 一种基于聚类分析法的空中交通管制模拟仿真异常检测方法和装置
CN105183765A (zh) * 2015-07-30 2015-12-23 成都鼎智汇科技有限公司 一种基于大数据的话题抽取方法
CN106484838A (zh) * 2016-09-30 2017-03-08 中国南方电网有限责任公司 基于数据挖掘的安全检查标准库动态更新方法
CN107430824A (zh) * 2015-02-06 2017-12-01 意识教育以色列公司 用于评价响应的半自动系统和方法
CN108062555A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于Spark流式聚类的监测数据预警系统
CN110880005A (zh) * 2018-09-05 2020-03-13 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254020A (zh) * 2011-07-22 2011-11-23 西安电子科技大学 基于特征权重的全局k-均值聚类方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063518A (zh) * 2014-07-14 2014-09-24 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN104063518B (zh) * 2014-07-14 2017-06-09 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN107430824A (zh) * 2015-02-06 2017-12-01 意识教育以色列公司 用于评价响应的半自动系统和方法
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN105183765A (zh) * 2015-07-30 2015-12-23 成都鼎智汇科技有限公司 一种基于大数据的话题抽取方法
CN105118332A (zh) * 2015-09-30 2015-12-02 中国民用航空总局第二研究所 一种基于聚类分析法的空中交通管制模拟仿真异常检测方法和装置
CN105118332B (zh) * 2015-09-30 2018-01-23 中国民用航空总局第二研究所 一种基于聚类分析法的空中交通管制模拟仿真异常检测方法和装置
CN106484838A (zh) * 2016-09-30 2017-03-08 中国南方电网有限责任公司 基于数据挖掘的安全检查标准库动态更新方法
CN108062555A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于Spark流式聚类的监测数据预警系统
CN110880005A (zh) * 2018-09-05 2020-03-13 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置
CN110880005B (zh) * 2018-09-05 2023-06-23 阿里巴巴集团控股有限公司 向量索引建立方法及装置和向量检索方法及装置

Also Published As

Publication number Publication date
CN103744962B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN103744962A (zh) 一种实现K-means聚类的方法及装置
CN108875067B (zh) 文本数据分类方法、装置、设备及存储介质
CN105205397B (zh) 恶意程序样本分类方法及装置
US9177020B2 (en) Gathering index statistics using sampling
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN108255602B (zh) 任务组合方法及终端设备
CN106685964B (zh) 基于恶意网络流量词库的恶意软件检测方法及系统
US10346496B2 (en) Information category obtaining method and apparatus
CN104898981A (zh) 用于识别手势的方法、装置及终端
CN110031761B (zh) 电池筛选方法、电池筛选装置及终端设备
JP2019511773A (ja) サービス・パラメータ選択方法及び関連するデバイス
CN103838754A (zh) 信息搜索装置及方法
CN103679030A (zh) 一种基于动态语义特征的恶意代码分析检测方法
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN108805174A (zh) 聚类方法及装置
CN116094548A (zh) 基于测试数据的电缆传输性能分析方法、装置及电子设备
CN108133229B (zh) 一种安卓apk文件的分类加密方法及系统
CN103186672B (zh) 文件排序方法及其装置
WO2016127858A1 (zh) 网页入侵脚本特征的识别方法及设备
CN103309617A (zh) 一种手势快速识别方法及装置
CN109696614B (zh) 电路测试优化方法及装置
CN104965976B (zh) 一种抽样方法和装置
CN106547807B (zh) 数据分析方法与装置
CN105733921A (zh) 下一代测序分析系统及其下一代测序分析方法
CN105022799B (zh) 基于TreeMap的二维长度不确定数据的主次关键字自排序算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180817

Address after: 200436 Room 411, No. three, JIANGCHANG Road, Jingan District, Shanghai, 411

Patentee after: Shanghai wave Cloud Computing Service Co., Ltd.

Address before: 100085 floor 1, C 2-1, No. 2, Shang Di Road, Haidian District, Beijing.

Patentee before: Electronic information industry Co.,Ltd of the tide (Beijing)