CN108364026A - 一种簇心更新方法、装置及K-means聚类分析方法、装置 - Google Patents

一种簇心更新方法、装置及K-means聚类分析方法、装置 Download PDF

Info

Publication number
CN108364026A
CN108364026A CN201810156872.5A CN201810156872A CN108364026A CN 108364026 A CN108364026 A CN 108364026A CN 201810156872 A CN201810156872 A CN 201810156872A CN 108364026 A CN108364026 A CN 108364026A
Authority
CN
China
Prior art keywords
cluster
heart
class object
cluster heart
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810156872.5A
Other languages
English (en)
Inventor
张腾飞
王慧研
岳东
马福民
欧阳志友
邓松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810156872.5A priority Critical patent/CN108364026A/zh
Publication of CN108364026A publication Critical patent/CN108364026A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种簇心更新方法、装置及K‑means聚类分析方法、装置,其中所述簇心更新方法包括:对所有簇逐个计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心;计算待更新簇心所在簇的第一簇心与其他簇的第一簇心的第一距离之和;计算待更新簇心所在簇的第二簇心与其他簇的第二簇心的第二距离之和;根据下列公式计算待更新簇心所在簇中第一类对象的权值:根据下列公式确定新的簇心:本发明能够体现出下近似对象和边界区域对象的分散程度对于更新簇心的影响;能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。

Description

一种簇心更新方法、装置及K-means聚类分析方法、装置
技术领域
本发明涉及聚类分析技术领域,具体涉及一种簇心更新方法、装置及K-means聚类分析方法、装置。
背景技术
聚类分析作为一种无监督学习方法,是数据挖掘领域十分重要的研究内容,广泛应用于图像识别、信息检索、生物信息挖掘以及基因分析等领域。粗糙K-means算法是一种经典的聚类分析方法,其方法步骤主要包括:首先确定初始簇心,分别计算各个待聚类对象到各个簇心的距离,根据各个距离确定各个待聚类对象为各个簇心所在的簇的下近似对象或边界区域对象;然后根据各个簇的下近似对象和边界区域对象更新簇心,再分别计算各个待聚类对象到各个簇心的距离,根据各个距离确定各个待聚类对象为各个簇心所在的簇的下近似对象或边界区域对象……如此进行多次迭代,直至达到迭代截止条件,完成一轮迭代过程,以最终簇心确定的下近似对象及边界区域对象为聚类结果。其中下近似对象是可以确定属于某簇的对象,边界区域对象是不能够确定是否属于该簇的对象。
现有粗糙K-means算法中,一个簇的簇心更新方法通常为:为簇中的下近似对象设置第一固定权值,为簇中的边界区域对象
设置第二固定权值,以下近似对象和边界区域对象的加权之和作为新的簇心。一整轮迭代过程中通常都会采用同样的一组第一固定权值、第二固定权值(例如,第一固定权值为0.7,第二固定权值为0.3)。或者进一步地,还会另外设置不同的一组第一固定权值、第二固定权值(例如,第一固定权值为0.6,第二固定权值为0.4),比较各组权值的聚类分析结果,以最优的结果作为最终的聚类分析结果。
然而,发明人发现,当簇中下近似对象和边界区域对象的数量均相同时,假设有情形一:下近似对象集中于原簇心附近、边界区域对象远离原簇心,情形二:下近似对象和边界区域对象相对均匀地分布在原簇心周围,现有簇心更新方法对于情形一和情形二的簇心更新结果有时是相同的,无法体现下近似对象和边界区域对象的分散程度对于更新簇心的影响。
发明内容
有鉴于此,本发明实施例提供了一种簇心更新方法、装置及K-means聚类分析方法、装置,以解决现有方法无法体现下近似对象和边界区域对象的分散程度对于更新簇心的影响的问题。
根据第一方面,本发明实施例提供了一种簇心更新方法,簇由第一类对象和第二类对象组成,并且所述第一类对象和第二类对象中的一者为下近似对象,另一者为边界区域对象;所述方法包括:对其他所有簇逐个计算簇中下近似对象决定的预簇心;计算待更新簇心所在簇的第一类对象决定的第一簇心与其他所有簇的预簇心的第一距离之和;计算待更新簇心所在簇的第二类对象决定的第二簇心与其他所有簇的预簇心的第二距离之和;
根据下列公式计算待更新簇心所在簇中第一类对象的权值:其中,wi为待更新簇心所在簇i中第一类对象的权值,D1为所述第一距离之和,D2为所述第二距离之和,n为指数,并且n>0;
根据下列公式确定新的簇心:其中,vi为待确定的簇心,xn为簇i中的对象,Ci 为簇i中的第一类对象的集合,为簇i中的第二类对象的集合,N为簇i中的第一类对象的个数,为簇i中的第二类对象的个数。
可选地,所述第一类对象为下近似对象,所述第二类对象为边界区域对象;或者,所述第一类对象为边界区域对象,所述第二类对象为下近似对象。
可选地,所述第一距离之和、所述第二距离之和包括距离的m次方之和。
可选地,所述对其他所有簇逐个计算簇中下近似对象决定的预簇心的步骤包括:
计算簇j的预簇心为:其中mj 0为其他簇j的预簇心,Nj 为簇j中下近似对象的个数,Cj 为簇j中的下近似对象的集合。
可选地,所述计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心的步骤之前,还包括:判断所述簇中第一类对象的个数和/或第二类对象的个数是否为零;当所述簇中第一类对象的个数和第二类对象的个数不为零时,继续执行所述计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心的步骤。
可选地,所述方法还包括:当所述簇中第一类对象的个数为零时,确定所述簇中第一类对象的权值为零;和/或,当所述簇中第二类对象的个数为零时,确定所述簇中第二类对象的权值为零。
根据第二方面,本发明实施例提供了一种簇心更新装置,簇由第一类对象和第二类对象组成,并且所述第一类对象和第二类对象中的一者为下近似对象,另一者为边界区域对象;所述装置包括:预簇心计算单元,用于对其他所有簇逐个计算簇中下近似对象决定的预簇心;第一距离计算单元,用于计算待更新簇心所在簇的第一类对象决定的第一簇心与其他所有簇的预簇心的第一距离之和;第二距离计算单元,用于计算待更新簇心所在簇的第二类对象决定的第二簇心与其他所有簇的预簇心的第二距离之和;
权值计算单元,用于根据下列公式计算待更新簇心所在簇中第一类对象的权值:其中,wi为待更新簇心所在簇i中第一类对象的权值,D1为所述第一距离之和,D2为所述第二距离之和,n为指数,并且n>0;簇心更新单元,用于根据下列公式更新簇心:其中,vi为待确定的簇心,xn为簇i中的对象,Ci 为簇i中的第一类对象的集合,为簇i中的第二类对象的集合,N为簇i中的第一类对象的个数,为簇i中的第二类对象的个数。
可选地,所述第一类对象为下近似对象,所述第二类对象为边界区域对象;或者,所述第一类对象为边界区域对象,所述第二类对象为下近似对象。
可选地,所述第一距离之和、所述第二距离之和包括距离的m次方之和。
可选地,所述预簇心计算单元包括:
预簇心计算子单元,用于计算簇j的预簇心为:其中mj 0为其他簇j的预簇心,Nj 为簇j中下近似对象的个数,Cj 为簇j中的下近似对象的集合。
可选地,所述装置还包括:判断单元,用于判断所述簇中第一类对象的个数和/或第二类对象的个数是否为零;当所述簇中第一类对象的个数和第二类对象的个数不为零时,继续执行所述计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心的步骤。
可选地,所述装置还包括:第一确定单元,用于当所述簇中第一类对象的个数为零时,确定所述簇中第一类对象的权值为零;和/或,第二确定单元,用于当所述簇中第二类对象的个数为零时,确定所述簇中第二类对象的权值为零。
根据第三方面,本发明实施例提供了一种K-means聚类分析方法,包括:第一方面或者其任意一种可选实施方式所述的簇心更新方法计算所有簇的新簇心;计算待聚类对象到各个新簇心的距离;根据各个距离确定待聚类对象为各个簇的第一类对象或第二类对象。
可选地,所述第一类对象为下近似对象,所述第二类对象为边界区域对象。
可选地,所述根据各个距离确定待聚类对象为各个簇心所在的簇的第一类对象或第二类对象的步骤,包括:计算待聚类对象到任意两个新簇心的距离中的较大者与较小者的比值;判断所述比值是否大于等于预定阈值;当所述比值大于等于所述预定阈值时,确定所述待聚类对象为距离中较大者对应的簇的下近似对象。
可选地,所述方法还包括:当所述比值小于所述预定阈值时,确定所述待聚类对象为距离中较大者对应的簇的边界区域对象。
根据第四方面,本发明实施例提供了一种K-means聚类分析装置,包括:第二方面或者其任意一种可选实施方式所述的簇心更新装置;第三距离计算单元,用于计算待聚类对象到各个新簇心的距离;第三确定单元,用于根据各个距离确定待聚类对象为各个簇的第一类对象或第二类对象。
可选地,所述第一类对象为下近似对象,所述第二类对象为边界区域对象。
可选地,所述第三确定单元包括:比值计算子单元,用于计算待聚类对象到任意两个新簇心的距离中的较大者与较小者的比值;判断子单元,用于判断所述比值是否大于等于预定阈值;第一确定子单元,用于当所述比值大于等于所述预定阈值时,确定所述待聚类对象为距离中较大者对应的簇的下近似对象。
可选地,所述装置还包括:第二确定子单元,用于当所述比值小于所述预定阈值时,确定所述待聚类对象为距离中较大者对应的簇的边界区域对象。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者其任意一种可选实施方式所述的簇心更新方法。
根据第六方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第三方面或者其任意一种可选实施方式所述的K-means聚类分析方法。
本发明实施例所提供的簇心更新方法及装置,在更新簇心时,以其他簇的下近似对象决定的簇心作为预簇心,将待更新簇心的簇的“第一簇心(第一类对象决定的簇心)到其他所有簇的预簇心的第一距离之和”与其“第二簇心(第二类对象决定的簇心)到其他所有簇的预簇心的第二距离之和”求取比值,根据该比值调整第一类对象的权值,从而对于背景技术中所述的情形一和情形二,簇心更新结果会有所不同,体现出下近似对象和边界区域对象的分散程度对于更新簇心的影响;上述第一距离之和为待更新簇心的簇的第一类对象决定的簇心到其他所有簇的预簇心的第一距离之和,第二距离之和为待更新簇心的簇的第二类对象决定的簇心到其他所有簇的预簇心的第二距离之和,第一距离之和与第二距离之和的比值能够衡量出第一类对象和第二类对象关于更新簇心的相对重要性,根据相对重要性调整簇心更新结果,能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。
本发明实施例所提供的K-means聚类分析方法及装置,采用第一方面所述的簇心更新方法计算所有簇的新簇心后,再确定待聚类对象属于各个簇的第一类对象或第二类对象,能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了根据本发明实施例的一种簇心更新方法的流程图;
图2示出了原始数据集的示意图;
图3示出了基于现有簇心更新方法的K-means聚类分析方法的聚类效果图;
图4示出了基于本发明簇心更新方法的K-means聚类分析方法的聚类效果图;
图5示出了根据本发明实施例的另一种簇心更新方法的流程图;
图6示出了根据本发明实施例的一种簇心更新装置的原理框图;
图7示出了根据本发明实施例的另一种簇心更新装置的原理框图;
图8示出了根据本发明实施例的一种K-means聚类分析方法的流程图;
图9示出了根据本发明实施例的另一种K-means聚类分析方法的流程图;
图10示出了根据本发明实施例的一种K-means聚类分析装置的原理框图;
图11示出了根据本发明实施例的另一种K-means聚类分析装置的原理框图;
图12示出了根据本发明实施例的一种电子设备的示意图;
图13示出了根据本发明实施例的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,本申请中的簇由第一类对象和第二类对象组成。其中,第一类对象可以为下近似对象,则第二类对象为边界区域对象;或者第一类对象为边界区域对象,则第二类对象为下近似对象。本申请实施例仅以第一类对象为下近似对象为例说明本申请技术方案。
聚类的目的是使簇内对象尽可能相似,簇间对象尽可能分离。发明人发现,对于任意的对于任意的簇i,如果边界对象使得该簇与其它簇之间距离较远,则聚类效果越好,边界对象越重要,属于该簇的可能性越大。反之,如果加入边界对象后,该簇与其它簇之间的距离较近,则聚类效果越差,边界对象重要性越小,属于该簇的可能性也越小。同时,如果边界对象使得簇间距离越近,说明边界对象使得簇间更加模糊,边界对象应该具有更小的权重,而下近似对象应该具有更大的权重。反之,如果边界对象使得簇间距离越远,说明边界对象使得簇间更加分隔。本申请根据这一理论给出本申请所述的技术方案。
实施例一
图1示出了根据本发明实施例的一种簇心更新方法的流程图。如图1所示,该簇心更新方法包括如下步骤:
S10:对其他所有簇逐个计算簇中下近似对象决定的预簇心。
S20:计算待更新簇心所在簇的第一类对象决定的第一簇心与其他所有簇的预簇心的第一距离之和。
S30:计算待更新簇心所在簇的第二类对象决定的第二簇心与其他所有簇的预簇心的第二距离之和。
假设有四个簇:簇1、簇2、簇3和簇i,其中簇i为待更新簇心的簇,簇1、簇2、簇3对于簇i而言是“其他簇”。以mi 1、mi 2分别表示待更新簇心所在簇的第一簇心、第二簇心,m1 0、m2 0、m3 0分别表示簇1、簇2、簇3的预簇心。以dij 1表示簇i的第一簇心与簇j的预簇心之间的距离,以dij 2表示簇i的第一簇心与簇j的预簇心之间的距离,其中j的取值可以为1、2、3。
步骤S10计算出m1 0、m2 0、m3 0,步骤S20计算出di1 1+di2 1+di3 1,步骤S30计算出di1 2+di2 2+di3 2
S40:根据下列公式计算待更新簇心所在簇中第一类对象的权值:其中,wi为待更新簇心所在簇i中第一类对象的权值,D1为第一距离之和,D2为第二距离之和,n为指数,并且n>0。
沿用上例,则D1=di1 1+di2 1+di3 1,D2=di1 2+di2 2+di3 2
需要说明的是,作为一种变形实施方式,步骤S20至S40中,当距离dmn 1、dmn 2大于1时,第一距离之和、第二距离之和还可以是距离的m次方之和(m>0),即D1=(di1 1)m+(di2 1)m+(di3 1)m,D2=(di1 2)m+(di2 2)m+(di3 2)m,其中m的取值可以为2、3、4。通过对距离dmn 1、dmn 2先计算乘方后再求和,能够放大下近似对象与边界区域对象对于距离的影响,从而凸显出下近似和边界区域对象的分散程度对于更新后的簇心的影响。
S50:根据下列公式确定新的簇心:其中,vi为待确定的簇心,xn为簇i中的对象,Ci 为簇i中的第一类对象的集合,为簇i中的第二类对象的集合,N为簇i中的第一类对象的个数,为簇i中的第二类对象的个数。也即,新的簇心是由下近似对象、边界区域对象的平均值加权求和之后得到的。
上述簇心更新方法,在更新簇心时,以其他簇的下近似对象决定的簇心作为预簇心,将待更新簇心的簇的“第一簇心(第一类对象决定的簇心)到其他所有簇的预簇心的第一距离之和”与其“第二簇心(第二类对象决定的簇心)到其他所有簇的预簇心的第二距离之和”求取比值,根据该比值调整第一类对象的权值,从而对于背景技术中所述的情形一和情形二,簇心更新结果会有所不同,体现出下近似对象和边界区域对象的分散程度对于更新簇心的影响;上述第一距离之和为待更新簇心的簇的第一类对象决定的簇心到其他所有簇的预簇心的第一距离之和,第二距离之和为待更新簇心的簇的第二类对象决定的簇心到其他所有簇的预簇心的第二距离之和,第一距离之和与第二距离之和的比值能够衡量出第一类对象和第二类对象关于更新簇心的相对重要性,根据相对重要性调整簇心更新结果,能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。
图2示出了原始数据集的示意图,其中“+”、“×”、“△”符号分布表示三个数据集中的对象。验证聚类算法的效果时,获取三个数据集中的所有对象(并不区分属于哪一数据集),聚类后的结果与原始数据集的分类情况进行比较,更接近原始数据集分类的聚类结果更优。图3示出了基于现有簇心更新方法的K-means聚类分析方法的聚类效果图,图4示出了基于本发明簇心更新方法的K-means聚类分析方法的聚类效果图,其中,黑色圆点为最终确定的各个数据集的中心(即簇心),虚线方框内的对象为边界区域对象,虚线圆框内的对象为错误分类的对象。从图3和图4对比后可以看出,基于本发明簇心更新方法的K-means聚类分析方法的簇心的位置更加合理(根据趋近于中心位置),划分到正确划分到簇中的对象个数更多,被错误划分的对象更少,边界对象的个数也较少,聚类效果更好。
作为本实施例的一种可选实施方式,如图5所示,步骤S10包括:
S101:计算其他簇j的预簇心为:其中mj 0为其他簇j的预簇心,Nj 为簇j中下近似对象的个数,Cj 为簇j中的下近似对象的集合。也即,簇j的预簇心由簇j的下近似对象求取平均值得到的。
与步骤S101类似地,本申请实施例中还可以计算待更新簇心所在簇i的第一类对象决定的第一簇心为:
其中mi 1为第一簇心,Ni 为簇i中第一类对象的个数,Ci 为簇i中的第一类对象的集合。也即,簇i的第一簇心由簇i的第一类对象(例如下近似对象)求取平均值得到的。
本申请实施例中还可以计算待更新簇心所在簇i的第二类对象决定的第二簇心为:
其中mi 2为第二簇心,为簇i中第二类对象的个数,为簇i中的第二类对象的集合。也即,簇i的第二簇心由簇i的第二类对象(例如边界区域对象)求取平均值得到的。
需要补充说明的是,上述仅给出了簇i的预簇心、第一簇心、第二簇心的一种求取方式。作为一种变形方式,簇i的预簇心、第一簇心、第二簇心还可以由簇i的相应对象值先平方(或者也可以为开方)再求平均值得到。
作为本实施例的一种可选实施方式,如图5所示,上述步骤S10之前,还包括如下步骤:
S60:判断簇中第一类对象的个数和/或第二类对象的个数是否为零。当簇中第一类对象的个数和第二类对象的个数不为零时,继续执行步骤S10;否则执行步骤S70或S80。
S70:当簇中第一类对象的个数为零时,确定簇中第一类对象的权值为零。也即,第一类对象(例如下近似对象)对更新后的簇心没有影响。
S80:当簇中第二类对象的个数为零时,确定簇中第二类对象的权值为零。也即,第二类对象(例如边界区域对象)对更新后的簇心没有影响。
实施例二
图6示出了根据本发明实施例的一种簇心更新装置的原理框图。该簇心更新装置可以用于执行实施例一或者其任意一种可选实施方式所述的簇心更新方法。如图6所示,该装置包括预簇心计算单元10、第一距离计算单元20、第二距离计算单元30、权值计算单元40和簇心更新单元50。
预簇心计算单元10用于对其他所有簇逐个计算簇中下近似对象决定的预簇心。
第一距离计算单元20用于计算待更新簇心所在簇的第一类对象决定的第一簇心与其他所有簇的预簇心的第一距离之和。
第二距离计算单元30用于计算待更新簇心所在簇的第二类对象决定的第二簇心与其他所有簇的预簇心的第二距离之和。
权值计算单元40用于根据下列公式计算待更新簇心所在簇中第一类对象的权值:其中,wi为待更新簇心所在簇i中第一类对象的权值,D1为第一距离之和,D2为第二距离之和,n为指数,并且n>0:簇心更新单元50用于根据下列公式更新簇心:其中,vi为待确定的簇心,xn为簇i中的对象,Ci 为簇i中的第一类对象的集合,为簇i中的第二类对象的集合,N为簇i中的第一类对象的个数,为簇i中的第二类对象的个数。
上述簇心更新装置,能够使得对于背景技术中所述的情形一和情形二,簇心更新结果有所不同,体现出下近似对象和边界区域对象的分散程度对于更新簇心的影响;能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。具体请参见实施例一。
可选地,第一距离之和、第二距离之和包括距离的m次方之和。作为本实施例的一种可选实施方式,如图7所示,预簇心计算单元10包括预簇心计算子单元11。
预簇心计算子单元11,用于计算簇j的预簇心为:其中mj 0为其他簇j的预簇心,Nj 为簇j中下近似对象的个数,Cj 为簇j中的下近似对象的集合。
作为本实施例的一种可选实施方式,如图7所示,该簇心更新装置还包括判断单元60,用于判断簇中第一类对象的个数和/或第二类对象的个数是否为零。
当簇中第一类对象的个数和第二类对象的个数不为零时,预簇心计算单元10继续执行计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心的步骤。
可选地,如图7所示,该簇心更新装置还包括第一确定单元70和/或第二确定单元80。
第一确定单元70用于当簇中第一类对象的个数为零时,确定簇中第一类对象的权值为零。第二确定单元80用于当簇中第二类对象的个数为零时,确定簇中第二类对象的权值为零。
实施例三
图8示出了根据本发明实施例的一种K-means聚类分析方法的流程图。该方法包括采用实施例一或者其任意一种可选实施方式所述的簇心更新方法计算所有簇的新簇心,还包括如下步骤:
S90:计算待聚类对象到各个新簇心的距离。
S100:根据各个距离确定待聚类对象为各个簇的第一类对象或第二类对象。
作为本实施例的一种可选实施方式,如图9所示,步骤S100包括如下步骤:
S101:计算待聚类对象到任意两个新簇心的距离中的较大者与较小者的比值。
S102:判断比值是否大于等于预定阈值。当比值大于等于预定阈值时,执行步骤S103;否则,执行步骤S104。
S103:确定待聚类对象为距离中较大者对应的簇的下近似对象。
S104:确定待聚类对象为距离中较大者对应的簇的边界区域对象。
上述K-means聚类分析方法,采用实施例一所述的簇心更新方法计算所有簇的新簇心后,再确定待聚类对象属于各个簇的第一类对象或第二类对象,能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。具体请参见实施例一。
实施例四
图10示出了根据本发明实施例的一种K-means聚类分析装置的原理框图。该装置包括实施例二或者其任意一种可选实施方式所述的簇心更新装置,还包括第三距离计算单元90和第三确定单元100。
第三距离计算单元90用于计算待聚类对象到各个新簇心的距离。
第三确定单元100用于根据各个距离确定待聚类对象为各个簇的第一类对象或第二类对象。
上述K-means聚类分析装置,采用实施例一所述的簇心更新方法计算所有簇的新簇心后,再确定待聚类对象属于各个簇的第一类对象或第二类对象,能够使得簇间距离更大,簇的边界更加清晰,聚类效果更好。具体请参见实施例一。
作为本实施例的一种可选实施方式,如图11所示,第三确定单元100包括比值计算子单元101、判断子单元102、第一确定子单元103和第二确定子单元104。
比值计算子单元101用于计算待聚类对象到任意两个新簇心的距离中的较大者与较小者的比值。
判断子单元102用于判断比值是否大于等于预定阈值。
第一确定子单元103用于当比值大于等于预定阈值时,确定待聚类对象为距离中较大者对应的簇的下近似对象。
第二确定子单元104用于当比值小于预定阈值时,确定待聚类对象为距离中较大者对应的簇的边界区域对象。
本发明实施例还提供了一种执行簇心更新方法的电子设备,如图12所示,该电子设备可以包括处理器121和存储器122。处理器121和存储器122可以通过总线或者其他方式连接,图12中以通过总线连接为例。
处理器121可以为中央处理器(Central Processing Unit,CPU)。处理器121还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器122作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的簇心更新方法对应的程序指令/模块(例如,图6所示的预簇心计算单元10、第一距离计算单元20、第二距离计算单元30、权值计算单元40和簇心更新单元50)。处理器121通过运行存储在存储器122中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的簇心更新方法。
存储器122可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器121所创建的数据等。此外,存储器122可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器122可选包括相对于处理器121远程设置的存储器,这些远程存储器可以通过网络连接至处理器121。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器122中,当被所述处理器121执行时,执行如图1、图5所示实施例中的簇心更新方法。
上述电子设备具体细节可以对应参阅图1、图5所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本发明实施例还提供了一种执行K-means聚类分析方法的电子设备,如图13所示,该电子设备可以包括处理器131和存储器132。处理器131和存储器132可以通过总线或者其他方式连接,图13中以通过总线连接为例。
处理器131可以为中央处理器(Central Processing Unit,CPU)。处理器131还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器132作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的K-means聚类分析方法对应的程序指令/模块(例如,图10所示的预簇心计算单元10、第一距离计算单元20、第二距离计算单元30、权值计算单元40、簇心更新单元50、第三距离计算单元90和第三确定单元100)。处理器131通过运行存储在存储器132中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的K-means聚类分析方法。
存储器132可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器131所创建的数据等。此外,存储器132可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器132可选包括相对于处理器131远程设置的存储器,这些远程存储器可以通过网络连接至处理器131。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器132中,当被所述处理器131执行时,执行如图8、图9所示实施例中的K-means聚类分析方法。
上述电子设备具体细节可以对应参阅图8、图9所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种簇心更新方法,其特征在于,簇由第一类对象和第二类对象组成,并且所述第一类对象和第二类对象中的一者为下近似对象,另一者为边界区域对象;所述方法包括:
对其他所有簇逐个计算簇中下近似对象决定的预簇心;
计算待更新簇心所在簇的第一类对象决定的第一簇心与其他所有簇的预簇心的第一距离之和;
计算待更新簇心所在簇的第二类对象决定的第二簇心与其他所有簇的预簇心的第二距离之和;
根据下列公式计算待更新簇心所在簇中第一类对象的权值:其中,wi为待更新簇心所在簇i中第一类对象的权值,D1为所述第一距离之和,D2为所述第二距离之和,n为指数,并且n>0;
根据下列公式确定新的簇心:其中,vi为待确定的簇心,xn为簇i中的对象,Ci 为簇i中的第一类对象的集合,为簇i中的第二类对象的集合,N为簇i中的第一类对象的个数,为簇i中的第二类对象的个数。
2.根据权利要求1所述的簇心更新方法,其特征在于,所述第一类对象为下近似对象,所述第二类对象为边界区域对象;或者,
所述第一类对象为边界区域对象,所述第二类对象为下近似对象。
3.根据权利要求1所述的簇心更新方法,其特征在于,所述对其他所有簇逐个计算簇中下近似对象决定的预簇心的步骤包括:
计算簇j的预簇心为:其中mj 0为其他簇j的预簇心,Nj 为簇j中下近似对象的个数,Cj 为簇j中的下近似对象的集合。
4.根据权利要求1所述的簇心更新方法,其特征在于,所述计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心的步骤之前,还包括:
判断所述簇中第一类对象的个数和/或第二类对象的个数是否为零;
当所述簇中第一类对象的个数和第二类对象的个数不为零时,继续执行所述计算簇中第一类对象决定的第一簇心、簇中第二类对象决定的第二簇心的步骤。
5.根据权利要求4所述的簇心更新方法,其特征在于,所述方法还包括:
当所述簇中第一类对象的个数为零时,确定所述簇中第一类对象的权值为零;和/或,
当所述簇中第二类对象的个数为零时,确定所述簇中第二类对象的权值为零。
6.一种簇心更新装置,其特征在于,簇由第一类对象和第二类对象组成,并且所述第一类对象和第二类对象中的一者为下近似对象,另一者为边界区域对象;所述装置包括:
预簇心计算单元,用于对其他所有簇逐个计算簇中下近似对象决定的预簇心;
第一距离计算单元,用于计算待更新簇心所在簇的第一类对象决定的第一簇心与其他所有簇的预簇心的第一距离之和;
第二距离计算单元,用于计算待更新簇心所在簇的第二类对象决定的第二簇心与其他所有簇的预簇心的第二距离之和;
权值计算单元,用于根据下列公式计算待更新簇心所在簇中第一类对象的权值:其中,wi为待更新簇心所在簇i中第一类对象的权值,D1为所述第一距离之和,D2为所述第二距离之和,n为指数,并且n>0;簇心更新单元,用于根据下列公式更新簇心:其中,vi为待确定的簇心,xn为簇i中的对象,Ci 为簇i中的第一类对象的集合,为簇i中的第二类对象的集合,N为簇i中的第一类对象的个数,为簇i中的第二类对象的个数。
7.一种K-means聚类分析方法,其特征在于,包括:
根据权利要求1至5任一项所述的簇心更新方法计算所有簇的新簇心;
计算待聚类对象到各个新簇心的距离;
根据各个距离确定待聚类对象为各个簇的第一类对象或第二类对象。
8.一种K-means聚类分析装置,其特征在于,包括:
权利要求6所述的簇心更新装置;
第三距离计算单元,用于计算待聚类对象到各个新簇心的距离;
第三确定单元,用于根据各个距离确定待聚类对象为各个簇的第一类对象或第二类对象。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-5所述的簇心更新方法。
10.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求7所述的K-means聚类分析方法。
CN201810156872.5A 2018-02-24 2018-02-24 一种簇心更新方法、装置及K-means聚类分析方法、装置 Pending CN108364026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810156872.5A CN108364026A (zh) 2018-02-24 2018-02-24 一种簇心更新方法、装置及K-means聚类分析方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810156872.5A CN108364026A (zh) 2018-02-24 2018-02-24 一种簇心更新方法、装置及K-means聚类分析方法、装置

Publications (1)

Publication Number Publication Date
CN108364026A true CN108364026A (zh) 2018-08-03

Family

ID=63002435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810156872.5A Pending CN108364026A (zh) 2018-02-24 2018-02-24 一种簇心更新方法、装置及K-means聚类分析方法、装置

Country Status (1)

Country Link
CN (1) CN108364026A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148859A (zh) * 2020-09-27 2020-12-29 深圳壹账通智能科技有限公司 问答知识库管理方法、装置、终端设备及存储介质
WO2021042844A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 大规模数据聚类方法、装置、计算机设备及计算机可读存储介质
US11099790B2 (en) 2019-01-10 2021-08-24 Samsung Electronics Co., Ltd. Parallel key value based multithread machine learning leveraging KV-SSDS

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11099790B2 (en) 2019-01-10 2021-08-24 Samsung Electronics Co., Ltd. Parallel key value based multithread machine learning leveraging KV-SSDS
WO2021042844A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 大规模数据聚类方法、装置、计算机设备及计算机可读存储介质
CN112148859A (zh) * 2020-09-27 2020-12-29 深圳壹账通智能科技有限公司 问答知识库管理方法、装置、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN111008640B (zh) 图像识别模型训练及图像识别方法、装置、终端及介质
US11334789B2 (en) Feature selection for retraining classifiers
CN112771543A (zh) 通过包括实现成本作为目标来训练神经网络
Li et al. Improving k nearest neighbor with exemplar generalization for imbalanced classification
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
US20170032247A1 (en) Media classification
EP3357003A1 (en) Selective backpropagation
JP2013519152A (ja) テキスト分類の方法及びシステム
US11449803B2 (en) Data class analysis method and apparatus
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
CN108364026A (zh) 一种簇心更新方法、装置及K-means聚类分析方法、装置
CN107451597A (zh) 一种样本类别标签纠正方法及装置
KR20180048930A (ko) 분류를 위한 강제된 희소성
WO2018153201A1 (zh) 深度学习训练方法及装置
WO2020114108A1 (zh) 聚类结果的解释方法和装置
CN106295670B (zh) 数据处理方法及数据处理装置
WO2018175164A1 (en) Resource-efficient machine learning
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
CN112906865A (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
CN110751257A (zh) 一种基于饥饿游戏搜索算法构建预测模型的方法
CN110378389A (zh) 一种Adaboost分类器计算机创建装置
CN111352926A (zh) 数据处理的方法、装置、设备及可读存储介质
WO2016149937A1 (en) Neural network classification through decomposition
CN115587616A (zh) 网络模型训练方法、装置、存储介质及计算机设备
CN110533158B (zh) 模型建构方法、系统及非易失性电脑可读取记录介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803

RJ01 Rejection of invention patent application after publication