CN110443300A - 一种聚类算法中簇数量确定方法、系统、设备及存储介质 - Google Patents
一种聚类算法中簇数量确定方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN110443300A CN110443300A CN201910708100.2A CN201910708100A CN110443300A CN 110443300 A CN110443300 A CN 110443300A CN 201910708100 A CN201910708100 A CN 201910708100A CN 110443300 A CN110443300 A CN 110443300A
- Authority
- CN
- China
- Prior art keywords
- cluster
- algorithm
- radius
- density
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种聚类算法中簇数量确定方法、系统、设备及存储介质,本发明实施例根据数据的分布特点构建出判别指数算法,通过判别指数算法建立簇数量与判别指数的关系,取判别指数最小时对应的簇数量作为确定的簇数量,克服了传统聚类算法需要手工指定或者经验指定簇数量的随意性的问题,提升了聚类的效果;与已有的考虑数据分布轮廓系数方法和肘部法相比,确定簇数量过程中更加充分地考虑了数据集数据分布的特点,使聚类效果更好。
Description
技术领域
本发明实施例涉及聚类分析技术领域,具体涉及一种聚类算法中簇数量确定方法、系统、设备及存储介质。
背景技术
聚类是指把对象/样本的集合分成多个类别(每个类别也称为一个簇)的过程。在每个簇中,对象/样本是相似的;不同的簇之间,对象/样本是不相似的。聚类在机器学习、数据挖掘、自然语言处理、人工智能等多个方面得到了广泛的应用。
聚类的方法可以简单分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等等。现有的大部分的算法,都需要人工指定簇的数量。这个值对于聚类的结果起着至关重要的影响。但是在一个新的问题中,我们不了解数据的规律,通常很难得到一个合理的簇的数量,从而极大地影响了聚类的效果。现有的确定簇数量的方法有:固定值法则、肘部法、轮廓系数法。
固定值法则直接根据样本数量来确定簇的数量,记样本数量为M,则簇的数量K等于样本数量除以2再开方,公式如下:固定值法没有考虑数据的分布,速度很快,但是效果一般。
肘部法如下所描述,如图1a所示,横坐标表示簇数量K的取值,纵坐标表示簇数量值取K时聚类结果对应的平方误差和(以下简称为SSE),SSE的计算公式如下:其中,Vj表示第j簇的中心,Cj表示第j簇所有成员构成的集合,x为集合内的任意一个成员,也可以称为一个样本。dist(x,Vj)表示样本x到簇中心Vj的距离。当试验的K值小于真正值的时候,K每增加1,SSE值就会大幅的减小;当试验的K值大于真正值时,K每增加1,SSE值的变化就不会那么明显。正确的K值就会在这个转折点,类似肘部的地方。图1a中的K=5就是一个理想的取值。但是,如图1b中,肘点位置不明显(肘点可以是3、4或5),这时肘部法就无能为力了,故肘部法仅在某些情况下有用。
轮廓系数法如下所描述,在聚类结果中,某一样本x的轮廓系数的计算公式如下:
其中,ax表示样本x到同簇其他样本的平均距离;
bxj表示样本x到其他某簇Cj的所有样本的平均距离;
bx表示样本x到其他所有簇(一共有K个簇)的平均距离bx1,bx2,…,bxK中的最小值,即,bx=min{bx1,bx2,…,bxK}。
某次聚类的轮廓系数定义为所有样本的轮廓系数的平均值,轮廓系数计算公式如下:
其中,M为样本总数,SH值在[-1,1]之间,SH值越接近1,说明聚类效果越好;SH值越小,表示聚类效果越差。但是,轮廓系数法并没有充分考虑数据的分布特点,其结果也经常出现偏差。
发明内容
为此,本发明实施例提供了一种聚类算法中簇数量确定方法、系统、设备及存储介质,以解决现有聚类算法中簇数量的确定未充分考虑数据的分布特点造成误判或影响聚类分类效果的技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提供了一种聚类算法中簇数量确定方法,所述方法包括:基于簇内样本到簇中心之间的距离、簇半径以及数据集维度构建数据集聚类待确定每一簇的簇内密度算法;基于簇间分界区域样本到簇间分界点之间的距离、簇间分界区域半径以及数据集维度构建簇间分界区域的密度算法;以所述簇内密度算法与所述簇间分界区域的密度算法构建簇间分离度算法;以聚类待确定所有簇两两之间的簇间分离度的平均值算法作为全局簇间分离度算法;根据数据集的样本总数、全局半径与数据集维度构建所述数据集全体作为一类时的全局密度算法,其中,所述全局半径为数据集中样本与全局中心之间距离的最大值;以所述全局密度与聚类待确定每一簇的簇内密度的比值的平均值算法作为聚类簇内紧密度算法;以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法;及基于所述判别指数算法取判别指数最小时对应的簇数量作为确定的簇数量。
进一步地,所述簇间分界区域的确定方法包括:连接聚类待确定任意两个簇的中心点形成簇中心点间线段,在簇中心点间线段的两端减去各自所属簇的簇半径,剩下线段的中点作为所述簇间分界点;取所述两个簇的簇半径和数据集的平均簇半径中的最小值作为所述簇间分界区域半径,其中,所述数据集的平均簇半径为所述数据集中所有簇的簇半径的平均值;及以所述簇间分界点为中心,以所述簇间分界区域半径为半径的区域确定为数据集中聚类待确定任意两个簇的簇间分界区域。
进一步地,所述簇半径为聚类待确定每一簇的簇内任一样本到簇中心的最大距离。
进一步地,所述簇间分离度算法为:以簇间分界区域的密度与聚类待确定两个簇的簇内密度的较大值的比值作为两个簇的簇间分离度。
进一步地,所述簇内密度算法为利用第一计数函数计算数据集聚类待确定每一簇样本的平均密度。
进一步地,所述簇间分界区域的密度算法为利用第二计数函数计算簇间分界区域样本的平均密度。
根据本发明实施例的第二方面,提供了一种聚类算法中簇数量确定系统,所述系统包括:簇内密度算法构建模块,用于基于簇内样本到簇中心之间的距离、簇半径以及数据集维度构建数据集聚类待确定每一簇的簇内密度算法;簇间分界区域的密度算法构建模块,用于基于簇间分界区域样本到簇间分界点之间的距离、簇间分界区域半径以及数据集维度构建簇间分界区域的密度算法;簇间分离度算法构建模块,用于以所述簇内密度算法与所述簇间分界区域的密度算法构建簇间分离度算法;全局簇间分离度算法构建模块,用于以聚类待确定所有簇两两之间的簇间分离度的平均值算法作为全局簇间分离度算法;全局密度算法构建模块,用于根据数据集的样本总数、全局半径与数据集维度构建所述数据集全体作为一类时的全局密度算法,其中,所述全局半径为数据集中样本与全局中心之间距离的最大值;聚类簇内紧密度算法构建模块,用于以所述全局密度与聚类待确定每一簇的簇内密度的比值的平均值算法作为聚类簇内紧密度算法;判别指数算法构建模块,用于以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法;及簇数量确定模块,用于基于所述判别指数算法取判别指数最小时对应的簇数量作为确定的簇数量。
进一步地,所述簇间分界区域的密度算法构建模块还用于确定所述簇间分界区域,其包括:连接聚类待确定任意两个簇的中心点形成簇中心点间线段,在簇中心点间线段的两端减去各自所属簇的簇半径,剩下线段的中点作为所述簇间分界点;取所述两个簇的簇半径和数据集的平均簇半径中的最小值作为所述簇间分界区域半径,其中,所述数据集的平均簇半径为所述数据集中所有簇的簇半径的平均值;及以所述簇间分界点为中心,以所述簇间分界区域半径为半径的区域确定为数据集中聚类待确定任意两个簇的簇间分界区域。
根据本发明实施例的第三方面,提供了一种聚类算法中簇数量确定设备,所述设备包括:处理器和存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如上一种聚类算法中簇数量确定方法中的任一方法步骤。
根据本发明实施例的第四方面,提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于执行如上一种聚类算法中簇数量确定方法中的任一方法步骤。
本发明实施例具有如下优点:本发明实施例根据数据的分布特点构建出判别指数算法,通过判别指数算法建立簇数量与判别指数的关系,取判别指数最小时对应的簇数量作为确定的簇数量,克服了传统聚类算法需要手工指定或者经验指定簇数量的随意性的问题,提升了聚类的效果;与已有的考虑数据分布轮廓系数方法和肘部法相比,确定簇数量过程中更加充分地考虑了数据集数据分布的特点,使聚类效果更好。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1a为现有技术中利用肘部法确定聚类算法中簇数量K取值的关系示意图的一个例子,图中显示出肘点位置明显;
图1b为现有技术中利用肘部法确定聚类算法中簇数量K取值的关系示意图的另一个例子,图中显示出肘点位置不明显;
图2为本发明实施例提供的一种聚类算法中簇数量确定系统逻辑结构示意图;
图3为本发明实施例提供的一种聚类算法中簇数量确定方法流程示意图;
图4为本发明实施例提供的原始数据集的样本数据分布的一个实施例的示意图;
图5为如图4所示的样本数据分布情况下的判别指数算法中判别指数ZI与簇数量K取值的关系示意图;
图6为如图4所示的样本数据分布情况下的轮廓系数法中轮廓系数SH与簇数量K取值的关系示意图;
图7为如图4所示的样本数据分布情况下的肘部法中平方误差和SSE与簇数量K取值的关系示意图;
图8为本发明实施例提供的另外一个实施例的样本数据分布情况下的判别指数算法中判别指数ZI与簇数量K取值的关系示意图;
图9为本发明实施例提供的另外一个实施例的样本数据分布情况下的轮廓系数法中轮廓系数SH与簇数量K取值的关系示意图;
图10为本发明实施例提供的另外一个实施例的样本数据分布情况下的肘部法中平方误差和SSE与簇数量K取值的关系示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明实施例为了解决现有聚类算法中簇数量的确定未充分考虑数据的分布特点造成误判或影响聚类分类效果的技术问题。通过待聚类处理的数据集的样本数据分布特点首先分别构建全局簇间分离度算法和聚类簇内紧密度算法,再以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法,通过判别指数算法中形成的判别指数ZI与簇数量K取值的关系,在判别指数算法取判别指数最小时对应的簇数量作为确定的簇数量,充分地考虑了数据集数据分布的特点,使聚类效果更好。
参考图2,本发明实施例提供的一种聚类算法中簇数量确定系统包括:簇内密度算法构建模块1、簇间分界区域的密度算法构建模块2、簇间分离度算法构建模块3、全局簇间分离度算法构建模块4、全局密度算法构建模块5、聚类簇内紧密度算法构建模块6、判别指数算法构建模块7和簇数量确定模块8。
参考图3,本发明实施例提供的一种聚类算法中簇数量确定方法包括:簇内密度算法构建模块1基于簇内样本到簇中心之间的距离、簇半径以及数据集维度构建数据集聚类待确定每一簇的簇内密度算法;簇间分界区域的密度算法构建模块2基于簇间分界区域样本到簇间分界点之间的距离、簇间分界区域半径以及数据集维度构建簇间分界区域的密度算法;簇间分离度算法构建模块3以簇内密度算法与簇间分界区域的密度算法构建簇间分离度算法;全局簇间分离度算法构建模块4以聚类待确定所有簇两两之间的簇间分离度的平均值算法作为全局簇间分离度算法;全局密度算法构建模块5根据数据集的样本总数、全局半径与数据集维度构建所述数据集全体作为一类时的全局密度算法,其中,全局半径为数据集中样本与全局中心之间距离的最大值;聚类簇内紧密度算法构建模块6以全局密度与聚类待确定每一簇的簇内密度的比值的平均值算法作为聚类簇内紧密度算法;判别指数算法构建模块7以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法;及簇数量确定模块8基于所述判别指数算法取判别指数最小时对应的簇数量作为确定的簇数量。
进一步地,簇间分界区域的密度算法构建模块2还用于确定所述簇间分界区域,其包括:连接聚类待确定任意两个簇的中心点形成簇中心点间线段,在簇中心点间线段的两端减去各自所属簇的簇半径,剩下线段的中点作为所述簇间分界点;取两个簇的簇半径和数据集的平均簇半径中的最小值作为簇间分界区域半径,其中,数据集的平均簇半径为所述数据集中所有簇的簇半径的平均值;及以簇间分界点为中心,以簇间分界区域半径为半径的区域确定为数据集中聚类待确定任意两个簇的簇间分界区域。
具体地,记数据集为S,数据集维度为p,即对于数据集S的任何成员/样本x可以表示为:
x=(x1,x2,…,xp)
数据集S中的样本数量为M,聚类结果中包含K个簇,分别为Cj,j∈[1,K],每一簇的中心记为Vj。
记x和y为数据集中的任意两个样本,d(x,y)表示样本x和样本y之间欧氏距离:
如上所描述,本发明实施例公开的簇半径为聚类待确定每一簇的簇内任一样本到簇中心的最大距离。即,
每一簇Cj的簇半径rj等于簇内的任意一个样本x到簇中心Vj的最大距离,记为
rj=max{d(x,Vj)},x∈Cj
数据集S的平均半径ra定义为所有K个簇的半径r1,r2,…,rK的平均值,即
如上所述,本发明实施例中,基于簇内样本到簇中心之间的距离、簇半径以及数据集维度构建数据集聚类待确定每一簇的簇内密度算法,簇内密度算法为利用第一计数函数f1计算数据集聚类待确定每一簇样本的平均密度,本实施例中每一簇的簇内密度算法公式如下:
其中,dssj为每一簇Cj的簇内部密度,f1是一个计数函数,定义如下:
进一步地,本发明实施例中,基于簇间分界区域样本到簇间分界点之间的距离、簇间分界区域半径以及数据集维度构建簇间分界区域的密度算法。
具体地,簇间分界区域的确定方法包括:
连接聚类待确定任意两个簇Ci和Cj的中心点Vi和Vj形成一条簇中心点间线段,在簇中心点间线段的两端减去各自所属簇的簇半径ri和rj,剩下线段的中点作为两个簇Ci和Cj的簇间分界点CEij;即簇间分界点CEij的确定公式如下:
取两个簇Ci和Cj的簇半径ri和rj和数据集S的平均簇半径ra中的最小值作为两个簇Ci和Cj的簇间分界区域半径rfij,即
rfij=min{ra,ri,rj}
其中,数据集S的平均簇半径ra为数据集S中所有簇的簇半径的平均值,如上已描述,在此不再赘述;及
以簇间分界点CEij为中心,以簇间分界区域半径rfij为半径的区域确定为数据集中聚类待确定上述两个簇Ci和Cj的簇间分界区域。
本实施例中,簇间分界区域的密度算法具体是利用第二计数函数f2计算簇间分界区域样本的平均密度,簇间分界区域的密度算法公式如下:
其中,f2是一个计数函数,定义如下:
本实施例中,簇间分离度算法是通过簇内密度算法与所述簇间分界区域的密度算法构建形成的,具体地,簇间分离度算法为:以上述两个簇Ci和Cj的簇间分界区域的密度dsij与聚类待确定两个簇Ci和Cj的簇内密度dssi和dssj的较大值的比值作为两个簇的簇间分离度dfij,即,簇间分离度算法公式如下所示:
本发明实施例中,以聚类待确定所有簇两两之间的簇间分离度dfij的平均值算法作为全局簇间分离度算法,全局簇间分离度算法具体如下:
其中,df0为全局簇间分离度,df0值越小,簇间分离度越大,表示聚类效果越好。
进一步地,本发明实施例中,根据数据集的样本总数M、全局半径r0与数据集维度p构建所述数据集全体作为一类时的全局密度算法,记ds0为将数据集S全体作为一类时的内部密度,称为全局密度,全局密度算法公式如下:
其中,所述全局半径r0为数据集中样本x与全局中心V0之间距离的最大值,即:
r0=max{d(x,V0)},x∈S。
进一步地,本发明实施例中,以全局密度ds0与聚类待确定每一簇的簇内密度dssj的比值的平均值算法作为聚类簇内紧密度算法,聚类簇内紧密度算法公式具体如下:
dt的值越小,表示聚类效果越好。
本发明实施例中,以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法,判别指数算法公式如下:
ZI=df0+dt
其中,ZI为判别指数,
本发明实施例中,基于上述判别指数算法取判别指数ZI最小时对应的簇数量K作为确定的簇数量。
参考图4,为本发明实施例提供的原始数据集的样本数据分布的一个实施例的示意图,在此情况下,数据集维度p为2,数据集的样本总数M=100,图4示出了上述数据集的可视化效果。从图中可以看出,分为3类是比较合理的。图5为如图4所示的样本数据分布情况下的判别指数算法中判别指数ZI与簇数量K取值的关系示意图,可以很明显看出,K=3时ZI最小,取得了与人工观察一致的效果。图6为如图4所示的样本数据分布情况下的轮廓系数法中轮廓系数SH与簇数量K取值的关系示意图,如图6可知,K=7或者K=8,为轮廓系数的判定结果。图7为如图4所示的样本数据分布情况下的肘部法中平方误差和SSE与簇数量K取值的关系示意图;从图7中可知,K取3或4或5肘部法的结果,此时难以选择哪种为准确值。比较这三种方法,很明显,本发明实施例公开的依据判别指数确定的效果直观而且更接近人工处理的结果。
参考图8,为本发明实施例提供的另外一个实施例的样本数据分布情况下的判别指数算法中判别指数ZI与簇数量K取值的关系示意图;此种情况下,数据集维度p为10,数据集的样本总数为100。从图8所示,K取5是合理的。参考图9,为与图8相同的样本数据分布情况下的轮廓系数法中轮廓系数SH与簇数量K取值的关系示意图;从轮廓系数上来看,K需要取9,而且在K=4时容易造成误判。参考图10,为与图8和图9相同的样本数据分布情况下的肘部法中平方误差和SSE与簇数量K取值的关系示意图。肘部法的结果如图10所示,K取5,这个例子中,肘部法与本发明实施例取得了一致的效果。
本发明实施例根据数据的分布特点构建出判别指数算法,通过判别指数算法建立簇数量与判别指数的关系,取判别指数最小时对应的簇数量作为确定的簇数量,克服了传统聚类算法需要手工指定或者经验指定簇数量的随意性的问题,提升了聚类的效果;与已有的考虑数据分布轮廓系数方法和肘部法相比,确定簇数量过程中更加充分地考虑了数据集数据分布的特点,使聚类效果更好。
与上述实施例相对应的,本发明实施例还提供了一种聚类算法中簇数量确定设备,所述设备包括:处理器和存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如上所介绍的一种聚类算法中簇数量确定方法。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,一个或多个程序指令用于执行如上所介绍的一种聚类算法中簇数量确定方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种聚类算法中簇数量确定方法,其特征在于,所述方法包括:
基于簇内样本到簇中心之间的距离、簇半径以及数据集维度构建数据集聚类待确定每一簇的簇内密度算法;
基于簇间分界区域样本到簇间分界点之间的距离、簇间分界区域半径以及数据集维度构建簇间分界区域的密度算法;
以所述簇内密度算法与所述簇间分界区域的密度算法构建簇间分离度算法;
以聚类待确定所有簇两两之间的簇间分离度的平均值算法作为全局簇间分离度算法;
根据数据集的样本总数、全局半径与数据集维度构建所述数据集全体作为一类时的全局密度算法,其中,所述全局半径为数据集中样本与全局中心之间距离的最大值;
以全局密度与聚类待确定每一簇的簇内密度的比值的平均值算法作为聚类簇内紧密度算法;
以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法;及
基于所述判别指数算法取判别指数最小时对应的簇数量作为确定的簇数量。
2.根据权利要求1所述的方法,其特征在于,所述簇间分界区域的确定方法包括:
连接聚类待确定任意两个簇的中心点形成簇中心点间线段,在簇中心点间线段的两端减去各自所属簇的簇半径,剩下线段的中点作为所述簇间分界点;
取所述两个簇的簇半径和数据集的平均簇半径中的最小值作为所述簇间分界区域半径,其中,所述数据集的平均簇半径为所述数据集中所有簇的簇半径的平均值;及
以所述簇间分界点为中心,以所述簇间分界区域半径为半径的区域确定为数据集中聚类待确定任意两个簇的簇间分界区域。
3.根据权利要求1或2所述的方法,其特征在于,所述簇半径为聚类待确定每一簇的簇内任一样本到簇中心的最大距离。
4.根据权利要求1所述的方法,其特征在于,所述簇间分离度算法为:以簇间分界区域的密度与聚类待确定两个簇的簇内密度的较大值的比值作为两个簇的簇间分离度。
5.根据权利要求1所述的方法,其特征在于,所述簇内密度算法为利用第一计数函数计算数据集聚类待确定每一簇样本的平均密度。
6.根据权利要求1所述的方法,其特征在于,所述簇间分界区域的密度算法为利用第二计数函数计算簇间分界区域样本的平均密度。
7.一种聚类算法中簇数量确定系统,其特征在于,所述系统包括:
簇内密度算法构建模块,用于基于簇内样本到簇中心之间的距离、簇半径以及数据集维度构建数据集聚类待确定每一簇的簇内密度算法;
簇间分界区域的密度算法构建模块,用于基于簇间分界区域样本到簇间分界点之间的距离、簇间分界区域半径以及数据集维度构建簇间分界区域的密度算法;
簇间分离度算法构建模块,用于以所述簇内密度算法与所述簇间分界区域的密度算法构建簇间分离度算法;
全局簇间分离度算法构建模块,用于以聚类待确定所有簇两两之间的簇间分离度的平均值算法作为全局簇间分离度算法;
全局密度算法构建模块,用于根据数据集的样本总数、全局半径与数据集维度构建所述数据集全体作为一类时的全局密度算法,其中,所述全局半径为数据集中样本与全局中心之间距离的最大值;
聚类簇内紧密度算法构建模块,用于以全局密度与聚类待确定每一簇的簇内密度的比值的平均值算法作为聚类簇内紧密度算法;
判别指数算法构建模块,用于以全局簇间分离度与聚类簇内紧密度之和作为判别指数算法;及
簇数量确定模块,用于基于所述判别指数算法取判别指数最小时对应的簇数量作为确定的簇数量。
8.根据权利要求7所述的系统,其特征在于,所述簇间分界区域的密度算法构建模块还用于确定所述簇间分界区域,其包括:
连接聚类待确定任意两个簇的中心点形成簇中心点间线段,在簇中心点间线段的两端减去各自所属簇的簇半径,剩下线段的中点作为所述簇间分界点;
取所述两个簇的簇半径和数据集的平均簇半径中的最小值作为所述簇间分界区域半径,其中,所述数据集的平均簇半径为所述数据集中所有簇的簇半径的平均值;及
以所述簇间分界点为中心,以所述簇间分界区域半径为半径的区域确定为数据集中聚类待确定任意两个簇的簇间分界区域。
9.一种聚类算法中簇数量确定设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-5任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910708100.2A CN110443300A (zh) | 2019-08-01 | 2019-08-01 | 一种聚类算法中簇数量确定方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910708100.2A CN110443300A (zh) | 2019-08-01 | 2019-08-01 | 一种聚类算法中簇数量确定方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110443300A true CN110443300A (zh) | 2019-11-12 |
Family
ID=68432766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910708100.2A Pending CN110443300A (zh) | 2019-08-01 | 2019-08-01 | 一种聚类算法中簇数量确定方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443300A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027599A (zh) * | 2019-11-25 | 2020-04-17 | 中国建设银行股份有限公司 | 基于随机抽样的聚类可视化方法及装置 |
CN112070548A (zh) * | 2020-09-11 | 2020-12-11 | 上海风秩科技有限公司 | 一种用户分层的方法、装置、设备及存储介质 |
CN112085114A (zh) * | 2020-09-14 | 2020-12-15 | 杭州中奥科技有限公司 | 线上线下身份匹配方法、装置、设备及存储介质 |
CN112487720A (zh) * | 2020-11-30 | 2021-03-12 | 重庆大学 | 基于K-means三维聚类算法的风压系数快速分区方法及系统和存储介质 |
CN112949697A (zh) * | 2021-02-07 | 2021-06-11 | 广州杰赛科技股份有限公司 | 一种管道异常的确认方法、装置及计算机可读存储介质 |
-
2019
- 2019-08-01 CN CN201910708100.2A patent/CN110443300A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027599A (zh) * | 2019-11-25 | 2020-04-17 | 中国建设银行股份有限公司 | 基于随机抽样的聚类可视化方法及装置 |
CN111027599B (zh) * | 2019-11-25 | 2023-07-04 | 中国建设银行股份有限公司 | 基于随机抽样的聚类可视化方法及装置 |
CN112070548A (zh) * | 2020-09-11 | 2020-12-11 | 上海风秩科技有限公司 | 一种用户分层的方法、装置、设备及存储介质 |
CN112070548B (zh) * | 2020-09-11 | 2024-02-20 | 上海秒针网络科技有限公司 | 一种用户分层的方法、装置、设备及存储介质 |
CN112085114A (zh) * | 2020-09-14 | 2020-12-15 | 杭州中奥科技有限公司 | 线上线下身份匹配方法、装置、设备及存储介质 |
CN112487720A (zh) * | 2020-11-30 | 2021-03-12 | 重庆大学 | 基于K-means三维聚类算法的风压系数快速分区方法及系统和存储介质 |
CN112949697A (zh) * | 2021-02-07 | 2021-06-11 | 广州杰赛科技股份有限公司 | 一种管道异常的确认方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443300A (zh) | 一种聚类算法中簇数量确定方法、系统、设备及存储介质 | |
Zhang et al. | Clustering-based missing value imputation for data preprocessing | |
Pretorius et al. | A meta-analysis of research in random forests for classification | |
CN109547133A (zh) | 一种基于Cholesky分解采样协方差矩阵的SVM高效频谱感知方法 | |
CN113378959B (zh) | 一种基于语义纠错下生成对抗网络的零样本学习方法 | |
Gençay et al. | Degree of mispricing with the Black-Scholes model and nonparametric cures | |
CN110443120A (zh) | 一种人脸识别方法及设备 | |
Ortner | Adaptive aggregation for reinforcement learning in average reward Markov decision processes | |
Diaz-Vico et al. | Deep support vector neural networks | |
CN102043863A (zh) | 一种Web服务聚类的方法 | |
Wang et al. | Nearest Neighbor with Double Neighborhoods Algorithm for Imbalanced Classification. | |
Wang et al. | Structured prediction for conditional meta-learning | |
CN109635104A (zh) | 数据分类标识方法、装置、计算机设备及可读存储介质 | |
Xu et al. | Density peak clustering based on cumulative nearest neighbors degree and micro cluster merging | |
CN109583777A (zh) | 一种金融产品推荐系统、方法、设备及介质 | |
Blaschzyk et al. | Improved classification rates under refined margin conditions | |
Villmann et al. | Learning vector quantization classifiers for ROC-optimization | |
CN116233026A (zh) | 一种用于数据中心的智能管理方法及系统 | |
Wu et al. | Improving domain-specific classification by collaborative learning with adaptation networks | |
Naik et al. | Bat algorithm-based weighted Laplacian probabilistic neural network | |
Hang et al. | Under-bagging nearest neighbors for imbalanced classification | |
Rindt et al. | Consistency of permutation tests of independence using distance covariance, HSIC and dHSIC | |
Greco et al. | Weighted likelihood latent class linear regression | |
CN112800187A (zh) | 数据映射方法、医学文本数据映射方法、装置及电子设备 | |
CN110991517A (zh) | 一种面向脑卒中非平衡数据集的分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |