CN107563450A - 聚类簇的获取方法及装置 - Google Patents
聚类簇的获取方法及装置 Download PDFInfo
- Publication number
- CN107563450A CN107563450A CN201710828278.1A CN201710828278A CN107563450A CN 107563450 A CN107563450 A CN 107563450A CN 201710828278 A CN201710828278 A CN 201710828278A CN 107563450 A CN107563450 A CN 107563450A
- Authority
- CN
- China
- Prior art keywords
- sample point
- cluster
- represent
- class
- element set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种聚类簇的获取方法及装置,方法包括:调用预设的密度峰值聚类DPC算法,获得样本空间内各个样本点的聚类结果然后根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定各个样本点的聚类结果的聚类中心,然后根据聚类中心确定各个样本点的类簇中的元素集合,利用截断距离扩展上述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将上述两个样本点类簇中的元素集合进行合并,获得聚类簇。本发明可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。
Description
技术领域
本发明涉及聚类分析技术领域,尤其涉及一种聚类簇的获取方法及装置。
背景技术
聚类是根据数据对象之间的相似性将数据集样本划分成合理类簇的过程,聚类结果使得同一类簇内的对象具有较高相似性,不同类簇间的对象相似度较低,广泛应用在科学数据分析和工程系统等领域。
聚类算法包括划分式聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法及集成式聚类算法。Kmeans聚类算法是应用最广泛的划分式聚类算法,然而,Kmeans聚类算法的聚类结果严重依赖于初始类簇中心,不能发现非凸形状的簇,对噪声和离群点敏感,且类簇数需事先设定。针对Kmeans聚类算法的缺陷,研究者们设计了一种自动确定类簇数和类簇中心的新聚类算法DPC(Density Peaks Clustering,密度峰值聚类算法)算法,该算法能快速发现任意形状类簇的密度峰值点,并高效进行样本点分配,适用于大规模数据集的聚类分析。
DPC算法能自动发现数据样本的类中心,实现任意形状数据集样本的高效聚类。其算法遵循两条规则(1)类中心的局部密度大于其邻居的局部密度;(2)不同类中心距离相对比较远。由于DPC算法采用决策图来确定聚类中心,因此当类簇密度不均匀,有多个峰值时,便很难以确定聚类中心,即DPC算法不适用于任意形状、密度多变、有多个峰值的类簇的数据聚类。
发明内容
本发明的主要目的在于提供一种聚类簇的获取方法及装置,旨在解决现有技术中DPC算法不适用于任意形状、密度多变、有多个峰值的类簇的数据聚类的技术问题。
为实现上述目的,本发明第一方面提供一种聚类簇的获取方法,该方法包括:
调用预设的DPC算法,获得样本空间内各个样本点的聚类结果;
根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心;
根据所述聚类中心确定各个样本点的类簇中的元素集合;
利用截断距离扩展所述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将所述两个样本点类簇中的元素集合进行合并,获得聚类簇。
可选的,所述根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心的步骤包括:
调用预先设置的密度阈值β及峰值阈值α,利用如下公式确定所述各个样本点的聚类结果的聚类中心:
Ci=i,δi>αandρi>β.
其中,i表示样本点i,Ci表示以样本点i为聚类中心的类簇,ρi表示样本点i的局部密度,δi表示样本点i的峰值。
可选的,所述根据所述聚类中心确定各个样本点的类簇中的元素集合的步骤包括:
按照如下公式得到所述各个样本点的类簇中的元素集合:
ψ(Ci)={j|lj=Ci}
其中,i表示样本点i,li表示样本点i的标号,k表示样本点k,Ck表示以样本点k为聚类中心的类簇,Nni表示样本点i的最近邻样本点,所述最近邻样本点Nni的密度大于样本点i的密度,lNni表示最近邻样本点Nni的标号,ρi表示样本点i的局部密度,max(ρ)表示样本点i的最大局部密度,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,Ci表示以样本点i为聚类中心的类簇,ψ(Ci)表示类簇Ci中的元素集合,lj表示样本点j的标号。
可选的,所述利用截断距离扩展所述元素集合的步骤包括:
按照如下公式扩展所述各个样本点的类簇中的元素集合:
φ(Ci)={j|di,j<dc,i∈ψ(Ci)}
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,dc表示截断距离,i表示样本点i,ψ(Ci)表示类簇Ci中的元素集合。
可选的,当两个样本点的扩展重叠部分大于预置阈值时,则将所述两个样本点进行合并的步骤包括:
按照如下公式计算两个样本点的扩展重叠部分τ:
当τ>θ时:
ψ(Ci)=ψ(Ci)∪ψ(Cj)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,Cj表示以样本点j为聚类中心的类簇,φ(Cj)类簇Cj扩展后的元素集合,ψ(Ci)表示类簇Ci中的元素集合,ψ(Cj)表示类簇Cj中的元素集合,θ表示所述预置阈值。
为实现上述目的,本发明第二方面提供一种聚类簇的获取装置,该装置包括:
计算模块:用于调用预设的DPC算法,获得样本空间内各个样本点的聚类结果;
第一确定模块:用于根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心;
第二确定模块:用于根据所述聚类中心确定各个样本点的类簇中的元素集合;
聚类模块:用于利用截断距离扩展所述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将所述两个样本点类簇中的元素集合进行合并,获得聚类簇。
可选的,所述第一确定模块用于:
调用预先设置的密度阈值β及峰值阈值α,利用如下公式确定所述各个样本点的聚类结果的聚类中心:
Ci=i,δi>αandρi>β.
其中,i表示样本点i,Ci表示以样本点i为聚类中心的类簇,ρi表示样本点i的局部密度,δi表示样本点i的峰值。
可选的,所述第二确定模块用于:
按照如下公式得到所述各个样本点的类簇中的元素集合:
ψ(Ci)={j|lj=Ci}
其中,i表示样本点i,li表示样本点i的标号,k表示样本点k,Ck表示以样本点k为聚类中心的类簇,Nni表示样本点i的最近邻样本点,所述最近邻样本点Nni的密度大于样本点i的密度,lNni表示最近邻样本点Nni的标号,ρi表示样本点i的局部密度,max(ρ)表示样本点i的最大局部密度,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,Ci表示以样本点i为聚类中心的类簇,ψ(Ci)表示类簇Ci中的元素集合,lj表示样本点j的标号。
可选的,所述聚类模块用于:
按照如下公式扩展所述各个样本点的类簇中的元素集合:
φ(Ci)={j|di,j<dc,i∈ψ(Ci)}
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,dc表示截断距离,i表示样本点i,ψ(Ci)表示类簇Ci中的元素集合。
可选的,所述聚类模块用于:
按照如下公式计算两个样本点的扩展重叠部分τ:
当τ>θ时:
ψ(Ci)=ψ(Ci)∪ψ(Cj)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,Cj表示以样本点j为聚类中心的类簇,φ(Cj)类簇Cj扩展后的元素集合,ψ(Ci)表示类簇Ci中的元素集合,ψ(Cj)表示类簇Cj中的元素集合,θ表示所述预置阈值。
本发明提供了一种聚类簇的获取方法,该方法包括:调用DPC算法,获得各个样本点的聚类结果,然后根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定各个样本点的聚类结果的聚类中心,然后根据该聚类中心确定各个样本点的类簇中的元素集合,利用截断距离扩展上述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将这两个样本点类簇中的元素集合进行合并,获得聚类簇。相较于现有技术而言,本发明利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心,然后对各个样本点的类簇中的元素集合进行扩展、合并等操作,最终获得聚类簇,可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例中聚类簇的获取方法的步骤流程示意图;
图2为本发明第二实施例中聚类簇的获取装置的程序模块示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一实施例主要提供一种聚类簇的获取方法,该方法包括利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心,然后对各个样本点的类簇中的元素集合进行扩展、合并等操作,最终获得聚类簇,可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。
请参阅图1,图1为本发明第一实施例中聚类簇的获取方法的步骤流程示意图,本发明第一实施例中,上述聚类簇的获取方法包括:
步骤101,调用预设的密度峰值聚类DPC算法,获得样本空间内各个样本点的聚类结果;
本发明实施例中,先确定各个样本点的局部密度,及各个样本点的峰值,然后利用各个样本点的局部密度及峰值绘制决策图,然后利用绘制好的决策图确定各个样本点的聚类中心,依据样本点与比其密度大的最近样本点类簇相同的原则划分该样本点聚类中心之外的样本点,从而获得样本空间内各个样本点的聚类结果。
为了更好地理解本发明,本发明实施例提供一种可选的实施方式,具体如下:
定义样本点i与样本点j的欧式距离为di,j:
di,j=||i-j||2 (1)
样本点i的局部密度ρi定义为:
上式中dc表示截断距离。ρi也可定义为:
其中,DPC算法中给出了dc的估算方法:
其中 D表示的样本点两两之间的距离,且按升序排列。N表示样本点数,p是一个整数,默认值为2。
样本点i的局部密度定义δi定义为:
其中ρ={ρ1,…,ρN},N表示样本点的个数,ρj表示样本点j的局部密度。
其中,确定ρi、δi后,然后利用ρi、δi绘制决策图,利用绘制好的决策图确定各个样本点的聚类中心,依据样本点与比其密度大的最近样本点类簇相同的原则划分该样本点聚类中心之外的样本点,从而获得样本空间内各个样本点的聚类结果。
步骤102,根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心;
本发明实施例中,根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,例如,预先设置各个样本点局部密度的密度阈值为β,各个样本点峰值的峰值阈值为α,然后根据β及α确定各个样本点的聚类结果的聚类中心。
具体的,可以利用如下公式确定各个样本点的聚类结果的聚类中心:
Ci=i,δi>αandρi>β.(6)
其中,i表示样本点i,Ci表示以样本点i为聚类中心的类簇,ρi表示样本点i的局部密度,δi表示样本点i的峰值。即当样本点i的局部密度大于上述密度阈值,且峰值也同时大于上述峰值阈值时,则表示样本点i为上述各个样本点的聚类结果的聚类中心。
步骤103,根据所述聚类中心确定各个样本点的类簇中的元素集合;
本发明实施例中,可以按照如下公式得到上述各个样本点的类簇中的元素集合:
ψ(Ci)={j|lj=Ci}(9)
其中,i表示样本点i,li表示样本点i的标号,k表示样本点k,Ck表示以样本点k为聚类中心的类簇,Nni表示样本点i的最近邻样本点,所述最近邻样本点Nni的密度大于样本点i的密度,lNni表示最近邻样本点Nni的标号,ρi表示样本点i的局部密度,max(ρ)表示样本点i的最大局部密度,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,Ci表示以样本点i为聚类中心的类簇,ψ(Ci)表示类簇Ci中的元素集合,lj表示样本点j的标号。
其中,当以样本点k为聚类中心的类簇Ck与样本点i相同时,则将样本点i的标号设置为k。
步骤104,利用截断距离扩展所述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将所述两个样本点类簇中的元素集合进行合并,获得聚类簇。
本发明实施例中,可以按照如下公式扩展上述各个样本点的类簇中的元素集合:
φ(Ci)={j|di,j<dc,i∈ψ(Ci)} (10)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,dc表示截断距离,i表示样本点i,ψ(Ci)表示类簇Ci中的元素集合。
具体的,当样本点i与样本点j之间的欧式距离小于上述截断距离时,在类簇Ci扩展后的元素集合中添加样本点j。
进一步地,上述当两个样本点的扩展重叠部分大于预置阈值时,则将所述两个样本点进行合并的步骤包括:
按照如下公式计算两个样本点的扩展重叠部分τ:
当τ>θ时:
ψ(Ci)=ψ(Ci)∪ψ(Cj) (12)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,Cj表示以样本点j为聚类中心的类簇,φ(Cj)类簇Cj扩展后的元素集合,ψ(Ci)表示类簇Ci中的元素集合,ψ(Cj)表示类簇Cj中的元素集合,θ表示所述预置阈值。
具体的,当样本点i与样本点j的扩展重叠部分大于预置阈值时,则将这两个样本点进行合并,得到聚类簇。
本发明实施例所提供的聚类簇的获取方法包括:调用DPC算法,获得各个样本点的聚类结果,然后根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定各个样本点的聚类结果的聚类中心,然后根据该聚类中心确定各个样本点的类簇中的元素集合,利用截断距离扩展上述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将这两个样本点类簇中的元素集合进行合并,获得聚类簇。相较于现有技术而言,本发明利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心,然后对各个样本点的类簇中的元素集合进行扩展、合并等操作,最终获得聚类簇,可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。
进一步地,本发明第二实施例还提供一种聚类簇的获取装置,该装置利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心,然后对各个样本点的类簇中的元素集合进行扩展、合并等操作,最终获得聚类簇,可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。
请参阅图2,图2为本发明第二实施例中聚类簇的获取装置的程序模块示意图,本发明第二实施例中,上述聚类簇的获取装置包括:
计算模块201:用于调用预设的密度峰值聚类DPC算法,获得样本空间内各个样本点的聚类结果;
本发明实施例中,先确定各个样本点的局部密度,及各个样本点的峰值,然后利用各个样本点的局部密度及峰值绘制决策图,然后利用绘制好的决策图确定各个样本点的聚类中心,依据样本点与比其密度大的最近样本点类簇相同的原则划分该样本点聚类中心之外的样本点,从而获得样本空间内各个样本点的聚类结果。
为了更好地理解本发明,本发明实施例提供一种可选的实施方式,具体如下:
定义样本点i与样本点j的欧式距离为di,j:
di,j=||i-j||2
样本点i的局部密度ρi定义为:
上式中dc表示截断距离。ρi也可定义为:
其中,DPC算法中给出了dc的估算方法:
其中 D表示的样本点两两之间的距离,且按升序排列。N表示样本点数,p是一个整数,默认值为2。
样本点i的局部密度定义δi定义为:
其中ρ={ρ1,…,ρN},N表示样本点的个数,ρj表示样本点j的局部密度。
其中,确定ρi、δi后,然后利用ρi、δi绘制决策图,利用绘制好的决策图确定各个样本点的聚类中心,依据样本点与比其密度大的最近样本点类簇相同的原则划分该样本点聚类中心之外的样本点,从而获得样本空间内各个样本点的聚类结果。
第一确定模块202:用于根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心;
本发明实施例中,根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,例如,预先设置各个样本点局部密度的密度阈值为β,各个样本点峰值的峰值阈值为α,然后根据β及α确定各个样本点的聚类结果的聚类中心。
具体的,可以利用如下公式确定各个样本点的聚类结果的聚类中心:
Ci=i,δi>αandρi>β.
其中,i表示样本点i,Ci表示以样本点i为聚类中心的类簇,ρi表示样本点i的局部密度,δi表示样本点i的峰值。即当样本点i的局部密度大于上述密度阈值,且峰值也同时大于上述峰值阈值时,则表示样本点i为上述各个样本点的聚类结果的聚类中心。
第二确定模块203:用于根据所述聚类中心确定各个样本点的类簇中的元素集合;
本发明实施例中,可以按照如下公式得到上述各个样本点的类簇中的元素集合:
ψ(Ci)={j|lj=Ci}
其中,i表示样本点i,li表示样本点i的标号,k表示样本点k,Ck表示以样本点k为聚类中心的类簇,Nni表示样本点i的最近邻样本点,所述最近邻样本点Nni的密度大于样本点i的密度,lNni表示最近邻样本点Nni的标号,ρi表示样本点i的局部密度,max(ρ)表示样本点i的最大局部密度,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,Ci表示以样本点i为聚类中心的类簇,ψ(Ci)表示类簇Ci中的元素集合,lj表示样本点j的标号。
其中,当以样本点k为聚类中心的类簇Ck与样本点i相同时,则将样本点i的标号设置为k。
聚类模块204:用于利用截断距离扩展所述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将所述两个样本点类簇中的元素集合进行合并,获得聚类簇。
本发明实施例中,可以按照如下公式扩展上述各个样本点的类簇中的元素集合:
φ(Ci)={j|di,j<dc,i∈ψ(Ci)}
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,dc表示截断距离,i表示样本点i,ψ(Ci)表示类簇Ci中的元素集合。
具体的,当样本点i与样本点j之间的欧式距离小于上述截断距离时,在类簇Ci扩展后的元素集合中添加样本点j。
进一步地,上述聚类模块204用于:
按照如下公式计算两个样本点的扩展重叠部分τ:
当τ>θ时:
ψ(Ci)=ψ(Ci)∪ψ(Cj)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,Cj表示以样本点j为聚类中心的类簇,φ(Cj)类簇Cj扩展后的元素集合,ψ(Ci)表示类簇Ci中的元素集合,ψ(Cj)表示类簇Cj中的元素集合,θ表示所述预置阈值。
具体的,当样本点i与样本点j的扩展重叠部分大于预置阈值时,则将这两个样本点进行合并,得到聚类簇。
本发明实施例所提供的聚类簇的获取装置包括:计算模块201,用于调用DPC算法,获得各个样本点的聚类结果;第一确定模块201,用于根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定各个样本点的聚类结果的聚类中心,第二确定模块203,用于根据该聚类中心确定各个样本点的类簇中的元素集合,聚类模块204用于利用截断距离扩展上述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将这两个样本点类簇中的元素集合进行合并,获得聚类簇。相较于现有技术而言,本发明利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心,然后对各个样本点的类簇中的元素集合进行扩展、合并等操作,最终获得聚类簇,可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种聚类簇的获取方法及装置的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种聚类簇的获取方法,其特征在于,所述方法包括:
调用预设的密度峰值聚类DPC算法,获得样本空间内各个样本点的聚类结果;
根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心;
根据所述聚类中心确定各个样本点的类簇中的元素集合;
利用截断距离扩展所述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将所述两个样本点类簇中的元素集合进行合并,获得聚类簇。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心的步骤包括:
调用预先设置的密度阈值β及峰值阈值α,利用如下公式确定所述各个样本点的聚类结果的聚类中心:
Ci=i,δi>αandρi>β.
其中,i表示样本点i,Ci表示以样本点i为聚类中心的类簇,ρi表示样本点i的局部密度,δi表示样本点i的峰值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述聚类中心确定各个样本点的类簇中的元素集合的步骤包括:
按照如下公式得到所述各个样本点的类簇中的元素集合:
ψ(Ci)={j|lj=Ci}
其中,i表示样本点i,li表示样本点i的标号,k表示样本点k,Ck表示以样本点k为聚类中心的类簇,Nni表示样本点i的最近邻样本点,所述最近邻样本点Nni的密度大于样本点i的密度,lNni表示最近邻样本点Nni的标号,ρi表示样本点i的局部密度,max(ρ)表示样本点i的最大局部密度,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,Ci表示以样本点i为聚类中心的类簇,ψ(Ci)表示类簇Ci中的元素集合,lj表示样本点j的标号。
4.根据权利要求1所述的方法,其特征在于,所述利用截断距离扩展所述元素集合的步骤包括:
按照如下公式扩展所述各个样本点的类簇中的元素集合:
φ(Ci)={j|di,j<dc,i∈ψ(Ci)}
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,dc表示截断距离,i表示样本点i,ψ(Ci)表示类簇Ci中的元素集合。
5.根据权利要求1至4任意一项所述的方法,其特征在于,当两个样本点的扩展重叠部分大于预置阈值时,则将所述两个样本点进行合并的步骤包括:
按照如下公式计算两个样本点的扩展重叠部分τ:
<mrow>
<mi>&tau;</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&cap;</mo>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mi>&phi;</mi>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>|</mo>
<mo>+</mo>
<mo>|</mo>
<mi>&phi;</mi>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>|</mo>
<mo>)</mo>
</mrow>
</mfrac>
</mrow>
当τ>θ时:
ψ(Ci)=ψ(Ci)∪ψ(Cj)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,Cj表示以样本点j为聚类中心的类簇,φ(Cj)类簇Cj扩展后的元素集合,ψ(Ci)表示类簇Ci中的元素集合,ψ(Cj)表示类簇Cj中的元素集合,θ表示所述预置阈值。
6.一种聚类簇的获取装置,其特征在于,所述装置包括:
计算模块:用于调用预设的密度峰值聚类DPC算法,获得样本空间内各个样本点的聚类结果;
第一确定模块:用于根据预先设置的各个样本点局部密度的密度阈值,及各个样本点峰值的峰值阈值,确定所述各个样本点的聚类结果的聚类中心;
第二确定模块:用于根据所述聚类中心确定各个样本点的类簇中的元素集合;
聚类模块:用于利用截断距离扩展所述元素集合,当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时,则将所述两个样本点类簇中的元素集合进行合并,获得聚类簇。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块用于:
调用预先设置的密度阈值β及峰值阈值α,利用如下公式确定所述各个样本点的聚类结果的聚类中心:
Ci=i,δi>αandρi>β.
其中,i表示样本点i,Ci表示以样本点i为聚类中心的类簇,ρi表示样本点i的局部密度,δi表示样本点i的峰值。
8.根据权利要求6所述的装置,其特征在于,所述第二确定模块用于:
按照如下公式得到所述各个样本点的类簇中的元素集合:
ψ(Ci)={j|lj=Ci}
其中,i表示样本点i,li表示样本点i的标号,k表示样本点k,Ck表示以样本点k为聚类中心的类簇,Nni表示样本点i的最近邻样本点,所述最近邻样本点Nni的密度大于样本点i的密度,lNni表示最近邻样本点Nni的标号,ρi表示样本点i的局部密度,max(ρ)表示样本点i的最大局部密度,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,Ci表示以样本点i为聚类中心的类簇,ψ(Ci)表示类簇Ci中的元素集合,lj表示样本点j的标号。
9.根据权利要求6所述的装置,其特征在于,所述聚类模块用于:
按照如下公式扩展所述各个样本点的类簇中的元素集合:
φ(Ci)={j|di,j<dc,i∈ψ(Ci)}
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,j表示样本点j,di,j表示样本点i与样本点j之间的欧式距离,dc表示截断距离,i表示样本点i,ψ(Ci)表示类簇Ci中的元素集合。
10.根据权利要求6至9任意一项所述的装置,其特征在于,所述聚类模块用于:
按照如下公式计算两个样本点的扩展重叠部分τ:
<mrow>
<mi>&tau;</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&cap;</mo>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>|</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mi>&phi;</mi>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>|</mo>
<mo>+</mo>
<mo>|</mo>
<mi>&phi;</mi>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>|</mo>
<mo>)</mo>
</mrow>
</mfrac>
</mrow>
当τ>θ时:
ψ(Ci)=ψ(Ci)∪ψ(Cj)
其中,Ci表示以样本点i为聚类中心的类簇,φ(Ci)表示类簇Ci扩展后的元素集合,Cj表示以样本点j为聚类中心的类簇,φ(Cj)类簇Cj扩展后的元素集合,ψ(Ci)表示类簇Ci中的元素集合,ψ(Cj)表示类簇Cj中的元素集合,θ表示所述预置阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828278.1A CN107563450A (zh) | 2017-09-14 | 2017-09-14 | 聚类簇的获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828278.1A CN107563450A (zh) | 2017-09-14 | 2017-09-14 | 聚类簇的获取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107563450A true CN107563450A (zh) | 2018-01-09 |
Family
ID=60979936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710828278.1A Pending CN107563450A (zh) | 2017-09-14 | 2017-09-14 | 聚类簇的获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107563450A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491476A (zh) * | 2018-03-09 | 2018-09-04 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN109255384A (zh) * | 2018-09-12 | 2019-01-22 | 湖州市特种设备检测研究院 | 一种基于密度峰值聚类算法的交通流模式识别方法 |
CN109840558A (zh) * | 2019-01-25 | 2019-06-04 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN109995611A (zh) * | 2019-03-18 | 2019-07-09 | 新华三信息安全技术有限公司 | 流量分类模型建立及流量分类方法、装置、设备和服务器 |
CN110191085A (zh) * | 2019-04-09 | 2019-08-30 | 中国科学院计算机网络信息中心 | 基于多分类的入侵检测方法、装置及存储介质 |
WO2020113363A1 (en) * | 2018-12-03 | 2020-06-11 | Siemens Mobility GmbH | Method and apparatus for classifying data |
CN111382797A (zh) * | 2020-03-09 | 2020-07-07 | 西北工业大学 | 一种基于样本密度和自适应调整聚类中心的聚类分析方法 |
CN111476435A (zh) * | 2020-04-30 | 2020-07-31 | 国核电力规划设计研究院有限公司 | 基于密度峰值的充电桩负荷预测方法 |
CN111737380A (zh) * | 2020-04-24 | 2020-10-02 | 合肥湛达智能科技有限公司 | 一种基于嵌入式终端交通违法行为检测方法 |
CN112949697A (zh) * | 2021-02-07 | 2021-06-11 | 广州杰赛科技股份有限公司 | 一种管道异常的确认方法、装置及计算机可读存储介质 |
-
2017
- 2017-09-14 CN CN201710828278.1A patent/CN107563450A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491476A (zh) * | 2018-03-09 | 2018-09-04 | 深圳大学 | 大数据随机采样数据子块的划分方法及装置 |
CN109255384A (zh) * | 2018-09-12 | 2019-01-22 | 湖州市特种设备检测研究院 | 一种基于密度峰值聚类算法的交通流模式识别方法 |
WO2020113363A1 (en) * | 2018-12-03 | 2020-06-11 | Siemens Mobility GmbH | Method and apparatus for classifying data |
CN109840558B (zh) * | 2019-01-25 | 2022-06-17 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN109840558A (zh) * | 2019-01-25 | 2019-06-04 | 南京航空航天大学 | 基于密度峰值-核心融合的自适应聚类方法 |
CN109995611A (zh) * | 2019-03-18 | 2019-07-09 | 新华三信息安全技术有限公司 | 流量分类模型建立及流量分类方法、装置、设备和服务器 |
CN110191085A (zh) * | 2019-04-09 | 2019-08-30 | 中国科学院计算机网络信息中心 | 基于多分类的入侵检测方法、装置及存储介质 |
CN111382797A (zh) * | 2020-03-09 | 2020-07-07 | 西北工业大学 | 一种基于样本密度和自适应调整聚类中心的聚类分析方法 |
CN111382797B (zh) * | 2020-03-09 | 2021-10-15 | 西北工业大学 | 一种基于样本密度和自适应调整聚类中心的聚类分析方法 |
CN111737380A (zh) * | 2020-04-24 | 2020-10-02 | 合肥湛达智能科技有限公司 | 一种基于嵌入式终端交通违法行为检测方法 |
CN111476435A (zh) * | 2020-04-30 | 2020-07-31 | 国核电力规划设计研究院有限公司 | 基于密度峰值的充电桩负荷预测方法 |
CN111476435B (zh) * | 2020-04-30 | 2024-02-09 | 国核电力规划设计研究院有限公司 | 基于密度峰值的充电桩负荷预测方法 |
CN112949697A (zh) * | 2021-02-07 | 2021-06-11 | 广州杰赛科技股份有限公司 | 一种管道异常的确认方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563450A (zh) | 聚类簇的获取方法及装置 | |
Patibandla et al. | Survey on clustering algorithms for unstructured data | |
Popat et al. | Review and comparative study of clustering techniques | |
CN107168943B (zh) | 话题预警的方法和装置 | |
CN107679553A (zh) | 基于密度峰值的聚类方法及装置 | |
CN106649050B (zh) | 时序系统多参数运行态势图形表示方法 | |
CN109241297B (zh) | 一种内容分类聚合方法、电子设备、存储介质及引擎 | |
Chadha et al. | An improved K-means clustering algorithm: a step forward for removal of dependency on K | |
CN106874292A (zh) | 话题处理方法及装置 | |
Caruso et al. | Cluster analysis: An application to a real mixed-type data set | |
Basu et al. | A similarity assessment technique for effective grouping of documents | |
CN106897262A (zh) | 一种文本分类方法和装置以及处理方法和装置 | |
Li et al. | Supervised latent Dirichlet allocation with a mixture of sparse softmax | |
CN107315984A (zh) | 一种行人检索的方法及装置 | |
Tang et al. | An adaptive discrete particle swarm optimization for influence maximization based on network community structure | |
Rani | Visual analytics for comparing the impact of outliers in k-means and k-medoids algorithm | |
Yang et al. | Discriminative multi-task multi-view feature selection and fusion for multimedia analysis | |
CN105447142B (zh) | 一种双模式农业科技成果分类方法及系统 | |
Singh et al. | Survey on outlier detection in data mining | |
CN104463627B (zh) | 数据处理方法和装置 | |
CN110414621A (zh) | 基于多示例学习的分类器构建方法及装置 | |
Jindal et al. | Ranking in multi label classification of text documents using quantifiers | |
Samsudin et al. | Extended local mean-based nonparametric classifier for cervical cancer screening | |
CN103793504A (zh) | 一种基于用户偏好与项目属性的聚类初始点选择方法 | |
Sharma et al. | Enhancing DBSCAN algorithm for data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180109 |
|
RJ01 | Rejection of invention patent application after publication |