CN107563450A

CN107563450A - 聚类簇的获取方法及装置

Info

Publication number: CN107563450A
Application number: CN201710828278.1A
Authority: CN
Inventors: 王继奎; 魏丞昊; 何玉林; 黄哲学; 王文婷
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-09

Abstract

本发明公开了一种聚类簇的获取方法及装置，方法包括：调用预设的密度峰值聚类DPC算法，获得样本空间内各个样本点的聚类结果然后根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定各个样本点的聚类结果的聚类中心，然后根据聚类中心确定各个样本点的类簇中的元素集合，利用截断距离扩展上述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将上述两个样本点类簇中的元素集合进行合并，获得聚类簇。本发明可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。

Description

聚类簇的获取方法及装置

技术领域

本发明涉及聚类分析技术领域，尤其涉及一种聚类簇的获取方法及装置。

背景技术

聚类是根据数据对象之间的相似性将数据集样本划分成合理类簇的过程，聚类结果使得同一类簇内的对象具有较高相似性，不同类簇间的对象相似度较低，广泛应用在科学数据分析和工程系统等领域。

聚类算法包括划分式聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法及集成式聚类算法。Kmeans聚类算法是应用最广泛的划分式聚类算法，然而，Kmeans聚类算法的聚类结果严重依赖于初始类簇中心，不能发现非凸形状的簇，对噪声和离群点敏感，且类簇数需事先设定。针对Kmeans聚类算法的缺陷，研究者们设计了一种自动确定类簇数和类簇中心的新聚类算法DPC(Density Peaks Clustering，密度峰值聚类算法)算法，该算法能快速发现任意形状类簇的密度峰值点，并高效进行样本点分配，适用于大规模数据集的聚类分析。

DPC算法能自动发现数据样本的类中心，实现任意形状数据集样本的高效聚类。其算法遵循两条规则(1)类中心的局部密度大于其邻居的局部密度；(2)不同类中心距离相对比较远。由于DPC算法采用决策图来确定聚类中心，因此当类簇密度不均匀，有多个峰值时，便很难以确定聚类中心，即DPC算法不适用于任意形状、密度多变、有多个峰值的类簇的数据聚类。

发明内容

本发明的主要目的在于提供一种聚类簇的获取方法及装置，旨在解决现有技术中DPC算法不适用于任意形状、密度多变、有多个峰值的类簇的数据聚类的技术问题。

为实现上述目的，本发明第一方面提供一种聚类簇的获取方法，该方法包括：

调用预设的DPC算法，获得样本空间内各个样本点的聚类结果；

根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定所述各个样本点的聚类结果的聚类中心；

根据所述聚类中心确定各个样本点的类簇中的元素集合；

利用截断距离扩展所述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将所述两个样本点类簇中的元素集合进行合并，获得聚类簇。

可选的，所述根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定所述各个样本点的聚类结果的聚类中心的步骤包括：

调用预先设置的密度阈值β及峰值阈值α，利用如下公式确定所述各个样本点的聚类结果的聚类中心：

C_i＝i,δ_i＞αandρ_i＞β.

其中，i表示样本点i，C_i表示以样本点i为聚类中心的类簇，ρ_i表示样本点i的局部密度，δ_i表示样本点i的峰值。

可选的，所述根据所述聚类中心确定各个样本点的类簇中的元素集合的步骤包括：

按照如下公式得到所述各个样本点的类簇中的元素集合：

ψ(C_i)＝{j|l_j＝C_i}

其中，i表示样本点i，l_i表示样本点i的标号，k表示样本点k，C_k表示以样本点k为聚类中心的类簇，Nn_i表示样本点i的最近邻样本点，所述最近邻样本点Nn_i的密度大于样本点i的密度，l_Nni表示最近邻样本点Nn_i的标号，ρ_i表示样本点i的局部密度，max(ρ)表示样本点i的最大局部密度，j表示样本点j，d_i,j表示样本点i与样本点j之间的欧式距离，C_i表示以样本点i为聚类中心的类簇，ψ(C_i)表示类簇C_i中的元素集合，l_j表示样本点j的标号。

可选的，所述利用截断距离扩展所述元素集合的步骤包括：

按照如下公式扩展所述各个样本点的类簇中的元素集合：

φ(C_i)＝{j|d_i,j＜d_c,i∈ψ(C_i)}

其中，C_i表示以样本点i为聚类中心的类簇，φ(C_i)表示类簇C_i扩展后的元素集合，j表示样本点j，d_i,j表示样本点i与样本点j之间的欧式距离，d_c表示截断距离，i表示样本点i，ψ(C_i)表示类簇C_i中的元素集合。

可选的，当两个样本点的扩展重叠部分大于预置阈值时，则将所述两个样本点进行合并的步骤包括：

按照如下公式计算两个样本点的扩展重叠部分τ：

当τ＞θ时：

ψ(C_i)＝ψ(C_i)∪ψ(C_j)

其中，C_i表示以样本点i为聚类中心的类簇，φ(C_i)表示类簇C_i扩展后的元素集合，C_j表示以样本点j为聚类中心的类簇，φ(C_j)类簇C_j扩展后的元素集合，ψ(C_i)表示类簇C_i中的元素集合，ψ(C_j)表示类簇C_j中的元素集合，θ表示所述预置阈值。

为实现上述目的，本发明第二方面提供一种聚类簇的获取装置，该装置包括：

计算模块：用于调用预设的DPC算法，获得样本空间内各个样本点的聚类结果；

第一确定模块：用于根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定所述各个样本点的聚类结果的聚类中心；

第二确定模块：用于根据所述聚类中心确定各个样本点的类簇中的元素集合；

聚类模块：用于利用截断距离扩展所述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将所述两个样本点类簇中的元素集合进行合并，获得聚类簇。

可选的，所述第一确定模块用于：

C_i＝i,δ_i＞αandρ_i＞β.

可选的，所述第二确定模块用于：

按照如下公式得到所述各个样本点的类簇中的元素集合：

ψ(C_i)＝{j|l_j＝C_i}

可选的，所述聚类模块用于：

按照如下公式扩展所述各个样本点的类簇中的元素集合：

φ(C_i)＝{j|d_i,j＜d_c,i∈ψ(C_i)}

可选的，所述聚类模块用于：

按照如下公式计算两个样本点的扩展重叠部分τ：

当τ＞θ时：

ψ(C_i)＝ψ(C_i)∪ψ(C_j)

本发明提供了一种聚类簇的获取方法，该方法包括：调用DPC算法，获得各个样本点的聚类结果，然后根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定各个样本点的聚类结果的聚类中心，然后根据该聚类中心确定各个样本点的类簇中的元素集合，利用截断距离扩展上述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将这两个样本点类簇中的元素集合进行合并，获得聚类簇。相较于现有技术而言，本发明利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心，然后对各个样本点的类簇中的元素集合进行扩展、合并等操作，最终获得聚类簇，可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例中聚类簇的获取方法的步骤流程示意图；

图2为本发明第二实施例中聚类簇的获取装置的程序模块示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例主要提供一种聚类簇的获取方法，该方法包括利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心，然后对各个样本点的类簇中的元素集合进行扩展、合并等操作，最终获得聚类簇，可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。

请参阅图1，图1为本发明第一实施例中聚类簇的获取方法的步骤流程示意图，本发明第一实施例中，上述聚类簇的获取方法包括：

步骤101，调用预设的密度峰值聚类DPC算法，获得样本空间内各个样本点的聚类结果；

本发明实施例中，先确定各个样本点的局部密度，及各个样本点的峰值，然后利用各个样本点的局部密度及峰值绘制决策图，然后利用绘制好的决策图确定各个样本点的聚类中心，依据样本点与比其密度大的最近样本点类簇相同的原则划分该样本点聚类中心之外的样本点，从而获得样本空间内各个样本点的聚类结果。

为了更好地理解本发明，本发明实施例提供一种可选的实施方式，具体如下：

定义样本点i与样本点j的欧式距离为d_i,j：

d_i,j＝||i-j||₂ (1)

样本点i的局部密度ρ_i定义为：

上式中d_c表示截断距离。ρ_i也可定义为：

其中，DPC算法中给出了d_c的估算方法：

其中 D表示的样本点两两之间的距离，且按升序排列。N表示样本点数，p是一个整数，默认值为2。

样本点i的局部密度定义δ_i定义为：

其中ρ＝{ρ₁,…,ρ_N}，N表示样本点的个数，ρ_j表示样本点j的局部密度。

其中，确定ρ_i、δ_i后，然后利用ρ_i、δ_i绘制决策图，利用绘制好的决策图确定各个样本点的聚类中心，依据样本点与比其密度大的最近样本点类簇相同的原则划分该样本点聚类中心之外的样本点，从而获得样本空间内各个样本点的聚类结果。

步骤102，根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定所述各个样本点的聚类结果的聚类中心；

本发明实施例中，根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，例如，预先设置各个样本点局部密度的密度阈值为β，各个样本点峰值的峰值阈值为α，然后根据β及α确定各个样本点的聚类结果的聚类中心。

具体的，可以利用如下公式确定各个样本点的聚类结果的聚类中心：

C_i＝i,δ_i＞αandρ_i＞β.(6)

其中，i表示样本点i，C_i表示以样本点i为聚类中心的类簇，ρ_i表示样本点i的局部密度，δ_i表示样本点i的峰值。即当样本点i的局部密度大于上述密度阈值，且峰值也同时大于上述峰值阈值时，则表示样本点i为上述各个样本点的聚类结果的聚类中心。

步骤103，根据所述聚类中心确定各个样本点的类簇中的元素集合；

本发明实施例中，可以按照如下公式得到上述各个样本点的类簇中的元素集合：

ψ(C_i)＝{j|l_j＝C_i}(9)

其中，当以样本点k为聚类中心的类簇C_k与样本点i相同时，则将样本点i的标号设置为k。

步骤104，利用截断距离扩展所述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将所述两个样本点类簇中的元素集合进行合并，获得聚类簇。

本发明实施例中，可以按照如下公式扩展上述各个样本点的类簇中的元素集合：

φ(C_i)＝{j|d_i,j＜d_c,i∈ψ(C_i)} (10)

具体的，当样本点i与样本点j之间的欧式距离小于上述截断距离时，在类簇C_i扩展后的元素集合中添加样本点j。

进一步地，上述当两个样本点的扩展重叠部分大于预置阈值时，则将所述两个样本点进行合并的步骤包括：

按照如下公式计算两个样本点的扩展重叠部分τ：

当τ＞θ时：

ψ(C_i)＝ψ(C_i)∪ψ(C_j) (12)

具体的，当样本点i与样本点j的扩展重叠部分大于预置阈值时，则将这两个样本点进行合并，得到聚类簇。

本发明实施例所提供的聚类簇的获取方法包括：调用DPC算法，获得各个样本点的聚类结果，然后根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定各个样本点的聚类结果的聚类中心，然后根据该聚类中心确定各个样本点的类簇中的元素集合，利用截断距离扩展上述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将这两个样本点类簇中的元素集合进行合并，获得聚类簇。相较于现有技术而言，本发明利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心，然后对各个样本点的类簇中的元素集合进行扩展、合并等操作，最终获得聚类簇，可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。

进一步地，本发明第二实施例还提供一种聚类簇的获取装置，该装置利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心，然后对各个样本点的类簇中的元素集合进行扩展、合并等操作，最终获得聚类簇，可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。

请参阅图2，图2为本发明第二实施例中聚类簇的获取装置的程序模块示意图，本发明第二实施例中，上述聚类簇的获取装置包括：

计算模块201：用于调用预设的密度峰值聚类DPC算法，获得样本空间内各个样本点的聚类结果；

定义样本点i与样本点j的欧式距离为d_i,j：

d_i,j＝||i-j||₂

样本点i的局部密度ρ_i定义为：

上式中d_c表示截断距离。ρ_i也可定义为：

其中，DPC算法中给出了d_c的估算方法：

样本点i的局部密度定义δ_i定义为：

其中ρ＝{ρ₁，…，ρ_N}，N表示样本点的个数，ρ_j表示样本点j的局部密度。

第一确定模块202：用于根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定所述各个样本点的聚类结果的聚类中心；

C_i＝i,δ_i＞αandρ_i＞β.

第二确定模块203：用于根据所述聚类中心确定各个样本点的类簇中的元素集合；

ψ(C_i)＝{j|l_j＝C_i}

聚类模块204：用于利用截断距离扩展所述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将所述两个样本点类簇中的元素集合进行合并，获得聚类簇。

φ(C_i)＝{j|d_i,j＜d_c,i∈ψ(C_i)}

进一步地，上述聚类模块204用于：

按照如下公式计算两个样本点的扩展重叠部分τ：

当τ＞θ时：

ψ(C_i)＝ψ(C_i)∪ψ(C_j)

本发明实施例所提供的聚类簇的获取装置包括：计算模块201，用于调用DPC算法，获得各个样本点的聚类结果；第一确定模块201，用于根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定各个样本点的聚类结果的聚类中心，第二确定模块203，用于根据该聚类中心确定各个样本点的类簇中的元素集合，聚类模块204用于利用截断距离扩展上述元素集合，当两个样本点类簇中的元素集合的扩展重叠部分大于预置阈值时，则将这两个样本点类簇中的元素集合进行合并，获得聚类簇。相较于现有技术而言，本发明利用各个样本点的密度阈值及峰值阈值来确定由DPC算法获得的聚类结果的聚类中心，然后对各个样本点的类簇中的元素集合进行扩展、合并等操作，最终获得聚类簇，可以适用于任意形状、密度多变、有多个峰值类簇的数据聚类。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种聚类簇的获取方法及装置的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种聚类簇的获取方法，其特征在于，所述方法包括：

调用预设的密度峰值聚类DPC算法，获得样本空间内各个样本点的聚类结果；

根据所述聚类中心确定各个样本点的类簇中的元素集合；

2.根据权利要求1所述的方法，其特征在于，所述根据预先设置的各个样本点局部密度的密度阈值，及各个样本点峰值的峰值阈值，确定所述各个样本点的聚类结果的聚类中心的步骤包括：

C_i＝i,δ_i＞αandρ_i＞β.

3.根据权利要求1所述的方法，其特征在于，所述根据所述聚类中心确定各个样本点的类簇中的元素集合的步骤包括：

按照如下公式得到所述各个样本点的类簇中的元素集合：

ψ(C_i)＝{j|l_j＝C_i}

4.根据权利要求1所述的方法，其特征在于，所述利用截断距离扩展所述元素集合的步骤包括：

按照如下公式扩展所述各个样本点的类簇中的元素集合：

φ(C_i)＝{j|d_i,j＜d_c,i∈ψ(C_i)}

5.根据权利要求1至4任意一项所述的方法，其特征在于，当两个样本点的扩展重叠部分大于预置阈值时，则将所述两个样本点进行合并的步骤包括：

按照如下公式计算两个样本点的扩展重叠部分τ：

当τ＞θ时：

ψ(C_i)＝ψ(C_i)∪ψ(C_j)

6.一种聚类簇的获取装置，其特征在于，所述装置包括：

计算模块：用于调用预设的密度峰值聚类DPC算法，获得样本空间内各个样本点的聚类结果；

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块用于：

C_i＝i,δ_i＞αandρ_i＞β.

8.根据权利要求6所述的装置，其特征在于，所述第二确定模块用于：

按照如下公式得到所述各个样本点的类簇中的元素集合：

ψ(C_i)＝{j|l_j＝C_i}

9.根据权利要求6所述的装置，其特征在于，所述聚类模块用于：

按照如下公式扩展所述各个样本点的类簇中的元素集合：

φ(C_i)＝{j|d_i,j＜d_c,i∈ψ(C_i)}

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述聚类模块用于：

按照如下公式计算两个样本点的扩展重叠部分τ：

当τ＞θ时：

ψ(C_i)＝ψ(C_i)∪ψ(C_j)