CN107679553A

CN107679553A - 基于密度峰值的聚类方法及装置

Info

Publication number: CN107679553A
Application number: CN201710827700.1A
Authority: CN
Inventors: 王继奎; 魏丞昊; 何玉林; 王文婷; 黄哲学
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-02-09

Abstract

本发明公开了一种基于密度峰值的聚类方法及装置，方法包括：在样本空间中随机选取若干个观测点，根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果，并根据各个观测点的聚类结果生成高维数据的相似度矩阵，将该相似度矩阵各行的和分别作为该相似度矩阵各行对应的样本点的密度，然后根据相似度矩阵各行对应的样本点的密度，获得上述相似度矩阵的密度集合，然后计算该密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心，根据该候选中心中的峰值进行聚类，得到上述各个样本点的聚类结果。本发明不需要设置截断距离参数，同时不需要采用决策图来人为的选择聚类中心，应用范围较广泛。

Description

基于密度峰值的聚类方法及装置

技术领域

本发明涉及聚类分析领域，尤其涉及一种基于密度峰值的聚类方法及装置。

背景技术

聚类是根据数据对象之间的相似性将数据集样本划分成合理类簇的过程，聚类结果使得同一类簇内的对象具有较高相似性，不同类簇间的对象相似度较低，广泛应用在科学数据分析和工程系统等领域。

聚类算法包括划分式聚类方法、层次聚类方法、基于密度的聚类方法、基于网格的聚类方法及集成式聚类算法。Kmeans聚类算法是应用最广泛的划分式聚类算法，然而，kmeans聚类算法的聚类结果严重依赖于初始类簇中心，不能发现非凸形状的簇，对噪声和离群点敏感，且类簇数需事先设定。针对Kmeans聚类算法的缺陷，研究者们设计了一种自动确定类簇数和类簇中心的新聚类算法DPC(Density Peaks Clustering，密度峰值聚类算法)算法，该算法能快速发现任意形状类簇的密度峰值点，并高效进行样本点分配，适用于大规模数据集的聚类分析。

DPC算法能自动发现数据样本的类中心，实现任意形状数据集样本的高效聚类。其算法遵循两条规则(1)类中心的局部密度大于其邻居的局部密度；(2)不同类中心距离相对比较远。与绝大多数聚类算法一样，DPC算法需要输入截断距离参数d_c，聚类结果严重依赖于d_c取值。而面对一个未知的数据集，d_c取值无法确定，同时，DPC算法采用决策图来人为的选择聚类中心，应用范围较窄。

发明内容

本发明的主要目的在于提供一种基于密度峰值的聚类方法及装置，旨在解决现有技术中DPC算法需要输入截断距离参数才能得到聚类结果，以及需要采用决策图来人为的选择聚类中心，应用范围较窄的技术问题。

为实现上述目的，本发明第一方面提供一种基于密度峰值的聚类方法，该方法包括：

在样本空间中随机选取若干个观测点，根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果，并根据各个观测点的聚类结果生成高维数据的相似度矩阵；

将所述相似度矩阵各行的和分别作为所述相似度矩阵各行对应的样本点的密度，根据所述相似度矩阵各行对应的样本点的密度，获得所述相似度矩阵的密度集合；

计算所述密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心；

根据所述候选中心中的峰值进行聚类，得到所述各个样本点的聚类结果。

可选的，所述根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果的步骤包括：

计算各个样本点相对于各个观测点的距离；

当若干数量的样本点相对于当前观测点的距离大小均处于预设的距离区间内时，则将所述若干数量的样本点与所述当前观测点聚类为同一类。

可选的，所述根据所述相似度矩阵各行对应的样本点的密度，获得所述相似度矩阵的密度集合的步骤包括：

将所述相似度矩阵各行对应的样本点的密度按照由大到小的顺序进行排序，得到所述相似度矩阵的密度集合。

可选的，所述计算所述密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心的步骤包括：

将所述密度集合中最大的密度的峰值设置为其中，m表示所述密度集合中最大的密度对应的样本点的维数；

从所述密度集合中的第二个密度开始，依次计算当前密度与位于其前面的各个密度的距离，并将计算出的最小的距离作为当前密度的峰值；

将各个密度的峰值按照由大到小的顺序进行排序，选择前N个峰值所对应的样本点作为所述候选中心，所述N为整数，且2≤N。

可选的，所述根据所述候选中心中的峰值进行聚类，得到所述各个样本点的聚类结果的步骤包括：

在所述候选中心依次选择前K个峰值对应的样本点作为聚类中心进行聚类，并计算每一次聚类时的轮廓系数，其中，K∈[2,N]，N为整数，且2＜N；

若所述候选中心前f个峰值对应的样本点作为聚类中心进行聚类得到的轮廓系数为所有计算出的轮廓系数中的最大值，则将前f个峰值对应的样本点作为聚类中心，将剩余的峰值对应的样本点划分到距其最近的聚类中心，得到所述各个样本点的聚类结果，其中，2≤f≤N。

为实现上述目的，本发明第二方面提供一种基于密度峰值的聚类装置，该装置包括：

生成模块，用于在样本空间中随机选取若干个观测点，根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果，并根据各个观测点的聚类结果生成高维数据的相似度矩阵；

获取模块，用于将所述相似度矩阵各行的和分别作为所述相似度矩阵各行对应的样本点的密度，根据所述相似度矩阵各行对应的样本点的密度，获得所述相似度矩阵的密度集合；

计算模块，用于计算所述密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心；

聚类模块，用于根据所述候选中心中的峰值进行聚类，得到所述各个样本点的聚类结果。

可选的，所述生成模块用于：

计算各个样本点相对于各个观测点的距离，当若干数量的样本点相对于当前观测点的距离大小均处于预设的距离区间内时，则将所述若干数量的样本点与所述当前观测点聚类为同一类。

可选的，所述获取模块用于：

可选的，所述计算模块用于：

可选的，所述聚类模块用于：

本发明实施例提供了一种基于密度峰值的聚类方法，相较于现有技术而言，本发明实施例在样本空间中放置若干个观测点，通过计算样本点与观测点的距离，对各个观测点进行聚类，然后根据各个观测点的聚类结果生成相似度矩阵，然后基于相似度矩阵进一步计算各个样本点对应的密度及其峰值，基于各个样本点对应的密度及其峰值进行聚类，得到上述各个样本点的聚类结果，即本发明实施例不需要设置截断距离参数，同时也不需要采用决策图来人为的选择聚类中心，适用于类簇数较多，球形数据分布，各类簇比较分散、不均匀的数据集聚类，应用范围较广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例中基于密度峰值的聚类方法的步骤流程示意图；

图2为本发明第二实施例中基于密度峰值的聚类装置的程序模块示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例提供了一种基于密度峰值的聚类方法，该方法不需要设置截断距离参数，同时也不需要采用决策图来人为的选择聚类中心，适用于类簇数较多，球形数据分布，各类簇比较分散、不均匀的数据集聚类，应用范围较广泛。

参照图1，图1为本发明第一实施例中基于密度峰值的聚类方法的步骤流程示意图，本发明实施例中，上述基于密度峰值的聚类方法包括：

步骤101，在样本空间中随机选取若干个观测点，根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果，并根据各个观测点的聚类结果生成高维数据的相似度矩阵；

本发明实施例中，先在样本空间中随机选取若干个观测点，然后计算各个样本点相对于各个观测点的距离，然后根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果。

可以理解的是，相似的样本点相对于同一观测点的距离应相同或相近，从而使得它们在距离上聚类为一类；不相似的样本点相对于同一观测点的距离则相差较大，从而使得它们在距离上聚类为不同类。

具体的，上述根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果的步骤包括：

计算各个样本点相对于各个观测点的距离；

其中，先计算各个样本点相对于各个观测点的距离，然后将相对于同一个观测点的距离处于上述距离区间内的所有样本点聚类为一类，上述距离区间可以根据聚类需求进行设置，例如设置为(0，n]，n>0。

另外，还可以预先设置一个距离阈值，以当前样本点为圆心，以该距离阈值为半径生成圆，将落入该圆内的所有样本点聚类为一类。

进一步地，在获得各个观测点的聚类结果之后，即可根据各个观测点的聚类结果生成高维数据的相似度矩阵。

具体的，假设样本集D＝(x_i,j),i∈[1,N],j∈[1,m],N表示样本点个数，m表示维数，上述生成高维数据的相似度矩阵的步骤包括：

1、以均匀分布从样本空间中取随机选取若干个观测点：O＝{o_z|z∈[1,5％×N]}；

2、构造距离向量V＝(v_i)：

其中，v_i表示样本点x_i,j相对于观测点o_i,j的距离。

3、利用kmeans聚类算法，将距离向量V对应的样本集划分为2类，即将聚类在一起的样本点划分为一类，将剩余的样本点划分为另一类；

4、构造相似度矩阵S_n×n ^q＝(S^q(i,h))

其中，x_i表示第i个样本点，x_h表示第h个样本点，c(x_i)＝c(x_h)，表示第i个样本点与第h个样本点属于同一类；c(x_i)≠c(x_h)表示第i个样本点与第h个样本点不属于同一类。

另外，x_i与x_i,j均用于表示样本点，x_i,j表示维度为j的样本点.

5、将所有观测点获得的相似度矩阵相加构造相似度矩阵S

6、构造关系矩阵M_n×n

其中，δ为相似度阈值，且δ＞0，可根据聚类需求进行设置。

步骤102，将所述相似度矩阵各行的和分别作为所述相似度矩阵各行对应的样本点的密度，根据所述相似度矩阵各行对应的样本点的密度，获得所述相似度矩阵的密度集合；

本发明实施例中，分别将上述相似度矩阵各行中的数值相加，从而获得各行对应的样本点的密度G(i)：

进一步地，将上述相似度矩阵各行对应的样本点的密度按照由大到小的顺序进行排序，得到上述相似度矩阵的密度集合。

步骤103，计算所述密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心；

本发明实施例中，在得到上述密度集合之后，即可计算该密度集合中各个密度的峰值，具体的，计算上述密度集合中各个密度的峰值的步骤包括：

将上述密度集合中最大的密度的峰值设置为其中，m表示上述密度集合中最大的密度对应的样本点的维数；

从上述密度集合中的第二个密度开始，依次计算当前密度与位于其前面的各个密度的距离，并将计算出的最小的距离作为当前密度的峰值。

具体的，按照密度递减的次序，计算各个密度对应的峰值R

其中，x_i'表示位于样本x_i点之前的样本点。

进一步地，在得到上述密度集合中各个密度的峰值之后，即可根据各个密度的峰值确定候选中心，具体的，将各个密度的峰值按照由大到小的顺序进行排序，选择前N个峰值所对应的样本点作为上述候选中心，其中，N为整数，且2≤N，优选的，N的值可以设置为50，即选择峰值最大的前50个峰值所对应的样本点作为上述候选中心。

步骤104，根据所述候选中心中的峰值进行聚类，得到所述各个样本点的聚类结果。

本发明实施例中，在确定上述候选中心之后，即可根据该候选中心得到上述各个样本点的聚类结果，具体的，包括如下步骤：

在上述候选中心依次选择前K个峰值对应的样本点作为聚类中心进行聚类，并计算每一次聚类时的轮廓系数，其中，K∈[2,N]，N为整数，且2＜N；

若上述候选中心前f个峰值对应的样本点作为聚类中心进行聚类得到的轮廓系数为所有计算出的轮廓系数中的最大值，则将前f个峰值对应的样本点作为聚类中心，将剩余的峰值对应的样本点划分到距其最近的聚类中心，得到所述各个样本点的聚类结果，其中，2≤f≤N。

其中，按照峰值递减的顺序，从两个样本点开始，依次增加一个样本点作为聚类中心进行聚类，并计算每一次聚类的轮廓系数。例如，按照峰值递减的顺序，依次将前2个、前3个、前4个、……、所有峰值对应的样本点作为聚类中心进行聚类，并计算每一次聚类的轮廓系数。

其中，从计算出的所有聚类系数中查找出最大的轮廓系数，如前f个峰值对应的样本点作为聚类中心进行聚类得到的轮廓系数为所有计算出的轮廓系数中的最大值，则将前f个峰值对应的样本点作为聚类中心，将剩余的峰值对应的样本点划分到距其最近的聚类中心，从而得到上述各个样本点的聚类结果。

本发明实施例所提供的基于密度峰值的聚类方法，相较于现有技术而言，本发明实施例在样本空间中放置若干个观测点，通过计算样本点与观测点的距离，对各个观测点进行聚类，然后根据各个观测点的聚类结果生成相似度矩阵，然后基于相似度矩阵进一步计算各个样本点对应的密度及其峰值，基于各个样本点对应的密度及其峰值进行聚类，得到上述各个样本点的聚类结果，即本发明实施例不需要设置截断距离参数，同时也不需要采用决策图来人为的选择聚类中心，适用于类簇数较多，球形数据分布，各类簇比较分散、不均匀的数据集聚类，应用范围较广泛。

进一步地，本发明第二实施例提供了一种基于密度峰值的聚类装置，该装置不需要设置截断距离参数，同时也不需要采用决策图来人为的选择聚类中心，适用于类簇数较多，球形数据分布，各类簇比较分散、不均匀的数据集聚类，应用范围较广泛。

参照图2，图2为本发明第二实施例中基于密度峰值的聚类装置的程序模块示意图，本发明实施例中，上述基于密度峰值的聚类装置包括：

生成模块201，用于在样本空间中随机选取若干个观测点，根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果，并根据各个观测点的聚类结果生成高维数据的相似度矩阵；

具体的，上述生成模块用于201：

具体的，假设样本集D＝(x_i,j),i∈[1,N],j∈[1,m],N表示样本点个数，m表示维数，上述生成模块201可用于：

2.构造距离向量V＝(v_i)：

其中，v_i表示样本点x_i,j相对于观测点o_i,j的距离。

4、构造相似度矩阵S_n×n ^q＝(S^q(i,h))

5、将所有观测点获得的相似度矩阵相加构造相似度矩阵S

6、构造关系矩阵M_n×n

获取模块202，用于将所述相似度矩阵各行的和分别作为所述相似度矩阵各行对应的样本点的密度，根据所述相似度矩阵各行对应的样本点的密度，获得所述相似度矩阵的密度集合；

本发明实施例中，获取模块202分别将上述相似度矩阵各行中的数值相加，从而获得各行对应的样本点的密度G(i)：

进一步地，获取模块202将上述相似度矩阵各行对应的样本点的密度按照由大到小的顺序进行排序，得到上述相似度矩阵的密度集合。

计算模块203，用于计算所述密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心；

本发明实施例中，在得到上述密度集合之后，即可计算该密度集合中各个密度的峰值，具体的，计算模块203用于：

具体的，按照密度递减的次序，计算各个密度对应的峰值R

其中，x_i'表示位于样本x_i点之前的样本点。

进一步地，在得到上述密度集合中各个密度的峰值之后，计算模块203即可根据各个密度的峰值确定候选中心，具体的，将各个密度的峰值按照由大到小的顺序进行排序，选择前N个峰值所对应的样本点作为上述候选中心，其中，N为整数，且2≤N，优选的，N的值可以设置为50，即选择峰值最大的前50个峰值所对应的样本点作为上述候选中心。

聚类模块204，用于根据所述候选中心中的峰值进行聚类，得到所述各个样本点的聚类结果。

本发明实施例中，在确定上述候选中心之后，即可根据该候选中心得到上述各个样本点的聚类结果，具体的，聚类模块204用于：

本发明实施例所提供的基于密度峰值的聚类装置，相较于现有技术而言，本发明实施例在样本空间中放置若干个观测点，通过计算样本点与观测点的距离，对各个观测点进行聚类，然后根据各个观测点的聚类结果生成相似度矩阵，然后基于相似度矩阵进一步计算各个样本点对应的密度及其峰值，基于各个样本点对应的密度及其峰值进行聚类，得到上述各个样本点的聚类结果，即本发明实施例不需要设置截断距离参数，同时也不需要采用决策图来人为的选择聚类中心，适用于类簇数较多，球形数据分布，各类簇比较分散、不均匀的数据集聚类，应用范围较广泛。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种基于密度峰值的聚类方法及装置的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于密度峰值的聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各个样本点相对于各个观测点的距离，获得各个观测点的聚类结果的步骤包括：

计算各个样本点相对于各个观测点的距离；

3.根据权利要求1所述的方法，其特征在于，所述根据所述相似度矩阵各行对应的样本点的密度，获得所述相似度矩阵的密度集合的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述计算所述密度集合中各个密度的峰值，根据各个密度的峰值确定候选中心的步骤包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述根据所述候选中心中的峰值进行聚类，得到所述各个样本点的聚类结果的步骤包括：

6.一种基于密度峰值的聚类装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述生成模块用于：

8.根据权利要求6所述的装置，其特征在于，所述获取模块用于：

9.根据权利要求6所述的装置，其特征在于，所述计算模块用于：

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述聚类模块用于：