CN109948720A

CN109948720A - 一种基于密度的层次聚类方法

Info

Publication number: CN109948720A
Application number: CN201910237841.7A
Authority: CN
Inventors: 朱庆生; 粟铭瑶; 姚成亮; 冉谨铭; 张智勇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-06-28

Abstract

本发明公开一种基于密度的层次聚类方法，包括以下几个步骤：S1：计算数据集中每个样本点的自然邻居数量；S2：根据自然邻居数量获得K值；S3：根据k值获取每个样本点的最近邻集合；S4：计算样本点的相对近邻核密度，得到密度值集合；S5：根据相对近邻核密度对数据集中样本点进行分类得到高密度点集合和低密度点集合；S6：将低密度点分配给高密度点，分别得到相对应高密度点的第一子簇，从而得到第一簇集合；S7：将第一簇集合中的第一子簇进行合并得到第二簇集合；S8：将剩余样本点分配到第二簇集合，得到第三簇集合。本发明能够有效解决聚类算法中参数的选择问题，避免人为设置参数带来的实验主观因素影响。

Description

一种基于密度的层次聚类方法

技术领域

本发明涉及数据聚类技术领域，特别涉及一种基于密度的层次聚类方法。

背景技术

基于密度的聚类算法核心是密度的定义，而密度主要描述的是数据点周边的部分邻域信息，然后通过密度估计函数来计算该点的密度值，该类算法的准则是通过数据点之间的密度相对信息来度量数据点之间的关系，从而达到聚类的效果的。对数据点之间的密度信息的计算也有着不同的方式，常用的方法有两种，第一种是在一个指定的邻域半径参数范围内，搜索数据集中的每个数据对象的该邻域半径范围内的所有点，然后通过统计这些数据点的个数来定义密度；通过点数进行判定密度，在搜索上能够使用数据索引进行加速，因此速度较快，然而却会产生不同的点有着相同密度的情况。第二种方式采用一些经典的核函数，通过对这些核函数中的参数进行设定，使用数据集中数据点处于数据集中位置的信息，进而估计出该点的密度，通常使用的核函数有高斯核函数与伽马核函数，使用核函数估计密度，可以避免不同点有相同密度的情况出现。

在使用核函数进行测量时，常用的核函数密度计算倾向于对小规模的数据集进行有偏估计；而基于最近邻(KNN)的改进核密度(NKD，Neighbor Kernel Density)计算能解决有偏估计的问题，但是因为NKD测量的是全局范围内的数据集，而一个低密度簇中仍然能存在高密度的数据点，因此NKD容易忽视小规模数据集。2017年提出了一种新的密度聚类算法-RECOME,该算法提出了一种新的密度测量方式：基于相对最邻的核密度(RNKD，RelativeNeighbor Kernel Density)，该方式通过最近邻(KNN)限定范围，在计算数据点的密度估计时，只考虑它周围的邻居点，能够很好的计算密集区域和稀疏区域的簇；然而该算法对于KNN中超参数K值得选取仍然不固定，需要人为设置，并且该算法对于高密度区域和低密度区域交叉点的判断不准确，并且在流形数据集上的表现较差，对于复杂数据集不具有很好的适用性，因此本发明的研究目的是在RNDK的基础上提出一种新的基于密度测量的层次聚类算法，用以解决上述问题。

发明内容

针对现有技术的不足，本发明提供一种基于密度的层次聚类方法，通过引入相对最近邻核密度来计算数据点的密度，并且引入自然邻来对超参数进行选取，避免人为设置参数带来的实验主观因素影响；并且在流形数据上具有良好的表现，也能处理密度分布不均的数据。

为了实现上述目的，本发明提供以下技术方案：

一种基于密度的层次聚类方法，包括以下几个步骤：

S1：计算数据集中每个样本点的自然邻居数量；

S2：根据样本点的自然邻居数量计算K值；

S3：根据k值获取每个样本点的最近邻集合；

S4：计算样本点的相对近邻核密度，得到密度值集合；

S5：根据相对近邻核密度对数据集中样本点进行分类得到高密度点集合和低密度点集合；

S6：将低密度点分配给高密度点，分别得到相对应高密度点的第一子簇，从而得到第一簇集合；

S7：将第一子簇进行合并得到第二簇集合；

S8：将剩余样本点分配到第二簇集合，得到第三簇集合。

优选的，所述步骤S2中，自然邻居数量集合记为NB＝{s1,s2,s3,…,sn}，sn表示第n个数据点的自然邻居数量，计算出集合NB中的四分位数排列，记为：Q(Dsupk)＝[Q1,Q2,Q3,Q4]，Q1表示下四分位数，Q2表示是中位数，Q3表示上四分位数，Q4表示最大值，则

优选的，所述步骤S3中，所述样本点的最近邻集合获取方法为：计算数据集中任一样本点u与其它样本点之间的欧式距离，并将所得欧式距离按从小到大的顺序进行排列，选取前k个欧式距离值对应的样本点从而得到样本点u的最近邻集合N(u)。

优选的，所述欧式距离的计算公式为：

公式(1)中，d(u,v)表示样本点u和v之间的欧式距离，(x_u,y_u)表示样本点u的空间坐标，(x_v,y_v)表示样本点v的空间坐标。

优选的，所述步骤S4中，所述相对近邻核密度计算公式为：

公式(2)中，ρ^*(u)表示样本点u的相对近邻核密度，用于表示样本点u的密度值,v表示样本点u的最近邻集合N(u)中的任一样本点，ρ(v)表示样本点v的近邻核密度，公式的意义是将计算出的样本点u的近邻核密度ρ(u)在近邻范围内进行缩放，以在稀疏簇中计算出相对密度较高的点，用于对稀疏簇进行分类；

公式(3)中，ρ(u)表示样本点u的近邻核密度，θ表示正则化系数，N(u)表示样本点u的最近邻集合，d(u,v)表示样本点u和样本点v的欧式距离，σ表示样本点u与其最近邻集合中N(u)中所有样本点的欧式距离的平均距离，dk(u)表示样本点u与其最近邻集合N(u)中任一样本点的欧式距离，|N_u|表示集合N(u)的样本点个数。

优选的，所述步骤S5包括以下步骤：

S5-1：计算密度值集合中样本点相对近邻核密度的平均值mean_Dρ：

公式(4)中，ρ^*(u_n)表示样本点u_n的相对近邻核密度，N表示密度值集合Dρ中样本点密度值的总个数；

S5-2：根据相对近邻核密度对样本点进行分类：

将密度值集合Dρ中相对近邻核密度大于或等于mean_Dρ相对应的样本点划分为高密度点集合DH；将密度值集合Dρ中相对近邻核密度小于mean_Dρ相对应的样本点划分为低密度点集合DL。

优选的，所述步骤S6包括以下步骤：

以高密度点集合DH中样本点u作为核心点，遍历高密度点u的共享近邻集合SNK(u)，共享近邻集合SNK(u)的样本点v∈DL，则将高密度点u和低密度点v之间的连线作为无向图GK的边，得到第一子簇；每个高密度点拥有相对应的第一子簇，经过第一次聚类从而得到第一簇集合C，C＝{c₁，c₂，…，c_m}，c_m表示第m个高密度点的第一子簇。

优选的，所述步骤S7中，所述第一子簇合并方法为：

第一子簇c₁中的样本点u的共享近邻样本点v属于第一子簇c₂，则样本点u记为第一子簇c₁的边界点，相对应的样本点v记为第一子簇c₂的边界点，样本点u和v互为边界点且统计每个第一子簇边界点的个数Nbp，即：u∈c₁，v∈c₂，c₁、c₂∈C，且v∈SNK(u)，则u∈bound_point(c₁)，v∈bound_point(c₂)；

Nbp≥K/2，则将互为边界点个数最多的第一子簇进行合并，直到合并后的簇的边界点的个数不再发生变化，从而得到第二簇集合C^α；Nbp＜K/2，则不进行第一簇集合的合并。

优选的，所述步骤S8中，剩余样本点分配到第二簇集合方法为：

遍历剩余样本点i的共享近邻集合和第二簇集合，若第二子簇C^α ₁中剩余样本点i的共享近邻样本点数量最多，则将剩余样本点i分配到的第二子簇C^α ₁。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

本发明通过引入相对最近邻核密度来计算数据点的密度，并且引入自然邻来对超参数进行选取，根据计算出的数据点密度将数据点划分为高密度点和低密度点，将低密度点按照最近邻思想划分给高密度点进行初步聚类，并且根据共享近邻思想进行数据簇的合并；该算法能够有效解决聚类算法中参数的选择问题，避免人为设置参数带来的实验主观因素影响；并且在流形数据上具有良好的表现，也能处理密度分布不均数据。

附图说明：

图1为根据本发明示例性实施例的一种基于密度的层次聚类方法流程示意图。

图2为根据本发明示例性实施例的无向图GK的示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

图1为根据本发明示例性实施例的一种基于密度的层次聚类方法流程示意图，具体包括以下步骤：

步骤S1：计算数据集中每个样本点的自然邻居数量。

自然邻居是一种可以自适应形成的新的邻居关系，主要描述了数据集中每个数据点的邻域信息,其每一个数据节点的自然邻居个数是由算法自适应计算产生的，根据自然规律，分布稠密的点拥有较多的自然邻居，而分布稀疏的点拥有较少的自然邻居。

本实施例中，待聚类的数据集为D，本发明对其中参数进行定义：

定义1：(最近邻居)NNr(i)，表示样本点i(i∈D)的r最近邻居，其中，r的值为算法自动产生的，满足|NNr(i)|＝r。

定义2：(逆邻居)RNNr(i)，表示样本点i的逆最近邻居：RNNr(i)＝{j∈D|i∈NNr(j),i≠j}。

定义3：(自然最近邻)NNN(i)，表示样本点i(i∈D)的自然最近邻：NNN(i)＝{j∈D|j∈NNr(i),j∈RNNr(i)}。

定义4：(自然邻居特征值)supk，自然邻居搜索算法停止时的迭代次数即为自然邻居特征值。

定义5：(自然邻居数量)NB(i)，样本点i的自然邻居数量。

自然邻居搜索算法：

Step1：输入数据集D。

Step2：对数据集D创建kd树。

Step3：初始化supk＝1，每个样本点i的逆邻居数量RNN(i)＝0，每个样本点i的逆邻居集合

Step4：对D中所有点i，使用kd树搜索i的第supk邻居j，对j的逆邻居数量执行RNN(j)＝RNN(j)+1，NN(j)＝NN(j)∪i。

Step5：计算NB数组(自然邻居数量集合的个数)中等于0的点的数量，若该数量持续多次为发生改变，转Step6；否则，supk＝supk+1，转Step4。

Step6：输出NN，NB数组。

自然最近邻搜索算法的过程是从k＝1开始，依次选择每个样本点的前k最近邻居(即step4)，然后记录每个样本点在其它样本点的k最近邻居中出现的次数，令k＝k+1(即step5)，重复上一步(即step4)，直到数据集中未出现在其它样本点的邻域中的样本点的个数不再减少时结束，这样就能通过算法自适应形成每个点的最近邻居。

步骤S2：根据步骤S1得到的自然邻居数量(NB)获得K值。

通过自然邻居搜索算法可以得出，自然邻居特征值实际上是数据集中所有样本点的自然邻居数量NB的平均值，由于数据分布可能存在左偏分布或者右偏分布，这种情况下平均值均比数据中位数和众数小，不具有代表性。因此本实施例中，K值为所有样本点的自然邻居数量的上四分位数和最大值的平均值，则K值始终大于或者等于自然邻居数量的平均值。

本实施例中，根据步骤S1获得的自然邻居数量集合记为NB＝{s1,s2,s3,…,sn}，sn是表示第n个数据点的自然邻居数量，并将集合中数据按有小到大的顺序进行排列，从而计算出集合NB中的四分位数排列，记为：

Q(Dsupk)＝[Q1,Q2,Q3,Q4]，Q1表示下四分位数，Q2表示是中位数，Q3表示上四分位数，Q4表示最大值，K值为Q3和Q4和的平均值：

步骤S3：根据步骤S2得到的k值获取每个样本点的最近邻集合。

本实施例中，任意样本点u∈D，计算样本点u与其它样本点v的欧式距离d(u,v)，并将计算得到的欧式距离值按照从小到大的规则进行排序，并选取前k个欧式距离值对应的样本点作为样本点u的最近邻集合，记为N(u)。

欧式距离d(u,v)的计算公式为：

公式(1)中，(x_u,y_u)为样本点u的坐标，(x_V,y_v)为样本点v的坐标。

本实施例中，任意样本点u，v∈D，对于样本点u，如果u∈N(v)∧v∈N(u)，则u与v互为最近邻，记为共享近邻，SNK(u)表示样本点u的共享近邻的集合。

步骤S4：计算样本点的相对近邻核密度。

本实施例中，样本点u，v∈D，u的近邻核密度记为ρ(u)，则

公式(2)中，θ表示正则化系数，N(u)表示样本点u的最近邻集合，d(u,v)表示样本点u和样本点v的欧式距离，σ表示样本点u与其最近邻集合N(u)中所有样本点的欧式距离的平均距离，dk(u)表示样本点u与其最近邻集合N(u)中任一样本点的欧式距离，|N_u|表示集合N(u)的样本点个数。

因近邻核密度ρ(u)只考虑了样本点和其最近邻集合的样本点之间的距离关系，在全数据集D中进行计算时，因为稀疏簇中样本点之间的距离较大，计算出的近邻核密度ρ(u)相对较小，数据点稀疏的簇会被误认为噪声点，在聚类过程中不能识别出来，因而不能正确分类；而相对近邻核密度ρ^*(u)是将近邻核密度ρ(u)除以样本点u的近邻点v的近邻核密度值的最大值max(ρ(v))获得的，其意义是将计算出的近邻核密度值在近邻范围内进行缩放，通过这个比例缩放，即使在稀疏簇中也能计算出相对密度较高的点，可以对稀疏簇进行分类。

本实施例中,本发明采用样本点u的相对近邻核密度记为ρ^*(u)来表示样本点u的密度值：

公式(3)中，v表示样本点u的最近邻集合N(u)中的任一样本点，ρ(v)表示样本点v的近邻核密度，公式的意义是将计算出的样本点u的近邻核密度值ρ(u)在近邻范围内进行缩放，以在稀疏簇中计算出相对密度较高的点，用于对稀疏簇进行分类。

本实施例中，定义数据集D＝{u₁,u₂,…,u_n},其中u_n∈D，u_n表示第n个样本点，并将数据集D中所有样本点密度值按从小到大的顺序进行排列，得到密度值集合Dρ：Dρ＝{ρ^*(u₁),ρ^*(u₂),…,ρ^*(u_n)}。

步骤S5：对数据集中样本点进行分类。

S5-1：计算密度值集合中样本点密度值的平均值mean_Dρ：

N表示密度值集合Dρ中样本点密度值的总个数。

S5-2：根据密度值对样本点进行分类。

本实施例中，将密度值集合Dρ中样本点密度值大于或等于mean_Dρ相对应的样本点划分为高密度点集合DH；将密度值集合Dρ中样本点密度值小于mean_Dρ相对应的样本点划分为低密度点集合DL。

步骤S6：将低密度点分配给高密度点，得到第一簇集合。

本实施例中，以高密度点集合DH中样本点u作为核心点，遍历高密度点u的共享近邻集合SNK(u)，且共享近邻集合SNK(u)的样本点v∈DL，则将高密度点u和低密度点v之间的连线作为无向图GK的边，同理可将其它低密度点和高密度点u进行连线，得到簇c_u。以此类推，每个高密度点拥有相对应的簇，从而得到第一簇集合C，C＝{c₁，c₂，…，c_m}，c_m表示第m个高密度点的子簇。

如图2所示，A，B两点为高密度点，C、D、F、E、G、H为低密度点，其中C、D、F三点和A点互为最近K近邻(例如k＝3)，则构造低密度点(C、D、F)和高密度点(A)之间的连线作为无向图Gk的边(AC,AD,AF)，同理，E、G、H三点和B点互为最近邻，则构造低密度点(E、G、H)和高密度点(B)之间的连线作为无向图的边(BE,BG,BH)；本实施例中形成了以A点和B点为核心的联通分支,每个连通分支为一个簇，记为子簇c_m，则c_A＝{A,C,D,F},c_B＝{B,E,G,H}；遍历所有的高密度点集合DH以及相对应最近K近邻中的低密度点，将高密度点和低密度点进行连线，完成无向图Gk的构造，则最后无向图Gk中的所有联通分支即为第一簇集合C。

步骤S7：通过对第一簇集合的再次划分得到第二簇集合。

本实施例中，数据集D中每个样本点都有相应的共享近邻集合，即第一簇集合C中每个簇中的低密度点会有相应的共享近邻样本点在另一个簇，则该低密度点为簇的边界点，从而得到每个簇的边界点集合bound_poin(c)，边界点个数记为Nbp(即每个簇的边界点个数)。例如第一子簇c₁中的一个样本点u的共享近邻样本点v属于第一子簇c₂，则样本点u记为第一子簇c₁的一个边界点，相对应的样本点v记为第一子簇c₂的边界点，即样本点u和v互为边界点，可描述为：u∈c₁，v∈c₂，c₁,c₂∈C，且v∈SNK(u)，则u∈bound_point(c₁)，v∈bound_point(c₂)。

本实施例中，若Nbp≥K/2，则将互为边界点个数最多的簇进行合并，直到合并后的簇的边界点的个数不再发生变化，从而得到第二簇集合C^α；Nbp＜K/2，则不再进行第一簇集合的划分。若例如第一簇集合C＝{c₁，c₂，c₃，c₄，c₅}，第一子簇c₁、c₂、c₃、c₄、c₅中的边界点个数分别为6、4、3、4、2，若第一子簇c₁和c₂中互为样本点的个数为3个且第一子簇c₁与c₂、c₃、c₄、c₅中互为样本点的个数小于3个，则将第一子簇c₁和c₂进行聚类合并，得到第二子簇C^α ₁。

步骤S8：分配剩余样本点得到第三簇集合。

本实施例中，数据集D中的样本点经过二次聚类，得到第二簇集合C^α，但并不是所有的样本点都在第二簇集合C^α中，未在第二簇集合C^α中的样本点为剩余样本点。剩余样本点根据共享近邻进行分配，即剩余样本点的共享近邻样本点在任一第二子簇中数量最多，则将剩余样本点分配到相对应的第二子簇，从而完成数据集D中所有样本点的聚类，得到第三簇集合。例如剩余样本点i的共享近邻样本点有5个，且共享近邻样本点分别属于第二子簇C^α ₁和第二子簇C^α ₂，数量分别为4个和1个，则将剩余样本点i分配到第二子簇C^α ₁。

Claims

1.一种基于密度的层次聚类方法，其特征在于，包括以下几个步骤：

S1：计算数据集中每个样本点的自然邻居数量；

S2：根据样本点的自然邻居数量计算K值；

S3：根据k值获取每个样本点的最近邻集合；

S4：计算样本点的相对近邻核密度，得到密度值集合；

S7：将第一子簇进行合并得到第二簇集合；

S8：将剩余样本点分配到第二簇集合，得到第三簇集合。

2.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S2中，自然邻居数量集合记为NB＝{s1，s2，s3，…，sn}，sn表示第n个数据点的自然邻居数量，计算出集合NB中的四分位数排列，记为：Q(Dsupk)＝[Q1，Q2，Q3，Q4]，Q1表示下四分位数，Q2表示是中位数，Q3表示上四分位数，Q4表示最大值，则

3.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S3中，所述样本点的最近邻集合获取方法为：计算数据集中任一样本点u与其它样本点之间的欧式距离，并将所得欧式距离按从小到大的顺序进行排列，选取前k个欧式距离值对应的样本点从而得到样本点u的最近邻集合N(u)。

4.如权利要求3所述的一种基于密度的层次聚类方法，其特征在于，所述欧式距离的计算公式为：

公式(1)中，d(u，v)表示样本点u和v之间的欧式距离，(x_u，y_u)表示样本点u的空间坐标，(x_v，y_v)表示样本点v的空间坐标。

5.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S4中，所述相对近邻核密度计算公式为：

公式(2)中，ρ^*(u)表示样本点u的相对近邻核密度，用于表示样本点u的密度值，v表示样本点u的最近邻集合N(u)中的任一样本点，ρ(v)表示样本点v的近邻核密度，公式的意义是将计算出的样本点u的近邻核密度ρ(u)在近邻范围内进行缩放，以在稀疏簇中计算出相对密度较高的点，用于对稀疏簇进行分类；

公式(3)中，ρ(u)表示样本点u的近邻核密度，θ表示正则化系数，N(u)表示样本点u的最近邻集合，d(u，v)表示样本点u和样本点v的欧式距离，σ表示样本点u与其最近邻集合中N(u)中所有样本点的欧式距离的平均距离，dk(u)表示样本点u与其最近邻集合N(u)中任一样本点的欧式距离，|N_u|表示集合N(u)的样本点个数。

6.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S5包括以下步骤：

S5-2：根据相对近邻核密度对样本点进行分类：

7.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S6包括以下步骤：

以高密度点集合DH中样本点u作为核心点，遍历高密度点u的共享近邻集合SNK(u)，共享近邻集合SNK(u)的样本点v∈DL，则将高密度点u和低密度点v之间的连线作为无向图GK的边，得到第一子簇；每个高密度点拥有相对应的第一子簇，经过第一次聚类从而得到第一簇集合C，C＝{c₁，c₂，...，c_m}，c_m表示第m个高密度点的第一子簇。

8.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S7中，所述第一子簇合并方法为：

9.如权利要求1所述的一种基于密度的层次聚类方法，其特征在于，所述步骤S8中，剩余样本点分配到第二簇集合方法为：