CN110210517A

CN110210517A - 一种基于密度的多层分步聚类方法

Info

Publication number: CN110210517A
Application number: CN201910378047.4A
Authority: CN
Inventors: 董明刚; 吴宇伦; 敬超
Original assignee: Guilin University of Technology
Current assignee: Guilin University of Technology
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-09-06

Abstract

本发明是根据普通的基于密度聚类算法提出的一种新的适用于数据分布非常不均匀，集群间密度差异大的聚类方法。该算法将每一个数据点当成一个节点，将每个点之间的距离看成是图的边，将数据集看成一个全连通的无向加权图。算法中通过一种新的密度定义方式，定义每个数据点的密度已经所有数据点的平均密度。在现有的基于密度的聚类方法中存在一些常见的缺陷和不足：算法必须设置参数、算法的行为对起始对象的密度很敏感、相邻簇如果密度差异大则不能很好的进行区分，本发明提出的方法只需要一个给定的参数，在聚类的过程中遍历的初始对象的密度对算法的结果基本上没什么影响，并且该算法可以区分任意形状、任意密度、分布哪怕十分不均匀的相邻簇。

Description

一种基于密度的多层分步聚类方法

技术领域

本发明属于机器学习中无监督学习方面聚类技术的领域，具体是一种基于密度的多层分步聚类方法。

背景技术

通过聚类，人们可以识别出密集区域和稀疏区域，并且发现全局分布模式和数据属性之间有趣的关系聚类分析可以作为一种独立的工具来获取数据分布，观察每个聚类的特征，重点分析特定的聚类。例如在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上以作进一步的分析；并且，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。但是随着科学技术的不断发展，人们从生活中获取到的信息也变得越来越多样化，面对十分庞大并且复杂的数据，想要把它们合理地分类就变成一件麻烦的事情，相邻密度不平衡数据集的聚类的精确率一直一来都是亟待提高的，所谓密度不平衡的数据集指的是在同一个数据集中，不同的两个相邻的簇密度差异很大，在目前流行的算法中，基本没有一个可以很好的处理这一类的数据集。

发明内容

针对在聚类中可能出现的相邻密度不平衡数据的数据集、在聚类过程中对起始数据点密度敏感等问题，提出了一种分层次的聚类方式已经一种新的密度定义方法，去解决以上聚类问题。

本发明的技术方案：

针对以上问题，本发明提出相应的解决方式，首先，分层聚类的目的就是解决相邻或不相邻的簇的密度差异问题，本方法的聚类过程是自顶向下，自大到小的方向，在密度差异的簇存在时，无论从那个数据点开始遍历，真正开始聚类过程的点一定是一个密度大于平均密度的数据点。如果数据集本身所有簇的密度没有差异或者差异很小，那么密度大于平均点的节点一定处于簇的核心部分，通过这个对比就能很容易的区分核心点和边界点。而另一种情况，不同的簇之间有较大的密度差异，则一个密度大于平均密度的数据点肯定是处于大密度簇中的一部分，所以聚类的步骤必然是从先分配大密度簇开始。这样就很好的避免了将相邻差异密度的簇错误分类的情况，尤其是边界部分。

基于密度的多层分步聚类方法，其特征包括以下步骤：

步骤1，对于由n个待聚类j维数据:

X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点，然后计算每两个节点之间的距离(欧氏距离)，定义为相应节点之间的边的权值。这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E)。

步骤2，通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度。

步骤3，计算当前数据点的密度。

步骤4，对比当前数据点的密度和平均密度，如果大于平均密度，则以该点为一个核心，向它周围的K个邻居遍历。如果邻居的密度也大于平均密度，则将其邻居也看做核心点，置于核心点的列队中。如果密度小于平均密度，则暂时将其看做噪声或是离群点，暂时不予处理。

步骤5，遍历步骤4中的核心点队列，重复步骤4中的算法，遍历到一个点的时候就将该点从队列中去除，直到一个队列的长度为0。至此一个簇的核心部分已经被侦测出来。

步骤6，通过密度相似度来判定簇的核心部分周围的数据点是否属于簇的一部分，如果相似度大于一个阈值，则将该点视为簇的边界点。小于阈值的视为噪点。

步骤7，重复步骤3-6，直到所有大于平均密度的点以及其周围的点都已经被分配完毕。这个时候有两种情况，一种是所有的簇都已经被发现，剩下未被分配的点全都视为噪点，另一种是该数据集是密度不均匀的数据集，有一些簇的密度很大，而有一些簇的密度很小。

步骤8，统计已经被分配的簇，计算每个已被分配簇的平均数据量，例如当前有a个簇已经被发现，并且当前有m个数据点已经被分配。则每个簇的平均数据量为ap＝m/a.

步骤9,若当前剩余的数据量大于簇的平均数据量的二分之一，即：

n–m>＝ap/2,则视为还有密度较小的簇未被发现，删除已经被成功分配的所有节点，对剩余未分配的数据点重新生成全连通的无向加权图，重复步骤2-8，直到n–m<ap/2.至此，所有数据点都已经被分配完毕。

附图说明

图1是本发明实施例的具体步骤流程图。

图2是通过图片展示聚类的结果。

图3是所有点的分配结果。

具体实施方式：

下面将结合附图和具体实施例对本发明作进一步详细描述。

图1为本发明在对一个实例数据集聚类过程的流程图。

结合实例包括以下步骤：

步骤一，对数据进行处理将数据集转化成一个全连通的无线加权图，这里用的数据集是取自UCI数据集，该数据集是一个二维数据集，有两个属性，总共有398个数据点，同时它是一个典型的相邻簇具有不同的密度、不同形状，分布不均匀的数据集，并且密度不均匀的部分是重叠的，这更是加大了聚类的难度。

步骤二，通过密度计算得出该数据集的平均密度。

步骤三，随机选择一个节点开始遍历，得出该点的密度大于平均密度，将其视为第一个簇的核心点，将它和它的K个邻居也加入到当前簇的核心点队列当中。

步骤四，遍历第一个簇的核心点队列重复第三步，直到队列的长度为0，这时候第一个簇的核心点都已经探索完毕，对其周围的点通过相似度的方式进行判定是否属于该簇。

步骤五，完成三、四两个步骤之后，核心点平均密度大于数据集平均密度的所有簇都已经被发现，这时发现有大于二分之一的簇平均数量的点还未被分配，他们的密度相对来说都很小。于是删除已经被成功聚类的数据节点。

步骤六，重复第二步，重新计算出未被分配的所有点的平均密度，重复第三步和第四步，经过一次遍历之后发现所有的点都已经被分配完毕，分类结果如图3所示。

步骤七，完成聚类。

Claims

1.一种基于密度的多层分步聚类方法，其特征在于包括以下步骤：

步骤1，对于由n个待聚类j维数据:

X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点，然后计算每两个节点之间的距离(欧氏距离)，定义为相应节点之间的边的权值，这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E)；

步骤2，通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度；

步骤3，随机选取一个数据点开始遍历所有数据，计算当前数据点的密度；

步骤4，对比当前数据点的密度和平均密度，如果大于平均密度，则以该点为一个核心，向它周围的K个邻居遍历，如果邻居的密度也大于平均密度，则将其邻居也看做核心点，置于核心点的列队中，如果密度小于平均密度，则暂时将其看做噪声或是离群点，暂时不予处理；

步骤5，遍历步骤4中的核心点队列，重复步骤4中的算法，遍历到一个点的时候就将该点从队列中去除，直到一个队列的长度为0，至此一个簇的核心部分已经被侦测出来；

步骤6，通过密度相似度来判定簇的核心部分周围的数据点是否属于簇的一部分，如果相似度大于一个阈值，则将该点视为簇的边界点，小于阈值的视为噪点；

步骤7，重复步骤3-6，直到所有大于平均密度的点以及其周围的点都已经被分配完毕，这个时候有两种情况，一种是所有的簇都已经被发现，剩下未被分配的点全都视为噪点，另一种是该数据集是密度不均匀的数据集，有一些簇的密度很大，而有一些簇的密度很小；

步骤8，统计已经被分配的簇，计算每个已被分配簇的平均数据量，例如当前有a个簇已经被发现，并且当前有m个数据点已经被分配，则每个簇的平均数据量为ap＝m/a；

步骤9,若当前剩余的数据量大于簇的平均数据量的二分之一，即：n–m>＝ap/2,则视为还有密度较小的簇未被发现，重复步骤3-8，直到n–m<ap/2.至此，所有数据点都已经被分配完毕。