CN111582326A

CN111582326A - 一种密度峰值聚类算法的簇中心的选取方法以及设备

Info

Publication number: CN111582326A
Application number: CN202010320343.1A
Authority: CN
Inventors: 丁林; 徐蔚鸿; 陈沅涛
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-25

Abstract

本发明公开了一种密度峰值聚类算法的簇中心的选取方法以及设备，本方法首先选取多个截断距离，并根据多组截断距离计算出对应的多组簇中心，然后为选定的簇中心执行邻近簇迭代合并过程，使簇数量逐渐接近真实值，当合并后的簇数量不变，则以选定的簇中心作为最终的簇中心，当合并后的簇数量发生变化，则以合并后簇数量对应的簇中心作为新选定的簇中心，再进行合并迭代，直至合并后的簇数量不变，本方法无需人工选取簇中心，能够实现同时自动合适的簇中心。

Description

一种密度峰值聚类算法的簇中心的选取方法以及设备

技术领域

本发明涉及聚类算法技术领域，特别涉及一种密度峰值聚类算法的簇中心的选取方法以及设备。

背景技术

聚类算法作为一种无监督学习，在数据集先验参数不足时，仍可将数据集划分为若干簇，因此被广泛应用于图像分割、生物信息、模式识别、信息检索、数据挖掘等领域。

经典的聚类算法主要有基于划分的K-means、Fuzzy K-means，基于层次的AGNES、BIRCH与CURE，基于密度的DBSCAN与OPTICS，基于网格的STING，基于统计的CMM。其中，基于划分的K-means与Fuzzy K-means对初始聚类中心的选取极其敏感，且需先验地设置簇个数K；基于层次的聚类算法不仅需要预先确定数据集中簇个数K，而且对簇间距离度量公式的选择十分敏感；基于密度的DBSCAN、OPTICS以及基于网格的聚类算法，自动确定簇个数但均需对预设参数epsilon和minpts进行大量调整，以获取较优聚类结果，且这两类算法在簇边界处生成噪声；基于统计的CMM需选取一个或多个合适的概率模型以拟合数据集。

2014年发表在《Science》中的密度峰值聚类算法，通过确定合适阈值(截断距离，简称为dc)，人工选取各簇中心，对比传统聚类算法具有高效查找聚类中心、参数少、无迭代、边界无噪声等优点，而被广泛应用于图像识别、计算机视觉、文本挖掘等领域。但目前密度峰值聚类算法的簇中心主要是通过人工选取，人工选取簇中心无法满足时效性要求高的真实系统，而且簇真实数量较大时，人工选取簇中心操作困难。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种密度峰值聚类算法的簇中心的选取方法，包括以下步骤：

S100、计算n个元素之间的距离，以设定阈值为间隔按序选取出n个dc；

S200、根据所述n个dc获取对应的n组簇中心；

S300、在所有dc区间内获取簇中心数非0最小值元素对应的第一dc区间，并从剩余dc区间内获取所有距离小于所述第一dc区间的第二dc区间；

S400、在所述第二dc区间内获取对应的簇中心数最大值元素作为选定的簇中心；

S500、为选定的簇中心分配非中心元素，得到若干簇；

S600、对各簇对进行合并判定，将满足合并条件的簇对合并；

S700、若合并后的簇数量不变，则以选定的簇中心作为最终的簇中心；若合并后的簇数量发生变化，则以合并后的簇数量对应的簇中心作为新选定的簇中心，跳转至步骤S500。

根据本发明的一些实施例，所述对各簇对进行合并判定，将满足合并条件的簇对合并，包括以下步骤：

S601、获取每一簇对之间的无邻簇边界与有邻簇边界，根据所述无邻簇边界和所述有邻簇边界计算每一簇对的合并阈值；

S602、若在每一簇对的所述有邻簇边界中，均存在有密度大于所述合并阈值的元素，则将两簇合并。

根据本发明的一些实施例，所述根据所述n个dc获取对应的n组簇中心，包括以下步骤：

S201、计算所述n个dc对应的n组元素决策值；

S202、计算n组所述元素决策值的均值与标准差之和，将各组的所述元素决策值大于所述均值与标准差之和的元素选作各组的簇中心。

根据本发明的一些实施例，所述计算n个元素之间的距离，包括：

计算n个元素之间的欧式距离，或计算n个元素之间的杰卡德距离，或计算n个元素之间的柯西相似性。

本发明提供了一种密度峰值聚类算法的簇中心的选取设备，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述的一种密度峰值聚类算法的簇中心的选取方法。

本发明提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述的一种密度峰值聚类算法的簇中心的选取方法。

根据本发明的实施例，至少具有如下技术效果：

本实施例提供的方法，首先选取多个截断距离，并根据多个截断距离计算出对应的多组簇中心，然后为选定的簇中心执行邻近簇迭代合并过程，使簇数量逐渐接近真实值，当合并后的簇数量不变，则以选定的簇中心作为最终的簇中心，当合并后的簇数量发生变化，则以合并后簇数量对应的簇中心作为新选定的簇中心，再进行合并迭代过程，直至合并后的簇数量不变，得到最终的簇中心。本方法无需人工选取簇中心，能够实现自动确定合适的簇中心。

本发明还提供了一种密度峰值聚类算法的簇中心的选取设备以及存储介质，实现的有益效果与上述方法的有益效果相同。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种密度峰值聚类算法的簇中心的选取方法的流程示意图；

图2为图1中步骤S200的进一步流程示意图；

图3为图1中步骤S600的进一步流程示意图；

图4为本发明实施例提供的Aggregation数据集的二维分布示意图；

图5为本发明实施例提供的dc与中心个数的关系示意图；

图6为本发明实施例提供的通过本方法选取的Aggregation数据集各簇中心与聚类结果的示意图；

图7为本发明实施例提供的一种密度峰值聚类算法的簇中心的选取设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照图1至图3，本发明的一个实施例，提供了一种密度峰值聚类算法的簇中心的选取方法，包括以下步骤：

其中，计算n个元素之间的距离可以为欧式距离，杰卡德距离或柯西相似性等距离，这里优选欧式距离。具体的，当计算n个元素之间的欧式距离并按升序排列；以设定阈值为间隔选取dc为了防止被选出的n个dc恰好与dc合适取值区间不相交的情况发生。

S200、根据n个dc获取对应的n组簇中心；

本步骤具体包括：

S201、计算n个dc对应的n组元素决策值；

首先通过n个dc计算对应的n组元素局部密度以及n组相对距离，再根据n组元素局部密度以及n组相对距离计算n组簇中心，这里为本领域的公知，不再细述。

S202、计算n组元素决策值的均值与标准差之和，将各组的元素决策值大于均值与标准差之和的元素选作各组的簇中心。

当然的，目前还可以通过n组相对距离计算各组的簇中心，这里属于本领域公知，不再细述。

S300、在所有dc区间内获取簇中心数非0最小值元素对应的第一dc区间，并从剩余dc区间内获取所有距离小于第一dc区间的第二dc区间；

S400、在第二dc区间内获取对应的簇中心数最大值元素作为选定的簇中心；

需要说明的是：步骤S300和S400先找到簇中心数非0最小值元素对应的第一dc区间，然后以第一dc区间为分界点，可划分为所有距离小于第一dc区间的第二dc区间(左侧区间)和所有距离大于第一dc区间的第三dc区间(右侧区间)。因为，当dc属于合适取值区间时，可选出正确数量的簇中心，但dc若继续增加，元素分布范围较小的簇的中心元素密度增量较小，因而会被误选为非中心元素，而元素分布范围较大的簇中被选出多个中心。如果在第三dc区间(右侧区间)内进行迭代合并过程，由于部分簇的中心未被选中，所以无法合并出合适的结果，因此这里需要在步骤S300和S400中选取出第二dc区间，并在第二dc区间获取对应的簇中心数最大值元素作为选定的簇中心

S500、为选定的簇中心分配非中心元素，得到若干簇；

具体的，非中心元素的分配过程是：将非中心元素分配给密度更大元素中离自身最近的元素，此处为本领域公知，不再细述；

S600、对各簇对进行合并判定，将满足合并条件的簇对合并；

本步骤具体包括：

S601、获取每一簇对之间的无邻簇边界与有邻簇边界，根据无邻簇边界和有邻簇边界计算每一簇对的合并阈值；

S602、若在每一簇对的有邻簇边界中，均存在有密度大于合并阈值的元素，则将两簇合并。

当然的，这里也可以使用层次聚类算法实现簇对合并的过程，但层次聚类算法需要人工确定合适的簇间距离度量公式。对比层次聚类算法或其他簇对合并算法，本实施例提出的无邻簇边界与有邻簇边界实现簇对合并的方法与密度峰值聚类算法的契合度更高，另外合并过程依靠对比边界处元素密度，不需人工选取合适的簇间距离度量公式。

当选取出适合的簇中心后，就能得到对应合适的dc，以及最终的聚类结果，这里为本领域公知，便不再多余细述。

本实施例提供的方法，首先选取多个截断距离(dc)，并根据多组截断距离计算出对应的多组簇中心，然后为选定的簇中心执行邻近簇迭代合并过程，使簇数量逐渐接近真实值，当合并后的簇数量不变，则以选定的簇中心作为最终的簇中心，当合并后的簇数量发生变化，则以合并后簇数量对应的簇中心作为新选定的簇中心，再进行合并迭代，直至合并后的簇数量不变，本方法无需人工选取簇中心，能够实现自动确定合适的簇中心。

为了方便本领域技术人员理解，提供一实施例，为一种密度峰值聚类算法的簇中心的选取方法的具体伪代码过程，如下：

(1)读取数据集，记数据集中的元素数量为n，对数据集中各元素依次标记序号为1至n；

(2)设置边界深度控制因子depth，其取值区间为(0，1]；

(3)计算数据集内各元素间的欧式距离；

(4)构建元素间的欧式距离矩阵；

(5)构建三个初始值全为0的n×n的矩阵，分别记作list(n，n)、S(n，n)、c(n，n)；

(6)将步骤(3)中的距离按照升序排列；

(7)在排列后的距离中，从第一个距离开始，以(0.5n(n-1)/n)的向下取整数为间隔，依次选取n个距离，记做dc^1×n；

(8)分别计算n组dc所对应的n组元素局部密度

计算公式如下：

其中，i＝{1，2，...，n)，t＝{1，2，...，n)。

(9)分别计算n组dc所对应的n组相对距离

计算公式如下：

并且，记录在计算

时，密度大于元素i并且离元素i最近的所有元素的序号，赋值于list(t，i)，同时记录各元素的序号被记录次数S(t，list(t，i))＝+1；

(10)分别计算n组dc所对应的n组元素决策值

计算公式如下：

(11)分别计算n组元素决策值

的均值与标准差之和，记为s.t.sumⁿ；

(12)记录

的元素序号为

其中，N^t表示c^t中元素的个数；

(13)记录N^t中非0最小值所在的dc区间，记为min range；

(14)确定min range左侧剩余区间的左右边界序号，分别记为R0和R1，并在区间[R0，R1]内确定N^t最大值所在dc区间，将N^t最大值所在dc区间中的第一个dc的序号赋值给L0；

(15)将list(t，i)中第L0行存储值所代表的元素分配给存储该序号的单元格序号所对应的元素，且c^L0中元素不分配，则该数据集被分为C＝{C_r|r＝1，2，...，NLO}；

(16)记录在S(t，list(t，i))的第LO行中，值为0的单元格序号为PB＝{PB_r|r＝1，2，...，NL0}，其中，PBr＝{PB∩Cr}，PB表示为无邻簇边界；

(17)分别对各PB_r中元素的密度进行如下计算：

D2(x)＝1-D1(x)-D3(x) (7)

其中，其中x表示PB_r中元素的密度，σ表示PB_r中元素密度的标准差；求PB_r中各元素D1值与D3值差的绝对值，记录差的绝对值最小元素的密度为阈值，记为thre_r；

(18)从步骤(4)的距离矩阵中，读取任意两类C_r(例如C_r1和C_r2，r1≠r2，r1，r2＝{1，2，...，N^L0})中元素的距离作为一数组Q，其中，距离个数为|Q|；将该数组升序排列，第depth_f(depth×|Q|的向下取整数)个距离为thre_depth；

(19)若C_r1和C_r2两异类元素间的距离小于thre_depth，则该距离对应的元素对为C_r1和C_r2的共享边界元素，记作SNB(C_r1，C_r2)；

(20)共享边界元素对中，若存在某一元素对的两元素密度均大于各自类的thre_r，则将两类合并；

(21)合并后类的个数若未变，则输出C＝{C_r|r＝1，2，...，N^L0}为聚类结果，C^L0为类中心，dc^L0为截断距离；若类个数变少，则将合并后类个数赋值给N^L0，将[R0，R1]内N^L0对应的区间中第一个dc的序号赋值给L0，并更新R0＝L0，依次重复步骤(15)至(21)。

参照图4至图6，根据本实施例所述步骤(1)至步骤(21)：

1、按照步骤(1)到(10)计算多组参数；其中depth设置为0.02；

2、根据步骤(11)和(12)选取多组簇中心；

3、根据步骤(13)到(21)进行迭代；如图5，以中心数为4的dc区间，划分整个区间，其左侧为左子区间，右侧为右子区间；在左子区间内，以中心数为16的中心组合为聚类中心，按照步骤(15)所述方法完成非中心元素的聚类，获得16个簇；对16个簇中任意两个簇进行合并判定，中心数变化顺序依次为16、8、7、7，当中心数两次为7时，输出第二个7所对应的聚类结果为最终结果。其中，图4中包含7个簇，一共788个元素，五角标记为簇中心；图5中横坐标为dc值，纵坐标为中心个数；图6为聚类结果，一共7个簇，五角标记为簇中心。

本实施例提供的方法，首先选取多个截断距离，并计算所述多组截断距离对应的多组决策值，在各组中选取决策值大于本组决策值均值与标准差之和的元素为本组簇中心，并统计中心数量，随后提出有邻簇边界与无邻簇边界概念及其查找方法，并给出对比相邻簇边界元素密度的簇合并判定条件，将达到条件的不同簇中心所在的邻近簇合并，最后在所述多组截断距离中迭代执行合并，使簇数量逐渐接近真实值，并确定该值所对应截断距离，以达到同时自动确定合适dc与簇中心的目的，无需人工选取簇中心。

参照图7，本发明实施例还提供了一种密度峰值聚类算法的簇中心的选取设备，该密度峰值聚类算法的簇中心的选取设备可以是任意类型的智能终端，例如手机、平板电脑、个人计算机等。

具体地，该密度峰值聚类算法的簇中心的选取设备包括：一个或多个控制处理器和存储器，图7中以一个控制处理器为例。控制处理器和存储器可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的密度峰值聚类算法的簇中心的选取设备对应的程序指令/模块，控制处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而实现上述方法实施例的一种密度峰值聚类算法的簇中心的选取方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储产生的数据。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于控制处理器远程设置的存储器，这些远程存储器可以通过网络连接至该密度峰值聚类算法的簇中心的选取设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器中，当被一个或者多个控制处理器执行时，执行上述方法实施例中的密度峰值聚类算法的簇中心的选取方法，例如，执行以上描述的图1中的方法步骤S100至S700，或图2中方法步骤S201至步骤S202，或图3中方法步骤S601至S602。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被图7中的一个控制处理器执行，可使得上述一个或多个控制处理器执行上述方法实施例中的密度峰值聚类算法的簇中心的选取方法，例如，执行以上描述的图1中的方法步骤S100至S700，或图2中方法步骤S201至步骤S202，或图3中方法步骤S601至S602。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种密度峰值聚类算法的簇中心的选取方法，其特征在于，包括以下步骤：

S200、根据所述n个dc获取对应的n组簇中心；

S500、为选定的簇中心分配非中心元素，得到若干簇；

S600、对各簇对进行合并判定，将满足合并条件的簇对合并；

2.根据权利要求1所述的一种密度峰值聚类算法的簇中心的选取方法，其特征在于：所述对各簇对进行合并判定，将满足合并条件的簇对合并，包括以下步骤：

3.根据权利要求1所述的一种密度峰值聚类算法的簇中心的选取方法，其特征在于，所述根据所述n个dc获取对应的n组簇中心，包括以下步骤：

S201、计算所述n个dc对应的n组元素决策值；

4.根据权利要求1所述的一种密度峰值聚类算法的簇中心的选取方法，其特征在于：所述计算n个元素之间的距离，包括：

5.一种密度峰值聚类算法的簇中心的选取设备，其特征在于，包括：至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至4任一项所述的一种密度峰值聚类算法的簇中心的选取方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至4任一项所述的一种密度峰值聚类算法的簇中心的选取方法。