CN108897820B

CN108897820B - 一种denclue算法的并行化方法

Info

Publication number: CN108897820B
Application number: CN201810641090.0A
Authority: CN
Inventors: 罗光春; 陈爱国; 段贵多; 赵太银; 李尧
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2022-03-15
Anticipated expiration: 2038-06-21
Also published as: CN108897820A

Abstract

本发明提出一种DENCLUE算法的并行化方法，可以用于大规模数据聚类分析的环境中，通过改进DENCLUE算法的并行化聚类方法，相比传统的集中式执行方法，本发明达到了更快的数据处理速度。此方法主要包括以下步骤：步骤1：划分原始数据；步骤2：并行建立数据空间中网格关联映射；步骤3：生成全局网格关联映射，步骤4：并行挖掘聚。该DENCLUE算法的并行化方法有效提高了数据划分速度以及最终聚类速度，使算法的执行速度得到提升。

Description

一种DENCLUE算法的并行化方法

技术领域

本发明属于数据聚类算法领域，具体涉及一种DENCLUE算法的并行化方法。

背景技术

随着相关技术的快速发展，系统和软件功能不断完善增强，运行时所采集的如日志记录、监控数据等信息逐步向着高维度、海量增长发展。重要问题则在于如何发现隐藏于这些数据中有价值的信息。

数据挖掘是发现数据内在规律，提取关键信息的重要手段。聚类作为一类重要的数据挖掘技术，将数据按照相似度分类，使得同一类中的数据相似度较高，而类之间数据的相似度较低。

DENCLUE算法是由Alexander Hinneburg等人在1998年提出的一种致力于发现局部极值的密度聚类方法，可以用于发现球状或任意形状的聚类，对于高噪声的数据集也能正常处理。该算法组织灵活、效率明显高于传统密度聚类算法。其基本思想是每个数据点对其邻域造成的影响可以以一种影响函数来表示，所有点的影响函数之和被称为全局密度函数。DEN CLUE算法的密度函数中存在若干局部极大值点，被称为密度吸引子。每个数据点都被附近某个密度吸引子所吸引。找到所有密度吸引子，建立密度吸引子之间的连接关系从而形成聚类。

DENCLUE算法是一种单机算法，在原始数据映射和密度吸引子计算的过程涉及大量计算，且需要将中间结果保存在内存中。当处理高维的海量数据集时，非并行的执行方式使得计算速度缓慢，甚至可能产生内存溢出的风险。因此原始的DENCLUE算法难以适应大规模数据的聚类分析场景。

发明内容

为了使原始DENCLUE算法适应大规模数据聚类的要求，本发明提出了一种多计算节点上并行聚类的方法。

本发明的DENCLUE算法的并行化方法，包括如下步骤：

S1：划分原始数据。利用简单随机抽样将原始数据划分为与节点数对应的多个数据分块。具体包括步骤：

S11：使用简单随机抽样方法，将原始数据集平均切分后交由各节点进行简单随机抽样。

S12：由S11得到的简单抽样结果形成各节点使用的数据分块。

S2：并行建立网格关联映射。各节点并行处理数据分块，初始化网格关联映射，并持续更新网格直到数据处理完毕。具体包括步骤：

S21：确定聚类算法所使用的输入参数。

S22：在各节点上初始化记录网格统计信息的关联映射map。

S23：处理数据分块中的每一个数据点，同时更新关联映射map。

S3：生成全局网格关联映射。合并所有计算节点在S2生成的关联映射，形成全局网格关联映射；将所有网格划分为多个独立的子集，为下一阶段并行聚类作数据准备。具体包括步骤：

S31：中心节点汇总所有节点生成的map，合并为全局关联映射，并将内部数据点数量达到阈值的网格标记为稠密网格。

S32：由网格之间的距离关系形成一系列以稠密网格为核心的局部区域。

S33：多个局部区域合并形成联合区域，保证联合区域之间相互独立，使聚类过程可以并行执行在各联合区域上。

S4：并行挖掘聚类。将S3得到的各独立子集分发到计算节点进行并行聚类挖掘，最后合并得到最终聚类结果。具体包括步骤：

S41：联合区域数据分发到各并行节点。

S42：在节点上启动迭代爬坡算法，找到所有数据点对应的密度吸引子。

S43：合并满足条件的密度吸引子，将被合并的密度吸引子标记为同属一个类簇。

S44：汇总各节点得到的聚类结果，得到最终聚类结果。

附图说明

图1为本发明的并行聚类算法的整体框架图。

图2为本发明的数据映射和网格划分流程示意图。

图3为本发明的并行化DENCLUE算法本地执行流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的整体流程架构如图1所示，步骤S1～S3表示的数据映射和网格划分流程图如图2所示。

S1：划分原始数据，按照计算节点数量将原始数据划分为同等个数的数据分块。

S11：根据计算节点的数量n，从起始位置开始将原始数据集顺序平均划分为n个子数据集，以subseti的形式发往各节点进行简单抽样，每次抽样生成[i,data]形式的二元组，其中i为1到n的随机编号，data是一次抽样得到的数据。

S12：汇总节点将S11得到的各二元组按照编号分类，并将相同编号下的所有数据合并为一个数据分块发送到对应编号的计算节点。

S2：并行建立数据空间中网格关联映射。计算节点将得到的数据分块中所有数据映射到空间网格内，并维护记录网格的关联映射。

S21：聚类参数的确定。根据原始数据集的基本情况确定影响值σ、密度阈值ξ、稠密网格阈值ξ_c。σ用于表示数据之间的关联程度大小。ξ反映数据集的噪声水平，应根据噪声数据的平均密度决定该值。ξ_c是一个由用户指定的正整数值，包含点数量不小于ξ_c的网格被认为是稠密的。

S22：初始化网格关联映射。原始数据被划分为若干以2σ为边长的d维网格，并使用c作为单个此类网格的一般表示形式。每个计算节点各自初始化一个被称为关联映射的哈希映射map，包含＜key,c＞形式的键值对，其键key是一个d维网格在数据空间指定位置的投影值，参数c是一个二元数组，用于表征键key指代的网格，其中参数c包括映射到当前网格的数据点数量N_c，以及所述数据点的特征向量在各个维度上的线性和sum＝∑_X∈cX，其中X是c中某一数据点x对应的特征向量。

S23：更新关联映射map。该步骤将一个原始数据分块转换为一个记录了若干网格信息的map，各数据点的信息被融合到对应的网格内。

节点从各自的数据分块中一个数据点x对应的特征向量X，通过映射函数project(X)得到x所属网格的空间投影值key，即key＝project(x)；

其中

参数j从d到1取值，X_j表示当前特征向量X在第j维上的值，l_j是数据集在第j维上的最大与最小可能取值的差值，l₀＝1。

搜索map，如果key不存在于map中，则更新键key指代的网格的参数c，再将键值对＜key,c＞加入所述关联映射map中，所述参数c的更新包括：更新数据点数量：N_c＝N_c+1，以及线性和sum＝sum+X，其中N_c、sum的初始值均为0；

同时，新建键值对＜key,c＞并将其加入map中。从而使得记入map中的网格的数据点数量N_c不小于1，即计算节点仅记录有效网格。

重复步骤S23直到所有数据点处理完毕。

S3：全局网格关联映射合并与区域划分。首先合并各计算节点在S2生成的关联映射map，然后将所有网格划分为若干相互独立的联合区域。

S31：合并各局部关联映射。随机选择一个计算节点作为中心节点接收各计算节点在步骤S2中生成的map。

将具有相同key的k个键值对＜key,c_i＞中的参数c_i进行合并，合并方式为数据点数量

线性和

其中i为k个键key相同的网格区分符，

表示参数c_i的数据点数量，sum_i表示映射到参数c_i的数据点的特征向量在d个维度上的线性和。合并完成后计算网格的均值mean(c)＝sum/N_c。最终得到网格集合C_p，并将N_c≥ξ_c的网格加入稠密网格集合C_pp。

S32：生成以稠密网格c_j为中心，自身中心点与c_j的中心距离不超过4σ的所有有效网格共同构成的局部区域

数据空间中一组有效网格，经过该步骤处理后生成若干以稠密网格为核心的类似超球体的局部区域，这些局部区域可能有部分重叠或完全不相交。

本具体实施方式中，获取局部区域

具体实现过程如下：

遍历全局map中每个键值对＜key,c＞，若N_c≥ξ_c则c为稠密网格。

对于稠密网格c₁与c₂，若满足距离关系d(mean(c₁),mean(c₂))≤4σ，则记为conn(c₁,c₂)，即表示两个稠密网格c₁与c₂存在连接关系。

然后，结合近邻判断函数，使用下式得到以稠密网格c_j为中心的网格集合

所代表的局部区域。

S33：生成多个局部区域组成的联合区域C_s2。

局部区域可以看作多个网格的聚合，联合区域则可看作多个局部区域的聚合；不同之处在于局部区域之间可能产生重叠，而联合区域之间必定是相互独立的。根据密度吸引子挖掘时涉及的局部范围大小及其相互合并的条件，构建若干个相互独立的联合区域，即任意一个类簇都不会跨越两个或以上的联合区域，因此各联合区域之间的聚类可以并行执行。

其中，一个C_s2应同时满足下述三个条件：

(1)C_s2包含一个或以上的稠密网格c_i以及与它们的邻域集合

(2)对任意稠密网格c_i,c_j∈C_s2，满足d(mean(c₁),mean(c₂))≤13σ；或存在一条由局部区域构成的链路

对于链路中任意

存在

满足d(mean(c_k),mean(c_k+1))≤13σ；

(3)对于任意稠密网格c_i∈C_s2与任意c_j∈C_pp-C_s2，均不满足d(mean(c_i),mean(c_j))≤13σ。

例如，假设稠密网格c_i、c_j的均值点恰好位于网格中心，两个网格分别属于局部区域

且均处于局部区域最边缘位置，即与中心稠密网格的距离为4σ。若c_j还同时属于

则当c_i与c_j的距离最大，即d(mean(c_i),mean(c_j))＝8σ时，

与

恰如两个相切的超球体，

共同构成的区域中相距最远的两个网格平均距离为12σ。因此局部区域联合的阈值不应低于12σ，而本发明优选的阈值设置为13σ。

S4：并行挖掘聚类。将S33得到的若干个联合区域C_s2(密集网格子集)分发到计算节点进行并行聚类挖掘，最后合并得到最终聚类结果。步骤S4的流程图如图3所示。

S41：网格子集C_s2分发到计算节点。由于各个C_s2子集之间没有重叠且保证其内部的类簇是完整的，因此将各密集网格子集C_s2分发到各计算节点进行聚类挖掘。

S42：在网格子集C_s2上挖掘聚类。首先计算密度吸引子，再由密度吸引子的合并得到聚类。

其中，计算密度吸引子的方式可类比为一个爬坡过程：在许多数据点的影响函数叠加而形成的密度函数场中，从某点出发逐步逼近其附近的极大值点，当迭代路径上密度函数值由上升变为下降趋势时，即表示密度吸引子被找到。对于数据空间内的任意点x∈c，以高斯函数作为影响函数，其全局密度函数以下式表示。

其中N为全部数据点的数量，x_i为数据集中第i个点。实际计算密度函数时，在

d(x,mean(c))≤4σ范围之外的数据点对密度函数值造成的影响很小，可以被忽略，因此以局部密度函数替代全局密度函数，其中

从C_s2内任意数据点x开始，使用下式迭代计算直到

或密度值几乎不再增加时迭代中止，令参考点

(也可以令

)，将参考点

设置为任意数据点x的密度吸引子，标记为x^*。

其中x^k是迭代中间点，即第k次迭代所对应的点(迭代点)，

是点x^k处的局部密度函数，

是密度函数在点xⁱ处的梯度，δ是迭代步长。

在迭代过程中，靠近迭代点x^k的数据点通常与其拥有相同的密度吸引子，因此将x^k附近σ/2范围内的数据点的密度吸引子也标记为x^*。从而避免对该σ/2范围内的数据点的密度吸引子的迭代查找处理。

重复步骤S42，直到找到C_s2内每个点的密度吸引子，并由所有密度吸引子得到密度吸引子集合X。

例如，要寻找数据点x₀的密度吸引子，首先得到x₀的近邻点集合near(x₀)，并以x₀为起点利用迭代式寻找下一个点x^k，计算x^k处的密度函数值

当

的值小于

时，将x^k-1设置为x₀的密度吸引子，同时记录下x^k-1附近σ/2范围内的数据点，设置这些数据点的密度吸引子为x^k-1。

S43：合并密度吸引子。将S42得到的密度吸引子集合X中的各x^*进行合并得到类簇，若某个x^*无法与其它吸引子合并，则将其所包含的数据被标记为噪声。

满足下列要求的吸引子将被合并：

(1)对于引力点

和

若

且

到

路径上中间点x_m满足

则

与

可以直接合并；

(2)对于引力点

和

存在一条引力点构成的路径

若

则

和

可以被间接合并，且对于任意

和

满足直接合并的条件，即路径P上的任意两个相邻点满足直接合并条件。

对合并得到的每个类簇，赋予一个全局唯一的编号，以＜CID_i,list(data)＞的形式记录下来。

S44：得到最终聚类结果。中心节点汇总各个计算节点得到的＜CID_i,list(data)＞，直接合并后即得到最终聚类结果。

综上所述，本发明所提供的一种DENCLUE算法的并行化方法，能有效提升算法的执行速度。通过改进DENCLUE算法，采用二阶段并行化聚类方法，相比传统的集中式执行方法，本发明有效提高了数据划分速度以及最终聚类速度，使算法的执行速度得到提升，更适用于大规模数据聚类分析的环境中。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read Only Memory，简称：ROM)、随机存取器(英文：Rando m Access Memory，简称：RAM)、磁盘或光盘等。

以上所述仅为本发明的实施例而己，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种用于大数据处理的DENCLUE算法的并行化方法，其特征在于，所述并行化方法包括以下步骤：

S1)按照计算节点数量将原始数据划分为同等个数的数据分块；

S2)各计算节点将所述数据分块分别映射到空间网格，并维护记录所述空间网格的关联映射；

S3)各计算节点合并所述关联映射，并根据合并后的所述关联映射划分为若干相互独立的联合区域；

S4)将所述若干相互独立的联合区域分发到各计算节点进行并行聚类挖掘，最后输出合并得到的最终聚类结果；

其中，所述步骤S1)具体包括以下步骤：

S11)根据计算节点的数量n从起始位置开始将原始数据集顺序平均划分为n个子数据集，并发往各计算节点，基于简单抽样在各计算节点上生成[i,data]形式的二元组，其中i为1到n的随机编号，data是一次抽样得到的数据；

S12)将所述二元组按照所述随机编号分类，将拥有相同随机编号的数据合并为一个数据分块发送到对应编号的计算节点上；

所述步骤S2)具体包括以下步骤：

S21)根据原始数据确定聚类参数，所述聚类参数包括影响值σ、密度阈值ξ和稠密网格阈值ξ_c，其中所述影响值σ用于表示数据之间的关联程度大小；

S22)将原始数据在数据空间中的取值范围划分为若干边长为2σ、维度为d的网格，d对应原始数据的特征向量的维度；

S23)每个计算节点根据各自的数据分块构建记录网格统计信息的哈希映射map：

每个计算节点各自初始化一个哈希映射map，所述哈希映射map为包含<key,c>形式的键值对，其中键key表示一个网格在数据空间指定位置的投影值，参数c是一个二元数组，用于表征键key指代的网格，其中参数c包括映射到当前网格的数据点数量，以及所述数据点的特征向量在各个维度上的线性和；

每个计算节点基于各自的数据分块对所述哈希映射map进行更新：

遍历数据分块中的每个数据点x，计算每个数据点x的空间投影值key：

其中X_j表示数据点x的特征向量X在第j维上的值，l_j是数据集在第j维上的最大与最小可能取值的差值，l₀＝1；

并判断特征向量X所属的网格的空间投影值key是否存在于哈希映射map中，若不存在，则更新键key指代的网格的参数c，再将键值对<key,c>加入所述关联映射map中，所述参数c的更新包括：更新数据点数量：N_c＝N_c+1，线性和sum＝sum+X，其中N_c、sum的初始值均为0；

所述步骤S3)具体包括以下步骤：

S31)随机选择一个计算节点作为中心节点，用于接收各计算节点生成的所述关联映射map；

中心节点对具有相同键key的键值对<key,c_i>中的参数c_i进行合并，得到合并网格c^p，其中下标i为相同键key网格区分符，所述合并网格c^p的数据点数量

线性和sum^p＝∑sum_i，其中

表示参数c_i中的数据点数量，sum_i表示参数c_i中的数据点的特征向量在d个维度上的线性和；

并将

的合并网格c^p加入稠密网格集合C_pp；

S32)生成以每个稠密网格c_j为中心，自身中心点与c_j的中心距离不超过4σ的所有合并网格共同构成的局部区域

S33)对所有局部区域

进行聚类处理，将每一个聚类结果作为一个联合区域C_s2；

所述步骤S4)具体包括以下步骤：

S41)将所有联合区域C_s2分发到各计算节点进行并行挖掘聚类；

S42)各计算节点采用爬坡法搜索每个联合区域C_s2的每个数据点的密度吸引子；

其中爬坡法具体为：在多个数据点的影响函数叠加而形成的密度函数场中，从某点出发逐步逼近其附近的极大值点，当迭代路径上密度函数值由上升变为下降趋势时，即表示密度吸引子被找到；

S43)合并密度吸引子：对步骤S42中得到的每个联合区域C_s2的每个数据点的密度吸引子进行合并得到类簇，对得到的每个类簇，各计算节点为其赋予一个全局唯一的编号；

S44)由所述中心节点汇总各计算节点得到每个带全局唯一编号的类簇，直接合并后即得到最终聚类结果。

2.如权利要求1所述的方法，其特征在于，联合区域C_s2的每个数据点的密度吸引子的具体设置方式为：

获取当前待设置密度吸引子的数据点x的近邻点集合near(x)；

其中

mean()表示网格的均值，d()表示两点的距离，conn()表示当两个网格之间的距离不超过4σ时两个网格存在的连接关系，c表示数据点x所属的网格；

计算上一迭代点x^k-1的密度值

及其密度值梯度

其中迭代次数k的初始值为1，x⁰＝x，密度函数

e表示自然底数；

迭代计算当前迭代点

其中，δ表示预设迭代步长；

判断是否满足迭代收敛条件，若否，则令迭代次数自增1后，继续迭代计算当前迭代点；否则，将最近两次迭代更新点中的任意一个点记为密度吸引子x^*，设置迭代起始点x的密度吸引子为x^*；

再将x^*附近σ/2范围内关联邻居点的密度吸引子设置为x^*。

3.如权利要求2所述的方法，其特征在于，步骤S43)中，仅对满足合并条件的密度吸引子进行合并；

其中，合并条件包括直接合并条件和间接合并条件：

(1)对于任意两个密度吸引子

和

若

且

到

路径上的中间点x_m满足

则

和

的满足直接合并条件；

(2)若存在一条若干由密度吸引子构成的路径

且

则

和

的满足间接合并条件；而路径P上的任意两个相邻点满足直接合并条件。