CN115438722A

CN115438722A - 一种基于分布式聚类的大数据产品指标聚类方法

Info

Publication number: CN115438722A
Application number: CN202210991449.3A
Authority: CN
Inventors: 陈伟能; 李子星
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-12-06

Abstract

本发明公开了一种基于分布式聚类的大数据产品指标聚类方法，包括以下步骤：每个子节点读取本地的指标数据集，将选出的数据点作为候选的聚类中心点；初始化每个粒子的速度和位置，并计算出每个粒子的适应度；迭代更新粒子的速度和位置；当达到终止条件时，二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点，细化挑选出的候选点；在进行细化之后，随机的从指标数据集中挑选出若干数据点用来补全候选数据集；将细化之后的聚类结果通过网络通信发送至主节点；主节点将接收到的聚类中心点整合为一个数据集，并进行处理后全局聚类结果。

Description

一种基于分布式聚类的大数据产品指标聚类方法

技术领域

本发明涉及分布式粒子群优化和大数据产品指标聚类领域，主要涉及一种基于分布式聚类的大数据产品指标聚类方法。

技术背景

随着大数据时代的到来，各种以处理海量数据存储、计算以及不间断流数据实时计算等场景为主的一系列大数据产品应运而生，其中主要包括Hadoop系列、Spark、Hive、Flink以及Kafka等产品。它们利用计算机集群的存储和计算能力，解决大数据存储分析过程中的各种问题。

一般来说，大数据产品都是通过集群的部署方式来实现其高可用性以及高可扩展性。然而随着大数据产品的普及，如何方便快速的管理这些大数据产品成为了一个棘手的问题，即在这些产品运行时快速判断其运行状态是否良好，运行时参数推荐以及参数调优等，这都会涉及到大数据产品指标的聚类分析问题。然而这些运行指标都存储于本地计算机上，如何对这些存储于分布式节点上面的运行指标数据进行聚类分析成为了一个问题。传统的聚类算法是集中式的，即首先需要将所有的指标数据传输到一个中心节点上，然后对数据进行聚类分析。然而在实际的生产中，由于一些典型问题，例如数据隐私问题或者有限的传输带宽，这些数据无法发送到中心节点进行聚类。同时，大量的数据传输对于分布式节点的性能也有较大的损耗。分布式聚类是一系列旨在处理存储于分布式节点上的数据集的算法，它不用将所有数据都集中到一个中心节点就可以对数据进行聚类分析(Geng，Yangli-ao，et al.″Local-density subspace distributed clustering for high-dimensional data.″IEEE Transactions on Parallel and Distributed Systems 31.8(2020)：1799-1814.)。基于分布式的架构，它可以有效提升算法的效率。然而目前的分布式聚类算法大都致力于解决算法运行时间的问题上面，却忽略了聚类算法的准确性的问题。

目前大部分的分布式聚类算法例如DK-means算法(Ji，Genlin，and XiaohanLing.″Ensemble learning based distributed clustering.″Pacific-Asia Conferenceon Knowledge Discovery and Data Mining.Springer，Berlin，Heidelberg，2007.)、DSCA算法(Visalakshi，N.Karthikeyani，and K.Thangavel.″Ensemble based distributedsoft clustering.″2008International Conference on Computing，Communication andNetworking.IEEE，2008.)以及PSDK-Means算法(Kotary，Dinesh Kumar，and SatyasaiJagannath Nandal.″A point symmetry distance based k-means algorithm fordistributed clustering in peer to peer networks.″2019IEEE InternationalConference on Systems，Man andCybernetics(SMC).IEEE，2019.)都是基于传统的聚类算法例如K-means或者Fuzzy-C-Means算法的改进。在一定程度上会受到传统算法的限制，因此其准确性不够。粒子群优化算法的搜索能力强，具有自组织、自适应、自学习高鲁棒性的特性。它能够不受问题性质的限制，有效地处理传统优化算法难以解决的复杂问题，但是却忽略了算法准确性的这个同样重要的因素。在传统的分布式聚类算法中，将子节点的数据处理过程视为对本地数据的聚类，然后在主节点对所有子节点的聚类结果进行整合以获取最终的聚类结果(Tong，Qiuhui，Xiu Li，and Bo Yuan.″Efficient distributedclustering using boundary information.″Neurocomputing 275(2018)：2355-2366.)。

粒子群优化算法是进化计算中的一个分支。它是一种模拟自然界中鸟群和鱼群捕食的随机搜索算法。粒子群算法由于其定义清晰，简单实用，自提出以来就得到了广泛的应用，例如动态分配、医学图形配准、机器学习与训练、数据挖掘与分类和信号控制等各领域。为了解决传统分布式聚类算法准确性不足的问题，引入分布式的粒子群优化算法，用于优化聚类结果。在分布式架构的基础之上，保证算法效率的同时，粒子群优化算法用于提升聚类的准确性。因此分布式的粒子群优化算法十分适合于大数据产品指标的分布式聚类中。

发明内容

为了解决上述存在的问题，本发明提出一种基于分布式聚类的大数据产品指标聚类方法，将分布式粒子群优化算法运用到分布式聚类中，并使用该方法对大数据产品指标进行分布式聚类分析。而且大数据产品作为处理海量数据存储、计算以及不间断流数据实时计算等场景为主的一套基础设施，其应用越来越广泛。本发明将分布式的粒子群优化算法运用到大数据产品的指标聚类中，主要涉及分布式粒子群优化与大数据产品指标聚类。发明的方法将整个聚类的过程分为两个部分。第一步，所有子节点使用基于粒子群优化的聚类算法来处理其本地指标数据，然后将聚类结果发送到主节点。第二步，主节点在收到所有子节点发送而来的聚类结果之后，将它们整合为一个数据集，然后使用K-means算法处理该数据集以得到全局聚类结果。

本发明至少通过如下技术方案之一实现。

一种基于分布式聚类的大数据产品指标聚类方法，包括以下步骤：

(1)每个子节点读取本地的指标数据集Z，随机从指标数据集Z中挑选出N_c个数据点，将选出的数据点作为候选的聚类中心点M；

(2)初始化每个粒子的速度和位置，并计算出每个粒子的适应度；

(3)迭代更新粒子的速度和位置；

(4)判断是否达到终止条件，如果没有达到终止条件，则返回到步骤(3)继续迭代；如果达到终止条件，则执行步骤(5)；

(5)当达到终止条件时，二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点，使用K-means算法细化挑选出的候选点，细化之后的数据集记为M_t；

(6)在进行细化之后，随机的从指标数据集Z中挑选出若干数据点，记为M_y，用来补全候选数据集；

(7)判断是否达到终止条件，如果是，则执行步骤(8)，否则返回步骤(2)；

(8)将K-means算法细化之后的聚类结果通过网络通信发送至主节点；

(9)主节点将接收到的聚类中心点整合为一个数据集，并进行处理后全局聚类结果。

进一步地，随机初始化二进制粒子群的位置：

其中r_k是一个随机数，它服从一个0到1的均匀分布，即r_k～U(0，1)；p_ini是一个用户自定义的参数，其中p_ik(t)表示第t个粒子的最终位置。

进一步地，适应度函数定义为：

f(p_i)＝index(p_i)

其中f(p_i)表示粒子的适应度，p_i表示第i个粒子。

进一步地，粒子位置更新的过程中，根据公式来更新粒子的位置：

sig(x)＝1/(1+e^-x)

其中，参数r_j服从一个均匀分布r_j～U(0，1)，sig(x)是一个激活函数，x是函数的输入值。

进一步地，粒子速度的更新公式如下：

v_ik(t+1)＝wv_ik(t)+c₁r₁(l_ik-p_ik)+c₂r₂(g_ik-p_ik)

其中l_ik表示每个粒子所到达的最佳位置，g_ik表示全局最优的粒子，w是惯性权重参数，c₁和c₂均为加速常量，都服从U(0，1)的均匀分布，而r₁和r₂则是用户自定义的参数。

进一步地，补全候选数据集M的公式如下：

M＝M_t∪M_r。

进一步地，主节点将接收到的聚类中心点整合为一个数据集S，具体的公式如下：

其中N表示子节点的个数，而S_i则表示第i个子节点发送而来的代表数据点集。

进一步地，使用K-means算法来处理数据集S：将数据集S的数据点划分为K个不同的数据簇以最小化如下目标：

其中，C_j是聚类中心点，D_i是属于C_j聚类的数据点；K-means算法随机挑选出K个数据点作为初始的聚类中心点，然后算通过不断更新聚类中心点直到达到收敛状态。

进一步地，在更新阶段，每个聚类中心点依据如下公式更新：

最后，K-means算法输出的结果为全局聚类结果。

进一步地，其特征在于，使用Davies-Bouldin(DB)指标来对最终的聚类结果进行比较，DB指标的定义如下：

其中，K表示聚类个数，R_i表示每个数据簇的紧密度，由如下公式计算得出：

在该公式中，e_i和e_j表示第i个和第j个数据簇中每个数据点到中心点的平均距离，根据以下公式计算：

其中，x表示数据簇中的每个数据点，m_i和m_j表示第i个和第j个数据簇的中心点，N_i表示属于第i个聚类数据点的个数；D_ij则表示两个聚类中心点C_i和C_j的距离，即：

D_ij＝||m_i-m_j||²。

与现有的技术相比，本发明的有益效果为：

本发明使用分布式粒子群优化算法来解决分布式聚类中算法准确性不足的问题，分布式架构用于保证算法运行效率，而粒子群优化算法用于提升聚类的准确性。

本发明将子节点的聚类过程看成一个替本地数据集挑选出一些代表性数据的过程，而在主节点上，将数据整合的过程视为对所有子节点的代表数据进行最终的聚类。

附图说明

图1为本发明实施例基于分布式聚类的大数据产品指标聚类方法的基本结构图；

图2为本发明实施例基于分布式聚类的大数据产品指标聚类方法的流程图；

图3为本发明实施例基于全局子节点网络拓扑结构的分布式计算框架图。

具体实施方式

以下结合附图进一步对本发明的方法进行描述。

实施例1

如图1、图2所示的一种基于分布式聚类的大数据产品指标聚类方法，该方法包括以下步骤：

(3)迭代更新粒子的速度和位置；

(6)在进行细化之后，随机的从指标数据集Z中挑选出若干数据点，记为M_r，用来补全候选数据集；

随着大数据时代的到来，一系列致力于解决海量数据存储、计算以及不间断流处理的大数据产品应运而生，得到了广泛地应用。这些大数据产品在运行过程中会不断的通过JMX暴露其运行指标。通过对这些指标进行聚类分析，可以根据聚类结果去判断其他集群的运行状态是否良好，以及后续的运行参数推荐以及调优。因为目前绝大部分的大数据产品都是基于集群的方式部署，即属于分布式的架构，它可以增大系统容量、加强系统可用、提高系统的可扩展性。指标数据分布于不同的节点之上。所以大数据产品的指标聚类分析本质上是一个分布式聚类的问题。分布式聚类是旨在处理分布式站点上定义的无监督学习问题，它无需将所有数据传输到中心节点上。在实际生产中，由于一些典型的问题，例如隐私问题或者有限的传输带宽，这些数据集无法发送到一个中心节点进行聚类。与集中式聚类不同，分布式聚类在很大程度上依赖于网络结构，因为不同的网络结构具有其自身的局限性和任务目标。一般来说，分布式聚类算法主要是针对两种网络拓扑设计的：全局子站点网络和对等(P2P)网络。全局子站点网络要求可靠的主节点从分布式子节点收集所有必要的信息，其大致结构如图3所示。相比之下，P2P网络拓扑中并没有中心节点，并且在整个网络的有限视图覆盖范围的所有站点中，通过交换必要的信息来执行自己的本地聚类任务。本方法专注于解决全局子站点网络结构的分布式聚类问题。

实施例2

本实施例的一种基于分布式聚类的大数据产品指标聚类方法，将子节点的聚类过程看成一个替本地数据集挑选出一些代表性数据的过程。优化聚类的个数、提升聚类结果的准确性就可以找到一些更好的代表性数据。基于进化计算的聚类方法可以通过不断的迭代进化来优化聚类方法的质量。所以在每个子节点，考虑使用基于进化计算的方法。该方法包括以下步骤：

(1)每个子节点读取本地的指标数据集Z，随机从数据集Z中挑选出N_c个数据点，将其作为候选的聚类中心点M。

(2)在基于进化计算的聚类算法中，首先是需要初始化每个粒子的速度和位置，使用以下公式，随机初始化二进制粒子群的位置：

其中r_k表示是一个随机数，它服从一个0到1的均匀分布，即r_k～U(0，1)。p_ini是一个用户自定义的参数，其中p_ik(t)表示第t个粒子的最终位置。

很明显，较大的p_ini值会使种群在一开始选择更多的聚类中心点。而粒子的初始速度是随机生成的，本实施例中它被限制在[-5，5]以内。

(3)聚类有效性指标在基于进化计算的聚类算法中经常作为适应度函数。每个聚类有效性指标都有自己的侧重点和优缺点。本实施例中，使用Turi提出的指标作为适应度函数。该适应度函数定义如下：

f(p_i)＝index(p_i)

其中f(p_i)表示粒子的适应度，而p_i则表示第i个粒子。

(4)在根据以上公式计算出每个粒子的适应度之后，接下来就需要迭代更新粒子的速度和位置。在粒子位置更新的过程中，根据以下两个公式来更新粒子的位置：

sig(x)＝1/(1+e^-x)

sig(x)是一个激活函数，x是函数的输入值。

其中，参数r_j同样服从一个均匀分布r_j～U(0，1)。粒子速度的更新公式如下：

v_ik(t+1)＝wv_ik(t)+c₁r₁(l_ik-P_ik)+c₂r₂(g_ik-p_ik)

其中l_ik表示每个粒子所到达的最佳位置。g_ik表示全局最优的粒子，w是惯性权重参数。c₁和c₂都是加速常量，都服从U(0，1)的均匀分布。而r₁和r₂则是用户自定义的参数。

(5)终止条件既可以是用户指定的迭代次数，在这个迭代次数之内最优解没有发生改变；也可以是一个最大的迭代次数。在本实施例中，将两处的终止条件都设置为最大迭代次数。

(6)判断是否达到终止条件，如果没有达到终止条件，则返回到步骤(3)继续迭代。如果达到终止条件，则执行步骤(7)。

(7)当达到终止条件时，二进制的粒子群会从原始的数据集Z中挑选出一些候选点作为聚类中心点，然而这些候选中心点还需要使用K-means算法来进行进一步的细化，细化之后的数据集记为M_t。

(8)在进行上一步的细化之后，随机的从数据集Z中挑选出若干数据点，记为M_r，用来补全候选数据集M，具体的公式如下：

M＝M_t∪M_r

(9)判断是否达到终止条件，如果是，则执行步骤(10)，否则返回步骤(2)。

(10)在达到终止条件之后，步骤(7)中经过K-means算法细化之后的结果，就是每个子节点最终的聚类结果。计算出该结果之后，子节点将这些聚类中心点通过网络通信发送至主节点。

主节点首先需要等待并接受所有子节点发送而来的聚类结果，然后将这些中心点整合为一个数据集S，具体的公式如下所示。

在经过所有子节点的处理之后，主节点接收到的数据相比较原始数据来说已经大大减少了。且该数据集也并不像原始数据集那样复杂。因此，传统的聚类算法如K-means算法可以很好处理这个数据集。在主节点，使用K-means算法来处理数据集S。

K-means算法旨在将这些数据点划分为K个不同的数据簇以最小化如下目标：

其中，C_j是聚类中心点，D_i是属于这个C_j聚类的数据点。首先，K-means算法会随机挑选出K个数据点作为初始的聚类中心点，然后算法会通过不断更新聚类中心点直到达到收敛状态。在更新阶段，每个聚类中心点依据如下公式更新：

最后，K-means算法输出的结果就是全局聚类结果。算法的基本框架如图1所示。算法分别在真实的数据集和生成的数据集上测试，证明了发明的方法具有较高的准确性。

实施例3

一种基于分布式聚类的大数据产品指标聚类方法，该方法包括以下步骤：

(3)迭代更新粒子的速度和位置；

在一个具有N个子节点和一个主节点的全局子站点网络上，每个节点都可以表示成

其中Y_N是主节点，而其他节点是子节点。假设所有的子节点都与主节点完全连接，可以保证通信质量良好。所有的指标数据都存储的子节点上，每个指标数据集都可以表示为

其中Nd表示指标的维度，

则表示N_d维度的数据。N_p则表示指标数据的大小，

表示最后一个数据点。分布式聚类算法最终的目的就是要找出K个聚类中心点。

聚类有效性指标经常被用来评估一个聚类结果的好坏，它同样也可以作为基于进化计算的聚类算法中的适应度函数，每个聚类有效性指标都有自己的侧重点。因为本发明是致力于提升准确性，所以挑选合适的聚类有效性指标至关重要。

在本实施例中，使用Davies-Bouldin(DB)指标来对最终的聚类结果进行比较。DB指标的定义如下：

其中，K表示聚类个数，R_i表示每个数据簇的紧密度，它可以由如下公式计算得出：

在该公式中，e_i和e_j表示第i个和第j个数据簇中每个数据点到中心点的平均距离，可以根据以下公式计算：

其中，x表示数据簇中的每个数据点，m_i和m_j表示第i个和第j个数据簇的中心点。N_i表示属于第i个聚类数据点的个数。D_ij则表示两个聚类中心点C_i和C_j的距离，即：

D_ij＝||m_i-m_j||²

在相同数据集的基础上，较小的DB指标值表示这个聚类的结果较好，准确性更高。

在本实施例中，使用Turi提出的聚类有效性指标，作为基于进化计算的聚类算法中的适应度函数。它具体可以表示为以下公式：

N(2，1)表示一个标准差为1均值为2的高斯分布。c是一个用户可以自定义的参数，它可以是一个任意实数。其中，intra表示所有数据点距离其中心点的平均距离和inter表示任意两个中心点的最小距离，分别根据如下公式计算得出：

N表示数据集中数据点的个数，m_k表示聚类的中心点，u表是属于中心点C_k的数据点，而m_k则表示第k个数据簇的中心点，m_{k_1}和m_{k_2}表示第k_1和第k_2个数据簇的中心点。

挑选了十个数据集用来测试算法的准确性，其中包括真实的指标数据集和随机生成的指标数据集。针对这些数据集，粒子群优化中粒子个数设置为30，最大迭代次数设置为40，粒子的最大速度是255，其余参数取值如下：

参数	取值
		w	0.85
r<sub>1</sub>	1.49
		r<sub>2</sub>	1.49
p<sub>ini</sub>	0.8

为了证明本发明具有较高的准确性，挑选了现有的三个分布式聚类算法来进行对比实验，分别是DK-means算法、DSCA算法以及PSDK-Means算法。其中DK-means算法、DSCA算法在主节点均采用K-means算法，而DK-means在每个子节点采用K-means算法，而DSCA算法则采用Fuzzy-C-Means算法。PSDK-Means算法则是一种基于点对点网络拓扑结构中K-means算法的改进。DB指标被用于评估最终聚类结果的优劣。实验结果显示，本发明DB指标的平均值要比DK-means算法和DSCA算法小10％-20％左右。在大部分数据集上，本发明的方差也小于另外两种算法，这说明本发明具有较高的准确性和稳定性。最后，为了验证本发明所提出的方法对准确性的提升是否有效，对实验结果使用了Kruskal-Wallis(KW)检验和中位数检验，最终的实验结果显示，在八个数据集上，本发明所提出的方法对于准确性的提升是有显著性差异的。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。