CN115438722A - 一种基于分布式聚类的大数据产品指标聚类方法 - Google Patents

一种基于分布式聚类的大数据产品指标聚类方法 Download PDF

Info

Publication number
CN115438722A
CN115438722A CN202210991449.3A CN202210991449A CN115438722A CN 115438722 A CN115438722 A CN 115438722A CN 202210991449 A CN202210991449 A CN 202210991449A CN 115438722 A CN115438722 A CN 115438722A
Authority
CN
China
Prior art keywords
clustering
data
points
particle
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210991449.3A
Other languages
English (en)
Inventor
陈伟能
李子星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210991449.3A priority Critical patent/CN115438722A/zh
Publication of CN115438722A publication Critical patent/CN115438722A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式聚类的大数据产品指标聚类方法,包括以下步骤:每个子节点读取本地的指标数据集,将选出的数据点作为候选的聚类中心点;初始化每个粒子的速度和位置,并计算出每个粒子的适应度;迭代更新粒子的速度和位置;当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,细化挑选出的候选点;在进行细化之后,随机的从指标数据集中挑选出若干数据点用来补全候选数据集;将细化之后的聚类结果通过网络通信发送至主节点;主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。

Description

一种基于分布式聚类的大数据产品指标聚类方法
技术领域
本发明涉及分布式粒子群优化和大数据产品指标聚类领域,主要涉及一种基于分布式聚类的大数据产品指标聚类方法。
技术背景
随着大数据时代的到来,各种以处理海量数据存储、计算以及不间断流数据实时计算等场景为主的一系列大数据产品应运而生,其中主要包括Hadoop系列、Spark、Hive、Flink以及Kafka等产品。它们利用计算机集群的存储和计算能力,解决大数据存储分析过程中的各种问题。
一般来说,大数据产品都是通过集群的部署方式来实现其高可用性以及高可扩展性。然而随着大数据产品的普及,如何方便快速的管理这些大数据产品成为了一个棘手的问题,即在这些产品运行时快速判断其运行状态是否良好,运行时参数推荐以及参数调优等,这都会涉及到大数据产品指标的聚类分析问题。然而这些运行指标都存储于本地计算机上,如何对这些存储于分布式节点上面的运行指标数据进行聚类分析成为了一个问题。传统的聚类算法是集中式的,即首先需要将所有的指标数据传输到一个中心节点上,然后对数据进行聚类分析。然而在实际的生产中,由于一些典型问题,例如数据隐私问题或者有限的传输带宽,这些数据无法发送到中心节点进行聚类。同时,大量的数据传输对于分布式节点的性能也有较大的损耗。分布式聚类是一系列旨在处理存储于分布式节点上的数据集的算法,它不用将所有数据都集中到一个中心节点就可以对数据进行聚类分析(Geng,Yangli-ao,et al.″Local-density subspace distributed clustering for high-dimensional data.″IEEE Transactions on Parallel and Distributed Systems 31.8(2020):1799-1814.)。基于分布式的架构,它可以有效提升算法的效率。然而目前的分布式聚类算法大都致力于解决算法运行时间的问题上面,却忽略了聚类算法的准确性的问题。
目前大部分的分布式聚类算法例如DK-means算法(Ji,Genlin,and XiaohanLing.″Ensemble learning based distributed clustering.″Pacific-Asia Conferenceon Knowledge Discovery and Data Mining.Springer,Berlin,Heidelberg,2007.)、DSCA算法(Visalakshi,N.Karthikeyani,and K.Thangavel.″Ensemble based distributedsoft clustering.″2008International Conference on Computing,Communication andNetworking.IEEE,2008.)以及PSDK-Means算法(Kotary,Dinesh Kumar,and SatyasaiJagannath Nandal.″A point symmetry distance based k-means algorithm fordistributed clustering in peer to peer networks.″2019IEEE InternationalConference on Systems,Man andCybernetics(SMC).IEEE,2019.)都是基于传统的聚类算法例如K-means或者Fuzzy-C-Means算法的改进。在一定程度上会受到传统算法的限制,因此其准确性不够。粒子群优化算法的搜索能力强,具有自组织、自适应、自学习高鲁棒性的特性。它能够不受问题性质的限制,有效地处理传统优化算法难以解决的复杂问题,但是却忽略了算法准确性的这个同样重要的因素。在传统的分布式聚类算法中,将子节点的数据处理过程视为对本地数据的聚类,然后在主节点对所有子节点的聚类结果进行整合以获取最终的聚类结果(Tong,Qiuhui,Xiu Li,and Bo Yuan.″Efficient distributedclustering using boundary information.″Neurocomputing 275(2018):2355-2366.)。
粒子群优化算法是进化计算中的一个分支。它是一种模拟自然界中鸟群和鱼群捕食的随机搜索算法。粒子群算法由于其定义清晰,简单实用,自提出以来就得到了广泛的应用,例如动态分配、医学图形配准、机器学习与训练、数据挖掘与分类和信号控制等各领域。为了解决传统分布式聚类算法准确性不足的问题,引入分布式的粒子群优化算法,用于优化聚类结果。在分布式架构的基础之上,保证算法效率的同时,粒子群优化算法用于提升聚类的准确性。因此分布式的粒子群优化算法十分适合于大数据产品指标的分布式聚类中。
发明内容
为了解决上述存在的问题,本发明提出一种基于分布式聚类的大数据产品指标聚类方法,将分布式粒子群优化算法运用到分布式聚类中,并使用该方法对大数据产品指标进行分布式聚类分析。而且大数据产品作为处理海量数据存储、计算以及不间断流数据实时计算等场景为主的一套基础设施,其应用越来越广泛。本发明将分布式的粒子群优化算法运用到大数据产品的指标聚类中,主要涉及分布式粒子群优化与大数据产品指标聚类。发明的方法将整个聚类的过程分为两个部分。第一步,所有子节点使用基于粒子群优化的聚类算法来处理其本地指标数据,然后将聚类结果发送到主节点。第二步,主节点在收到所有子节点发送而来的聚类结果之后,将它们整合为一个数据集,然后使用K-means算法处理该数据集以得到全局聚类结果。
本发明至少通过如下技术方案之一实现。
一种基于分布式聚类的大数据产品指标聚类方法,包括以下步骤:
(1)每个子节点读取本地的指标数据集Z,随机从指标数据集Z中挑选出Nc个数据点,将选出的数据点作为候选的聚类中心点M;
(2)初始化每个粒子的速度和位置,并计算出每个粒子的适应度;
(3)迭代更新粒子的速度和位置;
(4)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代;如果达到终止条件,则执行步骤(5);
(5)当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,使用K-means算法细化挑选出的候选点,细化之后的数据集记为Mt
(6)在进行细化之后,随机的从指标数据集Z中挑选出若干数据点,记为My,用来补全候选数据集;
(7)判断是否达到终止条件,如果是,则执行步骤(8),否则返回步骤(2);
(8)将K-means算法细化之后的聚类结果通过网络通信发送至主节点;
(9)主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。
进一步地,随机初始化二进制粒子群的位置:
Figure BDA0003803267530000031
其中rk是一个随机数,它服从一个0到1的均匀分布,即rk~U(0,1);pini是一个用户自定义的参数,其中pik(t)表示第t个粒子的最终位置。
进一步地,适应度函数定义为:
f(pi)=index(pi)
其中f(pi)表示粒子的适应度,pi表示第i个粒子。
进一步地,粒子位置更新的过程中,根据公式来更新粒子的位置:
sig(x)=1/(1+e-x)
Figure BDA0003803267530000032
其中,参数rj服从一个均匀分布rj~U(0,1),sig(x)是一个激活函数,x是函数的输入值。
进一步地,粒子速度的更新公式如下:
vik(t+1)=wvik(t)+c1r1(lik-pik)+c2r2(gik-pik)
其中lik表示每个粒子所到达的最佳位置,gik表示全局最优的粒子,w是惯性权重参数,c1和c2均为加速常量,都服从U(0,1)的均匀分布,而r1和r2则是用户自定义的参数。
进一步地,补全候选数据集M的公式如下:
M=Mt∪Mr
进一步地,主节点将接收到的聚类中心点整合为一个数据集S,具体的公式如下:
Figure BDA0003803267530000041
其中N表示子节点的个数,而Si则表示第i个子节点发送而来的代表数据点集。
进一步地,使用K-means算法来处理数据集S:将数据集S的数据点划分为K个不同的数据簇以最小化如下目标:
Figure BDA0003803267530000042
其中,Cj是聚类中心点,Di是属于Cj聚类的数据点;K-means算法随机挑选出K个数据点作为初始的聚类中心点,然后算通过不断更新聚类中心点直到达到收敛状态。
进一步地,在更新阶段,每个聚类中心点依据如下公式更新:
Figure BDA0003803267530000043
最后,K-means算法输出的结果为全局聚类结果。
进一步地,其特征在于,使用Davies-Bouldin(DB)指标来对最终的聚类结果进行比较,DB指标的定义如下:
Figure BDA0003803267530000044
其中,K表示聚类个数,Ri表示每个数据簇的紧密度,由如下公式计算得出:
Figure BDA0003803267530000045
在该公式中,ei和ej表示第i个和第j个数据簇中每个数据点到中心点的平均距离,根据以下公式计算:
Figure BDA0003803267530000046
其中,x表示数据簇中的每个数据点,mi和mj表示第i个和第j个数据簇的中心点,Ni表示属于第i个聚类数据点的个数;Dij则表示两个聚类中心点Ci和Cj的距离,即:
Dij=||mi-mj||2
与现有的技术相比,本发明的有益效果为:
本发明使用分布式粒子群优化算法来解决分布式聚类中算法准确性不足的问题,分布式架构用于保证算法运行效率,而粒子群优化算法用于提升聚类的准确性。
本发明将子节点的聚类过程看成一个替本地数据集挑选出一些代表性数据的过程,而在主节点上,将数据整合的过程视为对所有子节点的代表数据进行最终的聚类。
附图说明
图1为本发明实施例基于分布式聚类的大数据产品指标聚类方法的基本结构图;
图2为本发明实施例基于分布式聚类的大数据产品指标聚类方法的流程图;
图3为本发明实施例基于全局子节点网络拓扑结构的分布式计算框架图。
具体实施方式
以下结合附图进一步对本发明的方法进行描述。
实施例1
如图1、图2所示的一种基于分布式聚类的大数据产品指标聚类方法,该方法包括以下步骤:
(1)每个子节点读取本地的指标数据集Z,随机从指标数据集Z中挑选出Nc个数据点,将选出的数据点作为候选的聚类中心点M;
(2)初始化每个粒子的速度和位置,并计算出每个粒子的适应度;
(3)迭代更新粒子的速度和位置;
(4)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代;如果达到终止条件,则执行步骤(5);
(5)当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,使用K-means算法细化挑选出的候选点,细化之后的数据集记为Mt
(6)在进行细化之后,随机的从指标数据集Z中挑选出若干数据点,记为Mr,用来补全候选数据集;
(7)判断是否达到终止条件,如果是,则执行步骤(8),否则返回步骤(2);
(8)将K-means算法细化之后的聚类结果通过网络通信发送至主节点;
(9)主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。
随着大数据时代的到来,一系列致力于解决海量数据存储、计算以及不间断流处理的大数据产品应运而生,得到了广泛地应用。这些大数据产品在运行过程中会不断的通过JMX暴露其运行指标。通过对这些指标进行聚类分析,可以根据聚类结果去判断其他集群的运行状态是否良好,以及后续的运行参数推荐以及调优。因为目前绝大部分的大数据产品都是基于集群的方式部署,即属于分布式的架构,它可以增大系统容量、加强系统可用、提高系统的可扩展性。指标数据分布于不同的节点之上。所以大数据产品的指标聚类分析本质上是一个分布式聚类的问题。分布式聚类是旨在处理分布式站点上定义的无监督学习问题,它无需将所有数据传输到中心节点上。在实际生产中,由于一些典型的问题,例如隐私问题或者有限的传输带宽,这些数据集无法发送到一个中心节点进行聚类。与集中式聚类不同,分布式聚类在很大程度上依赖于网络结构,因为不同的网络结构具有其自身的局限性和任务目标。一般来说,分布式聚类算法主要是针对两种网络拓扑设计的:全局子站点网络和对等(P2P)网络。全局子站点网络要求可靠的主节点从分布式子节点收集所有必要的信息,其大致结构如图3所示。相比之下,P2P网络拓扑中并没有中心节点,并且在整个网络的有限视图覆盖范围的所有站点中,通过交换必要的信息来执行自己的本地聚类任务。本方法专注于解决全局子站点网络结构的分布式聚类问题。
实施例2
本实施例的一种基于分布式聚类的大数据产品指标聚类方法,将子节点的聚类过程看成一个替本地数据集挑选出一些代表性数据的过程。优化聚类的个数、提升聚类结果的准确性就可以找到一些更好的代表性数据。基于进化计算的聚类方法可以通过不断的迭代进化来优化聚类方法的质量。所以在每个子节点,考虑使用基于进化计算的方法。该方法包括以下步骤:
(1)每个子节点读取本地的指标数据集Z,随机从数据集Z中挑选出Nc个数据点,将其作为候选的聚类中心点M。
(2)在基于进化计算的聚类算法中,首先是需要初始化每个粒子的速度和位置,使用以下公式,随机初始化二进制粒子群的位置:
Figure BDA0003803267530000061
其中rk表示是一个随机数,它服从一个0到1的均匀分布,即rk~U(0,1)。pini是一个用户自定义的参数,其中pik(t)表示第t个粒子的最终位置。
很明显,较大的pini值会使种群在一开始选择更多的聚类中心点。而粒子的初始速度是随机生成的,本实施例中它被限制在[-5,5]以内。
(3)聚类有效性指标在基于进化计算的聚类算法中经常作为适应度函数。每个聚类有效性指标都有自己的侧重点和优缺点。本实施例中,使用Turi提出的指标作为适应度函数。该适应度函数定义如下:
f(pi)=index(pi)
其中f(pi)表示粒子的适应度,而pi则表示第i个粒子。
(4)在根据以上公式计算出每个粒子的适应度之后,接下来就需要迭代更新粒子的速度和位置。在粒子位置更新的过程中,根据以下两个公式来更新粒子的位置:
sig(x)=1/(1+e-x)
Figure BDA0003803267530000071
sig(x)是一个激活函数,x是函数的输入值。
其中,参数rj同样服从一个均匀分布rj~U(0,1)。粒子速度的更新公式如下:
vik(t+1)=wvik(t)+c1r1(lik-Pik)+c2r2(gik-pik)
其中lik表示每个粒子所到达的最佳位置。gik表示全局最优的粒子,w是惯性权重参数。c1和c2都是加速常量,都服从U(0,1)的均匀分布。而r1和r2则是用户自定义的参数。
(5)终止条件既可以是用户指定的迭代次数,在这个迭代次数之内最优解没有发生改变;也可以是一个最大的迭代次数。在本实施例中,将两处的终止条件都设置为最大迭代次数。
(6)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代。如果达到终止条件,则执行步骤(7)。
(7)当达到终止条件时,二进制的粒子群会从原始的数据集Z中挑选出一些候选点作为聚类中心点,然而这些候选中心点还需要使用K-means算法来进行进一步的细化,细化之后的数据集记为Mt
(8)在进行上一步的细化之后,随机的从数据集Z中挑选出若干数据点,记为Mr,用来补全候选数据集M,具体的公式如下:
M=Mt∪Mr
(9)判断是否达到终止条件,如果是,则执行步骤(10),否则返回步骤(2)。
(10)在达到终止条件之后,步骤(7)中经过K-means算法细化之后的结果,就是每个子节点最终的聚类结果。计算出该结果之后,子节点将这些聚类中心点通过网络通信发送至主节点。
主节点首先需要等待并接受所有子节点发送而来的聚类结果,然后将这些中心点整合为一个数据集S,具体的公式如下所示。
Figure BDA0003803267530000081
其中N表示子节点的个数,而Si则表示第i个子节点发送而来的代表数据点集。
在经过所有子节点的处理之后,主节点接收到的数据相比较原始数据来说已经大大减少了。且该数据集也并不像原始数据集那样复杂。因此,传统的聚类算法如K-means算法可以很好处理这个数据集。在主节点,使用K-means算法来处理数据集S。
K-means算法旨在将这些数据点划分为K个不同的数据簇以最小化如下目标:
Figure BDA0003803267530000082
其中,Cj是聚类中心点,Di是属于这个Cj聚类的数据点。首先,K-means算法会随机挑选出K个数据点作为初始的聚类中心点,然后算法会通过不断更新聚类中心点直到达到收敛状态。在更新阶段,每个聚类中心点依据如下公式更新:
Figure BDA0003803267530000083
最后,K-means算法输出的结果就是全局聚类结果。算法的基本框架如图1所示。算法分别在真实的数据集和生成的数据集上测试,证明了发明的方法具有较高的准确性。
实施例3
一种基于分布式聚类的大数据产品指标聚类方法,该方法包括以下步骤:
(1)每个子节点读取本地的指标数据集Z,随机从指标数据集Z中挑选出Nc个数据点,将选出的数据点作为候选的聚类中心点M;
(2)初始化每个粒子的速度和位置,并计算出每个粒子的适应度;
(3)迭代更新粒子的速度和位置;
(4)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代;如果达到终止条件,则执行步骤(5);
(5)当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,使用K-means算法细化挑选出的候选点,细化之后的数据集记为Mt
(6)在进行细化之后,随机的从指标数据集Z中挑选出若干数据点,记为Mr,用来补全候选数据集;
(7)判断是否达到终止条件,如果是,则执行步骤(8),否则返回步骤(2);
(8)将K-means算法细化之后的聚类结果通过网络通信发送至主节点;
(9)主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。
在一个具有N个子节点和一个主节点的全局子站点网络上,每个节点都可以表示成
Figure BDA0003803267530000091
其中YN是主节点,而其他节点是子节点。假设所有的子节点都与主节点完全连接,可以保证通信质量良好。所有的指标数据都存储的子节点上,每个指标数据集都可以表示为
Figure BDA0003803267530000092
其中Nd表示指标的维度,
Figure BDA0003803267530000093
则表示Nd维度的数据。Np则表示指标数据的大小,
Figure BDA0003803267530000094
表示最后一个数据点。分布式聚类算法最终的目的就是要找出K个聚类中心点。
聚类有效性指标经常被用来评估一个聚类结果的好坏,它同样也可以作为基于进化计算的聚类算法中的适应度函数,每个聚类有效性指标都有自己的侧重点。因为本发明是致力于提升准确性,所以挑选合适的聚类有效性指标至关重要。
在本实施例中,使用Davies-Bouldin(DB)指标来对最终的聚类结果进行比较。DB指标的定义如下:
Figure BDA0003803267530000095
其中,K表示聚类个数,Ri表示每个数据簇的紧密度,它可以由如下公式计算得出:
Figure BDA0003803267530000096
在该公式中,ei和ej表示第i个和第j个数据簇中每个数据点到中心点的平均距离,可以根据以下公式计算:
Figure BDA0003803267530000097
其中,x表示数据簇中的每个数据点,mi和mj表示第i个和第j个数据簇的中心点。Ni表示属于第i个聚类数据点的个数。Dij则表示两个聚类中心点Ci和Cj的距离,即:
Dij=||mi-mj||2
在相同数据集的基础上,较小的DB指标值表示这个聚类的结果较好,准确性更高。
在本实施例中,使用Turi提出的聚类有效性指标,作为基于进化计算的聚类算法中的适应度函数。它具体可以表示为以下公式:
Figure BDA0003803267530000101
N(2,1)表示一个标准差为1均值为2的高斯分布。c是一个用户可以自定义的参数,它可以是一个任意实数。其中,intra表示所有数据点距离其中心点的平均距离和inter表示任意两个中心点的最小距离,分别根据如下公式计算得出:
Figure BDA0003803267530000102
Figure BDA0003803267530000103
N表示数据集中数据点的个数,mk表示聚类的中心点,u表是属于中心点Ck的数据点,而mk则表示第k个数据簇的中心点,mk_1和mk_2表示第k_1和第k_2个数据簇的中心点。
挑选了十个数据集用来测试算法的准确性,其中包括真实的指标数据集和随机生成的指标数据集。针对这些数据集,粒子群优化中粒子个数设置为30,最大迭代次数设置为40,粒子的最大速度是255,其余参数取值如下:
参数 取值
w 0.85
r<sub>1</sub> 1.49
r<sub>2</sub> 1.49
p<sub>ini</sub> 0.8
为了证明本发明具有较高的准确性,挑选了现有的三个分布式聚类算法来进行对比实验,分别是DK-means算法、DSCA算法以及PSDK-Means算法。其中DK-means算法、DSCA算法在主节点均采用K-means算法,而DK-means在每个子节点采用K-means算法,而DSCA算法则采用Fuzzy-C-Means算法。PSDK-Means算法则是一种基于点对点网络拓扑结构中K-means算法的改进。DB指标被用于评估最终聚类结果的优劣。实验结果显示,本发明DB指标的平均值要比DK-means算法和DSCA算法小10%-20%左右。在大部分数据集上,本发明的方差也小于另外两种算法,这说明本发明具有较高的准确性和稳定性。最后,为了验证本发明所提出的方法对准确性的提升是否有效,对实验结果使用了Kruskal-Wallis(KW)检验和中位数检验,最终的实验结果显示,在八个数据集上,本发明所提出的方法对于准确性的提升是有显著性差异的。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,包括以下步骤:
(1)每个子节点读取本地的指标数据集Z,随机从指标数据集Z中挑选出Nc个数据点,将选出的数据点作为候选的聚类中心点M;
(2)初始化每个粒子的速度和位置,并计算出每个粒子的适应度;
(3)迭代更新粒子的速度和位置;
(4)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代;如果达到终止条件,则执行步骤(5);
(5)当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,使用K-means算法细化挑选出的候选点,细化之后的数据集记为Mt
(6)在进行细化之后,随机的从指标数据集Z中挑选出若干数据点,记为Mr,用来补全候选数据集;
(7)判断是否达到终止条件,如果是,则执行步骤(8),否则返回步骤(2);
(8)将K-means算法细化之后的聚类结果通过网络通信发送至主节点;
(9)主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。
2.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,随机初始化二进制粒子群的位置:
Figure FDA0003803267520000011
其中rk是一个随机数,它服从一个0到1的均匀分布,即rk~U(0,1);pini是一个用户自定义的参数,其中pik(t)表示第t个粒子的最终位置。
3.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,适应度函数定义为:
f(pi)=index(pi)
其中f(pi)表示粒子的适应度,pi表示第i个粒子。
4.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,在粒子位置更新的过程中,根据公式来更新粒子的位置:
sig(x)=1/(1+e-x)
Figure FDA0003803267520000012
其中,参数rj服从一个均匀分布rj~U(0,1),sig(x)是一个激活函数,x是函数的输入值。
5.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,粒子速度的更新公式如下:
vik(t+1)=wvik(t)+c1r1(lik-pik)+c2r2(gik-pik)
其中lik表示每个粒子所到达的最佳位置,gik表示全局最优的粒子,w是惯性权重参数,c1和c2均为加速常量,都服从U(0,1)的均匀分布,而r1和r2则是用户自定义的参数。
6.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,补全候选数据集M的公式如下:
M=Mt∪Mr
7.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,主节点将接收到的聚类中心点整合为一个数据集S,具体的公式如下:
Figure FDA0003803267520000021
其中N表示子节点的个数,而Si则表示第i个子节点发送而来的代表数据点集。
8.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,使用K-means算法来处理数据集S:将数据集S的数据点划分为K个不同的数据簇以最小化如下目标:
Figure FDA0003803267520000022
其中,Cj是聚类中心点,Di是属于Cj聚类的数据点;K-means算法随机挑选出K个数据点作为初始的聚类中心点,然后算通过不断更新聚类中心点直到达到收敛状态。
9.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,在更新阶段,每个聚类中心点依据如下公式更新:
Figure FDA0003803267520000023
最后,K-means算法输出的结果为全局聚类结果。
10.根据权利要求1~9任一项所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,使用Davies-Bouldin(DB)指标来对最终的聚类结果进行比较,DB指标的定义如下:
Figure FDA0003803267520000031
其中,K表示聚类个数,Ri表示每个数据簇的紧密度,由如下公式计算得出:
Figure FDA0003803267520000032
在该公式中,ei和ej表示第i个和第j个数据簇中每个数据点到中心点的平均距离,根据以下公式计算:
Figure FDA0003803267520000033
其中,x表示数据簇中的每个数据点,mi和mj表示第i个和第j个数据簇的中心点,Ni表示属于第i个聚类数据点的个数;Dij则表示两个聚类中心点Ci和Cj的距离,即:
Dij=||mi-mj||2
CN202210991449.3A 2022-08-17 2022-08-17 一种基于分布式聚类的大数据产品指标聚类方法 Pending CN115438722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210991449.3A CN115438722A (zh) 2022-08-17 2022-08-17 一种基于分布式聚类的大数据产品指标聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210991449.3A CN115438722A (zh) 2022-08-17 2022-08-17 一种基于分布式聚类的大数据产品指标聚类方法

Publications (1)

Publication Number Publication Date
CN115438722A true CN115438722A (zh) 2022-12-06

Family

ID=84241715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210991449.3A Pending CN115438722A (zh) 2022-08-17 2022-08-17 一种基于分布式聚类的大数据产品指标聚类方法

Country Status (1)

Country Link
CN (1) CN115438722A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952426A (zh) * 2023-03-10 2023-04-11 中南大学 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952426A (zh) * 2023-03-10 2023-04-11 中南大学 基于随机采样的分布式噪音数据聚类方法及用户分类方法

Similar Documents

Publication Publication Date Title
US7698239B2 (en) Self-evolving distributed system performance using a system health index
CN109471847B (zh) 一种i/o拥塞控制方法及控制系统
CN113285831A (zh) 网络行为知识智能学习方法、装置、计算机设备及存储介质
Saatchi et al. Hybridization of the ant colony optimization with the k-means algorithm for clustering
CN115438722A (zh) 一种基于分布式聚类的大数据产品指标聚类方法
CN113395207A (zh) 一种sdn架构下基于深度强化学习的路由优化架构及方法
WO2021008675A1 (en) Dynamic network configuration
CN113987692A (zh) 用于无人机和边缘计算服务器的深度神经网络分区方法
Rui et al. CLPM: A cooperative link prediction model for industrial Internet of Things using partitioned stacked denoising autoencoder
CN114828095A (zh) 一种基于任务卸载的高效数据感知分层联邦学习方法
CN116166444B (zh) 一种面向深度学习分层模型的协同推理方法
Fellus et al. Decentralized k-means using randomized gossip protocols for clustering large datasets
Jiang et al. Joint model pruning and topology construction for accelerating decentralized machine learning
CN115426635B (zh) 一种不可靠传输场景下无人机通信网络推断方法及系统
Delaplace et al. Two evolutionary methods for learning bayesian network structures
WO2022160752A1 (zh) 一种运筹优化方法、装置和计算设备
CN113011097B (zh) 一种多种群自适应协作优化方法
CN106358302B (zh) 一种无线传感器网络多收发器多信道分配算法
CN115514720A (zh) 一种面向可编程数据平面的用户活动分类方法及应用
WO2022186808A1 (en) Method for solving virtual network embedding problem in 5g and beyond networks with deep information maximization using multiple physical network structure
CN115473688A (zh) 面向软件定义网络的异常检测方法、装置及设备
Mertens et al. i-WSN League: Clustered Distributed Learning in Wireless Sensor Networks
CN117336187B (zh) 一种基于连边间关联的无人机通信网络推断方法
Herrmann et al. Clustering with swarm algorithms compared to emergent SOM
CN117808127B (zh) 数据异构条件下的图像处理方法、联邦学习方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination