CN107480694A - 基于Spark平台采用两次评价的加权选择集成三支聚类方法 - Google Patents

基于Spark平台采用两次评价的加权选择集成三支聚类方法 Download PDF

Info

Publication number
CN107480694A
CN107480694A CN201710548072.3A CN201710548072A CN107480694A CN 107480694 A CN107480694 A CN 107480694A CN 201710548072 A CN201710548072 A CN 201710548072A CN 107480694 A CN107480694 A CN 107480694A
Authority
CN
China
Prior art keywords
mrow
cluster
msup
msub
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710548072.3A
Other languages
English (en)
Other versions
CN107480694B (zh
Inventor
于洪
陈云
胡峰
王国胤
胡军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Yunqianmeng Bean Sprout Technology Incubator Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710548072.3A priority Critical patent/CN107480694B/zh
Publication of CN107480694A publication Critical patent/CN107480694A/zh
Application granted granted Critical
Publication of CN107480694B publication Critical patent/CN107480694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,主要包括如下步骤:步骤1,对大数据集进行分区和管理并生成对应的弹性分布式数据集(RDD);步骤2,使用基于Spark的K‑Means聚类算法对每个分区数据进行聚类,生成多个不同的聚类成员;步骤3,通过两次评价,构造新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。本发明大幅减少了算法运行时间,提高了算法效率。

Description

基于Spark平台采用两次评价的加权选择集成三支聚类方法
技术领域
本发明属于大数据处理和数据挖掘技术领域,尤其是涉及一种基于Spark的三支选择性集成方法,三支决策领域。
背景技术
随着社会信息化和网络化的高速发展,数据每天都以爆炸式增长,面对海量数据的产生,大数据也吸引了越来越多的关注。医疗领域、生物科学领域、金融领域、互联网等领域,日常运营中生成、累积的数据,已经不能用GB或者TB来衡量。截止2012年,数据量已从TB级别跃升到PB、EB甚至ZB级别。这些数据蕴含着很多价值,而对这些数据的分析挖掘能够得到的新的信息和知识,对各个领域将有着广泛的应用,如电子商务、O2O、物流配送等,都是利用大数据进行发展的领域,这些创新的运营模式,正在协助企业不断地发展新业务。因此对大数据的有效处理是非常必要的,是当下广阔市场的强需求。
聚类集成技术本身具有并行化的思想,能够处理较大数据,但是单机算法的局限,使得以往聚类集成方法不能够处理大规模数据。Spark是一个开源大数据生态圈,由美国加州大学伯克利分校AMP实验室开发的一种基于内存的分布式计算系统。相比MapReduce,Spark拥有MapReduce的优点的同时,减少了MapReduce各个Job的中间计算保存环节,大大减少了计算时间,以及数据处理的效率。Spark的核心是弹性分布式数据集(RDD),它是一个抽象的概念,分布于各个计算节点存储于内存中的数据对象集合,RDD分为转换和动作两种操作,可以对数据对象进行函数处理。
三支决策思想的提出,从另一个角度定义了现实生活中存在的各种现象,给出了新的思考问题和解决问题的方式。研究者们将三支决策思想转换为一个理论体系,广泛适用于各个领域,如心理学领域、医疗诊断领域、管理学领域等等。对于三支聚类,主要体现于对聚类过程的三支决策和聚类结果的三支划分。以往的聚类结果,通常用一个集合表示,从决策角度来看,这属于一种二支的表示方式,即集合中的某个数据对象要么属于这个类簇,要么不属于这个类簇。这种明确二支划分数据对象的缺点是,不能够表现出那些可能属于这个类簇的数据对象,因而不能直观地表现出对象对构建类簇的影响程度。因为用三支决策的类簇表示更为合理,将确定属于该类簇的数据对象划分到类簇的核心域部分;将可能属于该类簇的数据对象划分到类簇的边缘域部分;将确定不属于该类簇的数据对象划分到类簇的琐碎域部分。
选择性集成是聚类集成的一种扩展,选择性集成思想在于删除差的基聚类器,选择出具有准确度高、差异性大的聚类成员,以使得最终得到的聚类结果具有更高的质量以及鲁棒性。选择性集成的优势在于,能够剔除冗余,改善基聚类器的质量;减少聚类集成压力;优化最终聚类结果。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种有效提高聚类集成结果的质量,能够为用户提供一个鲁棒性更高、扩展性更强的数据挖掘策略,提高算法效率,以满足用户需求的方法。本发明的技术方案如下:
一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,其包括以下步骤:
步骤1,对大数据集进行分区管理并生成对应的弹性分布式数据集RDD;
步骤2,使用基于Spark的K-Means聚类算法对每个分区的数据进行聚类,生成多个不同的聚类成员;
步骤3,通过两次评价,构造聚类成员新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;
步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。
进一步的,所述步骤1对大规模数据进行分区管理具体包括步骤:首先将大规模数据集存储在分布式文件系统HDFS下;然后初始化环境变量SparkContext,再通过函数textFile()将数据集转换成弹性分布式数据集RDD形式,创建分区个数numPratitions,用函数getPartition(key:Any)对输入的key做计算,返回key的分区ID。
进一步的,所述步骤2使用基于Spark的K-Means聚类算法对每个分区的数据进行聚类,生成多个不同的聚类成员具体包括步骤:
通过设置类簇数目k以及不同的迭代次数,将类簇个数k映射到每个分区,运行算法,输出键值对(id,x),其中id标记了数据对象x的簇号,然后合并分区得到聚类结果,得到m个不同的聚类成员。
进一步的,所述K-Means聚类算法具体包括:
Step1:对输入数据集进行分区,得到K个分区的RDD1;
Step2:在前k个分区中,每个分区随机选择一个点作为初始聚类中心,存储在RDD2中;
Step3:根据欧式距离公式计算每个数据对象与聚类中心的距离,并以键值对(xi,e)的形式存储在RDD3中;
Step4:对RDD3进行Reduce操作,对数据对象进行类簇划分,并以键值对(id,xi)的形式存储在RDD4中,id记录每个数据对象的簇号;
Step5:在RDD5中计算每个类簇的平均值,得到新的聚类中心点;其中RDD1-RDD5分别表示第一弹性分布式数据集-第五弹性分布式数据集;
Step6:循环迭代Step3至Step5,直到达到最大迭代次数,输出聚类结果。
进一步的,步骤3中聚类成员的加权选择过程具体包括步骤:所述步骤4中三支聚类划分方法具体如下:
(1)OVERLAP重叠矩阵的构造,将第一个聚类成员作为参照划分,余下的m-1个聚类成员分别与该聚类成员构造一个k×k的OVERLAP矩阵,矩阵记录两个划分中每个类簇所覆盖的相同对象的个数,列表示需要标签对齐的聚类成员的簇号,行表示第一个参照划分的簇号,选择矩阵每行覆盖相同对象个数最大的类簇标签,然后将标签修改为参照划分对应的簇号标签;
(2)使用如下公式作为第一次评价,计算每个聚类成员的CH值:
其中,数据集U={x1,x2,...,xn,...,xN},表示数据集中心点,N为总的数据对象个数,k为当前类簇,m个聚类成员的集合表示为R={R(1),R(2),...,R(i),...,R(m)}。对于每个聚类成员,存在K个类簇,表示为R(i)={C1,C2,...,Ck,...,CK},表示类簇Ck的中心点,d表示计算对象间的距离。CH指标通过类间分离度和类内紧密度的比值得到,其中通过计算各类簇中心到其他类簇中心的距离得到分离度,计算一个类簇的各数据对象到该类簇中心的距离得到紧密度,取CH值最大的聚类成员作为参考划分;
求得每个聚类成员R={R(1),R(2),...,R(i),...,R(m)}的CH值,R(m)表示第m个聚类成员,R(i)表示第i个聚类成员,取CH值最大的聚类结果作为参考划分R(*)
(3)计算每个聚类成员的准确度N(a)和差异性N(d),根据得到的准确度和差异性构造评价函数E(Ri),规范化权值公式如下:
其中Z用于将权值规范化,使得聚类标记的权值满足以下条件:
(4)设置阈值权值小于这个阈值的结果不参与集成,从而选出新的聚类成员
进一步的,将得到的新的聚类成员R*,根据多数投票规则,构造一个N×k的带权重的投票矩阵,投票矩阵记录了每个数据对象被划分到不同类簇所对应的聚类成员的权重之和,根据三支决策规则,设置阈值阈值(α,β)取值范围为0≤β<α≤1,将每个数据对象依次划分到类簇的核心域和边缘域中,得到最终的三支聚类结果。
本发明的优点及有益效果如下:
本发明提出一种基于Spark平台采用两次评价的加权选择集成三支聚类,能够处理大规模不确定性数据,得到三支的聚类结果,可以直观的刻画不确定性数据的类簇划分,更加符合实际情况和很多现实应用场景。选择集成有效提高聚类集成结果的质量,能够为用户提供一个鲁棒性更高、扩展性更强的数据挖掘策略,提高算法效率,以满足用户需求。
本发明主要创新点包括:
1、基于Spark的分布式聚类算法框架,能够处理大规模数据集;
2、通过两次评价,构造新的评价函数,提出新的加权选择集成策略;
3、针对不确定数据对象,利用三支决策划分规则,对聚类结果三支表示,更直观精确的刻画了不确定数据的类簇划分。
附图说明
图1是本发明提供优选实施例的基于Spark平台采用两次评价的加权选择集成三支聚类流程框图;
图2基于Spark的数据分块流程框图;
图3Spark平台的执行流程框图;
图4基于Spark的K-Means聚类算法的RDD转换图;
图5聚类成员选择流程框图;
图6三支结果表示示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本发明提出的一种基于Spark平台采用两次评价的加权选择集成三支聚类流程框图,自定义分区阶段,对输入数据集进行数据分区;通过基于Spark的K-Means聚类算法,设置初始类簇数目以及不同的迭代次数,生成初始的聚类成员;将初始聚类成员进行标签对齐,然后通过两次评价,选择出新的聚类成员,其中第一次评价是为了寻找参考划分,作为第二次评价的输入,第二次评价通过计算准确度和差异性得到规范化权值;根据带权重的新的聚类成员,构造出带权重的投票矩阵,再根据三支决策规则,得到三支表示的聚类结果。
(1)自定义分区阶段
如图2所示为基于Spark的数据分块流程框图。对于输入的原始大规模数据集,将其转换为Spark平台的RDD,完成初始化操作。首先初始化环境变量SparkContext,然后通过函数textFile()将数据集转换成RDD形式,创建分布式数据集,以便之后可以对数据集进行并行处理。通过函数numPartitions:Int,返回需要创建的分区个数,函数getPartition(key:Any):Int根据键key计算分区值,返回该键key的分区ID,范围一定是0到numPartitons-1,确保返回的永远是一个非负数。最后通过函数partitionBy()使用自定义的这个分区。
如图3所示为Spark平台的执行流程图。首先客户端将生成的作业信息提交给ResourceManager,NodeManager启动SparkAppMaster,SparkAppMaster初始化作业并像ResourceManager申请资源,然后NodeManager启动相应的SparkExecutor执行任务,最后客户端可向SparkAPPMaster获得作业运行状态。
(2)聚类成员生成阶段
如图4所示为基于Spark的K-Means聚类算法的RDD转换图。旨在通过设置不同迭代次数,并行生成多个初始聚类成员,具体步骤如下:
Step1:根据上述分区方法对输入数据集进行分区,得到K个分区的RDD1;
Step2:在前k个分区中,每个分区随机选择一个点作为初始聚类中心,存储在RDD2中;
Step3:根据欧式距离公式计算每个数据对象与聚类中心的距离,并以键值对(xi,e)的形式存储在RDD3中;
Step4:对RDD3进行Reduce操作,对数据对象进行类簇划分,并以键值对(id,xi)的形式存储在RDD4中,id记录每个数据对象的簇号;
Step5:在RDD5中计算每个类簇的平均值,得到新的聚类中心点;
Step6:循环迭代Step3至Step5,直到达到最大迭代次数,输出聚类结果。
计算过程中,初始化设置不同的迭代次数,以并行得到多个不同的聚类结果作为初始聚类成员。
(3)聚类成员选择阶段
如图5为聚类成员选择流程框图。对于得到的初始聚类成员R={R(1),R(2),...,R(i),...,R(m)},以第一个聚类成员R(1)的类簇标签为标准,将剩余的m-1个聚类成员类簇标签进行对齐。得到一个k×k的OVERLAP矩阵,矩阵记录两个划分中每个类簇所覆盖的相同对象的个数,列表示需要标签对齐的聚类成员的簇号,行表示第一个参照划分的簇号。选择矩阵每行覆盖相同对象个数最大的类簇标签,然后将标签修改为参照划分对应的簇号标签。
通过第一个评价函数CH,计算每个聚类成员的CH值,选择值最大的聚类成员作为参考划分,用于第二次评价函数计算。构造第二次评价函数主要通过计算每个聚类成员的准确度和差异性,从而得到一个新的评价函数。将第二个评价函数根据公式(5)和(6)计算得到每个聚类成员的权重w={w(1),w(2),...,w(i),...,w(n)},再通过阈值λ得到新的聚类成员R*
(4)三支投票阶段
根据新的聚类成员以及每个聚类成员的权重,构造一个N×k的投票矩阵,矩阵记录每个数据对象被划分到类簇Ci的权重之和。然后根据三支决策规则,设置阈值其中,数据对象在某个类簇的得票数大于等于α,将其划分在该类簇的核心域Co(Ck);若票数大于等于β,将其划分在这些类簇的边缘域Fr(Ck);若以上条件都不满足,则找到该数据对象得票数大于0的类簇,将其划分在这些类簇的边缘域。
以下举例对本发明的实施作进一步说明。本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
假设一个数据集有10个对象,维度为2,数据集具体为{(1,3),(2,2),(9,2),(7,1),(5,4),(4,5),(4,4),(1,5),(9,4),(2,3)},初始类簇个数k设置为3,迭代次数分别为2,3,4,5,6次。
首先,读取数据集并将数据集转换为RDD形式,设置分区个数为3,假设划分结果为{((1,3),(2,2),(9,2)),((7,1),(5,4),(4,5)),((4,4),(1,5),(9,4),(2,3))},每个分区中选择一个数据对象作为初始聚类中心,分别是(2,2),(4,5),(9,4)。根据欧氏距离计算数据对象到聚类中心的距离如下表:
1 5 8
0 1.414214 3.605551 8.062258
2 7 5.830952 2
3 5.09902 5 3.605551
4 3.605551 1.414214 4
6 2.828427 1 5
7 3.162278 3 8.062258
9 1 2.828427 7.071068
所以第一次迭代得到的聚类结果是{((1,3),(2,2),(2,3)),((5,4),(4,5),(4,4),(1,5)),((9,2),(7,1),(9,4))},求每个类簇的平均值,更新聚类中心,得到第二次迭代的聚类中心为(1.6667,2.6667),(3.5,4.5),(8.3333,2.3333)。再次计算距离为:
所以第二次迭代得到的聚类结果是{((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4)),((9,2),(7,1),(9,4))}。假设通过基于Spark的K-Means聚类算法得到5个聚类结果,分别是R(1)={((1,3),(2,2),(2,3)),((5,4),(4,5),(4,4),(1,5)),((9,2),(7,1),(9,4))}、R(2)={((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4)),((9,2),(7,1),(9,4))}、R(3)={((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4),(9,4)),((9,2),(7,1))}、R(4)={((1,3),(2,2),(2,3),(7,1)),((5,4),(4,5),(4,4),(1,5)),((9,2),(9,4))}、R(5)={((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4)),((9,2),(7,1),(9,4))}。
然后,根据公式(1)计算以上每个聚类成员的CH值,分别为:10.88,16.95,5.58,3.60,8.98,其中,R(2)的CH值最大,说明其聚类效果最好,故选择R(2)作为参考划分。
公式(2)到公式(5),利用第一次评价结果,构建第二次新的评价函数,目的在于衡量聚类成员的聚类质量,然后将评价函数转换为权重。选择权重大于等于1/m=1/5=0.2的聚类成员进行三支投票,得到最终三支的聚类结果。计算得到R(1)-R(5)的权重分别为0.201332,0.217771,0.192346,0.173162,0.217771,故选择权重大于等于0.2的聚类结果得到新的聚类成员。
得到带权的投票矩阵为:
计算阈值故将数据对象(1,3),(2,2),(1,5),(2,3)划分到类簇1的核心域,数据对象(5,4),(4,5),(4,4)划分到类簇2的核心域,数据对象(9,2),(7,1),(9,4)划分到类簇3的核心域,数据对象(1,5)划分到类簇2的边缘域。最终三支聚类结果示意图如图6所示。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,其特征在于,包括以下步骤:
步骤1,对大数据集进行分区管理并生成对应的弹性分布式数据集RDD;
步骤2,使用基于Spark的K-Means聚类算法同时对每个分区的数据进行聚类,生成多个不同的聚类成员;
步骤3,通过两次评价,构造聚类成员新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;
步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。
2.根据权利要求1所述的基于Spark平台采用两次评价的加权选择集成三支聚类方法,其特征在于,所述步骤1对大规模数据进行分区管理具体包括步骤:首先将大规模数据集存储在分布式文件系统HDFS下;然后初始化环境变量SparkContext,再通过函数textFile()将数据集转换成弹性分布式数据集RDD形式,创建分区个数numPratitions,用函数getPartition(key:Any)对输入的key做计算,返回key的分区ID。
3.根据权利要求1所述的基于Spark平台采用两次评价的加权选择集成三支聚类方法,其特征在于,所述步骤2使用基于Spark的K-Means聚类算法对每个分区的数据进行聚类,生成多个不同的聚类成员具体包括步骤:
通过设置类簇数目k以及不同的迭代次数,将类簇个数k映射到每个分区,运行算法,输出键值对(id,x),其中id标记了数据对象x的簇号,然后合并分区得到聚类结果,得到m个不同的聚类成员。
4.根据权利要求3所述的基于Spark平台采用两次评价的加权选择集成三支聚类方法,其特征在于,所述K-Means聚类算法具体包括:
Step1:对输入数据集进行分区,得到K个分区的RDD1;
Step2:在前k个分区中,每个分区随机选择一个点作为初始聚类中心,存储在RDD2中;
Step3:根据欧式距离公式计算每个数据对象与聚类中心的距离,并以键值对(xi,e)的形式存储在RDD3中;
Step4:对RDD3进行Reduce操作,对数据对象进行类簇划分,并以键值对(id,xi)的形式存储在RDD4中,id记录每个数据对象的簇号;
Step5:在第RDD5中计算每个类簇的平均值,得到新的聚类中心点,其中RDD1-RDD5分别表示第一弹性分布式数据集-第五弹性分布式数据集;
Step6:循环迭代Step3至Step5,直到达到最大迭代次数,输出聚类结果。
5.根据权利要求3或4所述的基于Spark平台采用两次评价的加权选择集成三支聚类方法,其特征在于,步骤3中聚类成员的加权选择过程具体包括步骤:所述步骤4中三支聚类划分方法具体如下:
(1)OVERLAP重叠矩阵的构造,将第一个聚类成员作为参照划分,余下的m-1个聚类成员分别与该聚类成员构造一个k×k的OVERLAP矩阵,矩阵记录两个划分中每个类簇所覆盖的相同对象的个数,列表示需要标签对齐的聚类成员的簇号,行表示第一个参照划分的簇号,选择矩阵每行覆盖相同对象个数最大的类簇标签,然后将标签修改为参照划分对应的簇号标签;
(2)使用如下公式作为第一次评价,计算每个聚类成员的CH值:
<mrow> <mi>C</mi> <mi>H</mi> <mrow> <mo>(</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mo>-</mo> <mi>k</mi> </mrow> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mfrac> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>&amp;Element;</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </munder> <mo>|</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>|</mo> <msup> <mi>d</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mover> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>,</mo> <mover> <mi>U</mi> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>&amp;Element;</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> </mrow> </munder> <msup> <mi>d</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mover> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,数据集U={x1,x2,...,xn,...,xN},表示数据集中心点,N为总的数据对象个数,k为当前类簇,m个聚类成员的集合表示为R={R(1),R(2),...,R(i),...,R(m)}。对于每个聚类成员,存在K个类簇,表示为R(i)={C1,C2,...,Ck,...,CK},表示类簇Ck的中心点,d表示计算对象间的距离,CH指标通过类间分离度和类内紧密度的比值得到,其中通过计算各类簇中心到其他类簇中心的距离得到分离度,计算一个类簇的各数据对象到该类簇中心的距离得到紧密度,取CH值最大的聚类成员作为参考划分;
求得每个聚类成员R={R(1),R(2),...,R(i),...,R(m)}的CH值,R(m)表示第m个聚类成员,R(i)表示第i个聚类成员,取CH值最大的聚类结果作为参考划分R(*)
(3)计算每个聚类成员的准确度N(a)和差异性N(d),根据得到的准确度和差异性构造评价函数E(Ri),规范化权值公式如下:
<mrow> <mi>w</mi> <mrow> <mo>(</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mi>E</mi> <mrow> <mo>(</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>Z</mi> </mfrac> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
其中Z用于将权值规范化,使得聚类标记的权值满足以下条件:
<mrow> <mi>w</mi> <mrow> <mo>(</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>&gt;</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>a</mi> <mi>n</mi> <mi>d</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>w</mi> <mrow> <mo>(</mo> <msup> <mi>R</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
(4)设置阈值权值小于这个阈值的结果不参与集成,从而选出新的聚类成员
6.根据权利要求5所述的基于Spark平台采用两次评价的加权选择集成三支聚类方法,其特征在于,将得到的新的聚类成员R*,根据多数投票规则,构造一个N×k的带权重的投票矩阵,投票矩阵记录了每个数据对象被划分到不同类簇所对应的聚类成员的权重之和,根据三支决策规则,设置阈值 阈值(α,β)取值范围为0≤β<α≤1,将每个数据对象依次划分到类簇的核心域和边缘域中,得到最终的三支聚类结果。
CN201710548072.3A 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法 Active CN107480694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710548072.3A CN107480694B (zh) 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710548072.3A CN107480694B (zh) 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Publications (2)

Publication Number Publication Date
CN107480694A true CN107480694A (zh) 2017-12-15
CN107480694B CN107480694B (zh) 2021-02-09

Family

ID=60594919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710548072.3A Active CN107480694B (zh) 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Country Status (1)

Country Link
CN (1) CN107480694B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898432A (zh) * 2018-06-25 2018-11-27 武汉斗鱼网络科技有限公司 一种广告投放效果评估方法、装置及电子设备
CN109241991A (zh) * 2018-07-23 2019-01-18 南昌大学 一种基于信息熵权重增量学习策略的数据聚类集成方法
CN109359679A (zh) * 2018-10-10 2019-02-19 洪月华 适用于广域网的分布式交通大数据并行聚类方法
CN110059142A (zh) * 2019-04-24 2019-07-26 重庆邮电大学 一种高效的并行不确定性数据聚类方法
CN110766032A (zh) * 2018-07-27 2020-02-07 国网江西省电力有限公司九江供电分公司 基于分层递进策略的配电网数据聚类集成方法
CN110880015A (zh) * 2019-10-16 2020-03-13 河南工业大学 一种基于模糊c均值的分布式集成聚类分析方法
CN111401392A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 聚类集成方法及装置、电子设备及存储介质
US20200272861A1 (en) * 2017-08-03 2020-08-27 Tohoku University Method for calculating clustering evaluation value, and method for determining number of clusters
CN112418522A (zh) * 2020-11-23 2021-02-26 重庆邮电大学 一种基于三支集成预测模型的工业加热炉钢温预测方法
CN114124716A (zh) * 2020-08-30 2022-03-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向软件定义网络的均衡分域方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693287A (zh) * 2012-05-11 2012-09-26 北京航空航天大学 一种基于聚类方法和粒子群方法的群体决策共识度自动调整方法
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
US20140351196A1 (en) * 2013-05-21 2014-11-27 Sas Institute Inc. Methods and systems for using clustering for splitting tree nodes in classification decision trees
CN106203507A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于分布式计算平台改进的k均值聚类方法
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693287A (zh) * 2012-05-11 2012-09-26 北京航空航天大学 一种基于聚类方法和粒子群方法的群体决策共识度自动调整方法
US20140351196A1 (en) * 2013-05-21 2014-11-27 Sas Institute Inc. Methods and systems for using clustering for splitting tree nodes in classification decision trees
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN106203507A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于分布式计算平台改进的k均值聚类方法
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610083B2 (en) * 2017-08-03 2023-03-21 Tohoku University Method for calculating clustering evaluation value, and method for determining number of clusters
US20200272861A1 (en) * 2017-08-03 2020-08-27 Tohoku University Method for calculating clustering evaluation value, and method for determining number of clusters
CN108898432A (zh) * 2018-06-25 2018-11-27 武汉斗鱼网络科技有限公司 一种广告投放效果评估方法、装置及电子设备
CN109241991A (zh) * 2018-07-23 2019-01-18 南昌大学 一种基于信息熵权重增量学习策略的数据聚类集成方法
CN110766032A (zh) * 2018-07-27 2020-02-07 国网江西省电力有限公司九江供电分公司 基于分层递进策略的配电网数据聚类集成方法
CN109359679A (zh) * 2018-10-10 2019-02-19 洪月华 适用于广域网的分布式交通大数据并行聚类方法
CN111401392B (zh) * 2019-01-02 2023-05-09 中国移动通信有限公司研究院 聚类集成方法及装置、电子设备及存储介质
CN111401392A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 聚类集成方法及装置、电子设备及存储介质
CN110059142A (zh) * 2019-04-24 2019-07-26 重庆邮电大学 一种高效的并行不确定性数据聚类方法
CN110880015B (zh) * 2019-10-16 2023-04-07 河南工业大学 一种基于模糊c均值的分布式集成聚类分析方法
CN110880015A (zh) * 2019-10-16 2020-03-13 河南工业大学 一种基于模糊c均值的分布式集成聚类分析方法
CN114124716A (zh) * 2020-08-30 2022-03-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向软件定义网络的均衡分域方法
CN114124716B (zh) * 2020-08-30 2023-10-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向软件定义网络的均衡分域方法
CN112418522A (zh) * 2020-11-23 2021-02-26 重庆邮电大学 一种基于三支集成预测模型的工业加热炉钢温预测方法

Also Published As

Publication number Publication date
CN107480694B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN107480694A (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
Li et al. A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks
CN106528874B (zh) 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN106384282A (zh) 构建决策模型的方法和装置
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN108446408A (zh) 一种基于PageRank的短文本摘要方法
Hao et al. An unsupervised detection method for shilling attacks based on deep learning and community detection
CN100354864C (zh) 数据挖掘中一种基于混合互信息的特征选择方法
Moghimi et al. Applying multi-criteria decision-making (MCDM) methods for economic ranking of Tehran-22 districts to establish financial and commercial centers: Case: City of Tehran
WO2020118928A1 (zh) 一种面向海量设备运行数据的分布式时间序列模式检索方法
Mao et al. A MapReduce-based K-means clustering algorithm
Nasrabadi et al. A stepwise benchmarking approach to DEA with interval scale data
CN106022578A (zh) 基于数据高维化和K-means聚类的居民用电峰谷平时段划分方法
Li et al. An ensemble clustering framework based on hierarchical clustering ensemble selection and clusters clustering
Chen et al. A new data envelopment analysis clustering approach within cross-efficiency framework
CN112925994B (zh) 基于局部和全局信息融合的群组推荐方法、系统及设备
Nguyen et al. Detecting correlated columns in relational databases with mixed data types
Li et al. An efficient semi-supervised community detection framework in social networks
He et al. Multi-objective spatially constrained clustering for regionalization with particle swarm optimization
Pathak et al. Cluster-and-conquer: A framework for time-series forecasting
Majidpour Time series prediction for electric vehicle charging load and solar power generation in the context of smart grid
Laurinec et al. Usefulness of unsupervised ensemble learning methods for time series forecasting of aggregated or clustered load
Sürer et al. Discovering interpretable structure in longitudinal predictors via coefficient trees
Xin et al. Intuitionistic fuzzy three-way decision method based on data envelopment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241010

Address after: Room 204, 2nd Floor, Building B4, Gaoke Yungu Industrial Park, No. 6 Chongye Avenue, High tech Industrial Development Zone, Weinan City, Shaanxi Province 714026

Patentee after: Shaanxi Yunqianmeng Bean Sprout Technology Incubator Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China