CN107291843A - 基于分布式计算平台的层次聚类改进方法 - Google Patents

基于分布式计算平台的层次聚类改进方法 Download PDF

Info

Publication number
CN107291843A
CN107291843A CN201710403380.7A CN201710403380A CN107291843A CN 107291843 A CN107291843 A CN 107291843A CN 201710403380 A CN201710403380 A CN 201710403380A CN 107291843 A CN107291843 A CN 107291843A
Authority
CN
China
Prior art keywords
data
cluster
aggregate
algorithms
compactness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710403380.7A
Other languages
English (en)
Inventor
肖甫
刘磊
王少辉
沙乐天
王汝传
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710403380.7A priority Critical patent/CN107291843A/zh
Publication of CN107291843A publication Critical patent/CN107291843A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Devices For Executing Special Programs (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于分布式计算平台的层次聚类改进方法,采用K‑均值算法将数据聚类为N个簇,对N个簇进行全排列,形成顺序不同的N!个序列,再利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算;根据数据簇的紧密性对结果进行筛选,保留数据簇紧密性最好且离群点个数最少的一组数据。本发明增强数据聚合的质量,提高了聚合效率。

Description

基于分布式计算平台的层次聚类改进方法
技术领域
本发明属于大数据聚类算法技术领域,特别是基于分布式计算平台的层次聚类方法。
背景技术
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)自其产生就受到了广泛的关注,它克服了凝聚聚类方法所面临的两个困难:(1)可伸缩性;(2)不能撤销先前步骤所做的工作。聚类算法BIRCH来源于Zhang、Ramakrishnan和Livny的工作,他们创建的BIRCH算法的最终结果是建立一棵类似B树的聚类特征树。聚类特征CF(Cluster Feature)是BIRCH算法的核心概念。CF正是采用三元组(N,LS,SS)的方式才达到了压缩数据集的效果,从而使BIRCH算能够在有限的内存和低IO开销的情况下得以运行。也正是源于BIRCH算法的这些优势,越来越多的研究者也将目光投向了BIRCH算法的并行化研究。
随着大数据技术的快速发展和日渐成熟,目前的BIRCH算法还是无法解决将散列数据聚合成统一的簇,仍依赖于输入数据的顺序,亟待一个良好的算法来解决这个存在的问题。
发明内容
本发明的目的是提供一种适用于对大数据聚类的性能提高的有效执行方法,以实现在当今大数据时代对大数据挖掘聚类进行更精准性的操作,对以前的BIRCH聚类算法输入数据的处理,保证聚类的准确及离群点处理。
基于分布式计算平台的层次聚类改进方法,包括,
S1、主节点和从节点上分别安装有Hadoop和Spark集群,通过HDFS获取数据;
S2、采用K-均值算法将数据聚类为N个簇,N的范围为3~5的正整数;
S3、对N个簇进行全排列,形成顺序不同的N!个序列,再利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算;
S4、对S3的计算结果根据数据簇的紧密性进行筛选,保留数据簇紧密性最好且离群点个数最少的一组数据,所述数据簇的紧密性指计算数据簇的中心点到数据簇各个点的距离和。
S3中所述利用BIRCH算法在Spark平台上计算的具体过程为:程序被提交到Spark平台后,为程序分配资源,将程序转换并执行,程序中有多个任务,每个任务根据数据集的宽依赖关系切分为若干Stage,每个Stage中包含一组Task,每个Task对应一个分区,最后Task被封装好后放入Executor的线程池中进行并行化计算。
本发明是一种适用于数据挖掘算法中层次聚类算法的改进优化方案,该方案基于K-均值算法和BIRCH算法,首先对聚类数据使用K-均值算法进行聚合分类,然后对处理后的数据进行分簇排序,最后再利用BIRCH算法进行聚合,从而增强数据聚合的质量,提高聚合效率。为大数据聚类再次打下基础。
附图说明
图1为本发明基于分布式计算平台的层次聚类改进方法流程图;
图2为图1实施例中并行化处理流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
该基于Spark平台的针对于BIRCH算法进行改进的方案,包含在以下具体步骤中:
步骤1、数据来源:平台包括安装有Ubuntu系统的虚拟机集群,共三台主机,一个主节点,两个从节点。
步骤2、主节点和从节点分别安装Hadoop和Spark集群,程序从HDFS上获取给定的实验数据。
步骤3、针对读取的数据,首先利用K-均值算法,将数据粗略的聚类为N个簇,其中N为引入的参数,对于N的取值,取3,4,5最合适。
步骤4、针对N个簇,对数据进行全排列,形成顺序不同的N!个序列。
步骤5、将N!个序列依次利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算。
步骤6、记录计算后的结果,进行比较筛选。保留聚类效果最好的一组数据。
步骤2-2中对K-均值算法的结果进行全排列,获取到数据的所有排列序列,最后利用BIRCH算法来处理,总能找到最优的一组数据,有效的提高了聚类的质量。

Claims (2)

1.基于分布式计算平台的层次聚类改进方法,其特征在于,包括,
S1、主节点和从节点上分别安装有Hadoop和Spark集群,通过HDFS获取数据;
S2、采用K-均值算法将数据聚类为N个簇,N的范围为3~5的正整数;
S3、对N个簇进行全排列,形成顺序不同的N!个序列,再利用BIRCH算法在Spark平台上计算,Spark平台利用分区的调配,并行化进行计算;
S4、对S3的计算结果根据数据簇的紧密性进行筛选,保留数据簇紧密性最好且离群点个数最少的一组数据,所述数据簇的紧密性指计算数据簇的中心点到数据簇各个点的距离和。
2.根据权利要求1所述的层次聚类改进方法,其特征在于,S3中所述利用BIRCH算法在Spark平台上计算的具体过程为:程序被提交到Spark平台后,为程序分配资源,将程序转换并执行,程序中有多个任务,每个任务根据数据集的宽依赖关系切分为若干Stage,每个Stage中包含一组Task,每个Task对应一个分区,最后Task被封装好后放入Executor的线程池中进行并行化计算。
CN201710403380.7A 2017-06-01 2017-06-01 基于分布式计算平台的层次聚类改进方法 Pending CN107291843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710403380.7A CN107291843A (zh) 2017-06-01 2017-06-01 基于分布式计算平台的层次聚类改进方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710403380.7A CN107291843A (zh) 2017-06-01 2017-06-01 基于分布式计算平台的层次聚类改进方法

Publications (1)

Publication Number Publication Date
CN107291843A true CN107291843A (zh) 2017-10-24

Family

ID=60094676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710403380.7A Pending CN107291843A (zh) 2017-06-01 2017-06-01 基于分布式计算平台的层次聚类改进方法

Country Status (1)

Country Link
CN (1) CN107291843A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347489A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于Spark的多中心数据协同计算的流处理方法
CN112200206A (zh) * 2019-07-08 2021-01-08 浙江宇视科技有限公司 基于分布式平台的birch算法改进方法、装置及设备
CN112506652A (zh) * 2020-12-01 2021-03-16 中国科学院深圳先进技术研究院 一种动态资源分区方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200206A (zh) * 2019-07-08 2021-01-08 浙江宇视科技有限公司 基于分布式平台的birch算法改进方法、装置及设备
CN112200206B (zh) * 2019-07-08 2024-02-27 浙江宇视科技有限公司 基于分布式平台的birch算法改进方法、装置及设备
CN110347489A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于Spark的多中心数据协同计算的流处理方法
CN110347489B (zh) * 2019-07-12 2021-08-03 之江实验室 一种基于Spark的多中心数据协同计算的流处理方法
CN112506652A (zh) * 2020-12-01 2021-03-16 中国科学院深圳先进技术研究院 一种动态资源分区方法
CN112506652B (zh) * 2020-12-01 2023-10-20 中国科学院深圳先进技术研究院 一种动态资源分区方法

Similar Documents

Publication Publication Date Title
US10558664B2 (en) Structured cluster execution for data streams
Moritz et al. Sparknet: Training deep networks in spark
Hanai et al. Distributed edge partitioning for trillion-edge graphs
Anchalia et al. MapReduce design of K-means clustering algorithm
CN103020256B (zh) 一种大规模数据的关联规则挖掘方法
CN103064745B (zh) 一种任务分配处理的方法及系统
CN107291843A (zh) 基于分布式计算平台的层次聚类改进方法
CN104391879B (zh) 层次聚类的方法及装置
WO2017124930A1 (zh) 一种特征数据处理方法及设备
CN103077083A (zh) 一种任务处理的方法及系统
US10162830B2 (en) Systems and methods for dynamic partitioning in distributed environments
US20210365300A9 (en) Systems and methods for dynamic partitioning in distributed environments
CN105488134A (zh) 大数据处理方法及大数据处理装置
CN104834709B (zh) 一种基于负载均衡的并行余弦模式挖掘方法
CN102902742A (zh) 一种云环境下的空间数据划分方法
CN106127244A (zh) 一种并行化K‑means改进方法及系统
Chaturvedi et al. An improvement in K-mean clustering algorithm using better time and accuracy
Yang et al. An adaptive batch-orchestration algorithm for the heterogeneous GPU cluster environment in distributed deep learning system
Senthilkumar et al. An efficient FP-Growth based association rule mining algorithm using Hadoop MapReduce
CN104281636A (zh) 海量报表数据并发分布式处理方法
CN105760478A (zh) 一种基于机器学习的大规模分布式的数据聚类方法
CN106484532A (zh) 面向sph流体模拟的gpgpu并行计算方法
CN104036141B (zh) 一种基于OpenCL的红黑树加速方法
CN108021935B (zh) 一种基于大数据技术的维度约简方法及装置
WO2016107297A1 (zh) MapReduce 平台上基于本地密度的聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024