CN107291843A

CN107291843A - 基于分布式计算平台的层次聚类改进方法

Info

Publication number: CN107291843A
Application number: CN201710403380.7A
Authority: CN
Inventors: 肖甫; 刘磊; 王少辉; 沙乐天; 王汝传
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2017-10-24

Abstract

本发明公开一种基于分布式计算平台的层次聚类改进方法，采用K‑均值算法将数据聚类为N个簇，对N个簇进行全排列，形成顺序不同的N！个序列，再利用BIRCH算法在Spark平台上计算，Spark平台利用分区的调配，并行化进行计算；根据数据簇的紧密性对结果进行筛选，保留数据簇紧密性最好且离群点个数最少的一组数据。本发明增强数据聚合的质量，提高了聚合效率。

Description

基于分布式计算平台的层次聚类改进方法

技术领域

本发明属于大数据聚类算法技术领域，特别是基于分布式计算平台的层次聚类方法。

背景技术

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)自其产生就受到了广泛的关注，它克服了凝聚聚类方法所面临的两个困难：(1)可伸缩性；(2)不能撤销先前步骤所做的工作。聚类算法BIRCH来源于Zhang、Ramakrishnan和Livny的工作，他们创建的BIRCH算法的最终结果是建立一棵类似B树的聚类特征树。聚类特征CF(Cluster Feature)是BIRCH算法的核心概念。CF正是采用三元组(N，LS，SS)的方式才达到了压缩数据集的效果，从而使BIRCH算能够在有限的内存和低IO开销的情况下得以运行。也正是源于BIRCH算法的这些优势，越来越多的研究者也将目光投向了BIRCH算法的并行化研究。

随着大数据技术的快速发展和日渐成熟，目前的BIRCH算法还是无法解决将散列数据聚合成统一的簇，仍依赖于输入数据的顺序，亟待一个良好的算法来解决这个存在的问题。

发明内容

本发明的目的是提供一种适用于对大数据聚类的性能提高的有效执行方法，以实现在当今大数据时代对大数据挖掘聚类进行更精准性的操作，对以前的BIRCH聚类算法输入数据的处理，保证聚类的准确及离群点处理。

基于分布式计算平台的层次聚类改进方法，包括，

S1、主节点和从节点上分别安装有Hadoop和Spark集群，通过HDFS获取数据；

S2、采用K-均值算法将数据聚类为N个簇，N的范围为3～5的正整数；

S3、对N个簇进行全排列，形成顺序不同的N！个序列，再利用BIRCH算法在Spark平台上计算，Spark平台利用分区的调配，并行化进行计算；

S4、对S3的计算结果根据数据簇的紧密性进行筛选，保留数据簇紧密性最好且离群点个数最少的一组数据，所述数据簇的紧密性指计算数据簇的中心点到数据簇各个点的距离和。

S3中所述利用BIRCH算法在Spark平台上计算的具体过程为：程序被提交到Spark平台后，为程序分配资源，将程序转换并执行，程序中有多个任务，每个任务根据数据集的宽依赖关系切分为若干Stage，每个Stage中包含一组Task，每个Task对应一个分区，最后Task被封装好后放入Executor的线程池中进行并行化计算。

本发明是一种适用于数据挖掘算法中层次聚类算法的改进优化方案，该方案基于K-均值算法和BIRCH算法，首先对聚类数据使用K-均值算法进行聚合分类，然后对处理后的数据进行分簇排序，最后再利用BIRCH算法进行聚合，从而增强数据聚合的质量，提高聚合效率。为大数据聚类再次打下基础。

附图说明

图1为本发明基于分布式计算平台的层次聚类改进方法流程图；

图2为图1实施例中并行化处理流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

该基于Spark平台的针对于BIRCH算法进行改进的方案，包含在以下具体步骤中：

步骤1、数据来源：平台包括安装有Ubuntu系统的虚拟机集群，共三台主机，一个主节点，两个从节点。

步骤2、主节点和从节点分别安装Hadoop和Spark集群，程序从HDFS上获取给定的实验数据。

步骤3、针对读取的数据，首先利用K-均值算法，将数据粗略的聚类为N个簇，其中N为引入的参数，对于N的取值，取3,4,5最合适。

步骤4、针对N个簇，对数据进行全排列，形成顺序不同的N！个序列。

步骤5、将N！个序列依次利用BIRCH算法在Spark平台上计算，Spark平台利用分区的调配，并行化进行计算。

步骤6、记录计算后的结果，进行比较筛选。保留聚类效果最好的一组数据。

步骤2-2中对K-均值算法的结果进行全排列，获取到数据的所有排列序列，最后利用BIRCH算法来处理，总能找到最优的一组数据，有效的提高了聚类的质量。

Claims

1.基于分布式计算平台的层次聚类改进方法，其特征在于，包括，

2.根据权利要求1所述的层次聚类改进方法，其特征在于，S3中所述利用BIRCH算法在Spark平台上计算的具体过程为：程序被提交到Spark平台后，为程序分配资源，将程序转换并执行，程序中有多个任务，每个任务根据数据集的宽依赖关系切分为若干Stage，每个Stage中包含一组Task，每个Task对应一个分区，最后Task被封装好后放入Executor的线程池中进行并行化计算。