CN104156463A - 一种基于MapReduce的大数据聚类集成方法 - Google Patents

一种基于MapReduce的大数据聚类集成方法 Download PDF

Info

Publication number
CN104156463A
CN104156463A CN201410416065.4A CN201410416065A CN104156463A CN 104156463 A CN104156463 A CN 104156463A CN 201410416065 A CN201410416065 A CN 201410416065A CN 104156463 A CN104156463 A CN 104156463A
Authority
CN
China
Prior art keywords
data
big
cluster
clustering
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410416065.4A
Other languages
English (en)
Inventor
方巍
文学志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201410416065.4A priority Critical patent/CN104156463A/zh
Publication of CN104156463A publication Critical patent/CN104156463A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于MapReduce的大数据聚类集成方法,包括如下步骤:步骤1,大数据切分和管理;步骤2,采用多重K的聚类集成算法生成多个基聚类;步骤3,获取集成关系;步骤4,确定最终聚类。本发明首先对原始数据进行分割,用切分好的非空小数据块代替原数据中的点集进行聚类,减少数据规模和数据处理所耗费时间。本发明采用云计算MapReduce编程模型,使得聚类过程在分布式集群上并行完成,克服了单机算法在存储和计算性能上的限制,从而有效处理大数据,不断地从中挖掘出有价值信息,为用户提供可定制性和可扩展性,并优化了算法执行效率,适用处理大数据环境下的数据处理、分析与计算,能够满足不同用户的需求。

Description

一种基于MapReduce的大数据聚类集成方法
技术领域
本发明属于大数据处理和挖掘技术领域,尤其是涉及一种基于MapReduce的大数据聚类集成方法。
背景技术
随着云计算大数据时代的到来,社会信息化和网络化的高速发展导致数据呈爆炸式增长。据统计,平均每一秒都有200万用户在使用Google搜索,Facebook用户每天共享的数量超过40亿。同时,各种监测、感应设备也源源不断的产生数据,科学计算、医疗卫生、金融、零售业等各行业也有大量数据不断产生。这些数据背后隐藏着许多有价值的信息和知识可被广泛用于各种应用,如市场分析、欺诈检测、顾客保有、产品控制和科学探索等。因此对大数据进行快速有效的处理是十分必要的,具有广阔的市场应用前景。
大数据是规模非常巨大和复杂的数据集,数据量达到PB、EB或ZB的级别,如果采用传统数据库管理工具处理大数据(例如获取、存储、检索、共享、分析和可视化)则会面临很多问题,如对数据库高并发读写要求、对海量数据的高效率存储和访问需求、对数据库高可扩展性和高可用性的需求,传统SQL等数据处理与分析方法在面临大数据处理时没有用武之地,性能极低。
发明内容
为解决上述问题,本发明公开了一种基于MapReduce的大数据聚类集成方法,采用MapReduce编程模型结合Kmeans聚类算法实现了大数据的快速有效处理,能够不断地从数据中挖掘出有价值信息。
集成学习(Ensemble Learning)是为某个问题训练一组学习器,并将这些学习器联合起来执行一定预测任务的一种机器学习技术。集成学习技术已经广泛的应用于生物认证、传感器故障容错、字符识别、辐射源识别、语言学、医学、交通、管理学等各个领域。聚类分析是在一个数据集中,根据元素之间的相似性来将相似的元素划分到同一组的一个过程。因此,高质量的聚类意味着,组(也可称为“簇”)内的元素相似性达到最大,而组间元素的相似性达到最小。现有的集成学习算法中,当训练集的规模较小时,集成学习的效果并不明显,有时还低于单个学习器的泛化性能。我们发现,对于大数据环境下,采用集成学习将具有较高的泛化性能。基于此,本发明提供了基于MapReduce编程模型上的大数据集成聚类学习方法:该方法对原始数据进行分割,用切分好的非空小数据块代替原数据中的点集进行聚类,减少数据规模和数据处理所耗费时间。
MapReduce是Google开发的主要用于大规模(TB级)数据文件处理的编程模型,执行方式如图1所示。其主要思想是通过“Map(映射)”和“Reduce(化简)”的概念来构成运算基本单元,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇总输出,即可并行处理海量数据。它的一般形式如下:
Map(k1,v1)->list(k2,v2)
Reduce(k2,list(v2))->list(v2)
简而言之,Map-Reduce编程模式将输入数据文件划分为M个独立的数据分片(split);然后分配给多个Worker启动M个Map函数并行地执行输出到中间文件(本地写)、并将计算结果以key/value对形式输出中间结果。中间结果key/value按照key分组,执行Reduce函数,根据从Master获得的中间文件位置信息,将Reduce命令发送给中间文件所在节点执行,计算并输出最终结果,MapReduce的输出存放在R个输出文件中,可进一步减少了传送中间文件对带宽的需求。
MapReduce是依赖于HDFS实现的。通常MapReduce会将被计算的数据分为很多小块,HDFS会将每个块复制若干份以确保系统的可靠性,同时它按照一定的规则将数据块放置在集群中的不同机器上,以便MapReduce在数据宿主机器上进行最便捷的计算。HDFS是Google GFS的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB级)的大文件(通常超过64M)。
虽然基于聚合方式的集成学习算法在大规模数据时具有良好的性能,但在实际应用中如果每个数据块Dj都用i种聚类算法学习集成(i=1,2,…,m,j=1,2,…,n),由于计算机内在资源有限,当m,n值较大时,选择的算法较多,数据集聚类较多时,仅用一台机器运算聚类集成算法效率极其低下。因此,本发明利用Map Reduce编程模型设计一种多重K聚类集成算法,设计模型如图2所示,将大数据切块存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切块数据,其key值为所属数据块Di。计算集群中的计算机Mi对本地存储的相应切块得采用n个聚类算法得到基聚类结果Ci,对同机器各聚类结果采用一致性方案进行Reduce过程(key值为机器号,value值为聚类结果)得到该机器的最终集成聚类结果,从而达到并行有效处理大数据的目的,能进一步提高的数据处理性能和效率。
为了达到上述目的,本发明提供如下技术方案:
一种基于MapReduce的大数据聚类集成方法,包括如下步骤:
步骤1,大数据切分和管理:将大数据切块后,存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块,其key值为所属数据块Di,i=1,2,…n,n为划分后的数据块的数量;
步骤2,采用多重K的聚类集成算法生成多个基聚类:将Kmeans算法应用到大数据集上M次,每次运算时都从一个预先定义好的k的分布S中随机采样一个数ki,用ki作为kmeans的预定义簇的数目,从而得到n个基聚类结果,其中S为两个整数之间的均匀分布,S被置为(min(5,[N/4],min(20,[N/2])),N为数据点的数目,[x]表示对x四舍五入取整;
步骤3,获取集成关系:构造共协关系矩阵,统计M个基聚类结果中两个数据点被划分到同一簇中的次数,用该次数作为权值赋给关系矩阵中对应的元素;
步骤4,确定最终聚类:对同机器各聚类结果采用一致性方案进行Reduce,得到该机器的最终集成聚类结果。
具体的,所述步骤3中的共协关系矩阵通过以下公式获得:
Wi×j=(i与j属于同一簇的次数)/基聚类的总数;
任意两个数据点i和j只要被划分到同一组中时,关系矩阵对应的元素就自增1。
具体的,所述步骤4中采用一致性方案进行Reduce的过程如下:
将标准化后的关系矩阵转化为一个无向带权图,所有数据点作为图的顶点,关系矩阵中每个元素的值转化为其对应的两个顶点之间的权值上;通过一个迭代,每次迭代的过程中,对每个权值减去一个单位阈值,为负的权值则用0替代,顶点之间的权值为0则表示该对顶点之间不连通,通过重复的对所有权值减去单位阈值,然后求该图的连通子图,当某种连通子图保持最多次数不变时,就认为该拓扑关系最稳定,连通子图的个数就是最终簇的数目,该连通子图就是最终的聚类结果。
与现有技术相比,本发明具有如下优点和有益效果:
本发明首先对原始数据进行分割,用切分好的非空小数据块代替原数据中的点集进行聚类,减少数据规模和数据处理所耗费时间。本发明采用云计算MapReduce编程模型,使得聚类过程在分布式集群上并行完成,克服了单机算法在存储和计算性能上的限制,从而有效处理大数据,不断地从中挖掘出有价值信息,为用户提供可定制性和可扩展性,并优化了算法执行效率,适用处理大数据环境下的数据处理、分析与计算,能够满足不同用户的需求。
附图说明
图1为Google的MapReduce执行流程图;
图2为本发明提供的基于MapReduce的大数据聚类集成方法模型图;
图3为基于MapReduce的大数据聚类集成方法的整体流程图;
图4为基于多重K的聚类集成算法原理示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供了一种基于MapReduce的大数据聚类集成方法,流程图如图3所示,首先将大数据切块存储到云平台的分布式文件系统HDFS中,然后不断地在数据集上应用传统Kmeans算法,通过随机选择一个聚类数据目k(k有一定的选取范围,在参数设置中给出),然后对原始数据应用kmeans聚类算法,不同的k值会得到不同的基聚类结果,不同的基聚类结果是通过将数据集投影到不同的子空间而计算得到的,所有数据点和所有特征都参与运算。在得到不同基聚类的基础上,还需要通过一致性函数或共识函数将聚类集体中的多个聚类结果进行结合以生成一个统一的聚类结果,本发明通过生成的不同基聚类结果来构建一个描述两两数据点之间关系的共协关系矩阵,最后再对得到关系矩阵确定最终聚类集成结果。具体地说,本发明包括如下步骤:
步骤1,将大数据切块成数据块Di,,并将这些数据块切分至小数据片dj后,存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块,其key值为所属数据块Di,i=1,2,…n,n为划分后的数据块的数量。Hadoop作为Google的MapReduce算法开源实现,能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。许多单机算法都在Hadoop上予以重新实现,为各种算法处理海量数据提供了高可用性和可扩展性。
步骤2,采用多重K的聚类集成算法生成多个基聚类:多重K聚类算法原理如图4所示。
将Kmeans算法应用到大数据集(存储在HDFS上的经过切块的大数据)上M次,即计算集群中的各个处理单元(这里的处理单元实质为能够独立实现运算、存储功能的单元,并不限制为具体的计算机)针对本地存储的数据块并行地应用多次Kmeans算法进行运算,每次运算时都从一个预先定义好的k的分布S中随机采样一个数ki,用ki作为kmeans的预定义簇的数目,运行Kmeans算法直至得到基聚类结果Ci,从而得到n个基聚类结果。其中S为两个整数之间的均匀分布,S被置为(min(5,[N/4],min(20,[N/2])),N为数据点的数目,[x]表示对x四舍五入取整。
Kmeans算法的具体过程如下:首先接受输入量k;然后将n个数据对象(定点集P)划分为k个聚类以便使得所获得的聚类满足以下条件:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其中聚类相似度是利用各聚类中对象的均值所获得一个“中心点”(mean point)来进行计算的,优化目标为给定点到其所属子集中心点距离平方和最小。
步骤3,获取集成关系:构造共协关系矩阵,统计M个基聚类结果中两个数据点被划分到同一簇中的次数,用该次数作为权值赋给关系矩阵中对应的元素。任意两个数据点只要被划分到同一组中,关系矩阵对应的元素就自增1。
如果用i和j来代表两个数据点,则共协关系矩阵Wi×j可以由下列公式表示:
Wi×j=(i与j属于同一簇的次数)/基聚类的总数
步骤4,确定最终聚类:对同机器各聚类结果采用一致性方案进行Reduce(key值为机器号,value值为聚类结果),得到该机器的最终集成聚类结果。
Reduce过程将标准化后的关系矩阵转化为一个无向带权图,所有数据点作为图的顶点,关系矩阵中每个元素的值转化为其对应的两个顶点之间的权值上。通过一个迭代,每次迭代的过程中,对每个权值减去一个单位阈值(该阈值一般设为0.5左右,可根据需要调整),为负的权值则用0替代,顶点之间的权值为0则表示该对顶点之间不连通。在这个迭代过程中,最初的无向图被划分为多个子图,连通子图中数据点被认为划分到同一簇中,图中的多个连通子图便认为是数据的多个划分。通过重复的对所有权值减去单位阈值,然后求该图的连通子图,当某种连通子图保持最多次数不变时,就认为该拓扑关系最稳定,连通子图的个数就是最终簇的数目,该连通子图就是最终的聚类结果。
本发明还提供了可行的具体实现方式,通过下述EPMap方法完成切块数据的基聚类学习,通过EPReduce方法生成同机器中Kmeans多重K算法最终聚类结果。必须说明的是,EPMap方法和EPReduce方法的具体实现过程仅仅为一种示例,在具体实现本发明提供的大数据聚类集成方法时,本领域内技术人员在不违背本发明提供的整体思路的基础上,可以通过对具体的函数进行常规变形,这也属于本发明的保护范围。
EPMap方法的输入数据为:
数据集S;分块D(key),标记训练实例;
产生基聚类的数目M;
Kmeans算法中k值的分布S;
主要实现步骤如下:
初始化关系矩阵Wn×n,矩阵内元素初值为0;
循环M次;
从S中随机取出一个值d;
初始化阈值θ用于创建基聚类;
将分块i中训练好的实例di赋值给Vtrain并存储于HDFS中的;
从HDFS中读取所有测试实例,
用聚类算法Kmeans建立一个基聚类Ci
Kmeans算法将S聚为d组;
如果聚类结果准确度大于事先设定的阈值θ,
增值计算关系矩阵Wn×n
则保存这个基聚类用于预测实际数据;
结束循环
通过EPMap方法,最终得到基聚类结果;
EPReduce方法的输入数据为:验证集Lval,基聚类集合T={C1,C2,…,CT}
主要实现步骤如下:
归一化关系矩阵Wn×n
L从1到M循环:
创建图G:V(G)=S,E(G)为W[i][j]>l/M;
计算图G的连通子图数目c;
将点(l/M,C)加入变量f_cut;
计算:
H ( 1 / M ) = - Σ i = 1 C ( | C i | / N ) log 2 ( | C i | / N )
循环结束
对于x:l/M<x<(l+1)/M,f(x)=f(l/M)和H(x)=H(l/M)
创建新图,图的边满足W[i][j]>C
C的选择满足f=f(c)≠1且f=f(c)≠1长度最长。
重新计算新图的连通子图。计算结果即为最终的聚类结果。
算法结束
通过EPReduce方法即可得到最终聚类结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (3)

1.一种基于MapReduce的大数据聚类集成方法,其特征在于,包括如下步骤:
步骤1,大数据切分和管理:将大数据切块后,存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块,其key值为所属数据块Di,i=1,2,…n,n为划分后的数据块的数量;
步骤2,采用多重K的聚类集成算法生成多个基聚类:将Kmeans算法应用到大数据集上M次,每次运算时都从一个预先定义好的k的分布S中随机采样一个数ki,用ki作为kmeans的预定义簇的数目,从而得到n个基聚类结果,其中S为两个整数之间的均匀分布,S被置为(min(5,[N/4],min(20,[N/2])),N为数据点的数目,[x]表示对x四舍五入取整;
步骤3,获取集成关系:构造共协关系矩阵,统计M个基聚类结果中两个数据点被划分到同一簇中的次数,用该次数作为权值赋给关系矩阵中对应的元素;
步骤4,确定最终聚类:对同机器各聚类结果采用一致性方案进行Reduce,得到该机器的最终集成聚类结果。
2.根据权利要求1所述的基于MapReduce的大数据聚类集成方法,其特征在于,所述步骤3中的共协关系矩阵通过以下公式获得:
Wi×j=(i与j属于同一簇的次数)/基聚类的总数;
任意两个数据点i和j只要被划分到同一组中时,关系矩阵对应的元素就自增1。
3.根据权利要求1或2所述的基于MapReduce的大数据聚类集成方法,其特征在于,所述步骤4中采用一致性方案进行Reduce的过程如下:
将标准化后的关系矩阵转化为一个无向带权图,所有数据点作为图的顶点,关系矩阵中每个元素的值转化为其对应的两个顶点之间的权值上;通过一个迭代,每次迭代的过程中,对每个权值减去一个单位阈值,为负的权值则用0替代,顶点之间的权值为0则表示该对顶点之间不连通,通过重复的对所有权值减去单位阈值,然后求该图的连通子图,当某种连通子图保持最多次数不变时,就认为该拓扑关系最稳定,连通子图的个数就是最终簇的数目,该连通子图就是最终的聚类结果。
CN201410416065.4A 2014-08-21 2014-08-21 一种基于MapReduce的大数据聚类集成方法 Pending CN104156463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410416065.4A CN104156463A (zh) 2014-08-21 2014-08-21 一种基于MapReduce的大数据聚类集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410416065.4A CN104156463A (zh) 2014-08-21 2014-08-21 一种基于MapReduce的大数据聚类集成方法

Publications (1)

Publication Number Publication Date
CN104156463A true CN104156463A (zh) 2014-11-19

Family

ID=51881961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410416065.4A Pending CN104156463A (zh) 2014-08-21 2014-08-21 一种基于MapReduce的大数据聚类集成方法

Country Status (1)

Country Link
CN (1) CN104156463A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503820A (zh) * 2014-12-10 2015-04-08 华南师范大学 一种基于异步启动的Hadoop优化方法
CN104834557A (zh) * 2015-05-18 2015-08-12 成都博元科技有限公司 一种基于Hadoop的数据分析方法
CN106547890A (zh) * 2016-11-04 2017-03-29 深圳云天励飞技术有限公司 海量图像特征向量中的快速聚类预处理方法
CN106874367A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种基于舆情平台的抽样分布式聚类方法
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN107480694A (zh) * 2017-07-06 2017-12-15 重庆邮电大学 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN108491507A (zh) * 2018-03-22 2018-09-04 北京交通大学 一种基于Hadoop分布式环境的不确定交通流数据并行持续查询方法
CN108985380A (zh) * 2018-07-25 2018-12-11 西南交通大学 一种基于聚类集成的转辙机故障识别方法
CN110162581A (zh) * 2019-05-31 2019-08-23 国网山东省电力公司经济技术研究院 一种基于云计算与非负矩阵分解的数据分级聚类挖掘方法
CN111367901A (zh) * 2020-02-27 2020-07-03 智慧航海(青岛)科技有限公司 一种船舶数据去噪方法
CN112800069A (zh) * 2021-03-18 2021-05-14 蓝鲸国数(深圳)科技有限公司 一种图数据分析方法、装置及计算机可读存储介质
WO2022269370A1 (en) * 2021-06-25 2022-12-29 L&T Technology Services Limited Method and system for clustering data samples
CN115543609A (zh) * 2022-09-15 2022-12-30 中电信数智科技有限公司 一种基于聚类集成算法的云计算虚拟资源调度方法
CN115952426A (zh) * 2023-03-10 2023-04-11 中南大学 基于随机采样的分布式噪音数据聚类方法及用户分类方法
CN116644039A (zh) * 2023-05-25 2023-08-25 安徽继远软件有限公司 一种基于大数据的在线能力运营日志自动采集分析的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062007A1 (en) * 1998-05-22 1999-12-02 Microsoft Corporation A scalable system for clustering of large databases having mixed data attributes
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法
CN103077253A (zh) * 2013-01-25 2013-05-01 西安电子科技大学 Hadoop框架下高维海量数据GMM聚类方法
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062007A1 (en) * 1998-05-22 1999-12-02 Microsoft Corporation A scalable system for clustering of large databases having mixed data attributes
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法
CN103077253A (zh) * 2013-01-25 2013-05-01 西安电子科技大学 Hadoop框架下高维海量数据GMM聚类方法
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冀素琴,石洪波: ""基于MapReduce的K-means聚类集成"", 《计算机工程》 *
刘秉义: ""聚类集成算法及其应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503820B (zh) * 2014-12-10 2018-07-24 华南师范大学 一种基于异步启动的Hadoop优化方法
CN104503820A (zh) * 2014-12-10 2015-04-08 华南师范大学 一种基于异步启动的Hadoop优化方法
CN104834557A (zh) * 2015-05-18 2015-08-12 成都博元科技有限公司 一种基于Hadoop的数据分析方法
CN106547890A (zh) * 2016-11-04 2017-03-29 深圳云天励飞技术有限公司 海量图像特征向量中的快速聚类预处理方法
CN106547890B (zh) * 2016-11-04 2018-04-03 深圳云天励飞技术有限公司 海量图像特征向量中的快速聚类预处理方法
CN106874367A (zh) * 2016-12-30 2017-06-20 江苏号百信息服务有限公司 一种基于舆情平台的抽样分布式聚类方法
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN106909942B (zh) * 2017-02-28 2022-09-13 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN107480694A (zh) * 2017-07-06 2017-12-15 重庆邮电大学 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN107480694B (zh) * 2017-07-06 2021-02-09 重庆邮电大学 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN108491507A (zh) * 2018-03-22 2018-09-04 北京交通大学 一种基于Hadoop分布式环境的不确定交通流数据并行持续查询方法
CN108985380A (zh) * 2018-07-25 2018-12-11 西南交通大学 一种基于聚类集成的转辙机故障识别方法
CN108985380B (zh) * 2018-07-25 2021-08-03 西南交通大学 一种基于聚类集成的转辙机故障识别方法
CN110162581A (zh) * 2019-05-31 2019-08-23 国网山东省电力公司经济技术研究院 一种基于云计算与非负矩阵分解的数据分级聚类挖掘方法
CN111367901A (zh) * 2020-02-27 2020-07-03 智慧航海(青岛)科技有限公司 一种船舶数据去噪方法
CN111367901B (zh) * 2020-02-27 2024-04-02 智慧航海(青岛)科技有限公司 一种船舶数据去噪方法
CN112800069A (zh) * 2021-03-18 2021-05-14 蓝鲸国数(深圳)科技有限公司 一种图数据分析方法、装置及计算机可读存储介质
WO2022269370A1 (en) * 2021-06-25 2022-12-29 L&T Technology Services Limited Method and system for clustering data samples
CN115543609A (zh) * 2022-09-15 2022-12-30 中电信数智科技有限公司 一种基于聚类集成算法的云计算虚拟资源调度方法
CN115543609B (zh) * 2022-09-15 2023-11-21 中电信数智科技有限公司 一种基于聚类集成算法的云计算虚拟资源调度方法
CN115952426A (zh) * 2023-03-10 2023-04-11 中南大学 基于随机采样的分布式噪音数据聚类方法及用户分类方法
CN116644039A (zh) * 2023-05-25 2023-08-25 安徽继远软件有限公司 一种基于大数据的在线能力运营日志自动采集分析的方法
CN116644039B (zh) * 2023-05-25 2023-12-19 安徽继远软件有限公司 一种基于大数据的在线能力运营日志自动采集分析的方法

Similar Documents

Publication Publication Date Title
CN104156463A (zh) 一种基于MapReduce的大数据聚类集成方法
CN104809242B (zh) 一种基于分布式结构的大数据聚类方法和装置
Yu et al. Trajectory similarity clustering based on multi-feature distance measurement
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
CN102915347A (zh) 一种分布式数据流聚类方法及系统
CN104820708A (zh) 一种基于云计算平台的大数据聚类方法和装置
CN105184368A (zh) 一种分布式极限学习机优化集成框架方法系统及方法
CN104408034A (zh) 一种面向文本大数据的中文分词方法
Fu et al. Research on parallel DBSCAN algorithm design based on mapreduce
CN105825269A (zh) 一种基于并行自动编码机的特征学习方法及系统
Zhang et al. Optimization and improvement of data mining algorithm based on efficient incremental kernel fuzzy clustering for large data
Pereira et al. TS-stream: clustering time series on data streams
Zainab et al. Distributed tree-based machine learning for short-term load forecasting with apache spark
Zhang et al. Multi-source big data dynamic compressive sensing and optimization method for water resources based on IoT
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
Madsen et al. A new method for vertical parallelisation of TAN learning based on balanced incomplete block designs
Pandey et al. A study of clustering taxonomy for big data mining with optimized clustering mapreduce model
Moertini et al. Big Data Reduction Technique using Parallel Hierarchical Agglomerative Clustering.
CN115758462A (zh) 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质
Agrawal et al. High performance big data clustering
Shobanadevi et al. Studying the performance of clustering techniques for biomedical data using spark
Faysal et al. Fast stochastic block partitioning using a single commodity machine
Muninarayanappa et al. Agriculture data analysis using parallel k-nearest neighbour classification algorithm
Zhang et al. Analysis of CLARANS Algorithm for Weather Data Based on Spark.
Vo et al. MRAttractor: Detecting communities from large-scale graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141119