CN103077253A - Hadoop框架下高维海量数据GMM聚类方法 - Google Patents

Hadoop框架下高维海量数据GMM聚类方法 Download PDF

Info

Publication number
CN103077253A
CN103077253A CN2013100470233A CN201310047023A CN103077253A CN 103077253 A CN103077253 A CN 103077253A CN 2013100470233 A CN2013100470233 A CN 2013100470233A CN 201310047023 A CN201310047023 A CN 201310047023A CN 103077253 A CN103077253 A CN 103077253A
Authority
CN
China
Prior art keywords
cluster
data
class
clustered
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100470233A
Other languages
English (en)
Other versions
CN103077253B (zh
Inventor
崔江涛
李林
司蓁
彭延国
史玮
陈煜�
崔小利
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201310047023.3A priority Critical patent/CN103077253B/zh
Publication of CN103077253A publication Critical patent/CN103077253A/zh
Application granted granted Critical
Publication of CN103077253B publication Critical patent/CN103077253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种Hadoop框架下高维海量数据GMM聚类方法,主要针对已有聚类算法的不足,将海量数据的聚类问题架构在分布式平台上,用于高维、海量数据的聚类。其实现步骤是:1、组建局域网;2、建立Hadoop平台;3、上传数据到集群;4、初始聚类;5、计算各聚类的参数和判别函数;6、判断聚类是否完成;7、重新聚类;8、计算新聚类中每一个类的均值、权重;9、计算新聚类中每一个类的方差;10、输出聚类结果。本发明利用Hadoop框架中MapReduce运算模型的特点,对聚类中的可并行部分用Map并行方法处理,计算均值和方差时采用两个Map/Reduce分别计算,可以高效、精确的聚类,有较强的可扩展性和容错性。

Description

Hadoop框架下高维海量数据GMM聚类方法
技术领域
本发明属于计算机技术领域,更进一步涉及数据挖掘领域中Hadoop框架下高维、海量数据的高斯混合模型(Gaussian Mixtures Model,GMM)聚类方法。本发明可以方便、高效的完成高维、海量数据地的聚类,克服单机模式下海量数据处理的低效,维数灾难问题。
技术背景
海量数据处理的过程中广泛采用的一种计算框架MR“Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2005,51(1):107-113”该计算框架是由Google公司发明,近些年新兴的并行编程模式,它将并行化、容错、数据分布、负载均衡等放在一个库里,将系统对数据的所有操作都归结为两个步骤:Map(映射)阶段和Reduce(化简)阶段,使那些没有多少并行计算经验的开发人员也可以开发并行应用,对海量数据进行处理。
Clustering with Gaussian Mixtures“Andrew W.Moore Professor,School ofComputer Science Carnegie Mellon University”所提出的GMM(高斯混合聚类模型)是单一高斯概率密度函数的延伸。通过多个单高斯模型的线性组合来组成一个混合高斯模型。通过EM算法对模型的参数不断进行调整从而得到能够描述数据的聚类模型。该方法存在的不足是:在聚类过程中不能有效应对海量数据,算法效率受到时间,空间复杂度的限制。
上海海事大学申请的发明专利“一种基于在线分裂合并EM算法的高斯混合模型聚类方法”(专利申请号:201010172604.6,公开号:CN102081753A)。该专利申请公开了一种基于在线分裂合并EM算法的高斯混合模型聚类方法,该方法基于在线分裂合并的EM算法对Ueda等人和Demsper等人的算法进行改进,因此,该聚类方法继承了EM算法的完备性和收敛性特征,也继承了分裂合并算法对局部收敛性的改进,通过引入时间序列参数,提出了增量在线分裂EM训练方法,由此实现了增量式的期望最大化训练。该聚类方法能够逐样本在线更新GMM模型参数,克服了批处理数据要求的离线训练的局限性。但是,该聚类方法仍然存在不足之处是,该聚类方法并没有解决大规模数据处理中的维数灾难问题,可扩展性及伸缩性不强。
发明内容
本发明的目的在于克服上述现有技术的不足,将海量数据的聚类问题架构在分布式平台上,提出一种基于Hadoop框架的高维、海量数据聚类方法。在聚类的过程中,利用Hadoop框架中MapReduce运算模型的特点,对聚类中的可并行部分用Map并行方法处理,计算均值和方差时采用两个Map/Reduce分别计算。
为实现上述目的,本发明包括如下步骤:
(1)组建局域网
将多台计算机连接到同一局域网中,每台计算机作为一个节点,建立能够相互通信的集群;
(2)建立Hadoop平台
对集群中的每个节点配置Hadoop0.20.2文件,通过文件中属性参数dfs.namenode和dfs.datanode的设置,使集群中包含一个名字节点和多个数据节点;通过文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,使集群中包含一个调度节点和多个任务节点,建立开源的Hadoop平台;
(3)上传数据到集群
使用Hadoop分布式文件命令dfs-put将待聚类数据集上传至Hadoop平台的各个节点上;
(4)初始聚类
采用KMeans聚类方法,对集群中节点上的数据进行初始粗略聚类,得到初始的聚类;
(5)计算各聚类的参数和判别函数
5a)计算初始的聚类每一个类的均值;
5b)统计初始聚类每一个类中数据的个数,用统计的数据个数除以待聚类数据集中数据的总数,得到初始聚类每一个类的权重;
5c)计算初始的聚类每一个类的方差;
5d)计算判别函数
按照下式计算高斯概率密度值:
G = exp ( - ( x - u i ) Σ i - 1 ( x - u i ) / 2 ) ( 2 π ) d | Σ i |
其中,G表示高斯概率密度的值,x表示待聚类数据集中的任意一个向量数据,ui表示第i个类的均值,i表示聚类中的第i个类,∑i表示第i个类的方差,exp表示以e为底的指数运算;
按照下式计算判别函数的值:
L = Σ x ∈ D log ( Σ i = 1 K p i G ( x | u i , Σ i ) )
其中,L表示判别函数值,x表示待聚类数据集中的任意一个向量数据,D表示待聚类数据集,K表示聚类中类的个数,i表示聚类中的第i个类,pi表示第i个类在聚类中的权重,G表示第i个类的高斯概率密度值,ui表示第i个类的均值,∑i表示第i个类的方差;
(6)判断聚类是否完成
判断判别函数的值是否在设定域值之内,若在阈值内,则聚类结束,执行步骤(10),若不在阈值内,表示聚类尚未结束,执行步骤(7);
(7)重新聚类
7a)启动第一个Map任务,扫描待聚类数据集,每次读入一条数据;
7b)对每次读入的数据,采用以下公式计算读入的数据到聚类中每个类的概率值:
γ ( x , i ) = p i G ( x | u i , Σ i ) Σ h = 1 K P h G ( x | u h , Σ h )
其中,γ(x,i)表示待聚类数据集中数据x到聚类中第i个类的概率值,pi表示第i个聚类在待聚类数据集中的权重,G为第i个聚类的概率密度函数值,x表示待聚类数据集中的数据,ui表示第i个聚类的均值,∑i表示第i个聚类的方差,K表示聚类的个数,h表示聚类中的第h个类,Ph表示第h个聚类在待聚类数据集中的权重,uh表示第h个类的均值,∑h表示第h个聚类的方差;
7c)选取概率值中的最大值,将步骤7a)读入数据分配到最大值对应的类;
7d)判断是否读取完待聚类数据集,若未读取完,则执行步骤7a),若读取完,则表示得到了新聚类,执行步骤(8);
(8)计算新聚类中每一个类的均值、权重
启动第一个Reduce任务,计算第一个Map任务传入的聚类数据,按照步骤5a)的计算方法获得新聚类中每一个类的均值,按照步骤5b)的计算方法获得新聚类中每一个类的权重;
(9)计算新聚类中每一个类的方差
9a)启动第二个Map任务,第二次扫描待聚类数据集,每次读入一条数据;
9b)对每次读入的数据,采用以下公式计算Map/Reduce中间值:
Dmid=(x-u)2
其中,Dmid表示Map/Reduce中间值,x表示步骤9a)读入的一条数据,u表示x所属类的均值;
9c)启动第二个Reduce任务,对9b)的中间值先求和,再求和的根,获得新聚类的方差;
9d)判断是否读取完待聚类数据集,若未读取完,则执行步骤9a),若读取完,执行步骤(5);
(10)输出聚类结果
聚类结束后,聚类中每一个类的均值、权重、方差作为聚类结果输出;
本发明与现有的技术相比具有以下优点:
第一,由于本发明在聚类过程中对聚类中的可并行部分用Map并行方法处理,克服了现有技术采用串行计算方法存在效率低的不足,使得本发明在聚类效率上提高很大。
第二,由于本发明在计算均值和方差时采用两个Map/Reduce分别计算,降低了现有技术中Map端到Reduce端数据量的传输,使得本发明解决了现有技术中数据传输的I/O瓶颈问题。
第三,由于本发明将聚类问题架构在分布式平台上,分布式平台可以随时委任、删除节点,使得本发明的可扩展性强。
附图说明
图1为本发明的流程图;
图2为不同规模的数据量情况下,使用本方法与传统方法处理的对比结果图;
图3为在相同规模数据量,不同聚类个数情况下,使用本方法与传统方法处理的对比结果图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照图1,本发明包括如下步骤:
步骤1,组建局域网
将多台计算机连接到同一局域网中,每台计算机作为一个节点,建立能够相互通信的集群。
步骤2,建立Hadoop平台
对集群中的每个节点配置Hadoop0.20.2文件,通过文件中属性参数dfs.namenode和dfs.datanode的设置,使集群中包含一个名字节点和多个数据节点;通过文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,使集群中包含一个调度节点和多个任务节点,建立开源的Hadoop平台。
建立Hadoop平台具体步骤如下:首先为集群中每一个节点安装ubuntu10.04操作系统;然后为集群中每一个节点安装Hadoop0.20.2插件;为集群中每一个节点安装JDK1.6.3插件;配置集群中每个节点上的ubuntu10.04系统的etc文件,使ubuntu10.04系统关联该节点上的Hadoop0.20.2文件和该节点上的jdk文件配置每个节点上Hadoop0.20.2插件中的core-site.xml文件,hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使集群中存在一个名字节点和多个数据节点,设置属性mapred.jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。
步骤3,上传数据到集群
使用Hadoop分布式文件命令dfs-put将待聚类数据集上传至Hadoop平台的各个节点上。
步骤4,初始聚类
采用KMeans聚类方法,对集群中节点上的数据进行初始粗略聚类,得到初始的聚类。
初始聚类的具体步骤如下:首先把待聚类数据集聚集为c个类,c的大小根据不同的工程要求设定不同的值;采用随机函数从待聚类数据集中选取c个数据作为聚类中每个类的中心;设定迭代次数K,K的大小根据不同工程要求设定不同的值,设定已迭代次数m的初始值为0;读取数据,每次读取待聚类数据集中的一条数据;对读入数据,采用下式求其到聚类中每个类的中心的距离:
D i = ( x - c i ) 2
其中,Di表示数据x到聚类中第i个类的中心的距离,x代表读入的数据,ci代表聚类中第i个类的中心。
将读入数据归到距离最短的中心所在的类;判断是否读取完待聚类数据集,若读取完,迭代次数m加1,否则继续读取下一条数据;利用均值方法更新该类的中心值。判断迭代次数m是否大于K,如果大于,结束迭代,否则继续读取数据。
步骤5,计算各聚类的参数和判别函数
计算初始的聚类每一个类的均值;统计初始聚类每一个类中数据的个数,用统计的数据个数除以待聚类数据集中数据的总数,得到初始聚类每一个类的权重;计算初始的聚类每一个类的方差;
首先计算高斯概率密度值,由此高斯概率密度值计算获得判别函数的值。
按照下式计算高斯概率密度值:
G = exp ( - ( x - u i ) Σ i - 1 ( x - u i ) / 2 ) ( 2 π ) d | Σ i |
其中,G表示高斯概率密度的值,x表示待聚类数据集中的任意一个向量数据,ui表示第i个类的均值,i表示聚类中的第i个类,∑i表示第i个类的方差,exp表示以e为底的指数运算;
按照下式计算判别函数的值:
L = Σ x ∈ D log ( Σ i = 1 K p i G ( x | u i , Σ i ) )
其中,L表示判别函数值,x表示待聚类数据集中的任意一个向量数据,D表示待聚类数据集,K表示聚类中类的个数,i表示聚类中的第i个类,pi表示第i个类在聚类中的权重,G表示第i个类的高斯概率密度值,ui表示第i个类的均值,∑i表示第i个类的方差。
步骤6,判断聚类是否完成
判断判别函数的值是否在设定域值之内,若在阈值内,则聚类结束,执行步骤10,若不在阈值内,表示聚类尚未结束,执行步骤7。
步骤7,重新聚类
7a)启动第一个Map任务,扫描待聚类数据集,每次读入一条数据;
7b)对每次读入的数据,采用以下公式计算读入的数据到聚类中每个类的概率值:
γ ( x , i ) = p i G ( x | u i , Σ i ) Σ h = 1 K P h G ( x | u h , Σ h )
其中,γ(x,i)表示待聚类数据集中数据x到聚类中第i个类的概率值,pi表示第i个聚类在待聚类数据集中的权重,G为第i个聚类的概率密度函数值,x表示待聚类数据集中的数据,ui表示第i个聚类的均值,Σi表示第i个聚类的方差,K表示聚类的个数,h表示聚类中的第h个类,Ph表示第h个聚类在待聚类数据集中的权重,ub表示第h个类的均值,∑h表示第h个聚类的方差;
7c)选取概率值中的最大值,将步骤7a)读入数据分配到最大值对应的类;
7d)判断是否读取完待聚类数据集,若未读取完,则执行步骤7a),若读取完,则表示得到了新聚类,执行步骤8。
步骤8,计算新聚类中每一个类的均值、权重
启动第一个Reduce任务,计算第一个Map任务传入的聚类数据,按照步骤5a)的计算方法获得新聚类中每一个类的均值,按照步骤5b)的计算方法获得新聚类中每一个类的权重。
步骤9,计算新聚类中每一个类的方差
9a)启动第二个Map任务,第二次扫描待聚类数据集,每次读入一条数据;
9b)对每次读入的数据,采用以下公式计算Map/Reduce中间值:
Dmid=(x-u)2
其中,Dmid表示Map/Reduce中间值,x表示步骤9a)读入的一条数据,u表示x所属类的均值;
9c)启动第二个Reduce任务,对9b)的中间值先求和,再求和的根,获得新聚类的方差;
9d)判断是否读取完待聚类数据集,若未读取完,则执行步骤9a),若读取完,执行步骤5。
步骤10,结束,输出聚类结果
聚类结束后,聚类中每一个类的均值、权重、方差作为聚类结果输出。
结合图1对本发明的效果做进一步的说明:步骤7要计算数据集中每个向量到聚类中的每一个类的概率,因此要扫描整数据集。步骤9计算聚类中每一个类的方差,也需要扫描整个数据集。这里为了避免数据在网络中的传递,受到I/O瓶颈的影响,本发明在设计时,采用两个Map/Reduce来完成。第一个Map/Reduce完成步骤7的工作,然后直接将数据写到各个节点的本地文件系统。第二个Map/Reduce完成步骤9的工作,在各个节点通过本地文件系统读取数据进行方差计算,这样做减少了网络中数据的传输,提高了计算的效率。
本发明的效果可以通过以下仿真实验进一步说明:
1.仿真实验条件
仿真实验环境:操作系统为Windows7,CPU2.40GHz,名字节点内存为8GB,数据节点内存为4GB,编程平台为ubuntu10.04,Eclipse。
仿真实验一是对不同规模的128维向量数据,聚成三个类的实验,图2是该仿真实验结果图。
仿真实验二是对40000条128维向量数据,聚成多个类的实验,图3是该仿真实验结果图。
2.仿真实验内容和结果
仿真实验一:测试数据维数为128维向量数据,这些数据被聚成了三个类。图2中实线表示传统聚类方法仿真效果,图2中虚线表示本发明仿真效果。从图2中实线、虚线的走势中可以看出,在聚类中类个数相同情况下,数据规模从10000条到70000条的增大,传统单机聚类方法的运算效率受到系统I/O和单机计算能力的制约,低于本发明的运算效率。
仿真实验二:测试数据维数为128维向量数据,数据总个数为40000个。图3中实线表示传统聚类方法仿真效果,图3中虚线表示本发明仿真效果。从图3中实线、虚线的走势中可以看出,在同等规模数据量的情况下,聚类中类个数从1个到10个增多,本发明聚类所需时间较传统方法有了明显的降低。

Claims (3)

1.Hadoop框架下高维海量数据GMM聚类方法,包括如下步骤:
(1)组建局域网
将多台计算机连接到同一局域网中,每台计算机作为一个节点,建立能够相互通信的集群;
(2)建立Hadoop平台
对集群中的每个节点配置Hadoop0.20.2文件,通过文件中属性参数dfs.namenode和dfs.datanode的设置,使集群中包含一个名字节点和多个数据节点;通过文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,使集群中包含一个调度节点和多个任务节点,建立开源的Hadoop平台;
(3)上传数据到集群
使用Hadoop分布式文件命令dfs-put将待聚类数据集上传至Hadoop平台的各个节点上;
(4)初始聚类
采用KMeans聚类方法,对集群中节点上的数据进行初始粗略聚类,得到初始的聚类;
(5)计算各聚类的参数和判别函数
5a)计算初始的聚类每一个类的均值;
5b)统计初始聚类每一个类中数据的个数,用统计的数据个数除以待聚类数据集中数据的总数,得到初始聚类每一个类的权重;
5c)计算初始的聚类每一个类的方差;
5d)计算判别函数
按照下式计算高斯概率密度值:
G = exp ( - ( x - u i ) Σ i - 1 ( x - u i ) / 2 ) ( 2 π ) d | Σ i |
其中,G表示高斯概率密度的值,x表示待聚类数据集中的任意一个向量数据,ui表示第i个类的均值,i表示聚类中的第i个类,∑i表示第i个类的方差,exp表示以e为底的指数运算;
按照下式计算判别函数的值:
L = Σ x ∈ D log ( Σ i = 1 K p i G ( x | u i , Σ i ) )
其中,L表示判别函数值,x表示待聚类数据集中的任意一个向量数据,D表示待聚类数据集,K表示聚类中类的个数,i表示聚类中的第i个类,pi表示第i个类在聚类中的权重,G表示第i个类的高斯概率密度值,ui表示第i个类的均值,Σi表示第i个类的方差;
(6)判断聚类是否完成
判断判别函数的值是否在设定域值之内,若在阈值内,则聚类结束,执行步骤(10),若不在阈值内,表示聚类尚未结束,执行步骤(7);
(7)重新聚类
7a)启动第一个Map任务,扫描待聚类数据集,每次读入一条数据;
7b)对每次读入的数据,采用以下公式计算读入的数据到聚类中每个类的概率值:
γ ( x , i ) = p i G ( x | u i , Σ i ) Σ h = 1 K P h G ( x | u h , Σ h )
其中,γ(x,i)表示待聚类数据集中数据x到聚类中第i个类的概率值,pi表示第i个聚类在待聚类数据集中的权重,G为第i个聚类的概率密度函数值,x表示待聚类数据集中的数据,ui表示第i个聚类的均值,Σi表示第i个聚类的方差,K表示聚类的个数,h表示聚类中的第h个类,Ph表示第h个聚类在待聚类数据集中的权重,uh表示第h个类的均值,∑h表示第h个聚类的方差;
7c)选取概率值中的最大值,将步骤7a)读入数据分配到最大值对应的类;
7d)判断是否读取完待聚类数据集,若未读取完,则执行步骤7a),若读取完,则表示得到了新聚类,执行步骤(8);
(8)计算新聚类中每一个类的均值、权重
启动第一个Reduce任务,计算第一个Map任务传入的聚类数据,按照步骤5a)的计算方法获得新聚类中每一个类的均值,按照步骤5b)的计算方法获得新聚类中每一个类的权重;
(9)计算新聚类中每一个类的方差
9a)启动第二个Map任务,第二次扫描待聚类数据集,每次读入一条数据;
9b)对每次读入的数据,采用以下公式计算Map/Reduce中间值:
Dmid=(x-u)2
其中,Dmid表示Map/Reduce中间值,x表示步骤9a)读入的一条数据,u表示x所属类的均值;
9c)启动第二个Reduce任务,对9b)的中间值先求和,再求和的根,获得新聚类的方差;
9d)判断是否读取完待聚类数据集,若未读取完,则执行步骤9a),若读取完,执行步骤(5);
(10)输出聚类结果
聚类结束后,聚类中每一个类的均值、权重、方差作为聚类结果输出。
2.根据权利要求1所述的Hadoop框架下高维海量数据GMM聚类方法,其特征在于,步骤(2)所述的建立Hadoop平台方法的具体步骤如下:
第一步,为集群中每一个节点安装ubuntu10.04操作系统;
第二步,为集群中每一个节点安装Hadoop0.20.2插件;
第三步,为集群中每一个节点安装JDK1.6.3插件;
第四步,配置集群中每个节点上的ubuntu10.04系统的etc文件,使ubuntu10.04系统关联该节点上的Hadoop0.20.2文件和该节点上的jdk文件;
第五步,配置每个节点上Hadoop0.20.2插件中的core-site.xml文件,hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使集群中存在一个名字节点和多个数据节点,设置属性mapred,jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。
3.根据权利要求1所述的Hadoop框架下高维海量数据GMM聚类方法,其特征在于,步骤(4)所述的KMeans聚类方法的具体步骤如下:
第一步,把待聚类数据集聚集为c个类,c的大小根据不同的工程要求设定不同的值;
第二步,采用随机函数从待聚类数据集中选取c个数据作为聚类中每个类的中心;
第三步,设定迭代次数K,K的大小根据不同工程要求设定不同的值,设定已迭代次数m的初始值为0;
第四步,读取数据,每次读取待聚类数据集中的一条数据;
第五步,对第四步读入数据,采用下式求其到聚类中每个类的中心的距离:
D i = ( x - c i ) 2
其中,Di表示数据x到聚类中第i个类的中心的距离,x代表第四步读入的数据,ci代表聚类中第i个类的中心。
第六步,将数据归到距离最短的中心所在的类;
第七步,判断是否读取完待聚类数据集,若读取完,迭代次数m加1,执行第八步,否则执行第四步;
第八步,利用均值方法更新该类的中心值,判断迭代次数m是否大于K,如果大于,结束迭代,否则继续执行第四步。
CN201310047023.3A 2013-01-25 2013-01-25 Hadoop框架下高维海量数据GMM聚类方法 Active CN103077253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310047023.3A CN103077253B (zh) 2013-01-25 2013-01-25 Hadoop框架下高维海量数据GMM聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310047023.3A CN103077253B (zh) 2013-01-25 2013-01-25 Hadoop框架下高维海量数据GMM聚类方法

Publications (2)

Publication Number Publication Date
CN103077253A true CN103077253A (zh) 2013-05-01
CN103077253B CN103077253B (zh) 2015-09-30

Family

ID=48153783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310047023.3A Active CN103077253B (zh) 2013-01-25 2013-01-25 Hadoop框架下高维海量数据GMM聚类方法

Country Status (1)

Country Link
CN (1) CN103077253B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235894A (zh) * 2013-05-08 2013-08-07 华东理工大学 基于自适应优选模糊核聚类的石脑油属性聚类方法
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN104142920A (zh) * 2013-05-06 2014-11-12 苏州搜客信息技术有限公司 一种在线图像检索系统
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN104503820A (zh) * 2014-12-10 2015-04-08 华南师范大学 一种基于异步启动的Hadoop优化方法
CN104537231A (zh) * 2014-12-19 2015-04-22 上海电机学院 一种随机遴选系统的公平性审查方法
CN104809136A (zh) * 2014-01-28 2015-07-29 中国银联股份有限公司 一种混合聚类方法和装置
CN105740604A (zh) * 2016-01-22 2016-07-06 湖南大学 基于冗余距离消除和极端点优化的并行k-means聚类方法
CN105760222A (zh) * 2014-12-18 2016-07-13 北京神州泰岳软件股份有限公司 基于MapReduce的平均值计算方法及装置
CN105930375A (zh) * 2016-04-13 2016-09-07 云南财经大学 一种基于xbrl文件的数据挖掘方法
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN108763576A (zh) * 2018-05-28 2018-11-06 大连理工大学 一种用于高维文本数据的并行k-means算法
CN112508051A (zh) * 2020-11-06 2021-03-16 重庆恢恢信息技术有限公司 通过大数据平台进行建筑施工项目混合聚类工作方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062007A1 (en) * 1998-05-22 1999-12-02 Microsoft Corporation A scalable system for clustering of large databases having mixed data attributes
CN102081753A (zh) * 2010-05-07 2011-06-01 上海海事大学 一种基于在线分裂合并em算法的高斯混合模型分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999062007A1 (en) * 1998-05-22 1999-12-02 Microsoft Corporation A scalable system for clustering of large databases having mixed data attributes
CN102081753A (zh) * 2010-05-07 2011-06-01 上海海事大学 一种基于在线分裂合并em算法的高斯混合模型分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵卫中 马慧芳 傅燕翔 史忠植: "一种基于Hadoop云计算平台的聚类算法优化的研究", 《计算机科学》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142920A (zh) * 2013-05-06 2014-11-12 苏州搜客信息技术有限公司 一种在线图像检索系统
CN103235894A (zh) * 2013-05-08 2013-08-07 华东理工大学 基于自适应优选模糊核聚类的石脑油属性聚类方法
CN103593418B (zh) * 2013-10-30 2017-03-29 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN103593418A (zh) * 2013-10-30 2014-02-19 中国科学院计算技术研究所 一种面向大数据的分布式主题发现方法及系统
CN104809136B (zh) * 2014-01-28 2019-03-15 中国银联股份有限公司 一种混合聚类方法和装置
CN104809136A (zh) * 2014-01-28 2015-07-29 中国银联股份有限公司 一种混合聚类方法和装置
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN104503820B (zh) * 2014-12-10 2018-07-24 华南师范大学 一种基于异步启动的Hadoop优化方法
CN104503820A (zh) * 2014-12-10 2015-04-08 华南师范大学 一种基于异步启动的Hadoop优化方法
CN105760222A (zh) * 2014-12-18 2016-07-13 北京神州泰岳软件股份有限公司 基于MapReduce的平均值计算方法及装置
CN104537231A (zh) * 2014-12-19 2015-04-22 上海电机学院 一种随机遴选系统的公平性审查方法
CN105740604A (zh) * 2016-01-22 2016-07-06 湖南大学 基于冗余距离消除和极端点优化的并行k-means聚类方法
CN105930375A (zh) * 2016-04-13 2016-09-07 云南财经大学 一种基于xbrl文件的数据挖掘方法
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN108763576A (zh) * 2018-05-28 2018-11-06 大连理工大学 一种用于高维文本数据的并行k-means算法
CN112508051A (zh) * 2020-11-06 2021-03-16 重庆恢恢信息技术有限公司 通过大数据平台进行建筑施工项目混合聚类工作方法

Also Published As

Publication number Publication date
CN103077253B (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
CN103077253B (zh) Hadoop框架下高维海量数据GMM聚类方法
Zhang et al. imapreduce: A distributed computing framework for iterative computation
CN104750780B (zh) 一种基于统计分析的Hadoop配置参数优化方法
CN106201651A (zh) 神经形态芯片的模拟器
CN109523022B (zh) 终端数据处理方法、装置及终端
CN103246541B (zh) 一种自动并行化多级并行代价评估方法
CN111708641A (zh) 一种内存管理方法、装置、设备及计算机可读存储介质
CN112948123B (zh) 一种基于Spark的网格水文模型分布式计算方法
CN113221475A (zh) 一种用于高精度流场分析的网格自适应方法
CN102799960B (zh) 面向数据模型的并行业务流程异常检测方法
Raghavan et al. Asynchronous evolutionary shape optimization based on high-quality surrogates: application to an air-conditioning duct
Dang et al. Multi-objective multitasking optimization based on positive knowledge transfer mechanism
Pardo et al. Spark implementation of the enhanced Scatter Search metaheuristic: Methodology and assessment
Márquez et al. A load balancing schema for agent-based spmd applications
Skorpil et al. Testing of Python models of parallelized genetic algorithms
CN115391156A (zh) 一种跨域协同训练任务计算效率仿真方法及相关设备
Shen et al. A hybrid development platform for evolutionary multi-objective optimization
Kostromin et al. Service-oriented tools for automating digital twin development
Ma et al. Parallel exact inference on multicore using mapreduce
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法
Franceschini et al. Decentralized approach for efficient Simulation of DEVS models
Rajaram et al. An improved methodology for airfoil shape optimization using surrogate based design optimization
Luo et al. A new approach to building the Gaussian process model for expensive multi-objective optimization
CN112241872A (zh) 分布式数据计算分析方法、装置、设备和存储介质
Abdalhaq et al. Evolutionary optimization techniques on computational grids

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200714

Address after: 266109 building 28 and 29, Tian'an Digital City, No. 88, Chunyang Road, Chengyang District, Qingdao, Shandong Province

Patentee after: Qingdao Institute of computing technology Xi'an University of Electronic Science and technology

Address before: Xi'an City, Shaanxi province Taibai Road 710071 No. 2

Patentee before: XIDIAN University

TR01 Transfer of patent right