CN103793438A - 一种基于MapReduce的并行聚类方法 - Google Patents

一种基于MapReduce的并行聚类方法 Download PDF

Info

Publication number
CN103793438A
CN103793438A CN201210434240.3A CN201210434240A CN103793438A CN 103793438 A CN103793438 A CN 103793438A CN 201210434240 A CN201210434240 A CN 201210434240A CN 103793438 A CN103793438 A CN 103793438A
Authority
CN
China
Prior art keywords
cluster
data
information
mapreduce
clustering method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210434240.3A
Other languages
English (en)
Other versions
CN103793438B (zh
Inventor
孙占全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center
Original Assignee
Shandong Computer Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center filed Critical Shandong Computer Science Center
Priority to CN201210434240.3A priority Critical patent/CN103793438B/zh
Publication of CN103793438A publication Critical patent/CN103793438A/zh
Application granted granted Critical
Publication of CN103793438B publication Critical patent/CN103793438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明基于MapReduce的并行聚类方法,主要是针对大规模数据集的聚类问题,该方法以信息损失量度量样本之间的相关性,可以体现样本之间复杂的相关性,并且提供了一个客观的聚类数确定准则,通过数据并行,大大提高了聚类速度。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。

Description

一种基于MapReduce的并行聚类方法
技术领域
本发明涉及数据挖掘领域,特别涉及大规模数据聚类分析。
背景技术
随着电子信息技术的飞速发展,电子数据量以指数级增长,数据洪流在很多领域开始出现,如生物信息、生物医学、化学信息、网页等等。如何充分利用海量数据挖掘有用信息,从而辅助企业决策是信息领域专家所面临的巨大挑战。如果能够充分挖掘电子信息,将为企业带来巨大效益,如果不能从海量数据中挖掘有用信息,将成为电子垃圾,成为企业负担。数据挖掘是从大量数据集中发现新模式的过程,结合了人工智能、机器学习、统计和数据库,是目前分析数据的最有效手段。国内外很多学者从事这方面的研究,很多数据挖掘方法已被应用到实际当中。随着数据规模的扩大,很多传统的数据挖掘方法已不实用,针对大规模数据密集型的并行数据挖掘方法研究是近年来信息领域的研究重点。有效的并行算法和实现技术是实现大规模数据挖掘的关键。很多并行挖掘算法以不同技术实现,如多线程、MPI技术、MapReduce技术、工作流技术等,不同的实现技术有不同的性能和使用特性,MPI模式适用于计算密集型问题,特别适用于仿真,但编程复杂度较高,对运行环境的时延要求高,容错性较差。MapReduce是信息检索领域提出的一种适于数据分析的云技术,适合于数据密集型的并行数据挖掘。目前有几种MapReduce的结构,传统的MapReduce架构只是单向的Map和Reduce过程,不支持迭代,不适合复杂的数据挖掘算法。最新由美国印第安那大学教授提出的Twister软件,是一种迭代MapReduce模型,支持算法的迭代,大大提供了MapReduce算法的实用性。
数据聚类是是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习、数据挖掘、模式识别、图像分析以及生物信息等。聚类的目的是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,是一种无监督方法。很多聚类方法已被研究,如k均值聚类、Fisher聚类、Kohonen聚类、基于信息瓶颈理论聚类方法等,不同聚类方法具有不同的聚类性质,适用于不同的聚类问题。K均值聚类应用最广,但聚类的距离测度只能度量变量之间的线性相关性。Kohonen聚类是一种自适应神经网络,但聚类测度通常也是欧几里德距离,无法度量变量之间的任意相关性。基于信息瓶颈理论的聚类是基于信息熵理论的聚类方法,以信息损失量为测度度量变量之间的相关性,可以统计变量之间任意统计相关性,已被用于多个领域的聚类问题,取得理想的效果。但随着数据规模的扩大,基于信息瓶颈理论聚类方法的计算量越来越大,已不适于大规模的数据分析问题。基于信息瓶颈理论聚类方法的优点,本专利提出了基于MapReduce编程模式的并行聚类方法,有效解决了大规模聚类分析问题。
基于MapReduce的并行聚类方法可用于生物信息的DNA数据聚类,生物信息数据量非常庞大,每天都会产生大量的DNA数据,DNA序列聚类是生物信息的重要内容之一,如何对大规模的DNA序列进有效聚类是研究热点。DNA数据通常用A、C、G、T字符串组成,为实现DNA数据进行序列对比,通常需要对DNA字符对进行统计,将DNA序列转化成概率向量,通过计算两个概率向量的距离来度量DNA序列直接的相关性,从而利用本发明专利实现DNA序列的有效聚类。
基于MapReduce聚类方法与其它聚类方法相比主要有以下优点:
1)用信息损失量作为度量两个变量之间的距离测度,可以度量变量之间任意统计相关性;
2)本发明可用客观的方法确定聚类数,有效避免现有聚类方法人为主观指定聚类数的缺点;
3)本发明专利提出的基于MapReduce并行聚类方法适于大规模数据聚类,有效提高聚类效率和性能。
发明内容
本发明的目的之一在于提出一种基于MapReduce的并行聚类方法,该方法以信息损失作为样本之间距离的测度,以MapReduce编程模式实现聚类中心的并行计算,为聚类数确定提供了客观标准,避免主观指定聚类数的弊端。
为达到上述目的,本发明采用的技术方案为:
该基于MapReduce的并行聚类方法,包括步骤:
将原数据集进行转换,以概率的形式进行描述;
对原数据进行划分,设定聚类参数;
以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心;
以基于MapReduce的并行中心聚类方法实现最终聚类结果。
附图说明
图1基于迭代MapReduce编程模式的Twister软件架构
图2基于MapReduce的并行信息瓶颈理论聚类方法流程图
图3基于MapRedcue的并行中心聚类方法流程图
图4基于信息损失量变化确定聚类数
图5由本发明实施DNA序列聚类结果
具体实施方式
为更好地理解本发明,下面结合附图和具体实施方式对本发明作详细说明。
聚类是通过分析变量之间的相关性将数据集合划分若干类的过程,使得类内差异小,类间差异大。对于大规模数据的聚类分析,需要通过并行的方式实现。在数据划分的并行聚类中,如何实现全局的聚类中心是关键。另外,如何确定聚类数需要一个客观的标准。本发明提出一种基于MapReduce编程模式的并行聚类方法,该方法的具体操作如下。
数据转换、划分及参数设定
对原始文件进行分析,将原始数据转换成用概率向量表示的形式。然后随机的将原始数据均匀划分成n份,将n份数据分布到m个map节点,设定聚类截尾精度阈值α0、β0和δ0,其中α0是聚类步骤与该组数据中所有数据数比值的阈值;β0是信息损失量实际损失值与预测值差值的阈值;δ0是在并行中心聚类过程中,当前的聚类中心与上次聚类中心差值的阈值。
基于MapReduce的并行信息瓶颈理论聚类
1)基于迭代MapReduce的Twister软件架构
本发明是基于迭代MapReuce编程模式,以Twister软件为例,介绍基于迭代MapReduce编程模式软件的架构。
迭代MapReduce软件包括以下几部分,主作业、Map作业、Reduce作业和Combine作业,架构附图1如下所示。
其中,MapReduce作业通过客户节点控制,在配置阶段,客户端分布各MapReduce方法给各个任务,准备KeyPair对和静态数据给MapReduce任务,在每次迭代过程中,客户端接收到Combine方法返回的结果,直到任务结束。
Map作业主要实现计算模型,在初始化阶段,Map作业根据划分文件从本地磁盘加载静态数据,利用用户定义的计算模型对划分数据进行分析,结果传递给Reduce作业。Reduce作业主要接受从Map作业传递过来的结果,具体工作根据实际任务进行分析。
Combine作业是将分析的结果收集起来,传递给客户端。在客户端程序,判断是否达到截尾准则,如果达到程序结束退出,否则重复MapReduce过程。
2)基于信息瓶颈理论聚类方法
在给定一个目标集合,基于瓶颈原理的聚类方法是寻找在所有的聚类中使目标类与特征之间的信息损失达到最小。设在目标空间X和特征空间Y上的联合概率分布为p(x,y),信息瓶颈理论是找一个聚类
Figure BSA00000799188100041
在给定聚类质量的约束条件下使信息损失
Figure BSA00000799188100042
达到最小。
Figure BSA00000799188100043
是X和
Figure BSA00000799188100044
之间的互信息
I ( X ; X ^ ) = Σ x , x ^ p ( x ) p ( x ^ | x ) log p ( x ^ | x ) p ( x ^ ) - - - ( 1 )
信息瓶颈理论源于Shannon的率失真理论,它提供了在给定失真约束的条件下分类数的下限,给定一个随机变量X和失真测度d(x1,x2),Shannon的率失真理论是指在使平均失真最小的情况下可以仅用R个字节表示变量X,失真率函数表示为
D ( R ) = min p ( x ^ | x ) | I ( X , X ^ ) ≤ R Ed ( x , x ^ ) - - - ( 2 )
其中 Ed ( x , x ^ ) = Σ x , x ^ p ( x ) p ( x ^ | x ) d ( x , x ^ ) .
由聚类
Figure BSA00000799188100048
而导致的变量X与Y之间互信息损失可看作平均的失真测度
d ( x , x ^ ) = I ( X ; Y ) - I ( X ^ ; Y )
= Σ x , x ^ , y p ( x , x ^ , y ) log p ( y | x ) p ( x ) - Σ x , x ^ , y p ( x , x ^ , y ) log p ( y | x ^ ) p ( y ) - - - ( 3 )
= ED ( p ( x , x ^ ) | | p ( y | x ^ ) )
其中D(f||g)=Eflog(f/g)是K-L散度。可得到失真函数为
D ( R ) = min p ( x ^ | x ) | I ( X ; X ^ ) ≤ R ( I ( X ; Y ) - I ( X ^ ; Y ) ) - - - ( 4 )
它正是信息瓶颈理论提出的最小化标准,即找到一个聚类使目标空间与特征空间的互信息损失最小。
设c1和c2是聚成的两个类,由于两个类聚到一起而导致的信息损失可表示为
d(c1,c2)=I(c1;Y)+I(c2;Y)-I(c1,c2;Y)                     (5)
通过标准的信息论运算可得
d ( c 1 , c 2 ) = Σ y , i = 1,2 p ( c i , y ) log p ( c i , y ) p ( y ) p ( c i ) - Σ y p ( c 1 ∪ c 2 , y ) log p ( c 1 ∪ c 2 , y ) p ( y | c 1 ∪ c 2 ) - - - ( 6 )
其中p(ci)=|ci/|X|,|ci|表示类ci的势,|X|表示目标空间的势,p(c1∪c2)=|c1∪c2|/|X|。在基于信息熵的概率合并中,假定两类是相互独立的,因此,合并后的概率形式为两类概率分布的和
p ( y | c 1 ∪ c 2 ) = Σ i = 1,2 | c i | | c 1 ∪ c 2 | p ( y | c i ) - - - ( 7 )
该方法通过合并每步信息损失量最小的两个样本实现样本聚类,算法始于最小聚类即把每个样本看做一个聚类。聚类过程根据下面的结尾准则判断聚类是否结束。
3)聚类截尾判断准则
首先设定聚类准则判别参数α,β,其中,α代表聚类数与原始数据数比值的阈值,即聚类数与原始数据数比值不能大于α;β表示当前步合并产生的信息损失量与预测值的差值阈值,其计算过程如下。
对于第i数据划分子集,在确定α后,当聚类步数达到第k步k>niα时,开始利用当前聚类步前k-1步产生的信息损失量进行最小二乘回归。将聚类步数作为x,每步信息损失量作为y,形成坐标对(x,y)。根据k-1个数据样本进行回归,计算公式为
min Σ i = 1 k - 1 ( y i - ( ax i + b ) ) 2 - - - ( 8 )
通过求解最优化问题,可得最优解
a ^ = Σ i = 1 k - 1 x i y i - ( Σ i = 1 k - 1 x i Σ i = 1 k - 1 y i ) / m Σ i = 1 k - 1 x i 2 - ( Σ i = 1 k - 1 x i ) 2 / m - - - ( 9 )
b ^ = Σ i = 1 k - 1 y i m - a ^ Σ i = 1 k - 1 x i m - - - ( 10 )
当前聚类步的预测值为
y ^ i = a ^ x k + b ^ - - - ( 11 )
预测值与实际信息损失量为
e = y i - y ^ i y i - - - ( 12 )
当e>β时,聚类结束,聚类数即为当前数据集的聚类数。
各个数据子集的聚类中心确定后,将聚类中心聚集到一起,重新生成聚类样本,然后,根据基于信息瓶颈理论的聚类方法对其进行聚类,得到原始样本的初始聚类中心。
给定n个样本的数据集D,首先将其划分m份D1,D2,…,Dm,每份包含数据为n1,n2,…,nm个。在每份数据上
Figure BSA00000799188100058
i=1,…,m运行基于信息瓶颈理论的聚类从而获得各数据子集的聚类中心
Figure BSA00000799188100059
i=1,…,m。
收集所有数据子集的分聚类中心,根据基于信息瓶颈理论的聚类方法生成全局聚类初始中心,
在每个聚类中心的向量里,需要包含该向量合并的向量数,以备在计算信息损失时利用,
基于Twister计算过程如附图2所示。
样本聚类过程可总结如下。
(1)将每个数据向量看做一个聚类。
(2)计算任意两个数据向量合并所产生的信息损失量,选择信息损失量最小的两组进行合并,生成新的聚类组。
(3)重复以上步骤直到达到预先设定以下截尾准则。
4)基于迭代方法计算聚类中心
在获取初始聚类中心C0后,将其分布到各个Map节点,设k个空数据集p1,P2,…,Pk,计算样本x与初始聚类中心
Figure BSA00000799188100061
之间的距离,用信息损失作为测度,当x与
Figure BSA00000799188100062
之间的信息损失最小时,将样本x放入到数据集Pi中。对数据子集的所有数据计算过后,根据新生成的数据集p1,P2,…,Pk计算新的聚类子中心C1,C2,…,Cm。将所有的数据子集中心收集到一起,根据(7)计算新的全局聚类中心。
通过计算新生成的聚类中心与原聚类中心的区别来判断聚类过程是否结束,如果达到预期目标,聚类结束,否则,重复上述过程,迭代过程如下图所示。迭代过程描述如下,被划分的样本已经部署在了各个计算节点,初始的聚类中心输入到各个计算节点,在每个Map节点,重新计算该节点的聚类中心。所有的子聚类中心聚集到Reduce节点,根据公式(7)计算新的聚类中心,新的聚类中心返回到主计算节点,计算新聚类中心xnew与上次聚类中心xold的差值,如果差值小于预先指定的阈值,迭代过程结束,如果大于指定的阈值,继续迭代过程。差值计算如下
δ = Σ i = 1 l x i new log x i new x i old + Σ i = 1 l x i old log x i old x i new
计算最终聚类中心的迭代过程如附图3所示。
结合生物信息聚类问题,本发明基于MapReduce并行聚类方法,用于DNA序列聚类分析问题,包括如下具体步骤:
步骤一:数据转换、划分及参数确定
初始数据集来自于印第安纳大学Mina Rho博士,是一些16S rRNA数据。选择其中100043条DNA数据进行聚类分析。在这个数据文件中,每条DNA数据G、A、C、T字符串组成。计算每条DNA数据中{A,C,T,G}和[AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT]的概率,概率向量可通过下式计算。
f s i , s j = S i S j | S | - 1 - - - ( 14 )
其中sisj∈∑,SiSj表示在DNA字符串中核酸序列对出现的频率。|S|表示DNA序列的长度。在该式中,除串头和串尾核酸被统计1次外,其它的核酸都统计2次,为去除单核酸的影响,核酸对的概率计算调整为
p s i , s j = f s i , s j f s i f s j - - - ( 15 )
为计算信息损失,调整后的概率应进行标准化,即
p s i , s j * = p s i , s j Σ p s i , s j - - - ( 16 )
这样,DNA数据样本转换成16维向量,用概率的形式描述样本作为聚类输入。经转换后的数据被均匀分成100份,然后把划分的数据分布到8个计算节点。设定聚类步骤与该组数据中所有数据数比值的阈值α0=0.8;信息损失量实际损失值与预测值差值的阈值β0=0.97;当前的聚类中心与上次聚类中心差值的阈值δ0=0.01。
步骤二:确定初始聚类中和聚类数
对于每个节点首先利用信息瓶颈理论分析聚类中心,当达到设定的截尾准则阈值时,聚类过程结束,从而可以得到该数据组的聚类中心和聚类数,将得到的100个聚类分中心输入到Reduce节点进行整合,形成新的聚类样本,利用信息瓶颈理论聚类方法进行聚类,从而得到全局的聚类中心和聚类数,聚类数位6。通过Combine将计算的初始聚类中心返回到客户端程序。
步骤三:确定最终聚类中心
将上步得到的全局聚类中心分布到各个计算节点,根据并行中心聚类方法进行聚类,重新计算聚类中心,重复该过程,直到两步得到的聚类中心差值小于指定的阈值δ0
步骤四:聚类结果显示
在该实例中,样本通过多维尺度法进行降维,把16维向量降至3维,然后在三维坐标上进行显示,聚类结果显示如附图5所示。
本发明基于MapReduce的并行聚类方法,主要是针对大规模数据集的聚类问题,该方法既可以体现数组之间复杂的相关性,又可以提供一个客观的聚类数确定准则。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。

Claims (10)

1.一种基于MapReduce编程模型的并行聚类方法,其特征在于,包括步骤: 
原始数据划分及参数设定; 
以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心; 
以基于MapReduce的并行中心聚类方法实现最终聚类结果。 
2.根据权利1所述的原始数据划分及参数设定,其特征在于, 
对原始文件进行分析,将原始数据转换成用概率向量表示的形式。然后随机的将原始数据均匀划分成1份,将1份数据分布到m个map节点,设定聚类截尾精度阈值α0、β0和δ0,其中α0是聚类步骤与该组数据中所有数据数比值的阈值;β0是信息损失量实际损失值与预测值差值的阈值;δ0是在并行中心聚类过程中,当前的聚类中心与上次聚类中心差值的阈值。 
3.根据权利1所基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心,其特征在于, 
针对每个数据划分,利用基于信息瓶颈理论聚类方法进行聚类; 
合并各数据划分的聚类中心,利用基于信息瓶颈理论聚类方法重新聚类,生成全局初始聚类中心。
4.根据权利3所述基于信息瓶颈理论聚类方法,其特征在于, 
a.将每个向量数组看作最初的类; 
b.计算任意两组向量合并产生的信息损失量,选择合并后产生的信息损失量最小的一组进行合并,生产新的数组; 
c.重复步骤b直至满足聚类截尾精度α0和β0,确定聚类数。
5.根据权利4中b所述,其特征在于 
根据信息瓶颈理论,两组数组合并所产生的信息损失量为: 
Figure FSA00000799188000011
Figure FSA00000799188000012
6.根据权利4中c所述,其特征在于 
对于第i个数据划分,当聚类步数达到第k步k>niα时,开始利用当前聚类步前k-1步产 生的信息损失量进行最小二乘回归,根据回归方程,当前聚类步的预测值为
Figure FSA00000799188000021
则预测值与实际信息损失量为 
Figure FSA00000799188000022
当e>β0时,聚类结束,聚类数即为当前数据集的聚类数。 
7.根据权利3所述生成全局初始聚类中心,其特征在于, 
收集所有Map接点计算得到的数据子集的分聚类中心,生成新的聚类样本,根据权利3所述基于信息瓶颈理论的聚类方法生成全局初始聚类中心并确定聚类数。 
8.根据权利1所述基于MapReduce的并行中心聚类方法实现最终聚类结果,其特征在于 
a利用中心聚类方法确定每步聚类中心; 
b通过迭代的方式调整聚类中心,当满足迭代阈值时,聚类结束。 
9.根据权利8中a所述,其特征在于 
在获取初始聚类中心C0后,将其分布到各个Map节点,设k个空数据集P1,P2,…,Pk,计算样本x与初始聚类中心
Figure FSA00000799188000023
之间的距离,用信息损失作为测度,当x与
Figure FSA00000799188000024
之间的信息损失最小时,将样本x放入到数据集Pi中,根据下式计算数据集Pi的中心 
Figure FSA00000799188000025
对数据子集的所有数据计算过后,根据新生成的数据集P1,P2,…,Pk计算新的聚类子中心C1,C2,…,Cm。将所有的数据子集中心收集到一起,根据(2)计算新的全局聚类中心。 
10.根据权利8中b所述,其特征在于 
计算新聚类中心xnew与上次聚类中心xolc的差值,如果差值小于预先指定的阈值,迭代过程结束,如果大于指定的阈值,继续迭代过程。差值计算如下 
当δ<δ0时,迭代结束。 
CN201210434240.3A 2012-11-05 2012-11-05 一种基于MapReduce的并行聚类方法 Active CN103793438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210434240.3A CN103793438B (zh) 2012-11-05 2012-11-05 一种基于MapReduce的并行聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210434240.3A CN103793438B (zh) 2012-11-05 2012-11-05 一种基于MapReduce的并行聚类方法

Publications (2)

Publication Number Publication Date
CN103793438A true CN103793438A (zh) 2014-05-14
CN103793438B CN103793438B (zh) 2017-07-14

Family

ID=50669116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210434240.3A Active CN103793438B (zh) 2012-11-05 2012-11-05 一种基于MapReduce的并行聚类方法

Country Status (1)

Country Link
CN (1) CN103793438B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022521A (zh) * 2016-05-19 2016-10-12 四川大学 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN106202364A (zh) * 2016-07-07 2016-12-07 华南理工大学 面向MapReduce的XML数据划分优化方法及其系统
CN106228035A (zh) * 2016-07-07 2016-12-14 清华大学 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
CN106778079A (zh) * 2016-11-22 2017-05-31 重庆邮电大学 一种基于MapReduce的DNA序列k‑mer频次统计方法
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN113313159A (zh) * 2021-05-24 2021-08-27 广西壮族自治区水产科学研究院 一种兽药高通量聚类分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
CN101655847A (zh) * 2008-08-22 2010-02-24 山东省计算中心 一种基于扩展熵信息瓶颈理论的聚类方法
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
CN101655847A (zh) * 2008-08-22 2010-02-24 山东省计算中心 一种基于扩展熵信息瓶颈理论的聚类方法
CN101763404A (zh) * 2009-12-10 2010-06-30 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JALIYA EKANAYAKE等: "Twister: A Runtime for Iterative MapReduce", 《THE ACM INTERNATIONAL SYMPOSIUM ON HIGH PERFORMANCE DISTRIBUTED COMPUTING(HPDC)》 *
李海霞 等: "基于扩展熵的无监督聚类的中医辩证", 《中国中医基础医学杂志》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022521A (zh) * 2016-05-19 2016-10-12 四川大学 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN106202364A (zh) * 2016-07-07 2016-12-07 华南理工大学 面向MapReduce的XML数据划分优化方法及其系统
CN106228035A (zh) * 2016-07-07 2016-12-14 清华大学 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
CN106228035B (zh) * 2016-07-07 2019-03-01 清华大学 基于局部敏感哈希和非参数化贝叶斯方法的高效聚类方法
CN106202364B (zh) * 2016-07-07 2019-05-17 华南理工大学 面向MapReduce的XML数据划分优化方法及其系统
CN106778079A (zh) * 2016-11-22 2017-05-31 重庆邮电大学 一种基于MapReduce的DNA序列k‑mer频次统计方法
CN106778079B (zh) * 2016-11-22 2019-07-19 重庆邮电大学 一种基于MapReduce的DNA序列k-mer频次统计方法
CN107423764A (zh) * 2017-07-26 2017-12-01 西安交通大学 基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法
CN113313159A (zh) * 2021-05-24 2021-08-27 广西壮族自治区水产科学研究院 一种兽药高通量聚类分析方法

Also Published As

Publication number Publication date
CN103793438B (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN103235974B (zh) 一种提高海量空间数据处理效率的方法
Rajeswari et al. Analysing soil data using data mining classification techniques
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
CN103793438A (zh) 一种基于MapReduce的并行聚类方法
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN112382411B (zh) 一种基于异质图的药物-蛋白质靶向作用预测方法
CN101699514B (zh) 基于免疫克隆量子聚类的sar图像分割方法
CN105913077A (zh) 一种基于降维和抽样的数据聚类方法
CN103473786A (zh) 基于多目标模糊聚类的灰度图像分割方法
CN102799616A (zh) 大规模社会网络中的离群点检测方法
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN104751200B (zh) 一种svm网络业务分类的方法
CN115952860A (zh) 一种面向异质统计的分簇联邦学习方法
CN105184654A (zh) 一种基于社区划分的舆情热点实时获取方法与获取装置
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
Jie et al. Naive Bayesian classifier based on genetic simulated annealing algorithm
Singh et al. Performance analysis of decision trees
CN114970922A (zh) 一种基于数据挖掘的大气污染预测方法及装置
CN106600100A (zh) 一种基于加权的多种群粒子群优化的危险源原因分析方法
CN111080351A (zh) 一种多维数据集的聚类方法及系统
CN116578858A (zh) 基于图神经网络的空压机故障预测与健康度评价方法及系统
Sun A parallel clustering method study based on MapReduce
Vardhan et al. Density based clustering technique on crop yield prediction
Benala et al. Software effort prediction using fuzzy clustering and functional link artificial neural networks
Pouyan et al. Distance metric learning using random forest for cytometry data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 250014 Ji'nan Academy of Sciences, Shandong Province Road No. 19

Applicant after: SHANDONG COMPUTER SCIENCE CENTER

Address before: 250014 Ji''nan Academy of Sciences, Shandong Province Road No. 19

Applicant before: Shandong Computer Science Center

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant