CN111597230A - 基于MapReduce的并行密度聚类挖掘方法 - Google Patents

基于MapReduce的并行密度聚类挖掘方法 Download PDF

Info

Publication number
CN111597230A
CN111597230A CN202010414231.2A CN202010414231A CN111597230A CN 111597230 A CN111597230 A CN 111597230A CN 202010414231 A CN202010414231 A CN 202010414231A CN 111597230 A CN111597230 A CN 111597230A
Authority
CN
China
Prior art keywords
grid
data
value
algorithm
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010414231.2A
Other languages
English (en)
Inventor
毛伊敏
徐锴滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Science and Technology filed Critical Jiangxi University of Science and Technology
Priority to CN202010414231.2A priority Critical patent/CN111597230A/zh
Publication of CN111597230A publication Critical patent/CN111597230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于MapReduce的并行密度聚类挖掘方法,其特征在于,包括以下步骤:S1,根据数据点空间分布状况,自适应划分网格单元;S2,对每个数据分区,构建加权网格间的关联性;S3,计算网格密度;S4,利用MapReduce计算模型,得到并行计算局部簇;S5,利用并查集的局部簇合并算法,以及MapReduce计算模型,得到聚类全局簇。本发明提出的方法在运行效率上以及聚类精确度上都有显著的提高。

Description

基于MapReduce的并行密度聚类挖掘方法
技术领域
本发明涉及一种大数据挖掘技术领域,特别是涉及一种基于MapReduce的并行密度聚类挖掘方法。
背景技术
数据挖掘又被称为知识发现KDD(knowledge discover in database),其目的在于发现大量数据集中有用的信息。常见的数据挖掘任务有聚类、分类、关联规则挖掘等。其中,聚类算法是一种无监督的学习算法,能够根据数据对象的相关特征,将相似的对象归为一类,而差别较大的数据对象则划分到不同类中,因此聚类算法可以从样本数据中发现潜在的分布模式,被广泛应用于文本分析,生物学,医学,卫星图像分析等各种领域。在聚类算法中,基于密度的聚类算法,如DBSCAN和OPTICS 算法,可以发现任意形状的簇且对噪声不敏感,受到人们的广泛关注。
随着互联网信息技术的不断发展以及大数据时代的到来,使得大数据相较于传统数据,具有了4V特性——Volume(数量大)、Variety(速度快)、Value(价值密度低)。但是传统的密度聚类算法所需的时间复杂度较高,只适用于较小规模的数据集,而在处理大数据时无疑会产生更庞大的计算复杂度。所以,如何降低密度聚类算法的计算复杂度,将其应用到大数据上,是个具有挑战性的难题。
随着Google开发的MapReduce架构的广泛应用,以Hadoop、Spark为代表的分布式计算架构受到了越来越多的关注。为了能进一步降低密度聚类算法的计算复杂度,通过改进传统的密度聚类算法,并与分布式计算架构相结合成为目前密度聚类算法研究的主要方向。Li等人首先提出了基于MapReduce下的并行DBSCAN算法,其使用MapReduce计算架构,将数据分片后并行执行DBSCAN算法形成局部簇,再通过增量的方式合并得到全局簇,实现了DBSCAN算法的并行化,然而该算法没有提出有效的方法来划分数据,合并局部簇的计算复杂度较高;Silva等人提出了 MapReduce下的分布式DBSCAN算法,根据特定场景划分数据,聚类簇的合并采用增量的方式,算法的时间复杂度较高,算法总体并行化效率较低。Noticewala等人和瞿原等人分别提出了基于Hadoop和基于Spark下的并行密度聚类算法,有效降低密度聚类算法的计算复杂度,同时分别给出了基于Hadoop和Spark下的数据划分方案,但算法对数据进行分区处理时未具体考虑数据特性,也没有给出有效的局部簇合并生成全局簇的方法。
如何有效地划分数据,合并局部簇一直是密度聚类算法并行化的重要研究内容。由于数据网格化能将空间数据划分为有限数目的单元,落入同一网格的点可以被看作一个对象进行处理,可以很好地解决数据划分的问题。因此,He等人提出 MR-DBSCAN算法,采用均匀划分网格的方式将数据网格化,以网格单元作为对象并行执行DBSCAN算法,最后合并这些网格对象得到全局簇。然而算法明显存在两个问题:均匀划分网格时,网格单元的大小实际难以确定,算法的聚类效果受网格单元大小的影响较大,导致算法的聚类效果不佳;另外,算法在合并局部簇采用增量的方式,计算效率仍然较低。在此基础上,宋董飞等人和Huang等人分别提出了基于Hadoop下的H-DBSCAN算法和基于Spark下的S-DBSCAN算法,同样是采用均分网格的方法来划分数据,不同的是他们通过加入网格边界的扩展,以此来提高聚类结果的精确度和局部簇的合并效率。为了能更有效地划分网格,以及进一步加快合并局部簇的效率,王兴等人提出增量并行化快速聚类算法IP-DBSCAN算法,该算法主要分为三个阶段:首先通过二分法和贪心算法对空间数据进行合理网格化;其次进行本地局部聚类,获得局部簇候选集;最后使用R*-tree索引策略进一步提高局部簇的合并速度。相较于其他按网格划分数据的并行密度聚类算法,IP-DBSCAN 算法能更加合理地对数据进行划分,且在合并局部簇时加快了收敛速度,从而进一步加快了算法的并行化效率。然而该算法仍存在两个明显的不足:一方面,算法采用二分法划分数据时,仍需要输入网格边长阈值,阈值的不同会影响算法的聚类结果准确度,导致聚类结果的准确度不高;另一方面,在进行本地局部聚类时计算复杂度较高,在合并局部簇时没有采用并行化的思想,算法总体并行化效率有待进一步提升。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于MapReduce的并行密度聚类挖掘方法。
为了实现本发明的上述目的,本发明提供了一种基于MapReduce的并行密度聚类挖掘方法,包括以下步骤:
S1,根据数据点空间分布状况,自适应划分网格单元;
S2,对每个数据分区,构建加权网格间的关联性;
S3,计算网格密度;
S4,利用MapReduce计算模型,得到并行计算局部簇;
S5,利用并查集的局部簇合并算法,以及MapReduce计算模型,得到聚类全局簇。
在本发明的一种优选实施方式中,在步骤S1中包括:
将d维数据空间等分为2d个初始网格单元,再根据数据点之间的最小平均距离计算网格边长的划分阈值
Figure RE-GDA0002530942220000031
当所有网格满足非空且当前边长大于密度阈值时,则停止网格划分;其网格边长划分阈值
Figure RE-GDA0002530942220000032
的计算方法:
Figure RE-GDA0002530942220000033
其中,n表示数据点的个数;
min()表示取最小值;
μ为当前最小网格单元中的点个数;
pi和pj分别为d维空间中的任意两个数据点。
在本发明的一种优选实施方式中,在步骤S2中包括:对加权网格的作用范围进行设置:
Figure RE-GDA0002530942220000041
其中,
Figure RE-GDA0002530942220000042
表示加权网格作用范围内的网格集合,
Figure RE-GDA0002530942220000043
表示一个网格单元, si表示在某一维度下的第i个网格单元;
si'表示区别于si的其余网格单元;
Figure RE-GDA0002530942220000044
表示对于任意的i其1≤i≤d;
对加权网格的权值进行设置:
对于
Figure RE-GDA0002530942220000045
中的一个数据点p,如果
Figure RE-GDA0002530942220000046
并且
Figure RE-GDA0002530942220000047
则设置
Figure RE-GDA0002530942220000048
为 1;否则,设置
Figure RE-GDA0002530942220000049
为0;
其中,
Figure RE-GDA00025309422200000410
表示网格单元
Figure RE-GDA00025309422200000411
的加权网格中的任意网格单元,
Figure RE-GDA00025309422200000412
表示网格单元
Figure RE-GDA00025309422200000413
相对于网格单元
Figure RE-GDA00025309422200000414
的权重值。
在本发明的一种优选实施方式中,在步骤S3中包括:
Figure RE-GDA00025309422200000415
Figure RE-GDA00025309422200000416
lbP(t)表示对P(t)作以2为底的对数运算。
H'(X)表示网格单元的密度;
其中,t表示数据网格化后的某一非空网格单元的密度,即以该网格单元为中心构成的加权网格中的所有数据点个数;x表示该密度取值下的网格单元数量;P(t)是网格单元密度为t所出现的概率;count(t)表示网格单元中网格密度为t的网格单元个数;count(n)表示划分后的非空网格单元总数。
在本发明的一种优选实施方式中,在步骤S4中包括:
在并行计算网格密度阶段:
输入网格对象g以及网格中的点pi;接着,执行map函数计算出以网格对象g为中心的加权网格中点的数量Ci[g],并输出key-value值<g,Ci[g]>;之后,执行reduce函数合并map函数的结果,并使用WGIE策略计算出每个网格对象的网格密度hi,最后输出key-value值<(g,N(gi)),hi>传入下一个阶段;
在并行计算局部簇阶段:
输入数据集D中的点pi以及上个阶段计算出的key-value值<(g,N(gi)),hi>;之后,调用map函数对数据进行计算,如果输入的数据为数据点pi,则map函数计算每个数据点所对应的网格对象g并输出key-value值<g,pi>,如果输入的数据为key-value值<(g,N(gi)),hi>,则map函数计算当前网格对象g是否为核心网格,如果hi≤μ,则当前网格对象g为核心网格,输出key-value值<g,N(gi)>,如果hi>μ,则不输出任何结果;最后执行Reduce函数,合并map函数的结果,输出key-value值<(g,N(gi)),N(pi)>。
在本发明的一种优选实施方式中,在步骤S5中包括:
S51,初始化每一个非空网格对象g∈G,将其看作一个单独的簇,每一个网格对象的状态都被初始化为unvisited,并且在算法执行之后每个网格对象的状态将变为unvisited,border和core这三个状态之一;
G表示网格对象集合;
unvisited表示未被访问的数据对象;
border表示非核心对象;
core表示核心对象;
S52,检索每一个核心网格对象g的key-value值<g,N(gi)>,将其状态由unvisited更改为core;
S53,对其邻域内的网格对象N(g)的状态进行设置,分为以下几种情况:
如果在N(g)中的一个网格对象gi的状态为border,则表示当前的网格对象gi已经分配到了另一个簇中,因此网格对象gi的状态保持不变;
如果在N(g)中的一个网格对象gi的状态为core,则将以gi为核心的局部簇合并到g的局部簇中;
如果在N(g)中的一个网格对象gi的状态为unvisited,则将其加入到以g为核心的局部簇中,并将gi的状态变更为border;
S54,执行完之后,根据数据点和网格ID的相对应,得到聚类的全局簇,而被标记为unvisited的网格对象中的数据点是离群点。
在本发明的一种优选实施方式中,还包括:
S61,首先随机地将网格对象集合G划分为数量相近的k个部分G1,G2,...,Gk,同时,将表R也划分为k个部分R1,R2,...,Rk,其中k的值对应了执行算法所需要的并行节点数;
S62,执行map函数:
如果map函数输入的数据为数据点pi∈D,则map函数计算每个数据点所对应的网格对象g并输出key-value值<g,pi>;
如果输入的数据为表R中的局部簇数据,则检索该局部簇的核心网格对象的 key-value值<g,N(gi)>,根据key值g在G1,G2,...,Gk中进行索引,得到相应的k值,将此核心网格对象的key-value值分配到相应的Rk中,并输出key-value值<Mi,(g,N(gi))>传递到Reduce函数中去;
S63,执行Reduce函数,对于每个Mi,并行化执行MECORE算法,将得到的k个合并结果最后执行一次局部簇合并算法,再与<g,pi>进行结合得到聚类全局簇。
综上所述,由于采用了上述技术方案,本发明提出的方法在运行效率上以及聚类精确度上都有显著的提高。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明DBWGIE-MR的流程示意图。
图2是本发明DBWGIE-MR算法的加速比示意图。
图3是本发明三种算法的运行时间比较示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
该算法首先根据数据点空间分布状况,提出自适应网格划分策略(ADG)来自适应划分网格单元;其次针对每个数据分区,提出邻居网格扩展策略(NE)构建其加权网格用于加强网格之间的关联性,以此提高聚类效果;同时提出加权网格信息熵策略(WGIE)来计算网格密度以及密度聚类算法的ε邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法(COMCORE-MR),从而提升算法的总体并行化效率;最后提出了基于并查集的局部簇合并算法(MECORE),用于加快合并局部簇的收敛速度,并结合MapReduce计算模型,提出了并行合并局部簇算法(MECORE-MR),实现了并行化合并局部簇,从而更快得到聚类结果的全局簇,提升了基于密度的聚类算法对局部簇合并的效率。本发明原理简单且易于实现,与已有的基于MapReduce的并行密度聚类算法相比较,本发明提出的算法无论是在运行效率上还是聚类精确度上都有显著的提高,此外通过该方法所挖掘出的知识,能够在生物学,医学,天文地理学上提供巨大的帮助。
1.数据划分
针对图像数据环境下基于网格划分数据的并行化密度聚类算法中存在的网格边长选取的不确定性和网格数据密度不一致性问题,提出ADG策略用于将数据自适应地划分为网格。ADG策略的描述如下:
先将d维图像数据空间等分为2d个初始图像网格单元,再根据图像数据点之间的最小平均距离计算图像网格边长的划分阈值
Figure RE-GDA0002530942220000081
当所有图像网格满足非空且当前边长大于密度阈值时,则停止图像网格划分。图像网格边长划分阈值
Figure RE-GDA0002530942220000082
的计算公式如下:
Figure RE-GDA0002530942220000083
其中,pi和pj分别为d维空间中的任意两个数据点,μ为当前最小网格单元中的点个数。
证明:设最小非空网格单元的长度为L,若最小网格单元中两点的距离
Figure RE-GDA0002530942220000084
Figure RE-GDA0002530942220000085
Figure RE-GDA0002530942220000086
又因为
Figure RE-GDA0002530942220000087
所以
Figure RE-GDA0002530942220000088
又因为μ>0,所以
Figure RE-GDA0002530942220000089
Figure RE-GDA00025309422200000810
当μ≤2时,则有
Figure RE-GDA00025309422200000811
此时密度阈值小于该网格单元边长,则停止该网格的划分;而当密度阈值μ增大或者数据点距离||pi-pj||增大时,密度阈值
Figure RE-GDA00025309422200000812
也会随之增大,说明网格单元的数据点较多且网格中的点分布趋于稀疏时,密度阈值会大于该网格单元边长,则需要进一步划分网格单元。
因此公式能度量空间数据的分布状况,是网格边长划分阈值计算公式。
2.局部簇形成
针对图像数据环境下基于网格划分数据的并行化密度聚类算法中,局部簇的形成过程中存在的数据关联性较差导致的聚类效果不好以及局部簇的计算效率较低的问题,首先基于邻居网格和网格边界扩展原理,提出NE策略来构建每个数据分区的加权网格,加强图像网格之间的关联性,以此来提高聚类效果;同时,提出WGIE 策略来计算图像网格对象的密度值,并重定义ε邻域和核心对象,使密度聚类算法更适用于加权网格;最后结合MapReduce计算模型,提出并行的局部簇聚类算法 COMCORE-MR,解决并行密度聚类算法对局部簇的计算效率较低的问题,以此来提升算法的总体并行化效率。
2.1加权网格构建
在对图像数据进行网格化处理后,为了能在聚类过程中考虑到相邻图像网格之间数据的关联性,进一步提升聚类效果,提出了NE策略来构建每个数据分区的加权网格,加强图像网格之间的关联性,以此来提高聚类效果。NE策略的描述如下:
首先对加权网格的作用范围进行设置。为更好地确定加权网格的作用范围,基于网格对象的邻居网格,加权网格的作用范围定义如下:
Figure RE-GDA0002530942220000091
其中
Figure RE-GDA0002530942220000092
表示加权网格作用范围内的网格集合,
Figure RE-GDA0002530942220000093
表示一个网格单元,其中si代表在某一维度下的第i个网格单元;s.t.指subject to,受限制于...;si'表示区别于si的其余网格单元;
Figure RE-GDA0002530942220000094
表示对于任意的i其1≤i≤d,d表示维度值。
其次对加权网格的权值进行设置。基于网格边界扩展原理,加权网格的权值设置如下:
对于
Figure RE-GDA0002530942220000095
中的一个图像数据点p,如果
Figure RE-GDA0002530942220000096
并且
Figure RE-GDA0002530942220000097
则设置
Figure RE-GDA0002530942220000098
为1;否则,设置
Figure RE-GDA0002530942220000099
为0。其中,
Figure RE-GDA00025309422200000910
表示网格单元
Figure RE-GDA00025309422200000911
的加权网格中的任意网格单元,
Figure RE-GDA00025309422200000912
表示网格单元
Figure RE-GDA00025309422200000913
相对于网格单元
Figure RE-GDA00025309422200000914
的权重值。
2.2网格密度的计算
目前图像数据环境下基于网格划分的并行化密度聚类算法中,网格密度的计算是使用网格中的数据点个数作为该网格对象的密度值,虽然这种密度表示方法在大多数基于密度的聚类问题中取得了较好效果,但在基于加权网格的密度聚类问题中,由于不同网格对象之间存在着关联性,因此直接使用网格中的数据点个数来计算加权网格中的网格密度,有失合理性。在构建好网格对象的加权网格之后,为使密度聚类算法能更好地应用于加权网格,提出WGIE策略用于计算网格单元的密度,并重新定义密度聚类算法的ε邻域和核心对象。WGIE策略定义如下:
Figure RE-GDA0002530942220000101
Figure RE-GDA0002530942220000102
其中,t表示图像数据网格化后的某一非空网格单元的密度,即以该网格单元为中心构成的加权网格中的所有数据点个数;x表示该密度取值下的网格单元数量;P(t) 是网格单元密度为t所出现的概率;count(t)表示网格单元中网格密度为t的网格单元个数;count(n)表示划分后的非空网格单元总数。lbP(t)表示对P(t)作以2为底的对数运算, H'(X)表示网格单元的密度。
证明:
1)单调性:对于
Figure RE-GDA0002530942220000103
且t1-t2>0,P(t1)-P(t2)>0,则H'(P(t1))-H'(P(t2))<0;
2)非负性:因为0<P(t),lbP(t)<0,所以
Figure RE-GDA0002530942220000104
即H'(X)>0;
3)累加性:对于
Figure RE-GDA0002530942220000105
H'(P(t))=H'(P(t1,t2))=H'(P(t1)·P(t2))=H'(P(t1))+H'(P(t2))。
因此公式满足信息熵定义的基本条件,是系统稳定程度的度量公式。
为使密度聚类算法更好地应用于加权网格,根据加权网格的作用范围和加权网格信息熵策略来重定义ε邻域和核心对象。核心对象与网格单元的密度值密切相关,采用加权网格与信息熵策略能有效刻画加权网格中网格对象的密度值,当网格单元的密度H'(X)小于给定的密度阈值μ时,则说明以该网格单元为中心的加权网格中的数据是比较有序的,因此执行聚类算法的过程中以该网格单元作为中心效果会更好,该网格单元中成为核心对象的概率越大。ε邻域和核心对象定义如下:
定义1(加权网格的ε邻域)对于一个网格对象gi,以该网格对象为中心构建加权网格后,加权网格范围内的所有网格对象为网格对象gi的ε邻域。
定义2(加权网格的核心对象)对于一个网格对象gi,若其密度满足H'(X)≤μ(即加权网格信息熵小于给定的阈值),则该网格对象为核心网格对象。包含在核心网格内的任一点均为核心对象。
2.3局部聚类
在提出了图像网格对象的密度计算方法之后,为了能更快地进行局部聚类,进一步加快算法的总体并行化效率,本文提出基于MapReduce的并行化计算局部簇的 COMCORE-MR算法。该算法主要分为两个阶段,并行计算图像网格密度阶段和并行计算局部簇阶段。
首先在并行计算图像网格密度阶段,需要输入网格对象g以及网格中的点pi;pi为d维空间中的任意一个数据点,接着,执行map函数计算出以网格对象g为中心的加权网格中点的数量Ci[g],并输出key-value值<g,Ci[g]>。之后,执行reduce函数合并 map函数的结果,并使用WGIE策略计算出每个网格对象的网格密度hi,最后输出 key-value值<(g,N(gi)),hi>传入下一个阶段。
接着在并行计算局部簇阶段,需要输入数据集D中的点pi以及上个阶段计算出的key-value值<(g,N(gi)),hi>;之后,调用map函数对数据进行计算,如果输入的数据为数据点pi,则map函数计算每个数据点所对应的网格对象g并输出key-value值<g,pi>,如果输入的数据为key-value值<(g,N(gi)),hi>,则map函数根据定义2计算当前网格对象g是否为核心网格,如果hi≤μ,则当前网格对象g为核心网格,输出key-value值<g,N(gi)>,如果hi>μ,则不输出任何结果;最后执行Reduce函数,合并map函数的结果,输出key-value值<(g,N(gi)),N(pi)>。最终得到的结果便是核心簇的序列集合,即聚类结果的局部簇。
3.局部簇的合并
目前图像数据环境下基于网格划分的并行化密度聚类算法中,对局部簇的合并通常是采取增量的方式,且没采取并行化思想,导致算法在合并局部簇时计算复杂度较高,算法总体并行化效率较低。针对这些问题,本文首先提出了基于并查集的局部簇合并算法MECORE,用于加快合并局部簇的收敛速度;接着结合MapReduce 计算模型,提出了基于MapReduce的并行化合并局部簇算法MECORE-MR,实现并行化合并局部簇,从而进一步提升算法总体并行化效率。
3.1局部簇合并
为进一步加快合并局部簇的收敛速度,本文提出了基于并查集的合并局部簇算法MECORE,该算法首先基于并查集对两个不相交集的合并方法,提出了基于并查集的合并不同网格对象的三个方法:Makeset,Find,Unionset。Makeset方法先将每个不同的网格对象单独处理为一个树叶节点;Find方法将处于同一局部簇中的网格对象节点相连接,返回一棵以根节点为代表的树,簇的核心网格对象作为根节点,而局部簇中的其他网格对象作为叶节点,所有的叶节点都与根节点连接;Unionset 方法是将两个不同的局部簇进行合并,寻找共同的叶子结点,将其中一棵树的根节点转换为另一棵树的叶子结点。接着使用这三个方法对局部簇进行合并。对于所有的局部簇对象,将这些局部簇对象所构成的表R作为合并局部簇算法的输入,表的每一项都是核心网格对象g以及核心网格的邻域N(g)。总体步骤如下:
步骤1.首先,算法初始化每一个非空网格对象g∈G,将其看作一个单独的簇,每一个网格对象的状态都被初始化为unvisited,并且在算法执行之后每个网格对象的状态将变为unvisited,border和core这三个状态之一;G表示网格对象集合;unvisited表示未被访问的数据对象;border表示非核心对象;core表示核心对象;
步骤2.算法检索每一个核心网格对象g的key-value值<g,N(gi)>,将其状态由unvisited更改为core;
步骤3.对其邻域内的网格对象N(g)的状态进行设置,分为以下几种情况:
如果在N(g)中的一个网格对象gi的状态为border,则表示当前的网格对象gi已经分配到了另一个簇中,因此网格对象gi的状态保持不变。
如果在N(g)中的一个网格对象gi的状态为core,则将以gi为核心的局部簇合并到g的局部簇中。
如果在N(g)中的一个网格对象gi的状态为unvisited,则将其加入到以g为核心的局部簇中,并将gi的状态变更为border。
步骤4.算法执行完之后,根据数据点和网格ID的相对应,便能得到聚类的全局簇,而被标记为unvisited的网格对象中的图像数据点便是离群点(outlier)。
3.2局部簇的并行化合并
基于并查集的局部簇合并算法可以很好地对局部簇进行合并得到聚类的全局簇。为了进一步提高合并局部簇的效率,解决基于密度的并行化聚类算法中没有并行化合并局部簇的问题,本文提出了基于MapReduce的并行化合并局部簇的 MECORE-MR算法。算法需要将网格对象集G、数据集D以及表R作为输入,其中表 R中的数据是COMCORE-MR算法计算出的局部簇数据。MECORE-MR算法的步骤如下:
步骤1.首先随机地将图像网格对象集合G划分为数量相近的k个部分G1,G2,...,Gk,同时,将表R也划分为k个部分R1,R2,...,Rk,其中k的值对应了执行算法所需要的并行节点数;
步骤2.执行map函数,如果map函数输入的数据为数据点pi∈D,则map函数计算每个数据点所对应的网格对象g并输出key-value值<g,pi>;如果输入的数据为表 R中的局部簇数据,则检索该局部簇的核心网格对象的key-value值<g,N(gi)>,根据key 值g在G1,G2,...,Gk中进行索引,得到相应的k值,将此核心网格对象的key-value值分配到相应的Rk中,并输出key-value值<Mi,(g,N(gi))>传递到Reduce函数中去;
步骤3.执行Reduce函数,对于每个Mi,并行化执行MECORE算法,将得到的k 个合并结果最后执行一次局部簇合并算法,再与<g,pi>进行结合得到聚类全局簇;Mi表示节点对象,i为数量。
基于MapReduce的并行密度聚类算法(DBWGIE-MR)的流程图如图1所示。首先根据数据点空间分布状况,提出自适应网格划分策略(ADG)来自适应划分网格单元;其次针对每个数据分区,提出邻居网格扩展策略(NE)构建其加权网格用于加强网格之间的关联性,以此提高聚类效果;同时提出加权网格信息熵策略(WGIE) 来计算网格密度以及密度聚类算法的邻域和核心对象,使密度聚类算法更适用于加权网格;接着结合MapReduce计算模型,提出并行计算局部簇算法(COMCORE-MR),从而提升算法的总体并行化效率;最后提出了基于并查集的局部簇合并算法 (MECORE),用于加快合并局部簇的收敛速度,并结合MapReduce计算模型,提出了并行合并局部簇算法(MECORE-MR),实现了并行化地合并局部簇,从而更快地得到聚类结果的全局簇,提升了基于密度的聚类算法对局部簇合并的效率。
4.基于MapReduce的并行密度聚类算法(DBWGIE-MR)的有效性验证
为了验证方法DBWGIE-MR的聚类效果,我们将DBWGIE-MR方法应用于Flame,Compound,Aggregation和D31四个数据集上,其具体信息如表1所示。将方法 DBWGIE-MR与MR-DBSCAN和H-DBSCAN方法在密度聚类精确度等方面进行了比较。另外,将D31数据集中的点数量进行扩充,构造成行数为30万行(0.6G), 50万行(1G),100万行(2G),150万行(3G)的图像数据集,将方法DBWGIE-MR 与MR-DBSCAN和IP-DBSCAN在并行效率上进行比较。
表1实验数据集
Figure RE-GDA0002530942220000141
Figure RE-GDA0002530942220000151
4.1DBWGIE-MR方法的聚类效果分析
为验证DBWGIE-MR算法聚类结果的精准度,本文在基于Flame,Compound,Aggregation和D31的数据集下进行实验,根据聚类结果的最优值、精确度、方差和运行时间,分别与MR-DBSCAN算法和H-DBSCAN算法的性能进行综合比较。聚类结果的最优值能够反映算法寻优能力的强弱程度,值越小表示寻找局部簇的能力越强;精确度可直观的反映算法聚类结果的好坏程度;运行算法20次得到聚类结果的方差能够表示算法的稳定程度,值越小表示算法越稳定;运行时间表示得到聚类结果所花费的时间。实验结果如表2所示。
表2各方法的聚类结果比较分析
Figure RE-GDA0002530942220000152
从表2中可以看出,H-DBSCAN算法的聚类效果要比MR-DBSCAN算法的聚类效果要好,尤其是在Flame数据集上精确度提升了4.6%。因为其在数据网格化的基础上加入了网格边界的二次扩展,在一定程度上克服了MR-DBSCAN算法没有考虑网格之间关联性的缺陷,具有一定的寻优能力。但由于采用的是均分网格的数据网格化方法,没有考虑到数据点的分布状况,因此H-DBSCAN算法的准确度和稳定性均不佳。而DBWGIE-MR算法在精确度上比H-DBSCAN算法进一步提升了1.9%,最优值比其他两种算法都低,说明DBWGIE-MR克服了以上算法的缺陷,采用ADG 策略自适应地划分网格单元,保证了数据网格化的合理性,加强了算法的寻优能力,因此DBWGIE-MR算法的最优值最小;而且采用WGIE策略,在聚类的过程中增强了网格对象之间的关联性,更合理地生成局部簇,算法的聚类效果更佳;由于这两种策略都很好地考虑到了空间中数据的分布状况,说明DBWGIE-MR算法聚类过程的波动性较低,因此算法稳定性更好,DBWGIE-MR算法的方差较低;此外, DBWGIE-MR算法的运行时间比起MR-DBSCAN和H-DBSCAN算法,在Flame数据集上分别降低了0.47s和0.89s,原因是DBWGIE-MR算法采用了并行化合并局部簇算法MECORE-MR算法,加快了合并局部簇的收敛速度,因此DBWGIE-MR算法对聚类过程的执行速度得到提升。
4.2DBWGIE-MR方法的并行性能分析
为验证DBWGIE-MR算法在大数据环境下的运行性能,实验数据在基于D31数据集下进行实验,首先将D31数据集中的点数量进行扩充,构造成行数为30万行 (0.6G),50万行(1G),100万行(2G),150万行(3G)的大数据集。同时,为验证算法在Hadoop并行化框架下的计算能力,采用算法的加速比进行衡量。算法的加速比是指通过并行化计算使得算法的运行时间降低从而得到的性能提升,加速比通常被作为检验并行化算法性能的重要指标。在不同数据集规模下,DBWGIE-MR 算法的实验结果如图2所示。
从图中可以看出,DBWGIE-MR算法在处理大数据集上具有很好的加速比。在一开始图像数据集较小时,如图中的0.6G数据量所示,随着计算节点数量的增加,加速比趋近于1,甚至在节点4时,出现了下降的趋势,加速比降低了0.2,这是由于在数据集的规模较小时,数据量远小于集群所处理的数据量,将数据分散到不同的计算节点中产生了不同的时间开销,包括集群运行时间,任务调度时间,节点存储时间等,这些开销降低了算法的计算速度,因此在这种情况下的并行效果是较低的;而在数据规模达到3G时,算法在4个节点下计算的加速比为4.6,比在一个节点下计算提高了3.6,原因是随着数据集规模的逐步增加,算法并行化计算局部簇和合并局部簇的优点逐渐被放大,使得算法在计算节点增加的同时,加速比呈线性的增长,算法的并行化效果得到很大的提升。这也表明DBWGIE-MR算法适用于处理较大规模的数据集,并且随着计算节点的增长,并行化的效果更佳。
为进一步验证DBWGIE-MR算法在大数据下的并行化性能,将DBWGIE-MR算法的算法运行时间分别与MR-DBSCAN,IP-DBSCAN算法进行比较,所有的算法都是基于扩充后的D31数据集下,以及相同的并行计算节点下。实验结果如图3所示。
从图中可以看出,在数据集规模较小时,即数据点的数量在30M左右时, MR-DBSCAN算法完成聚类所需的时间最少,运行时间比IP-DBSCAN算法和 DBWGIE-MR算法分别减少102s和95s,DBWGIE-MR算法执行时间则相对较长,原因是在数据集规模较小的阶段,DBWGIE-MR算法需要采用ADG策略和WGIE 策略自适应计算网格划分边长以及计算每个网格单元的密度,增加了算法处理数据集的时间。然而,随着数据集的规模提升,数据集的规模达到100M时,可以明显看到,IP-DBSCAN算法和DBWGIE-MR算法的运行时间分别比MR-DBSCAN算法减少了160s和400s,原因在于在大规模数据集下,聚类过程中产生的局部簇的数量明显增加,而相较于MR-DBSCAN算法,IP-DBSCAN算法采用了并查集对局部簇进行合并,加快了局部簇的收敛,因此在合并局部簇上所需的计算时间有所减少, DBWGIE-MR算法更是并查集合并局部簇的基础上,提出并行化合并局部簇,更进一步加快了对局部簇的合并计算,因此DBWGIE-MR算法的运行时间要少于 IP-DBSCAN算法;当数据规模达到150M时,DBWGIE-MR算法的运行时间明显要少于MR-DBSCAN和IP-DBSCAN算法,分别降低了400s和700s,这也更加表明了在数据规模较大的情况下,DBWGIE-MR算法能更快的对数据进行处理得到结果,并行化效果更佳。
综上所述,我们所提出的基于MapReduce的并行密度聚类方法(DBWGIE-MR),在聚类效果和并行效率上都有显著的提升。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于MapReduce的并行密度聚类挖掘方法,其特征在于,包括以下步骤:
S1,根据数据点空间分布状况,自适应划分网格单元;
S2,对每个数据分区,构建加权网格间的关联性;
S3,计算网格密度;
S4,利用MapReduce计算模型,得到并行计算局部簇;
S5,利用并查集的局部簇合并算法,以及MapReduce计算模型,得到聚类全局簇。
2.根据权利要求1所述的基于MapReduce的并行密度聚类挖掘方法,其特征在于,在步骤S1中包括:
将d维数据空间等分为2d个初始网格单元,再根据数据点之间的最小平均距离计算网格边长的划分阈值
Figure FDA0002494342960000015
当所有网格满足非空且当前边长大于密度阈值时,则停止网格划分;其网格边长划分阈值
Figure FDA0002494342960000016
的计算方法:
Figure FDA0002494342960000011
其中,n表示数据点的个数;
min()表示取最小值;
pi和pj分别为d维空间中的任意两个数据点。
3.根据权利要求1所述的基于MapReduce的并行密度聚类挖掘方法,其特征在于,在步骤S2中包括:对加权网格的作用范围进行设置:
Figure FDA0002494342960000012
其中,
Figure FDA0002494342960000013
表示加权网格作用范围内的网格集合,
Figure FDA0002494342960000014
表示一个网格单元,si表示在某一维度下的第i个网格单元;
si'表示区别于si的其余网格单元;
Figure FDA0002494342960000021
表示对于任意的i其1≤i≤d;
对加权网格的权值进行设置:
对于
Figure FDA0002494342960000022
中的一个数据点p,如果
Figure FDA0002494342960000023
并且
Figure FDA0002494342960000024
则设置
Figure FDA0002494342960000025
为1;否则,设置
Figure FDA0002494342960000026
为0;
其中,
Figure FDA0002494342960000027
表示网格单元
Figure FDA0002494342960000028
的加权网格中的任意网格单元,
Figure FDA0002494342960000029
表示网格单元
Figure FDA00024943429600000210
相对于网格单元
Figure FDA00024943429600000211
的权重值。
4.根据权利要求1所述的基于MapReduce的并行密度聚类挖掘方法,其特征在于,在步骤S3中包括:
Figure FDA00024943429600000212
Figure FDA00024943429600000213
lbP(t)表示对P(t)作以2为底的对数运算;
H'(X)表示网格单元的密度;
其中,t表示数据网格化后的某一非空网格单元的密度,即以该网格单元为中心构成的加权网格中的所有数据点个数;x表示该密度取值下的网格单元数量;P(t)是网格单元密度为t所出现的概率;count(t)表示网格单元中网格密度为t的网格单元个数;count(n)表示划分后的非空网格单元总数。
5.根据权利要求1所述的基于MapReduce的并行密度聚类挖掘方法,其特征在于,在步骤S4中包括:
在并行计算网格密度阶段:
输入网格对象g以及网格中的点pi;接着,执行map函数计算出以网格对象g为中心的加权网格中点的数量Ci[g],并输出key-value值<g,Ci[g]>;之后,执行reduce函数合并map函数的结果,并使用WGIE策略计算出每个网格对象的网格密度hi,最后输出key-value值<(g,N(gi)),hi>传入下一个阶段;
在并行计算局部簇阶段:
输入数据集D中的点pi以及上个阶段计算出的key-value值<(g,N(gi)),hi>;之后,调用map函数对数据进行计算,如果输入的数据为数据点pi,则map函数计算每个数据点所对应的网格对象g并输出key-value值<g,pi>,如果输入的数据为key-value值<(g,N(gi)),hi>,则map函数计算当前网格对象g是否为核心网格,如果hi≤μ,则当前网格对象g为核心网格,输出key-value值<g,N(gi)>,如果hi>μ,则不输出任何结果;最后执行Reduce函数,合并map函数的结果,输出key-value值<(g,N(gi)),N(pi)>。
6.根据权利要求1所述的基于MapReduce的并行密度聚类挖掘方法,其特征在于,在步骤S5中包括:
S51,初始化每一个非空网格对象g∈G,将其看作一个单独的簇,每一个网格对象的状态都被初始化为unvisited,并且在算法执行之后每个网格对象的状态将变为unvisited,border和core这三个状态之一;
G表示网格对象集合;
unvisited表示未被访问的数据对象;
border表示非核心对象;
core表示核心对象;
S52,检索每一个核心网格对象g的key-value值<g,N(gi)>,将其状态由unvisited更改为core;
S53,对其邻域内的网格对象N(g)的状态进行设置,分为以下几种情况:
如果在N(g)中的一个网格对象gi的状态为border,则表示当前的网格对象gi已经分配到了另一个簇中,因此网格对象gi的状态保持不变;
如果在N(g)中的一个网格对象gi的状态为core,则将以gi为核心的局部簇合并到g的局部簇中;
如果在N(g)中的一个网格对象gi的状态为unvisited,则将其加入到以g为核心的局部簇中,并将gi的状态变更为border;
S54,执行完之后,根据数据点和网格ID的相对应,得到聚类的全局簇,而被标记为unvisited的网格对象中的数据点是离群点。
7.根据权利要求1所述的基于MapReduce的并行密度聚类挖掘方法,其特征在于,还包括:
S61,首先随机地将网格对象集合G划分为数量相近的k个部分G1,G2,...,Gk,同时,将表R也划分为k个部分R1,R2,...,Rk,其中k的值对应了执行算法所需要的并行节点数;
S62,执行map函数:
如果map函数输入的数据为数据点pi∈D,则map函数计算每个数据点所对应的网格对象g并输出key-value值<g,pi>;
如果输入的数据为表R中的局部簇数据,则检索该局部簇的核心网格对象的key-value值<g,N(gi)>,根据key值g在G1,G2,...,Gk中进行索引,得到相应的k值,将此核心网格对象的key-value值分配到相应的Rk中,并输出key-value值<Mi,(g,N(gi))>传递到Reduce函数中去;
S63,执行Reduce函数,对于每个Mi,并行化执行MECORE算法,将得到的k个合并结果最后执行一次局部簇合并算法,再与<g,pi>进行结合得到聚类全局簇。
CN202010414231.2A 2020-05-15 2020-05-15 基于MapReduce的并行密度聚类挖掘方法 Pending CN111597230A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010414231.2A CN111597230A (zh) 2020-05-15 2020-05-15 基于MapReduce的并行密度聚类挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010414231.2A CN111597230A (zh) 2020-05-15 2020-05-15 基于MapReduce的并行密度聚类挖掘方法

Publications (1)

Publication Number Publication Date
CN111597230A true CN111597230A (zh) 2020-08-28

Family

ID=72191277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010414231.2A Pending CN111597230A (zh) 2020-05-15 2020-05-15 基于MapReduce的并行密度聚类挖掘方法

Country Status (1)

Country Link
CN (1) CN111597230A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200219A (zh) * 2020-09-11 2021-01-08 浙江大学 一种超大规模晶圆缺陷数据的特征提取方法
CN113128617A (zh) * 2021-05-08 2021-07-16 江西理工大学 基于Spark和ASPSO的并行化K-means的优化方法
CN113779105A (zh) * 2021-08-11 2021-12-10 桂林电子科技大学 分布式轨迹流伴随模式挖掘方法
CN115687539A (zh) * 2022-12-30 2023-02-03 北京蓝湾博阅科技有限公司 一种基于MapReduce模型的知识库数据信息聚类方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291847A (zh) * 2017-06-02 2017-10-24 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291847A (zh) * 2017-06-02 2017-10-24 东北大学 一种基于MapReduce的大规模数据分布式聚类处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡健等: "基于加权网格和信息熵的并行密度聚类算法" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200219A (zh) * 2020-09-11 2021-01-08 浙江大学 一种超大规模晶圆缺陷数据的特征提取方法
CN112200219B (zh) * 2020-09-11 2022-04-19 浙江大学 一种超大规模晶圆缺陷数据的特征提取方法
CN113128617A (zh) * 2021-05-08 2021-07-16 江西理工大学 基于Spark和ASPSO的并行化K-means的优化方法
CN113128617B (zh) * 2021-05-08 2022-04-15 江西理工大学 基于Spark和ASPSO的并行化K-means的优化方法
CN113779105A (zh) * 2021-08-11 2021-12-10 桂林电子科技大学 分布式轨迹流伴随模式挖掘方法
CN115687539A (zh) * 2022-12-30 2023-02-03 北京蓝湾博阅科技有限公司 一种基于MapReduce模型的知识库数据信息聚类方法和系统

Similar Documents

Publication Publication Date Title
CN111597230A (zh) 基于MapReduce的并行密度聚类挖掘方法
Ewen et al. Spinning fast iterative data flows
Kabiljo et al. Social hash partitioner: a scalable distributed hypergraph partitioner
CN110909111B (zh) 基于知识图谱rdf数据特征的分布式存储与索引方法
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
Lei et al. An incremental clustering algorithm based on grid
CN110020435B (zh) 一种采用并行二进制蝙蝠算法优化文本特征选择的方法
Wu et al. HY-DBSCAN: A hybrid parallel DBSCAN clustering algorithm scalable on distributed-memory computers
Chatzakis et al. Odyssey: A journey in the land of distributed data series similarity search
CN105138607B (zh) 一种基于混合粒度分布式内存网格索引的knn查询方法
Mansour et al. Allocating data to multicomputer nodes by physical optimization algorithms for loosely synchronous computations
CN109711439A (zh) 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法
Wu Data association rules mining method based on improved apriori algorithm
Daghero et al. Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT Edge Nodes
CN116303219A (zh) 一种网格文件的获取方法、装置及电子设备
Wang et al. Reducing partition skew on MapReduce: an incremental allocation approach
Li et al. Parallel k-dominant skyline queries over uncertain data streams with capability index
Ni et al. Parallel algorithm for single-source earliest-arrival problem in temporal graphs
CN113010316B (zh) 一种基于云计算的多目标群智能算法并行优化方法
CN115658809A (zh) 一种基于局部方向中心性的数据分布式聚类方法及装置
Chen et al. An improved incomplete AP clustering algorithm based on K nearest neighbours
CN112308122B (zh) 基于双树的高维向量空间样本快速搜索方法及装置
CN114528439B (zh) 基于分布式系统的极大团枚举方法和装置
Barrientos et al. Range query processing on single and multi GPU environments
Ma et al. Parallel exact inference on multicore using mapreduce

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828