CN104978382A

CN104978382A - MapReduce平台上基于本地密度的聚类方法

Info

Publication number: CN104978382A
Application number: CN201410855502.2A
Authority: CN
Inventors: 蔡立宇; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-10-14
Also published as: WO2016107297A1

Abstract

本发明涉及一种MapReduce平台上基于本地密度的聚类方法。该方法包括：步骤10、对待聚类的数据进行预处理，构造以节点表征数据的连通图；步骤20、以连通图中的节点和边的信息作为输入数据，通过MapReduce作业得出节点的本地密度Rho；步骤30、通过MapReduce作业得出每个节点的离散度Delta，再结合预定规则来进行类标识。本发明借助流行的MapReduce分布式计算思想在集群上实现了基于本地密度的聚类，弱化了处理时单机本身资源有限等所带来的限制，能实现对海量数据的处理，更快的完成聚类操作。

Description

MapReduce平台上基于本地密度的聚类方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种MapReduce平台上基于本地密度的聚类方法。

背景技术

聚类分析是数据挖掘的一个重要算法。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。随着云计算大数据时代的到来，社会信息化和网络化的高速发展导致数据呈爆炸式增长。利用聚类分析遇到大数据时，需要与分布式计算平台结合以摆脱计算机单机本身资源有限等所带来的限制。

MapReduce是谷歌提出的分布式并行计算框架，用于大规模数据集的并行运算，主要通过“Map(映射)”和“Reduce(化简)”这两个步骤来并行处理大规模的数据集。在MapReduce平台上的计算过程中，输入数据首先被切分到集群的不同计算机上，集群中其他计算机分配为执行Map作业或Reduce作业；Map作业从输入数据中抽取出键值对<Key，Value>，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中，缓存的中间键值对会被定期写入本地磁盘,而且这些中间键值对被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；带有相同Key的键值对由同一个Reduce作业来处理，Reduce作业读取这些中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。Map/Reduce作业和map/reduce函数的区别：Map作业处理一个输入数据的分片，可能需要调用多次map函数来处理每个输入键值对；Reduce作业处理一个分区的中间键值对，期间要对每个不同的键调用一次reduce函数，Reduce作业最终也对应一个输出文件。整个过程中，输入数据是来自底层分布式文件系统的，中间数据是放在本地文件系统的，最终输出数据是写入底层分布式文件系统。

中国专利申请CN201410814330.4“虚拟人建立方法及装置”中涉及了一种基于本地密度的聚类方法。该基于本地密度的聚类方法主要包括：以连通图中的节点表征数据，并以节点之间的边的长度表征数据之间的相似度，节点之间的边越短，节点所表征的数据之间相似度越高；分别求出每个节点的本地密度Rho，Rho定义为连接本节点的长度低于预定义值Dc的邻边的数目；分别求出每个节点的离散度Delta，Delta定义为本节点所有连接更高Rho值邻居节点的邻边中最短边的边长，若不存在这样的邻居节点，则取本节点最长邻边的边长；将Rho值和Delta值分别高于预设阈值R_T和D_T的节点标识为类的中心节点；将非中心节点归类为到该非中心节点距离最短且Rho值高于该非中心节点的中心节点所属的类。边长表征节点之间属于同一个类的可能性(相似度)的衡量；Rho表征当前节点对其邻接点的重要性；Delta表征若以当前节点为类中心，其相对其他类中心的可区别性。为了能实现对海量数据的处理，克服单机本身资源有限所带来的限制，亟需将该基于本地密度的聚类方法在MapReduce平台上加以实现。

发明内容

因此，本发明的目的在于提供一种MapReduce平台上基于本地密度的聚类方法，实现对海量数据的处理，克服单机本身资源有限所带来的限制。

为实现上述目的，本发明提供了一种MapReduce平台上基于本地密度的聚类方法，包括：

步骤10、对待聚类的数据进行预处理，构造以节点表征数据的连通图，并以节点之间的边的长度表征数据之间的相似度，节点之间的边越短，节点所表征的数据之间相似度越高；

步骤20、以连通图中的节点和边的信息作为输入数据，通过Map作业生成包括节点以及邻边信息的键值对，通过Reduce作业生成包括节点、节点的本地密度Rho以及节点所有邻边信息的输出，Rho定义为连接本节点的长度低于预定义值Dc的邻边的数目；

步骤30、对于步骤20中Reduce作业的输出，通过Map作业生成包括节点、节点Rho、邻居节点Rho以及邻边信息的键值对，对每个节点，通过Reduce作业遍历节点Rho、所有邻居节点Rho以及所有邻边信息，得出每个节点的离散度Delta，Delta定义为本节点所有连接更高Rho值邻居节点的邻边中最短边的边长，若不存在这样的邻居节点，则取本节点最长邻边的边长；再结合预定规则来进行类标识。

其中，所述预定规则包括：节点的Rho和Delta分别高于作为输入参数的阈值R_T和阈值D_T，则该节点为一个类的中心，该节点的类标识取其自身类标识；否则，节点的类标识取距离其最近且Rho更高的邻居节点的类标识；

孤立节点的类标识为自身类标识。

其中，所述预定规则包括：预先划分Rho值可能取值区间以及对应的Delta值可能取值区间，如果节点的Rho值属于Rho值可能取值区间且节点的Delta值属于对应的Delta值可能取值区间，则该节点为一个类的中心，该节点的类标识取其自身类标识；否则，节点的类标识取距离其最近且Rho更高的邻居节点的类标识；

孤立节点的类标识为自身类标识。

其中，步骤20中，连通图中的节点和边的信息作为输入数据的数据格式包括标识节点的字段、标识邻居节点的字段、以及标识该节点和邻居节点之间邻边的边长的字段。

其中，步骤20中Reduce作业的输出存储于关系数据库或键值数据库中。

其中，步骤30中的Map作业中，通过对步骤20中Reduce作业的输出进行笛卡尔积，实现对邻居节点Rho的遍历。

其中，步骤20包括：

步骤21、连通图中的节点和边的信息作为输入数据经由Map作业生成键值对，其中，键包括标识节点的字段，值包括标识邻居节点的字段和标识该节点和邻居节点之间邻边的边长的字段；

步骤22、对键值对按照键所包括的节点进行分区，键包括相同节点的键值对分配至同一分区；

步骤23、对于同一分区内的键值对按照键所包括的节点进行分组，键包括相同节点的键值对分配至同一组；

步骤25、经由Reduce作业，通过对属于同一组的键值对的值的迭代来遍历同一节点的所有的邻边，生成包括节点、节点的本地密度Rho以及节点所有邻边信息的输出。

其中，步骤20还包括：

步骤21中，键还包括标识该节点和邻居节点之间邻边的边长的字段；

步骤24、对于属于同一组的键值对按照键所包括的邻边的边长进行排序。

其中，步骤24中的排序为升序排序。

其中，步骤25中Reduce作业的输出为键值对，其中，键包括标识节点的字段，值包括标识节点的字段、标识节点Rho的字段以及标识节点所有邻边信息的字段。

其中，步骤30包括：

步骤31、对于步骤20中Reduce作业的输出经由Map作业生成键值对，其中，键包括标识节点的字段，值包括标识邻居节点的字段、标识该节点和邻居节点之间邻边的边长的字段、标识该邻居节点Rho的字段和标识该节点Rho的字段；

步骤32、对键值对按照键所包括的节点进行分区，键包括相同节点的键值对分配至同一分区；

步骤33、对于同一分区内的键值对按照键所包括的节点进行分组，键包括相同节点的键值对分配至同一组；

步骤35、经由Reduce作业，对每个节点，通过对属于同一组的键值对的值的迭代来遍历节点Rho、所有邻居节点Rho以及所有邻边信息，得出每个节点的离散度Delta，再结合预定规则来进行类标识。

其中，步骤30还包括：

步骤31中，键还包括标识该邻居节点Rho的字段；

步骤34、对于属于同一组的键值对按照键所包括的邻居节点Rho进行排序。

综上所述，本发明借助流行的MapReduce分布式计算思想在集群上实现了基于本地密度的聚类，弱化了处理时单机本身资源有限等所带来的限制，能实现对海量数据的处理，更快的完成聚类操作。

附图说明

附图中，

图1为本发明MapReduce平台上基于本地密度的聚类方法一较佳实施例的流程图。

具体实施方式

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

参见图1，其为本发明MapReduce平台上基于本地密度的聚类方法一较佳实施例的流程图。该较佳实施例主要包括：

步骤10、对待聚类的数据进行预处理，构造以节点表征数据的连通图，并以节点之间的边的长度表征数据之间的相似度，节点之间的边越短，节点所表征的数据之间相似度越高。步骤10中首先按照预先设定的规则计算待聚类数据之间的相似度，然后构造连通图；以中国专利申请CN201410814330.4“虚拟人建立方法及装置”为例，其中待聚类的数据为账号，根据账号之间协同出现的情况来计算账号之间的相似度，进而构建连通图。

步骤20、以连通图中的节点和边的信息作为输入数据，通过Map作业生成包括节点以及邻边信息的键值对，通过Reduce作业生成包括节点、节点的本地密度Rho以及节点所有邻边信息的输出，Rho定义为连接本节点的长度低于预定义值Dc的邻边的数目。

步骤20具体可以包括：

步骤21、连通图中的节点和边的信息作为输入数据经由Map作业生成键值对，其中，键包括标识节点的字段，值包括标识邻居节点的字段和标识该节点和邻居节点之间邻边的边长的字段。邻边信息包括对应的邻居节点和邻边边长。作为优化，步骤21中，键还可以包括标识该节点和邻居节点之间邻边的边长的字段。

应用时，可以将输入数据的每一行对应一组节点之间的边信息。故为方便起见，可以将输入数据设定为依次由小标识值节点a、大标识值节点b和边长len(a,b)组成的三元组:[a,b,len(a,b)]。

因为对于每个节点都需要计算它们的Rho值，对连通图中的一条边信息，Map作业将会有两次<Key,Value>输出。每个Key值或Value值均依次由left和right两个字段组成。具体来说，第一次的Key值可以是K1＝<a,len(a,b)>(这里，left＝a,right＝len(a,b))，Value值可以是V1＝<b,len(a,b)>，第二次的Key值可以是K2＝<b,len(a,b)>，Value值可以是V2＝<a,len(a,b)>。

步骤22、对键值对按照键所包括的节点进行分区，键包括相同节点的键值对分配至同一分区。在此实施例中具体来说，各记录所将归属的分区(Partition)的序列将只与Map输出Key值的第一个字段有关。比如说，分区序列可以为Key的left字段的哈希值与已知总分区数的余数，以伪代码表示即:

K.left.hashCode()％总分区数。

这实际上保证了相同节点left字段的节点的边信息，都会分配到同一个分区中进行存储。

分组(GroupCompare)的结果将只与相比较的Key值它们的第一个字段的比较结果有关。举例来说，对于两个Key，k1和k2，相应的比较(compare)结果为：

k1.left.compare(k2.left)。

这实际上保证了，每一个节点的所有边的信息(Value值，邻居点和边长)，都会在同一次Reduce过程中调用。

步骤24、对于属于同一组的键值对按照键所包括的邻边的边长进行排序。步骤24中的排序可以为升序排序。步骤24作为一个可选的优化措施，可以称为组内排序(SortComparator，SC)，可设定为按left和right次序两个字段先后进行比较的结果。以伪代码表示即:

由于Key的right值均表示边长，故这里实际上保证在Reduce过程中的迭代式时，边信息是按照边长的长短的升序顺序返回的。注：实际上，步骤21中Key值设定为由节点标识和边长两个字段构成，就是为了进行该优化；若无该优化的考虑，则步骤21中Key值仅有节点标识组成即可。

步骤25中Reduce作业的输出为键值对，其中，键包括标识节点的字段，值包括标识节点的字段，标识节点Rho的字段以及标识节点所有邻边信息的字段。

经过上述步骤，在每一次Reduce调用时，均可通过对Values的迭代来遍历同一节点的所有的边。每次Reduce过程调用时，都会输出如下三部分信息：当前节点n的标识，n的Rho值，按边长进行排序后的n的所有邻边信息。

当使用上述SC进行了优化时，Rho值的计数可在迭代到的边长大于预定义值Dc时便结束。同时，由于邻边已经借助SC进行了升序排序，邻边信息亦可按迭代时的先后拼接即可。若未进行该优化，则Rho值的计数需迭代到了最后一条边时才能结束，而邻边信息需要排序后再作为Value值的一部分。

作为举例，输出的格式可以为键值对：

[K＝n,V＝<n,Rho(n),n1:len(n,n1),n2:len<n,n2>…nN:len<n,nN>>]。

该较佳实施例通过以上所述的第一个MapReduce任务，主要实现计算Rho值，并对邻居节点按距离升序排序。接下来的第二个MapReduce任务，主要实现计算Delta值，并标识类中心点。

步骤30、对于步骤20中Reduce作业的输出，通过Map作业生成包括节点、节点Rho、邻居节点Rho以及邻边信息的键值对，对每个节点，通过Reduce作业遍历节点Rho、所有邻居节点Rho以及所有邻边信息，得出每个节点的离散度Delta，再结合预定规则来进行类标识。

在此较佳实施例中预定规则为：节点的Rho和Delta分别高于作为输入参数的阈值R_T和阈值D_T，则该节点为一个类的中心，该节点的类标识取其自身类标识；否则，节点的类标识取距离其最近且Rho更高的邻居节点的类标识；孤立节点的类标识为自身类标识。该预定规则与中国专利申请CN201410814330.4“虚拟人建立方法及装置”中所采用的规则类似—刚性的要求Rho值和Delta值高于某个分别对应的阈值。

这只是节点是否可标识为类中心的方法之一。从根本来说，节点是否可作为类中心节点是根据节点的Rho值和Delta值来进行的。其实，还存在其他利用包括Rho值和Delta值在内的因素来进行判断的各种方法。本发明MapReduce平台上基于本地密度的聚类方法在类中心点的确认方式上，也可以松懈，能更快的完成聚类操作。例如，预定规则可以包括：预先划分Rho值可能取值区间以及对应的Delta值可能取值区间，如果节点的Rho值属于Rho值可能取值区间且节点的Delta值属于对应的Delta值可能取值区间，则该节点为一个类的中心，该节点的类标识取其自身类标识；否则，节点的类标识取距离其最近且Rho更高的邻居节点的类标识；孤立节点的类标识为自身类标识。比如：如果节点的Rho值在[10,20]范围，且Delta值也在[0.9*10,0.8*20](即Delta值也在随Rho值变动的某个范围内，Delta值取值范围与Rho值取值范围相对应，该节点也可标识为类中心)。

求解某个节点的Delta值，需要取得其邻边对应的Rho值。在步骤20中Reduce作业的输出下，可以借助通用的MapReduce上进行笛卡尔积(Cartesian Product)的方式，来实现对邻居节点的Rho值的遍历—通过自定义InputFormat来实现全连接。这里的遍历，实际上是为了后续求出Delta值。相关的案例可参见[<<MapReduce Design Patterns>>,O’Reilly,Dec.2012,p:128-138]所述。

步骤30具体可以包括：

步骤31、对于步骤20中Reduce作业的输出经由Map作业生成键值对，其中，键包括标识节点的字段，值包括标识邻居节点的字段，标识该节点和邻居节点之间邻边的边长的字段，标识该邻居节点Rho的字段，标识该节点Rho的字段。

对于步骤20中Reduce作业的输出经由Map作业输出当前节点和经连接得到的邻居节点的信息。一种优化的示例输出格式为:

[K＝<a,Rho(b)>,V＝<Rho(b),Rho(a),b,len(a,b)>]。

步骤31中，作为选择，键还可以包括标识该邻居节点Rho的字段，优化处在于将Rho(b)的信息也并入到Key部分，便于后续步骤34的排序。

步骤32、对键值对按照键所包括的节点进行分区，键包括相同节点的键值对分配至同一分区。具体方式可参见步骤22。

步骤33、对于同一分区内的键值对按照键所包括的节点进行分组，键包括相同节点的键值对分配至同一组。具体方式可参见步骤23。

步骤34、对于属于同一组的键值对按照键所包括的邻居节点Rho进行排序。作为可选的优化措施，首先根据Key值的第一个字段区别出是否为同一个节点的Key值，若相同则以第二个字段降序排序。这样排序保证了在同一个Reduce过程中，高Rho值的邻居节点会被首先迭代访问到。

经过上述步骤，在每一次Reduce过程中，都可以通过对Value值的迭代来遍历某个节点的自身及其所有邻边的信息。这时可以再选择结合作为输入参数的阈值R_T和阈值D_T值，便生成进行类标识所需的信息。

在此较佳实施例中，步骤30的Map过程是在原生的MapReduce方案上实现，但实际中可通过常见的数据库技术而加速处理过程。例如，在步骤20中Reduce作业输出时，将各节点的Rho值存在关系型数据库或K-V数据库中。从而在步骤30的Map时，只需对邻居点的Rho值进行查询即可，而不需要通过自定义InputFormat来处理；也就是说，不再需要进行笛卡尔操作，可在Map阶段直接访问数据来获取邻居节点的Rho值便可。

以上所述，对于本领域的普通技术人员来说，可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形，而所有这些改变和变形都应属于本发明后附的权利要求的保护范围。

Claims

1.一种MapReduce平台上基于本地密度的聚类方法，其特征在于，包括：

2.如权利要求1所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，所述预定规则包括：

节点的Rho和Delta分别高于作为输入参数的阈值R_T和阈值D_T，则该节点为一个类的中心，该节点的类标识取其自身类标识；否则，节点的类标识取距离其最近且Rho更高的邻居节点的类标识；

孤立节点的类标识为自身类标识。

3.如权利要求1所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，所述预定规则包括：

预先划分Rho值可能取值区间以及对应的Delta值可能取值区间，如果节点的Rho值属于Rho值可能取值区间且节点的Delta值属于对应的Delta值可能取值区间，则该节点为一个类的中心，该节点的类标识取其自身类标识；否则，节点的类标识取距离其最近且Rho更高的邻居节点的类标识；

孤立节点的类标识为自身类标识。

4.如权利要求1所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤20中Reduce作业的输出存储于关系数据库或键值数据库中。

5.如权利要求1所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤30中的Map作业中，通过对步骤20中Reduce作业的输出进行笛卡尔积，实现对邻居节点Rho的遍历。

6.如权利要求1所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤20包括：

7.如权利要求6所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤20还包括：

8.如权利要求6所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤25中Reduce作业的输出为键值对，其中，键包括标识节点的字段，值包括标识节点的字段、标识节点Rho的字段以及标识节点所有邻边信息的字段。

9.如权利要求1所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤30包括：

10.如权利要求9所述的MapReduce平台上基于本地密度的聚类方法，其特征在于，步骤30还包括：

步骤31中，键还包括标识该邻居节点Rho的字段；