CN105069039A

CN105069039A - 一种基于spark平台的内存迭代的重叠社区并行发现方法

Info

Publication number: CN105069039A
Application number: CN201510435886.7A
Authority: CN
Inventors: 郭山清; 鲁宗飞; 崔立真; 许信顺; 刘士军; 王昌圆; 杨伯宇; 陶立冬; 田燕琛; 李文哲
Original assignee: Jinan Municipal Public Security Bureau; Shandong University
Current assignee: Jinan Municipal Public Security Bureau; Shandong University
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2015-11-18
Anticipated expiration: 2035-07-22
Also published as: CN105069039B

Abstract

本发明公开了一种基于spark平台的内存迭代的重叠社区并行发现方法，步骤如下：在配置有spark环境的计算集群上，通过GraphX读取原始社区网络数据，构造图实例；通过GraphX并行计算出图实例中每个顶点的邻居节点的集合，作为图实例中每个顶点的属性；将图实例的每条边初始为一个社区，根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度；寻找相似度最大的两个社区，将这两个社区合并为新的社区；更新社区相似度集合；使用分割密度公式计算此次社区划分的分割质量；判断目前社区数量是大于1还是等于1，如果等于1，就获得分割质量最大的社区划分。

Description

一种基于spark平台的内存迭代的重叠社区并行发现方法

技术领域

本发明用来发现网络中的社区结果，具体涉及一种基于spark平台的内存迭代的重叠社区并行发现方法。

背景技术

复杂网络是复制系统的抽象，现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。网络中的节点表示系统中的个体，边表示个体之间的关系，如社会关系网络，电力网等。

社区是复杂网络的一个子图，同一社区内的节点与节点之间连接很紧密，而社区与社区之间的连接比较稀疏。

所谓社区发现是将图划分为多个确定数量的社区的集合。若任意两个社区的顶点集合的交集均为空，则称此集合为非重叠社区，否则称为重叠社区。

早期的社区发现算法主要是针对非重叠社区。但是在现实的很多复杂系统中是存在一个个体属于多个社区的情况，这些算法会将网络中属于多个社区的节点归结到一个社区中。所以这些算法适应范围不广。

在重叠社区发现算法中，很多算法需要通过多次计算来获得最佳的社区数，计算开销过大。通过将传统串行算法改造设计成高效并行算法，可以大幅提高效率。

可以通过hadoopMapReduce框架实现并行计算。但hadoop存在一些不足。Hadoop的MapReduce模型并不适合描述复杂的数据处理过程。其次hadoop不支持内存迭代计算。一次MapReduce过程结束将结果写到磁盘，迭代过程时，下一次输入数据需要再次从磁盘中取出数据。

Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析，Spark提供了与Hadoop相似的开源集群计算环境，但基于内存和迭代优化的设计，Spark在某些工作负载表现更优秀。SparkGraphX是Spark中用于图和图并行计算的API，跟其他分布式图计算框架相比，GraphX最大的贡献是，在Spark之上提供一栈式数据解决方案，可以方便且高效地完成图计算的一整套流水作业。

发明内容

本发明的目的就是为了解决上述问题，提供一种基于spark平台的内存迭代的重叠社区并行发现方法，它可以解决大规模数据在单机上的计算瓶颈。

为了实现上述目的，本发明采用如下技术方案：

一种基于spark平台的内存迭代的重叠社区并行发现方法，包括如下步骤：

步骤(1)：在配置有spark环境的计算集群上，通过GraphX读取原始社区网络数据，构造图实例；

步骤(2)：通过GraphX并行计算出图实例中每个顶点的邻居节点的集合，作为图实例中每个顶点的属性；

步骤(3)：将图实例的每条边初始为一个社区，根据图实例的邻居节点的集合计算图实例中所有存在公共顶点的两条边之间的相似度；

步骤(4)：寻找相似度最大的两个社区，将这两个社区合并为新的社区；

步骤(5)：更新社区相似度集合；

步骤(6)：使用分割密度公式计算此次社区划分的分割质量；

步骤(7)：判断目前社区数量是大于1还是等于1，若划分后的社区数量大于1，继续步骤(4)，如果等于1，就获得分割质量最大的社区划分。

所述步骤(1)步骤为：

在spark中，从Hadoop分布式文件系统中读入形式为边对的数据，例如每行数据为ab，a和b代表两个节点，sparkgraphx接口根据边对构造对应的图实例graph，并保存在内存中。

所述步骤(2)中，使用GraphX的mapReduceTriplets函数并行计算每个顶点的邻居节点，所述mapReduceTriplets函数将用户定义的map函数作为输入，map输出为一个迭代器，迭代器元素为key-value对，key值为对应的顶点id，value值自定义，并且将map作用到每个triplet，并可以得到triplet上所有的顶点(或者两个，或者空)的信息。

步骤为：

步骤(21)：每个Triplet并行计算用户定义的Map函数，Map函数参数为对应Triplet的EdgeTriplet对象，Map函数计算生成一个迭代器，所述迭代器有两个元素，分别为(a，b)和(b，a)；a和b分别代表Triplet中的两个顶点；

步骤(22)：每个Triplet并行将对应迭代器的元素发送到该元素第一个属性设定的顶点；

步骤(23)：每个顶点并行接收信息，对收到的信息集合使用Reduce函数统计信息，从而计算出每个顶点的邻居节点集。

所述步骤(3)步骤为：

步骤(31)：调用mapReduceTriplets函数，其中Map函数生成的迭代器中元素为(a，(b，d))和(b，(a，c))，(a，(b，d))中a代表顶点ID，b为顶点ID相邻的顶点，d为顶点b的属性，即步骤(2)计算的顶点的邻居节点集。Reduce函数为收集收到的信息。

步骤(32)：此时每个顶点的属性为二元组集合，二元组由顶点的一个相邻顶点和此相邻顶点的邻居节点集组成。Graph的顶点集合以RDD(ResilientDistributedDatasets，即弹性分布数据集)的形式存于内存中，调用RDD的map函数，对每个顶点并行计算通过map函数的参数传入的函数。对顶点的属性二元组集合进行笛卡儿积计算，例如顶点a的属性包括(a，(b，d))，(a，(c，e))，笛卡尔积后的结果为(a，b，a，c，e)，e为边(a，b)和边(a，c)的相似度。

(a，b)：e₁代表由顶点a和b组成的边e₁，(a，c)：e₂代表由顶点a和c组成的边e₂，e代表计算的边相似度。

步骤(33)：获得顶点RDD中的笛卡儿积结果，保存为新的RDD，新的RDD元素形式为步骤(32)的(a，b，a，c，e)类型。

至此，获得了所有存在公共顶点的边之间的相似度。

所述步骤(4)步骤为：

并行遍历步骤(3)生成的新RDD，获取新RDD中相似度最大的元素集合，集合个数大于等于1；将集合中每个元素(a，b，a，c，e)中所代表的两条边合并为新的社区。

所述步骤(5)步骤为：

步骤(51)：并行遍历步骤(3)生成的边相似度RDD，过滤出边相似度RDD中需要更新的元素集合，组成子RDD。过滤策略为若RDD中元素中某条边等于步骤(4)的元素集合中某个元素的一条边，则保留此元素，否则过滤掉。

步骤(52)：更新步骤(51)生成的子RDD的每个元素的相似度。

所述步骤(6)步骤为：计算每个社区的分割密度；对以社区为元素组成的RDD使用map框架，然后计算整个网络的分割密度

步骤(32)的计算边相似度函数为

其中，e_ik代表顶点分别为i和k的一条边，e_jk代表顶点分别为j和k的一条边，n₊(i)代表顶点i的邻居节点集合，n₊(j)代表顶点j的邻居节点集合。

步骤(52)的更新边相似度函数为：

G_j1和G_j2为步骤(4)中找到的需要合并的两个社区；

G_j为两个社区合并后生成的新社区；

G_i代表一个社区；

m是对应下标的社区的边个数；

m_j1为社区G_j1的边个数，m_j2为社区G_j2的边个数；

步骤(6)的计算每个社区的分割密度公式为：

网络G中子图G_c有m_c条边，m_c＝|G_c|，n_c为子图，G_c中顶点个数。

步骤(6)的计算整个网络的分割密度的公式为：

整个网络社区分割为{G₁,G₂,...,G_c}，此分割的分割密度D是对所有子图的分割密度根据边的加权平均值。

本发明的有益效果：

1.算法并行化：可以解决大规模数据在单机上的计算瓶颈。

2.内存迭代：使用spark内存计算模型代替hadoop的MapReduce等传统计算模型，大幅提高迭代算法的速度。

3.大规模网络的重叠社区发现：算法可以有效的发现网络中一个节点属于的多个社区。

附图说明

图1为本发明的结构示意图；

图2为本发明计算邻居节点集的过程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

图1为本发明的算法流程图，结合该流程图，下面对本算法实施以及具体细节做进一步说明。

一种基于spark平台的内存迭代的重叠社区并行发现算法，该方法的步骤如下：

步骤(1)：在配置有spark环境的计算集群上通过graphx读取原始社区网络数据，构造graph

步骤(2)：通过graphx，并行计算出graph每个顶点的邻居节点集，并作为graph每个顶点的属性

步骤(3)：每条边初始为一个社区，计算graph中所有存在公共顶点的两条边之间的相似度，

步骤(4)：寻找相似度最大的两个社区，将这两个社区合并为新的社区。

步骤(5)：更新社区相似度集合

步骤(6)：使用分割密度公式计算此次社区划分的分割质量

步骤(7)：若划分后的社区数量大于1，继续步骤(4)。否则获得分割密度公式结果最大的社区划分。

所述步骤(1)中，具体步骤为

在spark中，从HDFS或者RDD中读入形式为边对的数据，使用sparkgraphx接口根据边对构造对应的图，并保存在内存中。HDFS中数据可以以文本文件存储，每行格式为：vertexID，vertexID，代表一条边的两个顶点，读取后以RDD类型保存在内存中。通过使用sparkgraphx的fromEdges函数，构造得到对应的图。

所述步骤(2)中，使用graphx的mapReduceTriplets函数并行计算每个顶点的邻居顶点。

mapReduceTriplets函数接收两个函数参数，称为map函数和reduce函数。然后对graph的每一个Triplet并行进行处理，

具体步骤为

步骤(21)：如图2所示，每个Triplet并行计算Map函数，Map函数的参数为对应Triplet的EdgeTriplet对象，Map函数过程为计算生成一个迭代器，此迭代器有两个元素。分别为(a，b)和(b，a)。a和b分别代表Triplet中的两个顶点。

步骤(22)：每个Triplet并行将对应迭代器的元素发送到与元素第一个属性指定的顶点。

步骤(23)：每个顶点并行接收收到的信息。对收到的信息集合使用Reduce函数，Reduce函数统计信息，从而计算出每个顶点的邻居节点集。

所述步骤(3)中，具体步骤为

步骤(31)：每个顶点聚合其邻居顶点的属性，即顶点的邻居节点集。具体步骤为：对位于内存中更新后的每个顶点的属性为步骤(2)计算出的邻居节点集的graph，调用mapReduceTriplets函数，其中Map函数生成的迭代器中元素为(a，(b，d))和(b，(a，c))，其中a和b代表此Triplet的顶点ID，d和c分别代表a顶点和b顶点的属性，即步骤(2)计算的顶点相邻顶点集。Reduce函数为收集收到的信息。

步骤(32)：此时graph通过步骤(31)更新后，每个顶点的属性为二元组集合，元组由顶点的一个相邻顶点和此相邻顶点的相邻顶点集组成。Graph的顶点集合以RDD的形式存于内存中，调用RDD的map函数，对每个顶点并行计算map函数参数传入的函数，此函数实现的功能为对顶点的属性二元组集合进行笛卡儿积计算，结果形式为(a，b，a，c，e)

其中a，b，c为三个顶点，(a，b)：e₁和(a，c)：e₂代表由两个顶点组成的两条边，e代表使用公式S计算的边相似度。例如若顶点a的属性为{(b，n₊(b))，(c，n₊(c))}，

则map的结果为(a,b,a,c,s(e_ab,e_ac))。

其中e_ik代表一条边，边的两个顶点为i和k。n₊(i)和n₊(j)分别代表顶点i和顶点j的邻居节点集合。

步骤(33)：获得顶点RDD中的笛卡儿积结果，保存为新的RDD，RDD元素为步骤(32)所述的(a，b，c，d，e)类型。

至此，获得了所有存在公共顶点的边之间的相似度。

所述步骤(4)中，

具体步骤为并行遍历步骤(3)生成的RDD，获取此RDD中相似度最大的元素集合，集合个数大于等于1。

获取此RDD中相似度最大的元素集合的具体方法为使用RDD的reduce函数，获得最大的相似度值，然后使用RDD的filter函数过滤出RDD中元素的相似度值和最大相似度值一样的元素。

所述步骤(5)中，具体步骤为

步骤(51)：并行遍历步骤(3)生成的边相似度RDD，过滤出RDD中需要更新的元素集合，组成子RDD。过滤策略为RDD中元素中某条边或者某个社区是否等于步骤(4)的生成的相似度最大元素集合中某个元素的一条边或者一个社区。例如步骤(4)结果中包含(a，b，c，d，e)，若步骤(3)生成地RDD中存在(a，b，*，*，*)，

(c，d，*，*，*)，(*，*，a，b，*)，(*，*，c，d，*)形式元素，则这些元素符合过滤条件。*:代表任意值。

步骤(52)：使用公式f更新步骤(51)生成的子RDD的每个元素的相似度。

G_j1和G_j2为步骤(4)中找到的需要合并的两个社区。G_j两个社区合并后生成的新社区。m是对应下标的社区的边个数。

例如需要合并社区G_j2和G_j1为新社区G_j。(G_i，G_i，G_j1，G_j1，s₁)和(G_i，G_i，G_j2，G_j2，s₁)位于步骤(52)过滤后的结果中，代表了社区G_j和G_j1以及社区G_j和G_j2的相似度。根据元素前两个属性为key，后3个属性为value，调用RDD类型的reduceby函数，两个元素合并为(G_i，G_iG_j，G_j，f(G_iG_j))。

所述步骤(6)中，

具体步骤为使用公式d_c计算每个社区的分割密度。对以社区为元素组成的RDD使用map框架，map参数为公式d，计算整个网络的分割密度。

所述计算每个社区的分割密度公式d_c为

网络G中子图G_c有m_c＝|G_c|条边，n_c为子图G_c中顶点个数

所述计算整个网络的分割密度的公式d为

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，包括如下步骤：

步骤(5)：更新社区相似度集合；

步骤(6)：使用分割密度公式计算此次社区划分的分割质量；

2.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，所述步骤(1)步骤为：

在spark中，从Hadoop分布式文件系统中读入形式为边对的数据，sparkgraphx接口根据边对构造对应的图实例graph，并保存在内存中。

3.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，所述步骤(2)中，使用GraphX的mapReduceTriplets函数并行计算每个顶点的邻居节点，步骤为：

步骤(21)：每个Triplet并行计算Map函数，Map函数参数为对应Triplet的EdgeTriplet对象，Map函数计算生成一个迭代器，所述迭代器有两个元素，分别为(a，b)和(b，a)；a和b分别代表Triplet中的两个顶点；

4.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，所述步骤(3)步骤为：

步骤(31)：调用mapReduceTriplets函数，其中Map函数生成的迭代器中元素为(a，(b，d))和(b，(a，c))，(a，(b，d))中a代表顶点ID，b为顶点ID相邻的顶点，d为顶点b的属性，即步骤(2)计算的顶点的邻居节点集；Reduce函数为收集到的信息；

步骤(32)：此时每个顶点的属性为二元组集合，二元组由顶点的一个相邻顶点和此相邻顶点的邻居节点集组成；Graph的顶点集合以弹性分布数据集RDD，ResilientDistributedDatasets的形式存于内存中，调用RDD的map函数，对每个顶点并行计算通过map函数的参数传入的函数；对顶点的属性二元组集合进行笛卡儿积计算；

步骤(33)：获得顶点RDD中的笛卡儿积结果，保存为新的RDD；至此，获得了所有存在公共顶点的边之间的相似度。

5.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，所述步骤(4)步骤为：

并行遍历步骤(3)生成的新RDD，获取新RDD中相似度最大的元素集合，集合个数大于等于1；将集合中每个元素所代表的两条边合并为新的社区。

6.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，所述步骤(5)步骤为：

步骤(51)：并行遍历步骤(3)生成的边相似度RDD，过滤出边相似度RDD中需要更新的元素集合，组成子RDD；过滤策略为若RDD中元素中某条边等于步骤(4)的元素集合中某个元素的一条边，则保留此元素，否则过滤掉；

步骤(52)：更新步骤(51)生成的子RDD的每个元素的相似度。

7.如权利要求1所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，所述步骤(6)步骤为：计算每个社区的分割密度；对以社区为元素组成的RDD使用map框架，然后计算整个网络的分割密度。

8.如权利要求4所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，步骤(32)的计算边相似度函数为

s (e_{i k}, e_{j k}) = \frac{| n + (i) \cap n + (j) |}{| n + (i) \cup n + (j) |} - - - (1)

9.如权利要求6所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，步骤(52)的更新边相似度函数为：

f (G_{i}, G_{j}) = \frac{m_{j 1} f (G_{i}, G_{j 1}) + m_{j 2} f (G_{i}, G_{j 2})}{m_{j 1} + m_{j 2}} - - - (2)

G_j1和G_j2为步骤(4)中找到的需要合并的两个社区；G_j为两个社区合并后生成的新社区；G_i代表一个社区；m是对应下标的社区的边个数；m_j1为社区G_j1的边个数，m_j2为社区G_j2的边个数。

10.如权利要求7所述的一种基于spark平台的内存迭代的重叠社区并行发现方法，其特征是，步骤(6)的计算每个社区的分割密度公式为：

D_{c} = \frac{m_{c} - (n_{c} - 1)}{n_{c} (n_{c} - 1) / 2 - (n_{c} - 1)} - - - (3)

网络G中子图G_c有m_c条边，m_c＝|G_c|，n_c为子图，G_c中顶点个数；

步骤(6)的计算整个网络的分割密度的公式为：

D = \frac{2}{M} {Σm}_{c} \frac{m_{c} - (n_{c} - 1)}{(n_{c} - 2) (n_{c} - 1)} - - - (4)