CN112765409A

CN112765409A - 一种基于模块度的分布式社区发现方法

Info

Publication number: CN112765409A
Application number: CN202011622834.8A
Authority: CN
Inventors: 黄涛; 许利杰; 王伟; 张舒扬; 方言歌
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Anticipated expiration: 2040-12-31
Also published as: CN112765409B

Abstract

本发明涉及一种基于模块度的社区发现方法，在分布式计算引擎之上，改造传统基于模块度的社区发现算法，提供将基于模块度的社区发现算法进行分布式化计算的方法，并在分布式实现的基础上，提出预分区和状态信息优化存储策略两种优化方案，降低了计算开销和消息传递开销，整体提高了大规模图上模块度社区发现算法的计算效率，达到高效分布式实现的目标。

Description

一种基于模块度的分布式社区发现方法

技术领域

本发明属于软件技术领域，尤其涉及一种基于模块度的分布式社区发现方法。

背景技术

图是一种描述关系和交互等抽象概念的方法，并能以直观的方式来表示这些概念。社会生产生活中许多事物可以用图网络来表示，帮助人们更好地理解事物之间的原理结构，如通信领域的终端网络，社会领域中的社交网络，生物领域中的病毒传播网络、基因网络等。对图网络的深入研究发现，图网络中的顶点呈现出组或者簇的结构，称作社区结构，这些社区呈现聚堆的特点，即内部的顶点连接非常紧密，而社区之间则连接相稀疏。社区发现算法可以发现图网络中存在的社区结构。

社区模块度是一种常用的衡量网络社区结构强度的方法。其基本思想在于，理想化的社区划分应该呈现出社区内部顶点间相似度高，而社区间的顶点相似度低的特点。社区划分的质量越高，对应的模块度Q越大，满足该特点的社区划分模块度的值接近1。模块度的计算方式定义为图网络中实际边分布与期望边分布的差值，具体实际边分布为社区内部的总边数与网络中总边数的比例，期望边分布为随机网络下，按照此种社区划分方法产生的社区结构中，社区内部的总边数与网络中总边数的比例，二者相减获得模块度Q值。

如图1所示，基于模块度的社区发现方法主要分为两个步骤，迭代社区寻找与社区坍缩。其中，迭代社区寻找步骤中，对于每一个顶点，考察所有与其相邻的社区。考虑该顶点脱离原社区并加入新社区的过程，这个过程中局部社区结构的改变会对整体模块度Q值产生变化。在该顶点的相邻社区中，顶点选择加入能使整体模块度Q值增长最大的社区。社区坍缩发生在第一部分结束之后。社区坍缩将在迭代社区寻找步骤中已形成的社区合并为一个点，形成新的图网络。此时，被合并的顶点获得层次性社区结构。同时，新的图网络存在新的社区结构分配优化空间，即可以再次进入第一部分迭代社区寻找。两个步骤交替进行，直至整体社区不再发生改变。

然而，传统的社区发现方法是单机单线程的，所能处理的数据量有限，面对大规模图时往往需要等待长时间的计算过程。近年来，随着移动物联网的兴起，5G技术的发展，实际生活中的网络规模指数级增长，达到数百万乃至数十亿顶点和边，而应用对时延的要求越来越高，这些对传统图网络分析的计算能力提出挑战。图计算与分布式结合，可以缓解由数据量增大带来的计算困难问题，是用户及市场迫切所需的。

分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这种计算方法可以节约整体计算时间，从而大大提高计算效率。整体同步并行计算模型是经典的分布式计算思想。在该模型中，计算过程被分解为多个迭代，称为超步。每个超步由本地计算、通信和屏障同步三个部分组成。当上一个超步的所有计算和通信结束时，下一个超步的计算和通信才被允许开始。整体同步并行计算模型强调了计算任务和通信任务二者的独立性，服务器集群中拓扑网络仅负责点到点的消息传递，而组合、复制和广播等计算任务由各节点单独完成。整体同步并行计算模型的思想不需要开发人员考虑具体的互连网络拓扑，同时将通信协议控制在一定复杂度以下。

现有分布式图计算方法存在许多缺陷，一是分布式社区发现方法实现较少，二是这些已实现的分布式社区发现算法普遍不成熟，无法在图中发现结构性信息，三是方法在并行分布式设计上存在着较大优化空间，无法满足大规模图结构化社区发现的需求。

发明内容

针对上述图网络结构化社区发现方法中所存在的问题和不足，本发明旨在提供一种基于模块度的分布式社区发现方法，通过预分区和策略状态信息存储优化策略，针对分布式计算和社区发现算法的计算特点进行优化，减小了计算开销，整体提高基于模块度的图网络社区发现算法的计算效率。

本发明的技术内容包括：

一种基于模块度的分布式社区发现方法，其步骤包括：

1)将依据图数据集建立的图网络V，分割成若干子网络，并将各子网络传输至相应的计算节点，其中图网络V中每一顶点的Id为自身社区的Id，通过消息传递机制获取未保存在本计算节点上的图信息；

2)通过邻居顶点暴露的邻居社区Id信息，各顶点加入邻居占比最多的社区，得到变更后的社区Id信息；

3)汇总变更后的社区Id信息后的各顶点度信息，计算图网络V中各社区的总度数与各顶点到不同社区的连接数，并将各顶点到不同社区的连接数保存在相应顶点信息中，外部数据结构中维护各社区的总度数且广播给各计算节点；

4)在各计算节点中，依据各社区的总度数与各顶点到不同社区的连接数，并行化地计算各顶点加入邻居社区的模块度值差值，选取加入的社区，得到社区查找后的社区Id信息；将社区查找后的社区Id信息与变更后的社区Id信息对比；若社区Id信息发生变化，则将社区查找后的社区Id信息作为变更后的社区Id信息，并返回步骤3)；若社区Id信息未发生变化，则进入步骤5)；

5)将社区查找后的顶点Id信息与社区Id信息绑定，置换标志位为社区Id信息，并依据置换后的标志位及社区查找后的社区Id信息-顶点Id信息数据对，得到新顶点的Id信息，建立图网络V′；将图网络V′的顶点数量与社区查找后的顶点数量进行对比；若顶点数量发生变化，则将图网络V′的社区Id信息作为变更后的社区Id信息，将图网络V′作为图网络V，并返回步骤3)；若顶点数量未发生变化，则将图网络V′作为最终结果图。

进一步地，通过以下步骤各顶点加入邻居占比最多的社区：

1)各顶点从获取各邻居的社区Id信息Cm(w)_i中，选取频率最高的社区Id信息，其中1≤i<n，n为设定预分区次数；

2)各顶点将选取的频率最高的社区Id信息，加入邻居占比最多，得到社区Id信息Cm(w)_i+1。

进一步地，汇总各顶点度信息的方法包括：洗牌机制。

进一步地，所述外部数据结构设置于一主节点上。

进一步地，在步骤4)中，各顶点通过以下策略进行状态信息存储：

a)当顶点需要用到各社区总度数时，计算单元直接请求本地内存，从本地内存中访问获取；

b)当顶点更新各社区总度数时，计算单元直接访问节点内存中的数据结构并修改，在超步结束时，汇总至主节点，再同步到所有计算节点。

进一步地，在步骤4)中选取加入社区的策略包括：选取模块度值差值增量最大且大于零的社区加入。

进一步地，得到新顶点的Id信息的方法包括：依据置换后的标志位将社区查找后的社区信息Cm(v)-顶点信息v数据对聚合。

一种基于模块度的分布式社区发现方法，其步骤包括：

5)将社区查找后的顶点Id信息与社区Id信息绑定，置换标志位为社区Id信息，并依据置换后的标志位及社区查找后的社区Id信息-顶点Id信息数据对，得到新顶点的Id信息，建立图网络V′；

6)将图网络V′与图网络V进行社区合并，并将合并后社区的顶点数量与社区查找后的顶点数量进行对比；若顶点数量发生变化，则将合并后社区的社区Id信息作为变更后的社区Id信息，将合并后社区的图网络作为图网络V，并返回步骤3)；若顶点数量未发生变化，则将合并后社区的图网络作为最终结果图。。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有方法相比，本发明具有以下优点：

1)对传统单机算法实现的推算和实验测试表明，在基于模块度的社区发现算法整体计算流程中，经过几次社区坍缩之后，图的规模极速减小，意味着再次迭代社区寻找的计算开销同样极速减小。因此，从该角度出发，预分区策略有效地减少了前几次大循环中所需要的计算量，加快算法流程。

2)一般分布式图算法实现会将顶点信息保存在顶点数据结构中，这种做法方便发生在顶点上的计算读取顶点信息。但计算模块度时，所用到的信息不仅仅是当前顶点的信息，还需要用到社区信息，而社区信息需要多个相邻或不相邻顶点的信息。若此时仍采用顶点数据结构保存顶点信息的方式，则每次计算中，需要读取多个顶点信息，且计算完毕后可能修改多个顶点中保存的信息。而状态信息存储优化策略将顶点和社区信息保存在顶点数据结构之外，每台计算节点均可访问。这样，节点对顶点进行计算时，不需要再从其他节点中获取顶点和社区信息，极大地减小了节点间的通信开销。

综上，本发明通过预分区和状态信息存储优化策略，有效地加速了在分布式集群上对大规模图的模块度社区发现计算。

附图说明

图1是现有技术中基于模块度的分布式社区发现方法框架图。

图2是本发明预处理过程中预分区策略规则流程图。

图3是本发明迭代社区寻找过程中状态信息存储优化策略流程图。

图4是本发明的实施流程图。

具体实施方式

以下结合具体实施例和附图对本发明进行详细说明。

本发明提出的分布式社区发现方法，在现有技术的预处理、迭代社区寻找、社区坍缩和整体迭代四个部分之外，针对分布式计算特点，还采用了预分区与状态信息存储优化两种策略：在预处理阶段，本发明采用预分区策略，用少量简单的计算代替大量复杂的计算，获得的近似结果可在后续计算中被修正；在迭代社区寻找、社区坍缩阶段，本发明采用状态信息存储优化策略，将计算分摊至边上，减小计算量和通信量。具体策略规则如下：

1)预分区

如图2所示，预分区策略是指在第一次进行迭代社区寻找之前，类比社区结构思想，顶点加入邻居占比最多的社区，具体通过标签传播算法，提前对一部分顶点进行社区标注。

基于模块度的社区发现算法在迭代社区寻找和社区坍缩两个步骤中循环迭代。将一次迭代社区寻找和社区坍缩称作一次大循环，整体算法需要进行多次大循环。推算和实验测试表明，整体计算流程中，前三次大循环所需要的时间开销占总时间开销的大部分。

因此，在第一次大循环之前，进行一次预分区策略，有助于减小计算量。

具体地，在第一次进行迭代社区寻找之前，对于每个顶点v，向所有邻居发送自己的社区Id信息Cm(v)。顶点v会收到所有邻居顶点的社区Id信息，并从收到的社区Id信息中挑选频率最高的社区，当作预分区结果。这个过程重复k次，对于顶点v，可以大致了解k阶邻居内的结构信息，辅助后续正式计算。

2)状态信息存储优化策略

如图3所示，状态信息存储优化策略考虑将各个社区的总度数存储在顶点外的数据结构中，并在每个计算节点备份，同时在顶点上保存自身Id，所属社区Id以及与各社区之间存在的连接数。当位于计算节点上的顶点需要用到相关社区总度数信息时，计算单元直接请求本地内存，从本地内存中访问获取。当顶点相关社区总度数时，计算单元直接访问节点内存中的数据结构并修改，在超步结束时，汇总至主节点，再同步到所有计算节点。

在迭代社区寻找步骤中，计算需要用到各顶点到不同社区的连接数和各个社区的总度数，而两者在每一轮迭代中都有可能发生变化，状态信息会被频繁使用和更改。如果将这些状态信息都存储在顶点上，当存在顶点发生社区变更时，顶点上的所有信息都要发生更改，牵涉到两个社区的信息修改，社区信息修改影响社区中每一个顶点的计算，因而修改一个顶点的信息会产生大量的消息传递，且这些消息传递发生在不同计算节点之间，可能造成消息拥堵。当图规模巨大且存在着大量的顶点存储着相同的数据，保存全局信息(即各个社区的总度数)并同步到各台计算节点上的开销要远小于计算时传输消息的通信开销。

具体地，在迭代社区寻找步骤中，各个计算节点各自保存一部分顶点信息。先在各个计算节点上聚合节点中的社区属性，再由各个节点将信息发至主节点，由主节点负责将信息聚合，组成包含所有社区属性的数据结构，该数据结构记录社区总度数，以及各顶点到该社区的连接数。主节点通过广播的形式，将包含所有社区属性的数据结构传输到所有计算节点上，各计算节点保存至各自内存中。由此，各计算节点得到了全局的社区信息，在计算中可以直接访问。当一次迭代完成后，各计算节点完成修改，聚合后发送至主节点，重复这个过程。

基于以上信息，请参考图4，本实施例的具体实施步骤如下：

1、初始化。处理输入的图数据集，建立图。对于每个顶点v，设置其初始社区Id为自身Id。

2、预分区。通过消息传递机制，每个顶点v将自己的社区Id信息Cm(v)暴露给邻居，即每个顶点v可以获取并保存邻居的社区Id信息，并在邻居社区Id信息中选择频率最高的社区Id信息Cm(v)，加入自身的社区Id信息Cm(w)。步骤2重复三次。

3、统计信息。各计算节点通过shuffle(洗牌)机制，汇总各个顶点的度k_i，计算得到各个社区的总度数Σ_tot，以及各顶点到不同社区的连接数k_{i_in}。将所有信息统计完毕后，应用状态信息存储优化策略，将各顶点到不同社区的连接数k_{i_in}保存在各顶点信息中，由主节点维护各个社区的总度数Σ_tot，并广播给所有节点。

4、迭代社区寻找。对于每个顶点v，计算加入邻居社区Id信息Cm(w)时产生的模块度差值ΔQ(w)，筛选ΔQ(w)，条件为ΔQ(w)>0，且选取Max(ΔQ(w))。顶点v更新自身存储信息中的社区Id为Cm(w)。若没有符合条件的社区，或保持原社区的ΔQ最大，则保持原社区Cm(v)不变。所有顶点计算完后，若没有社区Id信息发生新的变化，即没有顶点改变自身社区属性，则进入步骤5；否则，回到步骤3。

5、社区坍缩。将顶点Id信息与社区Id信息Cm(v)绑定，置换标志位为社区Id信息Cm(v)，获得新的社区信息Cm(v)-顶点信息v数据对，并根据标志位Cm(v)进行聚合。得到的结果以社区IdCm(v)为检索key，即以社区IdCm(v)作为新的顶点信息v’，顶点内存储的信息为所有原先属于该社区的顶点集合。由新的顶点集合，可以建立新的图网络。此时，可以得到该层次下的社区结构。与先前得到的社区结构合并，则有多种粒度的社区结构。具体而言，先前迭代中被合并进某一社区的顶点，在本次合并中，加入代表该这一社区的顶点此次合并进入的社区，记录在顶点信息当中。

6、记录本次步骤5中社区坍缩获得新图中的顶点个数。与上次进入步骤5时记录的顶点个数比较，若二者数量相同，说明社区未发生坍缩，结束整体迭代，进入步骤7；否则，说明社区发生坍缩，新图结构发生变化，回到步骤3。

7、得到最终结果图。最终结果图中，每个顶点有多个社区属性。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于模块度的分布式社区发现方法，其步骤包括：

1)将依据图数据集建立的图网V，分割成若干子网络，并将各子网络传输至相应的计算节点，其中图网络V中每一顶点的Id为自身社区的Id，通过消息传递机制获取未保存在本计算节点上的图信息；

2.如权利要求1所述的方法，其特征在于，通过以下步骤各顶点加入邻居占比最多的社区：

1)各顶点从获取各邻居的社区Id信息Cm(w)_i中，选取频率最高的社区Id信息，其中1≤i＜n，n为设定预分区次数；

3.如权利要求1所述的方法，其特征在于，汇总各顶点度信息的方法包括：洗牌机制。

4.如权利要求1所述的方法，其特征在于，所述外部数据结构设置于一主节点上。

5.如权利要求4所述的方法，其特征在于，在步骤4)中，各顶点通过以下策略进行状态信息存储：

6.如权利要求1所述的方法，其特征在于，在步骤4)中选取加入社区的策略包括：选取模块度值差值增量最大且大于零的社区加入。

7.如权利要求1所述的方法，其特征在于，得到新顶点的Id信息的方法包括：依据置换后的标志位将社区查找后的社区信息Cm(v)-顶点信息v数据对聚合。

8.一种基于模块度的分布式社区发现方法，其步骤包括：

6)将图网络V′与图网络V进行社区合并，并将合并后社区的顶点数量与社区查找后的顶点数量进行对比；若顶点数量发生变化，则将合并后社区的社区Id信息作为变更后的社区Id信息，将合并后社区的图网络作为图网络V，并返回步骤3)；若顶点数量未发生变化，则将合并后社区的图网络作为最终结果图。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。