CN111028092A

CN111028092A - 基于Louvain算法的社区发现方法、计算机设备及其可读存储介质

Info

Publication number: CN111028092A
Application number: CN202010149155.7A
Authority: CN
Inventors: 伍捷; 韩柳; 黄文辉; 廖健; 祝大裕
Original assignee: China Post Consumer Finance Co Ltd
Current assignee: China Post Consumer Finance Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-04-17

Abstract

本发明涉及基于Louvain算法的社区发现方法、计算机设备及其可读存储介质。该方法包括：S1：根据输入数据生成表征网络结构的图，图包括节点及边；S2：将图的每个节点作为独立社区；S3：进行内层循环，更新每个节点的归属社区；S4：重复步骤S3，直到图的模块度变化的百分比小于第一阈值且当前循环次数为偶数，或内层循环次数大于第二阈值且当前循环次数为偶数，结束内层循环；S5：对每个社区进行连通性检查，若不连通，则切分成多个连通的子图，每个连通的子图作为独立社区；S6：对所有社区进行压缩，把每个社区压缩成一个节点；S7：将步骤S6的结果输入步骤S2，重复步骤S3至S6，直至图的模块度不再变化或变化的百分比小于第三阈值时，输出结果。

Description

基于Louvain算法的社区发现方法、计算机设备及其可读存储介质

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于Louvain算法的社区发现方法、计算机设备及其可读存储介质。

背景技术

复杂网络是复杂系统的抽象，现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析，如万维网、社会关系网络等。其中，网络中的节点表示系统中的个体，边表示个体间的关系。复杂网络一直是许多领域的研究热点，其中社区结构是复杂网络中的一个普遍特征，研究网络中的社区对理解整个网络的结构和功能起到至关重要的作用，并且可帮助我们分析与预测整个网络各元素间的交互关系。

对社区发现的研究自Newman于2002年提出“社区”与模块度概念以来有了快速的发展，大体可分为图分割、图聚类、节点表达等几个方向，影响力最大的几个算法包括Louvain算法、标签传播算法、Infomap算法。

标签传播算法：该算法使用邻居节点的信息来决定当前节点的社区，并且可以应用到重叠社区（Overlapping）的发现中，但会存在结果震荡、性能不稳定等问题。

Louvain算法：该算法是一种基于Modularity优化的启发式算法，它的优点是快速、准确，且能发现社区的层级结构，被认为是性能最好的社区发现算法之一。同时，因为该算法会不断对社区进行压缩并构造新图，所以计算量较小，能支持大规模的复杂网络。

Infomap算法：该算法从编码的角度，在发现网络的一种最优的二级编码的同时，获取对应的社区结构。算法思路类似于Louvain算法，但没有压缩社区构造新图的步骤，计算量较大。

标签传播算法的优点在于实现简单直观，但准确性一般且性能不稳定；Infomap算法准确性较高但计算量较大；Louvain算法准确性良好且计算量较小，更适合大规模的复杂网络。但是，公开的Louvain算法为串行化算法，无法在分布式计算系统中应用。

发明内容

基于此，有必要提供一种效率更高的基于Louvain算法的社区发现方法、计算机设备及其可读存储介质。

本发明实施例一方面提供一种基于Louvain算法的社区发现方法，其包括如下步骤:

S1：根据输入数据生成用于表征网络结构的图，图包括节点以及连接节点的边,将图存储于数据结构中；

S2：将图中的每个节点作为一个独立的社区；

S3：进行内层循环，更新每个节点的归属社区；

S4：重复步骤S3，直到所述图的模块度变化的百分比小于第一阈值且当前循环次数为偶数，或者内层循环次数大于第二阈值且当前循环次数为偶数，结束内层循环；

S5：对每个社区进行连通性检查，若不连通，则把它切分成多个连通的子图，每个连通的子图作为一个独立的社区；

S6：对社区进行压缩，把每个社区压缩成一个节点；

S7：将步骤S6的结果输入步骤S2，并重复步骤S3至S6，直至所述图的模块度不再变化或者变化的百分比小于第三阈值时，输出结果。

作为上述实施例的进一步改进，在步骤S1和步骤S2之间，还包括步骤S12：对所述图进行连通性检查，若不连通则把所述图切分成多个连通的子图。

作为上述实施例的进一步改进，步骤S3进一步包括如下步骤：

S31：对每个节点i，计算其候选社区集合S_i，候选社区集合S_i由所有邻居节点所在的社区与节点i当前所在的社区构成；

S32：对每个节点i，依次尝试将其挪入S_i的每个社区，计算该节点i作为一个独立社区挪入新社区C_j后的模块度相对变化

，Q为模块度；

S33：记录

的最大值与对应的新社区编号C_j。若内层循环次数k为偶数，则仅当原社区编号 C_i>C_j时，才把当前节点i的社区编号更新为C_j，否则社区编号不变；若内层循环次数 k为奇数，则仅当原社区编号 C_i≤C_j时才把当前节点的社区编号更新为C_j，否则社区编号不变;

上述S31、S32、S33步骤均基于k-1次内层循环后的状态进行计算并进行同步更新。

作为上述实施例的进一步改进，在步骤S32中：

当C_i≠C_j时：

；（公式1）

在公式（1）中，

是节点i与新社区C_j中节点连边的权重之和；

为节点i的度数；

为新社区C_j中所有节点的度数之和；M是当前连通图中所有节点的度数之和；

当C_i=C_j时：

；（公式2）

在公式（2）中，

是节点i与社区C_i中其他节点连边的权重之和；

为节点i的度数；

为新社区C_j中所有节点的度数之和；M是当前连通图中所有节点的度数之和。

作为上述实施例的进一步改进，在步骤S6中，将被压缩社区内不同节点的连边作为压缩后节点的自连边，将被压缩社区内同一节点的自连边作为压缩后节点的自连边，将压缩后节点的所有自连边合并为一条边，边权重为该压缩后节点的所有自连边的权重之和。

作为上述实施例的进一步改进，所述第三阈值大于或等于第一阈值。

本发明实施例另一方面提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

本发明实施例又一方面提供一种计算机设备可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述方法的步骤。

本发明实施例的技术方案克服了Louvain算法串行化的缺点，对Louvain算法进行分布式改造，使之不仅能充分利用分布式的计算资源，实现对大规模数据集的支撑，而且在基本不影响准确性的情况下大幅提升了算法的计算速度。

附图说明

通过附图中所示的本发明优选实施例更具体的说明，本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分，且并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明实施例中输入数据的示例图；

图2为本发明实施例中社区压缩的示意图；

图3为本发明实施例中内层循环的工作流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步的详细描述，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1-3所示，本发明实施例提供一种基于Louvain算法的社区发现方法，其包括如下步骤:

S2：将图中的每个节点作为一个独立的社区；

S3：进行内层循环，更新每个节点的归属社区；

S4：重复步骤S3，直到图的模块度（即全局模块度）变化的百分比小于第一阈值且当前循环次数为偶数，或者内层循环次数大于第二阈值且当前循环次数为偶数，结束内层循环；

S6：对所有社区进行逐一压缩，把每个社区压缩成一个节点；

S7：将步骤S6的结果输入步骤S2，并重复步骤S3至S6，直至整体模块度不再变化或者变化的百分比小于第三阈值时，输出结果。

需要说明的是，本发明中所称的“图”，也可称为“网络”，是将具体网络抽象成点集和边集后的组合产物，由节点与边构成。其中网络中的独立实体被抽象为节点，网络中的关系被抽象为边。边为无向边且带有权重，边的起点与终点可以相同，这种边在文中被称为“自连边”。两个节点间连边数量不限。节点的度数是指与该节点相连的边的权重之和，若存在自连边，则对应权重需要计算两次。若图中任意两点皆有路径相连，则称该图为连通图，否则称为非连通图。非连通图可被切分为多个连通子图。

在步骤S1中，默认输入数据中包含边权重数据，边权重数据可以来自原始数据，也可以是使用其他算法计算加工得到的边权重矩阵。若输入数据不含边权重，则每条边的权重都设为1。若两个节点间包含多条边，则将其合并为一条边，合并后边的权重为合并前边的权重之和。

在步骤S2中，将图初始化，也即将图中的每个节点作为一个独立的社区，社区编号设为节点编号，此时社区数目与节点数目相同。所指“社区”，是指网络中社区编号相同的节点的集合，通常满足社区内部节点间关系较紧密，而社区内节点与社区外节点间的关系较松散， “社区编号”是指用于标识社区的唯一id。

在步骤S4中，模块度指的是Newman于2004年提出、并于2006年通过公式变换重新定义的Modularity，用于衡量对一个网络进行社区划分的结果的好坏。图的模块度也即整个网络的模块度。

在步骤S5中，把切分后的每个连通子图作为一个独立社区，社区编号设为连通子图内最小或最大的节点编号，并更新连通子图内每个节点的社区编号。

在优选实施例中，在步骤S1和步骤S2之间，还包括步骤S12：对图进行连通性检查，若不连通则把图切分成多个连通的子图，计算每个连通子图中节点的度数之和M。使得该算法增加了对非连通图的支持。

在优选实施例中，步骤S3也即内侧循环步骤进一步包括如下步骤：

，Q为模块度；

S33：

记录的最大值与对应的新社区编号C_j。若内层循环次数k为偶数，则仅当原社区编号 C_i>C_j时，才把当前节点i的社区编号更新为C_j，否则社区编号不变；若内层循环次数 k为奇数，则仅当原社区编号 C_i≤C_j时才把当前节点的社区编号更新为C_j，否则社区编号不变;

上述S31、S32、S33步骤均基于k-1次内层循环后的状态进行计算并进行同步更新，不同于原串行算法中的异步更新。

在优选实施例中，在步骤S32中：

当C_i≠C_j时：

；（公式1）

在公式（1）中，

是节点i与新社区C_j中节点连边的权重之和；

为节点i的度数，等于与节点i相连的边的权重之和；

为新社区C_j中所有节点的度数之和；M是当前连通图中所有节点的度数之和，若原始图为连通图，则M等于所有节点的度数之和，否则等于节点i所在连通子图中所有节点的度数之和。

由于S_i也包含了原社区C_i，当C_j=C_i时就对应于节点留在原社区的情况，所以计算

时无需考虑该节点挪出原社区C_i的模块度变化，只需计算挪出后该节点作为一个独立社区挪入新社区C_j后的模块度变化。

当C_i=C_j时：

：（公式2）

在公式（2）中，

是节点i与社区C_i中其他节点连边的权重之和；

为节点i的度数，等于与节点i相连的边的权重之和；

为社区C_i中所有节点的度数之和，节点i也被包含在内；M是当前连通图中所有节点的度数之和，若原始图为连通图，则M等于所有节点的度数之和，否则等于节点i所在连通子图中所有节点的度数之和。

的结果等于该节点挪出原社区的模块度相对变化的负值。

在上述公式（1）和公式（2）中，

为模块度相对变化，乘以系数2/M即等于真实的模块度变化，这里使用了模块度相对变化

而非模块度的绝对变化，是在保证社区更新结果不变的情况下使计算公式变得更简洁。

请参考图3，在优选实施例中，在步骤S6中，将被压缩社区内不同节点的连边作为压缩后节点的自连边，将被压缩社区内同一节点的自连边作为压缩后节点的自连边，将压缩后节点的所有自连边合并为一条边，边权重为该压缩后节点的所有自连边的权重之和。与普通的边不同，合并后的自连边只需把其权重作为节点对象的属性存储即可，无需存储于独立的数据结构中。

在优选实施例中，第三阈值大于或等于第一阈值。

本发明实施例还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例的方法的步骤。

该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器。

本实施例中，存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card ,SMC)，安全数字(Secure Digital ,SD)卡，闪存卡(Flash Card)等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据，以实现上述实施例所述社区发现方法的步骤。

本发明实施例还提供一种计算机设备可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例的方法的步骤。该计算机设备可读存储介质可以是闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等。

本发明实施例的技术方案克服了Louvain算法串行化的缺点，对Louvain算法进行分布式改造，使之不仅能充分利用分布式的计算资源，实现对大规模数据集的支撑，而且在基本不影响准确性的情况下大幅提升了算法的计算速度。在使用相同场景的真实业务数据测试时，大型网络（千万级节点，几十亿边）使用本文算法的耗时，比中型网络（百万级节点，千万级边）使用公开算法的耗时还减少90%以上，速度提升显著。在优选实施例中，本发明实施例的技术方案进一步解决了分布式改造后出现的震荡、社区交换与社区分裂难题等各类性能与正确性问题，使得Louvain算法的工业化落地变得可行，对在金融、社交等众多领域中大型复杂网络的研究、探索与挖掘都有重要意义。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。