CN106789285B

CN106789285B - 一种在线社会网络多尺度社区发现方法

Info

Publication number: CN106789285B
Application number: CN201611236469.0A
Authority: CN
Inventors: 杜友田; 苏畅; 管晓宏; 王倩
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2020-08-14
Anticipated expiration: 2036-12-28
Also published as: CN106789285A

Abstract

针对大尺度在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素，本发明提出了一种在线社会网络多尺度社区发现方法，该方法的一个重要特点是融合了用户兴趣和内聚度，该挖掘方法主要包括3个步骤：1)网络粗化过程，2)粗化网络上基于概率模型的社区标签初始化，3)基于图上半监督学习的社区标签的估计。该方法的优点在于通过粗化过程极大地降低了网络的大小，使得用于社区检测概率模型具有很小的参数空间，大大增大了寻找全局最优解的可能性并降低了计算复杂度；其次，结合了用户兴趣和内聚度能够全面地对社区进行定义，本发明的贡献在于提出了一种基于多层次的社区挖掘方法。

Description

一种在线社会网络多尺度社区发现方法

技术领域

本发明属于计算机应用技术领域，涉及数据挖掘、在线社会网络以及机器学习，特别涉及一种在线社会网络多尺度社区发现方法。

背景技术

在线社交网络中蕴含着大量潜在的社区结构，这些社区内的结点具有相似的特性，在网络中扮演相似的角色，以其为单位的粗粒度网络描述，可简化对整个网络的功能、交互及其演化的研究。因此，识别社区结构有助于我们更深入地了解网络的本质，认识网络结构与其功能之间的关系。社区检测通常是指将网络结点和边划分至不同的集合。社区发现的关键是社区定义，不同社区结构的定义导致不同的社区发现方法。传统意义上，人们将社区定义为团内结点连接稠密、团间结点连接稀疏的结构。然而在实际网络中还存在这样的结点集，它们具有相似的链接模式，但它们之间是否存在稠密链接不确定，此类有相似链接模式的结构称为广义社区(兼容传统社区)。

传统的社区发现方法，如谱平分法、分层聚类、Girvan–Newman(GN)算法、派系过滤等，采用启发式的度量衡量传统社区结构的优劣，缺乏严格的理论基础；同时，此类方法在处理具有重叠的社区问题上，也缺乏活力。近年来，出现了一些基于统计推理的社区发现方法。该类方法可识别网络中结构对等和规律对等的结构，利用生成模型拟合观测到的网络来获得结点的划分及网络的结构，具有完备的概率理论基础和解释，能更好地满足社区发现算法的标准。与此同时，基于统计推理的社区发现方法，能准确地处理具有重叠(overlap)的社区发现问题。

Hastings等人采用的物理种植分区模型是一种特殊的统计块模型(SBM)，将社区划分问题转化为统计推理问题；随后，Hoffman等人采用贝叶斯方法处理该模型。Newman和Leieht用混合概率模型发现网络的结构，不仅能识别传统意义的协调匹配社区，还能发现有相似链接模式的非协调匹配社区。基于Blei的著名LDA混合隶属度模型，Airoldi和Blei将混合隶属度模型和随机块模型结合，建立了混合隶属度随机块模型。Karrer和newman等人在随机块模型中融入结点度信息，得到了更好的社区结构，也证明了其比相似的模块社区发现算法有更可靠的解释、更优的结果。此外，Ball等基于链接社区的思想设计了一个融人边分布的随机块模型。虽然基于统计推理模型的方法能够准确地在有向或无向网络中发现重叠的传统社区，而且具有坚实的理论基础，但是，由于推理过程中不可避免的迭代过程，此类方法往往具有很高的复杂度。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种在线社会网络多尺度社区发现方法，针对大尺度的在线社会网络中社区挖掘的高计算复杂度以及社区定义涉及的多种要素，融合用户兴趣和内聚度，同时通过多层次、多尺度的方法减小了原始网络的大小。

为了实现上述目的，本发明采用的技术方案是：

1)基于连接密度与连接模式的在线社会网络的粗化。针对在线社会网络中同一社区的结点通常具有相似的兴趣和较频繁的交互行为，定义了结合连接密度和连接模式的相似度；定义了k-阶的结点合并策略，在算法效率和准确度方面进行了权衡；提出了贪婪的k-阶结点合并算法，将输入的在线社会网络

通过逐层粗化的方式得到粗化网络

其中L表示粗化的最大层数。

2)粗化网络上的社区发现初始化。基于NMM算法对最上层的粗化网络

进行社区发现初始化，得到粗略的社区发现结果Q^L。方法该技术环节带来的好处是：极大的减少了网络的大小，大大加快了NMM算法求解过程，提高了效率；明显降低了NMM算法中的参数空间大小，使得该算法在优化过程中更有可能收敛到全局最优解。

3)考虑光滑性假设的社区发现。本技术环节将粗化网络

上得到的社区发现初始结果Q^L通过逐层计算来得到大尺度输入网络

上的社区检测结果Q⁰。主要包括两个步骤：第一，将上层网络

中的社区发现结果Ql+1映射至下层网络

第二，基于光滑性假设，构建优化函数，通过图上的学习方法推理出

上的社区检测结果Q^l。通过逐层推理，最终得到输入的在线社会网络

上的社区检测结果Q⁰。

与现有技术相比，本发明的有益效果是：通过粗化过程极大地降低了网络的大小，使得用于社区检测概率模型具有很小的参数空间，大大增大了寻找全局最优解的可能性并降低了计算复杂度；其次，结合了用户兴趣和内聚度能够全面地对社区进行定义。

附图说明

图1是本发明实施例中一个3层粗化的社区发现过程示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

步骤1：

定义

表示连接模式，反映结点v_i与v_j之间的连接规律。其中w_ij表示结点v_i到v_j的边的权值，

表示结点v_i的出度。则p_i＝(β_i,j)_n×1反映了结点v_i与网络内所有结点的连接规律。基于连接模式的v_i,v_j之间的相似度定义如下：

PairSim_c(v_i,v_j)＝sig(cos(∠(p_i,p_j))) (2)

sig(·)表示sigmoid函数，将相似度映射至(0,1)范围内。进一步地，基于连接模式的结点v和结点集合U之间的相似度定义如下：

基于连接密度的相似性度量：

其中Sim_d(u,U)表示了结点u和结点集合U之间的相似度，

表示两端结点均在

内部的边的集合，

表示只有一端结点在

内部的边的集合。

其中

是一个操作符号，可以由多种选择：取最大值，取几何平均值或者算术平均值。

在网络粗化过程中，采用

阶合并策略：在一次粗化过程中，对于

中的每一个超结点由

中不超过

个结点结合而成，

相当于一个上界；另一方面，

本质上也是粗化速率和整体算法精度的一个权衡。具体粗化做法：

给定网络

按如下步骤进行。

step1：随机选取没有合并过的结点v，以v为初始结点构建结点集合

step2：从v的邻域结点中随机选择结点u，若

δ为提前设定的阈值，则

根据此做法不断扩充

直到

或者结点v的邻域结点被选择完毕，则终止

的合并，将其用

中的超结点

代表；

step3：重新跳至step1，或者所有结点均被合并完毕，则跳至下一步；

step4：合并

中的边及权重，形成

中的边及权重，对于超结点

和

分别对应于结点集合

和

则

其中，

分别表示

中结点

到

的边的权值以及

中结点

到

的边的权值。

步骤2：

在最上层的粗化网络

采用NMM算法进行社区检测，并作为步骤3的初始结果，具有如下优点：极大的减少了网络的大小，大大加快了NMM算法求解过程，提高了效率；明显降低了NMM算法中的参数空间大小，使得该算法在优化过程中更有可能收敛到全局最优解。在粗化网络

上实现NMM算法的过程如下：

给定

其中

和_L分别表示所有结点、边的集合，

表示结点之间的连接矩阵。定义

为社区g中结点数量所占的比例(或随机选取一个结点，隶属于社区g的概率)；

为社区g中任意结点有边连接到结点j的概率，且满足

其中C为社区数目，n_L为结点数目。

上的社区检测问题转化为如下最大似然问题：

采用期望最大化算法进行推理，按照如下推理公式进行迭代计算，最终得到最终结果。

其中，

是结点

的出度。

表示结点

的社区标签向量，

表示网络

上的社区检测结果，c是第c个社区，C是总社区数目，s是第s个社区。

步骤3：

当得到粗化网络

上的社区发现初始化的结果之后，需要逐层估计网络

上的社区检测结果。社区检测包括两步。首先，将网络

上的社区检测结果映射至

层。具体而言，如果

中的一个超结点

是由

中的若干结点

聚合而成，则

的社区标签向量跟

一致。其次，针对第一步得到的标签估计结果进行优化。本发明采用图上的学习方法对其社区类别标签进行估计。针对网络

基于步骤1中的相似度定义来构造对应的相似矩阵

具体形式如下：

k是结点标号，

是结点

的邻居结点集，若

的值大则意味着结点

和

在网络

中具有相近的连接模式和密集的连接密度，反之亦然。

一般地，在线社会网络具有如下现象，此处称之为光滑性假设，即若两个结点

具有

高的相似度值

相似度的结点具有的社区类别标签

和

也趋向于相似。因此这里采用图上的半监督学习方法来估计社区标签向量。网络

上的标签估计问题可以通过最小化如下函数来获得：

其中

上式第一项表示光滑项，即标签向量

与相邻结点的标签向量

之间的差别，第二项表示误差项。

是结点

在上一时刻的社区标签估计值，

为结点

在网络

中形成的超结点

对应的类别标签向量，λ为控制参数，用来平衡光滑项和误差项之间的重要性。上式的最小化可以通过独立地最小化每个结点对应的代价函数

来完成。最终的求解结果可以通过迭代计算下式而完成：

通常可以设置λ＝1。一般迭代10次左右可以使得迭代计算收敛。

图1是一个3层粗化的社区发现过程示意图，其过程为：首先，逐层粗化网络；然后，对最终粗化网络挖掘初始化社区标签；最后，逐层估计社区结果，得到输入网络的社区结果，图中1和2表示边上的权值，即各个

的值。

Claims

1.一种在线社会网络多尺度社区发现方法，其特征在于，包括如下步骤：

1)基于连接密度与连接模式的在线社会网络的粗化

基于贪婪的

-阶结点合并算法，将输入的在线社会网络

通过逐层粗化的方式得到粗化网络

其中L表示粗化的最大层数；在网络粗化过程中，采用

阶合并策略：在一次粗化过程中，对于

中的每一个超结点由

中不超过

个结点结合而成，给定网络

按如下步骤进行粗化：

step2：从v的邻域结点中随机选择结点u，若

δ为提前设定的阈值，则

根据此做法不断扩充

直到

或者结点v的邻域结点被选择完毕，则终止

的合并，将其用

中的超结点

代表；

step4：合并

中的边及权重，形成

中的边及权重，对于超结点

和

分别对应于结点集合

和

则

其中，

分别表示

中结点

到

的边的权值以及

中结点

到

的边的权值；

Sim(u,U)定义为结合连接密度和连接模式的相似度：

其中，

表示基于连接模式的结点u和结点集合U之间的相似度；

表示基于连接密度的结点u和结点集合U之间的相似度；

是操作符号，表示取最大值、取几何平均值或者取算术平均值；

PairSim_c(u,u_i)表示基于连接模式的结点u和结点u_i之间的相似度，参照公式PairSim_c(v_i,v_j)＝sig(cos(∠(p_i,p_j)))进行计算，sig(·)表示sigmoid函数，将相似度映射至(0,1)范围内，令n表示网络中的结点总量，p_i＝(β_i,j)_1×n，反映了结点v_i与网络内所有结点的连接规律，