CN103927371A

CN103927371A - 一种基于局部相似度的社区挖掘方法

Info

Publication number: CN103927371A
Application number: CN201410167205.9A
Authority: CN
Inventors: 翁伟; 朱顺痣; 曾志强; 张念; 肖蕾; 马樱
Original assignee: Xiamen University of Technology
Current assignee: Xiamen Yuhao Marriott Intelligent Equipment Co.,Ltd.
Priority date: 2014-04-24
Filing date: 2014-04-24
Publication date: 2014-07-16
Anticipated expiration: 2034-04-24
Also published as: CN103927371B

Abstract

本发明公开了一种基于局部相似度的社区挖掘方法，该方法通过网络结构本身关系的紧密与否发现关系紧密的局部区域，将这些区域视为社区的雏形赋予标签，然后根据投票原则采用标签传播的办法再扩展、调整这些区域形成社区。本发明不需要任何人工参数，直接通过网络本身结点联系的紧密与否的结构性质得到社区结构。

Description

一种基于局部相似度的社区挖掘方法

技术领域

本发明涉及一种社区挖掘方法，具体地说，具体涉及一种基于局部相似度的社区挖掘方法。

背景技术

社会网络是由一些个人或组织以及它们之间的联系所构成的集合。20世纪90年代，随着网络技术的迅猛发展，特别是近几年SNS(socialnetworkingsystem)的涌现，越来越多的个人用户加入到由这些虚拟关系所构建的网络中，社会网络的研究得到了逐步加强。现今涌现出了大量的社会网络平台，包括网络论坛(如天涯社区,CSDN，小虫网等)，聊天室(如新浪聊天室)，校园BBS系统(如水木清华，一塌糊涂等)，社会关系网站(如Facebook等)，博客(如Myspace，Twitter)，即时通讯网络(如MSN、QQ)等等，积累了海量的、不断更新的社会网络数据。这些社会网络是人们现实生活直接或间接的反应，并进一步影响了人们的社会行为，例如网站中互相评论、标记和连接日志的博友是现实生活中的好友，或者可能发展为现实生活中的好友，维基百科(Wikipedia)已经成为互联网上最大、最流行的参考书，IMDB论坛上的影片评论成为观众购票观影的指南。

社区是复杂的社会网络的基本特征之一。将社会网络抽象成图，将参与的对象表示成点，对象之间的关系表示成线，则社区为一个子图，该子图内部的关系比较紧密，子图与子图外部(其他子图)之间的关系相对稀疏。物理类聚，人以群分，认识网络中的社区结构，有助于理解复杂的网络结构中组织架构，进而能够理解对象之间关系的相互影响和组织功能。目前社区挖掘方法往往从某些角度定义一个描述社区优劣的定量指标，然后利用贪心算法，将初始网络看成一个社区不断拆分或将初始网络中每个结点看成是一个社区不断合并，最终使得这个指标尽可能达到最优。也有一些方法需要预定义参数(比如社区个数等阈值)和某种关系度量函数对网络结点进行分类得出社区结构。总而言之，这些方法事实上限制了社区形成的过程、形状和结构。

发明内容

为了克服现有技术中存在的缺陷，本发明提供一种基于局部相似度的社区挖掘方法，该方法通过网络结构本身联系的紧密与否发现关系紧密的局部区域，将这些局部区域视为社区的雏形赋予初始标签，然后根据投票原则采用标签传播的办法再扩展、调整这个区域形成社区。不需要任何人工参数，直接通过网络本身结点联系的紧密与否的结构性质得到社区结构。

为了叙述方便，先对基本概念进行形式化定义。设网络G＝(V,E)，其中V＝{v₁,v₂,......v_n}为结点集合，E＝{e₁,e₂,......e_m}为边集，其中e_i∈V×V。v_i的邻居记为N(v_i)，即N(v_i)＝{v_j|w_ij＞0}，v_i的星型邻域St(v_i)＝{v_i}∪N(v_i)。记表示结点v_i关联的边权值之和，定义为v_i的度。

其技术方案如下：

一种基于局部相似度的社区挖掘方法，包括以下步骤：

(1)根据网络的邻接矩阵计算各结点对的相似度。

那么结点对(v_i,v_j)的相似度计算公式如下：

S_{ij} = \frac{\underset{V_{l} &Element; St (v_{i}) \cap St (v_{j})}{Σ} \frac{1}{K (v_{l})}}{\sqrt{\underset{v_{m} &Element; St (v_{i})}{Σ} \frac{1}{K (v_{m})}} \sqrt{\underset{v_{n} &Element; St (v_{j})}{Σ} \frac{1}{K (v_{n})}}}

根据上式，结点v_i和v_j的相似度与他们星型邻域交集中结点(可以看成是中介点)的度有关，度越大说明该点对v_i和v_j的相似度贡献越小，这是因为这种情况下中介点的连接作用被分散了。分母起到归一化使得S_ij∈[0,1]，S_ij＝0时说明结点v_i和v_j既不相连接也没有共同的邻居，S_ij＝1时则说明St(v_i)＝St(v_j)。由此看来，若结点v_i和v_j有共同的邻居(无论这两个结点本身是否连接)，则这两个结点的相似度总大于零，表示他们之间有关系，避免的其他度量方法的低估现象(例如在两结点连接但无共同邻居的情况下，有些指标为将其相似度计算为0，这明显低估了这两点的关系)。在本发明中，只计算存在边的结点之间的相似度。

(2)找出所有的紧密点对。

如果某结点对(u,v)的相似度是其邻接结点中相似度最大的，称之为紧密点对，即

σ(u,v)＝max{s(x,y)|(x＝u,y∈Γ(u)-{u})∨(x＝v,y∈Γ(v)-{v})}，记作其中ε＝σ(u,v)。找出这些结点对构成紧密点对的集合；

(3)找出所有的紧密微社团。

若某些结点构成的集合，其中的某个结点总有另外一个在集合中的结点与之构成紧密点对，并且任何一个在里面的结点，与之构成紧密点对的另外一个结点均不在集合之外，这些结点就构成了紧密微社团。紧密微社团事实上是一个子图，可记为C(a)＝(V',E',ε)，满足三个条件：1)a∈V'；2)对任何u∈V'，存在3)不存在

(4)给所有的紧密微社团赋予初始标签，同一个紧密微社团中的结点初始标签相同，紧密微社团之间的初始标签不同；

(5)将网络中的结点按度从大到小的次序放入集合X中。

(6)设置t＝1。

(7)按X中的次序取出每个结点x∈X，将x的邻接结点按标签类型分组，数量最多的那一组的标签赋予x，若存在数量最多的分数有多个，那么选择分组中各结点度之和最大的那个分组的标签。

(8)如果前后两次标签赋值未发生变化，那么算法结束；否则设t＝t+1，转(7)。

本发明的有益效果：

(1)经过测试，本发明的方法挖掘出的社区与直观感觉吻合，能够进行合理解析；在基准数据集测试，其效果很好。

(2)传统的社区挖掘方法有些需要人工参数(例如预先设定社区个数)，但本方法完全依赖社会网络本身的结构。此外，有些方法依赖于设定社区优劣的定量函数，然后采用贪心算法，初始时候将每个结点视为一个社区逐步合并使得该函数增大或者刚开始将整个网络视为一个社区不断分裂使得该函数增大。但是贪心算法容易陷入局部最优。

(3)与同类型的标签传播算法比较来说，本方法主要贡献在于找到了标签传播算法中初始标签的简便赋值方法，大大减少了初始标签的数目，并且初始标签反映了社区结构的雏形，进而消除了传统标签传播算法中的精度限制现象。所谓精度限制问题，是指不能产生小的社区，而趋向于将小的社区合并的现象。例如图2所示，明显能看出存在2个社区，但很多算法只能挖掘出一个社区{a,b,c,d,e,f,g}，这便是精度限制问题。本算法能够将其挖掘出2个社区，分别是{a,b,c,d}和{e,f,g}，有效消除了精度限制问题。

附图说明:

图1是本发明基于局部相似度的社区挖掘方法的流程图；

图2是一个可能产生精度限制问题的网络；

图3是测试网络；

图4是邻接矩阵；

图5是相似度矩阵；

图6是边上赋予相似度；

图7是设置初始标签；

图8是第一次结点e得到更新；

图9是第二次结点i得到更新；

图10是最终的社团结构；

图11是基准网络。

具体实施方式

下面结合附图和具体实施例详细描述本发明的技术方案。

(1)将图3所示网络表示为邻接矩阵，如图4所示。

(2)根据网络的邻居矩阵计算各结点对的相似度，如图5所示。这里为了更清晰地表示，将相似度标注在图上，如图6所示。

(3)如果某结点对的相似度是其邻接结点中相似度最大的，这找出这些结点对构成紧密点对；

针对图6，一共可以发现四对紧密点对：(a,c)、(b,d)、(f,h)、(g,i)、(h,k)和(i,j)。

(4)若某些结点构成的集合，其中的某个结点总有另外一个在集合中的结点与之构成紧密点对，并且任何一个在里面的结点，与之构成紧密点对的另外一个结点均不在集合之外，这些结点就构成了紧密微社团；找出所有这些紧密微社团；

针对图6，一共可以找出四个紧密微社团：(a,c)、(b,d)、(f,h,k)和(g,i,j)。

(5)给所有的紧密微社团赋予初始标签，同一个紧密微社团中的结点初始标签相同，

紧密微社团之间的初始标签不同；

针对图6，用△、◇、□和▽分别表示四种不同的标签，则初始标签设置如图7所示。

(6)根据投票原则进行标签传播，直到任何结点的标签均不能更新；

在图7的基础上，需要进行一轮标签传播，第一次更新的结点是e，如图8所示，第二轮更新标签的结点是i，如图9所示。其余更新不再给出图示。

(7)输出最终的社团结构，最终的社团结构如图10所示。

各个结点经过一次更新之后，便得到了最终的社团结构。

从结果来看，与观察结构吻合。进一步的，我们用一个基准的数据进行测试，图11是社区挖掘中常用的一个测试数据，该网络中一共34个结点，圆心结点和方形结点代表两类社团。本方法能够完全正确挖掘出这两类社区，从而证明了本方法的有效性。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.一种基于局部相似度的社区挖掘方法，其特征在于，包括以下步骤：

(1)根据网络的邻接矩阵计算各结点对的相似度；

(2)如果某结点对的相似度是其邻接结点中相似度最大的，这找出这些结点对构成紧密点对；

(3)若某些结点构成的集合，其中的某个结点总有另外一个在集合中的结点与之构成紧密点对，并且任何一个在里面的结点，与之构成紧密点对的另外一个结点均不在集合之外，这些结点就构成了紧密微社团；找出所有这些紧密微社团；

(5)根据投票原则进行标签传播，直到任何结点的标签均不能更新；

(6)得到了最终的社团结构。

2.根据权利要求1所述的基于局部相似度的社区挖掘方法，其特征在于：

(1)相似度的计算方法

设网络G＝(V,E)，其中V＝{v₁,v₂,......v_n}为结点集合，E＝{e₁,e₂,......e_m}为边集，其中e_i∈V×V；v_i的邻居记为N(v_i)，即N(v_i)＝{v_j|w_ij＞0}，v_i的星型邻域St(v_i)＝{v_i}∪N(v_i)；记表示结点vi关联的边权值之和，定义为v_i的度；

那么结点对(v_i,v_j)的相似度计算公式如下：

S_{ij} = \frac{\underset{V_{l} &Element; St (v_{i}) \cap St (v_{j})}{Σ} \frac{1}{K (v_{l})}}{\sqrt{\underset{v_{m} &Element; St (v_{i})}{Σ} \frac{1}{K (v_{m})}} \sqrt{\underset{v_{n} &Element; St (v_{j})}{Σ} \frac{1}{K (v_{n})}}}

根据上式，结点v_i和v_j的相似度与他们星型邻域交集中结点的度有关，度越大说明该点对v_i和v_j的相似度贡献越小，这是因为这种情况下中介点的连接作用被分散了；分母起到归一化使得S_ij∈[0,1]，S_ij＝0时说明结点v_i和v_j既不相连接也没有共同的邻居，S_ij＝1时要么是i＝j，要么是结点v_i和v_j只和对方互相连接而无其他邻接点；由此看来，若结点v_i和v_j有共同的邻居，则这两个结点的相似度总大于零，避免的其他度量方法的低估现象；只计算存在边的结点之间的相似度；

(2)紧密点对的计算方法；

如果某结点对(u,v)的相似度是其邻接结点中相似度最大的，称之为紧密点对，即σ(u,v)＝max{s(x,y)|(x＝u,y∈Γ(u)-{u})∨(x＝v,y∈Γ(v)-{v})}，记作

其中ε＝σ(u,v)；找出这些结点对构成紧密点对的集合；

(3)紧密微社团的计算方法；

若某些结点构成的集合，其中的某个结点总有另外一个在集合中的结点与之构成紧密点对，并且任何一个在里面的结点，与之构成紧密点对的另外一个结点均不在集合之外，这些结点就构成了紧密微社团；紧密微社团事实上是一个子图，可记为C(a)＝(V',E',ε)，满足三个条件：1)a∈V'；2)对任何u∈V'，存在

v &Element; V' (u {&LeftRightArrow;}_{ϵ} v); 3)

不存在

(4)初始标签的赋值方法；

给所有的紧密微社团赋予初始标签，同一个紧密微社团中的结点初始标签相同，紧密微社团之间的初始标签不同；

(5)标签传播的方法

(5.1)将网络中的结点按度从大到小的次序放入集合X中，然后

(5.2)设置t＝1；

(5.3)按X中的次序取出每个结点x∈X，将x的邻接结点按标签类型分组，数量最多的那一组的标签赋予x，若存在数量最多的分组有多个，那么选择分组中各结点度之和最大的那个分组的标签；

(5.4)如果前后两次标签赋值未发生变化，那么算法结束；否则设t＝t+1，转(5.3)。