CN105740907A

CN105740907A - 一种局部社团挖掘方法

Info

Publication number: CN105740907A
Application number: CN201610068175.5A
Authority: CN
Inventors: 封筠; 张晓芬; 董大为; 綦朝晖
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2016-02-01
Filing date: 2016-02-01
Publication date: 2016-07-06

Abstract

本发明公开了一种局部社团挖掘方法，属于复杂网络技术领域，该方法从网络中挖掘社团结构，其包含初步划分局部社团和合并相似局部社团两大部分，本发明方法具有挖掘方法简单、挖掘速度快的特点，并且通过采用适当的重要性评价指标、相似性测度和阈值能够得出较高质量的挖掘结果，为局部社团挖掘工作提供了新的思路。

Description

一种局部社团挖掘方法

技术领域

本发明涉及复杂网络技术领域，尤其涉及一种局部社团挖掘方法。

背景技术

现实世界中存在各种各样的复杂网络，由于网络内各节点间的相互作用及动态演化，在网络内部就会形成一些节点之间连接紧密，而与其它节点连接比较稀疏的节点集合，这些集合就称为社团结构。社团结构是复杂网络的一个重要拓扑特征。社团结构挖掘对分析网络结构和理解网络性质具有重要意义，在社会、经济、物理、生物、交通和计算机等学科和领域中具有高度实用性。

在网络中并不是所有节点的作用都一样，有些节点比较重要，称之为核心节点。节点重要性评估对理解和分析复杂网络社团结构有重要作用。网络中的重要节点往往是所属社团中心，社会关系比如小到学校、专业、班级，大到城市、国家、民族都可以从社团结构角度去理解。通过探究重要节点间的关系来研究网络社团结构，对社团挖掘研究有重要的推动作用。

目前所提出的节点重要性评估方法主要归纳为如下三大类：

（A）社会网络分析方法：

由于每个节点都有特殊之处，每个节点的重要性差异是通过对网络的一些基本指标统计分析，探测节点所处环境的特征，然后放大这些节点的显著性，从而量化节点的重要性。度量方法主要包括度中心性法、介数法、紧密度法、特征向量法、互信息法和累计提名等。这类方法是在保证网络整体性的前提下，基于网络的某一特性提出，从不同的角度探讨节点重要性的。

（B）系统科学分析方法：

将节点的重要性等价为该节点被删除后对系统的破坏性。对网络破坏程度越大的节点重要性越高，其主要研究成果就是系统的“核与核度”理论，其研究思路源于图论中点割集的概念。对网络连通的破坏程度越大，被删除的节点(集)越重要，因为网络连通的维持依赖于它们的存在。

（C）信息搜索领域分析方法：

近年来随着互联网的迅猛发展，网页的重要性排序成为信息科学搜索领域的重要功能之一，也可以从复杂网络节点重要性角度去描述，将网页抽象成网络节点，超链接抽象为网络中的边，搜索引擎呈现的就是网页按照重要性排序后的检索结果。目前，网页重要性评估最著名的的方法有PageRank方法和HITS方法。PageRank方法是利用网络自身的超链接结构确定所有网页的重要性等级数。HITS方法中的网页重要性是通过每个网页的内容权威和链接枢纽属性值来计算的。

目前，复杂网络社团结构挖掘大多基于聚类方法，具体来说主要有以下几种：

（1）谱方法：具有严密的数学理论，最早用于解决图分割问题，目前已发展成为一种重要的数据聚类方法(称为谱聚类法)。该方法采用二次型优化技术最小化预定义的“截”函数。具有最小“截”的划分被认为是最优的网络划分。谱方法本质上是一种二分法，在每次二分过程中，网络被分割成两个近似平衡的子网络。

（2）局部搜索聚类方法：主要有Kernighan-Lin(简称KL)方法、快速Newman(简称FN)方法和Guimera-Amaral(简称GA)方法。

（a）KL方法的优化目标是极小化簇间连接数目与簇内连接数目之差；其候选解搜索策略是将节点移动到其他簇或交换不同簇的节点。在整个搜索过程中，KL方法只接受更好的候选解，而拒绝所有较差的候选解，因此它找到的解往往是局部最优而不是全局最优解。

（b）FN方法是Newman于2004年提出的一种基于局部搜索的快速复杂网络聚类方法，其优化目标是极大化Newman和Girvan在同年提出的网络模块度评价函数。一般地，好的网络簇结构对应较大的模块度评价函数值。该方法候选解的局部搜索策略是选择且合并两个现有的网络簇。从初始解开始(每个网络簇仅包含一个节点)，在每次迭代中，FN方法执行使函数值最大化的合并操作，直到网络中只剩下一个网络簇。

（c）GA方法是Guimera和Amaral于2005年在《Nature》上提出的一种基于模拟退火方法的复杂网络聚类方法。该方法从初始解开始，在每次迭代中，产生、评价、接受或拒绝由当前解产生的候选解。产生候选解的策略是将节点移动到其他簇、交换不同簇的节点、分解网络簇或合并网络簇。

（3）启发类方法：最大流社团(简称MFC)方法、Girvan-Newman(简称GN)方法、Wu-Huberman(简称WH)方法和派系过滤(简称CPM)方法是典型的启发式复杂网络聚类方法。这类方法的共同特点是：基于某些直观的假设来设计启发式方法，对于大部分网络，它们能够快速地找到最优解或者近似最优解。

（4）其他类方法：除了以上几类主要方法以外，还存在其他复杂网络聚类方法，例如基于相似度的层次聚类方法。在这类方法中，节点间的相似度根据网络拓扑结构定义，如基于结构全等的相关系数方法、基于随机游走的相似度和节点聚类中心度等。

虽然关于社团挖掘已经有了上述方法，但是这些聚类方法还存在着各种不足：

（一）谱方法需要借助先验知识定义递归终止条件，即谱方法不具备自动识别网络簇总数的能力；现实世界中的复杂网络往往包含多个网络簇，而谱方法的递归二分策略不能保证得到的网络划分是最优的多网络簇结构。

（二）局部搜索方法最大的局限性在于它需要先验知识(如簇的个数或簇的平均规模)来产生一个较好的初始簇结构，因为该方法对初始解非常敏感，不好的初始解往往导致缓慢的收敛速度和较差的最终解。

（三）启发类方法的不足在于它无法从理论上严格保证该方法对任何输入网络都能找到令人满意的解。

发明内容

本发明要解决的技术问题是：针对上述现有技术的不足，提供一种局部社团挖掘方法，该方法采用一种基于核心节点的局部社团挖掘思路，通过初步划分局部社团和合并相似局部社团等两大部分实现对网络社团结构的挖掘，具有挖掘方法简单、挖掘速度快的特点，并且通过采用适当的重要性评价指标、相似性测度以及阈值P和Q能够得出较高质量的挖掘结果，是一种全新的局部社团挖掘方法。

为解决上述技术问题，本发明所采取的技术方案是：

一种局部社团挖掘方法，该方法从网络G中挖掘社团结构，具体来说，该方法递归地从网络G中划分出局部社团，直至网络G中的任一节点均属于某一局部社团；每一个局部社团由当次核心节点和当次邻居节点组成，其中当次核心节点为当次剩余节点中重要性评价指标得分最大的节点，当次剩余节点为当次划分前网络G中未被划入任何一个局部社团的节点，当次邻居节点是指当次剩余节点中与当次核心节点的节点相似度不小于P的该当次核心节点的邻居节点；对划分出的局部社团进行合并，直至网络G中任两个局部社团的社团相似度均小于Q，至此即得网络G的社团结构；所述社团相似度是指从两个指定社团中各取一个节点相比较所能得到的最大节点相似度。

具体地，重要性评价指标为度中心性指标，其计算方法如下：

，

其中表示节点的度中心性指标，表示节点的度，为网络G中的节点总数。

具体地，节点相似度为Jaccard相似系数，其计算方法如下：

，

其中表示节点和节点的Jaccard相似系数，和分别表示节点的邻居节点集合和节点的邻居节点集合，表示和的交集所含元素的数目，表示和的并集所含元素的数目。

具体地，合并局部社团的具体方式为：任取一局部社团，将其与网络G中的其他局部社团依次比较，并吞并与其社团相似度不小于Q的局部社团；重复该过程直至网络G中任两个局部社团的社团相似度均小于Q。

具体地，P的取值范围为0.10～0.20。对于局部社团划分时的阈值P，若取值过大，则可能将本该属于某社团的节点划分不到该社团或所挖掘到的社团结构大部分是由单个节点所组成的。通过实验验证，P的取值范围在0.10～0.20时局部社团划分结果较好。

具体地，Q的取值范围为0.45～0.55。对于合并局部社团时的阈值Q，若取值过小，则可能将本不该合并的社团进行了错误的合并；若取值过大，则可能将本该属于同一社团的节点划分到不同的社团中。通过实验验证，Q的取值范围在0.45～0.55时网络社团划分效果较好。

采用上述技术方案所产生的有益效果在于：本发明方法通过初步划分局部社团和合并相似局部社团等两大部分实现对网络社团结构的挖掘，具有挖掘方法简单、挖掘速度快的特点，与经典的谱聚类等方法相比具有更高的性能，为局部社团挖掘工作提供了一种全新方法。

附图说明

图1是本发明实施例中的Zachary空手道俱乐部网络；

图2是本发明实施例中的美国大学生足球联赛网络；

图3是本发明实施例的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。以下实施例只是本发明方法的一种具体实现，不能视作对本专利保护范围的限制，尤其不能限制本发明方法各步骤的具体执行顺序。

实施例一：

本实施例以Zachary空手道俱乐部网络G1为例，该网络含有34个节点和78条边，它们分别代表俱乐部中成员和成员间的社会关系。在观察期间，俱乐部主管和校长对是否需要提高收费标准的问题意见相左，于是俱乐部分成了两个小俱乐部，主管和校长分别是这两个小俱乐部的核心人物，该网络的实际社团结构如附图1所示。圆圈节点表示以主管为核心的社团，方形表示以校长为核心的社团。下面使用本发明方法对网络G1进行划分。评价社团划分效果好坏的主要依据是聚类准确率（简称CA）指标和RandIndex（简称RI）指标。

首先定义本实施例使用的若干概念：

定义1：度中心性

度中心性强调节点对网络的直接影响，节点自身的连接总数体现了个体对网络的影响。节点的度中心性越大，则该节点的重要性就越大。如果一个节点的度中心性指标得分大于其邻居节点的指标得分，则称该节点为局部社团的核心节点。节点度中心性的计算表达式为：

，

其中表示节点的度，为整个网络中的节点总数。

定义2：节点相似度

节点相似度是用来描述两个个体之间紧密程度的量，一般情况下，相似度越高，两个个体属于同一社团的可能性就越大。本发明使用Jaccard相似系数来衡量个体间的相似度：

，

定义3：社团相似度

社团相似度是用来描述两个社团之间紧密程度的量，通常来自节点相似度度量。本发明通过计算两个社团间的任意一对节点的相似度，将所得到的最大相似度定义为社团相似度，其计算方法如下：

其中表示社团与社团的社团相似度，表示节点和节点的Jaccard相似系数，节点为社团中的任一节点，节点为社团中的任一节点。

定义4：聚类准确率（简称CA）指标

聚类准确率是指被正确划分的节点数占总节点数的比例，计算表达式为：

，

其中表示被正确划分到第个社团的节点数，为整个网络中的节点总数，为社团总数。

定义5：RandIndex（简称RI）指标

RI用于衡量划分结果所得社团中节点与实际社团中节点的一致性，计算表达式为：

，

其中表示网络任意节点对中，属于不同实际社团，同时被划分到不同社团中的节点对个数；表示网络任意节点对中，属于同一社团，同时被划分到相同社团的节点对个数，为整个网络的节点总数。

本实施例包含初步划分局部社团和合并相似局部社团两个阶段，本例中，将P取0.10，Q取0.50。

(一)初步划分局部社团

根据度中心性评价指标公式计算网络G1中各个节点的评价指标，经计算网络G1中各节点的度中心性评价指标得分如下表1所示：

ID	度中心性评价指标得分
		1	0.4848
2	0.2727
		3	0.3030
4	0.1818
		5	0.0909
6	0.1212
		7	0.1212
8	0.1212
		9	0.1515
10	0.0606
		11	0.0909
12	0.0303
		13	0.0606
14	0.1515
		15	0.0606
16	0.0606
		17	0.0606
18	0.06065 -->
		19	0.0606
20	0.0909
		21	0.0606
22	0.0606
		23	0.0606
24	0.1515
		25	0.0909
26	0.0909
		27	0.0606
28	0.1212
		29	0.0909
30	0.1212
		31	0.1212
32	0.1818
		33	0.3636
34	0.5151

表1。

从表1中选取度中心性评价指标值最大的节点作为首个核心节点，即节点34，将节点34放入第一个局部社团中。然后找出节点34的所有邻居节点，组成节点34的邻居节点集合，，根据节点相似度公式计算节点34与集合内各节点的节点相似度，若其不小于0.10，则将该邻居节点加入节点34所在的局部社团中，同时从集合中删除该邻居节点，否则，直接从集合中删除该邻居节点，直至为空。最终得到局部社团，将局部社团加入局部社团集合中，同时将局部社团中的节点从网络G1中删除。

对网络G1中的剩余节点重复上述过程，即从G1的剩余节点中继续选取度中心性评价指标值最大的节点作为新的核心节点，并由该新的核心节点形成另一个局部社团，将该局部社团加入集合中，同时将该局部社团中的节点从网络G1中删除。如此重复操作，直至网络G1中没有剩余节点，最终得到的局部社团集合为

S={

{9,24,27,28,30,31,33,34},

{1,2,3,4,5,6,7,8,11,13,14,17,18,22},

{25,26,29,32},

{20},

{10},

{15},

{16},

{19},

{21},

{23},

{12}

}。

（二）合并相似局部社团

将中的第个元素记为，从局部社团集合中选取第一个局部社团，比较和的社团相似度，两者的社团相似度小于阈值0.50，故保持和不变；继续将与比较，两者的社团相似度不小于阈值0.50，故将与合并形成新的，同时将删去；继续将新的与剩余局部社团进行比较，可得、保持不变，而、、、、、则相继并入中，至此，得到的局部社团为：

，

将、、和组成新的集合。

接着将依次与中的其他局部社团进行比较，并用吞并与其社团相似度小于0.50的局部社团。比较结果为相继吞并和，至此得到两个局部社团：

，

。

通过比较可知和的社团相似度小于0.50，将这两个元素重新组成集合，

U={

{9,10,15,16,19,21,23,24,25,26,27,28,29,30,31,32,33,34},

{1,2,3,4,5,6,7,8,11,12,13,14,17,18,20,22}

}，

即为最终挖掘出的社团结构。整个计算流程如图3所示。

通过挖掘结果可见，本发明方法得到的社团结构与实际情况完全一致；即使P和Q在各自范围内取其他数值，所得结果也具有较好的CA和RI指标。

本例与谱聚类（Laplace、Normal）方法、FN方法、GN方法等相比，不仅具有更低的时间复杂度，而且具有更高的挖掘质量。在聚类准确率CA方面，本实施例比谱聚类方法、FN方法、GN方法等提高了3.03%左右；在RI方面，本实施例比谱聚类方法、FN方法、GN方法等提高了6.25%左右。

实施例二：

本实施例针对美国大学生足球联赛网络G2进行社团挖掘，该网络含有115个节点和613条边，它们分别代表由学校名字命名的足球队和球队之间的规则季度赛。这些足球队被分成12个联盟，每个联盟包含5到13个足球队，同一个联盟中的球队比赛比不同联盟的球队比赛更频繁。实际联盟划分如附图2所示，从上到下从左到右社团编号依次为：1，2，3，…，12。下面使用本发明方法对网络G2进行划分。评价社团划分效果好坏的主要依据仍为CA指标和RI指标，划分过程与实施例一类同。阈值P、Q取不同值时，得到划分结果如下：

（1）当P=0.10，Q=0.45、0.5或0.55时，CA和RI的值均为CA=0.7565，RI=0.9205。最终挖掘出的社团结构U为：

U={

{2,26,34,38,46,90,104,106,110},

{3,7,14,16,33,40,48,61,65,101,107},

{4,6,11,41,53,73,75,82,85,99,103,108},

{8,9,12,22,23,25,29,51,52,69,70,78,79,91,109,112},

{47,50,54,68,74,84,89,111,115},

{18,21,28,57,63,66,71,77,88,96,97,114,},

{13,15,19,27,32,35,37,39,43,44,55,62,72,86,100},

{1,5,10,17,20,24,30,31,36,42,45,49,56,58,67,76,80,81,83,87,92,93,94,95,102,105,113},

{59,60,64,98}

}；

（2）当P=0.15，Q=0.45、0.5或0.55时，CA和RI的值均为CA=0.7652，RI=0.9497。最终挖掘出的社团结构U为：

U={

{1,5,10,17,24,42,94,105},

{2,26,34,38,46,90,104,106,110},

{3,7,14,16,33,40,48,61,65,101,107},

{4,6,11,41,53,73,75,82,85,99,103,108},

{8,9,22,23,52,69,78,79,109,112},

{47,50,54,68,74,84,89,111,115},

{18,21,28,57,63,66,71,77,88,96,97,114},

{13,15,19,27,32,35,39,44,55,62,72,86,100},

{20,30,31,36,45,49,56,58,67,76,80,81,83,87,92,93,95,102,113},

{12,25,29,51,70,91},

{59,60},

{64,98},

{43},

{37}

}；

（3）当P=0.20，Q=0.45、0.5或0.55时，CA和RI的值均为CA=0.8348，RI=0.9628。最终挖掘出的社团结构U为：

U={

{1,5,10,17,24,42,94,105},

{2,26,34,38,46,90,104,106,110},

{3,7,14,16,33,40,48,61,65,101,107},

{4,6,11,41,53,73,75,82,85,99,103,108},

{8,9,22,23,52,69,78,79,109,112},

{47,50,54,68,74,84,89,111,115},

{18,21,28,57,63,66,71,77,88,96,97,114},

{13,15,19,27,32,35,39,44,55,62,72,86,100},

{20,30,31,36,56,80,81,95,102},

{45,49,58,67,76,87,92,93,113},

{12,25,29,51,70,91},

{59,60},

{64,98},

{83},

{43},

{37}

}。

通过挖掘结果可见，当P和Q在各自范围内取值时，本发明方法得到的社团结构均具有较好的CA和RI指标。

本实施例与谱聚类（Laplace、Normal）方法、FN方法等方法相比，不仅具有更低的时间复杂度，而且具有更高的挖掘质量，优势明显。作为对比，使用Laplace、Normal、FN三种方法对本例中的G2网络进行划分，得到它们的性能指标如下表2所示：

方法	CA	RI
			Laplace方法	0.2174	0.5616
Normal方法	0.2957	0.0218
			FN方法	0.6522	0.9018

表2。

可见，与Laplace、Normal、FN三种方法相比，本实施例方法在CA指标和RI指标方面均有明显提高。

总之，本发明提供了一种局部社团挖掘方法，该方法具有挖掘方法简单、挖掘速度快的特点，并且通过采用适当的节点重要性评价指标、相似性测度以及阈值P和Q能够得出较高质量的挖掘结果，从而为局部社团挖掘工作提供了一种新方法。

需要指出的是，以上具体实施方式只是本专利实现方案的较佳个例，没有也不可能覆盖本专利的所有实现方式，因此不能视作对本专利保护范围的限定；凡是与以上案例属于相同构思的实现方案，均在本专利的保护范围之内。

Claims

1.一种局部社团挖掘方法，该方法从网络G中挖掘社团结构，其特征在于：递归地从网络G中划分出局部社团，直至网络G中的任一节点均被划入某一局部社团；每一个局部社团由当次核心节点和当次邻居节点组成，所述当次核心节点为当次剩余节点中重要性评价指标得分最大的节点，所述当次剩余节点为当次划分前网络G中未被划入任何一个局部社团的节点，所述当次邻居节点是指当次剩余节点中与当次核心节点的节点相似度不小于阈值P的该当次核心节点的邻居节点；

对划分出的局部社团进行合并，直至网络G中任两个局部社团的社团相似度均小于阈值Q，至此即得网络G的社团结构；所述社团相似度是指从两个指定社团中各取一个节点相比较所能得到的最大节点相似度。

2.根据权利要求１所述的局部社团挖掘方法，其特征在于：所述重要性评价指标为度中心性指标，其计算方法如下：

，

3.根据权利要求１所述的局部社团挖掘方法，其特征在于：所述节点相似度为Jaccard相似系数，其计算方法如下：

，

4.根据权利要求１所述的局部社团挖掘方法，其特征在于：所述合并局部社团的具体方式为：

任取一局部社团，将其与网络G中的其他局部社团依次比较，并吞并与其社团相似度不小于阈值Q的局部社团；重复该过程直至网络G中任两个局部社团的社团相似度均小于阈值Q。

5.根据权利要求１所述的局部社团挖掘方法，其特征在于：所述阈值P的取值范围为0.10～0.20。

6.根据权利要求１所述的局部社团挖掘方法，其特征在于：所述阈值Q的取值范围为0.45～0.55。