CN108920890A

CN108920890A - 一种复杂网络中结构洞Spanner的挖掘方法

Info

Publication number: CN108920890A
Application number: CN201810705185.4A
Authority: CN
Inventors: 许云峰; 张妍
Original assignee: Hebei University of Science and Technology
Current assignee: Hebei University of Science and Technology
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-11-30

Abstract

本发明公开了一种复杂网络中结构洞Spanner的挖掘方法，包括以下步骤：第一步，计算网络中所有边的骨干度，然后按照降序排序；第二步，选择骨干度最大的边作为一个社区的初始骨干，然后选择与当前社区联系最紧密的节点加入社区，计算这个社区的膨胀度，如果膨胀度变小，则将这个节点计入社区，如果膨胀度变大，则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合，继续如下操作，直到社区的邻居节点全部分拣完毕；第三步，在骨干度列表中选择一个未被使用的骨干度最大的边，并且这条边中不能包含已划入社区的节点，重复第二步，直到网络中所有的节点全部被分拣完毕；第四步，将属于多个社区的重叠节点也放入结构洞Spanner集合；第五步，根据影响力度量对结构洞Spanner集合中的节点进行排序。本发明还公开了一种结构洞Spanner的影响力度量。

Description

一种复杂网络中结构洞Spanner的挖掘方法

技术领域

本发明涉及计算机应用复杂网络分析领域，具体是一种基于社区森林模型和边际效应递减原理的结构洞spanner挖掘方法。

背景技术

结构洞概念最早是由美国社会学家S.Burt 提出，其是指两个联系人或者社区之间的非冗余关系，那些填补了这些关系的节点称之为结构洞Spanner。结构洞Spanner在信息传播、社区发现、传染病和谣言传播、链接预测和病毒营销等领域扮演重要角色。结构洞Spanner的挖掘具有重要研究价值。本方法需要用到几个重要定义，下面将其形式化表述如下。

给定一个有|V|个顶点和|E|条边的无向图G(V,E)，n＝|V|，m＝|E|。用C表示社区中的一组顶点，C_n是C的顶点数，C_n＝|C|。E_C＝{(u，v)∈E：u∈C，v∈C}，C_m是C中边的数目，C_m＝|E_C|。|C_BE|是C边缘的边的数量。d_u表示顶点u 的度，NB_u表示顶点u相邻的一组顶点的集合。NB_C表示社区C的邻域点集。

定义1(网络权重)把顶点v的标识记为i，图G中任意顶点的网络权重可以记为x_j。我们能用NV_v来表示v的网络权重。

其中A_ij是G中节点间关系的邻接矩阵。网络权重根据HIT算法的定义(Kleinberg等在1999 年提出)，但是HITS算法中，网络权重需要大量的计算，为了节省计算量和计算时间，顶点的相对权重可以被认为是则

定义2(社区膨胀度)这个指标度量一个社区对外扩张的程度，该度量是Kannan和Vempala 等在2000年提出的。

定义3(社区膨胀度差异)在加入一个新的顶点i之后，社区C的膨胀度的改变。

DE（i)＝Ex_C∩{i}-EX_C

定义4(顶点i属于社区C的概率)。

定义5(邻里互惠度)给定两个顶点u和v，用NB_u表示和顶点u相邻的顶点的集合，用NB_v表示和顶点v相邻的顶点的集合，用NO_uv表示顶点u和顶点v的邻里互惠度。

定义6(骨干)一个骨干由一条边和两个连接到该边的顶点组成，如果一个骨干两端的顶点一个在当前社区内部，另一个在当前社区外部，那么我们把当前社区内部的那个顶点命名为内部顶点，当前社区外面的这个顶点命名为外部顶点。

定义7(骨干度)顶点u和顶点v之间的这条边的骨干度为：

D_uv＝(NW_u+NW_v)×NO_uv+δ

D_uv可以测量边的强度和节点相似度。当顶点u和顶点v不相邻的时候NO_uv＝0， D_uv＝δ，δ是平滑常数的参数，基于经验我们让δ＝0.01。

定义8(社区C的最大骨干度)让CD_max表示社区C的最大骨干度，CD_max所表示的骨干即为社区C的核心骨干。CD_max＝max{D_uv，u∈C，v∈C}

定义9结构洞Spanner节点v的影响力。如果结构洞Spanner节点v桥接了m个社区C₁…C_m,那么其中NB_V是节点v的邻居节点集合。

社区森林模型：该模型是由河北科技大学许云峰最早提出。社交网络和森林在形态上具有相似的特征和结构。社区被定义为内部的连接比其外部网络更密集的网络的子集，这是很多研究者的普遍定义，许云峰等根据社区森林模型给出了社区的新定义。社交网络中的社区通常由核心顶点、核心骨干和边缘顶点组成，它们的形态和结构和森林里的树木、灌木和草相似。社交网络中的社区之间，有的有关系，有的没有关系，这些特点就像森林中的树、灌木和草一样。社交网络中的大型社区可以派生出新的小社区，此功能就像是森林中的树木、灌木和草一样。在社交网络和森林之间，还有很多这样的相似之处。因此将社区比作森林中的树木、灌木和草，而将森林比作整个网络。对整个社区的分析就可以比作在森林中区分出树木、灌木和草，并搞清这些树木、灌木和草之间的关系。在本算法中，要找到跨越多个社区的结构洞Spanner，首先要借助社区森林模型对整个网络进行分析。

基于社区森林模型定义的社区概念：社区是按照如下过程形成的一组节点的集合：从核心骨干开始，依次加入其邻居节点中与核心社区连接最紧密的（根据最大骨干度或者最多边连接当前社区），并且不能造成社区的膨胀度变大的节点，直到邻居节点集合中不再有符合条件的节点。

社区的边际效应递减规律：根据社区森林模型中关于社区的定义，社区从核心骨干向外扩张，随着节点的加入(节点的加入遵循最大骨干度或者最多边连接当前社区的原则)，膨胀度逐渐变小，这符合边际效应递减规律，即随着社区的增大，对外扩张的能力逐渐变小。该社区定义符合社区扩张的普遍规律，即社区的边际效应递减规律，但是总有一些例外，例如社区内部某些节点刻意的进行突破边际效应递减规律的扩张，刻意链接一个造成整个社区的膨胀度突然变大的节点时，即加入一个与其他社区紧密链接的节点，造成了膨胀度的突然跃变。而在这种情况下，就会形成结构洞Spanner。这种刻意的扩张行为普遍存在于社交网络、生物信息网络中。

说明书附图说明：图1为加入符合社区森林模型对于社区的定义的节点时膨胀度的变化,图2为加入所有与社区紧密相连的邻居节点时膨胀度的变化。

社区的边际效应递减规律在标准数据集Karate Club中的体现。如说明书附图中图1 所示，Karate Club社交网络分为2个社区，社区0和社区1，该图仅显示加入符合社区森林模型对于社区的定义的节点时膨胀度的变化。说明书附图中图2显示了所有与核心社区联系紧密的节点加入社区后的膨胀度的变化，通过该图我们发现有些与核心社区紧密相连的节点会造成社区膨胀度的异常变化，既不符合社区森林模型对社区的定义，也不符合边际效应递减规律。这些节点就是结构洞Spanner。

发明内容

该方法主要包括五步：第一步，计算网络中所有边的骨干度，然后按照降序排序。第二步，选择骨干度最大的边作为一个社区的初始骨干，然后选择与当前社区联系最紧密的节点加入社区，计算这个社区的膨胀度，如果膨胀度变小，则将这个节点计入社区，如果膨胀度变大，则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合，继续如下操作，直到社区的符合条件的邻居节点全部分拣完毕。第三步，在骨干度列表中选择一个未被使用的骨干度最大的边，并且这条边中不能包含已划入社区的节点，重复第二步，直到网络中所有的节点全部被分拣完毕。第四步，将属于多个社区的重叠节点也放入结构洞Spanner集合。第五步，根据影响力度量（定义9）对结构洞Spanner集合中的节点进行排序。

下面以Karate Club数据集为例，演示挖掘结构洞Spanner的算法。

第一步，按照定义8的公式，计算Karate Club网络中所有边的骨干度，然后按照降序排序，如表1所示。表1中的每一行代表一条边，第一列是边的一个节点，第二列是边的另外一个节点，第三列是这条边的骨干度。

第二步，在表1中选择最大的边（34,33）作为第一个社区的初始骨干，然后选择与当前社区联系最紧密的节点加入社区（紧密程度根据节点与社区相连的边数多少或者连接边的骨干度和来确定，边数越多或者连接边的骨干度和越大，代表紧密度越大），计算这个社区的膨胀度，如果膨胀度变小，则将这个节点计入社区，如果膨胀度变大，则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合，继续如下操作，直到社区的邻居节点全部分拣完毕。表2是Karate Club中寻找结构洞Spanner的流程，我们可以看到随着节点的加入，社区的膨胀度逐渐变小，但是3、1、2、14、20节点导致了社区的膨胀度变化趋势发生改变，因而这些节点就是结构洞Spanner。表2是寻找结构洞Spanner的流程，第一列是节点号，第二列是加入当前节点后当前社区的膨胀度，第三列是社区ID，第四列是当前节点加入当前社区的顺序编号。

第三步，在骨干度列表1中选择一个未被使用的骨干度最大的边，并且这条边中不能包含已划入社区的节点，这条边就是（2,1），重复第二步，直到网络中所有的节点全部被分拣完毕。在表2中我们看到33,34,28,29,32节点导致了社区的膨胀度变化趋势发生改变，因而这些节点就是结构洞Spanner。

第四步，将属于多个社区的重叠节点9,31,10放入结构洞Spanner集合。

第五步，根据影响力度量（定义9）对结构洞Spanner集合中的节点进行从高到低排序，排序结果如表3所示，第一列是节点，第二列是根据定义9计算出的节点的影响力。

表1 Karate Club的骨干度列表

节点ID1	节点ID2	骨干度
			34	33	1.013460208
2	1	0.653382353
			4	1	0.441372549
3	1	0.41247678
			4	2	0.402156863
4	3	0.386470588
			8	4	0.362941176
3	2	0.353891403
			14	4	0.333529412
8	2	0.296764706
			8	3	0.284509804
14	2	0.284509804
			14	3	0.274705882
33	9	0.26
			7	6	0.245294118
8	1	0.245294118
			14	1	0.241617647
34	30	0.241617647
			34	24	0.238373702
30	24	0.221764706
			31	9	0.221764706
9	3	0.170427807
			33	30	0.166862745
33	31	0.166862745
			33	24	0.163846154
5	1	0.159019608
			11	1	0.159019608
6	1	0.157058824
			7	1	0.157058824
34	31	0.15532872
			34	9	0.15379085
34	32	0.152414861
			17	6	0.127647059
17	7	0.127647059
			30	27	0.127647059
11	5	0.127647059
			26	25	0.127647059
7	5	0.112941176
			11	6	0.112941176
13	4	0.104117647
			28	24	0.098235294
32	25	0.098235294
			32	26	0.098235294
32	29	0.098235294
			18	2	0.090882353
22	2	0.090882353
			20	2	0.088431373
33	15	0.08486631
			33	16	0.08486631
33	19	0.08486631
			33	21	0.08486631
33	23	0.08486631
			13	1	0.080588235
18	1	0.080588235
			22	1	0.080588235
33	32	0.080588235
			20	1	0.079852941
34	15	0.079852941
			34	16	0.079852941
34	19	0.079852941
			34	21	0.079852941
34	23	0.079852941
			34	27	0.079852941
34	29	0.079204152
			9	1	0.078627451
34	28	0.078627451
			33	3	0.078111455
10	3	0.01
			12	1	0.01
26	24	0.01
			28	3	0.01
28	25	0.01
			29	3	0.01
31	2	0.01
			32	1	0.01
34	10	0.01
			34	14	0.01
34	20	0.01

表2 寻找结构洞Spanner的流程

Vertex ID	Current Expansion	Community ID	Joining order
				34	13.5	0	1
33	13.5	0	1
				9	9.333	0	2
31	6.5	0	3
				30	5.2	0	4
24	4.166	0	5
				3（Exception）	4.429	0
32	3.857	0	6
				27	3.125	0	7
29	2.666	0	8
				28	2.4	0	9
23	2	0	10
				15	1.666	0	11
16	1.384	0	12
				19	1.143	0	13
21	0.933	0	14
				25	0.8125	0	15
26	0.588	0	16
				1（Exception）	1.22	0
2（Exception）	0.944	0
				14（Exception）	0.722222222	0
20（Exception）	0.611111111	0
				10	0.555	0	17
2	11.5	1	1
				1	11.5	1	1
4	8.333	1	2
				3	7.25	1	3
8	5	1	4
				14	3.666	1	5
9	3.286	1	6
				33（Exception）	3.875	1
31	2.875	1	7
				34（Exception）	3.777777778	1
13	2.333	1	8
				22	1.9	1	9
18	1.545	1	10
				20	1.333	1	11
11	1.307	1	12
				6	1.214	1	13
7	1.067	1	14
				17	0.875	1	15
5	0.706	1	16
				12	0.611	1	17
28（Exception）	0.684	1
				29（Exception）	0.631	1
32（Exception）	0.789	1
				10	0.579	1	18

表3 影响力排序

节点ID	影响力
		10	342
20	228
		29	228
28	171
		31	171
14	136.8
		9	136.8
32	114
		2	76
3	68.4
		33	57
1	42.75
		34	40.23529412

Claims

1.一种复杂网络中结构洞spanner的挖掘方法，其特征在于，包括以下步骤：

第一步，计算网络中所有边的骨干度，然后按照降序排序；第二步，选择骨干度最大的边作为一个社区的初始骨干，然后选择与当前社区联系最紧密的节点加入社区，计算这个社区的膨胀度，如果膨胀度变小，则将这个节点计入社区，如果膨胀度变大，则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合，继续如下操作，直到社区的邻居节点全部分拣完毕；第三步，在骨干度列表中选择一个未被使用的骨干度最大的边，并且这条边中不能包含已划入社区的节点，重复第二步，直到网络中所有的节点全部被分拣完毕；第四步，将属于多个社区的重叠节点也放入结构洞Spanner集合；第五步，根据影响力度量对结构洞Spanner集合中的节点进行排序。

2.本发明的特征还包括：通过边际效应递减规律，来确定结构洞Spanner，结构洞Spanner 是社区的边际效应递减规律的异常，造成社区的膨胀度变化趋势发生改变，根据这个特征来确定结构洞Spanner。

3.对结构洞Spanner集合中的节点进行排序，其特征为：基于结构洞Spanner影响力度量(说明书中的定义9)进行排序。