CN108920890A - 一种复杂网络中结构洞Spanner的挖掘方法 - Google Patents

一种复杂网络中结构洞Spanner的挖掘方法 Download PDF

Info

Publication number
CN108920890A
CN108920890A CN201810705185.4A CN201810705185A CN108920890A CN 108920890 A CN108920890 A CN 108920890A CN 201810705185 A CN201810705185 A CN 201810705185A CN 108920890 A CN108920890 A CN 108920890A
Authority
CN
China
Prior art keywords
community
node
structural hole
hole spanner
backbone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810705185.4A
Other languages
English (en)
Inventor
许云峰
张妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Science and Technology
Original Assignee
Hebei University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Science and Technology filed Critical Hebei University of Science and Technology
Priority to CN201810705185.4A priority Critical patent/CN108920890A/zh
Publication of CN108920890A publication Critical patent/CN108920890A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种复杂网络中结构洞Spanner的挖掘方法,包括以下步骤:第一步,计算网络中所有边的骨干度,然后按照降序排序;第二步,选择骨干度最大的边作为一个社区的初始骨干,然后选择与当前社区联系最紧密的节点加入社区,计算这个社区的膨胀度,如果膨胀度变小,则将这个节点计入社区,如果膨胀度变大,则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合,继续如下操作,直到社区的邻居节点全部分拣完毕;第三步,在骨干度列表中选择一个未被使用的骨干度最大的边,并且这条边中不能包含已划入社区的节点,重复第二步,直到网络中所有的节点全部被分拣完毕;第四步,将属于多个社区的重叠节点也放入结构洞Spanner集合;第五步,根据影响力度量对结构洞Spanner集合中的节点进行排序。本发明还公开了一种结构洞Spanner的影响力度量。

Description

一种复杂网络中结构洞Spanner的挖掘方法
技术领域
本发明涉及计算机应用复杂网络分析领域,具体是一种基于社区森林模型和边际效应递减原理的结构洞spanner挖掘方法。
背景技术
结构洞概念最早是由美国社会学家S.Burt 提出,其是指两个联系人或者社区之间的非冗余关系,那些填补了这些关系的节点称之为结构洞Spanner。结构洞Spanner在信息传播、社区发现、传染病和谣言传播、链接预测和病毒营销等领域扮演重要角色。结构洞Spanner的挖掘具有重要研究价值。本方法需要用到几个重要定义,下面将其形式化表述如下。
给定一个有|V|个顶点和|E|条边的无向图G(V,E),n=|V|,m=|E|。用C表示社区中的一 组顶点,Cn是C的顶点数,Cn=|C|。EC={(u,v)∈E:u∈C,v∈C},Cm是C中边的数 目,Cm=|EC|。|CBE|是C边缘的边的数量。du表示顶点u 的度,NBu表示顶点u相邻的一组顶点的集合。NBC表示社区C的邻域点集。
定义1(网络权重)把顶点v的标识记为i,图G中任意顶点的网络权重可以记为xj。 我们能用NVv来表示v的网络权重。
其中Aij是G中节点间关系的邻接矩阵。网络权重根据HIT算法的定义(Kleinberg等在1999 年提出),但是HITS算法中,网络权重需要大量的计算,为了节省计算量和计算时间,顶点 的相对权重可以被认为是
定义2(社区膨胀度)这个指标度量一个社区对外扩张的程度,该度量是Kannan和Vempala 等在2000年提出的。
定义3(社区膨胀度差异)在加入一个新的顶点i之后,社区C的膨胀度的改变。
DE(i)=ExC∩{i}-EXC
定义4(顶点i属于社区C的概率)。
定义5(邻里互惠度)给定两个顶点u和v,用NBu表示和顶点u相邻的顶点的集合,用NBv表示和顶点v相邻的顶点的集合,用NOuv表示顶点u和顶点v的邻里互惠度。
定义6(骨干)一个骨干由一条边和两个连接到该边的顶点组成,如果一个骨干两端的顶点 一个在当前社区内部,另一个在当前社区外部,那么我们把当前社区内部的那个顶点命名为 内部顶点,当前社区外面的这个顶点命名为外部顶点。
定义7(骨干度)顶点u和顶点v之间的这条边的骨干度为:
Duv=(NWu+NWv)×NOuv
Duv可以测量边的强度和节点相似度。当顶点u和顶点v不相邻的时候NOuv=0, Duv=δ,δ是平滑常数的参数,基于经验我们让δ=0.01。
定义8(社区C的最大骨干度)让CDmax表示社区C的最大骨干度,CDmax所表示的 骨干即为社区C的核心骨干。CDmax=max{Duv,u∈C,v∈C}
定义9结构洞Spanner节点v的影响力。如果结构洞Spanner节点v桥接了m个社区C1…Cm,那么其中NBV是节点v的邻居节点集合。
社区森林模型:该模型是由河北科技大学许云峰最早提出。社交网络和森林在形态上具有相 似的特征和结构。社区被定义为内部的连接比其外部网络更密集的网络的子集,这是很多研 究者的普遍定义,许云峰等根据社区森林模型给出了社区的新定义。社交网络中的社区通常 由核心顶点、核心骨干和边缘顶点组成,它们的形态和结构和森林里的树木、灌木和草相似。 社交网络中的社区之间,有的有关系,有的没有关系,这些特点就像森林中的树、灌木和草 一样。社交网络中的大型社区可以派生出新的小社区,此功能就像是森林中的树木、灌木和 草一样。在社交网络和森林之间,还有很多这样的相似之处。因此将社区比作森林中的树木、 灌木和草,而将森林比作整个网络。对整个社区的分析就可以比作在森林中区分出树木、灌 木和草,并搞清这些树木、灌木和草之间的关系。在本算法中,要找到跨越多个社区的结构 洞Spanner,首先要借助社区森林模型对整个网络进行分析。
基于社区森林模型定义的社区概念:社区是按照如下过程形成的一组节点的集合:从核心骨干开始,依次加入其邻居节点中与核心社区连接最紧密的(根据最大骨干度或者最多边连接当前社区),并且不能造成社区的膨胀度变大的节点,直到邻居节点集合中不再有符合条件的节点。
社区的边际效应递减规律:根据社区森林模型中关于社区的定义,社区从核心骨干 向外扩张,随着节点的加入(节点的加入遵循最大骨干度或者最多边连接当前社区的原则), 膨胀度逐渐变小,这符合边际效应递减规律,即随着社区的增大,对外扩张的能力逐渐变小。 该社区定义符合社区扩张的普遍规律,即社区的边际效应递减规律,但是总有一些例外,例 如社区内部某些节点刻意的进行突破边际效应递减规律的扩张,刻意链接一个造成整个社区 的膨胀度突然变大的节点时,即加入一个与其他社区紧密链接的节点,造成了膨胀度的突然 跃变。而在这种情况下,就会形成结构洞Spanner。这种刻意的扩张行为普遍存在于社交网 络、生物信息网络中。
说明书附图说明:图1为加入符合社区森林模型对于社区的定义的节点时膨胀度的变 化,图2为加入所有与社区紧密相连的邻居节点时膨胀度的变化。
社区的边际效应递减规律在标准数据集Karate Club中的体现。如说明书附图中图1 所示,Karate Club社交网络分为2个社区,社区0和社区1,该图仅显示加入符合社区森林 模型对于社区的定义的节点时膨胀度的变化。说明书附图中图2显示了所有与核心社区联系 紧密的节点加入社区后的膨胀度的变化,通过该图我们发现有些与核心社区紧密相连的节点 会造成社区膨胀度的异常变化,既不符合社区森林模型对社区的定义,也不符合边际效应递 减规律。这些节点就是结构洞Spanner。
发明内容
该方法主要包括五步:第一步,计算网络中所有边的骨干度,然后按照降序排序。第二步,选择骨干度最大的边作为一个社区的初始骨干,然后选择与当前社区联系最紧密的节点加入社区,计算这个社区的膨胀度,如果膨胀度变小,则将这个节点计入社区,如果膨胀度变大,则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合,继续如下操作,直到社区的符合条件的邻居节点全部分拣完毕。第三步,在骨干度列表中选择一个未被使用的骨干度最大的边,并且这条边中不能包含已划入社区的节点,重复第二步,直到网络中所有的节点全部被分拣完毕。第四步,将属于多个社区的重叠节点也放入结构洞Spanner集合。第五步,根据影响力度量(定义9)对结构洞Spanner集合中的节点进行排序。
下面以Karate Club数据集为例,演示挖掘结构洞Spanner的算法。
第一步,按照定义8的公式,计算Karate Club网络中所有边的骨干度,然后按照降序排序,如表1所示。表1中的每一行代表一条边,第一列是边的一个节点,第二列是边的另外一个节点,第三列是这条边的骨干度。
第二步,在表1中选择最大的边(34,33)作为第一个社区的初始骨干,然后选择与当前社区联系最紧密的节点加入社区(紧密程度根据节点与社区相连的边数多少或者连接边的骨干度和来确定,边数越多或者连接边的骨干度和越大,代表紧密度越大),计算这个社区的膨胀度,如果膨胀度变小,则将这个节点计入社区,如果膨胀度变大,则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合,继续如下操作,直到社区的邻居节点全部分拣完毕。表2是Karate Club中寻找结构洞Spanner的流程,我们可以看到随着节点的加入,社区的膨胀度逐渐变小,但是3、1、2、14、20节点导致了社区的膨胀度变化趋势发生改变,因而这些节点就是结构洞Spanner。表2是寻找结构洞Spanner的流程,第一列是节点号,第二列是加入当前节点后当前社区的膨胀度,第三列是社区ID,第四列是当前节点加入当前社区的顺序编号。
第三步,在骨干度列表1中选择一个未被使用的骨干度最大的边,并且这条边中不能包含已划入社区的节点,这条边就是(2,1),重复第二步,直到网络中所有的节点全部被分拣完毕。在表2中我们看到33,34,28,29,32节点导致了社区的膨胀度变化趋势发生改变,因而这些节点就是结构洞Spanner。
第四步,将属于多个社区的重叠节点9,31,10放入结构洞Spanner集合。
第五步,根据影响力度量(定义9)对结构洞Spanner集合中的节点进行从高到低排序,排序结果如表3所示,第一列是节点,第二列是根据定义9计算出的节点的影响力。
表1 Karate Club的骨干度列表
节点ID1 节点ID2 骨干度
34 33 1.013460208
2 1 0.653382353
4 1 0.441372549
3 1 0.41247678
4 2 0.402156863
4 3 0.386470588
8 4 0.362941176
3 2 0.353891403
14 4 0.333529412
8 2 0.296764706
8 3 0.284509804
14 2 0.284509804
14 3 0.274705882
33 9 0.26
7 6 0.245294118
8 1 0.245294118
14 1 0.241617647
34 30 0.241617647
34 24 0.238373702
30 24 0.221764706
31 9 0.221764706
9 3 0.170427807
33 30 0.166862745
33 31 0.166862745
33 24 0.163846154
5 1 0.159019608
11 1 0.159019608
6 1 0.157058824
7 1 0.157058824
34 31 0.15532872
34 9 0.15379085
34 32 0.152414861
17 6 0.127647059
17 7 0.127647059
30 27 0.127647059
11 5 0.127647059
26 25 0.127647059
7 5 0.112941176
11 6 0.112941176
13 4 0.104117647
28 24 0.098235294
32 25 0.098235294
32 26 0.098235294
32 29 0.098235294
18 2 0.090882353
22 2 0.090882353
20 2 0.088431373
33 15 0.08486631
33 16 0.08486631
33 19 0.08486631
33 21 0.08486631
33 23 0.08486631
13 1 0.080588235
18 1 0.080588235
22 1 0.080588235
33 32 0.080588235
20 1 0.079852941
34 15 0.079852941
34 16 0.079852941
34 19 0.079852941
34 21 0.079852941
34 23 0.079852941
34 27 0.079852941
34 29 0.079204152
9 1 0.078627451
34 28 0.078627451
33 3 0.078111455
10 3 0.01
12 1 0.01
26 24 0.01
28 3 0.01
28 25 0.01
29 3 0.01
31 2 0.01
32 1 0.01
34 10 0.01
34 14 0.01
34 20 0.01
表2 寻找结构洞Spanner的流程
Vertex ID Current Expansion Community ID Joining order
34 13.5 0 1
33 13.5 0 1
9 9.333 0 2
31 6.5 0 3
30 5.2 0 4
24 4.166 0 5
3(Exception) 4.429 0
32 3.857 0 6
27 3.125 0 7
29 2.666 0 8
28 2.4 0 9
23 2 0 10
15 1.666 0 11
16 1.384 0 12
19 1.143 0 13
21 0.933 0 14
25 0.8125 0 15
26 0.588 0 16
1(Exception) 1.22 0
2(Exception) 0.944 0
14(Exception) 0.722222222 0
20(Exception) 0.611111111 0
10 0.555 0 17
2 11.5 1 1
1 11.5 1 1
4 8.333 1 2
3 7.25 1 3
8 5 1 4
14 3.666 1 5
9 3.286 1 6
33(Exception) 3.875 1
31 2.875 1 7
34(Exception) 3.777777778 1
13 2.333 1 8
22 1.9 1 9
18 1.545 1 10
20 1.333 1 11
11 1.307 1 12
6 1.214 1 13
7 1.067 1 14
17 0.875 1 15
5 0.706 1 16
12 0.611 1 17
28(Exception) 0.684 1
29(Exception) 0.631 1
32(Exception) 0.789 1
10 0.579 1 18
表3 影响力排序
节点ID 影响力
10 342
20 228
29 228
28 171
31 171
14 136.8
9 136.8
32 114
2 76
3 68.4
33 57
1 42.75
34 40.23529412

Claims (3)

1.一种复杂网络中结构洞spanner的挖掘方法,其特征在于,包括以下步骤:
第一步,计算网络中所有边的骨干度,然后按照降序排序;第二步,选择骨干度最大的边作为一个社区的初始骨干,然后选择与当前社区联系最紧密的节点加入社区,计算这个社区的膨胀度,如果膨胀度变小,则将这个节点计入社区,如果膨胀度变大,则将这个节点作为这个社区结构洞Spanner放入结构洞Spanner集合,继续如下操作,直到社区的邻居节点全部分拣完毕;第三步,在骨干度列表中选择一个未被使用的骨干度最大的边,并且这条边中不能包含已划入社区的节点,重复第二步,直到网络中所有的节点全部被分拣完毕;第四步,将属于多个社区的重叠节点也放入结构洞Spanner集合;第五步,根据影响力度量对结构洞Spanner集合中的节点进行排序。
2.本发明的特征还包括:通过边际效应递减规律,来确定结构洞Spanner,结构洞Spanner 是社区的边际效应递减规律的异常,造成社区的膨胀度变化趋势发生改变,根据这个特征来确定结构洞Spanner。
3.对结构洞Spanner集合中的节点进行排序,其特征为:基于结构洞Spanner影响力度量(说明书中的定义9)进行排序。
CN201810705185.4A 2018-07-02 2018-07-02 一种复杂网络中结构洞Spanner的挖掘方法 Pending CN108920890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810705185.4A CN108920890A (zh) 2018-07-02 2018-07-02 一种复杂网络中结构洞Spanner的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810705185.4A CN108920890A (zh) 2018-07-02 2018-07-02 一种复杂网络中结构洞Spanner的挖掘方法

Publications (1)

Publication Number Publication Date
CN108920890A true CN108920890A (zh) 2018-11-30

Family

ID=64422626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810705185.4A Pending CN108920890A (zh) 2018-07-02 2018-07-02 一种复杂网络中结构洞Spanner的挖掘方法

Country Status (1)

Country Link
CN (1) CN108920890A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269922A (zh) * 2020-10-14 2021-01-26 西华大学 一种基于网络表示学习的社区舆论关键人物发现方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080422A1 (en) * 2004-06-02 2006-04-13 Bernardo Huberman System and method for discovering communities in networks
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
CN103227731A (zh) * 2013-04-23 2013-07-31 西北工业大学 基于改进“结构洞”的复杂网络节点重要性局部计算方法
CN103678669A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的社区影响力评估系统及方法
CN105938608A (zh) * 2016-04-12 2016-09-14 福建师范大学 一种基于标签影响力的半同步社区发现方法
CN106951524A (zh) * 2017-03-21 2017-07-14 哈尔滨工程大学 基于节点影响力的重叠社区发现方法
CN107103053A (zh) * 2017-04-10 2017-08-29 南京信息工程大学 基于重叠节点的复杂网络社区发现方法
CN107438050A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 识别网站的潜在恶意用户的方法和系统
CN108073944A (zh) * 2017-10-18 2018-05-25 南京邮电大学 一种基于局部影响力的标签传播社区发现方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080422A1 (en) * 2004-06-02 2006-04-13 Bernardo Huberman System and method for discovering communities in networks
CN101383748A (zh) * 2008-10-24 2009-03-11 北京航空航天大学 一种复杂网络中的社区划分方法
CN103227731A (zh) * 2013-04-23 2013-07-31 西北工业大学 基于改进“结构洞”的复杂网络节点重要性局部计算方法
CN103678669A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的社区影响力评估系统及方法
CN105938608A (zh) * 2016-04-12 2016-09-14 福建师范大学 一种基于标签影响力的半同步社区发现方法
CN107438050A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 识别网站的潜在恶意用户的方法和系统
CN106951524A (zh) * 2017-03-21 2017-07-14 哈尔滨工程大学 基于节点影响力的重叠社区发现方法
CN107103053A (zh) * 2017-04-10 2017-08-29 南京信息工程大学 基于重叠节点的复杂网络社区发现方法
CN108073944A (zh) * 2017-10-18 2018-05-25 南京邮电大学 一种基于局部影响力的标签传播社区发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔平平等: "分层递阶的网络结构洞占据者挖掘及分析", 《中文信息学报》, vol. 32, no. 4 *
郭松等: "有向网络下的CoDA社区发现算法评估", 《河北科技大学学报》, vol. 38, no. 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269922A (zh) * 2020-10-14 2021-01-26 西华大学 一种基于网络表示学习的社区舆论关键人物发现方法
CN112269922B (zh) * 2020-10-14 2022-05-31 西华大学 一种基于网络表示学习的社区舆论关键人物发现方法

Similar Documents

Publication Publication Date Title
Hu et al. Community detection in complex networks using Node2vec with spectral clustering
CN104008165B (zh) 一种基于网络拓扑结构和节点属性的社团检测方法
Taha et al. SIIMCO: A forensic investigation tool for identifying the influential members of a criminal organization
CN103020163A (zh) 一种网络中基于节点相似度的网络社区划分方法
CN110992059B (zh) 一种基于大数据的围串标行为识别分析方法
CN111428323A (zh) 复杂网络中利用广义折扣度与k-shell识别一组关键节点的方法
Cheng et al. Context-aware object connection discovery in large graphs
Lin et al. Research on maximal frequent pattern outlier factor for online high dimensional time-series outlier detection
Xu et al. Finding overlapping community from social networks based on community forest model
Chang et al. Relative centrality and local community detection
Ahmed et al. Network sampling designs for relational classification
Bütün et al. A new topological metric for link prediction in directed, weighted and temporal networks
CN109408634A (zh) 一种基于派系过滤的意见垃圾用户群检测方法
Hu et al. A new algorithm CNM-Centrality of detecting communities based on node centrality
Liu et al. Detecting community structure for undirected big graphs based on random walks
CN108920890A (zh) 一种复杂网络中结构洞Spanner的挖掘方法
He et al. Genetic algorithm with ensemble learning for detecting community structure in complex networks
Wang et al. [Retracted] Overlapping Community Detection Based on Node Importance and Adjacency Information
Hollocou et al. Improving PageRank for local community detection
Lu et al. Identifying vital nodes in complex networks based on information entropy, minimum dominating set and distance
Kazemzadeh et al. Intelligent Filtering of Graph Shells in the Problem of Influence Maximization Based on the Independent Cascade Model
Yu et al. A new method for link prediction using various features in social networks
Zhou et al. Link prediction algorithm based on local centrality of common neighbor nodes using multi-attribute ranking
CN112035545B (zh) 一种考虑非活跃节点和社区边界的竞争影响力最大化方法
Li et al. Overlap Community Detection Based on Node Convergence Degree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination