CN106022937B - 一种社交网络拓扑结构的推断方法 - Google Patents
一种社交网络拓扑结构的推断方法 Download PDFInfo
- Publication number
- CN106022937B CN106022937B CN201610365770.5A CN201610365770A CN106022937B CN 106022937 B CN106022937 B CN 106022937B CN 201610365770 A CN201610365770 A CN 201610365770A CN 106022937 B CN106022937 B CN 106022937B
- Authority
- CN
- China
- Prior art keywords
- node
- missing
- cascade
- network
- cascade data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000008901 benefit Effects 0.000 claims abstract description 38
- 238000013480 data collection Methods 0.000 claims description 32
- 230000007480 spreading Effects 0.000 claims description 30
- 230000000644 propagated effect Effects 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 23
- 238000004088 simulation Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 230000006854 communication Effects 0.000 claims description 12
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 150000002500 ions Chemical class 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000001902 propagating effect Effects 0.000 description 6
- 241001269238 Data Species 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公布了一种社交网络拓扑结构的推断方法,针对存在缺失的级联数据,通过估计在网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构;包括:初始化待推断网络G、进行循环迭代计算边际收益和取边际收益最大的边添加到Gi‑1中得到新的网络,完成迭代即得到推断出的网络拓扑结构。本发明方法适用性广,尤其可以应用于级联数据缺失情形;本发明技术方案在保持较高的时间效率基础上,显著提升了网络推断结果的准确率,可以成为真实世界中推断隐藏网络结构的有效手段。
Description
技术领域
本发明属于社交网络分析领域,涉及社交网络拓扑结构的推断方法,尤其涉及一种根据缺失信息传播级联数据推断网络拓扑结构的方法。
背景技术
社交网络平台的流行,使得对社交网络分析的显得尤为必要。通常情况下,人们往往可以观察到信息在社交网络上传播过程中的激活时间数据,但社交网络的拓扑结构往往无法直接观测到。例如,我们可以观察到某一网站发布消息的级联传播的过程,但却并没有注明消息传播的途径;又如某微信用户订阅了公众号,然而向他推荐的用户信息却不得而知。在大量的真实社交网络场景中,人们往往只能获取信息在社交网络上传播过程中所激活节点的时间信息(简称级联数据),但是信息传播的路径却无法直接获得。这些级联数据集为社交网络拓扑结构的推断提供了重要的潜在信息,因此,如何利用这些级联数据推断出潜在的网络拓扑结构,对社交网络研究和诸多领域的应用(如传染病传播途径推断、谣言的追踪溯源等)有着重要意义。
当前,国际上所有已提出的社交网路拓扑推断方法都假设所观测到的级联数据是完整的,不存在任何缺失。这是一种要求条件非常严格的假设,而真实世界中所采集到的级联数据很难完全覆盖所有被激活节点,不可避免的存在缺失疏漏,必然存在缺失现象。截止目前国际上已经提出的网络拓扑推断方法(如Netrate、Netinfo、MMrate等)都忽视了这一现实特点。现有的基于级联数据的网络拓扑结构推断方法不考虑级联数据缺失的问题,因而不能很好的适用于现实场景。如果将这些方法直接在缺失的级联数据上推断网络拓扑结构,已有研究表明,其推断出的网络拓扑精度存在很大偏差,严重影响了现实社交网络的挖掘分析和应用。
发明内容
为了克服上述现有技术的不足,本发明提供一种社交网络拓扑结构的推断方法,面向缺失级联数据的、基于贪心思路的网络拓扑结构推断方法,以解决网络推断问题在现实情形下的精度保证和适用性问题。
本发明的原理是:本发明基于贪心的网络推断框架、基于仿真的缺失级联数据补全、缺失级联数据的边际收益计算以及最大级联传播树的合并,解决网络推断问题在缺失级联数据现实情形下的精度保证和适用性问题。首先,初始化网络边集为空;然后,循环迭代m次,每次向网络中添加一条边际收益最大的边,直至m条边添加完毕,即得到推断出的边数为m的网络拓扑结构。其中,边际收益计算如下:执行迭代过程中,基于已观测节点模拟信息传播过程,实现缺失级联数据的补全,进而计算补全级联数据的边际收益。本发明能够准确高效的给出网络推断结果,解决缺失级联下的网络推断问题,满足实际应用需求。网络推断问题是一个NP难的问题,所以只能采用近似的推断方法实现。本发明提出的基于贪心的推断方法,可以在理论上保证该方法推断结果的精度的下界为1-1/e。
其中,基于贪心的网络推断框架是网络推断的总体架构,其基本思路是基于观测到的级联传播数据,通过推断(估计)在网络中添加不同边所带来似然值的边际增益的大小,来确定逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,就完成了网络结构的推断;在此过程中,本发明对缺失的级联数据采用蒙特卡洛方法进行补全。本发明提出基于仿真的缺失级联数据补全方法,解决级联数据缺失情形下网络结构推断问题,如何在当前观测到的级联数据之上估计出缺失的级联传播数据是本发明的核心之一。采用的基本方法是蒙特卡洛仿真,仿真过程按照信息传播的机理重现网络信息传播过程,在当前网络拓扑结构上估计出缺失的级联数据。这是由于信息传播过程中每个节点激活邻居节点都是独立进行的,因此在仿真过程中让观测到的级联数据中的每个节点都按照信息传播的机制在当前网络上进行传播,每个节点都可以得到一棵传播树,把这些传播树进行合并,可以得到一棵最大级联传播树。根据级联传播树的合并机制,该树就是在当前网络结构下,使当前缺失级联传播数据取得最大传播似然值的树。
本发明提出缺失级联数据的边际收益计算方法,边际收益计算的目的是确定在当前已推断出的网络拓扑结构的基础上,再添加哪条边,可以使得观测到的级联传播数据的似然值增益最大。此过程需要枚举当前网络中所有没有出现的边,然后计算他们似然值的边际收益。似然值的计算依赖于缺失级联数据的蒙特卡洛仿真所产生的最大合并树,基于该最大合并树可得到该传播级联数据在当前网络上的传播似然值,也就得到了该边添加后的传播似然值的边际收益。最大级联传播树的合成方法是对当前缺失级联传播树中的每个节点通过蒙特卡洛仿真得到的传播树,使每棵树的根节点按照传播级联的概率最大化原则,在其他传播树结构中找到其父节点。在合并的过程中,由于每个节点传播是独立进行的,因此在不同树结构中会出现节点重复激活的现象。那么对于重复的节点我们只保留激活时间最早的节点,激活时间晚的所有节点及其对应的子树全部删除。这样就得到一棵没有重复节点的最大传播生成树。
本发明提供的技术方案是:
一种社交网络拓扑结构的推断方法,针对存在缺失的级联数据,通过估计在所述网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构;包括如下步骤:
1)初始化社交网络为边集为空的待推断网络G,所述初始的待推断网络G中仅有节点,节点之间没有边相连;
在社交网络中,每次消息的传播过程构成一个级联数据,信息的多次传播过程构成一个级联传播数据集。每个完整的级联数据包含了本次信息传播所有激活节点的集合以及每个节点被激活的时间信息;信息缺失的级联数据仅仅是完整的级联数据的子集,其中的部分激活节点及其时间信息缺失。缺失级联数据集,构成了本发明进行网络推断的数据基础。
2)缺失级联数据集设为包含多个独立的缺失级联数据所述缺失级联数据是完整级联数据的子集,其中缺失部分激活节点和节点时间信息;设定迭代次数为m次,将缺失级联数据集作为输入,进行循环迭代,每次迭代执行步骤3)~步骤4);
3)计算边际收益,所述边际收益是网络Gi-1中添加一条候选边ei变成网络Gi时,对缺失级联数据集中的每个缺失级联数据所带来的概率值的边际增益;计算得到在网络Gi-1中添加所有候选边的边际收益;
4)通过贪心算法对网络进行加边,具体是在第3)步计算在网络Gi-1中添加所有候选边的边际收益计算得到的结果中,取边际收益最大的边添加到Gi-1中,得到网络Gi;
5)完成循环迭代m次,得到包含m条边的图G,即得到推断出的网络拓扑结构。
针对上述社交网络拓扑结构的推断方法,进一步地,步骤2)迭代次数m等于最终推断出的网络中边的数目。
针对上述社交网络拓扑结构的推断方法,进一步地,步骤3)所述计算边际收益的步骤如下:
31)初始化:对于缺失级联数据集的每个缺失级联数据执行M次蒙塔卡罗模拟仿真,对缺失级联数据中的缺失值进行估计,得到估计值;每次蒙塔卡罗模拟仿真过程执行如下步骤32);
32)对在中被激活的每个激活节点u,在当前网络Gi中执行一次蒙塔卡罗传播模拟仿真,得到一棵仿真传播树T(u);将所有激活节点对应传播树T(u)进行合并,构造得到最大级联传播合并树T*,T*中激活节点的集合为补全的级联数据t;由此得到缺失级联数据中的缺失值的估计值;
33)通过式2计算补全级联数据t在合并树T*上的传播概率:
式2中,f(t;T*)为补全级联t在合并树T*上的传播概率;P(u,v)是节点u和v之间的传播概率,γ是设定的节点激活概率;
34)用步骤33)所述补全级联数据t在T*上的传播概率代替补全级联数据t在当前网络Gi上的最大传播概率f(t;Gi-1∪ei);
35)对缺失级联数据集的传播概率进行估计:
通过对缺失级联数据的M次仿真估计似然值取均值,作为补全缺失级联数据的传播概率似然值的估计值;对缺失级联数据集中的每个缺失级联数据执行步骤32),对级联数据的缺失进行仿真估计,然后对每个级联的概率似然值求积,得到缺失级联数据集的概率似然值f(Gi)估计,表示为式4:
式4中,ti,j为中第i个缺失级联在第j次仿真中得到的补全级联。
36)计算边际收益:将缺失级联数据集在网络Gi-1∪ei上的概率值减去在网络Gi-1上的概率值,作为本次添加候选边ei的边际收益。
针对上述社交网络拓扑结构的推断方法,进一步地,步骤32)所述蒙塔卡罗传播模拟仿真过程包括如下步骤:
321)初始化得到缺失级联数据和当前网络Gi-1∪ei;
322)以中的每个观测节点u为根节点,对Gi-1∪ei中的邻居节点以设定概率γ尝试激活Gi-1∪ei中不在中的邻居节点;如果激活不成功则停止,再去激活其他Gi-1∪ei中不在中的邻居节点;当激活成功时,设定概率值区间,从区间中随机采样一个值作为节点u到节点v之间的传播概率值βuv;
323)赋予所述激活节点v一个激活时间;
324)按照步骤322)~323)尝试激活所述激活节点v的邻居节点;当没有新节点被激活时,以u为种子节点的传播过程结束,得到一棵以u为根的传播树T(u)。
更进一步地,步骤322)所述设定概率值区间为[0,1]。
更进一步地,步骤323)所述赋予所述激活节点v一个激活时间tv,具体根据式5采样得到:
式5中,βuv为节点u到节点v之间的传播概率值;α是设定概率值区间中的一个值。
针对上述社交网络拓扑结构的推断方法,进一步地,步骤32)所述通过构造得到最大级联传播合并树T*,补全级联数据t;具体包括如下步骤:
341)初始化T*为空;
342)将每个已观测节点u的仿真传播树T(u),对当前T*中每个激活时间早于u的节点v,计算两点间传播概率P(v,u),计算公式如式6:
式6中,Δtvu为节点u与节点v之间的传播时延。
343)将传播概率最大的节点v作为u的父节点,并将边(v,u)加入到T*中;
344)对T(u)中的每个节点w,如果在T*存在相同的节点w’,比较节点w和w’的激活时间,将激活时间大的节点连同其级联传播树一同删除;
345)直至当前缺失级联数据中的所有节点按照上述步骤342)~343)处理完毕,得到最大级联传播树T*,树中的所有节点及其激活时间即为补全的级联数据t。
与现有技术相比,本发明的有益效果是:
本发明提供一种社交网络拓扑结构的推断方法,针对存在缺失的级联数据,通过估计在所述网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构。本发明的优点是:
(一)本发明方法适用性广,尤其可以应用于级联数据缺失情形;
(二)本发明技术方案在保持较高的时间效率基础上,显著提升了网络推断结果的准确率,可以成为真实世界中推断隐藏网络结构的有效手段。
附图说明
图1是本发明提供的社交网络拓扑结构的推断方法的流程框图。
图2是本发明提供的计算边际收益方法的流程框图。
图3是本发明提供的仿真传播过程的流程框图。
图4是本发明提供的生成最大合并树过程的流程框图
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
图1是本发明提供的社交网络拓扑结构的推断方法的流程框图,包括如下步骤:
1)初始化:边集为空的待推断网络G,即初始的网络中仅有节点,而节点之间没有任何边相连;
级联信息缺失的数据集设为包含多个独立的缺失级联传播数据将级联信息缺失的数据集作为输入,利用本发明提供的推断方法进行推断估计,输出结果为完成推断的网络拓扑结构。在社交网络中,每次消息的传播过程构成一个级联数据,信息的多次传播过程构成一个级联传播数据集。每个完整的级联数据包含了本次信息传播所有激活节点的集合以及每个节点被激活的时间信息;信息缺失的级联数据仅仅是完整的级联数据的子集,其中的部分激活节点及其时间信息缺失。缺失级联数据集,构成了本发明进行网络推断的数据基础。
2)贪心循环迭代:执行m次迭代(迭代次数m与最终推断出的网络中边的数目相等,取值由用户指定),每次迭代执行步骤3)和步骤4);
3)边际收益计算:在第i次迭代过程中,需要对当前已推断出的网络Gi-1中添加一条候选边ei,并对缺失级联数据集中的每个缺失级联数据计算该候选边ei加入Gi-1后(记做Gi)所带来的概率值的边际增益(具体边际增益计算方法见方法)表示如下:
4)贪心思路加边:在第3)步计算在网络Gi-1中添加所有候选边的边际收益计算结果中,取边际收益最大的边添加到Gi-1中;
5)循环迭代m次:重复步骤3)和步骤4),直至迭代结束;
6)网络推断结果:包含m条边的图G即为推断出的网络拓扑结构。
方法A,计算边际收益
进一步地,步骤3)计算边际收益,图2是本发明提供的计算边际收益方法的流程框图;边际收益具体指的是确定在向当前网络Gi-1中添加一条选定的候选边ei得到Gi时,所带来的概率值的边际收益增益;计算边际收益步骤如下:
31)初始化:对于缺失级联数据集的每个缺失级联数据执行M次(M次数由用户设定,一般取1000次)蒙塔卡罗模拟仿真,实现对级联数据中缺失值的估计,每次仿真过程执行如下步骤32);
32)缺失级联数据的缺失仿真估计:对中的每个时间戳不等于∞的节点u,即u在中被激活,在当前网络Gi中执行一次蒙塔卡罗传播模拟仿真(具体方法见方法B),可以得到一棵仿真传播树T(u);所有激活节点对应传播树的合并可以得到最大级联传播合并树T*,树T*中激活节点(包含相应的激活时间)的集合即为补全的级联数据t;
33)计算t在合并树T*上传播的概率:计算补全级联t在合并树T*上传播概率的方法具体如下:
其中,f(t;T*)为补全级联t在合并树T*上的传播概率;P(v,u)是节点u和v之间的传播概率,γ是用户指定的节点激活概率(γ值一般取0到0.1左右)。
34)计算t在当前图Gi上传播的概率:由于许多传播树均可产生相同的t,但是根据最大合并树的构造方法(具体方法步骤见方法C),补全级联数据t在当前网络Gi上的最大传播概率可用t在最大合并传播树T*上的传播概率替代,即:
f(t;Gi-1∪ei)=f(t;T*) (式3)
35)缺失级联数据集的传播概率估计:对于缺失级联数据的M次仿真估计似然值取均值,即为对缺失级联数据在考虑补全情形下的传播概率似然值估计;对缺失级联数据集中的每个缺失级联数据执行上述步骤32)中的级联数据缺失仿真估计过程,然后对每个级联的概率似然值求积,则得到缺失级联数据集的概率似然值f(Gi)估计,即:
36)边际收益的计算:缺失级联数据集在网络Gi-1∪ei上的概率值减去在网络Gi-1上的概率值,即f(Gi-1∪ei)-f(Gi-1)为本次添加候选边ei的边际收益。
方法B,缺失级联数据的蒙塔卡罗仿真
图3是本发明提供的仿真传播过程的流程框图;在当前缺失级联数据的基础上,执行蒙特卡洛模拟传播仿真,对缺失节点值进行估计。主要步骤如下:
325)初始化:缺失级联数据以及当前网络Gi-1∪ei,执行如下仿真传播过程;
326)以中的每个观测节点u为根节点,对Gi-1∪ei中的邻居节点以某一指定概率γ(γ的取值由用户指定)尝试激活Gi-1∪ei中不在中的邻居节点;如果激活不成功则停止,再去激活其他Gi-1∪ei中不在中的其它邻居节点;如果激活成功,则从[0,1]区间随机采样一个值作为节点u到节点v之间的传播概率值βuv,并赋予激活节点v一个激活时间;
327)v的激活时间tv按如下方法采样得到:
其中,α是用户设置的介于[0,1]之间的参数值。
328)对于被激活的缺失节点v,则按照322)、323)的方法尝试激活其邻居节点;
当没有新节点被激活时,以u为种子节点的传播过程结束,得到一棵以u为根的传播树T(u)。
方法C,生成最大级联传播合并树T*:
对于当前缺失级联数据中的每个节点u对应的以u为根节点的传播树T(u),合并后生成最大级联传播合并树T*。图4是本发明提供的生成最大合并树过程的流程框图,主要步骤如下:
341)初始化T*为空;
342)将每个已观测节点u的仿真传播树T(u),对当前T*中每个激活时间早于u的节点v,计算两点间传播概率P(v,u),计算公式如下:
343)将传播概率最大的节点v作为u的父节点,并将边(v,u)加入到T*中;
344)同时,对T(u)中的每个节点w,如果在T*存在相同的节点w’,此时则进一步比较他们的激活时间,将激活时间大的节点连同其级联传播树一同删除;
345)直至当前缺失级联数据中的所有节点按照上述步骤342)、343)处理完毕即得到最大级联传播树T*,树中的所有节点及其激活时间即为补全的级联数据t。
本发明一实施例针对某一社交网络平台,通过多次观测,可以得到该社交网络信息传播节点被激活时间的历史级联数据集,构成了进行网络推断的数据基础。每次消息的传播过程构成一个级联数据,信息的多次传播过程构成一个级联传播数据集。每个完整的级联数据包含了本次信息传播所有激活节点的集合以及每个节点被激活的时间信息。需要指出的是,本发明重点考虑的是对于每次信息传播观测到的级联数据而言,我们所能获取到的仅仅是完整级联数据的子集,部分激活节点及其时间信息缺失,即缺失的级联数据。这种缺失可能有由于人为的原因,或者是由于系统的原因,级联数据缺失是现实情形下的最可能的状态。直接应用现有的基于完全级联数据的网络推断方法应用到缺失级联数据上进行网络推断,推断精度大大降低。目前针对缺失级联数据进行网络推断的方法尚未提出。本发明就是要基于这种观测级联数据不完全情形下的如何准确的把网络拓扑结构推断出来。
首先,我们获取到MemeTracker平台上的缺失级联数据集和节点集合(没有边信息)。在MemeTracker平台中,我们以每个网站作为网络中的一个节点,构建初始网络G。一则新闻(包含特定短语)在网络中传播,所有发布(转发)该新闻的网站及其发布时间构成一条完整的级联数据。然而现实中可能存在这样的情况,某网站参与了传播过程,但过后自我删除了相关文章,致使爬取数据时无法观察到该网站的时间信息,即缺失的级联数据集。在本实施例中,网络中含有500节点和3000条边。按照如下步骤对MemeTracker网络拓扑结构(即节点之间的边)进行推断:
步骤一:提取出尚未在当前社交网络G中出现的潜在边(初始时有500*(500-1)条有向边)的集合,并从该集合中抽取一条潜在边e,然后添加到当前网络中得到新的网络,记做G+;
步骤二:从缺失级联数据集中提取出一条缺失级联数据,记做
步骤三:在当前网络G+上,对缺失级联数据上的每个激活节点u,利用蒙特卡洛仿真方法构造级联传播树T(u);
步骤四:把缺失级联数据上的每个激活节点u产生的级联传播树T(u)进行合并,生成最大级联传播合并树T*;
步骤五:基于T*计算该树对应的传播级联概率值,该值即为缺失级联补全后的级联传播数据在当前网络G+上对应的最大级联传播概率值;
步骤六:对于每个缺失级联数据按照步骤三至步骤五,计算出M=1000个最大级联传播概率值,并求出这个1000个值的均值,即为该缺失级联数据在当前网络上的最大传播概率值的估计;
步骤七:对缺失级联数据集中的每个缺失级联数据,按照步骤二到步骤六,计算出所有缺失级联传播数据的概率值,然后进行乘积,即为该缺失级联传播数据集在当前网络G+上的概率值估计;
步骤八:当前网络G+上的缺失级联数据集的概率估计值,减去在网络G上对缺失级联数据集的概率值(即上一步迭代得到的估计值),即为在网络G中加上边e所带来的概率值的边际增益;
步骤九:对当前网络G中的所有潜在的边都执行步骤二到步骤八,我们可以得到在当前网络G上添加每条边所能够得到的概率值的边际增益;
步骤十:从所有潜在边的概率值边际增益中选择一个增益值最大的边,添加到当前网络G中,即为我们本步骤所应该添加的边,实现了网络的增长;
步骤十一:按照步骤一到步骤十,按照贪心方法执行m=5000步,每一步在当前网络中挑选出下一条可以添加的边,循环5000次就实现了从最初的空网络(只有点,没有边)到添加了5000条边的网络,完成了网络结构的推断;
步骤十二:输出推断出的网络,算法结束。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (6)
1.一种社交网络拓扑结构的推断方法,其特征是,针对存在缺失的级联数据,通过估计在所述网络中添加不同边所带来似然值的边际增益的大小,得到逐步添加边的顺序,每次添加似然值最大的边,直至所有边添加完成,由此补全所述社交网络拓扑结构;包括如下步骤:
1)初始化社交网络为边集为空的待推断网络G,所述初始的待推断网络G中仅有节点,节点之间没有边相连;
2)缺失级联数据集设为包含多个独立的缺失级联数据所述缺失级联数据是完整级联数据的子集,其中缺失部分激活节点和节点时间信息;设定迭代次数为m次,将缺失级联数据集作为输入,进行循环迭代,每次迭代执行步骤3)~步骤4);
3)计算边际收益,所述边际收益是网络Gi-1中添加一条候选边ei变成网络Gi时,对缺失级联数据集中的每个缺失级联数据所带来的概率值的边际增益;计算在网络Gi-1中添加所有候选边的边际收益;
所述计算边际收益的步骤如下:
31)初始化:对于缺失级联数据集的每个缺失级联数据执行M次蒙塔卡罗模拟仿真,对缺失级联数据中的缺失值进行估计,得到估计值;每次蒙塔卡罗模拟仿真过程执行如下步骤32);
32)对在中被激活的每个激活节点u,在当前网络Gi中执行一次蒙塔卡罗传播模拟仿真,得到一棵仿真传播树T(u);将所有激活节点对应的传播树T(u)进行合并,构造得到最大级联传播合并树T*,T*中激活节点的集合为补全的级联数据t;由此得到缺失级联数据中的缺失值的估计值;
33)通过式2计算补全级联数据t在合并树T*上的传播概率:
式2中,f(t;T*)为补全级联t在合并树T*上的传播概率;P(u,v)是节点u和v之间的传播概率,γ是设定的节点激活概率;
34)用步骤33)所述补全级联数据t在T*上的传播概率代替补全级联数据t在当前网络Gi上的最大传播概率f(t;Gi-1∪ei);
35)对缺失级联数据集的传播概率进行估计:
通过对缺失级联数据的M次仿真估计似然值取均值,作为补全缺失级联数据的传播概率似然值的估计值;对缺失级联数据集中的每个缺失级联数据执行步骤32),对级联数据的缺失进行仿真估计,然后对每个级联的概率似然值求积,得到缺失级联数据集的概率似然值估计,表示为式4:
式4中,ti,j为中第i个缺失级联在第j次仿真中得到的补全级联;M为蒙塔卡罗模拟仿真算法执行次数;
计算边际收益:将缺失级联数据集在网络Gi-1∪ei上的概率值减去在网络Gi-1上的概率值,作为本次添加候选边ei的边际收益;
4)通过贪心算法加边,在第3)步计算结果中,取边际收益最大的边添加到Gi-1中,得到网络Gi;
5)完成循环迭代m次,得到包含m条边的网络结构,即得到推断出的网络拓扑结构。
2.如权利要求1所述社交网络拓扑结构的推断方法,其特征是,步骤2)所述次数m等于最终推断出的网络中边的数目。
3.如权利要求1所述社交网络拓扑结构的推断方法,其特征是,步骤32)所述蒙塔卡罗传播模拟仿真过程包括如下步骤:
321)初始化得到缺失级联数据和当前网络Gi-1∪ei;
322)以中的每个观测节点u为根节点,对Gi-1∪ei中的邻居节点以设定概率γ尝试激活Gi-1∪ei中不在中的邻居节点;如果激活不成功则停止,再去激活其他Gi-1∪ei中不在中的邻居节点;当激活成功时,设定概率值区间,从区间中随机采样一个值作为节点u到节点v之间的传播概率值βuv;
323)赋予所述激活节点v一个激活时间;
324)按照步骤322)~323)尝试激活所述激活节点v的邻居节点;当没有新节点被激活时,以u为种子节点的传播过程结束,得到一棵以u为根的传播树T(u)。
4.如权利要求3所述社交网络拓扑结构的推断方法,其特征是,步骤322)所述设定概率值区间为[0,1]。
5.如权利要求3所述社交网络拓扑结构的推断方法,其特征是,步骤323)所述赋予所述激活节点v一个激活时间tv,具体根据式5采样得到:
式5中,βuv为节点u到节点v之间的传播概率值;α是设定概率值区间中的一个值。
6.如权利要求1所述社交网络拓扑结构的推断方法,其特征是,步骤32)所述通过构造得到最大级联传播合并树T*,补全级联数据t;具体包括如下步骤:
321)初始化T*为空;
322)将每个已观测节点u的仿真传播树T(u),对当前T*中每个激活时间早于u的节点v,计算两点间传播概率P(v,u),计算公式如式6:
式6中,Δtvu为节点u与节点v之间的传播时延;α是设定概率值区间中的一个值;
323)将传播概率最大的节点v作为u的父节点,并将边(v,u)加入到T*中;
324)对T(u)中的每个节点w,如果在T*存在相同的节点w’,比较节点w和w’的激活时间,将激活时间大的节点连同其级联传播树一同删除;
325)直至当前缺失级联数据中的所有节点按照上述步骤322)~323)处理完毕,得到最大级联传播树T*,树中的所有节点及其激活时间即为补全的级联数据t。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610365770.5A CN106022937B (zh) | 2016-05-27 | 2016-05-27 | 一种社交网络拓扑结构的推断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610365770.5A CN106022937B (zh) | 2016-05-27 | 2016-05-27 | 一种社交网络拓扑结构的推断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106022937A CN106022937A (zh) | 2016-10-12 |
CN106022937B true CN106022937B (zh) | 2019-04-02 |
Family
ID=57092195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610365770.5A Expired - Fee Related CN106022937B (zh) | 2016-05-27 | 2016-05-27 | 一种社交网络拓扑结构的推断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106022937B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10652096B2 (en) | 2017-02-22 | 2020-05-12 | University Of Notre Dame Du Lac | Methods and systems for inferring network structure from cascades |
CN106875281B (zh) * | 2017-03-13 | 2020-12-18 | 哈尔滨工程大学 | 基于贪心子图的社会网络节点挖掘激活方法 |
CN108989064B (zh) * | 2017-05-31 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 拓扑数据抽样方法和装置、视化方法和系统 |
CN107592232A (zh) * | 2017-10-11 | 2018-01-16 | 中山大学 | 一种低代价传播或监控网络信息的方法 |
CN115001982B (zh) * | 2022-06-19 | 2024-02-02 | 复旦大学 | 基于节点重要性估计的在线社交网络拓扑推断方法 |
CN115333945B (zh) * | 2022-07-03 | 2023-06-16 | 复旦大学 | 一种在线社交网络的局部拓扑推断方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455593A (zh) * | 2013-09-01 | 2013-12-18 | 北京航空航天大学 | 一种基于社交网络的服务竞争性实现系统及方法 |
CN104657434A (zh) * | 2015-01-30 | 2015-05-27 | 中国科学院信息工程研究所 | 一种社交网络结构构建方法 |
-
2016
- 2016-05-27 CN CN201610365770.5A patent/CN106022937B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455593A (zh) * | 2013-09-01 | 2013-12-18 | 北京航空航天大学 | 一种基于社交网络的服务竞争性实现系统及方法 |
CN104657434A (zh) * | 2015-01-30 | 2015-05-27 | 中国科学院信息工程研究所 | 一种社交网络结构构建方法 |
Non-Patent Citations (4)
Title |
---|
INFERRING LINKS IN CASCADE THROUGH HAWKES PROCESS BASED DIFFUSION MODEL;Li Juncen 等;《2014 4th IEEE International Conference on Network Infrastructure and Digital Content》;20140921;第471-475页 |
The Network Completion Problem: Inferring Missing Nodes and Edges in Networks;Myunghwan Kim 等;《Proceedings of the Eleventh SIAM International Conference on Data Mining》;20110430;第47-58页 |
信息网络中节点缺失信息推断研究;吴玲玲;《中国优秀硕士学位论文全文数据库》;20150815(第8期);第1-52页 |
基于自主计算的流行病传播网络建模与推断;杨博 等;《第四届中国Agent理论与应用学术会议》;20120804;第1-14页 |
Also Published As
Publication number | Publication date |
---|---|
CN106022937A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106022937B (zh) | 一种社交网络拓扑结构的推断方法 | |
Zhang et al. | Exact solution for mean first-passage time on a pseudofractal scale-free web | |
Montresor et al. | Distributed k-core decomposition | |
CN106991617B (zh) | 一种基于信息传播的微博社交关系提取算法 | |
CN103593400A (zh) | 一种基于改进Apriori算法的雷电活动数据统计方法 | |
CN107844626B (zh) | 一种具有多重传播率的病毒传播控制方法 | |
CN106296425A (zh) | 基于带权重联合非负矩阵分解的属性图聚类方法及系统 | |
CN105976048A (zh) | 一种基于改进人工蜂群算法的输电网扩展规划方法 | |
CN105099731B (zh) | 挖掘导致网络应用的用户流失的流失因子的方法及系统 | |
CN111191728A (zh) | 基于异步或同步的深度强化学习分布式训练方法及系统 | |
WO2018090580A1 (zh) | 一种光接入网业务流感知方法、装置及计算机存储介质 | |
CN106953801B (zh) | 基于层级结构学习自动机的随机最短路径实现方法 | |
Jiang et al. | Dynamic community detection based on game theory in social networks | |
Dutta et al. | Coalescing-branching random walks on graphs | |
CN105488601A (zh) | 一种求解完整Pareto前沿的多目标优化方法 | |
CN104615679A (zh) | 一种基于人工免疫网络的多智能体数据挖掘方法 | |
CN104091123B (zh) | 一种社区网络的层次病毒免疫方法 | |
Nian et al. | The epidemic network construction and immunization based on node strength | |
CN109547265A (zh) | 基于随机游走抽样的复杂网络局部免疫方法及系统 | |
Hu et al. | A novel self-adaptation hybrid artificial fish-swarm algorithm | |
CN106156366A (zh) | 一种基于聚类的牵制控制节点选择方法 | |
Zhao et al. | A social network model with proximity prestige property | |
CN107784356A (zh) | 一种基于蚁群和信号传递的重叠社区发现方法 | |
Georgakopoulos | Group-walk random graphs | |
CN112988949A (zh) | 一种基于大数据网络的灌溉监测系统实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190402 |
|
CF01 | Termination of patent right due to non-payment of annual fee |