CN115001982A - 基于节点重要性估计的在线社交网络拓扑推断算法 - Google Patents
基于节点重要性估计的在线社交网络拓扑推断算法 Download PDFInfo
- Publication number
- CN115001982A CN115001982A CN202210693996.3A CN202210693996A CN115001982A CN 115001982 A CN115001982 A CN 115001982A CN 202210693996 A CN202210693996 A CN 202210693996A CN 115001982 A CN115001982 A CN 115001982A
- Authority
- CN
- China
- Prior art keywords
- node
- importance
- network
- nodes
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims abstract description 9
- 238000012614 Monte-Carlo sampling Methods 0.000 claims abstract description 8
- 208000015181 infectious disease Diseases 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于大规模网络数据分析技术领域,具体为基于节点重要性估计的在线社交网络拓扑推断算法。本发明包括:依托独立级联模型,利用每个节点在每次传播中获得信息的时刻作为推断的依据,从一个空图开始,对每个节点对遍历,利用蒙特卡洛采样方法解决似然函数最大化问题;由于网络的异质性,引入能够反映节点重要性的偏置项,估计节点重要性,实现考虑节点重要性的网络拓扑推断;在已知网络先验知识时,提取表征节点重要性指标,根据带有节点重要性的网络拓扑推断算法重构网络;在未知网络先验知识时,估计节点重要性,使用带有节点重要性的网络拓扑推断算法重构网络。本发明在有无网络先验知识下都可以重构社交网络,并提高了推断的准确性。
Description
技术领域
本发明属于大规模网络数据分析技术领域,具体涉及一种在线社交网络拓扑推断算法。
背景技术
近年来,复杂网络在各个领域,都受到了广泛的研究和关注,并取得了丰富的成果。不管是复杂多变的社会系统,还是生物系统,信息系统,都可以将其抽象成网络模型,进而进行更深入的分析和研究。在以复杂网络为背景的研究工作中,由网络节点和连边组成的网络基本拓扑结构无疑是我们进行分析和探索的前提,然而在实际生活中,我们经常无法直接获得网络的拓扑结构,在这样的背景下,研究网络的拓扑推断问题具有重要的现实意义。
然而,随着大家隐私保护意识的增强,越来越多的平台选择不公开用户之间直接的关注关系,想要直接获取用户之间的关系数据变得越来越困难,这极大地限制了我们对在线社交网络的研究与分析。在实际生活中,人与人之间的交互是无处不在的,虽然节点之间直接的关系不易获取,但是疾病或信息传播之后的结果往往是很容易观察到的,因为通常我们很容易通过观察个体的行为表现看出它什么时候被感染或者接收到消息,但是很难观察到谁与他们有着直接关系并把疾病或者消息传递给他们。与此同时,由于疾病传播和信息传播的方向性和时效性,这些传播的结果中往往隐藏了大量的包含连边关系的信息。所以,研究如何通过容易观察到的动力学传播结果,来逆向地推断出无法观察到的网络拓扑结构这一问题在目前的社交网络研究领域有较大的需求,且可行性高。
学术界已经有许多关于网络拓扑推断算法的研究,针对社交网络,虽然节点之间直接的关系不易获取,但是疾病或信息传播之后的结果往往是很容易观察到的,所以,大多数的网络结构拓扑推断问题是认为节点之间的关系是完全未知的,依据节点在传播过程中或者传播结束之后的状态信息进行推断的。
发明人在进行基于信息传播的在线社交网络拓扑推断研究时发现,现有的工作往往忽略了真实在线社交网络的异质性,往往认为节点是等价的,这样统一的等价处理会使得丢失一部分重要的信息,导致拓扑推断算法的准确性有待提高。
发明内容
鉴于以上情况,本发明的目的在于立足于在线社交网络,充分把握在线社交网络规模大,连边稀疏,异质性强的特点,提出基于节点重要性估计的在线社交网络拓扑推断算法,以提高推断准确性。
本发明提出的基于节点重要性估计的在线社交网络拓扑推断算法,具体步骤为:
步骤1:节点重要性估计。所述节点重要性是指节点在传播过程中的影响力,具体根据信息传播过程获得节点重要性;
步骤2:在不带有节点重要性的网络拓扑推断算法的基础上,设计节点重要性偏置,更新遍历过程中的边缘增益,使用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题;
步骤3:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法,代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑;在已经获取网络先验知识的情形下,提取节点重要性指标(例如出度等),代入步骤2的基于节点重要性估计的在线社交网络拓扑推断算法中,推断网络拓扑。
本发明中,步骤1的具体流程为:
步骤1-3:计算所有在t0到t0+tmax时间段内获得信息的节点的影响力总和W;
本发明中,步骤2的具体流程为:
步骤2-4:根据是否具有网络先验知识更新边缘增益;
步骤2-5:利用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题。
本发明中,步骤3的具体流程为:
步骤3-1:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法估计节点的影响力,再将其代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑;
步骤3-2:在已经获取网络先验知识的前提下,提取节点重要性指标(例如出度、节点中心性、节点自身的性质等),代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑。
本发明的创新点在于:本发明充分考虑了在线社交网络的异质性,提出了带有节点重要性的网络拓扑推断算法。为了应对任何关于节点重要性的先验信息都无法获取的情况,进一步提出了一种可以直接估计节点重要性的算法。本发明实现了在有无网络先验知识下,都可以依托带有节点重要性的网络拓扑推断算法重构社交网络,并提高了推断的准确性。
附图说明
图1为本发明获得信息的节点的影响力示意图。
图2为本发明网络推断问题中的独立级联模型。
图3为本发明网络推断问题中马尔可夫链-蒙特卡洛采样方法流程图。
图4为算法1、2、3在不同级联下的网络拓扑推断准确率。
具体实施方式
为了使本发明的上述目的和创新点能够更加容易理解,下面结合附图和具体实施方式对本发明作进一步详细的说明。
步骤1:节点重要性估计。本发明提到的节点重要性是指节点在传播过程中的影响力,根据信息传播过程获得节点重要性。
步骤1-1:已知要推断的网络具有N个节点,代表网络的节点集合。C×N维矩阵D=[d1,d2,…,dC]T表示观察到的传播结果,其中记录了每个节点在第c次传播中第一次获得信息的时刻。节点重要性估计算法的输入就是信息传播结果D=[d1,d2,…,dC]T和信息传播等待时间分布ρ(τ),而输出是每个节点的重要性:统计节点在t0时刻获得感染后tmax时间段内获得消息的节点数目的增加量,记作从一定程度上反映了在t0时刻获得感染的节点的重要性。
步骤1-2:设tu表示节点u在一次传播中的首达时间,节点u将信息传播出去的能力表现为持续时间tmax;不妨认为节点u在tu到tu+tmax时间段内影响力为单位数值1,且在这段时间内影响力分布遵循等待时间分布ρ(τ)。对于在t0时刻之前获得信息的节点,如果它获得信息的是:t0-Δt,1≤Δt<tmax,那么它在tu到tu+tmax时间段内的影响力可以用公式(1)来计算:
其中,tmax-Δt为权重,表示越早到达的信息权重越高。
步骤1-3:所有在t0到t0+tmax时间段内获得信息的节点的影响力总和W可以用公式(2)来计算:
其中,nΔt-代表在t0-Δt时刻新获得信息的节点数目,nΔt+代表在t0+Δt时刻新获得信息的节点数,n0表示在t0时刻获得消息的节点数。
步骤2:带有节点重要性的网络拓扑推断。
当考虑所有观察到的级联,可以得到公式(6):
步骤2-3:从一个空图开始,对每个节点对(u,v)遍历,考察当节点对连边状态改变时,似然函数的增减变化,用边缘增益表示;每次操作,都计算接受概率 并按此概率来接受此次连边反转操作。如公式(8)所示,当节点对边缘增益是当添加连边(u,v)后似然函数的增加量,当节点对边缘增益是移除连边(u,v)后似然函数的增加量。将节点的异质性引入到网络推断的过程中,基于不带有节点重要性的网络拓扑推断算法[2]获得公式(8):
步骤2-4:若已知网络先验知识,节点重要性是固定的,边缘增益如公式(8)所示。若未知网络先验知识,节点重要性是估计得到的,存在一定的偏差,边缘增益更新为公式(9):
其中,εuv服从正态分布的高斯白噪声,εuv表示对估计误差的补偿。
步骤2-5:利用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题。在一次迭代中,网络中所有的节点对都会被遍历一次,每迭代max_lag次采样一次。M是采样次数,burn_in是达到稳定状态的迭代次数,达到稳定后再开始采样,参见图3。
步骤3:根据有无网络先验知识,推断网络的拓扑。
步骤3-1:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法,先估计出每个节点的影响力,再代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑。
步骤3-2:在已经获取网络先验知识的前提下,提取节点重要性指标(例如出度、节点中心性、节点自身的性质等),代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑。
本文使用一位用户的实际的Twitter社交网络为实验对象,利用本发明算法进行评估。该网络包含1973个节点,分别选取不同的级联进行算法对比,同时探索级联数对算法准确率的影响。为方便阐述,将不考虑节点重要性的网络拓扑推断记为算法1,将节点度作为节点重要性进行网络拓扑推断记为算法2,将估计节点重要性用于网络拓扑推断的算法记为算法3.本实验中选取的参数为α=20,β=1,M=10,max_lag=10,burn_in=10,获得的实验结果如表1和图4所示。可以发现,级联的层数对推断准确率具有一定的影响。当考虑网络中节点的先验重要性时,网络的推断准确率明显高于未使用节点重要性推断的准确率;本文提出的节点重要性估计方法相比于先验的节点重要性知识,其准确率低一些,说明对节点重要性估计存在一定的偏差。
表1,算法1、2、3在不同级联下的网络拓扑推断准确率。
参考文献:
[1]Kempe D,Kleinberg J,TardosMaximizing the spread of influencethrough a social network[C]//Proceedings of the ninth ACM SIGKDDinternational conference on Knowledge discovery and data mining.2003:137-146.
[2]Li X,Li X.Reconstruction of stochastic temporal networks throughdiffusive arrival times[J].Nature communications,2017,8(1):1-10.
[3]Barabási A L,Albert R.Emergence of scaling in random networks[J].science,1999,286(5439):509-512.
[4]Mastrandrea R,Fournet J,Barrat A.Contact patterns in a highschool:a comparison between data collected using wearable sensors,contactdiaries and friendship surveys[J].PloS one,2015,10(9):e0136497。
Claims (3)
1.一种基于节点重要性估计的在线社交网络拓扑推断算法,具体步骤为:
步骤1:节点重要性估计
步骤1-3:计算所有在t0到t0+tmax时间段内获得信息的节点的影响力总和W;
步骤2:在不带有节点重要性的网络拓扑推断算法的基础上,设计节点重要性偏置,更新遍历过程中的边缘增益,使用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题;具体包括:
步骤2-4:根据是否具有网络先验知识更新边缘增益;
步骤2-5:利用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题;
步骤3:在没有任何网络先验知识的情形下,应用步骤1提出的节点重要性估计方法,代入步骤2的带有节点重要性的网络拓扑推断算法中,推断网络拓扑;在已经获取网络先验知识的情形下,提取节点重要性指标,代入步骤2的基于节点重要性估计的在线社交网络拓扑推断算法中,推断网络拓扑。
2.根据权利要求1所述的基于节点重要性估计的在线社交网络拓扑推断算法,其特征在于,步骤1所述的节点重要性估计,具体操作流程如下:
步骤1-2:设tu表示节点u在一次传播中的首达时间,节点u将信息传播出去的能力表现为持续时间tmax;设节点u在tu到tu+tmax时间段内影响力为单位数值1,且在这段时间内影响力分布遵循等待时间分布ρ(τ);对于在t0时刻之前获得信息的节点,如果它获得信息的是:t0-Δt,1≤Δt<tmax,那么它在tu到tu+tmax时间段内的影响力用公式(1)来计算:
其中,tmax-Δt为权重,表示越早到达的信息权重越高;
步骤1-3:所有在t0到t0+tmax时间段内获得信息的节点的影响力总和W用公式(2)来计算:
其中,nΔt-代表在t0-Δt时刻新获得信息的节点数目,nΔt+代表在t0+Δt时刻新获得信息的节点数;
其中,Du代表所有节点u参与的级联对应的传播结果。
3.根据权利要求2所述的在线社交网络拓扑推断算法,其特征在于,步骤2中所述带有节点重要性的网络拓扑推断,具体流程为:
考虑所有观察到的级联,得到公式(6):
并按此概率来接受此次连边反转操作;
当节点对边缘增益是当添加连边(u,v)后似然函数的增加量,当节点对边缘增益是移除连边(u,v)后似然函数的增加量;将节点的异质性引入到网络推断的过程中,基于不带有节点重要性的网络拓扑推断算法,获得公式(8):
步骤2-4:若已知网络先验知识,节点重要性是固定的,边缘增益如公式(8)所示;若未知网络先验知识,节点重要性是估计得到的,存在一定的偏差,边缘增益更新为公式(9):
其中,εuv为高斯白噪声,服从正态分布;
步骤2-5:利用马尔可夫链-蒙特卡洛采样方法来解决似然函数最大化的问题;在一次迭代中,网络中所有的节点对都会被遍历一次,每迭代max_lag次采样一次;M是采样次数,burn_in是达到稳定状态的迭代次数,达到稳定后再开始采样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693996.3A CN115001982B (zh) | 2022-06-19 | 2022-06-19 | 基于节点重要性估计的在线社交网络拓扑推断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693996.3A CN115001982B (zh) | 2022-06-19 | 2022-06-19 | 基于节点重要性估计的在线社交网络拓扑推断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115001982A true CN115001982A (zh) | 2022-09-02 |
CN115001982B CN115001982B (zh) | 2024-02-02 |
Family
ID=83035848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210693996.3A Active CN115001982B (zh) | 2022-06-19 | 2022-06-19 | 基于节点重要性估计的在线社交网络拓扑推断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115001982B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801600A (zh) * | 2022-11-14 | 2023-03-14 | 武汉大学 | 一种面向噪声数据环境的传播网络结构重构方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294589A1 (en) * | 2007-05-22 | 2008-11-27 | Chu Wesley W | System and methods for evaluating inferences of unknown attributes in a social network |
CN105630800A (zh) * | 2014-10-29 | 2016-06-01 | 杭州师范大学 | 一种节点重要性排序的方法和系统 |
CN106022937A (zh) * | 2016-05-27 | 2016-10-12 | 北京大学 | 一种社交网络拓扑结构的推断方法 |
US20200366690A1 (en) * | 2019-05-16 | 2020-11-19 | Nec Laboratories America, Inc. | Adaptive neural networks for node classification in dynamic networks |
-
2022
- 2022-06-19 CN CN202210693996.3A patent/CN115001982B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294589A1 (en) * | 2007-05-22 | 2008-11-27 | Chu Wesley W | System and methods for evaluating inferences of unknown attributes in a social network |
CN105630800A (zh) * | 2014-10-29 | 2016-06-01 | 杭州师范大学 | 一种节点重要性排序的方法和系统 |
CN106022937A (zh) * | 2016-05-27 | 2016-10-12 | 北京大学 | 一种社交网络拓扑结构的推断方法 |
US20200366690A1 (en) * | 2019-05-16 | 2020-11-19 | Nec Laboratories America, Inc. | Adaptive neural networks for node classification in dynamic networks |
Non-Patent Citations (1)
Title |
---|
XU HAO等: ""Network topology inference with estimated node importance"", 《A LETTERS JOURNAL EXPLORING THE FRONTIERS OF PHYSICS》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801600A (zh) * | 2022-11-14 | 2023-03-14 | 武汉大学 | 一种面向噪声数据环境的传播网络结构重构方法及装置 |
CN115801600B (zh) * | 2022-11-14 | 2024-04-19 | 武汉大学 | 一种面向噪声数据环境的传播网络结构重构方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115001982B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moore et al. | Predicting the speed of epidemics spreading in networks | |
Skaza et al. | Modeling the infectiousness of Twitter hashtags | |
Hardiman et al. | Estimating clustering coefficients and size of social networks via random walk | |
Liu et al. | C-RBFNN: A user retweet behavior prediction method for hotspot topics based on improved RBF neural network | |
Dong et al. | Studies on the population dynamics of a rumor-spreading model in online social networks | |
CN106682770A (zh) | 一种基于好友圈子的动态微博转发行为预测系统及方法 | |
Li et al. | Controllability and observability of Boolean networks arising from biology | |
Zhu et al. | Rumor diffusion model with spatio-temporal diffusion and uncertainty of behavior decision in complex social networks | |
CN111242794A (zh) | 一种度量社会网络影响力的方法 | |
Foroozani et al. | Anomalous information diffusion in social networks: Twitter and Digg | |
CN115001982A (zh) | 基于节点重要性估计的在线社交网络拓扑推断算法 | |
Samir et al. | LKG: A fast scalable community-based approach for influence maximization problem in social networks | |
Li et al. | Three-hop velocity attenuation propagation model for influence maximization in social networks | |
Wang et al. | Efficient diversified influence maximization with adaptive policies | |
Liu et al. | A novel hybrid-jump-based sampling method for complex social networks | |
CN113946708B (zh) | 基于图像复原技术和谣言辟谣信息的话题传播预测方法 | |
Li et al. | Utility-based model for characterizing the evolution of social networks | |
Yanchenko et al. | Link prediction for ex ante influence maximization on temporal networks | |
Xu et al. | Flexible sampling large-scale social networks by self-adjustable random walk | |
WO2016202209A1 (zh) | 基于图简化技术的社交网络中用户影响力估算方法及装置 | |
Nakajima et al. | Estimating Top-k betweenness centrality nodes in online social networks | |
Zhang et al. | Learning Human Activity Patterns Using Clustered Point Processes With Active and Inactive States | |
Aminolroaya et al. | How Iranian Instagram users act for parliament election campaign? a study based on followee network | |
Wang et al. | Sampling node pairs over large graphs | |
Shang et al. | Factor Analysis for Influence Maximization Problem in Social Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |