CN110362754B - 基于强化学习的线上社交网络信息源头检测的方法 - Google Patents

基于强化学习的线上社交网络信息源头检测的方法 Download PDF

Info

Publication number
CN110362754B
CN110362754B CN201910499577.4A CN201910499577A CN110362754B CN 110362754 B CN110362754 B CN 110362754B CN 201910499577 A CN201910499577 A CN 201910499577A CN 110362754 B CN110362754 B CN 110362754B
Authority
CN
China
Prior art keywords
node
nodes
subgraph
information
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910499577.4A
Other languages
English (en)
Other versions
CN110362754A (zh
Inventor
谭哲越
尹建伟
李莹
邓水光
尚永衡
张鹿鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910499577.4A priority Critical patent/CN110362754B/zh
Publication of CN110362754A publication Critical patent/CN110362754A/zh
Application granted granted Critical
Publication of CN110362754B publication Critical patent/CN110362754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于强化学习的线上社交网络信息源头检测的方法,针对庞大的在线社交网络,当观测整个网络不可行或是对整个网络进行计算不可行时,采用观察网络局部的状态来收集信息;观测庞大社交网络有限的局部信息,同时对网络结构和传播状态进行观察,构造社交网络信息传播的局部特征矩阵;针对收集到的信息,使用强化学习方法来拟合函数近似器,用于判决传播重要节点或源头;对判决过程中收集到的节点信息和观测子图的特征矩阵进行整合,完善强化学习策略的输入信息,提升检测信息传播源头的准确度。该方法能够对在线社交网络中的信息传播源头进行检测,且有效解决了对庞大网络观测或计算能力不足的问题。

Description

基于强化学习的线上社交网络信息源头检测的方法
技术领域
本发明属于信息数据挖掘技术领域,特别地涉及一种基于强化学习的线上社交网络特定信息传播源头检测的方法。
背景技术
现代社交网络中信息源头检测方法多采用传统的方式,主要基于完全的结构信息的特征。传统方法基于如下的完全信息:整个网络的拓扑结构可见,传播过程中使用的渠道可见(即在网络的抽象图结构中,信息传播所使用的边可知)。实际的信息传播过程类似于生成树形网络,在对此传播途径的结构拥有完全观察能力的情况下,传统方法基于这种信息能够较为有效地检测信息源头。
对于现代的在线社交网络,网络通常非常庞大:数百万个节点,节点度的不规则分布。在这种庞大的网络中,我们对网络的观察能力受到限制:
(1)在没有相关权限时,观察社交网络的全局信息变得困难,我们仅能观察特定节点周围的信息;
(2)即使社交网络提供商提供网络的全部信息,由于计算能力的有限,传统方法也不再可行。
发明内容
为解决上述问题,本发明的目的在于提供一种基于强化学习的线上社交网络信息源头检测的方法,其通过强化学习挑选特定节点并观察其邻域信息,计算相应的特征矩阵,整合所有观察的子图的特征,判决特定信息传播的源头。
为实现上述目的,本发明的解决方案为:
一种基于强化学习的线上社交网络信息源头检测的方法,
强化学习代理在线上社交网络中挑选观察节点,观察n跳范围的子图中所有节点的全局特征和局部特征,n可以为任意自然数,根据计算能力选择,比如选择1或2;
所述的观察n跳范围的子图中所有节点的全局特征:观察节点对特定信息的传播过程的参与状态、观察节点过去对其他信息传播过程的参与行为来估计其易受感染的程度、观察节点在全局网络中的度、观察节点在全局网络中的周围节点对特定信息的传播过程的参与状态;
所述的观察n跳范围的子图中所有节点的局部特征:观察节点在子图中的度和其周围节点对特定信息的传播过程的参与状态、计算节点在子图中的某种中心性;
分别将子图中所有节点的全局特征和局部特征组合在一起构成其特征向量,然后将子图节点的特征向量组合在一起构成此子图的特征矩阵;
强化学习代理从初始节点出发,在其邻域依次挑选若干节点进行观察,构造特征矩阵;使用这些特征矩阵的序列计算每个节点在传播过程中的重要程度,判断信息传播源头节点。
所述的方法,具体如下:
有限全局信息观察:将线上社交网络的结构抽象为无向图G(V,E),强化学习代理观察网络中节点对信息传播的参与状态:
(1)有过参与传播的行为则视作被感染,对不同的用户i,被感染状态si=1,否则si=0;
(2)根据用户过去的行为估计其易受感染的程度:转发过大量信息为高,反之则偏低,对不同的用户i分别记为
Figure BDA0002089762270000021
(3)观察网络中用户周围受感染节点的数目,对不同的用户i分别记作ni
(4)观察网络中用户的度,对不同的用户i分别记作di;使用上述特征构造全局特征向量:
Figure BDA0002089762270000022
局部信息观察:强化学习代理挑选一个观测节点v,以其为中心,生成n 跳子图为观测范围,记作
Figure BDA0002089762270000023
使用此子图中可被观测的局部信息构建每个用户的局部特征向量:
(1)观察每个节点在局部子图中的度,记作d′i
(2)观察每个节点在局部子图中周围受感染节点的数目,记作n′i
(3)计算此节点在局部子图中的中心性,包括接近度中心性(degreecentrality),中心性(closeness centrality),中间中心性(between centrality),特征向量中心性(eigenvector centrality)或任意一种能够衡量节点中心性的计算方法,记作c′i
(4)将上述在局部子图中计算的特征组合成为节点i的局部特征向量: li=[d′i,n′i,c′i];分别将观测子图
Figure BDA0002089762270000031
中每个节点的全局特征向量和局部特征向量连接在一起,构成每个节点的特征向量xi=[gi,li],
构造特征矩阵:将子图中的各个节点的特征向量整合,构造特征矩阵:
Figure BDA0002089762270000032
强化学习代理的策略网络使用神经网络作为强化学习动作-状态价值函数近似器,记作
Figure BDA0002089762270000033
其中
Figure BDA0002089762270000034
为当前强化学习代理对状态的估计,a为所选的动作;使用过去所有的观测信息即已计算好的特征矩阵序列作为状态的估计:
Figure BDA0002089762270000035
for v∈T(v0,v1,…,vl)
其中,T(v0,v1,…,vl)是过去所选择节点的轨迹,其中选择第一个节点时,轨迹中仅有初始节点v0
在观测节点v,选择下一个观测节点a′的策略为:
Figure 1
即选择具有最大
Figure BDA0002089762270000037
值的节点,然后强化学习代理在节点a′进行观测,计算下一个特征矩阵,加入轨迹计算新的
Figure BDA0002089762270000038
并选择下一个节点;
当节点轨迹中最后两个节点为同一个节点时,停止选择下一个节点,此时的最终节点即为输出——检测到的信息传播源头。
与现有技术相比,本发明的有益效果为:本发明提供的基于强化学习的线上社交网络特定信息传播源头检测的方法有效降低了在大型网络上检测信息源头的时间复杂度,同时提供了在没有观测整个网络的能力的情况下检测信息源头的方法,降低了解决相关问题的难度。
附图说明
图1是基于节点1和节点6的观测子图;
图2是节点31的观测子图及每个节点的Q值;
图3是节点2的观测子图及每个节点的Q值;
图4是强化学习代理在指定节点的观测子图以及子图中各节点的Q值。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的阐述。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
社交网络信息源检测是在社交网络信息传播过程中检测/识别传播源头的过程,其中,社交网络一般是抽象为图结构,其中节点和边根据应用场景的不同而拥有不同的属性。对于现代在线社交网络,其图结构是非常庞大的。对于这样的巨大的图,本发明通过观察其若干局部特征,进而判别信息传播的源头。
判别流程具体为:
步骤1,观察信息
有限全局信息观察:将线上社交网络的结构抽象为无向图G(V,E),强化学习代理(Agent)观察网络中节点(用户)对信息传播的参与状态:
(1)有过参与传播的行为则视作被感染(对不同的用户i,被感染状态si=1,否则si=0);
(2)根据用户过去的行为估计其易受感染的程度:转发过大量信息为高(容易传播信息),反之则偏低,对不同的用户i分别记为
Figure BDA0002089762270000041
(3)观察网络中用户周围受感染节点的数目(信息的转发数),对不同的用户i分别记作ni
(4)观察网络中用户的度(社交网络中粉丝、朋友的数目),对不同的用户i分别记作di;使用上述特征构造全局特征向量:
Figure BDA0002089762270000042
例如,由图1所示,灰色节点为被感染节点,各节点易受感染程度列于表格中。根据如上观察方法,图中节点4的全局特征向量为:g4=[1,0.8,4,5];
局部信息观察:Agent挑选一个观测节点v,以其为中心,生成n跳子图为观测范围,记作
Figure BDA0002089762270000043
使用此子图中可被观测的局部信息构建每个用户的局部特征向量:
(1)观察每个节点在局部子图中的度,记作d′i
(2)观察每个节点在局部子图中周围受感染节点的数目,记作n′i
(3)计算此节点在局部子图中的中心性,包括度中心性(degree centrality),接近中心性(closeness centrality),中间中心性(between centrality),特征向量中心性(eigenvector centrality)或其他任何一种用于衡量中心性的方法,记作c′i
(4)将上述在局部子图中计算的特征组合成为节点i的局部特征向量: li=[d′i,n′i,c′i];分别将观测子图
Figure BDA0002089762270000044
中每个节点的全局特征向量和局部特征向量连接在一起,构成每个节点的特征向量xi=[gi,li];
特别地,当同一个节点处于不同的观察子图中时,其局部特征向量相对应的也有所改变。例如,如图1所示,虚线框分别是从节点1(左)进行观察和节点6(右)观察。节点4在这两个观察子图中的局部特征向量分别为(以度中心性为例):l4=[3,3,3](左),l4=[2,1,2](右)。由此,节点4在两个子图中的特征向量分别为:x4=[1,0.8,4,5,3,3,3](左)和x4=[1,0.8,4,5,2,1,2](右)。
步骤2,整合信息
构造特征矩阵:将子图中的各个节点的特征向量整合,构造特征矩阵:
Figure BDA0002089762270000051
强化学习代理的策略网络使用神经网络作为强化学习动作-状态价值函数近似器,记作
Figure BDA0002089762270000052
其中
Figure BDA0002089762270000053
为当前强化学习代理对状态的估计,a为所选的动作(即节点,以下会同时使用)。可以使用各类函数近似器,包括但不限于多层感知机,神经网络等。使用过去所有的观测信息(已计算好的特征矩阵)序列作为状态的估计:
Figure BDA0002089762270000054
for v∈T(v0,v1,…,vl)
其中,T(v0,v1,…,vl)是过去所选择节点的轨迹,特殊地,选择第一个节点时,轨迹中仅有初始节点v0
步骤3,判决过程
在某个观测节点v,选择下一个观测节点a′的策略为:
Figure BDA0002089762270000055
即选择具有最大
Figure BDA0002089762270000056
值的节点。
以图2中展示的Karate Club Graph子图为例,使用神经网络作为函数近似器,在节点31观测并计算各个节点对应的
Figure BDA0002089762270000057
值,其中节点28拥有最高的
Figure BDA0002089762270000058
值,为强化学习代理所选择的下一个进行观测的节点。
然后强化学习代理在节点a′进行观测,计算下一个特征矩阵,加入轨迹计算新的
Figure BDA0002089762270000059
并选择下一个节点;当节点轨迹中最后两个节点为同一个节点时,停止选择下一个节点。如图3所示,在节点2进行判断,
Figure BDA00020897622700000510
值最高的节点依然为节点2,判决停止。此时的最终节点即为输出——检测到的信息传播源头。
以图4为例,强化学习代理检测信息源头是一个连续的过程:除初始节点外,每一次的观测节点皆从上一次观测的子图中进行选择,且可能反复对若干个节点进行选择。其中,反复选择的过程是强化学习代理为最终的结果输出收集信息的过程。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解,根据已经公开的教导和启示,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的保护范围由所附权利要求及其任何等同物给出。

Claims (1)

1.一种基于强化学习的线上社交网络信息源头检测的方法,其特征在于,
强化学习代理在线上社交网络中挑选观察节点,观察n跳范围的子图中所有节点的全局特征和局部特征;
所述的观察n跳范围的子图中所有节点的全局特征:观察节点对特定信息的传播过程的参与状态、观察节点过去对其他信息传播过程的参与行为来估计其易受感染的程度、观察节点在全局网络中的度、观察节点在全局网络中的周围节点对特定信息的传播过程的参与状态;
所述的观察n跳范围的子图中所有节点的局部特征:观察节点在子图中的度和其周围节点对特定信息的传播过程的参与状态、计算节点在子图中的某种中心性;
分别将子图中所有节点的全局特征和局部特征组合在一起构成其特征向量,然后将子图节点的特征向量组合在一起构成此子图的特征矩阵;
强化学习代理从初始节点出发,在其邻域依次挑选若干节点进行观察,构造特征矩阵;使用这些特征矩阵的序列计算每个节点在传播过程中的重要程度,判断信息传播源头节点;
所述的方法,具体如下:
有限全局信息观察:将线上社交网络的结构抽象为无向图G(V,E),强化学习代理观察网络中节点对信息传播的参与状态:
(1)有过参与传播的行为则视作被感染,对不同的用户i,被感染状态si=1,否则si=0;
(2)根据用户过去的行为估计其易受感染的程度:转发过大量信息为高,反之则偏低,对不同的用户i分别记为
Figure FDA0003494572590000011
(3)观察网络中用户周围受感染节点的数目,对不同的用户i分别记作ni
(4)观察网络中用户的度,对不同的用户i分别记作di;使用上述特征构造全局特征向量:
Figure FDA0003494572590000012
局部信息观察:强化学习代理挑选一个观测节点v,以其为中心,生成n跳子图为观测范围,记作
Figure FDA0003494572590000013
使用此子图中可被观测的局部信息构建每个用户的局部特征向量:
(1)观察每个节点在局部子图中的度,记作d′i
(2)观察每个节点在局部子图中周围受感染节点的数目,记作n′i
(3)计算此节点在局部子图中的中心性,包括度中心性、接近中心性、中间中心性、特征向量中心性中任意一种,记作c′i
(4)将上述在局部子图中计算的特征组合成为节点i的局部特征向量:li=[d′i,n′i,c′i];
分别将观测子图
Figure FDA0003494572590000021
中每个节点的全局特征向量和局部特征向量连接在一起,构成每个节点的特征向量xi=[gi,li],
构造特征矩阵:将子图中的各个节点的特征向量整合,构造特征矩阵:
Figure FDA0003494572590000022
强化学习代理的策略网络使用神经网络作为强化学习动作-状态价值函数近似器,记作
Figure FDA0003494572590000023
其中
Figure FDA0003494572590000024
为当前强化学习代理对状态的估计,a为所选的动作;使用过去所有的观测信息即已计算好的特征矩阵序列作为状态的估计:
Figure FDA0003494572590000025
其中,T(ν0,v1,…,vl)是过去所选择节点的轨迹,其中选择第一个节点时,轨迹中仅有初始节点v0
在观测节点ν,选择下一个观测节点a′的策略为:
Figure FDA0003494572590000026
即选择具有最大
Figure FDA0003494572590000027
值的节点,然后强化学习代理在节点a′进行观测,计算下一个特征矩阵,加入轨迹计算新的
Figure FDA0003494572590000028
并选择下一个节点;
当节点轨迹中最后两个节点为同一个节点时,停止选择下一个节点,此时的最终节点即为输出——检测到的信息传播源头。
CN201910499577.4A 2019-06-11 2019-06-11 基于强化学习的线上社交网络信息源头检测的方法 Active CN110362754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910499577.4A CN110362754B (zh) 2019-06-11 2019-06-11 基于强化学习的线上社交网络信息源头检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910499577.4A CN110362754B (zh) 2019-06-11 2019-06-11 基于强化学习的线上社交网络信息源头检测的方法

Publications (2)

Publication Number Publication Date
CN110362754A CN110362754A (zh) 2019-10-22
CN110362754B true CN110362754B (zh) 2022-04-29

Family

ID=68216855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910499577.4A Active CN110362754B (zh) 2019-06-11 2019-06-11 基于强化学习的线上社交网络信息源头检测的方法

Country Status (1)

Country Link
CN (1) CN110362754B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445291B (zh) * 2020-04-01 2022-05-13 电子科技大学 一种为社交网络影响力最大化问题提供动态决策的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199884A (zh) * 2014-08-19 2014-12-10 东北大学 一种基于r覆盖率优先的社交网络观察点选取方法
CN106228452A (zh) * 2016-07-08 2016-12-14 清华大学 基于因果推断的社交网络信息传播历史排序方法
CN106557985A (zh) * 2016-11-21 2017-04-05 云南大学 一种基于随机游走的社交网络信息传播源求解方法
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法
CN109496305A (zh) * 2018-08-01 2019-03-19 东莞理工学院 连续动作空间上的纳什均衡策略及社交网络舆论演变模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010784B2 (en) * 2017-01-31 2021-05-18 Walmart Apollo, Llc Systems and methods for search query refinement

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199884A (zh) * 2014-08-19 2014-12-10 东北大学 一种基于r覆盖率优先的社交网络观察点选取方法
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法
CN106228452A (zh) * 2016-07-08 2016-12-14 清华大学 基于因果推断的社交网络信息传播历史排序方法
CN106557985A (zh) * 2016-11-21 2017-04-05 云南大学 一种基于随机游走的社交网络信息传播源求解方法
CN109496305A (zh) * 2018-08-01 2019-03-19 东莞理工学院 连续动作空间上的纳什均衡策略及社交网络舆论演变模型

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《社交网络中信息传播和溯源模型研究》;何冰心;《中国优秀硕士学位论文电子期刊信息科技辑》;20190228;全文 *
Tree sampling for Detection of Information Source in Densely Connected Networks;Taewon Min,Changhee Joo;《Electronics》;20190527;全文 *
在线社会网络谣言检测综述;陈燕方;《计算机学报》;20180730;第41卷(第7期);全文 *

Also Published As

Publication number Publication date
CN110362754A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
Luo et al. Identifying infection sources and regions in large networks
CN112668044B (zh) 面向联邦学习的隐私保护方法及装置
CN102802158B (zh) 基于信任评估的无线传感器网络异常检测方法
Guure et al. Bayesian analysis of the survival function and failure rate of Weibull distribution with censored data
Guo et al. Feature selection based on Rough set and modified genetic algorithm for intrusion detection
CN110213164A (zh) 一种基于拓扑信息融合的识别网络关键传播者的方法及装置
CN113762525B (zh) 一种具有差分隐私保护的联邦学习模型训练方法
US20160133341A1 (en) Signal transition analysis of a circuit
Hajek et al. Community recovery in a preferential attachment graph
CN110362754B (zh) 基于强化学习的线上社交网络信息源头检测的方法
Xu et al. LCH: A local clustering H-index centrality measure for identifying and ranking influential nodes in complex networks
CN108259195A (zh) 异常事件的影响范围的确定方法及系统
CN105228185A (zh) 一种用于识别通信网络中模糊冗余节点身份的方法
CN107682200A (zh) 一种基于有限观测的互联网传播源定位的方法
CN111612641A (zh) 一种社交网络中有影响力用户的识别方法
CN113850399A (zh) 一种基于预测置信度序列的联邦学习成员推断方法
Scheike et al. Maximum likelihood estimation for tied survival data under Cox regression model via EM-algorithm
Ju et al. Generating synthetic graphs for large sensitive and correlated social networks
CN111178678A (zh) 基于社团影响力的网络节点重要性评估方法
Sumith et al. RnSIR: A new model of information spread in online social networks
CN111144572A (zh) 一种基于树形贝叶斯网络的配电网灾情推断方法及系统
CN112256756B (zh) 一种基于三元关联图和知识表示的影响力发现方法
Yoshikawa et al. A fake news dissemination model based on updating reliability and doubt among individuals
CN103200034B (zh) 一种基于谱约束和敏感区划分的网络用户结构扰动方法
CN112597699B (zh) 一种融入客观赋权法的社交网络谣言源识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant