CN110046224B

CN110046224B - 一种基于区域的社交网络谣言抑制方法

Info

Publication number: CN110046224B
Application number: CN201910300119.3A
Authority: CN
Inventors: 杨武; 朱文龙; 王巍; 玄世昌; 苘大鹏; 吕继光
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2023-05-09
Anticipated expiration: 2039-04-15
Also published as: CN110046224A

Abstract

本发明提供的是一种基于区域的社交网络谣言抑制方法。(1)根据已知信息构建社交网络中任意节点的最大影响树；(2)根据社交网络中节点的位置信息构建四叉树存储节点位置；(3)对于给定的查询区域和阻断区域，得到备选种子集和阻断节点集；(4)对于备选种子集中的每个备选种子，计算其区域影响集；(5)对于备选种子集中的每个备选种子，计算其区域阻断影响力；(6)以贪婪的方式循环从备选种子集中选择阻断影响力最大的k个节点作为种子节点传播真实消息，阻断谣言在阻断区域中的传播。本发明能够根据不同的查询区域和阻断区域进行种子选择，在查询区域中选择最优种子进行正面消息的传播，从而在阻断区域中最大限度的抑制谣言的传播。

Description

一种基于区域的社交网络谣言抑制方法

技术领域

本发明涉及的是一种网络谣言抑制方法，具体地说是一种在社交网络中在查询区域中选择种子节点传播真实消息并在阻断区域中抑制谣言传播的方法。

背景技术

随着互联网技术的飞速发展，以Facebook、Twitter、新浪微博、腾讯微博等为代表的社交网络不断涌现，利用社交网络进行信息交流已成为人们日常生活中的一部分。由于社交网络信息传播的低成本、难追踪等特性，社交网络极易成为谣言传播的温床，其造成的政治、经济等领域的损失更是不可估量。以微信平台为例，2018年全年共拦截谣言8.4万多条。2018年3月的一则“伊利董事长潘刚被有关部门带走调查”的谣言更是使得伊利股份盘中价格振幅达到8.95％，较当日最高市值蒸发131.9亿元。当谣言或恶意信息发生时，通过寻找阻断影响力最大的种子传播正面影响，可以有效抑制谣言的传播，减少谣言带来的损失。

He等人首次考虑了如何在网络中寻找这些影响力较大的节点，他们将谣言抑制问题定义为影响力阻断最大化问题，该问题的目标是寻找k个用户(也称为肯定种子集)，通过朋友关系进行正面信息的传播，使得由该种子集产生的正面信息的传播能够最大限度地阻断谣言的起源节点(也称为否定种子集)产生的谣言信息的传播。近几年来，随着社交网络谣言抑制相关问题研究的兴起，阻断影响力最大化问题正受到越来越多学者的关注。例如，Wu等人基于最大影响树模型提出了两种启发式算法解决谣言抑制问题。李劲等人从谣言产生源的不确定性上考虑谣言抑制问题，提出了基于博弈理论的算法选择负面种子。Lv等人基于社区发现理论提出了在不同的社区中选择肯定种子集来解决谣言抑制问题。虽然研究者们不同的角度对谣言抑制问题进行了研究，但现有的研究并没有考虑到谣言抑制的区域性问题，例如，通过在查询区域中选择种子进行正面消息的传播，从而在阻断区域中最大限度的抑制谣言的传播，在这种情况下，选择不同的查询区域和阻断区域会产生不同的种子集选择结果。

发明内容

本发明的目的在于提供一种能够最大限度地抑制谣言传播的基于区域的社交网络谣言抑制方法。

本发明的目的是这样实现的：

(1)根据已知信息构建社交网络G中任意节点的最大影响树；

(2)根据社交网络中节点的位置信息构建四叉树存储节点位置；

(3)对于给定的查询区域R_C和阻断区域R_B，得到备选种子集C和阻断节点集B，所述备选种子集C是查询区域中所有节点的集合，所述阻断节点集B是阻断区域中所有节点的集合；

(4)对于备选种子集C中的每个备选种子u，计算其区域影响集I_e(u,B)，所述区域影响集I_e(u,B)是u在阻断节点集B中能够到达的节点的集合；

(5)对于备选种子集C中的每个备选种子u，计算其区域阻断影响力decInc(u,B)，所述区域阻断影响力是u对I_e(u,B)中每个节点v的阻断影响力decInc(u,v)的累加和；

(6)以贪婪的方式循环从备选种子集中选择阻断影响力最大的k个节点作为种子节点传播真实消息，阻断谣言在阻断区域中的传播。

本发明还可以包括：

1.步骤(1)具体包括：

所述已知信息为：已知社交网络G＝(V,E),V为网络中节点的集合，E为网络中边的集合；已知谣言的起源节点集SN；已知谣言的传播模型为一个影响力传播模型；已知V中任意节点的位置信息；

(1.1)对于G中的任意节点对v，利用Djkstra算法计算其最大影响入树MIIA(v，θ)，θ用来控制传播的范围；

(1.2)对于G中的任意节点对v，利用Djkstra算法计算其最大影响出树MIOA(v，θ)。

2.步骤(2)具体包括：

(2.1)创建四叉树根单元<C_id，MBR，NSET，SE，SW，NE，NW>，其中C_id表示四叉树单元序号，MBR是该单元所覆盖的最小边界矩形，NSET是该单元中存储的节点的集合，SE、SW、NE、NW表示四叉树的孩子指针，c为表示四叉树单元容量的一个全局变量，设置其MBR＝[(0,0),(180,90)],设置当前单元为qt；

(2.2)检测当前单元容量是否超过c，若未超过c，对于G中所有未访问节点v，如果v坐标位于当前单元的MBR内，则将其保存在该单元，设置v为访问状态；若G中所有节点都为访问状态，则完成四叉树的创建；

(2.3)若当前单元容量超过c且SE为空，则创建4个孩子单元SE、SW、NE、NW，每个单元的MBR分别为当前单元MBR的四分之一；

(2.4)若当前单元容量超过c且SE不为空，则按广度优先方式在SE、SW、NE、NW中执行步骤(2.2)。

3.步骤(3)中得到备选种子集C的方法为：

(3.1)将四叉树根单元设置为当前单元，将备选种子集C置为空；

(3.2)如果R_Q与当前单元没有交集，则结束本次递归调用；

(3.3)否则，查询当前单元中存储的每个节点，得到所有位于R_Q中的节点，将这些节点加入到备选种子集C；

(3.4)如果当前单元的SE指针为空，则结束本次递归调用；

(3.5)将当前单元设置为SE，并返回步骤(3.2)；

(3.6)将当前单元设置为SW，并返回步骤(3.2)；

(3.7)将当前单元设置为NE，并返回步骤(3.2)；

(3.8)将当前单元设置为NW，并返回步骤(3.2)；

(3.9)若当前单元为四叉树根单元，返回C，结束；

将步骤(3.1)至步骤(3.9)中的R_Q替换为R_B，备选种子集C替换为阻断节点集B，重复步骤(3.1)至步骤(3.9)得到阻断节点集B。

4.所述区域影响集I_e(u,B)的计算公式为:

I_e(u,B)＝MIOA(v，θ)∩B。

5.阻断影响力decInc(u,v)的计算公式为：

decInc(u,v)＝an(v,SP,SN)-an(v,SP∪{u},SN)，

其中，SP表示当前已经被选择为肯定种子的节点的集合；an(v,SP,SN)表示在当前的肯定种子集SP和谣言的起源节点集SN作用下，节点v被谣言影响的概率，其值通过如下的动态规划算法得到：

其中N_in(v)表示v的入邻居节点的集合,p_w,v表示节点w到节点v的消息传播概率，pn(v,t)表示节点v在t时刻被谣言影响的概率，an(v,t)表示节点v从谣言开始传播到当前为止的t时间段内被谣言影响的概率，pn(v,t)表示节点v在t时刻被正面消息影响的概率，an(v,t)表示节点v从谣言开始传播到当前为止的t时间段内被正面消息影响的概率。

6.区域阻断影响力decInc(u,B)的计算公式为：

7.步骤(6)具体包括以下步骤：

(6.1)在备选种子集C中，选择区域阻断影响力最大的节点u作为当前种子节点，即u＝argmax_v∈C decInc(v,B)；

(6.2)若当前种子集SP中节点数等于k，则返回SP作为种子集，结束；否则进行步骤(6.3)；

(6.3)计算当前种子u的区域影响集I_e(u,B)；

(6.4)对I_e(u,B)中的每个节点v，计算v的区域影响者集I_r(v,C)，I_r(v,C)是在备选种子集C中能够影响v的节点的集合,即I_r(v,C)＝MIIA(v，θ)∩C,对I_r(v,C)中的每个节点w，按如下公式更新其区域阻断影响力：

(6.5)decInc(w,B)-＝an(v,SP,SN)-an(v,SP∪{w},SN)；

(6.6)将u加入到SP中；

(6.7)计算当前种子u的区域影响集I_e(u,B)；

(6.8)对I_e(u,B)中的每个节点v，计算v的区域影响者集I_r(v,C),对I_r(v,C)中的每个节点w，按如下公式更新其区域阻断影响力：

(6.9)decInc(w,B)+＝an(v,SP,SN)-an(v,SP∪{w},SN)；

(6.10)返回步骤(61)。

本发明针对不同的查询区域和阻断区域选择最优种子集进行正面消息的传播，进而最大限度的抑制谣言传播。

与现有的技术相比，本发明具有以下优点：

本发明能够根据不同的查询区域和阻断区域进行种子选择，在查询区域中选择最优种子进行正面消息的传播，从而在阻断区域中最大限度的抑制谣言的传播。

简单有效：本发明在预处理阶段通过构建最大影响树减少在线查询阶段的运行时间，在线查询阶段通过贪婪的算法针对不同的查询区域和阻断区域选择最优种子，谣言抑制效果明显。

实用性强：社交网络谣言的传播具有区域性、本发明能够针对特定的查询区域和阻断区域选择特定的种子，具有很强的实用性。

附图说明

图1是本发明基于区域的社交网络谣言抑制方法的流程示意图。

图2是本发明的一个典型的社交网络应用样例。

图3是在查询区域和阻断区域相等的条件下，本发明方法与其他四个典型方法在Brightkite网络上的谣言抑制结果对比图。

图4是在查询区域和阻断区域相等的条件下，本发明方法与其他四个典型方法在Gowalla网络上的谣言抑制结果对比图。

图5是在查询区域覆盖阻断区域的条件下，本发明方法与其他四个典型方法在Brightkite网络上的谣言抑制结果对比图。

图6是在查询区域覆盖阻断区域的条件下，本发明方法与其他四个典型方法在Gowalla网络上的谣言抑制结果对比图。

图7是在阻断区域覆盖查询区域的条件下，本发明方法与其他四个典型方法在Brightkite网络上的谣言抑制结果对比图。

图8是在阻断区域覆盖查询区域的条件下，本发明方法与其他四个典型方法在Gowalla网络上的谣言抑制结果对比图。

具体实施方式

下面举例对本发明做更详细的描述。

如图1所示，该方法包括：

1)根据已知信息构建社交网络G中任意节点的最大影响树；

2)根据社交网络中节点的位置信息构建四叉树存储节点位置；

3)对于给定的查询区域R_C和阻断区域R_B，得到备选种子集C和阻断节点集B，所述备选种子集是查询区域中所有节点的集合，阻断节点集是阻断区域中所有节点的集合；

4)对于备选种子集C中的每个备选种子u，计算其区域影响集I_e(u,B)，所述区域影响集I_e(u,B)是u在阻断节点集B中能够到达的节点的集合；

5)对于备选种子集C中的每个备选种子u，计算其区域阻断影响力decInc(u,B)，所述区域阻断影响力是u对I_e(u,B)中每个节点v的阻断影响力decInc(u,v)的累加和；

6)以贪婪的方式循环从备选种子集中选择阻断影响力最大的k个节点作为种子节点传播真实消息，阻断谣言在阻断区域中的传播。

上述步骤中1)、2)属于预处理阶段，其目的是减少查询阶段的运行时间，其他步骤属于在线查询阶段，对于不同的查询区域和阻断区域，给出相应的最优种子集传播真实消息，抑制谣言传播。

所述的步骤1)中，社交网络G的已知信息为：

已知社交网络G＝(V,E),V为网络中节点的集合，E为网络中边的集合，已知谣言的起源节点集SN，已知谣言的传播模型为一个影响力传播模型，已知V中任意节点的位置信息。

所述的步骤1)中，对于G中任意节点v，其最大影响树包括两部分：最大影响入树MIIA(v，θ)和最大影响出树MIOA(v，θ)。

对于G中的任意节点对<u,v>,存在多条从u到v的传播路径，对于其中的任意一条路径P＝<u＝w₁,w₂,…,w_m＝v>，其影响传播概率可定义为

其中

是边

上的影响传播概率，则u到v的最大传播路径MIP_u,v是u到v的影响传播概率最大的路径，即MIP_u,v＝argmax pp(P)。

进一步的，对G中任意节点v，上述所述最大影响入树是所有信息能传播到v的节点及其最大传播路径的集合，θ用来控制传播的范围，即：

进一步的，对G中任意节点v，上述所述最大影响出树是v发送的信息能传播到的节点及其传播路径的集合，θ用来控制传播的范围，即：

如果将E中每条边的传播概率

转换为

则对G中任意节点v，MIIA(v，θ)和MIOA(v，θ)可通过Djkstra算法得到。

由此，所述的步骤1)具体包括以下步骤：

11)对于G中的任意节点对v，利用Djkstra算法计算其最大影响入树MIIA(v，θ)。

12)对于G中的任意节点对v，利用Djkstra算法计算其最大影响出树MIOA(v，θ)。

所述的步骤2)中任意节点u的位置信息可表示为u(x，y)，其中x表示节点u的经度坐标，y表示节点u的维度坐标。

所述的步骤2)中四叉树其结构可表示为<C_id，MBR，NSET，SE，SW，NE，NW>，其中C_id表示四叉树单元序号，MBR是该单元所覆盖的最小边界矩形(minimum bounding rectangle)，例如，MBR＝[(x,y),(xlim,ylim)]，其中，(x，y)是矩形的中心位置坐标，(xlim，ylim)是矩形长度和宽度的一半。NSET是该单元中存储的节点的集合，满足节点的坐标在当前MBR内，SE、SW、NE、NW表示四叉树的孩子指针，对于QT-tree，存在一个全局变量c来表示四叉树单元的容量，若某个四叉树单元的容量超过c，则以当前单元最小边界矩形面积的四分之一进行分裂。

所述的步骤2)具体包括以下步骤：

21)创建四叉树根单元qt，设置其MBR＝[(0,0),(180,90)],设置当前单元为qt；

22)检测当前单元容量是否超过c，若未超过c，对于G中所有未访问节点v，如果v坐标位于当前单元的MBR内，则将其保存在该单元，设置v为访问状态。若G中所有节点都为访问状态，则完成四叉树的创建；

23)若当前单元容量超过c且SE为空，则创建4个孩子单元SE，SW，NE，NW，每个单元的MBR分别为当前单元MBR的四分之一；

24)若当前单元容量超过c且SE不为空，则按广度优先方式在SE，SW，NE，NW中执行步骤22；

所述的步骤3)中，查询区域可表示为R_Q＝[(x,y),(xlim,ylim)]，其中，(x,y)是查询区域的中心位置坐标，(xlim,ylim)是查询区域长度和宽度的一半。

所述的步骤3)中，阻断区域可表示为R_B＝[(x,y),(xlim,ylim)]，其中，(x,y)是阻断区域的中心位置坐标，(xlim,ylim)是阻断区域长度和宽度的一半。

所述的步骤3)中，备选种子集C采用递归算法进行计算，递归完成后即可得到该被选种子集，具体过程如下：

31)将四叉树根单元设置为当前单元，将备选种子集C置为空；

32)如果R_Q与当前单元没有交集，则结束本次递归调用；

33)否则，查询当前单元中存储的每个节点，得到所有位于R_Q中的节点，将这些节点加入到备选种子集C；

34)如果当前单元的SE指针为空，则结束本次递归调用；

35)将当前单元设置为SE，并返回步骤32)；

36)将当前单元设置为SW，并返回步骤32)；

37)将当前单元设置为NE，并返回步骤32)；

38)将当前单元设置为NW，并返回步骤32)；

39)若当前单元为四叉树根单元，返回C，结束；

所述的步骤3)中，阻断节点集B的计算方法与备选种子集C的计算方法相同，只需将上述递归算法中的R_Q替换为R_B，备选种子集C替换为阻断节点集B即可。

所述的步骤4)中，区域影响集I_e(u,B)是u在阻断节点集B中能够影响的节点的集合,其计算公式为:

I_e(u,B)＝MIOA(v，θ)∩B

其中，MIOA(v，θ)可由步骤1)得到，B可由步骤3得到。

所述的步骤5)中的节点u对v的阻断影响力decInc(u,v)是将u加入到肯定种子集时导致的节点v被谣言影响的概率的减少，其计算公式为：

decInc(u,v)＝an(v,SP,SN)-an(v,SP∪{u},SN)

其中，SP表示当前已经被选择为肯定种子的节点的集合，an(v,SP,SN)表示在当前的肯定种子集SP和谣言的起源节点集SN作用下，节点v被谣言影响的概率，其值可通过如下的动态规划算法得到：

所述的步骤5)中，节点u的区域阻断影响力decInc(u,B)是u对I_e(u,B)中每个节点v的阻断影响力decInc(u,v)的累加和，其计算公式为：

所述的步骤5)中，对于备选种子集C中的每个备选种子u，利用上述公式计算其区域阻断影响力decInc(u,B)。

所述的步骤6)具体包括以下步骤：

61)在备选种子集C中，选择区域阻断影响力最大的节点u作为当前种子节点，即u＝argmax_v∈C decInc(v,B)；

62)若当前种子集SP中节点数等于k，则返回SP作为种子集，结束；否则进行步骤63)；

63)计算当前种子u的区域影响集I_e(u,B)；

64)对I_e(u,B)中的每个节点v，计算v的区域影响者集I_r(v,C)，I_r(v,C)是在备选种子集C中能够影响v的节点的集合,即I_r(v,C)＝MIIA(v，θ)∩C,对I_r(v,C)中的每个节点w，按如下公式更新其区域阻断影响力：

65)decInc(w,B)-＝an(v,SP,SN)-an(v,SP∪{w},SN)；

66)将u加入到SP中；

67)计算当前种子u的区域影响集I_e(u,B)；

68)对I_e(u,B)中的每个节点v，计算v的区域影响者集I_r(v,C),对I_r(v,C)中的每个节点w，按如下公式更新其区域阻断影响力：

69)decInc(w,B)+＝an(v,SP,SN)-an(v,SP∪{w},SN)；

610)返回步骤61)。

下面以图2为例，说明本发明的应用场景。

图2是一个含有27个节点的网络，假设谣言的起源节点集SN＝{15,18},给定图中所示的查询区域R_C和阻断区域R_B,本发明的目标是在R_C中选择k个种子进行正面消息的传播，从而在阻断区域中最大限度的抑制谣言节点集SN产生的谣言的传播。

为了验证本发明的有效性，下面以仿真实验来进一步说明、需要说明的是，实验中应用的参数并不影响本发明的一般性。

1)实验环境：

实验采用了Linux曙光服务器，CPU：1400MHz AMD Opteron(TM)Processor 6320,内存16G，所有算法采用C++实现。

2)实验数据集：

实验采用了二个真实的社交网络数据集：Brightkite和Gowalla。这二个数据集都可以在http://snap.stanford.edu/data上下载。Brightkite和Gowalla是两个基于位置的社交网络数据集，我们将节点的位置设置为其在网络中出现次数最多的位置。表1显示了两个数据集的一些基本信息。

表1数据集基本信息表

数据集名称	节点数	边数	节点平均度数	节点最大度数
					Brightkite	58228	214078	3.68	1134
Gowalla	196591	950327	9.67	14730

3)对比算法：

本发明提出的方法为IS-LSS，本发明对比的算法包括Random、Degree、Degree-Discount(DD)、Proximity。Random在查询区域中随机选择k个节点作为种子集；Degree在查询区域中选择度最大的k个节点作为种子集；DD在查询区域中选择度减少最大的k个节点作为种子集；Proximity首先在谣言节点的出邻居节点中选择传播概率最大的k个节点作为种子集。

4)实验设置：

在社交网络G中，对E中的每条边E_u,v,设置其传播概率为1/d(v),d(v)是节点v的度数。设置谣言起源节点集SN为G中度数最大的50个节点。设置目标种子集SP中种子的个数k为200。对于查询区域和阻断区域，设置区域中所含的节点数为1000-5000，并设置3000为默认区域大小。Brightkite的区域中心设置为(26.0,43.0)，Gowalla的区域中心设置为(1.0,20.0)。

图3显示了五种算法在查询区域和阻断区域相同的情况下在Brightkite数据集下的谣言抑制效果。图4显示了五种算法在查询区域和阻断区域相同的情况下在Gowalla数据集下的谣言抑制效果。图5、6分别显示了阻断区域覆盖查询区域且查询区域不断扩大的情况下在Brightkite、Gowalla数据集下的谣言抑制效果。图7、8分别显示了查询区域覆盖阻断区域且阻断区域不断扩大的情况下在Brightkite、Gowalla数据集下的谣言抑制效果。从仿真结果看出，本发明的方法可以根据不同的查询区域和阻断区域选择不同的最优种子集，同时，该最优种子集产生的谣言阻断效果明显优于其他对比方法。

综上，本发明基于区域的社交网络谣言抑制方法，根据不同的查询区域和阻断区域得到最优种子集，具有简单有效，实用性强等优点，可广泛应用于社交网络谣言传播抑制等应用领域。

虽然对本发明的实施方式进行了描述，但是本发明并不局限于上述的实施方式，本领域的技术人员可在本发明权利要求的范围内做出各种改变和变形，这并不影响本发明的实质内容。

Claims

1.一种基于区域的社交网络谣言抑制方法，其特征是：

(1)根据已知信息构建社交网络G中任意节点的最大影响树；

(1.2)对于G中的任意节点对v，利用Djkstra算法计算其最大影响出树MIOA(v，θ)；

(3)对于给定的查询区域R_C和阻断区域R_B，得到备选种子集C和阻断节点集B；

(4)对于备选种子集C中的每个备选种子u，计算其区域影响集I_e(u,B)；

(5)对于备选种子集C中的每个备选种子u，计算其区域阻断影响力decInc(u,B)；

2.根据权利要求1所述的基于区域的社交网络谣言抑制方法，其特征是步骤(2)具体包括：

3.根据权利要求2所述的基于区域的社交网络谣言抑制方法，其特征是步骤(3)中得到备选种子集C的方法为：