CN110990716B

CN110990716B - 基于影响力最大化的抑制虚假消息传播方法

Info

Publication number: CN110990716B
Application number: CN201911134605.9A
Authority: CN
Inventors: 陈晋音; 张敦杰; 徐晓东; 林翔
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2022-06-28
Anticipated expiration: 2039-11-19
Also published as: CN110990716A

Abstract

本发明公开了一种基于影响力最大化的抑制虚假消息传播方法，包括：(1)对于传播的信息流，采用Louvain聚类局部度中心性算法LCLD或最大随机节点度算法RMD进行处理，获取影响力最大的节点集合；(2)使用Word2Vec将节点集合中节点用户发布的消息转换为三维词向量，并采用TextCnn网络对得到的词向量进行识别分类，区分真实消息节点与虚假消息节点；(3)对节点集合中发布虚假消息的节点进行过滤。利用本发明的抑制虚假消息传播方法，能够对影响力最大的虚假用户节点进行自动查找并删除，从而抑制发布虚假消息节点产生的影响。

Description

基于影响力最大化的抑制虚假消息传播方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于影响力最大化的抑制虚假消息传播方法。

背景技术

伴随着互联网的不断发展，人们进入了一个信息爆炸的时代，社交网络几乎涵盖了所有类型的媒体，成为了现在人们传递和获取信息的主要媒介，逐渐地取代了过去人们的传统交际方式。由于其兼具了去中心性、传播速度快、不易控制等特点，缩短了此前因地域空间差异所带来的消息滞后性，故而能够赋予消息传播更高的时效性。网络信息传播的控制管理技术虽然和互联网自身的发展相比，具有明显的滞后性，但对于网络信息传播控制而言，网络信息传播技术仍然是最为有效的方法与手段。研究网络信息传播规律，了解和掌握网络信息传播的内在机制，就能够对网络信息传播过程进行有效的控制。把网络信息传播活动纳入到有序化的范围内进行控制，其目的是能够使网络信息交流与利用更趋于规范化和系统化。

网络以其迅速、便捷、互动等优势逐渐发展成为一种新兴的大众传播媒介。但网络媒体因其发布信息的匿名性、交互性，成为虚假信息泛滥的重灾区。网络虚假信息的泛滥不仅损害网络媒体的公信力，也对社会造成极坏的影响。网络虚假信息是指人们主观臆造的，不具备真实性的信息。由于网络的传播速度较快，虚假信息一旦经过网络传播，将会产生严重的不良影响。具体表现在以下几个方面：

第一，网络虚假信息严重损害着媒体的公信力。坚持发布信息的真实性，是媒体从业人员所应该遵守的基本价值准则和理念。对于各行各业而言，把握真实性与诚信原则始终是其成功的关键。那些主流媒体之所以能够成功，最根本的原因就是其坚持信息发布的真实性。但现阶段一些网络媒体为了获取经济利益发布虚假信息，长期下去势必会损害网络媒体的公信力。

第二，欺骗受众，扰乱社会秩序。虚假信息一旦经过网络进行传播，不仅仅欺骗大众，严重时还会扰乱社会秩序。比如：2013年的“樱桃生蛆”的新闻，网友附上樱桃生蛆的照片，公众直呼恶心，一时间引发人们的恐慌。最终经过证实发现只是少数樱桃生虫的问题，可经过舆论的传播就引发了人们集体恐慌樱桃、果农的樱桃难以出售等严重的后果。虚假信息的传播不仅会造成人们的财产损失，还会引发公众的恐慌，扰乱社会秩序。

因此，及时制止网络虚假信息的传播，对于降低网络虚假信息的不良影响具有重要作用。

申请公布号为CN104091206A的发明专利提出了一种基于演化博弈论的社交网络信息传播预测方法，该方法是建立信息博弈传播模型，并通过学习的方法拟合模型参数得到描述信息相互作用关系的收益矩阵，最后利用信息传播模型对信息传播能力进行预测。然而该方法针对特定网络结构进行拟合，存在泛用性低的问题，对新的网络信息数据传播难以得到准确的预测，同时该方法对虚假消息的抑制作用不强。

发明内容

本发明的目的是提供一种基于影响力最大化的抑制虚假消息传播方法，该抑制虚假消息传播方法能够对影响力最大的虚假用户节点进行自动查找并删除，从而抑制发布虚假消息节点产生的影响。

为实现上述发明目的，本发明提供以下技术方案：

一种基于影响力最大化的抑制虚假消息传播方法，包括：

(1)对于传播的信息流，采用Louvain聚类局部度中心性算法LCLD或最大随机节点度算法RMD进行处理，获取影响力最大的节点集合；

(2)使用Word2Vec将节点集合中节点用户发布的消息转换为三维词向量，并采用TextCnn网络对得到的词向量进行识别分类，区分真实消息节点与虚假消息节点；

(3)对节点集合中发布虚假消息的节点进行过滤。

本发明通过Louvain聚类局部度中心性算法LCLD或最大随机节点度算法RMD选取信息流中影响力最大化的节点，能够有效获得影响力最大的节点并对其分类，除去其中发布虚假消息的用户节点，阻止其对虚假消息进行扩散。

为了确定抑制虚假消息传播方法的效果，上述步骤中，还包括对抑制虚假消息传播的效果进行监控，具体为：构建端到端的信息级联预测模型DeepCas，在步骤(1)之前，对初始信息流的传播进行预测；在步骤(3)之后，再次使用信息级联预测模型DeepCas对过滤后的信息流进行预测，并将前后两个预测结果对比后得出抑制虚假消息传播的效率。

而本发明引入了一种端到端的信息级联预测模型(DeepCas)，通过将级联图作为随机游走路径，然后为门控神经网络采集节点序列，结合注意力机制对信息级联进行预测。这是一种端到端的消息传播预测模型，不需要对网络特征进行手工选择以及线性组合，具有更强的可移植性。且实验结果表明，该模型具有较好的信息级联预测能力，能够有效预测网络中信息传播。

所述的信息级联预测模型DeepCas进行传播预测的具体步骤如下：

先从信息流的级联图中采样节点序列，采样过程为在级联图g_c上执行随机游走，获得带有T个节点的K个序列；然后采用共享嵌入矩阵将节点转换为嵌入向量，采用双向门控循环单元GRU捕捉采样序列所表示特定扩散项的信息流，令步骤t和序列中的第i个节点，把每一步t的输入节点嵌入x_i∈R^H和先前隐藏状态h_i-1∈R^H作为输入，用GRU来计算更新的隐藏状态h_i＝GRU(x_i,h_i-1),h∈R^H，获得的第k个序列第i个节点的表征

对于得到的序列表征，采用对组合图表征的注意力模型学习整个级联图的表征，预测其未来尺寸。

步骤(1)中，采用Louvain聚类局部度中心性算法LCLD(Louvain Clustered LocalDegree Centrality)进行处理时，具体步骤如下：

(1-1)将网络中的每一个节点设置为一个独立的社团，由任意相邻的节点i和j，将节点i加入到其邻居节点j所在的社团M，计算出加入前后的模块度增量ΔQ，从节点i及其所有的邻居节点中比较出最大的ΔQ，若ΔQ＞0，则将节点i加入到相应邻居节点所在的社团，反之则不变；所述模块度的公式为：

其中，m表示网络连边数，v和w分别表示网络中的两个随机节点，若v与w相连，则A_vw＝1，反之A_vw＝0，k_v和k_w分别表示节点v和w的度值，若节点v和w在同属于一个社团，则δ(c_v,c_w)＝1，反之δ(c_v,c_w)＝0；

(1-2)重复迭代，直至划分出网络的第一层社团结构；

(1-3)使用上述划分出的社团构建一个新的网络，令节点间连边权重为两个社团之间所有连边的权重和，重复(1)和(2)中的划分方法，得到网络的第二层社团结构，以此类推得到最终的网络社团结构；

(1-4)计算聚类局部度中心CLD的值，对划分得到的网络中所有节点进行打分，其公式如下：

CLD(i)＝(1+C_i)∑_j∈N(i)d

其中，N(i)表示节点i的最近邻居节点集，C_i表示节点i的聚类系数，d表示节点i的度值；

(1-5)对社团按照大小进行排序，再依次从每个社团中选出分值最高的节点，以及分值第二高的节点，直至选取数量为预设值s的节点组成影响力最大的CLD节点集。

步骤(1)中，采用最大随机节点度算法RMD(Random Maximum Degree)进行处理的具体步骤如下：

(1-1)’对于具有n个节点的复杂网络，从中随机选出一个节点i，将节点i与其邻居节点的度值进行比较，选出其中度值最大的节点作为种子节点，直到选择s个不同的种子节点为止作为种子节点集合；

(1-2)’扩大α倍种子节点数，再从αs个种子节点中选出s个度数最大的节点作为影响力最大的RMD节点集。

步骤(2)中，所述的TextCnn网络包括依次连接的嵌入层、卷积层、池化层和全连接层。

与现有技术相比，本发明具有以下有益效果：

本发明利用提出的影响力最大化的两种算法(LCLD、RMD)得到影响力最大的节点集合，可以获得影响力最大的用户节点，再使用TextCnn对虚假消息进行识别，识别虚假消息效果较好，有助于得到虚假用户节点并做筛除，最后过滤掉节点集合中发布虚假消息的节点，达到抑制虚假消息传播。同时采用信息级联预测模型DeepCas进行传播预测，可以对抑制虚假消息传播的过程与效果进行监控。在真实社交网络数据集上的实验结果表明，该算法具有良好的适用性和精度，能够有效获得影响力最大的节点并对其分类，除去其中发布虚假消息的用户节点，阻止其对虚假消息进行扩散，取得较好的查找效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为基于影响力最大化的抑制虚假消息传播方法流程框图；

图2为信息级联预测模型DeepCas的示意图；

图3为随机游走的马尔可夫链示意图；

图4为TextCnn虚假消息识别示意图；

图5为BuzzFeedNews数据集中采用LCLD算法得到的影响力最大节点示意图；

图6为BuzzFeedNews数据集中采用RMD算法得到的影响力最大节点示意图；

图7为BuzzFeedNews数据集中采用LCLD算法后虚假消息传播抑制效果示意图；

图8为BuzzFeedNews数据集中采用RMD算法后虚假消息传播抑制效果示意图；

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

如图1所示，一种基于影响力最大化的抑制虚假消息传播方法，包括以下步骤：

1)使用一种端到端的信息级联预测模型DeepCas，其中DeepCas的信息传播模型如图2所示，通过将级联图作为随机游走路径，然后为门控神经网络采集节点序列，结合注意力机制对消息传播进行预测。

首先从级联图中采样节点序列，采样过程可以推广为在级联图g_c上执行随机游走，其马尔可夫链如图3所示，每个扩散图的随机游走从起始状态S开始，状态S之后一直是状态N，在状态N中，游走者转入当前节点的邻居。有1-p_j的概率它会继续走向邻居节点。在跳跃概率为p_j的情况下，它跳跃到级联图的任意节点，使游走者达到跳跃状态J。然后又有p_o的概率它会走向当前节点的邻居节点，从而回到状态N。有1-p_o的概率它会进入最终状态T，从而终止整个随机游走过程。通过设置不同的参数p_o和p_j，计算转移概率获得一个要转跳的节点，转移概率为：

其中，α是一个平滑值，评价函数可以为(1)deg_c(u)、g_c中节点u的出度，(2)deg_G(u)，全局图G中的度u，或者(3)weight(v,u)。

最终获得带有T个节点的K个序列。

采用共享嵌入矩阵

将节点转换为嵌入向量x＝Aq,x∈R^H，采用双向门控循环单元GRU分别从左到右和从右到左捕捉采样序列所表示特定扩散项的信息流，令步骤t和序列中的第i个节点，把每一步t的输入节点嵌入x_i∈R^H和先前隐藏状态h_i-1∈R^H作为输入，用GRU来计算更新的隐藏状态h_i＝GRU(x_i,h_i-1),h∈R^H。获得的第k个序列第i个节点的表征

算作是前向和后向隐藏向量的串联。

给定一组序列表征，其中第k条序列，它的长度T表示为

该方法学习整个级联图的表征，预测其未来地尺寸。该方法通过深度学习中地注意力机制学习每个文档地句子数量和句子长度来做这些。序列的级联g_c的第一个小批次共享注意力权重

那么接下来的小批次会关注

学习参数

可以帮助决定要读入多少个序列。该方法基于图尺寸sz(g_c)决定

更具体的说是[log₂(sz(g_c)+1)]。因此,

可以替代为

在T个节点之上简单地假设多项式分布λ₁,…,λ_T使∑_iλ_i＝1，其中{λ_i}在所有级联图中是共享的。给出一个数学表征，假设小批次的尺寸使B序列，那么第k个序列将分为第([k/B]+1)个小批次，注意力机制会输出图g_c的表征，一个长度为2H的向量：

其中第一项对应的是对几何分布序列的关注，

a_c和λ_i都可以通过深度学习过程来学习。

实验中使用BuzzFeedNews数据集作为虚假消息识别的实验数据集，该数据集包括9家新闻机构在2016年9月19日至27日美国大选前一周在Facebook上发布的完整新闻样本。每一篇文章和相关转发文章都由BuzzFeed的5名记者逐一核实。通过添加链接的文章、附加的媒体和相关元数据，处理后最终数据集包括15000个用户转发的23000篇真实文章和11000篇虚假文章，其中，19日至23日的数据用于构建网络，26日和27日的数据分别用于验证和测试。

2)基于节点影响力最大化思想的两种算法(LCLD、RMD)得到影响力最大的节点集合；

其中基于节点影响力最大化思想的算法LCLD(Louvain Clustered Local DegreeCentrality)具体步骤如下：

将网络中的每一个节点设置为一个独立的社团，由任意相邻的节点i和j，将节点i加入到其邻居节点j所在的社团M，计算出加入前后的模块度增量ΔQ，模块度Q的的公式为：

其中，m表示网络连边数，v和w分别表示网络中的两个随机节点，若v与w相连，则A_vw＝1，反之A_vw＝0，k_v和k_w分别表示节点v和w的度值，若节点v和w在同属于一个社团，则δ(c_v,c_w)＝1，反之δ(c_v,c_w)＝0。从节点i及其所有的邻居节点中比较出最大的ΔQ，若ΔQ＞0，则将节点i加入到相应邻居节点所在的社团，反之则不变；

重复迭代，直至划分出网络的第一层社团结构。

使用上述步骤中划分出的社团构建一个新的网络，令节点间连边权重为两个社团之间所有连边的权重和，重复1)和2)中的划分方法，得到网络的第二层社团结构，以此类推得到最终的网络社团结构；

计算CLD值，对划分得到的网络中所有节点进行打分，其公式如下：

CLD(i)＝(1+C_i)∑_j∈N(i)d

其中，N(i)表示节点i的最近邻居节点集，C(i)表示节点i的聚类系数，d表示节点i的度值；

对社团按照大小进行排序，再依次从每个社团中选出分值最高的节点，以及分值第二高的节点，直至选取数量为预设值s的节点组成影响力最大的CLD节点集

图5表示通过LCLD算法所得到的影响力最大节点在BuzzFeedNews构建的网络中的分布，在LCLD算法中，节点集数目s设置为200，图中节点的大小表示节点的影响力大小。

RMD(Random Maximum Degree)具体步骤如下：

对于具有n个节点的复杂网络，从中随机选出一个节点i，将节点i与其邻居节点的度值进行比较，选出其中度值最大的节点作为种子节点，直到选择s个不同的种子节点为止作为种子节点集合；

扩大α倍种子节点数，再从αs个种子节点中选出s个度数最大的节点作为影响力最大的RMD节点集。

图6表示通过RMD算法所得到的影响力最大节点在BuzzFeedNews构建的网络中的分布，在RMD算法中，种子节点集合数目s设置为200，扩大倍数α设置为2，图中节点的大小表示节点的影响力大小。

3)使用Word2Vec将节点用户发布的消息转换为三维词向量，采用TextCnn对得到的向量进行识别分类为真实消息节点与虚假消息节点；如图4所示，TextCnn网络包括依次连接的嵌入层、卷积层、池化层和全连接层。

将从上述步骤中得到的最大节点对应的用户消息使用Word2Vec，将由one-hot编码获得的高维向量转换为低维的连续值向量特征提取为三维词向量；

将上述步骤获得的词向量输入TextCnn作为嵌入层。每个词都表示为一个向量，得到一个嵌入矩阵Q，Q中的每一行都是一个词向量。

对于任意输入的文本，首先对这个句子进行切词，假设有z个单词，根据嵌入矩阵Q，可以分别得到每个词向量，进一步假设这些词向量一共有g维，那么这个句子可以被转化为一个z行g列的矩阵A∈R^z×g。

由于句子中相邻的单词具有较强的关联性，因此使用一维卷积就足以较好的提取特征，其中，卷积核的宽度设置为词向量的维度g，将高度设置为超参数。对每个可能的窗口进行卷积操作，可以得到特征图c＝[c₁,c₂,…,c_z-l+1]。

对于一个宽度为g、高度为l的卷积核矩阵u，那么矩阵u将会有l×g个参数需要被更新，输入的句子经过嵌入层之后得到矩阵A∈R^z×g，其中A[e:r]表示A的第e行到第r行，卷积操作用如下公式表示：

o_i＝u·A[e:e+l-1],e＝1,2,...,z-l+1

之后再叠加偏置b，使用激活函数f激活，得到所需的特征。公式如下：

c_e＝f(o_e+b)

对于一个卷积核，通过卷积操作可以得到总共z-l+1个特征，表示为c∈R^z-l+1，因此，可以使用高度不同的卷积核来得到丰富的特征表达。

不同尺寸的卷积核得到的特征图大小是不一样的，所以我们需要对每个特征图使用池化函数来使其具有相同的维度。为了保证在不定长的卷积层输出上获得一个定长的全连接层输入，可以通过最大池化的方法来提取出特征图中的最大值。这样每一个卷积核得到的特征就是一个值，这个操作可以保证特征的位置于旋转不变性，不用考虑强特征出现在哪一个位置，还可以减少参数和计算量，之后对所有卷积核使用最大值池化方法再将其级联，可以得到最终的特征向量，最后再这个特征向量输入到输出层中进行分类。

4)过滤掉节点集合中发布虚假消息的的节点：除去步骤3)中发布虚假消息的用户节点，删除此类节点，阻止其对虚假消息进行扩散。

为了确定抑制虚假消息传播方法的效果，在过滤掉发布虚假消息的节点后，再次使用信息级联预测模型DeepCas对过滤后的信息流进行预测，并将前后两个预测结果对比后得出抑制虚假消息传播的效率。

图7和图8分别展示了通过LCLD算法和RMD算法对BuzzFeedNews社交网络中虚假消息进行抑制后的网络结构，与图5和图6中未进行抑制的网络结构进行对比，实现了本文在社交网络中抑制虚假消息传播过程的可视化。本发明中，采用的LCLD算法和RMD算法各具优势，LCLD算法的效果相对RMD算法更好，而RMD算法的速度比LCLD算法更快。再具体使用过程中，可实际需求针对性的选择其中一种算法，或者分别采用两种算法进行结合。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于影响力最大化的抑制虚假消息传播方法，其特征在于，包括：

采用Louvain聚类局部度中心性算法LCLD进行处理时，具体步骤如下：

(1-1)将网络中的每一个节点设置为一个独立的社团，由任意相邻的节点i和j，将节点i加入到其邻居节点j所在的社团M，计算出加入前后的模块度增量ΔQ，从节点i及其所有的邻居节点中比较出最大的ΔQ，若ΔQ＞0，则将节点i加入到相应邻居节点所在的社团，反之则不变；

(1-2)重复迭代，直至划分出网络的第一层社团结构；

(1-3)使用上述划分出的社团构建一个新的网络，令节点间连边权重为两个社团之间所有连边的权重和，重复(1-1)和(1-2)中的划分方法，得到网络的第二层社团结构，以此类推得到最终的网络社团结构；

CLD(i)＝(1+C_i)∑_j∈N(i)d

(1-5)对社团按照大小进行排序，再依次从每个社团中选出分值最高的节点，以及分值第二高的节点，直至选取数量为预设值s的节点组成影响力最大的CLD节点集；

采用最大随机节点度算法RMD进行处理的具体步骤如下：

(1-2)’扩大α倍种子节点数，再从αs个种子节点中选出s个度数最大的节点作为影响力最大的RMD节点集；

(3)对节点集合中发布虚假消息的节点进行过滤。

2.根据权利要求1所述的基于影响力最大化的抑制虚假消息传播方法，其特征在于，还包括对抑制虚假消息传播的效果进行监控，具体为：构建端到端的信息级联预测模型DeepCas，在步骤(1)之前，对初始信息流的传播进行预测；在步骤(3)之后，再次使用信息级联预测模型DeepCas对过滤后的信息流进行预测，并将前后两个预测结果对比后得出抑制虚假消息传播的效率。

3.根据权利要求2所述的基于影响力最大化的抑制虚假消息传播方法，其特征在于，所述的信息级联预测模型DeepCas进行传播预测的具体步骤如下：

4.根据权利要求1所述的基于影响力最大化的抑制虚假消息传播方法，其特征在于，步骤(1-1)中，所述模块度的公式为：

其中，m表示网络连边数，v和w分别表示网络中的两个随机节点，若v与w相连，则A_vw＝1，反之A_vw＝0，k_v和k_w分别表示节点v和w的度值，若节点v和w在同属于一个社团，则δ(c_v,c_w)＝1，反之δ(c_v,c_w)＝0。

5.根据权利要求1所述的基于影响力最大化的抑制虚假消息传播方法，其特征在于，步骤(2)中，所述的TextCnn网络包括依次连接的嵌入层、卷积层、池化层和全连接层。