CN114693464A

CN114693464A - 一种自适应的信息传播源头检测方法

Info

Publication number: CN114693464A
Application number: CN202210232464.XA
Authority: CN
Inventors: 汪冉冉; 张引; 万文超; 姜钰婕; 沈倩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-07-01
Anticipated expiration: 2042-03-08
Also published as: CN114693464B

Abstract

本发明公开一种自适应的信息传播源头检测方法，可应用于社交网络舆情控制。为解决社交网络中因信息种类、不实信息传播的模式、用户间的信息交换方式复杂多变，使得检测传播信息传播源头的任务格外困难的问题。本发明首先考虑到用户间朋友、转发、评论等多种信息交流方式构建了一个可学习的逻辑关系图以适应用户间复杂的关系。本发明还设计了一个可以耦合进深度学习模型进行参数学习的不实信息中心性度量方法以自适应的计算不实信息传播网络中各个节点的网络中心性。为了能够灵活处理社交网络中的噪音，本发明还提出了一个基于聚类的噪音消除机制。

Description

一种自适应的信息传播源头检测方法

技术领域

本发明属于社交网络领域，特别涉及一种自适应的信息传播源头检测方法。

背景技术

社交平台使用户可以更加自由地分享和传播内容，对用户有很强的吸引力。此外各种各样丰富多彩的图文视频等信息也使得人们在日常生活中愈加离不开社交媒体。基于庞大的用户数量，信息的曝光度和传播度也更高。作为信息传播平台，其高效、快速、广播的特性也为不实信息的产生和传播提供了条件，并且微博、推特等社交平台往往缺乏合格的审核机制来判断用户所发布信息的真实性。社交网络的便捷性意味着编造和传播不实信息的成本低、速度快，尤其在重大社会公共事件发生后，不实信息对公众心理和行为的影响不容小觑，别有用心者甚至可以通过编造、发布和传播虚假信息达到煽动情绪、制造混乱的目的，破坏绿色健康的网络舆论环境，严重影响了社会秩序。

在检测不实信息的源头任务中，研究不实信息的传播模式是非常重要的环节。目前在不实信息检测领域常用的传播模型可以分为传染病模型和影响模型两大类。在传染病模型中，节点有三种不同的状态，分别为感染者S、患病者I以及康复者R。根据节点的状态之间的转化过程，传染病模型可以分为以下四种：易感-感染SI、易感-感染-易感SIS、易感-感染-恢复SIR以及易感-感染-恢复-易感 SIRS。SI模型中节点只有S和I两种状态，易感节点以概率p被感染为感染节点；在SIS模型中，感染节点在一段时间后以概率q恢复为易感状态；在SIR模型中，感染节点以概率r转化为康复节点。传染病模型最早是用来描述病毒传播的模式，由于病毒和社交网络中的不实信息存在高度的一致性，传染病模型已经被广泛应用于描述不实信息在社交网络中的传播。

信息传播源头检测简而言之就是根据某个时间点社交网络中信息传播的状态逆向推理在信息传播的初始阶段是哪些用户散播了不实信息也就是“感染”节点。实际上在整个问题中，信息的传播模式是非常重要的一部分。因此，自从 D.Shah and T.Zaman.“Detecting sources of computer viruses in networks:Theory and experiment,”inProc.ACM SIGMETRICS,June 2010,pp.203–214.假定不实信息的传播模型为susceptible-infected(SI)model，并提出了一种基于不实信息中心性的检测信息传播源头的方法后，陆续出现了一系列基于传染病的研究。目前的不实信息传播源头检测方法主要有以下几个方面：

(1)单源头检测的方法：Choi J,Moon S,Shin J,et al.Estimating the rumorsource with anti-rumor in social networks[C]//IEEE International Conferenceon Network Protocols.IEEE,2016.提出一种基于SI模型的变体传播模型，在这种传播模型下利用MLE学习距离分布参数，然后通过MAPE检测不实信息传播源头。然而不实信息在社交网络中的传播往往是有单个或者多个源头的。

(2)多源头检测的方法：Zang W,Zhang P,Zhou C,et al.Discovering multiplediffusion source nodes in social networks[J].Procedia Computer Science,2014,29:443-452.使用社区集群算法将多源头定位问题转化为多个单源头定位问题，然后将具有最大似然估计的节点识别为受感染集群上的源节点，但这种方法仅针对于SIR模型。

但是目前的这些方法存在一些问题：

(1)现实社交网络中不实信息的传播模式未知，现实世界中的不实信息种类多种多样，其传播模式并不能提前预知，然而目前大多不实信息传播源头检测方法都需要提前指定底层传播模式。

(2)社交网络中用户之间的关系是错综复杂的，不实信息的传播途径多种多样。目前的信息传播源头检测方法主要通过假定不实信息是通过用户的朋友关系传播的，实际上不实信息在用户间的扩散途径不仅仅是简单的朋友关系，转发、评论都会造成不实信息的进一步扩散。

(3)通过网络中心性度量节点不实信息传播能力的方式虽然符合直觉，但是一方面很难预知应该选定哪种中心性度量方式，另一方面目前已有的中心性度量方法通常需要耗费巨大的算力，在规模巨大的现实社交网络中已有的中心性度量方法大多是不可取的。

(4)社交网络本身是复杂的，我们很难从众多的节点中挑选出可能是源头的那一批节点，现有的方法很少关注如何消除社交网络中与不实信息检测无关的噪音。

发明内容

本发明所要解决的技术问题是，提供一个不需要指定底层传播模型的，同时泛化能力更强的自适应信息传播源头检测方法。

现有的检测方法大多只能对已知底层传播模型的社交网络进行信息传播源头检测，但是在实际生活中，网络的结构往往是难以确定的；一些学者提出利用网络中心性去描述节点传播不实信息的可能性，然而在规模庞大的社交网络，使用中心性算法将会耗费巨大的算力；社交网络中往往充斥着各种各样的信息，其本身的嘈杂性会在一定程度上影响信息传播源头的检测，根据申请人的调研，目前大多数研究都忽略了这一点。

本发明为解决上述技术问题所采用的技术方案是，一种基于神经网络的自适应信息传播源头检测方法，包括步骤：

S1、获取用户间的逻辑关系W，再由真实用户节点V和用户间的逻辑关系W构成用户关系逻辑图G＝(V,W)；计算用户关系逻辑图G对应的拉普拉斯矩阵A；

根据用户群体中所有节点当前的感染状态S，并根据用户群体中所有节点当前的感染状态S表示出用户群体中所用户节点特征X；

S2将拉普拉斯矩阵A与用户群体中所用户节点特征X输入拓扑自适应图卷积网络TAGCN得到用户节点的高阶表示H；通过求内积的方式计算用户间当前信息传播事件的逆向传播概率P：P＝H⊙H，⊙表示求内积运算；

S3、利用感知机获取用户群体中所用户节点中心性分数Cen，再对各节点中心性分数进行归一化处理得到归一化后的当前信息传播事件中各节点的中心性分数；

根据用户节点的高阶表示H对用户群体的用户进行聚类，计算各聚类的中心性分数

计算，

表示归一化后的当前信息传播事件中聚类集合c中第j节点的中心性分数；

S4、将中心性分数最高的两个聚类作为候选的信息传播源头类，其他的聚类作为与当前信息传播事件无关的用户群；候选的信息传播源头类中的节点组成与当前信息传播事件相关的集合Ru，当前信息传播事件无关的用户群组成集合Q；

S6、对于各个节点是否是信息传播源头的预测

如下：

其中，f(.)表示求softmax并找到第i个节点v_i的是否是信息传播源头的分类结果；mask(.)表示遮掩模型对来自集合Q的节点预测的处理；Output_i为多层感知机MLP输出初步预测Output中第i个节点的初步预测，

MLP为多层感知机函数，Norm(.)表示标准化过程，

为由表示当前信息传播事件的节点感染状态S再复制一维得到的矩阵。

计算，

S6、对于各个节点是否是信息传播源头的预测

如下：

MLP为多层感知机函数，Norm(.)表示标准化过程，

具体的，用户群体中所用户节点特征X由其静态社交属性X_s与其状态编码X_a拼接而成X＝concat(X_s,X_a)。静态属性X_s包括用户的粉丝数、朋友数、推文数和被转发次数；群体中所有节点与当前信息事件对应的状态编码

X_c ⁰表示节点收敛状态特征X_c中的第一个状态值；节点收敛状态特征X_c以及对应的收敛状态编码

是根据用户群体中所有节点当前的感染状态S得到。

本发明提出一种无需指定底层传播模式的信息传播源头检测方法，利用用户之间的各种关系构建了一个能自适应信息事件、表征用户间信息传播关系逻辑关系图；并使用TAGCN模拟信息的逆向传播过程；然后提出了一个基于神经网络的中心性度量模块动态估计网络中各个部分的中心性；最后我们受利用社团检测估计信息传播源头的思想启发设计了一种可以消除与不实信息传播无关节点影响的模块实现信息传播源头的估计。

本发明的有益效果是：

1、本发明提出了一个不需要指定底层传播模型自适应的信息传播源头检测方法。据我们所知，目前已有的信息传播源头检测方法大部分都需要指定底层传播模型。

2.本发明通过构建一个动态的用户关系逻辑图来重构社交网络用户之间的消息传播关系，从而丰富用户间不实信息传播路径。

3.本发明提出了一种利用神经网络来估计社交网络的中心性的方法。据我们所知，目前我们是首个将社交网络的中心性度量耦合进深度学习模型中的。

4.本发明通过利用基于神经网络的聚类模块设计了一种消除社交网络中与信息传播源头检测无关噪音的新方法。

附图说明

图1为本发明实施例提供的场景示意图；

图2为本发明实施例提供的自适应信息传播源头检测算法框架。

具体实施方式

本发明应用的场景如图1所示。在微博、微信、QQ等社交平台中，用户通常能够自由的分享和传播各种信息，其高效、快速、广播的特性也为谣言这类不实信息的产生和传播提供了条件。为了创造一个良好、健康、可信的社交网络环境，实施例基于神经网络设计了一个自适应的信息传播源头检测方法以方便社交平台快速的定位到散布不实信息的源头用户。本发明的自适应体现在以下几个方面：

1.用户间信息传播关系：社交网络用户之间的关系多种多样，他们之间的信任程度、沟通方式都决定了不实信息是否在其中扩散。为了能够使模型自动适应这种复杂的关系，本发明构建了一个用户间的逻辑关系图。

2.不实信息中心性计算：以往的网络中心性计算方法如Degree、Closeness、Betweenness、Jordan、Eigenvector等等中心性，主要依靠衡量拓扑结构中节点的影响力来衡量节点的不实信息中心性，这些中心性的衡量通常与传播不实信息的节点本身的特性无关。为了找到网络中真实的与当前不实信息强相关的源头用户，本发明用神经网络结构来模拟社交网络节点的中心性估计过程，从而实现对传播不实信息的用户本身特性的适应。

3.社交网络中噪音处理：不同不实信息事件涉及到的用户群体是不同的，如何使模型自动的消除嘈杂的社交网络中与当前不实信息传播无关的用户，从而更快的定位散布不实信息的用户是本发明的自适应模型考虑的另一个方面。

4.信息传播源头数量：实际上，不实信息的源头数量很难提前确定。在以往的信息传播源头检测方法中，如何利用统一的模型来检测单源头和多源头模型一直是研究者探索的。本发明所提的自适应的信息传播源头检测并不受源头数目的限制。

如图2所示为实施例方法的框架，包括：用户关联关系获取与特征处理、节点表示学习、基于神经网络的中心性计算与信息传播源头检测的四个过程。下面将详细说明上述步骤：

1、用户关联关系获取与特征表示。

(1)在社交网络中，用户之间的关联关系是复杂多样的。在以往的信息传播源头检测研究中，主要利用了用户的朋友关系作为不实信息传播的基础。但是实际上，不实信息在用户中的传播并不仅仅依赖朋友关系。比如对陌生人所发推文的转发、评论也都有可能造成不实信息的进一步扩散。为此我们首先利用同一用户群体的评论关系矩阵

转发关系矩阵

朋友关系矩阵

通过下列公式获取用户间的逻辑关系W：

W＝σ(W₁Com+W₂Ret+W₃Fri)

其中，W₁,W₂,

是三种用户关系的权重系数，是模型可以学习的参数，|V|为该用户群体中的用户数，σ为非线性激活函数。最终由真实用户节点V和通过上述方法获取到的W构成用户关系逻辑图G＝(V,W)。

(2)整合用户的静态属性如用户的粉丝数、朋友数、推文数、被转发次数将用户的这部分静态社交特征表示为

其中d表示用户的特征维度。用户个人的粉丝数、朋友数、个人信息的完善情况可以反映其影响力、信誉度等等。而这些因素实际上与不实信息的散布密切相关。

(3)另外用户是否传播不实信息(是否成为infected node)是随时间变化的而且在不同的不实信息事件中用户的情况是不同的。为了让最终学习到的节点表示更接近不实信息传播的初始环境下的情况，本发明使用标签传播算法节点收敛的状态：

S^*＝(1-α)(I-αA)^-1S

其中，S^*表示网络的收敛状态，α∈(0,1)是控制邻居影响力的系数，S表示当前不实信息事件在某个时间点捕获的节点感染状态，S_i＝1表示节点传播不实信息即被感染，S_i＝0表示节点未传播不实信息，即未被感染，A表示用户关系逻辑图G对应的拉普拉斯矩阵，其计算方式如下：

A＝D^-1/2WD^-1/2

上式实际上是对所获取的逻辑关系正则化的过程，其中D是W的度矩阵。

获取节点在当前时间下的收敛状态特征

计算方式如下：

其中X_c,i ⁰表示X_c中第i个节点v_i对应的行中的第一个状态编码值，类似的X_c,i ¹，X_c,i ²分别对应第二个、第三个。利用上式，我们可以获取对当前节点感染状态的三维编码。当前节点感染状态S_i＝1表示节点v_i传播了不实信息，否则表示节点v_i未不实信息。其中X_c的每列对应了当前采样到的snapshot 下对所有节点的不同编码。我们对X_c使用节点收敛公式可以获得各个用户节

点的收敛状态编码即：

随后，我们将节点的收敛状态编码

与节点在某个时间点上对网络状态的采样snapshot中的状态编码X_c ⁰进行拼接得到节点与当前不实信息事件对应的状态编码

X_a能够使得模型能够适应用户在不同不实信息事件中的表现。

网络中所有节点的特征表示矩阵X最终由其静态社交属性X_s与其状态编码X_a拼接而成，即X＝concat(X_s,X_a)。

2、图卷积神经网络GCN通过利用卷积核获取邻近节点的局部特征，但是其对卷积核进行切比雪夫多项式运算后取了近似值，为了避免近似过程中不能完整、充分的获取图信息，本发明通过向拓扑自适应图卷积网络TAGCN模型输入 A和X模拟出不实信息的逆向传播过程，TAGCN模型通过计算K个卷积核所提取的特征值来获取并输出网络中所有节点的高阶表示

其中 hidden表示TAGCN输出的特征维数。

TAGCN是一种已有的定义在顶点域的新型图卷积网络，可以对图结构数据的非线性表示进行学习。TAGCN在图结构数据上提取特征，进行线性组合，得到X中分别位于第l和第l+1个隐藏层的输入经过f个卷积核后的关系：

其中

表示第c个特征的所有顶点上的第l隐藏层的输入经f个卷积核后的关系逻辑，

表示位于第c个特征的所有顶点上的第l隐藏层的输入经f个卷积核时第k个多项式系数，K为多项式总项数；A^k表示归一化邻接矩阵A的第k项，

C_l为第l个隐藏层上图的每个顶点的输入特征图的特征数量，

为X中第c个特征的所有顶点上的第l个隐藏层的输入数据，可由G的顶点索引得到。

是第l个隐藏层第f个卷积核的可学习的偏置项，

是一个N_l维的全1向量是偏置参数，σ(·)是一个ReLU激活函数。TAGCN每一层使用K个图卷积核分别提取不同尺寸的局部特征，能够充分完整地提取图信息的缺陷，进一步提高了模型的表达能力。

本发明通过TAGCN学习用户的高阶表示H从而获取节点之间的传播关系。

获取到节点的高阶表示H后，本发明通过求内积的方式计算各个用户间不实信息的逆向传播概率P：

P＝H⊙H

其中⊙表示求内积运算，

表示用户间不实信息传播概率。

3、以往的不实信息中心性算法并不能快速、准确的估计用户在不同不实信息传播事件中的中心性差别。为此本发明设计了一种参数可学习的中心性度量方法。具体的首先为了加快模型的收敛，我们先对表示学习的结果进行了标准化处理，然后利用一个感知机来获取节点的中心性。由于感知机能够表示复杂的函数功能，而且计算复杂度较低所以我们利用其来计算节点的中心性，具体过程如下:

Cen＝Norm(H)·W₄+b₄

其中，感知机网络系数

偏置项

Norm(.)表示标准化的过程。最终获取到的

由于获取节点中心性的目的是为了比较各个节点的不实信息传播能力，所以我们对所获取的中心性进行了下列 softmax计算：

其中

表示归一化后的当前不实信息传播事件中第i节点的中心性分数， Cen_i表示第i个节点的中心性估计分数，Cen_j表示用户群体V中第j个节点的中心性估计分数，j∈V。与以往只考虑网络拓扑结构的中心性计算方法相比，本发明的方法使用了上文对网络拓扑结构和节点特征的高阶嵌入，因此所计算的中心性更符合不实信息传播的实际情况。

4、社交网络中涵盖的信息十分庞大繁杂，如何消除其中的与不实信息无关的信息也就是Non-rumor是十分值得考虑的事情。本发明主要通过一个嵌入所提模型的聚类模块来实现。受信息传播源头检测领域社团检测模型的影响，我们认为如果我们能将信息传播源头锁定在某些特定的社团，这样一方面可以减小 Non-rumor社团的影响，另一方面可以减小我们检测源头的计算量。具体的，本发明使用了一个单层TAGCN实现这个聚类过程，聚类的总数量表示为c_n,最终获取到所有节点的聚类结果Cluster，其每个值c∈{0,1,2,…,c_n-1}。我们利用这个聚类结果以及上文所获取的节点中心性获取各个聚类的中心性分数：

其中c表示第c个聚类集合，j表示聚类c中的一个节点。

5、利用步骤4获取的各个聚类的不实信息中心性对各个社团排序，并将分数最高的两个聚类作为候选的信息传播源头类，这两个聚类中的节点作为与不实信息相关的候选节点；其他的类作为与当前不实信息无关的用户群。将与不实信息相关的候选节点表示为集合Ru,其他的与不实信息无关的用户节点表示为集合 Q；

6、利用步骤5获取的不实信息无关用户集合遮掩最终对用户是否是源头的预测。具体的，在获取了节点表示以后我们通过一个多层感知机MLP输出节点是否是信息传播源头的预测：

其中MLP(.)为两层感知机，Norm(.)表示标准化过程，P为不实信息的逆向传播概率，

表示当前网络中不实信息的传播状态矩阵，为了之后的2分类处理由S复制一维得到，即

表示在没有消除社交网络噪音社交网络噪音的情况下，模型对于各个节点是否是信息传播源头的预测。

7、最终模型对于各个节点i是否是信息传播源头的预测

如下：

其中，f(.)表示求softmax并找到当前节点v_i具体属于哪一类。mask(.)表示遮掩模型对来自集合Q节点预测的处理，mask消除了视为社交网络噪音的无关用户。最终

表示模型对于当前节点是否是信息传播源头的预测。

8、最终模型的损失计算采用交叉熵损失，并利用SGD学习模型中相关的参数。

9、利用在多个不实信息传播事件样本训练上述模型。

10、将该模型用于新的不实信息传播事件的源头检测。

通过上述实施例可以看出，为了帮助社交媒体进行有效的舆情控制，本发明针对信息传播源头检测这一非常有挑战性的任务设计了一个不需要指定底层传播模型、自适应的信息传播源头检测方法。为了从错综复杂的社交网络中获取有效的不实信息传播关系，本发明将用户之间的关联关系构建为参数可学习的逻辑图。然后，为了获取网络节点更符合节点本身传播特性的中心性，本发明提出了一种利用神经网络来灵活估计社交网络的中心性的方法。最后为了从嘈杂的社交网络中进行有效的学习，本发明基于神经网络设计了一种消除社交网络中与信息传播源头检测无关噪音的新方法。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。