CN112329444A

CN112329444A - 融合文本和传播结构的早期谣言检测方法

Info

Publication number: CN112329444A
Application number: CN202011245311.6A
Authority: CN
Inventors: 陈晨; 屠克非; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-05
Anticipated expiration: 2040-11-10
Also published as: CN112329444B

Abstract

融合传播结构的谣言检测方法，涉及社交网络数据检测。利用新闻的传播结构和源文本作为输入数据，构建基于深度学习的谣言检测模型。本方法首先提出了一种用于学习谣言传播结构的图嵌入方法，其能将新闻传播过程中的传播结构信息嵌入到合适的隐空间上。本方法还提出了一个基于CNN模块的双分支谣言检测模型，其包含两个子分支，一个分支用于学习谣言的源文本的文本特征，另一个分支则用于检测蕴含在嵌入节点序列的传播结构特征。对于Weibo和Twitter的四个常见数据集，本方法能够学习到谣言的传播结构特征，并将其和文本特征进行融合。实验结果表明，本方法不仅拥有优于目前已有的方法的检测效果，还能够在谣言传播的早期就给出判断。

Description

融合文本和传播结构的早期谣言检测方法

技术领域

本发明属于人工智能领域，具体涉及社交网络数据，对社交媒体中出现的谣言，提出了一种融合传播结构和文本的检测方法。

背景技术

随着社交网络的普及，越来越多的用户受到谣言带来的负面影响。与此同时，也有一些有心之人在社交网络中传播谣言用以达成特定的商业目的和政治目的。例如，许多产品为了增加自己的产品知名度，刻意购买水军和网络流量用以增加产品在用户中的知名度。随着谣言的传播和泛滥，越来越多的用户开始暴露在不可靠的信息之下，也给互联网社区的运营带来了极大的挑战。本方法意在融合谣言的文本和传播结构用以解决谣言的早期检测问题。

早期谣言检测的难点在于，在谣言传播的早期，其传播结构的信息非常稀疏，并不足以为模型提供充足的信息用来判断谣言的真实性。因此，本方法旨在解决谣言传播的稀疏性问题，通过构造合适的传播结构表示，将传播结构和谣言的文本信息相融合，进而取得良好的谣言检测效果。

近年来在谣言检测方面有很多研究，研究重点是如何更好的提取谣言的文本特征和传播结构特征。特别地，由于传播结构特征的复杂性和稀疏性，针对其的建模方式受到越来越广泛的关注，主要的建模方式包括序列建模、树结构建模、相邻节点建模等等。随着深度学习模型的广泛应用，提取和融合传播结构的深层次特征成为可能，深度学习方法在许多任务上都表现出良好的传播结构的特征抽取和融合能力。

然而，现有的谣言检测方法着重于提高谣言检测的准确性。通常来说，这些模型可能需要等谣言传播很长时间以后，才能得到充分的特征信息用以判断该谣言的真实性。这一非实时特性使得模型不能够在谣言传播的早期阶段对谣言予以判断，也使得模型的使用者无法在早期获得针对谣言的审核和治理依据。此外，针对谣言传播结构的建模也不充分，真实的谣言的传播过程非常复杂，主流的方法往往将其建模为简单的传播序列。序列建模仅仅考虑了传播过程的时序特性，忽略了传播过程的结构特性。另外，目前的方法着重关注融合单条新闻的传播结构和文本，其并没有考虑到传播结构信息在早期的稀疏特性。综上所述，融合传播结构的早期谣言检测是一项创新的研究问题，具有重要的研究意义和应用价值。

发明内容

本发明的目的是解决现有的谣言检测方法无法充分利用传播结构的特征的问题，提出一种融合传播结构和文本的早期谣言方法，本发明利用基于深度学习的方法，创新地提出了一种建模、融合传播结构特征的方法，提高了谣言检测的效果，特别是在早期谣言检测任务上的效果。

本发明的技术方案

融合文本和传播结构的早期谣言检测方法，该方法的详细内容如下：

第1、数据集的预处理

在数据的预处理阶段，收集新闻的训练集样本，其包括新闻的源文本以及用户之间的转发关系。在完成数据集的收集工作完成以后，我们将对数据集进行预处理用以得到新闻的传播结构的特征表示。谣言的每个样本包括三部分：新闻的源文本s_i，新闻的传播树T_i和新闻的标注标签l_i。

第1.1、传播树的建模

谣言的传播树结构是一个描述传播结构的良好建模方式。其既可以建模出新闻传播过程中的时序上的先后关系，也可以建模传播过程中的结构关系。

谣言的传播结构的原始形式是一张表，其中的每个元素是两个用户之间的转发关系。每个传播关系可以看作是一条有向边，其方向与新闻的转发的方向相同。如果不同的边整合起来，其会形成一个树结构，这就是谣言的传播树结构。传播树的具体定义如下：

定义1：传播树：

令T<V，E>为一个新闻的传播树。其中V是节点的集合，其中的每个节点都是参与到新闻传播的用户，E是边的集合，其中的每个元素代表着任意两个用户的一次转发行为。其中对于任意节点v_i属于V，v_i＝(u_i，c_i，t_i)，其中u_i代表着第i个用户，c_i代表着这一用户的转发的评论内容，t_i表示这一次转发所发生的时刻；

第1.2、联合图的生成

为了更进一步地利用谣言的传播结构特征，特别是不同传播结构之间的相似之处，训练集中所有新闻的传播树都被合并到了一张联合图上去。联合图的具体定义如下：

第1.3、联合图的嵌入

被合并之后形成的联合图既包含了单个传播树的传播结构信息，也包含了传播树的之间的同构结构信息。基于随机游走的图嵌入模型可以得到联合图的每个节点的向量表示。这一获得向量表示的过程可以看作是针对联合图的图嵌入，我们针对联合图构造了两种图嵌入方法：一种是针对带权边的图嵌入，另一种是针对无权边的图嵌入。

第2、获得新闻源文本和传播结构的向量表示

模型的输入分成两部分：一部分是新闻源文本的向量表示，另一部分则是代表着新闻传播结构的节点序列的向量表示。

第2.1、新闻源文本的向量表示

新闻的源文本s_i可以看作是一个由文字构成的序列[w_i1，w_i2…，w_in]。对于其中的任意一个单词w_ik，都可以有对应的词向量

最后输入的源文本的向量表示就是：

第2.2、新闻传播结构的向量表示

新闻的传播结构蕴含在联合图的图嵌入中。针对单个新闻的传播结构，其向量表示应该和其传播的时间序列有关系。我们定义，对应一条新闻s_i，参与传播的用户序列为：

[u_i1，u_i2.u_i3..，u_im]

对于任意一个用户u_ik，我们用其在联合图的节点嵌入来表示传播结构的向量表示。因此，新闻s_i的传播结构向量表示为：

N_i＝[n_i1，n_i2，n_i3..，n_im]

第3、训练融合传播结构和文本信息的谣言检测模型

谣言检测模型使用双分支结构，每个结构都是由多个卷积神经网络过滤器组成。双分支的输出由一个连接函数(concatenate)所拼接，并作为一个Softmax层的输入。文本分支输入的是新闻源文本的向量表示V_i，节点分支输入的是新闻传播结构的向量表示N_i。给定(V_i，N_i)，模型得到预测的类别l_i。

本发明的优点和积极效果：

本发明开创性地针对早期谣言检测问题提出了一种基于融合传播结构和文本信息的检测方法，构建了能够协同地利用不同谣言传播结构的联合图结构、联合图的嵌入方法以及双分支的融合传播结构和文本的卷积神经网络模型。本发明有效地建模并提取了新闻的传播结构特征，提高了虚假新闻检测任务的准确性和实时性。

附图说明

图1为早期谣言检测过程示意图。

图2为谣言传播结构的说明。

图3为联合图生成的示意图。

图4为谣言检测模型示意图。

图5为在Twitter 15数据集上的谣言检测准确率示意图。

图6为在Twitter 16数据集上的谣言检测准确率示意图。

图7为在Weibo数据集上的谣言检测准确率示意图。

图8为在Twitter 15数据集上的早期谣言检测结果示意图。

图9为在Twitter 16数据集上的早期谣言检测结果示意图。

图10为在Weibo数据集上的早期谣言检测结果示意图。

具体实施方式

本发明提出一种融合传播结构和文本的早期谣言方法，方法的主要过程如图1所示。该方法的主要过程如下：将每个新闻的传播结构建模为传播树；利用传播树结构构造联合图；针对联合图和新闻的文本进行嵌入；训练双分支卷积神经网络模型；对未知样本进行推断和预测

本发明的具体实施过程分为三个阶段，第一个阶段是数据预处理，其包括传播树的建模、联合图的构造以及联合图和文本的嵌入，第二个阶段是双分支卷积神经网络模型的训练，第三个阶段是融合传播结构和文本的早期谣言检测，以下是三个阶段实施过程的具体说明：.

第1、数据集的预处理

谣言的传播结构既有树的结构特征，又有序列的时序特征。树的结构特征体现在其谣言的转发过程是以树的形式生长展开的，序列的时序特征体现在谣言的转发过程有着严格的时间先后顺序。图2表示一类典型的谣言样本的数据的示意图。

第1.1、传播树的建模

在数据的预处理阶段，需要将原始数据建模为传播树，每个传播树的节点代表着参与转发行为的用户，每一条传播树里的边代表着用户之间的转发行为。于是，对于每个新闻样本都有着对应生成的传播

定义1：传播树：

第1.2、联合图的生成

定义2：联合图：

联合图G_u＝<V_u，E_u>是生成自一个传播树的集合{T_i＝<V_i，E_i>}。其中V_u＝U_iV_i是传播树中所有点集合的并集，E_u＝U_iE_i是传播树集合中所有边集合的并集；

这一联合图的生成过程主要如图3所示。在图3中，不同的传播树里往往会出现共享的节点和边，这些共享的节点和边在联合图的生成过程中被合并。为了更好地利用有偏随机对联合图进行采样，联合图的边被赋予了不同的权重，其权值由生成该边的共享边的数量所定义，边(v，x)的权值w_vx为：

w_vx＝#W(v，x)

其中，#W(v，x)是生成联合图的传播树集合中出现边(v，x)的数量。

第1.3、联合图的嵌入

在联合图中的边往往来自于用户的转发行为，其可以被看做是信息在联合图上的随机游走。因此，本方法采用基于随机游走的图嵌入方法用来学习到联合图中每个节点的向量表示。这一图嵌入的方法使得联合图的结构信息能够被嵌入到高维的向量空间中去，继而使得传播树的结构特征能以嵌入向量的形式存在，也让联合图可以为下游任务所利用。

我们的方法遵循着一个类跳词模型的架构，其需要学习一个函数f：V_u→R^d，这一函数将联合图中的节点嵌入到一个d维度的向量中去。为了学习到联合图中的结构，本方法的优化函数着重优化两个目标，一个是相邻节点的嵌入要尽可能近似，另一个则是要尽可能地准确判断自身和其他节点之间的拓扑结构的区别。于是，本方法的优化目标如下：

其中，

其由于计算的复杂度过高，因此采用负采样进行近似。构造Z_u使得函数f能够学习到每个节点与其他不同节点之间的关系。此外，N_S(u)表示节点u的广义邻居，其是通过固定长度的随机游走所采样得到的。

这种采取随机游走定义广义邻居节点的办法由几个优势：1.其能够获得更长距离的图的相似拓扑结构信息，避免了仅仅考虑周围邻居节点而忽略了其他相邻社团内部的相似结构信息。2.通过多次采样，缓解了对图的采样不全问题。

在这里，我们采取的是有偏随机游走用来更好地对图进行采样，其在边(v，x)的非标准化转移概率为：

π_vx＝w_vx

其中，w_vx是边(v，x)的权重。

第2、获得新闻源文本和传播结构的向量表示

第2.1、新闻源文本的向量表示

最后输入的源文本的向量表示就是：

本方法所采用的词嵌入模型是Skip-Gram模型，其嵌入维度是100。

第2.2、新闻传播结构的向量表示

[u_i1，u_i2.u_i3..，u_im]

N_i＝[n_i1，n_i2，n_i3..，n_im]

这种向量表示方法既利用序列表现了传播结构的序列特性，也利用联合图的嵌入表达了传播结构的结构特征。

第3、早期谣言检测模型训练

如图4所示，本方法所提出的模型由文本分支和节点分支组成。文本分支输入的是新闻的文本的词向量表示。节点分支所输入的是参与新闻传播的用户的节点序列的向量表示。双分支模型的每个分支都是由多个卷积神经网络的卷积核构成。这些卷积核能够捕捉到双分支输入的高阶特征，并通过池化层把他们降维到一个固定的维度上。这些降维后的向量被连接成一个向量，然后再输入到一个全相联网络中去。最后，模型得到预测的分类结果。

第3.1、文本分支和节点分支

本方法所提出的文本分支和节点分支各自输入的是新闻源文本的向量表示矩阵V_i和新闻传播结构的向量表示矩阵N_i。在本模型中，两个卷积分支拥有相似的结构但是却有着不同的参数。考虑这样一个输入序列M＝[x₁，x₂，…，x_k]，卷积分支首先将一维卷积运用到M中的h个连续向量中去x_i：i+h＝[x_i，...，x_i+h-1]，其中h是单个卷积核的窗口大小。比如说，假设我们有一个卷积核w∈R^h，其对连续向量x_i：i+h做卷积运算后会得到一个特征标量c_i：

c_i＝ReLU(w*x_i：i+h+b)

其中，b∈R是线性变换的偏移项，*表示卷积运算。于是，经过滑动窗口的平移和卷积运算，可以得到一个更窄的信息密度更高的特征向量c：

c＝[c₁，c₂，…，c_n-h+1]

这是一个有n-h+1个维度的向量。然后，一个最大池化操作被作用在这个向量上用以得到一个固定维度的方便后续处理的特征向量。

不同于使用单个卷积过滤器来获取特征，本方法使用多个不同的窗口大小的卷据过滤器来获取不同层次的特征。因此，最后生成出来的特征向量c会是多个向量的整合，它们由各自不同的卷积层和池化层所输出。

我们定义c_t和c_p分别是文本分支和节点分支的最终的特征向量的输出。它们被连接为单个特征向量s：

s＝Concatenate(c_t，c_p)

最后，s被输入到一个全相联网络用于获得关于标签的最终输出：

y＝W_l·s+b_l

第3.2、优化目标

在优化目标中，我们使用一个sigmoid函数用于预测每个标签的概率，我们把我们的谣言检测问题看作是一个分类问题。为此，模型Θ的参数θ是利用在训练集{(C_i，y_i)}上进行交叉熵最小化所训练得到的。对于给定的一个样本(C_i，y_i)，我们用一个sigmoid函数用于得到其预测的标签

其中，y_i是样本C_i的真实标签，T是在数据集中被观测到的标签集合。

最后，交叉熵损失为：

我们使用Adam优化器用于求得该损失函数的最小值，实验结果表明，其收敛较快，数轮训练以后就可以得到收敛结果。

第4、早期谣言检测

在模型的测试和推断阶段，本模型的检测主要从两方面来考虑，一方面是要谣言检测的准确度，主要指标是F1和准确率，另一方面则是检测的准确率和谣言传播的时间关系，主要指标是准确率-传播时间关系图。实验结果表明，本方法在检测准确率方面领先于其他指标，也可以更早地对谣言的准确性进行判断。

本方法所采用的数据集分成三个，分别是一个中文数据集和两个英文数据集，其中中文数据集的数据来自于微博平台，英文数据集的数据分别来自于15和16年的Twitter平台，它们分别被标记为Weibo、Twitter 15和Twitter 16，其各自的实验结果分别在图5、6和7中所示。

为了更好地体现本方法融合文本和传播结构的效果，我们还做了针对单分支的消融实验。在实验记录中，本方法被标记为Rumor2vec。此外，还有三个变种。CNN_Text表示仅使用文本分支的模型。CNN_Unweighted和CNN_Weighted分别代表了仅使用结构分支的模型，前者使用的联合图嵌入来自于无权图的随机游走，后者则是来自于有权图的随机游走。

Weibo数据集的分类分成两类，一类是被验证为真实信息的谣言，另一类则是被验证为虚假信息的谣言。来自Twitter的两个数据集标签则是更细粒度的，其分为真实谣言(TR)、虚假谣言(FR)、无法验证谣言(UR)和非谣言(NR)。这一细粒度分类会使实验难度提高，也会使得实验结果更有说服力。

第4.1、谣言检测的准确率

如图5，6，7所示，本方法在谣言检测的准确度上取得了较大地提高。通过比较可以发现，深度学习方法普遍优于传统方法。这是因为深度学习模型普遍具有参数容量更大、表示能力更强等特点，其能够更容易地学习到数据集中的非线性的信息。此外，我们还发现，单纯地针对传播树结构进行建模也可以取得良好的检测效果。这就证明了传播树建模对谣言检测的合理性。

本方法所提出的融合文本和传播结构的模型优于其他的深度学习模型。文本和传播结构不仅都蕴含着关于谣言准确性的线索，它们还可以以合适的方式被融合在一起以增强检测效果。本方法的优点在于以传播结构为主，文本信息为辅，着重深挖传播结构的深层次特征，以方便模型进行融合。根据图5、图6所示，Rumor2vec模型相较于之前的工作在Twitter 15和Twitter 16数据集上，检测准确率分别提升了7.3％和11.5％。

消融实验也表明，不管是文本还是传播结构都对模型的提升有很大的效果。通过比较图5、6中的CNN_Weighted和CNN_Text之间的结果，我们发现在Twitter 15上，前者比后者的准确率高了7％，在Twitter 16上，前者比后者的准确率高了9％。这说明，结构分支的表现更为出色，其主要原因在于联合图的引入使得节点的嵌入不仅仅学习到了自己在传播结构中的位置信息，还能够学习到节点在整个社交网络中的位置信息以及节点同其他拥有类似传播结构节点的内在联系。这三个因素的共同作用让嵌入后的联合图有着更强的传播结构表示能力。

对比CNN_Unweighted和CNN_Weighted，可以发现加权联合图的嵌入显著优于无权联合图的嵌入。本方法所采用的针对加权图的随机游走策略能够更好地采样到那些重要的边，进而使得嵌入的模型可以学习到更为丰富的信息。

第4.2、早期谣言检测

参见图8、9、10，在早期谣言检测问题的评测上，本方法也取得了良好的效果。其中，附图8和9是在Twitter 15和Twitter 16数据集上的实验结果，附图10是在Weibo数据集上的实验结果。可以看到本方法不仅仅能够相较于其他方法取得更高的准确度，还能够更早地针对谣言的真实性给出准确的预测。

在一开始，大部分模型的初始给出较为明确的谣言的真实性的判断。在图8和9中，除了本方法外，大部分方法的初始准确率都是在50％以下。而在图10中，其他方法的初始准确率也明显低于本方法。这说明本方法的文本分支的卷积神经网络结构能够更好地学习和利用文本中的高阶特征来提高检测效果。

随着传播时间的增长，各个模型预测的准确性都有所提高。以图8为例，在新闻传播12小时以后，本方法可以达到近79％的准确率，其收敛更快，准确率更高。在图9和图10中也呈现出类似的规律。可以看出，传播结构的加入能够使得模型能够学习到更多地有效用于用以帮助判断，但不同的模型的利用能力各有差别。

综上所述，本模型在早期谣言检测和谣言检测两大任务上都可以取得良好的效果。同时，本方法能够更好地利用传播结构的特征，并将其和文本进行深层次的融合，继而更好地完成谣言检测任务。

Claims

1.融合文本和传播结构的早期谣言检测方法，其特征是：将新闻的传播结构建模为传播树，构造了联合图用以得到谣言传播结构的嵌入，并用两个双分支的CNN子模块用以融合传播结构和新闻源文本的语言特征，该方法具体步骤如下：

第1、数据集的预处理

在数据的预处理阶段，收集新闻的训练集样本，其包括新闻的源文本以及用户之间的转发关系，在完成数据集的收集工作完成以后，将对数据集进行预处理用以得到新闻的传播结构的特征表示；谣言的每个样本包括三部分：新闻的源文本s_i，新闻的传播树T_i和新闻的标注标签l_i；

第2、获得新闻源文本和传播结构的向量表示

模型的输入分成两部分：一部分是新闻源文本的向量表示，另一部分则是代表着新闻传播结构的节点序列的向量表示；向量表示方法既利用序列表现了传播结构的序列特性，也利用联合图的嵌入表达了传播结构的结构特征；

第3、训练融合传播结构和文本信息的谣言检测模型

谣言检测模型使用双分支结构，每个结构都是由多个卷积神经网络过滤器组成，双分支的输出由一个连接函数(concatenate)所拼接，并作为一个Softmax层的输入，文本分支输入的是新闻源文本的向量表示V_i，节点分支输入的是新闻传播结构的向量表示N_i，给定(V_i，N_i)，模型得到预测的类别l_i。

2.根据权利要求1所述的融合文本和传播结构的早期谣言检测方法，其特征是第1步包括：

第1.1、传播树的建模

谣言的传播结构的原始形式是一张表，其中的每个元素是两个用户之间的转发关系，每个传播关系可以看作是一条有向边，其方向与新闻的转发的方向相同，如果不同的边整合起来，其会形成一个树结构，这就是谣言的传播树结构；

其中传播树的具体定义如下：

令T<V，E>为一个新闻的传播树，其中V是节点的集合，其中的每个节点都是参与到新闻传播的用户，E是边的集合，其中的每个元素代表着任意两个用户的一次转发行为，其中对于任意节点v_i属于V，v_i＝(u_i，c_i，t_i)，其中u_i代表着第i个用户，c_i代表着这一用户的转发的评论内容，t_i表示这一次转发所发生的时刻；

第1.2、联合图的生成

为了更利用谣言的传播结构特征，特别是不同传播结构之间的相似之处，训练集中所有新闻的传播树都被合并到了一张联合图上去；

联合图的具体定义如下：

联合图G_u＝<V_u，E_u>是生成自一个传播树的集合{T_i＝<V_i，E_i>}，其中V_u＝U_iV_i是传播树中所有点集合的并集，E_u＝U_iE_i是传播树集合中所有边集合的并集；

第1.3、联合图的嵌入

被合并之后形成的联合图既包含了单个传播树的传播结构信息，也包含了传播树的之间的同构结构信息，基于随机游走的图嵌入模型可以得到联合图的每个节点的向量表示，这一获得向量表示的过程可以看作是针对联合图的图嵌入，针对联合图构造了两种图嵌入方法：一种是针对带权边的图嵌入，另一种是针对无权边的图嵌入。

3.根据权利要求1所述的融合文本和传播结构的早期谣言检测方法，其特征是第2步包括：

第2.1、新闻源文本的向量表示

将新闻的源文本s_i看作是一个由文字构成的序列[w_i1，w_i2…，w_in]，对于其中的任意一个单词w_ik，都可以有对应的词向量

最后输入的源文本的向量表示就是：

第2.2、新闻传播结构的向量表示

针对单个新闻的传播结构，其向量表示应该和其传播的时间序列有关系，对应一条新闻s_i，参与传播的用户序列为：

[u_i1，u_i2.u_i3..，u_im]

对于任意一个用户u_ik，用其在联合图的节点嵌入来表示传播结构的向量表示，因此，新闻s_i的传播结构向量表示为：

N_i＝[n_i1，n_i2，n_i3..，n_im]。

4.根据权利要求1所述的融合文本和传播结构的早期谣言检测方法，其特征是第3步包括：

第3.1、文本分支和节点分支

文本分支和节点分支各自输入的是新闻源文本的向量表示矩阵V_i和新闻传播结构的向量表示矩阵N_i，在本模型中，两个卷积分支拥有相似的结构但是却有着不同的参数，考虑这样一个输入序列M＝[x₁，x₂，...，x_k]，卷积分支首先将一维卷积运用到M中的h个连续向量中去x_i：i+h＝[x_i，...，x_i+h-1]，其中h是单个卷积核的窗口大小；

第3.2、优化目标

在优化目标中，使用一个sigmoid函数用于预测每个标签的概率，把谣言检测问题看作是一个分类问题，为此，模型Θ的参数θ是利用在训练集{(C_i，y_i)}上进行交叉熵最小化所训练得到的。

5.根据权利要求4所述的融合文本和传播结构的早期谣言检测方法，其特征是第3.2步具体预测方法是：

对于给定的一个样本(C_i，y_i)，用一个sigmoid函数用于得到其预测的标签

其中，y_i是样本C_i的真实标签，T是在数据集中被观测到的标签集合；

最后，交叉熵损失为：

使用Adam优化器用于求得该损失函数的最小值，数轮训练以后就可以得到收敛结果。