CN117112786A

CN117112786A - 一种基于图注意力网络的谣言检测方法

Info

Publication number: CN117112786A
Application number: CN202311073027.9A
Authority: CN
Inventors: 赵迪; 孟佳娜; 马腾飞; 孟璇; 李雪莹; 李威
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-24

Abstract

一种基于图注意力网络的谣言检测方法，属于图像处理技术领域，结合BERT预训练模型与图注意力网络CNN，通过对信息之间关系的构建，借助传播信息辅助谣言检测，推文编码表示部分使用BERT预训练模型处理数据，再通过CNN的特征表示，完成从词嵌入到语义空间的映射；局部推文关系编码通过改进图注意力网络GATv2，从每一个源推文对应的转发中学习每一个源推文和相关转发的组合表示；全局关系编码说明如何将全局结构编码到节点表示；谣言检测模块学习一个分类函数，预测原始推文的标签。本发明使用BERT预训练方法对原始数据进行处理，充分考虑到上下文的信息，通过双向语言模型将上下文信息进行融合，提高模型的表征能力。

Description

一种基于图注意力网络的谣言检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于图注意力网络的谣言检测方法。

背景技术

进入21世纪后，互联网行业发展非常迅速，微博、Twitter等国内外的社交媒体急速发展。社交媒体方便了我们的生活，可以使人们快速的接收到各种各样的信息，但也出现了大量不可靠的信息在社交媒体中传播的现象。通过对于社交媒体的谣言检测，及时的发现哪些推文是谣言，采取下架推文等方式扼制谣言的大面积传播，尽可能的缩小谣言的扩散范围。

根据A.Zubiaga等人对谣言的定义，“谣言是一个在发布时尚未确定真实性的且需要验证的流通信息”。本文认为谣言是在社交媒体中肆意传播，未经官方渠道核实的并且给社会带来不良后果的虚假信息。谣言检测作为情感分析的一个分支，已经从计算机科学延申到管理科学和社会科学。中国人民大学陈燕方等人对社会网络谣言检测研究进展进行了总结与分析，他们主要对谣言检测的工作流程进行研究，对社会网络谣言检测中的数据收集、数据标注、模型选择与模型训练等各个阶段进行了细致的介绍与分析。英国WarWick大学的Zubiaga等人将社会网络谣言检测划分为谣言的检测、跟踪、立场分类和准确性分类四个阶段，并对四个阶段应用技术的现状与发展进行了总结与归纳。Cao等人在前人工作的基础上将更多的注意力放在深度学习在社会网络谣言检测问题中的应用与发展，并对当前重要的社会网络谣言数据集进行介绍与分析。

在以往的研究中，学者更多的是关注文本自身所包含的信息内容，但是在实际情况中，每一个源帖的评论也包含一定的信息。源贴与评论之间的结构关系往往影响着谣言的传播，所以需要解决的一个问题就是将结构信息与节点本身的信息相融合进行谣言检测。Bian等人提出了一种双向的图卷积神经网络，但是这种方法忽视了无关节点噪声的影响。一般情况下一个源推文的下面有许多评论，并不是每一条评论都与源推文有关。在有关联的评论中，关联性的大小也存在一定的差异。

针对社交网络中谣言泛滥的问题，学术界进行大量的研究和探索。现有社交网络谣言检测主要分为:基于用户特征及网络特征的谣言检测方法、基于机器学习和基于深度学习的检测方法以及基于传播特征的谣言检测。人工检测方法准确率高，但是无法适应社交网络中海量数据。机器学习方法将谣言检测问题看作二分类问题，有效地弥补了人工检测方法的不足，但基于机器学习的谣言检测方法依赖于人工提取与选择特征，耗费大量的人力、物力与时间，且得到的特征向量鲁棒性也不够健壮。深度学习方法与机器学习方法相比，不再通过特征工程得到特征数据。这样对原数据具有更好、更本质的表征性，从而能实现更好的分类效果。

基于用户特征及网络特征的谣言检测，根据谣言信息的不同特点，研究者们选用不同的特征进行谣言检测工作，对网络谣言检测的特征进行总结。Liang等人研究了消息原创用户及消息读者用户的特征。分析发现普通用户与谣言用户相比，日发帖量较高。作者训练了支持向量机等5个分类器，实验结果显示，相较于其他基线方法，基于用户特征的谣言检测模型的准确率和F1值分别提高了13.14％和16.68％。Qazvinian等人提出使用网络特征进行谣言检测，当用户UserB转发用户UserA发布的消息Message时，若转发用户UserB或原始用户UserA之前发布或者转发过谣言，则消息Message是谣言的可能性非常大。实验结果显示基于网络特征的谣言检测平均精确率约90％以上，平均召回率约70％以上，分析可知引入网络特征可以提升谣言检测性能。

基于传统机器学习与深度学习方法的谣言检测，Kwon等人提出一种随机森林分类器(Random Forest Classifier，RFC)，使用3种参数来拟合随机推文曲线并分别建立了基于决策树、随机森林、SVM 3个分类器，作用于时间、结构和语言特征。实验显示随机森林分类器的表现最好，精确率达到了93.5％。随着深度学习的不断发展，Ma等人提出利用循环神经网络(Recurrent Neural Network,RNN)检测微博谣言，并分别在Twitter和微博数据集上进行实验，并与SVM-TS等手工制作特征模型进行比较。实验结果表明作者提出的模型在Twitter和微博数据集上优于所有基线方法，其中GRU-2在Twitter和微博数据集上的准确率分别为88.1％和91.0％。刘等人采用卷积神经网络(Convolutional Neural Networks,CNN)检测微博谣言，模型包含一个卷积层和一个池化层。此模型与RNN模型进行比较，精确率提高了10.2％。由此可见，CNN模型通过发现微博谣言事件间关系来构造特征，比RNN模型更适合进行谣言检测。Ma等人提出通过遵循推文内容的非顺序传播结构来学习推文内容的区别性特征，并生成更强大的表示形式以识别不同类型的谣言。论文中还提出了两个基于自下而上和自上而下的树状递归神经网络模型，用于谣言表示的学习和分类，它们符合推文的传播布局。

基于传播特征的谣言检测，谣言传播的过程中，往往伴随着传播的关系，这些传播的关系对于谣言检测有一定的帮助，Ma等人提出传播树内核(propagation Tree kernel,PTK)方法，研究者更多的将有关传播特征的关注放在了传播结构上而非时间特征。由于传播树内核忽略了子树外的线索，所以作者提出了上下文敏感的PTK(cPTK)。GCN能够更好地从图或树中捕获全局结构特征。受CNN在计算机视觉领域的成功启发，GCN在使用图数据的各种任务中展示了先进的性能。Bian等人提出了一种新的双向图模型，称为双向图卷积网络，它利用带有自顶向下的有向图GCN来学习谣言传播的模式,以及一个具有相反方向的谣言扩散图GCN，以捕获谣言扩散结构。Wei等人尝试探讨谣言检测中的传播不确定性。具体来说，提出了一种新颖的边缘增强贝叶斯图卷积网络来捕获鲁棒结构特征。Lin等人为了从本质上强化用户意见的交互作用，同时减轻不相关帖子带来的负面影响，首先将会话线程表示为一个无向交互图，提出了一个基于声明导向的分层图注意网络来进行谣言分类，它增强了对响应性帖子的表示学习，考虑到整个社会环境，并关注能够从语义上推断目标声明的帖子。Yuan等人提出了一种新型的全局-局部注意网络(GLAN)，该网络将局部语义信息和全局结构信息联合编码，用于谣言检测。首先通过融合相关转发的语义信息和注意机制，为每条源推文生成一个更好的集成表示。然后，将所有源推文、转发推文和用户之间的全局关系建模为一个异构图，以捕获丰富的结构信息，用于谣言检测。

这些方法或只考虑到文本表征方面的内容从而忽视信息传播所含的信息，或只考虑信息之间的结构信息而忽略了文本的表征能力。而本文所提出的模型兼顾了两方面的考虑，在提升文本表征与发掘信息的传播结构信息相结合，从而更好的进行谣言检测。

发明内容

为了解决上述存在的问题，本发明提出：一种基于图注意力网络的谣言检测方法，结合BERT预训练模型与图注意力网络CNN，通过对信息之间关系的构建，借助传播信息辅助谣言检测，模型整体分为四个部分，分别是推文编码表示、局部推文关系编码、全局关系编码以及谣言检测；

推文编码表示部分使用BERT预训练模型处理数据，再通过CNN的特征表示，完成从词嵌入到语义空间的映射；

局部推文关系编码通过改进图注意力网络GATv2,从每一个源推文对应的转发中学习每一个源推文和相关转发的组合表示；

全局关系编码说明如何将全局结构编码到节点表示；

谣言检测模块学习一个分类函数，预测原始推文的标签。

本发明的有益效果为：

1.使用BERT预训练方法对原始数据进行处理,充分考虑到上下文的信息，通过双向语言模型将上下文信息进行融合，提高模型的表征能力。并且根据用户、文本以及转发三者之间的关系构建全局以及局部的关系图网络。

2.在全局关系嵌入时，考虑到用户节点中所包含的有利信息，将其与内容节点结合，进行特征的进一步表达，通过边赋予节点之间不同的注意力权重，汇集相邻节点的信息，将全局关系编码为节点表示。

3.在Twitter15、Twitter16和Weibo三个真实数据集上进行了一系列的实验，结果表明所提出的模型在谣言检测方面有较好的性能，与之前的模型相比有一定的提升。

附图说明

图1为本发明的整体模型框架图；

图2为本发明的早期谣言检测模型准确率折线图；

图3为本发明的早期谣言检测模型F1值折线图；

图4为本发明的GATv2不同头数对实验的影响折线图；

图5为本发明的不同数据长度实验结果对比图；

图6为本发明的样例在不同模型上的注意力权重数值图。

具体实施方式

针对上述问题，本发明从融合谣言文本信息和其传播结构信息出发，提出了预训练模(Bidirectional Encoder Representation from Transformers,BERT)型与图注意力网络相融合的谣言检测模型，构建了全局的异构图，为节点与节点之间的边赋予不同的权重，区别节点之间的重要性，最后对全局的关系编码为节点表示，完成对谣言的检测，提供了一种基于图注意力网络的谣言检测方法。

本文模型主要结合BERT预训练模型与图注意力网络，通过对信息之间关系的构建，充分的借助传播信息，更好的辅助谣言检测。

模型整体分为四个部分，分别是推文编码表示、局部推文关系编码、全局关系编码以及谣言检测。具体而言，推文编码表示部分使用BERT预训练模型处理微博，推特等数据，再通过CNN的特征表示，完成从词嵌入到语义空间的映射；局部推文关系编码通过改进图注意力网络GATv2,从每一个源推文对应的转发中学习每一个源推文和相关转发的组合表示；全局关系编码说明了如何将全局结构编码到节点表示；最后谣言检测模块学习一个分类函数，预测原始推文的标签。在使用BERT与CNN共同处理数据之后，数据的特征表达更加的准确，之后分别使用GATv2以及自注意力机制促使全局以及局部关系编码能够更好的进行表达。整体结构如图1所示：

推文编码表示

在源推文的编码表示部分，首先采用BERT预训练方法对原始数据处理生成词向量，之后，再将词向量通过CNN处理得到推文的特征表示。

BERT预训练方法是谷歌所提出的一个预训练模型表征模型，它不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的Masked Language Model(MLM)，以致能生成深度的双向语言表征。以往的预训练模型结构会因为单向语言模型而受到限制，近而限制了模型的表征能力，使其只能获取单方向的上下文信息。而BERT采用深层的双向Transformer组件来构建模型，因此最终生成能融合上下文信息的深层双向语言表征。

首先是使用BERT对原始数据进行处理，第一步使用BERT自带的分词器对原始数据进行分词。之后设置一个固定长度L，因为每一条推文的词的数量是不同的，所以当推文的长度小于L时，在文档的末尾填充0，如果推文的长度大于L，则在结束位置截断数据。之后将处理好的推文根据BERT词表，将每一个词转化为对应的id，最后通过BERT预训练模型，训练词向量。其中我们定义x_j∈R^d为d维的词嵌入，对应推文中的第j个词表示为m_j，最终长度为L的句子表示为：x_1:j＝[x₁；x₂；...；x_T]，其中”“；”表示链接操作。

卷积神经网络

这里采用CNN从词嵌入中学习文本语义表示。首先我们已经将推文的单词索引序列通过BERT预训练模型转化为单词嵌入/>其中：表示第一条数据的每一个单词的嵌入集合。

之后通过卷积层，对已经得到的词嵌入进行操作。卷积层计算公式为：

通过卷积的操作提取到特征图e＝[e₁,e₂,...,e_L-h+1]∈^RL-h+1，其中W∈R^h×d是大小为h的卷积核，σ(.)是非线性的变换函数，在经过一次卷积操作时采用最大池化对已经得到的特征图进行操作：

通过上述操作，会从一个滤波器中提取到一个特征。CNN层会使用滤波器(卷积核的大小为h∈{3,4,5})获得多重特征。之后我们将多种滤波器的输出串联起来，串联后的结果为m_j∈R^d作为第j个微博m_j的表示。通过同样的方式我们可以得到每一条转发r_i(i∈[1,n])的文本表示，将每条转发叠加在一起形成转发矩阵R＝[r₁；r₂；...；r_n]∈R^n×d。最终通过卷积神经网络的操作得到推文的表示。

局部推文表示

之前的研究中，更多采用递归神经网络捕获语义关系的表示，但是很难并行化处理，近些年来注意力机制表现出了更强的注意捕捉语义关系的能力。

多头自注意力机制

采用多头注意力来学习上下文的信息表示。该模块共有三个输入，分别为：其中n_q,n_k,n_v分别表示每句话的字数，d表示嵌入的维度。

注意力模块中首先通过Scaled Dot-Product attention将Q中的每个单词和K中的单词进行计算，然后将得到的注意力权重应用到V的句子上：

然后V的项与权重线性组合，形成Q的新表示。让K＝V，这样，Q中的一个单词就用它在V中最相似的单词来表示，Q、K和V被分配给h个头。每个从一个方面反映了Q、K和V之间的关系，并对应于一个缩放的点积注意力模块。最终每个头的输出为：

Head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

其中W_i ^Q,W_i ^K,W_i ^V∈R^d×d/h为线性变换矩阵。最终将多个头的输出特征拼接在一起，然后通过一个线性变换的矩阵转化为最终的输出，其形式为：

O＝[Z₁；Z₂；...；Z_h]W_O (5)

其中W_o∈R^d×d为线性变换矩阵。

局部上下文的表示

这一部分主要是为了建立源推文和转发之间的内部关系。首先使用多头注意力来细化每一条转发的表示，其表达式为：

其中通过自注意力机制可以使每一条推文都相互关注，因此可以编码不同转发之间的语义关系。之后建立源推文和转发之间的关系。将源推文m作为键值，然后使用其与转发/>相结合，计算出每一条转发所对应的关注分数。

其中S∈R^n×1是一个注意力分数。为了区分新推文和原始推文之间的一个重要性，在这里引入一个融合门，将两个表示结合起来。

α＝σ(w₁m+w₂r+b) (9)

其中σ(.)是Sigmoid激活函数，w₁,w₂∈R^n×1和b∈R是融合门中学习到的一些参数。是推文融合了转发关系之后的最终输出。

全局关系编码表示

图注意力网络(GAT)是在图卷积神经网络(GCN)的基础上的改进，在GCN原有的基础上添加了注意力机制。增强了相邻节点的代表性，为相邻的节点赋予不同的重要性。使用GAT进行建模可以减少无关噪声带来的影响。

但是，GAT只计算一种受限制的“静态”形式的注意:对于任何查询节点，注意函数相对于邻居(键)分数是单调的。也就是说，注意系数的排序对于图中的所有节点都是相同的，并且不受查询节点的限制。为此通过改变GAT内部操作的顺序来进行简单的修正，并提出了计算动态注意的GATv2[21]。GATv2的计算过程大致分为两部分：

1.计算注意力系数

GATv2的核心改进就是在计算注意力系数方面调换了操作的顺序,将LeakyReLU移至a^T和W两个线性操作之间，其中a^T是一个简单的前馈神经网络。

对于顶点i，计算他与每一个邻居节点之间的相关系数，下面是GAT与GATv2在计算系数方面的一个对比：

GAT:ei_j＝LeakReLU(a^T([Wh_i||Wh_j])) (11)

GATv2:ei_j＝a^TLeakReLU(W[h_i||h_j]) (12)

公式中的W，作为一个权重对节点的特征进行了增维，这是一种常见的特征增强的方法。[·||·]是对于节点i和节点j的变换后的特征进行的一个拼接；最后α(·)将拼接后的特征映射到一个实数上。有了节点之间的相关系数，就可以对相关系数进行归一化得到最终的注意力系数。在计算注意力系数的过程中使用到了Softmax函数。

在公式中用到了LeakReLU(·)目的是防止当x小于0的时候ReLU的值为0。

2.加权求和

在第一步计算完注意力系数后，根据已经得出的注意力系数，把特征加权求和。

h′_i就是每个节点上i融合了邻域信息的新特征。σ(.)是激活函数。Attention通过多头的注意力计算可以实现结果增强。

全局结构编码

在这一部分，构建全局的异构图，图中主要包含两种类型的节点：源推文和转发关系相结合的文本节点以及用户节点。首先明确两类节点的组成：

其中m⁰∈R^d,是动态向量可以根据梯度下降来更新，而/>是静态向量。u_f是一些行为特征或用户资料数据(如好友数、关注者数、状态数等)。

因为用户节点和文本节点语义空间不同，所以将其转化到相同的语义空间，方便后续操作，可以表示为：

m′_j＝W_mm′_j (18)

u′_i＝W_uu′_i (19)

其中W_m∈R^d×d,是学习到的参数。

接着采用图注意力网络通过关注邻接节点来学习图中每个节点的分布式表示。这里用到了GAT模型的变体GATv2。从结构图中可以发现，图最终主要存在两种关系节点：(1)以用户为中心的关系，(2)以推文为中心的关系，为了将两种关系编码到节点中，同时定义了两种关系的注意力机制。定义如下：

α'_ji＝softmax(a^TLeakyReLU(W_ji[m'_j；u'_i])) (20)

β'_jt＝softmax(c^TLeakyReLU(W_jt[u'_i；m'_t])) (21)

其中a,c∈R^2d×1表示为非线性参数，W_ji,W_jt表示学习到的参数。

为了捕捉来自不同关系的多重表征，将注意力机制扩展为类似于多头注意的范式。具体来说，设置K个独立注意力机制进行变换，然后将他们每一个特征进行拼接，得到最终的输出结果：

其中||表示连接操作，σ(·)表示ELU激活函数。

该计算过程主要以图作为输入，产生每一个节点的表示，采用注意力机制获得每一个邻居节点的权重，每一次迭代中当前节点会从邻居节点获得信息，通过所得到的权重，这样就可以区分出邻居节点的重要性，最后将邻域嵌入的加权平均作为当前节点的表示。

谣言检测

通过上述的操作，得到了源推文和转化关系相结合的表示以及用户节点关系和文本关系相融合的/>这两种表示对于最终的谣言检测都非常重要，所以将其链接起来，通过全连接层，得到最后的概率。概率计算过程如下：

其中W∈R^2d×|c|是权重参数，b∈R是偏置项。最后，以交叉熵损失作为谣言检测的优化目标函数:

其中y_i是谣言的概率，θ代表所有模型参数。

实验结果与分析

数据集

实验在三个真实的数据集上评估了提出的模型：Twitter15、Twitter16和Weibo。

在三个数据集中采用处理中文和英文的预训练模型BERT对原始数据进行处理，对于每一个数据集，由源推文以及相关的转发和相关的用户构建成一个异构图。其中Twitter15和Twitter16数据集包含四个标签:非谣言(NR)、虚假谣言(FR)、真实谣言(TR)、未经证实的谣言(UR)。微博数据包含两个标签：真实谣言,非谣言。这里需要注意的是，“真谣言”的标签是为了说明推文是假的。三个数据集的统计数据如表1所示：

表1数据集统计

评价指标和参数设置

评价指标

本次实验将采用F1值和准确率Accuracy作为评价指标，其中，准确率的计算公式如(26)所示：

其中N表示测试集数据的大小，yi表示数据的真实标签，表示的是数据的预测标签。

查准率(Precision)，也叫精确率或精度，它描述了所有预测为正类的结果中，真正的正类的比例，如式(27)所示：

其中TP表示预测为真样本，实际上也为真样本，FP表示预测为真样本，实际上是假样本。

查全率(Rcca11)，也叫召回率，它刻画了真正的正类中，被分类器找出来的比例，如式(28)所示。

其中FN表示预测为假样本，实际上是真样本。

F1值的计算综合考虑了分类模型的精确率和召回率，可以看作是这两种指标的加权平均。F1值和精确率、召回率一样，介于0至1之间，值越大表示模型性能越好。它的计算公式如式(29)所示。

其中P表示的是查准率，R表示的是召回率。

参数设置

模型使用pytorch实现，采用Adam算法作为更新参数，Adam中的β1,β2参数分分别为0.98和0.988,学习率的初始值为1_e ^-3,卷积核设置大小设置为(3，4，5)，GATv2中的头数设置为8,训练集的训练批次大小为32。

分析或讨论

本文提出的方法和一些先进的模型进行了比较，包括：

DTC:一种谣言检测方法，使用基于各种手工制作特征的决策树分类器来获得信息可信度。

DTR:基于查询短语的决策树假新闻检测排序方法。

SVM-RBF:一个基于SVM的模型，带有RBF内核，使用基于帖子总体统计的手工特征。

SVM-TS:利用手工制作的特征来构建时间序列模型的线性SVM分类器。

RFC:基于谣言传播结构的具有传播树核的SVM分类器。

GRU-RNN:一种基于RNN的模型，可以从用户评论中学习时间语言模式。

RvNN:一种基于具有GRU单元的树状结构递归神经网络的谣言检测方法，GRU单元通过传播结构学习谣言的表示。

PPC:一种结合循环网络和卷积网络的传播路径分类检测假新闻的新模型。

GLAN:一种图注意力机制和Transormer相结合的处理异构图的谣言检测模型。

Bi-GCN:一种同时处理谣言的传播与扩散并且在Top-down和Bottom-up的图结构上进行操作的模型.

DDGCN:一种动态有向图卷积网络,能自适应的学习时空联系和建模时间与空间的序列信息的模型。

为了进行比较，我们将数据集随机分成5部分，并进行5次交叉验证，在Twitter15和Twitter16数据集评估四个类别上的准确率(Accuracy)、精度(Precision)、召回(Recall)和F1度量(F1)。最终得到两个数据集中的准确率以及四个类别的F1值。在Weibo数据集评估两个类别的准确率、精度、召回和F1值。实验结果如表2所示：

表2Twitter15实验结果对比

表3Twitter16实验结果对比

表4Weibo实验结果对比

表2,3和4，显示了本文所提出的模型和当前一些基线模型的比较。从表中可以看出，在三个数据集上，我们所提出的模型优于其他模型，与GLAN相比，部分性能与其持平，并且一些性能优于GLAN。

所提出的模型在Twitter15，Twitter16和Weibo数据集上的准确率分别为：90.5％，91.7％，94.9％。表明我们的模型在不同数据集上都表现出较好的性能，尤其是在Twitter16上模型效果提升明显。

依据表中各个基线模型的效果，可以发现，基于手工特征(DTC，DTR,SVM-RBF,SVM-TK,SVM-TS)模型的性能明显较差，主要是因为基于手工特征的方法泛化能力较差，难以捕捉到有用的特征。但是，在基于手工特征的方法中SVM-TS和RFC的性能相对较好，因为它们使用了额外的时间或结构特性。

对于深度学习的方法，GRU和PPC是优于基于手工特征的方法的，表明深度神经网络能够自动的学习潜在特征的能力较强，而且泛化能力较强。并且我们可以发现PPC比GRU的效果更优，主要是因为PPC结合用户的特征，而且PPC结合了CNN和RNN能够更好的捕捉特征的变化。

基于传播树的方法中，我们发现RvNN的方法要优于基于手工特征的方法和GRU的，主要是因为，基于传播树的方法，采用深度神经网络获取特征，这样比基于手工特征的方法在捕获关键特征的能力更强；GRU是一种序列的深度神经网络模型，而RvNN考虑到了数据中的结构特征，所以基于传播树的模型要优于一般的神经网络模型，但是基于树的方法在建模传播过程中会丢失太多信息，因为消息是通过图结构而不是树结构传播的。

综上所述，所提出的模型性能优于基于手工特征的方法，并且模型的性能有大幅度的提高。具体而言，与先进的模型GLAN相比，在Twitter15数据集上，模型准确率与GLAN相持平，但是在四个谣言类别上的F1值都要高于GLAN；在Twitter16数据集上，模型准确率与GLAN相比提高了0.9％，并且在三个谣言类别上的F1值高于GLAN；在微博数据集上，模型的准确率与GLAN相比提高0.2％，在两个谣言类别上的精确率以及部分类别的召回率上要高于GLAN。结果表明，在GLAN的基础上使用BERT预训练处理模型处理词向量，以及使用GATv2代替GAT对于谣言检测性能的提高是有效的。

消融实验

为了确定所提出的模型每一个模块的重要性，我们对模型的不同部分进行消融实验，实验结果如表6所示。

Our Model使用BERT预训练模型和GATv2构建模型进行谣言检测

w/o GATv2：使用BERT预训练处理模型和GAT构建模型，验证GATv2的有效性

w/o BERT：使用Word2vec获取词向量，验证BERT预训练处理模型的有效性

w/o Local Relation：去除局部编码模块，证明局部编码的有效性

表5Twitter15、Twitter16和Weibo数据集上消融实验结果

分别对比了BERT预训练模型、GATv2以及局部编码模块对于模型的有效性。首先使用BERT处理词向量，使用GAT获取注意力来验证GATv2的有效性。我们可以看到使用GAT后模型在Twitter15、Twitter16和Weibo三个数据集上的准确率分别下降0.3％，0.9％，0.7％。虽然准确率变化的幅度较小，但是可以证明GATv2与GAT比较起来更加的有效，这也充分说明GATv2所获取到的动态注意力要优于GAT所得到的静态注意力。

其次我们使用Word2vec处理词向量，使用GATv2来获取注意力近而验证BERT的有效性。我们可以观察到在Twitter15、Twitter16和Weibo三个数据集上的准确率分别下降1.8％，2.0％，2.6％充分说明BERT预训练模型相对于Word2vec更有效，更适合作为处理词向量的方法，主要是因为BERT获取的是动态词向量，能够充分考虑到上下文的语义信息。

最后去除了局部编码的模块，在三个数据集上进行试验比较模型的准确率，从表5中可以发现，在取出了局部编码模块后，模型的性能在三个数据集上均有所下降。这主要是因为，局部编码部分，更好的表示了节点之间的关系，从而有助于模型的性能提升，也再次说明推文之间的传播关系对于谣言检测的重要性。

将BERT和GATv2融合再结合局部编码模块，从表中发现，在三个数据集上的实验结果要优于去除其中一个模块，说明三个模块的结合使用更有利于谣言检测。

4.5早期谣言检测

在谣言检测中，最关键的目标就是尽早发现谣言，方便及时干预。通过设置谣言检测延迟时间，通过时间的推移，计算不同时间的各个模型的准确率以及不同类别F1的平均值(F1 Average)，来评估各个模型的在早期谣言检测的性能。因为随着时间的推移，谣言的数量会不断的增加，所以通过将测试数据不断地添加，从而获得模型的准确性来评估性能。

通过改变时间，各个模型的准确率和F1值如图2，3所示，在谣言刚开始的几个小时内，这时谣言数据量较少，但是我们所提出的模型和GLAN在准确率和F1值方面已经表现出了较好的效果，明显超过其他谣言检测分类方法。表明模型在早期的谣言检测就已经具备了优越的谣言检测性能，并且在其他的模型的准确率趋于上升的趋势时，模型已经趋于平稳。在谣言检测的2-4小时内模型在Weibo数据集上的准确率和F1值达到94.9％，93.0％左右，Twitter15上达到89.5％，90.0％左右，Twitter16上达到91.0％，90.0％左右，比除GLAN外的模型要快很多。

但是随着时间的推移，数据量不断的增加，观察图2可以发现，模型的准确率并不是一直在上升，反而略有下降的趋势。这主要是因为，随着推文数据量的不断增加，文本的结构信息、内容信息以及语义信息也在不断的增加，从而噪声就会越来越大，最终会影响模型的实验结果。

同时实验表明模型在三个数据集上都有不错的实验效果，与GLAN相比也略有提高，对于谣言检测性能的提高具有一定的作用。

参数分析

通过对图注意力机制头数的增加，模型的计算量也在不断的增加，从而可能会对模型的结果进行一定的影响。设置了GATv2头数从1到10进行实验，分别计算出不同的头数对于模型性能的影响，从图4中可以发现，在三个实验数据集上，随着头数的不断增加，模型的性能也在不断的增加，虽然模型在中间过程有波动，但是在头数为8的时候达到一个最大值，并且趋于平稳，说明头数的增加，计算量的增大，对于模型的性能有一定积极的影响。

通过设置GATv2头数为1和8以及GAT头数为1和8进行对比，实验结果如表6所示。可以发现当GAT和GATv2同时设置为8时，GATv2的实验效果更优，但是GATv2头数为1的实验效果与GAT头数为8时相比略低，说明多头GAT要优于单头的GATv2，进而说明单头的GATv2在型计算上略有欠缺。

表6GATv2和GAT不同头数的比较

错误分析

将长度为L(L＝10,20,30,40,50,60,70,80,90,100)数据输入GLAN模型,分别在Twitter15、Twitter16和Weibo三个数据集上进行验证，发现文本较长时出现性能下降的情况，主要长文本所包含的上下文信息较多，GLAN使用Word2vec处理数据得到的是静态词嵌入并且通过CNN来学习文本的语义表示，所以学习到的上下文语义信息不足，造成长文本语义丢失，影响最终的预测结果。而实验所提出的模型使用了BERT的预训练方法进行数据的处理，能够充分的结合长文本的前后文信息，在处理长文本数据上有一定的优势。对比长文本在两个模型上的实验结果发现，实验模型在处理长文本数据所得到的结果略优于GLAN，如图5所示：

样例分析

分别向GLAN模型和本次实验所提出的模型输入5条推文，推文id分别为4225，3115，3065，1247以及3835进行预测，其中id为4225，3115，1247的数据在GLAN模型预测的结果错误，而提出的模型预测的结果为正确。分析模型的差异性可知，并且将五个例子在两个模型的注意力权重以热力图的形式表示，如图6所示，颜色越深注意力系数越大，该图对比五个例子在两个模型中的注意力系数，观察发现，本文所提出的模型在样例数据上的权重要更优于GLAN，从而使节点之间的相关性更加的明显，优化了全局关系的构建方法。进而说明了使用动态的GATv2代替GAT，所得到的节点注意力权重更优，从而提升了模型的性能，使得在本文所提出的上预测结果更加准确。

本文提出一种预训练处理模型和图注意力机制相结合的谣言检测模型。将源推文和相关转发结合构成局部注意的文本信息，再将文本信息和相关的用户信息融合到节点当中，最后将局部注意和全局注意相结合构成异构图。在本文中使用BERT的预训练处理方法处理原始数据，获取动态的特征表示，并且在获取全局关系表示方面，采用GATv2模型计算节点与节点之间边的权重。通过在Twitter15，Twitter16以及Weibo三个数据集上的实验表明提出的BERT和GATv2相融合的方法有一定的提高。

在未来的工作中将探索更多预训练处理模型等对于模型的帮助，并且会添加与推文的有关的信息完善异构图，使用外部知识库对数据进行处理，提高谣言检测的准确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图注意力网络的谣言检测方法，其特征在于，结合BERT预训练模型与图注意力网络CNN，通过对信息之间关系的构建，借助传播信息辅助谣言检测，模型整体分为四个部分，分别是推文编码表示、局部推文关系编码、全局关系编码以及谣言检测；

全局关系编码说明如何将全局结构编码到节点表示；

谣言检测模块学习一个分类函数，预测原始推文的标签。

2.如权利要求1所述的基于图注意力网络的谣言检测方法，其特征在于，在源推文的编码表示部分，首先采用BERT预训练方法对原始数据处理生成词向量，再将词向量通过CNN处理得到推文的特征表示。

3.如权利要求2所述的基于图注意力网络的谣言检测方法，其特征在于，BERT预训练方法采用掩码语言模型MLM生成深度的双向语言表征，采用深层的双向Transformer组件来构建模型生成能融合上下文信息的深层双向语言表征；

首先使用BERT对原始数据进行处理，第一步使用BERT自带的分词器对原始数据进行分词，设置一个固定长度L，当推文的长度小于L时，在文档的末尾填充0，如果推文的长度大于L，则在结束位置截断数据；将处理好的推文根据BERT词表，将每一个词转化为对应的id，最后通过BERT预训练模型，训练词向量，其中定义x_j∈R^d为d维的词嵌入，对应推文中的第j个词表示为m_j，最终长度为L的句子表示为：x1:j＝[x₁；x₂；...；x_T]，其中“；”表示链接操作；

CNN从词嵌入中学习文本语义表示，将推文的单词索引序列通过BERT预训练模型转化为单词嵌入/>其中：/>表示第一条数据的每一个单词的嵌入集合，通过卷积层，对已经得到的词嵌入进行操作，卷积层计算公式为：

通过卷积的操作提取到特征图e＝[e₁,e₂,...,e_L-h+1]∈R^L-h+1，其中W∈R^h×d是大小为h的卷积核，σ(.)是非线性的变换函数，在经过一次卷积操作时采用最大池化对已经得到的特征图进行操作：

通过上述操作，从一个滤波器中提取到一个特征，CNN层使用滤波器获得多重特征，将多种滤波器的输出串联起来，串联后的结果为m_j∈R^d作为第j个微博m_j的表示，通过同样的方式得到每一条转发ri(i∈[1,n])的文本表示，将每条转发叠加在一起形成转发矩阵R＝[r₁；r₂；...；r_n]∈R^n×d，最终通过卷积神经网络的操作得到推文的表示。

4.如权利要求3所述的基于图注意力网络的谣言检测方法，其特征在于，采用多头注意力来学习上下文的信息表示，该模块共有三个输入，分别为：其中n_q,n_k,n_v分别表示每句话的字数，d表示嵌入的维度，注意力模块中首先通过缩放点积注意力将Q中的每个单词和K中的单词进行计算，即使用内积描述刻意信息与无意信息之间的关联，然后将得到的注意力权重应用到V的句子上：

然后V的项与权重线性组合，形成Q的新表示，让K＝V，Q中的一个单词就用它在V中最相似的单词来表示，Q、K和V被分配给h个头；每个从一个方面反映了Q、K和V之间的关系，并对应于一个缩放的点积注意力模块，最终每个头的输出为：

其中为线性变换矩阵，最终将多个头的输出特征拼接在一起，然后通过一个线性变换的矩阵转化为最终的输出，其形式为：

O＝[Z₁；Z₂；...Z；_h]W_O (5)

其中Wo∈R^d×d为线性变换矩阵；

采用局部上下文的表示建立源推文和转发之间的内部关系，首先使用多头注意力来细化每一条转发的表示，其表达式为：

其中通过自注意力机制使每一条推文都相互关注，编码不同转发之间的语义关系，建立源推文和转发之间的关系，将源推文m作为键值，然后使用其与转发/>相结合，计算出每一条转发所对应的关注分数，

其中S∈Rn×1是一个注意力分数，引入一个融合门区分新推文和原始推文之间的一个重要性，将两个表示结合起来，

α＝σ(w₁m+w₂r+b) (9)

其中σ(.)是Sigmoid激活函数，w₁,w₂∈R^n×1是融合门中可训练的权重，b∈R是可训练的偏置，是推文融合了转发关系之后的最终输出。

5.如权利要求4所述的基于图注意力网络的谣言检测方法，其特征在于，通过改变注意力网络GAT内部操作的顺序来进行简单的修正，并提出计算动态注意的GATv2，GATv2的计算过程分为两部分：

1.计算注意力系数

GATv2是在计算注意力系数方面调换了操作的顺序,将LeakyReLU移至a^T和W两个线性操作之间，其中a^T是一个简单的前馈神经网络，对于顶点i，计算他与每一个邻居节点之间的相关系数，GAT与GATv2在计算系数方面的一个对比：

GAT:ei_j＝LeakReLU(a^T([Wh_i||Wh_j])) (11)

GATv2:e_ij＝a^TLeakReLU(W[h_i||h_j]) (12)

公式中的W，作为一个权重对节点的特征进行了增维，这是一种常见的特征增强的方法。[·||·]是对于节点i和节点j的变换后的特征进行的一个拼接；最后α(·)将拼接后的特征映射到一个实数上，通过节点之间的相关系数，对相关系数进行归一化得到最终的注意力系数。在计算注意力系数的过程中使用到了Softmax函数，

公式中LeakReLU(·)防止当x小于0的时候ReLU的值为0；

2.加权求和

在第一步计算完注意力系数后，根据已经得出的注意力系数，把特征加权求和，

h′_i就是每个节点上i融合了邻域信息的新特征，σ(.)是激活函数，Attention通过多头的注意力计算实现结果增强。

构建全局的异构图，包含两种类型的节点：源推文和转发关系相结合的文本节点以及用户节点，首先明确两类节点的组成：

其中m⁰∈R^d,u⁰∈Rd_u是动态向量可以根据梯度下降来更新，而u_f是静态向量，u_f是一些行为特征或用户资料数据；

用户节点和文本节点语义空间不同，将其转化到相同的语义空间，表示为：

m′_j＝W_mm′_j (18)

u′_i＝W_uu′_i (19)

其中W_m∈R^d×d,是学习到的参数，

接着采用图注意力网络通过关注邻接节点来学习图中每个节点的分布式表示，存在两种关系节点：以用户为中心的关系和以推文为中心的关系，将两种关系编码到节点中，定义两种关系的注意力机制，定义如下：

α'_ji＝softmax(a^TLeakyReLU(W_ji[m'_j；u_'i])) (20)

β'_jt＝softmax(c^TLeakyReLU(W_jt[u'_i；m'_t])) (21)

捕捉来自不同关系的多重表征，将注意力机制扩展为类似于多头注意的范式，设置K个独立注意力机制进行变换，然后将他们每一个特征进行拼接，得到最终的输出结果：

其中||表示连接操作，σ(·)表示ELU激活函数，该计算过程以图作为输入，产生每一个节点的表示，采用注意力机制获得每一个邻居节点的权重，每一次迭代中当前节点会从邻居节点获得信息，通过所得到的权重，区分出邻居节点的重要性，最后将邻域嵌入的加权平均作为当前节点的表示。

6.如权利要求5所述的基于图注意力网络的谣言检测方法，其特征在于，得到的源推文和转化关系相结合的表示以及用户节点关系和文本关系相融合的/>通过全连接层，得到最后的概率，概率计算过程如下：

其中W∈R^2d×|c|是权重参数，b∈R是偏置项，最后，以交叉熵损失作为谣言检测的优化目标函数:

其中y_i是谣言的概率，θ代表所有模型参数。