CN114218457A

CN114218457A - 一种基于转发社交媒体用户表征的假新闻检测方法

Info

Publication number: CN114218457A
Application number: CN202111389834.2A
Authority: CN
Inventors: 李勇军; 颜兆洁; 黄丽蓉; 张银银
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-22
Anticipated expiration: 2041-11-22
Also published as: CN114218457B

Abstract

本发明公开了一种基于转发社交媒体用户表征的假新闻检测方法，本发明除了显示信息，还通过在整个社交网络中构建用户关系图来挖掘用户潜在特征。首先，使用所有用户之间的关系构建社交网络。其次，每个用户的嵌入表示是通过相邻用户和他们自己的属性在社交网络中学习的。然后，为每个新闻项目构建有效的用户序列，并使用该序列来学习新闻项目的表示。最后利用神经网络对新闻进行分类，得到最终的标签。本发明只需要新闻参与用户的信息，不依赖于语言或结构特征等信息。与这些更复杂的信息相比，用户个人资料信息的可用性、可靠性和稳健性也使本发明更加稳健和可推广。

Description

一种基于转发社交媒体用户表征的假新闻检测方法

技术领域

本发明涉及虚假新闻检测方法，特别是基于转发社交媒体用户表征的虚假新闻检测的方法。

背景技术

随着互联网的飞速发展，任何人都可以随时随地以低成本接收和传播新闻。但是，由于互联网的匿名性，用户对其发布的内容不承担法律责任。此外，为了吸引更多用户，社交媒体运营商已经学会了鼓励能引起最强烈情绪反应的新闻，即使是仇恨或愤怒等负面情绪。这些原因直接导致了大量假新闻的广泛传播。假新闻的传播往往给个人和公众造成不可弥补的巨大损失和伤害。

随着假新闻的影响越来越严重，假新闻检测越来越受到关注。例如，Facebook和Google在2016年美国总统大选后都采取了打击假新闻的措施。Facebook允许用户将新闻标记为假新闻，标记的新闻要经过手动的事实核查过程。Google在经过事实核查的新闻片段下显示发布者和事实核查人员。然而，这些方法耗时且不适合大规模应用场景。

近年来，假新闻自动检测方法备受重视。目前虚假新闻的自动检测主要分为两类，一类是根据新闻的文本内容进行虚假新闻的识别，一类则是根据新闻的上下文进行虚假新闻的检测。基于内容的方法大多基于新闻内容进行特征提取，一方面，假新闻往往包含异常词或某些词的异常出现，所以可以根据恶意单词和人称代词的数量为推文分配可信度分数。同时由于文本内容包含大量的情感色彩，故出现了很多基于情感的假新闻检测方法，通过分别为发布用户和参与用户学习内容和评论情感表示，这同时利用了内容和社会情感信息。另外，假新闻具有特定的语言特征和写作风格，这对检测假新闻有很大帮助。同时，新闻内容不仅包含文字内容，还包含图片、视频等形式的信息，结合几种视觉和统计特征来从视觉和统计上表征这些新闻模式，也在一定程度上实现了假新闻的检测。基于上下文的方法则是基于社交媒体用户对新闻的反应来检测虚假新闻。虚假新闻总是首先由低影响用户发布，然后一些热门用户加入以促进传播，而真实新闻最初是由热门用户发布并由许多普通用户直接传播。通过捕获用户、文章和媒体之间丰富的社交互动来提高图形学习框架的性能质量，从而改进假新闻检测和来源真实性预测。除了各类信息之间的交互作用，用户的评论也反应了用户对新闻的评价和反馈，评论本身除了包含语言特征之外，还包含来自社交媒体的丰富信息，包括观点、立场和情绪，这对于检测假新闻很有用。另外，新闻传播的时间信息也包含了很多隐藏信息，结合文本内容和时间序列参与者的特征也被逐渐用来检测虚假新闻。

现有方法都是针对特定场合才能发挥优势，对于各种实际场景没有统一的、通用的、便捷的检测方式，且他们只是简单地收集单词或个人资料信息，而没有考虑彼此之间的关系和单个用户特征的复杂性，这些存在的问题直接导致检测结果不完整和不准确，

发明内容

为了克服上述现有技术不足，本发明提供了一种更加简单和通用的基于新闻的转发用户序列表征来检测虚假信息的方法，基于转发社交媒体用户表征的假新闻检测方法。

本发明除了显示信息，同时还通过在整个社交网络中构建用户关系图来挖掘用户潜在特征。具体来说，用户参与的新闻大多是他们感兴趣或相关的信息，即参与同一新闻的用户在一定程度上相似，表现出一定的相关性。基于以上事实和假设，本发明仅使用参与用户信息和用户之间的关系来实现对假新闻的检测。首先，使用所有用户之间的关系构建社交网络。其次，每个用户的嵌入表示是通过相邻用户和他们自己的属性在社交网络中学习的。然后，为每个新闻项目构建有效的用户序列，并使用该序列来学习新闻项目的表示。最后利用神经网络对新闻进行分类，得到最终的标签。本发明只需要新闻参与用户的信息，不依赖于语言或结构特征等信息。与这些更复杂的信息相比，用户个人资料信息的可用性、可靠性和稳健性也使本发明更加稳健和可推广。

本发明解决技术问题所采用的技术方案：

一种基于转发社交媒体用户表征的假新闻检测方法，包括以下步骤：

(a)为了描述用户如何参与社交网络，本发明针对真实用户传播者和虚假用户传播者进行了属性特征的分析和对比，并以此为依据初始化用户的特征向量。

(b)设有新闻集合T＝{t₁,t₂,...,t_|T|}，其中每条新闻t_i分别包含了n_i个转发用户。通过所有新闻的转发用户创建转发用户关系图G＝(V,E)，当两个用户参与过同一条新闻的转发，则说明两个用户存在相似之处，此时两个用户之间会产生一条边,从而获得所有用户的交互矩阵:

(c)基于用户本身的配置信息通过注意力机制在所构建的图中计算每个用户的特征，其中每个用户都有一个特征表示

然后，让

是图注意力网络的输入，其中N是节点数，F是特征数，它表示输入为N个节点的每个节点的F 个特征。接下来通过注意力学习输出，

这意味着N个节点的 F’维特征输出。通过两个用户的向量表示可以学习注意力系数，由下式给出:

其中，x_i表示用户u_i的原始特征表示，x_j表示u_j的原始特征表示，W∈R^F’×F表示可学习参数矩阵来实现线性转化，a(·)表示注意力机制，本发明提出的具体实现公式为

其中a表示一个可训练的向量，维度为2F’,||表示连接操作。

(d)为了让交叉关系的数量更容易计算和比较，引入softmax函数对节点u_i的所有相邻节点u_j进行正则化，得到u_j对u_i的注意力权重：

其中N_i代表所有形容词节点u_i。

(e)基于上述计算，得到归一化后不同节点之间的归一化注意力系数。这可用于预测每个节点的输出特征：

其中W∈R^F’×F是与特征相乘的可训练权重矩阵，j代表连接到用户u_i的第j个用户。在本发明中，σ(·)代表非线性激活函数ReLU。

(f)此外，为了提高注意力的效果，本发明添加了一个多头注意力机制，由下式给出：

其中||表示连接操作，这个操作相当于并行注意力。将每个注意力层的输出特征拼接起来，然后输入一个注意力层，得到输出结果。输出

是每个用户更加丰富和准确的隐藏特征学习注意力向量。

(g)为了解决长序列训练过程中的梯度消失和梯度爆炸问题，本发明基于学习到的用户表征利用GRU来实现推文的嵌入，其中，GRU依靠两个门来控制丢弃和留下数据。特别是，r控制复位门，z控制更新门，它们的计算公式如下所示：

(h)然后通过复位门计算数据，得到记忆当前时刻的状态，再通过当前状态更新记忆阶段，同时进行遗忘和记忆。主要的计算公式如下：

(i)最后的推文表征

通过2层GRU生成，其中d表示推文嵌入的最终维度。将学习到的推文通过反馈神经网络，使用二进制预测向量生成最终标签

其中

和

分别表示标签的预测概率为0和1。标签由以下算法获得：

其中W_f是可学习参数的矩阵，b_f是偏差项。预测标签的准确性通过最小化交叉熵损失函数来不断提高。本发明中的交叉熵损失函数计算公式如下所示：

其中Θ表示整个神经网络中的所有可学习参数。

在训练过程中，为了解决最小损失问题以及实现加速学习，本发明选择了经典的RMSProp优化器。当RMSProp的权重更新时，除以平方根符号的方法可以大大降低大梯度，小梯度幅度小，从而减少大梯度方向的波动。整个梯度下降过程中的摆幅较小，可以设置较大的学习率，学习步长变大，学习速度更快。此外，为了避免持续训练造成的过拟合问题，本发明还采用了提前停止机制。

本发明的有益效果是：由于仅仅利用了新闻的转发用户信息，通过对用户表征的强化来实现新闻的表征。由于不考虑其他复杂且极易受其他方面的因素影响的特征，本发明可以拓展到各个场景之下。通过在两个公测数据集上的计算结果表明，本发明可以针对不同的社交媒体进行虚假信息的检测，并且具有很好的扩展性和实用性。

附图说明

图1Twitter15虚假新闻传播者和真实新闻传播者的特征差异对比图

图2Twitter16虚假新闻传播者和真实新闻传播者的特征差异对比图

图3本发明方法的流程图

图4基于GAT的用户嵌入模型图

图5基于GRU的推文表征模型图

图6Twitter15和Twitter16中的不同转发用户数量的性能对比结果图

图7Twitter15和Twitter16中的消融实验结果

具体实施方式

为了更清楚地解释本发明，本文从微博中随机选择了一条新闻，用于本发明的理解和分析。例如，“环球资讯”于2021年10月29日发布了一条推文，且通过点击按钮可以显示相应的转发用户。首先构建用户新闻参与条件下的用户关系图。在本发明中，用户关系图包括数据集中所有可获取的用户，但他们实际上可以是微博上的所有用户。GAT用于通过其原始特征为关系图中的每个用户学习更准确的表示。然后，每个转发用户获得一个新的特征向量，这些转发用户形成一个转推序列，接下来通过2层GRU模型将转发用户序列聚合为新闻表示。最后，检测模型随后通过将新闻表示发送到前馈神经网络来给出新闻的标签。

基于转发用户表征检测虚假新闻算法具体描述如下：

输入：新闻T，新闻对应的转发用户集合U；

输出：新闻T的真实性标签L。

Step1：根据用户之间的关系构建用户之间的关系图G；

Step2：由构建的用户关系图G，根据步骤b、c、d、e、f学习每个用户的表征；

Step3：根据新闻对应的转发用户构建新闻的转发用户序列，利用步骤g和步骤h学习新闻的表征；

Step4：根据步骤i生成新闻标签，即检测新闻是否是虚假信息。

本发明是在Keras上使用Tensorflow实现的。为了说明本发明的合理性和可解释性，本发明采用Twitter作为实验平台，利用其中两个公测数据集进行本发明的实施。首先应用用户在Twitter上的一些属性信息来初始化用户的特征向量，选取的特征如表1 所示。

表1选取的用户特征

另外，本发明针对两个数据集进行了特征分析，具体对两个数据集中的真实用户传播者和虚假用户传播者的一系列特征进行对比，其中，图1和图2展示了Twitter15和Twitter16中真实新闻传播者和虚假新闻传播者的部分特征差异。

为了最小化用于预测训练集中新闻故事类别标签的类别损失函数，需要多次训练模型。使用随机梯度下降和RMSProp更新规则更新权重和偏差。本发明将dropout应用到连接层上方的隐藏层以避免过拟合，并将迭代epochs设置为300。当验证损失达到饱和状态20个周期时，应用提前停止机制。基于对数据集的反复试验设置了最佳网络结构和超参数，如表2所示。

表2实验设置

实验参数	Twitter15	Twitter16
			GAT输出维度	256	288
注意力个数	8	9
			GRU输出维度	300	300
GRU输出维度	300	300
			Dropout比率	0.6	0.5

为了阐明本发明的有效性以及优势，本发明与已有方法对了系列对比，文献【1】：Gcan: Graph-aware co-attention networks for explainable fake news detectionon social media，该模型通过包括GNN、CNN和GRU在内的不同神经网络从不同方面学习新闻文本的内容特征和用户特征，并通过注意力机制为不同的特征分配不同的权重。该模型尽可能多的使用了多方面的特征信息，希望提高检测的精确度的同时也使得计算过程更加复杂，且要求更多的时间和资源。文献【2】：Defend:Explainable fake news detection，该模型利用具有句子-评论涂层关注子网络的模型，检测结合用户评论和新闻文本信息的假新闻。但是随着用户的多样化和虚假信息的泛滥，文本内容的真实性越来越难以辨别。文献【3】：Early detection of fake news on social media through propagation pathclassification with recurrent and convolutional networks，在这个模型中，新闻的传播路径被建模为一个多元时间序列。RNN和CNN分别捕捉传播路径上用户特征的全局和局部变化，最终检测假新闻。CRNN虽然也只是使用了用户特征，但是只是考虑了用户最浅层特征，没有挖掘出用户的隐藏信息。文献【4】：CSI:A Hybrid Deep Model for Fake NewsDetection，CSI模型基于神经网络的模型获取新闻内容、用户响应和来源的特征，并捕获用户参与新闻的时间依赖关系。CSI同时利用了内容和上下文的信息，但是没有考虑三者中两两之间的关系和交互对信息融合的影响。假新闻的流行离不开无数网民，正是假新闻的捏造和传播使其成长壮大。这也意味着新闻的参与用户对于检测假新闻至关重要，且本发明通过大量的实验证明假新闻和真新闻的传播者在用户特征分布上存在显着差异。这表明利用用户特征区分虚假信息的可能性和可行性。本发明基于多个指标，针对两个公测数据集进行了实验，通过四个评价标准与上述的四个文献进行了比较。实验结果表明本发明方法在两个数据集的所有指标上均优于最佳竞争方法，比起在Twitter15和 Twitter16上的关于精确度的最佳效果分别提高和提高了约21％和14％。与整个基线的最佳结果相比，其他三个指标(精密度、召回率和F1值)在两个数据集中分别提高了14％、 20％和14％以及3％、6％和3％。此外，文献【1】、文献【2】和文献【4】都使用至少两种原始信息，例如用户信息和用户评论的组合，计算都更加复杂和耗时。

本发明选择了经典的评估指标准确率、准确率、召回率和F1作为性能比较的评估标准。通过在相同的数据集，即Twitter15和Twitter16上进行比较，结果如表3所示。如表所示，本发明明显优于其他模型，在两个数据集的所有指标上均优于最佳竞争方法，在Twitter15和Twitter16上分别提高和提高了至少约21％和14％的准确度，其他三个指标(精密度、召回率和F1值)在两个数据集中分别提高了14％、20％和14％以及3％、 6％和3％。此外，CSI、DEFFND和GCAN都使用至少两种原始信息，例如用户信息和用户评论的组合。这意味着它们更复杂，计算需要更多的时间和资源。然而，本发明可以仅利用社交网络中的用户信息通过神经网络来学习更准确的用户表征，且学习到的用户表征不仅适用于假新闻的检测，还可以扩展到机器翻译、文本分类和智能问答。虽然CRNN模型也仅使用用户信息，但它还利用了用户参与的时间信息，及时分析了用户的特征，因此模型构建相对复杂一些。根据分享平台、新闻的多样性和可变性、其文本语言特征、事件主题和发布时间等传播特点，用户信息通常比其他任何特征信息都丰富，更稳定、更容易获取。这也证明了本发明具有可解释性和可行性，并且在使用较少信息的条件下可以达到更好结果的合理性。

表3本发明和基线的对比实验结果

此外，通过改变转发推文的用户数量来验证用户信息的有效性和及时性，即选取了10 到120个转发用户作为两个数据集的测试推文，使用不同数量的用户信息进行对比实验。实验结果如图6所示。图6(a)和图6(b)分别显示了数据集Twitter15和 Twitter16上的变化趋势。随着转发用户数的不断增加，四个评价标准的数值也不断增加。其中，图6(a)表示Twitter15的最大值出现在100个转推用户中，图6(b)表示Twitter16 的峰值出现在90个转推用户中。结果表明，随着转发用户数量的增加，实验效果变得越来越清晰和准确。但是，检测过程中的用户数量是有上限的。当转发次数达到一定值时，假新闻的检测效果最好。当转发用户数超过峰值时，用户信息更加复杂，计算更加困难，检测性能下降。

为了分析每个选择的特征对模型的影响，对所有特征进行了消融分析。经过多次反复测试，本文在图7(a)和图7(b)分别展示了从实验数据集Twitter15和Twitter16的消融分析中获得的结果。图7(a)结果表明，与缺少某个特征的训练结果相比，使用数据集Twitter15中的所有特征进行模型训练，准确度、F1值、精密度和召回率至少提高6.89％。6.59％、4.10％和7.11％。同样，从图7(b)可以看出，在数据集Twitter16上，比较效果最好的特征集，整合了所有特征，准确率、F1值和精密度至少提高了5％、0.91％和0.54％。从实验结果来看，本发明所用的九个特性之间相互促进，特征之间的组合可以捕捉到用户的潜在特征，比如兴趣爱好；从特征分析来看，有些特征本身的差异并不明显，但与其他特征的融合会增强特征之间的差异，从而促进虚假信息的检测。

Claims

1.一种基于转发社交媒体用户表征的假新闻检测方法，其特征在于，包括以下步骤：

(a)为了描述用户如何参与社交网络，针对真实用户传播者和虚假用户传播者进行了属性特征的分析和对比，并以此为依据初始化用户的特征向量；

(b)设有新闻集合T＝{t₁,t₂,...,t_|T|}，其中每条新闻t_i分别包含了n_i个转发用户，通过所有新闻的转发用户创建转发用户关系图G＝(V,E)，当两个用户参与过同一条新闻的转发，则说明两个用户存在相似之处，此时两个用户之间会产生一条边,从而获得所有用户的交互矩阵:

然后，让

是图注意力网络的输入，其中N是节点数，F是特征数，它表示输入为N个节点的每个节点的F个特征，接下来通过注意力学习输出，

这意味着N个节点的F’维特征输出，通过两个用户的向量表示，学习注意力系数，由下式给出:

其中，x_i表示用户u_i的原始特征表示，x_j表示u_j的原始特征表示，W∈R^F’×F表示可学习参数矩阵来实现线性转化，a(·)表示注意力机制；

其中N_i代表所有形容词节点u_i；

(e)基于上述计算，得到归一化后不同节点之间的归一化注意力系数，这可用于预测每个节点的输出特征：

其中W∈R^F’×F是与特征相乘的可训练权重矩阵，j代表连接到用户u_i的第j个用户，在本发明中，σ(·)代表非线性激活函数ReLU；

(f)此外，为了提高注意力的效果，添加了一个多头注意力机制，由下式给出：

其中||表示连接操作，这个操作相当于并行注意力，将每个注意力层的输出特征拼接起来，然后输入一个注意力层，得到输出结果，输出

是每个用户更加丰富和准确的隐藏特征学习注意力向量；

(g)为了解决长序列训练过程中的梯度消失和梯度爆炸问题，基于学习到的用户表征利用GRU来实现推文的嵌入，其中，GRU依靠两个门来控制丢弃和留下数据，特别是，r控制复位门，z控制更新门，它们的计算公式如下所示：

(h)然后通过复位门计算数据，得到记忆当前时刻的状态，再通过当前状态更新记忆阶段，同时进行遗忘和记忆，计算公式如下：

(i)最后的推文表征

通过2层GRU生成，其中d表示推文嵌入的最终维度，将学习到的推文通过反馈神经网络，使用二进制预测向量生成最终标签

其中

和

分别表示标签的预测概率为0和1，标签由以下算法获得：

其中W_f是可学习参数的矩阵，b_f是偏差项，预测标签的准确性通过最小化交叉熵损失函数来不断提高。

2.根据权利要求1所述的一种基于转发社交媒体用户表征的假新闻检测方法，其特征在于，选取的特征如表1所示；

3.根据权利要求1所述的一种基于转发社交媒体用户表征的假新闻检测方法，其特征在于，在训练过程中，为了解决最小损失问题以及实现加速学习，选择了经典的RMSProp优化器，当RMSProp的权重更新时，除以平方根符号的方法可以大大降低大梯度，小梯度幅度小，从而减少大梯度方向的波动，整个梯度下降过程中的摆幅较小，设置较大的学习率，学习步长变大，学习速度更快，此外，为了避免持续训练造成的过拟合问题，还采用了提前停止机制。

4.根据权利要求1所述的一种基于转发社交媒体用户表征的假新闻检测方法，其特征在于，所述步骤(i)交叉熵损失函数计算公式如下所示：

其中Θ表示整个神经网络中的所有可学习参数。

5.根据权利要求1所述的一种基于转发社交媒体用户表征的假新闻检测方法，其特征在于，所述步骤(c)的注意力机制，具体实现公式为

其中a表示一个可训练的向量，维度为2F’,||表示连接操作。