CN115269854B

CN115269854B - 基于主题和结构感知神经网络的虚假新闻检测方法

Info

Publication number: CN115269854B
Application number: CN202211048168.0A
Authority: CN
Inventors: 朱小飞; 陈卓敏; 王莉
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-02-02
Anticipated expiration: 2042-08-30
Also published as: CN115269854A

Abstract

本发明具体涉及基于主题和结构感知神经网络的虚假新闻检测方法，包括：将待检测的新闻文本输入至经过训练的检测模型，输出对应的预测分类结果；训练时：首先提取新闻文本的语义表示和主题表示并融合得到主题角度新闻表示，同时生成主题可信度；其次提取新闻文本的发布者表示和传播者表示并融合得到用户角度新闻表示，进而生成发布者可信度和传播者可信度；然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并基于最终新闻表示生成预测分类结果；最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算训练损失，并进行反向传播。本发明能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号。

Description

基于主题和结构感知神经网络的虚假新闻检测方法

技术领域

本发明涉及虚假新闻检测技术领域，具体涉及基于主题和结构感知神经网络的虚假新闻检测方法。

背景技术

社交媒体为人们获取信息、表达意见和相互交流提供了便捷的平台。但是它也使恶意的虚假信息(被称为虚假新闻)以很高的速度传播开来，从而导致社会信任危机。因此，检测虚假新闻对于维持社交媒体上的可信环境至关重要。现有技术中，许多研究工作致力于通过基于新闻内容提取文本特征并采用传统学习技术(如SVM)来检测虚假新闻。虽然这些方法可以在一定程度上提高虚假新闻检测的性能，但它们主要依赖于特征工程，这通常是费时费力的。

最近，深度学习技术被广泛用于虚假新闻检测，其大致可分为两类，基于新闻内容的方法和基于社会背景的方法。基于新闻内容的方法旨在通过捕获不同的文本特征来构建深度神经网络模型，当内容信息丰富时，如在长新闻文本中，这些方法可以获得有希望的性能，而在短新闻文本中它们会受到稀疏问题的困扰。为此，一些研究工作也开始尝试利用社会语境信息(即基于社会背景的方法)，如新闻的传播结构，来实现最先进的性能。

然而，现有工作的主要局限在于，它们忽略了新闻中的重要主题信号。新闻的类别通常与新闻的主题有很强的相关性。因此，如何设计一种能够充分探索新闻主题信号的虚假新闻检测方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于主题和结构感知神经网络的虚假新闻检测方法，以能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号，从而能够提高虚假新闻检测的准确性和有效性。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于主题和结构感知神经网络的虚假新闻检测方法，包括：

S1：获取待检测的新闻文本；

S2：将待检测的新闻文本输入至经过训练的检测模型，输出对应的预测分类结果；

训练检测模型时，将训练用新闻文本输入至检测模型：首先提取新闻文本的语义表示和主题表示，并融合语义表示和主题表示得到主题角度新闻表示，同时基于主题角度新闻表示生成主题可信度；其次提取新闻文本的发布者表示和传播者表示，并融合发布者表示和传播者表示得到用户角度新闻表示，进而分别基于发布者表示和传播者表示生成发布者可信度和传播者可信度；然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并基于最终新闻表示生成预测分类结果；最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算分类模型的训练损失，进而通过训练损失进行反向传播以优化模型参数；

S3：将检测模型输出的预测分类结果作为待检测新闻文本的虚假检测结果。

优选的，步骤S2中，通过如下步骤生成新闻文本的语义表示：

S201：将新闻文本的每个单词嵌入到低维实值向量中，得到新闻文本的词嵌入表示；

S202：将词嵌入表示输入卷积神经网络中，提取新闻文本的语义表示。

优选的，步骤S2中，通过如下步骤生成新闻文本的主题表示：

S211：通过词袋向量表示新闻文本；

S212：通过编码器将词袋向量转换为潜在向量；

S213：加入以潜在向量为条件的解码器来重构词袋向量，生成新闻文本的主题表示。

优选的，步骤S2中，将新闻文本的语义表示和主题表示输入至主题对比网络进行融合，得到主题角度新闻表示；

式中：表示新闻文本的主题角度新闻表示；m_i表示新闻文本的语义表示；θ_i表示新闻文本的主题表示；f_c(·)表示主题对比网络的对比函数；W_θ表示从主题级表示空间转换到短语级表示空间的变换矩阵；

通过如下公式表示主题对比网络：

f_c(x,y)＝[x；y；x-y；x⊙y]W_c+b_c；

式中：f_c(x,y)表示主题对比网络；表示变换矩阵；⊙表示元素乘积；表示偏置向量；x、y表示两个不同的向量表示；

通过如下公式计算主题可信度：

式中：p_i(c)表示主题可信度；表示变换矩阵；b_t表示偏置向量。

优选的，步骤S2中，通过如下步骤生成新闻文本的发布者表示：

S221：基于新闻文本的发布者构造对应的发布者异构图；

S222：将发布者异构图输入至扩展的多头注意力网络，输出对应的发布者表示；

式中：H_l表示发布者表示；D^p和Dⁿ表示对角矩阵，是第l∈[1,h]个头的可训练参数；h表示多头注意力中的头数；A^pn表示发布者对应的邻接矩阵；N表示新闻的初始化表示；d为向量维度大小；

S223：将多头注意力网络输出的发布者表示进行拼接并输入至全连接层，得到新闻文本最终的发布者表示；

P′＝ELU([H₁；H₂；…；H_l]W_α)+P；

式中：P′＝(p′₁,p′₂,…,p′_|P|)表示用于训练的新闻集中所有新闻文本的发布者表示；是第i个新闻文本m_i的发布者表示；[；]表示拼接运算符；/>表示线性变换矩阵； ELU表示激活函数；P表示发布者的初始化表示。

优选的，步骤S2中，通过如下步骤生成传播者表示：

S231：基于新闻文本的传播者构造对应的传播者异构图；

S232：将传播者异构图输入至扩展的多头注意力网络，输出对应的传播者表示；

S233：将多头注意力网络输出的传播者表示进行拼接并输入至全连接层，得到最终所有的传播者表示；

S234：通过注意力机制聚合一个新闻文本对应的各个传播者表示，得到当前新闻文本的传播者表示。

优选的，步骤S2中，将新闻文本的发布者表示和传播者表示输入至结构对比网络进行融合，得到用户角度新闻表示；

式中：表示新闻文本的用户角度新闻表示；p′_i表示新闻文本的发布者表示；u′_i表示新闻文本的传播者表示；f_e(·)表示结构对比网络的对比函数；

其中，通过如下公式表示结构对比网络：

f_e(x,y)＝[x；y；x⊙y；x-y]W_e+b_e；

式中：f_e(x,y)表示结构对比网络；和/>均表示可训练参数；x、y表示两个不同的向量表示。

优选的，步骤S2中，拼接新闻文本的主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并将最终新闻表示输入至softmax层，输出新闻文本的预测分类结果；

式中：p(m_i)表示新闻文本的类型概率分布，即预测分类结果；表示拼接得到的最终新闻表示；/>表示变换矩阵；/>表示偏置项；|y|表示新闻标签的类型数。

优选的，步骤S2中，通过如下公式计算发布者信用度和传播者信用度：

p_i(c|G_p)＝softmax(P′_iW_p+b_p)；

p_ij(c|G_u)＝softmax(u_ijW_u+b_u)；

式中：p_i(c|G_p)表示发布者信用度；b_p表示偏置向量；表示变换矩阵；p_ij(c|G_u) 表示传播者信用度；/>表示变换矩阵；/>表示偏置向量。

优选的，步骤S2中，联合新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失和传播者信用度交叉熵损失，结合新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数，进而通过训练损失进行反向传播以优化模型参数；

通过如下公式表示训练损失函数：

式中：表示检测模型的训练损失；/>分别表示新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失、新闻类别概率分布交叉熵损失；β_r、β_t、β_p、β_u、β_n分别表示设置的超参数；

式中：表示主题信用度交叉熵损失；/>表示新闻文本m_i的真实主题信用度；p_i(c)表示主题可信度；θ_t表示主题信用度预测的所有参数；λ_t表示正则化因子；|c|表示不同主题信用度的数量；

式中：表示发布者信用度交叉熵损失；/>表示第i个发布者的真实信用度得分；θ_p表示可训练参数；λ_p表示正则化因子；|c|表示发布者信用度得分的级别数；其中，|c|＝3，c＝{“不可靠”(2)，“不确定”(1)，“可靠”(0)}；|P|表示发布者的数量；p_i(c|G_p)表示发布者信用度；

式中：表示传播者信用度交叉熵损失；/>表示传播者u_ij的真实信用度；p_ij(c|G_u)表示传播者信用度；θ_u表示可训练参数；λ_u表示正则化因子；u_ij∈U，i∈[1,2,…,|U|],j∈ [1,2,…,k]；|U|表示传播者的数量；

式中：表示新闻类别概率分布交叉熵损失；/>表示新闻m_i的真实标签；θ_n表示可训练参数；λ_n表示正则化因子；p(m_i)表示新闻文本的概率分布，即预测分类结果。

本发明中基于主题和结构感知神经网络的虚假新闻检测方法，具有如下有益效果：

本发明通过提取新闻的语义表示和主题表示并融合得到主题角度新闻表示，探索了新闻细粒度的主题信号(潜在主题表示)，进而能够通过细粒度的主题信号探索新闻潜在的主题分布以更好地对新闻内容进行建模，同时通过主题角度新闻表示计算主题可信度，探索了新闻粗粒度的主题信号，进而能够通过粗粒度的主题信号作为弱监督信息来指导新闻表示的学习过程，即本发明能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号，进而能够从新闻主题信号的角度来提高检测模型的检测性能，从而能够提高虚假新闻检测的准确性和有效性。

其次，由于虚假新闻文本具有较强的混淆性和误导性，使得单独从新闻本身出发进行检测存在一定困难。发布者在社交媒体上发布新闻后，其他用户(传播者)会转发，构成了新闻的传播网络，其中包含许多对新闻真实性判断有帮助的潜在信息。因此，本发明通过提取新闻的发布者表示和传播者表示并融合得到用户角度新闻表示，进一步从新闻用户的角度探索新闻的潜在表示，考虑了用户对新闻的观点和态度，能够有效利用新闻和转发网络中的信息来辅助完成新闻检测，同时基于发布者表示和传播者表示计算了发布者可信度和传播者可信度，进一步考虑了发布者和传播者的信用和口碑(一般来说，大量高口碑用户分享的可能是真实新闻，而短时间内被众多低口碑用户转发的则可能是虚假新闻)，使得能够从新闻用户(结构)角度来提高检测模型的检测性能，从而能够进一步提高虚假新闻检测的准确性和有效性。

最后，本发明在主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失的基础上，还进一步联合了新闻主题学习损失和新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数，使得能够更全面、更有效的优化模型参数，从而能够进一步提高检测模型的检测性能。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于主题和结构感知神经网络的虚假新闻检测方法的逻辑框图；

图2为检测模型的网络结构图；

图3为主题数量的影响示意图；

图4为参数分析示意图；

图5为本发明和两个最先进的基线在所有三个数据集上学习到的新闻表示的可视化图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于主题和结构感知神经网络的虚假新闻检测方法。

如图1所示，基于主题和结构感知神经网络的虚假新闻检测方法，包括：

S1：获取待检测的新闻文本；

结合图2所示：

训练检测模型时，将训练用新闻文本(包括新闻本身及其发布者和传播者)输入至检测模型：首先(在主题感知文本编码器)提取新闻文本的语义表示(文本表示学习)和主题表示(主题表示学习)，并(在主题对比网络)融合语义表示和主题表示得到主题角度新闻表示，同时(在主题信用度分类器)基于主题角度新闻表示生成主题可信度；其次(在结构感知用户编码器)提取新闻文本的发布者表示和传播者表示，并(在用户对比网络)融合发布者表示和传播者表示得到用户角度新闻表示，进而分别(在发布者信用度分类器和传播者信用度分类器)基于发布者表示和传播者表示生成发布者可信度和传播者可信度；然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并(在新闻分类器)基于最终新闻表示生成预测分类结果；最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算分类模型的训练损失，进而通过训练损失进行反向传播以优化模型参数；

本实施例中，检测模型输出的预测分类结果是指新闻文本的类型概率分布，进而能够根据类型概率分布确定新闻文本的类型，可包括虚假新闻、真实新闻、可信新闻、不可信新闻或真实性待定新闻等类型，进而能够实现新闻文本的虚假检测。

具体实施过程中，联合新闻主题学习(神经主题模型，NTM)损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失，结合新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数，进而通过训练损失进行反向传播以优化模型参数；通过如下公式表示训练损失函数：

式中：表示检测模型的训练损失；/>分别表示新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失、新闻类别概率分布交叉熵损失；β_r、β_t、β_p、β_u、β_n分别表示设置的超参数。

具体实施过程中，通过如下步骤生成新闻文本的语义表示：

将由L个单词组成的第i条新闻文本m_i＝{w₁,w₂,…,w_L}嵌入到具有表示矩阵的低维实值向量中，得到新闻文本的词嵌入表示Xⁱ＝(x₁,x₂,…,x_L)，|V|是词汇表大小，d是词嵌入表示的维度，/>是d维词嵌入表示，对应于新闻文本中的第j个单词；

S202：将词嵌入表示输入卷积神经网络中，提取新闻文本的语义表示；

将第j个词到第j+k个词的词嵌入表示序列的拼接x_j:j+k作为卷积神经网络的输入，

卷积神经网络的卷积操作包括过滤器应用于一个含有h个单词的窗口以产生一个新特征；单词窗口指通过中心词和上下文单词组成的窗口信息，即x_j:j+k；

通过如下公式从单词窗口x_j:j+h-1生成特征c_j：

c_j＝f(w·x_i:i+h-1+b)；

式中：f表示激活函数；表示偏置项；w表示将表示x_i:i+h-1映射到另一个空间的向量；x_i:i+h-1表示第i个词到第i+h-1个词的词表示序列的拼接；

将过滤器应用于新闻文本中每个可能的单词窗口(x_1:h,x_2:h+1,…,x_L-h+1:L)生成特征图c＝ (c₁,c₂,…,c_L-h+1)，其中，

对每个特征图进行最大池化操作，获得最大值作为过滤器的特征，进而连接过滤器的所有特征，通过使用n_k个卷积核获得新闻文本的语义表示

关于特征图：以c₁为例，c₁是由x_1:h生成，所以c₁对应第1个词到第h个词的特征图。

卷积神经网络中的输入层是一个句子，这个句子是由word2vec词嵌入表示的词向量表示。卷积层使用了多个卷积核，卷积层之后使用一个最大池化层，最后是一个softmax分类器。在自然语言处理领域使用卷积核滑过特征矩阵的整行，相当于滑过句子中的词语，最后将所有卷积核提取的结果合并在一起。

具体实施过程中，通过神经主题模型(Neural Topic Model,NTM)学习新闻主题表示，NTM的原理来源于变分自动编码器(VAE)，它由编码器和解码器组成，用于模拟新闻的重建。

通过如下步骤生成新闻文本的主题表示：

S211：通过词袋向量表示新闻文本；

将新闻文本m_i用词袋向量表示，其中V是词汇表的大小。

S212：通过编码器将词袋向量转换为潜在向量；

使用编码器将词袋向量v_i转换为潜在向量潜在向量z_i表示第i条新闻文本m_i的主题，K表示主题数；

编码器用于估计先验变量μ和σ，用于推断中间的主题表示，即潜在向量z_i：

μ＝f_μ(f_e(v_i))；

logσ＝f_σ(f_e(v_i))；

式中：f_μ(·)、f_e(·)、f_σ(·)均表示ReLU激活神经感知器；

S213：加入以潜在向量为条件的解码器来重构词袋向量，生成新闻文本的主题表示；

加入一个以潜在向量z_i为条件的解码器来重构v_i，并输出新的BoW向量v′_i(以生成的v′_i与编码器的输入v_i尽量相似为目的训练编码器-解码器，只有尽量相似才能说明编码器-解码器训练得好，生成的主题混合向量更加准确)；

新闻文本的每个主题t由词汇表(所有新闻的所有单词组成的词汇表)上的主题词分布φ_t表示，新闻文本m_i具有由表示的主题混合向量，θ_i由高斯softmax构造；

为了模拟新闻文本m_i的生成方式，解码器执行以下步骤：

构造潜在主题变量

主题混合向量θ_i＝softmax(f_θ(z_i))；

对于每个单词w∈v_i，构造w～softmax(f_φ(θ_i))；

式中：f_θ(·)和f_φ(·)是ReLU激活神经感知器；

将主题混合向量θ_i作为新闻文本m_i的主题表示。

具体的，通过如下公式计算新闻主题学习(神经主题模型，NTM)交叉熵损失

具体实施过程中，将新闻文本的语义表示和主题表示输入至主题对比网络进行融合，得到主题角度新闻表示；

式中：表示新闻文本的主题角度新闻表示；m_i表示新闻文本的语义表示；θ_i表示新闻文本的主题表示；fc_c(·)表示主题对比网络的对比函数；W_θ表示从主题级表示空间转换到短语级表示空间的变换矩阵；

通过如下公式表示主题对比网络：

fc_c(x,y)＝[x；y；x-y；x⊙y]W_c+b_c；

式中：f_c(x,y)表示主题对比网络；表示变换矩阵；⊙表示元素乘积；表示偏置向量；x、y表示两个不同的向量表示。

具体实施过程中，关于主题信用度：

本发明提出将主题的信用度作为弱监督信号来指导虚假新闻检测。

由于每条新闻的主题信息不可用，我们利用无监督概率主题模型(LDA，来自Blei,A.Y. Ng,M.I.Jordan,Latent dirichlet allocation,Journal of Machine LearningResearch)来提取每条新闻的主题。具体来说，将每条新闻视为伪文档，LDA的生成过程形式化如下：

θ_m～Dir(α₀),for m∈N；

z_n～Multi(θ_m),for n∈[1,n_m]；

其中，N是新闻语料库，α₀是先验Dirichlet的超参数，θ_m表示新闻的主题分布，n_m是新闻m中的单词总数，/>表示给定主题分配z_n的单词主题分布。将主题分布θ_m中概率值最高的主题视为该新闻m的主题。

在为每个新闻分配一个主题之后，每个主题的信用度会根据训练集中该主题中真实新闻的比率进行注释。具体的，为主题定义了三个级别的信用度(c＝{0,1,2})：(1)“0”表示“可靠”，其中主题在虚假或未经证实的新闻中很少提及；(2)“1”表示“不确定”，即该主题不仅在真实新闻中被频繁提及，而且在虚假新闻中也被频繁提及；(3)“2”表示“不可靠”，即该主题大多在虚假新闻或未经证实的新闻中讨论，但很少在真实新闻中讨论。

通过如下公式计算新闻文本的主题可信度：

通过如下公式计算示主题信用度交叉熵损失：

式中：表示主题信用度交叉熵损失；/>表示新闻文本m_i的真实主题信用度；p_i(c)表示新闻文本m_i的主题可信度；θ_t表示主题信用度预测的所有参数；λ_t表示正则化因子；表示变换矩阵；b_t表示偏置向量；|c|表示不同主题信用度的数量。

具体实施过程中，通过如下步骤生成新闻文本的发布者表示：

S221：基于新闻文本的发布者构造对应的发布者异构图；

对于发布者p，构造异构图G_p(V_p,E)，V_p由发布者节点和新闻节点组成，E_ij＝1表示第i个发布者发布了第j条新闻；令为对应的邻接矩阵，/>和分别是发布者和新闻的初始化表示，其中|P|和|N|表示发布者和新闻的数量；

式中：H_l表示发布者表示；D^p和Dⁿ表示对角矩阵，是第l(l∈[1,h])个头的可训练参数；h表示多头注意力中的头数；A^pn表示发布者对应的邻接矩阵；N表示新闻的初始化表示；d为向量维度大小；

P′＝ELU([H₁；H₂；…；H_l]W_α)+P；

式中：P′＝(p′₁,p′₂,…,p_|′_P|)表示用于训练的新闻集中所有新闻文本的发布者表示；是第i个新闻文本m_i的发布者表示；[；]表示拼接运算符；/>表示线性变换矩阵； ELU表示激活函数；P表示发布者的初始化表示。

通过如下公式计算发布者信用度：

p_i(c|G_p)＝softmax(P′_iW_p+b_p)；

通过如下公式计算发布者信用度交叉熵损失：

式中：表示发布者信用度交叉熵损失；/>表示第i个发布者的真实信用度得分；θ_p表示可训练参数；λ_p表示正则化因子；p_i(c|G_p)表示发布者信用度；b_p表示偏置向量；|c|表示发布者信用度得分的级别数；其中，|c|＝3，c＝{“不可靠”(2)，“不确定”(1)，“可靠”(0)}；|P|表示发布者的数量；/>表示变换矩阵。

具体实施过程中，通过如下步骤生成传播者表示：

S231：基于新闻文本的传播者构造对应的传播者异构图；

对于新闻传播者p，构造异构图G_u(V_u,E)，V_u由传播者节点和新闻节点组成，E_ij＝1表示第i个传播者传播了第j条新闻；

对于第i条新闻m_i，聚合其对应的发布者表示和传播者表示/>

具体来说，使用注意力机制来聚合k个传播者对m_i的表示：

α_i＝softmax(n_iU_i ^T)；

其中U_i＝(u_i1,u_i2,…,u_ik),是新闻m_i在初始化的新闻嵌入中的表示，α_i＝(α_i1,α_i2,…,α_ik)是注意力权重。

关于注意力机制：当前有大量信息，注意力机制的核心就是让网络关注大量信息中最需要关注的地方，注意力机制一般以权重的方式体现，对重要信息赋较高的权重，不重要的信息赋较低的权重。

通过如下公式计算传播者信用度：

p_ij(c|G_u)＝softmax(u_ijW_u+b_u)；

通过如下公式计算传播者信用度交叉熵损失：

具体实施过程中，将新闻文本的发布者表示和传播者表示输入至结构对比网络进行融合，得到用户角度新闻表示；

其中，通过如下公式表示结构对比网络：

f_e(x,y)＝[x；y；x⊙y；x-y]W_e+b_e；

具体实施过程中，拼接新闻文本的主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并将最终新闻表示输入至softmax层，输出新闻文本的预测分类结果；

通过如下公式计算新闻类别概率分布交叉熵损失：

为了更好的说明本方案技术方案的优势，本实施例中公开了如下实验。

1、数据集

为了评估本发明中检测模型(后续也称为TSNN)的性能，我们使用三个真实世界的数据集，即Twitter15(来自Ma,W.Gao,P.Mitra,S.Kwon,B.J.Jansen,K.Wong,M.Cha,Detecting rumors from microblogs with recurrent neural networks)、Twitter16(来自Ma,W.Gao, P.Mitra,S.Kwon,B.J.Jansen,K.Wong,M.Cha,Detecting rumors frommicroblogs with recurrent neural networks)和微博(来自Ma,W.Gao,K.Wong,Detectrumors in microblog posts using propagation structure via kernel learning)。前两个数据集来自推特，第三个数据集来自中国流行的社交媒体网站。

表1显示了数据集的统计信息。Twitter15和Twitter16都有四个类别，分别是非虚假新闻 (NR)、虚假新闻(FR)、未经证实的新闻(UR)和真实新闻(TR)。与Twitter15和Twitter16 相比，微博的类别更粗粒度，它包含两个类别，即非虚假新闻(NR)和虚假新闻(FR)，它们预测新闻是否真实。与(Yuan,Q.Ma,W.Zhou,J.Han,S.Hu,Early detection offake news by utilizing the credibility of news,publishers,and users based onweakly supervised learning)相同，我们首先随机选择10％的数据作为验证集，然后将剩余的数据以3:1的比例拆分为训练集和测试集。

表1数据集统计

2、基线和指标

我们将TSNN与12种用于虚假新闻检测任务的最先进基线方法进行比较。这些基线方法可以分为两类，即基于特征的方法和基于深度学习的方法。

(1)基于特征的方法

DTC(来自Castillo,M.Mendoza,B.Poblete,Information credibility ontwitter)：这是一个基于监督学习的决策树模型，它从每个标注的主题中提取相关特征来构建分类器，自动判断一个主题是否对应有价值的信息，并评估新闻的真实性。

SVM-RBF(来自Yang,Y.Liu,X.Yu,M.Yang,Automatic detection of rumor onsina weibo)：该模型使用径向基函数(RBF)核函数训练支持向量机(SVM)分类器，以分别使用基于内容、帐户和传播的特征来识别虚假新闻。

SVM-TS(来自Ma,W.Gao,Z.Wei,Y.Lu,K.Wong,Detect rumors using time seriesof social context information on microblogging websites)：这是一个基于虚假新闻生命周期的时间序列模型，它利用时间序列建模技术来捕获广泛的社会背景信息。

DTR(来自Zhao,P.Resnick,Q.Mei,Enquiring minds:Early detection ofrumors in social media from enquiry posts)：DTR是一种基于用户查询短语的方法。它旨在对包含查询模式的推文进行聚类，并收集没有简单短语的相关推文。然后根据集群内信号推文的属性、对集群进行排名。

RFC(来自Kwon,M.Cha,K.Jung,Rumor detection over varying time windows)：该方法结合用户、结构、语言和时间特征来研究虚假新闻随时间的累积传播模式，跟踪虚假新闻特征预测能力的变化。

cPTK(来自Ma,W.Gao,K.Wong,Detect rumors in microblog posts usingpropagation structure via kernel learning)：它使用具有传播树内核的分类器，通过评估传播树结构之间的相似性，学习在细粒度级别识别虚假新闻的判别线索。

(2)基于深度学习的方法

GRU(来自Ma,W.Gao,P.Mitra,S.Kwon,B.J.Jansen,K.Wong,M.Cha,Detectingrumors from microblogs with recurrent neural networks)：基于RNN的模型，将事件的社会上下文信息建模为可变时间序列，学习虚假新闻的时间和文本表示。

RvNN(来自Ma,W.Gao,K.Wong,Rumor detection on twitter with tree-structured recursive neural networks)：这种递归神经网络深度集成了结构和内容语义信息，并利用自下而上和自上而下的树结构进行虚假新闻检测。

PPC(来自Liu,Y.B.Wu,Early detection of fake news on social mediathrough propagation path classification with recurrent and convolutionalnetworks)：该模型将时间序列分类器与循环和卷积网络相结合，以分析用户特征沿传播路径的变化。

GLAN(来自Yuan,Q.Ma,W.Zhou,J.Han,S.Hu,Jointly embedding the local andglobal relations of heterogeneous graph for rumor detection)：该模型结合局部语义和全局结构信息进行虚假新闻检测，将所有新闻内容、评论和用户交互作为全局关系，形成异构图。

EBGCN(来自Wei,D.Hu,W.Zhou,Z.Yue,S.Hu,Towards propagation uncertainty:Edge-enhanced bayesian graph convolutional networks for rumor detection)：这是最先进的方法，它通过贝叶斯方法自适应地调整传播结构中潜在关系的不确定性，并使用边缘一致性训练框架结合无监督关系学习来增强潜在关系的一致性。

SMAN(来自Yuan,Q.Ma,W.Zhou,J.Han,S.Hu,Early detection of fake news byutilizing the credibility of news,publishers,and users based on weaklysupervised learning)：这也是最先进的方法，它结合了新闻内容、发布者和传播者的发布和转发关系，用于虚假新闻检测和信用度预测任务。

为了评估所有比较方法产生的性能，我们使用准确度(Acc)作为所有三个数据集的整体评估指标。为了评估每个类的模型性能，我们利用精度(Pre)、召回率(Rec)和F1分数(F1)作为数据集微博的指标，同时采用F1分数(F1)作为其他两个的评估指标数据集，即Twitter15和Twitter16。

3、参数设置

针对模型训练，我们使用Adam算法(来自Reddi,S.Kale,S.Kumar,On theconvergence of adam and beyond)来更新模型参数，并将Twitter15、Twitter16和微博数据集的初始学习率分别设置为{1.7e-3,2e-3,0.9e-3}。对于神经主题模型，将主题数K设置为50。词嵌入随机初始化，嵌入大小为300。文本表示学习时CNN的卷积大小设置为(3,4,5)，每个大小对应100个内核。将Twitter15、Twitter16和微博三个数据集的结构感知多头注意力中的头数分别设置为 {10,8,7}。正则化因子λ_t、λ_p、λ_u和λ_n根据经验设置为5e-7；超参数β_p、β_u、β_r、β_t和β_n分别设置为{1,1,1,0.1,1}。

4、结果与分析

表2显示了我们的检测模型TSNN在Twitter15数据集上所有基线方法的性能比较。从结果中，我们可以观察到TSNN在总体评估指标Acc优于所有比较方法。与两个性能最佳的基线(即EBGCN和SMAN)相比，TSNN在Acc指标分别实现了3.1％和0.7％的整体性能提升。这验证了我们提出的方法TSNN的有效性，该方法进一步探索了细粒度和粗粒度的主题信号。细粒度的主题信号被用来捕捉底层的主题分布，粗粒度的主题信号被用来模拟主题的可信度。

在表2中，还展示了本发明方法的F1分数以及关于四个类别(即NR、FR、TR、UR) 中每个类别的所有基线。我们可以看到，在大多数类别上，例如NR、TR和UR，我们提出的模型TSNN始终优于所有比较方法。而对于UR类(即未经验证的新闻)，TSNN表现出比除了EBGCN之外的所有基线方法更好的性能。这可能是因为与其他三个类相比，UR类更加模糊。EBGCN获得了更好的性能，因为它可以通过基于先验信念自适应地控制消息传递来有效地处理这个问题。

表2在Twitter15数据集上的实验结果

表3展示了在Twitter16上所有比较方法的性能。与Twitter15上的结果类似，我们的检测模型TSNN在Acc指标表现出比两个最佳比较基线更好的整体性能，例如，EBGCN和SMAN的性能改进分别为3.4％和1.8％。此外，Twitter16数据集中四个类别的F1分数与Twitter15一致。原因是这两个数据集都是从同一个平台收集的，主要区别在于它们具有不同的数据大小。因此，我们的检测模型TSNN在两个数据集上具有相似的性能。

表3在Twitter16数据集上的实验结果

表4说明了微博数据集上所有比较方法的性能。我们可以观察到，与所有基线相比，TSNN 在Acc指标上表现出优越的整体性能。例如，与性能最佳的基线SMAN相比，性能改进为 0.4％。值得注意的是，微博数据集的标签只有两类，即非虚假新闻(NR)和虚假新闻(FR)。从表4中，我们可以看到TSNN始终优于所有基线。

表4在微博数据集上的实验结果

5、消融实验

本实验进行消融实验以析每个组件在TSNN中的作用。

具体地，我们有以下变体：

Users only：仅应用TSNN中的结构感知用户编码器模块来对新闻发布者和传播者的信息进行建模以进行新闻分类。

Users+Text：该变体利用结构感知用户编码器模块以及文本表示学习模块来学习新闻表示以进行检测。值得注意的是，这个变体相当于基线方法SMAN(来自Yuan,Q.Ma,W.Zhou, J.Han,S.Hu,Early detection of fake news by utilizing the credibilityof news,publishers,and users based on weakly supervised learning)。

Users+Topic:与“Users+Text”不同的是，这个变体利用NTM(来自Miao,E.Grefenstette, P.Blunsom,Discovering discrete latent topics with neuralvariational inference)学习到的新闻主题分布替换了文本表示学习模块。

Users+Text+Topic：该变体是上述两个变体的组合，即“Users+Text”和“Users+Topic”。为了获得更好的新闻表示，它聚合了来自结构感知用户编码器模块、文本表示学习模块和 NTM学习到的新闻主题分布的信息。

Users+Text+Topic Credibility：这个变体扩展了变体“Users+Text”，进一步将主题信用度作为弱监督信息来指导新闻的表示学习过程。通过引入辅助任务，即主题信用度分类，它也可以被视为基线模型SMAN的改进变体。

Users+Topic+Topic Credibility:同样，基于变体“Users+Topic”，我们进一步将主题信用度作为弱监督信息引入，以学习更好的新闻表示。

Users+Text+Topic+Topic Credibility：这是我们提出的方法TSNN，它通过捕获新闻内容、潜在主题表示以及探索发布者、传播者和主题的信用度来学习虚假新闻检测任务。

表5对所有数据集进行消融实验，去除我们提出的模型TSNN的不同部分。

表5中展示所有数据集的消融研究结果。从表5中，我们可以得到以下观察结果：

仅使用发布者和传播者信息的变体“Users Only”获得的准确度最低。当我们通过引入潜在主题信息(即“Users+Topic”)改进“Users Only”时，准确性大大提高。当我们进一步考虑“主题信用度”(即“Users+Topic+Topic Credibility”)时，性能将再次得到提升。

在所有变体中，这些基于文本的变体(例如“Users+Text”、“Users+Text+Topic”、“Users+Text+Topic Credibility”)的性能明显优于其余三个无文本的变体(即“UsersOnly”、“Users+Topic”、“Users+Topic+Topic Credibility”)。例如，在Twitter15数据集上，将文本信息添加到变体“Users Only”和“Users+Topic”将分别导致性能提升76.4％和37.5％。在其他两个数据集上可以观察到类似的趋势。这表明新闻中的文本信息包含检测虚假新闻的关键信号，并且结合这些信息可以大大提高性能。

与TSNN模型(即“Users+Text+Topic+Topic Credibility”)相比，所有移除组件的变体都表现出显著的性能下降，这表明每个组件都起着积极的作用。这是因为我们提出的方法可以用适当的方式有效地对所有这些关键组件进行建模。

6、主题数量的影响

本实验还将研究主题数量如何影响模型的性能。

我们将主题数量范围设置为{25,50,75,100,125,150}。图3显示了在三个数据集上，TSNN 在不同主题数量下的性能。我们可以观察到，主题K的数量对TSNN的性能影响很大。在 Twitter16数据集上，TSNN的性能随着主题数量的增加而不断提高，在主题数量等于50时达到最高准确度。当我们继续增加K时，性能会逐渐下降。一个可能的原因是，当主题数量变得太多时，分配给每个主题的新闻数量会很少，这不可避免地导致对主题可信度的估计不正确。在微博数据集上，TSNN的性能也先上升，在K＝50时达到峰值。当我们继续增加主题数量时，与Twitter16数据集相比，性能将缓慢下降。这是因为微博数据集的规模大于Twitter16 数据集。当我们增加主题的数量时，仍然有足够的新闻分配给每个主题来估计适当的主题可信度。在Twitter15数据集上能观察到类似的趋势。

7、参数的敏感性分析

本实验还分析参数β_p、β_u、β_r、β_t和β_n的影响，它们用于平衡目标函数中不同子任务的贡献(参见Eq.21)，包括发布者信用度分类、传播者信用度分类、神经主题模型重建、主题信用度分类和虚假新闻检测。

对于参数β_p、β_u和β_r，我们以0.2的间隔将它们从0变化到1.2。对于参数β_t，我们将其更改为{0,0.0001,0.001,0.01,0.1,1,10}。对于参数β_n，我们以0.2的间隔将其从0.2变为1.2。为了研究每个单独参数对分类结果的影响，我们将其余四个参数的值固定不变。

图4(a)显示了所提出的模型在参数β_p方面的性能。我们可以看到，当增加β_p时，模型的性能继续上升，并在β_p＝1.0时达到峰值。如果我们进一步增加β_p，它就会开始减少。对于参数β_u，在图4(b)中能观察到类似的结果。结果表明，结合发布者和传播者的信用度对于协助完成虚假新闻检测任务起着至关重要的作用。图4(c)展示了使用NTM对新闻的潜在主题表示进行建模的影响。我们可以观察到，当提高β_r时，我们的方法TSNN的性能逐渐提高，并且在β_r＝1.0时达到最佳性能。如果我们进一步增加β_r，模型性能开始下降。结果证实，使用NTM对新闻的潜在主题表示进行建模对于影响我们提出的方法的性能至关重要。图4(d)展示了在我们的方法中引入主题信用度的影响，它被用作弱监督信息来指导模型训练的过程。随着β_t的增加，我们可以观察到性能逐渐提高。当β_t＝0.1时获得最佳性能，随后性能快速下降。这表明引入主题信用度会影响所提出方法的性能。图4(e)显示了虚假新闻检测的影响，这是我们提出的方法的主要任务。不出所料，所提出的模型对β_n非常敏感，并且在β_n＝1.0时达到了最佳性能。

8、可视化

为了检查我们的模型在检测虚假新闻方面的质量，我们使用t-SNE工具(来自M.Laurens, G.Hinton,Visualizing data using t-sne,Journal of Machine LearningResearch 9)来可视化我们方法和两个最先进的基线(即GLAN和SMAN)学习到的新闻表示，其中节点根据真实标签进行着色。

如图5所示，我们可以观察到我们的TSNN学习了更多可区分的新闻表示。在基于Twitter的数据集上，即Twitter15和Twitter16，GLAN混合了具有不同类别标签的节点，无法很好地区分新闻类别。在微博数据集上，虽然大部分节点都可以通过GLAN来区分，但仍有相当多的节点混在一起。与GLAN相比，SMAN学习的新闻表示在Twitter15数据集上更具可辨别性。而在Twitter16和微博数据集上，类内相似度不够高。TSNN可以在所有数据集上学习具有高类内相似性的更紧凑的节点表示。这说明结合NTM学习到的新闻主题分布以增强新闻表示并将主题可信度作为弱监督信息引入可以促进我们的TSNN更好地表示虚假新闻检测任务。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于，包括：

S1：获取待检测的新闻文本；

训练检测模型时，将训练用新闻文本输入至检测模型：首先提取新闻文本的语义表示和主题表示，并融合语义表示和主题表示得到主题角度新闻表示，同时基于主题角度新闻表示生成主题可信度；其次提取新闻文本的发布者表示和传播者表示，并融合发布者表示和传播者表示得到用户角度新闻表示，进而分别基于发布者表示和传播者表示生成发布者可信度和传播者可信度；然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并基于最终新闻表示生成预测分类结果；最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算检测模型的训练损失，进而通过训练损失进行反向传播以优化模型参数；

通过如下步骤生成新闻文本的发布者表示：

S221：基于新闻文本的发布者构造对应的发布者异构图；

P′＝ELU([H₁；H₂；…；H_l]W_α)+P；

式中：P′＝(p′₁,p′₂,…,p′_|P|)表示用于训练的新闻集中所有新闻文本的发布者表示；是第i个新闻文本m_i的发布者表示；[；]表示拼接运算符；/>表示线性变换矩阵；ELU表示激活函数；P表示发布者的初始化表示；

通过如下步骤生成传播者表示：

S231：基于新闻文本的传播者构造对应的传播者异构图；

S234：通过注意力机制聚合一个新闻文本对应的各个传播者表示，得到当前新闻文本的传播者表示；

2.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，通过如下步骤生成新闻文本的语义表示：

3.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，通过如下步骤生成新闻文本的主题表示：

S211：通过词袋向量表示新闻文本；

S212：通过编码器将词袋向量转换为潜在向量；

4.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，将新闻文本的语义表示和主题表示输入至主题对比网络进行融合，得到主题角度新闻表示；

通过如下公式表示主题对比网络：

f_c(x,y)＝[x；y；x-y；x⊙y]W_c+b_c；

通过如下公式计算主题可信度：

5.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，将新闻文本的发布者表示和传播者表示输入至结构对比网络进行融合，得到用户角度新闻表示；

其中，通过如下公式表示结构对比网络：

f_e(x,y)＝[x；y；x⊙y；x-y]W_e+b_e；

6.如权利要求5所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，拼接新闻文本的主题角度新闻表示和用户角度新闻表示得到最终新闻表示，并将最终新闻表示输入至softmax层，输出新闻文本的预测分类结果；

7.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，通过如下公式计算发布者信用度和传播者信用度：

p_i(c|G_p)＝softmax(P′_iW_p+b_p)；

p_ij(c|G_u)＝softmax(u_ijW_u+b_u)；

式中：p_i(c|G_p)表示发布者信用度；b_p表示偏置向量；表示变换矩阵；p_ij(c|G_u)表示传播者信用度；/>表示变换矩阵；/>表示偏置向量。

8.如权利要求7所述的基于主题和结构感知神经网络的虚假新闻检测方法，其特征在于：步骤S2中，联合新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失和传播者信用度交叉熵损失，结合新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数，进而通过训练损失进行反向传播以优化模型参数；

通过如下公式表示训练损失函数：

式中：表示传播者信用度交叉熵损失；/>表示传播者u_ij的真实信用度；p_ij(c|G_u)表示传播者信用度；θ_u表示可训练参数；λ_u表示正则化因子；u_ij∈U，i∈[1,2,…,|U|],j∈[1,2,…,k]；|U|表示传播者的数量；

式中：表示新闻类别概率分布交叉熵损失；/>表示新闻m_i的真实标签；θ_n表示可训练参数；λ_n表示正则化因子；p(m_i)表示新闻文本的概率分布，即预测分类结果。/>