CN115269854A - 基于主题和结构感知神经网络的虚假新闻检测方法 - Google Patents

基于主题和结构感知神经网络的虚假新闻检测方法 Download PDF

Info

Publication number
CN115269854A
CN115269854A CN202211048168.0A CN202211048168A CN115269854A CN 115269854 A CN115269854 A CN 115269854A CN 202211048168 A CN202211048168 A CN 202211048168A CN 115269854 A CN115269854 A CN 115269854A
Authority
CN
China
Prior art keywords
news
representation
representing
publisher
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211048168.0A
Other languages
English (en)
Other versions
CN115269854B (zh
Inventor
朱小飞
陈卓敏
王莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202211048168.0A priority Critical patent/CN115269854B/zh
Publication of CN115269854A publication Critical patent/CN115269854A/zh
Application granted granted Critical
Publication of CN115269854B publication Critical patent/CN115269854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明具体涉及基于主题和结构感知神经网络的虚假新闻检测方法,包括:将待检测的新闻文本输入至经过训练的检测模型,输出对应的预测分类结果;训练时:首先提取新闻文本的语义表示和主题表示并融合得到主题角度新闻表示,同时生成主题可信度;其次提取新闻文本的发布者表示和传播者表示并融合得到用户角度新闻表示,进而生成发布者可信度和传播者可信度;然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并基于最终新闻表示生成预测分类结果;最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算训练损失,并进行反向传播。本发明能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号。

Description

基于主题和结构感知神经网络的虚假新闻检测方法
技术领域
本发明涉及虚假新闻检测技术领域,具体涉及基于主题和结构感知神经网络的虚假新闻检测方法。
背景技术
社交媒体为人们获取信息、表达意见和相互交流提供了便捷的平台。但是它也使恶意的虚假信息(被称为虚假新闻)以很高的速度传播开来,从而导致社会信任危机。因此,检测虚假新闻对于维持社交媒体上的可信环境至关重要。现有技术中,许多研究工作致力于通过基于新闻内容提取文本特征并采用传统学习技术(如SVM)来检测虚假新闻。虽然这些方法可以在一定程度上提高虚假新闻检测的性能,但它们主要依赖于特征工程,这通常是费时费力的。
最近,深度学习技术被广泛用于虚假新闻检测,其大致可分为两类,基于新闻内容的方法和基于社会背景的方法。基于新闻内容的方法旨在通过捕获不同的文本特征来构建深度神经网络模型,当内容信息丰富时,如在长新闻文本中,这些方法可以获得有希望的性能,而在短新闻文本中它们会受到稀疏问题的困扰。为此,一些研究工作也开始尝试利用社会语境信息(即基于社会背景的方法),如新闻的传播结构,来实现最先进的性能。
然而,现有工作的主要局限在于,它们忽略了新闻中的重要主题信号。新闻的类别通常与新闻的主题有很强的相关性。因此,如何设计一种能够充分探索新闻主题信号的虚假新闻检测方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于主题和结构感知神经网络的虚假新闻检测方法,以能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号,从而能够提高虚假新闻检测的准确性和有效性。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于主题和结构感知神经网络的虚假新闻检测方法,包括:
S1:获取待检测的新闻文本;
S2:将待检测的新闻文本输入至经过训练的检测模型,输出对应的预测分类结果;
训练检测模型时,将训练用新闻文本输入至检测模型:首先提取新闻文本的语义表示和主题表示,并融合语义表示和主题表示得到主题角度新闻表示,同时基于主题角度新闻表示生成主题可信度;其次提取新闻文本的发布者表示和传播者表示,并融合发布者表示和传播者表示得到用户角度新闻表示,进而分别基于发布者表示和传播者表示生成发布者可信度和传播者可信度;然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并基于最终新闻表示生成预测分类结果;最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算分类模型的训练损失,进而通过训练损失进行反向传播以优化模型参数;
S3:将检测模型输出的预测分类结果作为待检测新闻文本的虚假检测结果。
优选的,步骤S2中,通过如下步骤生成新闻文本的语义表示:
S201:将新闻文本的每个单词嵌入到低维实值向量中,得到新闻文本的词嵌入表示;
S202:将词嵌入表示输入卷积神经网络中,提取新闻文本的语义表示。
优选的,步骤S2中,通过如下步骤生成新闻文本的主题表示:
S211:通过词袋向量表示新闻文本;
S212:通过编码器将词袋向量转换为潜在向量;
S213:加入以潜在向量为条件的解码器来重构词袋向量,生成新闻文本的主题表示。
优选的,步骤S2中,将新闻文本的语义表示和主题表示输入至主题对比网络进行融合,得到主题角度新闻表示;
Figure BDA0003822810750000021
式中:
Figure BDA0003822810750000022
表示新闻文本的主题角度新闻表示;mi表示新闻文本的语义表示;θi表示新闻文本的主题表示;fc(·)表示主题对比网络的对比函数;Wθ表示从主题级表示空间转换到短语级表示空间的变换矩阵;
通过如下公式表示主题对比网络:
fc(x,y)=[x;y;x-y;x⊙y]Wc+bc
式中:fc(x,y)表示主题对比网络;
Figure BDA0003822810750000023
表示变换矩阵;⊙表示元素乘积;
Figure BDA0003822810750000024
表示偏置向量;x、y表示两个不同的向量表示;
通过如下公式计算主题可信度:
Figure BDA0003822810750000025
式中:pi(c)表示主题可信度;
Figure BDA0003822810750000026
表示变换矩阵;bt表示偏置向量。
优选的,步骤S2中,通过如下步骤生成新闻文本的发布者表示:
S221:基于新闻文本的发布者构造对应的发布者异构图;
S222:将发布者异构图输入至扩展的多头注意力网络,输出对应的发布者表示;
Figure BDA0003822810750000031
式中:Hl表示发布者表示;Dp和Dn表示对角矩阵,
Figure BDA0003822810750000032
是第l∈[1,h]个头的可训练参数;h表示多头注意力中的头数;Apn表示发布者对应的邻接矩阵;N表示新闻的初始化表示;d为向量维度大小;
S223:将多头注意力网络输出的发布者表示进行拼接并输入至全连接层,得到新闻文本最终的发布者表示;
P′=ELU([H1;H2;…;Hl]Wα)+P;
式中:P′=(p′1,p′2,…,p′|P|)表示用于训练的新闻集中所有新闻文本的发布者表示;
Figure BDA0003822810750000038
Figure BDA0003822810750000039
是第i个新闻文本mi的发布者表示;[;]表示拼接运算符;
Figure BDA0003822810750000033
表示线性变换矩阵; ELU表示激活函数;P表示发布者的初始化表示。
优选的,步骤S2中,通过如下步骤生成传播者表示:
S231:基于新闻文本的传播者构造对应的传播者异构图;
S232:将传播者异构图输入至扩展的多头注意力网络,输出对应的传播者表示;
S233:将多头注意力网络输出的传播者表示进行拼接并输入至全连接层,得到最终所有的传播者表示;
S234:通过注意力机制聚合一个新闻文本对应的各个传播者表示,得到当前新闻文本的传播者表示。
优选的,步骤S2中,将新闻文本的发布者表示和传播者表示输入至结构对比网络进行融合,得到用户角度新闻表示;
Figure BDA0003822810750000034
式中:
Figure BDA0003822810750000035
表示新闻文本的用户角度新闻表示;p′i表示新闻文本的发布者表示;u′i表示新闻文本的传播者表示;fe(·)表示结构对比网络的对比函数;
其中,通过如下公式表示结构对比网络:
fe(x,y)=[x;y;x⊙y;x-y]We+be
式中:fe(x,y)表示结构对比网络;
Figure BDA0003822810750000036
Figure BDA0003822810750000037
均表示可训练参数;x、y表示两个不同的向量表示。
优选的,步骤S2中,拼接新闻文本的主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并将最终新闻表示输入至softmax层,输出新闻文本的预测分类结果;
Figure BDA0003822810750000041
式中:p(mi)表示新闻文本的类型概率分布,即预测分类结果;
Figure BDA0003822810750000042
表示拼接得到的最终新闻表示;
Figure BDA0003822810750000043
表示变换矩阵;
Figure BDA0003822810750000044
表示偏置项;|y|表示新闻标签的类型数。
优选的,步骤S2中,通过如下公式计算发布者信用度和传播者信用度:
pi(c|Gp)=softmax(P′iWp+bp);
pij(c|Gu)=softmax(uijWu+bu);
式中:pi(c|Gp)表示发布者信用度;bp表示偏置向量;
Figure BDA0003822810750000045
表示变换矩阵;pij(c|Gu) 表示传播者信用度;
Figure BDA0003822810750000046
表示变换矩阵;
Figure BDA0003822810750000047
表示偏置向量。
优选的,步骤S2中,联合新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失和传播者信用度交叉熵损失,结合新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数,进而通过训练损失进行反向传播以优化模型参数;
通过如下公式表示训练损失函数:
Figure BDA0003822810750000048
式中:
Figure BDA0003822810750000049
表示检测模型的训练损失;
Figure BDA00038228107500000410
分别表示新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失、新闻类别概率分布交叉熵损失;βr、βt、βp、βu、βn分别表示设置的超参数;
Figure BDA00038228107500000411
式中:
Figure BDA00038228107500000412
表示新闻主题学习损失;p(zi)表示标准先验概率;DKL(p(zi)‖q(zi|vi)表示 Kullback-Leibler(KL)散度损失;
Figure BDA00038228107500000413
表示重构损失;q(zi|vi)和p(vi|zi)分别表示编码器和解码器的输出结果;|N|表示用于训练的新闻集中新闻文本的数量;
Figure BDA00038228107500000414
式中:
Figure BDA00038228107500000415
表示主题信用度交叉熵损失;
Figure BDA00038228107500000416
表示新闻文本mi的真实主题信用度;pi(c)表示主题可信度;θt表示主题信用度预测的所有参数;λt表示正则化因子;|c|表示不同主题信用度的数量;
Figure BDA00038228107500000417
式中:
Figure BDA0003822810750000051
表示发布者信用度交叉熵损失;
Figure BDA0003822810750000052
表示第i个发布者的真实信用度得分;θp表示可训练参数;λp表示正则化因子;|c|表示发布者信用度得分的级别数;其中,|c|=3,c={“不可靠”(2),“不确定”(1),“可靠”(0)};|P|表示发布者的数量;pi(c|Gp)表示发布者信用度;
Figure BDA0003822810750000053
式中:
Figure BDA0003822810750000054
表示传播者信用度交叉熵损失;
Figure BDA0003822810750000055
表示传播者uij的真实信用度;pij(c|Gu)表示传播者信用度;θu表示可训练参数;λu表示正则化因子;uij∈U,i∈[1,2,…,|U|],j∈ [1,2,…,k];|U|表示传播者的数量;
Figure BDA0003822810750000056
式中:
Figure BDA0003822810750000057
表示新闻类别概率分布交叉熵损失;
Figure BDA0003822810750000058
表示新闻mi的真实标签;θn表示可训练参数;λn表示正则化因子;p(mi)表示新闻文本的概率分布,即预测分类结果。
本发明中基于主题和结构感知神经网络的虚假新闻检测方法,具有如下有益效果:
本发明通过提取新闻的语义表示和主题表示并融合得到主题角度新闻表示,探索了新闻细粒度的主题信号(潜在主题表示),进而能够通过细粒度的主题信号探索新闻潜在的主题分布以更好地对新闻内容进行建模,同时通过主题角度新闻表示计算主题可信度,探索了新闻粗粒度的主题信号,进而能够通过粗粒度的主题信号作为弱监督信息来指导新闻表示的学习过程,即本发明能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号,进而能够从新闻主题信号的角度来提高检测模型的检测性能,从而能够提高虚假新闻检测的准确性和有效性。
其次,由于虚假新闻文本具有较强的混淆性和误导性,使得单独从新闻本身出发进行检测存在一定困难。发布者在社交媒体上发布新闻后,其他用户(传播者)会转发,构成了新闻的传播网络,其中包含许多对新闻真实性判断有帮助的潜在信息。因此,本发明通过提取新闻的发布者表示和传播者表示并融合得到用户角度新闻表示,进一步从新闻用户的角度探索新闻的潜在表示,考虑了用户对新闻的观点和态度,能够有效利用新闻和转发网络中的信息来辅助完成新闻检测,同时基于发布者表示和传播者表示计算了发布者可信度和传播者可信度,进一步考虑了发布者和传播者的信用和口碑(一般来说,大量高口碑用户分享的可能是真实新闻,而短时间内被众多低口碑用户转发的则可能是虚假新闻),使得能够从新闻用户(结构)角度来提高检测模型的检测性能,从而能够进一步提高虚假新闻检测的准确性和有效性。
最后,本发明在主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失的基础上,还进一步联合了新闻主题学习损失和新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数,使得能够更全面、更有效的优化模型参数,从而能够进一步提高检测模型的检测性能。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于主题和结构感知神经网络的虚假新闻检测方法的逻辑框图;
图2为检测模型的网络结构图;
图3为主题数量的影响示意图;
图4为参数分析示意图;
图5为本发明和两个最先进的基线在所有三个数据集上学习到的新闻表示的可视化图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于主题和结构感知神经网络的虚假新闻检测方法。
如图1所示,基于主题和结构感知神经网络的虚假新闻检测方法,包括:
S1:获取待检测的新闻文本;
S2:将待检测的新闻文本输入至经过训练的检测模型,输出对应的预测分类结果;
结合图2所示:
训练检测模型时,将训练用新闻文本(包括新闻本身及其发布者和传播者)输入至检测模型:首先(在主题感知文本编码器)提取新闻文本的语义表示(文本表示学习)和主题表示(主题表示学习),并(在主题对比网络)融合语义表示和主题表示得到主题角度新闻表示,同时(在主题信用度分类器)基于主题角度新闻表示生成主题可信度;其次(在结构感知用户编码器)提取新闻文本的发布者表示和传播者表示,并(在用户对比网络)融合发布者表示和传播者表示得到用户角度新闻表示,进而分别(在发布者信用度分类器和传播者信用度分类器)基于发布者表示和传播者表示生成发布者可信度和传播者可信度;然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并(在新闻分类器)基于最终新闻表示生成预测分类结果;最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算分类模型的训练损失,进而通过训练损失进行反向传播以优化模型参数;
S3:将检测模型输出的预测分类结果作为待检测新闻文本的虚假检测结果。
本实施例中,检测模型输出的预测分类结果是指新闻文本的类型概率分布,进而能够根据类型概率分布确定新闻文本的类型,可包括虚假新闻、真实新闻、可信新闻、不可信新闻或真实性待定新闻等类型,进而能够实现新闻文本的虚假检测。
具体实施过程中,联合新闻主题学习(神经主题模型,NTM)损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失,结合新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数,进而通过训练损失进行反向传播以优化模型参数;通过如下公式表示训练损失函数:
Figure BDA0003822810750000071
式中:
Figure BDA0003822810750000072
表示检测模型的训练损失;
Figure BDA0003822810750000073
分别表示新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失、新闻类别概率分布交叉熵损失;βr、βt、βp、βu、βn分别表示设置的超参数。
本发明通过提取新闻的语义表示和主题表示并融合得到主题角度新闻表示,探索了新闻细粒度的主题信号(潜在主题表示),进而能够通过细粒度的主题信号探索新闻潜在的主题分布以更好地对新闻内容进行建模,同时通过主题角度新闻表示计算主题可信度,探索了新闻粗粒度的主题信号,进而能够通过粗粒度的主题信号作为弱监督信息来指导新闻表示的学习过程,即本发明能够充分探索并联合新闻细粒度的主题信号和粗粒度的主题信号,进而能够从新闻主题信号的角度来提高检测模型的检测性能,从而能够提高虚假新闻检测的准确性和有效性。
其次,由于虚假新闻文本具有较强的混淆性和误导性,使得单独从新闻本身出发进行检测存在一定困难。发布者在社交媒体上发布新闻后,其他用户(传播者)会转发,构成了新闻的传播网络,其中包含许多对新闻真实性判断有帮助的潜在信息。因此,本发明通过提取新闻的发布者表示和传播者表示并融合得到用户角度新闻表示,进一步从新闻用户的角度探索新闻的潜在表示,考虑了用户对新闻的观点和态度,能够有效利用新闻和转发网络中的信息来辅助完成新闻检测,同时基于发布者表示和传播者表示计算了发布者可信度和传播者可信度,进一步考虑了发布者和传播者的信用和口碑(一般来说,大量高口碑用户分享的可能是真实新闻,而短时间内被众多低口碑用户转发的则可能是虚假新闻),使得能够从新闻用户(结构)角度来提高检测模型的检测性能,从而能够进一步提高虚假新闻检测的准确性和有效性。
最后,本发明在主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失的基础上,还进一步联合了新闻主题学习损失和新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数,使得能够更全面、更有效的优化模型参数,从而能够进一步提高检测模型的检测性能。
具体实施过程中,通过如下步骤生成新闻文本的语义表示:
S201:将新闻文本的每个单词嵌入到低维实值向量中,得到新闻文本的词嵌入表示;
将由L个单词组成的第i条新闻文本mi={w1,w2,…,wL}嵌入到具有表示矩阵
Figure BDA0003822810750000081
的低维实值向量中,得到新闻文本的词嵌入表示Xi=(x1,x2,…,xL),|V|是词汇表大小,d是词嵌入表示的维度,
Figure BDA0003822810750000082
是d维词嵌入表示,对应于新闻文本中的第j个单词;
S202:将词嵌入表示输入卷积神经网络中,提取新闻文本的语义表示;
将第j个词到第j+k个词的词嵌入表示序列的拼接xj:j+k作为卷积神经网络的输入,
Figure BDA0003822810750000091
卷积神经网络的卷积操作包括过滤器
Figure BDA0003822810750000092
应用于一个含有h个单词的窗口以产生一个新特征;单词窗口指通过中心词和上下文单词组成的窗口信息,即xj:j+k
通过如下公式从单词窗口xj:j+h-1生成特征cj
cj=f(w·xi:i+h-1+b);
式中:f表示激活函数;
Figure BDA0003822810750000093
表示偏置项;w表示将表示xi:i+h-1映射到另一个空间的向量;xi:i+h-1表示第i个词到第i+h-1个词的词表示序列的拼接;
将过滤器应用于新闻文本中每个可能的单词窗口(x1:h,x2:h+1,…,xL-h+1:L)生成特征图c= (c1,c2,…,cL-h+1),其中,
Figure BDA0003822810750000094
对每个特征图进行最大池化操作,获得最大值作为过滤器的特征,进而连接过滤器的所有特征,通过使用nk个卷积核获得新闻文本的语义表示
Figure BDA0003822810750000095
关于特征图:以c1为例,c1是由x1:h生成,所以c1对应第1个词到第h个词的特征图。
卷积神经网络中的输入层是一个句子,这个句子是由word2vec词嵌入表示的词向量表示。卷积层使用了多个卷积核,卷积层之后使用一个最大池化层,最后是一个softmax分类器。在自然语言处理领域使用卷积核滑过特征矩阵的整行,相当于滑过句子中的词语,最后将所有卷积核提取的结果合并在一起。
具体实施过程中,通过神经主题模型(Neural Topic Model,NTM)学习新闻主题表示,NTM的原理来源于变分自动编码器(VAE),它由编码器和解码器组成,用于模拟新闻的重建。
通过如下步骤生成新闻文本的主题表示:
S211:通过词袋向量表示新闻文本;
将新闻文本mi用词袋向量
Figure BDA0003822810750000096
表示,其中V是词汇表的大小。
S212:通过编码器将词袋向量转换为潜在向量;
使用编码器将词袋向量vi转换为潜在向量
Figure BDA0003822810750000097
潜在向量zi表示第i条新闻文本mi的主题,K表示主题数;
编码器用于估计先验变量μ和σ,用于推断中间的主题表示,即潜在向量zi
μ=fμ(fe(vi));
logσ=fσ(fe(vi));
式中:fμ(·)、fe(·)、fσ(·)均表示ReLU激活神经感知器;
S213:加入以潜在向量为条件的解码器来重构词袋向量,生成新闻文本的主题表示;
加入一个以潜在向量zi为条件的解码器来重构vi,并输出新的BoW向量v′i(以生成的v′i与编码器的输入vi尽量相似为目的训练编码器-解码器,只有尽量相似才能说明编码器-解码器训练得好,生成的主题混合向量更加准确);
新闻文本的每个主题t由词汇表(所有新闻的所有单词组成的词汇表)上的主题词分布φt表示,新闻文本mi具有由
Figure BDA0003822810750000101
表示的主题混合向量,θi由高斯softmax构造;
为了模拟新闻文本mi的生成方式,解码器执行以下步骤:
构造潜在主题变量
Figure BDA0003822810750000102
主题混合向量θi=softmax(fθ(zi));
对于每个单词w∈vi,构造w~softmax(fφi));
式中:fθ(·)和fφ(·)是ReLU激活神经感知器;
将主题混合向量θi作为新闻文本mi的主题表示。
具体的,通过如下公式计算新闻主题学习(神经主题模型,NTM)交叉熵损失
Figure BDA0003822810750000103
式中:
Figure BDA0003822810750000104
表示新闻主题学习损失;p(zi)表示标准先验概率;DKL(p(zi)‖q(zi|vi)表示 Kullback-Leibler(KL)散度损失;
Figure BDA0003822810750000105
表示重构损失;q(zi|vi)和p(vi|zi)分别表示编码器和解码器的输出结果;|N|表示用于训练的新闻集中新闻文本的数量。
具体实施过程中,将新闻文本的语义表示和主题表示输入至主题对比网络进行融合,得到主题角度新闻表示;
Figure BDA0003822810750000106
式中:
Figure BDA0003822810750000107
表示新闻文本的主题角度新闻表示;mi表示新闻文本的语义表示;θi表示新闻文本的主题表示;fcc(·)表示主题对比网络的对比函数;Wθ表示从主题级表示空间转换到短语级表示空间的变换矩阵;
通过如下公式表示主题对比网络:
fcc(x,y)=[x;y;x-y;x⊙y]Wc+bc
式中:fc(x,y)表示主题对比网络;
Figure BDA0003822810750000108
表示变换矩阵;⊙表示元素乘积;
Figure BDA0003822810750000109
表示偏置向量;x、y表示两个不同的向量表示。
具体实施过程中,关于主题信用度:
本发明提出将主题的信用度作为弱监督信号来指导虚假新闻检测。
由于每条新闻的主题信息不可用,我们利用无监督概率主题模型(LDA,来自Blei,A.Y. Ng,M.I.Jordan,Latent dirichlet allocation,Journal of Machine LearningResearch)来提取每条新闻的主题。具体来说,将每条新闻视为伪文档,LDA的生成过程形式化如下:
θm~Dir(α0),for m∈N;
zn~Multi(θm),for n∈[1,nm];
Figure BDA0003822810750000111
其中,N是新闻语料库,α0是先验Dirichlet的超参数,θm表示新闻
Figure BDA0003822810750000112
的主题分布,nm是新闻m中的单词总数,
Figure BDA0003822810750000113
表示给定主题分配zn的单词主题分布。将主题分布θm中概率值最高的主题视为该新闻m的主题。
在为每个新闻分配一个主题之后,每个主题的信用度会根据训练集中该主题中真实新闻的比率进行注释。具体的,为主题定义了三个级别的信用度(c={0,1,2}):(1)“0”表示“可靠”,其中主题在虚假或未经证实的新闻中很少提及;(2)“1”表示“不确定”,即该主题不仅在真实新闻中被频繁提及,而且在虚假新闻中也被频繁提及;(3)“2”表示“不可靠”,即该主题大多在虚假新闻或未经证实的新闻中讨论,但很少在真实新闻中讨论。
通过如下公式计算新闻文本的主题可信度:
Figure BDA0003822810750000114
通过如下公式计算示主题信用度交叉熵损失:
Figure BDA0003822810750000115
式中:
Figure BDA0003822810750000116
表示主题信用度交叉熵损失;
Figure BDA0003822810750000117
表示新闻文本mi的真实主题信用度;pi(c)表示新闻文本mi的主题可信度;θt表示主题信用度预测的所有参数;λt表示正则化因子;
Figure BDA0003822810750000118
Figure BDA0003822810750000119
表示变换矩阵;bt表示偏置向量;|c|表示不同主题信用度的数量。
具体实施过程中,通过如下步骤生成新闻文本的发布者表示:
S221:基于新闻文本的发布者构造对应的发布者异构图;
对于发布者p,构造异构图Gp(Vp,E),Vp由发布者节点和新闻节点组成,Eij=1表示第i个发布者发布了第j条新闻;令
Figure BDA00038228107500001110
为对应的邻接矩阵,
Figure BDA00038228107500001111
Figure BDA00038228107500001112
分别是发布者和新闻的初始化表示,其中|P|和|N|表示发布者和新闻的数量;
S222:将发布者异构图输入至扩展的多头注意力网络,输出对应的发布者表示;
Figure BDA00038228107500001113
式中:Hl表示发布者表示;Dp和Dn表示对角矩阵,
Figure BDA00038228107500001114
是第l(l∈[1,h])个头的可训练参数;h表示多头注意力中的头数;Apn表示发布者对应的邻接矩阵;N表示新闻的初始化表示;d为向量维度大小;
S223:将多头注意力网络输出的发布者表示进行拼接并输入至全连接层,得到新闻文本最终的发布者表示;
P′=ELU([H1;H2;…;Hl]Wα)+P;
式中:P′=(p′1,p′2,…,p|P|)表示用于训练的新闻集中所有新闻文本的发布者表示;
Figure BDA0003822810750000121
Figure BDA0003822810750000122
是第i个新闻文本mi的发布者表示;[;]表示拼接运算符;
Figure BDA0003822810750000123
表示线性变换矩阵; ELU表示激活函数;P表示发布者的初始化表示。
通过如下公式计算发布者信用度:
pi(c|Gp)=softmax(P′iWp+bp);
通过如下公式计算发布者信用度交叉熵损失:
Figure BDA0003822810750000124
式中:
Figure BDA0003822810750000125
表示发布者信用度交叉熵损失;
Figure BDA0003822810750000126
表示第i个发布者的真实信用度得分;θp表示可训练参数;λp表示正则化因子;pi(c|Gp)表示发布者信用度;bp表示偏置向量;|c|表示发布者信用度得分的级别数;其中,|c|=3,c={“不可靠”(2),“不确定”(1),“可靠”(0)};|P|表示发布者的数量;
Figure BDA0003822810750000127
表示变换矩阵。
具体实施过程中,通过如下步骤生成传播者表示:
S231:基于新闻文本的传播者构造对应的传播者异构图;
对于新闻传播者p,构造异构图Gu(Vu,E),Vu由传播者节点和新闻节点组成,Eij=1表示第i个传播者传播了第j条新闻;
S232:将传播者异构图输入至扩展的多头注意力网络,输出对应的传播者表示;
S233:将多头注意力网络输出的传播者表示进行拼接并输入至全连接层,得到最终所有的传播者表示;
S234:通过注意力机制聚合一个新闻文本对应的各个传播者表示,得到当前新闻文本的传播者表示。
对于第i条新闻mi,聚合其对应的发布者表示
Figure BDA0003822810750000128
和传播者表示
Figure BDA0003822810750000129
具体来说,使用注意力机制来聚合k个传播者对mi的表示:
Figure BDA00038228107500001210
αi=softmax(niUi T);
其中Ui=(ui1,ui2,…,uik),
Figure BDA00038228107500001211
是新闻mi在初始化的新闻嵌入
Figure BDA00038228107500001212
中的表示,αi=(αi1i2,…,αik)是注意力权重。
关于注意力机制:当前有大量信息,注意力机制的核心就是让网络关注大量信息中最需要关注的地方,注意力机制一般以权重的方式体现,对重要信息赋较高的权重,不重要的信息赋较低的权重。
通过如下公式计算传播者信用度:
pij(c|Gu)=softmax(uijWu+bu);
通过如下公式计算传播者信用度交叉熵损失:
Figure BDA0003822810750000131
式中:
Figure BDA0003822810750000132
表示传播者信用度交叉熵损失;
Figure BDA0003822810750000133
表示传播者uij的真实信用度;θu表示可训练参数;λu表示正则化因子;pij(c|Gu)表示传播者信用度;uij∈U,i∈[1,2,…,|U|],j∈ [1,2,…,k];
Figure BDA0003822810750000134
表示变换矩阵;
Figure BDA0003822810750000135
表示偏置向量;|U|表示传播者的数量。
具体实施过程中,将新闻文本的发布者表示和传播者表示输入至结构对比网络进行融合,得到用户角度新闻表示;
Figure BDA0003822810750000136
式中:
Figure BDA0003822810750000137
表示新闻文本的用户角度新闻表示;p′i表示新闻文本的发布者表示;u′i表示新闻文本的传播者表示;fe(·)表示结构对比网络的对比函数;
其中,通过如下公式表示结构对比网络:
fe(x,y)=[x;y;x⊙y;x-y]We+be
式中:fe(x,y)表示结构对比网络;
Figure BDA0003822810750000138
Figure BDA0003822810750000139
均表示可训练参数;x、y表示两个不同的向量表示。
具体实施过程中,拼接新闻文本的主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并将最终新闻表示输入至softmax层,输出新闻文本的预测分类结果;
Figure BDA00038228107500001310
式中:p(mi)表示新闻文本的类型概率分布,即预测分类结果;
Figure BDA00038228107500001311
表示拼接得到的最终新闻表示;
Figure BDA00038228107500001312
表示变换矩阵;
Figure BDA00038228107500001313
表示偏置项;|y|表示新闻标签的类型数。
通过如下公式计算新闻类别概率分布交叉熵损失:
Figure BDA00038228107500001314
式中:
Figure BDA00038228107500001315
表示新闻类别概率分布交叉熵损失;
Figure BDA00038228107500001316
表示新闻mi的真实标签;θn表示可训练参数;λn表示正则化因子;p(mi)表示新闻文本的概率分布,即预测分类结果。
为了更好的说明本方案技术方案的优势,本实施例中公开了如下实验。
1、数据集
为了评估本发明中检测模型(后续也称为TSNN)的性能,我们使用三个真实世界的数据集,即Twitter15(来自Ma,W.Gao,P.Mitra,S.Kwon,B.J.Jansen,K.Wong,M.Cha,Detecting rumors from microblogs with recurrent neural networks)、Twitter16(来自Ma,W.Gao, P.Mitra,S.Kwon,B.J.Jansen,K.Wong,M.Cha,Detecting rumors frommicroblogs with recurrent neural networks)和微博(来自Ma,W.Gao,K.Wong,Detectrumors in microblog posts using propagation structure via kernel learning)。前两个数据集来自推特,第三个数据集来自中国流行的社交媒体网站。
表1显示了数据集的统计信息。Twitter15和Twitter16都有四个类别,分别是非虚假新闻 (NR)、虚假新闻(FR)、未经证实的新闻(UR)和真实新闻(TR)。与Twitter15和Twitter16 相比,微博的类别更粗粒度,它包含两个类别,即非虚假新闻(NR)和虚假新闻(FR),它们预测新闻是否真实。与(Yuan,Q.Ma,W.Zhou,J.Han,S.Hu,Early detection offake news by utilizing the credibility of news,publishers,and users based onweakly supervised learning)相同,我们首先随机选择10%的数据作为验证集,然后将剩余的数据以3:1的比例拆分为训练集和测试集。
表1数据集统计
Figure BDA0003822810750000141
2、基线和指标
我们将TSNN与12种用于虚假新闻检测任务的最先进基线方法进行比较。这些基线方法可以分为两类,即基于特征的方法和基于深度学习的方法。
(1)基于特征的方法
DTC(来自Castillo,M.Mendoza,B.Poblete,Information credibility ontwitter):这是一个基于监督学习的决策树模型,它从每个标注的主题中提取相关特征来构建分类器,自动判断一个主题是否对应有价值的信息,并评估新闻的真实性。
SVM-RBF(来自Yang,Y.Liu,X.Yu,M.Yang,Automatic detection of rumor onsina weibo):该模型使用径向基函数(RBF)核函数训练支持向量机(SVM)分类器,以分别使用基于内容、帐户和传播的特征来识别虚假新闻。
SVM-TS(来自Ma,W.Gao,Z.Wei,Y.Lu,K.Wong,Detect rumors using time seriesof social context information on microblogging websites):这是一个基于虚假新闻生命周期的时间序列模型,它利用时间序列建模技术来捕获广泛的社会背景信息。
DTR(来自Zhao,P.Resnick,Q.Mei,Enquiring minds:Early detection ofrumors in social media from enquiry posts):DTR是一种基于用户查询短语的方法。它旨在对包含查询模式的推文进行聚类,并收集没有简单短语的相关推文。然后根据集群内信号推文的属性、对集群进行排名。
RFC(来自Kwon,M.Cha,K.Jung,Rumor detection over varying time windows):该方法结合用户、结构、语言和时间特征来研究虚假新闻随时间的累积传播模式,跟踪虚假新闻特征预测能力的变化。
cPTK(来自Ma,W.Gao,K.Wong,Detect rumors in microblog posts usingpropagation structure via kernel learning):它使用具有传播树内核的分类器,通过评估传播树结构之间的相似性,学习在细粒度级别识别虚假新闻的判别线索。
(2)基于深度学习的方法
GRU(来自Ma,W.Gao,P.Mitra,S.Kwon,B.J.Jansen,K.Wong,M.Cha,Detectingrumors from microblogs with recurrent neural networks):基于RNN的模型,将事件的社会上下文信息建模为可变时间序列,学习虚假新闻的时间和文本表示。
RvNN(来自Ma,W.Gao,K.Wong,Rumor detection on twitter with tree-structured recursive neural networks):这种递归神经网络深度集成了结构和内容语义信息,并利用自下而上和自上而下的树结构进行虚假新闻检测。
PPC(来自Liu,Y.B.Wu,Early detection of fake news on social mediathrough propagation path classification with recurrent and convolutionalnetworks):该模型将时间序列分类器与循环和卷积网络相结合,以分析用户特征沿传播路径的变化。
GLAN(来自Yuan,Q.Ma,W.Zhou,J.Han,S.Hu,Jointly embedding the local andglobal relations of heterogeneous graph for rumor detection):该模型结合局部语义和全局结构信息进行虚假新闻检测,将所有新闻内容、评论和用户交互作为全局关系,形成异构图。
EBGCN(来自Wei,D.Hu,W.Zhou,Z.Yue,S.Hu,Towards propagation uncertainty:Edge-enhanced bayesian graph convolutional networks for rumor detection):这是最先进的方法,它通过贝叶斯方法自适应地调整传播结构中潜在关系的不确定性,并使用边缘一致性训练框架结合无监督关系学习来增强潜在关系的一致性。
SMAN(来自Yuan,Q.Ma,W.Zhou,J.Han,S.Hu,Early detection of fake news byutilizing the credibility of news,publishers,and users based on weaklysupervised learning):这也是最先进的方法,它结合了新闻内容、发布者和传播者的发布和转发关系,用于虚假新闻检测和信用度预测任务。
为了评估所有比较方法产生的性能,我们使用准确度(Acc)作为所有三个数据集的整体评估指标。为了评估每个类的模型性能,我们利用精度(Pre)、召回率(Rec)和F1分数(F1)作为数据集微博的指标,同时采用F1分数(F1)作为其他两个的评估指标数据集,即Twitter15和Twitter16。
3、参数设置
针对模型训练,我们使用Adam算法(来自Reddi,S.Kale,S.Kumar,On theconvergence of adam and beyond)来更新模型参数,并将Twitter15、Twitter16和微博数据集的初始学习率分别设置为{1.7e-3,2e-3,0.9e-3}。对于神经主题模型,将主题数K设置为50。词嵌入随机初始化,嵌入大小为300。文本表示学习时CNN的卷积大小设置为(3,4,5),每个大小对应100个内核。将Twitter15、Twitter16和微博三个数据集的结构感知多头注意力中的头数分别设置为 {10,8,7}。正则化因子λt、λp、λu和λn根据经验设置为5e-7;超参数βp、βu、βr、βt和βn分别设置为{1,1,1,0.1,1}。
4、结果与分析
表2显示了我们的检测模型TSNN在Twitter15数据集上所有基线方法的性能比较。从结果中,我们可以观察到TSNN在总体评估指标Acc优于所有比较方法。与两个性能最佳的基线(即EBGCN和SMAN)相比,TSNN在Acc指标分别实现了3.1%和0.7%的整体性能提升。这验证了我们提出的方法TSNN的有效性,该方法进一步探索了细粒度和粗粒度的主题信号。细粒度的主题信号被用来捕捉底层的主题分布,粗粒度的主题信号被用来模拟主题的可信度。
在表2中,还展示了本发明方法的F1分数以及关于四个类别(即NR、FR、TR、UR) 中每个类别的所有基线。我们可以看到,在大多数类别上,例如NR、TR和UR,我们提出的模型TSNN始终优于所有比较方法。而对于UR类(即未经验证的新闻),TSNN表现出比除了EBGCN之外的所有基线方法更好的性能。这可能是因为与其他三个类相比,UR类更加模糊。EBGCN获得了更好的性能,因为它可以通过基于先验信念自适应地控制消息传递来有效地处理这个问题。
表2在Twitter15数据集上的实验结果
Figure BDA0003822810750000171
表3展示了在Twitter16上所有比较方法的性能。与Twitter15上的结果类似,我们的检测模型TSNN在Acc指标表现出比两个最佳比较基线更好的整体性能,例如,EBGCN和SMAN的性能改进分别为3.4%和1.8%。此外,Twitter16数据集中四个类别的F1分数与Twitter15一致。原因是这两个数据集都是从同一个平台收集的,主要区别在于它们具有不同的数据大小。因此,我们的检测模型TSNN在两个数据集上具有相似的性能。
表3在Twitter16数据集上的实验结果
Figure BDA0003822810750000172
表4说明了微博数据集上所有比较方法的性能。我们可以观察到,与所有基线相比,TSNN 在Acc指标上表现出优越的整体性能。例如,与性能最佳的基线SMAN相比,性能改进为 0.4%。值得注意的是,微博数据集的标签只有两类,即非虚假新闻(NR)和虚假新闻(FR)。从表4中,我们可以看到TSNN始终优于所有基线。
表4在微博数据集上的实验结果
Figure BDA0003822810750000181
5、消融实验
本实验进行消融实验以析每个组件在TSNN中的作用。
具体地,我们有以下变体:
Users only:仅应用TSNN中的结构感知用户编码器模块来对新闻发布者和传播者的信息进行建模以进行新闻分类。
Users+Text:该变体利用结构感知用户编码器模块以及文本表示学习模块来学习新闻表示以进行检测。值得注意的是,这个变体相当于基线方法SMAN(来自Yuan,Q.Ma,W.Zhou, J.Han,S.Hu,Early detection of fake news by utilizing the credibilityof news,publishers,and users based on weakly supervised learning)。
Users+Topic:与“Users+Text”不同的是,这个变体利用NTM(来自Miao,E.Grefenstette, P.Blunsom,Discovering discrete latent topics with neuralvariational inference)学习到的新闻主题分布替换了文本表示学习模块。
Users+Text+Topic:该变体是上述两个变体的组合,即“Users+Text”和“Users+Topic”。为了获得更好的新闻表示,它聚合了来自结构感知用户编码器模块、文本表示学习模块和 NTM学习到的新闻主题分布的信息。
Users+Text+Topic Credibility:这个变体扩展了变体“Users+Text”,进一步将主题信用度作为弱监督信息来指导新闻的表示学习过程。通过引入辅助任务,即主题信用度分类,它也可以被视为基线模型SMAN的改进变体。
Users+Topic+Topic Credibility:同样,基于变体“Users+Topic”,我们进一步将主题信用度作为弱监督信息引入,以学习更好的新闻表示。
Users+Text+Topic+Topic Credibility:这是我们提出的方法TSNN,它通过捕获新闻内容、潜在主题表示以及探索发布者、传播者和主题的信用度来学习虚假新闻检测任务。
表5对所有数据集进行消融实验,去除我们提出的模型TSNN的不同部分。
Figure BDA0003822810750000191
表5中展示所有数据集的消融研究结果。从表5中,我们可以得到以下观察结果:
仅使用发布者和传播者信息的变体“Users Only”获得的准确度最低。当我们通过引入潜在主题信息(即“Users+Topic”)改进“Users Only”时,准确性大大提高。当我们进一步考虑“主题信用度”(即“Users+Topic+Topic Credibility”)时,性能将再次得到提升。
在所有变体中,这些基于文本的变体(例如“Users+Text”、“Users+Text+Topic”、“Users+Text+Topic Credibility”)的性能明显优于其余三个无文本的变体(即“UsersOnly”、“Users+Topic”、“Users+Topic+Topic Credibility”)。例如,在Twitter15数据集上,将文本信息添加到变体“Users Only”和“Users+Topic”将分别导致性能提升76.4%和37.5%。在其他两个数据集上可以观察到类似的趋势。这表明新闻中的文本信息包含检测虚假新闻的关键信号,并且结合这些信息可以大大提高性能。
与TSNN模型(即“Users+Text+Topic+Topic Credibility”)相比,所有移除组件的变体都表现出显著的性能下降,这表明每个组件都起着积极的作用。这是因为我们提出的方法可以用适当的方式有效地对所有这些关键组件进行建模。
6、主题数量的影响
本实验还将研究主题数量如何影响模型的性能。
我们将主题数量范围设置为{25,50,75,100,125,150}。图3显示了在三个数据集上,TSNN 在不同主题数量下的性能。我们可以观察到,主题K的数量对TSNN的性能影响很大。在 Twitter16数据集上,TSNN的性能随着主题数量的增加而不断提高,在主题数量等于50时达到最高准确度。当我们继续增加K时,性能会逐渐下降。一个可能的原因是,当主题数量变得太多时,分配给每个主题的新闻数量会很少,这不可避免地导致对主题可信度的估计不正确。在微博数据集上,TSNN的性能也先上升,在K=50时达到峰值。当我们继续增加主题数量时,与Twitter16数据集相比,性能将缓慢下降。这是因为微博数据集的规模大于Twitter16 数据集。当我们增加主题的数量时,仍然有足够的新闻分配给每个主题来估计适当的主题可信度。在Twitter15数据集上能观察到类似的趋势。
7、参数的敏感性分析
本实验还分析参数βp、βu、βr、βt和βn的影响,它们用于平衡目标函数中不同子任务的贡献(参见Eq.21),包括发布者信用度分类、传播者信用度分类、神经主题模型重建、主题信用度分类和虚假新闻检测。
对于参数βp、βu和βr,我们以0.2的间隔将它们从0变化到1.2。对于参数βt,我们将其更改为{0,0.0001,0.001,0.01,0.1,1,10}。对于参数βn,我们以0.2的间隔将其从0.2变为1.2。为了研究每个单独参数对分类结果的影响,我们将其余四个参数的值固定不变。
图4(a)显示了所提出的模型在参数βp方面的性能。我们可以看到,当增加βp时,模型的性能继续上升,并在βp=1.0时达到峰值。如果我们进一步增加βp,它就会开始减少。对于参数βu,在图4(b)中能观察到类似的结果。结果表明,结合发布者和传播者的信用度对于协助完成虚假新闻检测任务起着至关重要的作用。图4(c)展示了使用NTM对新闻的潜在主题表示进行建模的影响。我们可以观察到,当提高βr时,我们的方法TSNN的性能逐渐提高,并且在βr=1.0时达到最佳性能。如果我们进一步增加βr,模型性能开始下降。结果证实,使用NTM对新闻的潜在主题表示进行建模对于影响我们提出的方法的性能至关重要。图4(d)展示了在我们的方法中引入主题信用度的影响,它被用作弱监督信息来指导模型训练的过程。随着βt的增加,我们可以观察到性能逐渐提高。当βt=0.1时获得最佳性能,随后性能快速下降。这表明引入主题信用度会影响所提出方法的性能。图4(e)显示了虚假新闻检测的影响,这是我们提出的方法的主要任务。不出所料,所提出的模型对βn非常敏感,并且在βn=1.0时达到了最佳性能。
8、可视化
为了检查我们的模型在检测虚假新闻方面的质量,我们使用t-SNE工具(来自M.Laurens, G.Hinton,Visualizing data using t-sne,Journal of Machine LearningResearch 9)来可视化我们方法和两个最先进的基线(即GLAN和SMAN)学习到的新闻表示,其中节点根据真实标签进行着色。
如图5所示,我们可以观察到我们的TSNN学习了更多可区分的新闻表示。在基于Twitter的数据集上,即Twitter15和Twitter16,GLAN混合了具有不同类别标签的节点,无法很好地区分新闻类别。在微博数据集上,虽然大部分节点都可以通过GLAN来区分,但仍有相当多的节点混在一起。与GLAN相比,SMAN学习的新闻表示在Twitter15数据集上更具可辨别性。而在Twitter16和微博数据集上,类内相似度不够高。TSNN可以在所有数据集上学习具有高类内相似性的更紧凑的节点表示。这说明结合NTM学习到的新闻主题分布以增强新闻表示并将主题可信度作为弱监督信息引入可以促进我们的TSNN更好地表示虚假新闻检测任务。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于,包括:
S1:获取待检测的新闻文本;
S2:将待检测的新闻文本输入至经过训练的检测模型,输出对应的预测分类结果;
训练检测模型时,将训练用新闻文本输入至检测模型:首先提取新闻文本的语义表示和主题表示,并融合语义表示和主题表示得到主题角度新闻表示,同时基于主题角度新闻表示生成主题可信度;其次提取新闻文本的发布者表示和传播者表示,并融合发布者表示和传播者表示得到用户角度新闻表示,进而分别基于发布者表示和传播者表示生成发布者可信度和传播者可信度;然后拼接主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并基于最终新闻表示生成预测分类结果;最后联合新闻主题学习、主题可信度、发布者可信度、传播者可信度和预测分类结果计算分类模型的训练损失,进而通过训练损失进行反向传播以优化模型参数;
S3:将检测模型输出的预测分类结果作为待检测新闻文本的虚假检测结果。
2.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,通过如下步骤生成新闻文本的语义表示:
S201:将新闻文本的每个单词嵌入到低维实值向量中,得到新闻文本的词嵌入表示;
S202:将词嵌入表示输入卷积神经网络中,提取新闻文本的语义表示。
3.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,通过如下步骤生成新闻文本的主题表示:
S211:通过词袋向量表示新闻文本;
S212:通过编码器将词袋向量转换为潜在向量;
S213:加入以潜在向量为条件的解码器来重构词袋向量,生成新闻文本的主题表示。
4.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,将新闻文本的语义表示和主题表示输入至主题对比网络进行融合,得到主题角度新闻表示;
Figure FDA0003822810740000011
式中:
Figure FDA0003822810740000012
表示新闻文本的主题角度新闻表示;mi表示新闻文本的语义表示;θi表示新闻文本的主题表示;fc(·)表示主题对比网络的对比函数;Wθ表示从主题级表示空间转换到短语级表示空间的变换矩阵;
通过如下公式表示主题对比网络:
fc(x,y)=[x;y;x-y;x⊙y]Wc+bc
式中:fc(x,y)表示主题对比网络;
Figure FDA0003822810740000013
表示变换矩阵;⊙表示元素乘积;
Figure FDA0003822810740000014
表示偏置向量;x、y表示两个不同的向量表示;
通过如下公式计算主题可信度:
Figure FDA0003822810740000021
式中:pi(c)表示主题可信度;
Figure FDA0003822810740000022
表示变换矩阵;bt表示偏置向量。
5.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,通过如下步骤生成新闻文本的发布者表示:
S221:基于新闻文本的发布者构造对应的发布者异构图;
S222:将发布者异构图输入至扩展的多头注意力网络,输出对应的发布者表示;
Figure FDA0003822810740000023
式中:Hl表示发布者表示;Dp和Dn表示对角矩阵,
Figure FDA0003822810740000024
是第l∈[1,h]个头的可训练参数;h表示多头注意力中的头数;Apn表示发布者对应的邻接矩阵;N表示新闻的初始化表示;d为向量维度大小;
S223:将多头注意力网络输出的发布者表示进行拼接并输入至全连接层,得到新闻文本最终的发布者表示;
P′=ELU([H1;H2;…;Hl]Wα)+P;
式中:P′=(p′1,p′2,…,p′|P|)表示用于训练的新闻集中所有新闻文本的发布者表示;
Figure FDA0003822810740000025
Figure FDA0003822810740000026
是第i个新闻文本mi的发布者表示;[;]表示拼接运算符;
Figure FDA0003822810740000027
表示线性变换矩阵;ELU表示激活函数;P表示发布者的初始化表示。
6.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,通过如下步骤生成传播者表示:
S231:基于新闻文本的传播者构造对应的传播者异构图;
S232:将传播者异构图输入至扩展的多头注意力网络,输出对应的传播者表示;
S233:将多头注意力网络输出的传播者表示进行拼接并输入至全连接层,得到最终所有的传播者表示;
S234:通过注意力机制聚合一个新闻文本对应的各个传播者表示,得到当前新闻文本的传播者表示。
7.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,将新闻文本的发布者表示和传播者表示输入至结构对比网络进行融合,得到用户角度新闻表示;
Figure FDA0003822810740000031
式中:
Figure FDA0003822810740000032
表示新闻文本的用户角度新闻表示;p′i表示新闻文本的发布者表示;u′i表示新闻文本的传播者表示;fe(·)表示结构对比网络的对比函数;
其中,通过如下公式表示结构对比网络:
fe(x,y)=[x;y;x⊙y;x-y]We+be
式中:fe(x,y)表示结构对比网络;
Figure FDA0003822810740000033
Figure FDA0003822810740000034
均表示可训练参数;x、y表示两个不同的向量表示。
8.如权利要求7所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,拼接新闻文本的主题角度新闻表示和用户角度新闻表示得到最终新闻表示,并将最终新闻表示输入至softmax层,输出新闻文本的预测分类结果;
Figure FDA0003822810740000035
式中:p(mi)表示新闻文本的类型概率分布,即预测分类结果;
Figure FDA0003822810740000036
表示拼接得到的最终新闻表示;
Figure FDA0003822810740000037
表示变换矩阵;
Figure FDA0003822810740000038
表示偏置项;|y|表示新闻标签的类型数。
9.如权利要求1所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,通过如下公式计算发布者信用度和传播者信用度:
pi(c|Gp)=softmax(P′iWp+bp);
pij(c|Gu)=softmax(uijWu+bu);
式中:pi(c|Gp)表示发布者信用度;bp表示偏置向量;
Figure FDA0003822810740000039
表示变换矩阵;pij(c|Gu)表示传播者信用度;
Figure FDA00038228107400000310
表示变换矩阵;
Figure FDA00038228107400000311
表示偏置向量。
10.如权利要求9所述的基于主题和结构感知神经网络的虚假新闻检测方法,其特征在于:步骤S2中,联合新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失和传播者信用度交叉熵损失,结合新闻类别概率分布交叉熵损失共同作为检测模型的训练损失函数,进而通过训练损失进行反向传播以优化模型参数;
通过如下公式表示训练损失函数:
Figure FDA00038228107400000312
式中:
Figure FDA00038228107400000313
表示检测模型的训练损失;
Figure FDA00038228107400000314
分别表示新闻主题学习损失、主题信用度交叉熵损失、发布者信用度交叉熵损失、传播者信用度交叉熵损失、新闻类别概率分布交叉熵损失;βr、βt、βp、βu、βn分别表示设置的超参数;
Figure FDA0003822810740000041
式中:
Figure FDA0003822810740000042
表示新闻主题学习损失;p(zi)表示标准先验概率;DKL(p(zi)‖q(zi|vi)表示KL散度损失;
Figure FDA0003822810740000043
表示重构损失;q(zi|vi)和p(vi|zi)分别表示编码器和解码器的输出结果;|N|表示用于训练的新闻集中新闻文本的数量;
Figure FDA0003822810740000044
式中:
Figure FDA0003822810740000045
表示主题信用度交叉熵损失;
Figure FDA0003822810740000046
表示新闻文本mi的真实主题信用度;pi(c)表示主题可信度;θt表示主题信用度预测的所有参数;λt表示正则化因子;|c|表示不同主题信用度的数量;
Figure FDA0003822810740000047
式中:
Figure FDA0003822810740000048
表示发布者信用度交叉熵损失;
Figure FDA0003822810740000049
表示第i个发布者的真实信用度得分;θp表示可训练参数;λp表示正则化因子;|c|表示发布者信用度得分的级别数;其中,|c|=3,c={“不可靠”(2),“不确定”(1),“可靠”(0)};|P|表示发布者的数量;pi(c|Gp)表示发布者信用度;
Figure FDA00038228107400000410
式中:
Figure FDA00038228107400000411
表示传播者信用度交叉熵损失;
Figure FDA00038228107400000412
表示传播者uij的真实信用度;pij(c|Gu)表示传播者信用度;θu表示可训练参数;λu表示正则化因子;uij∈U,i∈[1,2,…,|U|],j∈[1,2,…,k];|U|表示传播者的数量;
Figure FDA00038228107400000413
式中:
Figure FDA00038228107400000414
表示新闻类别概率分布交叉熵损失;
Figure FDA00038228107400000415
表示新闻mi的真实标签;θn表示可训练参数;λn表示正则化因子;p(mi)表示新闻文本的概率分布,即预测分类结果。
CN202211048168.0A 2022-08-30 2022-08-30 基于主题和结构感知神经网络的虚假新闻检测方法 Active CN115269854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211048168.0A CN115269854B (zh) 2022-08-30 2022-08-30 基于主题和结构感知神经网络的虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211048168.0A CN115269854B (zh) 2022-08-30 2022-08-30 基于主题和结构感知神经网络的虚假新闻检测方法

Publications (2)

Publication Number Publication Date
CN115269854A true CN115269854A (zh) 2022-11-01
CN115269854B CN115269854B (zh) 2024-02-02

Family

ID=83754395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211048168.0A Active CN115269854B (zh) 2022-08-30 2022-08-30 基于主题和结构感知神经网络的虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN115269854B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349501A (zh) * 2023-10-18 2024-01-05 重庆理工大学 基于图神经网络的双过滤证据感知虚假新闻检测方法
CN118312621A (zh) * 2024-06-11 2024-07-09 江西师范大学 基于传播结构时空特征感知的低资源虚假新闻检测方法
JP7564390B1 (ja) 2024-02-02 2024-10-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190107832A (ko) * 2018-03-13 2019-09-23 국민대학교산학협력단 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
CN111581980A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于决策树与共同注意力协作的假新闻检测系统及方法
CN112329444A (zh) * 2020-11-10 2021-02-05 南开大学 融合文本和传播结构的早期谣言检测方法
US20210089579A1 (en) * 2019-09-23 2021-03-25 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN112597302A (zh) * 2020-12-18 2021-04-02 东北林业大学 基于多维评论表示的虚假评论检测方法
CN113127643A (zh) * 2021-05-11 2021-07-16 江南大学 一种融合微博主题及评论的深度学习谣言检测方法
CN113220890A (zh) * 2021-06-10 2021-08-06 长春工业大学 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN114218457A (zh) * 2021-11-22 2022-03-22 西北工业大学 一种基于转发社交媒体用户表征的假新闻检测方法
CN114579878A (zh) * 2022-03-15 2022-06-03 中国科学院空天信息创新研究院 虚假新闻判别模型的训练方法、虚假新闻判别方法及装置
CN114936266A (zh) * 2022-05-11 2022-08-23 西安交通大学医学院第二附属医院 基于门控机制的多模态融合谣言早期检测方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190107832A (ko) * 2018-03-13 2019-09-23 국민대학교산학협력단 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
US20210089579A1 (en) * 2019-09-23 2021-03-25 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN111581980A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于决策树与共同注意力协作的假新闻检测系统及方法
CN112329444A (zh) * 2020-11-10 2021-02-05 南开大学 融合文本和传播结构的早期谣言检测方法
CN112597302A (zh) * 2020-12-18 2021-04-02 东北林业大学 基于多维评论表示的虚假评论检测方法
CN113127643A (zh) * 2021-05-11 2021-07-16 江南大学 一种融合微博主题及评论的深度学习谣言检测方法
CN113220890A (zh) * 2021-06-10 2021-08-06 长春工业大学 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN114218457A (zh) * 2021-11-22 2022-03-22 西北工业大学 一种基于转发社交媒体用户表征的假新闻检测方法
CN114579878A (zh) * 2022-03-15 2022-06-03 中国科学院空天信息创新研究院 虚假新闻判别模型的训练方法、虚假新闻判别方法及装置
CN114936266A (zh) * 2022-05-11 2022-08-23 西安交通大学医学院第二附属医院 基于门控机制的多模态融合谣言早期检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛海涛等: "基于用户传播网络与消息内容融合的谣言检测模型", 《计算机应用》, no. 12, pages 3540 - 3545 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349501A (zh) * 2023-10-18 2024-01-05 重庆理工大学 基于图神经网络的双过滤证据感知虚假新闻检测方法
JP7564390B1 (ja) 2024-02-02 2024-10-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN118312621A (zh) * 2024-06-11 2024-07-09 江西师范大学 基于传播结构时空特征感知的低资源虚假新闻检测方法
CN118312621B (zh) * 2024-06-11 2024-08-06 江西师范大学 基于传播结构时空特征感知的低资源虚假新闻检测方法

Also Published As

Publication number Publication date
CN115269854B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Zhang et al. Taxogen: Unsupervised topic taxonomy construction by adaptive term embedding and clustering
Schwab et al. Cxplain: Causal explanations for model interpretation under uncertainty
Arrieta et al. Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
CN117453921B (zh) 一种大语言模型的数据信息标签处理方法
Liu et al. Cross-domain sentiment aware word embeddings for review sentiment analysis
Ghosh et al. The class imbalance problem in deep learning
CN115269854B (zh) 基于主题和结构感知神经网络的虚假新闻检测方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
Zhang et al. Taxogen: Constructing topical concept taxonomy by adaptive term embedding and clustering
CN110083836A (zh) 一种文本预测结果的关键证据抽取方法
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Fagni et al. Fine-grained prediction of political leaning on social media with unsupervised deep learning
Wagle et al. Explainable ai for multimodal credibility analysis: Case study of online beauty health (mis)-information
Lyu et al. Understanding political polarization via jointly modeling users, connections and multimodal contents on heterogeneous graphs
Hao et al. How do Mainland Chinese tourists perceive Hong Kong in turbulence? A deep learning approach to sentiment analytics
Liu et al. Unveiling consumer preferences in automotive reviews through aspect-based opinion generation
Chen et al. TSNN: A topic and structure aware neural network for rumor detection
Huang et al. A semantic matching approach addressing multidimensional representations for web service discovery
Yao Design and simulation of integrated education information teaching system based on fuzzy logic
Chen et al. A bibliometric review of soft computing for recommender systems and sentiment analysis
Aramuthakannan et al. Movie recommendation system via fuzzy decision making based dual deep neural networks
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Li et al. HAPZSL: A hybrid attention prototype network for knowledge graph zero-shot relational learning
Sachdeva et al. A Study on Anomaly Detection with Deep Learning Models for IoT Time Series Sensor Data
Gosavi et al. Answer selection in community question answering portals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant