CN118114188B

CN118114188B - 基于多视角和分层融合的虚假新闻检测方法

Info

Publication number: CN118114188B
Application number: CN202410537484.7A
Authority: CN
Inventors: 肖聪; 刘璟; 邵佳兴; 王明文; 罗文兵; 黄琪
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2024-04-30
Filing date: 2024-04-30
Publication date: 2024-06-25
Anticipated expiration: 2044-04-30
Also published as: CN118114188A

Abstract

本发明涉及自然语言处理技术领域，公开了一种基于多视角和分层融合的虚假新闻检测方法，步骤如下：构建新闻样本，对新闻样本进行数据预处理；得到标题特征数据、文本特征数据和图像特征数据；标题特征数据得到标题编码特征向量，文本特征数据得到跨模态文本特征向量、文本编码特征向量、文本情感特征向量；图像特征数据得到图像情感特征向量、跨模态图像特征向量、图像空间域特征向量和图像频域特征向量；融合上述特征向量得到最终融合编码特征向量，输入到分类器模块中，输出新闻样本的真假预测标签。通过融合策略选择过程，有效利用文本模态与图像模态的跨模态之间的相似度信息，及时调整不同样本的模态重要性，达到更高的检测效率。

Description

基于多视角和分层融合的虚假新闻检测方法

技术领域

本发明涉及自然语言处理技术领域，具体为基于多视角和分层融合的虚假新闻检测方法。

背景技术

随着社交媒体和在线平台的普及，虚假信息的形式变得越来越复杂和多样化，现代新闻文章和帖子通常包含相互关联的多种模态，因此，利用单模态信息来检测虚假新闻已经不适用；例如，真实图像可以与完全虚假新闻相结合，并且可以使用正确的词语来描述被篡改的图像；鉴于此，多模态特征分析对于为虚假新闻检测提供互补优势是必要的；并且应用深度学习模型来处理多模态信息已经成为虚假新闻检测领域的主流方法；深度学习模型能够学习丰富的特征表示，有效地捕捉文本、图像、视频等不同模态之间的复杂关系，从而提高对虚假信息的准确性和鲁棒性。

虚假新闻检测是一个复杂而多层次的问题，早期工作主要集中在使用传统的自然语言处理（NLP）和机器学习方法来分析文本、发现模式，并试图识别可能的虚假信息；研究人员尝试使用文本的语法、词汇、句法等特征，结合支持向量机（SVM）、决策树等传统机器学习方法，以区分真实和虚假信息；随着机器学习技术的兴起越来越多的工作集中于分析纯文本或纯图像内容；这些工作通常会验证输入的逻辑和语义一致性，并考虑一些琐碎的指标，例如语法错误或图像处理痕迹；由于社交媒体是虚假信息传播的主要平台，一些早期工作者侧重于分析用户生成内容，包括社交媒体上的言论、评论和新闻分享；研究者尝试通过用户行为模式和言论风格等特征来辨别潜在的虚假信息；输入的逻辑和语义一致性，并考虑一些琐碎的指标，例如语法错误或图像处理痕迹；还有一些早期工作从信息传播的角度出发，利用传播模型和社交网络分析方法来研究虚假信息是如何在网络中传播的；这种方法通过分析信息传播路径和关键节点来辨别潜在的虚假信息。

尽管该领域取得很大进步，但当前的方法面临两个重大挑战；首先，虽然许多作品提出新颖的融合方法，但它们只是简单利用深度神经网络模型提取多模态的信息，然后在整体层面上进行融合，不可避免地会遗漏一些细节信息，例如文章的标题、文本的情感、图像中存在的语义信息；或者他们只考虑实体、标记或区域之间的匹配，而忽略全局语义相关性。其次现有的许多方法过度依赖多模态的融合特征，而忽略不同角度不同层次语义之间的关联性，过分强调跨模态融合可能会因多模态特征的不匹配而产生误判，甚至可能会给分类任务增加噪音。

发明内容

针对现有技术的不足，本发明提供基于多视角和分层融合的虚假新闻检测方法，用于解决上述背景技术中所提到的问题。

为实现上述目的，本发明提供如下技术方案：基于多视角和分层融合的虚假新闻检测方法，包括如下步骤：

步骤S1，构建新闻样本，对新闻样本进行数据预处理；

步骤S2，数据预处理后得到标题特征数据、文本特征数据和图像特征数据；

步骤S3，将标题特征数据、文本特征数据和图像特征数据输入到多角度特征提取模型中，其中多角度特征提取模型包括预训练BERT模型、跨模态特征提取模块、文本情感特征提取模块、图像情感提取模块、预训练SwinT模型和预训练CNN模型；

标题特征数据通过预训练BERT模型得到标题编码特征向量，文本特征数据分别通过跨模态特征提取模块得到跨模态文本特征向量、通过预训练BERT模型得到文本编码特征向量、通过文本情感特征提取模块得到文本情感特征向量；图像特征数据分别通过图像情感提取模块得到图像情感特征向量、通过跨模态特征提取模块得到跨模态图像特征向量、通过预训练SwinT模型得到图像空间域特征向量，通过预训练CNN模型得到图像频域特征向量；

步骤S4，多角度特征提取模型连接层次融合模型，将标题编码特征向量、跨模态文本特征向量、文本编码特征向量、文本情感特征向量、图像情感特征向量、跨模态图像特征向量、图像空间域特征向量和图像频域特征向量输入到层次融合模型中；

标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量，跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量，文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量，跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量，图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量，跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量；

步骤S5，基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量，输入到分类器模块中，输出新闻样本的真假预测标签。

进一步的，步骤S1中构建新闻样本，对新闻样本进行数据预处理，具体为：

步骤S11，通过爬虫技术对公开的数据集信息进行处理得到新闻数据集，公开的数据集信息包括微博中文新闻数据集、英文数据集GossipCop和英文数据集PolitiFact新闻数据集，新闻数据集中每一条数据称作单个新闻样本；

步骤S12，对数据集进行数据预处理，删除缺少图像、缺少文字描述、缺少标题或文字描述过于冗长的新闻样本，得到的每个新闻样本均包括标题特征数据、文本特征数据和图像特征数据；对新闻数据集按照8：2的规则随机划分为训练集和测试集。

进一步的，步骤S3中，具体步骤为：

步骤S31，标题特征数据通过预训练BERT模型得到标题编码特征向量；

标题特征数据表示为=[]；表示第一个标题特征数据，表示第二个标题特征数据，表示第n个标题特征数据；

标题编码特征向量表示为=[]；表示第一个标题编码特征向量，表示第二个标题编码特征向量，表示第n个标题编码特征向量；

步骤S32，文本特征数据通过预训练BERT模型得到文本编码特征向量；

文本特征数据表示为；表示第一个文本特征数据，表示第二个文本特征数据，表示第n个文本特征数据；

文本编码特征向量表示=[]；表示第一个文本编码特征向量，表示第二个文本编码特征向量，表示第n个文本编码特征向量；

步骤S33，图像特征数据通过预训练SwinT模型得到图像空间域特征向量；

图像特征数据；和分别表示图像特征数据的宽度和高度；；表示第一张图像特征，表示第二张图像特征，表示第n张图像特征；

图像空间域特征向量表示为=[]；表示第一个图像空间域特征向量，表示第二个图像空间域特征向量，表示第n个图像空间域特征向量；

步骤S34，图像特征数据通过预训练CNN模型得到图像频域特征向量；

利用离散余弦变换将步骤S33中图像空间域特征向量转换为频域特征，将频域特征送入预训练CNN模型，得到图像频域编码向量；

图像频域特征向量表示=[，]；表示第一张图像频域特征向量，表第二张图像频域特征向量，表示第n张图像频域特征向量；

步骤S35，文本特征数据和图像特征数据通过跨模态特征提取模块分别得到跨模态文本特征向量、跨模态图像特征向量；

将文本特征数据和图像特征数据基于CLIP模型的跨模态特征提取模块对文本特征和图像特征进行编码，得到跨模态CLIP模型特征向量，跨模态CLIP模型特征向量分为跨模态文本特征向量、跨模态图像特征向量。

进一步的，步骤S3中，具体步骤为：

步骤S36，文本特征数据通过文本情感特征提取模块得到文本情感特征向量；

文本情感特征提取模块对新闻样本中文本特征数据与情感字典中的词进行匹配，识别文本特征数据中的情感词，情感词包括正面情感词和负面情感词，通过统计文本特征数据中正面情感词和负面情感词的数量及强度，计算文本特征数据的情感得分，然后将情感得分转换为情感特征，情感特征分别表示为、、、、，将五种情感特征串联在一起得到文本情感特征向量；见公式（1）和公式（2）表示：

（1）；

（2）；

表示情感特征，表示情感字典的计算过程，表示文本特征数据，表示文本情感特征向量，表示情感类别，表示情感词典，表示情感强度，表示情感得分，表示其它情感辅助特征，表述级联相加；

步骤S37，图像特征数据通过图像情感提取模块得到图像情感特征向量；

步骤S371，图像特征数据包括图像低维特征和图像高维特征，图像情感提取模块主要包括预训练的深度残差网络、预训练的VGG19网络和全连接层；

步骤S372，将图像特征数据V分别输入预训练的深度残差网络和预训练的VGG19网络中；利用预训练的深度残差网络提取图像的高维特征，利用预训练的VGG19网络提取图像的低维特征；

步骤S373，通过预训练的深度残差网络提取图像的高维特征：其中深度残差网络包含卷积层、批量归一化层、最大池化层和残差网络结构；残差网络结构又包含多个残差块，每个残差块包括多个卷积层和一个跳跃连接层；深度残差网络中输入图像特征数据V，经过卷积层、批量归一化层、最大池化层和残差网络结构处理后得到图像的高维特征；

步骤S374，预训练的VGG19网络由16个卷积层、5个池化层、和3个全连接层组成，其中每个卷积层和全连接层都配有ReLU激活函数，以及每个卷积层使用了小尺寸的3x3卷积核，将图像特征数据V输入到预训练的VGG19网络中，经过卷积层、池化层和全连接层的处理后得到图像的低维特征；

步骤S375，将高维特征和低维特征两类图像特征进行拼接后送入全连接层，得到图像情感特征向量，见公式（3）、公式（4）和公式（5）；

（3）；

（4）；

（5）；

式中，表示利用预训练的深度残差网络提取图像的高维特征过程，表示利用预训练的VGG19网络提取图像的低维特征过程，为图像情感特征向量。

进一步的，层次融合模型包括协同注意力层、投影层；协同注意力层由两个并行的注意力块和全连接层组成，每个注意力块的输入为查询向量Q、键向量K和值向量V。

进一步的，步骤S41：标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量，具体为:

步骤S411，将标题编码特征向量和文本编码特征向量同时输入到协同注意力层中的第一个注意力块和第二个注意力块；

步骤S412，在第一个注意力块中，文本编码特征向量作为查询向量Q，标题编码特征向量作为键向量K和值向量V来计算注意力分数；利用非线性激活函数对注意力分数进行归一化，得到注意力权重；利用注意力权重对值向量V进行加权求和，以获得文本标题加权输出向量；

步骤S413，在第二个注意力块中，标题编码特征向量作为查询向量Q，文本编码特征向量作为键向量K和值向量V，利用查询向量Q和键向量K计算注意力分数；利用非线性激活函数对注意力分数进行归一化，得到注意力权重；利用注意力权重对值向量V进行加权求和，以获得标题文本加权输出向量；

步骤S414，文本加权输出向量与标题文本加权输出向量进行级联后送入全连接层中，得到标题文本特征融合向量，见公式（6）、公式（7）、公式（8）和公式（9）；

Q=×，K=×，V=× （6）；

（7）；

（8）；

（9）；

式中，表示将输入特征转换为查询向量，表示将输入特征转换为键向量，表示将输入特征转换为值向量，Attention表示一个过程，表示非线性激活函数，d表示协同注意力层预设的维度，T表示转置，表示标题文本特征融合向量，表示协同注意力层，表示级联操作；

步骤S42：跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量：具体为:

将文本编码特征向量首先经过池化处理，得到池化后的文本编码特征向量，将池化后的文本编码特征向量与跨模态文本特征向量进行串联，送入投影层进行融合，最后得到单模态文本特征融合向量；见公式（10）：

（10）；

式中，表示单模态文本特征融合向量，表示投影层；

步骤S43：文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量：具体为:

步骤S431，把文本情感特征向量和图像情感特征向量同时输入到协同注意力层中的第一个注意力块和第二个注意力块；

步骤S432，在第一个注意力块中，将文本情感特征向量作为查询向量，图像情感特征向量作为键向量和值向量，得到文本情感特征的权重表示；

步骤S433，在第二个注意力块中，用图像情感特征向量作为查询向量，文本情感特征向量作为键向量和值向量，得到图像情感特征的权重表示；

步骤S434，将文本情感特征的权重表示和图像情感特征的权重表示级联后输入到全连接层中，得到多模态情感特征融合向量，见公式（11）、公式（12）和公式（13）；

（11）；

（12）；

（13）；

式中，为多模态情感特征融合向量；

步骤S44：跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量：具体为:

将图像空间域特征向量进行池化操作，得到池化后的图像空间域特征向量，将池化后的图像空间域特征向量与跨模态图像特征向量进行级联，送入投影层中进行融合，得到单模态图像特征融合向量；用公式（14）表示：

（14）；

式中，表示单模态图像特征融合向量，表示投影层；

步骤S45：图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量：具体为:

步骤S451，将图像空间域特征向量和图像频域特征向量同时输入到协同注意力层中；

步骤S452，在第一个注意力块中，将图像空间域特征向量作为查询向量，图像频域特征向量作为键向量和值向量，得到第一个注意力块加权的图像空间域特征向量表示；

步骤S453，使用图像频域特征向量作为查询向量，图像空间域特征向量作为键向量和值向量，计算图像频域特征向量和图像频域特征向量之间的相似度，得到第二个注意力块的加权图像频域特征向量表示；

步骤S454，将第一个注意力块加权的图像空间域特征向量表示和第二个注意力块的加权图像频域特征向量表示级联后输入到全连接层中，得到图像特征融合向量；见公式（15）表示：

（15）；

式中，为图像特征融合向量,CA表示协同注意力层。

进一步的，步骤S46：跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量；具体为：

步骤S461，将文本编码特征向量和图像空间域特征向量经过线性处理后，输入到协同注意力层中；

步骤S462，在第一个注意力块中，将文本编码特征向量作为查询向量,图像空间域特征向量作为键向量和值向量，计算文本编码特征向量和图像空间域特征向量之间的语义相关性，得到第一个注意力块的输出表示；在第二个注意力块中，将图像空间域特征向量作为查询向量，文本编码特征向量作为键向量和值向量，得到第二个注意力块的输出表示；

步骤S463，将第一个注意力块的输出和第二个注意力块的输出分别输入到池化层中进行池化，然后拼接得到文本-图像融合表示，见公式（16）和公式（17）；

（16）；

（17）；

式中，AVG表示平均池化，CA表示协同注意力层处理过程，是文本-图像融合表示；

步骤S464，将跨模态文本特征向量和跨模态图像特征向量输入到协同注意力层中；

步骤S465，在第一个注意力块中，将跨模态文本特征向量作为查询向量, 跨模态图像特征向量作为键向量和值向量，计算跨模态文本特征向量和跨模态图像特征向量之间的语义相关性，得到第一个注意力块的输出表示；在第二个注意力块中，将跨模态图像特征向量作为查询向量，跨模态文本特征向量作为键向量和值向量，得到第二个注意力块的输出表示；

步骤S466，将第一个注意力块的输出和第二个注意力块的输出分别进行池化处理，得到池化后的特征表示，然后拼接得到跨膜态文本-图像融合表示；见公式（18）和公式（19）；

（18）；

（19）；

式中，表示跨膜态文本-图像融合表示；

步骤S467，将文本-图像融合表示和跨膜态文本-图像融合表示进行拼接后送入投影层进行融合，获得更深层次的跨膜态语义相关性,得到跨膜态投影表示；

步骤S468，同时计算跨模态文本特征向量和跨模态图像特征向量之间的相似度关系，得到跨膜态相似度分数；

步骤S469，将跨膜态投影表示与跨膜态相似度分数进行相乘，得到跨模态特征融合向量；见公式（20）、公式（21）和公式（22）；

（20）；

（21）；

（22）；

式中，为跨膜态投影表示，PL为投影层，为跨膜态相似度分数，表示跨模态文本特征向量的模长，表示跨模态图像特征向量的模长，表示跨模态图像特征向量的转置矩阵。

进一步的，每个注意力块中包含注意力层、残差归一化层和前馈层组成；见公式（23）：

Attention() = softmax() × V （23）；

式中，Attention表示一个过程，表示非线性激活函数；表示注意力层的处理过程，计算得到查询向量Q的注意力分数；softmax() 表示残差归一化层的处理过程，利用非线性softmax激活函数对注意力分数进行归一化，得到查询向量Q的注意力权重。

进一步的，投影层由多个线性层、批量归一化层、梯度调整层和ReLU激活函数组成，通过一系列的线性和非线性变换，将原始特征向量转化为新的低维特征向量，以便后续任务可以更好地利用这些特征；见公式（24）：

Z=（24）；

式中，Z表示投影层的输出向量，X表示投影层的输入向量，Drop表示梯度调整层的计算过程，Norm表示批量归一化层的计算过程，表示ReLU激活函数，、、、、、表示线性层的权重矩阵和偏置向量的预设参数。

其中线性处理：通常指的是通过线性层对输入数据进行线性变换的过程，这一过程涉及到权重矩阵和偏置向量的应用，公式表达为，其中x为输入向量，W为权重矩阵，/> 表示权重矩阵与输入向量 x 进行点乘（矩阵乘法），b为偏置向量，y为输出向量。从数据中学习特征表示，为后续的任务（如分类、回归等）提供基础。

其中池化处理：对于文本和图像特征向量的池化处理是一种常用的方法，用于减少特征向量的维度同时保留重要信息。这个过程涉及将特征向量划分为多个区域，然后计算每个区域内元素的平均值，从而生成一个新的、维度更低的特征向量。对文本来说，这有助于提炼出关键的语义信息；对图像来说，则有助于提取关键的视觉信息。这种方法简化了模型的计算，同时有助于改善模型对数据的泛化能力。

进一步的，基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量，输入到分类器模块中，输出新闻样本的真假预测标签；具体为；

分类器模块是带有softmax激活函数和交叉熵损失函数的全连接层，softmax激活函数得到新闻样本的预测标签，交叉熵损失函数使分类器模块预测的结果更接近真实的标签；

其中带有softmax激活函数的计算过程见公式（25），交叉熵损失函数计算过程见公式（26）；

（25）；

（26）；

式中，表示分类器预测标签，表示全连接层，表示交叉熵损失函数计算结果，表示样本的真实标签。

与现有的技术相比，本发明具备以下有益效果：

（1）本发明通过使用强大的预训练BERT模型和预训练SwinT模型提取文本编码特征向量和文本编码特征向量，极大提高文本特征和图像特征的语言理解和表征能力，更好地捕捉新闻数据集中的语义关系，并且使用CLIP跨膜态特征提取文本特征和图像特征，从而使CLIP跨膜态特征提取在表示空间中的文本特征和图像特征能够彼此靠近，跨膜态文本特征和图像特征语义信息。

（2）本发明通过从不同角度考虑新闻数据集中所蕴涵的信息，尽可能的不遗漏重要信息，综合考虑新闻数据集中假新闻的多种特征之间的关系，反映新闻数据集中新闻细节和全局方面的综合表示。

（3）本发明通过利用分层融合策略，将多模态虚假新闻检测模型提取的不同类别的模态特征，进行分步骤、分层次的进行深度融合，最大程度保留不同层次语义之间的关联性，并且消除文本模态特征和图像模态特征的不匹配而产生误判问题。

（4）本发明通过融合策略选择过程中，从读者阅读习惯和阅读方式出发进行考量，有效利用文本特征与图像特征的跨模态之间的相似度信息，及时调整不同新闻样本的文本特征与图像特征重要性，从而达到更高的检测效率。

（5）本发明通过在跨膜态融合过程中，有效使用投影层，最大程度保留输入的文本特征和图像特征的有用信息，同时去除文本特征和图像特征之间的冗余和无关信息，使得同一样文本特征和图像特征的不同视图，或变换得到的文本-图像特征向量在维度空间中更加接近，从而使得CLIP跨膜态特征提取学到的文本特征表示和图像特征表示具有更好的可用性，并为后续任务提供更好的跨膜态特征输出表示。

（6）本发明通过在设计初就充分考虑到歧义问题，利用设计的多角度特征提取方法和分层融合策略，有效的利用各种特征信息，有效的缓解新闻数据集中检测中的歧义问题，并且消除任务中存在的分类噪声。

附图说明

图1为本发明的整体框架示意图。

图2为本发明的图像情感特征向量形成示意图。

图3为本发明的标题文本特征融合向量形成示意图。

图4为本发明的单模态文本特征融合向量形成示意图。

图5为本发明的单模态图像特征融合向量形成示意图。

图6为本发明的多模态情感特征融合向量形成示意图。

图7为本发明的图像特征融合向量形成示意图。

图8为本发明的跨模态特征融合向量形成示意图。

图9为本发明的投影层示意图。

图10为本发明的协同注意力层示意图。

具体实施方式

如图1所示，本发明提供技术方案：基于多视角和分层融合的虚假新闻检测方法，包括如下步骤：

步骤S1，构建新闻样本，对新闻样本进行数据预处理；

进一步的，步骤S3中，具体步骤为：

图像特征数据；和分别表示图像特征数据的宽度和高度；；表示第一张图像特征，表示第二张图像特征，表示第n 张图像特征；

进一步的，步骤S3中，具体步骤为：

（1）；

（2）；

如图2所示，步骤S37，图像特征数据通过图像情感提取模块得到图像情感特征向量；

步骤S375，将高维特征和低维特征两类图像特征进行拼接后送入全连接层，得到图像情感特征向量，见公式（3）、公式（4）和公式（5）表示：

（3）；

（4）；

（5）；

进一步的，如图10所示，层次融合模型包括协同注意力层、投影层；协同注意力层由两个并行的注意力块和全连接层组成，每个注意力块的输入为查询向量Q、键向量K和值向量V。

进一步的，如图3所示，步骤S41：标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量，具体为:

Q=×，K=×，V=× （6）；

（7）；

（8）；

（9）；

步骤S42：如图4所示，跨模态文本特征向量和文本编码特征向量得到单模态文本特征融合向量：具体为:

（10）；

式中，表示单模态文本特征融合向量，表示投影层；

步骤S43：如图6所示，文本情感特征向量和图像情感特征向量融合后得到多模态情感特征融合向量：具体为:

步骤S434，将文本情感特征的权重表示和图像情感特征的权重表示级联后输入到全连接层中，得到多模态情感特征融合向量；见公式（11）、公式（12）和公式（13）；

（11）；

（12）；

（13）；

式中，为多模态情感特征融合向量；

步骤S44：如图5所示，跨模态图像特征向量和图像空间域特征向量融合后得到单模态图像特征融合向量：具体为:

（14）；

式中，表示单模态图像特征融合向量，表示投影层；

步骤S45：如图7所示，图像空间域特征向量和图像频域特征向量融合后得到图像特征融合向量：具体为:

（15）；

式中，为图像特征融合向量,CA表示协同注意力层。

进一步的，如图8所示，步骤S46：跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量；具体为：

（16）；

（17）；

（18）；

（19）；

式中，表示跨膜态文本-图像融合表示；

（20）；

（21）；

（22）；

Attention() = softmax() × V （23）；

进一步的，如图9所示，投影层由多个线性层、批量归一化层、梯度调整层和ReLU激活函数组成，通过一系列的线性和非线性变换，将原始特征向量转化为新的低维特征向量，以便后续任务可以更好地利用这些特征；见公式（24）：

Z=（24）；

其中线性处理：通常指的是通过线性层对输入数据进行线性变换的过程，这一过程涉及到权重矩阵和偏置向量的应用，公式表达为，其中x为输入向量，W为权重矩阵，b为偏置向量，/> 表示权重矩阵与输入向量 x 进行点乘（矩阵乘法），y为输出向量。从数据中学习特征表示，为后续的任务（如分类、回归等）提供基础。

分类器模块是带有softmax激活函数和交叉熵损失函数的全连接层，softmax激活函数得到新闻样本的预测标签，交叉熵损失函数衡量分类器模块输出的概率分布与真实标签的概率分布之间的差异，能够有效地指导分类器模块学习，通过最小化损失函数值来优化分类器模块参数，使分类器模块预测的结果更接近真实的标签；

（25）；

（26）；

尽管已经示出和描述本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于多视角和分层融合的虚假新闻检测方法，其特征在于，包括如下步骤：

步骤S1，构建新闻样本，对新闻样本进行数据预处理；

2.根据权利要求1所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：步骤S1中构建新闻样本，对新闻样本进行数据预处理，具体为：

3.根据权利要求2所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：步骤S3中，具体步骤为：

标题特征数据表示为=[/>]；/>表示第一个标题特征数据，/>表示第二个标题特征数据，/>表示第n个标题特征数据；

标题编码特征向量表示为=[/>]；/>表示第一个标题编码特征向量，/>表示第二个标题编码特征向量，/>表示第n个标题编码特征向量；

文本特征数据表示为；/>表示第一个文本特征数据，/>表示第二个文本特征数据，/>表示第n个文本特征数据；

文本编码特征向量表示=[/>]；/>表示第一个文本编码特征向量，/>表示第二个文本编码特征向量，/>表示第n个文本编码特征向量；

图像特征数据；/>和/>分别表示图像特征数据的宽度和高度；；/>表示第一张图像特征，/>表示第二张图像特征，/>表示第n张图像特征；

图像空间域特征向量表示为=[/>]；/>表示第一个图像空间域特征向量，/>表示第二个图像空间域特征向量，/>表示第n个图像空间域特征向量；

图像频域特征向量表示=[/>，/>]；/>表示第一张图像频域特征向量，/>表第二张图像频域特征向量，/>表示第n张图像频域特征向量；

将文本特征数据和图像特征数据基于CLIP模型的跨模态特征提取模块对文本特征和图像特征进行编码，得到跨模态CLIP模型特征向量，跨模态CLIP模型特征向量/>分为跨模态文本特征向量/>、跨模态图像特征向量/>。

4.根据权利要求3所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：步骤S3中，具体步骤为：

文本情感特征提取模块对新闻样本中文本特征数据与情感字典中的词进行匹配，识别文本特征数据中的情感词，情感词包括正面情感词和负面情感词，通过统计文本特征数据中正面情感词和负面情感词的数量及强度，计算文本特征数据的情感得分，然后将情感得分转换为情感特征，情感特征分别表示为、/>、/>、/>、/>，将五种情感特征串联在一起得到文本情感特征向量；见公式（1）和公式（2）表示：

（1）；

（2）；

表示情感特征，/>表示情感字典的计算过程，/>表示文本特征数据，/>表示文本情感特征向量，/>表示情感类别，/>表示情感词典，/>表示情感强度，/>表示情感得分，/>表示其它情感辅助特征，/>表述级联相加；

步骤S372，将图像特征数据V分别输入预训练的深度残差网络和预训练的VGG19网络中；利用预训练的深度残差网络提取图像的高维特征，利用预训练的VGG19网络提取图像的低维特征/>；

步骤S375，将高维特征和低维特征/>两类图像特征进行拼接后送入全连接层，得到图像情感特征向量/>，见公式（3）、公式（4）和公式（5）；

（3）；

（4）；

（5）；

式中，表示利用预训练的深度残差网络提取图像的高维特征过程，/>表示利用预训练的VGG19网络提取图像的低维特征过程，/>为图像情感特征向量。

5.根据权利要求4所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：层次融合模型包括协同注意力层、投影层；协同注意力层由两个并行的注意力块和全连接层组成，每个注意力块的输入为查询向量Q、键向量K和值向量V。

6.根据权利要求5所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：

步骤S41：标题编码特征向量和文本编码特征向量融合后得到标题文本特征融合向量，具体为:

步骤S411，将标题编码特征向量和文本编码特征向量/>同时输入到协同注意力层中的第一个注意力块和第二个注意力块；

步骤S412，在第一个注意力块中，文本编码特征向量作为查询向量Q，标题编码特征向量/>作为键向量K和值向量V来计算注意力分数；利用非线性激活函数对注意力分数进行归一化，得到注意力权重；利用注意力权重对值向量V进行加权求和，以获得文本标题加权输出向量/>；

步骤S413，在第二个注意力块中，标题编码特征向量作为查询向量Q，文本编码特征向量/>作为键向量K和值向量V，利用查询向量Q和键向量K计算注意力分数；利用非线性激活函数对注意力分数进行归一化，得到注意力权重；利用注意力权重对值向量V进行加权求和，以获得标题文本加权输出向量/>；

步骤S414，文本加权输出向量与标题文本加权输出向量/>进行级联后送入全连接层中，得到标题文本特征融合向量，见公式（6）、公式（7）、公式（8）和公式（9）；

Q=×/>，K=/>×/>，V=/>×/> （6）；

（7）；

（8）；

（9）；

式中，表示将输入特征转换为查询向量，/>表示将输入特征转换为键向量，/>表示将输入特征转换为值向量，Attention表示一个过程，/>表示非线性激活函数，d表示协同注意力层预设的维度，T表示转置，/>表示标题文本特征融合向量，/>表示协同注意力层，/>表示级联操作；

将文本编码特征向量首先经过池化处理，得到池化后的文本编码特征向量，将池化后的文本编码特征向量与跨模态文本特征向量/>进行串联，送入投影层进行融合，最后得到单模态文本特征融合向量/>；见公式（10）：

（10）；

式中，表示单模态文本特征融合向量，/>表示投影层；

步骤S431，把文本情感特征向量和图像情感特征向量/>同时输入到协同注意力层中的第一个注意力块和第二个注意力块；

步骤S432，在第一个注意力块中，将文本情感特征向量作为查询向量，图像情感特征向量/>作为键向量和值向量，得到文本情感特征的权重表示/>；

步骤S433，在第二个注意力块中，用图像情感特征向量作为查询向量，文本情感特征向量/>作为键向量和值向量，得到图像情感特征的权重表示/>；

步骤S434，将文本情感特征的权重表示和图像情感特征的权重表示/>级联后输入到全连接层中，得到多模态情感特征融合向量，见公式（11）、公式（12）和公式（13）；

（11）；

（12）；

（13）；

式中，为多模态情感特征融合向量；

（14）；

式中，表示单模态图像特征融合向量，/>表示投影层；

步骤S451，将图像空间域特征向量和图像频域特征向量/>同时输入到协同注意力层中；

步骤S452，在第一个注意力块中，将图像空间域特征向量作为查询向量，图像频域特征向量/>作为键向量和值向量，得到第一个注意力块加权的图像空间域特征向量表示；

步骤S453，使用图像频域特征向量作为查询向量，图像空间域特征向量/>作为键向量和值向量，计算图像频域特征向量和图像频域特征向量之间的相似度，得到第二个注意力块的加权图像频域特征向量表示；

（15）；

式中，为图像特征融合向量,CA表示协同注意力层。

7.根据权利要求6所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：

步骤S46：跨模态文本特征向量、文本编码特征向量、跨模态图像特征向量和图像空间域特征向量融合后得到跨模态特征融合向量；具体为：

步骤S461，将文本编码特征向量和图像空间域特征向量/>经过线性处理后，输入到协同注意力层中；

步骤S462，在第一个注意力块中，将文本编码特征向量作为查询向量,图像空间域特征向量/>作为键向量和值向量，计算文本编码特征向量和图像空间域特征向量之间的语义相关性，得到第一个注意力块的输出表示/>；在第二个注意力块中，将图像空间域特征向量/>作为查询向量，文本编码特征向量/>作为键向量和值向量，得到第二个注意力块的输出表示/>；

（16）；

（17）；

步骤S464，将跨模态文本特征向量和跨模态图像特征向量/>输入到协同注意力层中；

步骤S465，在第一个注意力块中，将跨模态文本特征向量作为查询向量, 跨模态图像特征向量/>作为键向量和值向量，计算跨模态文本特征向量和跨模态图像特征向量之间的语义相关性，得到第一个注意力块的输出表示/>；在第二个注意力块中，将跨模态图像特征向量/>作为查询向量，跨模态文本特征向量/>作为键向量和值向量，得到第二个注意力块的输出表示/>；

（18）；

（19）；

式中，表示跨膜态文本-图像融合表示；

步骤S467，将文本-图像融合表示和跨膜态文本-图像融合表示/>进行拼接后送入投影层进行融合，获得更深层次的跨膜态语义相关性,得到跨膜态投影表示/>；

步骤S469，将跨膜态投影表示与跨膜态相似度分数进行相乘，得到跨模态特征融合向量/>；见公式（20）、公式（21）和公式（22）；

（20）；

（21）；

（22）；

式中，为跨膜态投影表示，PL为投影层，/>为跨膜态相似度分数，表示跨模态文本特征向量的模长，/>表示跨模态图像特征向量的模长，表示跨模态图像特征向量的转置矩阵。

8.根据权利要求7所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：每个注意力块中包含注意力层、残差归一化层和前馈层组成；见公式（23）：

Attention() = softmax(/>) × V （23）；

式中，Attention表示一个过程，表示非线性激活函数；/>表示注意力层的处理过程，计算得到查询向量Q的注意力分数；softmax(/>) 表示残差归一化层的处理过程，利用非线性softmax激活函数对注意力分数进行归一化，得到查询向量Q的注意力权重。

9.根据权利要求8所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：投影层由多个线性层、批量归一化层、梯度调整层和ReLU激活函数组成，通过一系列的线性和非线性变换，将原始特征向量转化为新的低维特征向量，以便后续任务可以更好地利用这些特征；见公式（24）：

Z=（24）；

式中，Z表示投影层的输出向量，X表示投影层的输入向量，Drop表示梯度调整层的计算过程，Norm表示批量归一化层的计算过程，表示ReLU激活函数，/>、/>、/>、/>、/>、/>表示线性层的权重矩阵和偏置向量的预设参数。

10.根据权利要求9所述的基于多视角和分层融合的虚假新闻检测方法，其特征在于：基于标题文本特征融合向量、单模态文本特征融合向量、多模态情感特征融合向量、单模态图像特征融合向量、图像特征融合向量和跨模态特征融合向量得到最终融合编码特征向量，输入到分类器模块中，输出新闻样本的真假预测标签；具体为；

（25）；

（26）；

式中，表示分类器预测标签，/>表示全连接层，/>表示交叉熵损失函数计算结果，/>表示样本的真实标签。