CN115496140B

CN115496140B - 一种多模态虚假新闻检测方法及系统

Info

Publication number: CN115496140B
Application number: CN202211137170.5A
Authority: CN
Inventors: 胡琳梅; 陈子薇; 赵鑫妍
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-07-25
Anticipated expiration: 2042-09-19
Also published as: CN115496140A

Abstract

本发明公开了一种多模态虚假新闻检测方法及系统，属于信息检测技术领域，能够解决现有多模态虚假新闻检测方法检测效果较差的问题。所述方法包括：S1、对待检测新闻进行图文匹配检测，得到待检测新闻的图文匹配概率；S2、对待检测新闻进行分类预测，得到待检测新闻的初始分类概率；S3、利用图文匹配概率调整初始分类概率，得到待检测新闻的最终分类概率。本发明用于虚假新闻检测。

Description

一种多模态虚假新闻检测方法及系统

技术领域

本发明涉及一种多模态虚假新闻检测方法及系统，属于信息检测技术领域。

背景技术

社交媒体的快速发展为虚假新闻的出现和广泛传播提供了便利渠道，造成了一系列的不良后果。为了减轻虚假新闻造成的影响，自动检测社交媒体上的虚假新闻势在必行。多媒体技术的发展为自媒体新闻提供了机会，使其从单纯的文字帖子转变为带有图片或视频的多媒体帖子，这让故事能够讲得更好，吸引更多读者的关注。因此，现有的工作基本上都是围绕着多模态的研究展开的。

在多模态虚假新闻检测方面，最具代表性的研究是通过简单拼接、辅助任务和协同注意力机制进行多模态融合。例如，早期研究主要是通过简单拼接来增强特征的提取和融合多模态信息。其他一些研究利用辅助任务，如特征重构和事件判别来提高虚假新闻检测的可靠性和泛化能力。随着协同注意力机制的发展，各种模型利用协同注意力来融合不同模态之间的丰富语义信息，并展示出最先进的检测性能。虽然人们在多模态假虚新闻检测中付出了巨大的努力，但是往往忽略了隐藏的因素，如图文匹配程度混淆了多模态融合过程，使模型无意间受到匹配偏差的影响，盲目地融合图像和文本的特征而忽略了匹配度，会给融合后的特征引入过多的噪声，从而导致多模态虚假新闻的检测效果较差。

发明内容

本发明提供了一种多模态虚假新闻检测方法及系统，能够解决现有多模态虚假新闻检测方法检测效果较差的问题。

一方面，本发明提供了一种多模态虚假新闻检测方法，所述方法包括：

S1、对待检测新闻进行图文匹配检测，得到待检测新闻的图文匹配概率；

S2、对待检测新闻进行分类预测，得到待检测新闻的初始分类概率；

S3、利用所述图文匹配概率调整所述初始分类概率，得到待检测新闻的最终分类概率。

可选的，所述S1具体包括：

S11、将所述待检测新闻的文本内容和视觉内容输入图文匹配模型中，得到匹配向量；

S12、将所述匹配向量和与其对应的权重矩阵输入第一激活函数中，得到待检测新闻的图文匹配概率。

可选的，所述S2具体包括：

S21、对所述待检测新闻的文本内容和视觉内容分别进行特征提取和特征融合，得到基于文本的融合特征和基于视觉的融合特征；

S22、根据所述基于文本的融合特征和所述基于视觉的融合特征，得到待检测新闻的初始分类概率。

可选的，所述S21具体包括：

S211、将所述待检测新闻的文本内容输入文本编码器中，得到文本特征，并将所述待检测新闻的视觉内容输入视觉编码器中，得到视觉特征；

S212、将所述文本特征和所述视觉特征分别输入基于文本的协同注意力模块和基于视觉的协同注意力模块中，得到基于文本的融合特征和基于视觉的融合特征。

可选的，所述S22具体包括：

S221、对所述基于文本的融合特征和所述基于视觉的融合特征进行拼接处理，得到拼接特征；

S222、基于所述拼接特征，利用一个全连接层和一个sigmoid激活函数，得到待检测新闻的初始分类概率。

可选的，所述S3具体为：

根据第一公式计算待检测新闻的最终分类概率；

所述第一公式为：P^f＝Norm(P^c⊙P^m)；

其中，P^f为最终分类概率；P^c为初始分类概率；P^m为图文匹配概率；⊙为哈达玛积；Norm表示确保概率之和为1的标准化函数。

可选的，所述图文匹配模型为多模态的视觉语言预训练模型。

可选的，所述文本编码器为BERT模型；所述视觉编码器为ViT模型。

另一方面，本发明提供了一种多模态虚假新闻检测系统，所述系统包括：

图文匹配模型，用于对待检测新闻进行图文匹配检测，得到待检测新闻的图文匹配概率；

基础虚假新闻检测模型，用于对待检测新闻进行分类预测，得到待检测新闻的初始分类概率；

多任务学习模型，用于利用所述图文匹配概率调整所述初始分类概率，得到所述待检测新闻的最终分类概率。

可选的，所述图文匹配模型和所述基础虚假新闻检测模型的训练损失函数为交叉熵损失函数。

本发明能产生的有益效果包括：

本发明提供的多模态虚假新闻检测方法及系统，通过利用图文匹配偏差来修正估计的分类概率，消除由于混杂因素而产生的虚假关联。本发明能有效提高虚假新闻检测模型的泛化能力，不仅消除了图文匹配偏差的不良影响，而且还利用图文匹配偏差来提高虚假新闻检测性能，改善了多模态虚假新闻的检测效果。

附图说明

图1为本发明实施例提供的多模态虚假新闻检测方法流程图；

图2为本发明实施例提供的因果关系分析示意图；

图3为本发明实施例提供的CLIMB框架示意图；

图4为本发明实施例提供的在两个测试数据集上，λ值对准确率、假新闻F1分数的影响示意图。

具体实施方式

下面结合实施例详述本发明，但本发明并不局限于这些实施例。

因果图是一个有向无环图，一个节点表示一个变量，一条边表示两个节点之间的因果关系。通过因果图的方式，本发明可以从合理性的角度解释图文匹配度是如何影响虚假新闻检测过程的。参考图2所示，节点X代表融合的多模态特征，即图像和文本的融合特征；节点Y代表分类概率，即被预测为真实新闻的概率；节点Z代表图文匹配度，它可以看作是一个隐变量。图2中的最左侧图为传统方法的因果图，传统方法主要是对图像和文本进行多模态融合来估计分类概率。

考虑到图文匹配度对虚假新闻检测的影响，本发明将传统方法的因果图扩展为考虑图文匹配度的因果图(即图2中的中间图)。具体解释如下：

边{X,Z}→Y表示分类概率Y由两个因素决定：多模态特征X和图文匹配度Z。传统方法只考虑X→Y，这很容易解释：通过融合的多模态特征判定一则新闻是真的还是假的。本发明增加了一个节点Z，因为图像和文字不匹配的新闻有很大可能是假的。因此，一则新闻是否为虚假新闻是X和Z共同作用的结果。

边Z→X表示图文匹配度对融合的多模态特征有因果作用，并间接影响预测的分类概率。

从这个因果图中，可以看到，图文匹配度Z是一个混杂因素，既影响多模态特征X，也影响分类概率Y。这导致了两条从Z开始的因果路径：Z→Y和Z→X→Y。第一条路径表明，图文匹配度直接影响最终预测的分类概率，这符合预期，因为图像和文本不匹配的新闻更可能是假的。第二条路径意味着潜在的图文匹配度影响了视觉和文本特征的多模态融合过程，这使得学习到的多模态特征可能存在噪声和不可信的情况，导致分类预测的结果也存在偏差。尤其是，当文本和图像内容不一致时，额外的模态信息更倾向于作为干扰信息，而不是补充信息。混杂因素Z开启了一条后门路径：X←Z→Y，引入了X和Y之间的虚假关联。Z满足后门标准，因为X和Y之间的所有后门路径都由取决于Z的因素所阻断，而且Z不包含是X的后代的变量。

综上所述，Z→X会造成混杂影响作用，在制定检测模型时应予以切除，如图2中的右侧图所示。

直观地说，如果能够为数据集中的每条新闻找到匹配的图像，那么图像和文本的融合特征将不受Z→X引入的噪声影响。然而，要为每条新闻找到完全匹配的图像是很耗时并且不可能的。

在本发明中，可以利用因果推断技术来解决上述问题。具体来说，为了使X独立于Z，可以应用独立的视觉和文本编码器来获得图文匹配度Z和融合的多模态特征X，并使用后门调整来干预多模态的融合特征X，这是因果推断中一个主要的去除混杂因素的技术。

为了对因果干预提供更深入的了解，本发明将P(Y|X)(由传统模型估计的分类概率)用以下步骤进行转换：

其中，表示Z的具体数值。

后门调整对X做了一个do算子，将后验概率从被动的观察提升到主动干预。执行do(X)来迫使消除X的父节点的影响。因此，可以将检测模型表述为P(Y|do(X))，而不是用传统方法估计的P(Y|X)。在图2的中间图上执行do算子，可以得出：

前一公式中的传统后验和上面公式中的干预后验的主要区别是，被改变为/>用这种方法，后门调整有助于切断Z和X之间的依赖性，因此可以从数据中消除混杂的匹配偏差，学习一个去偏差的虚假新闻检测的干预模型。

基于上述分析，本发明实施例提供了一种多模态虚假新闻检测方法，如图1和图3所示，所述方法包括：

S1、对待检测新闻进行图文匹配检测，得到待检测新闻的图文匹配概率。

具体包括：

S11、将待检测新闻的文本内容和视觉内容输入图文匹配模型中，得到匹配向量；在本发明实施例中，图文匹配模型可以为多模态的视觉语言预训练模型(Vision-LanguagePre-trained model，简称ViLT)。

S12、将匹配向量和与其对应的权重矩阵输入第一激活函数中，得到待检测新闻的图文匹配概率。

为了计算视觉和文本内容的匹配度，本发明应用了多模态的视觉语言预训练模型ViLT来对待检测新闻进行图文匹配检测。实际上，图文匹配(image-text matching，简称ITM)是预训练目标之一，通常用于训练视觉语言预训练模型。在预训练阶段，ViLT以一定的概率随机地将对齐的图像替换为不同的图像。一个线性层ITM头将池化的输出特征映射成二值概率，然后模型计算出负对数似然损失作为ITM损失。形式上，给定文本内容T和视觉内容V，通过一个全连接层和一个sigmoid激活函数来估计图文匹配概率P^m＝[p^m,1-p^m](其中且p^m表示图文相匹配的概率)：

O^m＝ViLT(T,V)；

P^m＝σ(O^mW_m)；

其中，O^m是匹配向量，W_m是权重矩阵，σ(·)是第一激活函数。

S2、对待检测新闻进行分类预测，得到待检测新闻的初始分类概率。

具体包括：S21、对待检测新闻的文本内容和视觉内容分别进行特征提取和特征融合，得到基于文本的融合特征和基于视觉的融合特征。

包括：S211、将待检测新闻的文本内容输入文本编码器中，得到文本特征，并将待检测新闻的视觉内容输入视觉编码器中，得到视觉特征。在本发明实施例中，文本编码器可以采用BERT模型；视觉编码器可以采用ViT模型。

S212、将文本特征和视觉特征分别输入基于文本的协同注意力模块和基于视觉的协同注意力模块中，得到基于文本的融合特征和基于视觉的融合特征。

S22、根据基于文本的融合特征和基于视觉的融合特征，得到待检测新闻的初始分类概率。

包括：S221、对基于文本的融合特征和基于视觉的融合特征进行拼接处理，得到拼接特征。

在本发明实施例中，可以利用基础虚假新闻检测模型f(·)进行虚假新闻检测。如图3右边部分所示，所提出的模型有两个主要步骤：特征提取和特征融合。由于新闻既有图像又有文本，我们首先基于单个Transformer编码器提取视觉和文本特征。然后，通过一个由多个协同注意力层组成的深度协同注意力网络对多模态特征进行融合。最后，协同注意力模块的输出被拼接起来，映射成二值概率，即待检测新闻的初始分类概率。

具体的，基于Transformer的文本编码器。为了精确地建模单词的语义和语言上下文，本发明采用BERT作为文本编码器。给定文本T，将T建模为一个连续的单词列表T＝{t₁,t₂,…,t_K}，其中K表示文本中单词的数量。将转换后的特征表示为其中/>对应于t_i的转换的特征。从形式上看,文本表征H^t是由预训练的BERT计算出来的：

基于Transformer的视觉编码器。给定视觉内容V，本发明使用针对图像的Transformer模型ViT来提取视觉特征。为此，输入图像被分割成图像块(patch)，并被压平为/>其中(P,P)是图像块分辨率，N＝HW/P²。通过线性投影/>和位置嵌入/>v被嵌入到/>换句话说，给出所附的视觉内容V，视觉表征/>由预训练的ViT计算：

其中，和d_v是图像块嵌入的维度。

多模态协同注意力。按照最前沿和最实用的方法，本发明采用了一个M头协同注意力Transformer层，在其他模态的指导下更好地学习表征。给出中间的视觉和文本表征H^t和H^v，每种模态的键和值被作为输入传给另一种模态的多头注意力模块。Transformer模块的其余部分和以前一样进行，包括与初始表征的残差加—产生一个多模态特征。以基于文本的协同注意力模块为例：

MH-CA(H^t,H^v)＝W′[CA₁(H^t,H^v),…,CA_M(H^t,H^v)]^T；

其中，CA_i指的是协同注意力的第i个头，和/>分别表示查询向量、键向量、值向量和多头注意力的权重矩阵。接下来，可以在上面再叠加三个子层:

其中，FFN是前馈网络，LN是层标准化，O^t是协同注意力模块的输出表征。同样地，可以从基于视觉的协同注意力模块中得出O^v。最后，将两个协同注意力层的输出拼接起来，得到拼接特征O^c，基于拼接特征，利用一个全连接层和一个sigmoid激活函数来计算得到新闻分类的初始分类概率P^c＝[p^c,1-p^c](其中且p^c表示新闻为真新闻的概率)：

O^c＝concat(O^t,O^v)；

P^c＝σ(O^cW_c)；

其中，W_c是权重矩阵；σ(·)是第二激活函数。

S3、利用图文匹配概率调整初始分类概率，得到待检测新闻的最终分类概率。

具体为：根据第一公式计算待检测新闻的最终分类概率；

第一公式为：P^f＝Norm(P^c⊙P^m)；

在得到了待检测新闻的初始分类概率P^c，以及图文匹配概率P^m后，现在的目标是估计P(Y|X，z)。由于以下原因，本发明考虑将多模态特征与图文匹配度解耦。首先，解耦使检测框架可以扩展到任何多模态的虚假新闻检测模型。第二，解耦能够在推理阶段快速调整匹配度偏差，因为不需要重新评估整个模型。为此，可以将P(Y|X，z)的估值设计为f(·)×z，即P^c和P^m的积：

P^f＝Norm(P^c⊙P^m)；

其中，P^f表示修正后的待检测新闻的最终分类概率，⊙是哈达玛积，Norm表示确保概率之和为1的标准化函数。

进一步的，继续估算干预概率P(Y|do(X))，即需要注意，先验表示数据集上图文匹配度的概率分布。由于混杂因素Z(图文匹配度)的取值空间很大，很难列举所有的/>值及其总数。因此，P(Y|do(X))的公式可以进一步转换如下：

其中，E(Z)表示Z的期望值，它是一个常数，表示数据集上的平均图文匹配度。这样，可以通过去除混杂因素的训练，用f(·)来估计P(Y|do(X))，去除由于Z的混杂因素导致的X和Y之间的虚假关联。

在推理阶段，为了利用图文匹配偏差来提高多模态虚假新闻检测的准确度，可以推知分类概率为P(Y|do(X),do(Z))，用预测的偏差干预匹配度Z：

本发明从每个数据集中随机标注500个新闻样本，在ITM任务上对ViLT模型的最后一个全连接层进行微调，然后对Twitter和Pheme数据集中的所有训练样本进行重新标注。对于图文匹配模型和基础虚假新闻检测模型，可以使用交叉熵损失：

其中，m和y分别是图文匹配标签和虚假新闻检测标签。采用多任务学习作为训练目标。因此，总损失为：

其中，λ是一个平衡因子。在实验中可以设定λ＝0.05。

需要说明的是，在本发明实施例中，图文匹配模型和基础虚假新闻检测模型中采用的视觉和文本编码器的参数是不共享的。

本发明另一实施例提供一种多模态虚假新闻检测系统，所述系统包括：

多任务学习模型，用于利用图文匹配概率调整初始分类概率，得到待检测新闻的最终分类概率。

上述检测系统中各个模型的具体描述可以参考检测方法中对每个步骤的描述，在此不再赘述，上述检测系统可以实现与检测方法同样的功能。

在普通的双塔协同注意力模型和最先进的HMCAN模型上应用本发明构建的系统框架(命名为Causal Inference for Leveraging Image-text Matching Bias，简称CLIMB)，并在Twitter和Pheme数据集上与六个基准模型进行比较实验，以评估本发明提出的CLIMB框架的有效性。

本发明在两个数据集上进行了实验验证。

(1)Twitter：这个数据集是在MediaEval上为验证多媒体使用任务发布的。它由包含文本信息、视觉信息和与之相关的社会环境信息的推文组成。

(2)Pheme：这个数据集是作为Pheme项目的一部分而创建的，该项目旨在寻找和验证社交媒体平台上分享的谣言。它是基于5条突发新闻而收集的，每条新闻都包含一组说法，被标记为谣言或非谣言。

Twitter数据集分为开发集和测试集，开发集用于训练，测试集用于测试。Pheme数据集被分成训练集和测试集，比例为8:2。表1显示了这两个数据集的统计数据。

表1两个现实世界数据集的统计数据

表2从两个数据集中分别随机挑选500个样本，匹配和不匹配的样本数量

News	Twitter	Pheme
			#of matched	177	349
#of mismatched	323	151

多模态模型通常利用视觉和文本数据中的信息进行虚假新闻检测。在此，将本发明提出的CLIMB框架与六个表现良好的基准多模态方法进行比较。

EANN：EANN可以推导出事件不变特征，从而帮助检测刚刚发生事件的虚假新闻，它由多模态特征提取器、虚假新闻检测和事件判别器组成。其使用Text-CNN模型提取文本特征，使用VGG-19模型提取视觉特征，通过拼接操作融合两个模态特征。

SpotFake：SpotFake利用预训练语言模型BERT来学习文本信息，并在ImageNet数据集上采用VGG 19进行预训练来获得视觉特征，通过拼接操作获得两个模态的融合特征，并用于预测。

SpotFake+：SpotFake+是SpotFake的进阶版本，使用预训练的XLNet模型提取文本特征。与SpotFake相比，SpotFake+进行了多次特征转换以辅助特征融合。

MCAN：MVAN堆叠了多个协同注意力层来学习模态间的关系，视觉特征(空间域和频域)首先被融合，其次是文本特征。

HMCAN：HMCAN使用一个分层注意力模型，同时考虑文本的分层语义和多模态背景数据。

Base：Base是本发明提出的基础虚假新闻检测模型(双塔协同注意力模型)。

本发明使用准确性(Accuracy)作为二元分类任务的评价指标，如虚假新闻检测。考虑到标签分布的不平衡性，除了准确性(A)评价指标外，本发明还增加了精确度(Precision P)、召回率(Recall R)和F1分数(F1)作为任务的补充评价指标。实验结果如表3所示。

表3在Twitter和Pheme数据集上不同模型的比较结果

表3中最好的结果用黑粗体标出，次好的结果用下划线标出。

表3展示了本发明提出的框架CLIMB和基准模型在两个基准数据集上的实验结果。请注意，HMCAN的结果是根据公开的代码重新运行的结果，其他方法的结果是来自原始论文。从表3中，可以观察到以下几点：

使用BERT和XLNET作为文本编码器的SpotFake和SpotFake+的性能远远超过了以Text-CNN作为文本编码器的EANN，说明采用预训练的文本编码器在一定程度上具有优越性。

在Twitter数据集上，基于协同注意力方法的MCAN和HMCAN的准确率比基于拼接方法的SpotFake和SpotFake+高出2.4％到7.8％，验证了协同注意力机制的高效。原因可能是协同注意力机制可以对多模态的相互作用进行建模，学习到更好的新闻样本特征表示，从而提高虚假新闻检测的性能。

本发明提出的HMCAN-CLIMB模型在Twitter和Pheme数据集上的表现一直优于所有基准模型。同时，还可以观察到，与基础虚假新闻检测模型Base和HMCAN相比，应用所提出的CLIMB框架的模型(即Base-CLIMB和HMCAN-CLIMB)在Twitter数据集上的准确性分别显著提高了13.3％和14.9％，在Pheme数据集上分别提高了1.6％和1.1％，这证明了本发明的CLIMB框架的有效性。CLIMB通过图文匹配程度的因果干预，提高了虚假新闻的检测效果。

与Base和HMCAN相比，Base-CLIMB和HMCAN-CLIMB在Twitter数据集上获得了较大的改进(分别为13.3％和14.9％)，而在Pheme数据集上则略有改进(1.6％和1.1％)。原因可能是Twitter数据集中图像和文本不匹配的新闻样本所占比例大于Pheme数据集。通过分析两个数据集中各500个样本的匹配标签，如表2所示，在Twitter数据集中，不匹配的样本占64.6％，而在Pheme数据集中，不匹配的样本只占30.2％，这符合猜测，即Twitter数据集的模型性能受到了图文匹配偏差的严重影响。

为了进一步研究本发明提出的CLIMB框架的有效性，将Base-CLIMB与Base和BASE-concat进行比较，BASE-concat只是将图文匹配向量O^m和多模态特征向量O^c拼接起来，以增强多模态虚假新闻检测的效果。结果见表4。

表4因果干预的消融实验结果

从表4中可以得出以下几点：

(1)与Base相比，结合图像文本匹配信息的Base-concat在Twitter数据集上提高了4.4％的准确率，在Pheme数据集上提高了0.2％，这表明图像文本匹配信息可以提供补充信息，有利于虚假新闻的检测。

(2)此外，BASE-CLIMB在Twitter数据集上的准确率比BASE-concat高出8.6％，在Pheme数据集上高出1.3％，这证实了采用因果干预与引入图文匹配程度在虚假新闻检测方面的优越性。

本发明提出的CLIMB框架的总损失被设计为多任务学习：为了找到一个合适的λ值，可以将λ从0.01到0.5变化，并分别在两个数据集上测试λ的变化对模型的准确率和假新闻F1分数的影响。结果如图4所示。当λ从0.01增长到0.05时，本发明模型的准确率和F1分数将不断提高。在图4(a)中，当λ的值达到0.05时，准确度在Twitter和Pheme数据集上都达到了最高结果。在图4(b)中，当λ＝0.05和λ＝0.07时，在Twitter和Pheme数据集上的F1分数分别达到最高。总的来说，当λ＝0.05时，本发明模型可以在两个数据集上获得相对令人满意的准确度和F1分数。

本发明提出了一个新的因果推断框架CLIMB，用于在多模态虚假新闻检测中利用图文匹配偏差。通过将虚假新闻检测任务表述为一个因果图并对其进行理论分析，可以发现图文匹配程度是一个干扰视觉和文本内容融合的混杂因素，使传统的P(Y|X)训练失效。本发明通过在两个现实世界的数据集上进行了实验，并对CLIMB的性能进行了深入的分析，验证了CLIMB可以纠正传统的预测分类概率，并通过因果推断指导检测过程的图文匹配程度。本发明提出的去除混杂因素的框架能有效提高虚假新闻检测模型的泛化能力。它不仅消除了图文匹配偏差的不良影响，而且还利用偏差来提高虚假新闻检测性能。

以上所述，仅是本申请的几个实施例，并非对本申请做任何形式的限制，虽然本申请以较佳实施例揭示如上，然而并非用以限制本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案的范围内，利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例，均属于技术方案范围内。

Claims

1.一种多模态虚假新闻检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：

3.根据权利要求1所述的方法，其特征在于，所述S2具体包括：

4.根据权利要求3所述的方法，其特征在于，所述S21具体包括：

5.根据权利要求3所述的方法，其特征在于，所述S22具体包括：

6.根据权利要求1所述的方法，其特征在于，所述S3具体为：

根据第一公式计算待检测新闻的最终分类概率；

所述第一公式为：P^f＝Norm(P^c⊙P^m)；

7.根据权利要求2所述的方法，其特征在于，所述图文匹配模型为多模态的视觉语言预训练模型。

8.根据权利要求4所述的方法，其特征在于，所述文本编码器为BERT模型；所述视觉编码器为ViT模型。

9.一种多模态虚假新闻检测系统，其特征在于，所述系统包括：

10.根据权利要求9所述的系统，其特征在于，所述图文匹配模型和所述基础虚假新闻检测模型的训练损失函数为交叉熵损失函数。