CN116561305A

CN116561305A - 基于多模态和transformer的假新闻检测方法

Info

Publication number: CN116561305A
Application number: CN202310223898.8A
Authority: CN
Inventors: 杨平平; 刘勇; 杨艳; 刘猛; 姜凯育
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-08-08

Abstract

本发明属于虚假新闻检测技术领域，具体涉及一种基于多模态和transformer的假新闻检测方法，该方法是主要包括文本特征提取器、图像特征提取器、后期融合、分类器四个部分。新闻有文本和视觉两种特征，本发明分别利用transformer、vision transformer提取文本特征和视觉特征，将得到的两个模态特征利用注意力机制融合后输入分类器进行检测，并将多模态语义匹配加入分类器中进一步检测虚假新闻。公开数据集上的实验结果表明，本发明能有效检测虚假新闻，并且检测效果优于现有的多模态假新闻检测模型，解决了现有CNN模型及其变体中无法充分挖掘高质量的视觉特征，以及使用多模态简单拼接而忽略了模态间语义匹配导致检测效果不佳的问题。

Description

基于多模态和transformer的假新闻检测方法

技术领域

本发明属于虚假新闻检测技术领域，具体涉及一种基于多模态和transformer的假新闻检测方法。

背景技术

随着社交网络规模的不断扩大，网络社区中也涌现出越来越多的虚假新闻，影响网络社区的稳定和发展。社交媒体上的虚假新闻是一种广泛存在的信息声明，其真实性难以证实。这些虚假新闻往往以虚假新闻的形式存在于政治、经济和公共安全等领域，给整个社会环境带来了严重的负面影响。

传统的虚假新闻检测方法通常针对纯文本进行设计。然而，带有图片的虚假新闻在社交媒体上更为流行。与纯文本的虚假新闻相比，它的语义信息更加丰富，且对于网络用户具有更强的吸引力。随着假新闻从纯文本帖子演变为带有图像或视频的多媒体帖子，最近一些基于多模态的虚假新闻检测方法被提出。但是现有的检测方法存在如下问题：(1)现有的多模态检测模型许多都是利用ImageNet上预训练的VGG19、或者ResNet-50来提取新闻的视觉特征，但是这些模型无法学习到高质量的中间特征和位置信息，因此无法充分挖掘视觉信息，导致检测效果不理想。(2)现有的多模态假新闻检测技术基本都是通过简单地将文本特征和图像特征进行拼接来检测虚假新闻，忽略了不同模态对新闻的重要程度。(3)现有的多模态虚假新闻检测技术虽然考虑了不同模态特征的共同作用，但忽略了多模态之间的语义匹配程度。

有鉴于此，有必要提供一种新的虚假新闻检测方法，本发明提出了一种基于transformer和多模态融合的假新闻检测方法来解决上述问题。

发明内容

本发明提出了一种新的基于transformer的多模态虚假新闻检测框架的假新闻检测方法，可以充分挖掘视觉特征并有效融合多模态特征来进行虚假新闻检测，并且利用了多模态之间的语义匹配程度。具体来说，是分别使用transformer和vision transformer提取文本和视觉特征表示，而后对这两种不同模态的表示向量进行后期融合。在后期融合阶段，通过计算不同模态表示的注意力权重，来加权构造新闻的特征表示向量，最终送入分类器完成检测。在分类器中，利用文本和图像的语义匹配程度进一步改善检测性能。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

本发明提供一种基于多模态和transformer的假新闻检测方法，该方法有四个部分组成：文本特征提取器、图像特征提取器、后期融合、分类器：

第一部分即文本特征提取器：新闻附带的文本信息经过分词后得到词嵌入，然后将结果输入transformer模型中得到文本的原始向量集合(不同时刻的隐状态集合)，文本原始向量池化后(不同时刻的隐状态相加取均值)得到了文本引导向量；

第二部分即图像特征提取器：新闻附带的图像被划分为多个区域，使用预训练的vision transformer模型对区域特征进行处理，获得图像的原始向量集合。而后对图像的原始向量进行池化，即计算不同时刻隐状态的均值来作为图像引导向量；

第三部分即后期融合：使用注意力机制对两个模态的引导向量进行拼接，得到新闻的最终表示；

第四部分即分类器：将新闻表示输入MLP预测新闻真实性，同时将两个模态引导向量映射到新的目标空间预测语义匹配程度，将MLP的结果加上适当权重的语义匹配值作为最终预测结果。

进一步地，上述假新闻检测方法中，在文本特征提取器这个部分中，使用Transformer提取文本特征，transformer encoder的输入是经过Glove分词后的词向量，输入时需要为每一个词的词向量添加位置编码，即PE(position embedding)。

进一步地，上述假新闻检测方法中，在文本特征提取器这个部分中，使用正余弦位置编码，位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，PE的计算公式如下：

其中，L为句子长度，本发明为75，d_model表示词向量的维度大小，本发明中d_model＝512，pos表示单词在句子中的绝对位置，pos＝0，1，2，…，i表示词向量中的第几维；输入的词向量与位置编码相加，计算公式如下：

X＝GloveEmbedding(X)+PE (3),

其中，表示一条新闻的词嵌入，GloveEmbedding表示由Glove模型获得词嵌入的运算；

由公式(3)得到的词嵌入将会输入到transformerencoder。

进一步地，上述假新闻检测方法中，在文本特征提取器这个部分中，transformerencoder是由N个图2所示的块结构组成，每一个块是由多头注意力层+残差连接层+正则化层+前向传播层+残差连接层+正则化层组成；

第一步，词嵌入在多头注意力层的计算公式如下：

Q＝XW_Q (4),

K＝XW_K (5),

V＝XW_V (6),

X_attentoin＝SelfAttention(Q，K，V) (7),

其中，W_Q、W_K、W_V为三个权值矩阵，d_k表示矩阵W_K的维度，Q_T为Q的转置；

第二步，将公式(7)得到的X_attention与X做残差连接，再进行正则化，计算公式如下：

X_attention＝X+X_attention (9),

X_attention＝LayerNorm(X_attention) (10),

其中，LayerNorm表示正则化运算；

第三步，将正则化后的词嵌入输入前向传播层，该层是由两个线性连接和一个激活函数构成的，计算公式如下：

X_hidden＝Activate(Linear(Linear(X_attention))) (11),

其中，Activate表示激活函数，如Relu，Linear表示全连接层；

第四步，前向传播层的输出再输入残差连接和正则化层得到一个编码块的最终输出计算公式如下：

X_hidden＝X_attention+X_hidden (12),

X_hidden＝LaterNorm(X_hidden) (13),

公式(4)-(13)重复N次，在文中，N＝6。

本发明把不同时刻的隐状态向量称为文本的原始向量集合。如前所述，文本引导向量V_text是文本原始向量池化后的结果，具体操作过程如公式(14)所示：

其中L为句子长度，本发明中设置为75。

进一步地，上述假新闻检测方法中，在图像特征提取器这个部分中，用预训练的ViT模型来获取每个区域I_i的特征向量ViT取N＝12；

本发明把这些区域特征向量称为图像的原始向量集合；

图像引导向量是所有原始向量池化后的结果，具体操作如公式(16)所示。

其中Nr是区域的数量，本发明中设置为196。

进一步地，上述假新闻检测方法中，在后期融合这个部分中，在计算模态m的注意力权重时，本发明使用了两层的前馈网络，计算公式如下：

其中，v_m∈{V_text，V_image}代表模态m的特征表示,α_m代表模态m的注意力权重，代表权值矩阵，/>代表偏置项，然后将模态m的特征表示转换成定长形式v′_m，公式如下：

最后对所有模态的特征表示进行加权平均，构造新闻特征表示v_f，公式如下：

v_f＝∑_{m∈{text，image}}α_mv′_m (19)。

进一步地，上述假新闻检测方法中，在分类器这个部分中，分类器是一个三层的MLP，将晚期融合后得到的新闻特征表示v_f输入分类器中进行最终分类，本发明将分类器表示为G_r(v_f，θ_r)，其中θ_r表示分类器中的所有参数，分类器的输出y_f是该新闻是假新闻的概率：

y_f＝G_r(v_f，θ_r) (20)。

进一步地，上述假新闻检测方法中，在分类器这个部分中，将输出值限制在0到1之间，在输出层使用Sigmoid激活函数。

进一步地，上述假新闻检测方法中，在分类器这个部分，将文本和图像的特征表示映射到新的目标空间计算语义匹配程度，计算公式如下：

S(V_text，V_image)＝||M₁(V_text)-M₂(V_image)|| (21)，

其中，S为表示两个模态特征在目标空间中的欧氏距离，M₁(V_text)和M₂(V_image)是两个映射函数，两个函数都由两层的MLP构成，将文本和图像特征表示映射到新的目标空间，将最终的预测值表示为:

如果两个模态的欧式距离大于阈值β，就将分类器预测的结果加上α倍的S(V_test，V_image)作为参考，其中β和α是本发明实验中的超参数，通过实验本发明得到的最佳参数值为β＝0.65，α＝0.1；如果最后的预测值y_f大于等于0.5，本发明就预测为假新闻，否则，就预测为真新闻。

进一步地，上述假新闻检测方法中，在分类器这个部分中，计算分类损失，

本发明采用交叉熵，计算公式如下：

L_r(θ_r)＝-y log y_f-(1-y)log(1-y_f) (23),

其中y表示新闻对应的真实标签。

本发明的有益效果是：

本发明提出了一种基于transformer和多模态融合的假新闻检测模型，具体地说，本发明先使用transformer分别提取文本和图像特征，随后本发明将这些特征进行基于注意力机制的拼接来检测虚假新闻。此外，本发明在分类器中还利用了文本和图像的语义匹配程度来进一步改善检测性能。公开数据集上的实验结果表明，本发明能有效检测虚假新闻，并且检测效果优于现有的多模态假新闻检测模型。

当然，实施本发明的任一产品并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1基于多模态和transformer的假新闻检测方法框架示意图；

图2Transformer Encoder块结构示意图；

图3阈值α对模型性能的影响示意图；

图4阈值β对模型性能的影响示意图；

图5词嵌入维度对模型性能的影响示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种基于多模态和transformer的假新闻检测方法，如图1所示，该方法的框架新闻有文本和视觉两种特征，分别利用transformer、vision transformer提取文本特征和视觉特征，将得到的两个模态特征利用注意力机制融合后输入分类器进行检测，并将多模态语义匹配加入分类器中进一步检测虚假新闻，该方法有四个部分组成：文本特征提取器、图像特征提取器、后期融合、分类器：

在文本特征提取器部分，模型的框架结构如图1所示，对于输入的新闻数据，新闻附带的文本信息经过分词后得到词嵌入，然后将结果输入transformer模型中得到文本的原始向量集合(不同时刻的隐状态集合)，文本原始向量池化后(不同时刻的隐状态相加取均值)得到了文本引导向量；新闻附带的图像被划分为多个区域，使用预训练的visiontransformer模型对区域特征进行处理，获得图像的原始向量集合，而后对图像的原始向量进行池化，即计算不同时刻隐状态的均值来作为图像引导向量，使用注意力机制对两个模态的引导向量进行拼接，得到新闻的最终表示；最后，将新闻表示输入MLP预测新闻真实性，同时将两个模态引导向量映射到新的目标空间预测语义匹配程度，将MLP的结果加上适当权重的语义匹配值作为最终预测结果。

在文本特征提取器部分，本发明使用jieba分词库对新闻文本进行分词后输入一个预训练的Glove模型获得词嵌入；由于transformer encoder在聚合文本特征方面有着极其出色的表现，所以本发明使用Transformer提取文本特征。transformer encoder的输入是经过Glove分词后的词向量，输入时需要为每一个词的词向量添加位置编码，即PE(position embedding)。本发明使用正余弦位置编码，位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，PE的计算公式如下：

其中，L为句子长度，本发明为75，d_model表示词向量的维度大小，本发明中d_model＝512，pos表示单词在句子中的绝对位置，pos＝0，1，2，…，i表示词向量中的第几维，输入的词向量与位置编码相加，计算公式如下：

X＝GloveEmbedding(X)+PE (3),

其中，表示一条新闻的词嵌入，GloveEmbedding表示由Glove模型获得词嵌入的运算，然后由公式(3)得到的词嵌入将会输入到transformerencoder。

transformer encoder是由N个图2所示的块结构组成，每一个块是由多头注意力层+残差连接层+正则化层+前向传播层+残差连接层+正则化层组成，第一步，词嵌入在多头注意力层的计算公式如下：

Q＝XW_Q (4),

K＝XW_K (5),

V＝XW_V (6),

X_attention＝SelfAttention(Q，K，V) (7),

其中，W_Q、W_K、W_V为三个权值矩阵，d_k表示矩阵W_K的维度，Q^T为Q的转置；

X_attention＝X+X_attention (9),

X_attention＝LayerNorm(X_attention) (10),

其中，LayerNorm表示正则化运算；

X_hidden＝Activate(Linear(Linear(X_attention))) (11),

其中，Activate表示激活函数，如Relu，Linear表示全连接层。

X_hidden＝X_attention+X_hidden (12),

X_hidden＝LayerNorm(X_hidden) (13),

公式(4)-(13)重复N次，在文中，N＝6；

本发明把不同时刻的隐状态向量称为文本的原始向量集合，如前所述，文本引导向量V_text是文本原始向量池化后的结果，具体操作过程如公式(14)所示：

其中L为句子长度，本发明中设置为75。

在图像特征提取器部分，本发明对输入图像重新调整为448*448大小，并将图像切分为大小为14*14的196个区域。区域用I_i(i＝1,2，…，196)表示，为了充分挖掘新闻视觉特征本发明引入了ViT(vision transformer)，最近的研究表明，ViT在许多图像分类数据集上超过了最先进的图像分类模型，而且是相对便宜的预训练模型，在大规模数据集上做完预训练后的ViT模型，在迁移到中小规模数据集的分类任务上以后，能够取得比CNN更好的性能；因此，本发明用预训练的ViT模型来获取每个区域的特征向量，如公式(15)所示，ViT计算过程同transformer encoder，但ViT中取N＝12。本发明把这些区域特征向量称为图像的原始向量集合：

如前所述，图像引导向量是所有原始向量池化后的结果，具体操作如公式(16)所示：

其中Nr是区域的数量，本发明中设置为196。

在后期融合部分，在获得每一个模态的特征表示之后，我们需要融合它们进一步获得新闻特征表示，为了充分建模多模态特征，我们没有直接对两个模态的向量进行拼接，而是引入注意力机制来融合文本和视觉特征；目前，注意力机制已经成为深度学习领域最常用的“组件”之一，它能在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，具体来说，我们计算每个模态的注意力权重，通过加权平均来构造最后的新闻表示，在计算模态m的注意力权重时，我们使用了两层的前馈网络，计算公式如下：

其中，v_m∈{V_text，V_image}代表模态m的特征表示,α_m

代表模态m的注意力权重，代表权值矩阵，/>代表偏置项，然后将模态m的特征表示转换成定长形式v′_m，公式如下：

v_f＝∑_{m∈{text，image}}α_mv′_m (19)。

在分类器部分，分类器是一个三层的MLP，将晚期融合后得到的新闻特征表示v_f输入分类器中进行最终分类。本发明将分类器表示为G_r(v_f，θ_r)，其中θ_r表示分类器中的所有参数，分类器的输出是该新闻是假新闻的概率：

y_f＝G_r(v_f，θ_r) (20)。

为了将输出值限制在0到1之间，本发明在输出层使用Sigmoid激活函数。

通过观察大量的虚假新闻检测数据，本发明发现，许多虚假新闻的文本和图像并不匹配，因为许多虚假新闻创作者为了吸引读者的注意，会使用带有视觉冲击力的图像，可能与文本内容毫无关系，所以，受计算机视觉任务领域的启发，本发明将虚假新闻的检测视为多模态语义匹配问题，本发明将文本和图像的特征表示映射到新的目标空间计算语义匹配程度，计算公式如下：

S(V_text，V_image)＝||M₁(V_text)-M₂(V_image)|| (21)，

其中，S为表示两个模态特征在目标空间中的欧氏距离，M₁(V_text)和M₂(V_image)是两个映射函数，两个函数都由两层的MLP构成，可以将文本和图像特征表示映射到新的目标空间，本发明将最终的预测值表示为:

如果两个模态的欧式距离大于阈值β，就将分类器预测的结果加上倍的S(V_text，V_image)作为参考，其中β和α是本发明实验中的超参数，通过实验本发明得到的最佳参数值为β＝0.65，α＝0.1；如果最后的预测值y_f大于等于0.5，本发明就预测为假新闻，否则，就预测为真新闻。

为了计算分类损失，本发明采用交叉熵，计算公式如下：

L_r(θ_r)-ylog y_f-(1-y)log(1-y_f) (23),

其中y表示新闻对应的真实标签。

本发明的具体实施例如下：

在本实施例中，描述了在真实数据集上进行的实验的细节，以及提出的模型和基线方法之间的结果分析。

一、数据集和预处理

本发明使用的微博数据集来自DataFountain网站(datafountain.cn)。该网站的多模态数据集由北京市经济和信息化局、中国计算机学会大数据专家委员提供。

每个数据都包括微博正文、评论、图像等多个字段，以及无需判断，虚假新闻和真实新闻三种类别的标签，本发明仅使用其中的虚假新闻和真实新闻两类标签，本发明对数据集进行了清洗，仅保留了微博正文中的汉字部分，去除了表情、符号等无实际意义的内容。

为了确保数据集的质量，本发明还去除了重复和低质量的图像，在这项工作中，本发明专注于研究文本和图像，所以纯文本的微博被删除，对于有多张图像的微博只保留一张图像，处理之后的数据共计17848条，数据集统计在表1中列出：

表1

其中包含科技，政治，军事，财经商业，社会生活，文体娱乐，医药健康，教育考试这八个领域的真假新闻，其中后四个领域由于数据量较少，所以只使用前四个领域的数据，前四个领域的数据合并后从中随机抽取，划分为训练集(80％)、验证集(10％)、测试集(10％)，共计16417条，数据集的详细信息见表1。

二、超参数设置

文本特征提取器和图像特征提取器的输出维度分别是256、1024，映射函数得到的文本和图像特征的输出维度都是128，文本transformer的多头注意力头部数量为8，图像transformer的多头注意力头部数量为16，训练过程批处理大小设置为32，学习率为0.001；本发明使用Relu作为激活函数，为了寻求模型的最佳参数，本发明使用Adam优化器来优化损失函数；为了使模型快速收敛，本发明采取了一种动态学习率的方式，在每次epoch后记录下F1-Score，如果当前epoch的F1-Score较上一个epoch没有提升，就将学习率更新为上一个epoch学习率的80％。

本发明使用虚假新闻检测任务中常用的精度(precision)、召回率(recall)、准确率(accuracy)，以及F1值(F1-Score)作为主要评估指标。

三、对比实验

为了验证本发明的多模态模型的有效性，本发明将其与下列多个基线模型进行比较。

单模态模型

CNN：基于新闻的图像进行假新闻检测，使用CNN提取图像特征和一个三层的神经网络分类器进行分类。

LSTM：基于新闻的文本进行假新闻检测，使用LSTN提取文本特征并分类。

多模态模型

EANN：事件对抗神经网络(EANN)由三个主要组件组成：多模态特征提取器、假新闻检测器和事件鉴别器；多模态特征提取器分别使用基于CNN的文本特征提取器(TextCNN)提取文本特征和VGG-19网络提取图像特征；它与假新闻检测器一起工作，学习用于检测假新闻的判别表示，事件鉴别器负责删除任何特定事件的特征。为了适应本发明的任务，本发明删除了时间判别器的作用。

MVAE：端到端的多模态变分自编码器(MVAE)由3个主要组件组成：编码器、解码器、假新闻检测模块。编码器分别使用双向LSTM、VGG-19提取文本特征和图像特征，编码成隐藏层向量，解码器从隐层向量重构出原始的图像和文本，假新闻检测器使用学习到的共享表示(隐层向量)来预测新闻的真假。

Spotfake+：一种多模态方法，它利用迁移学习从新闻文章及其相关图像中捕获语义和上下文信息，利用预训练的语言转换器和预训练的ImageNet模型进行特征提取，这些特征向量被送入全连接层进行分类。

att-RNN：att-RNN使用注意力机制来结合文本、视觉和社交上下文特征，在这个端到端网络中，图像特征被合并到文本和社会背景的联合表示中，使用LSTM网络获得，因为本发明使用的微博数据没有社交信息，在实验中，本发明删除了att-RNN处理社会背景信息的部分。

MCAN：MCAN模型是一个端到端的检测虚假新闻的模型，只使用图像和文本信息；分别使用VGG-19、CNNs和BERT提取图像空域特征、图像频域特征和文本特征，之后将多个共同注意力层堆叠在一起融合多模态特征，可以学习到多个模态之间的相互依赖关系。

HMCAN：提出了层次化的多模态上下文注意力网络(HMCAN)来联合学习多模态上下文信息和文本的层次化语义信息，HMCAN分别使用BERT和ResNet模型提取文本和视觉特征，再利用多模态上下文注意力网络来建模新闻的多模态特征，让来自不同模态的信息对另一模态做补充。

表2展示了基线的结果和本发明的方法结果的对比，从实验结果来看，Spotfake+利用预训练后的特征提取器进行特征提取，取得了比att-RNN更好的效果，因为预训练通常使模型具有更好的泛化能力，使其加速向目标任务的收敛，HMCAN使用上下文注意力网络进行模态增强后取得了比Spotfake+更好的结果，说明注意力机制在虚假新闻检测中发挥了巨大作用，MCAN效果明显优于HMCAN，并且MCAN使用两个特征提取器充分提取图像特征，不仅说明了注意力机制在多模态融合中的重要性，也凸显了图像特征在虚假新闻检测中的巨大作用，本发明提出的TGA模型(基于多模态和transformer的假新闻检测方法)优于最好的基线模型MCAN，准确率从90.2％提升到92.2％，F1从90％提升到92.5％；尽管MCAN在多模态融合时使用了共同注意力，但它忽略了不同模态之间的语义匹配程度对虚假新闻检测的重要性，所以MCAN的检测效果并不如本发明的TGA模型，这不仅进一步证明了本发明的特征提取器要优于基于传统CNN和传统RNN的特征提取器，也说明了多模态语义匹配在虚假新闻检测中的巨大作用，详细的实施例对比实验结果在表2中列出：

表2

四、消融实验

为了验证本发明提出的模型每一个组件的作用，本发明做了一系列的消融实验，在实验中构造了TGA的多个变体，如下所示。

TGA-T：在TGA中，只使用文本进行检测，删去了图像特征部分。

TGA-I：在TGA中，只使用图像进行检测，删去了文本特征部分。

TGA-A：在TGA中，使用文本和图像特征进行检测，删去了基于注意力机制融合的部分，直接将两个模态的特征进行简单拼接。

TGA-L：在TGA中，文本特征提取器中用LSTM替换Transformer。

TGA-R：在TGA中，图像特征提取器中用ResNet-50替换VIT。

TGA-M：在TGA中，删除语义匹配的计算结果对实验的影响。

表3展示了本发明构造的多个变体的实验结果，可以看出，本发明的模型的每一个组件都在本发明提出的方法中都是不可或缺的，其中，基于文本模态的模型效果并不如基于图像模态的模型；直观上，虚假新闻的领域信息主要集中在文本内容中，例如，在财经领域的新闻文本中存在大量经济学专业词汇，这就导致仅使用文本内容检测虚假新闻不能保证模型拥有良好的领域适用性；相反，图像中涉及的领域信息并不明显，例如，在娱乐领域、政治领域及社会领域的新闻图像中都可能包含人物，实验结果恰好也证明了这一点，详细的实施例的消融实验结果在表3中列出：

表3

在单模态模型中，图像优于文本，这说明图像特征对于检测跨领域虚假新闻有很大帮助。几乎所有的变体都优于TGA-T和TGA-I这两个变体，这说明了多模态的检测效果要优于单模态，删除了注意力机制融合的变体明显劣于本发明的模型TGA，进一步证明了注意力机制在多模态融合中的重要性。

当用LSTM替换掉文本Transformer后，TGA-L的检测效果劣于TGA，说明Transformer在提取文本特征方面比基于传统RNN的特征提取器更好；同样的，TGA-R的检测效果劣于TGA，证明了VIT在提取图像特征方面要优于基于传统CNN的特征提取器；并且，TGA-L的准确率比TGA-R高出5.6％，足以证明VIT在提取图像特征方面的优势以及图像在虚假新闻检测中的重要性；在删除语义匹配的计算后，模型的准确率和f1值都明显低于基于多模态和transformer的假新闻检测方法，说明不同模态间的语义匹配程度在新闻检测中有很重要的作用。

五、参数灵敏度实验

实验中的超参数对于实验的结果有很大影响，本发明在图3，图4，图5中给出部分超参数对实验结果的影响。

图3展示了阈值α的取值对实验结果的影响，阈值α是用来决定两种模态特征语义匹配程度在实验结果中的占比，将分类器的预测结果加上α倍的语义匹配值作为最终的预测结果；α越大，语义匹配程度对实验结果影响越大；由实验可知，本发明将α设置为0.1时能使模型达到最佳效果。

图4展示了阈值β对实验结果的影响，如果两种模态的语义匹配值大于β，本发明就认为两种模态语义上相差甚远，便会将分类器的预测结果加上α倍的语义匹配值再确定是否为虚假新闻，通过实验得出，本发明将β设置为0.65时模型表现最好。

图5展示了词嵌入维度对实验结果的影响，通过实验可以看出，本发明的模型在词嵌入维度为32时表现最佳；本发明认为，当词嵌入维度小于32时，词向量不足以表示单词特征，语言本身具有一定的不确定性，当本发明使用的词嵌入维度大于32时，会增大这种不确定性，且容易导致过拟合现象。

六、结论

本发明研究了多模态虚假新闻检测问题，提出了一个基于transformer的多模态虚假新闻检测模型；它利用新闻的文本和视觉信息检测虚假新闻，其中文本特征和图像特征都使用transformer提取，并在后期使用注意力机制融合多模态特征，同时计算多个特征的语义匹配程度来提高检测效果；在真实数据集上的实验结果表明，本发明所提出的模型优于现在的多模态模型；在未来的工作中，本发明将考虑改进TGA模型用于跨领域新闻的检测。

以上公开的本发明优选实施例只是利于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于多模态和transformer的假新闻检测方法，其特征在于，该方法有四个部分组成：文本特征提取器、图像特征提取器、后期融合、分类器：

文本特征提取器：新闻附带的文本信息经过分词后得到词嵌入，然后将结果输入transformer模型中得到文本的原始向量集合（不同时刻的隐状态集合），文本原始向量池化后（不同时刻的隐状态相加取均值）得到了文本引导向量；

图像特征提取器：新闻附带的图像被划分为多个区域，使用预训练的visiontransformer模型对区域特征进行处理，获得图像的原始向量集合。而后对图像的原始向量进行池化，即计算不同时刻隐状态的均值来作为图像引导向量；

后期融合：使用注意力机制对两个模态的引导向量进行拼接，得到新闻的最终表示；

分类器：将新闻表示输入MLP预测新闻真实性，同时将两个模态引导向量映射到新的目标空间预测语义匹配程度，将MLP的结果加上适当权重的语义匹配值作为最终预测结果。

2.根据权利要求1所述的假新闻检测方法，其特征在于：使用Transformer提取文本特征，transformer encoder的输入是经过Glove分词后的词向量，输入时需要为每一个词的词向量添加位置编码，即PE（position embedding）。

3.根据权利要求2所述的假新闻检测方法，其特征在于：使用正余弦位置编码，位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，PE的计算公式如下：

(1),

(2),

其中，，L为句子长度，本发明为75，/>表示词向量的维度大小，本发明中/>=512，pos表示单词在句子中的绝对位置，pos=0，1，2，…，i表示词向量中的第几维；输入的词向量与位置编码相加，计算公式如下：

(3),

其中，X∈表示一条新闻的词嵌入，/>表示由Glove模型获得词嵌入的运算；

由公式(3)得到的词嵌入将会输入到transformer encoder。

4.根据权利要求2所述的假新闻检测方法，其特征在于：transformer encoder是由N个图2所示的块结构组成，每一个块是由多头注意力层+残差连接层+正则化层+前向传播层+残差连接层+正则化层组成；

第一步，词嵌入在多头注意力层的计算公式如下：

(4),

(5),

(6),

(7),

(8),

其中，为三个权值矩阵，/>表示矩阵/>的维度，/>为Q的转置；

第二步，将公式(7)得到的与X做残差连接，再进行正则化，计算公式如下：

(9),

(10),

其中，LayerNorm表示正则化运算；

(11),

其中，Activate表示激活函数，如Relu，Linear表示全连接层；

第四步，前向传播层的输出再输入残差连接和正则化层得到一个编码块的最终输出，计算公式如下：

(12),

(13),

公式(4)-(13)重复N次，在文中，N=6；

本发明把不同时刻的隐状态向量称为文本的原始向量集合。如前所述，文本引导向量是文本原始向量池化后的结果，具体操作过程如公式(14)所示：

(14),

其中L为句子长度，本发明中设置为75。

5.根据权利要求1所述的假新闻检测方法，其特征在于：用预训练的ViT模型来获取每个区域的特征向量/>，ViT取N=12；

本发明把这些区域特征向量称为图像的原始向量集合；

(15)；

图像引导向量是所有原始向量池化后的结果，具体操作如公式(16)所示；

(16)；

其中Nr是区域的数量，本发明中设置为196。

6.根据权利要求1所述的假新闻检测方法，其特征在于：在计算模态m的注意力权重时，本发明使用了两层的前馈网络，计算公式如下：

(17),

其中，代表模态m的特征表示, />代表模态m的注意力权重，/>，代表权值矩阵，/>，/>代表偏置项，然后将模态m的特征表示转换成定长形式/>，公式如下：

(18),

最后对所有模态的特征表示进行加权平均，构造新闻特征表示，公式如下：

(19)。

7.根据权利要求1所述的假新闻检测方法，其特征在于：分类器是一个三层的MLP，将晚期融合后得到的新闻特征表示输入分类器中进行最终分类，本发明将分类器表示为，其中/>表示分类器中的所有参数，分类器的输出/>是该新闻是假新闻的概率：

(20)。

8.根据权利要求7所述的假新闻检测方法，其特征在于：将输出值限制在0到1之间，在输出层使用Sigmoid 激活函数。

9.根据权利要求7所述的假新闻检测方法，其特征在于：

将文本和图像的特征表示映射到新的目标空间计算语义匹配程度，计算公式如下：

(21)，

其中，S为表示两个模态特征在目标空间中的欧氏距离，和/>是两个映射函数，两个函数都由两层的MLP构成，将文本和图像特征表示映射到新的目标空间，将最终的预测值表示为:

(22)，

如果两个模态的欧式距离大于阈值，就将分类器预测的结果加上/>倍的作为参考，其中/>和/>是本发明实验中的超参数，通过实验本发明得到的最佳参数值为/>=0.65，/>=0.1；如果最后的预测值/>大于等于 0.5，本发明就预测为假新闻，否则，就预测为真新闻。

10.根据权利要求9所述的假新闻检测方法，其特征在于：计算分类损失，本发明采用交叉熵，计算公式如下：

(23),

其中y表示新闻对应的真实标签。