CN115775349A

CN115775349A - 基于多模态融合的假新闻检测方法和装置

Info

Publication number: CN115775349A
Application number: CN202211583727.8A
Authority: CN
Inventors: 周昊玮; 韩蒙; 华怀安; 朱亮; 刘勇; 玄萍
Original assignee: Zhejiang Weiheng Technology Co ltd
Current assignee: Zhejiang Weiheng Technology Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-10

Abstract

本发明公开了一种基于多模态融合的假新闻检测方法和装置，包括：获取待检测的新闻数据，并从新闻数据中提取图数据和文本数据；利用图向量提取器对图数据进行向量提取得到图片原始向量，并依据图片原始向量计算图像引导向量；利用图像引导向量初始化文本向量提取器后，利用初始化的文本向量提取器对文本数据进行向量提取得到文本原始向量，依据文本原始向量计算文本引导向量；将图片原始向量与文本引导向量融合并计算图数据的图表征，将文本原始向量与图像引导向量融合并计算文本数据的文本表征；融合图表征和文本表征得到新闻特征表示，基于新闻特征表示进行假新闻检测，该方法和装置能顾提升假新闻检测准确率。

Description

基于多模态融合的假新闻检测方法和装置

技术领域

本发明属于假新闻检测技术领域，具体涉及一种基于多模态融合的假新闻检测方法和装置。

背景技术

社交媒体在带给人们丰富信息资源的同时，也带来了虚假新闻问题。因此，虚假新闻的有效监测方法受到了研究人员的广泛关注。虚假新闻监测方法主要包括：基于专家的事实核查、基于众包的人工事实核查、自动假新闻检测技术等三大类方法。

基于专家的事实核查与基于众包的人工事实核查是应对假新闻恶意传播的传统方法。基于专家的事实核查准确性较高，但由于昂贵的人工成本和漫长的检测时间难以对社交媒体的众多新闻进行高效检测。而基于众包的人工事实核查在可扩展性方面做得很好，但该方法假新闻检测准确性较低。由于人工核查方法的限制，自动假新闻检测技术逐步发展起来，以解决传统方法存在的问题。早期的一些研究试图将手动设计的一系列特征输入机器学习模型来识别假新闻，但这些方法仍然是费时费力且难以扩平台和扩领域进行推广。

近年来，深度神经网络(Deep neural network，DNN)由于具有自动获取复杂抽象特征的强大能力在一定程度上弥补了传统模型的不足。利用文本特征检测假新闻是现有的主流研究方法。然而，目前越来越多的新闻中包含了文本、图像、视频等不同模态的信息。值得注意的是，更容易吸引用户关注的往往是带有视觉模态的信息。同时利用文本特征和视觉特征检测假新闻逐渐成为了该领域的重点研究内容。

多模态假新闻检测方法虽然取得一定进展，但多数方法在获取不同模态特征后，以简单拼接的方式进行特征融合，难以对不同模态特征的相关性进行有效建模。而且，每个模态的特征提取方法在提取模态特征时并未利用其他模态的相关信息，这使得不同模态特征之间缺乏必要的联系。因此，现有多模态假新闻检测方法并没有充分发挥多模态在假新闻检测中的优势，不同模态的有效融合方法仍然是假新闻检测领域的一项重要挑战。另外，新闻领域众多，某些领域标签数据较少，如何把模型推广到标签较少的领域也是一项重要挑战。

发明内容

鉴于上述，本发明的目的是提供一种基于多模态融合的假新闻检测方法和装置，以提升假新闻检测的准确性。

为实现上述发明目的，实施例提供的一种基于多模态融合的假新闻检测方法，包括以下步骤：

获取待检测的新闻数据，并从新闻数据中提取图数据和文本数据；

利用图向量提取器对图数据进行向量提取得到图片原始向量，并依据图片原始向量计算图像引导向量；

利用图像引导向量初始化文本向量提取器后，利用初始化的文本向量提取器对文本数据进行向量提取得到文本原始向量，依据文本原始向量计算文本引导向量；

将图片原始向量与文本引导向量融合并计算图数据的图表征，将文本原始向量与图像引导向量融合并计算文本数据的文本表征；

融合图表征和文本表征得到新闻特征表示，基于新闻特征表示进行假新闻检测，得到假新闻检测结果。

在一个实施例中，所述图向量提取器采用预训练的ResNet-50网络，利用预训练的ResNet-50网络提取输入区域图像的图片原始向量，然后，通过对所有输入区域图像的图片原始向量进行全局池化得到图像引导向量

用公式表示为：

其中，

表示第i个区域图像的图片原始向量，N_r表示属于同一图数据的区域图像总量。

在一个实施例中，所述文本向量提取器采用双向LSTM，将图像引导向量做非线性变换后，将非线性变换结果作为双向LSTM的初始状态，实现利用图像引导向量对双向LSTM的初始化；

利用初始化的双向LSTM提取输入的文本初始嵌入表示在不同时刻的隐状态向量，并将隐状态向量作为文本原始向量，然后，通过对所有文本初始嵌入表示的文本原始向量进行全局池化得到文本引导向量v_text，用公式表示为：

其中，

表示第j个文本初始嵌入表示的文本原始向量，L表示属于同一文本数据的文本初始嵌入表示总量。

在一个实施例中，所述文本数据在输入文本向量提取器之前需要将经过预处理，包括：对文本数据进行分词，利用预训练语言模型对分词得到的词语进行嵌入表示，得到词语的初始嵌入表示，将词语的初始嵌入表示得到文本的初始嵌入表示。

在一个实施例中，所述将图片原始向量与文本引导向量融合并计算图数据的图表征，包括：

针对图数据m的第i个图片原始向量

利用公式(3)根据文本数据n的文本引导向量v_text计算多个引导权重

然后使用公式(4)将引导权重

归一化，最后以归一化的引导权重

作为权重使用公式(5)对图数据m的所有图像原始向量计算加权平均，获得图数据m的图表征v_m：

其中，

是权重矩阵，

是偏差参数，N_r表示图数据m的图片原始向量总量；

所述将文本原始向量与图像引导向量融合并计算文本数据的文本表征，包括：

针对文本数据n的第j个文本原始向量

利用公式(6)根据文本数据n的图像引导向量v_image计算多个引导权重

然后使用公式(7)将引导权重

归一化，最后以归一化的引导权重

作为权重使用公式(8)对文本数据n的所有文本原始向量计算加权平均，获得文本数据n的文本表征v_n：

其中，

是权重矩阵，

是偏差参数，L表示文本数据n的文本原始向量总量。

在一个实施例中，所述融合图表征和文本表征得到新闻特征表示，包括：

针对图表征，采用两层的前馈网络公式(9)计算图表征v_m的注意力权重

然后使用公式(10)将模图表征v_m转换成定长形式v′_m；

v′_m＝tanh(W_m2·v_m+b_m2) (10)

其中，

代表权重矩阵，

代表偏置参数，softmax()表示softmax激活函数，tanh()表示双曲正切函数；

针对文本表征，采用两层的前馈网络公式(11)计算文本表征v_n的注意力权重

然后使用公式(12)将模图表征v_n转换成定长形式v′_n；

v′_n＝tanh(W_n2·v_n+b_n2) (12)

其中，

代表权重矩阵，

代表偏置参数；

使用公式(13)对所有模态的特征表示进行加权求和，构造新闻特征表示v_f：

在一个实施例中，采用分类器基于新闻特征表示进行假新闻检测，得到假新闻检测结果，其中分类器为至少两层的MLP。

在一个实施例中，所述方法在检测过程中用到的所有权重矩阵和偏差参数均需要经过新闻数据样本和对应标签的预训练，且在预训练过程中采用监督学习的方式，还在预训练结果的基础上，采用标签稀少数据进行权重矩阵和偏差参数的微调。

为实现上述发明目的，实施例还提供了一种基于多模态融合的假新闻检测装置，包括数据获取模块、图向量提取模块、文本向量提取模块、表征计算模块以及融合检测模块；

所述获取模块用于获取待检测的新闻数据，并从新闻数据中提取图数据和文本数据；

所述图向量提取模块用于利用图向量提取器对图数据进行向量提取得到图片原始向量，并依据图片原始向量计算图像引导向量；

所述文本向量提取模块用于利用图像引导向量初始化文本向量提取器后，利用初始化的文本向量提取器对文本数据进行向量提取得到文本原始向量，依据文本原始向量计算文本引导向量；

所述表征计算模块用于将图片原始向量与文本引导向量融合并计算图数据的图表征，还用于将文本原始向量与图像引导向量融合并计算文本数据的文本表征；

所述融合检测模块用于融合图表征和文本表征得到新闻特征表示，基于新闻特征表示进行假新闻检测，得到假新闻检测结果。

为实现上述发明目的，实施例提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多模态融合的假新闻检测方法。

与现有技术相比，本发明具有的有益效果至少包括：

将新闻数据拆分成图数据和文本数据，基于图数据计算图引导向量，基于文本数据计算文本引导向量，以文本引导向量作为引导知识来计算图数据的图表征，以图引导向量作为引导知识来计算文本数据的文本表征，然后融合文本表征和图表征来进行假新闻检测，这样能够提高假新闻检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于多模态融合的假新闻检测方法的流程图；

图2是实施例提供的基于多模态融合的假新闻检测方法采用模型的框架图；

图3是实施例提供的基于多模态融合的假新闻检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为充分利用新闻数据中多模态信息来提高假新闻数据的检测效果，实施例提供了一种基于多模态融合的假新闻检测方法，如图1所示，实施例提供的假新闻检测方法包括以下步骤：

步骤1，获取待检测的新闻数据，并从新闻数据中提取图数据和文本数据。

待检测的新闻数据包含文本、图像、视频、音频等多种模态，实施例从这多模态数据中提取图数据和文本数据，其中图数据可以是新闻数据中包含的图像，也可以是从视频中截图的视频帧图像，文本数据可以是新闻数据包含的自然语言文本，可以是从音频中通过转换获得文本。

步骤2，利用图向量提取器对图数据进行向量提取得到图片原始向量，并依据图片原始向量计算图像引导向量。

实施例中，利用图向量提取器对图数据进行向量提取时，将图像划分为多个区域图像I_i，i表示区域图像的索引，将每个区域图像输入至图向量提取器，经过计算得到每个区域图像对应的图片原始向量。在一种实施方式中，图向量提取器采用预训练的ResNet-50网络，利用预训练的ResNet-50网络提取输入区域图像I_i的图片原始向量

然后，通过对属于同个图像的所有输入区域图像的图片原始向量进行全局池化得到图像引导向量

用公式表示为：

其中，N_r表示属于同一图像的区域图像总量。

步骤3，利用图像引导向量初始化文本向量提取器后，利用初始化的文本向量提取器对文本数据进行向量提取得到文本原始向量，依据文本原始向量计算文本引导向量。

文本作为主体特征，在假新闻检测中扮演主要角色。图像能辅助文本提高新闻特征的信息量。如何将两者有效融合是一个关键问题。

实施例中，文本向量提取器采用双向LSTM(Bi-LSTM)，即采用Bi-LSTM抽取文本原始向量。在使用Bi-LSTM抽取文本特征时，初始化状态通常定义为零。但是这些原本应该定义为零的状态，完全可以注入其它多模态的信息，来加强模态间的联系。因此，实施例提出了一种早期融合方式。具体来说，将图像引导向量进行非线性变换，然后将变换后的结果作为Bi-LSTM的初始化状态，具体变化过程如公式(2)所示。

[h_f0；h_b0；c_f0；c_b0]＝ReLu(W·v_image+b) (2)

其中，h_f0,c_f0为Bi-LSTM前向初始状态，h_b0,c_b0为Bi-LSTM后向初始状态；(；)为向量连接，ReLu表示激活函数，W和b为权重矩阵和偏置参数。

在对Bi-LSTM初始状态初始化后，利用初始化的Bi-LSTM提取文本原始向量，具体过程包括：对文本数据进行分词，利用预训练语言模型(例如BERT模型或GloVe模型)对分词得到的词语进行嵌入表示，得到词语的初始嵌入表示，将词语的初始嵌入表示得到文本初始嵌入表示，然后利用初始化的Bi-LSTM提取输入的文本初始嵌入表示在不同时刻的隐状态向量，并将隐状态向量h_t作为文本原始向量

j表示文本原始向量的索引，然后，通过对属于同个文本数据的所有文本初始嵌入表示的文本原始向量进行全局池化得到文本引导向量v_text，用公式表示为：

其中，L表示属于同一文本数据的文本初始嵌入表示总量。

步骤4，将图片原始向量与文本引导向量融合并计算图数据的图表征，将文本原始向量与图像引导向量融合并采计算文本数据的文本表征。

实施例中，在获得每个模态的原始向量和引导向量之后，需要构造每个模态的特征表示。其中，模态包括文本模态和图像模态。受多任务注意力机制的启发，为了更精确地建模多个模态之间的关系，利用其他模态引导向量来计算当前模态的原始向量的引导权重，利用引导权重加权来计算各模态的表征，将该模态融合过程称为为中期融合。

对于图像模态，针对图数据m的第i个图片原始向量

利用公式(4)根据文本数据n的文本引导向量v_text计算多个引导权重

然后使用公式(5)将引导权重

归一化，最后以归一化的引导权重

作为权重使用公式(6)对图数据m的所有图像原始向量计算加权平均，获得图数据m的图表征v_m：

其中，

是权重矩阵，

是偏差参数，N_r表示图数据m的图片原始向量总量；

对于文本模态，针对文本数据n的第j个文本原始向量

利用公式(7)根据文本数据n的图像引导向量v_image计算多个引导权重

然后使用公式(8)将引导权重

归一化，最后以归一化的引导权重

作为权重使用公式(9)对文本数据n的所有文本原始向量计算加权平均，获得文本数据n的文本表征v_n：

其中，

是权重矩阵，

是偏差参数，L表示文本数据n的文本原始向量总量。

步骤5，融合图表征和文本表征得到新闻特征表示，基于新闻特征表示进行假新闻检测，得到假新闻检测结果。

在获得每个模态的表征(图表征和文本表征)之后，需要融合图表征和文本表征来构造新闻特征表示。受到多模态融合的启发，为了进一步融合不同模态的表征，实施例没有采用传统的简单拼接方式，而是计算每个模态的注意力权重，通过加权求和来构造最后的新闻特征表示，该模态融合过程称作晚期融合。

实施例中，具体融合图表征和文本表征得到新闻特征表示，包括：

针对图表征，采用两层的前馈网络公式(10)计算图表征v_m的注意力权重

然后使用公式(11)将模图表征v_m转换成定长形式v′_m；

其中，

代表权重矩阵，

针对文本表征，采用两层的前馈网络公式(12)计算文本表征v_n的注意力权重

然后使用公式(13)将模图表征v_n转换成定长形式v′_n；

其中，

代表权重矩阵，

代表偏置参数；

使用公式(14)对所有模态的特征表示进行加权求和，构造新闻特征表示v_f：

实施例中，采用分类器基于新闻特征表示进行假新闻检测，得到假新闻检测结果，其中分类器为至少两层的MLP，在一个实施方式中可以采用三层的MLP，在隐藏层和输出层分别使用ReLu与Sigmoid作为激活函数，Sigmoid函数输出介于0到1之间的置信度。如果这个置信度大于等于0.5时，预测的新闻数据为假新闻，否则，预测的新闻数据为真新闻。

将上述步骤1-5实现的过程定义为模型，如图2所示，将模型包含的所有权重矩阵和偏差参数在标签丰富的新闻数据上进行预训练并保存模型参数。随后利用保存的参数作为模型的初始参数，在标签稀少的新闻数据上进行微调，在微调的过程中对部分超参数进行调整。

具体训练时采用的数据集为互联网多模态虚假新闻检测数据，其中包含8个领域(科技，政治，军事，财经商业，社会生活，文体娱乐，医药健康，教育考试)的真假新闻。由于该数据集合中的推文存在特殊标点符号与表情、随意配图等问题，对数据集进行了过滤和清洗(如约束文本字数、去掉用户名、去除特殊符号、去除无意义的词、去除含URL的推文等)，最终得到14016条推文加图像的标准数据集。选出4个推文最多的领域(科技、政治、文体娱乐、社会生活)作为预训练数据集，共计9442条推文加图像数据。其余4个领域(教育考试、医药健康、财经商业、军事)的数据作为微调数据集，共计4574条推文加图像数据。训练过程中，采用交叉熵损失函数，以监督学习的方式进行参数训练。

利用上述数据集对模型进行训练后，模型的准确率Accuracy、召回率Recall、查准率precision以及F₁-score分别为0.927,0.93881,0.90378以及0.98134，实施例采用的早期融合、中期融合以及晚期融合三阶段融合方式，使得最后的新闻特征表示包含更多的重要信息，显著地改善了模型的检测性能。

实施例还提供了一系列的消融实验来评价模型中不同阶段融合方式和预训练的作用。实施例还构造了本发明模型PMFD的多个变体，如下所示：

Text：在PMFD中，只使用文本进行检测；

mage：在PMFD中，只使用图像进行检测；

PMFD-A：在PMFD中，同时使用文本与图像进行检测，但不使用早期融合；

PMFD-B：在PMFD中，同时使用文本与图像进行检测，但不使用中期融合；

PMFD-C：在PMFD中，同时使用文本与图像进行检测，但不使用晚期融合(采用模态直接拼接的方式)。

为了评价预训练的作用，实施例也给出了PMFD所有变体在不使用预训练的情况下，直接在微调数据上进行检测的结果，实验结果如表1所示，以及所有变体在预训练情况下检测结果，如表2所示。

表1无预训练消融实验

表2预训练消融实验

PMFD模型所有变体通过预训练后性能在不同程度上均有提升，可见预训练对跨领域检测具有不可忽视的作用。

首先，预训练可以很好地通过学习通用表示来辅助下游任务；其次，通过在标签稀缺领域的微调，降低了模态在对应新闻领域的高度依赖，减少了过拟合的风险；最后，通过多模态、多阶段融合的方式，能够更好地利用预训练微调后获得的通用表示，模态私有特征和跨模态共享特征得以完善，从而得到更多的特征来判断新闻内容的真实性。

多模态模型与单模态模型相比，性能普遍提升10％以上。如果PMFD不使用早期融合(PMFD-A变体)，性能有小幅度下降。早期融合使得文本能够在图像的引导下进行特征提取，这有助于模态之间的信息共享，一定程度上促进了模型的性能。如果PMFD不使用中期融合(PMFD-B变体)，性能下降比较明显。分析认为，PMFD-B变体在构造模态特征表示时直接将模态所有原始向量取平均，没有使用其他模态引导向量计算不同原始向量的权重系数，不能充分对模态特征表示进行建模，导致模型性能下降明显。如果PMFD不使用晚期融合(PMFD-C变体)，性能也有小幅度下降。分析认为，PMFD-C变体在构造新闻特征表示时直接将各个模态特征表示进行简单拼接，没有充分考虑不同模态的注意力系数，从而影响了模型的性能。

实施例提供的假新闻检测方法通过预训练和多种融合方式构造了新闻的多模态表示的方式，减少了特定模态与所在领域的高度相关性，有效改善了模型的检测效果。

基于同样的发明构思，实施例还提供了基于多模态融合的假新闻检测装置，包括数据获取模块、图向量提取模块、文本向量提取模块、表征计算模块以及融合检测模块；

其中，获取模块用于获取待检测的新闻数据，并从新闻数据中提取图数据和文本数据；图向量提取模块用于利用图向量提取器对图数据进行向量提取得到图片原始向量，并依据图片原始向量计算图像引导向量；文本向量提取模块用于利用图像引导向量初始化文本向量提取器后，利用初始化的文本向量提取器对文本数据进行向量提取得到文本原始向量，依据文本原始向量计算文本引导向量；表征计算模块用于将图片原始向量与文本引导向量融合并计算图数据的图表征，还用于将文本原始向量与图像引导向量融合并计算文本数据的文本表征；融合检测模块用于融合图表征和文本表征得到新闻特征表示，基于新闻特征表示进行假新闻检测，得到假新闻检测结果。

需要说明的是，上述实施例提供的基于多模态融合的假新闻检测装置在进行假新闻检测时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于多模态融合的假新闻检测装置与家基于多模态融合的假新闻检测方法实施例属于同一构思，其具体实现过程详见基于多模态融合的假新闻检测方法实施例，这里不再赘述。

基于同样的发明构思，实施例还提供了一种计算设备，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现上述基于多模态融合的假新闻检测方法。

其中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于多模态融合的假新闻检测步骤。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。