CN117391051A

CN117391051A - 一种融合情感的共同注意网络多模态虚假新闻检测方法

Info

Publication number: CN117391051A
Application number: CN202311699411.XA
Authority: CN
Inventors: 陈奥; 黄琪; 罗文兵; 王明文; 罗凯威; 吴督邦; 杨兰建; 邓正正
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-01-12
Anticipated expiration: 2043-12-12
Also published as: CN117391051B

Abstract

本发明公开了一种融合情感的共同注意网络多模态虚假新闻检测方法，该方法包括如下步骤：首先将新闻数据集进行清洗筛选之后，输入到特征提取器和特征编码器中获取各种深层次多模态特征，接下来将各种深层次多模态特征输入到共同注意融合网络和注意力机制模块中进行特征融合，最后将所得最终特征输入到预测分类模块中对新闻进行分类和预测，本发明通过对多模态信息由浅到深的特征提取提升了模型的性能、泛化能力和解释性，同时降低计算复杂度，并且利用共同注意融合网络以及注意力机制将多模态信息进行有效的融合以及在不同模态之间建立关联，使虚假新闻检测模型的分类和预测效果能够显著提升。

Description

一种融合情感的共同注意网络多模态虚假新闻检测方法

技术领域

本发明涉及虚假新闻检测或深度学习技术领域，具体为一种融合情感的共同注意网络多模态虚假新闻检测方法。

背景技术

自从20世纪30年代初以来，研究者们就广泛探索了虚假新闻检测领域，从繁琐耗时的人工检测方法到自动虚假新闻检测模型的研究。近年来，随着互联网的发展和普及，网络社交媒体逐渐成为发布、传播新闻的主流平台。社交媒体的快捷性和便利性等优点给工作、生活和学习带来了巨大的便利，为用户发布、分享和获取各种信息提供了便捷的渠道。目前社交媒体已成为各国发布外交政策和相关评论的重要平台，也演变成网络认知的主战场。社交媒体的蓬勃发展使得网络上新闻发布数量呈指数型增长，随之而生的则是虚假新闻泛滥问题。为遏制虚假新闻所带来的一系列严重问题，首要的核心任务就是识别虚假新闻，即虚假新闻检测（Fake News Detection，FND）。

虚假新闻检测是一种利用技术和方法来辨别和识别虚假新闻（也称为假新闻、虚假信息或谣言）的过程。虚假新闻检测的目标是帮助辨别和阻止虚假信息的传播，以维护信息的准确性和公众的信息素质。虚假新闻检测是一个不断发展的领域，因为虚假信息的形式和传播方式不断变化。然而，它也面临一些挑战，包括隐蔽的虚假信息难以识别和缺乏可解释性、算法的偏见和误报的风险。因此，虚假新闻检测需要继续发展和改进，以适应不断变化的信息环境。

现有传统的虚假新闻检测方法，如基于规则和统计的方法，这些传统虚假新闻检测方法可以是有用的，但它们通常需要时间和人力资源，有时难以应对大规模虚假信息的传播，因此，现代虚假新闻检测越来越依赖于自然语言处理（NLP）、机器学习（ML）和人工智能（AI）等技术来提高效率和准确性。而近些年的虚假新闻检测方法大多基于深度学习的方式，且大多聚焦于丰富多样的特征表示或引入额外提示信息以提升虚假新闻识别的性能。但虚假新闻的信息表示大多富有极强的隐蔽性、结构性和多样性，这给虚假新闻识别带来特征信息难以精准提取、额外信息难以被完整提取、复杂语境下特征提取难度较大等难点。

针对虚假新闻检测领域，现有的一些深度学习方法依旧是存在虚假新闻信息特征提取有限，导致检测性能不佳，且从其本身蕴含的虚假新闻信息角度挖掘词语或者句子深层语义的工作也较少，能同时考虑多模态信息和额外信息带来影响的工作更是几乎没有。

对于新闻的特征常常不会是单一的，因此虚假新闻检测就分为了单模态和多模态，但现有的基于深度学习的虚假新闻检测方法大多数是把新闻的多模态特征进行简单的浅层融合，无法充分解决深层次挖掘各种新闻信息和用户语义信息的问题。

此外，情感分析作为文本分析中确定文本表达情感极性和强度的部分，并且在特定领域文本中是最具有应用价值的内容，所以该方法常被用于虚假新闻检测任务中，但是如何对提取的情感特征有效的融入进多模态的虚假新闻检测模型中从而提升检测的性能也是一大难点。

发明内容

针对现有技术的不足，本发明提供了一种融合情感的共同注意网络多模态虚假新闻检测方法，其目的在于从全新视角将一篇新闻中的新闻内容、用户评论和图像信息进行由浅到深的特征提取，避免了特征提取不全、不够深的问题，实现把新闻的多模态特征信息进行深层次的挖掘。

为实现上述目的，本发明提供如下技术方案：一种融合情感的共同注意网络多模态虚假新闻检测方法，包括如下步骤：

步骤S1：构建多模态新闻数据集；

步骤S2：对多模态新闻数据集任务形式化；

步骤S3：构建虚假新闻检测模型，虚假新闻检测模型由特征提取层、语义多模态感知融合层、情感认知融合层和预测分类层组成；

特征提取层由情感特征提取器、文本特征提取器和图像特征提取器组成，且情感特征提取器、文本特征提取器和图像特征提取器呈并行结构；语义多模态感知融合层、情感认知融合层和预测分类层依次呈串行结构；

文本特征提取器由预训练好的BERT模型构成、图像特征提取器由预训练好的VGG-19模型构成，情感特征提取器由预训练好的Dul-Emotion模型构成；

语义多模态感知融合层由图像特征编码器、文本特征编码器、情感特征编码器、串联拼接器和两个共同注意融合网络组成；两个共同注意融合网络分别为多模态共同注意融合网络和单模态共同注意融合网络；

情感认知融合层由情感新闻内容融合器、情感多模态融合器、情感用户评论融合器和自注意力机制组成；

预测分类层由多层感知机和分类函数Sigmoid组成；

步骤S4：将任务形式化后的多模态新闻数据集输入虚假新闻检测模型，得到语义情感多模态新闻特征；

步骤S5：将得到的语义情感多模态新闻特征输入虚假新闻检测模型的预测分类层中分类预测新闻的真实性。

进一步的，所述步骤S2中对多模态新闻数据集任务形式化的具体过程为：给定一个包含N条多模态信息S的多模态新闻数据集，多模态新闻数据集中每条多模态信息S都包含新闻内容T、用户评论C和新闻图像I三种信息/>；其中，新闻内容/>，用户评论/>，新闻图像/>，/>表示新闻内容T内的第Z个字令牌、/>表示用户评论C内的第U个字令牌、/>表示新闻图像I内的第G张图片，用/>表示二分类（0,1）的标签，其中，/>表示真新闻，/>表示假新闻。

进一步的，所述步骤S4的具体过程为：将新闻内容T、用户评论C输入到文本特征提取器中，获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>，将新闻图像I输入到图像特征提取器中，获取新闻图像中的浅层次新闻图像特征向量/>；将获取的浅层次新闻内容特征向量/>、浅层次用户评论特征向量/>和浅层次新闻图像特征向量/>输入至语义多模态感知融合层中，通过语义多模态感知融合层内的文本特征编码器来增强浅层次新闻内容特征向量/>和浅层次用户评论特征向量/>的语义表示，得到深层次新闻内容特征表示/>和深层次用户评论特征表示/>，通过语义多模态感知融合层内的图像特征编码器来增强浅层次新闻图像特征向量/>的图像表示，得到深层次新闻图像特征表示/>；

将新闻内容T和用户评论C输入虚假新闻检测模型内特征提取层中的情感特征提取器中分别获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>，再将得到的新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>输入至虚假新闻检测模型内的语义多模态感知融合层中，使用情感特征编码器来增强新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>，得到新闻内容的深层次情感特征表示/>和用户评论的深层次情感特征表示/>，将新闻内容的深层次情感特征表示和用户评论的深层次情感特征表示/>串联，得到新闻情感特征表示/>。

进一步的，将深层次新闻内容特征表示与深层次新闻图像特征表示/>、深层次用户评论特征表示/>与深层次图像特征表示/>输入到多模态共同注意融合网络中，分别得到新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>；将深层次新闻内容特征表示/>与深层次用户评论特征表示/>输入到单模态共同注意融合网络中，得到新闻内容和用户评论的语义单模态特征/>，将新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>以及新闻内容和用户评论的语义单模态特征/>串联拼接，形成语义多模态新闻特征/>；将得到的新闻情感特征表示/>、深层次新闻内容特征表示/>、深层次用户评论特征表示/>以及语义多模态新闻特征/>进行融合，分别得到情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>，将情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>分别经过情感认知融合层内的自注意力机制，得到情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>，将情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征拼接串联，得到语义情感多模态新闻特征/>。

进一步的，获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>的具体过程为：将新闻内容T内的第Z个字令牌输入至预训练好的BERT模型中，获取浅层次新闻内容特征向量/>，其计算过程如下式所示：

（1）；

式中，为预训练好的BERT模型的输入，表示新闻内容T内的第Z个字令牌；/>为预训练好的BERT模型的输出，表示新闻内容T内的第Z个字令牌经过预训练好的BERT模型得到的对应浅层次新闻内容特征向量；同理，将用户评论C内的第U个字令牌输入到预训练好的BERT模型中进行处理，得到浅层次用户评论特征向量/>；

获取新闻图像中的浅层次新闻图像特征向量的具体过程为：将新闻图像I内的第G张图片输入至预训练好的VGG-19模型中，获取新闻图像中的浅层次新闻图像特征向量，其计算过程如下式所示：

（2）；

式中，为预训练好的VGG-19模型的输入，表示新闻图像I内的第G张图片；/>为预训练好的VGG-19模型的输出，表示新闻图像I内的第G张图片经过预训练好的VGG-19模型得到的对应浅层次新闻图像特征向量；

获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>的具体过程为：将新闻内容T内的第Z个字令牌输入至预训练好的Dul-Emotion模型中，获取浅层次新闻内容情感特征/>，其计算过程如下式所示：

（3）；

式中，为预训练好的Dul-Emotion模型的输入，表示新闻内容T内的第Z个字令牌；/>为预训练好的Dul-Emotion模型的输出，表示新闻内容T内的第Z个字令牌经过预训练好的Dul-Emotion模型得到的对应浅层次新闻内容情感特征/>；同理，将用户评论C内的第U个字令牌输入到预训练好的Dul-Emotion模型中进行处理，得到浅层次用户评论情感特征。

进一步的，所述图像特征编码器采用卷积神经网络CNN来提取新闻图像的特征，将浅层次新闻图像特征向量输入到卷积神经网络CNN内，如下式所示：

（4）；

式中，为图像特征编码器的输入；CNN表示卷积神经网络模型简称；/>为图像特征编码器的输出，表示深层次新闻图像特征向量；

所述文本特征编码器利用双向的BiGRU模型分别获取新闻内容和用户评论中深层次特征向量表示，将浅层次新闻内容特征向量输入到双向的BiGRU模型中，如下式所示：

（5）;

式中，为双向的BiGRU模型的输入，表示浅层次新闻内容特征向量；/>作为输出表示/>的隐藏特征表示；采用基本注意力机制计算注意力权重，如下式所示：

（6）;

（7）;

（8）；

式中，为新闻内容通过基本注意力机制所得注意力权重分布；/>是通过隐藏特征表示/>来计算注意力权重获得；/>和/>是可训练的参数；tanh表示激活函数；/>表示衡量/>对新闻内容的重要性；/>表示为可学习的参数；/>表示为权重矩阵；所得/>注意力权重分布再次经过双向的BiGRU模型来获取深层次新闻内容特征表示，如下式所示：

（9）；

式中，为浅层次新闻内容特征向量最终通过文本特征编码器所得的深层次新闻内容特征表示；将浅层次用户评论特征向量/>也通过文本特征编码器，得到深层次用户评论特征表示/>。

进一步的，情感特征编码器采用由多头自注意力网络和前馈神经网络组成的标准Transformer Encoder编码层获取深层次的情感特征表示，如下式所示：

（10）；

式中，为Transformer Encoder编码层的输入，表示为浅层次新闻内容情感嵌入特征向量；/>为位置编码；/>为最终输出得到深层次新闻内容情感特征；同理，将浅层次用户评论情感特征向量/>通过情感特征编码器，得到深层次用户评论情感特征表示/>。

进一步的，得到新闻内容与新闻图像的语义多模态特征、用户评论与新闻图像的语义多模态特征/>的具体过程为：将深层次新闻图像特征表示/>和深层次新闻内容特征表示/>输入到多模态共同注意融合网络中捕捉不同模态之间的相互依赖关系，如下式所示：

（11）；

（12）；

（13）;

（14）；

（15）；

式中，Norm表示归一化操作；FNN表示前馈神经网络； Softmax为归一化指数函数；d为维度大小；为以深层次新闻图像特征表示/>为中心与深层次新闻内容特征表示/>结合的融合特征；/>为以深层次新闻内容特征表示/>为中心与深层次新闻图像特征表示/>结合的融合特征；/>为以融合特征/>为中心多模态表示；/>为以融合特征/>为中心的多模态表示；concat表示串联拼接特征向量；/>为新闻内容和新闻图像的融合语义多模态特征；/>为深层次用户评论特征表示/>和深层次新闻图像特征表示/>的融合语义多模态特征；

得到新闻内容和用户评论的语义单模态特征具体过程为：将深层次新闻内容特征表示/>和深层次用户评论特征表示/>输入到单模态共同注意融合网络中捕捉语义之间的相互依赖关系，如下式所示：

（16）；

（17）;

（18）;

（19）；

（20）;

（21）；

（22）;

（23）;

式中，F表示一个关系矩阵来捕获新闻内容和用户评论之间的关系；是一个可学习参数；/>和/>表示新闻内容和用户评论的交互映射；/>和/>是可学习的参数；tanh为激活函数；/>关系矩阵的转置形式；/>和/>表示新闻内容和用户评论中每个句子的注意力权重；/>和/>是可学习的参数；/>和/>表示新生成的新闻内容和用户评论特征向量；/>为深层次新闻内容特征表示的转置向量；/>为深层次用户评论特征表示的转置向量；/>表示把新生成的新闻内容和用户评论进行拼接融合后的语义单模态特征；

形成语义多模态新闻特征的具体过程为：将新闻内容和图像融合的语义多模态特征/>、用户评论和图像融合的语义多模态特征/>和新闻内容和用户评论融合的语义单模态特征/>输入到串联拼接层中进行拼接融合，如下式所示：

（24）;

式中，表示整合/>、/>和/>三种模态特征后的语义多模态新闻特征。

进一步的，得到新闻情感特征表示的具体过程为：将深层次新闻内容特征表示和深层次用户评论特征表示/>输入到串联拼接层中进行拼接融合，如下式所示：

（25）；

式中，表示深层次新闻内容情感特征表示/>和深层次用户评论情感特征表示融合的新闻情感特征表示；

得到情感内容语义特征、情感评论语义特征/>和情感多模态语义特征/>的具体过程为：采用情感多模态融合器将语义多模态新闻特征/>与新闻情感特征表示/>进行融合，获得蕴含两者信息融合的情感多模态语义特征/>，计算过程如下式所示：

（26）；

（27）;

式中，、/>、/>分别表示查询向量、键向量和值向量；/>为/>和/>的第二维度大小；/>为查询向量与键向量转置的乘积；/>、/>、/>分别表示自注意力机制时的查询向量/>、键向量/>和值向量/>的投影参数矩阵；令/>、/>，其中/>为线性层学习的参数矩阵；同理，将深层次新闻内容特征表示/>与深层次情感信息特征表示/>进行融合得到情感内容语义特征/>和深层次用户评论特征/>与深层次情感信息特征/>进行融合得到情感评论语义特征/>；

得到情感内容新闻特征、情感评论新闻特征/>和情感多模态新闻特征/>的具体过程为：采用情感认知融合层内的自注意力机制处理情感多模态语义特征向量/>，去除噪声，得到情感多模态新闻特征/>，计算过程如下式所示：

（28）；

（29）；

式中，表示注意力权重结果；LN表示层归一化，MH-Att表示多头注意力；同理可得情感内容新闻特征/>和情感评论新闻特征/>；

得到语义情感多模态新闻特征的具体过程为：将情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>输入到串联拼接层中进行拼接融合，获得蕴含、/>和/>三者信息的语义情感多模态新闻特征/>，如下式所示：

（30）。

进一步的，步骤S5的具体过程为：采用多层感知机MLP对语义情感多模态新闻特征进行非线性变换和线性组合，得到预测结果，计算过程如下式所示：

（31）；

式中，MLP为多层感知机，为预测的结果；

通过分类函数Sigmoid，将预测结果作为输入数据映射到0和1之间来计算对真假标签的分类概率，计算过程如下式所示：

（32）;

式中，为虚假新闻检测模型预测真假标签的分类概率；

根据计算的真假新闻标签的分类概率，采用交叉熵损失函数对虚假新闻检测模型进行参数更新和优化，如下式所示：

（33）；

式中，为虚假新闻检测模型中的所有参数，/>为虚假新闻检测模型预测标签概率，为真实标签概率；/>为损失函数表示。

与现有的技术相比，本发明具备以下有益效果：

（1）本发明从新的视角，通过构建由浅到深的特征编码器，将浅层特征提取关注信息的局部区域逐渐从局部特征过渡到更高层次的全局特征，将新闻的主要特征信息（文本、图像和情感）进行特征编码，从而提高虚假新闻检测的准确率。

（2）本发明利用额外特征情感特征的方式，解决了虚假新闻检测中因补充特征不足而导致模型检测效果不佳的问题。

（3）本发明针对虚假新闻表示的强隐蔽性、结构性和多样性，引入语义多模态感知层，与情感认知融合层进行联合训练，在为多模态特征融入情感特征信息的同时缓解情感特征信息自身特征不足的问题，在提高语义特征、多模态特征和情感特征融合程度的同时提升了虚假新闻检测的准确性。

附图说明

图1为本发明的虚假新闻检测模型框架图。

图2为本发明的虚假新闻检测模型流程图。

具体实施方式

如图1-图2所示，本发明提供技术方案：一种融合情感的共同注意网络多模态虚假新闻检测方法，包括如下步骤：

步骤S1：构建多模态新闻数据集，多模态新闻数据集包括推特（Twitter）数据集和微博（Weibo）数据集；其具体过程为：

运用爬虫技术，爬取推特（Twitter）内近乎30000条真假标签类型的英文多模态新闻，得到推特（Twitter）数据集；运用爬虫技术，爬取微博（Weibo）内20000条真假标签类型的中文多模态新闻，得到微博（Weibo）数据集；推特（Twitter）数据集和微博（Weibo）数据集内均包含新闻内容、新闻图像和用户评论，将新闻内容、新闻图像和用户评论合称为多模态信息；

推特（Twitter）数据集和微博（Weibo）数据集内的数据均来源于教育、健康、灾难、金融、政治、娱乐、社会等其它日常生活相关领域；推特（Twitter）数据集为英文；微博（Weibo）数据集为中文；

因爬取到的绝大部分新闻都包含各种噪声信息，所以需对推特（Twitter）数据集和微博（Weibo）数据集内的新闻内容、新闻图像和用户评论进行数据清洗和筛选：

（1）去除推特（Twitter）数据集和微博（Weibo）数据集中信息不全以及重复的句子；

（2）根据情感词典筛选出推特（Twitter）数据集和微博（Weibo）数据集中具有情感信息的多模态新闻，以保证新闻有情感表征；

（3）对推特（Twitter）数据集和微博（Weibo）数据集进行统一格式的规范化处理，以保证数据的可用性；

最后，经过人工检查和校正后，保留了推特（Twitter）数据集中15201条真假标签新闻数据和微博（Weibo）数据集中9592条真假标签新闻数据，并按照[训练集：验证集：测试集]=[6：2：2]的比例对推特（Twitter）数据集和微博（Weibo）数据集进行划分，得到多模态新闻数据集。

步骤S2：对多模态新闻数据集任务形式化，给定一个包含N条多模态信息S的多模态新闻数据集，多模态新闻数据集中每条多模态信息S都包含新闻内容T、用户评论C和新闻图像I三种信息/>；

其中，新闻内容，用户评论/>，新闻图像，/>表示新闻内容T内的第Z个字令牌、/>表示用户评论C内的第U个字令牌、/>表示新闻图像I内的第G张图片；字令牌的主要作用是将文本中的词语转换为固定长度的向量，以便于后续的计算机处理和分析，用/>表示二分类（0,1）的标签，其中，表示真新闻，/>表示假新闻。

特征提取层由情感特征提取器、文本特征提取器和图像特征提取器组成，且情感特征提取器、文本特征提取器和图像特征提取器呈并行结构；语义多模态感知融合层、情感认知融合层和预测分类层依次呈串行结构；其中，情感特征提取器、文本特征提取器和图像特征提取器在提取信息的过程中也存在数据的交互；

语义多模态感知融合层由图像特征编码器、文本特征编码器、情感特征编码器、串联拼接器和两个共同注意融合网络（Co-Attention）组成；两个共同注意融合网络（Co-Attention）分别为多模态共同注意融合网络和单模态共同注意融合网络；

情感认知融合层由情感新闻内容融合器、情感多模态融合器、情感用户评论融合器和自注意力机制（Self-Attention）组成；

预测分类层由多层感知机（MLP）和分类函数Sigmoid组成；

其中，步骤S4的具体过程为：将新闻内容T、用户评论C输入到虚假新闻检测模型内特征提取层中的文本特征提取器中，获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>，将新闻图像I输入到虚假新闻检测模型内特征提取层中的图像特征提取器中，获取新闻图像中的浅层次新闻图像特征向量/>；将获取的浅层次新闻内容特征向量/>、浅层次用户评论特征向量/>和浅层次新闻图像特征向量/>输入至虚假新闻检测模型内的语义多模态感知融合层中，通过语义多模态感知融合层内的文本特征编码器增强浅层次新闻内容特征向量/>、浅层次用户评论特征向量/>的语义表示，得到深层次新闻内容特征表示/>和深层次用户评论特征表示/>，通过语义多模态感知融合层内的文本特征编码器增强浅层次新闻图像特征向量/>的图像表示，得到深层次新闻图像特征表示/>；在语义多模态感知融合层融合过程中，会融合新闻内容和新闻图像的特征表示结果信息，进而强化语义多模态感知融合层内共同注意融合网络（Co-Attention）对深层次新闻内容特征表示/>、深层次用户评论特征表示/>和深层次新闻图像特征表示/>的融合，为后续与情感信息特征融合减少语义偏差以及增强额外特征信息。

将新闻内容T和用户评论C输入虚假新闻检测模型内特征提取层中的情感特征提取器中分别获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>，再将得到的新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>输入至虚假新闻检测模型内的语义多模态感知融合层中，使用情感特征编码器增强新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>，得到新闻内容的深层次情感特征表示/>和用户评论的深层次情感特征表示/>，将新闻内容的深层次情感特征表示和用户评论的深层次情感特征表示/>串联，得到新闻情感特征表示/>；便于后续输入到下一阶段的情感认知融合层与其它特征进行互相语义融合；

考虑到多模态共同注意融合网络和单模态共同注意融合网络是协同工作与信息交流，因此将深层次新闻内容特征表示与深层次新闻图像特征表示/>、深层次用户评论特征表示/>与深层次图像特征表示/>输入到多模态共同注意融合网络中，分别得到新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>；将深层次新闻内容特征表示/>与深层次用户评论特征表示/>输入到单模态共同注意融合网络中，得到新闻内容和用户评论的语义单模态特征/>，将新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>以及新闻内容和用户评论的语义单模态特征/>串联拼接，形成语义多模态新闻特征/>；/>

为了捕获情感与其它各种语义多模态新闻之间的相关性，将得到的新闻情感特征表示、深层次新闻内容特征表示/>、深层次用户评论特征表示/>以及语义多模态新闻特征/>进行融合，分别得到情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>，将情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>分别经过情感认知融合层内的自注意力机制，得到情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>，将情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>拼接串联，得到语义情感多模态新闻特征/>。

其中，获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>的具体过程为：将新闻内容T内的第Z个字令牌输入至预训练好的BERT模型中，获取浅层次新闻内容特征向量/>；预训练好的BERT模型是一种基于Transformer架构的深度双向编码器，采用双向编码方式，即同时利用上下文的信息来预测当前位置的词汇，能够更准确地捕捉词汇的含义和语义，因此将新闻内容T内的第Z个字令牌输入至预训练好的BERT模型中，以获取相应的浅层次新闻内容特征向量/>，其计算过程如下式所示：

（1）；

获取新闻图像中的浅层次新闻图像特征向量的具体过程为：将新闻图像I内的第G张图片输入至预训练好的VGG-19模型中，获取新闻图像中的浅层次新闻图像特征向量；预训练好的VGG-19模型是一种基于深度卷积神经网络模型CNN的图像编码器，通过增加网络深度来提高图像识别的性能；预训练好的VGG-19模型采用了19层的卷积神经网络设计，包含三个卷积层组，每个卷积层组都包含3个卷积层，采用3×3的小滤波器，并使用步长为1的滑动窗口进行卷积，使用最大池化（max-pooling）以降低特征图的维度，池化层采用2×2的窗口大小，采用ReLU作为激活函数，有助于提高预训练好的VGG-19模型的训练速度和性能；将新闻图像I内的第G张图片输入至预训练好的VGG-19模型中，以获取新闻图像中的浅层次新闻图像特征向量/>，其计算过程如下式所示：

（2）；

式中，为预训练好的VGG-19模型的输入，表示新闻图像I内的第G张图片；/>为预训练好的VGG-19模型的输出，表示新闻图像I内的第G张图片经过预训练好的VGG-19模型得到的对应浅层次新闻图像特征向量；/>

获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>的具体过程为：将新闻内容T内的第Z个字令牌输入至预训练好的Dul-Emotion模型中，获取浅层次新闻内容情感特征/>；预训练好的Dul-Emotion模型是一种基于深度学习技术来训练的模型，通过使用掩码语言模型（Masked Language Model，MLM）和下一句预测（NextSentence Prediction，NSP）两种预训练任务，以便在大量无情感标注文本数据上进行训练；将新闻内容T内的第Z个字令牌输入至预训练好的Dul-Emotion模型中，以获取浅层次新闻内容情感特征/>，其计算过程如下式所示：

（3）；

其中，图像深层次信息构建层（图像特征编码器）：图像信息通常与其他模态信息（如文本、语音等）结合使用，以提供更加丰富、全面的理解和表达，同时图像信息可以提供视觉上的语境，有助于更准确地理解文本或语音的含义，而卷积神经网络（ConvolutionalNeural Network，CNN）是一类专门设计用于处理网格状数据（如图像和视频）的深度学习模型，因此为了捕获新闻图像内容中隐忍关注的语义，图像深层次信息构建层（图像特征编码器）采用卷积神经网络（CNN）来提取新闻图像的特征，即将获取的浅层次新闻图像特征向量输入到卷积神经网络（CNN）中，如下式所示：

（4）；

文本深层次信息构建层（文本特征编码器）：文本信息是新闻传播的主要形式，通过报纸、杂志、网络等媒体，文本信息可以将新闻事件、观点和评论传递给广大读者，文本是由一个个词和句子组成，在句子中，一个词的含义可以依赖于其周围的词语，因此上下文信息可以帮助我们理解词语的真实含义，通过使用上下文信息，可以解决歧义性问题，理解上下文相关的意图等，因此为了更好地捕获新闻内容和用户评论的语义特征和长距离依赖信息，文本深层次信息构建层（文本特征编码器）利用双向的BiGRU模型来分别获取新闻内容和用户评论中深层次特征向量表示，即将浅层次新闻内容特征向量输入到双向的BiGRU模型中，如下式所示：

（5）；/>

式中，为双向的BiGRU模型的输入，表示浅层次新闻内容特征向量；/>作为输出表示/>的隐藏特征表示；

为了更好的捕捉关键信息，帮助BiGRU模型关注到新闻内容和用户评论中重要的词汇和短语，提高预测准确性，采用基本注意力机制（Attention）进行计算注意力权重从而提高BiGRU模型分类的准确性，如下式所示：

（6）；

（7）；

（8）；

式中，为新闻内容通过基本注意力机制所得注意力权重分布；/>是通过隐藏特征表示/>来计算注意力权重获得；/>和/>是可训练的参数；/>表示衡量/>对新闻内容的重要性；/>表示为可学习的参数；/>表示为权重矩阵；所得/>注意力权重分布再次经过双向的BiGRU模型来获取深层次新闻内容特征表示，如下式所示：

（9）；

式中，为浅层次新闻内容特征向量最终通过文本特征编码器所得的深层次新闻内容特征表示；将浅层次用户评论特征向量/>也通过文本特征编码器，得到深层次用户评论特征表示/>；

情感深层次信息构建层（情感特征编码器）：情感信息在虚假新闻检测中起着重要作用，因为虚假新闻往往通过夸大、渲染或歪曲事实来误导受众，情感因素是这种误导手段的重要组成部分，通过情感特征提取器获得了浅层次新闻内容情感嵌入特征向量和浅层次用户评论情感嵌入特征向量/>，为了更好地捕捉文本中的深层次情感特征表示，同时为了捕获情感特征词句之间的模内交互，情感深层次信息构建层（情感特征编码器）采用了一个由多头自注意力网络和前馈神经网络组成的标准Transformer Encoder编码层来学习获取深层次的情感特征表示，如下式所示：

（10）；

式中，为Transformer Encoder编码层的输入，表示为浅层次新闻内容情感嵌入特征向量；/>为位置编码；/>为最终输出得到深层次新闻内容情感特征；同理，将浅层次用户评论情感特征向量/>通过情感特征编码器，得到深层次用户评论情感特征表示/>；

多模态共同注意融合网络：为了更好的处理融合各种多样式信息，构建了多模态共同注意融合网络来学习多模态信息之间的相关性，将深层次新闻图像特征表示和深层次新闻内容特征表示/>输入到多模态共同注意融合网络中捕捉不同模态之间的相互依赖关系，如下式所示：

（11）；

（12）；

（13）；

（14）；

（15）；

式中，Norm表示归一化操作；FNN表示前馈神经网络； Softmax为归一化指数函数；d为维度大小；为以深层次新闻图像特征表示/>为中心与深层次新闻内容特征表示/>结合的融合特征；/>为以深层次新闻内容特征表示/>为中心与深层次新闻图像特征表示/>结合的融合特征；/>为以融合特征/>为中心多模态表示；/>为以融合特征/>为中心的多模态表示；concat表示串联拼接特征向量；/>为新闻内容和新闻图像的融合语义多模态特征；/>为深层次用户评论特征表示/>和深层次新闻图像特征表示/>的融合语义多模态特征。

单模态共同注意融合网络：单模态信息主要是指在某一特定领域或情境中，具有相同或相似性质的数据或信息；因新闻中存在有单模态信息（如新闻内容和用户评论），而单模态信息又在虚假新闻检测任务中发挥着重要作用；因此构建了单模态共同注意融合网络来学习单模态信息之间的相关性，具体地，将深层次新闻内容特征表示和深层次用户评论特征表示/>输入到单模态共同注意融合网络中捕捉语义之间的相互依赖关系，如下式所示：

（16）；

（17）；

（18）；

（19）；

（20）；

（21）；

（22）；

（23）；

式中，F表示一个关系矩阵来捕获新闻内容和用户评论之间的关系；是一个可学习参数；/>和/>表示新闻内容和用户评论的交互映射；/>和/>是可学习的参数；tanh为激活函数；/>关系矩阵的转置形式；/>和/>表示新闻内容和用户评论中每个句子的注意力权重；/>和/>是可学习的参数；/>和/>表示新生成的新闻内容和用户评论特征向量；/>为深层次新闻内容特征表示的转置向量；/>为深层次用户评论特征表示的转置向量；/>表示把新生成的新闻内容和用户评论进行拼接融合后的语义单模态特征。

（24）；

式中，表示整合/>、/>和/>三种模态特征后的语义多模态新闻特征；

新闻内容情感信息指的是新闻文本中表达的情感倾向，即新闻作者或编辑在撰写新闻时所传递的情感色彩，用户评论情感信息则是指受众在阅读新闻后所表达的情感观点和感受，这两者相互关联，新闻内容情感信息影响用户评论情感信息、用户评论情感信息反作用于新闻内容情感信息和用户评论情感信息影响其他用户的情感认知，因此融合这两者的相互关系有助于更好地检测新闻的真实性，具体地，将深层次新闻内容特征表示和深层次用户评论特征表示/>输入到串联拼接层中进行拼接融合，如下式所示：

（25）；

情感多模态融合器：为了实现进一步在学习过程中自动整合不同模态的信息、增强模态间的交互以及更好地捕捉与任务相关的关键信息，通过情感认知融合层中情感多模态融合器（注意力机制（Attention））将语义多模态新闻特征与新闻情感特征表示/>进行融合，获得蕴含两者信息融合的情感多模态语义特征/>，计算过程如下式所示：

（26）；

（27）；

式中，、/>、/>分别表示查询向量、键向量和值向量；/>为/>和/>的第二维度大小；/>为查询向量与键向量转置的乘积；/>、/>、/>分别表示自注意力机制时的查询向量/>、键向量/>和值向量/>的投影参数矩阵；令/>、/>，其中/>为线性层学习的参数矩阵；同理，将深层次新闻内容特征表示/>与深层次情感信息特征表示/>进行融合得到情感内容语义特征/>和深层次用户评论特征/>与深层次情感信息特征/>进行融合得到情感评论语义特征/>；/>

为了让虚假新闻检测模型能够自动学习输入序列中的关联信息，从而更好地捕捉上下文关系和理解语义，提高虚假新闻检测模型的表示能力和泛化性能，而自注意力机制（Self-Attention）是一种特殊的注意力形式，它只关注输入序列中的自身信息，不需要与其他序列进行交互，通过计算序列中每个元素与其他元素之间的相似度，自注意力机制可以为每个元素分配一个权重，从而突出重要信息，因此采用自注意力机制进一步处理情感多模态语义特征向量，去除噪声，最终得到情感多模态新闻特征/>，计算过程如下式所示：

（28）；

（29）；

式中，表示注意力权重结果；LN表示层归一化，MH-Att表示多头注意力；同理可得情感内容新闻特征/>和情感评论新闻特征/>。

（30）；

其中，步骤S5的具体过程为：为了实现进一步提取特征、捕捉多尺度信息以提升检测虚假新闻的准确率，采用多层感知机（MLP）对语义情感多模态新闻特征进行非线性变换和线性组合，最后得到预测结果，计算过程如下式所示：

（31）；

式中，MLP为多层感知机，为预测的结果；

（32）；

式中，为虚假新闻检测模型预测真假新闻标签分类概率，其结果在0~1之间；

（33）；

虚假新闻检测模型利用任务形式化的多模态新闻数据集以监督学习的方式进行虚假新闻检测，所有参数都是可学习的，可以通过反向传播最小化交叉熵损失函数来学习，训练200个epoch，学习率为0.001，采用Adam优化器对虚假新闻检测模型所有参数进行优化，并在所有训练结束后保存最优的虚假新闻检测模型参数，最后在测试集上进行新闻预测和评价，使用准确性/>作为虚假新闻检测任务的评估指标；考虑标签分布不平衡的影响，还增加了虚假新闻检测模型对新闻检测的精确率/>、召回率/>、评价指标/>和/>面积。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于，包括如下步骤：

步骤S1：构建多模态新闻数据集；

步骤S2：对多模态新闻数据集任务形式化；

预测分类层由多层感知机和分类函数Sigmoid组成；

2.根据权利要求1所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：所述步骤S2中对多模态新闻数据集任务形式化的具体过程为：给定一个包含N条多模态信息S的多模态新闻数据集，多模态新闻数据集中每条多模态信息S都包含新闻内容T、用户评论C和新闻图像I三种信息/>；其中，新闻内容，用户评论/>，新闻图像/>，/>表示新闻内容T内的第Z个字令牌、/>表示用户评论C内的第U个字令牌、/>表示新闻图像I内的第G张图片，用/>表示二分类（0,1）的标签，其中，/>表示真新闻，/>表示假新闻。

3.根据权利要求2所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：所述步骤S4的具体过程为：将新闻内容T、用户评论C输入到文本特征提取器中，获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>，将新闻图像I输入到图像特征提取器中，获取新闻图像中的浅层次新闻图像特征向量/>；将获取的浅层次新闻内容特征向量/>、浅层次用户评论特征向量/>和浅层次新闻图像特征向量/>输入至语义多模态感知融合层中，通过语义多模态感知融合层内的文本特征编码器来增强浅层次新闻内容特征向量/>和浅层次用户评论特征向量/>的语义表示，得到深层次新闻内容特征表示/>和深层次用户评论特征表示/>，通过语义多模态感知融合层内的图像特征编码器来增强浅层次新闻图像特征向量/>的图像表示，得到深层次新闻图像特征表示；

将新闻内容T和用户评论C输入虚假新闻检测模型内特征提取层中的情感特征提取器中分别获取新闻内容的浅层次情感特征向量和用户评论的浅层次情感特征向量/>，再将得到的新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>输入至虚假新闻检测模型内的语义多模态感知融合层中，使用情感特征编码器来增强新闻内容的浅层次情感特征向量/>和用户评论的浅层次情感特征向量/>，得到新闻内容的深层次情感特征表示/>和用户评论的深层次情感特征表示/>，将新闻内容的深层次情感特征表示/>和用户评论的深层次情感特征表示/>串联，得到新闻情感特征表示/>。

4.根据权利要求3所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：将深层次新闻内容特征表示与深层次新闻图像特征表示/>、深层次用户评论特征表示/>与深层次图像特征表示/>输入到多模态共同注意融合网络中，分别得到新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>；将深层次新闻内容特征表示/>与深层次用户评论特征表示/>输入到单模态共同注意融合网络中，得到新闻内容和用户评论的语义单模态特征/>，将新闻内容与新闻图像的语义多模态特征/>、用户评论与新闻图像的语义多模态特征/>以及新闻内容和用户评论的语义单模态特征/>串联拼接，形成语义多模态新闻特征/>；将得到的新闻情感特征表示/>、深层次新闻内容特征表示/>、深层次用户评论特征表示/>以及语义多模态新闻特征/>进行融合，分别得到情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>，将情感内容语义特征/>、情感评论语义特征/>和情感多模态语义特征/>分别经过情感认知融合层内的自注意力机制，得到情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>，将情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>拼接串联，得到语义情感多模态新闻特征/>。

5.根据权利要求4所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：获取新闻内容中的浅层次新闻内容特征向量和用户评论中的浅层次用户评论特征向量/>的具体过程为：将新闻内容T内的第Z个字令牌输入至预训练好的BERT模型中，获取浅层次新闻内容特征向量/>，其计算过程如下式所示：

（1）；

获取新闻图像中的浅层次新闻图像特征向量的具体过程为：将新闻图像I内的第G张图片输入至预训练好的VGG-19模型中，获取新闻图像中的浅层次新闻图像特征向量/>，其计算过程如下式所示：

（2）；

（3）；

式中，为预训练好的Dul-Emotion模型的输入，表示新闻内容T内的第Z个字令牌；/>为预训练好的Dul-Emotion模型的输出，表示新闻内容T内的第Z个字令牌经过预训练好的Dul-Emotion模型得到的对应浅层次新闻内容情感特征/>；同理，将用户评论C内的第U个字令牌输入到预训练好的Dul-Emotion模型中进行处理，得到浅层次用户评论情感特征/>。

6.根据权利要求5所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：所述图像特征编码器采用卷积神经网络CNN来提取新闻图像的特征，将浅层次新闻图像特征向量输入到卷积神经网络CNN内，如下式所示：

（4）；

（5）；

（6）；

（7）；

（8）；

（9）；

7.根据权利要求6所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：情感特征编码器采用由多头自注意力网络和前馈神经网络组成的标准Transformer Encoder编码层获取深层次的情感特征表示，如下式所示：

（10）；

8.根据权利要求7所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：得到新闻内容与新闻图像的语义多模态特征、用户评论与新闻图像的语义多模态特征/>的具体过程为：将深层次新闻图像特征表示/>和深层次新闻内容特征表示/>输入到多模态共同注意融合网络中捕捉不同模态之间的相互依赖关系，如下式所示：

（11）；

（12）；

（13）；

（14）；

（15）；

（16）；

（17）；

（18）；

（19）；

（20）；

（21）；

（22）；

（23）；

（24）；

9.根据权利要求8所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：得到新闻情感特征表示的具体过程为：将深层次新闻内容特征表示/>和深层次用户评论特征表示/>输入到串联拼接层中进行拼接融合，如下式所示：

（25）；

式中，表示深层次新闻内容情感特征表示/>和深层次用户评论情感特征表示/>融合的新闻情感特征表示；

（26）；

（27）；

（28）；

（29）；

得到语义情感多模态新闻特征的具体过程为：将情感内容新闻特征/>、情感评论新闻特征/>和情感多模态新闻特征/>输入到串联拼接层中进行拼接融合，获得蕴含/>、和/>三者信息的语义情感多模态新闻特征/>，如下式所示：

（30）。

10.根据权利要求9所述的一种融合情感的共同注意网络多模态虚假新闻检测方法，其特征在于：步骤S5的具体过程为：采用多层感知机MLP对语义情感多模态新闻特征进行非线性变换和线性组合，得到预测结果，计算过程如下式所示：

（31）；

式中，MLP为多层感知机，为预测的结果；

（32）；

式中，为虚假新闻检测模型预测真假标签的分类概率；

（33）；

式中，为虚假新闻检测模型中的所有参数，/>为虚假新闻检测模型预测标签概率，/>为真实标签概率；/>为损失函数表示。