CN116579348A

CN116579348A - 基于不确定语义融合的虚假新闻检测方法及系统

Info

Publication number: CN116579348A
Application number: CN202310339698.9A
Authority: CN
Inventors: 周薇; 卫玲蔚; 胡斗; 虎嵩林
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-12-14
Filing date: 2023-03-31
Publication date: 2023-08-11

Abstract

本发明公开一种基于不确定语义融合的虚假新闻检测方法及系统，涉及数据挖掘技术领域，通过获取社交网络中新闻的多模态数据；基于不确定性的模态编码模块从各模态数据中提取特定模态的高阶语义特征；通过变分注意融合模块建模模态间的不确定性，融合多模态特征；基于融合后的多模态特征，利用假新闻分类器得到目标新闻的类别标签。本发明能够从新闻的不同模态信息中提取更多鲁棒的高阶特征，并进一步有效整合更为可靠的多模态特征，可有效提升多模态假新闻检测的准确率。

Description

基于不确定语义融合的虚假新闻检测方法及系统

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于不确定语义融合的虚假新闻检测方法及系统。

背景技术

近年来，虚假新闻已从传统的纯文本形式演化为多模态形式呈现，与纯文本的虚假信息相比，带有视觉信息的虚假新闻更容易博人眼球，具有更快的传播速度，为网络生态带来了巨大的危害和负面影响，严重影响了社会安定和人们日常生活。因此，如何自动化检测多模态虚假新闻是社交网络分析领域中一个迫切需要的研究课题，有重要的研究意义和现实应用意义。

多模态信息为识别虚假信息提供了很多互补性的线索，多模态内容理解的两大关键是对多模态特征的提取和融合。首先，在多模态特征提取方面，大多数多模态虚假新闻检测方法借助于预训练模型获取高阶语义特征，但是多模态数据尤其是社交媒体中的多模态数据往往是低质量的、包含很多噪音，造成了图片/文本模态内的语义不确定性。传统的编码器通过点向量难以表征带有固有不确定性的噪声数据，因此，如何鲁棒地提取特定模态的表示，对更好地理解多模态内容具有决定作用。

其次，虚假新闻发布者可能对任何模态数据进行伪装，导致样本的不同模态间伪装分布存在差异，造成了模态间的不确定性。而在多模态特征融合方面，现有的注意力融合方式基于数据特征，学习一种与模态无关的权重以融合多模态特征，忽略了上述差异的影响。因此，如何合理地建模模态间的不确定性对于有效融合多模态特征至关重要。

发明内容

本发明的目的是针对以下两个主要技术问题：一是如何建模不同模态数据固有的数据不确定性，提取更鲁棒的模态特征；二是如何考虑模态伪装分布差异问题，更有效地融合多模态特征；提供一种同时建模模态内和模态间不确定性的虚假新闻检测方法及系统，以提高虚假新闻检测任务的性能。

为实现上述目的，本发明提供的技术方案如下：

一种基于不确定语义融合的虚假新闻检测方法，包括以下步骤：

1)获取社交网络中新闻的多模态数据，包括文本和/或图片；

2)针对所述多模态数据，构建基于不确定性的模态编码模块，该模态编码模块通过预训练语言模型从输入的模态数据中提取句子表示，并将句子表示映射到预定义维度，再将映射后的句子表示用潜在的高斯分布进行重构，获取模态数据的分布式语义表示；

3)针对步骤2)得到的不同模态的分布式语义表示，构建变分注意融合模块，该变分注意融合模块通过采样方式得到跨模态注意向量，再通过加权计算不同模态的特征表示并进行融合；

4)针对步骤3)得到的融合后的多模态特征表示，利用虚假新闻分类器进行处理，得到目标新闻的类别标签。

优选地，步骤1)中对文本和/或图片进行预处理，包括：对文本进行分词处理，生成token字符索引，保留最大序列长度；对图片转换为预设尺寸。

优选地，步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下：

x^t＝BERT({[CLS]，w₁，...，w_n})

其中，x^t表示句子的表达式，[CLS]表示插入句子开头的特殊字符，w_i表示输入文本序列的第i个单词，n为文本长度，BERT表示预训练语言模型。

优选地，步骤2)中基于激活函数和预训练语言模型的可训练参数，将句子表示映射到预定义维度。

优选地，步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下：

其中，p表示重构后的句子表示，z^t表示重构的分布式表示，s^t为映射后的句子表示，为高斯分布，μ^t为高斯分布的均值，σ^t为高斯分布的方差，I为单位阵。

优选地，其中/>和/>表示参数独立的多层感知机，θ₁和θ₂为对应的模型参数。

优选地，步骤2)中将映射后的句子表示用潜在的高斯分布进行重构后，采用重参数化使模型梯度能被计算，重构后的分布式表示的表达式如下：

优选地，步骤3)中跨模态注意向量的计算式如下：

其中，为模态k对应的注意向量，a^k为正则化后的模态k对应的注意向量，z^k为模态k的分布式语义表示，/>为模态k对应的均值；/>为模态k对应的方差，描述了模态k的相对置信度；k′为从集合{v，t}中取值的模态，q_θ为模态间注意权重的后验分布，t表示文本模态，v表示图片模态。

优选地，步骤3)中通过加权计算不同模态的特征表示并进行融合的计算式如下：

其中，W_h为可训练的参数。

一种基于不确定语义融合的虚假新闻检测系统，包括：

数据采集与预处理模块，用于从社交媒体平台获取新闻的多模态数据，包括文本和/或图片；

模态编码模块，用于针对多模态数据，通过预训练语言模型提取句子表示，并将句子表示映射到预定义维度，再将映射后的句子表示用潜在的高斯分布进行重构，获取多模态数据的分布式语义表示；

变分注意融合模块，用于针对不同模态下的分布式语义表示，通过采样方式得到跨模态注意向量，通过加权计算不同模态的特征表示并进行融合；

虚假新闻分类模块，用于利用虚假新闻分类器对融合的多模态特征表示进行处理，预测目标新闻的类别标签。

本发明的技术方案具有以下优点：

本发明在多模态特征提取方面，通过特征正则的方式建模特定模态内固有的不确定性，能够从带有噪声的多模态内容中鲁棒地提取更丰富的特定模态表示，有利于更好地理解特定模态语义信息；本发明在多模态特征融合方面，学习了一种与模态伪装分布相关的注意权重估计不同模态的贡献，用以有效融合多模态特征，使得模型能够从更可靠的模态中融合有效信息。本发明通过同时建模模态内和模态间不确定性，能够更有效地理解、融合多模态内容，有效提高多模态虚假新闻检测性能，在公开数据集的实验表明，对于微博和Twitter平台，本发明分别能够有效提升4.8％和10.2％检测准确率。

附图说明

图1为本发明实施例的基于不确定语义融合的虚假新闻检测方法的流程图；

图2为本发明实施例的基于不确定语义融合的虚假新闻检测系统的结构图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

图1是本发明实施例提供的一种虚假新闻检测方法的流程图，具体包括以下步骤：

步骤A：获取社交网络中新闻的多模态数据。对于多模态数据的每条样本i，其包括文本内容和图片内容。对文本和图片进行预处理，包括：对于文本内容，进行分词处理(英文一般以WordPiece为单位，中文一般以字为单位)，生成token字符索引，保留最大序列长度；对于图片内容，将图片转换为预定义大小3×224×224，以便喂入预训练编码器；

步骤B：根据步骤A的多模态数据，构建基于不确定性的模态编码模块，利用该模态编码模块对多模态数据中的每种模态的数据进行处理。以文本模态为例，输入样本的文本序列X^t，建模文本模态内固有的不确定性，获取文本模态的分布式语义表示。

具体处理步骤包括：

步骤B1：通过预训练语言模型提取句子表示其中D^t为模型输出的隐变量维度大小，具体如下：

x^t＝BERT({[CLS]，w₁，...，w_n})

其中，[CLS]表示插入句子开头的特殊字符，w_i表示输入文本序列的第i个单词，n为文本长度，BERT表示预训练语言模型。

步骤B2：将该句子表示映射到Dh维度，计算方式如下：

其中，和/>为可训练的参数，σ表示激活函数。

步骤B3：将映射后的句子表示用潜在的高斯分布进行重构，以建模模态内的不确定性。参数化的高斯分布定义如下：

其中，p表示重构后的句子表示，为高斯分布，μ^t为高斯分布的均值，σ^t为高斯分布的方差。即/>其中，/>和/>表示参数独立的多层感知机，θ₁和θ₂为对应的模型参数，I为单位阵。

在实施过程中，由于采样过程不可微，采用重参数化使得模型梯度可计算。故重构后的分布式表示z^t的计算方式如下：

步骤C：根据步骤B得到的不同模态的高阶语义特征即分布式语义表示，构建变分注意融合模块，建模模态间的不确定性，融合多模态特征；

具体处理步骤包括：

步骤C1：为建模模态间的不确定性，改进传统的注意力机制，通过采样方式得到跨模态注意向量。给定不同模态的分布式表示，跨模态注意向量的计算方式如下：

步骤C2：通过加权计算不同模态的特征表示得到融合后的多模态表示。具体如下：

其中，W_h为可训练的参数。

步骤D：根据步骤C得到的融合后的多模态特征h，利用假新闻分类器得到目标新闻的类别标签。

如图2所示，本发明实施例还提供一种虚假新闻检测系统，具体包括：

数据采集与预处理模块，用于社交媒体平台的新闻数据采集，获取新闻的多模态数据(如文本、图片等)并进行数据预处理；该预处理包括：对于文本内容，进行分词处理(英文一般以WordPiece为单位，中文一般以字为单位)，生成token字符索引，保留最大序列长度；对于图片内容，将图片转换为预定义大小3×224×224，以便喂入预训练编码器；

基于不确定性的模态编码模块，用于编码预处理后的不同模态数据，通过建模模态内固有的不确定性，即通过预训练语言模型提取句子表示，并将句子表示映射到预定义维度，再将映射后的句子表示用潜在的高斯分布进行重构，生成特定模态下的分布式语义表示；

变分注意融合模块，用于根据上述得到的特定模态下的分布式语义表示，通过采样方式得到跨模态注意向量，通过加权计算不同模态的特征表示，并融合生成新闻的多模态特征表示；

虚假新闻分类模块，用于根据上述多模态特征表示，利用虚假新闻分类器，预测该样本的类别标签。

实验测试：

使用公开的来自微博和Twitter两个知名社交网络平台的多模态虚假新闻基准数据集进行实验测试，对比了该领域经典的基于单模态的检测方法(BERT、VGG-19)和基于多模态的检测方法(SAFE、att-RNN、MVAE、EANN、BDANN)，采用准确率作为评估指标，两个数据集的实验结果如下表所示，在微博和Twitter平台的基准数据集上，本发明能够分别提升4.8％和10.2％的准确率。

表1

方法	微博	Twitter
			BERT	0.804	0.706
VGG-19	0.633	0.596
			SAFE	0.763	0.766
att-RNN	0.772	0.664
			MVAE	0.824	0.745
EANN	0.794	0.648
			BDANN	0.814	0.821
本发明方法	0.862	0.923
			提升百分比	+4.8％	+10.2％

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于不确定语义融合的虚假新闻检测方法，其特征在于，包括以下步骤：

1)获取社交网络中新闻的多模态数据，包括文本和/或图片；

2.如权利要求1所述的方法，其特征在于，步骤1)中，对文本和/或图片进行预处理，包括：对文本进行分词处理，生成token字符索引，保留最大序列长度；对图片转换为预设尺寸。

3.如权利要求1所述的方法，其特征在于，步骤2)中通过预训练语言模型从输入的模态数据中提取句子表示的表达式如下：

x^t＝BERT({[CLS],w₁,…,w_n})

4.如权利要求1所述的方法，其特征在于，步骤2)中基于激活函数和预训练语言模型的可训练参数，将句子表示映射到预定义维度。

5.如权利要求1所述的方法，其特征在于，步骤2)中将映射后的句子表示用潜在的高斯分布进行重构的表达式如下：

6.如权利要求5所述的方法，其特征在于，其中/>和/>表示参数独立的多层感知机，θ₁和θ₂为对应的模型参数。

7.如权利要求5所述的方法，其特征在于，步骤2)中将映射后的句子表示用潜在的高斯分布进行重构后，采用重参数化使模型梯度能被计算，重构后的分布式表示的表达式如下：

8.如权利要求5所述的方法，其特征在于，步骤3)中跨模态注意向量的计算式如下：

其中，为模态k对应的注意向量，a^k为正则化后的模态k对应的注意向量，z^k为模态k的分布式语义表示，/>为模态k对应的均值；/>为模态k对应的方差，描述了模态k的相对置信度；k′为从集合{v,t}中取值的模态，q_θ为模态间注意权重的后验分布，t表示文本模态，v表示图片模态。

9.如权利要求5所述的方法，其特征在于，步骤3)中通过加权计算不同模态的特征表示并进行融合的计算式如下：

其中，W_h为可训练的参数。

10.一种基于不确定语义融合的虚假新闻检测系统，其特征在于，包括：