CN113849598A

CN113849598A - 基于深度学习的社交媒体虚假信息检测方法及检测系统

Info

Publication number: CN113849598A
Application number: CN202111016642.7A
Authority: CN
Inventors: 姚涛; 李烁; 闫连山; 蒲桂东
Original assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University; Aidian Shandong Technology Co ltd; Ludong University
Current assignee: Yantai New Generation Information Technology Research Institute Of Southwest Jiaotong University; Aidian Shandong Technology Co ltd; Ludong University
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-28
Anticipated expiration: 2041-08-31
Also published as: CN113849598B

Abstract

本发明提供基于深度学习的社交媒体虚假信息检测方法及检测系统，通过采集社交媒体信息中的图像和文本数据，使用深度学习模型提取图像和文本的特征，利用分类模型检测信息的真实性。与现有的社交媒体虚假信息检测方法相比，本发明能充分提取社交媒体虚假信息中图像和文本的深层语义特征，通过卷积神经网络融合不同模态的特征，并使用域自适应网络移除不同事件特有的特征，增强虚假信息检测的鲁棒性。本发明能有效地提高社交媒体虚假信息检测的准确性。

Description

基于深度学习的社交媒体虚假信息检测方法及检测系统

技术领域

本发明属于信息技术领域，具体涉及基于深度学习的社交媒体虚假信息检测方法及检测系统。

背景技术

随着我国经济发展和人民生活水平提升，互联网迅速普及到千家万户。截至2020年12月，我国网民规模达9.89亿，手机网民规模达9.86亿，互联网普及率达70.4%。微博、博客、论坛、播客等社交媒体已经成为大众获取实时信息、分享意见、发表观点的主要工具和平台。然而，随着越来越多的人热衷于在社交媒体上参与讨论热点话题，各种虚假信息也随之出现。群众的大量参与和网络社交媒体的实时更新，在带来高速信息流的同时也加速了虚假信息的传播。由于网络社交媒体使用门槛低，虚假信息普遍传播迅速，容易给公众带来困惑和不安，虚假信息甚至造成巨大的社会和经济损失。

现有的社交媒体虚假信息检测方法大多采用统计学或浅层的机器学习方法来实现。例如使用随机森林、支持向量机、回归模型等。随着虚假信息内容的复杂性越来越高，现有方法的检测准确率很难满足需求。其次，虚假信息检测的主要难点之一是训练数据集不涵盖新出现的事件，现有方法在新出现事件上的识别效果较差。此外，现有的方法大多只能检测单一语言的社交媒体平台。

发明内容

针对现有技术中的问题，本发明提供基于深度学习的社交媒体虚假信息检测方法及检测系统，通过提取社交媒体信息中图片和文本数据的语义特征，使用神经网络融合多模态的特征，利用虚假信息检测模型检测社交媒体信息的真实性，并通过域自适应网络模型提升检测的准确性。

为实现上述目的，本发明是通过以下技术方案实现的：

本发明提供基于深度学习的社交媒体虚假信息检测方法，其特殊之处在于：通过提取网络社交媒体信息中图片和文本数据的语义特征，使用多模态融合网络的特征，利用虚假信息检测模型检测社交媒体信息的真实性，并通过域自适应网络模型提升检测的准确性，具体按照以下步骤进行检测；

步骤1）信息收集：分别采集网络社交媒体中真实信息和虚假信息的原始图像和文本数据；

步骤2）在多模态融合网络中对步骤1中的原始图像和文本数据分别形成图像特征、文本统计特征、整句语义特征，并将图像特征、文本统计特征、整句语义特征形成三维特征向量，构建多模态融合特征；

步骤2.1）使用在ImageNet图像数据集上预训练的卷积神经网络VGG19提取图像特征

，

为提取出的图像特征，

为实数矩阵，

为实数矩阵

的维度；

，

为提取出的图像特征，

为实数矩阵，

为实数矩阵

的维度；

步骤2.2）使用结巴分词模块分割文本语句，将语句按照词性分割成一组单词，然后使用在相同语种上预训练的词嵌入模型提取单词序列中的文本统计特征

,

为提取出的文本统计特征，

为实数矩阵，

为实数矩阵

的维度；

步骤2.3）使用多语言预训练的BERT模型提取文本的整句语义特征

；

为提取出的整句语义特征，

为实数矩阵，

为实数矩阵

的维度；

步骤2.4）将步骤2.1至步骤2.3中提取出的图像特征、文本统计特征、整句语义特征堆叠成三维特征向量

，

为三维特征向量，

为实数矩阵，

为实数矩阵

的维度；

步骤2.5）使用轻量化的深度卷积神经网络MoibleNet模型融合步骤2.4中的三维特征向量

，得到每条信息的多模态融合特征

，

为多模态融合特征，

为深度卷积神经网络MoibleNet模型的网络结构，

为步骤2.4中获得的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数；

步骤3）构建虚假信息检测模型，该模型由一层隐藏层组成，输入为网络社交媒体信息的多模态融合特征

，输出为该信息的真实度；

步骤4）构建域自适应网络模型，该模型由一个梯度翻转层和两层隐藏层组成，输入为网络社交媒体信息的多模态融合特征

，输出为该信息所属的事件分类；

步骤5）将步骤2.5的所有多模态融合特征

的样本随机划分为训练样本集和测试样本集，训练样本集用于训练虚假信息检测模型和域自适应网络模型的参数，测试样本集用于测试训练好的虚假信息检测模型的性能；

步骤6）利用步骤5中训练好的虚假信息检测模型对测试数据进行真实性检测。

进一步的，在步骤2.2中，在词嵌入模型中，使用在相同语种数据集上预先训练的单词嵌入提取器来生成每个单词的特征向量，每个单词的特征向量可以表示为

，

为单词的特征向量，

为实数矩阵，k为矩阵

的维度；一个具有n个单词的句子可以表示为：

，

代表一个句子的特征向量，n代表句子中单词的数量，

为实数矩阵，

为矩阵

的维度；

滑动抓取句子中h个连续单词，并使用ReLU激活函数的卷积滤波器来提取这h个单词的特征；然后得到该句文本在视野为h下的一个特征向量：

，通过更改视野大小h的值能够提取一句文本具有不同视野大小的特征向量；

使用不同大小的h，能够生成不同的过滤器和不同的特征向量，然后使用最大化池化函数，得到了最终的文本统计特征表示：

，

为提取出的文本统计特征，

为实数矩阵，

为实数矩阵

的维度。

进一步的，在步骤2.3中使用文本标识化器将文本信息分割为单词列表，然后使用多语言预训练的BERT模型来提取该文本信息的语义特征，选择BERT模型中最后一个维度为768×1的隐藏层参数作为文本的语义特征

，

为提取出的语义特征，

为实数矩阵，

为实数矩阵

的维度。

进一步的，在步骤3中，构建虚假信息检测模型时，虚假信息检测模型在训练过程中按照深度学习自身的计算机制更新网络参数；

模型的计算机制公式如下：

其中：

代表虚假信息检测模型的网络结构，

代表虚假信息检测模型的网络参数，

为深度卷积神经网络MoibleNet模型的网络结构，

为步骤2.4中获得第i个信息对应的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数；输出

代表信息的真实性概率，该概率取值的范围为0%—100%；

虚假信息检测模型识别一条信息的真实性，使用y来表示信息的真实度，并使用交叉熵函数来计算检测损失：

其中

表示虚假信息检测模型训练过程中的损失值，

表示交叉熵函数，

表示步骤2.4中获得的所有三维特征向量，

为步骤2.4中获得第i个信息对应的的三维特征向量，

为虚假信息检测模型的真实性概率计算公式。

进一步的，构建域自适应网络模型时使用

来表示信息的事件分类，并使用交叉熵函数来计算分类损失，域自适应网络模型在训练过程中按照深度学习自身的计算机制更新网络参数：

其中

表示域自适应网络模型训练过程中的损失值，

表示交叉熵函数，

表示步骤2.4中获得的所有三维特征向量，K为所有事件分类的数量，

为域自适应网络模型的网络结构，

为深度卷积神经网络MoibleNet模型的网络结构，

为步骤2.4中获得第i个信息对应的的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数，

为域自适应网络模型的网络参数；

损失

用来计算不同事件之间的差异，通过找到最优参数

来最大化

的分类损失。

进一步的，将步骤2.5的所有多模态融合特征样本随机划分为训练样本集和测试样本集，利用训练样本集训练虚假信息检测模型和域自适应网络模型的训练过程中，虚假信息检测模型需要最小化损失

来提升模型的准确率，而域自适应网络模型需要最大化损失

来获取通用的事件特征；总体损失的公式如下：

在模型训练过程中，参数的更新方式如下：

其中，

为总体损失，

表示虚假信息检测模型训练过程中的损失值，

表示域自适应网络模型训练过程中的损失值，

为深度卷积神经网络MoibleNet模型的网络参数，

代表虚假信息检测模型的网络参数，

为域自适应网络模型的网络参数，

为常量参数。

本发明还提供基于深度学习的社交媒体虚假信息检测系统，其特殊之处在于：

包括多模态融合网络、域自适应网络模型、虚假信息检测模型，其中多模态融合网络包括卷积神经网络VGG19模型、词嵌入模型、BERT模型、深度卷积神经网络MoibleNet模型，卷积神经网络VGG19模型用于提取图像特征

，词嵌入模型提取词组序列中的文本统计特征

，BERT模型提取文本的整句语义特征

，深度卷积神经网络MoibleNet模型用于融合图像特征、文本统计特征、整句语义特征堆叠成三维特征向量，形成多模态融合特征；

域自适应网络模型接收网络社交媒体信息的多模态融合特征

，输出为网络社交媒体信息的多模态融合特征

，输出为该信息所属的事件分类；

虚假信息检测模型接收网络社交媒体信息的多模态融合特征

，输出网络社交媒体信息的真实度。

进一步的，在该系统的词嵌入模型中，使用在相同语种数据集上预先训练的单词嵌入提取器来生成每个单词的特征向量，每个单词的特征向量可以表示为

，

为单词的特征向量，

为实数矩阵，k为矩阵

的维度；一个具有n个单词的句子可以表示为：

，

代表一个句子的特征向量，n代表句子中单词的数量，

为实数矩阵，

为矩阵

的维度；

。通过更改视野大小h的值能够提取一句文本具有不同视野大小的特征向量；

，

为提取出的文本统计特征，

为实数矩阵，

为实数矩阵

的维度。

进一步的，在该系统的BERT模型中，使用文本标识化器将文本信息分割为单词列表，然后使用多语言预训练的BERT模型来提取该文本信息的语义特征，选择BERT模型中最后一个维度为768×1的隐藏层参数作为文本的语义特征

，

为提取出的语义特征，

为实数矩阵，

为实数矩阵

的维度。

进一步的，该系统的虚假信息检测模型由一层隐藏层组成，输入为社交媒体信息的多模态融合特征，输出为该信息的真实度，虚假信息检测模型在训练过程中按照深度学习自身的计算机制更新网络参数；模型的公式如下：

其中：

代表虚假信息检测模型的网络结构，

代表虚假信息检测模型的网络参数，

为深度卷积神经网络MoibleNet模型的网络结构，

为获得第i个信息对应的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数；输出

代表信息的真实性概率，该概率取值的范围为0%—100%。

虚假信息检测模型旨在用于识别一条信息的真实性。使用y来表示信息的真实度，并使用交叉熵函数来计算检测损失：

其中

表示虚假信息检测模型训练过程中的损失值，

表示交叉熵函数，

表示获得的所有三维特征向量，

为获得第i个信息对应的的三维特征向量，

为虚假信息检测模型的真实性概率计算公式。

进一步的，该系统的域自适应网络模型由一个梯度翻转层和两层隐藏层组成，输入为社交媒体信息的多模态融合特征，输出为该信息所属的事件分类。使用

其中

表示域自适应网络模型训练过程中的损失值，

表示交叉熵函数，

表示获得的所有三维特征向量，K为所有事件分类的数量，

为域自适应网络模型的网络结构，

为深度卷积神经网络MoibleNet模型的网络结构，

为获得第i个信息对应的的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数，

为域自适应网络模型的网络参数。

损失

可以用来计算不同事件之间的差异。较大的损失意味着不同事件的表示是相似的，但模型需要学习事件的不变特征。因此，为了消除不同事件的唯一性，需要通过找到最优参数

来最大化

的分类损失。

进一步的，所有多模态融合特征样本按照9:1的比例随机划分为训练样本集和测试样本集，利用训练样本集训练虚假信息检测模型和域自适应网络模型；在模型的训练过程中，虚假信息检测模型需要最小化损失

来提升模型的准确率，而域自适应网络模型需要最大化损失

来获取通用的事件特征。总体损失的公式如下：

在模型训练过程中，参数的更新方式如下：

其中，

为总体损失，

表示虚假信息检测模型训练过程中的损失值，

表示域自适应网络模型训练过程中的损失值，

为深度卷积神经网络MoibleNet模型的网络参数，

代表虚假信息检测模型的网络参数，

为域自适应网络模型的网络参数，

为常量参数。

本发明与现有技术相比，其有益之处在于：

1、使用BERT模型提取文本信息的整句语义能获得更丰富的文本特征：

当某些热点事件发生时，公众会在社交媒体平台上大量转发同一张图片并配以自己的评论。这就意味着在判断信息的真实性时，文本中的信息比图片中的信息更重要。现有的社交媒体虚假信息检测方法，通常只采用Word2vec词嵌入模型等方法提取文本数据的数学统计特征，无法获取到用户的语义和情感信息。本发明使用多语言预训练的BERT模型处理文本信息，可以有效地提取文本中的语义信息。

2、使用卷积神经网络融合不同模态的特征，更好的利用图片和文本的语义联系：

现有的社交媒体虚假信息检测方法，在连接不同模态的特征向量时，大多采用直接连接的方法。由于图片和文本存在语义差异的问题，直接连接文本和图片的特征向量无法有效地将文本和图像中的特征结合起来。为此，本发明将提取的图像特征、文本统计特征、整句语义特征堆叠成三维向量，使用卷积神经网络从三维向量中提取融合特征，能有效地利用图片和文本之间的语义联系。

3、使用域自适应网络模型，移除不同事件信息的独有特征，有助于提高虚假信息检测的准确性：

社交媒体虚假信息检测的主要难点之一是训练数据集不涵盖新出现的事件，虚假信息检测模型只能帮助检测训练集上的虚假信息。因此，在不同事件的信息中提取更多的共享特征可以帮助模型学习到所有事件中的共同特征。为了实现这一目标，应计算不同事件之间的特征差异，并消除每个事件的独有特征。

附图说明

图1为本发明的原理示意图。

图2为卷积神经网络VGG19模型的结构图。

图3为BERT模型的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

实施例1

本发明采用以下技术方案实现，参考图1-图3，以社交媒体信息中的马航M370事件为例对本发明技术方案进行详细介绍，本申请通过提取社交媒体信息中图片和文本数据的语义特征，采集有关马航M370事件信息的文本和图像数据后，使用神经网络融合多模态的特征，利用虚假信息检测模型检测社交媒体信息的真实性，并通过域自适应网络模型提升检测的准确性，本申请提供的基于深度学习的社交媒体虚假信息检测系统包括多模态融合网络、域自适应网络模型、虚假信息检测模型，其中多模态融合网络包括卷积神经网络VGG19模型、词嵌入模型、BERT模型、深度卷积神经网络MoibleNet模型，卷积神经网络VGG19模型用于提取图像特征

，词嵌入模型提取词组序列中的文本统计特征

，BERT模型提取文本的整句语义特征

，MoibleNet模型用于融合图像特征、文本统计特征、整句语义特征堆叠成三维特征向量，形成多模态融合特征；

域自适应网络模型接收网络社交媒体信息的多模态融合特征

，输出为网络社交媒体信息的多模态融合特征

，输出为该信息所属的事件分类；

虚假信息检测模型接收网络社交媒体信息的多模态融合特征

，输出网络社交媒体信息的真实度。

本申请的基于深度学习的社交媒体虚假信息检测系统具体按照以下步骤对马航M370事件信息进行检测：

步骤1）分别采集网络社交媒体中真实信息和虚假信息的原始图像和文本数据，本实施例的原始图像为马航事件相关的图片信息，文本数据，比如“M370终于被找到了”，带有马航飞机相关的图片。

步骤2）在多模态融合网络中对步骤1中的原始图像和文本数据分别形成图像特征、文本统计特征、整句语义特征，并将图像特征、文本统计特征、整句语义特征形成三维特征向量，构建多模态融合特征。

在构建多模态融合特征时按照如下过程进行：

步骤2.1）使用在ImageNet图像数据集上预训练的卷积神经网络VGG19模型提取图像特征

，

为提取出的图像特征，

为实数矩阵，

为实数矩阵

的维度；为了防止VGG19模型过拟合，在特征提取过程冻结了VGG19模型的所有网络层权重参数，m、n均为自然数，本实施例的图像特征大小为4096×1。

步骤2.2）使用结巴分词模块分割文本语句，将语句按照词性分割成一组单词，此处的词性为名词、动词、形容词等，然后使用在相同语种上预训练的词嵌入模型提取单词序列中的文本统计特征

,

为提取出的文本统计特征，

为实数矩阵，

为实数矩阵

的维度，m、n均为自然数，本实施例的文本统计特征大小为768×1。

在词嵌入模型中，使用在相同语种数据集上预先训练的单词嵌入提取器来生成每个单词的特征向量，每个单词的特征向量可以表示为

，

为单词的特征向量，

为实数矩阵，k为矩阵

的维度。一个具有n个单词的句子可以表示为：

，

代表一个句子的特征向量，n代表句子中单词的数量，n为自然数，

为实数矩阵，

为矩阵

的维度。

。通过更改视野大小h的值能够提取一句文本具有不同视野大小的特征向量。

，

为提取出的文本统计特征，

为实数矩阵，

为实数矩阵

的维度。

步骤2.3）使用文本标识化器将文本信息分割为单词列表，然后使用多语言预训练的BERT模型来提取该文本信息的语义特征，选择BERT模型中最后一个维度为768×1的隐藏层参数作为文本的语义特征

，

为提取出的语义特征，

为实数矩阵，

为实数矩阵

的维度，本实施例的文本语义特征大小为768×1。

，本实施例中形成的三维向量特征矩阵大小32×32×3。

步骤2.5）使用轻量化的深度卷积神经网络MoibleNet模型融合步骤2.4中的三维特征向量，得到每条信息的多模态融合特征

，

为多模态融合特征，

为深度卷积神经网络MoibleNet模型的网络结构，

为步骤2.4中获得的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数。

步骤3）构建虚假信息检测模型，模型由一层隐藏层组成，输入为社交媒体信息的多模态融合特征，输出为该信息的真实度，虚假信息检测模型在训练过程中按照深度学习自身的计算机制更新网络参数。

模型的公式如下：

其中：

代表虚假信息检测模型的网络结构，

代表虚假信息检测模型的网络参数，

为深度卷积神经网络MoibleNet模型的网络结构，

为步骤2.4中获得第i个信息对应的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数。输出

代表信息的真实性概率，该概率取值的范围为0%—100%。

虚假信息检测模型旨在识别一条信息的真实性。使用y来表示信息的真或假，并使用交叉熵函数来计算检测损失：

其中

表示虚假信息检测模型训练过程中的损失值，

表示交叉熵函数，

表示步骤2.4中获得的所有三维特征向量，

为步骤2.4中获得第i个信息对应的的三维特征向量，

为虚假信息检测模型的真实性概率计算公式。

步骤4）构建域自适应网络模型，模型由一个梯度翻转层和两层隐藏层组成，输入为社交媒体信息的多模态融合特征，输出为该信息所属的事件分类。使用

其中

表示域自适应网络模型训练过程中的损失值，

表示交叉熵函数，

为域自适应网络模型的网络结构，

为深度卷积神经网络MoibleNet模型的网络结构，

为步骤2.4中获得第i个信息对应的的三维特征向量，

为深度卷积神经网络MoibleNet模型的网络参数，

为域自适应网络模型的网络参数。

损失

来最大化

的分类损失。

步骤5）将步骤2.5的所有多模态融合特征样本按照9:1的比例随机划分为训练样本集和测试样本集，利用训练样本集训练虚假信息检测模型和域自适应网络模型，比例还可以选择如8:2、7:3等，比例的选取随机。

在模型的训练过程中，虚假信息检测模型需要最小化损失

来提升模型的准确率，而域自适应网络模型需要最大化损失

来获取通用的事件特征。

总体损失的公式如下：

在模型训练过程中，参数的更新方式如下：

其中，

为总体损失，

表示虚假信息检测模型训练过程中的损失值，

表示域自适应网络模型训练过程中的损失值，

为深度卷积神经网络MoibleNet模型的网络参数，

代表虚假信息检测模型的网络参数，

为域自适应网络模型的网络参数，

为一个常量参数。

步骤6）利用步骤5中训练好的虚假信息检测模型对测试数据进行真实性检测，以此来检测关于马航事件的图像信息及文本信息真实性，通过在两个公开社交媒体数据集微博和推特上验证效果，虚假信息的检测精度分别为0.907和0.828。验证了本发明具有较高的精度，能够应用于社交媒体虚假信息检测。

在本实施例中选用的关于马航MH370航班失事事件社交媒体信息进行说明，在事件发生后，推特、微博等网络社交媒体上涌现出大量关于马航MH370航班的帖子。这些帖子大多是人公众对此次事件的疑问、猜想以及别有用心的人发布的谣言。谣言以及虚假的新闻不仅包含被故意修改的图片，也包含与此次事件无关的真实图片，如过去真实发生的空难图片。所以图片的真实性无法直接作为判断帖子真实性的依据，图片与事件的关联性也是重要的因素。而帖子中的文本信息中包含了用户的看法、猜想和情感色彩，如对事件原因的猜测，对失事地点的猜测，以及疑惑，悲伤，愤怒等语气词。通过提取文本统计特征可以获取到文本信息中出现的时间、地点、人名等关键词出现的频次，通过提取文本语义特征可以获取到用户的感情色彩。

本发明在采集有关马航事件信息的文本和图像数据后，使用卷积神经网络VGG19模型提取图像的特征，使用词嵌入模型提取文本的统计特征，使用BERT模型提取文本的语义特征，进一步地使用深度卷积神经网络MoibleNet模型融合图像特征、文本统计特征、整句语义特征，得到该信息的三维融合特征向量。域自适应网络模型首先会通过三维融合特征综合计算图像特征、文本统计特征、整句语义特征与马航事件的关联性，之后虚假信息检测模型将利用三维融合特征和事件的关联性计算出该信息的真实性。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。