CN112131347A

CN112131347A - 一种基于多模态融合的假新闻检测方法

Info

Publication number: CN112131347A
Application number: CN202011026886.9A
Authority: CN
Inventors: 刘爽; 潘云锋
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-25

Abstract

本发明公开一种基于多模态融合的假新闻检测方法，包括以下几个步骤：(1)对新闻的新闻文本数据和新闻图片数据进行预处理；(2)新闻数据的特征提取；利用预训练模型BERT模型和VGG19模型组成的新闻数据特征提取模型，对预处理完的新闻文本和新闻图片数据进行特征提取，并进行优化训练，得到训练好的新闻数据特征提取模型；(3)数据特征分类；将训练数据集输入新闻数据特征提取模型中获取新闻特征集，再将新闻特征集作为训练数据输入到分类器中进行分类模型的训练，至此训练结束，基于假新闻检测方法的模型训练完成。

Description

一种基于多模态融合的假新闻检测方法

技术领域

本发明涉及谣言检测技术领域，尤其涉及一种多模态融合的假新闻检测方法。

背景技术

随着各类社交媒体的日益普及，社交媒体的各类信息，如图片文字或者视频等以其传播速度快、获取渠道多、产生门槛低等特点迅速成为大众信息消费的热点。然而，这些特点也使虚假消息得以广泛传播，由于信息的不对称性，虚假消息可以通过社交媒体传播来误导不明真相的易感人群，可以造成不可估量的负面影响，甚至操纵社会舆论，虚假消息已经成为关系到社会安定的重大问题，因此，对虚假消息的进行迅速的检测是一项重要的任务。

早期的研究通过人工抽取文本特征、用户特征、传播特征及其他潜在属性特征，构造分类器，如^[1][2][3][4]等，这种基于特征提取的方法可以充分地利用专家总结的经验和知识，但是这需要人工提取特征，而且虚假信息生成的技术、手段和形式在不断更新换代，而专家知识和经验又有一定的滞后性，很难做到与时俱进来应对新出现的虚假信息形式。相比于传统的机器学习方法，深度学习模型则可以自动学习数据集中蕴含的特征，摒弃了繁琐的特征构造过程。深层神经网络能够比传统的手工特征更准确地学习图像和句子的特征表示。

由于社交媒体内容信息载体多样，并且较为分散，如文本和图像等，还有社交媒体本身自带的属性，并没有一个统一的方式来整合这些彼此相关的信息，因此，研究人员开始构建新的模型，从多种模式中提取特征，并将它们融合在一起，可以弥合单模态表示不足问题，获得更丰富的数据表示，现有的假新闻检测模型中多模态融合效果较好，如Jin等人提出了一种提取图片、文本和社交背景特征的假新闻检测模型attRNN，通过注意机制将文本和图片两者进行融合，最后进行分类^[5]。Wang等人在此基础上建立了一种基于对抗神经网络的假新闻检测模型EANN学习事件的共性特征，从而提高检测的准确率^[6]。Khattar等人提出了MVAE，其旨在发现各模态间的相关性，从而得到更好的多模态特征融合表示用于检测的任务^[7]。Singhal等人提出一个更简单的框架SpotFake，直接采用预训练模型将提取的文本和图片特征简单融合后做分类^[8]。但是，这些模型在检测模块对多模态特征向量只进行简单拼接融合，而后直接采用softmax等作为简单的分类器，这样做融合的特征中可能存在多余无效的特征或者缺失重要特征，其结果会导致泛化性不强，影响到准确率的提升。

发明内容

本发明的目的是为了克服现有技术中的不足：1.对现有的大部分检测模型来说，在模型进行特征提取时，需要引入子模块来辅助提取特征，这增加了训练的计算开销。2.在检测分类模块中，现有的检测方法直接采用softmax作为分类器，存在着特征语义的丢失情况，也使得泛化性不高的问题，从而导致模型的鉴别能力受制。3.模型检测的准确率和泛化性还可进一步提高。因此，本发明提供了一种基于多模态融合的假新闻检测方法。首先采用基于预训练模型BERT和VGG19的特征提取方法，对文本和图像的语义特征表示进行提取并融合，使整个提取模型更加简便，减少计算开销。再对融合特征进行分类，本发明通过以GDBT模型作为分类器来对特征再次进行选择分类，实现检测准确度的提升和泛化性的加强，相比现有的方法，能更好完成对新闻数据真实性的鉴别。

本发明的目的是通过以下技术方案实现的：

一种基于多模态融合的假新闻检测方法，包括以下几个步骤：

(1)对新闻文本数据和新闻图片数据进行预处理；对于获取的n条数据的新闻数据集D＝{N₁，N₂，…，N_n}，N＝[T,V,y]表示每条新闻数据，其中T代表新闻文本数据，V代表新闻图片数据，y为该条新闻真实性标签，将新闻文本数据与对应的新闻图片数据进行预处理；

(2)新闻数据的特征提取；利用预训练模型BERT模型和VGG19模型组成的新闻数据特征提取模型，对预处理完的新闻文本数据和新闻图片数据进行特征提取，并进行优化训练，得到训练好的新闻数据特征提取模型；

(3)数据特征分类；将训练数据集输入新闻数据特征提取模型中获取新闻特征集，再将新闻特征集作为训练数据输入到分类器中进行分类模型的训练，至此训练结束，由特征提取模型和分类模型叠加组成的假新闻检测模型训练完成。

进一步的，步骤(2)中对于包含s个词汇的新闻文本数据T＝(t₁,t₂,,…,t_s)，通过BERT模型进行文本语义特征向量的提取，H_t＝BERT(T)表示新闻文本数据T经过BERT模型输入出的整个句子语义向量，接着，将BERT模型的输出特征H_t经过全连接层转换使其向量维度转换成低维特征向量T_f，即T_f＝(W_t·H_t)，其中W_t为BERT模型输出经过的全连接层权重，则特征向量T_f为新闻文本数据最终的表示特征；

对于新闻图像数据V，新闻图像数据的特征提取采用在ImageNet数据库上进行训练的VGG19模型来获取视觉特征表示；先将新闻图像数据V转换成三维图像矩阵

后，再输入到VGG19模型中对新闻图像数据的特征向量进行提取,即H_v＝VGG19(V_img),H_v为VGG19模型最后一层隐层向量输出，而后，同样将新闻图像数据的隐层特征H_v经过一层全连接层进行维度转换成特征向量V_f，即V_f＝σ(W_v·H_v)，所得到的维度和新闻文本数据特征的维度相等，其中W_v为VGG19模型末端经过的全连接层的权重，σ为激活函数，特征向量V_f为新闻图像数据最终的表示特征；

将提取出的新闻文本数据的特征向量T_f与新闻图像数据的特征向量V_f进行融合，形成代表新闻数据的融合特征向量TV_f；为了稳定获取新闻数据特征，预先训练了新闻数据特征提取模型，即对于融合数据特征集

对应的标签Y＝[y¹,y²,…,yⁿ]，以此训练新闻数据特征提取模型，具体的，将融合特征向量TV_f经过全连接层后，采用softmax函数对比，并计算损失，通过损失值优化新闻数据特征提取模型。

进一步的，步骤(3)中，分类器模型采用GBDT模型，对数据集D＝{(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，…，(x_m，y_m)}，x_m为上游输入的第m个特征向量，y_m为其对应的标签，通过构造N个弱学习器f_n(x_m)进行训练，经过若干次迭代形成最终强学习器F，即最终对数据x的预测标签概率由强学习器F(x)输出得到，可简记为p＝GBDT(x)；

因此在获取稳定的融合数据特征集后，输入到由GBDT模型组成的分类器做进一步特征组合训练从而进行分类，能够直接对于真或假新闻做出概率上的判别；最后，由训练完成的GBDT模型得到预测真假新闻的概率值p＝GBDT(TV_f)，从而输出预测新闻所属分类，完成对多模态新闻数据的检测。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.提高检测准确率。不同以往其他方法的简单线性分类器(如softmax分类器)，本发明对融合的多模态特征采用GBDT进行分类，通过GBDT对融合后的特征再进行选择组合，使选择的组合特征有更好的区分度，进而提高分类效果。与现有工作相比，检测准确性有所提升。

2.增强泛化性。由于GBDT的基础模型本身具有低方差、高偏差等优势，使得集成模型更具稳定性，另外GBDT还可以通过正则化操作防止过拟合。所以，相较于采用softmax作为分类器的做法，采用GBDT分类器能一定程度上增强检测的泛化能力。

3.结合了深度学习模型与传统机器学习方法的各自优势。对于新闻实例数据，只需输入到由预训练模型BERT和VGG19组成的特征提取器中，特征提取器便学习掌握文本与图像相关的语义特征，无需由人工进行特征提取，无需外部知识引进。由GBDT作为的分类器具有训练速度快，解释性和不易拟合的优点。因此，通过结合两者的特点，使得整个模型更加简便快捷，减少其他计算开销，提升模型检测效果和泛化性。

附图说明

图1为本发明实施提供的特征提取模型图。

图2为本发明实施提供的分类模型图。

图3为本发明实施提供的一种基于多模态融合的假新闻检测方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于多模态融合的假新闻检测方法。整个方法可分成两个阶段进行实现，第一阶段为新闻数据的特征提取，另一阶段为特征分类部分。在新闻数据的特征提取采用基于预训练的模型BERT和VGG19提取新闻数据特征，能够获取到新闻文本数据和新闻图像数据更深层次更显著的特征表示，并通过将二者拼接得到融合特征。对于分类部分，区别于以往直接以softmax作为分类器的结构，本发明通过叠加GDBT模型作为下游分类的功能，提高检测假新闻的性能。

如图3所示，为本发明实施例提供的一种基于多模态融合的假新闻检测方法的流程图，其主要包括如下步骤：

1、新闻数据预处理。

首先收集在微博上发布的单条信息，由新闻文本数据以及相关的新闻图像数据组成，并对此数据进行预处理操作。

对于原文本数据，由于其携带的信息复杂性与无序性，会产生很多无用的冗余信息，为方便起见，比如URL、表情符号、发布时间、账号信息等，因此需要进行数据清洗处理。这里对微博的URL、表情符号、发布时间、所属账号信息等全部选择忽略，对空白字符，繁体字等其他特殊字符做转换，保留剩余文字信息。

针对新闻图片数据，由于与每条数据的新闻文本数据对应的新闻图片数据的数量不定，即一条文本可能有多张图片，且图片的类型不一，如有JPG、GIF等，因此，本发明方法只保留原微博发出的第一张图片与文本对应的图片，且只限于jpg格式。筛选后的数据统计参见表1。

经过预处理完的一条数据可表示为N＝[T,V,y]，T代表新闻文本数据，V代表新闻图片数据，y为该条新闻真实性标签，D＝{N₁，N₂，…，N_n}表示已预处理的数据集。

2、特征提取与融合

对于新闻文本数据，将新闻文本数据进行预处理后，采用预训练的BERT对新闻文本数据进行语义特征的提取。因此，在本实例中，可以将BERT当作形成词嵌入的工具，即将新闻文本数据完整输入到BERT模型后，可在BERT的顶部输出端，即在最高隐藏层的第一维输出(即CLS特征表示)获取该新闻文本数据的隐层特征表示H_bert＝BERT(T)(BERT(·)表示BERT模型的函数)，由于Bert端输出的特征维度是768维，所以将新闻文本数据隐层特征H_bert通过一层全连接层将维度将维度压缩到32维，即T_f＝{t₁,t₂,,…,t₃₂}，最后的新闻文本数据特征(表示为T_f)如下：

其中H_bert是从预训练的BERT中获得的隐层特征，W_t是为完全连接层的权重矩阵。

对于新闻图像数据，采用VGG19模型来提取特征。由于新闻图像数据的大小不一，对于所整理出来的新闻图像数据进行统一缩放操作后进行裁剪出规格为224*224的区域，并转换成符合输入的三通道图片格式V_img。

为将VGG19融入整体模型中进行微调，这里保留了前面各层参数不进行更新学习，将获取模型倒数第二层的输出特征H_vgg＝VGG19(V_img)(VGG19(·)表示VGG19模型的函数)，在此层依然保留原始新闻图像数据特征，再通过全连接层来调整新闻图像数据特征的维度，把4096维的新闻图像数据特征向量减少到最终的维度为32维的特征，即V_f＝{v₁,v₂,,…,v₃₂}，与新闻文本数据部分的输出特征维度相等。最后的新闻图像数据特征表示(表示为V_f)如下：

其中H_vgg是从预训练的VGG19中获得的新闻图像数据特征，W_v是新闻图像数据特征提取器中完全连接层的权重矩阵，σ(·)为relu激活函数。

对于特征融合，本实例直接采用特征叠加方式

即新闻文本数据特征表示将T_f和视觉特征V_f拼接在一起，形成由TV_f表示的多模态融合特征，作为输入到下游GBDT分类器的特征。

3、特征提取模块训练

由于本发明方法分成特征提取和分类两部分，在特征去提取部分中，为使特征提取部分获取到稳定可靠的样本特征，所以在本发明实施例中，先在特定的数据集下，通过上述预训练模型与全连接层作为一个整体网络进行统一的训练，更新模型参数，以便训练得到稳定的特征提取器，如图1所示的特征提取模块。

在训练特征提取器时，将融合特征TV_f经过全连接层输入到softmax中并计算损失，损失函数采用二元交叉熵损失函数，如下，

其中W_tv为全连接层参数，y为样本真实标签。通过不断改变联合模型的权重最小化交叉熵，最后获得最优的特征提取模块。

4、GBDT分类模型训练

所有数据样本通过前述训练好的特征提取器后，获取稳定的多模态融合特征并输入至GBDT进一步分类。如图2所示GBDT分类模型，将获取的特征样本和标签形成训练数据集表示为

(其中，

为上游输入的第i个联合特征向量

yⁱ为其对应的真实标签，TV_f＝(TV_f1，TV_f2，…，TV_fk)，k为特征数)，GBDT以此来构建树模型，迭代训练形成强学习器F，由于本任务为二分类问题，最终预测的概率由F(x_i)输出得到，即

损失函数采用对数似然损失函数

因此，可通过将上游的所有融合特征集D′输入到GBDT中进行训练，由GBDT对所输入的特征TV_f进行组合，进行预测概率p＝GBDT(TV_f)，并输出分类获得真假新闻的判别(若阈值取50％，某类预测概率大于此阈值则为此类标签)。

5.实验数据

为检验本发明方法的效果，本发明实验数据采用的为微博虚假数据集WeiboRumorSet(Jinetal.2017^[12])，该数据集中，是从新浪微博平台上在爬取2012年5月至2016年6月的时间内的相关新闻，并对收集到的新闻集通过微博官方辟谣系统进行验证。该系统还允许用户举报可疑信息，而后边由平台进行验证处理，表1为WeiboRumorSet数据集统计情况。

表1 WeiBoSet数据集统计

6.实验设置

对输入模型中的新闻文本数据和新闻图片数据需进行预处理，对于新闻文本数据，由于使用BERT模型，只需将其输入长度进行固定，即对所有的大于固定序列的句子进行修剪，低于的则用零填充，实验取值将其固定的序列值取256字符长度。对于新闻图像数据来说，所有新闻图像数据输入规格都被调整为224x224，并对各模型的超参数进行调整，表2为各子模型的超参设置。

表2各部分超参设置

本发明实施例中，整个混合模型的训练过程一共分为两个过程。首先是VGG19和BERT模型的联合训练，经过若干次训练，直到模型收敛，完成对参数的调整和特征的提取。然后通过得到的特征集作为输人的样本集合，也就是作为GBDT模型的输人，对GBDT进行训练直至完成，整个假新闻检测模型训练完成，实验结果由表3所示。

其优点在于借助深度模型有效提取和学习到新闻文本数据和新闻图像数据特征，避开到传统机器学习方法需要人工介入的缺点，同时结合分类回归树方法，可以解决分类时出现的过拟合和泛化能力不强的问题，同时提高可解释性和分类的精确率。

表3各模型在WeiboSet上的分类结果

(注:*表示虚假数据，**表示真实数据)

由表3可知，通过与现有假新闻检测模型相比，本发明实施例的上述方案中对微博上的谣言识别能获得较高准确率。相比其他方法，本发明对新闻文本数据和新闻图像数据的预处理简单，不需要人工提取特征，根据输入的内容自动学习并选取高层次语义特征，不依赖特定的先验知识或者其他子任务，具有很好的泛性和较强可解释性。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Castillo,Carlos&Mendoza,Marcelo&Poblete,Barbara.(2011).Informationcredibility on Twitter.Proceedings of the 20th International Conference onWorld Wide Web.675-684.10.1145/1963405.1963500.

[2]Kashyap Popat,Subhabrata Mukherjee,Jannik

and GerhardWeikum.2016.Credibility assessment of textual claims on the web.InProceedings of the 25th ACM International on Conference on Information andKnowledge Management.ACM,2173–2178.

[3]Kashyap Popat,Subhabrata Mukherjee,Jannik

[4]Jin,Zhiwei&Cao,Juan&Jiang,Y.-G&Zhang,Yongdong.(2015).NewsCredibility Evaluation on Microblog with a Hierarchical PropagationModel.Proceedings-IEEE International Conference on Data Mining,ICDM.2015.230-239.10.1109/ICDM.2014.91.

[5]Z.Jin,J.Cao,H.Guo,Y.Zhang,and J.Luo,“Multimodal fusion withrecurrent neural networks for rumor detection on microblogs,”in Proceedingsof the 25th ACM international conference on Multimedia.ACM,2017,pp.795–816.

[6]Y.Wang,F.Ma,Z.Jin,Y.Yuan,G.Xun,K.Jha,L.Su,and J.Gao,“Eann:Eventadversarial neural networks formulti-modal fake news detection,”inProceedings of the 24th ACM SIGKDD International Conference on KnowledgeDiscovery&Data Mining,ser.KDD’18.New York,NY,USA:ACM,2018,pp.849–857.

[7]D.Khattar,J.S.Goud,M.Gupta,and V.Varma,“Mvae:Multimodalvariational autoencoder for fake news detection,”in The World Wide WebConference,ser.WWW’19.NewYork,NY,USA:ACM,2019,pp.2915–2921.

[8]S.Singhal,R.R.Shah,T.Chakraborty,P.Kumaraguru and S.Satoh,"SpotFake:A Multi-modal Framework for Fake News Detection,"2019 IEEE FifthInternational Conference on Multimedia Big Data(BigMM),Singapore,Singapore,2019,pp.39-47

[9]Simonyan,Karen&Zisserman,Andrew.(2014).Very Deep ConvolutionalNetworks for Large-Scale Image Recognition.arXiv 1409.1556.

[10]Devlin,Jacob&Chang,Ming-Wei&Lee,Kenton&Toutanova,Kristina.(2018).BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding.

[11]Friedman,Jerome.(2001).Greedy Function Approximation:A GradientBoosting Machine.Annals of Statistics.29.1189-1232.10.2307/2699986.

[12]Jin,Zhiwei&Cao,Juan&Guo,Han&Zhang,Yongdong&Luo,Jiebo.(2017).Multimodal Fusion with Recurrent Neural Networks for Rumor Detection onMicroblogs.795-816.10.1145/3123266.3123454.

Claims

1.一种基于多模态融合的假新闻检测方法，其特征在于，包括以下几个步骤：

2.根据权利要求1所述一种基于多模态融合的假新闻检测方法，其特征在于，步骤(2)中，对于包含s个词汇的新闻文本数据T＝(t₁,t₂,,…,t_s)，通过BERT模型进行文本语义特征向量的提取，H_t＝BERT(T)表示新闻文本数据T经过BERT模型输入出的整个句子语义向量，接着，将BERT模型的输出特征H_t经过全连接层转换使其向量维度转换成低维特征向量T_f，即T_f＝(W_t·H_t)，其中W_t为BERT模型输出经过的全连接层权重，则特征向量T_f为新闻文本数据最终的表示特征；

3.根据权利要求1所述一种基于多模态融合的假新闻检测方法，其特征在于，步骤(3)中，分类器模型采用GBDT模型，对数据集D＝{(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，…，(x_m，y_m)}，x_m为上游输入的第m个特征向量，y_m为其对应的标签，通过构造N个弱学习器f_n(x_m)进行训练，经过若干次迭代形成最终强学习器F，即最终对数据x的预测标签概率由强学习器F(x)输出得到，可简记为p＝GBDT(x)；