CN113239926B

CN113239926B - 基于对抗的多模态虚假信息检测模型系统

Info

Publication number: CN113239926B
Application number: CN202110671289.XA
Authority: CN
Inventors: 张熙; 田恬; 张勇东; 时金桥; 方滨兴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-10-25
Anticipated expiration: 2041-06-17
Also published as: CN113239926A

Abstract

基于对抗的多模态虚假信息检测模型涉及虚假信息检测技术领域，解决了现有虚假信息伪装则检测器检测常出现错误的问题，该装置包括视觉特征提取模块、多模态预训练模块、协同视觉‑文本多头注意力模块和对抗训练模块；多模态预训练模块用于得到多融合的文本序列特征、视觉序列特征和图文内容特征；协同视觉‑文本多头注意力模块用于得到多模态线索不同层次关系的文本内容特征和视觉内容特征；对抗训练模块用于从文本、视觉和图文角度对抗训练模型以提高鲁棒性。本发明可以捕捉信息数据的多模态线索之间元素级别和模态级别的关系，充分挖掘线索之间的隐藏联系；使得多模态预训练模块能够直接应用于虚假信息检测中。

Description

基于对抗的多模态虚假信息检测模型系统

技术领域

本发明涉及虚假信息检测技术领域，具体涉及基于对抗的多模态虚假信息检测模型。

背景技术

社交媒体的开放性与便捷性降低了编写和分享虚假信息的成本，而虚假信息的传播对国家安全、社会稳定以及信息系统生态安全造成了很大威胁。社交媒体上的信息又有着数量大，迷惑性高，模态多的特点，因此人工检测的方法在及时性、覆盖度和有效性上存在局限，研究虚假信息的自动化检测技术至关重要。

社交媒体上的信息数据具有丰富的模态和复杂的关联，模态内及模态间的特征存在复杂的关系，简单的特征交互方法难以捕捉复杂的高维交互关系。例如，一方面，信息文本和配图之间会存在细粒度的局部对应关系，有着一定的相关性；另一方面，信息文本和配图的整体内容也是相互补充的，互相配合以详细表达帖子内容。因此，如何充分利用多模态数据，挖掘多模态特征之间复杂的关系是一大挑战。

除此之外，模型鲁棒性也越来越被研究者们重视。虚假信息的编写者会主动逃避模型检测，以达到宣扬虚假信息迷惑读者的目的。对抗样本生成技术，给逃避检测者提供了方法与工具。而多模态线索的利用，给予了逃避检测者更多扰动模型的思路，例如，仅扰动文本，仅扰动图片，或者同时扰动文本和图片。

现有技术中也是利用文本内容和配图等多模态特征进行虚假信息检测，并利用生成对抗网络，排除待分类信息中的与事件相关特征，保留事件不变性特征，从而对信息分类。针对待分类信息中的文本内容和配图内容，首先使用 Text-CNN得到信息文本内容特征，然后使用预训练的VGG-19得到配图内容特征，接着拼接这两个特征作为代分类信息的多模态特征。利用生成对抗网络的鉴别器排除多模态特征中的事件独立性因子，得到事件不变性特征。通过全连接层，利用事件不变性特征进行虚假信息的分类。检测流程：针对待分类信息，先获取文本内容特征和配图特征，再将两种特征连接起来作为多模态特征，然后利用生成对抗网络从多模态特征中获取事件不变特征，最终利用事件不变特征进行虚假信息的早期检测。但是存在如下缺点：

缺点一：其对虚假信息相关的多模态线索特征的提取相对独立，忽略了多模态线索之间的不同层次的复杂关联；

缺点二：其利用多模态特征进行检测存在风险，因为信息编写者可能会通过“修改文本”、“修改图片”、“同时修改图文”对信息内容进行伪装修饰，这种伪装将最终改变检测器获取的多模态特征，可能造成虚假信息检测器的误分类。

预训练模型的火热使人们看到其在各类任务上的优异性能，而微软亚研院与2020年提出了多模态预训练的VL-BERT(视觉-语言预训练模型 Visual-Linguistic BERT)，增强视觉与文本线索的对齐，在视觉常识推理、视觉问答和引用表达式理解各项任务上表现良好。但尚且没有将多模态预训练模型用于虚假信息分类的先例，且多模态预训练模型挖掘视觉与文本线索之间的元素级别相关性，而二者的模态之间的关系如何表达也是需要研究的问题。

发明内容

为了解决上述问题，本发明提供基于对抗的多模态虚假信息检测模型。

本发明为解决技术问题所采用的技术方案如下：

基于对抗的多模态虚假信息检测模型，包括：

视觉特征提取模块，所述视觉特征提取模块能够根据输入到其上的输入图片得到输入图片的视觉特征嵌入和感兴趣区域的视觉特征嵌入；

多模态预训练模块，所述多模态预训练模块能够利用预训练的VL-BERT得到融合了元素级别关系的文本序列特征T^s、融合了元素级别关系的视觉序列特征 V^s和融合了元素级别关系的图文内容特征h^c，预训练的VL-BERT的输入元素包括文本元素、视觉元素和标识符元素三类输入元素，每类输入元素均由标记嵌入、视觉特征嵌入、段嵌入和位置嵌入连接而成；所述VL-BERT能够使得每类输入元素均能够根据其自身的位置、类别和内容特征，自适应地聚合来自其他两类输入元素的信息，通过聚合来自其他两类输入元素的信息，文本元素的输出位置向量为T^s，视觉元素的输出位置向量为V^s，头部的标识符元素的输出位置向量为h^c；

协同视觉-文本多头注意力模块，所述协同视觉-文本多头注意力模块的输入为T^s和V^s，协同视觉-文本多头注意力模块能够通过学习文本和视觉两个模态间的隐含互补关系，得到文本内容特征t^c和视觉内容特征v^c；

对抗训练模块，所述对抗训练模块的输入为t^c、v^c和h^c，对抗训练模块能够将t^c、v^c和h^c拼接起来得到预测标签，能够通过损失对t^c、v^c和h^c进行扰动，交替训练t^c、v^c和h^c得到训练后的基于对抗的多模态虚假信息检测模型。

本发明的有益效果是：

1、本发明提出了一个新的多模态虚假信息检测框架，可以捕捉信息数据的多模态线索之间元素级别和模态级别的关系，充分挖掘线索之间的隐藏联系。

2、本发明首次引用多模态预训练模型到虚假信息检测任务，并添加了协同视觉-文本多头注意力机制，以弥补多模态预训练模型直接应用于虚假信息检测问题的不足。

3、本发明针对多模态数据，对多模态检测框架引入了三种对抗性扰动进行对抗训练，可以模拟伪装者“仅修改文本”、“仅修改图片”、“同时修改文本和图片”三类伪装操作，提高模型的抗干扰能力和鲁棒性。

附图说明

图1为本发明的基于对抗的多模态虚假信息检测模型示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在介绍本发明的技术方案之前，首先对涉及到的专业术语进行解释或说明：

VL-BERT:一种多模态预训练模型。

对抗训练:一种训练模型的方式，可以增强模型等鲁棒性。原理在于，对模型的输入添加部分噪声进行扰动，再进行模型的训练优化，交替进行，最终使得模型可以适应这种扰动。

注意力机制:可以广义地解释为重要性权重的向量。

协同注意力机制:注意力机制的一种。

以上四个专业术语为本领域技术人员熟知的名词。

本发明的基于对抗的多模态虚假信息检测模型，目标为：能够检测社交媒体上的虚假信息。基本方案为：针对社交媒体上的一个信息帖子，首先使用特定方法提取帖子配图的视觉特征，然后利用帖子文本内容和视觉特征进行虚假信息检测，最后利用对抗学习提升模型的鲁棒性。

表示社交媒体上的帖子的集合，帖子即信息贴子，

为

中每个信息帖子的文本内容的集合，

为

中每个信息帖子的配图内容的集合，N为社交媒体上的信息帖子总数，即

中信息帖子的总数，i和N均为正整数，N大于1，i∈[1,N]。将虚假信息检测问题看作一个二分类问题，y_i∈{0，1}表示信息帖子P_i的预测标签，其中y_i＝1表示帖子P_i的预测结果为虚假信息，y_i＝0 表示帖子P_i的预测结果为真实信息，y′_i∈{0,1}表示信息帖子P_i的真实标签，y′_i＝0 表示信息帖子P_i的真实结果为真实信息，y′_i＝1表示信息帖子P_i的真实结果为虚假信息。本发明可以自动学习帖子文本内容和配图内容中的隐藏信息，得到一个映射关系：f：f(T_i，V_i)→y_i，从而对帖子的真实性进行预测，T_i表示第i个帖子的文本内容，V_i表示第i个帖子的配图内容，f表示映射，f(T_i,V_i)表示以T_i和V_i为自变量的函数。

本发明中的基于对抗的多模态虚假信息检测模型主要分为四个模块：视觉特征提取模块；多模态预训练模块；协同视觉-文本多头注意力模块；对抗训练模块。

视觉特征提取模块：

帖子P_i的配图内容V_i需要进行视觉特征提取才能为网络框架所理解，在视觉特征提取模块中输入图片V_i，对输入图片V_i进行整体(V_i)和局部(感兴趣区域)的视觉特征提取，提取到的视觉特征作为多模态预训练模块的输入之一。视觉特征提取模块首先对图片V_i进行感兴趣区域(RoIs)的位置提取，然后对整体的图片V_i和提取到的RoIs分别进行视觉外观特征和视觉几何特征的提取，将视觉特征表示为视觉外观特征和视觉几何特征的连接。视觉外观特征为图片内容的描述，提供图片像素的表示。视觉几何特征为视觉特征在输入图片上的几何位置。

对图片进行感兴趣区域(RoIs)的提取使用Girshick于2016年提出的 Faster-RCNN[Ren S,He K,Girshick R,et al.Faster R-CNN:towards real-time objectdetection with region proposal networks[J].IEEE transactions on patternanalysis and machine intelligence.]，提取得到感兴趣区域的几何位置，表示为

其中(x_LT，y_LT)代表感兴趣区域的左上角和右下角的横纵坐标， (x_RB，y_RB)代表感兴趣区域的右下角的横纵坐标，W表示感兴趣区域的宽度，H 表示感兴趣区域的长度。而整体图片的几何位置设置为(0，0，1，1)。整体图片和RoIs的视觉几何特征提取利用了利用Hu等人2018年提出的方法[Hu H, Gu J,Zhang Z,et al.Relation networks forobject detection[C]//Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2018:3588-3597.]，对上述感兴趣区域和整体图片的4维的几何位置进行不同波长的正余弦变化，最终分别得到2048维的视觉几何特征向量表示。而视觉外观特征则是将图片和上述提取的几何位置通过Resnet残差网络得到，整体图片和(0，0，1，1)通过Resnet残差网络得到输入图片的视觉外观特征，感兴趣区域和

通过Resnet残差网络得到感兴趣区域的视觉外观特征。最后将视觉外观特征和视觉几何特征拼接起来，并连接一个全连接层一，得到最后的视觉特征嵌入表示。也就是拼接输入图片的视觉外观特征和视觉几何特征得到输入图片的视觉特征，拼接感兴趣区域的视觉外观特征和视觉几何特征得到感兴趣区域的视觉特征，输入图片的视觉特征通过全连接层一的处理得到输入图片的视觉特征嵌入表示，感兴趣区域的视觉特征通过全连接层一的处理得到感兴趣区域的视觉特征嵌入表示，输入图片的视觉特征嵌入表示和感兴趣区域的视觉特征嵌入表示可统称为视觉特征嵌入表示。

多模态预训练模块：

多模态预训练模块利用预训练的VL-BERT，增强文本元素与视觉元素的聚合与对齐，捕捉多模态输入元素之间元素级别的关系。VL-BERT的结构与BERT 类似，由多层双向Transformer编码器组成。但与BERT不同，VL-BERT的输入分元素为3类输入元素，每类元素由4类嵌入连接而成。3类元素分别为文本元素、视觉元素和标识符元素，文本元素、视觉元素和标识符元素称为输入元素。 4类嵌入为标记嵌入(Token Emb)、视觉特征嵌入(VisualFeature Emb)、段嵌入(Segment Emb)和位置嵌入(Position Emb)。如图1中的VL-BERT模块所示。位置嵌入用于标记输入元素的顺序，图1的数字1、2、3、4、5、6、7 和8表示从前至后的位置顺序，文本元素与标识符元素的位置嵌入与BERT模型相似，视觉元素没有先后顺序，用同一个位置嵌入标识。

根据功能的不同，标识符元素的标记嵌入分别为[CLS]、[SEP]、[END]，标识开始位置为[CLS](即[CLS]为头部的标识符元素)，结束位置为[END]，分隔符为[SEP]；标识符元素的视觉特征嵌入是视觉特征提取模块提取到的整体图片的视觉特征表示；标识符元素的段嵌入，根据文本元素和视觉元素的分割位置而定，文本元素结束前的段嵌入为A，结束后为C；标识符元素的位置嵌入根据其所占位置顺序决定。除头部外的其他的标识符元素只起到分隔的作用。

文本元素的标记嵌入分别为文本的单词，对应图1中的“people who work hard”(努力工作的人)，文本元素的标记嵌入是利用BERT的词典文件，对 30000个单词分配Token(即标记)；文本元素的视觉特征嵌入是视觉特征提取模块提取到的整体图片的视觉特征表示；文本元素的段嵌入，表示为A；文本元素的位置嵌入根据其所占位置顺序决定，从前往后依次表示。

视觉元素的标记嵌入分别为[IMG]；视觉元素的视觉特征嵌入是视觉特征提取模块提取到的感兴趣区域的视觉特征表示；视觉元素的段嵌入，表示为C；视觉元素的位置嵌入根据其所占位置顺序决定，所有的视觉元素的位置嵌入都是一样的，因为视觉元素之间没有先后的顺序区分。

每个输入元素都可以根据该输入元素的位置、类别和内容特征，自适应地聚合来自其他输入元素的信息。这样，在经历了多层Transformer后，学习到的特征便具有更为丰富的聚合与对齐视觉和语言线索的能力。

VL-BERT的预训练任务使得输入的文本元素、视觉元素和头部的标识符元素对应的输出位置向量一一对应的分别为融合了元素级别关系的文本序列特征 T^s、融合了元素级别关系的视觉序列特征V^s和融合了元素级别关系的图文内容特征h^c，VL-BERT可以让输入的模态元素(即文本元素、视觉元素和标识符元素，所述模态元素指输入元素)根据其自身的位置、其自身的类别和其自身的内容特征，自适应地聚合来自其他两个类别元素的信息，得到融合了元素级别关系的文本序列特征T^s、融合了元素级别关系的视觉序列特征V^s和融合了元素级别关系的图文内容特征h^c。元素级别关系为文本元素、视觉元素和标识符之间的元素级别关系。

协同视觉-文本多头注意力模块：

多模态预训练模块得到的文本序列特征表示T^s和视觉序列特征表示V^s将被输入到协同视觉-文本多头注意力模块，以捕捉多模态数据模态级别的联系，学习文本和视觉两个模态间的隐含互补关系，得到融合了多模态线索不同层次关系的文本特征和图片特征。协同视觉-文本多头注意力模块由左右两个对称的部分构成，每部分的结构与Transformer类似，每部分均由两个子层和位于两个子层后的max-pooling构成。

第一个子层为视觉-文本的多头注意力模块，在这个模块里，文本序列特征T^s和视觉序列特征V^s互相作为对方的Query(查询)，学习在其他模态特征引导下，该模态的隐藏表示，分别用A^T和A^V表示：

其中，A^T表示文本序列特征T^s在视觉模态引导下的隐藏表示，A^V表示视觉序列特征V^s在文本模态引导下的隐藏表示，

表示

中的参数矩阵，

表示

中的参数矩阵，

表示

中的参数矩阵，

表示

中的参数矩阵，

表示

中的参数矩阵，

表示

中的参数矩阵。

第二个子层是全连接的前馈神经网络(Feed-forward)。

每个子层后面都有一个残差连接模块和归一化模块(Add&Norm)。

将通过协同视觉-文本多头注意力机制得到的文本和视觉特征表示通过协同视觉-文本多头注意力机制的max-pooling，最终得到融合了多模态线索不同层次关系的文本内容特征t^c和视觉内容特征v^c。

具体为：T^s和V^s首先通过视觉-文本的多头注意力模块，利用上述公式得到 A^T和A^V，然后依次通过视觉-文本的多头注意力模块后的Add&norm层、前馈神经网络层、前馈神经网络层后的Add&norm层和max-pooling层得到文本内容特征t^c和视觉内容特征v^c。

对抗训练模块：

对抗训练模块的输入为协同视觉-文本多头注意力模块得到的t^c和v^c、以及多模态预训练模块得到的h^c，将t^c、v^c和h^c拼接起来得到信息帖子P_i的预测标签y_i，具体为通过一个全连接层(即全连接层二)得到该信息帖子P_i的预测标签y_i。

为了增强多模态虚假信息检测模型的鲁棒性，本发明还针对这三类特征进行扰动，利用对抗学习提高模型的抗扰动能力。帖子P_i的真实标签y_i'用于对抗训练，对抗训练模块能够基于预测标签y_i和预测标签y_i对应的真实标签y_i'，通过损失对t^c、v^c和h^c分别进行扰动，对t^c、v^c和h^c进行交替训练得到训练后的基于对抗的多模态虚假信息检测模型。上述损失为文本内容特征扰动后的总体损失

为视觉内容特征扰动后的总体损失

为图文内容特征扰动后的总体损失

或为通过预测标签y_i与真实标签y的交叉熵计算得到的总体损失

对抗训练过程为：

步骤一、通过预测标签y_i与真实标签y的交叉熵计算总体损失

为初始损失，通过总体损失

对这三个特征的梯度计算扰动(计算公式如下的max)，然后将扰动添加进原向量中得到新的损失，步骤二，将用最新的损失对三个特征的梯度求扰动，再得到新的损失即更新损失，步骤三、以更新后的损失返回步骤二，直至收敛。对抗训练时，要根据上一轮总体损失对三个向量t^c、v^c和h^c的梯度计算扰动，然后计算扰动后的损失

然后将扰动后的损失作为总体损失，再计算下一轮的新的扰动。

具体为：第一轮、根据总体损失

(对应图1的损失函数loss:

)，采用公式(1) 对文本内容特征t^c的梯度计算扰动r^t，然后将扰动r^t添加进向量t^c中得到向量 (t^c+r^t)，根据公式(2)得到损失

采用公式(3)对视觉内容特征v^c的梯度计算扰动r^v，然后将扰动r^t添加进向量v^c中得到向量(v^c+r^v)，将(v^c+r^v) 代入公式(4)，根据公式(4)得到损失

采用公式(5)对图文内容特征h^c的梯度计算扰动r^h，然后将扰动r^h添加进向量h^c中得到向量(h^c+r^h)，根据公式(6)得到损失

下一轮(除第一轮外的其他轮)，将最新的

Claims

1.基于对抗的多模态虚假信息检测模型系统，其特征在于，包括：

多模态预训练模块，所述多模态预训练模块能够利用预训练的VL-BERT得到融合了元素级别关系的文本序列特征T^s、融合了元素级别关系的视觉序列特征V^s和融合了元素级别关系的图文内容特征h^c，预训练的VL-BERT的输入元素包括文本元素、视觉元素和标识符元素三类输入元素，每类输入元素均由标记嵌入、视觉特征嵌入、段嵌入和位置嵌入连接而成；所述VL-BERT能够使得每类输入元素均能够根据其自身的位置、类别和内容特征，自适应地聚合来自其他两类输入元素的信息，通过聚合来自其他两类输入元素的信息，文本元素的输出位置向量为文本序列特征T^s，视觉元素的输出位置向量为视觉序列特征V^s，头部的标识符元素的输出位置向量为图文内容特征h^c；

2.如权利要求1所述的基于对抗的多模态虚假信息检测模型系统，其特征在于，所述视觉特征提取模块能够根据输入到其上的输入图片进行感兴趣区域提取，所述视觉特征提取模块能够通过提取输入图片的视觉外观特征表示和视觉几何特征表示得到输入图片的视觉特征嵌入，所述视觉特征提取模块能够通过提取感兴趣区域的视觉外观特征表示和视觉几何特征表示得到感兴趣区域的视觉特征嵌入。

3.如权利要求2所述的基于对抗的多模态虚假信息检测模型系统，其特征在于，所述视觉特征提取模块使用Faster-RCNN进行感兴趣区域的提取，提取得到感兴趣区域的几何位置表示为：

根据

进行不同波长的正余弦变化得到感兴趣区域的视觉几何特征表示，其中，(x_LT，y_LT)代表感兴趣区域的左上角和右下角的横纵坐标，(x_RB，y_RB)代表感兴趣区域的右下角的横纵坐标，W表示感兴趣区域的宽度，H表示感兴趣区域的长度；所述输入图片的几何位置设置为(0，0，1，1)，根据(0，0，1，1)进行不同波长的正余弦变化得到输入图片的视觉几何特征表示；感兴趣区域和

通过残差网络得到感兴趣区域的视觉几何特征，整体图片和(0，0，1，1)通过残差网络得到输入图片的视觉几何特征；输入图片的视觉几何特征和视觉外观特征通过全连接层一的处理得到输入图片的视觉特征嵌入，感兴趣区域的视觉几何特征和视觉外观特征通过全连接层一的处理得到感兴趣区域的视觉特征嵌入。

4.如权利要求1所述的基于对抗的多模态虚假信息检测模型系统，其特征在于，所述文本元素的视觉特征嵌入和标识符元素的视觉特征嵌入均为输入图片的视觉特征嵌入，视觉元素的视觉特征嵌入为感兴趣区域的视觉特征嵌入。

5.如权利要求1所述的基于对抗的多模态虚假信息检测模型系统，其特征在于，所述文本元素的标记嵌入通过对BERT的词典文件中的单词分配Token获得；段嵌入作为区分文本元素与视觉元素的标识符，位置嵌入用于标记输入元素的顺序，所述视觉元素的所有位置嵌入均相同。

6.如权利要求1所述的基于对抗的多模态虚假信息检测模型系统，其特征在于，所述协同视觉-文本多头注意力模块由左右两个对称的部分构成，每部分均由两个子层和位于两个子层后的max-pooling构成，第一个子层为视觉-文本的多头注意力模块，第二个子层是全连接的前馈神经网络，每个子层后面均设有一个残差连接模块和归一化模块。

7.如权利要求6所述的基于对抗的多模态虚假信息检测模型系统，其特征在于，在所述视觉-文本的多头注意力模块中，T^s和V^s互相作为对方的查询，学习文本序列特征T^s在视觉模态引导下的隐藏表示A^T和视觉序列特征V^s在文本模态引导下的隐藏表示A^V，