CN117370679B

CN117370679B - 一种多模态双向蕴含社交网络虚假消息验证的方法及装置

Info

Publication number: CN117370679B
Application number: CN202311656866.3A
Authority: CN
Inventors: 曾令仿; 盛明凯; 程稳; 朱健; 柯洺达
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-03-26
Anticipated expiration: 2043-12-06
Also published as: CN117370679A

Abstract

本发明公开了一种多模态双向蕴含社交网络虚假消息验证的方法及装置，通过图片和文本编码器对原始图片‑文本对进行特征提取，根据其蕴含关系构建对比学习；通过图片和文本编码器提取图片‑文本对所对应的特征；使用回归编码器对特征进行回归转换，对转换后得到的特征构建对比学习过程，使转换后的图片特征、文本特征分别回归到原始图片特征空间、原始文本特征空间内；通过训练好的编码器提取社交网络虚假消息中的图片‑文本对特征；将提取到的特征进行拼接和融合，随后经过分类函数得到虚假消息分类检测结果。通过本发明能充分挖掘两个模态数据之间的互补和蕴含信息，弥补单个模态信息表征不强的缺点，进而提高对社交网络信息的验证检测能力。

Description

一种多模态双向蕴含社交网络虚假消息验证的方法及装置

技术领域

本发明涉及人工智能应用和消息验证领域，尤其涉及一种多模态双向蕴含社交网络虚假消息验证的方法及装置。

背景技术

近些年来，随着科学技术的发展，互联网快速的进入了寻常百姓家。互联网技术的进步使得每一个人有机会接触到大量的实时信息。但于此同时，我们需要对网络上的信息尤其是在社交网络中的虚假信息进行正确的检测和判别。

现存社交网络的信息，已经不单单是图片、文本或是视频，而是各种模态信息的集合。例如微博的博文上一般是文本配图片或视频，在博文的评论区有gif表情包等。在抖音上除了上述情况外，还会出现语音评论的情况。这些多种模态的社交信息极大提高了虚假信息的检测难度；现存的单模态或者多模态检测方法并不能对此进行有效的判断。

得益于神经网络技术的发展和进步，对比学习、Transformer等技术涌现，例如，基于对比学习的方法MoCo和SimCLR等，基于Transformer的ViT网络的图片特征编码器和文本编码器等，使得基于对比学习的多模态方法能在被用来处理社交网络中的图片和文本等多种模态的数据。当前较流行的虚假消息验证算法，大多通过不同的特征提取模型提取各自模态的特征，然后通过两个或多个模态特征相加、拼接、相乘构成一个特征，最后再送入到一个分类函数中进行分类。这类算法天然的存在不足。它们用的多模态的信息依然是独立分开的，并不能充分利用不同模态信息之间的互补性；因此在最终的分类效果上并不能达到最优的效果。而本发明通过基于对比学习的双向蕴含网络，能实现模态特征之间的交互，从而能利用模态之间的互补和蕴含信息；在本发明方法中通过对原始数据集中的成对的图片-文本进行特征抽取，然后送入到对比学习模块，经过充分融合彼此的信息获得多个模态之间互补信息以及双向蕴含关系。这种基于对比多模态双向蕴含的检测方法能充分利用匹配的图片特征和文本特征进行联合检测；从而极大的提升虚假信息的检测精度，有效的降低社交网络中的虚假信息的影响。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种多模态双向蕴含社交网络虚假消息验证的方法及装置。

为实现上述目的，本发明提供了一种多模态双向蕴含社交网络虚假消息验证的方法，包括以下步骤：

（1）通过图片编码器以及文本编码器，对包含社交网络虚假消息的原始数据集中的原始图片-文本对进行特征提取，获取对应的图片特征和文本特征；

（2）基于原始图片-文本对的蕴含关系构建对比学习，将步骤（1）得到的图片特征和文本特征进行对比学习，以训练图片编码器和文本编码器；

（3）通过步骤（2）训练好的图片编码器和文本编码器对原始图片-文本对进行特征提取，并将提取到的图片特征、文本特征分别送入图片-文本回归编码器、文本-图片回归编码器进行回归转换；

（4）对步骤（3）回归转换后的图片到文本特征和文本到图片分别使用对比学习策略，构建对比学习回归过程，将转换后的文本特征回归到其原始图片所对应的原始文本特征空间内、转换后的图片特征回归到其原始文本所对应的原始图片特征空间内，以训练图片-文本回归编码器和文本-图片回归编码器；

（5）通过训练好的图片编码器、文本编码器、图片-文本回归编码器、文本-图片回归编码器，提取社交网络虚假消息中的原始图片-文本对特征；将提取到的特征进行拼接和融合；

（6）将步骤（5）融合后的特征送入到Softmax分类器中进行分类，得到虚假消息分类检测结果。

进一步地，所述步骤（2）中，所述蕴含关系包含在原始数据集的谣言、非谣言、未验证的标签类别数据中，通过标签来标识蕴含关系并构建对比学习。

进一步地，所述步骤（2）中，对比学习过程包括：对提取的图片-文本对特征进行两两配对，构成第一矩阵，然后计算第一矩阵上两两对应的图片特征和文本特征的余弦相似度，使第一矩阵对角线上正样本的图片-文本对余弦相似度最大，其他非对角线上负样本的图片-文本对余弦相似度最小。

进一步地，所述步骤（3）具体为：通过训练好的图片编码器和文本编码器提取原始图片-文本对的图片特征和文本特征，并将提取到的图片特征、文本特征分别送入图片-文本回归编码器和文本-图片回归编码器中，通过训练这两个回归编码器参数将图片特征转换到文本特征、文本特征转换到图片特征，随后把转换后的特征进行对比学习，对图片特征和文本特征进行回归转换，分别获得经过回归转换后的图片到文本特征和文本到图片的特征。

进一步地，所述步骤（4）中，对比学习回归过程包括：将文本特征、图片到文本特征构成第二矩阵，将图片特征、文本到图片特征构成第三矩阵；通过对比学习使转换后的文本特征与原始文本特征相似度最大，通过最大化第二矩阵对角线上正样本的原始文本特征和回归文本特征的余弦相似度，同时最小化非对角线上的负样本的余弦相似度，将转换后的文本特征回归到其原始图片所对应的原始文本特征空间内，以训练图片-文本回归编码器；通过KL散度来最大化第三矩阵对角线上正样本的原始图片特征和回归图片特征的KL散度，使转换后的图片特征和原始图片特征分布相似，将转换后的图片特征回归到其原始文本所对应的原始图片特征空间内，以训练文本-图片回归编码器。

进一步地，所述步骤（5）具体为：通过训练好的图片编码器、文本编码器、图片-文本回归编码器和文本-图片回归编码器，提取社交网络虚假消息中的原始图片-文本对特征，然后通过特征拼接的方式将提取的图片特征和文本特征组成一个特征向量，然后将该特征向量送入Transformer层中进行特征融合，融合后的特征经过线性变换后获得融合特征。

进一步地，所述步骤（6）具体为：将融合的特征输入Softmax分类函数中，获得社交网络虚假消息在谣言、非谣言、未验证的分类结果上的概率，通过选择最大概率对应的分类结果，得到虚假消息分类检测结果。

为实现上述目的，本发明还提供了一种多模态双向蕴含社交网络虚假消息验证的装置，包括一个或多个处理器以及GPU处理器，用于实现上述的多模态双向蕴含社交网络虚假消息验证的方法。

为实现上述目的，本发明还提供了一种电子设备，包括存储器、中央处理器和GPU处理器，所述存储器与所述中央处理器和GPU处理器耦接；其中，所述存储器用于存储程序数据，所述中央处理器和GPU处理器用于执行所述程序数据以实现上述的多模态双向蕴含社交网络虚假消息验证的方法。

为实现上述目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的多模态双向蕴含社交网络虚假消息验证的方法。

与现有技术相比，本发明的有益效果是：

1、本发明利用对比学习策略进行文本和图片之间的关联特征学习，通过图片-文本对之间原本的蕴含关系进行监督，能充分地挖掘文本和图片之间的对应关系，训练较好的图片编码器和文本编码器；

2、本发明为解决文本和图片之间的蕴含关系，使用图片-文本回归模型和文本-图片回归模型分别把各自模态的数据进行特征映射，并两种模态特征进行融合，从而达到了模态融合特的目的；

3、本发明基于双向蕴含的回归策略学习彼此模态之间的信息，能充分利用多个模态之间的互补信息，从而极大的提高了社交网络虚假消息的验证能力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本发明方法的整体结构计算流程图；

图2是本发明中对比学习模块的示意图；

图3是本发明中图片-文本对比回归模块的示意图；

图4是本发明中文本-图片对比回归模块的示意图；

图5是本发明中transformer层的示意图；

图6为本发明装置的示意图；

图7为本发明一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

参见图1，本发明提供的一种多模态双向蕴含社交网络虚假消息验证的方法，基于对比学习策略，在预先收集的社交网络虚假消息数据集上，构建图片编码器、文本编码器、图片-文本回归编码器和文本-图片回归编码器来提取社交网络上的图片与文本的特征，用于虚假消息的验证和识别。该方法包括以下阶段和步骤：

阶段1：

（1）使用基于Transformer模型ViT网络的图片编码器和基于Transformer模型的文本编码器，对包含社交网络虚假消息的原始数据集中的图片-文本对进行特征提取，获取对应的图片特征和文本特征。

具体地，如图1中阶段1所示，对于原始数据集中的图片和文本数据，使用基于Transformer模型ViT网络的图片编码器对图片数据进行特征提取，获得图片的特征，同时使用文本编码器获得与图片对应的文本特征/>。其中/>为特征的数量，/>、/>分别代表原始文本特征、原始图片特征，/>、/>的长度均为2048；除非特别说明，以下相关特征的长度均为2048。

（2）根据原始图片-文本对的蕴含关系，这些蕴含关系包含在原始数据集的谣言、非谣言、未验证的标签类别数据中，通过标签来标识蕴含关系并构建对比学习。将步骤（1）得到的图片特征和文本特征送入到对比学习模块中进行对比学习，通过对比学习训练消息验证模型的图片编码器和文本编码器参数。

在对比学习过程中，如图2左侧的对比学习模块所示，分别对提取到的个图片-文本对特征（即图片特征和文本特征）进行两两配对，构成一个/>的矩阵，使用公式：，计算矩阵上两两对应的图片特征和文本特征的余弦相似度（Cosine Similarity），其中/>、/>分别代表原始文本特征、原始图片特征，下角标为特征对应的索引，/>为特征的数量；使得矩阵对角线上/>个正样本的图片-文本对余弦相似度最大，其他非对角线的/>个非匹配（即负样本）的图片-文本对余弦相似度最小，如图2右侧的图片特征和文本特征分布所示。通过对比学习来训练虚假消息验证的图片编码器和文本编码器的参数，解决社交网络虚假消息验证中对图片和文本特征的提取和表示能力不足的问题。在这一步经过大量的迭代训练，获得比较好的图片编码器和文本编码器。

阶段2：

（3）通过步骤（2）中训练出来的文本编码器和图片编码器对预先收集的社交网络虚假消息的原始数据集中的图片-文本对进行特征提取，并将提取到的图片特征、文本特征分别送入图片-文本回归编码器、文本-图片回归编码器进行回归转换，获得图片特征转换到文本的特征以及文本转换到图片的特征，将图片特征转换到文本特征空间，文本特征转换到图片特征空间；通过回归和对比学习来学习图片、文本这两个模态的互补信息；如图1中阶段2所示。

具体地，使用通过步骤（2）学习到的图片编码器和文本编码器，分别提取原始数据集中的图片-文本对的图片特征和文本特征/>后，分别送入到基于Transformer的图片-文本回归编码器和文本-图片回归编码器。通过训练这两个回归编码器参数分别将图片特征转换到文本特征/>，把文本特征转换到图片特征/>，随后把转换后的特征分别送入到图片-文本对比回归模块和文本-图片对比回归模块进行对比学习。参见图3的图片-文本对比回归模块和图4的文本-图片对比回归模块；通过使用这两个回归模块分别对图片特征和文本特征进行回归转换，分别获得经过回归转换后的图片到文本特征和文本到图片的特征。此转换后的特征实际上是通过一种模态的数据来表示另一种模态的数据，即通过文本特征来表示图片特征，以及通过图片特征来表示文本特征；通过这样的信息交叉表示，就能充分的表示模态信息的交互，从而能挖掘多模态数据之间的互补信息。

（4）对步骤（3）回归转换后的图片到文本的特征和文本到图片分别使用对比学习策略，构建对比学习过程，将转换后的图片特征回归到其原始文本所对应的原始图片的特征空间内、转换后的文本特征回归到其原始图片所对应的原始文本特征空间内，通过对比学习过程来达到训练基于Transformer的图片-文本回归编码器参数和文本-图片回归编码器参数的目的。

具体地，根据步骤（3）中转换后的图片到文本特征和文本到图片特征，在对比模块中，将文本特征、图片到文本特征构成一个的矩阵，将图片特征、文本到图片特征构成一个/>的矩阵。参见图3中的图片-文本回归模块，图片-文本回归模块接受转换后的文本特征/>和其原始图片所对应的原始文本特征/>。在图片-文本对比回归模块中，如图3左侧所示，通过对比学习模块，使转换后的文本特征与原始文本特征相似度最大，如图3右侧所示，为原始文本特征向量与其对应转换后的特征向量示意图，向量有维度dim 1到m个。通过最大化矩阵对角线上正样本的原始文本特征和回归文本特征的余弦相似度（Cosine Similarity），/>，/>、/>分别代表回归文本特征和原始文本特征，下角标/>为特征对应的索引，/>是特征的数量；同时最小化非对角线上的负样本的余弦相似度，将转换后的文本特征回归到其原始图片所对应的原始文本特征空间内，来训练图片-文本回归编码器；与此类似，如图4的文本-图片回归模块所示，文本-图片回归模块接受转换后的图片特征/>和原始图片特征/>。由于图片特征是连续的，不像文本特征一样是独立的特征向量，所以图片特征通过KL散度来进行处理。如图4左侧所示，通过对比学习模块，在训练文本-图片回归编码器时，把获得转换后的图片特征/>送入到对比模块中，使用KL散度/>来最大化对角线上正样本的原始图片特征和回归图片特征的KL散度，使转换后的图片特征和原始的图片特征在分布上是相似的；其中/>是转换后的图片特征概率分布函数符号，/>为原始图片特征概率分布函数符号，/>与/>分别为转换后的图片特征和原始图片特征，x为具体的某一项特征。如图4右侧所示，分别为原始图片的特征分布和转换后的图片特征分布示意；将转换后的图片特征回归到其原始文本所对应的原始图片特征空间内，来训练文本-图片回归编码器参数；训练编码器参数等同于训练编码器。

阶段3：

（5）使用训练好的图片编码器、文本编码器、图片-文本回归编码器、文本-图片回归编码器，提取社交网络虚假消息中的原始图片-文本对特征，并将提取的图片特征和文本特征进行拼接和融合。通过提取和融合特征，为虚假消息检测提供分类的特征支持。

具体地，使用通过步骤（1）-步骤（4）训练好的图片编码器、文本编码器、图片-文本回归编码器和文本-图片回归编码器提取原始收集的社交网络虚假消息数据集中的图片-文本对的特征，然后通过特征拼接的方式将提取的图片特征和文本特征组成一个全局的特征向量，/>的长度为8192，参见图5，送入Transformer层进行特征融合，融合后的特征经过一个线性变换后获得最后的融合特征/>，/>的长度为3。其中Q、K和V为/>与不同的权重矩阵相乘所实现的线性变换操作所得，Q为经过线性变换后的查询特征矩阵，K为经过线性变换后的键特征矩阵，V为经过线性变换后的值特征矩阵，T为特征向量的一个数学操作，即矩阵转置，/>是/>的维度。

（6）将融合后的特征送入到Softmax分类器中进行分类，获得最终的虚假消息分类检测结果。

具体地，获得融合的特征后，将融合的特征/>输入Softmax分类函数中，获得社交网络虚假消息在3个分类结果上的概率，即社交网络虚假消息为谣言、非谣言、未验证的概率。其中/>为索引为i的特征向量；通过选择最大的概率对应的分类结果，获得最终的虚假消息分类检测结果。

通过阶段1-阶段3的多轮训练，本方法中涉及到的图片编码器、文本编码器、图片-文本回归编码器和文本-图片回归编码器均得到了有效的训练，图片编码器、文本编码器获得社交网络中文本和图片模态信息的表示能力；图片-文本回归编码器和文本-图片回归编码获得表示两个模态数据之间的互补能力。

对于社交网络上的未验证的图片和文本信息，将图片输入图片编码器和图片-文本回归编码器，获得两个长度均为2048的图片特征和文本特征；将文本信息输入到文本编码和文本图片回归编码器，获得两个长度均为2048的文本特征和图片特征；对这4个特征进行拼接得到长度为8192的全局特征，将全局特征送入到Transformer层进行融合和线性变换，最后再送入到Softmax分类层进行分类，得到最终的社交网络虚假消息检测结果。

与前述多模态双向蕴含社交网络虚假消息验证的方法的实施例相对应，本发明还提供了一种多模态双向蕴含社交网络虚假消息验证的装置的实施例。

参见图6，本发明实施例提供的多模态双向蕴含社交网络虚假消息验证的装置，包括一个或多个处理器，以及GPU处理器，用于实现上述实施例中的多模态双向蕴含社交网络虚假消息验证的方法。

本发明多模态双向蕴含社交网络虚假消息验证的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明多模态双向蕴含社交网络虚假消息验证的装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的中央处理器、内存、网络接口、以及非易失性存储器，GPU处理器，I/O设备之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

与前述多模态双向蕴含社交网络虚假消息验证的方法实施例相对应，本申请实施例还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的多模态双向蕴含社交网络虚假消息验证的方法。如图7所示，为本申请实施例提供的多模态双向蕴含社交网络虚假消息验证的方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的中央处理器、内存、GPU处理器器、存储器、I/O设备、DMA控制器、磁盘、以及非易失内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

与前述多模态双向蕴含社交网络虚假消息验证的方法的实施例相对应，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的多模态双向蕴含社交网络虚假消息验证的方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述内容仅为本发明的较佳实施例，不能因此而理解为对本发明专利的范围的限制。对本领域的技术人员而言，进行各种变化、组合、简化、修饰、替代和重新调整等，均应为等效的置换方式，不会脱离本发明的保护范围。因此，虽然通过上述实施示例对本发明进行了较为详细的描述，但是本发明不仅仅限于以上实施示例，在本发明的保护范围之内，还包括更多其它等效实施示例。

Claims

1.一种多模态双向蕴含社交网络虚假消息验证的方法，其特征在于，包括以下步骤：

（3）通过步骤（2）训练好的图片编码器和文本编码器对原始图片-文本对进行特征提取，并将提取到的图片特征、文本特征分别送入图片-文本回归编码器、文本-图片回归编码器进行回归转换；包括：通过训练好的图片编码器和文本编码器提取原始图片-文本对的图片特征和文本特征，并将提取到的图片特征、文本特征分别送入图片-文本回归编码器和文本-图片回归编码器中，通过训练这两个回归编码器参数将图片特征转换到文本特征、文本特征转换到图片特征，随后把转换后的特征进行对比学习，对图片特征和文本特征进行回归转换，分别获得经过回归转换后的图片到文本特征和文本到图片的特征；

（4）对步骤（3）回归转换后的图片到文本特征和文本到图片分别使用对比学习策略，构建对比学习回归过程，将转换后的文本特征回归到其原始图片所对应的原始文本特征空间内、转换后的图片特征回归到其原始文本所对应的原始图片特征空间内，以训练图片-文本回归编码器和文本-图片回归编码器；所述对比学习回归过程包括：将文本特征、图片到文本特征构成第二矩阵，将图片特征、文本到图片特征构成第三矩阵；通过对比学习使转换后的文本特征与原始文本特征相似度最大，通过最大化第二矩阵对角线上正样本的原始文本特征和回归文本特征的余弦相似度，同时最小化非对角线上的负样本的余弦相似度，将转换后的文本特征回归到其原始图片所对应的原始文本特征空间内，以训练图片-文本回归编码器；通过KL散度来最大化第三矩阵对角线上正样本的原始图片特征和回归图片特征的KL散度，使转换后的图片特征和原始图片特征分布相似，将转换后的图片特征回归到其原始文本所对应的原始图片特征空间内，以训练文本-图片回归编码器；

2.根据权利要求1所述的多模态双向蕴含社交网络虚假消息验证的方法，其特征在于，所述步骤（2）中，所述蕴含关系包含在原始数据集的谣言、非谣言、未验证的标签类别数据中，通过标签来标识蕴含关系并构建对比学习。

3.根据权利要求1所述的多模态双向蕴含社交网络虚假消息验证的方法，其特征在于，所述步骤（2）中，对比学习过程包括：对提取的图片-文本对特征进行两两配对，构成第一矩阵，然后计算第一矩阵上两两对应的图片特征和文本特征的余弦相似度，使第一矩阵对角线上正样本的图片-文本对余弦相似度最大，其他非对角线上负样本的图片-文本对余弦相似度最小。

4.根据权利要求1所述的多模态双向蕴含社交网络虚假消息验证的方法，其特征在于，所述步骤（5）具体为：通过训练好的图片编码器、文本编码器、图片-文本回归编码器和文本-图片回归编码器，提取社交网络虚假消息中的原始图片-文本对特征，然后通过特征拼接的方式将提取的图片特征和文本特征组成一个特征向量，然后将该特征向量送入Transformer层中进行特征融合，融合后的特征经过线性变换后获得融合特征。

5.根据权利要求1所述的多模态双向蕴含社交网络虚假消息验证的方法，其特征在于，所述步骤（6）具体为：将融合后的特征输入Softmax分类函数中，获得社交网络虚假消息在谣言、非谣言、未验证的分类结果上的概率，通过选择最大概率对应的分类结果，得到虚假消息分类检测结果。

6.一种多模态双向蕴含社交网络虚假消息验证的装置，其特征在于，包括一个或多个处理器以及GPU处理器，用于实现权利要求1-5中任一项所述的多模态双向蕴含社交网络虚假消息验证的方法。

7.一种电子设备，包括存储器和处理器，其特征在于，包括存储器、中央处理器和GPU处理器，所述存储器与所述中央处理器和GPU处理器耦接；其中，所述存储器用于存储程序数据，所述中央处理器和GPU处理器用于执行所述程序数据以实现上述权利要求1-5任一项所述的多模态双向蕴含社交网络虚假消息验证的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5任一项所述的多模态双向蕴含社交网络虚假消息验证的方法。