CN116452939A

CN116452939A - 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Info

Publication number: CN116452939A
Application number: CN202310527271.1A
Authority: CN
Inventors: 于慧敏; 毛莺池; 潘祯祥; 熊力; 戚荣志; 陈秉睿; 李畅
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-18

Abstract

本发明公开一种基于多模态实体融合与对齐的社交媒体多模态虚假信息检测方法，包括：1)获取社交媒体博文中的文本和图像；2)文本‑图像实体特征提取；3)文本‑图像融合实体特征提取，将文本实体特征和视觉实体特征进行多模态特征融合，提取每个文本实体特征和每个视觉实体特征融合后的融合实体特征；4)文本‑图像实体特征对齐，将文本实体特征和融合实体特征进行多模态特征对齐，计算它们之间的整体相似度；5)社交媒体博文检测，将文本实体特征与融合实体特征之间的整体相似度使用二值分类器确定社交媒体博文检测的结果。本发明能够检测到更细粒度的信息，又能够结合文本信息，能够保留完整语义信息，提高虚假信息检测的准确率。

Description

基于多模态实体融合与对齐的社交媒体虚假信息检测方法

技术领域

本发明涉及一种基于多模态实体融合与对齐的社交媒体虚假信息检测方法，具体是一种检测社交媒体博文中图像和文本信息的匹配性，属于假新闻检测技术领域。

背景技术

随着互联网的发展，社交媒体平台在人们的生活中越来越重要，成为人们了解时事新闻、分享生活的重要工具，同时在现代社会的博文报道和信息传播中发挥着关键作用。根据皮尤研究中心最近的一项研究，62％的人从社交媒体上获取博文，其中18％的人是社交媒体的重度用户。社交媒体平台越来越多地被用作收集社会问题等信息和了解紧急情况最新进展的工具。通常，当出现突发博文时，其相关信息往往是碎片化的，导致很大一部分信息在发布时未经核实，其中一些后来被证明是错误的。因此，社交媒体上的虚假信息很普遍。

转发无关图片或文字捏造是典型的社交媒体虚假信息制造方式，这些信息的广泛传播不仅会影响社会的公信力，而且在现实生活中也会造成严重的后果。虚假信息的传播速度是真实信息的6到20倍。同时，研究显示，图片博文的平均转发量是纯文字博文的11倍。这种基于多模态内容的虚假信息比纯文本的虚假信息更具威力和挑战性。因此，多模态虚假信息越来越普遍，危害性也越来越大，迫切需要开发一种自动化识别社交媒体中的多模态虚假信息框架。然而虚假信息中的视觉模态和文本模态的语义都存在于异构的表示空间中，从而导致模型无法直接对其相关性进行检测。目前都通过图像文本匹配技术进行虚假信息检测，但没有考虑到模态的高级语义信息和不同模态实体之间的关系匹配。

发明内容

发明目的：针对模型检测社交媒体多模态虚假信息检测时模态语义信息提取不完整的问题，本发明提供了一种基于多模态实体融合与对齐的社交媒体多模态虚假信息检测方法。为了提取模态的高级语义信息以及捕捉到不同模态内实体之间关系的细粒度相互作用，首先分别独立提取社交媒体博文中文本和图像的实体特征，视觉实体特征基于ResNet-101的Faster R-CNN网络和公共的API提取，文本实体特征基于BERT和Bi-GRU网络提取。其次为了保证视觉模态的语义完整性，利用动态路由机制将文本实体和视觉实体融合形成融合实体特征表示。然后为了捕捉文本和图像之间的细粒度相互作用，分别为文本实体与融合实体构造图结构，并在关系级匹配中只需要识别节点之间是否有交互，通过图卷积层将节点向量沿其图边传播到领域节点，利用其领域节点向量更新节点向量，聚焦节点之间的对应关系推导，综合考虑所有短语的对应关系以获得文本-图像的整体相似度。最后采用带有softmax函数的全连接层的分类器，根据上一阶段获得的整体相似度将博文分类为真实信息或虚假信息两个结果。

技术方案：一种基于多模态实体融合与对齐的社交媒体虚假信息检测方法，包括如下步骤：

(1)文本-图像实体特征提取，利用预训练的语言表征模型、目标检测模型和公共API分别提取社交媒体博文中文本和视觉的实体特征，分别得到文本实体特征向量和视觉实体特征向量；

(2)文本-图像融合实体特征提取，对于步骤(1)中提取到的文本实体特征向量和视觉实体特征向量，利用动态路由机制提取每个文本实体特征和每个视觉实体特征融合后的融合实体特征，得到融合实体特征向量；

(3)文本-图像实体特征对齐，对于步骤(1)中提取到的文本实体特征向量和步骤(2)中生成的融合实体特征向量，利用图卷积层对齐文本实体特征和融合实体特征，计算文本实体特征和融合实体特征的整体相似度；

(4)社交媒体博文检测，将步骤(3)中获得的整体相似度输入到二值分类器中，利用二值分类器中带有softmax激活函数的全连接层投射文本实体特征和融合实体特征的整体相似度到真实信息和虚假信息两类目标空间，并得到社交媒体博文的检测结果。

所述(1)中，定义一张图像I和一段文本T，首先使用基于Resnet-101的Faster R-CNN提取视觉区域特征，其次利用公共的API检测图像中的视觉实体，将视觉区域征和视觉实体连接作为视觉实体特征，最后利用BERT和Bi-GRU网络提取文本实体特征。

进一步的，所述(1)中，文本实体特征和视觉实体特征提取的具体步骤如下：

(1.1)文本实体特征提取：采用词性分析工具对博文文本中的每个单词进行词性分析，然后利用预训练的BERT模型显式提取文本中名词的特征表示，最后使用双向门控循环单元(Bi-GRU)获得更深层特征，该单元能够将向前和向后上下文信息集成到文本嵌入中，最终将文本实体特征向量为TE＝{te₁,...,te_M}，其中te_i∈TE(1≤i≤M)表征文本中的第i个实体特征，其中M为超参数，代表一段文本中提取的实体数；

(1.2)视觉区域特征提取：选取基于ResNet-101的Faster R-CNN提取视觉区域特征，得到视觉区域特征向量H_v＝{v₁,...,v_N}，其中v_j∈H_v(1≤j≤N)表征图像的第j个ROI特征，N为超参数，代表一幅图像提取的ROI总数；

(1.3)视觉实体特征提取：采用公共API检测图像中的名人或地标视觉实体P_v和L_v，最终将名人和地标视觉实体P_v和L_v与视觉区域特征连接作为视觉实体特征向量VE＝[H_v,P_v,L_v]。

所述(2)中，将步骤(1.1)中提取到的文本实体特征向量和步骤(1.3)中提取到的视觉实体特征向量进行多模态特征融合；融合过程由K层网络结构组成，每层网络结构都利用动态路由机制提取每个文本实体特征和每个视觉实体特征的融合实体特征；

进一步的，所述(2)中，提取文本实体特征和视觉实体特征的融合实体特征具体步骤如下：

(2.1)首先初始化(1表示融合过程中的第1层网络结构)，度量每个文本实体特征te_i与每个视觉实体特征ve_j ^T的对齐程度，如式(1)所示：

(2.2)利用softmax函数对(k表示融合过程中的第k层网络结构)进行归一化，得到一个对齐的分布/>如式(2)所示：

(2.3)以注意力机制的方式对所有文本实体特征进行加权和，因而文本实体特征就被组装为第j个视觉实体，得到文本实体加权特征表示如式(3)所示：

表示对齐分布/>中的第i个值，相当于是一个权重系数。

(2.4)利用非线性激活函数squashing测量当前第j个视觉实体是否存在于文本实体加权特征表示中，得到含有对齐文本实体信息的特征表示/>如式(4)所示：

(2.5)通过引入一个门控机制，将的值作为门值，并将ve_j ^k和/>组合在一起来更新相应视觉实体的表示，如下式所示：

ve_j ^k表示融合过程中第k层网络结构的某个视觉实体特征向量。

(2.6)最后，更新以重新测量te_i与更新后的/>(k+1表示融合过程中的第k+1层网络结构)之间的对齐如式(7)所示：

(2.7)(2.2)到(2.6)之间的过程在达到K次迭代后停止，并且从文本实体中得到的特征表示VE^K＝[ve₁ ^K,...,ve_j ^K,...,ve_M ^K]是文本实体特征与视觉实体特征融合后的融合实体特征表示。为了方便表示，在以下表述中将融合实体特征表示VE^K＝[ve₁ ^K,...,ve_j ^K,...,ve_M ^K]重新定义为融合实体特征表示AE＝[ae₁,...,ae_j,...,ae_M]。

所述(3)中，将步骤(1.1)中提取到的文本实体特征向量和步骤(2.7)中提取的融合实体特征表示进行多模态特征对齐，分别为步骤(1.1)中提取到的文本实体和步骤(2.7)中提取到的融合实体构造文本图和视觉图，然后通过图卷积层执行关系级匹配，学习短语对应关系，即通过将相关节点沿图边传播到领域节点，共同推断实体之间的细粒度对应关系以此计算文本-图像的整体相似度。

进一步的，所述(3)中计算文本实体特征和融合实体特征的整体相似度，具体步骤如下：

(3.1)为社交媒体博文中的一段文本构造一个无向稀疏图G₁＝(V₁,E₁)，也称为文本图，V₁表示文本图的节点集合，E₁表示文本图的边集合，用矩阵A表示每个节点的相邻矩阵，并添加自循环。边权用矩阵W_e表示，表示节点的语义依赖关系。将文本中的每个实体设置为图节点，如果节点之间语义相关，则节点之间存在图边，计算第x个节点和第y个节点之间的相似度矩阵S如式(8)所示：

其中的λ是一个比例因子，te_x ^T表示第x个文本实体特征向量的转置，te_y表示第y个文本实体特征向量，M表示一段文本中的实体数；

(3.2)节点之间的边权矩阵可以通过相似度矩阵和相邻矩阵之间的Hadamard乘积，然后进行L₂归一化得到，如式(9)所示：

(3.3)为社交媒体博文中的每个图像构造一个无向全连通图G₂＝(V₂,E₂)，也称为视觉图，V₂表示视觉图的节点集合，E₂表示视觉图的边集合，由于融合实体是文本实体与原视觉实体融合之后的新视觉实体表示，因此将节点设置为每一个融合实体。通过使用极坐标对每个图像的空间关系建模，解耦图像成对区域的方向和距离，进而捕获不同区域之间的语义和空间关系。并且通过计算图像成对区域的边界框的中心的极坐标(ρ,θ)得到边权矩阵W_e。

(3.4)应用GCN层融合相邻节点更新每个节点向量，具体地说，GCN层应用L个kernel函数分别学习视觉图和文本图如何融合相邻节点向量如式(10)、(11)所示：

其中M_i和N_i分别表示视觉图和文本图中第i个节点的相邻节点，W_l和b表示第l个kernel要学习的参数。在应用了L个kernel，空间卷积的输出就被定义为L个kernel输出的串联，生成了连接节点关系的卷积向量，这些连接的节点形成了局部短语；

(3.5)将步骤(3.4)生成的卷积向量输入到多层感知器(Multi-LayerPerception,MLP)，共同考虑所有短语的对应关系，并推断视觉图和文本图的相似度g(G₁,G₂)，如式(12)所示：

其中W_s ^a，表示视觉图中的MLP参数，W_s ^t，/>表示文本图中的MLP参数，W_h ^a，/>表示权重矩阵，/>表示偏置项，σ函数表示激活函数，M表示一段文本中文本实体的数量，N表示一张图像中视觉实体的数量。

所述(4)中，利用带有softmax函数的全连接层将步骤(3.5)中获得的文本-图像的整体相似度g(G₁,G₂)映射到真实信息和虚假信息两类目标空间，以此得到社交媒体博文检测结果，具体步骤如下：

(4.1)在获得最终的多模态特征表示g(G₁,G₂)之后，多模态特征表示就是文本-图像的整体相似度，利用一个带有softmax函数的全连接层将g(G₁,G₂)投射到只有两个类别(real或fake)的目标空间中，并得到g(G₁,G₂)概率分布，如式(13)所示：

p＝softmax(Wg(G₁,G₂)+b) (13)

其中p＝[p₀,p₁]表示预测概率向量，p₀和p₁分别表示当前多模态特征表示的预测概率为0(real)和1(fake)。W是权重矩阵，b是偏差项；

(4.2)对于每一篇博文，目标是最小化二进制交叉熵损失函数，如式(14)所示：

L_p＝-[rlog₂p₀+(1-r)logp₁] (14)

其中r∈{0,1}表示真值。

一种基于多模态实体融合与对齐的社交媒体虚假信息检测系统，包括文本实体特征提取、视觉实体特征提取、文本-图像融合实体特征提取、文本-图像实体特征对齐、社交媒体博文检测五个模块；

所述文本实体特征提取模块首先提取文本单词词性，将文本中的名词单词编码输入到BERT和Bi-GRU模型中，提取得到文本实体特征向量；

所述视觉实体特征模块，首先基于ResNet-101的Faster R-CNN提取视觉区域特征，然后基于公共API提取图像中的视觉实体，最后将两者连接得到视觉实体特征向量；

所述文本-图像融合实体特征提取模块，将文本实体特征向量和视觉实体特征向量进行多模态特征融合，输出得到文本实体和视觉实体融合后的融合实体特征表示；

所述文本-图像实体特征对齐模块，将文本实体特征和融合实体特征进行多模态特征对齐，利用图卷积层计算文本-图像之间的整体相似度；

所述社交媒体博文检测模块，将文本-图像之间的整体相似度输入到带有softmax函数的全连接层中，得到社交媒体博文是真实信息或虚假信息的检测结果。

有益效果：针对在实际应用中提取的模态语义信息不够完整和执行跨模态交互时未考虑不同模态内实体之间的关系对齐的问题。本发明采用三阶段策略检测虚假信息。第一阶段采用改进的动态路由算法将文本实体和视觉实体分别当作主胶囊和数字胶囊，并从主胶囊到数字胶囊收集对齐信息，形成融合实体的表示形式，保证模态语义信息的完整性。第二阶段采用图结构匹配网络进一步捕获不同模态中实体之间语义关系的对应关系，首先为融合实体与原文本实体构建图结构，然后在关系级匹配中只需要识别节点之间是否有交互，通过图卷积层将节点向量沿其图边传播到邻域节点，利用其邻域节点向量更新节点向量，聚焦节点之间的对应关系推导，最后综合考虑所有短语的对应关系以获得图像文本的整体相似度。第三阶段采用带有softmax函数的全连接层的分类器并根据上一阶段获得的整体相似度将博文分类为真实信息或虚假信息两个结果。本发明的方法得到的虚假信息检测模型能够有效获得准确检测结果。

附图说明

图1为本发明实施例的基于多模态实体融合与对齐的虚假信息检测方法(MFAE)的框架图；

图2为本发明实施例的文本实体特征提取流程图；

图3为本发明实施例的融合实体更新过程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的基于多模态实体融合与对齐的虚假信息检测方法，具体包含以下步骤：

(1)社交媒体博文中文本-图像实体特征提取：利用预训练的语言表征模型、目标检测模型和公共API分别提取社交媒体博文中文本和视觉的实体特征。文本实体特征和视觉实体特征提取的具体步骤如下：

(1.1)文本实体特征提取：采用词性分析工具对文本中的每个单词进行词性分析，然后利用预训练的BERT模型显式提取文本中名词的特征表示，最后使用双向门控循环单元(Bi-GRU)获得更深层特征，该单元能够将向前和向后上下文信息集成到文本嵌入中，最终将文本实体特征表示为TE＝{te₁,...,te_M}，其中te_i∈TE(1≤i≤M)表征文本中的第i个实体特征，其中M为超参数，代表一段文本中提取的实体数，如图2所示；

(1.3)视觉实体特征提取：采用公共API检测图像中的名人或地标视觉实体P_v和L_v，最终将其与视觉区域特征连接作为视觉实体特征表示VE＝[H_v,P_v,L_v]。

(2)文本-图像融合实体特征提取：将步骤(1.1)中提取到的文本实体特征向量和步骤(1.3)中提取到的视觉实体特征向量进行多模态特征融合，具体融合过程如图3所示，输出得到文本实体和视觉实体融合后的融合实体特征表示。融合过程由K层网络结构组成，每层网络结构都利用动态路由机制提取每个文本实体特征和每个视觉实体特征的融合实体特征。

动态路由机制具体描述如下：

(2.1)首先初始化(1表示融合过程中的第1层网络结构)，度量每个文本实体te_i与每个视觉实体ve_j ^T的对齐程度，如式(1)所示：

(2.3)以类似于注意力机制的方式对所有文本实体进行加权和，因而文本实体就被组装为第j个视觉实体，得到文本实体加权特征表示如式(3)所示：

(2.7)该过程在达到K次迭代后停止，并且从文本实体中得到的特征表示VE^K＝[ve₁ ^K,...,ve_j ^K,...,ve_M ^K]是文本实体特征与视觉实体特征融合后的融合实体特征表示。为了方便表示，在以下表述中将融合实体特征表示VE^K＝[ve₁ ^K,...,ve_j ^K,...,ve_M ^K]重新定义为融合实体特征表示AE＝[ae₁,...,ae_j,...,ae_M]。

(3)文本-图像实体特征对齐：将步骤(1.1)中提取到的文本实体特征向量和步骤(2.7)中提取的融合实体特征表示进行多模态特征对齐，分别为步骤(1.1)中提取到的文本实体和步骤(2.7)中提取到的融合实体构造文本图和视觉图，然后通过图卷积层执行关系级匹配，学习短语对应关系，即通过将相关节点沿图边传播到领域节点，共同推断实体之间的细粒度对应关系以此计算文本-图像的整体相似度。

计算文本-图像整体相似度的具体步骤如下：

(3.1)为社交媒体博文中的一段文本构造一个无向稀疏图G₁＝(V₁,E₁)，用矩阵A表示每个节点的相邻矩阵，并添加自循环。边权用矩阵W_e表示，表示节点的语义依赖关系。将文本中的每个实体设置为图节点，如果节点之间语义相关，则节点之间存在图边，计算第x个节点和第y个节点之间的相似度矩阵S如式(8)所示：

其中的λ是一个比例因子；

(3.2)节点之间的边权矩阵可以通过相似度矩阵和相邻矩阵之间的Hadamard乘积，然后进行L₂归一化，如式(10)所示。

(3.3)为每个图像构造一个无向全连通图G₂＝(V₂,E₂)，由于融合实体是与文本实体融合之后的视觉实体表示，因此将节点设置为每一个融合实体。通过使用极坐标对每个图像的空间关系建模，解耦图像成对区域的方向和距离，进而捕获不同区域之间的语义和空间关系。并且通过计算图像成对区域的边界框的中心的极坐标(ρ,θ)得到边权矩阵W_e；

其中W_s ^a，表示视觉图中的MLP参数，W_s ^t，/>表示文本图中的MLP参数，W_h ^a，/>表示权重矩阵，/>表示偏置项，σ函数表示激活函数。

(4)社交媒体博文检测：利用带有softmax函数的全连接层将步骤(3.5)中获得的文本-图像的整体相似度映射到真实信息和虚假信息两类目标空间，以此得到社交媒体博文检测结果，具体步骤如下：

(4.1)在获得最终的多模态特征表示之后，利用一个带有softmax函数的全连接层将g(G₁,G₂)投射到只有两个类别(real或fake)的目标空间中，并得到其概率分布，如式(13)所示：

p＝softmax(Wg(G₁,G₂)+b) (13)

L_p＝-[ylogp₀+(1-y)logp₁] (14)

其中y∈{0,1}表示真值。

文本实体特征提取模块首先提取文本单词词性，将文本中的名词单词编码输入到BERT和Bi-GRU模型中，提取得到文本实体特征向量；

视觉实体特征模块，首先基于ResNet-101的Faster R-CNN提取视觉区域特征，然后基于公共API提取图像中的视觉实体，最后将两者连接得到视觉实体特征向量；

文本-图像融合实体特征提取模块，将文本实体特征向量和视觉实体特征向量进行多模态特征融合，输出得到文本实体和视觉实体融合后的融合实体特征表示；

文本-图像实体特征对齐模块，将文本实体特征和融合实体特征进行多模态特征对齐，利用图卷积层计算文本-图像之间的整体相似度；

社交媒体博文检测模块，将文本-图像之间的整体相似度输入到带有softmax函数的全连接层中，得到社交媒体博文是真实信息或虚假信息的检测结果。

参数的设置和实验评价标准如下：

A参数设置：

以下为几个影响MFAE模型的参数：迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、融合实体更新次数K、文本图中第x个节点和第y个节点之间的相似度比例因子λ、社交媒体博文中提取视觉实体数量N。

表1 MFAE模型训练参数设置

B评价指标：

所涉及的评价指标为现有方法统一使用的指标组合，包括：Accuracy、Precision、Recall和F1-Score。

根据以上实施例可知，针对模型在检测社交媒体虚假信息中提取到的模态语义信息不完整问题，本发明通过提取多模态实体特征能够使模型在高级语义层面集成多模态信息，能够检测到更细粒度的信息；本发明利用动态路由机制生成的融合实体既能保留原始视觉信息，又能够结合文本信息，能够保留完整语义信息。本发明基于图卷积网络生成的图像文本匹配结果能够捕获不同模态内实体之间的细粒度对应关系，提高虚假信息检测的准确率。

Claims

1.一种基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，包括如下步骤：

(1)文本-图像实体特征提取，提取社交媒体博文中文本和视觉的实体特征，分别得到文本实体特征向量和视觉实体特征向量；

2.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(1)中，定义一张图像I和一段文本T，首先使用基于Resnet-101的FasterR-CNN提取视觉区域特征，其次利用公共的API检测图像中的视觉实体，将视觉区域征和视觉实体连接作为视觉实体特征，最后利用BERT和Bi-GRU网络提取文本实体特征。

3.根据权利要求2所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(1)中，文本实体特征和视觉实体特征提取的具体步骤如下：

(1.1)文本实体特征提取：采用词性分析工具对博文文本中的每个单词进行词性分析，然后利用预训练的BERT模型显式提取文本中名词的特征表示，最后使用双向门控循环单元获得更深层特征，该单元能够将向前和向后上下文信息集成到文本嵌入中，最终将文本实体特征向量为TE＝{te₁,...,te_M}，其中te_i∈TE(1≤i≤M)表征文本中的第i个实体特征，其中M为超参数，代表一段文本中提取的实体数；

4.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(2)中，将文本实体特征向量和视觉实体特征向量利用动态路由机制提取每个文本实体特征和每个视觉实体特征的融合实体特征。

5.根据权利要求4所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(2)中，提取文本实体特征和视觉实体特征的融合实体特征具体步骤如下：

(2.1)首先初始化度量每个文本实体特征te_i与每个视觉实体特征ve_j ^T的对齐程度，如式(1)所示：

(2.2)利用softmax函数对进行归一化，得到一个对齐的分布/>如式(2)所示：

表示对齐分布/>中的第i个值，相当于是一个权重系数。

ve_j ^k表示融合过程中第k层网络结构的某个视觉实体特征向量；

(2.6)最后，更新以重新测量te_i与更新后的/>之间的对齐如式(7)所示：

(2.7)(2.2)到(2.6)之间的过程在达到K次迭代后停止，并且从文本实体中得到的特征表示VE^K＝[ve₁ ^K,...,ve_j ^K,...,ve_M ^K]是文本实体特征与视觉实体特征融合后的融合实体特征表示；为了方便表示，在以下表述中将融合实体特征表示VE^K＝[ve₁ ^K,...,ve_j ^K,...,ve_M ^K]重新定义为融合实体特征表示AE＝[ae₁,...,ae_j,...,ae_M]。

6.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(3)中，将文本实体特征向量和融合实体特征表示进行多模态特征对齐，分别为文本实体和融合实体构造文本图和视觉图，然后通过图卷积层执行关系级匹配，学习短语对应关系，即通过将相关节点沿图边传播到领域节点，共同推断实体之间的细粒度对应关系以此计算文本-图像的整体相似度。

7.根据权利要求6所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(3)中计算文本实体特征和融合实体特征的整体相似度，具体步骤如下：

(3.1)为社交媒体博文中的一段文本构造一个无向稀疏图G₁＝(V₁,E₁)，也称为文本图，V₁表示文本图的节点集合，E₁表示文本图的边集合，用矩阵A表示每个节点的相邻矩阵，并添加自循环；边权用矩阵W_e表示，表示节点的语义依赖关系；将文本中的每个实体设置为图节点，如果节点之间语义相关，则节点之间存在图边，计算第x个节点和第y个节点之间的相似度矩阵S如式(8)所示：

(3.3)为社交媒体博文中的每个图像构造一个无向全连通图G₂＝(V₂,E₂)，也称为视觉图，V₂表示视觉图的节点集合，E₂表示视觉图的边集合，由于融合实体是文本实体与原视觉实体融合之后的新视觉实体表示，因此将节点设置为每一个融合实体；通过使用极坐标对每个图像的空间关系建模，解耦图像成对区域的方向和距离，进而捕获不同区域之间的语义和空间关系；并且通过计算图像成对区域的边界框的中心的极坐标(ρ,θ)得到边权矩阵W_e；

其中M_i和N_i分别表示视觉图和文本图中第i个节点的相邻节点，W_l和b表示第l个kernel要学习的参数；在应用了L个kernel，空间卷积的输出就被定义为L个kernel输出的串联，生成了连接节点关系的卷积向量，这些连接的节点形成了局部短语；

(3.5)将步骤(3.4)生成的卷积向量输入到多层感知器，共同考虑所有短语的对应关系，并推断视觉图和文本图的相似度g(G₁,G₂)，如式(12)所示：

其中表示视觉图中的MLP参数，/>表示文本图中的MLP参数，/>表示权重矩阵，/>表示偏置项，σ函数表示激活函数，M表示一段文本中文本实体的数量，N表示一张图像中视觉实体的数量。

8.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法，其特征在于，所述(4)中，利用带有softmax函数的全连接层将步骤(3.5)中获得的文本-图像的整体相似度g(G₁,G₂)映射到真实信息和虚假信息两类目标空间，以此得到社交媒体博文检测结果，具体步骤如下：

(4.1)在获得文本-图像的整体相似度g(G₁,G₂)之后，利用一个带有softmax函数的全连接层将g(G₁,G₂)投射到只有两个类别(real或fake)的目标空间中，并得到g(G₁,G₂)概率分布，如式(13)所示：

p＝softmax(Wg(G₁,G₂)+b) (13)

其中p＝[p₀,p₁]表示预测概率向量，p₀和p₁分别表示当前多模态特征表示的预测概率为0(0表示real)和1(1表示fake)；W是权重矩阵，b是偏差项；

L_p＝-[rlog₂p₀+(1-r)logp₁] (14)

其中r∈{0,1}表示真值。

9.一种基于多模态实体融合与对齐的社交媒体虚假信息检测系统，包括文本实体特征提取、视觉实体特征提取、文本-图像融合实体特征提取、文本-图像实体特征对齐、社交媒体博文检测五个模块；