CN116452939A - 基于多模态实体融合与对齐的社交媒体虚假信息检测方法 - Google Patents

基于多模态实体融合与对齐的社交媒体虚假信息检测方法 Download PDF

Info

Publication number
CN116452939A
CN116452939A CN202310527271.1A CN202310527271A CN116452939A CN 116452939 A CN116452939 A CN 116452939A CN 202310527271 A CN202310527271 A CN 202310527271A CN 116452939 A CN116452939 A CN 116452939A
Authority
CN
China
Prior art keywords
entity
text
visual
fusion
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310527271.1A
Other languages
English (en)
Inventor
于慧敏
毛莺池
潘祯祥
熊力
戚荣志
陈秉睿
李畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202310527271.1A priority Critical patent/CN116452939A/zh
Publication of CN116452939A publication Critical patent/CN116452939A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19153Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于多模态实体融合与对齐的社交媒体多模态虚假信息检测方法,包括:1)获取社交媒体博文中的文本和图像;2)文本‑图像实体特征提取;3)文本‑图像融合实体特征提取,将文本实体特征和视觉实体特征进行多模态特征融合,提取每个文本实体特征和每个视觉实体特征融合后的融合实体特征;4)文本‑图像实体特征对齐,将文本实体特征和融合实体特征进行多模态特征对齐,计算它们之间的整体相似度;5)社交媒体博文检测,将文本实体特征与融合实体特征之间的整体相似度使用二值分类器确定社交媒体博文检测的结果。本发明能够检测到更细粒度的信息,又能够结合文本信息,能够保留完整语义信息,提高虚假信息检测的准确率。

Description

基于多模态实体融合与对齐的社交媒体虚假信息检测方法
技术领域
本发明涉及一种基于多模态实体融合与对齐的社交媒体虚假信息检测方法,具体是一种检测社交媒体博文中图像和文本信息的匹配性,属于假新闻检测技术领域。
背景技术
随着互联网的发展,社交媒体平台在人们的生活中越来越重要,成为人们了解时事新闻、分享生活的重要工具,同时在现代社会的博文报道和信息传播中发挥着关键作用。根据皮尤研究中心最近的一项研究,62%的人从社交媒体上获取博文,其中18%的人是社交媒体的重度用户。社交媒体平台越来越多地被用作收集社会问题等信息和了解紧急情况最新进展的工具。通常,当出现突发博文时,其相关信息往往是碎片化的,导致很大一部分信息在发布时未经核实,其中一些后来被证明是错误的。因此,社交媒体上的虚假信息很普遍。
转发无关图片或文字捏造是典型的社交媒体虚假信息制造方式,这些信息的广泛传播不仅会影响社会的公信力,而且在现实生活中也会造成严重的后果。虚假信息的传播速度是真实信息的6到20倍。同时,研究显示,图片博文的平均转发量是纯文字博文的11倍。这种基于多模态内容的虚假信息比纯文本的虚假信息更具威力和挑战性。因此,多模态虚假信息越来越普遍,危害性也越来越大,迫切需要开发一种自动化识别社交媒体中的多模态虚假信息框架。然而虚假信息中的视觉模态和文本模态的语义都存在于异构的表示空间中,从而导致模型无法直接对其相关性进行检测。目前都通过图像文本匹配技术进行虚假信息检测,但没有考虑到模态的高级语义信息和不同模态实体之间的关系匹配。
发明内容
发明目的:针对模型检测社交媒体多模态虚假信息检测时模态语义信息提取不完整的问题,本发明提供了一种基于多模态实体融合与对齐的社交媒体多模态虚假信息检测方法。为了提取模态的高级语义信息以及捕捉到不同模态内实体之间关系的细粒度相互作用,首先分别独立提取社交媒体博文中文本和图像的实体特征,视觉实体特征基于ResNet-101的Faster R-CNN网络和公共的API提取,文本实体特征基于BERT和Bi-GRU网络提取。其次为了保证视觉模态的语义完整性,利用动态路由机制将文本实体和视觉实体融合形成融合实体特征表示。然后为了捕捉文本和图像之间的细粒度相互作用,分别为文本实体与融合实体构造图结构,并在关系级匹配中只需要识别节点之间是否有交互,通过图卷积层将节点向量沿其图边传播到领域节点,利用其领域节点向量更新节点向量,聚焦节点之间的对应关系推导,综合考虑所有短语的对应关系以获得文本-图像的整体相似度。最后采用带有softmax函数的全连接层的分类器,根据上一阶段获得的整体相似度将博文分类为真实信息或虚假信息两个结果。
技术方案:一种基于多模态实体融合与对齐的社交媒体虚假信息检测方法,包括如下步骤:
(1)文本-图像实体特征提取,利用预训练的语言表征模型、目标检测模型和公共API分别提取社交媒体博文中文本和视觉的实体特征,分别得到文本实体特征向量和视觉实体特征向量;
(2)文本-图像融合实体特征提取,对于步骤(1)中提取到的文本实体特征向量和视觉实体特征向量,利用动态路由机制提取每个文本实体特征和每个视觉实体特征融合后的融合实体特征,得到融合实体特征向量;
(3)文本-图像实体特征对齐,对于步骤(1)中提取到的文本实体特征向量和步骤(2)中生成的融合实体特征向量,利用图卷积层对齐文本实体特征和融合实体特征,计算文本实体特征和融合实体特征的整体相似度;
(4)社交媒体博文检测,将步骤(3)中获得的整体相似度输入到二值分类器中,利用二值分类器中带有softmax激活函数的全连接层投射文本实体特征和融合实体特征的整体相似度到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果。
所述(1)中,定义一张图像I和一段文本T,首先使用基于Resnet-101的Faster R-CNN提取视觉区域特征,其次利用公共的API检测图像中的视觉实体,将视觉区域征和视觉实体连接作为视觉实体特征,最后利用BERT和Bi-GRU网络提取文本实体特征。
进一步的,所述(1)中,文本实体特征和视觉实体特征提取的具体步骤如下:
(1.1)文本实体特征提取:采用词性分析工具对博文文本中的每个单词进行词性分析,然后利用预训练的BERT模型显式提取文本中名词的特征表示,最后使用双向门控循环单元(Bi-GRU)获得更深层特征,该单元能够将向前和向后上下文信息集成到文本嵌入中,最终将文本实体特征向量为TE={te1,...,teM},其中tei∈TE(1≤i≤M)表征文本中的第i个实体特征,其中M为超参数,代表一段文本中提取的实体数;
(1.2)视觉区域特征提取:选取基于ResNet-101的Faster R-CNN提取视觉区域特征,得到视觉区域特征向量Hv={v1,...,vN},其中vj∈Hv(1≤j≤N)表征图像的第j个ROI特征,N为超参数,代表一幅图像提取的ROI总数;
(1.3)视觉实体特征提取:采用公共API检测图像中的名人或地标视觉实体Pv和Lv,最终将名人和地标视觉实体Pv和Lv与视觉区域特征连接作为视觉实体特征向量VE=[Hv,Pv,Lv]。
所述(2)中,将步骤(1.1)中提取到的文本实体特征向量和步骤(1.3)中提取到的视觉实体特征向量进行多模态特征融合;融合过程由K层网络结构组成,每层网络结构都利用动态路由机制提取每个文本实体特征和每个视觉实体特征的融合实体特征;
进一步的,所述(2)中,提取文本实体特征和视觉实体特征的融合实体特征具体步骤如下:
(2.1)首先初始化(1表示融合过程中的第1层网络结构),度量每个文本实体特征tei与每个视觉实体特征vej T的对齐程度,如式(1)所示:
(2.2)利用softmax函数对(k表示融合过程中的第k层网络结构)进行归一化,得到一个对齐的分布/>如式(2)所示:
(2.3)以注意力机制的方式对所有文本实体特征进行加权和,因而文本实体特征就被组装为第j个视觉实体,得到文本实体加权特征表示如式(3)所示:
表示对齐分布/>中的第i个值,相当于是一个权重系数。
(2.4)利用非线性激活函数squashing测量当前第j个视觉实体是否存在于文本实体加权特征表示中,得到含有对齐文本实体信息的特征表示/>如式(4)所示:
(2.5)通过引入一个门控机制,将的值作为门值,并将vej k和/>组合在一起来更新相应视觉实体的表示,如下式所示:
vej k表示融合过程中第k层网络结构的某个视觉实体特征向量。
(2.6)最后,更新以重新测量tei与更新后的/>(k+1表示融合过程中的第k+1层网络结构)之间的对齐如式(7)所示:
(2.7)(2.2)到(2.6)之间的过程在达到K次迭代后停止,并且从文本实体中得到的特征表示VEK=[ve1 K,...,vej K,...,veM K]是文本实体特征与视觉实体特征融合后的融合实体特征表示。为了方便表示,在以下表述中将融合实体特征表示VEK=[ve1 K,...,vej K,...,veM K]重新定义为融合实体特征表示AE=[ae1,...,aej,...,aeM]。
所述(3)中,将步骤(1.1)中提取到的文本实体特征向量和步骤(2.7)中提取的融合实体特征表示进行多模态特征对齐,分别为步骤(1.1)中提取到的文本实体和步骤(2.7)中提取到的融合实体构造文本图和视觉图,然后通过图卷积层执行关系级匹配,学习短语对应关系,即通过将相关节点沿图边传播到领域节点,共同推断实体之间的细粒度对应关系以此计算文本-图像的整体相似度。
进一步的,所述(3)中计算文本实体特征和融合实体特征的整体相似度,具体步骤如下:
(3.1)为社交媒体博文中的一段文本构造一个无向稀疏图G1=(V1,E1),也称为文本图,V1表示文本图的节点集合,E1表示文本图的边集合,用矩阵A表示每个节点的相邻矩阵,并添加自循环。边权用矩阵We表示,表示节点的语义依赖关系。将文本中的每个实体设置为图节点,如果节点之间语义相关,则节点之间存在图边,计算第x个节点和第y个节点之间的相似度矩阵S如式(8)所示:
其中的λ是一个比例因子,tex T表示第x个文本实体特征向量的转置,tey表示第y个文本实体特征向量,M表示一段文本中的实体数;
(3.2)节点之间的边权矩阵可以通过相似度矩阵和相邻矩阵之间的Hadamard乘积,然后进行L2归一化得到,如式(9)所示:
(3.3)为社交媒体博文中的每个图像构造一个无向全连通图G2=(V2,E2),也称为视觉图,V2表示视觉图的节点集合,E2表示视觉图的边集合,由于融合实体是文本实体与原视觉实体融合之后的新视觉实体表示,因此将节点设置为每一个融合实体。通过使用极坐标对每个图像的空间关系建模,解耦图像成对区域的方向和距离,进而捕获不同区域之间的语义和空间关系。并且通过计算图像成对区域的边界框的中心的极坐标(ρ,θ)得到边权矩阵We
(3.4)应用GCN层融合相邻节点更新每个节点向量,具体地说,GCN层应用L个kernel函数分别学习视觉图和文本图如何融合相邻节点向量如式(10)、(11)所示:
其中Mi和Ni分别表示视觉图和文本图中第i个节点的相邻节点,Wl和b表示第l个kernel要学习的参数。在应用了L个kernel,空间卷积的输出就被定义为L个kernel输出的串联,生成了连接节点关系的卷积向量,这些连接的节点形成了局部短语;
(3.5)将步骤(3.4)生成的卷积向量输入到多层感知器(Multi-LayerPerception,MLP),共同考虑所有短语的对应关系,并推断视觉图和文本图的相似度g(G1,G2),如式(12)所示:
其中Ws a表示视觉图中的MLP参数,Ws t,/>表示文本图中的MLP参数,Wh a,/>表示权重矩阵,/>表示偏置项,σ函数表示激活函数,M表示一段文本中文本实体的数量,N表示一张图像中视觉实体的数量。
所述(4)中,利用带有softmax函数的全连接层将步骤(3.5)中获得的文本-图像的整体相似度g(G1,G2)映射到真实信息和虚假信息两类目标空间,以此得到社交媒体博文检测结果,具体步骤如下:
(4.1)在获得最终的多模态特征表示g(G1,G2)之后,多模态特征表示就是文本-图像的整体相似度,利用一个带有softmax函数的全连接层将g(G1,G2)投射到只有两个类别(real或fake)的目标空间中,并得到g(G1,G2)概率分布,如式(13)所示:
p=softmax(Wg(G1,G2)+b) (13)
其中p=[p0,p1]表示预测概率向量,p0和p1分别表示当前多模态特征表示的预测概率为0(real)和1(fake)。W是权重矩阵,b是偏差项;
(4.2)对于每一篇博文,目标是最小化二进制交叉熵损失函数,如式(14)所示:
Lp=-[rlog2p0+(1-r)logp1] (14)
其中r∈{0,1}表示真值。
一种基于多模态实体融合与对齐的社交媒体虚假信息检测系统,包括文本实体特征提取、视觉实体特征提取、文本-图像融合实体特征提取、文本-图像实体特征对齐、社交媒体博文检测五个模块;
所述文本实体特征提取模块首先提取文本单词词性,将文本中的名词单词编码输入到BERT和Bi-GRU模型中,提取得到文本实体特征向量;
所述视觉实体特征模块,首先基于ResNet-101的Faster R-CNN提取视觉区域特征,然后基于公共API提取图像中的视觉实体,最后将两者连接得到视觉实体特征向量;
所述文本-图像融合实体特征提取模块,将文本实体特征向量和视觉实体特征向量进行多模态特征融合,输出得到文本实体和视觉实体融合后的融合实体特征表示;
所述文本-图像实体特征对齐模块,将文本实体特征和融合实体特征进行多模态特征对齐,利用图卷积层计算文本-图像之间的整体相似度;
所述社交媒体博文检测模块,将文本-图像之间的整体相似度输入到带有softmax函数的全连接层中,得到社交媒体博文是真实信息或虚假信息的检测结果。
有益效果:针对在实际应用中提取的模态语义信息不够完整和执行跨模态交互时未考虑不同模态内实体之间的关系对齐的问题。本发明采用三阶段策略检测虚假信息。第一阶段采用改进的动态路由算法将文本实体和视觉实体分别当作主胶囊和数字胶囊,并从主胶囊到数字胶囊收集对齐信息,形成融合实体的表示形式,保证模态语义信息的完整性。第二阶段采用图结构匹配网络进一步捕获不同模态中实体之间语义关系的对应关系,首先为融合实体与原文本实体构建图结构,然后在关系级匹配中只需要识别节点之间是否有交互,通过图卷积层将节点向量沿其图边传播到邻域节点,利用其邻域节点向量更新节点向量,聚焦节点之间的对应关系推导,最后综合考虑所有短语的对应关系以获得图像文本的整体相似度。第三阶段采用带有softmax函数的全连接层的分类器并根据上一阶段获得的整体相似度将博文分类为真实信息或虚假信息两个结果。本发明的方法得到的虚假信息检测模型能够有效获得准确检测结果。
附图说明
图1为本发明实施例的基于多模态实体融合与对齐的虚假信息检测方法(MFAE)的框架图;
图2为本发明实施例的文本实体特征提取流程图;
图3为本发明实施例的融合实体更新过程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的基于多模态实体融合与对齐的虚假信息检测方法,具体包含以下步骤:
(1)社交媒体博文中文本-图像实体特征提取:利用预训练的语言表征模型、目标检测模型和公共API分别提取社交媒体博文中文本和视觉的实体特征。文本实体特征和视觉实体特征提取的具体步骤如下:
(1.1)文本实体特征提取:采用词性分析工具对文本中的每个单词进行词性分析,然后利用预训练的BERT模型显式提取文本中名词的特征表示,最后使用双向门控循环单元(Bi-GRU)获得更深层特征,该单元能够将向前和向后上下文信息集成到文本嵌入中,最终将文本实体特征表示为TE={te1,...,teM},其中tei∈TE(1≤i≤M)表征文本中的第i个实体特征,其中M为超参数,代表一段文本中提取的实体数,如图2所示;
(1.2)视觉区域特征提取:选取基于ResNet-101的Faster R-CNN提取视觉区域特征,得到视觉区域特征向量Hv={v1,...,vN},其中vj∈Hv(1≤j≤N)表征图像的第j个ROI特征,N为超参数,代表一幅图像提取的ROI总数;
(1.3)视觉实体特征提取:采用公共API检测图像中的名人或地标视觉实体Pv和Lv,最终将其与视觉区域特征连接作为视觉实体特征表示VE=[Hv,Pv,Lv]。
(2)文本-图像融合实体特征提取:将步骤(1.1)中提取到的文本实体特征向量和步骤(1.3)中提取到的视觉实体特征向量进行多模态特征融合,具体融合过程如图3所示,输出得到文本实体和视觉实体融合后的融合实体特征表示。融合过程由K层网络结构组成,每层网络结构都利用动态路由机制提取每个文本实体特征和每个视觉实体特征的融合实体特征。
动态路由机制具体描述如下:
(2.1)首先初始化(1表示融合过程中的第1层网络结构),度量每个文本实体tei与每个视觉实体vej T的对齐程度,如式(1)所示:
(2.2)利用softmax函数对(k表示融合过程中的第k层网络结构)进行归一化,得到一个对齐的分布/>如式(2)所示:
(2.3)以类似于注意力机制的方式对所有文本实体进行加权和,因而文本实体就被组装为第j个视觉实体,得到文本实体加权特征表示如式(3)所示:
(2.4)利用非线性激活函数squashing测量当前第j个视觉实体是否存在于文本实体加权特征表示中,得到含有对齐文本实体信息的特征表示/>如式(4)所示:
(2.5)通过引入一个门控机制,将的值作为门值,并将vej k和/>组合在一起来更新相应视觉实体的表示,如下式所示:
(2.6)最后,更新以重新测量tei与更新后的/>(k+1表示融合过程中的第k+1层网络结构)之间的对齐如式(7)所示:
(2.7)该过程在达到K次迭代后停止,并且从文本实体中得到的特征表示VEK=[ve1 K,...,vej K,...,veM K]是文本实体特征与视觉实体特征融合后的融合实体特征表示。为了方便表示,在以下表述中将融合实体特征表示VEK=[ve1 K,...,vej K,...,veM K]重新定义为融合实体特征表示AE=[ae1,...,aej,...,aeM]。
(3)文本-图像实体特征对齐:将步骤(1.1)中提取到的文本实体特征向量和步骤(2.7)中提取的融合实体特征表示进行多模态特征对齐,分别为步骤(1.1)中提取到的文本实体和步骤(2.7)中提取到的融合实体构造文本图和视觉图,然后通过图卷积层执行关系级匹配,学习短语对应关系,即通过将相关节点沿图边传播到领域节点,共同推断实体之间的细粒度对应关系以此计算文本-图像的整体相似度。
计算文本-图像整体相似度的具体步骤如下:
(3.1)为社交媒体博文中的一段文本构造一个无向稀疏图G1=(V1,E1),用矩阵A表示每个节点的相邻矩阵,并添加自循环。边权用矩阵We表示,表示节点的语义依赖关系。将文本中的每个实体设置为图节点,如果节点之间语义相关,则节点之间存在图边,计算第x个节点和第y个节点之间的相似度矩阵S如式(8)所示:
其中的λ是一个比例因子;
(3.2)节点之间的边权矩阵可以通过相似度矩阵和相邻矩阵之间的Hadamard乘积,然后进行L2归一化,如式(10)所示。
(3.3)为每个图像构造一个无向全连通图G2=(V2,E2),由于融合实体是与文本实体融合之后的视觉实体表示,因此将节点设置为每一个融合实体。通过使用极坐标对每个图像的空间关系建模,解耦图像成对区域的方向和距离,进而捕获不同区域之间的语义和空间关系。并且通过计算图像成对区域的边界框的中心的极坐标(ρ,θ)得到边权矩阵We
(3.4)应用GCN层融合相邻节点更新每个节点向量,具体地说,GCN层应用L个kernel函数分别学习视觉图和文本图如何融合相邻节点向量如式(10)、(11)所示:
其中Mi和Ni分别表示视觉图和文本图中第i个节点的相邻节点,Wl和b表示第l个kernel要学习的参数。在应用了L个kernel,空间卷积的输出就被定义为L个kernel输出的串联,生成了连接节点关系的卷积向量,这些连接的节点形成了局部短语;
(3.5)将步骤(3.4)生成的卷积向量输入到多层感知器(Multi-LayerPerception,MLP),共同考虑所有短语的对应关系,并推断视觉图和文本图的相似度g(G1,G2),如式(12)所示:
其中Ws a表示视觉图中的MLP参数,Ws t,/>表示文本图中的MLP参数,Wh a,/>表示权重矩阵,/>表示偏置项,σ函数表示激活函数。
(4)社交媒体博文检测:利用带有softmax函数的全连接层将步骤(3.5)中获得的文本-图像的整体相似度映射到真实信息和虚假信息两类目标空间,以此得到社交媒体博文检测结果,具体步骤如下:
(4.1)在获得最终的多模态特征表示之后,利用一个带有softmax函数的全连接层将g(G1,G2)投射到只有两个类别(real或fake)的目标空间中,并得到其概率分布,如式(13)所示:
p=softmax(Wg(G1,G2)+b) (13)
其中p=[p0,p1]表示预测概率向量,p0和p1分别表示当前多模态特征表示的预测概率为0(real)和1(fake)。W是权重矩阵,b是偏差项;
(4.2)对于每一篇博文,目标是最小化二进制交叉熵损失函数,如式(14)所示:
Lp=-[ylogp0+(1-y)logp1] (14)
其中y∈{0,1}表示真值。
一种基于多模态实体融合与对齐的社交媒体虚假信息检测系统,包括文本实体特征提取、视觉实体特征提取、文本-图像融合实体特征提取、文本-图像实体特征对齐、社交媒体博文检测五个模块;
文本实体特征提取模块首先提取文本单词词性,将文本中的名词单词编码输入到BERT和Bi-GRU模型中,提取得到文本实体特征向量;
视觉实体特征模块,首先基于ResNet-101的Faster R-CNN提取视觉区域特征,然后基于公共API提取图像中的视觉实体,最后将两者连接得到视觉实体特征向量;
文本-图像融合实体特征提取模块,将文本实体特征向量和视觉实体特征向量进行多模态特征融合,输出得到文本实体和视觉实体融合后的融合实体特征表示;
文本-图像实体特征对齐模块,将文本实体特征和融合实体特征进行多模态特征对齐,利用图卷积层计算文本-图像之间的整体相似度;
社交媒体博文检测模块,将文本-图像之间的整体相似度输入到带有softmax函数的全连接层中,得到社交媒体博文是真实信息或虚假信息的检测结果。
参数的设置和实验评价标准如下:
A参数设置:
以下为几个影响MFAE模型的参数:迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、融合实体更新次数K、文本图中第x个节点和第y个节点之间的相似度比例因子λ、社交媒体博文中提取视觉实体数量N。
表1 MFAE模型训练参数设置
B评价指标:
所涉及的评价指标为现有方法统一使用的指标组合,包括:Accuracy、Precision、Recall和F1-Score。
根据以上实施例可知,针对模型在检测社交媒体虚假信息中提取到的模态语义信息不完整问题,本发明通过提取多模态实体特征能够使模型在高级语义层面集成多模态信息,能够检测到更细粒度的信息;本发明利用动态路由机制生成的融合实体既能保留原始视觉信息,又能够结合文本信息,能够保留完整语义信息。本发明基于图卷积网络生成的图像文本匹配结果能够捕获不同模态内实体之间的细粒度对应关系,提高虚假信息检测的准确率。

Claims (9)

1.一种基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,包括如下步骤:
(1)文本-图像实体特征提取,提取社交媒体博文中文本和视觉的实体特征,分别得到文本实体特征向量和视觉实体特征向量;
(2)文本-图像融合实体特征提取,对于步骤(1)中提取到的文本实体特征向量和视觉实体特征向量,利用动态路由机制提取每个文本实体特征和每个视觉实体特征融合后的融合实体特征,得到融合实体特征向量;
(3)文本-图像实体特征对齐,对于步骤(1)中提取到的文本实体特征向量和步骤(2)中生成的融合实体特征向量,利用图卷积层对齐文本实体特征和融合实体特征,计算文本实体特征和融合实体特征的整体相似度;
(4)社交媒体博文检测,将步骤(3)中获得的整体相似度输入到二值分类器中,利用二值分类器中带有softmax激活函数的全连接层投射文本实体特征和融合实体特征的整体相似度到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果。
2.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(1)中,定义一张图像I和一段文本T,首先使用基于Resnet-101的FasterR-CNN提取视觉区域特征,其次利用公共的API检测图像中的视觉实体,将视觉区域征和视觉实体连接作为视觉实体特征,最后利用BERT和Bi-GRU网络提取文本实体特征。
3.根据权利要求2所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(1)中,文本实体特征和视觉实体特征提取的具体步骤如下:
(1.1)文本实体特征提取:采用词性分析工具对博文文本中的每个单词进行词性分析,然后利用预训练的BERT模型显式提取文本中名词的特征表示,最后使用双向门控循环单元获得更深层特征,该单元能够将向前和向后上下文信息集成到文本嵌入中,最终将文本实体特征向量为TE={te1,...,teM},其中tei∈TE(1≤i≤M)表征文本中的第i个实体特征,其中M为超参数,代表一段文本中提取的实体数;
(1.2)视觉区域特征提取:选取基于ResNet-101的Faster R-CNN提取视觉区域特征,得到视觉区域特征向量Hv={v1,...,vN},其中vj∈Hv(1≤j≤N)表征图像的第j个ROI特征,N为超参数,代表一幅图像提取的ROI总数;
(1.3)视觉实体特征提取:采用公共API检测图像中的名人或地标视觉实体Pv和Lv,最终将名人和地标视觉实体Pv和Lv与视觉区域特征连接作为视觉实体特征向量VE=[Hv,Pv,Lv]。
4.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(2)中,将文本实体特征向量和视觉实体特征向量利用动态路由机制提取每个文本实体特征和每个视觉实体特征的融合实体特征。
5.根据权利要求4所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(2)中,提取文本实体特征和视觉实体特征的融合实体特征具体步骤如下:
(2.1)首先初始化度量每个文本实体特征tei与每个视觉实体特征vej T的对齐程度,如式(1)所示:
(2.2)利用softmax函数对进行归一化,得到一个对齐的分布/>如式(2)所示:
(2.3)以注意力机制的方式对所有文本实体特征进行加权和,因而文本实体特征就被组装为第j个视觉实体,得到文本实体加权特征表示如式(3)所示:
表示对齐分布/>中的第i个值,相当于是一个权重系数。
(2.4)利用非线性激活函数squashing测量当前第j个视觉实体是否存在于文本实体加权特征表示中,得到含有对齐文本实体信息的特征表示/>如式(4)所示:
(2.5)通过引入一个门控机制,将的值作为门值,并将vej k和/>组合在一起来更新相应视觉实体的表示,如下式所示:
vej k表示融合过程中第k层网络结构的某个视觉实体特征向量;
(2.6)最后,更新以重新测量tei与更新后的/>之间的对齐如式(7)所示:
(2.7)(2.2)到(2.6)之间的过程在达到K次迭代后停止,并且从文本实体中得到的特征表示VEK=[ve1 K,...,vej K,...,veM K]是文本实体特征与视觉实体特征融合后的融合实体特征表示;为了方便表示,在以下表述中将融合实体特征表示VEK=[ve1 K,...,vej K,...,veM K]重新定义为融合实体特征表示AE=[ae1,...,aej,...,aeM]。
6.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(3)中,将文本实体特征向量和融合实体特征表示进行多模态特征对齐,分别为文本实体和融合实体构造文本图和视觉图,然后通过图卷积层执行关系级匹配,学习短语对应关系,即通过将相关节点沿图边传播到领域节点,共同推断实体之间的细粒度对应关系以此计算文本-图像的整体相似度。
7.根据权利要求6所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(3)中计算文本实体特征和融合实体特征的整体相似度,具体步骤如下:
(3.1)为社交媒体博文中的一段文本构造一个无向稀疏图G1=(V1,E1),也称为文本图,V1表示文本图的节点集合,E1表示文本图的边集合,用矩阵A表示每个节点的相邻矩阵,并添加自循环;边权用矩阵We表示,表示节点的语义依赖关系;将文本中的每个实体设置为图节点,如果节点之间语义相关,则节点之间存在图边,计算第x个节点和第y个节点之间的相似度矩阵S如式(8)所示:
其中的λ是一个比例因子,tex T表示第x个文本实体特征向量的转置,tey表示第y个文本实体特征向量,M表示一段文本中的实体数;
(3.2)节点之间的边权矩阵可以通过相似度矩阵和相邻矩阵之间的Hadamard乘积,然后进行L2归一化得到,如式(9)所示:
(3.3)为社交媒体博文中的每个图像构造一个无向全连通图G2=(V2,E2),也称为视觉图,V2表示视觉图的节点集合,E2表示视觉图的边集合,由于融合实体是文本实体与原视觉实体融合之后的新视觉实体表示,因此将节点设置为每一个融合实体;通过使用极坐标对每个图像的空间关系建模,解耦图像成对区域的方向和距离,进而捕获不同区域之间的语义和空间关系;并且通过计算图像成对区域的边界框的中心的极坐标(ρ,θ)得到边权矩阵We
(3.4)应用GCN层融合相邻节点更新每个节点向量,具体地说,GCN层应用L个kernel函数分别学习视觉图和文本图如何融合相邻节点向量如式(10)、(11)所示:
其中Mi和Ni分别表示视觉图和文本图中第i个节点的相邻节点,Wl和b表示第l个kernel要学习的参数;在应用了L个kernel,空间卷积的输出就被定义为L个kernel输出的串联,生成了连接节点关系的卷积向量,这些连接的节点形成了局部短语;
(3.5)将步骤(3.4)生成的卷积向量输入到多层感知器,共同考虑所有短语的对应关系,并推断视觉图和文本图的相似度g(G1,G2),如式(12)所示:
其中表示视觉图中的MLP参数,/>表示文本图中的MLP参数,/>表示权重矩阵,/>表示偏置项,σ函数表示激活函数,M表示一段文本中文本实体的数量,N表示一张图像中视觉实体的数量。
8.根据权利要求1所述的基于多模态实体融合与对齐的社交媒体虚假信息检测方法,其特征在于,所述(4)中,利用带有softmax函数的全连接层将步骤(3.5)中获得的文本-图像的整体相似度g(G1,G2)映射到真实信息和虚假信息两类目标空间,以此得到社交媒体博文检测结果,具体步骤如下:
(4.1)在获得文本-图像的整体相似度g(G1,G2)之后,利用一个带有softmax函数的全连接层将g(G1,G2)投射到只有两个类别(real或fake)的目标空间中,并得到g(G1,G2)概率分布,如式(13)所示:
p=softmax(Wg(G1,G2)+b) (13)
其中p=[p0,p1]表示预测概率向量,p0和p1分别表示当前多模态特征表示的预测概率为0(0表示real)和1(1表示fake);W是权重矩阵,b是偏差项;
(4.2)对于每一篇博文,目标是最小化二进制交叉熵损失函数,如式(14)所示:
Lp=-[rlog2p0+(1-r)logp1] (14)
其中r∈{0,1}表示真值。
9.一种基于多模态实体融合与对齐的社交媒体虚假信息检测系统,包括文本实体特征提取、视觉实体特征提取、文本-图像融合实体特征提取、文本-图像实体特征对齐、社交媒体博文检测五个模块;
所述文本实体特征提取模块首先提取文本单词词性,将文本中的名词单词编码输入到BERT和Bi-GRU模型中,提取得到文本实体特征向量;
所述视觉实体特征模块,首先基于ResNet-101的Faster R-CNN提取视觉区域特征,然后基于公共API提取图像中的视觉实体,最后将两者连接得到视觉实体特征向量;
所述文本-图像融合实体特征提取模块,将文本实体特征向量和视觉实体特征向量进行多模态特征融合,输出得到文本实体和视觉实体融合后的融合实体特征表示;
所述文本-图像实体特征对齐模块,将文本实体特征和融合实体特征进行多模态特征对齐,利用图卷积层计算文本-图像之间的整体相似度;
所述社交媒体博文检测模块,将文本-图像之间的整体相似度输入到带有softmax函数的全连接层中,得到社交媒体博文是真实信息或虚假信息的检测结果。
CN202310527271.1A 2023-05-11 2023-05-11 基于多模态实体融合与对齐的社交媒体虚假信息检测方法 Pending CN116452939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310527271.1A CN116452939A (zh) 2023-05-11 2023-05-11 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310527271.1A CN116452939A (zh) 2023-05-11 2023-05-11 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Publications (1)

Publication Number Publication Date
CN116452939A true CN116452939A (zh) 2023-07-18

Family

ID=87123833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310527271.1A Pending CN116452939A (zh) 2023-05-11 2023-05-11 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Country Status (1)

Country Link
CN (1) CN116452939A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557883A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 基于病理对齐扩散网络的医疗多模态内容分析及生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407759A (zh) * 2021-08-18 2021-09-17 中国人民解放军国防科技大学 一种基于自适应特征融合的多模态实体对齐方法
CN113742556A (zh) * 2021-11-03 2021-12-03 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法
CN113849598A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于深度学习的社交媒体虚假信息检测方法及检测系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407759A (zh) * 2021-08-18 2021-09-17 中国人民解放军国防科技大学 一种基于自适应特征融合的多模态实体对齐方法
CN113849598A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于深度学习的社交媒体虚假信息检测方法及检测系统
CN113742556A (zh) * 2021-11-03 2021-12-03 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHUNXIAO LIU: "Graph Structured Network for Image-Text Matching", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 5 August 2020 (2020-08-05), pages 10918 - 10927 *
JUNXIAO XUE: "Detecting fake news by exploring the consistency of multimodal data", 《INFORMATION PROCESSING AND MANAGEMENT》, vol. 58, no. 5, 30 September 2021 (2021-09-30), pages 1 - 13 *
PEIGUANG LI: "Entity-Oriented Multi-Modal Alignment and Fusion Network for Fake News Detection", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 24, 26 July 2021 (2021-07-26), pages 3455 - 3468, XP011913878, DOI: 10.1109/TMM.2021.3098988 *
PENG QI: "Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues", 《MM ’21: PROCEEDING OF THE 29TH INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 24 October 2021 (2021-10-24), pages 1212 - 1220 *
毛莺池 等: "基于图注意力网络的全局图像描述生成方法", 《计算机应用》, vol. 43, no. 5, 10 May 2023 (2023-05-10), pages 1409 - 1415 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557883A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 基于病理对齐扩散网络的医疗多模态内容分析及生成方法

Similar Documents

Publication Publication Date Title
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN111079444A (zh) 一种基于多模态关系的网络谣言检测方法
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN114444516B (zh) 一种基于深度语义感知图卷积网络的粤语谣言检测方法
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN115761900B (zh) 用于实训基地管理的物联网云平台
CN116452939A (zh) 基于多模态实体融合与对齐的社交媒体虚假信息检测方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN114461821A (zh) 一种基于自注意力推理的跨模态图文互索方法
CN114818719A (zh) 一种基于复合网络与图注意力机制的社区话题分类方法
CN116189139A (zh) 一种基于Transformer的交通标志检测方法
Li et al. Social context-aware person search in videos via multi-modal cues
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
CN115631504A (zh) 一种基于双模态图网络信息瓶颈的情感识别方法
CN115860119A (zh) 基于动态元学习的少样本知识图谱补全方法和系统
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN115346132A (zh) 多模态表示学习的遥感图像异常事件检测方法及装置
CN113516118A (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
Wei Pedestrian Re-Identification Incorporating Multi-Information Flow Deep Learning Model
CN112883868B (zh) 一种基于关系建模的弱监督视频动作定位模型的训练方法
CN113139378B (zh) 一种基于视觉嵌入和条件归一化的图像描述方法
CN113283535B (zh) 一种融合多模态特征的虚假消息检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination