CN115146100A - 一种基于反事实推理的跨模态检索模型、方法及计算机设备 - Google Patents

一种基于反事实推理的跨模态检索模型、方法及计算机设备 Download PDF

Info

Publication number
CN115146100A
CN115146100A CN202210716568.8A CN202210716568A CN115146100A CN 115146100 A CN115146100 A CN 115146100A CN 202210716568 A CN202210716568 A CN 202210716568A CN 115146100 A CN115146100 A CN 115146100A
Authority
CN
China
Prior art keywords
text
image
cross
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210716568.8A
Other languages
English (en)
Inventor
马泽伟
张飞飞
徐常胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202210716568.8A priority Critical patent/CN115146100A/zh
Publication of CN115146100A publication Critical patent/CN115146100A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于反事实推理的跨模态检索模型、方法及计算机设备,包括:提取原始图片和文本的特征,使用反事实对比学习构建样本的正负样本。采用反事实方法分别生成实例级、图像级的正负样本,使模型关注图片细节信息及全局场景信息;生成文本在语义级的反事实样本,构建语义级的对比学习,实现跨模态语义关系;将上述部分融合得到跨模态检索模型并整体训练。本发明将反事实推理的多级对比学习应用在跨模态检索中,构造文本特征和图片特征对齐模块,对生成反事实样本进行指导,分别在实例级、图像级和语义级构建反事实对比样本,通过反事实对比学习,缓解由于数据集的数据分布不均导致的虚假问题,提升模型的语义对齐能力以及模型准确度。

Description

一种基于反事实推理的跨模态检索模型、方法及计算机设备
技术领域
本发明属于多媒体计算领域,具体涉及一种基于反事实推理的跨模态检索模型、方法及计算机设备。
背景技术
伴随着人工智能技术在各个领域的广泛应用,数据呈现形式越来越多样化。文本、图像、视频等多模态数据急剧增长,单一模态数据的信息是有限的,交互的多模态数据能传递更为丰富的信息,同一事物会有多种不同模态数据的描述。这些数据在形式上“异构同源”,而在语义上相互关联,数据内容形式多样化能帮助人对周围世界的感知与理解,因为人们很容易做到不同形式信息对齐与互补从而更加全面准确地学习知识。在人工智能跨模态领域,带来了跨模态检索的迫切需求。跨模态检索是跨模态学习的重要应用之一,又称为跨媒体检索,其特点是训练过程中所有模态的数据都存在,但在测试过程中只有一种模态可用。跨模态检索旨在实现两个不同模态之间的信息交互,其根本目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。跨模态检索要求检索集和查询集为不同模态,比如用文本去搜索图片、图片去搜索视频等。如何提取不同模态数据的结构信息以及其深度语义对应关系,进而对其进行建模是提升多模态检索的难点。
近些年来随着因果关系论在深度学习领域的应用,基于因果推理的反事实方法在多模态领域开始被用来不同模态数据间的深层次语义对齐关系。目前已经在很多跨模态子任务比如VQA(Visual Question Answering)中取得了非常好的效果。因果关系具有较强的可解释性,而基于因果的反事实学习是在假设已经存在一个因果关系结构,通过控制变量的方法得到每次的影子投射结果,就可以对历史中不存在的情况进行分布建模,从而能得到无偏估计。Swaminathan等首先定义了在历史记录中进行反事实学习的机器学习框架,并且针对其模型结构在深度学习上进行推广以及进一步归一化。此外,反事实学习也被扩展在表示学习以及日志学习领域。
发明内容
本发明的目的是利用多层级的反事实对比学习来促进模型对多样的图像内容,高层级的文本语义,和复杂的跨模态间关系的联合建模,从而学习更具判别力的特征表示。实现本发明的技术方案如下:
一种基于反事实推理的跨模态检索模型,该模型由以下步骤得到:
步骤S1,分别使用Faster-RCNN模型和经过预训练的Bert模型来提取原始图片特征和文本特征,将得到的图片特征和文本特征独立映射到同一维度之后,各自用四层transformer构成的图片特征编码器和文本特征编码器中得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐,使得图片特征向量和文本特征向量映射到同一个公共空间,通过计算损失来优化模型。
然后将图片特征和原始文本使用反事实推理方法进行处理,使用识别到的图像区域标签,与从原始文本中提取到的名词进行比较,为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵。
步骤S2,使用反事实推理构建实例级的正负样本,将步骤S1中得到的实例级图片特征和文本特征分别独立映射到同一维度之后,各自用四层transformer构成的图片特征编码器和文本特征编码器中得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行对齐,使得图片特征向量和文本特征向量映射到一个公共空间来构建实例级的对比学习,使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐,使得模型能感知图片细节信息。
步骤S3,利用反事实推理生成图像级的正负样本,将步骤S1得到的图像级图片特征和文本特征独立映射到同一维度之后,再使用由四层Transformer构成的图片特征编码器和文本特征编码器中计算得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行处理,将图片特征向量和文本特征向量映射到一个公共空间来构建图像级的对比学习,指导模型学习细粒度的图片文本全局特征对齐,使模型能感知图片全局场景信息。
步骤S4,使用反事实推理生成文本在语义级的反事实样本,将步骤S1得到的语义级图片特征和文本特征独立映射到同一维度之后,各自用四层Transformer构成的图片特征编码器和文本特征编码器中得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行处理,将图片特征向量和文本特征向量映射到一个公共空间来构建语义级的对比学习中,得到最终的特征向量,并基于这些特征构建图像级的对比学习,指导模型学习细粒度的图片文本全局特征对齐,使模型能够跨模态语义关系。
步骤S5,将上述所有部分整合到一个统一框架,进行跨模态检索模型的整体训练。
本发明的有益效果:
(1)本发明提出了一个多层级反事实对比学习跨模态检索框架,提高了模型对多样化的视觉内容、高层级的文本语义、和复杂的跨模态关系的理解推理能力。
(2)将基于反事实推理的多级对比学习方法应用在跨模态检索中,分别在实例级、图像级和语义级构建反事实对比样本。使得模型能够提取到更具有判别性的特征,从而对图像和语言表达进行全面的理解,提升模型的语义对齐能力。
(3)通过反事实对比学习方法,可以缓解由于数据集的数据分布不均导致的虚假相关问题。
附图说明
图1是本发明基于反事实推理的跨模态检索模型框架图;
图2是本发明构建的基本的跨模态检索模型。
图3是本发明基于反事实推理的跨模态检索方法流程图。
具体实施方式
本发明提出了一种基于反事实推理的跨模态检索模型、方法及计算机设备。利用反事实推理来构建多级别对比学习。根据各对象节点的重要程度来生成反事实正负样本,在实例级对比学习模块中我们通过在原图像上掩盖重要的对象区域来生成反事实样本(负样本),原图像作为事实样本(正样本)来进行对比学习。在图像级反事实对比学习模块中将小批量中的其他图像作为反事实样本,掩盖重要性低的对象作为事实样本,使得模型能够着重于学习图像和文本高度相关的区域特征,在语义级通过随机替换文本中的名词来生成反事实样本,原文本作为事实样本并且在使用反事实样本进行对比学习的过程中,可以缓解数据集中可能存在的虚假相关和选择偏差。使得模型能够提取到更具有判别性的特征,从而对图像和语言表达进行全面的理解,提升模型的语义对齐能力,提高模型的精度。
下面结合附图对本发明作进一步说明。
图1为本发明提出的反事实推理的跨模态检索模型的框架图,利用反事实生成对比学习的正负样本,并利用多层级对比学习使模型对丰富的视觉信息和复杂的跨模态关系进行联合建模。具体来说,所述模型由以下步骤得到:
步骤S1,如图1中的文本特征提取模块和图像特征提取模块所示,提取原始图片特征和文本的特征,从而为后面的步骤提供生成正负样本的数据支持;
所述步骤S1进一步包括以下步骤:
步骤S1.1:对训练数据中的每一张图片G以及其对应的文本E表述,提取其文本特征
Figure RE-GDA0003827173940000041
图像特征
Figure RE-GDA0003827173940000042
位置特征
Figure RE-GDA0003827173940000043
以及图片的对象区域标签
Figure RE-GDA0003827173940000044
这里Dq,Dv代表文本特征和图像特征的维度,Ds代表图片标注出来的标签区域数量,即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。Dn代表从图像中提取到的局部区域数量,Dp表示为局部区域的位置特征维度,Dl代表句子的长度。
图像特征通过Faster-RCNN进行提取,得到36(即Dn=36)个区域视觉特征,之后将其连接在一起作为图像特征V。每个区域视觉特征的维度为2048(即Dv=2048),位置特征P包含每个特征区域的左上角坐标和右下角坐标以及区域的面积。Dp为5。
Figure RE-GDA0003827173940000045
其中x1,y1,x2,y2分别是区域左上角坐标和区域右下角坐标,W,H分别表示图片的宽度和高度。
文本特征可以通过BERT进行提取,得到768维文本特征(即Dq=768)。
Figure RE-GDA0003827173940000046
TF=FCt(Bert(T))#(3)
FCv和FCt表示两个独立的全连接层、Bert表示Bert模型、
Figure RE-GDA0003827173940000047
表示将前后两个值在相同维度上连接起来。
Figure RE-GDA0003827173940000048
TF∈RDe
Figure RE-GDA0003827173940000049
De=1024。
构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型,如图2所示,在此基本的跨模态检索模型的基础上增加三种对比学习实现完整的跨模态检索模型。
将图像特征和文本特征经过式(2)(3)处理之后得到的VF和TF输入到创建的基本的跨模态检索模型中,将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量,建立三元组损失函数作为图片和文本对齐的损失函数:
Figure RE-GDA00038271739400000410
其中t,x表示为正样本,t-,x-表示为负样本,即同一批次的其他文本特征和图像特征。α为超参数,[a]+=max(a,0),
Figure RE-GDA00038271739400000411
步骤S1.2:使用图片对应的图像区域标签I和原始文本中解析到的名词进行对齐,判断文本中的名词对象在图像哪个区域出现,之后将图像中提取到的局部特征区域和通过比对可以知道图片中的哪些区域特征是重要的,比如如果文本中有出现狗的描述,那么对应图片中狗所在的区域就是重要的,这时候如果把与这块区域有交集的局部特征掩盖掉,那么这时图片特征和文本特征的相似度绝对会低于掩盖之前的相似度,反事实推理就是这个原理。将图像的所有局部特征区域形成的方框长宽各均匀分为14份,取交叉点共计196个点。然后通过统计落在重要区域轮廓内部的点的数量来计算该图像区域特征对文本的重要系数,再将所有值连接起来构成系数矩阵
Figure RE-GDA0003827173940000051
如式(5)所示,其中 Fi值越小表示区域特征Vi越重要。
Figure RE-GDA0003827173940000052
Pi表示区域i的位置特征,
Figure RE-GDA0003827173940000053
表示图片的对象区域标签,E表示原始文本,
Figure RE-GDA0003827173940000054
表示统计区域i落在重要区域内部的点的数量, Fi表示
Figure RE-GDA0003827173940000055
的第i行的值。
步骤S2,如图1中的实例级对比学习模块所示,利用步骤S1.2生成的重要系数矩阵
Figure RE-GDA0003827173940000056
来构建实例级的对比学习,使模型关注视觉图片中的细粒度信息;
所述步骤S2进一步包括以下步骤:
步骤S2.1:构建实例级的对比学习:利用S1.2中得到的
Figure RE-GDA0003827173940000057
来判断图像局部特征Vii∈Dn对当前文本特征的重要程度,根据S1.2中的计算过程,如果图像局部特征Vi对应Fi的值为1的话,可以认为该区域不在重要范围之内,是不重要区域特征。将重要区域的特征连接起来(在
Figure RE-GDA0003827173940000058
中对应的值不为1)构建正样本Oins+,例如图1中的“[sheep]”和“[meadow]”,将不重要区域的特征连接起来(在F中对应的值等于1)(假设有k个) 作为反事实样本(负样本)
Figure RE-GDA0003827173940000059
其中i=1表示掩盖掉一个最不重要的区域特征,以此类推i=k代表掩盖k个。例如图1中的“[dog]”和“[man]”。;
步骤S2.2:将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本的跨模态检索模型中,使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量Vins+
Figure RE-GDA00038271739400000510
以及T。帮助模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐。设计InfoNCE对比损失函数,具体表示如下:
Figure RE-GDA00038271739400000511
这里的exp(n)=en、T是原始文本特征,τ=0.15为温度参数。正样本的相似度与负样本的相似度相比,更接近于原始样本的相似度。因此,正样本的相似度应比负样本的结果更高。
基于以上推论,基于正负样本对应的对比损失,提高模型对图片中主要对象的识别能力。通过优化上述损失,包含重要物体的正样本对的特征(T,Vins)被指引在特征空间中靠近,同时负样本对的特征
Figure RE-GDA0003827173940000061
被指引远离。因此,使得模型能够着重于学习图像和文本高度相关的区域特征,以及缓解数据集中可能存在的虚假相关和选择偏差。
步骤S3,如图1中的图像级对比学习模块所示,利用步骤S1.2生成的重要矩阵
Figure RE-GDA0003827173940000062
构建图像级的对比学习,使模型关注全局场景信息;
所述步骤S3进一步包括以下步骤:
步骤S3.1:构建图像级的对比学习:利用S1.2中得到的
Figure RE-GDA0003827173940000063
来判断图像局部特征Vii∈Dn对当前文本特征的重要程度,原理与S2.1中相同。随机掩盖20%不重要的局部特征(在
Figure RE-GDA00038271739400000610
中对应的值为1)来构建正样本Bimg+,从其余部分中随机选择m个图像作为负样本
Figure RE-GDA0003827173940000064
步骤S3.2:将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本的跨模态检索模型中,使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量Vimg+
Figure RE-GDA0003827173940000065
以及T。指导跨模态检索模型学习细粒度的图片文本全局特征对齐。设计InfoNCE对比损失函数,具体表示如下:
Figure RE-GDA0003827173940000066
这里的exp(n)=en、T是原始文本特征、τ=0.15为温度参数。正样本的相似度与负样本的相似度相比,更接近于原始样本的相似度。因此,正样本的相似度应比负样本的结果更高。基于以上推论,基于正负样本对应的对比损失,提高模型对图片全局场景的识别能力。通过优化上述损失,具有相似全局场景的正样本对的特征(T,Vimg+)被指引在特征空间中靠近,同时具有不同场景的负样本对的特征
Figure RE-GDA0003827173940000069
被指引远离。因此,模型可以从全局的角度学习到细粒度的图片文本特征对齐。
步骤S4,如图1中的语义级对比学习模块所示,考虑正确选项文本在语义级的反事实样本,构建语义级的对比学习,使模型建模跨模态语义关系;
所述步骤S4进一步包括以下步骤:
步骤S4.1:构建语义级的对比学习:利用反事实思想将原始文本中的名词进行随机替换,生成k(假设原始文本有k个名词)个负样本
Figure RE-GDA0003827173940000068
原始文本作为正样本G+
步骤S4.2:将S4.1中得到的文本正负样本和图像特征,输入到S1.1中创建的基本的跨模态检索模型中,使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量Tsem+
Figure RE-GDA0003827173940000071
以及T来训练模型使其更注意对视觉词语的理解,进而建立不同模态间的关系并促进对语言表达的理解,具体的对比损失函数如下:
Figure RE-GDA0003827173940000072
这里的s exp(n)=en、,V是图片特征,τ=0.1为温度参数。正样本的相似度与负样本的相似度相比,更接近于原始样本的相似度。因此,正样本的相似度应比负样本的结果更高。基于以上推论,基于正负样本对应的对比损失,提高模型对文本中的视觉词语的识别能力。通过优化上述损失,具有相似语义的图片特征V和原始文本特征Tsem+被指引靠近,而具有不相似语义的特征
Figure RE-GDA0003827173940000073
被指引互相远离。因此,语义级的对比损失促进模型对语言表达的理解,并捕捉复杂的跨模态关系。
步骤S5,通过将上述所有损失整合为一个统一框架,设计损失函数
Figure RE-GDA0003827173940000075
来进行视觉跨模态检索模型的整体训练:
Figure RE-GDA0003827173940000074
这里λ1=0.2,λ2=0.2,λ3=0.2,λ4=0.4,是平衡化参数。
基于反事实推理的跨模态检索模型的跨模态检索方法,具体过程如下:
模型在训练集充分训练之后,对任意一张待测图像,输入到模型中得到最终输出的[CLS]标志位的特征向量,经过公式(6)计算改图像于测试库中所有文本之间的相似度,检索出其相似度最大的文本作为检索结果;给定一段待测文本,输入到模型中得到最终输出的[CLS]标志位的特征向量,经过公式(6)计算该文本于测试库中所有图像之间的相似度,检索出其相似度最大的图像作为检索结果。
本发明的一种计算机设备,所述计算机设备内置所述基于反事实推理的跨模态检索模型的执行程序代码或存储程序代码、或者所述的跨模态检索方法的执行程序代码或存储程序代码。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于反事实推理的跨模态检索模型,其特征在于,该模型由以下步骤得到:
S1、分别提取原始的图片特征和文本特征,将得到的图片特征和文本特征独立映射到同一维度之后,各自用四层transformer构成的图片特征编码器和文本特征编码器得到特征向量,将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐,使得图片特征向量和文本特征向量映射到同一个公共空间,通过计算损失来优化;
然后将图片特征和原始文本使用反事实推理方法进行处理,使用识别到的图像区域标签,与从原始文本中提取到的名词进行比较,为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵;
S2、使用反事实推理构建实例级的正负样本,使模型能够关注视觉图片中物体的细节信息;
S3,利用反事实生成图像级的正负样本,使模型能够关注图片全局场景信息;
S4,使用反事实生成文本在语义级的反事实样本,构建语义级的对比学习,使模型能够跨模态语义关系;
S5,融合上述过程,得到基于反事实推理的跨模态检索模型。
2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S1的具体实现包括:
S1.1:对训练数据中的每一张图片I以及其对应的文本表述E,提取其文本特征
Figure FDA0003709708650000011
图像特征
Figure FDA0003709708650000012
位置特征
Figure FDA0003709708650000013
以及图片的对象区域标签
Figure FDA0003709708650000014
这里Dq,Dv代表文本特征和图像特征的维度,Ds代表图片标注出来的标签区域数量,即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。Dn代表从图像中提取到的局部区域数量,Dp表示为局部区域的位置特征维度,Dl代表句子的长度;
图像特征通过Faster-RCNN进行提取,得到36(即Dn=36)个区域视觉特征,之后将其连接在一起作为图像特征V。每个区域视觉特征的维度为2048(即Dv=2048),位置特征P包含每个特征区域的左上角坐标和右下角坐标以及区域的面积。Dp为5。
Figure FDA0003709708650000015
其中x1,y1,x2,y2分别是区域左上角坐标和区域右下角坐标,W,H分别表示图片的宽度和高度;
文本特征T通过BERT提取,得到768维文本特征(即Dq=768),
Figure FDA0003709708650000021
TF=FCt(Bert(T))#(3)
FCv和FCt表示两个独立的全连接层、Bert表示Bert模型、
Figure FDA00037097086500000210
表示将前后两个值在相同维度上连接起来,
Figure FDA0003709708650000022
De=1024;
构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型;
将图像特征和文本特征经过式(2)(3)处理之后得到的VF和TF输入创建的基本跨模态检索模型中,将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量,建立三元组损失函数作为图像和文本对齐的损失函数:
Figure FDA0003709708650000023
其中t,x表示为正样本对,t-,x-表示为负样本,即同一批次的其他文本特征和图像特征,α为超参数,[a]+=max(a,0),
Figure FDA0003709708650000024
S1.2:提取图像区域标签S,与从原始文本中提取到的名词进行对齐,之后和需要进行掩盖的对象轮廓进行比对,将图像的所有局部特征区域形成的方框长宽各均匀分为14份,取交叉点共计196个点,然后通过统计落在对象轮廓内部的点的数量除以196来计算该图像区域特征对文本的重要系数,再将所有值连接起来构成系数矩阵
Figure FDA00037097086500000211
如式(5)所示,其中Fi值越小表示区域特征Vi越重要。
Figure FDA0003709708650000025
Pi表示区域i的位置特征,
Figure FDA00037097086500000212
表示图片的对象区域标签,E表示原始文本。mask(Pi,Ii,E)表示统计区域i落在重要区域内部的点的数量,Fi表示
Figure FDA0003709708650000026
的第i行的值。
3.根据权利要求2所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S2的具体实现包括:
S2.1:构建实例级的对比学习:利用S1.2中得到的矩阵
Figure FDA0003709708650000027
来判断图像局部特征Vii∈Dn对当前文本特征的重要程度,将重要区域的特征(即在
Figure FDA0003709708650000028
中对应的值不为1)连接起来构建正样本Oins+,将不重要区域的特征(即在
Figure FDA0003709708650000029
中对应的值为1)连接起来作为反事实样本,即负样本
Figure FDA0003709708650000031
k表示实例级负样本个数;
S2.2:将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本跨模态检索模型中,然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量Vins+
Figure FDA0003709708650000032
以及T,使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐,设计InfoNCE对比损失函数,具体表示如下:
Figure FDA0003709708650000033
这里的exp(n)=en、T是原始文本特征,τ=0.15,为温度参数。
4.根据权利要求2所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S3的具体实现包括:
步骤S3.1:构建图像级的对比学习:利用S1.2中得到的
Figure FDA0003709708650000034
来判断图像局部特征Vii∈Dn对当前文本特征的重要程度,随机掩盖20%不重要的局部特征(在
Figure FDA0003709708650000035
中对应的值为1)来构建正样本Bimg+,从其余部分中随机选择m个图像作为负样本
Figure FDA0003709708650000036
m表示图像级负样本的个数;
步骤S3.2:将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的跨模态检索模型中,然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量Vimg+
Figure FDA0003709708650000037
以及T,使得跨模态检索模型学习细粒度的图片文本全局特征对齐,设计InfoNCE对比损失函数,具体表示如下:
Figure FDA0003709708650000038
这里的exp(n)=en、T是原始文本特征、τ=0.15为温度参数。
5.根据权利要求1所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S4的具体实现包括:
S4.1:构建语义级的对比学习:利用反事实思想将原始文本中的名词进行随机替换,生成k(假设原始文本有k个名词)个负样本
Figure FDA0003709708650000039
原始文本作为正样本G+
S4.2:将S4.1中得到的文本正负样本和图像特征,输入到S1.1中创建的基本的跨模态检索模型中,使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量Tsem+
Figure FDA00037097086500000310
以及T来训练模型使其更注意对视觉词语的理解,进而建立不同模态间的关系并促进对语言表达的理解,具体的对比损失函数如下:
Figure FDA0003709708650000041
这里exp(n)=en,V是原始图片特征,τ=0.1为温度参数。
6.根据权利要求1所述的一种基于反事实推理的跨模态检索模型,其特征在于,所述S5的融合方法采用如下:
设计损失函数
Figure FDA0003709708650000042
进行跨模态检索模型的整体训练:
Figure FDA0003709708650000043
这里λ1=0.2,λ2=0.2,λ3=0.2,λ4=0.4是平衡化参数。
7.根据权利要求1-6任一项所述的一种基于反事实推理的跨模态检索模型的跨模态检索方法,其特征在于,对任意一张待测图像,输入至权利要求1-6任一项所述的模型,计算该图像与模型测试库中所有文本之间的整体相似度,检索出其相似度最大的文本作为检索结果;对任意一个段待测文本,计算该文本与测试库中所有图像之间的相似度,检索出与其相似度最大的图像作为检索结果。
8.一种计算机设备,其特征在于,所述计算机设备内置权利要求1-6任一项所述基于反事实推理的跨模态检索模型的执行程序代码或存储程序代码、或者权利要求7所述的跨模态检索方法的执行程序代码或存储程序代码。
CN202210716568.8A 2022-06-23 2022-06-23 一种基于反事实推理的跨模态检索模型、方法及计算机设备 Pending CN115146100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210716568.8A CN115146100A (zh) 2022-06-23 2022-06-23 一种基于反事实推理的跨模态检索模型、方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716568.8A CN115146100A (zh) 2022-06-23 2022-06-23 一种基于反事实推理的跨模态检索模型、方法及计算机设备

Publications (1)

Publication Number Publication Date
CN115146100A true CN115146100A (zh) 2022-10-04

Family

ID=83407829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716568.8A Pending CN115146100A (zh) 2022-06-23 2022-06-23 一种基于反事实推理的跨模态检索模型、方法及计算机设备

Country Status (1)

Country Link
CN (1) CN115146100A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391588A (zh) * 2022-10-31 2022-11-25 阿里巴巴(中国)有限公司 视觉语言预训练模型的微调方法和图文检索方法
CN116089654A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于音频监督的可转移视听文本生成方法和系统
CN117370679A (zh) * 2023-12-06 2024-01-09 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115391588A (zh) * 2022-10-31 2022-11-25 阿里巴巴(中国)有限公司 视觉语言预训练模型的微调方法和图文检索方法
CN116089654A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于音频监督的可转移视听文本生成方法和系统
CN117370679A (zh) * 2023-12-06 2024-01-09 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置
CN117370679B (zh) * 2023-12-06 2024-03-26 之江实验室 一种多模态双向蕴含社交网络虚假消息验证的方法及装置

Similar Documents

Publication Publication Date Title
Xi et al. Visual question answering model based on visual relationship detection
CN115146100A (zh) 一种基于反事实推理的跨模态检索模型、方法及计算机设备
Zhou et al. Multi-label image classification via category prototype compositional learning
Lu et al. Beyond holistic object recognition: Enriching image understanding with part states
Zhang et al. Explicit cross-modal representation learning for visual commonsense reasoning
CN116778140A (zh) 基于双重知识蒸馏的视觉定位方法、装置、设备和存储器
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
Li et al. Bundled object context for referring expressions
Rafiq et al. Video description: A comprehensive survey of deep learning approaches
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
Zang et al. Multimodal icon annotation for mobile applications
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
Pramanick et al. Talk-to-Resolve: Combining scene understanding and spatial dialogue to resolve granular task ambiguity for a collocated robot
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
Wu et al. Visual Question Answering
Zhang et al. Deep discriminative image feature learning for cross-modal semantics understanding
Lu et al. Web multimedia object classification using cross-domain correlation knowledge
Tilak et al. Visual entity linking
CN117609536A (zh) 基于语言引导的指称表达理解推理网络系统及推理方法
CN115599954A (zh) 一种基于场景图推理的视频问答方法
CN115082430A (zh) 图像分析方法、装置及电子设备
Rafi et al. A linear sub-structure with co-variance shift for image captioning
Lei et al. Multimodal Sentiment Analysis Based on Composite Hierarchical Fusion
Zhang et al. CAT: Re-Conv Attention in Transformer for Visual Question Answering
Makrehchi et al. Automatic taxonomy extraction using google and term dependency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination