CN114996502A - 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备 - Google Patents

一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备 Download PDF

Info

Publication number
CN114996502A
CN114996502A CN202210718706.6A CN202210718706A CN114996502A CN 114996502 A CN114996502 A CN 114996502A CN 202210718706 A CN202210718706 A CN 202210718706A CN 114996502 A CN114996502 A CN 114996502A
Authority
CN
China
Prior art keywords
image
visual
text
features
reasoning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210718706.6A
Other languages
English (en)
Inventor
张建庆
张飞飞
徐常胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202210718706.6A priority Critical patent/CN114996502A/zh
Publication of CN114996502A publication Critical patent/CN114996502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备。视觉常识推理部分使用预训练模型提取图像和文本的特征,得到视觉模态和文本模态的联合表示,再使用多类交叉熵损失函数进行优化训练;然后对视觉常识推理原始数据集进行处理,以用于图文匹配模块;图文匹配部分,先提取图像的像素级特征作为全局特征,提取图像的区域级特征作为局部特征,再通过对比学习损失函数对图文匹配进行优化训练;最后通过参数共享实现图文匹配和视觉常识推理双向促进。本发明提高了模型对多样化的视觉内容和高级文本语义联合推理能力,使模型更好地对齐两种模态。通过图文匹配和视觉推理双向促进,提高视觉常识推理任务的性能。

Description

一种联合图文匹配和视觉推理的多任务学习模型、视觉常识 推理方法及计算机设备
技术领域
本发明属于多媒体计算领域,具体涉及一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备。
背景技术
随着社交网络中多模态数据量急剧增长,为有效地分析异构模态的数据,许多具有挑战性的任务被关注和研究。视觉常识推理(Visual Commonsense Reasoning,VCR)和图文匹配(Image Text Matching)正是其中的两项任务,是目前国内外的研究热点。视觉常识推理即给定有关某张图像的一个问题,视觉常识推理模型不仅需要提供正确的答案,还需要提供合理的理由来证明该答案。图文匹配则是给定一张图像和一个文本描述,模型需要计算出这两种模态的数据是否相似。近年来,随着深度学习技术的发展,视觉常识推理任务和图文匹配模型取得了丰硕的进展。但是视觉常识推理任务仍是一个具有挑战性的问题,因为它需要全面理解图像中多样化的视觉内容、语义丰富的语言表达以及复杂的跨模态关系。图文匹配任务相对取得了更好的研究成果,本发明希望使用图文匹配去提升视觉常识推理模型的性能。
为了解决上述挑战,目前的方法求助于整体注意力机制,或探索具有大规模预训练的基于Transformer的模型,但是很少有研究人员将视觉推理任务和图文匹配任务联合起来去研究,由于图文匹配也需要对图像特征进行全面且细粒度的学习,所以本发明认为通过图文匹配对视觉推理任务可以起到一个促进作用。因此,对图文进行更全面的理解并学习从而得到更具判别力的特征表示对于视觉常识推理任务是十分重要的。
为了得到视觉模态和语言模态中的细粒度信息,提出了采用多层级的形式去全方位的进行特征表示;图文匹配任务需要视觉模态和语言模态之间的高度对齐,同样VCR任务也需要实现这两个模态高度对齐进而挖掘深层的语义信息,所以本发明提出了一个模型实现图文匹配和视觉常识推理的相互促进的多任务学习框架。因此,本发明设计了一种联合图文匹配和视觉推理的多任务学习方法来提高视觉常识推理模型的特征学习和理解推理能力从而提高模型的整体性能。
发明内容
针对以上问题,本发明主要侧重视觉常识推理任务,本发明的目的是利用图文匹配模块去增强视觉常识推理模块的表现力,通过将问题和响应合并转为一种全文本的形式输入到图文匹配模块中,得到更高层级的文本语义和复杂的跨模态间关系的联合建模,从而学习更具判别力的特征表示,得到一个鲁棒且高性能的视觉常识推理模型。实现本发明的技术方案如下:
一种联合图文匹配和视觉推理的多任务学习模型,该模型由以下步骤得到:
步骤S1:使用预训练模型提取原始图片和文本的特征,并得到视觉模态和文本模态的联合表示;
步骤S2:使用多类交叉熵损失函数对视觉常识推理进行优化训练;
步骤S3:对视觉常识推理原始数据集进行数据处理,使之用于图文匹配模块;
步骤S4:提取图像的像素级特征作为全局特征,提取图像的区域级特征作为局部特征;
步骤S5:通过对比学习损失函数对图文匹配进行优化训练;
步骤S6:通过参数共享实现图文匹配和视觉常识推理的双向促进,将上述所有部分整合到一个统一框架得到多任务学习模型,并进行多任务学习模型的整体训练。
以上过程均在具体实施方式部分作详细说明。
本发明利用上述多任务学习模型进行视觉常识推理的方法如下:
对于任意一组图像、问题,其中一个候选答案,首先采用步骤s1和s4的特征提取方法提取图像和文本的特征,并得到其跨模态联合表示,然后根据步骤s2,使模型计算出当前候选答案为正确答案的概率,然后根据s4提取图像的局部特征和全局特征将提取好的全局特征和局部特征按照步骤S5的方法进行图像和文本的局部对齐和全局对齐并且计算出图像和文本的相似度,根据相似度最大时得出视觉常识推理结果。
本发明基于上述模型和方法,还提出了一种计算机设备,所述计算机设备内置所述的一种联合图文匹配和视觉推理的多任务学习模型的执行指令代码或存储程序代码、或者所述的视觉常识推理方法的执行指令代码或存储程序代码。
本发明的有益效果:
(1)本发明提出了一个联合图文匹配和视觉推理的多任务学习模型,提高了模型对多样化的视觉内容,和高级的文本语义联合理解的推理能力。
(2)本发明将图文匹配任务引用到视觉常识推理任务中,增强了模型的感知能力,有助于模型更有效地对齐两种模态特征。
(3)本发明将通过图文匹配和视觉推理进行联合训练从而双向促进,这进一步提高了视觉常识推理的性能。
附图说明
图1是本发明基于一个联合图文匹配和视觉推理的多任务学习模型的框架图。
具体实施方式
下面结合附图对本发明作进一步说明。
图1为本发明提出的联合图文匹配和视觉推理的多任务学习模型的框架图,所述模型利用视觉常识推理和图文匹配联合学习得到更加丰富全面的特征表示,所述模型由以下步骤得到:
步骤S1,使用预训练模型提取原始图片和文本的特征;
所述步骤S1进一步包括以下步骤:
步骤S1-1:对训练数据中的每一个问题,及其对应的图片和四个选项,提取其问题特征
Figure BDA0003710483410000031
图像特征
Figure BDA0003710483410000032
和四个选项特征
Figure BDA0003710483410000033
这里Dq,Do,Dr代表特征的维度。在实施例中,图像特征可以通过ResNet101提取、以及拼接处理,得到512维视觉特征(即Do=512),问题特征和选项特征可以通过BERT提取、以及拼接处理,得到512维文本特征。
步骤S1-2:将根据步骤S1-1得到的文本特征q(或r)和图像特征o,使用联合编码器f(·;θ)将句子中的每个单词的嵌入表示和它所对应的局部图像表示进行连接,将连接得到的特征表示再通过一个长短时记忆网络(LSTM)进行转换,LSTM每个单元的输出进行池化得到最终的联合嵌入表示f((o,q);θ),f((o,r);θ),其中θ为训练过程中的参数。
步骤S2,如图1所示,使用多类交叉熵损失函数对视觉常识推理进行优化训练;
所述步骤S2进一步包括以下步骤:
步骤S2-1:将步骤S1-2得到的两个联合嵌入表示送入多层感知机MLP中进行概率分数计算,再将该分数使用softmax函数进行归一化操作。具体如下:
Figure BDA0003710483410000034
这里的
Figure BDA0003710483410000035
表示归一化的结果,wo和wq是两个映射矩阵,可以稳定训练,所使用的MLP由两个全连接层构成。
步骤S2-2:利用一个交叉熵损失函数,对基于融合后的特征和选项特征的视觉常识推理进行约束,损失函数的定义如下:
Figure BDA0003710483410000041
这里的f(·)为分类函数,yi是选项ri的真实结果,L1是基本的视觉常识推理的分类损失函数。
步骤S3,如图1中的文本形式转化部分所示,对视觉常识推理原始数据集进行数据预处理,使之用于图文匹配;
所述步骤S3进一步包括以下步骤:
步骤S3-1:从视觉常识推理数据集文件中提取初始的问题、正确响应句子。将问题和正确响应进行连接得到“全文本”字幕描述表示为c,以一行代表一个文本描述的形式保存至文本文件中,从而构成了图文匹配模块所需的文本描述。
步骤S3-2:在完成S3-1之后,由于在传统的图文匹配任务中一张图片对应五个正确描述,而在视觉常识推理数据集中有些图像对应两个问题,有些图片对应三个问题,为了实现所需要的图像和文本描述索引号的一一对应,将图像进行复制实现一张图片只对应一个正确的文本描述。所以需从原始视觉常识推理模块的数据集中提取图像和对应描述的分别对应的索引号,作为正样本的标签存入json文件中,针对当前图像对应的相同索引号的描述为正样本之外,其余均为负样本。
步骤S4,如图1中的图文匹配模块部分所示,提取图像的像素级特征作为全局特征,提取图像的区域级特征作为局部特征;
所述步骤S4进一步包括以下步骤:
步骤S4-1:在图文匹配部分,首先提取图像的像素级特征。对于像素级特征,本发明对CNN骨干网络进行调整,将输入图像的分辨率提高到512×512。用两个不同的CNN进行处理:FasterRCNN在ImageNet上预训练、自下而上注意力机制(BUTD)和ResNeXT-101(32×8d)在Instagram(WSL)上预训练,联合嵌入空间的维数为1024。使用预提取的对象特征作为区域特征(BUTD feature)。同时,使用BiGRU或BERT-base作为文本特征提取器,实现整张图像和文本描述的全局对齐。具体特征计算公式如下:
Figure BDA0003710483410000042
其中,x为输入到ConvNet网络中的图像,t为输入到SeqModel模型中的选项或者问题,视觉特征集
Figure BDA0003710483410000043
是有着
Figure BDA0003710483410000044
个卷积局部表示,φn是来自特征映射函数(feature map)、目标提取框(object proposal)的空间像素级特征向量,N表示提取图像目标候选框的个数;文本特征集
Figure BDA0003710483410000051
表示从序列模型中取出的上下文化的词标记特征序列,其中M为词数,
Figure BDA0003710483410000052
d1和d2是特征维度。
然后将输出的视觉特征集
Figure BDA0003710483410000053
和文本特征集
Figure BDA0003710483410000054
通过视觉和文本聚合器fvisual(·)和ftext(·)进行聚合,进一步编码整体视觉和文本,嵌入
Figure BDA0003710483410000055
如下:
Figure BDA0003710483410000056
Figure BDA0003710483410000057
Figure BDA00037104834100000510
为图像的总体特征表示,u为文本的整体特征表示,d3表示将
Figure BDA00037104834100000511
映射到同一嵌入空间后的维度。
步骤S4-2:在图文匹配部分,再提取图像的区域特征。使用目标检测模型fasterRCNN提取ROI特征作为局部特征,实现图像中关键对象和文本描述中重点单词的局部对齐;
步骤S5,如图1中的图文匹配模块部分所示,通过对比学习损失函数对图文匹配模块进行优化训练;
所述步骤S5进一步包括以下步骤:
步骤S5-1:通过步骤S4-1提取到图像的像素级特征以后,除了与当前图像对应的描述为正样本,其余均为负样本,假设正确的对应描述的id为i,则正负样本的特征分别为步骤S3-1中的ci和{c1,c2,...,ci-1,ci+1,...,cn}。基于这些特征构建整个图像和整个句子之间的对比学习,建模不同模态间的关系并增强语言语义的理解,具体的对比损失函数如下:
Figure BDA0003710483410000058
这里的s(·)为相似性度量函数,τ为温度参数,τ为0.2。
步骤S5-2:通过步骤S4-2提取到图像的区域特征以后,除了与当前图像对应的描述为正样本,其余均为负样本,假设正确的对应描述的id为j,则正负样本的特征分别为步骤S3-1中的cj和{c1,c2,...,cj-1,cj+1,...,cn}。基于这些特征构建图像区域-单词之间的对比学习,建模不同模态间的关系并增强语言语义的理解,具体的对比损失函数如下:
Figure BDA0003710483410000059
这里的s(·)为相似性度量函数,τ为温度参数,τ为0.2。
步骤S6,如图1中的联合训练部分所示,通过参数共享实现图文匹配和视觉常识推理的双向促进,将上述所有部分整合到一个统一框架,进行多任务学习模型的整体训练。
所述步骤S6进一步包括以下步骤:
统一框架的整合得到多任务学习模型,即优化以下损失函数:
L=L11Lg_sim2Ll_sim
这里的λ12是平衡化参数,λ1=0.6,λ2=0.4,L1是视觉常识推理的损失函数,Lg_sim是整个图像和整个句子之间的对比损失函数,Ll_sim是图像区域和单词之间的对比损失函数。
本发明利用上述多任务学习模型进行视觉常识推理的方法如下:
对于任意一组图像、问题,其中一个候选答案,首先采用步骤s1和s4的特征提取方法提取图像和文本的特征,并得到其跨模态联合表示,然后根据步骤s2,使模型计算出当前候选答案为正确答案的概率,然后根据s4提取图像的局部特征和全局特征将提取好的全局特征和局部特征按照步骤S5的方法进行图像和文本的局部对齐和全局对齐并且计算出图像和文本的相似度,最后根据交叉熵损失函数和三元排序损失函数得出视觉常识推理结果。
本发明基于上述模型和方法,还提出了一种计算机设备,所述计算机设备内置所述的一种联合图文匹配和视觉推理的多任务学习模型的执行指令代码或存储程序代码、或者所述的视觉常识推理方法的执行指令代码或存储程序代码。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (9)

1.一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,该模型由如下步骤得到:
S1:提取原始图片和文本的特征,并得到视觉模态和文本模态的联合表示;
S2:使用多类交叉熵损失函数对视觉常识推理进行优化训练;
S3:对视觉常识推理原始数据集进行数据处理,使之用于图文匹配;
S4:提取图像的像素级特征作为全局特征,提取图像的区域级特征作为局部特征;
S5:通过对比学习损失函数对图文匹配进行优化训练;
S6:通过参数共享实现图文匹配和视觉常识推理的双向促进,融合上述过程得到多任务学习模型。
2.根据权利要求1所述的一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,所述S1的具体实现包括:
所述步骤S1进一步包括以下步骤:
S1-1:对训练数据中的每一个问题,及其对应的图片和四个选项,提取其问题特征
Figure FDA0003710483400000011
图像特征
Figure FDA0003710483400000015
和选项特征
Figure FDA0003710483400000012
这里Dq,Do,Dr代表特征的维度;图像特征可以通过ResNet101进行提取以及拼接处理,得到512维视觉特征(即Do=512),问题和选项特征可以通过BERT提取以及拼接处理,得到512维文本特征;
S1-2:将步骤S1-1得到的文本特征q(或r)和图像特征o,使用联合编码器f(·;θ)将句子中的每个单词的嵌入表示和它所对应的局部图像表示进行连接,将连接得到的特征表示再通过一个长短时记忆网络(LSTM)进行转换,LSTM每个单元的输出进行池化得到最终的联合表示f((o,q);θ),f((o,r);θ)。
3.根据权利要求2所述的一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,所述S2的具体实现包括:
S2-1:将步骤S1-2得到的联合嵌入表示送入一个多层感知机MLP中进行分数计算,再将该分数使用softmax函数进行归一化操作,具体如下:
Figure FDA0003710483400000013
这里的wo和wq是两个映射矩阵;
S2-2:使用交叉熵损失函数对基于融合后的特征和选项特征的视觉常识推理进行约束,损失函数定义如下:
Figure FDA0003710483400000014
这里的f(·)为分类函数,yi是选项ri的真实结果,L1是基本的视觉常识推理的分类损失。
4.根据权利要求1所述的一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,所述S3的具体实现包括:
S3-1:从视觉常识推理数据集文件中提取初始未做任何处理的问题、正确响应句子,将问题和正确响应进行连接得到“全文本”字幕描述表示为c,以一行代表一个文本描述的形式保存至文本文件中,从而构成了图文匹配所需的文本描述;
S3-2:为实现所需要的图像和文本描述索引号的一一对应,将图像进行复制实现一张图片只对应一个正确的文本描述,所以从原始视觉常识推理的数据集中提取每张图像的id号和每个描述的id号,作为正样本的标签存入json文件中,针对当前图像对应的相同索引号的描述为正样本之外,其余均为负样本。
5.根据权利要求4所述的一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,所述S4的具体实现包括:
S4-1:在图文匹配部分,首先提取图像的像素级特征,对于像素级特征,通过对CNN骨干网络进行调整,将输入图像的分辨率提高到512×512,用两个不同的CNN进行处理:FasterRCNN在ImageNet上预训练,自下而上注意力机制(BUTD)和ResNeXT-101(32×8d)在Instagram(WSL)上预训练,联合嵌入空间的维数设为1024;使用预提取的对象特征作为区域特征(BUTD feature);同时,使用BiGRU或BERT-base作为文本特征提取器,实现整张图像和文本描述的全局对齐,具体特征计算公式如下:
ConvNet(x):
Figure FDA0003710483400000021
SeqModel(t):
Figure FDA0003710483400000022
其中,视觉特征集
Figure FDA0003710483400000023
是有着
Figure FDA0003710483400000024
个卷积局部表示,φn可以是来自特征映射函数(feature map)、目标提取框(object proposal)的空间像素级特征向量;文本特征
Figure FDA0003710483400000025
表示从序列模型中取出的上下文化的词标记特征序列,其中M为词数,
Figure FDA0003710483400000026
d1和d2是特征维度;
然后将输出的视觉特征
Figure FDA0003710483400000027
和文本特征
Figure FDA0003710483400000028
通过视觉聚合器fvisual(·)和文本聚合器ftext(·)进行聚合,进一步编码整体视觉和文本嵌入
Figure FDA0003710483400000029
如下:
Figure FDA00037104834000000210
Figure FDA00037104834000000211
步骤S4-2:在图文匹配部分,再提取图像的区域特征;使用目标检测模型faster RCNN提取ROI特征作为局部特征,实现图像中关键对象和文本描述中重点单词的局部对齐。
6.根据权利要求5所述的一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,所述S5的具体实现包括:
S5-1:通过步骤S4-1提取到图像的像素级特征以后,只有与本图像id号一致的文本描述为正样本,其余均为负样本,假设正确的对应描述的id为i,则正负样本的特征分别为步骤S3-1中的ci和{c1,c2,...,ci-1,ci+1,...,cn},基于这些特征构建整个图像和整个句子之间的对比学习,建模不同模态间的关系并增强语言语义的理解,具体的对比损失函数如下:
Figure FDA0003710483400000031
这里的s(·)为相似性度量函数,τ为温度参数;
S5-2:通过步骤S4-2提取到图像的区域特征以后,除了与当前图像对应的描述为正样本,其余均为负样本,假设正确对应描述对应id为j,则正负样本的特征分别为步骤S3-1中的cj和{c1,c2,...,cj-1,cj+1,...,cn},基于这些特征构建图像区域-单词之间的对比学习,建模不同模态间的关系并增强语言语义的理解,具体的对比损失函数如下:
Figure FDA0003710483400000032
这里的s(·)为相似性度量函数,τ为温度参数。
7.根据权利要求6所述的一种联合图文匹配和视觉推理的多任务学习模型,其特征在于,所述S6的具体实现包括:所述多任务学习模型通过以下融合方式得到:
L=L11Lg_sim2Ll_sim
这里的λ1,λ2是平衡化参数,L1是视觉常识推理的损失函数,Lg_sim是整个图像和整个句子之间的对比损失函数,Ll_sim是图像区域和单词之间的对比损失函数。
8.根据权利要求1-7任一项所述的一种联合图文匹配和视觉推理的多任务学习模型的视觉常识推理方法,其特征在于,
对于任意一组图像、问题,其中一个候选答案,首先采用步骤s1和s4提取图像和文本的特征,并得到其跨模态联合表示,然后根据步骤s2,使模型计算出当前候选答案为正确答案的概率,然后根据s4提取图像的局部特征和全局特征,将提取好的全局特征和局部特征按照步骤S5的方法进行图像和文本的局部对齐和全局对齐并且计算出图像和文本的相似度,根据相似度最大时得出结果。
9.一种计算机设备,其特征在于,所述计算机设备内置权利要求1-7任一项所述的一种联合图文匹配和视觉推理的多任务学习模型的执行指令代码或存储程序代码、或者权利要求8所述的视觉常识推理的执行指令代码或存储程序代码。
CN202210718706.6A 2022-06-23 2022-06-23 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备 Pending CN114996502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210718706.6A CN114996502A (zh) 2022-06-23 2022-06-23 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210718706.6A CN114996502A (zh) 2022-06-23 2022-06-23 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

Publications (1)

Publication Number Publication Date
CN114996502A true CN114996502A (zh) 2022-09-02

Family

ID=83037280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210718706.6A Pending CN114996502A (zh) 2022-06-23 2022-06-23 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

Country Status (1)

Country Link
CN (1) CN114996502A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292455A (zh) * 2022-10-08 2022-11-04 有米科技股份有限公司 图文匹配模型的训练方法及装置
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116311323A (zh) * 2023-01-17 2023-06-23 北京荣大科技股份有限公司 基于对比学习的预训练文档模型对齐优化方法
CN116932803A (zh) * 2023-09-13 2023-10-24 浪潮(北京)电子信息产业有限公司 基于多模态预训练模型的数据集生成方法、训练方法
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117909535A (zh) * 2024-03-15 2024-04-19 中国科学技术大学 基于视觉语言模型的组合理解方法、系统、设备与介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292455A (zh) * 2022-10-08 2022-11-04 有米科技股份有限公司 图文匹配模型的训练方法及装置
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN115757857B (zh) * 2023-01-09 2023-05-23 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN116311323A (zh) * 2023-01-17 2023-06-23 北京荣大科技股份有限公司 基于对比学习的预训练文档模型对齐优化方法
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116051859B (zh) * 2023-02-21 2023-09-08 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116932803A (zh) * 2023-09-13 2023-10-24 浪潮(北京)电子信息产业有限公司 基于多模态预训练模型的数据集生成方法、训练方法
CN116932803B (zh) * 2023-09-13 2024-01-26 浪潮(北京)电子信息产业有限公司 基于多模态预训练模型的数据集生成方法、训练方法
CN117407557A (zh) * 2023-12-13 2024-01-16 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117407557B (zh) * 2023-12-13 2024-05-07 江西云眼视界科技股份有限公司 零样本实例分割方法、系统、可读存储介质及计算机
CN117909535A (zh) * 2024-03-15 2024-04-19 中国科学技术大学 基于视觉语言模型的组合理解方法、系统、设备与介质
CN117909535B (zh) * 2024-03-15 2024-05-31 中国科学技术大学 基于视觉语言模型的组合理解方法、系统、设备与介质

Similar Documents

Publication Publication Date Title
CN114996502A (zh) 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备
CN111858882B (zh) 一种基于概念交互和关联语义的文本视觉问答系统及方法
CN111339281B (zh) 一种多视角融合的阅读理解选择题的答案选择方法
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
Yusuf et al. An analysis of graph convolutional networks and recent datasets for visual question answering
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
Chen et al. AE-Net: Fine-grained sketch-based image retrieval via attention-enhanced network
CN115953569A (zh) 一种基于多步推理的一阶段视觉定位模型构建方法
Chen et al. Image captioning with memorized knowledge
Yang et al. GID-Net: Detecting human-object interaction with global and instance dependency
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN117292146A (zh) 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法
CN117094395A (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
CN117093692A (zh) 一种基于深度融合的多粒度图像-文本匹配方法及系统
CN115098646B (zh) 一种图文数据的多级关系分析与挖掘方法
CN117034185A (zh) 一种融合语法树的多关系感知异构图视觉问答方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN113010712B (zh) 一种基于多图融合的视觉问答方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN114550197A (zh) 一种端子排图像检测信息匹配方法
CN115033729B (zh) 一种基于模态间关系对齐的跨模态行人检索模型、方法、以及计算机设备
Wang et al. RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction
CN117891940B (zh) 多模态讽刺检测方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination