CN113239214B - 基于有监督对比的跨模态检索方法、系统及设备 - Google Patents

基于有监督对比的跨模态检索方法、系统及设备 Download PDF

Info

Publication number
CN113239214B
CN113239214B CN202110543714.7A CN202110543714A CN113239214B CN 113239214 B CN113239214 B CN 113239214B CN 202110543714 A CN202110543714 A CN 202110543714A CN 113239214 B CN113239214 B CN 113239214B
Authority
CN
China
Prior art keywords
cross
modal
matrix
input data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110543714.7A
Other languages
English (en)
Other versions
CN113239214A (zh
Inventor
徐常胜
钱胜胜
方全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110543714.7A priority Critical patent/CN113239214B/zh
Publication of CN113239214A publication Critical patent/CN113239214A/zh
Application granted granted Critical
Publication of CN113239214B publication Critical patent/CN113239214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明属于跨模态检索领域,具体涉及了一种基于有监督对比的跨模态检索方法、系统及设备,旨在解决现有的监督式跨模态学习方法一般通过线性投影捕获数据相关性,且通常聚集于最大化成对相关性或分类准确性,InfoNCE损失平等对待所有类别,从而导致跨模态检索结果准确性不高的问题。本发明包括:获取待检索的跨模态输入数据;通过表示学习网络映射到统一空间中,获得输入数据的跨模态表示;通过训练好的跨模态检索网络进行跨模态检索。本发明将不同模态的数据映射到统一空间中,通过多标签判别性负例注意力提高具有高共现概率的语义上不同类别的样本对的比例,将InfoNCE损失函数扩展为多标签跨模态InfoNCE损失函数,实现了高准确性与高精度的跨模态检索。

Description

基于有监督对比的跨模态检索方法、系统及设备
技术领域
本发明属于跨模态检索领域,具体涉及了一种基于有监督对比的跨模态检索方法、系统及设备。
背景技术
随着互联网和多媒体的快速发展,文本、图像、视频、音频等多模态数据爆炸式增长,成为知识获取和信息传播的主要形式。单模态检索是用一种模态的数据(如文本)作为查询条件,检索出相同模态(还是文本)的语义相似数据。跨模态搜索是使用一种模态的数据(如文本)作为查询条件,检索出其他模态(如图像)的语义相似数据。跨模态检索具有广泛的应用前景,如多媒体数据管理和智能搜索引擎。
不同模态数据具有异质性,具有不同的分布和表示形式,因此需要缩小模态异质性差距。有许多工作着重于评估跨模态数据的语义相似性。例如,表示学习将跨模态数据投影到一个通用表示子空间中,是减小模态差距的常用方法,传统方法将线性投影作为基本模型,最大化分类准确率或模态对的相关性,来生成通用表示。近年来,深度神经网络成为自动学习特征表示的新兴工具,广泛用于跨模态检索任务中。基于深度神经网络(DNN)的跨模态检索已成为探索非线性关系的活跃研究领域,并取得了巨大的性能提升。
对比学习在许多表示学习任务中引起了广泛的关注并取得了很好的效果,如图像分类,目标检测,动作识别,知识蒸馏、图像翻译。通过使同一类别样本的表示更接近,不同类别的样本的表示更不同,监督式对比学习通过利用标签信息可以学习到具有判别性和鲁棒的表示。
发明内容
为了解决现有技术中的上述问题,即现有的监督式跨模态学习方法一般通过线性投影捕获数据相关性,且通常聚集于最大化成对相关性或分类准确性,InfoNCE损失平等对待所有类别,从而导致跨模态检索结果准确性不高的问题,本发明提供了一种基于有监督对比的跨模态检索方法,该检索方法包括:
步骤S10,获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像-文本对;
步骤S20,通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中,获得输入数据的跨模态表示;所述表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络;
步骤S30,基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索;
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数。
在一些优选的实施例中,所述多标签判别性负例注意力,其获取方法为:
步骤A10,获取不同类别样本的标签语义特征和标签共现信息;
步骤A20,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵;
步骤A30,计算训练数据的标签外部乘积获得类别共现矩阵,结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力。
在一些优选的实施例中,步骤S20包括:
步骤S21,通过所述图像特征学习子网络获取输入数据中图像的跨模态表示:
Figure BDA0003072777300000031
其中,vi代表第i个输入数据中图像的跨模态表示,
Figure BDA0003072777300000032
代表第i个输入数据的图像样本特征,n为输入数据的总数量,θv={θcnnfv}为图像特征学习子网络的可训练参数,fcnn代表卷积层,ffc代表全连接层,Rd代表统一空间,d为统一空间的维数;
步骤S22,通过所述文本特征学习子网络获取输入数据中文本的跨模态表示:
Figure BDA0003072777300000033
其中,ti代表第i个输入数据中文本的跨模态表示,
Figure BDA0003072777300000034
代表第i个输入数据的文本样本特征,fmlp代表多层感知机,θt={θmlpft}为文本特征学习子网络的可训练参数;
步骤S23,所述输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示。
在一些优选的实施例中,步骤A20包括:
步骤A21,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵:
Figure BDA0003072777300000035
其中,Sij代表ei和ej之间的语义相似度矩阵,ei,ej分别代表第i个和第j个类别的标签语义特征,||·||2代表L2正则化;
步骤A22,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵:
Figure BDA0003072777300000041
其中,Pij代表Li和Lj之间的条件概率矩阵,P(Li|Lj)代表第j个类别Lj出现时第i个类别Li出现的概率,Mij代表类别i和类别j对应的标签对i和j的共现频率,Nj代表类别j对应的标签j的出现频率;
步骤A23,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵:
Figure BDA0003072777300000042
其中,Aij代表第i个和第j个类别间的负例增强矩阵,δ和μ分别为预设的阈值参数。
在一些优选的实施例中,步骤A30包括:
步骤A31,计算训练数据的标签外部乘积获得类别共现矩阵:
Cij=yi×yj∈Rc×c
其中,Cij代表第i个和第j个类别间的类别共现矩阵,yi为第i个类别的标签,yj为第j个类别的标签,Rc×c代表Cij的维度是c×c,c代表每个维度的大小;
步骤A32,结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力:
Figure BDA0003072777300000043
其中,a(yi,yj)代表第i个和第j个类别间的多标签判别性负例注意力,ξ是预设的增强参数,sum()是进行矩阵中所有元素求和的函数,·为点积,A为负例增强矩阵,Fij=I-Cij,Cij代表第i个和第j个类别间的类别共现矩阵,I代表单位矩阵,Fij表示第i个和第j个类别不共现,Fii和Fjj分别为表示第i、j个类别不存在,即负例。
在一些优选的实施例中,所述多标签跨模态InfoNCE损失函数为:
Figure BDA0003072777300000051
Figure BDA0003072777300000052
Figure BDA0003072777300000053
Figure BDA0003072777300000054
其中,
Figure BDA0003072777300000055
Figure BDA0003072777300000056
分别代表第i个样本和第j个样本中图像之间的损失、文本之间损失、第i个图像和第j个文本之间的损失以及第i个文本和第j个图像之间的损失,vi,vj,vk分别代表第i,j,k个样本中的图像特征,ti,tj,tk分别代表第i,j,k个样本中的文本特征,yi,yj分别代表第i,j个样本的标签,
Figure BDA0003072777300000057
代表连乘,N代表样本的数目,T代表温控超参数,cos()代表余弦相似度,a()代表多标签判别性负例注意力运算,exp()代表指数运算,log代表对数运算。
在一些优选的实施例中,所述图像特征学习子网络,其结构包括:
进行图像卷积操作的VGGNet网络以及由多个全连接层构成的进行特征映射的多层感知机网络;
所述文本特征学习子网络,其结构包括:
由两个全连接的层构成的进行文本感知的MLP多层感知机网络以及由多个全连接层构成的进行特征映射的多层感知机网络。
本发明的另一方面,提出了一种基于有监督对比的跨模态检索系统,该检索系统包括以下模块:
输入模块,配置为获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像-文本对;
跨模态表示模块,配置为通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中,获得输入数据的跨模态表示;所述表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络;
跨模态检索模块,配置为基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索;
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数。
本发明的第三方面,提出了一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于有监督对比的跨模态检索方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于有监督对比的跨模态检索方法。
本发明的有益效果:
(1)本发明基于有监督对比的跨模态检索方法,通过表示学习网络的图像特征学习子网络和文本特征学习子网络,将输入的图像-文本对分别生成两种模态的模态不变通用表示,即将两种模态数据映射到统一空间中,为实现跨模态检索提供了可行的方向。
(2)本发明基于有监督对比的跨模态检索方法,通过余弦相似度计算标签语义特征的语义相似度矩阵,通过条件概率计算标签共现信息的条件概率矩阵,并结合语义相似度矩阵和条件概率矩阵构建负例增强矩阵,最终结合负例增强矩阵和标签外部乘积获得的类别共现矩阵获得不同类别样本之间的多标签判别性负例注意力,提高了具有高共现概率的语义上不同类别的样本对的比例,避免了传统对比学习方式中,具有高共现概率的语义上不同类别的样本对容易混淆的问题,从而进一步提升了后续跨模态检索的准确性和精度。
(3)本发明基于有监督对比的跨模态检索方法,结合多标签判别性负例注意力,将传统的InfoNCE损失函数扩展为多标签跨模态InfoNCE损失函数,并以扩展后的损失函数进行网络的优化训练,以获取判别性和模态不变表示形式,大大提升了网络训练效果以及网络学习的鲁棒性,从而进一步提升了后续跨模态检索的准确性和精度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于有监督对比的跨模态检索方法的流程示意图;
图2是本发明基于有监督对比的跨模态检索方法的表示学习网络与多标签判别性负例注意力的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于有监督对比的跨模态检索方法,解决了领域内存在的几大问题:
(1)跨模态数据相关性极其复杂,通过线性投影难以完全捕获。
深度神经网络(deep neural networks)作为一种新兴的自动学习特征表示的技术,越来越多地应用于跨模态检索任务中。基于深度神经网络(DNN)的跨模态检索已经成为利用非线性关系的一个活跃的研究课题,并取得了很大的性能改进。本发明的表示学习网络采用深度神经网络,通过转换函数将特征映射到统一空间,来捕捉相关性。
(2)现有的监督式跨模态学习方法通常聚焦于最大化成对相关性或分类准确性,并且没有充分探索成对语义相似的样本与成对语义不同的样本之间的对比,而这对于检索任务却很重要。
基于对比学习的方法在表示学习中取得了显著进步。在监督式对比学习中,对比损失被设计为将属于同一类别的表示聚类,并将来自不同类别的表示聚类推开。然而,该方法却主要集中于图像或视频的表示学习,而本发明将对比学习扩展到跨模式学习场景。
(3)传统的InfoNCE损失平等对待所有类别,这些类别的表示可能不具有判别性,这需要强大的区分机制。
InfoNCE的多标签版本有一个严重的问题,即具有高共现概率的某些语义上不同类别的学习表示可能无法区分。假设当第i个类别(例如,“汽车”)出现时,第j个类别(例如,“人”)以高概率出现,则选择包含第j个类别的样本作为属于第i个类别的样本的正样本很有可能使这两个类别的学习表示形式无法区分。为了缓解这一问题,本发明提出了一种新的多标签判别性负例注意力方法,以增强这些类别之间的区别,从而可以提高所学表示形式的语义分辨率。
本发明的一种基于有监督对比的跨模态检索方法,该检索方法包括:
步骤S10,获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像-文本对;
步骤S20,通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中,获得输入数据的跨模态表示;所述表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络;
步骤S30,基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索;
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数。
为了更清晰地对本发明基于有监督对比的跨模态检索方法进行说明,下面结合图1和图2对本发明实施例中各步骤展开详述。
本发明第一实施例的基于有监督对比的跨模态检索方法,包括步骤S10-步骤S30,各步骤详细描述如下:
步骤S10,获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像(image)-文本(text)对。
n个图像-文本对表示如式(1):
Figure BDA0003072777300000091
其中,
Figure BDA0003072777300000101
代表第i个图像-文本对的图像样本特征,
Figure BDA0003072777300000102
Figure BDA0003072777300000103
的特征空间,dv
Figure BDA0003072777300000104
的特征维度,
Figure BDA0003072777300000105
代表第i个图像-文本对的文本样本特征,
Figure BDA0003072777300000106
Figure BDA0003072777300000107
的特征空间,dt
Figure BDA0003072777300000108
的特征维度。
每个图像-文本对
Figure BDA0003072777300000109
的语义标签向量如式(2)所示:
yi=[yi1,yi2,...,yic]∈Rc (2)
其中,yij=1,j=1,2,…,c代表第i个图像-文本对属于第j类,yij=0,j=1,2,…,c代表第i个图像-文本对不属于第j类,c为类别数。
步骤S20,通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中,获得输入数据的跨模态表示。
由于图像、文本的特征向量属于不同的模态,不能直接比较相似度,因此需通过不同模态的转换函数将图像和文本的特征向量映射到一个统一空间,在统一表示空间中直接比较这两个模态的样本的相似度,同一类别样本的相似度大于不同类别样本的相似度。不同模态的转换函数可表示为式(3):
Figure BDA00030727773000001010
其中,d代表统一空间的维数,θvt为可训练参数。
本发明一个实施例中,通过表示学习网络进行数据的模态转换,表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络:
图像特征学习子网络,其结构括:进行图像卷积操作的VGGNet网络以及由多个全连接层构成的进行特征映射的多层感知机网络。图像特征学习子网络的输入是图像-文本对中的图像,从VGGNet的fc7层生成4096维特征向量作为图像的高级语义表示
Figure BDA00030727773000001011
然后应用几个全连接层将
Figure BDA00030727773000001012
映射到统一空间得到vi
步骤S21,通过所述图像特征学习子网络获取输入数据中图像的跨模态表示,如式(4)所示:
Figure BDA0003072777300000111
其中,vi代表第i个输入数据中图像的跨模态表示,
Figure BDA0003072777300000112
代表第i个输入数据的图像样本特征,n为输入数据的总数量,θv={θcnnfv}为图像特征学习子网络的可训练参数,fcnn代表卷积层,ffc代表全连接层,Rd代表统一空间,d为统一空间的维数。
文本特征学习子网络,其结构包括:由两个全连接的层(TxtNet中的MLP是执行一般分类任务预训练获得的,由两个全连接的层组成)构成的进行文本感知的MLP多层感知机网络以及由多个全连接层构成的进行特征映射的多层感知机网络。文本特征学习子网络输入是图像-文本对中的词袋特征,经过多层全连接生成高级语义表示
Figure BDA0003072777300000113
Figure BDA0003072777300000114
然后应用几个全连接层将
Figure BDA0003072777300000115
映射到统一空间得到ti
步骤S22,通过所述文本特征学习子网络获取输入数据中文本的跨模态表示,如式(5)所示:
Figure BDA0003072777300000116
其中,ti代表第i个输入数据中文本的跨模态表示,
Figure BDA0003072777300000117
代表第i个输入数据的文本样本特征,fmlp代表多层感知机,θt={θmlpft}为文本特征学习子网络的可训练参数。
步骤S23,输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示。
步骤S30,基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索。
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数。
多标签判别性负例注意力,其获取方法为:
步骤A10,获取不同类别样本的标签语义特征和标签共现信息。
步骤A20,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵。
步骤A21,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵,如式(6)所示:
Figure BDA0003072777300000121
其中,Sij代表ei和ej之间的语义相似度矩阵,ei,ej分别代表第i个和第j个类别的标签语义特征,||·||2代表L2正则化;
步骤A22,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵,如式(7)所示:
Figure BDA0003072777300000122
其中,Pij代表Li和Lj之间的条件概率矩阵,P(Li|Lj)代表第j个类别Lj出现时第i个类别Li出现的概率,Mij代表类别i和类别j对应的标签对i和j的共现频率,Nj代表类别j对应的标签j的出现频率;
步骤A23,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵,如式(8)所示:
Figure BDA0003072777300000123
其中,Aij代表第i个和第j个类别间的负例增强矩阵,δ和μ分别为预设的阈值参数。
步骤A30,计算训练数据的标签外部乘积获得类别共现矩阵,结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力。
步骤A31,计算训练数据的标签外部乘积获得类别共现矩阵,如式(9)所示:
Cij=yi×yj∈Rc×c (9)
其中,Cij代表第i个和第j个类别间的类别共现矩阵,yi为第i个类别的标签,yj为第j个类别的标签,Rc×c代表Cij的维度是c×c,c代表每个维度的大小;
为方便起见,将翻转后的矩阵表示为F∈Rc×c
Figure BDA0003072777300000131
Figure BDA0003072777300000132
然后,结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力,如式(10)所示:
Figure BDA0003072777300000133
其中,a(yi,yj)代表第i个和第j个类别间的多标签判别性负例注意力,ξ是预设的增强参数,sum()是进行矩阵中所有元素求和的函数,·为点积,A为负例增强矩阵,Fij=I-Cij,Cij代表第i个和第j个类别间的类别共现矩阵,I代表单位矩阵,Fij表示第i个和第j个类别不共现,Fii和Fjj分别为表示第i、j个类别不存在,即负例。
传统学习中,监督的InfoNCE损失函数定义如式(11)和式(12)所示:
Figure BDA0003072777300000134
Figure BDA0003072777300000135
其中,cos(·,·)为余弦相似度函数,N为minibatch数据大小,
Figure BDA0003072777300000141
为标签都是yi的minibatch中样本的总数量,zi为minibatch中第i个样本的表示,T为温度超参数。
通过选择某些同类的样本对作为正样本对,将InfoNCE扩展到多标签监督学习场景,如式(13)和式(14)所示:
Figure BDA0003072777300000142
Figure BDA0003072777300000143
其中,Nyi为标签都是yi的minibatch中样本的总数量。
模态内InfoNCE损失则如式(15)-式(18)所示:
Figure BDA0003072777300000144
Figure BDA0003072777300000145
Figure BDA0003072777300000146
Figure BDA0003072777300000147
结合以上两个组成部分,获得用于多标签跨模态学习的模式内InfoNCE损失,如式(19)所示:
Lintra=Lintra-img+Lintra-txt (19)
对于跨模态表示学习,提出模态间InfoNCE来减小模态差距,如式(20)-式(23)所示:
Figure BDA0003072777300000148
Figure BDA0003072777300000151
Figure BDA0003072777300000152
Figure BDA0003072777300000153
结合以上两个组成部分,获得用于多标签跨模态学习的模态间InfoNCE损失,如式(24)所示:
Linter=Linter-img+Lintra-txt (24)
最后,多标签跨模态学习的目标函数如式(25)所示:
L=αLintra+Linter (25)
其中,α是两个InfoNCE损失的权衡因子。
在优化对比损失L时,无论哪种模态,同一类别样本的表示会接近,不同类别样本的表示会远离。因此,可以学习具有判别力和鲁棒的跨模态表示形式。
本发明还通过结合多标签判别性负例注意力来进行传统的InfoNCE损失函数的扩展,即对式(16)、式(18)、式(21)和式(23)进行调整,获得多标签跨模态InfoNCE损失函数,如式(26)-式(29)所示:
Figure BDA0003072777300000154
Figure BDA0003072777300000155
Figure BDA0003072777300000156
Figure BDA0003072777300000157
其中,
Figure BDA0003072777300000161
Figure BDA0003072777300000162
分别代表第i个样本和第j个样本中图像之间的损失、文本之间损失、第i个图像和第j个文本之间的损失以及第i个文本和第j个图像之间的损失,vi,vj,vk分别代表第i,j,k个样本中的图像特征,ti,tj,tk分别代表第i,j,k个样本中的文本特征,yi,yj分别代表第i,j个样本的标签,
Figure BDA0003072777300000164
代表连乘,N代表样本的数目,T代表温控超参数,cos()代表余弦相似度,a()代表多标签判别性负例注意力运算,exp()代表指数运算,log代表对数运算。
本发明在3个数据集上评估了本发明方法的性能:NUS-WIDE、MIRFlickr、MS-COCO。
NUS-WIDE由81个概念共269,648个图像文本标签对组成。在去掉没有任何标签或标签信息的数据之后,选择属于21个最常见概念的190,421个图像文本对的子集作为本发明评估的数据集。每个图像由224x224 RGB数组表示,并且为每个文本分配最频繁的1,000个文本标签的索引向量。
MIRFlickr包含25,000个图文对,并带有24个标签。每个图像和文本均由224x224RGB阵列和500维标签向量表示。
MS-COCO由122,218个图像文本对组成,分为80类。每个图像由224x224 RGB数组表示,本发明将每个文本转换为最频繁的2,000个单词的索引向量。
实验中随机选取2000个数据对作为测试集,其余的作为训练集。本发明采用mAP(平均精度均值,Mean Average Precision)作为评价指标,如式(30)所示:
Figure BDA0003072777300000163
其中,R代表检索结果的个数,n代表查询的ground-truth相似实例的数量,P(r)代表前r个查询实例的准确率,δ(r)代表第r个查询实例与查询条件相似。
本发明选择五种传统方法CFA,CCA,PLS-C2A,JRL和ml-CCA,以及五种基于深度学习的方法Multimodal DBN,Corr-AE,DCCA,ACMR和DSCMR作为与本发明SCCMR进行比较的基线方法。其中ml-CCA(多标签典型相关分析,Multi-Label Canonical CorrelationAnalysis)可以利用多标签信息,同时学习两种模态的共同语义空间,解决了CCA无法考虑高级的语义信息,比如数据的类标签的缺点;ACMR(对抗跨模态检索,Adversarial cross-modal retrieval)将GAN在domain adaptation中的应用借鉴到了跨媒体检索中,让不同模态数据在语义层面(同模态内部、跨模态之间)融合的更好;DSCMR(深度监督跨模态检索,Deep Supervised Cross-modal Retrieval)是找到一个共同的表示空间,在这个空间中可以直接比较来自不同模式的样本;SCCMR(有监督的对比跨模态检索,SupervisedContrastive Cross-modal Retrieval)是本发明模型,该方法可以获取模态不变和判别性跨模态检索的表示。首先构建了一个表示学习网络,将不同模态的数据转换到一个公共的表示空间。其次将传统的InfoNCE损失扩展到多标签跨模态InfoNCE损失。多标签跨模态InfoNCE损失由模态内InfoNCE损失和模态间InfoNCE损失组成。此外,还提出了一种新颖的多标签判别性负例注意力,以进一步区分共现概率高的语义不同样本的表示。在NUS-WIDE,MIRFlickr和MS-COCO这三个基准数据集的综合实验结果表明,与最新技术相比,SCCMR在跨模态检索方面有优势。
表1-3显示了本发明的SCCMR和其他比较方法在两个跨模态检索任务中对NUS-WIDE,MIRFlickr和MS-COCO的实验结果。Image2Text表示用图像检索文本、Text2Image表示用文本检索图像。
表1
Methods Image2Text Text2Image Average
CFA 0.354 0.361 0.357
CCA 0.656 0.664 0.660
PLS-C2A 0.632 0.631 0.631
JRL 0.427 0.361 0.394
ml-CCA 0.669 0.668 0.668
MultimodalDBN 0.342 0.321 0.331
Corr-AE 0.632 0.629 0.630
DCCA 0.637 0.649 0.643
ACMR 0.684 0.675 0.680
DSCMR 0.706 0.739 0.722
SCCMR 0.750 0.760 0.755
表2
Methods Image2Text Text2Image Average
CFA 0.580 0.548 0.564
CCA 0.712 0.722 0.717
PLS-C2A 0.730 0.740 0.735
JRL 0.589 0.554 0.571
ml-CCA 0.734 0.742 0.738
MultimodalDBN 0.575 0.561 0.568
Corr-AE 0.708 0.727 0.717
DCCA 0.736 0.746 0.741
ACMR 0.736 0.748 0.742
DSCMR 0.752 0.799 0.775
SCCMR 0.807 0.821 0.814
表3
Figure BDA0003072777300000181
Figure BDA0003072777300000191
从表1-3的结果对比来看,有以下观察结果:
(1)借助19层VGGNet和文本MLP生成的深层特征,一些传统方法还可以在跨模态检索中获得较高的mAP分数,例如CCA,PLS-C2A和ml-CCA。这表明本发明的ImgNet和TxtNet已将输入样本转换为近似线性的子空间,从而大大降低了原始跨模态学习任务的复杂性。
(2)利用标签信息(ACMR和DSCMR)的深度学习方法具有比其他传统方法更好的性能,这表明非线性变换模型具有与传统线性变换模型相比具有竞争优势。
(3)SCCMR始终超过所有三个数据集的所有基线。与DSCMR相比,本发明方法分别在NUS-WIDE的Image2Text和Text2Image任务上的mAP得分分别提高了4.4%和2.0%,在MIRFlickr上分别提高了5.5%和2.2%,在MS-COCO上分别提高了2.4%和2.1%。它表明,本发明的SCCMR方法可以通过优化InfoNCE损失和多标签判别性负例注意力来更好地捕获潜在的语义相关性,并弥合不同模态之间的异质性差距。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的基于有监督对比的跨模态检索系统,该检索系统包括以下模块:
输入模块,配置为获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像-文本对;
跨模态表示模块,配置为通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中,获得输入数据的跨模态表示;所述表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络;
跨模态检索模块,配置为基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索;
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于有监督对比的跨模态检索系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于有监督对比的跨模态检索方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于有监督对比的跨模态检索方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (6)

1.一种基于有监督对比的跨模态检索方法,其特征在于,该检索方法包括:
步骤S10,获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像-文本对;
步骤S20,通过图像特征学习子网络获取输入数据中图像的跨模态表示:
Figure 914611DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
代表第
Figure 944884DEST_PATH_IMAGE004
个输入数据中图像的跨模态表示,
Figure DEST_PATH_IMAGE005
代表第
Figure 867447DEST_PATH_IMAGE004
个输入数据的图像样本特征,
Figure 641368DEST_PATH_IMAGE006
为输入数据的总数量,
Figure DEST_PATH_IMAGE007
为图像特征学习子网络的可训练参数,
Figure 834452DEST_PATH_IMAGE008
代表卷积层,
Figure DEST_PATH_IMAGE009
代表全连接层,
Figure 301206DEST_PATH_IMAGE010
代表统一空间,
Figure DEST_PATH_IMAGE011
为统一空间的维数;
通过文本特征学习子网络获取输入数据中文本的跨模态表示:
Figure DEST_PATH_IMAGE013
其中,
Figure 651678DEST_PATH_IMAGE014
代表第
Figure 494869DEST_PATH_IMAGE004
个输入数据中文本的跨模态表示,
Figure DEST_PATH_IMAGE015
代表第
Figure 542459DEST_PATH_IMAGE004
个输入数据的文本样本特征,
Figure 321059DEST_PATH_IMAGE016
代表多层感知机,
Figure DEST_PATH_IMAGE017
为文本特征学习子网络的可训练参数;
所述输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示;
表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络;
步骤S30,基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索;
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数;
所述多标签判别性负例注意力,其获取方法为:
步骤A10,获取不同类别样本的标签语义特征和标签共现信息;
步骤A20,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵;
步骤A30,计算训练数据的标签外部乘积获得类别共现矩阵:
Figure DEST_PATH_IMAGE019
其中,
Figure 719680DEST_PATH_IMAGE020
代表第
Figure 865097DEST_PATH_IMAGE004
个和第
Figure DEST_PATH_IMAGE021
个类别间的类别共现矩阵,
Figure 767194DEST_PATH_IMAGE022
为第
Figure 451116DEST_PATH_IMAGE004
个类别的标签,
Figure DEST_PATH_IMAGE023
为第
Figure 805874DEST_PATH_IMAGE021
个类别的标签,
Figure 256447DEST_PATH_IMAGE024
代表
Figure 419575DEST_PATH_IMAGE020
的维度是
Figure DEST_PATH_IMAGE025
Figure 431656DEST_PATH_IMAGE026
代表每个维度的大小;
结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力:
Figure 945813DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
代表第
Figure 403340DEST_PATH_IMAGE004
个和第
Figure 545608DEST_PATH_IMAGE021
个类别间的多标签判别性负例注意力,
Figure 836912DEST_PATH_IMAGE030
是预设的增强参数,
Figure DEST_PATH_IMAGE031
是进行矩阵中所有元素求和的函数,
Figure 166262DEST_PATH_IMAGE032
为点积,
Figure DEST_PATH_IMAGE033
为负例增强矩阵,
Figure 457173DEST_PATH_IMAGE034
Figure 594893DEST_PATH_IMAGE020
代表第
Figure 447312DEST_PATH_IMAGE004
个和第
Figure 139324DEST_PATH_IMAGE021
个类别间的类别共现矩阵,
Figure DEST_PATH_IMAGE035
代表单位矩阵,
Figure 204232DEST_PATH_IMAGE036
表示第
Figure 321093DEST_PATH_IMAGE004
个和第
Figure 954199DEST_PATH_IMAGE021
个类别不共现,
Figure DEST_PATH_IMAGE037
Figure 759606DEST_PATH_IMAGE038
分别为表示第
Figure 159364DEST_PATH_IMAGE004
个、
Figure 6097DEST_PATH_IMAGE021
个类别不存在,
Figure DEST_PATH_IMAGE039
代表第
Figure 669160DEST_PATH_IMAGE004
个和第
Figure 929240DEST_PATH_IMAGE021
个类别间的负例增强矩阵;
所述多标签跨模态InfoNCE损失函数为:
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE047
其中,
Figure 490278DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE049
Figure 50572DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
分别代表第
Figure 120421DEST_PATH_IMAGE004
个样本和第
Figure 805481DEST_PATH_IMAGE021
个样本中图像之间的损失、文本之间损失、第
Figure 281461DEST_PATH_IMAGE004
个图像和第
Figure 102787DEST_PATH_IMAGE021
个文本之间的损失以及第
Figure 638810DEST_PATH_IMAGE004
个文本和第
Figure 545586DEST_PATH_IMAGE021
个图像之间的损失,
Figure 825258DEST_PATH_IMAGE052
分别代表第
Figure DEST_PATH_IMAGE053
个样本中的图像特征,
Figure 929038DEST_PATH_IMAGE054
分别代表第
Figure 511329DEST_PATH_IMAGE053
个样本中的文本特征,
Figure DEST_PATH_IMAGE055
分别代表第
Figure 233297DEST_PATH_IMAGE056
个样本的标签,
Figure DEST_PATH_IMAGE057
代表连乘,
Figure 519922DEST_PATH_IMAGE058
代表样本的数目,
Figure DEST_PATH_IMAGE059
代表温控超参数,
Figure 909315DEST_PATH_IMAGE060
代表余弦相似度,
Figure DEST_PATH_IMAGE061
代表多标签判别性负例注意力运算,
Figure 757448DEST_PATH_IMAGE062
代表指数运算,
Figure DEST_PATH_IMAGE063
代表对数运算。
2.根据权利要求1所述的基于有监督对比的跨模态检索方法,其特征在于,步骤A20包括:
步骤A21,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵:
Figure DEST_PATH_IMAGE065
其中,
Figure 232292DEST_PATH_IMAGE066
代表
Figure DEST_PATH_IMAGE067
Figure 322607DEST_PATH_IMAGE068
之间的语义相似度矩阵,
Figure DEST_PATH_IMAGE069
分别代表第
Figure 300928DEST_PATH_IMAGE004
个和第
Figure 317032DEST_PATH_IMAGE021
个类别的标签语义特征,
Figure 810330DEST_PATH_IMAGE070
代表L2正则化;
步骤A22,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵:
Figure 110861DEST_PATH_IMAGE072
其中,
Figure DEST_PATH_IMAGE073
代表
Figure 802743DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE075
之间的条件概率矩阵,
Figure 461519DEST_PATH_IMAGE076
代表第
Figure 176534DEST_PATH_IMAGE021
个类别
Figure 15177DEST_PATH_IMAGE075
出现时第
Figure 764828DEST_PATH_IMAGE004
个类别
Figure 30724DEST_PATH_IMAGE074
出现的概率,
Figure DEST_PATH_IMAGE077
代表类别
Figure 528308DEST_PATH_IMAGE004
和类别
Figure 170642DEST_PATH_IMAGE021
对应的标签对
Figure 978061DEST_PATH_IMAGE004
Figure 539492DEST_PATH_IMAGE021
的共现频率,
Figure 370045DEST_PATH_IMAGE078
代表类别
Figure 675124DEST_PATH_IMAGE021
对应的标签
Figure 274733DEST_PATH_IMAGE021
的出现频率;
步骤A23,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵:
Figure 508530DEST_PATH_IMAGE080
其中,
Figure 888696DEST_PATH_IMAGE039
代表第
Figure 872833DEST_PATH_IMAGE004
个和第
Figure 186002DEST_PATH_IMAGE021
个类别间的负例增强矩阵,
Figure DEST_PATH_IMAGE081
Figure 558078DEST_PATH_IMAGE082
分别为预设的阈值参数。
3.根据权利要求1或2所述的基于有监督对比的跨模态检索方法,其特征在于,
所述图像特征学习子网络,其结构包括:
进行图像卷积操作的VGGNet网络以及由多个全连接层构成的进行特征映射的多层感知机网络;
所述文本特征学习子网络,其结构包括:
由两个全连接的层构成的进行文本感知的MLP多层感知机网络以及由多个全连接层构成的进行特征映射的多层感知机网络。
4.一种基于有监督对比的跨模态检索系统,其特征在于,该检索系统包括以下模块:
输入模块,配置为获取待检索的跨模态输入数据;所述待检索的跨模态输入数据为图像-文本对;
跨模态表示模块,配置为通过图像特征学习子网络获取输入数据中图像的跨模态表示:
Figure 832064DEST_PATH_IMAGE002
其中,
Figure 243061DEST_PATH_IMAGE003
代表第
Figure 879579DEST_PATH_IMAGE004
个输入数据中图像的跨模态表示,
Figure 625818DEST_PATH_IMAGE005
代表第
Figure 652680DEST_PATH_IMAGE004
个输入数据的图像样本特征,
Figure 837673DEST_PATH_IMAGE006
为输入数据的总数量,
Figure 266380DEST_PATH_IMAGE007
为图像特征学习子网络的可训练参数,
Figure 511417DEST_PATH_IMAGE008
代表卷积层,
Figure 589357DEST_PATH_IMAGE009
代表全连接层,
Figure 718987DEST_PATH_IMAGE010
代表统一空间,
Figure 126834DEST_PATH_IMAGE011
为统一空间的维数;
通过文本特征学习子网络获取输入数据中文本的跨模态表示:
Figure 418138DEST_PATH_IMAGE013
其中,
Figure 278647DEST_PATH_IMAGE014
代表第
Figure 680809DEST_PATH_IMAGE004
个输入数据中文本的跨模态表示,
Figure 208743DEST_PATH_IMAGE015
代表第
Figure 670948DEST_PATH_IMAGE004
个输入数据的文本样本特征,
Figure 517288DEST_PATH_IMAGE016
代表多层感知机,
Figure 316617DEST_PATH_IMAGE017
为文本特征学习子网络的可训练参数;
所述输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示;
表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络;
跨模态检索模块,配置为基于所述输入数据的跨模态表示,通过训练好的跨模态检索网络进行跨模态检索;
其中,所述跨模态检索网络为端到端监督式对比跨模态检索网络,其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数;
所述多标签判别性负例注意力,其获取方法为:
步骤A10,获取不同类别样本的标签语义特征和标签共现信息;
步骤A20,基于所述标签语义特征,通过余弦相似度计算获取语义相似度矩阵,基于所述标签共现信息,通过条件概率计算获取条件概率矩阵,结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵;
步骤A30,计算训练数据的标签外部乘积获得类别共现矩阵:
Figure 105581DEST_PATH_IMAGE019
其中,
Figure 738688DEST_PATH_IMAGE020
代表第
Figure 573789DEST_PATH_IMAGE004
个和第
Figure 317754DEST_PATH_IMAGE021
个类别间的类别共现矩阵,
Figure 289121DEST_PATH_IMAGE022
为第
Figure 358708DEST_PATH_IMAGE004
个类别的标签,
Figure 916991DEST_PATH_IMAGE023
为第
Figure 526963DEST_PATH_IMAGE021
个类别的标签,
Figure 228203DEST_PATH_IMAGE024
代表
Figure 593325DEST_PATH_IMAGE020
的维度是
Figure 340702DEST_PATH_IMAGE025
Figure 692049DEST_PATH_IMAGE026
代表每个维度的大小;
结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力:
Figure 638008DEST_PATH_IMAGE028
其中,
Figure 49398DEST_PATH_IMAGE029
代表第
Figure 579343DEST_PATH_IMAGE004
个和第
Figure 734380DEST_PATH_IMAGE021
个类别间的多标签判别性负例注意力,
Figure 534846DEST_PATH_IMAGE030
是预设的增强参数,
Figure 117137DEST_PATH_IMAGE031
是进行矩阵中所有元素求和的函数,
Figure 635843DEST_PATH_IMAGE032
为点积,
Figure 125731DEST_PATH_IMAGE033
为负例增强矩阵,
Figure 249544DEST_PATH_IMAGE034
Figure 737157DEST_PATH_IMAGE020
代表第
Figure 510204DEST_PATH_IMAGE004
个和第
Figure 741465DEST_PATH_IMAGE021
个类别间的类别共现矩阵,
Figure 782102DEST_PATH_IMAGE035
代表单位矩阵,
Figure 706196DEST_PATH_IMAGE036
表示第
Figure 933915DEST_PATH_IMAGE004
个和第
Figure 562342DEST_PATH_IMAGE021
个类别不共现,
Figure 67273DEST_PATH_IMAGE037
Figure 51016DEST_PATH_IMAGE038
分别为表示第
Figure 375818DEST_PATH_IMAGE004
个、
Figure 339095DEST_PATH_IMAGE021
个类别不存在,
Figure 964111DEST_PATH_IMAGE039
代表第
Figure 354641DEST_PATH_IMAGE004
个和第
Figure 229056DEST_PATH_IMAGE021
个类别间的负例增强矩阵;
所述多标签跨模态InfoNCE损失函数为:
Figure 605811DEST_PATH_IMAGE041
Figure 209968DEST_PATH_IMAGE043
Figure 646765DEST_PATH_IMAGE045
Figure 572258DEST_PATH_IMAGE047
其中,
Figure 752704DEST_PATH_IMAGE048
Figure 539263DEST_PATH_IMAGE049
Figure 146962DEST_PATH_IMAGE050
Figure 323865DEST_PATH_IMAGE051
分别代表第
Figure 308002DEST_PATH_IMAGE004
个样本和第
Figure 854128DEST_PATH_IMAGE021
个样本中图像之间的损失、文本之间损失、第
Figure 632728DEST_PATH_IMAGE004
个图像和第
Figure 969031DEST_PATH_IMAGE021
个文本之间的损失以及第
Figure 615913DEST_PATH_IMAGE004
个文本和第
Figure 924535DEST_PATH_IMAGE021
个图像之间的损失,
Figure 733091DEST_PATH_IMAGE052
分别代表第
Figure 556690DEST_PATH_IMAGE053
个样本中的图像特征,
Figure 617050DEST_PATH_IMAGE054
分别代表第
Figure 639233DEST_PATH_IMAGE053
个样本中的文本特征,
Figure 25215DEST_PATH_IMAGE055
分别代表第
Figure 70531DEST_PATH_IMAGE056
个样本的标签,
Figure 560681DEST_PATH_IMAGE057
代表连乘,
Figure 578315DEST_PATH_IMAGE058
代表样本的数目,
Figure 994253DEST_PATH_IMAGE059
代表温控超参数,
Figure 526866DEST_PATH_IMAGE060
代表余弦相似度,
Figure 194607DEST_PATH_IMAGE061
代表多标签判别性负例注意力运算,
Figure 191382DEST_PATH_IMAGE062
代表指数运算,
Figure 653587DEST_PATH_IMAGE063
代表对数运算。
5.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-3任一项所述的基于有监督对比的跨模态检索方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-3任一项所述的基于有监督对比的跨模态检索方法。
CN202110543714.7A 2021-05-19 2021-05-19 基于有监督对比的跨模态检索方法、系统及设备 Active CN113239214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110543714.7A CN113239214B (zh) 2021-05-19 2021-05-19 基于有监督对比的跨模态检索方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110543714.7A CN113239214B (zh) 2021-05-19 2021-05-19 基于有监督对比的跨模态检索方法、系统及设备

Publications (2)

Publication Number Publication Date
CN113239214A CN113239214A (zh) 2021-08-10
CN113239214B true CN113239214B (zh) 2022-10-28

Family

ID=77137443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110543714.7A Active CN113239214B (zh) 2021-05-19 2021-05-19 基于有监督对比的跨模态检索方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113239214B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN114201621B (zh) * 2021-11-24 2024-04-02 人民网股份有限公司 基于图文协同注意力的跨模态检索模型构建及检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN114332729B (zh) * 2021-12-31 2024-02-02 西安交通大学 一种视频场景检测标注方法及系统
CN114610911B (zh) * 2022-03-04 2023-09-19 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质
CN114841243B (zh) * 2022-04-02 2023-04-07 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114840734B (zh) * 2022-04-29 2023-04-25 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN115640520B (zh) * 2022-11-07 2023-07-14 北京百度网讯科技有限公司 跨语言跨模态模型的预训练方法、设备和存储介质
CN116955699B (zh) * 2023-07-18 2024-04-26 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN116775918B (zh) * 2023-08-22 2023-11-24 四川鹏旭斯特科技有限公司 基于互补熵对比学习跨模态检索方法、系统、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034814A1 (en) * 2016-03-17 2019-01-31 Sri International Deep multi-task representation learning
US20200311798A1 (en) * 2019-03-25 2020-10-01 Board Of Trustees Of The University Of Illinois Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN111914156B (zh) * 2020-08-14 2023-01-20 中国科学院自动化研究所 自适应标签感知的图卷积网络跨模态检索方法、系统
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质
CN112487822A (zh) * 2020-11-04 2021-03-12 杭州电子科技大学 一种基于深度学习的跨模态检索方法
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和系统

Also Published As

Publication number Publication date
CN113239214A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113239214B (zh) 基于有监督对比的跨模态检索方法、系统及设备
Cheng et al. Scene recognition with objectness
Cai et al. A comprehensive survey of graph embedding: Problems, techniques, and applications
Zhang et al. Attention-aware deep adversarial hashing for cross-modal retrieval
CN111914156B (zh) 自适应标签感知的图卷积网络跨模态检索方法、系统
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
Peng et al. Word-to-region attention network for visual question answering
Zhang et al. Cross-media retrieval with collective deep semantic learning
Ou et al. Semantic consistent adversarial cross-modal retrieval exploiting semantic similarity
Bouchakwa et al. A review on visual content-based and users’ tags-based image annotation: methods and techniques
CN116610831A (zh) 语义细分及模态对齐推理学习跨模态检索方法及检索系统
Wang et al. R2-trans: Fine-grained visual categorization with redundancy reduction
López-Cifuentes et al. Attention-based knowledge distillation in scene recognition: the impact of a dct-driven loss
Arulmozhi et al. DSHPoolF: deep supervised hashing based on selective pool feature map for image retrieval
Yu et al. Cross-modal subspace learning via kernel correlation maximization and discriminative structure-preserving
Liu et al. Co-attention graph convolutional network for visual question answering
Su et al. Parallel big image data retrieval by conceptualised clustering and un-conceptualised clustering
Malik et al. Multimodal semantic analysis with regularized semantic autoencoder
Lu et al. Mining latent attributes from click-through logs for image recognition
He et al. Dual discriminant adversarial cross-modal retrieval
Mercy Rajaselvi Beaulah et al. Categorization of images using autoencoder hashing and training of intra bin classifiers for image classification and annotation
Kang et al. Urban management image classification approach based on deep learning
Deng et al. Representation separation adversarial networks for cross-modal retrieval
Bouhlel et al. Adaptive weighted least squares regression for subspace clustering
Wang et al. Training-free indexing refinement for visual media via multi-semantics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant