CN113239214B

CN113239214B - 基于有监督对比的跨模态检索方法、系统及设备

Info

Publication number: CN113239214B
Application number: CN202110543714.7A
Authority: CN
Inventors: 徐常胜; 钱胜胜; 方全
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-10-28
Anticipated expiration: 2041-05-19
Also published as: CN113239214A

Abstract

本发明属于跨模态检索领域，具体涉及了一种基于有监督对比的跨模态检索方法、系统及设备，旨在解决现有的监督式跨模态学习方法一般通过线性投影捕获数据相关性，且通常聚集于最大化成对相关性或分类准确性，InfoNCE损失平等对待所有类别，从而导致跨模态检索结果准确性不高的问题。本发明包括：获取待检索的跨模态输入数据；通过表示学习网络映射到统一空间中，获得输入数据的跨模态表示；通过训练好的跨模态检索网络进行跨模态检索。本发明将不同模态的数据映射到统一空间中，通过多标签判别性负例注意力提高具有高共现概率的语义上不同类别的样本对的比例，将InfoNCE损失函数扩展为多标签跨模态InfoNCE损失函数，实现了高准确性与高精度的跨模态检索。

Description

基于有监督对比的跨模态检索方法、系统及设备

技术领域

本发明属于跨模态检索领域，具体涉及了一种基于有监督对比的跨模态检索方法、系统及设备。

背景技术

随着互联网和多媒体的快速发展，文本、图像、视频、音频等多模态数据爆炸式增长，成为知识获取和信息传播的主要形式。单模态检索是用一种模态的数据(如文本)作为查询条件，检索出相同模态(还是文本)的语义相似数据。跨模态搜索是使用一种模态的数据(如文本)作为查询条件，检索出其他模态(如图像)的语义相似数据。跨模态检索具有广泛的应用前景，如多媒体数据管理和智能搜索引擎。

不同模态数据具有异质性，具有不同的分布和表示形式，因此需要缩小模态异质性差距。有许多工作着重于评估跨模态数据的语义相似性。例如，表示学习将跨模态数据投影到一个通用表示子空间中，是减小模态差距的常用方法，传统方法将线性投影作为基本模型，最大化分类准确率或模态对的相关性，来生成通用表示。近年来，深度神经网络成为自动学习特征表示的新兴工具，广泛用于跨模态检索任务中。基于深度神经网络(DNN)的跨模态检索已成为探索非线性关系的活跃研究领域，并取得了巨大的性能提升。

对比学习在许多表示学习任务中引起了广泛的关注并取得了很好的效果，如图像分类，目标检测，动作识别，知识蒸馏、图像翻译。通过使同一类别样本的表示更接近，不同类别的样本的表示更不同，监督式对比学习通过利用标签信息可以学习到具有判别性和鲁棒的表示。

发明内容

为了解决现有技术中的上述问题，即现有的监督式跨模态学习方法一般通过线性投影捕获数据相关性，且通常聚集于最大化成对相关性或分类准确性，InfoNCE损失平等对待所有类别，从而导致跨模态检索结果准确性不高的问题，本发明提供了一种基于有监督对比的跨模态检索方法，该检索方法包括：

步骤S10，获取待检索的跨模态输入数据；所述待检索的跨模态输入数据为图像-文本对；

步骤S20，通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中，获得输入数据的跨模态表示；所述表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络；

步骤S30，基于所述输入数据的跨模态表示，通过训练好的跨模态检索网络进行跨模态检索；

其中，所述跨模态检索网络为端到端监督式对比跨模态检索网络，其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数。

在一些优选的实施例中，所述多标签判别性负例注意力，其获取方法为：

步骤A10，获取不同类别样本的标签语义特征和标签共现信息；

步骤A20，基于所述标签语义特征，通过余弦相似度计算获取语义相似度矩阵，基于所述标签共现信息，通过条件概率计算获取条件概率矩阵，结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵；

步骤A30，计算训练数据的标签外部乘积获得类别共现矩阵，结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力。

在一些优选的实施例中，步骤S20包括：

步骤S21，通过所述图像特征学习子网络获取输入数据中图像的跨模态表示：

其中，v_i代表第i个输入数据中图像的跨模态表示，

代表第i个输入数据的图像样本特征，n为输入数据的总数量，θ_v＝{θ_cnn,θ_fv}为图像特征学习子网络的可训练参数，f_cnn代表卷积层，f_fc代表全连接层，R^d代表统一空间，d为统一空间的维数；

步骤S22，通过所述文本特征学习子网络获取输入数据中文本的跨模态表示：

其中，t_i代表第i个输入数据中文本的跨模态表示，

代表第i个输入数据的文本样本特征，f_mlp代表多层感知机，θ_t＝{θ_mlp,θ_ft}为文本特征学习子网络的可训练参数；

步骤S23，所述输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示。

在一些优选的实施例中，步骤A20包括：

步骤A21，基于所述标签语义特征，通过余弦相似度计算获取语义相似度矩阵：

其中，S_ij代表e_i和e_j之间的语义相似度矩阵，e_i,e_j分别代表第i个和第j个类别的标签语义特征，||·||₂代表L2正则化；

步骤A22，基于所述标签共现信息，通过条件概率计算获取条件概率矩阵：

其中，P_ij代表L_i和L_j之间的条件概率矩阵，P(L_i|L_j)代表第j个类别L_j出现时第i个类别L_i出现的概率，M_ij代表类别i和类别j对应的标签对i和j的共现频率，N_j代表类别j对应的标签j的出现频率；

步骤A23，结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵：

其中，A_ij代表第i个和第j个类别间的负例增强矩阵，δ和μ分别为预设的阈值参数。

在一些优选的实施例中，步骤A30包括：

步骤A31，计算训练数据的标签外部乘积获得类别共现矩阵：

C^ij＝y_i×y_j∈R^c×c

其中，C^ij代表第i个和第j个类别间的类别共现矩阵，y_i为第i个类别的标签，y_j为第j个类别的标签，R^c×c代表C^ij的维度是c×c，c代表每个维度的大小；

步骤A32，结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力：

其中，a(y_i,y_j)代表第i个和第j个类别间的多标签判别性负例注意力，ξ是预设的增强参数，sum()是进行矩阵中所有元素求和的函数，·为点积，A为负例增强矩阵，F^ij＝I-C^ij，C^ij代表第i个和第j个类别间的类别共现矩阵，I代表单位矩阵，F^ij表示第i个和第j个类别不共现，Fⁱⁱ和F^jj分别为表示第i、j个类别不存在，即负例。

在一些优选的实施例中，所述多标签跨模态InfoNCE损失函数为：

其中，

和

分别代表第i个样本和第j个样本中图像之间的损失、文本之间损失、第i个图像和第j个文本之间的损失以及第i个文本和第j个图像之间的损失，v_i,v_j,v_k分别代表第i,j,k个样本中的图像特征，t_i,t_j,t_k分别代表第i,j,k个样本中的文本特征，y_i,y_j分别代表第i,j个样本的标签，

代表连乘，N代表样本的数目，T代表温控超参数，cos()代表余弦相似度，a()代表多标签判别性负例注意力运算，exp()代表指数运算，log代表对数运算。

在一些优选的实施例中，所述图像特征学习子网络，其结构包括：

进行图像卷积操作的VGGNet网络以及由多个全连接层构成的进行特征映射的多层感知机网络；

所述文本特征学习子网络，其结构包括：

由两个全连接的层构成的进行文本感知的MLP多层感知机网络以及由多个全连接层构成的进行特征映射的多层感知机网络。

本发明的另一方面，提出了一种基于有监督对比的跨模态检索系统，该检索系统包括以下模块：

输入模块，配置为获取待检索的跨模态输入数据；所述待检索的跨模态输入数据为图像-文本对；

跨模态表示模块，配置为通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中，获得输入数据的跨模态表示；所述表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络；

跨模态检索模块，配置为基于所述输入数据的跨模态表示，通过训练好的跨模态检索网络进行跨模态检索；

本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于有监督对比的跨模态检索方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于有监督对比的跨模态检索方法。

本发明的有益效果：

(1)本发明基于有监督对比的跨模态检索方法，通过表示学习网络的图像特征学习子网络和文本特征学习子网络，将输入的图像-文本对分别生成两种模态的模态不变通用表示，即将两种模态数据映射到统一空间中，为实现跨模态检索提供了可行的方向。

(2)本发明基于有监督对比的跨模态检索方法，通过余弦相似度计算标签语义特征的语义相似度矩阵，通过条件概率计算标签共现信息的条件概率矩阵，并结合语义相似度矩阵和条件概率矩阵构建负例增强矩阵，最终结合负例增强矩阵和标签外部乘积获得的类别共现矩阵获得不同类别样本之间的多标签判别性负例注意力，提高了具有高共现概率的语义上不同类别的样本对的比例，避免了传统对比学习方式中，具有高共现概率的语义上不同类别的样本对容易混淆的问题，从而进一步提升了后续跨模态检索的准确性和精度。

(3)本发明基于有监督对比的跨模态检索方法，结合多标签判别性负例注意力，将传统的InfoNCE损失函数扩展为多标签跨模态InfoNCE损失函数，并以扩展后的损失函数进行网络的优化训练，以获取判别性和模态不变表示形式，大大提升了网络训练效果以及网络学习的鲁棒性，从而进一步提升了后续跨模态检索的准确性和精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于有监督对比的跨模态检索方法的流程示意图；

图2是本发明基于有监督对比的跨模态检索方法的表示学习网络与多标签判别性负例注意力的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于有监督对比的跨模态检索方法，解决了领域内存在的几大问题：

(1)跨模态数据相关性极其复杂，通过线性投影难以完全捕获。

深度神经网络(deep neural networks)作为一种新兴的自动学习特征表示的技术，越来越多地应用于跨模态检索任务中。基于深度神经网络(DNN)的跨模态检索已经成为利用非线性关系的一个活跃的研究课题，并取得了很大的性能改进。本发明的表示学习网络采用深度神经网络，通过转换函数将特征映射到统一空间，来捕捉相关性。

(2)现有的监督式跨模态学习方法通常聚焦于最大化成对相关性或分类准确性，并且没有充分探索成对语义相似的样本与成对语义不同的样本之间的对比，而这对于检索任务却很重要。

基于对比学习的方法在表示学习中取得了显著进步。在监督式对比学习中，对比损失被设计为将属于同一类别的表示聚类，并将来自不同类别的表示聚类推开。然而，该方法却主要集中于图像或视频的表示学习，而本发明将对比学习扩展到跨模式学习场景。

(3)传统的InfoNCE损失平等对待所有类别，这些类别的表示可能不具有判别性，这需要强大的区分机制。

InfoNCE的多标签版本有一个严重的问题，即具有高共现概率的某些语义上不同类别的学习表示可能无法区分。假设当第i个类别(例如，“汽车”)出现时，第j个类别(例如，“人”)以高概率出现，则选择包含第j个类别的样本作为属于第i个类别的样本的正样本很有可能使这两个类别的学习表示形式无法区分。为了缓解这一问题，本发明提出了一种新的多标签判别性负例注意力方法，以增强这些类别之间的区别，从而可以提高所学表示形式的语义分辨率。

本发明的一种基于有监督对比的跨模态检索方法，该检索方法包括：

为了更清晰地对本发明基于有监督对比的跨模态检索方法进行说明，下面结合图1和图2对本发明实施例中各步骤展开详述。

本发明第一实施例的基于有监督对比的跨模态检索方法，包括步骤S10-步骤S30，各步骤详细描述如下：

步骤S10，获取待检索的跨模态输入数据；所述待检索的跨模态输入数据为图像(image)-文本(text)对。

n个图像-文本对表示如式(1)：

其中，

代表第i个图像-文本对的图像样本特征，

为

的特征空间，d_v为

的特征维度，

代表第i个图像-文本对的文本样本特征，

为

的特征空间，d_t为

的特征维度。

每个图像-文本对

的语义标签向量如式(2)所示：

y_i＝[y_i1,y_i2,...,y_ic]∈R^c (2)

其中，y_ij＝1,j＝1,2,…,c代表第i个图像-文本对属于第j类，y_ij＝0,j＝1,2,…,c代表第i个图像-文本对不属于第j类，c为类别数。

步骤S20，通过表示学习网络将所述待检索的跨模态输入数据映射到统一空间中，获得输入数据的跨模态表示。

由于图像、文本的特征向量属于不同的模态，不能直接比较相似度，因此需通过不同模态的转换函数将图像和文本的特征向量映射到一个统一空间，在统一表示空间中直接比较这两个模态的样本的相似度，同一类别样本的相似度大于不同类别样本的相似度。不同模态的转换函数可表示为式(3)：

其中，d代表统一空间的维数，θ_v,θ_t为可训练参数。

本发明一个实施例中，通过表示学习网络进行数据的模态转换，表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络：

图像特征学习子网络，其结构括：进行图像卷积操作的VGGNet网络以及由多个全连接层构成的进行特征映射的多层感知机网络。图像特征学习子网络的输入是图像-文本对中的图像，从VGGNet的fc7层生成4096维特征向量作为图像的高级语义表示

然后应用几个全连接层将

映射到统一空间得到v_i。

步骤S21，通过所述图像特征学习子网络获取输入数据中图像的跨模态表示，如式(4)所示：

其中，v_i代表第i个输入数据中图像的跨模态表示，

代表第i个输入数据的图像样本特征，n为输入数据的总数量，θ_v＝{θ_cnn,θ_fv}为图像特征学习子网络的可训练参数，f_cnn代表卷积层，f_fc代表全连接层，R^d代表统一空间，d为统一空间的维数。

文本特征学习子网络，其结构包括：由两个全连接的层(TxtNet中的MLP是执行一般分类任务预训练获得的，由两个全连接的层组成)构成的进行文本感知的MLP多层感知机网络以及由多个全连接层构成的进行特征映射的多层感知机网络。文本特征学习子网络输入是图像-文本对中的词袋特征，经过多层全连接生成高级语义表示

然后应用几个全连接层将

映射到统一空间得到t_i。

步骤S22，通过所述文本特征学习子网络获取输入数据中文本的跨模态表示，如式(5)所示：

其中，t_i代表第i个输入数据中文本的跨模态表示，

代表第i个输入数据的文本样本特征，f_mlp代表多层感知机，θ_t＝{θ_mlp,θ_ft}为文本特征学习子网络的可训练参数。

步骤S23，输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示。

步骤S30，基于所述输入数据的跨模态表示，通过训练好的跨模态检索网络进行跨模态检索。

多标签判别性负例注意力，其获取方法为：

步骤A10，获取不同类别样本的标签语义特征和标签共现信息。

步骤A20，基于所述标签语义特征，通过余弦相似度计算获取语义相似度矩阵，基于所述标签共现信息，通过条件概率计算获取条件概率矩阵，结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵。

步骤A21，基于所述标签语义特征，通过余弦相似度计算获取语义相似度矩阵，如式(6)所示：

步骤A22，基于所述标签共现信息，通过条件概率计算获取条件概率矩阵，如式(7)所示：

步骤A23，结合所述语义相似度矩阵和所述条件概率矩阵构建负例增强矩阵，如式(8)所示：

步骤A31，计算训练数据的标签外部乘积获得类别共现矩阵，如式(9)所示：

C^ij＝y_i×y_j∈R^c×c (9)

为方便起见，将翻转后的矩阵表示为F∈R^c×c，

然后，结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力，如式(10)所示：

传统学习中，监督的InfoNCE损失函数定义如式(11)和式(12)所示：

其中，cos(·,·)为余弦相似度函数，N为minibatch数据大小，

为标签都是y_i的minibatch中样本的总数量，z_i为minibatch中第i个样本的表示，T为温度超参数。

通过选择某些同类的样本对作为正样本对，将InfoNCE扩展到多标签监督学习场景，如式(13)和式(14)所示：

其中，N_yi为标签都是y_i的minibatch中样本的总数量。

模态内InfoNCE损失则如式(15)-式(18)所示：

结合以上两个组成部分，获得用于多标签跨模态学习的模式内InfoNCE损失，如式(19)所示：

L_intra＝L_intra-img+L_intra-txt (19)

对于跨模态表示学习，提出模态间InfoNCE来减小模态差距，如式(20)-式(23)所示：

结合以上两个组成部分，获得用于多标签跨模态学习的模态间InfoNCE损失，如式(24)所示：

L_inter＝L_inter-img+L_intra-txt (24)

最后，多标签跨模态学习的目标函数如式(25)所示：

L＝αL_intra+L_inter (25)

其中，α是两个InfoNCE损失的权衡因子。

在优化对比损失L时，无论哪种模态，同一类别样本的表示会接近，不同类别样本的表示会远离。因此，可以学习具有判别力和鲁棒的跨模态表示形式。

本发明还通过结合多标签判别性负例注意力来进行传统的InfoNCE损失函数的扩展，即对式(16)、式(18)、式(21)和式(23)进行调整，获得多标签跨模态InfoNCE损失函数，如式(26)-式(29)所示：

其中，

和

本发明在3个数据集上评估了本发明方法的性能：NUS-WIDE、MIRFlickr、MS-COCO。

NUS-WIDE由81个概念共269,648个图像文本标签对组成。在去掉没有任何标签或标签信息的数据之后，选择属于21个最常见概念的190,421个图像文本对的子集作为本发明评估的数据集。每个图像由224x224 RGB数组表示，并且为每个文本分配最频繁的1,000个文本标签的索引向量。

MIRFlickr包含25,000个图文对，并带有24个标签。每个图像和文本均由224x224RGB阵列和500维标签向量表示。

MS-COCO由122,218个图像文本对组成，分为80类。每个图像由224x224 RGB数组表示，本发明将每个文本转换为最频繁的2,000个单词的索引向量。

实验中随机选取2000个数据对作为测试集，其余的作为训练集。本发明采用mAP(平均精度均值，Mean Average Precision)作为评价指标，如式(30)所示：

其中，R代表检索结果的个数，n代表查询的ground-truth相似实例的数量，P(r)代表前r个查询实例的准确率，δ(r)代表第r个查询实例与查询条件相似。

本发明选择五种传统方法CFA，CCA，PLS-C2A，JRL和ml-CCA，以及五种基于深度学习的方法Multimodal DBN，Corr-AE，DCCA，ACMR和DSCMR作为与本发明SCCMR进行比较的基线方法。其中ml-CCA(多标签典型相关分析，Multi-Label Canonical CorrelationAnalysis)可以利用多标签信息，同时学习两种模态的共同语义空间，解决了CCA无法考虑高级的语义信息，比如数据的类标签的缺点；ACMR(对抗跨模态检索，Adversarial cross-modal retrieval)将GAN在domain adaptation中的应用借鉴到了跨媒体检索中，让不同模态数据在语义层面(同模态内部、跨模态之间)融合的更好；DSCMR(深度监督跨模态检索，Deep Supervised Cross-modal Retrieval)是找到一个共同的表示空间，在这个空间中可以直接比较来自不同模式的样本；SCCMR(有监督的对比跨模态检索，SupervisedContrastive Cross-modal Retrieval)是本发明模型，该方法可以获取模态不变和判别性跨模态检索的表示。首先构建了一个表示学习网络，将不同模态的数据转换到一个公共的表示空间。其次将传统的InfoNCE损失扩展到多标签跨模态InfoNCE损失。多标签跨模态InfoNCE损失由模态内InfoNCE损失和模态间InfoNCE损失组成。此外，还提出了一种新颖的多标签判别性负例注意力，以进一步区分共现概率高的语义不同样本的表示。在NUS-WIDE，MIRFlickr和MS-COCO这三个基准数据集的综合实验结果表明，与最新技术相比，SCCMR在跨模态检索方面有优势。

表1-3显示了本发明的SCCMR和其他比较方法在两个跨模态检索任务中对NUS-WIDE，MIRFlickr和MS-COCO的实验结果。Image2Text表示用图像检索文本、Text2Image表示用文本检索图像。

表1

Methods	Image2Text	Text2Image	Average
				CFA	0.354	0.361	0.357
CCA	0.656	0.664	0.660
				PLS-C2A	0.632	0.631	0.631
JRL	0.427	0.361	0.394
				ml-CCA	0.669	0.668	0.668
MultimodalDBN	0.342	0.321	0.331
				Corr-AE	0.632	0.629	0.630
DCCA	0.637	0.649	0.643
				ACMR	0.684	0.675	0.680
DSCMR	0.706	0.739	0.722
				SCCMR	0.750	0.760	0.755

表2

Methods	Image2Text	Text2Image	Average
				CFA	0.580	0.548	0.564
CCA	0.712	0.722	0.717
				PLS-C2A	0.730	0.740	0.735
JRL	0.589	0.554	0.571
				ml-CCA	0.734	0.742	0.738
MultimodalDBN	0.575	0.561	0.568
				Corr-AE	0.708	0.727	0.717
DCCA	0.736	0.746	0.741
				ACMR	0.736	0.748	0.742
DSCMR	0.752	0.799	0.775
				SCCMR	0.807	0.821	0.814

表3

从表1-3的结果对比来看，有以下观察结果：

(1)借助19层VGGNet和文本MLP生成的深层特征，一些传统方法还可以在跨模态检索中获得较高的mAP分数，例如CCA，PLS-C2A和ml-CCA。这表明本发明的ImgNet和TxtNet已将输入样本转换为近似线性的子空间，从而大大降低了原始跨模态学习任务的复杂性。

(2)利用标签信息(ACMR和DSCMR)的深度学习方法具有比其他传统方法更好的性能，这表明非线性变换模型具有与传统线性变换模型相比具有竞争优势。

(3)SCCMR始终超过所有三个数据集的所有基线。与DSCMR相比，本发明方法分别在NUS-WIDE的Image2Text和Text2Image任务上的mAP得分分别提高了4.4％和2.0％，在MIRFlickr上分别提高了5.5％和2.2％，在MS-COCO上分别提高了2.4％和2.1％。它表明，本发明的SCCMR方法可以通过优化InfoNCE损失和多标签判别性负例注意力来更好地捕获潜在的语义相关性，并弥合不同模态之间的异质性差距。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的基于有监督对比的跨模态检索系统，该检索系统包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于有监督对比的跨模态检索系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于有监督对比的跨模态检索方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于有监督对比的跨模态检索方法，其特征在于，该检索方法包括：

步骤S20，通过图像特征学习子网络获取输入数据中图像的跨模态表示：

其中，

代表第

个输入数据中图像的跨模态表示，

代表第

个输入数据的图像样本特征，

为输入数据的总数量，

为图像特征学习子网络的可训练参数，

代表卷积层，

代表全连接层，

代表统一空间，

为统一空间的维数；

通过文本特征学习子网络获取输入数据中文本的跨模态表示：

其中，

代表第

个输入数据中文本的跨模态表示，

代表第

个输入数据的文本样本特征，

代表多层感知机，

为文本特征学习子网络的可训练参数；

所述输入数据中图像的跨模态表示和输入数据中文本的跨模态表示构成输入数据的跨模态表示；

表示学习网络包括以端到端方式训练的图像特征学习子网络和文本特征学习子网络；

其中，所述跨模态检索网络为端到端监督式对比跨模态检索网络，其训练中的损失函数为结合多标签判别性负例注意力将InfoNCE损失函数扩展获得的多标签跨模态InfoNCE损失函数；

所述多标签判别性负例注意力，其获取方法为：

步骤A30，计算训练数据的标签外部乘积获得类别共现矩阵：

其中，

代表第

个和第

个类别间的类别共现矩阵，

为第

个类别的标签，

为第

个类别的标签，

代表

的维度是

，

代表每个维度的大小；

结合所述负例增强矩阵获得不同类别样本之间的多标签判别性负例注意力：

其中，

代表第

个和第

个类别间的多标签判别性负例注意力，

是预设的增强参数，

是进行矩阵中所有元素求和的函数，

为点积，

为负例增强矩阵，

，

代表第

个和第

个类别间的类别共现矩阵，

代表单位矩阵，

表示第

个和第

个类别不共现，

和

分别为表示第

个、

个类别不存在，

代表第

个和第

个类别间的负例增强矩阵；

所述多标签跨模态InfoNCE损失函数为：

其中，

、

、

和

分别代表第

个样本和第

个样本中图像之间的损失、文本之间损失、第

个图像和第

个文本之间的损失以及第

个文本和第

个图像之间的损失，

分别代表第

个样本中的图像特征，

分别代表第

个样本中的文本特征，

分别代表第

个样本的标签，

代表连乘，

代表样本的数目，

代表温控超参数，

代表余弦相似度，

代表多标签判别性负例注意力运算，

代表指数运算，

代表对数运算。

2.根据权利要求1所述的基于有监督对比的跨模态检索方法，其特征在于，步骤A20包括：

其中，

代表

和

之间的语义相似度矩阵，

分别代表第

个和第

个类别的标签语义特征，

代表L2正则化；

其中，

代表

和

之间的条件概率矩阵，

代表第

个类别

出现时第

个类别

出现的概率，

代表类别

和类别

对应的标签对

和

的共现频率，

代表类别

对应的标签

的出现频率；

其中，

代表第

个和第

个类别间的负例增强矩阵，

和

分别为预设的阈值参数。

3.根据权利要求1或2所述的基于有监督对比的跨模态检索方法，其特征在于，

所述图像特征学习子网络，其结构包括：

所述文本特征学习子网络，其结构包括：

4.一种基于有监督对比的跨模态检索系统，其特征在于，该检索系统包括以下模块：

跨模态表示模块，配置为通过图像特征学习子网络获取输入数据中图像的跨模态表示：

其中，

代表第

个输入数据中图像的跨模态表示，

代表第

个输入数据的图像样本特征，

为输入数据的总数量，

为图像特征学习子网络的可训练参数，

代表卷积层，

代表全连接层，

代表统一空间，

为统一空间的维数；

其中，

代表第

个输入数据中文本的跨模态表示，

代表第

个输入数据的文本样本特征，

代表多层感知机，

为文本特征学习子网络的可训练参数；

所述多标签判别性负例注意力，其获取方法为：

步骤A30，计算训练数据的标签外部乘积获得类别共现矩阵：

其中，

代表第

个和第

个类别间的类别共现矩阵，

为第

个类别的标签，

为第

个类别的标签，

代表

的维度是

，

代表每个维度的大小；

其中，

代表第

个和第

个类别间的多标签判别性负例注意力，

是预设的增强参数，

是进行矩阵中所有元素求和的函数，

为点积，

为负例增强矩阵，

，

代表第

个和第

个类别间的类别共现矩阵，

代表单位矩阵，

表示第

个和第

个类别不共现，

和

分别为表示第

个、

个类别不存在，

代表第

个和第

个类别间的负例增强矩阵；

所述多标签跨模态InfoNCE损失函数为：

其中，

、

、

和

分别代表第

个样本和第

个样本中图像之间的损失、文本之间损失、第

个图像和第

个文本之间的损失以及第

个文本和第

个图像之间的损失，

分别代表第

个样本中的图像特征，

分别代表第

个样本中的文本特征，

分别代表第

个样本的标签，

代表连乘，

代表样本的数目，

代表温控超参数，

代表余弦相似度，

代表多标签判别性负例注意力运算，

代表指数运算，

代表对数运算。

5.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-3任一项所述的基于有监督对比的跨模态检索方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-3任一项所述的基于有监督对比的跨模态检索方法。