CN109784405B

CN109784405B - 基于伪标签学习和语义一致性的跨模态检索方法及系统

Info

Publication number: CN109784405B
Application number: CN201910038843.3A
Authority: CN
Inventors: 徐功文; 王义华; 石林; 张志军; 赵莉; 李晓梅; 张娟; 吴永春; 胡顺泉
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2020-09-08
Anticipated expiration: 2039-01-16
Also published as: CN109784405A

Abstract

本发明公开了一种基于伪标签学习和语义一致性的跨模态检索方法及系统，所述方法包括：接收图像数据集和文本数据集，其中包括已标记的图像文本对以及未标记的图像数据；学习从图像空间投影到文本空间的投影矩阵，将所述未标记的图像数据投影到文本空间；计算已标记文本的类中心；根据未标记图像数据的投影数据与文本数据的类中心的相似度，为这些图像数据分配伪标签，并且将与其距离最近的类中心相应的文本数据作为对应的文本模态；将已标记的和分配伪标签的图像数据，以及对应的文本数据作为训练数据集，学习图像和文本投影到公共语义空间的投影矩阵；执行跨模态检索。本发明在训练数据集中引入未标记数据，能够获取更有效的投影矩阵。

Description

基于伪标签学习和语义一致性的跨模态检索方法及系统

技术领域

本公开属于跨模态检索技术领域，尤其涉及一种基于伪标签学习和语义一致性的跨模态检索方法及系统。

背景技术

随着信息技术的进步，多模态数据量不断增加。多模态数据无处不在，人类使用互联网共享个人文本、音频、图像和视频信息。多模态数据是指用不同的模态描述同一对象/概念的数据。特定对象/概念的多模态数据的不同成分存在于不同的模态中，但是在高语义级别上相关联。多模态数据广泛存在于日常生活中，因此对多模态数据的检测和分析是一个重要的研究领域。多模态数据检索方法不同于传统的数据检索方法从同一模态数据中挖掘信息。在跨模态检索中，一个模态中的对象可以用于其他模态中的数据检索。例如，当考虑“飞机”的图像时，可以检索“飞机”的文本、图像、音频记录和视频记录。根据人们的需求，可以实现不同媒体文件之间的检索。

一种好的跨模态检索方法可以显著缩短检索时间，减少工作量，有效地提高信息检索的查准率和查全率。检索的输入和输出数据具有不同的模态，这些数据的低层特征是异构的，且各自的数据结构是复杂的并且变化很大，诸如图像、音频记录和视频记录之类的多模态数据是半结构化的或非结构化的，这使得很难通过低级特征来描述高级语义。另外，由于不同模态数据特征值的维数也不一样，因此很难用现有的方法比较不同模态下的数据。因此在多模态数据上进行检索时，需要设定异构数据的统一表示。也就是说，当将多模态数据投影到同构空间上时，可以使用相同的距离度量(例如，使用欧几里德度量或汉明度量)对其进行比较。近年来在跨模态检索方向有了大量的研究成果。有研究引入了共享子空间的概念，允许不同模态数据在同一子空间中一致地表示以便相互检索。典型相关性分析(CCA)是一种经典的统一表示法，在计算生物学、金融分析和信息检索等领域有着广泛的应用。众多的方法用来在一个共同的子空间中最大化训练数据对之间的相似性。核典型相关分析(KCCA)用于研究图像与文本之间的相关性。基于局部相关性保持的支持向量机(LCPSVM)提出了一种保持类间局部相关性的方法，它充分结合了类间边际最大化和类数据的局部相关保持的思想。以上方法通常是获得一组线性映射矩阵，并将具有异构特征的数据投影到相同的语义空间。

然而，仅仅考虑训练集中的数据点之间的相关性是不够的。在跨模态检索中，期望检索到的数据在语义上类似于查询的图像/文本数据。因此，在语义上相似的多模态数据会被预期在共享子空间中形成簇。为此，使用监督类信息或通过聚类获得的监督信息，在公共子空间中对语义上相似的多模态数据进行聚类。

联合表示学习(JRL)方法同时考虑语义信息和相关性，是半监督学习方式；具有联合图正则化的异构度量学习(JGRHML)则使用联合图正则化来检索不同模态之间的信息；跨模态相关传播(CMCP)在检索中同时使用正相关和负相关信息；最近邻异构相似性度量(HSNN)是一种利用最近邻度量异构相似性的方法。

上述描述的各种方法，或者没有考虑未标记数据，或者对每个文本/图像检索任务只学习一组投影，文本检索图像和图像检索文本都基于同一种投影机制，基于这种映射机制往往可以在两个检索任务中获得一个折中的性能，很难在其中一种任务中得到最佳性能。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于伪标签学习和语义一致性的跨模态检索方法及系统，本发明一方面针对不同的检索任务采用不同的投影，学习到了两组投影，分别应用于文本检索图像和图像检索文本；另一方面充分利用了未标记数据，，通过伪标签学习方法为其添加伪标签，将添加了伪标签的和已标记图像文本对均用作训练数据集，进行投影矩阵的训练，提高了跨媒体检索的精确度。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于伪标签学习和语义一致性的跨模态检索方法，包括以下步骤：

接收图像数据集和文本数据集，其中包括已标记的图像文本对以及未标记的图像数据；

学习从图像空间投影到文本空间的投影矩阵，将所述未标记的图像数据投影到文本空间；

计算已标记文本的类中心；

根据未标记图像数据的投影数据与文本数据的类中心的相似度，为这些图像数据分配伪标签，并且将与其距离最近的类中心相应的文本数据作为对应的文本模态；

将已标记的和分配伪标签的图像数据，以及对应的文本数据作为训练数据集，学习图像和文本投影到公共语义空间的投影矩阵；

接收测试图像或文本，根据投影矩阵转换到公共语义空间，在公共语义空间查找与该测试图像或文本相似性最高的投影数据，该投影矩阵相应的另一模态数据即为检索结果。

进一步地，通过以下公式学习从图像空间投影到文本空间的投影矩阵：

其中，I_l和T_l分别表示成对的已标记图像和文本特征，V是图像空间到公共语义空间的投影矩阵，λ是调整系数，

是Frobenius范数。

进一步地，计算已标记文本的类中心包括：

其中，

表示所有已标记文本数据

特征的中值，

进一步地，所述未标记图像数据的投影数据与文本数据的类中心的相似度计算方法为：

计算未标记图像数据投影到文本数据空间的类中心；

基于投影数据的各个类中心与已标记文本的类中心的距离，为各类图像数据分配伪标签。

进一步地，所述训练数据集中语义相似性矩阵S＝[S_l；S_u]，其中，S_l为已标记图像文本对相应的语义相似性矩阵，S_u为具有伪标签的图像文本对相应的语义相似性矩阵，

其中，

其中，

表示未标记图像数据

的投影数据和已标记文本数据的第i个类中心之间的相似度，

I_u表示未标记图像数据集合；

表示未标记图像

投影到文本空间的投影数据；

表示已标记文本数据的第i个类中心；γ表示核系数。

进一步地，检索任务为根据图像检索文本时，通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵：

检索任务为根据文本检索图像时，通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵：

其中，I和T分别为训练数据集中的图像数据和文本数据，V是图像空间到公共语义空间的投影矩阵，W是文本空间到公共语义空间的投影矩阵，

是Frobenius范数，η₁和η₂是正则化项的非负平衡参数，0≤λ≤1是平衡参数。

进一步地，采用梯度下降法求解所述目标函数。

进一步地，所述在公共语义空间查找与该测试图像或文本相似性最高的投影数据包括：计算测试图像或文本的投影数据与训练数据集中每个另一模态投影数据特征之间的距离，获取距离最小的投影数据。

一个或多个实施例提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于伪标签学习和语义一致性的跨模态检索方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于伪标签学习和语义一致性的跨模态检索方法。

以上一个或多个技术方案存在以下有益效果：

本发明的检索方法针对图像检索文本，和文本检索图像两类检索任务，学习了不同的投影矩阵，检索更具针对性，保证了对于不同的检索任务都能够取得较好的检索效果；

本发明的检索方法在学习投影矩阵的过程中，充分考虑了标记样本和未标记样本的语义信息，为未标记样本学习伪标签。相比于其他方法，能够利用更多的信息，学习更有效的投影矩阵。有标记数据意味着高成本和不易获取，而未标记数据可以以相对较低的成本容易地获取，并且未标记数据可以通过提高分类的精确度来提高检索模型的鲁棒性，验证实验表明，该方法能够获得较好的检索效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为现有的伪标签学习方法流程图；

图2为本发明实施例一提供的基于伪标签学习和语义一致性的跨模态检索方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

伪标签方法

现有的深度学习模型主要集中于训练预处理和细节调整。训练方法的预处理属于非监督学习范畴，微调方法属于监督学习范畴。一方面，大量的未标记预训练数据影响识别结果。另一方面，利用附加的标记训练数据，微调可以提高识别精确度。

据此，用于训练有标记和未标记数据的伪标签方法得到了充分的发展。在监督学习里面，给定一个神经网络，在训练过程中，卷积神经网络和自动编码器都包含了一个分类器；当输入的样本有标记时，需要最小化模型输出和样本标记的交叉熵。当输入的样本没有标记时，就需要用到伪标签。

根据上述定义确定伪标签y_i'。在训练这个模型之前，我们定义如下的损失函数。

L＝∑L(f_i,y_i)+α(t)∑L(f_i,y_i')

其中y和f表示监督学习过程的输入和输出。标签y′是伪标签，α是权重系数，t是当前的迭代次数。因此，在这种半监督学习方法中，未标记数据和标记数据都可以同时用于训练。

伪标签的主要思想如下。首先，在标记数据上训练学习模型。然后，使用上述方法应用生成模型来标记未标记的数据，并创建伪标签。然后将所有数据组合到一个新的数据集中，用于训练模型。上述过程如图1所示。

实施例一

在多模态数据检索中，不同模态数据之间的相似度不能直接测量。为了将某一模态的数据与其他模态数据相关联，我们使用有标记和无标记的数据学习投影矩阵。本实施例公开了一种基于伪标签学习和语义一致性的跨模态检索方法，如图2所示，包括以下步骤：

步骤1：接收图像数据集和文本数据集，其中包括已标记的图像和文本对以及未标记的图像数据；

训练集中的图像-文本对具有特殊的语义信息，称为类标签。这种语义信息可以作为学习子空间的第三维，并用于获得共享子空间中语义相似但不同的模态数据之间的相似性度量。本实施例还利用了类标签来获得数据点之间更好的相似性度量，与以往的方法不同，共享子空间的维数是根据类的个数来设置的。

假设给定的训练数据集G＝{(i_k,t_k)}k＝1…n,包含n对数据示例。用i_k∈R^p和t_k∈R^q表示图像和文本数据的低层特征。参数p和q是i_k和t_k的维数。矩阵I＝[i₁,…i_n]^T∈R^nXp和T＝[t₁,…t_n]^T∈R^nXq分别是训练数据集中对应于文本和图像数据的特征矩阵。假设训练数据集G中有c个类，语义相似性矩阵是S＝[s₁,…s_n]^T∈R^nXc，该矩阵的第i行对应于i_k和t_k的语义向量。如果i_k和t_k在同一个j类中，s_k的第j值被设置为1；否则，它被设置为0。

定义I＝[I_l,I_u]^T∈R^nXp和T＝[T_l]^T∈R^nXq。I_l和I_u在图像中表示标记和未标记的数据，而T_l在文本中表示标记的数据。

步骤2：学习从图像空间投影到文本空间的投影矩阵，将未标记的图像数据投影到文本空间；

在学习文本数据类中心之前，我们使用以下等式来学习用于将图像空间投影到文本空间上的投影矩阵。

其中，I_l表示图像数据，T_l表示与I_l语义相同文本数据，V是图像空间到公共语义空间的投影矩阵，λ是调整参数，

是Frobenius范数。当图像数据

被投影到文本特征空间上时，使用以下等式来表示数据：

其中，

表示未标记图像数据

投影到文本空间的投影数据。

步骤3：计算已标记文本的类中心；

考虑到样本数据集中的数据可能分布不均匀，而且可能与平均值存在显著偏差，我们使用中值特征向量作为类中心。在实验中，具有相同标签的数据具有相似的特征。这些特征可以被看作是同一类的语义。数据投影后，利用中值特征向量近似地表示迭代操作后的类标签。因此，已标记文本的T_l类中心

可以计算如下：

然后，根据上述计算得到了类矩阵

步骤4：根据未标记的图像数据的投影数据与文本数据的类中心的相似度，为这些图像数据分配伪标签，并且将与其距离最近的类中心相应的文本数据作为对应的文本模态；

所述步骤4具体包括：

将未标记图像数据I_u采用步骤2得到的投影矩阵均投影至文本空间，得到投影数据T'_u；

对得到的未标记图像数据的投影数据T'_u进行聚类：

基于投影数据的各类中心与步骤3得到的已标记文本的类中心位置，为各类图像数据分配伪标签。

然后，将与未标记的图像数据I_u距离最近的类中心

相应的文本数据作为对应的文本模态T'_u，即，用文本模态T'_u替换未标记的图像数据I_u，选择

中最相似的元素作为元素

通过以上步骤，我们得到了未标记数据I_u的伪标签，以及以文本模态表示的相应的数据T'_u。这为消除语义鸿沟提供了一种有效的途径。

步骤5：将已标记的和分配伪标签的图像数据，以及对应的文本数据作为训练数据集，学习图像和文本投影到公共语义空间的投影矩阵；

学习投影矩阵之前，还要学习训练数据集中图像和文本数据之间的语义相似矩阵。现在T'_u和T_l在共同的空间中。S_u是未标记图像数据I_u(即T'_u)和中心

(即有标签的文本数据)的相似性。S_u的元素

计算如下。

其中，

表示未标记图像数据

的投影数据和已标记文本数据的第i个类中心之间的相似度，

I_u表示未标记图像数据集合；

表示未标记图像

投影到文本空间的投影数据；

表示已标记文本数据的第i个类中心。γ是核系数，在该发明中设为8。至此，得到了一个新的语义特征相似矩阵S＝[S_l；S_u]。

具体地，基于训练数据集G，用优化目标函数来学习投影矩阵V∈R^cXp和W∈R^cXq。V是图像的投影矩阵，W是文本的投影矩阵。图像和文本数据被投影到相同的语义空间上，在该语义空间中可以计算投影数据之间的距离。

优化目标函数框架可以如下公式表示。

其中，f作为目标函数，C(V,W)用于相关分析相关项，以确保共享投影空间中的成对紧密性和特征一致性。L(V,S)是线性回归项，用于获取共同潜空间中语义相似的多模态数据的聚类，并确保语义一致性。R(V,W)是控制投影矩阵V和W的正则化项，它有助于避免模型与训练集数据过度拟合。

本发明针对不同的检索任务，学习不同的目标函数。因此，目标函数可以分别表示如下。

下式是完成图像检索文本任务时的目标函数：

下式是完成文本检索图像任务时的目标函数：

其中η₁和η₂是正则化项的非负平衡参数，0≤λ≤1也是平衡参数。

在无约束优化中得到了V和W的解。函数f(I,W)是非凸函数，仅具有局部最优解。但是当固定其中一个值时，另一个的解将是凸问题的解，所以可以使用梯度下降法交替计算它们。

偏导数计算如下。

通常用交替迭代法来解决这个问题。交替迭代法会终止于收敛。下面的算法详细描述了交替迭代过程。

输入:图像特征矩阵I＝[I_l,I_u]^T∈R^nXp；文本特征矩阵T＝[T_l,T_u]^T∈R^nXq；语义特征矩阵S＝[S_l；S_u]。

初始化:V^(v),W^(w),v←0,w←0；λ,η₁,η₂,ε,μ。其中ε是收敛条件参数，μ是梯度下降步长。

重复

设置f_{v_1}＝f(V^(v),W^(w))；

更新

设置f_{v_2}＝f(V^(v+1),W^(w)),v←v+1；

直到f_{v_1}-f_{v_2}<＝ε

重复

设置f_{v_1}＝f(V^(v),W^(w))；

更新

设置f_{v_2}＝f(V^(v),W^(w+1)),w←w+1；

直到f_{v_1}-f_{v_2}<＝ε

直到收敛或者达到迭代的最大次数

输出:投影矩阵V^(v),W^(w)

在上述算法中，V和W可以使用交替的迭代更新方法来求解。当条件匹配时，终止求解过程。与其他方法不同的是，该算法在更新V和W时，充分考虑了未标记样本数据的语义信息。

存储训练数据与其在公共语义空间中投影数据的映射关系。

步骤6：接收测试图像或文本，根据投影矩阵转换到公共语义空间，在公共语义空间查找与该测试图像或文本相似性最高的投影数据，该投影矩阵相应的另一模态数据即为检索结果。

利用投影矩阵V和W，可以在同一空间中分析图像和文本数据，从而可以计算不同模态数据点之间的距离。目前最广泛使用的距离度量是欧几里得距离，也就是欧氏距离。如下式所示。

数据集和实验设置

在下面的验证实验中，使用Wikipedia、Pascal Sentence和INRIA-Websearch数据集来验证本方法与其他方法的性能。

Wikipedia：它包含10个类别，里面包含2866个文本图像对。其中2173个样本对用于训练，693个样本对用于测试。图像视觉特征采用128维SIFT视觉单词袋，文本特征选取10维潜在狄利克雷分配(LDA)。基于相同的特征数据，对本发明提出的算法的性能进行了评价，并与其他算法进行了比较。另一个Wikipedia数据集具有4096维卷积神经网络(CNN)视觉特征和100维LDA文本特征。前者我们命名为WiKi128，后来称为WiKi4096。

Pascal Sentence：在这个数据集中有1000个文本-图像对和20个类。每个类包含50对数据。在我们的方法中，每个类选择30对作为训练集，其余的组成测试集。因此，总共有600个训练实例和400个测试实例。对于图像数据，使用CNN视觉特征。对于文本特性，先通过300个词根获得文本的BoW表示，然后通过LDA计算出文本在100个潜在主题中的概率分布。

根据数据类标签来构造语义特征，Wikipedia和Pascal Sentence数据集的维度分别为10和20。

INRIA-Websearch：在这个数据集中有71743个图像文本对，分为353类。CNN的视觉特征是4096维。我们选择了前100个类别，在实验中选用了14698对。

利用欧几里德距离度量同构空间中文本和图像数据之间的距离。设计查询结果的平均精确度均值(mAP)度量来评估不同检索方法的性能。首先定义AP如下。

其中R是查询结果的数目。如果第k个示例与查询项一致，则rel(k)＝1；否则，rel(k)＝0。P(k)量化最好的k个结果的准确性。mAP是通过对所有类的AP值进行平均来获得的。3.2本方法与当前先进方法的对比实验

在我们的验证实验中，将本发明的mAP性能与下面四种最新方法进行比较。这四种最新方法的简要描述如下。

JGRHML利用联合图正则化方法在不同类型的媒介中进行检索。HSNN是一种测量最近邻的异质相似性的方法。CMCP同时使用正相关和负相关。JRL同时考虑语义信息和相关性。

表1列出本发明提出的算法和其他四种最新方法的mAP得分。与其他方法相比，本发明提出的算法具有更好的性能，尤其在T2I检索方面。

表1.检索性能比较--MAP(％)值(I2T：图像检索文本，T2I：文本检索图像)

实施例二

本实施例的目的是提供一种计算机系统。

一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

计算已标记文本的类中心；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

计算已标记文本的类中心；

以上实施例二和三中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上一个或多个实施例具有以下技术效果：

本发明的检索方法在学习投影矩阵的过程中，充分考虑了标记样本和未标记样本的语义信息，为未标记样本学习伪标签。相比于其他方法，能够利用更多的信息，学习更有效的投影矩阵，验证实验表明，该方法能够获得较好的检索效果。

本领域技术人员应该明白，上述本申请的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本申请不限制于任何特定的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本申请的具体实施方式进行了描述，但并非对本申请保护范围的限制，所属领域技术人员应该明白，在本申请的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims

1.一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，包括以下步骤：

计算已标记文本的类中心；

2.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，通过以下公式学习从图像空间投影到文本空间的投影矩阵：

是Frobenius范数。

3.如权利要求2所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，计算已标记文本的类中心包括：

其中，

表示所有已标记文本数据

特征的中值，

4.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，所述未标记图像数据的投影数据与文本数据的类中心的相似度计算方法为：

计算未标记图像数据投影到文本数据空间的类中心；

5.如权利要求3所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，所述训练数据集中语义相似性矩阵S＝[S_l；S_u]，其中，S_l为已标记图像文本对相应的语义相似性矩阵，S_u为具有伪标签的图像文本对相应的语义相似性矩阵，

其中，

其中，

表示未标记图像数据

的投影数据和已标记文本数据的第i个类中心之间的相似度，

I_u表示未标记图像数据集合；

表示未标记图像

投影到文本空间的投影数据；

表示已标记文本数据的第i个类中心；γ表示核系数。

6.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，检索任务为根据图像检索文本时，通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵：

是Frobenius范数，η₁和η₂是正则化项的非负平衡参数，0≤λ≤1也是平衡参数。

7.如权利要求6所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，采用梯度下降法求解所述目标函数。

8.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法，其特征在于，所述在公共语义空间查找与该测试图像或文本相似性最高的投影数据包括：计算测试图像或文本的投影数据与训练数据集中每个另一模态投影数据特征之间的距离，获取距离最小的投影数据。

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于伪标签学习和语义一致性的跨模态检索方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一项所述的基于伪标签学习和语义一致性的跨模态检索方法。