CN115438220A

CN115438220A - 一种噪音鲁棒学习的跨语言跨模态检索方法及装置

Info

Publication number: CN115438220A
Application number: CN202211014330.7A
Authority: CN
Inventors: 董建锋; 王雅冰; 蔡蕊; 包翠竹; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-06

Abstract

本发明公开了一种噪音鲁棒学习的跨语言跨模态检索方法及装置，通过借助机器翻译来构造伪平行句子对来实现零样本跨语言迁移。由于机器翻译得到结果并不总是完美的，它通常包含大量的噪声。为了缓解这个问题，首先引入了一个多视角自蒸馏损失来学习噪声鲁棒的目标语言特征，它通过利用cross‑attention模块从基于相似度和基于特征的两个视角来生成软伪目标；其次，利用回译来提高模型对源语言的鲁棒性；最后，将得到的视频特征与噪声鲁棒的文本特征映射到一个跨语言跨模态共同空间中进行匹配，从而实现目标语言文本到视频的跨模态检索。本发明实现了在目标语言上的准确检索。

Description

一种噪音鲁棒学习的跨语言跨模态检索方法及装置

技术领域

本发明属于跨语言跨模态检索技术领域，具体涉及一种噪音鲁棒学习的跨语言跨模态检索方法及装置。

背景技术

随着互联网上视频的迅速出现，比如在Facebook和TikTok上，人们往往会在线浏览它们，这给准确的多模态内容检索带来了极大的挑战。然而，由于大量可获得的人工标注数据，目前大量的跨模态检索工作都致力于英语检索。因此，设计一个跨语言跨模态检索方法至关重要，尤其对于将资源丰富的源语言迁移到人工标注数据稀缺的，甚至不可获得的目标语言上。

早期的一些跨语言跨模态工作，他们大多都依赖于预训练的跨语言单词嵌入或者预训练的句子编码器，旨在将不同语言的句子表征映射到一个共同空间中来进行跨语言对齐。最近，随着大规模多语言视觉语言(V+L)语料库和多语言预训练模型的出现，一些工作通过进一步尝试在大规模多语言V+L语料库上进行预训练来缩小不同语言和不同模态之间的差异。然而大规模数据倾向于收集那些资源丰富的语言，并且昂贵耗时，因此稀缺语言的多语言对齐问题目前仍然是一个亟待解决的巨大挑战。为了解决这个问题，一些工作尝试借助于机器翻译来实现跨语言对齐，但是他们忽略了，通过机器翻译得到翻译结果往往存在大量的噪声这一事实，这将会导致模型对噪声数据过拟合，从而影响检索性能。

发明内容

针对上述现有技术的不足，本发明提供一种噪音鲁棒学习的跨语言跨模态检索方法及装置，解决了大规模数据倾向于收集那些资源丰富的语言，并且大规模数据的人工标注成本较大，昂贵且耗时，因此限制了该领域在资源较为稀缺的语言上的发展以及多机器翻译所带来的噪声问题。

本发明的目的是通过以下技术方案实现的：

根据本说明书的第一方面，提供一种噪音鲁棒学习的跨语言跨模态检索方法，该方法包括以下步骤：

S1，使用预训练模型对视频进行提取，得到视频的初始特征；

S2，将步骤S1中得到的视频的初始特征输入到Transformer块中，利用自注意力实现帧级特征交互并对Transformer的输出特征执行平均池化操作，得到视频特征向量；

S3，将源语言句子进行机器翻译，得到目标语言句子和源语言回译句子；

S4，将步骤S3中的源语言句子、目标语言句子、源语言回译句子分别输入至对应的源语言分支、目标语言分支、源语言回译分支中进行编码，得到源语言特征序列、目标语言特征序列、源语言回译特征序列，并对源语言特征序列、目标语言特征序列、源语言回译特征序列进行平均池化操作，得到源语言句子特征向量、目标语言句子特征向量、源语言回译句子特征向量；

S5，在多语言多模态共同空间中计算步骤S2中得到的视频特征向量与步骤S4中得到的源语言句子特征向量、目标语言句子特征向量之间的相似度，进行跨语言跨模态匹配，同时，将步骤S4中得到的源语言特征序列和目标语言特征序列输入到cross-attention模块中，得到较为干净的目标语言特征向量，并将目标语言特征向量映射到多模态共同空间为目标语言句子分支提供监督信号，进行指导，并将步骤S4中得到源语言句子特征向量和源语言回译句子特征向量进行对齐，来提取循环一致性语义信息，得到初始跨语言跨模态检索模型；

S6，以端到端的方式对初始跨语言跨模态检索模型进行训练，得到最终的跨语言跨模态检索模型；

S7，将目标语言句子和由目标语言句子翻译而得到的源语言句子与视频输入到步骤S6得到的最终的跨语言跨模态检索模型中，来完成从目标文本到视频的跨语言跨模态检索。

进一步地，所述步骤S1具体为：

S11，对视频进行帧采样，获得视频帧序列；

S12，使用在ImageNet上预先训练的2D CNN网络模型对视频帧序列进行特征提取，得到视频的初始特征。

进一步地，所述步骤S4具体为：

S41，将步骤S3中的源语言句子、目标语言句子、源语言回译句子分别输入到一个预训练模型mBERT中进行编码，得到源语言特征序列、目标语言特征序列、源语言回译特征序列；

S42，将步骤S41中得到的源语言特征序列、目标语言特征序列、源语言回译特征序列分别输入到对应的Transformer模块中，以提取相对应的高层次的特定任务特征，并对特定任务特征进行平均池化操作，得到对应的源语言句子特征向量、目标语言句子特征向量、源语言回译句子特征向量。

进一步地，还包括以下步骤：

将步骤S41中得到的源语言特征序列和目标语言特征序列进行平均池化操作，并输入到判别器中，以对抗学习的方式对文本编码器进行优化，以编码语言无关特征。

进一步地，所述步骤S5具体为：

S51，将步骤S42中源语言特征序列和目标语言特征序列对应的特定任务特征输入到cross-attention模块中进行过滤，得到较为干净的目标语言隐藏特征序列，并对目标语言隐藏特征序列进行平均池化操作，得到目标语言隐藏特征向量；

S52，将S2中视频特征向量、步骤S51中的目标语言隐藏特征向量和S42中的源语言句子特征向量、目标语言句子特征向量以及源语言回译句子特征向量分别映射到一个多语言多模态共同空间中，将映射到多语言多模态共同空间中的源语言句子特征向量、目标语言句子特征向量分别与视频特征向量进行跨模态跨语言对齐约束；将映射到多语言多模态共同空间中的目标语言句子特征向量和目标语言隐藏特征向量通过多视图自蒸馏损失进行约束；映射到多语言多模态共同空间中的源语言句子特征向量和目标语言隐藏特征向量通过循环语义一致性损失进行约束。

根据本说明书的第二方面，提供一种噪音鲁棒学习的跨语言跨模态检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现如第一方面所述的噪音鲁棒学习的跨语言跨模态检索方法。

本发明的有益效果是：本发明借助于机器翻译实现跨语言迁移，仅使用源语言进行训练，即可直接迁移到目标语言上使用，缓解了人工标注费时且昂贵的问题，并通过噪声鲁棒学习有效的缓解了机器翻译所带来的噪声问题，比如单词翻译错误，语法错误，句子不流畅等，所提出的方法有效的增强了模型对于翻译所引入的噪声的鲁棒性并对跨语言跨模态对齐质量有显著提升。其中，为了克服利用机器翻译所带来的噪声问题，本发明并没有对翻译结果进行修改，以提高翻译质量，而是提出了一种噪声鲁棒学习方法以缓解噪声带来的影响。本发明将已有的人工标注语言表示为源语言，无标注的待迁移语言表示为目标语言。本发明首先利用Transformer中的cross-attention模块根据源语言句子来聚合那些可能被正确翻译的tokens，并过滤掉其他被错误翻译的tokens，通过cross-attention模块得到的输出特征不仅与源语言句子特征保持对齐并且相比于翻译得到句子特征更加的干净，因此，本发明利用cross-attention模块的输出特征来生成软伪目标，为目标语言的特征学习提供直接的监督；进一步地，受无监督机器翻译工作启发，本发明还利用循环语义一致性来最小化源句子和回译得到的句子之间的语义差异，基于此本发明可以进一步提高文本编码器的噪声鲁棒性。为了编码语言无关特征并提取不同语言句子之间的共享信息，以对抗方式进行语言无关特征学习，最终，将得到的源语言句子特征，目标语言句子特征和视频映射到一个多语言多模态共同空间中，并在该空间中计算两种语言与视频的相似度，并将得到视频文本相似度进行加权和来获得最终的相似度。本发明通过对最终的相似度进行排序来实现跨语言文本-视频检索任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例提供的噪音鲁棒学习的跨语言跨模态检索方法流程图；

图2为一示例性实施例提供的噪音鲁棒学习的跨语言跨模态检索装置的结构图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明提供一种噪音鲁棒学习的跨语言跨模态检索方法，如图1所示，该方法包括以下步骤：

在一实施例中，步骤S1具体为：

S11，对视频进行帧采样，间隔为0.5秒，获得视频帧序列；

S12，使用在ImageNet上预先训练的2D CNN网络模型对视频帧序列进行特征提取，得到视频的初始特征。在另一实施例中，将帧片段作为单独项进行处理，3D CNN网络模型也可以用于特征提取。

具体地，将步骤S1中得到的帧长度为l的视频的初始特征U＝{u₁,u₂,…,u_l},输入到Transformer模块中，利用Transformer中的自注意力进行帧级特征交互，以生成更高层次的视觉语义特征序列,并对其执行平均池化操作。通过该过程，可以得到一个视频特征向量

具体公式可表示为:

v＝f(Transformer_v(U))

其中f(·)表示平均池化操作。

具体地，给定一个人工标注的源语言句子集合{s^S},使用谷歌翻译得到的对应的目标语言句子集合{s^T}和源语言回译句子集合{s^B}。

在一实施例中，步骤S4具体为：

S41，将步骤S3中的源语言句子s^S、目标语言句子s^T、源语言回译句子s^B分别输入到一个预训练模型mBERT中进行编码，得到源语言特征序列

目标语言特征序列

源语言回译特征序列

S42，将步骤S41中得到的源语言特征序列、目标语言特征序列、源语言回译特征序列分别输入到对应的Transformer模块中，以提取相对应的高层次的特定任务特征，并对特定任务特征进行平均池化操作，得到对应的源语言句子特征向量、目标语言句子特征向量、源语言回译句子特征向量，具

体公式可以表示为：

c^S＝f(Transformer_t(m^S))

c^T＝f(Transformer_t(m^T))

c^B＝f(Transformer_t(m^B))

其中，c^S,c^T和c^B分别表示源语言句子特征向量、目标语言句子特征向量、源语言回译句子特征向量,f(·)表示平均池化操作。

在一实施例中，还包括以下步骤：

具体地，由于特定语言特征缺乏跨语言能力，本方法以对抗的方式训练文本编码器来生成语言无关特征。构建了一个语言分类器F作为判别器用来判别输入特征属于源语言或是目标语言，其中语言分类器由多层前馈网络组成，对抗训练的判别损失

可以表示为：

其中，f(·)表示对输入的多语言特征序列执行平均池化操作。

S5，在多语言多模态共同空间中计算步骤S2中得到的视频特征向量与步骤S4中得到的源语言句子特征向量、目标语言句子特征向量之间的相似度，进行跨语言跨模态匹配；同时，将步骤S4中得到的源语言特征序列和目标语言特征序列输入到cross-attention模块中，得到较为干净的目标语言特征向量，并将目标语言特征向量映射到多模态共同空间为目标语言句子分支提供监督信号，进行指导；并将步骤S4中得到源语言句子特征向量和源语言回译句子特征向量进行对齐，来提取循环一致性语义信息，得到初始跨语言跨模态检索模型；

在一实施例中，步骤S5具体为：

具体地，将源语言特征序列和目标语言特征序列对应的特定任务特征输入到cross-attention模块中，根据源语言自适应地选择相关的目标语言token以聚合相对干净的源语言特征信息，具体公式表示为：

h^c＝Norm(FFN(h))

其中，W_Q,W_K,W_V分别代表三个可学习的映射矩阵，FFN和Norm分别表示Transformer块中的前馈网络和层正则化，h^C表示目标语言特征序列，d_w表示目标语言特征序列的维度，在s^T的所有token中，当其与S^S中的token越相似，将会得到更高的注意力权重，因此对输出的贡献也越大,。

S52，将S2中视频特征向量、步骤S51中的目标语言隐藏特征向量和S42中的源语言句子特征向量、目标语言句子特征向量以及源语言回译句子特征向量分别映射到一个多语言多模态共同空间中，将映射到多语言多模态共同空间中的源语言句子特征向量、目标语言句子特征向量分别与视频特征向量进行跨模态跨语言对齐约束；

具体地，旨在学习一个映射函数g(·)，将S2中视频特征向量、步骤S51中的目标语言隐藏特征向量和S42中的源语言句子特征向量、目标语言句子特征向量以及源语言回译句子特征向量分别映射到一个多语言多模态共同空间中，具体公式如下：

其中，

分别表示为共同空间中的源语言句子特征向量，目标语言句子特征向量，源语言回译句子特征向量和视频特征向量。

为了使相关视频文本对在共同空间中的距离更加小，不相关的距离更加大，利用改进的三元组排序损失根据一个mini-batch中的最难负样本对模型进行惩罚，其具体公式如下：

其中，

表示源语言句子特征向量和视频特征向量的匹配函数；

表示目标语言句子特征向量和视频特征向量的匹配函数；Δ表示间距常数，sim(·)表示余弦相似度函数，

分别表示一个源语言句子负样本，一个目标句子负样本和一个视频负样本，总的对齐损失函数

表示如下：

计算步骤S2中得到的视频特征向量与步骤S4中得到的源语言句子特征向量、目标语言句子特征向量之间的相似度，并将这两个相似度之和作为最终的跨模态相似度，进行跨语言跨模态匹配，α表示目标语言句子特征向量和视频特征向量的匹配函数的权重。

其中，β是一个权重参数，Score(v,s^T)总的相似度函数。

将映射到多语言多模态共同空间中的目标语言句子特征向量和目标语言隐藏特征向量通过多视图自蒸馏损失进行约束；

具体地，首先，进行基于相似度自蒸馏，将目标语言句子特征向量作为老师特征向量，目标语言隐藏特征向量作为学生特征向量，将老师特征向量和视频特征向量计算得到的跨模态相似度(文本到视频的正则化相似度

和视频到文本的正则化相似度

)作为软伪目标，其具体计算公式为：

其中，τ是温度系数，执行和上述相似的计算过程，得到关于学生特征向量和视频特征向量的跨模态相似度(文本到视频的正则化相似度

和视频到文本的正则化相似度

)。利用KL散度作为基于相似度的自蒸馏损失，其

基于相似度的自蒸馏损失具体公式表示如下：

然后，执行基于特征的自蒸馏。利用老师特征向量对学生特征向量进行指导。使用基于特征的自蒸馏损失

隐式的引入老师特征向量中的知识来引导目标语言句子s^T的编码,其具体公式表示如下：

其中，

是通过使用L1损失来实现的。

映射到多语言多模态共同空间中的源语言句子特征向量和目标语言隐藏特征向量通过循环语义一致性损失进行约束。

具体地，对于句子，期望源语言分支可以从源语言回译句子s^B提取到和原源语言句子s^S相同的语义含义。可以使用改进的三元组排序损失来激励这一行为，

循环语义一致性损失函数具体公式如下：

总的损失函数表示如下：

其中，λ₁,λ₂,λ₃,λ₄为超参数，表示每个损失的权重。

在训练过程中，使用一个批处理为128的小批量的Adam优化器。初始学习率设置为1e-4。在训练过程中，利用早停的训练策略(early stop)对模型进行优化，如果验证损失在连续的三个周期内没有减少，学习率将会除以2。如果验证性能在连续10个周期内没有提高，早停则会启动。

S7，将目标语言句子和由目标语言句子翻译而得到的源语言句子与视频输入到步骤S6得到的最终的跨语言跨模态检索模型中，分别计算两种语言句子和所有候选视频在该空间中的相似度，并将两种语言的文本-视频相似度进行加权和，根据此结果对候选视频执行排序操作，并返回最终的检索结果，完成从目标文本到视频的跨语言跨模态检索。

本噪音鲁棒学习的跨语言跨模态检索方法借助于机器翻译实现跨语言迁移，仅使用源语言进行训练，即可直接迁移到目标语言上使用，缓解了人工标注费时且昂贵的问题，并通过噪声鲁棒学习有效的缓解了机器翻译所带来的噪声问题，比如单词翻译错误，语法错误，句子不流畅等，所提出的方法有效的增强了模型对于翻译所引入的噪声的鲁棒性并对跨语言跨模态对齐质量有显著提升。其中，为了克服利用机器翻译所带来的噪声问题，本噪音鲁棒学习的跨语言跨模态检索方法并没有对翻译结果进行修改，以提高翻译质量，而是提出了一种噪声鲁棒学习方法以缓解噪声带来的影响。本噪音鲁棒学习的跨语言跨模态检索方法将已有的人工标注语言表示为源语言，无标注的待迁移语言表示为目标语言。本噪音鲁棒学习的跨语言跨模态检索方法首先利用Transformer中的cross-attention模块根据源语言句子来聚合那些可能被正确翻译的tokens，并过滤掉其他被错误翻译的tokens。通过cross-attention模块得到的输出特征不仅与源语言句子特征保持对齐并且相比于翻译得到句子特征更加的干净。因此，本噪音鲁棒学习的跨语言跨模态检索方法利用cross-attention模块的输出特征来生成软伪目标，为目标语言的特征学习提供直接的监督。进一步地，受无监督机器翻译工作启发，本噪音鲁棒学习的跨语言跨模态检索方法还利用循环语义一致性来最小化源句子和回译得到的句子之间的语义差异，基于此可以进一步提高文本编码器的噪声鲁棒性。为了编码语言无关特征并提取不同语言句子之间的共享信息，以对抗方式进行语言无关特征学习。最终，将得到的源语言句子特征，目标语言句子特征和视频映射到一个多语言多模态共同空间中，并在该空间中计算两种语言与视频的相似度，并将得到视频文本相似度进行加权和来获得最终的相似度。本噪音鲁棒学习的跨语言跨模态检索方法通过对最终的相似度进行排序来实现跨语言文本-视频检索任务。

与前述噪音鲁棒学习的跨语言跨模态检索方法的实施例相对应，本发明还提供了噪音鲁棒学习的跨语言跨模态检索装置的实施例。

参见图2，本发明实施例提供的一种噪音鲁棒学习的跨语言跨模态检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的噪音鲁棒学习的跨语言跨模态检索方法。

本发明噪音鲁棒学习的跨语言跨模态检索装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明噪音鲁棒学习的跨语言跨模态检索装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的噪音鲁棒学习的跨语言跨模态检索方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种噪音鲁棒学习的跨语言跨模态检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体为：

S11，对视频进行帧采样，获得视频帧序列；

3.根据权利要求1所述的方法，其特征在于，所述步骤S4具体为：

4.根据权利要求3所述的方法，其特征在于，还包括以下步骤：

5.根据权利要求3所述的方法，其特征在于，所述步骤S5具体为：

6.一种噪音鲁棒学习的跨语言跨模态检索装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1-5中任一项所述的噪音鲁棒学习的跨语言跨模态检索方法。