CN114443864A

CN114443864A - 跨模态数据的匹配方法、装置及计算机程序产品

Info

Publication number: CN114443864A
Application number: CN202210109780.8A
Authority: CN
Inventors: 汪浩然; 何栋梁; 李甫; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-06

Abstract

本公开提供了一种跨模态数据的匹配方法、装置，具体实现方案为：获取训练样本集，其中的训练样本包括第一模态数据、第二模态数据和表征多模态数据之间是否匹配的标签；分别提取训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；以匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。本公开提高了跨模态匹配模型的匹配速度和准确度。

Description

跨模态数据的匹配方法、装置及计算机程序产品

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、图像识别和深度学习技术，尤其涉及跨模态数据的匹配方法、装置、电子设备、存储介质以及计算机程序产品，可用于跨模态检索场景下。

背景技术

跨模态检索是多媒体内容理解中的重要研究领域。跨模态检索旨在通过为不同模态的数据建立匹配关系，从而实现以某一模态数据作为查询数据，检索到具有相同或相近语义的其他模态数据。其中，作为互联网中最为广泛存在的两类信息，图像和文本之间的跨模态检索，即图像-文本匹配，是一个具有重要研究及应用价值的任务。传统的跨模态检索中，主要采用文本关键词的方式，其本质依然是单模态检索。例如，对于以文搜图的跨模态检索任务，给出一个查询文本，进行检索前需要先对候选集里的图片进行文本的人工标注，然后进行查询文本与标注文本的匹配度计算，最后返回检索到的标注文本对应的图片。

发明内容

本公开提供了一种跨模态匹配模型的训练方法、装置以及跨模态数据的匹配方法、装置、电子设备、存储介质以及计算机程序产品。

根据第一方面，提供了一种跨模态匹配模型的训练方法，包括：获取训练样本集，其中，训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签；分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。

根据第二方面，提供了一种跨模态数据的匹配方法，包括：获取待匹配模态数据；通过跨模态匹配模型，确定与待匹配模态数据匹配的目标模态数据，其中，跨模态匹配模型通过第一方面任一实现方式描述的方法训练得到。

根据第三方面，提供了一种跨模态匹配模型的训练装置，包括：第一获取单元，被配置成获取训练样本集，其中，训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签；提取单元，被配置成分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；训练单元，被配置成以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。

根据第四方面，提供了一种跨模态数据的匹配装置，包括：第二获取单元，被配置成获取待匹配模态数据；确定单元，被配置成通过跨模态匹配模型，确定与待匹配模态数据匹配的目标模态数据，其中，跨模态匹配模型通过第三方面任一实现方式描述的装置训练得到。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面、第二方面任一实现方式描述的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面、第二方面任一实现方式描述的方法。

根据第七方面，提供了一种计算机程序产品，包括：计算机程序，计算机程序在被处理器执行时实现如第一方面、第二方面任一实现方式描述的方法。

根据本公开的技术，提供了一种结合多层级的特征信息训练得到跨模态匹配模型的方法，在训练过程中，使用匹配损失函数约束第一模态数据与第二模态数据之间相对应的层级的特征信息之间的匹配任务，使用分类损失函数约束第一模态数据的各层级的特征信息的分类任务和第二模态数据的各层级的特征信息的分类任务，提高了跨模态匹配模型的匹配速度和准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的跨模态匹配模型的训练方法的一个实施例的流程图；

图3是适用于本公开的跨模态匹配模型的训练方法的模型结构示意图；

图4是对于图像文本对的认知图；

图5是根据本实施例的跨模态匹配模型的训练方法的应用场景的示意图；

图6是根据本公开的跨模态数据的匹配方法的一个实施例的流程图；

图7是根据本公开的跨模态匹配模型的训练装置的一个实施例的结构图；

图8是根据本公开的跨模态数据的匹配装置的一个实施例的结构图；

图9是适于用来实现本公开实施例的计算机系统的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的跨模态匹配模型的训练方法及装置、跨模态数据的匹配方法及装置的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如，根据终端设备101、102、103的操作指令，结合多层级的特征信息训练跨模态匹配模型的后台处理服务器。在训练过程中，使用匹配损失函数约束第一模态数据与第二模态数据之间相对应的层级的特征信息之间的匹配任务，使用分类损失函数约束第一模态数据的各层级的特征信息的分类任务和第二模态数据的各层级的特征信息的分类任务。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本公开的实施例所提供的跨模态匹配模型的训练方法、跨模态数据的匹配方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，跨模态匹配模型的训练装置、跨模态数据的匹配装置包括的各个部分(例如各个单元)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当跨模态匹配模型的训练方法、跨模态数据的匹配方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括跨模态匹配模型的训练方法、跨模态数据的匹配方法运行于其上的电子设备(例如服务器或终端设备)。

请参考图2，图2为本公开实施例提供的一种跨模态匹配模型的训练方法的流程图，其中，流程200包括以下步骤：

步骤201，获取训练样本集。

本实施例中，跨模态匹配模型的训练方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取训练样本集。其中，训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签。

第一模态数据、第二模态数据可以是模态不同的任意两种数据。数据的模态包括但不限于是文本、语音、图像、视频。

作为示例，第一模态数据为语音数据，第二模态数据为图像数据。作为又一示例，第一模态数据为语音数据，第二模态数据为文本数据。

在本实施例的一些可选的实现方式中，第一模态数据为图像数据，第二模态数据为文本数据。图像、文本是互联网中最为广泛存在的两类信息，图像和文本之间的跨模态检索，即图像-文本匹配，具有广泛的应用价值。本实现方式中，对应于图像文本的跨模态数据，跨模态匹配模型为图文匹配模型，提高了本公开的实用性和适用范围。

步骤202，分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息。

本实施例中，上述执行主体可以分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息。

作为示例，上述执行主体可以通过初始跨模态匹配模型中的特征提取网络分别对每个训练样本中的第一模态数据和第二模态数据进行特征提取，得到第一模态数据的第一层级特征信息和第二层级特征信息，以及第二模态数据的第一层级特征信息和第二层级特征信息。

其中，第一层级特征信息和第二层级特征信息的层级不同。层级用于表征特征信息的语义表现能力。当层级越低时，表明特征信息中主要包括更具象的信息，以图像的特征信息为例，低层级的特征信息中主要包括图像中各对象的外观特征，可以将低层级的特征信息定义为外观级特征信息。当层级越高时，表明特征信息中主要包括更抽象的信息，以图像的特征信息为例，高层级的特征信息中主要包括图像中各对象的内在特征(例如，各对象所属的类别)，可以将高层级的特征信息定义为概念级特征信息。

可以理解，特征提取网络中一般包括多个卷积层，后一卷积层在当前卷积层输出的特征信息的基础上进行进一步卷积，得到更高层级的特征信息。本实施例中，可以将特征提取网络中不同的卷积层的特征信息确定为第一层级特征信息和第二层级特征信息。作为示例，可以将中间的卷积层得到的特征信息确定为第一层级特征信息，将最后的卷积层得到特征信息确定为第二层级特征信息。

如图3所示，示出了适用于本公开的跨模态匹配模型的训练方法的模型结构300。其中，特征提取网络采用残差网络(例如ResNet50)，包括提取第一模态数据的特征信息的第一残差网络301和提取第二模态数据的特征信息的第二残差网络302。残差网络中包括5个特征提取阶段，将第三阶段得到的特征信息作为第一层级特征信息，将第五阶段得到的特征信息作为第二层级特征信息。

本实施例中，上述执行主体将模态数据的特征信息分解成语义上互补的两个层级，即外观级表征(exterior representation)，也即外观级特征信息，和概念级表征(concept representation)，也即概念级特征信息。如图4所示，示出了对于图像文本对的认知图400。在认知图中所示的6个图像文本对401、402、403、404、405、406时，人类通常会先将它们归纳为3个更高层次的类别，其中，图像文本对405对应的马、图像文本对406对应的狗属于动物类，即((马，狗)—>动物)；图像文本对403对应的巴士、图像文本对402对应的汽车属于交通工具类，即((巴士，汽车)—>交通工具)；图像文本对401足球运动员、图像文本对404对应的网球运动员属于运动员类，即((网球运动员，足球运动员)—>运动员)。这是因为，人们理解或学习一种事物，通常会在大脑中搭建类似生物学中“门-纲-目-科-属-种”的类别机制，以便于对事物进行更好的理解与记忆。仿照此机制，我们使用特征提取网络，基于上述分类分别提取动物类下的图像文本对405和406、交通工具类类下的图像文本对402和403、运动员类下的图像文本对401和404的外观级特征信息，以及各图像文本对的概念级特征信息，并依据它们所属的不同语义层级特点，通过后续步骤设置不同的学习目标和语义监督信息，以此实现对多模态数据的层次化表征。

需要说明的是，本公开中的采用的特征信息的层级的数量并不限于两个，根据实际需要，可以采用更多层级的特征信息。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式提取每个训练样本中的第一模态数据的第一层级特征信息和第二层级特征信息：

第一，通过第一模态特征提取网络对第一模态数据进行特征提取，得到第一模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，初始第二层级特征信息在初始第一层级特征信息的基础上提取得到；第二，通过第一卷积层、第一映射单元得到初始第一层级特征信息对应的第一层级特征信息；第三，通过第二映射单元得到初始第二层级特征信息对应的第二层级特征信息。

继续参考图3，在第一模态数据的第二层级特征信息的特征提取过程中，使用在ImageNet数据集上预训练过的第一残差网络(例如，ResNet-50)301作为图像编码器。为了将第一模态数据的特征信息映射到公共语义空间，我们首先移除ResNet-50上用于分类的末尾全连接层，将ResNet-50提取得到的特征信息作为初始第二层级特征信息。然后在其后添加两个堆叠的第二映射单元303用于进一步增强其语义表征能力，该映射单元是由一个全连接层、一个批标准化层(batch normalization，BN)和一个ReLU激活函数顺序组合构成。依次通过第一残差网络301和第二映射单元303的处理后，可以得到第一模态数据的第二层级特征信息。

在第一模态数据的第一层级特征信息的特征提取过程中，为获取与第二层级特征信息语义互补的细粒度的第一层级特征信息，使用第一残差网络301的中层特征，即ResNet50网络的第三个残差模块输出的特征信息作为初始第一层级特征信息。通过将初始第一层级特征信息输入到第一卷积层304，后接一个全局平均池化层(global averagepooling，GAP)以及第一映射单元305处理后，可以得到第一模态数据的第一层级特征信息。其中，第一映射单元305与第二映射单元303结构相同。

本实现方式中，提供了一种提取第一模态数据的第一层级特征信息和第二层级特征信息的具体方式，提高了所得到的特征信息的准确度和表现力。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式提取每个训练样本中的第二模态数据的第一层级特征信息和第二层级特征信息：

第一，通过第二模态特征提取网络对第二模态数据进行特征提取，得到第二模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，初始第二层级特征信息在初始第一层级特征信息的基础上提取得到；第二，通过第二卷积层、第三映射单元得到初始第一层级特征信息对应的第一层级特征信息；第三，通过第四映射单元得到初始第二层级特征信息对应的第二层级特征信息。

继续参考图3，在第二模态数据的第二层级特征信息的特征提取过程中，设计了类似于ResNet-50网络的第二残差网络302对第二模态数据的特征信息进行提取。与第一残差网络301类似，第二残差网络302也包含5个残差模块，其差异在于第二残差网络302将ResNet-50中基础卷积层中的3x 3卷积核替换成1x 2尺寸的卷积核，这有助于挖掘文本序列(当第二模态数据为文本数据时)中相邻元素之间的关系。通过去掉分类层的第二残差网络得到初始第二层级特征信息。然后，通过一个第四映射单元306之后，可以得到第二模态数据的第二层级特征信息。其中，第四映射单元306与第二映射单元303结构相同。

在第二模态数据的第一层级特征信息的特征提取过程中，为获取与第二层级特征信息语义互补的第一层级特征信息(当第二模态数据为文本数据时，第一层级特征信息可以理解为词组级语义信息)，与第一残差网络301类似，使用第二残差网络302对应的中层特征，即ResNet50网络的第三个残差模块输出的特征信息作为初始第一层级特征信息。将初始第一层级特征信息输入到第二卷积层307，后接1个全局平均池化层(global averagepooling，GAP)以及第三映射单元308处理后，可以得到第二模态数据的第一层级特征信息。其中，第三映射单元308与第二映射单元303结构相同。

本实现方式中，提供了一种提取第二模态数据的第一层级特征信息和第二层级特征信息的具体方式，提高了所得到的特征信息的准确度和表现力。

步骤203，以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。

本实施例中，上述执行主体可以以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。

对于第一模态数据与第二模态数据之间的匹配任务，首先，上述执行主体可以确定第一模态数据的第一层级特征信息与第二模态数据的第一层级特征信息之间的第一匹配结果，以及第一模态数据的第二层级特征信息与第二模态数据的第二层级特征信息之间的第二匹配结果；然后，通过预设匹配损失函数确定第一匹配结果与所对应的标签信息之间的损失，第二匹配结果与所对应的标签信息之间的损失，进而根据损失求取梯度信息，采用随机梯度下降法调整初始跨模态匹配模型的参数。

对于第一模态数据的分类任务，首先，上述执行主体分别对第一模态数据的第一层级特征信息、第二层级特征信息进行聚类，得到聚类结果；然后，对于第一层级特征信息和第二层级特征信息，通过预设分类损失函数分别确定基于特征信息得到的分类结果与所对应的聚类结果之间的损失，进而根据损失求取梯度信息，采用随机梯度下降法调整初始跨模态匹配模型的参数。

对于第二模态数据的分类任务，上述执行主体可以参照对于第一模态数据的分类任务的操作过程执行，在此不做赘述。

可以理解，上述执行主体可以根据匹配任务对应的损失和分类任务对应的损失，得到总损失，进而根据总损失调整初始跨模态匹配模型的参数。通过循环执行上述参数调整过程，响应于达到预设结束条件，得到跨模态匹配模型。

其中，预设结束条件例如可以是训练时间超过预设时间阈值，训练次数超过预设次数阈值，损失趋于收敛。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式指导初始跨模态匹配模型的匹配学习过程：

以第一排序损失函数约束第一模态数据的第一层级特征信息与第二模态数据的第一层级特征信息之间的匹配结果；以第二排序损失函数约束第一模态数据的第二层级特征信息与第二模态数据的第二层级特征信息之间的匹配结果。

第一排序损失函数和第二排序损失函数可以采用双向三元组排序损失函数。

具体的，第一排序损失函数通过如下公式表征：

其中，λ表示边距参数，可以理解为距离阈值，S()表示余弦距离函数，

分别表征不同模态数据的第一层级特征信息，

表示第一层级特征信息对应的正样本对，

分别表示第一层级特征信息对应的负样本对。

第二排序损失函数通过如下公式表征：

分别表征不同模态数据的第二层级特征信息，

表示第二层级特征信息对应的正样本对，

分别表示第二层级特征信息对应的负样本对。

本实现方式中，通过排序损失函数约束不同模态的数据之间相对应的层级的特征信息之间的匹配度，通过对不同层级的特征信息的约束学习，提高了跨模态匹配模型的学习效率和准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式指导初始跨模态匹配模型的分类学习过程：

以自监督聚类损失函数约束基于第一模态数据的第一层级特征信息得到的分类结果，以及基于第二模态数据的第一层级特征信息得到的分类结果；以实例损失函数约束基于第一模态数据的第二层级特征信息得到的分类结果，以及基于第二模态数据的第二层级特征信息得到的分类结果。

对于第一模态数据和第二模态数据的概念级特征信息的学习，把第一模态数据和第二模态数据作为一个多模态数据对，然后为每个数据对分配一个单独的标签id_h。由此，我们将跨模态映射学习过程转化为两个模态数据的分类学习过程。对于第一模态数据，基于实例损失函数的分类学习过程的数学表述如下：

P_i,h＝softmax(W^hv^h)

对于第二模态数据，基于实例损失函数的分类学习过程的数学表述如下：

P_t,h＝softmax(W^ht^h)

其中，softmax()表示用于归一化的softmax函数，“1{}”用于指示所映射到类别的真和假，P表示分类的概率分别，c表示概念级类别的数量。W^h表示公共映射矩阵，v^h、t^h分别表征第一模态数据的概念级特征信息、第二模态数据的概念级特征信息，

表征实例损失。

对于第一模态数据和第二模态数据的外观级特征信息的学习，上述提到的概念级特征信息的分类约束是不适用的。这是由于训练样本集中存在着大量外观级特征信息相似，而概念级特征信息截然不同的样本，例如猫和老虎外观比较相似，同属于猫科，但具体又是不同的物种。基于上述思考，我们选择基于图像特征(当第一模态数据为图像数据时)进行聚类，并生成了用于约束外观级特征信息的类别标签。值得注意的是，由于图像数据相比于文本数据(当第二模态数据为文本数据时)包含了更多底层的细节性信息，同时，由于图像编码器采用预训练的ResNet-50，我们选择基于图像特征进行聚类而不是文本特征。

具体而言，我们使用k-means算法将训练样本集中的C个数据分成k个数据集合S＝{S₁，...，S_k}。其中，C表示训练样本集的数据量。首先，我们使用在ImageNet上预训练过的ResNet-50对训练样本集中的图像数据进行特征提取，并且得到图像特征信息集合X＝{x₁，...，x_c}。为了初始化聚类模型，随机初始化k个聚类中心μ＝{μ₁，...，μ_k}。聚类的优化目标函数J被定义如下：

z_i＝argmin_j||x_i-μ_j||²

其中，z_i表示训练样本x_i所分配到的聚类簇的索引。当迭代收敛时，我们将获得的聚类标签Z＝{z₁，...，z_c}作为用于约束第一模态数据和第二模态数据的第一层级特征信息的类别标签，称为外观标签id_m。它表示具有相同外观的图像和图像所对应的文本将会被定义为一个新的跨模态数据集合，即这个集合内的成员共享相同的外观标签。与概念级特征信息的分类约束类似，对于第一模态数据，基于自监督聚类损失函数的分类学习过程的数学表述如下：

P_i，m＝soft max(W^mv^m)

对于第一模态数据，基于自监督聚类损失函数的分类学习过程的数学表述如下：

P_t，m＝soft max(W^mt^m)

其中，softmax()表示用于归一化的softmax函数，“1{}”用于指示所映射到类别的真和假，P表示分类的概率分别，k表示外观级类别的数量。W^m表示公共映射矩阵。

本实现方式中，在跨模态匹配模型的训练过程中，跨模态对比学习任务主要侧重于模态间的语义关联学习，而分类任务对应于模态内的语义关联学习，提高了跨模态匹配模型的学习效率和准确度。

需要说明的是，本实施例中，当跨模态数据包括多种时，针对于每两种跨模态数据之间，可以参照上述过程进行跨模态匹配模型的学习。并且，本实施例中，并不限于只进行第一层级特征信息和第二层级特征信息的学习，根据实际需求，可以执行更多层级的特征信息之间的学习。当跨模态匹配模型学习更多层级的特征信息时，可以将多个层级的特征信息划分为低层级特征信息和高层级特征信息。对于低层级特征信息，可以参照上述第一层级特征信息的学习过程指导跨模态匹配模型的学习；对于高层级特征信息，可以参照上述第二层级特征信息的学习过程指导跨模态匹配模型的学习，在此不再赘述。

继续参见图5，图5是根据本实施例的跨模态匹配模型的训练方法的应用场景的一个示意图500。在图5的应用场景中，服务器501首先从数据库502中获取了训练样本集。其中，训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签；分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。

本实施例中，提供了一种结合多层级的特征信息训练得到跨模态匹配模型的方法，在训练过程中，使用匹配损失函数约束第一模态数据与第二模态数据之间相对应的层级的特征信息之间的匹配任务，使用分类损失函数约束第一模态数据的各层级的特征信息的分类任务和第二模态数据的各层级的特征信息的分类任务，提高了跨模态匹配模型的匹配速度和准确度。

继续参考图6，示出了根据本申请的跨模态数据的匹配方法的一个实施例的示意性流程600，包括以下步骤：

步骤601，获取待匹配模态数据。

本实施例中，跨模态数据的匹配方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地待匹配模态数据。

其中，待匹配模态数据可以是任意模态的数据，包括但不限于是语音、文本、图像、视频。

步骤602，通过跨模态匹配模型，确定与待匹配模态数据匹配的目标模态数据。

本实施例中，上述执行主体可以通过跨模态匹配模型，确定与待匹配模态数据匹配的目标模态数据。

其中，目标模态数据可以是与待匹配模态数据不同的任意模态数据。作为示例，待匹配模态数据为文本数据，目标模态数据为图像数据。

本实施例中，可以将跨模态匹配模型应用于跨模态检索中，将检索模态数据输入跨模态匹配模型检索，得到目标模态数据。

本实施例中，通过跨模态匹配模型确定对应于待匹配模态数据的目标模态数据，提高了跨模态数据之间的匹配准确度和速度。

继续参考图7，作为对上述各图所示方法的实现，本公开提供了一种跨模态匹配模型的训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，跨模态匹配模型的训练装置包括：第一获取单元701，被配置成获取训练样本集，其中，训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签；提取单元702，被配置成分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；训练单元703，被配置成以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到跨模态匹配模型。

在本实施例的一些可选的实现方式中，提取单元702，进一步被配置成：通过第一模态特征提取网络对第一模态数据进行特征提取，得到第一模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，初始第二层级特征信息在初始第一层级特征信息的基础上提取得到；通过第一卷积层、第一映射单元得到初始第一层级特征信息对应的第一层级特征信息；通过第二映射单元得到初始第二层级特征信息对应的第二层级特征信息。

在本实施例的一些可选的实现方式中，提取单元702，进一步被配置成：通过第二模态特征提取网络对第二模态数据进行特征提取，得到第二模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，初始第二层级特征信息在初始第一层级特征信息的基础上提取得到；通过第二卷积层、第三映射单元得到初始第一层级特征信息对应的第一层级特征信息；通过第四映射单元得到初始第二层级特征信息对应的第二层级特征信息。

在本实施例的一些可选的实现方式中，训练单元703，进一步被配置成：以第一排序损失函数约束第一模态数据的第一层级特征信息与第二模态数据的第一层级特征信息之间的匹配结果；以第二排序损失函数约束第一模态数据的第二层级特征信息与第二模态数据的第二层级特征信息之间的匹配结果。

在本实施例的一些可选的实现方式中，训练单元703，进一步被配置成：以自监督聚类损失函数约束基于第一模态数据的第一层级特征信息得到的分类结果，以及基于第二模态数据的第一层级特征信息得到的分类结果；以实例损失函数约束基于第一模态数据的第二层级特征信息得到的分类结果，以及基于第二模态数据的第二层级特征信息得到的分类结果。

在本实施例的一些可选的实现方式中，第一模态数据为图像数据，第二模态数据为文本数据。

本实施例中，提供了一种结合多层级的特征信息训练得到跨模态匹配模型的装置，在训练过程中，使用匹配损失函数约束第一模态数据与第二模态数据之间相对应的层级的特征信息之间的匹配任务，使用分类损失函数约束第一模态数据的各层级的特征信息的分类任务和第二模态数据的各层级的特征信息的分类任务，提高了跨模态匹配模型的匹配速度和准确度。

继续参考图8，作为对上述各图所示方法的实现，本公开提供了一种跨模态数据的匹配装置的一个实施例，该装置实施例与图6所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，跨模态数据的匹配装置包括：第二获取单元801，被配置成获取待匹配模态数据；确定单元802，被配置成通过跨模态匹配模型，确定与待匹配模态数据匹配的目标模态数据。其中，跨模态匹配模型通过实施例600中任一实现方式描述的装置训练得到。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的跨模态匹配模型的训练方法、跨模态数据的匹配方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的跨模态匹配模型的训练方法、跨模态数据的匹配方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的跨模态匹配模型的训练方法、跨模态数据的匹配方法。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如跨模态匹配模型的训练方法、跨模态数据的匹配方法。例如，在一些实施例中，跨模态匹配模型的训练方法、跨模态数据的匹配方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的跨模态匹配模型的训练方法、跨模态数据的匹配方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行跨模态匹配模型的训练方法、跨模态数据的匹配方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷；也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开实施例的技术方案，提供了一种结合多层级的特征信息训练得到跨模态匹配模型的方法，在训练过程中，使用匹配损失函数约束第一模态数据与第二模态数据之间相对应的层级的特征信息之间的匹配任务，使用分类损失函数约束第一模态数据的各层级的特征信息的分类任务和第二模态数据的各层级的特征信息的分类任务，提高了跨模态匹配模型的匹配速度和准确度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种跨模态匹配模型的训练方法，包括：

获取训练样本集，其中，所述训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签；

分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；

以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到所述跨模态匹配模型。

2.根据权利要求1所述的方法，其中，提取每个训练样本中的第一模态数据的第一层级特征信息和第二层级特征信息，包括：

通过第一模态特征提取网络对第一模态数据进行特征提取，得到第一模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，所述初始第二层级特征信息在所述初始第一层级特征信息的基础上提取得到；

通过第一卷积层、第一映射单元得到所述初始第一层级特征信息对应的第一层级特征信息；

通过第二映射单元得到所述初始第二层级特征信息对应的第二层级特征信息。

3.根据权利要求1所述的方法，其中，提取每个训练样本中的第二模态数据的第一层级特征信息和第二层级特征信息，包括：

通过第二模态特征提取网络对第二模态数据进行特征提取，得到第二模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，所述初始第二层级特征信息在所述初始第一层级特征信息的基础上提取得到；

通过第二卷积层、第三映射单元得到所述初始第一层级特征信息对应的第一层级特征信息；

通过第四映射单元得到所述初始第二层级特征信息对应的第二层级特征信息。

4.根据权利要求1所述的方法，其中，所述以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，包括：

以第一排序损失函数约束第一模态数据的第一层级特征信息与第二模态数据的第一层级特征信息之间的匹配结果；

以第二排序损失函数约束第一模态数据的第二层级特征信息与第二模态数据的第二层级特征信息之间的匹配结果。

5.根据权利要求1所述的方法，其中，所述以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，包括：

以自监督聚类损失函数约束基于第一模态数据的第一层级特征信息得到的分类结果，以及基于第二模态数据的第一层级特征信息得到的分类结果；

以实例损失函数约束基于第一模态数据的第二层级特征信息得到的分类结果，以及基于第二模态数据的第二层级特征信息得到的分类结果。

6.根据权利要求1-5中任一项所述的方法，其中，第一模态数据为图像数据，第二模态数据为文本数据。

7.一种跨模态数据的匹配方法，包括：

获取待匹配模态数据；

通过跨模态匹配模型，确定与所述待匹配模态数据匹配的目标模态数据，其中，所述跨模态匹配模型通过权利要求1-6中的任一项训练得到。

8.一种跨模态匹配模型的训练装置，包括：

第一获取单元，被配置成获取训练样本集，其中，所述训练样本集中的训练样本包括第一模态数据、第二模态数据和表征第一模态数据、第二模态数据是否匹配的标签；

提取单元，被配置成分别提取每个训练样本中的第一模态数据和第二模态数据的第一层级特征信息和第二层级特征信息；

训练单元，被配置成以预设匹配损失函数约束第一模态数据与第二模态数据之间基于第一层级特征信息得到的匹配结果，和基于第二层级特征信息的匹配结果，以预设分类损失函数约束分别基于第一模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，和分别基于第二模态数据的第一层级特征信息、第二层级特征信息得到的分类结果，训练得到所述跨模态匹配模型。

9.根据权利要求8所述的装置，其中，所述提取单元，进一步被配置成：

通过第一模态特征提取网络对第一模态数据进行特征提取，得到第一模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，所述初始第二层级特征信息在所述初始第一层级特征信息的基础上提取得到；通过第一卷积层、第一映射单元得到所述初始第一层级特征信息对应的第一层级特征信息；通过第二映射单元得到所述初始第二层级特征信息对应的第二层级特征信息。

10.根据权利要求8所述的装置，其中，所述提取单元，进一步被配置成：

通过第二模态特征提取网络对第二模态数据进行特征提取，得到第二模态数据对应的初始第一层级特征信息和初始第二层级特征信息，其中，所述初始第二层级特征信息在所述初始第一层级特征信息的基础上提取得到；通过第二卷积层、第三映射单元得到所述初始第一层级特征信息对应的第一层级特征信息；通过第四映射单元得到所述初始第二层级特征信息对应的第二层级特征信息。

11.根据权利要求8所述的装置，其中，所述训练单元，进一步被配置成：

12.根据权利要求8所述的装置，其中，所述训练单元，进一步被配置成：

13.根据权利要求8-12中任一项所述的装置，其中，第一模态数据为图像数据，第二模态数据为文本数据。

14.一种跨模态数据的匹配装置，包括：

第二获取单元，被配置成获取待匹配模态数据；

确定单元，被配置成通过跨模态匹配模型，确定与所述待匹配模态数据匹配的目标模态数据，其中，所述跨模态匹配模型通过权利要求8-12中的任一项训练得到。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括：计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。