CN115186143A

CN115186143A - 基于低秩学习的跨模态检索方法及装置

Info

Publication number: CN115186143A
Application number: CN202210758188.0A
Authority: CN
Inventors: 于涵宇; 杨钰群; 孟泽昭; 马骏; 杨涛; 杨雅慧
Original assignee: Beijing Xinlianxin Technology Development Co ltd
Current assignee: Beijing Xinlianxin Technology Development Co ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-14

Abstract

本发明涉及一种基于低秩学习的跨模态检索方法及装置，包括获取数据样本集，将数据样本集划分为训练集和测试集；将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；利用目标跨模态数据检索模型对测试集进行跨模态检索。本发明通过构建目标跨模态数据检索模型对多模态数据进行检测，该模型能够使得各个模态的同类数据在子空间靠近，其能够检测不同模态数据的差异，使得相似性度量更加精确，检索结果个更加准确。

Description

基于低秩学习的跨模态检索方法及装置

技术领域

本发明属于数据处理技术领域，具体涉及一种基于低秩学习的跨模态检索方法及装置。

背景技术

随着互联网上的文本、图像和视频等不同类型的媒体数据的快速增长，跨模态检索在现实世界的应用变得越来越重要。跨模态检索引起了学术界和工业界的广泛关注。跨模态检索旨在实现跨不同模态(例如，文本-图像，图像(RGB)-图像(Infrared))的灵活检索。它将一种类型的数据作为查询样本，来检索另一种类型的相关数据。所提供的各种模式的搜索结果可以帮助用户获得关于目标事件或主题的全面信息。

跨模态检索面临的挑战是如何度量不同类型检索之间的内容相似性，由于数据分布的差异性，导致异质特征无法直接进行相似性度量。现有的方法主要将不同模态数据投射到同一特征空间，然后进行相似度度量，但是由于不同模态数据的差异性，对于不同模态特征子空间关注不够，使得相似性度量不够精确，检索结果不够理想。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于低秩学习的跨模态检索方法及装置，以解决现有技术中跨模态检索时，对于不同模态特征子空间关注不够，使得相似性度量不够精确，导致检索结果不够理想的问题。

为实现以上目的，本发明采用如下技术方案：一种基于低秩学习的跨模态检索方法，包括：

获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；

将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；

利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

进一步的，所述初始跨模态数据检索模型，包括：

第一特征提取子网络、第二特征提取子网络以及参数共享子网络，所述第一特征提取子网络与所述第二特征提取子网络并行连接后与所述参数共享子网络串行连接。

进一步的，所述第一特征提取子网络与所述第二特征提取子网络结构相同，所述第一特征提取子网络与所述第二特征提取子网络均包括：第一卷积层、最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和第七卷积层；

所述第二卷积层的输入与第四卷积层的输出残差连接，第五卷积层的输入与第七卷积层的输出残差连接，其中，所述第一卷积层的卷积核大小为7×7，数量为64，步长为2；最大池化层池化窗口大小为3×3，步长为2；所述第二卷积层、第四卷积层、第五卷积层和第七卷积层的卷积核大小为1×1，数量分别为64、256、128和512，步长为1；所述第三卷积层和第六卷积层的卷积核大小为3×3，数量分别为128和256，步长为2。

进一步的，所述参数共享子网络，包括：第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层和注意力模块；其中，第八卷积层、第十卷积层、第十一卷积层和第十三卷积层的卷积核大小为1×1，数量分别为256、1024、512和2048，步长为1；第2和3卷积层的卷积核大小为3×3，数量分别为256和512，步长为2；所述注意力模块包括依次设置的特征采样层、归一化层第十四卷积层和第十五卷积层，其中，第十四卷积层的卷积核大小为3×3，数量为1，步长为1；第十五卷积层的卷积核大小为1×1，数量为1，步长为1。

进一步的，所述利用所述训练集对预构建的初始跨模态数据检索模型进行训练，包括：

通过所述初始跨模态数据检索模型提取所述多种模态数据的特异特征，并通过所述特异特征，得到所述多种模态数据的共享空间特征，对所述共享空间特征进行跨模态三元组损失约束和低秩损失约束，并对所述初始跨模态数据检索模型中的分类器进行交叉熵损失约束；

根据所述跨模态三元组损失约束、低秩损失约束和交叉熵损失约束确定损失函数；

通过所述损失函数对所述初始跨模态数据检索模型进行迭代更新网络权重值，至损失函数收敛。

进一步的，所述交叉熵损失用于使得双模态样本特征具有可辨别性，所述交叉熵损失公式为：

其中，n代表样本数量，x_i代表第一模态样本特征，z_i代表第二模态样本特征，p(y_i∣x_i)代表对于第一模态样本特征预测值，p(y_i∣z_i)代表对于第二模态样本特征预测值；

所述跨模态三元组损失用于使得相同类别的多种模态样本特征靠近，不同类别样本特征远离，所述跨模态三元组损失公式为：

其中，对于第一模态标签为y_i的锚点样本特征x_i，其和第二模态同类样本特征z_j的距离，小于其和第二模态异类样本特征z_k的距离，x和z代表不同模态的样本特征，i和j表示同类，i和k表示异类，ρ_i表示预定义的边界值，D(·)表示欧几里得距离，其中，特征x和z都是标准化后的；

所述低秩损失用于使得相同类别不同模态的样本特征秩最小，通过恢复同类别特征低秩结构的方式，使得相同类别的特征在子空间聚合，所述低秩损失公式为：

其中，C代表类别数量，

代表按行级联操作，

表示类别为i的第一模态特征和第二模态特征的级联。

进一步的，根据所述跨模态三元组损失约束、低秩损失约束和交叉熵损失约束采用如下方式确定损失函数，

L＝L_c+L_{c_trip}+L_rank

其中，L为损失函数。

进一步的，所述利用所述目标跨模态数据检索模型对测试集进行跨模态检索，包括：

利用第一模态数据检索第二模态数据和利用第二模态数据检索第一模态数据。

进一步的，所述利用第一模态数据检索第二模态数据，包括：将第一模态的测试集数据，输入目标跨模态数据检索模型，提取查询数据特征，将第一模态的训练集数据，输入目标跨模态数据检索模型，提取检索库特征，通过计算所述查询数据特征和所述检索库特征的欧几里得距离，按照距离从小到大排序，得到排序后的检索数据；

所述利用第二模态数据检索第一模态数据，包括：将第二模态的测试集数据，输入目标跨模态数据检索模型，提取查询数据特征，将第二模态的训练集数据，输入目标跨模态数据检索模型，提取检索库特征，通过计算所述查询数据特征和所述检索库特征的欧几里得距离，按照距离从小到大排序，得到排序后的检索数据。

本申请实施例提供一种基于低秩学习的跨模态检索装置，包括：

获取模块，用于获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；

训练模块，用于将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；

检索模块，用于利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种基于低秩学习的跨模态检索方法及装置，本申请通过对初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型，然后通过构建目标跨模态数据检索模型对多模态数据进行检测，该模型能够使得各个模态的同类数据在子空间靠近，其能够检测不同模态数据的差异，使得相似性度量更加精确，检索结果个更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于低秩学习的跨模态检索方法的步骤示意图；

图2为本发明基于低秩学习的跨模态检索方法的流程示意图；

图3为本发明基于低秩学习的跨模态检索方法的流程示意图；

图4为本发明基于低秩学习的跨模态检索装置的结构示意图；

图5为本发明基于低秩学习的跨模态检索方法实施环境的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的基于低秩学习的跨模态检索方法及装置。

如图1所示，本申请实施例中提供的基于低秩学习的跨模态检索方法包括：

S101，获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；

本申请首先获取历史数据，通过历史数据构建数据样本集，然后将数据样本集划分为训练集和测试集，其中数据样本集包括多种模态数据以及多种所述模态数据对应的标签。具体的，数据样本集表示为：X＝{(a_i,b_i,y_i)|i＝1,2,...,N}，其中a_i为第一模态数据，b_i为第二模态数据，y_i是它们的标签。对于训练集，数据以三元组形式输入网络，即对于第一模态数据，有{a_i,b_p,b_n}，b_p代表和a_i同类的第二模态数据，b_n代表和a_i异类的第二模态数据。同理，对于第二模态数据有{b_i,a_p,a_n}，a_p代表和b_i同类的第二模态数据，a_n代表和b_i异类的第一模态数据。对于测试集，随机输入即可，不需要三元组形式。需要说明的是，在网络模型输入之前对所有的数据进行归一化处理。

S102，将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；

具体的，如图2所示，在提取每种模态数据的样本特征后进行多模态低秩子空间学习，以恢复多种模态的低秩结构，使得各个模态的同类数据在子空间靠近，从而得到多种模态数据的共享空间特征。

一些实施例中，如图3所示，所述初始跨模态数据检索模型，包括：

第一特征提取子网络1、第二特征提取子网络2以及参数共享子网络3，所述第一特征提取子网络1与所述第二特征提取子网络2并行连接后与所述参数共享子网络3串行连接。

作为一种优选的实施方式，所述第一特征提取子网络1与所述第二特征提取子网络2结构相同，所述第一特征提取子网络1与所述第二特征提取子网络2均包括：第一卷积层、最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和第七卷积层；

具体结构为：第一卷积层→最大池化层→第二卷积层→第三卷积层→第四卷积层→第五卷积层→第六卷积层→第七卷积层，第二卷积层的输入与第四卷积层的输出残差连接，第五卷积层的输入与第七卷积层的出残差连接，其中，第一卷积层的卷积核大小为7×7，数量为64，步长为2；最大池化层池化窗口大小为3×3，步长为2；第二卷积层、第四卷积层、第五卷积层和第七卷积层的卷积核大小为1×1，数量分别为64、256、128和512，步长为1；第3和6卷积层的卷积核大小为3×3，数量分别为128和256，步长为2；

参数共享子网络3包含6个卷积层，具体结构为：第八卷积层→第九卷积层→第十卷积层→第十一卷积层→第十二卷积层→第十三卷积层，其中，第八卷积层、第十卷积层、第十一卷积层和第十三卷积层的卷积核大小为1×1，数量分别为256、1024、512和2048，步长为1；第2和3卷积层的卷积核大小为3×3，数量分别为256和512，步长为2；

参数共享子网络3中注意力模块包括特征采样层、归一化层第十四卷积层和第十五卷积层，其中，第十四卷积层的卷积核大小为3×3，数量为1，步长为1；第十五卷积层的卷积核大小为1×1，数量为1，步长为1。

一些实施例中，所述利用所述训练集对预构建的初始跨模态数据检索模型进行训练，包括：

其中，交叉熵损失使得双模态样本特征有足够的可辨别性，和三元组损失共同优化可以加快收敛速度，使优化过程更加稳定，交叉熵公式为：

n代表样本数量，x_i代表第一模态样本特征，z_i代表第二模态样本特征，p(y_i∣x_i)代表对于第一模态样本特征预测值，p(y_i∣z_i)代表对于第二模态样本特征预测值。

跨模态三元组损失能够保证，相同类别的不同模态样本特征靠近，不同类别样本特征远离，公式为：

对于第一模态标签为y_i的锚点样本特征x_i，它和第二模态同类样本特征z_j的距离，应该小于它和第二模态异类样本特征z_k的距离。x和z代表不同模态的样本特征，i和j表示同类，i和k表示同类。ρ_i表示预定义的边界值，D(·)表示欧几里得距离，为了训练稳定所有的特征x和z都是标准化后的。

低秩损失使得相同类别不同模态的样本特征秩最小，通过恢复同类别特征低秩结构的方式，使得相同类别的特征在子空间更加聚合，从而使相似度度量结果更为精确，具体公式为：

其中，C代表类别数量，

代表按行级联操作，

表示类别为i的第一模态特征和第二模态特征的级联。

综上，根据所述跨模态三元组损失约束、低秩损失约束和交叉熵损失约束采用如下方式确定损失函数，

L＝L_c+L_{c_trip}+L_rank

本申请使用Adam优化算法，通过L损失函数，迭代地更新网络权重值，直到损失函数收敛。

S103，利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

一些实施例中，所述利用所述目标跨模态数据检索模型对测试集进行跨模态检索，包括：

具体的，所述利用第一模态数据检索第二模态数据，包括：将第一模态的测试集数据，输入目标跨模态数据检索模型，提取查询数据特征，将第一模态的训练集数据，输入目标跨模态数据检索模型，提取检索库特征，通过计算所述查询数据特征和所述检索库特征的欧几里得距离，按照距离从小到大排序，得到排序后的检索数据；

如图4所示，本申请提供一种基于低秩学习的跨模态检索装置，包括：

获取模块201，用于获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；

训练模块202，用于将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；

检索模块203，用于利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

本申请提供的基于低秩学习的跨模态检索装置的工作原理为，获取模块201获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；训练模块202将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；检索模块203利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

本申请提供一种计算机设备，包括：存储器和处理器，还可以包括网络接口，所述存储器存储有计算机程序，存储器可以包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。该计算机设备存储有操作系统，存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时，使得所述处理器执行基于低秩学习的跨模态检索方法，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于低秩学习的跨模态检索方法可以实现为一种计算机程序的形式，计算机程序可在如图5所示的计算机设备上运行。

一些实施例中，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

本申请还提供一种计算机存储介质，计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光光盘(DVD)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

一些实施例中，本发明还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，获取数据样本集，将所述数据样本集划分为训练集和测试集；其中，所述数据样本集包括多种模态数据以及多种所述模态数据对应的标签；将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；利用所述目标跨模态数据检索模型对测试集进行跨模态检索。

综上所述，本发明提供一种基于低秩学习的跨模态检索方法及装置，包括获取数据样本集，将数据样本集划分为训练集和测试集；将所述训练集输入预构建的初始跨模态数据检索模型进行训练，得到目标跨模态数据检索模型；所述初始跨模态数据检索模型用于提取每种模态数据的样本特征，根据每种模态数据的样本特征获取多种模态数据的共享空间特征；利用目标跨模态数据检索模型对测试集进行跨模态检索。本发明通过构建目标跨模态数据检索模型对多模态数据进行检测，该模型能够使得各个模态的同类数据在子空间靠近，其能够检测不同模态数据的差异，使得相似性度量更加精确，检索结果个更加准确。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于低秩学习的跨模态检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述初始跨模态数据检索模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一特征提取子网络与所述第二特征提取子网络结构相同，所述第一特征提取子网络与所述第二特征提取子网络均包括：第一卷积层、最大池化层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和第七卷积层；

4.根据权利要求2所述的方法，其特征在于，所述参数共享子网络，包括：第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十三卷积层和注意力模块；其中，第八卷积层、第十卷积层、第十一卷积层和第十三卷积层的卷积核大小为1×1，数量分别为256、1024、512和2048，步长为1；第2和3卷积层的卷积核大小为3×3，数量分别为256和512，步长为2；所述注意力模块包括依次设置的特征采样层、归一化层第十四卷积层和第十五卷积层，其中，第十四卷积层的卷积核大小为3×3，数量为1，步长为1；第十五卷积层的卷积核大小为1×1，数量为1，步长为1。

5.根据权利要求1所述的方法，其特征在于，所述利用所述训练集对预构建的初始跨模态数据检索模型进行训练，包括：

6.根据权利要求5所述的方法，其特征在于，所述交叉熵损失用于使得双模态样本特征具有可辨别性，所述交叉熵损失公式为：

其中，C代表类别数量，

代表按行级联操作，

表示类别为i的第一模态特征和第二模态特征的级联。

7.根据权利要求6所述的方法，其特征在于，根据所述跨模态三元组损失约束、低秩损失约束和交叉熵损失约束采用如下方式确定损失函数，

L＝L_c+L_{c_trip}+L_rank

其中，L为损失函数。

8.根据权利要求6所述的方法，其特征在于，所述利用所述目标跨模态数据检索模型对测试集进行跨模态检索，包括：

9.根据权利要求8所述的方法，其特征在于，

所述利用第一模态数据检索第二模态数据，包括：将第一模态的测试集数据，输入目标跨模态数据检索模型，提取查询数据特征，将第一模态的训练集数据，输入目标跨模态数据检索模型，提取检索库特征，通过计算所述查询数据特征和所述检索库特征的欧几里得距离，按照距离从小到大排序，得到排序后的检索数据；

10.一种基于低秩学习的跨模态检索装置，其特征在于，包括：