CN116595343A

CN116595343A - 基于流形排序学习的在线无监督跨模态检索方法及系统

Info

Publication number: CN116595343A
Application number: CN202310867996.5A
Authority: CN
Inventors: 罗昕; 张崇宇; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-15
Anticipated expiration: 2043-07-17
Also published as: CN116595343B

Abstract

本发明提出了基于流形排序学习的在线无监督跨模态检索方法及系统，涉及电数字数据处理技术领域，获取跨模态数据集，将数据集分为t轮数据块来模拟流数据；利用被分为t轮的数据集来模拟流数据，进行当前轮次的在线学习，输出当前轮次的哈希函数和数据块的哈希码；基于当前轮次的哈希函数，计算待检索样本的哈希码，根据待检索样本的哈希码与检索集的哈希码间的汉明距离，得到检索结果；所述检索集的哈希码，由当前轮次数据块的哈希码和之前轮次数据块的哈希码组成；本发明将流形信息、排序信息和基于哈希学习的跨模态检索原创性结合，减小模态差异对检索性能造成的影响，提高在线跨模态检索任务能力。

Description

基于流形排序学习的在线无监督跨模态检索方法及系统

技术领域

本发明属于电数字数据处理技术领域，尤其涉及基于流形排序学习的在线无监督跨模态检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着社交网络和电子商务平台的迅速发展，多种模态的数据，例如图像、文本、音频和视频，呈现爆炸式增长；如何利用丰富的数据服务人类社会，引起了人们的思考，其中，使用一种模态的数据快速、准确检索另一种模态中相似数据是信息时代必不可少的一项需求；由于数据量的增大以及不同模态的异质性，常用于检索任务的最近邻（NearestNeighbor，NN）搜索方法因其耗时，逐渐被近似最近邻（Approximate Nearest Neighbor，ANN）搜索替代，用于大规模多媒体检索任务；其中，基于哈希学习的方法作为最成功的方法之一，存储开销低，计算效率高，受到了研究者广泛的关注；基于哈希学习的跨模态检索方法旨在将不同模态的数据映射到一个公共的汉明空间中，为相似（不相似）数据生成汉明距离较小（较大）的哈希码，汉明距离越小表明数据的相似度越高；基于哈希学习的跨模态检索方法，根据是否使用监督信息，主要分为监督跨模态检索、无监督跨模态检索和半监督跨模态检索方法。

尽管基于哈希学习的跨模态检索方法在近几年引起了广泛的关注，但仍存在一些问题：

1）大部分现有基于哈希学习的跨模态检索方法严重依赖人工标注，然而在大多数应用场景下这类监督信息是稀少的，而现有的无监督跨模态检索方法仅仅简单考虑数据本身的特性，无法充分考虑流型结构及数据本身的排序信息。

2）互联网中多种模态的数据由用户不断增量生成，以数据流的形式不断到达服务器中；大部分现有基于哈希学习的跨模态检索方法是基于批处理的，在新的一批流数据到来时需要积累全部数据重新训练哈希函数，产生较高的存储和训练成本，不适用于实际应用；因此，研究在线场景下的基于哈希学习的大规模数据快速、高效跨模态检索方法具有重要意义。

3）大部分现有的方法在寻找或构建定义良好的联合语义空间上存在困难，由于不同模态数据存在异质性，无法直接通过相似性计算检索相似数据；因此，研究在汉明空间中对齐多种模态数据构建统一空间具有重要意义。

所以，现有的基于哈希学习的跨模态检索方法，多基于批处理的模型训练模式，不涉及流型结构及数据本身的排序信息，无法应对模态差异对检索性能的影响，导致整体的在线跨模态检索任务能力不足。

发明内容

为克服上述现有技术的不足，本发明提供了基于流形排序学习的在线无监督跨模态检索方法及系统，将流形信息、排序信息和基于哈希学习的跨模态检索原创性结合，减小模态差异对检索性能造成的影响，提高在线跨模态检索任务能力。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于流形排序学习的在线无监督跨模态检索方法。

基于流形排序学习的在线无监督跨模态检索方法，包括：

获取跨模态数据集，将数据集分为t轮数据块来模拟流数据；其中，每轮数据块包含不同模态的样本特征；

利用被分为t轮的数据集来模拟流数据，进行当前轮次的在线学习，输出当前轮次的哈希函数和数据块的哈希码；

基于当前轮次的哈希函数，计算待检索样本的哈希码，根据待检索样本的哈希码与检索集的哈希码间的汉明距离，得到检索结果；所述检索集的哈希码，由当前轮次数据块的哈希码和之前轮次数据块的哈希码组成；

其中，所述当前轮次的在线学习，是基于当前轮次数据块的实时新数据，嵌入流形信息和排序信息，生成最优的综合排序得分矩阵，将最优的综合排序得分矩阵作为权重进行哈希学习。

进一步的，所述不同模态的样本特征，是将多种模态数据输入到经过预训练的CLIP模型中，通过不同模态的编码器，将多种模态数据映射到特征空间，提取不同模态的特征向量。

进一步的，所述生成最优的综合排序得分矩阵，具体步骤为：

为每一个模态建立一个相似性权重矩阵，表示数据的相似性关系；

基于相似性关系，捕获锚点和流数据的排序关系，得到流数据和锚点的排序得分矩阵；

根据锚点和流数据的排序关系和流形信息对剩余的数据进行排序，最终为所有模态学习到一个最优的综合排序得分矩阵。

进一步的，所述流形信息为，通过将相似性权重矩阵与程度矩阵开平方的倒数以及排序得分矩阵相乘，计算出的流形嵌入矩阵；其中，所述程度矩阵的每行为相似性权重矩阵该行所有元素的和。

进一步的，所述哈希学习，是基于当前轮次数据块的实时新数据，求解总体目标函数，得到最优的当前轮次的哈希函数和数据块的哈希码；

所述总体目标函数的构建过程为：

对特征向量进行矩阵分解获得多种模态数据在潜在语义空间的表示，同时，为多种模态数据学习一个公共的哈希函数用于连接特征空间和潜在语义空间，建立潜在语义空间与哈希码空间之间的投影关系，输出当前轮次数据块的哈希码和当前轮次的哈希函数，最小化这个过程的损失，得到总体目标函数；

其中，所述总体目标函数包括五个待优化的变量：特征向量的基础向量、当前轮次数据块在潜在空间的表示、当前轮次的哈希函数、将潜在语义空间投影到哈希码空间的正交旋转矩阵、当前轮次数据块的哈希码。

进一步的，所述将最优的综合排序得分矩阵作为权重进行哈希学习，具体为：

将最优的综合排序得分矩阵作为图的相似性权重矩阵，构造损失函数，用于最小化特征向量映射到同一个低维潜在语义空间过程中的损失，作为总体目标函数的一部分。

进一步的，当前轮次的在线学习结束后，进行以下两个步骤：

（1）更新检索集的哈希码和待检索样本的哈希函数；

（2）基于检索集的哈希码和待检索样本的哈希函数，计算汉明距离，返回检索结果。

进一步的，所述更新检索集的哈希码和待检索样本的哈希函数，具体为：

将当前轮次数据块的哈希码与之前轮次数据块的哈希码一并储存，作为检索集的哈希码；存储当前轮次的哈希函数，作为待检索样本的哈希函数，丢弃上一轮次的哈希函数，若下一轮次数据块到达时，进行下一轮次的在线学习。

进一步的，所述检索结果的计算方式为：

根据更新后的哈希函数，计算待检索样本的哈希码；

计算待检索样本的哈希码与检索集的哈希码间的汉明距离，将汉明距离小的样本，作为与待检索样本相似的检索结果进行输出。

本发明第二方面提供了基于流形排序学习的在线无监督跨模态检索系统。

基于流形排序学习的在线无监督跨模态检索系统，包括数据获取模块、哈希学习模块和哈希检索模块：

数据获取模块，被配置为：获取跨模态数据集，将数据集分为t轮数据块来模拟流数据；其中，每轮数据块包含不同模态的样本特征；

哈希学习模块，被配置为：利用被分为t轮的数据集来模拟流数据，进行当前轮次的在线学习，输出当前轮次的哈希函数和数据块的哈希码；

哈希检索模块，被配置为：基于当前轮次的哈希函数，计算待检索样本的哈希码，根据待检索样本的哈希码与检索集的哈希码间的汉明距离，得到检索结果；所述检索集的哈希码，由当前轮次数据块的哈希码和之前轮次数据块的哈希码组成；

以上一个或多个技术方案存在以下有益效果：

本发明将预训练模型引入到在线无监督跨模态检索，将来自不同模态的数据映射到一个公共的哈希码空间中，进行模态对齐，依赖特征向量的语义关系捕捉跨模态信息，有效地减小了模态差异对检索性能造成的影响。

本发明将流形信息、排序信息和基于哈希学习的跨模态检索原创性结合，充分考量数据本身的排序信息，将最优的综合排序得分矩阵作为权重进行哈希学习，有利于学到具有判别性的数据表示，提高在线跨模态检索任务的能力。

本发明设计了一个新颖的在线哈希学习框架，设计一种有效和高效的交替优化算法，提高哈希学习在复杂场景下的实用性，将在线学习扩展到大规模数据跨模态检索中，最终服务于对数据处理有需求的行业，为挖掘复杂场景下多样化数据提供算法和技术支持。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例的具体流程图。

图3为第二个实施例的系统结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了基于流形排序学习的在线无监督跨模态检索方法，如图1所示，包括如下步骤：

步骤S1：获取跨模态数据集，将数据集分为t轮数据块来模拟流数据；其中，每轮数据块包含不同模态的样本特征。

互联网中流式媒体数据以数据流的形式不断到达，因此获取跨模态数据集后，将多种模态数据输入经过预训练的CLIP模型，通过不同模态的编码器，将多种模态数据映射到特征空间，提取不同模态的特征向量，将数据集分为t轮数据块，用于模拟流式数据的到来。

具体的，跨模态检索能在多种模态数据中进行，本实施例使用图像和文本两种模态进行举例，可以扩展到三个或三个以上模态，特征提取的具体为：

将数据集中成对的图像数据和文本数据分别输入经过预训练的CLIP模型的图像编码器和文本编码器中，生成两种模态数据的特征向量，得到训练集，其中，表示第种模态的训练集，表示经过预训练的CLIP模型提取特征的维数，表示训练集数据的数量。

CLIP模型的图像编码器和文本编码器提取的特征维数相同，随后将训练集用于数据相似性权重的计算。

将数据集分为轮数据块，表示为，其中，表示第个数据块，包括个流数据，即个样本。

步骤S2：利用被分为轮的数据集来模拟流数据，进行当前轮次的在线学习，输出当前轮次的哈希函数和数据块的哈希码。

当前轮次的在线学习，基于当前轮次的数据块，包括两个大的步骤：

一、生成最优的综合排序得分矩阵

基于数据块的样本特征，嵌入流形信息和排序信息，计算数据相似性，生成每个数据块最优的综合排序得分矩阵，具体步骤为：

（1）为每一个模态建立一个相似性权重矩阵，表示数据的相似性关系。

具体的，为每一个模态根据欧氏距离建立一个相似性权重矩阵，其中，表示第个数据块的样本数，相似性权重矩阵用来表示数据块中样本之间的相似性关系。

（2）基于相似性关系，捕获锚点和流数据的排序关系，得到流数据和锚点的排序得分矩阵。

具体的，从每一个模态的个流数据中随机抽取个数据作为锚点，用于捕获锚点和流数据的排序关系，即可以获得个流数据在这个锚点上进行查询的得分，表示为流数据和锚点的排序得分矩阵。

（3）根据锚点和流数据的排序关系和流形信息对剩余的数据进行排序，最终为所有模态学习到一个最优的综合排序得分矩阵，从而解决多种模态数据之间的模态差异问题。

学习的具体损失函数如下所示：

（1）

其中，表示最小化上述损失函数获得最优的流数据和锚点的排序得分矩阵，表示模态的相似性权重矩阵，表示第t个数据块的样本数，表示数据块中模态的第个流数据和第个流数据之间的相似性权重，表示相似性权重矩阵的程度矩阵,程度矩阵的每行，为相似性权重矩阵该行所有元素的和，即，，是程度矩阵每行开平方后的倒数，是流数据和锚点的排序得分矩阵，表示锚点个数，、分别表示第个流数据和第个流数据和锚点的排序得分矩阵，是流数据和第个锚点的排序得分矩阵，是标记向量,若第个锚点和流数据为同一数据，则该位置为1，反之为0,表示超参数。

公式（1）的损失函数中，第一项的结构，即相似性矩阵与程度矩阵开平方的倒数以及排序得分矩阵的乘积，计算出流形嵌入矩阵，作为流形信息，用于确保具有相似的流形结构的数据其排序得分也相近，第二项保证流数据和锚点的排序得分矩阵与标记向量保持一致性。

基于上面的步骤（1）-步骤（3），在实际求解过程中，直接构造相似性权重矩阵的时间复杂度为，无法扩展到大规模数据跨模态检索任务中，因此采用图哈希中一种使用锚点的方式近似构造相似性权重矩阵，即，为流数据和锚点的相似性矩阵，通过如下公式可得：

（2）

其中，表示指数函数，，表示锚点集合，i表示流数据，j表示锚点，表示流数据和锚点的欧氏距离。

假设，表示相似性矩阵，表示对角矩阵，表示转置，表示全1向量，则程度矩阵的计算方式可以重新写作：

（3）

其中，表示第t个数据块的样本数，表示数据块中模态的第个流数据和第个流数据之间的相似性权重，表示流数据和锚点的相似性矩阵，表示矩阵的转置。

为了最小化上述损失函数获得最优排序得分矩阵，采用了一种迭代优化算法，如下式所示：

（4）

其中，为迭代的次数，是中间变量，是标记向量，为模态数，表示相似性权重矩阵，表示程度矩阵中间变量。

由于直接使用计算完成的的时间复杂度为，所以可以将拆项结合其他矩阵进行计算，则可以写作：

（5）

其中,为中间变量，为流数据和锚点的相似性矩阵，为排序得分矩阵，为迭代的次数，表示程度矩阵。

最后，将排序得分矩阵扩展成最优的综合排序得分矩阵，其中。

二、将最优的综合排序得分矩阵作为权重进行哈希学习

根据数据块的样本特征和最优的综合排序得分矩阵，构建目标函数，通过当前轮次数据块的实时新数据，进行当前轮次的在线学习，得到当前轮次数据块的哈希码，在线更新待检索样本的哈希函数。

下面从目标函数的构建和当前轮次的在线学习两个方面进行详细说明。

目标函数的构建

对特征向量进行矩阵分解获得多种模态数据在潜在语义空间的表示，同时，为多种模态数据学习一个公共的哈希函数用于连接特征空间和潜在语义空间，建立潜在语义空间与哈希码空间之间的投影关系，输出当前轮次数据块的哈希码和当前轮次的哈希函数，最小化这个过程的损失，得到目标函数。

具体的，总体目标函数有三部分组成，具体为：

（1）首先，通过在线矩阵分解，将经过预训练的CLIP模型提取的多种模态流数据的特征向量映射到同一个低维潜在语义空间中。同时，为多种模态流数据学习一个公共的哈希函数用于连接特征空间和潜在语义空间。对于一个待检索样本，使用一个哈希函数将其投影到潜在语义空间中，便于后期的汉明距离计算；由于经过预训练的CLIP模型已经将多种模态映射到一个公共的特征空间中，所以可以只使用一个公共的哈希函数，无需对每一个模态数据设计一个哈希函数；为了最小化上述过程中的损失，将损失函数构造如下：

（6）

其中，是模态流数据特征向量的基础向量，是当前轮次的哈希函数，是当前轮次数据块在潜在语义空间的表示，是Frobenius范数，是模态所占的权重，是当前轮次数据块的特征向量，是之前所有轮次数据的特征向量，且，是模态流数据特征向量的基础向量，是当前轮次数据块在潜在语义空间的表示，同理，是之前所有轮次流数据在潜在空间的表示，和是超参数。

（2）步骤（1）中的可以看作当前轮次数据块的哈希码的实值表示，为了减少和之间的信息损失，引入了一个正交旋转矩阵R，将实值转化成二值，为了最小化实值转化成二值过程中的损失，将该转化的损失函数构造如下：

（7）

其中，表示当前轮次数据块的哈希码，R表示引入的正交旋转矩阵，表示当前轮次数据块在潜在语义空间的表示，表示之前所有轮次数据的哈希码，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

（3）利用步骤S2中获得的最优的综合排序得分矩阵作为图的相似性权重矩阵，可以构造下面的损失函数，用于最小化特征向量映射到同一个低维潜在语义空间过程中的损失：

（8）

其中，表示最优的综合排序得分矩阵，表示第个流数据和第个锚点的综合排序得分，表示当前轮次数据块在潜在语义空间的表示，分别表示流数据在潜在语义空间的表示，表示超参数，表示矩阵的迹，表示拉普拉斯算子，并且，是单位矩阵。

综合上面三部分的损失函数，得到总体目标函数，具体为：

（9）

其中，是模态流数据特征向量的基础向量，是当前轮次的哈希函数，表示当前轮次数据块的哈希码，R表示引入的正交旋转矩阵，表示当前轮次数据块在潜在语义空间的表示，为模态数，是当前轮次数据块的特征向量，是之前所有轮次数据的特征向量，表示最优的综合排序得分矩阵，表示第个流数据和第个锚点的综合排序得分，分别表示流数据在潜在语义空间的表示，表示之前所有轮次数据的哈希码，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

当前轮次的在线学习

利用被分为t轮的数据集来模拟流数据对目标函数进行训练，通过当前轮次数据块的实时新数据，进行当前轮次的在线学习，得到当前轮次数据块的哈希码，在线更新待检索样本的哈希函数。

具体的，从总体目标函数中可以看出，需要优化的变量有五个：模态流数据特征向量的基础向量、当前轮次数据块在潜在语义空间的表示、当前轮次的哈希函数、将潜在语义空间投影到哈希码空间的正交旋转矩阵R、当前轮次数据块的哈希码。

通过当前轮次数据块的实时新数据，求解当前轮次下满足目标函数最小化的五个待优化的变量，得到当前轮次数据块的哈希码和当前轮次的哈希函数。

为了解决上述的变量优化问题，提出了一种五步迭代优化算法，即每一步固定其他变量，只更新一个变量，具体为：

（1）固定变量，更新。

当其他变量固定后，损失函数可以改写为：

（10）

其中，为模态数，是模态所占的权重，是当前轮次数据块的特征向量，是模态流数据特征向量的基础向量，表示当前轮次数据块在潜在语义空间的表示，是之前所有轮次数据的特征向量，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

通过对求导取零，可以得到的解：

（11）

其中，是模态流数据特征向量的基础向量，是中间变量，是模态所占的权重，是当前轮次数据块的特征向量，表示当前轮次数据块在潜在语义空间的表示，是之前所有轮次数据的特征向量，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

从上式中可以发现，在当前轮次只需计算中间变量的第二项来更新，第一项可以直接从上一轮中获得，同时保存中间变量供下一轮使用，使优化变得高效。

（2）固定变量，更新。

当其他变量固定后，损失函数可以改写为：

（12）

其中，表示当前轮次数据块在潜在语义空间的表示，为模态数，是模态所占的权重，是当前轮次数据块的特征向量，是模态流数据特征向量的基础向量，表示当前轮次的哈希函数，表示最优的综合排序得分矩阵，表示第个流数据和第个锚点的综合排序得分，分别表示流数据在潜在语义空间的表示，表示当前轮次数据块的哈希码，R表示引入的正交旋转矩阵，表示超参数。

通过对求导取零，忽略无关项，可以得到下式：

（13）

其中，为模态数，是模态所占的权重，是当前轮次数据块的特征向量，是模态流数据特征向量的基础向量，表示当前轮次的哈希函数，表示当前轮次数据块在潜在语义空间的表示，表示拉普拉斯算子，R表示引入的正交旋转矩阵，表示当前轮次数据块的哈希码，表示超参数。

继续合并化简可得：

（14）

其中，为模态数，是模态所占的权重，是模态流数据特征向量的基础向量，表示当前轮次数据块在潜在语义空间的表示，是当前轮次数据块的特征向量，表示当前轮次的哈希函数，R表示引入的正交旋转矩阵，表示当前轮次数据块的哈希码，表示拉普拉斯算子，表示超参数；为了简化该损失函数，定义，，，则上式可以重新写作：

（15）

这是一个著名的西尔维斯特方程，使用Matlab工具包中巴特斯-斯图尔特算法得到的解。

（3）固定变量，更新。

当其他变量固定后，损失函数可以改写为：

（16）

其中，为模态数，表示当前轮次的哈希函数，表示当前轮次数据块在潜在语义空间的表示，是当前轮次数据块的特征向量，是之前所有轮次数据的特征向量，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

通过对求导取零，可以得到的解：

（17）

其中，是中间变量，为模态数，表示当前轮次数据块在潜在语义空间的表示，是当前轮次数据块的特征向量，是之前所有轮次数据的特征向量，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

（4）固定变量，更新。

当其他变量固定后，损失函数可以改写为：

（18）

其中，R表示引入的正交旋转矩阵，表示当前轮次数据块的哈希码，表示当前轮次数据块在潜在语义空间的表示，表示之前所有轮次数据的哈希码，表示之前所有轮次流数据在潜在空间的表示，表示超参数。

这是一个经典的正交普鲁克问题，忽略无关项，最小化可以表示为下式：

（19）

其中，表示使后面这个函数取最小值时的取值，表示使后面这个函数取最大值时的取值，表示矩阵的迹，R表示引入的正交旋转矩阵，是中间变量，表示当前轮次数据块的哈希码，表示当前轮次数据块在潜在语义空间的表示，表示之前所有轮次数据的哈希码，表示之前所有轮次流数据在潜在空间的表示。

对中间变量进行奇异值分解（）可得，，则问题等价于：

（20）

其中,表示矩阵的迹，R表示引入的正交旋转矩阵，、表示中间变量，是对角矩阵。

由于是对角矩阵，分别为正交矩阵且整体亦为正交矩阵，则令对角线项为1，即，由于正交矩阵的逆矩阵等于其转置，则，则，则可获得的解。

（5）固定变量，更新。

当其他变量固定后，损失函数可以改写为：

（21）

通过对求导取零，可以得到的解：

（22）

其中，R表示引入的正交旋转矩阵，表示当前轮次数据块在潜在语义空间的表示，表示之前所有轮次流数据在潜在空间的表示，表示超参数，是符号函数，当输入大于等于零时，函数输出为1，否则输出-1。

步骤S3：基于当前轮次的哈希函数，计算待检索样本的哈希码，根据待检索样本的哈希码与检索集的哈希码间的汉明距离，得到检索结果；所述检索集的哈希码，由当前轮次数据块的哈希码和之前轮次数据块的哈希码组成。

具体的，当前轮次的在线学习结束后，进行以下两个步骤：

（1）更新检索集的哈希码和待检索样本的哈希函数。

根据更新后的哈希函数，计算待检索样本的哈希码；计算待检索样本的哈希码与检索集的哈希码间的汉明距离，将汉明距离小的样本，作为与待检索样本相似的检索结果进行输出。

更为具体的实施例子，参见附图2所示，上述方法包括：

第一步：获取多种模态数据的特征向量：

互联网中流式媒体数据以数据流的形式不断到达，因此获取数据集后，将多种模态数据成对输入经过预训练的CLIP模型，获得多种模态数据的特征向量，组成训练集，将训练集分块，用于模拟流式数据的到来。

第二步：当前轮次哈希码和哈希函数的学习：

（1）将流形信息和排序信息嵌入到哈希学习过程中，为每一个模态根据欧氏距离建立一个相似性权重矩阵，用来表示数据的相似性关系。

（2）从个流数据中随机抽取个数据作为锚点，用于捕获锚点和流数据的排序关系，即可以获得个流数据在这个锚点上进行查询的得分。

（3）根据锚点和流数据的排序关系对剩余的数据进行排序，最终为所有模态学习到一个最优的综合排序得分矩阵，从而解决多种模态数据之间的模态差异问题。

（4）对特征向量进行矩阵分解获得多种模态数据在低维潜在公共空间的表示，同时，为多种模态数据学习一个公共的哈希函数用于连接原空间和公共空间，输出当前轮次数据块的哈希码和当前轮次的哈希函数。

第三步：生成查询数据的哈希码：

当前轮次损失函数优化结束后，待检索样本利用步骤（4）中学习到的最新的哈希函数，采用一个简单的线性回归模型，计算待检索样本的哈希码。

第四步：存储哈希码和哈希函数：

当前轮次数据块的学习结束后，将当前轮次数据块的哈希码与之前轮次流数据的哈希码一并储存，存储第轮次的哈希函数，丢弃上一轮次的哈希函数。

第五步：计算多种模态数据间的汉明距离：

生成当前轮次待检索样本的哈希码后，计算此哈希码与上一步骤存储的哈希码的汉明距离，返回汉明距离小的数据，由此实现快速且高效的在线跨模态检索；若此时下一轮流数据到达，重复步骤第二步-第五步，进行下一轮次的在线学习。

实施例二

在一个或多个实施例中，公开了基于流形排序学习的在线无监督跨模态检索系统，如图3所示，包括数据获取模块、哈希学习模块和哈希检索模块：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于流形排序学习的在线无监督跨模态检索方法，其特征在于，包括：

2.如权利要求1所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述不同模态的样本特征，是将多种模态数据输入到经过预训练的CLIP模型中，通过不同模态的编码器，将多种模态数据映射到特征空间，提取不同模态的特征向量。

3.如权利要求1所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述生成最优的综合排序得分矩阵，具体步骤为：

4.如权利要求3所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述流形信息为，通过将相似性权重矩阵与程度矩阵开平方的倒数以及排序得分矩阵相乘，计算出的流形嵌入矩阵；

其中，所述程度矩阵的每行为相似性权重矩阵该行所有元素的和。

5.如权利要求1所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述哈希学习，是基于当前轮次数据块的实时新数据，求解总体目标函数，得到最优的当前轮次的哈希函数和数据块的哈希码；

所述总体目标函数的构建过程为：

6.如权利要求1所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述将最优的综合排序得分矩阵作为权重进行哈希学习，具体为：

7.如权利要求1所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，当前轮次的在线学习结束后，进行以下两个步骤：

（1）更新检索集的哈希码和待检索样本的哈希函数；

8.如权利要求7所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述更新检索集的哈希码和待检索样本的哈希函数，具体为：

9.如权利要求7所述的基于流形排序学习的在线无监督跨模态检索方法，其特征在于，所述检索结果的计算方式为：

根据更新后的哈希函数，计算待检索样本的哈希码；

10.基于流形排序学习的在线无监督跨模态检索系统，其特征在于，包括数据获取模块、哈希学习模块和哈希检索模块：