CN115577144A

CN115577144A - 一种基于在线多哈希码联合学习的跨模态检索方法

Info

Publication number: CN115577144A
Application number: CN202211193958.8A
Authority: CN
Inventors: 舒振球; 李莉; 余正涛; 毛存礼; 高盛祥; 永凯玲; 白益冰; 李彬
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-06

Abstract

本发明公开了一种基于在线多哈希码联合学习的跨模态检索方法。包括以下步骤：获取跨模态数据集，并将数据集中的训练集分为t轮数据块来模拟流数据；构建目标函数，利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练，当第t轮数据块到达时，保存前t‑1轮数据块训练得到的不同长度的哈希码不变，学习第t轮数据块不同长度的哈希码并保存，并根据第t轮数据块的实时新数据来在线更新哈希函数；进行待检索样本的跨模态检索；本发明在模型训练的过程中，只需要存储前一轮的优化结果，从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码，增加了哈希码学习的灵活性，降低了系统的内存消耗，提高了检索效率。

Description

一种基于在线多哈希码联合学习的跨模态检索方法

技术领域

本发明涉及一种在线场景下的跨模态检索方法，尤其涉及一种基于在线多哈希码联合学习的跨模态检索方法。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在大数据领域，多媒体数据呈爆炸式增长。因此，如何有效地检索所需的数据信息成为一个备受关注的问题。由于二进制哈希码是一个较短的位数，它可以直接执行XOR操作来计算数据之间的相似性。因此，跨模态哈希方法通过将不同的模态数据编码成紧凑的二进制哈希码，然后利用它们在汉明空间中的距离，来衡量模态之间的相似性。该方法大大降低了存储需求。然而，大多数跨模态哈希方法都基于批处理的，对于不断增长的流式多模态数据，基于批处理的哈希方法需要对所有数据点进行重新训练，以学习新数据点的哈希码。当新的流数据频繁到达时，它会带来不可接受的计算成本和内存成本。因此，基于批处理的哈希方法不适合处理流式数据。在线哈希方法在对新出现的流数据更新哈希函数和哈希码的同时，也保持旧流数据的二进制码的有效性。因此，在线哈希方法可以对流数据进行快速和有效地检索。现有的在线跨模态哈希方法仍存在一些局限性：(1)为了获得不同长度的哈希码，都需要重新训练模型。显然，这在很大程度上降低实际应用中哈希方法的灵活性。(2)对于不同长度的哈希码的学习，未充分利用较长长度哈希码所包含的语义信息。(3)未同时对多模态数据的一致性和特定于模态的属性进行考虑，可能影响检索精度。(4)通过构建大小为一个训练数据平方的相似矩阵来保存监督信息，对于大型数据，尤其是流数据来说，造成很大的时间和空间的消耗。

发明内容

鉴于以上存在的挑战，本发明提供了一种基于在线多哈希码联合学习的跨模态检索方法。本发明通过在统一框架中同时学习不同长度的哈希码，而不需要再训练，在增加哈希码灵活性的同时，能够获得更好的性能。

为了实现本发明的目的，本发明所述的一种基于在线多哈希码联合学习的跨模态检索方法的技术方案是：

Step1、获取跨模态数据集，将数据集中的训练集分为t轮数据块来模拟流数据；其中每轮数据块包含不同模态的样本特征及其对应的语义标签；

Step2、构建目标函数学习，利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练；当第t轮数据块到达时，保存前t-1轮数据块训练得到的不同长度的哈希码，学习第t轮数据块不同长度的哈希码并存入检索库，并根据第t轮数据块的实时新数据来在线更新哈希函数；

Step3、进行待检索样本的跨模态检索：首先得到检索集对应的哈希码，输入查询样本，根据上一步得到的哈希函数，得到查询样本的哈希码，将查询样本的哈希码代入检索集中进行查询，通过计算查询集与检索集中各样本间的汉明距离来返回与待查样本距离近的所需的另一个模态的检索样本。

本发明在模型训练的过程中，只需要存储前一轮的优化结果，从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码，增加了哈希码学习的灵活性，降低了系统的内存消耗，提高了检索效率。

进一步的，在线跨模态检索数据集的所述不同模态的样本特征至少包括：图像文本模态的样本特征和文本模态的样本特征。

进一步的，所述Step1中，对于数据进入模型训练前，都应该是使用随机分块的方法来处理以及划分训练集来模拟流数据，以保证模型的泛化能力。

进一步的，所述Step2中所获得的目标函数具体过程包括：将原始样本映射到高维特征空间，并通过一致与特定于模态的投影矩阵将多模态数据特征投影到离散的公共表示作为训练实例的统一哈希码。对特定于模态的投影矩阵施加基于l_2,1范数的稀疏约束，同时将标签矩阵作为监督信息嵌入到目标函数中。此外，将不同长度的哈希码与最长长度哈希码建立语义联系，以充分对学习到的哈希码进行进一步的探索。

进一步的，所述Step2中目标函数包括哈希码学习和哈希函数学习两个部分，哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习；哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数，将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中，通过将哈希码学习和哈希函数学习放到同一个模型中进行学习，以此来增强哈希码与哈希函数之间的语义联系，实现高精度的在线跨模态检索。

进一步的，所述Step2中的目标函数包括两个数据部分，第t轮新到达的数据和前t-1轮累积的旧数据块。

进一步的，所述Step2中目标函数并非是最优的，需要对该函数进行优化，由于该目标函数是一个非凸问题，但是当固定其他的变量，更新一个矩阵变量时，这时的函数是一个凸问题，方便进行目标函数的更新；采用此交替迭代算法来更新矩阵变量，直到目标函数收敛或达到最大迭代次数，最终得到最优的哈希码和哈希函数。

进一步地，所述Step2中，每轮数据块包括图像和文本两个模态，以及与之一一对应的标签；在第t轮训练时，带有类标签

的成对的数据块

被添加到训练集中；其中

和

分别表示维度为d₁的图像特征矩阵和维度为d₂的文本特征矩阵，n_t和c分别是新的图像-文本数据块大小和类别数量；在第t轮，样本分为前t-1次累积的旧的训练样本

和第t次的训练新样本X^(t)；

包含

个样本对，其对应的标签矩阵为

因此，在t轮的总训练数据集记为

包含

个数据点，它对应的总标签矩阵记为

进一步地，所述Step2中的具体步骤包括：

Step2.1、多哈希码联合学习

在统一训练模型中同时学习多个不同长度的哈希码，增加哈希长度的可伸缩性；此外，为了探索和学习哈希码，最长哈希码被用于其它不同长度的哈希码学习：

其中，

表示矩阵的Frobenius的平方，

和

分别表示第t轮数据块和前t-1轮数据块的第k个哈希码(1≤k≤K)，K为哈希码个数，

和

分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码，

为投影矩阵，r_k和r_K分别表示B^k和B^K的长度，α和γ为平衡参数；

2.2、标签嵌入

为了充分利用语义标签信息，将监督标签信息回归到哈希码，使学习到的哈希码保持语义标签的一致性；通过以下公式表示：

其中，

为投影矩阵，β为平衡参数；

2.3、哈希函数学习

通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码；为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性，将投影矩阵分解为一致的和特定于模态的矩阵；图像和文本模态的不一致被认为是一种特殊的噪声，因此对特定于模态的投影矩阵施加基于l_2,1范数的稀疏约束；本发明中的哈希函数是通过线性回归问题来学习的:

其中

和

分别为一致的和特定于模态的投影矩阵；μ、λ和γ表示控制相应贡献项的权衡参数；

是图像或文本的核特征矩阵，它旨在将原始样本映射到高维特征空间，适用于处理线性不可分问题；在这里，φ(.)表示RBF核函数，m表示锚点数；因此内核特征φ(x_i)被定义如下：

其中

表示m个锚点；

是高斯核参数。

2.4、目标函数

综合以上几步，其目标函数为：

2.5、进行目标函数的迭代更新：通过迭代更新上一步得到的目标函数，直到目标函数收敛或达到最大迭代次数，得到哈希函数以及训练集的哈希码。

进一步地，所述Step2中对目标函数的优化步骤如下:

2.5.1、更新C^k(t)：固定其它变量，对于C^k(t)，目标函数简化为:

设置

推导出C^k(t)的封闭解，如下：

其中

和

表示为：

其中

和

都是在第t-1轮得到的，从

和

的表示观察到：

和

前一部分与第t轮中新到达的数据有关，后一部分与前t-1轮积累的旧数据有关；因此

和

通过增量的方式计算，C^k(t)通过在线学习进行更新，同样地，

W^k(t)、和R^k(t)通过在线学习进行更新；

2.5.2、更新

固定其它变量,对于C^k(t)，目标函数简化为:

为了求解基于l_2,1范数的优化问题，引入了以下权重矩阵：

其中

是D⁽ⁱ⁾的第j行对角线元素，

是矩阵

的第j行，因此，上述的目标函数重写为：

设置

的更新表示为：

2.5.3、更新W^k(t)：与C^k(t)的更新步骤相似，得到W^k(t)的封闭解，如下：

2.5.4、更新R^k(t)(1≤k≤K-1)：与C^k(t)的更新步骤相似，得到R^k(t)的封闭解，如下：

2.5.5、更新B^k(t)，固定其它变量，对于B^k(t)，目标函数简化为:

从上述表达式观察到：当k＝K时,即只学习一个长度的哈希码时，约束项

无意义，因此B^k(t)的更新分情况讨论；当k＝K时，B^k(t)通过以下更新获得：

当1≤k<K时，即学习多个长度的哈希码时，B^k(t)的解很容易获得：

其中sgn(·)为符号函数；

通过以上步骤对目标函数进行优化，直到目标函数收敛或达到最大迭代次数，停止迭代。

本发明的有益效果是：

本发明提出了一种基于在线多哈希码联合学习的跨模态检索方法，简称OMCJL。它通过一种有效的多模态映射学习策略，通过将投影矩阵分解为一致的和特定于模态的投影矩阵，使得到的哈希码保持了多模态数据的一致和特定属性。同时，对特定于模态的投影矩阵施加稀疏约束。此外，提出了一种哈希码的在线学习策略，可以在一次在线模型训练中同时学习多个不同长度的哈希码，并且最长哈希码被用于其它不同长度的哈希码学习，这样可以进一步探索和学习哈希码。同时，为了提高检索性能，利用语义标签来指导哈希码的学习。本发明在模型训练的过程中，只需要存储前一轮的优化结果，从而实现了在不重新训练旧数据的前提下为实时新数据生成不同长度的哈希码，增加了哈希码学习的灵活性，降低了系统的内存消耗，提高了检索效率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解。

图1为本发明实施例方法的流程图。

具体实施方式

下面的说明都是实例性的，旨在结合附图进一步说明本发明的技术方案。

实施例1，图1是本发明一种基于在线多哈希码联合学习的跨模态检索方法的流程图。

在本实例中，参见图1，本发明方法具体包括如下过程：

1、获取跨模态数据集，并将数据集中的训练集分为t轮数据块来模拟流数据。在本实例中，每轮数据块包括图像和文本两个模态，以及与之一一对应的标签。

在本发明中，在第t轮训练时，带有类标签

的成对的数据块

被添加到训练集中。其中

和

分别表示维度为d₁的图像特征矩阵和维度为d₂的文本特征矩阵，n_t和c分别是新的图像-文本数据块大小和类别数量。在第t轮，样本可分为前t-1次累积的旧的训练样本

和第t次的训练新样本X^(t)。

包含

个样本对，其对应的标签矩阵为

因此，在t轮的总训练数据集记为

包含

个数据点，它对应的总标签矩阵记为

2、构建目标函数学习，利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练；当第t轮数据块到达时，保存前t-1轮数据块训练得到的不同长度的哈希码不变，学习第t轮数据块不同长度的哈希码并保存，并根据第t轮数据块的实时新数据来在线更新哈希函数；

目标函数包括哈希码学习和哈希函数学习两个部分，哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习；哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数，将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中，通过将哈希码学习和哈希函数学习放到同一个模型中进行学习，以此来增强哈希码与哈希函数之间的语义联系。此外，目标函数还包括第t轮新到达的数据和前t-1轮累积的旧数据块这两部分，接下来将详细描述各个模块的学习模型：

2.1、多哈希码联合学习

一般在学习二进制码之前，我们预先定义了一个固定的哈希长度(例如，16位或32位)。当哈希码长度发生变化时，这些模型需要重新训练。因此，在统一训练模型中同时学习多个不同长度的哈希码，这增加了哈希长度的可伸缩性。此外，较长的哈希码包含更丰富的语义，为了进一步探索和学习哈希码，本发明中最长哈希码被用于其它不同长度的哈希码学习：

其中，

表示矩阵的Frobenius的平方，

和

和

分别表示第t轮数据块和前t-1轮数据块的最长长度的哈希码，

为投影矩阵，r_k和r_K分别表示B^k和B^K的长度，α和γ为平衡参数。

2.2、标签嵌入

为了充分利用语义标签信息，我们进一步将监督标签信息回归到哈希码，使学习到的哈希码可以保持语义标签的一致性。可通过以下公式表示：

其中，

为投影矩阵，β为平衡参数。

2.3、哈希函数学习

为了避免较大的量化误差，本发明通过投影矩阵直接将原始多模态数据非线性特征投影到离散的公共表示作为训练实例的统一哈希码。为了使学习到的哈希码能够保留多模态数据的一致性和特定于模态的属性，将投影矩阵分解为一致的和特定于模态的矩阵。图像和文本模态的不一致可以被认为是一种特殊的噪声，因此本实例中对特定于模态的投影矩阵施加基于l_2,1范数的稀疏约束。本发明中的哈希函数是通过线性回归问题来学习的:

其中

和

分别为一致的和特定于模态的投影矩阵。μ、λ和γ表示控制相应贡献项的权衡参数。

是图像或文本的核特征矩阵，它旨在将原始样本映射到高维特征空间，适用于处理线性不可分问题。在这里，φ(.)表示RBF核函数，m表示锚点数。因此内核特征φ(x_i)被定义如下：

其中

表示m个锚点。

是高斯核参数。

2.4、目标函数

综合以上几步，其目标函数为：

Step3、进行目标函数的迭代更新：通过迭代更新上一步得到的目标函数，直到目标函数收敛或达到最大迭代次数，得到哈希函数以及训练集的哈希码。

目标函数并不是最优的，接下来需要对其进行迭代更新。显然，整体目标函数是一个非凸优化问题。因此，我们提出了一种有效的交替迭代算法来解决这一问题。

对目标函数的的优化步骤如下:

3.1、更新C^k(t)：固定其它变量,对于C^k(t)，目标函数可以简化为:

设置

可以推导出C^k(t)的封闭解。如下：

其中

和

可表示为：

其中

和

都是在第t-1轮得到的，从

和

的表示可以观察到：

和

前一部分与第t轮中新到达的数据有关，后一部分与前t-1轮积累的旧数据有关。因此

和

可以通过增量的方式计算，C^k(t)可以通过在线学习进行更新。同样地，

W^k(t)、和R^k(t)也可以通过在线学习进行更新。

3.2、更新

固定其它变量,对于C^k(t)，目标函数可以简化为:

为了求解基于l_2,1范数的优化问题，引入了以下权重矩阵：

其中

是D⁽ⁱ⁾的第j行对角线元素，

是矩阵

的第j行。因此，上述的目标函数可重写为：

设置

的更新可表示为：

3.3、更新W^k(t)：与C^k(t)的更新步骤相似，得到W^k(t)的封闭解。如下：

3.4、更新R^k(t)(1≤k≤K-1)：与C^k(t)的更新步骤相似，得到R^k(t)的封闭解。如下：

3.5、更新B^k(t):固定其它变量,对于B^k(t)，目标函数可以简化为:

从上述表达式我们可以观察到：当k＝K时,即只学习一个长度的哈希码时，约束项

无意义。因此B^k(t)的更新可以分情况讨论。当k＝K时，B^k(t)可以通过以下更新获得：

当1≤k<K时，即学习多个长度的哈希码时，B^k(t)的解可以很容易获得：

其中sgn(·)为符号函数。

4、查询，进行待检索样本的跨模态检索：首先得到检索集对应的哈希码，输入查询样本，根据上一步得到的哈希函数，得到查询样本的哈希码。将查询样本的哈希码代入检索集中进行查询。具体的实施步骤如下所示：

给定图像和文本的查询样本对应的特征矩阵为x_1query和x_2que，结合上一步得到的投影矩阵W₁和W₂。通过公式

和

得到查询样本对应的哈希码。在本实施例中，我们进行的是两个主要的检索任务：图像查询文本和文本查询图像。

由于本发明的查询任务是在一个二值空间进行的，因此通过计算查询样本与检索集中各样本之间的汉明距离，并按照从大到小进行排序，将排序后的前100个样本作为查询的结果。

为了说明本发明的效果，下面通过具体实施例对本发明的技术方案做进一步阐述：

1、仿真条件

本发明运用Matlab 2020a软件进行的实验仿真。在MIRFlickr数据集(包含图像和文本两个模态)上进行实验，所进行的实验包括两个查询任务：图像查询文本(Img2Text)和文本查询图像(Text2Img)。实验中将参数将μ、λ、α、β和γ分别设置为1e2、1e-6、1e-1、1e3和1e-6，将MIRFlickr数据集分成8轮数据块，前7轮数据块大小为2000个样本，第8轮数据块大小为1902个样本。

2、仿真内容

本发明的方法与现有的在线跨模态哈希检索方法进行了对比，对比方法包括在线跨模态哈希(OCMH)、在线协同矩阵分解哈希(OCMFH)、在线潜在语义哈希(OLSH)、灵活的在线多模态哈希(FOMH)和离散在线跨模态哈希(DOCH)。其中OCMH和OCMFH为在线无监督跨模态哈希方法，其余的对比方法为在线监督跨模态哈希方法。

3、仿真结果

在该仿真实验中，使用一个广泛使用的指标来衡量本发明所提出的OMCJL方法和其他对比方法的性能。即平均精度的平均值(mAP)。给定一个查询和一个检索结果列表，其mAP定义为：

其中Q为查询实例，N为检索集中相关实例的数量，R为检索到的数据点的总数。在本发明的仿真实验中，R设置为100。P_q(r)表示top-r的检索精度。如果第q个查询实例与第r个实例相关，则δ_q(r)＝1，否则δ_q(r)＝0。一般来说，mAP值越大，检索性能越好。从仿真实验中取的哈希码长度为16位、32位、64位和128位，在表1中展示了本发明所提出的OMCJL方法和其他对比方法的所对应的mAP值。

表1在MIRFlickr数据集上所有方法在图像查询文本(Img2Text)和文本查询图像(Text2Img)任务上的mAP值

从表1的结果中可以看出，本发明所提出的OMCJL方法在MIRFlickr数据集下的两个查询任务中的mAP值都高于其他的对比方法。进一步的证明了本发明提出的OMCJL方法在在线跨模态检索中的优越性。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于在线多哈希码联合学习的跨模态检索方法，其特征在于：所述方法的具体步骤如下：

Step2、构建目标函数学习，利用被分为t轮的训练数据集来模拟流数据对目标函数进行训练；当第t轮数据块到达时，保存前t-1轮数据块训练得到的不同长度的哈希码不变，学习第t轮数据块不同长度的哈希码并保存，并根据第t轮数据块的实时新数据来在线更新哈希函数；

Step3、进行待检索样本的跨模态检索：首先得到检索集对应的哈希码，输入查询样本，根据上一步得到的哈希函数，得到查询样本的哈希码，将查询样本的哈希码代入检索集中进行查询，通过计算查询集与检索集中各样本间的汉明距离来获取查询结果。

2.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法，其特征在于：所述Step1中，为了保证模型的泛化能力，对于数据进入模型训练前，都是使用随机分块的方法来处理以及划分训练集来模拟流数据。

3.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法，其特征在于，所述不同模态的样本特征至少包括：图像文本模态的样本特征和文本模态的样本特征。

4.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法，其特征在于：所述Step2中所获得的目标函数具体过程包括：将原始样本映射到高维特征空间，并通过一致与特定于模态的投影矩阵将多模态数据特征投影到离散的公共表示作为训练实例的统一哈希码，对特定于模态的投影矩阵施加基于l_2,1范数的稀疏约束，同时将标签矩阵作为监督信息嵌入到目标函数中；此外，将不同长度的哈希码与最长长度哈希码建立语义联系，以充分对学习到的哈希码进行进一步的探索。

5.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法，其特征在于：所述Step2中目标函数包括哈希码学习和哈希函数学习两个部分，哈希码学习指的是结合语义标签以及不同长度哈希码与最长长度哈希码之间的语义关系来学习；哈希函数的学习指的对每个模态采用一个简单的线性回归模型作为哈希函数，将训练样本的特征通过一致和特定于模态的投影矩阵投影到哈希码中，通过将哈希码学习和哈希函数学习放到同一个模型中进行学习，以此来增强哈希码与哈希函数之间的语义联系，实现高精度的在线跨模态检索。

6.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法，其特征在于：所述Step2中的目标函数包括两个数据部分，第t轮新到达的数据和前t-1轮累积的旧数据块。

7.根据权利要求1所述的基于在线多哈希码联合学习的跨模态检索方法，其特征在于：所述Step2中，每轮数据块包括图像和文本两个模态，以及与之一一对应的标签；在第t轮训练时，带有类标签