CN116383422A

CN116383422A - 一种基于锚点的无监督跨模态哈希检索方法

Info

Publication number: CN116383422A
Application number: CN202310369473.8A
Authority: CN
Inventors: 胡鹏; 陆铮; 孙元; 彭玺; 彭德中
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-04
Anticipated expiration: 2043-04-07
Also published as: CN116383422B

Abstract

本发明公开了一种基于锚点的无监督跨模态哈希检索方法，属于跨模态检索技术领域，该方法包括获取图文对训练集；初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数；根据图文对训练集中得到锚点集和批次图文对；根据锚点集和批次图文对，利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化，得到最优图像模态神经网络和最优文本模态神经网络；根据最优图像模态神经网络和最优文本模态神经网络，完成跨模态检索任务。本发明解决了跨模态哈希检索方法时间复杂度和空间复杂度偏高且二值编码不可微的问题。

Description

一种基于锚点的无监督跨模态哈希检索方法

技术领域

本发明属于跨模态检索技术领域，尤其涉及一种基于锚点的无监督跨模态哈希检索方法。

背景技术

随着互联网和多媒体技术的飞速发展，网络上迅速产生了大量的多媒体数据。跨模态检索可以从这些海量的多媒体数据中检索到人们感兴趣的知识，具有广泛的应用前景，但同时也是一个巨大挑战。不同模态的数据类型和结构上存在巨大的差异，也称为“异构鸿沟”，导致无法直接度量不同模态间的相似性，现有的跨模态检索方法大多是连续值方法，其在大规模跨模态检索中面临着计算和存储成本高的问题。

近年来，跨模态哈希学习被成功用于压缩特征尺寸和降低检索复杂度。一方面，为降低特征的存储空间，跨模态哈希学习将不同的模态映射到一个公共汉明空间中，在该空间中不同模态的数据可由二进制的编码进行表示。另一方面，为提高检索效率，样本间的相似度可以直接由汉明距离计算得到，而汉明距离可以用位运算，即异或运算，代替浮点运算进行计算。按照是否需要语义监督信息，现有的跨模态哈希学习主要可以分为有监督的跨模态哈希学习方法和无监督的跨模态哈希学习方法。有监督的跨模态哈希学习方法在良好标注的语义信息的指导下将不同的模态映射到一个公共的汉明空间中，由于具有语义信息的指导，这些方法往往可取得良好的检索效果。然而，对大规模的数据进行标注是费时且昂贵的，并且同时标注多个模态将成倍地增加标注成本。因此，无监督的跨模态哈希学习方法近年来受到国内外研究者的密切关注，此类方法可从大量易于获取的未标记数据中学习到跨模态判别信息，其灵活的低成本学习方式具有很高的应用价值。

无监督跨模态哈希学习主要利用图文对中成对的相关信息弥合跨模态差异，进而将不同的模态映射到一个公共的汉明空间。尽管无监督的方法取得了显著进展，然而大多方法主要利用图文对的相关性，往往忽略了多模态数据中潜在的流形结构信息。为了挖掘多模态数据中潜藏的结构信息，近年来一些基于图的跨模态哈希检索算法被提出并取得了较好的性能。但是，这些基于图的跨模态哈希检索方法需要在整个训练集上构建图矩阵，具有很高的时间复杂度和空间复杂度，其中为训练集的图文对个数、为任意点的最近邻个数。因此，现有的基于图的跨模态哈希检索算法难以高效应对大规模多模态数据。此外，由于直接优化二值编码是一个NP难题(NP-hard problem)，为解决该问题，现有方法主要采用：①连续值松弛，将二值编码由连续值代替进行优化，该松弛会导致训练的目标与优化方式不一致，使得检索性能下降；②逼近二值编码，虽然该类方法的优化方式与哈希目标一致，但是在优化过程中依然存在松弛问题，即在训练过程中算法的输出依然为连续值参与优化，也同样会使检索性能退化。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于锚点的无监督跨模态哈希检索方法解决了跨模态哈希检索方法学习时间复杂度和空间复杂度偏高且二值编码不可微的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于锚点的无监督跨模态哈希检索方法，包括以下步骤：

S1、获取图文对训练集；

S2、初始化图像模态神经网络的网络参数和文本模态神经网络的网络参数；

S3、从图文对训练集中选择第一图文对集，并根据第一图文对集，得到锚点集；

S4、从图文对训练集中选择第二图文对集，并根据第二图文对集，得到批次图文对；

S5、根据锚点集和批次图文对，利用直通估计器以最小化跨模态网络损失函数为目标函数分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代优化，得到最优图像模态神经网络和最优文本模态神经网络；

S6、根据最优图像模态神经网络和最优文本模态神经网络，完成跨模态哈希检索。

本发明的有益效果为：本发明提出一种可微分哈希层，解决了跨模态哈希检索过程中学习的离散值不足的问题，该可微分哈希层能使得神经网络前向传播时采用离散方式进行计算，且可使用反向传播进行神经网络权值更新，可取得更好的检索性能；另外，本发明利用少量的锚点构造子图，从而指导跨模态哈希检索的学习过程，相较传统的基于图的方法，本发明可极大地降低时间与空间开销；本发明还提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序，从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致。

进一步地，所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络；所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层；所述可微分哈希层与最后一层全连接层连接；除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数；所述可微分哈希层包括依次连接的Tanh激活函数和符号函数；所述Tanh激活函数与最后一层全连接层连接。

上述进一步方案的有益效果为：可微分哈希层能使得神经网络前向传播时采用离散方式进行计算，且可使用反向传播进行神经网络权值更新，解决了跨模态哈希检索过程中学习的离散值不足的问题。

进一步地，所述步骤S5具体为：

S501、根据锚点集和批次图文对，采用K近邻算法计算得到图像相似度图和文本相似度图；

S502、对图像相似度图和文本相似度图进行归一化，得到公共图矩阵：

Gⁱ＝(Dⁱ)^-1Wⁱ

G^t＝(D^t)^-1W^t

其中，P为公共图矩阵；Gⁱ为归一化后的图像相似度图；G^t为归一化后的文本相似度图；i为图像模态标识；t为文本模态标识；Dⁱ为图像模态对角矩阵；D^t为文本模态对角矩阵；(·)^-1为逆阵运算；Wⁱ为图像模态下所有图像相似度子图；W^t为文本模态下所有文本相似度子图；

S503、计算批次图文对中跨图像和文本的相关概率：

其中，

为跨图像和文本的相关概率，表示图像查询文本情况下第jl个图文对的相关概率；jl为图文对编号；it为图像查询文本标识；exp(·)为以自然常数e为底的指数函数；cos(·)为余弦函数；/>

为图像模态下第j个图像输入图像模态神经网络得到的二值表征；i为图像模态标识；j为图像编号；/>

为文本模态下第l个文本样本输入文本模态神经网络得到的二值表征；t为文本模态标识；l为文本编号；n为批次图文对大小，表示该批次图文对的数量；p为同批次样本编号；/>

为文本模态下第p个样本输入文本模态神经网络得到的二值表征；

S504、根据跨图像和文本的相关概率，利用KL散度得到基于锚点图的跨模态损失：

其中，

为基于锚点图的跨模态损失；/>

为文本查询图像情况下第jl个图文对的相关概率；P_jl为公共图矩阵P中第jl个图文对所对应的元素；ti为文本查询图像标识；log为对数运算；

S505、定义图三元排序损失集和文三元排序损失集，并根据图三元排序损失集和文三元排序损失集得到跨模态三元排序损失；

S506、根据基于锚点图的跨模态损失和跨模态三元排序损失，得到跨模态网络损失函数：

其中，

为跨模态网络损失函数；/>

为跨模态三元排序损失；θ为平衡因子；

S507、以最小化跨模态网络损失函数为目标函数，采用随机梯度下降法，利用直通估计器分别对图像模态神经网络的网络参数和文本模态神经网络的网络参数进行迭代更新，得到图像优化参数和文本优化参数：

其中，Θ_i'为图像优化参数；Θ_i为图像模态神经网络的网络参数；α为学习率；β为平衡参数；

为图像模态梯度下降；Θ_t'为文本优化参数；Θ_t为文本模态神经网络的网络参数；/>

为文本模态梯度下降；

S508、根据图像优化参数和文本优化参数，得到最优图像模态神经网络和最优文本模态神经网络。

上述进一步方案的有益效果为：提出一种新的三元排序损失使得在整个跨模态哈希检索过程中考虑跨模态排序，从而使得跨模态哈希检索的学习结果与跨模态哈希检索任务保持一致；并且基于锚点图的跨模态损失，使得公共空间中的相似图与数据固有的相似图逼近。

进一步地，所述步骤S501具体为：

S5011、根据锚点集和批次图文对，采用余弦相似度计算图像相似度和文本相似度：

其中，

为图像相似度；/>

为图像模态下批次图文对中第u个图像所对应的锚点；i_v为图像模态下批次图文对中第v个图像；/>

为文本相似度；/>

为文本模态下批次图文对中第q个文本所对应的锚点；t_b为文本模态下批次图文对中第b个文本；N_k(·)为k个最近邻样本集；b和q均为文本编号；v和u均为图像编号；vu和bq均为图文对编号；

S5012、根据图像相似度和文本相似度，得到图像相似度矩阵和文本相似度矩阵：

其中，Sⁱ为图像相似度矩阵，

为图像相似度矩阵的第n个元素；S^t为文本相似度矩阵；/>

为文本相似度矩阵的第n个元素；

S5013、根据图像相似度矩阵和文本相似度矩阵，得到图像相似性子图和文本相似性子图：

其中，

为图像相似性子图；/>

为图像相似度矩阵第u列；/>

为图像相似度矩阵第v列；/>

为文本相似性子图；/>

为文本相似度矩阵第b列；/>

为文本相似度矩阵第q列；

S5014、根据图像相似性子图和文本相似性子图，得到图像相似度图和文本相似度图。

上述进一步方案的有益效果为：从图文对训练集中选取部分数据，只利用少量的锚点构造子图，从而指导跨模态哈希检索的哈希学习过程，相较传统的基于图的方法，可极大地降低时间与空间开销。

进一步地，所述步骤S505具体为：

S5051、定义图三元排序损失集：

其中，R^it为图三元排序损失集；

为文本模态下第j个图像所对应的文本样本的二值表征；γ为三元排序损失常量；g(·)为样本相似度计算函数；

S5052、定义文三元排序损失集：

其中，R^ti为文三元排序损失集；

为图像模态下第l个文本所对应的图像样本的二值表征；

S5053、根据跨图像和文本的相关概率、图三元排序损失集和文三元排序损失集，得到跨模态三元排序损失：

其中，

为跨模态三元排序损失；R^it为图三元排序损失集；R^ti为文三元排序损失集；/>

为R^it中第j个图像所对应的元素；/>

为R^ti中第j个图像所对应的元素。

上述进一步方案的有益效果为：图像模态二值表征和文本模态二值表征限制了相关样本相似度和非相关样本相似度之差，保证了在跨模态排序中相关样本始终在非相关样本之前。

进一步地，所述步骤S6中跨模态检索任务包括以图搜文和以文搜图；

所述以图搜文具体为：以图像作为查询输入，输入到图像模态神经网络得到图像二值表征，根据图像二值表征计算图像与文本检索库中的汉明距离，按汉明距离从小到大对文本进行排序，得到以图搜文检索结果；

所述以文搜图具体为：以文本作为查询输入，输入到文本模态神经网络得到文本二值表征，根据文本二值表征计算文本与图像检索库中的汉明距离，按汉明距离从小到大对图像进行排序，得到以文搜图检索结果。

上述进一步方案的有益效果为：通过计算相似和公共图可高效地从跨模态数据中学到一个公共汉明空间，从而在该空间中实现跨模态检索，提高了检索效率。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种基于锚点的无监督跨模态哈希检索方法，包括以下步骤：

S1、获取图文对训练集；

本实施例中，图像模态二值表征和文本模态二值表征用以限制相关样本相似度与非相关样本相似度之差，从而保证在跨模态排序中相关样本始终排在非相关样本之前。

所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络；所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层；所述可微分哈希层与最后一层全连接层连接；除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数；所述可微分哈希层包括依次连接的Tanh激活函数和符号函数；所述Tanh激活函数与最后一层全连接层连接。

本实施例中，采用的神经网络由多层全连接构成，除了最后一层网络，其余每层全连接层之后接一层ReLU。最后一层全连接层接提出的可微分哈希层。该可微分哈希层由Tanh和符号函数构成。具体地，以一个样本为例，将其输入神经网络得到最后一层全连接的输出，再将该输出输入Tanh将其限定到[-1,1]之间，然后再将Tanh输出向量进行归一化后输入符号函数得到二值化的编码。

本实施例中，由于符号函数的不可导使得网络不能直接采用梯度下降法进行优化。为解决该问题，本发明采用直通估计器(Straight-Through Estimator,STE)进行优化。具体地，在网络的前向传播时，直接将符号函数加到网络的输出层后，以二值化网络的输出x，然后利用二值化后的表征sign(x)计算损失以优化网络；其中，sign(x)函数的定义为：

在反向传播时，由于sign(x)不能够直接优化，因此令/>

以计算梯度，从而可利用梯度下降法更新网络。换言之，在反向传播时，视sign(x)≈x进行梯度计算。

所述步骤S5具体为：

Gⁱ＝(Dⁱ)^-1Wⁱ

G^t＝(D^t)^-1W^t

S503、计算批次图文对中跨图像和文本的相关概率：

其中，

其中，

为基于锚点图的跨模态损失；/>

其中，

为跨模态网络损失函数；/>

为跨模态三元排序损失；θ为平衡因子；

为文本模态梯度下降；

本实施例中，将图像相似度图和文本相似度图归一化为G^x＝(D^x)^-1W^x，D^x为对角矩阵，且其对角元素满足

所述步骤S501具体为：

其中，

为图像相似度；/>

为文本相似度；/>

其中，Sⁱ为图像相似度矩阵，

为图像相似度矩阵的第n个元素；S^t为文本相似度矩阵；/>

为文本相似度矩阵的第n个元素；

其中，

为图像相似性子图；/>

为图像相似度矩阵第u列；/>

为图像相似度矩阵第v列；/>

为文本相似性子图；/>

为文本相似度矩阵第b列；/>

为文本相似度矩阵第q列；

所述步骤S505具体为：

S5051、定义图三元排序损失集：

其中，R^it为图三元排序损失集；

S5052、定义文三元排序损失集：

其中，R^ti为文三元排序损失集；

为图像模态下第l个文本所对应的图像样本的二值表征；

其中，

为R^it中第j个图像所对应的元素；/>

为R^ti中第j个图像所对应的元素。

所述步骤S6中跨模态检索任务包括以图搜文和以文搜图；

Claims

1.一种基于锚点的无监督跨模态哈希检索方法，其特征在于，包括以下步骤：

S1、获取图文对训练集；

2.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法，其特征在于，所述步骤S2中的图像模态神经网络和文本模态神经网络均为模态神经网络；所述模态神经网络包括可微分哈希层和若干个依次连接的全连接层；所述可微分哈希层与最后一层全连接层连接；除最后一层全连接层外其余各所述全连接层均使用ReLU激活函数；所述可微分哈希层包括依次连接的Tanh激活函数和符号函数；所述Tanh激活函数与最后一层全连接层连接。

3.根据权利要求1所述基于锚点的无监督跨模态哈希检索方法，其特征在于，所述步骤S5具体为：