CN115687571B

CN115687571B - 一种基于模态融合重建哈希的深度无监督跨模态检索方法

Info

Publication number: CN115687571B
Application number: CN202211340310.9A
Authority: CN
Inventors: 李明勇; 李业文
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-01-26
Anticipated expiration: 2042-10-28
Also published as: CN115687571A

Abstract

本发明公开了一种基于模态融合重建哈希的深度无监督跨模态检索方法，涉及跨模态检索技术领域，包括建立无监督跨模态检索模型，所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块。本发明能够提高无监督条件下的跨模态哈希的检索性能。

Description

一种基于模态融合重建哈希的深度无监督跨模态检索方法

技术领域

本发明涉及跨模态检索技术领域，尤其涉及一种基于模态融合重建哈希的深度无监督跨模态检索方法。

背景技术

随着多模态数据的激增，人们不再满足于单一的数据检索模态来获取信息，深度哈希检索算法因其高效存储和快速查询的优势而备受关注。

目前，现有的无监督哈希方法普遍存在两个局限性：

现有的方法不能充分捕捉不同模态数据中实例的潜在语义相关性和共现信息，导致缺乏有效的哈希编码表示和学习指导来弥补多模态数据的异质性和语义差距；他们通常构建相似性矩阵来指导哈希编码学习过程，但缺乏一种有效的模态间互补相似性融合方法来构建相似性矩阵，这种方法可以最大限度地提高不同模态实例的相关性，为此，我们提出一种基于模态融合重建哈希的深度无监督跨模态检索方法解决上述问题。

发明内容

本发明提供一种基于模态融合重建哈希的深度无监督跨模态检索方法，解决了现有的大多数无监督的跨模态哈希方法未能充分捕捉不同模态实例的共现信息和高阶语义信息，导致次优的检索性能的技术问题。

为解决上述技术问题，本发明提供的一种基于模态融合重建哈希的深度无监督跨模态检索方法，包括建立无监督跨模态检索模型，所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块，其特征在于，以下步骤：

S1、从多媒体数据库中采集不同模态的数据文本和不同模态的数据图像，得到文本模态数据集和图像模态数据集；

S2、通过深度特征编码模块从得到文本模态数据集和图像模态数据集信息中提取丰富的语义信息，并获取文本特征表示和图像特征表示，因此，我们可以为每一种模态获得大量的语义特征，我们可以充分探索原始数据之间的语义关系，并进一步指导哈希代码的学习；

S3、采用图像模态编码器和文本模态编码器对文本特征表示和图像特征表示进行编码得到潜在向量；

S4、将得到的潜在向量进行函数计算来生成图像哈希码和文本哈希码；

S5、通过跨模态相似性融合模块将图像哈希码进行批量处理，构建图像模态的相似性矩阵，并对文本哈希码进行批量处理，构建文本模态的相似性矩阵；

S6、通过跨模态相似性融合模块将图像模态的相似性矩阵和文本模态的相似性矩阵进行计算融合来获得跨模态互补余弦相似性矩阵，它可以保留图像和文本模态之间的共现信息；

S7、通过哈希编码重构模块将跨模态互补余弦相似性矩阵建立语义保存的亲和矩阵并挖掘小批训练数据的潜在语义相关性，为图像和文本模态构建哈希码相似性矩阵，可以指导学习哈希码产生高质量的哈希码。

与相关技术相比较，本发明提供的一种基于模态融合重建哈希的深度无监督跨模态检索方法具有如下有益效果：

本发明中，首先，我们使用视觉语言预训练模型CLIP对特征进行编码，并使用特定模态的自编码器学习哈希码的共同汉明表示空间，其次，我们提出了一种有效的融合方法来构建一个语义互补的亲和矩阵，可以最大限度地提高不同模态实例的潜在语义相关性，此外，为了保留所学哈希码中所有相似对的内在语义相似性，我们设计了一个基于语义互补的相似性重构目标函数，以学习高质量的哈希码表示，提高无监督条件下的跨模态哈希的检索性能。

附图说明

图1为一种基于模态融合重建哈希的深度无监督跨模态检索方法的模块结构示意图；

图2为一种基于模态融合重建哈希的深度无监督跨模态检索方法的步骤结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

由图1-2给出，一种基于模态融合重建哈希的深度无监督跨模态检索方法，包括建立无监督跨模态检索模型，所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块，其特征在于，以下步骤：

步骤S2)中，深度特征编码可以从原始数据中提取丰富的语义信息，这在整个训练过程中起到了关键作用，受Transformer的视觉语言预训练模型的成功启发，CLIP代表的视觉语言预训练(VLP)模型被证明在学习文本和视觉表征方面更加有效，在本文中，我们利用CLIP的视觉编码器与视觉变换器(VIT)架构来提取原始图像特征表示，可以表示为F_I∈R^m ^×512，同时，我们采用词包来生成原始文本特征表示，可以表示为其中d_T基于处理后数据的维度；

我们把CLIP图像编码器表示为CLIP_v，把文本特征编码器表示为BOW_t，数学表达式可以表示为如下：

F_I＝CLIP_v(V；θ_I),F_T＝BOW_t(T；θ_T) (3)

其中V和T依次表示原始图像和文本实例，θ_I和θ_T表示图像和文本模态特征提取器的参数，因此，我们可以为每一种模态获得大量的语义特征，我们可以充分探索原始数据之间的语义关系，并进一步指导哈希代码的学习。

步骤S3和S4)中自动编码器可以生成富有表现力和紧凑的哈希码，在这个模块中，我们设计了一个特定模态的自动编码器来生成一个模态的哈希码，同时用生成的哈希码来重构原始实例的特征表示，因此，使用特定模态的自动编码器生成的哈希码可以完全保留原始数据的深层语义信息，首先，我们采用编码器来获得每个模态实例的深层次语义表示，原始特征被编码为潜在向量，

其中，带有参数θ_EI的编码器Encoder_I(·；·)代表图像模态的编码器，带有参数θ_ET的编码器Encoder_T(·；·)代表文本模态的编码器，m和c分别表示批量大小和哈希码的长度，

其次，由于方程(1)中定义的函数sign(·)的梯度在向后传播过程中为零，这将破坏性地阻止梯度返回到前几层，为了处理梯度消失的问题，我们采用缩放的tanh函数来生成哈希码，公式如下:

B_I＝tanh(αL_I)∈{-1,+1}^m×c,B_T＝tanh(αL_T)∈{-1,+1}^m×c, (5)

lim_α→∞tanh(αx)＝sign(x),

其中,α＞0是一个可扩展系数，α最初设置为1，并随着训练过程的次数增加而增加，因此，当α→∞，紧缩函数被转化为一系列平滑的优化问题，这将收敛于原始的符号函数的哈希编码问题，

此外，给定B_I和B_T，我们利用特定模态的解码器将二进制代码重构为每种模态的原始特征，这个过程可以定义如下:

其中Decoder_I(·；·)和Encoder_T(·；·)表示图像和文本模态的解码器，θ_DI和θ_DT分别表示解码器的参数，自编码器的重构特征表示为和F_I ^D，此外，d_I和d_T依次表示原始视觉和文本特征的维度，

最后，为了使原始特征和重构特征的重构误差最小，我们设计了自动编码器的重构损失，公式如下:

因此，通过最小化自动编码器的重构损失，可以充分保留原始数据的语义信息，从而产生更高质量的哈希代码。

步骤S5和S6)中对于无监督哈希方法，由于无法获得样本的标签，因此无法构建多标签的相似性矩阵，用于指导哈希码的学习，弥补模态差距，捕捉原始数据的邻域结构和共现信息是对无监督的跨模态哈希方法的优化改进，利用深度神经网络从原始数据中提取特征是一种有效的方法，它可以保留丰富的语义信息，具体来说，我们利用批量处理的图像特征构建视觉模态的相似性矩阵/>其中对于文本模态，我们直接利用经过BOW处理的特征向量，建立文本余弦相似度矩阵/>其中/>cos(·,·)函数的定义在公式(1)中，

之后，我们设计了一个跨模态相似性融合模块，以获取跨模态特征的相似信息，具体来说，我们获取视觉模态相似性矩阵S_I和文本模态相似性矩阵S_T，构建一个跨模态互补余弦相似性矩阵S_C，它可以保留图像和文本模态之间的共现信息，融合过程的方程式描述如下：

其中，S_C表示跨模态余弦相似性矩阵，它可以捕捉到不同模态的实例之间的共现信息和相似程度，τ是一个权衡相似性互补性的超参数，(·)^T表示矩阵的转置，最后，我们构建一个语义保存的亲和矩阵S_A，该矩阵包含了不同模态的信息，公式表示如下：

S_A＝βS_I+γS_T+ηS_C∈[-1,+1]^m×m,

s.t.β,γ,η≥0,β+γ+η＝1 (9)

其中β，γ，η是平衡的超参数，用于调节图像和文本模态之间共现信息的重要程度，与之前的方法相比，方程(9)以一种更有效的方式融合了不同模态的共现信息，因此，我们可以利用亲和矩阵作为自监督信号来指导不同模态的哈希代码的学习，这有助于提高图像和文本检索的性能，此外，值得注意的是，所提出的融合方法与扩散过程是一致的，在训练过程中，亲和矩阵被反复更新，结合相似性传播，从而使实例之间的相似性关系最大化。

步骤S7)中亲和矩阵S_A，以挖掘小批训练数据的潜在语义相关性，在这一部分，我们首先利用公式(5)产生的哈希码，为图像和文本模态构建哈希码相似性矩阵和/>该公式如下：

其中，B_I和B_T分别表示图像和文本模态的小批量哈希编码，随后，我们构建一个跨模态的哈希码相似性矩阵，可以表示为：

其中，表示跨模态哈希码相似性矩阵，m表示批量大小，哈希码相似性矩阵构建和跨模态相似性矩阵融合的可视化效果，最后，我们设计了一个包括模内和模间损失的哈希码重构损失函数，该损失函数定义如下：

其中，L_I和L_C分别表示模内损失和跨模损失，μ是一个尺度超参数，可以调节亲和矩阵的量化范围，符号表示矩阵的逐点乘法，

所提出的模型有能力通过最小化损失函数来学习高质量的哈希代码，其表述如下：

s.t.B_I,B_T∈[-1,+1]^m×c(13)

其中L_AR,L_I和L_C分别是自动编码器重构损失、模内重构损失和跨模重构损失。λ,δ,是权衡超参数，

CFRH可以以逐批的方式进行迭代优化。通过最小化方程(13)中的损失，CFRH学习以一种有效的方式捕捉原始实例的邻域结构和共现信息，此外，亲和矩阵可以指导学习哈希码产生高质量的哈希码，CFRH的整个模型可以通过使用梯度下降优化算法进行优化。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于模态融合重建哈希的深度无监督跨模态检索方法，其特征在于，包括建立无监督跨模态检索模型，所述建立无监督跨模态检索模型包括深度特征编码模块、特定模态的自动编码器重构模块、跨模态相似性融合模块以及哈希编码重构模块，具体包括以下步骤：

S2、通过深度特征编码模块从得到的文本模态数据集和图像模态数据集中提取丰富的语义信息，并获取文本特征表示和图像特征表示；

S6、通过跨模态相似性融合模块将图像模态的相似性矩阵和文本模态的相似性矩阵进行计算融合来获得跨模态互补余弦相似性矩阵；

S7、通过哈希编码重构模块基于跨模态互补余弦相似性矩阵建立语义保存的亲和矩阵并挖掘小批训练数据的潜在语义相关性，为图像和文本模态构建哈希码相似性矩阵；

所述S6中，通过获取视觉模态相似性矩阵S_I和文本模态相似性矩阵S_T，构建一个跨模态互补余弦相似性矩阵S_C，它可以保留图像和文本模态之间的共现信息，融合过程的方程式描述如下：

其中，S_C表示跨模态互补余弦相似性矩阵，它可以捕捉到不同模态的实例之间的共现信息和相似程度，τ是一个权衡相似性互补性的超参数，(·)^T表示矩阵的转置，最后，我们构建一个语义保存的亲和矩阵S_A，该矩阵包含了不同模态的信息，公式表示如下：

S_A＝βS_I+γS_T+ηS_C∈[-1,+1]^m×m,

s.t.β,γ,η≥0,β+γ+η＝1 (9)

其中β，γ，η是平衡的超参数，用于调节图像和文本模态之间共现信息的重要程度。