CN115599942A

CN115599942A - 一种基于gcn的深度无监督跨模态检索方法

Info

Publication number: CN115599942A
Application number: CN202211389979.7A
Authority: CN
Inventors: 李明勇; 戈明远
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-13
Anticipated expiration: 2042-11-08
Also published as: CN115599942B

Abstract

本发明公开了一种基于GCN的深度无监督跨模态检索方法，涉及跨模态检索技术领域，包括以下步骤：S1：利用GCN搭建文本编码器，将特征相近的文本实例联系起来，丰富文本特征，S2：使用Hadamard乘积对原始的模内相似度矩阵进行增强，提出增强注意力融合机制对不同模态的语义相似度矩阵进行融合，针对不同的实例的文本和图像相似度有不同注意力。本发明中，该机制能够随着数据集和样本的特征分布的改变而自适应地调整注意力；在三个公共数据集上的大量实验表明，所提出的DESAH方法可以学习更有效的哈希函数，以利于跨模态检索任务，并且基线方法相比，总体上显示了更高的检索精度。

Description

一种基于GCN的深度无监督跨模态检索方法

技术领域

本发明涉及跨模态检索技术领域，尤其涉及一种基于GCN的深度无监督跨模态检索方法。

背景技术

随着大数据的高速发展，文本、图像以及视频等不同模态的数据也呈现爆炸式增长，海量的数据不仅仅是单纯的数量大，它们所蕴含的信息也更加丰富。近年来，由于深度哈希方法在跨模态检索任务中展现了其存储成本低和检索效率高的特点而备受关注。跨模态哈希方法旨在发掘不同模态数据之间的相关性，以实现跨模态相似性搜索。它将不同模式的数据投射到一个共同的汉明空间中去进行快速检索。

无监督方法就是只分析原始特征以揭示它们的内在关系以指导哈希学习，避免使用成本高昂的人工标注标签。由于只能分析原始特征信息，所以所学习的哈希码和哈希函数的准确与否高度依赖于可以从原始数据集中挖掘出有效信息的多少。这样一来，特征提取过程在哈希码和哈希函数的学习过程中就比较重要了。

尽管现存的方法取得了巨大的成功，但现存的无监督跨模态哈希方法仍然存在普遍的问题。一是文本所提取的特征不够丰富，稀疏的文本特征导致所构建的文本模态相似度矩阵指导效果较差。二是多模态的相似度矩阵不能做到自适应融合，不同的特征分布的数据集其权衡参数各有差异。

为此，我们设计了一种基于GCN的深度无监督跨模态检索方法用来解决上述问题。

发明内容

本发明提供一种基于GCN的深度无监督跨模态检索方法。

为解决上述技术问题，本发明提供的一种基于GCN的深度无监督跨模态检索方法，包括以下步骤：S1：利用GCN搭建文本编码器，将特征相近的文本实例联系起来，丰富文本特征，通过这种方式，可以显著的缓解文本特征稀疏问题；

S2：使用Hadamard

乘积对原始的模内相似度矩阵进行增强，提出了增强注意力融合机制对不同模态的语义相似度矩阵进行融合，针对不同的实例的文本和图像相似度有不同注意力，且该机制会随着数据集分布的改变自适应地调整注意力；

S3：在三个公共基准的大量实验表明，DESAH可以比其他无监督跨模态哈希方法更有效地优化哈希函数，我们利用GCN搭建了一个文本编码器，用以挖掘更多的文本语义特征；一方面，我们对原有的相似度矩阵进行了增强操作；另一方面，我们设计了一个基于增强相似度的注意力融合机制，使得每个实例的模态内相似度相互补充融合，形成了统一的模态间相似度矩阵，用以更好地指导哈希码的学习；与此同时，该机制还能够随着数据集和样本的特征分布的改变而自适应地调整注意力；在三个公共数据集上的大量实验表明，所提出的DESAH方法可以学习更有效的哈希函数，以利于跨模态检索任务，并且基线方法相比，总体上显示了更高的检索精度。

优选的，所述S2中使用Hadamard乘积对原始相似度进行了重新加权优化，得到高阶非局部相似度矩阵，再通过加权不同模态的相似度矩阵得到统一的相似度矩阵。

优选的，利用图卷积网络搭建了一个文本编码器提取文本实例的特征，构建文本A与其他文本的语义联系图，采用增强语义相似度矩阵，增强相似度操作。

优选的，所述检索方法主要包含两个编码器：E_x和E_y，分别对图像和文本特征编码，E_x和E_y建立在不同的基础网络框架上。

优选的，所述S2中，通过邻接矩阵来将两个特征相近的文本实例联系起来，通过图卷积层后得到比一般全连接层更加丰富文本特征。

优选的，HNH使用Hadamard乘积对原始相似度进行了重新加权优化，从而得到高阶非局部相似度矩阵，然后通过加权不同模态的相似度矩阵得到统一的相似度矩阵。

优选的，为了进一步地丰富文本模态特征，我们试图利用图卷积网络搭建了一个文本编码器提取文本实例的特征，文本A与其他文本的语义联系图，在考虑各个文本之间语义联系后，文本A的特征显得更加丰富，与此同时，我们基于增强语义相似度矩阵的动机，提出了增强语义相似度矩阵用以替换原有的相似度矩阵指导哈希码的学习，增强相似度操作进一步的扩大相似样本之间的相似度，降低两不相似样本之间的相似度，依据此操作对原有的相似度矩阵进行更新，为了提高模型的泛化能力，我们设计了一种新颖的增强注意力融合机制，用于构建统一的跨模态相似度矩阵。

优选的，我们所提出的模型无监督跨模态哈希检索模型，主要包含两个编码器：E_x和E_y，分别对图像和文本特征编码。由于原始图像和文本具有特定的特征和分布，因此E_x和E_y建立在不同的基础网络框架上。具体而言，E_x是预训练(在ImageNet上)VGG19模型的变体，它由五个卷积层和三个全连接(fc)层组成。我们将原模型的最后一层替换成一个全连接(fc)层，作为哈希映射层，该层包含c个隐藏神经元，作用是将经过E_x图像编码器后的特征映射成为维度为c的哈希表征。E_y是一个三层的图卷积网络(GCN)。给定批量输入的图像-文本对，在每次开始迭代时，我们从预训练过的VGG19[49]的前七层提取4096维向量作为原始图像特征，并使用原始文本特征，例如，BoW特征，作为原始文本表示。然后分别使用这两个不同模态特征形成各自的相似度矩阵，再使用增强注意力融合模块将两种模态构建成一个统一的相似度矩阵，新设计的策略将在后面进行详细说明。我们将数据集中的原始图像和文本特征作为输入到我们的网络中，随后输出相对应的哈希表征。为了确保学习的表示可以有效地保留原始的相似关系，我们通过最小化损失函数来不断优化整个网络。

优选的，为了有效地从原始实例中提取判别特征生成紧凑的哈希码，使用两个编码器E_x和E_y。E_x将每个原始图像特征映射成4096维的高维图像特征F_x，并通过最后的哈希映射层成为c维的哈希表征H_x。E_y由三层图卷积层构成，其网络结构依次是F_y→4096→4096→c,同时每个图卷积层都伴随有两个输入，一是特征输入，二是由BoW特征构造的邻接矩阵。通过GCN的目的是使得模型能够更好地提取文本特征，得到更加丰富的文本特征信息，通过邻接矩阵来将两个特征相近的文本实例联系起来，通过图卷积层后便可以得到比一般全连接层更加丰富文本特征，因为图卷积不仅会获取当前单一文本的特征，而且还会联系与它相近(邻接矩阵显示二者可达)的文本特征。原始文本特征Y先经过BoW模型得到文本BoW特征F_y，F_y再经过文本编码器E_y后得到c维的哈希表征H_y。在模型训练阶段为了方便函数优化H_x,H_y经过tanh函数激活得到B_x,B_y，在验证阶段，经过符号函数的赋值后成为二进制表示B_x,B_y。

H_x＝E_x(X)

F_y＝BoW(Y) (1)

H_y＝E_y(F_y)。

与相关技术相比较，本发明提供的一种基于GCN的深度无监督跨模态检索方法具有如下有益效果：

本发明中，我们利用GCN搭建了一个文本编码器，用以挖掘更多的文本语义特征；一方面，我们对原有的相似度矩阵进行了增强操作；另一方面，我们设计了一个基于增强相似度的注意力融合机制，使得每个实例的模态内相似度相互补充融合，形成了统一的模态间相似度矩阵，用以更好地指导哈希码的学习；与此同时，该机制还能够随着数据集和样本的特征分布的改变而自适应地调整注意力；在三个公共数据集上的大量实验表明，所提出的DESAH方法可以学习更有效的哈希函数，以利于跨模态检索任务，并且基线方法相比，总体上显示了更高的检索精度。

附图说明

图1为一种基于主题模型的跨模态检索方法的流程示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，如果有涉及到的术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

实施例一

由图1给出，一种基于GCN的深度无监督跨模态检索方法，包括以下步骤：S1：利用GCN搭建文本编码器，将特征相近的文本实例联系起来，丰富文本特征，通过这种方式，可以显著的缓解文本特征稀疏问题；

S2：使用Hadamard乘积对原始的模内相似度矩阵进行增强，提出了增强注意力融合机制对不同模态的语义相似度矩阵进行融合，针对不同的实例的文本和图像相似度有不同注意力，且该机制会随着数据集分布的改变自适应地调整注意力；

S3：在三个公共基准的大量实验表明，DESAH可以比其他无监督跨模态哈希方法更有效地优化哈希函数。

首先，我们利用GCN搭建了一个文本编码器，同时提取某一样本的特征和与其语义邻近的样本特征，用以丰富文本特征；其次，我们提出了增强注意力融合机制，该机制将原本的相似度矩阵进行增强，并利用注意力机制自适应融合不同模态内相似度矩阵，进而形成统一的模态间相似度矩阵用以指导哈希函数的学习；最后，我们设计了模态内和模态间的相似度保持损失函数，用以更好的学习哈希码；在三个跨模态检索数据集上的大量实验表明，所提出的DESAH达到了最先进的基线。

实施例二

在实施例一的基础上，S2中使用Hadamard乘积对原始相似度进行了重新加权优化，得到高阶非局部相似度矩阵，再通过加权不同模态的相似度矩阵得到统一的相似度矩阵，利用图卷积网络搭建了一个文本编码器提取文本实例的特征，构建文本A与其他文本的语义联系图，采用增强语义相似度矩阵，增强相似度操作，检索方法主要包含两个编码器：E_x和E_y，分别对图像和文本特征编码，E_x和E_y建立在不同的基础网络框架上，S2中，通过邻接矩阵来将两个特征相近的文本实例联系起来，通过图卷积层后得到比一般全连接层更加丰富文本特征。

为了更好的理解本文跨模态哈希任务，我们首先给出符号定义和相关问题的表述。假定有一个具有n对图像文本对的多模态数据集O＝(X,Y)，其中

d_x表示图像特征的维度，d_y表示文本特征的维度，n代表模型训练样本个数。具体而言，在实验中，我们假设样本全部来自于以上的两个模态数据。

给定训练数据和特定的代码长度c，假定图像特征x和文本特征y分别通过映射函数f(x,θ_x)和g(y,θ_y)并获得相应的二进制表示B_y∈{-1,1}^c×n和B_x∈{-1,1}^c×n,其中n为训练样本个数，其中θ_x和θ_y是网络参数。我们方法的目的是学习这两个投影函数的参数，使得原始特征投影成紧凑的哈希码，且能够保持原始多模态空间中的模态间和模态内相似性。

在本文中，为了更加简洁地表示相关运算法则，我们定义了一些特殊符号。我们使用大写字母(例如M)来表示矩阵，使用粗体小写字母(例如m)来表示向量。M_i*和M_*j分别代表M的第i行和第j列。M_ij是矩阵M的(i,j)位置的元素。M^T的转置表示为，M^-1表示矩阵M的逆。另外，I_c表示一个单位矩阵，维数为c，||·||₂表示向量或矩阵的2-Norm，||·||_F表示向量或矩阵的Frobenius。

假定现有两个矩阵例如

和

则

任意两个矩阵之间的Hadamard矩阵乘积

(即对应位置元素乘积)，例如

定义为：

任意两个矩阵之间乘积⊙(即矩阵乘法)，例如M⊙N定义为：

任意两个矩阵之间和

(即对应位置元素和)，例如

定义为：

sign(·)是一个按元素的符号函数，定义如下：

如图1所示，我们所提出的模型无监督跨模态哈希检索模型，主要包含两个编码器：E_x和E_y，分别对图像和文本特征编码。由于原始图像和文本具有特定的特征和分布，因此E_x和E_y建立在不同的基础网络框架上。具体而言，E_x是预训练(在ImageNet上)VGG19模型的变体，它由五个卷积层和三个全连接(fc)层组成。我们将原模型的最后一层替换成一个全连接(fc)层，作为哈希映射层，该层包含c个隐藏神经元，作用是将经过E_x图像编码器后的特征映射成为维度为c的哈希表征。E_y是一个三层的图卷积网络(GCN)。给定批量输入的图像-文本对，在每次开始迭代时，我们从预训练过的VGG19[49]的前七层提取4096维向量作为原始图像特征，并使用原始文本特征，例如，BoW特征，作为原始文本表示。然后分别使用这两个不同模态特征形成各自的相似度矩阵，再使用增强注意力融合模块将两种模态构建成一个统一的相似度矩阵，新设计的策略将在后面进行详细说明。我们将数据集中的原始图像和文本特征作为输入到我们的网络中，随后输出相对应的哈希表征。为了确保学习的表示可以有效地保留原始的相似关系，我们通过最小化损失函数来不断优化整个网络。

为了有效地从原始实例中提取判别特征生成紧凑的哈希码，使用两个编码器E_x和E_y。E_x将每个原始图像特征映射成4096维的高维图像特征F_x，并通过最后的哈希映射层成为c维的哈希表征H_x。E_y由三层图卷积层构成，其网络结构依次是F_y→4096→4096→c,同时每个图卷积层都伴随有两个输入，一是特征输入，二是由BoW特征构造的邻接矩阵。通过GCN的目的是使得模型能够更好地提取文本特征，得到更加丰富的文本特征信息，通过邻接矩阵来将两个特征相近的文本实例联系起来，通过图卷积层后便可以得到比一般全连接层更加丰富文本特征，因为图卷积不仅会获取当前单一文本的特征，而且还会联系与它相近(邻接矩阵显示二者可达)的文本特征。原始文本特征Y先经过BoW模型得到文本BoW特征F_y，F_y再经过文本编码器E_y后得到c维的哈希表征H_y。在模型训练阶段为了方便函数优化H_x,H_y经过tanh函数激活得到B_x,B_y，在验证阶段，经过符号函数的赋值后成为二进制表示B_x,B_y。

H_x＝E_x(X)

F_y＝BoW(Y) (1)

H_y＝E_y(F_y)。

在无监督跨模态哈希检索领域，利用深度网络结构提取的特征构建相似度矩阵来描述不同模态和同一模态不同实例亲和力进而指导网络学习，可见这一设计策略已经同行共识。

在训练的每个epoch,随机地输入m个实例

，两个不同模态特征分别通过预训练过的VGG19网络和BoW模型，进而提取到d_x维的图像特征

和d_y维的文本特征

然后，我们利用实值特征F_x,F_y和二者之间的余弦距离构造相似度矩阵

以前的许多工作[32,33,34,35,36,37]都用各自的实验证明了采用语义相似度指导网络学习的可行性，但这些工作都是直接使用了相似度矩阵，只考虑了每个epoch中某个样本点本身，而忽略了其他样本点于本样本点之间的相似性，因此当某一样本与另外的两个样本点之间的距离相同时，这样的相似度矩阵不仅不能区分两者的相似性，反而会影响正确地判断。为了解决这一问题，我们增强了原有的语义相似度矩阵

其定义如下：

其中，

表示Hadamard矩阵乘积(即元素乘积)。S_*是一个对称阵，且每一行都表示该行号样本点与其他样本点的相似度。因此，S_* ^TS_*就能够将两样本之间的相似度进行放大或者缩小，使得两个相似度很小的样本变得更小，反之亦然。同时，S_* ^TS_*还可以根据两个样本点各自的邻居反映它们彼此的相似度。通常，如果两个样本点拥有的相同邻居越多，它们就越相似，二者之间的距离也就越近，反之亦然。

在跨模态哈希检索的任务中，我们很清楚的认识到，在一种模态内的信息量有限的情况下，仅基于单一模态建立的模态内相似度矩阵并不能够为网络学习提供丰富的模态间语义关联信息。更糟糕的是，通过两个不同模态的相似度矩阵各自独立训练学习二进制表示和哈希函数会使得不同模态差异的影响被放大，因为两模态的信息丰富度差距较大，图像的特征丰富度明显高于文本，进而得到糟糕的结果。于是，如何将两个模态的各自的相似度矩阵进行融合就显得尤为重要。此前的工作(DJSRH，HNH)都只是使用简单的权衡参数分别对两个不同模态的相似度矩阵加权求和，具体定义如下：

其中，η是一个人为设定的权衡参数，可能会随着数据集分布的变化而变化。

这样的做法存在一个较大的弊病，那就是针对于不同分布的数据集权衡参数会有所不同。在增强语义相似度矩阵的基础上，我们提出了增强注意力融合机制解决这一问题。增强注意力融合模块的输入是两个不同模态的增强语义相似度矩阵

，输出是联合语义相似度矩阵S。attention_x,attention_y分别代表图像和文本模态相似性矩阵的注意力，用注意力矩阵来代替原有的权衡参数。在原有的方法中，同一批次的所有样本点的图像相似度权重都为η，文本相似度权重都为(1-η)，但由于不同的样本点之间图像和文本特征分布不同，所以文本相似度和图像相似度的权重也不应该完全一样。我们构造不同模态相似度的注意力矩阵，再利用图像和文本模态的增强语义相似度矩阵

与对应模态的注意力矩阵对应元素相乘再相加，就可以做到对每一个样本点的不同模态相似度做不同的权重赋值。增强注意力融合机制不仅解决了不同数据集上权衡参数不同的问题，而且解决了同一批次不同样本点权衡参数相同的问题。具体的增强注意力融合机器如下图所示，联合语义相似度矩阵S的定义如下：

其中，大写的EA代表增强注意力融合机制，

表示Hadamard矩阵乘积(即元素乘积)，⊙表示矩阵之间的乘积(即矩阵乘法)，

表示矩阵和(即对应位置元素和)。

在完了不同模态的增强相似度矩阵的融合过后，我们还将定义一系列与之对应的损失函数用以学习哈希映射函数f(x,θ_x),g(y,θ_y)。具体来说，首先，我们定义了Inter-Modal Similarity Preservation Loss用来维持模态间的语义相似度，用B_x ^TB_y∈[-1,1]^m×m来表示两模态哈希表征的相似度，同时采用(000)中的S与其做约束，具体定义如下：

s.t.B_x＝tanh(H_x)∈[-1,1]^c×m,B_y＝tanh(H_y)∈[-1,1]^c×m

此外，由于两模态的特征分布差异化很大，而且两模态的特征丰富度也存在很大差距，所以与大部分工作所采用的直接拉近两模态二进制表示的方法不同，我们引入了

作为两模态的公共表示，使得B_x,B_y都逼近于B，从而缩小模态差距。CommonRepresentation Loss定义如下：

s.t.B_x＝tanh(H_x)∈[-1,1]^c×m,B_y＝tanh(H_y)∈[-1,1]^c×m

由公式(8)可知，图像和文本模态的二进制表示都在逼近B，换句话说，B就可以用来表示两模态的二进制表示。那么，我们就可以轻易的得到图像的模态内相似度B^TB_x和文本的模态内相似度B^TB_y，因此它们可以用来保持模态内的相似度。鉴于此，我们提出了Intra-Modal Similarity Preservation Loss，定义如下：

s.t.B_x＝tanh(H_x)∈[-1,1]^c×m,B_y＝tanh(H_y)∈[-1,1]^c×m

结合(7)(8)(9),我们将最后的目标函数定义如下：

s.t.B_x＝tanh(H_x)∈[-1,1]^c×m,B_y＝tanh(H_y)∈[-1,1]^c×m

其中，为了避免反向传播梯度消失问题，在网络训练时采用tanh函数激活两模态的哈希表征H，而不是用sign函数激活。超参数α,β,γ的设置将在第四节实验部分具体介绍。

为了学习优化的θ_x,θ_y和B，引入了交替优化策略来保持θ_x,θ_y和B中的两个固定更新另外一个参数。这种交替优化策略在算法1中给出，我们将详细阐述该算法。

第一步：固定θ_x,θ_y，更新B。

首先，将(10)详尽地重写一次：

为了更简洁地推导，我们展开每一项并删除无关项：

令公式(12)为零，可得：

第二步：固定B,θ_y，更新θ_x。

当我们保持B,θ_y不变时，参数θ_x可以通过随机梯度下降(SGD)和反向传播(BP)来学习,(11)可被写作是：

s.t.B_x＝tanh(H_x)∈[-1,1]^c×m

更新θ_x：

其中，λ_x是E_x网络中的学习率。

第三步：固定θ_x,B，更新θ_y。

当我们保持B,θ_x不变时，与更新θ_x相同，参数θ_y也通过随机梯度下降(SGD)和反向传播(BP)来学习,(11)可被写作是：

s.t.B_y＝tanh(H_y)∈[-1,1]^c×m

更新θ_x：

其中，λ_y是E_y网络中的学习率。

工作原理：

算法：

输入:训练集

算法循环的轮数max_epoch；当前所在的轮数t；反向传播的批量大小m。

输出:哈希映射函数f(x,θ_x)＝sign(E_x(X))和f(y,θ_y)＝sign(E_y(BoW(Y)))。

1.初始化t＝0；

2.repeat:；

3.t＝t+1；

4.for

iterations do；

5.从训练集中随机抽取m个样本对

6.前向传播提取图像及文本的特征，并按照公式(4)(5)构建相似度矩阵S；

7.依据公式(7)(8)(9)(10)计算损失；

8.依据公式(13)更新S；

9.通过反向传播更新参数θ_x；

10.通过反向传播更新参数θ_y；

11.end for；

12.until t＝＝max_epoch。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。