CN113204522A

CN113204522A - 基于结合生成对抗网络的哈希算法的大规模数据检索方法

Info

Publication number: CN113204522A
Application number: CN202110756991.6A
Authority: CN
Inventors: 曹媛; 吴翔宇; 桂杰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-08-03
Anticipated expiration: 2041-07-05
Also published as: CN113204522B

Abstract

本发明是一种基于结合生成对抗网络的哈希算法的大规模数据检索方法。本发明主要由两个主要部分组成：有条件的WGAN，它将训练图像和成对相似度作为输入，并共同学习生成器和判别器：生成器接受随机噪声和编码相似度信息的嵌入向量的连接作为输入，以合成接近真实的图像；判别器试图使用对抗性损失来区分真实和合成图像；哈希编码器，在贝叶斯学习框架下为所有图像生成紧凑的二进制哈希代码：该框架通过余弦交叉熵损失共同保存真实图像和合成图像的相似性信息，并通过余弦量化损失控制量化误差。经验证，本发明所提出的双块框架具有优越的检索性能。

Description

基于结合生成对抗网络的哈希算法的大规模数据检索方法

技术领域

本发明属于深度学习技术领域，具体涉及一种结合生成对抗网络的基于哈希算法的大规模数据检索方法。

背景技术

近似近邻（ANN）搜索在机器学习和信息检索等相关应用中发挥着基础作用。由于其存储成本低、检索速度快，哈希算法最近引起了ANN研究界的广泛关注。哈希的目的是将数据点从原始空间映射到二进制代码的汉明空间，其中原始空间和汉明空间之间的相似性得以保留。通过使用二进制哈希码来表示原始数据，可以极大地降低存储成本。此外，通过使用哈希码构建索引，可以实现搜索的恒定或亚线性时间复杂性。因此，哈希算法在大规模数据集的ANN搜索中变得越来越流行。

哈希由于其存储和搜索效率，经常被用于近似近邻搜索中。考虑到传统的哈希学习方法的瓶颈，基于深度的哈希学习最近在研究者中获得了相当的欢迎。虽然这类方法通过利用深度神经网络的端到端训练过程来生成紧凑的二进制代码，显示了有希望的性能增益，但组件之间的内在联系使得显著优化架构是不可行的。受噪声干扰和训练数据不完整的相似性标签的影响，正常的深度模型在表示学习阶段甚至带有明显的偏差。

现有的哈希方法可以分为独立于数据的方法和依赖数据的方法。在独立于数据的方法中，哈希函数通常是随机生成的，与任何训练数据无关。有代表性的独立于数据的方法包括位置敏感哈希（LSH）和它的变体。数据依赖型方法试图从一些训练数据中学习哈希函数，这也被称为学习哈希（L2H）方法。与独立于数据的方法相比，L2H方法可以在较短的哈希代码中达到相当或更好的精度。因此，在实际应用中，L2H方法已经比独立于数据的方法越来越受欢迎。其中依赖于数据的方法包括无监督的和有监督的哈希。无监督哈希方法通过对未标记的数据进行训练来学习将数据编码为二进制代码的哈希函数。有监督的哈希方法进一步探索有监督的信息（例如成对的相似性或相关性反馈），以生成紧凑的哈希代码。最近，深度学习哈希方法通过融合深度学习的力量在图像检索数据集上产生了突破性的结果。特别是，DHN是第一个联合保留配对相似性和控制量化误差的端到端框架。HashNet通过平衡训练数据中的正负对来交换精度与召回率，并通过延续技术来降低量化误差，从而改进了DHN，在几个基准数据集上获得了最先进的性能。

在CNN带来了超越DNN方法的巨大性能提升之后，GAN的到来成为了包括计算机视觉、模式识别等领域的另一个重要里程碑。生成对抗网络（GANs）是一种强大的模型，可以在不需要监督信息的情况下以最小化的博弈机制生成图像。目前最先进的用于图像合成的无监督生成模型包括深度卷积GANs（DCGANs）和Wasserstein GANs（WGANs）。最近，一个更强大的生成模型家族通过对监督信息（如类标签或文本描述）的进一步调节，将图像与GANs合成。辅助分类器GAN（AC-GAN）是最先进的解决方案，通过将监督信息送入生成器并增加损失函数来说明判别器中的监督信息。

现有的监督生成模型只纳入了点状监督信息，如类标签或文本描述。然而，在许多实际的检索应用中，只有成对的相似性信息来训练哈希模型。Deep Semantic Hashing是第一个探索GANs用于图像合成的哈希方法，但它只能纳入点状侧信息（类标签），这在在线图像检索应用中往往是不可用的。

发明内容

本发明的目的是提供一种结合生成对抗网络的基于哈希算法的大规模数据检索方法，以弥补现有技术的不足。

基于深度学习的哈希方法表明，使用深度神经网络可以更有效地进行特征表示和哈希编码的端到端学习，它可以自然地编码任何非线性哈希函数。这些深度学习到哈希方法在许多基准上表现出最先进的性能。特别是，事实证明，共同学习保全相似性的表征和控制将连续表征二进制化为二进制代码的量化误差至关重要。然而，这些深度学习到哈希方法的一个关键缺点是，它们需要首先学习连续的深度表征，在分离的符号阈值后步骤中将其二进制化为哈希编码。通过连续松弛，即用连续优化解决哈希码的离散优化，所有这些方法本质上解决了一个明显偏离哈希目标的优化问题，因为它们在优化过程中不能准确地学习二进制哈希码。因此，现有的深度哈希方法可能无法生成紧凑的二进制哈希码来进行有效的相似性检索。

通过整合生成对抗网络（GAN），本发明提出了一种新型的深度学习哈希架构（GDPSH），用于从原始图像的扩展集中生成紧凑的哈希代码；本发明从真实图像和大规模合成图像中学习紧凑的二进制哈希代码。本发明包括一个专门设计的GAN，能够纳入成对的相似性信息，以及一个用真实和合成图像训练的深度哈希网络，以生成几乎无损的哈希代码；这里提出了明确的损失函数，包括余弦交叉熵损失和余弦量化损失，用于相似性保护的学习和量化误差控制。

在图像检索应用中，假设得到了

个训练点

，其中一些对点

和

被赋予了成对的相似性标签

。也可以通过手动构建一些数据集的类标签来获得这些成对的标签。如果

和

是相似的

，而如果

和

是不相似的那么

。深度学习哈希的目标是学习从输入空间到汉明空间

的非线性哈希函数

，使用深度神经网络，将每个点编码为紧凑的

-位哈希代码

，这样，给定的对之间的相似性信息

可以在紧凑的哈希代码中保留下来。在有监督的哈希中，相似性对

可以从数据点的语义标签或在线搜索系统中点击数据的相关性反馈中构建。

为达到上述目的，本发明采取的具体技术方案为：

一种基于结合生成对抗网络的哈希算法的大规模数据检索方法，该方法包括以下步骤：

S1：收集图片数据，并进行预处理，得到特征一；

S2：根据对抗网络（GANs）对所述特征一进行处理；将上述获得的特征一并输入到对抗生成网络的生成器当中生成人工合成的图片；将该图片放入生成对抗网络的判别器当中，并用构造的交叉熵损失（cross-entropy loss）以及和真正图片的对抗损失（adversarial loss）来辅助训练，不断更新生成器以及判别器的网络参数，直到能够生成符合目标的人工合成图片；

S3：将S2中人工合成图片集和原始图片集相结合的融合数据集输入至卷积神经网络一，根据提出的目标损失函数来计算相似度矩阵；

S4：将所述融合数据集，以及所述相似度矩阵，输入至卷积神经网络二，根据提出的余弦交叉熵损失和量化损失来训练网络参数，最后得到效果满意的哈希编码，同样得到训练好的哈希架构（GDPSH）；

S5：待测数据集输入至S4训练好的哈希架构（GDPSH）进行处理，最后输出检索结果。

进一步的，所述S1中的预处理为：首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征，再将它和随机噪声链接起来，得到特征一。

进一步的，所述S2中的生成对抗网络（GANs）中：

通过相似性嵌入的方法降低了点状监督信息

的高维度，将与每个图像相关的相似性信息

嵌入到一个低维向量；每个生成的点除了随机噪声

之外，还有一个相应的嵌入向量

；生成器同时使用嵌入向量和随机噪声来生成每个图像，如

；鉴别器给出两个概率分布：一个是合成与真实的

和

，用于二元分类；另一个是所有图像对中相似与不相似的

和

，用于配对分类；GAN的训练判别器的总损失为：

其中C单独表示和判别器D共享前面网络层的概率网络，公式4第一行和第二行表示对抗损失，第三行和第四行是概率

和成对相似度

之间的交叉熵损失。

进一步的，所述S3中：

所述相似度矩阵的提取，以全面了解数据点的关系，然后在设计损失函数时帮助二进制代码生成方案顺利进行；定义一个相似性矩阵

，如下是目标损失函数：

其中

是

的第

行

列；当

时，表示图像

与图像

相似；当

时，表示图像

与图像

不相似；当

时，表示图像

与图像

之间的相似度是模糊的；定义的

可能是一个不对称的矩阵，为了确保对称性，进一步更新为

，规则是：如果

或

，那么

；如果

和

，那么

；否则

；

对于相似性模糊的图像对，即

，进一步通过其特征的余弦相似度来定义它们的相似性；然后，得到最终的相似性矩阵

，能够被表述为如下：

因此，两幅图像之间的相似度可以分为三种类型：完全相似的

，完全不相似的

，以及部分相似的

。

进一步的，所述S4中，构建了一个哈希编码器网络

，它在贝叶斯框架下为合成图像和真实图像生成紧凑的哈希代码；哈希编码器F由三个部分组成：(1)深度卷积神经网络(CNN)，用于为每个输入图像

学习深度紧凑的代码

，其中

可以是具有相似性信息的真实图像x或由具有相似性信息的PC-WGAN生成的合成图像

；(2)余弦交叉熵损失用于相似性保存的哈希学习；(3)余弦量化损失用于控制量化误差。

更进一步的，得到学习紧凑哈希码的哈希编码器

的优化问题如下：

其中

是平衡公式16第一行和第二行的余弦交叉熵损失和平衡公式16第三行的余弦量化损失之间权重的参数。

本发明的优点和技术效果：

本发明提出的基于深度学习的哈希架构，用合成的图像指导矩阵生成和代码学习，它利用机器解释高层语义理解到图像中。GDPSH的架构，它由两个主要部分组成：(1) 有条件的WGAN，它将训练图像和成对相似度作为输入，并共同学习生成器

和判别器

：生成器接受随机噪声u和编码相似度信息的嵌入向量的连接作为输入，以合成接近真实的图像；判别器

试图使用对抗性损失来区分真实和合成图像；(2) 哈希编码器

，在贝叶斯学习框架下为所有图像生成紧凑的二进制哈希代码

：该框架通过余弦交叉熵损失共同保存真实图像和合成图像的相似性信息，并通过余弦量化损失控制量化误差。

经验证，本发明提供的检索方法不仅仅性能远优于非深度学习的哈希方法，而且始终优于其他两种常用的深度学习方法，这充分证明了本发明所提出的双块框架的优越的检索性能。

附图说明

图1为本发明的整体流程框图。

图2 为实施例2中NUSWIDE数据集的精度-召回曲线对比图。

图3为实施例2中CIFAR-10数据集上的精度-召回曲线对比图。

图4为实施例2中 MS-COCO数据集上的精度-召回曲线对比图。

具体实施方式

以下通过具体实施例进一步解释和说明本发明。

实施例1：

本实施例提出的基于深度学习的哈希架构，用合成的图像指导矩阵生成和代码学习，它利用机器解释高层语义理解到图像中。图1显示了GDPSH的架构，它由两个主要部分组成。(1) 有条件的WGAN，它将训练图像和成对相似度作为输入，并共同学习生成器

和判别器

试图使用对抗性损失来区分真实和合成图像。(2) 哈希编码器

一种基于结合生成对抗网络的哈希算法的大规模数据检索方法，包括如下步骤：

步骤1：首先从原始数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征，再将它和随机噪声链接起来。

步骤2：将上述获得的特征一并输入到对抗生成网络的生成器当中（如图1中的Generator）生成人工合成的图片。

步骤3：将生成的图片放入生成对抗网络的判别器当中（如图1中的Discriminator）并用构造的交叉熵损失（cross-entropy loss）以及和真正图片的对抗损失（adversarial loss）来辅助训练，不断更新生成器以及判别器的网络参数，直到能够生成符合目标的人工合成图片。

步骤4：将输出的图片集和原始数据集结合起来经过卷积神经网络1，根据11提出的目标损失函数来计算一个相似度矩阵。

步骤5：将之前提到的融合之后的数据集，以及步骤4得到的相似度矩阵，放入一个另外的独立的卷积神经网络2，根据16提出的余弦交叉熵损失和量化损失来训练网络参数，最后得到效果满意的哈希编码。

具体的：

所述步骤1中的预处理为：首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征，再将它和随机噪声链接起来，得到特征一。

所述步骤2中的生成对抗网络（GANs）中：

生成对抗网络（GANs）的训练策略定义了两个相互竞争的网络之间的最小值博弈：一个是生成器网络，它捕捉真实图像的基本数据分布，用于合成图像；另一个是判别器网络

，它将真实图像与合成图像区分开来；具体来说，生成器

接受随机噪声

作为输入，该噪声是从一些简单的噪声分布（如均匀分布或球形高斯分布）中采样的，并合成一个假图像

；鉴别器

接受真实图像

或合成图像

作为输入，必须通过最小化概率

和

的分类误差来区分它们；Gulrajani等人提出的GAN的训练通过Wasserstein距离训练判别器，该距离到处都是连续的，几乎到处都是可微的，并提出用可微的Lipschitz约束与梯度惩罚：

其中

是惩罚系数，通常设定为

，x是数据库点，

是真实数据分布，

是由

隐含定义的生成器分布，也就是

表示生成的图片，

隐含定义为在从真实数据分布

和生成器分布

采样的点对之间沿直线均匀采样；在最小化游戏中，生成器被训练成将合成图像分类为真实图像的最大概率，这相当于最小化了：

其中

是从某个简单的噪声分布

中采样的随机噪声。生成器的目标是用近乎真实的合成图像来最大限度地欺骗鉴别器。这样改进GAN能够稳定和高效地训练各种GAN架构，几乎没有超参数调整。

提出了一个新的WGAN的扩展，以从具有成对监督信息

的数据中学习。首先，通过相似性嵌入的方法降低了点状监督信息

的高维度，将与每个图像相关的相似性信息

嵌入到一个低维向量

。相似性嵌入可以通过最小化以下的重构损失来实现。先来看一个以往GAN里面的重构损失函数：

其中

是相似性嵌入损失，施加非负约束是为了使潜伏嵌入与先验监督信息一致，先验监督信息是以非负相似性标签

的形式给出的。由于

，每个嵌入向量

可以用

维近似表示每个点

的相似性信息，这是低维度的，可以作为GAN的输入。

每个生成的点除了随机噪声

之外，还有一个相应的嵌入向量

。生成器同时使用嵌入向量和随机噪声来生成每个图像，如

。鉴别器应该给出两个概率分布：一个是合成与真实的

和

，用于二元分类；另一个是所有图像对中相似与不相似的

和

，用于配对分类。具体来说，判别器网络（除了最后一层）在

和

之间共享。用

和

表示网络

的最后一层激活，用于成对分类，那么

。PC-WGAN的训练判别器的总损失为：

其中C单独表示和判别器D共享前面网络层的概率网络，公式4第三行和第四行是概率

和成对相似度

之间的交叉熵损失。在最小化游戏中，生成器被训练成最大化合成是真实的以及相似是不相似的概率，或者相反，这相当于最小化了：

注意

。生成器的目标是用从相似性嵌入和随机噪声产生的合成图像最大限度地愚弄判别器。在应用中，含有相似性信息的训练数据的大小明显小于完整的无标签数据的大小。使PC-WGAN能够从有标签的数据和无标签的数据中学习，通过对每个无标签的图像

进一步使用零嵌入向量

来合成高质量的图像。生成器分布

变为

，而

变为监督和无监督的真实图像的分布。虽然

和

都因无标签数据而改变，但公式3和4中的PC-WGAN目标仍然没有改变。

所述步骤3中相似度矩阵生成 cnn1

结合原始数据集，首先提取一个整体特征（即相似度矩阵），以全面了解数据点的关系，然后在设计损失函数时帮助二进制代码生成方案顺利进行。因此，在这一部分，首先从每个图像

中选择

个最近的邻居

，这是基于它们的余弦相似度。余弦相似度

的表述如下：

其中

是图像

的特征，由预先训练的CNN（如Alexnet）提取。

表示一个向量的长度。

然后，利用近邻图上的随机行走来测量数据点之间的流形相似度。近邻图是无定向的加权图，它是以

个图像

为节点构建的，可以用稀疏的对称邻接矩阵

表示，其表述如下。

K中的

表示相似度。此外，

的对角线元素为零。通过最近的邻接图，对于每个节点

，随机行走遵循迭代。所以条件概率函数

如下：

其中

是一个超参数；

和

其中

是一个元素为

的向量；

是一个任意向量；

是一个单热向量，只有

的第i个元素等于

，其他都等于

。序列

可以收敛到解

，那么如下：

其中

是一个身份矩阵。然后，用

，表示

的第

个元素，表示图像

和图像

之间的流形相似度。最后，对于每个图像

，按流形相似度从大到小对其他点进行排序，

是前o个数据点的集合。

然后，通过构建的

，可以重建

，将

个最近的邻居分成两组：一组的数据点与图像

相似，另一组的数据点与图像

不相似。具体来说，对于

中的每个数据点，如果它也属于

，那么它与

相似，否则，它与

不相似；对于不在

中的其他数据点，它们与图像

的相似性是模糊的。因此，可以定义一个相似性矩阵

，如下：

其中

是

的第

行

列。当

时，表示图像

与图像

相似；当

时，表示图像

与图像

不相似；当

时，表示图像

与图像

之间的相似度是模糊的。定义的

可能是一个不对称的矩阵，那么为了确保对称性，进一步更新为

，规则是：如果

或

，那么

；如果

和

，那么

；否则

。

此外，丰富的语义信息包含在由预训练的CNN提取的特征中。这意味着可以从图像的特征中挖掘出一些语义相似性信息。因此，对于相似性模糊的图像对，即

，进一步通过其特征的余弦相似度来定义它们的相似性。然后，可以得到最终的相似性矩阵

，它可以被表述为如下：

，完全不相似的

，以及部分相似的

。

所述步骤4中哈希学习框架：

以高质量的合成图像与上面得到的相似性矩阵为例，它们可以用来提升深度学习的性能，在相似性标签不足的图像上进行哈希。因此，构建了一个哈希编码器网络

，它在贝叶斯框架下为合成图像和真实图像生成紧凑的哈希代码。哈希编码器f由三个部分组成。(1)一个深度卷积网络(CNN)，用于为每个输入图像

学习深度紧凑的代码

，其中

；(2)一个余弦交叉熵损失用于相似性保存的哈希学习；(3)一个余弦量化损失用于控制量化误差。

给定训练数据

和合成图像

，可以将训练数据扩展为

，将相似性标签扩展为

进行深度哈希。给定

和

的哈希码

的对数最大后验（MAP）估计为

其中N是训练数据量，M是人工生成数据量，

是加权似然函数，

是每个训练对

的权重，通过根据错误分类的重要性对训练对进行加权，解决数据不平衡问题（Dmochowski, Sajda, and Parra 2010）。由于

中的每个相似性标签只能是

或

，为了说明相似对和不相似对之间的数据不平衡，提出

其中

是相似对的集合，

是不相似对的集合。对于每个配对，

是给定一对哈希代码

和

的相似性标签

的条件概率，它可以自然地定义为配对逻辑函数。条件概率

如下：

其中

是自适应的sigmoid函数。与逻辑回归类似，可以看到Hamming距离

越小，余弦相似度

以及条件概率

就越大，这意味着图像对

和

应该被分类为相似。否则，条件概率

就越大，意味着图像对

和

应该被归类为非相似。因此，方程（14）是逻辑回归分类器在成对分类情况下的合理扩展，对于二元相似度标签

来说是最优的。

由于公式12的二元约束

的离散优化非常具有挑战性，为了便于优化，对二元约束采用了连续松弛

，这也是大多数哈希方法采用的方法。为了控制连续松弛的量化误差

，缩小汉明距离和余弦距离之间的差距，以学习高质量的哈希码，提出了一个新的双模高斯先验

，即公式16：

其中

是双模高斯分布的多样性参数，

是具有规范

的1的向量。

通过将方程14和15纳入方程12中的MAP估计，得到学习紧凑哈希码的哈希编码器

的优化问题如下：

其中

是平衡公式16第一行和第二行的余弦交叉熵损失和第三行的余弦量化损失之间权重的参数。

实施例2：检索结果测试

本实施例在三个广泛使用的基准数据集上评估了所提出的哈希方法，包括CIFAR-10、NUS-WIDE和MS-COCO，这些数据集经常用于物体检测应用。NUS-WIDE是一个网络图像数据集，包括269648张图像和来自Flickr的相关标签。它有5018个独特的标签和81个地面真实的概念。在本发明中，随机抽取5000张图片作为查询点，其余的图片作为数据库，并从数据库中随机抽取10000张图片作为训练点。CIFAR-10是一个包含60,000张图片的10类数据集。随机选择每类100张图片作为查询集，每类500张图片作为训练集，其余的图片作为数据库。MS-COCO是一个最近在图像识别、分割和字幕领域被广泛使用的图像数据集。它包含82,783张训练图像和40,504张验证图像，其中每张图像都由80个语义概念中的某些概念来标注。随机抽取5,000张图片作为查询点，其余的作为数据库，并从数据库中随机抽取10,000张图片进行训练。

对比方法：

本实施例选用对八种最先进的监督哈希方法进行了广泛的实验，包括监督浅层哈希方法ITQ-CCA、SDH，以及监督深层哈希方法CNNH和DNNH。此外，在给出结论之前，深入研究了模型的设置细节，并展示了性能结果。

实验设置：

通过使用广泛认可的评估协议，用于哈希函数学习和地面真实评估的相似性测量是通过利用图像标签构建的：如果两幅图像至少共享一个标签，则认为它们相似，

，否则认为不相似，

。

对于传统的哈希方法，使用4096维的特征作为图像特征。对于深度哈希方法，使用原始图像作为输入，并采用VGG16作为骨干架构。遵循并采用四层ResNet架构作为本发明方法中的判别器和生成器，这被证明可以生成64×64像素的高质量图像。采用AlexNet作为哈希编码器，对所有层进行微调，但最后一层是从预训练的AlexNet中复制的。由于最后一层是从头开始训练的，将其学习率设定为低层的10倍。使用0.9动量的小批量随机梯度下降法（SGD）作为求解器，并用

到

的乘法步长为

交叉验证学习率。将图像的小批量大小固定为256，权重衰减参数为0.0005。对手工制作的特征输入

的维度进行交叉验证，观察到将这个超参数固定为32，就足以达到令人满意的结果。同时，鉴于

的维度足够大，例如32，GDPSH对不同的维度不敏感。通过对训练数据进行交叉验证来选择所有比较方法的参数。

评估标准：

实验主要以两个标准评价指标进行评估。平均精度（MAP），精度-召回曲线（PR）。对于那些基于汉明排名的标准，它根据数据点与查询的汉明距离进行排名；对于为了与已公布的结果直接比较，所有方法都使用相同的训练集和测试集。遵循HashNet和DHN，对NUS-WIDE数据集采用MAP@5000，对MSCOCO数据集采用MAP@5000，而对CIFAR-10数据集采用MAP@54000。

表1显示了GDPSH和所有基线方法在MS-COCO、NUSWIDE和CIFAR-10上的结果，哈希代码数量从16到64不等。图2、图3和图4分别展示了在精度-召回曲线（PR）和精度曲线方面的检索性能，与不同的顶级返回样本数（P@N）有关。

表1 在三个图像数据集上，不同位数的汉明排序的平均均值精度（MAP）

首先展示了本发明和所有基线方法在三个数据集上的不同哈希码长度的MAP值，作为全局评估。然后，在哈希码长度为32的情况下画出精度-召回和P@N曲线作为更全面的比较。为了研究哈希码长度的影响，本发明在哈希码长度为[16,32,48,64]的情况下对所提方法进行了评估，并在MAP评估中展示了结果。

从不同数据集看，本发明在检索时间上基本优于其他基于深度的哈希方法，明显优于传统哈希算法，在训练时间上和其他深度哈希方法相似。实验表明，本发明优于现有的图像检索模型，并能无缝生成高质量的二进制哈希代码。本发明能够通过最小优化机制中的反向传播进行端到端的训练。大量的实验表明，所提出的模型可以生成高质量的二进制哈希代码，并在三个数据集（NUS-WIDE、CIFAR-10和MS-COCO）上产生先进的多媒体检索性能（如图2、3和4所示）。