CN111723220A

CN111723220A - 基于注意力机制和哈希的图像检索方法、装置及存储介质

Info

Publication number: CN111723220A
Application number: CN202010558250.2A
Authority: CN
Inventors: 龙军; 魏翔翔; 朱磊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-29
Anticipated expiration: 2040-06-18
Also published as: CN111723220B

Abstract

本发明公开了一种基于注意力机制和哈希的图像检索方法、装置及存储介质，其中方法包括：针对原始数据集中每一张图像，基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码，进而建立图像特征库；基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码；在图像特征库中查询与待检测图像的离散哈希编码汉明距离最近的数据，该数据对应的图像即为检索结果。基于注意力机制的哈希特征提取模型充分发挥了深度卷积神经网络提取图像抽象语义特征的能力；通过嵌入注意力模块使得网络能够专注于图像中能尽可能表达整张图像语义信息的视觉内容，提高哈希编码的表达效果，使图像检索更加精确、快速。

Description

基于注意力机制和哈希的图像检索方法、装置及存储介质

技术领域

本发明涉及图像检索技术领域，尤其涉及一种基于注意力机制和哈希的图像检索方法、装置及存储介质。

背景技术

随着互联网、云计算、物联网、社交媒体及数字设备的应用发展，图像、音频和视频等多媒体数据在以前所未有的速度增长。作为人类感知世界的视觉基础，图像数据能够帮助人们理解信息、表达信息以及传递信息，如何从海量的图像数据中准确快速地检索到与用户查询相关的图像是多媒体检索领域研究者极其关注的问题。由于在解决维度灾难、搜索效率和存储开销等问题上的优势，哈希方法在大规模多媒体数据近似近邻查询中被广泛运用。

近年来，哈希方法经过国内外学者的广泛关注与研究，已充分发展并演化成了一个体系。通常，哈希方法可以大致分为两类：与数据无关的哈希方法和与数据有关的哈希方法。在数据不相关方法中，哈希函数通常独立于训练数据随机产生，并没有利用到数据本身的信息。经典的与数据无关的哈希方法是局部敏感散列(LSH)和其拓展方法。而数据相关的哈希方法企图从训练数据中学习到特定于数据的哈希函数，进而生成紧致高效的哈希码，所以其也被称为哈希学习方法。相对于数据不相关方法来说，哈希学习方法可以使用比较少的二进制编码维度实现很好的效果，从而可以避免维度灾难。根据哈希学习过程中是否融合训练样本的标签信息，哈希学习分为无监督、半监督及监督哈希学习，许多代表性的研究表明监督哈希一般会比无监督和半监督哈希方法获得更高的检索精度。

在哈希学习方法中，原始图像首先被转换成矢量特征表示，然后进行哈希投影和量化编码得到最终的哈希码。因而生成的哈希码的质量在很大程度上依赖于输入的特征向量的质量。相对于传统的图像特征提取方法，深度学习自动提取的特征更有效，质量更佳。但是，图像中也许会含有一些与语义表达无关的视觉信息，这些视觉信息一定程度地干扰了图像的嵌入学习，这对于本来表达能力就有限的哈希码来说更是限制了其在检索时的精确度。另一方面，由于深度哈希算法训练优化过程中不能直接学习离散的哈希编码，而是将二值哈希编码松弛化为连续的哈希编码，然后在网络训练优化结束后，再对连续的哈希编码进行量化处理，得到最终的二值哈希编码，但这样会存在量化误差，直接导致最终得到的哈希编码质量不佳，此外，哈希学习方法中神经网络的损失函数的选择对最终的哈希编码的质量也有一定的影响。

综上，虽然现有的基于深度学习的哈希检索方法都显著地提升了图像检索的性能，但是这些方法仍然存在一定的不足，并且基于深度学习的方法需要大量的标签数据训练才能达到很好的检索性能和泛化能力，如何在有限的训练数据集上获得好的检索性能也是研究者们关注的重点。

发明内容

本发明提供了一种基于注意力机制和哈希的图像检索方法、装置及存储介质，以解决现有技术中由于图像中会含有一些与语义表达无关的视觉信息，一定程度地干扰了图像的嵌入学习，对于表达能力有限的哈希码来说更是限制了其在检索时的精确度的问题。

第一方面，提供了一种基于注意力机制和哈希的图像检索方法，包括：

针对原始数据集中每一张图像，基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码，进而建立与该原始数据集对应的图像特征库；

基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码；

在图像特征库中查询与待检测图像的离散哈希编码汉明距离最近的数据，该数据在原始数据集中对应的图像即为检索结果；

其中，所述基于注意力机制的哈希特征提取模型为基于带有标签的数据集对注意力哈希网络模型训练得到，该注意力哈希网络模型包含依次连接的五个卷积-池化层、注意力模块、两个全连接层、哈希层。

上述方案中，通过预先训练了一种基于注意力机制的哈希特征提取模型，其充分发挥了深度卷积神经网络提取原始图片抽象语义特征的能力，得到表达效果更佳的图片中间特征表达，很好的解决了传统的语义鸿沟问题；考虑到哈希编码位数的有限性，在提取图片中间特征表达的子网络中嵌入注意力模块，使得特征提取网络能够专注于原始图像中能尽可能表达整张图像语义信息的视觉内容，进而提高最终哈希编码的表达效果。通过本方案可以实现对特定图像的更加精确、快速的检索，从而提高人们对目标图像数据的获取效率。

进一步地，所述基于注意力机制的哈希特征提取模型通过如下方法训练得到：

构建训练集：从已设置标签的原始数据集中选取Z幅带标签图像作为训练集

其中样本x_i表示第i幅图像；

构建注意力哈希网络模型：该注意力哈希网络模型包含依次连接的五个卷积-池化层、注意力模块、两个全连接层、哈希层；

训练注意力哈希网络模型：

从训练集中挑选出用于训练的三元组图像对样本集合；

定义目标损失函数为：

其中，x^a为锚样本，x^p为正例样本，xⁿ为负例样本，N为三元组图像对样本数量；α和β都是超参数，α表示D(b^a，b^p)与D(b^a，bⁿ)之间的距离边界值，β表示D(b^p，b^a)与D(b^p，bⁿ)之间的距离边界值，b^a为所取三元组图像对样本集合中所有锚样本经过Φ函数的集合，b^p为所取三元组图像对样本集合中所有正例样本经过Φ函数的集合，bⁿ为所取三元组图像对样本集合中所有负例样本经过Φ函数的集合，D(b_i，b_j)表示b_i与b_j的汉明距离，其中Φ函数为图像从原始空间到汉明空间的非线性映射：Φ：X→B，其中X代表图像集合，B代表对应的哈希编码集合；f_i∈(-1，1)^k代表图像x_i的连续哈希编码，D(f_i，f_j)表示f_i与f_j的汉明距离，公式如下，其中k为哈希编码的位数；

基于三元组图像对样本集合和目标损失函数，训练注意力哈希网络模型，得到基于注意力机制的哈希特征提取模型。

训练基于注意力机制的哈希特征提取模型过程中，提出了一种改进的三元组损失函数，使注意力哈希网络模型不仅能够严格地实现同类图像之间的距离小于不同类图像之间的距离，还提升了整个注意力哈希网络模型的学习能力。

进一步地，所述注意力模块为CBAM方法中的通道和空间注意力模块。

进一步地，所述通道和空间注意力模块的处理过程表示如下：

其中，

表示数组元素对应相乘；F表示输入注意力模块的中间层特征图；一维通道注意力图M_c(F)通过如下过程得到：

通道注意力模块将输入的中间层特征图F分别经过最大池化和平均池化处理后，再将所得结果输入共享多层感知机，然后将得到的输出对应元素相加，最后经过sigmoid函数激活处理，得到最终的M_c(F)。特征图F的每个通道都被视为特征检测器(featuredetector)，最大池化和平均池化对特征图在空间维度上进行了压缩，得到了两个不同的空间背景描述，再进一步输入共享多层感知机进行计算处理，从而能够主要关注于输入图片中有意义的部分。

二维空间注意力图M_s(F¹)通过如下过程得到：

空间注意力模块将输入的中间特征F¹做基于channel的最大池化和平均池化，然后将所得两个结果进行拼接，再经过卷积操作进行降维，最后经过sigmoid函数激活处理，得到最终的M_s(F¹)。在通道的维度上使用最大池化和平均池化得到两个不同的特征描述，拼接之后生成二维空间注意力图，再使用较大的卷积核进行卷积，从而保留了重要的空间信息。

最后基于F¹和M_s(F¹)得到的具有注意力能力的特征F²。

进一步地，所述哈希层的神经元数等于目标哈希编码的位数k，其激活函数为：

其中，ρ为大于1的超参数。

通过在哈希层使用上述改进的激活函数，使其在不改变特征分布的情况下，一定程度地控制量化误差，提高最终得到的哈希编码的表达效果。

进一步地，所述训练注意力哈希网络模型过程中，采用小批量梯度下降法作为优化器，设置初始学习率为0.002，哈希层学习率是其他层学习率的10倍，α＝β＝0.3k，k为哈希编码的位数，训练batch size为128，训练迭代总次数为1000次，每隔200次各层学习率减小一半，直至网络收敛或者达到迭代总次数停止，即得到最终的基于注意力机制的哈希特征提取模型。

进一步地，所述三元组图像对样本通过如下方法选择：

利用Hoffer提出的三元组网络模型和/或Google基于三元组网络的人脸识别网络模型FaceNet中选举三元组图像对样本的策略，根据训练集中各图像及其对应的标签随机生成小批量三元组图像对样本，再在每轮训练迭代之前计算各三元组图像对样本之间的嵌入式表达，最后只选择Semi-hard Triplets作为输入用于训练；这样可以在全局范围内寻找出具有区分性和鉴别意义的三元组图像对样本，在保证网络模型训练效率的情况下，提高图像识别的精度。

进一步地，所述基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码具体包括：

利用预先训练好的基于注意力机制的哈希特征提取模型提取每一张图像的连续哈希编码特征；

每一张图像的连续哈希编码特征经过sign激活函数后对应得到每一张图像最终的离散哈希编码；

所述基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码具体包括：

利用预先训练好的基于注意力机制的哈希特征提取模型提取待检测图像的连续哈希编码特征；

待检测图像的连续哈希编码特征经过sign激活函数后得到待检测图像最终的离散哈希编码。

第二方面，提供了一种基于注意力机制的图像检索装置，包括：

图像特征库建立模块，用于针对原始数据集中每一张图像，基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码，进而建立与该原始数据集对应的图像特征库；

待检测图像离散哈希编码生成模块，用于基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码；

检索模块，在图像特征库中查询与待检测图像的离散哈希编码汉明距离最近的数据，该数据在原始数据集中对应的图像即为检索结果；

第三方面，提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器加载时执行如上所述的基于注意力机制和哈希的图像检索方法。

有益效果

本发明提出了一种基于注意力机制和哈希的图像检索方法、装置及存储介质，通过预先训练了一种基于注意力机制的哈希特征提取模型，其充分发挥了深度卷积神经网络提取原始图片抽象语义特征的能力，得到表达效果更佳的图片中间特征表达，很好的解决了传统的语义鸿沟问题；考虑到哈希编码位数的有限性，在提取图片中间特征表达的子网络中嵌入注意力模块，使得特征提取网络能够专注于原始图像中能尽可能表达整张图像语义信息的视觉内容，进而提高最终哈希编码的表达效果。通过本方案可以实现对特定图像的更加精确、快速的检索，从而提高人们对目标图像数据的获取效率。

附图说明

图1是本发明实施例提供的一种基于注意力机制和哈希的图像检索方法流程图；

图2是本发明实施例提供的一种基于注意力机制和哈希的图像检索装置结构示意图。

具体实施方式

下面结合附图及具体实施方式对本发明进行详细说明。

实施例1

如图1所示，本实施例提供了一种基于注意力机制和哈希的图像检索方法，包括：

S01：针对原始数据集中每一张图像，基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码，进而建立与该原始数据集对应的图像特征库；

S02：基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码；

S03：在图像特征库中查询与待检测图像的离散哈希编码汉明距离最近的数据，该数据在原始数据集中对应的图像即为检索结果；

具体的，所述基于注意力机制的哈希特征提取模型通过如下方法训练得到：

其中样本x_i表示第i幅图像。具体实施时，可根据具体需求，将公开或者私人图像数据集合作为原始数据集，并且将其中的图像数据依照标签类别的种类选取一定比例的图像数据作为训练数据，在此，我们将一个包含Z幅图像的训练集定义为

其中x_i表示第i幅图像，假设图像x_i的离散哈希编码为b_i∈{-1，1}^k，图像x_i的连续哈希编码为f_i∈(-1，1)k，k代表哈希编码位数，图像从原始空间到汉明空间的非线性映射：Φ：X→B，其中X代表图像集合，B代表对应的哈希编码集合。可选地，对训练集中每幅图像均进行预处理，具体为将每幅图像的尺寸调整至预设尺寸。

构建注意力哈希网络模型：该注意力哈希网络模型包含依次连接的五个卷积-池化层、注意力模块、两个全连接层、哈希层。该注意力哈希网络模型是在原始AlexNet网络模型上改进的，先在AlexNet网络中的第五个卷积-池化层和第一个全连接层之间嵌入了注意力模块，再将AlexNet网络中最后一个全连接层改为哈希层，最后将改进后得到的注意力哈希网络模型作为一个整体来进行网络的训练与优化。

其中，在嵌入注意力模块时，该注意力模块采用了CBAM方法中的通道和空间注意力模块。对于一个卷积神经网络的中间层特征图

生成相对应的一个一维通道注意力图

和一个二维空间注意力图

其中C表示输入注意力哈希网络模型的图像的通道数，H和W分别代表输入注意力哈希网络模型的图像的高度和宽度。

具体的，所述通道和空间注意力模块的处理过程可以表示如下：

其中，

二维空间注意力图M_s(F¹)通过如下过程得到：

空间注意力模块将输入的中间特征F¹做基于channel(通道)的最大池化和平均池化，然后将所得两个结果进行拼接，再经过卷积操作进行降维，最后经过sigmoid函数激活处理，得到最终的M_s(F¹)。在通道的维度上使用最大池化和平均池化得到两个不同的特征描述，拼接之后生成二维空间注意力图，再使用较大的卷积核进行卷积，从而保留了重要的空间信息。

最后基于F¹和M_s(F¹)得到的具有注意力能力的特征F²；得到的F²作为第一个全连接层的输入。

其中，所述哈希层的神经元数等于目标哈希编码的位数k，使得其可以直接生成连续哈希编码。此外，为了避免离散空间不可导问题和不改变原始特征的分布，考虑使用饱和激活函数来实现近似的哈希映射，Sigmoid和tanh函数在极大或极小输入值时，都会出现梯度消失的情况，而且sigmoid函数的值是非0均值的，这会导致网络的收敛速度变慢；而Softsign函数作为tanh函数的平滑变体，本身就能一定程度地减缓梯度消失的情况，另外，本方案中使用了一种改进的Softsign方法，改进的激活函数如下式：

其中，ρ为大于1的超参数，ρ随机初始化为大于1的数，之后和其他网络参数一样由整个网络来进行迭代优化它的取值。通过在哈希层使用上述改进的激活函数，使其在不改变特征分布的情况下，一定程度地控制量化误差。

训练注意力哈希网络模型：

从训练集中挑选出用于训练的三元组图像对样本集合；本实施例中，所述三元组图像对样本通过如下方法选择：参照Hoffer提出的三元组网络模型和/或Google基于三元组网络的人脸识别网络模型FaceNet中选举三元组图像对样本的策略，根据训练集中各图像及其对应的标签随机生成小批量三元组图像对样本，再在每轮训练迭代之前计算各三元组图像对样本之间的嵌入式表达，最后只选择Semi-hard Triplets作为输入用于训练。这样可以在全局范围内寻找出具有区分性和鉴别意义的三元组图像对样本，在保证网络模型训练效率的情况下，提高图像识别的精度。

定义目标损失函数为：

其中，x^a为锚样本，x^p为正例样本，xⁿ为负例样本，N为三元组图像对样本数量，α和β都是超参数，α表示D(b^a，b^p)与D(b^a，bⁿ)之间的距离边界值，β表示D(b^p，b^a)与D(b^p，bⁿ)之间的距离边界值，b^a为所取三元组图像对样本集合中所有锚样本经过Φ函数的集合，b^p为所取三元组图像对样本集合中所有正例样本经过Φ函数的集合，bⁿ为所取三元组图像对样本集合中所有负例样本经过Φ函数的集合，D(b_i，b_j)表示b_i与b_j的汉明距离，其中Φ函数为图像从原始空间到汉明空间的非线性映射：Φ：X→B，其中X代表图像集合，B代表对应的哈希编码集合；f_i∈(-1，1)^k代表图像x_i的连续哈希编码，D(f_i，f_j)表示f_i与f_j的汉明距离，公式如下，其中k为哈希编码的位数；

具体的，经典的三元组损失函数专注于缩小锚样本与正例样本之间的距离和扩大锚样本与负例样本之间的距离，而忽略了正例样本与负例样本之间的距离约束，从而难以避免正例样本与负例样本之间的距离小于锚样本与正例样本之间的距离的情况，本方案针对这一问题对损失函数进行了改进，真正地实现类与类之间的距离大于类内部之间的距离，具体关系如下：

D(x^a，x^p)+α＜D(x^a，xⁿ)，D(x^p，x^a)+β＜D(x^p，xⁿ)

其中，x^a为锚样本，x^p为正例样本，xⁿ为负例样本，α为D(x^a，x^p)与D(x^a，xⁿ)之间的距离边界值，β为D(x^p，x^a)与D(x^p，xⁿ)之间的距离边界值。根据上式的距离关系和其对应的距离学习任务，结合本方案的哈希学习使用场景，提出了改进的三元组损失函数，如下所示：

其中，N为三元组图像对样本的数量，b^a为所取三元组图像对样本集合中所有锚样本经过Φ函数的集合，同理，b^p为所取三元组图像对样本集合中所有正例样本经过Φ函数的集合，bⁿ为所取三元组图像对样本集合中所有负例样本经过Φ函数的集合，α是D(b^a，b^p)与D(b^a，bⁿ)之间的距离边界值，β是D(b^p，b^a)与D(b^p，bⁿ)之间的距离边界值，D(b_i，b_j)表示b_i与b_j的汉明距离，其中k为哈希编码的位数，＜a，b＞代表向量内积运算。具体如下式所示：

由于b是二值哈希编码，所以之前的损失函数存在的二值约束的离散优化问题，难以通过反向传播算法进行网络学习，因此将离散哈希编码b松弛为连续哈希编码f，由此得到本方案用于网络训练的最终目标损失函数，如下式：

本实施例中，在训练注意力哈希网络模型过程中，采用小批量梯度下降法作为优化器，设置初始学习率为0.002，哈希层学习率是其他层学习率的10倍，距离边界值α＝β＝0.3k，k为哈希编码的位数，训练batch size为128，训练迭代总次数为1000次，每隔200次各层学习率减小一半，直至网络收敛或者达到迭代总次数停止，即得到最终的基于注意力机制的哈希特征提取模型。

由于上述基于注意力机制的哈希特征提取模型从图像提取的是连续哈希编码特征，故所述基于预先训练好的基于注意力机制的哈希特征提取模型得到原始数据集中每一张图像的离散哈希编码具体包括：

利用预先训练好的基于注意力机制的哈希特征提取模型提取原始数据集中每一张图像的连续哈希编码特征；

以及所述基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码具体包括：

待检测图像的连续哈希编码特征经过sign激活函数后得到待检测图像最终的离散哈希编码。可选地，待检测图像输入基于注意力机制的哈希特征提取模型之前进行预处理，具体为将待检测图像的尺寸调整至预设尺寸。

实施例2

如图2所示，本实施例提供了一种基于注意力机制的图像检索装置，包括：

图像特征库建立模块1，用于针对原始数据集中每一张图像，基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码，进而建立与该原始数据集对应的图像特征库；

待检测图像离散哈希编码生成模块2，用于基于预先训练好的基于注意力机制的哈希特征提取模型得到待检测图像的离散哈希编码；

检索模块3，在图像特征库中查询与待检测图像的离散哈希编码汉明距离最近的数据，该数据在原始数据集中对应的图像即为检索结果；

本方案的其他具体实现方案参见实施例1提供的一种基于注意力机制和哈希的图像检索方法，在此不再赘述。

实施例3

本实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器加载时执行如实施例1提供的一种基于注意力机制和哈希的图像检索方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

为了进一步理解本发明的方案及有益效果，下面通过一组对比试验进行说明。

在MNIST和CIFAR-10两个图像集上进行了实验，MNIST图像集包含了70000张大小为28×28的灰度图像，由0～9组成的10类手写体数字。其中包含60000张手写体训练图像集和10000张手写体测试图像集。CIFAR-10图像集包含了60000张大小为32×32的彩色图像，由车、马等组成的10个分类，每个类别由6000张图像样本组成，5000张为训练数据集，1000张为测试数据集。实验时，从每个类别中随机选取500张图像作为训练集和100张图像作为测试集。此外，所有训练图片在输入网络模型前先调整(resize)到256×256，然后随机裁剪为227×227大小；所有测试图片直接调整到227×227。

实验对比其他几种主流哈希方法。例如，无监督的哈希方法：LSH、ITQ和SH，监督的哈希方法：KSH、BRE和CCA，以及利用深度学习与哈希技术相结合的哈希方法：CNNH、DNNH和HashNet。

针对传统的哈希算法，采用DeCAF7特征作为输入，而针对深度哈希算法直接使用预处理后的图像作为输入；并且为了实验对比公平，对于所有深度哈希算法都采用AlexNet网络结构，为减少训练所用时间，使用现有的AlexNet模型的参数用于初始设定，微调参数继续训练过程。本文将注意力模块嵌入到Alexnet第5层卷积-池化层后，微调AlexNet预训练模型的Conv1～Conv5，FC6，FC7层，其他层从头开始训练。本文采用小批量梯度下降法作为优化器，设置初始学习率为0.002，哈希层学习率是其他层学习率的10倍，边界值α＝β＝0.3k，k为哈希编码的位数，k依次为16、32、48和64，训练batch size为128，训练迭代总次数为1000次，每隔200次学习率减小一半，结果如下表：

表1：MNIST数据集检索精确度(mAP)结果对比

表2：CIFAR-10数据集检索精确度(mAP)结果对比

实验结果表明，在评估指标mAP下，有监督哈希算法效果明显优于无监督哈希算法，并且深度哈希算法要优于传统监督哈希算法，本发明的方法在不同码位数下mAP均优于所有对比的算法。与同样使用三元组损失的端到端的DNNH方法相比，在MNIST数据集上不同比特的哈希码上分别有着0.6％、0.4％、1.2％和1.3％的提升，在CIFAR-10数据集上不同比特的哈希码上分别有着9.9％、16.1％、14.9％和15.4％的提升，这是由于本文还考虑了特征学习过程中无效信息的干扰情况和最终生成哈希码的量化误差问题；与本文性能最为接近的HashNet方法相比，在MNIST数据集上不同比特的哈希码上分别有着0.4％、0.1％、1％和1.1％的提升，在CIFAR-10数据集上不同比特的哈希码上分别有着0.7％、1.1％、0.7％和1％的提升，虽然同样是使用平滑的激活函数来控制量化误差，但本文在特征学习过程中加入注意力模块，提高了模型抓取有效视觉信息的能力。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和哈希的图像检索方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述基于注意力机制的哈希特征提取模型通过如下方法训练得到：

其中样本x_i表示第i幅图像；

训练注意力哈希网络模型：

从训练集中挑选出用于训练的三元组图像对样本集合；

定义目标损失函数为：

其中，x^a为锚样本，x^p为正例样本，xⁿ为负例样本，N为三元组图像对样本数量，α和β均为超参数，f_i∈(-1，1)^k代表图像x_i的连续哈希编码，D(f_i，f_j)表示f_i与f_j的汉明距离，其中k为哈希编码的位数；

3.根据权利要求1或2所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述注意力模块为CBAM方法中的通道和空间注意力模块。

4.根据权利要求3所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述通道和空间注意力模块的处理过程表示如下：

其中，

通道注意力模块将输入的中间层特征图F分别经过最大池化和平均池化处理后，再将所得结果输入共享多层感知机，然后将得到的输出对应元素相加，最后经过sigmoid函数激活处理，得到最终的M_c(F)；

二维空间注意力图M_s(F¹)通过如下过程得到：

空间注意力模块将输入的中间特征F¹做基于_ch_annel的最大池化和平均池化，然后将所得两个结果进行拼接，再经过卷积操作进行降维，最后经过sigmoid函数激活处理，得到最终的M_s(F¹)；

最后基于F¹和M_s(F¹)得到的具有注意力能力的特征F²。

5.根据权利要求2所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述哈希层的神经元数等于目标哈希编码的位数k，其激活函数为：

其中，ρ为大于1的超参数。

6.根据权利要求2所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述训练注意力哈希网络模型过程中，采用小批量梯度下降法作为优化器，设置初始学习率为0.002，哈希层学习率是其他层学习率的10倍，α＝β＝0.3k，k为哈希编码的位数，训练batchsize为128，训练迭代总次数为1000次，每隔200次各层学习率减小一半，直至网络收敛或者达到迭代总次数停止，即得到最终的基于注意力机制的哈希特征提取模型。

7.根据权利要求2所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述三元组图像对样本通过如下方法选择：

利用Hoffer提出的三元组网络模型和/或Google基于三元组网络的人脸识别网络模型FaceNet中选举三元组图像对样本的策略，根据训练集中各图像及其对应的标签随机生成小批量三元组图像对样本，再在每轮训练迭代之前计算各三元组图像对样本之间的嵌入式表达，最后只选择Semi-hard Triplets作为输入用于训练。

8.根据权利要求1所述的基于注意力机制和哈希的图像检索方法，其特征在于，所述基于预先训练好的基于注意力机制的哈希特征提取模型得到每一张图像的离散哈希编码具体包括：

9.一种基于注意力机制和哈希的图像检索装置，其特征在于，包括：

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，所述计算机程序被处理器加载时执行如权利要求1至8任一项所述的基于注意力机制和哈希的图像检索方法。