CN110598022A

CN110598022A - 一种基于鲁棒深度哈希网络的图像检索系统与方法

Info

Publication number: CN110598022A
Application number: CN201910718017.3A
Authority: CN
Inventors: 凌贺飞; 方杨; 李平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-12-20
Anticipated expiration: 2039-08-05
Also published as: CN110598022B

Abstract

本发明公开了一种基于鲁棒深度哈希网络的图像检索系统与方法，属于计算机视觉与模式识别领域。本发明将空间转换网络模块引入到深度哈希网络结构中，使模型能根据图片内容自适应地进行尺度缩放、旋转等仿射变换，提高模型的泛化能力。同时采取基于互学习策略，在增加网络的泛化性及鲁棒性的同时，也能提高网络的训练稳定性并加速网络的收敛。采用松弛哈希生成函数和改进网络结构松弛二值哈希码到连续的实值空间，使得网络可以进行求导并通过反向传播算法进行学习。该技术手段依据松弛哈希函数在输入前添加一个放大系数后，可以逐渐逼近符号函数，从而替代符号函数。由于去掉二值约束正则项，避免引入多余的辅助变量和计算。

Description

一种基于鲁棒深度哈希网络的图像检索系统与方法

技术领域

本发明属于计算机视觉与模式识别领域，更具体地，涉及一种基于鲁棒深度哈希网络的图像检索系统与方法。

背景技术

近年来，随着互联网技术的高速发展，互联网中每天产生海量的图片及视频数据。例如，我国“平安城市智慧社区”计划中的天眼监控系统中，每天要产生数以万计的视频文件；著名在线图片及视频分享的社交软件新浪微博每天有将近8500万视频和图片被上传，共有超过400亿张图片被分享。面对如此数量庞大的图像数据，如何高效的对图片数据建立索引，以便于在海量图像数据中能快速并准确地检索到用户所查询的目标图像，成为图像检索领域研究的热点问题。传统基于内容的图像检索对图像的颜色、纹理、布局等视觉特征进行分析，通过计算机自动提取图像的底层视觉特征，建立视觉特征索引库。但是传统的视觉特征通常维度都较高，对于大规模图像检索任务，特征所需的储存空间也会进一步增加，同时查询所需的计算量也呈指数增加，最终导致检索效率降低。基于哈希的图像检索，能够很好解决图像特征维度过高造成计算、储存及查询效率降低的问题，因此在大规模图像检索任务中被广泛使用。

自2012年，Hinton课题组参加ImageNet图像分类比赛并使用深度学习构建的AlexNet获得冠军，深度学习从此吸引了大量研究者的关注。随后，由于深度卷积神经网络在学习图像特征的卓越能力，基于深度学习的模型在图像分类、目标检测、人脸识别等一系列计算机视觉任务中都取得了重大进展。近年来，研究者开始将深度学习与传统哈希方法相结合，研究基于深度学习的图像哈希检索方法。

目前基于深度学习的图像哈希检索方法主要通过对损失函数的修改来提升检索性能功能，但是这些方法都存在一些问题：

第一，各种损失函数均有其优缺点，导致网络泛化能力及鲁棒性不足。例如，适合分类任务的损失函数不一定适合检索任务；而适合检索任务的对比损失函数会带来数据不平衡的问题，影响训练效率；三元损失函数，训练时需要精心挑选合适的三元组，限制了网络性能的提升。

第二，都面临着深度哈希中离散空间不可导问题，即深度学习的图像哈希检索方法要采用符号函数作为激活函数来实现在网络中生成二值哈希码这一操作，然而对于任意输入符号函数的梯度都是零，这使得基于反向传播算法的深度网络无法训练。尽管现有方法有使用二值约束量化损失来取代符号函数，但是二值约束量化损失会改变特征的分布，因此会对最终的检索结果造成影响。

第三，深度卷积神经网络的训练集和测试集不重合，数据分布存在一定差异，在训练集上表现好的网络在测试集上往往无法获得相同的性能，现有的方法都没有关注如何使网络同时在训练集及测试集都获得令人满意的性能，即网络的鲁棒性这个重点。尽管目前存在着一些诸如引入正则化、数据增强、Dropout和增加样本量等等方式来提高网络鲁棒性，但是例如数据增强，只是生硬地对图像进行裁剪、缩放、旋转、翻转等操作来扩充训练集，并没有考虑图片本身的内容。因此，这些方式仍然不尽如人意。

综上所述，目前在深度哈希领域内，虽然损失函数的方法已经取得了令人瞩目的表现。但是现有的深度哈希方法损失函数较为单一，无法结合各个损失函数的优点，另外，还存在离散空间不可导问题，网络的鲁棒性及泛化性较差。因此，如何对损失函数进行改进，解决各个损失函数的缺点与不足，同时设计一个合适的哈希生成函数解决深度哈希中离散空间不可导问题，设计一个新颖的网络结构增加鲁棒性，是提高深度哈希检索性能的关键所在。

发明内容

针对现有技术深度哈希中存在的离散空间不可导问题、损失函数较为单一及网络整体的鲁棒性较差等等弊端，本发明提供了一种基于鲁棒深度哈希网络的图像检索系统与方法，其目的在于先通过一个改进的网络结构与“松弛”哈希生成函数相结合的方式，去掉二值约束正则项，避免引入多余的辅助变量和计算；然后改进网络损失函数，结合各个损失函数的优点，进一步提高哈希检索的性能；再通过空间转换网络模块根据图片内容学习各种各样的空间形变信息，提高网络的鲁棒性和泛化性；最后引入互学习的训练策略，提高网络训练过程的收敛。该方法既能保留端到端深度哈希的优越性能，又能使整个网络可以进行求导并通过反向传播算法进行学习，最后通过空间转换网络模块和互学习策略能够在增强模型的鲁棒性和泛化能力的同时保证网络的收敛。

为实现上述目的，按照本发明的一个方面，提供了一种基于鲁棒深度哈希网络的图像检索系统，所述图像检索系统包括：

输入模块，用于选择图像训练集和输入待识别图像；

鲁棒深度哈希网络，其包括串联的空间转换模块和第一深度哈希网络，所述空间转换模块用于对输入的图像做出各种仿射形变攻击，得到转换后的图像，所述第一深度哈希网络用于根据转换后的图像，生成图像的二值哈希码；

训练模块，用于采用图像训练集对所述鲁棒深度哈希网络进行训练，得到训练好的鲁棒深度哈希网络；

步态识别模块，用于将所述待识别图像输入至训练好的鲁棒深度哈希网络，将提取到的二值哈希码进行比对，输出图像检索结果。

具体地，所述图像检索系统还包括：

第二深度哈希网络，其用于根据输入的图像，生成图像的二值哈希码；

训练模块，用于采用图像训练集基于互学习策略对所述鲁棒深度哈希网络和所述第二深度哈希网络进行训练，得到训练好的鲁棒深度哈希网络和训练好的第二深度哈希网络；

步态识别模块，用于将所述待识别图像输入至训练好的第二深度哈希网络，将提取到的二值哈希码进行比对，输出图像检索结果。

具体地，所述空间转换模块包括定位网络、网格生成器和转换模块；其中，

所述定位网络包括串联的2个卷积层、1个池化层、2个全连接层，用于将图像转化为仿射矩阵；

所述网格生成器用于通过仿射矩阵实现图像的坐标转换，输出坐标转换后的网格；

所述转换模块，用于将图像与转换后的网格进行矩阵相乘，输出转换后的图像。

具体地，网格生成器中仿射变换定义如下：

其中，是输出图片的目标坐标，是输入图片I_i对应位置的原坐标，A_θ为仿射矩阵。

具体地，所述深度哈希网络以AlexNet网络为基干网络，所述AlexNet网络包括2个全连接层，第一个全连接层用于嵌入图像的高层次语义特征，第二个全连接层用于学习松弛哈希生成函数的超参数，在AlexNet网络的最后一个全连接层后添加了1个全连接层，用于通过松弛哈希函数生成图像的二值哈希码。

具体地，所述松弛哈希函数计算公式如下：

h_ij＝tanh(βx_ij)

其中，x_ij为图像I_i对应二值哈希码x_i的第j位哈希码，j＝1,2,…,k，k为图像二值哈希码的总长度，β为放大系数。

具体地，总体损失函数定义如下：

L(Y,S,H)＝L_c+αL_d

其中，L_c为分类损失，L_d为对比损失。

具体地，训练第二深度哈希网络时，总体损失函数定义如下：L(Y,S,H)＝L_c+αL_d+γ₁D_KL(p₁||p₂),训练鲁棒深度哈希网络时，总体损失函数定义如下：L(Y,S,H)＝L_c+αL_d+γ₂D_KL(p₂||p₁)，其中，L_c为分类损失，L_d为对比损失，D_KL(p₁||p₂)为从p₁到p₂的KL散度距离，D_KL(p₂||p₁)为从p₂到p₁的KL散度距离。

具体地，

其中，Y是图片的标签集合，y_i∈Y，W_c∈R^k×M是分类部分的权重，k为哈希码位数，M为类别数，H＝tanh(X)，为分类前的特征，h_i∈H，X表示x_i的集合，x_i为图片I_i的哈希码，h_i为x_i松弛之后的结果，y_i是图片I_i的类别标签，b_i,b_j∈{+1,-1}^k代表图片I_i,I_j的二值哈希码；s_ij图片相似对标签，s_ij＝1代表x_i与x_j相似，反之亦然；<b_i,b_j>代表b_i,b_j之间的距离，m为阈值参数，α∈[0,1]。

为实现上述目的，按照本发明的另一个方面，提供了一种基于鲁棒深度哈希网络的图像检索方法，所述图像检索方法包括：

采用图像训练集对鲁棒深度哈希网络进行训练，得到训练好的鲁棒深度哈希网络；

将所述待识别图像输入至训练好的鲁棒深度哈希网络，将提取到的二值哈希码进行比对，输出图像检索结果，

其中，所述鲁棒深度哈希网络，其包括串联的空间转换模块和第一深度哈希网络，所述空间转换模块用于对输入的图像做出各种仿射形变攻击，得到转换后的图像，所述第一深度哈希网络用于根据转换后的图像，生成图像的二值哈希码。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)针对网络泛化能力不足问题，本发明将空间转换网络模块引入到深度哈希网络结构中，使模型能根据图片内容自适应地进行尺度缩放、旋转等仿射变换，从而能够学习到更为广泛特征分布，提高模型的泛化能力。该技术手段依据空间转换网络可以根据图片内容学习到各种各样的空间仿射变换信息。同时采取基于互学习策略，在增加网络的泛化性及鲁棒性的同时，也能提高网络的训练稳定性并加速网络的收敛。

(2)针对深度哈希离散空间不可导问题，本发明采用松弛哈希生成函数和改进网络结构松弛二值哈希码到连续的实值空间，使得网络可以进行求导并通过反向传播算法进行学习。该技术手段依据松弛哈希函数在输入前添加一个放大系数后，可以逐渐逼近符号函数，从而替代符号函数。由于去掉二值约束正则项，避免引入多余的辅助变量和计算。

(3)本方法对深度哈希网络中的损失函数进行改进，通过分类损失和对比损失相结合的方式，有效的利用了数据的标签信息，使之在能够保证特征区分性的同时还能适应检索任务。

附图说明

图1为本发明实施例提供的本发明中的改进AlexNet网络结构图；

图2为本发明实施例提供的改进的网络结构和损失函数示意图；

图3为本发明实施例提供的空间转换模块结构图；

图4为本发明实施例提供的结合空间转换网络的深度哈希模型结构图；

图5为本发明实施例提供的一种基于鲁棒深度哈希网络的图像检索系统结构示意图；

图6为本发明实施例提供的经过STN之后第1个训练周期的结果可视化图；

图7为本发明实施例提供的经过STN之后第12个训练周期的结果可视化图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明在基于深度学习的图像哈希检索方法上，提出一种基于鲁棒深度哈希网络的图像检索系统与方法，并对深度哈希网络中的离散空间求导、损失函数、网络结构和训练策略做出改进。

本发明将所述方法分为四个阶段：松弛哈希函数引入阶段；损失函数修改阶段；鲁棒哈希网络模型构建阶段；互学习策略引入阶段。

1、松弛哈希函数引入阶段

(1.1)选择基干网络

本发明采用AlexNet网络结构作为深度哈希的基干网络。如图1所示，AlexNet网络包括5个卷积层、3个池化层、2个全连接层，从前到后的顺序依次为：卷积层1、池化层1、卷积层2、池化层2、卷积层3、卷积层4、卷积层5、池化层3、全连接层6、全连接层7。其中，卷积层1的卷积核大小为11*11，卷积核数量为64，步长为4。

第一个全连接层(全连接层6)用于嵌入图像的高层次语义特征，其输入为特征图，输出为4096维的特征向量。第二个全连接层(全连接层7)为后续松弛哈希生成函数提供可调节参数学习，其输入为4096维的特征向量，输出为4096维的特征向量。本发明在AlexNet网络的最后一个全连接层之后添加了一个全连接层，用于生成二值哈希码，所以其神经元个数和哈希码位数一致，其输入为4096维的特征向量，输出为k位的哈希码x_i1x_i2…x_ik。

图像首先经过一系列卷积层提取一系列特征，从最开始的底层视觉特征如颜色、纹理、布局等，然后通过池化层降低特征维度并且给予特征一定平移不变性。随后在高层的卷积层6将底层视觉特征组合成更高层次的语义特征。最后通过全连接层嵌入高层次语义特征并通过松弛哈希函数生成图像的二值哈希码。

(1.2)松弛哈希函数引入阶段

由于二值约束量化损失函数会改变特征分布，影响最终得到二进制哈希的检索性能，于是本发明使用饱和激活函数来实现近似哈希映射，松弛哈希函数计算公式如下：

h_ij＝tanh(βx_ij)

其中，x_ij为图片I_i对应的第j位哈希码。

当β逐渐增大时，h_ij＝tanh(βx_ij)逐渐变得不平滑，直至最后和符号函数重合，即lim_β→∞tanh(βx)＝sgn(x)。本发明用全连接层7来学习饱和激活函数输入之前的超参数β，其具体实现如下：

其中，Φ(I_i；θ)代表图片I_i经过AlexNet后的特征输出，W^T代表全连接层的权重，v代表全连接层的偏置，表示图片I_i输出的哈希码x_i1x_i2…x_ik。

分类器

分类器为全连接层W_c，用于将k位的哈希码转化为M位的类别概率向量。

2、损失函数修改阶段

为了解决各个损失函数的缺点与不足，本发明对深度学习的哈希方法中网络的损失函数进行改进，结合各个损失函数的优点，从而提高提高哈希检索的性能。改进的网络结构和损失函数示意如图2所示。

(2.1)对比损失函数

在哈希检索任务中，语义相似的图片应该拥有相似的二值哈希码，具体来说，相似图片的二值哈希码应该在汉明空间尽可能的接近，而不相似的图片的二值哈希码应该在汉明空间尽可能的远。对比损失的定义如下：

其中，b_i,b_j∈{+1,-1}^k代表图片I_i,I_j的二值哈希码；s_ij图片相似对标签，s_ij＝1代表x_i与x_j相似，反之亦然；<b_i,b_j>代表b_i,b_j之间的距离，这里直接使用向量内积计算得到，m为阈值参数，一般取值2k，k为哈希码位数。

但是对比损失会带来数据不平衡的问题，这是由于对比损失函数需要在训练时根据图片标签构建图片对，而在一个训练批次中，相似图片对(正样本)的数量远远小于不相似图片对(负样本)数量，这会导致网络训练过程中过于注重负样本带来的损失，而正样本无法充分训练，影响网络的训练效率。

(2.2)分类损失函数

图像的标签信息不仅可以用于构建图片标签对，更可以直接用于分类，采用分类损失也具有其独特的优点，即基于特征能够被分类这个前提，加入分类损失后，往往得到的特征能够很好的保留高层次的语义信息，通过这个高层次的语义信息，特征才能够被很好的分类。分类损失定义如下：

其中，Y是图片的标签集合，y_i∈Y，W_c∈R^k×M是分类部分的权重，k为哈希码位数，M为类别数，H＝tanh(X)，为分类前的特征，h_i∈H，X表示x_i的集合，x_i为图片I_i的哈希码，h_i为x_i松弛之后的结果，y_i是图片I_i的类别标签。

(2.3)结合对比与分类的损失函数

由于对比损失和分类损失各有优缺点，所以本发明将两者结合，总体损失函数定义如下：

L(Y,S,H)＝L_c+αL_d

通过将对比损失和分类损失相结合，能够取长补短，并且能够发挥各自的优点，例如对比损失本身就是为检索任务而设计的，通过对比损失约束，最终获得的特征能够获得很好的检索效果，对于对比损失中的数据不平衡问题导致网络训练过程中过于注重负样本对带来的损失问题，在加入分类损失后，每一对样本对在维系本来空间关系的基础上还要保持原本的高层次语义信息使之能够被分类，这样就降低了负样本对损失带来的影响，另外，通过超参数α能够控制对比损失的在整体损失函数上的影响，α∈[0,1]。

3、鲁棒哈希网络模型构建阶段

本发明将空间转换网络(STN)和深度哈希网络相结合，使网络能根据图片内容自适应地进行尺度缩放、旋转等仿射变换，从而能够学习到更为广泛分布。和原本的STN将形变的图像修正恰恰相反，本发明利用STN对空间变换信息的强大学习能力，根据图片内容对图片进行自适应的仿射变换。受益于STN网络，本发明的深度哈希网络能够学习到图片各种各样的空间形变信息，极大提升了网络的鲁棒性和泛化能力。

空间转换模块

如图3所示，空间转换模块包括定位网络、网格生成器和转换模块。定位网络由2个卷积层、1个池化层、2个全连接层串联而成，用于将图片转化为仿射矩阵A_θ。网格生成器用于通过仿射矩阵实现图片的坐标转换，输出坐标转换后的网格。将特征图或图片与转换后的网格进行矩阵相乘，输出转换后的图片。

这个模块可以直接加在现有的深度卷积网络中，可以放在输入层之前用于转换输入图片，或者放在后续的卷积层之后用于转换特征图。由于空间转换网络对于空间变换信息的有着强大学习能力，因此将空间转换模块加入本发明的深度哈希网络中能够学习到图片各种各样的空间形变信息，网格生成器中仿射变换定义如下：

其中，是输出图片的目标坐标，是输入图片I_i对应位置的原坐标，A_θ为仿射矩阵。通过该仿射矩阵的6个参数，该空间转换模块可以实现裁剪、平移、旋转、缩放等变换。

和原本的空间转换网络将形变的图片恢复正常不同，本发明在这里使用空间转换模块对正常的图片做出各种仿射形变攻击，从而使网络在得到形变图片后能够学习到各种各样的空间形变信息，从而提高网络的鲁棒性及泛化性。

如图4所示，图像首先经过空间转换网络模块，通过空间转换网络模块中的卷积层提取出图片的特征，然后通过后续的全连接层学习出输出仿射矩阵A_θ的六个参数，然后根据仿射矩阵对图片进行仿射变换，最后输入到改进的AlexNet网络中。

4、互学习策略引入阶段

虽然结合了STN网络能够有效地提高深度哈希网络的鲁棒性和泛化能力，但是将STN与深度哈希网络结合的同时使整体网络训练难度进一步增加。深度哈希学习需要在同一个网络中进行STN网络训练、图片特征学习、哈希映射函数学习等任务，这使得网络训练变得极不稳定。

(4.1)互学习策略

假设有两个网络Θ₁和Θ₂，对于网络Θ₁关于输入x_i属于m个类别的概率计算方式如公式：

其中，是网络Θ₁的“Softmax”层的输出。为了使两个网络Θ₁和Θ₂能够相互学习，这里使用两个网络的预测概率p₁和p₂相互匹配学习，对于p₁和p₂的匹配程度，这里用KL(KullbackLeibler)散度来衡量，从p₁到p₂的KL散度距离计算方式如下：

其中，p₁和p₂为两个网络的预测概率，N表示样本数，M表示类别数。

(4.2)基于互学习策略伪孪生网络结构

和原始互学习策略中每个学生网络都一样不同，如图5所示，本发明采取伪孪生网络，即使用一个没有STN的网络深度哈希网络Θ₁和加入STN的深度哈希网络Θ₂相互学习训练，一般而言互学习中的训练策略是异步的，但是在本发明的伪孪生网络训练中，采取同步更新的训练方式，即在一个训练批次中同时更新Θ₁和Θ₂的参数，这是由于采取互学习策略的目的是使用一个没有STN的网络深度哈希网络Θ₁在初期能指导加入STN的深度哈希网络Θ₂中的STN训练，使STN不至于在初期训练发散，而在后期加入STN的深度哈希网络Θ₂能够指导深度哈希网络Θ₁学习到各种各样的空间形变信息，增加网络的泛化性及鲁棒性。

将待识别图片输入至训练好的基于互学习机制的深度哈希网络，得到该图片的二值哈希码，将该二值哈希码与数据库中二值哈希码进行比对，输出检索结果，即相似度最为接近的若干图片。

实施例

为了证明基于互学习机制的鲁棒图像哈希检索方法在性能上具有优势，本发明通过以下实验进行验证与分析：

A、实验数据集

(1)CIFAR-10

CIFAR-10数据集包含60000张32*32大小的彩色图像，其中分别包含10个类别：飞机、汽车、鸟、猫、鹿等等。每个类别有6000张图片，其中50000张图片为训练集，另外10000张图片为测试集。CIFAR-10数据集中的图片为单标签数据，意味着每张图片有且仅有一个类别。

(2)NUS-WIDE

NUS-WIDE数据集包含269648张从Flickr从上搜集的图像数据，总共有81个类别。和CIFAR-10不同，NUS-WIDE中的数据为多标签数据，即每张图片可能有一个或多个标签。本发明仅仅选取出现频率最高的21个类别，并且每个类别至少有5000张图片样本。因此，最终从NUS-WIDE中选取了195834张图片，其中185834张图片为训练集，另外10000张图片为测试集。

(3)数据集选取策略

本发明从CIFAR-10中随机选取1000张图片作为查询集(每类100张图片)，然后从剩下的数据中随机选取5000张图片(每类500张图片)作为训练集。对于成对标签集S的构建，基于以下原则：如果两张图片具有相同的标签，那么就认为这两张图片是相似图片对。

对于NUS-WIDE，本发明从出现频率最高的21个类别中随机选取2100张图片(每类100张图片)，然后从剩下的数据中随机选取10500张图片(每类500张图片)作为训练集。对于成对标签集S的构建，基于以下原则：如果两张图片至少具有一个相同的标签，那么就认为这两张图片是相似图片对，否则为不相似图片对。

B、评价标准

本发明采用图像检索任务中最常用的平均准确率(mean Average Precision,mAP)作为评价标准。mAP是查询集中各个类别AP的平均值，而AP为PR(Precision-Recall)曲线下的面积。假设查询样本q_i一共返回n个查询结果，R是返回查询结果中所有正确的样本数，R_j是前j个结果中正确的样本数。AP和mAP的计算方法分别如公式所示：：

本发明在CIFAR-10和NUS-WIDE上计算top 5000的返回值的mAP，即mAP@5000。

C、实验平台

硬件:Intel Core i5-6500，内存2*16G DDR4 2400MHz,NVIDIA GeForce GTX1080×2,显存8×2G。

软件：操作系统Ubuntu16.0464位，实验平台TensorFlow,Matlab R2016a。

D、实验结果

(1)消融实验：

为了分析本发明提出的空间转换网络和深度哈希网络相结合的网络结构，及基于互学习策的作用，除了训练结合了各个创新点的模型RMLH(本发明方法)外，还另外训练了三个在RMLH(本发明方法)基础上的变体网络进行测试，分别是：(1)RMLH-MS：既不用STN，也不采取互学习策略的网络模型；(2)RMLH-M：只结合STN网络的深度哈希网络，不采用互学习策略；(3)RMLH-S：不使用STN网络，使用互学习策略对两个相同的网络进行异步更新，结果如表1所示：

表1变体网络在CIFAR-10数据集上的结果

(2)和其他方法比较

实验表明，相比于其他工作，本发明方法在CIFAR-10和NUS-WIDE上均获得了优异的检索性能，实验结果如下表所示：

表2与现有方法在CIFAR-10和NUS-WIDE上的实验对比

从表1结果可知通过结合创新点的RMLH(本发明方法)模型，在CIFAR-10数据集上不同长度的哈希码的平均mAP比没有互学习策略和空间转换网络的RMLH–MS大约高出0.5％。值得注意的是RMLH–M的性能比RMLH–MS还要差，意味着仅仅使用STN网络虽然能够带来各种各样的空间形变信息，但是STN网络由于难以训练及收敛的原因，反而影响了网络的性能。得益于STN带来的空间形变信息并结合互学习的训练策略，RMLH(本发明方法)在CIFAR-10数据集上不同长度的哈希码的平均mAP比RMLH-S要高0.75％。

从表2可知，相比于其他哈希方法，RMLH(本发明方法)在CIFAR-10和NUS-WIDE上均获得了优异的检索性能，例如对比目前性能较好的DSDH方法，RMLH(本发明方法)在CIFAR-10数据集上大约能提高3％的平均mAP，在NUS-WIDE上大约能提高1.5％的平均mAP。另外，本发明也对经过STN之后又的图片进行可视化处理，第1个训练周期结果如图6所示，第12个训练周期结果如图7所示，可以看出STN能够随着训练次数的增加从而学习到更多形变信息，从而增强了从而按网络的泛化性和鲁棒性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于鲁棒深度哈希网络的图像检索系统，其特征在于，所述图像检索系统包括：

输入模块，用于选择图像训练集和输入待识别图像；

2.如权利要求1所述的图像检索系统，其特征在于，所述图像检索系统还包括：

3.如权利要求1所述的图像检索系统，其特征在于，所述空间转换模块包括定位网络、网格生成器和转换模块；其中，

4.如权利要求3所述的图像检索系统，其特征在于，网格生成器中仿射变换定义如下：

5.如权利要求1或2所述的图像检索系统，其特征在于，所述深度哈希网络以AlexNet网络为基干网络，所述AlexNet网络包括2个全连接层，第一个全连接层用于嵌入图像的高层次语义特征，第二个全连接层用于学习松弛哈希生成函数的超参数，在AlexNet网络的最后一个全连接层后添加了1个全连接层，用于通过松弛哈希函数生成图像的二值哈希码。

6.如权利要求5所述的图像检索系统，其特征在于，所述松弛哈希函数计算公式如下：

h_ij＝tanh(βx_ij)

其中，x_ij为图像I_i对应二值哈希码x_i的第j位哈希码，j＝1，2，…，k，k为图像二值哈希码的总长度，β为放大系数。

7.如权利要求1所述的图像检索系统，其特征在于，总体损失函数定义如下：

L(Y，S，H)＝L_c+αL_d

其中，L_c为分类损失，L_d为对比损失。

8.如权利要求2所述的图像检索系统，其特征在于，训练第二深度哈希网络时，总体损失函数定义如下：L(Y，S，H)＝L_c+αL_d+γ₁D_KL(p₁||p₂)，训练鲁棒深度哈希网络时，总体损失函数定义如下：L(Y，S，H)＝L_c+αL_d+γ₂D_KL(p₂||p₁)，其中，L_c为分类损失，L_d为对比损失，D_KL(p₁||p₂)为从p₁到p₂的KL散度距离，D_KL(p₂||p₁)为从p₂到p₁的KL散度距离。

9.如权利要求7或8所述的图像检索系统，其特征在于，

其中，Y是图片的标签集合，y_i∈Y，W_c∈R^k×M是分类部分的权重，k为哈希码位数，M为类别数，H＝tanh(X)，为分类前的特征，h_i∈H，X表示x_i的集合，x_i为图片I_i的哈希码，h_i为x_i松弛之后的结果，y_i是图片I_i的类别标签，b_i，b_j∈{+1，-1}^k代表图片I_i，I_j的二值哈希码；s_ij图片相似对标签，s_ij＝1代表x_i与x_j相似，反之亦然；<b_i，b_j>代表b_i，b_j之间的距离，m为阈值参数，α∈[0，1]。

10.一种基于鲁棒深度哈希网络的图像检索方法，其特征在于，所述图像检索方法包括：