CN111125411A

CN111125411A - 一种深度强相关哈希学习的大规模图像检索方法

Info

Publication number: CN111125411A
Application number: CN201911321749.5A
Authority: CN
Inventors: 黄青松; 单文琦; 刘利军; 冯旭鹏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-08
Anticipated expiration: 2039-12-20
Also published as: CN111125411B

Abstract

本发明涉及一种深度强相关哈希学习的大规模图像检索方法，属于图像处理技术领域。本发明把输入图像通过卷积子网络与全连接层得到的特征信息映射到特征空间中，并添加了一个哈希层以得到哈希码，然后通过强相关损失函数改变模型对权重矩阵的敏感度调节特征之间的距离，增大特征类间距离、缩小类内距离，通过计算低维哈希码之间的汉明距离完成快速图像检索。本发明方法能够实现快速、准确的大规模图像检索，并且可以广泛地使用在多种卷积神经网络中。

Description

一种深度强相关哈希学习的大规模图像检索方法

技术领域

本发明涉及一种深度强相关哈希学习的大规模图像检索方法，属于图像处理技术领域。

背景技术

随着移动设备和互联网的快速发展，每天有大量的图像被上传到网络。百万级甚至是千万级的图像数据量使得准确、快速地检索出用户需要的图像变得越来越困难。大规模图像检索是计算机视觉研究的根基，直接关系到计算机视觉的实际应用。图像检索主要分为基于文本的图像检索(Text-Based Image Retrieval,TBIR)以及基于内容的图像检索(Content-Based Image Retrieval,CBIR)。TBIR的一般方法是，对图像进行标注，再根据标注的文本进行基于关键字的检索。TBIR的优势在于用户只需要提供关键字就可以得到检索结果。但相应地，这导致检索性能的好坏很大程度上取决于用户输入的关键字准确与否。然而，在实际应用中，文本很难准确地描述相应的图像，这直接导致了TBIR检索性能差。文本的局限性使得其不适用于图像信息爆炸增长的现状，因此目前主流方法是基于内容的图像检索。CBIR根据图像本身的纹理、颜色、款式等信息进行检索，从根本上解决了TBIR的缺陷。在CBIR中，最为重要的一步是对图像信息进行提取，提取出的图像特征信息将直接决定该图像检索系统的性能好坏。目前，CBIR中常用的图像特征提取方法可分为经典方法与深度学习方法。常用的经典方法主要有以下3个方向：1)基于颜色特征。基于颜色特征的图像检索方法提取出的图像特征属于全局特征，且简单、易实现。缺点在于，该方法很难描述图像中的具体对象以及无法考虑到对象空间位置。2)基于纹理特征。基于纹理特征的图像检索方法的优点在于特征拥有旋转不变性、一定的抗噪能力。这类方法的缺点在于无法利用图像的全局信息、从二维图像得到的纹理特征不一定是相应三维物体的真实纹理，从而导致检索性能表现不好。3)基于形状上下文特征。基于形状上下文特征的图像检索方法相对于上面两种特征来说，能够描述图像中的具体对象，有一定的语义关系。通常，形状的描述子可分为轮廓和区域两种，具体的方法有链码、边界长度、小波变换、傅里叶描述子、曲率尺度空间描述子、多边形逼近等。这类方法的缺点在于计算复杂度高，无法适用于大规模的图像检索。随着互联网的快速发展，数据规模得到爆炸式增长，与此同时哈希方法与深度学习相结合的方法被广泛地应用在加速图像检索任务中。哈希方法在检索速度以及存储开销上有其它方法无法比拟的优势，它能够将高维的特征矩阵降维成紧凑的二分哈希码。目前大多数哈希方法都使用“成对”或“三元组”的输入来寻找隐藏的数据关系。这类方法必然会增大计算开销，不适用于大规模的图像检索。基于此背景，为了实现快速且准确的大规模图像检索，本发明提出了一种简单、有效、可广泛使用于各种网络结构的深度监督哈希学习方法。

发明内容

本发明提供了一种深度强相关哈希学习的大规模图像检索方法，为卷积神经网络添加哈希层及设计强相关损失层，在哈希层限制神经元个数，使得输出一个低维度的矩阵，再限制该矩阵的取值范围，从而得到松弛的哈希码，能实现快速、准确的图像检索。

本发明的技术方案是：一种深度强相关哈希学习的大规模图像检索方法，所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下：

Step1、从图像数据集中抽取数据构成训练图像数据，其次对图像进行预处理操作，输入图像经过卷积子网络，把图像信息映射到特征空间中，得到一个局部式特征表示；

Step2、再经过全连接层，把上层得到的局部式特征表示映射到样本标记空间中，再进入哈希层进行降维及哈希编码；

Step3、再进入强相关损失层，利用强相关损失函数计算出当前迭代的损失值；最后返回损失值，根据损失值更新网络参数，驱动模型的训练；

Step4、通过深度强相关哈希模型学习到目标区域的特征表示和相应的哈希码；分别输入图像库图像和待检索图像得到一个哈希码特征库和待检索图像的哈希码，再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。

进一步地，所述步骤Step1的具体步骤如下：

Step1.1、使用CIFAR-10数据集，其包含60000张尺寸为32x32的彩色图像，为了节省训练时间，将图像尺寸转换成128x128进行训练；

Step1.2、数据共有十个类别，每个类别拥有6000张图像，为了更好地训练模型及评估性能，从每个类别随机抽取1000张图像作为验证集，再随机抽取1000张图像做为检索测试集，剩余的4000张图像作为训练集；

Step1.3、输入图像依次经过五个卷积层，即卷积子网络，把图像信息映射到特征空间中，得到一个局部式特征表示。

进一步地，所述步骤Step2的具体步骤如下：

Step2.1、再经过全连接层6以及全连接层7，把得到的局部式特征表示映射到样本标记空间中，其中全连接层6的输出特征矩阵为1×1×4096，全连接层7的输出特征矩阵为1×1×4096；

Step2.2、得到的输出特征矩阵再进入哈希层进行降维及哈希编码，哈希层输出N维的图像特征，N为设置的哈希码位数；

Step2.3、通过Step2.2得到一个松弛哈希码特征库，将松弛的哈希码转换成二分哈希码，得到一个二分哈希码特征库。

进一步地，所述步骤Step3的具体步骤如下：

Step3.1、强相关损失层从Step2.2接收一个1×1×N的特征矩阵，N＝哈希码位数，通过强相关损失函数计算得到一个1×1×L的特征矩阵，L＝类别数，将强相关损失层分为损失层1和损失层2；其中，损失层1为通过强相关损失函数得到1×1×L的特征矩阵，损失层2为利用损失层1得到的特征矩阵计算损失值；

Step3.2、假定，当前样本的真实标签为i，其它标签为j；强相关损失层的输入为哈希层的输出，记为x，的维度为1×K；进入损失层1，通过设计的强相关损失函数式，

其中，m、β为超参数，m的取值为正整数，β∈(0,1)，w_ki,w_kj属于权重矩阵W，W的维度为K×L，α_i,α_j为权重相关系数，Z_i表示当前样本的真实标签对应的值，Z_j为其余标签对应的值；得到损失层1的输出矩阵，记为Z，的维度为1×L，L＝类别数；

Step3.3、由Step3.2得到的输出矩阵进入损失层2，通过交叉熵函数计算损失值，公式如下所示：

Z_i、Z_j来自Z；

Step3.4、利用强相关损失层得到的损失值能够进行反向传播，驱动网络的训练。

进一步地，所述步骤Step4的具体步骤如下：

Step4.1、待检索图像通过深度强相关哈希模型得到相应的松弛哈希码，再将松弛哈希码转换为二分哈希码，使用完整的二分哈希码进行图像检索；

Step4.2、采用汉明距离来衡量待检索图像的二分哈希码与Step2.3得到的特征库中的二分哈希码之间的相似度，再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。

本发明的有益效果是：

1、由于二分哈希码编码过程中的离散约束会造成量化损失。一些深度监督哈希学习方法使用惩罚机制来削弱离散约束带来的负面影响，但效果不够理想，本发明方法设计了一个强相关损失函数，能一定程度地解决这个问题。

2、本发明方法的强相关损失函数也是受到一元损失函数的启发并加以改进。强相关损失函数是一个根据学习目标进行调节的函数，它有以下几个优点。1)能够调节特征之间的距离，通过增加训练学习时的难度、调节权重矩阵敏感度以学习到更具有区分性的特征。2)能够适用于各种卷积神经网络结构。3)能够有效地防止发生过拟合。4)内存开销小、计算速度快。

3、本发明提出一个深度强相关哈希学习方法，能够与各种卷积神经网络结构相结合，通过迭代训练学习到一组紧凑的二分哈希码，可以实现高效的大规模图像检索。本发明方法学习到的二分哈希码在公开、大规模数据集的图像检索任务中取得较好的成绩。

综上，这种基于深度强相关哈希学习的图像检索方法，适用于大规模的商品图像检索。本发明方法的主要改进在于为卷积神经网络添加哈希层及设计强相关损失层。在哈希层做出的改进为限制神经元个数，使得输出一个低维度的矩阵，再限制该矩阵的取值范围，从而得到松弛的哈希码。在损失层使用基于常规损失函数进行改进的强相关损失函数。本发明方法保留且遵循卷积神经网络的基本结构及原理，可以应用到多种卷积神经网络中，能够实现快速、准确地商品图像检索，表现出较好的检索性能。

附图说明

图1为本发明的流程图；

图2为本发明中训练损失值对比；

图3为本发明中深度强相关哈希学习(DHIH)与其它方法MAP值对比图；

图4为本发明中检索结果图。

具体实施方式

实施例1：如图1-4所示，一种深度强相关哈希学习的大规模图像检索方法，所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下：

进一步地，所述步骤Step1的具体步骤如下：

进一步地，所述步骤Step2的具体步骤如下：

Step2.2、哈希层的上一层为全连接层7，则哈希层的输入为1×1×4096的特征矩阵，记为x_i(i＝1,2,…,4096)，w_j为权重矩阵，j的取值范围为1,2,…,n；n为哈希码的位数。由Step2.1得到的输出特征矩阵再进入哈希层进行降维及哈希编码,哈希层输出N维的图像特征(N为设置的哈希码位数)，哈希层的目的是将高维的中层图像特征表示转换成低维的松弛哈希码。局部敏感哈希认为相邻的数据在经过随机映射后依然相邻。同样地，深度强相关哈希模型的哈希层通过随机映射进行降维，相邻的数据仍然相邻，如式所示：f_j(x_i)＝x_iw_j；

Step2.3、通过Step2.2得到的再使用Sigmoid函数激活特征矩阵，使得特征值属于[0,1]，从而得到一个松弛的哈希码，根据下式

其中s(x)由sigmoid函数得出，将松弛的哈希码转换成二分哈希码，得到一个二分哈希码特征库；

进一步地，所述步骤Step3的具体步骤如下：

Step3.1、强相关损失层从Step2.2接收一个1×1×N的特征矩阵，N＝哈希码位数，通过强相关损失函数计算得到一个1×1×L的特征矩阵，L＝类别数，为了便于说明本实施例方法，将强相关损失层分为损失层1和损失层2；其中，损失层1为通过强相关损失函数得到1×1×L的特征矩阵，损失层2为利用损失层1得到的特征矩阵计算损失值；

本方法为强相关损失层设计了一个强相关损失函数。假设有样本集X_i,i∈1,2,3,…，该样本集只拥有两个分类且每个样本只属于一个类别。存在样本X₁，它的所属类别为类别1，则在softmax交叉熵损失函数中有式子：X₁W＞X₂W，则分类正确。其中，W为权重矩阵。在强相关损失函数中，添加了一个权重相关系数α，则上式变为：α₁X₁W＞α₂X₂W，其中，如能正确分类，则α₁是大于α₂的。可以通过加大模型学习的难度来迫使网络学习到更具有区分性的特征。因此，增加一个超参数m，取值为正整数。使得上式变为：α₁X₁W＞mα₂X₂W，此时，仍然希望式子左边大于右边，因为当且仅当式子左边大于右边时，分类正确。通过超参数m的设置使得模型学习难度增加，权重相关系数α使得模型对权重矩阵更为敏感，以此调节特征之间的距离，也就达到了强迫网络学习到更具有区分性特征的目的；

Step3.2、假定，当前样本的真实标签为i，其它标签为j；强相关损失层的输入为哈希层的输出，记为x，的维度为1×K；进入损失层1，通过计算得到损失层1的输出矩阵，记为Z，的维度为1×L(L＝类别数)；Z_i、Z_j属于矩阵Z，Z_i表示当前样本的真实标签对应的值，Z_j为其余标签对应的值；如果当前真实标签为0，即＝0时，Z_i的值为的第一个元素。由下式可得，即为设计的强相关损失函数式，

其中，m、β为超参数，m的取值为正整数，β∈(0,1)，w_ki,w_kj属于权重矩阵W，W的维度为K×L，α_i,α_j为权重相关系数；

Z_i、Z_j来自Z；

进一步地，在本实施例中使用哈希码位数为48的深度强相关哈希模型进行实验，将损失层中的值进行可视化。本实施例所用数据集为CIFAR-10，模型为已训练好的深度强相关哈希模型，使用t-sne进行降维并可视化。t-sne将一组高维空间的点映射到低维空间，能在一定程度上保持这些点在高维空间的关系，得到的可视化图不能反映簇与簇之间的距离，但是可以反映簇内距离。

进一步地，为了验证本模型训练时迭代速度更快、计算开销更小，设计下面一组实验。训练时迭代速度更快、计算开销更小。如图2所示，采用本模型进行迁移学习，迭代次数达到8000次时，学习率为0.000648，模型的损失值趋于稳定，模型训练完成，可以看出本模型(DHIH)在正确分类及计算速度上具有优势，能够适用于大规模的图像检索任务；

在本实施例中使用哈希码位数为48的深度强相关哈希模型进行实验，将损失层中的值进行可视化。由图3可以看出，哈希码位数为48时模型(DHIH)效果最好，MAP值最大。本实施例所用数据集为CIFAR-10，模型为已训练好的深度强相关哈希模型；

进一步地，所述步骤Step4的具体步骤如下：

Step4.3、通过Step4.2得到的汉明距离对这两个哈希码进行异或运算，统计结果为1的个数，这个数就是汉明距离，如式：

其中i＝0,1,…,K-1，其中X,Y是两个K位的哈希码。汉明距离越大，则待检索图像与当前特征库图像之间的差异越大，即相似度低。将汉明距离按从小到大排序，采用最近邻策略选取前q个相似图像返回作为检索结果。

汉明距离越大，则待检索图像与当前特征库图像之间的差异越大，即相似度低。将汉明距离按从小到大排序，选取前q个相似图像返回作为检索结果，图4为最终检索结果图。

实施例2：如图1-4所示，一种深度强相关哈希学习的大规模图像检索方法，所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下：

本实施例与实施例1相同，不同之处在于：

本实施例的步骤Step3中训练的模型采用AlexNet，将深度强相关哈希学习方法应用在AlexNet中，得到深度强相关哈希模型。

所述步骤Step1、2中，卷积子网络、全连接层、哈希层的配置如表1所示，其中Hashing为哈希层，N为哈希码位数。

表1基于AlexNet的强相关哈希学习模型网络结构

进一步地，本实施例方法与对比方法使用统一的网络结构，如表1所示。模型采用预训练好的AlexNet模型进行迁移学习，使用随机梯度下降法来训练，学习率策略为“inv”，权值衰减量为0.0005。训练过程中，基础学习率为0.001，随着训练进行以gamma为0.1、power为0.75进行迭代下降。

所述步骤Step3中，本实施例使用表1的网络结构训练出模型，选取的哈希码位数为48，检索返回最近邻个数为100，accurary为训练模型时测试集准确率。

实施例3：如图1-4所示，一种深度强相关哈希学习的大规模图像检索方法，所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下：

本实施例与实施例1相同，不同之处在于：

本实施例的步骤Step3中训练的模型采用Vgg16NET，将深度强相关哈希学习方法应用在Vgg16NET中，得到深度强相关哈希模型。

所述步骤Step2中，由于Vgg16不能输出一个哈希码，我们提取Vgg16的第二个全连接层输出矩阵(维度为1×4096)进行检索。

所述步骤Step4中，检索时采用top-q＝100，Vgg16NET使用欧式距离计算相似度。实验结果见表2，Bits为当前输出矩阵的位数；时间为相似度计算并返回前100个对应图像所用时间。由表2可知，为网络结构添加哈希层不会过多影响模型的检索准确率，但是能够大幅度地减少检索所需时间。本实施例在提升检索速度的同时MAP值也有所提升。

表2基于Vgg16的本发明方法

Methods	MAP	Bits	Time/s
				Vgg16	0.8753	4096	1.127
Vgg16+hash	0.8656	48	0.021
				Vgg16+深度强相关哈希	0.8922	48	0.021

实施例4：如图1-4所示，一种深度强相关哈希学习的大规模图像检索方法，所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下：

本实施例与实施例1相同，不同之处在于：

本实施例的步骤Step3中训练的模型采用Resnet50，将深度强相关哈希学习方法应用在Resnet50中，得到深度强相关哈希模型。

所述步骤Step2中，由于Resnet50不能输出一个哈希码，我们提取Resnet50的最后一个池化层输出矩阵(维度为1×2048)进行检索。

所述步骤Step4中，检索时采用top-q＝100，Resnet50使用欧式距离计算相似度。实验结果见表3，Bits为当前输出矩阵的位数；时间为相似度计算并返回前100个对应图像所用时间。由表3可知，为网络结构添加哈希层不会过多影响模型的检索准确率，但是能够大幅度地减少检索所需时间。本实施例方法在提升检索速度的同时MAP值也有所提升。实验结果证明，本实施例方法具有普遍适用性。

表3基于Resnet50的本发明方法

Methods	MAP	Bits	Time/s
				Resnet50	0.8861	2048	0.552
Resnet50+hash	0.8905	48	0.021
				Resnet50+深度强相关哈希	0.9212	48	0.022

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种深度强相关哈希学习的大规模图像检索方法，其特征在于：所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下：

2.根据权利要求1所述的深度强相关哈希学习的大规模图像检索方法，其特征在于：所述步骤Step1的具体步骤如下：

3.根据权利要求1所述的深度强相关哈希学习的大规模图像检索方法，其特征在于：所述步骤Step2的具体步骤如下：

4.根据权利要求3所述的深度强相关哈希学习的大规模图像检索方法，其特征在于：所述步骤Step3的具体步骤如下：

Z_i、Z_j来自Z；

5.根据权利要求3所述的深度强相关哈希学习的大规模图像检索方法，其特征在于：所述步骤Step4的具体步骤如下：