CN111125411A - 一种深度强相关哈希学习的大规模图像检索方法 - Google Patents
一种深度强相关哈希学习的大规模图像检索方法 Download PDFInfo
- Publication number
- CN111125411A CN111125411A CN201911321749.5A CN201911321749A CN111125411A CN 111125411 A CN111125411 A CN 111125411A CN 201911321749 A CN201911321749 A CN 201911321749A CN 111125411 A CN111125411 A CN 111125411A
- Authority
- CN
- China
- Prior art keywords
- hash
- image
- layer
- loss
- hash code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 27
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 230000002596 correlated effect Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 2
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种深度强相关哈希学习的大规模图像检索方法,属于图像处理技术领域。本发明把输入图像通过卷积子网络与全连接层得到的特征信息映射到特征空间中,并添加了一个哈希层以得到哈希码,然后通过强相关损失函数改变模型对权重矩阵的敏感度调节特征之间的距离,增大特征类间距离、缩小类内距离,通过计算低维哈希码之间的汉明距离完成快速图像检索。本发明方法能够实现快速、准确的大规模图像检索,并且可以广泛地使用在多种卷积神经网络中。
Description
技术领域
本发明涉及一种深度强相关哈希学习的大规模图像检索方法,属于图像处理技术领域。
背景技术
随着移动设备和互联网的快速发展,每天有大量的图像被上传到网络。百万级甚至是千万级的图像数据量使得准确、快速地检索出用户需要的图像变得越来越困难。大规模图像检索是计算机视觉研究的根基,直接关系到计算机视觉的实际应用。图像检索主要分为基于文本的图像检索(Text-Based Image Retrieval,TBIR)以及基于内容的图像检索(Content-Based Image Retrieval,CBIR)。TBIR的一般方法是,对图像进行标注,再根据标注的文本进行基于关键字的检索。TBIR的优势在于用户只需要提供关键字就可以得到检索结果。但相应地,这导致检索性能的好坏很大程度上取决于用户输入的关键字准确与否。然而,在实际应用中,文本很难准确地描述相应的图像,这直接导致了TBIR检索性能差。文本的局限性使得其不适用于图像信息爆炸增长的现状,因此目前主流方法是基于内容的图像检索。CBIR根据图像本身的纹理、颜色、款式等信息进行检索,从根本上解决了TBIR的缺陷。在CBIR中,最为重要的一步是对图像信息进行提取,提取出的图像特征信息将直接决定该图像检索系统的性能好坏。目前,CBIR中常用的图像特征提取方法可分为经典方法与深度学习方法。常用的经典方法主要有以下3个方向:1)基于颜色特征。基于颜色特征的图像检索方法提取出的图像特征属于全局特征,且简单、易实现。缺点在于,该方法很难描述图像中的具体对象以及无法考虑到对象空间位置。2)基于纹理特征。基于纹理特征的图像检索方法的优点在于特征拥有旋转不变性、一定的抗噪能力。这类方法的缺点在于无法利用图像的全局信息、从二维图像得到的纹理特征不一定是相应三维物体的真实纹理,从而导致检索性能表现不好。3)基于形状上下文特征。基于形状上下文特征的图像检索方法相对于上面两种特征来说,能够描述图像中的具体对象,有一定的语义关系。通常,形状的描述子可分为轮廓和区域两种,具体的方法有链码、边界长度、小波变换、傅里叶描述子、曲率尺度空间描述子、多边形逼近等。这类方法的缺点在于计算复杂度高,无法适用于大规模的图像检索。随着互联网的快速发展,数据规模得到爆炸式增长,与此同时哈希方法与深度学习相结合的方法被广泛地应用在加速图像检索任务中。哈希方法在检索速度以及存储开销上有其它方法无法比拟的优势,它能够将高维的特征矩阵降维成紧凑的二分哈希码。目前大多数哈希方法都使用“成对”或“三元组”的输入来寻找隐藏的数据关系。这类方法必然会增大计算开销,不适用于大规模的图像检索。基于此背景,为了实现快速且准确的大规模图像检索,本发明提出了一种简单、有效、可广泛使用于各种网络结构的深度监督哈希学习方法。
发明内容
本发明提供了一种深度强相关哈希学习的大规模图像检索方法,为卷积神经网络添加哈希层及设计强相关损失层,在哈希层限制神经元个数,使得输出一个低维度的矩阵,再限制该矩阵的取值范围,从而得到松弛的哈希码,能实现快速、准确的图像检索。
本发明的技术方案是:一种深度强相关哈希学习的大规模图像检索方法,所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下:
Step1、从图像数据集中抽取数据构成训练图像数据,其次对图像进行预处理操作,输入图像经过卷积子网络,把图像信息映射到特征空间中,得到一个局部式特征表示;
Step2、再经过全连接层,把上层得到的局部式特征表示映射到样本标记空间中,再进入哈希层进行降维及哈希编码;
Step3、再进入强相关损失层,利用强相关损失函数计算出当前迭代的损失值;最后返回损失值,根据损失值更新网络参数,驱动模型的训练;
Step4、通过深度强相关哈希模型学习到目标区域的特征表示和相应的哈希码;分别输入图像库图像和待检索图像得到一个哈希码特征库和待检索图像的哈希码,再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、使用CIFAR-10数据集,其包含60000张尺寸为32x32的彩色图像,为了节省训练时间,将图像尺寸转换成128x128进行训练;
Step1.2、数据共有十个类别,每个类别拥有6000张图像,为了更好地训练模型及评估性能,从每个类别随机抽取1000张图像作为验证集,再随机抽取1000张图像做为检索测试集,剩余的4000张图像作为训练集;
Step1.3、输入图像依次经过五个卷积层,即卷积子网络,把图像信息映射到特征空间中,得到一个局部式特征表示。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、再经过全连接层6以及全连接层7,把得到的局部式特征表示映射到样本标记空间中,其中全连接层6的输出特征矩阵为1×1×4096,全连接层7的输出特征矩阵为1×1×4096;
Step2.2、得到的输出特征矩阵再进入哈希层进行降维及哈希编码,哈希层输出N维的图像特征,N为设置的哈希码位数;
Step2.3、通过Step2.2得到一个松弛哈希码特征库,将松弛的哈希码转换成二分哈希码,得到一个二分哈希码特征库。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、强相关损失层从Step2.2接收一个1×1×N的特征矩阵,N=哈希码位数,通过强相关损失函数计算得到一个1×1×L的特征矩阵,L=类别数,将强相关损失层分为损失层1和损失层2;其中,损失层1为通过强相关损失函数得到1×1×L的特征矩阵,损失层2为利用损失层1得到的特征矩阵计算损失值;
Step3.2、假定,当前样本的真实标签为i,其它标签为j;强相关损失层的输入为哈希层的输出,记为x,的维度为1×K;进入损失层1,通过设计的强相关损失函数式,其中,m、β为超参数,m的取值为正整数,β∈(0,1),wki,wkj属于权重矩阵W,W的维度为K×L,αi,αj为权重相关系数,Zi表示当前样本的真实标签对应的值,Zj为其余标签对应的值;得到损失层1的输出矩阵,记为Z,的维度为1×L,L=类别数;
Step3.3、由Step3.2得到的输出矩阵进入损失层2,通过交叉熵函数计算损失值,公式如下所示:
Step3.4、利用强相关损失层得到的损失值能够进行反向传播,驱动网络的训练。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、待检索图像通过深度强相关哈希模型得到相应的松弛哈希码,再将松弛哈希码转换为二分哈希码,使用完整的二分哈希码进行图像检索;
Step4.2、采用汉明距离来衡量待检索图像的二分哈希码与Step2.3得到的特征库中的二分哈希码之间的相似度,再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。
本发明的有益效果是:
1、由于二分哈希码编码过程中的离散约束会造成量化损失。一些深度监督哈希学习方法使用惩罚机制来削弱离散约束带来的负面影响,但效果不够理想,本发明方法设计了一个强相关损失函数,能一定程度地解决这个问题。
2、本发明方法的强相关损失函数也是受到一元损失函数的启发并加以改进。强相关损失函数是一个根据学习目标进行调节的函数,它有以下几个优点。1)能够调节特征之间的距离,通过增加训练学习时的难度、调节权重矩阵敏感度以学习到更具有区分性的特征。2)能够适用于各种卷积神经网络结构。3)能够有效地防止发生过拟合。4)内存开销小、计算速度快。
3、本发明提出一个深度强相关哈希学习方法,能够与各种卷积神经网络结构相结合,通过迭代训练学习到一组紧凑的二分哈希码,可以实现高效的大规模图像检索。本发明方法学习到的二分哈希码在公开、大规模数据集的图像检索任务中取得较好的成绩。
综上,这种基于深度强相关哈希学习的图像检索方法,适用于大规模的商品图像检索。本发明方法的主要改进在于为卷积神经网络添加哈希层及设计强相关损失层。在哈希层做出的改进为限制神经元个数,使得输出一个低维度的矩阵,再限制该矩阵的取值范围,从而得到松弛的哈希码。在损失层使用基于常规损失函数进行改进的强相关损失函数。本发明方法保留且遵循卷积神经网络的基本结构及原理,可以应用到多种卷积神经网络中,能够实现快速、准确地商品图像检索,表现出较好的检索性能。
附图说明
图1为本发明的流程图;
图2为本发明中训练损失值对比;
图3为本发明中深度强相关哈希学习(DHIH)与其它方法MAP值对比图;
图4为本发明中检索结果图。
具体实施方式
实施例1:如图1-4所示,一种深度强相关哈希学习的大规模图像检索方法,所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下:
Step1、从图像数据集中抽取数据构成训练图像数据,其次对图像进行预处理操作,输入图像经过卷积子网络,把图像信息映射到特征空间中,得到一个局部式特征表示;
Step2、再经过全连接层,把上层得到的局部式特征表示映射到样本标记空间中,再进入哈希层进行降维及哈希编码;
Step3、再进入强相关损失层,利用强相关损失函数计算出当前迭代的损失值;最后返回损失值,根据损失值更新网络参数,驱动模型的训练;
Step4、通过深度强相关哈希模型学习到目标区域的特征表示和相应的哈希码;分别输入图像库图像和待检索图像得到一个哈希码特征库和待检索图像的哈希码,再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、使用CIFAR-10数据集,其包含60000张尺寸为32x32的彩色图像,为了节省训练时间,将图像尺寸转换成128x128进行训练;
Step1.2、数据共有十个类别,每个类别拥有6000张图像,为了更好地训练模型及评估性能,从每个类别随机抽取1000张图像作为验证集,再随机抽取1000张图像做为检索测试集,剩余的4000张图像作为训练集;
Step1.3、输入图像依次经过五个卷积层,即卷积子网络,把图像信息映射到特征空间中,得到一个局部式特征表示。
进一步地,所述步骤Step2的具体步骤如下:
Step2.1、再经过全连接层6以及全连接层7,把得到的局部式特征表示映射到样本标记空间中,其中全连接层6的输出特征矩阵为1×1×4096,全连接层7的输出特征矩阵为1×1×4096;
Step2.2、哈希层的上一层为全连接层7,则哈希层的输入为1×1×4096的特征矩阵,记为xi(i=1,2,…,4096),wj为权重矩阵,j的取值范围为1,2,…,n;n为哈希码的位数。由Step2.1得到的输出特征矩阵再进入哈希层进行降维及哈希编码,哈希层输出N维的图像特征(N为设置的哈希码位数),哈希层的目的是将高维的中层图像特征表示转换成低维的松弛哈希码。局部敏感哈希认为相邻的数据在经过随机映射后依然相邻。同样地,深度强相关哈希模型的哈希层通过随机映射进行降维,相邻的数据仍然相邻,如式所示:fj(xi)=xiwj;
Step2.3、通过Step2.2得到的再使用Sigmoid函数激活特征矩阵,使得特征值属于[0,1],从而得到一个松弛的哈希码,根据下式其中s(x)由sigmoid函数得出,将松弛的哈希码转换成二分哈希码,得到一个二分哈希码特征库;
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、强相关损失层从Step2.2接收一个1×1×N的特征矩阵,N=哈希码位数,通过强相关损失函数计算得到一个1×1×L的特征矩阵,L=类别数,为了便于说明本实施例方法,将强相关损失层分为损失层1和损失层2;其中,损失层1为通过强相关损失函数得到1×1×L的特征矩阵,损失层2为利用损失层1得到的特征矩阵计算损失值;
本方法为强相关损失层设计了一个强相关损失函数。假设有样本集Xi,i∈1,2,3,…,该样本集只拥有两个分类且每个样本只属于一个类别。存在样本X1,它的所属类别为类别1,则在softmax交叉熵损失函数中有式子:X1W>X2W,则分类正确。其中,W为权重矩阵。在强相关损失函数中,添加了一个权重相关系数α,则上式变为:α1X1W>α2X2W,其中,如能正确分类,则α1是大于α2的。可以通过加大模型学习的难度来迫使网络学习到更具有区分性的特征。因此,增加一个超参数m,取值为正整数。使得上式变为:α1X1W>mα2X2W,此时,仍然希望式子左边大于右边,因为当且仅当式子左边大于右边时,分类正确。通过超参数m的设置使得模型学习难度增加,权重相关系数α使得模型对权重矩阵更为敏感,以此调节特征之间的距离,也就达到了强迫网络学习到更具有区分性特征的目的;
Step3.2、假定,当前样本的真实标签为i,其它标签为j;强相关损失层的输入为哈希层的输出,记为x,的维度为1×K;进入损失层1,通过计算得到损失层1的输出矩阵,记为Z,的维度为1×L(L=类别数);Zi、Zj属于矩阵Z,Zi表示当前样本的真实标签对应的值,Zj为其余标签对应的值;如果当前真实标签为0,即=0时,Zi的值为的第一个元素。由下式可得,即为设计的强相关损失函数式,其中,m、β为超参数,m的取值为正整数,β∈(0,1),wki,wkj属于权重矩阵W,W的维度为K×L,αi,αj为权重相关系数;
Step3.3、由Step3.2得到的输出矩阵进入损失层2,通过交叉熵函数计算损失值,公式如下所示:
进一步地,在本实施例中使用哈希码位数为48的深度强相关哈希模型进行实验,将损失层中的值进行可视化。本实施例所用数据集为CIFAR-10,模型为已训练好的深度强相关哈希模型,使用t-sne进行降维并可视化。t-sne将一组高维空间的点映射到低维空间,能在一定程度上保持这些点在高维空间的关系,得到的可视化图不能反映簇与簇之间的距离,但是可以反映簇内距离。
进一步地,为了验证本模型训练时迭代速度更快、计算开销更小,设计下面一组实验。训练时迭代速度更快、计算开销更小。如图2所示,采用本模型进行迁移学习,迭代次数达到8000次时,学习率为0.000648,模型的损失值趋于稳定,模型训练完成,可以看出本模型(DHIH)在正确分类及计算速度上具有优势,能够适用于大规模的图像检索任务;
在本实施例中使用哈希码位数为48的深度强相关哈希模型进行实验,将损失层中的值进行可视化。由图3可以看出,哈希码位数为48时模型(DHIH)效果最好,MAP值最大。本实施例所用数据集为CIFAR-10,模型为已训练好的深度强相关哈希模型;
Step3.4、利用强相关损失层得到的损失值能够进行反向传播,驱动网络的训练。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、待检索图像通过深度强相关哈希模型得到相应的松弛哈希码,再将松弛哈希码转换为二分哈希码,使用完整的二分哈希码进行图像检索;
Step4.2、采用汉明距离来衡量待检索图像的二分哈希码与Step2.3得到的特征库中的二分哈希码之间的相似度,再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。
Step4.3、通过Step4.2得到的汉明距离对这两个哈希码进行异或运算,统计结果为1的个数,这个数就是汉明距离,如式:其中i=0,1,…,K-1,其中X,Y是两个K位的哈希码。汉明距离越大,则待检索图像与当前特征库图像之间的差异越大,即相似度低。将汉明距离按从小到大排序,采用最近邻策略选取前q个相似图像返回作为检索结果。
汉明距离越大,则待检索图像与当前特征库图像之间的差异越大,即相似度低。将汉明距离按从小到大排序,选取前q个相似图像返回作为检索结果,图4为最终检索结果图。
实施例2:如图1-4所示,一种深度强相关哈希学习的大规模图像检索方法,所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下:
本实施例与实施例1相同,不同之处在于:
本实施例的步骤Step3中训练的模型采用AlexNet,将深度强相关哈希学习方法应用在AlexNet中,得到深度强相关哈希模型。
所述步骤Step1、2中,卷积子网络、全连接层、哈希层的配置如表1所示,其中Hashing为哈希层,N为哈希码位数。
表1基于AlexNet的强相关哈希学习模型网络结构
进一步地,本实施例方法与对比方法使用统一的网络结构,如表1所示。模型采用预训练好的AlexNet模型进行迁移学习,使用随机梯度下降法来训练,学习率策略为“inv”,权值衰减量为0.0005。训练过程中,基础学习率为0.001,随着训练进行以gamma为0.1、power为0.75进行迭代下降。
所述步骤Step3中,本实施例使用表1的网络结构训练出模型,选取的哈希码位数为48,检索返回最近邻个数为100,accurary为训练模型时测试集准确率。
实施例3:如图1-4所示,一种深度强相关哈希学习的大规模图像检索方法,所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下:
本实施例与实施例1相同,不同之处在于:
本实施例的步骤Step3中训练的模型采用Vgg16NET,将深度强相关哈希学习方法应用在Vgg16NET中,得到深度强相关哈希模型。
所述步骤Step2中,由于Vgg16不能输出一个哈希码,我们提取Vgg16的第二个全连接层输出矩阵(维度为1×4096)进行检索。
所述步骤Step4中,检索时采用top-q=100,Vgg16NET使用欧式距离计算相似度。实验结果见表2,Bits为当前输出矩阵的位数;时间为相似度计算并返回前100个对应图像所用时间。由表2可知,为网络结构添加哈希层不会过多影响模型的检索准确率,但是能够大幅度地减少检索所需时间。本实施例在提升检索速度的同时MAP值也有所提升。
表2基于Vgg16的本发明方法
Methods | MAP | Bits | Time/s |
Vgg16 | 0.8753 | 4096 | 1.127 |
Vgg16+hash | 0.8656 | 48 | 0.021 |
Vgg16+深度强相关哈希 | 0.8922 | 48 | 0.021 |
实施例4:如图1-4所示,一种深度强相关哈希学习的大规模图像检索方法,所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下:
本实施例与实施例1相同,不同之处在于:
本实施例的步骤Step3中训练的模型采用Resnet50,将深度强相关哈希学习方法应用在Resnet50中,得到深度强相关哈希模型。
所述步骤Step2中,由于Resnet50不能输出一个哈希码,我们提取Resnet50的最后一个池化层输出矩阵(维度为1×2048)进行检索。
所述步骤Step4中,检索时采用top-q=100,Resnet50使用欧式距离计算相似度。实验结果见表3,Bits为当前输出矩阵的位数;时间为相似度计算并返回前100个对应图像所用时间。由表3可知,为网络结构添加哈希层不会过多影响模型的检索准确率,但是能够大幅度地减少检索所需时间。本实施例方法在提升检索速度的同时MAP值也有所提升。实验结果证明,本实施例方法具有普遍适用性。
表3基于Resnet50的本发明方法
Methods | MAP | Bits | Time/s |
Resnet50 | 0.8861 | 2048 | 0.552 |
Resnet50+hash | 0.8905 | 48 | 0.021 |
Resnet50+深度强相关哈希 | 0.9212 | 48 | 0.022 |
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种深度强相关哈希学习的大规模图像检索方法,其特征在于:所述深度强相关哈希学习的大规模图像检索方法的具体步骤如下:
Step1、从图像数据集中抽取数据构成训练图像数据,其次对图像进行预处理操作,输入图像经过卷积子网络,把图像信息映射到特征空间中,得到一个局部式特征表示;
Step2、再经过全连接层,把上层得到的局部式特征表示映射到样本标记空间中,再进入哈希层进行降维及哈希编码;
Step3、再进入强相关损失层,利用强相关损失函数计算出当前迭代的损失值;最后返回损失值,根据损失值更新网络参数,驱动模型的训练;
Step4、通过深度强相关哈希模型学习到目标区域的特征表示和相应的哈希码;分别输入图像库图像和待检索图像得到一个哈希码特征库和待检索图像的哈希码,再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。
2.根据权利要求1所述的深度强相关哈希学习的大规模图像检索方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、使用CIFAR-10数据集,其包含60000张尺寸为32x32的彩色图像,为了节省训练时间,将图像尺寸转换成128x128进行训练;
Step1.2、数据共有十个类别,每个类别拥有6000张图像,为了更好地训练模型及评估性能,从每个类别随机抽取1000张图像作为验证集,再随机抽取1000张图像做为检索测试集,剩余的4000张图像作为训练集;
Step1.3、输入图像依次经过五个卷积层,即卷积子网络,把图像信息映射到特征空间中,得到一个局部式特征表示。
3.根据权利要求1所述的深度强相关哈希学习的大规模图像检索方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、再经过全连接层6以及全连接层7,把得到的局部式特征表示映射到样本标记空间中,其中全连接层6的输出特征矩阵为1×1×4096,全连接层7的输出特征矩阵为1×1×4096;
Step2.2、得到的输出特征矩阵再进入哈希层进行降维及哈希编码,哈希层输出N维的图像特征,N为设置的哈希码位数;
Step2.3、通过Step2.2得到一个松弛哈希码特征库,将松弛的哈希码转换成二分哈希码,得到一个二分哈希码特征库。
4.根据权利要求3所述的深度强相关哈希学习的大规模图像检索方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、强相关损失层从Step2.2接收一个1×1×N的特征矩阵,N=哈希码位数,通过强相关损失函数计算得到一个1×1×L的特征矩阵,L=类别数,将强相关损失层分为损失层1和损失层2;其中,损失层1为通过强相关损失函数得到1×1×L的特征矩阵,损失层2为利用损失层1得到的特征矩阵计算损失值;
Step3.2、假定,当前样本的真实标签为i,其它标签为j;强相关损失层的输入为哈希层的输出,记为x,的维度为1×K;进入损失层1,通过设计的强相关损失函数式,其中,m、β为超参数,m的取值为正整数,β∈(0,1),wki,wkj属于权重矩阵W,W的维度为K×L,αi,αj为权重相关系数,Zi表示当前样本的真实标签对应的值,Zj为其余标签对应的值;得到损失层1的输出矩阵,记为Z,的维度为1×L,L=类别数;
Step3.3、由Step3.2得到的输出矩阵进入损失层2,通过交叉熵函数计算损失值,公式如下所示:
Step3.4、利用强相关损失层得到的损失值能够进行反向传播,驱动网络的训练。
5.根据权利要求3所述的深度强相关哈希学习的大规模图像检索方法,其特征在于:所述步骤Step4的具体步骤如下:
Step4.1、待检索图像通过深度强相关哈希模型得到相应的松弛哈希码,再将松弛哈希码转换为二分哈希码,使用完整的二分哈希码进行图像检索;
Step4.2、采用汉明距离来衡量待检索图像的二分哈希码与Step2.3得到的特征库中的二分哈希码之间的相似度,再比较待检索图像的哈希码与特征库中的哈希码之间的汉明距离完成检索的部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911321749.5A CN111125411B (zh) | 2019-12-20 | 2019-12-20 | 一种深度强相关哈希学习的大规模图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911321749.5A CN111125411B (zh) | 2019-12-20 | 2019-12-20 | 一种深度强相关哈希学习的大规模图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111125411A true CN111125411A (zh) | 2020-05-08 |
CN111125411B CN111125411B (zh) | 2022-06-21 |
Family
ID=70500456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911321749.5A Active CN111125411B (zh) | 2019-12-20 | 2019-12-20 | 一种深度强相关哈希学习的大规模图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125411B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695507A (zh) * | 2020-06-12 | 2020-09-22 | 桂林电子科技大学 | 一种基于改进VGGNet网络和PCA的静态手势识别方法 |
CN111858990A (zh) * | 2020-07-28 | 2020-10-30 | 上海喆塔信息科技有限公司 | 一种基于卷积分类网络的晶圆图失效模式相似检索的方法 |
CN112529018A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 图像局部特征的训练方法、装置及存储介质 |
CN112925936A (zh) * | 2021-02-22 | 2021-06-08 | 济南大学 | 一种基于深度哈希的运动捕获数据检索方法及系统 |
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113626629A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用尺度不变特征计算图像哈希值的方法 |
CN113656632A (zh) * | 2021-10-21 | 2021-11-16 | 南京理工大学 | 大规模细粒度图像检索中的属性感知哈希编码学习方法 |
CN116206453A (zh) * | 2023-05-05 | 2023-06-02 | 湖南工商大学 | 一种基于迁移学习的交通流预测方法、装置及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808430A (zh) * | 2004-11-01 | 2006-07-26 | 西安迪戈科技有限责任公司 | 智能、图示和自动化互联网和计算机信息的检索和挖掘方法 |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN108388656A (zh) * | 2018-03-06 | 2018-08-10 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
US20190130603A1 (en) * | 2016-03-11 | 2019-05-02 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
US20190381404A1 (en) * | 2018-06-18 | 2019-12-19 | Unity IPR ApS | Method and system for real-time animation generation using machine learning |
-
2019
- 2019-12-20 CN CN201911321749.5A patent/CN111125411B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808430A (zh) * | 2004-11-01 | 2006-07-26 | 西安迪戈科技有限责任公司 | 智能、图示和自动化互联网和计算机信息的检索和挖掘方法 |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
US20190130603A1 (en) * | 2016-03-11 | 2019-05-02 | Siemens Aktiengesellschaft | Deep-learning based feature mining for 2.5d sensing image search |
CN108388656A (zh) * | 2018-03-06 | 2018-08-10 | 南京邮电大学 | 一种基于标记相关性的图片搜索方法 |
US20190381404A1 (en) * | 2018-06-18 | 2019-12-19 | Unity IPR ApS | Method and system for real-time animation generation using machine learning |
Non-Patent Citations (10)
Title |
---|
PENG XU 等: "Sketchmate: Deep hashing for million-scale human sketch retrieval", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
SHUMEET BALUJA 等: "Learning to hash: forgiving hash functions and applications", 《DATA MINING AND KNOWLEDGE DISCOVERY》 * |
段文静 等: "具备高层语义特征的离散哈希图像检索算法", 《计算机工程与应用》 * |
苏雯: "语义分割及其在图像检索中的应用", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
薛文韬: "基于深度学习和迁移学习的语音情感识别方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
贺周雨 等: "面向大规模图像检索的深度强相关散列学习方法", 《计算机研究与发展》 * |
赵树阳 等: "基于生成对抗网络的低秩图像生成方法", 《自动化学报》 * |
闭蓉: "基于深度哈希的图片检索系统的设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
陆超文 等: "基于改进哈希算法的图像检索方法", 《电子科技》 * |
马超: "语义鉴别和相似性保持的哈希方法研究与应用", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695507A (zh) * | 2020-06-12 | 2020-09-22 | 桂林电子科技大学 | 一种基于改进VGGNet网络和PCA的静态手势识别方法 |
CN111695507B (zh) * | 2020-06-12 | 2022-08-16 | 桂林电子科技大学 | 一种基于改进VGGNet网络和PCA的静态手势识别方法 |
CN111858990A (zh) * | 2020-07-28 | 2020-10-30 | 上海喆塔信息科技有限公司 | 一种基于卷积分类网络的晶圆图失效模式相似检索的方法 |
CN112529018A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 图像局部特征的训练方法、装置及存储介质 |
CN112925936A (zh) * | 2021-02-22 | 2021-06-08 | 济南大学 | 一种基于深度哈希的运动捕获数据检索方法及系统 |
CN112925936B (zh) * | 2021-02-22 | 2022-08-12 | 济南大学 | 一种基于深度哈希的运动捕获数据检索方法及系统 |
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113626629A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用尺度不变特征计算图像哈希值的方法 |
CN113626629B (zh) * | 2021-08-17 | 2023-09-29 | 北京计算机技术及应用研究所 | 一种利用尺度不变特征计算图像哈希值的方法 |
CN113656632A (zh) * | 2021-10-21 | 2021-11-16 | 南京理工大学 | 大规模细粒度图像检索中的属性感知哈希编码学习方法 |
CN116206453A (zh) * | 2023-05-05 | 2023-06-02 | 湖南工商大学 | 一种基于迁移学习的交通流预测方法、装置及相关设备 |
CN116206453B (zh) * | 2023-05-05 | 2023-08-11 | 湖南工商大学 | 一种基于迁移学习的交通流预测方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111125411B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125411B (zh) | 一种深度强相关哈希学习的大规模图像检索方法 | |
CN113190699B (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN109308485B (zh) | 一种基于字典域适应的迁移稀疏编码图像分类方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN106033426B (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
Xia et al. | Exploiting deep features for remote sensing image retrieval: A systematic investigation | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
Zheng et al. | Differential Learning: A Powerful Tool for Interactive Content-Based Image Retrieval. | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
Li et al. | DAHP: Deep attention-guided hashing with pairwise labels | |
Lu et al. | Contextual kernel and spectral methods for learning the semantics of images | |
CN114218292A (zh) | 一种多元时间序列相似性检索方法 | |
CN113537304A (zh) | 一种基于双向cnn的跨模态语义聚类方法 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN114138971A (zh) | 一种基于遗传算法的极大多标签分类方法 | |
CN114140657A (zh) | 一种基于多特征融合的图像检索方法 | |
Zhao et al. | Multi-scale Context Deep Hashing for Remote Sensing Image Retrieval | |
US11935278B1 (en) | Image labeling for artificial intelligence datasets | |
Chen et al. | Unsupervised balanced hash codes learning with multichannel feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |