CN110222218B - 基于多尺度NetVLAD和深度哈希的图像检索方法 - Google Patents

基于多尺度NetVLAD和深度哈希的图像检索方法 Download PDF

Info

Publication number
CN110222218B
CN110222218B CN201910312824.5A CN201910312824A CN110222218B CN 110222218 B CN110222218 B CN 110222218B CN 201910312824 A CN201910312824 A CN 201910312824A CN 110222218 B CN110222218 B CN 110222218B
Authority
CN
China
Prior art keywords
hash
image
matrix
network
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910312824.5A
Other languages
English (en)
Other versions
CN110222218A (zh
Inventor
叶凌智
翁立
王建中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Huaqi Zhongxin Technology Development Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910312824.5A priority Critical patent/CN110222218B/zh
Publication of CN110222218A publication Critical patent/CN110222218A/zh
Application granted granted Critical
Publication of CN110222218B publication Critical patent/CN110222218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于多尺度NetVLAD和深度哈希的图像检索方法。本发明采用的是基于多尺度卷积神经网络的局部聚合描述符向量方法来对图像检索中的图片进行特征提取。将原始的只采用最后一层卷积层输出特征,优化为采用多层卷积层的输出特征融合后的特征。融合后的特征不仅包含高层语义特征,同时也包含了低层图片细节信息。在NetVLAD后面加一个哈希层进行特征编码,特征变得更加简洁,通过哈希编码层,使得特征维度和复杂度降低,显著减少了后续的存储开销和计算复杂度。加快了图像检索时的速度,实现在大规模数据集中快速精确的检索到相似图片。

Description

基于多尺度NetVLAD和深度哈希的图像检索方法
技术领域
本发明属于计算机视觉、目标检索领域,涉及一种基于多尺度 NetVLAD和深度哈希的图像检索方法。
背景技术
图像检索技术是从图片数据库中检索出满足条件的图片,在现实生活中有着广泛的应用场景,比如在遥感影像,安防监控,检索引擎,电子商务,生物医学等方面,都起着至关重要的作用。
目前普遍使用的图像检索方法主要包括基于文本和内容的检索。基于文本的检索方法是采用人工或半监督学习方式分配给图像一组自由文本来描述图像的内容,并经过文本检索系统将图像检索转换成文本检索。由于图像含有丰富的信息,文本标签往往不能对图像信息进行完整的表示,甚至会出现无法找到合适的关键词来描述,从而导致大量信息的丢失,影响最终的检索性能。在基于内容的图像检索算法中,基于词袋(Bag of Word,BoW)和局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)的图像检索是目前的基础方法,并且有着广泛的应用。然而,需要指出的是,随着如今数据爆炸式的增长,为了不降低检索精度,所用的词典规模也急剧增大,从而导致检索速度降低。因此,如何在大数据中提取更加高级抽象的特征来进行快速准确的大规模图像检索是目前图像检索技术面临的主要问题。
本文提出了一种基于多尺度NetVLAD(基于卷积神经网络的局部聚合描述符向量)和深度哈希的图像检索方法。
发明内容
针对现有图像检索算法中存在的问题,本发明提出了一种基于多尺度NetVLAD和深度哈希的图像检索方法。该方法具有以下优点:1)具有卷积神经网络(ConvolutionalNeural Network,CNN)对图像强大的表达能力;2)通过NetVLAD层,能够在单纯的CNN基础上,提取更加高级且具有更强鲁棒能力的图像特征;3)通过融合不同卷积层的输出,使得学习到的特征对图像具有更完整的表示;4)通过哈希编码层,使得特征维度和复杂度降低,显著减少了后续的存储开销和计算复杂度。相比较于目前存在的图像检索技术,本发明提出的方法具有更高的检索速度以及更加准确的检索性能。
本发明具体包括以下步骤:
步骤一、训练流程:对网络参数进行训练,以获得最佳的网络参数。首先将训练集分为查询集和数据库,将数据库中的数据按照与查询集的相似程度,从高到低进行排序,选取前m1个相对相似为正类,后m2个相对不相似为负类,构成三元组,并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练。
具体步骤如下:
步骤1、获得训练样本数据:
训练样本数据分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,由相似度判别算法获得,一般采用直方图匹配,像素平均值向量匹配等。
步骤2、根据训练样本数据,分别对查询集中的每一个样本 qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成
Figure RE-GDA0002134489870000031
i=1,2,...,m1,取m2个与qj最不相似的图片构成
Figure RE-GDA0002134489870000032
k=1,2,...,m2,从而得到三元组
Figure RE-GDA0002134489870000033
j=1,2,...,Q。
步骤3、将步骤二得到的三元组
Figure RE-GDA0002134489870000034
j=1,2,...,Q作为输入,输入到多尺度卷积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
3-1、将训练样本输入到多尺度卷积网络,获得
Figure 4
l=1,2,...,L, 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量,P为任意大于等于2的整数值。
3-2、对特征进行融合:
Figure 6
l=1,2,...,L,Xl为融合后输出特征矩阵,f表示基于深度学习的特征融合算法,一般采用多卷积层特征矩阵拼接,以及多规格卷积核滤波方法。
步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
4-1、选取聚类的簇数为K,最大迭代次数为nmax
4-2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ12,...,μK},μ为簇中心矩阵。
4-3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
4-4、计算所有样本特征{X1,X2,...,XL}与质心{μ12,...,μK}的距离
Figure RE-GDA0002134489870000037
l=1,2,...,L;k=1,2,...,K,将Xl归入距离最小的对应的类别t 类,更新Ct=Ct∪Xl
4-5、重新计算出新的质心
Figure RE-GDA0002134489870000041
4-6、重复4-4,4-5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
步骤5、对步骤3所得融合特征进行VLAD池化,具体步骤如下:
5-1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出
Figure RE-GDA0002134489870000045
其中Sk表示卷积后输出矩阵。
5-2、卷积后结果Sk(Xl)再经过Soft-max函数,获得连续化后的权重ak(Xl),见式(1):
Figure RE-GDA0002134489870000042
其中,k'=1,2,...,k。
5-3、将图片特征矩阵Xl作为输入,步骤4中得出的k个簇中心、 5-2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):
Figure RE-GDA0002134489870000043
其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维。
5-4、将5-3获得的VLAD特征矩阵Vl进行对列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
Figure 7
5-5、对5-4获得的Vl'再次进行整体L2范数正则化,见式(4):
Figure RE-GDA0002134489870000051
步骤6、进行哈希编码:
6-1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式 (5):
VN=Vl”*wH+bH (5);
其中wH为(D*K)*N维权重矩阵,bH为N维偏差。
6-2、对N维向量VN进行二进制编码,见式(6):
Figure RE-GDA0002134489870000052
其中
Figure RE-GDA0002134489870000053
表示激活函数,我们采用的是sigmoid函数,其表达式为
Figure RE-GDA0002134489870000054
z表示函数
Figure RE-GDA0002134489870000058
的输入,e(-z)表示以自然常数e为底,-z为指数的指数函数;sgn(.)为阶跃函数。
步骤7、损失函数求取,见式(7)-(10):
Figure RE-GDA0002134489870000055
Figure RE-GDA0002134489870000056
Figure DEST_PATH_RE-FDA0002134489860000041
L=αE1-βE2+γE3 (10);
其中,d表示欧式距离;m为阈值;α、β、γ为权值;t取值为{1, 2};mean(.)用来计算向量中元素的平均值;E1、E2、E3分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即E1,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即E2,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与0.5之间的误差,即E3,使得哈希编码的离散分布的熵最大;L表示网络总的损失函数;
步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数。
步骤二、测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果。具体步骤如下:
1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码
Figure RE-GDA0002134489870000061
和对应的数据集的最后输出特征
Figure RE-GDA0002134489870000062
1.2、取
Figure RE-GDA0002134489870000063
对应的图片为最后检索结果,其中,
Figure RE-GDA0002134489870000064
距离计算为汉明距离,汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数。取最小距离对应的数据库图像为检索结果。
本发明采用的是基于多尺度卷积神经网络的局部聚合描述符向量(Multiscale-NetVLAD)方法来对图像检索中的图片进行特征提取,该方法是一种比普通NetVLAD更全面的特征提取方法。它将原始的只采用最后一层卷积层输出特征,优化为采用多层卷积层的输出特征融合后的特征。融合后的特征不仅包含高层语义特征,同时也包含了低层图片细节信息。低层和高层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量,对于图像检索,核心是需要找到与之最为相似而并非同类的图片这一特性。相对于直接将NetVLAD网络输出的图片特征表示直接进行计算损失函数,在NetVlAD后面加一个哈希层进行特征编码,特征变得更加简洁,通过哈希编码层,使得特征维度和复杂度降低,显著减少了后续的存储开销和计算复杂度。加快了图像检索时的速度。是一种实用高效的大规模图像检索算法,实现在大规模数据集中快速精确的检索到相似图片。
附图说明:
图1为本发明训练流程图;
图2为用于提取CNN特征的多尺度卷积神经网络的示例结构;
图3为NetVLAD层结构;
图4为哈希层输入与输出的特征结构;
图5为本发明测试流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
基于多尺度NetVLAD和深度哈希的图像检索方法,如图1所示,步骤一、训练流程:将训练样本输入多尺度卷积神经网络中,得到P 层卷积特征组
Figure RE-GDA0002134489870000071
然后将其经过特征融合,得到融合后特征Xl, 后经过NetVLAD层,得到池化后特征Vl,再经过哈希编码,输出最后的图片特征表示
Figure RE-GDA0002134489870000072
最后利用反向传播算法,对损失函数进行求导,优化网络中出现的所有可学习参数。而测试流程则是将新的样本数据输入训练好的网络结构中,测试网络检索精度。
具体步骤如下:
步骤1、获得训练样本标签:训练样本分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,一般采用直方图匹配,像素平均值向量匹配等。
步骤2、根据训练样本数据,分别对查询集中的每一个样本 qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成
Figure RE-GDA0002134489870000081
i=1,2,...,m1,取m2个与qj最不相似的图片构成
Figure RE-GDA0002134489870000082
k=1,2,...,m2,从而得到三元组
Figure RE-GDA0002134489870000083
j=1,2,...,Q;
步骤3将步骤二得到的三元组
Figure RE-GDA0002134489870000084
j=1,2,...,Q作为输入,输入到多尺度卷积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
3-1、将训练样本输入到多尺度卷积网络,获得
Figure RE-GDA0002134489870000085
l=1,2,...,L, 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量;
如图2所示,以VGG16网络为例,融合特征个数P选取为2,选取第三个卷积块的最大池化后输出特征和第四个卷积块的第三层卷积后输出特征进行融合,由该两层不同深度的特征进行融合后的特征同时包含图片的细节信息和深度语义信息。在实际应用中,神经网络选取可以任意,并不局限于VGG16,特征融合个数也可以大于2。
输出两个卷积后特征,见式(11):
Figure RE-GDA0002134489870000086
其中x表示卷积后特征矩阵,x表示x的每一维。
3-2、对特征进行融合,以拼接方式为例,见式(12):
Figure RE-GDA0002134489870000087
其中Xl表示融合后特征,f表示拼接融合方法。
步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
4-1、选取聚类的簇数为K,最大迭代次数为nmax
4-2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ12,...,μK},μ为簇中心矩阵;
4-3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
4-4、计算所有样本特征{X1,X2,...,XL}与质心{μ12,...,μK}的距离
Figure RE-GDA0002134489870000091
l=1,2,...,L;k=1,2,...,K,将Xl归入距离最小的对应的类别t 类,更新Ct=Ct∪Xl
4-5、重新计算出新的质心
Figure RE-GDA0002134489870000092
4-6、重复4-4、4-5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
步骤5、如图3所示,对步骤3所得融合特征Xl进行VLAD池化,具体步骤如下:
5-1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出
Figure RE-GDA0002134489870000094
其中Sk表示卷积后输出矩阵;
5-2、卷积后结果Sk(Xl)再经过Soft-max函数,获得连续化后的权重ak(Xl),见式(1):
Figure RE-GDA0002134489870000093
其中,k'=1,2,...,k;
5-3、将图片特征矩阵Xl作为输入,步骤4中得出的K个簇中心、 5-2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):
Figure RE-GDA0002134489870000101
其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维;
5-4、将5-3获得的VLAD特征矩阵Vl进行对列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
Figure 7
5-5、对5-4获得的Vl'再次进行整体L2范数正则化,见式(4):
Figure RE-GDA0002134489870000103
步骤6、如图4所示,进行哈希编码:
6-1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式 (5):
VN=Vl”*wH+bH (5);
其中wH为(D*K)*N维权重矩阵,bH为N维偏差;
6-2、对N维向量VN进行二进制编码,见式(6):
Figure RE-GDA0002134489870000104
其中
Figure RE-GDA0002134489870000105
表示激活函数,我们采用的是sigmoid函数,其表达式为
Figure RE-GDA0002134489870000106
z表示函数
Figure RE-GDA0002134489870000107
的输入,e(-z)表示以自然常数e为底,-z为指数的指数函数;sgn()为阶跃函数;
步骤7、损失函数求取,见式(7)-(10):
Figure RE-GDA0002134489870000111
Figure RE-GDA0002134489870000112
Figure 483288DEST_PATH_RE-FDA0002134489860000041
L=αE1-βE2+γE3 (10);
其中,表示欧式距离;为阈值;为权值;t取值为{1,2};用来计算向量中元素的平均值;分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与 0.5之间的误差,即,使得哈希编码的离散分布的熵最大;表示网络总的损失函数;
步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数;
步骤二、如图5所示,测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果;具体步骤如下:
1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码
Figure RE-GDA0002134489870000114
和对应的数据库的最后输出特征
Figure RE-GDA0002134489870000115
1.2、计算所有的
Figure RE-GDA0002134489870000116
其中,
Figure RE-GDA0002134489870000117
表示数据库图像特征
Figure RE-GDA0002134489870000118
的任意一个;d(.)为特征距离计算,我们采用的是汉明距离。汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数。
1.3、取所有的
Figure RE-GDA0002134489870000121
中最小值对应的数据库图片为最后检索结果。

Claims (3)

1.基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:包括以下步骤:
步骤一、训练流程:对网络参数进行训练,以获得最佳的网络参数;首先将训练集分为查询集和数据库,将数据库中的数据按照与查询集的相似程度,从高到低进行排序,选取前m1个相对相似为正类,后m2个相对不相似为负类,构成三元组,并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练;具体步骤如下:
步骤1、获得训练样本数据:
训练样本数据分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,由相似度判别方法获得;
步骤2、根据训练样本数据,分别对查询集中的每一个样本qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成
Figure FDA0002983610130000011
取m2个与qj最不相似的图片构成
Figure FDA0002983610130000012
从而得到三元组
Figure FDA0002983610130000013
步骤3、将步骤二得到的三元组
Figure FDA0002983610130000014
作为输入,输入到多尺度卷积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
3-1、将训练样本输入到多尺度卷积网络,获得
Figure FDA0002983610130000015
总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量,P为任意大于等于2的整数值;
3-2、对特征进行融合:
Figure FDA0002983610130000016
Xl为融合后输出特征矩阵,f表示基于深度学习的特征融合方法;
步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
4-1、选取聚类的簇数为K,最大迭代次数为nmax
4-2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ12,...,μK},μ为簇中心矩阵;
4-3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
4-4、计算所有样本特征{X1,X2,...,XL}与质心{μ12,...,μK}的距离
Figure FDA0002983610130000021
将Xl归入距离最小的对应的类别t类,更新Ct=Ct∪Xl
4-5、重新计算出新的质心
Figure FDA0002983610130000022
4-6、重复4-4、4-5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
步骤5、对步骤3所得融合特征Xl进行VLAD池化,具体步骤如下:
5-1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出
Figure FDA0002983610130000023
其中Sk表示卷积后输出矩阵;
5-2、卷积后结果Sk(Xl)再经过Soft-max函数,获得连续化后的权重ak(Xl),见式(1):
Figure FDA0002983610130000024
其中,k'=1,2,...,k,k=1,2,...,K;
5-3、将图片特征矩阵Xl作为输入,步骤4中得出的K个簇中心、5-2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):
Figure FDA0002983610130000031
其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维;
5-4、对5-3获得的VLAD特征矩阵Vl的每列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
Figure FDA0002983610130000032
5-5、对5-4获得的Vl'再次进行整体L2范数正则化,见式(4):
Figure FDA0002983610130000033
步骤6、进行哈希编码:
6-1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式(6):
VN=Vl”*WH+bH (6);
其中WH为(D*K)*N维权重矩阵,bH为N维偏差;
6-2、对N维向量VN进行二进制编码,见式(7):
Figure FDA0002983610130000034
其中
Figure FDA0002983610130000035
表示激活函数,我们采用的是sigmoid函数,其表达式为
Figure FDA0002983610130000036
z表示函数
Figure FDA0002983610130000039
的输入,e(-z)表示以自然常数e为底,-z为指数的指数函数;sgn()为阶跃函数;
步骤7、损失函数求取,见式(8)-(11):
Figure FDA0002983610130000037
Figure FDA0002983610130000038
Figure FDA0002983610130000041
L=αE1-βE2+γE3 (11);
其中,d表示欧式距离;m为阈值;α、β、γ为权值;t取值为{1,2};mean(.)用来计算向量中元素的平均值;E1、E2、E3分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即E1,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即E2,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与0.5之间的误差,即E3,使得哈希编码的离散分布的熵最大;L表示网络总的损失函数;
步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数;
步骤二、测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果;具体步骤如下:
1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码
Figure FDA0002983610130000042
和对应的数据集的最后输出特征
Figure FDA0002983610130000043
1.2、取
Figure FDA0002983610130000044
对应的图片为最后检索结果,其中,
Figure FDA0002983610130000045
距离计算为汉明距离,汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数;取最小距离对应的数据库图像为检索结果。
2.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:所述的相似度判别方法采用直方图匹配或像素平均值向量匹配。
3.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:所述的基于深度学习的特征融合方法采用多卷积层特征矩阵拼接或多规格卷积核滤波方法。
CN201910312824.5A 2019-04-18 2019-04-18 基于多尺度NetVLAD和深度哈希的图像检索方法 Active CN110222218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910312824.5A CN110222218B (zh) 2019-04-18 2019-04-18 基于多尺度NetVLAD和深度哈希的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910312824.5A CN110222218B (zh) 2019-04-18 2019-04-18 基于多尺度NetVLAD和深度哈希的图像检索方法

Publications (2)

Publication Number Publication Date
CN110222218A CN110222218A (zh) 2019-09-10
CN110222218B true CN110222218B (zh) 2021-07-09

Family

ID=67822629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312824.5A Active CN110222218B (zh) 2019-04-18 2019-04-18 基于多尺度NetVLAD和深度哈希的图像检索方法

Country Status (1)

Country Link
CN (1) CN110222218B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728219B (zh) * 2019-09-29 2023-09-26 天津大学 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN110796643A (zh) * 2019-10-18 2020-02-14 四川大学 一种铁轨扣件缺陷检测方法和系统
CN110781790A (zh) * 2019-10-19 2020-02-11 北京工业大学 基于卷积神经网络与vlad的视觉slam闭环检测方法
CN112364193A (zh) * 2020-11-17 2021-02-12 同济大学 面向图像检索的融合多层特征深度神经网络模型方法
CN112612913A (zh) * 2020-12-28 2021-04-06 厦门市美亚柏科信息股份有限公司 一种用于图像的搜索方法和系统
CN112925936B (zh) * 2021-02-22 2022-08-12 济南大学 一种基于深度哈希的运动捕获数据检索方法及系统
CN113766405A (zh) * 2021-07-22 2021-12-07 上海闻泰信息技术有限公司 扬声器的杂音检测方法、装置、电子设备和存储介质
CN113536020B (zh) * 2021-07-23 2022-05-24 贝壳找房(北京)科技有限公司 数据查询的方法、存储介质和计算机程序产品
CN116932802B (zh) * 2023-07-10 2024-05-14 玩出梦想(上海)科技有限公司 一种图像检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512289A (zh) * 2015-12-07 2016-04-20 郑州金惠计算机系统工程有限公司 基于深度学习和哈希的图像检索方法
CN108427738A (zh) * 2018-03-01 2018-08-21 中山大学 一种基于深度学习的快速图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Multiscale Multitask Deep NetVLAD for Crowd Counting";Zenglin Shi等;《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》;20181130;第14卷(第11期);第4953-4962页 *
"一种用于人群计数的多尺度深度VLAD网络";孙一博;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215;全文 *
"基于深度学习的图像检索研究";曹卫娜;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;全文 *

Also Published As

Publication number Publication date
CN110222218A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
Wang et al. Enhancing sketch-based image retrieval by cnn semantic re-ranking
Zhang et al. Attention-aware deep adversarial hashing for cross-modal retrieval
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN109241317B (zh) 基于深度学习网络中度量损失的行人哈希检索方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN111104555B (zh) 基于注意力机制的视频哈希检索方法
CN109783691B (zh) 一种深度学习和哈希编码的视频检索方法
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN112182262B (zh) 一种基于特征分类的图像查询方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN112036511B (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN111611413B (zh) 基于度量学习的深度哈希方法
CN113806580A (zh) 基于层次语义结构的跨模态哈希检索方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN110442741B (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Rusakov et al. Expolring architectures for cnn-based word spotting
CN112101267B (zh) 一种基于深度学习和哈希编码的快速人脸检索方法
CN110704575B (zh) 一种动态自适应二元层次词汇树图像检索方法
Chu et al. Remote sensing image retrieval by multi-scale attention-based cnn and product quantization
Cao et al. Image retrieval via gated multiscale NetVLAD for Social Media Applications
CN112487231A (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220922

Address after: 710000 No. B49, Xinda Zhongchuang space, 26th Street, block C, No. 2 Trading Plaza, South China City, international port district, Xi'an, Shaanxi Province

Patentee after: Xi'an Huaqi Zhongxin Technology Development Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right