CN110309333B - 一种基于余弦度量的深度哈希图像检索方法 - Google Patents

一种基于余弦度量的深度哈希图像检索方法 Download PDF

Info

Publication number
CN110309333B
CN110309333B CN201910450067.8A CN201910450067A CN110309333B CN 110309333 B CN110309333 B CN 110309333B CN 201910450067 A CN201910450067 A CN 201910450067A CN 110309333 B CN110309333 B CN 110309333B
Authority
CN
China
Prior art keywords
hash
parameters
training
parameter
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910450067.8A
Other languages
English (en)
Other versions
CN110309333A (zh
Inventor
毋立芳
李丰
简萌
胡文进
赵宽
陈禹锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910450067.8A priority Critical patent/CN110309333B/zh
Publication of CN110309333A publication Critical patent/CN110309333A/zh
Application granted granted Critical
Publication of CN110309333B publication Critical patent/CN110309333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于余弦度量的深度哈希图像检索方法。面对互联网上庞大的图片数据,为了满足用户的需求,找到一种快速且准确的图像检索方法成为了一个亟待解决的问题。基于余弦度量可以有效减少矢量长度的多样性进而提升检索性能,同时在损失函数中引入类别信息,它与余弦度量约束相结合,有助于共同学习同一网络中的相似性保持,也能充分利用分类信息。采用该方案可以有效的实现大规模图像检索,并且经过实验证明,本方案的性能优于目前现有的图像检索方法,具有很重要的应用价值。

Description

一种基于余弦度量的深度哈希图像检索方法
技术领域
本发明涉及图像检索领域,具体涉及于一种基于余弦度量的深度哈希图像检索方法。
背景技术
近年来,随着网络多媒体数据爆发式增长,每天都有数十万张图像上传到互联网,面对如此大规模的多媒体数据,想要根据不同的用户需求去在海量图片中检索相关图像变得极为困难。因此,基于内容的图像检索在商业应用和学术领域越来越受到人们的关注。假设数据库中的图像和查询图像都是由实值特征表示,那么最简单的检索相关图像的方法是根据特征空间中数据库图像与查询图像的逐一距离度量来对数据库中的图像进行排序,然后返回距离最小的图像结果。然而,对于如今很常见的具有数百万图像的数据库,采用此种方法会花费大量的时间和内存,并不能满足用户的实时要求。
为了保证检索质量和计算效率的平衡,近似最近邻搜索(ANN:approximatednearest neighbor search)受到了越来越多的学者关注,其被证明足以用于许多实际问题,因此吸引了大量的研究工作。而哈希技术作为ANN的分支,其目标是把高维数据编码成紧凑的二进制数据的同时保持高维数据和二进制数据度量结构的相似性。由于其计算效率高和存储空间小的优点而被广大ANN研究者所关注。目前哈希算法主要分为:无监督哈希方法和有监督哈希方法。
无监督哈希方法是不需要任何训练数据来学习哈希函数或哈希编码。其中代表性的有:局部敏感性哈希(LSH)、谱哈希(SH)、迭代量化哈希(ITQ)等,这些方法由于没有利用任何训练数据样本,因此没有利用任何语义信息,所以很难达到令人满意的检索性能。而有监督哈希方法在训练过程中利用监督信息来直接引导哈希函数学习,因为利用了语义信息,所以在实际应用过程中,有监督哈希方法表现出更加优异的性能,传统有监督哈希比较有代表性的方法有:基于核函数的监督哈希(KSH)、最小损失哈希(MLH)、潜在因子哈希(LFH)等。
虽然很多传统有监督哈希方法已经在检索性能上取得了不错的进展,但是随着近年来深度学习的迅速发展,深度哈希方法在很多基准测试中表现出更优异的性能,这是由于相比于传统哈希方法使用手工制作特征,深度哈希通过卷积神经网络(CNN)提取出了更加准确的特征。同时深度哈希能够端对端的同时进行特征学习和哈希码学习,而传统哈希方法分离了这两个过程,导致两者并不能达到最优兼容。因此深度哈希方法在许多基准测试上取得了很出色的表现,这得益于其良好的学习非线性哈希函数的能力。目前比较具有代表性的深度哈希方法有:深度监督哈希(DSH)、深度量化网络哈希(DQN)、深度监督离散哈希(DSDH)和深度离散监督哈希(DDSH)等。然而这些方法在将高维数据映射到二进制数据时,扭曲了原始的特征分布并且损失了两者之间的相似性,同时目前大多数的深度哈希方法都采用汉明距离和内积的方式提升性能,其在联合学习保持相似性上还是有很大损失。
发明内容
为了有效的解决现有深度哈希方法存在的问题,本发明提供了一种基于余弦度量的深度哈希图像检索方法,该方法提出了一种余弦度量约束下的深度哈希框架来实现图像检索,本发明可以在同一个网络下保持联合学习的相似性并充分利用分类信息使得具有良好的检索性能。
本发明的具体步骤如下:
步骤一:对于数据集中的图像,随机选取一部分作为训练集,再从剩余数据中选出一部分作为测试集,最后剩余的部分作为数据库集。
步骤二:构建一个用于学习哈希函数的深度学习网络,对所构建的网络进行参数初始化,同时使模型在训练集上训练得到训练后的深度哈希网络模型,本发明的哈希函数学习的损失函数为:
Figure GDA0002959362760000031
其中,ν是惩罚参数(即超参数),λ是权衡参数,假设
Figure GDA0002959362760000032
为训练数据集中有n图像样本点,C是二值码长度(C-bit)。哈希的目的就是通过学习哈希函数h(xi)∈{-1,1}C把图像样本映射到一组二进制码
Figure GDA0002959362760000033
并保持语义相似性,其中bi表示为xi的第i个图像样本点的二进制码,且bi=h(xi)。
对于训练集给出的语义标签信息,则可以得到成对标签信息矩阵S={sij},sij∈{0,1},其中sij=0,意味着两张图像样本xi和xj在语义上不同,而sij=1则意味着xi和xj在语义上相同。
对于单标签训练集给出的标签信息
Figure GDA0002959362760000034
其中yi∈{0,1}k是对应于样本xi的真实标签向量。当yki=1时,xi属于第k类否则不属于。若是多标签训练集,一个样本可能会有属于多个类别属性。
针对最后的ui(i=1,2,…,n)是CNN网络最后一层的输出,它可以表示为:
Figure GDA0002959362760000039
其中,
Figure GDA0002959362760000035
表示为权重矩阵,l表示网络最后一个全连接层之前一层的输出维度,
Figure GDA0002959362760000036
表示CNN-F网络最后一个全连接层之前的前一层参数,
Figure GDA0002959362760000037
表示与xi有关的最后一个全连接层的输出,
Figure GDA0002959362760000038
是一个偏置向量。损失函数中最后一项的目的是通过惩罚参数ν使得ui接近bi,用bi直接进行分类,完成语义特征度量和线性分类在同一个流框架下。理论上,ν足够大的情况下,ui可以无限的接近bi
步骤三:在本模型中,需要反向传播学习的参数有损失函数中的ui,W和bi,而ui中又有P,Φ和ξ。采用交替最小化方法对损失函数进行迭代求解,即通过优化一个参数的同时固定其他参数,进而得到所需要的哈希函数。
步骤四:按照交叉验证的原则调整学习率,阈值m和超参数λ的数值,按照调整后的参数值重复步骤三训练网络进而得到最终的哈希函数。网络训练完成后,将最后一层具有C个神经元的全连接层实数值量化成离散的哈希码。
步骤五:通过之前迭代训练得到的哈希函数来计算整个数据库集的哈希码。对于测试集,计算测试集中的图像的哈希码与数据库集中图像哈希码的汉明距离,通过距离度量来判断测试集与数据库集中图片的相似性,返回相似度高的图像。
1.一种基于余弦度量的深度哈希图像检索方法,其特征在于包括以下步骤:
(1)对数据集中的图片进行处理,得到训练集、测试集和数据库集;
(2)构建用于学习哈希函数的深度学习网络并进行参数初始化;
(3)利用训练集训练网络,并采用交替最小化的方法学习损失函数中的学习参数,
(4)采用交叉验证的方法确定损失函数中超参数的数值进而得到最终的哈希函数;
(5)计算测试集中与数据库集中图像哈希码的汉明距离,通过距离度量来判断测试集与数据库集中图片的相似性,返回相似度高的图像,实现大规模的图像检索。
步骤(1)中,数据集处理的具体方法为:选择图像数据集,对于其中的图像,随机选取一部分作为训练集,再从剩余数据中选出一部分作为测试集,最后剩余的部分作为数据库集。
步骤(2)中,所述深度哈希网络的结构为:
卷积层1:卷积核64*11*11,卷积步长4*4
卷积层2:卷积核256*5*5,卷积步长1*1
卷积层3:卷积核256*3*3,卷积步长1*1
卷积层4:卷积核256*3*3,卷积步长1*1
卷积层5:卷积核256*3*3,卷积步长1*1
全连接层1:输出4096
全连接层2:输出4096
全连接层3:输出C
其中C为二值码的长度,常将其设置为12,24,32,48比特;
所述参数初始化具体为:采用ImageNet数据库上预训练的VGG-16模型中的参数对本深度哈希网络的前7层进行参数初始化,深度哈希网络中的全连接层8的参数按照均值为0方差为0.01的高斯分布进行随机初始化。
步骤(3)中,所述损失函数具体为:
Figure GDA0002959362760000051
假设
Figure GDA0002959362760000052
为训练数据集中有n图像样本点,C是二值码长度(C-bit);哈希的目的就是通过学习哈希函数h(xi)∈{-1,1}C把图像样本映射到一组二进制代码
Figure GDA0002959362760000053
并保持语义相似性,其中bi表示为xi的第i个图像样本点的二进制代码,且bi=h(xi);同理bj表示为xj的第j个图像样本点的二进制代码,且bj=h(xj);
对于训练集给出的语义标签信息,则得到成对标签信息矩阵S={sij},sij∈{0,1},其中sij=0,意味着两张图像样本xi和xj在语义上不同,而sij=1则意味着xi和xj在语义上相同,而
Figure GDA0002959362760000054
m∈[-1,1]是边际阈值参数;从损失函数的前两项可知:当sij=1,损失函数的第二项为0,第一项发挥作用,即惩罚那些语义相似样本图像映射到不同二值码,使得它们距离拉近;而当sij=0时,损失函数的第一项为0,第二项发挥作用,即在两张图像样本的二进制码bi和bj的余弦距离cos(bi,bj)加上边界阈值参数m的值大于0时,惩罚bi和bj映射到相近二值码的语义不相似样本图像;
针对损失函数中的第三项和第四项,其目的是采用线性分类的方法来学习二值码和标签信息;其中yi∈{0,1}是对应于样本xi的真实标签向量;W为分类权重矩阵,WT为其转置矩阵,||·||2为/2向量范数;||·||F为矩阵的Frobenius范数,λ和μ均为超参数;
针对损失函数中的最后一项,其目的是实现语义特征度量和所述损失函数中的三四项的线性分类方法在同一个框架下;其中ν是惩罚参数,ui(i=1,2,…,n)是CNN网络最后一层的输出,它表示为:
Figure GDA0002959362760000061
其中,P表示为权重矩阵,
Figure GDA0002959362760000062
表示CNN-F网络最后一个全连接层之前的前一层参数,
Figure GDA0002959362760000063
表示与xi有关的最后一个全连接层的输出,ξ是一个偏置向量;
所述交替最小化具体方法为:通过优化一个参数的同时固定其他参数,进而得到所需要的哈希函数;
所述需要学习的参数有ui,W和bi,而ui中又有P,Φ和ξ,具体固定方法为采用交替最小化的方法,使网络在设定的最大周期范围内训练,选出训练结束后检索平均精度均值最高的参数固定,最大周期的设置范围为50—100。
步骤(4)中,所述交叉验证的具体方法为:对于训练集再次进行切分,得到训练集以及验证集;通过训练集训练得到的模型,在验证集验证,从而确定超参数;
所述需要调整的超参数有学习率,边界阈值m,超参数λ,μ和ν;其中学习率的设置范围为10-1到10-3,阈值m的调整范围为[-0.1,-0.2,0,0.1,0.2,0.3,0.4,0.5],超参数λ,μ和ν的调整范围为[10,1,0.1,0.01,0.001],确定这三个超参数的原则是:采用交叉验证的原则,在设定的范围内选出检索平均精度均值最高的参数为最终参数。
步骤(5)中,所述哈希码采用如下方法得到:网络训练完成后,将最后一层具有C个神经元的全连接层经过sgn()函数,目的是将实数值量化成离散的哈希码,sgn()函数如下所示:
Figure GDA0002959362760000064
与现有技术相比,本发明具有如下优点:
通过本发明提出的方案,提出了一种具有余弦度量约束的深度哈希算法,有效减少了矢量长度的多样性,同时本发明在损失函数中引入类别信息,它与余弦度量约束相结合。有助于共同学习同一网络中的相似性保持,同时也能充分利用分类信息,进一步提升了图像检索性能。
附图说明
图1为损失函数设计流程图;
图2为图像检索流程示意图。
具体实施方式
本发明提出了一种基于余弦度量的深度哈希图像检索方法。该发明的具体实现步骤如下:
步骤一:选择图像数据集,对于其中的图像,随机选取一部分作为测试集,再从剩余数据中选出一部分作为测试集,最后剩余的部分作为数据库集。
步骤二:构建一个用于学习哈希函数的深度学习网络,本发明采用CNN-F网络结构作为图像特征学习的基本部分,其中把CNN-F最后一层替换为具有C个神经元的全连接层,以便倒数第二层的输出映射到汉明空间。同时本发明采用孪生网络来学习哈希函数,即用两个CNN-F学习哈希函数,它们具有共享权重和同样的网络结构。而成对样本图像作为这两个网络的输入。具体的模型参数配置见表1:
表1:深度哈希网络的配置与参数
Figure GDA0002959362760000071
Figure GDA0002959362760000081
其中“filter”指定卷积滤波器的数量及其感知字段大小,表示为“num x size xsize”;“stride”表示卷积步长,即将滤波器应用于输入的间隔;“pad”表示要添加到输入的每一维的像素数;“LRN”表示是否应用了局部响应归一化;“pool”表示下采样因子。“4096”和“C”表示全连接层的节点数目。
本发明采用ImageNet数据库上预训练的VGG-16模型中的参数对本深度哈希网络的前7层进行参数初始化,深度哈希网络中的全连接层8的参数按照均值为0方差为0.01的高斯分布进行随机初始化。然后使模型在训练集上训练得到训练后的深度哈希网络模型。
本发明的损失函数设计过程如下:
对于训练集给出的语义标签信息,则可以得到成对标签信息矩阵S={sij},sij∈{0,1},其中sij=0,意味着两张图像样本xi和xj在语义上不同,而sij=1则意味着xi和xj在语义上相同。
对于单标签训练集给出的标签信息
Figure GDA0002959362760000084
其中yi∈{0,1}k是对应于样本xi的真实标签向量。当yki=1时,xi属于第k类否则不属于。若是多标签训练集,一个样本可能会有属于多个类别属性。
为了有效地减轻矢量长度的多样性,即在把高维数据编码成二进制数据的同时继续保持度量结构相似性,我们采用余弦距离来度量。度量的目的是相似图像样本所得的二值码距离应尽可能的接近,而不同图像样本的二值码距离较远。基于该目的,余弦度量应该将语义相似的图像样本编码到一起,并将不同语义图像样本编码成较远距离。公式如(1-1)所示:
Figure GDA0002959362760000082
其中,
Figure GDA0002959362760000083
m∈[-1,1]是边际阈值参数。从公式(1)可知:当sij=1,惩罚那些语义相似样本图像映射到不同二值码,使得它们距离拉近。而当sij=0时,惩罚当它们余弦距离低于边界阈值m时,映射到相近二值码的语义不相似样本图像。
对于二值码bi和bj,汉明距离和它们内积的关系如公式所示:
Figure GDA0002959362760000091
其中distH为汉明距离。因为||bi||||bj||=C,所以
Figure GDA0002959362760000092
汉明距离和余弦距离的关系可近似如公式(1-2)所示:
Figure GDA0002959362760000093
为了充分的利用标签信息,本文采用线性分类方法来学习二值码和标签信息。公式如(1-3)所示。
Figure GDA0002959362760000094
其中,
Figure GDA0002959362760000095
是分类权重矩阵,
Figure GDA0002959362760000096
是真实标签矩阵,F(·)是loss函数,α是正则化参数。结合公式(1-1)和公式(1-3)并对线性分类采用L2loss,则可以得到如下公式:
Figure GDA0002959362760000097
其中,λ是权衡参数,μ=αλ。由于公式(1-4)的最小化是一个离散优化问题,该问题很难解决。所以把公式(1-4)等效为如下所示:
Figure GDA0002959362760000098
为了优化公式(1-5)中的问题,采用正则化方法来解决:
Figure GDA0002959362760000099
其中,ν是惩罚参数(即超参数),ui(i=1,2,…,n)是CNN网络最后一层的输出,它可以表示为:
Figure GDA0002959362760000101
其中,
Figure GDA0002959362760000102
表示为权重矩阵,l表示网络最后一个全连接层之前一层的输出维度,
Figure GDA0002959362760000103
表示CNN-F网络最后一个全连接层之前的前一层参数,
Figure GDA0002959362760000104
表示与xi有关的最后一个全连接层的输出,
Figure GDA0002959362760000105
是一个偏置向量。损失函数中最后一项的目的是通过惩罚参数ν使得ui接近bi,用bi直接进行分类,完成语义特征度量和线性分类在同一个流框架下。理论上,ν足够大的情况下,ui可以无限的接近bi
综上所述,本发明的损失函数即为公式(1-6),整体的设计流程如图1所示。
步骤三:将训练用的图片做归一化处理,将归一化后的图片以图片对的形式输入到网络,在本模型中,需要反向传播优化的参数有损失函数中的ui,W和bi,而ui中又有P,Φ和ξ。采用交替最小化方法对损失函数进行迭代求解,即通过优化一个参数的同时固定其他参数,进而得到所需要的哈希函数。
第一步对ui进行优化并固定W和bi,对公式(1-6)第一项求导可得:
Figure GDA0002959362760000106
(1-8)第二项求导可得:
Figure GDA0002959362760000107
(1-9)其中,
Figure GDA0002959362760000108
t=cos(ui,uj)>mor cos(uj,ui)>m
剩余项求导可得:
Figure GDA0002959362760000111
这时,利用反向传播更新P,Φ和ξ等参数,可得
Figure GDA0002959362760000112
步骤四:按照交叉验证的原则调整学习率,阈值m和超参数λ的数值进而得到最终的哈希函数,建议将学习率范围设置为-1到-2,阈值m为0,超参数λ为0.1。对于交叉验证,其方法为对于训练集再次进行切分,得到训练集以及验证集。通过训练集训练得到的模型,在验证集验证,从而确定超参数。网络训练完成后,将最后一层具有C个神经元的全连接层经过sgn()函数,目的是将实数值量化成离散的哈希码,sgn()函数如公式1-12所示。
Figure GDA0002959362760000113
步骤五:通过之前迭代训练得到的哈希函数来计算整个数据库集的哈希码。对于测试集,计算测试集中的图像的哈希码与数据库集中图像哈希码的汉明距离,通过距离度量来判断测试集与数据库集中图片的相似性,返回相似度高的图像。完整的图像检索流程如图2所示。
为了验证本发明的有效性,将本发明的算法在单标签数据集CIFAR-10和多标签数据集NUS-WIDE进行了实验。
针对CIFAR-10数据库,首先对整个数据集随机选取1000张(每类100张图像)作为查询集,其次把剩余59000张图像作为图像检索数据库,最后对数据库随机选取5000张(每类500张图像)作为训练集。针对NUS-WIDE数据集,首先对整个数据集随机选取2100张(每类100张图像)作为查询集,然后把剩余数据作为图像检索数据库,最后对数据库随机选取10500张(每类500张图像)作为训练集。表2和表3展示了本发明的算法与现有的图像检索算法精度的对比,可以看到本算法优于目前现有的图像检索算法。
表2:CIFAR-10数据集上的性能对比
Figure GDA0002959362760000114
Figure GDA0002959362760000121
表3:NUS-WIDE数据集上的性能对比
Figure GDA0002959362760000122

Claims (5)

1.一种基于余弦度量的深度哈希图像检索方法,其特征在于包括以下步骤:
(1)对数据集中的图片进行处理,得到训练集、测试集和数据库集;
(2)构建用于学习哈希函数的深度学习网络并进行参数初始化;
(3)利用训练集训练网络,并采用交替最小化的方法,学习损失函数中的学习参数;
(4)采用交叉验证的方法确定损失函数中超参数的数值进而得到最终的哈希函数;
(5)计算测试集中与数据库集中图像哈希码的汉明距离,通过距离度量来判断测试集与数据库集中图片的相似性,返回相似度高的图像,实现大规模的图像检索;
步骤(3)中,所述损失函数具体为:
Figure FDA0003134889090000011
假设
Figure FDA0003134889090000012
为训练数据集中有n图像样本点,C是二值码长度(C-bit);哈希的目的就是通过学习哈希函数h(xi)∈{-1,1}C把图像样本映射到一组二进制代码
Figure FDA0003134889090000013
并保持语义相似性,其中bi表示为xi的第i个图像样本点的二进制代码,且bi=h(xi);同理bj表示为xj的第j个图像样本点的二进制代码,且bj=h(xj);
对于训练集给出的语义标签信息,则得到成对标签信息矩阵S={sij},sij∈{0,1},其中sij=0,意味着两张图像样本xi和xj在语义上不同,而sij=1则意味着xi和xj在语义上相同,而
Figure FDA0003134889090000014
m∈[-1,1]是边际阈值参数;从损失函数的前两项可知:当sij=1,损失函数的第二项为0,第一项发挥作用,即惩罚那些语义相似样本图像映射到不同二值码,使得它们距离拉近;而当sij=0时,损失函数的第一项为0,第二项发挥作用,即在两张图像样本的二进制码bi和bj的余弦距离cos(bi,bj)加上边界阈值参数m的值大于0时,惩罚bi和bj映射到相近二值码的语义不相似样本图像;
针对损失函数中的第三项和第四项,其目的是采用线性分类的方法来学习二值码和标签信息;其中yi∈{0,1}是对应于样本xi的真实标签向量;W为分类权重矩阵,WT为其转置矩阵,‖·‖2为l2向量范数;‖·‖F为矩阵的Frobenius范数,λ和μ均为超参数;
针对损失函数中的最后一项,其目的是实现语义特征度量和所述损失函数中的三四项的线性分类方法在同一个框架下;其中ν是惩罚参数,ui(i=1,2,…,n)是CNN网络最后一层的输出,它表示为:
Figure FDA0003134889090000021
其中,P表示为权重矩阵,
Figure FDA0003134889090000022
表示CNN-F网络最后一个全连接层之前的前一层参数,
Figure FDA0003134889090000023
表示与xi有关的最后一个全连接层的输出,ξ是一个偏置向量;
所述交替最小化具体方法为:通过优化一个参数的同时固定其他参数,进而得到所需要的哈希函数;
需要学习的参数有ui,W和bi,而ui中又有P,Φ和ξ,具体固定方法为采用交替最小化的方法,使网络在设定的最大周期范围内训练,选出训练结束后检索平均精度均值最高的参数固定,最大周期的设置范围为50—100。
2.根据权利要求1所述的方法,其特征在于步骤(1)中,数据集处理的具体方法为:选择图像数据集,对于其中的图像,随机选取一部分作为训练集,再从剩余数据中选出一部分作为测试集,最后剩余的部分作为数据库集。
3.根据权利要求1所述的方法,其特征在于步骤(2)中,所述深度哈希网络的结构为:
卷积层1:卷积核64*11*11,卷积步长4*4
卷积层2:卷积核256*5*5,卷积步长1*1
卷积层3:卷积核256*3*3,卷积步长1*1
卷积层4:卷积核256*3*3,卷积步长1*1
卷积层5:卷积核256*3*3,卷积步长1*1
全连接层1:输出4096
全连接层2:输出4096
全连接层3:输出C
其中C为二值码的长度,常将其设置为12,24,32,48比特;
所述参数初始化具体为:采用ImageNet数据库上预训练的VGG-16模型中的参数对本深度哈希网络的前7层进行参数初始化,深度哈希网络中的全连接层8的参数按照均值为0方差为0.01的高斯分布进行随机初始化。
4.根据权利要求1所述的方法,其特征在于步骤(4)中,所述交叉验证的具体方法为:对于训练集再次进行切分,得到训练集以及验证集;通过训练集训练得到的模型,在验证集验证,从而确定超参数;
需要调整的超参数有学习率,边界阈值m,超参数λ,μ和ν;其中学习率的设置范围为10-1到10-3,阈值m的调整范围为[-0.1,-0.2,0,0.1,0.2,0.3,0.4,0.5],超参数λ,μ和ν的调整范围为[10,1,0.1,0.01,0.001],确定这三个超参数的原则是:采用交叉验证的原则,在设定的范围内选出检索平均精度均值最高的参数为最终参数。
5.根据权利要求1所述的方法,其特征在于步骤(5)中,所述哈希码采用如下方法得到:网络训练完成后,将最后一层具有C个神经元的全连接层经过sgn()函数,目的是将实数值量化成离散的哈希码,sgn()函数如下所示:
Figure FDA0003134889090000031
CN201910450067.8A 2019-05-28 2019-05-28 一种基于余弦度量的深度哈希图像检索方法 Active CN110309333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910450067.8A CN110309333B (zh) 2019-05-28 2019-05-28 一种基于余弦度量的深度哈希图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910450067.8A CN110309333B (zh) 2019-05-28 2019-05-28 一种基于余弦度量的深度哈希图像检索方法

Publications (2)

Publication Number Publication Date
CN110309333A CN110309333A (zh) 2019-10-08
CN110309333B true CN110309333B (zh) 2021-09-17

Family

ID=68075800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450067.8A Active CN110309333B (zh) 2019-05-28 2019-05-28 一种基于余弦度量的深度哈希图像检索方法

Country Status (1)

Country Link
CN (1) CN110309333B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488231B (zh) * 2020-12-11 2024-07-02 北京工业大学 一种具有平衡相似性的余弦度量监督深度哈希算法
CN112905820B (zh) * 2021-03-30 2022-11-11 山西大学 一种基于逻辑学习的多图检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN109241313A (zh) * 2018-08-14 2019-01-18 大连大学 一种基于高阶深度哈希学习的图像检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275747B2 (en) * 2015-03-12 2022-03-15 Yahoo Assets Llc System and method for improved server performance for a deep feature based coarse-to-fine fast search
CN107092918B (zh) * 2017-03-29 2020-10-30 太原理工大学 一种基于语义特征和有监督哈希的图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN109241313A (zh) * 2018-08-14 2019-01-18 大连大学 一种基于高阶深度哈希学习的图像检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Facial Pose Estimation Algorithm Using Deep Learning;Xiao xu et al.;《Chinese Conference on Biometric Recognition》;20151024;669-676 *
Deep Hashing Network for Efficient Similarity Retrieval;Han Zhu et al.;《Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence》;20160302;2415-2421 *
基于深度卷积神经网络的图像哈希认证方法;蒋翠玲 等;《华南理工大学学报(自然科学版)》;20180515;第46卷(第5期);第54页 *
基于离散优化的哈希编码学习方法;刘昊淼 等;《计算机学报》;20190327;第42卷(第5期);1149-1160 *

Also Published As

Publication number Publication date
CN110309333A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
JP7055187B2 (ja) ディープバイナリハッシュおよび量子化を介した効率的なクロスモーダル検索
CN105912611B (zh) 一种基于cnn的快速图像检索方法
Gao et al. Laplacian sparse coding, hypergraph laplacian sparse coding, and applications
Gu et al. Clustering-driven unsupervised deep hashing for image retrieval
CN112765352A (zh) 基于具有自注意力机制的图卷积神经网络文本分类方法
CN104462196B (zh) 多特征联合哈希信息检索方法
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
Liang et al. Self-paced cross-modal subspace matching
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN111026887B (zh) 一种跨媒体检索的方法及系统
CN108491430A (zh) 一种基于对特征方向进行聚类的无监督哈希检索方法
CN108388639B (zh) 一种基于子空间学习与半监督正则化的跨媒体检索方法
CN114911958B (zh) 一种基于语义偏好的快速图像检索方法
CN110309333B (zh) 一种基于余弦度量的深度哈希图像检索方法
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
Zhang et al. CapsNet-based supervised hashing
Wang et al. Weakly supervised deep hyperspherical quantization for image retrieval
Bai et al. Learning high-level image representation for image retrieval via multi-task dnn using clickthrough data
Wang et al. A convolutional neural network image classification based on extreme learning machine
Mudiyanselage et al. Feature selection with graph mining technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant