CN107423376B - 一种有监督深度哈希快速图片检索方法及系统 - Google Patents

一种有监督深度哈希快速图片检索方法及系统 Download PDF

Info

Publication number
CN107423376B
CN107423376B CN201710555687.9A CN201710555687A CN107423376B CN 107423376 B CN107423376 B CN 107423376B CN 201710555687 A CN201710555687 A CN 201710555687A CN 107423376 B CN107423376 B CN 107423376B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
picture
hash
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710555687.9A
Other languages
English (en)
Other versions
CN107423376A (zh
Inventor
王延峰
周越夫
黄衫衫
张娅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Media Intelligence Technology Co., Ltd.
Original Assignee
Shanghai Media Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Media Intelligence Technology Co Ltd filed Critical Shanghai Media Intelligence Technology Co Ltd
Priority to CN201710555687.9A priority Critical patent/CN107423376B/zh
Publication of CN107423376A publication Critical patent/CN107423376A/zh
Application granted granted Critical
Publication of CN107423376B publication Critical patent/CN107423376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种有监督深度哈希快速图片检索方法及系统,方法包括:构建用于快速图像检索的深度卷积神经网络H″;将图库中的图片依次输入深度卷积神经网络H″后得到实值特征,经过量化操作后得到哈希码并储存在本地;将每一张查询图片q输入至深度卷积神经网络H″并量化得到哈希码h(q),再计算哈希码h(q)与所有存储在本地的哈希码之间的汉明距离,将汉明距离为小的认作相似度为高,以此进行排序,最终根据检索数量要求返回相应数量的最为相似的图片。本发明基于现有的深度神经网络,利用三元组标签数据进行图片特征表达的学习采用三元组量化损失函数,用于构建有监督深度哈希模型,从而实现既快速又精准的图片检索。

Description

一种有监督深度哈希快速图片检索方法及系统
技术领域
本发明涉及计算机视觉和图像处理领域,具体地,涉及一种基于三元组量化损失函数有监督深度哈希快速图片检索方法及系统。
背景技术
随着信息技术的高速发展,海量的数据不断生成,其中图片数据的规模更是以指数增长,极大的数据量使得直接检索相似图像带来极大的时间与空间开销。故而,如何从海量图像中快速检索相似图像已成为亟需攻克的难题。哈希作为能将图片映射为低维二进制代码的方法成为常见的解决方法。近年来深度卷积神经网络得以快速发展,基于此的深度哈希方法在快速图像检索领域已展现出巨大的潜力。特别地,有监督的深度哈希方法受到了广泛的关注。
目前,Liu等人(Liu,H.,Wang,R.,Shan,S.,&Chen,X.(2016).Deep supervisedhashing for fast image retrieval.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(pp.2064-2072)),提出的有监督深度哈希方法是检索精度最高的方法之一。该方法核心思想主要包括:(1)利用了成对标签对深度卷积神经网络进行有监督训练;(2)设计对比损失函数使得相似图片的特征之间距离尽量小,而非相似图片特征之间的距离尽量远;(3)设计量化损失函数,使得网络学习到的实值特征是近似二值化的;(4)通过门槛函数对实值特征进行量化操作,得到哈希码后再做检索。Liu等人的目的是基于深度卷积神经网络学习到表达能力较强且近似离散的描述子,他们认为这样在量化为哈希码的过程中,图片的语义信息将最大程度地得以保留。
然而该方法的缺陷在于,降低量化导致的语义信息丢失并不等价于学习近似二值化的图片特征;相反,这对于网络学习任务来说是极强的限制条件,使得学习到的特征本身只包含了极少的语义信息,换言之,Liu等人设计的量化损失函数导致方法结果仅为次优解。
发明内容
针对现有技术中存在的上述不足,本发明的目的是提出一种基于三元组量化损失函数的有监督深度哈希快速图片检索方法及系统,以降低现有哈希方法的量化损失。
为实现上述目的,本发明是通过以下技术方案实现的:为实现快速图像检索,基于现有的深度神经网络架构,利用三元组标签数据进行图片特征表达的学习。区别于现有深度哈希方法,本发明设计了一种适合于特征量化的三元组量化损失函数,用于构建有监督深度哈希模型。该三元组量化损失函数在提取高表达能力的实值特征的同时,驱使网络在保留特征表达能力的基础上输出更适合于后续量化处理的实值特征,最终得到高表达能力的哈希码,从而实现既快速又精准的图片检索。
根据本发明的一个方面,提供了一种有监督哈希快速图片检索方法,包括:
S1:构建用于快速图像检索的深度卷积神经网络H″;
对于每张图片a,随机分配一张相似图片p与一张非相似图片n,构成一组三元组训练样本(a,p,n);
在已有的深度神经网络模型末端叠加低维哈希层,构成深度卷积神经网络H,深度卷积神经网络H经过三次复制得到三路并行且参数共享的深度卷积神经网络H′;
将所述三元组训练样本(a,p,n)输入到深度卷积神经网络H′开始训练,同时对该训练样本进行缩放与裁剪;
先采用优化三元组损失函数训练深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新;
再采用优化三元组量化损失函数微调深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新;
以上训练微调后的深度卷积神经网络H′中任意抽取一路网络即用于快速图像检索的深度卷积神经网络H″;
S2:将图库中的图片依次输入深度卷积神经网络H″后得到实值特征,经过量化操作后得到哈希码并储存在本地;
S3:将每一张查询图片q输入至深度卷积神经网络H″并量化得到哈希码h(q),再计算哈希码h(q)与所有存储在本地的哈希码之间的汉明距离,将汉明距离为小的认作相似度为高,以此进行排序,最终根据检索数量要求返回相应数量的最为相似的图片。
优选地,所述S1中,三元组训练样本(a,p,n)按照如下操作得到:
对于基准图片a,根据标签分配相似图片p与非相似图片n,其中标签相同则为相似图片,不相同则为非相似图片,构成三元组训练样本(a,p,n);每一张图片都作为基准图片并进行多次如上操作,每一组三元组训练样本都与其他组的成员不完全相同。
优选地,所述S1中,深度卷积神经网络H′按照如下步骤得到:
步骤Sa1,参考已有的深度卷积神经网络,省去网络末端损失层,形成可输出多维实值特征的结构;
步骤Sa2,构建低维的全连接层,配以激活函数后作为低维哈希层,并接在步骤S21得到的网络末端,得到深度卷积神经网络H;
步骤Sa3,复制三次深度卷积神经网络H,并行排列并设置为参数共享,构成深度卷积神经网络H′。
更优选地,步骤Sa2中,构建的全连接层中神经元的个数等于最终要求输出的哈希码比特数。
优选地,所述S1中,所述对该训练样本进行缩放与裁剪,是指:
将三元组训练样本(a,p,n)缩放至256像素×256像素,从中随机裁取227像素×227像素大小的部分。
优选地,所述S1中,采用优化三元组损失函数训练深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新,是指:
步骤Sb1,三元组训练样本(a,p,n)经过深度卷积神经网络H′,得到三元组训练样本中的每张图片所对应的实值特征fa,fp,fn
步骤Sb2,计算三元组损失函数loss(fa,fp,fn),向深度卷积神经网络H′反向传播梯度以更新网络参数,其中:
所述三元组损失函数loss(fa,fp,fn)为:
loss(fa,fp,fn)=max(α+‖fa-fp2-‖fa-fn2,0)
其中α用于控制相似图片间距离与非相似图片间距离的差。
更优选地,在步骤Sb2中:
利用三元组损失函数,使得相似图片a与p的特征之间距离尽量小,非相似图片a与n的特征之间距离尽量大,并用参数α控制后者比前者大出的程度。
优选地,所述S1,采用优化三元组量化损失函数微调深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新,是指:
步骤Sc1,三元组训练样本(a,p,n)经过深度卷积神经网络H′,得到三元组训练样本中的每张图片所对应的实值特征fa,fp,fn
步骤Sc2,计算三元组量化损失函数,向网络H′反向传播梯度以更新网络参数,其中:
所述三元组量化损失函数lossQ(fa,fp,fn)为:
其中αs用于控制相似图片的特征距离0.5的远近,αd用于控制非相似图片间特征的距离,δ用于控制非相似图片间每个维度上的距离,β与γ用于平衡两项。
更优选地,在步骤Sc2中:
利用三元组量化损失函数,使得相似图片a与p各维度特征值都同时大于设定阈值或同时小于设定阈值,促使通过门槛函数后各维度的哈希码值相同;同时控制非相似图片a与n之间距离足够大,促使通过门槛函数后存在部分维度上两者的哈希码值不同。
优选地,所述S2与S3中,量化的操作都是利用了门槛函数,将深度卷积神经网络H″输出的实值特征映射为哈希码,其中:
所述门槛函数为:
其中a表示输入网络的图片,fa表示其通过网络H输出的实值特征。
优选地,所述方法进一步包括以下至少一种特征:
所述S2中,将图库中的所有图片输入深度卷积神经网络H″,输出的实值特征经过门槛函数量化后得到哈希码,并将所有图片的哈希码存储在本地。
所述S3中,将查询图片q输入深度卷积神经网络H″得到图片特征,经过门槛函数量化得到哈希码h(q)。
根据本发明的第二方面,提供一种有监督深度哈希快速图片检索系统,包括:
有监督训练数据模块:用于构建三元组训练样本;
卷积神经网络模块:用于构建可输出低维特征的深度卷积神经网络,构成深度卷积神经网络H,深度卷积神经网络H经过三次复制得到三路并行且参数共享的深度卷积神经网络H′;同时,对输入图像进行缩放与裁剪;
有监督学习模块:用于学习高检索精度且适合量化的实值特征,调用所述有监督训练数据模块产生的三元组训练样本,先后通过三元组损失模块与三元组量化损失模块优化深度卷积神经网络H′参数,得到用于快速图像检索的卷积神经网络H″;其中:所述三元组损失模块,利用三元组损失函数学习能有效判别图片相似与否的实值特征;所述三元组量化损失模块,利用三元组量化损失函数降低量化造成的图片语义信息损失;
哈希码提取模块:用于应用所述有监督学习模块得到的网卷积神经网络H″,对每一张输入图片提取哈希码并储存;
相似度计算模块:用于通过哈希码计算查询图片与图库中图片的相似度,排序之后得到最相似的图片。
本发明的原理是:先利用三元组损失函数训练深度卷积神经网络,使得网络H能够输出高表达能力的实值特征;再利用三元组量化损失函数微调之前得到的网络参数,使得网络H能够输出高表达能力且适合量化操作的实值特征。其中,优化三元组量化损失的效果等同于:1)使得相似图片的实值特征在各维度都同时大于0.5或小于0.5,继而通过门槛函数时各维度的哈希码值相同;2)非相似图片的实值特征保持足够大的距离,继而通过门槛函数时存在部分维度上的哈希码值不同。则微调后从网络提取到的哈希码值将具有接近实值特征的表达能力,继而有较高的检索精度。
与现有技术相比,本发明具有如下的有益效果:
1、相比于现有的训练单次网络的哈希方法,本发明先利用单纯的三元组损失函数训练网络再进行微调,这得以最小程度地干扰网络学习到高表达能力的实值特征,继而最大程度地挖掘哈希码的潜力。
2、现有的基于深度卷积神经网络的哈希方法,广泛应用了量化损失函数或具有相近形式的正则项,事实上是对量化损失的误读,导致网络无法学习到高表达能力的实值特征,继而降低哈希码的检索精度。本发明中设计的三元组量化损失函数从本质上解释了量化操作导致图片语义信息丢失的原因,并确实显著地提升了哈希码的检索精度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明一实施例中的图片检索系统示意图;
图2是本发明一实施例中的图片检索方法流程图;
图3为本发明一实施例中的深度卷积神经网络模型图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明提供了基于深度卷积神经网络的有监督哈希快速图片检索系统及方法,该系统及方法利用现有的深度神经网络结构,设计了三元组量化损失函数以训练得到高效的有监督哈希模型用于快速图像检索领域。通过三元组量化损失函数微调已具备高表达能力的实值特征,驱使网络在保留表达能力的基础上输出更适合做量化处理的特征,最终得到同样高表达能力的哈希码以提高快速图片检索的准确性。本发明是一种能够利用三元组标签数据学习网络的哈希快速图片检索方法,利用设计的三元组量化损失,显著提升了快速图片检索的准确性。
如图1所示,一种有监督哈希快速图片检索系统的实施例结构框图,包括如下模块:
有监督训练数据模块:用于构建三元组训练样本;
卷积神经网络模块:用于构建可输出低维特征的深度卷积神经网络,构成深度卷积神经网络H,深度卷积神经网络H经过三次复制得到三路并行且参数共享的深度卷积神经网络H′;同时,对输入图像进行缩放与裁剪;
有监督学习模块:用于学习高检索精度且适合量化的实值特征,调用所述有监督训练数据模块产生的三元组训练样本,先后通过三元组损失模块与三元组量化损失模块优化深度卷积神经网络H′参数,得到用于快速图像检索的卷积神经网络H″;其中:所述三元组损失模块,利用三元组损失函数学习能有效判别图片相似与否的实值特征;所述三元组量化损失模块,利用三元组量化损失函数降低量化造成的图片语义信息损失;
哈希码提取模块:用于应用所述有监督学习模块得到的网卷积神经网络H″,对每一张输入图片提取哈希码并储存;
相似度计算模块:用于通过哈希码计算查询图片与图库中图片的相似度,排序之后得到最相似的图片。
所述卷积神经网络模块应用已有的深度卷积神经网络的主体结构,加入到有监督学习模块中。为准备有监督学习,首先加入三元组损失模块,并在已有的深度卷积神经网络与三元组损失模块间插入低维的哈希层,再通过有监督学习模块,训练得到高检索精度的实值特征,之后将三元组损失模块替换为最小三元组量化损失模块,继续通过有监督学习模块进行参数微调,在保证检索精度的前提下微调实值特征使其适合量化,整个训练过程均接收三元组训练样本作为输入。
如图2-3所示,结合上述系统,提供一种有监督哈希快速图片检索方法实施例的描述,该方法包括如下步骤:
步骤S1,通过有监督训练数据模块,对于每张图片a,随机分配一张相似图片p与一张非相似图片n,构成一组三元组训练样本(a,p,n);
步骤S2,通过卷积神经网络模块,在已有的深度神经网络模型末端叠加低维哈希层,构成网络H,经过复制得到三路并行且参数共享的网络,构成网络H′;
步骤S3,通过有监督学习模块,将步骤S1中的三元组训练样本(a,p,n)输入到网络H′开始训练,同时卷积神经网络模块对该训练样本进行缩放与裁剪;
步骤S4,有监督学习模块调用三元组损失模块,三元组损失模块再通过优化三元组损失函数训练网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新;
步骤S5,将有监督学习模块中的三元组损失模块替换为三元组量化损失模块;
步骤S6,有监督学习模块调用三元组量化损失模块,三元组量化损失模块再通过优化三元组量化损失函数微调网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新;
步骤S7,通过哈希码提取模块,将图库中的图片依次输入网络H″后得到实值特征,经过量化操作后得到哈希码并储存在本地;
步骤S8,将每一张查询图片q输入至深度卷积神经网络H″并通过哈希码提取模块量化得到哈希码h(q),再通过相似度计算模块,计算哈希码h(q)与所有存储在本地的哈希码之间的汉明距离,将汉明距离为小的认作相似度为高,以此进行排序,最终根据检索数量要求返回相应数量的最为相似的图片。
进一步地,上述实施例中,步骤S1具体包括以下步骤:
对于基准图片a,根据标签分配相似图片p与非相似图片n,其中标签相同则为相似图片,不相同则为非相似图片,构成三元组训练样本(a,p,n);每一张图片都作为基准图片并进行20次如上操作,要求每一组三元组训练样本都与其他组的成员不尽相同。
进一步地,上述实施例中,步骤S2包括如下子步骤:
步骤S21,参考已有的深度卷积神经网络,省去网络末端损失层,形成可输出多维实值特征的结构;
步骤S22,构建低维的全连接层,配以激活函数后作为低维哈希层,并接在步骤S21得到的网络末端,得到深度卷积神经网络H;
步骤S23,复制三次网络H,并行排列并设置为参数共享,构成网络H′。
进一步地,上述实施例中,步骤S3具体包括如下步骤:
三元组训练样本(a,p,n)由有监督学习模块输入到网络H′中,卷积神经网络模块将其缩放至256像素×256像素,从中随机裁取227像素×227像素大小的部分。
进一步地,上述实施例中,步骤S4具体包括如下子步骤:
步骤S41,步骤S1中的三元组训练样本(a,p,n)经过网络H′,得到三元组训练样本中的每张图片所对应的实值特征fa,fp,fn
步骤S42,计算三元组损失函数loss(fa,fp,fn),通过三元组损失模块向网络反向传播梯度以更新网络参数,其中:
所述三元组损失函数loss(fa,fp,fn)为:
loss(fa,fp,fn)=max(α+‖fa-fp2-‖fa-fn2,0)
其中α用于控制相似图片间距离与非相似图片间距离的差。
进一步地,上述实施例中,步骤S5中,将有监督学习模块中三元组损失模块替换为三元组量化损失模块,损失函数更替为三元组量化损失。
进一步地,上述实施例中,步骤S6具体包括如下子步骤:
步骤S61,步骤S1中的三元组训练样本(a,p,n)经过网络H′,得到三元组训练样本中的每张图片所对应的实值特征fa,fp,fn
步骤S62,计算三元组量化损失函数,通过三元组量化损失模块向网络反向传播梯度以更新网络参数,其中:
所述三元组量化损失函数lossQ(fa,fp,fn)为:
其中αs用于控制相似图片的特征距离0.5的远近,αd用于控制非相似图片间特征的距离,δ用于控制非相似图片间每个维度上的距离,β与γ用于平衡两项。
进一步地,上述实施例中,步骤S7与S8中,量化的操作都是利用了门槛函数,将网络H输出的实值特征映射为哈希码,其中:
所述门槛函数为:
其中a表示输入网络的图片,fa表示其通过网络H输出的实值特征。
进一步地,上述实施例中,步骤S22中,构建的全连接层中神经元的个数等于最终要求输出的哈希码比特数。
进一步地,上述实施例中,在步骤S42中:
利用三元组损失函数,使得相似图片a与p的特征之间距离尽量小,非相似图片a与n的特征之间距离尽量大,并用参数α控制后者比前者大出的程度。
进一步地,上述实施例中,步骤S62中:
利用三元组量化损失函数,使得相似图片a与p各维度特征值都同时大于0.5或同时小于0.5,促使通过门槛函数后各维度的哈希码值相同;同时控制非相似图片a与n之间距离足够大,促使通过门槛函数后存在部分维度上两者的哈希码值不同。
进一步地,上述实施例中,步骤S7中:
网络H′中任意抽取一路网络即用于快速图像检索的深度卷积神经网络H″,将图库中的所有图片输入深度卷积神经网络H″,输出的特征经过门槛函数量化得到哈希码,并将所有图片的哈希码存储在本地。
进一步地,上述实施例中,步骤S8具体包括如下子步骤:
步骤S81,将查询图片q输入深度卷积神经网络H″得到图片特征,经过门槛函数量化得到哈希码h(q);
步骤S82,利用相似度计算模块计算h(q)与所有本地图片哈希码的汉明距离,判定汉明距离较小的较为相似,以此排序后按照对检索结果的数量要求返回相应数量的最为相似图片。
上述实施例通过哈希码h(q)与本地数据库中每个哈希码的汉明距离排序挑选出相似度最高的图片作为检索到的图片。
在上述实施例中:
1)有监督训练数据模块:采用In-shop数据集(Liu,Z.,Luo,P.,Qiu,S.,Wang,X.,&Tang,X.(2016).Deepfashion:Powering robust clothes recognition and retrievalwith rich annotations.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition(pp.1096-1104)),对于基准图片a,根据标签分配相似图片p与非相似图片n,其中标签相同则为相似图片,不相同则为非相似图片,构成三元组训练样本(a,p,n)。每一张图片都作为基准图片并进行20次如上操作,要求每组三元组训练样本都与其他组的成员不同。
2)卷积神经网络模块:在已有的深度神经网络模型后依次叠加低维哈希层,构成网络H,经过复制得到三路并行且参数共享的网络H′,其中哈希层实为带激活函数的全连接层,神经元个数与哈希码比特数相同,设置为48。对于1)中得到的三元组训练样本(a,p,n),该模块对其进行缩放与裁剪后输入网络H′,输出对应的实值特征(fa,fp,fn)。
3)有监督学习模块:将1)中得到的三元组训练样本输入网络H′,先后利用三元组损失模块与三元组量化损失模块优化网络H′的参数。
4)三元组损失模块:利用三元组损失函数训练网络,输出损失函数值并反向传播梯度更新网络H′。三元组损失函数为:
loss(fa,fp,fn)=max(α+‖fa-fp2-‖fa-fn2,0)
其中,α在本实施例中取值为1.6。当然,在其他实施例中,也可以根据实际需要选取其他数值。
5)三元组量化损失模块:为通过实值特征得到二进制的哈希码,采用量化规则:
结合量化规则,为降低量化导致的信息丢失,设计三元组量化损失函数微调三元组损失模块训练过的网络模型H′,使得相似图片的实值特征在各维度都同时大于0.5或小于0.5,而非相似图片的实值特征保持足够大的距离,继而相似图片的哈希码各维度的值都相同,非相似图片的哈希码存在部分维度的值不同。设计的三元组量化损失函数为:
其中,在本实施例中β、γ、αs、αd与δ可以分别取值为8.00、1.00、0.16、12.00与0.64。当然,在其他实施例中,也可以根据实际需要选取其他数值。
7)哈希码提取模块:用于将所有图库中的图片及查询图片输入网络H″,得到特征后通过门槛函数量化得到哈希码,特别地,将图库中图片的哈希码保存在本地,为相似度计算模块做准备。
8)相似度计算模块:对于查询图片q,计算其哈希码h(q)与所有本地图片哈希码的汉明距离,判定汉明距离较小的较为相似,以此排序后按照对检索结果的数量要求返回相应数量的最为相似图片。
另外,在上面所述的2)中,包括:
将a,p,n三张图片缩放至256像素×256像素,从中随机裁取227像素×227像素大小的部分。
将剪裁过后的a,p,n输入到三路并行的结构完全相同的深度卷积神经网络H′中,三条通路的参数共享。
随着信息技术的高速发展,海量的数据不断生成,其中图片数据的规模更是以指数增长,极大的数据量使得直接检索相似图像带来极大的时间与空间开销。作为常见的解决方法之一,哈希方法由于能将任意图片映射为紧凑的二进制代码而获得广泛关注。然而,现有的哈希方法始终无法避免量化导致的图片语义信息丢失。本实施例提出了一种基于深度卷积神经网络的有监督哈希快速图片检索系统及方法,利用三元组标签训练网络,在参数微调中解决了哈希中普遍存在的量化损失问题,使得网络能够提取到高表达能力的哈希码用于快速图像检索。
上述实施例提出的基于深度卷积神经网络的有监督哈希快速图片检索系统及方法,参考了现有的深度卷积神经网络模型,首先通过三元组损失函数训练网络得到高表达能力的实值特征,继而通过三元组量化损失函数微调网络,使得网络能够提取到高质量实值特征的同时使其变得适合量化,进而得到高表达能力的哈希码,其检索精度与现有哈希方法相比有显著提升。
通过上述实施例,可以构建一个基于深度卷积神经网络的有监督哈希快速图片检索系统及方法,先训练实值特征后在参数微调中专门降低量化导致的信息丢失,保证了网络对于图片有较高的辨识能力,同时能够提取到紧凑的哈希码,使得检索精度高且速度快。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项模块可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种有监督深度哈希快速图片检索方法,其特征在于,包括:
S1:构建用于快速图像检索的深度卷积神经网络H″;
对于每张图片a,随机分配一张相似图片p与一张非相似图片n,构成一组三元组训练样本(a,p,n);
在已有的深度神经网络模型末端叠加低维哈希层,构成深度卷积神经网络H,深度卷积神经网络H经过三次复制得到三路并行且参数共享的深度卷积神经网络H′;
将所述三元组训练样本(a,p,n)输入到深度卷积神经网络H′开始训练,同时对该训练样本进行缩放与裁剪;
先采用优化三元组损失函数训练深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新;
再采用优化三元组量化损失函数微调深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新;
以上训练微调后的深度卷积神经网络H′中任意抽取一路网络即用于快速图像检索的深度卷积神经网络H″;
S2:将图库中的图片依次输入深度卷积神经网络H″后得到实值特征,经过量化操作后得到哈希码并储存在本地;
S3:将每一张查询图片q输入至深度卷积神经网络H″并量化得到哈希码h(q),再计算哈希码h(q)与所有存储在本地的哈希码之间的汉明距离,将汉明距离为小的认作相似度为高,以此进行排序,最终根据检索数量要求返回相应数量的最为相似的图片;
所述S1,采用优化三元组量化损失函数微调深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新,是指:
步骤Sc1,三元组训练样本(a,p,n)经过深度卷积神经网络H′,得到三元组训练样本中的每张图片所对应的实值特征fa,fp,fn
步骤Sc2,计算三元组量化损失函数,向网络H′反向传播梯度以更新网络参数,其中:
所述三元组量化损失函数lossQ(fa,fp,fn)为:
其中αs用于控制相似图片的特征距离0.5的远近,αd用于控制非相似图片间特征的距离,δ用于控制非相似图片间每个维度上的距离,β与γ用于平衡两项;
在步骤Sc2中:
利用三元组量化损失函数,使得相似图片a与p各维度特征值都同时大于设定阈值或同时小于设定阈值,促使通过门槛函数后各维度的哈希码值相同;同时控制非相似图片a与n之间距离足够大,促使通过门槛函数后存在部分维度上两者的哈希码值不同。
2.根据权利要求1所述的有监督深度哈希快速图片检索方法,其特征在于,所述S1中,三元组训练样本(a,p,n)按照如下操作得到:
对于基准图片a,根据标签分配相似图片p与非相似图片n,其中标签相同则为相似图片,不相同则为非相似图片,构成三元组训练样本(a,p,n);每一张图片都作为基准图片并进行多次如上操作,每一组三元组训练样本都与其他组的成员不完全相同。
3.根据权利要求1所述的有监督深度哈希快速图片检索方法,其特征在于,所述S1中,深度卷积神经网络H′按照如下步骤得到:
步骤Sa1,参考已有的深度卷积神经网络,省去网络末端损失层,形成可输出多维实值特征的结构;
步骤Sa2,构建低维的全连接层,配以激活函数后作为低维哈希层,并接在步骤S21得到的网络末端,得到深度卷积神经网络H;
步骤Sa3,复制三次深度卷积神经网络H,并行排列并设置为参数共享,构成深度卷积神经网络H′。
4.根据权利要求3所述的有监督深度哈希快速图片检索方法,其特征在于,步骤Sa2中,构建的全连接层中神经元的个数等于最终要求输出的哈希码比特数。
5.根据权利要求1所述的有监督深度哈希快速图片检索方法,其特征在于,所述S1中,所述对该训练样本进行缩放与裁剪,是指:
将三元组训练样本(a,p,n)缩放至256像素×256像素,从中随机裁取227像素×227像素大小的部分。
6.根据权利要求1所述的有监督深度哈希快速图片检索方法,其特征在于,所述S1中,采用优化三元组损失函数训练深度卷积神经网络H′,以梯度回传的方式对深度卷积神经网络H′进行网络参数的更新,是指:
步骤Sb1,三元组训练样本(a,p,n)经过深度卷积神经网络H′,得到三元组训练样本中的每张图片所对应的实值特征fa,fp,fn
步骤Sb2,计算三元组损失函数loss(fa,fp,fn),向深度卷积神经网络H′反向传播梯度以更新网络参数,其中:
所述三元组损失函数loss(fa,fp,fn)为:
loss(fa,fp,fn)=max(α+‖fa-fp2-‖fa-fn2,0)
其中α用于控制相似图片间距离与非相似图片间距离的差。
7.根据权利要求6所述的有监督深度哈希快速图片检索方法,其特征在于,在步骤Sb2中:
利用三元组损失函数,使得相似图片a与p的特征之间距离尽量小,非相似图片a与n的特征之间距离尽量大,并用参数α控制后者比前者大出的程度。
8.根据权利要求1-7任一项所述的有监督深度哈希快速图片检索方法,其特征在于,所述S2与S3中,量化的操作都是利用了门槛函数,将深度卷积神经网络H″输出的实值特征映射为哈希码,其中:
所述门槛函数为:
其中a表示输入网络的图片,fa表示其通过网络H输出的实值特征。
9.根据权利要求1-7任一项所述的有监督深度哈希快速图片检索方法,其特征在于,所述方法进一步包括以下至少一种特征:
所述S2中,将图库中的所有图片输入深度卷积神经网络H″,输出的实值特征经过门槛函数量化后得到哈希码,并将所有图片的哈希码存储在本地;
所述S3中,将查询图片q输入深度卷积神经网络H″得到图片特征,经过门槛函数量化得到哈希码h(q)。
10.一种用于实现上述权利要求1-9任一项所述方法的有监督深度哈希快速图片检索系统,其特征在于,包括:
有监督训练数据模块:用于构建三元组训练样本;
卷积神经网络模块:用于构建可输出低维特征的深度卷积神经网络,构成深度卷积神经网络H,深度卷积神经网络H经过三次复制得到三路并行且参数共享的深度卷积神经网络H′;同时,对输入图像进行缩放与裁剪;
有监督学习模块:用于学习高检索精度且适合量化的实值特征,调用所述有监督训练数据模块产生的三元组训练样本,先后通过三元组损失模块与三元组量化损失模块优化深度卷积神经网络H′参数,得到用于快速图像检索的卷积神经网络H″;其中:所述三元组损失模块,利用三元组损失函数学习能有效判别图片相似与否的实值特征;所述三元组量化损失模块,利用三元组量化损失函数降低量化造成的图片语义信息损失;
哈希码提取模块:用于应用所述有监督学习模块得到的网卷积神经网络H″,对每一张输入图片提取哈希码并储存;
相似度计算模块:用于通过哈希码计算查询图片与图库中图片的相似度,排序之后得到最相似的图片。
CN201710555687.9A 2017-07-10 2017-07-10 一种有监督深度哈希快速图片检索方法及系统 Active CN107423376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710555687.9A CN107423376B (zh) 2017-07-10 2017-07-10 一种有监督深度哈希快速图片检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710555687.9A CN107423376B (zh) 2017-07-10 2017-07-10 一种有监督深度哈希快速图片检索方法及系统

Publications (2)

Publication Number Publication Date
CN107423376A CN107423376A (zh) 2017-12-01
CN107423376B true CN107423376B (zh) 2019-12-27

Family

ID=60426492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710555687.9A Active CN107423376B (zh) 2017-07-10 2017-07-10 一种有监督深度哈希快速图片检索方法及系统

Country Status (1)

Country Link
CN (1) CN107423376B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944045B (zh) * 2017-12-15 2019-02-05 清华大学 基于t分布哈希的图像检索方法及系统
CN108256082A (zh) * 2018-01-22 2018-07-06 北京邮电大学 一种基于深度多相似度哈希的多标签图像检索方法
CN108492364B (zh) * 2018-03-27 2022-09-20 百度在线网络技术(北京)有限公司 用于生成图像生成模型的方法和装置
CN108959522B (zh) * 2018-04-26 2022-06-17 浙江工业大学 基于半监督对抗生成网络的迁移检索方法
CN108629414B (zh) * 2018-05-09 2020-04-14 清华大学 深度哈希学习方法及装置
CN109166615B (zh) * 2018-07-11 2021-09-10 重庆邮电大学 一种随机森林哈希的医学ct图像存储与检索方法
CN109063113B (zh) * 2018-07-30 2021-11-02 成都快眼科技有限公司 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法
CN108920720B (zh) * 2018-07-30 2021-09-07 电子科技大学 基于深度哈希和gpu加速的大规模图像检索方法
CN109241317B (zh) * 2018-09-13 2022-01-11 北京工商大学 基于深度学习网络中度量损失的行人哈希检索方法
CN109271936B (zh) * 2018-09-18 2021-09-24 哈尔滨工程大学 基于感知哈希算法的飞机振动故障数据库构建与检索方法
CN109658445A (zh) * 2018-12-14 2019-04-19 北京旷视科技有限公司 网络训练方法、增量建图方法、定位方法、装置及设备
CN110046579B (zh) * 2019-04-18 2023-04-07 重庆大学 一种深度哈希的行人再识别方法
CN111090768A (zh) * 2019-12-17 2020-05-01 杭州深绘智能科技有限公司 一种基于深度卷积神经网络的相似图像检索系统和方法
CN111209886B (zh) * 2020-01-14 2023-10-31 中国人民解放军陆军工程大学 一种基于深度神经网络的快速行人再识别方法
CN111539022B (zh) * 2020-04-27 2022-04-22 支付宝(杭州)信息技术有限公司 一种特征匹配方法、目标对象的识别方法及相关硬件
CN111611413B (zh) * 2020-05-26 2023-04-18 北京邮电大学 基于度量学习的深度哈希方法
CN111723220B (zh) * 2020-06-18 2023-03-10 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN111832706A (zh) * 2020-07-08 2020-10-27 西安电子科技大学 基于哈希中心的连续学习方法
CN112957013B (zh) * 2021-02-05 2022-11-11 江西国科美信医疗科技有限公司 一种动态生命体征信号采集系统、监测装置及设备
CN112925940B (zh) * 2021-03-04 2022-07-01 浙江中设天合科技有限公司 一种相似图像检索方法、装置、计算机设备及存储介质
CN113190699B (zh) * 2021-05-14 2023-04-18 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置
CN113326393B (zh) * 2021-05-31 2023-04-07 深圳前瞻资讯股份有限公司 一种基于深度哈希特征和异构并行处理的图像检索方法
CN114329029B (zh) * 2021-10-28 2024-05-14 腾讯科技(深圳)有限公司 对象检索方法、装置、设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN106649886A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种利用三元组标签的深度监督散列进行图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN106649886A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种利用三元组标签的深度监督散列进行图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bit-scalable deep hashing with regularized similarity learning for image retrieval and person re-identification;Ruimao Zhang等;《IEEE transactions on image processing》;20151231;全文 *

Also Published As

Publication number Publication date
CN107423376A (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN107423376B (zh) 一种有监督深度哈希快速图片检索方法及系统
EP3964998A1 (en) Text processing method and model training method and apparatus
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
US20180276528A1 (en) Image Retrieval Method Based on Variable-Length Deep Hash Learning
CN109783655A (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
Lin et al. 1xn pattern for pruning convolutional neural networks
CN110347873A (zh) 视频分类方法、装置、电子设备及存储介质
KR20120053211A (ko) 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
CN110751224A (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN111815432B (zh) 金融服务风险预测方法及装置
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
WO2023077819A1 (zh) 数据处理系统及方法、装置、设备、存储介质、计算机程序、计算机程序产品
CN112836502B (zh) 一种金融领域事件隐式因果关系抽取方法
CN111368995B (zh) 一种基于序列推荐系统的通用网络压缩框架和压缩方法
CN110490876B (zh) 一种基于轻量级神经网络的图像分割方法
CN116957041A (zh) 压缩神经网络模型的方法、装置和计算设备
CN115481246A (zh) 文本检测模型训练方法以及装置
CN112200275B (zh) 人工神经网络的量化方法及装置
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
Petrovic et al. Domain specific word embedding matrix for training neural networks
CN113313720A (zh) 对象分割方法和装置
CN112989093A (zh) 检索方法、装置和电子设备
Uttarwar et al. Distributed content based image search engine using hadoop framework
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181012

Address after: 200063 701, 85 Lane 2077 lane, Guangfu West Road, Putuo District, Shanghai.

Applicant after: Wang Yanfeng

Applicant after: Zhang Ya

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Shanghai Jiao Tong University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181116

Address after: Room 387, Building 333, Hongqiao Road, Xuhui District, Shanghai 200030

Applicant after: Shanghai Media Intelligence Technology Co., Ltd.

Address before: 200063 701, 85 Lane 2077 lane, Guangfu West Road, Putuo District, Shanghai.

Applicant before: Wang Yanfeng

Applicant before: Zhang Ya

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant