CN108804470A - 一种图像检索方法及装置 - Google Patents

一种图像检索方法及装置 Download PDF

Info

Publication number
CN108804470A
CN108804470A CN201710308233.1A CN201710308233A CN108804470A CN 108804470 A CN108804470 A CN 108804470A CN 201710308233 A CN201710308233 A CN 201710308233A CN 108804470 A CN108804470 A CN 108804470A
Authority
CN
China
Prior art keywords
feature
image
hash codes
fisrt feature
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710308233.1A
Other languages
English (en)
Other versions
CN108804470B (zh
Inventor
黄欢
赵刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jinghong Technology Co., Ltd
Original Assignee
Shanghai Jinghong Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinghong Electronic Technology Co Ltd filed Critical Shanghai Jinghong Electronic Technology Co Ltd
Priority to CN201710308233.1A priority Critical patent/CN108804470B/zh
Publication of CN108804470A publication Critical patent/CN108804470A/zh
Application granted granted Critical
Publication of CN108804470B publication Critical patent/CN108804470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种图像检索方法及装置,包括:使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,针对每个卷积层获取对应的第一特征图和第二特征图;对所述第一特征图和所述第二特征图进行选取和插值处理;使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;根据所述第一哈希码和所述第二哈希码,获取检索结果。本发明使用卷积神经网络提取图像中的高层语义特征和底层纹理细节,然后对所述卷积神经网络提取的特征进行处理,并使用循环神经网络将所述特征映射为哈希码,根据所述哈希码获取检索结果,从而提高检索的精度。

Description

一种图像检索方法及装置
技术领域
本发明涉及图像检索领域,更具体地,涉及一种图像检索方法及装置。
背景技术
近年来,随着互联网数据爆炸性增长,近似最近邻搜索获得广泛关注。在图像检索中,近似最近邻搜索是从一个大型的数据集中寻找与查询样本相近的样本。哈希技术在现有的最近邻近似搜索技术中是一项重要而有效的技术,具有较高的计算效率和较快的搜索速度,因此研究哈希技术在图像检索中的应用具有重要意义。
现有技术中提出了若干种基于哈希算法的图像检索方法。例如,一种基于局部敏感哈希的相似人脸快速检索方法,首先对人脸区域进行检测,将对眼睛、肤色和嘴巴进行特征检测和特征提取的结果综合表示为人脸特征向量,然后采用局部敏感哈希方法建立人脸特征向量的索引,从而实现人脸图像检索。但该方法需要较长的哈希码才能实现较好的精度,从而浪费很多存储空间。而且局部敏感哈希方法没有使用训练数据生成哈希码,而是采用随机投影的方法,稳定性较差。
又如,一种基于潜在语义最小哈希的图像检索方法,它采用深度卷积网络提取图像的语义特征,然后利用训练样本去训练基于潜在语义最小的哈希模型,从而实现较高的精度。然而哈希学习的模型是浅层结构,浅层结构不能很好地捕捉特征的性质以生成哈希码,因此检索的精度有待提高。
再如,一种基于深度学习和哈希的图像检索方法,采用深度学习的方法去学习哈希函数,使得精度进一步的提高。同时,张瑞茂等在文章“Bit-scalabledeep hashing withregularized similarity learning for image retrievaland person re-identification”中也提出了一种可变长的深度哈希的图像检索算法。但这两种方法仅仅利用高层语义特征,没有考虑底层纹理细节,从而影响图像检索精度。
综上所述,目前基于哈希算法的图像检索方法一方面,在保证精度的情况下,需要较长的哈希码,另一方面,稳定性差、哈希层的训练模型是浅层结构和没有考虑纹理细节导致图像检索的精度不高。
发明内容
为克服上述在较小的存储空间下、图像检索精度不高的问题,本发明提供了一种图像检索方法及装置。
根据本发明的第一方面,提供一种图像检索方法,包括:
S1,使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,针对每个卷积层获取对应的第一特征图和第二特征图;
S2,对所述第一特征图和所述第二特征图进行选取和插值处理;
S3,使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;
S4,根据所述第一特征和所述第二特征,获取检索结果。
具体地,S1进一步包括:
使用VGG卷积神经网络提取所述第一图像的高层语义特征和底层纹理特征,将由所述第一图像的高层语义特征和底层纹理特征组成的图像作为第一特征图;
使用VGG卷积神经网络提取所述第二图像的高层语义特征和底层纹理特征,将由所述第二图像的高层语义特征和底层纹理特征组成的图像作为第二特征图。
具体地,S2进一步包括:
S21,从所述卷积神经网络中每个卷积层中选取相同数目的第一特征图,从每个卷积层对应的第二特征图中选取相同数目的第二特征图;
S22,使用双线性插值法对所述第一特征图和所述第二特征图进行处理,使所述第一特征图和所述第二特征图的尺寸分别相同。
具体地,S3进一步包括:
使用循环神经网络中的循环层对处理后的所述第一特征图和所述第二特征图进行特征提取,获取对应的第一特征和第二特征;
使用循环神经网络中的哈希层将所述第一特征和所述第二特征映射为对应的第一哈希码和第二哈希码。
具体地,S4进一步包括:
获取所述第一哈希码和所述第二哈希码之间的汉明距离;
对所述汉明距离进行排序,根据所述排序获取检索结果。
具体地,所述第一特征和所述第二特征通过以下方式获取:
其中,X为第一特征图或第二特征图,H1为所述循环神经网络的第一个循环层提取的X的特征,为LSTM循环神经网络,W1为所述第一个循环层的权重,V1为所述第一个循环层的偏置,hend为所述循环神经网络的第二个循环层提取的H1的第一特征或第二特征,为LSTM循环神经网络,W2为所述第二个循环层的权重,V2为所述第二个循环层的偏置。
具体地,所述第一哈希码和所述第二哈希码通过以下方式获取:
Q=tanh(W3hend+V3),
B=sgn(Q),
其中,Q为连续哈希码,tanh(·)为双曲线正切函数,W3为所述循环神经网络的哈希层的权重,V3为所述哈希层的偏置。B为二进制哈希码,sgn(·)为符号函数。
根据本发明的第二方面,提供一种图像检索装置,包括:
卷积单元,用于使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,获取对应的第一特征图和第二特征图;
处理单元,用于对所述第一特征图和所述第二特征图进行选取和插值处理;
循环单元,用于使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;
检索单元,用于根据所述第一哈希码和所述第二哈希码,获取检索结果。
根据本发明的第三方面,提供一种计算机程序产品,包括程序代码,所述程序代码用于执行上述所述的图像检索方法。
根据本发明的第四方面,提供一种非暂态计算机可读存储介质,用于存储如前所述的计算机程序。
本发明提出一种图像检索方法及装置,通过使用卷积神经网络提取图像中的高层语义特征和底层纹理细节,然后对所述卷积神经网络提取的特征进行处理,并使用循环神经网络将所述特征映射为哈希码,根据所述哈希码获取检索结果,由于循环神经网络将高层语义特征和底层纹理细节特征映射为更好的哈希码,从而提高检索的精度。
附图说明
图1为本发明实施例提供的图像检索方法流程图;
图2为本发明又一实施例提供的图像检索方法流程图;
图3为不同情况下使用MNIST数据库进行图像检索的MAP曲线;
图4为不同情况下使用CIFAR-10数据库进行图像检索的MAP曲线;
图5为本发明实施例提供的图像检索装置结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明实施例提供的图像检索方法流程图,如图1所示,该方法包括:S1,使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,获取对应的第一特征图和第二特征图;S2,对所述第一特征图和所述第二特征图进行选取和插值处理;S3,使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;S4,根据所述第一哈希码和所述第二哈希码,获取检索结果。
其中,S1中,所述第一图像为待检索的图像,所述第二图像为预先获取的从中选取检索结果的图像。所述卷积神经网络为预先训练好的卷积神经网络,可以为VGG卷积神经网络。所述卷积神经网络的低层可以提取底层纹理特征,所述卷积神经网络的高层可以使用所述底层纹理特征构建高层语义特征。使用所述卷积神经网络提取所述第一图像的高层语义特征和底层纹理特征,将由所述第一图像的高层语义特征和底层纹理特征组成的图像作为第一特征图。使用所述卷积神经网络提取所述第二图像的高层语义特征和底层纹理特征,将由所述第二图像的高层语义特征和底层纹理特征组成的图像作为第二特征图。本实施例不限于所述卷积神经网络的类型和所述卷积神经网络中卷积层的数量,以及每个卷积层中卷积核的数量和尺寸。
S2中,由于所述卷积神经网络中每个卷积层中的卷积核的数量和尺寸不同,每个卷积核对应一幅特征图,从而导致每个卷积层对应的特征图的数量和尺寸不同。所以需要对所述第一特征图和所述第二特征图进行选取和插值处理。
S3中,所述循环神经网络可以为LSTM(Long Short-Term Memory,长短时记忆)循环神经网络,它是一种时间递归神经网络。使用所述循环神经网络中的循环层对处理后的所述第一特征图和所述第二特征图进行特征提取,获取对应的第一特征和第二特征。使用循环网络中的哈希层将获取的所述第一特征和所述第二特征映射为对应的连续的哈希码,并将所述连续的哈希码转换为二进制哈希码。本实施例不限于所述循环神经网络的类型。
S4中,获取所述第一哈希码和所述第二哈希码之间的汉明距离,并对所述汉明距离进行排序,所述排序可以为从大到小或从小到大的顺序。根据所述排序,从所述第二图像中选取汉明距离最小的多幅图像作为检索结果。所述检索结果中图像的数目可以为第一预设阈值。也可以选取所述汉明距离小于第二预设阈值的图像作为检索结果。
具体地,将处理后的所述第一特征图和所述第二特征图作为所述循环神经网络的输入。所述循环神经网络可以为LSTM循环神经网络,所述LSTM循环神经网络的第一个循环层的公式为:
其中,X为第一特征图或第二特征图,H1为所述第一个循环层提取的X的特征,为LSTM循环神经网络,W1为第一个循环层的权重,V1为第一个循环层的偏置。
所述LSTM循环神经网络的第二个循环层将第一个循环层提取的特征H1进一步映射为:
其中,hend为所述第二个循环层提取的H1的第一特征或第二特征,为LSTM循环神经网络的第二个循环层,W2为第二个循环层的权重,V2为第二个循环层的偏置。
所述LSTM循环神经网络的第二个循环层采用全连接的方式与哈希层连接,通过所述哈希层获取连续哈希码的公式如下:
Q=tanh(W3hend+V3),
其中,Q为连续哈希码,tanh(·)为双曲线正切函数,W3为哈希层的权重,V3为哈希层的偏置。Q的范围位于-1到1之间,采用符号函数获取Q的二进制哈希码的公式为:
B=sgn(Q),
其中,B为二进制哈希码,sgn(·)为符号函数。如果Q大于0,则符号函数返回1,反之,返回-1。
在进行图像检索之前对所述循环神经网络进行训练,使用S1-S3的步骤获取预先获取的训练图像对应的第三哈希码。所述训练图像具有对应的第一标签,可以从MNIST数据库和CIFAR-10数据库中选取。所述第一标签为人工标记的标签。将所述第三哈希码作为所述循环神经网络的输入,获取所述第三图像对应的第二标签。使用的目标函数为:
其中,α1和α2为权重参数,mean(·)为平均运算,L(·)为交叉熵损失函数,Ytrain为用于训练的第三图像的第一标签,Ytrain’为第二标签,W为所述循环神经网络中的循环层和哈希层中的所有权重,V为所述循环神经网络中的循环层和哈希层中的所有偏置。所述后向反馈算法可以为RMSpop算法,也可以为其它的深度学习算法。通过训练,获取所述循环神经网络中的循环层和哈希层的权重和偏置的最优值。
本实施例通过使用卷积神经网络提取图像中的高层语义特征和底层纹理细节,使用插值法和相似性选择测量使得所述卷积神经网络中每个卷积层对应的特征图尺寸和数目相同,并使用循环神经网络中的循环层进一步提取图像特征,使用哈希层获取所述图像特征的哈希码,根据哈希码获取检索结果,从而提高了检索的精度。
图2为本发明实施例提供的图像检索方法流程图。如图2所示,在上述实施例的基础上,S2进一步包括:S21,从每个卷积层对应的第一特征图中选取相同数目的第一特征图,从每个卷积层对应的第二特征图中选取相同数目的第二特征图;S22,使用双线性插值法对所述第一特征图和所述第二特征图进行处理,使所述第一特征图和所述第二特征图的尺寸分别相同。
具体地,S21包括:获取每个所述卷积层对应的第一特征图和第二特征图的平均特征图;计算所述第一特征图和所述第二特征图与对应的平均特征图之间的相似程度;根据所述相似程度,从每个卷积层对应的第一特征图中选取相同数目的第一特征图,从每个卷积层对应的第二特征图中选取相同数目的第二特征图。S22中,使用插值法以使所有第一特征图的尺寸相同,使所有第二特征图的尺寸也相同。所述插值法可以为双线性插值法,本发明不限于此种插值法。也可以先进行插值处理,再进行选取处理,但是先进行选取处理使得只对选取的第一特征图和第二特征图进行插值处理,从而大大减少计算。
具体地,由于每个卷积层中卷积核的数目不同,导致每个卷积层对应的第一特征图和第二特征图的数目不同。为了让每个卷积层对应的第一特征图和第二特征图发挥相同作用,采用相似性选择策略使每个卷积层对应的第一特征图和第二特征图的数目相同。设每个卷积层对应的第一特征图和第二特征图的数目为M,计算每个卷积层对应的第一特征图和第二特征图的平均特征图,公式为:
其中Xavg为每个卷积层对应的第一特征图和第二特征图的平均特征图,Xm为每个卷积层对应的第m个第一特征图和第二特征图。
为了让每个卷积层对应的第一特征图和第二特征图的数目相同,使用相似性函数选取与对应的平均特征图相似程度高的第一特征图和第二特征图,公式为:
score=sim(Xm,Xavg),
其中,score为所述第一特征图和所述第二特征图与对应的所述平均特征图之间的相似程度。从每个卷积层对应的第一特征图和第二特征图中选取相似程度高的相同数目的第一特征图和第二特征图。
由于不同卷积层对应的第一特征图和第二特征图尺寸不同,为了让每个卷积层对应的特征图发挥相同作用,采用双线性插值法使每个卷积层对应的特征图尺寸相同。所述双线性插值法的公式为:
其中,X*为第一特征图或第二特征图,X为双线性插值后的特征,a(l1,l2)为双线性插值的权重,它的尺寸取决于相邻矢量的位置l1和l2
本实施例使用相似性选择策略和插值法,使每个卷积层对应的第一特征图数目相同,使每个卷积层对应的第二特征图的数目也相同,并使用插值法使每个卷积层对应的第一特征图和第二特征图的尺寸分别相同,从而使得每幅第一特征图和第二特征图发挥的作用相同,提高了图像检索的精度。
从MNIST数据库和CIFAR-10数据库中选取图像作为测试图像集和训练图像集。使用上述方法获取所述测试图像集和训练图像集对应的哈希码。对于测试图像集中的每幅图像,计算该图像的哈希码与训练图像集中图像的哈希码之间的汉明距离。将所述汉明距离按从大到小或从小到大的顺序排列,从中选取n幅汉明距离最小的训练图像集中的图像作为检索结果。选取不同的n值,计算每个n值对应的检索出的图像的平均正确率,得出MAP(Mean Average Precision,平均检索精度),即:
MAP=(∑AP)/N,
其中,AP为所述检索结果的平均正确率,N为n的取值个数。
采用配置为GeForce GTX Titan X GPU、InterCore i7-5930K、3.50GHZ CPU和64GRAM的设备的linux操作系统上,运用python和开源库theano进行仿真。使用文献“R.Zhang,L.Lin,R.Zhang,W.Zuo,and L.Zhang.Bit-Scalable Deep Hashing With RegularizedSimilarity Learning for Image Retrieval and Person Re-Identification.IEEETransactions onImage Processing,2015,24(12):4766-4779.”中公开的数据库将本实施例与9种现有算法进行比较。9种现有算法分别是3种无监督哈希方法LSH、SH和ITQ,以及6种监督哈希的方法KSH、MLH、BRE、DSRH、DSCH和DRSCH。其中,LSH、SH、ITQ、KSH、MLH和BRE使用的是shift特征,KSH-CNN、MLH-CNN和BRE-CNN使用的是卷积神经网络的高层语义特征,DSRH、DSCH和DRSCH将原图作为输入。
对于MNIST数据库,分别将本发明的方法和和9种现有算法进行比较,计算不同比特情况下的MAP。表1为不同比特情况下图像检索的MAP。图3a为在不同比特情况下汉明距离小于等于2的MAP曲线,纵轴为汉明距离小于等于2的MAP,横轴为哈希码的长度。图3b为在不同比特情况下前500张返回图像的MAP曲线,纵轴为前500张返回图像的MAP,横轴为哈希码的长度。图3c为在64位比特情况下前1000张返回图像的MAP曲线,纵轴为MAP,横轴为返回图像的张数。
表1MNIST数据库下的平均检索精度
对于CIFAR-10数据库,分别将本发明的方法和和9种现有算法进行比较,计算不同比特情况下的MAP。表2为不同比特情况下图像检索的MAP。图4a为在不同比特情况下汉明距离小于等于2的MAP曲线,纵轴为MAP,横轴为哈希码的长度。图4b为在不同比特情况下前500张返回图像的MAP曲线,纵轴为前500张返回图像的MAP,横轴为哈希码的长度。图4c为哈希编码长度取64位前1000张返回图像的MAP曲线,纵轴为MAP,横轴为返回图像的张数。
从表1和表2可见,本实施例与现有算法进行比较,本实施例中检索结果的MAP与其它方法相比,在不同比特情况下都较高。为了进一步说明本实施例的有效性,从在不同的哈希编码长度下前500张返回图像的MAP、在不同的哈希编码长度下汉明距离小于等于2的MAP和在64比特下前1000张返回图像的MAP三个方面进一步对比,从图3和图4可以看出,本实施例与其它方法相比,在这三个方面的MAP都较高。说明利用循环神经网络映射卷积神经网络提取的含有高层语义特征和底层纹理细节的图像特征可以得到更好的哈希码,从而提高图像检索的精度。
表2CIFAR-10数据库下的平均检索精度
图5为本发明实施例提供的图像检索装置结构图,如图5所示,包括卷积单元1、处理单元2、循环单元3和检索单元4,其中:
所述卷积单元1用于使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,获取对应的第一特征图和第二特征图;所述处理单元2用于对所述第一特征图和所述第二特征图进行处理;所述循环单元3用于使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;所述检索单元4用于根据所述第一哈希码和所述第二哈希码,获取检索结果。
具体地,所述第一图像为待检索的图像。所述第二图像为预先获取的从中选取检索结果的图像。所述卷积神经网络为预先训练好的卷积神经网络,可以为VGG卷积神经网络。所述卷积单元1使用所述卷积神经网络获取所述第一图像的高层语义特征和底层纹理特征,以及所述第二图像的高层语义特征和底层纹理特征。本实施例不限于所述卷积神经网络的类型和所述卷积神经网络中卷积层的数量,以及每个卷积层中卷积核的数量和尺寸。由于所述卷积神经网络中每个卷积层中的卷积核的数量和尺寸不同,所以需要所述处理单元2对所述第一特征图和第二特征图进行选取和插值处理。所述循环单元3对处理后的所述第一特征图和所述第二特征图进行特征提取,获取对应的第一特征和第二特征。使用所述循环神经网络中的哈希层将获取的所述第一特征和所述第二特征映射为对应的连续的哈希码,并将所述连续的哈希码转换为二进制哈希码。本实施例不限于所述循环神经网络的类型。所述检索单元4获取所述第一哈希码和所述第二哈希码之间的汉明距离,并对所述汉明距离进行排序。根据所述排序,从所述第二图像中选取汉明距离最小的多幅图像作为检索结果。
本实施例通过使用卷积神经网络提取图像中的高层语义特征和底层纹理细节,使用插值法和相似性选择测量使得所述卷积神经网络中每个卷积层对应的特征图尺寸和数目相同,并使用循环神经网络中的循环层进一步提取图像特征,使用哈希层获取所述图像特征的哈希码,根据哈希码获取检索结果,从而提高了检索的精度。
本实施例提供一种图像检索装置,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法,例如包括:使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,获取对应的第一特征图和第二特征图;对所述第一特征图和所述第二特征图进行处理,使每个卷积层对应的所述第一特征图和所述第二特征图的数目和尺寸相同;使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行特征提取,获取对应的第一特征和第二特征;根据所述第一特征和所述第二特征,获取检索结果。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,获取对应的第一特征图和第二特征图;对所述第一特征图和所述第二特征图进行处理;使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;根据所述第一哈希码和所述第二哈希码,获取检索结果。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,获取对应的第一特征图和第二特征图;对所述第一特征图和所述第二特征图进行处理;使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;根据所述第一哈希码和所述第二哈希码,获取检索结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的显示装置的测试设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图像检索方法,其特征在于,包括:
S1,使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,针对每个卷积层获取对应的第一特征图和第二特征图;
S2,对所述第一特征图和所述第二特征图进行选取和插值处理;
S3,使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;
S4,根据所述第一哈希码和所述第二哈希码,获取检索结果。
2.根据权利要求1所述的图像检索方法,其特征在于,S1进一步包括:
使用VGG卷积神经网络提取所述第一图像的高层语义特征和底层纹理特征,将由所述第一图像的高层语义特征和底层纹理特征组成的图像作为第一特征图;
使用VGG卷积神经网络提取所述第二图像的高层语义特征和底层纹理特征,将由所述第二图像的高层语义特征和底层纹理特征组成的图像作为第二特征图。
3.根据权利要求1或2所述的图像检索方法,其特征在于,S2进一步包括:
S21,从每个卷积层对应的第一特征图中选取相同数目的第一特征图,从每个卷积层对应的第二特征图中,选取相同数目的第二特征图;
S22,使用双线性插值法对所述第一特征图和所述第二特征图进行处理,使所述第一特征图和所述第二特征图的尺寸分别相同。
4.根据权利要求1或2所述的图像检索方法,其特征在于,S3进一步包括:
使用循环神经网络中的循环层对处理后的所述第一特征图和所述第二特征图进行特征提取,获取对应的第一特征和第二特征;
使用循环神经网络中的哈希层将所述第一特征和所述第二特征映射为对应的第一哈希码和第二哈希码。
5.根据权利要求1或2所述的图像检索方法,其特征在于,S4进一步包括:
获取所述第一哈希码和所述第二哈希码之间的汉明距离;
对所述汉明距离进行排序,根据所述排序获取检索结果。
6.根据权利要求4所述的图像检索方法,其特征在于,所述第一特征和所述第二特征通过以下方式获取:
其中,X为第一特征图或第二特征图,H1为所述循环神经网络的第一个循环层提取的X的特征,为LSTM循环神经网络,W1为所述第一个循环层的权重,V1为所述第一个循环层的偏置,hend为所述循环神经网络的第二个循环层提取的H1的第一特征或第二特征,为LSTM循环神经网络,W2为所述第二个循环层的权重,V2为所述第二个循环层的偏置。
7.根据权利要求6所述的图像检索方法,其特征在于,所述第一哈希码和所述第二哈希码通过以下方式获取:
Q=tanh(W3hend+V3),
B=sgn(Q),
其中,Q为连续哈希码,tanh(·)为双曲线正切函数,W3为所述循环神经网络的哈希层的权重,V3为所述哈希层的偏置。B为二进制哈希码,sgn(·)为符号函数。
8.一种图像检索装置,其特征在于,包括:
卷积单元,用于使用预先训练好的卷积神经网络对获取的第一图像和第二图像进行特征提取,针对每个卷积层获取对应的第一特征图和第二特征图;
处理单元,用于对所述第一特征图和所述第二特征图进行选取和插值处理;
循环单元,用于使用循环神经网络对处理后的所述第一特征图和所述第二特征图进行映射,获取对应的第一哈希码和第二哈希码;
检索单元,用于根据所述第一哈希码和所述第二哈希码,获取检索结果。
9.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201710308233.1A 2017-05-04 2017-05-04 一种图像检索方法及装置 Active CN108804470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710308233.1A CN108804470B (zh) 2017-05-04 2017-05-04 一种图像检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710308233.1A CN108804470B (zh) 2017-05-04 2017-05-04 一种图像检索方法及装置

Publications (2)

Publication Number Publication Date
CN108804470A true CN108804470A (zh) 2018-11-13
CN108804470B CN108804470B (zh) 2020-07-14

Family

ID=64054600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710308233.1A Active CN108804470B (zh) 2017-05-04 2017-05-04 一种图像检索方法及装置

Country Status (1)

Country Link
CN (1) CN108804470B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582813A (zh) * 2018-12-04 2019-04-05 广州欧科信息技术股份有限公司 一种文物展品的检索方法、装置、设备和存储介质
CN109933682A (zh) * 2019-01-11 2019-06-25 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN112016534B (zh) * 2020-10-26 2021-02-05 城云科技(中国)有限公司 车辆违停检测的神经网络的训练方法、检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
CN106227851A (zh) * 2016-07-29 2016-12-14 汤平 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIAN-QIANG PENG,ET AL.: "《Image retrieval based on deep Convolutional Neural Networks and binary hashing learning》", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
李军等: "《结合视觉注意机制与递归神经网络的图像检索》", 《中国图象图形学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582813A (zh) * 2018-12-04 2019-04-05 广州欧科信息技术股份有限公司 一种文物展品的检索方法、装置、设备和存储介质
CN109582813B (zh) * 2018-12-04 2021-10-01 广州欧科信息技术股份有限公司 一种文物展品的检索方法、装置、设备和存储介质
CN109933682A (zh) * 2019-01-11 2019-06-25 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN109933682B (zh) * 2019-01-11 2022-01-04 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN112016534B (zh) * 2020-10-26 2021-02-05 城云科技(中国)有限公司 车辆违停检测的神经网络的训练方法、检测方法和装置

Also Published As

Publication number Publication date
CN108804470B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
Kang et al. Shakeout: A new approach to regularized deep neural network training
Radenovic et al. Deep shape matching
Liu et al. Learning spatio-temporal representations for action recognition: A genetic programming approach
Li et al. Group-wise deep object co-segmentation with co-attention recurrent neural network
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
Babenko et al. Robust object tracking with online multiple instance learning
Li et al. SHREC’13 track: large scale sketch-based 3D shape retrieval
Hentschel et al. Fine tuning CNNS with scarce training data—Adapting ImageNet to art epoch classification
Sharma et al. Expanded parts model for semantic description of humans in still images
Zhang et al. Multi-level second-order few-shot learning
CN104966081B (zh) 书脊图像识别方法
He et al. Sketch recognition with deep visual-sequential fusion model
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
Zhang et al. Improved adaptive image retrieval with the use of shadowed sets
CN108804470A (zh) 一种图像检索方法及装置
JP2015036939A (ja) 特徴抽出プログラム及び情報処理装置
Cheddad et al. Object recognition using shape growth pattern
Zhu et al. Text detection based on convolutional neural networks with spatial pyramid pooling
CN108805280A (zh) 一种图像检索的方法和装置
Pu et al. Learning recurrent memory activation networks for visual tracking
CN114168768A (zh) 图像检索方法及相关设备
CN108090117B (zh) 一种图像检索方法及装置,电子设备
Phoka et al. Image based phishing detection using transfer learning
Xu et al. Robust seed localization and growing with deep convolutional features for scene text detection
Tan et al. Local context attention for salient object segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20191225

Address after: 518109 first floor, building 1b, yunantong Industrial Park, langrong Road, Dalang community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jinghong Technology Co., Ltd

Address before: 201203 Shanghai Pudong New Area Shanghai free trade trial area, 1 spring 3, 400 Fang Chun road.

Applicant before: Shanghai Jinghong Electronic Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant