CN112307248B - 一种图像检索方法及装置 - Google Patents
一种图像检索方法及装置 Download PDFInfo
- Publication number
- CN112307248B CN112307248B CN202011352635.XA CN202011352635A CN112307248B CN 112307248 B CN112307248 B CN 112307248B CN 202011352635 A CN202011352635 A CN 202011352635A CN 112307248 B CN112307248 B CN 112307248B
- Authority
- CN
- China
- Prior art keywords
- image
- similar images
- retrieved
- images
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013135 deep learning Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 238000010845 search algorithm Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 description 42
- 239000013598 vector Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像检索方法及装置,通过将待检索图像输入至预先训练的深度学习分类网络,从待检索图像中提取出N维CNN特征,基于N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,然后从待检索图像中提取出局部特征,并将局部特征通过词袋模型转换为M维局部特征,基于所述M维局部特征,从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述,而M维局部特征能够表征待检索图像的局部特征描述,因此,本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索,从而提高了图像的检索精度。
Description
技术领域
本发明涉及图像检索技术领域,更具体的说,涉及一种图像检索方法及装置。
背景技术
目前,在采用互联网交流过程中会产生巨大的多媒体数据,由此给互联网用户快速查找所需的信息造成了不小的障碍,基于此,搜索技术应运而生。面对不断出现的需求,如何使互联网用户在海量图像中高效、快速的搜索到目标图像成为重要的研究方向。
现有技术在进行图像检索时,主要采用两种方法,一种是基于图像整体特征描述进行图像检索,因此,当图像局部含有检索目标时,很难准确的去描述图像局部特征。另一种是基于图像局部特征描述进行图像检索,虽然该方法可以准确的去描述图像的局部特征,但是对图像整体上的描述又有所损失,导致图像检索精度不高。
因此,如何提供一种图像检索方法来提高图像检索精度成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本发明公开一种图像检索方法及装置,以提高图像检索精度。
一种图像检索方法,包括:
将待检索图像输入至预先训练的深度学习分类网络,从所述待检索图像中提取出N维CNN特征,N为正整数;
基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,其中,所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值;
从所述待检索图像中提取出局部特征,所述局部特征包括:所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子;
对所述局部特征通过词袋模型转换为M维局部特征,M为正整数且为固定值;
基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,其中,所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。
可选的,所述基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,具体包括:
对所述N维CNN特征采用有监督哈希,将所述N维CNN特征转换为长度为第一长度的哈希码;
基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像。
可选的,所述基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像,具体包括:
对所述第一长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从被检索图像集中召回所述候选相似图像。
可选的,所述从所述待检索图像中提取出局部特征,具体包括:
从所述待检测图像中检测出主目标区域;
从所述主目标区域中提取出所述局部特征。
可选的,所述基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,具体包括:
对所述M维局部特征采用有监督哈希,将所述M维局部特征转换为长度为第二长度的哈希码;
基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像。
可选的,所述基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像,具体包括:
对所述第二长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从所述候选相似图像中召回所述目标相似图像。
一种图像检索装置,包括:
CNN特征提取单元,用于将待检索图像输入至预先训练的深度学习分类网络,从所述待检索图像中提取出N维CNN特征,N为正整数;
第一召回单元,用于基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,其中,所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值;
局部特征提取单元,用于从所述待检索图像中提取出局部特征,所述局部特征包括:所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子;
转换单元,用于对所述局部特征通过词袋模型转换为M维局部特征,M为正整数且为固定值;
第二召回单元,用于基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,其中,所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。
可选的,所述第一召回单元具体包括:
第一转换子单元,用于对所述N维CNN特征采用有监督哈希,将所述N维CNN特征转换为长度为第一长度的哈希码;
第一召回子单元,用于基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像。
可选的,所述第一召回子单元具体用于:
对所述第一长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从被检索图像集中召回所述候选相似图像。
可选的,所述局部特征提取单元具体包括:
检测子单元,用于从所述待检测图像中检测出主目标区域;
提取子单元,用于从所述主目标区域中提取出所述局部特征。
可选的,所述第二召回单元具体包括:
第二转换子单元,用于对所述M维局部特征采用有监督哈希,将所述M维局部特征转换为长度为第二长度的哈希码;
第二召回子单元,用于基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像。
可选的,所述第二召回子单元具体用于:
对所述第二长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从所述候选相似图像中召回所述目标相似图像。
从上述的技术方案可知,本发明公开了一种图像检索方法及装置,通过将待检索图像输入至预先训练的深度学习分类网络,从待检索图像中提取出N维CNN特征,基于N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,然后从待检索图像中提取出局部特征,并将局部特征通过词袋模型转换为M维局部特征,基于所述M维局部特征,从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述,而M维局部特征能够表征待检索图像的局部特征描述,因此,本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索,从而提高了图像的检索精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种图像检索方法流程图;
图2为本发明实施例公开的一种图像检索装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种图像检索方法及装置,通过将待检索图像输入至预先训练的深度学习分类网络,从待检索图像中提取出N维CNN特征,基于N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,然后从待检索图像中提取出局部特征,并将局部特征通过词袋模型转换为M维局部特征,基于所述M维局部特征,从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述,而M维局部特征能够表征待检索图像的局部特征描述,因此,本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索,从而提高了图像的检索精度。
参见图1,本发明实施例公开的一种图像检索方法流程图,图像检索方法包括:
步骤S101、将待检索图像输入至预先训练的深度学习分类网络,从所述待检索图像中提取出N维CNN特征;
其中,N为正整数。
CNN(Convolutional Neural Networks,卷积神经网络)特征为:对图像集训练深度学习分类网络,提取深度学习分类网络的中间某层,例如,深度学习分类网络的softmax(多分类逻辑回归模型)前一层,作为N维的图像特征。
在训练深度学习分类网络时,使用Resnet50作为特征提取网络,模型的输入数据为所有待分类的商品图像,输出为商品图像所示的商品类别。
需要说明的是,从待检索图像中提取出的N维CNN特征也即是维度为N维的图像特征向量。
步骤S102、基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像;
其中,所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值;
步骤S102的实现过程具体包括:
(1)对所述N维CNN特征采用有监督哈希,将所述N维CNN特征转换为长度为第一长度的哈希码。
第一长度的取值依据实际需要而定,本发明在此不做限定。
哈希码:哈希函数把长度为L的浮点特征转成长度为Q的由“0”、“1”组成的码,两个码的相似性接近原来浮点特征的相似性。
有监督哈希:基于数据去学习哈希函数的过程。
(2)基于所述第一长度的哈希码,从被检索图像集中召回第一预设数量的候选相似图像。
具体的,对所述第一长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从被检索图像集中召回所述候选相似图像。
LSH(Locality Sensitive Hashing,局部敏感哈希)是一种针对海量高维数据的快速最近邻查找算法。
汉明距离:两个哈希码的距离,对两个码进行异或运算,统计结果为1的个数就是汉明距离。
需要说明的是,同类的商品图像,哈希码之间的汉明距离较小,并且哈希码大部分字段一致。在基于哈希码进行检索时,设置汉明距离阈值K,每个图像的哈希码均匀分为m(m>k+1)块,对每个图像建立c(m,m-k)个索引,任意m-k块哈希码的最小□度为min,则对每个图像每个索引下理论上最多线性查询2的64-min次幂,就能查询到k个位置上不同的相似图像。
其中,被检索图像集存储在图像检索库中。
需要说明的是,在步骤S103的具体实施例中,除了可以对第一长度的哈希码采用LSH检索算法外,还可以对第一长度的哈希码采用Kdtree算法。
Kdtree是一种分割k维数据空间的数据结构(对数据点在k维空间中划分的一种数据结构),是一种高维索引树形数据结构。Kdtree是二进制空间分割树的特殊的情况,或者说,Kdtree是一种平衡二叉树。
步骤S103、从所述待检索图像中提取出局部特征;
其中,所述局部特征包括:所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子。
局部特征点指的是:图像灰度值发生剧烈变换的点或图像边缘上曲率较大的点,例如harris角点、hessian特征检测等。
特征描述子指的是:对于一个特征点或图像,基于特征点周边信息或图像内容,构建一个长度度为L的特征向量或特征矩阵来描述特征点或图像。常用的描述子有SIFT(Scale-invariant feature transform,尺度不变特征变换)、SURF(Speeded Up RobustFeatures)、LIOP(Local Intensity Order Pattern,局部强度顺序模型)和HOG(Histogramof Oriented Gradient,方向梯度直方图)等,其中,SURF为对SIFT特征变换进行改进的加速版本。
需要说明的是,在从待检索图像中提取各个局部特征点以及每个所述局部特征点对应的特征描述子后,利用所有的特征描述子计算kmeans(k中心点聚类算法),以kmeans为中心计算所有特征描述子的词袋模型(BOW),这样,每张图像都形成一个定口的特征向量,维度为kmeans中心点个数,这些特征向量作为局部特征。
优选的,本实施例中的特征描述子可以是SIFT(Scale-invariant featuretransform,尺度不变特征变换)描述子或者DOG(Difference of Gaussian,高斯差)描述子。
由于图像检索库中存储的是商品图像,商品图像的背景简单,而用户输入的待检索图像是任意图像,比如,商品图像、自拍图像、网络图像等。考虑到待检索图像可能具有复杂背景,因此,在实际应用中,首先需要对待检索图像进行主目标检测,从待检索图像中框出主目标区域,然后利用传统图像中局部特征提取方法,从主目标区域提取出待检索图像的局部特征。
因此,步骤S103具体可以包括:
从所述待检测图像中检测出主目标区域;
从所述主目标区域中提取出所述局部特征。
步骤S104、对所述局部特征通过词袋模型转换为M维局部特征;
其中,M为正整数且为固定值。
本步骤也即对局部特征通过词袋模型转换为固定维度的局部特征,固定维度为M,M的取值根据实际需要而定,本发明在此不做限定。
需要说明的是,将局部特征通过词袋模型转换为M维局部特征,也即,将局部特征转换为BOW(即词袋模型)局部特征,这样图像间的特征描述子匹配以及空间检验匹配,转化为定口的BOW特征匹配。因为待检索图像的局部特征点个数不同,利用特征描述子匹配和空间检验匹配时就非常耗时,因此,本发明将特征描述子转换成BOW局部特征,该BOW局部特征是定口的,转换为BOW特征向量,以便于直接检索或转成哈希码。然后针对局部特征向量,构建一个k哈希的训练集,对任意一对特征向量进行标注,学习哈希函数,。将BOW特征转化为哈希码。
步骤S105、基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像。
其中,所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。
步骤S105的实现过程具体可以包括:
(1)对所述M维局部特征采用有监督哈希,将所述M维局部特征转换为长度为第二长度的哈希码。
需要说明的是,本实施例中第一长度和第二长度的取值可以相同或是不同,具体依据实际需要而定,本发明在此不做限定。
(2)基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像。
具体的,对所述第二长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从所述候选相似图像中召回所述目标相似图像。
需要说明的是,除了可以对第二长度的哈希码采用LSH检索算法外,还可以对第二长度的哈希码采用Kdtree算法。
综上可知,本发明公开的图像检索方法,通过将待检索图像输入至预先训练的深度学习分类网络,从待检索图像中提取出N维CNN特征,基于N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,然后从待检索图像中提取出局部特征,并将局部特征通过词袋模型转换为M维局部特征,基于所述M维局部特征,从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述,而M维局部特征能够表征待检索图像的局部特征描述,因此,本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索,从而提高了图像的检索精度。
另外,由于被检索图像集中包含的图像数量较大,因此,本发明在从被检索图像中召回候选相似图像和目标相似图像时,优先采用了具备敏感哈希的算法,从而可以加快图像的检索速度和检索效率,与此同时,图像检索次数也大大降低。
与上述方法实施例相对应,本发明还公开了一种图像检索装置。
参见图2,本发明实施例公开的一种图像检索装置的结构示意图,该装置包括:
CNN特征提取单元201,用于将待检索图像输入至预先训练的深度学习分类网络,从所述待检索图像中提取出N维CNN特征,N为正整数;
CNN(Convolutional Neural Networks,卷积神经网络)特征为:对图像集训练深度学习分类网络,提取深度学习分类网络的中间某层,例如,深度学习分类网络的softmax前一层,作为N维的图像特征。
在训练深度学习分类网络时,使用Resnet50作为特征提取网络,模型的输入数据为所有待分类的商品图像,输出为商品图像所示的商品类别。
需要说明的是,从待检索图像中提取出的N维CNN特征也即是维度为N维的图像特征向量。
第一召回单元202,用于基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像;
其中,所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值。
在实际应用中,第一召回单元202具体可以包括:第一转换子单元和第一召回子单元。
其中,第一转换子单元,用于对所述N维CNN特征采用有监督哈希,将所述N维CNN特征转换为长度为第一长度的哈希码;
第一长度的取值依据实际需要而定,本发明在此不做限定。
哈希码:哈希函数把长度为L的浮点特征转成长度为Q的由“0”、“1”组成的码,两个码的相似性接近原来浮点特征的相似性。
有监督哈希:基于数据去学习哈希函数的过程。
第一召回子单元,用于基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像。
在实际应用中,召回子单元具体可以用于:对所述第一长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从被检索图像集中召回所述候选相似图像。
LSH(Locality Sensitive Hashing,局部敏感哈希)是一种针对海量高维数据的快速最近邻查找算法。
汉明距离:两个哈希码的距离,对两个码进行异或运算,统计结果为1的个数就是汉明距离。
需要说明的是,同类的商品图像,哈希码之间的汉明距离较小,并且哈希码大部分字段一致。在基于哈希码进行检索时,设置汉明距离阈值K,每个图像的哈希码均匀分为m(m>k+1)块,对每个图像建立c(m,m-k)个索引,任意m-k块哈希码的最小□度为min,则对每个图像每个索引下理论上最多线性查询2的64-min次幂,就能查询到k个位置上不同的相似图像。
其中,被检索图像集存储在图像检索库中。
局部特征提取单元203,用于从所述待检索图像中提取出局部特征,所述局部特征包括:所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子;
局部特征点指的是:图像灰度值发生剧烈变换的点或图像边缘上曲率较大的点,例如harris角点、hessian特征检测等。
特征描述子指的是:对于一个特征点或图像,基于特征点周边信息或图像内容,构建一个长度度为L的特征向量或特征矩阵来描述特征点或图像。常用的描述子有SIFT(Scale-invariant feature transform,尺度不变特征变换)、SURF(Speeded Up RobustFeatures)、LIOP(Local Intensity Order Pattern,局部强度顺序模型)和HOG(Histogramof Oriented Gradient,方向梯度直方图)等,其中,SURF为对SIFT特征变换进行改进的加速版本。
需要说明的是,在从待检索图像中提取各个局部特征点以及每个所述局部特征点对应的特征描述子后,利用所有的特征描述子计算kmeans(k中心点聚类算法),以kmeans为中心计算所有特征描述子的词袋模型(BOW),这样,每张图像都形成一个定口的特征向量,维度为kmeans中心点个数,这些特征向量作为局部特征。
优选的,本实施例中的特征描述子可以是SIFT(Scale-invariant featuretransform,尺度不变特征变换)描述子或者DOG(Difference of Gaussian,高斯差)描述子。
由于图像检索库中存储的是商品图像,商品图像的背景简单,而用户输入的待检索图像是任意图像,比如,商品图像、自拍图像、网络图像等。考虑到待检索图像可能具有复杂背景,因此,在实际应用中,首先需要对待检索图像进行主目标检测,从待检索图像中框出主目标区域,然后利用传统图像中局部特征提取方法,从主目标区域提取出待检索图像的局部特征。
因此,局部特征提取单元203具体可以包括:
检测子单元,用于从所述待检测图像中检测出主目标区域;
提取子单元,用于从所述主目标区域中提取出所述局部特征。
转换单元204,用于对所述局部特征通过词袋模型转换为M维局部特征,M为正整数且为固定值;
需要说明的是,将局部特征通过词袋模型转换为M维局部特征,也即,将局部特征转换为BOW(即词袋模型)局部特征,这样图像间的特征描述子匹配以及空间检验匹配,转化为定口的BOW特征匹配。因为待检索图像的局部特征点个数不同,利用特征描述子匹配和空间检验匹配时就非常耗时,因此,本发明将特征描述子转换成BOW局部特征,该BOW局部特征是定口的,转换为BOW特征向量,以便于直接检索或转成哈希码。然后针对局部特征向量,构建一个k哈希的训练集,对任意一对特征向量进行标注,学习哈希函数,。将BOW特征转化为哈希码。
第二召回单元205,用于基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,其中,所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。
综上可知,本发明公开的图像检索装置,通过将待检索图像输入至预先训练的深度学习分类网络,从待检索图像中提取出N维CNN特征,基于N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,然后从待检索图像中提取出局部特征,并将局部特征通过词袋模型转换为M维局部特征,基于所述M维局部特征,从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述,而M维局部特征能够表征待检索图像的局部特征描述,因此,本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索,从而提高了图像的检索精度。
另外,由于被检索图像集中包含的图像数量较大,因此,本发明在从被检索图像中召回候选相似图像和目标相似图像时,优先采用了具备敏感哈希的算法,从而可以加快图像的检索速度和检索效率,与此同时,图像检索次数也大大降低。
第二召回单元205具体可以包括:第二转换子单元和第二召回子单元。
其中,第二转换子单元,用于对所述M维局部特征采用有监督哈希,将所述M维局部特征转换为长度为第二长度的哈希码;
需要说明的是,本实施例中第一长度和第二长度的取值可以相同或是不同,具体依据实际需要而定,本发明在此不做限定。
第二召回子单元,用于基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像。
其中,所述第二召回子单元具体用于:
对所述第二长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从所述候选相似图像中召回所述目标相似图像。
需要说明的是,除了可以对第二长度的哈希码采用LSH检索算法外,还可以对第二长度的哈希码采用Kdtree算法。
综上可知,本发明公开的图像检索装置,通过将待检索图像输入至预先训练的深度学习分类网络,从待检索图像中提取出N维CNN特征,基于N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,然后从待检索图像中提取出局部特征,并将局部特征通过词袋模型转换为M维局部特征,基于所述M维局部特征,从候选相似图像中召回第二预设数量的目标相似图像。由于N维CNN特征能够表征待检索图像的整体特征描述,而M维局部特征能够表征待检索图像的局部特征描述,因此,本发明实现了同时结合待检索图像的整体特征描述和局部特征描述进行图像检索,从而提高了图像的检索精度。
另外,由于被检索图像集中包含的图像数量较大,因此,本发明在从被检索图像中召回候选相似图像和目标相似图像时,优先采用了具备敏感哈希的算法,从而可以加快图像的检索速度和检索效率,与此同时,图像检索次数也大大降低。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种图像检索方法,其特征在于,包括:
将待检索图像输入至预先训练的深度学习分类网络,从所述待检索图像中提取出N维CNN特征,N为正整数;
基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,其中,所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值;
从所述待检索图像中提取出局部特征,所述局部特征包括:所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子;
对所述局部特征通过词袋模型转换为M维局部特征,M为正整数且为固定值;
基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,其中,所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。
2.根据权利要求1所述的图像检索方法,其特征在于,所述基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,具体包括:
对所述N维CNN特征采用有监督哈希,将所述N维CNN特征转换为长度为第一长度的哈希码;
基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像。
3.根据权利要求2所述的图像检索方法,其特征在于,所述基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像,具体包括:
对所述第一长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从被检索图像集中召回所述候选相似图像。
4.根据权利要求1所述的图像检索方法,其特征在于,所述从所述待检索图像中提取出局部特征,具体包括:
从所述待检测图像中检测出主目标区域;
从所述主目标区域中提取出所述局部特征。
5.根据权利要求1所述的图像检索方法,其特征在于,所述基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,具体包括:
对所述M维局部特征采用有监督哈希,将所述M维局部特征转换为长度为第二长度的哈希码;
基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像。
6.根据权利要求5所述的图像检索方法,其特征在于,所述基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像,具体包括:
对所述第二长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从所述候选相似图像中召回所述目标相似图像。
7.一种图像检索装置,其特征在于,包括:
CNN特征提取单元,用于将待检索图像输入至预先训练的深度学习分类网络,从所述待检索图像中提取出N维CNN特征,N为正整数;
第一召回单元,用于基于所述N维CNN特征,从被检索图像集中召回第一预设数量的候选相似图像,其中,所述候选相似图像与所述待检索图像的相似度值高于所述被检索图像集中除所述候选相似图像以外的被检索图像与所述待检索图像的相似度值;
局部特征提取单元,用于从所述待检索图像中提取出局部特征,所述局部特征包括:所述待检索图像中各个局部特征点以及每个所述局部特征点对应的特征描述子;
转换单元,用于对所述局部特征通过词袋模型转换为M维局部特征,M为正整数且为固定值;
第二召回单元,用于基于所述M维局部特征,从所述候选相似图像中召回第二预设数量的目标相似图像,其中,所述目标相似图像与所述待检索图像的相似度值高于所述候选相似图像中除所述目标相似图像以外的候选相似图像与所述待检索图像的相似度值。
8.根据权利要求7所述的图像检索装置,其特征在于,所述第一召回单元具体包括:
第一转换子单元,用于对所述N维CNN特征采用有监督哈希,将所述N维CNN特征转换为长度为第一长度的哈希码;
第一召回子单元,用于基于所述第一长度的哈希码,从被检索图像集中召回所述候选相似图像。
9.根据权利要求8所述的图像检索装置,其特征在于,所述第一召回子单元具体用于:
对所述第一长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从被检索图像集中召回所述候选相似图像。
10.根据权利要求7所述的图像检索装置,其特征在于,所述局部特征提取单元具体包括:
检测子单元,用于从所述待检测图像中检测出主目标区域;
提取子单元,用于从所述主目标区域中提取出所述局部特征。
11.根据权利要求7所述的图像检索装置,其特征在于,所述第二召回单元具体包括:
第二转换子单元,用于对所述M维局部特征采用有监督哈希,将所述M维局部特征转换为长度为第二长度的哈希码;
第二召回子单元,用于基于所述第二长度的哈希码,从所述候选相似图像中召回第二预设数量的目标相似图像。
12.根据权利要求11所述的图像检索装置,其特征在于,所述第二召回子单元具体用于:
对所述第二长度的哈希码采用LSH检索算法,并采用汉明距离作为特征相似度,从所述候选相似图像中召回所述目标相似图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352635.XA CN112307248B (zh) | 2020-11-26 | 2020-11-26 | 一种图像检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352635.XA CN112307248B (zh) | 2020-11-26 | 2020-11-26 | 一种图像检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307248A CN112307248A (zh) | 2021-02-02 |
CN112307248B true CN112307248B (zh) | 2023-11-03 |
Family
ID=74487691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011352635.XA Active CN112307248B (zh) | 2020-11-26 | 2020-11-26 | 一种图像检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307248B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880505A (zh) * | 2022-04-27 | 2022-08-09 | 北京百度网讯科技有限公司 | 图像检索方法、装置及计算机程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017012491A1 (zh) * | 2015-07-23 | 2017-01-26 | 北京京东尚科信息技术有限公司 | 一种图像高维特征的相似比较方法及装置 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN108959478A (zh) * | 2018-06-21 | 2018-12-07 | 中南林业科技大学 | 一种云环境下的密文图像检索方法及系统 |
WO2020182019A1 (zh) * | 2019-03-08 | 2020-09-17 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-11-26 CN CN202011352635.XA patent/CN112307248B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017012491A1 (zh) * | 2015-07-23 | 2017-01-26 | 北京京东尚科信息技术有限公司 | 一种图像高维特征的相似比较方法及装置 |
CN106682233A (zh) * | 2017-01-16 | 2017-05-17 | 华侨大学 | 一种基于深度学习与局部特征融合的哈希图像检索方法 |
CN108959478A (zh) * | 2018-06-21 | 2018-12-07 | 中南林业科技大学 | 一种云环境下的密文图像检索方法及系统 |
WO2020182019A1 (zh) * | 2019-03-08 | 2020-09-17 | 苏州大学 | 图像检索方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
融合多特征和哈希算法的图像检索研究;孙奇平;;淮海工学院学报(自然科学版)(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112307248A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Inductive hashing on manifolds | |
Liu et al. | Cross-modality binary code learning via fusion similarity hashing | |
Celik et al. | Content based image retrieval with sparse representations and local feature descriptors: A comparative study | |
CN105912611B (zh) | 一种基于cnn的快速图像检索方法 | |
Liu et al. | Collaborative hashing | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
Luo et al. | Scalable supervised discrete hashing for large-scale search | |
Wang et al. | Binary codes embedding for fast image tagging with incomplete labels | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
Song et al. | Deep region hashing for efficient large-scale instance search from images | |
Yang et al. | Dynamic match kernel with deep convolutional features for image retrieval | |
Cheng et al. | Semi-supervised multi-graph hashing for scalable similarity search | |
Li | Tag relevance fusion for social image retrieval | |
Li et al. | Hashing with dual complementary projection learning for fast image retrieval | |
CN112307248B (zh) | 一种图像检索方法及装置 | |
Zhao et al. | Multi-scale context deep hashing for remote sensing image retrieval | |
CN107133348B (zh) | 大规模图片集中基于语义一致性的近似搜索方法 | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
Bai et al. | Softly combining an ensemble of classifiers learned from a single convolutional neural network for scene categorization | |
Harada et al. | Image annotation and retrieval for weakly labeled images using conceptual learning | |
Chen et al. | Unsupervised balanced hash codes learning with multichannel feature fusion | |
Ou et al. | Convolutional neural codes for image retrieval | |
Bibi et al. | Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval | |
Liu et al. | Multiview Cross-Media Hashing with Semantic Consistency | |
Weng et al. | Random VLAD based deep hashing for efficient image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100053 room 8018, 8 / F, building 7, Guangyi street, Xicheng District, Beijing Applicant after: State Grid Digital Technology Holdings Co.,Ltd. Applicant after: State Grid E-Commerce Technology Co.,Ltd. Address before: 311 guanganmennei street, Xicheng District, Beijing 100053 Applicant before: STATE GRID ELECTRONIC COMMERCE Co.,Ltd. Applicant before: State Grid E-Commerce Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |