CN104199922B - 一种基于局部相似哈希算法的大规模图像库检索方法 - Google Patents
一种基于局部相似哈希算法的大规模图像库检索方法 Download PDFInfo
- Publication number
- CN104199922B CN104199922B CN201410440566.6A CN201410440566A CN104199922B CN 104199922 B CN104199922 B CN 104199922B CN 201410440566 A CN201410440566 A CN 201410440566A CN 104199922 B CN104199922 B CN 104199922B
- Authority
- CN
- China
- Prior art keywords
- image
- retrieved
- code word
- image library
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000035945 sensitivity Effects 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000212342 Sium Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
一种基于局部相似哈希算法的大规模图像库检索方法,包括:从待检索图像库中选取部分图像作为训练图像集,提取训练集图像的SIFT特征;利用K均值算法对训练集的SIFT特征进行聚类,得到码本;在训练集上计算码本中每一码字的逆频率;对每一码字进行局部敏感哈希编码;对查询图像和待检索图像库中图像分别提取SIFT特征;针对某一幅图像计算其中每一码字的词频,进而得到每一码字的权重;利用相似哈希算法计算图像的局部相似哈希编码;计算查询图像的哈希编码与待检索图像的哈希编码之间的汉明距离;利用汉明距离来快速检索与查询图像相似的图像。本发明的方法具有很好的普适性,既减少了数据的存储空间又提高了查询的检索效率。
Description
技术领域
本发明属于图像检索技术领域,更具体地涉及一种基于内容的图像检索方法,尤其是一种基于局部相似哈希算法的大规模图像库检索方法。
背景技术
随着互联网的快速发展,互联网上的图片数据日益增多。如何快速、准确地为用户提供所需要的图片资源显得越来越重要。基于内容的图像检索(content-based imageretrieval,CBIR)技术应运而生,受到了许多研究者的关注。一般来说CBIR系统主要包括两部分的核心研究内容,一是有效的图像特征表述,二是高效检索算法。
图像特征表述方面,最初的CBIR系统利用图像的全局底层特征,例如颜色、纹理、形状等来表述图像。但是这类全局特征不能很好地捕捉到图像的局部信息,因此判别性不高。基于SIFT(Scale Invariant Feature Transform,尺度不变特征转换,具体含义例如参见文章David G.Lowe,“Distinctive image features from scale invariantkeypoints”,International Journal ofComputer Vision,66(2),2004)局部特征的词袋模型(BOW) (相关内容例如参见文章Josef Sivic and Andrew Zisserman,“Videogoogle: A text retrieval approach to object matching in videos”,InProceedings of International Conference on Computer Vision,2003),是一种新颖的图像表述方法。在BOW中,首先提取图像的局部SIFT特征,然后将SIFT特征量化成码本(codebook),最后利用码本的信息来表示图像。
检索算法方面主要包括基于树的检索算法和基于哈希的检索算法。基于树的检索算法利用超平面递归地划分整个数据空间,在数据比较低维的情况下效果很好,但是当数据维度比较高的时候,基于树的检索算法会退化成穷尽搜索。基于哈希的检索算法的主要思想是将原始数据映射成汉明空间中的二进制数值串(binary string),数据之间的相似度可以利用它们在汉明空间的二进制数值串之间的汉明距离来度量。基于哈希的高效检索算法有两个主要优点:一是可以减少数据存储空间;二是可以提高检索效率。
局部敏感哈希(1ocality-sensitive hashing,LSH,例如可以参考文章 MayurDatar,Nicole Immorlica,Piotr Indyk and Vahab S.Mirrokni,“Locality-sensitivehashing scheme based on p-stable distributions”,In Proceedings of thetwentieth annual sympo sium on computational geometry, ACM,2004)利用从满足p-stable的分布上随机产生投影函数来对原始数据分别进行投影,再把投影后的数据阈值化为0和1,这样就得到了原始数据的编码。但是由于LSH的投影函数是数据无关(data-independent)、随机产生的,并且产生的投影函数可能彼此是相关的,因此LSH编码的效果不是很理想。为了克服LSH的缺点,谱哈希(Spectral Hashing,SH,例如可以参考文章YairWeiss,Antonio Torralba,and Rob Fergus,“Spectral Hashing”,In NIPS,2008)基于谱图分割,利用机器学习的方法通过阈值化数据的相似图拉普拉斯的特征向量的子集来计算哈希编码。
常用基于哈希的CBIR方法首先提取图像的全局特征,然后利用检索算法进行哈希编码。这将导致此类CBIR方法存在两个缺陷:首先,全局特征对图像的特征描述能力有限,判别性差;其次,对全局特征进行哈希会进一步降低特征的判别性。这两个缺陷大大降低了CBIR的性能。
发明内容
有鉴于此,本发明的发明目的是提出一种基于局部相似哈希算法的大规模图像库检索方法,以解决海量图像检索中存在的图像特征库存储空间大、检索速度慢的问题。
为了实现上述目的,作为本发明的一个方面,本发明提出了一种基于局部相似哈希算法的大规模图像库检索方法,包括下列步骤:
提取查询图像和待检索图像库中训练集图像的特征,
将特征映射到汉明空间,
计算所述查询图像的哈希编码与所述待检索图像库中每一幅图像的哈希编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回相似度高的图像。
其中,所述提取待检索图像库中训练集图像的特征的步骤包括:
对所述待检索图像库中训练集的图像提取SIFT特征;
对提取的所述SIFT特征进行K均值聚类得到码本;
计算码本中每一码字的逆频率;
计算每一码字的局部敏感哈希编码。
作为本发明的另一个方面,本发明还提出了一种基于局部相似哈希算法的大规模图像库检索方法,包括下列步骤:
训练过程,对待检索图像库中选作为训练集的全部图像提取SIFT特征,对其进行K均值聚类得到码本,再计算每一码字的逆频率和局部敏感哈希编码;
待检索图像库编码过程,利用所述训练过程得到的所述码本计算待检索图像库中每一幅图像的局部相似哈希编码;
查询过程,利用所述训练步骤得到的所述码本计算查询图像的局部相似哈希编码,并由此计算所述查询图像的哈希编码与所述待检索图像库中每一幅图像的哈希编码之间的汉明距离,返回所述待检索图像库中与所述查询图像汉明距离最小的S个图像作为检索结果,其中S为由用户预先设定的正整数。
其中,所述训练过程进一步包括步骤:
步骤S11:从待检索图像库D={D1,D2,...,DN}中选取部分图像T={T1, T2,...Tn}作为训练集,其中N为待检索图像库的大小,n为训练集的大小, n≤N;
步骤S12:对所述训练集T中的全部图像分别提取SIFT特征vi,1≤i ≤z,z为训练集图像中提取的SIFT特征总数
步骤S13:对提取的所述SIFT特征进行K均值聚类,得到码本C={ci},其中1≤i≤q,q为码本的大小,即码字的个数;为d维的列向量;
步骤S14:通过下式计算每一码字ci的逆频率IDFi:
其中1≤i≤q,n为训练集的大小,ni为包含码字ci的图像的数量,lg 表示以10为底计算对数值。
步骤S15:计算每一码字ci的局部敏感哈希编码Li,其中Li∈{-1,1}k, k是总的编码位数。
其中,步骤S13中所述的K均值聚类步骤进一步包括:
步骤131:从vi中随机选取q个SIFT特征作为初始聚类中心μi,1≤i ≤q;
步骤132:将训练集中提取的SIFT特征按照欧氏距离最近的准则分配给q个聚类中心的某一个μi,这样所有的SIFT特征形成q个簇;计算每个簇中所有SIFT特征的均值,并将该均值作为该簇新的聚类中心μi;计算每个簇中的误差平方和,进而得到q个簇总的误差平方和;
步骤133:重复步骤132,直到总的误差平方和小于给定阈值时,K 均值算法结束,并将得到的q个簇的聚类中心μi作为码本C。
其中,步骤S15进一步包括步骤:
步骤S151:由高斯分布随机产生k个d维列向量rj,其中1≤ j≤k;
步骤S152:根据下式分别计算Li的每一位,
其中,Lij是Li的第j位,1≤j≤k。
其中,所述待检索图像库编码过程进一步包括下列步骤:
步骤S21:对所述待检索图像库中的图像Di提取SIFT特征,其中1≤ i≤N;
步骤S22:利用步骤S13中训练得到的所述码本,计算所述待检索图像库中的图像Di中每个码字的词频TFi,其中1≤i≤q;
步骤S23:根据下式计算所述待检索图像库中的所述图像中每个码字的权重wi:
wi=TFi·IDFi
其中,1≤i≤q;
步骤S24:根据下式计算所述待检索图像库中的所述图像的局部相似哈希编码H(Di):
其中,1≤i≤N,H(Di)[j]为H(Di)的第j位,Lmj为Lm的第j位, 1≤j≤k;sign函数满足如下性质:
其中,所述查询过程进一步包括步骤:
步骤S31:对查询图像Q提取SIFT特征;
步骤S32:利用步骤S13中训练得到的所述码本,计算查询图像中每个码字的词频TFi,其中1≤i≤q;
步骤S33:根据下式计算查询图像中每个码字的权重wi:
wi=TFi·IDFi
其中,1≤i≤q;
步骤S34:根据下式计算查询图像的局部相似哈希编码H(Q):
其中,H(Q)[j]为H(Q)的第j位,1≤j≤k;
步骤S35:根据下式计算查询图像编码H(Q)与待检索图像库中每一幅 图像编码H(Di)之间的汉明距离Dh(H(Q),H(Di)):
其中,1≤i≤N,H(Q)[j]和H(Di)[j]分别表示H(Q)和H(Di) 的第j位,表示异或操作;
步骤S36:根据查询图像编码H(Q)与待检索图像库中图像编码H (Di)之间的汉明距离Dh(H(Q),H(Di)),返回待检索图像库中与查询图像汉明距离最小的S个图像作为检索结果。
其中,优选S=10。
本发明的基于局部相似哈希算法的大规模图像库检索方法能够将图像的特征表述和检索算法自然地结合在一起,根据局部特征的相似性和编码来得到对整个图像的编码,使得内容相似的图像最后得到的局部相似哈希编码也是相似的。本发明利用图像局部特征判别性好的特点,首先利用局部敏感哈希算法对图像SIFT特征进行编码,然后利用局部特征的编码得到最后图像的局部相似哈希编码。本发明中所述方法更充分地利用了图像的局部特征信息,保持了局部特征的判别性,这样得到的对图像的编码也具有比较好的判别性。通过本发明的检索方法,能够减少图像特征的存储空间,同时也能够极大地提高检索效率。
附图说明
图1是本发明的基于局部相似哈希算法的大规模图像检索方法的流程示意图;
图2是本发明用于建立训练集的部分样本的图像;
图3是4幅查询图像在k=512位编码时的检索结果,其中最左边的是查询图像,右边只显示了检索到的汉明距离最小的10幅图像。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合技术方案和附图详细叙述本发明的具体实施方式。其中,以FLICKR1M(例如参见文章Mark J.Huiskes,MichaelS.Lew,“The MIR Flickr retrieval evaluation”,In Proceedings of ACMInternational Conference on Multimedia Information Retrieval,2008的介绍)数据集为例进行说明。FLICKR1M包含100万张图片,都是从Flickr网站下载的,图片的内容千差万别,尺寸也是多种多样。
本发明提出的一种基于局部相似哈希算法的大规模图像库检索方法,包括以下步骤:
对于图像库中的图像,选取一部分图像作为训练图像集;
对于图像库和训练集,提取SIFT局部特征;
然后,利用训练图像集的SIFT特征,来训练得到码本,之后计算码本中每个码字(codeword)的逆频率IDF,并利用局部敏感哈希对码本进行编码;
根据训练得到的码本,计算图像库中的每一幅 图像中的码字的词频 TF和权重w,之后对图像进行局部相似哈希编码;
对于查询图像,首先提取其SIFT特征,然后根据训练得到的码本用同样的方法对查询图像进行局部相似哈希编码,之后计算查询图像编码与图像库中图像编码之间的汉明距离,利用距离大小来衡量查询图像与图像库中待检索图像之间的相似性,返回相似度高的图像。
更具体地,下面结合附图对本发明的基于局部相似哈希算法的大规模图像库检索方法进行详细的描述。
图1的左边部分S1表示本发明实施例的训练过程的主要流程图,如图所示,
步骤S11:将FLICKR1M数据集分为两部分:待检索图像库D(99 万5千张)和查询图像集(5千张)。并从待检索图像库中随机选取10万张图片作为训练集T。部分训练图像样本如图2所示。
步骤S12:对训练集T中的图像提取SIFT特征vi,d=128, 1≤i≤z,z为训练集图像中提取的SIFT特征总数。
步骤S13:对训练集中图像的SIFT特征进行K均值聚类得到码本 C={ci},1≤i≤q,其中q为码本的大小,即码字的个数,取q=1000,其中ci为d维的列向量,d=128。
K均值算法流程如下:1、从vi中随机选取q个SIFT特征作为初始聚类中心μi,1≤i≤q;2、将训练集中提取的SIFT特征按照欧氏距离最近的准则分配给q个聚类中心的某一个μi,这样所有的SIFT特征形成q个簇;计算每个簇中所有SIFT特征的均值,并将该均值作为该簇新的聚类中心μi;计算每个簇中的误差平方和,进而得到q个簇总的误差平方和;3、重复过程2,直到总的误差平方和小于给定阈值时,K均值算法结束,并将得到的q个簇的聚类中心μi作为码本C。
步骤S14:按下式计算每一个码字ci的逆频率IDFi,1≤i≤1000。
其中,n为训练集的大小,n=100000,ni为包含码字ci的图像的数量,上式中lg表示以10为底计算对数值。
步骤S15:训算每一个码字ci的局部敏感哈希编码Li,Li∈{-1,1}k,其中k是总的编码位数。首先由高斯分布随机产生k个d维列向量 1≤j≤k。然后按下式分别计算Li的每一位,
Lij是Li的第j位,1≤j≤k。本实施例中k取值512。
图1的中间部分S2表示本发明实施例的待检索图像库编码过程的主要流程图,如图所示,
步骤S21:对D中的图像Di,1≤i≤995000,提取其SIFT特征。
步骤S22:利用步骤S13中训练得到的码本,计算图像中每个码字的词频(TF),即出现的个数。记码字ci的词频为TFi,1≤i≤1000。
步骤S23:按下式计算图像中每个码字的权重w,记码字ci的权重为 wi,1≤i≤1000。
wi=TFi·IDFi
步骤S24:按下式计算图像的局部相似哈希编码H(Di),1≤i≤995000:
其中,Lm表示第m个码字的局部敏感哈希编码,1≤m≤1000,H(Di) [j]为H(Di)的第j位,Lmj为Lm的第j位,1≤j≤512。sign函数满足如下性质:
图1的右边部分S3表示本发明实施例的查询过程的主要流程图,如图所示,
步骤S31:对查询图像提取其SIFT局部特征。
步骤S32:利用步骤S13中训练得到的码本,计算查询图像中每个码字的词频TFi,1≤i≤1000。
步骤S33:计算查询图像中每个码字ci的权重为wi,1≤i≤1000。具体计算方法同S23。
步骤S34:按下式计算查询图像的局部相似哈希编码H(Q):
其中,H(Q)[j]为H(Q)的第j位,1≤j≤512。
步骤S35:按下式计算查询图像编码H(Q)与待检索图像库中每一个图像编码H(Di)(1≤i≤995000)之间的汉明距离Dh(H(Q),H(Di)):
其中,H(Q)[j]和H(Di)[j]分别表示H(Q)和H(Di)的第j位,表示异或操作。
步骤S36:根据查询图像编码H(Q)与待检索图像库中图像编码H (Di)(1≤i≤995000)之间的汉明距离Dh(H(Q),H(Di)),返回待检索图像库中与查询图像汉明距离最小图像作为检索结果。
限于篇幅,图3中只给出了4幅查询图像,并显示了排序前十的检索结果。通过实际操作可知,本发明的检索方法能够减少图像特征的存储空间,同时也能够极大地提高检索效率,获得比较准确的检索结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于局部相似哈希算法的大规模图像库检索方法,包括下列步骤:
提取查询图像和待检索图像库中训练集图像的特征,具体包括以下步骤:
对所述待检索图像库中训练集的图像提取SIFT特征;
对提取的所述SIFT特征进行K均值聚类得到码本;
计算码本中每一码字的逆频率;
计算每一码字的局部敏感哈希编码;
将所述SIFT特征映射到汉明空间;
利用码本中每一码字的逆频率计算每一码字的权重,并利用所述每一码字的权重和所述每一码字的局部敏感哈希编码计算所述查询图像的局部相似哈希编码和所述待检索图像库中每一幅图像的局部相似哈希编码;计算所述查询图像的局部相似哈希编码与所述待检索图像库中每一幅图像的局部相似哈希编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回相似度高的图像。
2.一种基于局部相似哈希算法的大规模图像库检索方法,包括下列步骤:
步骤S1,对待检索图像库中选作为训练集的全部图像提取SIFT特征,对其进行K均值聚类得到码本,再计算每一码字的逆频率;
步骤S2,利用步骤S1得到的所述码本计算待检索图像库中每一幅图像的局部相似哈希编码;
步骤S3,利用步骤S1得到的所述码本计算查询图像的局部相似哈希编码,并由此计算所述查询图像的局部相似哈希编码与所述待检索图像库中每一幅图像的局部相似哈希编码之间的汉明距离,返回所述待检索图像库中与所述查询图像汉明距离最小的S个图像作为检索结果,其中S为由用户预先设定的正整数。
3.根据权利要求2所述的基于局部相似哈希算法的大规模图像库检索方法,其中所述步骤S1进一步包括以下步骤:
步骤S11:从待检索图像库D={D1,D2,...,DN}中选取部分图像T={T1,T2,...Tn}作为训练集,其中N为待检索图像库的大小,n为训练集的大小,n≤N;
步骤S12:对所述训练集T中的全部图像分别提取SIFT特征,构成SIFT特征集合V={Vi},1≤i≤z,z为训练集图像中提取的SIFT特征总数;
步骤S13:对提取的所述SIFT特征进行K均值聚类,得到码本C={ci},其中1≤i≤q,q为码本的大小,即码字的个数;为d维的列向量;
步骤S14:通过下式计算每一码字ci的逆频率IDFi:
其中1≤i≤q,n为训练集的大小,ni为包含码字ci的图像的数量,lg表示以10为底计算对数值;
步骤S15:计算每一码字ci的局部敏感哈希编码Li,其中Li∈{-1,1}k,k是总的编码位数。
4.根据权利要求3所述的方法,其中步骤S13中所述的K均值聚类步骤进一步包括以下步骤:
步骤131:从V中随机选取q个SIFT特征作为初始聚类中心μi,1≤i≤q;
步骤132:将训练集中提取的SIFT特征按照欧氏距离最近的准则分配给q个聚类中心的某一个μi,这样所有的SIFT特征形成q个簇;计算每个簇中所有SIFT特征的均值,并将该均值作为该簇新的聚类中心μi;计算每个簇中的误差平方和,进而得到q个簇总的误差平方和;
步骤133:重复步骤132,直到总的误差平方和小于给定阈值时,K均值算法结束,并将得到的q个簇的聚类中心μi作为码本C。
5.根据权利要求3所述的方法,其中步骤S15进一步包括步骤:
步骤S151:由高斯分布随机产生k个d维列向量rj,其中
步骤S152:根据下式分别计算Li的每一位,
其中,Lij是Li的第j位,1≤j≤k。
6.根据权利要求3所述的基于局部相似哈希算法的大规模图像库检索方法,其中所述步骤S2进一步包括以下步骤:
步骤S21:对所述待检索图像库中的图像Di提取SIFT特征,其中1≤i≤N:
步骤S22:利用步骤S13中训练得到的所述码本,计算所述待检索图像库中的图像Di中每个码字的词频TFi,其中1≤i≤q;
步骤S23:根据下式计算所述待检索图像库中的所述图像中每个码字的权重wi:
wi=TFi·IDFi;
其中,1≤i≤q;
步骤S24:根据下式计算所述待检索图像库中的所述图像的局部相似哈希编码H(Di):
其中,1≤i≤N,H(Di)[j]为H(Di)的第j位,Lmj为Lm的第j位,1≤j≤k;sign函数满足如下性质:
7.根据权利要求3所述的基于局部相似哈希算法的大规模图像库检索方法,其中所述步骤S3进一步包括以下步骤:
步骤S31:对查询图像Q提取SIFT特征;
步骤S32:利用步骤S13中训练得到的所述码本,计算查询图像中每个码字的词频TFi,其中1≤i≤q;
步骤S33:根据下式计算查询图像中每个码字的权重wi:
wi=TFi·IDFi;
其中,1≤i≤q;
步骤S34:根据下式计算查询图像的局部相似哈希编码H(Q):
其中,H(Q)[j]为H(Q)的第j位,1≤j≤k;
步骤S35:根据下式计算查询图像编码H(Q)与待检索图像库中每一幅 图像编码H(Di)之间的汉明距离Dh(H(Q),H(Di)):
其中,1≤i≤N,H(Q)[j]和H(Di)[j]分别表示H(Q)和H(Di)的第j位,表示异或操作;
步骤S36:根据查询图像编码H(Q)与待检索图像库中图像编码H(Di)之间的汉明距离Dh(H(Q),H(Di)),返回待检索图像库中与查询图像汉明距离最小的S个图像作为检索结果。
8.根据权利要求2所述的基于局部相似哈希算法的大规模图像库检索方法,其中S=10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410440566.6A CN104199922B (zh) | 2014-09-01 | 2014-09-01 | 一种基于局部相似哈希算法的大规模图像库检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410440566.6A CN104199922B (zh) | 2014-09-01 | 2014-09-01 | 一种基于局部相似哈希算法的大规模图像库检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199922A CN104199922A (zh) | 2014-12-10 |
CN104199922B true CN104199922B (zh) | 2019-05-03 |
Family
ID=52085215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410440566.6A Active CN104199922B (zh) | 2014-09-01 | 2014-09-01 | 一种基于局部相似哈希算法的大规模图像库检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199922B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391987B (zh) * | 2014-12-13 | 2017-06-30 | 吉林大学 | 基于移动平台下大规模目标识别的方法 |
CN104951559B (zh) * | 2014-12-30 | 2018-06-15 | 大连理工大学 | 一种基于位权重的二值码重排方法 |
CN104933407A (zh) * | 2015-05-28 | 2015-09-23 | 成都佳发安泰科技股份有限公司 | 基于sift变换的指纹识别方法 |
US9635339B2 (en) * | 2015-08-14 | 2017-04-25 | Qualcomm Incorporated | Memory-efficient coded light error correction |
CN105912611B (zh) * | 2016-04-05 | 2019-04-26 | 中国科学技术大学 | 一种基于cnn的快速图像检索方法 |
CN106776856B (zh) * | 2016-11-29 | 2020-07-03 | 江南大学 | 一种融合颜色特征与词汇树的车辆图像检索方法 |
CN106897667A (zh) * | 2017-01-17 | 2017-06-27 | 桂林电子科技大学 | 一种人脸检索方法和系统 |
CN109697641A (zh) * | 2017-10-20 | 2019-04-30 | 北京京东尚科信息技术有限公司 | 计算商品相似度的方法和装置 |
CN108491430B (zh) * | 2018-02-09 | 2021-10-15 | 北京邮电大学 | 一种基于对特征方向进行聚类的无监督哈希检索方法 |
CN108650517B (zh) * | 2018-05-16 | 2019-11-15 | 西安电子科技大学 | 基于物体的群体图像编码多参考图像的确定方法 |
CN109145143A (zh) * | 2018-08-03 | 2019-01-04 | 厦门大学 | 图像检索中的序列约束哈希算法 |
CN109189824B (zh) * | 2018-08-10 | 2022-04-26 | 创新先进技术有限公司 | 一种检索相似文章的方法及装置 |
CN111695917A (zh) * | 2019-03-11 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 商品推荐方法、系统、电子设备和存储介质 |
CN111930984A (zh) * | 2019-04-24 | 2020-11-13 | 北京京东振世信息技术有限公司 | 图像检索方法、装置、服务器、客户端及介质 |
CN110413807B (zh) * | 2019-06-24 | 2021-04-20 | 华中科技大学 | 一种基于内容语义元数据的图像查询方法与系统 |
CN110502629B (zh) * | 2019-08-27 | 2020-09-11 | 桂林电子科技大学 | 一种基于lsh的过滤验证字符串相似性连接方法 |
CN110516100A (zh) * | 2019-08-29 | 2019-11-29 | 武汉纺织大学 | 一种图像相似度的计算方法、系统、存储介质及电子设备 |
CN111080571B (zh) * | 2019-11-15 | 2023-10-20 | 北京迈格威科技有限公司 | 摄像头遮挡状态检测方法、装置、终端和存储介质 |
CN110968721A (zh) * | 2019-11-28 | 2020-04-07 | 上海冠勇信息科技有限公司 | 一种海量图像侵权检索方法、系统及其计算机可读存储介质 |
CN113449126B (zh) * | 2020-03-24 | 2023-07-14 | 中移(成都)信息通信科技有限公司 | 图像检索方法、装置、电子设备及计算机存储介质 |
CN111736845A (zh) * | 2020-06-09 | 2020-10-02 | 阿里巴巴集团控股有限公司 | 一种编码方法和装置 |
CN114610940B (zh) * | 2022-03-15 | 2023-02-14 | 华南理工大学 | 基于局部随机敏感自编码器的哈希图像检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894130A (zh) * | 2010-06-08 | 2010-11-24 | 浙江大学 | 基于稀疏降维的谱哈希索引方法 |
CN102521366A (zh) * | 2011-12-16 | 2012-06-27 | 华中科技大学 | 融合分类与全局索引的图像检索方法和图像检索系统 |
CN102693311A (zh) * | 2012-05-28 | 2012-09-26 | 中国人民解放军信息工程大学 | 基于随机化视觉词典组和上下文语义信息的目标检索方法 |
CN102799614A (zh) * | 2012-06-14 | 2012-11-28 | 北京大学 | 基于视觉词语空间共生性的图像检索方法 |
CN102819582A (zh) * | 2012-07-26 | 2012-12-12 | 华数传媒网络有限公司 | 一种海量图片快速检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324650A (zh) * | 2012-10-23 | 2013-09-25 | 深圳市宜搜科技发展有限公司 | 一种图像检索方法及系统 |
-
2014
- 2014-09-01 CN CN201410440566.6A patent/CN104199922B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894130A (zh) * | 2010-06-08 | 2010-11-24 | 浙江大学 | 基于稀疏降维的谱哈希索引方法 |
CN102521366A (zh) * | 2011-12-16 | 2012-06-27 | 华中科技大学 | 融合分类与全局索引的图像检索方法和图像检索系统 |
CN102693311A (zh) * | 2012-05-28 | 2012-09-26 | 中国人民解放军信息工程大学 | 基于随机化视觉词典组和上下文语义信息的目标检索方法 |
CN102799614A (zh) * | 2012-06-14 | 2012-11-28 | 北京大学 | 基于视觉词语空间共生性的图像检索方法 |
CN102819582A (zh) * | 2012-07-26 | 2012-12-12 | 华数传媒网络有限公司 | 一种海量图片快速检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104199922A (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199922B (zh) | 一种基于局部相似哈希算法的大规模图像库检索方法 | |
Zheng et al. | Coupled binary embedding for large-scale image retrieval | |
Kong et al. | Manhattan hashing for large-scale image retrieval | |
Grauman et al. | Efficient image matching with distributions of local invariant features | |
CN104199923B (zh) | 基于最优k均值哈希算法的大规模图像库检索方法 | |
Zhang et al. | Edge-SIFT: Discriminative binary descriptor for scalable partial-duplicate mobile search | |
Chen et al. | Residual enhanced visual vector as a compact signature for mobile visual search | |
Zheng et al. | $\mathcal {L} _p $-Norm IDF for Scalable Image Retrieval | |
Aly et al. | Indexing in large scale image collections: Scaling properties and benchmark | |
US8891908B2 (en) | Semantic-aware co-indexing for near-duplicate image retrieval | |
Liu | Image retrieval based on bag-of-words model | |
Qian et al. | Image location estimation by salient region matching | |
Ling et al. | Efficient image copy detection using multi-scale fingerprints | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
Cheng et al. | Semi-supervised multi-graph hashing for scalable similarity search | |
CN105183746B (zh) | 从多相关图片中挖掘显著特征实现图像检索的方法 | |
Wang et al. | Statistical quantization for similarity search | |
Ling et al. | Fast image copy detection approach based on local fingerprint defined visual words | |
Liu et al. | An image-based near-duplicate video retrieval and localization using improved edit distance | |
Liao et al. | IR feature embedded bof indexing method for near-duplicate video retrieval | |
Araujo et al. | Efficient video search using image queries | |
Wang et al. | Asymmetric correlation quantization hashing for cross-modal retrieval | |
Lin et al. | Robust fisher codes for large scale image retrieval | |
Chen et al. | Content-based image retrieval using block truncation coding based on edge quantization | |
Wang et al. | Separable vocabulary and feature fusion for image retrieval based on sparse representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Shuwu Inventor after: Zhang Guixuan Inventor after: Guo Qinzhen Inventor after: Zeng Zhi Inventor before: Guo Qinzhen Inventor before: Zeng Zhi Inventor before: Zhang Shuwu |
|
GR01 | Patent grant | ||
GR01 | Patent grant |