CN104199923A - 基于最优k均值哈希算法的大规模图像库检索方法 - Google Patents
基于最优k均值哈希算法的大规模图像库检索方法 Download PDFInfo
- Publication number
- CN104199923A CN104199923A CN201410440852.2A CN201410440852A CN104199923A CN 104199923 A CN104199923 A CN 104199923A CN 201410440852 A CN201410440852 A CN 201410440852A CN 104199923 A CN104199923 A CN 104199923A
- Authority
- CN
- China
- Prior art keywords
- image
- coding
- retrieved
- code book
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 78
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 38
- 239000000284 extract Substances 0.000 claims description 11
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000013139 quantization Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Abstract
一种基于最优K均值哈希算法的大规模图像库检索方法,包括:从待检索图像库中选取部分图像作为训练图像集,首先提取训练集图像的GIST特征;对训练集的特征数据进行特征值分配预处理;将经过预处理的特征数据划分成多个子空间;对每一个子空间训练出该子空间的码本和码本的编码;对待检索图像库和查询图像中特征数据的处理与训练过程对应,分别提取检索图像和查询图像的GIST特征,然后计算待检索图像和查询图像特征的哈希编码,之后计算待检索图像特征编码和查询图像特征编码两者之间的汉明距离,由此快速检索相似图像。本发明具有很好的普适性,既减少了数据的存储空间又提高了查询的检索效率。
Description
技术领域
本发明属于图像检索技术领域,更具体地涉及一种基于内容的图像检索方法,尤其涉及一种基于最优K均值哈希算法的大规模图像库检索方法。
背景技术
随着互联网的快速发展,互联网上的图片数据日益增多,如何快速、准确地为用户提供所需要的图片资源显得越来越重要。基于内容的图像检索(Content-Based Image Retrieval,CBIR)技术应运而生,受到了许多研究者的关注。一般来说CBIR系统主要包括两部分的核心研究内容,一是有效的图像特征表述,二是高效检索算法。通过提取图像的特征对图像内容进行描述,例如GIST特征(具体内容可以参见文章Aude Oliva andAntonio Torralba,“Modeling the shape of the scene:a holistic representationof the spatial envelope”,International Journal of Computer Vision,42(3),2001),然后利用高效的检索算法进行特征比对判断是否为相似图像。
其中,对于检索算法,主要包括:基于树的检索算法、基于向量量化的检索算法和基于哈希的检索算法。基于树的检索算法利用超平面递归地划分整个数据空间,在数据比较低维的情况下效果很好,但是当数据维度比较高的时候,基于树的检索算法会退化成穷尽搜索。基于向量量化的方法是一种有效的检索算法,此类方法将数据量化到码本以降低数据空间的势,并用码字之间的距离来近似原始数据之间的距离。基于哈希的检索算法的主要思想是将原始数据映射成汉明空间中的二进制数值串,数据之间的相似度可以利用它们在汉明空间的二进制数值串之间的汉明距离来度量。基于哈希的高效检索算法有两个主要优点:一是可以减少数据存储空间;二是可以提高检索效率。
局部敏感哈希(Locality-Sensitive Hashing,LSH)(例如可以参考文章Mayur Datar,Nicole Immorlica,Piotr Indyk and Vahab S.Mirrokni,“Locality-sensitive hashing scheme based on p-stable distributions”,InProceedings of the twentieth annual symposium on computational geometry,ACM,2004)利用从满足p-stable的分布上随机产生投影函数来对原始数据分别进行投影,再把投影后的数据阈值化为0和1,这样就得到了原始数据的编码。但是由于LSH的投影函数是数据无关的,随机产生的,并且产生的投影函数可能彼此是相关的,因此LSH编码的效果不是很理想。为了克服LSH的缺点,谱哈希(Spectral Hashing,SH,例如可以参考文章Yair Weiss,Antonio Torralba,and Rob Fergus,“Spectral Hashing”,In NIPS,2008)基于谱图分割,利用机器学习的方法通过阈值化数据的相似图拉普拉斯的特征向量的子集来计算哈希编码。迭代量化(ITQ)利用最小化数据编码和原始数据之间的误差的方法来学习哈希函数,也取得了很好的检索效果。
基于向量量化的方法由于比较小的畸变误差,所以检索效果比哈希方法要好,但是它检索速度不及哈希方法。K均值哈希(KH)(例如可以参考文章Kaiming He,Fang Wen,Jian Sun,“K-means hashing:anaffinity-preserving quantization method for learning binary compact codes”,InCVPR,2013)是一种比较新颖的哈希检索方法,KH将基于向量量化的方法和基于哈希的方法结合起来,通过最小化量化误差和仿射误差来训练哈希函数编码数据;但是在KH中,在码本和码本的编码在初始化之后,只有码本在更新而码本的编码不更新,这将降低编码的有效性。
发明内容
为了克服上述KH的缺陷,本发明提出了一种基于最优K均值哈希算法的大规模图像库检索方法,以解决针对海量图像检索时存在的图像特征库存储空间大、检索速度慢的问题。
作为本发明的一个方面,本发明提出了一种基于最优K均值哈希算法的大规模图像库检索方法,包括以下步骤:
提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征,
将所述GIST特征映射到汉明空间,
计算所述查询图像的哈希编码与所述待检索图像库中每一幅图像的哈希编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回相似度高的图像。
其中,所述提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征和将所述GIST特征映射到汉明空间的步骤包括:
对所述查询图像和待检索图像库中选取的训练集中的图像提取GIST特征;
利用所述训练集中的图像的GIST特征,训练得到码本和码本的编码;
根据训练得到的所述码本和码本编码,对所述查询图像和待检索图像库中的图像的GIST特征进行处理,得到所述查询图像和待检索图像库中的图像的哈希编码,将其特征向量映射到汉明空间中。
作为本发明的另一个方面,本发明还提供了一种基于最优K均值哈希算法的大规模图像库检索方法,包括以下步骤:
训练过程,提取待检索图像库中选取的训练集中的图像的GIFT特征,利用得到的GIST特征来训练得到码本和码本的编码;
待检索图像库编码过程,利用所述训练过程中得到的码本和码本的编码来计算待检索图像库中的图像的完整编码;
查询过程,提取查询图像的GIFT特征,利用所述训练步骤得到的码本和码本的编码来计算所述查询图像的完整编码,并计算所述查询图像的编码与所述待检索图像库中每一幅图像的编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回待检索图像库中与查询图像汉明距离最小的L个图像作为检索结果,其中L为用户预先设定的正整数。
其中,所述训练过程进一步包括:
步骤S11:从待检索图像库D={D1,D2,...,DN}中选取部分图像T={T1,T2,...Tn}作为训练集,其中N为待检索图像库的大小,n为训练集的大小,n≤N:
步骤S12:对所述训练集T中的图像提取d维的GIST特征,其中图像Ti的GIST特征记为xi,将训练集中所有图像的GIST特征组成矩阵X,X的第i行由xi构成;
步骤S13:对所述训练集中图像的GIST特征进行特征值分配预处理,计算均值μ和投影矩阵P;
步骤S14:将经过预处理之后的特征数据均匀地划分为m个子空间,特征矩阵X在第u个子空间的数据记为X(u),其中1≤u≤m,特征xj在第u个子空间的数据记为如下式所示,xip为xj的第p维,1≤p≤d,t为子空间的维数,t=d/m,
步骤S15:在每一个子空间内分别计算该子空间的码本C(u)和码本的编码其中u为第u个子空间。
其中,对所述训练集中图像的GIST特征进行特征值分配预处理,计算均值μ和投影矩阵P的步骤进一步包括:
步骤S131:对训练集图像的GIST特征先做PCA旋转,保存均值μ和中间投影矩阵均值的计算公式如下:
将每一个xi减去均值μ,得到此时由组成的特征矩阵记为计算协方差矩阵其中为的转置,对矩阵∑进行特征分解得到即得到中间投影矩阵并保存Λ对角线上的元素,即特征值;
步骤S132:设置m个桶,每个桶对应一个子空间,每个桶的最大容量为d/m;不重复地选取Λ(i,i)中最大的特征值,并把它分配到具有最小的特征值乘积且没有达到最大容量的桶中,直到所有的特征值Λ(i,i)都分配到各个桶中;最后得到每个桶中每个特征值在Λ中的位置索引,其中对于位置(i,i),其索引用索引向量I保存;
步骤S133:将中间投影矩阵的每一列,按照索引向量I重新排序,构成最后的投影矩阵P。
其中,在每一个子空间内分别计算该子空间的码本C(u)和码本的编码的步骤进一步包括:
步骤S151:初始化子空间内的码本,对于第u个子空间,随机选择子空间X(u)内的2b个数据作为初始码本C(u),其中其每一行为一个码字,b=k/m,为每个子空间的编码位数;
步骤S152:初始化子空间内码本的编码,利用PCA哈希对码本进行初始化编码,具体如下,首先利用PCA将码本降到b维,假设降维后的码本为则对码本的初始编码为满足:
步骤S153:初始化放缩常量α,利用下式计算α
其中为利用PCA将子空间X(u)降到b维的结果;为S的PCA哈希编码,n为训练集中图像的个数;
步骤S154:更新码本C(u)和码本的编码使得下式取最小值,
其中,表示C(u)中离最近的码字,ci,cj分别代表码本C(u)中第i,j个码字,即C(u)的第i,j行;I(ci)和I(cj)分别代表码字ci,cj的编码,即的第i,j行;wij=ninj/n2,ni,nj分别代表ci和cj形成的簇中训练数据的个数;D(ci,cj)为ci和cj的欧氏距离,Dh(I(ci),I(cj))为I(ci)和I(cj)之间的汉明距离;λ为权重系数。
其中,步骤154中优化计算式采用如下迭代的方法,直到收敛:
第一步,将训练数据按照最近邻规则分配到最近的码字形成的簇中,并用的编码来更新的编码
第二步,固定码本的编码和训练数据的编码,利用下式来求得最优的码本或码字,
第三步,固定码本和训练数据的编码,利用下式求得最优的码本的编码,
求得最优的I(cj)之后,将其用0进行二值化,即得到更新后的码本的编码,Tr(I(cj)IT(cj))表示I(cj)IT(cj)的迹。
其中,所述的待检索图像库编码过程进一步包括:
步骤S21:对待检索图像库中的每一幅图像提取d维的GIST特征。假设提取的第r幅待检索图像库中图像的GIST特征为yr,
步骤S22:利用步骤S13中训练得到的均值μ和投影矩阵P对yr进行预处理,具体操作为:先将yr减去均值μ,然后利用投影矩阵进行旋转,即(yr-μ)P;
步骤S23:将经过预处理的特征yr均匀地划分为m个子空间,记第u个子空间为其中1≤u≤m,如下式所示,yrp为yr的第p维,1≤p≤d,t=d/m,为子空间的维数,
步骤S24:计算特征yr在每个子空间的子编码,记第u个子空间的子编码为su;
步骤S25:将特征yr在每个子空间的子编码拼接成对yr的完整编码H(yr)=(s1,s2,...,sm)。
其中,所述计算特征yr在每个子空间的子编码的步骤进一步包括:
步骤S241:利用最近邻规则计算在第u个子空间中离欧氏距离最近的码字
步骤242:将码字的编码作为yr在第u个子空间的子编码su,即
其中,所述查询过程进一步包括:
步骤S31:对查询图像提取GIST特征q;
步骤S32:利用步骤S13中训练得到的均值μ和投影矩阵P对q进行预处理,具体操作为:先将q减去均值μ,然后利用投影矩阵进行旋转,即(q-μ)P;
步骤S33:将经过预处理的特征q均匀地划分为m个子空间,记第u个子空间为q(u),1≤u≤m,如下式所示,qp为q的第p维,1≤p≤d,t=d/m,为子空间的维数,
步骤S34:计算特征q在每个子空间的子编码,记第u个子空间q(u)的子编码为su;
步骤S35:将特征q在每个子空间的子编码拼接成对q的完整编码H(q)=(s1,s2,...,sm);
步骤S36:计算查询图像编码H(q)与待检索图像库中每一个图像编码H(yr)之间的汉明距离Dh(H(q),H(yr)):
其中,1≤r≤N,H(q)[j]和H(yr)[j]分别表示H(q)和H(yr)的第j位,表示异或操作,k为总的编码位数;
步骤S37:根据查询图像编码H(q)与待检索图像库中图像编码H(yr)之间的汉明距离Dh(H(q),H(yr)),返回待检索图像库中与查询图像汉明距离最小的L个图像作为检索结果。
其中,所述的计算特征q在每个子空间的子编码的步骤进一步包括:
步骤S341:利用最近邻规则计算在第u个子空间中离q(u)欧氏距离最近的码字c(q(u));
步骤342:将码字c(q(u))的编码I(c(q(u)))作为q在第u个子空间的子编码su,即su=I(c(q(u)))。
其中,优选地L=1000。
通过上述技术方案可知,本发明的基于最优K均值哈希算法的大规模图像检索方法能够将基于向量量化和基于哈希的检索算法结合起来,使得在保证哈希算法的检索速度的同时,提高了检索的精度;采用最优K均值哈希算法(OKH),在OKH中,码本和码本的编码都在更新来最小化量化误差和仿射误差,在保证哈希算法的检索速度的情况下,提高了检索精度,解决了针对海量图像检索时存在的图像特征库存储空间大、检索速度慢的问题;此外,本发明的方法中,原始数据被映射到汉明空间,数据在汉明空间的编码的相似性能够很好地体现原始数据之间的相似性,从而具有很好的普适性。通过本发明的检索方法,能够减少图像特征的存储空间,同时也能够极大地提高检索效率。
附图说明
图1是本发明的基于最优K均值哈希算法的大规模图像检索算法的流程示意图;
图2是本发明用于建立训练集的部分样本图像;
图3是4幅查询图像在k=128位编码时的检索结果,其中最左边的是查询图像,右边只显示了检索到的汉明距离最小的10幅图像;
图4是本发明方法与其他哈希方法在不同编码长度对应的检索召回率(Recall)曲线图,其中取L=1000作为检索结果计算Recall。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合技术方案和附图详细叙述本发明的具体实施方式。
以FLICKRlM(可以参考文章Mark J.Huiskes,Michael S.Lew,“TheMIR Flickr retrieval evaluation”,In Proceedings of ACM InternationalConference on Multimedia Information Retrieval,2008)数据集为例进行说明。FLICKRlM包含100万张图片,都是从Flickr网站下载的,图片的内容千差万别,尺寸也是多种多样。
本发明提出的一种基于最优K均值哈希算法的大规模图像库检索方法,包括下列步骤:
对于图像库中的图像,选取一部分图像作为训练图像集;
对于图像库和训练集,提取GIST全局特征,作为检索特征;
然后,利用训练图像集的GIST特征,来训练得到码本和码本的编码;
根据训练得到的码本和码本编码,对特征库中的每一个特征向量进行哈希编码,将特征向量映射到汉明空间中;
对于查询图像,首先提取其GIST特征,然后根据训练得到的码本和码本编码用同样的方法对查询图像特征进行哈希编码,之后计算查询图像特征编码与图像库中图像特征编码之间的汉明距离,利用距离大小来衡量查询图像与图像库中待检索图像之间的相似性,返回相似度高的图像。
更具体地,下面结合附图对本发明的基于最优K均值哈希算法的大规模图像库检索方法进行详细的描述。
图1的左边部分S1表示本发明实施例的训练过程的主要流程图,如图所示:
步骤S11:将FLICKRlM数据集分为两部分:待检索图像库D(99万5千张)和查询图像集(5千张)。并从待检索图像库中随机选取10万张图片作为训练集T。部分训练图像样本如图2所示。
步骤S12:对训练集T中的图像提取512维的GIST特征,将训练集中所有图像的GIST特征组成矩阵X,X的第i(1≤i≤100000)行由xi构成,其中xi表示训练集中第i幅图像的GIST特征,n=100000,d=512。
步骤S13:对训练集中图像的GIST特征进行特征值分配预处理,计算均值μ和投影矩阵P。首先,对训练集图像的GIST特征先做PCA旋转,保存均值μ和中间投影矩阵均值的计算公式如下:
将每一个xi减去均值μ,得到此时由组成的特征矩阵记为计算协方差矩阵其中为的转置。对矩阵∑进行特征分解得到即得到中间投影矩阵并保存Λ对角线上的元素,即特征值。
其次,设置m(与步骤S14中要划分的子空间的个数相同)个桶,本实施例中m=16,每个桶对应一个子空间,每个桶的最大容量为d/m=32。不重复地选取Λ(i,i)中最大的特征值,并把它分配到具有最小的特征值乘积且没有达到最大容量的桶中,直到所有的特征值Λ(i,i)都分配到各个桶中。最后得到每个桶中每个特征值在Λ中的位置索引(对于位置(i,i),其索引记为i),用索引向量I保存。
最后,将中间投影矩阵的每一列,按照索引向量I重新排序,构成最后的投影矩阵P。
步骤S14:将经过预处理之后的特征数据均匀地划分为m=16个子空间。特征矩阵X在第u个子空间的数据记为X(u),1≤u≤m,特征xj在第u个子空间的数据记为如下式所示,xjp为xj的第p维,1≤p≤d,t为子空间的维数,t=d/m=32,
步骤S15:在每一个子空间内分别计算该子空间的码本和码本的编码(具体计算方法如下),记第u个子空间的码本为C(u),码本的编码为
首先,初始化子空间内的码本,对于第u个子空间,随机选择子空间X(u)内的2b个数据作为初始码本C(u),其每一行为一个码字,b为每个子空间的编码位数,b=k/m,其中k为总的编码位数。本实施例中,k取128,m取16,因此子空间的编码位数b=8。
其次,初始化子空间内码本的编码,利用PCA哈希对码本进行初始化编码,具体如下,首先利用PCA将码本降到b维,假设降维后的码本为 则对码本的初始编码 满足:
然后,初始化放缩常量α,利用下式计算α
其中,S(i,j)为利用PCA将子空间X(u)降到b维的结果,IS∈{-1,1}n×b为S的PCA哈希编码,n为训练集中图像的个数,n=100000,b为子空间的编码位数,b=8。
最后,更新码本C(u)和码本的编码使得下式取最小值,
其中表示C(u)中离最近的码字,ci,cj分别代表码本C(u)中第i,j个码字,即C(u)的第i,j行;I(ci)和I(cj)分别代表码字ci,cj的编码,即的第i,j行;wij为与第i,j个簇中训练数据个数有关的量,wij=ninj/n2,而ni、nj分别代表ci和cj形成的簇中训练数据的个数;D(ci,cj)为ci和cj的欧氏距离, Dh(I(ci),I(cj))为I(ci)和I(cj)之间的汉明距离。α为上面训练出的参数。λ为权重系数,本实施例中取λ=10。
优化上式可以采用如下迭代的方法,直到收敛:
第一步,将训练数据按照最近邻规则分配到最近的码字形成的簇中,并用的编码来更新的编码
第二步,固定码本的编码和训练数据的编码,利用下式来求得最优的码本(码字),
第三步,固定码本和训练数据的编码,利用下式求得最优的码本的编码,
求得最优的I(cj)之后,将其用0进行二值化,即得到更新后的码本的编码,Tr(I(cj)IT(cj))表示I(cj)IT(cj)的迹。β为权重系数,本实施例中取β=10。
图1的中间部分S2表示本发明实施例的待检索图像库编码过程的主要流程图,如图所示:
步骤S21:对待检索图像库中的每一幅图像提取d维的GIST特征。假设提取的第r幅待检索图像库中图像的GIST特征为yr,d=512,1≤r≤995000。
步骤S22:利用步骤S13中训练得到的均值μ和投影矩阵P对yr进行预处理,具体操作为:先将yr减去均值μ,然后利用投影矩阵进行旋转,即(yr-μ)P。
步骤S23:将经过预处理的特征yr均匀地划分为m=16个子空间,记第u个子空间为1≤u≤m,如下式所示,yrp为yr的第p维,1≤p≤d,t为子空间的维数,t=d/m,
步骤S24:计算特征yr在每个子空间的子编码,记第u个子空间的子编码为si。首先,利用最近邻规则计算在第u个子空间中离欧氏距离最近的码字然后,将码字的编码作为yr在第u个子空间的子编码su,即
步骤S25:将特征yr在每个子空间的子编码拼接成对yr的完整编码H(yr)=(s1,s2,...,sm)。
图1的右边部分S3表示本发明实施例的查询过程的主要流程图,如图所示:
步骤S31:对查询图像提取GIST特征q,其中d=512。
步骤S32:利用步骤S13中训练得到的均值μ和投影矩阵P对q进行预处理,具体操作为:先将q减去均值μ,然后利用投影矩阵进行旋转,即(q-μ)P。
步骤S33:将经过预处理的特征q均匀地划分为m=16个子空间,记第u个子空间为q(u),1≤u≤m,如下式所示,qp为q的第p维,1≤p≤d,t为子空间的维数,t=d/m,
步骤S34:计算特征q在每个子空间的子编码,记第u个子空间q(u)的子编码为si。首先,利用最近邻规则计算在第u个子空间中离q(u)欧氏距离最近的码字c(q(u))。然后,将码字c(q(u))的编码I(c(q(u)))作为q在第u个子空间的子编码su,即su=I(c(q(u)))。
步骤S35:将特征q在每个子空间的子编码拼接成对q的完整编码H(q)=(s1,s2,...,sm)。
步骤S36:计算查询图像编码H(q)与待检索图像库中每一个图像编码H(yr)(1≤r≤995000)之间的汉明距离Dh(H(q),H(yr))。
其中,H(q)[j]和H(yr)[j]分别表示H(q)和H(yr)的第j位,表示异或操作,k为总的编码位数,k=128。
步骤S37:根据查询图像编码H(q)与待检索图像库中图像编码H(yr)(1≤r≤995000)之间的汉明距离Dh(H(q),H(yr)),返回待检索图像库中与查询图像汉明距离最小的L=1000个图像作为检索结果。
限于篇幅,图3中只给出了4幅查询图像,并显示了排序前十的检索结果。此外,为了与其他哈希方法对比,我们还利用以上步骤重复实验了编码长度k=16、32、64时(子空间编码长度固定为b=8,子空间个数m=k/b)的检索结果,利用指标召回率衡量。对比结果见图4,图中显示的结果是对查询图像集中的所有查询图像的结果的平均。由此可见,通过本发明的检索方法,能够减少图像特征的存储空间,同时也能够极大地提高检索效率,获得比较准确的检索结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种基于最优K均值哈希算法的大规模图像库检索方法,包括以下步骤:
提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征,
将所述GIST特征映射到汉明空间,
计算所述查询图像的哈希编码与所述待检索图像库中每一幅图像的哈希编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回相似度高的图像。
2.根据权利要求1所述的基于最优K均值哈希算法的大规模图像库检索方法,其中所述提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征和将所述GIST特征映射到汉明空间的步骤包括:
对所述查询图像和待检索图像库中选取的训练集中的图像提取GIST特征;
利用所述训练集中的图像的GIST特征,训练得到码本和码本的编码;
根据训练得到的所述码本和码本编码,对所述查询图像和待检索图像库中的图像的GIST特征进行处理,得到所述查询图像和待检索图像库中的图像的哈希编码,将其特征向量映射到汉明空间中。
3.一种基于最优K均值哈希算法的大规模图像库检索方法,包括以下步骤:
训练过程,提取待检索图像库中选取的训练集中的图像的GIFT特征,利用得到的GIST特征来训练得到码本和码本的编码;
待检索图像库编码过程,利用所述训练过程中得到的码本和码本的编码来计算待检索图像库中的图像的完整编码;
查询过程,提取查询图像的GIFT特征,利用所述训练步骤得到的码本和码本的编码来计算所述查询图像的完整编码,并计算所述查询图像的编码与所述待检索图像库中每一幅图像的编码之间的汉明距离,利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性,返回待检索图像库中与查询图像汉明距离最小的L个图像作为检索结果,其中L为用户预先设定的正整数。
4.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法,其中所述训练过程进一步包括:
步骤S11:从待检索图像库D={D1,D2,...,DN}中选取部分图像T={T1,T2,...Tn}作为训练集,其中N为待检索图像库的大小,n为训练集的大小,n≤N;
步骤S12:对所述训练集T山的图像提取d维的GIST特征,其山图像Ti的GIST特征记为xi,将训练集中所有图像的GIST特征组成矩阵X,X的第i行由xi构成;
步骤S13:对所述训练集中图像的GIST特征进行特征值分配预处理,计算均值μ和投影矩阵P;
步骤S14:将经过预处理之后的特征数据均匀地划分为m个子空间,特征矩阵X在第u个子空间的数据记为X(u),其中1≤u≤m,特征xj在第u个子空间的数据记为如下式所示,xjp为xj的第p维,1≤p≤d,t为子空间的维数,t=d/m,
步骤S15:在每一个子空间内分别计算该子空间的码本C(u)和码本的编码其中u为第u个子空间。
5.根据权利要求4所述的基于最优K均值哈希算法的大规模图像库检索方法,其中对所述训练集中图像的GIST特征进行特征值分配预处理,计算均值μ和投影矩阵P的步骤进一步包括:
步骤S131:对训练集图像的GIST特征先做PCA旋转,保存均值μ和中间投影矩阵均值的计算公式如下:
将每一个xi减去均值μ,得到此时由组成的特征矩阵记为计算协方差矩阵其中为的转置,对矩阵∑进行特征分解得到即得到中间投影矩阵并保存Λ对角线上的元素,即特征值;
步骤S132:设置m个桶,每个桶对应一个子空间,每个桶的最大容量为d/m;不重复地选取Λ(i,i)中最大的特征值,并把它分配到具有最小的特征值乘积且没有达到最大容量的桶中,直到所有的特征值Λ(i,i)都分配到各个桶中;最后得到每个桶中每个特征值在Λ中的位置索引,其中对于位置(i,i),其索引用索引向量I保存;
步骤S133:将中间投影矩阵的每一列,按照索引向量I重新排序,构成最后的投影矩阵P。
6.根据权利要求4所述的基于最优K均值哈希算法的大规模图像库检索方法,其中在每一个子空间内分别计算该子空间的码本C(u)和码本的编码的步骤进一步包括:
步骤S151:初始化子空间内的码本,对于第u个子空间,随机选择子空间X(u)内的2b个数据作为初始码本C(u),其中其每一行为一个码字,b=k/m,为每个子空间的编码位数;
步骤S152:初始化子空间内码本的编码,利用PCA哈希对码本进行初始化编码,具体如下,首先利用PCA将码本降到b维,假设降维后的码本为 则对码本的初始编码为 满足:
步骤S153:初始化放缩常量α,利用下式计算α
其中为利用PCA将子空间X(u)降到b维的结果;IS∈{-1,1}n×b为S的PCA哈希编码,n为训练集中图像的个数;
步骤S154:更新码本C(u)和码本的编码使得下式取最小值,
其中,表示C(u)中离最近的码字,ci,cj分别代表码本C(u)中第i,j个码字,即C(u)的第i,j行;I(ci)和I(cj)分别代表码字ci,cj的编码,即的第i,j行;wij=ninj/n2,ni,nj分别代表ci和cj形成的簇中训练数据的个数;D(ci,cj)为ci和cj的欧氏距离, Dh(I(ci),I(cj))为I(ci)和I(cj)之间的汉明距离;λ为权重系数。
7.根据权利要求6所述的基于最优K均值哈希算法的大规模图像库检索方法,其中步骤154中优化计算式采用如下迭代的方法,直到收敛:
第一步,将训练数据按照最近邻规则分配到最近的码字形成的簇中,并用的编码来更新的编码
第二步,固定码本的编码和训练数据的编码,利用下式来求得最优的码本或码字,
第三步,固定码本和训练数据的编码,利用下式求得最优的码本的编码,
求得最优的I(cj)之后,将其用0进行二值化,即得到更新后的码本的编码,Tr(I(cj)IT(cj))表示I(cj)IT(cj)的迹。
8.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法,其中所述的待检索图像库编码过程进一步包括:
步骤S21:对待检索图像库中的每一幅图像提取d维的GIST特征。假设提取的第r幅待检索图像库中图像的GIST特征为yr,
步骤S22:利用步骤S13中训练得到的均值μ和投影矩阵P对yr进行预处理,具体操作为:先将yr减去均值μ,然后利用投影矩阵进行旋转,即(yr-μ)P;
步骤S23:将经过预处理的特征yr均匀地划分为m个子空间,记第u个子空间为其中1≤u≤m,如下式所示,yrp为yr的第p维,1≤p≤d,t=d/m,为子空间的维数,
步骤S24:计算特征yr在每个子空间的子编码,记第u个子空间的子编码为su;
步骤S25:将特征yr在每个子空间的子编码拼接成对yr的完整编码H(yr)=(s1,s2,...,sm)。
9.根据权利要求8所述的基于最优K均值哈希算法的大规模图像库检索方法,其中所述计算特征yr在每个子空间的子编码的步骤进一步包括:
步骤S241:利用最近邻规则计算在第u个子空间中离欧氏距离最近的码字
步骤242:将码字的编码作为yr在第u个子空间的子编码su,即
10.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法,其中所述查询过程进一步包括:
步骤S31:对查询图像提取GIST特征q;
步骤S32:利用步骤S13中训练得到的均值μ和投影矩阵P对q进行预处理,具体操作为:先将q减去均值μ,然后利用投影矩阵进行旋转,即(q-μ)P;
步骤S33:将经过预处理的特征q均匀地划分为m个子空间,记第u个子空间为q(u),1≤u≤m,如下式所示,qp为q的第p维,1≤p≤d,t=d/m,为子空间的维数,
步骤S34:计算特征q在每个子空间的子编码,记第u个子空间q(u)的子编码为su;
步骤S35:将特征q在每个子空间的子编码拼接成对q的完整编码H(q)=(s1,s2,...,sm);
步骤S36:计算查询图像编码H(q)与待检索图像库中每一个图像编码H(yr)之间的汉明距离Dh(H(q),H(yr)):
其中,1≤r≤N,H(q)[j]和H(yr)[j]分别表示H(q)和H(yr)的第j位,表示异或操作,k为总的编码位数;
步骤S37:根据查询图像编码H(q)与待检索图像库中图像编码H(yr)之间的汉明距离Dh(H(q),H(yr)),返回待检索图像库中与查询图像汉明距离最小的L个图像作为检索结果。
11.根据权利要求10所述的基于最优K均值哈希算法的大规模图像库检索方法,其中所述的计算特征q在每个子空间的子编码的步骤进一步包括:
步骤S341:利用最近邻规则计算在第u个子空间中离q(u)欧氏距离最近的码字c(q(u));
步骤342:将码字c(q(u))的编码I(c(q(u)))作为q在第u个子空间的子编码su,即su=I(c(q(u)))。
12.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法,其中L=1000。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410440852.2A CN104199923B (zh) | 2014-09-01 | 2014-09-01 | 基于最优k均值哈希算法的大规模图像库检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410440852.2A CN104199923B (zh) | 2014-09-01 | 2014-09-01 | 基于最优k均值哈希算法的大规模图像库检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104199923A true CN104199923A (zh) | 2014-12-10 |
CN104199923B CN104199923B (zh) | 2017-09-12 |
Family
ID=52085216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410440852.2A Active CN104199923B (zh) | 2014-09-01 | 2014-09-01 | 基于最优k均值哈希算法的大规模图像库检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199923B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608470A (zh) * | 2015-12-28 | 2016-05-25 | 辽宁师范大学 | 基于韦伯分布统计模型的图像检索方法 |
CN105930440A (zh) * | 2016-04-19 | 2016-09-07 | 中山大学 | 基于跨视域信息和量化误差编码的大规模行人图像快速检索方法 |
CN106126585A (zh) * | 2016-06-20 | 2016-11-16 | 北京航空航天大学 | 基于质量分级与感知哈希特征组合的无人机图像检索方法 |
CN106777038A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于序列保留哈希的超低复杂度图像检索方法 |
CN106886599A (zh) * | 2017-02-28 | 2017-06-23 | 北京京东尚科信息技术有限公司 | 图像检索方法以及装置 |
CN108182235A (zh) * | 2017-12-27 | 2018-06-19 | 北京奇虎科技有限公司 | 一种用于对用户特征进行分布式编码的方法和系统 |
CN109740674A (zh) * | 2019-01-07 | 2019-05-10 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置、设备和存储介质 |
CN111080571A (zh) * | 2019-11-15 | 2020-04-28 | 北京迈格威科技有限公司 | 摄像头遮挡状态检测方法、装置、终端和存储介质 |
CN111736845A (zh) * | 2020-06-09 | 2020-10-02 | 阿里巴巴集团控股有限公司 | 一种编码方法和装置 |
CN111738194A (zh) * | 2020-06-29 | 2020-10-02 | 深圳力维智联技术有限公司 | 一种用于人脸图像相似性的评价方法和装置 |
CN113159211A (zh) * | 2021-04-30 | 2021-07-23 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710334A (zh) * | 2009-12-04 | 2010-05-19 | 大连理工大学 | 基于图像哈希的大规模图像库检索方法 |
CN101894130A (zh) * | 2010-06-08 | 2010-11-24 | 浙江大学 | 基于稀疏降维的谱哈希索引方法 |
CN102508910A (zh) * | 2011-11-11 | 2012-06-20 | 大连理工大学 | 基于多哈希表映射误差最小化的图像检索方法 |
US8352494B1 (en) * | 2009-12-07 | 2013-01-08 | Google Inc. | Distributed image search |
-
2014
- 2014-09-01 CN CN201410440852.2A patent/CN104199923B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710334A (zh) * | 2009-12-04 | 2010-05-19 | 大连理工大学 | 基于图像哈希的大规模图像库检索方法 |
US8352494B1 (en) * | 2009-12-07 | 2013-01-08 | Google Inc. | Distributed image search |
CN101894130A (zh) * | 2010-06-08 | 2010-11-24 | 浙江大学 | 基于稀疏降维的谱哈希索引方法 |
CN102508910A (zh) * | 2011-11-11 | 2012-06-20 | 大连理工大学 | 基于多哈希表映射误差最小化的图像检索方法 |
Non-Patent Citations (1)
Title |
---|
张伟: "基于机器视觉的驾驶人疲劳状态识别关键问题研究", 《中国博士学位论文全文数据库 工程科技II辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608470A (zh) * | 2015-12-28 | 2016-05-25 | 辽宁师范大学 | 基于韦伯分布统计模型的图像检索方法 |
CN105930440A (zh) * | 2016-04-19 | 2016-09-07 | 中山大学 | 基于跨视域信息和量化误差编码的大规模行人图像快速检索方法 |
CN105930440B (zh) * | 2016-04-19 | 2019-10-11 | 中山大学 | 基于跨视域信息和量化误差编码的行人图像检索方法 |
CN106126585A (zh) * | 2016-06-20 | 2016-11-16 | 北京航空航天大学 | 基于质量分级与感知哈希特征组合的无人机图像检索方法 |
CN106126585B (zh) * | 2016-06-20 | 2019-11-19 | 北京航空航天大学 | 基于质量分级与感知哈希特征组合的无人机图像检索方法 |
CN106777038B (zh) * | 2016-12-09 | 2019-06-14 | 厦门大学 | 一种基于序列保留哈希的超低复杂度图像检索方法 |
CN106777038A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于序列保留哈希的超低复杂度图像检索方法 |
CN106886599A (zh) * | 2017-02-28 | 2017-06-23 | 北京京东尚科信息技术有限公司 | 图像检索方法以及装置 |
CN106886599B (zh) * | 2017-02-28 | 2020-03-03 | 北京京东尚科信息技术有限公司 | 图像检索方法以及装置 |
CN108182235A (zh) * | 2017-12-27 | 2018-06-19 | 北京奇虎科技有限公司 | 一种用于对用户特征进行分布式编码的方法和系统 |
CN109740674A (zh) * | 2019-01-07 | 2019-05-10 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置、设备和存储介质 |
CN109740674B (zh) * | 2019-01-07 | 2021-01-22 | 京东方科技集团股份有限公司 | 一种图像处理方法、装置、设备和存储介质 |
CN111080571A (zh) * | 2019-11-15 | 2020-04-28 | 北京迈格威科技有限公司 | 摄像头遮挡状态检测方法、装置、终端和存储介质 |
CN111080571B (zh) * | 2019-11-15 | 2023-10-20 | 北京迈格威科技有限公司 | 摄像头遮挡状态检测方法、装置、终端和存储介质 |
CN111736845A (zh) * | 2020-06-09 | 2020-10-02 | 阿里巴巴集团控股有限公司 | 一种编码方法和装置 |
CN111738194A (zh) * | 2020-06-29 | 2020-10-02 | 深圳力维智联技术有限公司 | 一种用于人脸图像相似性的评价方法和装置 |
CN111738194B (zh) * | 2020-06-29 | 2024-02-02 | 深圳力维智联技术有限公司 | 一种用于人脸图像相似性的评价方法和装置 |
CN113159211A (zh) * | 2021-04-30 | 2021-07-23 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104199923B (zh) | 2017-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199923A (zh) | 基于最优k均值哈希算法的大规模图像库检索方法 | |
CN101710334B (zh) | 基于图像哈希的大规模图像库检索方法 | |
US8983941B1 (en) | Visual content retrieval | |
CN104021234A (zh) | 一种基于自适应位分配哈希算法的大规模图像库检索方法 | |
US9524449B2 (en) | Generation of visual pattern classes for visual pattern recognition | |
CN109522435B (zh) | 一种图像检索方法及装置 | |
Zhou et al. | Deep forest hashing for image retrieval | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
CN105894046A (zh) | 卷积神经网络训练及图像处理的方法和系统、计算机设备 | |
CN102508910A (zh) | 基于多哈希表映射误差最小化的图像检索方法 | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
CN103221954A (zh) | 在网络中执行视觉搜索 | |
CN107122411A (zh) | 一种基于离散多视图哈希的协同过滤推荐方法 | |
CN103678274A (zh) | 一种基于改进互信息和熵的文本分类特征提取方法 | |
Pan et al. | Product quantization with dual codebooks for approximate nearest neighbor search | |
Deng et al. | Adaptive multi-bit quantization for hashing | |
Cheng et al. | Semi-supervised multi-graph hashing for scalable similarity search | |
CN104679835A (zh) | 一种基于多视图哈希的图书推荐方法 | |
Liu et al. | Adversarial hash-code learning for remote sensing image retrieval | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Zhang et al. | Deep supervised hashing using symmetric relative entropy | |
Zeng et al. | Pyramid hybrid pooling quantization for efficient fine-grained image retrieval | |
CN113704620B (zh) | 基于人工智能的用户标签更新方法、装置、设备及介质 | |
Zhang et al. | Discovering similar Chinese characters in online handwriting with deep convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Shuwu Inventor after: Zhang Guixuan Inventor after: Guo Qinzhen Inventor after: Zeng Zhi Inventor before: Guo Qinzhen Inventor before: Zeng Zhi Inventor before: Zhang Shuwu |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |