CN104615676B - 一种基于最大相似度匹配的图片检索方法 - Google Patents
一种基于最大相似度匹配的图片检索方法 Download PDFInfo
- Publication number
- CN104615676B CN104615676B CN201510028073.6A CN201510028073A CN104615676B CN 104615676 B CN104615676 B CN 104615676B CN 201510028073 A CN201510028073 A CN 201510028073A CN 104615676 B CN104615676 B CN 104615676B
- Authority
- CN
- China
- Prior art keywords
- picture
- feature
- maximum similarity
- retrieved
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于最大相似度匹配的图片检索方法,包括以下步骤:1)获取训练图片集;2)在多尺度空间上对获取的图片进行特征点检测和描述;3)对步骤2)提取的特征集进行聚类并生成包含k个视觉词汇的视觉字典;4)将步骤2)提取的每个特征映射到与当前特征l2距离最小的视觉词汇上,并将当前特征与相应视觉词汇的归一化残差向量存储在倒排索引结构中,形成查询数据库;5)获取待检索图片,执行步骤2)和4),获得待检索图片的倒排索引结构,根据该倒排索引结构检索查询数据库,基于最大相似度匹配,获得待检索图片的检索结果。与现有技术相比,本发明具有鲁棒性好、计算效率高等优点。
Description
技术领域
本发明涉及一种相似图片检索方法,尤其是涉及一种基于最大相似度匹配的图片检索方法。
背景技术
计算机视觉在近几年内得到了快速发展,尤其是图像检索,由于其丰富的应用场景而备受关注。
图像局部特征是用于图像处理领域的一类特征,在尺度空间寻找极值点,提取位置、尺度、旋转不变量,可在图像中检测出关键点。
非聚合模型是特征匹配的一种近似方法。在此模型中,局部特征被量化到与它最近的事先训练好的字典中的视觉词语上,并存储下此特征与相应视觉词语的残差向量,置入倒排索引中以作查询使用。
现如今,基于局部特征和非聚合模型的图像检索系统是最为常用的系统之一,它具有精度高、速度快等特点,但是,此模型还存在以下问题:
由于非聚合模型的近似特性,使得多重匹配问题不可避免地出现在视觉匹配过程中,从而影响了最终的精度。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鲁棒性好、计算效率高的基于最大相似度匹配的图片检索方法。
本发明的目的可以通过以下技术方案来实现:
一种基于最大相似度匹配的图片检索方法,实现图片的在线检索,包括以下步骤:
1)获取训练图片集;
2)在多尺度空间上对获取的图片进行特征点检测和描述;
3)对步骤2)提取的特征点的集合进行聚类并生成包含g个视觉词汇的视觉字典;
4)将步骤2)提取的每个特征映射到与当前特征l2距离最小的视觉词汇上,并将当前特征与相应视觉词汇的归一化残差向量存储在倒排索引结构中,形成查询数据库;
5)获取待检索图片,执行步骤2)和4),获得待检索图片的倒排索引结构,根据该倒排索引结构检索查询数据库,基于最大相似度匹配,获得待检索图片的检索结果;
所述步骤5)中,根据待检索图片倒排索引结构采用最大相似度匹配在查询数据库中进行检索,获得与该待检索图片匹配的检索结果,所述最大相似度匹配的核函数为:
其中,Xc={x∈X:q(x)},Yc={y∈Y:q(y)}分别表示待检索图片特征点集合X和与其对应的训练图片特征点集合Y中属于视觉词汇c的特征子集,q表示执行聚类操作的函数,m=max(#Xc,#Yc),#Xc、#Yc分别为集合Xc、Yc的基数,k表示集合Xc与Yc进行匹配的第k种排列,r(xi k)为第k种排列下Xc中第i个特征所对应的归一化残差向量,r(yi)为第k种排列下Yc中对应r(xi k)的归一化残差向量,σ(·)为非线性函数,定义为:
所述步骤2)中,采用改进版本Hessian-Affine特征点检测算法和SIFT局部特征描述子在多尺度空间上进行特征点检测和描述,具体为:
1a)使用Hessian-Affine特征点检测算法对图片进行检测,得到局部特征点集Z={z1,…,zn},n为特征点数量;
1b)对于Z,使用SIFT局部特征描述子进行描述,得到对应的特征向量,形成特征点集合X={x1,…,xn},其中,xi为128维特征向量,i=1,…,n。
所述改进版本Hessian-Affine特征点检测算法中,固定特征点主方向为垂直向下。
所述步骤3)具体为:
3a)利用k均值聚类算法将提取出的特征集F中的所有特征聚成g个类,其中,F={F1,…,Fs},为从拥有s张图片的图片集N中提取出的特征集;
3b)记录并保存每个类的中心点,组成视觉词典:C={c1,…,cg},其中,每一个视觉词汇ch都是一个128维向量,h=1,…,g。
所述步骤4)具体为:
4a)对于某一特征x,依次计算其与每一个视觉词汇的l2距离d,并找出距离最小的视觉词汇c:
4b)对X进行上述操作,则获得X中属于视觉词汇c的特征子集:
Xc={x∈X:q(x)=c}
4c)将每一个特征x与所属的视觉词汇c的归一化残差向量r(x)存储在倒排索引结构中,其中:
与现有技术相比,本发明具有以下优点:
第一,本发明首次提出引入最大相似度匹配概念,消除多重匹配,增强视觉匹配性;
第二,本发明首次提出将最大相似度匹配融入非聚合模型和倒排索引结构,从而提高图片检索系统的准确率;
第三,本发明的检索准确率在Oxford5k、Paris6k等标准数据集上优于主流算法,并且具有较高的计算效率。
附图说明
图1为本发明的图片离线训练示意图;
图2为本发明的图片在线检索示意图;
图3为对于Oxford5k测试数据集,传统的基于局部特征和非聚合模型的图像检索系统和本发明检索精度的对比示意图;
图4为对于Paris6k测试数据集,传统的基于局部特征和非聚合模型的图像检索系统和本发明检索精度的对比示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明实施例提供一种基于最大相似度匹配的图片检索方法,包括离线训练步骤和在线检索步骤。如图1所示,离线训练步骤包括:
步骤s101:获取训练图片集。
步骤s102:采用改进版本Hessian-Affine特征点检测算法和SIFT局部特征描述子在多尺度空间上进行特征点检测和描述,具体为:
1a)使用Hessian-Affine特征点检测算法对图片进行检测,得到局部特征点集Z={z1,…,zn},n为特征点数量;
1b)对于Z,使用SIFT局部特征描述子进行描述,得到对应的特征向量,形成特征点集合X={x1,…,xN},其中,xi为128维特征向量,i=1,…,n。
所述改进版本Hessian-Affine特征点检测算法中,固定特征点主方向为垂直向下。
步骤s103:对提取的特征集进行聚类并生成包含一g个视觉词汇的视觉字典,具体为:
3a)利用k均值聚类算法将提取出的特征集F中的所有特征聚成g个类,其中,F={F1,…,Fs},为从拥有s张图片的图片集N中提取出的特征集,将此执行聚类操作的函数称为q:
x→q(x)
3b)记录并保存每个类的中心点,组成视觉词典:C={c1,…,cg},其中,每一个视觉词汇ch都是一个128维向量,h=1,…,g。
步骤s104:将提取的每个特征映射到与当前特征l2距离最小的视觉词汇上,并将当前特征与相应视觉词汇的归一化残差向量存储在倒排索引结构中,形成查询数据库,具体为:
4a)对于某一特征x,依次计算其与每一个视觉词汇的l2距离d,并找出距离最小的视觉词汇c:
4b)对X进行上述操作,则获得X中属于词汇c的特征子集:
Xc={x∈X:q(x)=c}
4c)将每一个特征x与所属的视觉词汇向量c的归一化残差向量r(x)存储在倒排索引结构中,其中:
如图2所示,在线检索步骤包括:
步骤s201:获取待检索图片。
步骤s202:根据步骤s102,采用改进版本Hessian-Affine特征点检测算法和SIFT局部特征描述子在多尺度空间上获得待检索图片的特征点检测和描述。
步骤s203:根据步骤s104,获得待检索图片的倒排索引结构。
步骤s204:基于最大相似度匹配算法,将根据待检索图片的倒排索引结构检索查询数据库。
步骤s205:获得待检索图片的检索结果。
使用待检索图片的倒排索引在查询数据库中进行查询时,使用最大相似度匹配消除多重匹配问题,计算余弦距离,得到最终结果列表。在具体实施时,使用匈牙利算法解最优匹配问题,从而将复杂度降低到多项式时间内。
对于两张图片,匹配过程具体为:
设X为查询图片特征点集合,Y为待查询图片特征点集合,Xc={x∈X:q(x)},Yc={y∈Y:q(y)}分别表示X和Y中属于词汇c的特征子集,m=#Xc,n=#Yc。分别代表两个集合的基数,则对于某一个特定的特征词汇c,相似度匹配的核函数定义为:
其中,非线性函数σ(·)定义为:
为了简便而又不失普遍性,可以设m≥n,并在集合Yc中添加m-n个0元素,从而使得m=n。
下面引入集合P={p1,…,pk,…,pm!},表示m个正整数的所有排列所组成的集合,其中,
因此,对于集合Xc中的所有元素,一种特定的排列情况可以表示为:
设ξ(xi,yi)代表一种匹配算子,则和Y的相似度可以定义为:
则对于Xc和Yc,最优的匹配核函数可以定义为:
将上式中的替换为SMK中的σ(u),则最终Xc与Yc的相似度匹配核函数定义为:
k表示集合Xc与Yc进行匹配的第k种排列,r(xi k)为第k种排列下Xc中第i个特征所对应的归一化残差向量,r(yi)为第k种排列下Yc中对应r(xi k)的归一化残差向量。
为了验证本发明的性能,设计了以下实验。
实验选取Oxford5k和Paris6k测试数据集,Oxford5k的字典由Paris6k生成,而Paris6k的字典由Oxford5k生成。在该实验中,字典大小分别为:8000,16000,32000,65000和100000。SMK代表标准的基于局部特征和非聚合模型的检索精度,而SMK_smm代表加入本方法后的检索精度。
可以从图3和图4中看到,两个数据库中,在加入最大相似度匹配算法后,检索精度都有了不同程度的提升,且在不同的字典下皆适用,证明了此方法的可行性和优势。
以上所述仅为本发明的优选实施例,并不用于限制本发明。本发明还包括由以上技术特征任意组合所组成的技术方案。
Claims (5)
1.一种基于最大相似度匹配的图片检索方法,其特征在于,实现图片的在线检索,包括以下步骤:
1)获取训练图片集;
2)在多尺度空间上对获取的图片进行特征点检测和描述;
3)对步骤2)提取的特征点的集合进行聚类并生成包含g个视觉词汇的视觉字典;
4)将步骤2)提取的每个特征映射到与当前特征l2距离最小的视觉词汇上,并将当前特征与相应视觉词汇的归一化残差向量存储在倒排索引结构中,形成查询数据库;
5)获取待检索图片,执行步骤2)和4),获得待检索图片的倒排索引结构,根据该倒排索引结构检索查询数据库,基于最大相似度匹配,获得待检索图片的检索结果;
所述步骤5)中,根据待检索图片倒排索引结构采用最大相似度匹配在查询数据库中进行检索,获得与该待检索图片匹配的检索结果,所述最大相似度匹配的核函数为:
其中,Xc={x∈X:q(x)},Yc={y∈Y:q(y)}分别表示待检索图片特征点集合X和与其对应的训练图片特征点集合Y中属于视觉词汇c的特征子集,q表示执行聚类操作的函数,m=max(#Xc,#Yc),#Xc、#Yc分别为集合Xc、Yc的基数,k表示集合Xc与Yc进行匹配的第k种排列,r(xi k)为第k种排列下Xc中第i个特征所对应的归一化残差向量,r(yi)为第k种排列下Yc中对应r(xi k)的归一化残差向量,σ(·)为非线性函数,定义为:
2.根据权利要求1所述的基于最大相似度匹配的图片检索方法,其特征在于,所述步骤2)中,采用改进版本Hessian-Affine特征点检测算法和SIFT局部特征描述子在多尺度空间上进行特征点检测和描述,具体为:
1a)使用Hessian-Affine特征点检测算法对图片进行检测,得到局部特征点集Z={z1,…,zn},n为特征点数量;
1b)对于Z,使用SIFT局部特征描述子进行描述,得到对应的特征向量,形成特征点集合X={x1,…,xn},其中,xi为128维特征向量,i=1,…,n。
3.根据权利要求2所述的基于最大相似度匹配的图片检索方法,其特征在于,所述改进版本Hessian-Affine特征点检测算法中,固定特征点主方向为垂直向下。
4.根据权利要求2所述的基于最大相似度匹配的图片检索方法,其特征在于,所述步骤3)具体为:
3a)利用k均值聚类算法将提取出的特征集F中的所有特征聚成g个类,其中,F={F1,…,Fs},为从拥有s张图片的图片集N中提取出的特征集;
3b)记录并保存每个类的中心点,组成视觉词典:C={c1,…,cg},其中,每一个视觉词汇ch都是一个128维向量,h=1,…,g。
5.根据权利要求4所述的基于最大相似度匹配的图片检索方法,其特征在于,所述步骤4)具体为:
4a)对于某一特征x,依次计算其与每一个视觉词汇的l2距离d,并找出距离最小的视觉词汇c:
4b)对X进行上述操作,则获得X中属于视觉词汇c的特征子集:
Xc={x∈X:q(x)=c}
4c)将每一个特征x与所属的视觉词汇c的归一化残差向量r(x)存储在倒排索引结构中,其中:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510028073.6A CN104615676B (zh) | 2015-01-20 | 2015-01-20 | 一种基于最大相似度匹配的图片检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510028073.6A CN104615676B (zh) | 2015-01-20 | 2015-01-20 | 一种基于最大相似度匹配的图片检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615676A CN104615676A (zh) | 2015-05-13 |
CN104615676B true CN104615676B (zh) | 2018-08-24 |
Family
ID=53150118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510028073.6A Active CN104615676B (zh) | 2015-01-20 | 2015-01-20 | 一种基于最大相似度匹配的图片检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615676B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354738B (zh) * | 2015-07-18 | 2019-09-10 | 严之鸿 | 一种平面图像录入及匹配的方法和系统 |
CN105069089B (zh) * | 2015-08-04 | 2019-02-12 | 小米科技有限责任公司 | 图片检测方法及装置 |
CN105701501B (zh) * | 2016-01-04 | 2019-01-18 | 北京大学 | 一种商标图像识别方法 |
CN111373393B (zh) * | 2017-11-24 | 2022-05-31 | 华为技术有限公司 | 图像检索方法和装置以及图像库的生成方法和装置 |
CN108764258B (zh) * | 2018-05-24 | 2022-03-04 | 西安电子科技大学 | 一种用于群体图像插入的最优图像集选取方法 |
CN109029450B (zh) * | 2018-06-26 | 2021-05-14 | 重庆市勘测院 | 一种室内定位方法 |
CN110458009B (zh) * | 2019-07-04 | 2022-02-18 | 浙江大华技术股份有限公司 | 图片信息、人脸检测、以图搜图的处理方法及相关设备 |
CN110533050B (zh) * | 2019-07-22 | 2023-11-24 | 平安科技(深圳)有限公司 | 图片地理信息获取方法、装置、计算机设备及存储介质 |
CN113495965A (zh) * | 2020-04-08 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 一种多媒体内容检索方法、装置、设备及存储介质 |
CN111651625A (zh) * | 2020-04-29 | 2020-09-11 | 中国平安财产保险股份有限公司 | 图像检索方法、装置、电子设备及存储介质 |
CN113869414B (zh) * | 2021-09-28 | 2022-11-08 | 埃洛克航空科技(北京)有限公司 | 用于稀疏重建的匹配方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294813A (zh) * | 2013-06-07 | 2013-09-11 | 北京捷成世纪科技股份有限公司 | 一种敏感图片搜索方法和装置 |
CN104199842A (zh) * | 2014-08-07 | 2014-12-10 | 同济大学 | 一种基于局部特征邻域信息的相似图片检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102460511B (zh) * | 2009-06-10 | 2014-04-16 | 公立大学法人大阪府立大学 | 用于物体识别的图像数据库的制作方法以及制作装置 |
-
2015
- 2015-01-20 CN CN201510028073.6A patent/CN104615676B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294813A (zh) * | 2013-06-07 | 2013-09-11 | 北京捷成世纪科技股份有限公司 | 一种敏感图片搜索方法和装置 |
CN104199842A (zh) * | 2014-08-07 | 2014-12-10 | 同济大学 | 一种基于局部特征邻域信息的相似图片检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104615676A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615676B (zh) | 一种基于最大相似度匹配的图片检索方法 | |
Yan et al. | Primitive representation learning for scene text recognition | |
Melekhov et al. | Siamese network features for image matching | |
Shi et al. | Icdar2017 competition on reading chinese text in the wild (rctw-17) | |
Liu et al. | Contextual hashing for large-scale image search | |
Jégou et al. | On the burstiness of visual elements | |
CN109697451B (zh) | 相似图像聚类方法及装置、存储介质、电子设备 | |
CN104199842B (zh) | 一种基于局部特征邻域信息的相似图片检索方法 | |
Santosh et al. | DTW–Radon-based shape descriptor for pattern recognition | |
CN104615642B (zh) | 基于局部邻域约束的空间验证的错误匹配检测方法 | |
CN101894130A (zh) | 基于稀疏降维的谱哈希索引方法 | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
CN109934272B (zh) | 一种基于全卷积网络的图像匹配方法 | |
Yang et al. | Plant species recognition using triangle-distance representation | |
CN103823887B (zh) | 基于低秩全局几何一致性检验的错误匹配检测方法 | |
CN110751027A (zh) | 一种基于深度多示例学习的行人重识别方法 | |
Wang et al. | Geometric VLAD for large scale image search | |
US20170309004A1 (en) | Image recognition using descriptor pruning | |
CN112182264B (zh) | 地标信息的确定方法、装置、设备及可读存储介质 | |
CN113255752A (zh) | 基于特征聚类的固体材料一致性分选方法 | |
CN111597367B (zh) | 基于视图和哈希算法的三维模型检索方法 | |
Du et al. | Large-scale signature matching using multi-stage hashing | |
Pourian et al. | Pixnet: A localized feature representation for classification and visual search | |
CN103823889B (zh) | 基于l1范数全局几何一致性检验的错误匹配检测方法 | |
CN111898618B (zh) | 一种识别古代图形文字的方法、装置和程序储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |