CN104951562A - 一种基于vlad双重自适应的图像检索方法 - Google Patents
一种基于vlad双重自适应的图像检索方法 Download PDFInfo
- Publication number
- CN104951562A CN104951562A CN201510398691.XA CN201510398691A CN104951562A CN 104951562 A CN104951562 A CN 104951562A CN 201510398691 A CN201510398691 A CN 201510398691A CN 104951562 A CN104951562 A CN 104951562A
- Authority
- CN
- China
- Prior art keywords
- cluster centre
- image
- descriptor
- vlad
- assigned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于VLAD双重自适应的图像检索方法,解决了大规模图像数据集检索中如何快速有效计算聚类中心并提高检索精确度的问题。本发明首先利用待检索的大规模图像数据库和粗糙的聚类中心,计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数;然后利用保存的数据计算第一次的自适应聚类中心;再次利用描述符之和、其对应的描述符的个数以及新的聚类中心,针对每一个查询图像重新计算聚类中心,并求得VLAD;最后对VLAD进行两次归一化,利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后取前N幅图像作为检索结果图像集合。本发明对提高大规模图像检索精确度具有重要意义。
Description
技术领域
本发明涉及图像检索技术领域,特别是涉及一种基于VLAD双重自适应的图像检索方法。
背景技术
随着数字技术、传感技术和网络技术的飞速发展,图像的数量和内容越来越丰富。面对着这样一个巨大的、实时扩展、时刻变化的数据库,如何从中检索到自己感兴趣的相关信息,就显得尤为重要。面对这个需求研究人员开始越来越多地关注大规模图像的有效检索问题。在早期的研究中,研究者们引入了视觉词袋,增强了描述符的表达强度并减少了量化损失,取得了显著的效果。但是随着研究的不断深入和图像规模的迅速增大,图像描述符所占内存也越来越大,使得早期方法的局限性越来越明显。
近几年来研究者们引入了图像局部紧致描述符向量(VLAD),该图像描述符的维度很低,使得非常大的图像数据集的所有描述符仍然可以适应内存,由此开辟了一个权衡图像描述符内存占用和检索性能的研究主题。局部紧致描述符向量类似于视觉词袋,它们依赖于量化局部描述符(以SIFT特征为例)。但是它们又存在两点不同,一方面是:视觉词袋记录的是SIFT特征属于各聚类中心上的投影数目,而VLAD记录的是SIFT特征与其对应聚类中心的差值累加和。VLAD继承了原始SIFT特征的一些不变特性,如平面旋转不变性。另一方面是:VLAD检索系统可以不依赖于原始的局部描述符,而视觉词袋系统则需要利用原始的局部描述符进行空间校验和重排序等,因此当处理非常大的图像数据集时需要很大的存储空间来保存这些数据。
VLAD检索系统对特征的聚类中心有很强的依赖性,通过利用好的聚类中心计算得到的VLAD进行检索可以得到较高的精确度,反之,当聚类中心不好时精确度较低。聚类中心的好坏取决于聚类中心能否恰当的描述检索图像库中描述符分布的情况。面对大规模的图像数据集检索需求,如何快速自适应的计算出好的聚类中心并提高检索精确度成为一个亟待解决的问题。
发明内容
本发明为了解决大规模图像数据集检索中如何快速自适应的计算聚类中心并提高检索精确度的问题,提出了一种基于VLAD双重自适应的图像检索方法。
上述发明目的是通过以下技术方案实现的:
步骤1:利用待检索的大规模图像数据库和粗糙的聚类中心z,计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数。
步骤2:通过上述保存的数据计算新的聚类中心
步骤3:利用步骤1中保存的数据和新的聚类中心针对每一个查询图像重新计算聚类中心z′,然后求得VLAD。
步骤4:对VLAD进行两次归一化,利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后取前N幅图像作为检索结果图像集合。
所述步骤1的具体步骤为:对待检索大规模图像数据库A中的每幅图像提取SIFT特征,粗糙聚类中心是由图像数据库B通过K-均值聚类得到的,图像数据库B与图像数据库A相关但不一致。假设聚类中心个数为k,每一个SIFT描述符被分配到距其最近的聚类中心,保存分配到每一个聚类中心的描述符之和j=1,2…k以及其对应的描述符的个数nj,其中xj,i表示的是属于第j个聚类中心的第i个SIFT描述符。
所述步骤2的具体步骤为:分配到每一个聚类中心的描述符之和sj是一个128维的向量,利用与其对应的描述符个数nj求平均向量,即得新的k个聚类中心,表达式为:其中表示第j个新的聚类中心。
所述步骤3的具体步骤为:在检索过程中,针对每一个查询图像提取其SIFT特征,并将SIFT特征分配给最近邻的由步骤2得到的聚类中心保存查询图像中每个聚类中心的描述符之和j=1,2,…k以及其对应的描述符个数其中表示查询图像根据新的聚类中心重新分配到第j个聚类中心的第i个描述符。重新计算新的描述符之和以及其对应描述符个数然后通过得到最终的自适应聚类中心z′,并根据z′计算每幅图像的VLAD。
VLAD的构造过程是将一幅图像的所有描述符分配到k个聚类中心的最近邻类别中,计算描述符与其聚类中心的残差,属于同一聚类中心的残差被累加起来,k个128维的残差之和被连接成为一个单独的k*128维度的描述符,即为未归一化的VLAD。具体计算公式如下:
其中vj表示每幅图像分配到第j个聚类中心z′j的残差之和,x′j,i表示每幅图像分配到第j个聚类中心z′j的第i个描述符。
所述步骤4的具体步骤:对每一个VLAD中分配到每一个聚类中心的残差之和vj进行L2范数归一化,然后再对拼接后的向量v进行L2范数归一化。利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后返回前N幅图像作为检索结果图像集合。
传统的检索技术仅适用于检索与自适应聚类中心对应的一致性数据库,当加入新的图像时,则自适应性无法生效。而本发明基于VLAD双重自适应的图像检索方法则可以在已知聚类中心的基础上快速自适应的得到一个较好的聚类中心,而针对具体的查询图像,再一次的进行自适应计算则可以得到一个更好的聚类中心,具有更强的适应性,相较于仅一次的自适应聚类中心计算有更高的精确度。
附图说明
图1是本发明基于VLAD双重自适应的图像检索方法的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明基于VLAD双重自适应的图像检索方法作进一步的说明:
如图所示,本发明首先利用待检索的大规模图像数据库和粗糙的聚类中心,计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数;然后利用保存的数据计算第一次的自适应聚类中心;再次利用描述符之和、其对应的描述符的个数以及新的聚类中心,针对每一个查询图像重新计算聚类中心,并求得VLAD;最后对VLAD进行两次归一化,利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后取前N幅图像作为检索结果图像集合。
其具体实现过程为:
步骤1:对待检索大规模图像数据库A中的每幅图像提取SIFT特征,粗糙聚类中心是由图像数据库B通过K-均值聚类得到的,图像数据库B与图像数据库A相关但不一致。假设聚类中心个数为k,每一个SIFT描述符被分配到距其最近的聚类中心,保存分配到每一个聚类中心的描述符之和j=1,2…k以及其对应的描述符的个数nj,其中xj,i表示的是属于第j个聚类中心的第i个SIFT描述符。
K-均值聚类的具体算法是先随机选取k个对象作为初始的聚类中心;然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心将通过j=1,2…k重新计算,其中zj表示第j个聚类中心,wj表示第j个聚类的对象集合,nj表示第j个聚类的对象个数,x表示第j个聚类的对象。这个过程将不断重复直到误差平方和 收敛时停止。
步骤2:分配到每一个聚类中心的描述符之和sj是一个128维的向量,利用与其对应的描述符个数nj求平均向量,即得新的k个聚类中心,表达式为:j=1,2…k,其中表示第j个新的聚类中心。
步骤3:在检索过程中,针对每一个查询图像提取其SIFT特征,并将SIFT特征分配给最近邻的由步骤2得到的聚类中心保存查询图像中每个聚类中心的描述符之和j=1,2,…k以及其对应的描述符个数其中表示查询图像根据新的聚类中心重新分配到第j个聚类中心的第i个描述符。重新计算新的描述符之和以及其对应描述符个数然后通过得到最终的自适应聚类中心z′,并根据z′计算每幅图像的VLAD。
VLAD的构造过程是将一幅图像的所有描述符分配到k个聚类中心的最近邻类别中,计算描述符与其聚类中心的残差,属于同一聚类中心的残差被累加起来,k个128维的残差之和被连接成为一个单独的k*128维度的描述符,即为未归一化的VLAD。具体计算公式如下:
其中vj表示每幅图像分配到第j个聚类中心z′j的残差之和,x′j,i表示每幅图像分配到第j个聚类中心z′j的第i个描述符。
步骤4:对每一个VLAD中分配到每一个聚类中心的残差之和vj进行L2范数归一化,然后再对拼接后的向量v进行L2范数归一化。利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后返回前N幅图像作为检索结果图像集合。
应当理解的是,上述针对实施实例的描述较为具体,并不能因此而认为是对本发明专利保护范围的限制,本发明的专利保护范围应以所附权利要求为准。
Claims (5)
1.一种基于VLAD双重自适应的图像检索方法,其特征在于,该方法是按照以下步骤进行的:
步骤1:利用待检索的大规模图像数据库和粗糙的聚类中心z,计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数。
步骤2:通过上述保存的数据计算新的聚类中心
步骤3:利用步骤1中保存的数据和新的聚类中心针对每一个查询图像重新计算聚类中心z′,然后求得VLAD。
步骤4:对VLAD进行两次归一化,利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后取前N幅图像作为检索结果图像集合。
2.根据权利要求1所述的基于VLAD双重自适应的图像检索方法,其特征在于:所述步骤1的具体步骤为:对待检索大规模图像数据库A中的每幅图像提取SIFT特征,粗糙聚类中心是由图像数据库B通过K-均值聚类得到的,图像数据库B与图像数据库A相关但不一致。假设聚类中心个数为k,每一个SIFT描述符被分配到距其最近的聚类中心,保存分配到每一个聚类中心的描述符之和j=1,2…k以及其对应的描述符的个数nj,其中xj,i表示的是属于第j个聚类中心的第i个SIFT描述符。
3.根据权利要求1所述的基于VLAD双重自适应的图像检索方法,其特征在于:所述步骤2的具体步骤为:分配到每一个聚类中心的描述符之和sj是一个128维的向量,利用与其对应的描述符个数nj求平均向量,即得新的k个聚类中心,表达式为:j=1,2…k,其中表示第j个新的聚类中心。
4.根据权利要求1所述的基于VLAD双重自适应的图像检索方法,其特征在于:所述步骤3的具体步骤为:在检索过程中,针对每一个查询图像提取其SIFT特征,并将SIFT特征分配给最近邻的由步骤2得到的聚类中心保存查询图像中每个聚类中心的描述符之和j=1,2,…k以及其对应的描述符个数其中表示查询图像根据新的聚类中心重新分配到第j个聚类中心的第i个描述符。重新计算新的描述符之和以及其对应描述符个数然后通过得到最终的自适应聚类中心z′,并根据z′计算每幅图像的VLAD。
VLAD的构造过程是将一幅图像的所有描述符分配到k个聚类中心的最近邻类别中,计算描述符与其聚类中心的残差,属于同一聚类中心的残差被累加起来,k个128维的残差之和被连接成为一个单独的k*128维度的描述符,即为未归一化的VLAD。具体计算公式如下:
其中vj表示每幅图像分配到第j个聚类中心′j的残差之和,x′j,i表示每幅图像分配到第j个聚类中心z′j的第i个描述符。
5.根据权利要求1所述的基于VLAD双重自适应的图像检索方法,其特征在于:所述步骤4的具体步骤:对每一个VLAD中分配到每一个聚类中心的残差之和vj进行L2范数归一化,然后再对拼接后的向量v进行L2范数归一化。利用余弦距离计算查询图像与待检索数据库中图像的相似距离,排序后返回前N幅图像作为检索结果图像集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510398691.XA CN104951562B (zh) | 2015-07-08 | 2015-07-08 | 一种基于vlad双重自适应的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510398691.XA CN104951562B (zh) | 2015-07-08 | 2015-07-08 | 一种基于vlad双重自适应的图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104951562A true CN104951562A (zh) | 2015-09-30 |
CN104951562B CN104951562B (zh) | 2018-06-05 |
Family
ID=54166220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510398691.XA Active CN104951562B (zh) | 2015-07-08 | 2015-07-08 | 一种基于vlad双重自适应的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104951562B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527058A (zh) * | 2017-07-25 | 2017-12-29 | 北京理工大学 | 一种基于加权局部特征聚合描述符的图像检索方法 |
CN108563777A (zh) * | 2018-04-24 | 2018-09-21 | 京东方科技集团股份有限公司 | 一种获得图像表示的方法和装置 |
CN108806774A (zh) * | 2018-05-22 | 2018-11-13 | 长春师范大学 | 基于几何约束和空间像素强度的医学图像检索方法 |
CN109446408A (zh) * | 2018-09-19 | 2019-03-08 | 北京京东尚科信息技术有限公司 | 检索相似数据的方法、装置、设备及计算机可读存储介质 |
CN109684977A (zh) * | 2018-12-18 | 2019-04-26 | 成都三零凯天通信实业有限公司 | 一种基于端到端深度学习的视图地标检索方法 |
CN109948666A (zh) * | 2019-03-01 | 2019-06-28 | 广州杰赛科技股份有限公司 | 图像相似性识别方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1881455B1 (en) * | 2003-07-04 | 2009-12-23 | Mitsubishi Electric Information Technology Centre Europe B.V. | Method and apparatus for representing a group of images |
CN103226584A (zh) * | 2013-04-10 | 2013-07-31 | 湘潭大学 | 形状描述符的构建方法及基于该描述符的图像检索方法 |
CN103914557A (zh) * | 2014-04-15 | 2014-07-09 | 大连理工大学 | 一种基于关键特征描述符选取的移动视觉检索系统 |
-
2015
- 2015-07-08 CN CN201510398691.XA patent/CN104951562B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1881455B1 (en) * | 2003-07-04 | 2009-12-23 | Mitsubishi Electric Information Technology Centre Europe B.V. | Method and apparatus for representing a group of images |
CN103226584A (zh) * | 2013-04-10 | 2013-07-31 | 湘潭大学 | 形状描述符的构建方法及基于该描述符的图像检索方法 |
CN103914557A (zh) * | 2014-04-15 | 2014-07-09 | 大连理工大学 | 一种基于关键特征描述符选取的移动视觉检索系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107527058A (zh) * | 2017-07-25 | 2017-12-29 | 北京理工大学 | 一种基于加权局部特征聚合描述符的图像检索方法 |
CN107527058B (zh) * | 2017-07-25 | 2020-11-27 | 北京理工大学 | 一种基于加权局部特征聚合描述符的图像检索方法 |
CN108563777A (zh) * | 2018-04-24 | 2018-09-21 | 京东方科技集团股份有限公司 | 一种获得图像表示的方法和装置 |
CN108806774A (zh) * | 2018-05-22 | 2018-11-13 | 长春师范大学 | 基于几何约束和空间像素强度的医学图像检索方法 |
CN108806774B (zh) * | 2018-05-22 | 2022-02-01 | 长春师范大学 | 基于几何约束和空间像素强度的医学图像检索方法 |
CN109446408A (zh) * | 2018-09-19 | 2019-03-08 | 北京京东尚科信息技术有限公司 | 检索相似数据的方法、装置、设备及计算机可读存储介质 |
CN109446408B (zh) * | 2018-09-19 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 检索相似数据的方法、装置、设备及计算机可读存储介质 |
CN109684977A (zh) * | 2018-12-18 | 2019-04-26 | 成都三零凯天通信实业有限公司 | 一种基于端到端深度学习的视图地标检索方法 |
CN109948666A (zh) * | 2019-03-01 | 2019-06-28 | 广州杰赛科技股份有限公司 | 图像相似性识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104951562B (zh) | 2018-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951562A (zh) | 一种基于vlad双重自适应的图像检索方法 | |
CN106777038B (zh) | 一种基于序列保留哈希的超低复杂度图像检索方法 | |
CN102254015B (zh) | 基于视觉词组的图像检索方法 | |
CN103902704B (zh) | 面向大规模图像视觉特征的多维倒排索引与快速检索算法 | |
CN102693299B (zh) | 一种并行视频拷贝检测系统和方法 | |
CN104050247B (zh) | 实现海量视频快速检索的方法 | |
CN106156755A (zh) | 一种人脸识别中的相似度计算方法及系统 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN102890700A (zh) | 一种基于体育比赛视频的相似视频片段检索方法 | |
CN105022752A (zh) | 图像检索方法与装置 | |
CN104615638A (zh) | 一种面向大数据的分布式密度聚类方法 | |
CN104216949A (zh) | 一种融合空间信息的图像特征聚合表示方法及系统 | |
CN104199842A (zh) | 一种基于局部特征邻域信息的相似图片检索方法 | |
CN103345760B (zh) | 一种医学图像对象形状模板标记点的自动生成方法 | |
CN105930873A (zh) | 一种基于子空间的自步跨模态匹配方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN101299218B (zh) | 三维模型的检索方法和装置 | |
Zhao et al. | TUCH: Turning Cross-view Hashing into Single-view Hashing via Generative Adversarial Nets. | |
CN109101567A (zh) | 一种分布式的文本近似最近邻语义搜索计算方法 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN105183845A (zh) | 一种结合语义特征的ervq图片索引与检索方法 | |
CN110110120B (zh) | 一种基于深度学习的图像检索方法和装置 | |
CN105335499A (zh) | 一种基于分布-收敛模型的文献聚类方法 | |
Wang et al. | Strong geometrical consistency in large scale partial-duplicate image search | |
CN104462458A (zh) | 大数据系统的数据挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100025 floor 78, East Fourth Ring Road, Chaoyang District, Beijing (9 9A09, Dacheng International Centre, 12) Applicant after: Tianyun SUNAC data technology (Beijing) Co. Ltd. Address before: 100176 building 18, North Industrial University Software Park, 1 North Yizhuang street, Daxing District economic and Technological Development Zone, Beijing Applicant before: Tianyun SUNAC data technology (Beijing) Co. Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |