CN104951562A

CN104951562A - 一种基于vlad双重自适应的图像检索方法

Info

Publication number: CN104951562A
Application number: CN201510398691.XA
Authority: CN
Inventors: 雷涛; 吕慧; 高红霄
Original assignee: Tianyun Sunac Data Technology (beijing) Co Ltd
Current assignee: Tianyun Sunac Data Technology (beijing) Co Ltd
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2015-09-30
Anticipated expiration: 2035-07-08
Also published as: CN104951562B

Abstract

本发明公开了一种基于VLAD双重自适应的图像检索方法，解决了大规模图像数据集检索中如何快速有效计算聚类中心并提高检索精确度的问题。本发明首先利用待检索的大规模图像数据库和粗糙的聚类中心，计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数；然后利用保存的数据计算第一次的自适应聚类中心；再次利用描述符之和、其对应的描述符的个数以及新的聚类中心，针对每一个查询图像重新计算聚类中心，并求得VLAD；最后对VLAD进行两次归一化，利用余弦距离计算查询图像与待检索数据库中图像的相似距离，排序后取前N幅图像作为检索结果图像集合。本发明对提高大规模图像检索精确度具有重要意义。

Description

一种基于VLAD双重自适应的图像检索方法

技术领域

本发明涉及图像检索技术领域，特别是涉及一种基于VLAD双重自适应的图像检索方法。

背景技术

随着数字技术、传感技术和网络技术的飞速发展,图像的数量和内容越来越丰富。面对着这样一个巨大的、实时扩展、时刻变化的数据库,如何从中检索到自己感兴趣的相关信息,就显得尤为重要。面对这个需求研究人员开始越来越多地关注大规模图像的有效检索问题。在早期的研究中,研究者们引入了视觉词袋，增强了描述符的表达强度并减少了量化损失，取得了显著的效果。但是随着研究的不断深入和图像规模的迅速增大,图像描述符所占内存也越来越大，使得早期方法的局限性越来越明显。

近几年来研究者们引入了图像局部紧致描述符向量(VLAD)，该图像描述符的维度很低，使得非常大的图像数据集的所有描述符仍然可以适应内存，由此开辟了一个权衡图像描述符内存占用和检索性能的研究主题。局部紧致描述符向量类似于视觉词袋，它们依赖于量化局部描述符(以SIFT特征为例)。但是它们又存在两点不同，一方面是：视觉词袋记录的是SIFT特征属于各聚类中心上的投影数目，而VLAD记录的是SIFT特征与其对应聚类中心的差值累加和。VLAD继承了原始SIFT特征的一些不变特性，如平面旋转不变性。另一方面是：VLAD检索系统可以不依赖于原始的局部描述符，而视觉词袋系统则需要利用原始的局部描述符进行空间校验和重排序等，因此当处理非常大的图像数据集时需要很大的存储空间来保存这些数据。

VLAD检索系统对特征的聚类中心有很强的依赖性，通过利用好的聚类中心计算得到的VLAD进行检索可以得到较高的精确度，反之，当聚类中心不好时精确度较低。聚类中心的好坏取决于聚类中心能否恰当的描述检索图像库中描述符分布的情况。面对大规模的图像数据集检索需求，如何快速自适应的计算出好的聚类中心并提高检索精确度成为一个亟待解决的问题。

发明内容

本发明为了解决大规模图像数据集检索中如何快速自适应的计算聚类中心并提高检索精确度的问题，提出了一种基于VLAD双重自适应的图像检索方法。

上述发明目的是通过以下技术方案实现的：

步骤1：利用待检索的大规模图像数据库和粗糙的聚类中心z，计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数。

步骤2：通过上述保存的数据计算新的聚类中心

步骤3：利用步骤1中保存的数据和新的聚类中心针对每一个查询图像重新计算聚类中心z′，然后求得VLAD。

步骤4：对VLAD进行两次归一化，利用余弦距离计算查询图像与待检索数据库中图像的相似距离，排序后取前N幅图像作为检索结果图像集合。

所述步骤1的具体步骤为：对待检索大规模图像数据库A中的每幅图像提取SIFT特征，粗糙聚类中心是由图像数据库B通过K-均值聚类得到的，图像数据库B与图像数据库A相关但不一致。假设聚类中心个数为k，每一个SIFT描述符被分配到距其最近的聚类中心，保存分配到每一个聚类中心的描述符之和j＝1,2…k以及其对应的描述符的个数n_j，其中x_j,i表示的是属于第j个聚类中心的第i个SIFT描述符。

所述步骤2的具体步骤为：分配到每一个聚类中心的描述符之和s_j是一个128维的向量，利用与其对应的描述符个数n_j求平均向量，即得新的k个聚类中心，表达式为：其中表示第j个新的聚类中心。

所述步骤3的具体步骤为：在检索过程中，针对每一个查询图像提取其SIFT特征，并将SIFT特征分配给最近邻的由步骤2得到的聚类中心保存查询图像中每个聚类中心的描述符之和j＝1,2,…k以及其对应的描述符个数其中表示查询图像根据新的聚类中心重新分配到第j个聚类中心的第i个描述符。重新计算新的描述符之和以及其对应描述符个数然后通过得到最终的自适应聚类中心z′，并根据z′计算每幅图像的VLAD。

VLAD的构造过程是将一幅图像的所有描述符分配到k个聚类中心的最近邻类别中，计算描述符与其聚类中心的残差，属于同一聚类中心的残差被累加起来，k个128维的残差之和被连接成为一个单独的k*128维度的描述符，即为未归一化的VLAD。具体计算公式如下：

v_{j} = \underset{i}{Σ} (x_{j, i}^{'} - z_{j}^{'}), j = 1, 2 ... k

其中v_j表示每幅图像分配到第j个聚类中心z′_j的残差之和，x′_j,i表示每幅图像分配到第j个聚类中心z′_j的第i个描述符。

所述步骤4的具体步骤：对每一个VLAD中分配到每一个聚类中心的残差之和v_j进行L2范数归一化，然后再对拼接后的向量v进行L2范数归一化。利用余弦距离计算查询图像与待检索数据库中图像的相似距离，排序后返回前N幅图像作为检索结果图像集合。

传统的检索技术仅适用于检索与自适应聚类中心对应的一致性数据库，当加入新的图像时，则自适应性无法生效。而本发明基于VLAD双重自适应的图像检索方法则可以在已知聚类中心的基础上快速自适应的得到一个较好的聚类中心，而针对具体的查询图像，再一次的进行自适应计算则可以得到一个更好的聚类中心，具有更强的适应性，相较于仅一次的自适应聚类中心计算有更高的精确度。

附图说明

图1是本发明基于VLAD双重自适应的图像检索方法的流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明基于VLAD双重自适应的图像检索方法作进一步的说明：

如图所示，本发明首先利用待检索的大规模图像数据库和粗糙的聚类中心，计算并保存分配到每一个聚类中心的所有描述符之和以及描述符的个数；然后利用保存的数据计算第一次的自适应聚类中心；再次利用描述符之和、其对应的描述符的个数以及新的聚类中心，针对每一个查询图像重新计算聚类中心，并求得VLAD；最后对VLAD进行两次归一化，利用余弦距离计算查询图像与待检索数据库中图像的相似距离，排序后取前N幅图像作为检索结果图像集合。

其具体实现过程为：

步骤1：对待检索大规模图像数据库A中的每幅图像提取SIFT特征，粗糙聚类中心是由图像数据库B通过K-均值聚类得到的，图像数据库B与图像数据库A相关但不一致。假设聚类中心个数为k，每一个SIFT描述符被分配到距其最近的聚类中心，保存分配到每一个聚类中心的描述符之和j＝1,2…k以及其对应的描述符的个数n_j，其中x_j,i表示的是属于第j个聚类中心的第i个SIFT描述符。

K-均值聚类的具体算法是先随机选取k个对象作为初始的聚类中心；然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心将通过j＝1,2…k重新计算，其中z_j表示第j个聚类中心，w_j表示第j个聚类的对象集合，n_j表示第j个聚类的对象个数，x表示第j个聚类的对象。这个过程将不断重复直到误差平方和

J = Σ_{i = 1}^{k} Σ_{x &Element; w_{i}} {| x - z_{i} |}^{2}

收敛时停止。

步骤2：分配到每一个聚类中心的描述符之和s_j是一个128维的向量，利用与其对应的描述符个数n_j求平均向量，即得新的k个聚类中心，表达式为：j＝1,2…k，其中表示第j个新的聚类中心。

步骤3：在检索过程中，针对每一个查询图像提取其SIFT特征，并将SIFT特征分配给最近邻的由步骤2得到的聚类中心保存查询图像中每个聚类中心的描述符之和j＝1,2,…k以及其对应的描述符个数其中表示查询图像根据新的聚类中心重新分配到第j个聚类中心的第i个描述符。重新计算新的描述符之和以及其对应描述符个数然后通过得到最终的自适应聚类中心z′，并根据z′计算每幅图像的VLAD。

v_{j} = \underset{i}{Σ} (x_{j, i}^{'} - z_{j}^{'}), j = 1, 2 ... k

步骤4：对每一个VLAD中分配到每一个聚类中心的残差之和v_j进行L2范数归一化，然后再对拼接后的向量v进行L2范数归一化。利用余弦距离计算查询图像与待检索数据库中图像的相似距离，排序后返回前N幅图像作为检索结果图像集合。

应当理解的是，上述针对实施实例的描述较为具体，并不能因此而认为是对本发明专利保护范围的限制，本发明的专利保护范围应以所附权利要求为准。

Claims

1.一种基于VLAD双重自适应的图像检索方法，其特征在于，该方法是按照以下步骤进行的：

步骤2：通过上述保存的数据计算新的聚类中心

2.根据权利要求1所述的基于VLAD双重自适应的图像检索方法，其特征在于：所述步骤1的具体步骤为：对待检索大规模图像数据库A中的每幅图像提取SIFT特征，粗糙聚类中心是由图像数据库B通过K-均值聚类得到的，图像数据库B与图像数据库A相关但不一致。假设聚类中心个数为k，每一个SIFT描述符被分配到距其最近的聚类中心，保存分配到每一个聚类中心的描述符之和j＝1,2…k以及其对应的描述符的个数n_j，其中x_j,i表示的是属于第j个聚类中心的第i个SIFT描述符。

3.根据权利要求1所述的基于VLAD双重自适应的图像检索方法，其特征在于：所述步骤2的具体步骤为：分配到每一个聚类中心的描述符之和s_j是一个128维的向量，利用与其对应的描述符个数n_j求平均向量，即得新的k个聚类中心，表达式为：j＝1,2…k，其中表示第j个新的聚类中心。

4.根据权利要求1所述的基于VLAD双重自适应的图像检索方法，其特征在于：所述步骤3的具体步骤为：在检索过程中，针对每一个查询图像提取其SIFT特征，并将SIFT特征分配给最近邻的由步骤2得到的聚类中心保存查询图像中每个聚类中心的描述符之和j＝1,2,…k以及其对应的描述符个数其中表示查询图像根据新的聚类中心重新分配到第j个聚类中心的第i个描述符。重新计算新的描述符之和以及其对应描述符个数然后通过得到最终的自适应聚类中心z′，并根据z′计算每幅图像的VLAD。

v_{j} = \underset{i}{Σ} (x_{j, i}^{'} - z_{j}^{'}), j = 1, 2 ... k

其中v_j表示每幅图像分配到第j个聚类中心′_j的残差之和，x′_j,i表示每幅图像分配到第j个聚类中心z′_j的第i个描述符。

5.根据权利要求1所述的基于VLAD双重自适应的图像检索方法，其特征在于：所述步骤4的具体步骤：对每一个VLAD中分配到每一个聚类中心的残差之和v_j进行L2范数归一化，然后再对拼接后的向量v进行L2范数归一化。利用余弦距离计算查询图像与待检索数据库中图像的相似距离，排序后返回前N幅图像作为检索结果图像集合。