CN104699783A

CN104699783A - 基于个性化视觉字典自适应调整的社交图像检索方法

Info

Publication number: CN104699783A
Application number: CN201510111639.1A
Authority: CN
Inventors: 牛振兴; 高新波; 宋军; 李洁; 王斌; 宗汝; 郑昱
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-03-13
Filing date: 2015-03-13
Publication date: 2015-06-10

Abstract

本发明公开了一种基于个性化视觉字典自适应调整的社交图像检索方法，主要解决现有的社交图像检索性能不足的缺点。其实现步骤是：1.提取通用图像集中每幅图像的局部特征SIFT，构建通用视觉字典；2.提取用户图像集中每幅图像的局部特征SIFT，并利用用户图像集的局部特征SIFT的分布情况，对通用视觉字典进行调整，生成用户的个性化视觉字典；3.利用用户的个性化视觉字典，对用户图像进行量化表示，建立用户图像集的个性化倒排索引；4.根据用户的个性化视觉字典与倒排索引，完成查询图像的检索。本发明能有效减小从图像局部特征到视觉单词的量化误差，提高了图像检索的准确率，可用于对互联网中社交图像搜索。

Description

基于个性化视觉字典自适应调整的社交图像检索方法

技术领域

本发明属于多媒体信息检索领域，更进一步涉及一种社交图像检索方法，可用于对互联网中社交图像搜索。

背景技术

随着互联网的高速发展，每天都有数以亿计的社交图像被上传到各种社交网站，因此，如何对海量的社交图像进行快速高效的检索就显得尤为重要。现有技术对海量图像检索的一般步骤是：1)提取通用图像集的图像局部特征，建立通用视觉字典；2)提取目标图像集的图像局部特征，根据通用视觉字典得到目标图像的词袋表示，并创建倒排索引；3)给定一幅查询图像，提取其局部特征，得到其词袋表示，并根据倒排索引计算该图像与目标图像的相似度，最后根据相似度对目标图像进行排序，将排在最前面的图像作为检索结果返回。因此，生成较好的视觉字典、减小从图像局部特征到视觉单词的量化误差是提高图像检索准确率的关键。目前，大多数的图像检索方法都是通过考虑图像局部特征的空间结构信息来减小生成视觉字典的量化误差。

H.Jégou,M.Douze和C.Schmid在文章“Hamming embedding and weak geometricconsistency for large scale image search”(ECCV,2008)中提出通过引入汉明编码来减小查询图像与目标图像集的量化误差。该方法的不足之处是简单地使用了通用视觉字典、没有考虑目标图像集图像特征的分布特点。

X.Shen,Z.Lin,J.Brandt,S.Avidan和Y.Wu在文章“Object retrieval and localization withspatially-constrained similarity measure and k-NN reranking”(CVPR,2012)中提出在提取图像局部特征时，通过考虑图像局部特征的空间结构信息来减小查询图像与目标图像集的量化误差。该方法的不足之处也是简单地使用了通用视觉字典、没有考虑目标图像集图像特征的分布特点。

R.Arandjelovi和A.Zisserman在文章“All about VLAD”(CVPR,2013)中提出通过考虑目标图像集图像特征的分布特点，通过使用图像特征与通用视觉单词间的距离信息来减小查询图像与目标图像集图像特征的量化误差。该方法虽然考虑了目标图像集图像特征的分布特点，但是该方法并没有调整通用视觉字典或生成新的视觉字典，由于非判别性视觉单词的存在，查询图像与目标图像集的量化误差仍然较大。

发明内容

本发明的目的在于克服上述现有技术的不足，提出基于个性化视觉字典自适应调整的社交图像检索方法，以提高图像检索的效率和准确率。

实现本发明目的的技术思路是，根据用户图像集图像特征的分布特点对通用视觉字典进行调整，生成该用户图像集的个性化视觉字典；并利用该个性化视觉字典对用户图像进行量化表示，建立用户图像集的个性化倒排索引；在查询时，根据该个性化视觉字典与倒排索引，完成查询图像与用户图像间的相似度计算。

根据上述思路。本发明技术步骤包括如下：

(1)在互联网上抓取Flickr网站的N幅图像作为通用图像集，提取每幅图像的局部特征SIFT，构建通用视觉字典，N>＝100万；

(2)输入用户的图像集，提取每幅图像的局部特征SIFT，并利用用户图像集的局部特征SIFT的分布情况，对通用视觉字典进行调整，生成用户的个性化视觉字典；

(3)利用用户的个性化视觉字典，对用户图像进行量化表示，建立用户图像集的个性化倒排索引；

(4)根据用户的个性化视觉字典与倒排索引，完成查询图像的检索：

(4a)根据用户的个性化视觉字典，对查询图像进行量化表示；

(4b)计算查询图像与用户图像之间的相似度，根据相似度对用户图像集进行排序，将排在最前面的图像的索引值作为检索结果返回。

本发明由于考虑了目标图像集图像特征的分布特点，对通用视觉字典进行自适应调整，生成用户的个性化视觉字典。因此，可以有效减小从图像局部特征到视觉单词的量化误差，提高了图像检索的准确率。

附图说明

图1为本发明的实现流程图。

具体实施方式

下面结合附图1，对本发明实现的步骤作进一步的详细描述。

步骤1，在互联网上抓取Flickr网站的N幅图像作为通用图像集，提取每幅图像的局部特征SIFT，构建通用视觉字典。

(1a)通过调用Flickr网站公开的应用程序编程接口抓取N幅图像作为通用图像集；

(1b)提取图像局部特征。将图像分成多个8×8的图像块，利用高斯差分法检测出每个图像块的有效点，提取有效点的SIFT特征；

(1c)利用K均值聚类方法对第二步中提取的SIFT特征集合进行聚类，得到的每一个聚类中心即为视觉字典中的一个视觉单词，所有的视觉单词共同构建通用视觉字典。

步骤2，输入用户的图像集，提取图像局部特征，对通用视觉字典进行调整，生成该用户的个性化视觉字典。

(2a)提取用户图像集的SIFT特征；

(2b)利用欧式距离度量法，量化SIFT特征与通用视觉字典中每个视觉单词的误差，采用硬划分的准则选取SIFT特征与视觉单词之间误差最小的视觉单词作为SIFT特征对应的视觉单词；

(2c)统计每个视觉单词覆盖的SIFT特征的数目，选取覆盖数目大于60％的视觉单词作为非判别性视觉单词候选集；

(2d)按照下式，计算非判别性视觉单词候选集中每个视觉单词在特征空间中占据的空间体积：

s_{i} = \frac{1}{K} Σ_{j = 1}^{K} d_{ij} = \frac{1}{K} Σ_{j = 1}^{K} {| | c_{i} - c_{j} | |}^{2}

其中，c_i表示视觉单词，K表示与视觉单词c_i最近邻的视觉单词的数目，d_ij表示视觉单词之间的距离，s_i表示视觉单词在特征空间中占据的空间体积；

(2e)按照下式，计算非判别性视觉单词候选集中每个视觉单词的方差：

v_{i} = \frac{1}{T} Σ_{t = 1}^{T} | | x_{t} - c_{i} | |,

其中，c_i表示视觉单词，T表示被分配到视觉单词c_i的SIFT特征数目，x_t表示SIFT特征，v_i表示视觉单词的方差；

(2f)针对实验数据设定阈值F，将非判别性视觉单词候选集中视觉单词在特征空间中占据的空间体积或者视觉单词的方差大于给定阈值F的视觉单词判定为非判别性视觉单词；

(2g)将用户图像集中被分配到非判别性视觉单词中的SIFT特征组成特征集合，重新利用K均值聚类方法，得到新的视觉单词；

(2h)用新得到的视觉单词替换通用视觉字典中非判别性视觉单词，构建出用户图像集的个性化视觉字典。

步骤3，利用用户的个性化视觉字典，对用户图像进行量化表示，建立用户图像集的个性化倒排索引。

(3a)利用用户的个性化视觉字典，采用硬化分的准则，选取距离最近的视觉单词作为用户图像的特征，得到用户图像在个性化视觉字典上的特征分布词袋；

(3b)用步骤(3a)中得到的用户图像集的特征分布词袋建立个性化倒排索引。

步骤4，根据个性化视觉字典与倒排索引，完成查询图像的检索。

(4a)根据用户的个性化视觉字典，对查询图像进行量化表示；

本发明的效果可以通过以下仿真实验做进一步的说明：

1.仿真条件

本发明是在中央处理器为Intel(R)Core i3-5302.93GHZ、内存4G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。通用图像集由从Flickr上下载的100万张图像构成，测试图像采用UKbench数据库，UKbench数据库包含2550个物体四个不同观测角度的图像。

2.仿真内容

本发明在通用图像集，UKbench数据库上进行图片检索仿真实验。

对于UKbench数据库，本发明以四个不同观测角度图像的召回率为指标对图片检索性能进行评测，仿真对比了三种不同视觉字典构建方法下不同字典尺寸图像检索的召回率，对比的多种视觉字典包括通用视觉字典、目标图像集的视觉字典以及本发明提出的个性化视觉字典。对比实验结果如表1所示。

表1.不同视觉字典构建方法下不同字典尺寸图像检索的召回率

由表1可见，在UKbench数据库上进行图片检索实验，本发明的召回率是三种不同视觉字典构建方法中是最高的。这是因为本发明利用了通用视觉字典信息，在通用视觉字典的基础上构建个性化视觉字典，由此获得高于其他两种方法的召回率，进一步验证了本发明的先进性。

Claims

1.一种基于个性化视觉字典自适应调整的社交图像检索方法，其特征在于，包括以下步骤：

(4a)根据用户的个性化视觉字典，对查询图像进行量化表示；

2.根据权利要求1所述的基于个性化视觉字典重建的社交图像检索方法，其特征在于，步骤(1)所述的在互联网上抓取Flickr网站的N幅图像作为通用图像集，是通过调用Flickr网站公开的应用程序编程接口完成。

3.根据权利要求1所述的基于个性化视觉字典自适应调整的社交图像检索方法，其特征在于，步骤(2)所述对通用视觉字典进行调整，生成用户的个性化视觉字典，按如下步骤进行：

(2a)提取用户图像集的SIFT特征；

s_{i} = \frac{1}{K} Σ_{j = 1}^{K} d_{ij} = \frac{1}{K} Σ_{j = 1}^{K} {| | c_{i} - c_{j} | |}^{2}

v_{i} = \frac{1}{T} Σ_{t = 1}^{T} | | x_{t} - c_{i} | |,

(2h)用新得到的视觉单词替换通用视觉字典中非判别性视觉单词，构建用户图像集的个性化视觉字典。

4.根据权利要求1所述的基于个性化视觉字典自适应调整的社交图像检索方法，其特征在于，步骤(3)所述的对用户图像进行量化表示，是利用个性化视觉字典，采用硬化分的准则，得到用户图像在个性化视觉字典上的特征分布词袋。