CN103488664A

CN103488664A - 一种图像检索方法

Info

Publication number: CN103488664A
Application number: CN201310159170.XA
Authority: CN
Inventors: 黄祥林; 吕慧; 曹学会; 杨丽芳; 张建生; 张枫; 韩笑
Original assignee: XINHUA NEWS AGENCY; Communication University of China
Current assignee: XINHUA NEWS AGENCY; Communication University of China
Priority date: 2013-05-03
Filing date: 2013-05-03
Publication date: 2014-01-01
Anticipated expiration: 2033-05-03
Also published as: CN103488664B

Abstract

本发明公开了一种图像检索方法，属于多媒体信息检索、模式识别等智能信息处理领域。本发明通过在初次检索后利用几何验证得到正确匹配的相关图像，将相关图像与查询图像的文档向量进行权重调整构成新的查询向量，进而得到扩展的查询，进行新的检索得到检索结果。该方法在查询向量中增加了相关图像中存在的隐性视觉单词的权重，提高了查询图像与相关匹配图像中相同视觉单词的权重从而大大提高了检索效率。

Description

一种图像检索方法

技术领域

本发明属于多媒体信息检索、模式识别等智能信息处理领域。具体涉及一种用于目标检索的扩展查询检索方法。

背景技术

基于视觉词袋模型的目标检索技术成为近年来的研究热点。视觉词袋模型预先利用训练图像的局部特征形成“视觉词表”，并利用该“视觉词表”对图像局部特征进行量化，将相似的图像局部特征近似的表示为它们的聚类中心-“视觉单词”。由此，图像被表示为一组“视觉单词”的集合。随后，人们利用倒排索引表存储图像的“视觉单词”，并利用文本检索中的TF-IDF模型对图像进行检索。

由于在提取查询图像局部特征过程中的漏检和局部特征到视觉单词量化过程中的误差累积造成的视觉单词的不精准性，造成的了检索效果的不理想。学者们对此进行了诸多改进。Chum等人提出对检索后的结果进行几何验证，通过仿射变换确定前N幅检索结果中正确的M幅检索结果图像，并将此M幅图像与查询图像相结合，调整查询向量进行扩展查询，重新进行检索以提高检索效率。Philbin等人提出软量化概念，通过将每个局部特征映射成为一个加权的视觉单词集合，允许将量化阶段丢失的特征包含进来，根据局部特征空间邻近型选择词汇来获得视觉单词的集合。Yang等人利用查询目标的视觉上下文信息来补偿基于视觉词袋模型查询目标表达的不确定性。

由此可见查询目标视觉单词的准确性极大的影响了检索效率。在扩展查询中利用了初次检索结果中正确匹配图像的视觉单词以扩展查询视觉单词的范围，增加了查询目标的隐性视觉单词，但是同时也增加了许多与查询目标不相关的视觉单词。

参考文献

1.J.Philbin，O.Chum，M.Isard，J.Sivic，and A.Zisserman.Object retrieval withlarge vocabularies and fast spatial matching.In Proc.CVPR，2007.

2.J.Sivic and A.Zisserman，Video Google：A Text Retrieval Approach to ObjectMatching in Videos，Proc.Ninth Int’l Conf.Computer Vision，2003，pp.1470-1478.

3.David G.Lowe.Object Recognition from Local Scale-Invariant Features.TheProceedings of the7th IEEE International Conference on Computer Vision.Corfu，Greece：IEEE Computer Society Press，1999：1150-1157.

发明内容

本发明的目的在于提出一种在查询过程中通过对盲反馈获取的初次检索相关图像集合进行分析，在新的查询向量中提高相关视觉单词权重并减小非相关视觉单词权重的图像检索方法来进行新的检索，以提高检索效率。

本发明的总体思想如下：首先通过视觉词袋模型训练图像的局部特征形成“视觉词表”，并利用该“视觉词表”将图像量化成视觉单词的集合。之后，利用文本检索中的TF-IDF模型将图像库中所有图像转化成为文档向量d。在进行检索时，根据用户划定的感兴趣区域，将查询图像的感兴趣区域组成的局部特征集合转化成查询文档向量d_q，与图像库中所有图像对应的文档向量进行比较排序，得到初次检索结果图像集合R。然后利用查询图像和初次检索结果中的前m幅图像进行几何验证，得到正确匹配的相关图像n幅(N＜＝M)。随后，根据查询文档向量d_q与n幅相关图像文档向量d₁，d₂...，d_n构建新的查询文档向量d_q’，利用d_q’与图像库中所有图像对应的文档向量进行比较排序，得到新的检索结果集合R’。

具体创新点：本方法通过利用对初次检索结果进行几何验证后得到的正确匹配图像集合，结合查询图像感兴趣区域对查询向量进行调整，扩展了新查询向量中相关视觉单词的信息量，进而在新的检索中提高检索效率。

本发明的具体方法步骤为：

1提取图像库中所有图像的局部特征，每幅图像得到一个局部特征集合，所有图像的局部特征集合形成局部特征训练集合，利用视觉词袋模型从局部特征训练集合中得到视觉词表，利用视觉词表将图像转化成视觉单词集合；

2利用TF-IDF模型将图像对应的视觉单词集合量化成文档向量；

3结合视觉词表，利用TF-IDF模型将查询图像感兴趣区域的局部特征集合量化成查询文档向量d_q；

4将查询文档向量d_q与图像库中所有图像对应的文档向量进行相似度匹配，得到初次检索结果图像集合R；

5将查询图像与检索结果R中相似度最高的前m幅图像进行几何验证，得到正确匹配的相关图像n幅，n＜＝m；

6根据查询文档向量d_q与n幅相关图像的文档向量d₁，d₂...，d_n构建新的查询文档向量d_q’，公式表示如下：

{d_{q}}^{'} = \frac{1}{n + 1} [α Σ_{j = 0}^{x} (w_{q}^{sj} + Σ_{i = 1}^{n} w_{i}^{sj}) + β Σ_{j = 0}^{y} Σ_{i = 1}^{n} w_{i}^{uj}]

式中，α和β表示可调参数；

表示查询文档向量d_q中权重不为0的视觉单词在查询文档向量d_q中的权重，

表示查询文档向量d_q中权重不为0的视觉单词在文档向量d_i中的权重，

表示查询文档向量d_q中权重为0的视觉单词在文档向量d_i中的权重；x和y分别表示

和

在文档向量中的数目。

7利用d_q’与图像库中所有图像对应的文档向量进行相似度匹配，得到新的检索结果集合R’。

上述方法中，步骤4所述的相似度指两个向量间的余弦距离。

上述方法中，步骤5所述的几何验证是利用随机抽样一致性来计算两幅图像之间的仿射变换矩阵，如果能够得到仿射变换矩阵，说明两幅图像满足仿射变换，即两幅图像能够正确匹配；如果得不到仿射变换矩阵，则说明两幅图像之间不存在正确匹配。

附图说明

图1为图像到视觉单词的转化过程流程图。

图2为查询图像示例图。

图3为检索系统框图。

具体实施方式

本实施例的技术方案如下：

首先，利用视觉词袋模型将图像转化成视觉单词的集合，转化过程如图1所示。具体转化过程为：对图像进行特征检测，得到显著特征点或者显著区域，进行特征描述进而得到局部特征描述向量；对整个图像库中的图像进行特征提取并抽样即可得到局部特征集合作为特征训练集合。对特征训练集合进行k均值聚类，将每一个聚类中心作为一个“视觉单词”，所有聚类中心构成“视觉词表”。将单幅图像提取的局部特征集合进行特征量化，量化成为视觉单词的集合。量化时，将每个局部特征描述向量与视觉词表中所有视觉单词代表的特征向量进行比较，选取最相似或者距离最小的向量对应的视觉单词作为该向量的视觉单词。

然后，利用TF-IDF模型对图像对应的视觉单词进行统计计算，得到每个图像对应的文档向量。文档向量可以表示为d＝{w₁，w₂，...，w_k}，w_t表示视觉单词t在量化的文档向量d中的权重，k为视觉词表的大小。具体的，每个视觉单词在其文档向量中的权重可以表示为

w_{t} = \frac{tf (t, d) \times \log (N / n_{l})}{\sqrt{Σ_{t &Element; d} [tf (t, d) \times \log (N / n_{l})]^{2}}}

tf(t，d)表示视觉单词在图像中出现的频率，tf(t，d)＝n_d/s_d，n_d表示视觉单词在图像中出现的次数，s_d表示该图像中总的视觉单词个数；N表示整个图像集的大小；n_l是包含视觉单词t的图像数目。这样，每个局部特征被量化为一个视觉单词，对应于一幅图像的由局部特征构成的集合就量化成为一个文档向量d＝{w₁，w₂，...，w_k}，图像库就被量化成为文档向量库D＝{d₁，d₂，...，d_N}。

用户利用检索系统检索时，输入查询图像，并框选出检索区域，也就是感兴趣区域，如图2所示，框1框选部分为用户标定的检索区域。检索系统提取整个图像的局部特征，并将框选区域范围内的局部特征集合利用视觉词袋模型转化为视觉单词集合，之后利用TF-IDF模型转化为查询文档向量d_q，那么现在查询图像框选区域与图像库中图像的相似度匹配过程就转化为查询文档向量d_q与文档向量库D中的文档向量相似度匹配过程。检索系统框图如图3所示。计算查询文档向量d_q与文档库D中的文档向量之间的相似度，在这里可以采用余弦距离。距离越小，说明两个文档向量越相似，其对应的图像就越相似，据此得到检索结果的图像集合R。

之后将检索结果图像集合R中的前m副图像作为验证集合，利用随机抽样一致性来计算查询图像框选区域是否与检索结果能够正确匹配。随机抽样一致性通过计算两幅图像之间的仿射变换矩阵来验证两幅图像是否能够正确匹配，如果能够得到仿射变换矩阵，说明两幅图像满足仿射变换，即两幅图像能够正确匹配；如果得不到仿射变换矩阵，则说明两幅图像之间不存在正确匹配。

之后将得到的n幅正确匹配图像作为相关图像集合，根据查询文档向量d_q和相关图像的文档向量d₁，d₂，...，d_n构建新的查询向量d_q’。新的查询向量d_q’可以通过如下公式得到：

{d_{q}}^{'} = \frac{1}{n + 1} [α Σ_{j = 0}^{x} (w_{q}^{sj} + Σ_{i = 1}^{n} w_{i}^{sj}) + β Σ_{j = 0}^{y} Σ_{i = 1}^{n} w_{i}^{uj}]

式中，α和β表示可调参数；

和

在文档向量中的数目。

之后利用新的查询文档向量d_q’与文档库D的文档向量进行相似度匹配，得到新的查询结果图像集合R’返回给用户。

应当理解的是，上述针对实施实例的描述较为具体，并不能因此而认为是对本发明专利保护范围的限制，本发明的专利保护范围应以所附权利要求为准。