CN104268227A

CN104268227A - 基于逆向k近邻的图像搜索中高质量相关样本自动选取法

Info

Publication number: CN104268227A
Application number: CN201410503500.7A
Authority: CN
Inventors: 冀中; 于云龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-09-26
Filing date: 2014-09-26
Publication date: 2015-01-07
Anticipated expiration: 2034-09-26
Also published as: CN104268227B

Abstract

一种基于逆向k近邻的图像搜索中高质量相关样本自动选取方法：在搜索引擎中输入查询关键词，得到初始的基于文本的搜索结果；从初始的排序结果中标注相关样本，取出初始排序结果中排在前N幅图像样本作为待选样本集，其中N是大于1的整数；利用逆向k近邻方法从待选样本集中挑选出与所有已挑出的相关样本都相似的样本作为相关样本；利用所挑选的相关样本和学习得到的相关样本建立训练排序模型；利用所建立的训练排序模型对初始排序结果进行重排序。本发明对传统的重排序中相关反馈技术进行改进，提出了逆向k近邻方法，本发明只需要一次反馈，而且此反馈只需标注一个相关样本，就能自动找到足够多的高质量伪相关样本，不仅简单实用，还保证了重排序技术的性能。

Description

基于逆向k近邻的图像搜索中高质量相关样本自动选取法

技术领域

本发明涉及一种在多媒体信息检索中自动选取高质量相关数据的方法。特别是涉及一种基于逆向k近邻的图像搜索中高质量相关样本自动选取法。

背景技术

目前，借助于文本搜索中的成熟技术，常用的商业搜索引擎已经能较好地解决海量文本的搜索问题。目前的视频和图像搜索技术主要也是通过索引和搜索其相关的文本信息，但是，“一幅图像胜过千言万语”，有限的文本信息不足以全面充分地描述图像丰富的视觉内容，因此基于文本的搜索结果往往不尽如人意,在搜索引擎返回的结果中，一些不相关或者相关度低的图像经常被排在搜索结果的前几位，图像和其文本信息之间的误匹配会造成一些不相关的图像错误地被返回；由于仅依赖于文本信息无法区分图像的相关程度，所以一些相关性较低的图像被返回给用户。为了解决基于文本的视频和图像搜索存在的缺点，一个可能的解决办法是基于内容的图像检索，该方法完全不用文本描述信息，只依赖于图像视觉信息，比如颜色，纹理，边缘等。该方法的缺点是要求用户提供图像样本实例，在web图像搜索中，用户更趋向于用关键字来进行搜索，而且通常情况下图像样本实例很难获得。

综上所述，针对文本和基于内容的搜索排序技术各有优缺点，如何解决他们各自存在的问题并利用他们各自的优点是重排序技术面临的一个挑战，目前一个成功的解决方案是先用基于文本的搜索方法快速从大规模的数据库中返回一个初始的查询结果，然后在初始查询结果的数据集上(规模小很多)充分利用图像的内容信息来重新排序得到一个更好的结果，该方法称作视觉搜索重排序技术，即：利用视觉信息改进初始查询结果的过程。

搜索重排序技术的性能与提供的训练样本的个数及质量有关。在训练排序模型时，相关样本的数目越多、质量越高，系统能够得到的用户查询意图信息就越丰富，重排序的性能就越好。反之重排序的效果就不尽如人意。这就是所谓的搜索系统和用户之间存在的“意图鸿沟”(Intent Gap)。常用的解决方法是引入相关反馈(Relevance Feedback)，以明确用户的特定搜索意图，返回用户需求的结果。

当前利用反馈技术进行重排序的方法大体分为三种：(1)显式的相关反馈技术：从初始的查询结果中手动地挑选出一些相关样本，这种方法通过与用户的交互来提高重排序的性能，具有一定局限性，例如Culetal等提出了IntentSearch模型，该模型允许用户从初始的搜索结果中挑选一幅图像作为正例，然后通过计算其它图像与这幅图像的相似性进行重排序，但是由于语义鸿沟的存在，很多情况下很难用一幅图像完整表达用户的搜索意图，尤其在搜索意图比较复杂的情况下。Tian等提出了主动重排序，该方法通过与用户交互不断地学习用户的真实搜索意图。(2)隐式的相关反馈技术：与显式的反馈相比，隐式的反馈技术不需要和用户进行交互，但容易受噪声的干扰。如Liu等提出了伪相关反馈模型，该模型基于初始的排序结果的前N幅图像是相关的这一假设，选取出前N幅图像样本建立模型，重新进行排序。这种方法简单，并且不需要和用户进行交互，但因为噪声的影响，效果并不是很理想。(3)点击数据：通过用户点击(Click-through)数据进行重排序的方法得到广泛关注，如Hua等利用用户的点击次数来缩小语义和意图之间的“意图鸿沟”，这种方法认为用户点击图像的次数为用户感兴趣的图像，也就是相关样本。如果一幅图像点击次数越多，就认为这幅图像与用户的查询意图越接近。但现实中，用户的点击次数的信息并不容易获得。

传统的伪相关反馈是基于初始的排序结果的前N幅图像都是相关的这一假设，选取出前N幅图像样本建立模型，重新进行排序。但初始排序结果的前N幅图像中有很多噪声，即有不相关样本的存在，受噪声的干扰，重排序的性能会受很大的影响。

发明内容

本发明所要解决的技术问题是，提供一种基于逆向k近邻的图像搜索中高质量相关样本自动选取法，只需要一次反馈，而且该次反馈只需标注一个相关样本，就可以自动找到足够多的高质量伪相关样本，不仅简单实用，还保证了重排序技术的性能。

本发明所采用的技术方案是：一种基于逆向k近邻的图像搜索中高质量相关样本自动选取方法，包括如下步骤：

1)在搜索引擎中输入查询关键词，得到初始的基于文本的搜索结果；

2)从初始的排序结果中标注相关样本，取出初始排序结果中排在前N幅图像样本作为待选样本集，其中N是大于1的整数；

3)利用逆向k近邻方法从待选样本集中挑选出与所有已挑出的相关样本都相似的样本作为相关样本；

4)利用所挑选的相关样本和学习得到的相关样本建立训练排序模型；

5)利用所建立的训练排序模型对初始排序结果进行重排序。

步骤3)所述的逆向k近邻方法包括如下步骤：

(1)样本初始化：从利用文本查询的方式排序得到的初始结果中标注一个相关样本放入相关样本集合V，将初始排序结果中排在前面的N幅图片样本构成的待选样本集合用U表示，计算前N幅图像的协方差矩阵S，计算所述标注相关样本的均值μ；

(2)进行迭代：从待选样本集合U中逐一计算与标注相关样本的相似度，将与标注相关样本相似度最高的样本x从待选样本集合U中取出并放入到相关样本集合V中，然后更新待选样本集合U及相关样本集合V；

(3)收敛：将相关样本集合V中的样本进行密度估计，估计出相关样本集合V总体的概率密度函数，计算相关样本集合V中每个样本的相对密度，设定使相关样本集合上的错误率最小的相对密度阈值θ，当相关样本集合V中的一个样本的相对密度低于阈值θ时停止迭代，最终确定相关样本集合中的样本个数，否则继续返回步骤(2)进行迭代。

步骤(2)是采用欧式距离或测地线距离或马氏距离从待选样本集合U中得到一个与标注相关样本相似度最高的样本x。

本发明的基于逆向k近邻的图像搜索中高质量相关样本自动选取方法，针对重排序问题中高质量的相关样本很难自动获得的问题，利用初始排序结果的图像中相关样本之间相似度高，相关样本和不相关样本之间相似度低的先验假设，对传统的重排序中相关反馈技术进行了重大改进，提出了逆向k近邻方法，该方法只需要一次反馈，而且该次反馈只需标注一个相关样本，就可以自动找到足够多的高质量伪相关样本，不仅简单实用，还保证了重排序技术的性能。本发明具有如下特点：

1、本发明充分利用初始排序结果的前N幅图像的相关性，并在此基础上通过学习挑选得到偏离总体样本最小的样本图像作为伪相关样本。

2、本发明比伪相关反馈的方式和不加相关反馈的重排序方法更加有效，能够在少量的监督相关样本下提高重排序的性能，因此与伪相关反馈方法相比，本发明更适合于重排序问题。

3、本发明只需要用户提供一次点击，非常实用。因为现在的搜索引擎中常采用的查询扩展等功能也会请用户提供一次点击。而且本发明简单可行，可以用于多媒体检索的视觉搜索重排序以及与分类问题相关的领域。

附图说明

图1是本发明基于逆向k近邻的图像搜索中高质量相关样本自动选取法的流程图；

图2是本发明自动选取高质量相关样本的流程图。

具体实施方式

下面结合实施例和附图对本发明的基于逆向k近邻的图像搜索中高质量相关样本自动选取法做出详细说明。

本发明的基于逆向k近邻的图像搜索中高质量相关样本自动选取法，基于利用文本排序的初始结果的前N幅图片是相关的以及相关样本之间的相似度比相关样本与不相关样本之间的相似度高的假设，提出了基于逆向k近邻的图像搜索中高质量相关样本自动选取方法。与k近邻方法相比，本发明不是从一个样本选取与离此样本最近的k个样本，而是从待选样本中挑选出一个离k个已知样本最近的样本，所以称作逆向k近邻方法。本发明只需要用户选择一个相关样本的显示反馈方式。从初始的排序结果的前N幅图像中选取m幅伪相关样本，在尽可能选取多个相关样本的基础上，减少噪声对重排序性能的影响，这种方法更加适合用于重排序学习，实现了在给与很少相关样本的情况下，从初始排序的结果中尽可能的学习到多个高质量的相关样本的设计，从而达到提升重排序性能的目的。与伪相关反馈的方式相比，本发明通过利用所有的相关样本挑选得到高质量的伪相关样本，减少了噪声对性能的影响。

如图1所示，本发明的基于逆向k近邻的图像搜索中高质量相关样本自动选取方法，包括如下步骤：

1)首先在搜索引擎中输入查询关键词，得到初始的基于文本的搜索结果；

3)利用逆向k近邻方法从待选样本集中挑选出与所有已挑出的相关样本都相似的样本作为相关样本，所述的逆向k近邻方法如图2所示，包括如下步骤：

(1)样本初始化：从利用文本查询的方式排序得到的初始结果中标注一个相关样本放入相关样本集合V，将由排在前面的N幅图片样本构成的待选样本集合用U表示，计算前N幅图像的协方差矩阵S，计算所述标注相关样本的均值μ；

该步骤可以采用欧式距离或测地线距离或马氏距离等从待选样本集合U中得到一个与标注相关样本相似度最高的样本x。

本发明采用马氏距离的公式：

f (x) = \frac{1}{\sqrt{2 π \det (S)}} \exp ({(x - μ)}^{T} S^{- 1} (x - μ)) .

取f(x_k)＝minf(x)，将样本x_k从待选样本集合U中选出作为相关样本放入相关样本集合V中，然后更新待选样本集合U、相关样本集合V。计算相关样本集合中图像样本的均值μ：

μ = \frac{1}{m} Σ_{i = 1}^{m} x_{i}

其中m为更新后相关样本集合中样本的数目，x_i为相关样本集合中的样本，然后重复此迭代过程。

所选取的x_k是待选样本集合U中离所有的相关样本最近的样本，传统的k近邻方法是选取离一个样本最近的k个样本，而本方法中是利用已知的m个样本，选取一个离这m个样本最近的某一样本，是k近邻方法的逆过程。

5)利用所建立的训练排序模型对初始排序结果进行重排序。

Claims

1.一种基于逆向k近邻的图像搜索中高质量相关样本自动选取方法，其特征在于，包括如下步骤：

5)利用所建立的训练排序模型对初始排序结果进行重排序。

2.根据权利要求1所述的基于逆向k近邻的图像搜索中高质量相关样本自动选取方法，其特征在于，步骤3)所述的逆向k近邻方法包括如下步骤：

3.根据权利要求2所述的基于逆向k近邻的图像搜索中高质量相关样本自动选取方法，其特征在于，步骤(2)是采用欧式距离或测地线距离或马氏距离从待选样本集合U中得到一个与标注相关样本相似度最高的样本x。