CN103049570A

CN103049570A - 基于相关保持映射和一分类器的图像视频搜索排序方法

Info

Publication number: CN103049570A
Application number: CN2012105948571A
Authority: CN
Inventors: 冀中; 苏育挺; 井佩光
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-04-17
Anticipated expiration: 2032-12-31
Also published as: CN103049570B

Abstract

本发明公开了基于相关保持映射和一分类器的图像视频搜索排序方法，通过人工标注或自动标注从样本的特征向量集合中选择若干个与查询最相关的样本及与查询不相关的样本，组成训练样本集合；利用所述训练样本集合，作为基于超球体分布的维数约简模块的输入，获取维数约简模型；利用所述维数约简模型对所有样本及训练样本集合进行变换，得到维数约简后的所有样本新特征矩阵

及训练样本新特征矩阵利用所述训练样本新特征矩阵

中与查询最相关的样本作为基于一分类器的排序学习模型的输入，训练得到排序模型f(t)；将所述所有样本新特征矩阵中的任意一个样本t_i作为所述排序模型f(t)的输入，由大到小排列输出所有样本排序后的结果。提高了检索性能，减少了用户标注负担，提升了用户搜索体验。

Description

基于相关保持映射和一分类器的图像视频搜索排序方法

技术领域

本发明涉及面向多媒体信息检索领域，特别涉及基于相关保持映射和一分类器的图像视频搜索排序方法。

背景技术

随着网络上图像、视频等资源的日益丰富，从海量数据中快速准确地获取用户所需的信息已经越来越重要。基于内容的图像或视频检索是指通过对图像或视频内容进行分析提取图像或视频的视觉特征，从特定数据库或网络中查找到具有指定特征或含有特定内容的图像或视频。但由于基于内容的图像或视频检索方法存在着计算量大，计算复杂度高，占用更多的存储空间等不足，因此很难在网络检索中获得实质应用。图像或视频搜索排序技术是利用视觉信息改进初始查询结果的过程，可以很好的解决上述问题。

图像或视频搜索排序应用中存在着大量排序信息。排序信息包括数据的相关性等级信息、数据的优先级关系信息以及建立其之上的关系对、关系序列等信息。利用标注信息进行图像或视频排序是目前主要的方法之一，标注信息的获取可以通过相关反馈、伪相关反馈和隐相关反馈等途径。其中，相关性等级信息广泛应用于信息检索中的模型训练中。在大多数情况下，根据与查询的相关性的高低手动地或自动地对每个文档进行不同相关性等级的标注，例如“非常相关”、“一般相关”和“不相关”等。

样本的相关性等级信息不同于传统的类标号信息，前者是在信息检索中用来衡量文档与查询之间相关程度的度量，后者指的是机器学习与模式识别领域中一类事物所共同具有的属性。例如在传统的模式分类任务中，同一类的事物会具有共同的特征，不同类的事物具有不同的特征。然而，在排序应用中，由于样本按照与查询相关的程度分为不同的相关性等级，这样即使不同相关性等级的样本之间，也可能由于与查询相关而存在不同程度的相关性，此外具有相同的相关性等级样本之间，由于相关性等级的不同也会具有不同程度的相关性或者不具有相关性。因此并不能直接将样本的相关性等级信息作为样本的类别标号信息对样本进行处理。

发明人在实现本发明的过程中，发现现有图像/视频的搜索排序技术中存在以下问题：

图像或视频搜索排序中需要对图像或视频提取视觉特征，视觉特征具有高维特性。样本的类别标号不等同于样本的相关性等级信息，传统的维数约简算法往往是针对分类任务提出的，而分类任务与排序任务并不相同，因此直接应用于图像或视频搜索排序中并不合理。

图像或视频搜索排序中的样本数据与查询主题存在着不同程度的相关性，样本数据之间也存在着不同程度的相关性，而数据之间的这种复杂关系用超球体分布的形式可以很好的描述。超球体内是与查询最相关的样本，靠近球体的位置是与查询一般相关的样本，最外面则是与查询不相关的样本。一方面，目前并没有能解决这种数据分布的维数约简方法。另一方面，传统的图像或视频的搜索排序方法设计中并没有考虑到数据呈现超球形分布这一特点。不同于传统的一分器SVDD(Support Vector Data Description)，SVDD是利用核变换的思想将样本映射到高维空间里，认为其在未知的高维空间中目标样本是具有超球体分布。因为核变换具有不可控性及未知性，在实际中很难操作。

发明内容

本发明提供了基于相关保持映射和一分类器的图像视频搜索排序方法，本发明减少了用户标注负担，提高了检索性能，提升用户的搜索体验，详见下文描述：

基于相关保持映射和一分类器的图像视频搜索排序方法，所述方法包括以下步骤：

（1）通过人工标注或自动标注从样本的特征向量集合中选择若干个与查询最相关的样本及与查询不相关的样本，组成训练样本集合；

（2）利用所述训练样本集合，作为基于超球体分布的维数约简模块的输入，获取维数约简模型；

（3）利用所述维数约简模型对所有样本及训练样本集合进行变换，得到维数约简后的所有样本新特征矩阵

及训练样本新特征矩阵

（4）利用所述训练样本新特征矩阵

中与查询最相关的样本作为基于一分类器的排序学习模型的输入，训练得到排序模型f(t)；

（5）将所述所有样本新特征矩阵

中的任意一个样本ti作为所述排序模型f(t)的输入，由大到小排列输出所有样本排序后的结果。

在步骤（1）之前所述本方法还包括：

1）获取图像或视频数据；2）对所述基于文本的搜索结果提取视觉特征获取所有样本的特征向量集合。

所述利用所述训练样本集合，作为基于超球体分布的维数约简模块的输入，获取维数约简模型具体包括：

1）假设存在变换向量w∈R^D，对训练样本集合中任意一个样本x_i，使得变换后的新样本为y_i=w^Tx_i(1≤i≤r+h)；

2）计算与查询最相关的所有新样本的中心向量：

3）定义约束条件，并通过所述约束条件构造目标函数；

4）通过对所述目标函数的求解获取所述维数约简模型。

所述约束条件具体为：

构造最相关样本与中心向量的距离度量S_R，所述距离度量S_R越小越好，S_R定义如下：

S_{R} = Σ_{i = 1}^{r} {| | y_{i} - m | |}^{2}

构造最相关样本的局部保持度量S_P，所述局部保持度量S_P越小越好定义如下：

S_{P} = Σ_{i, j = 1}^{r} ω_{ij} {| | y_{i} - y_{j} | |}^{2}

其中，ωij是样本x_i、x_j之间的相似程度，

σ是自定义常数。

构造不相关样本与中心向量的距离度量S_U，即所述距离度量S_U越大越好，S_U定义如下：

S_{U} = Σ_{i = r + 1}^{r + h} {| | y_{i} - m | |}^{2} .

所述利用所述训练样本新特征矩阵

中与查询最相关的样本作为基于一分类器的排序学习模型的输入，训练得到排序模型f(t)具体为：

1）通过所述训练样本新特征矩阵

构建目标函数Re(w)；

2）通过拉格朗日求解所述目标函数Re(w)，得到排序模型f(t)。

本发明提供的技术方案的有益效果是：本发明通过维数约简模型获取到排序模型f(t)，将所有样本新特征矩阵

中的任意一个样本t_i作为排序模型f(t)的输入，由大到小排列输出所有样本排序后的结果，其优势主要体现在：

（1）新颖性：①提出从超球体的角度描述图像或视频搜索排序中的样本数据之间的关系，认为样本数据的本征特征向量分布规律呈现超球体分布。②针对上述假设设计了基于相关保持映射的维数约简方法，该方法仅利用与查询最相关及不相关的样本进行学习。③对传统的一分类器SVDD分析加以改进并将其与排序问题结合起来，使之适用于数据分布呈超球体分布的多媒体排序问题。④与传统的图像或视频搜索排序相比较，传统的排序需要对每个相关性等级进行标注，仅需要用户标注少量的相关性等级最高的样本与最低的样本。

（2）有效性：本方法与基于一分类器的排序学习方法都仅仅利用标注的样本计算，复杂度低，运算速度快。大量的实验表明，在排序的实验中所提方法利用少量的标注样本就能显著提高检索性能，增强用户的体验。

（3）实用性：本方法仅仅利用有限的标注样本进行学习，是一种典型的监督型的学习方法，具有简单有效的特点，可以用在多媒体检索领域的基于内容的检索、视觉搜索重排序、个性化推荐等与排序相关的领域。

附图说明

图1为本发明提供的超球体的示意图；

图2为本发明提供的维数约减的示意图；

图3为本发明提供的基于相关保持映射和一分类器的图像视频搜索排序方法的流程图；

图4为本发明提供的基于相关保持映射和一分类器的图像视频搜索排序方法的另一流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了减少用户标注负担，提高检索性能，提升用户的搜索体验，本发明实施例提供了基于相关保持映射和一分类器的图像视频搜索排序方法，参见图1、图2、图3和图4，详见下文描述：

101：通过人工标注或自动标注从样本的特征向量集合中选择若干个与查询最相关的样本及与查询不相关的样本，组成训练样本集合；

图像样本集合按照与查询主题（例如：给定的查询q）相关性的程度划分为不同的相关性等级。由图像样本集合组成样本特征矩阵

其中，p表示样本个数，D表示样本的特征维数。从图像样本集合中人工标注或自动标注若干个与查询最相关的样本及与查询不相关的样本组成标注样本特征矩阵

其中，x₁,…,x_r表示与查询最相关的样本，共有r个样本，x_r+1，…,x_r+h为与查询不相关的样本，共h个，x_i表示第i个样本。

其中，在步骤101之前本方法还包括以下步骤：

1）获取图像或视频数据。图像或视频数据可以有多种获取途径，例如可以是已有的数据集合，也可以是通过在搜索引擎中输入查询关键词而获得的搜索结果集合。

2）对基于文本的搜索结果提取视觉特征获取所有样本的特征向量集合。

其中，视觉特征特征包括：颜色特征、纹理特征和边缘特征等。

102：利用训练样本集合，作为基于超球体分布的维数约简模块的输入，获取维数约简模型；

其中，该步骤具体包括：

2）计算与查询最相关的所有新样本的中心向量：

3）定义约束条件，并通过约束条件构造目标函数；

新样本满足如下3个条件，使所有样本在新空间中具有或近似超球形分布。

1°构造最相关样本与中心向量的距离度量S_R，即距离度量S_R越小越好，S_R定义如下：

S_{R} = Σ_{i = 1}^{r} {| | y_{i} - m | |}^{2}

2°构造最相关样本的局部保持度量S_P，与查询最相关的样本彼此之间应保持视觉上的一致性,即局部保持度量S_P越小越好定义如下：

S_{P} = Σ_{i, j = 1}^{r} ω_{ij} {| | y_{i} - y_{j} | |}^{2}

其中，ω_ij是样本x_i、x_j之间的相似程度，

σ是自定义常数。

3°构造不相关样本与中心向量的距离度量S_U，即距离度量S_U越大越好，S_U定义如下：

S_{U} = Σ_{i = r + 1}^{r + h} {| | y_{i} - m | |}^{2}

因此目标函数J(w)定义如下：

\max_{w} Σ_{i = r + 1}^{r + h} {| | y_{i} - m | |}^{2} - Σ_{i = 1}^{r} {| | y_{i} - m | |}^{2} - Σ_{i = 1}^{r} ω_{ij} {| | y_{i} - y_{j} | |}^{2}

s.t.w^Tw=1

对上述目标函数J(w)可化简为：

\max_{w} w^{T} XL X^{T} w

s.t.w^Tw=1

其中，L的定义如下:L=W-M,W=[w_ij]_(r+h)×(r+h)，

w_{ij} = \{\begin{matrix} (2 r^{2} ω_{ij} + r + h) / r^{2} & 1 \leq i, j \leq r \\ - 2 / r & r + 1 \leq i \leq r + h, 1 \leq j \leq r \\ 0 & otherwise \end{matrix}

M为对角矩阵，其中的对角元素

M_{ii} = \{\begin{matrix} 1 + 2 D_{ii} & 1 < i < r \\ - 1 & r + 1 \leq i \leq r + h \end{matrix} .

4）通过对目标函数的求解获取维数约简模型。

上述目标函数J(w)的最优解可以通过如下表达式求解得到，XLX^Tw_i＝λ_iw_i，其中λ_i为XLX^T的第i个最大的特征值，w_i为特征值λ_i对应的特征向量。设由前d个最大的特征值对应的特征向量组成的变换矩阵W=[w₁,…,w_d]∈R^n×d，R代表实数。

103：利用维数约简模型对所有样本及训练样本集合进行变换，得到维数约简后的所有样本新特征矩阵

及训练样本新特征矩阵

\tilde{T} = W^{T} T,

\tilde{L} = W^{T} X .

104：利用训练样本新特征矩阵

经变换后得到的新样本中，认为与查询相关的样本都位于超球体内，因此将其作为目标样本为内点，而与查询不相关的样本则认为是外点，分布在超球体外。离球心的距离越近则表示样本与查询的相关程度越高，离球心的距离越远则表示样本与查询的相关程度越低。经典的SVDD是用于分类任务中解决数据呈现超球形分布的机器学习方法，其优势在于仅利用内点训练即可获得分类模型，本方法对经典SVDD进行改进将其应用到排序任务中。

1）通过训练样本新特征矩阵

构建目标函数Re(w)；

由上文可知

其中l₁,…,l_r表示为标注的最相关样本的新特征向量，目标函数Re(w)为：

\min_{t, H, ξ} H^{2} + C \underset{i}{Σ} ξ_{i}

s.t.||l_i-o||²≤H²+ξ_i

ξ_i≥0,i＝1,…,r

其中，o为超球体球心，H为超球体半径，ξ_i为松弛因子，C为惩罚因子，C的取值预先设定。

2）通过拉格朗日求解目标函数Re(w)，得到排序模型f(t)。

将拉格朗日乘子α_i≥0,β_i≥0(i＝1,…,r)分别乘以约束项，得到目标函数Re(w)的拉格朗日表达式如下：

L (H, ξ, C, α, β) = H^{2} + C Σ_{i = 1}^{r} ξ_{i} - Σ_{i = 1}^{r} α_{i} {R^{2} + ξ_{i} - ({| | l_{2} | |}^{2} - 2 o \cdot l_{i} + {| | o | |}^{2})} - Σ_{i}^{r} β_{i} ξ_{i}

经化简可以得到目标函数的对偶形式：

\min_{α} Σ_{i = 1}^{r} Σ_{j = 1}^{r} α_{i} α_{j} (l_{i}, l_{j}) - \underset{i}{Σ} α_{i} (l_{i}, l_{i})

= α^{T} Gα - α^{T} q

s . t . Σ_{i = 1}^{r} α_{i} = 1,

0≤α_i≤C,i=1,…,r

其中，

G=S^TS，S=[l₁,…,l_r]，q=diag(G),即由矩阵G对角线上的元素组成的向量。

至此，对于一个新的样本t，经过维数约简后得到新特征W^Tt，最终的排序分数可由如下公式计算得到：

f(t)=H²-||W^Tt-o||²

＝H²-t^TWW^Tt+2t^TWo-o^To

其中，

H为超球体的的半径，可由任意一个落在球面的点到球心的距离计算求出。

105：将所有样本新特征矩阵

中的任意一个样本向量t_i作为排序模型f(t)的输入，由大到小排列输出所有样本排序后的结果。

下面以一个具体的面向图像搜索重排序的实验来验证本发明实施例提供的基于相关保持映射和一分类器的图像视频搜索排序方法的可行性，详见下文描述：

实验采用微软的MSRA-MM1.0图像数据库包含68个查询，共65443幅图片。每个查询所对应的图像按照初始的文本搜索结果的顺序进行排列，查询的类别涉及物体、人物、事件和环境等。由于初始的搜索结果中位置越靠后与查询相关的图像的数目越少，因此仅使用每个查询的前500幅图片进行重排序实验。实验中，选取数据库提供的颜色矩特征（225维）、颜色相关图特征（144维）、小波纹理特征（128维）、边缘特征（75维）、HSV颜色直方图特征（64维）、RGB颜色直方图（256维）以及人脸特征（7维）共899维作为图像样本的特征向量。在每个查询中，为每个相关性等级各标注5个图像样本，组成该查询的标注图像样本集合。在每个查询中，标注5个与查询最相关的样本，9个与查询不相关的样本，组成该查询的训练样本集合。实验的结果采用通用准则NDCGK衡量前K幅图像的排序性能，K表示图像的深度。分别对不同的组合方式测试性能，对68个查询的排序性能取平均得到的实验结果如下：

其中，Baseline是指初始的排序结果，S1是基于超球体数据分布的局部保持维数约简方法，S2是指基于一分类器的排序学习方法。S1+RankSVM是指利用维数约简方法S1再结合经典的排序学习方法Ranking SVM得出的重排序性能。不降维+S2指数据不经过降维处理直接利用排序学习方法S2进行重排序的性能。S1+S2是指重排序性能，通过对比实验可以看出，本方法中所提出的S1与S2的结合可以取得最好的重排序效果。而S2是用于解决超球体分布的学习方法，因此数据经过S1降维处理后确实呈现超球体分布。与初始的排序结果Baseline相对较可以看出，本方法确实可以大幅度的提高检索性能，增强用户体验。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。