CN102629279A

CN102629279A - 一种用于图像或视频搜索重排序的方法

Info

Publication number: CN102629279A
Application number: CN2012100802342A
Authority: CN
Inventors: 冀中; 苏育挺; 井佩光
Original assignee: Tianjin University
Current assignee: Beijing Lida Zhisheng Technology Co.,Ltd.
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2012-08-08
Anticipated expiration: 2032-03-23
Also published as: CN102629279B

Abstract

本发明公开了一种用于图像或视频搜索重排序的方法，搜索引擎中输入查询关键词进行搜索，获取基于文本的初始搜索结果S；根据所述初始搜索结果S提取不同模态下的特征向量，获取特征向量集合；根据所述初始搜索结果S对样本进行标注，获取标注后样本集合；对所述特征向量集合、所述标注后样本集合进行处理，获取新特征向量；将标注后样本集合的新特征向量作为训练集，获取排序模型；通过所述排序模型对特征向量集合的新特征向量进行排序，获取重排序后的最终结果。本发明通过合理利用检索结果与查询之间的相关程度信息，达到了有效利用数据信息、提高维数约简效果的目的，更好地将符合用户需求的结果靠前优先呈现给用户，提高了检索的准确性。

Description

一种用于图像或视频搜索重排序的方法

技术领域

本发明涉及面向多媒体信息检索领域，特别涉及一种用于图像或视频搜索重排序的方法。

背景技术

随着信息技术的快速发展，图像和视频等多媒体数据大量涌现，成为人们获取信息的重要途径之一。图像或视频搜索重排序是根据初始的基于文本搜索结果结合其它的可利用的辅助信息训练排序模型，利用新的排序模型对检索结果重新排序的过程，其目的是为了改善检索的准确性以提高用户体验和满意度。

利用标注信息进行图像或视频的重排序是目前主要的方法，其中标注信息的获取有多种途径，例如利用人工标注、伪相关反馈、隐相关反馈等。

发明人在实现本发明的过程中，发现现有技术中存在以下不足：

现有技术中的基于标注的图像或视频搜索重排序方法通常对所提取出来的高维特征向量进行无监督的维数约简或者将图像或视频的相关性等级信息简单的作为类别标号信息进行有监督的维数约简，然而在图像或视频搜索重排序中图像或视频的类别标号并不能充分准确地描述图像与图像之间，或视频与视频之间的关系，进而使得训练出来的排序模型不够精确，使得检索精度较低，无法满足实际应用中的需要。

发明内容

本发明提供了一种用于图像或视频搜索重排序的方法，本发明提高了检索的精度，满足了实际应用中的多种需要，详见下文描述：

一种用于图像或视频搜索重排序的方法，所述方法包括以下步骤：

(1)搜索引擎中输入查询关键词进行搜索，获取基于文本的初始搜索结果S；

(2)根据所述初始搜索结果S提取不同模态下的特征向量，获取特征向量集合；

(3)根据所述初始搜索结果S对样本进行标注，获取标注后样本集合；

(4)对所述特征向量集合、所述标注后样本集合进行处理，获取新特征向量；

(5)将标注后样本集合的新特征向量作为训练集，获取排序模型；

(6)通过所述排序模型对特征向量集合的新特征向量进行排序，获取重排序后的最终结果。

所述根据所述初始搜索结果S对样本进行标注，获取标注后样本集合具体为：

在所述初始搜索结果S中采用伪相关反馈或者人工标注等方法为每个相关性等级A、B、C标注k个样本，组成S_A、S_B、S_C三个标注样本集合，其余的为未标注样本集合。

所述对所述特征向量集合、所述标注后样本集合进行处理，获取新特征向量具体为：

1)对特征向量集合进行中心化处理，获取中心化后特征向量集合；

2)通过三个相关性等级A、B、C构建6个n×n的零矩阵C_AA、C_BB、C_CC、C_AC、C_AB、C_BC，对6个零矩阵进行赋值获取约束矩阵H；

3)通过新特征矩阵X′、Y′和所述约束矩阵H构成同模态矩阵C_xx、C_yy与模态间矩阵

4)通过所述模态矩阵C_xx、C_yy与所述模态间矩阵

获取矩阵Z，对所述矩阵Z进行奇异值分解，获取矩阵U和V；

5)分别取所述矩阵U和V的前d列组成矩阵[u₁，L u_d]，[v₁，L v_d](d＜min(p，q))，利用

W_{x} = [w_{x 1}, L, w_{xd}] = C_{xx}^{- 1 / 2} [u_{1}, L u_{d}],

W_{y} = [w_{y 1}, L, w_{yd}] = C_{yy}^{- 1 / 2} [v_{1}, L v_{d}]

计算变换矩阵W_x、W_y，将(W_x)^TX′和(W_y)^TY′作为新特征向量。

所述通过三个相关性等级A、B、C构建6个n×n的零矩阵C_AA、C_BB、C_CC、C_AC、C_AB、C_BC，对6个零矩阵进行赋值获取约束矩阵H具体为：

对于标注后样本集合中任意两个样本x′_i、x′_j，若x′_i、x′_j∈S_A，则C_AA(i，j)＝1，同理若x′_i∈S_A，x′_j∈S_C则C_AC(i，j)＝1，以此类推，所述约束矩阵H的计算公式如下：H＝E+γ(C_AA+C_BB＋αC_AB)-(1-γ)(C_CC-C_AC-C_BC)，其中，参数γ用来权衡相关约束(C_AA+C_BB＋αC_AB)与不相关约束(C_CC-C_AC-C_BC)这两者的重要程度，参数γ的取值通常为[0，1]，E表示n×n的单位矩阵，α用来权衡相关性等级为A的样本与相关性等级为B的样本之间的相关程度，α的取值通常为[0，1]。

所述C_xx＝X′X′^T、C_yy＝Y′Y′^T、

所述通过所述模态矩阵C_xx、C_yy与所述模态间矩阵

获取矩阵Z，对所述矩阵Z进行奇异值分解，获取矩阵U和V具体为：

通过所述模态矩阵C_xx、C_yy与所述模态间矩阵

获取将计算出来的所述Z矩阵进行奇异值分解，即Z＝UDV^T。

本发明提供的技术方案的有益效果是：本方法针对多媒体图像、视频数据特征维数很高以及容易引起“维数灾难”的特点，首次加入信息检索中存在的相关性等级信息来构造图像与图像之间，或视频与视频之间的相关约束对与不相关约束对信息，在利用少量的标注样本信息的同时，引入大量的未标注样本信息，设计适用排序学习中的半监督维数约简方法，利用检索结果与查询之间的相关程度信息，对传统的典型相关分析方法进行了改进，达到了有效利用数据信息、提高维数约简效果的目的，将符合用户需求的结果靠前优先呈现给用户，提高了检索的准确性。

附图说明

图1为本发明提供的一种用于图像或视频搜索重排序的方法的流程图；

图2为本发明提供的获取新特征向量的示意图；

图3为本发明提供的排序性能对比的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了提高检索的准确性，本发明实施例提供了一种用于图像或视频搜索重排序的方法，参见图1，详见下文描述：

多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息，包括数据的相关性等级信息、数据的优先级关系信息以及建立在排序信息之上的关系对、关系序列等信息。排序信息可以通过人工标注、相关反馈、伪相关反馈和隐相关反馈等途径获取。

在信息检索领域中，相关性等级信息广泛应用于信息检索中的模型训练中，例如文本与多媒体检索、问答系统、视觉搜索重排序和协同过滤等。在大多数情况下，根据与查询的相关性高低手动地或自动地对每个文档进行不同等级的标注，例如“非常相关”、“相关”、“一般相关”和“不相关”等，这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。排序学习正是基于这种特殊标注的新研究领域，然而，排序学习仅仅是利用机器学习的方法学习更有效的排序模型，其侧重点在于学习的过程，并没有考虑到特征维数约简的问题。到目前为止，很少有工作把相关性等级信息用到维数约减过程中。

样本的相关性等级信息不同于传统的类标号信息，前者是在信息检索中用来衡量文档与查询之间的相关程度的度量，后者指的是机器学习与模式识别领域中一类事物的所共同具有的属性。例如在传统的模式分类任务中，同一类的事物会具有共同的特征，不同类的事物具有不同的特征。传统的半监督典型相关分析方法利用正约束与负约束这种成对的约束信息进行降维，正约束与负约束均是基于类标号信息构造的成对约束项，前者指两个样本属于同一类，后者是指两个样本属于不同的两类。然而，在排序应用中，由于样本按照与查询相关的程度分为不同的相关性等级，这样即使不同相关性等级的样本之间，也可能由于与查询相关而存在不同程度的相关性，因此在传统降维方法中的正约束与负约束这种成对约束信息并不适合直接应用到排序问题中。

然而，这些数据通常具有高维特性，直接对它们进行分析和处理会导致如下重要问题：1)计算复杂度高；2)存储代价高昂；3)维数灾难。这成为严重制约多媒体内容分析和检索领域的关键问题。维数约简是有效解决这些问题的重要方法，其目标是通过对原始数据进行变换而得到的有效的低维表示。维数约简的定义为给定一批观察样本，记作X＝{x_i}∈R^D×n，即包含n个样本，每个样本均是D维，x_i表示X集合中的第i个样本，根据某个准则，找到数据的低维表示Y＝{y_i}∈R^d×n(d＜D)，同时保持数据的几何结构。

本发明实施例根据任意两个样本之间有无相关性及相关性的大小，引入了相关约束对与不相关约束对的概念，来表示视觉搜索重排序中样本之间的关系。任意两个标注的样本因相关性等级不同也会具有不同的程度的约束。

典型相关分析CCA侧重于多模态识别。所谓多模态是指从不同的信息渠道获得样本的描述信息。典型相关分析原理是利用互补原理，最大化不同模态数据之间的相关性，减少数据之间的不确定性，从而达到降维的目的，其方法具体原理如下：给定一批成对的观察样本集(x_i，y_i)∈R^p×R^q，i＝1，L，n，i表示样本集中第i个样本，n是样本集合中样本的个数，x_i、y_i表示样本i从两种渠道所获得的特征向量，p和q表示特征向量的维数，R表示实数。记X＝[x₁，L，x_n]∈R^p×n和Y＝[y₁，L，y_n]∈R^q×n，表示所有样本在不同模态下组成的特征矩阵。设(x，y)为样本集中的任意样本对，并设样本已经中心化，即

则CCA的目标是分别为样本集X与Y寻找两组基向量w_x∈R^p与w_y∈R^q，使得随机向量和之间的相关性最大，即求如下相关系数最大的问题：

ρ = \frac{w_{x}^{T} C_{xy} w_{y}}{\sqrt{w_{x}^{T} C_{xx} w_{x} \times w_{y}^{T} C_{yy} w_{y}}}

s . t . w_{x}^{T} C_{xx} w_{x} = 1

w_{y}^{T} C_{yy} w_{y} = 1

其中，C_xx＝E[xx^T]＝XX^T∈R^p×q，C_yy＝E[yy^T]＝YY^T∈R^p×q表示集合内协方差矩阵，C_xy＝E[xy^T]＝XY^T∈R^p×q表示集合间的协方差矩阵，且有C_xy＝E[yx^T]＝C_yx。

对初始搜索结果S按照与查询主题相关性的程度划分为三个等级A、B、C，且AfBfC，A表示非常相关，B表示一般相关，C表示不相关。则与传统的基于类别标号的半监督维数约减方法相比，基于排序等级信息的典型相关分析方法具有以下特点：(1)从模态信息之间的联系方面来说，由于不同模态的信息是从不同方面描述同一个样本，因此每个样本的不同模态特征之间的应该具有最大程度的相关性。(2)对于具有相同的相关性等级标注的样本对而言，由于相关性等级A与B均表示与查询相关的样本，因此同种相关性等级的样本之间应该使得相关性最大。相关性等级C的样本均表示为与查询无关的样本，内部个体差异较大，因此应该使得样本间的相关性最小。(3)对于具有不同的相关性等级标注的样本对而言，由于相关性等级A与B均表示与查询相关，所以标注为A与B的样本之间存在着一定的相关性。C表示与查询不相关，因此样本标注为A、B与标注为C的样本之间的相关性要最小。(4)从相关约束与不相关约束角度说，相关性等级为A、B的标注样本组成相关约束对，相关性等级A、B与相关性等级为C的样本组成不相关约束对，因此，得出下列目标函数：

ρ = \frac{w_{x}^{T} {\hat{C}}_{xy} w_{y}}{\sqrt{w_{x}^{T} C_{xx} w_{x} \times w_{y}^{T} C_{yy} w_{y}}}

s . t . w_{x}^{T} C_{xx} w_{x} = 1

w_{y}^{T} C_{yy} w_{y} = 1

其中，C_xx＝E[xx^T]＝XX^T∈R^p×q，C_yy＝E[yy^T]＝YY^T∈R^p×q，

包括三项：所有的标注样本组成相关约束项J、不相关约束项K及所有样本的不同模态信息之间的约束项M，即

{\hat{C}}_{xy} = M + r \times J + (1 - r) K = X (E + γ (C_{AA} + C_{BB} + α C_{AB}) - (1 - γ) (C_{AC} + C_{BC} + C_{CC})) Y^{T} = {XHY}^{T}

相关约束项J指对标注样本中相关性等级为A与B的样本组成的集合内部元素与元素之间的相关性程度的约束，即：

R = \underset{x_{i}, x_{j} &Element; S_{A}}{Σ} (x_{i} y_{j}^{T} + x_{j} y_{i}^{T}) + \underset{x_{i}, y_{j} &Element; S_{B}}{Σ} (x_{i} y_{j}^{T} + x_{j} y_{i}^{T}) + α \underset{x_{i} &Element; S_{A}, y_{j} &Element; S_{B}}{Σ} (x_{i} y_{j}^{T} + x_{j} y_{i}^{T})

= X (C_{AA} + C_{BB} + α C_{AB}) Y^{T}

其中，参数α用来权衡相关性等级为A的样本与相关性等级为B的样本之间的相关程度。C_AA、C_BB、C_AB分别表示AA约束矩阵、BB约束矩阵以及AB约束矩阵，C_AC、C_AB、C_BC分别表示AC约束矩阵、AB约束矩阵以及BC约束矩阵。

不相关约束项K为标注样本中相关性等级为A、B的样本与相关性等级为C的样本之间的不相关约束，以及相关性等级为C的样本集合内部之间的不相关约束，即：

K = \underset{x_{i} &Element; S_{A}, y_{j} &Element; S_{C}}{Σ} (x_{i} y_{j}^{T} + x_{j} y_{i}^{T}) + \underset{X_{i} &Element; S_{B}, y_{j} &Element; S_{C}}{Σ} (x_{i} y_{j}^{T} + x_{j} y_{i}^{T}) + \underset{x_{i}, y_{j} &Element; S_{C}}{Σ} (x_{i} y_{j}^{T} + x_{j} y_{i}^{T}) = X (C_{AC} + C_{BC} + C_{CC}) Y^{T}

所有样本的不同模态信息之间的约束项M为对样本集合中样本的不同模态信息之间的相关性约束，即M＝XY^T。

101：在搜索引擎中输入查询关键词进行搜索，获取基于文本的初始搜索结果S；

其中，获取到的基于文本的初始搜索结果S通常包括：图像结果或视频结果。将图像或视频作为样本。

102：根据初始搜索结果S提取不同模态下的特征向量，获取特征向量集合；

其中，图像的模态通常包括：颜色信息与纹理信息等；视频的模态通常包括：音频信息与视觉信息等。本发明实施例以颜色信息与纹理信息为例进行说明，具体实现时，本发明实施例对此不做限制。

例如：对初始搜索结果S中的样本分别提取x和y两种模态的特征信息，则初始搜索结果S中的任意一个样本S_i表示为S_i＝(x_i，y_i)∈R^p×R^q，i＝1，L，n，n表示初始搜索结果S中的样本个数，其中，x_i和y_i分别表示样本S_i在x和y两种模态下提取出的特征向量。

103：根据初始搜索结果S对样本进行标注，获取标注后样本集合；

其中，将图像或视频作为样本进行处理，样本标注阶段包括确定样本的相关性等级并为每个相关性等级标注一定数量的样本。一般情况设为非常相关、一般相关和不相关三个不同的相关性等级，分别用A、B、C表示。标注样本是指采用伪相关反馈或者人工标注等方式为每个相关性等级标注若干个样本组成标注样本集合。在初始搜索结果S中采用伪相关反馈或者人工标注等方法为每个相关性等级标注k个样本，组成S_A、S_B、S_C三个标注样本集合，其余的为未标注样本集合。

其中，本发明实施例对步骤102和步骤103的执行顺序不做限制。

104：对特征向量集合、标注后样本集合进行处理，获取新特征向量；

其中，该步骤具体为：

其中，该步骤具体为：在不同模态下，对所有样本的特征向量进行中心化，不同模态下的原始样本的特征矩阵为X＝[x₁，L，x_n]∈R^p×n和Y＝[y₁，L，y_n]∈R^q×n，设中心化后的新特征矩阵为X′＝[x′₁，L，x′_n]，Y′＝[y′₁，L，y′_n]，其中

由新特征矩阵为X′和Y′构成中心化后特征向量集合。

对于标注后样本集合中任意两个样本x′_i、x′_i，若x′_i、x′_j∈S_A，则C_AA(i，j)＝1，同理若x′_i∈S_A，x′_j∈S_C则C_AC(i，j)＝1，其余以此类推，约束矩阵的计算公式如下：H＝E+γ(C_AA+C_BB＋αC_AB)-(1-γ)(C_CC-C_AC-C_BC)，其中，参数γ用来权衡相关约束(C_AA+C_BB＋αC_AB)与不相关约束(C_CC-C_AC-C_BC)这两者的重要程度，该γ的取值通常为[0，1]，E表示n×n的单位矩阵，α用来权衡相关性等级为A的样本与相关性等级为B的样本之间的相关程度，α的取值通常为[0，1]。

3)通过新特征矩阵X′、Y′和约束矩阵H构成同模态矩阵C_xx、C_yy与模态间矩阵

其中，C_xx＝X′X′^T、C_yy＝Y′Y′^T、

4)通过模态矩阵C_xx、C_yy与模态间矩阵

获取矩阵Z，对矩阵Z进行奇异值分解，获取矩阵U和V；

其中，通过模态矩阵C_xx、C_yy与模态间矩阵

获取

将计算出来的Z矩阵进行奇异值分解，即Z＝UDV^T。

5)分别取矩阵U和V的前d列组成矩阵[u₁，Lu_d]，[v₁，L v_d](d＜min(p，q))，利用

W_{x} = [w_{x 1}, L, w_{xd}] = C_{xx}^{- 1 / 2} [u_{1}, L u_{d}],

W_{y} = [w_{y 1}, L, w_{yd}] = C_{yy}^{- 1 / 2} [v_{1}, L v_{d}]

其中新特征向量包括：特征向量集合的新特征向量和标注后样本集合的新特征向量两部分。

105：将标注后样本集合的新特征向量作为训练集，获取排序模型；

其中，排序模型根据实际应用中的需要进行设定，具体实现时，本发明实施例对此不做限制。

106：通过排序模型对特征向量集合的新特征向量进行排序，获取重排序后的最终结果。

下面以一个具体的实验来验证本发明实施例提供的一种用于图像或视频搜索重排序的方法的可行性，详见下文描述：

实验采用微软的MSRA-MM图像数据库包含68个查询，共65443幅图片。每个查询所对应的图像按照初始的排序搜索结果的顺序进行排列，查询的类别涉及物体、人物、事件和环境等。在该数据库中图像被提前标注为非常相关A、一般相关B、不相关C三种相关性等级。由于初始的搜索结果中位置越靠后与查询相关的图像的数目越少，因此仅使用每个查询的前500幅图片进行重排序实验。试验中，选取144维颜色直方图特征和128维的小波纹理特征作为图像的两种不同模态特征。在每个查询中，为每个相关性等级各标注10个样本，组成该查询的标注样本集合。实验的结果采用通用准则NDCGK衡量前K幅图像的排序性能，K表示图像的深度。完美的排序中的NDCGK应始终为1。实验中引入初始的排序性能、基于CCA的重排序方法得出的排序性能以及基于半监督CCA的重排序方法的排序性能进行对比，对68个查询的排序性能取平均得到的实验结果如下，参见图3和表1：

其中，Baseline是指初始的排序性能，CCA是指基于CCA的重排序方法得出的排序性能，Semi-CCA基于半监督CCA的重排序方法得出的排序性能，Rank-CCA是指利用本方案所得出的排序性能。通过图3和表1可以看出，本方法所提出的方案明显的优于传统的重排序方法，精度得到了很大的提高，提高了检索的准确性，显著的提高了重排序后的性能。

综上所述，本发明实施例提供了一种用于图像或视频搜索重排序的方法，本方法针对多媒体图像、视频数据特征维数很高以及容易引起“维数灾难”的特点，首次加入信息检索中存在的相关性等级信息来构造图像与图像之间，或视频与视频之间的相关约束对与不相关约束对信息，在利用少量的标注样本信息的同时，引入大量的未标注样本信息，设计适用排序学习中的半监督维数约简方法，利用检索结果与查询之间的相关程度信息，对传统的典型相关分析方法进行了改进，达到了有效利用数据信息、提高维数约简效果的目的，将符合用户需求的结果靠前优先呈现给用户，提高了检索的准确性。

本方法的优势主要体现在：(1)新颖性：首次把排序问题中样本的相关性等级信息引入到维数约减技术中，并在此基础上构造相关约束对，不仅考虑同种相关性等级下标注样本之间的关系，也考虑不同相关性等级下标注样本之间的关系，提出了适用于多媒体检索相关领域中的维数约减方法；(2)多模态性：同典型相关分析一样，所提供的方法仍是基于多模态数据的降维算法，一方面，对所有样本通过最大化不同模态数据之间的相关性，减少数据之间的不确定性；另一方面，根据标注样本的相关性等级信息，来控制标注样本的不同模态信息之间的相关程度，两方面结合共同实现维数约减目的；(3)有效性：通过实验证明了本方法在重排序的实验中的性能明显的优于现有技术，能够有效的利用少量的监督信息提高排序性能，因此更适合于重排序问题中，该方法除了利用了标注样本以外还利用了大量的无标注样本，因此是一种典型的半监督降维方法；(4)实用性：简单可行，可以用在多媒体检索中的视觉搜索重排序、个性化推荐等与排序相关的领域。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于图像或视频搜索重排序的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种用于图像或视频搜索重排序的方法，其特征在于，所述根据所述初始搜索结果S对样本进行标注，获取标注后样本集合具体为：

3.根据权利要求2所述的一种用于图像或视频搜索重排序的方法，其特征在于，所述对所述特征向量集合、所述标注后样本集合进行处理，获取新特征向量具体为：

4)通过所述模态矩阵C_xx、C_yy与所述模态间矩阵获取矩阵Z，对所述矩阵Z进行奇异值分解，获取矩阵U和V；

W_{x} = [w_{x 1}, L, w_{xd}] = C_{xx}^{- 1 / 2} [u_{1}, L u_{d}],

W_{y} = [w_{y 1}, L, w_{yd}] = C_{yy}^{- 1 / 2} [v_{1}, L v_{d}]

4.根据权利要求3所述的一种用于图像或视频搜索重排序的方法，其特征在于，所述通过三个相关性等级A、B、C构建6个n×n的零矩阵C_AA、C_BB、C_CC、C_AC、C_AB、C_BC，对6个零矩阵进行赋值获取约束矩阵H具体为：

5.根据权利要求4所述的一种用于图像或视频搜索重排序的方法，其特征在于，所述C_xx＝X′X′^T、C_yy＝Y′Y′^T、

6.根据权利要求5所述的一种用于图像或视频搜索重排序的方法，其特征在于，所述通过所述模态矩阵C_xx、C_yy与所述模态间矩阵

通过所述模态矩阵C_xx、C_yy与所述模态间矩阵

获取将计算出来的所述Z矩阵进行奇异值分解，即Z＝UDV^T。