CN102831161A

CN102831161A - 用于图像检索的基于流形正则化的半监督排序学习方法

Info

Publication number: CN102831161A
Application number: CN2012102491634A
Authority: CN
Inventors: 冀中; 苏育挺; 井佩光
Original assignee: Tianjin University
Current assignee: Guangdong Gaohang Intellectual Property Operation Co ltd; Suzhou Gaohang Intellectual Property Service Co ltd
Priority date: 2012-07-18
Filing date: 2012-07-18
Publication date: 2012-12-19
Anticipated expiration: 2032-07-18
Also published as: CN102831161B

Abstract

本发明公开了一种用于图像检索的基于流形正则化的半监督排序学习方法，从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合；对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0，2表示与查询非常相关，1表示一般相关，0表示不相关；计算未标注图像样本的伪相关等级信息y_i；计算两个图像样本之间的距离；通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项；通过所述拉普拉斯流形正则化项构造目标函数；求解所述目标函数获取各个图像样本的排序分数，把排序后的结果反馈给用户。本发明提高了检索与排序性能，充分利用了标注信息，提高了检索精度，能够有效地利用少量的监督信息提高排序性能。

Description

用于图像检索的基于流形正则化的半监督排序学习方法

技术领域

本发明涉及面向多媒体信息检索领域，尤其涉及一种用于图像检索的基于流形正则化的半监督排序学习方法。

背景技术

随着信息技术的快速发展，图像和视频等多媒体资源迅速增长，图像和视频由于含有丰富、直观和有趣的信息，已成为人们获取信息的重要途径之一。如何从海量的数据中快速准确地获取用户所需的信息是一项具有挑战性的工作。现有的商业搜索引擎对图像或视频的检索主要是通过检索图像或视频所在网页的文本信息。然而，有限的文本信息并不能充分描述图像或视频的丰富内容，也不能准确描述出图像或视频与查询的相关程度。此外，文本描述与图像或视频之间可能存在着误匹配。因此，基于内容的图像或视频检索引起越来越多的关注。

基于内容的图像或视频检索是通过对图像内容进行分析，提取图像或视频的视觉特征，从数据库中查找到具有指定特征或含有特定内容的图像或视频。排序学习技术正逐渐应用到图像或视频检索中，并成为其中的核心技术。排序学习是利用排序信息结合机器学习的方法学习更有效的排序模型，其侧重点在于学习的过程。

多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息，包括数据的相关性等级信息、数据的优先级关系信息以及建立其上的关系对和关系序列等信息。利用标注信息进行图像或视频的重排序是目前主要的方法之一，标注信息可以通过人工标注、相关反馈、伪相关反馈和隐相关反馈等途径获取。其中，相关性等级信息广泛应用于信息检索的模型训练中。在大多数情况下，根据与查询的相关性高低手动地或自动地对每个文档进行不同等级的标注，例如“非常相关”、“一般相关”和“不相关”等，这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。

在排序学习中存在着视觉一致性假设。视觉一致性假设是指视觉相似的图像其排序分数也应该比较接近，因此应该排在相近的位置；反之，视觉上不相似的样本不应该排在一起。一些正则化技术常常用于构建视觉一致性假设。流形正则化则是将流形学习与正则化技术相结合的一种技术。

发明人在实现本发明的过程中，发现现有技术中至少存在以下问题：

1）现有的排序学习通常是监督型，即仅仅利用标注的样本训练排序模型，并没有利用广泛存在的未标注样本，不利于检索与排序性能的进一步提升；2）半监督的排序学习方法，很少直接通过流形学习的方法引入未标注的样本或者流形学习都是基于传统的相似性测度计算，并没有在相似性计算过程中引入样本的标注信息，不利于标注信息的充分利用，使得检索精度不高。

发明内容

本发明提供了一种用于图像检索的基于流形正则化的半监督排序学习法，本发明提高了检索与排序性能，充分利用了标注信息，提高了检索精度，详见下文描述：

一种用于图像检索的基于流形正则化的半监督排序学习方法，所述方法包括以下步骤：

(1)从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合；

(2)对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0，2表示与查询非常相关，1表示一般相关，0表示不相关；

(3)计算未标注图像样本的伪相关等级信息y_i；

(4)计算两个图像样本之间的距离；

(5)通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项；

(6)通过所述拉普拉斯流形正则化项构造目标函数；

(7)求解所述目标函数获取各个图像样本的排序分数，把排序后的结果反馈给用户。

所述计算未标注图像样本的伪相关等级信息y_i具体包括：

1）计算重构系数c_ij；

对未标注图像样本集合X_U中的每一个图像样本x_i，在标注图像样本集合X_L中选择前k1近邻图像样本作为所述图像样本x_i的近邻样本，所述图像样本x_i由k1近邻图像样本重构所得到的重构系数c_ij：

\min_{x_{i} &Element; X_{U}, x_{j} &Element; X_{L}} {| | x_{i} - Σ_{j = 1}^{l} c_{ij} x_{j} | |}^{2}

上述最小化有两个限制：1）若x_j不是x_i的k1个近邻点之一，则c_ij=0；2）

Σ_{j = 1}^{l} c_{ij} = 1;

2）通过所述重构系数c_ij计算伪相关等级信息y_i；

通过每个未标注图像样本的所述重构系数得到重构向量c_i；

c_i=[c_il,...,c_il]，伪相关等级信息y_i为：

y_{i} = Σ_{j = 1}^{l} c_{ij} y_{j}

其中，y_j是标注图像样本x_j相应的标号，l+1≤i≤n。

所述计算两个图像样本之间的距离具体包括；

1）当两个图像样本都是标注图像样本时，获取对应的相关性等级标号，计算两个图像样本之间的距离；

2）当两个图像样本都是未标注图像样本时，通过所述伪相关等级信息计算两个图像样本之间的距离；

3）当一个图像样本是标注图像样本，另一个是未标注图像样本时，通过相关性等级标号和所述伪相关等级信息计算两个图像样本之间的距离。

所述通过两个图像样本之间的距离构造拉普拉斯流形正则化项具体包括：

1）计算两个图像样本之间的相似度A_pq；

对任意两个图像样本x_p、x_q，若x_p是x_q的k2个近邻点之一或x_q是x_p的k2近邻点之一，则两个图像样本之间的相似度计算公式如下：

A_{pq} = e^{- \frac{d {(x_{p}, x_{q})}^{2}}{2 σ^{2}}}

否则，A_pq=0；

d(x_p,x_q)表示两个图像样本x_p、x_q之间的距离；

2）通过相似度A_pq构造拉普拉斯流形正则化项。

所述目标函数项具体为：

J (w) = \frac{1}{2} \min Σ_{p, q = 1}^{n} A_{pq} {| | w^{T} x_{p} - w^{T} x_{q} | |}^{2} + C Σ_{t = 1}^{h} r_{t}

s.t.w^Tz_t≥b-r_t,t=1,...,h

r_t≥0,t=1,...,h

其中，z_t=x_m-x_r，x_m、x_r为标注图像样本中的任意两个样本，m和r的取值范围为1,...,l，且x_m比x_r的相关性高，b为自定义常数，r_t为松弛项，C为惩罚因子，t＝1,...,h；w为投影向量。

本发明提供的技术方案的有益效果是：

（1）新颖性：①提出了一种新的伪标注方法，该方法从样本重构的角度，利用有限的标注样本获得未标注样本的伪标注信息；②将标注样本的标注信息及未标注样本的伪标注信息应用于样本间的相似度计算中；③通过流形正则化学习引入未标注的样本，利用样本及样本的相关性等级信息构造新的样本点，并将流形正则化学习与新样本点相结合得到一种新的排序学习方法。

（2）有效性：通过实验证明本方法在图像搜索重排序的实验中的性能明显的优于现有技术，能够有效的利用少量的监督信息提高排序性能。

（3）半监督性：本方法是一种典型的半监督学习方法，能够同时利用标注样本以及大量的无标注样本。

（4）实用性：简单可行，可以用在多媒体检索中的视觉搜索重排序、个性化推荐等与排序相关的领域；本发明提高了检索与排序性能，充分利用了标注信息，提高了检索精度。

附图说明

图1为本发明提供的一种用于图像检索的基于流形正则化的半监督排序学习方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了提高检索与排序性能，充分利用标注信息，提高检索精度，本发明实施例提供了一种用于图像检索的基于流形正则化的半监督排序学习方法，参见图1，详见下文描述：

101：从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合；

102：对图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0，2表示与查询非常相关，1表示一般相关，0表示不相关；

设图像样本集合为X=[x₁,...,x_l,x_l+1,...,x_n]∈R^d×n，R表示实数，d表示图像样本的特征维数，n表示图像样本个数，l表示标注图像样本个数。设X_L=[x₁,...,x_l]为标注图像样本集合，X_U=[x_l+1,...,x_n]为未标注图像样本集合。对已知的图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0。2表示与查询非常相关，1表示一般相关，0表示不相关，对任意一个图像样本x_e（1≤e≤n），相应的标号为y_e，则y_e∈{0,1,2}，Y_L=[y₁,...,y_l]^T为标注图像样本集合所对应的标注向量。

103：计算未标注图像样本的伪相关等级信息y_i；

其中，该步骤具体包括：

1）计算重构系数c_ij；

对未标注图像样本集合X_U中的每一个图像样本x_i，在标注图像样本集合X_L中选择前k1近邻图像样本作为图像样本x_i的近邻样本，利用重构的思想，图像样本x_i由k1近邻图像样本重构所得到的重构系数c_ij：

\min_{x_{i} &Element; X_{U}, x_{j} &Element; X_{L}} {| | x_{i} - Σ_{j = 1}^{l} c_{ij} x_{j} | |}^{2} - - - (1)

上述最小化有两个限制：1）若x_j不是x_i的k1个近邻点之一，则c_ij＝0；2）

Σ_{j = 1}^{l} c_{ij} = 1 .

2）通过重构系数c_ij计算伪相关等级信息y_i。

通过每个未标注图像样本的重构系数得到重构向量c_i；

c_i=[c_i1,...,c_il](l+1≤i≤n)，利用如下公式得到未标注图像样本集合X_U中的每一个图像样本x_i的伪相关等级信息y_i：

y_{i} = Σ_{j = 1}^{l} c_{ij} y_{j} - - - (2)

其中，y_j是标注图像样本x_j相应的标号，l+1≤i≤n。

104：计算两个图像样本之间的距离；

该步骤具体包括：

2）当两个图像样本都是未标注图像样本时，通过伪相关等级信息计算两个图像样本之间的距离；

3）当一个图像样本是标注图像样本，另一个是未标注图像样本时，通过相关性等级标号和伪相关等级信息计算两个图像样本之间的距离。

其中，图像样本之间的距离公式为：

d(x_p,x_q)=(|y_p-y_q|+1)||x_p-x_q||（3）

| | x_{p} - x_{q} | | = \sqrt{{(x_{p} - x_{q})}^{T} (x_{p} - x_{q})} - - - (4)

x_p、x_q分别代表标注图像样本或未标注图像样本，y_p、y_q分别代表相关性等级标号或伪相关等级信息。

105：通过两个图像样本之间的距离构造拉普拉斯流形正则化项；

1）计算两个图像样本之间的相似度A_pq；

A_{pq} = e^{- \frac{d {(x_{p}, x_{q})}^{2}}{2 σ^{2}}}

否则，A_pq=0。

参数σ定义为

σ = \frac{1}{n^{2}} Σ_{p, q = 1}^{n} d (x_{p}, x_{q}) .

2）通过相似度A_pq构造拉普拉斯流形正则化项。

对于排序学习假设学习到了一个投影向量w∈R^d，使得每一个图像样本x_e的排序分数为f_e=w^Tx_e。根据流形正则化准则，认为对于两个视觉上比较相似的图像样本，其排序分数也应该一致，基于此，构建拉普拉斯流形正则化项，即：

\min \frac{1}{2} Σ_{p, q = 1}^{n} A_{pq} {| | f_{p} - f_{q} | |}^{2}

其中，f_p、f_q是图像样本x_p、x_q的排序分数。

106：通过拉普拉斯流形正则化项构造目标函数项；

首先利用标注图像样本的相关性等级信息构造新图像样本：

如果x_m＞x_r（表示x_m比x_r的相关性高），m和r的取值范围为1,...,l，则定义z_t=x_m-x_r(t=1,...,h),其中h为构造的新图像样本的个数，然后构造目标函数如下：

J (w) = \frac{1}{2} \min Σ_{p, q = 1}^{n} A_{pq} {| | w^{T} x_{p} - w^{T} x_{q} | |}^{2} + C Σ_{t = 1}^{h} r_{t}

s.t.w^Tz_t≥b-r_t,t=1,...,h

r_t≥0,t=1,...,h

其中，b为自定义常数，控制不同相关性等级样本的排序分数的差值。r_t(t=1,...,h)为松弛项，C为惩罚因子。

107：求解目标函数获取各个图像样本的排序分数，把排序后的结果反馈给用户。

令

J (w) = \frac{1}{2} \min Σ_{p, q = 1}^{n} A_{pq} {| | w^{T} x_{p} - w^{T} x_{q} | |}^{2} + C Σ_{t = 1}^{h} r_{t} = \frac{1}{w} w^{T} {XLX}^{T} w + C Σ_{t = 1}^{h} r_{t}

其中，L＝D-A是拉普拉斯矩阵，A为由元素A_pq构成的矩阵，D是对角阵，其中对角线元素为

以拉格朗日乘子α_t≥0,β_t≥0(t=1,...,h)分别乘以约束项并将其附加到目标函数上得到拉格朗日函数：

L (w, r, α, β) = \frac{1}{2} w^{T} {XLX}^{T} w + C Σ_{t = 1}^{h} r_{t} - Σ_{t = 1}^{h} α_{t} (w^{T} z_{t} - m + r_{t}) - Σ_{t = 1}^{h} β_{t} z_{t} - - - (4)

得到目标函数对偶规划为：

\max m Σ_{t = 1}^{h} α_{t} - \frac{1}{2} {(Σ_{t = 1}^{h} α_{t} z_{t})}^{T} {({XLX}^{T})}^{+} (Σ_{t = 1}^{h} α_{t} z_{t})

s.t.0≤α_t≤C

其中，(XLX^T)⁺表示XLX^T的伪逆矩阵。

通过求解二次规划问题得到α_t(t=1,...,h)的值，又

因此可以求得投影向量w。对于每一个图像样本x_e利用f_e=w^Tx_e可以求得该图像样本的排序分数。按照排序分数的高低对图像样本进行排序，把排序后的结果反馈给用户。

下面以一个具体的实验来验证本发明实施例提供的一种用于图像检索的基于流形正则化的半监督排序学习方法的可行性，详见下文描述：

实验采用微软的MSRA-MM1.0图像数据库包含68个查询，共65443幅图片。每个查询所对应的图像样本按照初始排序搜索结果的顺序进行排列，查询的类别涉及物体、人物、事件和环境等。在该数据库中图像样本被提前标注为非常相关2、一般相关1、不相关0三种相关性等级。由于初始搜索结果中位置越靠后与查询相关的图像样本的数目越少，因此仅使用每个查询的前500幅图片进行重排序实验。试验中，选取数据库提供的颜色矩特征（225维）、颜色相关图特征（144维）、小波纹理特征（128维）、边缘特征（75维）、HSV颜色直方图特征（64维）、RGB颜色直方图（256维）以及人脸特征（7维）共899维作为图像样本的特征向量。在每个查询中，为每个相关性等级各标注5个图像样本，组成该查询的标注图像样本集合。实验的结果采用通用准则NDCGK衡量前K幅图像的排序性能，K表示图像的深度。完美的排序中的NDCGK应始终为1。实验中引入初始的排序性能、以及经典的排序学习方法Ranking SVM的排序性能进行对比，得到对68个查询的排序性能取平均得到的实验结果如下：

其中，Baseline是指初始的排序性能，Ranking SVM是指利用排序学习方法进行排序所得到的排序性能。通过表可以看出，相比于初始的排序结果,本方法所提出的方案性能获得显著提高；相比于经典的排序学习算法Ranking SVM，本方法所提出的方案明显的优于Ranking SVM。

综上所述，本发明实施例提供了一种用于图像检索的基于流形正则化的半监督排序学习方法，该方法从样本重构的角度，利用有限的标注样本获得未标注样本的伪标注信息；将标注样本的标注信息及未标注样本的伪标注信息应用于样本间的相似度计算中；通过流形正则化学习引入未标注的样本，利用样本及样本的相关性等级信息构造新的样本点，并将流形正则化学习与新样本点相结合得到一种新的排序学习方法；通过实验证明本方法在图像搜索重排序的实验中的性能明显的优于现有技术，能够有效的利用少量的监督信息提高排序性能；本方法是一种典型的半监督学习方法，能够同时利用标注样本以及大量的无标注样本；简单可行，可以用在多媒体检索中的视觉搜索重排序、个性化推荐等与排序相关的领域；本发明实施例提高了检索与排序性能，充分利用了标注信息，提高了检索精度。

视频检索若通过首先提取视频的关键帧，将视频检索转换成图像检索的形式，然后利用上述方法进行检索，同样属于本专利的保护范围。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于图像检索的基于流形正则化的半监督排序学习方法，其特征在于，所述方法包括以下步骤：

(3)计算未标注图像样本的伪相关等级信息y_i；

(4)计算两个图像样本之间的距离；

(6)通过所述拉普拉斯流形正则化项构造目标函数；

2.根据权利要求1所述的一种用于图像检索的基于流形正则化的半监督排序学习方法，其特征在于，所述计算未标注图像样本的伪相关等级信息y_i具体包括：

1）计算重构系数c_ij；

\min_{x_{i} &Element; X_{U}, x_{j} &Element; X_{L}} {| | x_{i} - Σ_{j = 1}^{l} c_{ij} x_{j} | |}^{2}

Σ_{j = 1}^{l} c_{ij} = 1;

2）通过所述重构系数c_ij计算伪相关等级信息y_i；

通过每个未标注图像样本的所述重构系数得到重构向量c_i；

c_i=[c_il,...,c_il]，伪相关等级信息y_i为：

y_{i} = Σ_{j = 1}^{l} c_{ij} y_{j}

其中，y_j是标注图像样本x_j相应的标号，l+1≤i≤n。

3.根据权利要求2所述的一种用于图像检索的基于流形正则化的半监督排序学习方法，其特征在于，所述计算两个图像样本之间的距离具体包括；

4.根据权利要求3所述的一种用于图像检索的基于流形正则化的半监督排序学习方法，其特征在于，所述通过两个图像样本之间的距离构造拉普拉斯流形正则化项具体包括：

1）计算两个图像样本之间的相似度A_pq；

A_{pq} = e^{- \frac{d {(x_{p}, x_{q})}^{2}}{2 σ^{2}}}

否则，A_pq=0；

d(x_p,x_q)表示两个图像样本x_p、x_q之间的距离；

2）通过相似度A_pq构造拉普拉斯流形正则化项。

5.根据权利要求4所述的一种用于图像检索的基于流形正则化的半监督排序学习方法，其特征在于，所述目标函数项具体为：

J (w) = \frac{1}{2} \min Σ_{p, q = 1}^{n} A_{pq} {| | w^{T} x_{p} - w^{T} x_{q} | |}^{2} + C Σ_{t = 1}^{h} r_{t}

s.t.w^Tz_t≥b-r_t,t=1,...,h

r_t≥0,t=1,...,h