CN102129477B

CN102129477B - 一种多模态联合的图像重排序方法

Info

Publication number: CN102129477B
Application number: CN 201110102412
Authority: CN
Inventors: 许信顺; 王刚; 陈竹敏; 彭亮
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2011-04-23
Filing date: 2011-04-23
Publication date: 2013-01-09
Anticipated expiration: 2031-04-23
Also published as: CN102129477A

Abstract

本发明公开了一种针对图像检索的结果重排序方法，该方法在对图像进行排序过程中可以充分利用多模态信息，使用该方法可以在现有检索的结果基础上，进一步改善图像的排序结果，提高其准确率，非常适合在网络环境下或者基于本地系统的图像检索系统使用。其方法步骤为：(1)提出图像的可视特征和文本特征。(2)检索图像之间的模态内(单模态之间)和模态间(多模态之间)的相似度。并根据这些相似度来构建多重图。(3)将多重图进行处理，使其退化为一个完全图。(4)在完全图上进行随机游走，并计算图像排序得分。(5)根据随机游走的得分情况，对图像进行重新排序，得到最终结果。

Description

一种多模态联合的图像重排序方法

技术领域

本发明涉及对图像搜索引擎搜索结果的重新排序，具体地说是一种联合利用图像多模态特征的图像重排序算法。

背景技术

现存的图像检索系统大多是基于文本关键字的。它们根据网页上图像周围的文字与查询关键字的相关程度来搜索图像。但是由于网页文本往往不能正确反映图像的内容，或者称，存在噪声，基于文本的图像检索结果不能令人满意。

图像重排序是指利用一些附加信息对图像检索结果的重新排序，这些附加信息包括图像内在特征和一些外部假设等。图像特征一般包括图像可视特征和图像相关联文本的特征，对每一种特征称之为一个模态。

图像重排序算法可以分为三类，基于分类的，基于聚类的和基于图模型的。基于分类的算法假设搜索引擎返回的搜索结果中，排名靠前的图像是与查询相关的，而排名靠后的图像与查询不相关。算法利用这些图像作为训练样本，训练一个二分类器来判定一幅图像是否与查询相关。然后他们利用图像分类概率作为图像的排序分数对图像进行重新排序。基于聚类的算法通过聚类来发掘与查询相关或不相关图像的一些潜在的模式，然后利用这些潜在模式进行重新排序。基于图模型的算法将图像集合构造成一个图，图的节点是每幅图像，节点之间的边衡量图像的相似性。然后利用一些链接分析技术来进行图像排序。

上述图像排序算法通常只考虑图像单模态，排序结果不尽人意。也有很多学者利用多模态进行图像排序。他们通常是将多模态特征先融合成一个单一特征，然后利用这个特征进行排序，或者是将多模态特征先单独用于排序，然后将排序结果融合，作为最后的排序结果。然而他们都忽略了一个事实：图像多模态特征只是一幅图像的在不同侧面的表示，它们的背后还是同一个对象。在对图像进行排序时，图像多模态特征之间会有相互作用，提升排序结果，因此图像多模态应该联合对待，不应该分开处理。

发明内容

本发明为克服上述现有技术的不足，将图像多模态看作是同一个对象的两个特征属性，提供一种多模态联合的图像重排序方法。该方法不仅对排序结果有很大提高，并且收敛速度快，适合实际检索系统的应用。

本方法在图像进行特征提取的基础上，构造一个多重图来表示图像间的关系。在多重图中两个节点之间允许有多条边。其中每个节点是一副图像，每两个节点之间有四条加权的边，衡量了图像多模态之间的相似性。之后利用随机游走算法计算每个节点的排序得分用于图像排序。为实现上述目的，本发明采用如下技术方案：

一种多模态联合的图像重排序方法，该方法的实现步骤如下：

Step1：对需要重新排序的图像，提取其可视特征及相关文本特征；

Step2：计算图像之间的模态内和模态间的相似度，并构建多重图；

Step3：将多重图退化为完全图；

Step4：在完全图上随机游走，计算图像排序得分；

Step5：根据随机游走得分，对图像重新排序。

所述step1中，提取图像文本特征的方法为：首先收集图像关联文本，利用线性判别分析方法LDA将这些文本聚成多个潜在主题，然后利用词袋Bag-of-Words的形式表示图像文本特征。

所述step2中，计算模态内相似度采用余弦cosine距离计算：

设s(v_i，v_j)表示图像i和j在图像可视特征上的相似度，s(t_i，t_j)表示图像i和j在图像文本特征上的相似度，则：

与图像关联的可视特征的相似性计算公式为：

s (v_{i}, v_{j}) = \frac{v_{i} \cdot v_{j}}{| v_{i} | \cdot | v_{j} |}

与图像关联的文本特征的相似性计算公式为：

s (t_{i}, t_{j}) = \frac{t_{i} \cdot t_{j}}{| t_{i} | \cdot | t_{j} |}

其中vi和vj分别是图像i和图像j的可视特征，ti和tj分别是图像i和图像j的文本特征。

所述step2中，构建多重图的过程如下：对于两幅图像，首先将每幅图像的可视特征及其文本特征作为一个点，那么多重图中两个点之间存在4条边，分别对两个点内的可视特征和文本特征两两之间的相似度进行度量，得到多重图。

所述step2中，计算模态间相似度的公式如下：

s(t_i，v_j)＝αc(t_i，v_i)s(v_i，v_j)+(1-α)c(t_j，v_j)s(t_i，t_j)s(v_i，t_j)＝αc(t_j，v_j)s(v_i，v_j)+(1-α)c(t_i，v_i)s(t_i，t_j)

其中，s(ti，vj)表示图像i的文本特征与图像j的可视特征之间的匹配程度，s(vi，tj)表示图像i的可视特征与图像j的文本特征之间的匹配程度，c(t_i v_i)表示图像i的一致性，c(t_i，v_i)表示图像j的一致性，α的范围为(0，1)，α的范围可根据可视特征和文本特征的重要度来调整其大小。

所述step3中，将多重图退化为完全图的过程如下：将每个点拆分为两个点，即可视特征点和文本特征点，在退化的完全图中，每两个点之间的边表示一个样本的可视或者文本特征和另外一个样本的文本或者可视特征的相似性。

所述step4中，在完全图中随机游走公式如下：

Pr(t+1)＝ω·W·Pr(t)+(1-ω)·P

其中Pr(t+1)表示第t+1次迭代中图中节点的排序得分，Pr(t)表示第t次迭代中图中节点的排序得分，P＝[P_t，P_v]是图节点的初始排序得分，P_t和P_v分别是所有ti和所有vi的初始排序分数，ω是一个平衡参数来平衡从邻居得到的信息和初始化信息之间的权重，ω的范围为(0，1)。

所述step5中，计算图像最后的排序得分，具体公式为：

Pr(d_i)＝γ·Pr_v(v_i)+(1-γ)·Pr_t(t_i)

其中，Pr(di)为图像i的最后排序得分，Pr_v(vi)和Pr_t(ti)分别表示图像i的可视特征和文本特征的随机游走后的得分，γ是对两者进行平衡的参数，γ的范围为(0，1)。

本发明的效果是：克服了现有图像排序算法中将图像多模态分离开考虑的问题，将图像多模态看作是图像不同侧面的表示，该方法不仅对排序结果有很大提高，并且收敛速度快，基本适合实际检索系统的应用。

附图说明

图1为本发明的结构示意图；

图2(a)为两个结点的多重图；

图2(b)为与图2(a)对应的完全图；

图2(c)为与图2(b)相对应的相似矩阵。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

如图1为本发明的算法流程图，下面结合该流程图，对方法实施以及具体细节做进一步说明：

一种多模态联合的图像重排序算法，具体步骤为：

(1)提出图像的可视特征和与之关联的文本特征。

(2)检索图像之间的模态内(单模态之间)和模态间(多模态之间)的相似度。并根据这些相似度来构建多重图。

(3)将多重图进行处理，使其退化为一个完全图。

(4)在完全图上进行随机游走，并计算图像排序得分。

(5)根据随机游走的得分情况，对图像进行重新排序，得到最终结果。

所述步骤(1)中，提取了图像的可视特征，对每幅图像d_i提取尺度不变特征转化描述子(SIFT descriptor)，提取的方式包括哈里斯-拉普拉斯(Harris-Laplace)角点检测和密集采样(本方法中采取每隔六个像素做一次采样)的方法。提取图像的SIFT描述子，然后利用K均值(K-Means)聚类算法将这些SIFT描述子聚类，利用词袋(Bag-of-Words)的形式表示图像可视特征v_i。对于图像文本特征，收集图像关联文本，利用线性判别分析(LDA)将这些文本聚成多个潜在主题，然后也计算其Bag-of-Words的表示作为图像文本特征t_i。

在所述步骤(2)中，采用余弦cosine距离计算模态内图像相似度s_tt和s_vv。s(v_i，v_j)表示图像i和j在图像可视特征这一模态上的相似度，其计算公式如公式(1)所示：

s (v_{i}, v_{j}) = \frac{v_{i} \cdot v_{j}}{| v_{i} | \cdot | v_{j} |} - - - (1)

其中v_i和v_j分别是图像i和图像j的可视特征。类似于公式(1)，与图像关联的文本特征的相似性计算方式为：

s (t_{i}, t_{j}) = \frac{t_{i} \cdot t_{j}}{| t_{i} | \cdot | t_{j} |} - - - (2)

其中t_i和t_j分别是图像i和图像j的文本特征。

假定不同模态间的相似度为s(v_i，t_j)和s(t_i，v_j)，它表示一副图像的文本描述与另一幅图像的可视特征之间的匹配程度。为此，s(t_i，v_j)定义为：

s(t_v，v_j)＝c(t_i，v_i)s(v_i，v_j)+c(t_j，v_j)s(t_i，t_j) (3)

其中c(t_i，v_i)表示图像i的一致性，图像的一致性是指图像相关文本与其内容的一致性，其具体定义在公式(6)中给出。

从公式(3)中可以看到图像模态间的相似性衡量是图像模态内相似性的加权和(图像本身的一致性做权重)。有时候可能更侧重于图像可视特征的相似性，因为文本特征通常含有很多噪声，因此，s(t_i，v_i)可以进一步定义为：

s(t_i，v_j)＝αc(t_i，v_i)s(v_i，v_j)+(1-α)c(t_j，v_j)s(t_i，t_j) (4)

s(v_i，t_j)类似的定义为：

s(v_i，t_j)＝αc(t_j，v_j)s(v_i，v_j)+(1-α)c(t_i，v_i)s(t_i，t_j) (5)

其中，α是平衡两者重要性的参数，在此基础上，构建的多重图如图2(a)所示。

在所述步骤(3)中，如图2(b)所示，多重图(图2(a))中的每个节点d_i退化为两个新的节点t_i和v_i。原来的四条边按照图1(b)所示重新连接，并且添加两条新边(图2(b)中的虚线表示的边)，权重分别是c(t_i，v_i)和c(t_j，v_j)，即图像的自一致性。这样原始的N个节点的多重图退化成了一个2*N节点的完全图，节点为V＝{t_i，v_i}，(i＝1..N)。退化的完全图的相似矩阵变成：

W = (\begin{matrix} S_{tt} & S_{tv} \\ S_{vt} & S_{vv} \end{matrix})

其中S_tt和S_vv是分别由s(t_i，t_j)和s(v_i，v_j)组成的模态内相似矩阵，S_tv和S_vt是分别由s(t_i，v_j)和s(v_i，t_j)组成的模态间相似矩阵(图2(c))。

假设每个节点t_i和v_i都有个排序分数pr(t_i)和pr(v_i)，Pr_t和Pr_v是他们组成的向量。理想情况下pr(t_i)和pr(v_i)应该相等，因为它们代表着同一副图像，但是由于图像的文本描述往往带有噪声，这两个值会有一定的差异，这个差异就是前面提到的图像自一致性c(t_i，v_i)，具体定义如公式(6)所示。

c (t_{i}, v_{i}) = e^{- δ {(pr (t_{i}) - pr (v_{i}))}^{2}} - - - (6)

其中δ是一个经验参数，在本方法中取1。

所述步骤(4)中，将图像排序问题建模成一个在退化的完全图上的随机游走过程：

Pr(t+1)＝ω·W·Pr(t)+(1-ω)·P (7)

其中Pr＝[Pr_t，Pr_v]表示图中节点的当前排序得分，Pr(t)表示第t次迭代中图中节点的排序得分，而Pr(t+1)则表示第t+1次迭代的得分，P＝[P_t，P_v]是图节点的初始排序得分，P_t和P_v分别是所有t_i和所有v_i的初始排序分数。W是完全图的相似矩阵，由于它依赖节点的排序得分，所以在整个随机游走过程中它是变化的，ω是一个平衡参数来平衡从邻居得到的信息和初始化信息之间的权重，本方法中从经验上设置为0.85。由于初始的搜索结果就是基于文本的，所以直接利用初始排序计算P_t：

p (t_{i}) = 1 - \frac{r}{N} - - - (8)

其中r是图像i的初始排序，N是图像的数目。为了简单起见，令P_t＝P_v。

所述步骤(5)中随机游走收敛时的Pr就是得到的完全图节点排序得分，之后将Pr_t和Pr_v加权融合，得到最终的图像排序得分，然后利用这个得分对图像进行重新排序。

pr(d_i)＝γ·pr_v(v_i)+(1-γ)·pr_t(t_i) (9)

其中，Pr(d_i)为图像i的最后排序得分，Pr_v(v_i)和Pr_t(t_i)分别表示该图像的可视特征和文本特征随机游走后的得分，γ是对两者进行平衡的参数，本方法中通过实验设置为0.85。

Claims

1.一种多模态联合的图像重排序方法，其特征是，该方法的实现步骤如下：

step1：对需要重新排序的图像，提取该图像的可视特征及相关图像文本特征；

step3：将多重图退化为完全图；

step4：在完全图上随机游走，计算图像排序得分；

step5：根据随机游走得分，对图像重新排序；

所述step2中，计算模态内相似度采用余弦cosine距离计算：

设s(v_i,v_j)表示图像i和j在图像可视特征上的相似度，s(t_i，t_j)表示图像i和j在图像文本特征上的相似度，则：

与图像关联的可视特征的相似性计算公式为：

s (v_{i}, v_{j}) = \frac{v_{i} \cdot v_{j}}{| v_{i} | \cdot | v_{j} |}

与图像关联的文本特征的相似性计算公式为：

s (t_{i}, t_{j}) = \frac{t_{i} \cdot t_{j}}{| t_{i} | \cdot | t_{j} |}

其中v_i和v_j分别是图像i和图像j的可视特征，t_i和t_j分别是图像i和图像j的文本特征；

所述step2中，计算模态间相似度的公式如下：

s(t_i,v_j)＝αc(t_i,v_i)s(v_i,v_j)+(1-α)c(t_j,v_j)s(t_i,t_j)

s(v_i,t_j)＝αc(t_j,v_j)s(v_i,v_j)+(1-α)c(t_i,v_i)s(t_i,t_j)

其中，s(t_i，v_j)表示图像i的文本特征与图像j的可视特征之间的匹配程度，s(v_i，t_j)表示图像i的可视特征与图像j的文本特征之间的匹配程度，c(t_i，v_i)表示图像i的一致性，c(t_j,v_j)表示图像j的一致性，α的范围为(0,1)，α的范围能够根据可视特征和文本特征的重要度来调整其大小；

所述step2中，构建多重图的过程如下：对于两幅图像，首先将每幅图像的可视特征及其文本特征作为一个点，那么多重图中两个点之间存在4条边，分别对两个点内的可视特征和文本特征两两之间的相似度进行度量，得到多重图；

所述step3中，将多重图退化为完全图的过程如下：将每个点拆分为两个点，即可视特征点和文本特征点，在退化的完全图中，每两个点之间的边表示一个样本的可视或者文本特征和另外一个样本的文本或者可视特征的相似性；

所述step4中，在完全图中随机游走公式如下：

Pr(t+1)＝ω·W·Pr(t)+(1-ω)·P

其中Pr(t+1)表示第t+1次迭代中图中节点的排序得分，Pr(t)表示第t次迭代中图中节点的排序得分，P=[P_t,P_v]是图节点的初始排序得分，P_t和P_v分别是所有t_i和所有v_i的初始排序分数，W是完全图的相似矩阵，ω是一个平衡参数来平衡从邻居得到的信息和初始化信息之间的权重，ω的范围为(0,1)；

所述step5中，计算图像最后的排序得分，具体公式为：

Pr(d_i)＝γ·Pr_v(v_i)+(1-γ)·Pr_t(t_i)，

其中，Pr(d_i)为图像i的最后排序得分，Pr_v(v_i)和Pr_t(t_i)分别表示图像i的可视特征和文本特征的随机游走后的得分，γ是对两者进行平衡的参数，γ的范围为(0,1)。

2.如权利要求1所述的一种多模态联合的图像重排序方法，其特征是，所述step1中，提取相关图像文本特征的方法为：首先收集图像关联文本，利用线性判别分析方法LDA将这些文本聚成多个潜在主题，然后利用词袋Bag-of-Words的形式表示图像文本特征。