CN103778227B

CN103778227B - 从检索图像中筛选有用图像的方法

Info

Publication number: CN103778227B
Application number: CN201410032416.1A
Authority: CN
Inventors: 邓成; 王东旭; 杨延华; 王嘉龙; 李洁; 高新波
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2016-11-02
Anticipated expiration: 2034-01-23
Also published as: CN103778227A

Abstract

本发明公开了一种从检索图像中筛选有用图像的方法，主要用于解决当前图像检索排序结果准确率低的问题。其主要实现步骤为：(1)提取数据库图像视觉词袋特征和语义属性特征；(2)离线训练学习视觉词袋特征和语义属性的映射字典；(3)根据用户给出待搜索图像，检索得到初始图像排序列表；(4)根据用户给出待搜索图像，分析视觉单词语义重要性；(5)根据用户给出待搜索图像，分析视觉单词上下文重要性；(6)结合视觉单词的语义和上下文重要性，重新计算待排序图像相关性分数，完成对初始结果的重新排序，以供用户筛选出有用的相关图像。本发明明显提高最终图像检索的准确率，可用于图像检索。

Description

从检索图像中筛选有用图像的方法

技术领域

本发明属于信息检索技术领域，具体的说是一种从检索图像中筛选有用图像的方法，该方法可用于改善互联网上图像检索结果的准确率。

背景技术

随着互联网技术的快速发展，Flicker，人人网，Facebook，新浪微博等基于web2.0环境的社交媒体日益兴起，这就使得图像、视频等海量多媒体数据的共享成为可能。现在互联网上每时每刻，都有大量的图像、视频上传。与此同时，人们越来越习惯在互联网上进行图像、文字等各种信息的搜索查询。在此背景下，如何实现符合用户搜索意图的高效图像搜索就变得非常重要。当前互联网背景下，诸如Google、Baidu、Bing等商用搜索引擎都在致力于开发更加智能的能符合用户搜索意图的图像搜索系统。传统的图像搜索主要以用户输入的文本关键字作为查询，搜索引擎根据离线建好的语料库对用户输入的关键字进行扩展，构建用户查询的文本特征，搜索时，主要根据图像所在网页中的标签文字，例如图像文件名，图像标注标签，网页URL等，构建图像的文本特征，根据用户的查询文本特征和图像的文本特征计算相似度，以此返回给用户图像搜索的结果。由于当前互联网基于文本的搜索技术已经相当成熟，基于文本特征的图像搜索可以很方便实现，然而，问题在于图像周围的文字标签很可能和图像的视觉内容并不相一致。另一方面，随着当前互联网不断地往社交性、商业性上发展，近些年，直接以图像作为查询的以图搜图系统得到很多用户的青睐。当前的直接以图像作为查询的搜索技术主要利用图像的底层视觉特征来进行相似性的计算，然而，由于图像的低层视觉特征和高层的语义概念之间存在语义鸿沟，低层视觉特征相似的图像并不一定意味着图像之间拥有着相似的语义内容。这样，无论以文本作为查询还是直接以图像作为查询，搜索引擎对于图像的直接搜索结果常常很难令人满意。

在此背景下，结合图像内容对初始搜索结果重新排序就成为了一项非常重要的工作。随着图像搜索技术的不断发展，目前已经提出了很多图像重排序方法。经典的方法包括聚类，分类等技术，将图像的排序问题转变成经典的半监督学习问题，以实现噪音图像的过滤。基于机器学习的方法根据初始的搜索结果去自主的学习用户的搜索意图，以此来改善最终图像搜索的结果。结合当前图像重排序技术，当前的图像搜索结果性能已经得到相当大程度的提高。然而，传统的经典图像重排序技术往往没有考虑图像的语义内容信息。图像语义鸿沟的问题还是没有很好的得到解决。目前的研究趋势正是如何结合图像的语义内容信息，针对图像的语义鸿沟问题研究算法以实现更高性能的图像重排序。

尽管现今基于多特征融合的图像重排序方法可以在一定程度上改善图像搜索排序结果的准确率，但是本质的问题依然存在。一方面，基于伪相关反馈策略选择的标注样例不一定总是正确的。另一方面，在图像的视觉一致性上，挖掘每一个标注样本的每一个视觉元素并不能很好地反映用户的查询目的。这些问题将详述如下：

基于伪相关反馈策略，一个基本的假设是初始排在最前面的样本往往是和查询相关的，因此可以被作为学习排序函数的正样例。然而，实际中一些与查询无关的图像也会在初始排序结果中排在靠前的位置，从而影响挑选的正样本的纯度。另一方面，不止要求用户标注正样本不仅效率低下，而且在实际系统中令人无法接受。即使排在初始结果前面的样本可以被准确的标记，实际中也无法保证可以获得足够多数量的正样本。因此，有选择的对待噪音样本方法就很有必要。比如文献W.Liu,Y.Jiang,J.Luo,andS.-F.Chang,“Noise resistant graph ranking for improved web image search,”in Proc.IEEEInt.Conf.Comput.Vis.Pattern Recognit.,2011,pp.849–856.利用一些排在初始结果前面的图像做为伪标记样本，进一步通过正则化图拉普拉斯算子选择一部分特征基来过滤噪声样本。

视觉一致性方面，在传统定义下，彼此相似的图像应该被排列在最终排序结果前面的位置。这一策略的缺陷在于如果两幅图像缺乏足够的相似性，判断两幅图像是否和查询相关就会变的相当困难。另一方面，纯粹图像级别的监督算法并不能很好的捕获标注样本的语义信息，很多情况下，用户很难通过文本关键字描述其查询意图的语义内容。

发明内容

本发明的目的在于提出一种从检索图像中筛选有用图像的方法，以解决现有排序过程中噪音样本影响排序准确度的问题，以及因缺乏视觉上的一致性而造成无法关联两幅图像的问题，提高初排序中正样本的纯净度，增强图像之间的查询相关性，更准确地获取符合用户意图的图像。

实现本发明目的技术方案是：采用用户查询图像之间的相关性的方法来编码图像间的相似性，利用图像的底层视觉特征和高层语义属性的联合，最终通过重排序能够更精确的获取对用户有用的图像，具体步骤包括如下：

(1)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义字典：

(1a)对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征；

(1b)通过离线训练学习，针对2659种基本语义属性，分别训练2659种语义属性的分类器，在做图像搜索时，对每幅图像用这2659种分类器做预测，将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征，每一维对应一种特定的语义属性；

(1c)用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围，视作语义概率分布，把数据库中所用图像的集合用T={1，2，...i...n}表示，n表示数据库中图片的数量大小，i表示数据库中的任意一幅图片，分别提取第i幅图像的视觉词袋词频特征Vⁱ和语义属性的概率分布Aⁱ：

Vⁱ={p⁽ⁱ⁾(v₁),p⁽ⁱ⁾(v₂),...p⁽ⁱ⁾(v_j),...p⁽ⁱ⁾(v_k)},

Aⁱ={p⁽ⁱ⁾(a₁),p⁽ⁱ⁾(a₂),...p⁽ⁱ⁾(a_j)....p⁽ⁱ⁾(a_n)}

其中，v_j代表一个视觉单词，p⁽ⁱ⁾(v_j)为第i幅图像在v_j这个视觉单词的概率分布值，k表示视觉词袋词频特征的维数，a_j代表一种语义属性，p⁽ⁱ⁾(a_j)为第i幅图像在a_j这个语义属性的概率分布值，n表示语义属性的维数；

(1d)用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典D；

(2)初始图像检索排序：

(2a)根据视觉词袋词频特征Vⁱ，利用下式计算两幅图像之间的相似性距离F(t)：

F (t) = sim (i, j) = \frac{Σp (v_{k} | i) * p (v_{k} | j)}{{| | X}_{i} {| |}_{2} * {| | X}_{j} {| |}_{2}}

其中，i和j分别为数据库中的两幅图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的BOW特征的2范数，||X_j||₂是第j幅图像的BOW特征的2范数；

(2b)利用步骤(2a)计算数据库中所有图像与查询图像之间的相似性距离，并按照相似性距离从小到大的顺序对所有图像进行排序，得到所有图像的初始排序结果；

(3)根据初始排序结果进行相关性计算：

(3a)查询图像的语义近邻图构成查询扩展集合，对扩展集合里所有图像的语义属性概率分布求平均，得到查询相关能反映用户搜索意图的语义属性概率分布Q_avg：

Q_{avg} = \frac{1}{num} Σ_{i = 1}^{num} f (A^{i})

其中，num是查询扩展集合中图像的个数，Aⁱ是第i副图像的语义属性特征的概率分布，f是对应的sigmoid映射函数；

(3b)根据视觉语义映射字典D和语义属性概率分布Q_avg，计算视觉单词的查询相关语义权重w₁：

w₁=D×Q_avg

(3c)将视觉单词之间的上下文关系表示为如下矩阵：

A = [\begin{matrix} a_{11} . . . a_{1 n} . . . . a_{1 M} \\ . . . \\ a_{m 1} . . . a_{mn} . . . {. a}_{mM} \\ . . . . \\ a_{M 1} . . . a_{Mm} . . . {. a}_{MM} \end{matrix}]

其中，i表示数据库中的一幅图像，U表示初始搜索结果的前U幅图，v_m，v_n为视觉词袋词汇中的两个单词，p(v_m|i)是第i幅图像对应的视觉单词中v_i出现的词频，p(i|v_n)表示单词是v_i的情况下对应第i幅图的概率；

(3d)根据上下文关系矩阵A，按照公式w₂ ^t+1=(1-α)P+αA^Tw₂ ^t进行多次迭代，w₂ ^t代表第t次迭代得到视觉单词上下文权重向量，当两次迭代结果w₂ ^t+1与w₂ ^t之间的差值小于0.001时，迭代停止，此时，得到最终的所有视觉单词的上下文重要性的权重向量表示为w₂，α是在0-1之间的一个参数，P=(1/k,......1/k)，k为视觉词袋特征的维数，A^T为上下文关系矩阵A的转置。

(3e)根据查询相关语义权重w₁和上下文重要性权重w₂，计算视觉单词权重向量R：

R=βw₁+(1-β)w₂

(4)根据视觉单词权重R，重新计算数据库中每一幅图像的排序分数F(s)：

F (s) = \frac{Σp (v_{k} | i) * p (v_{k} | j) * e^{R_{s}}}{{| | X}_{i} {| |}_{2} * {| | X}_{j} {| |}_{2}}

其中，其中，i和j分别为数据库中的两幅图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的BOW特征的2范数，||X_j||₂是第j幅图像的BOW特征的2范数，R_s为视觉单词权重向量中第s个词汇的权重，R_s为视觉单词权重向量中第s个词汇的权重。

(5)根据得到的每幅图像的排序分数，按照排序分数从大到小的顺序，对数据库中每幅图像做重新排序,用户根据排序分数越大，与查询图像越相关的属性，更准确的筛选出所需要的图像。

本发明的主要创新点有以下几点：

1）本发明结合了低层视觉特征和高层语义属性之间关系，减小了特征匹配中的语义鸿沟问题。

2）本发明利用挖掘初始检索结果中查询图像的语义互近邻，对查询图像做扩展，弥补了伪相关反馈中负样本的问题，有效提高了查询扩展集合的纯度。

3）本发明通过图像初始的搜索结果，挖掘用户的搜索意图，分别从视觉语义映射关系和视觉单词上下文关系角度去对用户搜索的查询相关性进行分析，提出了一种结合用户查询图像特点自适应的图像重排序方法，使得用户能够更准确地找到相关的图像。

附图说明

图1是本发明的实现步骤示意图。

具体实施方式

参照图1，本发明的实现步骤如下：

一.根据视觉词袋词频特征BOW的概率分布和语义属性的概率分布生成视觉语义字典。

步骤1：对数据库中的初始搜索结果图像分别提取8192维视觉词袋词频特征。

步骤2：通过离线训练学习，针对2659种基本语义属性，分别训练2659种语义属性的分类器，在做图像搜索时，对每幅图像用这2659种分类器做预测，将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征，每一维对应一种特定的语义属性。

步骤3：用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围，视作语义概率分布，把数据库中所用图像的集合用T={1，2，...i...n}表示，n表示数据库中图片的数量大小，分别提取第i幅图像的视觉词袋词频特征Vⁱ和语义属性的概率分布Aⁱ：

Vⁱ={p⁽ⁱ⁾(v₁),p⁽ⁱ⁾(v₂),...p⁽ⁱ⁾(v_j),...p⁽ⁱ⁾(v_k)},

Aⁱ={p⁽ⁱ⁾(a₁),p⁽ⁱ⁾(a₂),...p⁽ⁱ⁾(a_j)....p⁽ⁱ⁾(a_n)}

其中，v_j代表一个视觉单词，p⁽ⁱ⁾(v_j)为第i幅图像在v_j这个视觉单词的概率分布值，k表示视觉词袋词频特征的维数，a_j代表一种语义属性，p⁽ⁱ⁾(a_j)为第i幅图像在a_j这个语义属性的概率分布值，n表示语义属性的维数。

步骤4：用BOW的概率分布和语义属性的概率分布生成视觉语义映射字典。

4.1)用每一个视觉单字和每一种语义属性的关联性来表示映射值，根据每一幅图像的词袋词频概率特征矩阵B和每一幅图像的语义属性概率分布A，构建语义映射字典D的目标函数为：

\min_{D} \frac{1}{2} {| | B_{d \times k} - D_{d \times n} A_{n \times k} | |}_{2}

\begin{matrix} s . t & Σ_{i} D_{i, j}^{2} \leq 1, &ForAll; 1,2, . . . . . . . . n . \end{matrix}

其中，||B-DA||₂为B-DA的2范数。，d表示BOW特征的维数，k表示数据库中图像的个数，n表示语义属性的维数。

在字典学习中，一副图像中一个视觉单词出现的概率可以近似由这副图像每一个语义属性出现概率的线性组合来近似表示。视觉语义映射字典就是一组基，而语义属性概率分布则是对应基下的坐标。这样字典重构问题就是已知坐标，求解对应基的问题；

4.2)通过拉格朗日对偶的方法对上述目标函数进行优化，求解视觉语义映射字典D：

4.2a）引入拉格朗日约束：

L (D, \overset{&RightArrow;}{λ}) = trace ({(B - DA)}^{T} (B - DA)) + Σ_{j = 1}^{n} λ_{j} (Σ_{i = 1}^{d} D_{i, j}^{2} - 1),

其中，λ_j≥0是一个对偶变量，此式的目的是寻求使目标函数最小化的D;

4.2b）用如下公式表示拉格朗日对偶算子：

F (λ) = \min_{D} L (D, \overset{&RightArrow;}{λ}) = trace (B^{T} B - {BA}^{T} {({AA}^{T} + Λ)}^{- 1} {({BA}^{T})}^{T} - Λ),

其中A^T为语义属性的概率分布A的转置矩阵，λ为拉格朗日对偶方法的优化算子，（AA^T+Λ）^-1为（AA^T+Λ）的逆矩阵，（BA^T）^T为BA^T的转置矩阵;

4.2c)计算F(λ)的梯度和HessianH矩阵每一个元素

\frac{&PartialD; F (\overset{&RightArrow;}{λ})}{&PartialD; λ_{i}} = {| | {BA}^{T} {({AA}^{T} + Λ)}^{- 1} e_{i} | |}^{2} - 1

\frac{{&PartialD;}^{2} F (\overset{&RightArrow;}{λ})}{&PartialD; λ_{i} λ_{j}} = - 2 {({({AA}^{T} + Λ)}^{- 1} {({BA}^{T})}^{T} {BA}^{T} {({AA}^{T} + Λ)}^{- 1})}_{i, j} ({AA}^{T} + Λ))^{- 1})_{i, j}

其中，e_i∈Rⁿ是第i个单位向量，代表Hessian矩阵第(i,j)个元素；

4.2d)根据上一步骤得到的F(λ)的梯度和Hessian矩阵，采用经典的牛顿共轭梯度法计算最优拉格朗日参数λ的值，并将计算结果带回到拉格朗日约束中，用经典梯度下降的方法得到最优的视觉映射字典D：

D=(D^T)^T

D^T=（AA^T+Λ）^-1（BA^T）^T，

其中，A^T为语义属性的概率分布A的转置矩阵，D^T为视觉语义映射字典D的转置，(D^T)^T为D^T的转置，（AA^T+Λ）^-1为（AA^T+Λ）的逆矩阵，（BA^T）^T为BA^T的转置矩阵。

二.初始图像检索排序

步骤5：在线搜索阶段，用户给出待搜索的查询图像，提取查询图像的视觉词袋特征。

步骤6：提取数据库中每幅待排序图像的视觉词袋特征，计算每幅待排序图像的初始排序分数F(t)：

F (t) = sim (i, j) = \frac{Σ_{k} p (v_{k} | i) * p (v_{k} | j)}{{| | X}_{i} {| |}_{2} * {| | X}_{j} {| |}_{2}},

其中，i和j分别代表数据库中的两幅不同图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的视觉词袋特征的2范数，||X_j||₂是第j幅图像的视觉词袋特征的2范数。

步骤7，将得到的每幅待搜索排序图像的初始排序分数从大到小排序，得到初始的检索排序列表。

三.视觉单词相关性分析

步骤8：视觉单词语义相关性分析

8.1)查找用户给出的待搜索图像的互近邻图像集合，将其构成待搜索图像的扩展集合：

8.1a)将初始的检索排序列表的前m张图像作为目标集，将目标集中的每幅图像做为查询在目标集里做搜索，将每次搜索结果的前k幅结果作为对应图像的k近邻集合；

8.1b)查找待搜索图像的互近邻图像集合G，对R中每幅图像i∈G，需要满足以下条件：

q∈N_k(i)

i∈N_k(q)

此处，q代表用户给出的待搜索图像，N_k(i)表示目标集中每一幅图像i所有k近邻图像构成的集合，N_k(q)代表用户给出的待搜索图像所有k近邻图像构成的集合；

8.2)计算能反映用户搜索意图的语义属性概率分布Q_avg：

Q_{avg} = \frac{1}{num} Σ_{i = 1}^{num} f (A^{i})

其中，num是待搜索图像的扩展集合中图像的个数，Aⁱ是第i副图像的语义属性特征，为对应的sigmoid映射函数，f(Aⁱ)是映射后的第i副图像的语义属性概率分布；

8.3)根据离线学习得到的视觉语义映射字典D_d×n和能反映用户搜索意图的语义属性概率分布Q_avg，计算视觉单词的语义相关性权重：

w_{1} = D_{d \times n} \times Q_{{avg}_{n \times 1}} .

步骤9：对视觉单词进行上下文相关性分析，即将视觉单词之间的上下文关系表示为如下矩阵：

A = [\begin{matrix} a_{11} . . . a_{1 n} . . . . a_{1 M} \\ . . . \\ a_{m 1} . . . a_{mn} . . . {. a}_{mM} \\ . . . . \\ a_{M 1} . . . a_{Mm} . . . {. a}_{MM} \end{matrix}],

其中，代表视觉单词v_m和v_n的上下文关系，i表示数据库中第i幅图像图像，U表示初始搜索结果的前U幅图，p(v_m|i)是第i幅图像对应的视觉单词中v_i出现的词频，p(i||v_n)表示单词是v_i情况下对应的第i幅图概率。

步骤10：根据上下文关系矩阵A，按照公式w₂ ^t+1=(1-α)P+αA^Tw₂ ^t进行多次迭代，w₂ ^t代表第t次迭代得到视觉单词上下文权重向量，当两次迭代结果w₂ ^t+1与w₂ ^t之间的差值小于0.001时，迭代停止，此时，得到最终的所有视觉单词的上下文重要性的权重向量表示为w₂，α是在0-1之间的一个参数，本发明中取值为0.85，P=(1/k,......1/k)，代表每个视觉单词初始重要性，k为视觉词袋特征的维数，A^T为上下文关系矩阵A的转置。

步骤11：根据视觉单词语义相关性权重向量w₁和上下文权重向量w₂，计算视觉单词最终的权重向量R：

R=βw₁+（1-β）w₂

β代表融合系数，本发明中取值为0.3。

四.图像重排序：

步骤12：根据视觉单词权重向量R，重新计算数据库中每幅待排序图像的相关性分数：

F (s) = \frac{Σ_{k} p (v_{k} | i) * p (v_{k} | j) * e^{R_{s}}}{{| | X}_{i} {| |}_{2} * {| | X}_{j} {| |}_{2}},

其中，i和j分别为数据库中的两幅不同图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的视觉词袋特征的2范数，||X_j||₂是第j幅图像的视觉词袋特征的2范数，R_s为视觉单词权重向量中第s个词汇的权重。

步骤13：根据得到的每幅待排序图像的排序分数，按照排序分数从大到小的顺序，对数据库中每幅待排序图像做重新排序,用户根据排序分数越大，与查询图像越相关的属性，更准确的筛选出所需要的图像。

本发明的优点可通过以下仿真实验进一步说明。

本发明在Intral Holiday、Oxford 5k、Paris 3个公用图像检索数据库上进行实验，并依据客观评估平均查全率MAP做为搜索排序结果准确率的指标：

MAP = \frac{1}{k} Σ_{k} {AP}_{k}

{AP}_{k} = \frac{1}{num} Σ_{i} recall (i) * pre (i),

式中，AP_k代表第k检索排序的准确率，pre(i)是得到排序列表中前i副图像中相关图像所占的比例。recall(i)是到排序列表中前I副图像中相关图像占搜索结果中所有图像中相关图像个数的比例。

MAP代表所有检索排序列表AP_k的平均值，MAP值越高，说明图像检索排序结果中的相关图像的个数越多，同时排名越靠前，检索排序的结果越好。

实验分别采用本发明方法和现有的视觉随机游走和伪相关性反馈的方法两种图像检索排序方法分别在三个数据库上做50次检索，总共用到的待检索图像有150张，对待检索图像中的每一幅。

分别对所有数据库中待排序的图像进行相关性排序，计算每一个数据库上所有50次检索排序列表中前200副图像的平均查全率MAP，得到对比结果如表1：

表1 不同数据库排序平均查准率比较

数据集	Holiday	Oxford 5k	Paris
				本发明方法	0.843	0.536	0.7092
视觉随机游走	0.8247	0.5263	0.6544
				伪相关性反馈	0.8143	0.5079	0.6393

从表1可以看出，本发明方法对图像检索排序的结果优于现有方法，其原因如下：

1)本发明考虑了图像的语义属性信息，计算相关性分数考虑了每一个视觉单词的语义重要性；

2)本发明从统计角度考虑了视觉单词之间的上下文关系，计算相关性分数是考虑了每一个视觉单词的上下文重要性。

综上，本发明提高了最终图像检索排序结果的准确率。

Claims

1.一种从检索图像中筛选有用图像的方法，包括如下步骤：

(1)根据视觉词袋词频特征BOW和语义属性的概率分布生成视觉语义映射字典：

(1b)通过离线训练学习，针对2659种基本语义属性，分别训练2659种基本语义属性的分类器，在做图像搜索时，对每幅图像用这2659种分类器做预测，将每一幅图像对应于2659维特征得到的预测分数向量作为图像的属性特征，每一维对应一种特定的语义属性；

(1c)用映射函数sigmoid将训练图像的语义属性特征映射到0-1范围，视作语义概率分布，把数据库中所有图像的集合用T＝{1，2，...i...h}表示，h表示数据库中图片的数量大小，i表示数据库中的任意一幅图片，分别提取第i幅图像的视觉词袋词频特征Vⁱ和语义属性的概率分布Aⁱ：

Vⁱ＝{p⁽ⁱ⁾(v₁),p⁽ⁱ⁾(v₂),...p⁽ⁱ⁾(v_j),...p⁽ⁱ⁾(v_k)},

Aⁱ＝{p⁽ⁱ⁾(a₁),p⁽ⁱ⁾(a₂),...p⁽ⁱ⁾(a_j)....p⁽ⁱ⁾(a_n)}

(2)初始图像检索排序：

F (t) = s i m (i, j) = \frac{Σ p (v_{k} | i) * p (v_{k} | j)}{| | X_{i} | |_{2} * | | X_{j} | |_{2}}

其中，i和j分别为数据库中的两幅图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的视觉词袋特征的2范数，||X_j||₂是第j幅图像的视觉词袋特征的2范数；

(3)根据初始排序结果进行相关性计算：

Q_{a v g} = \frac{1}{n u m} Σ_{i = 1}^{n u m} f (A^{i})

其中，num是查询扩展集合中图像的个数，Aⁱ是第i幅图像的语义属性特征的概率分布，f是对应的sigmoid映射函数；

(3b)根据视觉语义映射字典D和查询相关能反映用户搜索意图的语义属性概率分布Q_avg，计算视觉单词的查询相关语义权重w₁：

w₁＝D×Q_avg

(3c)将视觉单词之间的上下文关系表示为如下矩阵：

A^{'} = [\begin{matrix} a_{11} ... a_{1 n} .... a_{1 M} \\ ... \\ a_{m 1} ... a_{m n} .... a_{m M} \\ .... \\ a_{M 1} ... a_{M m} .... a_{M M} \end{matrix}]

其中，i表示数据库中的一幅图像，U表示初始搜索结果的前U幅图，v_m，v_n为视觉词袋词汇中的两个单词，p(v_m|i)是第i幅图像对应的视觉单词中v_m出现的词频，p(i|v_n)表示单词是v_n的情况下对应第i幅图的概率；

(3d)根据上下文关系矩阵A'，按照公式w₂ ^t+1＝(1-α)P+αA'^T w₂ ^t进行多次迭代，直到w₂ ^t+1与w₂ ^t之间的差值小于0.001时，迭代停止，得到w₂的第t次迭代结果w₂ ^t，w₂ ^t作为符合条件的视觉单词中上下文重要性权重，其中，w₂表示所有视觉单词中上下文重要性的权重向量，α是在0‐1之间的一个参数，取值为0.85，P＝(1/k,......1/k)，k为视觉词袋词频特征的维数，A'^T为上下文关系矩阵A'的转置；

R＝βw₁+(1-β)w₂，

其中β为融合系数，取值为0.3；

(4)根据视觉单词权重向量R，重新计算数据库中每一幅图像的排序分数F(s)：

F (s) = \frac{Σ p (v_{k} | i) * p (v_{k} | j) * e^{R_{s}}}{| | X_{i} | |_{2} * | | X_{j} | |_{2}}

其中，i和j分别为数据库中的两幅图像，p(v_k|i)是第i幅图像对应的视觉单词中v_k出现的词频，p(v_k|j)是第j幅图像对应的视觉单词中v_k出现的词频，||X_i||₂是第i幅图像的视觉词袋特征的2范数，||X_j||₂是第j幅图像的视觉词袋特征的2范数，R_s为视觉单词权重向量中第s个词汇的权重；

2.根据权利要求1所述的从检索图像中筛选有用图像的方法，其中步骤(1d)所述的生成视觉语义映射字典D，按如下步骤进行：

(1d1)用每一个视觉单词和每一种语义属性的关联性来表示映射值，根据每一幅图像的词袋词频概率特征矩阵B和每一幅图像的语义属性概率分布A，构建语义映射字典D的目标函数为：

\min_{D} \frac{1}{2} | | B - D A | |_{2}

s.t ∑D²≤1

其中，||B-DA||₂为B-DA的2范数；

(1d2)通过拉格朗日对偶的方法对上述目标函数进行优化，得到视觉语义映射字典D：

D＝(D^T)^T

D^T＝(AA^T+Λ)^-1(BA^T)^T，

Λ = d i a g (\overset{&RightArrow;}{λ}),

其中，A^T为语义属性的概率分布A的转置矩阵，D^T为视觉语义映射字典D的转置，(D^T)^T为D^T的转置，λ为拉格朗日对偶方法的优化参数，(AA^T+Λ)^-1为(AA^T+Λ)的逆矩阵，(BA^T)^T为BA^T的转置矩阵。