CN102262642A

CN102262642A - 一种Web图像搜索引擎及其实现方法

Info

Publication number: CN102262642A
Application number: CN2011100304713A
Authority: CN
Inventors: 刘峡壁; 万玉钗; 杨阿丽; 陈云鹏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2011-01-28
Filing date: 2011-01-28
Publication date: 2011-11-30
Anticipated expiration: 2031-01-28
Also published as: CN102262642B

Abstract

本发明提供一种图像搜索方法。该方法包括：用户用关键词进行图像搜索，其中，所述关键词表示图像的待检索语义；在搜索到的图像集合中，通过判别学习得到与所述待检索语义相对应的分类器；利用所述分类器来计算所述图像集合中每幅图像与所述待检索语义之间的相关度；以及，按照所述相关度对所述图像集合进行排序，并且将排序后的图像集合返回给用户。实验结果表明，通过使用本发明方法可以有效改善基于文本的图像检索效果。

Description

一种Web图像搜索引擎及其实现方法

技术领域

本发明涉及一种Web检索，尤其涉及一种Web图像搜索引擎及其实现方法。

背景技术

随着网络技术和图像处理技术的发展，在互联网上积累了海量的数字图像，并且其数量还在高速增长。例如，在线照片分享网站www.flickr.com仅运作了4年，便达到每月4千万人的访问量，总共已上传20亿张图片，平均每天上传几百万张。人们迫切需要利用有效的自动图像检索技术来帮助他们从巨大的、实时扩展变化的网络图像数据库中快速准确地获取所需信息。

已有图像检索方法可分为基于文本的图像检索(Text Based ImageRetrieval，TBIR)和基于内容的图像检索(Content Based ImageRetrieval，CBIR)两大类。基于文本的图像检索方法利用人工标注的图像概念或图像所在网页中的文本信息来实现图像的关键词检索。基于内容的图像检索方法则利用图像视觉信息来理解图像高层语义，进而实现图例或关键词检索。基于文本的图像检索方法相对比较成熟，是目前主流Web图像搜索引擎所采用的技术。相对而言，TBIR仅仅根据外部文本信息来索引和检索图像，没有有效利用图像本身的视觉特性。因此，对于TBI R技术来说，目前Web图像搜索引擎返回结果并不理想。为了得到更好的检索效果，需要在TBIR中引入CBIR技术。但是，单纯依靠视觉信息实现图像语义理解也存在一定的困难，主要在于以下两方面。一者，目前在一般概念图像识别问题上还没有找到足够理想的方法，实用性不足；二者，有些语义难以通过视觉特征表达，比如打破纪录的时刻之类的抽象概念。综合上述两方面的因素，通过将图像视觉内容与文本描述信息相融合来提高图像检索效果是较为可行的解决途径。

发明内容

本发明的目的在于提出一种改进的图像搜索方法，将图像视觉内容与文本描述信息相融合来提高图像检索效果。

为此，本发明提供一种图像搜索方法，包括：用户用关键词进行图像搜索，其中，所述关键词表示图像的待检索语义；在搜索到的图像集合中，得到与所述待检索语义相对应的分类器；利用所述分类器来计算所述图像集合中每幅图像与所述待检索语义之间的相关度；以及，按照所述相关度对所述图像集合进行排序，并且将排序后的图像集合返回给用户。

针对诸如Google的图像搜索引擎，对本发明提出的方法进行了实验。实验结果表明通过使用本发明方法，可以有效改善基于文本的图像检索效果。

附图说明

本发明的示例性实施例将从下文中给出的详细说明和本发明不同实施例的附图中被更完全地理解，然而这不应该被视为将本发明限制于具体的实施例，而应该只是为了解释和理解。

图1是根据本发明的一个实施方案的流程图；

图2是根据本发明的一个实施方案的流程图；

图3(a)-(e)是不同高斯成分个数下三种自动改进方法与原始Google方法在检索准确率上的比较的示意图；

图4是采用原始Google方法得到的图像检索结果；

图5是采用本发明的自动改进方法所得到的图像检索结果；

图6是在不同高斯成分个数下，三种反馈改进方法与原始Google方法在检索准确率上的比较的示意图；

图7和图8分别显示了当输入关键词“北京公交线路图”后，Google返回的前10幅图像以及在4个高斯成分下，第一种反馈改进模式得到的前10幅图像。

具体实施方式

本领域的普通技术人员将意识到，所述示例性实施例的下述详细说明仅仅是说明性的，并且不是意在以任何方式加以限制。其他实施例将容易地呈现给受益于本公开的这类技术人员。现在，将详细地参考如若干附图中所示的示例性实施例的实施。遍及附图并且在后面的详细说明中将使用相同的附图标记来指出相同或类似的部分。

本发明提出了一种根据图像内容对图像搜索引擎返回结果进行改进的方法。将用户输入的待检索关键词作为一种语义类别，从图像搜索引擎返回的图像集合中选择待检索语义对应的正、反样本，采用诸如判别学习方法得到区分相关与不相关图像的分类器。利用该分类器，计算图像与待检索语义之间的相关度，按照相关度对图像进行重新排序，以提高检索准确率。

1.图像相关性度量

本发明采用基于后验伪概率的统计分类器来计算图像与用户输入的待检索语义之间的相关度，其中，后验伪概率是对后验概率的模拟。设x为图像特征矢量，ω表示待检索语义，则后验伪概率计算公式如下：

f(p(x|ω))＝1-exp(-λp^μ(x|ω))，(1)

其中，p(x|ω)为类条件概率密度，λ和μ为两个正系数。由公式(1)可知，后验伪概率正比于类条件概率密度p(x|ω)，且值域为[0，1]，因此适于度量图像与待检索语义之间的相关度。

在应用公式(1)之前，需要首先确定图像特征矢量以及类条件概率密度函数p(x|ω)的形式。可以提取图像的颜色特征、纹理特征、形状特征、局部特征中的一个或一些作为图像特征矢量，来描述图像内容。在一个实施例中，可以提取图像的颜色特征和纹理特征来描述图像内容。具体来说，可以通过分别在图像HSV颜色空间的3个通道上提取1-3阶颜色矩，组成9维颜色特征；通过对图像进行6个方向4个尺度的Gabor变换，获得24个系数矩阵，从中提取71维纹理特征。然后，依次排列上述颜色特征和纹理特征，从而得到表示图像的80维特征矢量。p(x|ω)的形式可以采用高斯混合模型、有限混合模型、高斯模型等。下文以采用高斯混合模型(Gaussian MixtureModel，GMM)为例。GMM能够逼近具有有限间断点的任意连续密度，是模式识别领域中经常采用的统计模型之一。例如，设K为GMM中高斯成分个数，w_k，μ_k，∑_k分别为GMM中第k个高斯成分的权重、均值矢量和方差矩阵，w_k满足

则高斯混合模型为

p (x | ω) = Σ_{k = 1}^{K} w_{k} N (x | μ_{k}, Σ_{k}), - - - (2)

其中

N (x | μ_{k}, Σ_{k})

. (3)

为了减少参数个数，使实际计算可行，可以设∑_k为对角矩阵，即

将公式(2)代入(1)，得到图像与待检索语义之间的后验伪概率计算公式如下：

f (x; Λ) = 1 - \exp (- λ {(Σ_{k = 1}^{K} w_{k} N (x | μ_{k}, Σ_{k}))}^{μ}) . (4)

公式(4)中，Λ表示未知参数集合，该集合包括高斯混合模型中的有关参数以及后验伪概率计算公式中的两个正系数，具体如下所示：

Λ＝{λ，μ，w_k，μ_k，∑_k}，k＝1，…，K. (5)

公式(5)中的部分参数有约束条件。为了简化计算，现将这一部分有约束条件的参数变换成无约束参数。参数的约束条件和变换关系如表1所示。GMM的协方差矩阵中的细微方差值将导致类条件概率密度函数的计算过程不稳定。因此，对协方差预设一个正的最小限值，其中τ是预设的GMM协方差最小值，以避免在计算类条件概率密度时发生数值溢出。相应地，变换后的参数集为：

\tilde{Λ} = {\tilde{λ}, \tilde{μ}, {\tilde{w}}_{k}, μ_{k}, {\tilde{Σ}}_{k}}, k = 1, . . ., K . (6)

在利用下文的学习方法估算

再将其变化成原始参数Λ。

表1分类器参数变换

基于公式(4)，对图像搜索引擎的改进方法是：搜索引擎接受用户输入的待检索关键词，返回相应的图像集合。利用公式(4)计算返回的每幅图像与用户待检索语义之间的相关度，按相关度重新对图像进行降序排列，最后依序将图像返回给用户。

2.图像语义的判别学习

在利用公式(4)改进图像检索效果之前，需要首先根据待检索语义的正、反样本确定其中的未知参数集Λ，其中，正、反样本将从搜索引擎返回的图像集合中选择。本发明考虑两种样本选择策略，如下所述。第一种策略是根据搜索引擎返回的图像顺序或者图像内容上的相似性确定图像中的正、反样本。采用这种样本选择策略来改进检索结果不需要用户参与，因此可以将相应的检索改进方法称之为自动改进方法。第二种策略是由用户指定返回图像中的正、反样本，相应的检索改进方法可以被称为相关反馈改进方法。

在确定了待检索语义的正、反样本集合之后，首先采用期望最大化(Expectation-Maximization，EM)算法得到除λ，μ之外的初始参数集，同时通过周密的实验设定λ，μ。然后利用最大最小后验伪概率判别学习(Max-Min posterior Pseudo-probability，MMP)算法获得最终参数集。

MMP判别学习的核心思想是通过使正样本的后验伪概率值趋近于1，同时使反样本的后验伪概率值趋近于0，从而获得最佳判别能力。设m、n分别为带检索语义正样本和反样本的个数，

分别为第i个正样本的特征矢量和第i个反样本的特征矢量，则MMP目标函数为：

F (\tilde{Λ}) = \frac{1}{m} Σ_{i = 1}^{m} [f ({\hat{x}}_{i}; \tilde{Λ}) - 1]^{2} + \frac{1}{n} Σ_{i = 1}^{n} [f ({\overset{&OverBar;}{x}}_{i}; \tilde{Λ})]^{2} . (7)

显然，F(Λ)的值越小，基于后验伪概率的分类器对于样本的判别能力就越强；当F(Λ)＝0时，将达到最优的判别能力，因此最优参数集Λ^*被定义为：

{\tilde{Λ}}^{*} \arg \min_{\tilde{Λ}} F (\tilde{Λ}) . (8)

采用最速梯度下降法优化最优参数集Λ^*，即沿函数的梯度方向，对参数进行迭代更新。设

分别为第t次迭代时的参数集与迭代步长，

表示对其中任意一个参数的偏导数，则MMP学习过程如下面的公式所示：

{\tilde{Λ}}_{i + 1} = {\tilde{Λ}}_{i} - α_{i} &dtri; F ({\tilde{Λ}}_{i}) - - - (9)

迭代改变参数集合，直到结果收敛或达到最大迭代次数为止。这里，设ε表示预设的极小值，则迭代收敛条件为：

\sqrt{Σ {[&dtri; F ({\tilde{Λ}}_{i})]}^{2}} \leq ϵ . (10)

图1是根据本发明的一个实施方案的流程图。在该实施方案中，图像语义的判别学习过程大致分为两个阶段。第一个阶段是对诸如Google的搜索引擎所返回的图像集进行特征提取，然后固定取返回图像中的前m个图像为正样本，前n个图像为反样本；或者由用户指定图像集中的正样本和反样本。第二个阶段是利用所确定的正样本和反样本集，学习得到后验伪概率函数，用于对样本进行重新排序。计算方法是：首先采用EM算法得到初始参数集，然后基于初始参数集执行MMP学习得到最终参数集。最后，利用学习得到的后验伪概率函数计算样本集中每个图像对应的后验伪概率值。按照后验伪概率值对图像进行降序排列。

图2是根据本发明的另一个实施方案的流程图。在该实施方案中，图像语义的判别学习过程分为两个阶段。第一个阶段是对诸如Google的搜索引擎所返回的图像集进行特征提取，然后利用诸如k-medoid聚类方法对图像集进行聚类，选择聚类结果中最稳定的类别作为相关图像(正样本)，其余类别作为不相关图像(反样本)。该训练集中的所有正样本将作为EM学习算法的训练集。所有样本，包括正样本和反样本，将作为MMP学习算法的初始训练集。第二个阶段是在MMP算法迭代执行过程中，对样本进行动态调整。调整方法是：首先利用当前样本集，执行一次MMP学习。一次学习结束后，利用学习得到的后验伪概率函数计算样本集中每个图像对应的后验伪概率值。按照后验伪概率值对图像进行降序排列，排在最前面的指定个数的图像作为正样本，排在最后面的指定个数的图像作为反样本。然后在得到的新样本集上，执行下一次MMP学习。上述MMP学习过程与数据动态调整过程交替进行，直到训练数据不再发生变化或迭代次数达到指定的最大次数为止。

4.实验

4.1试验设置

针对Google图像搜索引擎，对所提出的方法进行了实验。实验分为7组，分别输入以下7个关键词：“金币”、“计算机”、“长江”、“生物PCR”、“五四运动”、“北京公交线路图”、“牛顿环”，通过Google图片搜索得到7个图像集合。每个图像集合中分别有170-200幅不等的图像。手工标注这些图像是否与输入的关键词相关。

为了验证本文方法的有效性，针对每个图像集合，分别计算下列两种图像顺序所对应的检索准确率：1)原始Google图像搜索引擎返回的图像顺序；2)根据本发明的改进检索方法确定的图像顺序。最后，通过7类平均检索准确率，比较两种方法的检索效果。

本领域技术人员应当理解，准确率与召回率是图像检索中常用的评价指标，其中，准确率为返回的相关图像数量与返回的图像总数的比例，召回率为返回的相关图像数量与相关图像总数的比例。由于此处两种检索方法各自对应的返回图像总数一样，因此只用准确率即可反映方法的优劣。显然，准确率越高，检索效果越好。试验中，分别统计了图像集合中的前10幅、前25幅、前70幅、前100幅、前130幅以及前170幅图像对应的准确率，以综合反映检索效果。

4.2实验结果

GMM高斯成分个数以及正、反样本个数是本发明所涉及方法中可以通过实验确定的两组参数。针对自动改进方法与相关反馈方法，分别进行了实验确定。详见以下介绍。

4.2.1自动改进方法

自动改进方法中，根据正、反样本个数的不同，分别考察了三种学习模式，具体情况如表2所示。至于高斯成分个数的选择，在每种学习模式下，分别进行了1-5个高斯成分的实验。

表2 三种自动学习模式

图3是不同高斯成分个数下三种自动改进方法与原始Google方法在检索准确率上的比较的示意图。

图3显示了自动改进方法的实验结果，其中“Auto 1”-“Auto 3”分别表示三种自动学习模式。子图(a)-(e)分别为不同高斯成分个数下三种自动学习模式所对应的平均准确率与原始Google结果的比较，其中，K表示高斯成分的个数。由图1可知，采用第一种学习模式，即以“前50幅图像为正样本，后30幅图像为反样本”，且高斯成分个数为3时，自动改进方法能得到最好的平均准确率，并在所有范围(scope)的平均准确率上均优于原始Google结果。表3进一步给出了相对原始Google结果，采用本文所提出的自动改进方法后，平均准确率的增长幅度。

表3相对原始Google结果自动改进方法在平均准确率方面的增长幅度

图4是采用原始Google方法得到的图像检索结果。Google搜索引擎返回的前10幅“生物PCR”图像，其中带粗外框的图像表示不相关图像，其余为相关图像。

图5是采用本发明的自动改进方法所得到的图像检索结果。图5中，三个高斯成分下，第一种自动改进模式返回的前10幅“生物PCR”图像，全部为相关图像。可见，本发明的自动改进方法能得到相对于原始Google方法更好的检索结果。

4.2.2相关反馈改进方法

在一个实施例中，在相关反馈改进方法中设定四种学习模式，分别以原始搜索引擎返回的前50幅图像、前80幅图像、前100幅图像以及所有图像作为训练集，由用户来标注其中每幅图像是否与待检索语义相关。应当理解，对所有图像进行标注的实验目的是用于分析样本数量对于反馈学习的影响，而非意在对本发明的相关反馈改进方法进行限制。至于高斯成分个数的确定，同样在每种学习模式下，分别进行了1-5个高斯成分的实验。

图6是在不同高斯成分个数下，三种反馈改进方法与原始Google方法在检索准确率上的比较的示意图。

实验结果如图6所示，其中“RF 1”-“RF 4”分别表示四种反馈学习模式，子图(a)-(e)分别显示了在相应高斯成分个数下，四种反馈学习模式所对应的平均准确率与原始Google结果的比较。由图6可知，反馈改进结果明显优于原始Google结果。同时可以看出，随着训练图像个数的增加，学习效果更加理想。即使仅反馈前50幅图像的相关性，也可以得到与标注所有图像相近似的准确率。这说明本文方法对于小样本学习是有效的，满足实际应用中用户不能接受对大量数据进行反馈标注的要求。表4进一步给出了相对于原始Google结果，采用本发明所提出的反馈改进方法后，平均检索准确率的增长幅度。

表4.四个高斯成分下反馈改进模式所带来的平均准确率的增长幅度

图7-8分别显示了当输入关键词“北京公交线路图”后，Google返回的前10幅图像以及在4个高斯成分下，第一种反馈改进模式得到的前10幅图像。图中粗线外框所示为不相关图像，其余为相关图像。

4.3实验结果分析

1)采用本发明提出的自动改进方法和反馈改进方法得到的图像检索结果都优于原始Google结果，表明利用图像内容，能够有效改进基于文本的图像搜索引擎。

2)在用户参与下，正、反样本的选择更加准确，因此反馈改进方法的检索效果优于自动改进方法。但是，自动改进方法减少了人工参与，实用性更强。

3)高斯成分个数以及正、反样本个数，对本文方法检索效果有一定影响，在自动改进方法中影响尤为明显。由于高斯成分个数与正、反样本个数的差别，其平均准确率可相差26％。但在反馈改进中，影响相对较小，最高仅相差6％左右。这进一步说明了样本选择对结果的显著影响。

4)在相关反馈改进方法中，只须对少量图像进行标注学习，便能得到与“对全部图像进行标注学习”近似的检索效果，表明本文的相关反馈学习方法对于小样本学习是有效的，具有实用性。

本发明提出了一种利用图像内容，对基于文本的图像搜索引擎进行改进的方法。将用户输入的待检索关键词作为一种语义类别，从图像搜索引擎返回的图像集合中选择待检索语义对应的正、反样本，采用判别学习方法得到该语义类别对应的分类器。利用该分类器，计算图像与待检索语义之间的相关度，并按照相关度对图像进行重新排序，以提高检索准确率。在如何选择用于学习分类器的正、反样本这一问题上，探讨了自动选择与反馈选择两种策略。

为了验证所提出方法的有效性，针对Google图像搜索引擎，对本发明提出的自动改进方法与反馈改进方法进行了实验。实验结果表明：通过引入图像内容，可有效改善基于文本的图像检索效果。相对于原始Google结果，采用自动改进方法后，不同范围(scope)对应的平均检索准确率能提高1％至16.1％；采用反馈改进方法后，不同范围(scope)对应的平均检索准确率能提高3.7％-38.1％。

应当理解，上述方法步骤所实现的功能可以采用多种方式来执行。例如，任何用于执行每一个上述功能的适当装置/模块都可以用于执行本发明的实施例。在一个实施例中，本发明的所有部件或一部分部件通常是在计算机程序产品的控制下工作的。用于执行本发明实施例的方法的计算机程序产品包括计算机可读存储介质，例如非易失存储介质，以及包含在计算机可读存储介质中的计算机可读程序代码部分，例如一系列计算机指令。在又一个实施例中，上述功能可能分布在不同的处理器或服务器中，中间结果可以由一个处理器或服务器发送给另一个处理器或服务器。

需要指出，虽然前文结合基于后验伪概率的分类器对本发明做了描述，但是，本发明不限于此。比如本发明可以采用K近邻(k-Nearest Neighbor，KNN)分类器。K近邻分类方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。在另一个例子中，本发明可以采用基于支持向量机的分类器。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为，平行超平面间的距离或差距越大，分类器的总误差越小。

尽管已经示出并描述了本发明的特殊实施例，然而在不背离本发明的示例性实施例及其更宽广方面的前提下，本领域技术人员显然可以基于此处的教导做出变化和修改。因此，所附的权利要求意在将所有这类不背离本发明的示例性实施例的真实精神和范围的变化和更改包含在其范围之内。

Claims

1.一种图像搜索方法，包括：

用户用关键词进行图像搜索，其中，所述关键词表示图像的待检索语义；

在搜索到的图像集合中，得到与所述待检索语义相对应的分类器；

利用所述分类器来计算所述图像集合中每幅图像与所述待检索语义之间的相关度；以及

按照所述相关度对所述图像集合进行排序，并且将排序后的图像集合返回给用户。

2.根据权利要求1所述的方法，其中，所述在搜索到的图像集合中得到与所述待检索语义相对应的分类器的步骤包括通过基于支持向量机的分类法或k近邻分类法学习得到所述分类器。

3.根据权利要求1所述的方法，其中，所述在搜索到的图像集合中得到与所述待检索语义相对应的分类器的步骤包括通过基于后验伪概率的分类法得到所述分类器。

4.根据权利要求3所述的方法，其中，在搜索到的图像集合中，得到与所述待检索语义相对应的分类器的步骤包括：

在搜索到的图像集合中，选择与所述待检索语义相对应的正、反样本；

根据所述正、反样本，通过机器学习得到与所述待检索语义相对应的分类器。

5.根据权利要求4所述的方法，其中，所述选择正、反样本的步骤包括：

将搜索到的图像集合中的前面一部分图像选择为正样本，将搜索返回的图像集合中的后面一部分图像选择为反样本；

或者由用户指定搜索到的图像集合中的一部分图像为正样本，另一部分图像为反样本；

或者对搜索到的图像集合进行聚类以得到正、反样本；

或者利用图像相关度从搜索到的图像集合中选择正、反样本。

6.根据权利要求3所述的方法，其中所述在搜索到的图像集合中，得到与所述待检索语义相对应的分类器的步骤包括采用期望最大化算法得到初始参数集；利用最大最小后验伪概率算法获得最终参数集，以此构建分类器。

7.根据权利要求6所述的方法，其中所述在搜索到的图像集合中，得到与所述待检索语义相对应的分类器的步骤包括利用最大最小后验伪概率算法获得参数集，利用该参数集构成的后验伪概率函数计算样本集中每个图像对应的后验伪概率值；按照后验伪概率值对图像进行降序排列，选择排序靠前的图像作为正样本，选择排序靠后的图像作为反样本；然后迭代执行下一轮的利用最大最小后验伪概率算法获得最终参数集的步骤。

8.根据权利要求3所述的方法，其中，所述后验伪概率与类条件概率密度有关，将所述类条件概率密度的形式设置为高斯混合模型、有限混合模型或高斯模型。

9.根据权利要求1所述的方法，其中，分类器是基于下列特征中的一个或多个图像特征的分类器：颜色特征、纹理特征、形状特征和局部特征。

10.如权利要求1所述的方法，其中，计算相关度的步骤包括

其中Λ＝{λ，μ，w_k，μ_k，∑_k}，k＝1，…，K. (5)，

N (x | μ_{k}, Σ_{k})

. (3)

，

x为图像特征矢量，ω表示待检索语义，λ和μ是一个正系数；w_k，μ_k，∑_k分别为GMM中第k个高斯成分的权重、均值矢量和方差矩阵，w_k满足