CN106649487B

CN106649487B - 基于兴趣目标的图像检索方法

Info

Publication number: CN106649487B
Application number: CN201610877794.9A
Authority: CN
Inventors: 钟宝江; 张峰
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-10-09
Filing date: 2016-10-09
Publication date: 2020-02-18
Anticipated expiration: 2036-10-09
Also published as: CN106649487A

Abstract

本发明涉及一种基于兴趣目标的图像检索方法，包括步骤：(1)依据HS显著性检测算法分析用户的兴趣目标，结合SaliencyCut算法分割出兴趣目标；(2)对用户的兴趣目标提取HSV颜色特征、SIFT局部特征和CNN语义特征；(3)将提取的兴趣目标的特征与数据库图像进行特征相似度匹配，并根据相似度排序得到基于兴趣目标的检索结果。本发明通过仅在兴趣目标区域提取特征的做法，可以有效抑制背景对检索结果的影响，提高检索的查全率和查准率。

Description

基于兴趣目标的图像检索方法

技术领域

本发明属于多媒体信息检索、模式识别等智能信息处理领域，尤其涉及一种基于兴趣目标的图像检索方法。

背景技术

智能手机、数码相机等便携式图像捕获设备的普及以及微信、微博等数据共享平台的流行，导致网络上图像数量呈现爆炸式增长。面对海量的图像数据，传统人工标注的图像检索方式已无法应对。基于内容的图像检索逐渐成为科学研究的热点，图像检索技术的相关应用也得到了发展。

在当前图像检索模型与相应构建的图像搜索引擎中，通常针对整体图像来提取图像的底层特征。从技术角度来说，这一做法是自然的，而从应用角度来说则可能无法满足人们的实际需求。即，如果用户仅仅对图像中的特定目标物体感兴趣，此时从整体图像提取的特征一部分是有效的，而另一部分则是无效的且会对查询结果带来消极影响。

显著性检测是图像分析与理解领域另一个重要分支，其主要任务是模拟人眼视觉注意选择机制，检测出图像中密度、颜色、形状等与周围区域有显著差异的区域。当进行“这是什么东西”这类查询任务时，我们以图像显著性检测来理解用户的兴趣目标。一个理想的显著性检测模型能够像人类视觉系统一样快速定位出复杂场景中最重要的视觉信息.近年来，人们提出了各种显著性检测算法.Itti等人提出了一种基于生物启发模型和特征整合理论的视觉显著性检测算法(IT算法).该算法分别在图像颜色、亮度、方向特征图中，按照赢者通吃的显著性竞争准则，保留局部最为突出的位置，最后将所有特征图组合成最终的显著图。Hou和Zhang等人提出了一种基于频谱残差的图像显著性检测算法(SR算法)，该算法通过分析输入图像的对数谱，从图像的频域提取普残差，并在对应的空间域构建显著性图。Li等人提出了一种频域图像显著性检测算法(HFT算法)，该算法基于超复数傅里叶变换，利用频谱尺度空间技术进行图像显著性区域检测。Cheng等人提出了一种同时使用空间加权和区域的全局对比度的显著性区域检测算法(RC算法)。Yan等人提出了一种分层显著性区域检测算法(HS算法)。除此之外，还有很多其他显著性检测算法。

此前，研究者已经尝试过将视觉注意机制融入到图像检索框架中。Fu等人提出了基于注意力驱动的图像检索系统，该方法通过最大化一个全局注意函数，以一个迭代方式将显著物体从背景中分离出来，并赋予较高的注意值；检索时，只比较注意值较高的目标物体。Liu等人提出了一种利用显著性结构直方图描述图像的方法。该方法融入视觉注意内核和神经元的方向选择性机制，以此来提高检索系统的准确性。然而，在Fu等人提出其算法时，人们对显著性检测问题的理解还不够完善，相关技术效率较低，并且该算法所提取的图像特征仅包括颜色和纹理，在描述目标时区分力不够，从而导致图像检索效率低下。Liu等人的算法介于基于整体图像的检索和基于兴趣目标的检索之间，可以解决目标类似(权重较高)同时背景类似(权重较低)的图像检索任务。该算法从功能上来说与现有的图像检索引擎的表现类似。实际上，如果用户所感兴趣的是图像中的特定目标，此时是无需考虑目标背景特征的。

有鉴于上述的缺陷，本设计人，积极加以研究创新，结合显著性检测与图像分割领域最新研究成果，实现一种基于用户兴趣目标的图像检索方法，以解决“这是什么东西”这类图像检索任务。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于兴趣目标的图像检索方法，仅在兴趣目标区域提取特征，以有效地抑制背景对检索结果的影响，提高检索的查全率和查准率。

本发明的基于兴趣目标的图像检索方法，包括以下步骤：

(1)依据HS显著性检测算法分析用户的兴趣目标，结合SaliencyCut算法分割出兴趣目标；

(2)对用户的兴趣目标提取HSV颜色特征、SIFT局部特征和CNN语义特征；

(3)将提取的兴趣目标的特征与数据库图像进行特征相似度匹配，并根据相似度排序得到基于兴趣目标的检索结果。

进一步的，所述数据库为：对图像数据库中所有的图像进行显著性检测并分割出兴趣目标，然后在兴趣目标区域提取特征，所有图像的兴趣目标区域的特征组成的特征数据库。

进一步的，所述HS显著性检测算法首先提取输入图像不同尺度的图像层，然后计算每张图像层的显著性线索，最后利用图模型将每层的显著性线索融合成一张显著图。

进一步的，通过树结构的所述图模型进行分层推理，实现对所有线索图的融合，将每层的显著性线索融合成一张显著图。

进一步的，所述SaliencyCut算法首先利用所述显著图来生成一个不完全的三值图，然后迭代地调用GrabCut算法来改进兴趣区域的分割结果，每次迭代后，分别对分割结果使用膨胀和腐蚀操作来得到新的三值图以进行下一次迭代。

进一步的，迭代次数小于等于4次。

进一步的，HSV颜色特征的提取，首先根据兴趣目标分割结果，保留兴趣目标区域的像素，接着将兴趣目标中所有像素的(r,g,b)值转换为(h,s,v)值，并将HSV颜色空间量化成240种颜色，最后用归一化的240维HSV颜色直方图描述兴趣目标的颜色特征。

进一步的，SIFT局部特征的提取，首先采用DoG或Hessian-affine检测器检测出图像中稳定的关键点，并且根据兴趣目标分割结果保留兴趣目标区域的关键点，然后用128维向量描述兴趣目标区域内每个关键点周围16×16区域的信息。

进一步的，在利用SIFT局部特征进行特征相似度匹配时，将训练得到的视觉词典，采用多分配方法，将每个SIFT特征通过最近邻算法量化成视觉单词，然后采用汉明嵌入、rootSIFT和IDF方法，最终建立一个标准的倒排索引，并利用投票机制进行检索。

进一步的，CNN语义特征的提取，根据兴趣目标的分割结果，用一个矩形框包含兴趣目标并将其剪切出来，然后利用MatConvNet工具提取兴趣目标的4096维的CNN特征向量，并对该特征向量进行归一化。

进一步的，所述步骤(3)中使用加权的特征距离计算查询图像和数据库中每一幅图像之间的相似度，然后按照相似度由大到小的顺序返回图像检索结果。

借由上述方案，本发明通过仅在兴趣目标区域提取特征的做法，可以有效抑制背景对检索结果的影响，提高检索的查全率和查准率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明流程图；

图2是本发明中SaliencyCut算法流程图；

图3是为本发明采用的SIVAL数据库的样例图像；

图4是结合HS算法和SaliencyCut算法提取兴趣目标的结果：(a)输入图像，(b)显著图，(c)兴趣目标分割结果，(d)人工标注的兴趣目标；

图5是不同显著性检测算法的结果比较，其中HS为本文所采用的算法；

图6是不同的显著图分割方法的比较；

图7是基于兴趣目标与基于整体图像的检索效果比较：(a)关于HSV特征的比较，(b)关于SIFT特征的比较，(c)关于CNN特征的比较；

图8为不同特征相结合检索效果的比较：(a)PR曲线，(b)F-度量曲线；

图9为本发明和基准算法的检索样例，最左上的图像为查询图像，(a)为本发明的检索结果，(b)为基准算法的检索结果；

图10为本发明与现有其他算法及基准算法的比较：(a)PR曲线，(b)F-度量曲线。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明结合显著性检测与图像分割领域最新研究成果，实现一种基于兴趣目标的图像检索方法，并在图像数据库上对所提方法进行测评。与基于整体图像的检索模型及Liu等人提出的检索模型相比，本发明解决了用户不同的检索任务；与Fu等人提出的算法相比，本发明的检索性能显著提升。本发明的检索方法为：依据HS显著性检测算法分析用户的兴趣目标，结合SaliencyCut算法分割出兴趣目标；然后对用户的兴趣目标提取HSV颜色特征、SIFT局部特征和CNN语义特征；最后将其与数据库图像进行特征相似度匹配，并根据相似度排序得到基于兴趣目标的检索结果.以上仅在兴趣目标区域提取特征的做法，可以有效抑制背景对检索结果的影响，提高检索的查全率和查准率。基于兴趣目标的图像检索流程如图1所示。

1、分层显著性模型

在对比常用的显著性检测算法的各方面性能后，本发明采用HS算法来理解和获取用户的兴趣目标，该算法首先提取输入图像不同尺度的图像层，然后计算每张图像层的显著性线索，最后利用图模型将每层的显著性线索融合成一张显著图。

1.1、提取图像层

图像层是对输入图像在不同细节程度上的描述，不同层对输入图像的表示和结构复杂度的表现不一样。图像层的层数一般设定为3层。在第1层，图像的细节尽可能被保留，在第2层，图像的细节消失，显现出图像的结构，在第3层，细节消失，只剩下大尺度的图像结构。

为了产生三幅图像层，首先使用分水岭分割算法生成一幅初始化的过分割图，并计算每个分割区域的尺度值.然后使用一个迭代程序合并邻近的分割区域。如果区域尺度值小于3，这个区域将被合并到最近邻的区域，随之更新合并后区域的尺度值和颜色。当所有的区域都处理完后，将产生第1层区域图，第2层区域图和第3层区域图的产生方式与第1层类似，只是尺度阈值更大。

1.2、单层显著性线索

用于单层显著性的主要线索包括局部对比度和启发式位置。

1)局部对比度。与周围颜色对比度较大的图像区域一般更会吸引人们的关注。考虑图像的两个区域R_i和R_j，其颜色分别记为c_i和c_j。区域的像素数目为w(R_j)。记

φ(i,j)＝exp{-D(R_i,R_j)/σ²}

为区域R_j在空间上对区域R_i的显著性影响程度，其中D(R_i,R_j)表示区域R_i中心和区域R_j中心的欧氏距离的平方，参数σ²控制周围区域影响范围。区域R_i局部对比度显著性线索定义如下.

其中n为图像中区域的总数。

2)启发式位置。心理学研究表明人们注意力倾向于图像中间区域，因此靠近图像中心的区域显著性更高。记x_c为图像中心的坐标，{x₀,x₁,…}为区域R_i中像素坐标的集合。启发式位置模型如下：

为了更好地得到图像的显著性，需要融合以上形式线索，形式如下：

其中λ控制位置线索与局部对比度线索的权重。λ越大，位置线索权重越小，一般λ设置为9。对每一层计算完s_i后，即可分别得到初始的显著图。

1.3、分层推理

不同层的线索图揭示的显著性一般是不一样的，在底层，产生了分散的显著区域，在顶层则保留了大结构的显著区域。每层的显著信息都不一样，因此单独层的线索图不能够保证完整的显著性信息。此外，很难决定哪一层最好。考虑到背景和前景的复杂性，平均所有线索图的融合方式也达不到最好的效果。为此，可以借助树结构的图模型进行分层推理，实现对所有线索图的融合。

在第k(k＝1,2,3)层，对区域i对应的节点定义一个显著性变量

集合S包含所有的显著性变量。为了分层推理，最小化下面的能量函数：

其中第二项要求

该能量函数包含两部分，分别为数据项和层次项。数据项用来收集各个显著性置信度，对于每个节点定义如下：

其中β^(k)控制层置信度，并且

是由式(3)计算得到的初始化的显著性值。

层次项

控制不同层对应区域的一致性。E_S定义如下：

其中λ^(k)控制层与层之间的一致性强度。层次项使得不同层对应区域的显著性分配更相似，能够有效地纠正初始显著性错误。

式(4)中的能量函数是一个简单的分层图模型，采用置信传播的方法可以实现最优化。当能量函数达到全局最优时，便可得到最终的显著图。

2、兴趣目标分割

在图像分割领域，SaliencyCut算法是对GrabCut算法的一种改进。GrabCut算法需要用户在图像中框选出所要分割的目标，而SaliencyCut算法则利用显著性检测来理解用户期待的目标区域，从而不需要人工参与就能自动选择目标区域。可以看出，SaliencyCut算法与本发明有着类似的思想，均使用了显著性检测来理解和获取用户的目标。不同的是，SaliencyCut算法使用了RC显著性检测算法，而本发明使用了效率更高的HS显著性检测算法。SaliencyCut算法实现步骤如下。

2.1、兴趣区域初始化

SaliencyCut算法首先对图像进行显著性检测，然后利用显著图来生成一个不完全的三值图(0表示背景像素，128表示未知像素，255表示目标像素)。显著性值低于阈值的像素被认为背景像素，其余像素被认为可能是目标像素，也有可能是背景像素，对应于三值图中的未知像素。此时三值图中值为255的像素个数为0，之后值为128的像素可被赋为255，因此此处三值图为不完全的三值图。初始三值图中的背景像素用来训练背景颜色模型，未知像素用来训练前景颜色模型。在生成不完全的三值图时，此算法将置信度非常高的非显著性区域中的像素作为背景像素。在利用HS算法计算得到的显著图生成三值图时，如果将所有的显著性值归一化到[0,255]范围内，这个阈值为70。

2.2、兴趣区域分割

初始化步骤完成后，SaliencyCut算法迭代地调用了GrabCut算法来改进兴趣区域的分割结果(一般最多迭代4次)。每次迭代后，分别对分割结果使用膨胀和腐蚀操作来得到新的三值图以进行下一次迭代。膨胀后仍然落在外面的区域像素设成背景像素，腐蚀后仍然落在区域内的像素设为前景像素，其余像素为三值图中的未知像素。此时，背景像素用来训练背景颜色模型，前景像素用来训练前景颜色模型。SaliencyCut算法流程图如图2所示。

3、兴趣目标的特征提取

在应用HS算法和SaliencyCut算法理解和获取用户的兴趣目标后，为了对其进行描述，本发明考虑和比较了若干不同图像特征，最后使用HSV颜色特征、SIFT局部特征和CNN语义特征相结合的方式从多个不同的角度去描述兴趣目标。下面首先给出以上三种特征的提取细节，然后融合这些特征进行图像相似度计算。

3.1、兴趣目标的HSV颜色特征

由于RGB颜色空间与人眼的感知差异较大，因此本文采用更符合人眼感知特性的HSV颜色空间。首先根据兴趣目标分割结果，保留兴趣目标区域的像素；接着将兴趣目标中所有像素的(r,g,b)值转换为(h,s,v)值，并将HSV颜色空间量化成10×8×3＝240种颜色；最后用归一化的240维HSV颜色直方图描述兴趣目标的颜色特征。实验结果表明，在比较兴趣目标的颜色直方图时，应用HSV颜色特征能够有效地描述与识别兴趣目标。

3.2兴趣目标的SIFT特征

鉴于SIFT特征的优良特性，本发明提取出兴趣目标的SIFT局部特征。首先采用DoG，Hessian-affine等检测器检测出图像中稳定的关键点，并且根据兴趣目标分割结果保留兴趣目标区域的关键点；然后用128维向量描述兴趣目标区域内每个关键点周围16×16区域的信息。本发明在独立的数据集上训练得到20k的视觉词典，随之将每个SIFT特征通过最近邻算法量化成视觉单词。为了提高召回率，本文采用多分配方法；为了提高精确度，本繁忙采用汉明嵌入，rootSIFT^[25]和IDF^[2]，最终建立一个标准的倒排索引，并利用投票机制进行检索。在对目标相同背景不同的图像进行匹配时，利用SIFT特征，能够有效去除由于背景干扰而产生的错配对；对于背景相同目标不同的两幅图像，虽然在背景区域能够产生大量匹配对，但由于本发明关注的是目标部分，所以背景区域的匹配对应该给予剔除。

3.3、兴趣目标的CNN特征

卷积神经网络(ConvolutionNeural Network，CNN)是一种多层神经网络模型。在底层，提取的特征较原始，层次越高，提取的特征越抽象，在高层已经是一种语义组合。这种网络结构提取的特征对平移变换、旋转变换、仿射变换等具有高度不变性。为了提取兴趣目标的语义特征，本发明根据兴趣目标的分割结果，用一个矩形框包含兴趣目标并将其剪切出来，然后利用MatConvNet工具提取兴趣目标的4096维的CNN特征向量，并对该特征向量进行归一化。仿真实验表明，提取剪切后兴趣目标的特征比提取整体图像的特征更能够描述图像的目标部分。

3.4、基于兴趣目标的图像相似度计算

本发明使用加权的特征距离计算查询图像Q和数据库中每一幅图像I之间的相似度，然后按照相似度由大到小的顺序返回图像检索结果。

记S_h(Q,I)为两幅图像兴趣目标的HSV颜色直方图相似度，计算如下：

其中，N为直方图区间数。

记S_s(Q,I)为两幅图像的兴趣目标区域SIFT匹配数的得分，匹配点的数目越多，该得分越高，计算如下：

其中表示图像Q和I中SIFT特征，表示两SIFT特征的匹配函数，匹配则为1，不匹配则为0，idf表示倒排文档频率，||Q||₂表示词频的欧式范数。

记S_c(Q,I)为两幅图像兴趣目标的CNN特征相似度，采用余弦距离度量，计算如下：

多个特征相似度得分的融合策略有加法、乘法、最大值、最小值法则等。基于以下两个原因，本发明采用乘法法则。第一，前人工作证实乘法法则有不低于加法法则的性能；第二，使用乘法法则时，不同意义的特征组合不需要进行外部特征归一化。

基于以上三种特征相似度得分以及乘法法则融合策略，查询图像Q和数据库中的图像I之间的相似度定义为

其中w_h，w_s，w_c为上述3个特征对应的权值，满足w_h+w_s+w_c＝1。基于仿真实验结果，这些参数默认值取为w_h＝0.2，w_s＝0.1，w_c＝0.7.值得一提的是，可以通过对数运算操作将式(10)转化为加法形式以减小计算复杂度。

4、实验结果及分析

4.1、实验数据库选择

目前用于测试图像检索算法的常用数据库包括Ukbench、Holidays、Corel-10k、Caltech256等数据库。这些数据库中图像的内容一般填满整幅图像区域，主要用来测试现有基于整体图像的检索算法在旋转不变性、仿射不变性、光照不变性及其他条件下的稳定性，或测试算法在语义方面的描述能力。

由于本发明基于兴趣目标来完成图像检索任务，为了展示和评估其性能，本发明选择了更符合问题背景的SIVAL图像数据库。该数据库之前主要用于测试多示例学习算法的性能，并可以进一步用于测试基于多示例学习的图像检索算法。这个数据库共由1500幅图像组成，分为25类，每类60幅图像，同类图像均含有一个相同的目标，但其背景具有高度多样性，且目标的空间位置、尺度大小、光照等在不同的图像中也会发生很大的变化。数据库将目标相同的图像归为一类，因此检索时需要忽略图像背景而关注对目标的描述和识别。图3展示了SIVAL数据库的部分样例。

对于Ukbench、Holidays、Corel-10k、Caltech256等常用数据库，若在显著性检测步骤能够将图像整体当作显著性区域，则本发明所提出的检索模型和现有的图像检索模型是等效的。但在实际执行检索时，由于当前的显著性检测技术并不倾向于将大块图像区域当作显著性目标，本发明的效率会受到影响，此时可通过改进显著性检测机理或在本发明的框架外增加视觉注意力引导步骤来保证最终的检索效果。

4.2评估指标

评估图像检索性能主要有两个指标：查准率(Precision)和查全率(Recall)。查准率是指系统返回的查询结果中同类图像的数目占返回的图像数目的百分比；查全率是指系统返回的查询结果中同类图像的数目占整个图像数据库中同类图像数目的百分比。F-度量(F-Measure)为这两个指标的调和平均数，是对查准率和查全率综合性能的评估。查准率P，查全率R以及F-度量具体计算方法如下：

其中I_N为检索返回的同类图像数目，N为检索返回的图像数目，M为数据库中所包含的同类图像数目(包括检索返回的和没有检索出来的同类图像)。参数β权衡查准率和查全率之间的重要性，由于图像检索中查准率和查全率同样重要，因此，β²一般设定为1。

若用X轴表示查全率，Y轴表示查准率，在设定好返回图像的数目时，可得到查准率-查全率(Precision-Recall，PR)曲线。若用X轴表示返回的图像数目，Y轴表示F-得分，则可以得到F-度量曲线。

4.3不同显著性检测算法的比较

验证一个显著性检测算法的性能最简单的方法是设置一个阈值T_f∈[0,255]对算法产生的显著图进行二值化，从而得到兴趣目标的二值分割。为了全面地比较各种显著性检测算法凸显兴趣目标的好坏，阈值T_f从0到255动态地变化。根据二值化显著图与手工标注的目标显著性区域进行比较来评估，评估准则采用检测精度-召回率(Precision-Recall，PR)曲线。检测精度表示显著性检测算法检测出的目标前景区域包含的真正的有效前景目标的比例，反映的是显著性检测算法检测前景目标的准确率；召回率表示显著性检测算法检测出的真正有效的前景区域与图像中实际的目标前景区域之间的比例，反映的是显著性检测算法检测出有效前景区域的完整性。

图4展示了本发明所采用HS算法结合SaliencyCut算法提取兴趣目标的结果，图4(a)为输入图像，图4(b)为HS算法检测得到的显著图，图4(c)是基于显著图分割出兴趣目标的结果，图4(d)是人工标注的兴趣目标区域。可以看出，最终的显著性区域均可以有效指向兴趣目标。

图5给出了HS算法与其他4种显著性检测算法(IT，SR，HFT，RC)在SIVAL数据库上的性能表现。可以看出，HS算法能够取得最佳的效果。在具体细节上，由IT算法生成的显著图虽然可以得到兴趣目标的位置，但兴趣目标的尺寸和范围无法确定，获取的区域中往往包含大量的背景区域；SR算法关注的是图像特征变化比较剧烈的部分，因此对纹理不丰富、对比不明显的图像提取显著图效果较差；HFT算法是在频域上对图像的振幅谱进行尺度空间分析，并重组分析后的振幅谱、相位谱和能量谱，因此该算法检测出来的显著性区域常会出现空心化；RC算法考虑的是空间加权和区域的全局对比度因素，对背景比较复杂的图像效果也不好。综上，本发明选择HS算法来完成对图像的显著性检测。

4.4、基于显著图的不同分割方法比较

基于显著图分割出兴趣目标的传统方法是设定一个经验阈值T_f∈[0,255]对显著图进行二值化。该方法称为固定阈值分割法(Fixed Threshold Cut，FTC)。另一种传统方法是自动阈值分割法(Automatic Threshold Cut，ATC)。图6给出了SaliencyCut算法与以上两种阈值分割算法的比较结果.分割效果的评估采用精度(Precision)，召回率(Recall)，F-度量这三项指标。本实施例中，由于分割精度和召回率对兴趣目标的特征提取同样重要，因而式(11)中的β²设为1。

4.5基于兴趣目标与基于整体图像的检索效果比较

兴趣目标的每一种特征都可以单独用于匹配检索。为了展现基于兴趣目标的检索算法的优越性，本发明分别提取整体图像和兴趣目标的HSV颜色特征、SIFT局部特征和CNN语义特征。对于不同特征，分别比较基于兴趣目标的检索算法和基于整体图像的检索算法。SIVAL数据库上每一幅图像都作为查询图像，并将所有的查询结果进行统计计算。图7给出了检索效果的PR曲线图。可以看出，对于不同特征，基于兴趣目标的检索算法都能够大幅度提升检索效果。相比于SIFT特征和CNN特征，HSV特征对检索效果提升的幅度稍低。这是因为颜色特征容易受到光照、噪声等因素影响，并且图像库中某些不同类别的颜色比较相似，而有些类别类内的颜色差异却较大。CNN语义特征和SIFT局部特征都具有优秀的区分力，在去除图像背景区域的影响后，对兴趣目标的检索性能均得到了较大提升。

4.6多特征组合与单一特征检索效果比较

单一的特征可能在某些样本上效果比较好，但在另外一些样本上效果会变差。为此，一般通过多特征组合的方式来进行图像检索。为了研究不同特征组合的贡献，本发明分别提取图像中兴趣目标的HSV颜色特征、SIFT局部特征和CNN语义特征，并且比较这三种特征以及它们组合特征的检索效果。从图8中可以得出两个主要结论：1)仅仅使用单一特征很难获得较好的检索效果.在本实施例中，CNN特征和SIFT特征的检索效果相当，优于HSV特征；2)两个或者三个特征的组合，会明显提高检索效果，CNN特征和SIFT特征组合的检索效果比其他两两特征组合的效果要好，三个特征相组合的检索效果达到最佳。

4.7、本发明与现有检索算法的比较

依据4.6节的实验结果与分析，本实施例选取HSV，SIFT，CNN三种特征的联合形式来描述兴趣目标，然后通过相似度计算完成基于兴趣目标的图像检索。为了可客观地测评本发明，本实施例提取整体图像的HSV特征、SIFT特征、CNN特征，并将这三种特征的联合形式来描述整体图像，从而实现了一种基于整体图像的基准检索方法。图9展示了本发明和基准算法的检索样例，对检索结果的观察可以看出，在返回的前28张图像中，本发明检索出的图像中的兴趣目标均与查询图像中的兴趣目标(花盆)相同，见图9(a)所示，而基准算法检索出的图像均在背景上(蓝色椅子)与查询图像相同，见图9(b)所示。可见，基准算法无助于解决用户的实际问题。

为了进一步评估本发发明的性能，本实施例遴选了如下的检索算法作参照：1)HE算法。该算法在局部图像描述子中融入了汉明嵌入，并采用投票机制进行图像匹配检索；2)c-MI算法。该算法在基于词袋的图像检索模型中加入了局部颜色特征，在对图像中关键点进行匹配时，不仅需要SIFT特征匹配，同时也需要局部颜色特征匹配；3)CDH算法。该算法融合了图像的边缘方向信息、颜色信息、颜色差异信息以及空间布局信息，形成了一种新的视觉特征描述符，并以此来进行图像检索；4)MSD算法。该算法融合了图像的颜色信息、纹理信息、形状信息和颜色布局信息，生成了一种称作微结构的图像特征描述符；5)SSH算法。该算法在对图像的颜色信息、亮度信息和边缘方向信息进行描述时，融入了视觉注意内核和神经元的方向选择机制，提出了一种新的图像特征描述符，称为显著性结构直方图。

图10给出了本发明与比较算法的PR曲线图和F-度量曲线图。可以看出，本发明的效果明显高于其他算法及基准算法。分析这些比较算法可知，这些算法都是提取整体图像的特征，在进行检索时，检索效果都严重受到了背景的干扰。而本发明先采用HS算法结合SaliencyCut算法来理解和获取用户的兴趣目标，并且仅针对兴趣目标进行特征描述.选取的HSV特征、SIFT特征和CNN特征的描述力较强，且这三种特征均具有旋转不变性、仿射不变性等特性。因而本发明能够较好地解决“这是什么东西”这类检索任务，弥补了现有的图像检索算法的不足。

5、结论

在用户使用现有的图像搜索引擎查询一幅图像时，通常是想识别图像中他们所感兴趣的目标或者返回与兴趣目标相关的图像。然而，当前图像检索算法大多根据整体图像的特征来设计，很难满足这种需求。特别地，当图像中兴趣目标比较小时，即便根据语义特征来检索也不能有效解决用户的问题。为此，本发明提出的基于兴趣目标的图像检索方法，首先以图像显著性检测来理解用户的兴趣目标，这是因为用户一般会有意识地将其所关注的目标以显眼的方式来呈现；接着结合基于显著性的分割算法分割出该兴趣目标；然后针对兴趣目标提取特征；最后将其与数据库图像进行相似度计算并根据相似度排序返回检索结果。通过仿真实验，本发明分析与比较了各种特征以及组合特征的检索效果，最终遴选了兴趣目标的HSV颜色特征、SIFT局部特征和CNN语义特征，并以这些特征的组合形式进行基于兴趣目标的图像检索。在测试数据库选择方面，选择了更符合问题背景的SIVAL数据库。在不同特征相似度得分进行融合时，采用了乘法法则融合策略。实验结果表明，本发明提出的检索算法与基于整体图像的检索算法相比，在解决兴趣目标识别的任务上具有更佳的性能。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于兴趣目标的图像检索方法，其特征在于，包括以下步骤：

(3)将提取的兴趣目标的特征与数据库图像进行特征相似度匹配，并根据相似度排序得到基于兴趣目标的检索结果；

其中，所述HS显著性检测算法首先提取输入图像不同尺度的图像层，然后计算每张图像层的显著性线索，通过树结构的图模型进行分层推理，实现对所有线索图的融合，将每层的显著性线索融合成一张显著图；

所述SaliencyCut算法首先利用所述显著图来生成一个不完全的三值图，然后迭代地调用GrabCut算法来改进兴趣区域的分割结果，每次迭代后，分别对分割结果使用膨胀和腐蚀操作来得到新的三值图以进行下一次迭代；

HSV颜色特征的提取，首先根据兴趣目标分割结果，保留兴趣目标区域的像素，接着将兴趣目标中所有像素的(r,g,b)值转换为(h,s,v)值，并将HSV颜色空间量化成240种颜色，最后用归一化的240维HSV颜色直方图描述兴趣目标的颜色特征；

SIFT局部特征的提取，首先采用DoG或Hessian-affine检测器检测出图像中稳定的关键点，并且根据兴趣目标分割结果保留兴趣目标区域的关键点，然后用128维向量描述兴趣目标区域内每个关键点周围16×16区域的信息；

在利用SIFT局部特征进行特征相似度匹配时，将训练得到的视觉词典，采用多分配方法，将每个SIFT特征通过最近邻算法量化成视觉单词，然后采用汉明嵌入、rootSIFT和IDF方法，最终建立一个标准的倒排索引，并利用投票机制进行检索；

CNN语义特征的提取，根据兴趣目标的分割结果，用一个矩形框包含兴趣目标并将其剪切出来，然后利用MatConvNet工具提取兴趣目标的4096维的CNN特征向量，并对该特征向量进行归一化。

2.根据权利要求1所述的基于兴趣目标的图像检索方法，其特征在于：所述数据库为：对图像数据库中所有的图像进行显著性检测并分割出兴趣目标，然后在兴趣目标区域提取特征，所有图像的兴趣目标区域的特征组成的特征数据库。

3.根据权利要求1所述的基于兴趣目标的图像检索方法，其特征在于：迭代次数小于等于4次。

4.根据权利要求1所述的基于兴趣目标的图像检索方法，其特征在于：所述步骤(3)中使用加权的特征距离计算查询图像和数据库中每一幅图像之间的相似度，然后按照相似度由大到小的顺序返回图像检索结果。