CN108920643A

CN108920643A - 加权多特征融合的细粒度图像检索算法

Info

Publication number: CN108920643A
Application number: CN201810711795.5A
Authority: CN
Inventors: 王智慧; 王世杰; 王虹; 李豪杰; 李建军; 刘华
Original assignee: Dalian University of Technology
Current assignee: Nanjing Shurui Data Technology Co ltd
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-11-30
Anticipated expiration: 2038-06-26
Also published as: CN108920643B

Abstract

本发明属于计算机视觉技术领域，提供了一种加权多特征融合的细粒度图像检索算法。先设计约束条件来过滤patch。其次，改进了现阶段对大量patch特征采用的聚类或求和平均的方式，结合卷积层特征中目标区域激活值较大的特性，提出使用加权max‑pooling聚合patch特征，弱化可能残留背景信息的同时，尽可能多地保留有效目标信息。最后，引入深度信念网络，对图像的多级特征进行有效的非线性融合，挖掘出特征之间存在的内在联系以及丰富的互补信息，更好地对图像特征进行表征。与其它细粒度图像检索方法相比，本发明的算法综合地表征细粒度图像特征，进一步提高图像检索的准确率。

Description

加权多特征融合的细粒度图像检索算法

技术领域

本发明属于计算机视觉技术领域，以提高图像特征表征能力为出发点，提出加权多特征融合的细粒度图像检索算法。

背景技术

随着科技的发展，人们在检索领域有了更高、更细致的要求。以“鸟”为例，即使属于不同类别的鸟在外表上可能也是相似的。一般的基于目标的图像检索无法满足人们的需求,因此细粒度的图像检索(Fine-Grained Image Retrieval,FGIR)成为了图像检索领域中具有新鲜生命力且必需的研究课题。细粒度的图像检索可以应用在很多领域，比如动物保护、商品检索、中草药识别等，它的研究可以有助于为用户提供更加方便、准确的服务。

在细粒度检索中，给定相同物种(例如鸟，花或狗)的数据库图像和查询图像，在不依赖任何其他监督信息的情况下，应该返回与查询图像属于相同子类的图像。细粒度检索相较于通用的图像检索更为困难。一般图像检索侧重于基于其内容(例如纹理，颜色和形状)的相似性来检索“类似复制”的图像，而细粒度检索则侧重于检索相同子类的图像(例如鸟的相同子类)。细粒度图像检索的难点在于属于相同子类的目标可能具有不同的姿势、比例、背景等，而不属于相同类别的目标可能在这些方面又十分相似，如图1所示。现阶段对于细粒度图像检索的研究还比较少，因此迫切需要相关有效的技术。

在细粒度检索任务中，属于相同子类的目标拥有完全不同的背景，因此，图像级的全局特征不足以对细粒度图像进行高效的表示。在本发明中，将图像输入CNN网络，除了提取图像级的特征之外，通过对图像进行定位，选取出更加具有辨别能力的目标级特征，使用紧凑而有效的特征进行初步检索。

关于定位，Wei X.S.等人提出一种十分简单而有效的方法。一张图像输入卷积神经网络之后，其产生的特征图谱大小为w×h×d,其中w×h表示一张特征图的大小，d代表通道数。特征图中各个位置的激活值可能指示了图中的主要目标，也可能指示了图像中的背景噪声，因此单个通道的激活值对于表征物体位置没有太大参考意义。但如果很多通道在同一个位置区域均产生了较大的激活值，即可以认为这个区域是一个物体而不是背景。

基于这样的想法，将深度方向上获得的激活值进行相加求和，这样w×h×d的三维特征图谱就会变成w×h大小的二维特征图谱，记为聚合图谱A(Aggregation map)。对于聚合图谱而言，其w×h大小的激活响应值分别对应了w×h的位置。那些激活响应值高的位置，其对应的原图像的区域更有可能是物体的一个部分。因此，首先计算聚合图谱中激活响应值的平均值，记为u，若(i,j)位置的响应值高于u，则认为该位置对应了原图像中的物体，由此可以产生一个与聚合图谱A相同大小的掩码图M：

得到掩码图之后，首先使用双三次插值调整掩码图M的大小，使其大小与输入图像相同。然后将相应的0、1标识叠加到原始图像上，其中1的位置可以认为对应物体，0的位置则对应为背景。很容易想到，这样的操作肯定会有除了物体以外的背景中的噪声部分被激活。但幸运的是，由于噪声部分的面积通常小于主要物体的面积，因此采用最大连通域算法来收集 M中的最大连通区域，记为M′，以消除由背景噪声部分引起的干扰。

由此，使用M'来选择卷积特征图谱中的目标区域。特征图谱中每个像素点的描述x_(i,j)在 M′为1时认为是物体部分进行保留，在M′为0时认为是背景部分进行舍弃。最终用于粗略检索的特征描述记为：

F＝{x_(i,j)|M′＝1}

按照以上方法，将得到的掩码图M及最大连通区域M′映射回原图像，其中每个步骤得到的对应区域突出显示。

目标级特征的聚合采用平均池化以及最大值池化的方式，分别采用以下公式进行计算：

其中，N是目标区域M′中的总像素个数。f_avg和f_max均为d维的向量，d是特征提取层的通道数。最后目标级特征表示为：

S_object＝[f_avg,f_max]

发明内容

本发明提出了一个由粗略到精细的细粒度检索算法，如图2所示。

本发明的技术方案：

一种加权多特征融合的细粒度图像检索算法，步骤如下：

检索框架分别由粗略检索，细粒度检索和查询扩展三部分组成。因此给定一张查询图像 q，粗略检索阶段首先对目标进行定位，提取图像级以及目标级的CNN特征，其中，图像级特征留作下一步骤中的输入。使用目标级特征在整个数据库中进行粗略检索，返回Top-K张相似的图像，以缩小搜索空间；之后在细粒度检索阶段中，将获取到的图像级CNN特征输入到DBN网络中，同时对图像提取patch并过滤，输入CNN网络得到patch的特征集合。对patch特征集合中的所有特征进行加权的max-pooling，在忽略可能含有的背景信息的同时，保留较多的有效目标相关的信息，产生具有区分力的patch的CNN特征。接下来将patch的 CNN特征以及上一步获取到的图像级CNN特征输入到DBN网络，使用联合RBM对其进行融合。通过这种方式可以挖掘到图像级以及patch级特征的互补信息，以此得到更强大的描述符来表征图像，采用该融合特征在Top-K张图像中执行细粒度检索，得到更为精准的相似图像排序；最后，采用查询扩展用于进一步提高检索性能。这样的检索框架能够实现高效而又准确的细粒度检索。

对于细粒度图像检索而言，仅仅关注到图像级、目标级的特征是远远不够的。为了观察到图像的细微差别，还需要提取图像中更为精准的patch级特征。在本发明中，使用Selective Search算法从图像中产生大量的候选区域patch，这些候选patch提供了原图像不同视角及不同尺度的表现。需要对这些patch进行过滤，保留包含物体的候选patch，去除掉那些只包含背景，对检索没有帮助的patch。假设通过Selective Search算法为某一张图提取到的patch如图3(a)所示。为了选出有区分力的patch，这里主要考虑两个约束条件：

①patch与目标区域间的约束，即patch应和目标区域有较高程度的重叠。由于真正具有区分能力的部分都分布在目标区域内，如果忽略patch与目标物体之间的空间关系，会导致所选patch可能具有大面积的背景噪声、小面积的具有区分能力的区域，这降低了所选patch 的代表性。计算重叠率常用的评估标准是交叉比(Intersection over Union,IoU)，但IoU通常用于计算两个矩形的重叠率。在本发明中，定位的目标区域是任意形状的，如果直接采用IoU 计算patch与目标区域的重叠率，则需要对目标区域进行最小包围框操作，这样势必会引入一定程度的背景噪声。所以本发明采用一种更加准确地计算重叠度的方法，将不规则目标区域与patch的重叠像素个数作为评价标准，避免引入多余背景噪声的同时，更加准确地计算目标与patch的重叠度：

其中，p_i代表patch集合中第i个patch，X_pi表示第i个patch的区域，X_O表示粗略检索阶段产生的目标区域，若像素I落在X_pi和X_O的并集区域，则分子部分统计数加一；若像素I落在X_O区域，则分母部分统计数加一。通过该公式，与目标区域重叠像素个数多的patch将获得较高的重叠度，从而得以保留。如图3(a)中的蓝色patch会获得较小的重叠度而被去除，获得如图3(b)的结果。

在实际过滤过程中，发现存在一种特殊情况，如图3(b)中绿色patch所示。patch本身的面积较大，它能够很好地包含目标，获得较高的重叠度。但同时，它也会包含大量的背景区域，如果保留这种patch将会影响整体patch特征的可区分性。为了保证所选的patch与目标有较大重叠度的同时，与背景有较小重叠度，本发明进一步设计以下过滤条件：

与上式的区别在于分母是落入patch区域的像素个数。通过该式，若patch本身面积过大，则分母随之越大，最终该patch获得的重叠度变小，从而可以去除与背景区域重叠度较大的patch，获得如图3(c)所示的结果。

②patch之间的约束，即选择的局部patch之间应具有较小的重叠。忽略patch之间的空间关系，会导致最终所选择的patch彼此之间具有很大的重叠，反而可能会降低一些真正具有判别性的patch发挥的作用。由于Selective Search算法获得的patch都是矩形的，所以这里直接采用IoU计算patch与其它patch之间的重叠率：

其中，p_i代表patch集合中第i个patch，p_j代表patch集合中第j个patch，且i≠j。过滤后获得如图3(d)所示的结果。

记过滤后的patch特征集合为P＝{p₁,p₂,…,p_n}，最后的patch特征通过以下公式计算得出：

其中，M表示每个patch特征的维度，n表示patch特征的个数。通过这种方式，可以弱化一定程度的背景信息以外，还可以保留每个patch中较为重要的特征部分，从而生成一个更加具有区分力的patch级特征。

现有的细粒度图像分析中，虽然普遍利用了图像的多级特征，但只对这些特征进行了串联拼接，没有进一步深入地研究特征之间的内在联系。而DBN网络能够重建输入的特征分布，如果将多个特征分别输入到DBN网络，然后采用联合RBM对产生的特征进行融合，能够学习到特征之间的联合分布，从而获取特征之间的内在联系和丰富的互补信息。因此，在获得图像的图像级特征以及patch级特征之后，本发明采用DBN网络用于模拟图像及patch的特征分布，再通过联合RBM层对两个特征进行多粒度的融合，获取体现其内在联系的融合特征。

DBN网络可以对输入的特征分布进行重建，训练时定义一个重建loss，目的是使重建后的特征与输入的特征在分布上尽可能的相似：

其中S_image为图像级的CNN特征，S_patch为patch级的CNN特征。为重建后的图像级特征，为重建后的patch级特征。2-范数旨在使重建前后的特征分布尽可能相似。

将获取的图像级以及patch级CNN特征输入DBN网络，定义网络输出的概率函数为：

其中h⁽¹⁾,h⁽²⁾分别代表了DBN网络中的两个隐层，将产生的图像级特征以及patch级特征分别记为Q_I，Q_p。

接下来采用一个联合RBM来融合粗粒度的图像级特征及细粒度的patch特征。其输出的联合分布定义如下：

最终得到的联合分布被认为是图像级特征和patch级的联合表示，标记为S。该特征表示中捕捉了图像级特征及patch级特征中包含的内在关联和丰富的补充信息。

粗略检索步骤中，已经利用目标级特征得到与查询图像相似的Top-K张图像。使用图像级和patch级的融合后的特征S再次在Top-K中进行细粒度的检索，并根据Top-K张图像与查询图像之间的欧式距离排序。就可以得到与查询图像属于同一子类的图像排序列表。

查询扩展可以进一步有效提高检索的准确性。细粒度检索阶段有效地返回数据库中与查询图像属于同一子类的图像。在这里对于细粒度检索过程产生的Top-5的图像特征进行求和平均，以此生成新的查询描述符。用新的查询描述符执行新一轮的细粒度检索，更新得到的排名列表。

值得注意的是，在本发明中，对于数据库中的图像，其patch的提取、过滤、特征提取和融合的步骤均可以在线下计算并存储，在线搜索时可直接使用保存好的描述特征，因此它们的计算不会降低在线的搜索效率。

本发明的有益效果：与其它细粒度图像检索方法相比，本发明的算法综合地表征细粒度图像特征，进一步提高图像检索的准确率。

附图说明

图1为细粒度检索的主要难点，在于同一子类别中的目标可能在姿势、背景等方面存在很大的类内差异，而不同子类别之间可能在外观上十分相似，具有很小的类间差异。

图2为本发明提出的用于细粒度图像检索的流程图。

图3为patch过滤过程示意图。

图4为本发明的第一组定位效果和patch过滤效果展示图

图5为本发明的第二组位效果和patch过滤效果展示图。

图6为不同级特征进行不同组合时的检索准确性结果。

图7为一些查询图像的Top-5检索结果，其中查询结果图像中，绿色实线边界框和红色虚线边界框分别表示了检索正确和检索错误的结果。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面对本发明的具体实施方式作进一步的详细描述。

数据集采用了两个细粒度图像数据集：CUB-200-2011以及Oxford-Flower-102。CUB-200-2011数据集包含了200个不同鸟类子类的11788张图像，Oxford-Flower-102数据集共包含102个花卉子类别，共计8189张图像。实验评价指标采用最终返回图像列表的Top-5 的平均检索精度(mean Average Precision,mAP)，该项指标能够全面地评估算法的检索准确性，在图像检索领域有着广泛的应用。

CNN及DBN网络均在Caffe平台上进行训练和测试，使用的显卡为TITAN Xp。CNN 网络采用了广泛使用的VGG，输入图像大小为224×224。值得注意的是，可以使用其它任意CNN网络结构取代VGG。最终提取的图像级特征为最后一层全连接层，即fc7层的4096 维特征。目标级特征以及patch级特征按照第三章所述方法在pool_5层进行提取，均为1024 维特征。Softmax层中的神经元数量设置为子类别的数量。该网络在ImageNet 1K数据集的 1.3M训练图像上进行预训练，然后在细粒度图像数据集上进行微调。实验中用于融合图像级及patch级特征的DBN网络共有三层。输入特征为提取到的图像级以及patch级的CNN特征向量。图像级特征所用的DBN网络输入层共计4096个神经元，patch级特征所用的DBN网络输入层共计1024个神经元。隐层和输出层分为包含2048、1024个神经元。最后在图像级以及patch级的DBN网络之后叠加联合RBM网络，对特征进行融合。最终输出的特征维度为2048维。

本发明中的定位方法直接采用了Wei X.S.等人的工作，通过对卷积特征图谱进行深度加和，将激活值较大的部分认为是图像中目标的区域，产生的定位效果如图4所示。从图中(a)-(c) 可以看出，论文中所用的定位方法取得了较好的定位效果，比较贴合图像中的实际目标区域。但由于该定位方法是无监督的，一部分图像也会出现一些定位效果不佳的现象，如图4(d)-(f) 所示，激活值高的部分集中在鸟的身体部分，而遗漏了嘴部和尾部的区域。由此可以说明，虽然理论上图像的背景区域对检索是没有积极作用的，但由于现阶段定位方法在某些情况下的不准确，仅仅用目标级特征以及更加细微级的特征可能会遗漏重要的信息，在细粒度图像检索中，图像级特征仍然是必不可少的。

对数据集图像进行patch过滤的部分结果如图5所示。可以看出，最终保留的5个patch 均与目标有较大重叠度，包含较少背景信息，且彼此之间重叠率较小，能够保证最后的patch 特征的可区分性。

在patch过滤阶段，每张图像最终保留5个与目标重叠率较大，彼此之间重叠率较小的 patch。5个patch基本能够保证覆盖整个目标区域。在加权max-pooling中，保留前三个最大值进行加权，权值依次设置为0.5，0.3，0.2。实验对比结果如表1所示。

表1 patch特征不同融合方式的检索准确性

由表1可以看出，求和平均的方式可以得到65.92％的检索准确率，如果采用普通的 max-pooling的方式，检索准确率反而降低了。这是因为max-pooling认为其他的激活值是无效的，只保留了激活值最大的一个值。但在本发明的方法中，每个patch代表了不同的目标区域，因此，如果只保留最大值会遗漏掉很多有用的信息，获得的准确率会低于求和平均获得的准确率。而加权的max-pooling方法，其检索准确率达到66.73％，比求和平均的方法高 0.81％，说明所改进的加权max-pooling方法能够通过选取前几个最大值并进行加权后，在弱化每个patch特征中可能残留的背景信息基础上，尽可能多的保留更能体现目标细节的特征，从而提高细粒度检索的准确性。

为了观察多级特征之间的互补性，本发明对多级特征进行组合，观察其检索准确性，结果如图6所示。

如图6所示，单独使用图像级、目标级、patch级的CNN特征分别得到了61.29％、64.67％以及56.38％的检索准确率，其中目标级的特征对检索准确率有较大的提升，说明如果只使用某一级特征时，目标级的特征对细粒度的特征表示最为重要。同时，patch级的特征相比于图像级特征获得了较低的准确率，这可能由于patch级特征在获取过程中，使用了图像定位的结果。而在图像中目标含有遮挡等情况时，获取的目标位置并非是完全准确的，这可能给patch 中含有的有效目标信息较少，掺杂了较大程度的背景信息。

图像级特征关注于全局信息，目标级特征关注于目标外观上的差异，而patch级的特征能够关注于子类中有区分力的部分的细微、局部的区别。所以融合其中两种特征能够进一步地提高检索准确性，其中图像级和patch级特征融合后对检索准确率提升程度比其他两种特征的组合大。这可能是因为patch的选取过程一定程度上依赖了对目标的定位结果，选出的 patch可能基本覆盖了目标区域，所以目标级特征和patch级特征的互补性相对较弱，而图像级的全局信息和patch级的局部信息更为互补。

最后对三种级别的特征进行融合，其效果比图像级和patch级融合只提高了0.06％，这可能是由于图像级特征以及patch级特征中已经一定程度上体现了目标级的特征，所以接着加入目标级的特征提升的效果并不是很明显。实验结果说明，三级特征两者共同使用，能够相互促进，用于提升细粒度的特征学习，能够实现更好的细粒度检索表现。但三级特征融合的效果与图像级特征、patch级特征融合的效果没有十分明显地提升，考虑到计算复杂度的情况，后面只采用图像级与patch级特征进行融合。

现有的方法中，大部分对特征融合都采用了线性组合的方式，在本发明中，通过DBN网络对图像级、patch级的特征进行了非线性的融合。接下来对简单串联拼接两种特征以及使用联合RBM融合两种特征的检索准确性进行了实验，实验结果如表2所示。

表2特征不同融合方式的检索准确性

由表2可以看出，通过联合RBM对图像级特征以及patch级特征进行非线性融合的方式比简单串联融合达到了更好的检索准确性，相比提高了0.66％。说明通过联合RBM融合能够挖掘两种特征的相关性，在保留原有特征的基础上，深度挖掘到两者的内在联系及丰富的互补信息，从而提高对细粒度图像的表征能力。

为了进一步检验所提细粒度图像检索算法的性能，最后将其与最近的图像检索以及细粒度图像检索方法进行了对比，包括CNN+CROW、CNN+VLAD、CNN+R-MAC以及SCDA。表3总结了各个方法的特征维度，以及在CUB-200-2011以及Oxford-Flower-102两个细粒度数据集上的检索准确率，其中﹡表示数据来源于Wei X.S.等人的论文。

表3与其他细粒度检索方法对比

CNN+CroW、CNN+VLAD及CNN+R-MAC方法都是对CNN特征进行编码，得到紧凑的特征描述符进行细粒度检索。其中CNN+R-MAC相比于其他两种特征增加了patch的信息，因此在这三种方法中取得了相对较好的准确率。

CNN+R-MAC中的patch没有考虑到与目标的关系，而SCDA方法中对图像中的目标进行了精准定位，并且同时使用max-pooling及avg-pooling两种方式编码后的特征进行检索，这样充分关注了目标的特征，因此在CUB-200-2011数据集上准确率比CNN+R-MAC提高了5.57％。SCDA+在SCDA的基础上，结合了VGG网络中的pool_5、relu5_2两层的目标特征，在一定程度上结合了图像的浅层信息及语义信息。因此进一步提升了SCDA的检索准确性。

本发明的方法中，采用了由粗略到细粒度的检索框架，对大量patch特征进行加权max-pooling，得到能够关注目标细微差别的patch级特征。相比于SCDA，本发明融合了图像的多级信息，且更关注对鉴别有效的细节局部信息，因此进一步提升了检索准确率。在此基础上，查询扩展步骤进一步提高了检索准确率。一些查询结果如图7所示。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种加权多特征融合的细粒度图像检索算法，其特征在于，步骤如下：

(1)由粗略到精细的加权多特征融合的细粒度图像检索算法

步骤1)粗略检索阶段

给定一张查询图像q，粗略检索阶段对图像q首先提取图像级的特征，然后对图像q中的目标进行定位，产生目标区域，并提取目标级特征；将提取的图像级特征留作下一步的输入；使用目标级特征在整个数据库中进行粗略检索，返回Top-K张相似的图像，以缩小搜索空间；

步骤2)细粒度检索阶段

2.1)首先通过Selective Search算法为某一张图像提取到众多候选patch，然后使用patch两个约束条件，过滤选出有区分力的patch；

2.2)将步骤2.1)得到的patch输入到CNN网络中，提取到的patch级CNN特征进行聚合，得到patch级特征；

2.3)多粒度特征非线性融合，将获取的步骤1)图像级特征以及patch级CNN特征输入DBN网络，定义网络输出的概率函数为：

其中，h⁽¹⁾,h⁽²⁾分别代表DBN网络中的两个隐层，将产生的图像级特征以及patch级CNN特征分别记为Q_I，Q_p；

再采用一个联合RBM来融合粗粒度的图像级特征及细粒度的patch特征；其输出的联合分布定义如下：

最终得到的联合分布被认为是图像级特征和patch级的联合表示，标记为S；

粗略检索步骤中，利用目标级特征得到与查询图像相似的Top-K张图像；使用图像级特征和patch级的融合后的特征S，再次在Top-K中进行细粒度的检索，并根据Top-K张图像与查询图像之间的欧式距离排序，得到与查询图像属于同一子类的图像排序列表；

步骤3)查询扩展

细粒度检索阶段返回数据库中与查询图像属于同一子类的图像；对于细粒度检索过程产生的Top-5的图像特征进行求和平均，以此生成新的查询描述符；用新的查询描述符执行新一轮的细粒度检索，更新得到的图像排序列表；

(2)patch的约束条件与patch的聚合

(2.1)patch与目标区域间的约束，即patch和目标区域有较高程度的重叠；定位的目标区域是任意形状的，将不规则目标区域与patch的重叠像素个数作为评价标准，避免引入多余背景噪声的同时，更加准确地计算目标区域与patch的重叠度：

其中，p_i代表patch集合中第i个patch，表示第i个patch的区域，X_O表示粗略检索阶段产生的目标区域，若像素I落在和X_O的并集区域，则分子部分统计数加一；若像素I落在X_O区域，则分母部分统计数加一；通过该公式，与目标区域重叠像素个数多的patch将获得较高的重叠度，从而得以保留；

为保证所选的patch与目标区域有较大重叠度的同时，与背景有较小重叠度，进一步设计以下过滤条件：

与上式的区别在于分母是落入区域的像素个数；通过该式，若patch本身面积过大，则分母随之越大，最终该patch获得的重叠度变小，从而去除与背景区域重叠度较大的patch；

(2.2)patch之间的约束，即选择的局部patch之间具有较小的重叠；

忽略patch之间的空间关系，导致最终所选择的patch彼此之间具有很大的重叠，反而降低一些真正具有判别性的patch发挥的作用；由于Selective Search算法获得的patch都是矩形的，直接采用IoU计算patch与其它patch之间的重叠率：

其中，p_i代表patch集合中第i个patch，p_j代表patch集合中第j个patch，且i≠j；

(2.3)patch特征聚合

其中，M表示每个patch特征的维度，n表示patch特征的个数；通过这种方式，弱化一定程度的背景信息以外，还保留每个patch中较为重要的特征部分，从而生成一个更加具有区分力的patch级特征。