CN110851645A

CN110851645A - 一种基于深度度量学习下相似性保持的图像检索方法

Info

Publication number: CN110851645A
Application number: CN201911089274.1A
Authority: CN
Inventors: 赵宏伟; 袁琳; 赵浩宇; 范丽丽; 李蛟; 张媛; 刘萍萍; 胡黄水
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-28
Anticipated expiration: 2039-11-08
Also published as: CN110851645B

Abstract

本发明公开了一种基于深度度量学习下相似性保持的图像检索方法，所述方法通过对具有代表性信息的样本对进行选择以及学习相似样本与查询图片的距离来保持内部的相似性结构，并根据正负样本对周围样本的分布情况设置不同的权重进行学习以保持其相似结构的一致性，从而更准确地提取图像特征。本发明将结构保持和正负样本挖掘理论引入到图像检索中，根据正样本与查询图片的欧式距离以及负样本周围样本的分布情况调整网络参数，能够更全面的学习图像特征从而进行更准确的检索。本发明充分考虑了正样本和负样本的分布情况对实验的影响，可以根据模型的训练效果对正样本和负样本的数量及选择进行调整。

Description

一种基于深度度量学习下相似性保持的图像检索方法

技术领域

本发明涉及一种图像检索方法，具体涉及一种基于深度度量学习下相似性保持的图像检索方法。

背景技术

近年来，互联网上视觉数据呈现出爆炸式的增长，越来越多的研究工作围绕图像搜索或图像检索技术而展开。早期的搜索技术仅采用文本信息，忽视了视觉内容作为排序的线索，导致搜索文本和视觉内容不一致。基于内容的图像检索(CBIR)技术充分利用视觉内容识别相关图像，在近几年来获得了广泛关注。

从众多图像中检测稳健且有辨别力的特征是图像检索的一个重大挑战。传统方法依赖于手工制作的特征，其中包括光谱(颜色)、纹理和形状特征等全局特征，以及像词袋(BoW)、本地聚合描述符(VLAD)矢量和Fisher矢量(FV)等聚合特征，这种设计耗时并且需要大量的专业知识。

深度学习的发展推动了CBIR的发展，从手工描述符演变到从卷积神经网络(CNNS)中提取学习的卷积描述符。深度卷积神经网络特征是高度抽象的并且具有高级语义信息。此外，深度特征从数据中自动学习，是数据驱动的，在设计特征方面不需要人为的努力，这使得深度学习技术在大规模图像检索中极具价值。深度度量学习(DML)是一种结合深度学习和度量学习的技术，其中度量学习的目的是学习嵌入空间，即鼓励相似样本的嵌入向量更接近，而不相似的样本彼此推开。深度度量学习利用深度卷积神经网络的鉴别能力将图像嵌入到度量空间中，其中可以使用欧几里得距离等简单的度量直接计算测量图像之间的语义相似度。深度度量学习被应用到很多自然图像领域，包括人脸识别、视觉追踪、自然图像检索。

在DML框架中，损失函数起着至关重要的作用，之前的研究中已经提出了大量的损失函数。对比损失捕获成对样本之间的关系，即相似性或相异性，使正对的距离最小化，同时大于边界的负对的距离最大化。基于三重损失也有很广泛的研究，三元组由查询图片、正样本和负样本组成。三重损失的目的是学习一个距离度量使得查询图片相比于负样本更接近正样本。通常来说，由于考虑了正负对之间的关系，三重损失优于对比损失。受此启发，最近很多研究都考虑了多个样本之间更丰富的结构化信息，并且在很多应用(如检索和聚类)上取得了很好的性能。

然而，目前最先进的DML方法仍然有一定的局限性。在之前的一些损失函数中，考虑了对多个样本的结构化信息进行合并，有的方法将和查询图片相同类别的所有除查询图片外的样本都用作正样本，将和查询图片不同类别的样本都当作负样本。通过这种方法可以利用所有非平凡样本构建一个信息量更大的结构用于学习更多的有区别的嵌入向量，虽然这样得到的信息量很大很丰富但存在很多的冗余信息，对计算量、计算成本和存储成本都带来了很大的麻烦。同时，在之前的结构性损失中没有考虑到类内的样本分布，所有的损失都希望可以尽可能靠近同一类中的样本。因此，这些算法都试图将同一类的样本压缩到特征空间中的一个点上，并且可能很容易丢失它们的一些相似性结构和有用的样本信息。

发明内容

本发明的目的是提供一种基于深度度量学习下相似性保持的图像检索方法，通过对具有代表性信息的样本对进行选择以及学习相似样本与查询图片的距离来保持内部的相似性结构，并根据正负样本对周围样本的分布情况设置不同的权重进行学习以保持其相似结构的一致性，从而更准确地提取图像特征。

本发明的目的是通过以下技术方案实现的：

一种基于深度度量学习下相似性保持的图像检索方法，包括如下步骤：

步骤1：初始化微调CNN网络，提取查询图像和训练数据库中图像的底层特征；

步骤2：通过计算步骤1提取得到的查询图像和训练数据库中所有图像底层特征的欧氏距离，以及根据训练数据的标签属性将训练集进行正负样本集划分，基于训练集样本与查询图像特征向量的距离挑选正负样本对，选择与查询图像同类别最不像的五个样本作为正样本，选择与查询图像不同类别且彼此类别不同的五个与查询图像最像的样本作为负样本，即每个查询图像通过计算获得五个正样本对及五个负样本对；

步骤3：设定阈值τ、α，跟据负样本和正样本分别的排序序号列表计算每个正负样本对的权重值；

步骤4：将步骤3获得的训练数据的真实排序序号分别赋予给选择出的负样本和正样本，将序号与其阈值相结合，分配给正负样本不同的权重，运用基于相似性保持的损失函数计算损失值，调整正负样本与查询图像特征向量的距离；

步骤5：通过反向传播和共享权重对深度卷积网络的初始参数进行进一步调整，得到深度卷积网络的更新参数；

步骤6：重复步骤1到步骤5，不断的训练更新网络参数，直到结束训练，epochdefault为30；

步骤7：对于测试阶段，将测试数据集中的查询图像和其他样本图像输入步骤6得到的深度卷积网络中，得到与查询图像相关的图像列表；

步骤8：选取查询图像以及步骤7中获取的各自相应图像列表中的Top-N图像进行特征排序，对特征进行加权求和取平均作为查询图像，再进行步骤7的操作，得到最终的图像列表。

相比于现有技术，本发明具有如下优点：

1、本发明将结构保持和正负样本挖掘理论引入到图像检索中，根据正样本与查询图片的欧式距离以及负样本周围样本的分布情况调整网络参数，能够更全面的学习图像特征从而进行更准确的检索。

2、本发明充分考虑了正样本和负样本的分布情况对实验的影响，可以根据模型的训练效果对正样本和负样本的数量及选择进行调整。

附图说明

图1是本发明基于深度度量学习下相似性保持的图像检索方法及其测试的流程图；

图2是本发明的样本对挖掘选择图；

图3是本发明检索结果的可视化呈现；

图4是本发明检索结果示例图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明考虑到样本周围样本的分布决定着在特征提取时特征向量贡献的大小，从而影响是否能够对图像特征进行准确提取进而对图像检索有着重要的影响，提出一种基于深度度量学习下相似性保持的图像检索方法。如图1所示，所述图像检索方法包括以下步骤：

步骤1：初始化微调CNN网络，提取查询图像和训练数据库中图像的底层特征。

提取底层特征是为了得到查询图像的初始特征表示。本发明采用的是微调CNN网络(ResNet50、VGG)的卷积部分对查询图像和训练数据库中图像的底层特征进行初步处理，即去掉卷积后的全连接层，并采用平均池化(SPoC)代替全连接后的最后一个最大池化进行池化操作。微调CNN网络如图1所示。

本步骤中，池化层采用SPoC池化，对每一个通道，取该通道上所有激活值的平均值作为通道池化层的输出值。

本步骤中，所述SPoC池化的计算方式为：

式中，K表示维度，x作为输入并产生一个向量f作为池化过程的输出，|χ_K|表示特征向量的个数，f_k表示特征向量。

步骤2：通过计算步骤1提取得到的查询图像和训练数据库中所有图像底层特征的欧氏距离，以及根据训练数据的标签属性将训练集进行正负样本集划分；基于训练集样本与查询图像特征向量的距离挑选正负样本对，选择与查询图像同类别最不像的五个样本作为正样本，选择与查询图像不同类别且彼此类别不同的五个与查询图像最像的样本作为负样本，即每个查询图像通过计算获得五个正样本对及五个负样本对。

本步骤中，每个查询图像对应五个正样本和五个负样本，正样本与查询图像有很高的相似度，但是这些所选择的正样本在所有与查询图像类别相同的图片中相似度最低，而所选择的负样本是所有与查询图像不同类别样本中的相似度较高的。

本步骤中，所述正负样本是在训练的过程中获得。正负样本的选择依赖于当前网络的参数并且每轮训练都进行更新。通过对训练集中所有图片与查询样本的欧式距离计算，根据不同的选择规则进行正负样本的选择。

本步骤中，所述正相关对是从一组图像中随机选择的正样本，到查询图像的描述符距离最大的五个图像被选择为正样本，表示为：

其中，m(q)表示描述同一物体的难样本，M(q)表示基于q簇中的摄像机构建的正相关候选图像池，q表示查询图片，p表示所选的正样本，f(x)是学习的度量函数，在特征空间中正样本与查询图像的相似度高于负样本与查询图像的相似度。

本步骤中，所述负样本的选择图如图2所示，五个负样本是从不同于查询图像的聚类中选择的。

本步骤中，利用已有的方法对查询图片和训练数据集进行特征提取，计算提取到的查询图像与数据集图像的特征向量的欧式距离，在训练数据集中随机选取若干负样本数据作为待选高相关性图像池。

本步骤中，所述图像池选取同查询图像对应的特征向量欧式距离最小的N个图像聚类。

本步骤中，所述五个正样本的选择方法如图2所示，对于查询图像来说，计算查询图像的特征向量f(q)，以及所有与查询图像同类的图像样本的特征向量f(p)。通过向量计算选择这些图像中与查询图像相似度最低的五个样本作为查询图片的正样本对。

本步骤中，所述五个负样本的选择方法如图2所示，对于查询图像来说，计算查询图像的特征向量f(q)，以及所有与查询图像不同类的图像样本特征向量f(n)。通过向量计算后按照大小进行排序，在这些样本中选择与查询图像最像的五个不同类别的图像，同时这五个图像也不属于同一类别，作为负样本对。

步骤3：根据设定的阈值τ、α，跟据负样本和正样本分别的排序序号列表计算每个正负样本对的权重值。

本步骤中，使正样本比任何负样本更接近查询图像，同时将负样本推到比正样本更远的位置α。用边缘来划分正样本和负样本，即正样本离查询图片最大距离为τ-α。因此，α是正负样本之间的差距，也是选择正负样本的标准。如图2所示，最终希望达到的效果是所有正样本都在与查询图像距离τ-α的范围内，所有负样本都推出到离查询图像距离τ之外，正负样本之间距离为α。

本步骤中，计算并记录距离查询样本距离为(margin-(τ-α),margin)的所有与查询样本同类别的图像数量，记做hardnum，为后面对正样本的权重设置最准备。

本步骤中，对于每个查询样本

存在大量具有不同结构分布的正样本和负样本，为了充分利用它们，本发明根据正样本和负样本各自的空间分布，即每个样本违反约束的程度，对正样本和负样本进行不同权重的赋值。

本步骤中，对于查询样本

P_i ^c表示所有与

属于同一类别的样本(即：正样本)的集合，表示为

则P_i ^c中样本的数量为|P_i ^c|＝N_c-1，N_c表示图像类别c的样本数量，i和j分别表示类别中第i个和第j个样本。表示所有与

不同类别的样本(即：负样本)集合，表示为

则

中样本的数量为

N_k表示图像类别k的样本数量，k和c分别表示类别k和类别c。步骤2中挑选出的五个正样本和五个负样本与查询图像一同组成元组数据集其中

表示五个被选择的正样本的集合，

表示五个被选择的负样本的集合。

表示正样本对的个数，表示负样本对的个数。

在本步骤中，对于负样本

提出基于相似性保持的权重公式为：

其中，r_j是负样本在负样本列表中的排序位置。

在本步骤中，对于正样本

提出基于相似性保持的权重公式为：

其中，n_i是本步骤中所记录的难正样本数量hardnum。

步骤4：将步骤3获得的训练数据的真实排序序号分别赋予给选择出的负样本和正样本，将序号与其阈值相结合，分配给正负样本不同的权重，运用基于相似性保持的损失函数计算损失值，调整正负样本与查询图像特征向量的距离。

本步骤中，所述基于相似性保持的损失函数可以调整损失值优化参数来学习判别特征表示。

本发明要训练一个双分支暹罗网络，这个网络除了损失函数外，其余完全相同，网络的两个分支共享相同的网络结构并且共享网络参数。

本步骤中，所述基于相似性保持的的损失函数由两部分结合而成，对于每个查询图像我们的目的是将它的所有负样本

比它的正样本P_i ^c远离α的距离。定义正样本损失为：

定义负样本损失

f是我们学习到的一个判别函数，使得在特征空间中，查询与正样本之间的相似度高于查询与负样本之间的相似度。即

分别表示查询样本

正样本

负样本

通过判别函数f计算得到的特征值。

因此，对于每个查询图像

基于相似性保持的损失函数定义为：

为了减少计算量和计算时间，我们在每类图像中随机选择I(I<N_c)个图像作为查询图像，其他图像为图像库。查询图像集为

则基于相似性保持的损失函数定义为：

其中，

为查询样本，C表示数据集样本类别的数量。

对于同查询图像具有高相关性、在数据集中已经标记为正相关的图像，即在集合中的图像，我们要保证它在特征空间中与查询图像保持固定的欧式距离τ-α，在这个距离内，正样本能够保持其结构特征。对于组内的所有正样本，如果它与查询图像的欧式距离小于按序边界值，则取loss＝0，图像被视为容易样本，如果它与查询图像的欧式距离大于按序边界值，则计算损失。

对于同查询图像具有低相关性的图像，在网络训练过程中我们将其标记为其所处与训练集合

中的数据，对于组内的所有负样本，如果它与查询图像的欧式距离大于按序边界值，则取夹紧下边界值即loss＝0，图像被视为无用样本，如果它与查询图像的欧式距离小于按序边界值，则计算损失。

步骤5：通过反向传播和共享权重对深度卷积网络的初始参数进行调整，得到深度卷积网络的最终参数。

本步骤中，基于成对损失值对深度网络的参数进行全局调整。在本发明的实施中，采用著名的后向传播算法进行全局参数调整，最终得到所述深度网络的参数。

步骤6：重复步骤1到步骤5，不断的训练更新网络参数，直到结束训练，epochdefault为30。

步骤7：对于测试阶段，将测试数据集中的查询图像和其他样本图像输入步骤6得到的深度卷积网络中，得到与查询图像相关的图像列表，测试图如图1所示。

本步骤中，所述池化层采用与训练中一致的SPoC均值池化。

本步骤中，所述正则化采用L2正则化：

式中，m为样本数目，h_θ(x)是我们的假设函数，(h_θ(x)-y)²是单个样本的平方差，λ为正则化参数，θ为所求参数。

步骤8：选取查询图像以及步骤7中获取的图像列表中的Top-N图像进行特征排序，对特征进行加权求和取平均作为查询图像，再进行步骤7的操作，得到最终的图像列表。

本步骤中，特征排序的方法为：计算测试图片特征向量与查询图片特征向量的欧式距离，由小到大依次排序。

本步骤中，查询扩展通常会导致准确性的大幅提升，其工作过程包括以下步骤：

步骤8.1，初始查询阶段，使用查询图像的特证向量进行查询，通过查询得到返回的TopN个结果，前N个结果可能会经历空间验证阶段，其中与查询不匹配的结果会丢弃。

步骤8.2，将剩余的结果与原始查询一起进行求和并进行重新的正则化；

步骤8.3，使用组合描述符进行第二次查询，生成检索图像的最终列表，最后查询结果如图3和图4所示。

Claims

1.一种基于深度度量学习下相似性保持的图像检索方法，其特征在于所述方法包括如下步骤：

步骤2：通过计算步骤1提取得到的查询图像和训练数据库中所有图像底层特征的欧氏距离，以及根据训练数据的标签属性将训练集进行正负样本集划分，基于训练集样本与查询图像特征向量的距离挑选正负样本对，选择与查询图像同类别最不像的五个样本作为正样本，选择与查询图像不同类别且彼此类别不同的五个与查询图像最像的样本作为负样本；

步骤6：重复步骤1到步骤5，不断的训练更新网络参数，直到结束训练，epoch default为30；

2.根据权利要求1所述的基于深度度量学习下相似性保持的图像检索方法，其特征在于所述步骤1中，提取查询图像和训练数据库中图像的底层特征的方法如下：采用的是微调CNN网络的卷积部分对查询图像和训练数据库中图像的底层特征进行初步处理，即去掉卷积后的全连接层，并采用平均池化代替全连接后的最后一个最大池化进行池化操作。

3.根据权利要求1所述的基于深度度量学习下相似性保持的图像检索方法，其特征在于所述步骤3中，所有正样本都在与查询图像距离τ-α的范围内，所有负样本都推出到离查询图像距离τ之外，正负样本之间距离为α。

4.根据权利要求1所述的基于深度度量学习下相似性保持的图像检索方法，其特征在于所述步骤3中，负样本对的权重值计算公式为：