CN110750672B

CN110750672B - 基于深度度量学习和结构分布学习损失的图像检索方法

Info

Publication number: CN110750672B
Application number: CN201910882849.9A
Authority: CN
Inventors: 赵宏伟; 范丽丽; 刘萍萍; 赵浩宇; 张媛; 王鹏; 袁琳
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-06-16
Anticipated expiration: 2039-09-18
Also published as: CN110750672A

Abstract

本发明公开了一种基于深度度量学习和结构分布学习损失的图像检索方法，所述方法通过学习相似样本与查询图片的距离来保持内部的相似性结构以及根据负样本周围样本的分布情况设置权重并进行学习以保持其结构分布的一致性，从而准确提取图像特征。本发明将结构保持和结构分布熵理论引入到图像检索中，根据正样本与查询图片的欧式距离以及负样本周围样本的分布情况调整网络参数，能够更全面的学习图像特征从而进行更准确的检索。本发明充分考虑了正样本和负样本的分布情况对实验的影响，可以根据模型的训练效果对正样本和负样本的数量进行调整。

Description

基于深度度量学习和结构分布学习损失的图像检索方法

技术领域

本发明涉及一种图像检索方法，具体涉及一种基于深度度量学习和结构分布学习损失的图像检索方法。

背景技术

随着互联网技术的快速发展以及手机、相机等数码产品的普及，互联网上流传的图像数量越来越庞大，且图像中的内容也越来越复杂多样。在海量图像中快速准确的检索出需要的图像已经成为热门的研究课题。

从众多图像中检测稳健且有辨别力的特征是图像检索的一个重大挑战。传统方法依赖于手工制作的特征，其中包括光谱(颜色)、纹理和形状特征等全局特征，以及像词袋(BoW)、本地聚合描述符(VLAD)矢量和Fisher矢量(FV)等聚合特征，这种设计耗时并且需要大量的专业知识。

深度学习的进步推动了基于内容的图像检索的发展。深度卷积神经网络(CNN)特征使得高层次的语义信息变得极具抽象性，在图像检索方面优于传统的手工特征。此外，深度特征是从数据中自动学习的，不需要通过劳动者工作来设计特征，这使深度学习技术在大规模图像检索中极具价值。作为新兴技术，深度度量学习(DML)结合了深度学习和度量学习，DML将其深度神经网络的判别能力部署到嵌入度量空间中，其中图像之间的语义相似性将通过像欧式距离这样的简单度量直接测量。深度度量学习被证明在诸如迁移学习、人脸识别和自然图像检索等领域中是有效的。

损失函数对于成功的DML框架至关重要，并且在过去的工作中已经提出了各种损失函数。对比度损失通过捕获数据点对之间的距离关系来丢弃其相似度小于给定阈值的负对。大量研究集中于基于三重态的损失，其由锚点组成，这里指的是正(相似)数据点和负(不相似)数据点，并且三重态损失旨在学习距离度量，通过该距离度量，使得锚点相对于比负样本更接近正样本。通常，三重态损失考虑正负对之间的关系，因此它优于对比损失。受此启发，许多更新的研究已开始考虑多个数据点之间更丰富的结构化信息，并在许多应用中取得了令人满意的性能。

然而，目前最先进的DML方法仍然存在某些局限性并需要改进。首先，对于已知的查询图像，只组合少量数据来训练网络并计算损失，并将相似度较低的样本拉到与查询图像相同的距离，忽略了一些有用的样本和结构分布信息。其次，先前的结构性损失不考虑类内分布，所有算法的目的是使具有高相似性的样本尽可能接近查询样本。因此，这些方法试图将高样本的样本缩小到特征空间中的一个点，该方法可以容易地丢弃样品的结构。

发明内容

本发明的目的是提供一种基于深度度量学习和结构分布学习损失的图像检索方法，通过学习相似样本与查询图片的距离来保持内部的相似性结构以及根据负样本周围样本的分布情况设置权重并进行学习以保持其结构分布的一致性，从而准确提取图像特征。

本发明的目的是通过以下技术方案实现的：

一种基于深度度量学习和结构分布学习损失的图像检索方法，包括如下步骤：

步骤1：采用微调CNN网络提取查询图像和训练数据库中图像的底层特征；

步骤2：通过计算步骤1提取得到的查询图像和训练数据库中所有图像底层特征的欧氏距离，将训练数据分为正样本和负样本，将查询图像、正样本和负样本输入微调CNN网络再次进行底层特征提取，其中：每一个查询图像对应一个正样本和五个负样本；

步骤3：调整每个正样本与查询图像特征向量的距离；

步骤4：计算每一个负样本的权重，根据权重获取负样本组合的真实排序序号列表；

步骤5：将步骤4获得的训练数据的真实排序序号赋予负样本，将真实排序序号与其阈值相结合，运用基于结构分布的损失函数计算损失值，调整负样本与查询图像特征向量的距离；

步骤6：通过反向传播和共享权重对深度卷积网络的初始参数进行调整，得到深度卷积网络的最终参数；

步骤7：对于测试阶段，将查询图像和测试数据集中的图像进行多尺度处理，并输入步骤6得到的深度卷积网络中，通过学习白化对图像进行降维处理，得到与查询图像相关的图像列表；

步骤8：选取查询图像以及步骤7中获取的图像列表中的Top-N图像进行特征排序，对特征进行加权求和取平均作为查询图像，再进行步骤7的操作，得到最终的图像列表。

相比于现有技术，本发明具有如下优点：

1、本发明将结构保持和结构分布熵理论引入到图像检索中，根据正样本与查询图片的欧式距离以及负样本周围样本的分布情况调整网络参数，能够更全面的学习图像特征从而进行更准确的检索。

2、本发明充分考虑了正样本和负样本的分布情况对实验的影响，可以根据模型的训练效果对正样本和负样本的数量进行调整。

附图说明

图1是本发明基于深度度量学习和结构分布学习损失的图像检索方法的训练流程图；

图2是本发明基于深度度量学习和结构分布学习损失的卷积神经网络图；

图3是本发明的负样本选择图；

图4是本发明基于深度度量学习和结构分布学习损失的图像检索方法的测试流程图；

图5是本发明检索结果的可视化呈现。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明考虑到样本周围样本的分布决定着在特征提取时特征向量贡献的大小，从而影响是否能够对图像特征进行准确提取进而对图像检索有着重要的影响，提出了一种基于深度度量学习和结构分布学习损失的图像检索方法。如图1所示，所述图像检索方法包括以下步骤：

步骤1：提取查询图像和训练数据库中图像的底层特征。

提取底层特征是为了得到查询图像的初始特征表示。本发明采用的是微调CNN网络(AlexNet、VGG、Resnet101)的卷积部分对查询图像和训练数据库中图像的底层特征进行初步处理，即去掉卷积后的全连接层，并采用广义均值池化代替全连接后的最后一个最大池化进行池化操作。微调CNN网络如图2所示。

本步骤中，池化层采用广义均值池化，对每一个通道，取该通道上所有激活值的广义平均值作为通道池化层的输出值。

本步骤中，所述广义均值池化的计算方式为：

式中，K表示维度，x作为输入并产生一个向量f作为池化过程的输出，|χ_K|表示特征向量的个数，f_k表示特征向量，p_k表示指数，其范围为1至正无穷，当其取值为1时，此公式表示最大池化，当其取值为正无穷时，此公式表示平均池化。

广义均值池化是可微分的，并且是反向传播的一部分，通过手动设置参数p_k，微分操作公式为：

上式中，|χ_K|表示特征向量的个数，p_k表示指数，X表示特征图的像素值，f_k表示特征向量。

步骤2：通过计算步骤1提取得到的查询图像和训练数据库中所有图像底层特征的欧氏距离，将训练数据分为正样本和负样本，将查询图像、正样本和负样本输入网络再次进行底层特征提取。

本步骤中，训练组由一个正样本和五个负样本组成，每个查询图像对应一个正样本和五个负样本，正样本与查询图像有很高的相似度，而负样本与查询图像的相似度较低。

本步骤中，所述正样本是在训练的过程中获得，每次从查询图像正相关对中随机选取若干组，把用于训练的数据集中所标正相关对的图像作为训练组内的正相关图像，每次只选择正相关对中的一个。

本步骤中，所述正相关对的获取不是使用具有相似摄像机位置的图像池，而是从一组图像中随机选择的正样本，该图像与查询图像有足够相同的点，但是没有表现出太极端的尺度变化，这个正样本图像是：

其中：q表示查询图片，i表示所选样本，P(i)表示图片i上能被观察到的点，P(q)表示查询图片q上能被观察到的点，|P(i)∩P(q)|表示两个图像之间的空间验证特征数量，m(q)表示描述同一物体的难样本，M(q)表示基于q簇中的摄像机构建的正相关候选图像池，t_i为0.2，t_s为1.5，scale(i,q)是两个图像之间的比例变化，这种选择方法仍然保证对相同对象的描述匹配更难。

本步骤中，所述负样本的选择图如图3所示，五个负样本是从不同于查询图像的聚类中选择的。

本步骤中，利用已有的方法对查询图片和训练数据集进行特征提取，计算提取到的查询图像与数据集图像的特征向量的欧式距离，在训练数据集中随机选取若干负样本数据作为待选低相关性图像池。

本步骤中，所述图像池选取同查询图像对应的特征向量欧式距离最小的N个图像聚类。

本步骤中，所述五个负样本的选择方法如图3所示，q为查询图像，a、b、c、d、e、f所在的簇为与查询图像欧式距离较远的负样本簇。假设将a、b、c、d、e、f选定在负样本的组别中，如果要选择5个低相关性的负样本，那么首先考虑图像a，图像a并不在查询图像q所在的正样本簇中或其它已入选低相关性图像所在标记聚类中，则将图像a作为该查询图像q所在输入组的一幅低相关性图像；图像b同理成为输入组内一幅低相关性图像；对于图像c，虽然图像c的特征向量与查询图像q的特征向量的欧式距离也很大，但图像c与图像b同属于一个已标记聚类，所以不将图像c作为该组内的一幅低相关性图像；图像d、e、f依次取为输入组中低相关性图像；当所需图像幅数达到5之后，就不再继续选取低相关性图像，故不再继续考虑图像g及其它图像。

步骤3：根据设定的阈值β，调整每个正样本与查询图像特征向量的距离。

步骤4：获取负样本组合的排序序号列表。

本步骤中，所述排序序号列表的获取方法包括以下步骤：

步骤4.1：对于每个查询样本q，存在大量具有不同结构分布的负样本，为了充分利用它们，我们根据负样本的空间分布，即自相似性和相关相似性，即样本违反约束的程度对负样本进行加权，我们提出了一种基于结构分布的熵权，其公式为：

其中q是查询样本，i是所选样本，这里选择的q和i是负样本对，N_i是负样本集，我们将两个样本的相似度定义为S_qi:＝<f(x_q；θ),f(x_i；θ)>，其中<·,·>表示得到n×n的相似度矩阵，(q,i)处的元素是S_qi，λ、β是固定的超参数。

步骤4.2：负样本与查询样本的相对相似性越大，信息量越大，S_qi就越大，将得到的ω值从大到小排序，序号就是α值，即为排序序号，排序序列为负样本组对于查询图像的真实排序序列。

步骤5：将训练数据的真实排序序号赋予负样本，将序号与其阈值相结合，运用损失函数计算损失值，调整正样本和负样本与查询图像特征向量的距离。

本步骤中，所述损失函数可以调整损失值优化参数来学习判别特征表示。

本发明要训练一个双分支暹罗网络，这个网络除了损失函数外，其余完全相同，网络的两个分支共享相同的网络结构并且共享网络参数。

本步骤中，所述基于结构分布的损失函数由两部分结合而成，q为查询图像，i为所选样本，对于q的每个查询图片i，都有Y(q,i)∈{0，1}；如果i相对于q是一个正相关图像，则Y(q,i)的值为1；如果i相对于q是一个负相关性图像，则Y(q,i)的值为0，Y(q,i)代表查询图片和输入图片的相似度衡量。

损失函数定义为：

式中：f(q)表示从查询图片q中抽取的视觉特征信息向量，f(i)表示从任意一张图像中抽取视觉特征信息向量，n是负样本数目，α是图像i在真实排序序列中的序号，如果有五个样本，α的取值为0、1、2、3、4，n的值为5。

对于同查询图像具有高相关性、在数据集中已经标记为正相关的图像，即Y(q,i)＝1的图像，我们要保证它在特征空间中与查询图像保持固定的欧式距离β，在这个距离内，正样本能够保持其结构特征。

对于同查询图像具有低相关性的图像，在网络训练过程中我们将其标记为其所处与训练组中Y(q,i)＝0的数据，对于组内的所有负样本，如果它与查询图像的欧式距离大于按序边界值，则取夹紧下边界值即loss＝0，图像被视为垃圾样本，如果它与查询图像的欧式距离小于按序边界值，则计算损失。

步骤6：通过反向传播和共享权重对深度卷积网络的初始参数进行调整，得到深度卷积网络的最终参数。

本步骤中，基于成对损失值对深度网络的参数进行全局调整。在本发明的实施中，采用著名的后向传播算法进行全局参数调整，最终得到所述深度网络的参数。

步骤7：对于测试阶段，将查询图像和测试数据集中的图像进行多尺度处理，并输入步骤6得到的深度卷积网络中，通过学习白化对图像进行降维处理，得到与查询图像相关的图像列表，测试图如图4所示。

如图4所示，数据输入采用无学习训练的多尺度表示的方式，在原输入图像上进行不同尺度的降采样组合成新特征。

本步骤中，所述尺度设置，我们将其设置为1,2^-1/2,1/2，使用不同尺度下获取的特征作为新特征。

本步骤中，所述池化层采用与训练中一致的广义均值池化。

本步骤中，所述降维运用学习白化的方法，它考虑了精细调整的池化向量的后处理，利用3D模型提供的标记数据，并使用线性判别投影。

本步骤中，所述投影可以分为两部分：白化和旋转。

白化部分反映了组内(匹配对)协方差矩阵

的平方根：

式中，

和/>

分别表示图像i和图像j的特征向量，C_S表示协方差矩阵。

旋转部分是白化空间

中的类间(非匹配对)协方差矩阵：

式中，C_D表示白化空间中非匹配对的协方差矩阵。

将投影

作为/>

(μ是GeM池化向量)，为了将描述符维度减少到D维，仅使用对应于D个最大特征值的特征向量。

本步骤中，所述正则化采用L2正则化：

式中，m为样本数目，h_θ(x)是我们的假设函数，(h_θ(x)-y)²是单个样本的平方差，λ为正则化参数，θ为所求参数。

步骤8：选取查询图像以及步骤7中获取的图像列表中的Top-N图像进行特征排序，对特征进行加权求和取平均作为查询图像，再进行步骤六的操作，得到最终的图像列表。

本步骤中，所述特征排序的方法为：计算测试图片特征向量与查询图片特征向量的欧式距离，由小到大依次排序。

本步骤中，所述查询扩展通常会导致准确性的大幅提升，其工作过程包括以下几步：

步骤8.1，初始查询阶段，使用查询图像的特证向量进行查询，通过查询得到返回的Top N个结果，前N个结果可能会经历空间验证阶段，其中与查询不匹配的结果会丢弃。

步骤8.2，将剩余的结果与原始查询一起进行求和并进行重新的正则化；

步骤8.3，使用组合描述符进行第二个查询，生成如图5所示的检索图像的最终列表。

Claims

1.一种基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述方法包括如下步骤：

步骤2：通过计算步骤1提取得到的查询图像和训练数据库中所有图像底层特征的欧氏距离，将训练数据分为正样本和负样本，将查询图像、正样本和负样本输入微调CNN网络再次进行底层特征提取；

步骤3：调整每个正样本与查询图像特征向量的距离；

步骤4：计算每一个负样本的权重，根据权重获取负样本组合的真实排序序号列表，真实排序序号列表的获取方法包括以下步骤：

步骤4.1：对于每个查询样本q，根据负样本的空间分布对负样本进行加权，计算负样本的基于结构分布的熵权ω：

其中，q是查询样本，i是所选样本，N_i是负样本集，S_qi是(q,i)处的元素，λ、β是固定的超参数；

步骤4.2：将计算得到的ω值从大到小排序，所得排序序列为负样本组对于查询图像的真实排序序号序列；

2.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤1中，提取查询图像和训练数据库中图像的底层特征的方法如下：采用微调CNN网络的卷积部分对查询图像和训练数据库中图像的底层特征进行初步处理，即去掉卷积后的全连接层，并采用广义均值池化代替全连接后的最后一个最大池化进行池化操作。

3.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤2中，正样本是在训练的过程中获得的，每次从查询图像正相关对中随机选取若干组，把用于训练的数据集中所标正相关对的图像作为训练组内的正相关图像，每次只选择正相关对中的一个。

4.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤2中，负样本是从不同于查询图像的聚类中选择的，每个查询图像对应五个负样本。

5.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤5中，所述基于结构分布的损失函数由两部分结合而成，q为查询样本，i为所选样本，对于q的每个查询图片i，都有Y(q,i)∈{0，1}；如果i相对于q是一个正相关图像，则Y(q,i)的值为1；如果i相对于q是一个负相关性图像，则Y(q,i)的值为0，Y(q,i)代表查询图片和输入图片的相似度衡量。

6.根据权利要求5所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述基于结构分布的损失函数定义为：

式中：f(q)表示从查询样本q中抽取的视觉特征信息向量，f(i)表示从任意一张图像中抽取视觉特征信息向量，n是负样本数目，α是图像i在真实排序序列中的序号。

7.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤7中，通过学习白化对图像进行降维处理的方法如下：利用3D模型提供的标记数据，并使用线性判别投影，所述投影分为两部分：白化和旋转。

8.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤8中，特征排序的方法为：计算测试图片特征向量与查询图片特征向量的欧式距离，由小到大依次排序。

9.根据权利要求1所述的基于深度度量学习和结构分布学习损失的图像检索方法，其特征在于所述步骤8中，得到最终图像列表的方法如下：

步骤8.1，初始查询阶段，使用查询图像的特证向量进行查询，通过查询得到返回的TopN个结果，丢弃与查询不匹配的结果；

步骤8.3，使用组合描述符进行第二个查询，生成检索图像的最终列表。