CN110472088B

CN110472088B - 一种基于草图的图像检索方法

Info

Publication number: CN110472088B
Application number: CN201910744494.7A
Authority: CN
Inventors: 冯桂焕; 宗羿
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2023-06-27
Anticipated expiration: 2039-08-13
Also published as: CN110472088A

Abstract

本发明公开一种基于草图的图像检索方法，包括以下步骤：分别训练对应草图和照片的两个CNN的分类模型；使用步骤S1中得到的分类模型构建检索模型，基于quadruplet loss训练检索模型；预处理图像库中图像；单个模型检索；将多个检索模型得到的结果进行融合，得到最终检索结果；本发明依据的理论是减小草图和同类图像所对应的特征向量间距的同时增加草图和异类图像所对应的特征向量间距。与triplet损失相比，quadruplet损失在限制草图和图像的距离，同时关注了图像的异类间距，使得不同类别的图像在最终特征空间中的分布有更高的类别区分度，即产生更大的类间距离和相对较小的类内距离，从而使检索模型具有更好的性能。

Description

一种基于草图的图像检索方法

技术领域

本发明涉及图像检索技术领域，特别是涉及一种基于草图的图像检索方法。

背景技术

随着拍摄设备的普及，存储设备性能的提高和网络传输技术的快速发展，当今人们能够获取和管理较大数量的图像数据。图像检索技术能够帮助人们快速方便的查找所需要的目标图像，但是当所需要查找的目标图像由复杂场景构成而难以简单描述，或者图像中的物体类别标签不明确或未知时，基于文字标签或类别的检索方式就不方便使用。而基于草图的图像检索技术(Sketch Based Image Retrieval，SBIR)则能够很好的处理这类需求：只需要绘制出的草图而不需要文字描述，就能够在图像库中查询到相似的目标图像。

基于草图的图像检索主要需要解决以下问题：草图和照片图像在颜色、背景等方面都存在固有的差异，同时草图也存在物体各部分比例失调、不同程度的简化和拟人化等特点(如图1所示)，传统的图像特征提取的方式难以很好地解决这些问题。而近年来卷积神经网络(CNN)的发展使得计算机能够更好理解图像信息，同样也包含草图，在Eitz等人工作所收集的一个包含250个类别的草图数据集上，CNN模型的分类正确率已经接近人类。这使得基于CNN等深度模型的框架成为了解决SBIR问题的主流框架。

在近期的工作中，多数CNN模型都是基于triplet损失训练的triplet网络结构。但是模型输出的图像特征依然具有较大的类内差异和不够明显的类间差异，这使得模型在训练数据上具有较高的拟合度而泛化能力不足。本发明将Quadruplet损失函数应用于基于草图的图像检索领域，Quadruplet损失能够更有效的约束类内差异和类间差异，训练SBIR检索模型可使其具有更好的检索精度。

发明内容

本发明的目的是提供一种基于草图的图像检索方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于草图的图像检索方法，包括以下步骤：

S1.分别训练对应草图和照片的两个CNN的分类模型；

S2.使用步骤S1中得到的分类模型构建检索模型，基于quadruplet loss训练检索模型；

S3.预处理图像库中图像；

S4.单个模型检索：对于一个检索请求，得到单个模型的检索结果；

S5.将多个检索模型得到的结果进行融合，得到最终检索结果。

作为本发明的进一步改进，所述步骤S1中，所述检索模型包括两个部分(如图3所示)：1)基于quadruplet损失训练的三个卷积神经网络模型；2)三个卷积神经网络模型的检索结果的综合集成。

作为本发明的进一步改进，所述检索模型中，每个卷积神经网络模型包含两个独立的CNN通道分别处理草图和图像数据，每个通道的基础模型结构为Xception模型；在两个通道末端连接一个全连接层，该层的输出即为草图和图像的特征向量表示，而草图和图像的相似程度由它们在对应通道输出向量间的欧氏距离度量；每张草图在单个模型上的检索结果也将会根据候选图像和该草图的相似程度排序获得，而最终的检索结果则会集成多个模型的结果进行类似于投票的机制决定。

作为本发明的进一步改进，所述步骤S1中，分类模型的结构为CNN模型中的Xception模型，初始化参数为在ImageNet数据集上训练得到的Xception模型参数，在Sketchy库上分别继续训练两个分类模型；

训练过程中使用的图像输入为299*299，每张图像有0.5的概率作翻转操作用于数据增强；训练初始的学习率为10^-3，每个分类模型训练15个轮次，每个轮次包括12800个训练样本，最终学习率下降至10^-5，使用Adam优化器进行模型训练。

作为本发明的进一步改进，所述步骤S2包括以下步骤：

S2.1从数据集中构建模型输入对，对于每张草图构建输入对q＝(s，p，n₁，n₂)，其中s代表草图，p代表与该草图同属一类的照片，n₁和n₂代表两张来自于不同类别，并且与s的类别也不相同的照片；

S2.2将预训练得到的两个分类模型组合得到图2所示的完整模型，主要由两个分类模型以及一个全连接层组成(如图2)，在S2.3的训练过程中，会冻结两个分类模型的前8层参数；

S2.3使用quadruplet loss训练步骤S2.2得到的模型，quadruplet loss的定义L_θ(q)如下：

其中s为草图，p为与s同类的正样本图像，n₁，n₂表示与s异类的负样本图像，且它们属于不同类别。f_θ(s)，f_θ(p)，f_θ(n₁)，f_θ(n₂)分别表示s，p，n₁，n₂经过模型映射后得到的输出向量。α₁，α₂和α类似作为设置的间隔值。

训练初始的学习率为10^-3，检索模型训练30个轮次，每个轮次包括12800个训练样本，最终学习率下降至10^-5，使用Adam优化器进行模型训练。

作为本发明的进一步改进，所述步骤S3中，对于图像库中的所有照片，都需要输入到检索模型中得到在其经过照片通道后在全连接层的输出，每一张图像对应一个512维的向量表示，所有的向量集合记为A。

作为本发明的进一步改进，所述步骤S4包括以下步骤：

S4.1对于一个草图查询请求，先将该草图输入检索模型中得到其经过草图通道后在全连接层的输出，转化为一个512维的向量表示，记为向量q；

S4.2在S3得到的集合A中查询与向量q最相似的若干个向量(相似度由两个向量间的欧氏距离定义)，这些向量对应的图像就是单个模型的检索结果；并根据欧式距离从小到大对检索结果排序得到单个模型的检索结果.

作为本发明的进一步改进，所述步骤S5包括：

通过S1和S2步骤训练得到多个检索模型，通过综合使用多个模型，得到一个最终的检索结果。

作为本发明的进一步改进，所述步骤S5具体为：

通过模型训练得到M个模型，那么对于每一个检索请求，M个模型一共能得到M个检索结果，记L_m为第m个模型的检索结果序列；对于候选集合X中的每一个照片，它的最终得分S(x)由以下公式定义：

L_m(x)表示图像x在序列L_m中的排位，β_m为超参数，其大小和检索结果中包含的图像数量相关(例如检索结果包含前二十张最相似的图像，那么β_m可以设置为20)；γ为超参数，可以设置为10⁶(一个较大数量级的数字，大于图像数据库中包含图像的数量)。

最后，根据候选集合X中每张照片的S(x)值对集合中的图像从小到大进行排序得到最终的检索结果，S(x)值越小表示该照片于查询请求q越相似。

本发明公开了以下技术效果：

本发明提出了一个基于quadruplet损失训练的集成模型QL-Ensemble用于SBIR任务，其依据的理论是减小草图和同类图像所对应的特征向量间距的同时增加草图和异类图像所对应的特征向量间距。与triplet损失相比，Quadruplet损失能够更有效的约束类内差异和类间差异，quadruplet损失在限制草图和图像的距离，同时关注了图像的异类间距，使得不同类别的图像在最终特征空间中的分布有更高的类别区分度，即产生更大的类间距离和相对较小的类内距离，从而使检索模型具有更好的性能。同时，本发明还设计提出了一种能够有效综合多个模型检索结果的集成方法，改善单个模型在检索上的不稳定性，进一步提高了检索精度。实验结果表明，本发明提出的方法在基准数据集上的检索精度明显优于已有方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为背景技术部分草图特点的示意图，其中，(a)比例失调(b)不同程度的简化(c)拟人化；

图2为使用quadruplet损失训练模型的结构示意图；

图3为面向SBIR任务的框架结构示意图；

图4为本发明方法的流程图；

图5为各模型在Sketchy库测试集上的Recall曲线图；

图6为两个基准库中部分草图的检索结果top-5效果图，(a)为TU-BerlinExtension测试集上的检索结果，(b)为sketchy测试集上的检索结果，箭头标记的图像为错误结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于草图的图像检索方法，流程框图如图4所示，包括以下步骤：

S1.分别训练对应草图和照片的两个CNN的分类模型；

检索模型包括两个部分，如图3所示：1)基于quadruplet损失训练的三个卷积神经网络模型；2)三个卷积神经网络模型的检索结果的综合集成。

检索模型中，每个卷积神经网络模型包含两个独立的CNN通道分别处理草图和图像数据，每个通道的基础模型结构为Xception模型；在两个通道末端连接一个全连接层，该层的输出即为草图和图像的特征向量表示，而草图和图像的相似程度由它们在对应通道输出向量间的欧氏距离度量；每张草图在单个模型上的检索结果也将会根据候选图像和该草图的相似程度排序获得，而最终的检索结果则会集成多个模型的结果进行类似于投票的机制决定。

分类模型的结构为CNN模型中的Xception模型，初始化参数为在ImageNet数据集上训练得到的Xception模型参数，在Sketchy库上分别继续训练两个分类模型；

Xception模型参见F.Chollet.Xception:Deep learning with depthwiseseparable convolutions.In Proceedings of the IEEE conference on computervision and pattern recognition,pages 1251–1258,2017，参数是在keras框架中复现该模型在ImageNet数据集上效果的时候训练得到，可下载直接使用该模型参数。

S2.使用步骤S1中得到的分类模型构建检索模型，基于quadruplet loss训练检索模型，包括以下步骤：

S2.2将预训练得到的两个分类模型组合得到如图2所示的完整模型，主要由两个分类模型以及一个全连接层组成，在S2.3的训练过程中，会冻结两个分类模型的前8层参数；

其中s为草图，p为与s同类的正样本图像，n₁，n₂表示与s异类的负样本图像，且它们属于不同类别。f_θ(s)，f_θ(p)，f_θ(n₁)，f_θ(n₂)分别表示

s，p，n₁，n₂经过模型映射后得到的输出向量。α₁，α₂和α类似作为设置的间隔值。如图2所表，s通过草图通道后再经过全连接层，而p，n₁，n₂则是通过照片通道后经过全连接层；

从公式定义中可以发现，该公式前两项试图减小草图s和正样本图像p之间的距离，并增大s和负样本图像n₁，n₂之间的距离。而最后一项则试图增大n₁，n₂之间的距离。相比于前两项，最后一项在限制草图和图像的距离同时关注了图像的异类间距，使得不同类别的图像在最终特征空间中的分布有更高的类别区分度，模型因而具有更高的检索精度。

训练初始的学习率为10^-3，检索模型训练30个轮次，每个轮次包括12800个训练样本，最终学习率下降至10^-5，使用Adam优化器进行模型训练；

S3.预处理图像库中图像：对于图像库中的所有照片，都需要输入到检索模型中得到在其经过照片通道后在全连接层的输出，每一张图像对应一个512维的向量表示，所有的向量集合记为A；

S4.单个模型检索：对于一个检索请求，得到单个模型的检索结果，包括以下步骤：

S4.2在S3得到的集合A中查询与向量q最相似的若干个向量(相似度由两个向量间的欧氏距离定义)，这些向量对应的图像就是单个模型的检索结果；并根据欧式距离从小到大对检索结果排序得到单个模型的检索结果；

S5.将多个检索模型得到的结果进行融合，得到最终检索结果：

作为本发明的进一步改进，所述步骤S5具体为：

β_m作为一个设置的超参数用于限制单个模型对最终检索结果的影响：假设第i个模型处理一些检索时效果较差，正样本图像在其检索结果序列中的位置十分靠后，即L_m(x)值过大，那么即使该正样本图像在其他模型的结果序列中排序靠前，最终S(x)值也会过大导致其处在最终结果序列靠后位置，这和预期结果是矛盾的。所以，本发明将β_m值设为各类别平均正样本数量的两倍。

用于保留当L_m(x)值大于β_m时，不同x的相对排序位置关系：如果对于所有L_m(x)大于β_m的情况，P_m(x)值都等于β_m，那么这些图像就失去了区分度而拥有相同的S(x)。

下面对本发明基于草图的图像检索方法进行实验验证。

本发明实验部分基于公开数据集Sketchy和TU-Berlin Extension进行，下面简单介绍。

Sketchy：Sketchy数据集包含125个类别共12500张图像和75471张草图，其中每个类别包含100张图像，而每张图像对应5张以上的草图。实验设置与“P.Sangkloy,N.Burnell,C.Ham,and J.Hays.The sketchy database:learning to retrieve badlydrawn bunnies.ACM Transactions on Graphics(TOG),35(4):119,2016.”中的实验设置相同，本发明使用每个类别中90％的草图和图像数据进行模型训练，剩下10的数据用于测试。

TU-Berlin Extension：TU-Berlin Extension数据集是基于TU-Berlin草图数据集建立，其中包含250个类别以及每个类别80张草图。本发明随机从每个类别中选择了10％的草图数据用于测试，剩余的草图和所有的图像数据用于模型训练，为了更好的与已有工作进行比较，这一实验条件与“L.Liu,F.Shen,Y.Shen,X.Liu,and L.Shao.Deep sketchhashing:Fast free-hand sketch-based image retrieval.In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pages 2862–2871,2017.”中保持一致。

本发明实验以早期经典的基于手工设计特征提取方式的方法作为对比，如，HOG:使用方向梯度直方图表征草图和图像；GF-HOG:HOG特征的改进版本,并且结合了视觉词袋模型；LKS:通过计算关键形状的的局部描述子来检测关键形状进而表征草图和图像，结合了Hungarian算法。同时还包含近年一些基于深度学习的方法和模型:Siamese CNN:孪生网络结构，使用contrastive损失函数训练网络；Triplet-AlexNet:使用AlexNet提取图像特征，使用triplet损失训练网络；DSH:一个基于深度神经网络的hash方法，面向大规模SBIR任务；Triplet_Cl_MT：训练过程同时有多个损失函数约束的多任务优化模型，结合triplet损失和分类损失；quadruplet_MT:多个损失函数约束，使用面向个例级别的quadruplet损失(和本方面中提出的quadruplet损失不同)。

为了进行更详细的对比实验分析，本发明定义以下不同的模型，它们拥有不同的条件设置：QL_Ensemble:使用quadruplet损失进行模型训练，并且进行模型集成(和图3展示的结构相同)，这也是本方面使用的最优框架结构；QL_Single:使用quadruplet损失进行模型训练，且不进行模型集成；Triplet_Single:使用triplet损失进行模型训练，且不进行模型集成。

本发明中使用mAP(mean Average Precision)值评估模型的检索精度，其定义如下，

其中N表示对于一个查询草图s所对应的正样本总数，position(i)表示检索的结果序列中第i个正样本所处的位置。Q_s为整个测试集中草图集合，|Q_s|则是Q_s中草图的数量。

首先分别为草图和图像训练对应的分类模型，模型结构为Xception模型，参数初始化为模型在ImageNet数据集上预训练的模型参数。训练过程中使用299×299尺寸作为输入，每张训练样本以0.5概率进行水平翻转进行数据增强，初始学习率为10^-3。

每个分类模型进行15个轮次的训练，每个轮次包含12800个样本。学习速度最终下降到10^–5，整个训练过程使用Adam优化器。实验使用两个GTX1080Ti GPU训练模型，每个分类模型的训练需要1.5小时，得到模型的分类精度如表1所示。

表1 在Sketchy和TU-BerlinExtension库上预训练Xception模型的分类准确率

然后将得到的两个分类模型组成具有两个通道的网络模型，如图2所示，再使用quadruplet损失训练该网络。在训练过程中，将每个通道模型前八个block的参数冻结，因为通过分类预训练后，浅层网络已经可以很好地提取图像特征，冻结部分参数能够使得网络更快的收敛。为了进行模型集成，本发明总共训练了三个网络。每个模型训练30个轮次，每个轮次包含12800个样本。初始学习率设置为10^-3，最终学习率降至10^–5，这个训练过程需要4个小时。

模型评估和比较，结果如表2所示。

表2 各模型和方法测试集上的mAP值

表2展示了本发明提出模型以及用于草图检索的评估结果，可以看出本发明提出的QL-Ensemble模型达到了最优的检索精度，相比于传统的SBIR方法，如LKS、GF-HOG、HOG，以及近年的深度模型如DSH、Triplet_CL_MT、Quadruplet_MT，在检索精度上都有提高，即使是没有使用模型集成方法的QL_Single模型精度也已经优于绝大多数现有模型，验证了quadruplet损失在SBIR任务上的有效性。同时QL_Ensemble模型进一步明显地提高了检索mAP值，也说明了本发明提出的集成方法在SBIR任务上的有效性。

整体上看基于深度学习的方法在SBIR任务上的表现要显著高于传统的基于人工设计的特征提取方式的方法，而其中本发明所提出的方法实现了最优的检索性能：在Sketchy数据集上mAP＝0.810，在TU-Berlin Extension数据集上mAP＝0.581，相比于此前的最优模型mAP值分别提高了0.027和0.011。

为了更详细的比较各个模型的检索效果，本发明对各深度学习模型在Sketchy库上检索表现绘制了recall曲线，如图5所示。从图中可以看出QL_Ensemble模型的表现明显优于其他模型，当K＝1时召回率为0.086，当k＝10时，召回率为0.761。

图6展示了使用QL_Ensemble模型进行草图检索的部分结果，对于大多数检索请求，模型都能返回正确类别的图像，即使是部分错误图像从形状等方面也具有可解释性，直观的表现了本发明所使用模型的有效性。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于草图的图像检索方法，其特征在于，包括以下步骤：

S1.分别训练对应草图和照片的两个CNN的分类模型；

S3.预处理图像库中图像；

S5.将多个检索模型得到的结果进行融合，得到最终检索结果；

所述S2中，所述检索模型包括两个部分：1)基于quadruplet损失训练的三个卷积神经网络模型；2)三个卷积神经网络模型的检索结果的综合集成；

所述检索模型中，每个卷积神经网络模型包含两个独立的CNN通道分别处理草图和图像数据，每个通道的基础模型结构为Xception模型；在两个通道末端连接一个全连接层，所述全连接层的输出即为草图和图像的特征向量表示，而草图和图像的相似程度由它们在对应通道输出向量间的欧氏距离度量；每张草图在单个模型上的检索结果也将会根据候选图像和该草图的相似程度排序获得，而最终的检索结果则会集成多个模型的结果进行融合；

所述S1中，分类模型的结构为CNN模型中的Xception模型，初始化参数为在ImageNet数据集上训练得到的Xception模型参数，在Sketchy库上分别继续训练两个分类模型；

训练过程中使用的图像输入为299*299，每张图像有0.5的概率作翻转操作用于数据增强；训练初始的学习率为10^-3，每个分类模型训练15个轮次，每个轮次包括12800个训练样本，最终学习率下降至10^-5，使用Adam优化器进行模型训练；

所述S2包括以下步骤：

S2.2将预训练得到的两个分类模型组合得到完整模型，主要由两个分类模型以及一个全连接层组成，在步骤S2.3的训练过程中，会冻结两个分类模型的前8层参数；

其中s为草图，p为与s同类的正样本图像，n₁，n₂表示与s异类的负样本图像，且它们属于不同类别；f_θ(s)，f_θ(p)，f_θ(n₁)，f_θ(n₂)分别表示s，p，n₁，n₂经过模型映射后得到的输出向量；α₁，α₂作为设置的间隔值；

2.根据权利要求1所述的基于草图的图像检索方法，其特征在于，所述S3中，对于图像库中的所有照片，都需要输入到检索模型中得到在其经过照片通道后在全连接层的输出，每一张图像对应一个512维的向量表示，所有的向量集合记为A。

3.根据权利要求2所述的基于草图的图像检索方法，其特征在于，所述S4包括以下步骤：

S4.2在S3得到的集合A中查询与向量q最相似的若干个向量，这些向量对应的图像就是单个模型的检索结果；并根据欧式距离从小到大对检索结果排序得到单个模型的检索结果。

4.根据权利要求3所述的基于草图的图像检索方法，其特征在于，所述S5包括：

5.根据权利要求4所述的基于草图的图像检索方法，其特征在于，S5具体为：

其中L_m(x)表示图像x在序列L_m中的排位，β_m为超参数，其大小和检索结果中包含的图像数量相关；γ为超参数，表示大于图像数据库中包含图像的数量；