CN113032601A

CN113032601A - 一种基于判别性提升的零样本草图检索方法

Info

Publication number: CN113032601A
Application number: CN202110407892.7A
Authority: CN
Inventors: 赵海峰; 吴天健; 张燕
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-06-25

Abstract

一种基于判别性提升的零样本草图检索方法,提出教师‑学生网络体系结构，由一个使用预训练模型的教师网络和一个由教师网络引导输出的学生网络组成。通过采用更强大的预训练模型作为教师网络，并增加基于预测概率的硬编码距离来进一步增强教师网络的判别性。然后，使用教师网络的输出作为学习目标，对学生网络进行微调。经过训练，得到性能更优的草图网络模型。检索时，将待查询的草图和每一张候选图像输入到草图网络模型中，得到它们的特征向量。计算这些特征向量之间的欧几里得距离，并以此度量草图查询和每个候选图像之间的相似度。根据相似度大小，模型返回与待查询的草图最相似的图像。本发明检索准确率高，模型稳定性高，适用性强的优点。

Description

一种基于判别性提升的零样本草图检索方法

技术领域

本发明基于草图的图像检索领域，特别是涉及一种基于判别性提升的零样本草图检索方法。

背景技术

基于草图的图像检索（Sketch-Based Image Retrieval, SBIR）技术被广泛用于许多实际应用中，例如动画，电子商务和安全领域。它允许用户使用徒手绘制的草图来替代传统的文本和图像作为输入来搜索感兴趣的图像。

给定待查询的草图，SBIR任务的目的是检索目标数据集中具有与查询草图相似语义的图像。为此，需要一个带有标签的草图和图像的训练数据集，以便于模型学习草图域和图像域之间的语义关系。

一般来说，SBIR任务中的训练数据集和目标数据集共享所有样本类别。即，检索到的图像的类别已经出现在训练集中。但是，在实际应用中，通常训练集很难涵盖所有的类别。当目标数据集中的类别不在训练集中时，检索就只能依靠送入训练完成模型的单个草图。这就是零样本的SBIR（Zero Shot-SBIR, ZS-SBIR）任务。ZS-SBIR问题的一种解决方案是使用在大型数据集上预训练的模型作为基础网络，然后对训练数据集进行微调来学习草图域和图像域的公共特征空间。这样，即通过将跨模态信息嵌入到公共特征空间来弥合域间隔。但是，在模型微调过程中，可能会丢失模型在预训练过程中获得的先验知识，从而导致模型在目标数据集的性能退化。

近年来，随着智能电话和Internet的不断发展，SBIR已成为动画，电子商务和安全性领域不可或缺的部分。但是，SBIR方法在现实世界中表现不佳。因此，本发明要解决的主要问题是在现实世界中稳定有效地检索出与用户绘制的草图有关的图像。

发明内容

为了解决上述问题，本发明使用了一种学生教师网络架构，该架构由使用预训练模型的教师网络和一个由教师网络指导输出的学生网络组成。本发明没有在教师网络中引入补充语义，而是采用功能更强大的预训练模型作为教师网络，并通过基于预测概率添加硬编码距离的方式来进一步增强模型判别能力。然后，通过使用修改后的教师网络的输出作为学习目标来调整学生网络。

本发明提供一种基于判别性提升的零样本草图检索方法，具体步骤如下：

1）在两个损失函数的引导下在训练集上训练模型；

具体步骤如下：

①特征嵌入；

分类系统通常由特征嵌入模块和分类器模块组成，在深度学习中，端到端方案将这两个模块集成到一个网络中，对于特征嵌入模块，采用基于ResNeXt的CSE-ResNeXt模型作为基础网络，CSE-ResNeXt模型通过添加表示数据来自哪个域的标志符，将来自不同域的数据置于一个框架下，使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中，以弥合两种数据模态之间的差距，借助CSE-ResNeXt模型，生成M维的源特征

;

②Benchmark分类器，即损失函数1：

Benchmark分类器的目的是：在公共特征空间中，使同一类中的草图和图像特征相互靠近，从而对不同类别的草图和图像进行判别，这是一个分类问题，Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵；

其中N为训练集中所以训练样本的数量，

与

是Benchmark分类器的权重与偏置项；

③判别性提升分类器，即损失函数2：

较高的判别能力可使样本接近同一类别的样本，而远离其他类别的样本，通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力，具体为，将预测概率向量中的最大概率值以a为系数来增加，预测概率向量的其它概率值以-b为系数来减小；

给定教师网络的预测概率向量：

判别性提升后的预测概率向量：

在获得判别性提升后的预测概率向量之后，学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数：

其中n为训练集中所有图像样本的数量，

与

是判别性提升分类器的权重与偏置项；

④总的损失函数；

整个学生网络的总损失

是Benchmark损失

和判别性提升损失

的和：

有了总的损失函数，通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型；

2）测试训练好的模型；

具体步骤如下：

①准备测试图像数据集，该数据集中的任何一个样本，其类别都未在训练集中出现，其输入训练好的模型中，模型会输出对应的图像特征向量

，将这些特征向量保存下来；

②将需要查询的草图输入模型，获得其对应的特征向量；

③计算上两步得出特征向量之间的欧几里得距离，以此来测量需要查询的草图与每个候选图像之间的相似度，根据测量出来的相似度，模型将与草图相似度最高的图像输出。

作为本发明进一步改进，所述的基于草图的图像检索方法的应用条件是拥有足够的草图数据与图像数据来供给模型的训练所需。

作为本发明进一步改进，CSE-ResNeXt模型通过添加表示数据来自哪个域的具体域标识符来确定数据为草图域或图像域。

作为本发明进一步改进，所述的教师-学生网络模型，通过使用更强的教师网络，和对教师网络的输出进行硬编码增强来提升模型的判别性，从而提升学生网络的整体性能。

有益效果：ZS-SBIR是零样本任务和SBIR任务的组合。这项任务在两个方面都具有挑战性。首先，检索阶段中的类别不在训练阶段出现，这使其类似于常规的零样本任务设置。其次，在模型中学习的知识必须涵盖草图模态和图像模态。这更具挑战性，因为草图和图像之间可能存在较大的数据域间隔。为了解决这些问题，我们提出了一种基于判别性提升的零样本草图检索方法。本发明提出的方法较为完善的解决了上述问题，并且在零样本的测试环境下，本发明的检索精度大大超出先前所提出的模型。

附图说明

图1为基于判别性提升的零样本草图检索的流程图；

图2为SBIR与ZS-SBIR的区别图；

图3为基于判别性提升的零样本草图检索的模型架构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出了一种基于判别性提升的零样本草图检索方法，通过利用教师网络与训练数据对模型进行训练。随后利用训练好的模型提取待查询的草图与待检索的图像的特征向量，通过比对这些特征向量的相似度，解决零样本的草图检索问题。

其中基于判别性提升的零样本草图检索的流程图如图1所示，SBIR与ZS-SBIR的区别图如图2所示，基于判别性提升的零样本草图检索的模型架构图如图3所示。

下面对基于PyTorch搭建本发明的网络结构为例，对本发明进行进一步详细描述，但不作为对本发明的限定。

1）在两个损失函数的引导下在训练集上训练模型；

具体步骤如下：

①特征嵌入

分类系统通常由特征嵌入模块和分类器模块组成。在深度学习中，端到端方案将这两个模块集成到一个网络中。对于特征嵌入模块，我们采用基于ResNeXt的CSE-ResNeXt模型作为基础网络。CSE-ResNeXt模型通过添加表示数据来自哪个域（草图域或图像域）的标志符，将来自不同域的数据置于一个框架下。这样可以使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中，以弥合两种数据模态之间的差距。借助CSE-ResNeXt模型，可以生成M维的源特征

;

②Benchmark分类器 (损失函数1)

Benchmark分类器的目的是：在公共特征空间中，使同一类中的草图和图像特征相互靠近。这是一个分类问题。Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;

其中N为训练集中所以训练样本的数量，

与

是Benchmark分类器的权重与偏置项；

③判别性提升分类器 (损失函数2)

研究表明，较高的判别能力可使样本接近同一类别的样本，而远离其他类别的样本。因此，我们建议通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力。具体来说，我们将预测概率向量的最大概率值以a为系数来增加它的概率值，其值为0.1。预测概率向量的其它概率值以-b为系数以减小它们的概率值，其值为0.01;

给定教师网络的预测概率向量：

判别性提升后的预测概率向量：

其中n为训练集中所有图像样本的数量，

与

是判别性提升分类器的权重与偏置项；

④总的损失函数

整个学生网络的总损失

是Benchmark损失

和判别性提升损失

的和：

有了总的损失函数，我们就可以通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型。在训练网络时采用深度学习工具箱PyTorch中的Adam优化器，其初始学习率为0.0001，β₁＝0.9，β₂＝0.999。一个网络训练了20个epoch，batchsize为40。

2）测试训练好的模型；

具体步骤如下：

①将测试图像数据集（该数据集中的任何一个样本，其类别都未在训练集中出现。）输入训练好的模型中，模型会输出对应的图像特征向量

。将这些特征向量保存下来；

②将需要查询的草图输入模型，我们可以获得其对应的特征向量；

③计算上两步得出特征向量之间的欧几里得距离，以此来测量需要查询的草图与每个候选图像之间的相似度。根据测量出来的相似度，模型将与草图相似度最高的图像输出。

以下结合仿真实验，对本发明的技术效果作进一步说明。

1.仿真条件：

本发明使用型号为Nvidia Tesla V100的GPU，基于深度学习的工具箱PyTorch进行仿真实验。

2.仿真内容：

本发明在两个公开的专门用于草图检索方法性能测试的数据集Sketchy、TU-Berlin上进行仿真实验，其中：

数据集Sketchy包含来自125个不同类别的75,471张草图图像和73,002张自然图像，根据标准零样本学习的实验设置，将125个类别中的100个训练类作为已知类，25个测试类作为未见类；

数据集TU-Berlin包含来自250个不同类别的20,000张草图图像和204,070张自然图像，根据标准零样本学习的实验设置，将250个类别中的220个训练类作为已知类，30个测试类作为未见类。

用本发明和现有基于深度卷积神经网络的草图检索方法、零样本学习方法，在上述两个公开数据集Sketchy和TU-Berlin上进行仿真对比实验，结果如表1。

表1中的Precision@100和mAP@100分别为前100张检索图像的精度和平均精度均值。由表1的仿真结果可见，本发明在两个数据集上的精度和平均精度均值都远高于现有技术在两个数据集上的精度和平均精度均值。

以上所述，仅是本发明的较佳实施例之一，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。