CN113032601A - 一种基于判别性提升的零样本草图检索方法 - Google Patents
一种基于判别性提升的零样本草图检索方法 Download PDFInfo
- Publication number
- CN113032601A CN113032601A CN202110407892.7A CN202110407892A CN113032601A CN 113032601 A CN113032601 A CN 113032601A CN 202110407892 A CN202110407892 A CN 202110407892A CN 113032601 A CN113032601 A CN 113032601A
- Authority
- CN
- China
- Prior art keywords
- sketch
- model
- network
- discriminant
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于判别性提升的零样本草图检索方法,提出教师‑学生网络体系结构,由一个使用预训练模型的教师网络和一个由教师网络引导输出的学生网络组成。通过采用更强大的预训练模型作为教师网络,并增加基于预测概率的硬编码距离来进一步增强教师网络的判别性。然后,使用教师网络的输出作为学习目标,对学生网络进行微调。经过训练,得到性能更优的草图网络模型。检索时,将待查询的草图和每一张候选图像输入到草图网络模型中,得到它们的特征向量。计算这些特征向量之间的欧几里得距离,并以此度量草图查询和每个候选图像之间的相似度。根据相似度大小,模型返回与待查询的草图最相似的图像。本发明检索准确率高,模型稳定性高,适用性强的优点。
Description
技术领域
本发明基于草图的图像检索领域,特别是涉及一种基于判别性提升的零样本草图检索方法。
背景技术
基于草图的图像检索(Sketch-Based Image Retrieval, SBIR)技术被广泛用于许多实际应用中,例如动画,电子商务和安全领域。它允许用户使用徒手绘制的草图来替代传统的文本和图像作为输入来搜索感兴趣的图像。
给定待查询的草图,SBIR任务的目的是检索目标数据集中具有与查询草图相似语义的图像。为此,需要一个带有标签的草图和图像的训练数据集,以便于模型学习草图域和图像域之间的语义关系。
一般来说,SBIR任务中的训练数据集和目标数据集共享所有样本类别。即,检索到的图像的类别已经出现在训练集中。但是,在实际应用中,通常训练集很难涵盖所有的类别。当目标数据集中的类别不在训练集中时,检索就只能依靠送入训练完成模型的单个草图。这就是零样本的SBIR(Zero Shot-SBIR, ZS-SBIR)任务。ZS-SBIR问题的一种解决方案是使用在大型数据集上预训练的模型作为基础网络,然后对训练数据集进行微调来学习草图域和图像域的公共特征空间。这样,即通过将跨模态信息嵌入到公共特征空间来弥合域间隔。但是,在模型微调过程中,可能会丢失模型在预训练过程中获得的先验知识,从而导致模型在目标数据集的性能退化。
近年来,随着智能电话和Internet的不断发展,SBIR已成为动画,电子商务和安全性领域不可或缺的部分。但是,SBIR方法在现实世界中表现不佳。因此,本发明要解决的主要问题是在现实世界中稳定有效地检索出与用户绘制的草图有关的图像。
发明内容
为了解决上述问题,本发明使用了一种学生教师网络架构,该架构由使用预训练模型的教师网络和一个由教师网络指导输出的学生网络组成。本发明没有在教师网络中引入补充语义,而是采用功能更强大的预训练模型作为教师网络,并通过基于预测概率添加硬编码距离的方式来进一步增强模型判别能力。然后,通过使用修改后的教师网络的输出作为学习目标来调整学生网络。
本发明提供一种基于判别性提升的零样本草图检索方法,具体步骤如下:
1)在两个损失函数的引导下在训练集上训练模型;
具体步骤如下:
①特征嵌入;
分类系统通常由特征嵌入模块和分类器模块组成,在深度学习中,端到端方案将这两个模块集成到一个网络中,对于特征嵌入模块,采用基于ResNeXt的CSE-ResNeXt模型作为基础网络,CSE-ResNeXt模型通过添加表示数据来自哪个域的标志符,将来自不同域的数据置于一个框架下,使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中,以弥合两种数据模态之间的差距,借助CSE-ResNeXt模型,生成M维的源特征 ;
②Benchmark分类器,即损失函数1:
Benchmark分类器的目的是:在公共特征空间中,使同一类中的草图和图像特征相互靠近,从而对不同类别的草图和图像进行判别,这是一个分类问题,Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;
③判别性提升分类器,即损失函数2:
较高的判别能力可使样本接近同一类别的样本,而远离其他类别的样本,通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力,具体为,将预测概率向量中的最大概率值以a为系数来增加,预测概率向量的其它概率值以-b为系数来减小;
给定教师网络的预测概率向量:
判别性提升后的预测概率向量:
在获得判别性提升后的预测概率向量之后,学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数:
④总的损失函数;
有了总的损失函数,通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型;
2)测试训练好的模型;
具体步骤如下:
②将需要查询的草图输入模型,获得其对应的特征向量;
③计算上两步得出特征向量之间的欧几里得距离,以此来测量需要查询的草图与每个候选图像之间的相似度,根据测量出来的相似度,模型将与草图相似度最高的图像输出。
作为本发明进一步改进,所述的基于草图的图像检索方法的应用条件是拥有足够的草图数据与图像数据来供给模型的训练所需。
作为本发明进一步改进,CSE-ResNeXt模型通过添加表示数据来自哪个域的具体域标识符来确定数据为草图域或图像域。
作为本发明进一步改进,所述的教师-学生网络模型,通过使用更强的教师网络,和对教师网络的输出进行硬编码增强来提升模型的判别性,从而提升学生网络的整体性能。
有益效果:ZS-SBIR是零样本任务和SBIR任务的组合。这项任务在两个方面都具有挑战性。首先,检索阶段中的类别不在训练阶段出现,这使其类似于常规的零样本任务设置。其次,在模型中学习的知识必须涵盖草图模态和图像模态。这更具挑战性,因为草图和图像之间可能存在较大的数据域间隔。为了解决这些问题,我们提出了一种基于判别性提升的零样本草图检索方法。本发明提出的方法较为完善的解决了上述问题,并且在零样本的测试环境下,本发明的检索精度大大超出先前所提出的模型。
附图说明
图1为基于判别性提升的零样本草图检索的流程图;
图2为SBIR与ZS-SBIR的区别图;
图3为基于判别性提升的零样本草图检索的模型架构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出了一种基于判别性提升的零样本草图检索方法,通过利用教师网络与训练数据对模型进行训练。随后利用训练好的模型提取待查询的草图与待检索的图像的特征向量,通过比对这些特征向量的相似度,解决零样本的草图检索问题。
其中基于判别性提升的零样本草图检索的流程图如图1所示,SBIR与ZS-SBIR的区别图如图2所示,基于判别性提升的零样本草图检索的模型架构图如图3所示。
下面对基于PyTorch搭建本发明的网络结构为例,对本发明进行进一步详细描述,但不作为对本发明的限定。
1)在两个损失函数的引导下在训练集上训练模型;
具体步骤如下:
①特征嵌入
分类系统通常由特征嵌入模块和分类器模块组成。在深度学习中,端到端方案将这两个模块集成到一个网络中。对于特征嵌入模块,我们采用基于ResNeXt的CSE-ResNeXt模型作为基础网络。CSE-ResNeXt模型通过添加表示数据来自哪个域(草图域或图像域)的标志符,将来自不同域的数据置于一个框架下。这样可以使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中,以弥合两种数据模态之间的差距。借助CSE-ResNeXt模型,可以生成M维的源特征;
②Benchmark分类器 (损失函数1)
Benchmark分类器的目的是:在公共特征空间中,使同一类中的草图和图像特征相互靠近。这是一个分类问题。Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;
③判别性提升分类器 (损失函数2)
研究表明,较高的判别能力可使样本接近同一类别的样本,而远离其他类别的样本。因此,我们建议通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力。具体来说,我们将预测概率向量的最大概率值以a为系数来增加它的概率值,其值为0.1。预测概率向量的其它概率值以-b为系数以减小它们的概率值,其值为0.01;
给定教师网络的预测概率向量:
判别性提升后的预测概率向量:
在获得判别性提升后的预测概率向量之后,学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数:
④总的损失函数
有了总的损失函数,我们就可以通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型。在训练网络时采用深度学习工具箱PyTorch中的Adam优化器,其初始学习率为0.0001,β1=0.9,β2=0.999。一个网络训练了20个epoch,batchsize为40。
2)测试训练好的模型;
具体步骤如下:
②将需要查询的草图输入模型,我们可以获得其对应的特征向量;
③计算上两步得出特征向量之间的欧几里得距离,以此来测量需要查询的草图与每个候选图像之间的相似度。根据测量出来的相似度,模型将与草图相似度最高的图像输出。
以下结合仿真实验,对本发明的技术效果作进一步说明。
1.仿真条件:
本发明使用型号为Nvidia Tesla V100的GPU,基于深度学习的工具箱PyTorch进行仿真实验。
2.仿真内容:
本发明在两个公开的专门用于草图检索方法性能测试的数据集Sketchy、TU-Berlin上进行仿真实验,其中:
数据集Sketchy包含来自125个不同类别的75,471张草图图像和73,002张自然图像,根据标准零样本学习的实验设置,将125个类别中的100个训练类作为已知类,25个测试类作为未见类;
数据集TU-Berlin包含来自250个不同类别的20,000张草图图像和204,070张自然图像,根据标准零样本学习的实验设置,将250个类别中的220个训练类作为已知类,30个测试类作为未见类。
用本发明和现有基于深度卷积神经网络的草图检索方法、零样本学习方法,在上述两个公开数据集Sketchy和TU-Berlin上进行仿真对比实验,结果如表1。
表1中的Precision@100和mAP@100分别为前100张检索图像的精度和平均精度均值。由表1的仿真结果可见,本发明在两个数据集上的精度和平均精度均值都远高于现有技术在两个数据集上的精度和平均精度均值。
以上所述,仅是本发明的较佳实施例之一,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (4)
1.一种基于判别性提升的零样本草图检索方法,具体步骤如下,其特征在于:
1)在两个损失函数的引导下在训练集上训练模型;
具体步骤如下:
①特征嵌入;
分类系统通常由特征嵌入模块和分类器模块组成,在深度学习中,端到端方案将这两个模块集成到一个网络中,对于特征嵌入模块,采用基于ResNeXt的CSE-ResNeXt模型作为基础网络,CSE-ResNeXt模型通过添加表示数据来自哪个域的标志符,将来自不同域的数据置于一个框架下,使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中,以弥合两种数据模态之间的差距,借助CSE-ResNeXt模型,生成M维的源特征;
②Benchmark分类器,即损失函数1:
Benchmark分类器的目的是:在公共特征空间中,使同一类中的草图和图像特征相互靠近,从而对不同类别的草图和图像进行判别,这是一个分类问题,Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;
③判别性提升分类器,即损失函数2:
较高的判别能力可使样本接近同一类别的样本,而远离其他类别的样本,通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力,具体为,将预测概率向量中的最大概率值以a为系数来增加,预测概率向量的其它概率值以-b为系数来减小;
给定教师网络的预测概率向量:
判别性提升后的预测概率向量:
在获得判别性提升后的预测概率向量之后,学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数:
④总的损失函数;
有了总的损失函数,通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型;
2)测试训练好的模型;
具体步骤如下:
②将需要查询的草图输入模型,获得其对应的特征向量;
③计算上两步得出特征向量之间的欧几里得距离,以此来测量需要查询的草图与每个候选图像之间的相似度,根据测量出来的相似度,模型将与草图相似度最高的图像输出。
2.根据权利要求1所述的一种基于判别性提升的零样本草图检索方法,其特征在于:所述的基于草图的图像检索方法的应用条件是拥有足够的草图数据与图像数据来供给模型的训练所需。
3.根据权利要求1所述的一种基于判别性提升的零样本草图检索方法,其特征在于:CSE-ResNeXt模型通过添加表示数据来自哪个域的具体域标识符来确定数据为草图域或图像域。
4.根据权利要求1所述的一种基于判别性提升的零样本草图检索方法,其特征在于:所述的教师-学生网络模型,通过使用更强的教师网络,和对教师网络的输出进行硬编码增强来提升模型的判别性,从而提升学生网络的整体性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110407892.7A CN113032601A (zh) | 2021-04-15 | 2021-04-15 | 一种基于判别性提升的零样本草图检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110407892.7A CN113032601A (zh) | 2021-04-15 | 2021-04-15 | 一种基于判别性提升的零样本草图检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113032601A true CN113032601A (zh) | 2021-06-25 |
Family
ID=76457941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110407892.7A Withdrawn CN113032601A (zh) | 2021-04-15 | 2021-04-15 | 一种基于判别性提升的零样本草图检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032601A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360701A (zh) * | 2021-08-09 | 2021-09-07 | 成都考拉悠然科技有限公司 | 一种基于知识蒸馏的素描图处理方法及其系统 |
CN114241273A (zh) * | 2021-12-01 | 2022-03-25 | 电子科技大学 | 基于Transformer网络和超球空间学习的多模态图像处理方法及系统 |
CN117131214A (zh) * | 2023-10-26 | 2023-11-28 | 北京科技大学 | 基于特征分布对齐与聚类的零样本草图检索方法及系统 |
-
2021
- 2021-04-15 CN CN202110407892.7A patent/CN113032601A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360701A (zh) * | 2021-08-09 | 2021-09-07 | 成都考拉悠然科技有限公司 | 一种基于知识蒸馏的素描图处理方法及其系统 |
CN113360701B (zh) * | 2021-08-09 | 2021-11-02 | 成都考拉悠然科技有限公司 | 一种基于知识蒸馏的素描图处理方法及其系统 |
CN114241273A (zh) * | 2021-12-01 | 2022-03-25 | 电子科技大学 | 基于Transformer网络和超球空间学习的多模态图像处理方法及系统 |
CN114241273B (zh) * | 2021-12-01 | 2022-11-04 | 电子科技大学 | 基于Transformer网络和超球空间学习的多模态图像处理方法及系统 |
CN117131214A (zh) * | 2023-10-26 | 2023-11-28 | 北京科技大学 | 基于特征分布对齐与聚类的零样本草图检索方法及系统 |
CN117131214B (zh) * | 2023-10-26 | 2024-02-09 | 北京科技大学 | 基于特征分布对齐与聚类的零样本草图检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN111832511A (zh) | 一种增强样本数据的无监督行人重识别方法 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
Mikriukov et al. | Unsupervised contrastive hashing for cross-modal retrieval in remote sensing | |
Ji et al. | Image-attribute reciprocally guided attention network for pedestrian attribute recognition | |
CN116702091B (zh) | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
Tran et al. | Aggregating image and text quantized correlated components | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN117421591A (zh) | 一种基于文本引导图像块筛选的多模态表征学习方法 | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN115587207A (zh) | 一种基于分类标签的深度哈希检索方法 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
Ji et al. | Teachers cooperation: team-knowledge distillation for multiple cross-domain few-shot learning | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
Jishan et al. | Hybrid deep neural network for bangla automated image descriptor | |
CN117150069A (zh) | 基于全局与局部语义对比学习的跨模态检索方法及系统 | |
CN116385946A (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN117150068A (zh) | 基于自监督对比学习概念对齐的跨模态检索方法及系统 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210625 |
|
WW01 | Invention patent application withdrawn after publication |