CN113032601A - 一种基于判别性提升的零样本草图检索方法 - Google Patents

一种基于判别性提升的零样本草图检索方法 Download PDF

Info

Publication number
CN113032601A
CN113032601A CN202110407892.7A CN202110407892A CN113032601A CN 113032601 A CN113032601 A CN 113032601A CN 202110407892 A CN202110407892 A CN 202110407892A CN 113032601 A CN113032601 A CN 113032601A
Authority
CN
China
Prior art keywords
sketch
model
network
discriminant
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110407892.7A
Other languages
English (en)
Inventor
赵海峰
吴天健
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN202110407892.7A priority Critical patent/CN113032601A/zh
Publication of CN113032601A publication Critical patent/CN113032601A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于判别性提升的零样本草图检索方法,提出教师‑学生网络体系结构,由一个使用预训练模型的教师网络和一个由教师网络引导输出的学生网络组成。通过采用更强大的预训练模型作为教师网络,并增加基于预测概率的硬编码距离来进一步增强教师网络的判别性。然后,使用教师网络的输出作为学习目标,对学生网络进行微调。经过训练,得到性能更优的草图网络模型。检索时,将待查询的草图和每一张候选图像输入到草图网络模型中,得到它们的特征向量。计算这些特征向量之间的欧几里得距离,并以此度量草图查询和每个候选图像之间的相似度。根据相似度大小,模型返回与待查询的草图最相似的图像。本发明检索准确率高,模型稳定性高,适用性强的优点。

Description

一种基于判别性提升的零样本草图检索方法
技术领域
本发明基于草图的图像检索领域,特别是涉及一种基于判别性提升的零样本草图检索方法。
背景技术
基于草图的图像检索(Sketch-Based Image Retrieval, SBIR)技术被广泛用于许多实际应用中,例如动画,电子商务和安全领域。它允许用户使用徒手绘制的草图来替代传统的文本和图像作为输入来搜索感兴趣的图像。
给定待查询的草图,SBIR任务的目的是检索目标数据集中具有与查询草图相似语义的图像。为此,需要一个带有标签的草图和图像的训练数据集,以便于模型学习草图域和图像域之间的语义关系。
一般来说,SBIR任务中的训练数据集和目标数据集共享所有样本类别。即,检索到的图像的类别已经出现在训练集中。但是,在实际应用中,通常训练集很难涵盖所有的类别。当目标数据集中的类别不在训练集中时,检索就只能依靠送入训练完成模型的单个草图。这就是零样本的SBIR(Zero Shot-SBIR, ZS-SBIR)任务。ZS-SBIR问题的一种解决方案是使用在大型数据集上预训练的模型作为基础网络,然后对训练数据集进行微调来学习草图域和图像域的公共特征空间。这样,即通过将跨模态信息嵌入到公共特征空间来弥合域间隔。但是,在模型微调过程中,可能会丢失模型在预训练过程中获得的先验知识,从而导致模型在目标数据集的性能退化。
近年来,随着智能电话和Internet的不断发展,SBIR已成为动画,电子商务和安全性领域不可或缺的部分。但是,SBIR方法在现实世界中表现不佳。因此,本发明要解决的主要问题是在现实世界中稳定有效地检索出与用户绘制的草图有关的图像。
发明内容
为了解决上述问题,本发明使用了一种学生教师网络架构,该架构由使用预训练模型的教师网络和一个由教师网络指导输出的学生网络组成。本发明没有在教师网络中引入补充语义,而是采用功能更强大的预训练模型作为教师网络,并通过基于预测概率添加硬编码距离的方式来进一步增强模型判别能力。然后,通过使用修改后的教师网络的输出作为学习目标来调整学生网络。
本发明提供一种基于判别性提升的零样本草图检索方法,具体步骤如下:
1)在两个损失函数的引导下在训练集上训练模型;
具体步骤如下:
①特征嵌入;
分类系统通常由特征嵌入模块和分类器模块组成,在深度学习中,端到端方案将这两个模块集成到一个网络中,对于特征嵌入模块,采用基于ResNeXt的CSE-ResNeXt模型作为基础网络,CSE-ResNeXt模型通过添加表示数据来自哪个域的标志符,将来自不同域的数据置于一个框架下,使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中,以弥合两种数据模态之间的差距,借助CSE-ResNeXt模型,生成M维的源特征
Figure DEST_PATH_IMAGE001
;
②Benchmark分类器,即损失函数1:
Benchmark分类器的目的是:在公共特征空间中,使同一类中的草图和图像特征相互靠近,从而对不同类别的草图和图像进行判别,这是一个分类问题,Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;
Figure 309918DEST_PATH_IMAGE002
其中N为训练集中所以训练样本的数量,
Figure 758217DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
是Benchmark分类器的权重与偏置项;
③判别性提升分类器,即损失函数2:
较高的判别能力可使样本接近同一类别的样本,而远离其他类别的样本,通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力,具体为,将预测概率向量中的最大概率值以a为系数来增加,预测概率向量的其它概率值以-b为系数来减小;
给定教师网络的预测概率向量:
Figure 193746DEST_PATH_IMAGE005
判别性提升后的预测概率向量:
Figure DEST_PATH_IMAGE006
在获得判别性提升后的预测概率向量之后,学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数:
Figure 385693DEST_PATH_IMAGE007
其中n为训练集中所有图像样本的数量,
Figure 341011DEST_PATH_IMAGE008
Figure 694631DEST_PATH_IMAGE004
是判别性提升分类器的权重与偏置项;
④总的损失函数;
整个学生网络的总损失
Figure 227244DEST_PATH_IMAGE009
是Benchmark损失
Figure 816357DEST_PATH_IMAGE010
和判别性提升损失
Figure DEST_PATH_IMAGE011
的和:
Figure 16394DEST_PATH_IMAGE012
有了总的损失函数,通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型;
2)测试训练好的模型;
具体步骤如下:
①准备测试图像数据集,该数据集中的任何一个样本,其类别都未在训练集中出现,其输入训练好的模型中,模型会输出对应的图像特征向量
Figure 416283DEST_PATH_IMAGE001
,将这些特征向量保存下来;
②将需要查询的草图输入模型,获得其对应的特征向量;
③计算上两步得出特征向量之间的欧几里得距离,以此来测量需要查询的草图与每个候选图像之间的相似度,根据测量出来的相似度,模型将与草图相似度最高的图像输出。
作为本发明进一步改进,所述的基于草图的图像检索方法的应用条件是拥有足够的草图数据与图像数据来供给模型的训练所需。
作为本发明进一步改进,CSE-ResNeXt模型通过添加表示数据来自哪个域的具体域标识符来确定数据为草图域或图像域。
作为本发明进一步改进,所述的教师-学生网络模型,通过使用更强的教师网络,和对教师网络的输出进行硬编码增强来提升模型的判别性,从而提升学生网络的整体性能。
有益效果:ZS-SBIR是零样本任务和SBIR任务的组合。这项任务在两个方面都具有挑战性。首先,检索阶段中的类别不在训练阶段出现,这使其类似于常规的零样本任务设置。其次,在模型中学习的知识必须涵盖草图模态和图像模态。这更具挑战性,因为草图和图像之间可能存在较大的数据域间隔。为了解决这些问题,我们提出了一种基于判别性提升的零样本草图检索方法。本发明提出的方法较为完善的解决了上述问题,并且在零样本的测试环境下,本发明的检索精度大大超出先前所提出的模型。
附图说明
图1为基于判别性提升的零样本草图检索的流程图;
图2为SBIR与ZS-SBIR的区别图;
图3为基于判别性提升的零样本草图检索的模型架构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出了一种基于判别性提升的零样本草图检索方法,通过利用教师网络与训练数据对模型进行训练。随后利用训练好的模型提取待查询的草图与待检索的图像的特征向量,通过比对这些特征向量的相似度,解决零样本的草图检索问题。
其中基于判别性提升的零样本草图检索的流程图如图1所示,SBIR与ZS-SBIR的区别图如图2所示,基于判别性提升的零样本草图检索的模型架构图如图3所示。
下面对基于PyTorch搭建本发明的网络结构为例,对本发明进行进一步详细描述,但不作为对本发明的限定。
1)在两个损失函数的引导下在训练集上训练模型;
具体步骤如下:
①特征嵌入
分类系统通常由特征嵌入模块和分类器模块组成。在深度学习中,端到端方案将这两个模块集成到一个网络中。对于特征嵌入模块,我们采用基于ResNeXt的CSE-ResNeXt模型作为基础网络。CSE-ResNeXt模型通过添加表示数据来自哪个域(草图域或图像域)的标志符,将来自不同域的数据置于一个框架下。这样可以使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中,以弥合两种数据模态之间的差距。借助CSE-ResNeXt模型,可以生成M维的源特征
Figure 436191DEST_PATH_IMAGE001
;
②Benchmark分类器 (损失函数1)
Benchmark分类器的目的是:在公共特征空间中,使同一类中的草图和图像特征相互靠近。这是一个分类问题。Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;
Figure 438782DEST_PATH_IMAGE002
其中N为训练集中所以训练样本的数量,
Figure 227747DEST_PATH_IMAGE003
Figure 47804DEST_PATH_IMAGE004
是Benchmark分类器的权重与偏置项;
③判别性提升分类器 (损失函数2)
研究表明,较高的判别能力可使样本接近同一类别的样本,而远离其他类别的样本。因此,我们建议通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力。具体来说,我们将预测概率向量的最大概率值以a为系数来增加它的概率值,其值为0.1。预测概率向量的其它概率值以-b为系数以减小它们的概率值,其值为0.01;
给定教师网络的预测概率向量:
Figure 555009DEST_PATH_IMAGE005
判别性提升后的预测概率向量:
Figure DEST_PATH_IMAGE013
在获得判别性提升后的预测概率向量之后,学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数:
Figure 502236DEST_PATH_IMAGE014
其中n为训练集中所有图像样本的数量,
Figure 411287DEST_PATH_IMAGE008
Figure 12032DEST_PATH_IMAGE004
是判别性提升分类器的权重与偏置项;
④总的损失函数
整个学生网络的总损失
Figure 6533DEST_PATH_IMAGE009
是Benchmark损失
Figure 741140DEST_PATH_IMAGE010
和判别性提升损失
Figure 504696DEST_PATH_IMAGE011
的和:
Figure 541922DEST_PATH_IMAGE012
有了总的损失函数,我们就可以通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型。在训练网络时采用深度学习工具箱PyTorch中的Adam优化器,其初始学习率为0.0001,β1=0.9,β2=0.999。一个网络训练了20个epoch,batchsize为40。
2)测试训练好的模型;
具体步骤如下:
①将测试图像数据集(该数据集中的任何一个样本,其类别都未在训练集中出现。)输入训练好的模型中,模型会输出对应的图像特征向量
Figure 633506DEST_PATH_IMAGE001
。将这些特征向量保存下来;
②将需要查询的草图输入模型,我们可以获得其对应的特征向量;
③计算上两步得出特征向量之间的欧几里得距离,以此来测量需要查询的草图与每个候选图像之间的相似度。根据测量出来的相似度,模型将与草图相似度最高的图像输出。
以下结合仿真实验,对本发明的技术效果作进一步说明。
1.仿真条件:
本发明使用型号为Nvidia Tesla V100的GPU,基于深度学习的工具箱PyTorch进行仿真实验。
2.仿真内容:
本发明在两个公开的专门用于草图检索方法性能测试的数据集Sketchy、TU-Berlin上进行仿真实验,其中:
数据集Sketchy包含来自125个不同类别的75,471张草图图像和73,002张自然图像,根据标准零样本学习的实验设置,将125个类别中的100个训练类作为已知类,25个测试类作为未见类;
数据集TU-Berlin包含来自250个不同类别的20,000张草图图像和204,070张自然图像,根据标准零样本学习的实验设置,将250个类别中的220个训练类作为已知类,30个测试类作为未见类。
用本发明和现有基于深度卷积神经网络的草图检索方法、零样本学习方法,在上述两个公开数据集Sketchy和TU-Berlin上进行仿真对比实验,结果如表1。
Figure 781591DEST_PATH_IMAGE016
表1中的Precision@100和mAP@100分别为前100张检索图像的精度和平均精度均值。由表1的仿真结果可见,本发明在两个数据集上的精度和平均精度均值都远高于现有技术在两个数据集上的精度和平均精度均值。
以上所述,仅是本发明的较佳实施例之一,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (4)

1.一种基于判别性提升的零样本草图检索方法,具体步骤如下,其特征在于:
1)在两个损失函数的引导下在训练集上训练模型;
具体步骤如下:
①特征嵌入;
分类系统通常由特征嵌入模块和分类器模块组成,在深度学习中,端到端方案将这两个模块集成到一个网络中,对于特征嵌入模块,采用基于ResNeXt的CSE-ResNeXt模型作为基础网络,CSE-ResNeXt模型通过添加表示数据来自哪个域的标志符,将来自不同域的数据置于一个框架下,使模型在训练过程中更加关注将草图和图像嵌入到一个公共特征空间中,以弥合两种数据模态之间的差距,借助CSE-ResNeXt模型,生成M维的源特征
Figure DEST_PATH_IMAGE002
;
②Benchmark分类器,即损失函数1:
Benchmark分类器的目的是:在公共特征空间中,使同一类中的草图和图像特征相互靠近,从而对不同类别的草图和图像进行判别,这是一个分类问题,Benchmark分类器的损失定义为预测标签和真实标签之间的交叉熵;
Figure DEST_PATH_IMAGE003
其中N为训练集中所以训练样本的数量,
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE007
是Benchmark分类器的权重与偏置项;
③判别性提升分类器,即损失函数2:
较高的判别能力可使样本接近同一类别的样本,而远离其他类别的样本,通过增加带有硬编码距离的预测概率向量来提高分类器的判别能力,具体为,将预测概率向量中的最大概率值以a为系数来增加,预测概率向量的其它概率值以-b为系数来减小;
给定教师网络的预测概率向量:
Figure DEST_PATH_IMAGE008
判别性提升后的预测概率向量:
Figure DEST_PATH_IMAGE009
在获得判别性提升后的预测概率向量之后,学生网络原本的另一个交叉熵损失函数就变为判别性提升损失函数:
Figure DEST_PATH_IMAGE010
其中n为训练集中所有图像样本的数量,
Figure DEST_PATH_IMAGE012
Figure 447473DEST_PATH_IMAGE007
是判别性提升分类器的权重与偏置项;
④总的损失函数;
整个学生网络的总损失
Figure DEST_PATH_IMAGE014
是Benchmark损失
Figure DEST_PATH_IMAGE016
和判别性提升损失
Figure DEST_PATH_IMAGE018
的和:
Figure DEST_PATH_IMAGE019
有了总的损失函数,通过最小化学生网络的总损失来训练一个网络以此生成一个判别模型;
2)测试训练好的模型;
具体步骤如下:
①准备测试图像数据集,该数据集中的任何一个样本,其类别都未在训练集中出现,其输入训练好的模型中,模型会输出对应的图像特征向量
Figure 543473DEST_PATH_IMAGE002
,将这些特征向量保存下来;
②将需要查询的草图输入模型,获得其对应的特征向量;
③计算上两步得出特征向量之间的欧几里得距离,以此来测量需要查询的草图与每个候选图像之间的相似度,根据测量出来的相似度,模型将与草图相似度最高的图像输出。
2.根据权利要求1所述的一种基于判别性提升的零样本草图检索方法,其特征在于:所述的基于草图的图像检索方法的应用条件是拥有足够的草图数据与图像数据来供给模型的训练所需。
3.根据权利要求1所述的一种基于判别性提升的零样本草图检索方法,其特征在于:CSE-ResNeXt模型通过添加表示数据来自哪个域的具体域标识符来确定数据为草图域或图像域。
4.根据权利要求1所述的一种基于判别性提升的零样本草图检索方法,其特征在于:所述的教师-学生网络模型,通过使用更强的教师网络,和对教师网络的输出进行硬编码增强来提升模型的判别性,从而提升学生网络的整体性能。
CN202110407892.7A 2021-04-15 2021-04-15 一种基于判别性提升的零样本草图检索方法 Withdrawn CN113032601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110407892.7A CN113032601A (zh) 2021-04-15 2021-04-15 一种基于判别性提升的零样本草图检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110407892.7A CN113032601A (zh) 2021-04-15 2021-04-15 一种基于判别性提升的零样本草图检索方法

Publications (1)

Publication Number Publication Date
CN113032601A true CN113032601A (zh) 2021-06-25

Family

ID=76457941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110407892.7A Withdrawn CN113032601A (zh) 2021-04-15 2021-04-15 一种基于判别性提升的零样本草图检索方法

Country Status (1)

Country Link
CN (1) CN113032601A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360701A (zh) * 2021-08-09 2021-09-07 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
CN114241273A (zh) * 2021-12-01 2022-03-25 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN117131214A (zh) * 2023-10-26 2023-11-28 北京科技大学 基于特征分布对齐与聚类的零样本草图检索方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360701A (zh) * 2021-08-09 2021-09-07 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
CN113360701B (zh) * 2021-08-09 2021-11-02 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
CN114241273A (zh) * 2021-12-01 2022-03-25 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN114241273B (zh) * 2021-12-01 2022-11-04 电子科技大学 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN117131214A (zh) * 2023-10-26 2023-11-28 北京科技大学 基于特征分布对齐与聚类的零样本草图检索方法及系统
CN117131214B (zh) * 2023-10-26 2024-02-09 北京科技大学 基于特征分布对齐与聚类的零样本草图检索方法及系统

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN110083729B (zh) 一种图像搜索的方法及系统
CN111832511A (zh) 一种增强样本数据的无监督行人重识别方法
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
Mikriukov et al. Unsupervised contrastive hashing for cross-modal retrieval in remote sensing
Ji et al. Image-attribute reciprocally guided attention network for pedestrian attribute recognition
CN116702091B (zh) 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
Tran et al. Aggregating image and text quantized correlated components
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
Parvin et al. Transformer-based local-global guidance for image captioning
Ji et al. Teachers cooperation: team-knowledge distillation for multiple cross-domain few-shot learning
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
Jishan et al. Hybrid deep neural network for bangla automated image descriptor
CN117150069A (zh) 基于全局与局部语义对比学习的跨模态检索方法及系统
CN116385946A (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN117150068A (zh) 基于自监督对比学习概念对齐的跨模态检索方法及系统
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210625

WW01 Invention patent application withdrawn after publication