CN117131214B - 基于特征分布对齐与聚类的零样本草图检索方法及系统 - Google Patents

基于特征分布对齐与聚类的零样本草图检索方法及系统 Download PDF

Info

Publication number
CN117131214B
CN117131214B CN202311399196.1A CN202311399196A CN117131214B CN 117131214 B CN117131214 B CN 117131214B CN 202311399196 A CN202311399196 A CN 202311399196A CN 117131214 B CN117131214 B CN 117131214B
Authority
CN
China
Prior art keywords
neural network
feature extraction
image
feature
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311399196.1A
Other languages
English (en)
Other versions
CN117131214A (zh
Inventor
马惠敏
吴宇晨
宋昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202311399196.1A priority Critical patent/CN117131214B/zh
Publication of CN117131214A publication Critical patent/CN117131214A/zh
Application granted granted Critical
Publication of CN117131214B publication Critical patent/CN117131214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于特征分布对齐与聚类的零样本草图检索方法及系统,涉及图像检索技术领域,包括:获取带标签的基础图像数据构建数据集;对数据集进行训练集和测试集的划分;构建特征提取神经网络,对特征提取神经网络进行训练;将待检索图像输入至特征提取神经网络,获得待检索图像的图像特征;对图像特征进行后处理获得检索所需特征;输入用户手绘图像并检索。本发明所提出的上述技术能够有效缓解自然图像的多样性为草图检索带来的挑战,提升检索性能。提出的特征分布对齐损失函数能够以很小的开销减小自然图像和手绘图像两个域间的距离,从而使草图检索中的跨域距离度量更加准确,进一步提升检索性能。

Description

基于特征分布对齐与聚类的零样本草图检索方法及系统
技术领域
本发明涉及图像检索技术领域,尤其涉及一种基于特征分布对齐与聚类的零样本草图检索方法及系统。
背景技术
图像检索技术在现代社会中发挥着越来越重要的作用,它使得用户可以通过图像来获取相关信息、识别物体或者执行其他图像处理任务。其中,草图检索是一种重要的图像检索方式,它允许用户通过简略的手绘草图来查询图像数据库中的相关内容。这种检索方式对于普通用户而言非常便捷,然而在实际应用中,面临着一个重要的挑战,即零样本草图检索问题。
传统的草图检索方法通常依赖于大量的样本数据进行训练,通过学习图像之间的相似性,从而在数据库中准确地检索出相关图像。然而,在现实场景中,我们往往会遇到零样本的情况,即草图和待检索图像库中的图像类别未出现在训练集中。在该情况下,由于草图是手绘的,由简单的线条勾勒而成,与真实图像存在较大的语义鸿沟,因此传统方法在零样本情况下的检索效果显著下降。
零样本草图检索技术的挑战主要包括以下几个方面:
1. 跨模态匹配:草图和真实图像之间存在跨模态的差异,草图通常比真实图像更加抽象和不精确,导致传统的图像检索方法难以在这两者之间建立有效的匹配关系。
2. 特征表达:草图和真实图像的特征表达方式不同,传统的图像特征提取方法在草图中可能无法获取有效的特征,从而导致匹配的困难。
3. 少样本问题:零样本情况下,缺乏足够的训练样本用于构建准确的特征提取模型,传统的数据驱动方法难以应对这种情况。
为了解决零样本草图检索问题,研究者们开始探索基于特征分布对齐与聚类的方法。这些方法尝试通过对草图和真实图像之间的特征分布进行对齐,从而在零样本条件下实现准确的草图检索。
草图检索任务(Sketch-Based Image Retrieval,SBIR)要解决的基本问题是将手绘草图和真实图像映射到一个共同的度量空间,使得相同类别的样本彼此接近。早期的方法从草图中提取手工设计的特征,并将其与自然图像中提取的边缘图进行匹配(M. Eitzet al., “Sketch-based image retrieval: Benchmark and bag-of-featuresdescriptors,” IEEE Trans Vis Comput Graph, vol. 17, no. 11, 2011, pp. 1624–1636. (基于草图的图像检索:基准和词袋特征描述符))。近年来,随着深度神经网络的普及,不同架构的神经网络被引入到这一领域,并取得了优异的结果。
然而,传统的封闭集设定不能满足大规模应用的需求。因此,零样本草图检索(Zero-Shot Sketch-Based Image Retrieval ,ZS-SBIR)被提出(Y. Shen et al.,“Zero-Shot Sketch-Image Hashing,” in 2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition, Jun. 2018, pp. 3598–3607.(零样本草图-图像哈希)),遵循零样本学习方法,该研究使用类别对应单词的语义信息来桥接已知和未知类别。然而,由于草图的稀疏性和自然图像的类内差异,语义信息难以传递,网络难以学习适用于未见类别的映射。(Q. Liu et al., “Semantic-Aware Knowledge Preservation forZero-Shot Sketch-Based Image Retrieval,” in 2019 IEEE/CVF InternationalConference on Computer Vision, Oct. 2019, pp. 3661–3670.(基于语义感知知识保存的零样本草图检索))首次使用ImageNet预训练模型作为教师模型,在训练网络进行草图类别分类的同时保留从ImageNet中学到的语义特征,显著提高了ZS-SBIR的性能。随后的工作(Z. Wang et al., “Domain-smoothing network for zero-shot sketch-based imageretrieval,” in 2021 International Joint Conference on ArtificialIntelligence, 19-27 august 2021, pp. 1143–1149.(用于零样本草图检索的域平滑网络))开始使用对比损失、三元组损失等度量损失函数来提高检索性能,但度量损失往往需要大批量样本或复杂的样本挖掘技术来获得良好的性能。(J. Tian et al., “TVT:Three-Way Vision Transformer through Multi-Modal Hypersphere Learning forZero-Shot Sketch-Based Image Retrieval,” Proc. AAAI Conf. Artif. Intell.,vol. 36, no. 2, Jun. 2022, pp. 2370–2378. (用于零样本草图检索的多模态超球体三路视觉变换器))首次使用Vision Transformer对SBIR中的全局结构信息进行建模,并利用多模态超球面学习进行跨模态对齐。
发明内容
本发明提供了一种基于特征分布对齐与聚类的零样本草图检索方法及系统,解决现有技术中将手绘草图和真实图像映射到一个共同的度量空间,使得相同类别的样本彼此接近,减小两个域之间的语义鸿沟,以很小的训练代价提升检索性能的问题。
为解决上述发明目的,本发明提供的技术方案如下:一种基于特征分布对齐与聚类的零样本草图检索方法,其特征在于,步骤包括:
S1、获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分;
S2、构建特征提取神经网络,对特征提取神经网络进行初始化;
S3、将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络;
S4、获取测试集中的待检索图像,将待检索图像输入至训练好的特征提取神经网络,进行特征提取,获得待检索图像的图像特征;
S5、将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
S6、输入测试集中的用户手绘图像至训练好的特征提取神经网络,获得用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
优选地,步骤S1中,获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分,包括:
获取带标签的基础图像数据,根据基础图像数据构建数据集;其中,基础图像数据包括:自然图像和手绘图像;其中,所述训练集和所述测试集中均包含自然图像和手绘图像。
优选地,步骤S2中,构建特征提取神经网络,对特征提取神经网络进行初始化,包括:
构建特征提取神经网络;
获取ImageNet预训练模型,通过ImageNet预训练模型对特征提取神经网络的权重进行初始化。
优选地,步骤S3中,将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络,包括:
将训练集输入至特征提取神经网络;
通过分类损失对所述特征提取神经网络进行训练;
通过知识蒸馏损失对所述特征提取神经网络进行训练;
通过特征分布对齐损失对所述特征提取神经网络进行训练;
获得训练好的特征提取神经网络。
优选地,通过分类损失对所述特征提取神经网络进行训练,包括:
分别获取自然图像域和手绘图像域的图像数据,通过下述公式(1)的交叉熵损失函数引导特征提取神经网络将自然图像和手绘图像进行分类,获得自然图像域和手绘图像域;将两个域的图像投影到同一特征空间中:
(1)
其中,为交叉熵损失函数;训练特征批次/>;/>为样本编号,/>为第/>个图片样本经神经网络提取得到的特征,/>为模型输出层分类器的权重; />为模型输出层分类器的偏置参数;分类器权重与偏置参数的下标/>代表参数对应的类别编号,/>代表第/>个样本对应的标签类别编号;/>为训练类别集合。
优选地,通过知识蒸馏损失对所述特征提取神经网络进行训练,包括:
基于ImageNet预训练模型构建教师模型,通过知识蒸馏的方式使特征提取神经网络保留在ImageNet预训练模型中学习到的通用特征;
教师模型如下述公式(2)所示:
(2)
其中,教师模型的参数与所述初始化后的特征提取网络参数一致;为教师模型输出层分类器权重,下标/>代表参数对应的类别编号;/>为教师模型输出层偏置参数,下标代表参数对应的类别编号,/>, />;/>为教师模型预测输出的分类标签,即ImageNet数据集中的1000个类别;/>为教师模型预测第/>个样本属于类别/>的概率。
优选地,通过特征分布对齐损失对所述特征提取神经网络进行训练,包括:
使用分类损失和知识蒸馏损失训练后的特征提取网络,对一个训练批次的图像进行特征提取,得到特征,从正态分布/>中采样一个随机特征,特征分布对齐损失函数/>如下述公式(3)所示:
(3)
KL散度如下述公式(4)所示:
(4)
其中,代表/>第/>个特征通道的数值;/>代表与/>第/>个特征通道的数值。
优选地,步骤S5中,将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征,包括:
获取图像特征;
将图像特征输入训练好的特征提取神经网络,通过所述训练好的特征提取神经网络的特征通道进行子空间划分,获得个子空间,此时图像特征的每个特征向量/>如下述公式(5)所示:
(5)
其中,表示属于第/>个子空间的子向量;
在每个子空间中通过KMeans聚类方法对图像特征进行聚类,将图像特征的每个子向量分配给对应子空间中最接近的簇中心,使用簇中心代替原始特征,获得原型化特征;
将原始特征和原型化特征进行加权融合,获得检索所需特征。
优选地,步骤S6中,输入用户手绘图像至训练好的特征提取神经网络,获得用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索,包括:
输入用户手绘图像至特征提取神经网络;
基于公式(1)进行特征提取,得到用户手绘图像的查询特征;
将查询特征与检索所需特征进行距离计算,根据计算结果将待检索图像根据距离由远及近的顺序排序,获得检索排序结果,选择距离最近的所述待检索图像,完成基于特征分布对齐与聚类的零样本草图检索。
一种基于特征分布对齐与聚类的零样本草图检索系统,系统用于上述的基于特征分布对齐与聚类的零样本草图检索方法,系统包括:
数据集划分模块,用于获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分;
初始化模块,用于构建特征提取神经网络,对特征提取神经网络进行初始化;
训练模块,用于将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络;
特征提取模块,用于获取测试集中的待检索图像,将待检测图像输入至训练好的特征提取神经网络,进行特征提取,获得待检索图像的图像特征;
特征处理模块,用于将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
草图检索模块,用于输入测试集中的用户手绘图像至特征提取神经网络,获得用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于特征分布对齐与聚类的零样本草图检索方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于特征分布对齐与聚类的零样本草图检索方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,首先本发明所提出的上述技术利用待检索自然图像库,使用无监督聚类得到的簇中心作为原型参与零样本草图检索,能够有效缓解自然图像的多样性为草图检索带来的挑战,提升检索性能。其次,本发明所提出的特征分布对齐损失函数能够以很小的开销减小自然图像和手绘图像两个域间的距离,从而使草图检索中的跨域距离度量更加准确,进一步提升检索性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于特征分布对齐与聚类的零样本草图检索方法流程示意图;
图2是本发明实施例提供的聚类后处理图;
图3是本发明实施例提供的基于特征分布对齐与聚类的零样本草图检索系统框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对现有技术中对待检索自然图像库信息挖掘不充分,引入度量学习时依赖大训练批次的问题,提供了一种基于特征分布对齐与聚类的零样本草图检索方法和系统。
如图1所示,本发明实施例提供了一种基于特征分布对齐与聚类的零样本草图检索方法,该方法可以由电子设备实现。如图1所示的基于特征分布对齐与聚类的零样本草图检索方法流程图,该方法的处理流程可以包括如下的步骤:
S101、获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分;
一种可行的实施方式中,步骤S101中,获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分,包括:
获取带标签的基础图像数据,根据基础图像数据构建数据集;其中,基础图像数据包括:自然图像和手绘图像;
将数据集划分为训练集和测试集;其中,所述训练集和所述测试集中均包含自然图像和手绘图像。其一使用25个类别作为测试集,其二使用21个类别作为测试集,测试集与ImageNet数据集的类别集合无重合。
一种可行的实施方式中,数据集由自然图像与手绘图像组成,在实际使用中可以使用任意来源的自然与手绘图像数据,本发明使用的验证数据为公开手绘图像检索数据集Sketchy,由125个类别的75471张手绘图像与73002张自然图像构成。
一种可行的实施方式中,对数据集进行划分。由于本任务为零样本草图检索,其限制条件为用于测试的图像类别与用于训练的类别集合不重叠,在本发明的验证数据采用广泛使用的数据划分。对于Sketchy数据集,采用两种数据划分,其一使用100个类别作为训练集,25个类别作为测试集(下文中称为Sketchy);其二使用104个类别作为训练集,21个类别作为测试集,该测试集与ImageNet的类别集合无重合(下文中称为Sketchy-NO),由于特征提取器的网络初始权重使用了ImageNet预训练的模型,因此该划分能够更合理地测试模型的零样本性能。这里的类别指的就是钟表、雨伞等类别,同时包含草图和自然图像。
S102、构建特征提取神经网络,对特征提取神经网络进行初始化;
一种可行的实施方式中,步骤S102中,构建特征提取神经网络,对特征提取神经网络进行初始化,包括:
构建特征提取神经网络;
获取ImageNet预训练模型,通过ImageNet预训练模型对特征提取神经网络的权重进行初始化。
一种可行的实施方式中,特征提取神经网络的作为自然图像与手绘图像共用的特征提取器,将两个域的图像映射到统一嵌入(Embedding)空间。特征提取网络的结构可采用卷积神经网络或视觉变换器网络(ViT,Vision Transformer),本发明的验证实验使用了两种基础模型,分别为CES-残差神经网络(CES-Residual Network,CES-ResNet)与TVT(Three-Way Vision Transformer, 三路视觉变换器)。网络在进行训练前,首先使用在ImageNet上预训练的模型权重进行初始化,然后使用第一阶段中划分的训练集对网络进行训练。
S103、将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络;
一种可行的实施方式中,步骤S103中,将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络,包括:
将训练集输入至特征提取神经网络;
通过分类损失对特征提取神经网络进行训练;
通过知识蒸馏损失对特征提取神经网络进行训练;
通过特征分布对齐损失对特征提取神经网络进行训练;
获得训练好的特征提取神经网络。
一种可行的实施方式中,分类损失,即交叉熵损失函数引导网络学会将自然图像与手绘图像分类到对应的类别中,在理想情况下,网络应将代表同一类别的自然图像与手绘图像分类到同一类中,以分类的方式将两个域的图像投影到同一特征空间中,对于一个由特征提取器得到的训练特征批次通过下述公式(1)的交叉熵损失函数引导特征提取神经网络将自然图像和手绘图像进行分类;将两个域的图像投影到同一特征空间中:
(1)
其中,为交叉熵损失函数;训练特征批次/>;/>为样本编号,为第/>个图片样本经神经网络提取得到的特征,/>为模型输出层分类器的权重; />为模型输出层分类器的偏置参数;分类器权重与偏置参数的下标/>代表参数对应的类别编号,/>代表第/>个样本对应的标签类别编号;/>为训练类别集合。
一种可行的实施方式中,知识蒸馏损失函数,包括:
基于ImageNet预训练模型构建教师模型,通过知识蒸馏的方式使特征提取神经网络保留更多在ImageNet预训练模型中学习到的通用特征;
教师模型如下述公式(2)所示:
(2)
其中,教师模型的参数与所述初始化后的特征提取网络参数一致;为教师模型输出层分类器权重,下标/>代表参数对应的类别编号;/>为教师模型输出层偏置参数,下标代表参数对应的类别编号,/> ,/>; />为教师模型预测输出的分类标签,即ImageNet数据集中的1000个类别;/>为教师模型预测第/>个样本属于类别/>的概率。
一种可行的实施方式中,草图检索中的知识蒸馏损失,是通过知识蒸馏的方式使模型保留更多在ImageNet中学习到的通用特征,避免模型在有限的目标数据集上过拟合,以应对富有挑战的零样本检索场景。
一种可行的实施方式中,特征分布对齐损失函数,包括:
使用分类损失和知识蒸馏损失训练后的特征提取网络,对一个训练批次的图像进行特征提取,得到特征,从正态分布/>中采样一个与特征X同大小的的随机特征/>,特征分布对齐损失函数/>如下述公式(3)所示:
(3)
KL散度如下述公式(4)所示:
(4)
其中,代表/>第/>个特征通道的数值;/>代表与/>第/>个特征通道的数值。
一种可行的实施方式中,分类损失函数通过分类任务间接地将自然图像和手绘图像两个域的图像投影到同一特征空间中。但由于分类任务的强判别性和零样本任务对于泛化性的要求,这一损失函数不足以应对零样本草图检索任务,因此本发明提出特征分布对齐损失,该损失不同于以往应对草图检索任务所使用的对比损失或三元组损失需要占用大量显存或使用复杂的采样方法以达到良好效果。
S104、获取测试集中的待检索图像,将待检测图像输入至训练好的特征提取神经网络,进行特征提取,获得待检索图像的图像特征;
S105、将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
一种可行的实施方式中,步骤S105中,将图像特征进行子空间聚类和聚类簇原型提取和特征融合,获得检索所需特征,包括:
获取图像特征;
将图像特征输入训练好的特征提取神经网络,根据特征提取神经网络的特征通道进行子空间划分,获得个子空间,此时图像特征的每个特征向量/>如下述公式(5)所示:
(5)
其中,表示属于第/>个子空间的子向量;
在每个子空间中通过KMeans聚类方法对图像特征进行聚类,将图像特征的每个子向量分配给对应子空间中最接近的簇中心,使用簇中心代替原始特征,获得原型化特征;
将原始特征和原型化特征进行加权融合,获得检索所需特征。
一种可行的实施方式中,待检索图像特征聚类后处理的示意图如图2所示。本发明中使用的聚类方法为KMeans聚类,其聚类参数,簇数 可根据已知待检索图像类别数,或根据经验设定,在实际使用中可以替换为自适应类别数量的方法如DBSCAN等。聚类得到个簇后,根据公式(6)对每个子空间中的每个簇计算均值,作为该簇在该子空间的原型向量。其中/>为第/>个子空间中的第/>个簇。
(6);
根据公式(7)将待检索特征每个子向量分配给对应子空间中最接近的簇中心,使用簇中心代替其原始特征,得到原型化的图像特征。其中代表/>第/>个子向量最近的原型向量。
(7);
最后,根据公式(7)对原始特征与原型化特征进行加权融合,即可得到最终检索所需的特征
(8)。
S106、输入测试集中的用户手绘图像至训练好的特征提取神经网络,获取用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
一种可行的实施方式中,步骤S6中,输入用户手绘图像至特征提取神经网络,获取用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索,包括:
输入用户手绘图像至特征提取神经网络;
基于公式(1)进行特征提取,得到用户手绘图像的查询特征;
将查询特征与检索所需特征进行距离计算,根据计算结果将待检索图像根据距离由远及近的顺序排序,获得检索排序结果,选择距离最近的所述待检索图像,完成基于特征分布对齐与聚类的零样本草图检索。
一种可行的实施方式中,本发明充分利用了待检索自然图像信息,通过特征聚类的方式挖掘图像库中语义相似的图像,降低了自然图像库中图像多样性为草图检索带来的挑战。通过使用均值作为原型特征参与检索,将草图特征与自然图像每个类簇中最有代表性的特征进行对比,缓解了域间的语义鸿沟。同时,使用特征分布对齐损失,以很小的训练开销实现了显式分布对齐,给零样本草图检索任务的性能带来了提升。
在国际公开数据集Sketchy上,本发明提出的聚类检索算法给基线算法SAKE的检索平均精度均值(mAP)带来了超过14%的提升。另外,当基线网络在训练时加入本发明提出的特征分布对齐损失后,检索的平均精度均值(mAP)和Top100查准率(Precision@100)的提升在4%左右。当同时使用两个方法时,检索性能比基线方法在mAP上提升了18%,在Prec@100上提升了5.4%。消融实验的详细数据见表1。
表1 本发明算法在Sketchy数据集上的检索性能(%)
其中,mAP(Mean Average Precision)表示平均精度均值。
本发明提出的基于特征聚类的草图检索算法对草图检索所使用的特征提取方法没有特殊要求,可以与任意算法简易地结合。特征分布对齐损失也可以应用在任意特征提取神经网络的训练过程中,从而提升草图检索任务的性能。
如表2所示,在两种基于不同神经网络架构的基线SAKE与TVT上,加入特征分布对齐损失与特征聚类检索后,其检索性能均有显著提升,在Sketchy和Sketchy-NO两个数据集划分上超过了业界其他常用技术的性能。
表2 基于两种基线算法的本方法与业界常用其他算法的检索性能对比(%)
其中,对比的方法包括SAKE(Semantic-Aware Knowledge Preservation,语义感知知识保存)、DSN(Domain-Smoothing Network,域平滑网络)、NAVE(Norm-GuidedAdaptive Visual Embedding,均值指导的自适应视觉嵌入)、PSKD(Prototype-basedSelective Knowledge Distillation,原型选择知识蒸馏)、TVT(Three-Way VisionTransformer,三路视觉变换器)和ZSE-RN(Zero-Shot Everything Sketch-Based ImageRetrieval,可解释的全能零样本草图检索)。mAP@K(mAP at top K)表示选取检索分数前K个结果计算的平均精度均值;Precision表示查准率;Prec@K(Precision at top K)表示选取检索分数前K个结果计算的查准率。
本发明提出的利用分布对齐原型进行跨域匹配的零样本草图检索方法。通过提出的子空间聚类对待检索图像库进行处理,以获得在语义空间中距离相近的图像簇,以图像簇中心作为该簇的代表性特征,进行与手绘图像的检索匹配。同时在网络训练时引入一个公共高斯特征分布,使用KL散度同时对草图和自然图像的特征分布进行高斯特征的约束,从而在特征空间中对 齐草图与自然图像,进一步减小两个域之间的语义鸿沟,以很小的训练代价提升检索性能。
对于现有技术对待检索自然图像库信息挖掘不充分的问题:
在图像检索的实际应用中,用户的草图输入的类别是不可预测的,而待检索图像库是已知的,本方法首次提出对于待检索图像库的信息进行利用,使用丰富的自然图像数据所具有的语义结构弥补草图数据短缺所带来的语义鸿沟。
对于现有技术在在引入度量学习时依赖大训练批次的问题:
现有草图检索方法所使用的对比损失、三元组损失依赖大训练批次或复杂的正负样本采样技巧,本发明使用的特征分布对齐损失形式简单,训练开销较小,同时能够带来更稳定的性能提升。
本发明实施例中,首先本发明所提出的上述技术利用待检索自然图像库,使用无监督聚类得到的簇中心作为原型参与零样本草图检索,能够有效缓解自然图像的多样性为草图检索带来的挑战,提升检索性能。其次,本发明所提出的特征分布对齐损失函数能够以很小的开销减小自然图像和手绘图像两个域间的距离,从而使草图检索中的跨域距离度量更加准确,进一步提升检索性能。
图3是本发明的一种基于特征分布对齐与聚类的零样本草图检索系统示意图,所述系统200用于上述的基于特征分布对齐与聚类的零样本草图检索方法,所述系统200包括:
数据集划分模块210,用于获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分;
初始化模块220,用于构建特征提取神经网络,对特征提取神经网络进行初始化;
训练模块230,用于将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络;
特征提取模块240,用于获取测试集中的待检索图像,将待检测图像输入至训练好的特征提取神经网络,进行特征提取,获得待检索图像的图像特征;
特征处理模块250,用于将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
草图检索模块260,用于输入测试集中的用户手绘图像至训练好的特征提取神经网络,获得用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
优选地,数据集划分模块210,用于获取带标签的基础图像数据,根据基础图像数据构建数据集;其中,基础图像数据包括:自然图像和手绘图像;
将数据集划分为训练集和测试集;其中,训练集和测试集中均包含自然图像和手绘图像。
优选地,初始化模块220,用于构建特征提取神经网络;
获取ImageNet预训练模型,通过ImageNet预训练模型对特征提取神经网络的权重进行初始化。
优选地,训练模块230,用于将训练集输入至特征提取神经网络;
通过分类损失对特征提取神经网络进行训练;
通过知识蒸馏损失对特征提取神经网络进行训练;
通过特征分布对齐损失对特征提取神经网络进行训练;
获得训练好的特征提取神经网络。
优选地,通过分类损失对所述特征提取神经网络进行训练,包括:
分别获取自然图像域和手绘图像域的图像数据,通过下述公式(1)的交叉熵损失函数引导特征提取神经网络将自然图像和手绘图像进行分类,获得自然图像域和手绘图像域;将两个域的图像投影到同一特征空间中:
(1)
其中,为交叉熵损失函数;训练特征批次/>;/>为样本编号,/>为第/>个图片样本经神经网络提取得到的特征,/>为模型输出层分类器的权重;/>为模型输出层分类器的偏置参数;分类器权重与偏置参数的下标/>代表参数对应的类别编号,/>代表第/>个样本对应的标签类别编号;/>为训练类别集合。
优选地,通过知识蒸馏损失对所述特征提取神经网络进行训练,包括:
基于ImageNet预训练模型构建教师模型,通过知识蒸馏的方式使特征提取神经网络保留在ImageNet预训练模型中学习到的通用特征;
教师模型如下述公式(2)所示:
(2)
其中,教师模型的参数与所述初始化后的特征提取网络参数一致;为教师模型输出层分类器权重,下标/>代表参数对应的类别编号;/>为教师模型输出层偏置参数,下标代表参数对应的类别编号,/> ,/>;/>为教师模型预测输出的分类标签,即ImageNet数据集中的1000个类别;/>为教师模型预测第/>个样本属于类别/>的概率。
优选地,通过特征分布对齐损失对所述特征提取神经网络进行训练,包括:
使用分类损失和知识蒸馏损失训练后的特征提取网络,对一个训练批次的图像进行特征提取,得到特征,从正态分布/>中采样一个随机特征,特征分布对齐损失函数/>如下述公式(3)所示:
(3)
KL散度如下述公式(4)所示:
(4)
其中,代表/>第/>个特征通道的数值;/>代表与/>第/>个特征通道的数值。
优选地,步骤S5中,将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征,包括:
获取图像特征;
将图像特征输入训练好的特征提取神经网络,通过所述训练好的特征提取神经网络的特征通道进行子空间划分,获得个子空间,此时图像特征的每个特征向量/>如下述公式(5)所示:
(5)
其中,表示属于第/>个子空间的子向量;
在每个子空间中通过KMeans聚类方法对图像特征进行聚类,将图像特征的每个子向量分配给对应子空间中最接近的簇中心,使用簇中心代替原始特征,获得原型化特征;
将原始特征和原型化特征进行加权融合,获得检索所需特征。
优选地,草图检索模块260,用于输入用户手绘图像至特征提取神经网络;
基于公式(1)进行特征提取,得到用户手绘图像的查询特征;
将查询特征与检索所需特征进行距离计算,根据计算结果将所述待检索图像根据距离由远及近的顺序排序,获得检索排序结果,选择距离最近的所述待检索图像,完成基于特征分布对齐与聚类的零样本草图检索。
本发明实施例中,首先本发明所提出的上述技术利用待检索自然图像库,使用无监督聚类得到的簇中心作为原型参与零样本草图检索,能够有效缓解自然图像的多样性为草图检索带来的挑战,提升检索性能。其次,本发明所提出的特征分布对齐损失函数能够以很小的开销减小自然图像和手绘图像两个域间的距离,从而使草图检索中的跨域距离度量更加准确,进一步提升检索性能。
图4是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现下述基于特征分布对齐与聚类的零样本草图检索方法的步骤:
S1、获取带标签的基础图像数据,根据基础图像数据构建数据集;对数据集进行训练集和测试集的划分;
S2、构建特征提取神经网络,对特征提取神经网络进行初始化;
S3、将训练集输入至特征提取神经网络,获得训练好的特征提取神经网络;
S4、获取测试集中的待检索图像,将待检测图像输入至特征提取神经网络,进行特征提取,获得待检索图像的图像特征;
S5、将图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
S6、输入测试集中的用户手绘图像至训练好的特征提取神经网络,获得用户手绘图像特征;将用户手绘图像特征与待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于特征分布对齐与聚类的零样本草图检索方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

Claims (3)

1.一种基于特征分布对齐与聚类的零样本草图检索方法,其特征在于,方法步骤包括:
S1、获取带标签的基础图像数据,根据所述基础图像数据构建数据集;对所述数据集进行训练集和测试集的划分;
所述步骤S1中,获取带标签的基础图像数据,根据所述基础图像数据构建数据集;对所述数据集进行训练集和测试集的划分,包括:
获取带标签的基础图像数据,根据所述基础图像数据构建数据集;其中,所述基础图像数据包括:自然图像和手绘图像;
将所述数据集划分为训练集和测试集;其中,所述训练集和所述测试集中均包含自然图像和手绘图像;
S2、构建特征提取神经网络,对所述特征提取神经网络进行初始化;
所述步骤S2中,构建特征提取神经网络,对所述特征提取神经网络进行初始化,包括:
构建特征提取神经网络;
获取ImageNet预训练模型,通过所述ImageNet预训练模型对所述特征提取神经网络的权重进行初始化;
S3、将所述训练集输入至所述特征提取神经网络,获得训练好的特征提取神经网络;
述步骤S3中,将所述训练集输入至所述特征提取神经网络,获得训练好的特征提取神经网络,包括:
将所述训练集输入至所述特征提取神经网络;
通过分类损失对所述特征提取神经网络进行训练;
通过知识蒸馏损失对所述特征提取神经网络进行训练;
通过特征分布对齐损失对所述特征提取神经网络进行训练;
获得训练好的特征提取神经网络;
所述通过分类损失对所述特征提取神经网络进行训练,包括:
分别获取自然图像域和手绘图像域的图像数据,通过下述公式(1)的交叉熵损失函数,引导所述特征提取神经网络将自然图像和手绘图像进行分类,将两个域的图像投影到同一特征空间中:
(1)
其中,为交叉熵损失函数;训练特征批次/>;/>为样本编号,为第/>个图片样本经神经网络提取得到的特征,/>为模型输出层分类器的权重;/>为模型输出层分类器的偏置参数;分类器权重与偏置参数的下标/>代表参数对应的类别编号,/>代表第/>个样本对应的标签类别编号;/>为训练类别集合;
所述通过知识蒸馏损失对所述特征提取神经网络进行训练,包括:
基于所述ImageNet预训练模型构建教师模型,通过知识蒸馏的方式,使所述特征提取神经网络保留在ImageNet预训练模型中学习到的通用特征;
所述教师模型如下述公式(2)所示:
(2)
其中,所述教师模型的参数与所述初始化后的特征提取网络参数一致;为教师模型输出层分类器权重,下标/>代表参数对应的类别编号;/>为教师模型输出层偏置参数,下标/>代表参数对应的类别编号,/>,/>;/>为教师模型预测输出的分类标签,即ImageNet数据集中的1000个类别;/>为教师模型预测第/>个样本属于类别k的概率;
所述通过特征分布对齐损失对所述特征提取神经网络进行训练,包括:
使用分类损失和知识蒸馏损失训练后的特征提取网络,对一个训练批次的图像进行特征提取,得到特征,从正态分布/>中采样一个随机特征,特征分布对齐损失函数/>如下述公式(3)所示:
(3)
KL散度如下述公式(4)所示:
(4)
其中,代表/>第/>个特征通道的数值;/>代表与/>第/>个特征通道的数值;
S4、获取测试集中的待检索图像,将所述待检索图像输入至所述训练好的特征提取神经网络进行特征提取,获得待检索图像的图像特征;
S5、将所述图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
所述步骤S5中,将所述图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征,包括:
获取所述图像特征;
将所述图像特征输入所述训练好的特征提取神经网络,通过所述训练好的特征提取神经网络的特征通道进行子空间划分,获得个子空间,所述图像特征的每个特征向量/>如下述公式(5)所示:
(5)
其中,表示属于第/>个子空间的子向量;
在每个子空间中通过KMeans聚类方法对所述图像特征进行聚类,将所述图像特征的每个子向量分配给对应子空间中最接近的簇中心,使用簇中心代替原始特征,获得原型化特征;
将所述原始特征和所述原型化特征进行加权融合,获得检索所需特征;
S6、输入用户手绘图像至所述训练好的特征提取神经网络,获得所述用户手绘图像特征;将所述用户手绘图像特征与所述待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
2.根据权利要求1所述的方法,其特征在于,所述步骤S6中,输入用户手绘图像至所述训练好的特征提取神经网络,获得所述用户手绘图像特征;将所述用户手绘图像特征与所述待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索,包括:
输入用户手绘图像至所述特征提取神经网络;
基于所述公式(1)进行特征提取,得到所述用户手绘图像的查询特征;
将所述查询特征与所述检索所需特征进行距离计算,根据计算结果将所述待检索图像根据距离由远及近的顺序排序,获得检索排序结果,选择距离最近的所述待检索图像,完成基于特征分布对齐与聚类的零样本草图检索。
3.一种基于特征分布对齐与聚类的零样本草图检索系统,其特征在于,所述系统用于如权利要求1~2任意一项所述的基于特征分布对齐与聚类的零样本草图检索方法,所述系统包括:
数据集划分模块,用于获取带标签的基础图像数据,根据所述基础图像数据构建数据集;对所述数据集进行训练集和测试集的划分;
初始化模块,用于构建特征提取神经网络,对所述特征提取神经网络进行初始化;
训练模块,用于将所述训练集输入至所述特征提取神经网络,获得训练好的特征提取神经网络;
特征提取模块,用于获取测试集中的待检索图像,将所述待检索图像输入至所述训练好的特征提取神经网络,进行特征提取,获得待检索图像的图像特征;
特征处理模块,用于将所述图像特征进行子空间聚类、聚类簇原型提取和特征融合,获得检索所需特征;
草图检索模块,用于输入测试集中的用户手绘图像至所述训练好的特征提取神经网络,获得所述用户手绘图像特征;将所述用户手绘图像特征与所述待检索图像的检索所需特征进行距离计算,获得计算结果,完成基于特征分布对齐与聚类的零样本草图检索。
CN202311399196.1A 2023-10-26 2023-10-26 基于特征分布对齐与聚类的零样本草图检索方法及系统 Active CN117131214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311399196.1A CN117131214B (zh) 2023-10-26 2023-10-26 基于特征分布对齐与聚类的零样本草图检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311399196.1A CN117131214B (zh) 2023-10-26 2023-10-26 基于特征分布对齐与聚类的零样本草图检索方法及系统

Publications (2)

Publication Number Publication Date
CN117131214A CN117131214A (zh) 2023-11-28
CN117131214B true CN117131214B (zh) 2024-02-09

Family

ID=88856785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311399196.1A Active CN117131214B (zh) 2023-10-26 2023-10-26 基于特征分布对齐与聚类的零样本草图检索方法及系统

Country Status (1)

Country Link
CN (1) CN117131214B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032601A (zh) * 2021-04-15 2021-06-25 金陵科技学院 一种基于判别性提升的零样本草图检索方法
CN113360701A (zh) * 2021-08-09 2021-09-07 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
CN115062689A (zh) * 2022-05-23 2022-09-16 中国矿业大学 一种面向多传感器融合信息的特征迁移方法
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN116521913A (zh) * 2023-03-24 2023-08-01 天津大学 一种基于原型对比学习的草图三维模型检索方法
WO2023152638A1 (en) * 2022-02-08 2023-08-17 Mobileye Vision Technologies Ltd. Knowledge distillation techniques

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032601A (zh) * 2021-04-15 2021-06-25 金陵科技学院 一种基于判别性提升的零样本草图检索方法
CN113360701A (zh) * 2021-08-09 2021-09-07 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
WO2023152638A1 (en) * 2022-02-08 2023-08-17 Mobileye Vision Technologies Ltd. Knowledge distillation techniques
CN115062689A (zh) * 2022-05-23 2022-09-16 中国矿业大学 一种面向多传感器融合信息的特征迁移方法
CN116521913A (zh) * 2023-03-24 2023-08-01 天津大学 一种基于原型对比学习的草图三维模型检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
视觉导航中多任务学习和半监督学习方法研究;张凯祥;《CNKI优秀硕士论文全文库 信息科技》(第3期);20-60 *

Also Published As

Publication number Publication date
CN117131214A (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
Zhang et al. Relationship proposal networks
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
Xia et al. Loop closure detection for visual SLAM using PCANet features
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
CN111542841A (zh) 一种内容识别的系统和方法
CN106294344A (zh) 视频检索方法和装置
CN110956044A (zh) 一种基于注意力机制的司法场景用文案输入识别分类方法
CN111339935A (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN112200031A (zh) 一种用于生成图像对应文字说明的网络模型训练方法与设备
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN116206334A (zh) 一种野生动物识别方法和装置
Liu et al. Bilaterally normalized scale-consistent sinkhorn distance for few-shot image classification
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
Yu et al. Bag of Tricks and a Strong Baseline for FGVC.
CN117131214B (zh) 基于特征分布对齐与聚类的零样本草图检索方法及系统
CN114896436B (zh) 一种基于表征互信息的网络结构搜索方法
CN110738194A (zh) 一种基于点云有序编码的三维物体识别方法
CN115221298A (zh) 问答匹配方法、装置、电子设备及存储介质
CN114741549A (zh) 基于lire的图像查重方法、装置、计算机设备和存储介质
CN116450781A (zh) 问答的处理方法及装置
CN113963235A (zh) 一种跨类别图像识别模型重用方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant