CN116071609B

CN116071609B - 基于目标特征动态自适应提取的小样本图像分类方法

Info

Publication number: CN116071609B
Application number: CN202310319375.3A
Authority: CN
Inventors: 张天柱; 李卓滢; 伍佳敏; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-18
Anticipated expiration: 2043-03-29
Also published as: CN116071609A

Abstract

本公开提供一种基于目标特征动态自适应提取的小样本图像分类方法，包括：提取图像样本的显著性目标区域特征；通过自监督对比学习增强显著性目标区域特征；以及利用分类网络对输入的查询集的小样本图片做分类。该方法能够在无需人类标注显著目标区域的情况下建模当前任务的目标区域特征，减少了人类标注的需要；能够自动探索图像中的显著性目标区域，并根据不同任务灵活地提取目标区域信息；能够适应小样本任务训练集和测试集类别不重叠的特性，提高小样本图片分类的准确率。

Description

基于目标特征动态自适应提取的小样本图像分类方法

技术领域

本公开涉及人工智能、图像理解技术领域，尤其涉及一种基于目标特征动态自适应提取的小样本图像分类方法。

背景技术

随着互联网数据的爆炸增长，海量视频内容在互联网空间激增，传统的基于人力的图像分析方法难以满足现实需求。基于人工智能，尤其是基于深度学习的智能图片分析算法成为学术界和工业界的研究热点。图像分类算法作为其中的一项关键技术，在人脸识别、行人检测、图像检索、相册自动归类等上层应用中具有重要的应用价值。深度学习模型在图像分类等视觉识别任务上取得了最先进的性能。然而，强大的性能在很大程度上依赖于训练具有大量标记实例和不同视觉变化的网络（例如，每个新类都有数千个示例，即使在具有基类的大规模数据集上进行了预训练）。人类注释成本以及某些类别（例如稀有物种）中数据的稀缺性极大地限制了当前视觉系统有效学习新视觉概念的适用性。而小样本数据识别是一类利用较少的标注数据样本（支撑样本）对新类别的数据样本（质询样本）进行识别的算法，适用于有标签数据量匮乏的目标识别，可以有效减少对人类标注的依赖。

然后现有技术中为实现高效的小样本图片分类，人们通常使用来自看不见的类的少数标记样本来微调预训练模型。但是，它可能会导致严重的过拟合，导致图片分类结果不准确。

发明内容

基于上述问题，本公开提供了一种基于目标特征动态自适应提取的小样本图像分类方法，以缓解现有技术中的上述技术问题。

（一）技术方案

本公开提供一种基于目标特征动态自适应提取的小样本图像分类方法，包括：提取图像样本的显著性目标区域特征；通过自监督对比学习增强显著性目标区域特征；以及利用分类网络对输入的查询集的小样本图片做分类。

根据本公开实施例，所述提取图像样本的显著性目标区域特征，包括：提取输入任务中的支撑集集合；抽取支撑集集合中每个图像的全局特征得到特征图；对所述特征图执行卷积操作得到激活图；对所述激活图执行激活操作生成显著性目标区域掩膜；将特征图和目标区域掩模在每个通道的每个空间位置进行对应的点乘来提取显著性目标区域特征图；以及对显著性目标区域特征图执行全局平均池化得到显著性目标区域特征。

根据本公开实施例，提取输入任务中的支撑集集合包括：利用小样本的骨干网络提取输入任务中的支撑集集合。

根据本公开实施例，抽取支撑集集合中每个图像的全局特征得到特征图，包括：采用显著性目标区域挖掘器，对特征图执行卷积操作，得到激活图。

根据本公开实施例，通过元过滤学习器来为不同的图像类别的任务动态自适应地生成显著性目标区域挖掘器的参数，以得到最适合当前任务的挖掘器。

根据本公开实施例，元过滤学习器接收任务嵌入作为输入，提取任务嵌入中与图像类别相关的上下文信息，建立任务嵌入到显著性目标区域参数空间的映射。

根据本公开实施例，根据不同图像样本对任务的重要性来聚合特征，使用Transformer建模获取更具代表性的任务嵌入。

根据本公开实施例，通过对比损失函数衡量全局特征和显著性目标区域特征之间的相似度，从而自动学习到显著性目标区域特征和全局特征之间的关联并两者对齐。

根据本公开实施例，所述利用分类网络对输入的查询集的小样本图片做分类，包括：基于查询集样本的显著性目标区域特征判断其与所有类别的相似性；以及基于所述相似性预测小样本图片的属于某类别的概率，完成小样本图像的分类。

（二）有益效果

从上述技术方案可以看出，本公开基于目标特征动态自适应提取的小样本图像分类方法至少具有以下有益效果其中之一或其中一部分：

（1）能够在无需人类标注显著目标区域的情况下建模当前任务的目标区域特征，减少了人类标注的需要；

（2）能够自动探索图像中的显著性目标区域，并根据不同任务灵活地提取目标区域信息；

（3）任务动态自适应能力能够适应小样本任务训练集和测试集类别不重叠的特性，提高小样本图片分类的准确率；

（4）优化了以往的任务嵌入提取方法，提出了使用Transformer建模不同样本对当前任务的贡献，聚合不同样本的特征的方法，从而能够提取出更为准确的更能代表当前任务特征的任务嵌入；

（5）使用具有更充分代表性的任务嵌入能够提供更为精确的语境信息，从而有助于提高模型的泛化能力。

附图说明

图1为基于目标特征动态自适应提取的小样本图像分类方法的流程示意图。

图2为基于目标特征动态自适应提取的小样本图像分类方法的原理示意图。

具体实施方式

本公开提供了一种基于目标特征动态自适应提取的小样本图像分类方法，通过显著性目标区域特征动态自适应挖掘器，自动探索显著性目标区域，根据不同任务灵活地提取目标区域信息，且无需任何边界框或标注信息。本公开的小样本图像分类方法通过在对图像中的重要目标区域进行建模，提取任务级特征，实现场景自适应的小样本图像分类。考虑到目标区域和场景的上下文和自适应性，本公开提出了基于显著性目标区域特征动态自适应挖掘的小样本图片分类方法，给出准确的预测结果。所提出的方法适用于小样本图像分类任务，并考虑到了目标区域和场景的上下文信息和自适应性质。

在实现本公开的过程中发明人发现，正则化和数据增强可以缓解但不能完全解决过拟合问题。为了实现准确的小样本图片分类，模型需要很好地挖掘任务自适应的特征表示。最近，元学习范式被广泛用于小样本学习。在元学习中，可迁移的元知识可以包括优化策略、良好的初始条件或度量空间。小样本学习是指使用少量的训练数据来学习一个模型，并将其应用到新的测试任务中。训练阶段的任务通常模仿测试阶段的设置，以减少训练和测试设置之间的差距，增强模型的泛化能力。一般图片包含大量背景信息，之前的小样本学习方法大多采用全局特征来进行分类，这种方法容易受背景噪声干扰，并且忽略了具有强判别力的显著目标区域特征。例如，在一张猫的图像中，如果猫的背景是一片树林，那么算法很有可能会把这张图像误分为“树林”类别。另一些方法虽然使用了显著目标区域特征，但这种方法通常在训练阶段利用人工标注的显著目标区域来训练模型，从而导致模型学习到的目标区域特征只停留在当前任务层面，无法实现自适应的任务迁移。由此，本公开提出一种基于目标特征动态自适应提取的小样本图像分类方法。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在本公开实施例中，提供一种基于目标特征动态自适应提取的小样本图像分类方法，结合图1和图2所示，所述小样本图像分类方法，包括：

操作S1：提取图像样本的显著性目标区域特征；

操作S2：通过自监督对比学习增强显著性目标区域特征；以及

操作S3：利用分类网络对输入的查询集的小样本图片做分类。

在操作S1中，包括操作S11-操作S16。

操作S11：提取输入任务中的支撑集集合；

首先利用小样本的骨干网络φ提取输入的任务τ中的支撑集集合，其中n表示类别的总数量，i∈1,2,…,n ；/>表示支撑集中属于类别i的样本的集合。

操作S12：抽取支撑集集合中每个图像的全局特征得到特征图；

具体地，对于某个样本，可以通过ResNet12作为骨干网络，抽取图像全局特征得到特征图X∈R ^H×W×C。

操作S13：对所述特征图执行卷积操作得到激活图；

通过采用本公开设计的显著性目标区域提取器p，对特征图X执行1×1卷积操作p⊙X，得到激活图A∈R ^H×W。

操作S14：对所述激活图执行激活操作生成显著性目标区域掩膜；

具体地，对激活图A执行Sigmoid激活操作σ(A)来生成目标区域掩模M∈R ^H×W。

操作S15：将特征图和目标区域掩模在每个通道的每个空间位置进行对应的点乘来提取显著性目标区域特征图；

具体地，将特征图X和目标区域掩模M在每个通道的每个空间位置进行对应的点乘来提取目标区域特征图F∈R ^H×W×C，该过程可用如下公式表达：

。

其中R(M)表示将掩模M的特征维度与特征图X进行对齐，表示内积操作。

操作S16：对显著性目标区域特征图执行全局平均池化得到显著性目标区域特征。

最后，对目标区域特征图执行全局平均池化得到显著性目标区域特征f∈R ^C。

在上述提取图像样本的显著性目标区域特征中，通过元过滤学习器来为不同的图像类别的任务动态自适应地生成显著性目标区域挖掘器的参数，以得到最适合当前任务的挖掘器。具体来说，使用的显著性目标区域挖掘器在不同的任务之间是共享的，并且在端到端训练之后进行固定。但是，小样本图像分类中的训练任务和测试任务是从完全不同的类别中进行采样的，训练集和测试集的类别没有重叠。一般的目标区域挖掘器无法适应不同任务的需要。为了构建能够动态自适应不同任务的目标区域挖掘器，我们设计了一个元过滤学习器g来为不同的任务动态自适应地生成目标区域挖掘器的参数。元过滤学习器g接受任务嵌入e ^T作为输入，提取任务嵌入中与类别相关的上下文信息，建立任务嵌入到目标区域挖掘器参数空间的映射。该过程可用如下公式表达：

p= g（e ^T;θ）。

其中，p表示生成的目标区域挖掘器的参数，g表示元过滤学习器，θ表示元过滤学习器中的模型参数，e ^T表示任务嵌入。

在这里，元过滤学习器g接受任务嵌入e ^T作为输入，并学习生成目标区域挖掘器的参数，使其能够适应特定任务的要求。θ表示元过滤学习器中的模型参数，它们被优化以最小化生成目标区域挖掘器的误差，并使其能够有效地区分目标和非目标区域。p表示生成的目标区域挖掘器的参数，它们将用于检测图像中的目标。

目标区域挖掘器的使用以特定任务的上下文信息为条件，这样目标区域挖掘器就可以了解任务的特征，并且可以利用与任务最相关的部分，即使是对于看不见的任务。元学习过滤器可以接受大量任务的训练，以学习如何以元学习的方式生成最适合当前任务的目前区域挖掘器。这是通过最小化查询样本的分类错误来实现的。元学习的元过滤学习器可以在测试中的全新任务上实现良好的泛化和快速适应。

元过滤学习器中使用的任务嵌入一般是通过取支持集样本特征向量均值得到的，忽略了不同样本之间的差异。我们考虑根据不同样本对任务的重要性来聚合特征，使用Transformer建模获取更具代表性的任务嵌入。首先，我们引入了一组task tokens p ₁, p ₂ , p _i , p _k，其中，k表示task tokens的数量，i∈1,2,…, k，p _i表示将任务中支撑集的特征向量聚合后形成的第i个task级别的特征。这些task tokens被设置为可学习的参数。具体来说，给定支持集特征向量，以task tokens作为Q，以支撑集特性向量作为K和V，执行如下运算：

。

其中，i∈1,2,…, k，表示共有k个task tokens，j∈1,2,…, n，代表支撑集中的n个样本；W则是线性映射层，Q _i表示第i个task token的查询向量，K _j表示第j个支持集样本的键向量，V _j表示第j个支持集样本的值向量，x _j表示第j个支持集样本的特征向量。

在这里，Q _i用于计算每个支持集样本的注意力分布。K _j、V _j用于计算每个支持集样本的注意力分布和对应的加权和。W表示线性映射层，用于将输入向量映射到另一个向量空间。通过使用任务级别的task tokens，Transformer模型可以聚合不同任务的重要性信息，并生成更具代表性的任务嵌入。

然后计算Q和K的相关性矩阵，以第i个task token的计算举例，其对应的注意力权重β _i,j为：

。

上式表示第j个支撑集样本与第i个task token之间的相关性，然后经softmax进行归一化后得到m _i,j，计算过程如下：

。

进一步，我们通过加权池来聚合支撑集特征向量来获取第i个task token的值，计算过程如下：

。

最后，将k个task tokens求平均值得到最终的任务嵌入e ^T，公式如下：

。

根据本公开实施例，所述通过自监督对比学习增强显著性目标区域特征，包括通过对比损失函数衡量全局特征和显著性目标区域特征之间的相似度，从而自动学习到显著性目标区域特征和全局特征之间的关联并两者对齐。具体地，本公开考虑到全局和局部两个角度的特征的语义相关性，根据图片的类别信息，将属于同一类别的局部特征和全局特征进行对齐。具体来说，本公开将目标区域特征和全局特征放在一起，使用同一个模型进行联合训练。这样，在训练过程中，模型会自动学习到目标区域特征和全局特征之间的关联，并将它们对齐。本公开中使用如下的对比损失函数来衡量全局特征和目标区域特征之间的相似度：

。

在这个公式中x是锚点（全局特征图），y是目标区域特征，∑表示对所有的样本求和。对比损失函数可以用来衡量全局特征和目标区域特征之间的相似度，从而使得目标区域特征在保留其有用信息的同时，也能受到全局特征的影响。

根据本公开实施例，所述利用分类网络对输入的查询集的小样本图片做分类包括：基于查询集样本的显著性目标区域特征判断其与所有类别的相似性；以及基于所述相似性预测小样本图片的属于某类别的概率，完成小样本图像的分类。

具体地，在经历了针对任务感知的目标区域挖掘模块之后，在度量空间中，每个图像实例都会有一个对应的特征f，该特征具有能够感知目标区域的能力。这种特征表示捕获了相关的上下文信息，并能够适应特定的任务和场景，从而提高小样本图像分类的效果。为了预测查询样本的类别，我们设计了一个目标感知的度量模块，根据目标区域部分之间的自然语义对应关系，计算出目标级别的相似性。这个模块使我们能够有效地利用目标区域的上下文信息和任务自适应性，从而提高小样本图像分类的效果。具体来说，基于查询样本x ^q的目标区域特征，我们希望得到它与所有类别的相似性，然后可以将其转化为预测的类别概率。在one-shot的情况下，来自类c的支撑样本/>可以直接代表其类别，那么类别c的特征可以表示为Ω(c)={f ^s}。值得注意的是，对于5-shot的设置，我们对同一类别c的支撑实例的目标区域特征进行平均作为类别的目标区域特征/>，其中f ^s,n表示支撑集中属于类别c的样本的特征。那么类别c的特征可以表示为Ω(c)={f ^c}，为了表达的方便，我们使用Ω(c)={f ^c}作为1-shot和5-shot设置的类别目标区域特征。我们从相同任务的目标区域挖掘器中获取查询样本x ^q的目标区域特征f ^q和支撑集中类别c的特征f ^c。基于目标区域相似性计算，我们的分类网络能计算当前任务中每个查询样本x ^q属于类别c∈{1,2,…, N}的概率：

。

其中N表示类别的数量，即任务中可能的目标类别数，c'表示样本x ^q的目标类别，Φ()表示分类网络。

分类损失可以表示为负对数概率：

。

其中y ^q表示当前样本x ^q的真实类别。

在这里，Φ()计算样本x ^q属于每个类别的概率。分类损失通过将负对数概率最小化来训练分类网络，从而使得模型能够准确地分类目标和非目标区域。

此方法中，我们提出了一个用于小样本图像分类的动态自适应目标区域特征挖掘框架。并且我们设计了一种Transformer，它可以探索不同的样本对任务的贡献，并在统一的结构内实现任务自适应建模。这种 Transformer可以帮助我们建立样本和任务之间的关系，使得提取出来的任务嵌入更具有任务代表性。我们首先通过小样本骨干网络提取样本的全局图像特征，并对支撑集合特征进行任务层级的建模；然后根据任务嵌入应用元过滤学习器来为当前任务生成合适的目标区域挖掘器参数，挖掘任务特征和目标区域挖掘器之间的复杂关联，并建模它们的上下文语义，然后利用我们的目标区域挖掘器提取样本的目标特征，根据查询样本和支撑集样本的目标区域相似性来进行图像分类；整个模型通过最小化分类损失和监督对比损失来进行优化，可以保证目标区域挖掘器最终提取的是当前任务中最具有判别力的目标区域特征。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本公开基于目标特征动态自适应提取的小样本图像分类方法有了清楚的认识。

综上所述，本公开提供了一种基于目标特征动态自适应提取的小样本图像分类方法，与现有方法相比，本专利提出的基于显著性目标区域特征动态自适应挖掘的小样本图片分类方法能够在无需人类标注显著目标区域的情况下建模当前任务的目标区域特征，减少了人类标注的需要。其次，我们设计的显著性目标区域特征动态自适应挖掘器能够自动探索图像中的显著性目标区域，并根据不同任务灵活地提取目标区域信息。它的任务动态自适应能力能够适应小样本任务训练集和测试集类别不重叠的特性，提高小样本图片分类的准确率。此外，本专利优化了以往的任务嵌入提取方法，提出了使用Transformer建模不同样本对当前任务的贡献，聚合不同样本的特征的方法，从而能够提取出更为准确的更能代表当前任务特征的任务嵌入。使用具有更充分代表性的任务嵌入能够提供更为精确的语境信息，从而有助于提高模型的泛化能力。本公开例如可以应用于具有少量数据标注的医学图片数据库，对医学病理图片进行分类。在实施上，能够以软件方式安装于公司的后台服务器，对只有少许标注的图片数据进行拆分，得到小样本图片分类任务，将图片进行初步分类，从而为后续的医学图片的分类识别提供基础性支撑。

还需要说明的是，以上为本公开提供的不同实施例。这些实施例是用于说明本公开的技术内容，而非用于限制本公开的权利保护范围。一实施例的一特征可通过合适的修饰、置换、组合、分离以应用于其他实施例。

应注意的是，在本文中，除了特别指明的之外，具备“一”元件不限于具备单一的该元件，而可具备一或更多的该元件。

此外，在本文中，除了特别指明的之外，“第一”、“第二”等序数，只是用于区别具有相同名称的多个元件，并不表示它们之间存在位阶、层级、执行顺序、或制程顺序。一“第一”元件与一“第二”元件可能一起出现在同一构件中，或分别出现在不同构件中。序数较大的一元件的存在不必然表示序数较小的另一元件的存在。

在本文中，除了特别指明的之外，所谓的特征甲“或”（or）或“及/或”（and/or）特征乙，是指甲单独存在、乙单独存在、或甲与乙同时存在；所谓的特征甲“及”（and）或“与”（and）或“且”（and）特征乙，是指甲与乙同时存在；所谓的“包括”、“包含”、“具有”、“含有”，是指包括但不限于此。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于目标特征动态自适应提取的小样本图像分类方法，包括：

提取图像样本的显著性目标区域特征；

通过自监督对比学习增强显著性目标区域特征；以及

利用分类网络对输入的查询集的小样本图片做分类；

所述提取图像样本的显著性目标区域特征，包括：

提取输入任务中的支撑集集合；

抽取支撑集集合中每个图像的全局特征得到特征图；

通过元过滤学习器来为不同的图像类别的任务动态自适应地生成显著性目标区域挖掘器的参数，以得到最适合当前任务的显著性目标区域挖掘器，采用显著性目标区域挖掘器对所述特征图执行卷积操作得到激活图；

对所述激活图执行激活操作生成显著性目标区域掩膜；

将特征图和目标区域掩模在每个通道的每个空间位置进行对应的点乘来提取显著性目标区域特征图；以及

对显著性目标区域特征图执行全局平均池化得到显著性目标区域特征；

其中，元过滤学习器接收任务嵌入作为输入，提取任务嵌入中与图像类别相关的上下文信息，建立任务嵌入到显著性目标区域参数空间的映射；

根据不同图像样本对任务的重要性来聚合特征，使用Transformer建模获取更具代表性的任务嵌入。

2.根据权利要求1所述的基于目标特征动态自适应提取的小样本图像分类方法，所述提取输入任务中的支撑集集合包括：利用小样本的骨干网络提取输入任务中的支撑集集合。

3.根据权利要求1所述的基于目标特征动态自适应提取的小样本图像分类方法，通过对比损失函数衡量全局特征和显著性目标区域特征之间的相似度，从而自动学习到显著性目标区域特征和全局特征之间的关联并两者对齐。

4.根据权利要求1所述的基于目标特征动态自适应提取的小样本图像分类方法，所述利用分类网络对输入的查询集的小样本图片做分类，包括：

基于查询集样本的显著性目标区域特征判断其与所有类别的相似性；以及

基于所述相似性预测小样本图片的属于某类别的概率，完成小样本图像的分类。