CN116503674B

CN116503674B - 一种基于语义指导的小样本图像分类方法、装置及介质

Info

Publication number: CN116503674B
Application number: CN202310760519.9A
Authority: CN
Inventors: 王硕; 卢金达; 何向南; 郝艳宾
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-10-20
Anticipated expiration: 2043-06-27
Also published as: CN116503674A

Abstract

本发明公开了一种基于语义指导的小样本图像分类方法、装置及介质，该图像分类方法包括以下步骤：对输入图像进行特征提取、对语义信息进行特征提取、基于语义相似度的样本选择、语义指导下的样本合成、语义监督下的双模态分类器设计、模型训练与测试步骤。本发明提出了语义信息应用在小样本分类方法中的作用，并设计了一种基于语义指导的小样本图像分类方法，通过引入语义信息，并将语义信息集成到数据合成与分类器设计中，提升了对新类别数据分布的描述能力，提升了图像分类准确率。

Description

一种基于语义指导的小样本图像分类方法、装置及介质

技术领域

本发明属于图像分类领域，具体的说是一种基于语义指导的小样本图像分类方法、装置及介质。

背景技术

近年来，卷积神经网络 (CNN) 在各类视觉任务中展示了出色的性能。但此类数据驱动的方法需要大量有标注的训练数据才能保障其性能。然而，收集和标注数据的过程既耗时又昂贵。相比之下，由于人类积累了大量的先验知识，其只需少量样本就可以快速识别新物体。

小样本学习 (FSL) 任务旨在模仿人类对新物体快速识别的能力。

目前，主流的小样本学习 (FSL) 方法在大量的基础类别样本上预训练模型，并使用预训练的模型提取新类别样本的视觉特征，其旨在通过预训练获取具有强泛化性的视觉特征，并利用提取的新类别视觉特征实现对新类别的识别。但是，少量新类别样本的视觉特征不足以表示其数据分布，导致容易产生过拟合的问题。

为了缓解上述现象，常用的解决方案是在特征空间中通过数据生成策略生成更多新类别样本。然而，此类解决方案有一定局限性。由于在基础类别样本上训练的模型更倾向于关注其学习过的纹理和结构，导致其容易忽视部分新类别样本的特异性内容，基于此生成的视觉特征仍不足以描述新类别的数据分布，大量的生成样本会误导分类器，影响模型的性能。

基于上述对现有技术的分析，如何缓解由于类别差异引入的对新类别样本的视觉特征描述的不足，并提升分类器对新类别的数据分布的响应能力，是小样本学习亟需解决的技术问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于语义指导的小样本图像分类方法、装置及介质，通过引入语义信息，充分挖掘语义空间中基础类别与新类别的关系，基于语义指导合成新样本，并在分类过程中引入语义监督，从而提升小样本图像分类的准确性。

本发明为达到上述发明目的，采用如下技术方案：

第一方面，本发明提供了一种基于语义指导的小样本图像分类方法，该图像分类方法包括以下步骤：

S1、对输入图像进行特征提取，获取用于预训练的自然图像样本集合，输入预训练的CNN模型提取其视觉特征及其基础类别标签集合，再获取新类别图像样本集合，输入所述预训练的CNN模型提取其视觉特征及其类别标签集合；

S2、对语义信息进行特征提取，使用预训练的词嵌入模型提取用于预训练的基础类别集合中各类别的语义特征，使用所述预训练的词嵌入模型提取新类别集合中各类别的语义特征；

S3、基于语义相似度的样本选择，获取一个新类别样本的语义特征，并计算其与每一个基础类别的语义特征之间的距离，作为该新类别样本所属类别与所有基础类别的语义相似度，并在语义相似度最高的基础类别集合中进行备选样本选择；

S4、语义指导下的样本合成，合并基础类别的语义特征与新类别的语义特征，得到全体类别的语义特征，对其进行L2归一化处理，得到处理后的语义特征与语义判别器，使用所述新类别样本优化语义判别器，对所述新类别样本使用优化后的语义判别器计算其内容筛选率，对所述备选样本使用所述优化后的语义判别器计算其内容筛选率，并得到融合率，针对所述新类别样本及所述备选样本使用所述融合率合成新样本；

S5、语义监督下的双模态分类器设计，给定所述处理后的语义特征使用带泄露线性整流函数以及语义分类矩阵构造语义监督的分类器，通过视觉分类矩阵定义视觉分类器，合并所述视觉分类器与语义监督的分类器得到双模态分类器；

S6、模型训练与测试，依据所述步骤S1对基础类别样本、新类别样本提取视觉特征及类别标签，并依据所述步骤S2对各类别样本提取语义特征，依据所述步骤S3对新类别样本进行备选样本选择，再依据所述步骤S4对新类别样本与所选备选样本合成新样本；利用梯度下降算法训练所述双模态分类器，当训练迭代次数达到设定的次数时，停止训练，得到训练后的双模态分类器，用于预测新图像样本的类别。

更进一步地，计算所述双模态分类器的损失函数，以更新模型各部分的参数。

更进一步地，所述步骤S1中，对输入图像进行特征提取包括以下具体步骤：

S1.1、获取用于预训练的自然图像样本集合，输入预训练的CNN模型提取其视觉特征及其基础类别标签集合，表示为：，其中，表示第个自然图像样本的视觉特征，且，表示视觉特征的维度，表示第个自然图像样本的基础类别标签，且，表示自然图像样本的基础类别集合，表示自然图像样本的基础类别数量，表示每个基础类别中的自然图像样本数量；

S1.2、获取新类别图像样本集合，输入所述预训练的CNN模型提取其视觉特征及其类别标签集合，表示为：，其中，表示第个新类别样本的视觉特征，且，表示第个新类别样本的类别标签，且，表示新类别样本的类别集合，且满足，表示新类别样本的类别数量，表示每个新类别中的样本数量。

更进一步地，所述步骤S2中，对语义信息进行特征提取包括以下具体步骤：

S2.1、使用预训练的词嵌入模型提取基础类别集合中各类别的语义特征，表示为：，其中，表示第个基础类别的语义特征，且，表示语义特征的维度；

S2.2、使用预训练的词嵌入模型提取新类别集合中各类别的语义特征，表示为：，其中，表示第个新类别的语义特征，且，表示语义特征的维度。

更进一步地，所述步骤S3中，基于语义相似度的样本选择包括以下具体步骤：

S3.1、获取第个新类别样本的视觉特征以及类别标签，其对应类别的语义特征记为，计算其语义特征与第个基础类别的语义特征之间的距离，并作为第个新类别样本所属类别与第个基础类别的语义相似度，从而得到第个新类别样本所属类别与所有基础类别的语义相似度，且，表示为：，其中，表示与的向量内积，、分别表示、的L2范式；

S3.2、从第个新类别样本的语义相似度中选择相似度最高的基础类别集合，记为，并将中的所有样本的视觉特征与类别标签作为备选集，表示为：，其中，表示备选集中第k个样本的视觉特征与类别标签，将其作为备选样本进行样本合成。

更进一步地，所述步骤S4中，语义指导下的样本合成包括以下具体步骤：

S4.1、合并基础类别的语义特征与新类别的语义特征，得到全体类别的语义特征，对其进行L2归一化处理，得到处理后的语义特征，；

S4.2、给定处理后的语义特征构造语义判别器，表示为：，其中，为映射矩阵，，且；

S4.3、利用损失函数优化语义判别器，得到优化后的语义判别器，表示为：

，其中，表示交叉熵损失函数，与分别表示第个新类别样本的视觉特征以及类别标签；

S4.4、对于第个新类别样本，计算其在全部类别上的得分，表示为：，其中，为归一化指数函数，为第个新类别样本的视觉特征，表示在中选择其在第个新类别样本所属类别的得分作为第个新类别样本的内容筛选率；

S4.5、对于所述的备选样本，计算其在全部类别上的得分，表示为：，其中，为备选样本的视觉特征，表示在中选择其在第个新类别样本所属类别的得分作为其内容筛选率；

S4.6、对于第个新类别样本及所述备选样本，计算其融合率，表示为：；

S4.7、对于第个新类别样本及所述备选样本，合成新样本的视觉特征及其对应的类别标签，得到合成的新样本的视觉特征及其类别标签为，表示为：，表示为：。

更进一步地，所述步骤S5中，语义监督下的双模态分类器设计包括以下具体步骤：

S5.1、给定所述处理后的语义特征构造语义监督的分类器，表示为：，其中，为带泄露线性整流函数，为连接矩阵，且，为语义分类矩阵，且；

S5.2、定义对语义监督的分类器的损失函数，表示为：，其中，为多标签交叉熵损失函数，为语义监督的分类器，、分别为新类别样本的视觉特征、类别标签，、分别为合成的新样本的视觉特征、类别标签；

S5.3、定义视觉分类器，表示为：，其中，为视觉分类矩阵，且；

S5.4、定义视觉分类器的损失函数，表示为：，其中，为多标签交叉熵损失函数，为视觉分类器，、分别为新类别样本的视觉特征、类别标签，、分别为合成的新样本的视觉特征、类别标签；

S5.5、定义双模态分类器，表示为：，其中，为调和因子。

更进一步地，所述步骤S6中，模型训练与测试包括以下具体步骤：

S6.1、由所述特征提取模块对基础类别样本、新类别样本提取视觉特征及类别标签，并对各类别提取语义特征，由所述基于语义相似度的样本选择模块对新类别样本进行备选样本选择，由所述语义指导下的样本合成模块对新类别样本与所选备选样本合成新样本；

S6.2、构造总损失函数，表示为：，其中，、、分别为调和因子，、、分别为所述语义判别器、基于语义监督的分类器以及视觉分类器的损失函数；

S6.3、利用梯度下降算法训练所述双模态分类器，并计算损失函数，以更新模型各部分的参数，当训练迭代次数达到设定的次数时，停止训练，得到训练后的双模态分类器，用于预测新图像样本的类别。

第二方面，本发明提供了一种图像处理装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。

第三方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现所述的小样本图像分类方法。

与现有技术相比，本发明的有益效果在于：

本发明提出了语义信息应用在小样本分类方法中的作用，并设计了一种基于语义指导的小样本图像分类方法，通过引入语义信息，并将语义信息集成到数据合成与分类器设计中，提升了对新类别数据分布的描述能力，提升了图像分类准确率。

本发明在数据生成中通过语义相关性过滤了不相关的基础类别信息，并通过语义判别器精准分析样本间的差异产生融合率，相较于常见的数据生成的方法过滤了噪声，缓解了类别的差异，并且生成方式简单，提高了分类器的效率。

本发明将语义信息作为监督信号引入到分类器设计中，并设计了双模态分类器，提升了分类器对新类别数据分布的感知能力，为新类别构建了自适应和灵活的分类边界。

本发明通过将语义信息引入到视觉特征生成与分类器设计中，基于不同类别间的语义相似性与语义判别器生成新样本，并基于语义监督设计了双模态分类器，缓解了类别差异，完善了对新类别的描述，提升了分类器对新类别的响应能力，提高了分类器对小样本图像分类的准确度。

附图说明

图1为本发明的实施例1中基于语义指导的小样本图像分类方法的流程图；

图2为本发明的实施例1中基于语义指导的小样本图像分类模型示意图；

图3为本发明的实施例1中语义指导下的样本合成示意图；

图4为本发明的实施例1中语义监督下的双模态分类器的设计示意图。

具体实施方式

实施例1：

参照图1和图2，本实施例公开了一种基于语义指导的小样本图像分类方法，该图像分类方法包括以下步骤：

S1、对输入图像进行特征提取，在引入语义信息之前，首先通过在基础类别上预训练的CNN模型将来自基础类别和新类别的图像样本及其所属类别表示为视觉特征及类别标签形式。对输入图像进行特征提取包括以下具体步骤：

S2、对语义信息进行特征提取，为了将语义信息引入到视觉特征合成与分类器设计中，首先通过预训练的词嵌入方法将基础类别和新类别的语义信息转化为特征表示。对语义信息进行特征提取包括以下具体步骤：

S3、为了实现基于语义相似度的样本选择，首先计算各新类别的语义特征与所有基础类别的语义特征的相似度关系，对于每一个新类别的语义特征，计算其与所有基础类别的语义特征的Cosine距离作为其语义相似度，然后从与当前新类别语义相似度最近的基础类别中选择备选样本进行样本合成。基于语义相似度的样本选择包括以下具体步骤：

S3.1、获取第个新类别样本的视觉特征以及类别标签，其对应类别的语义特征记为，计算其语义特征与第个基础类别的语义特征之间的距离，并作为第个新类别样本所属类别与第个基础类别的语义相似度，从而得到第个新类别样本所属类别与所有基础类别的语义相似度，且，表示为：

，其中，表示与的向量内积，、分别表示、的L2范式；

S4、语义指导下的样本合成，参照图3，语义指导下的样本合成包括以下具体步骤：

S4.2、给定处理后的语义特征构造语义判别器，表示为：，其中，为映射矩阵，通过映射矩阵将语义特征映射到视觉空间，，且；

S4.6、使用优化后的语义判别器精准区分新类别样本与备选样本，并得到融合率，对于第个新类别样本及所述备选样本，计算其融合率，表示为：；

S5、语义监督下的双模态分类器设计，参照图4，语义监督下的双模态分类器设计包括以下具体步骤：

S5.5、定义双模态分类器，表示为：，其中，为调和因子，本实施例中，。

S6、模型训练与测试，包括以下具体步骤：

S6.2、构造总损失函数，表示为：，其中，、、分别为调和因子，本实施例中，，、、分别为所述语义判别器、基于语义监督的分类器以及视觉分类器的损失函数；

实施例2：

本实施例公开了一种图像处理装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。

实施例3：

本实施例公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现所述的小样本图像分类方法。

Claims

1.一种基于语义指导的小样本图像分类方法，其特征是，该图像分类方法包括以下步骤：

S1、对输入图像进行特征提取，获取用于预训练的自然图像样本集合，输入预训练的CNN模型提取其视觉特征及其基础类别标签集合，再获取新类别图像样本集合，输入所述预训练的CNN模型提取其视觉特征及其类别标签集合；对输入图像进行特征提取包括以下具体步骤：

S1.1、获取用于预训练的自然图像样本集合，输入预训练的CNN模型提取其视觉特征及其基础类别标签集合D_base，D_base表示为：其中，表示第i个自然图像样本的视觉特征，且d_v表示视觉特征的维度，表示第i个自然图像样本的基础类别标签，且C_base表示自然图像样本的基础类别集合，|C_base|表示自然图像样本的基础类别数量，N_base表示每个基础类别中的自然图像样本数量；

S1.2、获取新类别图像样本集合，输入所述预训练的CNN模型提取其视觉特征及其类别标签集合D_novel，D_novel表示为：其中，表示第j个新类别样本的视觉特征，且表示第j个新类别样本的类别标签，且C_novel表示新类别样本的类别集合，且满足C_novel∩C_base＝φ，|C_novel|表示新类别样本的类别数量，N_novel表示每个新类别中的样本数量；

S2、对语义信息进行特征提取，使用预训练的词嵌入模型提取用于预训练的基础类别集合中各类别的语义特征，使用所述预训练的词嵌入模型提取新类别集合中各类别的语义特征；对语义信息进行特征提取包括以下具体步骤：

S2.1、使用预训练的词嵌入模型提取基础类别集合C_base中各类别的语义特征T_base，T_base表示为：其中，表示第m个基础类别的语义特征，且d_t表示语义特征的维度；

S2.2、使用预训练的词嵌入模型提取新类别集合C_novel中各类别的语义特征T_novel，T_novel表示为：其中，表示第n个新类别的语义特征，且d_t表示语义特征的维度；

S3、基于语义相似度的样本选择，获取一个新类别样本的语义特征，并计算其与每一个基础类别的语义特征之间的距离，作为该新类别样本所属类别与所有基础类别的语义相似度，并在语义相似度最高的基础类别集合中进行备选样本选择；基于语义相似度的样本选择包括以下具体步骤：

S3.1、获取第j个新类别样本的视觉特征以及类别标签其对应类别的语义特征记为计算其语义特征与第m个基础类别的语义特征之间的距离并作为第j个新类别样本所属类别与第m个基础类别的语义相似度，从而得到第j个新类别样本所属类别与所有基础类别的语义相似度R_S(j)，且表示为：

其中，表示与的向量内积，分别表示的L2范式；

S3.2、从第j个新类别样本的语义相似度R_S(j)中选择相似度最高的基础类别集合，记为C_r，并将C_r中的所有样本的视觉特征与类别标签作为备选集D_candidate，D_candidate表示为：其中，表示备选集D_candidate中第k个样本的视觉特征与类别标签，将其作为备选样本进行样本合成；

S4、语义指导下的样本合成，合并基础类别的语义特征与新类别的语义特征，得到全体类别的语义特征，对其进行L2归一化处理，得到处理后的语义特征与语义判别器，使用所述新类别样本优化语义判别器，对所述新类别样本使用优化后的语义判别器计算其内容筛选率，对所述备选样本使用所述优化后的语义判别器计算其内容筛选率，并得到融合率，针对所述新类别样本及所述备选样本使用所述融合率合成新样本；语义指导下的样本合成包括以下具体步骤：

S4.1、合并基础类别的语义特征T_base与新类别的语义特征T_novel，得到全体类别的语义特征T＝{T_base,T_novel}，对其进行L2归一化处理，得到处理后的语义特征

S4.2、给定处理后的语义特征构造语义判别器Ω，Ω表示为：其中，W_d为映射矩阵，且

S4.3、利用损失函数L_d优化语义判别器Ω，得到优化后的语义判别器L_d表示为：

其中，CE表示交叉熵损失函数，与分别表示第j个新类别样本的视觉特征以及类别标签；

S4.4、对于第j个新类别样本，计算其在全部类别上的得分表示为：其中，Softmax为归一化指数函数，为第j个新类别样本的视觉特征，表示在中选择其在第j个新类别样本所属类别的得分作为第j个新类别样本的内容筛选率；

S4.5、对于所述的备选样本，计算其在全部类别上的得分表示为：其中，为备选样本的视觉特征，表示在中选择其在第j个新类别样本所属类别的得分作为其内容筛选率；

S4.6、对于第j个新类别样本及所述备选样本，计算其融合率α_j，α_j表示为：

S4.7、对于第j个新类别样本及所述备选样本，合成新样本的视觉特征及其对应的类别标签得到合成的新样本的视觉特征及其类别标签为表示为：

表示为：

2.根据权利要求1所述的基于语义指导的小样本图像分类方法，其特征是，计算所述双模态分类器的损失函数，以更新模型各部分的参数。

3.根据权利要求1所述的基于语义指导的小样本图像分类方法，其特征是，所述步骤S5中，语义监督下的双模态分类器设计包括以下具体步骤：

S5.1、给定所述处理后的语义特征构造语义监督的分类器Γ_t，Γ_t表示为：其中，LeakyReLU为带泄露线性整流函数，A为连接矩阵，且A∈R^dt×dv，W_t为语义分类矩阵，且W_t∈R^dv×dv；

S5.2、定义对语义监督的分类器的损失函数L_t，L_t表示为：

其中，MCE为多标签交叉熵损失函数，Γ_t为语义监督的分类器，分别为新类别样本的视觉特征、类别标签，分别为合成的新样本的视觉特征、类别标签；

S5.3、定义视觉分类器Γ_v，Γ_v表示为：Γ_v＝W_v，其中，W_v为视觉分类矩阵，且

S5.4、定义视觉分类器的损失函数L_v，L_v表示为：

其中，MCE为多标签交叉熵损失函数，Γ_v为视觉分类器，分别为新类别样本的视觉特征、类别标签，分别为合成的新样本的视觉特征、类别标签；

S5.5、定义双模态分类器Γ，Γ表示为：Γ＝λΓ_v+(1-λ)Γ_t，其中，λ为调和因子。

4.根据权利要求1所述的基于语义指导的小样本图像分类方法，其特征是，所述步骤S6中，模型训练与测试包括以下具体步骤：

S6.2、构造总损失函数L，L表示为：L＝μ₁L_d+μ₂L_t+μ₃L_v，其中，μ₁、μ₂、μ₃分别为调和因子，L_d、L_t、L_v分别为所述语义判别器、基于语义监督的分类器以及视觉分类器的损失函数；

S6.3、利用梯度下降算法训练所述双模态分类器Γ，并计算损失函数L，以更新模型各部分的参数，当训练迭代次数达到设定的次数时，停止训练，得到训练后的双模态分类器Γ^*，用于预测新图像样本的类别。

5.一种图像处理装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，其特征在于，所述计算机可执行指令被所述处理器运行时实现权利要求1～4任一项所述的小样本图像分类方法。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现权利要求1～4任一项所述的小样本图像分类方法。