CN116452895B

CN116452895B - 基于多模态对称增强的小样本图像分类方法、装置及介质

Info

Publication number: CN116452895B
Application number: CN202310693879.1A
Authority: CN
Inventors: 张新宇; 王硕; 何向南; 郝艳宾
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-10-20
Anticipated expiration: 2043-06-13
Also published as: CN116452895A

Abstract

本发明公开了一种基于多模态对称增强的小样本图像分类方法、装置及介质，该小样本图像分类方法包括以下步骤：基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移和模型训练与测试步骤。本发明通过在文本端和视觉端分别进行对称的级联增强操作，以样本扩充和文本扩充的方式利用充足的基础类别样本对新类别样本进行增强，并通过跨模态迁移交换来自不同模态的知识，从而最大限度地探索新类别数据分布，提升分类器的判别能力，提高小样本图像分类的准确度。

Description

基于多模态对称增强的小样本图像分类方法、装置及介质

技术领域

本发明属于图像处理技术领域，具体的说是基于多模态对称增强的小样本图像分类方法、装置及介质。

背景技术

近年来，卷积神经网络(CNN)已在图像分类、目标检测等各项计算机视觉任务中表现出了强大的性能，但这类数据驱动的网络往往需要经过大规模的有标注数据训练，以保证其准确性和鲁棒性。然而海量数据的收集与标注是一项耗时且昂贵的任务，其训练过程也需要耗费巨量的计算资源与时间成本。相比之下，由于人类已经有大量的知识积累，他们可以仅通过几个示例快速识别一个从未见过的新对象。因此，研究者提出了小样本学习(FSL)来模仿这种人类能力，从已知的基础类别样本中推理学习，进而达到快速图像理解的目的，使得CNN模型在训练样本极为稀缺的情况下，也可以对新类别样本有较好的识别能力，仅通过少量有标记的支持样本适应新的类别。

目前，简单且有效的一种解决方案是通过数据增强技术在有限的信息下最大限度地探索数据分布。大多数基于数据增强的小样本学习方法集中在探索可迁移的类内及类间特征，或训练生成器生成特定图像。前者学习相同基础类别内或类别间的样本差异，并泛化到新类别中，后者则利用基础类别样本训练生成网络，用以生成更多的新类别样本。然而，这类方法都极其依赖于基础类别样本的视觉特征，倾向于关注从基础类别中所学习到的物体的纹理和结构，而忽略了新样本的细节，导致分类性能较弱。

因此，另一类基于数据增强的小样本学习方法尝试引入多模态知识，从文本信息中提取语义知识，并将其作为知识迁移过程中的指导和补充，以获得更好的效果。例如训练以标签文本为条件的条件生成网络，引入文本特征进行多模态融合，或利用语义关系指导知识的迁移过程。这种方法缓解了仅在纯视觉特征增强训练的分类器存在的认知偏差。然而固定的文本输入缺乏灵活性，容易导致模型的过拟合，且引入了一定的外部噪声，反而误导了分类器的识别过程，导致了性能提升有限的问题。

基于上述分析，如何利用多样化的知识源来引导数据增强，是基于数据增强的小样本学习方法亟待解决的问题。包括从视觉、语言等不同角度收集多模态信息，并将其整合到生成样本的过程中，以提高分类器在新类别上的泛化能力。同时还需要平衡不同知识源之间的贡献，避免某些来源的信息对模型性能产生负面影响。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于多模态对称增强的小样本图像分类方法、装置及介质，在有限信息的条件下最大限度地探索数据分布，从而提高小样本图像分类的准确性。

本发明为达到上述发明目的，采用如下技术方案：

第一方面，本发明提供了一种基于多模态对称增强的小样本图像分类方法，该图像分类方法包括以下步骤：

S1、构建基础类别候选集，利用多模态预训练模型CLIP中的文本编码器获取新类别的文本特征和基础类别的文本特征，再构建新类别的文本特征和基础类别的文本特征之间的相似度集合，选出每个新类别对应的相似度最高的数个基础类别，构建每个新类别基于文本相似度的基础类别候选集；

S2、视觉特征增强，利用预训练的CNN视觉模型获取支持样本和基础样本的视觉特征集合，对于一个支持样本，从其所属的新类别对应的基础类别候选集中随机选取基础类别，并从属于该基础类别的基础样本集合中随机选取样本，通过Mixup操作混合该支持样本和该随机选取样本的视觉特征，得到混合视觉特征，再通过特征层面的CutMix操作级联混合支持样本视觉特征和混合视觉特征，得到最终的增强视觉特征；

S3、文本特征增强，对于一个新类别，从与其相关的基础类别候选集中随机选取基础类别，通过Mixup操作混合该新类别和该随机选取基础类别的文本特征，得到混合文本特征，再通过特征层面的CutMix操作级联混合新类别文本特征和混合文本特征，得到最终的增强文本特征；

S4、视觉分类器训练，在每次迭代中，从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签，经过步骤S2生成与批量选取的支持样本相同数量的增强视觉特征，通过原始支持样本特征和增强视觉特征训练视觉分类器，分别得到原始支持样本特征和增强视觉特征的预测分数；

S5、文本知识迁移，将新类别的文本特征通过步骤S3得到增强文本特征，利用线性层将其映射到视觉特征的维度，并将其与步骤S4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层，分别得到原始支持样本特征和增强视觉特征的迁移分数；

S6、模型训练与测试，由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型，利用梯度下降算法对多模态对称增强模型进行训练，并计算总损失函数L以更新网络参数，当训练迭代次数达到设定的次数时，即停止训练；对于新类别集合中测试样本，先利用预训练的CNN模型获取其视觉特征，再将该视觉特征分别通过视觉分类器后和文本知识迁移，得到视觉预测分数和迁移预测分数，将二者加权融合得到最终预测分数，取最终预测分数最大的类别作为图像分类的预测结果。

更进一步地，步骤S1中，所述构建基础类别候选集包括以下具体步骤：

S1.1、利用预训练的CLIP模型中的文本编码器获取新类别的文本特征T_novel和基础类别的文本特征T_base，T_novel表示为：T_base表示为：/>其中，C_novel表示新类别集合，C_base表示基础类别集合，且C_novel与C_base无交集，|C_novel|表示新类别集合中的类别数量，|C_base|表示基础类别集合中的类别数量，/>表示维度为d_t的第i个新类别的文本特征，/>表示维度为d_t的第j个基础类别的文本特征；

S1.2、计算第i个新类别的文本特征和第j个基础类别的文本特征/>之间的相似度r^i,j,基于相似度r^i,j进而构建集合/>表示为：/>r^i,j表示为：其中，/>表示/>和/>之间的内积，/>分别表示/>的模长；

S1.3、将集合中的元素排序，并选出其中最大的k个元素对应的基础类别，构建基于文本相似度的基础类别候选集/>

更进一步地，步骤S2中，所述视觉特征增强包括以下具体步骤：

S2.1、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合D_s，D_s表示为：f_s ^m表示维度为d_v的第m个支持样本的视觉特征，/>表示第m个支持样本的类别标签，且/>N_novel表示每个新类别中的支持样本数量；

S2.2、利用预训练的CNN模型获取基础样本的视觉特征及其标签的集合D_b，D_b表示为：表示维度为d_v的第n个基础样本的视觉特征，/>表示第n个基础样本的类别标签，且/>N_base表示每个基础类别中的基础样本数量；

S2.3、对于类别为l_s支持样本I_s，从步骤S1.3得到的与其相关的基础类别候选集中随机选取类别标签l_b，并从标签为l_b的基础样本中随机选取样本I_b，混合支持样本I_s的视觉特征f_s和样本I_b的视觉特征f_b得到混合视觉特征/>混合视觉特征/>表示为：其中，λ_v为两个视觉特征的混合比率，混合比率是从参数为(2，2)的beta分布中采样得到，而两个视觉特征的标签不进行混合，仍保持为支持类别标签l_b；

S2.4、生成满足均匀分布的随机向量V，随机向量V的维度为d_v，其中每个元素值的范围在0到1之间，并按照掩码比率α_v将随机向量V转化为掩码向量M_v，掩码向量M_v的维度为d_v，其中每个元素值为0或1；

S2.5、通过掩码向量M_v混合混合视觉特征和视觉特征f_b，最终得到增强视觉特征表述为：/>其中，⊙表示按元素相乘。

更进一步地，步骤S3中，所述文本特征增强包括以下具体步骤：

S3.1、对于类别为l_s支持样本I_s，从步骤S1.3得到的基础类别候选集中随机选取类别标签l_b，并从标签为l_b的基础样本中随机选取样本I_b，混合支持样本I_s的文本特征t_s和样本I_b的文本特征tb，得到混合文本特征/>表示为：/>其中，λ_t为两个文本特征的混合比率，混合比率是从参数为(2，2)的beta分布中采样得到，而两个文本特征的标签不进行混合，仍保持为支持类别标签；

S3.2、生成满足均匀分布的随机向量V′，随机向量V′的维度为d_t，其中每个元素值的范围在0到1之间，并按照掩码比率α_t将随机向量V′转化为掩码向量M_t，掩码向量M_t的维度为d_t，其中每个元素值为0或1；

S3.3、通过掩码向量M_t混合混合文本特征和文本特征t_b，最终得到增强文本特征表示为：/>其中，⊙表示按元素相乘。

更进一步地，所述随机向量V利用式转化为所述掩码向量M_v，其中，m_i和v_i分别为向量M_v和V第i个位置上的元素，超参数α_v为掩码比率；所述随机向量V′利用式/>转化为所述掩码向量M_t，其中，m′_i和v′_i分别为向量M_t和V′第i个位置上的元素，超参数α_t为掩码比率。

更进一步地，步骤S4中，所述视觉分类器训练包括以下具体步骤：

S4.1、在每次迭代中，从D_s中选取数量为B的一个批量的支持样本特征以及其标签/>经过步骤S2生成B个增强视觉特征/>

S4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器，分别得到原始支持样本特征和增强视觉特征的视觉预测分数/>表示为：表示为：/>其中，W^v为视觉分类器的权重，/>

S4.3、计算视觉分类器预测分数与真实标签之间的视觉损失L_v，视觉损失L_v表示为：其中，CE为交叉熵损失。

更进一步地，步骤S5中，所述文本知识迁移包括以下具体步骤：

S5.1、新类别的文本特征T_novel经过步骤S3得到增强语义特征利用参数为和/>的线性层将增强语义特征/>映射为d_v维，并将其分别与原始支持样本特征和增强视觉特征结合，得到迁移预测分数/>和/>表示为：表示为：/>其中，

S5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失L_t，L_t表示为：其中，CE为交叉熵损失。

更进一步地，步骤S6中，所述模型训练与测试包括以下具体步骤：

S6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型，并定义模型的总损失函数L，L表示为L＝L_v+μL_t，

其中，μ为两个损失L_v和L_t之间的平衡系数；

S6.2、采用梯度下降算法对多模态对称增强模型进行训练，并计算总损失函数L以更新网络参数，当训练迭代次数达到设定的次数时，停止训练；

S6.3、对于新类别集合C_novel中测试样本，先利用预训练的CNN模型获取其视觉特征，再利用式p_v＝Classifier(f_s)＝W^v*(f_s)^T,分别通过视觉分类器和文本知识迁移得到视觉预测分数p_v和迁移预测分数p_t，将二者加权融合并取分数最大的位置，得到最终预测分数p，p表示为：p＝argmax(p_v+γp_t)，其中，γ为权重系数，预测分数p对应的类别即为测试样本图像分类的预测结果。

第二方面，本发明提供了一种图像处理装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，其特征在于，所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。

第三方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现所述的小样本图像分类方法。

与现有技术相比，本发明的有益效果如下：

1、本发明可以有效挖掘和利用文本知识中蕴含的类别关系，通过视觉模态增强利用基础类别的充足样本丰富新类别的表示，并通过文本模态增强提高了模型的鲁棒性和泛化性，提升了小样本分类方法的分类准确度，与以往的基于数据增强的小样本分类方法相比，本发明更加充分利用并有效衔接了来自基础类别以及额外文本的先验知识，减少了多模态知识中的偏差与噪声，是一种有效的小样本分类方法。

2、本发明在视觉和文本空间分别设计了对称的无参数增强策略，通过极小的计算量高效地增加了训练样本和监督信号来提高分类器的感知范围。

3、本发明充分挖掘了文本信息中蕴含的知识，综合利用了文本的特征表示和关联关系，并采用知识转移结构，在不同模态之间交换信息，提高分类器的分类能力。

4、本发明通过对文本知识进行充分挖掘，并利用文本知识指导在视觉端和文本端进行对称增强的策略，分别丰富新类别的视觉特征和语义表达，并通过跨模态知识迁移结合来自不同模态的知识，从而能减轻基础类别和新类别间样本数量差异的影响，最大限度地探索数据分布，并能提高小样本图像分类的准确度。

附图说明

图1为本发明提供的实施例1中基于多模态对称增强的小样本图像分类方法的流程图；

图2为本发明提供的实施例1中基于多模态对称增强的小样本图像分类模型结构图；

图3为本发明的实施例1中知识迁移模块示意图；

图4为本发明的实施例1中基于多模态对称增强的小样本图像分类原理框图。

具体实施方式

实施例1：

本实施例公开了一种基于多模态对称增强的小样本图像分类方法，参照图1和图2，该图像分类方法包括以下步骤：

S1、构建基础类别候选集，利用多模态预训练模型CLIP中的文本编码器获取新类别的文本特征和基础类别的文本特征，再构建新类别的文本特征和基础类别的文本特征之间的相似度集合，选出每个新类别对应的相似度最高的数个基础类别，构建每个新类别基于文本相似度的基础类别候选集。构建基础类别候选集包括以下具体步骤：

S1.3、将集合中的元素排序，并选出其中最大的k个元素对应的基础类别，构建基于文本相似度的基础类别候选集/>本实施例中k＝5。

S2、视觉特征增强，利用预训练的CNN视觉模型获取支持样本和基础样本的视觉特征集合，对于一个支持样本，从其所属的新类别对应的基础类别候选集中随机选取基础类别，并从属于该基础类别的基础样本集合中随机选取样本，通过Mixup操作混合该支持样本和该随机选取样本的视觉特征，得到混合视觉特征，再通过特征层面的CutMix操作级联混合支持样本视觉特征和混合视觉特征，得到最终的增强视觉特征；视觉特征增强包括以下具体步骤：

S2.4、生成满足均匀分布的随机向量V，随机向量V的维度为d_v，且每个元素值的范围在0到1之间，随机向量V利用式转化为掩码向量M_v，掩码向量M_v的维度为d_v，且每个元素值为0或1，其中，m_i和vi分别为向量M_v和V第i个位置上的元素，超参数α_v为掩码比率，本实施例中α_v＝0.1；

S3、文本特征增强，对于一个新类别，从与其相关的基础类别候选集中随机选取基础类别，通过Mixup操作混合该新类别和该随机选取基础类别的文本特征，得到混合文本特征，再通过特征层面的CutMix操作级联混合新类别文本特征和混合文本特征，得到最终的增强文本特征；文本特征增强包括以下具体步骤：

S3.1、对于类别为l_s支持样本I_s，从步骤S1.3得到的基础类别候选集中随机选取类别标签l_b，并从标签为l_b的基础样本中随机选取样本I_b，混合支持样本I_s的文本特征t_s和样本I_b的文本特征t_b，得到混合文本特征/>表示为：/>其中，λ_t为两个文本特征的混合比率，混合比率是从参数为(2，2)的beta分布中采样得到，而两个文本特征的标签不进行混合，仍保持为支持类别标签；

S3.2、生成满足均匀分布的随机向量V′，随机向量V′的维度为d_t，且每个元素值的范围在0到1之间，随机向量V′利用式转化为掩码向量M_t，掩码向量M_t的维度为d_t，且每个元素值为0或1，其中，m′_i和v′_i分别为向量M_t和V′第i个位置上的元素，超参数α_t为掩码比率，本实施例中α_t＝0.1；

S4、视觉分类器训练，在每次迭代中，从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签，经过步骤S2生成与批量选取的支持样本相同数量的增强视觉特征，通过原始支持样本特征和增强视觉特征训练视觉分类器，分别得到原始支持样本特征和增强视觉特征的预测分数；视觉分类器训练包括以下具体步骤：

S5、文本知识迁移，将新类别的文本特征通过步骤S3得到增强文本特征，利用线性层将其映射到视觉特征的维度，并将其与步骤S4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层，分别得到原始支持样本特征和增强视觉特征的迁移分数。

参照图3，文本知识迁移包括以下具体步骤：

S6、模型训练与测试，由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型，如图4所示。利用梯度下降算法对多模态对称增强模型进行训练，并计算总损失函数L以更新网络参数，当训练迭代次数达到设定的次数时，即停止训练；对于新类别集合中测试样本，先利用预训练的CNN模型获取其视觉特征，再将该视觉特征分别通过视觉分类器后和文本知识迁移，得到视觉预测分数和迁移预测分数，将二者加权融合得到最终预测分数，取最终预测分数最大的类别作为图像分类的预测结果。

模型训练与测试包括以下具体步骤：

其中，μ为两个损失L_v和L_t之间的平衡系数；

S6.3、对于新类别集合C_novel中测试样本，先利用预训练的CNN模型获取其视觉特征，再利用式p_v＝Classifier(f_s)＝W^v*(f_s)^T,分别通过视觉分类器和文本知识迁移得到视觉预测分数p_v和迁移预测分数p_t，p_v和p_t分别从视觉和文本信息的角度携带类别知识，为了在推理阶段进行最终的预测，将p_v和p_t的预测融合一体，使之相互补充。具体地，将p_v和p_t加权融合并取分数最大的位置，得到最终预测分数p，p表示为：p＝argmax(p_v+γp_t)，其中，γ为权重系数，预测分数p对应的类别即为测试样本图像分类的预测结果。

本实施例中，文本知识使用语义表征来表达每个类别，并提供类别之间的直接关系，一个新类别只与少数几个基础类别较为相关，为了避免带入不相关的噪音影响分类器训练，在进行增强之前直接计算这些类别表示之间的关系，并为每个新类别构建相似基础类别候选集。在增强阶段之前，通过在基础类别上预训练的CNN模型将来自基础类别和新类别的视觉样本表示为视觉特征。对于每个新类别特征，将其与相似基础类别候选集中采样得到的随机基础类别样本进行Mixup操作，生成新的新类别特征。

除此之外，为了更充分地引入更多不同形式的基础类别信息，使得新生成的新类别特征更具多样性和泛化性，利用一个级联的特征级别CutMix操作来考虑更广泛的基础类别的信息。具体来说，首先随机屏蔽掉混合视觉特征中的一部分数值，然后用基础类别的视觉特征f_b中相同位置的数值替换被屏蔽的数值。

现有的知识迁移方法往往从固定的文本表征开始，导致了模型的过拟合问题，同时也将文本中不正确的噪声信息也随着知识一起迁移进分类器的学习过程中。因此，本实施例在文本端设计了与视觉端对称的增强过程，从而丰富文本特征的表示，增强文本信息的多样性和模型的泛化性。

经过本实施例的步骤S2进行视觉特征增强，在每次迭代时都能将用作训练的新类别特征扩充到原来的两倍，进而利用这些原始样本和生成样本训练一个基于视觉特征的分类器。为了将步骤S2中产生的视觉增强特征与步骤S3得到增强语义特征相结合，沟通不同模态间的信息并进行多模态知识迁移，文本知识迁移模块可以从语义的角度对视觉特征进行分类。

实施例2：

本实施例公开了一种图像处理装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行计算机可执行指令，计算机可执行指令被所述处理器运行时实现实施例1公开的小样本图像分类方法。

实施例3：

本实施例公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时实现实施例1公开的小样本图像分类方法。

Claims

1.一种基于多模态对称增强的小样本图像分类方法，其特征是，该图像分类方法包括以下步骤：

S6、模型训练与测试，由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型，利用梯度下降算法对多模态对称增强模型进行训练，并计算总损失函数L以更新网络参数，当训练迭代次数达到设定的次数时，即停止训练；对于新类别集合中测试样本，先利用预训练的CNN模型获取其视觉特征，再将该视觉特征分别通过视觉分类器和文本知识迁移，得到视觉预测分数和迁移预测分数，将二者加权融合得到最终预测分数，取最终预测分数最大的类别作为图像分类的预测结果。

2.根据权利要求1所述的小样本图像分类方法，其特征是，步骤S1中，所述构建基础类别候选集包括以下具体步骤：

S1.2、计算第i个新类别的文本特征和第j个基础类别的文本特征/>之间的相似度r^i,j,基于相似度r^i,j进而构建集合/> 表示为：/>r^i,j表示为：其中，/>表示/>和/>之间的内积，/>分别表示/>的模长；

3.根据权利要求2所述的小样本图像分类方法，其特征是，步骤S2中，所述视觉特征增强包括以下具体步骤：

S2.1、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合D_s，D_s表示为：表示维度为d_v的第m个支持样本的视觉特征，/>表示第m个支持样本的类别标签，且/>N_novel表示每个新类别中的支持样本数量；

S2.5、通过掩码向量M_v混合混合视觉特征和视觉特征f_b，最终得到增强视觉特征/> 表述为：/>其中，⊙表示按元素相乘。

4.根据权利要求3所述的小样本图像分类方法，其特征是，步骤S3中，所述文本特征增强包括以下具体步骤：

S3.1、对于类别为l_s支持样本I_s，从步骤S1.3得到的基础类别候选集中随机选取类别标签l_b，并从标签为l_b的基础样本中随机选取样本I_b，混合支持样本I_s的文本特征t_s和样本I_b的文本特征t_b，得到混合文本特征/> 表示为：/>其中，λ_t为两个文本特征的混合比率，混合比率是从参数为(2，2)的beta分布中采样得到，而两个文本特征的标签不进行混合，仍保持为支持类别标签；

S3.3、通过掩码向量M_t混合混合文本特征和文本特征t_b，最终得到增强文本特征/>表示为：/>其中，⊙表示按元素相乘。

5.根据权利要求4所述的小样本图像分类方法，其特征是，所述随机向量V利用式转化为所述掩码向量M_v，其中，m_i和v_i分别为向量M_v和V第i个位置上的元素，超参数α_v为掩码比率；所述随机向量V′利用式/>转化为所述掩码向量M_t，其中，m′_i和v′_i分别为向量M_t和V′第i个位置上的元素，超参数α_t为掩码比率。

6.根据权利要求4所述的小样本图像分类方法，其特征是，步骤S4中，所述视觉分类器训练包括以下具体步骤：

S4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器，分别得到原始支持样本特征和增强视觉特征的视觉预测分数/> 表示为：/> 表示为：/>其中，W^v为视觉分类器的权重，

7.根据权利要求6所述的小样本图像分类方法，其特征是，步骤S5中，所述文本知识迁移包括以下具体步骤：

S5.1、新类别的文本特征T_novel经过步骤S3得到增强语义特征利用参数为和/>的线性层将增强语义特征/>映射为d_v维，并将其分别与原始支持样本特征和增强视觉特征结合，得到迁移预测分数/>和/> 表示为：表示为：/>其中，

8.根据权利要求7所述的小样本图像分类方法，其特征是，步骤S6中，所述模型训练与测试包括以下具体步骤：

其中，μ为两个损失L_v和L_t之间的平衡系数；

S6.3、对于新类别集合C_novel中测试样本，先利用预训练的CNN模型获取其视觉特征，再利用式p_v＝Classifier(f_s)＝W^v*(f_s)^T,分别通过视觉分类器和文本知识迁移得到视觉预测分数p_v和迁移预测分数p_t，将二者加权融合并取分数最大的位置，得到最终预测分数p，p表示为：p＝arg max(p_v+γp_t)，其中，γ为权重系数，预测分数p对应的类别即为测试样本图像分类的预测结果。

9.一种图像处理装置，包括存储器以及处理器，存储器存储有计算机可执行指令，处理器被配置为运行所述计算机可执行指令，其特征在于，所述计算机可执行指令被所述处理器运行时实现权利要求1～8任一项所述的小样本图像分类方法。

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时实现权利要求1～8任一项所述的小样本图像分类方法。