CN115131613A

CN115131613A - 一种基于多向知识迁移的小样本图像分类方法

Info

Publication number: CN115131613A
Application number: CN202210775075.1A
Authority: CN
Inventors: 王硕; 张新宇; 何向南; 郝艳宾
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-09-30
Anticipated expiration: 2042-07-01
Also published as: CN115131613B

Abstract

本发明公开了一种基于多向知识迁移的小样本图像分类方法，包括以下步骤：1、视觉与文本特征提取；2、类别间语义关系计算；3、文本知识单向自迁移；4、视觉知识单向自迁移、模态间知识双向互迁移；5、模型训练与测试。本发明通过在文本端和视觉端分别进行的单向自迁移，以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述，并通过跨模态互迁移交换来自不同模态的知识，使得不同模态间相互学习，共同训练，从而能减轻基础类别和新类别间样本数量差异的影响，缓解不同模态数据间的语义鸿沟，并能提高小样本图像分类的准确度。

Description

一种基于多向知识迁移的小样本图像分类方法

技术领域

本发明属于图像分类领域，具体的说是一种基于多向知识迁移的小样本图像分类方法。

背景技术

近年来，卷积神经网络(CNN)已在图像分类、目标检测等各类视觉任务中展现出强大的性能，但这往往需要依赖大规模的有标注训练数据作为保证。然而海量数据的收集与标注是一项昂贵且耗时的任务，其训练过程也需要耗费巨量的计算资源与时间成本。相反，在人类学习新事物的过程中，人们通过几个样本(甚至一个样本)就可以认识一个从未见过的新物体。这是因为他们已经有大量的知识积累，可以从许多其他相关物体或语义知识中推理学习，进而达到快速图像理解的目的。基于知识迁移的小样本学习(FSL)希望模仿人类的这种能力，通过各种先验知识使得CNN模型在训练样本极为稀缺的情况下也可以对新类别样本有较好的识别能力。

目前大多数基于知识迁移的小样本学习方法大多使用先验知识来辅助表示学习或分类器优化阶段的训练过程。其中，一类基于视觉知识迁移的方法使用在基础类别(与要识别的新类别不相交但每个类别中的样本数量充足)上训练的CNN来直接提取新类别的特征。他们的目的是通过转移基础类别的纹理结构来帮助描述一个新的类别。然而，由于基础类别的样本数量远远大于新类别的样本数量，在基础类别上训练的CNN更倾向于关注它所学习的物体的纹理和结构，而忽略了新样本的细节，导致分类性能较弱。

因此，另一类多模态的小样本学习方法尝试从文本信息中提取语义知识，并将其作为知识迁移过程中的额外监督信号，以获得更好的效果。这种方法缓解了仅在硬标签监督下训练的分类器存在的认知偏差。然而它忽略了不同模态数据间的语义鸿沟，并从外部知识中引入了与任务无关的噪声，反而误导了分类器的识别过程。

基于上述分析，如何减少基础类别和新类别间样本数量不平衡带来的偏差和引入额外语义知识带来的噪声，以及如何更好地结合不同模态之间的知识，使得不同模态间的知识互为补充，相辅相成，是基于知识迁移的小样本学习方法亟待解决的问题。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于多向知识迁移的小样本图像分类方法，以期能更充分地挖掘与迁移来自基础类别样本及额外文本的先验知识，从而能提高小样本图像分类的准确性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于多向知识迁移的小样本图像分类方法的特点是按以下步骤进行：

步骤1、视觉特征提取：

步骤1.1、利用预训练的CNN模型获取训练样本的视觉特征及其标签的集合

x_i表示维度为d_v的第i个训练样本的视觉特征，y_i表示第i个训练样本的类别标签，且y_i∈C_base，C_base表示基础类别集合，|C_base|表示基础类别集合中的类别数量，N_base表示每个基础类别中的训练样本数量；

步骤1.2、利用所述预训练的CNN模型获取支持样本的视觉特征及其标签的集合

x′_i表示维度为d_v的第i′个支持样本的视觉特征，y′_i表示第i′个支持样本的类别标签，且y′_i∈C_novel，C_novel表示新类别集合，且C_novel与C_base无交集，|C_novel|表示新类别集合中的类别数量，N_novel表示每个新类别中的支持样本数量；

步骤2：文本特征提取：

步骤2.1、利用预训练的词嵌入方法获取基础类别集合C_base中|C_base|个基础类别的文本特征

t_k表示维度为d_t的第k个基础类别的文本特征；

步骤2.2、利用所述预训练的词嵌入方法获取新类别集合C_novel中|C_novel|个新类别的文本特征

t′_k′表示维度为d_t的第k′个新类别的文本特征；

步骤3：计算类别间语义关系：

步骤3.1、利用式(1)计算第k′个新类别文本特征t′_k′和第k个基本类别的文本特征t_k之间的距离d(t′_k′,t_k)：

步骤3.2、获取与第k′个新类别的文本特征t′_k′距离最近的前M个基础类别的文本特征，从而得到第k′个新类别的最近邻集合

步骤3.3、利用式(2)计算关系矩阵A中第k′行第m列元素a_k′,m，从而构建关系矩阵A：

式(2)中，t_m为最近邻集合

中的任意一个基础类别的文本特征，t_v为最近邻集合

中的任意一个基础类别的文本特征；

步骤4：文本知识单向自迁移：

步骤4.2、利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t′_k′和文本特征t_m之间的第h个注意力头中的注意力系数

从而得到维度为|C_novel|×|C_base|的注意力系数矩阵σ^h：

式(3)中，

为d_v×d_t维的第h个学习参数，[·||·]表示拼接操作，LeakyReLU表示LeakyReLU激活函数；

步骤4.3、利用式(4)计算第h个注意力头中维度为|C_novel|×d_v的新类别集合C_novel的迁移语义特征

式(4)中，⊙表示哈达玛积，W^h为d_v×d_t维的第h个学习参数；

步骤4.4、利用式(5)计算新类别集合C_novel的迁移语义特征

式(5)中，H表示注意力头的数量；

步骤4.5、利用式(6)计算维度为(|C_base|+|C_novel|)×d_v的直接语义特征

式(6)中，

为(|C_base|+|C_novel|)×d_v维的学习参数，

为d_v维的学习参数，ReLU表示ReLU激活函数；

步骤4.6、利用式(7)得到维度为(|C_base|+|C_novel|)×d_v的语义分类器

式(7)中，Conv1D表示卷积核为1×1的卷积操作；

步骤4.7、利用式(8)定义文本端的交叉熵损失函数L^t：

式(8)中，B为一个批量训练样本的数量，x_l表示一批量中第l个训练样本的视觉特征，

表示x_l的转置，y_l表示样本特征x_l对应的类别标签；

步骤5：视觉知识单向自迁移：

步骤5.1、初始化维度为(|C_base|+|C_novel|)×d_v的视觉端原始分类器W^v；

步骤5.2、利用式(9)计算视觉端新类别集合C_novel的迁移分类器

步骤5.3、利用式(10)计算基于维度为(|C_base|+|C_novel|)×d_v的视觉分类器

式(10)中，

表示按元素相加；

步骤5.4、利用式(11)定义视觉端的交叉熵损失函数L^v：

步骤6：模态间知识双向互迁移：

步骤6.1、利用式(12)计算文本分类器和视觉分类器间的均方误差L^c：

式(12)中，c表示|C_base|+|C_novel|个全体类别中的任意一个类别，

代表

中的第c行，

代表

中的第c行；

步骤6.2、利用式(13)定义融合交叉熵损失函数L^m：

式(13)中，λ为融合权重因子，

为融合分类器；

步骤7：模型训练与测试：

步骤7.1、由所述文本知识单向自迁移模块、视觉知识单向自迁移模块、模态间知识双向互迁移模块构成多向知识迁移模型，并利用式(14)定义模型的总损失函数L：

L＝L^v+L^t+L^m+μL^c (14)

式(14)中，μ为权重因子；

步骤7.2、利用梯度下降算法对多向知识迁移模型进行训练，并计算总损失函数L以更新网络参数，当训练迭代次数达到设定的次数时，停止训练，从而得到第一次训练后的融合分类器；

步骤7.3、利用第一次训练后的多向知识迁移模型的融合分类器的基础类别部分替换T_b，新类别部分替换T_n，重新计算新的语义关系，得到新的关系矩阵

步骤7.4、根据

按照步骤4-步骤7.2的过程进行处理，从而得到第二次训练后的多向知识迁移模型；

步骤7.5、使用第二次训练后的多向知识迁移模型的融合分类器预测新类别集合C_novel中测试样本的类别。

本发明一种电子设备，包括存储器以及处理器，其特点在于，所述存储器用于存储支持处理器执行所述基于多向知识迁移的小样本分类方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特点在于，所述计算机程序被处理器运行时执行所述基于多向知识迁移的小样本分类方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明设计了一种基于多向知识迁移的小样本分类方法，能有效提取文本知识中蕴含的类别关系，通过模态内的知识自迁移利用基础类别的知识丰富新类别的表示，并通过模态间知识互迁移连接不同模态间的知识，提升了小样本分类方法的分类准确度，与以往的基于知识迁移的小样本分类方法相比，本发明更加充分利用并有效衔接了来自基础类别以及额外文本的先验知识，减少了多模态知识中的偏差与噪声，是一种有效的小样本分类方法。

2、本发明利用从文本知识中提取的类别关系指导知识迁移，文本知识在大规模语料库中训练而来，相较于从视觉样本中提取的类别关系更加准确；同时，所提出的二次训练策略可以有效减少文本知识中的原始噪声，大大提高了分类准确性。

3、本发明在文本端和视觉端分别进行知识单向自迁移，以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述，减轻了新类别样本数量稀缺，以及基本类别和新类别样本数量不平衡的影响。

4、本发明在模态间进行知识双向互迁移，将来自不同模态的知识在线连接起来，使得不同模态间相互学习，共同训练，互为补充，相辅相成，与传统的融合方法相比，大大减少了不同模态间的语义鸿沟。

附图说明

图1为本发明的基于多向知识迁移的小样本分类方法流程图；

图2为本发明的文本知识单向自迁移方法的示意图；

图3为本发明的视觉知识单向自迁移方法的示意图；

图4为本发明的模态间知识双向互迁移方法的示意图；

图5为本发明的基于多向知识迁移的小样本分类模型框架图。

具体实施方式

本实施例中，一种基于多向知识迁移的小样本分类方法，是通过在文本端和视觉端分别进行的单向自迁移，以语义推理和视觉幻想的方式从基础类别中完善对新类别的描述，并通过跨模态互迁移交换来自不同模态的知识，使得不同模态间相互学习，共同训练，从而能减轻基础类别和新类别间样本数量差异的影响，缓解不同模态数据间的语义鸿沟，并能提高小样本图像分类的准确度。具体的说，如图1所示，是按以下步骤进行：

步骤1、视觉特征提取：

在迁移阶段之前，分别通过在基础类别上预训练的CNN模型和词嵌入方法将来自基础类别和新类别的视觉样本及其语义标签表示为视觉特征及文本特征形式。

步骤1.2、利用预训练的CNN模型获取支持样本的视觉特征及其标签的集合

步骤2：文本特征提取：

t_k表示维度为d_t的第k个基础类别的文本特征；

步骤2.2、利用预训练的词嵌入方法获取新类别集合C_novel中|C_novel|个新类别的文本特征

t′_k′表示维度为d_t的第k′个新类别的文本特征；

步骤3：计算类别间语义关系：

为了实现由基础类别向新类别的知识迁移，需要计算新类别与每个基础类别间的语义关系。

步骤3.1、本实施例中，首先通过欧几里得距离函数的一种变体来计算不同类别语义之间的距离。利用式(1)计算第k′个新类别文本特征t′_k′和第k个基本类别的文本特征t_k之间的距离d(t′_k′,t_k)：

步骤3.2、然后通过在两个步骤探索类别间语义关系来构建邻接矩阵A：(1)给定新类别的文本特征，选择与其距离最小的基础类别构成最近邻集合；(2)计算给定新类别与及其最近邻集合中元素的相关性来填充邻接矩阵的元素。获取与第k′个新类别的文本特征t′_k′距离最近的前M个基础类别的文本特征，从而得到第k′个新类别的最近邻集合

本实施例中，M＝5；

式(2)中，t_m为最近邻集合

中的任意一个基础类别的文本特征，t_v为最近邻集合

中的任意一个基础类别的文本特征。a_k′,m代表第k′个新类别与第m个基础类别间的相关性，A的每一行元素之和均为1；

步骤4：文本知识单向自迁移：

在文本空间中，不仅能从类别的文本特征自身获取语义知识，还可以通过从相邻类别的文本特征中推理出语义知识。因此，文本知识单向自迁移主要关注于基础类别文本特征和新类别文本特征之间的关系，并使用该关系来调整新类别之间的距离，称之为语义推理。文本知识单向自迁移的过程如图2所示。

步骤4.2、将来自文本空间的关系与图注意力网络(GAT)结合起来，将文本空间中的每个文本特征视作图网络中的一个节点，将文本空间中的每对关系视作图网络的一条边，从而实现将文本知识从基本类别迁移到新类别中的目的。与需要对称邻接矩阵的图神经网络(GNN)相比，GAT适用于非对称有向图，更适合从基础类别向新类别的单向知识迁移；同时，与需要预先固定边权重的GNN相比，GAT使用注意力机制来学习边权重并融合特征之间的相关性。本实施例中，采用注意力头数量H＝8的多头图注意力网络实现。利用式(3)计算在关系矩阵A中存在邻接关系的新类别文本特征t′_k′和文本特征t_m之间，在第h个注意力头中的注意力系数

从而得到维度为|C_novel|×|C_base|的注意力系数矩阵σ^h：

式(3)中，

式(4)中，⊙表示哈达玛积，W^h为d_v×d_t维的第h个学习参数；

步骤4.4、利用式(5)计算新类别集合C_novel的迁移语义特征

式(5)中，H表示注意力头的数量；

步骤4.5、通过多层感知器(MLP)对语义特征进行直接建模，利用式(6)计算维度为(|C_base|+|C_novel|)×d_v的直接语义特征

式(6)中，

为(|C_base|+|C_novel|)×d_v维的学习参数，

为d_v维的学习参数，ReLU表示ReLU激活函数；

步骤4.6、将类别自身蕴含的直接语义特征与从相关类别中迁移得到的迁移语义特征结合起来，通过使用一维卷积进一步融合两个方面的知识。利用式(7)得到维度为(|C_base|+|C_novel|)×d_v的语义分类器

式(7)中，Conv1D表示1×1卷积操作；

步骤4.7、利用式(8)定义文本端的交叉熵损失函数L^t，以提供硬监督信号训练语义分类器

表示x_l的转置，y_l表示样本特征x_l对应的类别标签；

步骤5：视觉知识单向自迁移：

在视觉空间中，视觉知识单向自迁移结合文本知识计算的类别间关系来幻想新样本的潜在原型，并使用这些原型来帮助训练分类器，以弥补新类别样本数量稀缺的不足，称之为视觉幻想。视觉知识单向自迁移的过程如图3所示。

步骤5.2、由于支持样本数量稀缺，如果仅通过原始分类器W^v进行分类，识别过程容易出现过拟合问题。训练样本有限的新类别。并且在没有其他辅助策略的硬标签监督下训练的分类器会使识别产生偏差。为了缓解这些问题，使用类别间语义关系来调整分类器的权重。利用式(9)计算视觉端新类别集合C_novel的迁移分类器

步骤5.3、将视觉端的原始分类器与迁移分类器结合起来，利用式(10)计算基于维度为(|C_base|+|C_novel|)×d_v的视觉分类器

式(10)中，

表示按元素相加；

步骤5.4、利用式(11)定义视觉端的交叉熵损失函数L^v，以提供硬监督信号训练视觉分类器

步骤6：模态间知识双向互迁移：

除了L^t与L^v提供硬监督信号分别训练语义分类器与视觉分类器以外，还可以通过相互学习的训练策略使得语义分类器与视觉分类器在整个训练过程中协作学习并相互指导，使它们相互补充。本实施例中，通过最大化不同模态分类器之间的一致性来连接不同的模态，在联合训练期间提供额外的软监督。模态间知识双向互迁移的过程如图4所示。

步骤6.1、本实例中，最大化不同模态分类器之间的一致性通过最小化不同模态分类器之间的均方误差实现。利用式(12)计算语义分类器和视觉分类器间的均方误差L^c：

代表

中的第c行，

代表

中的第c行；

步骤6.2、在多向知识迁移方法中，基于语义的知识迁移和基于视觉的知识迁移是相辅相成的。因此通过一种在线融合策略，在训练和推理阶段整合它们，并通过硬监督优化参数。利用式(13)定义融合交叉熵损失函数L^m：

式(13)中，λ为融合权重因子，

为融合分类器；

步骤7：模型训练与测试：

步骤7.1、由特征提取模块、类别间语义关系计算模块、文本知识单向自迁移模块、视觉知识单向自迁移模块、模态间知识双向互迁移模块构成多向知识迁移模型，如图5所示，并利用式(14)定义模型的总损失函数L：

L＝L^v+L^t+L^m+μL^c (14)

式(14)中，μ为权重因子，本实施例中μ＝100；

步骤7.3、本实施例中，经过训练的网络可以更好地表达当前训练数据集的分布，以减少文本知识中的原始噪声。因此，利用第一次训练后的多向知识迁移模型的融合分类器的基础类别部分替换T_b，新类别部分替换T_n，重新计算新的语义关系，得到新的关系矩阵

步骤7.4、根据