CN113869462A

CN113869462A - 一种基于双路结构对比嵌入学习的小样本对象分类方法

Info

Publication number: CN113869462A
Application number: CN202111456162.2A
Authority: CN
Inventors: 李亚南; 李冰斌; 崔涵; 王东辉
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2021-12-31
Anticipated expiration: 2041-12-02
Also published as: CN113869462B

Abstract

本发明涉及计算机视觉领域，尤其涉及一种基于双路结构对比嵌入学习的小样本对象分类方法，包括以下步骤：步骤一：使用基础类的大规模有标签数据构造双路结构对比嵌入网络；步骤二：将全新类的少量有标签图片依次输入所述双路结构对比嵌入网络，提取相应的图片特征，计算每个类别中所有图片特征的均值作为该类别的原型；步骤三：将测试图片输入双路结构对比嵌入网络提取图片特征，计算测试图片特征与所有类别的原型之间的余弦相似度，并对余弦相似度进行归一化处理，选取具有相似度最大值的对象类别作为测试图片的最终预测结果。本发明方法简便、灵活，可以提高特征嵌入学习网络的泛化能力，从而提高模型的训练速度并改善全新类对象的分类性能。

Description

一种基于双路结构对比嵌入学习的小样本对象分类方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于双路结构对比嵌入学习的小样本对象分类方法。

背景技术

近年来，深度神经网络技术在多种计算机视觉任务中取得了显著的进展，其成功因素之一在于使用了大规模的有标签数据集。然而，在许多实际场景中，我们通常只有少量的有标签数据，比如医疗图像处理、工业制造等，当直接使用深度神经网络求解以上实际问题时，会导致严重的过拟合以及模型偏置现象，从而引起性能出现灾难性下降。与之相比，即使是学龄前的小朋友，也能在只看到少量几张图片的情况下，快速地学习、并理解新的对象概念。为了缩减智能机器与人类学习之间的能力差距，针对小样本数据情境下的机器学习方法研究正逐步引起越来越多研究人员的注意。

与经典的有监督学习范式相比，小样本学习旨在探索如何从具有大量有标签数据的基础类别中学习出具有迁移能力的先验知识，并将该知识快速泛化到只有少量有标签数据的全新类别上，以提升全新类别的分类性能。从泛化的策略来说，当前小样本学习方法主要分为三类求解策略：（1）基于参数优化的方法：旨在从基础类上学习出可泛化的模型参数，当将这些参数应用于全新类的学习时，其可在几个迭代步骤内达到最优效果。（2）基于分类器优化的方法：基于基础类上预训练的特征嵌入，针对不同的全新类别，动态地学习自适应的分类器；（3）基于特征嵌入优化的方法：旨在从基础类上学习出可泛化的特征嵌入，使得当应用于全新类分类时，最简单的最近邻分类器时也能获得出色的分类性能。

在以上三种策略中，大量方法采用元学习的思想，通过使用情景训练策略，从基础类数据中构造出一系列的小样本学习任务，以模仿真实的测试场景，并使用这些任务逐步优化元学习器，使得模型具备学会学习（learn to learn）的能力，从而提升在新类别上的泛化性能。这类方法通常需要较长的训练时间及较多的计算资源。与此同时，大量其他工作采用迁移学习的思想，将从基础类中学习到的特征嵌入方法直接应用于到全新类的学习中，实验证明，这种简单的迁移学习方法也能获得与元学习方法同等甚至更好的分类性能。综上，如何在只使用基础类数据的情况下，学习出具有高效泛化能力的特征嵌入空间是求解小样本对象分类的有效策略之一。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于双路结构对比嵌入学习的小样本对象分类方法，该方法通过使用具有大规模有标签训练数据的基础类，学习具有泛化能力的特征嵌入网络，从而使得在只有少量有标签训练数据的情况下，也能快速识别以往从未见过的全新的对象类别，具体的技术方案如下：

一种基于双路结构对比嵌入学习的小样本对象分类方法，包括以下步骤：

步骤一：使用基础类的大规模有标签数据构造双路结构对比嵌入网络；

步骤二：将全新类的少量有标签图片依次输入所述双路结构对比嵌入网络，提取相应的图片特征，计算每个类别中所有图片特征的均值作为该类别的原型；

步骤三：将测试图片输入双路结构对比嵌入网络提取图片特征，计算测试图片特征与步骤二中的所有类别原型之间的余弦相似度，并对余弦相似度进行归一化处理，选取具有相似度最大值的对象类别作为测试图片的最终预测结果。

进一步的，所述步骤一，具体包括以下子步骤：

（1.1）使用基础类的大规模有标签数据学习出基于深度卷积网络的有监督分类器，作为教师路径；

（1.2）采用与教师路径相同的主干网络，作为学生路径的特征提取网络，并对该网络的参数进行随机初始化；

（1.3）从基础类的所有训练图片中随机抽取批量图片，并对其中的每张图片进行图片扩充；

（1.4）将扩充后的批量图片输入教师路径，得到相应的分类预测结果，并为每个类别计算该批量图片中的分类准确率；

（1.5）将扩充后的批量图片输入学生路径，计算任意两个输入图片之间的特征相似度，并采用步骤（1.4）得到的分类准确率对两者之间的相似度进行结构化加权约束，优化整个学生网络；

（1.6）重复步骤（1.3）到步骤（1.5），直到完成双路结构对比嵌入的学习。

进一步的，所述步骤（1.3）具体为：

从基础类的所有训练图片中随机抽取

张图片，并对其中的每张图片

，又称为锚点图片，依次叠加裁剪、色彩抖动和随机灰度变化，将每张

扩充成两张图片

和

。

进一步的，所述步骤（1.4）具体为：

将扩充后的批量图片

输入教师路径，其中

是图片相应的标签，

是

对应的真实标签，得到相应的结构相似度矩阵

,

其中，

表示基础类的所有类别数目，

是归一化方程，

是大于1 的实数，

是有监督分类器，

中的每一行

由教师路径中的分类器得到，表示

来自于类别c的概率值，并计算该批量图片的分类准确率

。

进一步的，所述步骤（1.5）具体为：

将扩充后的批量图片

输入学生路径，计算任意两个输入图片之间的特征相似度，其中任意两张输入图片表示为

和

,通过学生路径得到的特征分别为

和

，并采用步骤（1.4）得到的分类准确率

对两者之间的相似度进行结构化加权约束，优化整个学生路径的网络，所述学生路径的网络的优化损失表示为：

其中，

表示

中除了

之外的所有其他数据的索引，

是

和

之间的损失，

是两者之间的相似度，

和

分别采用以下形式定义：

其中，

表示归一化的特征向量，

表示内积，

是大于0 小于1的实数值，

表示与

同源的图片集合；

通过最小化上述损失

，来优化整个特征学习网络

。

本发明的优点：

本发明实现方法简便、灵活，可以显著提高特征嵌入学习网络的泛化能力，从而提高模型的训练速度并改善全新类对象的分类性能。

附图说明

图1是本发明方法的流程框架图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

本发明使用基础类的大规模有标签训练数据，有监督地构造基于深度卷积网络的分类器，并将该分类器作为教师路径引导学生路径中特征嵌入的学习，从基础类中随机抽取批量图片对之进行数据增强，并使用增强后的图片进行结构化对比嵌入学习，通过在对比嵌入学习过程中加入结构相似度，使得学习到的特征嵌入学习网络更具泛化能力。在此基础上，针对全新的对象类别，首先使用每个类别中的少量有标签数据计算类别原型，其次计算测试图片特征与类别原型之间的相似度，并基于相似度大小对测试图片进行分类预测。

具体的，如图1所示，一种基于双路结构对比嵌入学习的小样本对象分类方法，包括以下步骤：

步骤一：使用基础类的大规模有标签数据构造双路结构对比嵌入网络，所述双路结构对比嵌入网络包括：教师路径和其引导的学生路径的特征提取网络，具体的通过以下子步骤来实现：

（1.1）使用基础类的大规模有标签数据学习基于深度卷积网络的有监督分类器

，并作为教师路径引导另一路径的特征学习过程；

（1.2）采用与教师路径相同的主干网络，作为学生路径的特征提取网络

，并对该网络的参数进行随机初始化；

（1.3）从基础类的所有训练图片中随机抽取

张图片，并对其中的每张图片

扩充成两张图片

和

;

（1.4）将扩充后的批量图片

输入教师路径，其中

是相应的标签，

是

对应的真实标签，得到相应的结构相似度矩阵

,

其中，

表示基础类的所有类别数目，

是归一化方程，

是大于1 的实数；

中的每一行

由教师路径中的分类器得到，表示

来自于类别c的概率值，并计算该批量图片的分类准确率

；

（1.5）将扩充后的批量图片输入学生路径，计算任意两个输入图片之间的特征相似度，其中任意两张输入图片表示为

和

,通过学生路径得到的特征分别为

和

。并采用步骤（1.4）得到的分类准确率对两者之间的相似度进行结构化加权约束，优化整个学生网络，优化损失表示为：

其中，

表示

中除了

之外的所有其他数据的索引，

是

和

之间的损失，

是两者之间的相似度，

和

分别采用以下形式定义：

其中，

表示归一化的特征向量，

表示内积，

是大于0 小于1的实数值，

表示与

同源的图片集合。通过最小化上述损失

，来优化整个特征学习网络

。

具体来说，如图1所示，首先使用基础类的大规模有标签数据学习基于深度卷积网络的有监督分类器

，以进行结构相似度提取，并作为教师路径引导学生路径的特征学习；其次，从基础类的所有训练图片中随机抽取多张

张图片

，并对其中的每张图片，依次叠加裁剪、色彩抖动和随机灰度变化，进行数据增补，获得

；将

输入到教师路径中，获得该批次图片的相似度结构矩阵

，该矩阵描述了每张图片与所有类别之间的相似性关系，如图1中所示，输入的锚点图片“Arctic Wolf”经由教师路径预测，认为属于“Walker hound”类别的概率为0.29、属于“Saluki”的概率为0.25，并可从

中计算该批次图片中的分类准确率

，以用于控制学生路径中的特征提取过程；最后使用教师路径引导的结构对比嵌入损失，优化学生路径的特征提取网络

，学习特征嵌入以用于小样本对象分类；依次对上述两个步骤进行迭代，直至完成双路结构对比嵌入的学习。

步骤二：将全新类的少量有标签图片依次输入所述双路结构对比嵌入网络，提取相应的图片特征，计算每个类别中所有图片特征的均值作为该类别的原型。

在测试时，给定N-way K-shot：有N个类，每个类K张图片的有标签图片，首先使用特征提取网络

提取相应的图片特征，同时对每个类的图片特征计算均值，作为类别原型，并采用步骤三所描述的基于类别原型的小样本对象分类方法，进行最终的图片分类。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。