CN113610173A

CN113610173A - 一种基于知识蒸馏的多跨域少样本分类方法

Info

Publication number: CN113610173A
Application number: CN202110931565.1A
Authority: CN
Inventors: 冀中; 倪婧玮; 刘西瑶
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-05
Anticipated expiration: 2041-08-13
Also published as: CN113610173B

Abstract

一种基于知识蒸馏的多跨域少样本分类方法，利用知识蒸馏中师生网络的框架进行有效知识的迁移，从而使模型具有更好的泛化能力。本发明将元学习的训练策略引入知识蒸馏中，通过面向任务的知识蒸馏和多个教师网络之间的协作，不仅向学生网络提供了丰富且有效的知识，而且保证了学生网络对少样本任务的快速适应能力。通过引入多层次知识蒸馏，分别提取教师网络的输出预测和样本关系作为监督信息，从不同角度指导学生网络的训练，使得知识蒸馏的效率更高。由此，本发明能够将有效的知识更好地从多个源域迁移到目标域上，提高学生网络在目标少样本任务上的分类准确率。

Description

一种基于知识蒸馏的多跨域少样本分类方法

技术领域

本发明涉及一种少样本分类方法。特别是涉及一种基于知识蒸馏的多跨域少样本分类方法。

背景技术

目前，深度学习在计算机视觉领域已经取得了较大成功，例如物体分类、图像检索和动作识别等任务。深度学习的成功在很大程度上依赖于海量的数据和强大的计算资源。而许多认知学和心理学证据表明，人类往往可以从很少的例子中识别出新的视觉概念，这种快速学习的能力是现在的深度学习所不具备的。因此，如何通过有限的标记数据来学习识别新类别引起了人们的广泛关注，这也是少样本学习(Few-Shot Learning)所要解决的问题。近几年来，大量少样本学习的工作都采用了元学习(Meta Learning)的思想，其中基于度量的方法因其简单性和有效性而被广泛使用。这一类方法的模型结构主要包括两部分：特征编码器和度量函数。给定一个少样本任务，包含少量带标记的图像(支持集)和一些未标记的图像(查询集)，特征编码器首先提取所有的图像特征，然后度量函数对标记图像和未标记图像的特征相似度进行计算，并预测查询图像的对应类别。

在基于元学习的少样本学习中，往往需要借助于一个包含大量标记数据的辅助数据集，这个数据集的类别与测试集相关但不相交。元学习的思想就是在辅助数据集上采样大量的少样本任务来训练模型，使其积累经验，从而能够快速适应新的少样本任务。然而，在某些现实场景中，例如医学、军事和金融等领域，存在数据获取困难和标记成本高等问题，无法获取包含相关类别的辅助数据集。这种情况下，只能使用来自其他领域的标记数据来训练模型以提供先验知识。由于辅助数据集和测试集的类别不相关，就不可避免地产生了域偏移问题，也严重损害了模型在测试集上的性能。因此，提高模型在不同领域之间的泛化能力成为少样本学习的一个重要挑战，也称为跨域少样本学习(Cross-Domain Few-ShotLearning)。具体来说，这个问题可以描述为在不使用目标域数据的情况下，借助其他域的辅助数据集训练模型，最终在目标域上很好的完成少样本分类任务。跨域问题也可以看做是一种知识迁移的问题，其目的是将有用的知识从辅助数据集传递到目标数据集上，保证模型在新的少样本任务上的分类性能。

由于深度学习模型的性能通常会随着可用数据的增加而提高，因此对跨域少样本学习来说，一种直观且简单的假设是，少样本学习模型应该充分利用不同任务和不同域中的数据来积累更多的经验。这一研究方向也被称为多跨域少样本学习(Multiple Cross-Domain Few-Shot Learning)。在这种设置下，辅助数据集包含了许多不同的领域，每个领域都由不同的源数据集表示。此时，另一个需要考虑的问题就是域之间的相关性对模型的影响。不同域数据的特征分布可能会有交叉重叠，也可能完全不相交。利用不相关的域可能对模型产生负面影响，带来知识干扰的问题。这就意味着，简单地混合多个域的标记数据来训练模型是不可行的，还必须探索如何利用或忽略从不同领域学到的知识，实现模型在目标域上的泛化和避免跨域干扰的问题。

发明内容

本发明所要解决的技术问题是，提供一种能够将有效的知识更好地从多个源域迁移到目标域上的基于知识蒸馏的多跨域少样本分类方法。

本发明所采用的技术方案是：一种基于知识蒸馏的多跨域少样本分类方法，其特征在于，包括如下步骤：

1)预训练阶段，分别利用N个不同源域的训练集{Z₁,Z₂,...,Z_N}来训练N个不同的教师网络，每个教师网络包含一个教师特征编码器E和教师分类器C，初始化N个教师网络参数，利用交叉熵损失函数对每一个教师网络进行预训练，最终得到N个训练好的教师网络；

2)构建学生网络，学生网络是一种基于度量的少样本模型，包含一个学生特征编码器E_s和一个度量函数d，初始化学生特征编码器E_s的参数；

3)元训练阶段，从N个不同源域的训练集中随机选取一个训练集作为当前的元训练集D_train，根据元学习的思想，从当前的元训练集D_train中随机采样一定量的少样本任务，每个任务都包含一个支持集S和一个查询集Q，支持集中含有W个类别的数据，每个类别有K个样本；

4)依次将不同的少样本任务同时送到N个教师网络和学生网络中；

5)依次将支持集S中第k个样本图像x_k输入到N个教师特征编码器和学生特征编码器中，分别得到相对应的视觉特征

其中x_k为支持集S中第k个样本图像，E_n为第n个教师特征编码器，E_s为学生特征编码器，

为第n个教师特征编码器E_n对x_k编码后输出的视觉特征，

为学生特征编码器E_s对x_k编码后输出的视觉特征；

6)分别对支持集中属于同一类别的样本视觉特征取平均，得到每个类别的原型表示为：

其中K为第w个类别的样本总数，

为经过第n个教师特征编码器编码后的第w个类别的原型表示，

为经过学生特征编码器编码后的第w个类别的原型表示；

7)依次将查询集的样本图像x_Q输入到N个教师特征编码器和学生特征编码器中，分别得到相对应的视觉特征

和

其中x_Q为查询集Q中的样本图像，E_n为第n个教师特征编码器，E_s为学生特征编码器，

为第n个教师特征编码器E_n对x_Q编码后输出的视觉特征，

为学生特征编码器E_s对x_Q编码后输出的视觉特征；

8)根据经过学生特征编码器编码后的原型表示和查询集样本图像的视觉特征，按照如下公式计算查询集样本图像x_Q属于支持集中各个类别的概率：

其中p^s(y＝w|x_Q)为学生网络输出的查询集样本图像x_Q属于第w个类别的预测概率，W为支持集中类别的总数，函数d为欧氏距离的度量函数，exp为自然常数e为底的指数函数；

9)根据学生网络输出的查询集样本图像x_Q的类别预测概率计算分类损失，设定学生网络的分类目标函数L_cls如下：

其中y_Q为查询集中样本图像x_Q的真实标签，p^s(y＝w|x_Q)为学生网络输出的查询集样本图像x_Q属于第w个类别的预测概率，W为支持集中类别的总数；

10)根据经过N个教师特征编码器和学生特征编码器编码后的原型表示和查询集样本图像的视觉特征，利用温度系数τ计算软化后的类别预测概率分布，从而在N个教师网络和学生网络之间进行基于软标签的知识蒸馏，得到学生网络的基于软标签的目标函数L_KL；

11)根据经过N个教师特征编码器和学生特征编码器编码后的原型表示和查询集样本图像的视觉特征，利用成对的特征计算相似度矩阵，从而在N个教师网络和学生网络之间进行基于相似度的知识蒸馏，得到学生网络的基于相似度的目标函数L_sim；

12)根据如下学生网络的总目标函数公式，使用SGD算法训练学生特征编码器：

L＝L_cls+L_KL+L_sim (21)

其中，L为学生网络的总目标函数，L_KL为学生网络的基于软标签的目标函数，L_sim为学生网络的基于相似度的目标函数；

13)重复步骤3-12，直至总目标函数值逐渐收敛且趋于不变时，得到训练好的学生网络；

14)测试阶段，给定一个不同于N个源域的数据集作为目标域，依次将来自目标域测试集的支持集和查询集的样本图像输入到训练好的学生特征编码器E_s中，得到相应的视觉特征，按照公式(7)计算支持集中各个类别的原型表示，再按照公式(10)计算查询集样本图像属于各个类别的概率，将计算得到的概率中最大的概率所对应的类别，作为查询集样本图像的类别。

本发明的一种基于知识蒸馏的多跨域少样本分类方法，利用知识蒸馏中师生网络的框架进行有效知识的迁移，从而使模型具有更好的泛化能力。本发明将元学习的训练策略引入知识蒸馏中，通过面向任务的知识蒸馏和多个教师网络之间的协作，不仅向学生网络提供了丰富且有效的知识，而且保证了学生网络对少样本任务的快速适应能力。通过引入多层次知识蒸馏，分别提取教师网络的输出预测和样本关系作为监督信息，从不同角度指导学生网络的训练，使得知识蒸馏的效率更高。由此，本发明能够将有效的知识更好地从多个源域迁移到目标域上，提高学生网络在目标少样本任务上的分类准确率。

附图说明

图1是本发明的一种基于知识蒸馏的多跨域少样本分类方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的一种基于知识蒸馏的多跨域少样本分类方法做出详细说明。

多跨域少样本学习利用多个源域的训练数据作为辅助数据集为模型提供先验知识，最终完成对目标域上测试样本类别的预测。假设在训练阶段给出了N个不同源域的训练集{Z₁,Z₂,…,Z_N}，每个源域都包含大量带标签的数据

其中z为第n个源域训练集的样本总数，

是该训练集中的第i个样本图像，

是该训练集中第i个样本对应的类别标签。在测试阶段，利用训练好的模型完成目标域上的少样本分类任务。每个少样本任务都包含一个支持集S和一个查询集Q。支持集中含有W个类别的数据，每个类别有K个样本。少样本的任务就是利用W*K个支持集的训练数据，对查询集中的样本所属类别进行预测。

图1描述了基于知识蒸馏的多跨域少样本分类方法模型的流程图。T表示一个少样本任务的所有图像，{E₁,E₂,…,E_N}为N个教师特征编码器，E_s为学生特征编码器，v表示视觉特征，D为距离度量模块，包含两部分d和

p表示输出的类别概率分布，M表示相似度矩阵。

如图1所示，本发明的一种基于知识蒸馏的多跨域少样本分类方法，包括如下步骤：

1)预训练阶段，分别利用N个不同源域的训练集{Z₁,Z₂,…,Z_N}来训练N个不同的教师网络，每个教师网络包含一个教师特征编码器E和教师分类器C，初始化N个教师网络参数，利用交叉熵损失函数对每一个教师网络进行预训练，最终得到N个训练好的教师网络；所述的利用交叉熵损失函数对每一个教师网络进行预训练，包括：

(1)从第n个源域训练集Z_n中随机选取一定量的数据

作为第n个教师特征编码器E_n的输入，经过编码得到第i个样本图像的视觉特征

其中

为第n个源域训练集中的第i个样本图像，

为第i个样本图像

的真实标签；

(2)将第i个样本图像的视觉特征

输入第n个教师分类器C_n，得到第n个源域训练集中的第i个样本图像的类别预测概率：

其中

为第i个样本图像的视觉特征，

为第i个样本图像

属于第r个类别的预测概率；

(3)设定教师网络的目标函数L_n公式如下：

其中

为第i个样本图像

的真实标签，R为第n个源域训练集中的样本类别数，

为第i个样本图像

属于第r个类别的预测概率；

(4)根据公式(3)训练第n个教师特征编码器E_n和第n个教师分类器C_n，保留使公式(3)的误差最小的第n个教师特征编码器E_n和第n个教师分类器C_n的参数；

(5)重复第(1)步～第(4)步，得到训练好的N个教师网络。

2)构建学生网络，学生网络是一种基于度量的少样本模型，包含一个学生特征编码器E_s和一个度量函数d，初始化学生特征编码器E_s的参数；为了确保教师网络和学生网络的输出保持一致，只保留教师网络的训练好的教师特征编码器部分，不再使用训练好的教师分类器进行分类，而采用基于度量的方法完成分类，并且教师网络的参数固定不变。

为第n个教师特征编码器E_n对x_k编码后输出的视觉特征，

为学生特征编码器E_s对x_k编码后输出的视觉特征；

其中K为第w个类别的样本总数，

为经过学生特征编码器编码后的第w个类别的原型表示；

和

为第n个教师特征编码器E_n对x_Q编码后输出的视觉特征，

为学生特征编码器E_s对x_Q编码后输出的视觉特征；

10)根据经过N个教师特征编码器和学生特征编码器编码后的原型表示和查询集样本图像的视觉特征，利用温度系数τ计算软化后的类别预测概率分布，从而在N个教师网络和学生网络之间进行基于软标签的知识蒸馏，得到学生网络的基于软标签的目标函数L_KL；包括：

(1)根据经过N个教师特征编码器和学生特征编码器编码后的原型表示和查询集样本图像的视觉特征，通过度量函数d，再除以温度系数τ，最后做softmax变换，得到软化后的类别预测概率：

其中

为软化后第n个教师网络输出的查询集样本图像x_Q属于第w个类别的预测概率，

为软化后学生网络输出的查询集样本图像x_Q属于第w个类别的预测概率，

为经过学生特征编码器编码后的第w个类别的原型表示，

为第n个教师特征编码器E_n对x_Q编码后输出的视觉特征，

为学生特征编码器E_s对x_Q编码后输出的视觉特征，τ为温度系数，W为支持集中类别的总数，函数d为欧氏距离的度量函数，exp为自然常数e为底的指数函数；

(2)将软化后的N个教师网络输出的查询集样本图像x_Q属于第w个类别的预测概率进行加权求和，作为训练学生网络的目标之一：

其中α₁,α₂,…,α_N分别为N个教师网络的权重系数，

分别为软化后N个教师网络输出的查询集样本图像x_Q属于第w个类别的预测概率，

为软化后N个教师网络进行加权求和输出的查询集样本图像x_Q属于第w个类别的预测概率；

(3)为了使学生网络与教师网络的输出一致，设定学生网络的基于软标签的目标函数L_KL如下：

其中

为软化后N个教师网络进行加权求和输出的查询集样本图像x_Q属于支持集各个类别的预测概率分布，

为软化后学生网络输出的查询集样本图像x_Q属于支持集各个类别的预测概率分布，KLdiv为Kullback-Leibler散度，用来衡量两个概率分布

和

之间的差异，τ为温度系数。

11)根据经过N个教师特征编码器和学生特征编码器编码后的原型表示和查询集样本图像的视觉特征，利用成对的特征计算相似度矩阵，从而在N个教师网络和学生网络之间进行基于相似度的知识蒸馏，得到学生网络的基于相似度的目标函数L_sim；包括：

(1)定义特征集合F，包含支持集中所有类别的原型表示和查询集样本图像的视觉特征，表示为：

其中

为第n个教师网络的特征集合，F_s为学生网络的特征集合，

分别为经过第n个教师特征编码器编码后的各个类别的原型表示，

分别为经过学生特征编码器编码后的各个类别的原型表示，

分别为第n个教师特征编码器对查询集各个样本图像编码后输出的视觉特征，

分别为第n个教师特征编码器对查询集各个样本图像编码后输出的视觉特征，W为支持集中类别的总数，q为查询集中的样本图像总数；

(2)根据特征集合F计算相似度矩阵M：

其中M_ij为相似度矩阵M中第i行第j列的元素，f_i和f_j分别为特征集合F中第i个和第j个元素，函数

为余弦距离的度量函数，m为特征集合F中的元素总数；

(3)根据N个教师网络和学生网络的特征集合，按照公式(19)得到N个教师网络和学生网络的相似度矩阵，将N个教师网络的相似度矩阵进行加权求和，作为训练学生网络的目标之二：

其中α₁,α₂,…,α_N分别为N个教师网络的权重系数，

分别为N个教师网络的相似度矩阵，M_t为N个教师网络的相似度矩阵进行加权求和的结果；

(4)为了使学生网络更好的学习样本之间的关系，进一步探索嵌入在样本相似度中的知识，使学生网络与教师网络的相似度矩阵尽可能相似，设定学生网络的基于相似度的目标函数L_sim如下：

其中M_t为N个教师网络的相似度矩阵进行加权求和的结果，M_s为学生网络的相似度矩阵，m为特征集合F中的元素总数，也就是相似度矩阵的维度。

L＝L_cls+L_KL+L_sim (21)

其中，L为学生网络的总目标函数，L_cls为学生网络的分类目标函数，L_KL为学生网络的基于软标签的目标函数，L_sim为学生网络的基于相似度的目标函数；

Claims

1.一种基于知识蒸馏的多跨域少样本分类方法，其特征在于，包括如下步骤：

1)预训练阶段，分别利用N个不同源域的训练集{Z₁,Z₂,…,Z_N}来训练N个不同的教师网络，每个教师网络包含一个教师特征编码器E和教师分类器C，初始化N个教师网络参数，利用交叉熵损失函数对每一个教师网络进行预训练，最终得到N个训练好的教师网络；

为第n个教师特征编码器E_n对x_k编码后输出的视觉特征，

为学生特征编码器E_s对x_k编码后输出的视觉特征；

其中K为第w个类别的样本总数，

为经过学生特征编码器编码后的第w个类别的原型表示；

和

为第n个教师特征编码器E_n对x_Q编码后输出的视觉特征，

为学生特征编码器E_s对x_Q编码后输出的视觉特征；

L＝L_cls+L_KL+L_sim (21)

2.根据权利要求1所述的一种基于知识蒸馏的多跨域少样本分类方法，其特征在于，步骤1)所述的利用交叉熵损失函数对每一个教师网络进行预训练，包括：

(1)从第n个源域训练集Z_n中随机选取一定量的数据

其中

为第n个源域训练集中的第i个样本图像，

为第i个样本图像

的真实标签；

(2)将第i个样本图像的视觉特征

其中

为第i个样本图像的视觉特征，

为第i个样本图像

属于第r个类别的预测概率；

(3)设定教师网络的目标函数L_n公式如下：

其中

为第i个样本图像

的真实标签，R为第n个源域训练集中的样本类别数，

为第i个样本图像

属于第r个类别的预测概率；

(5)重复第(1)步～第(4)步，得到训练好的N个教师网络。

3.根据权利要求1所述的一种基于知识蒸馏的多跨域少样本分类方法，其特征在于，步骤10)包括：

其中

为经过学生特征编码器编码后的第w个类别的原型表示，

为第n个教师特征编码器E_n对x_Q编码后输出的视觉特征，

其中α₁,α₂,…,α_N分别为N个教师网络的权重系数，

其中

和

之间的差异，τ为温度系数。

4.根据权利要求1所述的一种基于知识蒸馏的多跨域少样本分类方法，其特征在于，步骤11)包括：

其中

为第n个教师网络的特征集合，F_s为学生网络的特征集合，

分别为经过学生特征编码器编码后的各个类别的原型表示，

(2)根据特征集合F计算相似度矩阵M：

为余弦距离的度量函数，m为特征集合F中的元素总数；

其中α₁,α₂,…,α_N分别为N个教师网络的权重系数，

(4)设定学生网络的基于相似度的目标函数L_sim如下：