CN113255822A

CN113255822A - 一种用于图像检索的双重知识蒸馏方法

Info

Publication number: CN113255822A
Application number: CN202110657910.7A
Authority: CN
Inventors: 张雪毅; 陈伟; 王维平; 白亮; 刘忠; 刘丽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-08-13
Anticipated expiration: 2041-06-15
Also published as: CN113255822B

Abstract

本发明公开了一种用于图像检索的双重知识蒸馏方法，该方法提出了由两个专业教师模型和一个学生模型组成的双重知识蒸馏(DKD)框架。两个专业教师模型分别是固定教师模型和动态教师模型。固定教师模型在前数据集的基础上接受训练，然后固定这些数据集的参数，以便转移之前学到的知识，使这些知识在新的任务学习中发挥作用。动态教师模型用来在新数据集的样本上与学生模型共同接受训练，负责学习新知识，是提高学生模型泛化能力的辅助模范。本发明还通过固定教师模型在BatchNorm层中存储的统计数据来生成旧数据集的代表性图像。本发明能逐步将已获得的知识转移到新任务中，同时对旧任务的遗忘率最小化。

Description

一种用于图像检索的双重知识蒸馏方法

技术领域

本发明属于图像检索领域，具体是涉及到一种用于图像检索的双重知识蒸馏方法。

背景技术

自深度学习出现以来，图像检索在文献中得到了广泛的探索。现有的检索工作通常注重提高网络的泛化能力，并假设目标数据集是平稳和固定的。然而，这个假设在许多现实世界的场景是不可行的，因为现实的环境是不稳定的。为此，提出了终身学习，使得深度网络能学习连续性的任务并适应流数据。终身学习系统的主要挑战是克服打击性的遗忘，和学习新数据时产生的对于旧数据获得的综合知识的干扰。

知识蒸馏可以通过将学习到的信息从一个训练过的网络(即教师模型)转移到一个新的网络(即学生模型)来减少遗忘。对于图像分类、目标检测、图像生成等各种分类的任务，其有效性已经得到了很好的研究。

发明内容

目前，知识蒸馏在图像检索效率方面的研究仍然较少。首先，深度模型会学习不同的任务的增量检索，而训练之间的语义漂移将会导致这些任务之间的相关性很弱，如图1中的鸟、狗和汽车就是一组相关性极弱的任务的例子。因此，知识蒸馏并不能有效地防止跨任务的流数据的遗忘。第二，当模型学习新任务时，任务之间的弱相关性会导致模型参数的显著更新。图像检索对特征之间的匹配非常敏感。因此，特征的微小变化也将对特征匹配产生重大影响。输出特性的变化使将遗忘最小化变得更加困难。第三，传统知识蒸馏的工作框架更加注重在教师模型网络中的知识的保存。这可能会很难在最小化遗忘率和提高网络检索泛化能力之间寻求最佳平衡。

为了将遗忘率最小化，同时提高泛化性能，本发明提出了一种用于图像检索的双重知识蒸馏方法，包括由两个专业教师模型和一个学生模型组成的双重知识蒸馏框架，如图2所示，其中，两个专业教师模型分别是固定教师模型和动态教师模型。在训练任务t之前，固定教师模型在前任务的基础上接受训练，然后固定其参数，并对全连接层嵌入的D维特征进行知识蒸馏；在学生模型学习任务t时，使用固定教师BatchNorm层中存储的统计数据来生成样本，作为前任务的代表，来减少对前一任务的遗忘，学生模型的参数从固定教师模型上复制，其训练方案与固定教师模型一致；动态教师模型与学生模型共同接受训练，进行辅助知识蒸馏来提高学生模型对新任务的泛化能力。本发明中使用三元组损失函数作为基本约束来训练模型。

在训练任务t之前，已经对固定教师模型进行了前任务(t−1)的训练，并确定了其参数。对学生模型进行新任务t的训练会导致负向迁移，这可能会降低前一个任务的性能，知识蒸馏通过使用固定教师模型

可以防止这种问题。如图2所示，利用固定教师模型对全连通层中嵌入的D维特征进行知识蒸馏，公式为

，其中N为mini batch的大小。同样，来自学生模型

的特征表示为

,从固定教师模型和学生模型中进行特征提取时，语义相似的输入能产生相似的模式。因此，采用带有核函数的Gram矩阵来度量特征相关性。

K(·)为内积，即

。

中的每一项

表示同一激活(i=j)或不同激活(i≠ j)之间的相关性。本发明使用Kullback-Leibler (KL)散度来表征

和

，由Softmax

函数归一化。因此，将固定教师模型

的知识蒸馏损失写成

，用一个因子

加权:

当学生模型学习任务t时，使用KL散度可以防止前面任务的性能下降。然而，当学生模型对具有较大语义漂移的数据(如图1中的CUB-birds和Stanford-cars)进行增量训练时，

不能通过传递更多以前学到的信息来有效地防止退化。为了克服这个问题，使用BatchNorm层中存储的统计数据来生成样本，作为前面任务的代表。

假设固定教师模型包含L个卷积层，每个卷积层后面都有一个BatchNorm层，如图2所示。每个BatchNorm层l包括通道运行均值

和运行方差

。在训练学生模型之前，使用一批有随机类标签

的高斯噪声Z输入给教师模型。使用教师模型每一个卷积层l的输出来计算批处理均值

和批方差

。定义一个BatchNorm损失

度量Z的存储统计信息与当前统计信息之间的差异，

为权重因子:

不同于ADI, ADI只受限于分类网络，使用K-means聚类损失

和

对Z进行优化。给定N个噪声张量的mini-batch，包含K个类，每一类的P个张量。一类

的均值

定义为

，

是张量Z中的一个样本，

的数量被设置为张量Z中的类的数量(即K类)。通过计算类内和类间的距离来聚类Z的特征。具体来说，对于给定的类

，类内距离

的集合被表述为

，p=1,2,3,…。

中的元素数等于p，同样，根据

类的所有其他(N-P)个样本计算出一组类间距离

。在

和

中对所有元素进行聚类，导致训练效率较低。相反，在这些距离集合中挖掘最困难的样本。对于

，本发明挖掘离它的类均值

最远的样本。对于

，挖掘离类平均

最近的样本。对于所有K类，使用聚类损失

规则化类间变化，使其比类内变化更大对于所有的K类，借助边缘∆>0使用一个聚类损失

来规则化类间的变化变得大于类内变化的，

为权重因子。

然后，利用损失

基于固定教师模型

对Z进行优化，来生成前一个(t-1)任务的代表性图像

，即

。

图像和类标签

可以用来构建一个混合数据集

。X属于原始训练集

。混合标签为

。在这种情况下，混合数据被输入到固定的教师模型

，以便将更丰富的先验知识传递给学生模型。

在任务t开始时，学生模型的参数从固定教师模型上复制，如图1所示。学生模型的自我激励学习对于保证当前任务t的表现是很重要的。与对固定教师模型的训练方案一致，采用与公式（1）类似的三元组损失形式来训练学生模型，

为权重因子。

需要注意的是，在每个训练阶段，根据混合标签

，Anchor、正样本图像和负样本图像

都来自于混合数据集

。

在训练过程中，学生模型需要学习新的信息，同时又能保留有之前的知识。然而，使用固定教师模型从混合数据中提取的知识在被学生模型学习时具有较强的正则化，使得学生模型容易记住之前的知识，但对新任务t的泛化程度较低，所以在减少遗忘和提高泛化之间很难达到最佳平衡。因此，本发明提出动态教师模型

与学生模型一起参与训练。它的参数

初始化与固定教师模型和学生模型的初始化不同。动态教师模型被一个三元组损失约束

，

为权重因子:

对

，训练图像

仅从

中挖掘的数据集

，而不是混合数据

，见图2。动态教师模型向学生模型传递新信息，以提高学生模型的泛化能力。因此,一个辅助进行知识蒸馏的损失

被定义为:

注意，

为权重因子，在训练期间，从

计算出的梯度与动态教师模型是相互分离的。该操作可以保证动态教师模型完全专注于从新的数据集

捕捉新信息。

当使用数据集

进行训练时在,任务t上，连同生成的图像，双重知识蒸馏（DKD）框架使用完整的目标函数运行:

本发明的有益效果是，提出了一个双重知识蒸馏(DKD)框架，这个框架中包括两个专业教师模型和一个学生模型。一方面，第一位教师模型（即固定教师模型）已经接受了以前任务的训练，以转移旧的知识。为了进一步缓解学生模型的遗忘，使用固定教师模型的BatchNorm层中存储的统计数据生成用于代表之前数据集的图像。不需要存储来自旧数据的少量样本，也不需要通过训练额外产生的生成式网络来合成图像，而是可以直接从固定教师模型中生成具有代表性的图像，不需要任何其他操作。另一方面，第二个教师模型（即动态教师模型）与学生模型共同训练，只使用新任务中的样本。动态教师模型在提高学生模型对新任务的泛化能力的中起到辅助模式的作用。最后，学生模型可以在最小化遗忘率和提高泛化性能之间达到最佳平衡。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为终身图像检索示意图。

图2为双重知识蒸馏（DKD）框架。

图3为CUBBirds在可见数据集上的性能退化评价。

图4为CUBBirds在不可见数据集上的性能退化评价。

图5为CUB-Birds生成具有代表性的图像。

图6为图像分类与图像检索的Recall率/分类准确性比较。

图7为图像分类与图像检索在不同噪音比下的性能退化率。

图8在第一个任务(即在CUB-Birds数据集上)上评估第一个训练顺序的表现。

图9在第一个任务(即在CUB-Birds数据集上)上评估第二个训练顺序的表现。

具体实施方式

为了进行图像检索，本发明将数据集D分割为训练集

和测试集

。在

上训练一个深度网络

，通过使用某个目标函数来学习

的表示。到目前为止，排序误差已经被广泛地用作训练网络

的约束条件。以三元组误差为例，

中的每个真值标签是用来挖掘positive

,hard negative

和anchor image

。网络

被训练来学习一个特征空间，而

和

的距离被表示为

，它被来自

的边界

扩大了。

(1)

本发明使用三元组损失函数作为基本约束来训练模型以增量执行任务。流程图如图1所示。每个任务t都对应于整个数据集D的训练t (e.g.鸟)。在

任务,数据集

被分成一组可视类别

和一系列不可视的类别

。对于可见部分，

包括

个类别,即

，每个类c包含不同数量的图像

共享相同的标签

。

部分进一步分解为训练集和测试集, 同样，不可视的类别

包括

个类别，所有这些类别都用于评估模型的泛化能力，类似于用于图像检索的度量学习的一般做法。对于终身图像检索，假设在训练集

(当前任务t)上连续训练了一个深度模型。一方面，要求训练后的模型能够最小化前一任务

和

的遗忘率，从而保持其对先前数据集

的检索能力。另一方面，要求训练的模型对可见部分

具有较好的精度t，更重要的是，要对当前数据集

的不可视部分

进行了很好的概括。

为了将遗忘率最小化，同时提高泛化性能，本发明提出了一个双重知识蒸馏(DKD)框架，该框架包括两个教师模型和一个学生模型，如图2所示，其将固定教师模型的BatchNorm层中存储的统计量用于生成具有代表性的图像，并由

进行优化。动态教师模型的参数初始化与固定教师模型不同，并使用

与学生模型共同训练。为了清晰起见，没有描述ReLU激活函数和池化层。

在训练任务t之前，已经对一个教师进行了前一个任务(t−1)的训练，并确定了其参数。对学生模型进行新任务t的训练会导致负向迁移，这可能会降低前一个任务的性能。知识蒸馏通过使用固定教师模型

其中N为mini batch的大小。同样，来自学生模型

的特征表示为

, 固定的教师模型和学生模型进行特征提取时，语义相似的输入能产生相似的特征模式。因此，采用带有核函数的Gram矩阵来度量特征相关性。

（2）

K(·)为内积，即

。

中的每一项

和

，由Softmax

函数归一化。因此，将固定教师模型

的知识蒸馏损失写成

，用一个因子

加权:

（3）

和运行方差

。在训练学生模型之前，使用一批有随机类标签

的高斯噪声Z输入给教师模型。使用教师模型每一个卷积层𝚕的输出来计算批处理均值

和批方差

。定义一个BN损失

度量Z的存储统计信息与当前统计信息之间的差异:

（4）

不同于ADI, ADI只受限于分类网络。使用K-means聚类损失

和

的均值

定义为

，

是张量Z中的一个样本，

的数量被设置为张量Z中的类的数量(即K类)。本发明通过计算类内和类间的距离来聚类Z的特征。具体来说，对于给定的类

，类内距离

的集合被表述为

，p=1,2,3,…。

中的元素数等于p，同样，根据

类的所有其他(N-P)个样本计算出一组类间距离

。在

和

，本发明挖掘离它的类均值

最远的样本。对于

，挖掘离类平均

最近的样本。对于所有K类，使用聚类损失

来规则化类间的变化变得大于类内变化的。

（5）

然后，利用损失

基于固定教师模型

对Z进行优化，来生成前一个(t-1)任务的代表性图像

，即

。

图像和类标签

可以用来构建一个混合数据集

。X属于原始训练集

。混合标签为

。在这种情况下，混合数据被输入到固定的教师模型

，以便将更丰富的先验知识传递给学生模型。

在任务t开始时，学生模型的参数从固定教师模型上复制，如图1所示。学生模型的自我激励学习对于保证当前任务t的表现是很重要的。与对固定教师模型的训练方案一致，采用与公式（1）类似的三元组损失形式来训练学生模型。

（6）

需要注意的是，在每个训练阶段，根据混合标签

，Anchor、正样本图像和负样本图像

都来自于混合数据集

。

与学生模型一起参与训练。它的参数

初始化与固定教师模型和学生模型的初始化不同。这个教师模型被一个三元组损失约束

:

（7）

对

，训练图像

仅从

中挖掘的数据集

，而不是混合数据

，如图2所示。动态教师模型向学生模型传递新信息，以提高学生模型的泛化能力。因此,一个辅助进行知识蒸馏的损失

被定义为:

以上为公式（8）。

注意，在训练期间，从

捕捉新信息。

当使用数据集

进行训练时在,任务t上，连同生成的图像，DKD框架使用完整的目标函数运行:

（9）

实验

（1）数据集分割

实验方法包括使用两个任务序列和三个任务序列，其方式与最近的终身学习研究大致相似，在三个数据集上进行实验:CUB- Birds ， Stanford-Dogs和Stanford-Cars。

•CUB-Bird包括11,788张图片的200个类别。选择150个类(8,822张图片)作为可见集合S，使用剩余的50个类作为不可见集合U(2,966张图片)。对于所看到的集合，选择每个类的60%来进行训练(5274张图像)，而剩余的40%(3548张图像)用于评估遗忘率。

•Stanford-Dogs包括20580张120个类别的图片。选择100个类(17,028张图片)作为可见集，并使用剩余的20个类作为不可见集

(3,552张图片)。对于所看到的集合，选择80%的每个类进行训练(13,063张图像)，而剩下的20%(3,965张图像)用于测试。

•Stanford-Cars包含196个类别的16,185张图片。选择160个类(10038张图片)作为可见集，使用其余36个类作为不可见集

(3040张图片)。对于所看到的集合，选择每个类约80%的图像进行训练(10038张图像)，而剩下的20%(3107张图像)用于测试。

（2）训练细节

利用预训练的谷歌Inception加上batchnorm层作为骨干网络。在训练每个任务之前，总是使用预先存储的从ImageNet学习到的参数初始化动态教师模型。最终的检索功能是512-D。该模型在第一个数据集上进行1500个训练过程来得到初始固定教师模型。训练受到公式1中

的三元组损失的约束，由学习速率为

的Adam优化器优化。当batch size为32时，用于降维的全连通层更新速度为

。使用公式（4）和公式（5）生成具有代表性的图像，其中，

因子设为0.01，

设为0.1。公式（5）中的∆设置为1.0。图像生成过程由一个额外的Adam优化器优化，用于降维的全连通层更新的学习率为1×10⁻⁵。

和

在公式（9）中分别设为1,1,80,20。

（3）模型评估

本发明建立了序列微调(SFT)方法作为基线，这是通过使用定义在公式（1）中的三元组损失来执行的，并比较了3种知识提取方法，包括

损失,

损失，最大平均误差损失(简称

)。增量细粒度图像检索的工作更具挑战性，因为新数据和旧数据来自相同数据集。本发明使用3个数据集训练集上的联合训练作为所有比较方法的上界参考。

本发明使用标准的性能度量Recall@K(即R@K)来评估可见集s和不可见集

的性能。对

的评价与深度度量学习中广泛探索的评价相同，其目的在于展示泛化能力。s的评价目的是分析考虑模型的遗忘率。使用s和u的谐波均值H评估训练后的模型，这是每个任务最重要的指标。

（10）

本发明考虑两任务场景和三任务场景。对于两个任务场景，使用幼鸟作为第一个任务，并考虑任务序列CUB- Birds → Stanford-Dogs 和 CUB-Birds → Stanford-Cars。结果见表1。KD表示只使用一个固定教师模型进行知识蒸馏。对于所有的情况，学生模型都是正规化的三元组损失。KL-散度表示知识通过公式（3）进行转移。最稳定的结果用黑体字突出显示。

表1 Recall@K (K=1)对两任务序列s和u的比较(%)

对于3个任务的场景，随机选择从CUB- Birds开始的任务序列: CUB- Birds →Stanford-Dogs 和 CUB-Birds → Stanford-Cars。结果见表2。当模型在Stanford-Cars上进行训练，然后在前两个数据集上进行反向测试时，报告了结果。

为仅利用固定教师模型来增强知识蒸馏的BatchNorm统计信息。同样，

为用于增强固定教师模型的BatchNorm统计信息。最平衡的结果用黑体字突出显示。

表2 Recall@K (K=1)在三个数据集上s和u的比较(%)

(a)两个任务的评估。如表1所示，本发明进行了三次实验比较。与参考相比，H中的Stanford-Dog和Stanford-Cars的微调在第二个任务中达到了Recall@1的78.0%和77.5%，但是同时微调也受到了忘记第一个任务的困扰。如果采用“一个教师模型”的知识蒸馏方法，学生模型的遗忘就会少一些。然而，由于语义漂移，第一个任务的改进是有限的。当使用Batch-Norm统计来解决这一限制时，用不同方法进行正则化的学生模型都倾向于记住第一个任务，但降低了他们在第二个任务上的泛化能力。这是由于固定教师模型加上有代表性的图像所产生的强正则化。如果使用动态教师模型(即“DKD + BN统计”)，第二个任务的泛化性能将得到改善，甚至超过基线。例如，在序列“CUB- Birds → Stanford-Dogs”中，使用KL-散度在DKD框架中实现知识的蒸馏时，总体Recall@1达到80.0%，高于基线的78.0%。这证明了辅助蒸馏的效率。与此同时，学生模型在第一个任务上收到了最小程度的退化，Recall@1为67.0%，相比之下参考文献中该值为68.7%。同样，在“CUB-Birds → Stanford-Cars”这一顺序上，学生模型的Recall@1占60.7%，而参考文献占67.7%。这种更大的差异是由于Stanford-Dogs和 Stanford-Cars的训练数据的不同分布造成的。

(b) Three-task评估。当三个任务逐步执行时，在最后一个任务上训练的学生模型将在前两个数据集上进行测试。结果见表2。具体而言，DKD框架在最后一个任务(即Stanford-Cars)上的泛化性能接近甚至超过联合训练的参考性能(78.1%和77.8%)。与两者相比，在任务场景中，对三个任务的顺序进行训练，由于累加的语义漂移，会导致对前一个任务的更多遗忘——特别是对第一个任务。本发明比较了两种方法对 CUB- Birds的遗忘率。初始模型对 CUB- Birds进行1500个训练时的收敛，在可见集上Recall@1= 74.8%，如图3所示，在未可见集上Recall@1=61.6%，如图4所示。SFT方法显著降低了性能。对三个任务序列的训练也会导致对不可见集的遗忘。相比之下，所提出的DKD大大降低了退化，并且更接近于上限参考点。

(c)对动态教师模型的评价。由于梯度分离操作，动态教师模型学习新任务，只需要通过公式7上的时限

中进行正则化。遵循表1中两任务场景的设置，并报告在训练序列:CUB-Birds → Stanford-Dogs中的实时教师的表现。由于该教师对于新数据集的新学习到的信息是有针对性的，所以仅报告其在第二项任务（即Stanford-Dogs）上的执行情况，如表3所示。“学生模型”指的是DKD训练的模型。同时，动态教师模型在新任务中取得了很好的泛化性能。

表3.动态教师模型在第二个任务上的评价

(d)对生成的图像进行评价。使用BatchNorm层的一个好处是，可以使用固定教师模型直接生成代表性图像，而不需要任何其他操作或额外的生成网络。为了进行评估，使用在CUB-Birds上训练的固定教师模型来选择生成的图像，使用初始分数和FID来评估。原始图像是从CUB-Birds上的70个类(4076张图像)中随机选择的。这些类标签用于生成具有同等代表性的图像。如表4所示，这些结果表明损失项

和

对于生成图像的有效性。此外，图5显示了若干生成的图像。

表4 对生成的图像进行评估

(e)消融研究，对所提出的方法进行消融分析。与之前的实验一致，使用两个任务的序列: CUB-Birds →Stanford-Dogs。只使用

来构建微调方法作为基线。如前所述，基线模型会忘记第一个任务。如表5所示，Case 1是仅从固定教师模型中通过Lkd1进行知识蒸馏。这样，之前所学的知识就会被转移到学生模型身上(在CUB-Birds上，R@K=1从51.4%提高到56.7%)。为了证明BatchNorm统计的有效性，Case 2使用(

)生成有代表性的图像。与Case 1相比，在此条件下训练的学生模型更容易进行第一个任务，其成绩由56.7%显著提高到68.3%，而第二个任务的成绩则由78.9%到68.7%之间。Case 3是为自我激励的学生模型在学习第二个任务时只有动态教师模型来正则化而设计的。因此，学生模型在第二个任务上的成绩有所提高(从78.0%提高到79.6%)，并保持在第一个任务上的成绩与第一个任务相似基线。通过Case 4来研究学生自主学习的重要性，通过二元知识提炼来规范自主学习，但没有使用

。因此，学生对之前的知识记忆良好，对第二个任务的概括准确率Recall@1为76.6%。Case 5是指由两个教师对网络进行正则化，但没有使用BatchNorm统计来增强固定教师模型。与Case 3相比，学生在第一个任务上的表现有所提高(从50.8%提高到56.9%)，而在第二个任务上的表现保持不变。最后，当学生使用

，即DKD full方法进行自主学习时，其泛化性能从Case 4的76.6%提高到80.0%，而第一个任务的泛化性能接近参考。

表5 基于双任务设置的终身图像检索消融研究

（4）进一步的探索

(1)与基于分类的任务比较。在减少遗忘方面，终身图像检索比专注于分类概率的基于分类的任务更具挑战性。只要将旧数据的图像特征分类在先验边界范围内，分类模型就比较稳定，而图像检索对特征之间的匹配比较敏感。特征的微小变化将对特征匹配产生重大影响。这使得最小化遗忘的问题更加困难。作为示范，在全连接层之上构建了一个额外的分类器，并使用LwF方法按照以下顺序进行训练:CUB-Birds→Stanford-Dogs。在测试过程中，通过

中进行高斯噪声采样，并将其添加到每幅图像中，这就影响了检索特征和同一模型最终的分类概率。改变高斯噪声的比率，并考虑可见数据集部分CUB-Birds的检索召回率和分类准确率的演变。结果如图6和图7所示，可以看出，在相同程度的噪声干扰下，图像检索任务比图像分类任务更敏感。

(2)训练顺序探索。考虑表2中的训练顺序1:CUB-Birds→Stanford-Dogs→Stanford-Cars。为了检验任务训练顺序的效果，继续从CUB-birds开始，探索另一个训练顺序2:CUB-Birds → Stanford-Cars → Stanford-Dogs。将三个数据集的所有训练样本都在图8中进行可视化。对于这两个训练顺序，通过使用任务结束时训练的模型(即Stanford-Cars和Stanford-Dogs)来评估第一个任务(即CUB- Birds)的表现。结果如图9所示。一般来说，模型在这两个训练顺序方面会受到性能下降的影响。由于数据集分布的不同，训练顺序对性能的影响很大。在训练顺序1中，任务2中的Stanford-Dogs的样本与CUB-birds的样本紧密地分布在一起。因此，在“task 1→task 2”的过程中，退化速度相对较慢。但是，task 3中的Stanford—cars图像分布距离task 1中的CUB-birds图像较远，导致在“task 2→task3”的过程中出现严重退化。相比之下，对于训练顺序2，在“task 1→task 2”阶段，从CUB-birds到Stanford-cars中的表现明显下降，而在“task 2→task 3”阶段，表现再次下降。

Claims

1.一种用于图像检索的双重知识蒸馏方法，其特征在于，包括由两个专业教师模型和一个学生模型组成的双重知识蒸馏框架，其中，两个专业教师模型分别是固定教师模型和动态教师模型，在训练任务t之前，固定教师模型在前任务的基础上接受训练，然后固定其参数，并对全连接层嵌入的D维特征进行知识蒸馏；在学生模型学习任务t时，使用固定教师BatchNorm层中存储的统计数据来生成样本，作为前任务的代表，来减少对前一任务的遗忘，学生模型的参数从固定教师模型上复制，其训练方案与固定教师模型一致；动态教师模型与学生模型共同接受训练，向学生模型传递新信息，进行辅助知识蒸馏来提高学生模型对新任务的泛化能力。

2.如权利要求1所述的用于图像检索的双重知识蒸馏方法，其特征在于，使用三元组损失函数作为基本约束来训练模型。

3.如权利要求2所述的用于图像检索的双重知识蒸馏方法，其特征在于，使用固定教师模型