CN113360701B

CN113360701B - 一种基于知识蒸馏的素描图处理方法及其系统

Info

Publication number: CN113360701B
Application number: CN202110908616.9A
Authority: CN
Inventors: 徐行; 田加林; 沈复民; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-02
Anticipated expiration: 2041-08-09
Also published as: CN113360701A

Abstract

本发明公开了一种基于知识蒸馏的素描图处理方法及其系统，包括：获取预训练的由图像分类模型构成的教师模型，并基于教师模型提取样本图像的教师特征和教师分类概率；构建能够基于素描图进行图像分类的学生模型，并基于学生模型提取样本图像的第一学生特征和第一学生分类概率，并基于学生模型提取样本图像对应样本素描图的第二学生特征和第二学生分类概率；基于教师特征、教师分类概率、第一学生特征、第一学生分类概率、第二学生特征和第二学生分类概率计算分类损失和蒸馏损失，并基于分类损失和蒸馏损失更新学生模型；学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。

Description

一种基于知识蒸馏的素描图处理方法及其系统

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于知识蒸馏的素描图处理方法及其系统。

背景技术

随着触摸屏设备的普及，手绘素描图变得越来越容易获取。尽管素描图表现出高度的抽象性，但它仍然包含足够的结构细节来描述其相应的类别。因此，基于素描图的图像检索成为了机器学习技术领域的研究热点。

但是，现有的基于素描图的图像检索方法，均预设实际应用时待查询的素描图和被查询的图像所包含的类别和训练模型时的类别完全一致，未考虑待查询的素描图和被查询的图像所包含的类别未包含在训练模型时的类别中的情况。因此，这些方法难以应用于检索训练时未包括的类别的图像，检索结果较差。

综上所述，现有的素描图检索方法存在准确率低下的问题。

发明内容

有鉴于此，本发明提供一种基于知识蒸馏的素描图处理方法及其系统，解决了现有的素描图检索方法存在的准确率低下的问题。

为解决以上问题，本发明的技术方案为采用一种基于知识蒸馏的素描图处理方法，包括：获取预训练的由图像分类模型构成的教师模型，并基于所述教师模型提取样本图像的教师特征和教师分类概率；构建能够基于素描图进行图像分类的学生模型，并基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率，并基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率；基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失，并基于所述分类损失和所述蒸馏损失更新所述学生模型；所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。

可选地，基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失，包括：基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失；基于所述第二学生分类概率计算所述样本素描图的第二分类损失；基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。

可选地，计算所述样本图像的第一分类损失，包括：基于所述教师分类概率和所述第一学生分类概率计算所述第一分类损失。

可选地，计算所述样本图像的关系蒸馏损失，包括：计算多个所述教师特征之间的第一相似关系；计算多个所述第一学生特征之间的第二相似关系；计算所述第一相似关系和所述第二相似关系的第一差异；计算所述教师分类概率和所述第一学生分类概率的第二差异；基于所述第一差异和所述第二差异生成所述关系蒸馏损失。

可选地，计算所述样本素描图的跨模态自蒸馏损失，包括：计算多组所述第一学生特征与所述第二学生特征之间的相似度数据；基于所述相似度数据按照滑动平均的方式加权所述第一学生分类概率；基于加权后的所述第一学生分类概率与所述第二学生分类概率生成所述跨模态自蒸馏损失。

可选地，所述第一相似关系和所述第二相似关系均包括对比相似关系和局部相似关系。

可选地，所述素描图处理方法还包括：获取人工绘制的所述样本素描图及成像单元采集的与所述样本素描图对应的所述样本图像构成训练数据集。

可选地，所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果，包括：所述学生模型基于待检测素描图提取待检测素描图特征；所述学生模型基于待查询图像提取待查询图像特征；计算所述待检测素描图特征与所述待查询图像特征的余弦相似度并进行排序后生成所述零样本跨模态检索结果。

相应地，本发明提供，一种基于知识蒸馏的素描图处理系统，包括：成像单元，用于采集多个样本图像；数据存储单元，用于存储多个所述样本图像及其对应的样本素描图；神经网络单元，包括预训练的由图像分类模型构成的教师模型和能够基于素描图进行图像分类的学生模型；数据处理单元，通过所述教师模型提取样本图像的教师特征和教师分类概率和基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率的同时，基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率，并基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失后，基于所述分类损失和所述蒸馏损失更新所述学生模型。

可选地，所述数据处理单元基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失后，基于所述第二学生分类概率计算所述样本素描图的第二分类损失，并基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。

本发明的首要改进之处为提供的基于知识蒸馏的素描图处理方法，在不使用语义特征的情况下，通过提取样本图像和样本素描图的教师特征、教师分类概率、第一学生特征、第一学生分类概率、第二学生特征和第二学生分类概率，并通过计算分类损失、关系蒸馏损失和跨模态自蒸馏损失，有效提升学生模型的分类能力和泛化性，消除不同模态之间的模态差异问题，从而实现素描图的零样本跨模态检索，解决了现有的素描图检索方法存在的准确率低下的问题。

附图说明

图1是本发明的基于知识蒸馏的素描图处理方法的简化流程图；

图2是本发明的一优选实施例的第一测试结果图表；

图3是本发明的一优选实施例的第二测试结果图表；

图4是本发明的基于知识蒸馏的素描图处理系统的简化单元连接图；

图5是本发明的生成对比相似关系及局部相似关系的简化流程图；

图6是本发明的生成跨模态自蒸馏损失的简化流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，一种基于知识蒸馏的素描图处理方法，包括：

S1：获取预训练的由图像分类模型构成的教师模型，并基于所述教师模型提取样本图像的教师特征和教师分类概率。

进一步的，获取预训练的由图像分类模型构成的教师模型的方法可以是：基于SE-ResNet-50初始化教师模型；获取人工绘制的所述样本素描图及成像单元采集的与所述样本素描图对应的所述样本图像构成训练数据集；基于所述训练数据集训练所述教师模型；将预训练好的SE-ResNet-50进行扩展，即，在SE-ResNet-50的Squeeze-and-Excitation(SE)模块中增加一个输入维度，并称为CSE-ResNet-50。

更进一步的，教师模型的特征嵌入是倒数第二层（平均池化层）的输出，最后一层为线性分类层，输出维度为1000维，即，基于图像产生伪ImageNet标签。

S2：构建能够基于素描图进行图像分类的学生模型，并基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率，并基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率。

进一步的，构建的学生模型可以是基于CSE-ResNet-50框架，但相较于传统CSE-ResNet-50框架，学生模型使用两层的全连接层取代原CSE-ResNet-50的线性分类层，并且第一层全连接层输出学生网络的特征嵌入，第二层全连接层作为分类器输出分类概率向量，同时额外训练一个1000维的线性分类器。

更进一步的，所述第二层全连接层和所述线性分类器在维度上是不同的，因为它们面临不同的分类空间，即具体数据集所包含的类别空间和预训练数据集ImageNet所包含的类别空间。并且，教师模型监督学生模型学习的过程中，仅由学生模型模仿教师模型的关系推理能力。因此，教师网络的参数是固定的，在学生网络的训练过程中保持独立性；学生网络能够根据自身的任务和教师的监督完成自身参数的更新，参数是动态变化的。

S3：基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失，并基于所述分类损失和所述蒸馏损失更新所述学生模型。

进一步的，所述S3包括：S31：基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失；S32：基于所述第二学生分类概率计算所述样本素描图的第二分类损失；S33：基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。

更进一步的，所述第一分类损失和所述第二分类损失的目标函数可以是：

，其中，

是

（样本图像或样本素描图）的标签，

是

的参数，条件概率

由计算得到，教师模型定义为

，学生模型定义为

，

为样本的分类损失的均值，图像经过教师网络后得到的嵌入

，图像经过学生网络后得到的嵌入

，其中，

表示任意一张图像。

更进一步的，计算所述样本图像的关系蒸馏损失，包括：计算多个所述教师特征之间的第一相似关系；计算多个所述第一学生特征之间的第二相似关系；计算所述第一相似关系和所述第二相似关系的第一差异；计算所述教师分类概率和所述第一学生分类概率的第二差异；基于所述第一差异和所述第二差异生成所述关系蒸馏损失。其中，所述第一相似关系和所述第二相似关系均包括对比相似关系和局部相似关系。

更进一步的，如图5所示，计算所述对比相似关系的方法可以是：采用特征间的对比相似关系作为匹配的对象，衡量一个批度（batch）内所有嵌入两两之间的相似关系，并将这种对比关系归一化为概率分布，再进行概率分布的匹配。具体的目标计算公式可以定义为：

，

，

其中，

是一个知识函数，条件为真时值为1，条件为假时值为0。

是一个非常小的数值（例如：

），用于保证计算的稳定性。

为教师模型或学生模型衡量两个特征的相似性,并且

度量余弦距离，定义如下：

。其中，为了避免自我比较影响对比关系的强度，对比关系的计算中用

和

排除自我比较的情况。

更进一步的，计算所述局部相似关系的方法可以是：采用特征间的局部相似关系作为匹配的对象，为一个批度所包含的部分类别计算分类概率分布，再为教师模型和学生模型进行分布匹配。在正式训练前，使用预训练的深度卷积网络提取所有图像的特征嵌入，根据类别计算得到类中心

，其中

是对应于类别的图像总数目。所有类中心所组成的矩阵记为

。由于一个批度不可能包含所有的类别，因此假设

是一个二值掩码，长度为所有类别的数目

，则

是由部分类中心所组成的矩阵，

随每个批度的数据变化而变化。对于教师网络而言，

可以作为它的一个分类器。因此，局部关系匹配可以定义为如下：

其中，

是基于教师模型的嵌入

和类中心矩阵

的距离的分类函数，是步骤S1中所述的第二层全连接层，用于将学生网络的嵌入

分类至具体训练类别中，

为

归一化的概率分布，假设

的计算结果为

，则

的所有元素之和为1。

是经过掩码筛选后的输出向量。其中，

和

的维度是不同的，因为两个分类器所面临的类别空间是不同的，即

用于将学生网络的嵌入分类至具体数据集所包含的类别空间，而

是分类至预训练数据集ImageNet所包含的类别空间。

更进一步的，计算所述样本素描图的跨模态自蒸馏损失，包括：计算多组所述第一学生特征与所述第二学生特征之间的相似度数据；基于所述相似度数据按照滑动平均的方式加权所述第一学生分类概率；基于加权后的所述第一学生分类概率与所述第二学生分类概率生成所述跨模态自蒸馏损失。

更进一步的，生成所述跨模态自蒸馏损失的方法可以是：计算得到一批素描图特征和一批图像特征的余弦相似度矩阵

，其公式为：

，

的行数和列数分别是素描图和图像的样本数量，

为样本素描图经过学生网络后得到的嵌入，

的每一行对应于一个样本素描图，每一列j对应于一个图像，

表示两者的相似度。

用于对概率均值

进行加权，但这些相似度都未进行缩放的情况下，它们相加的和不等于1，因此需要对每一行都进行归一化，得到

，使其全部行的分布概率的和为1。因此，对

的行

归一化，使得满足以下两个条件：

且

。分别假设

和

为素描图和图像的分类概率矩阵，计算公式如下：

，其中

为蒸馏的温度超参。根据相似度矩阵，以滑动平均的方式加权素描图和图像的分类概率：

，

为加权系数，最终得到

的即为素描图的目标分布，同样依据交叉熵衡量

和

的分布差异

，并通过反向传播减小差异。

更进一步的，基于所述分类损失和所述蒸馏损失更新所述学生模型包括：基于关系蒸馏损失和跨模态自蒸馏损失构建知识蒸馏过程的整体损失函数；提取所述第一分类损失和所述第二分类损失的损失函数；基于所述知识蒸馏过程的整体损失函数和所述分类的损失函数生成学生模型的整体优化目标函数

，其中，

为知识蒸馏过程的整体损失函数的权重，

为知识蒸馏过程的整体损失函数，

为所述第一分类损失和所述第二分类损失的损失函数；生成所述整体优化目标函数后，通过随机梯度下降算法，减小目标函数的值，并更新学生网络的参数。训练后，学生模型能够成功模仿教师模型在对比相似关系和局部相似关系方面的图像分类能力的同时，能够通过跨模态自蒸馏学习到素描图的分类能力。

S4：所述学生模型基于待检测素描图和待查询图像生成根据相似性从大到小排序的零样本跨模态检索结果。

为解决素描图处理及识别的问题，发明人初始使用传统的零样本学习方法构建的系统进行实验，但是发现素描图在多模态数据下的识别准确率较低，经设置多组对照组（多组单一模态数据、多组多模态数据）实验并推理后发现，其原因在于：零样本学习方法利用各种辅助信息学习视觉空间和语义空间的映射关系，或者学习一个联合嵌入空间，又或者学习一个条件生成网络以将零样本学习问题转变为传统的监督分类问题。但是，零样本学习方法仅关注于单一模态的数据以及基础的分类问题，难以处理多模态数据和模态差异问题，因此在多模态应用场景下表现较差。为解决零样本学习方法存在的难以处理多模态数据和模态差异问题，发明人通过结合素描图的图像检索和零样本学习的特点，在多模态应用场景下检索不可见类的嵌入。但是，该方法构建的系统仍存在素描图和图像模态之间的异质性差异问题以及可见类和不可见类之间的语义不一致问题，并且仍需要预定义准确的类名和额外的提取工作，使得系统从文本模型中提取的词向量和通过层次模型提取的词相似度，来桥接可见和不可见的类。因此，该方法在预定义类名不够准确时仍存在识别准确率较低的问题，并且会导致后端数据处理单元存在较大的算力负荷。最终，发明人基于知识蒸馏处理两种不同模态的数据，一方面通过将教师模型针对图像模态的分类能力迁移至学生模型，另一方面通过跨模态自蒸馏将学生模型针对图像模态的分类能力再次迁移到素描图模态上，提升学生模型联合处理两种不同数据的能力，并最终提升学生模型在零样本跨模态任务上的检索精度。并且，学生模型的训练和实施都无需额外的语义特征参与，降低模型的计算和存储需求，降低了后端数据处理单元算力负荷的同时，能够提取泛化而具有判别性的特征。

为便于直观体现本申请所要求保护的技术方案所具有的素描图检索效果，以采用零样本素描图-图像检索的三个主流数据集作为训练和测试的数据集为例，三个主流数据集分别为：Sketchy，TU-Berlin和QuickDraw。这三个数据集都包含素描图，图像和类别标签。具体的，Sketchy由125个类，75471张素描图和73002张图像构成，其中，Sketchy的图像精剪过，并且素描图具有细腻度的细节；TU-Berlin由250个类，20000张素描图和204489张图像构成，素描图和图像的数量严重不平衡，并且素描图的抽象程度比Sketchy高；QuickDraw数据量非常大，包含110类，330000张素描图和204000张图像，素描图高度抽象化。在数据集的划分上，为了和现有技术进行公平的比较，本实施例保持相同的设置。Sketchy有两种划分方法：一种随机选择25个类作为测试集，另一种选择固定的21个类作为测试集（Sketchy split 2）。TU-Berlin和QuickDraw都选择30个类作为测试集。实验中，本实施例采用召全率(Prec)和平均召全率的均值(mAP)作为评估的标准，Prec@K和mAP@K表示检索的前K个结果计算得到的召全率和平均召全率的均值。

进一步的，基于本申请所要求保护的系统在本实施例中被定义为RPKD，其余检索方法都是使用度较高的素描图检索方法，实验结果如图2和图3所示。首先比较不使用语义嵌入的方法，观察图2和图3的结果可知，本方法远远超过对比的方法，以mAP@all指标为例，本方法相比于最新对比算法（SAKE w/o s），在Sketchy超过0.063的mAP，在TU-Berlin上超过0.024，在QuickDraw上超过0.038。以其他指标来看，RPKD的提升更大。最后，将RPKD直接和使用语义嵌入的方法比较。值得注意的是，使用语义嵌入通常来说会提升零样本素描图-图像检索的精度，但也提升了模型训练的资源需求和计算需求。尽管直接比较对RPKD不公平，但RPKD在三个数据集上，依旧超越了绝大部分使用语义嵌入的方法，仅仅只在Sketchy上落后于PDFD方法。尽管如此，本方法在TU-Berlin上依旧以较大幅度超越了PDFD。

相应的，如图4所示，本发明提供，一种基于知识蒸馏的素描图处理系统，包括：成像单元，用于采集多个样本图像；数据存储单元，用于存储多个所述样本图像及其对应的样本素描图；神经网络单元，包括预训练的由图像分类模型构成的教师模型和能够基于素描图进行图像分类的学生模型；数据处理单元，通过所述教师模型提取样本图像的教师特征和教师分类概率和基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率的同时，基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率，并基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失后，基于所述分类损失和所述蒸馏损失更新所述学生模型。

进一步的，所述数据处理单元基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失后，基于所述第二学生分类概率计算所述样本素描图的第二分类损失，并基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。

以上对本发明实施例所提供的一种基于知识蒸馏的素描图处理方法及其系统进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种基于知识蒸馏的素描图处理方法，其特征在于，包括：

获取预训练的由图像分类模型构成的教师模型，并基于所述教师模型提取样本图像的教师特征和教师分类概率；

构建能够基于素描图进行图像分类的学生模型，并基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率，并基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率；

基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失，并基于所述分类损失和所述蒸馏损失更新所述学生模型；

所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果。

2.根据权利要求1所述的素描图处理方法，其特征在于，基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失，包括：

基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失；

基于所述第二学生分类概率计算所述样本素描图的第二分类损失；

基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。

3.根据权利要求2所述的素描图处理方法，其特征在于，计算所述样本图像的第一分类损失，包括：

基于所述教师分类概率和所述第一学生分类概率计算所述第一分类损失。

4.根据权利要求3所述的素描图处理方法，其特征在于，计算所述样本图像的关系蒸馏损失，包括：

计算多个所述教师特征之间的第一相似关系；

计算多个所述第一学生特征之间的第二相似关系；

计算所述第一相似关系和所述第二相似关系的第一差异；

计算所述教师分类概率和所述第一学生分类概率的第二差异；

基于所述第一差异和所述第二差异生成所述关系蒸馏损失。

5.根据权利要求4所述的素描图处理方法，其特征在于，计算所述样本素描图的跨模态自蒸馏损失，包括：

计算多组所述第一学生特征与所述第二学生特征之间的相似度数据；

基于所述相似度数据按照滑动平均的方式加权所述第一学生分类概率；

基于加权后的所述第一学生分类概率与所述第二学生分类概率生成所述跨模态自蒸馏损失。

6.根据权利要求5所述的素描图处理方法，其特征在于，所述第一相似关系和所述第二相似关系均包括对比相似关系和局部相似关系。

7.根据权利要求1所述的素描图处理方法，其特征在于，所述素描图处理方法还包括：

获取人工绘制的所述样本素描图及成像单元采集的与所述样本素描图对应的所述样本图像构成训练数据集。

8.根据权利要求1所述的素描图处理方法，其特征在于，所述学生模型基于待检测素描图和待查询图像生成零样本跨模态检索结果，包括：

所述学生模型基于待检测素描图提取待检测素描图特征；

所述学生模型基于待查询图像提取待查询图像特征；

计算所述待检测素描图特征与所述待查询图像特征的余弦相似度并进行排序后生成所述零样本跨模态检索结果。

9.一种基于知识蒸馏的素描图处理系统，其特征在于，包括：

成像单元，用于采集多个样本图像；

数据存储单元，用于存储多个所述样本图像及其对应的样本素描图；

神经网络单元，包括预训练的由图像分类模型构成的教师模型和能够基于素描图进行图像分类的学生模型；

数据处理单元，通过所述教师模型提取样本图像的教师特征和教师分类概率和基于所述学生模型提取所述样本图像的第一学生特征和第一学生分类概率的同时，基于所述学生模型提取所述样本图像对应样本素描图的第二学生特征和第二学生分类概率，并基于所述教师特征、所述教师分类概率、所述第一学生特征、所述第一学生分类概率、所述第二学生特征和所述第二学生分类概率计算分类损失和蒸馏损失后，基于所述分类损失和所述蒸馏损失更新所述学生模型。

10.根据权利要求9所述的素描图处理系统，其特征在于，所述数据处理单元基于所述教师特征、所述教师分类概率、所述第一学生特征和所述第一学生分类概率计算所述样本图像的第一分类损失和关系蒸馏损失后，基于所述第二学生分类概率计算所述样本素描图的第二分类损失，并基于第一学生特征和所述第二学生特征的相似性计算所述样本素描图的跨模态自蒸馏损失。