CN114708270A

CN114708270A - 基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

Info

Publication number: CN114708270A
Application number: CN202111533895.1A
Authority: CN
Inventors: 刘宇昂; 张伟; 王骏
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-07-05
Anticipated expiration: 2041-12-15
Also published as: CN114708270B

Abstract

本发明公开了一种基于知识聚合与解耦蒸馏的语义分割模型压缩系统，包括学生模型、教师模型、特征层综合知识提取与编码模块、感知聚合模块、辅助预测器、标签解耦蒸馏模块。本发明还公开了一种基于上述系统的模型压缩方法，该方法通过特征层综合知识的提取与聚合策略，在蒸馏训练过程中，分别获得教师、学生模型的多种高维特征图及其聚合后的综合知识图；然后通过优化学生模型使其逼近教师的综合知识图，实现多种语义信息和上下文知识的蒸馏学习；构建辅助预测分支控制综合知识的聚合学习过程，并提供了轻量化的代理在线学习机制帮助学生模型学习；最后通过标签解耦蒸馏模块解耦教师‑学生模型输出端的软标签蒸馏和中间层的特征知识蒸馏。

Description

基于知识聚合与解耦蒸馏的语义分割模型压缩系统及压缩方法

技术领域

本发明属于语义分割模型蒸馏压缩领域，涉及一种基于知识聚合与解耦蒸馏对语义分割模型压缩的新方法及系统。

背景技术

语义分割是一项至关重要且具有挑战性的视觉任务，旨在为图像中的每个像素预测一个语义类别。随着深度学习技术的飞速发展，语义分割已在许多实际应用中取得了长足的进步，并显示出巨大潜力，例如自动驾驶、场景理解和图像编辑。基于深度神经网络的方法，例如SegNet、DeepLab和PSPNet，虽然取得了出色的性能，但是却面临庞杂的结构和巨大的计算量等问题。这限制了语义分割模型在移动或边缘设备上的部署，从而限制了其在移动互联网时代诸多应用的发展。为了解决这些问题，常用的方法是在尽可能保留高性能的前提下将大型网络模型压缩为小模型，模型剪枝、量化和知识蒸馏是普遍采用的压缩手段。

知识蒸馏是一种非常方便有效的模型压缩范式，通过将有意义的信息从庞大的教师模型转移到小型学生模型来实现性能保留和参数量缩减。它在图像分类、目标检测、行人识别等方面取得了重大进展，主要是通过提炼概率软目标或模型中间层特征作为传递知识。但是，目前所有蒸馏压缩方法仅关注模型单种中间层知识，或者仅联合利用软标签和中间特征图。并且分类任务中常用的蒸馏方法或知识类型并不能在语义分割模型上达到稳定的效果，这主要是由于语义分割任务不仅需要关注类别特征，还需要关联上下文信息等。此外，不同类型的知识的选取和计算也具有一定的经验性，无法保证每种方法在所有场景下都适用。尽管一些研究人员尝试从多个教师模型中提取知识进行组合，但他们主要利用软标签的概率信息，忽视了包含更丰富信息的中间层特征；并且由于多个教师模型的计算量巨大，难以用于复杂的密集型预测任务。因此，采用多种知识进行聚合以充分挖掘教师模型中的信息对于语义分割模型的蒸馏压缩至关重要。

发明内容

现有知识蒸馏技术已经提供了非常丰富的知识提取和传输方式。本发明为了解决语义分割模型的蒸馏压缩中对教师模型中的知识利用不充分的问题，设计了一种基于知识聚合与解耦蒸馏的语义分割模型压缩方法及压缩系统，通过从教师模型中提取和聚合不同类型的知识图获得综合信息对学生模型进行指导，极大提高蒸馏效率，在压缩模型参数量、提升计算速度的同时保留了高性能。为了充分利用特征知识与软标签知识对学生模型进行蒸馏训练，本发明提出了解耦蒸馏策略，以应对两处蒸馏带来的不一致问题，使得两方面蒸馏实现互补。

本发明通过以下技术方案实现：

基于知识聚合与解耦蒸馏的语义分割模型压缩方法采用教师-学生蒸馏训练系统对语义分割模型进行压缩，系统中包括学生模型、教师模型、特征层综合知识提取与编码模块、感知聚合模块、辅助预测器和标签解耦蒸馏模块。其中，教师模型为训练完备的大型语义分割模型，学生模型为压缩的小型语义分割模型，二者均为特征提取器-预测器架构；特征层综合知识提取与编码模块负责从教师、学生模型的特征提取器输出的特征图E^t或E^s中提取多种高阶知识并进行维度转换和编码，用于统一异质知识的表征空间；感知聚合模块通过将多种编码后的知识图进行聚合，分别获得教师模型和学生模型的聚合知识图，用于从教师模型向学生模型传递信息；辅助预测分支包括教师端的知识提取与编码模块、感知聚合模块和辅助预测器，其在标签指导下利用教师模型提取的特征图实现语义分割预测，通过完成语义分割图的预测任务控制多种特征知识的编码和聚合过程，以获得最优参数；标签解耦蒸馏模块用于解耦特征蒸馏与软标签蒸馏，通过利用辅助预测器的输出估计所需标签蒸馏部分用于指导学生模型，使得学生从教师软标签中学习特征蒸馏中未关注到的信息。

本发明所提出的模型压缩方法包括以下三个执行步骤：

步骤1：输入图像，教师、学生模型分别进行推理，经过综合知识提取与编码模块、感知聚合模块获得教师、学生端的聚合知识图，通过L₁损失函数使学生的聚合知识图与教师逼近，同时更新学生端知识提取与编码模块；

步骤2：教师端的聚合知识图经辅助预测器获得语义预测图，根据真实语义图建立交叉熵损失函数更新辅助预测器和教师端知识提取与编码模块。

步骤3：利用标签解耦蒸馏模块指导学生模型和辅助预测器的软标签蒸馏训练。

所述蒸馏训练方法中各个组件的定义、处理过程和作用具体如下：

教师语义分割模型是在当前数据集上已经通过完整的有监督训练过程训练完备的，而学生模型是未经训练的目标压缩模型。在蒸馏训练中，教师与学生模型均输入相同数据，教师模型参数固定不更新，学生模型更新参数。

步骤1中所述综合知识提取与编码模块，由知识提取层、特征转换层和编码器三部分构成，知识提取层利用语义分割模型的特征提取器输出的特征图，通过多种矩阵计算获得不同类型的异质知识图，特征转换层负责将异质知识图进行形状转换使其宽高一致，而后其经过编码器映射到统一的维度空间，即获得了不同类型、相同维度的知识图表示。经过统一编码后不同类型知识图的通道维度均为256，N种不同知识图拼接后的表征维度为N*256。知识提取层可以定义多种知识提取或计算策略，本发明中提供最多6种可用知识类型，通过利用教师或学生模型的特征提取器输出的特征图E∈R^{C′×H′×W′}(C′、H′、W′为其通道数、高、宽)，不同知识类型的计算方式和形状如下表1所示：

表1不同知识类型的计算方式和形状

表格中，softmax为归一化操作函数，K_[i,j,k]与E_[i,j,k]的下标序号i,j,k分别为三维矩阵三个维度的索引，

为临时计算矩阵，||·||₂为L₂范数。

步骤1中所用感知聚合模块由单层核为1×1的卷积层、归一化层、ReLU激活层构成，其接于综合知识提取与编码模块之后，将综合知识提取与编码模块所获得的多个知识图按通道进行拼接后作为输入，输出单张聚合知识图作为辅助预测器的输入。教师、学生端的感知聚合模块计算得到的聚合知识图分别为A^t,A^s，通过二者之间建立L₁损失函数约束学生的聚合知识图与教师的逼近，故聚合知识蒸馏损失函数可以定义为：

L_ka(A^s,A^t)＝||A^s-A^t||₁.

步骤2主要是获得教师模型、学生模型和辅助预测器的预测输出，根据真实标签监督和教师指导更新辅助预测分支中的所有组件和学生模型本身。在辅助预测分支中，教师端的聚合知识图输入辅助预测器，然后其输出P^s与真实标签Y建立交叉熵损失函数用于更新辅助预测分支中所有组件的参数；

所述辅助预测分支包括教师端的知识提取与编码模块、感知聚合模块和辅助预测器。

所述交叉熵损失函数为：

其中，C为语义类别数目，P^s为输入图像X时学生模型的预测器输出，Y为语义真实标签。

由于综合知识提取与编码模块、感知聚合模块的参数都决定了不同知识图的聚合策略和生成的聚合知识图中的信息，因此需要接入辅助预测器使不同知识的聚合获得真实语义图的指导。综合知识提取与编码模块、感知聚合模块，两个模块在教师与学生端各有一组并前后连接，两侧感知聚合模块的输出通道维度与辅助预测器的输入一致。辅助预测器为教师与学生端共享，连接于教师与学生端的感知聚合模块之后，与教师端的知识提取与编码模块、感知聚合模块共同构成辅助预测分支，利用聚合知识图进行语义分割预测；其采用的结构与教师的预测器结构一致。辅助预测器只在教师端更新，在学生端接收聚合知识图只进行推理预测获得语义图用于标签解耦模块。

与现有基于中间层知识的蒸馏技术不同，本发明中教师端的知识提取与编码模块、感知聚合模块和共享的辅助预测器连接构成辅助预测分支，所有组件均与学生模型同步更新，因而教师端所提供的聚合知识图在不同阶段是根据学生模型学习情况不断更新的，为学生模型提供了一种在线学习环境。由于大型教师模型无需参与完整更新即可实现知识图的迭代更新，只需要辅助预测分支少量的参数更新即可实现对学生模型的逐步指导，这是一种轻量化的代理在线学习机制。

步骤3是利用标签解耦蒸馏模块对蒸馏训练中的特征蒸馏与软标签蒸馏进行解耦和校正，其工作流程包括：

步骤3-1：利用教师与学生端计算得到的聚合知识图经辅助预测器推理后的两个预测图之间作差得到一致性掩码矩阵M^c，然后M^c取反获得非一致掩码矩阵M^r，分别标记两个预测图之间一致与不一致的预测区域；

步骤3-2：将两个掩码矩阵用于校正基于Kullback-Leibler(KL)散度的针对学生的软标签蒸馏；

步骤3-3：将两个掩码矩阵用于校正教师模型对辅助预测器的软标签蒸馏训练，以增强辅助预测分支对聚合知识图的学习。

最终，将中间特征层的聚合知识蒸馏与解耦的标签蒸馏结合，学生模型的总体训练损失函数为：

其中，P^t和P^s分别为输入图像X时教师和学生模型的预测器输出，Y为语义真实标签，L_ce(·)为交叉熵损失函数，L_kl(·)为Kullback-Leibler散度函数，α和β为平衡因子，⊙和

分别为矩阵Hadamard乘积和加法运算。

所述学生模型的总体训练损失包括了聚合知识蒸馏损失和标签解耦蒸馏损失。

辅助预测器的训练损失函数为：

其中，P^ht为辅助预测器在教师端的预测输出。

本发明的有益效果是：本发明通过挖掘单个教师模型单个中间层中的多种不同类型的知识进行聚合后用蒸馏训练获得压缩后的学生模型，将语义分割任务中的多种复杂只是从教师模型迁移到小型学生模型，压缩了模型体积，减少参数量和计算负担，同时保持高性能。多种知识的聚合蒸馏可以从多个角度指导学生模型的学习，增加蒸馏训练的稳定性，避免经验性的知识选取，显著提升蒸馏效果。软标签解耦蒸馏策略保证了特征蒸馏与标签蒸馏两方面的对学生模型指导的一致性和互补作用。本发明推动了轻量化语义分割模型在移动设备、嵌入式设备上的部署和应用，对于自动驾驶、图像编辑等领域具有重要意义，可以降低部署成本、减少能源消耗和存储负担。在蒸馏压缩实践中，本发明提供了一种通用的知识聚合框架，可以结合现有的多种知识蒸馏形式，实现多种单一蒸馏方式的互补增益。

附图说明

图1为本发明基于知识聚合与解耦蒸馏的语义分割模型压缩方法的整体架构图。

图2为本发明语义分割模型压缩方法的流程图。

图3为标签解耦蒸馏过程示意图。

图4为代理在线学习机制与传统在线学习对比图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例1

如图1所示的本发明方法整体框架图，本发明提供了一种基于知识聚合和解耦蒸馏的语义分割模型压缩系统，在教师模型和学生模型已知情况下，设计了特征层综合知识提取与编码模块、感知聚合模块、辅助预测器和标签解耦蒸馏模块。其中，教师模型为训练完备的大型语义分割模型，学生模型为压缩的小型语义分割模型，二者均为特征提取器-预测器架构；特征层综合知识提取与编码模块负责从教师、学生模型的特征提取器输出的特征图中提取多种高阶知识并进行维度转换和编码；感知聚合模块通过将多种编码后的知识图进行聚合，获得聚合知识图用于从教师模型向学生模型传递信息；辅助预测分支通过完成语义分割图的预测任务控制多种特征知识的编码和聚合过程，以获得最优参数；标签解耦蒸馏模块用于解耦特征蒸馏与软标签蒸馏，通过利用辅助预测器的输出估计所需标签蒸馏部分用于指导学生模型，使得学生从教师软标签中学习特征蒸馏中未关注到的信息。图1结合图2详细展示了本发明方法的工作流程。

1.教师、学生模型推理和预测

语义分割是一项密集型像素级预测任务，旨在为包含C个类别的RGB图像X∈R^3×H×W的每一个像素预测一个类别。在教师模型T(参数为θ^t)和学生模型S(参数为θ^s)均输入真实标签为Y的图像X时，教师的特征提取器和预测器分别输出特征图E^t∈R^{C′×H′×W′}(C′、H′、W′为其通道数、高、宽)和语义预测图P^t∈R^C×H×W，学生的特征提取器和预测器分别输出特征图E^s∈R^{C″×H″×W″}和语义预测图P^s∈R^C×H×W。

2.多种知识提取与编码

知识提取：以教师端的知识提取为例，学生端同理。实施例提供了6种不同知识类型定义和计算方式，如下表所示：

可选地，可以根据需要引入更多知识类型，也可以从以上6种中选取部分使用。直接知识提取获得的不同知识图的形状和表示空间是不一致的，因此需要使用转换层针对每种知识图的形状与原特征图进行矩阵乘法运算以获得具有相同宽高的知识图。将从教师模型主干网络中蒸馏出的知识组表示为

从学生模型得到的则为

n是采用的知识数量。

知识转换：为了将它们转换到统一的特征空间并保留特定信息，分别为教师和学生设计了转换层和编码器。值得注意的是，具有不同架构的师生骨干网络(例如ResNet和MobileNet)可能会以不一致的大小输出特征图，这会导致师生之间的知识聚合和自适应平均值不一致。可以在转换层之前，根据教师的骨干采用池化层。首先，为Ω^t和Ω^s中的不同类型知识定义一系列的转换操作，{Trans_i(·)|i∈{1,2,...,n}}将所有异质知识矩阵转换到统一的形状(H′×W′)。

其中，

和

分别是对应于教师和学生的转换后的知识矩阵。每一种变换Trans_i(·)都是针对相应类型的知识K_i的。如果K_i已经符合统一的形状(H′×W′)，则Trans_i(·)不作任何处理。否则，通过与原特征图进行矩阵运算获得统一。

知识编码：每一种转换后的知识矩阵

将会被对应的编码器

编码到潜在特征空间f_i。为了保留原有信息，编码器只通过单层映射层进行简单空间变换。教师与学生端的编码器定义为：

其中，f_i ^t,f_i ^s分别是由编码器

输出的潜在特征表示，

是编码器参数。分别收集并堆栈教师和学生端的潜在特征表示f_i ^t,f_i ^s，获得两个综合知识矩阵表示：

3.知识聚合与特征蒸馏

为了聚合堆积的潜在知识，分别在知识提取与编码模块之后接两个感知聚合模块D^t,D^s，这与前述的编码器结构相似。通过1×1卷积层，感知聚合模块可以将综合知识投影到统一的特征空间，从而实现知识聚合。本发明将两个感知聚合模块表示为：

A^t＝D^t(F^t；θ^td)＝relu(norm(conv_1×1(F^t；θ^td))),

A^s＝D^s(F^s；θ^sd)＝relu(norm(conv_1×1(F^s；θ^sd))),

其中，A^t,A^s分别是由感知聚合模块D^t,D^s输出的聚合知识矩阵，θ^td,θ^sd是感知聚合模块的可学习参数。值得说明的是，编码器和感知聚合模块结构非常简单、参数量很小，几乎不会增加额外的计算成本。

通过以上设计，可以对学生模型建立聚合知识的蒸馏损失函数：

L_ka(A^s,A^t)＝||A^s-A^t||₁.

4.辅助预测与标签解耦蒸馏

以上实现了多种知识的转换、编码和聚合，还需要构建一个学习目标来优化辅助预测分支的参数。因此，可以在感知聚合模块后接入一个分割框架中普遍采用的预测器作为辅助预测器H。如此，聚合知识的学习就通过辅助预测器与网络的学习目标衔接起来，通过梯度下降实现更新。辅助预测器为教师和学生端共享结构，但只在接收教师端的聚合知识图进行更新。教师、学生端的知识聚合图A^t,A^s经辅助预测器H后输出的语义预测图分别为

P^ht＝H(A^t；θ^h),P^hs＝H(A^s；θ^h),

其中，θ^h为辅助预测器的可训练参数。

图3描述了标签解耦蒸馏模块的结构，根据教师、学生端的辅助预测分支预测的语义图P^ht和P^hs计算获得一致性掩码图M^c与非一致性掩码图M^r，而后分别用于对学生模型和教师辅助预测分支所预测结果的解耦蒸馏。一致性掩码图M^c计算过程如下：

其中，j∈{1,2,...,HW}是像素索引，Y是真实语义图，φ(·)是利用预测图的标签生成函数argmax。M^c的互补图即非一致性掩码图为M^r＝1-M^c。对于学生模型，在软标签蒸馏中希望它只学习聚合知识中无法提供的其他信息。因此，通过教师软标签和真实标签的监督，建立学生模型的损失函数为：

其中，L_ce(·)为交叉熵损失函数，L_kl(·)为Kullback-Leibler散度函数，α和β为平衡因子，⊙和

分别为矩阵Hadamard乘积和加法运算。此外，为了促使教师端的辅助预测分支关注到学生模型在学习中忽略的标签信息，将辅助预测器的损失函数建立为

其中，P^ht为辅助预测器在教师端的预测输出。

5.代理在线学习机制

图4展示了利用辅助预测分支进行轻量化代理在线学习的过程。与传统在线学习方式不同，在逐步指导学生模型的过程中，大型教师模型无需更新参数，只需要辅助预测分支进行少量参数更新即可实现聚合知识图的迭代更新，根据学生模型的学习情况调整辅助参数。

6.优化过程

在蒸馏训练过程中，所有的辅助组件(包括知识提取与编码模块、感知聚合模块、辅助预测器)和整个学生模型的参数是同步更新的。通过更新教师端的辅助预测器最小化损失L^H，反向传播过程为：

学生模型的学习通过最小化损失L^S实现，学生端的n个编码器和感知聚合器的更新过程为：

实施例2

使用本发明方法对教师语义分割模型(以DeepLabV3-ResNet50为例)进行蒸馏压缩，所采用的学生模型可选地有DeepLabV3-ResNet18、DeepLabV3-MobileNet。所采用的辅助预测器均与教师模型的预测器相同，即DeepLabV3网络。使用表中全部6中知识进行聚合蒸馏，知识编码维度设为256通道。在VOC数据集上采用SGD优化方法、Poly学习率衰减策略训练120轮，数据增强方法包括随机裁剪(512×512像素)、水平翻转。初始学习率设为0.1，batch size为8，训练设备为NVIDIARTX 2080Ti GPU。教师学生模型的参数量、计算量(FLOPs)、mIoU性能表现比较如下表所示。

在512×512的输入图像上，学生模型DeepLabV3-ResNet18的参数量相比教师模型减少约60％，计算量减少约80％，而mIoU表现达到了教师的95.54％。学生模型DeepLabV3-MobileNet相比教师模型的参数量压缩了约85％，计算量减少50％以上，而mIoU达到了教师的94.8％，相比单独训练的学生提升了2.99的mIoU。从而验证了本发明方法对学生模型的效果提升。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于知识聚合与解耦蒸馏的语义分割模型压缩系统，其特征在于，所述系统包括学生模型、教师模型、特征层综合知识提取与编码模块、感知聚合模块、辅助预测器、标签解耦蒸馏模块；

所述教师模型为训练完备的大型语义分割模型；所述学生模型为压缩的小型语义分割模型；所述教师模型和学生模型中均包括特征提取器和预测器；

所述特征层综合知识提取与编码模块负责从教师模型和学生模型中的特征提取器输出的特征图中提取多种高阶知识并进行维度转换和编码；

所述感知聚合模块通过将所述多种编码后的知识图进行聚合，分别获得教师模型的聚合知识图A^t和学生模型的聚合知识图A^s，用于从教师模型向学生模型传递信息；

所述辅助预测器用于将输入的教师模型对应的聚合知识图A^t转换为语义预测图；

所述标签解耦蒸馏模块用于解耦特征蒸馏与软标签蒸馏，通过利用辅助预测器的输出估计所需标签蒸馏部分用于指导学生模型，使得学生模型从教师模型软标签中学习单一特征蒸馏中未关注到的信息。

2.如权利要求1所述的系统，其特征在于，所述特征层综合知识提取与编码模块包括知识提取层、特征转换层、编码器；

所述知识提取层利用语义分割模型的特征提取器输出的特征图，通过多种矩阵计算获得不同类型的异质知识图；

所述特征转换层负责将异质知识图进行形状转换使其宽高一致；

所述编码器将宽高一致的异质知识图映射到统一的维度空间，获得不同类型、相同维度的知识图表示。

3.如权利要求1所述的系统，其特征在于，所述感知聚合模块由单层核为1×1的卷积层、归一化层、ReLU激活层构成，所述感知聚合模块连接于综合知识提取与编码模块之后，将综合知识提取与编码模块所获得的多个知识图按通道进行拼接后作为输入，输出单张聚合知识图作为辅助预测器的输入。

4.如权利要求1所述的系统，其特征在于，所述辅助预测器为教师与学生端共享，连接于教师与学生端的感知聚合模块之后，与教师端的综合知识提取与编码模块、感知聚合模块共同构成辅助预测分支，利用聚合知识图进行语义分割预测；所述辅助预测器的结构与教师模型中的预测器结构相同。

5.如权利要求4所述的系统，其特征在于，所述辅助预测分支中的所有组件均与学生模型同步更新，教师端所产生的聚合知识图不断更新，为学生模型提供了一种代理在线学习机制，即大型的教师模型无需参数更新，只需要辅助预测分支少量的参数更新即可实现对学生模型的逐步指导。

6.一种利用如权利要求1-5之任一项所述系统的基于知识聚合与解耦蒸馏的语义分割模型压缩方法，其特征在于，包括如下步骤：

步骤1：图像输入，教师、学生模型分别进行推理，经过综合知识提取与编码模块、感知聚合模块获得教师端、学生端的聚合知识图，通过L₁损失函数使学生的聚合知识图与教师逼近，同时更新学生端知识提取与编码模块；

7.如权利要求6所述的方法，其特征在于，步骤1中，所述L₁损失函数用于描述学生端聚合知识蒸馏损失，公式如下：

L_ka(A^s,A^t)＝||A^s-A^t||₁，

其中，教师端的感知聚合模块计算得到的聚合知识图A^t，学生端的感知聚合模块计算得到的聚合知识图为A^s。

8.如权利要求6所述的方法，其特征在于，步骤2中，通过获得教师模型、学生模型和辅助预测器的预测输出，根据真实标签监督和教师指导更新辅助预测分支中的所有组件和学生模型本身；在辅助预测分支中，教师端的聚合知识图输入辅助预测器，然后其输出P^s与真实标签Y建立交叉熵损失函数用于更新辅助预测分支中所有组件的参数；所述交叉熵损失函数公式如下：

9.如权利要求6所述的方法，其特征在于，步骤3中，利用标签解耦蒸馏模块对蒸馏训练中的特征蒸馏与软标签蒸馏进行解耦和校正，其工作流程包括：

步骤3-1：利用教师端与学生端计算得到的聚合知识图经辅助预测器推理后的两个预测图之间作差得到一致性掩码矩阵M^c，然后M^c取反获得非一致掩码矩阵M^r，分别标记两个预测图之间一致与不一致的预测区域；

步骤3-2：将两个掩码矩阵用于校正基于Kullback-Leibler散度的针对学生的软标签蒸馏；

10.如权利要求6所述的方法，其特征在于，所述学生模型的总体损失包括聚合知识蒸馏损失和标签解耦蒸馏损失，所述总体损失的公式如下：

分别为矩阵Hadamard乘积和加法运算。

11.如权利要求6所述的方法，其特征在于，步骤2中，所述辅助预测器的训练损失函数为：

其中，P^ht为辅助预测器在教师端的预测输出。