CN116664840B

CN116664840B - 一种基于互关系知识蒸馏的语义分割方法、装置及设备

Info

Publication number: CN116664840B
Application number: CN202310641375.5A
Authority: CN
Inventors: 林旭新; 梁延研; 郑皓文; 李国钊
Original assignee: Boyan Technology Zhuhai Co ltd
Current assignee: Boyan Technology Zhuhai Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2024-02-13
Anticipated expiration: 2043-05-31
Also published as: CN116664840A

Abstract

本发明公开了一种基于互关系知识蒸馏的语义分割方法、装置及设备，方法包括：将目标图像分别输入教师模型和学生模型，得到中间特征图；根据经过预先标注的标注图像和中间特征图生成前景特征和背景特征；根据标注图像分别确定教师模型和学生模型对应的锚点；分别计算每个锚点与前景特征、背景特征的余弦相似度，以使教师模型与学生模型进行知识蒸馏且学生模型学习教师模型的网络参数；通过学习网络参数后的学生模型输出目标图像的语义分割结果。本发明可以使得教师模型和学生模型间的知识互相充分传递，从而提升学生模型性能，可广泛应用于计算机视觉领域。

Description

一种基于互关系知识蒸馏的语义分割方法、装置及设备

技术领域

本发明涉及计算机视觉领域，尤其是一种基于互关系知识蒸馏的语义分割方法、装置及设备。

背景技术

语义分割是一种计算机视觉技术，其目的是对图像中的每个像素进行分类。作为场景理解的基础任务之一，语义分割在自动驾驶、遥感影像、医疗图像诊断等领域具有重要应用。近年来，随着深度学习技术的不断发展，语义分割的性能得到了显著提升。然而，许多方法在追求性能的同时忽略了效率与性能之间的平衡，这使得语义分割在实际应用中面临一定的挑战。作为模型压缩的一种方法，知识蒸馏可以将一个复杂的深度神经网络模型的知识转移给一个轻量级的模型，从而提高轻量级模型的性能。具体来说，知识蒸馏可以通过将复杂模型的输出概率分布作为“软标签”来训练轻量级模型，从而使轻量级模型能够学习到更多的知识。此外，知识蒸馏还可以通过在训练过程中引入温度参数来平衡模型的复杂度和性能，从而进一步提高模型的性能。知识蒸馏只在训练过程中实施，所以在最终推理阶段中，轻量级模型可以在不引入任何额外参数量的情况下提升性能，从而更好地平衡性能与效率之间的问题。

目前，在语义分割上的知识蒸馏方法主要包括点对点蒸馏和结构化蒸馏。点对点蒸馏方法仅考虑单一像素点在空间或者通道维度的对应关系，从而忽略了整体上的结构信息。为了弥补此类方法的不足，结构化蒸馏则更关注于关系型知识，比如类内相似度、类间距离。然而，此类结构化蒸馏方法在分割时，难以很好地结合类内与类间的关系信息；除此之外，此类方法通常构造单锚点来提取教师模型与学生模型的知识，这可能造成了教师模型与学生模型间的互信息提取不充分，从而限制了学生模型的性能提升。

发明内容

有鉴于此，本发明实施例提供一种基于互关系知识蒸馏的语义分割方法、装置及设备，使得在知识蒸馏过程中，让教师模型和学生模型间的知识互相充分传递，从而提升学生模型性能。

本发明实施例的一方面提供了一种基于互关系知识蒸馏的语义分割方法，包括：

将目标图像分别输入教师模型和学生模型，得到所述教师模型提取的第一中间特征图和所述学生模型提取的第二中间特征图；

根据经过预先标注的标注图像和所述第一中间特征图生成第一前景特征和第一背景特征，根据经过预先标注的标注图像和所述第二中间特征图生成第二前景特征和第二背景特征；

根据所述标注图像确定所述教师模型对应的锚点和所述学生模型对应的锚点；

分别计算每个锚点与所述第一前景特征、所述第一背景特征、所述第二前景特征以及所述第二背景特征的余弦相似度，以使所述教师模型与所述学生模型进行知识蒸馏且所述学生模型学习所述教师模型的网络参数；

通过学习网络参数后的学生模型输出所述目标图像的语义分割结果。

可选地，所述根据经过预先标注的标注图像和所述第一中间特征图生成第一前景特征和第一背景特征，根据经过预先标注的标注图像和所述第二中间特征图生成第二前景特征和第二背景特征，包括：

将所述标注图像进行下采样，以使所述标注图像的高和宽与输出图像设定的高和宽相等；

基于下采样后的标注图像以及预先标注的像素标签，生成每个类别像素对应的掩膜，作为前景掩膜；

将所述前景掩膜取反得到背景掩膜；

将所述前景掩膜与所述第一中间特征图相乘，得到第一前景特征；将所述背景掩膜与所述第一中间特征图相乘，得到第一背景特征；

将所述前景掩膜与所述第二中间特征图相乘，得到第二前景特征；将所述背景掩膜与所述第二中间特征图相乘，得到第二背景特征。

可选地，所述根据所述标注图像确定所述教师模型对应的锚点和所述学生模型对应的锚点，包括：

将所述每个类别像素对应的掩膜与所述第一中间特征图相乘，并沿着空间维度求平均值，得到所述教师模型对应的锚点；

将所述每个类别像素对应的掩膜与所述第二中间特征图相乘，并沿着空间维度求平均值，得到所述学生模型对应的锚点。

可选地，所述教师模型与所述学生模型进行知识蒸馏的过程，包括：

根据所述教师模型对应的锚点和所述学生模型对应的锚点、所述余弦相似度以及预设的交叉熵损失函数，训练所述学生模型。

可选地，所述根据所述教师模型对应的锚点和所述学生模型对应的锚点、所述余弦相似度以及预设的交叉熵损失函数，训练所述学生模型，包括：

将所述教师模型对应的锚点与所述第一前景特征、所述第一背景特征、所述第二前景特征以及所述第二背景特征的余弦相似度作为第一余弦相似度，按空间维度计算所述第一余弦相似度的相对熵，得到所述教师模型对应的锚点的第一损失函数；

将所述学生模型对应的锚点与所述第一前景特征、所述第一背景特征、所述第二前景特征以及所述第二背景特征的余弦相似度作为第二余弦相似度，按空间维度计算所述第二余弦相似度的相对熵，得到所述学生模型对应的锚点的第二损失函数；

所述第一损失函数、所述第二损失函数以及所述交叉熵损失函数相加作为总损失函数，以所述总损失函数训练所述学生模型。

可选地，在所述教师模型与所述学生模型进行知识蒸馏的过程中，不更新所述教师模型的网络参数，仅输出所述教师模型的预测结果作为蒸馏信息。

可选地，所述学生模型的网络参数量少于所述教师模型的网络参数量。

本发明实施例的另一方面还提供了一种基于互关系知识蒸馏的语义分割装置，包括：

中间特征图获取单元，用于将目标图像分别输入教师模型和学生模型，得到所述教师模型提取的第一中间特征图和所述学生模型提取的第二中间特征图；

特征生成单元，用于根据经过预先标注的标注图像和所述第一中间特征图生成第一前景特征和第一背景特征，根据经过预先标注的标注图像和所述第二中间特征图生成第二前景特征和第二背景特征；

锚点确定单元，用于根据所述标注图像确定所述教师模型对应的锚点和所述学生模型对应的锚点；

知识蒸馏单元，用于分别计算每个锚点与所述第一前景特征、所述第一背景特征、所述第二前景特征以及所述第二背景特征的余弦相似度，以使所述教师模型与所述学生模型进行知识蒸馏且所述学生模型学习所述教师模型的网络参数；

语义分割单元，语义通过学习网络参数后的学生模型输出所述目标图像的语义分割结果。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现上述任一项所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现上述任一项所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明相较于现有技术至少包括以下有益效果：

1.通过学习网络参数后的学生模型输出目标图像的语义分割结果，最终阶段仅依靠学生模型进行推理，无需依赖教师模型，因此本发明的语义分割过程速度十分快。

2.分别计算每个锚点与第一前景特征、第一背景特征、第二前景特征以及第二背景特征的余弦相似度，以使教师模型与学生模型进行知识蒸馏，通过互关系将教师模型的知识迁移至学生模型，比现有的关系型蒸馏方法得到的学生模型准确度更高。

3.根据经过预先标注的标注图像和第一中间特征图生成第一前景特征和第一背景特征，根据经过预先标注的标注图像和第二中间特征图生成第二前景特征和第二背景特征，进一步将类内关系和类间关系解耦，使得学生模型更关注于其中一种的知识迁移，从而让性能进一步提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于互关系知识蒸馏的语义分割方法的流程示意图；

图2为本发明实施例提供的一种前景特征和背景特征的生成示意图；

图3为本发明实施例提供的一种基于互关系知识蒸馏的示例流程图；

图4为本发明实施例提供的一种基于互关系知识蒸馏的语义分割装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明实施例提供了一种基于互关系知识蒸馏的语义分割方法，具体包括以下步骤：

S100：将目标图像分别输入教师模型和学生模型，得到所述教师模型提取的第一中间特征图和所述学生模型提取的第二中间特征图。

具体的，本发明实施例中的教师模型与学生模型可适用于任意语义分割模型，如PSPNet或DeepLabV3，以及其它可选的语义分割模型。

一种可选的实施方式下，本发明的学生模型的骨干网可以小于教师模型的骨干网，即学生模型的网络参数量可以少于教师模型的网络参数量。

具体的，学生模型与教师模型的大小可以指骨干网之间的相对关系，教师模型的大骨干网的参数量大，学生模型的小骨干网的参数量可以比大骨干网的参数量少。以ResNet为例，教师模型所采用的骨干网可以选择ResNet-101或ResNet-50；学生模型所采用的骨干网可以选择ResNet-34或ResNet-18。具体骨干网的选取可以根据实际情况而定，小骨干网的特点可以包括参数量较小、能耗较低、速度较快或精度较低等；大骨干网的特点可以包括参数量较大、能耗较高、速度较慢或精度较高等。

然后，通过教师模型和学生模型分别获取目标图像的中间特征图，用于后续步骤生成前景特征和背景特征。

S110：根据经过预先标注的标注图像和所述第一中间特征图生成第一前景特征和第一背景特征，根据经过预先标注的标注图像和所述第二中间特征图生成第二前景特征和第二背景特征。

具体的，将预先经过标注的标注图像，记作G，进行下采样，使得标注图像的高和宽与输出图像的高H和宽W相等。然后基于G的像素标签，为每个类别像素生成掩膜M，其尺寸为(N,C,H,W)，其中N为批次大小，C为类别数。当像素点(i,j)不属于当前类别时，像素点(i,j)的值M(i,j)为0，否则M(i,j)为1，其中1≤i≤H，1≤j≤W。

参照图2，本发明实施例提供了一种前景特征和背景特征的生成示意图。

具体的，将教师模型提取的第一中间特征图记为F^T，学生模型提取的第二中间特征图记为F^S，将教师模型和学生模型的中间特征图F^T，F^S进一步解耦，得到解耦后的第一、第二前景特征和第一、第二背景特征/>具体解耦过程包括：将上述得到的掩膜M先复制并记为前景掩膜M_fg，再对前景掩膜M_fg取反得到背景掩膜M_bg。将前景掩膜M_fg和背景掩膜M_bg的每个通道图与中间特征图F^T，F^S相乘，即得到对应的前景特征/>和背景特征

S120：根据所述标注图像确定所述教师模型对应的锚点和所述学生模型对应的锚点。

具体的，将上述得到的掩膜M，分别与教师模型和学生模型的中间特征图F^T，F^S相乘后，再对其沿着空间维度求平均值，得到教师模型对应的锚点A^T，以及学生模型对应的锚点A^S，A^T和A^S具体表示如下：

其中，f_align(·)为对齐函数，作用为将学生模型特征图的尺度与教师模型特征图的尺度对齐。c为当前类别的通道，即

S130：分别计算每个锚点与所述第一前景特征、所述第一背景特征、所述第二前景特征以及所述第二背景特征的余弦相似度，以使所述教师模型与所述学生模型进行知识蒸馏且所述学生模型学习所述教师模型的网络参数。

具体的，先计算各个余弦相似度，具体计算过程如下：

A^T，A^S分别与上述步骤S110得到的前景特征和背景特征/>进行交互

学习，得到八个余弦相似度，计算余弦相似度计算表达式如下：

然后，基于得到的余弦相似度进行知识蒸馏，一种可选的实施方式下，本发明实施例的知识蒸馏所采用的学习函数可以是KL(Kullback-Leibler)散度，即相对熵。KL散度的目标在于使学生模型模仿教师模型，使得两者的分布尽可能相近。参照图3，本发明实施例提供了一种基于互关系知识蒸馏的示例流程图，具体知识蒸馏过程如下：

a)计算基于教师模型对应的锚点A^T的损失函数L_fg,T,L_bg，T。按空间维度计算相似度与/>和/>与/>的KL散度，表达式如下：

b)计算基于学生模型对应的锚点A^S的损失函数L_fg,S,L_bg,S。按空间维度计算相似度与/>和/>与/>的KL散度，表达式如下：

其中，σ为Softmax函数，τ为温度系数。

进而，知识蒸馏损失函数表示为上述各项损失函数相加：

L_kd＝L_fg，T+L_bg，T+L_fg，S+L_bg，S#(7)

最后，训练学生模型的总损失函数表示为常规的交叉熵损失函数L_ce加上式(7)表示的知识蒸馏损失函数L_kd，总损失函数表达式如下：

L＝L_ce+L_kd#(8)

需要说明的是，本发明实施例可以仅基于经过标注的像素类别作为监督信息训练教师模型，进而将训练后的教师模型进行冻结，即接下来训练学生模型时不更新教师模型的网络参数，仅输出教师模型的预测结果，作为蒸馏信息，然后再训练学生模型。

S140：通过学习网络参数后的学生模型输出所述目标图像的语义分割结果。

具体的，经过知识蒸馏后且经过学习教师模型的网络参数后，学生模型可以由较高的语义分割性能与运行速度，进而可以应用本发明实施例的学生模型对目标图像进行语义分割。

本发明可以从语义分割的模型中结合类内与类间知识，以及提取互关系信息两个角度出发，提供了一种基于互关系知识蒸馏的语义分割方法，使得在知识蒸馏过程中，让教师模型和学生模型间的知识互相充分传递，从而提升学生模型性能。

参照图4，本发明实施例提供了一种基于互关系知识蒸馏的语义分割装置，包括：

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于互关系知识蒸馏的语义分割方法，其特征在于，包括：

通过学习网络参数后的学生模型输出所述目标图像的语义分割结果；

所述根据经过预先标注的标注图像和所述第一中间特征图生成第一前景特征和第一背景特征，根据经过预先标注的标注图像和所述第二中间特征图生成第二前景特征和第二背景特征，包括：

将所述前景掩膜取反得到背景掩膜；

2.根据权利要求1所述的一种基于互关系知识蒸馏的语义分割方法，其特征在于，所述根据所述标注图像确定所述教师模型对应的锚点和所述学生模型对应的锚点，包括：

3.根据权利要求1所述的一种基于互关系知识蒸馏的语义分割方法，其特征在于，所述教师模型与所述学生模型进行知识蒸馏的过程，包括：

4.根据权利要求3所述的一种基于互关系知识蒸馏的语义分割方法，其特征在于，所述根据所述教师模型对应的锚点和所述学生模型对应的锚点、所述余弦相似度以及预设的交叉熵损失函数，训练所述学生模型，包括：

5.根据权利要求1所述的一种基于互关系知识蒸馏的语义分割方法，其特征在于，在所述教师模型与所述学生模型进行知识蒸馏的过程中，不更新所述教师模型的网络参数，仅输出所述教师模型的预测结果作为蒸馏信息。

6.根据权利要求1至5任一项所述的一种基于互关系知识蒸馏的语义分割方法，其特征在于，所述学生模型的网络参数量少于所述教师模型的网络参数量。

7.一种基于互关系知识蒸馏的语义分割装置，其特征在于，包括：

语义分割单元，语义通过学习网络参数后的学生模型输出所述目标图像的语义分割结果；

将所述前景掩膜取反得到背景掩膜；

8.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。