CN116740344A

CN116740344A - 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置

Info

Publication number: CN116740344A
Application number: CN202310604507.7A
Authority: CN
Inventors: 项健健; 刘佳; 熊奇; 邓重九; 陈都
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-12

Abstract

本发明公开了一种基于知识蒸馏的轻量化遥感影像语义分割方法，包括：构建包括一个提取局部空间特征的分支CNN、一个提取全局空间特征的分支Transformer、融合局部空间特征和全局空间特征的特征融合模块以及对融合特征进行解码的解码器的网络；将ResNet50和SegFormer‑B3替换CNN和Transformer，得到教师网络；将ResNet18和SegFormer‑B0替换CNN和Transformer，得到学生网络；构建基于动态温度的融合特征蒸馏模块，来联合训练学生网络和教师网络，动态搜索温度参数，在特征层面使用结构化蒸馏方法，使学生网络在训练期间关注教师网络融合特征中每个通道的特征表示，得到基于知识蒸馏的轻量化遥感影像语义分割模型。使用本发明的方案，在降低遥感影像语义分割精度损失的情况下，实现了模型轻量化。

Description

一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置

技术领域

本发明涉及遥感影像信息处理技术领域，尤其涉及一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置。

背景技术

遥感影像语义分割是指将遥感影像中的每个像素按照其所属的类别进行标注，从而实现对遥感影像中的地物、目标、场景等的识别和分析。遥感影像语义分割是遥感影像理解的基础和关键任务之一，具有广泛的应用价值，例如城市规划、土地利用、环境监测、军事侦察等。

近年来，深度学习技术在遥感影像语义分割领域取得了显著的进展，尤其是基于卷积神经网络CNN的方法。CNN具有强大的特征提取能力，能够从遥感影像中提取丰富的局部空间信息，从而提高语义分割的精度。然而，CNN由于其感受野的限制，在建模长距离的上下文信息存在局限性。

为了克服CNN的局限性，一些研究开始引入Transformer结构增强深度学习模型的特征表示能力。Transformer结构是一种基于自注意力机制的编码器-解码器架构，能够有效处理序列数据，如自然语言处理的文本数据。Transformer结构已经被成功地应用到了计算机视觉领域，如图像分类、目标检测、图像生成等。

然而，将Transformer结构应用于遥感影像语义分割任务还面临一些挑战。一方面，如何充分利用CNN和Transformer的特征提取能力，增强遥感影像语义分割精度是一个关键问题；此外，对于遥感星上在轨处理、无人机机载处理等场景，在存储、计算等资源受限的边缘侧开展遥感影像实时语义分割，模型轻量化也是一个重要的问题。

发明内容

为了解决上述问题，本发明提供了一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置，其中的方法包括以下步骤：

S1、获取遥感影像，并对遥感影像进行预处理，将预处理后的遥感影像划分为训练集和测试集；

S2、构建基于CNN-Transformer特征融合的遥感影像语义分割网络，包括一个用于提取局部空间特征的CNN分支、一个用于提取全局空间特征的Transformer分支、将提取的局部空间特征和全局空间特征进行融合的特征融合模块以及对融合的特征进行解码的解码器FPNHead；

S3、将ResNet50和SegFormer-B3替换S2中CNN和Transformer，得到教师网络；

S4、并利用S1中训练集对所述教师网络进行训练，得到遥感影像语义分割模型，利用S1中的测试集对所述模型的精度进行评估；

S5、将ResNet18和SegFormer-B0替换S2中CNN和Transformer，得到学生网络；

S6、构建基于动态温度的融合特征蒸馏模块，利用S1中的训练集对学生网络进行训练，在训练时动态搜索温度参数，在特征层面使用结构化蒸馏方法，使学生网络在训练期间关注教师网络融合特征中通道维度的特征表示，得到基于知识蒸馏的轻量化遥感影像语义分割模型；

S7、基于S1中的测试集对基于知识蒸馏的轻量化遥感影像语义分割模型进行精度评估，利用基于知识蒸馏的轻量化遥感影像语义分割模型对新采集的遥感影像进行快速语义分割。

本发明还提出一种基于知识蒸馏的轻量化遥感影像语义分割装置，包括：

处理器；

存储器，其上存储有可在所述处理器上运行的计算机程序；

其中，所述计算机程序被所述处理器执行时实现一种基于知识蒸馏的轻量化遥感影像语义分割方法。

本发明提供的技术方案带来的有益效果是：

本发明将训练样本输入到教师网络和学生网络中，得到各自的编码特征和语义分割结果；通过梯度获取知识蒸馏的温度参数；计算教师网络和学生网络在不同尺度上输出的编码特征之间的通道损失、计算教师网络和学生网络输出的语义分割结果间的KL散度、以及真实值和学生网络输出的语义分割结果间的交叉熵损失函数，将三者加权相加得到一个总的损失函数。根据总的损失函数对学生网络进行反向传播和参数更新，从而实现知识蒸馏。使用本发明的方案，在降低遥感影像语义分割精度损失的情况下，实现了模型轻量化。

附图说明

图1是本发明实施一种基于知识蒸馏的轻量化遥感影像语义分割方法的流程图；

图2是本发明实施例用于遥感影像语义分割的CNN-Transformer特征融合网络的结构图；

图3是本发明实施例Transformer Block的结构图；

图4是本发明实施例Bottlenect的结构图；

图5是本发明实施例特征融合模块的结构图；

图6是本发明实施例教师网络的网络结构图；

图7是本发明实施例学生网络的网络结构图；

图8是本发明实施例基于知识蒸馏的轻量化遥感影像语义分割方法的示意图；

图9是本发明实施例基于动态温度的融合特征蒸馏模块结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

本实施例的一种基于知识蒸馏的轻量化遥感影像语义分割方法的流程图如图1，具体包括以下步骤：

S1：获取遥感影像，对遥感影像进行旋转、放缩、翻转、随机光度失真等图像增强操作，得到数据集，并将其划分为训练集和测试集。

S2、构建基于CNN-Transformer特征融合的遥感影像语义分割网络，该网络由一个编码器和一个解码器组成。

编码器包括基于Transformer和CNN的双分支全局-局部特征提取结构，以及一个特征融合模块。双分支全局-局部特征提取结构由两个子网络组成，分别是基于Transformer的全局特征提取子网络和基于CNN的局部特征提取子网络。

进一步的实施例中：

参考图2，Transformer子网络使用了多层Transformer编码器从输入遥感影像中提取长距离的上下文信息，多层次Transformer编码器由用于将输入图像分割成分辨率为4×4的补丁编码模块(Patch Embedding)和四个Transformer块(Transformer Block)组成。数据集输入首先通过一个Patch Embedding，然后通过第1个Transformer Block得到第1个全局特征T1，再依次通过第2个Transformer Block得到第2个全局特征T2，第3个Transformer Block得到第3个全局特征T3，第4个Transformer Block得到第4个全局特征T4。经过4个Transformer块的特征提取，最终获得4个分辨率为[H/4×W/4,H/8×W/8,H/16×W/16,H/32×W/32]的特征图。

每个Transformer块利用自注意力机制提取输入特征的深层全局语义特征，将特征图分辨率降低到输入Transformer块特征的1/2，每个Transformer块中包含多个自注意力计算模块(Self-Attention Calculation)和混合前馈神经网络(Mix-FFN)，以及一个补丁合并模块(Patch Merging)。参考图3，Transformer Block由N个由1个Self-AttentionCalculation自注意力计算模块和1个MIX-FNN相连构成的模块，后面连接1个PatchMerging组成。

参考图2，CNN子网络使用了多层CNN编码器从输入遥感影像中提取局部空间信息。输入依次通过1个Stem、1个Maxpool、第1组Bottlenect，得到第1个局部空间特征C1、第2组Bottlenect，得到第2个局部空间特征C2、第3组Bottlenect，得到第3个局部空间特征C3、第4组Bottlenect，得到第4个局部空间特征C4。每组Bottlenect由N个Bottlenect组成。

参考图4，Bottlenect由两个分支的输出相加后，连接一个ReLU构成。两个分支的输入相同。其中一个分支由1个Conv1×1和1个Norm组成；另一个分支由2个Conv1×1，1个Conv3×3，2个Norm&ReLU，1个Norm组成。输入依次通过第1个Conv1×1、第1个Norm&ReLU、Conv3×3、第2个Norm&ReLU、第2个Conv1×1、Norm后输出。Norm&ReLU表示归一化函数和激活函数的组合。

ResNet可以替换CNN-Transformer，ResNet由几个称为瓶颈(Bottlenect)的残差块(residual blocks)组成，其中包含一个残差结构，残差结构利用短连接(shortcutconnection)将特征从浅层转移到深层，能够解决深度CNN网络梯度消失问题，公式为H(x)＝F(x)+x，其中F(x)为经过卷积层和激活函数后得到的输出。根据第1-4层瓶颈个数组合，ResNet可分为ResNet18、ResNet34、ResNet50、ResNet101和ResNet152，例如ResNet50第1-4层的瓶颈数为[3,4,6,3]。

参考图2，特征融合模块则将不同尺度上提取的特征进行融合，从而得到具有全局-局部信息的融合特征，基于CNN-Transformer特征融合的遥感影像语义分割网络有4个特征融合模块。第1个特征融合模块融合特征C1和T1形成融合特征F1，第2个特征融合模块融合特征C2和T2形成融合特征F2，第3个特征融合模块融合特征C3和T3形成融合特征F3，第4个特征融合模块融合特征C4和T4形成融合特征F4。

参考图5，图5是本发明中用于遥感影像语义分割的特征融合模块的结构图。局部空间特征和全局特征是特征融合模块的输入，局部空间特征和全局特征首先分别通过各自的Conv1×1，混合后依次通过共同的Concat、第1个Conv1×1，Norm&Act、第2个Conv1×1，与第二支路的输出相加后输出。第二支路的输入是局部空间特征和全局特征的混合，第二支路由1个Concat和1个Conv1×1组成，第二支路的输入通过Concat和Conv1×1后输出。

多尺度特征融合模块设计用于融合来自CNN分支的局部特征和来自Transformer分支的全局特征，能够高效灵活融合不同分辨率和通道数的特征。特征融合模块中，CNN分支和Transformer分支各自提取的特征(命名为C和T)首先分别通过卷积核大小为1×1的卷积网络来调整维度，然后将C和T进行级联合并。在这个阶段，通过级联合并的特征被分离到第三个维度。合并后的特征被送入卷积核大小为1×1的卷积网络，然后进行归一化和激活。最后，来自CNN和Transformer分支的特征通过一层卷积核大小为1×1卷积层融合。此外，特征融合模块还设计了一个残差结构来加速模型的收敛。整个网络中共有4个特征融合模块，分别接受空间分辨率为H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32的CNN、Transformer特征。

参考图2，解码器使用了来自特征金字塔网络的FPNhead作为解码头，将编码器输出的多尺度融合特征进行上采样和进一步融合，从而得到与输入影像相同尺寸的语义分割结果。其中F1输入一个Conv3×3&ReLU后输出，F2输入1个Scale Head后输出，F3输入2个Scale Head后输出，F4输入3个Scale Head后输出，将四个输出进行叠加，输入到一个Conv1×1后输出。其中Scale Head由1个Conv3×3、1个ReLU、1个上采样模块组成，Conv3×3、ReLU、上采样模块依次相连。Conv3×3&ReLU表示3×3卷积和激活函数的组合。

S3、将ResNet50和SegFormer-B3替换S2中CNN和Transformer，得到教师网络。教师网络的网络结构图参考图6。

S4、并利用S1中训练集对所述教师网络进行训练，得到遥感影像语义分割模型，利用S1中的测试集对所述模型的精度进行评估。

步骤S4的训练损失函数为：

其中，N是遥感影像中的像素数，M是类别数量，y_n,m是第n个像素、第m类的真实类别标签，p_n,m是遥感影像语义分割模型预测的n个像素是第m类的概率，ln表示自然对数运算。

S5、将ResNet18和SegFormer-B0替换S2中CNN和Transformer，得到学生网络。学生网络的网络结构图参考图7。

S6、构建基于动态温度的融合特征蒸馏模块，利用S1中的训练集对学生网络的训练。该模块能够在训练时动态搜索温度参数，在特征层面使用结构化蒸馏方法，使学生网络在训练期间关注教师网络融合特征中通道维度的特征表示，得到基于知识蒸馏的轻量化遥感影像语义分割模型。

图8是本发明基于知识蒸馏的轻量化遥感影像语义分割方法的示意图，其中包含四个部分，即教师网络、学生网络、损失函数以及基于动态温度的融合特征蒸馏模块。F₁ ^T、F₂ ^T、F₃ ^T、F₄ ^T分别表示由教师网络的编码器提取的融合特征，由编码器的CNN分支(ResNet50)和Transformer分支(SegFormer-B3)各自提取的特征经过特征融合后得到。同样，F₁ ^S、F₂ ^S、F₃ ^S、F₄ ^S由学生网络编码器中的CNN分支(ResNet18)和Transformer分支(SegFormer-B0)各自提取的特征经过特征融合后得到。M^T和M^S分别表示教师网络和学生网络的融合特征经过特征解码器解码后输出的每个像素的分类概率分布，其维度为H×W×N。其中，(H,W)表示图片的分辨率，N是语义分割任务的类别数。虚线部分为反向传播过程。

图9是基于动态温度的融合特征蒸馏模块结构图。该模块可以将教师模型中的特征层面知识高效地迁移到学生模型中，从而更好地利用丰富的多尺度特征，提高学生模型的分割准确性和鲁棒性。本发明设计的基于动态温度的融合特征蒸馏模块包含两个组件：动态温度生成模块与基于特征通道的知识蒸馏损失函数。

动态温度的核心是将知识蒸馏中的超参数T设置为可以学习的网络参数θ_temp，训练过程中通过逐渐加大学生模型与教师模型之间的蒸馏损失，从而控制学生模型的学习难度。其优化目标为：

其中，f^t(x；θ_tea)表示教师网络参数为θ_tea、输入为x时的输出概率分布；f^s(x；θ_stu)表示学生网络参数为θ_stu、输入为x时的输出概率分布，y是真实类别标签。

应用交替算法，即固定一组变量并求解另一组变量来求解上述公式，可以将其转换为：

上述的优化过程可以通过学习率为μ的随机梯度下降算法(SGD)进行，其公式为：

在具体实现时，上述动态蒸馏通过非参数梯度反转层(non-parametric GradientReversal Layer,GRL)实现，如附图8中的虚线所示。

基于特征通道的知识蒸馏损失函数可以表示为：

其中，L_dffd表示基于动态温度的融合特征蒸馏模块中计算的特征损失，F_i ^T,i＝1,2,3,4表示教师网络第i个特征融合模块输出的特征，F_i ^S,i＝1,2,3,4表示学生网络第i个特征融合模块输出的特征，H表示特征图高度，W表示特征图宽度，c＝1,2,...,C表示特征图的通道数，j＝1，2,...,H·W表示像素数，为教师网络第i个特征融合模块输出的在第j个像素、第c通道的特征，/>为学生网络第i个特征融合模块输出的在第j个像素、第c通道的特征，T＝θ_temp，是蒸馏温度参数，Softmax是激活函数，t_i表示教师网络的输出概率分布，s_i表示学生网络的输出概率分布，y_i表示真实类别标签。

综上所述，本发明的知识蒸馏过程包括以下步骤：

(1)对于每个训练样本，将其输入到教师网络和学生网络中，得到各自的编码特征和语义分割结果。

(2)通过梯度获取知识蒸馏的温度参数θ_temp。

(3)计算教师网络和学生网络在不同尺度上输出的编码特征之间的通道损失L_dffd。

(4)计算教师网络和学生网络输出的语义分割结果之间的KL散度损失函数L_kl，以及真实值和学生网络输出的语义分割结果之间的交叉熵损失函数L_ce，计算公式分别为：

L_ce＝-y_iln(s_i)

其中，T是蒸馏温度参数，Softmax是激活函数，t_i表示教师网络的输出概率分布，s_i表示学生网络的输出概率分布，y_i表示真实类别标签。

(5)将L_dffd、L_kl和L_ce三者加权相加得到一个总损失函数L＝αL_dffd+βL_kl+γL_ce，其中，α、β、γ分别是三部分特征的权重，是手动调整的超参数。根据总的损失函数L对学生网络进行反向传播和参数更新，从而实现知识蒸馏。重复步骤(1)至步骤(4)，直到学生网络收敛，最终得到训练后的轻量化后的模型。

S7、基于S1中的测试集对训练后的基于知识蒸馏的轻量化遥感影像语义分割模型进行精度评估，利用基于知识蒸馏的轻量化遥感影像语义分割模型对新采集的遥感影像进行快速语义分割。

实施例中还包括一种基于知识蒸馏的轻量化遥感影像语义分割装置，包括：

处理器；

存储器，其上存储有可在所述处理器上运行的计算机程序；

其中，计算机程序被处理器执行时实现一种基于知识蒸馏的轻量化遥感影像语义分割方法。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，包括以下步骤：

S2、构建基于CNN-Transformer特征融合的遥感影像语义分割网络，包括一个用于提取局部空间特征的分支CNN、一个用于提取全局空间特征的分支Transformer、将提取的局部空间特征和全局空间特征进行融合的特征融合模块以及对融合的特征进行解码的解码器FPNHead；

S6、构建基于动态温度的融合特征蒸馏模块，利用S1中的训练集对学生网络进行训练，基于遥感影像语义分割模型，在训练时动态搜索温度参数，在特征层面使用结构化蒸馏方法，使学生网络在训练期间关注教师网络融合特征中通道维度的特征表示，得到基于知识蒸馏的轻量化遥感影像语义分割模型；

2.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，步骤S1中对遥感影像进行预处理包括：对遥感影像进行旋转、放缩、翻转、随机光度失真。

3.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，教师网络和学生网络的特征融合模块数量均为4个。

4.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，步骤S4的训练损失函数为：

5.根据权利要求1所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，步骤S6中的训练损失函数为：

L＝αL_dffd+βL_kl+γL_ce

其中，α、β、γ分别是L_dffd、L_kl、L_ce的权重，为手动调整的超参数，L_dffd表示基于动态温度的融合特征蒸馏模块中计算的特征损失，用于衡量融合特征之间的通道间相似性，L_kl表示KL散度损失函数，用于衡量学生网络与教师网络输出的概率分布之间的差异性，L_ce是学生网络的输出概率分布与真实类别标签的交叉熵损失；

根据总的损失函数L对学生网络进行反向传播和参数更新，实现知识蒸馏，直到学生网络收敛，最终得到训练后的基于知识蒸馏的轻量化遥感影像语义分割模型。

6.根据权利要求5所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，步骤S6中动态温度是将知识蒸馏中的超参数T设置为可以学习的网络参数θ_temp，训练过程中通过逐渐加大学生网络与教师网络之间的蒸馏损失，从而控制学生网络的学习难度，优化目标为：

其中，f^t(x；θ_tea)表示教师网络参数为θ_tea、输入为x时的输出概率分布；f^s(x；θ_stu)表示学生网络参数为θ_stu、输入为x时的输出概率分布，y是真实类别标签；

通过学习率为μ的随机梯度下降算法对θ_temp进行更新：

其中，u为学习率。

7.根据权利要求6所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法，其特征在于，L_dffd、L_kl、L_ce具体表示为：

L_ce＝-y_iln(s_i)

其中，F_i ^T,i＝1,2,3,4表示教师网络第i个特征融合模块输出的特征，F_i ^S,i＝1,2,3,4表示学生网络第i个特征融合模块输出的特征，H表示特征图高度，W表示特征图宽度，c＝1,2,...,C表示特征图的通道数，j＝1，2,...,H·W表示像素数，为教师网络第i个特征融合模块输出的在第j个像素、第c通道的特征，/>为学生网络第i个特征融合模块输出的在第j个像素、第c通道的特征，T＝θ_temp，是蒸馏温度参数，Softmax是激活函数，t_i表示教师网络的输出概率分布，s_i表示学生网络的输出概率分布，y_i表示真实类别标签。

8.一种基于知识蒸馏的轻量化遥感影像语义分割装置，其特征在于，所述装置包括：

处理器；

存储器，其上存储有可在所述处理器上运行的计算机程序；

其中，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的一种基于知识蒸馏的轻量化遥感影像语义分割方法。