CN114463340B

CN114463340B - 一种边缘信息引导的敏捷型遥感图像语义分割方法

Info

Publication number: CN114463340B
Application number: CN202210021874.XA
Authority: CN
Inventors: 潘少明; 陶玉龙; 种衍文
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2024-04-26
Anticipated expiration: 2042-01-10
Also published as: CN114463340A

Abstract

本发明技术方案提供了一种边缘信息引导的敏捷型遥感图像语义分割方法，采用Pytorch深度学习框架训练，通过主干网络、边缘自蒸馏模块、语义分割分支、边缘检测分支、特征对齐模块的处理来实现遥感图像的分割。本方法具有非常好的延伸拓展性，可根据实际生产需要对本方法中采用的主干网络进行更换。并且考虑到星上等小型物联网设备环境的限制，本框架针对深度神经网络的规模和运行速度进行了优化，便于面向物联网设备的部署和推广，在保证分割精度的情况下实现了模型的快速敏捷型。

Description

一种边缘信息引导的敏捷型遥感图像语义分割方法

技术领域

本发明属于遥感图像分割技术领域，涉及一种遥感图像分割方法，具体涉及一种边缘信息引导的敏捷型遥感图像语义分割方法。

背景技术

近年来，随着卫星和航拍技术的快速发展，高分辨率、高光谱遥感图像的获取难度大大降低。遥感图像分割算法指的是对图像中的每个像素进行预测，是一种像素级别的分类算法，可被广泛应用于土地规划、环境监测和灾害评估等诸多应用场景，具有重大的应用价值。

遥感图像分割是一个具有研究历史的领域，主要经历了基于人工标注的处理方法、基于传统方法的处理方法和基于深度学习的处理方法三个研究历程。

基于人工标注的遥感图像分割算法效率较低，难以对高分辨率、高光谱的遥感图像进行快速有效处理，目前已基本被基于图像处理方法的智能算法替代。

传统的图像分割方法主要是基于颜色、纹理等图像特征手工设计分类器完成图像分析处理，如基于像素级的聚类分割法、利用像素级的阈值分割法、基于像素级的决策树分类法等，这些算法在一定程度上较好的实现了图像分割的需求，但是对手工设计的特征提取器要求较高，且对于数据集的泛化性能较差，难以大规模的应用到背景复杂的通用场景中。

基于深度学习的遥感图像分割方法可对图像进行快速处理，准确解译出相关信息，已成为目前该领域的主流方法。根据设计原理的不同，这些算法可以划分为基于多尺度特征增强方法和上下文增强模型方法两大类。多尺度特征增强方法考虑到图像中多尺度目标对单一尺度感受野特征提取过程带来的挑战进行改善，PSPNet(参考文献Zhao,Hengshuang,et al."Pyramid Scene Parsing Network."IEEE:Computer Vision andPattern Recognition(2017))用一系列池化层对特征图进行重新生成，得到了一系列感受野不同的特征组合。Deeplab系列(Chen,Liangchieh,et al."DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs."IEEE Transactions on Pattern Analysis and MachineIntelligence 40.4(2018):834-848.)将空洞空间金字塔池化(Atrous Spatial PyramidPooling，ASPP)引入到语义分割模型中，借助于空洞卷积的优异性能，这类方法可以在保证特征图分辨率不变的前提下增加感受野，对于语义分割任务而言保证了细节信息的不丢失。考虑到ASPP所运用的并行结构在空间采样上的局限性,DenseASPP(Yang,Maoke,etal."DenseASPP for Semantic Segmentation in Street Scenes."IEEE:ComputerVision and Pattern Recognition(2018):3684-3692.)将图像分类中的优秀结构DenseNet与ASPP进行结合，主干网络的密集跳层连接(Skip Connection)使得模型以很少的参数量实现了特征图的极大丰富化。上下文增强模型方法挖掘像素之间的上下文信息来加强特征图的鲁棒性，CENet(Zhang,Hang,et al."Context Encoding for SemanticSegmentation."IEEE:Computer Vision and Pattern Recognition(2018):7151-7160.)考虑到场景先验信息对于分割结果的重要性，通过上下文编码模块(Context EncodingModule)来捕获全局上下文信息和突出与场景相关联的类别信息。PSANet(Zhao,Hengshuang,et al."PSANet:Point-wise Spatial Attention Network for SceneParsing."european conference on computer vision(2018):270-286.)通过自适应的注意力机制将特征图地每个位置联系起来促进信息传递，解决了神经网络特征信息局部性的缺陷。受Non-Local启发，DANet(Fu,Jun,et al."Dual Attention Network for SceneSegmentation."IEEE:Computer Vision and Pattern Recognition(2019):3146-3154.)在空间和通道两个层面分别进行上下文特征提取，通过局部和全局的上下文信息挖掘来丰富特征图的多样性使得小目标的特征得到加强，从而提升分割性能。然而，此类方法虽然可以有效对全局特征进行空间和通道建模，但是计算量非常庞大，复杂度高，给实际应用带来很多限制。CCNet(Huang,Zilong,et al."CCNet:Criss-Cross Attention for SemanticSegmentation."IEEE:IEEE:Computer Vision and Pattern Recognition(2019).)提出了一个新颖的纵横交叉关注模块，可以以一种更高效的方式从远程依赖中捕获上下文信息。OCRNet(Yuan,Yuhui,Xilin Chen,and Jingdong Wang."Object-ContextualRepresentations for Semantic Segmentation.."IEEE:Computer Vision and PatternRecognition(2019))采用一种由粗到细的方式进行语义分割，结合每一类的类别语义信息给每个像素加权，再和原始的像素特征合并组成最终每个像素的特征表示，在减少冗余计算的同时提升了分割效果。

尽管这些算法已经在图像分割的精度上取得较大进展，但未满足在卫星或者其他小型化物联网设施进行模型部署的需求，所提出的遥感图像分割算法在参数量与推理速度上都应该具备轻量敏捷化，这些算法并没有对遥感图像分割过程的实时性进行较多考量。此外，这些算法没有从图像结构化的角度对目标进行合理建模，在处理细小目标的精度上还存在一定的可提升性。

发明内容

为了解决上述技术问题，本发明充分利用边缘检测任务在对目标进行结构化建模和细节信息捕获上的能力，同时考虑模型自蒸馏策略与特征对齐策略在实现特征相似性中的重要作用，提出一种边缘信息引导的敏捷型图像语义分割方法，在使用轻量化模型(主干网络采用ResNet18)的前提下取得较好的遥感图像分割精度。

本发明所采用的技术方案是：一种边缘信息引导的敏捷型图像语义分割方法，包括以下步骤：

首先构建边缘信息引导的语义分割模型，包括主干网络、边缘自蒸馏模块、边缘检测分支、语义分割分支和特征对齐模块，各模块的处理过程如下；

步骤一，主干网络的特征提取过程，使用ResNet18作为主干网络对输入图像I进行特征提取，生成层次化特征供后续模块使用；

步骤二，边缘自蒸馏模块的边缘预测与自蒸馏过程，融合主干网络提取的层次化特征图进行边缘结果预测，同时利用该模块生成的特征图对主干网络生成的特征图进行自蒸馏；所述边缘自蒸馏模块包括多个卷积块；

步骤三，边缘检测分支预测边缘检测结果，对主干网络生成的特征图进行特征提取之后预测目标边缘；所述边缘检测分支包括一个卷积块和一个卷积层；

步骤四，语义分割分支预测语义分割结果，对主干网络生成的特征图进行特征提取之后预测每个像素的类别，得到语义分割结果图；所述语义分割分支包括一个卷积块和一个卷积层；

步骤五，特征对齐模块对语义分割分支和边缘检测分支生成的特征图进行对齐；所述特征对齐模块包括多个卷积块；

然后采用数据集对构建的边缘信息引导的语义分割模型进行训练，利用训练好的语义分割模型对待分割图像进行语义分割处理。

进一步的，步骤二中边缘自蒸馏模块的具体处理过程如下；

先对主干网络生成的特征图{E₁、E₂、E₃、E₄、E₅}在通道维度上进行拼接融合，特征图拼接融合之后利用卷积块进一步进行特征提取，得到特征图F_cat，卷积块由卷积层、ReLu激活函数和batchnormal组成，随后使用1×1卷积层将特征图F_cat的输出通道数降低为1得到Fedge，采用加权交叉熵损失函数构建特征图Fedge与边缘真值之间的损失函数Edge_loss1；

然后对主干网络生成的特征图{E₁、E₂、E₃、E₄、E₅}后各自添加一个卷积块进行特征提取得到特征图{F₁、F₂、F₃、F₄、F₅}，卷积块由卷积层、ReLu激活函数和batchnormal组成；

利用KL散度来对齐上述生成的特征图F_cat与各个阶段得到的特征图{F₁、F₂、F₃、F₄、F₅}，构建得到KL_loss。

进一步的，步骤三中边缘检测分支的具体处理过程如下；

对于主干网络生成的特征图E₅，边缘检测分支首先通过一个卷积块进行特征提取，得到特征图K₁，紧接着再使用1×1卷积层将特征图转化为尺寸不同的特征图K₂，

其中卷积块由卷积层、ReLu激活函数和batchnormal组成；

利用加权交叉熵损失函数构建K₂与边缘真值之间的差异性，得到损失函数Edge_loss2。

进一步的，步骤四中语义分割分支的具体处理过程如下；

首先利用卷积块对特征图E₅进行特征提取，得到特征图S₁，随后利用1×1卷积层将特征图S₁的通道数降低为N，N表示数据集中的类别数，得到特征图S₂；

所述卷积块由卷积层、ReLu激活函数和batchnormal组成；

利用交叉熵损失函数构建S₂与语义分割真值之间的损失函数Seg_loss。

进一步的，步骤五中语义分割分支的具体处理过程如下；

对于语义分割分支中生成的特征图S₁和边缘检测分支生成的特征图K₁，首先分别通过三个卷积块对特征图进行特征再次提取，分别得到特征图S₃和特征图K₃，其中卷积块由3×3卷积层、ReLu激活函数和batchnormal组成；

最后利用MSE损失函数衡量S₃与K₃之间的差异性，将两者对齐并得到特征对齐损失函数FA_loss。

进一步的，所述边缘信息引导的语义分割模型训练时采用的损失函数如下；

L＝Seg_loss+KL_loss+FA_loss+0.3×(Edge_loss1+Edge_loss2)

其中，Seg_loss表示语义分割分支的损失函数，用于衡量语义分割预测值与真值之间的差异性，KL_loss为由KL散度计算得到的损失函数，用于边缘自蒸馏模块与主干网络特征图之间的对齐，FA_loss为特征图对齐损失函数，用于语义分割分支与边缘检测分支之间的特征图对齐，Edge_loss1与Edge_loss2分别为边缘自蒸馏模块与边缘检测分支的损失函数。

进一步的，KL_loss的具体计算形式如下所示：

本发明是一种应用于遥感图像分割的方法，与现有的技术相比具有以下优点：

(1)本发明利用边缘检测任务来增强模型对目标的结构化建模能力，同时运用模型自监督方式来对主干网络的浅层特征提取过程进行监督，强化浅层网络的特征表征能力；

(2)通过语义分割分支和边缘检测分支之间的特征对齐模块，强化在特征图上采样过程中的细节信息恢复能力。

(3)结合边缘自蒸馏模块、边缘检测分支和语义分割分支，本发明在主干网络采用轻量化ResNet18的前提下取得了较好的分割结果，较现有遥感图像分割算法相比在精度不发生明显下降的前提下实现了实时性与精度之间的更好权衡性。

附图说明

图1是本发明实施例的遥感图像分割模型。

图2是本发明实施例的图像分割结果，其中(a)为原始的输入图像数据；(b)为图像的分割结果。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种边缘信息引导的敏捷型遥感图像语义分割方法，包括如下步骤：

步骤一：主干网络的特征提取过程。使用ResNet18作为主干网络对输入图像I进行特征提取，生成层次化特征供后续模块使用；

步骤二：边缘自蒸馏模块的边缘预测与自蒸馏过程。融合主干网络提取的层次化特征图进行边缘结果预测，同时利用该模块生成的特征图对主干网络生成的特征图进行模型自蒸馏；

步骤三：边缘检测分支预测边缘检测结果。对主干网络生成的特征图进行特征提取之后预测目标边缘；

步骤四：语义分割分支预测语义分割结果。对主干网络生成的特征图进行特征提取之后预测每个像素的类别，得到语义分割结果图；

步骤五：特征对齐模块对语义分割分支和边缘检测分支生成的特征图进行对齐；

下面结合实例和附图，讲解具体的分割流程。

以10000张3×512×512的图像作为训练图像，2000张3×512×512的图像作为测试图像，主要步骤包括：

1.数据集准备和网络超参数：

1.1将10000张按照7:3的比例从中随机选择7000张图像作为训练集，剩余的3000张图像作为验证集用于模型训练过程的验证，为加快模型的训练和测试速度，利用双线性插值将图像下采样为3×128×128。

1.2.把下采样之后的图像转换为以batchsize为12的12×3×128×128规格的张量，准备输入网络模型进行训练，全部数据迭代300次，采用余弦退火学习率下降策略，优化器为Ranger，学习率设置为1×10^-3，训练使用的损失函数如下：

L＝Seg_loss+KL_loss+FA_loss+0.3×(Edge_loss1+Edge_loss2)

2.主干网络的特征提取过程：

为实现模型的敏捷快速运算，在模型主干网络部分采用较为轻量化的ResNet18用于基础的层次化特征提取，阶段一到阶段五生成的特征图可分别表示为{E₁、E₂、E₃、E₄、E₅}。值得注意的是，后续的边缘自蒸馏模块，边缘检测分支与语义分割分支共享主干网络部分，以此来减少不必要的参数量。

3.边缘自蒸馏模块的边缘预测与自蒸馏过程：

3.1.边缘检测结果预测：将主干网络在阶段一到阶段五生成的特征图{E₁、E₂、E₃、E₄、E₅}在通道维度上拼接融合(concatenation)，特征图拼接融合之后利用卷积块进一步进行特征提取，得到尺寸为12×16×128×128的特征图F_cat，卷积块由卷积层、ReLu激活函数和batchnormal组成。随后使用1×1卷积层将特征图Fcat的输出通道数降低为1得到Fedge，采用加权交叉熵损失函数构建特征图Fedge与边缘真值之间的损失函数Edge_loss1，利用非边缘区域与边缘区域的面积之比来降低过多负样本对训练结果带来的不稳定性。

3.2.对主干网络生成的特征图{E₁、E₂、E₃、E₄、E₅}后各自添加一个卷积块进行特征提取得到尺寸为12×16×128×128的特征图{F₁、F₂、F₃、F₄、F₅}，卷积块由卷积层、ReLu激活函数和batchnormal组成。利用KL散度来对齐上述生成的特征图F_cat与各个阶段得到的特征图{F₁、F₂、F₃、F₄、F₅}，构建得到KL_loss，具体形式如下所示：

4.边缘检测分支预测边缘检测结果：

对于主干网络生成的特征图E₅，边缘检测分支首先通过一个卷积块(由卷积层、ReLu激活函数和batchnormal组成)来进行特征提取，得到特征尺寸为12×16×512×512的特征图K₁，紧接着再使用1×1卷积层将特征图转化为尺寸为12×1×512×512的K₂，利用加权交叉熵损失函数构建K₂与边缘真值之间的差异性，得到损失函数Edge_loss2。

5.语义分割分支预测语义分割结果：

语义分割分支首先利用卷积块(由卷积层、ReLu激活函数和batchnormal组成)对特征图E₅进行特征提取，得到尺寸为12×16×512×512的特征图S₁，随后利用1×1卷积层将特征图S₁的通道数降低为8(与数据集中的类别数一致)，得到特征图S₂。利用交叉熵损失函数构建S₂与语义分割真值之间的损失函数Seg_loss。

6.特征对齐过程：

对于语义分割分支中生成的特征图S₁和边缘检测分支生成的特征图K₁，首先分别通过三个卷积块对特征图进行特征再次提取，分别得到尺寸为12×8×512×512的特征图S₃和尺寸为12×8×512×512的特征图K₃，其中卷积块由3×3卷积层、ReLu激活函数和batchnormal组成。最后利用MSE损失函数衡量S₃与K₃之间的差异性，将两者对齐并得到特征对齐损失函数FA_loss。

综合上述方法，本文提出的算法以15.11M的参数量实现81.02％FwIou,较以resnet101为主干网络的结果(参数量为72.32M，FwIou为85.46％)相比，模型精度出现略微下降，但是取得更好的实时性。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于：步骤二中边缘自蒸馏模块的具体处理过程如下；

3.如权利要求1所述的一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于：步骤三中边缘检测分支的具体处理过程如下；

其中卷积块由卷积层、ReLu激活函数和batchnormal组成；

4.如权利要求1所述的一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于：步骤四中语义分割分支的具体处理过程如下；

所述卷积块由卷积层、ReLu激活函数和batchnormal组成；

5.如权利要求1所述的一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于：步骤五中语义分割分支的具体处理过程如下；

6.如权利要求1所述的一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于：所述边缘信息引导的语义分割模型训练时采用的损失函数如下；

L＝Seg_loss+KL_loss+FA_loss+0.3×(Edge_loss1+Edge_loss2)

7.如权利要求2所述的一种边缘信息引导的敏捷型遥感图像语义分割方法，其特征在于：KL_loss的具体计算形式如下所示：