CN116580195A

CN116580195A - 基于ConvNeXt卷积的遥感图像语义分割方法及系统

Info

Publication number: CN116580195A
Application number: CN202310491829.5A
Authority: CN
Inventors: 张瑜; 李贞豪; 常克尧; 张友梅; 刘丽霞; 李彬; 李博阳; 张明亮
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-11

Abstract

本发明提出了基于ConvNeXt卷积的遥感图像语义分割方法及系统，涉及计算机视觉领域，获取遥感图像并进行扩充处理，得到训练数据集；基于训练数据集，对基于ConvNeXt构建的语义分割模型进行训练；获取待分割的遥感图像，利用训练好的语义分割模型进行语义分割，得到分割结果；语义分割模型基于特征提取融合模块得到融合后的特征，特征提取融合模块包括并行特征提取模块和注意力特征融合模块，并行特征提取模块由ConvNext模块和ResNet模块组成，进行全局特征和局部特征的并行提取，注意力特征融合模块使用注意力机制来对全局特征和局部特征进行融合；本发明构建以ConvNext模块为基础的U型网络结构，用于对遥感图像进行语义分割，解决遥感图像分辨率较大、数据分布不平衡的问题。

Description

基于ConvNeXt卷积的遥感图像语义分割方法及系统

技术领域

本发明属于计算机视觉领域，尤其涉及基于ConvNeXt卷积的遥感图像语义分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

遥感图像的语义分割(Remote Sensing Image Semantic Segmentation)是处理遥感图像的重要手段，随着航空摄影、航空扫描、微波雷达技术的发展，对处理遥感图像的需求也日渐增加。遥感图像的语义分割可以更好地服务于土地覆盖监测，例如，湿地资源监测，提取湿地边界进行湿地分类；森林覆盖监测，评估森林资源和生态状况变化，草地覆盖监测，定量化草地分类等。

遥感图像目标多且排列密集，同类目标尺寸变化范围很大，颜色纹理差异较大，导致一般的分割算法很难取得令人满意的效果，同时由于其光谱分辨率的不断提高，分割模型的计算量也大大增加，传统的卷积模型很难再取得较好的效果，需要在模型结构上进行改进。

发明内容

为克服上述现有技术的不足，本发明提供了基于ConvNeXt卷积的遥感图像语义分割方法及系统，构建以ConvNext模块为基础的U型网络结构(ConvNeXt Embedding U-NetNetwork，CE-UNet)，用于对遥感图像进行语义分割，解决遥感图像分辨率较大、数据分布不平衡的问题。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于ConvNeXt卷积的遥感图像语义分割方法；

基于ConvNeXt卷积的遥感图像语义分割方法，包括：

获取遥感图像，并进行扩充处理，得到训练数据集；

基于训练数据集，对基于ConvNeXt构建的语义分割模型进行训练；

获取待分割的遥感图像，利用训练好的语义分割模型进行语义分割，得到分割结果；

其中，所述语义分割模型，基于特征提取融合模块得到融合后的特征，所述特征提取融合模块，包括并行特征提取模块和注意力特征融合模块，所述并行特征提取模块，由ConvNext模块和ResNet模块组成，进行全局特征和局部特征的并行提取；所述注意力特征融合模块，使用注意力机制来对全局特征和局部特征进行融合。

进一步的，所述扩充处理，具体为：对遥感图像进行随机缩放、随机裁剪，之后进行旋转和标准化操作，生成更多的训练样本，组成训练数据集。

进一步的，所述语义分割模型的整体架构为U-Net架构，左侧进行下采样，右侧进行上采样；在下采样和上采样之间使用跳跃连接，将尺寸相同的图像通过跳跃连接，弥补信息损失。

进一步的，所述语义分割模型，还包括DConv模块和UConv模块；

所述DConv模块，利用偶数卷积核进行下采样降低图像的分辨率；

所述UConv模块，利用偶数卷积核进行上采样恢复图像的分辨率。

进一步的，在所述并行特征提取模块中，首先将输入的图像通过Split操作进行通道数上的裁剪，一半通道数的图像通过ConvNeXt模块提取全局特征，另一半通道数的图像通过ResNet模块提取局部特征。

进一步的，所述ConvNeXt模块的具体操作为：

对输入的图像进行大卷积，然后是归一化操作和一个1×1的卷积，之后利用一个GELU的激活函数对图像进行处理，随后再使用一个1×1卷积进行降维处理，最后利用SkipConnected操作使输入的图像和降维处理后的图像相加，得到全局特征。

进一步的，利用pytorch_lighting库来对所述语义分割模型进行训练，得到模型的最优参数。

本发明第二方面提供了基于ConvNeXt卷积的遥感图像语义分割系统。

基于ConvNeXt卷积的遥感图像语义分割系统，包括数据扩充模块、模型训练模块和语义分割模块：

数据扩充模块，被配置为：获取遥感图像，并进行扩充处理，得到训练数据集；

模型训练模块，被配置为：基于训练数据集，对基于ConvNeXt构建的语义分割模型进行训练；

语义分割模块，被配置为：获取待分割的遥感图像，利用训练好的语义分割模型进行语义分割，得到分割结果；

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于ConvNeXt卷积的遥感图像语义分割方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于ConvNeXt卷积的遥感图像语义分割方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明提供的基于ConvNeXt卷积的遥感图像语义分割方法及系统，构建以ConvNext模块为基础的U型网络结构(ConvNeXt Embedding U-Net Network，CE-UNet)，用于对遥感图像进行语义分割，解决遥感图像分辨率较大、数据分布不平衡的问题。

本发明中使用ConvNeXt模块替代Transformer来进行全局特征采样，鉴于Transformer的注意力机制随着图像尺寸的增大，计算量以指数次方的倍数增长的问题，使用ConvNeXt模块既能起到替代的作用，又能较大幅度地降低计算量。

本发明中设计了并行特征提取结构，通过对通道数进行Split操作，利用ResNet模块的局部特征提取能力和ConvNeXt模块的全局提取特征能力，使网络能够同时得到全局信息和局部信息，之后利用提出的AFM模块对特征信息进行融合处理，有效地提高了模型的分割精度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例语义分割模型的结构图。

图3为第一个实施例特征提取融合模块的结构图。

图4为第一个实施例ConvNeXt模块的结构图。

图5为第一个实施例ResNet模块的结构图。

图6为第一个实施例注意力特征融合模块的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

传统的CNN网络主要通过卷积的局部信息提取能力来处理图像以实现分类、检测和分割，由于遥感图像的图像分辨率很大，因此只提取局部信息来进行分割的效果较差；ViT的出现正式把Transformer引入了视觉领域，成为提取图像全局信息的重要方法；但是，基于Transformer的网络需要对大量训练集进行学习，而遥感图像的训练集本身不易获取，这显然对于训练网络不太友好，那么能不能考虑改进传统卷积模块使其具有良好的全局信息提取能力呢？就在各种Transformer网络霸榜的时候，ConvNext给出了上述问题的肯定答案，使用大卷积核也可以取得不输Transformer的全局信息提取能力，同时可以大幅减少计算量和对海量训练数据的要求。

有了这样的思路，本发明设计了一个并行特征提取模块(Parallel FeatureExtraction Module，PFE)，同时进行全局信息提取和局部信息提取从而使网络能够学习到全局-局部特征，集合两家之长，使网络的学习效果更加优异；为了更进一步加强网络的信息处理能力，本发明设计了一个注意力特征融合模块(Attention Fusion Module，AFM)，通过使用注意力机制来对局部信息和全局信息进行融合，使特征充分融合，达到成功提取被遮挡物体的新效果，例如，被树木遮挡的汽车，提升了模型精度；同时设计了一个DConv的下采样模块和UConv的上采样模块，大大降低了计算量，也能防止过拟合的发生。

实施例一

本实施例公开了基于ConvNeXt卷积的遥感图像语义分割方法；

如图1所示，基于ConvNeXt卷积的遥感图像语义分割方法，包括：

步骤S1：获取遥感图像，并进行扩充处理，得到训练数据集。

对获取的遥感图像的每一个像素进行标签的人工标注，得到标注好的标签数据集。

由于遥感图像分辨率和尺寸过高，需要对数据进行裁剪，将图像都裁剪成相同大小的尺寸；由于遥感图像的数据集普遍较少，为了得到更多的图片供予模型学习，因此需要对遥感图像分别采用随机缩放、随即裁剪对图像进行数据扩充。

具体地，图像在[0.5，0.75，1.0，1.25，1.5]中随机选择一个数值进行缩放处理，之后将图像通过随机裁剪，将图像裁剪到255×255；统一图像的尺寸后对图像以0.5的概率进行旋转处理，旋转90°后，再进行标准化处理，生成更多的训练样本，解决遥感图像的训练集不易获取的问题。

扩充的数据组成数据训练集，并且按照预设比例划分训练集、验证集与测试集，训练集用于模型参数的训练，验证集用来调试参数，测试集用于测试模型的精度，三种数据集没有交叉，可以客观地评价模型的识别效果。

步骤S2：基于训练数据集，对基于ConvNeXt构建的语义分割模型进行训练、验证和测试。

语义分割模型，是一种以ConvNext模块为基础的U-Net网络结构(ConvNeXtEmbedding U-Net Network，CE-UNet)；U-Net由编码器(Encoder)和解码器(Decoder)组成；左侧的编码器(Encoder)进行下采样，右侧的解码器(Decoder)进行上采样；首先将原始图片(Raw Image，X_r)传入神经网络进行整体的特征提取和改变图片的通道数目，之后传入Encoder-Decoder结构中；Encoder用于提取特征，Decoder在融合高级语义和低级空间信息的同时，尽可能精细地恢复图像分辨率；由于上采样并不能完全恢复成原图像，因此会造成信息损失，为了减少信息损失，U-Net使用跳跃连接，将尺寸相同的图像通过跳跃连接，利用解码器通过跳跃连接(Skip Connection)来学习相应编码阶段的空间相关性，从而保留各个阶段采集特征后的图像，使网络学到不同阶段的融合特征，弥补信息损失。U-Net网络能够良好地解决数据分布不均衡以及图像细节信息难以提取等问题，具有较高的采集能力以及较强的鲁棒性。

图2是语义分割模型的结构图，如图2所示，左侧的编码器(Encoder)遵循卷积网络的典型架构，包括一个3×3卷积、重复使用四个特征提取融合模块和一个DConv模块的组合三次，在每个下采样步骤中，将特征通道的数量加倍；而右侧的解码器(Decoder)，每一步都包括特征映射的上采样，结构上包括重复使用四个特征提取融合模块和一个UConv模块的组合三次、四个特征提取与融合模块、一个3x3卷积、一个1×1的卷积。

基于上述结构，语义分割模型的处理流程为：

输入的原始图像(Raw Image，X_r)的大小为C×H×W，其中，C为通道数，H为图像的高，W为图像的宽。

第一步，通过一个3×3的卷积，增加原始图像的通道数，从而增加图像的非线性，提高模型的表达能力。

第二步，连续传入四个特征提取融合模块，进行特征通道的数量加倍，之后，将结果传入DConv模块，利用2×2大小的偶数卷积核对图像进行下采样操作，降低图像的分辨率，然后再重复执行本步骤两次。

第三步，将输出的特征图像再经过四个特征提取融合模块，将结果传入UConv模块，利用2×2大小的偶数卷积核进行上采样操作，来恢复图像的分辨率，从而进一步减小了计算量的同时还提升了网络的稳定性，然后再重复执行本步骤两次。

第四步将输出的特征图像经过四个特征提取融合模块，之后将结果传入3×3的卷积，恢复与原图像分辨率和通道数一样的图像。

最后传入1×1的卷积作为分割头，分割出目标图像。

图3是特征提取融合模块的结构图，如图3所示，特征提取融合模块主要由ConvNext模块和ResNet模块组成的并行特征提取模块(Parallel Feature ExtractionModule,PFE)和注意力特征融合模块(Attention Feature Fusion Module，AFM)构成，具体处理流程为：

首先，对传入的特征图像进行1×1卷积操作改变通道数。

然后，利用split操作，将改变通道数后的特征图像变成两个0.5×C×H×W的图像，分别传入ConvNeXt模块和ResNet模块中进行全局特征提取和局部特征提取，输出的图像特征图的尺寸不发生变化，输入特征图的尺寸大小和输出特征图的尺寸大小一致，均为0.5×C×H×W。

之后，将输出的全局特征和局部特征传入AFM模块，进行融合处理，利用注意力机制充分的进行两种特征图的融合，相比于简单的进行concat操作，效果有大幅的提升，最大程度地融合全局信息和局部信息。

最后，经过AFM模块后的图像再与特征提取融合模块的第一个1×1卷积后的特征图像相加，再进行1×1卷积操作改变通道数后输出特征图像。

并行特征提取模块，通过Split操作进行通道数上的裁剪，将图像的通道数一分为二，分别传入ConvNeXt模块和ResNet模块中，其中，ConvNeXt模块采用大的卷积核采集图像的全局信息，ResNet模块采用小的卷积核采集图像的局部信息，从而使分类结果更加精确；同时并行使用ResNet模块和ConvNeXt模块相较于使用单一的ResNet网络或ConvNeXt网络对图像进行特征提取，效果有极大的提升。

图4是ConvNeXt模块的结构图，如图4所示，ConvNeXt模块，是对比着SwinTransformer进行设计的，将图像通过一个7×7大小的大卷积核，对照于Swin Transformer的7×7的窗口，由于Swin Transformer的激活函数使用了GELU激活函数，因此ConvNeXt也使用了GELU函数进行对标，在相同的情况下，ConvNeXt能够大量的减少计算量；通过大卷积后经过归一化操作，再经历一个1×1的卷积，输出的图像的大小变为2×C×H×W；之后利用一个GELU的激活函数对图像进行处理，随后再使用一个1×1卷积进行降维处理，使输入的图像大小和输出保持一致，再利用Skip Connected操作使输入和经过处理后的图像相加，减少因为卷积造成的信息损失，ConvNeXt模块输出图像的大小为C×H×W。

图5是ConvNeXt模块的结构图，如图5所示，ResNet模块，利用小的卷积操作，有利于采集到图像的局部信息。首先要通过一个1×1卷积减小通道数，再利用3×3的卷积提取特征信息，之后利用1×1卷积来还原通道数，最后加入了跳跃连接来减少由于卷积操作造成的信息损失，使模型同时获取局部信息和全局信息，增强网络对于信息的捕捉能力。

注意力特征融合模块(AFM)，首先将局部特征和全局特征进行简单的通道连接，之后使用卷积操作进行特征提取；然后进行批归一化处理，使得数据不会因为计算量过大导致网络性能不稳定，之后使用激活函数。之后，将处理好的图像分别传入三个路径，其中，两个路径进行下采样操作，然后对通道进行还原，通过reshape后进行注意力机制的计算，从而使提取到的全局特征和局部特征充分考虑像素之间的相关性，使特征融合的效果更好，提高了语义分割的精度。

图6是注意力特征融合模块的结构图，如图6所示，具体的，首先将输入的两个特征进行简单的concat拼接操作，之后再进行ConvBNReLU操作，具体公式为：

ConvBNReLU＝ReLU(BN(Conv(x)))

其中，x表示经过concat拼接后的特征图，经过上述操作后分为三个路径，一个进行卷积Conv操作生成x_q，其他两个先经过Adaptive Average Pooling操作再进行reshape操作，最后分别进行Linear层处理，得到x_k、x_v，最后经过如下操作得到Output：

Output＝SOFTMAX(x_q×x_k)×x_v

输出的Output的图像的尺寸大小为C×H×W，将全局特征和局部特征充分进行了融合，提高了精度。

DConv模块和UConv模块分别利用偶数卷积核，减少计算量，并且避免了由于网络层数过深导致的梯度消失或者梯度爆炸等问题。

将通过编码器和解码器之后的图像，通过一个语义分割头，即1×1的卷积，将图像变成语义分割图像。

消融实验

通过消融实验证明本发明所构造的模型的有效性，实验数据采用Vaihingen数据集。

Vaihingen：Vaihingen数据集由33个非常精细的、空间平均分辨率为24.94×2064像素的TOP图像块组成；每个TOP图像块具有三个多光谱波段(近红外、红色、绿色)以及数字表面模型(DSM)和具有9cm地面采样距离(GSD)的表面模型(NDSM)；这个数据集涉及五个前景类(不透水表面、建筑物、低植被、树木、汽车)和一个背景类别(杂乱)。在实验中，只使用了TOP图像块，没有DSM和NDSM；使用了ID：2、4、6、8、10、12、14、16、20、22、24、27、29，31、33、35、38用于测试，ID：30用于验证，其余15用于训练的图像。

消融实验结果分析：

本实验中只进行两组对照实验，一组在没有使用AFM模块的情况下的作为基础框架，另一组使用AFM模块来进一步进行特征融合提高精度，本实验使用了三个评估指标，分别为F1、mIoU和OA，三者的计算方法如下：

其中，TP_k、FP_k、TN_k和FN_k分别代表真阳性、假阳性、真阴性和假阴性，分别针对特定的对象索引为类k，是为所有类别计算的包括背景类，消融实验结果如表1所示。

表1消融实验结果

Method	F1	mIoU	OA
				Baseline	89.07％	80.51％	89.45％
Baseline+AFM	90.06％	82.12％	90.59％

通过分析消融实验结果发现，当加入注意力特征融合模块后，OA、mIoU和F1都有不同程度的提升，而且加入注意力特征融合模块后，F1的精度提高了1.01％，mIoU提高了1.61％，OA提高了1.14％；上述实验表明，本发明所构造的模型对最终精度的提高有较大的贡献，上述改进都是有效的。

实施例二

本实施例公开了基于ConvNeXt卷积的遥感图像语义分割系统；

其中，所述语义分割模型，基于并行特征提取模块和注意力特征融合模块组成的特征提取融合模块，得到融合后的特征，所述并行特征提取模块，由ConvNext模块和ResNet模块组成，进行全局特征和局部特征的并行提取；所述注意力特征融合模块，使用注意力机制来对全局特征和局部特征进行融合。

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的基于ConvNeXt卷积的遥感图像语义分割方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于ConvNeXt卷积的遥感图像语义分割方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，包括：

获取遥感图像，并进行扩充处理，得到训练数据集；

2.如权利要求1所述的基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，所述扩充处理，具体为：对遥感图像进行随机缩放、随机裁剪，之后进行旋转和标准化操作，生成更多的训练样本，组成训练数据集。

3.如权利要求1所述的基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，所述语义分割模型的整体架构为U-Net架构，左侧进行下采样，右侧进行上采样；在下采样和上采样之间使用跳跃连接，将尺寸相同的图像通过跳跃连接，弥补信息损失。

4.如权利要求1所述的基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，所述语义分割模型，还包括DConv模块和UConv模块；

5.如权利要求1所述的基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，在所述并行特征提取模块中，首先将输入的图像通过Split操作进行通道数上的裁剪，一半通道数的图像通过ConvNeXt模块提取全局特征，另一半通道数的图像通过ResNet模块提取局部特征。

6.如权利要求1所述的基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，所述ConvNeXt模块的具体操作为：

7.如权利要求1所述的基于ConvNeXt卷积的遥感图像语义分割方法，其特征在于，利用pytorch_lighting库来对所述语义分割模型进行训练，得到模型的最优参数。

8.基于ConvNeXt卷积的遥感图像语义分割系统，其特征在于，包括数据扩充模块、模型训练模块和语义分割模块：

所述数据扩充模块，被配置为：获取遥感图像，并进行扩充处理，得到训练数据集；

所述模型训练模块，被配置为：基于训练数据集，对基于ConvNeXt构建的语义分割模型进行训练；

所述语义分割模块，被配置为：获取待分割的遥感图像，利用训练好的语义分割模型进行语义分割，得到分割结果；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。