CN117274608B

CN117274608B - 基于空间细节感知和注意力引导的遥感图像语义分割方法

Info

Publication number: CN117274608B
Application number: CN202311571566.5A
Authority: CN
Inventors: 李林娟; 谢刚; 张浩雪; 谢新林; 田娟; 聂晓音; 贺赟
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-06
Anticipated expiration: 2043-11-23
Also published as: CN117274608A

Abstract

本发明涉及遥感图像分割技术领域，具体为一种基于空间细节感知和注意力引导的遥感图像语义分割方法，包括以下具体步骤：S1、获取研究区域的遥感卫星高分辨率图像数据，制作语义分割数据集；S2、构建编码器对输入遥感图像进行特征提取，获得编码器不同层次的特征图；S3、构建多尺度分组注意力模块，分组建模通道和空间长距离依赖，强化编码器各层的特征图；S4、构建空间细节感知模块，聚合强化后的底层特征图，指导高层特征学习细节信息；S5、对聚合后的特征图进行通道拼接，将拼接的结果进行亚像素上采样，获得语义分割结果图。本发明提供的方法增强了语义分割网络对多尺度地物的鉴别能力，解决了复杂环境中小目标难以识别的问题。

Description

基于空间细节感知和注意力引导的遥感图像语义分割方法

技术领域

本发明涉及高分辨遥感图像分割技术领域，具体为一种基于空间细节感知和注意力引导的高分辨率遥感图像语义分割方法。

背景技术

高分辨率遥感图像的语义分割技术是遥感影像理解与智能解译中最具挑战性的任务之一。遥感图像语义分割是指通过解析遥感图像上每个像素点的语义来给像素点分配一个语义标签，并根据语义标注不同的颜色，进而形成分割图并最终对多个地物进行识别并分类。近年来，高分辨率遥感影像数据量大幅增长，遥感图像语义分割在自然资源调查、城市建设规划、地质灾害防治、生态环境防护等领域有着越来越多的应用，遥感图像的语义分割信息为遥感社会化应用产业提供数据支撑。因此，高分辨率遥感图像语义分割具有重要的研究意义和价值。

高分辨率遥感图像覆盖面广，背景环境复杂，且包含的地物具有大小尺度不一、分布密集、拓扑结构多样等特点，使得遥感图像的语义分割更具挑战性。针对遥感场景的特殊性，近年来提出了一系列解决方案。在《改进U-Net的遥感图像语义分割方法》（胡功明, 杨春成, 徐立, 尚海滨, 王泽凡, 秦志龙. 改进U-Net的遥感图像语义分割方法[J]. 测绘学报, 2023, 52(6): 980-989）一文中公开了一种多尺度跳跃连接方法来融合不同层次的语义特征,获取分割边界与位置信息。

在《结合多尺度共享编码的半监督网络航空影像语义分割》（李佳田, 杨汝春, 姚彦吉, 贺日兴, 阿晓荟, 吕少云. 结合多尺度共享编码的半监督网络航空影像语义分割[J]. 测绘学报, 2022, 51(11): 2355-2364）一文中公开了一种结合多尺度共享编码的半监督网络架构对航空影像进行语义分割。然而，上述方法受限卷积核固有属性，局部提取特征能力有限，容易损失细节信息，导致面积较小、尺度差异大的地物难以识别和分割。另外，上述方法中未充分考虑空间长距离依赖性，导致存在全局语义信息表征不足，分割边缘不连续，影响语义分割的精度。因此，设计一种高效的高分辨率遥感图像语义分割方法以解决上述问题是十分有必要的。

发明内容

本发明的目的是针对背景技术中存在的问题，提出了一种基于空间细节感知和注意力引导的遥感图像语义分割方法，包括以下具体步骤：

S1、获取研究区域的遥感卫星高分辨率图像数据，制作高分辨率遥感图像语义分割数据集，其中，语义分割数据集包括训练集和验证集；

S2、构建编码器对输入遥感图像进行特征提取，获得编码器不同层次的特征图；

S3、构建多尺度分组注意力模块，分组建模通道和空间长距离依赖，强化编码器各层的特征图；

S4、构建空间细节感知模块，聚合强化后的底层特征图，指导高层特征学习细节信息；

S5、对聚合后的特征图进行通道拼接，将拼接的结果进行亚像素上采样，获得语义分割结果图。

优选的，S1中获取数据的方法为：

S11、采用遥感影像数据处理软件对研究区域的遥感卫星高分辨率遥感影像数据进行预处理，包括：影像正射纠正、几何精度核查、影像融合、波段重组、色彩增强、影像镶嵌操作；

S12、将预处理过的遥感卫星高分辨率遥感影像，裁剪为512×512像素的遥感图像，得到具有N张初始图像的图像数据集，其中，N≥6000；

S13、采用图像标注软件对N张初始图像逐一进行精细的语义标签标注，得到具有N张初始图像和N张标注的高分辨率遥感图像语义分割数据集；

S14、将高分辨率遥感图像语义分割数据集中的N张图像按照P₁:P₂的比例划分为两类，分别得到训练集和验证集，其中， 7≤P₁≤9，1≤P₂≤3，P₁+ P₂=10。

优选的，S2中构建的编码器包含1个初始下采样模块和4个特征提取层，初始下采样模块由卷积核大小k为5×1和1×5，步距为1的非对称卷积层和实例归一化层组成，4个特征提取层由基础卷积块和一个下采样层，4个特征提取层的通道数分别为96、192、384、786，基础卷积块数分别为3、6、9、3，其中基础卷积块中卷积层由卷积核大小为7×7、5×5、3×3的深度可分离卷积并行组成。

优选的，S3中构建多尺度分组注意力模块方法为：

S31、将编码器提取的特征图F _i ^c×h×w沿通道维度进行分组，并经过2倍上采样和1/2下采样操作，得到3分支的子特征图，标记为F _i1 ^c/3×2h×2w、F _i2 ^c/3×h×w和F _i3 ^{c/3×h/2×w/2}，其中，c、h、w分别表示特征图通道数、长度和宽度，i表示特征层的层次，每个子特征图通道数是原来的1/3；

S32、将第j分支个子特征图采用通道分组操作，生成并行的通道注意力分支F _jc ^c ^/6×h×w和空间注意力分支F _js ^c/6×h×w；

S33、通道注意力分支F _jc ^c/6×h×w和空间注意力分支F _js ^c/6×h×w分别先经过注意力层和权重重标定运算，其次采用通道拼接操作将两分支子特征图组合在一起，得到双重注意力强化的子特征图F _ij ^c/3×h×w ；

S34、将3分支的双重注意力强化的子特征图，经过1/2下采样操作和2倍上采样，在通道维度拼接在一起，得到多尺度分组注意力模块输出特征图F _o ^c×h×w。

优选的，S4中构建空间细节感知模块方法为：

S41、将强化后的浅层特征图E _low、E _mid1和E _mid2作为空间细节感知模块的3个输入，对浅层特征图E _low和E _mid1分别进行1/4和1/2下采样操作，接着进行1×1卷积降维操作和矩阵重组操作，生成3个特征向量E _l、E _m1和E _m2；

S42、通过矩阵乘法计算E _l和E _m1相关性，构建任意像素间的长距离依赖，经过归一化指数函数激活，生成自注意力掩膜系数矩阵M；

S43、将特征向量E _m2和M进行矩阵相乘，实现全局上下文信息的建模，得到经过自注意力强化的特征图，并将其叠加到原始图E _mid2上，得到空间细节感知模块的输出。

优选的，S5中亚像素卷积上采样操作步骤为：

S51、将尺寸大小为h×w×t ²特征图上每个像素的t ²个通道排列成t×t区域，h、w和t ²分别表示为特征图的长、宽和通道数，每个像素对应成一个t×t大小的子块，使得h×w×t ²的特征图被重新排列成th×tw×1的高分辨率图。

与现有技术相比，本发明的上述技术方案具有如下有益的技术效果：

（1）创新性的制作了高分辨率遥感图像语义分割数据集，该数据集为遥感语义分割任务提供了数据支撑。

（2）创新性的提出一种基于空间细节感知和注意力引导的高分辨率遥感图像语义分割方法，引入了自注意力空间细节感知和分组注意力机制，大幅度提升了语义分割模型对地物的细节感知能力和重要特征的鉴别能力。

（3）创新性的提出多尺度分组注意力模块，并行建模通道特征间相互依赖和空间特征的长距离依赖，强化了模型对多尺度地物特征的表达能力，同时减少了模型的训练参数量，加快模型收敛速度。

（4）创新性的提出空间细节感知模块，充分利用了低层特征图中的细节信息，弥补了高层特征图中丢失的细节信息，保证了语义分割结果中的边缘连续性和完整性。

附图说明

图1为本发明的方法流程图；

图2为本发明编码器基础卷积块示意图；

图3为本发明的多尺度分组注意力模块结构示意图；

图4为本发明的空间细节感知模块结构示意图；

图5为本发明的方法实施效果图。

具体实施方式

如附图1所示，本发明提出的一种基于空间细节感知和注意力引导的高分辨率遥感图像语义分割方法，包括以下具体步骤：

获取数据的方法为：

S13、采用图像标注软件对N张初始图像逐一进行精细的语义标签标注，得到具有N初始图像和N张标注图像的高分辨率遥感图像语义分割数据集；

S14、将高分辨率遥感图像语义分割数据集中的N张图像按照P1:P2的比例划分为两类，分别得到训练集和验证集，其中， 7≤P1≤9，1≤P2≤3，P1+ P2=10；

编码器结构为：

构建的编码器包含1个初始下采样模块和4个特征提取层，初始下采样模块由卷积核大小k为5×1和1×5，步距为1的非对称卷积层和实例归一化层组成，4个特征提取层由基础卷积块和一个下采样层，4个特征提取层的通道数分别为96、192、384、786，基础卷积块数分别为3、6、9、3，其中基础卷积块中卷积层由卷积核大小为7×7、5×5、3×3的深度可分离卷积并行组成；

其中，上述基础卷积块结构采用了逆残差瓶颈结构，旨在大幅度减少网络的参数规模，通道缩放因子为4，如附图2所示，包含大卷积核k为7×7和小卷积核为5×5、3×3的深度可分离卷积（Depthwise Conv），采用自注意力模型中实例归一化层（LN）替代卷积神经网络中批归一化层（BN），第一个1×1卷积层跟随高斯分布的误差线性单元（GELU）用于特征升维，输出特征通道数是输入的4倍，将低层特征空间映射到高维特征空间，第二个1×1卷积层用于特征降维，保证模块的输入和输出特征维度一致，跟随缩放层（Layer scale）缩放输入张量来归一化层之间的输出，过拟合层（Drop path）防止网络过拟合，最后通过残差连接将输入信息和模块输出信息相加，完成特征信息的传递，面向包含大量地物且背景交错复杂的高分遥感图像，构建的编码器可以更好地提取浅层细节和高层语义。

构建多尺度分组注意力模块方法：

S31、如附图3所示，首先将特征图F _i沿通道维度进行分组，得到3分支的子特征图，每个子特征图通道数是原来的1/3；其次，将第一个分支子特征图进行2倍上采样操作，增加图像分辨率，有利于提取小目标的细节信息；第二个分支子特征图保持不变；将第三个分支的子特征图进行1/2下采样，有利于采集大目标物体的全局信息，最终三分支的特征子图分别为标记为F _i1 ^c/3×2h×2w、F _i2 ^c/3×h×w和F _i3 ^{c/3×h/2×w/2}，其中，c、h、w分别表示特征图通道数、长度和宽度，i表示特征层的层次；

S32、将第j个子特征图采用分组操作，生成并行的通道注意力分支F _jc ^c/6×h×w和空间注意力分支F _js ^c/6×h×w；

对于通道注意力分支F _jc ^c/6×h×w，采用全局池化操作Φ _gap(.)，得到一维全局特征向量，经过激活函数δ _sig(.)，得到相应通道的重标定权重，将该权重与通道特征子图进行像素点乘操作，即可得到经过注意力机制强化后的特征子图F _j ^co，该过程可表示为：

F _j ^co =δ _sig(Φ _gap(F _jc ^c/6×h×w) )⊙F _jc ^c/6×h×w (1)

其中，⊙表示矩阵点乘操作；

对于空间注意力分支F _js ^c/6×h×w，采用组归一化操作Ψ _gn(.)，并经过非线性激活函数，得到空间维度的每个像素的权重值，最后将权重值和输入子特征图采用矩阵点乘操作，得到最后的空间注意力输出F _j ^so，该过程可表示如下：

F _j ^so =δ _sig(Ψ _gn (F _js ^c/6×h×w) )⊙F _js ^c/6×h×w（2）

S33、通道注意力分支F _jc ^c/6×h×w和空间注意力分支F _js ^c/6×h×w分别先经过注意力层和权重重标定运算，其次采用通道拼接操作将两分支子特征图组合在一起，得到双重注意力强化的子特征图F _ij ^c/3×h×w，该过程可以表示为:

F _ij ^c/3×h×w =concat[F _j ^co F _j ^so] （3）

其中concat表示通道拼接操作，拼接操作可以并行协同空间和通道两类注意力机制，使两类注意力机制高效结合，协同增强通道和空间信息；

S34、将3分支的双重注意力强化的子特征图，经过1/2下采样操作和2倍上采样，在通道维度拼接一起，得到多尺度分组注意力模块输出特征图F _o ^c×h×w。

构建空间细节感知模块方法：

S41、如附图4所示，将强化后的浅层特征图E _low、E _mid1和E _mid2作为空间细节感知模块的3个输入，对浅层特征图E _low和E _mid1分别进行1/4和1/2下采样操作，接着进行1×1卷积降维操作和矩阵重组操作，生成3个特征向量E _l、E _m1和E _m2；

S42、通过矩阵乘法计算E _l和E _m1相关性，构建任意像素间的长距离依赖，经过归一化指数函数激活，生成自注意力掩膜系数矩阵M，该过程可以表示为：

M= f _soft( E _l× E _m1) （4）

其中，f _soft表示归一化指数激活函数，×表示矩阵乘法操作；

S43、将特征向量E _m2和M进行矩阵相乘，实现全局上下文信息的建模，得到经过自注意力强化的特征图，并将其叠加到原始图E _mid2上，得到空间细节感知模块的输出E _o1。

E _o1 =M ⊙ E _m2+ E _mid2（5）

S5、对聚合后的特征图进行通道拼接，将拼接的结果进行亚像素上采样，获得语义分割结果图；

亚像素上采样方法：

获得的语义分割结果图，如附图5所示。

上面结合附图对本发明的实施方式作了详细说明，但是需要注意的是，上述实施方式是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制，本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于空间细节感知和注意力引导的遥感图像语义分割方法，其特征在于，包括以下具体步骤：

S3中构建多尺度分组注意力模块方法为：

S32、将第j分支个子特征图采用通道分组操作，生成并行的通道注意力分支F _jc ^c/6×h×w和空间注意力分支F _js ^c/6×h×w；

S33、通道注意力分支F _jc ^c/6×h×w和空间注意力分支F _js ^c/6×h×w分别先经过注意力层和权重重标定运算，其次采用通道拼接操作将两分支子特征图组合在一起，得到双重注意力强化的子特征图F _{i j} ^c/3×h×w；

S34、将3分支的双重注意力强化的子特征图，经过1/2下采样操作和2倍上采样，在通道维度拼接在一起，得到多尺度分组注意力模块输出特征图F _o ^c×h×w；

S4中构建空间细节感知模块方法为：

2.根据权利要求1所述的基于空间细节感知和注意力引导的遥感图像语义分割方法，其特征在于，S1中制作高分辨率遥感图像语义分割数据集方法为：

S11、采用遥感影像数据处理软件对研究区域的遥感卫星高分辨率遥感影像数据进行预处理，包括：影像正射纠正、几何精度核查、影像融合、波段重组、色彩增强、影像镶嵌作；

S14、将高分辨率遥感图像语义分割数据集中的N张图像按照P₁:P₂的比例划分为两类，分别得到训练集和验证集，其中，7≤P₁≤9，1≤P₂≤3，P₁+ P₂=10。

3.根据权利要求1所述的基于空间细节感知和注意力引导的遥感图像语义分割方法，其特征在于，S2中构建的编码器包含1个初始下采样模块和4个特征提取层，初始下采样模块由卷积核大小k为5×1和1×5，步距为1的非对称卷积层和实例归一化层组成，4个特征提取层由基础卷积块和一个下采样层，4个特征提取层的通道数分别为96、192、384、786，基础卷积块数分别为3、6、9、3，其中基础卷积块中卷积层由卷积核大小为7×7、5×5、3×3的深度可分离卷积并行组成。

4.根据权利要求1所述的基于空间细节感知和注意力引导的遥感图像语义分割方法，其特征在于，S5中亚像素卷积上采样操作步骤为：