CN117475145B

CN117475145B - 融合多重注意力机制的多尺度遥感影像语义分割方法及系统

Info

Publication number: CN117475145B
Application number: CN202311260422.8A
Authority: CN
Inventors: 戴晨光; 张振超; 张永生; 纪松; 于英; 李磊; 季虹良; 蔡心悦; 张英健; 王鹏; 范会欣; 卢金浩; 张汇东
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-06-25
Anticipated expiration: 2043-09-27
Also published as: CN117475145A

Abstract

本发明涉及遥感影像处理技术领域，特别涉及一种融合多重注意力机制的多尺度遥感影像语义分割方法及系统，对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，所述多模态目标数据包含：单通道nDSM信息、三通道RGB信息及单通道Canny边缘信息；利用预训练的语义分割模型对多模态目标数据进行推理预测，得到对应的分割结果，其中，语义分割模型编码器的不同分支网络结构之间设置有用于增强不同模态输入数据间特征融合的高程‑边缘注意力机制，并在编码器和解码器之间设置有用于增强编码器和解码器信息融合的残差切片注意力机制。本发明通过融合多模态、多尺度特征进行深度提取，以改善并提升遥感影像中小目标和模糊边缘场景的分割效果和精度。

Description

融合多重注意力机制的多尺度遥感影像语义分割方法及系统

技术领域

本发明涉及遥感影像处理技术领域，特别涉及一种融合多重注意力机制的多尺度遥感影像语义分割方法及系统。

背景技术

遥感影像是通过遥感器获取的记录地物电磁波反射或辐射信息的载体。1999年，空间分辨率1m的IKONOS遥感卫星发射，标志着遥感商业卫星应用技术进入亚米级时代。二十多年来，随着卫星、无人机、激光雷达等不同遥感器技术的发展，获得的遥感影像属性不同、分辨率多样。多源遥感数据支撑着遥感技术广泛应用在地形测绘、土地覆盖监测、城市管理、全球生态监测、防灾救援、军事侦察等广阔领域。遥感影像语义分割是从遥感影像中获取地物语义标签(label)的过程。通过语义分割将每个像素分成建筑物、高植被、低矮植被、地面、水体等类别。遥感影像语义分割技术也是当前的研究热点。传统遥感影像语义分割方法首先提取光谱特征、纹理特征，再利用分类器对遥感影像进行分割。传统分割方法具有以下缺陷：首先，遥感影像包含光谱特征、纹理特征、局部变化信息丰富，传统的特征提取技术通常只能提取每个像素周围的特征，难以提取更大尺度全局特征，无法充分结合上下文的信息。第二，传统方法需要提取很多人工特征，但是不同场景遥感影像特征的取舍很难把握，在对复杂场景遥感影像进行分割时效果一般；第三，传统的方法需要人为设置特征提取参数、分类器参数，对经验依赖度高，而分类结果往往受到传感器、获取影像质量、场景差异的影像，人工设计的特征和模型参数也不具有普适性。

近年来，随着人工智能技术发展，深度学习也为遥感影像语义分割提供了新的途径。基于深度学习的影像分割技术在自然影像(如风景照)、遥感影像以及医学影像等领域都取得了卓越的分割效果。基于深度学习的语义分割方法能够通过大数据训练神经网络模型，优化神经网络模型参数，相较于传统的语义分割方法能够充分利用遥感影像深层特征，并且可以提高模型针对不同场景影像的泛化性能(generaliability)，自动训练出好的模型和参数以实现好的语义分割效果。具体来说，经典的神经网络模型由一系列有序堆叠的卷积Conv(Convolution)、分批归一化BN(Batch Normalization)、纠正线性单元ReLU(Rectified Linear Unit)、全连接层FC(Fully Connected Layer)组成。各个单元依次实现对输入遥感影像的运算，最终得到输出特征图。全连接神经网络FCN(Fully ConnectedNetwork)被认为是神经网络用于遥感影像语义分割的一个里程碑。FCN的主要思想是将VGG16网络中最后的全连接层转化为卷积层，以生成一个二维的特征图，之后再利用上采样，将分辨率降低后的特征图恢复到原来的尺寸，以实现逐像素的分割目的。之后，基于深度学习方法出现了UNet、Deeplabv3、DenseNet、SegNet、HRNet等不同的改进版本。

当前，基于深度学习的语义分割技术研究热点是在语义分割模型中加入注意力机制(Attention)，模拟人眼在观察目标时首先聚焦在能吸引人注意力的局部区域这一行为。SENet通过采用通道注意力，动态调整特征图不同通道的权重，对原来的特征图进行优化。DANet主干网络为残差网络ResNet，利用了更多维的注意力机制。将主干网络生成的特征图通过两个并行的位置注意力(PAM)和通道注意力(CAM)模块，分别得到特征图并进行融合，得到新的特征图。语义分割时由于经过多个卷积层会使影像信息受损，于是提出Non-local模块，通过计算任意两点前的关系来获得长距离的上下文信息。CCNet网络采用十字交叉模块对Non-local模块进行改进，通过利用十字型结构提升分割精度同时降低内存。HANet是一种专门用于城市场景影像语义分割的网络，通过添加通用的附加注意力机制模块来计算每行像素权重，再与特征图结合来获取分割结果。当前，基于深度学习的语义分割方法主要具有以下缺点：1、虽然基于深度学习的语义分割模型取得了良好的分割效果，但是深度学习模型难以实现多个尺度特征融合，难以同时学习到影像的全局特性和局部特征，最终导致在分割背景复杂、边界模糊、小目标的影像时出现误分割。2、遥感影像中不同地物目标尺度差异大，从大块建筑物、草地到局部的机动车、行人，经典的注意力分割模型如SENet、DANet、HANet往往难以提取小物体的细节特征，且难以辨识相似地物的边界，造成分割精度降低。

发明内容

为此，本发明提供一种融合多重注意力机制的多尺度遥感影像语义分割方法及系统，解决现有语义分割针对背景复杂、边界模糊、小目标的影像分割精度低的问题，通过融合多模态、多尺度特征进行深度提取，改善并提升遥感影像中小目标和模糊边缘场景下的分割效果。

按照本发明所提供的设计方案，一方面，提供一种融合多重注意力机制的多尺度遥感影像语义分割方法，包含：

对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，所述多模态目标数据包含：单通道nDSM信息、三通道RGB信息及单通道Canny边缘信息；

利用预训练的语义分割模型对多模态目标数据进行推理预测，得到对应的分割结果，其中，语义分割模型采用由编码器和解码器构成的主干网络，所述编码器由对应单通道nDSM信息、三通道RGB信息和单通道Canny边缘信息的三分支网络结构组成，且在编码器不同分支网络结构之间设置有用于增强不同模态输入数据间特征融合的高程-边缘注意力机制，并在编码器和解码器之间设置有用于增强编码器和解码器信息融合的残差切片注意力机制。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，包含：

将原始数据的RGB影像数据、地面高程模型DSM数据进行归一化处理，以分别获取对应的单通道nDSM信息、三通道RGB信息，并利用Canny边缘提取算子提取原始数据的边缘特征，将该边缘特征作为单通道Canny边缘信息。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，将原始数据的RGB影像数据进行归一化处理，包含：

将RGB影像数据的每个灰度值除以255，以使RGB影像数据的三个彩色通道均归一化到[0，1]。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，将原始数据的地面高程模型DSM数据进行归一化处理，包含：

基于目标区域内多个时相中的高程最小值和高程最大值将目标区域各格网位置高程归一化到[0，1]。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，利用Canny边缘提取算子提取原始数据的边缘特征，包含：

首先，利用高斯滤波器对原始数据进行平滑处理；接着，计算平滑后影像数据的水平梯度值和垂直梯度值；并针对梯度方向的非零点，沿着方向导数查找邻近的两个点，若邻近点幅值超过中心点，判定当前非零点不属于图像边缘，并将其边缘强度置0；然后，通过设定高、低阈值，利用双阈值算法选出真实边缘。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，所述编码器采用残差卷积单元的循环组合来实现，其中，残差卷积单元包含残差卷积层、归一化层和最大池化层；所述解码器由残差卷积层和转置卷积层组成，其中，转置卷积层用于对特征图尺度进行上采样，以使经过若干转置卷积层后特征图恢复至输入特征图的尺寸。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，在编码器和解码器之间设置的残差切片注意力机制，包含：

利用跳跃连接将编码器提取的不同尺度的特征连接到解码器相应尺度，并通过解码器中的残差切片注意力机制将特征图切分为大小相等的切片，对每个切片进行自适应池化，采用门控机制获取切片区域对应通道位置处的注意力响应图，并通过归一化运算和转置卷积运算使特征图尺寸恢复至输入的特征图大小。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，在编码器不同分支网络结构之间设置的高程-边缘注意力机制，包含：

对同一尺度的nDSM特征图和Canny边缘特征图进行连接，并对连接后的特征图计算其切片残差注意力响应图；并将特征图嵌入到RGB特征提取主干网络分支，在该主干网络分支中利用残差连接将nDSM特征图和Canny边缘特征图两者连接后计算的切片残差注意力响应图融合到RGB特征提取过程。

作为本发明融合多重注意力机制的多尺度遥感影像语义分割方法，进一步地，语义分割模型的预训练中，采用交叉信息熵作为多分类问题训练过程中的损失函数，该损失函数表示为：其中，P(i)为第i个样本的真实标签，Q(i)为Softmax归一化后的预测概论值，N为样本数量。

进一步地，本发明还提供一种融合多重注意力机制的多尺度遥感影像语义分割系统，包含：数据处理模块和语义分割模块，其中，

数据处理模块，用于对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，所述多模态目标数据包含：单通道nDSM信息、三通道RGB信息及单通道Canny边缘信息；

语义分割模块，用于利用预训练的语义分割模型对多模态目标数据进行推理预测，得到对应的分割结果，其中，语义分割模型采用由编码器和解码器构成的主干网络，所述编码器由对应单通道nDSM信息、三通道RGB信息和单通道Canny边缘信息的三分支网络结构组成，且在编码器不同分支网络结构之间设置有用于增强不同模态输入数据间特征融合的高程-边缘注意力机制，并在编码器和解码器之间设置有用于增强编码器和解码器信息融合的残差切片注意力机制。

本发明的有益效果：

本发明基于融合RGB遥感影像、归一化nDSM数据、Canny边缘数据多模态输入构建的语义分割模型，其编码器中含有三个特征提取分支，解码器含有一个分支，输出为遥感影像上每个像素的类别标签，在较大程度上减少了人工特征提取；特征提取和融合通过编码器与解码器之间的跳跃连接、高程-边缘注意力模块HEAM来实现，特征融合在多个分辨率尺度、不同阶段交叉进行，特征融合程度较深，特征表征能力更强，有效提升地物边缘、小物体处的分割效果；在跳跃连接中使用切片残差注意力机制ResPAM，提升特征学习效果，抑制无关信息、噪声的干扰，从而提高语义分割精度。其中，ResPAM机制与现有的切片注意力PAM相比具备以下优点：一是在特征图降维操作中使用了残差卷积模块ResBlock，加深特征提取深度，且利于模型加速收敛；二是使用转置卷积TransConv进行上采样，比双线性插值上采样运算效率更高，且能够学习更深的特征。并利用高程-边缘注意力机制HEAM从nDSM和Canny边缘数据中计算注意力响应，与遥感影像不同尺度特征图进行融合，融合后的特征图中强化了地物边缘信息、综合了nDSM高程信息，因此能取得更好的分割效果，并能有效抑制噪声信息的干扰，改善并提升背景复杂、边界模糊、小目标的遥感影像分割精度。

附图说明

图1为实施例中融合多重注意力机制的多尺度遥感影像语义分割流程示意；

图2为实施例中语义分割模型原理示意；

图3为实施例中卷积与转置卷积操作示意；

图4为实施例中残差卷积原理示意；

图5为实施例中ResPAM残差切片注意力机制原理示意；

图6为实施例中HEAM高程-边缘注意力机制原理示意。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对上述背景技术中所描述的现有深度学习模型在背景复杂、边界模糊、小目标的遥感影像分割中存在的问题，本发明实施例，提供一种融合多重注意力机制的多尺度遥感影像语义分割方法，参见图1所示，包含如下内容：

S101、对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，所述多模态目标数据包含：单通道nDSM信息、三通道RGB信息及单通道Canny边缘信息。

通过融合遥感影像、nDSM和边缘特征，保证多模态信息能同时作为模型的信息输入，从而提高语义分割效果。

具体地，对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，可设计为包含如下内容：

其中，可将RGB影像数据的每个灰度值除以255，以使RGB影像数据的三个彩色通道均归一化到[0，1]。并可基于目标区域内多个时相中的高程最小值和高程最大值将目标区域各格网位置高程归一化到[0，1]。

数据输入层是模型的首个组成部分，中间分支为三通道的RGB遥感影像，输入前将RGB彩色影像数据、DSM数据进行预处理，将RGB彩色影像和DSM数据均归一化到[0,1]。预处理后DSM称为归一化DSM(nDSM)。将RGB彩色影像的每个灰度值除以255，DSM高度值用整个实验区作为目标区域中的最大、最小高程值进行归一化。公式如下：

其中，I_c,i,j为输入的各个通道的灰度值，I_c′_,i,j为对应的输出的灰度值，c为RGB彩色影像的三个色彩通道R、G、B，i、j为影像或DSM数据的像素行列号；DSM_i,j为输入的某格网位置的高程，DSM_i′_,j为归一化后的对应位置的高程，DSM_min和DSM_max分别是整个实验区综合两个时相的高程最小值、高程最大值。通过归一化，将R、G、B、DSM高程均归一化到[0,1]。

其中，利用Canny边缘提取算子提取原始数据的边缘特征，可包含：

Canny边缘提取算子具有良好的信噪比和检测精度，且能抑制虚假边缘和影像噪声，因而，本案实施例中，可选取Canny算子从原始遥感影像中提取边缘特征。Canny算子的实现步骤可描述如下：

(1)平滑滤波：使用高斯滤波器对影像进行平滑处理，减轻噪声对边缘检测的影响。高斯平滑函数可表示为：

(2)梯度计算：再计算平滑后影像的水平梯度值和垂直梯度值，计算公式表示为：

(3)非最大值抑制：针对梯度方向的非零点，沿着方向导数查找邻近的两个点。若邻近点幅值超过中心点，那么此非零点不属于图像边缘，则令其边缘强度为0。

(4)用双阈值算法检测和边缘连接。通过设定高、低阈值，选取出真实边缘，抑制消除伪边缘。最终检测出稳健的Canny边缘。

S102、利用预训练的语义分割模型对多模态目标数据进行推理预测，得到对应的分割结果，其中，语义分割模型采用由编码器和解码器构成的主干网络，所述编码器由对应单通道nDSM信息、三通道RGB信息和单通道Canny边缘信息的三分支网络结构组成，且在编码器不同分支网络结构之间设置有用于增强不同模态输入数据间特征融合的高程-边缘注意力机制，并在编码器和解码器之间设置有用于增强编码器和解码器信息融合的残差切片注意力机制。

参见图2所示，为了融合不同模态原始遥感数据，在输入端分别放置多光谱影像(RGB三通道)、归一化数字高程模型nDSM(Normalized Digital Surface Model)、Canny边缘作为网络模型的原始输入，显示地强化高程和影像边缘信息在语义分割中的作用。为了提取更深层次的局部特征和全局特征，模型主体采用三分支的网络结构作为编码器进行多尺度特征提取，再使用单分支的网络结构作为解码器。其中，编码器中的特征提取模块主体是残差卷积单元ResBlock，特征池化采用2×2最大池化Max pooling；解码器采用转置卷积Transpose Convolution作为特征图尺度扩大方法。注意力机制中：为了加强不同模态输入数据间的融合效果，在编码器不同分支之间提出高程—边缘注意力机制HEAM(Height-EdgeAttention Module)进行特征连接；为了加强编码器和解码器间的信息融合，改进提出ResPAM(残差切片注意力机制)进行跳跃连接，使得模型更容易训练。输出端可沿用现有方法，即依次采用1×1卷积、BN、ReLU、Softmax得到输出特征，输出特征的通道数与待分类的类别数相等。

具体地，所述编码器可采用残差卷积单元的循环组合来实现，其中，残差卷积单元包含残差卷积层、归一化层和最大池化层；所述解码器由残差卷积层和转置卷积层组成，其中，转置卷积层用于对特征图尺度进行上采样，以使经过若干转置卷积层后特征图恢复至输入特征图的尺寸。

为了提取更深层次的局部特征和全局特征，模型主体采用三分支的网络结构作为编码器进行多尺度特征提取，将预处理后的多光谱影像(RGB三通道)、归一化数字高程模型nDSM(Normalized Digital Surface Model)、Canny边缘作为编码器三个分支的原始输入。编码器层可采用一系列残差卷积单元ResBlock、BN、ReLU、最大池化Max pooling的循环组合来实现。ResBlock为残差卷积层(Residual Convolution)，其基本的运算单元是卷积运算Convolution。图3中的左图是利用3×3卷积算子对原始影像进行卷积的计算示意图；图4是残差卷积层ResBlock的计算示意图，采用卷积核大小为3×3，步长为1，边缘填充大小为1，计算后特征图大小不变，但是特征理解的深度加深，残差卷积结构也使得模型的训练过程能够加速收敛。ResBlock中的BN为归一化层(Batch Normalization)，用于加快模型训练速度，避免模型发散。图2中的网络结构中的每个ResBlock单元表示一次残差卷积运算。Maxpool为2×2的最大池化操作(Max pooling)，用于减小特征图尺寸，减少参数数量，也提升特征的泛化性能，每次最大池化操作后特征图尺度降为原先的一半。

解码器的主体是进一步采用ResBlock提取深层次特征，同时采用转置卷积Transpose Convolution作为特征图尺度上采样方法。如图3中的右图所示，TransConv转置卷积模块是Conv的逆运算，通常用在解码器层中对特征图尺度进行上采样，经过多次TransConv运算最终恢复到输入特征图的尺寸。采用的TransConv卷积核大小为3×3，步长为2，边缘填充大小为1。每次TransConv后特征图尺寸变为原先的2倍。

其中，在编码器和解码器之间设置的残差切片注意力机制，可包含：

编码器和解码器之间采用跳跃连接(Skip-connection)，将编码器提取的不同尺度的特征连接到解码器中相应尺度，使得模型更好地融合不同分辨率特征。为了提高模型对多样化地物目标的特征学习能力，在跳跃连接中增加切片残差注意力机制ResPAM(Residual Patch-based Attention Module)作为注意力激活模块，如图5所示。不同于全通道注意力机制(如SENet)将整个特征图在通道维度进行全局池化，ResPAM将特征图切分为大小相等的切片，对每个切片进行自适应池化AdaPool(Adaptive Pooling)，优势是可以计算出大面积遥感影像局部区域的特征注意力，对融合局部区域上下文信息更有效。

假如输入特征图尺度为(h,w,c)，h_p和w_p分别是池化窗口的水平和垂直空间大小，则池化后在水平、垂直方向的格网个数分别为：

h_p和w_p的大小根据降采样率来确定，以保证自适应池化AdaPool能显著扩大感受野(receptive field)。假如x_c为第c个通道的全部像素值。则切片区域第c个通道的自适应池化AdaPool描述子为：

以此方式可以计算出图5中的全部c个通道的统计特性，构成特征向量z_p，其包含了各个通道中的局部注意力响应值。再采用门控机制计算出该位置处的注意力响应图：

a_p＝F_U{σ[H_iδ(H_rz_p)]} (6)

其中，σ和δ分别为Sigmoid函数和ReLU函数，H_r为1×1降维卷积，使用ResBlock建立残差连接，降低通道数的比率为r；H_i为1×1升维卷积Conv，使得特征维度恢复至c；后接Sigmoid运算归一化特征图。最后是F_U转置卷积运算，使得特征图尺度恢复至输入的特征图大小(h,w,c)。

在编码器不同分支网络结构之间设置的高程-边缘注意力机制，可包含：

高程-边缘注意力机制HEAM将不同尺度的nDSM特征和Canny边缘特征进行连接，融合到图2的RGB特征提取主干网络中，实现过程如图6所示。首先对同一尺度的nDSM特征图和Canny边缘特征图进行连接(Concatenation)，连接后特征图大小为(h,w,2)。再对连接后的特征图计算其切片残差注意力图，计算顺序依次为：自适应池化AdaPool、残差卷积ResBlock、卷积Conv、Sigmoid、转置卷积TransConv，从而恢复到一开始特征连接后的特征图大小(h,w,2)。再使用一次残差卷积将特征图大小恢复至(h,w,3)。计算流程的数学表示为：

A_l＝F_R{F_U{σ[H_lδ(H_rz_h)]}} (7)

其中，z_h为连接的特征图自适应池化后得到的特征图，σ和δ分别为Sigmoid函数和ReLU函数，H_r为1×1降维卷积，使用ResBlock建立残差连接，降低通道数的比率为r；H_l为1×1升维卷积Conv，使得特征维度恢复至3个通道；后接Sigmoid运算归一化特征图。再使用F_U转置卷积运算，使得特征图长和宽恢复至输入的特征图大小，通道数变为3。

接下来，将以上得到的注意力图嵌入到RGB特征提取主干网络中。为了强化RGB特征的重要性，在融合中加入残差连接的设计，交叉注意力融合过程表示为：

X_rgb＝X_rgb+X_rgbA_l (8)

其中，X_rgb为特征提取RGB主干网络在某一尺度的特征图，通过引入nDSM和Canny边缘计算得到的高程-边缘注意力HEAM使得X_rgb的特征表现力更强，提升在地物边缘处、小目标的分割效果。

在神经网络模型的输出阶段，依次采用1×1卷积、BN、ReLU得到6个通道的特征图，对应分成6种地物覆盖类型的概率，例如建筑物、高植被、低矮植被、水体、汽车、背景。再通过Softmax操作对特征图各个通道归一化到[0,1]，使得特征值能更好地关联语义分割类别概率。此时特征图大小与原始输入影像大小一致，每个像素位置对应了一个六维向量

[v₁,v₂,v₃,v₄,v₅,v₆]。

语义分割模型的训练过程中，可采用交叉信息熵(Cross Entropy)作为多分类问题的损失函数，通过训练使得模型能够区分某一像素属于哪个类别。交叉信息熵是用来评估当前训练得到的实际概率分布与真实期望分布的差异情况。交叉熵的值越小，两个概率分布就越接近；训练过程中，交叉信息熵损失代价越低，模型与训练数据的契合度就越高。交叉信息熵损失函数的计算方式可表示如下：

其中，P(i)为第i个样本的真实标签，Q(i)为Softmax归一化后的预测概论值，N为样本数量。

进一步地，基于上述的方法，本发明实施例还提供一种融合多重注意力机制的多尺度遥感影像语义分割系统，包含：数据处理模块和语义分割模块，其中，

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种融合多重注意力机制的多尺度遥感影像语义分割方法，其特征在于，包含：

对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，所述多模态目标数据包含：单通道nDSM信息、三通道RGB信息及单通道Canny边缘信息；其中，将原始数据的RGB影像数据、地面高程模型DSM数据进行归一化处理，以分别获取对应的单通道nDSM信息、三通道RGB信息，并利用Canny边缘提取算子提取原始数据的边缘特征，将该边缘特征作为单通道Canny边缘信息；

利用预训练的语义分割模型对多模态目标数据进行推理预测，得到对应的分割结果，其中，语义分割模型采用由编码器和解码器构成的主干网络，所述编码器由对应单通道nDSM信息、三通道RGB信息和单通道Canny边缘信息的三分支网络结构组成，且在编码器不同分支网络结构之间设置有用于增强不同模态输入数据间特征融合的高程-边缘注意力机制，并在编码器和解码器之间设置有用于增强编码器和解码器信息融合的残差切片注意力机制，其中，残差切片注意力机制利用跳跃连接将编码器提取的不同尺度的特征连接到解码器相应尺度，并通过解码器中的残差切片注意力机制将特征图切分为大小相等的切片，对每个切片进行自适应池化，采用门控机制获取切片区域对应通道位置处的注意力响应图，并通过归一化运算和转置卷积运算使特征图尺寸恢复至输入的特征图大小；高程-边缘注意力机制对同一尺度的nDSM特征图和Canny边缘特征图进行连接，并对连接后的特征图计算其切片残差注意力响应图；并将特征图嵌入到RGB特征提取主干网络分支，在该主干网络分支中利用残差连接将nDSM特征图和Canny边缘特征图两者连接后计算的切片残差注意力响应图融合到RGB特征提取过程。

2.根据权利要求1所述的融合多重注意力机制的多尺度遥感影像语义分割方法，其特征在于，将原始数据的RGB影像数据进行归一化处理，包含：

3.根据权利要求1所述的融合多重注意力机制的多尺度遥感影像语义分割方法，其特征在于，将原始数据的地面高程模型DSM数据进行归一化处理，包含：

4.根据权利要求1所述的融合多重注意力机制的多尺度遥感影像语义分割方法，其特征在于，利用Canny边缘提取算子提取原始数据的边缘特征，包含：

5.根据权利要求1所述的融合多重注意力机制的多尺度遥感影像语义分割方法，其特征在于，所述编码器采用残差卷积单元的循环组合来实现，其中，残差卷积单元包含残差卷积层、归一化层和最大池化层；所述解码器由残差卷积层和转置卷积层组成，其中，转置卷积层用于对特征图尺度进行上采样，以使经过若干转置卷积层后特征图恢复至输入特征图的尺寸。

6.根据权利要求1所述的融合多重注意力机制的多尺度遥感影像语义分割方法，其特征在于，语义分割模型的预训练中，采用交叉信息熵作为多分类问题训练过程中的损失函数，该损失函数表示为：其中，P(i)为第i个样本的真实标签，Q(i)为Softmax归一化后的预测概论值，N为样本数量。

7.一种融合多重注意力机制的多尺度遥感影像语义分割系统，其特征在于，包含：数据处理模块和语义分割模块，其中，

数据处理模块，用于对遥感影像原始数据进行预处理，得到原始数据对应多模态目标数据，所述多模态目标数据包含：单通道nDSM信息、三通道RGB信息及单通道Canny边缘信息；其中，将原始数据的RGB影像数据、地面高程模型DSM数据进行归一化处理，以分别获取对应的单通道nDSM信息、三通道RGB信息，并利用Canny边缘提取算子提取原始数据的边缘特征，将该边缘特征作为单通道Canny边缘信息；

语义分割模块，用于利用预训练的语义分割模型对多模态目标数据进行推理预测，得到对应的分割结果，其中，语义分割模型采用由编码器和解码器构成的主干网络，所述编码器由对应单通道nDSM信息、三通道RGB信息和单通道Canny边缘信息的三分支网络结构组成，且在编码器不同分支网络结构之间设置有用于增强不同模态输入数据间特征融合的高程-边缘注意力机制，并在编码器和解码器之间设置有用于增强编码器和解码器信息融合的残差切片注意力机制，其中，残差切片注意力机制利用跳跃连接将编码器提取的不同尺度的特征连接到解码器相应尺度，并通过解码器中的残差切片注意力机制将特征图切分为大小相等的切片，对每个切片进行自适应池化，采用门控机制获取切片区域对应通道位置处的注意力响应图，并通过归一化运算和转置卷积运算使特征图尺寸恢复至输入的特征图大小；高程-边缘注意力机制对同一尺度的nDSM特征图和Canny边缘特征图进行连接，并对连接后的特征图计算其切片残差注意力响应图；并将特征图嵌入到RGB特征提取主干网络分支，在该主干网络分支中利用残差连接将nDSM特征图和Canny边缘特征图两者连接后计算的切片残差注意力响应图融合到RGB特征提取过程。