CN113780296B

CN113780296B - 基于多尺度信息融合的遥感图像语义分割方法及系统

Info

Publication number: CN113780296B
Application number: CN202111069170.1A
Authority: CN
Inventors: 杨公平; 薛广阔; 刘一锟; 李铭崧; 肖桃
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2024-02-02
Anticipated expiration: 2041-09-13
Also published as: CN113780296A

Abstract

本发明属于遥感图像语义分割技术领域，提供了基于多尺度信息融合的遥感图像语义分割方法及系统，首先获取遥感图像，并经过图像预处理后得到多个图像块；然后，采用遥感图像语义分割模型对图像块进行预测，得到各像素属于各类的预测结果。其中，遥感图像语义分割模型包括编码器和解码器；所述编码器采用以残差网络为骨干网络的特征金字塔网络，获取多尺度特征；所述解码器通过辅助上采样网络对多尺度特征进行融合，得到最终特征图。不会丢失太多细节信息，对物体尺度变化更加鲁棒，提高了分割模型的精度。

Description

基于多尺度信息融合的遥感图像语义分割方法及系统

技术领域

本发明属于遥感图像语义分割技术领域，尤其涉及基于多尺度信息融合的遥感图像语义分割方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着遥感卫星以及无人机等对地观测技术的快速发展，遥感图像的获取采集越来越方便，大型遥感图像数据集的构建同样水到渠成，为城市规划、资源利用、地物识别等应用领域提供了越来越准确的空间信息，同时满足了深度学习对于数据量的需求。

遥感图像分割是遥感图像分析、处理及利用的前提，而遥感图像中不同物体的最佳分割尺度不尽相同，例如，分割建筑、车辆、草地、树木以及道路的尺度是不同的，因此，需要对遥感图像进行多尺度的特征提取，以便利用多尺度信息得到更优的分割结果。利用多尺度的信息进行精细化分割，首先要通过某种方法构建出遥感图像的多尺度特征，在有充足数据的情况下，深度学习非常适合进行多尺度的特征提取，此步骤一般称为编码过程。在得到多尺度特征之后，需要对其进行信息融合，使得最终得到的特征包含多尺度的信息，这个过程一般称为解码过程。

但是，由于要融合不同分辨率的多尺度信息，解码过程不可避免的要涉及到恢复特征分辨率的操作。而目前大多数解码过程只是简单的将不同大小的多尺度特征，通过线性插值的方式直接上采样到相同分辨率下，这种解码过程虽然使得最终特征包含了多尺度的信息，但分辨率较小的特征被直接采样到原图大小，会使得到的特征信息不连续，丢失了很多细节信息，导致对物体主体区域的分割不连续、对物体边缘区域的分割不准确。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于多尺度信息融合的遥感图像语义分割方法及系统，利用注意力机制对由卷积神经网络得到的多尺度信息进行融合，不会丢失太多细节信息，对物体尺度变化更加鲁棒，提高了分割模型的精度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于多尺度信息融合的遥感图像语义分割方法，其包括：

获取遥感图像，并经过图像预处理后得到多个图像块；

采用遥感图像语义分割模型对图像块进行预测，得到各像素属于各类的预测结果；

其中，遥感图像语义分割模型包括编码器和解码器；所述编码器采用以残差网络为骨干网络的特征金字塔网络，获取多尺度特征；所述解码器通过辅助上采样网络对多尺度特征进行融合，得到最终特征图。

进一步的，所述图像预处理，包括：

利用滑动窗口将遥感图像剪裁成多个初始图像块，其中，滑动窗口的大小大于滑动窗口的移动步长；

对初始图像块进行随机水平、垂直翻转以及随机旋转的数据增强操作，得到增强后的图像块；

计算所有增强后的图像块的RGB三个通道的均值及标准差，对增强后的图像块像素值进行标准化，得到用于输入遥感图像语义分割模型的图像块。

进一步的，所述残差网络分为多个阶段进行特征提取，每个阶段对应不同尺度的残差特征。

进一步的，所述特征金字塔网络所拥有的阶段数与残差网络相同，每个阶段都会融合残差网络对应阶段的所述残差特征。

进一步的，所述辅助上采样网络，具体为：

对高层特征使用通道注意力，得到增强高层特征信息，对低层特征使用空间注意力，得到增强低层特征信息；

对增强高层特征信息经过两倍线性上采样以及平均池化处理，对增强低层特征信息经过卷积操作后，进行拼接，得到双尺度融合信息。

进一步的，在得到双尺度融合信息后，将双尺度融合信息与上采样后的高层特征再次进行拼接。

进一步的，所述遥感图像语义分割模型还包括预测器；

所述预测器以上采样后的最终特征图为输入；

所述预测器包含一个卷积层，该卷积层能将特征通道数映射到类别数，输出各像素属于各类的概率。

本发明的第二个方面提供基于多尺度信息融合的遥感图像语义分割系统，其包括：

预处理模块，其被配置为：获取遥感图像，并经过图像预处理后得到多个图像块；

图像分割模块，其被配置为：采用遥感图像语义分割模型对图像块进行预测，得到各像素属于各类的预测结果；

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多尺度信息融合的遥感图像语义分割方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多尺度信息融合的遥感图像语义分割方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了基于多尺度信息融合的遥感图像语义分割方法，其与其他方法那样直接从较低分辨率上采样到目标分辨率不同，本发明通过辅助上采样模块逐步结合低层特征信息以及高层特征信息得到目标分辨率特征，更好地融合了多尺度特征信息，不会丢失太多细节信息，对物体尺度变化更加鲁棒，进一步提高了分割模型的精度。

本发明提供了基于多尺度信息融合的遥感图像语义分割方法，其采用残差结构，使得网络更容易训练，最终得到泛化性更强、精度更高的分割模型。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于多尺度信息融合的遥感图像语义分割方法整体流程图；

图2是本发明实施例的特征提取网络的结构图；

图3是本发明实施例的辅助上采样网络的结构图；

图4是本发明实施例的通道注意力机制的结构图；

图5是本发明实施例的空间注意力机制的结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1-5所示，本实施例提供了基于多尺度信息融合的遥感图像语义分割方法，该方法利用注意力机制对由卷积神经网络得到的多尺度信息进行融合，可以将相近分辨率大小的特征图进行融合，逐步解码得到最终原图尺度的分割结果。本实施例提供的基于多尺度信息融合的遥感图像语义分割方法包括6个步骤：

1、获取遥感图像

作为一种实施方式，将原始数据集按照8:2的比例划分为训练集和测试集。其中，训练集用于训练遥感图像语义分割模型。

在具体使用过程中，直接将获取的遥感图像或者测试集中的遥感图像经过预处理后输入训练好的遥感图像语义分割模型中即可。

其中，遥感图像语义分割模型包括特征提取网络和预测器，如图2所示，特征提取网络包括编码器、解码器。

2、图像预处理

遥感图像通常具有较大的尺寸，受限于计算资源，遥感图像一般在进行剪裁后再送入特征提取网络。

(1)利用滑动窗口的方式将遥感图像剪裁成多个初始图像块，其中，滑动窗口的大小大于滑动窗口的移动步长，使得相邻两个初始图像块拥有公共区域；

作为一种实施方式，滑动窗口大小为896*896像素，每次滑动512像素，即滑动窗口的移动步长为512像素。

(2)对初始图像块进行随机水平、垂直翻转以及随机旋转90度的数据增强操作，得到增强后的图像块。

(3)计算所有增强后的图像块的RGB三个通道的均值及标准差，对增强后的图像块像素值进行标准化，得到用于输入遥感图像语义分割模型的编码器的图像块。

3、编码器编码过程——提取多尺度特征

本发明选择以残差网络ResNet-50为骨干网络的特征金字塔网络FeaturePyramid Network(FPN)作为多尺度特征提取网络，获取多尺度特征。其中，残差网络分为多个阶段进行特征提取，每个阶段对应不同尺度的残差特征；特征金字塔网络所拥有的阶段数与残差网络相同，每个阶段都会融合残差网络对应阶段的残差特征。

作为一种实施方式，如图2所示，残差网络ResNet-50分四个阶段提取特征，每个阶段对应不同尺度的残差特征，包括：第一残差特征C₂、第二残差特征C₃、第三残差特征C₄以及第四残差特征C₅；同时，残差网络ResNet-50在输入与输出之间建立了残差联系，使得网络在加深的同时可以更容易优化。

相对应的，特征金字塔网络FPN同样拥有四个阶段，特征金字塔网络FPN中每个阶段都会融合残差网络ResNet-50对应阶段的残差特征，从而融合高阶语义信息和低阶空间信息，提取多尺度特征，所提取的多尺度特征分别为第一尺度特征P₂、第二尺度特征P₃、第三尺度特征P₄以及第四尺度特征P₅。

具体的，基于第四残差特征C₅提取第四尺度特征P₅；将第四尺度特征P₅和第三残差特征C₄融合后，提取第三尺度特征P₄；将第三尺度特征P₄和第二残差特征C₃融合后，提取第二尺度特征P₃；将第二尺度特征P₃和第一残差特征C₂融合后，提取第一尺度特征P₂。

更具体的，特征C₂、C₃、C₄、C₅，以及特征P₂、P₃、P₄、P₅分别对应四个尺度的特征信息：以及/>其中，H和W分别代表输入图像块的高度和宽度，最后数字代表当前特征图的通道数。例如，当图像块分辨率为896*896时，最终得到的多尺度信息分辨率分别为224*224*256、128*128*512、64*64*1024以及32*32*2048。

4、解码器解码过程——获得多尺度融合特征

在卷积神经网络中，尺度较小的特征属于高层特征信息，其分辨率小但包含更丰富的语义信息，尺度较大的特征属于低层特征信息，其分辨率大且包含更多空间信息。

注意力机制在深度学习中是一种重要的学习机制，其本质是一种特征加权的方法，该机制可以增加重要元素的权重，降低次要元素的权重，现有注意力方法主要有通道注意力与空间注意力两种，通道注意力以及空间注意力分别关注特征在通道信息以及空间信息上的重要性。作为一种实施方式，如图4所示，对于输入特征F，通道注意力首先利用全局平均池化获得每个通道的特征表示F_global，随后通过全连接层学习每个通道的权重，并通过Sigmoid函数将权重归一化至0～1之间，得到通道注意力向量F_attention，利用通道注意力F_attention与输入特征F进行逐通道相乘，最终得到加权特征F_weighted；作为一种实施方式，如图5所示，对于输入特征F，空间注意力首先在通道维度上进行平均池化和最大池化，高效地得到特征图的空间表示F_avg以及F_max，对拼接后的F_avg以及F_max进行卷积操作，并通过Sigmoid函数得到归一化的空间注意力矩阵F_attention，利用空间注意力F_attention与输入特征F进行逐像素相乘，最终得到加权特征F_weighted。特别的，注意力机制得到的加权特征F_weighted与输入特征F在分辨率以及通道数上都是相同的。

本发明通过辅助上采样网络对多尺度特征信息进行融合，得到最终特征图，即利用注意力机制分别对不同尺度的特征信息进行增强。

其中，如图3-5所示，辅助上采样网络具体为：辅助上采样网络首先对高层特征使用通道注意力，对低层特征使用空间注意力；随后拼接高层特征信息以及低层特征信息，得到双尺度融合信息，其中，高层特征信息经过两倍线性上采样以及平均池化处理，低层特征信息经过卷积操作。本发明在得到双尺度融合信息后，将得到的双尺度融合信息与上采样后的高层特征信息再次进行拼接。

具体步骤如下：

(1)首先，对于尺度分别为以及尺度/>的第三尺度特征P₄以及第四尺度特征P₅，将第四尺度特征P₅作为高层特征，将第三尺度特征P₄作为低层特征。

(1-1)通过辅助上采样网络对多尺度信息进行融合，即利用注意力机制分别对两个尺度的特征信息进行增强，具体做法为对高层特征使用通道注意力，得到增强高层特征信息，对低层特征使用空间注意力，得到增强低层特征信息。

(1-2)利用低层特征信息中蕴含的空间信息对高层特征信息做补充，具体做法是：对增强高层特征信息经过两倍线性上采样以及平均池化处理，对增强低层特征信息经过卷积操作后，进行拼接高层特征信息以及低层特征信息，得到双尺度融合信息。

(1-3)由于残差结构能够使得网络更容易优化，将得到的双尺度融合信息与上采样后的高层特征再次进行拼接。

得到此阶段分辨率为的尺度融合信息，记为初级特征图F₄。

(4)将初级特征图F₄作为高层特征，将第二尺度特征P₃作为低层特征，重复步骤(1-1)-(1-3)，获得融合三种尺度且分辨率为的特征，记为中级特征图F₃。

(5)将中级特征图F₃作为高层特征，将第一尺度特征P₂作为低层特征，重复步骤(1-1)-(1-3)，获得融合了四种尺度且分辨率为的多尺度融合信息，记为最终特征图F₂。

5、将最终特征图送入预测器进行预测，并根据标签计算损失值

本发明将多尺度融合信息F₂作为最终特征图，经过上采样后送入预测器，即预测器以上采样后的最终特征图为输入。预测器包含一个卷积核大小为1*1的卷积层，该卷积层同时能将特征通道数映射到类别数，从而输出各像素属于各类的概率，以此实现逐像素的分类。

预测结果共包含六个通道，分别对应背景、道路、建筑、草地、树木以及汽车六类。

预测器在训练过程中，将预测结果与图像块标签进行对比，以交叉熵函数作为损失函数，计算损失值，并进行梯度的反向传播，以此更新模型参数。进一步的，所述交叉熵损失函数的表达式如下：

其中，N属于样本数，此处是每个图像块的像素数量；M为类别数，此处值为6，i代表图像块中的第i个像素点，其取值范围为{1,2,3,...,N}；j代表第j类，其取值范围为{1,2,...,M}；y_ij为符号函数，若样本i的真实类别等于j则取1，否则取0；p_ij为样本i属于类别j的概率值。

6、得到训练好的模型，对遥感图像进行分割

本发明在训练过程中使用SGD优化器，动量设为0.9，权值衰减系数设为0.0001，初始化学习率设为0.007，学习率通过多项式衰减策略逐渐降低，批次大小设为4，即每次训练同时读取四个图像块，共进行60000次迭代，每步均计算损失函数并进行梯度反向传播。通过观察损失函数的变化曲线，在损失函数平稳后选取模型作为最终模型。

测试阶段，本发明对图像的剪裁与训练过程保持一致，即将测试图像通过滑动窗口的方法剪裁成多个图像块，其中滑动窗口大小为896*896像素，每次滑动512像素。给定任意一张测试图像I，在测试过程中，记录下每个图像块相对于图像I的位置信息，随后将各个图像块送入训练好的遥感图像语义分割模型，模型会以概率的形式输出各像素点属于各类的预测结果。对于两个图像块间的重叠像素点，本发明根据图像块相对于图像I的位置信息，对每个像素点每类的概率求均值，以均值作为该像素点的最终预测结果，若像素点被多个图像块覆盖，同样按照求均值的原则计算最终预测结果。进一步的，将图像I剪裁出的所有图像块按照上述原则组合起来，就形成了图像I最终的分割结果。

本发明提供了一种基于多尺度信息融合的遥感图像语义分割方法，克服了现有分割算法在遥感图像分割领域的不足，对物体尺度变化更加鲁棒，进一步提高了分割模型的精度以及泛化能力；与其他方法那样直接从较低分辨率上采样到目标分辨率不同，本发明通过辅助上采样网络逐步结合低层特征信息以及高层特征信息得到目标分辨率特征，更好地融合了多尺度特征信息，不会丢失太多细节信息，同时采用残差结构，使得网络更容易训练，最终得到泛化性更强、精度更高的分割模型。

实施例二

本实施例提供了基于多尺度信息融合的遥感图像语义分割系统，其具体包括如下模块：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多尺度信息融合的遥感图像语义分割方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多尺度信息融合的遥感图像语义分割方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多尺度信息融合的遥感图像语义分割方法，其特征在于，包括：

获取遥感图像，并经过图像预处理后得到多个图像块；

其中，遥感图像语义分割模型包括编码器和解码器；所述编码器采用以残差网络为骨干网络的特征金字塔网络，获取多尺度特征；所述解码器通过辅助上采样网络对多尺度特征进行融合，得到最终特征图；

所述辅助上采样网络，具体为：

对增强高层特征信息经过两倍线性上采样以及平均池化处理，对增强低层特征信息经过卷积操作后，进行拼接，得到双尺度融合信息；

在得到双尺度融合信息后，将双尺度融合信息与上采样后的高层特征再次进行拼接；

所述遥感图像语义分割模型还包括预测器；

所述预测器以上采样后的最终特征图为输入；

所述预测器包含一个的卷积层，该卷积层能将特征通道数映射到类别数，输出各像素属于各类的概率，具体为：

利用滑动窗口的方式将遥感图像剪裁成多个初始图像块，滑动窗口的大小大于滑动窗口的移动步长，使得相邻两个初始图像块拥有公共区域；给定任意一张测试图像I，记录下每个图像块相对于图像I的位置信息，将各个图像块送入训练好的遥感图像语义分割模型，模型以概率的形式输出各像素点属于各类的预测结果；两个图像块间的重叠像素点或像素点被多个图像块覆盖，根据图像块相对于图像I的位置信息，对每个像素点每类的概率求均值，以均值作为该像素点的最终预测结果；将图像I剪裁出的所有图像块组合，形成图像I最终的分割结果。

2.如权利要求1所述的基于多尺度信息融合的遥感图像语义分割方法，其特征在于，所述图像预处理，包括：

3.如权利要求1所述的基于多尺度信息融合的遥感图像语义分割方法，其特征在于，所述残差网络分为多个阶段进行特征提取，每个阶段对应不同尺度的残差特征。

4.如权利要求3所述的基于多尺度信息融合的遥感图像语义分割方法，其特征在于，所述特征金字塔网络所拥有的阶段数与残差网络相同，每个阶段都会融合残差网络对应阶段的所述残差特征。

5.基于多尺度信息融合的遥感图像语义分割系统，基于如权利要求1-4所述的基于多尺度信息融合的遥感图像语义分割方法，其特征在于，包括：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于多尺度信息融合的遥感图像语义分割方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于多尺度信息融合的遥感图像语义分割方法中的步骤。