CN115187775A

CN115187775A - 一种遥感图像语义分割方法及装置

Info

Publication number: CN115187775A
Application number: CN202210478048.8A
Authority: CN
Inventors: 李鑫; 许峰; 叶保留; 刘凡; 吕鑫; 徐振楠
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-10-14

Abstract

本发明公开了一种遥感图像语义分割方法及装置，该方法在通用编码器‑解码器网络架构下，分别强化编码器的特征提取能力和解码器的特征融合能力，在编码器阶段，针对空间位置间和通道间关联关系的提取，提出了稀疏空间注意力模块和稀疏通道注意力模块，以少量的计算代价实现表征增强；在解码器阶段，针对采样损失和多级别特征融合问题，提出了一种数据依赖上采样的多级别特征融合策略，通过可学习的方式减少特征恢复阶段的损失，保证表征转化过程中的保真度。本发明不仅能够适用于多分辨率的卫星遥感图像和无人机遥感图像分割，而且具有较高的分类精度和运行效率。

Description

一种遥感图像语义分割方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种遥感图像语义分割方法及装置。

背景技术

近年来，遥感图像精准解译在自然资源管理、生态环境保护、智慧城市规划等领域发挥出日渐关键的作用。然而在实际的生产应用中，深度神经网络模型的部署落地受限于设备限制和模型精度两方面因素。针对以上问题，当前对神经网络中特征的空间域和通道域依赖关系捕捉与引入，对于已编码特征的优化具有直接的影响。此外，在解码器阶段，如何有机地融合多级别特征映射并保证低损失的采样恢复，对于最终的概率化推理具有至关重要的支撑作用。

目前，深度卷积神经网络进一步发展，其强大的特征学习和表达能力，特别是在自然图像处理领域取得的显著成果，使其成为遥感图像语义分割的重要方法。全卷积神经网络的提出推动了遥感图像语义分割任务性能的显著提升，以卷积作为基本单元构建的遥感图像语义分割网络模型成为主流。此后，随着编码器-解码器神经网络结构的定义和发展，逐步采样恢复的过程能够显著减少特征的转换损失，使语义分割的精度得到进一步强化。

现有技术主要以卷积神经网络为基本单元构建卷积编码-解码语义分割网络进行语义分割，在编码器阶段，尽管对局部的特征模式进行了较为完整的学习，却忽略了远距离依赖关系对于特征表达的强化能力，且其无法对空间域和通道域层面的关联关系进行全面捕捉。在解码器阶段，逐步采样恢复的解码器尽管能够实现较好的损失控制，但是广泛采用的双三次上采样引入不可避免的转换损失。

发明内容

本发明的目的在于提供一种遥感图像语义分割方法及装置，以少量矩阵计算为代价，增强表征可区分度，提高语义分割的精度。

为达到上述目的，本发明采用的技术方案如下：

本发明提供一种遥感图像语义分割方法，包括：

将遥感图像数据输入训练好的编码器骨架网络进行编码形成的特征映射矩阵；

对所述特征映射矩阵进行处理，得到具有空间依赖强化的特征映射F_p以及具有通道依赖强化的特征映射F_c，并进行级联，得到具有上下文信息的特征映射；

将所述具有上下文信息的特征映射输入多级别特征融合解码器进行解码，恢复到与原始输入遥感图像大小一致，得到语义分割结果。

进一步的，还包括，训练编码器骨架网络如下：

获取原始遥感图像数据及人工标注的地面真值分别进行子块切割，并对原始遥感图像进行数字化比特拉伸，按照固定比率随机划分训练集、验证集和测试集；

将训练集输入编码器骨架网络，得到编码形成的特征映射矩阵

其中C，H，W分别指当前特征映射的通道数、高度和宽度；

将编码器骨架网络输出的特征映射矩阵输入并行的稀疏空间注意力模块和稀疏通道注意力模块，分别获得具有空间依赖强化的特征映射F_p以及具有通道依赖强化的特征映射F_c，并进行级联叠加，形成具有上下文信息的特征映射；

将所述具有上下文信息的特征映射输入多级别特征融合解码器，进行解码，得到语义分割结果，并恢复到与原始输入遥感图像大小一致；

将得到的语义分割结果与地面真值进行对比，计算损失，反馈调节编码器骨架网络参数；通过不断训练，得到训练好的编码器骨架网络。

进一步的，对所述特征映射矩阵进行处理，得到具有空间依赖强化的特征映射F_p，包括：

将编码器骨架网络输出的特征映射矩阵进行1×1卷积处理后，通过金字塔池化操作进行重采样特征锚点；

计算编码器骨架网络输出的特征映射矩阵F与重采样特征锚点矩阵P₂的相似度矩阵构建稀疏的空间注意力矩阵A_p，矩阵中的元素A_p(i,j)计算如下：

其中，

表示重采样后特征锚点矩阵中第j个位置特征与输入特征映射中第i个位置特征的关联关系，

为特征映射矩阵

经过1×1卷积过后转置构成，F₁(i)为F₁中第i个位置特征，P₁(j)为重采样后特征锚点矩阵中第j个位置特征，C，H，W分别为特征映射矩阵的通道数、高度和宽度，L为重采样的特征锚点总数；

根据空间注意力矩阵A_p计算具有空间依赖强化的特征映射F_p如下：

其中，

表示重采样的特征锚点矩阵，

为注意力矩阵A_p的转置，μ为可学习的协调参数。

进一步的，对所述特征映射矩阵进行处理，得到具有通道依赖强化的特征映射F_c，包括：

将编码器骨架网络输出的特征映射矩阵进行1×1卷积操作，得到通道压缩后的特征映射；

计算所有通道特征与通道压缩后的特征映射的关系矩阵，构建稀疏的通道注意力矩阵A_c，矩阵中的元素A_c(i,j)计算如下：

其中，F_s1(i)表示通道压缩后的特征映射F_s1的第i个通道特征，C₁(j)表示输入的特征映射矩阵F的第j个通道特征，S为通道压缩后的特征点数；

根据通道注意力矩阵A_c计算通道依赖强化的特征映射F_c如下：

其中，γ是可学习的协调参数，

是通道压缩后的特征映射F_s1的转置，

为输入的特征映射矩阵，C，H，W分别为特征映射矩阵的通道数、高度和宽度。

进一步的，将所述具有上下文信息的特征映射输入多级别特征融合解码器进行解码，包括：

对级联后形成的具有上下文信息的特征映射F_d(i)按如下方式进行逐阶段融合，得到与原始输入遥感图像同等空间尺寸的特征映射：

其中，

表示融合后的特征映射，

表示元素间加和，f_d(·)表示数据依赖上采样，i表示编码器骨架网络中的不同阶段；

将融合恢复后的特征映射通过Softmax函数进行概率化推理，根据最大类别概率原则确定目标像素的归属。

进一步的，还包括：

设置不同阶段特征映射的空间尺寸与待恢复的原始尺寸间比例为：

其中，

表示F_d(i)的空间尺寸，H×W表示原始图像大小。

本发明还提供一种遥感图像语义分割装置，包括：

编码器骨架网络，用于将遥感图像数据进行编码形成的特征映射矩阵；

稀疏模块，用于对所述特征映射矩阵进行处理，得到具有空间依赖强化的特征映射F_p以及具有通道依赖强化的特征映射F_c，并进行级联，得到具有上下文信息的特征映射；

解码器，用于对级联后形成的具有上下文信息的特征映射进行融合解码，恢复到与原始输入遥感图像大小一致，得到语义分割结果。

进一步的，所述编码器骨架网络采用VGG 19。

进一步的，所述稀疏模块包括并行的稀疏空间注意力模块和稀疏通道注意力模块两个分支，

所述稀疏空间注意力模块用于，

其中，

为特征映射矩阵

其中，

表示重采样的特征锚点矩阵，

为注意力矩阵A_p的转置，μ为可学习的协调参数；

所述稀疏通道注意力模块用于，

其中，γ是可学习的协调参数，

是通道压缩后的特征映射F_s1的转置，

进一步的，所述解码器包括多级别特征融合模块，所述多级别特征融合模块具体用于，

其中，

表示融合后的特征映射，

将融合恢复后的特征映射通过Softmax函数进行概率化推理，根据最大类别概率原则确定目标像素的归属；

还用于，

其中，

表示F_d(i)的空间尺寸，H×W表示原始图像大小。

与现有技术相比，本发明达到的有益效果为：

1、本发明所提出的语义分割方法，在编码器阶段，针对空间位置间和通道间关联关系的提取，提出了稀疏空间注意力模块和稀疏通道注意力模块，以少量的计算代价实现表征增强；在解码器阶段，针对采样损失和多级别特征融合问题，提出了一种数据依赖上采样的多级别特征融合策略，通过可学习的方式减少特征恢复阶段的损失，保证表征转化过程中的保真度。

2、本发明利用编码器-解码器的稳定性，结合注意力机制为主的视觉表征优化理论和多源特征融合理论，实现高精度和低时间消耗的模型训练和预测。本发明方法不仅能够适用于多分辨率的卫星遥感图像和无人机遥感图像分割，而且具有较高的分类精度和运行效率。

附图说明

图1是本发明实施例提供的遥感图像语义分割方法原理图；

图2是本发明实施例提供的多级别特征融合示例；

图3是本发明实施例中DeepGlobe实验数据及结果示意图；

图4是本发明实施例中ISPRS Potsdam实验数据及结果示意图。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例提供一种遥感图像语义分割方法，参见图1，具体实现过程如下：

(1)对原始遥感图像数据及人工标注的地面真值分别进行子块切割，并对原始遥感图像进行数字化比特拉伸，最后按照固定比率随机划分训练集、验证集和测试集；

(2)将训练集输入编码器骨架网络，得到编码形成的特征映射矩阵

其中C，H，W分别指当前特征映射的通道数、高度和宽度。

(3)将编码器骨架网络输出的特征映射矩阵输入并行的稀疏空间注意力模块和稀疏通道注意力模块两个分支，分别获得具有空间依赖强化的特征映射F_p以及通道依赖强化的特征映射F_c。

(4)将得到的具有空间依赖强化的特征映射F_p以及通道依赖强化的特征映射F_c进行级联叠加，形成用于解码推理的涵盖丰富上下文信息的特征映射。

(5)将级联后形成的特征映射输入多级别特征融合解码器，依赖上采样，逐步扩大特征映射空间尺寸，直至恢复到与原始输入遥感图像大小一致。

(6)将产生预测结果与地面真值进行对比，计算损失，反馈调节网络参数。通过不断训练，得到训练好的骨架网络。

(7)将待预测遥感图像数据，输入至已训练好的骨架网络，得到图像中像素的语义分割结果。

作为一种优选的实施方式，本实施例中，采用VGG 19作为编码器骨架网络，逐步提取更高级的特征映射，得到经过19层卷积神经网络及池化后的特征映射

其中C，H，W分别指当前特征映射的通道数、高度和宽度。

作为一种优选的实施方式，本实施例中，将编码器骨架网络输出的特征映射矩阵输入稀疏空间注意力模块。在稀疏空间注意力模块操作过程如下：将编码器骨架网络输出的特征映射矩阵进行1×1卷积处理；再通过金字塔池化操作进行重采样特征锚点，重采样后的特征锚点总数相比于原始特征中像素数量有显著减少；最后通过计算编码器骨架网络输出的特征映射矩阵与重采样特征锚点的相似度矩阵构建稀疏的空间注意力矩阵A_p，矩阵中的元素A_p(i,j)计算如下：

其中

表示重采样后特征映射中第j个位置特征与输入特征映射中第i个位置特征的关联关系，

为原始特征

经过1×1卷积过后转置构成，F₁(i)为F₁中第i个位置的特征，P₁(j)为重采样后特征映射中第j个位置的特征，L为重采样的特征锚点总数。

根据空间注意力矩阵计算具有空间依赖强化的特征映射F_p如下：

其中，

表示稀疏空间注意力模块优化后的特征，

表示重采样的特征锚点矩阵，

为注意力矩阵A_p的转置，

为输入的特征映射矩阵，μ为可学习的协调参数。

特别地，假定特征映射输入H×W＝256×256时，顶部稀疏空间注意力模块矩阵运算的复杂度大约是原始计算的1/1311。

作为一种优选的实施方式，本实施例中，将编码器骨架网络输出的特征映射矩阵输入稀疏通道注意力模块。在稀疏通道注意力模块操作过程如下：将编码器骨架网络输出的特征映射矩阵进行1×1卷积操作，得到通道压缩后的特征映射；计算所有通道与压缩后通道的关系矩阵，构建稀疏的通道注意力矩阵A_c，矩阵中的元素A_c(i,j)计算如下：

其中F_s1(i)表示通道压缩后的特征映射F_s1的第i个通道特征，C₁(j)表示输入的特征映射矩阵的第j个通道特征，A_c(i,j)表示二者之间的关联关系。

根据通道注意力矩阵计算通道依赖强化的特征映射F_c如下：

其中，

表示稀疏通道注意力模块优化后的特征，γ是可学习的协调参数，

是特征映射F_s1的转置，

为输入的特征映射矩阵，S为通道压缩后的特征点数。

特别地，假定通道重采样为S，且远小于C，底部稀疏通道注意力模块阵运算的复杂度大约是原始计算的S/C。

作为一种优选的实施方式，本实施例中，将级联后形成的特征映射输入多级别特征融合解码器，依赖上采样，逐步扩大特征映射空间尺寸，参见图2，具体实现过程如下：

设定级联后形成的特征映射为F_d(i)，其中i表示编码器中的不同阶段，与骨架网络选取有关，在本实施例中编码器共经过5个阶段，即1≤i≤5。

解码阶段主要考虑空间尺寸的大小变化，因此通道数暂不做表示，则不同级别特征映射的空间尺寸与待恢复的原始尺寸间比例可定义为：

其中

表示F_d(i)的空间尺寸，H×W在此处表示原始图像大小。

因此相邻级别特征融合过程可归纳为：

其中

表示融合后的特征，

表示元素间加和(类似于残差计算)，f_d(·)表示数据依赖上采样。

为保证特征的保真度和低扭曲，每个特征尺寸都融入编码器相应阶段的特征映射。最终，将融合恢复后的特征映射通过Softmax函数进行概率化推理，根据最大类别概率原则确定目标像素的归属。

特别的，初始化设置i为5，则在解码阶段需要进行四次融合操作，最终可得到与原始输入遥感图像同等空间尺寸的特征映射。

实施例2

本实施例提供一种遥感图像语义分割装置，包括：

编码器骨架网络，用于对遥感图像进行编码，得到特征映射矩阵

其中C，H，W分别指当前特征映射的通道数、高度和宽度；

稀疏模块，用于对所述特征映射矩阵进行处理，得到具有空间依赖强化的特征映射F_p以及具有通道依赖强化的特征映射F_c，并级联叠加，输出涵盖丰富上下文信息的特征映射；

解码器，用于对级联后形成的特征映射进行行融合解码，恢复到与原始输入遥感图像大小一致，得到语义分割结果。

作为一种优选的实施方式，编码器骨架网络采用VGG 19，逐步提取更高级的特征映射，得到经过19层卷积神经网络及池化后的特征映射

其中C，H，W分别指当前特征映射的通道数、高度和宽度。

作为一种优选的实施方式，稀疏模块包括并行的稀疏空间注意力模块和稀疏通道注意力模块两个分支，

顶部分支稀疏空间注意力模块用于，将编码器骨架网络输出的特征映射矩阵进行1×1卷积处理；通过金字塔池化操作进行重采样特征锚点；通过计算特征映射所有像素与重采样特征锚点的相似度矩阵构建稀疏的空间注意力矩阵A_p，矩阵中的元素A_p(i,j)计算如下：

其中，

为特征映射矩阵

其中，

表示重采样的特征锚点矩阵，

为注意力矩阵A_p的转置，μ为可学习的协调参数。

底部分支稀疏通过注意力模块用于，将编码器骨架网络输出的特征映射矩阵进行1×1卷积操作，得到通道压缩后的特征映射；计算原始所有通道特征与压缩后通道特征的关系矩阵，构建稀疏的通道注意力矩阵A_c，矩阵中的元素A_c(i,j)计算如下：

其中，γ是可学习的协调参数，

是通道压缩后的特征映射F_s1的转置，

作为一种优选的实施方式，解码器包括多级别特征融合模块，多级别特征融合模块具体用于，

将将级联后形成的特征映射按如下方式进行逐阶段融合：

其中，

表示融合后的特征，

表示元素间加和(类似于残差计算)，f_d(·)表示数据依赖上采样，F_d(i)为级联后形成的特征映射，其中i表示编码器骨架网络中的不同阶段。

进一步的，多级别特征融合模块设置不同级别特征映射的空间尺寸与待恢复的原始尺寸间比例为：

其中，

表示F_d(i)的空间尺寸，H×W在此处表示原始图像大小。

实施例3

本实施例采用两个不同的数据集，分别是DeepGlobe卫星遥感图像数据集和ISPRSPotsdam无人机遥感图像数据，采用实施例1的方法进行语义分割，最终语义分割结果如图3和图4所示。可知，采用本发明实施例方法能够适用于卫星遥感图像和无人机遥感图像，验证了通过空间重采样计算稀疏空间注意力并且压缩特征通道计算稀疏通道注意力优化特征映射后，图像分割的预测结果精度表现突出，模型预测生成的标注结果与地面真值具有高度的一致性，边界吻合度较高，主对象区域内部连续性较好。

实施例4

本实施例提供一种计算设备，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例1中的一种遥感图像语义分割方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。