CN112580654A

CN112580654A - 遥感图像地物语义分割方法

Info

Publication number: CN112580654A
Application number: CN202011565919.7A
Authority: CN
Inventors: 庄旭; 袁鑫; 贾莹; 尹可鑫; 张乾君
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: CETC 10 Research Institute; Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30

Abstract

本发明公开的一种遥感图像地物语义分割方法，旨在提高遥感图像地物分割精准度，解决边缘识别不够精细的问题。本发明通过下述技术方案实现：构建金字塔场景解析网络，把具备较强图像特征挖掘能力的网络模型从相关领域中迁移至语义分割网络模型，从通道维度挖掘遥感影像所包含的信息；结合通道注意力机制挖掘遥感影像所包含的光谱信息和数据相关型上采样模块对不同空间尺度的特征图上采样至原始特征图大小并与原始特征图进行拼接；采用损失函数塔有效地降低梯度消失和梯度爆炸风险，采用基于IoU的损失函数进一步提升图像边缘的预测效果；用标注后的训练数据训练网络模型，将测试集数据输入优化后的语义分割网络模型，识别影像中的不同地物。

Description

遥感图像地物语义分割方法

技术领域

本发明属于遥感图像语义分割技术领域，特别是涉及一种基于深度神经网络的遥感图像地物语义分割方法。

背景技术

遥感技术的发展推动遥感图像数据爆发式增长,并呈现出更高分辨率、更大幅宽的趋势。所谓遥感，是从远距离感知目标物，也即从远距离探测目标物的物性。“遥”具有空间概念，从近地空间，外层空间乃至宇宙空间来获取目标物的空间信息。“感”系指信息系统，包括信息获取和传输、信息加工处理、信息分析和可视化系统等。遥感(Remote)，是从远处探测、感知物体或事物的技术。即不直接接触物体本身，从远处通过各种传感器探测和接收来自目标物体的信息，经过信息的传输及其处理分析，来识别物体的属性及其分布等特征的综合技术。狭义遥感是指不与目标物接触，从远处用探测器接收来自目标物的电磁波信息，通过对信息的处理和分析研究，确定目标的属性及目标物的相互间的关系。语义分割网络在自然场景图像中展现了强大的特征提取能力。遥感所收集的信息是由目标物反射或发射的电磁波信息。遥感之所以能够根据收集到电磁波信息来解析地面目标物和现象，是由于不同的物体种类及其所处环境具有完全不同的电磁波的反射或发射辐射的特性。遥感卫星为卫星遥感活动的主体，包括气象卫星、资源卫星、海洋卫星和雷达卫星，统称为环境卫星系列。语义分割网络在自然场景图像中展现了强大的特征提取能力。卫星遥感图像反映地物目标电磁辐射特性的空间分布状况,广泛应用于环境监测、城市建设等领域。卫星遥感图像区别于普通三通道图像(RGB图像)，它含有包含丰富的地物信息和光谱信息,处理过程复杂,如何实现遥感图像的智能解译一直是学术界和工业界面临的难题。传统的无监督聚类方法和机器学习方法很难充分利用影像的空间特征，无法实现高精度的地物分割。普通的像元分类方法，如支持向量机(SVM)和随机森林(RF)等，只能提取出像元统计特征和植被指数特征，无法得到遥感影像中丰富的空间信息，特征表达能力有限，得到的分割结果边缘较为粗糙，识别精度不高。并且通过统计机器学习方法得到的像元分类结果，还需要进行结果拼接才能生成地物分割结果影像，时间成本相对较高。从高分辨遥感影像上提取与识别地物的位置、形状、类别是后续高层处理的关键步骤,因此,高分辨率遥感影像分割,尤其是语义分割已经成为该领域重要的问题之一。现有的语义标注方法对遥感场景中复杂背景引入的噪声敏感，对多尺度地物要素的语义感知能力差。通常使用空洞卷积来提升卷积神经网络的特征感受野，然而目前多尺度带孔结构包含感受野大小和种类有限，仍然无法标注高分辨率遥感场景中复杂的地物要素，难以在多尺度要素造成大类间差异的情况下进行语义信息的获取。现有方法通常直接对多模态图像或特征直接进行合并或相加，其特征学习完全依赖卷积神经网络的性能，忽略了不同模态固有的数据结构、特征复杂程度的差异，容易引入冗余的特征，造成标注性能降低，网络规模和参数量冗余。这些方法在解决特定目标的划分或者对特定的数据集可以达到较高的准确率,但在不同物体不同数据集上不具备很好的适用性。

从高分辨遥感影像上提取与识别地物的位置、形状、类别是后续高层处理的关键步骤,因此,高分辨率遥感影像分割,尤其是语义分割已经成为该领域重要的问题之一。随着遥感影像空间分辨率的提高,地物纹理细节更加丰富,海量的遥感影像数据也随之到来。由于地物类别在遥感图像上分布不平衡,不同分割目标边缘易重叠,个别分割目标尺度较小,纹理细节难以分辨。高分辨率遥感影像中包含不同尺度的地物,需要综合不同大小感受野下的特征才能满足高分辨率遥感影像各类地物被精准地分割。然而基于普通图像的语义分割方法在遥感图像中性能不高。由于遥感数据量大,遥感图像又具有种类多、纹理复杂等特点,传统的方法越来越难以适应海量数据,并且传统方法依赖人工设计的特征,这是非常耗时的。传统分割方法应用受到极大限制。图像分割就是根据某种均匀性(或一致性)原则将图像分成若干个有意义的部分，使得每一部分都符合这种一致性要求，而任意两个相邻区域的合并都会破坏这种不一致性原则。

随着遥感技术的飞速发展，遥感数据的价值逐步体现，无论是国防军事，还是商业应用，对遥感影像信息自动提取均有迫切需求。语义分割是通过机器自动识别图像中内容的技术，它是遥感影像信息提取的重要前提，在此基础上能够进行广泛的研究与应用。

面对含有多个通道的遥感影像：传统遥感图像分析领域大多使用光学上的各种指数通过阈值法进行分割，这样虽然可以利用地物的光谱反射率作为分割的判断依据，但却忽略了大量的空间信息；深度学习语义分割领域，大多仅使用红、绿、蓝、近红外四通道作为网络输入，着重学习地物的空间纹理特征，却又忽略了地物的光谱信息。

Encoder-Decoder模型在语义分割模型中是常用的框架之一，其主要的流程是使用卷积操作对图像进行特征学习，但是学习到的特征往往是原始图像大小的1/16，或者1/32。因此在解码端需要将这个特征表示上采样到原始图像大小，作为最终的预测结果。在之前的工作中大都选择双线性插值的方法来进行上采样，虽然这种方法取得了一些不错的效果，但是这种过于简单且与数据无关的双线性上采样可能会导致次优结果。在深度学习领域，工业上现有的算法大多基于ResNet+FCN结构或以UNet为基础的结构对图像进行语义分割，这些模型结构在解决特定目标的划分或者对特定的数据集可以达到较高的准确率，但是由于忽略了地物光谱信息，导致其在不同的数据集上不具备很好的适用性。

发明内容

本发明针对复杂场景的高分辨率遥感图像,旨在提高遥感图像地物分割精准度，解决边缘识别不够精细的问题，提出了一种基于深度神经网络的遥感图像地物语义分割方法。

为达到上述目的，本发明采用的技术方案是：一种遥感图像地物语义分割方法，包括步骤：

下载卫星遥感影像数据，对影像数据中的地物类别进行像素级标注，将多通道的遥感影像直接作为神经网络的输入，以金字塔场景解析网络PSPNet为主干网络挖掘遥感影像空间信息，并以通挖掘遥感影像通道信息的语义分割网络模型，把具备较强图像特征挖掘能力的网络模型从相关领域中迁移至语义分割网络模型，作为主干网BackBone的知识结构；用金字塔场景解析模块提取不同空间尺度的空间特征，挖掘遥感影像的空间信息，通道注意力模块FC-Attention辅助结构从通道维度进一步挖掘遥感影像所包含的通道信息；然后采用数据相关型的上采样模块DUpSample，对不同空间尺度融合后的特征图上采样至原始特征图大小，并与原始特征图进行拼接，用针对性更强的损失函数Lovasz Loss优化网络模型，利用反向传播，在每一个小批量梯度下降训练时更新各模块的权值，使用标注后的训练数据，对上述语义分割网络模型进行优化训练；通过辅助损失函数构建损失函数塔，共同对语义分割网络模型进行优化，有效地降低梯度消失和梯度爆炸风险后，使用标注后的训练数据训练网络模型，将测试集数据输入优化后的语义分割网络模型，识别影像中的不同地物，验证模型效果。

本发明相比于现有技术具有如下有益效果：

本发明将多通道的遥感影像直接作为神经网络的输入，将具备较强图像特征挖掘能力的网络模型从相关领域中迁移其知识结构作为分割模型的BackBone。语义分割网络模型的BackBone能够把具备较强图像特征挖掘能力的网络模型从相关领域中迁移至语义分割网络模型。如DenseNet能通过特征在通道之间的连接来实现特征复用，EfficientNet利用复合模型扩张方法结合神经结构搜索技术获得一个具备更强空间尺度融合能力的基线网络。通过直接用经典网络提取深层特征，扩大感受野，能够完成或改进语义分割领域或任务的学习效果。

本发明将PSPNet网络作为模型的主干结构，PSPNet网络结构包含金字塔场景解析模块，能够提取不同空间尺度的空间特征，挖掘遥感影像的空间信息。深度可分离卷积能够执行空间卷积且保持通道独立，结合FC-Attention结构的通道注意力机制，学习地物反射光谱之间的相互关系，能够从通道维度进一步挖掘遥感影像所包含的信息。准确的感知场景依赖于事先理解的场景语境信息。金字塔场景解析网络(PSPNet)除了使用传统扩展后的FCN进行像素级类别预测外，还将像素级特征扩展到专门设计的全局金字塔池化模块，局部和全局线索的结合可使最终的预测结果更加可靠。

本发明对经过卷积和通道相关性挖掘后的特征图作融合处理，对不同空间尺度融合后的特征图进行上采样，恢复到原始图像尺寸，并与原始特征图进行拼接。对特征图的上采样过程采用DUpSampling方法，DUpSampling设计了一种依赖于数据上采样的方法，它利用了语义分割的标签空间中的冗余，并且能够将CNN的低分辨率输出恢复到原始图像像素相同的样子。

本发明针对传统遥感语义分割模型对遥感影像通道信息挖掘不足的痛点，构造了通道注意力机制，将遥感影像通道之间的相互关系作为地物分割的一个指导因素。在此基础上，从空间多尺度、特征复用、空间上下文挖掘的层面上对PSPNet做了改进和优化，使得模型对遥感影像的语义分割正确率得到有效提升，在每一个小批量梯度下降训练时更新各模块的权值；使用标注后的训练数据对上述语义分割网络模型进行优化训练，并利用基于IoU的损失函数，进一步优化特征学习过程。该兼顾了深度学习方法和遥感光学指数各自的优势，使模型的预测能力更强，适用性更好。

本发明使用标注后的训练数据对上述语义分割网络模型进行优化训练；通过辅助损失函数，构建损失函数塔，共同对网络模型进行优化，有效降低梯度消失和梯度爆炸风险，进一步提升模型效果。

本发明融合金字塔场景解析网络和通道注意力机制，充分挖掘了遥感影像在空间维度和光谱维度的信息，兼顾了深度学习方法和遥感光学指数各自的优势。采用可学习的上采样模块DUpSample及基于IoU的损失函数对模型进行优化，使模型的预测能力更强，适用性更好。

本发明可以用于遥感影像语义分割领域的各种应用场景。

附图说明

图1为本发明的一种基于深度神经网络的遥感图像地物语义分割流程示意图；

图2为本发明遥感图像地物语义分割网络结构示意图。

具体实施方式

参见图1。根据本发明，下载卫星遥感影像数据，对影像数据中的地物类别进行像素级标注，将多通道的遥感影像直接作为神经网络的输入，以金字塔场景解析网络PSPNet为主干网络挖掘遥感影像空间信息，并以通道注意力模块FC-A为辅助结构，挖掘遥感影像通道信息的语义分割网络模型，把具备较强图像特征挖掘能力的网络模型从相关领域中迁移至语义分割网络模型，作为主干网BackBone的知识结构；用金字塔场景解析模块提取不同空间尺度的空间特征，挖掘遥感影像的空间信息，通道注意力模块FC-Attention辅助结构从通道维度进一步挖掘遥感影像所包含的通道信息；然后采用数据相关型的上采样模块DUpSample，对不同空间尺度融合后的特征图上采样至原始特征图大小，并与原始特征图进行拼接，用针对性更强的损失函数Lovasz Loss优化网络模型，利用反向传播，在每一个小批量梯度下降训练时更新各模块的权值，使用标注后的训练数据，对上述语义分割网络模型进行优化训练；通过辅助损失函数构建损失函数塔，共同对语义分割网络模型进行优化，有效地降低梯度消失和梯度爆炸风险后，使用标注后的训练数据训练网络模型，将测试集数据输入优化后的语义分割网络模型，识别影像中的不同地物，验证模型效果本发明将多通道的遥感影像直接作为神经网络的输入，将具备较强图像特征挖掘能力的网络模型从相关领域中迁移其知识结构作为分割模型的BackBone。语义分割网络模型的BackBone能够把具备较强图像特征挖掘能力的网络模型从相关领域中迁移至语义分割网络模型。如DenseNet能通过特征在通道之间的连接来实现特征复用，EfficientNet利用复合模型扩张方法结合神经结构搜索技术获得一个具备更强空间尺度融合能力的基线网络。通过直接用经典网络提取深层特征，扩大感受野，能够完成或改进语义分割领域或任务的学习效果。

上采样过程可以看成是将特征分辨率扩大，例如双线性内插上采样[l2]将H*W*C的特征上采样到2H*2W*C，其中，H，W，C分别代表图像的长、宽和通道数，也可以看成是针对特征图中的每一个像素，扩大成四个像素表示。DUpSample设计了一种数据相关型上采样的方法，DUpSample上采样模块利用语义分割的标签空间中的冗余，在上采样层中，将卷积神经网络CNN的低分辨率输出恢复到原始图像像素相同的样子。新的上采样层的主要优点在于，使用相对较低的分辨率特征映射(例如输入大小的1/16或1/32)，可以实现更好的分割精度，显着降低计算复杂度。

语义分割网络模型的分割结果表示为

是由几个上采样组成的解码器的输出。表示人工标注掩码图的Y∈[0,1,2,...,C]^H×W为解码器对应的输入图像，通常Y∈[0,1]^H×W×C，F通常比Y小16或32倍，需将上采样F至与Y同样的尺寸，计算损失函数。其中，C表示分割的类别，

表示终输出的通道数，

表示矩阵中的值均为实值，H和W表示掩码图的长和宽，

和

表示语义分割结果的长和宽。

数据相关型上采样模块给定表示上采样率的r＝OutStride，将人工标注的掩码图Y分为

个r*r的网格形式，将将人工标注的掩码图Y压缩成与语义分割网络模型分割结果F相同大小的特征图

其中，H表示人工标注的掩码图的长，W表示人工标注的掩码图的宽，r表示采样率。

数据相关型上采样模块对于原始图像的每一个子窗口S∈[0,1]^r×r×C，将S变形为一个原始向量v，且v∈[0,1]^N，N＝r*r*C，最终将向量v压缩成一个低维向量

然后从水平和垂直方向排列子窗口S的低维向量x以形成与语义分割网络模型分割结果F相同大小的特征图

线性映射形式化为公式(1)(2)：

x＝Pv (1)

其中，p为pixel的数量，

存储压缩矩阵的相关参数，用于压缩v为x。待训练矩阵

用于解压缩矩阵的相关参数，是压缩过程的相反转化。

表示矩阵P、待训练矩阵W的值均为实数。

是重新构建的原始向量v。P和W可以通过最小化原始向量v和重构向量

之间的误差得到，[l1]计算压缩矩阵的相关参数P和待训练矩阵W的计算公式形式定义如公式(3)所示：

本发明使用针对性更强的Lovasz Loss损失函数同优化网络模型，利用反向传播，在每一个小批量梯度下降训练时更新各模块的权值。

预测图像与原始图像的交并比IoU(也叫Jaccard index)是自然图像语义分割任务中常用的一个衡量分割效果的评价指标。

对于预测图像与原始图像两个图像A，B，Jaccard系数为预测图像A与原始图像B交集部分的大小与所述A与B并集部分大小的比值，根据标签值y^*与预测值

两个集合，采用如公式(4)所示计算类别C在预测图像和原始图像交并比IoU：

其中，c表示类别C，J_c代表类别C在预测图像和原始图像交并比，

为预测值。

比较标签值y^*，预测值

有限样本集之间的相似性与差异性，给定标签值y^*与预测值

两个集合，Jaccard系数定义为标签值y^*与预测值

交集的大小与标签值y^*与预测值

并集的大小的比值对应的损失函数如(5)所示，求其经验风险最小化

但是由于公式(5)是离散的损失函数，无法作为损失函数直接求导。当预测框和目标框不相交时，目标检测回归损失函数

时，不能反映y^*,

距离的远近，此时损失函数不可导，交并比IoU(Intersection over Union)Loss无法优化两个框不相交的情况。

本发明将公式(5)做简单的改写得到下述公式(6)，公式(6)即是目前想要优化的损失函数，记为

其自变量为网络分割结果和标签不匹配的集合Mc，定义域为{0,1}^p，p表示pixel的数量。Lavasz Loss使用光滑延拓(smooth extensions)，利用公式(1)的子模性质对其进行延拓，使得离散的Jaccard loss变得光滑化，可以直接求导，从而使交并比IoU作为语义分割网络的损失函数：

[l5][l6]本发明对在训练数据集上训练优化语义分割模型，对于训练得到语义分割模型在所述验证集上使用表示预测图像和原始图像交并比的MIoU指标验证网络泛化能力，当训练损失足够低并且验证MIoU足够高时，返回并储存最佳网络模型。

参见图2。在遥感图像地物分割网络的网络结构中，输入卷积神经网络卷积神经网络CNN的原始图像，经过选定的主干网络Backbone提取得到特征图像的特征向量；将该特征向量输入到金字塔场景解析网络，经过全局池化模块Global Pooling、通道注意力模块FCAttention和数据相关性上采样模块DUpSample挖掘遥感图像的空间特征和光谱特征；将输出的特征图与主干网络Backbone输出的特征图进行拼接；最后利用损失函数Lovasz Loss对模型参数进行调优。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种遥感图像地物语义分割方法，包括步骤：下载卫星遥感影像数据，对影像数据中的地物类别进行像素级标注，将多通道的遥感影像直接作为神经网络的输入，以金字塔场景解析网络PSPNet为主干网络挖掘遥感影像空间信息，并以[l1]通道注意力模块FC-Attention为辅助结构，挖掘遥感影像通道信息的语义分割网络模型，把具备较强图像特征挖掘能力的网络模型从相关领域中迁移至语义分割网络模型，作为主干网BackBone的知识结构；用金字塔场景解析模块提取不同空间尺度的空间特征，挖掘遥感影像的空间信息，通道注意力模块FC-Attention辅助结构从通道维度进一步挖掘遥感影像所包含的通道[l2]信息；然后采用数据相关型的上采样模块DUpSample，对不同空间尺度融合后的特征图上采样至原始特征图大小，并与原始特征图进行拼接，用针对性更强的损失函数Lovasz Loss优化网络模型，利用反向传播，在每一个小批量梯度下降训练时更新各模块的权值，使用标注后的训练数据，对上述语义分割网络模型进行优化训练；通过辅助损失函数构建损失函数塔，共同对语义分割网络模型进行优化，有效地降低梯度消失和梯度爆炸风险后，使用标注后的训练数据训练网络模型，将测试集数据输入优化后的语义分割网络模型，识别影像中的不同地物，验证模型效果。

2.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：数据相关型上采样模块DUpSample将H*W*C的特征上采样到2H*2W*C，其中，H，W，C分别代表图像的长、宽和通道数。

3.如权利要求2所述的遥感图像地物语义分割方法，其特征在：数据相关型上采样模块利用语义分割的标签空间中的冗余，在上采样层中，将卷积神经网络CNN的低分辨率输出恢复到原始图像像素相同的样子。

4.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：语义分割网络模型的分割结果表示为

是由几个上采样组成的解码器的输出，表示人工标注掩码图的Y∈[0,1,2,...,C]^H×W为解码器对应的输入图像，并且Y∈[0,1]^H×W×C，F通常比Y小16或32倍，需将上采样F至与Y同样的尺寸，计算损失函数。其中，C表示分割的类别，

表示终输出的通道数，

表示矩阵中的值均为实值，H和W表示掩码图的长和宽，

和

表示语义分割结果的长和宽。

5.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：数据相关型上采样模块给定表示上采样率的r＝OutStride，将人工标注的掩码图Y分为Y分为

个r*r的网格形式，将人工标注的掩码图Y压缩成与语义分割网络模型分割结果F相同大小的特征图，其中，H表示人工标注的掩码图的长，W表示人工标注的掩码图的宽，r表示采样率。

6.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：数据相关型上采样模块对于原始图像的每一个子窗口S∈[0，1]^r×r×C，将S变形为一个原始向量v，且v∈[0，1]^N，N＝r*r*C，最终将向量v压缩成一个低维向量

7.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：对于预测图像与原始图像两个图像A，B，Jaccard系数为预测图像A与原始图像B交集部分的大小与所述A与B并集部分大小的比值，根据标签值y^*与预测值

其中，c表示类别，J_c代表类别c在预测图像和原始图像交并比，

为预测值。

8.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：通道注意力模块FC-Attention辅助结构利用损失函数Lavasz Loss优化网络模型，优化损失函数△k，根据自变量为网络分割结果和标签不匹配的集合Mc，定义域为{0，1}^p，利用如下公式(1)的子模性质对其进行延拓，使用光滑延拓(smooth extensions)，从而可以使IoU作为语义分割网络的损失函数：：

使得离散的Jaccard loss变得光滑化，从而可以直接求导。

9.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：损失函数LavaszLoss优化网络模型对训练数据集上训练优化得到语义分割模型在所述验证集上使用表示预测图像和原始图像交并比的MIoU指标作为网络泛化能力验证；当训练损失足够低并且验证MIoU足够高时，返回并储存最佳网络模型。

10.如权利要求1所述的遥感图像地物语义分割方法，其特征在于：在遥感图像地物分割网络的网络结构中，将包含多个通道遥感图像作为卷积神经网络CNN的输入，经过选定的Backbone提取得到原始图像的特征向量；将该特征向量输入到金字塔场景解析网络，经过全局池化模块Global Pooling、通道注意力模块FC Attention和数据相关性上采样模块DUpSample挖掘遥感图像的空间特征和光谱特征；将输出的特征图与Backbone输出的特征图进行拼接；最后利用损失函数Lovasz Loss对模型参数进行调优。