CN111798460A

CN111798460A - 一种卫星图像分割方法

Info

Publication number: CN111798460A
Application number: CN202010554001.6A
Authority: CN
Inventors: 杭仁龙; 周峰; 刘青山
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-20
Anticipated expiration: 2040-06-17
Also published as: CN111798460B

Abstract

本发明涉及一种卫星图像分割方法,属于图像信息处理技术领域。该方法包括如下步骤：步骤1）将原始的卫星图像裁剪成块，然后输入到深度卷积网络中转换成卷积特征，来捕获基于空间信息的上下文；步骤2）将网络得到的特征输入到提出的特征解耦模块中，利用特征解耦模块将类别之间的共生关系编码到卷积特征中去；步骤3）将经过特征解耦模块得到的三个解耦特征经过卷积和上采样操作得到对应的分割结果；步骤4）将步骤3）得到的三个分割结果经过加权求和得到最终的分割结果。本发明将不同类别物体之间的共生关系编码到卷积特征中去，这样能够更好地处理场景中的孤立物体，进而对卫星图像进行分割，具有较好的分割性能和分割准确率。

Description

一种卫星图像分割方法

技术领域

本发明涉及一种卫星图像分割方法,属于图像信息处理技术领域。

背景技术

随着传感器技术的高速发展，机载卫星图像的空间分辨率已经变得越来越高(比如5-10cm分辨率)。比如，由国际摄影与遥感测量协会委员会提供的在德国的Vaihingen城市拍摄的图像能够达到9cm的地面采样分辨率，每张采样图片中包含了超过一亿个像素点。在这个数据集中，对地面的六种物体进行了标记，即地面、大楼、车、树、低植被、背景。得益于如此丰富的空间信息，机载卫星图像已经被广泛地用于许多遥感应用中，比如环境监测，灾情救援，以及城市发展检测。为了让这些应用能够，语义分割是一个至关重要以及必须的前置条件。语义分割从本质上来讲是将一个语义标签分配给图像中每一个像素点。与传统的遥感图像不同，不同物体的外表在极高分辨率的机载卫星图片中表现得越来越具有异质性和易混淆这两种特点。异质性体现了同一种物体在极高分辨率机载卫星图片中呈现出不同的外观，譬如不同颜色以及不同形状的车辆。而易混淆的特性揭露了不同物体在这种图像中可能呈现出相似的外表，比如车辆的顶部和大楼的顶端甚至一些地面从颜色上来看非常接近。这种现象非常容易引起极大的类内差和极小的类间差，进一步导致了遥感领域的语义分割任务变得更具有挑战性。

先前的一些用来对遥感图像进行语义分割的工作主要使用手动提取的特征来构建分类器。但是，这种形式的特征没有足够的判别性帮助分类器来对像素点进行分类，导致不足以获得令人满意的分割结果。

近些年，卷积神经网络(CNN)已经在计算机视觉任务取得了突破性的进展。这些进展得益于卷积神经网络能够通过自身的局部连接和权重共享特性自动地从图像中学习高级特征。作为卷积神经网络的一种，全卷积网络(FCN)已经在语义分割领域取得了巨大的成功。尽管基于全卷积网络的模型能够通过卷积操作捕获上下文信息，而这个上下文信息正是机载图像分割任务所必需的。但是，卷积操作捕获的上下文信息严重受限于其局部感受野。一个直观的解决这个问题的方式是增加卷积层，因此很多深度卷积神经网络被用来作为骨干网络。但是，经过实验发现，卷积神经网络的感受野比理论上的小很多，尤其是在网络的深层。因此，基于全卷积网络的模型很难如预期的那样获得充分的上下文信息。

为了捕获更加丰富的上下文信息，很多工作充分使用各种策略。这些策略主要包括多尺度上下文融合，多级上下文融合，以及局部-全局上下文融合。和原始的基于全卷积网络的模型相比，上述的这些方法能够获得更丰富的上下文信息，来获得更好的分割性能。但是，与基于全卷积网络的模型类似，所有这些方法都主要关注探索空间上下文信息，这种上下文信息可能无法将孤立的物体很好的分割开来。孤立物体在场景中主要被不相关的物体包围。比如，如果一个车辆被大量的大楼所包围。因为只关注了空间上下文信息，之前的方法都非常容易将车辆的一部分分割成大楼。而这种现象是和常识(大楼是不会出现在车辆上的)相违背的。

发明内容

本发明提出了一种卫星图像分割方法，将不同类别物体之间的共生关系编码到卷积特征中去，这样能够更好地处理场景中的孤立物体，进而对卫星图像进行分割，具有较好的分割性能和分割准确率。

本发明为解决其技术问题采用如下技术方案：

一种卫星图像分割方法，包括如下步骤：

步骤1)将原始的卫星图像裁剪成块，然后输入到深度卷积网络中转换成卷积特征，来捕获基于空间信息的上下文；

步骤2)将网络得到的特征输入到提出的特征解耦模块中，利用特征解耦模块将类别之间的共生关系编码到卷积特征中去；

步骤3)将经过特征解耦模块得到的三个解耦特征经过卷积和上采样操作得到对应的分割结果；

步骤4)将步骤3)得到的三个分割结果经过加权求和得到最终的分割结果。

步骤1)中所述原始的卫星图像是由国际摄影测量与遥感协会组委会提供的。

所述原始的卫星图像数据集有两个，分别由38张图片构成和33张图片构成。

所述第一个卫星图像数据集为每张图片的空间分辨率是5cm，每张图片的尺寸是6000×6000；所述第二个卫星图像数据集为每张图片的空间分辨率是9cm，每张图片的尺寸是2494×2064。

步骤1)中所述网络为残差网络。

本发明的有益效果如下：

(1)在同样的实验条件下，本发明方法的分类准确率比全卷积网络(FCN-8s)、U形网络(UNet)、分割网络(SegNet)、金字塔场景分割网络(PSPNet)、空洞可分卷积网络(DeepLabv3+)、基于点的空间注意力网络(PSANet)、语义编码网络(EncNet)、关联强化全卷积网络(S-RA-FCN)、双注意力网络(DANet)的准确率高。

(2)本发明将不同类别之间的共生关系融合到卷积特征中，以此来解决孤立物体问题，这样能够从空间和语义两个方面来充分利用卫星图像的上下文信息，提高分割精确度。

附图说明

图1为本发明卫星图像分割方法的基本流程图。

图2(a)为Potsdam卫星图像；(b)为Potsdam卫星图像的真实分割结果；(c)为本发明方法在Potsdam卫星图像上的分割可视化结果图；(d)为全卷积网络(FCN-8s)在Potsdam卫星图像上的分割可视化结果图；(e)为U形网络(UNet)在Potsdam卫星图像上的分割可视化结果图；(f)为分割网络(SegNet)在Potsdam卫星图像上的分割可视化结果图；(g)为金字塔场景分割网络(PSPNet)在Potsdam卫星图像上的分割可视化结果图；(h)为空洞可分卷积网络(DeepLabv3+)在Potsdam卫星图像上的分割可视化结果图；(i)为基于点的空间注意力网络(PSANet)在Potsdam卫星图像上的分割可视化结果图；(j)为语义编码网络(EncNet)在Potsdam卫星图像上的分割可视化结果图；(k)为关联强化全卷积网络(S-RA-FCN)在Potsdam卫星图像上的分割可视化结果图；(l)为双注意力网络(DANet)在Potsdam卫星图像上的分割可视化结果图。

图3(a)为Vaihingen卫星图像；(b)为Vaihingen卫星图像的真实分割结果；(c)为本发明方法在Vaihingen卫星图像上的分割可视化结果图；(d)为全卷积网络(FCN-8s)在Vaihingen卫星图像上的分割可视化结果图；(e)为U形网络(UNet)在Vaihingen卫星图像上的分割可视化结果图；(f)为分割网络(SegNet)在Vaihingen卫星图像上的分割可视化结果图；(g)为金字塔场景分割网络(PSPNet)在Vaihingen卫星图像上的分割可视化结果图；(h)为空洞可分卷积网络(DeepLabv3+)在Vaihingen卫星图像上的分割可视化结果图；(i)为基于点的空间注意力网络(PSANet)在Vaihingen卫星图像上的分割可视化结果图；(j)为语义编码网络(EncNet)在Vaihingen卫星图像上的分割可视化结果图；(k)为关联强化全卷积网络(S-RA-FCN)在Vaihingen卫星图像上的分割可视化结果图；(l)为双注意力网络(DANet)在Vaihingen卫星图像上的分割可视化结果图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

本发明的思路是将不同类别之间的共生关系融合到卷积特征中，以此来解决孤立物体问题，这样能够从空间和语义两个方面来充分利用卫星图像的上下文信息，提高分割精确度。

本发明方法的基本流程如图1所示，具体包括以下步骤：

步骤1)将原始的卫星图像裁剪成块，然后输入到深度卷积网络中转换成卷积特征，以此来捕获基于空间信息的上下文；

首先，由于卫星图像本身空间分辨率非常大，所以本发明将原始的卫星图像进行裁剪，使用裁剪后的图像块作为输入。为了能够更好地捕获空间上下文信息，本发明使用目前广泛使用的残差网络作为骨干网络，为了能够尽可能地保留空间信息，本发明还将网络中的池化层去掉了。假设得到的卷积特征为

其中H,W,C分别表示高度、宽度、特征图个数，

表示实数域。对于F中的每个像素点来说，它可以看成是输入图像块中一个局部邻域内的特征表示。因此，邻域内的空间信息能够帮助这个像素点分类。

步骤2)将网络得到的特征输入到提出的特征解耦模块中，利用特征解耦模块将类别之间的共生关系编码到卷积特征中去；图中的Conv代表卷积运算操作。

对于孤立物体来说，他们的邻域内包含了很少的有用信息。为了缓解这个问题，本发明尝试将不同类别物体之间的共生关系利用起来。因为，一些物体可能在场景中同时出现。本发明认为这种共生关系可以帮助分割任务。除了上一个步骤得到的卷积特征，还有一个可以使用的信息就是预定义的类别标签，比如“车”、“树”等等。受到自然语言处理的启发，每一个标签都可以编码成特征向量。更重要的是，一些技术，例如GloVe模型能够在编码过程中考虑不同单词之间的共生关系。而这正好和我们的目标匹配。基于这种猜想，本发明提出解耦模块将卷积特征和标签信息一起输入，然后得到增强的特征表示。

对于第k个类别，k∈{1,2,…,n}，n表示预定义类别标签个数，本发明将预训练的GloVe模型来把标签编码成一个D维的特征向量

然后，F和o_k输入到一个多模态融合模型中来得到一个注意力图A_k。这个注意力图期望能够突出对第k类物体以及它的共生物体。具体来说，o_k先扩展成一个三维的张量

这个张量中第i个通道的值和o_k第i个元素一样。然后，O_k和F可以投影到一个隐空间，如下定义：

这里，

是投影的最终结果，

是投影矩阵，

和

是投影矩阵。

是一个偏置向量。σ和°代表非线性激活函数和Hadamard积。D′和Q代表中间映射和最终映射结果的通道个数。最终，A_k可以通过下面的公式得到：

A_k＝Softmax(ωR_k+b₁) (2)

这里，

和

分别表示权重和偏置。注意这里公式(1)和(2)可以通过全连接操作实现，所以可以把它们很容易地插入到整个网络中，完成端到端学习。

一旦得到注意力图A_k，本发明将它沿着通道维度重复了C次。这样，注意力图就可以和特征F保持相同的尺寸。由于A_k中和第k类物体具有共生关系的位置会有比较大的数值，所以，本发明将这个注意力图乘上F就可以解耦出最具判别性的特征

考虑到预定义的类别个数是n，本发明就生成了n个不同的判别特征。为了能够将这些特征融合起来，本发明首先将他们按照通道维度串联起来变成一个高维的张量，然后使用一个1×1大小的卷积核来得到最终的特征表示

由于引入了共生信息，G增强了特征的判别性。

值得注意的是本发明使用了残差网络的三个卷积层的输出。因此使用了三个不同的特征解耦模块来对三个卷积层的输出进行空间上下文信息增强，得到最终的特征表示，然后经过一层1×1的卷积层得到和类别个数相同的通道数的分割结果，然后再使用双线性插值得到和输入图像大小一样的分割结果。

由步骤(3)得到的三个分割结果，经过ω₁,ω₂,ω₃三个权重的加权求和得到最终的分割结果。

为了能够保证特征

有足够的判别能力，本发明设计了一个解耦损失(DC-loss)来监督每个特征解耦模块的学习过程。具体来说，本发明对F_k使用了全局求和池化，然后将结果输入到一个输出层得到一个二维的输出向量

整个过程可以定义为：

这里，

和

分别表示权重和偏置，GSP(F_k)表示特征图F_k经过全局求和池化的结果。假设第k个类别的真实值是y_k，那第l个解耦模块的解耦损失(DC-loss)可以通过如下计算得到：

其中：

为解耦损失(DC-loss)，

为第l个网络预测结果，本发明也使用了分割损失来监督整个框架的学习过程。具体来说，本发明将交叉熵损失应用到三个分割结果以及他们的融合结果上。定义如下：

这里，S_k，

和Y_k代表真实分割结果，第l个模块的分割结果，以及融合分割结果。结合上面的DC-loss和分割损失，CGFDN(类别引导的特征解耦网络)网络的最终损失函数定义为：

这里，L_SG是网络的分割损失，λ是用来平衡分割损失和DC-loss。

为了便于公众理解本发明技术方案，下面给出两个具体实施例。

实施例一将本发明所提供的技术方案应用在Potsdam卫星图像数据分割中。这个图像是由国际摄影测量与遥感协会(ISPRS)组委会提供的。这个数据集有38张图片构成，每张图的空间分辨率是5cm。每张图的尺寸是6000×6000。每张图片由4个通道(近红外、红、绿、蓝)构成。所有图片都标注了6类物体：地面，大楼，低植被，树木，车和背景。

利用本发明将不同类别之间的共生关系融合到卷积特征中，以此来解决孤立物体问题，以此来得到一个卫星图像的分割结果。

为了验证本发明的有效性，分类结果分别与全卷积网络(FCN-8s)、U形网络(UNet)、分割网络(SegNet)、金字塔场景分割网络(PSPNet)、空洞可分卷积网络(DeepLabv3+)、基于点的空间注意力网络(PSANet)、语义编码网络(EncNet)、关联强化全卷积网络(S-RA-FCN)、双注意力网络(DANet)进行对比。首先，使用深度卷积网络将卫星图像转换成卷积特征以此来捕获空间上下文信息；紧接着，本发明设计了一个特征解耦模块将不同类别物体之间的共生关系编码进卷积特征中，以此来解耦出最具判别性的特征；最后，基于解耦特征，推导出最终的分割结果。此外，为了能够更高效地处理卫星图像，本发明方法设置成了端到端的网络结构。

本实施例的分类过程具体如下：

1、利用深度残差网络得到输入图片的空间上下文特征：

按照ISPRS组委会公布的Potsdam卫星图像分割任务的训练/测试集设置方式，使用24张图片作为训练样本，剩下的作为测试集，训练集用于调整模型的参数，测试集在最后一步中来评估整个网络的分类性能。深度残差网络本发明使用ResNet18，并且去除了其中的max-pooling(最大值池化)操作。为了能够充分的使用GPU(图形处理器)以及生成尽可能多的训练样本，本发明使用一个256×256滑动窗口以64为步长将原始的训练样本裁剪成图像块。测试的时候也是采用一样的滑动窗口方案，得到每一个图像块的测试结果，重叠的部分采用均值代替。本发明使用ResNet18的最后三层输出特征作为后续操作的输入。

2、使用三个特征解耦模块得到增强的上下文特征表示，用于分割结果的推导：

这里，三个特征解耦模块的参数设置如下：每一个解耦模块中的D根据经验都设置成300，而三个解耦模块中的C依据经验分别设置成128,256,512。另外，三个模块中D′和Q都分别设置成64,128,256。将上个步骤得到的ResNet18最后三层的卷积特征输入到三个解耦模块中，然后得到对应的由共生关系强化的空间上下文信息。

3、将每一个模块输出的增强特征输出得到分割结果，并使用加权求和得到最终的分割结果：

本发明将三个解耦模块的输出经过一层1×1卷积层，得到和类别个数一样的输出结果，并使用双线性插值恢复到和输入图像一样大小的尺寸。最后使用三个权重系数，对三个分割结果进行加权求和得到最终的分割结果。然后使用预测结果和真实值计算DC-loss和分割损失。公式(6)中的λ取1。

为了验证本发明方法的效果，将CGFDN模型与全卷积网络(FCN-8s)、U形网络(UNet)、分割网络(SegNet)、金字塔场景分割网络(PSPNet)、空洞可分卷积网络(DeepLabv3+)、基于点的空间注意力网络(PSANet)、语义编码网络(EncNet)、关联强化全卷积网络(S-RA-FCN)、双注意力网络(DANet)进行比较。

图2为本发明方法与全卷积网络(FCN-8s)、U形网络(UNet)、分割网络(SegNet)、金字塔场景分割网络(PSPNet)、空洞可分卷积网络(DeepLabv3+)、基于点的空间注意力网络(PSANet)、语义编码网络(EncNet)、关联强化全卷积网络(S-RA-FCN)、双注意力网络(DANet)的分割图。从图中可以看出，和其他方法相比，本发明能得到一个更均匀的分割图。这说明，本发明方法可以获得更高的分割准确率。

表1给出了10种分割方法的分割准确率的比较。

表1分割准确率对比

从表1可以看出，本发明方法的总体准确率(OA)、平均F1分数(Mean-F1)明显高于其他9种分类方法。其中，DeepLabv3+，DANet明显高于其他方法，通过设计特殊的模块尽可能的扩展可以捕获的空间上下文的信息量，CGFDN(类别引导的特征解耦网络)通过引入共生关系能够取得更好的分割结果。

综上可知，和全卷积网络(FCN-8s)、U形网络(UNet)、分割网络(SegNet)、金字塔场景分割网络(PSPNet)、空洞可分卷积网络(DeepLabv3+)、基于点的空间注意力网络(PSANet)、语义编码网络(EncNet)、关联强化全卷积网络(S-RA-FCN)、双注意力网络(DANet)相比，本发明方法无论是从分割性能还是从分割精确度上来看，都具有明显的优势。

实施例二将本发明所提供的技术方案应用在Vaihingen高光谱图像数据分类中。这个图像是由国际摄影测量与遥感协会(ISPRS)组委会提供的。这个数据集有33张图片构成，每张图的空间分辨率是9cm。每张图的尺寸是2494×2064。每张图片由4个通道(近红外、红、绿、蓝)构成。所有图片都标注了6类物体：地面，大楼，低植被，树木，车和背景。

本实施例的分类过程具体如下：

1、利用深度残差网络得到输入图片的空间上下文特征：

按照ISPRS组委会公布的Vaihingen卫星图像分割任务的训练/测试集设置方式，使用16张图片作为训练样本，剩下的作为测试集，训练集用于调整模型的参数，测试集在最后一步中来评估整个网络的分类性能。深度残差网络本发明使用ResNet18，并且去除了其中的max-pooling操作。为了能够充分的使用GPU以及生成尽可能多的训练样本，本发明使用一个256×256滑动窗口以64为步长将原始的训练样本裁剪成图像块。测试的时候也是采用一样的滑动窗口方案，得到每一个图像块的测试结果，重叠的部分采用均值代替。本发明使用ResNet18的最后三层输出特征作为后续操作的输入。

图3为本发明方法与全卷积网络(FCN-8s)、U形网络(UNet)、分割网络(SegNet)、金字塔场景分割网络(PSPNet)、空洞可分卷积网络(DeepLabv3+)、基于点的空间注意力网络(PSANet)、语义编码网络(EncNet)、关联强化全卷积网络(S-RA-FCN)、双注意力网络(DANet)的分割图。从图中可以看出，和其他方法相比，本发明能得到一个更均匀的分割图。这说明，本发明方法可以获得更高的分割准确率。

表2给出了10种分割方法的分割准确率的比较。

表2分割准确率对比

从表2可以看出，本发明方法的总体准确率(OA)、平均F1分数(Mean-F1)明显高于其他9种分类方法。其中，DeepLabv3+，DANet明显高于其他方法，通过设计特殊的模块尽可能的扩展可以捕获的空间上下文的信息量，CGFDN通过引入共生关系能够取得更好的分割结果。