CN109784283A

CN109784283A - 基于场景识别任务下的遥感图像目标提取方法

Info

Publication number: CN109784283A
Application number: CN201910053342.2A
Authority: CN
Inventors: 汪西莉; 冯晨霄
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-05-21
Anticipated expiration: 2039-01-21
Also published as: CN109784283B

Abstract

一种基于场景识别任务下的遥感图像目标提取方法，包括：S100：输入原始遥感图像；S200：从所述原始遥感图像中提取目标场景图像并得到所述目标场景图像的目录文件；S300：按照所述目标场景图像的目录文件，从不同类型的图像文件夹中获取对应同一目标场景的不同类型的图像后，将其输入改进后的分割网络，进行目标提取；S400：输出所提取的目标结果。该方法首先识别场景，在可能存在目标的场景中再分割出目标，解决了大规模高分辨率遥感图像提取特定目标问题。其次，通过提取丰富的上下文信息，不仅增强了特征融合，使网络提取丰富的上下文信息，又在网络末端进行加权概率融合，在突出目标的同时有效抑制错分，提升分割性能。

Description

基于场景识别任务下的遥感图像目标提取方法

技术领域

本公开属于遥感图像处理技术领域，特别涉及一种基于场景识别任务下的遥感图像目标提取方法。

背景技术

近年来，随着航空航天领域的高速发展，我国自主研发的航空航天平台、传感器、通信及信息处理技术得到迅速提高，遥感对地观测技术已经能够提供高时间分辨率、高空间分辨率、大尺度范围的遥感图像观测数据。高分辨率遥感图像除了具有较高的空间分辨率、时间分辨率以及丰富的纹理特征等优势外，也暴露出一些问题。例如因为传感器特性以及尺度较大等原因带来的异物同谱问题，因为卫星观测角度的原因产生的地物遮挡问题，因为较高的空间、光谱分辨率突出了噪声影响的问题。这些问题限制了遥感图像目标提取技术的泛化能力以及精度水平，对高分辨率遥感图像进行高精度、高效率、目标明确的信息提取，成为遥感学科以及图像处理领域的研究热点和难点。

深度学习技术在遥感图像地物识别领域得到了较为广泛的应用。深度学习技术的优势在它可以自动地提取到更合适的特征，不完全依赖于人类设计的特征，一般情况下自动提取到的特征比较有效，但目前依然存在改进空间。首先，现有深度学习技术无法直接针对大规模图像进行处理，需将图像裁剪成小块输入网络进行分割提取，而裁剪后的全背景区域图像由于不含目标会产生错分，因此先进行场景识别非常具有必要性。其次，针对深度卷积神经网络而言，池化操作的重复使用降低了特征分辨率，由其通过上采样预测结果比较粗略，难以精确保留目标区域边缘、位置等细节特征。另外，使用性能更高且层次更深的卷积神经网络作为分割的主干网络有利于提取特征，但将使参数增多，需要更多的标记样本来训练网络，而对于多数实际应用难以提供充足的训练样本。再次，深度卷积神经网络难以承受巨大尺寸的图像作为输入，并在其中提取小目标物体获取较高的精度。

发明内容

为了解决上述问题，本公开提供了一种基于场景识别任务下的遥感图像目标提取方法，包括如下步骤：

S100：输入原始遥感图像；

S200：从所述原始遥感图像中提取目标场景图像并得到所述目标场景图像的目录文件；

S300：按照所述目标场景图像的目录文件，从不同类型的图像文件夹中获取对应同一目标场景的不同类型的图像后，将其输入改进后的分割网络，进行目标提取；其中改进后的分割网络是对作为图像分割的主干网络卷积-反卷积网络进行改进，具体为：

S301：采用卷积-反卷积网络作为图像分割的主干网络；

S302：在所述主干网络中加入全分辨率网络分支；

S303：在所述主干网络与所述全分辨率网络分支之间建立数据交流机制，全分辨率网络分支前半段逐步汇聚来自主干网络卷积各阶段的多级尺度特征，全分辨率网络分支后半段则为主干网络反卷积各阶段提供汇聚后的多级尺度特征；

S304：在所述改进后的分割网络末端，对不同类型的图像作为输入得到的类别预测概率图进行加权融合；

S400：输出所提取的目标结果。

通过上述技术方案，首先获取目标场景图像，然后对目标场景图像进行目标提取，采用卷积-反卷积网络作为分割的主干网络，在所述主干网络中加入全分辨率网络分支，并在主干网络与全分辨率网络分支之间建立数据交流机制。全分辨率网络分支的加入不仅克服了重复池化操作导致的特征分辨率降低、细节信息丢失过多等问题，同时将主干网络卷积各阶段的多级尺度特征汇聚，再将汇聚后的多级尺度信息传递给主干网络反卷积阶段相应层中，融入了更多的原始输入信息，增强了特征融合。不同源的数据提供的信息虽有冗余，同时又有互补，在分割网络末端进行加权概率融合，在突出目标的同时有效抑制错分，提升分割性能。

附图说明

图1是本公开一个实施例中所提供的一种基于场景识别任务下的遥感图像目标提取方法的流程示意图；

图2是本公开一个实施例中从不同源输入提取特征的示意图；

图3是本公开一个实施例中进行场景识别的示意图；

图4是本公开一个实施例中网络结构及数据交流机制示意图；

图5是本公开一个实施例中在Inria Aerial Image Labeling Dataset测试集上未使用场景识别与使用场景识别分割结果对比图；

图6是本公开一个实施例中在Inria Aerial Image Labeling Dataset测试集上使用多源图像输入分割结果对比图；

图7是本公开一个实施例中对应于图6中的不同输入类型在每幅图上的评价结果；

图8是本公开一个实施例中将本方法与FCN、FCN-MLP和FCN-Skip、Mask R-CNN和RiFCN的评价结果对比图；

图9是本公开一个实施例中对应于图8中的不同方法在IAILD测试集上的评价结果折线对比图；

图10是本公开一个实施例中在vaihigen Dataset测试集上使用多源图像输入分割结果对比图；

图11是本公开一个实施例中对应于图10中的不同输入类型在每幅图上的评价结果；

图12是本公开一个实施例中将本方法与SegNet、CNN+RF和CNN+RF+CRF、Mulit-Scale Deep Network的评价结果对比图；

图13是本公开一个实施例中对应于图12中的不同方法在vaihigen测试集上的评价结果折线对比图；

具体实施方式

在一个实施例中，如图1所示，公开了一种基于场景识别任务下的遥感图像目标提取方法，包括如下步骤：

S100：输入原始遥感图像；

S301：采用卷积-反卷积网络作为图像分割的主干网络；

S302：在所述主干网络中加入全分辨率网络分支；

S400：输出所提取的目标结果。

就该实施例而言，首先得到目标场景图像，其次对目标场景图像输入改进后的分割网络，进行像素级目标提取。本方法解决了大幅高分辨率遥感图像提取特定目标问题，所述改进后的分割网络提取丰富的上下文信息，增强了特征融合。数据交流机制为的主干网络与全分辨率网络分支之间建立相互联系，使主干网络与全分辨率网络之间相互影响，共同作用，将主干网络与全分辨率网络分支的优势性能相融合。

在该实施例中，利用不同源数据图像训练得到两个具有不同权重系数的分割模型，进而得到两组不同的类别概率预测图，并在分割网络末端进行加权概率融合。

如图2所示，待分割图像中输入1为RGB，输入2为GRAY，将其分别训练得到分割模型1和分割模型2，进而得到两组不同的类别概率图，对该两组类别概率图进行加权融合。

用X₁和X₂分别表示两个模型输出的类别概率图，Y表示融合的输出结果。

Y_i＝λ₁X_1i+λ₂X_2i (1)

其中i表示类别编号，λ₁和λ₂分别表示融合时两个模型的加权系数，不同的场景在不同的分支网络上表现出不同的分割效果，因此需对不同的场景调节加权系数来获取最优的分割结果。

就该实施例而言，从不同源的输入提取特征，如对于多光谱遥感图像，一个分支接收多光谱通道图像输入，另一个分支接收全色通道图像输入，或高程信息等。不同源的数据提供的信息虽有冗余，同时又有互补，在分割网络末端进行加权概率融合，在突出目标的同时有效抑制错分，提升分割性能。采取决策级融合方式，在两个分支网络末端使用类别概率图加权融合，充分融合两个神经网络分支的优势性能，使性能更优的网络分支在融合时发挥更大的作用。

在另一个实施例中，步骤S200进一步包括如下步骤：

S201：将所述原始遥感图像分割裁剪，获取不同场景的遥感图像区域；

S202：利用深度卷积神经网络对所述不同场景的遥感图像区域进行分类，获取目标场景图像并得到这些目标场景图像的目录文件。

如图3所示，所有原始测试图像尺寸为5000*5000，经裁剪后图像尺寸均为500*500，在利用CNN进行分类获得目标场景图像和背景图像，并将所得目标场景图像和背景图像所对应的序号名称存储为目录文件。

就该实施例而言，首先，场景识别网络以VGG16分类网络为基础，对不同场景的遥感图像区域实现识别分类，获取目标场景区域图像。分割网络只针对少量目标区域图像进行分割，全背景区域图像分割时容易产生比较大的错分，相比之下，本方法将减少全背景区域图像的错分率。

在另一个实施例中，所述深度卷积神经网络包含13个卷积层和3个全连接层。

就该实施例而言，所述深度卷积神经网络以VGG16分类网络为基础，包含13个卷积层、5个池化层和3个全连接层。13个卷积层被划分为五个卷积阶段，第一个卷积阶段和第二个卷积阶段各包含两个卷积层，第三卷积阶段、第四卷积阶段和第五卷积阶段各包含三个卷积层。

在另一个实施例中，步骤S301中的卷积阶段包含13个卷积层和5个池化层，反卷积阶段与卷积阶段呈镜像对称关系，包含13个反卷积层和5个解池化层。

在另一个实施例中，所述卷积阶段的13个卷积层被划分为五个卷积阶段，第一个卷积阶段和第二个卷积阶段各包含两个卷积层，第三卷积阶段、第四卷积阶段和第五卷积阶段各包含三个卷积层。

就该实施例而言，通过特定尺寸的卷积核对输入数据进行特征提取，采用多阶段卷积层堆叠方式，可以获得良好的特征提取效果。

在另一个实施例中，在每个卷积层之后包含一个批量归一化单元和一个修正线性单元，其中批量归一化单元将提取到的特征数据进行归一化，修正线性单元用于加入非线性因素；在每个卷积阶段之后包含一个池化层。

就该实施例而言，采用批量归一化单元能够解决在训练网络过程中，中间层数据分布发生改变的问题，以防止梯度消失，加快训练速度；采用修正线性单元加入非线性因素，提升网络对数据的表达能力。

在另一个实施例中，步骤S302中所述全分辨率网络分支具体为：

对作为分割的主干网络卷积-反卷积网络进行改进，在第一卷积阶段后分两支数据流，一支数据流后接池化层随主干网络继续向后传递，特征分辨率减小再增大，另一支数据流则汇聚多级尺度特征并以原始特征分辨率向后传递，使得特征分辨率保持不变。

图4展示了分割模型的结构示意图，其中采用卷积反卷积网络作为主干网络，在图4中展现为上面一行网络，特征分辨率减小再增大。全分辨率网络分支是指在图4最下边的数据流分支。在第一卷积阶段后，一条数据支流横向传播，随主干网络继续向后传递；另一数据支流向下传入全分辨率网络分支，并汇聚多级尺度特征并以全分辨率向后传递，该分支中特征分辨率不变。

就该实施例而言，分割的主干网络卷积-反卷积网络在特征提取过程中进行池化操作，有利于提取主要特征并减少背景的干扰。但同时，特征分辨率减小，很多细节信息因此丢失，系统精度提升也受到限制。在所述主干网络中加入全分辨率网络分支，有利于克服重复池化操作导致的特征分辨率降低、细节信息过多等问题，为系统精度提升做出贡献。

在另一个实施例中，如图4所示，步骤S303中所述全分辨率网络分支前半段逐步汇聚来自主干网络卷积各阶段的多级尺度特征具体为：

对所述主干网络第二、三、四、五卷积阶段只选择最后一层卷积特征图，使用反卷积操作将各特征图进行扩大，与第一卷积阶段输出特征图做逐像素逐步相加融合。

就该实施例而言，考虑到不同深度的卷积层学习到的特征其层次是不同的，浅层的卷积层学习到的是局部特征，随着卷积层深度增加，感受野也随之增大，学习到的特征包含的全局信息更多。因此将浅层的特征与深层的特征进行融合有助于克服深层特征梯度消失的问题，以便获得更精细的分割结果。采用逐步逐像素相加的方式来汇聚多级尺度信息，这样做考虑到了不同尺度下特征的层次依赖关系，保持了特征信息的局部一致性。

在另一个实施例中，如图4所示，步骤S303中所述全分辨率网络分支后半段则为主干网络反卷积各阶段提供汇聚后的多级尺度信息具体为：

汇聚后的多级尺度信息按不同尺寸进行池化操作，并将池化后的特征图与对应反卷积阶段输出特征图相连接。

其中，多级尺度信息是以通道拼接的方式分别提供给反卷积各阶段进行特征融合。聚合后的多级尺度信息包含很多对特征提取有益的信息，同时也包含一定的冗余信息，以通道拼接的方式进行特征融合，可以对冗余的特征信息进行再处理，降低冗余信息对特征提取的影响。

就该实施例而言，将聚合后的多级尺度信息分别提供给反卷积各阶段，在一定程度上对损失的信息做了补充，且对反卷积每一阶段而言，补充的信息都更全面，进一步增强了特征融合。

在另一个实施例中，使用的是配备64位Ubuntu系统的工作站，硬件配置为Intel(R)Xeon(R)CPU E5-2690v3 2.6GHz处理器、256GB内存和4TB硬盘。整个网络的训练使用Caffe深度学习平台，训练过程中使用一块NVIDIA Tesla K 40c12GB显存GPU进行加速。

网络参数使用在ImageNet数据集上预训练所得的VGG16来初始化，其余层参数通过gaussian初始化方法进行初始化。在训练过程中，初始学习率为0.01，迭代次数每增加10000次，学习率降低0.1倍，batch_size为6，gamma为0.1，权重衰减为0.0005，动量为0.9，最大迭代次数为100000次。

在网络的训练过程中，使用softmax loss损失函数计算误差，使用随机梯度下降法更新整个网络的权值。softmax loss实际上是由softmax和cross-entropy loss组合而成，两者放一起数值计算更加稳定。Softmax作用就是将网络输出层的值通过归一化转换为概率值，其定义为：

p_k(x)表示像素点属于第k类的输出概率。a_k(x)表示像素x对应类别k的激活值。而cross-entropy loss定义式如下：

y表示像素点x处的真实标签，K表示类别总数，N表示批量图像中所有像素点的总数，log默认以10为底。1(·)表示一个符号函数，当y＝k时为1，否则为0。

我们以端对端的方式训练神经网络，为获得一组符合误差要求的模型参数，我们应该用链式法则计算不同层损失的导数，然后用反向传播策略逐层更新参数。具体描述如下：

反向传播算法(Back Propagation,BP)标准步骤是包括一个前向传播阶段和一个反向传播阶段。在前向传播时，图像输入神经网络根据初始给定的权值学习输入图像的特征，通过逐层向前传播得到一个输出结果，在该阶段中不涉及权值的更新。在反向传播阶段将对网络输出结果与真实标签值进行对比计算误差，而后根据所计算的误差采用随机梯度下降法反向调整网络各层参数，经过多次前向传播与反向传播过程，使网络最终得到的预测输出值更逼近于真实标签值。直到所得误差小于所要求的误差值。

在另一个实施例中，使用下述两个数据集来验证本方法的性能，并对下述两个数据集做数据扩充，具体介绍如下：

(1)Inria Aerial Image Labeling Dataset：该数据集(简称IAILD数据集)是由法国国家信息与自动化研究所提供的建筑物检测数据集。该数据集中每幅图像是覆盖面积405公里，空间分辨率为0.3米的航空正射彩色图像(RGB)，且包含城市建筑区，森林，草原等多种场景。标签图像包含建筑物和非建筑物两个类别。这里的目标是提取建筑物。这些图像覆盖了不同的城市居民点，从人口稠密地区(例如旧金山的金融区)到高山城镇(例如利恩茨在奥地利蒂罗尔，美国的一个城镇)。我们在Austin、Chicago、Vienna三个城市图像进行实验，共108张5000*5000像素训练数据，以及相应的像素级标记图像，我们将其分为训练集(93张)、测试集(25张)。由于图像尺寸太大，直接使用会造成内存溢出，所以对于训练集，我们按照一定步长对原始图像和标记图像进行裁剪、旋转等操作，并扩充部分全背景图像，测试集则直接将原始图像和标记图像分割为10行10列进行裁剪。获取多幅500*500大小的区域图像。最终，得到了训练集(55955张)、测试集(2500张)。

(2)Vaihigen Dataset：该数据集包含33幅IRRG图像和数字表面模型(DSM)信息，图像尺寸大小不一，其中IRRG图像的三通道内容分别对应近红外、红色和绿色波段，DSM为单通道图像，对应于DSM高度，图像空间分辨率9cm。且图像包含建筑区，植被，道路等多种场景。这里的目标是提取建筑物。vaihigen数据集中仅有16幅图像包含标记图像(Ground-truth)。将其中11幅图像(1、3、5、7、13、17、21、23、26、32、37)作为训练集，5幅图像(11、15、28、30、34)作为测试集。训练集图像按照不同比例进行放大和缩小，并按90度、180度、270度方向进行旋转。将训练图像按步长进行裁剪，裁剪后每个图像块尺寸为500*500。得到IRRG图像、DSM图像、二值标记图像各34712幅。遥感图像中建筑物尺寸、方向、周围环境各异，目标边缘模糊等，使分割出目标具有挑战性。

在另一个实施例中，为了验证本目标提取方法的有效性，在IAILD数据集上分别与现有方法FCN、FCN-MLP和FCN-Skip、Mask R-CNN和RiFCN进行比较，具体介绍如下：

从结构方面来说，FCN结构最简单，基于VGG16的FCN网络的编码部分包括15个卷积层和5个池化层，其解码部分是将第五卷积阶段输出特征图通过反卷积操作扩大恢复至原始分辨率，最后再进行像素类别预测。FCN-MLP对FCN各卷积阶段的特征图分别进行上采样和连接，并利用多层感知器MLP来减少级联特征以预测分割图。FCN-Skip从不同的卷积层(在不同的分辨率下)创建多个分割图，对它们进行插值以匹配最高的分辨率，并将结果相加获取最终的分割图结果图。Mask R-CNN是一种称为基于掩模区域的CNN(掩模R-CNN)的通用框架，其能够有效地检测图像中的对象，同时为每个检测到的实例生成分割掩模。RiFCN网络由前向流和后向流两部分组成。前向流负责从输入端提取多级卷积特征图。后向流使用一系列自回归的循环连接，分层次地逐步融合高级语义特征，并呈现像素级的高分辨率预测。

上述几种分割网络存在以下四点不同。第一点：应用方式不同。本方法将大幅高分辨率遥感图像分割裁剪，通过场景识别网络提取出目标区域图像，分割模块只针对少量目标区域图像进行分割；而其他网络都需将全部区域图像送入网络进行分割，全背景区域图像分割时容易产生比较大的错分，相比之下，本方法将减少全背景区域图像的错分率。第二点：网络结构不同。就图像分割模块而言，FCN、FCN-MLP和FCN-Skip、Mask R-CNN和RiFCN主干网络都只是使用单一分支的编码-解码网络，本方法在主干网络中加入全分辨率网络分支，全分辨率网络分支的加入克服了编码阶段重复池化操作导致的特征分辨率降低、细节信息丢失过多等问题。第三点：融合内容及方式不同。本方法通过在主干网络与全分辨率网络分支之间建立数据交流机制，全分辨率网络分支前半段逐步汇聚来自主干网络卷积各阶段的多级尺度特征，后半段则为主干网络反卷积各阶段提供汇聚后的多级尺度信息进行融合。FCN、Mask R-CNN并未进行不同层次之间的特征融合，FCN-MLP将不同层级特征图进行级联，并使用MLP学习融合特征以产生最终输出。FCN-Skip，将不同层级特征图直接相加获得最终结果。RiFCN则使用一系列的自回归的循环连接来融合特征。第四点：输入数据不同。本方法分别采用不同来源的图像类型作为输入，训练得到两个具有不同权重系数的网络，并在两个网络末端进行加权概率融合，而其他方法均未使用多源数据。

在另一个实施例中，为了验证本方法的有效性，在Vaihigen数据集上分别与现有方法SegNet、CNN+RF和CNN+RF+CRF、Mulit-Scale Deep Network、CD-FFD进行比较，具体介绍如下：

SegNet是具有对称结构的编码-解码深度卷积网络，编码阶段使用卷积网络提取特征，解码阶段使用卷积网络来进行特征上采样。CNN+RF方法针对原图及手工提取特征分别使用卷积神经网络、随机森林方法进行类别预测，再将输出结果进行融合获取最终分割结果，其中CNN网络包含4层卷积层和两个全连接层。CNN+RF+CRF是在上一种方法的基础上再结合条件随机场(CRF)进行平滑处理获取分割结果。Mulit-Scale Deep Network在SegNet网络的末端引入多核卷积层来进行多尺度预测，并使用残差网络将原图及手工提取进行融合特征。CD-FFD考虑一定的特征融合，但只将卷积第三、四阶段的特征图与反卷积相应阶段相融合。

在上述研究方法中，SegNet、CNN+RF和CNN+RF+CRF、Mulit-Scale Deep Network四种方法都未曾考虑神经网络内部不同深度卷积层之间特征提取层次不同，CD-FFD考虑到将浅层的特征与深层的特征进行融合，但其融合方式过于简单，只将卷积第三、四阶段的特征图与反卷积相应阶段相融合，由于每个层次的特征对语义分割都有帮助，高级特征有助于类别识别，低级特征有助于分割结果细节的提升。本方法则将每个阶段的特征都进行融合，获得更精细的分割结果；在考虑信息融合方式时，CNN+RF采用乘法运算融合，预测结果被分割性能差的一方影响较大，Mulit-Scale Deep Network直接对特征进行融合，本方法采取决策级融合方式，在两个分支网络末端使用类别概率图加权融合，充分融合两个神经网络分支的优势性能，使性能更优的网络分支在融合时发挥更大的作用。

在另一个实施例中，为了量化评估目标提取方法的好坏，使用了以下评估指标，它们的解释与定义式如下：

采用全局精度(Global acc)和IOU指标定量评价分割结果。Global acc表示每个像素点分类的正确率，IOU表示识别为目标的区域与真实目标区域之间的交并比。它们被定义为：

其中：

TP：true positive目标正确分类的像素数目

TN：true negative背景正确分类的像素数目

FN：false negative目标分为背景的像素数目

FP：false positive背景分为目标的像素数目

在另一个实施例中，在Inria Aerial Image Labeling Dataset测试集上实验如下：

在Inria Aerial Image Labeling Dataset上，如图5所示，图中共展示2幅图像测试结果，所有原始测试图像尺寸为5000*5000，经裁剪后输入网络进行测试，网络的输入图像尺寸均为500*500，输入为RGB三通道彩色图像和灰度图像，输出是与输入图像大小相同的预测标签图，最终将分割图像拼接为原始图像大小。图5从左到右依次为RGB图像、未使用场景识别分割结果、本方法、标签图像。

从图5中可以看出使用场景识别后，分割图在大面积背景区域减少了大量的背景错分。

图6给出了本方法在Inria Aerial Image Labeling Dataset数据集分割结果展示，从左到右依次为RGB图像、RGB图像分割结果、融合灰度图像与RGB图像分割结果、标签图像。图中共展示5幅图像测试结果，每幅测试图像第一行均展示整幅图像分割结果，第二行则为第一行图像对应局部放大图。对比第二列和第三列图像可以看出，使用多源输入图像所得分割结果比仅使用单一输入图像所得结果精度更高，在提高分割目标完整度的同时有效抑制错分。

图7给出了对应于图6的定量评价结果，使用全局精度(Global acc)和IOU(Intersection-over-Union)指标定量评价分割结果。Global acc表示每个像素点分类的正确率，IOU表示识别为目标的区域与真实目标区域之间的交并比。图7中，使用多源输入图像所得分割结果在每一幅图上的全局精度和IOU都达到最高。从定性和定量结果看出，使用多源输入图像所得分割结果比使用单一输入图像所得分割结果与实际标记图更接近，效果更好。

图8给出了本方法与FCN、FCN-MLP和FCN-Skip、Mask R-CNN和RiFCN的对比结果，各方法使用的训练样本数量大体相当。从图8对比结果中可以看出，在每个城市分割的整体准确率和IOU值上，本方法的分割效果优于所比较方法。

本方法与FCN、FCN-MLP和FCN-Skip、Mask R-CNN和RiFCN在IAILD数据集测试图像上的评价结果如图9，其中，从图9可见，虽然一些比较算法在IOU和Acc值度量中具有较好的结果，但是本方法的平均IOU和Acc值都达到了最优。具体而言，本方法的平均IOU比次好结果(RiFCN)高约2.4％，这充分证明了本方法在城市遥感图像分割方面的有效性。

在另一个实施例中，在vaihigen数据集上实验如下：

图10给出了本方法在vaihigen数据集分割结果展示，从左到右依次为IRRG(红外、红、绿三通道)图像、RGB图像分割结果、融合DSM(高程数据)图像与IRRG图像分割结果、标签图像。对比第二列和第三列图像何以看出，使用多源输入图像所得分割结果比仅使用单一输入图像所得结果精度更高，在提高分割目标完整度的同时有效抑制错分。

图11给出了对应于图10的定量评价结果，使用全局精度(Global acc)指标定量衡量分割的整体正确率，使用多源输入图像所得分割结果在每一幅图上的度量指标达到最高，从定性和定量结果看使用多源输入图像所得分割结果不仅使用单一输入图像在城市遥感图像分割方面与实际标记图更接近，效果更好。

图12给出了本方法与SegNet、CNN+RF和CNN+RF+CRF、Mulit-Scale Deep Network、CD-FFD的对比结果，各方法使用的训练样本数量大体相当。从图12对比结果中可以看出，在每种分割方法的整体准确率上，本方法的分割效果优于所比较方法。

本方法与SegNet、CNN+RF和CNN+RF+CRF、Mulit-Scale Deep Network、CD-FFD在vaihigen数据集测试图像上的评价结果如图13，如图可见，本方法的Acc值达到了最优，这充分证明了本方法在城市遥感图像分割方面的有效性。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于场景识别任务下的遥感图像目标提取方法，包括如下步骤：

S100：输入原始遥感图像；

S301：采用卷积-反卷积网络作为图像分割的主干网络；

S302：在所述主干网络中加入全分辨率网络分支；

S400：输出所提取的目标结果。

2.根据权利要求1的方法，其中，优选的，步骤S200进一步包括如下步骤：

3.根据权利要求2的方法，其中，所述深度卷积神经网络包含13个卷积层和3个全连接层。

4.根据权利要求1的方法，其中，步骤S301中的卷积阶段包含13个卷积层和5个池化层，反卷积阶段与卷积阶段呈镜像对称关系，包含13个反卷积层和5个解池化层。

5.根据权利要求3的方法，其中，所述卷积阶段的13个卷积层被划分为五个卷积阶段，第一个卷积阶段和第二个卷积阶段各包含两个卷积层，第三卷积阶段、第四卷积阶段和第五卷积阶段各包含三个卷积层。

6.根据权利要求4的方法，其中，在每个卷积层之后包含一个批量归一化单元和一个修正线性单元，其中批量归一化单元将提取到的特征数据进行归一化，修正线性单元用于加入非线性因素；在每个卷积阶段之后包含一个池化层。

7.根据权利要求1的方法，其中，步骤S302中所述全分辨率网络分支具体为：

8.根据权利要求1的方法，其中，步骤S303中所述全分辨率网络分支前半段逐步汇聚来自主干网络卷积各阶段的多级尺度特征具体为：对所述主干网络第二、三、四、五卷积阶段只选择最后一层卷积特征图，使用反卷积操作将各特征图进行扩大，与第一卷积阶段输出特征图做逐像素逐步相加融合。

9.根据权利要求1的方法，其中，步骤S303中所述全分辨率网络分支后半段则为主干网络反卷积各阶段提供汇聚后的多级尺度信息具体为：