CN112287983B

CN112287983B - 一种基于深度学习的遥感图像目标提取系统和方法

Info

Publication number: CN112287983B
Application number: CN202011103546.1A
Authority: CN
Inventors: 梁继民; 胡磊; 胡海虹; 郭开泰; 张薇; 郑长利; 任胜寒
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-10-10
Anticipated expiration: 2040-10-15
Also published as: CN112287983A

Abstract

本发明公开了一种基于深度学习的遥感图像目标提取系统和方法，所述系统包括：主干网络模块，用于对原始图片进行多次下采样，获得第一低级特征、第二低级特征、第三低级特征和第四低级特征；判别上下文感知特征提取模块，用于根据第四低级特征获得多尺度上下文特征差异融合结果；第一上采样模块，根据多尺度上下文特征差异融合结果获得第一高级特征；第一精炼解码器模块，用于将第三低级特征与第一高级特征融合并上采样，获得第二高级特征；第二精炼解码器模块，用于将第二低级特征与第二高级特征结果融合并上采样，获得第三高级特征。该遥感图像目标提取系统和方法能够增强背景和目标特征的鉴别能力，具有良好的目标提取能力。

Description

一种基于深度学习的遥感图像目标提取系统和方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于深度学习的遥感图像目标提取系统和方法。

背景技术

自动提取人工目标是遥感系统的主要任务之一，在城市规划、地理信息系统升级、智能交通系统、灾害监测、应急响应、违章建筑勘测、地理信息系统等应用中具有重要的现实意义。由于遥感场景具有背景杂乱、目标外观差异大、辐射畸变等特点，遥感图像目标提取是一个极具挑战性的任务。

目标提取可以看作是一个二元像素级的分类任务，从周围背景中分割出目标如建筑物、道路或车辆等。针对光学遥感和SAR(Synthetic Aperture Radar，合成孔径雷达)图像，人们提出了各种各样的目标自动提取方法。一般来说，传统方法大多采用颜色、边缘、杂波分布统计、超像素等人工设计的指标作为目标提却的依据。这些方法遇到的主要问题是，手工设计的特征经证明只能解决特定数据的特定问题。光学遥感和SAR图像通常通过卫星或航空航天传感器在高角度和高海拔户外拍摄，而合成图像往往与拍摄角度、大气条件、目标环境、传感器质量、光线等因素密切相关，因此，图像中的目标和背景可能在颜色、形状、亮度和比例上表现得非常相似，使用手工设计特征的方法很难解决以上提到的这些问题。

随着深度学习技术的发展，卷积神经网络在传统计算机视觉任务上取得了很大的进步。近年来，卷积神经网络技术应用于遥感任务中，也取得了显著的效果，但仍存在一些不足之处。首先，卷积神经网络模型大多采用编码-解码的结构，在这种结构中编码器通过多次卷积和下采样操作逐步提取图像特征，解码器将顶层的高分辨率特征与底层的低分辨率特征融合，产生高分辨率的语义结果。如果编码器直接采用为图像分类任务而开发的主干网络，那么在不明显的目标或目标边界附近的像素点，由于提取的特征识别能力不足，很容易被周围的背景所淹没。其次，在解码过程中，以往的方法通常采用简单的相加、拼接等组合策略，直接将多级特征进行聚合。这样一来，尽管低层的空间信息可以传播到高层，但不可避免地也会引入意想不到的噪声，将有用的信息淹没在噪声中。因此，这些简单的聚集策略可能会降低对目标细节的预测，特别是对于小且不明显的目标。最后，以往的遥感图像目标提取方法大多只针对特定类别的目标(如建筑物或道路)进行了开发和验证，在其他不同类别的目标数据集上，其性能可能会显著下降。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于深度学习的遥感图像目标提取系统和方法。本发明要解决的技术问题通过以下技术方案实现：

本发明的一个方面提供了一种基于深度学习的遥感图像目标提取系统，包括：

主干网络模块，用于对原始图片进行多次下采样，获得经一次下采样的第一低级特征、经二次下采样的第二低级特征、经三次下采样的第三低级特征以及经四次下采样的第四低级特征；

判别上下文感知特征提取模块，用于对所述第四低级特征进行多尺度上下文提取、相邻尺度特征差分及特征差值的融合，获得多尺度上下文特征差异融合结果；

第一上采样模块，对所述多尺度上下文特征差异融合结果进行上采样，获得第一高级特征；

第一精炼解码器模块，用于将所述第三低级特征与所述第一高级特征进行融合并上采样，获得第二高级特征；

第二精炼解码器模块，用于将所述第二低级特征与所述第二高级特征结果进行融合并上采样，获得第三高级特征；

转置卷积模块，用于对所述第三高级特征进行上采样，获得最终的特征提取结果。

在本发明的一个实施例中，所述主干网络模块由改进型ResNet_34网络模型组成，所述改进型ResNet_34网络模型去掉所述ResNet_34网络模型的全连接层、平均池化层和最后一个残差模块。

在本发明的一个实施例中，所述判别上下文感知特征提取模块包括：

多尺度上下文提取单元，包括级联且具有不同空洞率的多重空洞卷积层，用于生成多尺度上下文特征：

F_k＝F_k-1*θ_k，k＝1,2,…K，

其中，θ_k是第k个空洞卷积层的空洞卷积核，K表示空洞卷积层的数目尺度，*代表卷积操作；

特征差异表征单元，用于对所述多尺度上下文特征的相邻尺度特征进行差分，生成多个上下文特征差值：

D_k＝F_k+1-F_k，k＝1,2,…K-1；

特征差异融合单元，用于将多个上下文特征差值进行级联融合，获得多尺度上下文特征差异融合结果：

DR＝[D₁，D₂，…D_k-1]。

在本发明的一个实施例中，所述第一精炼解码器模块包括依次连接的精炼块单元、融合单元和空间注意块单元，其中，

所述精炼块单元用于利用循环卷积对所述第一高级特征进行去噪处理；

所述融合单元用于将所述精炼块单元去噪后的输出结果与所述第三低级特征进行融合；

所述空间注意块单元用于对所述融合单元输出的融合特征进行处理，以提高目标的激活值；

并且，所述第二精炼解码器模块与所述第一精炼解码器模块具有相同的结构。

在本发明的一个实施例中，所述精炼块单元包括依次级联的第一3×3卷积层、第一BN层、第一ReLU单元、第二3×3卷积层、第二BN层、第二ReLU单元，其中，

所述第一3×3卷积层的输出还输送至所述第二3×3卷积层的输入，以所述第一ReLU单元的输出与所述第一3×3卷积层的输出级联后作为所述第二3×3卷积层的输入。

在本发明的一个实施例中，所述空间注意块单元具体用于：

将所述融合单元输出的融合特征送入两个连续的3×3卷积层，将通道数压缩到1；

通过sigmod函数将通道数为1的特征图的输出限制到(0,1),表示为

并且，所述空间注意块单元最终输出的第二高级特征的表达式为：

其中，θ_1×1表示1×1卷积，表示对位乘。

本发明的另一方面提供了一种基于深度学习的遥感图像目标提取方法，包括：

对原始图片进行多次下采样，获得经一次下采样的第一低级特征、经二次下采样的第二低级特征、经三次下采样的第三低级特征以及经四次下采样的第四低级特征；

对所述第四低级特征进行多尺度上下文提取、相邻尺度特征差分以及特征差值的融合，获得多尺度上下文特征差异融合结果；

对所述多尺度上下文特征差异融合结果进行上采样，获得第一高级特征；

将所述第三低级特征与所述第一高级特征进行融合并上采样，获得第二高级特征；

将所述第二低级特征与所述第二高级特征结果进行融合并上采样，获得第三高级特征；

对所述第三高级特征进行上采样，获得最终的特征提取结果。

在本发明的一个实施例中，对所述第四低级特征进行多尺度上下文提取、相邻尺度特征差分以及特征差值的融合，获得多尺度上下文特征差异融合结果，包括：

将所述第三低级特征送入级联且具有不同空洞率的多重空洞卷积层，生成多尺度上下文特征：

F_k＝F_k-1*θ_k，k＝1,2,…K，

其中，θ_k是尺度k处的空洞卷积层的空洞卷积核，K代表尺度，*代表卷积操作；

对所述多尺度上下文特征的相邻尺度特征进行差分，生成多个上下文特征差值：

D_k＝F_k+1-F_k，k＝1，2，…K-1，

DR＝[D₁，D₂，D_k-1]。

在本发明的一个实施例中，将所述第三低级特征与所述第一高级特征进行融合并上采样，获得第二高级特征，包括：

利用循环卷积对所述第一高级特征进行去噪处理；

将所述精炼块单元去噪后的输出结果与所述第三低级特征进行融合；

对所述融合单元输出的融合特征进行处理，以提高目标的激活值，从而获得第二高级特征。

在本发明的一个实施例中，对所述融合单元输出的融合特征进行处理，以提高目标的激活值，从而获得第二高级特征，包括：

通过sigmod函数将通道数为1的特征图的输出限制到(0,1),表示为

所述空间注意块单元最终输出的第二高级特征的表达式为：

其中，θ_1×1表示1×1卷积，表示对位乘。

与现有技术相比，本发明的有益效果在于：

1、本发明基于深度学习的遥感图像目标提取系统和方法通过判别上下文感知特征提取模块，能够有效解决目标与背景之间特征表示的识别问题，通过该模块可以区分目标的上下文信息和背景的上下文信息，同时获得了较大的接受域上下文特征，使得顶层产生了具有识别能力的语义特征。

2、该遥感图像目标提取系统和方法在解码过程中引入精炼解码器模块来处理多级特征的聚合，低层信息与高层信息可以以一种相互补偿的方式融合，从而更加关注目标区域的细节，能够保持空间信息并聚焦目标区域。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于深度学习的遥感图像目标提取系统的模块图；

图2是本发明实施例提供的一种基于深度学习的遥感图像目标提取系统的详细结构图；

图3是本发明实施例提供的一种判别上下文感知特征提取模块的结构示意图；

图4是本发明实施例提供的一种精炼解码器模块的模块图；

图5是本发明实施例提供的一种精炼解码器模块的结构示意图；

图6是本发明实施例提供的一种基于深度学习的遥感图像目标提取方法的流程图；

图7是利用不同的方法对马萨诸塞路数据集中的图片进行处理的可视化结果对比图；

图8是利用不同的方法对马萨诸塞州道路数据集中的图片进行处理的可视化结果对比图；

图9是利用不同的方法对自构建SAR车辆提取验证集中的图片进行处理的可视化结果对比图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于深度学习的遥感图像目标提取系统和方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

遥感图像目标提取的一个核心问题是如何正确地对目标边界周围的像素点进行分类。为了解决这个问题，有必要为高级特征生成有区别的上下文信息。遥感图像中的目标在尺度、颜色、光照和纹理上可能是多种多样的，同时，目标及其周围背景可能具有相似的外观。由于卷积运算的局部权值共享特性，具有相同标签的像素的特征表示差异可能大于具有不同标签的像素的特征表示差异。这是遥感影像中普遍存在的类内不一致性和类间无差异的现象。为了解决这一问题，需要改进目标的特征表示，并尽可能地扩大目标与背景之间的语义差距。

实施例一

请参见图1，图1是本发明实施例提供的一种基于深度学习的遥感图像目标提取系统的模块图。该遥感图像目标提取系统包括：主干网络模块1，用于对原始图片进行多次下采样，获得经一次下采样的第一低级特征、经二次下采样的第二低级特征、经三次下采样的第三低级特征以及经四次下采样的第四低级特征；判别上下文感知特征提取模块(DCF)2，用于对第四低级特征进行多尺度上下文提取、相邻尺度特征差分及特征差值的融合，获得多尺度上下文特征差异融合结果；第一上采样模块3，对多尺度上下文特征差异融合结果进行上采样，获得第一高级特征；第一精炼解码器模块4，用于将第三低级特征与第一高级特征进行融合并上采样，获得第二高级特征；第二精炼解码器模块5，用于将第二低级特征与第二高级特征结果进行融合并上采样，获得第三高级特征；转置卷积模块6，用于对第三高级特征进行上采样，获得最终的特征提取结果。

具体地，该遥感图像目标提取系统采用U-Net式的编码-解码结构，以ResNet-34为主干网络(在ImageNet上进行预训练)。对ResNet-34原始网络做了两处修改，形成改进型ResNet_34网络模型，使其适应于目标提取的像素级预测任务。该改进型ResNet_34网络模型去掉所述ResNet_34网络模型的全连接层、平均池化层和最后一个残差模块，因此最终的特征图大小是输入图像大小的1/16。请参见图2，图2是本发明实施例提供的一种基于深度学习的遥感图像目标提取系统的详细结构图。本实施例的主干网络模块1的结构和参数如图所示。

判别上下文感知特征提取模块2主要由级联模式下的空洞卷积组成，它扩大了接受域，并在每个空间位置产生上下文差异表示。目标提取任务可以看作是将目标像素的语义标签从背景中分离出来。解决这一问题的直接方法是采用传统的FCN(全卷积网络)及其变体等编译码架构，来产生层次特征表示，然而，这些方法本身存在以下局限性。首先，一些工作采用固定的接受域。当目标与感受野的大小存在较大差异时，可能会出现碎片化或误分类。其次，虽然生成了多尺度的上下文特征，但这些方法仍然很难从目标和背景中捕获有鉴别能力的上下文信息。因此，顶层的上下文特征往往是不准确和粗糙的，导致目标与背景之间的空间关系的错误表示。因此，设计一种适合遥感影像的多尺度判别上下文特征表示具有重要的现实意义。

为了解决上述问题，本实施例引入判别上下文感知特征提取模块2来探索多尺度判别上下文特征的细粒度表示，先生成不同尺度的上下文信息，然后在每个空间位置捕获上下文差异。判别上下文感知特征提取模块2完成了两个功能：多尺度上下文提取和差异表示。

请参见图2和图3，图3是本发明实施例提供的一种判别上下文感知特征提取模块的结构示意图。本实施例的判别上下文感知特征提取模块2包括多尺度上下文提取单元21、特征差异表征单元22和特征差异融合单元23。

具体地，多尺度上下文提取单元21包括级联且具有不同空洞率的多重空洞卷积层，用于生成多尺度上下文特征：

F_k＝F_k-1*θ_k，k＝1，2，…K，

其中，θ_k是第k个空洞卷积层的空洞卷积核，K表示空洞卷积层的数目尺度，*代表卷积操作。F₀表示主干网络的顶层特征。

空洞卷积是一种显式调节感受野和控制特征图分辨率的有效方式，在级联中采用不同空洞率的多重空洞卷积来生成多尺度上下文信息。

特征差异表征单元22用于对所述多尺度上下文特征的相邻尺度特征进行差分，生成多个上下文特征差值：

D_k＝F_k+1-F_k，k＝1，2，…K-1；

特征差异融合单元23用于将多个上下文特征差值进行级联融合，获得多尺度上下文特征差异融合结果：

DR＝[D₁，D₂，...D_k-1]。

因为融合多个尺度的特征可以提高模型的性能，因此通过连接直接聚合上下文差异来生成最终的差异表示。

进一步地，第一上采样模块3由转置卷积和正则化层和激活单元组成，经过第一上采样模块3，特征尺寸为原始输入的1/8。

最终的差异表示是不同尺度特征差异的融合，既能捕获多尺度的上下文信息，又能增强目标与背景的区分能力。然而，简单的拼接操作不可避免地会引入噪声，并且顶层特征图的分辨率有限。因此，本申请进一步提出了两个级联的精炼解码器模块来解决这个问题。

请参见图4，图4是本发明实施例提供的一种精炼解码器模块的模块图。第一精炼解码器模块4包括依次连接的精炼块单元41、融合单元42和空间注意块单元43，其中，精炼块单元41用于利用循环卷积对所述第一高级特征进行去噪处理；融合单元42用于将所述精炼块单元去噪后的输出结果与所述第三低级特征进行融合；空间注意块单元43用于对所述融合单元输出的融合特征进行处理，以提高目标的激活值。第二精炼解码器模块5与第一精炼解码器模块4具有相同的结构和工作原理。

具体地，请参见图5，图5是本发明实施例提供的一种精炼解码器模块的结构示意图。精炼块单元(Refine Block)41包括依次级联的第一3×3卷积层、第一BN层、第一ReLU单元、第二3×3卷积层、第二BN层、第二ReLU单元，其中，所述第一3×3卷积层的输出还输送至所述第二3×3卷积层的输入，以所述第一ReLU单元的输出与所述第一3×3卷积层的输出级联后作为所述第二3×3卷积层的输入。

精炼解码器模块能够用来抑制噪声和聚焦目标区域。为了生成高分辨率的特征并保留空间细节，常用的方法是将多尺度的特征集合表示为残差形式:

其中，对于第一精炼解码器模块4来说，表示由来自主干网络模块1的第三低级特征x_l与来自第一上采样模块的第一高级特征y_l+1融合而成的特征，高层特征语义信息强，但空间分辨率低，低层特征空间分辨率高，语义信息弱。此处采用了一个简单而有效的层，命名为精炼块单元41，如图5所示，以丰富可视化特征抽象，减少低级和高级特征之间的语义间隙。来自主干网络模块1的第三低级特征x_l经过精炼块单元41细化的特征定义为：

x(t)表示卷积层的输出，θ表示共享的卷积核，t表示包含的卷积层的个数。通过递归地将原始特征加入到卷积层的输入中，细化后可以在特征转换过程中保留细节信息。需要说明的是，精炼块单元41中的各层采用参数共享。

特征精炼后，将精炼后的第三低级特征x_l与来自第一上采样模块的第一高级特征y_l+1经过融合单元(Fusion)42进行融合，生成融合后的特征。由于来自低层和高层特征的融合特征图包含了一些可能产生不准确预测的信息，因此并不是所有的空间位置都应该同等考虑。因此，进一步引入一个空间注意块来关注目标区域。

本实施例的空间注意块单元(Attention Block)43具体用于：将所述融合单元输出的融合特征送入两个连续的3×3卷积层，将通道数压缩到1；通过sigmod函数将通道数为1的特征图的输出限制到(0,1),表示为/>并且，所述空间注意块单元最终输出的第二高级特征的表达式为：

其中，θ_1×1表示1×1卷积，表示对位乘。空间注意块单元43的具体结构请参见图5。

第二精炼解码器模块5作用是将所述第二低级特征与所述第二高级特征结果进行融合并上采样，获得第三高级特征，其与第一精炼解码器模块4具有相同的结构和工作原理，这里不再赘述。通过这两个精炼解码器模块，融合高层特征和低层特征的同时还保护目标的细节信息。其输出尺寸为原始图片的1/2。

接着，将第三高级特征输入转置卷积模块6中对所述第三高级特征进行上采样，即可获得最终的特征提取结果。

本发明基于深度学习的遥感图像目标提取系统通过判别上下文感知特征提取模块，能够有效解决目标与背景之间特征表示的识别问题，通过该模块可以区分目标的上下文信息和背景的上下文信息，同时获得了较大的接受域上下文特征，使得顶层产生了具有识别能力的语义特征。

实施例二

在上述实施例的基础上，本实施例提出了一种基于深度学习的遥感图像目标提取方法。请参见图6，图6是本发明实施例提供的一种基于深度学习的遥感图像目标提取方法的流程图。该遥感图像目标提取方法包括：

S1：对原始图片进行多次下采样，获得经一次下采样的第一低级特征、经二次下采样的第二低级特征、经三次下采样的第三低级特征以及经四次下采样的第四低级特征；

具体地，在本实施例中，选用ResNet-34为主干网络(在ImageNet上进行预训练)。对ResNet-34原始网络做了两处修改，形成改进型ResNet_34网络模型，使其适应于目标提取的像素级预测任务。该改进型ResNet_34网络模型去掉所述ResNet_34网络模型的全连接层、平均池化层和最后一个残差模块，因此最终的特征图大小是输入图像大小的1/16。

S2：对所述第四低级特征进行多尺度上下文提取、相邻尺度特征差分以及特征差值的融合，获得多尺度上下文特征差异融合结果。

所述S2具体包括：

S21：将所述第三低级特征送入级联且具有不同空洞率的多重空洞卷积层，生成多尺度上下文特征：

F_k＝F_k-1*θ_k，k＝1，2，…K，

S22：对所述多尺度上下文特征的相邻尺度特征进行差分，生成多个上下文特征差值：

D_k＝F_k+1-F_k，k＝1，2，…K-1，

S23：特征差异融合单元，用于将多个上下文特征差值进行级联融合，获得多尺度上下文特征差异融合结果：

DR＝[D₁,D₂，...D_k-1]。

S3：对所述多尺度上下文特征差异融合结果进行上采样，获得第一高级特征；

该步骤通过一个上采样模块完成，该上采样模块由转置卷积和正则化层和激活单元组成，经过该上采样模块，特征尺寸为原始输入的1/8。

S4：将所述第三低级特征与所述第一高级特征进行融合并上采样，获得第二高级特征；

具体地，所述S4包括：

S41：利用循环卷积对所述第一高级特征进行去噪处理；

S42：将所述精炼块单元去噪后的输出结果与所述第三低级特征进行融合；

S43：对所述融合单元输出的融合特征进行处理，以提高目标的激活值，从而获得第二高级特征。

具体地，将所述融合单元输出的融合特征送入两个连续的3×3卷积层，将通道数压缩到1；

通过sigmod函数将通道数为1的特征图的输出限制到(0,1),表示为

所述空间注意块单元最终输出的第二高级特征的表达式为：

其中，θ_1×1表示1×1卷积，表示对位乘。

S5：将所述第二低级特征与所述第二高级特征结果进行融合并上采样，获得第三高级特征；

步骤S5和步骤S4的过程和原理类似，这里不再赘述。

S6：对所述第三高级特征进行上采样，获得最终的特征提取结果。

本实施例基于深度学习的遥感图像目标提取方法通过判别上下文感知特征提取模块，能够有效解决目标与背景之间特征表示的识别问题，通过该模块可以区分目标的上下文信息和背景的上下文信息，同时获得了较大的接受域上下文特征，使得顶层产生了具有识别能力的语义特征。此外，该遥感图像目标提取方法在解码过程中引入精炼解码器模块来处理多级特征的聚合，低层信息与高层信息可以以一种相互补偿的方式融合，从而更加关注目标区域的细节，能够保持空间信息并聚焦目标区域。

为了评估本实施例提出的遥感图像目标提取系统和方法的有效性和泛化性，进行了大量的实验在三个具有挑战性的目标提取数据集，包括WHU建筑物数据集、马萨诸塞州道路数据集和一个自构建的用于SAR图像中车辆提取的数据集。

1、数据集介绍

WHU建筑物数据集：WHU建筑物数据集是一个用于建筑物提取的基准数据集，它包括具有相应形状文件和光栅掩码的航空和卫星子数据集。在接下来的实验中使用了航空子集，其包含了4736个训练图像，其中，1036个用于验证，2416个用于测试。航空子集由超过220,000个独立的建筑组成，在新西兰基督城占地450平方公里，包含乡村、住宅、文化和工业区。整个地理参考图像被无缝地裁剪成8189个具有512大小的块，没有重叠。图像分辨率为0.3米。

马萨诸塞州道路数据集：马萨诸塞州道路数据集是道路提取的基准数据集，它总共包含1171张图像，其中，1108张用于训练、14张用于验证和49张用于测试。该数据集涵盖了从城市到农村的500平方公里，包含不同规模的道路目标和复杂的背景，包括河流、海洋、建筑、学校等。该数据集中图像的大小和分辨率分别为1500像素和1.2米。为了便于网络训练，将原始图像无缝裁剪为大小为512像素且没有重叠的图像块。由于训练图像的损坏和不完整，这里选择了8076张图进行训练，224张图进行验证，784张图进行测试。

自构建SAR车辆提取验证集：据了解，在SAR图像中没有用于车辆提取的公共数据集。为了填补这一空白并评估本实施例所提出的系统和方法的普遍性，收集了来自SandiaNational(桑迪亚国家实验室)的真实数据建立车辆提取的数据。原始图像的大小为1638×2510，分辨率为0.1米。我们从下载的图像中选择了6张图像，5张用于训练，1张用于测试，这些图像包含了目标车辆和复杂的背景，如建筑物、道路、草地和树木。使用Matlab 2018b的Image Labeler app对图像进行像素级手动标注，共标注车辆443辆。由于图像数量有限，每张图像和相应的标签被裁剪成96块，256×256像素，15％的重叠。

2、实现细节

本实施例提出的模型是在一块NVIDIA TITAN XP显卡上采用pytorch1.0训练，并使用截断的ResNet-34作为主干网络进行预训练。去除最后一个平均池化层和ResNet-34的全连接层以及最后一个残差块。主干网络由ImageNet分类任务中预先训练的权值初始化，其余层随机初始化。采用二进制交叉熵(BCE)+Dice损失作为损失函数进行端到端的训练。随机梯度下降(SGD)被选为批量大小为16、动量固定的优化器0.9和重量衰减0.002。在训练过程中选择随机梯度下降作为优化器，批大小为16，动量为0.9，权值衰减为0.002。

3、评价指标

本实施例的实验使用几个广泛使用的评价指标用于评估像素级分类模型，包括像素精度(PA)、平均像素精度(MPA)、并集上的平均相交(mIoU)、并集上的相交(IoU)和频率加权并集上的相交(FWIoU)。PA是所有正确分类的像素与总像素数的比值。MPA是计算每个类别中正确像素数与该类别中所有预测像素数的比例，然后通过累加计算平均值。mIoU是各类预测结果与地面真值的交集和并的比值之和的平均值。IoU是预测结果与某一类地面真值的相交和并的比值。FWIoU是根据每个类的频率设置权重，将权重乘以每个类的IOU并求和。

4、比较和评价

分别对这三个数据集WHU建筑物数据集、马萨诸塞州道路数据集和一个自构建的用于SAR图像中车辆提取的数据集进行了对比实验。对于每个数据集，首先对提出的判别上下文感知特征提取模块和精炼解码器模块进行消融实验(Ablation experiment)，然后将本发明方法的性能与其他现有技术方法的性能进行比较。

表1空洞率的超参数分析

马萨诸塞州道路数据集的结果：本实施例对马萨诸塞州道路数据集进行了大量的实验，包括超参数分析、消融实验以及与其他现有技术方法的性能进行比较。

表2马萨诸塞州道路数据集上的消融实验结果

请参见表1和表2，表1为空洞率(Dilation Rate)的超参数分析，表2为马萨诸塞州道路数据集上的消融实验结果，其中，最好的结果用粗体突出显示，baseline表示基准网络，即本实施例的主干网络。在表1中，{1,2}表示多尺度上下文提取单元21包括级联的两层空洞卷积层，第一层空洞率为1，第二层空洞率为2；{1,2,4}多尺度上下文提取单元21包括级联的三层空洞卷积层，第一层空洞率为1，第二层空洞率为2，第三层空洞率为3，其他情况依次类推。从表1和表2可以看出，DCF模块和精炼解码器模块RD(包括第一精炼解码器模块4和第二精炼解码器模块5)的添加都能改善该遥感图像目标提取系统的性能。

表3在马萨诸塞州道路数据集上本发明方法与其它现有方法的性能比较

进一步地，本实验利用马萨诸塞州道路数据集将本发明的方法与现有的方法做了全面的性能比较，结果请参见图7和表3。很明显，与其他现有方法相比，本发明实施例的方法和系统可以获得更准确地预测结果。

WHU建筑物数据集的结果：为了验证本申请的方法和系统对于不同目标的性能，在此对WHU建筑物数据集进行了实验，结果如下表所示。

表4WHU建筑物提取测试集上的消融实验

表5在WHU建筑物提取测试集上本发明方法与其它现有方法的性能比较

很明显，与其他现有方法相比，本发明实施例的方法和系统可以获得更准确地预测结果。

自构建SAR车辆提取验证集的结果：本实验标注了SAR车辆提取验证集，以验证本发明的遥感目标提取系统和方法对不同模态图像的泛化能力，结果如表6和表7所示。

表6自构建SAR车辆提取验证集上的消融实验

表7在SAR车辆提取验证集上本发明方法与其它现有方法的性能比较

可以看出，与其他现有的方法相比，本发明实施例的遥感图像目标提取方法在性能上依旧表现的最好，证明了本发明实施例的方法和系统具有良好的泛化能力。

综上，本发明基于深度学习的遥感图像目标提取系统和方法通过判别上下文感知特征提取模块，能够有效解决目标与背景之间特征表示的识别问题，通过该模块可以区分目标的上下文信息和背景的上下文信息，同时获得了较大的接受域上下文特征，使得顶层产生了具有识别能力的语义特征。该遥感图像目标提取系统和方法在解码过程中引入精炼解码器模块来处理多级特征的聚合，低层信息与高层信息可以以一种相互补偿的方式融合，从而更加关注目标区域的细节，能够保持空间信息并聚焦目标区域。为了评价该方法和系统的通用性，构建了一个新的SAR车辆提取数据集。详尽的实验结果表明，所提出的方法和系统优于目前现有最先进的网络模型及目标提取方法，具有良好的跨数据集的泛化能力。

在本发明所提供的几个实施例中，应该理解到，本发明所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的遥感图像目标提取系统，其特征在于，包括：

转置卷积模块，用于对所述第三高级特征进行上采样，获得最终的特征提取结果，

所述判别上下文感知特征提取模块包括：

F_k＝F_k-1*θ_k，k＝1,2,…K，

D_k＝F_k+1-F_k，k＝1,2,…K-1；

DR＝[D₁,D₂,…D_k-1]，

所述第一精炼解码器模块包括依次连接的精炼块单元、融合单元和空间注意块单元，其中，

2.根据权利要求1所述的基于深度学习的遥感图像目标提取系统，其特征在于，所述主干网络模块由改进型ResNet_34网络模型组成，所述改进型ResNet_34网络模型去掉所述ResNet_34网络模型的全连接层、平均池化层和最后一个残差模块。

3.根据权利要求2所述的基于深度学习的遥感图像目标提取系统，其特征在于，所述精炼块单元包括依次级联的第一3×3卷积层、第一BN层、第一ReLU单元、第二3×3卷积层、第二BN层、第二ReLU单元，其中，

4.根据权利要求3所述的基于深度学习的遥感图像目标提取系统，其特征在于，所述空间注意块单元具体用于：

通过sigmod函数将通道数为1的特征图的输出限制到(0,1),表示为

其中，θ_1×1表示1×1卷积，表示对位乘。

5.一种基于深度学习的遥感图像目标提取方法，其特征在于，利用权利要求1至4中任一项所述的基于深度学习的遥感图像目标提取系统执行，所述方法包括：

6.根据权利要求5所述的基于深度学习的遥感图像目标提取方法，其特征在于，对所述第四低级特征进行多尺度上下文提取、相邻尺度特征差分以及特征差值的融合，获得多尺度上下文特征差异融合结果，包括：

F_k＝F_k-1*θ_k，k＝1,2,…K，

D_k＝F_k+1-F_k，k＝1,2,…K-1，

DR＝[D₁,D₂,…D_k-1]。

7.根据权利要求5所述的基于深度学习的遥感图像目标提取方法，其特征在于，将所述第三低级特征与所述第一高级特征进行融合并上采样，获得第二高级特征，包括：

利用循环卷积对所述第一高级特征进行去噪处理；

将精炼块单元去噪后的输出结果与所述第三低级特征进行融合；

对融合单元输出的融合特征进行处理，以提高目标的激活值，从而获得第二高级特征。

8.根据权利要求7所述的基于深度学习的遥感图像目标提取方法，其特征在于，对所述融合单元输出的融合特征进行处理，以提高目标的激活值，从而获得第二高级特征，包括：

通过sigmod函数将通道数为1的特征图的输出限制到(0,1),表示为

空间注意块单元最终输出的第二高级特征的表达式为：

其中，θ_1×1表示1×1卷积，表示对位乘。