CN112083422B

CN112083422B - 基于多级深度学习网络的单航过InSAR系统端对端分类方法

Info

Publication number: CN112083422B
Application number: CN202010871262.0A
Authority: CN
Inventors: 陈立福; 张鹏; 韦立登; 邢进; 李振洪; 邢学敏; 袁志辉; 肖红光
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-08-22
Anticipated expiration: 2040-08-26
Also published as: CN112083422A

Abstract

本发明公开了一种基于多级深度学习网络的单航过InSAR系统端对端分类方法，本发明包括输入SAR图像、InSAR相位图和相干系数图；通过多尺度空间特征提取网络MSF从输入的SAR图像中获取多尺度空间统计特征；通过多层选择性注意力网络MLSAN对多尺度空间统计特征提取中层和高层特征；通过改进策略网络IS对中层和高层特征进行拼接加权得到最终的分类结果，实现对阴影、水体和叠掩区域的自动分类。本发明能够针对单航过InSAR系统自动检测InSAR图像中的阴影、水体和叠掩区域，进而提高相位解缠精度。

Description

基于多级深度学习网络的单航过InSAR系统端对端分类方法

技术领域

本发明涉及合成孔径雷达(Synthetic Aperture Radar，SAR)中的干涉合成孔径雷达(Interferometric Synthetic Aperture Radar，InSAR)，具体涉及一种基于多级深度学习网络的单航过InSAR系统端对端分类方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar,SAR)是一种应用广泛的地球观测系统，具有全天时全天候观测的优点，SAR具有穿透云层的能力。干涉合成孔径雷达(Interferometric Synthetic Aperture Radar，InSAR)采用干涉测量技术，是传统SAR遥感技术与射电天文干涉技术的结合，可以分为单航过干涉和重复轨道干涉。在单航过InSAR系统中，两个(或多个)天线安装在单一平台上进行干涉测量，通常有机载和星载系统，例如航天飞机雷达地形信息系统(Shuttle Radar Topography Mission，SRTM)可以生成大范围高分辨率高精度的数字高程模型(digital elevation models，DEMs)。在重复轨道InSAR系统中，在几乎相同的重复飞行轨道上的机载或星载平台上使用单天线进行重复轨道干涉成像。在后一种情况中,如果地面的散射特性保持不变，系统记录的对应两个通道的两组信号具有紧密的相关性。InSAR能够在大范围内以米级分辨率测量厘米到亚厘米精度的地表变形。

因此，InSAR系统在地形测绘、形变检测、环境监测、作物产量估算和军事领域中具有独特的优势和广泛的应用前景。随着单航过InSAR系统的快速发展，我们可以获得很多高精度高分辨率的DEM产品。然而，在相位解缠的过程中由于噪声区域的存在，例如阴影、水体和叠掩，会造成很大的误差。

对于单航过InSAR系统，水体和阴影区域在灰度图像中记录为较小的数值，视觉效果为黑暗的区域。这些区域的相干性很低，在相位解缠时会引入很多噪声。此外，在相位解缠中叠掩区域也会导致误差。图1展示了侧视成像系统中的SAR的成像几何示意图。在雷达系统中，侧视成像是常用的成像方式，在SAR图像中会引入侧视几何。这会导致一些问题，例如斜距尺度畸变、几何畸变和叠掩。斜距畸变是指在不同的距离位置上，同一长度目标在地面上的成像尺度不同。例如AC和HI。虽然它们有相同的长度，但是AˊCˊ和HˊIˊ大小不一样。几何畸变通常由地形起伏造成，表现为透视收缩和叠掩。透视收缩是指雷达图像中山体的坡长小于实际长度的现象，这也称为“正向收缩”，例如AB和DE的坡。当雷达波束垂直于斜面时，会出现最大的收缩，例如坡AB。当雷达波束到达斜坡顶部(G)，在到达底部(H)之前，会产生叠掩。G的回波信号将会在H之前收到。因此与地面的真实位置相比，SAR系统中G点会有轻微的位移。叠掩与地形的坡度(β)和入射角(θ)有关。阴影在SAR图像中通常表现为黑暗的区域，这是因为雷达波束无法到达坡后的三角形区域(图1所示三角形ΔGIJ)。阴影区域包含很少的地物信息，但是它是一个很好的斜坡方向的指示器。

SAR图像分类是指对大范围的SAR图像中的不同目标进行分类，对目标检测和定位有很大的帮助。但目前还没有一个效果很好精度很高的方法来对SAR图像自动地进行端对端分类。因此，本文引入深度学习来进行阴影、水体和叠掩区域的自动分类。深度学习由Hinton于2006年提出，起源于人工神经网络，通过从低级特征中得到抽象的高级特征来识别不同目标的类型。2012年，Krizhevsky使用卷积神经网络在ImageNet比赛中实现了10％的精度提升。这是深度学习第一次效果超过使用浅层模型的人工特征。从此深度学习在各个领域开始蓬勃发展，例如目标检测和语义分割。

分类问题可以从语义分割中获益，图像语义分割是聚类属于同一个目标的相似像素。它不仅能检测出物体还能描绘物体的轮廓。在此，我们列举出几个主要的用于语义分割的深层神经网络，例如FCN、SegNet、ResNet、CRF-RNN、DeepLab-CRF、RefineNet、PSPNet和SENet Network。

有许多利用深度学习来进行SAR图像分类的工作。2010年，等人第一次提出利用复数卷积神经网络来识别极化SAR数据(Polarization SAR，Pol-SAR)。虽然该结构只是一个单独的卷积层，但是结果已经超过了常规复数神经网络的结果。Song等人提出了一个在高地势山地环境中精确有效的水体区域分类方法，但是方法的自动化是一个问题，而且应该提供相应的DEM或者DSM(Digital Surface Model，DSM)数据。Huang等人提出了一种基于树的自动分类方法，利用Sentinel-1SAR数据来分析地表水范围，训练数据由之前类别的掩膜生成。然而，阴影和平静水面之间的颜色差异仍然是一个挑战。Kropatsch提出了一种利用DEM的几何形状来生成阴影和水体区域的掩膜，但是DEM本身的缺陷或者DEM的低精度导致了其他的问题。Papson等人提出了一个隐马尔科夫模型(Hidden MarkovModeling,HMM)来建模并提取目标阴影区域。Fu等人提出了一个基于有限参数几何模型，从高分辨率SAR图像叠掩区域进行重建的从粗糙到精细的方法。该方法利用柏林地区的TanDEM-X强度图像进行测试，平均拟合率大概是0.84。Furukawa等人验证了数据增强能够提升SAR图像分类的精度，其中使用了卷积神经网路和残差网络来验证平移不变性。为了解决SAR图像训练卷积神经网络样本量较少的问题，文献对足够多的未标记SAR场景图像进行训练，然后利用有限的标记图像生成最终的分类结果。Zhu等人总结了深度学习在遥感领域的发展。同时也对深度学习在SAR图像解译中的研究进行了回顾，包括自动目标识别(Automatic Target Recognition,ATM)和地表分类。

尽管在SAR图像分类中取得了令人瞩目的进展，但仍然存在一些问题，例如算法的泛化性、自动化程度、上下文信息和空间信息的缺乏以及训练速度。很少有完全实现SAR图像阴影、水体和叠掩区域分类的工作，而水体和阴影区域的高度相似性为深度学习方法的引入提供了巨大的机会。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于多级深度学习网络的单航过InSAR系统端对端分类方法，本发明能够针对单航过InSAR系统自动检测InSAR图像中阴影、水体和叠掩区域，进而提高相位解缠精度。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于多级深度学习网络的单航过InSAR系统端对端分类方法，包括：

1)输入SAR图像、InSAR相位图和相干系数图；

2)通过多尺度空间特征提取网络MSF从输入的SAR图像中获取多尺度空间统计特征；

3)通过多层选择性注意力网络MLSAN对多尺度空间统计特征提取中层和高层特征；

4)通过改进策略网络IS对中层和高层特征进行拼接加权得到最终的分类结果，实现对阴影、水体和叠掩区域的自动分类。

可选地，步骤2)中的多尺度空间统计特征包括Gabor特征，GLGCM特征和MSOGDF特征这三种低层次特征，每一种低层次特征都选择从中计算出两到三个数字特征来融合成一组三通道特征图从而得到三组三种不同类型的特征图，并结合SAR图像生成第四组三通道特征图，一共得到四组三通道特征图作为多层选择性注意力网络MLSAN的输入。

可选地，所述Gabor特征选择45°和135°方向的特征，GLGCM特征选择灰度均值、梯度均值和灰度标准差，MSOGDF特征选择选择45°和135°方向的特征。

可选地，步骤3)中的多层选择性注意力网络MLSAN包括用于基于残差网络来提取输入图像的中层和高层特征的编码网络、用于融合和再提取高层和中层特征的解码网络。

可选地，所述编码网络包括5个特征图产生单元，第1个特征图产生单元由一个卷积层与池化层构成，第2～5个特征图产生单元Res-1～Res-4分别为包含指定数量残差单元的残差网络，输入的特征图经过第一个特征图产生单元得到特征图F0，特征图F0经过第2个特征图产生单元Res-1得到特征图F1，特征图F1经过第3个特征图产生单元Res-2得到特征图F2，特征图F2经过第4个特征图产生单元Res-3得到特征图F3，特征图F3经过第5个特征图产生单元Res-4得到特征图F4，其中特征图F1～特征图F3为中层特征，特征图F4为高层特征，特征图F1～特征图F4则分别作为编码结果输出到解码网络；所述解码网络包括卷积层、4个解码模块M1～M4和输出模块，特征图F4经卷积层降维后输入解码模块M4进行解码得到特征图F4_2，特征图F3经卷积层降维后和特征图F4_2一起输入解码模块M3进行解码得到特征图F3_2，特征图F2经卷积层降维后和特征图F3_2一起输入解码模块M2进行解码得到特征图F2_2，特征图F1经卷积层降维后和特征图F2_2一起输入解码模块M1进行解码得到特征图F1_2作为结果输出到输出模块；所述输出模块包括两个残差卷积单元RCU、一个上采样模块和一个卷积层，所述两个残差卷积单元RCU用于将特征图F1_2增加非线性，所述一个上采样模块和一个卷积层用于对两个残差卷积单元RCU的输出结果进行上采样、卷积处理恢复特征图的维度至m×n×N_class，其中m和n分别为输入SAR图像、InSAR相位图和相干系数图的长度和宽度，N_class是类别的数量。

可选地，所述4个解码模块M1～M4中，解码模块M1、解码模块M3、解码模块M4的结构相同，均包括特征图自适应和融合模块FMAF和残差注意力池化模块RAP，解码模块M2包括特征图自适应和融合模块FMAF和金字塔注意力池化模块PAP；特征图自适应和融合模块FMAF用于调整特征图的尺寸大小并融合不同层次的特征，特征图自适应和融合模块FMAF的输入为不同层次的特征，先通过两个残差卷积单元RCU，再经过一个卷积和上采样层进行维度调整，最终将所得特征进行相加得到最终融合的特征；残差注意力池化模块RAP用于获得大范围内的上下文信息，并通过连续的池化层对输入特征进行池化，残差注意力池化模块RAP由一系列池化模块组成，每一个池化模块中包含一个卷积层和一个最大池化层，输入特征从第一个池化模块开始输入，且前一个池化模块的输出作为后一个池化模块的输入，使得后续的池化模块可以用一个小的池化窗口来处理大范围的区域，融合完池化模块的特征之后使用注意力模块来对融合特征进行加权以增强有用的特征并削弱冗余特征，最终加权后的特征与最初的输入特征融合、再输入残差卷积单元RCU得到最终的处理结果；金字塔注意力池化模块PAP用于通过金字塔池化融合包括全局池化和不同子区域的本地特征在内的不同尺度的特征，且通过注意力机制用来进一步增强上下文信息的提取，金字塔注意力池化模块PAP将输入特征经过池化层之后得到四种尺寸的特征图，然后利用1×1的卷积层分别对各种尺寸的特征图进行降维，然后再利用双线性插值将特征图恢复到初始的大小再将四个特征图并置为一个特征图；再将所得特征经过注意力模块进行加权，然后与最初输入特征并置经过一个卷积层恢复到原来大小，最后送入残差卷积单元RCU通过非线性操作进一步处理特征用于最后的分类。

可选地，步骤4)中的改进策略网络IS包括拼接单元和加权单元，拼接单元使用一个指定大小的滑动窗口来剪切大范围的图像得到四个得分图，该滑动窗口的步长设置为滑动窗口大小的一半；加权单元用于将通过加权的方法将四个得分图融合生成最终的分类结果。

此外，本发明还提供一种基于多级深度学习网络的单航过InSAR系统端对端分类系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，该计算机设备的微处理器被编程或配置以执行所述基于多级深度学习网络的单航过InSAR系统端对端分类方法的步骤。

此外，本发明还提供一种基于多级深度学习网络的单航过InSAR系统端对端分类系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，该计算机设备的存储器中存储有被编程或配置以执行所述基于多级深度学习网络的单航过InSAR系统端对端分类方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行所述基于多级深度学习网络的单航过InSAR系统端对端分类方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明通过多尺度空间特征提取网络MSF从输入的SAR图像中获取多尺度空间统计特征；通过多层选择性注意力网络MLSAN对多尺度空间统计特征提取中层和高层特征；通过改进策略网络IS对中层和高层特征进行拼接加权得到最终的分类结果，通过多级深度学习网络的方式，基于输入的SAR图像、InSAR相位图和相干系数图，能够针对单航过InSAR系统自动检测InSAR图像中阴影、水体和叠掩的这些区域，来提高相位解缠的精度。通过使用毫米波InSAR数据集进行训练和测试，其中水体、阴影和叠掩的分类精度分别能达到0.8382、0.9278和0.8907，IoU(Intersection over Union)精度能达到0.7727、0.8006和0.7636，整体像素精度能够达到0.9076，因此能够对InSAR系统中的阴影、水体和叠掩区域实现精确的自动分类。

附图说明

图1为现有侧视成像系统中的SAR的成像几何示意图。

图2为本发明实施例方法的基本流程示意图。

图3为本发明实施例中多尺度空间特征提取网络MSF的结构示意图。

图4为本发明实施例中多层选择性注意力网络MLSAN的结构示意图。

图5为本发明实施例中特征图自适应和融合模块FMAF的结构示意图。

图6为本发明实施例中残差注意力池化模块RAP的结构示意图。

图7为本发明实施例中金字塔注意力池化模块PAP的结构示意图。

图8为本发明实施例中改进策略网络IS的结构示意图。

图9为本发明实施例中拼接方法的滑动窗口原理示意图。

图10为本发明实施例中输入和输出结果的图像示例。

图11为本发明实施例中的Gabor特征示例。

图12为本发明实施例中的GLGCM特征示例。

图13为本发明实施例中的MSOGDF特征示例。

图14为本发明实施例中的实验图像示意图。

图15为本发明实施例中不同分类方法的分类结果融合图对比。

图16为本发明实施例中不同分类方法的OA与IoU对比。

具体实施方式

如图2所示，本实施例基于多级深度学习网络的单航过InSAR系统端对端分类方法包括：

1)输入SAR图像、InSAR相位图和相干系数图；

如图3所示，多尺度空间特征提取网络MSF(Multi-scale Spatial Features)旨在从SAR图像中获取多尺度空间统计特征。如果对原SAR图像进行的多种变换可以增强目标不同的特征，那么这些特征可以使得网络获得更好的分类结果。

本实施例中，步骤2)中的多尺度空间统计特征包括Gabor特征，GLGCM特征和MSOGDF特征这三种低层次特征，每一种低层次特征都选择从中计算出两到三个数字特征来融合成一组三通道特征图从而得到三组三种不同类型的特征图，并结合SAR图像生成第四组三通道特征图，一共得到四组三通道特征图作为多层选择性注意力网络MLSAN的输入。

作为一种可选的实施方式，多尺度空间特征提取网络MSF采用权重向量SW被用来决定数据集是否利用MSF来提取低级特征。如图3所示，本实施例中一共有三种类型的输入图像，分别是SAR图像、InSAR相位图和相干系数图。因此，我们设置SW＝{0，1，2}，SW＝0表示图像不会被使用中，SW＝1表示图像将会输入多尺度空间特征提取网络MSF中进行特征提取，SW＝2意味着图像会直接跳过多尺度空间特征提取网络MSF处理，直接输入多层选择性注意力网络MLSAN。因此，本实施例中如果设置SW＝1，则会使用多尺度空间特征提取网络MSF提取SAR图像得到Gabor特征，GLGCM特征和MSOGDF特征这三种低层次特征。

Gabor特征为Gabor变换得到的特征，Gabor变换是一种加窗傅里叶变换。它可以在频域内提取不同尺度和方向的相关特征。Gabor变换类似于人眼的生物学功能，因此经常用来识别目标的纹理。通常有四个方向的四个特征，作为一种可选的实施方式，本实施例中选择45°和135°方向的特征。GLGCM特征能够有效地提取图像的灰度信息和相邻像素的梯度信息。因此，它能够产生多种统计特征，其中15种较为常用。作为一种可选的实施方式，本实施例中GLGCM特征选择灰度均值、梯度均值和灰度标准差。MSOGDF特征为多尺度全向高斯导数滤波器得到的特征。空间结构特征包含了图像视觉特征的重要信息，为了获得这些特征，可采用多尺度全向高斯导数滤波器MSOGDF，可从图像中生成不同方向的特征。作为一种可选的实施方式，本实施例中MSOGDF特征选择了指定尺度上45°和135°两个方向的特征。

近年来提出了几种经典的、应用广泛的图像分割网络，例如FCN、SegNet、DeepLab(V1、V2and V3)、RefineNet和PSPNet。这些网络极大地推动了深度学习在图像分割领域的发展。然而在这些网络中仍然存在一些问题，例如由于在池化操作中丢失了一些信息导致了分割的结果较为粗糙；由于缺乏多尺度信息和上下文信息存在一定的类间重叠。因此，本实施例中用到多尺度空间特征提取网络MSF来提取包括边缘和纹理在内的低级特征。然后提出多层选择性注意力网络MLSAN来提高分类精度，通过多层选择性注意力网络MLSAN提取特征图的上下文和全局信息。

如图4所示，步骤3)中的多层选择性注意力网络MLSAN包括用于基于残差网络来提取输入图像的中层和高层特征的编码网络、用于融合和再提取高层和中层特征的解码网络。

参见图4，编码网络包括5个特征图产生单元，第1个特征图产生单元由一个卷积层与池化层构成，第2～5个特征图产生单元Res-1～Res-4分别为包含指定数量残差单元的残差网络，输入的特征图经过第一个特征图产生单元得到特征图F0，特征图F0经过第2个特征图产生单元Res-1得到特征图F1，特征图F1经过第3个特征图产生单元Res-2得到特征图F2，特征图F2经过第4个特征图产生单元Res-3得到特征图F3，特征图F3经过第5个特征图产生单元Res-4得到特征图F4，其中特征图F1～特征图F3为中层特征，特征图F4为高层特征，特征图F1～特征图F4则分别作为编码结果输出到解码网络。

编码网络基于残差网络来提取输入图像的中级和高级特征，本实施例中使用的是resnet_v2_101，整个网络的前向操作是一个不断求解残差的过程，伴随着特征图分辨率的降低和维度的提高。假设输入图像的尺寸为512×512×3。首先经过一个卷积层与池化层之后生成尺寸为128×128×64的特征图F0。第二步，F0经过包括3个残差单元的Res-1生成尺寸为128×128×256的特征图F1。第三步，F1经过包括4个残差单元的Res-2生成尺寸大小为64×64×512的特征图F2。第四步，F2经过包括23个残差单元的Res-3生成尺寸大小为32×32×1024的特征图F3。最终，F3经过包括3个残差单元的Res-4生成尺寸大小为16×16×2048的特征图F4。残差网络通过堆叠残差单元搭建而成。残差单元基于恒等映射来保证梯度信息能够传递到低层，这使得整个网络的参数能够得到有效训练。本实施例中使用的Resnet_v2_101利用了ImageNet的预训练模型。虽然SAR图像和光学图像有很大的差异，但是Yosinki等人证明了通过迁移学习能够比参数随机初始化获得更好的效果，本实施例中的实验结果也能加以佐证。

高级特征(高层和中层特征)通常用来区分不同的类别，低级特征(低层特征)则用来描绘目标的细节信息。因此，我们仔细设计了解码网络来融合和再提取高层和中层特征。参见图4，解码网络包括卷积层、4个解码模块M1～M4和输出模块，特征图F4经卷积层降维后输入解码模块M4进行解码得到特征图F4_2，特征图F3经卷积层降维后和特征图F4_2一起输入解码模块M3进行解码得到特征图F3_2，特征图F2经卷积层降维后和特征图F3_2一起输入解码模块M2进行解码得到特征图F2_2，特征图F1经卷积层降维后和特征图F2_2一起输入解码模块M1进行解码得到特征图F1_2作为结果输出到输出模块。参见图4，本实施例中编码网络一共生成了四个特征图，分别是Res-4生成的高级特征F4(16×16×2048)、Res-3、Res-2和Res-1生成的中级特征F3(32×32×1024)、F2(64×64×512)和F1(16×16×256)。为了降低解码网络的计算复杂度和冗余的特征，编码网络与解码网络之间使用一个卷积层来进行降维。最终输入解码网络的特征图维度为16×16×512、32×32×256、64×64×256和128×128×256。解码网络和编码网络是对立的，采用自底向上的方法，编码网络输出的高层特征与次高层特征逐步融合成新的特征图，同时特征图的分辨率也增加。

参见图4，输出模块包括两个残差卷积单元RCU、一个上采样模块和一个卷积层，所述两个残差卷积单元RCU用于将特征图F1_2增加非线性，所述一个上采样模块和一个卷积层用于对两个残差卷积单元RCU的输出结果进行上采样、卷积处理恢复特征图的维度至m×n×N_class，其中m和n分别为输入SAR图像、InSAR相位图和相干系数图的长度和宽度，N_class是类别的数量。

参见图4，4个解码模块M1～M4中，解码模块M1、解码模块M3、解码模块M4的结构相同，均包括特征图自适应和融合模块FMAF(the Feature Map Adaption and Fusion)和残差注意力池化模块RAP(the Residual and Attention Pooling)，解码模块M2包括特征图自适应和融合模块FMAF和金字塔注意力池化模块PAP(the Pyramid and AttentionPooling)。本实施例中，残差注意力池化模块RAP和金字塔注意力池化模块PAP的结合显著地提高了网络提取上下文信息的能力，也增加了所提取信息的种类。同时，所有的模块都基于残差连接搭建，保证了网络能进行有效训练。

如图5所示，特征图自适应和融合模块FMAF用于调整特征图的尺寸大小并融合不同层次的特征，特征图自适应和融合模块FMAF的输入为不同层次的特征，先通过两个残差卷积单元RCU(residual convolutional units)，再经过一个卷积和上采样层进行维度调整，最终将所得特征进行相加得到最终融合的特征。

如图6所示，残差注意力池化模块RAP用于获得大范围内的上下文信息，并通过连续的池化层对输入特征进行池化，残差注意力池化模块RAP由一系列池化模块组成，每一个池化模块中包含一个卷积层和一个最大池化层，输入特征从第一个池化模块开始输入，且前一个池化模块的输出作为后一个池化模块的输入，使得后续的池化模块可以用一个小的池化窗口来处理大范围的区域，融合完池化模块的特征之后使用注意力模块来对融合特征进行加权以增强有用的特征并削弱冗余特征，最终加权后的特征与最初的输入特征融合、再输入残差卷积单元RCU得到最终的处理结果；本实施例中，残差注意力池化模块RAP中每一个池化模块的窗口大小为5×5，步长为1×1。

用深度学习方法对日常事物进行分类已经取得了很大的进展，例如，RefineNet通过使用多通道优化的方法来整合不同分辨率的特征图，将PASCAL VOC 2012数据的IoU提升到了83.4。然而全局信息与上下文信息的缺乏使得RefineNet处理遥感图像时存在一些不足。由于SAR图像中的对象比日常对象的尺度要大得多，因此通常需要通过多个图像块之间的上下文信息来辅助检测。本实施例中使用注意力机制和空间金字塔池化来提取上下文信息，利用全局池化来提取全局上下文信息。注意力机制是从人类视觉系统发展而来的。它扫描整个图像，对重要的区域给予更多的注意力。更多的注意力意味着在分类时对该区域会考虑更多的细节信息。近年来，注意力机制在很多领域得到了应用，例如机器翻译，图像分类。基于注意力机制，Jie Hu提出了Sequence-and-Excitation network((SENet)并因此获得了ILSVRC 2017的冠军。它首先在卷积处理获取的特征图上采用“Squeeze”操作来获取通道间的全局特征，进而在全局特征上执行“Excitation”操作来学习通道间的关系，并获取每个通道的权重，最后与原始特征图相乘获取最后特征图。上金字塔池化提取特征图空间结构的上下文信息。一般而言，感受野的大小很大程度上决定了我们能够处理多少上下文信息。然而在卷积神经网络的高层中，感受野的大小通常是受限的，不能得到全局上下文信息。金字塔池化可以提供各个子区域的上下文信息和全局上下文信息，以此可以提高分类的精度。

如图7所示，金字塔注意力池化模块PAP用于通过金字塔池化融合包括全局池化和不同子区域的本地特征在内的不同尺度的特征，且通过注意力机制用来进一步增强上下文信息的提取，金字塔注意力池化模块PAP将输入特征经过池化层之后得到四种尺寸的特征图，然后利用1×1的卷积层分别对各种尺寸的特征图进行降维，然后再利用双线性插值将特征图恢复到初始的大小再将四个特征图并置为一个特征图；再将所得特征经过注意力模块进行加权，然后与最初输入特征并置经过一个卷积层恢复到原来大小，最后送入残差卷积单元RCU通过非线性操作进一步处理特征用于最后的分类。假如输入特征的输入特征图大小为64×64×256，输入特征经过池化层之后，特征图的大小变为1×1×256、2×2×256、3×3×256和6×6×256。然后利用卷积层(1×1)对特征图进行降维，特征图尺寸变为1×1×64、2×2×64、3×3×64和6×6×64。接下来，利用双线性插值将特征图恢复到初始的大小再将四个特征图并置为一个特征图(64×64×256)。再将所得特征经过注意力模块进行加权，然后与最初输入特征并置(64×64×256)经过一个卷积层恢复到原来大小(64×64×256)，最后送入RCU单元通过非线性操作进一步处理特征用于最后的分类。金字塔池化融合了不同尺度的特征，包括全局池化和不同子区域的本地特征，在这里，注意力机制用来进一步增强上下文信息的提取能力。

参见图4可知，特征图F4从Res-4输出然后输入模块M4中。它不会经过FMAF模块的处理，因为它是最高层特征，也不会有其他层次的特征进入这个模块。因此，F4特征将输入RAP模块进行上下文信息的提取，然后新生成的特征图F4_2将会输入模块M3中。M3模块有两个输入，分别是Res-3输出的中级特征F3和经过模块M4调整的高级特征F4_2。首先两个不同级别的特征将经过FMAF模块进行特征融合。然后融合之后的特征将经过RAP模块提取上下文信息。最终，生成新特征图F3_2。模块M1、M2的操作和M3类似。他们都是融合来自高层的低分辨率特征和来自低层的高分辨率特征。不同之处在于PAP模块用于在M2中提取上下文信息，RAP则是用于其余三个模块(M1,M2和M4)。一旦生成特征图F1_2，他将会经过两个RCU单元进行处理来增加非线性。这个阶段特征图的尺寸为128×128×256。随后经过输出模块的上采样模块和卷积层用于对两个残差卷积单元RCU的输出结果进行上采样、卷积处理恢复特征图的维度至512×512×N_class，N_class是类别的数量。最终，一个密集预测的得分图将会由Softmax层生成。

多尺度空间特征提取网络MSF、多层选择性注意力网络MLSAN经过训练生成的模型可以用来分类大范围的SAR图像。为了获得更好的分类结果，步骤4)中的改进策略网络IS分别使用了两个策略：拼接和加权。

如图8所示，步骤4)中的改进策略网络IS包括拼接单元和加权单元，拼接单元使用一个指定大小的滑动窗口来剪切大范围的图像得到四个得分图，该滑动窗口的步长设置为滑动窗口大小的一半；加权单元用于将通过加权的方法将四个得分图融合生成最终的分类结果。

图9为本实施例中使用拼接方法来拼接两张相邻的图像的滑动窗口原理示意图，测试时，我们使用一个512×512大小的滑动窗口来剪切大范围的图像，步长设置为256，具体如图9中的S₁₁、S₁₂、S₂₁和S_mn所示。为了解决直接拼接时分类结果在两个相邻窗口的交界处的不连续性，下一个剪切窗口的滑动步长仅设置为256，两个相邻窗口有一半是重叠的。两个窗口都测试完之后，重叠区域的分类结果将会由相邻窗口取平均值生成。通过这样的拼接方法，我们可以得到最小分裂边界误差的得分图。本实施例中，最终生成四个训练模型。我们最终通过拼接方法得到四个得分图，最终将通过加权的方法将四个得分图融合生成最终的分类结果，其中权重根据各自的分类表现来定。

参见图2～图8，本实施例建立了一个实用的深层神经网络，网络可以分为三部分。第一部分多尺度空间特征提取模块，用于提取输入图像的多尺度低级特征。第二部分是多级注意力特征提取网络，用于对输入图像的中级与高级特征进行提取和完善，网络包含编码与解码两个部分。编码部分基于残差网络来提取四个不同层次的特征；解码部分由两个部分组成，分别是特征融合与池化模块(Features Fusion and Pooling,FFP)以及输出模块。第三个部分是改进策略，包括特征图加权以及拼接方法来产生最终的分类结果。

为了对本实施例基于多级深度学习网络的单航过InSAR系统端对端分类方法进行验证，本实施例中使用软件环境为：Tensorflow 1.10,CUDA9.0和Python 3.6；硬件环境为：Titan xp12GB显卡，i7-6800kCPU、16GB的内存和2TB的硬盘。在本实施例的实验中，图像数据来自三基线毫米波单航过InSAR系统。系统的中心频率为35GHz，距离向分辨率为0.13m，方位向分辨率为0.14m。在InSAR系统中，因为飞行高度较低(2000m到4000m)，在山区有很多阴影和叠掩区域。一共使用了四种类型的数据，包括SAR图像、对应的相干图、InSAR缠绕相位图以及标签。本实施例中一共使用了9张大范围的SAR图像，每一张的大小为10240×13050像素。其中八张图片用于训练和验证，剩下的一张用于模型测试。我们选择了四种标签，即水体、阴影、叠掩和背景。标签为手动标注并经过北京无线电测量研究所的专家(数据提供者)确认。将8张大图切成尺寸为720×720的小块图像用于训练和验证，最终数据集中一共有1288张小块SAR图像。随机选择80％的样本用于训练，剩下的图片用于验证。图10展示了数据集的样本，其中(A)(B)(C)(D)分别表示SAR图像、相干图、InSAR相位图和标签图，在标签图中，a为水域、b为阴影域、c为叠掩区域，d为背景区域。

为了验证分类的精度，本实施例中使用了两个重要的指标，分别是整体精度(Overall Accuracy，OA)和交并比(Intersection over Union，IoU)。整体精度OA是一个评价算法分类性能的重要指标，假设是类别A，可用下面的公式计算：

上式中，GT_A是标签中类别A的所有像素，D_A是所有检测为类别A的像素。GT_A∩D_A表示GT_A和D_A相交的区域。

交并比IoU是一个用来评价分割精度的有效标准，可作为整体精度OA的重要补充，计算公式如下：

上式中，GT_A是标签中类别A的所有像素，D_A是所有检测为类别A的像素。GT_A∩D_A表示GT_A和D_A相交的区域，GT_A∪D_A表示GT_A和D_A相并的区域。因此，交并比IoU是GT_A和D_A的交集与GT_A和D_A的并集的比率。在分类实验中，整体精度OA和交并比IoU的值都是越高则表示分类效果越好。

MSF结果反映不同目标细节信息的低级特征。

图11展示了SAR图像的Gabor特征。其中(a)为SAR图像，包括一些阴影和水体区域；(b)和(c)分别为45度和135度方向的Gabor特征。从两张图中我们可以看出它们从不同的方向有效地体现了纹理特征。(d)给出了由(a)、(b)、(c)并置得来的融合特征图，清晰地反映出了局部区域的纹理信息。

图12展示了SAR图像的GLGCM特征。(a)为灰度均值，可以用来降低相干斑噪声；(b)为梯度均值，凸显出了水体和阴影区域可以提高分类精度；(c)为灰度标准差，将水体阴影之外的区域模糊了；(d)是(a)、(b)、(c)并置得到的融合图像，水体和阴影的边界得到增强。因此，GLGCM提供了水体阴影分类的有效低级特征。

图13展示了SAR图像MSOGDF特征。(a)是SAR原图像；(b)和(c)分别是45度和135度方向的MSOGDF特征，不同方向的特征不一样。(d)是由(a)、(b)、(c)融合得到的结果，为水体和阴影分类提供了关键特征。这些特征很像人的视觉特征，有利于分类。

为了测试本实施例方法(简称MSF-MLSAN)，本实施例中将其和其他五个方法进行比较，分别是：RefineNet、MLSAN、GLGCM-MLSAN、Gabor-MLSAN和MSOGDF-MLSAN。MLSAN是指数据集未经过图三中MSF模块处理，直接输入后续网络中；GLGCM-MLSAN是指利用MSF中的GLGCM特征；Gabor-MLSAN和MSOGDF-MLSAN分别是指利用MSF中的Gabor特征和MSOGDF特征。实验中水体和阴影分类只使用了SAR图像数据集，叠掩区域分类使用了SAR图像、对应的相干图和相位图。因此叠掩区域使用SW＝2来跳过论文中的MSF模块，因为低级特征将会带来相当大的噪声破坏叠掩分类的细节信息。

图14展示了实验的图像，包括SAR图像、分类标签、相干图和相位图。SAR图像的尺寸为4608×4096，图中包括了阴影(分类标签图中标记b)、水体(分类标签图中标记a)和叠掩区域(分类标签图中标记c)。图14中子图(c)是对应的相干图，图中水体阴影的相干性都很低，但叠掩区域的相干性较好可以用于分类。图14中子图(d)是相应的InSAR相位图，从图中我们可以看到水体和阴影区域有很大的噪声，叠掩的相位区域有快速的梯度变换，这对叠掩区域分类很有效果。图14中子图(b)是SAR图像的标签图像，是利用Matlab 2018的Imagelabel软件，经过InSAR专家仔细的手工绘制而成。图中的三种颜色，紫色、绿色和蓝色分别代表叠掩、阴影和水体。

图15展示了不同方法的SAR图像和分类结果的融合图。图15中的子图(a)是RefineNet的分类结果，与标签相比，我们发现存在几个错误分类，例如部分矩形区域中将其他的类别错误地分为叠掩，部分矩形框中将其他类别错误地分为水体。图16中的子图(a)RefineNet的混淆矩阵中W、S、L和B分别表示水体、阴影、叠掩和背景。水体、阴影、背景的OA分别是0.865、0.891和0.8512，IoU为0.7166、0.7524和0.8174。叠掩的OA为0.9605，整体精度很高但是IoU仅为0.3737。这是因为很多不是叠掩的区域被检测为叠掩。因此，RefineNet因为缺乏上下文信息和全局信息不能得到好的分类结果。图15中的子图(b)是MLSAN的分类结果，与RefineNet相比，许多叠掩和水体的虚警区域已经消失，取得了满意的分类结果。图16中的子图(b)展示了MLSAN的混淆矩阵，尽管叠掩的OA为0.8393，但是IoU提高到0.7636。由于虚警的去除，水体的IoU有一些小的提升，尽管水体的OA稍有下降。此外，阴影和背景的OA与IoU均有提升。图15中的子图(c)是GLGCM-MLSAN的分类结果，与图15(b)相比，一些没有检测到的区域检测出来了，如图15(c)中的矩形区域所示。水体的OA和IoU都得到提升如图13(c)所示，但是阴影和背景的OA和IoU存在轻微的下降，这是因为阴影和背景之间存在一定的误分类。图15中的子图(d)给出了Gabor-MLSAN的分类结果，在图15中的子图(d)的矩形区域中水体取得了很好的分类效果，但是在矩形区域中有一些错误。因此，尽管Gabor-MLSAN的OA比GLGCM-MLSAN稍低，但有更高的IoU(如图16中子图(d)所示)。此外由于减少了阴影区域的误分类，Gabor-MLSAN在阴影这一类的OA和IoU都比GLGCM-MLSAN高，两者背景这一类的分类效果差不过。图15中的子图(e)是MSOGDF-MLSAN的分类结果，与Gabor-MLSAN和GLGCM-MLSAN相比，在水体分类中获得了最差的分类效果(包括OA和IoU，如图16中子图(e)所示)，阴影的分类中比Gabor-MLSAN稍差，比GLGCM-MLSAN稍好。但是和其他的方法相比它取得了最好的背景分类效果。通过分析上述方法的分类结果，我们发现GLGCM-MLSAN和Gabor-MLSAN在水体和阴影中可以取得更好的分类结果，MLSAN and MSOGDF-MLSAN在背景中的表现更好。进过分析实验，我们给MLSAN、GLGCM-MLSAN、Gabor-MLSAN和MSOGDF-MLSAN的得分图分别赋予0.1、0.35、0.45和0.1的权重来生成最终MSF-MLSAN得分图。MSF-MLSAN的分类结果如图15中的子图(f)所示，它取得了比MSOGDF-MLSAN和Gabor-MLSAN更好的分类结果。图16中的子图(f)为MSF-MLSAN的OA和IoU，从中我们可以看出，水体的IoU是最高的，阴影的OA比Gabor-MLSAN稍低，但IoU是最高的，背景这一类的OA和IoU是六个方法中最高的。这个评估证明了本实施例方法(MSF-MLSAN)在水体、阴影和叠掩分类中的突出性能。

综上所述，本实施例中提出了一个新的端到端深度学习框架用于对SAR图像中的阴影、水体和叠掩进行分类的方法，本方法中的深度学习框架主要分为三部分，分别是MSF模块、MLSAN网络和提升策略。MSF模块利用GLGCM、Gabor和MSOGDF来提取SAR图像的低级特征，这对提取SAR图像的细节信息有很好的效果。MLSAN网络是论文的核心部分，主要包含两个部分，分别是编码部分和解码部分。编码网络基于101层的残差网络来提取四种级别的特征，解码网络利用选择性注意力池化(包括RAP和PAP)来提取上下文信息和全局信息。此外，解码网络融合编码网络提取的多个特征，充分利用了不同级别的特征。然后，将得分图进行加权得到最终融合的得分图来获取最终的分类结果。本实施例中，比较了六个方法的分类结果，包括RefineNet、MLSAN、GLGCM-MLSAN、Gabor-MLSAN、MSOGDF-MLSAN和MSF-MLSAN。RefineNet得到的结果是叠掩分类中最差的，叠掩分类的IoU只有0.4。提出的MSF-MLSAN方法对水体、阴影和叠掩有最好的分类效果，水体、阴影和叠掩区域的平均OA为0.8382、0.9278和0.8907，平均IoU为0.7727、0.806和0.7636。MSF-MLSAN的整体OA达到0.9076。因此本实施例中提出的框架MSF-MLSAN对毫米波InSAR系统中的水体、阴影和叠掩区域能得到很好的分类精度。本实施例方法也能应用到其他的InSAR系统或者SAR系统，例如TanDEM-X系统和TerranSAR系统。

此外，本实施例还提供一种基于多级深度学习网络的单航过InSAR系统端对端分类系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，该计算机设备的微处理器被编程或配置以执行前述基于多级深度学习网络的单航过InSAR系统端对端分类方法的步骤。此外，本实施例还提供一种基于多级深度学习网络的单航过InSAR系统端对端分类系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，该计算机设备的存储器中存储有被编程或配置以执行前述基于多级深度学习网络的单航过InSAR系统端对端分类方法的计算机程序。此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有被编程或配置以执行前述基于多级深度学习网络的单航过InSAR系统端对端分类方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多级深度学习网络的单航过InSAR系统端对端分类方法，其特征在于，包括：

1）输入SAR图像、InSAR相位图和相干系数图；

2）通过多尺度空间特征提取网络MSF从输入的SAR图像中获取多尺度空间统计特征；

3）通过多层选择性注意力网络MLSAN对多尺度空间统计特征提取中层和高层特征；

4）通过改进策略网络IS对中层和高层特征进行拼接加权得到最终的分类结果，实现对阴影、水体和叠掩区域的自动分类；

步骤3）中的多层选择性注意力网络MLSAN包括用于基于残差网络来提取输入图像的中层和高层特征的编码网络、用于融合和再提取高层和中层特征的解码网络；所述编码网络包括5个特征图产生单元，第1个特征图产生单元由一个卷积层与池化层构成，第2～5个特征图产生单元Res-1～Res-4分别为包含指定数量残差单元的残差网络，输入的特征图经过第一个特征图产生单元得到特征图F0，特征图F0经过第2个特征图产生单元Res-1得到特征图F1，特征图F1经过第3个特征图产生单元Res-2得到特征图F2，特征图F2经过第4个特征图产生单元Res-3得到特征图F3，特征图F3经过第5个特征图产生单元Res-4得到特征图F4，其中特征图F1～特征图F3为中层特征，特征图F4为高层特征，特征图F1～特征图F4则分别作为编码结果输出到解码网络；所述解码网络包括卷积层、4个解码模块M1～M4和输出模块，特征图F4经卷积层降维后输入解码模块M4进行解码得到特征图F4_2，特征图F3经卷积层降维后和特征图F4_2一起输入解码模块M3进行解码得到特征图F3_2，特征图F2经卷积层降维后和特征图F3_2一起输入解码模块M2进行解码得到特征图F2_2，特征图F1经卷积层降维后和特征图F2_2一起输入解码模块M1进行解码得到特征图F1_2作为结果输出到输出模块；所述输出模块包括两个残差卷积单元RCU、一个上采样模块和一个卷积层，所述两个残差卷积单元RCU用于将特征图F1_2增加非线性，所述一个上采样模块和一个卷积层用于对两个残差卷积单元RCU的输出结果进行上采样、卷积处理恢复特征图的维度至m×n×，其中m和n分别为输入SAR图像、InSAR相位图和相干系数图的长度和宽度，/>是类别的数量；所述4个解码模块M1～M4中，解码模块M1、解码模块M3、解码模块M4的结构相同，均包括特征图自适应和融合模块FMAF和残差注意力池化模块RAP，解码模块M2包括特征图自适应和融合模块FMAF和金字塔注意力池化模块PAP；特征图自适应和融合模块FMAF用于调整特征图的尺寸大小并融合不同层次的特征，特征图自适应和融合模块FMAF的输入为不同层次的特征，先通过两个残差卷积单元RCU，再经过一个卷积和上采样层进行维度调整，最终将所得特征进行相加得到最终融合的特征；残差注意力池化模块RAP用于获得大范围内的上下文信息，并通过连续的池化层对输入特征进行池化，残差注意力池化模块RAP由一系列池化模块组成，每一个池化模块中包含一个卷积层和一个最大池化层，输入特征从第一个池化模块开始输入，且前一个池化模块的输出作为后一个池化模块的输入，使得后续的池化模块可以用一个小的池化窗口来处理大范围的区域，融合完池化模块的特征之后使用注意力模块来对融合特征进行加权以增强有用的特征并削弱冗余特征，最终加权后的特征与最初的输入特征融合、再输入残差卷积单元RCU得到最终的处理结果；金字塔注意力池化模块PAP用于通过金字塔池化融合包括全局池化和不同子区域的本地特征在内的不同尺度的特征，且通过注意力机制用来进一步增强上下文信息的提取，金字塔注意力池化模块PAP将输入特征经过池化层之后得到四种尺寸的特征图，然后利用1×1的卷积层分别对各种尺寸的特征图进行降维，然后再利用双线性插值将特征图恢复到初始的大小再将四个特征图并置为一个特征图；再将所得特征经过注意力模块进行加权，然后与最初输入特征并置经过一个卷积层恢复到原来大小，最后送入残差卷积单元RCU通过非线性操作进一步处理特征用于最后的分类。

2.根据权利要求1所述的基于多级深度学习网络的单航过InSAR系统端对端分类方法，其特征在于，步骤2）中的多尺度空间统计特征包括Gabor特征，GLGCM特征和MSOGDF特征这三种低层次特征，每一种低层次特征都选择从中计算出两到三个数字特征来融合成一组三通道特征图从而得到三组三种不同类型的特征图，并结合SAR图像生成第四组三通道特征图，一共得到四组三通道特征图作为多层选择性注意力网络MLSAN的输入。

3.根据权利要求2所述的基于多级深度学习网络的单航过InSAR系统端对端分类方法，其特征在于，所述Gabor特征选择45°和135°方向的特征，GLGCM特征选择灰度均值、梯度均值和灰度标准差，MSOGDF特征选择选择45°和135°方向的特征。

4.根据权利要求1所述的基于多级深度学习网络的单航过InSAR系统端对端分类方法，其特征在于，步骤4）中的改进策略网络IS包括拼接单元和加权单元，拼接单元使用一个指定大小的滑动窗口来剪切大范围的图像得到四个得分图，该滑动窗口的步长设置为滑动窗口大小的一半；加权单元用于将通过加权的方法将四个得分图融合生成最终的分类结果。

5.一种基于多级深度学习网络的单航过InSAR系统端对端分类系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，其特征在于，该计算机设备的微处理器被编程或配置以执行权利要求1～4中任意一项所述基于多级深度学习网络的单航过InSAR系统端对端分类方法的步骤。

6.一种基于多级深度学习网络的单航过InSAR系统端对端分类系统，包括计算机设备，该计算机设备至少包括相互连接的微处理器和存储器，其特征在于，该计算机设备的存储器中存储有被编程或配置以执行权利要求1～4中任意一项所述基于多级深度学习网络的单航过InSAR系统端对端分类方法的计算机程序。

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有被编程或配置以执行权利要求1～4中任意一项所述基于多级深度学习网络的单航过InSAR系统端对端分类方法的计算机程序。