CN111860233A

CN111860233A - 基于选择注意力网络的sar图像复杂建筑物提取方法及系统

Info

Publication number: CN111860233A
Application number: CN202010639627.7A
Authority: CN
Inventors: 王智睿; 孙显; 付琨; 荆浩; 肖岱峰; 傅佳美; 孙元睿
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-30
Anticipated expiration: 2040-07-06
Also published as: CN111860233B

Abstract

本发明公开了一种选择注意力金字塔网络的SAR图像复杂建筑物提取方法及系统，包括：获取待提取建筑物的高分辨率合成孔径雷达图像；将所述待提取的高分辨率合成孔径雷达图像带入预先训练好的建筑物提取模型进行处理，从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像；所述建筑物提取模型由选择带孔空间金字塔卷积模块的新型解码器和K5卷积块构建而成。本发明提供的技术方案能够尽可能地保留图像的空间细节信息，并实现了SAR图像建筑物多尺度特征融合和复杂建筑物的精细化提取。

Description

基于选择注意力网络的SAR图像复杂建筑物提取方法及系统

技术领域

本发明涉及图像分割技术领域，具体涉及一种基于选择注意力网络的SAR图像复杂建筑物提取方法及系统。

背景技术

地理遥感图像中的建筑物分割是地理信息系统应用中重要的一个模块，也是一个具有挑战性的视觉问题。建筑物是城市中的重要的地形物体类，也是地理信息系统中的重要的数据层。航空遥感图像中的建筑物自动化提取对军事侦察，地物测绘，非法建筑物检测，城市生态规划和区域开发有很大的促进作用。目前大多数基于光学遥感图像所做的建筑物提取工作受制于很多因素影响，如不同时间和天气造成的光影变化与遮挡等。合成孔径雷达(SAR)图像在阴影和遮挡问题上优于光学遥感图像，具有全天时，全天候的优点。因此，基于高分辨率SAR图像的建筑物提取工作便成为一个重要而具有挑战性的研究课题。针对SAR图像的建筑提取方法分为以下两类：

第一类是传统的基于人工设计特征的方法，可以分为基于特征的方法和基于模型的方法。第一种从SAR图像中提取亮度，纹理，边缘及混合特征，常用的分析方法有傅立叶功率谱法，基于模型的Gabor滤波分析法，Markov随机场模型纹理描述，灰度共生矩阵纹理测度。这些特征通常再与非监督聚类分析等方法结合进行分割。此类提取特征的方法很容易受到噪声的干扰且精度不令人满意。第二种是建立SAR图像的统计分布模型，将空间背景信息结合到分割中，包括马尔科夫随机场方法，Fisher分布，对数正态分布和广义高斯分布等模型。部分模型只考虑特征空间表达，没有考虑空间交互。这些方法容易在建筑区域中出现很多语义不一致的现象。

第二类是基于深度学习的方法。代表性方法为端到端训练的方法，比如FCN、U-Net、DeepLabv3等，这些方法可以接受任意大小的输入图像，在大多数情况下提取效果较好，但是这些方法没有有效利用空间特征相关性的选择和约束，不能捕获更加丰富的上下文信息，对不同大小的建筑物的提取结果不够精细，分割的多尺度问题比较明显。

目前的SAR建筑物提取应用中对于建筑物尤其是复杂建筑物的提取不够精细，而且对于多尺度问题解决不充分。

发明内容

为了解决现有技术中所存在的高分辨率合成孔径雷达图像建筑物提取不够精细的问题，本发明提供一种基于选择注意力网络的SAR图像复杂建筑物提取方法及系统。该方法分类精度高，虚警低，对于多尺度问题解决良好，能够适应SAR图像建筑物精细化提取的要求。

本发明提供的技术方案是：

一种基于选择注意力网络的SAR图像复杂建筑物提取方法，包括：

获取待提取建筑物的高分辨率合成孔径雷达图像；

将所述待提取的高分辨率合成孔径雷达图像带入预先训练好的建筑物提取模型进行处理，从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像；

所述建筑物提取模型由选择带孔空间金字塔卷积模块的新型解码器和K5卷积块构建而成。

优选的，所述建筑物提取模型的训练包括：

获取区域高分辨率合成孔径雷达图像，对所述合成孔径雷达图像按照建筑物轮廓内外部像素值进行标记，获得建筑物标注图；

将所述合成孔径雷达图像和所述建筑物标注图进行裁切，并将裁切后的所述合成孔径雷达图像和所述建筑物标注图作为训练样本集；

将所述训练样本集按设定比例划分为训练集、验证集和测试集；

基于所述训练集中的所述合成孔径雷达图像作为空间金字塔神经网络的输入，将所述合成孔径雷达图像对应的建筑物标注图作为所述空间金字塔神经网络的输出，对空间金字塔神经网络进行训练得到建筑物提取模型；

并利用验证集和测试集对所述建筑物提取模型进行验证和优化。

优选的，所述对空间金字塔神经网络进行训练得到建筑物提取模型，包括：

采用训练集中的所述合成孔径雷达图像作为所述建筑物提取模型的编码器输入，提取出多种分辨率特征图；

由所述合成孔径雷达图像的K5卷积块对于所述多种分辨率特征图进行融合并压缩通道数量；

基于所述融合并压缩通道数量后的分辨率特征图和所述建筑物提取模型的选择带孔金字塔卷积模块根据所述合成孔径雷达图像建筑物的多尺度信息重构通道之间的关系，恢复多尺度建筑物细节和边缘；

基于多尺度建筑物细节和边缘对应的所述建筑物标注图作为所述卷积神经网络的输出，得到训练好的建筑物提取模型。

优选的，所述获取区域高分辨率聚束式合成孔径雷达图像及所述合成孔径雷达图像的标注图作为训练样本集，包括：

获取区域高分辨率聚束式合成孔径雷达图像；

对所述区域高分辨率聚束式合成孔径雷达图像进行标记得到标注图；

对所述区域高分辨率聚束式合成孔径雷达图像和标注图进行处理得到新的遥感图像；

对所述新的遥感图像按照设定尺寸进行裁切，将裁剪后的遥感图像作为训练样本集；

所述处理包括：旋转、水平垂直翻转、平移、尺度变换、裁剪缩放，图像亮度对比度变换。

优选的，所述建筑物提取模型包括：编码模块和解码模块；

所述编码模块包括34层残差网，每一层由3×3的卷积核、BatchNorm层和ReLU层依次连接组成；

所述解码模块包括K5卷积块和选择带孔空间金字塔卷积模块。

优选的，所述基于所述待提取的高分辨率合成孔径雷达图像和预先训练好的建筑物提取模型，得到建筑物轮廓的二值图像，包括：

所述建筑物提取模型的编码器提取所述待提取的高分辨率合成孔径雷达图像的多种分辨率特征图；

所述建筑物提取模型的K5卷积块对所述多种分辨率特征图进行融合并压缩通道数量；

所述选择带孔金字塔卷积模块根据目标的多尺度信息重构通道之间的关系，恢复多尺度建筑物细节和边缘，得到建筑物的预测轮廓二值图。

优选的，所述建筑物提取模型的K5卷积块对所述多种分辨率特征图进行融合并压缩通道数量，包括：

对所述K5卷积块的输出使用设定个数不同大小的内核卷积变换；

然后采用全局平均池化计算每个通道中的元素信息，基于所有通道中的元素信息利用两个全连接层得到紧凑特征；

基于所述紧凑特征采用softmax运算对不同分支上的多尺度信息进行分支权重计算，得到各分支的权重值；

基于各分支的权重值进行加权处理实现分支融合。

优选的，所述每个通道中的元素信息按下式计算：

式中，

每个通道层的输入信息；H：通道层的高度；W：通道层的宽度；

平均池化操作；

所述紧凑特征如下式所示：

其中，

紧凑特征；δ代表ReLU激活函数，

σ代表Sigmoid激活函数；

所述分支权重按下式计算：

其中，a_i代表U_i的分支权重；所述基于各分支的权重值进行加权处理实现分支融合如下式所示：

其中，

代表各个分支的信息流。

优选的，还包括：将扩张深度可分离卷积应用于所述K5卷积块和选择带孔空间金字塔卷积模块中；

优选的，所述将扩张深度可分离卷积应用于所述K5卷积块和选择带孔空间金字塔卷积模块中，包括：

首先对输入层的每个通道独立进行卷积运算，输出通道数与输入相同；

然后再进行pointwise卷积，在深度上做加权组合；

最终将所有卷积替换成扩张卷积。

一种选择注意力金字塔网络的SAR图像复杂建筑物提取系统，包括：

获取模块，用于获取待提取建筑物的高分辨率合成孔径雷达图像；

提取模块，用于将所述待提取的高分辨率合成孔径雷达图像带入预先训练好的建筑物提取模型进行处理，从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像；

与现有技术相比，本发明的有益效果为：

1.本发明提出了一种选择注意力金字塔网络的SAR图像复杂建筑物提取方法，包括：获取待提取建筑物的高分辨率合成孔径雷达图像；将所述待提取的高分辨率合成孔径雷达图像带入预先训练好的建筑物提取模型进行处理，从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像；所述建筑物提取模型由选择带孔空间金字塔卷积模块的新型解码器和K5卷积块构建而成；本发明技术方案使得SAR建筑物提取应用中对于建筑物尤其是复杂建筑物的提取更加精细。

2.本发明提出了一个选择带孔空间金字塔卷积模块的新型解码器，通过融合，挤压，激励和选择，提供了一个全面的自适应非线性聚合的特征表达。

3.本发明提出了一个基于双解码器的新的编解码结构，它使用残差网作为编码模块，使用K5卷积块和选择带孔空间金字塔卷积模块作为解码模块。并将扩张深度可分离卷积应用于金字塔卷积模块，提升网络感受野，增强上下文信息的利用。

4.本发明提出的模型能够尽可能地保留图像的空间细节信息，并实现了多尺度特征融合。

附图说明

图1为本发明的基于选择注意力金字塔神经网络的SAR图像复杂建筑物提取方法步骤流图；

图2为本发明的SAR图像复杂建筑物提取方法具体实施例示意图；

图3为本发明的基于选择注意力空间金字塔神经网络的模型结构示意图；

图4为本发明的K5卷积块结构示意图；

图5为本发明的电选择带孔空间金字塔卷积模块结构示意图；

图6为本发明的空间金字塔的支路结构示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

实施例1：

本发明提供了一种基于选择注意力网络的SAR图像复杂建筑物提取方法，如图1所示，包括：

步骤1：获取待提取建筑物的高分辨率合成孔径雷达图像；

步骤2：将所述待提取的高分辨率合成孔径雷达图像带入预先训练好的建筑物提取模型进行处理，从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像；

步骤2：将所述待提取的高分辨率合成孔径雷达图像带入预先训练好的建筑物提取模型进行处理，从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像：

如图2所示，本发明基于选择注意力金字塔网络的SAR图像复杂建筑物提取方法，包括以下步骤：

(1)通过遥感图像采集设备采集大量城市区域高分辨率聚束式合成孔径雷达图像，选择高分三号卫星采集的中国北京市地区SAR图像，图像是单波段的，模式是聚束模式，空间分辨率为1米。对这些图像进行标记获得建筑物标注图，所述建筑物标注图中建筑物轮廓及其内部像素值均为1，建筑物轮廓外部像素值均为0，并对裁切图像为512×512，获取符合格式要求的训练样本集；

(2)对图像进行数据增强处理，包括对原图像进行旋转、水平垂直翻转、平移、尺度变换、裁剪缩放，图像亮度对比度变换以得到新的图像，通过这些操作得到扩充后的样本集合，每一样本包括处理后的图像及其对应的建筑物标注图，将所有样本按比例划分为训练集、验证集和测试集；

(3)如图3所示的基于选择注意力空间金字塔神经网络采用新型编解码结构，编码模块Encoder使用34层残差网，每一层由3×3的卷积核(卷积和多项式相乘convolution图中简写为Conv)、BatchNorm(批归一化)层和ReLU(修正线性单元)层依次连接组成。解码模块使用两个解码器Decoder1和Decoder2，分别是K5卷积块Decoder1和选择带孔空间金字塔卷积模块(Selective Attention Module)。

如图4所示的K5卷积块进行特征融合，具体操作过程如下：

对于编码器的5个不同尺度的输出特征映射Feature map(特征图)，他们的输出步长分别是2,4,8,16,32，对其进行并联；

使用双线性插值技术进行上采样将其恢复至相同的256×256大小的空间分辨率；

应用1×1卷积对每层的通道数量进行了缩减Squeeze，分别统一减小至48个通道。

其中，图中的K1指双线性插值直接放大的过程；K5是对5个不同分辨率的特征图同时做双线性插值上采样；upsample为上采样。

如图5所示的选择带孔金字塔卷积模块重构了空间金字塔模块的特征通道之间的相互依赖和抑制关系，并根据目标的多尺度信息对金字塔支路进行了重新校准，具体操作过程如下：

对K5卷积块的输出使用9个不同大小的内核卷积做9个变换，并利用如下方式进行(分支)Branch(融合)Fusion：

然后使每个通道信息用一个通道描述符z来表示，即将每个通道上H×W维度的信息压缩为一个数，生成信道统计信息。在这里使用了全局平均池化来计算z的第c个元素；

利用Excitation(激励)操作创建一个非线性表达的特征s，利用两个全连接层实现。如下：

其中δ代表ReLU激活函数，

σ代表Sigmoid激活函数；

得到一个紧凑特征

特征引导对不同支路上的多尺度信息进行选择Selection，使用softmax运算：

其中a_i代表U_i的分支权重。最后的输出特征映射由不同分支上的注意力权重加权获得：

最后应用两个3×3卷积对解码器输出的特征进行细化。

而且将扩张深度可分离卷积应用于两个解码器中。

然后再进行pointwise卷积，在深度上做加权组合；

最终将所有卷积替换成扩张卷积。

空间金字塔的支路也被扩增至9个，他们的感受野互相嵌套。应用了不同卷积核和带孔率的扩张卷积(kernel＝3,dilated rate＝1,2,4,8,16,32,64；kernel＝5,d＝1,2)，如图6所示，以并行的方式进行不同尺寸的卷积操作(scale in parallel way)，得到了组合的金字塔过滤器视野(receptive field＝3×3、5×5、9×9、17×17、33×33、65×65、129×129)，这以便于针对建筑物的多尺度信息来自适应选择更广的输入视角，捕捉多尺度上下文信息，其中，RF：receptive field，即感受野，K：kernel,即卷积核，d：dilated rate，即带孔率。

此外，在二分类交叉熵损失基础上添加软骰子系数损失，用于平衡训练过程，抑制类别不均衡的问题，公式如下：

其中classes＝2。软骰子系数损失将每个类别分开考虑，然后平均得到最后结果，来归一化损失。

所述K5卷积模块和选择带孔金字塔卷积模块作为解码器恢复多尺度建筑物细节和边缘，得到建筑物的预测轮廓二值图。

(3)将获得的训练集样本中的遥感图像作为基于选择注意力金字塔神经网络的输入，训练集样本中的建筑物标注图作为卷积神经网络输出的真值标签，通过对网络训练最终得到建筑物提取模型。

当训练完成得到建筑物提取模型后，利用验证集样本对模型进行验证及微调。

(4)利用获得的建筑物提取模型，输入待提取的高分辨率合成孔径雷达图像，输出即为关于建筑物轮廓的二值图像。

综上所述，在采用以上技术方案后，本发明为选择注意力金字塔网络的合成孔径雷达遥感影像复杂建筑物提取方法提供了新的提取思路，建立了一个选择带孔空间金字塔卷积模块的新型解码器，通过融合，挤压，激励和选择，提供了一个全面的自适应非线性聚合的特征表达。增添一个基于K5卷积块和选择带孔空间金字塔卷积模块的双解码器的新的编解码结构，并应用扩张深度可分离卷积，提升网络感受野，增强上下文信息的利用，提高了建筑物提取的精度。本发明提供的技术方案能够尽可能地保留图像的空间细节信息，并实现了目标多尺度特征融合和建筑物的精细化分割，值得推广。

实施例2：

基于同一发明构思，本发明还提供了一种选择注意力金字塔网络的SAR图像复杂建筑物提取系统，包括：

优选的，所述提取模块包括：

模型训练子模块，用于对建筑物提取模型进行训练；

特征提取子模块，用于基于预先训练好的建筑物提取模型从所述高分辨率合成孔径雷达图像中得到包含建筑物轮廓的二值图像。

模型训练子模块具体实现如下：

将所述合成孔径雷达图像和所述建筑物标注图进行裁切，目的是将所述合成孔径雷达图像和所述建筑物标注图一起裁切成一样大小，且对应起来，并将裁切后的所述合成孔径雷达图像和所述建筑物标注图作为训练样本集；

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。