CN113780149A

CN113780149A - 一种基于注意力机制的遥感图像建筑物目标高效提取方法

Info

Publication number: CN113780149A
Application number: CN202111042674.4A
Authority: CN
Inventors: 史振威; 石慧峰; 陈科研; 陈剑奇; 刘子力; 贺广均
Original assignee: Beihang University; Beijing Institute of Satellite Information Engineering
Current assignee: Beihang University; Beijing Institute of Satellite Information Engineering
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-10
Anticipated expiration: 2041-09-07
Also published as: CN113780149B

Abstract

本发明公开一种基于注意力机制的遥感图像建筑物目标高效提取方法。具体步骤如下：一、读入图像数据并进行预处理；二、构造基于注意力机制的遥感图像建筑物目标高效提取网络；三、训练神经网络，得到模型参数；四、就行遥感图像建筑物目标提取。本发明的网络模型是在浅层特征图的稀疏特征上利用Transformer构建全局上下文特征。在浅层特征图上应用Transformer可以很好的保留局部细节用于识别边界；只使用稀疏的语义单词可以显著提高网络的速度并降低计算机的内存消耗；同时构建的全局感受野可以很大程度减少复杂背景的干扰。本发明的遥感图像建筑物提取方法输入为遥感图像，输出为建筑物目标的二值掩模，自动化程度高，信息解析速度快，能够大幅度提高效率，降低成本。

Description

一种基于注意力机制的遥感图像建筑物目标高效提取方法

技术领域

本发明是一种基于注意力机制的遥感图像建筑物目标高效提取方法，涉及遥感图像处理和深度学习的理论方法，属于高分辨率遥感图像目标分割技术领域。

背景技术

遥感图像建筑物提取是自动识别遥感图像中每个像素的是否属于建筑物的过程，它在城市规划、人口估计、经济活动分布、灾害报告、违章建筑检测等方面都发挥着重要作用。同时它也可以作为下游任务的先决条件，例如在遥感图像变化检测领域可以先进行不同时相的建筑物检测，然后再分析变化区域。近年来随着硬件的发展，高分辨率遥感影像数据量呈指数级增长。基于深度学习的建筑物自动提取方法已成为一种便捷高效获取建筑物分布的方式。但是，也存在一些挑战，由于特殊的成像方式，遥感图像经常受到光照、大气和云层的影响。同一建筑物在不同的时空表现为隐空间的不同流形。网络需要强大的特征提取能力才能在不同的时间和空间中获得鲁棒的特征。而且，建筑物在颜色、大小和形状上表现出明显的差异，类内差异很大。大部分建筑物都处于一个复杂的背景中，很多建筑物的边界被周围的树木遮挡，很难提取出准确完整的建筑物边界。现有的建筑物提取方法大多侧重于提高准确性，很少考虑实际应用中出现的效率问题。

以卷积神经网络为代表的深度学习方法受到研究人员的青睐。由于其强大的特征学习和特征表达能力，它们在很多计算机视觉任务中表现出很高的性能。研究人员提出了大量的创新算法对分割任务做出了很大的贡献。FCN曾经广泛用于像素级的标注任务。它在端到端的学习框架中显著提高了训练和推理效率，并取得了可观的性能。许多建筑物提取方法通过修改FCN的结构以改善分割结果。SRI-Net设计了一个空间残差感知模块并将该模块集成到FCN网络中以提取多层次的语义特征。它在多尺度的建筑物检测上取得了良好的性能。

随着网络层加深，感受野逐渐增大，全局信息得到增强，但是局部细节会逐渐消失。这会使得分割的边缘不完整或不连贯。UNet通过在编码器和解码器之间构建连接桥来处理这个问题，在边界敏感的任务上取得良好的表现。DeepLab系列以通过带洞卷积和多感受野空间金字塔池化(ASPP)来解决多尺度问题。

许多研究人员致力于设计好的网络架构来提高建筑物提取性能，像深浅特征融合、多感受野结构、残差连接等。MAP-Net通过多条并行路径来捕获空间定位保留的多尺度特征来缓解尺度问题。BRRNet设计了一个预测模块来通过不同扩张率的空洞卷积提取全局上下文和一个残差细化模块来提高分割准确性。ESFNet旨在通过可分离的残差块和扩张卷积来降低计算复杂度和内存使用量。这些方法根据建筑物提取的特点，来设计网络模型，确实取得了更好的性能。

另外一些方法利用注意力模块对关键特征和区域进行建模。DANe在传统的FCN架构中提出了两种类型的自注意力模块来捕获丰富的上下文依赖关系，在计算机视觉取得了很好的性能。DAN-Net采用空间注意力融合模块来增强建筑物提取中的不同级别特征。

这些方法通过设计多个滤波器、注意力机制、扩张卷积、跳线连接等取得了显着的性能提升。然而，仅通过卷积来建立全局依赖可能不是一个最好的选择。因为通过堆叠卷积层实现大感受野时，不仅会影响模型效率，而且局部细节也会逐层消失。

最近，基于Transformer的方法摆脱了卷积的限制，在遥感领域得到了广泛的应用，包括图像分类、变化检测、图像标题生成、高光谱图像分类、图像分割等。Transformer可以学习长距离依赖关系，这对位置无约束的遥感图像语义分割任务非常有效。SETR首先将语义分割视为一个序列到序列的任务，并通过Transformers获得很好的分割结果。Bazi等人将ViT应用于遥感场景分类。陈浩等人采用Transformer方法进行遥感图像变化高效检测。他们认为感兴趣的变化区域可以用少量的视觉单词来表达。我们可以从Transformer捕捉全局依赖的强大能力中受益。然而，普通的基于Transformer的方法具有很高的计算复杂度和内存使用量。

发明内容

本发明的目的在于设计一种高效精准的遥感图像建筑物提取方法。该方法可以让网络模型能够在常规图形处理器(Graphics Processing Unit,GPU)上高效训练、测试和使用，并能够获得高质量的建筑物提取结果。

本发明是通过以下技术方案实现的：

本发明是一种基于注意力机制的遥感图像建筑物目标高效提取方法。该方法通过构建一个应用于低级特征图的稀疏特征采样器，利用采样器采样得到建筑物富含局部细节的稀疏表达，然后利用Transformer在这些稀疏表达上高效建模全局感受野，提高建筑物提取的效率和准确度。

该方法的具体步骤如下：

步骤一：计算机读取数据。使用计算机读取遥感图像数据，并对图像数据进行预处理。

步骤二：构造基于注意力机制的遥感图像建筑物目标高效提取网络。

本发明提出名为稀疏语义单词Transformer(Sparse Tokens Transformer,STT)的网络来挖掘基于注意力机制的Transformer在遥感图像建筑物目标提取任务上的潜力。遥感图像中建筑物目标不像自然图像中的目标，它只占有图片的一小部分。所以建筑物可以由卷积网络提取的特征图中的稀疏向量(视为视觉单词)很好地表示。在稀疏视觉单词之间学习长距离依赖关系，而不是在密集的像素特征或图像块之间学习，可以高效地应用Transformer实现大感受野以提高准确率。

本发明提出的STT保留了卷积神经网络(Convolutional Neural Networks,CNN)和Transformer的混合架构来充分利用卷积和注意力机制的优势。STT有三个主要组件：一个稀疏语义特征采样器，它可以根据空间和通道概率图中的高响应位置生成稀疏的语义单词。一个Transformer编码器，它是为了挖掘稀疏语义单词之间的潜在依赖关系，得到含上下文语义的稀疏单词。一个Transformer解码器，它用于将原始特征与由Transformer编码器编码的信息融合，并将稀疏单词恢复到原始的分辨率大小。

步骤三：训练神经网络。利用Pytorch深度学习框架构造好网络后，利用带标签的训练数据对网络进行训练，同时根据测试数据选择最优的网络参数，保存此时的网络参数。

步骤四：遥感图像建筑物目标提取。利用步骤三训练好的网络模型对遥感图像中的建筑物目标进行分割提取，得到建筑物目标的二值掩模。

本发明的优点在于：本发明的网络模型是在浅层特征图的稀疏特征上利用Transformer构建全局上下文特征。在浅层特征图上应用Transformer可以很好的保留局部细节用于识别边界；只使用稀疏的语义单词可以显著提高网络的速度并降低计算机的内存消耗；同时构建的全局感受野可以很大程度减少复杂背景的干扰。本发明的遥感图像建筑物提取方法输入为遥感图像，输出为建筑物目标的二值掩模，自动化程度高，信息解析速度快，能够大幅度提高效率，降低成本。

附图说明

图1a和图1b是两个数据集的样例图，图1a取自武汉大学建筑数据集；图1b取自Inria航空影像标记数据集。

图2是本发明方法的网络结构图。

图3a-图3h是本发明方法建筑物分割效果图。

图4是本发明数据处理流程图。

表1是空间概率图生成器和通道概率图生成器的组成。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图1-4对本发明的具体实施方式作进一步描述：

本发明在Pytorch框架下，使用Python语言编程实现。首先准备训练和测试的数据，然后完成网络的搭建，并配置相关的参数；再利用训练数据进行网络的训练，获得最优的网络参数；最后利用训练好的网络模型参数对测试数据进行测试，得到建筑物提取结果。在实施过程中，计算机的配置是：处理器为Intel(R)Core(TM)i7-8700K CPU，主频3.70GHz，内存56GB，显卡是NVIDIA GeForce GTX 2080Ti，显存为11GB。本发明的遥感图像建筑物目标提取方法包括如下步骤：

步骤一：计算机读取数据。本发明使用的数据来自于Inria航空影像标记数据集和武汉大学建筑数据集。Inria航空影像标记数据集包含360张高分辨率(0.3m)遥感图像。这些图像涵盖了不同城市的住区，从人口稠密的地区(例如旧金山的金融区)到高山城镇(例如奥地利蒂罗尔的利恩茨)。每张图像的分辨率为5000×5000像素。数据集分为训练集和测试集，分别包含180张图像。由于测试集是无标签的，我们把训练集按照6∶2∶2分为训练子集、验证子集和测试子集。为了满足网络的输入要求和GPU内存容量的限制，我们将所有图像切成小块512×512，重叠率为0.9。武汉大学建筑数据集包含航空影像数据集和卫星数据集。在我们的工作中，我们只在航空影像子集上使用STT进行评测。该子集由8188个非重叠图块组成，像素为512×512，分辨率为0.0075m到0.3m。数据集分为训练集(4736张，130500座建筑物)、验证集(包含1036张，14500座建筑物)和测试集(2416张，42000座建筑物)。图1a和图1b给出了来自两个数据集的图像实例。

在训练过程中应用图像失真、随机扩展、随机裁剪、随机镜像、随机翻转、调整大小和归一化等图像预处理方法。

图2显示了所提出方法的整体描述。本发明使用CNN与Transformer的混合架构来利用卷积和注意力机制的优势。本发明的动机是遥感图像中的单个建筑物仅占整个图像的一小部分。因此，建筑区域可以由特征图中的稀疏向量表达。基于这个想法，本方法学习潜在的重要空间位置和通道索引，并基于空间和通道概率图采样得到稀疏的视觉单词。本方法将排名靠前的k个高响应位置作为候选位置。候选特征包含足够的信息来使用自注意力层挖掘长距离依赖关系。所提出的方法主要由三个部分组成：一个稀疏语义特征采样器，一个Transformer编码器，一个Transformer解码器。三个部分的组成方式由图2给出，为串联结构。下面将分别进行介绍。稀疏语义特征采样器：

为了以高效的方式提取全局上下文信息，本方法在稀疏的视觉单词而不是整个特征图上应用多头注意机制。建筑物可以由稀疏视觉单词很好地表示，这些选定的视觉单词用于对上下文关系进行建模。稀疏空间可以通过空间和通道概率图中的高响应位置启发式描述。为了得到给定特征图的稀疏特征表示，本方法遵循以下步骤来建立采样器。

表示CNN骨干提取到的一个特征图，首先用卷积层将通道数将为原来的1/4，把该特征图记为X，减少通道数有利于高效建立全局依赖关系。然后设计了一个生成空间概率图和通道概率图的模块，它的步骤如表1所示。

表1空间概率图生成器和通道概率图生成器的组成

上表中的C，H，W分别表示特征图的通道数、高度和宽度。

将空间概率图和通道概率图定义为A_i，i∈{s，c}。根据概率图从原始特征图X中采样得到k_i个高响应的特征组成稀疏特征表达T_i，以通道稀疏特征的采样过程为例，

由下式采样得到：

idx_c＝topk(A_c，k_c)

T_c＝gather(reshape(X)，idx_c)上式中topk(·，·)表示从某一个张量固定维度中得到最大k个值和对应的索引坐标，idx_c是计算得到的索引坐标，A_c是通道概率图，k_c是所需高响应位置的数目，reshape(·)表示将C×H×W改变为C×(HW)，gather(·，·)表示根据索引从某一个固定维度抽出元素组成新的张量。通过上述方式就能够得到空间稀疏的语义特征T_s和通道稀疏的语义特征T_c。

Transformer编码器：

本方法分别用一个Transformer的编码器来建立空间稀疏语义特征和通道稀疏语义特征的依赖关系。首先建立位置和内容的依赖关系，那么需要位置的编码向量。空间稀疏位置嵌入向量

的获取遵循以下步骤，先用可学习的参数初始化一个空间位置嵌入向量

Pos_s∈R^H×W×C，然后根据下式采样得到

同样可以得到，Pos_c∈R^C×(HW)，

和

当得到稀疏位置编码后，通过下式建立长距离依赖关系。

Q，K，V＝g(I_q，k，v；W_g)

在编码器中，式中的I_q，k，v表示T_c和T_s，i∈{s，c}代表是使用空间稀疏视觉单词还是通道稀疏视觉单词，g是线性层，Q，K，V是经过线性映射得到的矩阵，d是视觉单词的维度，σ表示softmax操作，Γ代表后处理操作，包括一个线性映射层，一个Dropout层，一个跳线连接和一个层正则化。

是经过Transformer编码器得到的富含上下文信息的特征单词。

Transformer解码器：

在得到

之后，使用解码器在原始特征中融入全局的信息。解码器按下述步骤进行，首先调整原始特征X的维度来适应Transformer解码器的输入，将三维张量X∈R^C×H×W调整为Z_s∈R^(HW)×C和Z_c∈R^C×(HW)，Z_s和Z_c由X调整变形得到。然后将Z_i，i∈(s，c)视为查询集，将编码器的输出

视为键和值，通过编码器中的表达式，能够得到编码的输出为

它同时含有细节和全局信息。最后恢复

的维度为(C，H，W)。

由于ResNet强大的特征学习能力，本网络使用ResNet18作为CNN主干来提取主要特征。ResNet18是专为分类任务而设计，具有5个阶段，每个阶段在分辨率上下采样2倍。为了避免在特征提取过程中丢失空间细节，在本方法中只使用前四个阶段作为SST的主干，所以最后一个特征图的分辨率是32×32×256。此外，我们还试验了其他不同的主干网络，性能比较结果在后面描述。

为了得到分割的掩模，本方法设计了一个简单的上采样头来恢复像素级分类的分辨率。首先通过卷积层减少分割头输入的通道数，然后通过连续两次上采样及卷积操作得到和原始图像相同大小的分割掩模。

步骤三：训练神经网络。如步骤二构造好网络后，在Pytorch深度学习框架下，利用带标签的训练数据对网络进行训练，选择在验证集表现最好的网络参数并保存。在训练的时候采用交叉熵损失，将总迭代Epoch设置为200，使用Warmup的策略开展训练，在前20个Epoch采用线性学习率，后180个Epoch使用多项式衰减策略继续训练。使用初始学习率为0.01的SGD优化器进行训练，动量和权重衰减分别设置为0.9和0.0001。使用ImageNet上的预训练模型初始化所有的主干部分，其余层用正态分布初始化参数。

步骤四：遥感图像建筑物目标提取。利用步骤三训练好的网络模型对测试数据进行建筑物目标提取，输出遥感图像每个像素值属于建筑物的概率，通过固定的阈值判断输出建筑物的二值掩模，为海量遥感数据的自动化数据分析和信息提取提供便利。

图3a-图3h显示了在两个数据集上的分割效果图。其中图3a和图3c来自武汉大学建筑数据集，将它们作为网络的输入，得到网络最终的建筑物提取结果为图3b和图3d；图3e和图3f来自Inria航空影像标记数据集，图3b和图3d是对应的建筑物提取结果图。从建筑物提取结果来看，本算法提取精度高，能够完整提取出目标建筑物，受周围树木遮挡和环境干扰的影响小，同时在提取过程中的速度非常快。

图4是本发明算法的整体流程，主要分为训练阶段和测试阶段。在训练阶段是为了利用已标注的建筑物图像训练本网络，得到网络的模型参数；在测试阶段，利用训练好的网络参数对本网络进行参数初始化，然后对实际产生的遥感图像进行建筑物提取得到提取结果，供后续生产单位使用。

Claims

1.一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：该方法的具体步骤如下：

步骤一：计算机读取数据；使用计算机读取遥感图像数据，并对图像数据进行预处理；

步骤二：构造基于注意力机制的遥感图像建筑物目标高效提取网络；

步骤三：训练神经网络；利用Pytorch深度学习框架构造好网络后，利用带标签的训练数据对网络进行训练，同时根据测试数据选择最优的网络参数，保存此时的网络参数；

步骤四：遥感图像建筑物目标提取；利用步骤三训练好的网络模型对遥感图像中的建筑物目标进行分割提取，得到建筑物目标的二值掩模。

2.根据权利要求1所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：在Pytorch框架下，使用Python语言编程实现；在训练过程中应用图像失真、随机扩展、随机裁剪、随机镜像、随机翻转、调整大小和归一化的图像预处理方法。

3.根据权利要求1所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：利用稀疏语义单词Transformer(Sparse Tokens Transformer，STT)的网络来挖掘基于注意力机制的Transformer在遥感图像建筑物目标提取任务上的潜力；遥感图像中建筑物目标不像自然图像中的目标，它只占有图片的一小部分；所以建筑物由卷积网络提取的特征图中的稀疏向量表示；在稀疏视觉单词之间学习长距离依赖关系，而不是在密集的像素特征或图像块之间学习，应用Transformer实现大感受野，提高准确率。

4.根据权利要求3所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：STT有三个组件：一个稀疏语义特征采样器，它根据空间和通道概率图中的高响应位置生成稀疏的语义单词；一个Transformer编码器，它是为了挖掘稀疏语义单词之间的潜在依赖关系，得到含上下文语义的稀疏单词；一个Transformer解码器，它用于将原始特征与由Transformer编码器编码的信息融合，并将稀疏单词恢复到原始的分辨率大小。

5.根据权利要求1或3所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：在步骤一中，使用的数据来自于Inria航空影像标记数据集和武汉大学建筑数据集；Inria航空影像标记数据集包含360张高分辨率(0.3m)遥感图像；这些图像涵盖了不同城市的住区，从人口稠密的地区到高山城镇；每张图像的分辨率为5000×5000像素；数据集分为训练集和测试集，分别包含180张图像；由于测试集是无标签的，把训练集按照6：2：2分为训练子集、验证子集和测试子集；为了满足网络的输入要求和GPU内存容量的限制，将所有图像切成小块512×512，重叠率为0.9；只在航空影像子集上使用STT进行评测；该子集由8188个非重叠图块组成，像素为512×512，分辨率为0.0075m到0.3m；数据集分为训练集、验证集和测试集。

6.根据权利要求4所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：稀疏语义特征采样器：

表示CNN骨干提取到的一个特征图，首先用卷积层将通道数将为原来的1/4，把该特征图记为X，减少通道数有利于高效建立全局依赖关系；然后设计了一个生成空间概率图和通道概率图的模块，C，H，W分别表示特征图的通道数、高度和宽度；

将空间概率图和通道概率图定义为A_i，i∈{s，c}；根据概率图从原始特征图X中采样得到k_i个高响应的特征组成稀疏特征表达T_i，以通道稀疏特征的采样过程为例，

由下式采样得到：

idx_c＝topk(A_c，k_c)

T_c＝gather(reshape(X)，idx_c)

上式中topk(·，·)表示从某一个张量固定维度中得到最大k个值和对应的索引坐标，idx_c是计算得到的索引坐标，A_c是通道概率图，k_c是所需高响应位置的数目，reshape(·)表示将C×H×W改变为C×(HW)，gather(·，·)表示根据索引从某一个固定维度抽出元素组成新的张量；通过上述方式就能够得到空间稀疏的语义特征T_s和通道稀疏的语义特征T_c。

7.根据权利要求4所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：Transformer编码器：

首先建立位置和内容的依赖关系，那么需要位置的编码向量；空间稀疏位置嵌入向量

的获取遵循以下步骤，先用可学习的参数初始化一个空间位置嵌入向量Pos_s∈R^H×W×C，然后根据下式采样得到

同样得到，Pos_c∈R^C×(HW)，

和

当得到稀疏位置编码后，通过下式建立长距离依赖关系；

Q，K，V＝g(I_q，k，v；W_g)

在编码器中，式中的I_q，k，v表示T_c和T_s，i∈{s，c}代表是使用空间稀疏视觉单词还是通道稀疏视觉单词，g是线性层，Q，K，V是经过线性映射得到的矩阵，d是视觉单词的维度，σ表示softmax操作，Γ代表后处理操作，包括一个线性映射层，一个Dropout层，一个跳线连接和一个层正则化；

是经过Transformer编码器得到的富含上下文信息的特征单词。

8.根据权利要求4所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：Transformer解码器：

在得到

之后，使用解码器在原始特征中融入全局的信息；解码器按下述步骤进行，首先调整原始特征X的维度来适应Transformer解码器的输入，将三维张量X∈R^C×H×W调整为Z_s∈R^(HW)×C和Z_c∈R^C×(HW)，Z_s和Z_c由X调整变形得到；然后将Z_i，i∈{s，c}视为查询集，将编码器的输出

它同时含有细节和全局信息；最后恢复

的维度为(C，H，W)。

9.根据权利要求1所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：由于ResNet强大的特征学习能力，使用ResNet18作为CNN主干来提取主要特征；ResNet18是专为分类任务而设计，具有5个阶段，每个阶段在分辨率上下采样2倍；为了避免在特征提取过程中丢失空间细节，只使用前四个阶段作为SST的主干，所以最后一个特征图的分辨率是32×32×256；

为了得到分割的掩模，设计了一个上采样头来恢复像素级分类的分辨率；首先通过卷积层减少分割头输入的通道数，然后通过连续两次上采样及卷积操作得到和原始图像相同大小的分割掩模。

10.根据权利要求1所述的一种基于注意力机制的遥感图像建筑物目标高效提取方法，其特征在于：在Pytorch深度学习框架下，利用带标签的训练数据对网络进行训练，选择在验证集表现最好的网络参数并保存；在训练的时候采用交叉熵损失，将总迭代Epoch设置为200，使用Warmup的策略开展训练，在前20个Epoch采用线性学习率，后180个Epoch使用多项式衰减策略继续训练；使用初始学习率为0.01的SGD优化器进行训练，动量和权重衰减分别设置为0.9和0.0001；使用ImageNet上的预训练模型初始化所有的主干部分，其余层用正态分布初始化参数。