CN114037893A

CN114037893A - 一种基于卷积神经网络的高分辨率遥感图像建筑提取方法

Info

Publication number: CN114037893A
Application number: CN202111268805.0A
Authority: CN
Inventors: 产思贤; 俞佳敏; 雷艳静; 白琮; 陶健; 吴炜
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-11

Abstract

本发明公开了一种基于卷积神经网络的高分辨率遥感图像建筑提取方法，通过获取带有标注建筑类别和背景类别的图像训练数据集，对图像训练数据集进行数据增强，将数据增强后图像训练数据集输入到骨干网络，通过在网络中引入级联的多尺度特征融合方法，选择性非局部操作和多尺度预测实现的深监督，构建高分辨率、高语义的特征图。在训练中使用二元交叉熵损失、梯度下降和反向传播来更新网络参数。并采用训练好的网络模型来推理待检测图像。本发明提出的网络模型，能够有效地提取遥感图像中，建筑的位置和轮廓。

Description

一种基于卷积神经网络的高分辨率遥感图像建筑提取方法

技术领域

本申请属于图像处理技术领域，尤其涉及一种基于卷积神经网络的高分辨率遥感图像建筑提取方法。

背景技术

建筑提取是遥感图像处理的一类基本问题，在城市规划，人口分析等领域都有着广泛的应用。现有的建筑提取方法，大多直接使用通用语义分割模型，如FCN、Unet、DeepLab等，但将这些模型迁移至高分辨率遥感图像时往往表现不佳。这是因为相较于传统语义分割任务，遥感图像处理面临着其特有的挑战，如前景背景不平衡，目标小而多，前景背景复杂多变，阴影遮挡等。

现有主流通用语义分割模型，为了构建高语义、高分辨率特征图，往往致力于提高网络的感受野。如DeepLab和DilatedNet，使用了空洞卷积，在避免下采样降低分辨率的同时提高了网络的感受野，使得模型可以捕获长距离语义依赖。由于遥感图像中目标小且多，增大后的感受野会包含更多复杂多变的背景信息，引入的噪声会造成模型性能退化。另一种用于捕获长距离语义依赖的方法是使用非局部运算。但由于遥感图像分辨率较大，直接在全图进行非局部运算会带来大量计算成本。同时，由于遥感图像中前景背景不平衡且复杂多变，在全图范围进行非局部运算会使得特征表示被大量复杂的噪声信息淹没。这些原因使得，通用的语义分割模型迁移至遥感图像时，往往表现不佳。

发明内容

本申请的目的是提供一种基于卷积神经网络的高分辨率遥感图像建筑提取方法。在现有技术方案的基础上，将计算机视觉分类任务中强大的骨干网络ResNeXt调整用于分割任务，利用级联的多尺度特征融合方法，强化特征图的语义表示能力，利用选择性非局部操作，引入上下文信息，建立长距离语义依赖，利用多尺度预测实现深监督，加强网络对于不同尺度目标预测的性能，同时加速网络的收敛和增强网络的稳定性，克服了遥感图像处理当中特有的问题。

为了实现上述目的，本申请技术方案如下：

一种基于卷积神经网络的高分辨率遥感图像建筑提取方法，包括：

获取带有标注的高分辨率遥感图像训练数据集，将建筑类别设置为前景，除建筑以外的所有类别设置为背景，对训练数据集进行数据增强；

将训练数据集输入到骨干网络ResNeXt中，得到每个分辨率阶段的特征图；

采用级联的多尺度特征融合方法，融合不同分辨率阶段特征图的语义信息，得到融合了不同分辨率阶段语义信息的特征图；

采用多尺度预测深监督方法对融合了不同分辨率阶段语义信息的特征图进行处理，得到预测强度图。

进一步的，所述采用级联的多尺度特征融合方法，融合不同分辨率阶段特征图的语义信息，得到融合了不同分辨率阶段语义信息的特征图，包括：

级联地依次将相邻的两个不同分辨率阶段的特征图进行多尺度特征融合；

在每个分辨率阶段的最后一次多尺度特征融合时，先对参与融合的低分辨率阶段的特征图进行选择性非局部运算；

输出每个分辨率阶段最后经过选择性非局部运算的特征图作为融合了不同分辨率阶段语义信息强化后的特征图。

进一步的，所述多尺度特征融合，包括：

首先对参与融合的低分辨率阶段的特征图进行二次线性插值上采样至与参与融合的高分辨率阶段的特征图相同大小；

然后将两个特征图进行通道维的拼接，使用一个卷积块降低拼接后张量的通道数，卷积块包含一组3×3卷积、批标准化和ReLU激活函数，接着再经过一次通道数不变的卷积块；

将前面的输出结果与参与融合的高分辨率阶段的特征图进行元素级别的求和操作。

进一步的，所述选择性非局部运算，包括：

先对输入的特征图进行一次1×1卷积降低通道数至超参数所设定的默认值，然后再使用一次1×1卷积降低通道数至1；

再进行自适应的最大池化操作，并记录最大池化操作中每个池化核(kernel)中最大值的位置，从特征图中提取出这些位置，构成第一特征张量，再将第一特征张量长宽维度压缩为一维，得到第二特征张量，调换第二特征张量中的通道维度与压缩后的长宽维度得到第三特征张量，将第三特征张量与第二特征张量进行矩阵乘法，得到每个位置之间的相似度矩阵；

对相似度矩阵进行标准化处理，将标准化后的相似度矩阵与提取出第一特征张量，进行批矩阵乘法，得到第四特征张量；

根据最大池化操作中记录的位置，将第四特征张量通过逐元素加法与原输入的特征图融合；

融合后再进行两次由3×3卷积、批标准化和ReLU激活函数组成的残差卷积块。

进一步的，所述采用多尺度预测深监督方法对融合了不同分辨率阶段语义信息的特征图进行处理，得到预测强度图，包括：

对融合了不同分辨率阶段语义信息的特征图进行通道维拼接，然后进行卷积操作并上采样至原图大小，得到预测强度图。

进一步的，所述基于卷积神经网络的高分辨率遥感图像建筑提取方法，还包括：

对预测强度图进行sigmoid函数操作，并计算与像素真实值的二元交叉熵损失，通过反向传播来减少损失，更新网络参数；

其中，二元交叉熵损失为每个像素位置的损失之和，所述每个像素位置的损失计算公式如下：

l_n＝-[y_n·logx_n+(1-y_n)log(1-x_n)]

其中，l_n表示为每个像素位置的损失，x_n表示每个位置的预测值，y_n表示实际真实值。

本申请提出的一种基于卷积神经网络的高分辨率遥感图像建筑提取方法，在现有技术方案中引入级联的多尺度特征融合方法，选择性非局部运算和多尺度预测实现深监督。本申请提出的方法模型，能够有效地提取遥感图像中建筑的位置和轮廓。

附图说明

图1为本申请基于卷积神经网络的高分辨率遥感图像建筑提取方法流程图；

图2为本申请卷积神经网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请的一个实施例，如图1所示，提供了一种基于卷积神经网络的高分辨率遥感图像建筑提取方法，包括：

步骤S1、获取带有标注的高分辨率遥感图像训练数据集，将建筑类别设置为前景，除建筑以外的所有类别设置为背景，对训练数据集进行数据增强。

遥感图像具有多种类型和规格，网络默认采用光学遥感图像，且图像已处理成RGB三通道图像。多光谱图像可以通过遥感图像处理方法合成转换为RGB三通道图像。若数据集中，标签含有多个目标类别，则将建筑类别标签值设置为1，其余类别标签值均设置为0，表示网络聚焦于建筑提取任务。

对训练数据集进行数据增强，包括有重叠的裁剪、水平翻转、垂直翻转和旋转。

网络默认使用滑动窗口法对遥感图像进行有重叠的裁切，窗口大小默认为512×512像素，滑动步长默认为256像素。若部分窗口超出图片范围，则将窗口修正至图片内范围，再进行裁切操作。裁切后每一张图片构成的张量形状均为3×512×512。旋转默认采用0°、90°、180°和360°四种旋转角度。数据增强采用组合增强的形式，即不同的增强方法之间可以组合进行。若采用线下增强的形式，则每一张图片增强后会对应于16个副本。若使用线上增强的形式，则在模型每一次读取图片时，对每一种增强形式，采用均匀分布的概率随机选择增强的具体参数。

步骤S2、将训练数据集输入到骨干网络ResNeXt中，得到每个分辨率阶段的特征图。

本申请默认采用ResNeXt-101 32×8d作为骨干网络，其参数默认加载ImageNet的预训练参数。采用分批次进行训练，考虑到图像分辨率、模型大小和显存限制，批大小默认设置为8。使用SGD优化器，优化器初始学习率默认为0.1，SGD的动量参数默认为0.9，权重衰减参数默认为1e-4。模型训练周期数取决于数据集大小，在预估的训练周期中间进行一次学习率衰减，衰减时更新学习率为原学习率的十分之一。

批大小为8，因此每批送入网络的图片构成的张量形状为8×3×512×512。如图2所示，经过骨干网络处理运算后，可以得到每个分辨率阶段下的特征图F_1,1、F_2,1、F_3,1、F_4,1。分辨率阶段是指根据特征图的分辨率大小，将所有特征图划分为不同阶段。产生分辨率阶段的操作主要为步长大于等于2的池化与卷积操作。对于ResNeXt来说，包含四个分辨率阶段，分别为1/4、1/8、1/16、1/32原图大小的分辨率，其最初步长为2的卷积操作产生的特征图通常不算作一个阶段。以F_1,1和F_4,1为例，其张量形状分别为8×256×128×128和8×2048×16×16。每个分辨率下的通道数由超参数网络容量决定。

步骤S3、采用级联的多尺度特征融合方法，融合不同分辨率阶段特征图的语义信息，得到融合了不同分辨率阶段语义信息的特征图。

在本步骤中，所述采用级联的多尺度特征融合方法，融合不同分辨率阶段特征图的语义信息，得到融合了不同分辨率阶段语义信息的特征图，其中级联的多尺度特征融合方法，即级联地依次将相邻的两个不同分辨率阶段的特征图进行多尺度特征融合。

如图2所示，F_1,1与F_2,1进行多尺度特征融合，得到F_1,2；F_2,1与F_3,1进行多尺度特征融合，得到F_2,2；F_4,1与F_3,1进行多尺度特征融合，得到F_3,2；F_1,2与F_2,2进行多尺度特征融合，得到F_1,3；F_2,2与F_3,2进行多尺度特征融合，得到F_2,3；F_1,3与F_2,3进行多尺度特征融合，得到F_1,4。F_i,j中下标i表示不同分辨率阶段，下标j表示级联的级。

在一个优选的实施例中，本申请还使用选择性非局部运算引入上下文信息强化特征图，即所述采用级联的多尺度特征融合方法，融合不同分辨率阶段特征图的语义信息，得到融合了不同分辨率阶段语义信息的特征图，包括：

其中，所述多尺度特征融合，包括：

以获得特征图F_1,2为例，为了获得特征图F_1,2，将特征图F_1,1和F_2,1作为输入，其张量形状分别为8×256×128×128和8×512×64×64。首先对F_2,1进行二次线性插值上采样至和F_1,1相同分辨率大小，其上采样后的张量形状为8×512×128×128。

然后将两个特征图进行通道维的拼接，拼接后的张量形状为8×768×128×128。使用一个卷积块降低拼接后张量的通道数，卷积块包含一组3×3卷积、批标准化和ReLU激活函数，经过第一个卷积块后的张量形状为8×256×128×128。接着再经过一次通道数不变的卷积块，此卷积块构成与上一个相似，但在3×3卷积时不改变通道数，经过第二个卷积块后的张量形状为8×256×128×128。最后，将此输出结果与输入特征图F_1,1进行元素级别的求和操作，得到的结果就是F_1,2。

为了获得特征图F_1,3，只需将输入更换为特征图F_1,2和F_2,2。同理还可以得到F_2,2。网络通过级联地融合不同尺度的特征图，以构建高分辨率、高语义的特征表示用于预测输出。

由于F_4,1不存在更低分辨率阶段的特征图，每个分辨率阶段的最后一次多尺度特征融合后的特征图分别为F_4,1、F_3,2、F_2,3和F_1,4，F_4,1本身不需要融合，F_3,2、F_2,3和F_1,4是先对低分辨率阶段的特征图进行选择性非局部运算，然后进行多尺度特征融合得到。

即先对4_4,1进行选择性非局部运算(图2图中的SNL)，再接着两次3×3卷积、批标准化和ReLU激活函数构成的卷积块操作，运算后的结果记为

再进行多尺度特征融合，其输入为F_3,1和

得到F_3,2。同理，可以得到F_2,3和F_1,4。

具体的，本步骤中，所述选择性非局部运算，包括：

例如，为了获得特征图F_1,4，需要先对F_2,3进行选择性非局部运算。F_2,3的张量形状为8×512×64×64，先对其进行一次1×1卷积降低通道数至超参数所设定的默认值64，然后再使用一次1×1卷积降低通道数至1，得到的张量形状为8×1×64×64。使用两次1×1是为了获取更好的非线性表示能力。得到的单通道特征图可以理解为每个像素位置的重要程度或困难程度。因此在此特征图上进行自适应的最大池化(maxpooling)操作，并记录maxpooling操作中，每个kernel中最大值的位置。默认自适应maxpooling的输出大小为8×8，即可以获取到共64个关键点的位置。从特征图中提取出这些位置，构成新的特征张量，其形状为8×512×8×8。再将其变形至形状8×64×512和8×512×64，两者之间进行批矩阵乘法，得到每个位置之间的相似度矩阵，其张量形状为8×64×64。在最后一个维度上进行softmax操作，表示对相似度矩阵进行标准化处理。将上一步的标准化后的相似度矩阵与提取出的64个点构成的特征，进行批矩阵乘法，并将其变形至8×512×8×8，至此非局部运算已计算完成。最后将非局部运算完成后的这些点的特征通过逐元素加法，根据maxpooling中记录的位置，将其与原输入特征图融合。融合后再进行两次由3×3卷积、批标准化和ReLU激活函数组成的残差卷积块。得到的结果再与F_1,3进行多尺度特征融合，得到特征图F_1,4。

在前面的计算中，已经对F_4,1、F_3,2、F_2,3进行了选择性非局部运算，在选择性非局部运算输出对应的融合了不同分辨率阶段语义信息强化后的特征图，最后对F_1,4进行选择性非局部运算，输出对应的融合了不同分辨率阶段语义信息强化后的特征图。最终得到

步骤S4、采用多尺度预测深监督方法对融合了不同分辨率阶段语义信息的特征图进行处理，得到预测强度图。

具体的，本申请多尺度预测深监督方法，对融合了不同分辨率阶段语义信息的特征图进行处理，得到预测强度图，包括：

对融合了语义信息的特征图进行通道维拼接，然后进行卷积操作并上采样至原图大小，得到预测强度图。

例如，本步骤对

进行二次线性插值上采样至

的分辨率，进行通道维拼接，经过一次3×3卷积、批标准化和ReLU激活函数构成的卷积块降低拼接带来的通道数提升，再经过一次1×1卷积降低通道数至1维，得到预测强度图P^*，表示网络对于每一个像素位置判别为建筑的预测强度，其分辨率大小为原图的1/4。

以

为例，其张量形状为8×2048×16×16，通过二次线性插值上采样至

的分辨率，其张量形状为8×2048×128×128。将上采样后的

和

进行通道维的拼接，拼接后张量形状为8×3840×128×128。使用3×3卷积、批标准化和ReLU激活函数组成的卷积块降低通道数至此分辨率下的默认通道数，经过此卷积块后，张量形状为8×256×128×128。最后经过一次1×1卷积，降低通道数至1维，输出结果张量形状为8×1×128×128，此即预测强度图P^*。

对1/4原图分辨率大小的预测强度图P^*进行二次线性插值上采样至原图大小，得到最终的预测强度图P。

预测强度图P的张量形状为8×1×512×512，与原图具有相同分辨率，此即网络的最后输出。

需要说明的是，除此之外，还有许多可行的多尺度预测深监督方法，如先将所有除最高分辨率阶段之外的特征图上采样至最高分辨率，再通过1×1卷积对除最高分辨率阶段之外的特征图进行降维，使其通道数一致，再将所有分辨率阶段特征图之间进行逐元素加法融合，在融合后的基础上再进行预测。也可以先在所有分辨率特征图阶段的特征图上进行预测，之后将除最高分辨率阶段之外的预测结果上采样至最高分辨率，再进行逐元素的平均值计算融合。

对预测强度图P进行sigmoid函数可以获取每个像素位置判别为前景的概率。

本申请中，先训练网络，训练阶段，根据图片的真实标签，计算网络的二元交叉熵损失，通过反向传播来减少损失，更新网络参数。

对预测强度图P进行sigmoid函数，并与像素真实值进行二元交叉熵损失计算。二元交叉熵的具体计算过程可表示为如下公式：

L＝sum(l₁,…,l_262,144)

l_n＝-[y_n·logx_n+(1-y_n)log(1-x_n)]

其中，l_n表示为每个像素位置的损失，由每个位置的预测强度x_n和实际真实值y_n计算获得，x_n即为预测强度图P中的每一个像素位置。每张图的损失L，由所有像素点损失求和获得；每个批次的总体损失，由8张图的损失L求和获得。通过框架提供的反向传播函数，计算每个参数对应的梯度值，使用优化器更新每个参数，以减少网络整体损失。

在训练好网络后，对于待检测图像，输入到训练好的网络中，对预测强度图P进行sigmoid函数和阈值化处理，得到建筑提取结果。

在对待检测图像进行处理时，默认对待预测图像不进行翻转和旋转数据增强，将图片裁切至512×512分辨率大小，作为网络输入。对网络输出的预测强度图P，进行sigmoid函数操作和阈值化处理，即得到预测图的推理结果。如需原大图的预测结果，则可以将每个切片的结果进行合并，对于重叠的部分进行投票预测处理。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络的高分辨率遥感图像建筑提取方法，其特征在于，所述基于卷积神经网络的高分辨率遥感图像建筑提取方法，包括：

2.根据权利要求1所述的基于卷积神经网络的高分辨率遥感图像建筑提取方法，其特征在于，所述采用级联的多尺度特征融合方法，融合不同分辨率阶段特征图的语义信息，得到融合了不同分辨率阶段语义信息的特征图，包括：

3.根据权利要求2所述的基于卷积神经网络的高分辨率遥感图像建筑提取方法，其特征在于，所述多尺度特征融合，包括：

4.根据权利要求2所述的基于卷积神经网络的高分辨率遥感图像建筑提取方法，其特征在于，所述选择性非局部运算，包括：

5.根据权利要求1所述的基于卷积神经网络的高分辨率遥感图像建筑提取方法，其特征在于，所述采用多尺度预测深监督方法对融合了不同分辨率阶段语义信息的特征图进行处理，得到预测强度图，包括：

6.根据权利要求1所述的基于卷积神经网络的高分辨率遥感图像建筑提取方法，其特征在于，所述基于卷积神经网络的高分辨率遥感图像建筑提取方法，还包括：

l_n＝-[y_n·logx_n+(1-y_n)log(1-x_n)]