CN114842330A

CN114842330A - 一种多尺度背景感知池化弱监督建筑物提取方法

Info

Publication number: CN114842330A
Application number: CN202210318162.4A
Authority: CN
Inventors: 郑道远; 方芳; 万波; 李圣文; 曾林芸; 张嘉辉
Original assignee: Shenzhen Planning And Natural Resources Data Management Center; China University of Geosciences
Current assignee: Shenzhen Planning And Natural Resources Data Management Center; China University of Geosciences
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-08-02
Anticipated expiration: 2042-03-29
Also published as: CN114842330B

Abstract

本发明公开一种多尺度背景感知池化弱监督建筑物提取方法，方法利用边界框标签，通过背景感知池化方法使得分类网络能更好地实现从建筑物边界框内的背景中分离出建筑物区域，从而生成定位更为精确的建筑物类激活图。利用高分辨率遥感影像多级别特征图的有效信息，生成多尺度的建筑物类激活图。对融合平均后的类激活图进行变异系数平滑操作，生成更为完整且精确的建筑物类激活图；根据背景注意力图和优化后的类激活图，采用条件随机场算法，生成建筑物伪标签。将伪标签与遥感影像相结合共同训练分割模型，从而实现基于边界框标签的高分辨率遥感影像建筑物自动提取。本发明有益效果是：提高了建筑物提取精度。

Description

一种多尺度背景感知池化弱监督建筑物提取方法

技术领域

本发明涉及图像目标提取领域，尤其涉及一种多尺度背景感知池化弱监督建筑物提取方法。

背景技术

现有的高分辨率遥感图像建筑物提取方法主要分为传统方法和深度学习方法。传统方法主要基于地理对象的图像分析方法提取建筑物，此类方法的建筑物提取性能高度依赖于手工选择的特征，并且往往需要强大的专业领域知识。近年来，基于数据驱动的深度学习方法在高分辨遥感影像建筑物提取方面取得了显著的性能优势。在深度学习领域中，高分辨率遥感影像的建筑物提取任务被视作图像语义分割任务。高分辨率遥感影像的语义分割方法通过为图像中每个像素分配类别标签，以此实现建筑物自动提取。

现有的图像语义分割方法主要源自于深度卷积网络，由于特征是从数据本身中学习到的，深度卷积网络可以避免手工特征选择的主观性，并且能够提供更好的性能。然而，这些方法遵循有监督的机器学习范式，它们的模型参数需要使用大量带有像素级标签的样本进行训练得到。然而，高分辨率遥感影像建筑物标签的获取耗时耗力，具有极大的挑战性。受弱监督学习的启发，弱监督语义分割(weakly supervised semantic segmentation，WSSS)方法得到发展和应用，可以有效缓解像素级标签缺乏的问题。

弱监督语义分割方法旨在利用弱标签作为监督信号来训练模型，进而完成分割任务，常用的弱标签包括图像级标签、边界框标签、点标签以及涂鸦等。其中图像级标签提供了图像中物体对象的类别，是这些弱标签中最容易获取的。目前，基于图像级标签的弱监督语义分割方法通常依靠类激活图(Class Activation Maps,CAMs)来获取对象分割区域，然后将它们制作成伪标签来训练语义分割网络。此类方法往往采用两阶段训练方法，第一步是通过图像级标签训练分类网络，以此得到类激活图，并进一步优化得到像素级别的伪标签。第二步是利用已生成的伪标签训练分割网络，使用已训练的分割网络预测对象分割区域。然而，图像级标签仅表示图像中特定类别对象的存在或不存在，并且不提供对象位置的任何信息，从中获取用于分割物体对象的可用信息依然有限，这也使得基于图像级标签的弱监督语义分割任务仍极具挑战性。边界框标签是一个包围物体对象的矩形框，这类标签不仅能够提供语义类别信息，还能提供对象位置信息。在现有研究工作中，基于边界框标签的弱监督语义分割方法主要分为两类：其一是基于边界框标签使用如MCG、GrabCut等算法生成区域候选框作为伪标签，这类方法模型普遍较为复杂，并且需要多次迭代更新。另一类方法类似于基于图像级标签的WSSS方法，利用分类网络生成类激活图和背景注意力图，此类方法生成的类激活图仍存在只关注对象最具区分性的部分的问题。此外，这类方法主要是为自然场景图像设计的，无法直接应用于高分遥感影像建筑物CAMs的提取任务。综上所述，基于边界框标签的WSSS高分辨率遥感影像建筑物提取主要存在如下挑战：高分辨率遥感影像中建筑物存在高类内差异性，导致分类网络难以准确地区分建筑物区域和背景区域；高分辨率遥感影像中建筑物尺寸多样，难以生成完整覆盖建筑物区域的类激活图。

发明内容

为了解决传统建筑物提取方法标签获取困难、类激活图覆盖建筑物不完整、生成的建筑物伪标签质量不高的技术问题，本发明提出一种多尺度背景感知池化弱监督建筑物提取方法。

本申请提供的一种多尺度背景感知池化弱监督建筑物提取方法，包括以下：

S1、获取高分辨率遥感影像并进行裁剪，根据建筑物边界框标注B，得到适当尺寸的高分辨率遥感影像和对应的边界框标签图M(p)；

S2、构建特征提取器，并将所述适当尺寸的高分辨率遥感影像输入到特征提取器中，得到不同级别的特征图；

S3、根据所述不同级别的特征图以及边界框标签图，通过对不同级别特征图进行网格划分，利用边界框标签图来聚合各个网格单元的特征，得到不同级别的背景特征；

S4、根据不同级别的查询特征，检索边界框标签图中边界框内的背景区域，通过计算余弦相似度获得不同级别的背景注意力图A；

S5、根据所述不同级别的背景注意力图A，对其应用背景感知池化操作，得到不同级别的前景特征；

S6、根据得到的不同级别的前景特征和背景特征，应用不同的分类层，使用交叉熵损失函数计算分类损失，进行反向传播算法，以训练包含特征提取器和分类层的分类网络，得到训练好的特征提取器；

S7、将高分遥感影像再次输入至所述训练好的特征提取器，得到新的不同级别的特征图和新的背景注意力图，将新的不同级别的特征图于与对应级别的分类层的权重结合，得到多尺度的类激活图；

S8、将所述多尺度的类激活图进行加权平均，并对平均后的类激活图进行变异系数平滑操作，得到优化后的类激活图；

S9、根据新的背景注意力图和优化后的类激活图，分别得到背景一元项和前景一元项，并将其作为密集条件随机场的输入，得到建筑物伪标签；将所述建筑物伪标签和对应的高分遥感影像作为语义分割模型的输入，并进行训练；分割模型训练完成后，实现建筑物自动提取。

进一步地，步骤S1中边界框标签图M(p)具体表示形式如下：

其中，B代表遥感影像中所有建筑物的边界框，K代表边界框的数量。p指图像中像素的位置。

进一步地，步骤S2中，特征提取器采用卷积神经网络层搭建的骨干网络；特征图的具体表示形式如下：

f_i，i∈{1，2...，5}， (2)

其中i表示级别，特征提取器RepVGG输出5个不同级别的特征图。每个级别的特征图的维度表示如下：

进一步地，步骤S3中，不同级别的背景特征表示如下：

其中，p表示特征图中像素位置，f(p)表示某一级别的特征图，q_j代表某一级别特征图条件下的第j背景特征；G(j)表示网格单元集合。

进一步地，步骤S4中，背景注意力图A表示如下：

其中，J表示某一级别特征图划分的有效网格数量，B代表遥感图像中所有建筑物的边界框；‖·‖表示L2归一化；ReLU表示激活函数。

进一步地，步骤S5中，背景感知池化计算方式如下：

其中，B_i表示第i个建筑物边界框，r_i代表某一级别的前景特征。

进一步地，步骤S7中多尺度的类激活图表示如下：

其中w_building表示分类层关于建筑物类别的权重，

表示第i个尺度的建筑物类激活图。

进一步地，步骤S8具体如下：

S81、将所述多尺度的类激活图进行加权平均，具体计算公式如下：

其中，CAM^B(p)表示多个尺度的类激活图进行融合平均后的类激活图；

S82、根据所述平均后的类激活图，对其使用变异系数平滑操作，得到优化后的类激活图，变异系数具体计算公式如下：

其中，CAM^(f)是通过CAM^B(p)中类激活图分数大于阈值t计算得到；

表示方差计算，

表示平均数计算；

S83、根据所述得到的变异系数cv，对平均后的类激活图进行变异系数平滑操作，得到优化后的类激活图，具体计算公式如下：

CAM^s(p)＝CAM^B(p)^(1-s×(cv)) (10)

其中，s表示变异系数比例因子，CAM^s(p)表示优化后的类激活图。

步骤S9具体如下：

S91、根据新的背景注意力图A(p)和优化后的类激活图CAM^s(p)，分别得到背景一元项u₀和前景一元项u_b：

其中，B表示所有的建筑物边界框，max表示取CAM^s(p)中某个边界框内的激活分数的最大值；

S92、根据所述得到的背景一元项和前景一元项，将其作为密集条件随机场的输入，得到建筑物伪标签PMask；具体计算公式如下：

PMask＝DCRF(u₀，u_b) (12)

其中，DCRF表示密集条件随机场。

S93、将所述得到的建筑物伪标签和高分遥感影像输入到分割模型进行训练，实现建筑物自动提取。

与现有技术相比，本发明的有益效果包括：解决了传统建筑物提取方法标签获取困难、类激活图覆盖建筑物不完整、生成建筑物为标签质量不高的技术问题，提高了建筑物提取精度。

附图说明

图1是本发明实施例中训练包含特征提取器和分类层的分类网络的流程图；

图2是本发明实施例中建筑物伪标签生成流程图；

图3是本发明实施例中包含训练特征提取器和分类层的分类网络的结构图；

图4是本发明实施例中类激活图的生成以及优化过程；

图5是本发明实施例中建筑物伪标签生成过程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为更好解释清楚本发明，请参考图1，本发明实施例中提供了一种基于边界框标签的多尺度背景感知池化弱监督建筑物提取方法，具体包括如下步骤：

S1、获取高分辨率遥感影像并进行裁剪，根据建筑物边界框标注B，得到适当尺寸的高分辨率遥感影像和对应的边界框标签图M(p)。

在本实施例中，S1具体包括：

S11、获取高分辨率遥感影像并裁剪，根据建筑物边界框标注B，获得边界框标签图M(p)，标签图M具体形式可以使用式1)来表示：

其中，B代表遥感图像中所有建筑物的边界框，K代表边界框的数量。p指图像中像素的位置。

S2、构建特征提取器，并将所述适当尺寸的高分辨率遥感影像输入到特征提取器中，得到不同级别的特征图。

在本实施例中，S2具体包括：

S21、构建特征提取器。特征提取器采用卷积神经网络层搭建的骨干网络，在本发明中，特征提取器使用RepVGG骨干网络。

S22、将所述裁剪的高分辨率遥感影像输入至RepVGG骨干网络，得到不同级别的特征图。特征图的具体形式如下可以使用式2)表示：

f_i，i∈{1，2...，5}， 2)

其中i表示级别，RepVGG特征提取器可输出5个不同级别的特征图。每个级别的特征图的维度可见式3)：

S3、根据所述不同级别的特征图以及边界框标签图，通过对不同级别特征图进行网格划分，利用边界框标签图来聚合各个网格单元的特征，得到不同级别的背景特征。

在本实施例中，S3具体包括：

S31、根据所述得到的不同级别的特征图，选择特征图f₂,f₃,f₄,f₅，对其进行网格划分。网格数量大小设置为N×N，特征图中每个网格用G(j)表示，其中1≤j≤N²。针对以上4种不同级别的特征图，N的大小分别设置为8,4,4,4。

S32、根据所述得到的网格单元G(j)，利用边界框标签图M(p)来聚合各个网格单元的特征，计算得到背景特征q_j。具体计算公式可以使用式4)表示：

其中，p表示特征图中像素位置，f(p)表示某一级别的特征图，q_j代表某一级别特征图条件下的第j背景特征。

S4、根据不同级别的查询特征，检索边界框标签图中边界框内的背景区域，通过计算余弦相似度获得不同级别的背景注意力图A。

在本实施例中，S4具体包括：

S41、根据所述不同级别的背景特征q_j，检索边界框标签图中边界框内的背景区域，通过余弦相似度计算并获得不同级别的背景注意力图A(p)。具体计算方式可以使用式5)表示：

其中，J表示某一级别特征图划分的有效网格数量，B代表遥感图像中所有建筑物的边界框。‖·‖表示L2归一化。ReLU表示激活函数。

S5、根据所述得到的不同级别的背景注意力图A，对其使用背景感知池化Background-Aware Pooling,BAP)操作，得到不同级别的前景特征。

在本实施例中，S5具体包括：

S51、根据所述不同级别的背景注意力图A(p)，结合该相应级别的特征图，使用(Background-Aware Pooling,BAP)操作，得到不同级别的前景特征。背景感知池化计算方式可以使用式6)表示：

其中，B_i表示第i个建筑物边界框，r_i代表某一级别特征图条件下的前景特征,f(p)表示某一级别特征图。

S6、根据得到的不同级别的前景特征和背景特征，应用不同的分类层，使用交叉熵损失函数计算分类损失，进行反向传播算法，以训练包含特征提取器和分类层的分类网络，得到训练好的特征提取器。

参考图2和图3，在本实施例中，S6具体包括：

S61、根据所述得到的4种不同级别的前景特征r_i和背景特征q_j，将其共同输入至4种不同的全连接分类层。使用二元交叉熵损失函数计算损失，前景特征r_i对应的类别标签为1，表示建筑物；背景特征q_j对应的类别标签为0，表示背景，根据所述计算的损失来训练特征提取器和分类层。

S7、将高分遥感影像再次输入至所述训练好的特征提取器，得到新的不同级别的特征图和新的背景注意力图，将新的不同级别的特征图于与对应级别的分类层的权重结合，得到多尺度的类激活图。

参考图4，在本实施例中，S7具体包括：

S71、将所述得到的高分遥感影像再次输入至所述训练好的特征提取器中，得到不同级别的特征图f。

S72、根据所述得到的不同级别的特征图，再次应用步骤S3-S4，得到不同级别的背景注意力图A(p)。

S73、根据所述不同级别的特征图于与对应级别的分类层的权重结合，得到多尺度的建筑物类激活图。具体计算方式可以使用式7)表示：

CAM^B(P)＝ReLU(f(P)·W_building) ,7)

其中，w_building表示分类层关于建筑物类别的权重，CAM_building表示建筑物类激活图。根据4中不同级别的特征图，会得到4种不同尺度的建筑物类激活图。

S8、将所述多尺度的类激活图进行加权平均，并对平均后的类激活图进行变异系数平滑操作，得到优化后的类激活图。

在本实施例中，S8具体包括：

S81、将所述多尺度的类激活图进行加权平均(参考图4)，具体计算公式可以使用式8)表示：

其中，CAM^B(p)表示4个尺度的类激活图进行融合平均后的类激活图。

S82、根据所述得到的平均后的类激活图，对其使用变异系数平滑操作(参考图5)，得到优化后的类激活图，变异系数具体计算公式可以使用式9)表示：

其中，CAM^(f)是通过CAM^B(p)中类激活图分数大于阈值t计算得到。

表示方差计算，

表示平均数计算。

S83、根据所述得到的变异系数cv，对平均后的类激活图进行变异系数平滑操作，得到优化后的类激活图。具体计算公式可以使用式10)表示：

CAM^s(p)＝CAM^B(p)^(1-s×(cv)) ,10)

其中，s表示变异系数比例因子，CAM^s(p)表示经过变异系数平滑后的类激活图。

参考图4，在本实施例中，S9具体包括：

S91、根据S72步骤所述背景注意力图A(p)和优化后的类激活图CAM^s(p)，分别得到背景一元项u₀和前景一元项u_b。

其中，B表示所有的建筑物边界框，max表示取CAM^s(p)中某个边界框内的激活分数的最大值。

S92、根据所述得到的背景一元项和前景一元项，将其作为密集条件随机场的输入，得到建筑物伪标签PMask(参考图5)。具体计算公式如下：

PMask＝DCRF(u₀，u_b) ,12)

其中，DCRF表示密集条件随机场。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本发明的有益效果是：解决了传统建筑物提取方法标签获取困难、类激活图覆盖建筑物不完整、生成建筑物为标签质量不高的技术问题，提高了建筑物提取精度。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S1中边界框标签图M(p)具体表示形式如下：

3.如权利要求1所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S2中，特征提取器采用卷积神经网络层搭建的骨干网络；特征图的具体表示形式如下：

f_i，i∈{1，2...，5}， (2)

其中i表示级别，特征提取器RepVGG输出5个不同级别的特征图；每个级别的特征图的维度表示如下：

。

4.如权利要求1所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S3中，不同级别的背景特征表示如下：

5.如权利要求4所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S4中，背景注意力图A表示如下：

6.如权利要求5所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S5中，背景感知池化计算方式如下：

7.如权利要求6所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S7中多尺度的类激活图表示如下：

其中w_building表示分类层关于建筑物类别的权重，

表示第i个尺度的建筑物类激活图。

8.如权利要求7所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S8具体如下：

表示方差计算，

表示平均数计算；

CAM^s(p)＝CAM^B(p)^(1-s×(cv)) (10)

9.如权利要求8所述的一种多尺度背景感知池化弱监督建筑物提取方法，其特征在于：步骤S9具体如下：

PMask＝DCRF(u₀，u_b) (12)

其中，DCRF表示密集条件随机场。