CN112052783B

CN112052783B - 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法

Info

Publication number: CN112052783B
Application number: CN202010909322.3A
Authority: CN
Inventors: 陈杰; 何玢; 李建辉; 郭亚; 孙庚�; 邓敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2024-04-09
Anticipated expiration: 2040-09-02
Also published as: CN112052783A

Abstract

本发明提供了一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法，包括训练数据准备、深层特征提取、边界特征融合、像素语义关联度学习、损失函数计算和生成建筑物伪标注；通过设计边界注意模块，将超像素先验信息和网络提取的边界信息相结合，强化了建筑物边界特征，且通过学习像素之间的语义关联性，将像素间的语义信息在图像中进行有效传播，生成更为完整密集，边界更为清晰的伪标签。同时配合高分遥感影像采用全卷积网络模型训练，实现建筑物特征自动提取。

Description

一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法

技术领域

本发明涉及遥感影像领域，更具体地，涉及一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法。

背景技术

建筑物提取作为遥感影像语义分割的应用之一，对城市地理数据库的建立和更新、城市人口估算、土地覆盖变化等诸多领域有着重要的实践价值。近年来，随着遥感成像技术的飞速发展，卫星影像的空间分辨率及光谱分辨率得到了极大提高，使得建筑物的精确识别与定位成为可能。从遥感影像中提取建筑物的传统方法有基于像元和面向对象两种方式。基于像元的方法是以单个像素为基本单元，主要依据其光谱信息进行分类提取。面向对象的方法是先通过多尺度图像分割技术得到同质多边形对象，再设计特征提取规则进行对象的分类。前者难以顾及高分影像中地物的空间信息；而后者需要人工设计特征，难以应对大范围高分影像的建筑物提取任务。

近年来，由于深度神经网络强大的特征抽象能力和自动化的提取方式，在场景识别、目标检测、语义分割等任务中表现突出，也在建筑物提取方面取得了优异的效果。其中，大部分利用深度卷积神经网络的建筑物提取，都为全监督学习方法，需要像素级的标注。像素级标注制作起来既耗时又耗力，成为了基于深度神经网络语义分割任务的最大挑战之一，这个挑战将许多遥感应用置于“小数据”的模式中，极大地限制了其发展；为此，学者们相继提出弱监督语义分割方法以减少像素级标注的成本。它不再使用像素级的标注，而是使用更弱的标注，如边框、涂鸦和图像级标签。其中，图像级标签由于获取成本最低，受到了广泛的关注。

图像级弱监督模型的训练，主要挑战是基于不完全监督信息生成像素级标签映射。该任务最常用的方法，是借助CAM(class activation map)方法生成与目标语义相关的局部图像区域。CAM方法生成的分割区域(称为分割种子)，往往是物体最具鉴别力的区域，对粗略确定物体的位置是有用的。然而，对于语义分割这一任务来说，这些分割种子是稀疏且不完整的。因此，如何有效扩张分割种子的范围，完整准确的挖掘图像中目标全部区域，生成连续密集的伪像素级标签，一直是图像级弱监督语义分割研究重点关注的问题；值得注意的是，弱监督建筑物提取任务除了标注问题，还面临着生成的伪标签边界刻画能力不强的问题。目前在弱监督语义分割的研究中，研究者们通常采用全连接条件随机场等方法对生成的伪标注添加边界约束。在缺乏像素级标注的情况下，这些方法仅利用图像中固有的信息增强边界特征，但边界刻画效果不甚理想。有些研究是利用超像素图像中的形状和边界信息，将其作为网络输入或后处理以强化边界信息。这类方法过于依赖超像素先验中的信息，而忽略了来自图像中的边界信息。因此，弱监督建筑信息提取方法需要充分挖掘图像级标签中的隐含信息，生成范围更完整、边界更清晰的建筑物目标区域；业内急需一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法。

发明内容

本发明目的在于提供一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法，包括以下步骤：

步骤A、训练数据准备，包括生成所有训练高分遥感影像的超像素图、生成建筑物类别热力图、建筑物背景热力图以及初始像素语义关联度标签；

a1、超像素图生成，将获取的高分遥感影像作为训练输入，输入至超像素分割模型中，设定每个超像素图的超像素个数，生成与所有高分遥感影像对应的超像素图G；

a2、建筑物类别热力图生成，将获得的高分遥感影像和高分遥感影像对应的语义标签作为输入，采用卷积神经网络生成CAM分割种子，得到建筑物类别热力图M_b；

其中，W_b是建筑物类别的权值，T为矩阵转置符号，f^cam(x,y)表示在特征图中位于(x,y) 处的特征向量；

a3、背景热力图生成，将步骤a2中的建筑物类别热力图M_b归一化处理得到M′_b，将M′_b激活值限制在[0，1]的区间范围内；通过式3)进一步计算背景热力图M_bg；

M_bg(x，y)＝{1-max M′_b(x，y)}^α 3)；

其中，α是超参数，α数值可设置为[1，+∞]的区间范围，用于调整背景置信分数，本实施例中α优选[1，25]；

a4、建筑物可信区域获取和背景可信区域获取，通过步骤a3中的α放大M_bg,激活建筑物目标区域对象，选取建筑物得分大于放大背景得分的坐标作为建筑物可信区域，选取背景得分大于建筑物得分的坐标作为背景可信区域；

a5、像素语义关联度标签生成，得到了建筑物可信区域和背景可信区域后，将遥感影像中的其余区域视为中性区域，根据建筑物可信区域和背景可信区域做成关联矩阵，这个关联矩阵就是像素语义关联度标签，根据确定区域的类别标签为每一对坐标分配标签，对于一对非中性区域的坐标(x_i,y_i)和(x_j,y_j)来说，如果遥感影像中两个不同像素同属于同一个类别的可信区域，这两个像素赋关联值为1，不是同一类别的关联值就为0；如果有一个像素是中性区域，就忽略这对坐标。

步骤B、深层特征提取，将获取的高分遥感影像和高分遥感影像对应的语义标签输入至特征压缩模块，获得深层特征图D；

b1、采用VGG16作为基础网络，移除VGG16中第3、4和5个下采样模块的池化层，并用空洞卷积率为3的卷积块代替；

b2、特征压缩，将高分遥感影像和高分遥感影像对应的语义标签输入至卷积块代替的 VGG16网络，代替的第3、4和5个卷积模块输出的特征图的通道数分别为128、256和512维；

b3多尺度特征融合，在b2的基础上将三个特征图串联成一个具有896通道数的单一特征映射；

b4、将单一特征映射再通过1x1的卷积层，生成压缩后的深层特征图D。

步骤C、边界特征融合，将超像素图G、深层特征图D输入至边界注意模块中进行运算与融合，得到边界注意图BA；

s1、获取浅层特征，将特征压缩模块中的第二个卷积模块输出特征图上采样至器第一个卷积模块输出特征图大小，并将上采样后的特征图与第一个卷积模块输出的特征图串联，得到浅层特征

其中h为浅层特征图的高度，w为浅层特征图的宽度，c1为浅层特征图S的通道数；

s2、获取深层逆向语义特征，将深层特征图上采样4倍，得到深层特征其中c为深层特征图D的通道数；进一步将/>处理为深层逆向语义特征/>具体是：

其中，σ是指Sigmoid函数计算；

s3、获取边界自注意特征，将浅层特征S和深层逆向语义特征进行Hadamardproduct 运算，得到边界自注意特征N，具体是：

其中，⊙指Hadamard product运算；

s4、获取超像素边界特征，将超像素图处理为超像素边界特征，具体是：

s5、获取融合边界特征图，将边界自注意特征N和超像素边界特征进行Hadamardproduct运算，并采用一个下采样模块进一步抽象特征图，使其尺寸与经过语义压缩输出的特征图尺寸相同，得到融合边界特征图/>

s6、生成边界注意图，将融合边界特征图B与深层特征图进行串联聚合，再通过卷积块进一步提取特征，生成边界注意图/>

步骤D、像素语义关联度学习，在生成的边界注意图上计算像素之间的语义关联度，并通过转移概率矩阵计算校正建筑物目标热力图；

d1、像素关联度计算，在边界注意图BA上进行像素关联度计算，得到像素语义关联矩阵W，其对角线元素为1，一对特征向量之间的语义关联度是用它们距离定义的；特征 i与特征j之间的语义关联度由W_ij表示；

W_ij＝exp{-||BA(x_i-y_i)-BA(x_j-y_j)||₁} 7)；

其中，(x_i，y_i)表示边界注意图BA上第i点的坐标，(x_j，y_j)表示边界注意图BA上第j点的坐标；

d2、对角矩阵计算，对语义关联矩阵的每行数值计算均值并进行归一化处理，将每行标准化后的数值分布在矩阵的主对角线上，其他位置元素为0；

d3、转移概率计算，将计算得到的像素语义关联矩阵转化为转移概率矩阵H，具体是：

H＝D^-1W^⊙β，其中

其中，超参数β值大于1，W^⊙β是指将W矩阵与超参数β做Hadamard product运算后得到的矩阵，D_ii表示对角矩阵D中第i个对角元素的值；

d4、热力图校正，将转移概率矩阵H和热力图相乘，实现像素间的语义传播，通过迭代执行此传播，直至预定义的迭代次数，得到校正后的建筑物类别热力图；

其中，vec(·)表示矩阵的向量化，指校正的热力图，t为迭代次数。

步骤E、定义像素关联度损失函数和分类损失函数，对像素语义关联度学习、边界注意模块和特征压缩模块进行优化，并配合VGG16网络中的全局平均池化层(GAP)和全连接层(FC)进行图像类别激活可视化操作(CAM)，得到优化后的建筑物目标热力图；

e1、分类损失计算，将高分遥感影像对应的语义标签作为监督信息，包含建筑物的图像标记为1，不包含建筑物的图像标记为0，采用交叉熵损失函数来计算分类损失，具体是：

其中m取值为当前输入的批量样本总数；

e2、像素样本对集合构造，具体是考虑建筑图像相邻坐标像素的关联度，得到训练中使用的像素对集合ρ；

d(··)是欧氏距离；γ是搜索半径，以此限制选择一对坐标点之间的距离，避免了对建筑物图像进行全图搜索，导致计算效率降低，同时超过一定搜索半径范围的搜索是无效搜索，避免无效搜索；且搜索半径的限制能够有效获得更多正负像素对的训练；γ优选[1,10]。

e3、像素对划分，将ρ分成正负对的两个子集ρ⁺和ρ^-，然后进一步将ρ⁺分为两个子集：建筑物像素对和背景像素对/>

其中是指预测的像素i和像素j之间的像素关联度；

e4、子集像素关联度损失计算，具体是计算三个子集的交叉熵：

e5、像素语义关联度损失结合，结合三个子集的损失函数，将像素语义关联的损失函数表示为：

e6、总体损失函数计算，包括分类损失和像素关联度损失，具体是：

L＝L_cls+λL_aff 18)；

其中λ为权重系数，λ取值范围为[0，1]。

步骤F：生成建筑物伪标注，将生成的建筑物伪标注和高分遥感影像作为全卷积神经网络的输入，训练收敛后，实现建筑物特征自动提取；

f1、热力图尺寸恢复，利用双线性插值对步骤E中的热力图进行上采样，使得获取的建筑物热力图尺寸等于高分遥感影像尺寸；

f2、建筑物伪标注生成，将热力图进行像素值的归一化处理，像素值限制在[0，1]的范围内，将热力值高于0.5的像素区域视为建筑物区域，低于该阈值的像素区域视为其他地物，生成建筑物图像的伪分割标注；

f3、建筑物特征自动提取，将建筑物伪标注作为监督信息，将高分遥感影像和建筑物伪标注输入至全卷积网络模型训练，实现建筑物特征自动提取。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明一种结合像素语义关联和边界注意的高分遥感影像弱监督建筑物提取方法的流程图；

图2是步骤B中特征压缩模块的处理过程示意图；

图3是步骤C中边界注意模块的处理过程示意图；

图4是本发明建筑物伪标注生成示意图；

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。

参见图1至图4，一种结合像素语义关联和边界注意的高分影像弱监督提取方法，包括以下步骤：

M_bg(x，y)＝{1-max M′_b(x，y)}^α 3)；

其中，σ是指Sigmoid函数计算；

其中，⊙指Hadamard product运算；

W_ij＝exp{-||BA(x_i-y_i)-BA(x_j-y_j)||₁} 7)；

H＝D^-1W^⊙β，其中

其中，超参数β值大于1，W^⊙β是指将W矩阵与超参数β做Hadamard product运算后得到的矩阵， D_ii表示对角矩阵D中第i个对角元素的值；

其中m取值为当前输入的批量样本总数；

e2、像素样本对集合构造，具体是考虑建筑图像相邻坐标像素的关联度，得到训练中使用的像素对集合ρ；建筑物图像中包含建筑物主体以及其他地物(背景)，具体考虑建筑图像中建筑物主体和建筑物主体(建筑物像素对)，建筑物与其他地物，背景与背景(背景像素对)之间的像素语义关联。

其中是指预测的像素i和像素j之间的像素关联度；

L＝L_cls+λL_aff 18)；

其中λ为权重系数，λ取值范围为[0，1]。

f2、建筑物伪标注生成，将恢复尺寸的热力图进行像素值的归一化处理，像素值限制在[0，1]的范围内，将热力值高于0.5的像素区域视为建筑物区域，低于该阈值的像素区域视为其他地物，生成建筑物图像的伪分割标注；

需要说明的是，所述高分遥感影像和高分遥感影像对应的语义标签通过互联网下载获取；本发明的卷积神经网络训练基于现有的计算机平台操作。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，包括以下步骤：

步骤B、深层特征提取，将获取的高分遥感图像和高分遥感影像对应的语义标签输入至特征压缩模块，获得深层特征图D；

步骤C具体包括以下步骤：

s1、获取浅层特征，将特征压缩模块中的第二个卷积模块输出特征图上采样至第一个卷积模块输出特征图大小，并将上采样后的特征图与第一个卷积模块输出的特征图串联，得到浅层特征

其中，σ是指Sigmoid函数计算；

s3、获取边界自注意特征，将浅层特征S和深层逆向语义特征进行Hadamard product运算，得到边界自注意特征N，具体是：

其中，⊙指Hadamard product运算；

s4、获取超像素边界特征，将超像素图是处理为超像素边界特征，具体是：

2.根据权利要求1所述的一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，步骤A具体包括以下步骤：

其中，W_b是建筑物类别的权值，f^cam(x,y)表示在特征图中位于(x,y)处的特征向量；

a3、背景热力图生成，将步骤a2中的建筑物类别热力图M_b归一化处理得到M'_b，将M'_b激活值限制在[0，1]的区间范围内；通过式3)公式进一步计算背景热力图M_bg；

M_bg(x,y)＝{1-max M'_b(x,y)}^α 3)；

其中，α是超参数，α数值可设置为[1，+∞]的区间范围，用于调整背景置信分数；

a5、像素语义关联度标签生成，得到了建筑物可信区域和背景可信区域后，将遥感图像中的其余区域视为中性区域，根据建筑物可信区域和背景可信区域做成关联矩阵，这个关联矩阵就是像素语义关联度标签，根据确定区域的类别标签为每一对坐标分配标签，对于一对非中性区域的坐标(x_i,y_i)和(x_j,y_j)来说，如果遥感图像中两个不同像素同属于同一个类别的可信区域，这两个像素赋关联值为1，不是同一类别的关联值就为0；如果有一个像素是中性区域，就忽略这对坐标。

3.根据权利要求1所述的一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，步骤B具体包括以下步骤：

b2、特征压缩，将高分遥感影像和高分遥感影像对应的语义标签输入至卷积块代替的VGG16网络，代替的第3、4和5个卷积模块输出的特征图的通道数分别为128、256和512维；

b3、多尺度特征融合，在b2的基础上将三个特征图串联成一个具有896通道数的单一特征映射；

4.根据权利要求1所述的一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，步骤D具体包括以下步骤：

d1、像素关联度计算，在边界注意图BA上进行像素关联度计算，得到像素语义关联矩阵W，其对角线元素为1，一对特征向量之间的语义关联度是用它们距离定义的；特征i与特征j之间的语义关联度由W_ij表示；

W_ij＝exp{-||BA(x_i-y_i)-BA(x_j-y_j)||₁} 7)；

H＝D^-1W^⊙β，其中

d4、热力图校正，将转移概率矩阵H和热力图相乘，实现像素间的语义传播，通过迭代执行此传播，直至预定义的迭代次数，得到校正后的建筑物目标热力图；

5.根据权利要求1所述的一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，步骤E具体包括以下步骤：

其中m取值为当前输入的批量样本总数；

d(··)是欧式距离，γ是搜索半径；

其中是指预测的像素i和像素j之间的像素关联度；

L＝L_cls+λL_aff 18)；

其中λ为权重系数，λ取值范围为[0，1]。

6.根据权利要求1所述的一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，步骤F具体包括以下步骤：

7.根据权利要求1-6任一项中所述的一种结合像素语义关联和边界注意的高分影像弱监督提取方法，其特征在于，所述高分遥感影像和高分遥感影像对应的语义标签通过互联网下载获取。