CN114820655B

CN114820655B - 可靠区域作为注意力机制监督的弱监督建筑物分割方法

Info

Publication number: CN114820655B
Application number: CN202210444884.4A
Authority: CN
Inventors: 徐炜锋; 陈珺; 官文俊; 罗林波; 熊永华
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2024-04-19
Anticipated expiration: 2042-04-26
Also published as: CN114820655A

Abstract

本发明公开了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法，包括以下步骤：构建弱监督语义分割网络，网络包括：第一分类网络、可靠区域合成模块，第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块；获取建筑物图像和人工标记的分类标签作为训练集，利用训练集对分类网络进行训练，得到初始种子，将初始种子输入可靠区域合成模块中得到可靠标签；用训练集对基于像素注意力模块和孪生网络结构的类激活映射模块进行训练，得到类激活映射；最后用生成的可靠标签作为类激活映射的监督，得到伪标签，使用伪标签训练现有网络得到最终的建筑物分割结果。本发明仅通过分类标签实现了像素级语义分割。

Description

可靠区域作为注意力机制监督的弱监督建筑物分割方法

技术领域

本发明属于图像分割领域，尤其涉及一种可靠区域作为注意力机制监督的弱监督建筑物分割方法。

背景技术

随着传感器技术和无人机技术的发展，利用无人机获取建筑物足迹已成为近年来高分辨率图像分割和目标检测的一个重要研究方向。它被广泛应用于数字城市、军事侦察、灾害评估等领域。近年来，随着深度神经网络的发展，语义分割任务取得了很大的进展，但该领域仍面临一个很大的挑战是缺乏大规模的像素级分割标签，目前语义分割任务主要面对较低分辨率的自然场景图像，但在遥感领域的研究还较少，主要原因是在从自然场景任务转换到遥感任务，受真实标签数量少的限制，尤其是缺少像素级分割标签。在较低分辨率的COCO数据集中，COCO数据集的标注人员需要花费4.1秒按类别标记一副图像，花费10.1分钟按像素级分类标注一副图像(像素级标注所需时间是图像级标注的150倍)，对于较低分辨率的COCO数据集一副图像都需要耗费如此长的时间，那对于高分辨率的遥感图像则需要耗费更多的时间和人力成本。因此近年来人们致力于使用弱监督语义分割(WSSS)来研究语义分割任务，WSSS使用图像级分类标签、涂鸦和边界框等弱监督方式，试图实现与完全监督同等的分割性能，其中图像级标签是获取方式最容易监督标签也是监督信息最弱的监督标签。

目前，主流的弱监督方法都基于类激活图(CAM)，该方法通过图像分类标签训练分类网络使得分类器获得目标对象的定位图。虽然CAM可以识别目标对象最具显著性的区域，但是CAM有三个主要的障碍，使其无法直接作为分割网络训练的伪标签：(1)欠激活：CAM通常只覆盖对象最具显著性的部分而不是对对象的整个区域做出响应。(2)过激活：CAM会引入过度激活等噪音，即存在背景区域错误激活为前景。(3)不一致性：当原始图像经过仿射变换后，对同一副图像生成的CAM图存在不一致性。这些现象的根本原因来自完全监督和弱监督语义分割之间的监督差距。

发明内容

为了解决现有技术存在的问题，本发明提供了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法来缩小监督上的差距。为解决CAM的欠激活问题，本申请引入了像素注意力模块(PAM)、孪生网络和等变约束使得每个像素能捕获的更多的上下文外观信息。为解决过度激活问题，本申请设计了可靠伪像素标签作为监督。

本发明的技术方案提供一种可靠区域作为注意力机制监督的弱监督建筑物分割方法，方法包括以下步骤：

S1、构建弱监督语义分割网络，所述弱监督语义分割网络包括：第一分类网络、可靠区域合成模块，第二分类网络、像素注意力模块和类激活映射计算模块、孪生网络结构、损失函数设计模块；损失函数设计模块包括第二分类网络的损失函数，等变约束损失函数和可靠区域损失函数；

S2、获取无人机拍摄的建筑物图像和人工标记的分类标签作为训练集，利用训练集对第一分类网络进行初步训练，得到初始种子；

S3、将得到的初始种子输入到可靠区域合成模块中得到可靠标签；

S4、用训练集对第二分类网络进行训练，得到高级特征映射，训练的损失函数为第二分类损失函数；

S5、用高级特征映射作为像素注意力模块的输入，得到改进的高级特征映射；

S6、将改进的高级特征映射作为类激活映射计算模块的输入，得到类激活映射；

S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值，并提供等变约束损失函数提供等变约束；

S8、用步骤S3生成的可靠标签作为步骤S6类激活映射的监督，得到可靠区域损失函数；

S9、使用损失函数设计模块训练弱监督分割网络得到伪标签；

S10、使用伪标签训练Deeplab V1分割网络，利用Deeplab V1分割网络进行分割，得到最终的建筑物分割结果。

进一步地，步骤S2-S3具体如下：

S2.1：所述第一分类网络的损失函数定义如下：

其中y_i表示样本i的标签，前景为1，背景为0，N代表训练样本的个数，p代表预测概率向量；

S2.2：给定第一分类网络，输入原始图像和分类标签使用S2.1的损失函数对第一分类网络进行训练，计算得到CAM：

其中w_c是类别c的最后分类层的权重，f(x)是GMP之前输入图像x的特征图；

S2.3：设置前景阈值θ_fg，给定一个滑动窗口W，确定某一像素i，若该像素以及在滑动窗口内的概率值均大于前景的阈值，则选定该像素点为可靠区域，其余均为不可靠区域，即背景，定义如下：

其中DR表示可靠标签，W_i表示像素i滑动窗口内的像素点。

进一步地，步骤S7中，所述等变约束的损失函数定义如下：

其中F(·)代表仿射变化，M^o代表原始图像的类激活映射CAM，M^t代表仿射变化对应的CAM。

进一步地，步骤S8中，可靠区域损失函数定义如下：

其中M是步骤S5得到的改进的高级特征映射；R是步骤S3得到的可靠标签；H、W表示输入图像的宽、高。

进一步地，步骤S9中，损失函数设计模块的总损失函数为步骤S4的第二分类损失函数、步骤S7等变损失函数和步骤S8可靠损失函数之和。

本发明的有益效果是：极大的降低了像素标注的时间成本和人力成本。

附图说明

图1是本发明提供的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法的流程示意图；

图2是本发明弱监督建筑物分割网络的结构图；

图3是本发明像素注意力模块示意图；

图4是本发明的定性结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种可靠区域作为注意力机制监督的弱监督建筑物分割方法。请参考图1，图1是本发明方法的流程图；方法包括以下步骤：

请参考图2，图2是本发明弱监督建筑物分割网络的结构图；

步骤S2-S3中，合成可靠区域标签的具体过程为：

S2.1：所述第一分类网络的损失函数定义如下：

其中DR表示可靠标签，W_i表示像素i滑动窗口内的像素点。

步骤S4-S6，得到类激活映射的具体过程为：

S3.1：给定第二分类网络，训练第二分类网络(CNN)得到高级特征映射f。f作为像素注意力模块的输入。像素注意力模块挖掘像素之间的相似性从而得到改进的高级特征映射。

请参考图3，图3是本发明像素注意力模块示意图；

所述像素注意力模块，用于对提取到的高级特征映射f建立全局关系。首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K。利用Q和K进行矩阵运算得到注意力矩阵A。将f输入到新的卷积层中得到V。将V和注意力矩阵进行矩阵相乘得到残差模块。将残差模块加权到原始的高级特征映射上。

孪生网络结构在网络的训练过程中共享权值，提供等变约束。

等变约束的损失函数定义如下：

其中F(·)代表仿射变化，M^o代表原始图像的CAM，M^t代表仿射变化对应的CAM。

步骤S8-S9，生成伪标签和训练分割网络的具体过程为：

S4.1：使用生成的可靠标签作为生成的类激活映射的监督，训练得到伪标签。

S4.2：可靠区域损失函数定义如下：

其中M是得到的改进的高级特征映射。R是得到的可靠标签。

使用各网络、模块的损失函数作为网络的总损失，训练本申请的弱监督网络结构，生成伪标签；

使用伪标签训练Deeplab V1分割网络，利用Deeplab V1分割网络进行分割，得到最终的建筑物分割结果。需要说明的是，Deeplab V1分割网络是一个现有网络，这里本申请不再过多解释说明。

为了更好的解释，各个模块的详细工作过程如下：

将无人机建筑物图像和对应的分类标签输入到分类网络中进行训练，分类网络的主干网络是ResNet38。为了获得初始种子，本申请首先需要得到类激活映射图(CAM)。与目前主流弱监督方法计算CAM的方法不同，本申请提出在计算CAM的网络结构中使用全局最大池化(GMP)代替全局平均池化(GAP)。目前弱监督方法计算CAM的主要方式是根据Zhou提出，该网络框架一个典型的分类网络(如VGG、GoogleNet)，与典型的分类网络不同的是在网络最后几层将全连接层改成了池化层进行全局平均池化(GAP)操作。因为现有的弱监督方法普遍应用于多类别的自然场景(如PASCAL VOC)数据集，使用GAP能起到激励网络识别更多的显著区域。而本文主要针对的是建筑物足迹二元分类问题，因此使用全局最大池化(GMP)更符合需求。因为GMP鼓励网络识别最具辨别力的部分，因此在计算CAM时图像区域的低分数(噪声)不会被考虑。

可靠区域标签的获取：

通过分类网络计算得到的CAM图，CAM图是以像素概率表示的，因此可用P_i ^C表示像素i属于类别c的概率。由于以像素类概率表示的CAM不利于可靠区域的合成，本申请首先将概率转换为每个像素的特定类标签：

设置前景阈值θ_fg，给定一个滑动窗口W，确定某一像素i，若该像素以及在滑动窗口内的概率值均大于前景的阈值，则选定该像素点为可靠区域，其余均为不可靠区域(即背景)，定义如下：

其中DR表示可靠标签，W_i表示像素i滑动窗口内的像素点。

像素注意力模块：请参考图3，图3是本发明像素注意力模块示意图；所述像素注意力模块，用于对提取到的高级特征映射f建立全局关系。首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K。利用Q和K进行矩阵运算得到注意力矩阵A。将f输入到新的卷积层中得到V。将V和注意力矩阵进行矩阵相乘得到残差模块。将残差模块加权到原始的高级特征映射上。具体计算过程如下：

孪生网络结构：注意力模型PAM的等变约束是由一个具有等变正则化损失的孪生网络结构实现的。孪生网络以两个比较“相似”的样本作为输入到网络的两个分支，孪生网络的两个分支通过共享权重的方式，共享“相似”和消除“差异”信息。然后输入映射到新的空间，形成输入在新的空间的表示，通过损失函数比较两个样本在新空间的相似程度。

本申请网络结构的总损失函数：

分类损失函数：图像级分类标签是唯一可以使用的人工标注标签。本申请在网络的末端使用全局最大池化来得到图像分类的预测概率向量。训练分类网络，本申请使用二元交叉熵损失函数：

其中y_i表示样本i的标签，前景为1，背景为0，N代表训练样本的个数，p代表预测概率向量。

由于本申请的网络结构使用了孪生网络，因此输出得到两个预测概率向量p^o,p^t。p^o表示原始图像的预测概率向量，p^t表示图像经过仿射变化后输出的预测向量。因此需要计算两个分支的分类损失函数：

等变损失函数：在全监督语义分割的数据增强阶段，像素级标签隐式的与输入图像存在相同的仿射变换。然而，在弱监督语义分割中只考虑了图像级分类标签，缺乏隐式约束。为了保持输出的一致性，需要等变正则化损失函数。

可靠区域损失函数：

其中M是步骤S3.1得到的改进的类激活映射图。R是步骤2.2得到的可靠标签。考虑孪生网络的二分支结构，可得：

l_r1＝||M^o-R||₂

l_r2＝||M^t-F(R)||₂

网络的总损失函数如下：

利用总损失训练网络计算得到的CAM生成伪像素标签，训练语义分割网络。

为了更好的对本发明所提出的内容进行解释说明，下面提供1个采用本发明的具体实施案例。以下案例所使用的数据集为自制的无人机建筑物数据集。本文提出的网络结构在pytorch网络框架下实现，并在RTX 3090GPU上运行。

本案例所采用的数据集，包含2031张图像作为训练集，704张图像作为测试集。

本申请将从将得到的结果从定性和定量两个角度对本申请的方法和其他方法进行比较，来验证本申请的方法优越性。

请参考图4，图4中各部分表示含义如下：

(a)原图.(b)真实标签.(c)PSA.(d)IRN.(e)SEAM.(f)BES.(g)Ours.其中第一行和第二行是训练集的结果。第三行和第四行是测试集的结果。

图4可以看出不论是在训练集还是测试集，本申请的方法生成的伪标签分割的效果更好，与其他四个对比算法普遍存在背景被误识别成房屋的缺点，从图4(g)可以看出，本申请的方法在分割的结果上显得更精细和准确。另外本申请选取了定量指标交并比IoU(Intersection over Union)，像素精度PA(Pixel Accuracy)，MPA(平均像素精度)，定量实验结果如表所示，表1、表2分别为训练集和测试集的定量结果。

本申请在表1和表2分别给出了基于ResNet主干网络训练集和测试集的结果。可以看出本申请的方法在与其他方法的对比下取得了更好的结果，在测试集的上Iou到达88.8％。本申请方法的提升主要来源于本申请对显著性区域的充分挖掘，避免了噪声的干扰。

表1.不同弱监督方法分割产生的定量指标(训练集)

表2.不同弱监督方法分割产生的定量指标(验证集)

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本发明的有益效果是：

(1)本申请设计了像素注意力模块，挖掘像素之间的相似性，从而可以得到更多的显著性区域。

(2)本申请设计了可靠区域标签合成模块，通过该模块本申请挖掘图像中最具显著性的部分。

(3)设计损失函数将可靠区域标签作为类激活映射的监督，使得能够生成更好的伪标签。

(4)本发明通过分类标签实现了建筑物的像素级分割，极大的降低了像素标注的时间成本和人力成本。

Claims

1.一种可靠区域作为注意力机制监督的弱监督建筑物分割方法，其特征在于：包括以下步骤：

步骤S2-S3具体如下：

S2.1：所述第一分类网络的损失函数定义如下：

其中DR表示可靠标签，W_i表示像素i滑动窗口内的像素点；表示像素i属于类别c的概率；

所述像素注意力模块，用于对提取到的高级特征映射f建立全局关系；首先将f分别输入到两个卷积核为1的卷积层中得到新的特征映射Q和K；利用Q和K进行矩阵运算得到注意力矩阵A；将f输入到新的卷积层中得到V；将V和注意力矩阵进行矩阵相乘得到残差模块；将残差模块加权到原始的高级特征映射；

S7、孪生网络结构在弱监督语义分割网络的训练过程中共享权值，并利用等变约束损失函数提供等变约束；

2.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法，其特征在于，步骤S7中，所述等变约束的损失函数定义如下：

3.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法，其特征在于，步骤S8中，可靠区域损失函数定义如下：

4.如权利要求1所述的一种可靠区域作为注意力机制监督的弱监督建筑物分割方法，其特征在于，步骤S9中，损失函数设计模块的总损失函数为步骤S4的第二分类损失函数、步骤S7等变损失函数和步骤S8可靠损失函数之和。