CN111968088B

CN111968088B - 一种基于像素和区域分割决策融合的建筑物检测方法

Info

Publication number: CN111968088B
Application number: CN202010820826.8A
Authority: CN
Inventors: 王爽; 曹思宇; 何佩; 梁师; 张驰; 王尧; 臧琪; 赵栋
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2023-09-15
Anticipated expiration: 2040-08-14
Also published as: CN111968088A

Abstract

本发明公开了一种基于像素和区域分割决策融合的建筑物检测方法，分别构建引入残差结构的基于像素分割模型和引入特征金字塔网络的基于区域双分割模型；从光学遥感数据集中生成训练样本集和测试样本集；对训练集样本中的图像进行预处理；用加入Dice loss和交叉熵损失的混合监督损失训练像素分割模型；将测试样本集输入到训练结束的双分割网络中，分别输出测试样本集的预测结果；根据决策方案融合双分割网络的预测结果，输出测试样本集的最终检测结果，完成检测。本发明关注大型建筑的空间一致性的同时，保留了小型建筑的多尺度特征，保证了建筑物特征的丰富性，提高了建筑物检测准确率。

Description

一种基于像素和区域分割决策融合的建筑物检测方法

技术领域

本发明属于遥感图像处理技术领域，具体涉及一种基于像素和区域分割决策融合的建筑物检测方法，可应用于光学遥感图像中的建筑物检测与识别。

背景技术

目前世界各国发射了多种功能的遥感卫星。遥感图像的空间分辨率已经有了亚米级别的突破，如美国的GeoEye系列卫星、法国的SPOT-6/7系列卫星和中国的高分系列卫星所拍摄的图像包含了丰富的地物特征，可以精细的描述地表情况。巨大的遥感数据储备量保障和满足了地理测绘、海洋和气候气象和城市交通管理等领域的要求。建筑物作为城市中相当重要的人工目标之一，在城市规划、军事侦察、地图绘制等方面占据着重要的地位。建筑物检测问题中，可用人工设计特征和深度学习的方式提取建筑物特征。

目前国内外学者针对人工设计特征问题已经提出了许多较为成熟的描述特征和方案，如SIFT特征、HoG特征等。但现有的特征提取方案大多只涉及到建筑物的颜色和纹理等底层信息，这种分类方法只能识别特征明显的区域。

基于深度学习提取特征的方法，包含如Fast R-CNN等基于候选区域的算法和如FCN等端到端模型。其中Fast R-CNN先对检测目标提取候选框再进行分类，因此存在忽略图像空间一致性和全局特征的问题。FCN等端到端模型一般为编码-解码结构，使用编码器提取特征，解码器利用提取到的特征进行预测。但这些端到端方法侧重于图像空间的全局特征，存在忽视较小建筑物特征的问题。

现有一种对建筑物区域分类后再检测的方法，首先融合机载雷达激光的DSM图数据和可见光图数据，获得融合图像的建筑物区域；对建筑物区域按面积进行区分，对大区域利用面积、颜色、混乱度和密集度等四个组合特征进行分类；对小区域建筑物，按各特征分类计算出熵最小的分支以及各特征的权重，来进行建筑物分类。该方法重点关注了建筑物形状和大小尺寸差异大的问题，运用建筑物分类方法检测建筑物。但是，该方法仍然存在的不足之处是该方法只利用了人工设计的建筑物特征检测建筑物，当光照背景纹理等信息复杂时，其检测准确率偏低。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于像素和区域分割决策融合的建筑物检测方法，利用基于像素和区域的双分割模型的互补性，检测尺度变化范围大的建筑物区域。解决了单一的基于区域分割模型偏重于小建筑物和基于像素分割模型偏重于大建筑物的不足，更适用于背景纹理信息复杂且建筑物尺度差异较大的建筑物检测场景。

本发明采用以下技术方案：

一种基于像素和区域分割决策融合的建筑物检测方法，包括以下步骤：

S1、分别构建引入残差结构的基于像素分割模型和引入特征金字塔网络的基于区域双分割模型；

S2、从光学遥感数据集中选取训练集和测试集，生成训练样本集和测试样本集；

S3、对训练集样本中的图像进行预处理，包括对原图像进行随机旋转、上下翻转和水平翻转以得到新的图像，增加训练用样本数量；

S4、用加入Dice loss和交叉熵损失的混合监督损失训练像素分割模型，调整基于区域分割模型的roi大小比例设置并训练基于区域的双分割模型；

S5、将测试样本集输入到训练结束的双分割网络中，分别输出测试样本集的预测结果；

S6、根据决策方案融合双分割网络的预测结果，输出测试样本集的最终检测结果，完成检测。

具体的，步骤S1中，构建引入残差结构的基于像素分割模型具体为：

构建采用Encode编码和Decode解码结构的U-Net和使用跳跃连接Resnet残差网络结合的像素分割模型，模型对遥感图像通过进行多次卷积、归一化、Relu和引入Resnet结构下采样，再进行Up sample上采样，与上采样后的Feature Map进行融合，重复上采样、融合过程直到得到与输入图像尺寸相同的分割图。

具体的，步骤S1中，构建引入特征金字塔网络的基于区域分割模型具体为：

构建对遥感图像进行分割的FPN结构，得到图像的不同尺寸的特征图集合；将特征图集合输入到区域生成网络中得到候选框，将候选框特征传入预测器，得到每个候选框的类别、位置和掩码的预测值。

具体的，步骤S2中，从光学遥感数据集中选取75％的图片组成训练集，剩余25％的图片组成测试集，将训练集中的每张光学遥感图片随机切割成大小为320×320×3的训练样本组成训练样本集；将测试集中的每张光学遥感图片切割成大小为320×320×3的测试样本组成测试样本集。

进一步的，光学遥感数据集的大小为49154×38783×3。

具体的，步骤S4中，用加入Dice loss和交叉熵损失的混合监督损失训练像素分割模型具体为：

训练epoch小于设定的阈值时，对像素分割模型输出的预测图和真值图计算交叉熵损失；计算交叉熵损失对卷积网络中每个需要优化的参数的偏导数，将需要更新优化的参数和其偏导数相加，得到更新参数后的卷积网络；训练epoch大于等于设定的阈值时，将CE loss和Dice loss加权相加，得到混合监督损失；计算混合监督损失对卷积网络中每个需要优化的参数的偏导数，将需要更新优化的参数和其偏导数相加，得到更新参数后的卷积网络。

进一步的，混合监督损失过程计算如下：

L＝L_ce+L_dice

其中，L_ce为交叉熵损失，L_dice为Dice loss。

更进一步的，Dice loss计算如下：

其中，X为基于像素分割模型预测结果图，Y为真值图。

具体的，步骤S4中，调整基于区域分割模型的roi大小比例设置并训练模型具体为：

设定roi大小比例为[4,8,16,32]；训练epoch小于设定的阈值时，进行初始学习速率为0.00125的热身训练；训练epoch大于等于设定的阈值时；对其余epoch进行学习速率为0.001的训练。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于像素和区域分割决策融合的建筑物检测方法，将残差结构引入基于像素分割模型。首先，基于U-Net的像素分割模型具有较大的感受野，可提取丰富的上下文信息。其次，将Resnet块添加到U-Net网络中，增加了大量的连续密集短连接，网络中信息的流动性增大，可较好地解决网络训练过程中出现梯度消失等问题，使学习更容易；使用了Dice loss与CE loss混合监督损失训练基于像素分割模型；建筑物检测中常用的损失是CEloss，但是CE loss忽略了建筑的空间一致性。引入测量两个样本的相似性的Dice loss可改善建筑物的空间连续性。混合损失在保证阳性样本数量的同时，避免了梯度的剧烈变化，消除了单一使用Dice loss带来的训练困难的问题；调整了基于区域分割模型(Mask R-CNN)的候选框(roi)大小比例，并引入了FPN，使模型更侧重于小建筑，可更好地检测小建筑。FPN是一种自上而下的具有横向连接的结构，可将低分辨率、具有强语义信息的特征与高分辨率、具有弱语义信息的特征结合起来，使得具有丰富语义的高分辨率映射可以更好地检测小目标。此外，预测FPN每一层的输出，检测小物体效果更好；使用双分割模型决策融合策略，寻找最佳融合区间。在排除建筑边缘的假阳性的条件下，充分利用了全局空间一致性，能够准确提取背景纹理复杂且建筑物尺度相差较大的遥感影像中的建筑物，具有普适性和较好的鲁棒性。

进一步的，引入残差结构后，该模型有着更低的收敛损失，同时也没有产生过高的过拟合，杜绝了梯度消失的问题。

进一步的，特征金字塔网络(FPN)，是一种自上而下的具有横向连接的建筑，将低分辨率、语义上强的特征与语义上高分辨率、语义上弱的特征结合起来。因此，引入特征金字塔网络可以更好地检测小型建筑物。

进一步的，手动划分训练集和测试集的区域和比例，尽量保留有价值的建筑物背景信息的同时，保证了数据分布的一致性。

进一步的，交叉熵损失训练较为稳定，但对于小型建筑物分割效果不佳。Diceloss使用的相似性度量方式对于前景占比较少的情况表现较佳，但是难以训练，混合监督损失在保证样本数量的同时，消除了单一使用Dice loss带来的训练困难的问题。

进一步的，Dice loss梯度变化剧烈，会对反向传播产生不利影响，使训练困难。交叉熵损失的梯度比Dice loss损失更平滑。因此，加入混合监督损失，训练过程更加稳定。

进一步的，与以往的网络尽量覆盖所有尺度的样本不同，本发明调整了第一阶段的区域大小，可使网络更侧重于小建筑。

综上所述，本发明关注大型建筑的空间一致性的同时，保留了小型建筑的多尺度特征，保证了建筑物特征的丰富性，提高了建筑物检测准确率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的总流程图；

图2为本发明中提出的基于像素分割模型图；

图3为本发明中提出的基于区域分割模型图；

图4为本发明获得的北京市海淀区高分二号光学遥感数据集检测结果图，其中，(a)是尺度较大的建筑物区域遥感图像；(b)表示该建筑物区域U-Net模型的检测结果图；(c)表示该建筑物区域基于像素分割模型的检测结果图；(d)是尺度较小的建筑物区域遥感图像；(e)表示该建筑物区域基于像素分割模型的检测结果图；(f)表示该建筑物区域双分割决策融合模型的检测结果图。

具体实施方式

本发明提供了一种基于像素和区域分割决策融合的建筑物检测方法，构建引入残差结构的基于像素分割模型，和引入特征金字塔的基于区域分割模型，生成训练样本集和测试样本集，扩充训练样本集的图像，加入Dice loss的混合监督损失训练像素预测模型，之后调整基于区域分割模型的候选框(roi)大小比例并训练模型，最后将测试样本送入训练好的模型，融合两次预测决策结果得到最终检测结果；本发明通过构建基于像素和区域分割决策融合模型，利用基于像素分割模型更关注大型建筑的空间一致性和基于区域分割模型更关注小型建筑的多尺度特征，在遥感影像中建筑物尺度差异较大的情况下，保证建筑物特征丰富性的同时，提高了建筑物检测准确率。

请参阅图1，本发明一种基于像素和区域分割决策融合的建筑物检测方法，包括以下步骤：

S1、构建基于像素和基于区域的双分割模型；

S101、构建引入残差结构的基于像素分割模型：

构建采用编码(Encode)和解码(Decode)的结构的U-Net和使用跳跃连接的Resnet残差网络结合的像素分割模型；

模型对遥感图像通过进行多次卷积、归一化、Relu和引入Resnet结构下采样，再进行Up sample上采样，与上采样后的Feature Map进行融合，重复上采样、融合过程直到得到与输入图像尺寸相同的分割图；

S102、构建引入特征金字塔网络(Feature Pyramid Network,FPN)的基于区域分割模型：

构建对遥感图像进行分割的FPN结构，可得到图像的不同尺寸的特征图集合；将特征图集合输入到区域生成网络(Region Proposal Network，RPN)中，得到候选框，将候选框特征传入预测器，得到每个候选框的类别、位置和掩码的预测值；

S2、生成训练样本集和测试样本集：

从大小为49154×38783×3的光学遥感数据集中选取其中75％的图片组成训练集，其余25％的图片组成测试集；

将训练集中的每张光学遥感图片随机切割成大小为320×320×3的训练样本组成训练样本集；将测试集中的每张光学遥感图片切割成大小为320×320×3的测试样本组成测试样本集；

S3、对训练集样本中的图像进行预处理；

对训练集样本进行数据增广，包括对原图像进行随机旋转、上下翻转和水平翻转以得到新的图像，从而增加训练用的样本数量。

S4、训练基于像素和基于区域的双分割模型；

S401、用加入Dice loss和交叉熵损失的混合监督损失训练像素分割模型：

第一步，训练epoch小于设定的阈值时，对像素分割模型输出的预测图和真值图计算交叉熵损失(CE loss)；计算交叉熵损失对卷积网络中每个需要优化的参数的偏导数，将需要更新优化的参数和其偏导数相加，得到更新参数后的卷积网络；

第二步，训练epoch大于等于设定的阈值时，将CE loss和Dice loss相加，得到混合监督损失；计算Dice loss过程为：

其中，X为基于像素分割模型预测结果图，Y为真值图。

计算混合监督损失对卷积网络中每个需要优化的参数的偏导数，将需要更新优化的参数和其偏导数相加，得到更新参数后的卷积网络，计算混合监督损失过程为：

L＝L_ce+L_dice

其中，L_ce为交叉熵损失，L_dice为Dice loss。

真值图是对每个训练样本中的每个区域进行标注，将含有建筑物的区域标注为1，未含有建筑物的区域标注为0，将每个标注后的训练样本中所有标注的区域组成一张真值图。

S402、调整基于区域分割模型的roi大小比例设置并训练模型；

第一步，设定roi大小比例为[4,8,16,32]：

第二步，训练epoch小于设定的阈值时，进行初始学习速率为0.00125的热身训练；训练epoch大于等于设定的阈值时；对其余epoch进行学习速率为0.001的训练；

S5、检测建筑物：

将测试样本集输入到训练结束的双分割网络中，分别输出测试样本集的预测结果；

S6、融合两次预测决策结果得到最终检测结果。

根据决策方案融合双分割网络的预测结果，输出测试样本集的最终检测结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1.仿真实验条件

本发明仿真实验的硬件平台是：戴尔计算机，CPU型号为Intel(R)E5-2620，主频2.10GHz，GPU型号为NVIDIA RTX 2080ti，显存10G。

本发明的仿真实验的软件平台为：ubuntu 18.04系统，Python3.7，pytorch-gpu1.3.1

2.仿真内容极其结果分析：

本发明仿真实验是采用本发明和多个现有技术(Mask R-CNN检测方法、U-Net检测方法、Dice loss函数等)分别对北京市海淀区高分二号光学遥感数据集进行建筑物检测，获得实验结果。

在仿真实验中，采用的多个现有技术是指：

现有技术Mask R-CNN检测方法是指He Kaiming等人在“Mask R-CNN[C],2017IEEEInternational Conference on Computer Vision(ICCV).IEEE,2017”中提出的建筑物检测方法，简称Mask R-CNN检测方法。

现有技术U-Net检测方法是指Olaf Ronneberger等人在“U-Net:ConvolutionalNetworks for Biomedical Image Segmentation[C],International Conference onMedical Image Computing and Computer-Assisted Intervention.SpringerInternational Publishing,2015.”中提出的建筑物检测方法，简称U-Net检测方法。

本发明仿真实验所使用的输入图像为北京市海淀区高分二号光学遥感数据集中的所有图像，该数据集由北京航天宏图信息技术股份有限公司采集得到，共有一张49154×38783×3的遥感图像，本发明仿真实验选取其中75％的图片组成训练集，其余25％的图片组成测试集

仿真实验2是采用现有技术中的Mask R-CNN方法在上述仿真条件下进行实验，获得检测结果。

仿真实验1是采用现有技术中的U-Net方法在上述仿真条件下进行实验，获得检测结果。

仿真实验3是选用现有技术中的U-Net模型作为基本模型，并在这个模型的基础上使用了本发明提出的混合损失方法，在上述仿真条件下进行实验，获得检测结果。

仿真实验4是选用基于像素和区域的双分割模型，在上述仿真条件下进行实验，获得检测结果。

仿真实验5是选用基于像素和区域的决策融合模型，在上述仿真条件下进行实验，获得检测结果。

为了验证本发明建筑物检测效果，使用的评价标准是针对图像分割算法公认的评价指标(召回率、F1分数)分别对五种检测结果进行评价。召回率、F1分数越高表明建筑物检测结果越准确。测试样本集像素预测图和真值图对比，利用下式，分别计算召回率、F1分数，取测试样本集图片的召回率、F1分数，将计算结果绘制成表1：

表1.本发明仿真实验的结果对比表

召回率Recall公式：

F1分数F₁公式：

其中，TP表示预测结果为建筑物区域真值图也为建筑物的区域的像素总数；FP表示预测结果为非建筑物区域真值图为建筑物的区域的像素总数，FN表示预测结果为非建筑物区域真值图为建筑物的区域的像素总数。

结合表1可得出，与现有的Mask R-CNN和U-Net方法相比，本发明的召回率为83.76，F1分数为82.11，两个指标均高于两种现有技术方法，证明本发明可以得到更高的建筑物检测准确率。

请参阅图4，为本发明在上述实验条件下获得的北京市海淀区高分二号光学遥感数据集检测结果图。由于测试集图片过大，截取部分效果显著的建筑物用以说明本发明有效。图4(a)是尺度较大的建筑物区域遥感图像；图4(b)表示该建筑物区域U-Net模型的检测结果图；图4(c)表示该建筑物区域基于像素分割模型的检测结果图；图4(d)是尺度较小的建筑物区域遥感图像；图4(e)表示该建筑物区域基于像素分割模型的检测结果图；图4(f)表示该建筑物区域双分割决策融合模型的检测结果图；其中浅灰色、深灰色和白色分别代表FN、FP、TP的像素。

从图4中检测结果图可以看出，双分割决策融合模型结果图中的建筑物区域和真实的建筑物区域结果较接近。

综上所述，本发明一种基于像素和区域分割决策融合的建筑物检测方法，通过构建基于像素和区域分割决策融合模型，利用基于像素分割模型更关注大型建筑的空间一致性和基于区域分割模型更关注小型建筑的多尺度特征，在遥感影像中建筑物尺度差异较大的情况下，保证建筑物特征丰富性的同时，提高了建筑物检测准确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于像素和区域分割决策融合的建筑物检测方法，其特征在于，包括以下步骤：

S1、分别构建引入残差结构的基于像素分割模型和引入特征金字塔网络的基于区域双分割模型，构建引入残差结构的基于像素分割模型具体为：

构建采用Encode编码和Decode解码结构的U-Net和使用跳跃连接Resnet残差网络结合的像素分割模型，模型对遥感图像通过进行多次卷积、归一化、Relu和引入Resnet结构下采样，再进行Up sample上采样，与上采样后的Feature Map进行融合，重复上采样、融合过程直到得到与输入图像尺寸相同的分割图；

构建引入特征金字塔网络的基于区域分割模型具体为：

构建对遥感图像进行分割的FPN结构，得到图像的不同尺寸的特征图集合；将特征图集合输入到区域生成网络中得到候选框，将候选框特征传入预测器，得到每个候选框的类别、位置和掩码的预测值；

2.根据权利要求1所述的基于像素和区域分割决策融合的建筑物检测方法，其特征在于，步骤S2中，从光学遥感数据集中选取75％的图片组成训练集，剩余25％的图片组成测试集，将训练集中的每张光学遥感图片随机切割成大小为320×320×3的训练样本组成训练样本集；将测试集中的每张光学遥感图片切割成大小为320×320×3的测试样本组成测试样本集。

3.根据权利要求2所述的基于像素和区域分割决策融合的建筑物检测方法，其特征在于，光学遥感数据集的大小为49154×38783×3。

4.根据权利要求1所述的基于像素和区域分割决策融合的建筑物检测方法，其特征在于，步骤S4中，用加入Dice loss和交叉熵损失的混合监督损失训练像素分割模型具体为：

训练epoch小于设定的阈值时，对像素分割模型输出的预测图和真值图计算交叉熵损失；计算交叉熵损失对卷积网络中每个需要优化的参数的偏导数，将需要更新优化的参数和其偏导数相加，得到更新参数后的卷积网络；训练epoch大于等于设定的阈值时，将CEloss和Dice loss加权相加，得到混合监督损失；计算混合监督损失对卷积网络中每个需要优化的参数的偏导数，将需要更新优化的参数和其偏导数相加，得到更新参数后的卷积网络。

5.根据权利要求4所述的基于像素和区域分割决策融合的建筑物检测方法，其特征在于，混合监督损失过程计算如下：

L＝L_ce+L_dice

其中，L_ce为交叉熵损失，L_dice为Dice loss。

6.根据权利要求5所述的基于像素和区域分割决策融合的建筑物检测方法，其特征在于，Dice loss计算如下：

其中，X为基于像素分割模型预测结果图，Y为真值图。

7.根据权利要求1所述的基于像素和区域分割决策融合的建筑物检测方法，其特征在于，步骤S4中，调整基于区域分割模型的roi大小比例设置并训练模型具体为：