CN116503750A

CN116503750A - 融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统

Info

Publication number: CN116503750A
Application number: CN202310387775.8A
Authority: CN
Inventors: 芮杰; 李美霖; 刘智; 杨松坤; 金飞; 王淑香; 林雨准; 左溪冰; 霍爱梅
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-28

Abstract

本发明属于居民地提取技术领域，公开一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统，该方法包括：通过YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框；使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地。本发明通过目标检测技术的候选机制和视觉注意机制方法相结合，粗略的剔除植被及地形有利于对农村居民地及其建筑物的快速自动提取，提升检索效率。获得候选框后，利用PgNet高效提取机制，从而实现在不同尺寸遥感影像中快速自动提取农村街区式居民地。

Description

融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统

技术领域

本发明涉及居民地提取技术领域，尤其涉及一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统。

背景技术

农村街区式居民地是农村地区最重要的人工地物目标之一，街区式居民地是农村居民地一个重要的组成部分。快速准确地提取和测绘农村居民地，对农村发展和规划、农村土地管理与监测，农村人口估计和农村现代化进程等各个领域都具有重要意义。遥感影像上的农村居民地多为房子、植被、道路以及土质空地等地物类型交互错杂而构成的混合聚落，由于地物的材质构造形式等方面的差异性，导致农村居民地的建筑物在遥感影像上产生不同的差异性。且不同尺寸、不同分辨率影像中居民地的细节特征存在差异，地物分布情况复杂时，大量干扰信息混淆到检测网络中，提取效果较差。传统的居民地提取方法如人工目视解译既费时又费力，耗费的人力物力较多。

人类的视觉系统具有从复杂场景中快速、准确地定位感兴趣物体或区域的能力，称为视觉注意力机制。显著物体检测(Salient Object Detection,SOD)是对该机制的一种模拟，旨在分割给定图像中最具视觉吸引力的物体或区域，近年来，基于视觉注意力机制的方法被应用于遥感影像居民地检测(以下举好多个例子)。相关研究综述了显著性检测方法在路网提取、房屋检测及作物分类等方面的强大提取能力。PicaNet网络通过识别相关的上下文区域并为每个像素构建信息性上下文特征，在像素级别上实现了更好的提取效果。BasNet网络提出边缘损失注意力模块，提升了对建筑边缘的感知能力。CtdNet设计了互补的三边解码网络以提升特征挖掘能力，促进结构性特征信息的强化。F3Net网络提出交叉特征模块(CFM)和通过最小化新的像素位置感知损失，从而能够实现区域分割和提取精确的局部细节。ScfNet提出空间上下文特征(SCF)模块重点解决大规模点云中自适应特征学习的问题。PgNet提出错层嫁接结构，使用Transformer和CNN骨干网络从不同分辨率图像中独立地提取特征，从而解决网络的采样深度和感受野范围之间的矛盾。

现有研究表明，广泛应用的深度学习技术为遥感影像居民地提取提供了新的方向与可能，但仍存在一些问题。一是对居民地提取的研究主要集中在城市地区，对农村地区的研究相对较少，与城市街区不同，农村街区式居民地相对来说，面积较小，且为分散聚落，与植被和农田交错分布，因此直接使用城市建筑区的提取方法，应用于农村居民地的特征提取针对性不强，适用性较弱，其效果仍有待提升。二是基于视觉注意机制的居民地提取方法在小尺度图像上获得了较好的效果，但在大尺度图像上，干扰因素过多，其结果不甚理想。因此仍需进一步探究适用于农村街区式居民地的高效提取方法。三是基于深度学习的居民地识别算法在进行小范围影像上的居民地提取时检测效果和算法性能都相对不错，但也引入了复杂的模型结构和庞大的参数数量，在大尺度影像上对街区进行检测时，尤其是在大范围遥感影像上进行街区提取时，在检测速度和单一街区的精确提取效果上都有待提升，算法的处理效率和便捷部署能力仍有待进一步优化。

发明内容

针对多尺度遥感影像农村街区提取适应性差、精度效果不佳的问题，本发明提出了一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统。该方法采取两步走策略粗略定位和精细提取。首先通过深度学习方法中的YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框，之后使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地。通过目标检测技术的候选机制和视觉注意机制方法相结合，粗略的剔除植被及地形有利于对农村居民地及其建筑物的快速自动提取，提升检索效率。获得候选框后，利用PgNet高效提取机制，从而实现在不同尺寸遥感影像中快速自动提取农村街区式居民地。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法，包括：

通过YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框；

使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地。

进一步地，所述通过YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框包括：

使用开源数据集CBDV1.0预训练YOLOv7模型参数权重；

使用预训练后的YOLOv7模型对测试区域进行检测，从而获得大范围遥感影像上候选居民地边界框的粗略定位，同时记录其为街区的可能性，影像中除街区外的其他部分为非街区背景；

通过粗略定位，切片候选框区域，剔除植被及非居民地信息。

进一步地，所述使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地包括：

采用PgNet对生成候选检测区域进行检测；

经PgNet检测后生成结果为显著图，通过最佳阈值分割显著图得到其对应的二值图；

结合原始输入图像，基于上述的二值图进行二值掩膜处理，得到最终的农村街区居民地区域。

本发明另一方面提出一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取系统，包括：

粗提取单元，用于通过YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框；

精提取单元，用于使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地。

进一步地，所述粗提取单元具体用于：

使用开源数据集CBDV1.0预训练YOLOv7模型参数权重；

进一步地，所述精提取单元具体用于：

采用PgNet对生成候选检测区域进行检测；

与现有技术相比，本发明具有的有益效果：

本发明将视觉注意机制算法PgNet与目标检测算法YOLOv7相结合，提出了一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统。使用YOLOv7作为农村街区粗略定位的检测器，通过预检索机制解决了居民地定位的痛点；使用PgNet显著性检测算法对候选区域进行精确提取，进一步解决尺度变化造成的精度损失的问题。在CBDV1.0群体建筑数据集和自建数据集上进行实验，验证了本发明方法的可行性和有效性。实验结果表明，本发明方法可以实现多尺度遥感影像街区居民地提取，为大范围遥感影像街区居民地测绘提供支撑。

附图说明

图1为本发明实施例一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法的流程示意图；

图2为YOLOv7结构示意图；

图3为本发明实施例粗略定位流程图；

图4为PgNet网络结构示意图；

图5为本发明实施例精确提取流程图；

图6为CBDV1.0数据集示例图；

图7为自建数据集示例图；

图8为不同算法实验预测结果示例图；

图9为粗略定位中YOLOv7算法Precision、F1、Recall变化曲线；

图10为自建数据集分割效果图；

图11为CBDV1.0街区居民地提取效果对比；

图12为本发明实施例一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取系统的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法，该方法将显著性检测与目标检测结合中来进行大范围遥感影像上的居民地的提取，包括：

首先通过深度学习方法中的YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框，之后使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地。

具体地，使用将PgNet嵌入YOLOv7模型中的方法。研究区主要集中在农村，研究方法计划分为两个部分，粗略定位和精细提取。首先通过目标检测技术快速获得大范围遥感影像上街区建筑群边界框的粗略定位，同时记录其为街区建筑群的可能性，将候选区域检测框用作后续进行街区精确提取的预设样片。之后使用显著性检测的方法对基于候选检测框作为边界生成的样片进行检测，从而获取每个街区式建筑群的精确边界。通过粗略定位，剔除植被及大部分非居民地信息有利于街区快速自动提取，提升检测的处理效率。通过精细提取进一步解决尺度变化造成的精度损失的问题，保持对街区式建筑群的较强的边缘感知能力，获取清晰的街区建筑群轮廓边界，解决居民地边界定位粗糙的痛点。技术路线见图1。

1粗提取

1.1YOLOv7算法概述

YOLOv7是2022年7月由Alexey Bochkovskiy提出的新型单阶段目标检测网络，YOLO算法作为one-stage目标检测算法最典型的代表，其基于深度神经网络进行对象的识别和定位，具有更高的运行效率和更高的检测精度。

YOLOv7网络(图2)的主要特点如下：

①模型重参数化：保证了在参数融合后网络中的参数量大大减少。

②自适应多正样本匹配标签分配策略simOTA：加快模型的训练效率，增加了正样本的数量，有利于增强街区式特征表达，抑制负面信息。

③ELAN高效网络架构：多输入堆叠结构进行特征提取，使网络在检测中能够学习到更多的特征，并且具有更强的鲁棒性和稳定性

④使用辅助分支辅助收敛：在增加训练成本、提升精度的同时不影响推理的时间，在提升训练效率的同时不增加时间成本。

YOLOV7是目前YOLO系列最先进的算法，在准确率和速度上超越了以往的YOLO系列，选择在其基础上进行大范围遥感影像上农村街区居民地的概略定位。

1.2粗略定位原理

考虑算法设计上需兼顾效率提升和精度损失的平衡，算法设计的第一步是实现对街区候选区域的快速搜索，拟采用轻量快速且精度较高的YOLOv7检测算法作为候选区域检测器。流程如图3。

①使用开源数据集CBDV1.0预训练模型参数权重。

②使用YOLOv7对测试区域进行检测，从而获得大范围遥感影像上候选居民地边界框的粗略定位，同时记录其为街区的可能性，影像中除街区外的其他部分为非街区背景。

③通过粗略定位，切片候选框区域，剔除植被及大部分非居民地信息有利于街区快速自动提取，提升检测的处理效率。

2精提取

2.1PgNet概述

PgNet(如图4所示)是2022年由北京航空航天大学和鹏城实验室联合推出的单阶段框架，称为金字塔嫁接网络(PgNet)，具有以下特点：

①设计跨模型嫁接模块，使用双支编码器交错连接来捕获连续语义和丰富的细节，解决多尺度变化的精度损失问题。

②提出注意力引导损失监督CMGM生成的注意力矩阵，进一步促进特征嫁接。

2.1.1跨模型嫁接模块

跨模型嫁接模块用于对不同骨干网络提取到的特征进行融合。使用Resnet和Transformer作为双支编码器，使用交错连接来捕获连续语义和丰富的细节，全面继承全局信息，实现两者破碎信息互补，平衡不同分辨率影像特征矛盾。具体而言，跨模型嫁接模块将ResNet提取到的特征展平为f′_R∈v^1×C×HW对于Swin Transformer提取到的特征/>同样。之后将层归一化和线性映射得到新的三个特征/>通过矩阵乘法得到Z。如下公式所示：

然后将Z进行线性映射并重新恢复成v^H×W×C后再通过卷积层。

2.1.2注意力引导损失

在同一影像中，街区式居民地信息特征具有内在稳定的语义相似性和相对统一的纹理细节特征，且在小范围影像中，街区居民地区域相较其他背景区域更为显著突出，即街区居民地信息在交叉注意力中有着更高的权重。具体原理为，对于一个尺寸为H×W的显著映射M，将其展平为尺寸为1×HW的M′,然后对其自身应用矩阵乘法得到对应的注意力矩阵M^a。这一过程可以记为：

M^a＝F(M)

其中表示M^a中坐标为(x,y)的值，/>表示M′的转置矩阵中坐标为(x,1)的值，M′_y表示M′中坐标为(1,y)的值。利用变换F(·)得到G^a,SP^a,RP^a其中为真值映射,SP,RP分别为特征S₂和R₅生成的显著预测中间结果。我们在加权二元交叉熵损失的基础上构建注意力引导损失来监督CMGM产生的CAM。因此L_AG可以写作

其中β为超参数来调整ω的权重。

2.2精提取原理

人类视觉注意机制能够从复杂场景中迅速、准确提取感兴趣区域，使其在小范围影像检测中具有良好的效率和鲁棒性。农村居民地在遥感影像中相对于大范围的植被等信息可以当作显著性目标，因此，在研究中对农村居民地提取可以适用显著性检测的方法。PgNet不考虑在影像上具有突出表现的物体本身的基本属性和局部特征，且通过错层嫁接的结构有效平衡不同分辨率影像输入之间的矛盾，在小范围居民地检测上具有较强的适用性。

①获得街区候选框之后，考虑街区检测的实质是区分街区信息和非街区信息，采用基于视觉注意机制的PgNet网络对生成候选检测区域进行检测，通过精细提取进一步解决尺度变化造成的精度损失的问题。

②经PgNet精确检测后生成结果为显著图，通过该最佳阈值分割显著图得到其对应的二值图，即背景用黑色背景表示，目标用白色区域表示。

③结合原始输入图像，基于上述的二值图进行二值掩膜处理得到最终的农村街区居民地区域。

PgNet精确提取网络结构流程如图5。

为验证本发明效果，进行如下实验：

3.实验

3.1实验数据集：

3.1.1CBDV1.0

本发明应用CBDV1.0群体建筑检测数据集(Clustered Building DetectionDataset,CBDV1.0)作为目标检测粗提取数据集，示例图如图6所示。该数据集包含手工标注的1564个样本，标注内容为农村街区式居民地，图像来自“高分二号”卫星的多光谱传感器，空间分辨率为4m。CBDV1.0单张样片尺寸为680×720，完全覆盖了506km2的地理区域。此外，这些图像采样于不少于60个中国城市，具有较高的多样性。

3.1.2自建数据集

本发明拟使用自建的街区数据集作为精确提取算法模型预训练数据集，再将训练好的预训练权重作为初始权重，对粗略框选后的农村街区居民地进行精确检测。作为精确提取所用的预训练数据集，对农村居民地训练所需要的数据集的数量规模和精确程度都提出了很高的要求。该数据集包含手工标注的1758个样本，数据来源为航摄像片，标注内容为街区、道路、水系、植被，作为一种可实施方式，本实施例中仅提取街区标签用做实验。单张样片尺寸为600*600，空间分辨率为3m，这些图像采样于河北、河南、山东、山西等10余个省份，示例图如图7所示。

3.2实验环境及参数设置

实验操作系统为Windows 11，搭载的CPU版本为12th Gen Intel(R)Core(TM)i9-12900H，GPU为NVIDIA GeForceRTX3080TI，深度学习框架为torch1.11.0+cu115。实验采用迁移学习策略，使用在自建农村街区数据集的预训练权重进行训练，网络模型通过迁移学习，依靠其不饱和持续学习的能力从而提高检测结果的准确度。粗略定位训练过程分为冻结阶段和解冻阶段,粗略定位训练配置信息如表1所示。精确提取训练配置如表2所示。

表1：粗略定位训练配置

表2：精确提取训练配置

3.3实验

3.3.1粗略定位算法对比实验

为验证粗略定位所选算法的YOLOv7的实用性和有效性，选择了几种应用较广的深度学习目标检测算法如：YOLOv3、YOLOv4、YOLOv5、以及YOLOX与YOLOv7算法进行对比。

图8中展示了YOLOv3、YOLOv4、YOLOv5、原YOLOX算法以及YOLOv7算法实验预测结果，将原数据集标签信息在影像上可视化，对不同算法的性能进行评估：

(1)分类精度提升：从预测信息分析可得，针对街区居民地信息，本发明算法较其他几类算法判定概率提升，确保了目标检测准确性，模型网络的分类精度更高。

(2)网络更适用于二元信息分类检测：YOLOv7算法性能均衡，既能针对不同尺度居民地进行识别检测，又能准确分类回归，分类检测性能较其他几类算法更全面，适用性更强效果更好。

(3)检测性能更强：在原始数据集标定居民地的基础上，改进网络额外识别出了影像中零星的散落居民地，相较于其他几类算法，YOLOv7算法预测的标签数量明显增加，说明YOLOv7算法检测出的居民地规模更多，针对居民地和非居民地信息分类准确程度更高，分类检测出正样本的性能更强。

(4)复杂背景下的检测能力更强：当影像色调趋于一致，且植被种类混杂时，YOLOv7网络相较其他网络能在箭头指示出的复杂背景区域识别出更多零散居民地的信息，更能聚焦感兴趣截取信息，在背景信息复杂影像中效果更好。

对YOLOv7对遥感影像中农村居民地的筛选效果进行探究，在YOLOv7网络上对CBDV1.0数据集进行测试，使用F1分数、Precision精确值、Recall(召回率)进行评价，结果如表3，图9所示；F1分数综合考虑精度和召回率的影响；精确值是指模型能够正确预测街区与真实街区的目标数量百分比；召回率是指真实街区中被正确预测的百分比。实验结果证明，YOLOv7网络在粗略定位中具有较强的筛选能力，在与其他主流检测网络对比中，F1分数提升了3.53％-9.96％，Precision精确值提升了39.68％-84.81％，Recall(召回率)提升了8％-69％。通过数据测算验证，YOLOv7检测算法较其他主流检测算法更能在CBDV1.0数据集的街区定位中框选出最合适的预测区域，能实现大部分街区居民地目标的定位，为后续精确提取提供良好的候选框。

表3：不同算法实验精度对比(％)

3.3.2注意力引导损失效果探究

为加强居民地特征信息的表达，引导堆叠网络更好实现不同源特征信息的交互，使得居民地信息在交叉注意力中有着更高的权重，使用了注意力引导损失来辅助这一过程。在实验中通过mIoU(mean Intersection over Union)平均交并比、Accuracy(准确率)、F1分数、Precision精确值、Recall召回率几个评价指标对注意力损失机制的效果进行评估，其中mIoU指预测街区像素数量与真实街区像素的交集和并集的百分比平均值；Accuracy表示正确预测房屋的的像素占所有像素的的百分比；F1分数综合考虑精度和召回率的影响；精确值是指模型能够正确预测街区与真实街区的像素百分比；召回率是指真实街区中被正确预测的百分比。结果如表4所示。

表4：注意力引导损失实验精度对比

3.3.3精确提取算法对比实验

在街区语义分割数据集，基于高精度像素级标签进行分析，在影像上准确表示出房屋的范围、分布及其几何轮廓。本发明实验中，将原数据集标签信息在影像上可视化，与实验结果进行比对。为了验证本改进算法的有效性，选择了几种经典的主流的视觉注意机制算法如：BasNet、F3Net、PicaNet、CtdNet、ScfNet与本发明算法进行对比，对比结果如下：

表5：不同算法实验对比(％)

在自建数据集上的分割效果如图10所示，从图10中可知，本发明方法相较其他视觉注意机制算法具备更强的特征挖掘能力，正确分类识别的概率较高，街区居民地语义信息筛选效率提升，进一步强化了街区居民地完整性。

在CBDV1.0大范围遥感影像数据集上的街区居民地精确提取效果如图11所示：从第一行可以看出本发明方法实现街区部分和非街区信息的精细分割；从第二行可以看出，本发明算法在街区提取应用中信息检出率增多；从第三行、第四行可以看出，相较于其他网络对非街区信息的大范围获取，本发明算法有效抑制了负面信息的表达；从第五行可以看出，本发明算法不仅能实现大面积街区的检测，还具备对街区零散房屋的识别能力；从第六行可以看出，本发明算法轮廓规则化能力较强，实现了边缘信息的精细提取，具有较强的破碎信息捕捉能力。

总的来说，本发明算法检测边缘完整性更好，边界过渡更为规则平滑；有效加强房屋特征信息构建，有效抑制因地物类间相似性所造成的漏检、误检情况，多尺度泛化能力强，微小街区居民地检出率提升；细节特征信息保留较为丰富完整，对街区居民地及其周围背景具有较强的区分能力。本发明算法在大范围场景影像具有更强的应用性，在大尺度、大规模数据上表现更佳，面对复杂的建筑物和多变的环境表现出更强的鲁棒性，验证了本发明方法的有效性。

在上述实施例的基础上，如图12所示，本发明还提出一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取系统，包括：

进一步地，所述粗提取单元具体用于：

使用开源数据集CBDV1.0预训练YOLOv7模型参数权重；

进一步地，所述精提取单元具体用于：

采用PgNet对生成候选检测区域进行检测；

综上，为实现大范围遥感影像中快速准确提取农村街区式居民地，本发明将视觉注意机制算法PgNet与目标检测算法YOLOv7相结合，提出了一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法及系统，用于解决了多尺度遥感影像农村街区提取适应性差、精度效果不佳的问题。使用YOLOv7作为农村街区粗略定位的检测器，通过预检索机制解决了居民地定位的痛点，提升了算法的处理效率；使用PgNet显著性检测算法对候选区域进行精确提取，进一步解决尺度变化造成的精度损失的问题，保持对街区式建筑群的较强的边缘感知能力。通过在CBDV1.0街区数据集和自建数据集上进行测试，实验结果表明，该方法较其他传统方法对街区式居民地的较强的定位感知能力和边缘完整性，可以有效捕捉清晰的街区轮廓边界，解决居民地精确提取的难点问题。可应用于大范围场景检测和智能判绘，为测绘生产提供有力支撑。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法，其特征在于，包括：

2.根据权利要求1所述的融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法，其特征在于，所述通过YOLOv7模型检测生成大范围遥感影像上居民地候选区检测框包括：

使用开源数据集CBDV1.0预训练YOLOv7模型参数权重；

3.根据权利要求1所述的融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取方法，其特征在于，所述使用PgNet模型基于候选区检测框进行居民地的精确提取，得到大范围遥感影像上的农村居民地包括：

采用PgNet对生成候选检测区域进行检测；

4.一种融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取系统，其特征在于，包括：

5.根据权利要求4所述的融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取系统，其特征在于，所述粗提取单元具体用于：

使用开源数据集CBDV1.0预训练YOLOv7模型参数权重；

6.根据权利要求4所述的融合目标检测和视觉注意机制的大范围遥感影像农村街区式居民地提取系统，其特征在于，所述精提取单元具体用于：

采用PgNet对生成候选检测区域进行检测；