CN116403109A

CN116403109A - 一种基于改进神经网络的建筑物识别与提取方法及系统

Info

Publication number: CN116403109A
Application number: CN202310291665.1A
Authority: CN
Inventors: 刘巧红; 韩啸翔; 刘刚
Original assignee: Shanghai University of Medicine and Health Sciences
Current assignee: Shanghai University of Medicine and Health Sciences
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-07-07

Abstract

本申请公开了一种基于改进神经网络的建筑物识别与提取方法及系统，其中方法包括以下步骤：采集建筑物原始图像，对所述原始图像进行预处理，得到预处理后图像数据；构建DeepLabV3+模型，并对所述DeepLabV3+模型进行改进，得到改进后模型；基于所述预处理后图像数据，训练所述改进后模型，得到预测模型；采集待识别建筑物图像，基于所述预测模型，预测生成建筑物边缘图像，并对所述建筑物边缘图像进行规则化处理，得到建筑物轮廓提取结果。本申请提出的轻量级高性能骨干网络在传统的DenseNet基础上，融入了ConvNeXt的设计思想，大幅地减少了模型的参数计算量，降低内存占用，提高模型的计算速度。

Description

一种基于改进神经网络的建筑物识别与提取方法及系统

技术领域

本申请涉及图像识别技术领域，具体涉及一种基于改进神经网络的建筑物识别与提取方法及系统。

背景技术

遥感影像中建筑物要素的传统提取方法大部分是面向单一影像信息的基础上，采用传统的分割、分类、边缘检测等方法来实现，这类方法有很大的局限性，在实际应用中有很多难以克服的困难。

近年来，继许多学者利用卷积神经网络实现图像识别后，深度学习方法在遥感图像的地物提取领域获得了越来越多的应用。深度学习技术在图像分类、分割、检测、目标识别等各种计算机视觉任务中取得了引人注目的成就，逐渐被用于解决遥感影像的建筑物、道路及水沫线等地物要素的提取问题。深度学习的本质特征是利用计算机的学习算法，从大样本数据中自动进行高层次特征的自动学习，从而具备预测未知数据特征的能力。深度学习模型不需要进行特征提取，降低了人为设计特征存在的不确定性和主观性。其所具有的多层次的深度神经网络与传统机器学习方法相比，对样本特征体现出更强大的学习能力和表征能力，能够改善海量影像数据的信息识别效率和精度问题。对于遥感影像地物要素的提取，本质上是对目标对象的分割，而深度学习中的卷积神经网络因为具有较强的特征提取和挖掘能力对分割任务产生了较大的影响，基于端到端、图对图的深度语义分割算法不断涌现，该类算法典型的模型有FCN、SegNet、U-Net、PSPNet、DeepLabV3+等，这些深度学习模型被越来越多的应用于遥感影像的分割任务，在地物分割的精度上不断有所突破。

发明内容

本申请旨在解决现有技术的不足，提出一种基于改进神经网络的建筑物识别与提取方法及系统，通过改进DeepLabV3+模型，对目标区域建筑物进行检测，得到建筑物轮廓。

为实现上述目的，本申请提供了如下方案：

一种基于改进神经网络的建筑物识别与提取方法，包括以下步骤：

采集建筑物原始图像，对所述建筑物原始图像进行预处理，得到预处理后图像数据；

构建DeepLabV3+模型，并对所述DeepLabV3+模型进行改进，得到改进后模型；

基于所述预处理后图像数据，训练所述改进后模型，得到预测模型；

采集待识别建筑物图像，基于所述预测模型，预测生成建筑物边缘图像，并对所述建筑物边缘图像进行规则化处理，得到建筑物轮廓提取结果。

优选的，所述预处理的方法包括：

将所述建筑物原始图像进行裁剪，得到裁剪后图像数据集；

对所述裁剪后图像数据集进行数据增强，并对数据增强后的图像数据集进行筛选，得到筛选后图像数据集；

基于ArcGIS Pro对所述筛选后图像数据集进行特征标注，得到标注后图像数据集；

将所述标注后数据集进行训练集、验证集和测试集划分，得到所述预处理后图像数据。

优选的，得到所述改进后模型的方法包括：

利用轻量级高性能骨干网络，替换所述DeepLabV3+模型中的Xception网络；

在所述DeepLabV3+模型中添加两个ASPP模块，得到所述改进后模型。

优选的，所述预测模型的训练方法包括：

将所述训练集输入至所述改进后模型，求解最小化损失函数情况下的网络参数；

将所述验证集输入至所述改进后模型，用于最小化所述改进后模型的过拟合情况；

将所述测试集输入至所述改进后模型，并比较输出结果与真实分类结果的精度，基于比较结果对所述网络参数进行调整，得到所述预测模型。

优选的，所述规则化处理的方法包括：

利用Marching Cubes模型提取所述建筑物边缘图像的边界图像；

利用Douglas-Peucker模型对所述边界图像进行多边形化，得到所述建筑物轮廓提取结果。

优选的，所述边界图像的提取方法包括：

基于粗调算法消除所述建筑物边缘图像进行错误消除，得到粗调后图像；

基于微调算法调整所述粗调后图像中线的方向和节点位置，得到所述边界图像。

本申请还提供了一种基于改进神经网络的建筑物识别与提取系统，包括：图像预处理模块、模型构建模块、模型训练模块和识别提取模块；

所述图像预处理模块用于采集建筑物原始图像，对所述建筑物原始图像进行预处理，得到预处理后图像数据；

所述模型构建模块用于构建DeepLabV3+模型，并对所述DeepLabV3+模型进行改进，得到改进后模型；

所述模型训练模块用于基于所述预处理后图像数据，训练所述改进后模型，得到预测模型；

所述识别提取模块用于采集待识别建筑物图像，基于所述预测模型，预测生成建筑物边缘图像，并对所述建筑物边缘图像进行规则化处理，得到建筑物轮廓提取结果。

优选的，得到所述改进后模型的方法包括：

与现有技术相比，本申请的有益效果为：

(1)本申请提出的轻量级高性能骨干网络在传统的DenseNet基础上，融入了ConvNeXt的设计思想，大幅地减少了模型的参数计算量，降低内存占用，提高模型的计算速度；

(2)本申请利用两个ASPP模块将图像特征进行融合，从而获得更多高级的语义信息，增强边缘特征的提取，进一步提升了对高级语义的提取能力。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的方法流程示意图；

图2为本申请实施例的改进后模型结构示意图；

图3为本申请实施例的DenseNeXt设计的瓶颈层；

图4为本申请实施例的系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

在本实施例中，如图1所示，一种基于改进神经网络的建筑物识别与提取方法，包括以下步骤：

S1.采集建筑物原始图像，对建筑物原始图像进行预处理，得到预处理后图像数据。

预处理的方法包括：将建筑物原始图像进行裁剪，得到裁剪后图像数据集；对裁剪后图像数据集进行数据增强，并对数据增强后的图像数据集进行筛选，得到筛选后图像数据集；基于ArcGIS Pro对筛选后图像数据集进行特征标注，得到标注后图像数据集；将标注后数据集进行训练集、验证集和测试集划分，得到预处理后图像数据。

在本实施例中，建筑物原始图像来自实际生产中的无人机航拍的遥感影像，由于遥感影像的尺寸通常较大，深度学习无法支持大尺寸的数据训练，首先将样本数据进行裁剪，裁剪为512×512大小的块，得到裁剪后图像数据集。针对训练集样本量较少会导致在训练的过程中出现因特征提取不足导致的过拟合问题，对裁剪后图像数据集进行数据增强，通过水平翻转、垂直旋转、中心裁剪、随机亮度对比度、弹性变换、高斯噪声和通道转置等方式对图像进行扩充，同时，针对样本中涵盖空白区域、图像模糊以及标注不全的现象，进行了数据筛选，得到筛选后图像数据集。

对筛选后图像数据集进行目标区域的标注，从而使得深度学习模型能够学习到建筑物的特征，以区别于图像中的其它区域，因此，数据标签的制作尤为重要。而传统的数据标签制作采用纯手工的标注方式，如采用Labelme等工具进行手工绘制，这种手工标注繁琐耗时，而本实施例采用了基于ArcGIS Pro的半自动标注方法，得到标注后图像数据集。

进一步将标注后图像数据集划分成训练集、验证集和测试集三部分，其中，训练集18481张图像，验证集945张图像，测试集475张图像。

S2.构建DeepLabV3+模型，并对DeepLabV3+模型进行改进，得到改进后模型。

得到改进后模型的方法包括：利用轻量级高性能骨干网络，替换DeepLabV3+模型中的Xception网络；在DeepLabV3+模型中添加两个ASPP模块，得到改进后模型。

DeepLabV3+网络是目前最为优秀的语义分割模型之一，其在VOC数据集上取得优异成绩。但DeepLabV3+模型也存在一些不足。首先，编码端特征提取过程中逐渐缩减输入数据的空间维度导致有用信息丢失，在解码时不能很好地实现细节恢复；其次，ASPP模块的引入虽然可以提高模型对目标的边界提取能力，但是不能完整地模拟出目标局部特征间的联系，使目标分割存在空洞现象，导致对目标分割的准确率降低；最后为了追求分割精度，选择网络层数较多、参数量较大的Xception作为特征提取网络，并且ASPP模块中卷积方式为普通卷积，进一步增加了参数量，模型深度的加深以及参数量的增加，导致模型的复杂度增加，对硬件的要求更高，增加了网络训练难度，网络训练速度更慢、收敛更慢。

在本实施例中，为了提高网络分割性能，改善以上不足，如图2所示，在传统DeeplabV3+网络结构上做了以下改进：(1)针对传统DeepLabV3+模型特征提取的Xception网络参数量大的问题，提出了一种轻量级的高性能骨干网络，命名为DenseNeXt，替换传统DeepLabV3+中的Xception网络。提出的DenseNeXt网络在传统的DenseNet基础上，融入了ConvNeXt的设计思想，大幅地减少了模型的参数计算量，降低内存占用，提高模型的计算速度；(2)为了进一步提升DeepLabV3+模型对于高级语义特征的提取能力，在DenseNeXt网络对输入图像进行特征提取后，利用了两个ASPP模块将图像特征进行融合，从而获得更多高级的语义信息，增强边缘特征的提取；通过上述改进，得到改进后模型。

其中，提出的DenseNeXt网络的4个阶段块的堆叠的比例设置为1:1:3:1。其每个阶段具体的层数分别为8、8、24和8。提出的DenseNeXt网络设计了两个分支一个分支为7×7大小卷积核的深度可分离卷积，另一个是3×3大小卷积核的深度可分离卷积。然后将它们的输出特征图相加，最后再和瓶颈层的输入特征图拼接作为瓶颈层的输出特征图，从而使模型获得多尺度特征提取的能力。图3是DenseNeXt设计的瓶颈层。

S3.基于预处理后图像数据，训练改进后模型，得到预测模型。

预测模型的训练方法包括：将训练集输入至改进后模型，求解最小化损失函数情况下的网络参数；将验证集输入至改进后模型，用于最小化改进后模型的过拟合情况；将测试集输入至改进后模型，并比较输出结果与真实分类结果的精度，基于比较结果对网络参数进行调整，得到预测模型。

在本实施例中，训练数据用于求解最小化损失函数的网络参数；验证数据用于最小化过拟合；测试数据用于在网络训练结束后测试网络的分类能力。将测试数据输入到训练好的深度神经网络结构中，计算输出结果与其真实分类结果的差异，估计网络的分类精度，根据模型验证情况，优化调整或适当增加标记样本，当标记样本库被优化调整时，可微调深度神经网络参数，优化网络结构，进一步提高网络分类精度，得到预测模型。

S4.采集待识别建筑物图像，基于预测模型，预测生成建筑物边缘图像，并对建筑物边缘图像进行规则化处理，得到建筑物轮廓提取结果。

规则化处理的方法包括：利用Marching Cubes模型提取建筑物边缘图像的边界图像，边界图像的提取方法包括：基于粗调算法消除建筑物边缘图像进行错误消除，得到粗调后图像；基于微调算法调整粗调后图像中线的方向和节点位置，得到边界图像；利用Douglas-Peucker模型对边界图像进行多边形化，得到建筑物轮廓提取结果。

在本实施例中，由于模型预测生成的房屋区域的边缘存在不规则等现象，本项目通过提取建筑物的关键点及建筑物主方向，对建筑物覆盖区面的轮廓线进行规则化，用于消除建筑物范围几何中不规整的边界及细节。

首先使用Marching Cubes算法实现边界提取，主要步骤分为两步，粗调算法以消除分割和多边形化的明显错误，进一步微调算法调整线的方向和节点的位置。

粗调算法的实现过程：移除面积低于阈值的多边形S；删除长度低于给定边长的边Td；用阈值去除过锐角α；用阈值去除过度平滑的角度β。微调算法的实现过程：找到带阈值的长边W；将最长边的方向添加到主方向列表中；根据角度阈值将其他边的方向添加到主方向列表中，δ在它们的方向和列表中的方向之间；根据列表和角度调整长边、根据列表和角度调整短边(通过阈值判断θ)；如果两条线之间的距离小于(或大于)阈值，则合并(或连接)平行线d；连接所有调整后的线以形成最终的多边形。本实施例中的阈值均需根据实际情况进行设定。

再使用Douglas-Peucker算法实现多边形化。

对待识别建筑物图像进行处理，并将处理后的图像输入训练好的改进的DeepLabV3+网络模型，对待识别建筑物图像中的建筑物进行检测，最终生成建筑物提取图。

实施例二

在本实施例中，如图4所示，一种基于改进神经网络的建筑物识别与提取系统，包括：图像预处理模块、模型构建模块、模型训练模块和识别提取模块。

图像预处理模块用于采集建筑物原始图像，对建筑物原始图像进行预处理，得到预处理后图像数据。

模型构建模块用于构建DeepLabV3+模型，并对DeepLabV3+模型进行改进，得到改进后模型。

在本实施例中，为了提高网络分割性能，改善以上不足，在传统DeeplabV3+网络结构上做了以下改进：(1)针对传统DeepLabV3+模型特征提取的Xception网络参数量大的问题，提出了一种轻量级的高性能骨干网络，命名为DenseNeXt，替换传统DeepLabV3+中的Xception网络。提出的DenseNeXt网络在传统的DenseNet基础上，融入了ConvNeXt的设计思想，大幅地减少了模型的参数计算量，降低内存占用，提高模型的计算速度；(2)为了进一步提升DeepLabV3+模型对于高级语义特征的提取能力，在DenseNeXt网络对输入图像进行特征提取后，利用了两个ASPP模块将图像特征进行融合，从而获得更多高级的语义信息，增强边缘特征的提取；通过上述改进，得到改进后模型。

其中，提出的DenseNeXt网络的4个阶段块的堆叠的比例设置为1:1:3:1。其每个阶段具体的层数分别为8、8、24和8。提出的DenseNeXt网络设计了两个分支一个分支为7×7大小卷积核的深度可分离卷积，另一个是3×3大小卷积核的深度可分离卷积。然后将它们的输出特征图相加，最后再和瓶颈层的输入特征图拼接作为瓶颈层的输出特征图，从而使模型获得多尺度特征提取的能力。

模型训练模块用于基于预处理后图像数据，训练改进后模型，得到预测模型。

识别提取模块用于采集待识别建筑物图像，基于预测模型，预测生成建筑物边缘图像，并对建筑物边缘图像进行规则化处理，得到建筑物轮廓提取结果。

再使用Douglas-Peucker算法实现多边形化。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于改进神经网络的建筑物识别与提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于改进神经网络的建筑物识别与提取方法，其特征在于，所述预处理的方法包括：

将所述建筑物原始图像进行裁剪，得到裁剪后图像数据集；

3.根据权利要求2所述一种基于改进神经网络的建筑物识别与提取方法，其特征在于，得到所述改进后模型的方法包括：

4.根据权利要求3所述一种基于改进神经网络的建筑物识别与提取方法，其特征在于，所述预测模型的训练方法包括：

5.根据权利要求1所述一种基于改进神经网络的建筑物识别与提取方法，其特征在于，所述规则化处理的方法包括：

利用Marching Cubes模型提取所述建筑物边缘图像的边界图像；

6.根据权利要求5所述一种基于改进神经网络的建筑物识别与提取方法，其特征在于，所述边界图像的提取方法包括：

7.一种基于改进神经网络的建筑物识别与提取系统，其特征在于，包括：图像预处理模块、模型构建模块、模型训练模块和识别提取模块；

8.根据权利要求7所述一种基于改进神经网络的建筑物识别与提取系统，其特征在于，得到所述改进后模型的方法包括：