CN116403109A - 一种基于改进神经网络的建筑物识别与提取方法及系统 - Google Patents
一种基于改进神经网络的建筑物识别与提取方法及系统 Download PDFInfo
- Publication number
- CN116403109A CN116403109A CN202310291665.1A CN202310291665A CN116403109A CN 116403109 A CN116403109 A CN 116403109A CN 202310291665 A CN202310291665 A CN 202310291665A CN 116403109 A CN116403109 A CN 116403109A
- Authority
- CN
- China
- Prior art keywords
- model
- building
- image
- improved
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 14
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000011218 segmentation Effects 0.000 description 17
- 238000013135 deep learning Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于改进神经网络的建筑物识别与提取方法及系统,其中方法包括以下步骤:采集建筑物原始图像,对所述原始图像进行预处理,得到预处理后图像数据;构建DeepLabV3+模型,并对所述DeepLabV3+模型进行改进,得到改进后模型;基于所述预处理后图像数据,训练所述改进后模型,得到预测模型;采集待识别建筑物图像,基于所述预测模型,预测生成建筑物边缘图像,并对所述建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。本申请提出的轻量级高性能骨干网络在传统的DenseNet基础上,融入了ConvNeXt的设计思想,大幅地减少了模型的参数计算量,降低内存占用,提高模型的计算速度。
Description
技术领域
本申请涉及图像识别技术领域,具体涉及一种基于改进神经网络的建筑物识别与提取方法及系统。
背景技术
遥感影像中建筑物要素的传统提取方法大部分是面向单一影像信息的基础上,采用传统的分割、分类、边缘检测等方法来实现,这类方法有很大的局限性,在实际应用中有很多难以克服的困难。
近年来,继许多学者利用卷积神经网络实现图像识别后,深度学习方法在遥感图像的地物提取领域获得了越来越多的应用。深度学习技术在图像分类、分割、检测、目标识别等各种计算机视觉任务中取得了引人注目的成就,逐渐被用于解决遥感影像的建筑物、道路及水沫线等地物要素的提取问题。深度学习的本质特征是利用计算机的学习算法,从大样本数据中自动进行高层次特征的自动学习,从而具备预测未知数据特征的能力。深度学习模型不需要进行特征提取,降低了人为设计特征存在的不确定性和主观性。其所具有的多层次的深度神经网络与传统机器学习方法相比,对样本特征体现出更强大的学习能力和表征能力,能够改善海量影像数据的信息识别效率和精度问题。对于遥感影像地物要素的提取,本质上是对目标对象的分割,而深度学习中的卷积神经网络因为具有较强的特征提取和挖掘能力对分割任务产生了较大的影响,基于端到端、图对图的深度语义分割算法不断涌现,该类算法典型的模型有FCN、SegNet、U-Net、PSPNet、DeepLabV3+等,这些深度学习模型被越来越多的应用于遥感影像的分割任务,在地物分割的精度上不断有所突破。
发明内容
本申请旨在解决现有技术的不足,提出一种基于改进神经网络的建筑物识别与提取方法及系统,通过改进DeepLabV3+模型,对目标区域建筑物进行检测,得到建筑物轮廓。
为实现上述目的,本申请提供了如下方案:
一种基于改进神经网络的建筑物识别与提取方法,包括以下步骤:
采集建筑物原始图像,对所述建筑物原始图像进行预处理,得到预处理后图像数据;
构建DeepLabV3+模型,并对所述DeepLabV3+模型进行改进,得到改进后模型;
基于所述预处理后图像数据,训练所述改进后模型,得到预测模型;
采集待识别建筑物图像,基于所述预测模型,预测生成建筑物边缘图像,并对所述建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。
优选的,所述预处理的方法包括:
将所述建筑物原始图像进行裁剪,得到裁剪后图像数据集;
对所述裁剪后图像数据集进行数据增强,并对数据增强后的图像数据集进行筛选,得到筛选后图像数据集;
基于ArcGIS Pro对所述筛选后图像数据集进行特征标注,得到标注后图像数据集;
将所述标注后数据集进行训练集、验证集和测试集划分,得到所述预处理后图像数据。
优选的,得到所述改进后模型的方法包括:
利用轻量级高性能骨干网络,替换所述DeepLabV3+模型中的Xception网络;
在所述DeepLabV3+模型中添加两个ASPP模块,得到所述改进后模型。
优选的,所述预测模型的训练方法包括:
将所述训练集输入至所述改进后模型,求解最小化损失函数情况下的网络参数;
将所述验证集输入至所述改进后模型,用于最小化所述改进后模型的过拟合情况;
将所述测试集输入至所述改进后模型,并比较输出结果与真实分类结果的精度,基于比较结果对所述网络参数进行调整,得到所述预测模型。
优选的,所述规则化处理的方法包括:
利用Marching Cubes模型提取所述建筑物边缘图像的边界图像;
利用Douglas-Peucker模型对所述边界图像进行多边形化,得到所述建筑物轮廓提取结果。
优选的,所述边界图像的提取方法包括:
基于粗调算法消除所述建筑物边缘图像进行错误消除,得到粗调后图像;
基于微调算法调整所述粗调后图像中线的方向和节点位置,得到所述边界图像。
本申请还提供了一种基于改进神经网络的建筑物识别与提取系统,包括:图像预处理模块、模型构建模块、模型训练模块和识别提取模块;
所述图像预处理模块用于采集建筑物原始图像,对所述建筑物原始图像进行预处理,得到预处理后图像数据;
所述模型构建模块用于构建DeepLabV3+模型,并对所述DeepLabV3+模型进行改进,得到改进后模型;
所述模型训练模块用于基于所述预处理后图像数据,训练所述改进后模型,得到预测模型;
所述识别提取模块用于采集待识别建筑物图像,基于所述预测模型,预测生成建筑物边缘图像,并对所述建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。
优选的,得到所述改进后模型的方法包括:
利用轻量级高性能骨干网络,替换所述DeepLabV3+模型中的Xception网络;
在所述DeepLabV3+模型中添加两个ASPP模块,得到所述改进后模型。
与现有技术相比,本申请的有益效果为:
(1)本申请提出的轻量级高性能骨干网络在传统的DenseNet基础上,融入了ConvNeXt的设计思想,大幅地减少了模型的参数计算量,降低内存占用,提高模型的计算速度;
(2)本申请利用两个ASPP模块将图像特征进行融合,从而获得更多高级的语义信息,增强边缘特征的提取,进一步提升了对高级语义的提取能力。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请实施例的改进后模型结构示意图;
图3为本申请实施例的DenseNeXt设计的瓶颈层;
图4为本申请实施例的系统结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
在本实施例中,如图1所示,一种基于改进神经网络的建筑物识别与提取方法,包括以下步骤:
S1.采集建筑物原始图像,对建筑物原始图像进行预处理,得到预处理后图像数据。
预处理的方法包括:将建筑物原始图像进行裁剪,得到裁剪后图像数据集;对裁剪后图像数据集进行数据增强,并对数据增强后的图像数据集进行筛选,得到筛选后图像数据集;基于ArcGIS Pro对筛选后图像数据集进行特征标注,得到标注后图像数据集;将标注后数据集进行训练集、验证集和测试集划分,得到预处理后图像数据。
在本实施例中,建筑物原始图像来自实际生产中的无人机航拍的遥感影像,由于遥感影像的尺寸通常较大,深度学习无法支持大尺寸的数据训练,首先将样本数据进行裁剪,裁剪为512×512大小的块,得到裁剪后图像数据集。针对训练集样本量较少会导致在训练的过程中出现因特征提取不足导致的过拟合问题,对裁剪后图像数据集进行数据增强,通过水平翻转、垂直旋转、中心裁剪、随机亮度对比度、弹性变换、高斯噪声和通道转置等方式对图像进行扩充,同时,针对样本中涵盖空白区域、图像模糊以及标注不全的现象,进行了数据筛选,得到筛选后图像数据集。
对筛选后图像数据集进行目标区域的标注,从而使得深度学习模型能够学习到建筑物的特征,以区别于图像中的其它区域,因此,数据标签的制作尤为重要。而传统的数据标签制作采用纯手工的标注方式,如采用Labelme等工具进行手工绘制,这种手工标注繁琐耗时,而本实施例采用了基于ArcGIS Pro的半自动标注方法,得到标注后图像数据集。
进一步将标注后图像数据集划分成训练集、验证集和测试集三部分,其中,训练集18481张图像,验证集945张图像,测试集475张图像。
S2.构建DeepLabV3+模型,并对DeepLabV3+模型进行改进,得到改进后模型。
得到改进后模型的方法包括:利用轻量级高性能骨干网络,替换DeepLabV3+模型中的Xception网络;在DeepLabV3+模型中添加两个ASPP模块,得到改进后模型。
DeepLabV3+网络是目前最为优秀的语义分割模型之一,其在VOC数据集上取得优异成绩。但DeepLabV3+模型也存在一些不足。首先,编码端特征提取过程中逐渐缩减输入数据的空间维度导致有用信息丢失,在解码时不能很好地实现细节恢复;其次,ASPP模块的引入虽然可以提高模型对目标的边界提取能力,但是不能完整地模拟出目标局部特征间的联系,使目标分割存在空洞现象,导致对目标分割的准确率降低;最后为了追求分割精度,选择网络层数较多、参数量较大的Xception作为特征提取网络,并且ASPP模块中卷积方式为普通卷积,进一步增加了参数量,模型深度的加深以及参数量的增加,导致模型的复杂度增加,对硬件的要求更高,增加了网络训练难度,网络训练速度更慢、收敛更慢。
在本实施例中,为了提高网络分割性能,改善以上不足,如图2所示,在传统DeeplabV3+网络结构上做了以下改进:(1)针对传统DeepLabV3+模型特征提取的Xception网络参数量大的问题,提出了一种轻量级的高性能骨干网络,命名为DenseNeXt,替换传统DeepLabV3+中的Xception网络。提出的DenseNeXt网络在传统的DenseNet基础上,融入了ConvNeXt的设计思想,大幅地减少了模型的参数计算量,降低内存占用,提高模型的计算速度;(2)为了进一步提升DeepLabV3+模型对于高级语义特征的提取能力,在DenseNeXt网络对输入图像进行特征提取后,利用了两个ASPP模块将图像特征进行融合,从而获得更多高级的语义信息,增强边缘特征的提取;通过上述改进,得到改进后模型。
其中,提出的DenseNeXt网络的4个阶段块的堆叠的比例设置为1:1:3:1。其每个阶段具体的层数分别为8、8、24和8。提出的DenseNeXt网络设计了两个分支一个分支为7×7大小卷积核的深度可分离卷积,另一个是3×3大小卷积核的深度可分离卷积。然后将它们的输出特征图相加,最后再和瓶颈层的输入特征图拼接作为瓶颈层的输出特征图,从而使模型获得多尺度特征提取的能力。图3是DenseNeXt设计的瓶颈层。
S3.基于预处理后图像数据,训练改进后模型,得到预测模型。
预测模型的训练方法包括:将训练集输入至改进后模型,求解最小化损失函数情况下的网络参数;将验证集输入至改进后模型,用于最小化改进后模型的过拟合情况;将测试集输入至改进后模型,并比较输出结果与真实分类结果的精度,基于比较结果对网络参数进行调整,得到预测模型。
在本实施例中,训练数据用于求解最小化损失函数的网络参数;验证数据用于最小化过拟合;测试数据用于在网络训练结束后测试网络的分类能力。将测试数据输入到训练好的深度神经网络结构中,计算输出结果与其真实分类结果的差异,估计网络的分类精度,根据模型验证情况,优化调整或适当增加标记样本,当标记样本库被优化调整时,可微调深度神经网络参数,优化网络结构,进一步提高网络分类精度,得到预测模型。
S4.采集待识别建筑物图像,基于预测模型,预测生成建筑物边缘图像,并对建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。
规则化处理的方法包括:利用Marching Cubes模型提取建筑物边缘图像的边界图像,边界图像的提取方法包括:基于粗调算法消除建筑物边缘图像进行错误消除,得到粗调后图像;基于微调算法调整粗调后图像中线的方向和节点位置,得到边界图像;利用Douglas-Peucker模型对边界图像进行多边形化,得到建筑物轮廓提取结果。
在本实施例中,由于模型预测生成的房屋区域的边缘存在不规则等现象,本项目通过提取建筑物的关键点及建筑物主方向,对建筑物覆盖区面的轮廓线进行规则化,用于消除建筑物范围几何中不规整的边界及细节。
首先使用Marching Cubes算法实现边界提取,主要步骤分为两步,粗调算法以消除分割和多边形化的明显错误,进一步微调算法调整线的方向和节点的位置。
粗调算法的实现过程:移除面积低于阈值的多边形S;删除长度低于给定边长的边Td;用阈值去除过锐角α;用阈值去除过度平滑的角度β。微调算法的实现过程:找到带阈值的长边W;将最长边的方向添加到主方向列表中;根据角度阈值将其他边的方向添加到主方向列表中,δ在它们的方向和列表中的方向之间;根据列表和角度调整长边、根据列表和角度调整短边(通过阈值判断θ);如果两条线之间的距离小于(或大于)阈值,则合并(或连接)平行线d;连接所有调整后的线以形成最终的多边形。本实施例中的阈值均需根据实际情况进行设定。
再使用Douglas-Peucker算法实现多边形化。
对待识别建筑物图像进行处理,并将处理后的图像输入训练好的改进的DeepLabV3+网络模型,对待识别建筑物图像中的建筑物进行检测,最终生成建筑物提取图。
实施例二
在本实施例中,如图4所示,一种基于改进神经网络的建筑物识别与提取系统,包括:图像预处理模块、模型构建模块、模型训练模块和识别提取模块。
图像预处理模块用于采集建筑物原始图像,对建筑物原始图像进行预处理,得到预处理后图像数据。
预处理的方法包括:将建筑物原始图像进行裁剪,得到裁剪后图像数据集;对裁剪后图像数据集进行数据增强,并对数据增强后的图像数据集进行筛选,得到筛选后图像数据集;基于ArcGIS Pro对筛选后图像数据集进行特征标注,得到标注后图像数据集;将标注后数据集进行训练集、验证集和测试集划分,得到预处理后图像数据。
在本实施例中,建筑物原始图像来自实际生产中的无人机航拍的遥感影像,由于遥感影像的尺寸通常较大,深度学习无法支持大尺寸的数据训练,首先将样本数据进行裁剪,裁剪为512×512大小的块,得到裁剪后图像数据集。针对训练集样本量较少会导致在训练的过程中出现因特征提取不足导致的过拟合问题,对裁剪后图像数据集进行数据增强,通过水平翻转、垂直旋转、中心裁剪、随机亮度对比度、弹性变换、高斯噪声和通道转置等方式对图像进行扩充,同时,针对样本中涵盖空白区域、图像模糊以及标注不全的现象,进行了数据筛选,得到筛选后图像数据集。
对筛选后图像数据集进行目标区域的标注,从而使得深度学习模型能够学习到建筑物的特征,以区别于图像中的其它区域,因此,数据标签的制作尤为重要。而传统的数据标签制作采用纯手工的标注方式,如采用Labelme等工具进行手工绘制,这种手工标注繁琐耗时,而本实施例采用了基于ArcGIS Pro的半自动标注方法,得到标注后图像数据集。
进一步将标注后图像数据集划分成训练集、验证集和测试集三部分,其中,训练集18481张图像,验证集945张图像,测试集475张图像。
模型构建模块用于构建DeepLabV3+模型,并对DeepLabV3+模型进行改进,得到改进后模型。
得到改进后模型的方法包括:利用轻量级高性能骨干网络,替换DeepLabV3+模型中的Xception网络;在DeepLabV3+模型中添加两个ASPP模块,得到改进后模型。
DeepLabV3+网络是目前最为优秀的语义分割模型之一,其在VOC数据集上取得优异成绩。但DeepLabV3+模型也存在一些不足。首先,编码端特征提取过程中逐渐缩减输入数据的空间维度导致有用信息丢失,在解码时不能很好地实现细节恢复;其次,ASPP模块的引入虽然可以提高模型对目标的边界提取能力,但是不能完整地模拟出目标局部特征间的联系,使目标分割存在空洞现象,导致对目标分割的准确率降低;最后为了追求分割精度,选择网络层数较多、参数量较大的Xception作为特征提取网络,并且ASPP模块中卷积方式为普通卷积,进一步增加了参数量,模型深度的加深以及参数量的增加,导致模型的复杂度增加,对硬件的要求更高,增加了网络训练难度,网络训练速度更慢、收敛更慢。
在本实施例中,为了提高网络分割性能,改善以上不足,在传统DeeplabV3+网络结构上做了以下改进:(1)针对传统DeepLabV3+模型特征提取的Xception网络参数量大的问题,提出了一种轻量级的高性能骨干网络,命名为DenseNeXt,替换传统DeepLabV3+中的Xception网络。提出的DenseNeXt网络在传统的DenseNet基础上,融入了ConvNeXt的设计思想,大幅地减少了模型的参数计算量,降低内存占用,提高模型的计算速度;(2)为了进一步提升DeepLabV3+模型对于高级语义特征的提取能力,在DenseNeXt网络对输入图像进行特征提取后,利用了两个ASPP模块将图像特征进行融合,从而获得更多高级的语义信息,增强边缘特征的提取;通过上述改进,得到改进后模型。
其中,提出的DenseNeXt网络的4个阶段块的堆叠的比例设置为1:1:3:1。其每个阶段具体的层数分别为8、8、24和8。提出的DenseNeXt网络设计了两个分支一个分支为7×7大小卷积核的深度可分离卷积,另一个是3×3大小卷积核的深度可分离卷积。然后将它们的输出特征图相加,最后再和瓶颈层的输入特征图拼接作为瓶颈层的输出特征图,从而使模型获得多尺度特征提取的能力。
模型训练模块用于基于预处理后图像数据,训练改进后模型,得到预测模型。
预测模型的训练方法包括:将训练集输入至改进后模型,求解最小化损失函数情况下的网络参数;将验证集输入至改进后模型,用于最小化改进后模型的过拟合情况;将测试集输入至改进后模型,并比较输出结果与真实分类结果的精度,基于比较结果对网络参数进行调整,得到预测模型。
在本实施例中,训练数据用于求解最小化损失函数的网络参数;验证数据用于最小化过拟合;测试数据用于在网络训练结束后测试网络的分类能力。将测试数据输入到训练好的深度神经网络结构中,计算输出结果与其真实分类结果的差异,估计网络的分类精度,根据模型验证情况,优化调整或适当增加标记样本,当标记样本库被优化调整时,可微调深度神经网络参数,优化网络结构,进一步提高网络分类精度,得到预测模型。
识别提取模块用于采集待识别建筑物图像,基于预测模型,预测生成建筑物边缘图像,并对建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。
规则化处理的方法包括:利用Marching Cubes模型提取建筑物边缘图像的边界图像,边界图像的提取方法包括:基于粗调算法消除建筑物边缘图像进行错误消除,得到粗调后图像;基于微调算法调整粗调后图像中线的方向和节点位置,得到边界图像;利用Douglas-Peucker模型对边界图像进行多边形化,得到建筑物轮廓提取结果。
在本实施例中,由于模型预测生成的房屋区域的边缘存在不规则等现象,本项目通过提取建筑物的关键点及建筑物主方向,对建筑物覆盖区面的轮廓线进行规则化,用于消除建筑物范围几何中不规整的边界及细节。
首先使用Marching Cubes算法实现边界提取,主要步骤分为两步,粗调算法以消除分割和多边形化的明显错误,进一步微调算法调整线的方向和节点的位置。
粗调算法的实现过程:移除面积低于阈值的多边形S;删除长度低于给定边长的边Td;用阈值去除过锐角α;用阈值去除过度平滑的角度β。微调算法的实现过程:找到带阈值的长边W;将最长边的方向添加到主方向列表中;根据角度阈值将其他边的方向添加到主方向列表中,δ在它们的方向和列表中的方向之间;根据列表和角度调整长边、根据列表和角度调整短边(通过阈值判断θ);如果两条线之间的距离小于(或大于)阈值,则合并(或连接)平行线d;连接所有调整后的线以形成最终的多边形。本实施例中的阈值均需根据实际情况进行设定。
再使用Douglas-Peucker算法实现多边形化。
对待识别建筑物图像进行处理,并将处理后的图像输入训练好的改进的DeepLabV3+网络模型,对待识别建筑物图像中的建筑物进行检测,最终生成建筑物提取图。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。
Claims (8)
1.一种基于改进神经网络的建筑物识别与提取方法,其特征在于,包括以下步骤:
采集建筑物原始图像,对所述建筑物原始图像进行预处理,得到预处理后图像数据;
构建DeepLabV3+模型,并对所述DeepLabV3+模型进行改进,得到改进后模型;
基于所述预处理后图像数据,训练所述改进后模型,得到预测模型;
采集待识别建筑物图像,基于所述预测模型,预测生成建筑物边缘图像,并对所述建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。
2.根据权利要求1所述一种基于改进神经网络的建筑物识别与提取方法,其特征在于,所述预处理的方法包括:
将所述建筑物原始图像进行裁剪,得到裁剪后图像数据集;
对所述裁剪后图像数据集进行数据增强,并对数据增强后的图像数据集进行筛选,得到筛选后图像数据集;
基于ArcGIS Pro对所述筛选后图像数据集进行特征标注,得到标注后图像数据集;
将所述标注后数据集进行训练集、验证集和测试集划分,得到所述预处理后图像数据。
3.根据权利要求2所述一种基于改进神经网络的建筑物识别与提取方法,其特征在于,得到所述改进后模型的方法包括:
利用轻量级高性能骨干网络,替换所述DeepLabV3+模型中的Xception网络;
在所述DeepLabV3+模型中添加两个ASPP模块,得到所述改进后模型。
4.根据权利要求3所述一种基于改进神经网络的建筑物识别与提取方法,其特征在于,所述预测模型的训练方法包括:
将所述训练集输入至所述改进后模型,求解最小化损失函数情况下的网络参数;
将所述验证集输入至所述改进后模型,用于最小化所述改进后模型的过拟合情况;
将所述测试集输入至所述改进后模型,并比较输出结果与真实分类结果的精度,基于比较结果对所述网络参数进行调整,得到所述预测模型。
5.根据权利要求1所述一种基于改进神经网络的建筑物识别与提取方法,其特征在于,所述规则化处理的方法包括:
利用Marching Cubes模型提取所述建筑物边缘图像的边界图像;
利用Douglas-Peucker模型对所述边界图像进行多边形化,得到所述建筑物轮廓提取结果。
6.根据权利要求5所述一种基于改进神经网络的建筑物识别与提取方法,其特征在于,所述边界图像的提取方法包括:
基于粗调算法消除所述建筑物边缘图像进行错误消除,得到粗调后图像;
基于微调算法调整所述粗调后图像中线的方向和节点位置,得到所述边界图像。
7.一种基于改进神经网络的建筑物识别与提取系统,其特征在于,包括:图像预处理模块、模型构建模块、模型训练模块和识别提取模块;
所述图像预处理模块用于采集建筑物原始图像,对所述建筑物原始图像进行预处理,得到预处理后图像数据;
所述模型构建模块用于构建DeepLabV3+模型,并对所述DeepLabV3+模型进行改进,得到改进后模型;
所述模型训练模块用于基于所述预处理后图像数据,训练所述改进后模型,得到预测模型;
所述识别提取模块用于采集待识别建筑物图像,基于所述预测模型,预测生成建筑物边缘图像,并对所述建筑物边缘图像进行规则化处理,得到建筑物轮廓提取结果。
8.根据权利要求7所述一种基于改进神经网络的建筑物识别与提取系统,其特征在于,得到所述改进后模型的方法包括:
利用轻量级高性能骨干网络,替换所述DeepLabV3+模型中的Xception网络;
在所述DeepLabV3+模型中添加两个ASPP模块,得到所述改进后模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310291665.1A CN116403109A (zh) | 2023-03-23 | 2023-03-23 | 一种基于改进神经网络的建筑物识别与提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310291665.1A CN116403109A (zh) | 2023-03-23 | 2023-03-23 | 一种基于改进神经网络的建筑物识别与提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116403109A true CN116403109A (zh) | 2023-07-07 |
Family
ID=87015238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310291665.1A Pending CN116403109A (zh) | 2023-03-23 | 2023-03-23 | 一种基于改进神经网络的建筑物识别与提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403109A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475305A (zh) * | 2023-10-26 | 2024-01-30 | 广西壮族自治区自然资源遥感院 | 多类别建筑轮廓智能提取与规则化方法、应用系统 |
CN117523417A (zh) * | 2024-01-05 | 2024-02-06 | 沂水华辰房地产测绘有限公司 | 应用于自然资源统一确权登记的方法及电子设备 |
CN117853926A (zh) * | 2024-01-17 | 2024-04-09 | 南京北斗创新应用科技研究院有限公司 | 一种基于人工神经网络分类的建筑物检测方法及系统 |
-
2023
- 2023-03-23 CN CN202310291665.1A patent/CN116403109A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475305A (zh) * | 2023-10-26 | 2024-01-30 | 广西壮族自治区自然资源遥感院 | 多类别建筑轮廓智能提取与规则化方法、应用系统 |
CN117475305B (zh) * | 2023-10-26 | 2024-07-19 | 广西壮族自治区自然资源遥感院 | 多类别建筑轮廓智能提取与规则化方法、应用系统 |
CN117523417A (zh) * | 2024-01-05 | 2024-02-06 | 沂水华辰房地产测绘有限公司 | 应用于自然资源统一确权登记的方法及电子设备 |
CN117523417B (zh) * | 2024-01-05 | 2024-03-29 | 沂水华辰房地产测绘有限公司 | 应用于自然资源统一确权登记的方法及电子设备 |
CN117853926A (zh) * | 2024-01-17 | 2024-04-09 | 南京北斗创新应用科技研究院有限公司 | 一种基于人工神经网络分类的建筑物检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903304B (zh) | 一种基于卷积神经元网络和多边形规则化的建筑物轮廓自动提取算法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111709420B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN116403109A (zh) | 一种基于改进神经网络的建筑物识别与提取方法及系统 | |
CN109740603B (zh) | 基于cnn卷积神经网络下的车辆字符识别方法 | |
CN110163213B (zh) | 基于视差图和多尺度深度网络模型的遥感图像分割方法 | |
CN111652892A (zh) | 一种基于深度学习的遥感影像建筑物矢量提取及优化方法 | |
CN111582093A (zh) | 一种基于计算机视觉和深度学习的高分辨率图像中小目标自动检测方法 | |
KR19990010210A (ko) | 대용량 패턴 정합 장치 및 방법 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN114693924A (zh) | 一种基于多模型融合的道路场景语义分割方法 | |
CN111507998A (zh) | 基于深度级联的多尺度激励机制隧道表面缺陷分割方法 | |
CN111524117A (zh) | 一种基于特征金字塔网络的隧道表面缺陷检测方法 | |
CN113591617B (zh) | 基于深度学习的水面小目标检测与分类方法 | |
CN113807301A (zh) | 一种新增建设用地自动提取方法及自动提取系统 | |
CN113033454A (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN109543498B (zh) | 一种基于多任务网络的车道线检测方法 | |
CN115512222A (zh) | 一种线下训练-线上学习的灾害场景地物损毁评估方法 | |
Xu et al. | License plate recognition system based on deep learning | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN113177956A (zh) | 一种面向无人机遥感影像的语义分割方法 | |
CN116863134A (zh) | 一种隧道衬砌裂缝长度与宽度的检测分割方法及系统 | |
CN111882545A (zh) | 基于双向信息传递及特征融合的织物疵点检测方法 | |
CN116342422A (zh) | 一种基于晶圆图去噪的识别缺陷方法 | |
CN110751150A (zh) | 一种基于fpga的二值神经网络车牌识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |