CN116704371A - 屋顶检测及分类方法、装置、设备和介质 - Google Patents
屋顶检测及分类方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116704371A CN116704371A CN202310737413.7A CN202310737413A CN116704371A CN 116704371 A CN116704371 A CN 116704371A CN 202310737413 A CN202310737413 A CN 202310737413A CN 116704371 A CN116704371 A CN 116704371A
- Authority
- CN
- China
- Prior art keywords
- roof
- data
- detection
- classification
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000013145 classification model Methods 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000011284 combination treatment Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种屋顶检测及分类方法、装置、设备和介质,涉及遥感影像检测技术领域,该方法包括:获取待检测场景的遥感影像数据和合成孔径雷达数据;对遥感影像数据和合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。本申请提升了特征微弱的建筑屋顶的检测和分类效果。
Description
技术领域
本申请涉及遥感影像检测技术领域,尤其是涉及一种屋顶检测及分类方法、装置、设备和介质。
背景技术
基于卫星遥感图像的屋顶轮廓线提取及屋顶分类在计算机视觉领域具有较强的科研及工业生产意义。但面对较为模糊的图像特征,将屋顶轮廓线条提取并进行细粒度的分类仍具有很大的挑战性。目前对于像素级别的屋顶轮廓线提取及屋顶分类,一方面采用直线检测等传统图像识别方法对建筑屋顶进行识别并结合机器学习方法如:支持向量机、随机森林等方法进行分类;另一方面采用深度学习方法,对基于遥感图像进行处理获取建筑房顶的目标区域及分类结果。
但目前方法无法对像素级别屋顶轮廓线进行精细的提取,同时面对特征不够明显的屋顶类型,无法达到屋顶的细粒度分类。
发明内容
本申请的目的在于提供一种屋顶检测及分类方法、装置、设备和介质,提升了特征微弱的建筑屋顶的检测和分类效果。
第一方面,本发明提供一种屋顶检测及分类方法,方法包括:获取待检测场景的遥感影像数据和合成孔径雷达数据;对遥感影像数据和合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。
在可选的实施方式中,目标屋顶检测分类模型的训练步骤,包括:对输入至初始屋顶检测分类模型的模态数据进行自监督训练,得到初始化权重;其中,模态数据包括遥感影像样本集和合成孔径雷达样本集;对模态数据进行数据增强处理,并在第一预设比例的训练轮次中通过增强后的样本对初始屋顶检测分类模型进行监督训练,在第二预设比例的训练轮次中通过模态数据进行监督训练;经过每个轮次训练后的检测器模型,基于最优mAP50指标所对应的目标权重确定对应的目标屋顶检测分类模型。
在可选的实施方式中,对输入至初始屋顶检测分类模型的模态数据进行自监督训练,包括:分别在遥感影像数据和合成孔径雷达数据进行自监督训练,将完成自监督训练后得到的权重确定为初始屋顶检测分类模型中dual-backbone结构的初始化权重;其中,自监督训练为对输入至初始屋顶检测分类模型的遥感影像数据和合成孔径雷达数据进行随机区域掩盖,并在训练过程中通过模型恢复被掩盖的部分,结合稀疏卷积进行建模。
在可选的实施方式中,对模态数据进行数据增强处理,包括:从遥感影像样本集和合成孔径雷达样本集中随机提取像素级实例目标;对实例目标进行预设的缩放操作、翻转操作和旋转操作的一种或多种处理,并将处理后的实例目标粘贴至选定的数据样本,生成增广后的数据样本。
在可选的实施方式中,目标屋顶检测分类模型包括两个子主干网络,其中,两个子主干网络为稠密连接;当单模态输入时,两个子主干网络的网络结构用于增大主干网络的增强特征提取能力;当多模态输入时,两个子主干网络的网络结构用于进行模态间融合。
在可选的实施方式中,目标屋顶检测分类模型以实例分割框架cascade maskrcnn为基础,网络基础组件包括骨干网络backbone、FPNneck、区域生成网络RPN、分割头FCNhead和分类头cascade rcnn head,整体模型通过backbone提取图像特征;Neck和head部分通过cascade mask rcnn的FPN neck及一个分割头FCN head和三个检测头进行特征分类和回归;其中,RPN的分类和回归损失分别使用了交叉熵损失(CE loss)和smooth L1 loss对RPN提取的ROI区域进行监督;分割头像素点的分类采用CE loss;针对分类损失,通过seesaw loss进行监督;针对bbox的回归损失,采用GIOU loss进行监督。
在可选的实施方式中,将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线,包括:将处理后的遥感影像数据和合成孔径雷达数据同时输入至预先训练的目标屋顶检测分类模型的主干网络,并通过两个子主干网络生成遥感影像数据和合成孔径雷达数据分别对应的金字塔特征图;将金字塔特征图通过区域生成网络RPN得到金字塔特征图上的感兴趣区域;将感兴趣区域进行特征提取和对齐结构ROI Align后得到目标区域特征;将目标区域特征分别输入至分割头、分类头和回归头,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线。
第二方面,本发明提供一种屋顶检测及分类装置,装置包括:数据获取模块,用于获取待检测场景的遥感影像数据和合成孔径雷达数据;数据预处理模块,用于对遥感影像数据和合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;屋顶检测及分类模块,用于将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。
第三方面,本发明提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现前述实施方式任一项的屋顶检测及分类方法。
第四方面,本发明提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现前述实施方式任一项的屋顶检测及分类方法。
本申请提供的屋顶检测及分类方法、装置、设备和介质,通过结合自监督的预训练策略,将模型主干网络权重在目标数据集上建模从而进一步提升对特征微弱的建筑屋顶的理解;通过双主干网络结构的检测器,大大提升检测器的分类及分割能力。双主干网络结构作为双模态数据(RGB+SAR)输入,结合迁移学习,将自监督预训练的主干网络权重模型进行模型初始化,从而增强模型针对特征微弱的建筑屋顶的检测、分割、分类能力。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种屋顶检测及分类方法的流程图;
图2为本申请实施例提供的一种目标屋顶检测分类模型的结构图;
图3为本申请实施例提供的一种两个子主干网络稠密连接方式的示意图;
图4为本申请实施例提供的一种modified copy paste合成数据的合成屋顶RGB图像实例;
图5为本申请实施例提供的一种具体的屋顶检测及分类的具体实施手段;
图6为本申请实施例提供的一种屋顶检测分类结果的示意图;
图7为本申请实施例提供的一种屋顶检测及分类装置的结构图;
图8为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本申请实施例提供了一种屋顶检测及分类方法,参见图1所示,该方法主要包括以下步骤:
步骤S110,获取待检测场景的遥感影像数据和合成孔径雷达数据;
步骤S120,对遥感影像数据和合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;
步骤S130,将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。
为便于理解,以下对本申请实施例所提供的屋顶检测及分类方法进行详细说明。
在进行模型训练或屋顶检测及分类时,均需要对遥感影像数据(遥感RGB数据)和合成孔径雷达(Synthetic Aperture Radar,SAR)数据分别做像素标准化处理,并保证两个模态数据(也即遥感影像数据和合成孔径雷达数据)已经对齐,以提升模型训练效果,或者提升屋顶检测及分类的精度。
本申请实施例所采用的目标屋顶检测分类模型包括两个子主干网络,为了更加灵活的处理RGB+SAR多模态输入,两个子主干网络为稠密连接。
以实例分割框架cascade mask rcnn为基础,网络基础组件包括骨干网络backbone、FPNneck、区域生成网络RPN、分割头FCN head和分类头cascade rcnn head,整体模型通过backbone提取图像特征。参见图2所示的网络结构图,每个子主干网络为ConvNeXtV2-base,二者通过稠密连接的方式增强高维度低维度信息的融合及两个子主干网络间特征信息的融合,图3示出了两个子主干网络稠密连接方式。当单模态输入时,该结构作为增大主干网络的增强特征提取能力的特征提取组件。当多模态输入时,该结构可有利的进行模态间特征融合。
为了提升子主干网络对于遥感场景下数据的建模能力,本申请实施例采用ConvNeXt V2-base的自监督训练方式FCMAE(Fully Convolutional MaskedAutoencoders),该自监督训练方案的思想是在输入图像上随机掩盖一些区域,然后让模型尝试恢复被掩盖的部分,并引入稀疏卷积方式来建模,缓解卷积操作在自监督训练上的不适配问题。该步骤初始化权重为开源的ConvNeXt V2-base在Imagenet22k数据集上的预训练权重。分别在RGB和SAR数据集上进行自监督训练,并将完成后的权重作为检测器训练中dual-backbone结构的初始化权重。
在对模型结构进行说明后,以下对该目标屋顶检测分类模型的训练进行详细说明。在一种实施方式中,目标屋顶检测分类模型的训练步骤,可以包括以下步骤1至步骤3:
步骤1,对输入至初始屋顶检测分类模型的模态数据进行自监督训练,得到初始化权重;其中,模态数据包括遥感影像样本集和合成孔径雷达样本集。
在具体实施时,可以分别在遥感影像数据和合成孔径雷达数据进行自监督训练,将完成自监督训练后得到的权重确定为初始屋顶检测分类模型中dual-backbone结构的初始化权重;其中,自监督训练为对输入至初始屋顶检测分类模型的遥感影像数据和合成孔径雷达数据进行随机区域掩盖,并在训练过程中通过模型恢复被掩盖的部分,结合稀疏卷积进行建模。
步骤2,对模态数据进行数据增强处理,并在第一预设比例的训练轮次中通过增强后的样本对初始屋顶检测分类模型进行监督训练,在第二预设比例的训练轮次中通过模态数据进行监督训练;
在具体实施时,对模态数据进行数据增强处理,可以包括以下步骤2.1和步骤2.2:
步骤2.1,从遥感影像样本集和合成孔径雷达样本集中随机提取像素级实例目标;
步骤2.2,对实例目标进行预设的缩放操作、翻转操作和旋转操作的一种或多种处理,并将处理后的实例目标粘贴至选定的数据样本,生成增广后的数据样本。
可选的,为了避免因数据增强带来的数据分布偏移,上述第一预设比例可以为90%,第二预设比例可以为10%,也即训练前90%的轮次重复步骤2.1和步骤2.2,也即使用modified copy paste进行数据增强;训练后10%的轮次停止使用modified copy paste。在一种示例中,图4示出了一种modified copy paste合成数据的合成屋顶RGB图像实例。
进一步,在模型训练时,模型的Neck和head部分通过cascade mask rcnn的FPNneck及一个分割头FCN head和三个检测头进行特征分类和回归;其中,RPN的分类和回归损失分别使用了交叉熵损失(CE loss)和smooth L1 loss对RPN提取的ROI区域进行监督;分割头像素点的分类采用CE loss;针对分类损失,通过seesaw loss进行监督;针对bbox的回归损失,采用GIOU loss进行监督。
步骤3,经过每个轮次训练后的检测器模型,基于最优mAP50指标所对应的目标权重确定对应的目标屋顶检测分类模型。
在一种实施方式中,经过数据增强、监督损失组合处理后的每个轮次训练后的检测器模型,可以将经过验证集合评估后选择出mAP50指标最好模型权重作为接下来检测器推理使用的权重。可选的,也可以将mAP50指标较好的预设个数的模型权重进行均值或方差处理确定目标权重。在实际应用中,可以对两种确定目标权重的方式进行比较,选择误差较小的一种目标权重确定目标屋顶检测分类模型。
当训练得到上述目标屋顶检测分类模型后,将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线,在具体实施时,可以包括以下步骤A至步骤D:
步骤A,目标屋顶检测分类模型的主干网络,并通过两个子主干网络生成遥感影像数据和合成孔径雷达数据分别对应的金字塔特征图;
步骤B,将金字塔特征图通过区域生成网络RPN得到金字塔特征图上的感兴趣区域;
步骤C,将感兴趣区域进行特征提取和对齐结构ROI Align后得到目标区域特征;
步骤D,将目标区域特征分别输入至分割头、分类头和回归头,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线。
通过上述目标屋顶检测分类模型对多模态数据(RGB+SAR)进行屋顶检测分类,将两个模态的特征提取器进行特征层面的稠密连接,大大提升模型的鲁棒性和精度。
进一步,本申请实施例还提供了另一种屋顶检测及分类的具体实施手段,参见图5所示,该方式主要包括以下步骤一至步骤五:
步骤一,数据预处理。
本申请实施例使用的屋顶检测分类方法使用遥感RGB数据(遥感影像数据)和SAR(合成孔径雷达)数据。在模型开发和推理前需对两个模态数据分别做像素标准化处理,且保证两个模态数据已经对齐。
步骤二,RGB、SAR模态数据自监督训练。
本申请实施例所提供的检测器提取特征的主干网络(也即屋顶检测分类模型)由两个子主干网络构成(参见图2)。每个子主干网络为ConvNeXt V2-base。为了提升子主干网络对于遥感场景下数据的建模能力,本方案采用ConvNeXt V2-base的自监督训练方式FCMAE(Fully Convolutional Masked Autoencoders),该自监督训练方案的思想是在输入图像上随机掩盖一些区域,然后让模型尝试恢复被掩盖的部分,并引入稀疏卷积方式来建模,缓解卷积操作在自监督训练上的不适配问题。该步骤初始化权重为开源的ConvNeXtV2-base在Imagenet22k数据集上的预训练权重。分别在RGB和SAR数据集上进行自监督训练,并将完成后的权重作为检测器训练中dual-backbone结构的初始化权重。
步骤三,屋顶检测器训练。
检测器模型训练使用经典的梯度下降及反向传播算法,训练过程主要包括三个重要组件:1)数据增强策略;2)检测器模型;3)监督损失组合。
1)数据增强策略Modified copy paste:在检测器训练过程中,有效的数据增强策略是检测器鲁棒性的有利保障。simple copy paste作为实例分割检测器的重要数据增强手段之一。本申请实施例提出针对遥感场景的modified copy paste,针对遥感图像的俯拍场景,在不破坏数据语义信息的基础上最大程度的丰富数据集。其数据增广流程为:
a)从数据集中随机提取像素级实例目标;
b)对实例目标进行随机的缩放、翻转、旋转;
c)将步骤b)处理后的实例目标粘贴到选定数据样本上,形成增广后新的数据样本;
d)训练前90%的轮次重复步骤1)至步骤3),训练后10%的轮次停止使用modifiedcopy paste。
2)模型结构Dual-backbone:本方案使用经典Two stage实例分割框架cascademask rcnn为基础,网络基础组件包括backbone、FPNneck、RPN、FCN head、cascade rcnnhead,整体模型通过backbone提取图像特征。为了更加灵活的处理RGB+SAR多模态输入,本方案参考CBnet网络结构,设计出两个稠密连接的dual-backbone结构,其网络结构如图3所示。两个子主干网络均为ConvNeXt V2-base网络,二者通过稠密连接的方式增强高维度低维度信息的融合及两个子主干网络间特征信息的融合。当单模态输入时,该结构作为增大主干网络的增强特征提取能力的特征提取组件。当多模态输入时,该结构可有利的进行模态间特征融合。
3)监督损失组合:Neck和head部分沿用cascade mask rcnn的FPN neck及一个分割头FCN head和三个检测头进行特征分类和回归。其中RPN的分类和回归损失分别使用了交叉熵损失(CE loss)和smooth L1 loss对RPN提取的ROI区域进行监督。分割头像素点的分类采用CE loss。为了应对实际场景中数据会存在长尾分布的问题,在分类损失的使用上,本方案采用seesaw loss进行监督,对于bbox的回归损失,本方案采用GIOU loss进行监督。
步骤四,模型评估。
经过步骤三每个轮次训练后的检测器模型,经过验证集合评估后选择出mAP50指标最好模型权重作为接下来检测器推理使用的权重。
步骤五,模型推理。
将待检测场景的RGB数据和SAR数据,同时输入经过以上步骤训练和筛选的检测器模型,通过端到端的模型推理,直接输出检测到的屋顶外接矩形框、类别、像素级别的轮廓。推理流程细节如下:
1)将第二步训练好的模型权重进行加载初始化检测器模型;
2)将RGB、SAR数据分别进行标准化处理;
3)将2)处理好的两个模态数据同时输入至检测器主干网络,数据通过两个主干网络后,形成金字塔状的特征图;
4)特征图经过RPN后得到特征图上的感兴趣区域ROI;
5)ROI区域特征经过特征提取对齐结构ROI Align后得到目标区域特征;
6)最后将目标区域特征分别送入分割头和分类头和回归头得到屋顶区域的分割掩膜、类别信息和外接矩形。
7)将第6)步输出的外接矩形框通过NMS的后处理筛选出最终输出的屋顶检测分类结果如图6所示。
综上,本申请实施例引入端到端的RGB、SAR的多模态屋顶检测分类方案,并将两个模态的特征提取器进行特征层面的稠密连接,大大提升模型的鲁棒性和精度;为了进一步提升模型的精度,本方案使用自监督的预训练范式,并在训练过程中采取有效的数据增强组合和微调策略,在不改变数据分布的前提下,增强模型分割、分类精度;训练过程中每个阶段损失的组合使用方法能够很好应对长尾数据分布的情况,很好监督各分类及回归分支。
在模型结构上,本申请实施例采用经典端到端的实例分割算法cascade maskrcnn为基础框架,能够同时输出建筑物屋顶的检测外界矩形框、屋顶类别及精确的屋顶轮廓分割线。针对卫星遥感场景下RGB、SAR多模态图像输入或者RGB单模态图像输入,创新提出灵活的dual-backbone结构进行特征提取,提高模型特征提取能力增强模型鲁棒性。
模型训练过程中,本申请实施例提出针对卫星遥感场景更加有效的数据增强策略modified copy paste,在保持数据分布的基础上对现有的数据集进行扩充从而加强模型的泛化能力。模型损失使用上结合seesaw loss和GIOU loss的损失组合方式,增强模型抵抗长尾分布能力从而大大提高模型精度。
基于上述方法实施例,本申请实施例还提供一种屋顶检测及分类装置,参见图7所示,该装置主要包括以下部分:
数据获取模块710,用于获取待检测场景的遥感影像数据和合成孔径雷达数据;
数据预处理模块720,用于对遥感影像数据和合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;
屋顶检测及分类模块730,用于将处理后的遥感影像数据和合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。
在可选的实施方式中,上述装置还包括:模型训练模块,用于:
对输入至初始屋顶检测分类模型的模态数据进行自监督训练,得到初始化权重;其中,模态数据包括遥感影像样本集和合成孔径雷达样本集;
对模态数据进行数据增强处理,并在第一预设比例的训练轮次中通过增强后的样本对初始屋顶检测分类模型进行监督训练,在第二预设比例的训练轮次中通过模态数据进行监督训练;
经过每个轮次训练后的检测器模型,基于最优mAP50指标所对应的目标权重确定对应的目标屋顶检测分类模型。
在可选的实施方式中,上述模型训练模块,还用于:
分别在遥感影像数据和合成孔径雷达数据进行自监督训练,将完成自监督训练后得到的权重确定为初始屋顶检测分类模型中dual-backbone结构的初始化权重;
其中,自监督训练为对输入至初始屋顶检测分类模型的遥感影像数据和合成孔径雷达数据进行随机区域掩盖,并在训练过程中通过模型恢复被掩盖的部分,结合稀疏卷积进行建模。
在可选的实施方式中,上述模型训练模块,还用于:
从遥感影像样本集和合成孔径雷达样本集中随机提取像素级实例目标;
对实例目标进行预设的缩放操作、翻转操作和旋转操作的一种或多种处理,并将处理后的实例目标粘贴至选定的数据样本,生成增广后的数据样本。
在可选的实施方式中,目标屋顶检测分类模型包括两个子主干网络,其中,两个子主干网络为稠密连接;
当单模态输入时,两个子主干网络的网络结构用于增大主干网络的增强特征提取能力;
当多模态输入时,两个子主干网络的网络结构用于进行模态间融合。
在可选的实施方式中,目标屋顶检测分类模型以实例分割框架cascade maskrcnn为基础,网络基础组件包括骨干网络backbone、FPNneck、区域生成网络RPN、分割头FCNhead和分类头cascade rcnn head,整体模型通过backbone提取图像特征;
Neck和head部分通过cascade mask rcnn的FPN neck及一个分割头FCN head和三个检测头进行特征分类和回归;
其中,RPN的分类和回归损失分别使用了交叉熵损失(CE loss)和smooth L1 loss对RPN提取的ROI区域进行监督;分割头像素点的分类采用CE loss;针对分类损失,通过seesaw loss进行监督;针对bbox的回归损失,采用GIOU loss进行监督。
在可选的实施方式中,上述屋顶检测及分类模块730,还用于:
将处理后的遥感影像数据和合成孔径雷达数据同时输入至预先训练的目标屋顶检测分类模型的主干网络,并通过两个子主干网络生成遥感影像数据和合成孔径雷达数据分别对应的金字塔特征图;
将金字塔特征图通过区域生成网络RPN得到金字塔特征图上的感兴趣区域;
将感兴趣区域进行特征提取和对齐结构ROI Align后得到目标区域特征;
将目标区域特征分别输入至分割头、分类头和回归头,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线。
本申请实施例提供的屋顶检测及分类装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,屋顶检测及分类装置的实施例部分未提及之处,可参考前述屋顶检测及分类方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图8所示,为该电子设备的结构示意图,其中,该电子设备100包括处理器81和存储器80,该存储器80存储有能够被该处理器81执行的计算机可执行指令,该处理器81执行该计算机可执行指令以实现上述任一项屋顶检测及分类方法。
在图8示出的实施方式中,该电子设备还包括总线82和通信接口83,其中,处理器81、通信接口83和存储器80通过总线82连接。
其中,存储器80可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口83(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线82可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线82可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器81可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器81中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器81可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器81读取存储器中的信息,结合其硬件完成前述实施例的屋顶检测及分类方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述屋顶检测及分类方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的屋顶检测及分类方法、装置、设备和介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种屋顶检测及分类方法,其特征在于,所述方法包括:
获取待检测场景的遥感影像数据和合成孔径雷达数据;
对所述遥感影像数据和所述合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;
将处理后的所述遥感影像数据和所述合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,所述目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。
2.根据权利要求1所述的屋顶检测及分类方法,其特征在于,所述目标屋顶检测分类模型的训练步骤,包括:
对输入至初始屋顶检测分类模型的模态数据进行自监督训练,得到初始化权重;其中,所述模态数据包括遥感影像样本集和合成孔径雷达样本集;
对所述模态数据进行数据增强处理,并在第一预设比例的训练轮次中通过增强后的样本对所述初始屋顶检测分类模型进行监督训练,在第二预设比例的训练轮次中通过所述模态数据进行监督训练;
经过每个轮次训练后的检测器模型,基于最优mAP50指标所对应的目标权重确定对应的所述目标屋顶检测分类模型。
3.根据权利要求2所述的屋顶检测及分类方法,其特征在于,对输入至初始屋顶检测分类模型的模态数据进行自监督训练,包括:
分别在所述遥感影像数据和所述合成孔径雷达数据进行自监督训练,将完成自监督训练后得到的权重确定为初始屋顶检测分类模型中dual-backbone结构的初始化权重;
其中,自监督训练为对输入至初始屋顶检测分类模型的所述遥感影像数据和所述合成孔径雷达数据进行随机区域掩盖,并在训练过程中通过模型恢复被掩盖的部分,结合稀疏卷积进行建模。
4.根据权利要求2所述的屋顶检测及分类方法,其特征在于,对所述模态数据进行数据增强处理,包括:
从所述遥感影像样本集和所述合成孔径雷达样本集中随机提取像素级实例目标;
对所述实例目标进行预设的缩放操作、翻转操作和旋转操作的一种或多种处理,并将处理后的实例目标粘贴至选定的数据样本,生成增广后的数据样本。
5.根据权利要求1至4任一项所述的屋顶检测及分类方法,其特征在于,所述目标屋顶检测分类模型包括两个子主干网络,其中,所述两个子主干网络为稠密连接;
当单模态输入时,两个子主干网络的网络结构用于增大主干网络的增强特征提取能力;
当多模态输入时,两个子主干网络的网络结构用于进行模态间融合。
6.根据权利要求5所述的屋顶检测及分类方法,其特征在于,所述目标屋顶检测分类模型以实例分割框架cascade mask rcnn为基础,网络基础组件包括骨干网络backbone、FPNneck、区域生成网络RPN、分割头FCN head和分类头cascade rcnn head,整体模型通过backbone提取图像特征;
Neck和head部分通过cascade mask rcnn的FPN neck及一个分割头FCN head和三个检测头进行特征分类和回归;
其中,RPN的分类和回归损失分别使用了交叉熵损失(CE loss)和smooth L1 loss对RPN提取的ROI区域进行监督;分割头像素点的分类采用CE loss;针对分类损失,通过seesaw loss进行监督;针对bbox的回归损失,采用GIOUloss进行监督。
7.根据权利要求1所述的屋顶检测及分类方法,其特征在于,将处理后的所述遥感影像数据和所述合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线,包括:
将处理后的所述遥感影像数据和所述合成孔径雷达数据同时输入至所述预先训练的目标屋顶检测分类模型的主干网络,并通过两个子主干网络生成所述遥感影像数据和所述合成孔径雷达数据分别对应的金字塔特征图;
将所述金字塔特征图通过区域生成网络RPN得到所述金字塔特征图上的感兴趣区域;
将所述感兴趣区域进行特征提取和对齐结构ROI Align后得到目标区域特征;
将所述目标区域特征分别输入至分割头、分类头和回归头,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线。
8.一种屋顶检测及分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取待检测场景的遥感影像数据和合成孔径雷达数据;
数据预处理模块,用于对所述遥感影像数据和所述合成孔径雷达数据进行像素标准化处理和多模态数据对齐处理;
屋顶检测及分类模块,用于将处理后的所述遥感影像数据和所述合成孔径雷达数据输入至预先训练的目标屋顶检测分类模型中,输出建筑物屋顶类别、屋顶外接矩形框和屋顶分割轮廓线;其中,所述目标屋顶检测分类模型为通过遥感影像数据和合成孔径雷达数据进行多模态自监督预训练的双主干网络结构检测器。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的屋顶检测及分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的屋顶检测及分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310737413.7A CN116704371A (zh) | 2023-06-20 | 2023-06-20 | 屋顶检测及分类方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310737413.7A CN116704371A (zh) | 2023-06-20 | 2023-06-20 | 屋顶检测及分类方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704371A true CN116704371A (zh) | 2023-09-05 |
Family
ID=87827378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310737413.7A Pending CN116704371A (zh) | 2023-06-20 | 2023-06-20 | 屋顶检测及分类方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704371A (zh) |
-
2023
- 2023-06-20 CN CN202310737413.7A patent/CN116704371A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543606B (zh) | 一种加入注意力机制的人脸识别方法 | |
CN108875624B (zh) | 基于多尺度的级联稠密连接神经网络的人脸检测方法 | |
CN112132119B (zh) | 客流统计方法、装置、电子设备和存储介质 | |
CN111160379A (zh) | 图像检测模型的训练方法及装置、目标检测方法及装置 | |
EP2919162A1 (en) | Image processing apparatus and image processing method | |
CN111814755A (zh) | 面向夜间运动场景的多帧图像行人检测方法和装置 | |
CN111798409A (zh) | 一种基于深度学习的pcb缺陷数据生成方法 | |
CN113343985B (zh) | 车牌识别方法和装置 | |
CN112364873A (zh) | 弯曲文本图像的文字识别方法、装置及计算机设备 | |
CN113223614A (zh) | 一种染色体核型分析方法、系统、终端设备和存储介质 | |
Bedruz et al. | Philippine vehicle plate localization using image thresholding and genetic algorithm | |
CN112101114A (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
CN113807237B (zh) | 活体检测模型的训练、活体检测方法、计算机设备及介质 | |
CN113408342B (zh) | 一种基于特征确定交并比阈值的目标检测方法 | |
CN112784494B (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN112348011B (zh) | 一种车辆定损方法、装置及存储介质 | |
CN117765485A (zh) | 基于改进的深度残差网络的车型识别方法、装置和设备 | |
CN117765348A (zh) | 目标检测模型的部署方法和目标检测方法及电子设备 | |
Han et al. | Feature fusion and adversary occlusion networks for object detection | |
CN113221929A (zh) | 一种图像处理方法以及相关设备 | |
Xie et al. | Dynamic Dual-Peak Network: A real-time human detection network in crowded scenes | |
CN116704371A (zh) | 屋顶检测及分类方法、装置、设备和介质 | |
CN116189286A (zh) | 一种视频图像暴力行为检测模型及检测方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
Xu et al. | Generative detect for occlusion object based on occlusion generation and feature completing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |