CN117456530B - 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 - Google Patents
基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN117456530B CN117456530B CN202311753066.3A CN202311753066A CN117456530B CN 117456530 B CN117456530 B CN 117456530B CN 202311753066 A CN202311753066 A CN 202311753066A CN 117456530 B CN117456530 B CN 117456530B
- Authority
- CN
- China
- Prior art keywords
- layer
- building
- contour segmentation
- remote sensing
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000010339 dilation Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000007726 management method Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
Abstract
本发明属于图像处理技术领域,提供了基于遥感图像的建筑物轮廓分割方法、系统、介质及设备,其技术方案为:首先,通过在残差网络中引入扩张卷积,获取不同尺度的隐层特征;其次,引入自适应层选择机制,自主选择最具信息量的候选残差层特征与最终深层特征相融合;最后,解码器网络采用简单而高效的卷积和上采样操作,能够快速将特征图恢复到原始图像尺寸,并保持图像信息的完整性。相较于传统的图像处理方法,该方法能够更准确地提取建筑物的轮廓,可以为城市规划、国土资源管理和灾害监测等领域的应用提供支持。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及基于遥感图像的建筑物轮廓分割方法、系统、介质及设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着无人机技术的快速发展,无人机低空遥感图像成为获取高分辨率地表信息的重要数据来源。在城市规划、环境监测和灾害响应等领域,准确提取建筑物轮廓是一项关键任务,对于实现城市智能化和精确资源管理具有重要意义。然而,由于建筑物的复杂形状、遮挡和光照变化等因素,传统的图像处理方法在建筑物轮廓分割任务中面临一定的挑战。
近年来,深度学习方法在建筑物轮廓分割任务中得到了广泛的应用。深度卷积神经网络通过学习图像的高级特征表示,具备了在复杂场景中进行准确分割的能力,特别是基于卷积神经网络框架的深度学习方法在图像分割任务中取得了显著的成果。然而,将深度学习方法应用于无人机遥感图像的建筑物轮廓分割仍存在一些难点问题。首先,无人机遥感图像通常具有高分辨率和大尺寸,导致处理复杂度的增加。同时,建筑物的形状和尺寸多样,目前不具备对不同尺度和形状的建筑物进行准确分割的能力。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于遥感图像的建筑物轮廓分割方法、系统、介质及设备,其通过在残差网络中引入扩张卷积,获取不同尺度的隐层特征;其次,引入自适应层选择机制,自主选择最具信息量的候选残差层特征与最终深层特征相融合;最后,解码器网络采用简单而高效的卷积和上采样操作,能够快速将特征图恢复到原始图像尺寸,并保持图像信息的完整性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一方面提供基于遥感图像的建筑物轮廓分割方法,包括如下步骤:
获取建筑物遥感图像数据;
基于建筑物遥感图像数据和训练后的建筑物轮廓分割模型得到最终的轮廓分割图像;其中,所述建筑物轮廓分割模型包括编码器网络、自适应层选择机制和解码器网络;所述建筑物轮廓分割模型的构建过程包括:
使用具有不同的扩张率的扩张卷积层残差网络作为编码器的主干网络,通过在不同尺度上进行扩张卷积操作来捕捉多尺度的上下文信息得到第一特征图;
通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图;
融合第一特征图和第二特征图,经过解码器网络解码后得到最终轮廓分割图像。
进一步地,获取建筑物遥感图像数据后,对图像进行预处理,生成轮廓标注图与显著性边界图。
进一步地,所述扩张卷积层残差网络包括输入卷积层、候选残差层和过渡卷积层,结合建筑物遥感图像和输入卷积层后,改变输入图像通道数;通过多个相同尺度的候选残差层逐层主干网络特征作为后续融合的候选特征,在每一层候选残差层设置对应的扩张卷积。
进一步地,扩张卷积通过扩张率来控制卷积核中的元素间隔,当扩张率等于1,扩张卷积操作与普通卷积操作一致,当扩张率大于1,扩大局部卷积加权求和范围,扩大每个卷积输出信息的范围。
进一步地,所述通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图,包括:
通过特征向量余弦相似度来评价候选残差层特征中的显著性特征,得到特征显著性评价矩阵;
根据特征显著性评价矩阵,选择其最大值对应的候选残差层作为选定目标层;
基于选定目标层计算得到选择矩阵;
根据选择矩阵对候选残差层特征进行选取得到第二特征图。
进一步地,在神经网络训练反向传播过程中,使用函数来替代函数。
进一步地,建筑物轮廓分割模型训练时,在损失函数中加入了显著性边界图用来对建筑物边界的错误预测进行损失评价,引入用于平衡轮廓分割假阳性与假阴性的损失评价。
本发明的第二方面提供基于遥感图像的建筑物轮廓分割系统,包括:
数据获取模块,被配置为获取建筑物遥感图像数据;
轮廓分割模块,被配置为基于建筑物遥感图像数据和训练后的建筑物轮廓分割模型得到最终的轮廓分割图像;其中,所述建筑物轮廓分割模型包括编码器网络、自适应层选择机制和解码器网络;所述建筑物轮廓分割模型的构建过程包括:
使用具有不同的扩张率的扩张卷积层残差网络作为编码器的主干网络,通过在不同尺度上进行扩张卷积操作来捕捉多尺度的上下文信息得到第一特征图;
通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图;
融合第一特征图和第二特征图,经过解码器网络解码后得到最终轮廓分割图像。
本发明的第三方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于遥感图像的建筑物轮廓分割方法中的步骤。
本发明的第四方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于遥感图像的建筑物轮廓分割方法中的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明提出一种用于建筑物轮廓分割的隐层特征融合网络框架,该框架首先使用扩张卷积残差网络作为编码器的主干网络,用于提取输入图像的特征。通过自适应层选择机制选取主干网络中候选残差层的显著特征,并与经过特征编码的最深层特征进行融合,从而整合图像的浅层与深层特征信息,最后经过解码器网络得到最终轮廓分割图像输出。
2、本发明提出一种用于明确代表性特征隐层的自适应层选择机制,该网络能够自主地在候选残差层中选择显著特征,使其与最终主干网络输出的深层特征相融合,提高网络模型特征提取的有效性,提升模型轮廓分割结果的准确性与泛化性。
3、本发明提出一种包含的复合损失函数。为解决建筑物排列紧密、树木遮挡等难题,在损失函数中加入了显著性边界图用来对建筑物边界的错误预测进行损失评价。针对建筑物与背景图像素分布不均匀、不平衡的问题,引入用于平衡轮廓分割假阳性与假阴性的损失评价,从而得到更好的轮廓识别效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例提供的数据预处理流程图;
图2是本发明实施例提供的轮廓标注图;
图3是本发明实施例提供的轮廓标注图对应的显著性边界图;
图4是本发明实施例提供的裁剪后的轮廓标注图和显著性边界图,其中,图4中(a)为裁剪后的轮廓标注图,图4中(b)为裁剪后的显著性边界图;
图5是本发明实施例提供的基于自适应隐层特征融合深度神经网络模型;
图6是本发明实施例提供的城市场景下的标签图和分割图;其中,图6中(a)为城市场景下的标签图,图6中(b)为城市场景下的分割图;
图7是本发明实施例提供的城郊场景下的标签图和分割图;其中,图7中(a)为城郊场景下的标签图,图7中(b)为城郊场景下的分割图;
图8是本发明实施例提供的乡村场景下的标签图和分割图;其中,图8中(a)为乡村场景下的标签图,图8中(b)为乡村场景下的分割图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明提出了一种针对无人机低空遥感图像的建筑轮廓分割深度学习方法。首先,通过在残差网络中引入扩张卷积,获取不同尺度的隐层特征。其次,引入自适应层选择机制,自主选择最具信息量的候选残差层特征与最终深层特征相融合。最后,解码器网络采用简单而高效的卷积和上采样操作,能够快速将特征图恢复到原始图像尺寸,并保持图像信息的完整性。提出了复合损失函数,通过在计算交叉熵损失函数中添加显著性边界图,用于惩罚对建筑物边缘的错误预测。通过平衡假阳性和假阴性的影响,更好地引导模型学习建筑物轮廓分割的准确性和完整性。通过在测试集上的验证,本发明的方法展现出了卓越的性能。相较于传统的图像处理方法,本发明方法能够更准确地提取建筑物的轮廓,可以为城市规划、国土资源管理和灾害监测等领域的应用提供支持。
实施例一
本实施例提供基于遥感图像的建筑物轮廓分割方法,包括如下步骤:
步骤1:获取建筑物遥感图像数据;
针对建筑物低空遥感任务,为了获取高质量的建筑物图像数据,利用具有高分辨率相机的无人机进行低空拍摄。数据获取过程选取飞行高度200米进行俯瞰拍摄,采集得到一系列关于采集场景的高分辨率低空遥感图像,图像像素为5472×3478。
本实施例中,采集场景包含城市、城郊、乡村三种不同场景,场景中包含不同类别的高层写字楼、底层楼房、平房、板房、仓库等各种不同类型建筑。
由于建筑物分布不均匀、树木遮挡等因素,需要通过数据预处理完成建筑物轮廓标注,从而形成低空遥感图像标注数据集,辅助深度学习模型完成建筑物轮廓分割任务。
步骤2:数据预处理;
获取无人机采集到的图像数据后,本实施例中,通过对全体低空遥感图像进行预处理,分别生成轮廓标注图与显著性边界图,从而形成用于轮廓分割任务的图像数据集。
如图1所示,首先,通过人工标注建筑物轮廓的像素坐标,得到相对应的建筑物轮廓位置信息;然后,将人工标注的像素坐标作为轮廓多边形的顶点坐标数组,根据数组填充凸多边形建筑物所有的像素值为1,即可转化为轮廓标注图。转化后得到的轮廓标注图为二值图像,如图2所示。其中,任意像素是轮廓标注图/>中的二值像素,其取值为/>(背景)或/>(建筑物)。
此外,使用图像形态学操作提取建筑物的显著性边界图,如图3所示为图2中轮廓标注图的显著性边界图。显著性边界图作为辅助标注,其在训练深度神经网络过程中作为损失函数之一,用于惩罚对建筑物边缘的错误预测。对于显著性边界图中的任意像素位置/>,其取值/>计算方法如下所示:/>,/>,其中,/>是用于解决类别不平衡的权重映射,/>是该像素距离最近建筑物边界的距离,/>是该像素距离次最近建筑物边界的距离,/>和/>是调节边界图的超参数。/>,/>分别代表轮廓标注图/>中像素值为0和1的像素点个数,/>代表轮廓标注图/>中的像素个数。
为了方便数据的读取以及减少处理高分辨图像所需的计算资源,将像素为5472×3478的原始图片裁剪成像素为1200×1200的图片。裁剪后的真实采集图片、轮廓标注图与显著性边界图用于构成最终的数据集样本与标注,如图4所示,图4中(a)为裁剪后的轮廓标注图,图4中(a)为裁剪后的显著性边界图。
步骤3:建筑物轮廓分割网络模型构建
所述建筑物轮廓分割网络模型采用深度神经网络模型,包括编码器网络、自适应层选择机制和解码器网络三个部分组成。所提出的深度神经网络模型结构如图5所示,其输入为真实采集图像,输出为轮廓分割图像。
其中,所述编码器网络由扩张卷积残差子网络与编码器深层特征编码子网络构成。
首先,扩张残差网络模型如图5所示,包括输入卷积层、候选残差层和过渡卷积层;输入卷积层卷积核尺寸为7×7,用于改变输入图像通道数,候选残差层由尺寸为3×3的基础残差块构成,用于逐层提取主干网络特征并作为后续特征融合的候选特征,过渡卷积层卷积核尺寸为3×3,能够减少因加入扩张卷积带来的网格状激活现象。
扩张卷积通过扩张率(Dilation Rate)来控制卷积核中的元素间隔,可以扩大卷积核的感受野,从而能够捕获更广阔的上下文信息,计算公式如下:,其中,/>为扩张卷积核尺寸,/>为原卷积核尺寸,/>为扩张率,代表卷积核中两个元素的间隔。
当时,扩张卷积操作与普通卷积操作一致,能够提取一般卷积特征并进行特征图降维;当扩张率/>时,将扩大卷积核的感受野,从而扩大局部卷积加权求和范围,能够使每个卷积输出都包含较大范围的信息。
经过多层卷积网络会逐渐降低特征图的尺寸,当特征图尺寸减小到一定程度时,特征图所蕴含的场景的空间结构便会被破坏,导致轮廓分割的精度下降。因此,所提出的网络在浅层中令扩张率,当特征图尺寸达到150×150后,令扩张率/>,扩大卷积核的感受野,获取更丰富的上下文信息;具体扩张卷积残差子网络模型配置如表1所示。
表1扩张卷积残差子网络模型
其次,在图像分割任务中,由于建筑物尺度的不一致性,单一尺度的特征提取容易导致尺度失配问题。针对这一问题,利用具有不同的扩张率的扩张卷积层,通过在不同尺度上进行扩张卷积操作来捕捉多尺度的上下文信息,并提高模型对尺度变化的鲁棒性。具体计算方式如下,经过编码器候选残差层网络提取得到特征图,通过1×1的卷积层/>得到:/>,通过扩张率为12、24、36的扩张卷积层/>、/>、/>得到跨尺度:/>,/>,/>,通过平均池化/>和1×1卷积层/>得到/>:/>,最后将五张特征图拼接后再经过一个1×1的变通道卷积层/>,得到最终的输出特征图/>:/>。
综合以上,具体编码器深层特征编码子网络模型具体配置如表2所示。
表2编码器深层特征编码子网络
由于每张图片所包含的语义信息不同,经过扩张残差网络的提取得到多尺度的特征图所包含的信息量也不同。
自适应层选择机制通过设计自适应层选择模块,对候选残差层产生特征的重要性进行决策,针对所有候选残差层选出显著性特征层进行后续特征融合。经过自适应层选择机制得到的选择矩阵为/>,其中/>对应第/>层处选择的输出特征通路,0表示不选择该候选残差层,1表示选择该候选残差层。第/>层的特征输出可以表示为。
对于第层特征图,若其被选择网络判断为显著特征,则其将与最终编码器深层特征相融合。
为计算选择矩阵,首先,根据候选残差层特征/>,自适应层选择机制用于决定哪些候选残差层产生的特征/>,/>和最终深层特征进行融合。通过特征向量余弦相似度/>来评价输入特征/>中的显著性特征,可以得到特征显著性评价矩阵,具体计算方法如下所示:/>,其中,/>、/>,/>与/>为线性映射参数,/>函数将向量余弦相似度值调整为[0,1]的权重值。
根据特征显著性评价矩阵,选择其最大值对应的候选残差层/>作为选定目标层,其计算公式如下:/>,进一步可得到选择矩阵/>中的元素为:/>,从而可得到自适应层选择机制的选择矩阵/>。
然而,由于计算目标候选残差层的/>函数不可微,导致其无法进行反向传播完成训练神经网络更新。为解决该问题,在神经网络训练反向传播过程中,使用函数来替代/>函数。
,其中,/>为Gumbel概率分布,/>是特征显著性评价矩阵/>中的待选择特征的概率。
由于各个候选残差层特征的输出通道数不一致,为实现任意候选残差层能够进行反向传播训练,通过1×1的变通道卷积层将选取特征的输出通道数变为48,具体表示如下:/>,解码器网络由特征融合、卷积层以及上采样操作构成。经过自适应层选择机制选取的特征/>与最终特征/>进行拼接操作得到融合的特征图/>:/>,
接着将特征图通过卷积层来细化特征和逐步恢复空间信息,最终经过上采样将特征图恢复到原有尺寸即可得到预测的轮廓分割图:/>,其中,为上采样函数,在保证图像信息不丢失的情况下,放大图像的细节信息,从而恢复到原图像尺寸。
由于低空遥感数据集存在建筑物排列紧密、建筑物与背景像素分布不均匀等问题,会影响最终的分割效果。针对此问题,本实施例提出了一种复合损失函数,该损失函数包含显著性边界评价损失与Tversky损失两种评价指标,具体公式如下:,其中,/>为复合损失函数,/>为轮廓标注图,/>为预测图。
具体来说,显著性边界损失函数主要针对建筑物排列密集导致难以区分边界的问题,用于惩罚对建筑物边缘的错误预测,其计算公式如下:,其中,/>代表显著性边界图,/>代表像素点坐标,/>为概率函数。
此外,Tversky损失函数用于平衡建筑物与背景之间由于像素分布不均衡带来的错误预测,其计算公式如下:,其中,/>是用于平衡假阳性(False Positive)和假阴性(False Negative)的权重因子。
为验证本发明所构建模型的有效性,基于数据采集与数据预处理方法构建了低空遥感图像数据集,并利用该数据集完成模型的实验验证,整体数据集划分方式如表3所示。
表3数据集划分
在实验训练过程中,训练过程采用随机梯度下降法优化器,具体网络训练设置为:训练迭代次数为100,训练批量尺寸为4,学习率为0.001。损失函数中/>,/>,/>损失函数中/>。由于数据集进行过裁剪处理,在实验测试过程中,首先将测试集中的裁剪图像样本输入到网络中得到预测轮廓图。在得到预测输出后,将裁剪图拼接为裁剪前原图像尺寸。
本发明选取平均交并比()、精确率(/>)、召回率(/>)以及F1分数(/>)作为评价指标。
平均交并比衡量了模型预测的分割结果与真实分割结果之间的重叠程度,计算方式为先计算每个类别的交并比然后再取平均值:,其中,/>表示测试集中将正类预测为正类样本数,/>表示将负类预测为负类样本数,/>表示将正类预测为负类样本数,/>表示将负类预测为正类样本数。
精确率衡量了模型在预测为正类的样本中的准确性,计算方式如下:。
召回率衡量了模型对正类样本的识别能力,计算方式如下:。
F1分数是一个综合考虑精确率与召回率的评估指标,计算方式如下:。
利用以上四个指标,在测试集上进行实验验证,实验结果如表4所示:
表4轮廓分割整体实验结果
由表4可知,本发明提出的方法在四个评价指标上均达到了较好的效果。平均交并比结果说明了预测轮廓和真实轮廓重合度较高;精确率、召回率与F1的结果表明该方法准确性高,很少出现错检、漏检的问题,能够合理平衡精确率与召回率。
城市建筑物类别多样,住宅、商业建筑、工业建筑等建筑物之间具有不同的外观、材质和结构特征,并且光照变化、尺度变化等因素也会影响最终的分割结果。城郊建筑物多为工厂、农场等大型建筑物,分布较为稀疏,存在建筑物与背景像素分布不均衡的问题。乡村建筑物形状多样、分布不均、树木遮挡等问题,大大增加了建筑物轮廓分割的难度。针对不同应用任务,实验将测试集分为城市、城郊、乡村三种不同场景,进一步进行实验验证。三种不同场景建筑物轮廓分割样例如图6、图7和图8所示,图6中(a)为城市场景下的标签图,图6中(b)为城市场景下的分割图;图7中(a)为城郊场景下的标签图,图7中(b)为城郊场景下的分割图;图8中(a)为乡村场景下的标签图,图8中(b)为乡村场景下的分割图。
由图中的分割效果可知,在不同复杂场景中,本发明所提出的方法均能精确地生成轮廓边界,适用于面向城市、城郊、乡村建筑物的低空遥感图像轮廓分割任务。
综合测试集完整实验,在三种不同场景下的轮廓分割实验结果如表5所示。由表5可知,城市场景拥有最高的平衡交并比,而乡村场景拥有最高的精确率、召回率和F1分数。由于城郊建筑物类别与背景复杂,且建筑物与背景像素分布不均匀,导致该场景下的实验结果低于城市与乡村实验结果。综合来看,本发明所提出方法在三种场景下的实验结果表明模型具有跨场景泛化性。
表5轮廓分割城市、城郊、乡村场景实验结果
实验针对本发明所提出的轮廓分割网络进行了消融实验,以验证所提出的各个模块的有效性与可靠性。消融实验对比结果如表6所示,其中模型A表示无自适应层选择机制的模型;模型B表示无显著性边界损失函数的模型;模型C表示无Tversky损失函数的模型。由表可知,去除自适应层选择机制、显著性边界损失函数、Tversky损失函数均会导致实验效果变差。由此可知,本发明所提出的方法均具有不可替代的作用。由实验结果可知,去掉显著性边界损失函数的影响最大,表明了显著性边界图在轮廓分割中具有及其重要的作用。
表6消融实验对比效果
本发明所提出的方法展现了出色的准确性与通用性,自适应层选择机制能够根据输入图片选取最合适的候选残差层特征同最终特征相融合;显著性边界图针对建筑物排列密集的问题,能够惩罚对建筑物边界的错误预测;Tversky损失函数针对建筑物与背景像素分布不平衡问题,通过引入系数灵活调整精确率与召回率的权重。
实施例二
本实施例提供基于遥感图像的建筑物轮廓分割系统,包括:
数据获取模块,被配置为获取建筑物遥感图像数据;
轮廓分割模块,被配置为基于建筑物遥感图像数据和训练后的建筑物轮廓分割模型得到最终的轮廓分割图像;其中,所述建筑物轮廓分割模型包括编码器网络、自适应层选择机制和解码器网络;所述建筑物轮廓分割模型的构建过程包括:
使用具有不同的扩张率的扩张卷积层残差网络作为编码器的主干网络,通过在不同尺度上进行扩张卷积操作来捕捉多尺度的上下文信息得到第一特征图;
通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图;
融合第一特征图和第二特征图,经过解码器网络解码后得到最终轮廓分割图像。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于遥感图像的建筑物轮廓分割方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于遥感图像的建筑物轮廓分割方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于遥感图像的建筑物轮廓分割方法,其特征在于,包括如下步骤:
获取建筑物遥感图像数据;
基于建筑物遥感图像数据和训练后的建筑物轮廓分割模型得到最终的轮廓分割图像;其中,所述建筑物轮廓分割模型包括编码器网络、自适应层选择机制和解码器网络;所述建筑物轮廓分割模型的构建过程包括:
使用具有不同的扩张率的扩张卷积层残差网络作为编码器的主干网络,通过在不同尺度上进行扩张卷积操作来捕捉多尺度的上下文信息得到第一特征图;
通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图;
融合第一特征图和第二特征图,经过解码器网络解码后得到最终轮廓分割图像;
所述通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图,包括:
通过特征向量余弦相似度来评价候选残差层特征中的显著性特征,得到特征显著性评价矩阵;
具体计算方法如下所示:
其中,、/>,/>与/>为线性映射参数,/>函数将向量余弦相似度值调整为[0,1]的权重值;
根据特征显著性评价矩阵,选择其最大值对应的候选残差层作为选定目标层;
基于选定目标层计算得到选择矩阵;具体为:
根据特征显著性评价矩阵,选择其最大值对应的候选残差层/>作为选定目标层,其计算公式如下:/>,进一步可得到选择矩阵/>中的元素为:/>,从而可得到自适应层选择机制的选择矩阵/>;
根据选择矩阵对候选残差层特征进行选取得到第二特征图。
2.如权利要求1所述的基于遥感图像的建筑物轮廓分割方法,其特征在于,获取建筑物遥感图像数据后,对图像进行预处理,生成轮廓标注图与显著性边界图。
3.如权利要求1所述的基于遥感图像的建筑物轮廓分割方法,其特征在于,所述扩张卷积层残差网络包括输入卷积层、候选残差层和过渡卷积层,结合建筑物遥感图像和输入卷积层后,改变输入图像通道数;通过多个相同尺度的候选残差层逐层主干网络特征作为后续融合的候选特征,在每一层候选残差层设置对应的扩张卷积。
4.如权利要求1所述的基于遥感图像的建筑物轮廓分割方法,其特征在于,扩张卷积通过扩张率来控制卷积核中的元素间隔,当扩张率等于1,扩张卷积操作与普通卷积操作一致,当扩张率大于1,扩大局部卷积加权求和范围,扩大每个卷积输出信息的范围。
5.如权利要求1所述的基于遥感图像的建筑物轮廓分割方法,其特征在于,在神经网络训练反向传播过程中,使用函数来替代/>函数。
6.如权利要求1所述的基于遥感图像的建筑物轮廓分割方法,其特征在于,建筑物轮廓分割模型训练时,在损失函数中加入了显著性边界图用来对建筑物边界的错误预测进行损失评价,引入用于平衡轮廓分割假阳性与假阴性的损失评价;
具体来说,显著性边界损失函数主要针对建筑物排列密集导致难以区分边界的问题,用于惩罚对建筑物边缘的错误预测,其计算公式如下:,其中,/>代表显著性边界图,/>代表像素点坐标,/>为概率函数。
7.基于遥感图像的建筑物轮廓分割系统,其特征在于,包括:
数据获取模块,被配置为获取建筑物遥感图像数据;
轮廓分割模块,被配置为基于建筑物遥感图像数据和训练后的建筑物轮廓分割模型得到最终的轮廓分割图像;其中,所述建筑物轮廓分割模型包括编码器网络、自适应层选择机制和解码器网络;所述建筑物轮廓分割模型的构建过程包括:
使用具有不同的扩张率的扩张卷积层残差网络作为编码器的主干网络,通过在不同尺度上进行扩张卷积操作来捕捉多尺度的上下文信息得到第一特征图;
通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图;
融合第一特征图和第二特征图,经过解码器网络解码后得到最终轮廓分割图像;
所述通过自适应层选择机制选取主干网络中候选残差层的显著特征得到第二特征图,包括:
通过特征向量余弦相似度来评价候选残差层特征中的显著性特征,得到特征显著性评价矩阵;
具体计算方法如下所示:
其中,/>、/>,/>与/>为线性映射参数,/>函数将向量余弦相似度值调整为[0,1]的权重值;
根据特征显著性评价矩阵,选择其最大值对应的候选残差层作为选定目标层;
基于选定目标层计算得到选择矩阵;具体为:
根据特征显著性评价矩阵,选择其最大值对应的候选残差层/>作为选定目标层,其计算公式如下:/>,进一步可得到选择矩阵/>中的元素为:/>,从而可得到自适应层选择机制的选择矩阵/>;
根据选择矩阵对候选残差层特征进行选取得到第二特征图。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于遥感图像的建筑物轮廓分割方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于遥感图像的建筑物轮廓分割方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753066.3A CN117456530B (zh) | 2023-12-20 | 2023-12-20 | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311753066.3A CN117456530B (zh) | 2023-12-20 | 2023-12-20 | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117456530A CN117456530A (zh) | 2024-01-26 |
CN117456530B true CN117456530B (zh) | 2024-04-12 |
Family
ID=89585754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311753066.3A Active CN117456530B (zh) | 2023-12-20 | 2023-12-20 | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456530B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898543A (zh) * | 2020-07-31 | 2020-11-06 | 武汉大学 | 一种融合几何感知与图像理解的建筑物自动提取方法 |
CN111899249A (zh) * | 2020-08-05 | 2020-11-06 | 吉林大学 | 基于ResNet50和DeeplabV3+的卷积神经网络的遥感图像变化检测方法 |
CN112419333A (zh) * | 2020-11-17 | 2021-02-26 | 武汉大学 | 一种遥感影像自适应特征选择分割方法及系统 |
CN113298818A (zh) * | 2021-07-09 | 2021-08-24 | 大连大学 | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 |
CN113516135A (zh) * | 2021-06-23 | 2021-10-19 | 江苏师范大学 | 一种基于深度学习的遥感影像建筑物提取及轮廓优化方法 |
CN115345866A (zh) * | 2022-08-25 | 2022-11-15 | 中国科学院地理科学与资源研究所 | 一种遥感影像中建筑物提取方法、电子设备及存储介质 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN115965631A (zh) * | 2022-12-08 | 2023-04-14 | 南方科技大学 | 基于分割模型的图像分割方法、系统、电子设备及介质 |
CN116189180A (zh) * | 2023-04-28 | 2023-05-30 | 青岛理工大学 | 一种城市街景广告图像分割方法 |
CN116310339A (zh) * | 2023-03-23 | 2023-06-23 | 长沙理工大学 | 基于矩阵分解增强全局特征的遥感图像分割方法 |
CN116469005A (zh) * | 2023-03-27 | 2023-07-21 | 北京工业大学 | 一种利用gf-2遥感影像进行多尺度建筑物屋顶识别的方法 |
CN116778146A (zh) * | 2023-06-02 | 2023-09-19 | 中国地质大学(武汉) | 基于多模态数据的道路信息提取方法及装置 |
-
2023
- 2023-12-20 CN CN202311753066.3A patent/CN117456530B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898543A (zh) * | 2020-07-31 | 2020-11-06 | 武汉大学 | 一种融合几何感知与图像理解的建筑物自动提取方法 |
CN111899249A (zh) * | 2020-08-05 | 2020-11-06 | 吉林大学 | 基于ResNet50和DeeplabV3+的卷积神经网络的遥感图像变化检测方法 |
CN112419333A (zh) * | 2020-11-17 | 2021-02-26 | 武汉大学 | 一种遥感影像自适应特征选择分割方法及系统 |
CN113516135A (zh) * | 2021-06-23 | 2021-10-19 | 江苏师范大学 | 一种基于深度学习的遥感影像建筑物提取及轮廓优化方法 |
CN113298818A (zh) * | 2021-07-09 | 2021-08-24 | 大连大学 | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 |
CN115345866A (zh) * | 2022-08-25 | 2022-11-15 | 中国科学院地理科学与资源研究所 | 一种遥感影像中建筑物提取方法、电子设备及存储介质 |
CN115965631A (zh) * | 2022-12-08 | 2023-04-14 | 南方科技大学 | 基于分割模型的图像分割方法、系统、电子设备及介质 |
CN115797931A (zh) * | 2023-02-13 | 2023-03-14 | 山东锋士信息技术有限公司 | 一种基于双分支特征融合的遥感图像语义分割方法 |
CN116310339A (zh) * | 2023-03-23 | 2023-06-23 | 长沙理工大学 | 基于矩阵分解增强全局特征的遥感图像分割方法 |
CN116469005A (zh) * | 2023-03-27 | 2023-07-21 | 北京工业大学 | 一种利用gf-2遥感影像进行多尺度建筑物屋顶识别的方法 |
CN116189180A (zh) * | 2023-04-28 | 2023-05-30 | 青岛理工大学 | 一种城市街景广告图像分割方法 |
CN116778146A (zh) * | 2023-06-02 | 2023-09-19 | 中国地质大学(武汉) | 基于多模态数据的道路信息提取方法及装置 |
Non-Patent Citations (3)
Title |
---|
A Convolution and Attention Neural Network with MDTW Loss for Cross-Variable Reconstruction of Remote Sensing Image Series;李腾等;《REMOTE SENSING》;20230714;第15卷(第14期);1-16 * |
Feature Selective Transformer for Semantic Image Segmentation;Tianyi Wu等;《arXiv》;20220401;1-23 * |
多尺度特征融合空洞卷积 ResNet遥感图像建筑物分割;徐胜军等;《光学精密工程》;20200715;第28卷(第07期);1588-1599 * |
Also Published As
Publication number | Publication date |
---|---|
CN117456530A (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN113033520B (zh) | 一种基于深度学习的树木线虫病害木识别方法及系统 | |
CN111723798B (zh) | 一种基于关联性层级残差的多实例自然场景文本检测方法 | |
CN112084923A (zh) | 一种遥感图像语义分割方法、存储介质及计算设备 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN112837315A (zh) | 一种基于深度学习的输电线路绝缘子缺陷检测方法 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN114565842A (zh) | 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN116597326A (zh) | 一种基于改进YOLOv7算法的无人机航拍小目标检测方法 | |
CN112241676A (zh) | 一种地形杂物自动识别的方法 | |
CN111369524A (zh) | 结节识别模型训练方法、结节识别方法及装置 | |
CN113158856B (zh) | 一种提取遥感图像中目标区域的处理方法和装置 | |
CN114529552A (zh) | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 | |
CN114565803A (zh) | 用于提取难样本的方法、装置及机械设备 | |
CN113628180A (zh) | 一种基于语义分割网络的遥感建筑物检测方法及系统 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN116012709B (zh) | 一种高分辨率遥感影像建筑物提取方法及系统 | |
CN117456530B (zh) | 基于遥感图像的建筑物轮廓分割方法、系统、介质及设备 | |
CN116612382A (zh) | 一种城市遥感图像目标检测方法和装置 | |
CN110457155A (zh) | 一种样本类别标签的修正方法、装置及电子设备 | |
CN114821192A (zh) | 一种结合语义信息的遥感影像高程预测方法 | |
CN113920311A (zh) | 一种基于边缘辅助信息的遥感图像分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |