CN115546649A - 一种单视遥感影像高度估计和语义分割多任务预测方法 - Google Patents
一种单视遥感影像高度估计和语义分割多任务预测方法 Download PDFInfo
- Publication number
- CN115546649A CN115546649A CN202211306355.4A CN202211306355A CN115546649A CN 115546649 A CN115546649 A CN 115546649A CN 202211306355 A CN202211306355 A CN 202211306355A CN 115546649 A CN115546649 A CN 115546649A
- Authority
- CN
- China
- Prior art keywords
- feature
- scale
- semantic segmentation
- module
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000003595 spectral effect Effects 0.000 claims abstract description 60
- 230000003287 optical effect Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 21
- 238000007499 fusion processing Methods 0.000 claims description 13
- 238000005065 mining Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005305 interferometry Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种单视遥感影像高度估计和语义分割多任务预测方法,其方法包括:A、构建多任务网络模型;B、采集高分辨率光学遥感影像样本并得到样本数据集;C、将样本数据集中的光谱空间特征影像块输入多任务网络模型中;D、采集待预测的高分辨率光学遥感影像并裁剪成光谱空间特征影像块输入训练后的多任务网络模型,分别加权计算得到高度估计预测结果DSM和语义分割预测结果SS。本发明多尺度残差及可变形卷积网络能够实现多尺度特征提取,并能克服各类地物的复杂、异质和尺度差异大等问题,DSM与语义分割生成网络分别利用混合特征和优选特征进行DSM估计与语义分割,最终得到高精度的地物DSM估计结果与语义分割结果。
Description
技术领域
本发明涉及遥感影像分类及处理领域,尤其涉及一种单视遥感影像高度估计和语义分割多任务预测方法。
背景技术
精细的DSM数据和土地利用分类数据是国家地理信息研究、国土空间规划等国家重大战略的基础数据,对社会经济发展具有重要意义。传统的高精度DSM生成方法主要包括:激光雷达扫描技术(LiDAR)、雷达干涉测量技术(InSAR)、多视图立体摄影技术。其中,LiDAR数据获取时间及更新周期长、成本高;雷达干涉测量技术生成高精度DSM数据难度较大,高度估计的不确定性相对较高;多视图立体摄影测量技术存在影像匹配失败等问题。
在此背景下,深度学习为DSM数据生成提供了一条新途径,卷积神经网络(CNN)作为一种特殊的深度学习网络结构,可以自动利用原始影像的多级特征,取代传统的手工特征提取。因此,CNN已广泛应用于遥感领域,并取得了巨大成功。最近,越来越多的研究探索利用高分辨率光学影像预测DSM的可行性。并且人们开始着眼于利用单视高分辨率光学影像生成DSM数据,该方法可以不依赖历史图像、点云数据或GIS记录信息,直接从影像中生成DSM数据。此前研究虽然证明单幅高分辨率光学影像的高度估计在一定程度上取得了成功,但是由于遥感影像覆盖范围广,地物类型复杂,地物尺度和空间布局差异较大,且单视影像不包含明确的三维信息,所以利用单视影像预测DSM仍然是一个不适定且具有挑战性的问题。
传统基于遥感影像的土地利用分类主要采用人工目视解译的方法,精度最高、可靠性最好,但存在耗费成本较大、结果易受主观性影响、自动化程度低等缺点。一些学者引入机器学习分类算法进行土地利用分类,常用的分类器有支持向量机、随机森林、决策树等,在小规模数据集上达到较高的识别精度,但仍存在众多缺陷,难以实现智能化和自动化。随着计算机硬件的发展、数据的积累以及神经网络的发展,深度学习在遥感影像地物分类方向上有了更进一步的应用发展。CNN起初广泛应用于图像分类领域,并衍生出的一系列经典网络结构如AlexNet、VGG、Inception、MobileNet、ShuffleNet等。FCN首先将端到端的全卷积网络推广到语义分割当中实现地物分类,FCN使用编解码(Encoder-Decoder)网络结构,实现了端到端的语义分割,其后的语义分割网络基本都是沿用FCN的编解码全卷积结构,例如U-Net、DeepLab、PSPNet等都是基于编码器逐渐减少特征映射,捕获高层语义信息,解码器逐步恢复空间信息的相似结构,而这些网络的不同之处在于对编码器或者解码器部分做了一定改进。随着研究的深入,以上神经网络模型被广泛的应用于遥感土地利用分类研究中,并取得了较高精度的分类结果。目前,基于深度学习的语义分割技术已经取得了很大的进步,但受限于遥感影像地物的复杂性和影像数据的特殊性等原因,深度学习模型在遥感影像土地利用分类中仍待进一步研究和提高分类精度。
DSM估计任务和语义分割任务有显著的关联,从地物几何和空间分布关系来看相同类别的地物在高度上具有相似性,相同高度的地物在分布上具有规律性。从特征提取的角度来看两种任务都是从遥感影像中获取上下文空间特征信息。鉴于两者任务的相似性和互相辅助的性质,基于多任务网络模型实现地物高度估计和语义分割正受到越来越多研究人员的关注。目前利用多任务网络模型进行高度估计和DSM估计的研究主要分为三类:(1)采用共享编码器,生成适用于高度估计和语义分割的混合特征,但是在解码部分,针对不同任务使用不同的解码器对应实现地物DSM估计和语义分割;(2)对适用于地物DSM估计和语义分割的混合特征进行特征优选,针对不同任务的优选特征分别进行回归和分类对应实现地物DSM估计和语义分割;(3)编码部分和解码部分均采用同一网络结构,仅在解码部分的最末端分别构建一个回归器和一个分类器实现地物DSM估计和语义分割。以上研究中,前两种方法均采用对混合特征进行筛选,使用筛选后的特征进行地物DSM估计和语义分割,这种方法割裂了两种任务的相互性;第三种方法直接使用混合特征进行计算,忽略了两种任务的差异性。
发明内容
本发明的目的在于解决背景技术所指出的技术问题,提供一种单视遥感影像高度估计和语义分割多任务预测方法,充分考虑地物DSM估计和语义分割两者之间的相似性和差异性,创新多任务网络框架,旨在能同时顾及两种任务的相似性和差异性,实现更高精度的DSM估计与语义分割。
本发明的目的通过下述技术方案实现:
一种单视遥感影像高度估计和语义分割多任务预测方法,其方法包括:
A、构建多任务网络模型,多任务网络模型包括多尺度残差及可变形卷积网络、DSM与语义分割生成网络;
B、采集高分辨率光学遥感影像样本并裁剪成相同大小的光谱空间特征影像块作为样本数据集,光谱空间特征影像块含有12个特征信息;
C、将样本数据集中的光谱空间特征影像块输入多任务网络模型中;
C1、多尺度残差及可变形卷积网络包括四个多尺度残差及可变形卷积单元,每个多尺度残差及可变形卷积单元包括多尺度残差卷积模块和可变形卷积模块,多尺度残差卷积模块包括多尺度Conv block模块和多尺度Identity block模块,可变形卷积模块的卷积核大小为3×3卷积且包含18个偏移量;光谱空间特征影像块经过维度提升后得到特征图A;将特征图A输入到第一个多尺度残差及可变形卷积单元得到多尺度特征图A;将多尺度特征图A输入第二个多尺度残差及可变形卷积单元得到多尺度特征图B,将多尺度特征图B输入第三个多尺度残差及可变形卷积单元得到多尺度特征图C,将多尺度特征图C输入第四个多尺度残差及可变形卷积单元得到多尺度特征图D;
C2、构建具有捕获空间关系注意力的DULR模块,通过DULR模块对多尺度特征图D进行跳跃连接与卷积拼接得到混合特征D,DULR模块对多尺度特征图C进行跳跃连接并与混合特征D进行卷积、上采样得到的特征拼接得到混合特征C,DULR模块对多尺度特征图B进行跳跃连接并与混合特征C进行卷积、上采样得到的特征图进行拼接得到混合特征B,DULR模块对多尺度特征图A进行跳跃连接并与混合特征B进行卷积、上采样得到的特征图进行拼接得到混合特征A;
C3、DSM与语义分割生成网络中构建有回归器和分类器,通过回归器处理混合特征A~D得到基于混合特征的高度估计结果A,通过分类器处理混合特征A~D得到基于混合特征的语义分割结果A;
C4、DSM与语义分割生成网络中构建有特征优选模块和特征深度融合模块,其中特征优选模块由门控卷积自编码器构成,门控卷积自编码器从混合特征A~D分别筛选得到四层适合高度估计任务的优选特征、四层适合语义分割任务的优选特征,特征深度融合模块对四层适合高度估计任务的优选特征、四层适合语义分割任务的优选特征分别进行深度融合处理得到高度估计深度融合优选特征和语义分割深度融合优选特征;
C5、通过回归器处理高度估计深度融合优选特征得到基于优选特征的高度估计结果B,通过分类器处理语义分割深度融合优选特征得到基于优选特征的语义分割结果B;
C6、构建多任务网络模型的损失函数L,公式如下:
L=ω1LDSM1+ω2LDSM2+ω3LSS3+ω4LSS4,且ω1+ω2=1,ω3+ω4=1;
其中LDSM1为基于优选特征进行高度估计结果B相关的损失函数,LDSM2为基于混合特征进行高度估计结果A相关的损失函数,LSS3为基于优选特征进行语义分割结果B相关的损失函数,LSS4为基于混合特征进行语义分割结果A相关的损失函数,ω1为损失函数LDSM1的权重,ω2为损失函数LDSM2的权重,ω3为损失函数LSS3的权重,ω4为损失函数LSS4的权重;
设定多任务网络模型的迭代训练次数,每次迭代训练利用梯度下降算法降低模型损失值并同时优化模型参数,得到训练后的多任务网络模型;
D、采集待预测的高分辨率光学遥感影像并裁剪成光谱空间特征影像块输入训练后的多任务网络模型,分别加权计算得到高度估计预测结果DSM和语义分割预测结果SS;
DSM=ω10DSM1+ω20DSM2
SS=ω30SS1+ω40SS2
ω10、ω20、ω30、ω40为训练后多任务网络模型的权重参数。
为了更好地实现本发明单视遥感影像高度估计和语义分割多任务预测方法,本发明在方法B中光谱空间特征影像块方法如下:采集的高分辨率光学遥感影像样本经光谱特征分析处理得到光谱特征影像,光谱特征影像包含R、G、B、NIR四个光谱波段特征信息,利用灰度共生矩阵方法对光谱特征影像处理得到空间特征影像,空间特征影像包含均值、方差、同质性、对比度、差异性、熵、角二阶矩、相关性八个纹理特征信息,将光谱特征影像与空间特征影像进行合成得到光谱空间特征影像,然后进行裁剪,裁剪后光谱空间特征影像块大小为512×512像素,通道数为12。
优选地,本发明方法B中采集的高分辨率光学遥感影像样本对应获取语义标签数据、DSM标签数据构成标签文件,语义标签数据为利用ArcGIS软件标注的地物类别标签,DSM标签数据通过LiDAR点云数据或立体影像密集匹配生成,标签文件随光谱空间特征影像块对应裁剪划分并关联存储样本数据集中;还包括对样本数据集进行包括翻转、镜像、添加高斯噪声方法在内的增量处理。
优选地,本发明方法C1中多尺度Conv block模块通过一条主路和一条跳跃连接通道进行特征融合处理,然后通过ReLU激活函数处理输出,主路包括一个1×1卷积层和一个多尺度特征提取模块,多尺度特征提取模块包含四个卷积层和一个全局平均池化层,四个卷积层的卷积核大小均为3、步长均为1,跳跃连接通道包括一个卷积核为1×1、步长为2的卷积层;多尺度Identity block模块通过一条主路和一条跳跃连接通道进行特征融合处理,然后通过ReLU激活函数处理输出,主路包括一个1×1卷积层和一个多尺度特征提取模块,多尺度特征提取模块包含四个卷积层和一个全局平均池化层,四个卷积层的卷积核大小均为3、步长均为1;多尺度Conv block模块与多尺度Identity block模块通过堆积连接与可变形卷积模块共同构成多尺度残差及可变形卷积单元。
优选地,本发明方法C2中DULR模块处理方法如下:DULR模块分别从特征图的下、上、右、左四个方向按顺序依次进行空间关系挖掘,每个方向空间关系挖掘方法如下:对特征图沿行或列进行依次切片,然后使用卷积操作对每层切片进行计算,生成的新的特征图不直接作为输出,而是与下一个切片的特征进行加和,以生成一个新的特征切片作为该层切片的输出,依次类推完成所有层切片的输出;上一个方向的输出作为下一个方向输入进行空间关系挖掘。
优选地,本发明方法C6中损失函数LSS3、LSS4的公式如下:
优选地,本发明方法C6中损失函数LDSM1、LDSM2的公式如下:
优选地,所述门控卷积自编码器由特征编码器和特征解码器构成门控卷积神经网络,门控卷积神经网络利用非线性特征提取能力实现特征更高层次数据表示与降维。
本发明较现有技术相比,具有以下优点及有益效果:
(1)本发明提出联合遥感影像的光谱特征和空间特征,共同服务于高精度的地物高度估计和语义分割任务,同时提出创新的多尺度残差及可变形卷积网络,该网络可以实现多尺度特征的提取,用以克服各类地物的复杂、异质和尺度差异大等问题,同时弥补影像的三维信息;而且本发明提出顾及混合特征和优选特征的DSM与语义分割生成网络,该网络分别利用混合特征和优选特征进行DSM估计与语义分割,最终采用加权计算的方法实现两类结果的融合,得到高精度的地物DSM估计结果与语义分割结果。
(2)为了提高DSM估计和语义分割的精度,本发明分别利用混合特征和优选特征进行DSM估计和地物语义分割,然后利用加权计算的方法融合混合特征和优选特征的预测结果,以提高DSM估计和语义分割的精度;首先制作目标区域的样本数据集,主要包括512×512像素的原始遥感影像及对应大小的标注图像;其次,将样本数据集输入网络后通过本项目构建的多尺度残差及可变形卷积网络进行多尺度可变形的光谱空间特征提取,一方面引入捕获空间关系的注意力模块DULR以减弱低层、高层特征之间的信息差异,获得混合特征;另一方面,构建特征优选模块和特征深度融合模块获取优选特征;在末端构建回归器和分类器利用混合特征及优选特征分别生成基于二者的地物DSM估计结果和语义分割结果,并通过加权计算得到高精度结果。
附图说明
图1为本发明高度估计结果与语义分割结果多任务预测方法的原理示意图;
图2为本发明多任务网络模型的原理结构示意简图;
图3为实施例中多尺度残差及可变形卷积网络的原理结构示意图;
图4为实施例中多尺度Conv block模块的原理示意图;
图5为实施例中多尺度Identity block模块的原理示意图;
图6为实施例中可变形卷积模块的原理示意图;
图7为实施例中DULR模块的下、上、右、左四个方向切片及空间关系挖掘原理示意图;
图8为实施例中特征优选模块的原理示意图;
图9为实施例中门控卷积自编码器的原理示意简图;
图10为实施例中特征深度融合模块的原理示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明:
实施例
如图1~图10所示,一种单视遥感影像高度估计和语义分割多任务预测方法,其方法包括:
A、构建多任务网络模型,多任务网络模型包括多尺度残差及可变形卷积网络、DSM与语义分割生成网络;
B、采集高分辨率光学遥感影像样本并裁剪成相同大小的光谱空间特征影像块作为样本数据集,光谱空间特征影像块含有12个特征信息;
在一些优选实施例中,光谱空间特征影像块(包括样本数据集中的光谱空间特征影像块,以及从待预测的高分辨率光学遥感影像所得到光谱空间特征影像块)处理方法如下:采集的高分辨率光学遥感影像样本经光谱特征分析处理得到光谱特征影像,光谱特征影像包含R、G、B、NIR四个光谱波段特征信息,利用灰度共生矩阵方法对光谱特征影像处理得到空间特征影像,空间特征影像包含均值、方差、同质性、对比度、差异性、熵、角二阶矩、相关性八个纹理特征信息,将光谱特征影像与空间特征影像进行合成得到光谱空间特征影像,然后进行裁剪,裁剪后光谱空间特征影像块大小为512×512像素,通道数为12,光谱空间特征影像块记为512×512×12。
在一些实施例中,采集的高分辨率光学遥感影像样本对应获取语义标签数据、DSM标签数据构成标签文件,语义标签数据为利用ArcGIS软件标注的地物类别标签(包括地物类别及地物边界),DSM标签数据通过LiDAR点云数据或立体影像密集匹配生成,一般通过LiDAR点云数据或立体影像密集匹配生成的DSM标签数据为高精度DSM标签数据,标签文件随光谱空间特征影像块对应裁剪划分并关联存储样本数据集中。在一些实施例中,还包括对样本数据集进行包括翻转、镜像、添加高斯噪声方法在内的增量处理,便于实现数据的扩充,这样可以扩大样本数据量,增强模型的泛化能力。
以上技术介绍,以ISPRS Potsdam遥感图像数据集为例具体介绍如下:ISPRSPotsdam遥感图像数据集覆盖Potsdam地区3.42km2,该数据被标注为六个类别(分别为:①不透水面;②建筑物;③低矮植被;④树木;⑤汽车;⑥背景),ISPRS Potsdam遥感图像数据集包含38张6000×6000尺寸的遥感影像,需要对原始影像进行分割,优选地,按照顺序将每张原始影像进行影像裁剪、经光谱特征分析处理得到光谱特征影像,每个影像块大小为(512×512×4),然后利用灰度共生矩阵(Grey Level Co-occurrence Matrix,GLCM)方法得到空间特征影像,包括8个纹理特征(各角度下的均值、方差、同质性、对比度、差异性、熵、角二阶矩、相关性)。将光谱特征影像(512×512×4)和空间特征影像(512×512×8)进行特征合成,得到光谱空间特征影像块(512×512×12)构成样本数据集。优选地,将样本数据集(包括多个512×512×12的光谱空间特征影像块)和标签文件中的标签数据同时按照6∶2∶2的比例划分为训练集、验证集和测试集;其中训练集和验证集用来训练模型,测试集用来检验最终获得模型的精度。
C、将样本数据集中的光谱空间特征影像块输入多任务网络模型中;
C1、多尺度残差及可变形卷积网络包括四个多尺度残差及可变形卷积单元,每个多尺度残差及可变形卷积单元包括多尺度残差卷积模块和可变形卷积模块,多尺度残差卷积模块包括多尺度Conv block模块和多尺度Identity block模块,可变形卷积模块的卷积核大小为3×3卷积且包含18个偏移量;光谱空间特征影像块(512×512×12)纤过维度提升后得到特征图A;维度提升过程可采用卷积核为3×3的卷积层。将特征图A输入到第一个多尺度残差及可变形卷积单元得到多尺度特征图A。将多尺度特征图A输入第二个多尺度残差及可变形卷积单元得到多尺度特征图B。将多尺度特征图B输入第三个多尺度残差及可变形卷积单元得到多尺度特征图C。将多尺度特征图C输入第四个多尺度残差及可变形卷积单元得到多尺度特征图D。
在一些实施例中,如图4所示,多尺度Conv block模块通过一条主路和一条跳跃连接通道进行特征融合处理,然后通过ReLU激活函数处理输出,主路包括一个1×1卷积层和一个多尺度特征提取模块,多尺度特征提取模块包含四个卷积层和一个全局平均池化层,四个卷积层的卷积核大小均为3、步长均为1,跳跃连接通道包括一个卷积核为1×1、步长为2的卷积层。如图4所示,输入的特征图经过主路空洞为1的3×3卷积、空洞为6的3×3卷积、空洞为12的3×3卷积、空洞为18的3×3卷积及一个全局平均池化共5层特征提取网络进行多尺度特征提取然后通过1×1卷积和归一化层依次处理。同时跳跃连接通道经1×1卷积、步长为2的卷积层提取的特征将与主路相加融合后,通过ReLU激活函数并输出。如图5所示,在一些实施例中,多尺度Identity block模块与多尺度Conv block模块相似,多尺度Identity block模块通过一条主路和一条跳跃连接通道进行特征融合处理,然后通过ReLU激活函数处理输出,主路包括一个1×1卷积层和一个多尺度特征提取模块,多尺度特征提取模块包含四个卷积层和一个全局平均池化层,四个卷积层的卷积核大小均为3、步长均为1;多尺度Conv block模块与多尺度Identity block模块通过堆积连接与可变形卷积模块共同构成多尺度残差及可变形卷积单元。多尺度Conv block模块提取特征的同时可以扩大特征图通道数,能提取更多的深度特征,并减小特征图尺寸,缓解计算压力;使用多尺度Identity block模块在提取特征的同时能够保持特征图的尺寸和通道个数,并使低层特征直接传播到高层特征,信息得以更加流畅传播;由多尺度Conv block和Identity block模块堆积连接形成一个多尺度残差卷积模块(M-R)。本发明通过多尺度Conv block和多尺度Identityblock中的残差连接构成的特征提取网络可以有效地保留上一层特征图的信息,以此增加输出特征图的细节。
在一些实施例中,如图6所示,可变形卷积模块首先通过一个3×3卷积的输出得到可变形卷积所需的18个偏移量(其中每个卷积点都有x与y的偏移量),然后将18个偏移量作用在卷积核上,达到可变形卷积的效果,即在标准卷积操作的基础上给每个卷积核的权重添加一个方向向量,使得可变形卷积的卷积核的形状可以随地物的实际形状而变化,可变形卷积能有效提高模型对遥感图像中复杂地物几何特征的学习能力。一个多尺度残差卷积模块和一个可变形卷积模块构成一个多尺度残差及可变形卷积单元,光谱空间特征影像块维度提升后的特征图A经过四个多尺度残差及可变形卷积单元依次叠加处理,可以将图像的特征通道逐渐增加即图像的大小逐渐减小。例如:参考图3,多尺度特征图A~D的4幅特征图像尺寸大小按照由低层到高层的输出顺序分别为256×256、128×128、64×64、32×32。
C2、构建具有捕获空间关系注意力的DULR模块(又称空间关系注意力模块或空间注意力模块),如图2所示,通过DULR模块对多尺度特征图D进行跳跃连接与卷积拼接得到混合特征D(DULR模块对多尺度特征图D进行跳跃连接得到一个特征图,对多尺度特征图D进行卷积得到一个特征图,两个特征图经过拼接处理得到混合特征D),DULR模块对多尺度特征图C进行跳跃连接并与混合特征D上采样得到的特征拼接得到混合特征C(DULR模块对多尺度特征图C进行跳跃连接得到一个特征图,对混合特征D进行卷积、上采样得到一个特征图,优选地,先进行卷积输出特征,然后再对卷积输出特征进行上采样处理;两个特征图经过拼接处理得到混合特征C),DULR模块对多尺度特征图B进行跳跃连接并与混合特征C进行上采样得到的特征图进行拼接得到混合特征B(技术原理与混合特征C相同,在此不再累述),DULR模块对多尺度特征图A进行跳跃连接并与混合特征B进行上采样得到的特征图进行拼接得到混合特征A(技术原理与混合特征C相同,在此不再累述)。多尺度特征图A至D的过程是图像大小逐渐减小,混合特征D至A是通过上采样操作及DULR模块的跳跃连接逐渐恢复图像的大小。优选地,本发明DULR模块处理方法如下:如图7所示,DULR模块分别从特征图的下、上、右、左四个方向按顺序依次进行空间关系挖掘,每个方向空间关系挖掘方法如下:对特征图沿行(优选地,下与上选择行方式切片)或列(优先地,右与左选择列方式切片)进行依次切片,然后使用卷积操作对每层切片进行计算,生成的新的特征图不直接作为输出,而是与下一个切片的特征进行加和,以生成一个新的特征切片作为该层切片的输出,依次类推完成所有层切片的输出;上一个方向的输出作为下一个方向输入进行空间关系挖掘。参见图7,特征图输入到DULR模块,DULR模块向下方向进行空间关系挖掘,对特征图沿行进行依次切片,然后使用卷积操作对每层切片进行计算,上一个切片的计算结果与下一个切片的特征进行加和并生成的特征作为上一个切片的输出,依次类推完成所有切开输出,最后一个切片仅输出计算结果,这样向下方向所有切片就输出结果,向下方向的输出作为向上方向的输入,依次类推实现所有方向按顺序空间关系挖掘。DULR模块可以挖掘求和特征不同位置的空间关系,并减弱低层特征与高层特征之间的信息差距。
C3、DSM与语义分割生成网络中构有回归器和分类器,通过回归器处理混合特征A~D得到基于混合特征的高度估计结果A,通过分类器处理混合特征A~D得到基于混合特征的语义分割结果A。
C4、DSM与语义分割生成网络中构建有特征优选模块和特征深度融合模块,其中特征优选模块由门控卷积自编码器构成,优选地,如图8、9所示,门控卷积自编码器由特征编码器和特征解码器构成门控卷积神经网络,门控卷积神经网络利用非线性特征提取能力实现特征更高层次数据表示与降维。门控卷积自编码器从混合特征A~D分别筛选得到四层适合高度估计任务的优选特征、四层适合语义分割任务的优选特征,特征深度融合模块对四层适合高度估计任务的优选特征、四层适合语义分割任务的优选特征分别进行深度融合处理得到高度估计深度融合优选特征和语义分割深度融合优选特征。在一些实施例中,如图10所示,特征深度融合模块对每一层优选特征进行3×3卷积,然后和相邻低层特征经下采样后的特征相加,重复此操作所得到的融合特征再经过3×3卷积及上采样,得到深度融合的优选特征。
C5、通过回归器处理高度估计深度融合优选特征得到基于优选特征的高度估计结果B,通过分类器处理语义分割深度融合优选特征得到基于优选特征的语义分割结果B;
C6、构建多任务网络模型的损失函数L,损失函数L为以下四个损失函数之和,并用此来表示模型的误差大小,损失函数L公式如下:
L=ω1LDSM1+ω2LDSM2+ω3LSS3+ω4LSS4,且ω1+ω2=1,ω3+ω4=1;
其中LDSM1为基于优选特征进行高度估计结果B相关的损失函数,LDSM2为基于混合特征进行高度估计结果A相关的损失函数,LSS3为基于优选特征进行语义分割结果B相关的损失函数,LSS4为基于混合特征进行语义分割结果A相关的损失函数,ω1为损失函数LDSM1的权重,ω2为损失函数LDSM2的权重,ω3为损失函数LSS3的权重,ω4为损失函数LSS4的权重。
其中,损失函数LSS3、LSS4的公式如下:
其中损失函数LDSM1、LDSM2的公式如下:
设定多任务网络模型的迭代训练次数epoch,每次迭代训练利用梯度下降算法降低模型损失值并同时优化模型参数(包括ω1、ω2、ω3、ω4四个权重),得到训练后的多任务网络模型。
本实施例以表1的网络参数设置、表2的服务器配置,以ISPRS Potsdam遥感图像数据集得到的样本数据集为例进行多任务网络模型的训练,
表1网络参数设置
表2服务器配置
为了提升高度估计结果与语义分割结果多任务预测的多任务网络模型的精度,本发明还可以采用预测值和真值的平均绝对误差MAE、均方根误差RMSE、相对误差REL三个指标检验DSM高度估计精度,采用IOU、Precision、Recall、F1-score四个分类评价指标检验模型语义分割精度。经多次迭代训练后,选取综合评定后精度最高的多任务网络模型(即为训练后的多任务网络模型)。以ISPRS Potsdam遥感图像数据集得到的样本数据集为例,得到训练后的多任务网络模型,同时得到多任务网络模型的四个权重参数,分别为w1=0.457、w2=0.543、w3=0.391、w4=0.609。
D、采集待预测的高分辨率光学遥感影像并裁剪成光谱空间特征影像块输入训练后的多任务网络模型,分别加权计算得到高度估计预测结果DSM和语义分割预测结果SS;
DSM=ω10DSM1+ω20DSM2
SS=ω30SS1+ω40SS2
ω10、ω20、ω30、ω40为训练后多任务网络模型的权重参数,DSM1为训练后多任务网络模型基于优选特征得到的高度估计结果B,DSM2为基于混合特征得到的高度估计结果A,SS1为基于优选特征得到语义分割结果B,SS2为基于混合特征得到的语义分割结果A。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种单视遥感影像高度估计和语义分割多任务预测方法,其特征在于:其方法包括:
A、构建多任务网络模型,多任务网络模型包括多尺度残差及可变形卷积网络、DSM与语义分割生成网络;
B、采集高分辨率光学遥感影像样本并裁剪成相同大小的光谱空间特征影像块作为样本数据集,光谱空间特征影像块含有12个特征信息;
C、将样本数据集中的光谱空间特征影像块输入多任务网络模型中;
C1、多尺度残差及可变形卷积网络包括四个多尺度残差及可变形卷积单元,每个多尺度残差及可变形卷积单元包括多尺度残差卷积模块和可变形卷积模块,多尺度残差卷积模块包括多尺度Conv block模块和多尺度Identity block模块,可变形卷积模块的卷积核大小为3×3卷积且包含18个偏移量;光谱空间特征影像块经过维度提升后得到特征图A;将特征图A输入到第一个多尺度残差及可变形卷积单元得到多尺度特征图A;将多尺度特征图A输入第二个多尺度残差及可变形卷积单元得到多尺度特征图B,将多尺度特征图B输入第三个多尺度残差及可变形卷积单元得到多尺度特征图C,将多尺度特征图C输入第四个多尺度残差及可变形卷积单元得到多尺度特征图D;
C2、构建具有捕获空间关系注意力的DULR模块,通过DULR模块对多尺度特征图D进行跳跃连接与卷积拼接得到混合特征D,DULR模块对多尺度特征图C进行跳跃连接并与混合特征D进行卷积、上采样得到的特征拼接得到混合特征C,DULR模块对多尺度特征图B进行跳跃连接并与混合特征C进行卷积、上采样得到的特征图进行拼接得到混合特征B,DULR模块对多尺度特征图A进行跳跃连接并与混合特征B进行卷积、上采样得到的特征图进行拼接得到混合特征A;
C3、DSM与语义分割生成网络中构建有回归器和分类器,通过回归器处理混合特征A~D得到基于混合特征的高度估计结果A,通过分类器处理混合特征A~D得到基于混合特征的语义分割结果A;
C4、DSM与语义分割生成网络中构建有特征优选模块和特征深度融合模块,其中特征优选模块由门控卷积自编码器构成,门控卷积自编码器从混合特征A~D分别筛选得到四层适合高度估计任务的优选特征、四层适合语义分割任务的优选特征,特征深度融合模块对四层适合高度估计任务的优选特征、四层适合语义分割任务的优选特征分别进行深度融合处理得到高度估计深度融合优选特征和语义分割深度融合优选特征;
C5、通过回归器处理高度估计深度融合优选特征得到基于优选特征的高度估计结果B,通过分类器处理语义分割深度融合优选特征得到基于优选特征的语义分割结果B;
C6、构建多任务网络模型的损失函数L,公式如下:
L=ω1LDSM1+ω2LDSM2+ω3LSS3+ω4LSS4,且ω1+ω2=1,ω3+ω4=1;其中LDSM1为基于优选特征进行高度估计结果B相关的损失函数,LDSM2为基于混合特征进行高度估计结果A相关的损失函数,LSS3为基于优选特征进行语义分割结果B相关的损失函数,LSS4为基于混合特征进行语义分割结果A相关的损失函数,ω1为损失函数LDSM1的权重,ω2为损失函数LDSM2的权重,ω3为损失函数LSS3的权重,ω4为损失函数LSS4的权重;
设定多任务网络模型的迭代训练次数,每次迭代训练利用梯度下降算法降低模型损失值并同时优化模型参数,得到训练后的多任务网络模型;
D、采集待预测的高分辨率光学遥感影像并裁剪成光谱空间特征影像块输入训练后的多任务网络模型,分别加权计算得到高度估计预测结果DSM和语义分割预测结果SS;
DSM=ω10DSM1+ω20DSM2
SS=ω30SS1+ω40SS2
ω10、ω20、ω30、ω40为训练后多任务网络模型的权重参数。
2.按照权利要求1所述的一种单视遥感影像高度估计和语义分割多任务预测方法,其特征在于:方法B中光谱空间特征影像块方法如下:采集的高分辨率光学遥感影像样本经光谱特征分析处理得到光谱特征影像,光谱特征影像包含R、G、B、NIR四个光谱波段特征信息,利用灰度共生矩阵方法对光谱特征影像处理得到空间特征影像,空间特征影像包含均值、方差、同质性、对比度、差异性、熵、角二阶矩、相关性八个纹理特征信息,将光谱特征影像与空间特征影像进行合成得到光谱空间特征影像,然后进行裁剪,裁剪后光谱空间特征影像块大小为512×512像素,通道数为12。
3.按照权利要求1或2所述的一种单视遥感影像高度估计和语义分割多任务预测方法,其特征在于:方法B中采集的高分辨率光学遥感影像样本对应获取语义标签数据、DSM标签数据构成标签文件,语义标签数据为利用ArcGIS软件标注的地物类别标签,DSM标签数据通过LiDAR点云数据或立体影像密集匹配生成,标签文件随光谱空间特征影像块对应裁剪划分并关联存储样本数据集中;还包括对样本数据集进行包括翻转、镜像、添加高斯噪声方法在内的增量处理。
4.按照权利要求1或2所述的一种单视遥感影像高度估计和语义分割多任务预测方法,其特征在于:方法C1中多尺度Conv block模块通过一条主路和一条跳跃连接通道进行特征融合处理,然后通过ReLU激活函数处理输出,主路包括一个1×1卷积层和一个多尺度特征提取模块,多尺度特征提取模块包含四个卷积层和一个全局平均池化层,四个卷积层的卷积核大小均为3、步长均为1,跳跃连接通道包括一个卷积核为1×1、步长为2的卷积层;多尺度Identity block模块通过一条主路和一条跳跃连接通道进行特征融合处理,然后通过ReLU激活函数处理输出,主路包括一个1×1卷积层和一个多尺度特征提取模块,多尺度特征提取模块包含四个卷积层和一个全局平均池化层,四个卷积层的卷积核大小均为3、步长均为1;多尺度Conv block模块与多尺度Identity block模块通过堆积连接与可变形卷积模块共同构成多尺度残差及可变形卷积单元。
5.按照权利要求1或2所述的一种单视遥感影像高度估计和语义分割多任务预测方法,其特征在于:方法C2中DULR模块处理方法如下:DULR模块分别从特征图的下、上、右、左四个方向按顺序依次进行空间关系挖掘,每个方向空间关系挖掘方法如下:对特征图沿行或列进行依次切片,然后使用卷积操作对每层切片进行计算,生成的新的特征图不直接作为输出,而是与下一个切片的特征进行加和,以生成一个新的特征切片作为该层切片的输出,依次类推完成所有层切片的输出;上一个方向的输出作为下一个方向输入进行空间关系挖掘。
8.按照权利要求1或2所述的一种单视遥感影像高度估计和语义分割多任务预测方法,其特征在于:所述门控卷积自编码器由特征编码器和特征解码器构成门控卷积神经网络,门控卷积神经网络利用非线性特征提取能力实现特征更高层次数据表示与降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211306355.4A CN115546649B (zh) | 2022-10-24 | 2022-10-24 | 一种单视遥感影像高度估计和语义分割多任务预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211306355.4A CN115546649B (zh) | 2022-10-24 | 2022-10-24 | 一种单视遥感影像高度估计和语义分割多任务预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546649A true CN115546649A (zh) | 2022-12-30 |
CN115546649B CN115546649B (zh) | 2023-04-18 |
Family
ID=84719492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211306355.4A Active CN115546649B (zh) | 2022-10-24 | 2022-10-24 | 一种单视遥感影像高度估计和语义分割多任务预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546649B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503744A (zh) * | 2023-06-28 | 2023-07-28 | 航天宏图信息技术股份有限公司 | 高度等级引导的单视角遥感影像建筑高度估计方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961105A (zh) * | 2019-04-08 | 2019-07-02 | 上海市测绘院 | 一种基于多任务深度学习的高分辨率遥感影像分类方法 |
CN113269787A (zh) * | 2021-05-20 | 2021-08-17 | 浙江科技学院 | 一种基于门控融合的遥感图像语义分割方法 |
CN113283435A (zh) * | 2021-05-14 | 2021-08-20 | 陕西科技大学 | 一种基于多尺度注意力融合的遥感图像语义分割方法 |
CN113435411A (zh) * | 2021-07-26 | 2021-09-24 | 中国矿业大学(北京) | 一种基于改进DeepLabV3+的露天矿区土地利用识别方法 |
CN113469094A (zh) * | 2021-07-13 | 2021-10-01 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN113554032A (zh) * | 2021-09-22 | 2021-10-26 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
CN114898089A (zh) * | 2022-05-18 | 2022-08-12 | 中国矿业大学(北京) | 一种融合高分影像和poi数据的功能区提取与分类方法 |
CN114972989A (zh) * | 2022-05-18 | 2022-08-30 | 中国矿业大学(北京) | 一种基于深度学习算法的单幅遥感影像高度信息估算方法 |
-
2022
- 2022-10-24 CN CN202211306355.4A patent/CN115546649B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961105A (zh) * | 2019-04-08 | 2019-07-02 | 上海市测绘院 | 一种基于多任务深度学习的高分辨率遥感影像分类方法 |
CN113283435A (zh) * | 2021-05-14 | 2021-08-20 | 陕西科技大学 | 一种基于多尺度注意力融合的遥感图像语义分割方法 |
CN113269787A (zh) * | 2021-05-20 | 2021-08-17 | 浙江科技学院 | 一种基于门控融合的遥感图像语义分割方法 |
CN113469094A (zh) * | 2021-07-13 | 2021-10-01 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN113435411A (zh) * | 2021-07-26 | 2021-09-24 | 中国矿业大学(北京) | 一种基于改进DeepLabV3+的露天矿区土地利用识别方法 |
CN113554032A (zh) * | 2021-09-22 | 2021-10-26 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
CN114898089A (zh) * | 2022-05-18 | 2022-08-12 | 中国矿业大学(北京) | 一种融合高分影像和poi数据的功能区提取与分类方法 |
CN114972989A (zh) * | 2022-05-18 | 2022-08-30 | 中国矿业大学(北京) | 一种基于深度学习算法的单幅遥感影像高度信息估算方法 |
Non-Patent Citations (1)
Title |
---|
MIN LU等: "Multi-Task Learning of Relative Height Estimation and Semantic Segmentation from Single Airborne RGB Images" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503744A (zh) * | 2023-06-28 | 2023-07-28 | 航天宏图信息技术股份有限公司 | 高度等级引导的单视角遥感影像建筑高度估计方法和装置 |
CN116503744B (zh) * | 2023-06-28 | 2023-09-29 | 航天宏图信息技术股份有限公司 | 高度等级引导的单视角遥感影像建筑高度估计方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115546649B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830246B2 (en) | Systems and methods for extracting and vectorizing features of satellite imagery | |
Zhang et al. | Remote sensing image spatiotemporal fusion using a generative adversarial network | |
Chen et al. | Multiscale feature learning by transformer for building extraction from satellite images | |
Huang et al. | GraNet: Global relation-aware attentional network for semantic segmentation of ALS point clouds | |
CN111127538B (zh) | 一种基于卷积循环编码-解码结构的多视影像三维重建方法 | |
CN109063753A (zh) | 一种基于卷积神经网络的三维点云模型分类方法 | |
Chen et al. | 3D photogrammetry point cloud segmentation using a model ensembling framework | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN113256649B (zh) | 一种基于深度学习的遥感图像选站选线语义分割方法 | |
Xu et al. | Feature-based constraint deep CNN method for mapping rainfall-induced landslides in remote regions with mountainous terrain: An application to Brazil | |
CN115546649B (zh) | 一种单视遥感影像高度估计和语义分割多任务预测方法 | |
CN116168246A (zh) | 一种用于铁路工程的弃渣场识别方法、装置、设备及介质 | |
CN113239736A (zh) | 一种基于多源遥感数据的土地覆盖分类标注图获取方法、存储介质及系统 | |
CN117475216A (zh) | 一种基于aglt网络的高光谱与激光雷达数据融合分类方法 | |
Chiang et al. | Training deep learning models for geographic feature recognition from historical maps | |
CN114494586B (zh) | 晶格投影的深度学习网络阔叶树枝叶分离与骨架重建方法 | |
Lin et al. | A novel convolutional neural network architecture of multispectral remote sensing images for automatic material classification | |
CN115497002A (zh) | 一种多尺度特征融合的激光雷达遥感分类方法 | |
CN116977750B (zh) | 土地覆盖场景分类模型构建方法及分类方法 | |
Kazimi et al. | Semantic segmentation of manmade landscape structures in digital terrain models | |
Sebastianelli et al. | Spatio-Temporal SAR-Optical Data Fusion for Cloud Removal via a Deep Hierarchical Model | |
Karakış et al. | Analysis of segmentation parameters in ecognition software using high resolution quickbird ms imagery | |
CN115909077A (zh) | 基于无监督光谱解混神经网络的高光谱图像变化检测方法 | |
Cao et al. | Understanding 3D point cloud deep neural networks by visualization techniques | |
Guo et al. | PIF-Net: A Deep Point-Image Fusion Network for Multi-Modality Semantic Segmentation of Very High Resolution Imagery and Aerial Point Cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |