CN116246169A - 基于SAH-Unet的高分辨率遥感影像不透水面提取方法 - Google Patents
基于SAH-Unet的高分辨率遥感影像不透水面提取方法 Download PDFInfo
- Publication number
- CN116246169A CN116246169A CN202310107615.3A CN202310107615A CN116246169A CN 116246169 A CN116246169 A CN 116246169A CN 202310107615 A CN202310107615 A CN 202310107615A CN 116246169 A CN116246169 A CN 116246169A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- sah
- resolution remote
- sensing image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于SAH‑Unet的高分辨率遥感影像不透水面提取方法,包括:S1、获取目标区域高分辨率遥感影像和对应的OSM数据,对高分辨率遥感影像进行标注得到不透水面标签图像;S2、数据预处理得到不透水面样本数据集;S3、构建用于高分辨率遥感影像特征提取的SAH‑Unet模型;S4、将步骤S2得到的目标区域不透水面样本数据集作为网络输入,通过最小化损失函数,利用神经网络优化器对SAH‑Unet模型参数进行迭代优化;S5、将待识别不透水面的目标高分辨率遥感影像输入SAH‑Unet模型中,提取影像融合特征并进行逐像素的地物类别预测,得到地物类别为不透水面的区域。本发明通过构建SAH‑Unet模型,能提升提取不透水面信息精度。
Description
技术领域
本发明涉及城市遥感影像数据的信息提取技术,具体是基于SAH-Unet的高分辨率遥感影像不透水面提取方法。
背景技术
近年来,随着世界城市化进程的不断加快,造成了城镇面积不断扩张,引发了生物栖息地减少和退化、生物多样性丧失、地表下沉、水源污染等一系列环境问题。快速的城市化造成了不透水面面积增加,美国地质调查局(USGS)将不透水面定义为不允许水渗透的坚硬区域。具体而言,不透水面是指任何天然或人为造成的可以阻碍水源渗透,进而改变洪水径流、物质沉淀和污染剖面的物质,如覆盖有防水材料的建筑物屋顶、停车场和人行道等。总体而言,伴随着全球范围内城市化速度的不断增长,城市不透水面的扩张对城市区域的生态平衡、水文状况及自然生态环境均有着极为重要的影响。为了监测和评估城市可持续发展,2015年联合国提出了17项可持续发展目标(SDGs),其中SDG11即可持续城市和社区,具体指建设包容、安全、由抵御灾害能力和可持续的城市和人类住区。因此,实时且准确的自动提取不透水面数据对于城市规划以及环境和资源管理都十分重要,开展不透水面自动提取的相关研究对城市生态建设、监测城市动态及实现城乡地区的可持续发展均有着重要的意义。
早期的不透水面研究主要是通过人工测绘的方法,这种方式虽有着较高的精准度,但成本高、实时性差。相比于传统的测绘方式,遥感技术成本更低、实用性强、覆盖面广,故随着遥感卫星技术的快速发展,其已被广泛应用于不透水面提取的相关研究中,成为了城市可持续发展研究的重要途径。传统的利用遥感影像提取不透水面的方法是通过光谱分析和混合像素分解来分析不同地物的反射光谱特征的差异,如光谱混合分析法、指数法、回归分析法等。但由于数据分辨率及不同地物光谱干扰的影响,降低了不透水面提取的精度。
发明内容
本发明的目的在于解决现有利用遥感影像提取不透水面信息精度低的问题,提供了一种基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其应用时能提升提取不透水面信息精度。
本发明的目的主要通过以下技术方案实现:
基于SAH-Unet的高分辨率遥感影像不透水面提取方法,包括如下步骤:
S1、获取目标区域高分辨率遥感影像和对应的OSM数据,基于OSM数据对高分辨率遥感影像进行标注,得到不透水面标签图像;
S2、对高分辨率遥感影像及对应不透水面标签图像进行数据预处理,得到不透水面样本数据集;
S3、构建用于高分辨率遥感影像特征提取的SAH-Unet模型,其中,SAH-Unet模型以U-Net为骨干网络,在每个编码器的卷积计算之后引入CBAM注意力模块,在解码器添加了支路径以结合上采样步骤中不同尺度的分类结果并进行反向传播和权重更新,采用深度可分离卷积代替U-Net原有卷积运算;
S4、将步骤S2得到的目标区域不透水面样本数据集作为网络输入,通过最小化损失函数,利用神经网络优化器对SAH-Unet模型参数进行迭代优化,直至SAH-Unet模型准确检测高分辨率遥感影像中的不透水面;
S5、将待识别不透水面的目标高分辨率遥感影像输入训练得到的SAH-Unet模型中,提取影像融合特征并进行逐像素的地物类别预测,得到地物类别为不透水面的区域。
近些年,深度学习成为机器学习领域的热点之一,其特点是具有独特的自动特征学习能力和对非线性函数极强的表示和拟合能力,可以通过对低级特征的处理整合,生成更抽象的高级表示、属性或特征。由于其相对于传统机器学习算法的巨大优势,深度学习及相关方法已成功应用于各种计算机视觉任务,如图像分类、实例分割、目标检测等领域。其中卷积神经网络(CNN)因能自动的挖掘图像的相关上下文表征、深层次的学习抽象影像特征,逐渐已被应用到图像处理中。全卷积神经网络(FCN)的提出进一步将图像级分类延伸到像素级分类,极大的促进了语义分割类网络的发展。基于编码器(encoder)-解码器(decoder)架构的Unet网络模型结合了反卷积与跳跃网络的特点,大量研究将其应用于遥感影像研究均取得了较为不错的效果。FPN是结合多层级特征来解决多尺度问题的特征金字塔模型,其通过高层特征向低层特征融合,增加底层特征的表达能力以提升网络性能,使得不同尺度的目标可以分配到不同层预测,达到分而治之的效果。Deeplabv3网络架构增加了多尺度分割物体的模块,且设计了串行和并行的空洞卷积模块,采用多种不同的空洞率来获取多尺度的内容信息,提升了对多尺度物体实例分割的性能。LinkNet通过将编码器与解码器链接在一起的架构,在大规模减少参数量的同时也保证了网络模型的精度。PSPNet网络通过基于不同区域的上下文聚合,提升了网络模型充分利用上下文信息的能力,提升了网络在不同场景解析任务下的性能。Deeplabv3+架构在Deeplabv3架构基的础上,加入了新的解码模块,更加精确的重构了影像分割中物体的边界。PAN架构则是在FPN的基础上添加了一个自下而上的金字塔,将底层特征传递上去,使得模型既结合了语义信息又拥有定位信息,从而提升性能。与经典方法相比,深度学习方法具有独特的自动特征学习能力和对非线性函数极强的表示和拟合能力,可以通过对低级特征的处理整合,生成更抽象的高级表示、属性或特征,故在图像分割方面具有更好的性能。因此,利用深度学习方法可以解决高分辨率遥感影像的数据量大、地物类型复杂等问题,对于城市不透水面提取的研究具有实际意义。在网络模型用于不透水面提取方面,随着网络层次的加深,会丢失细小的不透水面和边缘等细节信息。此外由于高分辨遥感影像的拍摄的局限性,对于拍摄不全的地物,模型会出现错分、漏分的现象。为尽可能保留细节不透水面信息,达到更高精度的不透水面提取效果,本发明对网络模型进一步探索,本发明的SAH-Unet(Small Attention Hybrid-Unet)模型为多尺度融合网络模型,其以U-Net为骨干网络,在每个编码器的卷积计算之后引入CBAM(convolutional block attention module)注意力模块,以放大图像尺度上的重要特征并抑制相对不重要的特征;在解码器添加了支路径以结合上采样步骤中不同尺度的分类结果,使得模型可以在反向传播和权重更新过程中使用多尺度信息;最后,本发明在网络模型中使用深度可分离卷积代替普通卷积操作,从而在提取不透水面的多尺度特征时,在保证精度的同时大大减少网络模型参数的数量和计算量。如此,本发明保证对影像多尺度特征的提取能力,以适用于高分辨率遥感影像的不透水面自动提取。
为了保证标签的准确性,进一步的,所述步骤S1中基于OSM数据对高分辨率遥感影像进行标注时,以OSM数据作为掩膜数据并结合目视解译进行纠正,利用ENVI对影像不透水面区域进行标记,并与原始影像位置进行严格配准。
高分辨率的遥感影像具有极其丰富的空间、色彩和纹理特征,不同层次的特征信息为不透水面的提取提供了依据。但若将高分辨率遥感影像直接输入到网络模型中,会造成庞大的计算压力,导致计算机内存溢出。为尽可能保存所有影像信息,同时减缓计算压力,进一步的,所述步骤S2包括以下步骤:
将高分辨率遥感影像裁剪为图像块,并得到对应的不透水面标签图像块,再将对应裁剪得到的高分辨率遥感影像图像块和不透水面标签图像块作为样本,通过样本筛选、数据增强后,构建为不透水面样本数据集。其中,将高分辨率遥感影像裁剪为图像块,再作为信息输入到网络中,进而可针对少量相邻的像素点所包含的一些小而有意义不透水面的纹理及轮廓特征进行检测。
进一步的,所述数据增强的操作包括多角度翻转、镜像映射、色调增强、高斯模糊及添加噪声中的一种或多种方式。
进一步的,所述SAH-Unet模型中每个编码器的输入为来自前一个编码器经过卷积和最大池化下采样后的特征,经过注意力机制的特征通过跳跃连接与经过上采样地特征信息相连接。
进一步的,所述SAH-Unet模型对结合各编码器输出的特征图使用1×1的卷积核调整特征通道数,再进行softmax分类。
进一步的,所述步骤S4中采用的损失函数为Dice Loss函数。
进一步的,所述步骤S4中对SAH-Unet模型参数进行迭代优化包括以下步骤:利用反向传播与优化算法对SAH-Unet模型进行训练,训练过程中通过Adam优化算法不断更新权值,使损失函数误差不断减小,直至模型趋于稳定。
进一步的,所述步骤S4采用早停策略,当验证损失在连续设定数量训练轮数没有改善时停止训练。
进一步的,所述步骤S5在目标高分辨率遥感影像尺寸大时,采用边缘重叠的方式进行分块裁剪得到相应的图像块,然后将图像块输入训练得到的SAH-Unet模型中得到输出的分类图块,再将得到的所有分类图块通过忽略边缘策略按序拼接,得到完整影像的地物类别分类结果,进而从中提取出地物类别为不透水面的区域。
SAH-Unet模型在原始Unet模型上进行了扩展和改进。原始U-Net网络由左侧encoder通道和右侧decoder通道构成,左侧encoder通道应用最大池化和卷积操作,将特征图进行大小减半和特征通道数量加倍。右侧decoder通道逐层进行上采样,逐步恢复图像细节和空间维度,并利用跳跃结构与左侧encoder通道对应层级的特征图进行融合。在SAH-Unet模型中,CBAM被放置在每一个编码器的卷积计算后,以用来放大重要特征并抑制图像尺度上相对不重要的特征;在decoder部分增加了支路径,通过预测上采样步骤中不同尺度的分类结果,并进行反向传播和权重更新,使得模型在反向传播和权重更新中能利用多尺度信息,将各层的特征图应用于预测;此外将原本Unet模型中的卷积运算全部更换为深度可分离卷积。本发明的SAH-Unet模型中每个编码器的输入为来自前一个编码器经过卷积和最大池化下采样后的特征,而不是应用过CBAM的特征信息,这样是为了直到最后一个编码器都能尽可能地保留原始图像的特征。在后续网络中,经过注意力机制的特征通过跳跃连接与经过上采样地特征信息相连接。本发明在具体实施时,CBAM注意力模块中的卷积仍然使用常规卷积。
高分辨率遥感影像一般是指分辨率在米级和亚米级的遥感影像,由于城市土地利用情况的复杂性以及不透水面材料的多样性,导致直接从高分辨率遥感影像中提取不透水面具有一定的挑战。针对从高分辨率遥感影像提取城市不透水面的需求,现有遥感不透水面提取研究中存在的精度较、效率和自动化程度方面的困境。本发明的构思是:综合利用人工智能方法的深度神经网络架构,将不透水面提取转化为深度学习网络模型构建与训练优化问题。以高分辨率遥感影像及其对应的不透水面标签图像作为基本输入单元,引入全局优化和类别空间关系信息作为约束,训练深度学习模型对不透水面进行精确提取。在该技术路线中,如何设计简单有效的深度学习网络模型的模型结构以及如何有效的训练该深度学习网络模型,使其能够准确地从复杂的遥感影像中提出出不透水面,是需要解决的主要问题。本发明中,基于U-net模型结合特征金字塔网络,对不透水面提取网络进行设计,提出了SAH-Unet网络模型,通过引入注意力机制和多尺度特征融合机制增强模型对不透水面的提取能力,并使用深度可分离卷积代替普通卷积操作以减少模型中的参数量,从而使得网络架构更适用于高分辨率遥感影像的不透水面自动提取;同时本发明基于提出的SAH-Unet网络模型,设计网络训练框架,以实现对模型训练策略的选取以及对网络超参数的配置。
综上所述,本发明与现有技术相比具有以下有益效果:
(1)本发明将当今应用广泛的深度学习方法引入到高分辨遥感影像的不透水面提取问题上来,将高分辨率遥感影像的不透水面提取转化为网络模型的构建与参数训练优化问题,为高分辨率遥感影像的不透水面提取提供了一种基于数据驱动的实施方向。
(2)本发明充分考虑高分辨率遥感影像具有高空间分辨率及丰富地物特征的相应特点,综合考虑计算机的内存管理压力及模型特征提取能力,基于U-net模型引入了注意力模块及多尺度特征融合机制,最后利用深度可分离卷积减少参数量,得到了SAH-Unet模型。实际效果表明,该模型能够增强对图像细节的处理能力且实现了多尺度的特征融合,在不占用太多内存和计算量的前提下提高了对高分辨遥感影像不透水面提取的精度。
(3)本发明通过以图像信息作为输入特征,利用网络模型的学习能力,主动学习数据中目标的特征,依据输入的图像数据来对地物和空间信息进行提取和分析,避免传了传统方法需要依据大量先验知识的缺陷。这种端到端的学习方式可以得到最优模型参数,降低了对先验知识和人为干预的依赖性,且能得到更高的不透水面提取精度,从而避免了特征选择过程中效率低、操作复杂等问题,实现了不透水面自动化提取,最终获得较精确的不透水面信息。本发明在总体精度(Overall Accuracy,OA)、召回率(Recall)、F1分数(F1-score)、均交并比(MeanIntersection over Union,MIoU)和准确率(Precision)精度评价中均有提升,且操作简单易行,提取效果优秀。本发明对遥感不透水面精确和自动化提取研究提供示范和借鉴。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一个具体实施例的流程图;
图2为本发明一个具体实施例的SAH-Unet模型示意图;
图3为基于SAH-Unet模型的预测结果与不透水面标签图像对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
如图1所示,基于SAH-Unet的高分辨率遥感影像不透水面提取方法,包括如下步骤:S1、获取目标区域高分辨率遥感影像和对应的OSM数据,基于OSM数据对高分辨率遥感影像进行标注,得到不透水面标签图像;S2、对高分辨率遥感影像及对应不透水面标签图像进行数据预处理,得到不透水面样本数据集;S3、构建用于高分辨率遥感影像特征提取的SAH-Unet模型,其中,SAH-Unet模型以U-Net为骨干网络,在每个编码器的卷积计算之后引入CBAM注意力模块,在解码器添加了支路径以结合上采样步骤中不同尺度的分类结果并进行反向传播和权重更新,采用深度可分离卷积代替U-Net原有卷积运算;S4、将步骤S2得到的目标区域不透水面样本数据集作为网络输入,通过最小化损失函数,利用神经网络优化器对SAH-Unet模型参数进行迭代优化,直至SAH-Unet模型准确检测高分辨率遥感影像中的不透水面;S5、将待识别不透水面的目标高分辨率遥感影像输入训练得到的SAH-Unet模型中,提取影像融合特征并进行逐像素的地物类别预测,得到地物类别为不透水面的区域。
本实施例应用时,目标区域的高分辨率遥感影像可以从各大遥感平台获取,如从SAS planet获取GeoTiff格式的Google earth影像;目标区域的OSM数据可以从OSM官网导入目标区域矢量图下载。为尽可能的保证标签的准确性,本实施例的步骤S1中基于OSM(Open Street Map)数据对高分辨率遥感影像进行标注时,以OSM数据作为掩膜数据并结合目视解译进行纠正,利用ENVI对影像不透水面区域进行标记,并与原始影像位置进行严格配准。本实施例应用时,利用ENVI中的监督分类完成初始分类,保证样本间的分离度在1.9以上,且在初始分类完成后进行分类后处理操作以消除数据在处理过程中的误差,得到更好的不透水面标签图。分类后处理操作包括小斑块去除、聚类处理、过滤处理。
本实施例的步骤S2包括以下步骤:将高分辨率遥感影像裁剪为图像块,并得到对应的不透水面标签图像块,再将对应裁剪得到的高分辨率遥感影像图像块和不透水面标签图像块作为样本,通过样本筛选、数据增强后,构建为不透水面样本数据集。其中,样本筛选包括去除样本分布极不平衡及地物特征不明显的样本。本实施例在具体实施时,裁剪的尺寸为256×256像素。
在有限数据的情况下,数据增强可以通过提升已有数据的质量和数量,扩大模型训练时的学习范围,同时可通过添加噪声等方式增强数据的鲁棒性,更好的训练网络模型,增强模型的泛化能力。且对于遥感影像而言,由于传感器拍摄时的角度与时像性,通过几何变化等数据增强方式可以对影像信息和质量进行改善,使影像特征更为明显,从而加强模型对不透水面的识别效果。其中,本实施例中数据增强的操作包括多角度翻转、镜像映射、色调增强、高斯模糊及添加噪声中的一种或多种方式。
高分辨率的遥感影像具有极其丰富的空间、色彩和纹理特征,不同层次的特征信息为不透水面的提取提供了依据。但若将高分辨率遥感影像直接输入到网络模型中,会造成庞大的计算压力,导致计算机内存溢出。对于该问题,一般采样影像降采样或影像裁剪的方案来解决。然而影像降采样过程会使影像丢失空间细节特征,对最终提取精度造成一定影响。因此本实施例将影像裁剪成合适大小的图像块,再输入到网络中,进而可以针对少量的相邻像素点所包含的一些小而有意义的特征进行检测,例如不透水面的纹理特征及轮廓特征。
本实施例在具体实施时,考虑到模型训练的需要,将得到的不透水面样本数据集按相应比例分为训练集、验证集和测试集。利用训练集对SAH-Unet模型进行训练,并利用验证集辅助模型训练,验证其模型精度并防止过拟合现象,最终以测试集作为衡量模型最终不透水面提取的精度,满足精度要求后即用于实际高分辨率遥感影像的不透水面提取。
如图2所示,本实施例的SAH-Unet模型在原始Unet模型上进行了扩展和改进。具体体现在以下三方面改进:第一:在编码器部分,引入了CBAM注意力机制、第二:将网络中的常规卷积操作更换成了深度可分离卷积、第三:输出时结合网络每个解码器块的所有输出特征图,因其具有不同的尺度。
其中U-Net网络本身属于现有技术,为了便于叙述,网络结构简单介绍如下:U-Net网络由左侧encoder通道和右侧decoder通道构成,两侧为对称关系,形态上接近U型。encoder通道对输入的高分辨率遥感影像逐层进行下采样,减小池化层空间维度,用以实现遥感影像特征提取,每个网络层级由不同类型和数量的卷积层、池化层构成,其中左侧encoder通道的输入影像大小为256×256,维度为3,分别经过4个卷积层和池化层后,得到大小为16×16,维度为1024的高维特征图。高维特征图进入右侧decoder通道逐层进行上采样,逐步恢复图像细节和空间维度,并利用跳跃结构与左侧压缩通道对应层级的特征图进行融合。
在深度学习领域中,注意力机制的引用使得网络模型不需以同样标准处理庞大且冗余的输入信息,从而使得网络能专注于输入的特定部分。由于不透水面的检测中存在小尺寸、复杂、重叠的样本,故模型的空间感知能力也十分重要。在SAH-Unet模型中实施例引入了CBAM注意力机制,其先应用于图像的特征通道,然后再应用于空间维度。在具体实施时,CBAM被放置在每一个编码器的卷积计算后,以用来放大重要特征并抑制图像尺度上相对不重要的特征。值得注意的是,实施例每个编码器的输入仍是来自前一个编码器经过卷积和最大池化下采样后的特征,而不是应用过注意力机制的特征信息,这样是为了直到最后一个编码器都能尽可能地保留原始图像的特征。在后续网络中,经过注意力机制的特征通过跳跃连接与经过上采样地特征信息相连接。
原始Unet网络只对自顶向下的最后一层进行预测,由于浅层特征可以提供更加准确的位置信息,而在网络运算中的多次上采样和降采样会使得深层网络的定位信息存在误差,导致容易丢失覆盖区域小、形状不规则的系数不透水面的细节信息。本实施例的SAH-Unet模型架构同Unet原始架构一样,也使用了四个encoder-decoder模块。SAH-Unet模型在解码器上增加了支路径,通过预测上采样步骤中不同尺度的分类结果,并进行反向传播和权重更新,使得模型在反向传播和权重更新中能利用多尺度信息,将各层的特征图应用于预测,以加强网络对细节不透水面的敏感程度,提高对小目标不透水面的提取能力,从而提高遥感影像的不透水面提取精度。
深度可分离卷积由逐通道卷积(depthwise)和逐点卷积(pointwise)两部分组成,具体操作是每个通道分别进行卷积运算得到相应的输出,再通过一个1×1卷积核之后得到最终输出。其优点是在不透水面多尺度的特征提取时能大大的降低参数量和运算量。故SAH-Unet为方便模型运算,将原本Unet模型中的卷积运算全部更换为深度可分离卷积,但在CBAM卷积注意力模块中仍然使用常规卷积。
假设输入特征图大小为DG×DG×M,在Deppthwise卷积中一个通道只能被一个卷积核卷积,滤波器尺度假设为DK×DK×1,则经过Depthwise卷积后的计算量为M×DG 2×DK 2.由于Depthwise卷积只对单个通道进行计算,各通道间的信息并没有达到交换。Pointwise的引入则完成了特征通道的进一步融合,由于其卷积核尺寸为1×1,假设输出特征图为DG×DG×N,则滤波器尺寸为1×1×M,共有N个,可得Pointwise的计算量为N×M×DG 2。综上假设普通卷积的计算量为N×DG 2×DK 2×M,。所以深度可分离卷积计算量与标准卷积计算量的比值计算公式如下:
由表中结果可得,我们设计的SAH-Unet模型,在对原始的Unet进行改进后,参数量有了极大的减少,且与Dsc-Unet相比参数的增加量也在可接受范围内。最终网络模型参数在4M左右,成为了轻便模型。
对于多分类器而言,设影像分为C类,对于每一个样本影像中的像元i{i=1,2,...,N},N为像元总数,它的真实类别标签表达为该样本经过前向传播得到的C维输出特征向量记为侧/>则寻找模型参数最优解的过程可以转化缩小输出值/>和地面真实标签/>之间的差距的过程。对于多分类问题,通常使用softmax函数将特征向量/>中所有类别的线性预测值转换为概率值,则像元i属于第C类的预测概率的计算公式为:
本实施例中,若仅需要提取不透水面,则可以采用二分类器。对于二分类器而言,其最终输出的是一个2维的特征图,代表每个像素属于不透水面和不属于不透水面的二分类概率。利用argmax函数求出概率最大值所属的维度,即该像素类别标签。
本实施例的步骤S4中对SAH-Unet模型参数进行迭代优化包括以下步骤:利用反向传播与优化算法对SAH-Unet模型进行训练,训练过程中通过Adam优化算法不断更新权值,使损失函数误差不断减小,直至模型趋于稳定。本实施例的步骤S4采用早停策略,当验证损失在连续设定数量训练轮数没有改善时停止训练。本实施例采用早停策略(即当验证损失在连续设定数量训练轮数没有改善时停止训练)优化以防止模型过拟合。此外,本实施例可考虑余弦退火的方式优化学习率。
在本实施例的训练过程中,损失函数以及神经网络优化器可根据实际进行调整优化。本实施例中,可优选采用交叉Dice Loss作为损失函数。利用反向传播与优化算法对多尺度融合网络模型进行训练,训练过程中通过Adam优化算法不断更新权值,使总损失函数误差不断减小,直至模型趋于稳定。
在模型预测过程中,为了防止内存溢出,通常将待分类影像裁剪为固定大小的图像块分别进行预测,然后再拼接成整张图像。然而由于卷积操作会将图像块的边界用0填充,因此这种预测方法会使得每个图像块边界像元的预测精度会低于中心像元的预测精度,拼接后得到的分类图像有明显的拼接痕迹。为了得到更高的预测结果,本实施例可采取忽略边缘预测,采用滑动窗口的方式获取有一定重叠区域的图像块,滑动窗口水平方向以及垂直方向上都有重叠像素,这部分像素后续作为舍弃部分,而不重叠的中心部分需要保留。然后对每一张预测的图像块保留中间不重叠部分区域的分类结果,舍弃边缘不准确的结果,再依次拼接,这样能够避免明显的拼接痕迹,提升影像预测效果。
因此,上述步骤S5的具体实现过程如下:若目标高分辨率遥感影像尺寸过大,采用边缘重叠的方式进行分块裁剪得到相应的图像块,然后将图像块输入训练得到的SAH-Unet模型中得到输出的分类图块,再将得到的所有分类图块通过忽略边缘策略按序拼接,得到完整影像的地物类别分类结果,即可从中提取出地物类别为不透水面的区域。
本实例应用时,训练框架具体描述如下:
(1)损失函数
以Dice Loss为损失函数,其对于样本类别不均衡的情况,能得到更优的训练效果。
其公式如下:
(2)激活函数(Activation Function)
激活函数对增加神经网络模型非线性、提高模型表达能力具有至关重要的作用。激活函数负责将人工神经网络神经元上的输入映射到输出端,通过给神经网络引入非线性元素,使其完成非线性映射,用以更好地解决复杂问题。非线性激活函数在神经网络的发展中起到了举足轻重的作用。
经典的U-net网络使用线性整流函数(Rectified Linear Unit,ReLU)作为其激活函数。ReLU函数因其计算简单且效率较高,收敛速度快而被广泛使用。但是,由于在输入小于0时,负的梯度被置零,这可能会抑制神经元,权值无法更新,从而导致模型无法学习到有效的特征。本实例中采用指数线性单元(Exponential Linear Unit,ELU)作为激活函数。ELU函数在x>0时,呈线性,能缓解梯度消失,x<0时,具有软饱和的特性,提升了对输入变化的鲁棒性,加速网络收敛。
假设某节点输出为x,则经过ELU层后的输出f(x)如下式所示,即ELU激活函数对x小于零的情况采用类似指数计算的方式进行输出:
ELU激活函数可以使输出均值趋近0,从而提高网络收敛速度,有效缓解梯度消失的问题,且对噪声更具有鲁棒性。本实施例在具体应用时,还可引入批归一化(BatchNormalization,BN)层。将批归一化层作为神经网络的一层,放在激活函数之前,通过批归一化处理,调整输入批数据的数据分布,增强模型的非线性表达能力并加速训练过程。同时在网络模型中,过融合上一层级的特征图来增强低维信息,这种融合方式会放大特征,产生过拟合现象。在深度学习网络的训练过程中,按概率p随机选择暂时丢弃一部分神经元,被丢弃的那些神经元可以暂时被认为不是网络结构的一部分,但权重被保留下来,因为有可能参与到后续的训练中。通过这种方式,提高网络的泛化能力,防止过拟合。因此在本实例中,引入Dropout,使部分神经元失活,在一定程度上防止过拟合现象。
(3)优化器(Optimizer)
神经网络优化器是对梯度下降方法和梯度更新操作的具体实现,用来更新模型内部的神经网络参数变量,使其逼近或达到最优值,从而使损失函数结果最小。本实例中,利用自适应矩估计优化器(Adam)训练网络参数。
(4)优化算法
本实例应用时还可引入余弦退火(cosine annealing)等梯度更新优化策略。当使用梯度下降优化算法来优化目标函数时,应适当降低学习速率,以便尽可能接近损失函数的全局最小值。余弦函数具有随自变量值的增加而缓慢减小,然后加速再减速的特点。
其具体公式如下:
其中ηt代表当前的学习率,ηmin代表学习率的最小值,Tcur代表当前的迭代次数以及Tmax代表最大的迭代次数。
(5)早停(early stopping)策略
早停策略是网络训练中防止模型过拟合现象的正则化方法之一,旨在解决epoch数量需要手动设置的问题,从而使模型获得较好的泛化性能。早停策略且简单有效,在各种模型训练过程中被广泛使用。在模型训练过程中,存在继续训练会导致测试集上的准确率下降的情况,早停策略就可以使模型在验证集上的损失值不再减小的时候停止训练。本实例中利用早停模型训练策略来控制模型训练过程,当模型在验证集上的误差不再降低时,经过设定数量的训练轮数(epoch)后停止训练,其中,本实施例中设定数量的训练轮数为5次。
(6)超参数设置
超参数包括影像块大小patch_size、训练样本大小batch_size、学习率learningrate、训练轮数epoch等等。需要根据数据内容、体量、计算机硬件资源,综合考虑确定模型训练时的超参数设置。
下面以成都市的高分辨率遥感影像为例,成都市地理坐标位于102°54′~104°53′E,30°05-31°26′N,地处四川盆地西部边缘、成都平原腹地,地势平坦、河网纵横,地形以平原为主,市区内平均海拔500m。在过去二十年内,这座城市的人口激增、城镇化建设不断扩张,逐渐成为中国西南地区的重要中心城市及经济、文化、金融和交通中心[25]。其东部为龙泉山脉和盆中丘陵,地势连绵起伏,中部为成都平原,河网密布、土地肥沃,西部为攻来山脉,海拔落差较大、地貌丰富。
对本实施例在成都市的应用实例进行具体描述,其具体步骤如下:
1)采用成都市主城区Google Earth空间分辨率为2.15m的高分辨率卫星影像数据及对应的OSM数据。在成都市主城区范围内选取三幅4352×4352像素的高分辨遥感图像作为训练样本,一幅4352×4352像素的影像作为测试样本。影像包含了植被、道路、建筑物、水体和裸地等多种复杂地物。
按照前述的步骤S1-S2,对选取的高分辨率遥感影像进行标注,地面真值将影像分为不透水面和透水面两大类,由此得到对应不透水面标签数据。采用固定大小为256×256像素的窗口裁剪出一系列样本,对遥感影像及其对应标签数据进行切割,避免直接输入网络而对计算机内存产生较大的压力,造成内存溢出。通过对遥感影像和对应标签数据进行多角度翻转、镜像映射、色调增强、高斯模糊和添加噪声来对裁剪得到的待训练样本进行数据增强操作,以增强影像的鲁棒性,降低数据的敏感性。为保证数据集中正负样本分布均匀,筛除数据集中不透水面像素占比过低的图像。本应用实施统一图片块的尺寸为256×256,通过图像增强后,筛选去除其中质量较差、样本分布极不平衡的图像,最终形成了尺寸为256×256,数量为7605的数据集,其中训练集数量为5760,验证集数量为1440,测试集数量为405。标注的不透水面主要包括建筑、道路等,透水面包括植被、水体、裸地等。
2)按照前述的S3步骤对构建高分辨率遥感影像特征提取的SAH-Unet模型,该SAH-Unet模型以U-Net为骨干网络,在编码器部分,引入了CBAM注意力机制;在解码器添加了支路径,使得模型输出时结合网络每个解码器块的所有输出特征图;将模型中的常规卷积操作更换成了深度可分离卷积,具体模型结构如前所述。本实例的此应用实施中在U-Net网络第四层卷积操作后添加舍弃率为0.5的Dropout层,即在每次训练迭代中,以0.5的概率丢弃神经元。
3)构建模型训练框架。训练框架中首先构造训练数据的模型输入,以DiceLoss作为损失函数来评估模型预测值与真实值之间的误差,再构造神经网络训练优化器对训练参数进行优化,当损失值达到一定阈值后,训练停止。本实例的此应用实例中,对于超参数设置,影像块大小patch_size设置为256×256像素,训练样本大小batch_size设置为32,学习率learning rate初始为0.01,训练轮数epoch设置为200。
4)按照前述的S4步骤,基于前述构建的损失函数,将训练集输入SAH-Unet模型中,通过构造的神经网络优化器对多尺度融合网络模型参数变量进行优化,不断迭代训练。最终,模型早停策略下终止了训练,达到了最佳的损失值0.064。保存该最佳模型。
为了验证最佳模型的预测效果,对测试集影像利用训练得到的模型进行特征提取,利用所提取的影像特征进行逐像素预测,实现不透水面提取。
本实施例的高分辨率遥感影像提取不透水面方法在总体精度(OverallAccuracy,OA)、召回率(Recall)、F1分数(F1-score)、均交并比(Mean Intersection overUnion,MIoU)和准确率(Precision)精度评价中均得到较好结果,如下表1所示。
表1高分辨率遥感影像提取精度评价表
为了直观展示不透水面提取效果,在本实施例的深度学习高分辨率遥感影像不透水面提取方法下,获得了测试集样本上的不透水面提取结果。图3是部分测试结果,将具有代表性的不透水面提取图与真实地表不透水面图像进行对比分析,影像下垫面包含了建筑物、道路、植被和水体等不同地物。可以看出,在本实施例的深度学习高分辨率遥感影像不透水面提取方法能清晰地将建筑物、道路和桥梁等在内的不透水面与水体、农田和植被等透水面区分,能够较好的区分裸地和不透水面,准确提取出不透水面信息。对于小目标的不透水面地表,本文方法也能够较为精确的提取。
本实施例方法总体精度为0.9159,召回率、F1分数和MIoU分别为0.8467、0.9117和0.9199,Precision为0.9042,表明本实施例的方法的各精度指标较为理想,可以应用于实际的高分辨率遥感影像的不透水面提取中,具有十分重要的实际应用价值。
为更全面、更准确的对比各模型在不透水面提取的精度,在测试集上将训练完毕的模型在初始精度函数的基础上,对MIOU、Fscore、Recall、Precision指标与其它模型进行了综合对比。结果如表2所示,为避免偶然性结果均为5次实验取平均值。
表2测试集各模型提取精度评估表
由表2的对比数据可知,本实施例能显著提升提取不透水面信息精度。
该模型在应用时,可按照前述S5的步骤,将目标高分辨率遥感影像按照忽略边缘预测方案进行分块后,输入训练得到的多尺度融合网络模型中,提取影像融合特征并进行逐像素地物类别预测,再重新进行忽略边缘拼接,得到地物类别为不透水面的区域。
综上所述,本实施例使用深度学习方法提取不透水面信息,可以避免传统方法需要依据大量先验知识的缺陷。其端到端的学习方式可以得到最优模型参数,降低了对先验知识和人为干预的依赖性,且能得到更高的不透水面提取精度,在不透水面提取中表现出了巨大潜能。本实施例基于中国典型城市成都市高分辨率遥感影像制作了用于深度学习训练的不透水面数据集;提出了SAH-Unet网络,与其它经典语义分割网络精度对比中可知,该网络在不透水面提取上有着更高的精度。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,包括如下步骤:
S1、获取目标区域高分辨率遥感影像和对应的OSM数据,基于OSM数据对高分辨率遥感影像进行标注,得到不透水面标签图像;
S2、对高分辨率遥感影像及对应不透水面标签图像进行数据预处理,得到不透水面样本数据集;
S3、构建用于高分辨率遥感影像特征提取的SAH-Unet模型,其中,SAH-Unet模型以U-Net为骨干网络,在每个编码器的卷积计算之后引入CBAM注意力模块,在解码器添加了支路径以结合上采样步骤中不同尺度的分类结果并进行反向传播和权重更新,采用深度可分离卷积代替U-Net原有卷积运算;
S4、将步骤S2得到的目标区域不透水面样本数据集作为网络输入,通过最小化损失函数,利用神经网络优化器对SAH-Unet模型参数进行迭代优化,直至SAH-Unet模型准确检测高分辨率遥感影像中的不透水面;
S5、将待识别不透水面的目标高分辨率遥感影像输入训练得到的SAH-Unet模型中,提取影像融合特征并进行逐像素的地物类别预测,得到地物类别为不透水面的区域。
2.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述步骤S1中基于OSM数据对高分辨率遥感影像进行标注时,以OSM数据作为掩膜数据并结合目视解译进行纠正,利用ENVI对影像不透水面区域进行标记,并与原始影像位置进行严格配准。
3.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述步骤S2包括以下步骤:
将高分辨率遥感影像裁剪为图像块,并得到对应的不透水面标签图像块,再将对应裁剪得到的高分辨率遥感影像图像块和不透水面标签图像块作为样本,通过样本筛选、数据增强后,构建为不透水面样本数据集。
4.根据权利要求3所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述数据增强的操作包括多角度翻转、镜像映射、色调增强、高斯模糊及添加噪声中的一种或多种方式。
5.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述SAH-Unet模型中每个编码器的输入为来自前一个编码器经过卷积和最大池化下采样后的特征,经过注意力机制的特征通过跳跃连接与经过上采样地特征信息相连接。
6.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述SAH-Unet模型对结合各编码器输出的特征图使用1×1的卷积核调整特征通道数,再进行softmax分类。
7.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述步骤S4中采用的损失函数为Dice Loss函数。
8.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述步骤S4中对SAH-Unet模型参数进行迭代优化包括以下步骤:利用反向传播与优化算法对SAH-Unet模型进行训练,训练过程中通过Adam优化算法不断更新权值,使损失函数误差不断减小,直至模型趋于稳定。
9.根据权利要求1所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述步骤S4采用早停策略,当验证损失在连续设定数量训练轮数没有改善时停止训练。
10.根据权利要求1~9中任意一项所述的基于SAH-Unet的高分辨率遥感影像不透水面提取方法,其特征在于,所述步骤S5在目标高分辨率遥感影像尺寸大时,采用边缘重叠的方式进行分块裁剪得到相应的图像块,然后将图像块输入训练得到的SAH-Unet模型中得到输出的分类图块,再将得到的所有分类图块通过忽略边缘策略按序拼接,得到完整影像的地物类别分类结果,进而从中提取出地物类别为不透水面的区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310107615.3A CN116246169A (zh) | 2023-02-13 | 2023-02-13 | 基于SAH-Unet的高分辨率遥感影像不透水面提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310107615.3A CN116246169A (zh) | 2023-02-13 | 2023-02-13 | 基于SAH-Unet的高分辨率遥感影像不透水面提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246169A true CN116246169A (zh) | 2023-06-09 |
Family
ID=86625579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310107615.3A Pending CN116246169A (zh) | 2023-02-13 | 2023-02-13 | 基于SAH-Unet的高分辨率遥感影像不透水面提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246169A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579616A (zh) * | 2023-07-10 | 2023-08-11 | 武汉纺织大学 | 一种基于深度学习的风险识别方法 |
CN116594061A (zh) * | 2023-07-18 | 2023-08-15 | 吉林大学 | 一种基于多尺度u形注意网络的地震数据去噪方法 |
-
2023
- 2023-02-13 CN CN202310107615.3A patent/CN116246169A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579616A (zh) * | 2023-07-10 | 2023-08-11 | 武汉纺织大学 | 一种基于深度学习的风险识别方法 |
CN116579616B (zh) * | 2023-07-10 | 2023-09-29 | 武汉纺织大学 | 一种基于深度学习的风险识别方法 |
CN116594061A (zh) * | 2023-07-18 | 2023-08-15 | 吉林大学 | 一种基于多尺度u形注意网络的地震数据去噪方法 |
CN116594061B (zh) * | 2023-07-18 | 2023-09-22 | 吉林大学 | 一种基于多尺度u形注意网络的地震数据去噪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977812B (zh) | 一种基于深度学习的车载视频目标检测方法 | |
CN111986099B (zh) | 基于融合残差修正的卷积神经网络的耕地监测方法及系统 | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
CN109934200B (zh) | 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统 | |
CN111259906B (zh) | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 | |
CN110728658A (zh) | 一种基于深度学习的高分辨率遥感影像弱目标检测方法 | |
CN103714339B (zh) | 基于矢量数据的sar影像道路损毁信息提取方法 | |
CN116246169A (zh) | 基于SAH-Unet的高分辨率遥感影像不透水面提取方法 | |
CN112084869B (zh) | 一种基于紧致四边形表示的建筑物目标检测方法 | |
CN113298818A (zh) | 基于注意力机制与多尺度特征的遥感图像建筑物分割方法 | |
CN107609602A (zh) | 一种基于卷积神经网络的驾驶场景分类方法 | |
CN112489054A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN111259827B (zh) | 一种面向城市河道监管的水面漂浮物自动检测方法及装置 | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN111028255A (zh) | 基于先验信息与深度学习的农田区域预筛选方法及装置 | |
CN113887515A (zh) | 一种基于卷积神经网络的遥感滑坡识别方法及系统 | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN110929621B (zh) | 一种基于拓扑信息细化的道路提取方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN113313094B (zh) | 一种基于卷积神经网络的车载图像目标检测方法和系统 | |
CN110717886A (zh) | 复杂环境下基于机器视觉的路面坑塘检测方法 | |
CN114494870A (zh) | 一种双时相遥感图像变化检测方法、模型构建方法和装置 | |
CN115393712B (zh) | 基于动态混合池化策略的sar图像道路提取方法及系统 | |
CN114596500A (zh) | 一种基于通道-空间注意力和DeeplabV3plus的遥感影像语义分割方法 | |
CN113505670A (zh) | 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |