CN116051833A - 一种改进Upernet的红树林与互花米草语义分割模型和方法 - Google Patents
一种改进Upernet的红树林与互花米草语义分割模型和方法 Download PDFInfo
- Publication number
- CN116051833A CN116051833A CN202211706820.3A CN202211706820A CN116051833A CN 116051833 A CN116051833 A CN 116051833A CN 202211706820 A CN202211706820 A CN 202211706820A CN 116051833 A CN116051833 A CN 116051833A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- mangrove
- sensing image
- spartina alterniflora
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,具体涉及一种改进Upernet的红树林与互花米草语义分割模型和方法。该模型包括预处理模块、分割处理模块和输出模块;所述预处理模块,用于获取遥感图像,对所述遥感图像进行预处理;所述分割处理模块,用于对预处理后的所述遥感图像采用不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,将指数结果数据进行分割处理,所述分割处理模块具有Swin‑transformer骨干网络,所述分割处理模块的损失函数由交叉熵损失函数和lovasz softmax损失函数组成;所述输出模块,用于输出处理后的结果图像;本发明增强了红树林与其他植被的差异性;提升了模型对红树林和互花米草的检测精度;简化网络模型,减少了计算迭代次数,提高了检测效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及改进Upernet的红树林与互花米草语义分割模型和方法。
背景技术
红树林生长在陆海交界处,其在净化海水、防风浪、蓄碳和维护生物多样性等方面发挥着重要作用。互花米草生长在河口、海湾等沿海泥滩的潮间带和受潮汐影响的海滩上,互花米草的快速繁殖,改变了红树林湿地原有的生态结构,使红树林湿地面积不断减小,其严重影响了红树林湿地生态系统的稳定性。因此,红树林和互花米草的高精准提取,为维护滨海湿地生态系统的稳定具有重要意义。
深度学习是机器学习算法中的新技术,其动机在于创建一个神经网络并利用它模拟人脑进行分析学习。Hinton于80年代提出了适用于多层感知机(Multi-LayerPerceptron,MLP)的反向传播算法,使得深度学习进入人们的视野。其后,LeCun等于1998年提出了卷积神经网络(Convolutional Neural Networks,CNN);Ronneberger等于2015年提出了具有编码器与解码器结构的U-net语义分割模型,使得图像分割的精度大大提升。深度学习逐渐被应用于语音识别、目标识别和自然语言处理等领域,且其语义分割的精度和效率逐步得到了优化。
在高分辨率遥感图像处理领域,特别是针对红树林与互花米草的提取,Yang等以国产高分一号和高分二号影像为数据源,提出结合空间位置与决策树分类的互花米草分布信息提取算法;Pan等通过设置绿度因子和NDVI阀值对福建省1999—2018年间的沿海红树林和互花米草滩涂植被的时空变化特征进行了分析。基于机器学习的研究方法初步实现了红树林与互花米草的自动化提取,但受互花米草生长连通区域小、潮汐淹没变化和遥感图像空间分布信息复杂等因素影响。
由于红树林与其他植被差异性小,存在边界性模糊,现有提取方法在分割时存在过分割或欠分割现象;为了解决该技术问题现提出一种改进Upernet的红树林与互花米草语义分割模型和方法。
发明内容
为了解决上述现有技术中存在的技术问题,本发明提供了一种改进Upernet的红树林与互花米草语义分割模型和方法。
为实现上述目的,本发明实施例提供了如下的技术方案:
第一方面,在本发明提供的一个实施例中,提供了改进Upernet的红树林与互花米草语义分割模型,该模型包括:预处理模块、分割处理模块和输出模块;
所述预处理模块,用于获取遥感图像,对所述遥感图像进行预处理;
所述分割处理模块,用于对遥感图像采用不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,将指数结果数据进行分割处理,所述分割处理模块具有Swi n-transformer骨干网络,所述分割处理模块的损失函数由交叉熵损失函数和l ovaszsoftmax损失函数组成;
所述输出模块,用于输出处理后的结果图像。
作为本发明的进一步方案,所述预处理模块,包括裁剪单元、扩充单元和处理单元;
所述裁剪单元,用于对遥感图像进行裁剪;
所述扩充单元,用于对裁剪后的遥感图像进行扩充数据量操作;
所述处理单元,用于随机从完成扩充数据量操作后的遥感图像中选定设定大小的粘贴区域,并多次随机粘贴到所述遥感图像的其他区域,其中,粘贴区域中互花米草所占区域占比超过预定阈值。
作为本发明的进一步方案,所述扩充单元扩充数据量操作是通过水平、垂直和镜像翻转操作完成的。
作为本发明的进一步方案,所述预定阈值为60%。
作为本发明的进一步方案,所述Swi n-transformer骨干网络具有移位窗口和采用分层设计。
作为本发明的进一步方案,所述Swi n-transformer骨干网络还具有Patch合并层。
作为本发明的进一步方案,所述损失函数定义为:
loss=∝LossCE+(1-∝)LossLS;
其中∝是一个权重参数,用于权衡这两个函数的权重,LosSCE为交叉熵损失函数,LossLS为Lovasz softmax损失函数。
第二方面,在本发明提供的又一个实施例中,提供了改进Upernet的红树林与互花米草语义分割方法,该方法包括以下步骤:
获取遥感图像,对所述遥感图像进行预处理;
遥感图像通过不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,并将得到的指数结果数据叠加到分割模型的输入数据中,构建多通道输入数据;
其中,所述分割模型具有Swi n-transformer骨干网络,所述分割模型的损失函数由交叉熵损失函数和l ovasz softmax损失函数组成;
输出分割模型处理后的结果图像。
本发明提供的技术方案,具有如下有益效果:
本发明提供的改进Upernet的红树林与互花米草语义分割模型和方法,通过将不同的波段组合计算,将NDVI、FDI和DVI指数叠加至输入数据中,构建多通道输入数据,以增强红树林与其他植被的差异性;改进模型主干网络与损失函数,提升模型对互花米草的检测精度;通过去除高分辨率特征层与低分辨率特征层之间的部分连接,简化网络模型,减少了计算迭代次数,提高了检测效率。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例的改进Upernet的红树林与互花米草语义分割模型的结构框图。
图2为本发明一个实施例的改进Upernet的红树林与互花米草语义分割模型中预处理模块的结构框图。
图3为遥感图像预处理对比图,其中(a)原始遥感图像,(b)扩充互花米草后遥感图像。
图4为Patch合并层结构图。
图5为位移窗口结构图。
图6为Swin transformer block结构图。
图7为遥感图像预处理结果图。
图8为Swin-UperNet结构图。
图9为本发明一个实施例的改进Upernet的红树林与互花米草语义分割方法流程图。
图10为本发明一个实施例的改进Upernet的红树林与互花米草语义分割方法中S10步骤图。
图11为对比实验结果图。
图中:预处理模块-100、分割处理模块-200、输出模块-300、裁剪单元-101、扩充单元-102、处理单元-103。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
具体地,下面结合附图,对本发明实施例作进一步阐述。
请参阅图1,在本发明的实施例中还提供了改进Upernet的红树林与互花米草语义分割模型,该模型包括预处理模块100、分割处理模块200和输出模块300;
所述预处理模块100,用于获取遥感图像,对所述遥感图像进行预处理。
请参阅图2和图7,在本发明的实施例中,所述预处理模块100,包括裁剪单元101、扩充单元102和处理单元103;
所述裁剪单元101,用于对遥感图像进行裁剪。
所述扩充单元102,用于对裁剪后的遥感图像进行扩充数据量操作。
所述处理单元103,用于随机从完成扩充数据量操作后的遥感图像中选定设定大小的粘贴区域,并多次随机粘贴到所述遥感图像的其他区域,其中,粘贴区域中互花米草所占区域占比超过预定阈值。
在本发明的实施例中,所述裁剪单元101对遥感图像进行裁剪,是通过使用ENVI5.3工具对图像进行裁剪,且裁剪分辨率大小为480*480。
在本发明的实施例中,所述扩充单元102扩充数据量操作是通过水平、垂直和镜像翻转操作完成的。
所述粘贴区域分辨率可以设定为80*80。
在本发明的实施例中,所述预定阈值可以为60%,也可以根据需要设计为其他数值。
具体的,原始遥感图像分辨率较大,存在较多非红树林与互花米草区域,且分辨率较大不利于模型训练。为减轻训练模型负担,通过使用ENVI5.3工具对遥感图像进行裁剪,考虑卷积神经网络特点,裁剪分辨率大小为480*480,之后通过水平、垂直和镜像翻转操作进一步扩充数据量。通过对数据集分析研究发现,数据集中仅有少量样本含有互花米草,且互花米草连通区域小,多呈现散点分布的特点。为提升模型对互花米草的敏感度,缓解欠拟合现象,通过随机选定80*80的粘贴区域,并计算当前选定粘贴区域中,互花米草所占区域占比是否超过所选区域的60%。若互花米草所占区域占比超过60%,则选定该区域,并随机粘贴到当前遥感图像的其他区域,部分结果如图3所示。
所述分割处理模块200,用于对遥感图像采用不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,将指数结果数据进行分割处理,所述分割处理模块200具有Swi n-transformer骨干网络,所述分割处理模块200的损失函数由交叉熵损失函数和l ovaszsoftmax损失函数组成。
具体的,N IR波段与R波段常用于提取不同的植被信息,光谱植被指数通过采用不同波段的组合计算,可有效反映植被冠层绿度或含水量等信息。归一化植被指数(NDVI)、森林辨别指数(FDI)和差值植被指数(DVI)的信息如表1所示。在遥感图像经过的图像预处理后,通过不同波段的组合计算,得到NDVI、FDI和DVI指数结果,并将计算结果叠加到模型的输入数据中,构建多通道输入数据,缓解红树林与其他植被差异性小,边界性模糊问题。
表1植被光谱指数计算表
所述Swin-transformer骨干网络具有移位窗口和采用分层设计。所述Swin-transformer骨干网络还具有Patch合并层。
Patch合并层是构建网络结构的关键,具体结构如图4所示。Patch合并层实现的原理类似于CNN中的池化层或卷积步长为2的原理,其作用为降低图像的分辨率,增加通道数,从而形成分层特征。通过patch合并层,特征层的宽高会降低两倍,通道数为扩充四倍,最后再通过一个全连接层,通道数变为原始特征层的两倍。
移位窗口是另一个重要结构,它通过将自注意力计算限制在不重叠的当前窗口中,以此提高效率,同时还允许跨窗口连接。Swin-transformer的自注意力机制一个小窗口中计算,以减少序列长度和计算复杂度。如图5所示,如果这个小窗口为第i个特征层中的黑色框所示,那么为了得到全局信息,采用移位窗口的方法。则第i+1层的红框部分包含不同窗口的信息,无需对整个特征图进行自注意力机制计算即可获得全局特征信息。此外,有两种注意力机制分别处理第i层和第i+1层的特征图。第i层使用基于窗口的多头自注意力(M-MSA)来计算常规的非重叠局部窗口,而第i+1层使用基于移位窗口的自注意力(SW-MSA)来计算交叉窗口。这意味着由移位窗口组成的Swin transformer block将成对出现,如图6所示。因此,swin-transformer可以有效地处理高分辨率图像。
交叉熵损失函数是语义分割任务中最常用的损失函数,用于衡量每个像素与真实值之间的差异,其定义为:
其中N为图像中的像素点数目,yi为第i个像素点的真实值,为分割方法对第i个像素点的预测值。但是,交叉熵损失函数只考虑了预测为正样本的概率,所以当不同类别的样本数量分布不平衡时,例如背景类的样本数量远大于目标样本数量时,背景类样本将作为影响算法学习的主导因素,忽略了目标样本的学习,从而影响了算法的性能。在本研究中,互花米草的样本数量与其他类型的样本数量相比非常少,因此需要解决类别不平衡问题。所以,选择l ovasz softmax损失函数来解决这个问题并优化分割任务的mIOU。
Lovasz softmax损失函数由Berman等人提出,其中Jaccard指数(也称为IOUscore)通常用于评估图像的分割结果。因为其具有感知质量与比例不变性,与交叉熵损失函数的逐像素相比,该不变性赋予小数量目标样本适当的相关性和假阴性计数,从而一定程度上加强分割方法对小数量目标样本的学习。
Jaccard指数(IOU score)通常被当做语义分割的评价指标:
其中y是真实值,是分割方法的预测值,利用Jaccard指数做为损失函数可以定义为:
则可以将某个c类的错误预测像素集定义为:
方程(3)可以利用重写为:
然而,这个损失函数是不可导的。为了优化分割方法的Jaccard指数,基于集合函数的子模分析对离散损失进行了平滑扩展。平滑扩展后方程被命名为Lovasz扩展,其是一个集合函数其定义为:
其中p是图像中的像素点数量,m是某个c类的像素误差向量,gi(m)定义为:
gi(m)=ΔJc({π1,…,πi})-ΔJc({π1,…,πi-1}) (7)
其中{π1,…,πi}表示对m的分量进行降序排列时的序列,例如
在多类分割任务中,某个c类的像素误差向量可以定义为:
其中fi(c)∈[0,1],是某个c类的像素I的预测类别。那么Lovasz softmax损失可以定义为:
其中C是所有类别的数量。
因此,将损失函数定义为:
loss=∝LossCE+(1-∝)LossLS (10)
其中∝是一个权重参数,用于权衡这两个函数的权重。
所述输出模块300,用于输出处理后的结果图像。
本发明通过将不同的波段组合计算,将NDVI、FDI和DVI指数叠加至输入数据中,构建多通道输入数据,以增强红树林与其他植被的差异性;改进模型主干网络与损失函数,提升模型对互花米草的检测精度;通过去除高分辨率特征层与低分辨率特征层之间的部分连接,简化网络模型,减少了计算迭代次数,提高了检测效率。
图9是本发明实施例提供的一种改进Upernet的红树林与互花米草语义分割方法的流程图,如图9所示,该改进Upernet的红树林与互花米草语义分割方法包括步骤S10至步骤S30。
S10、获取遥感图像,对所述遥感图像进行预处理;
请参见图10,在本发明的实施例中,对所述遥感图像预处理包括:
S101、对遥感图像进行裁剪;
S102、对裁剪后的遥感图像进行扩充数据量操作;
S103、随机从完成扩充数据量操作后的遥感图像中选定设定大小的粘贴区域,并多次随机粘贴到所述遥感图像的其他区域,其中,粘贴区域中互花米草所占区域占比超过所选区域的预定阈值。选定的粘贴区域中护花米草所占区域占比超过预先设定的预定阈值,粘贴次数为三次,粘贴位置为随机选取。
在本发明的实施例中,所述对遥感图像进行裁剪,是通过使用ENVI5.3工具对图像进行裁剪,且裁剪分辨率大小为480*480。
在本发明的实施例中,所述扩充数据量操作是通过水平、垂直和镜像翻转操作完成的。
所述粘贴区域分辨率可以设定为80*80。
在本发明的实施例中,预定阈值可以为60%。
在本发明的实施例中,GF-1和GF-6的原始遥感图像仅有B、G、R和NIR四个波段,利用B、G、R和Nir四个波段通过公式(11)进行不同组合计算,得到NDVI、FDI与DVI指数。
NDVI=(NIR-R)/(NIR+R)
FDI=NIR-(R+G) (11)
DVI=NIR-R
将得到的NDVI、FDI与DVI指数和NIR、R和G波段构建构建多通道输入数据。
具体的,原始遥感图像分辨率较大,存在较多非红树林与互花米草区域,且分辨率较大不利于模型训练。为减轻训练模型负担,通过使用ENVI5.3工具对遥感图像进行裁剪,考虑卷积神经网络特点,裁剪分辨率大小为480*480,之后通过水平、垂直和镜像翻转操作进一步扩充数据量。通过对数据集分析研究发现,数据集中仅有少量样本含有互花米草,且互花米草连通区域小,多呈现散点分布的特点。为提升模型对互花米草的敏感度,缓解欠拟合现象;全图像按80*80像素区域进行扫描,选定80*80的粘贴区域,并计算当前选定粘贴区域中,互花米草所占区域占比是否超过所选区域的60%。若互花米草所占区域占比超过60%,则选定该区域,并随机粘贴到当前遥感图像的其他区域,部分结果如图3所示。
S20、遥感图像通过不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,并将得到的指数结果数据叠加到分割模型的输入数据中,构建多通道输入数据;
其中,所述分割模型具有Swi n-transformer骨干网络,所述分割模型的损失函数由交叉熵损失函数和l ovasz softmax损失函数组成。
N IR波段与R波段常用于提取不同的植被信息,光谱植被指数通过采用不同波段的组合计算,可有效反映植被冠层绿度或含水量等信息。归一化植被指数(NDVI)、森林辨别指数(FDI)和差值植被指数(DVI)的信息如表1所示。在遥感图像经过预处理后,通过不同波段的组合计算,得到NDVI、FDI和DVI指数结果,并将计算结果叠加到模型的输入数据中,构建多通道输入数据,缓解红树林与其他植被差异性小,边界性模糊问题。
表1植被光谱指数计算表
所述Swin-transformer骨干网络具有移位窗口和采用分层设计。所述Swin-transformer骨干网络还具有合并层。
Patch合并层是构建网络结构的关键,具体结构如图4所示。Patch合并层实现的原理类似于CNN中的池化层或卷积步长为2的原理,其作用为降低图像的分辨率,增加通道数,从而形成分层特征。通过patch合并层,特征层的宽高会降低两倍,通道数为扩充四倍,最后再通过一个全连接层,通道数变为原始特征层的两倍。
移位窗口是另一个重要结构,它通过将自注意力计算限制在不重叠的当前窗口中,以此提高效率,同时还允许跨窗口连接。Swin-transformer的自注意力机制一个小窗口中计算,以减少序列长度和计算复杂度。如图5所示,如果这个小窗口为第i个特征层中的黑色框所示,那么为了得到全局信息,采用移位窗口的方法。则第i+1层的红框部分包含不同窗口的信息,无需对整个特征图进行自注意力机制计算即可获得全局特征信息。此外,有两种注意力机制分别处理第i层和第i+1层的特征图。第i层使用基于窗口的多头自注意力(M-MSA)来计算常规的非重叠局部窗口,而第i+1层使用基于移位窗口的自注意力(SW-MSA)来计算交叉窗口。这意味着由移位窗口组成的Swin transformer block将成对出现,如图6所示。因此,swin-transformer可以有效地处理高分辨率图像。
交叉熵损失函数是语义分割任务中最常用的损失函数,用于衡量每个像素与真实值之间的差异,其定义为:
其中N为图像中的像素点数目,yi为第i个像素点的真实值,为分割方法对第i个像素点的预测值。但是,交叉熵损失函数只考虑了预测为正样本的概率,所以当不同类别的样本数量分布不平衡时,例如背景类的样本数量远大于目标样本数量时,背景类样本将作为影响算法学习的主导因素,忽略了目标样本的学习,从而影响了算法的性能。在本研究中,互花米草的样本数量与其他类型的样本数量相比非常少,因此需要解决类别不平衡问题。所以,选择l ovasz softmax损失函数来解决这个问题并优化分割任务的mIOU。
Lovasz softmax损失函数由Berman等人提出,其中Jaccard指数(也称为IOUscore)通常用于评估图像的分割结果。因为其具有感知质量与比例不变性,与交叉熵损失函数的逐像素相比,该不变性赋予小数量目标样本适当的相关性和假阴性计数,从而一定程度上加强分割方法对小数量目标样本的学习。
Jaccard指数(IOU score)通常被当做语义分割的评价指标:
其中y是真实值,是分割方法的预测值,利用Jaccard指数做为损失函数可以定义为:
则可以将某个c类的错误预测像素集定义为:
方程(3)可以利用重写为:
然而,这个损失函数是不可导的。为了优化分割方法的Jaccard指数,基于集合函数的子模分析对离散损失进行了平滑扩展。平滑扩展后方程被命名为Lovasz扩展,其是一个集合函数其定义为:
其中p是图像中的像素点数量,m是某个c类的像素误差向量,gi(m)定义为:
gi(m)=ΔJc({π1,…,πi})-ΔJc({π1,…,πi-1}) (7)
其中{π1,…,πi}表示对m的分量进行降序排列时的序列,例如
在多类分割任务中,某个c类的像素误差向量可以定义为:
其中fi(c)∈[0,1],是某个c类的像素I的预测类别。那么Lovasz softmax损失可以定义为:
其中C是所有类别的数量。
因此,将损失函数定义为:
loss=∝LossCE+(1-∝)LossLS (10)
其中∝是一个权重参数,用于权衡这两个函数的权重。
S30、输出分割模型处理后的结果图像。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
本发明的实验结果及精度比较
1.精度评价指标
本发明的性能已在实际图像上进行了测试,采用像素精准度(PA)、平均交并比(mIOU)和帧率(FPS)来作为评价指标,以此对提出的分割模型进行精准评估。像素精度(PA)表示分割模型正确分类的像素点数除以总像素点数。对于K类,PA公式为(12)所示。
其中K+1类表示有K个前景类和一个背景类,pij是第i类被预测为第j类的像素点个数。平均交并比(mIOU)表示所有类IOU的平均值,IOU是分割模型检测结果与标签之间的交集。mIOU公式为(13)所示。
其中A和B分别表示标签与分割模型的检测结果。FPS表示每秒处理的帧数,用于评估方法的计算效率,FPS公式为(14)所示:
其中t表示分割模型处理一张图像的时间。
2.本发明的实验结果及对比实验
在经数据预处理的基础上进行植被指数实验。如表2所示,原始波段B、G、R和NIR波段作为实验的初始输入数据,之后通过去除B波段并不断添加新的植被指数。添加多光谱指标可以有效提高红树林和米草的分割精度,分割模型的mIOU和PA分别从81.06%增加到87.95%和97.05%到98.22%。此外,红树林分割的mIOU和PA分别从83.0%增加到90.21%和87.37%到93.24%。互花米草分割的mIOU和PA分别从63.18%提高到75.45%和69.65%到82.78%。因此,考虑红树林和米草的分布和生长环境,植被指数和水体指数对遥感图像中红树林和米草的提取起着重要的作用,可以有效地提高分割结果。
表2.原始波段和多光谱指数对我们结构下红树林分割结果的影响
表3为分割模型使用不同损失函数的检测结果。模型使用交叉熵损失函数的mIOU和PA分别为47.39%和93.46%。模型使用l ovasz softmax损失函数的mI OU和PA分别为55.05%和89.71%。模型使用交叉熵作为损失函数,PA更高,使用l ovasz softmax作为损失函数mIOU更高。因此,通过将这两个损失函数线性组合,分割模型的mI OU与PA进一步提高,分别为56.36%和94.29%。
表3不同损失函数的检测结果
在NIR、G与R波段上叠加NDVI、FDI与DVI指数进行不同主干特征提取网络的比较实验,结果如表4所示。模型使用resnet-50作为主干特征提取网络的mIOU和PA分别为82.87%和94.44%。将主干特征提取网络更换为swin-transformer-tiny后,mIOU和PA分别提高了5.08%和3.78%。因此,以swin-transformer-tiny作为主干特征提取网络的模型在红树林和米草研究中具有更好的分割性能。
表4 UperNet使用不同主干特征提取网络的实验结果
将本发明提出的分割模型与其他先进模型进行比较实验,包括PSPNet、PSANet、DeepLabv3、DANet、FCN、OCRNet和DeepLabv3+,结果如图5和表5所示。所有模型都使用相同的数据集进行了训练、验证和测试。
从表5可以看出。本发明提出的分割模型获得了87.95%的最高mIOU和98.22%的最高PA,与PSPNet、PSANet、DeepLabv3、DANet、FCN、OCRNet和DeepLabv3+模型相比,mIOU值分别提高了10.72%、11.46%、12.42%、6.28%、7.18%和15.44%PA值分别提高了1.86%、2.06%、1.63%、1.91%、1.58%和2.92%,分割速度仅次于FCN,比PSPNet、PSANet、DeepLabv3、DANet、OCRNet和DeepLabv3+的分割速度更快。
表5对比实验结果
图11显示了红树林和米草在不同语义分割模型下的分割结果,其中黑色与白色分别为红树林与互花米草的检测结果。结果表明,所有模型的黑色区域分割效果均优于白色区域,这是因为互花米草分布分散,连通区域小,互花米草的分割对模型的特征学习能力有很高的要求。此外,还可以发现,红树林的分割结果存在边界模糊问题。尽管存在这些问题,但本发明提出的分割模型的分割性能在红树林和米花提取方面仍然优于其他语义分割模型。
经过对比图11的实验结果发现,本发明的模型在红树林和米花提取遥感数据中具有较好的分割性能,并且表现出很强的多通道遥感数据解析能力,有效减少了样本误分类的发生。
本发明利用NDVI、FD I与DVI指数构建多通道输入数据;将原始的主干特征提取网络ResNet-50替换为特征提取能力更强的Transformer,并优化高分辨率特征层与低分辨率特征层之间的连接机制,精简网络模型。采用l ovasz softmax损失与交叉熵损失组合的形式来构建损失函数,并添加比例权重系数,提升模型对少数量样本检测精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (9)
1.一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,包括预处理模块、分割处理模块和输出模块;
所述预处理模块,用于获取遥感图像,对所述遥感图像进行预处理;
所述分割处理模块,用于对预处理后的所述遥感图像采用不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,将所述指数结果数据进行分割处理,所述分割处理模块具有Swin-transformer骨干网络,所述分割处理模块的损失函数由交叉熵损失函数和lovaszsoftmax损失函数组成;
所述输出模块,用于输出处理后的结果图像。
2.根据权利要求1所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述预处理模块,包括裁剪单元、扩充单元和处理单元;
所述裁剪单元,用于对所述遥感图像进行裁剪;
所述扩充单元,用于对裁剪后的所述遥感图像进行扩充数据量操作;
所述处理单元,用于随机从完成扩充数据量操作后的遥感图像中选定设定大小的粘贴区域,并将所述粘贴区域随机粘贴到所述遥感图像的其他区域;其中,所述粘贴区域中互花米草所占区域占比超过预定阈值。
3.根据权利要求2所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述裁剪单元对遥感图像进行裁剪,是通过使用ENVI5.3工具对图像进行裁剪,且裁剪分辨率大小为480*480。
4.根据权利要求2所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述扩充单元扩充数据量操作是通过水平、垂直和镜像翻转操作完成的。
5.根据权利要求2所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述预定阈值为60%。
6.根据权利要求2所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述Swin-transformer骨干网络具有移位窗口和采用分层设计。
7.根据权利要求6所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述Swin-transformer骨干网络还具有Patch合并层。
8.根据权利要求1-7任一所述的一种改进Upernet的红树林与互花米草语义分割模型,其特征在于,所述损失函数定义为:
loss=∝LossCE+(1-∝)LossLS;
其中,∝是一个权重参数,用于权衡这两个函数的权重;LossCE为交叉熵损失函数;LossLS为Lovasz softmax损失函数。
9.一种改进Upernet的红树林与互花米草语义分割方法,其特征在于,该方法包括:
获取遥感图像,对所述遥感图像进行预处理;
遥感图像通过不同波段的组合计算,得到NDVI、FDI和DVI指数结果数据,并将得到的指数结果数据叠加到分割模型的输入数据中,构建多通道输入数据;
其中,所述分割模型具有Swin-transformer骨干网络,所述分割模型的损失函数由交叉熵损失函数和lovasz softmax损失函数组成;
输出分割模型处理后的结果图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211706820.3A CN116051833A (zh) | 2022-12-27 | 2022-12-27 | 一种改进Upernet的红树林与互花米草语义分割模型和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211706820.3A CN116051833A (zh) | 2022-12-27 | 2022-12-27 | 一种改进Upernet的红树林与互花米草语义分割模型和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116051833A true CN116051833A (zh) | 2023-05-02 |
Family
ID=86115774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211706820.3A Pending CN116051833A (zh) | 2022-12-27 | 2022-12-27 | 一种改进Upernet的红树林与互花米草语义分割模型和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051833A (zh) |
-
2022
- 2022-12-27 CN CN202211706820.3A patent/CN116051833A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN111814607B (zh) | 一种适用于小样本高光谱影像分类的深度学习模型 | |
CN112395442B (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
Xia et al. | A deep Siamese postclassification fusion network for semantic change detection | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN107665261A (zh) | 视频查重的方法及装置 | |
CN114220001A (zh) | 基于双注意力神经网络的遥感影像云与云阴影检测方法 | |
CN111860351A (zh) | 一种基于行列自注意力全卷积神经网络的遥感图像鱼塘提取方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
He et al. | Multi-spectral remote sensing land-cover classification based on deep learning methods | |
CN113887517A (zh) | 基于并行注意力机制的农作物遥感图像语义分割方法 | |
CN113887472A (zh) | 基于级联颜色及纹理特征注意力的遥感图像云检测方法 | |
CN111696136A (zh) | 一种基于编解码结构的目标跟踪方法 | |
CN117830788B (zh) | 一种多源信息融合的图像目标检测方法 | |
CN112700476A (zh) | 一种基于卷积神经网络的红外船视频跟踪方法 | |
CN115393690A (zh) | 一种轻量化神经网络的空对地观测多目标识别方法 | |
CN115544239A (zh) | 一种基于深度学习模型的布局偏好预测方法 | |
CN115457332A (zh) | 基于图卷积神经网络和类激活映射的图像多标签分类方法 | |
CN111627055A (zh) | 一种联合语义分割的场景深度补全方法 | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 | |
CN117765404A (zh) | 一种基于特征相关性神经网络的复杂场景变化检测方法 | |
CN112419325A (zh) | 一种基于深度学习的超像素分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |