CN117935259A - 一种多模态遥感图像分割装置及方法 - Google Patents
一种多模态遥感图像分割装置及方法 Download PDFInfo
- Publication number
- CN117935259A CN117935259A CN202410027349.8A CN202410027349A CN117935259A CN 117935259 A CN117935259 A CN 117935259A CN 202410027349 A CN202410027349 A CN 202410027349A CN 117935259 A CN117935259 A CN 117935259A
- Authority
- CN
- China
- Prior art keywords
- mode
- remote sensing
- model
- sensing image
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 117
- 230000011218 segmentation Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims description 72
- 238000010586 diagram Methods 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 abstract description 5
- 238000009499 grossing Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种多模态遥感图像分割装置及方法,通过获取模块获得多模态遥感图像;处理模块将多模态遥感图像输入至多模态遥感图像分割模型中,得到图像分割结果。本发明建立了多模态遥感图像分割模型ADEUNet模型,一方面通过特征融合模块充分挖掘不同模态中的特征,提高分割精度,尤其是高度信息明显的类别,另一方面利用Dice损失和Focal损失组合损失函数对模型进行优化,解决数据集中的类别不平衡问题,同时起到平滑分割结果的效果,综合实现遥感图像分割精度的提升。
Description
技术领域
本发明属于图像处理领域,尤其是一种多模态遥感图像分割装置及方法。
背景技术
随着遥感技术和传感器技术的快速发展,高分辨率的遥感图像获取更加便捷,利用遥感语义分割技术提取地面信息在土地规划,资源勘探,军事安全、精准农业等各领域发挥着越来越重要作用。
但是,由于高分辨率遥感图像地物细节丰富,特征多样化,类内差异大,精准遥感图像分割仍然面临着巨大挑战。当前高分辨率遥感图像分割方法多针对单一模态的光学遥感图像,且精度已达到相对较高水平,难以从模型结构或优化方法上实现较大突破;此外,现有多模态遥感图像分割方法尚有多模态特征融合不合理,跨模态互补特征挖掘不充分等问题,导致多模态遥感图像分割精度提升不明显。
发明内容
本发明的目的在于克服现有技术的不足,提出一种多模态遥感图像分割装置及方法,实现了多模态遥感图像跨模态互补特征充分挖掘,可以实现多模态遥感图像各类地物分割精度的提升。
本发明解决其技术问题是采取以下技术方案实现的:
一种多模态遥感图像分割装置,包括获取模块和处理模块,其中获取模块连接处理模块,获取模块用于获得多模态遥感图像,处理模块用于将多模态遥感图像输入至多模态遥感图像分割模型中,得到图像分割结果。
而且,所述多模态遥感图像分割模型采用ADEUNet模型,该ADEUNet模型对多模态遥感图像中的主模态高分辨率彩色图像及次模态数字表面模型数据进行图像分割预测,计算预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,进行反向传播完成端到端训练,得到最优ADEUNet模型,并使用最优ADEUNet模型进行多模态遥感图像分割。
一种多模态遥感图像分割装置的图像分割方法,包括以下步骤:
步骤1、获取模块获得多模态遥感图像;
步骤2、处理模块将多模态遥感图像输入至多模态遥感图像分割模型中,得到图像分割结果。
而且,所述步骤2包括以下步骤:
步骤2.1、获得多模态遥感图像中主模态高分辨率彩色图像以及次模态数字表面模型数据,同时获取对应标签;
步骤2.2、建立ADEUNet模型,并将步骤2.1中主模态高分辨率彩色图像以及次模态数字表面模型数据输入至ADEUNet模型中,得到模型预测的分割结果;
步骤2.3、计算预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将ADEUNet模型作为所述多模态遥感图像分割模型进行图像分割。
而且,所述步骤2.2中建立的ADEUNet模型包括编码器模块、特征融合模块、解码器模块和分类模块,其中,编码器模块、特征融合模块、解码器模块和分类模块依次连接,编码器模块用于对多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与主模态特征图进行相加得到不同尺度多模态特征融合结果;解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;分类模块用于确定最后像素分类结果。
而且,所述特征融合模块将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与主模态特征图进行相加得到不同尺度多模态特征融合结果的具体实现方法为:将来自编码器模块的主模态高分辨率彩色特征图以及次模态数字表面模型特征图按深度连接后得到初步融合特征图,对初步融合特征图分别通过空间注意力机制和通道注意力机制进行特征选择,其中,空间注意力机制对按深度连接的特征图进行最大池化和平均池化并拼接,并通过卷积层进行降维并归一化得到空间注意力权重,将空间注意力权重与初步融合特征图相乘得到空间注意力机制的输出特征图;通道注意力机制对初步融合特征图分别通过最大池化层和平均池化层进行降维并经过共享的多层感知机模块得到两个激活后的结果,将激活后的结果相加并归一化得到通道注意力权重,将初步融合特征图的各个通道与通道注意力权重对应相乘得到通道注意力机制的输出特征图;将空间注意力机制的输出特征图、通道注意力机制的输出特征图与主模态特征图进行相加得到特征融合结果。
而且,所述步骤2.3的具体实现方法为:Dice损失通过计算模型的预测值和真实标签的交集和并集得到Dice系数,并将其转化为Dice损失值;Focal损失首先通过样本各类别占比确定类别权重参数;计算模型的预测概率值和真实标签之间的交叉熵损失后与类别权重参数相乘得到Focal损失值;将Dice损失和Focal损失分别乘以其对应的权重,并将两者相加得到最终的损失值,作为模型优化的目标函数;通过反向传播算法更新模型参数,使得损失值逐渐减小,当达到指定迭代轮数时训练结束,从而得到最优ADEUnet模型。
本发明的优点和积极效果是:
本发明通过获取模块获得多模态遥感图像;处理模块将多模态遥感图像输入至多模态遥感图像分割模型中,得到图像分割结果。本发明建立了多模态遥感图像分割模型ADEUNet模型,一方面通过特征融合模块充分挖掘不同模态中的特征,提高分割精度,尤其是高度信息明显的类别,另一方面利用Dice损失和Focal损失组合损失函数对模型进行优化,解决数据集中的类别不平衡问题,同时起到平滑分割结果的效果,综合实现遥感图像分割精度的提升。
附图说明
图1是本发明提供的多模态遥感图像分割方法的流程示意图;
图2是本发明提供的多模态遥感图像分割模型训练的示意图;
图3是本发明提供的多模态遥感图像分割装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本发明做进一步详述。
一种多模态遥感图像分割装置的图像分割方法,如图1所示,包括以下步骤:
步骤101:获得多模态遥感图像数据及标签;本发明的获取的多模态遥感图像来自ISPRS公开的Vaihingen航空遥感分割数据集。
步骤102:将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果。
本步骤中多模态遥感图像分割模型训练过程包括以下步骤:
步骤102.1。获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;
步骤102.2、建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块、分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;
步骤102.3、计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。
在多模态遥感图像分割模型的训练过程中,首先获得多模态遥感图像数据集,数据集包括主模态高分辨率彩色图像、次模态数字表面模型数据以及对应标签。然后以UNet为基本框架,使用残差模块作为收缩路径,分别编码主模态高分辨率彩色图像和次模态数字表面模型数据,并用特征融合模块进行多模态特征图的融合,建立ADEUNet模型,利用所述多模态遥感图像数据集进行训练和验证,通过计算预测结果与实际标签之间的Dice损失和Focal损失组合损失,利用反向传播完成端到端训练,得到最优ADEUNet模型。最后,将待测试的多模态遥感图像输入最优ADEUNet模型,得到对应多模态遥感图像分割结果。
ADEUNet模型包括:编码器模块,用于对输入遥感图像进行特征识别以及降维;可选的,所述编码器模块含有5个子模块,共生成5个不同尺度的特征图;解码器模块,其作用在于将来自编码器模块的特征图进行解码器至原图大小,同时进行降维。可选的,所述解码器模块有5个子模块。特征融合模块,其输入为主模态高分辨率彩色图像分支特征图和以及次模态数字表面模型数据分支特征图,所述特征融合模块基于空间注意力机制和通道注意力机制,实现不同模态特征图的充分挖掘。分类模块,通过计算最后一层解码器结果,得到模型最终预测结果。
本发明提供的多模态遥感图像分割方法,首先获取多模态遥感图像,然后将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果;其中,所述多模态遥感图像分割模型训练过程如下:步骤1:获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;步骤2:建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块,分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;步骤3:计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。由此可见,建立了多模态遥感图像分割模型ADEUNet模型,一方面通过特征融合模块充分挖掘不同模态中的特征,提高分割精度,尤其是高度信息明显的类别,另一方面利用Dice损失和Focal损失组合损失函数对模型进行优化,解决数据集中的类别不平衡问题,同时起到平滑分割结果的效果,综合实现遥感图像分割精度的提升。
特征融合模块用于将所述不同模态编码器分支生成的不同尺度的特征图进行充分融合,再输出到解码器模块,包括:
特征融合模块将来自所述编码器模块的主模态高分辨率彩色特征图以及次模态数字表面模型特征图按深度连接后得到初步融合特征图,对所述初步融合特征图分别通过空间注意力机制和通道注意力机制进行特征选择,其中,所述空间注意力机制对所述按深度连接的特征图进行最大池化和平均池化并拼接,并通过卷积层进行降维并归一化得到空间注意力权重,将所述空间注意力权重与所述初步融合特征图相乘得到空间注意力机制的输出特征图;所述通道注意力机制对所述初步融合特征图分别通过最大池化层和平均池化层进行降维并经过共享的多层感知机模块得到两个激活后的结果,将所述激活后的结果相加并归一化得到通道注意力权重,将所述初步融合特征图的各个通道与所述通道注意力权重对应相乘得到通道注意力机制的输出特征图;将所述空间注意力机制的输出特征图、所述通道注意力机制的输出特征图与所述主模态特征图进行相加得到特征融合结果。
特征融合模块首先将输入的主模态高分辨率彩色图像特征图和次模态数字表面模型数据特征图按深度连接得到融合特征图,计算公式为:
其中,FR代表主模态高分辨率彩色图像特征图,FD代表次模态数字表面模型数据特征图,代表特征图按深度连接,F'代表融合之后的特征图。将融合的特征图分别经过通道注意力机制和空间注意力机制处理,通道注意力机制的计算公式为:
其中,Mc为通道注意力机制输出通道权重;σ为Sigmoid激活函数;AvgPool(·)和MaxPool(·)分别表示对输入特征图F进行全局平均池化和全局最大池化,代表特征相加。空间注意力机制计算公式为:
其中,f表示卷积层运算;Ms为空间注意力机制输出的特征空间位置权重。
将融合特征图分别经过空间通道注意力机制和通道注意力机制处理,计算公式为:
其中,代表两个矩阵对应元素相乘;FC代表经过通道注意力机制之后的特征图;FS代表经过空间注意力机制之后的特征图;最后将FR,FC与FS相加得到融合特征:
F”为最终输出特征图。通过并联结合通道注意力机制和空间注意力机制,特征融合模块可以充分利用不同注意力机制的优势,实现更好的特征融合效果。从而提高模型的表达能力和感知能力,进一步提升模型在遥感图像语义分割中的性能。
通道注意力机制通过学习通道权重来提高模型对于重要特征通道的关注度,实现对多模态特征有效通道选择。该模块由全局平均池化和全连接层组成。全局平均池化用于对每个特征通道的特征图进行降维,得到通道的全局描述。全连接层则用于学习每个通道的权重,以确定其在特征提取中的重要性。特征图经过全局平均池化处理和全连接处理后,将被整合并输入到共享权重的多层感知机中。其中,多层感知机包含两层神经网络和一层隐藏层,并利用1x1的卷积核调整维度。输入特征图首先被降维至1x1xC/r,其中C是通道数,r是维度降低的比率。后通过非线性映射,特征图升维至1x1xC。通道注意力机制模块根据通道之间的依赖关系对通道进行加权处理,得到每个通道的权重,反映了每个通道对于当前任务的重要性。通过加权处理,通道注意力机制模块增强了模型对于重要特征通道的关注度,提高了特征提取的能力。
在遥感语义分割任务中,不同的空间位置可能具有不同的重要性。为使得网络能够自动关注目标所在的区域,更好地提取目标特征,提高检测性能。因此引入空间注意力机制,通过学习空间关系和位置权重来调整特征图中不同位置的重要性,可以帮助网络更好地理解和利用图像中不同位置的信息。具体来说,通过对输入特征图进行卷积操作,生成一个与输入特征图尺寸相同的权重图,其中每个位置的权重表示该位置的重要性。网络可以根据权重图来调整特征图中不同位置的权重,从而实现对不同位置的关注度的调节。
通过并联结合通道注意力机制和空间注意力机制,特征融合模块可以充分利用不同注意力机制的优势,实现更好的特征融合效果。从而提高模型的表达能力和感知能力,进一步提升模型在遥感图像语义分割中的性能。
计算所述遥感图像分割结果和标签之间的Dice损失和Focal损失的组合损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,包括:
Dice损失通过计算模型的预测值和真实标签的交集和并集得到Dice系数,并将其转化为Dice损失值;所述Focal损失首先通过样本各类别占比确定类别权重参数,计算模型的预测概率值和真实标签之间的交叉熵损失后与所述类别权重参数相乘得到Focal损失值;将Dice损失和Focal损失分别乘以其对应的权重,并将两者相加得到最终的损失值,作为模型优化的目标函数;通过反向传播算法更新模型参数,使得损失值逐渐减小,当达到指定迭代轮数时训练结束,从而得到最优ADEUNet模型。
其中Dice损失通过计算预测结果和真实标签之间的相似度来衡量模型的性能,适用于处理目标较小或目标与背景之间的类别不平衡的情况。Dice损失在计算相似度时,更加关注目标的边界部分。这使得模型在训练过程中更加注重对目标边界的精确分割,从而提高分割结果的准确性。其计算公式为:
其中,X代表预测结果,Y代表真实标签。|X|代表预测结果中的正样本像素数量|Y|代表真实标签中的正样本像素数量。|X∩Y|代表预测结果与真实标签的交集中的正样本像素数量。通过计算交集与总像素数量的比例,可以得到一个0到1之间的相似度值。然而,Dice损失存在着训练过程中的不稳定,还可能会出现梯度饱和的问题。因此引入Focal损失以提升模型训练的性能。Focal损失在交叉熵损失函数的基础上进行改进,通过引入添加了参数γ和α,分别起到了降低易分类样本对损失的贡献和平衡正负样本本身的数量不均衡问题的作用,从而提升对少数类别的识别能力,Focal损失的公式如下所示:
Lfl=-α(1-p)γ×y log(p)-(1-α)pγ×(1-y)log(1-p)
其中,y是样本的标签值,p是模型预测某一个样本为正样本的概率;参数α和γ为可调参数,α用来平衡正负样本的重要性,解决正负样本不均衡的问题,γ用于调节难易样本的权重,解决难易样本问题。
在模型训练阶段,将所有训练数据分批次输入ADEUNet模型,不断迭代计算ADEUNet模型输出结果与标签之间的损失,利用反向传播调整网络模型参数。由于遥感数据集样本分布不均,造成模型容易忽略数量较少的类别,导致分割进度下降。传统交叉熵损失在处理这类问题时,模型会严重偏向像素占比较大的类别,导致模型对于少数类别的预测效果较差。本发明为了更好的监督模型训练,使用Dice损失和Focal损失的组合损失函数。
在本实施例中,所述目标损失函数可表示为:
LTotal=Ldice+Lfl
基于上述实施例的内容,在本实施例中,在测试阶段,在将所述遥感图像输入至多模态遥感图像分割模型前,还包括:
利用滑窗法对图像尺寸大于预设阈值的遥感图像进行处理,以避免显存溢出。
根据上述一种多模态遥感图像分割装置及方法,通过具体实施例以说明本发明的效果:
实施例一:
在本实施例中,可选的,本发明的数据来自ISPRS公开的Vaihingen航空遥感分割数据集。ISPRSVaihingen数据集包含33张不同尺寸的9cm空间分辨率的真正射影像以及数字表面模型,每张真正射影像包含近红外、红、绿三个波段。Vaihingen数据集包含6个类别,分别是不透明水面、建筑、低植被、树木、汽车和背景。为防止内存溢出,图片在输入模型训练前统一被切割成512×512的图片块。为防止过拟合,将输入图像随机翻转、缩放、色域变换等操作进行数据增强。可选的,学习率设置为10-2,批尺寸设置为8。
在本实施例中,如图2所示,本发明的ADEUNet模型包括:编码器模块1,用于对输入遥感图像进行特征识别以及降维;可选的,所述编码器模块含有5个子模块,共生成5个不同尺度的特征图;解码器模块2,其作用在于将来自编码器模块的特征图进行解码至原图大小,同时进行降维。可选的,所述解码器模块有5个子模块。特征融合模块3,其输入为主模态高分辨率彩色图像分支特征图和以及次模态数字表面模型数据分支特征图,所述特征融合模块基于空间注意力机制和通道注意力机制,实现不同模态特征图的充分挖掘。分类模块4,通过计算最后一层解码器结果,得到模型最终预测结果。
在本示例中,将多模态遥感数据包括括主模态高分辨率彩色图像以及次模态数字表面模型数据,分别输入至相同结构的编码器模块1中分别编码。编码器模块1中包含卷积模块D1、D2、D3、D4、D5。模块D1包含1个步长为2的7×7卷积核和1个步长为2,池化核大小为3×3的最大池化层。经过D1,主模态分支生成特征图F1,次模态分支生成特征图F1′。模块D2包含3个相同的三层的残差模块,分别包含64个步长为1的1×1卷积核、64个步长为1的3×3卷积核、256个步长为1的1×1卷积核。经过D2,主模态分支生成特征图F2,次模态分支生成特征图F2′。模块D3包含4个相同的三层的残差模块,每个残差块包含128个步长为2的1×1卷积核、128个步长为2的3×3卷积核和512个步长为2的1×1卷积核。经过D3,主模态分支生成特征图F3,次模态分支生成特征图F3′。模块D4包含6个相同的三层的残差模块,每个残差块包含256个步长为2的1×1卷积核、256个步长为2的3×3卷积核和1024个步长为2的1×1卷积核。经过D4,主模态分支生成特征图F4,次模态分支生成特征图F4′。模块D5包含3个相同的三层的残差模块,每个残差块包含512个步长为2的1×1卷积核、512个步长为2的3×3卷积核和2048个步长为2的1×1卷积核。经过D5,主模态分支生成特征图F5,次模态分支生成特征图F5′。
在本实例中,经过编码器模块的特征图F5和F5′被下采样至原始图像的1/32。将特征图F5和F5′相加后输入解码器模块2进行上采样。将相加后得到的特征图首先输入模块U1,包含两个卷积层、1个双线性插值层,卷积层分别包含512个步长为1的3×3卷积核,双线性插值层放大比例为2。模块U2、U3同样包含两个卷积层、1个双线性插值层,卷积层分别包括256,128个步长为1的3×3卷积核,双线性插值放大倍数都为2。模块U4,U5分别包含两个卷积层和一个双线性插值层,前一个卷积层包括64个步长为1的3×3卷积核,后一个卷积层包括2个步长为1的3×3卷积核,双线性插值放大倍数为2。最终U5输出的特征图被恢复至原始图像的分辨率,并输出到分类模块4中进行分类。主次分支经过编码器编码后分别生成五个尺度的特征图,具体地,主模态分支生成特征图F1、F2、F3、F4、F5,次模态分支生成特征图F1′、F2′、F3′、F4′、F5′,将对应尺寸特征图输入特征融合模块3中进行融合,并通过跳跃连接层与解码器模块2中的对应特征进行融合,起到还原遥感图像细节特征,精细化边缘的作用。分类模块4,其包含1个步长为1的1×1卷积核,得到最终分割结果。
在本实验中,基于Pytorch 10.2深度学习框架搭建网络模型,训练时使用的GPU为NVIDIAGeForce RTX 3090,操作系统为Ubuntu20.04,编程语言为Python。
在本示例中,在模型训练阶段,将所有训练数据分批次输入ADEUNet模型,不断迭代计算ADEUNet模型输出结果与标签之间的损失,利用反向传播调整网络模型参数。由于遥感数据集样本分布不均,造成模型容易忽略数量较少的类别,导致分割进度下降。传统交叉熵损失在处理这类问题时,模型会严重偏向像素占比较大的类别,导致模型对于少数类别的预测效果较差。本发明为了更好的监督模型训练,使用Dice损失和Focal损失的组合损失函数。并根据所述目标损失优化所述ADEUNet模型,当达到指定迭代次数时训练结束,得到最优ADEUNe。由此可见,本发明采用特征融合模块进行主模态高分辨率彩色图像和次模态数字表面模型数据的特征融合,并使用组合损失函数对ADEUNet进行优化,最终得到可直接生成多模态遥感图像分割结果的最优模型;利用所述训练好的最优模型对待识别的遥感图像进行分割。本发明可实现精确有效的多模态遥感图像分割,充分利用主模态高分辨率彩色图像和次模态数字表面模型数据中的特征信息,实现各模态深层特征挖掘,形成高质量多模态特征表达,增强了对遥感图像细节的处理,提升遥感图像分割精度。
如图3所示,一种多模态遥感图像分割装置,包括:
获取模块1,用于获取多模态遥感图像;
处理模块2,用于将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果;
其中,所述多模态遥感图像分割模型训练过程如下:
获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;
建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块,分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;
计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。
在本实例中,在多模态遥感图像分割模型的训练过程中,首先获得多模态遥感图像数据集,数据集包括主模态高分辨率彩色图像、次模态数字表面模型数据以及对应标签。然后以UNet为基本框架,使用残差模块作为收缩路径,分别编码主模态高分辨率彩色图像和次模态数字表面模型数据,并用特征融合模块进行多模态特征图的融合,建立ADEUNet模型,利用所述多模态遥感图像数据集进行训练和验证,通过计算预测结果与实际标签之间的Dice损失和Focal损失组合损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型。最后,将待测试的多模态遥感图像输入最优ADEUNet模型,得到对应多模态遥感图像分割结果。
其中,ADEUNet模型包括:编码器模块,用于对输入遥感图像进行特征识别以及降维;可选的,所述编码器模块含有5个子模块,共生成5个不同尺度的特征图;解码器模块,其作用在于将来自编码器模块的特征图进行解码至原图大小,同时进行降维。可选的,所述解码器模块有5个子模块。特征融合模块,其输入为主模态高分辨率彩色图像分支特征图和以及次模态数字表面模型数据分支特征图,所述特征融合模块基于空间注意力机制和通道注意力机制,实现不同模态特征图的充分挖掘。分类模块,通过计算最后一层解码器结果,得到模型最终预测结果。
本发明提供的多模态遥感图像分割装置,首先获取多模态遥感图像,然后将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果;其中,所述多模态遥感图像分割模型训练过程如下:步骤1:获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;步骤2:建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块,分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;步骤3:计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。由此可见,建立了多模态遥感图像分割模型ADEUNet模型,一方面通过特征融合模块充分挖掘不同模态中的特征,提高分割精度,尤其是高度信息明显的类别,另一方面利用Dice损失和Focal损失组合损失函数对模型进行优化,解决数据集中的类别不平衡问题,同时起到平滑分割结果的效果,综合实现遥感图像分割精度的提升。
基于上述实施例的内容,在本实施例中,所述处理模块,还具体用于:
Dice损失通过计算模型的预测值和真实标签的交集和并集得到Dice系数,并将其转化为Dice损失值;所述Focal损失首先通过样本各类别占比确定类别权重参数,计算模型的预测概率值和真实标签之间的交叉熵损失后与所述类别权重参数相乘得到Focal损失值;将Dice损失和Focal损失分别乘以其对应的权重,并将两者相加得到最终的损失值,作为模型优化的目标函数;通过反向传播算法更新模型参数,使得损失值逐渐减小,当达到指定迭代轮数时训练结束,从而得到最优ADEUNet模型。
图4给出了一种实现上述方法的电子设备,该电子设备包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行多模态遥感图像分割方法,该方法包括:获取多模态遥感图像,然后将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果;其中,所述多模态遥感图像分割模型训练过程如下:步骤1:获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;步骤2:建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块,分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;步骤3:计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的多模态遥感图像分割方法,该方法包括:获取多模态遥感图像,然后将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果;其中,所述多模态遥感图像分割模型训练过程如下:步骤1:获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;步骤2:建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块,分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;步骤3:计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的多模态遥感图像分割方法,该方法包括:获取多模态遥感图像,然后将上述遥感图像输入至多模态遥感图像分割模型中,得到分割结果;其中,所述多模态遥感图像分割模型训练过程如下:步骤1:获得多模态遥感图像,包括主模态高分辨率彩色图像以及次模态数字表面模型数据,获取对应标签;步骤2:建立ADEUNet模型,所述ADEUNet模型包括编码器模块、特征融合模块、解码器模块,分类模块;其中,所述编码器模块用于对所述多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;所述特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与所述主模态特征图进行相加得到不同尺度多模态特征融合结果;所述解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与所述上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;所述分类模块用于确定最后像素分类结果,具体地,所述分类模块用于将解码器模块输出的特征图进行归一化,并选择各个像素位置最大的概率值对应的类别,将其作为该像素点的分类结果,将所述像素点的分类结果组成一张图,得到模型预测的分割结果;步骤3:计算所述预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将所述ADEUNet模型作为所述多模态遥感图像分割模型。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (7)
1.一种多模态遥感图像分割装置,其特征在于:包括获取模块和处理模块,其中获取模块连接处理模块,获取模块用于获得多模态遥感图像,处理模块用于将多模态遥感图像输入至多模态遥感图像分割模型中,得到图像分割结果。
2.根据权利要求1所述的多模态遥感图像分割装置,其特征在于:所述多模态遥感图像分割模型采用ADEUNet模型,该ADEUNet模型对多模态遥感图像中的主模态高分辨率彩色图像及次模态数字表面模型数据进行图像分割预测,计算预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,进行反向传播完成端到端训练,得到最优ADEUNet模型,并使用最优ADEUNet模型进行多模态遥感图像分割。
3.一种如权利要求1或2所述的多模态遥感图像分割装置的图像分割方法,其特征在于:包括以下步骤:
步骤1、获取模块获得多模态遥感图像;
步骤2、处理模块将多模态遥感图像输入至多模态遥感图像分割模型中,得到图像分割结果。
4.根据权利要求3所述的一种多模态遥感图像分割装置及方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1、获得多模态遥感图像中主模态高分辨率彩色图像以及次模态数字表面模型数据,同时获取对应标签;
步骤2.2、建立ADEUNet模型,并将步骤2.1中主模态高分辨率彩色图像以及次模态数字表面模型数据输入至ADEUNet模型中,得到模型预测的分割结果;
步骤2.3、计算预测的分割结果和真实标签之间的Dice损失和Focal损失组合的损失函数,利用反向传播完成端到端训练,得到最优ADEUNet模型,并将ADEUNet模型作为所述多模态遥感图像分割模型进行图像分割。
5.根据权利要求4所述的一种多模态遥感图像分割装置的图像分割方法,其特征在于:所述步骤2.2中建立的ADEUNet模型包括编码器模块、特征融合模块、解码器模块和分类模块,其中,编码器模块、特征融合模块、解码器模块和分类模块依次连接,编码器模块用于对多模态遥感图像采用并行编码分支进行提取和降采样,生成多种模态的由浅层尺度到深层尺度的多个特征图;特征融合模块用于将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与主模态特征图进行相加得到不同尺度多模态特征融合结果;解码器模块用于分步上采样编码器模块末端特征图,并通过跳跃连接层复制所述特征融合模块输出的各个尺度的多模态融合特征图,与上采样路径相同尺度特征连接,共同向后传递并进行上采样处理直至恢复原图大小;分类模块用于确定最后像素分类结果。
6.根据权利要求5所述的一种多模态遥感图像分割装置的图像分割方法,其特征在于:所述特征融合模块将来自编码器模块的不同模态特征图按照对应尺度分别按深度连接后并行通过空间注意力机制和通道注意力机制进行特征选择,随后与主模态特征图进行相加得到不同尺度多模态特征融合结果的具体实现方法为:将来自编码器模块的主模态高分辨率彩色特征图以及次模态数字表面模型特征图按深度连接后得到初步融合特征图,对初步融合特征图分别通过空间注意力机制和通道注意力机制进行特征选择,其中,空间注意力机制对按深度连接的特征图进行最大池化和平均池化并拼接,并通过卷积层进行降维并归一化得到空间注意力权重,将空间注意力权重与初步融合特征图相乘得到空间注意力机制的输出特征图;通道注意力机制对初步融合特征图分别通过最大池化层和平均池化层进行降维并经过共享的多层感知机模块得到两个激活后的结果,将激活后的结果相加并归一化得到通道注意力权重,将初步融合特征图的各个通道与通道注意力权重对应相乘得到通道注意力机制的输出特征图;将空间注意力机制的输出特征图、通道注意力机制的输出特征图与主模态特征图进行相加得到特征融合结果。
7.根据权利要求4所述的一种多模态遥感图像分割装置的图像分割方法,其特征在于:所述步骤2.3的具体实现方法为:Dice损失通过计算模型的预测值和真实标签的交集和并集得到Dice系数,并将其转化为Dice损失值;Focal损失首先通过样本各类别占比确定类别权重参数;计算模型的预测概率值和真实标签之间的交叉熵损失后与类别权重参数相乘得到Focal损失值;将Dice损失和Focal损失分别乘以其对应的权重,并将两者相加得到最终的损失值,作为模型优化的目标函数;通过反向传播算法更新模型参数,使得损失值逐渐减小,当达到指定迭代轮数时训练结束,从而得到最优ADEUnet模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410027349.8A CN117935259A (zh) | 2024-01-09 | 2024-01-09 | 一种多模态遥感图像分割装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410027349.8A CN117935259A (zh) | 2024-01-09 | 2024-01-09 | 一种多模态遥感图像分割装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935259A true CN117935259A (zh) | 2024-04-26 |
Family
ID=90760714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410027349.8A Pending CN117935259A (zh) | 2024-01-09 | 2024-01-09 | 一种多模态遥感图像分割装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935259A (zh) |
-
2024
- 2024-01-09 CN CN202410027349.8A patent/CN117935259A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
CN109241972B (zh) | 基于深度学习的图像语义分割方法 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113780296B (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN110245620B (zh) | 一种基于注意力的非最大化抑制方法 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN113628211B (zh) | 参数预测推荐方法、设备及计算机可读存储介质 | |
CN113379707A (zh) | 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN112560034B (zh) | 基于反馈式深度对抗网络的恶意代码样本合成方法及装置 | |
CN117593275A (zh) | 一种医学图像分割系统 | |
CN115376195B (zh) | 训练多尺度网络模型的方法及人脸关键点检测方法 | |
CN116883679A (zh) | 基于深度学习的地物目标提取方法和装置 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN116309213A (zh) | 一种基于生成对抗网络的高实时多源图像融合方法 | |
CN115311550A (zh) | 遥感影像语义变化检测方法、装置、电子设备及存储介质 | |
CN117935259A (zh) | 一种多模态遥感图像分割装置及方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
Di et al. | FDNet: An end-to-end fusion decomposition network for infrared and visible images | |
CN113674383A (zh) | 生成文本图像的方法及装置 | |
CN117557775B (zh) | 基于红外和可见光融合的变电站电力设备检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |