CN113762264A - 一种多编码器融合的多光谱图像语义分割方法 - Google Patents

一种多编码器融合的多光谱图像语义分割方法 Download PDF

Info

Publication number
CN113762264A
CN113762264A CN202110989965.8A CN202110989965A CN113762264A CN 113762264 A CN113762264 A CN 113762264A CN 202110989965 A CN202110989965 A CN 202110989965A CN 113762264 A CN113762264 A CN 113762264A
Authority
CN
China
Prior art keywords
encoder
multispectral
semantic segmentation
image
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110989965.8A
Other languages
English (en)
Inventor
张淇婷
商智高
徐帆
林泽彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110989965.8A priority Critical patent/CN113762264A/zh
Publication of CN113762264A publication Critical patent/CN113762264A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种多编码器融合的多光谱图像语义分割方法,本发明基于对不同通道数的多光谱图像提出了一种自适应的语义分割方法,先将多光谱图像的红、绿、蓝三个通道组合成类普通光学图像通过RGB编码器进行编码,然后将其余的多光谱通道通过各编码器进行编码,将各编码器特征图像融合输入解码器中,解码过程中使用跨层连接,将RGB编码器和解码器的特征图像进行拼接融合,最后输出语义分割的结果。本发明基于多光谱图像提出了一种自适应的语义分割方法,语义分割的结果在精确率、准确率等方面有明显提升。

Description

一种多编码器融合的多光谱图像语义分割方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种多编码器融合的多光谱图像语义分割方法。
背景技术
图像的语义分割一直是计算机视觉领域的研究重点,语义分割是对图像中的每一个像素进行分类,目前广泛应用于医学图像、无人驾驶与地理图像等。最早语义分割使用一些非深度学习的传统方法,但是分类器需要人工设计,而且如果分割类别很多会造成复杂的计算。随着深度学习的发展让语义分割领域有了重大突破,使用卷积神经网络对图像进行语义分割在准确率和效率上都超过了传统方法。
目前,UNet模型是深度学习领域用于语义分割的经典模型。UNet模型基于FCN(全卷积神经网络)改进与延伸,保留了FCN利用卷积层、池化层对图像进行特征提取的操作,UNet提出了跨层的跳跃连接的拼接融合操作。使用“U”型网络结构可以同时获取上下文信息和位置信息。
普通彩色光学图像是一个三通道的图像,只包含红、绿、蓝三波段的信息。多光谱图像则是由多通道组成的图像,一般由几个到十几个通道图像组成。多光谱图像的通道更多也更窄,每个通道采集其中心波张及其附近一个小范围的波段对应的信息。通常多光谱图像的空间分辨率较低,光谱分辨率较高。通俗得解释为多光谱图像包含更多得信息但会比较“模糊”。
尽管多光谱图像具有相当的优势,但目前对于多光谱图像的语义分割,还没有一种普适性的方法。将多光谱图像的所有通道直接融合为一张图像输入普通光学图像的语义分割模型中,这种方法效率不高且分割精度较低。可见,上述问题制约了深度学习的语义分割模型在多光谱图像分类方面的应用。
发明内容
本发明要解决的技术问题是针对多光谱图像语义分割算法普适性不高且精度低等问题,提出了一种多编码器融合的多光谱图像语义分割方法,既能运用于不同通道数的多光谱图像,又能提高分割精度。
本发明针对多光谱图像的多通道特点并为取得更好的语义分割效果,设计了一种可变的多编码器-单解码器结构,并在解码器的最高层将不同通道的特征图像进行拼接融合,且为了弥补多光谱图像低空间分辨率的问题,将红绿蓝三通道合并编码提高空间分辨率,同时将不同层的编码器产生的结果与解码器进行拼接融合,提高分割的精确度。
针对多光谱图像的多通道特点并为取得更好的语义分割效果,设计了一种可变的多编码器-单解码器结构,并在解码器的最高层将不同通道的特征图像进行拼接融合,且为了弥补多光谱图像低空间分辨率的问题,将红绿蓝三通道合并编码提高空间分辨率,同时将不同层的编码器产生的结果与解码器进行拼接融合,提高分割的精确度。
一种多编码器融合的多光谱图像语义分割方法包括以下步骤:
步骤1、建立多光谱语义分割训练数据集:
多光谱图像采集:使用多光谱相机对目标的环境数据信息进行采集,将采集到的多光谱图像的红绿蓝三通道进行组合并保存;
人工标注数据集:为了进行深度学习模型的训练,人工对(1)产生的三通道融合图像进行人工标注;
步骤2、构建多光谱多编码器语义分割模型:
针对多光谱图像的特点,针对N通道的多光谱图像,构建(N-2)个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器,将剩余多光谱图像输入各多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器,最后经过1×1卷积和Softmax激活函数输出语义分割结果。
每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次。每层编码器之间使用最大池化进行连接。RGB编码器除了卷积核数量是多光谱编码器的三倍其余参数和结构一致。
每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次。最后一层解码器后使用卷积核大小1×1的卷积核,激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
步骤3、训练多光谱语义分割模型:
将步骤1生成的多光谱语义分割训练数据集输入步骤2构建的深度学习模型中,进行端到端的训练,得到训练好的网络模型和权重。
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
1.将多光谱图像的可见光三通道进行融合,提高了空间分辨率,而且有益于有人标注;
2.提出了一种多编码器-单解码器的深度学习模型,融合各通道的特征,能够对不同通道数的多光谱图像进行端到端的语义分割;
3.在RGB编码器和解码器之间使用了跳跃连接,提高了多光谱图像语义分割的精度。
附图说明
图1是本发明多编码器融合的多光谱图像语义分割模型示意图。
图2为多光谱测试集语义分割效果对比图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。
本发明的实验是在windows10环境下进行,基于tensorflow开源深度框架并使用NVDIA GTX 1050ti显卡加速。模型训练使用Adam优化器,初始学习率为0.0003。
在这一部分,我们进行了对比实验,以探究我们提出的方法的优势,具体包括以下步骤:
步骤1,获取数据集,本次采用的数据集来自Gaofen Image Dataset(GID)。将数据集中的红、绿、蓝三通道图像融合为RGB图像。并将图像剪裁为5000张像素256×256大小的图像,并按6:2:2的比例分配为训练集、验证集和测试集。
步骤2,基于tensorflow开源深度框架构建深度学习网络模型。
步骤2.1,构建UNet网络模型;
步骤2.2,构建本发明提出的网络模型,并保持网络参数一致。其网络模型结果如图1所示。
针对GID数据集四通道的多光谱图像,构建两个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器,将剩余多光谱图像输入多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器,最后经过1×1卷积和Softmax激活函数输出语义分割结果。
每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复2次。每层编码器之间使用最大池化进行连接。RGB编码器的卷积核数量是UNet编码器卷积核数量的3/4,多光谱编码器的剪辑和数量是RGB编码器卷积核数量的1/3,其余参数和结构一致。
每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复2次。最后一层解码器后使用卷积核大小1×1的卷积核,激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。解码器的卷积核数量与UNet解码器的卷积核数量一致。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
步骤3,使用步骤1的数据集对步骤2中的两个模型进行训练,保存损失函数最小的模型权重。
步骤4,使用步骤1的测试集对训练好的网络模型进行测试,本发明提出的网络模型的语义分割精度达到了71.98%,相比UNet的56.56%平均交并比提升了15.42%,能够得到更好的语义分割结果。其语义分割结果如图2所示。
以上实例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权力要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替代,这种修改或等同替代也应视为落在本发明保护范围内。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种多编码器融合的多光谱图像语义分割方法,其特征在于,包括以下步骤:
S1:采集多光谱图像数据,对多光谱图像进行预处理,制作相应的数据训练集;
S2:建立卷积神经网络模型,所述的卷积神经网络包括一个RGB编码器、多个多光谱编码器和一个解码器;
S3:使用所述数据训练集对所述卷积神经网络模型进行训练,生成已训练完成的卷积神经网络模型;
S4:将多光谱图像输入步骤S3中训练完成的模型,得到语义分割结果。
2.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于:所述S1具体包括,采集多光谱图像数据利用多光谱相机采集多光谱图像数据,将采集到的多光谱图像的红色、绿色和蓝色通道图像在深度维度上进行融合得到类普通光学图像的RGB图像,其余多光谱通道图像不变,人工对RGB图像进行标注。
3.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S2具体包括:
建立卷积神经网络模型,其中包括一个RGB编码器、多个多光谱编码器和一个解码器;所述编码器和解码器都为5层;
每层编码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次,每层编码器之间使用最大池化进行连接;
其中RGB编码器对输入的RGB图像进行编码,多个多光谱编码器对剩余的多个多光谱图像进行编码,编码器的最高层输出的特征图像进行拼接融合后转入解码器;
每层解码器包括卷积层、批标准化和激活函数,所述卷积层是卷积核大小3×3的卷积核,所述激活函数采用ReLU函数,重复n次,最后一层解码器后使用卷积核大小1×1的卷积核,激活函数采用Softmax函数,每层解码器之间使用上采样进行连接,并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。
4.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S3具体包括:将融合后的RGB图像输入RGB编码器,将剩余的多个多光谱图像分别输入各多光谱编码器,编码器最高层的特征图像融合后输入解码器,解码器对融合后的特征图像进行解码时会融合空间维度大小相同的RGB图像的特征图像,最后输出语义分割结果,使用损失函数衡量该输出与人工标签之间的距离,更新网络模型权重以降低损失函数的值;最终保存最小损失的网络模型权重,训练完成。
5.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法,其特征在于,所述S4包括:将待语义分割的多光谱图像的红色、绿色、蓝色通道图像融合为类普通光学图像的RGB图像,将融合后的RGB图像和剩余多光谱通道图像输入S3保存的网络模型权重中,网络输出语义分割结果。
CN202110989965.8A 2021-08-26 2021-08-26 一种多编码器融合的多光谱图像语义分割方法 Withdrawn CN113762264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110989965.8A CN113762264A (zh) 2021-08-26 2021-08-26 一种多编码器融合的多光谱图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110989965.8A CN113762264A (zh) 2021-08-26 2021-08-26 一种多编码器融合的多光谱图像语义分割方法

Publications (1)

Publication Number Publication Date
CN113762264A true CN113762264A (zh) 2021-12-07

Family

ID=78791410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110989965.8A Withdrawn CN113762264A (zh) 2021-08-26 2021-08-26 一种多编码器融合的多光谱图像语义分割方法

Country Status (1)

Country Link
CN (1) CN113762264A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170249A (zh) * 2022-02-08 2022-03-11 湖南大学 一种基于CNUNet3+网络的图像语义分割方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN115018750A (zh) * 2022-08-08 2022-09-06 湖南大学 中波红外高光谱及多光谱图像融合方法、系统及介质
WO2023221328A1 (zh) * 2022-05-17 2023-11-23 华南理工大学 一种基于多光谱图像的语义分割方法、装置及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114170249A (zh) * 2022-02-08 2022-03-11 湖南大学 一种基于CNUNet3+网络的图像语义分割方法
CN114170249B (zh) * 2022-02-08 2022-04-19 湖南大学 一种基于CNUNet3+网络的图像语义分割方法
WO2023221328A1 (zh) * 2022-05-17 2023-11-23 华南理工大学 一种基于多光谱图像的语义分割方法、装置及存储介质
CN115018750A (zh) * 2022-08-08 2022-09-06 湖南大学 中波红外高光谱及多光谱图像融合方法、系统及介质
CN115018750B (zh) * 2022-08-08 2022-11-08 湖南大学 中波红外高光谱及多光谱图像融合方法、系统及介质

Similar Documents

Publication Publication Date Title
CN113762264A (zh) 一种多编码器融合的多光谱图像语义分割方法
US20200372648A1 (en) Image processing method and device, computer apparatus, and storage medium
CN110555465B (zh) 一种基于cnn与多特征融合的天气图像识别方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111914907A (zh) 一种基于深度学习空谱联合网络的高光谱图像分类方法
WO2022257578A1 (zh) 用于识别文本的方法和装置
CN110032928B (zh) 一种适用于颜色敏感的卫星遥感影像水体识别方法
CN110378344B (zh) 基于谱维转换网络的卷积神经网络多光谱图像分割方法
Liu et al. End-to-end computational optics with a singlet lens for large depth-of-field imaging
CN110009700B (zh) 基于rgb图和梯度图的卷积神经网络视觉深度估计方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN113744146A (zh) 一种基于对比学习和知识蒸馏的图像去雾方法
WO2019218140A1 (zh) 物体识别方法及计算机可读存储介质
CN115359370A (zh) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN114241344B (zh) 一种基于深度学习的植物叶片病虫害严重程度评估方法
CN115482529A (zh) 近景色水果图像识别方法、设备、存储介质及装置
CN114187515A (zh) 图像分割方法和图像分割装置
CN112733777B (zh) 一种遥感图像的道路提取方法、装置、设备和存储介质
CN111401453A (zh) 一种马赛克图像分类识别方法及系统
WO2020093210A1 (zh) 基于上下文信息指导的场景分割方法和系统
CN114387190B (zh) 一种基于复杂环境下的自适应图像增强方法及系统
Samanta et al. Context aggregation network for semantic labeling in histopathology images
CN109239914B (zh) 一种实现高空间带宽积的成像方法
CN114022458A (zh) 骨架检测方法、装置、电子设备和计算机可读存储介质
CN111382685B (zh) 一种基于深度学习的场景识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211207

WW01 Invention patent application withdrawn after publication