CN113762264A

CN113762264A - 一种多编码器融合的多光谱图像语义分割方法

Info

Publication number: CN113762264A
Application number: CN202110989965.8A
Authority: CN
Inventors: 张淇婷; 商智高; 徐帆; 林泽彬
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-07

Abstract

本发明公开了一种多编码器融合的多光谱图像语义分割方法，本发明基于对不同通道数的多光谱图像提出了一种自适应的语义分割方法，先将多光谱图像的红、绿、蓝三个通道组合成类普通光学图像通过RGB编码器进行编码，然后将其余的多光谱通道通过各编码器进行编码，将各编码器特征图像融合输入解码器中，解码过程中使用跨层连接，将RGB编码器和解码器的特征图像进行拼接融合，最后输出语义分割的结果。本发明基于多光谱图像提出了一种自适应的语义分割方法，语义分割的结果在精确率、准确率等方面有明显提升。

Description

一种多编码器融合的多光谱图像语义分割方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种多编码器融合的多光谱图像语义分割方法。

背景技术

图像的语义分割一直是计算机视觉领域的研究重点，语义分割是对图像中的每一个像素进行分类，目前广泛应用于医学图像、无人驾驶与地理图像等。最早语义分割使用一些非深度学习的传统方法，但是分类器需要人工设计，而且如果分割类别很多会造成复杂的计算。随着深度学习的发展让语义分割领域有了重大突破，使用卷积神经网络对图像进行语义分割在准确率和效率上都超过了传统方法。

目前，UNet模型是深度学习领域用于语义分割的经典模型。UNet模型基于FCN(全卷积神经网络)改进与延伸，保留了FCN利用卷积层、池化层对图像进行特征提取的操作，UNet提出了跨层的跳跃连接的拼接融合操作。使用“U”型网络结构可以同时获取上下文信息和位置信息。

普通彩色光学图像是一个三通道的图像，只包含红、绿、蓝三波段的信息。多光谱图像则是由多通道组成的图像，一般由几个到十几个通道图像组成。多光谱图像的通道更多也更窄，每个通道采集其中心波张及其附近一个小范围的波段对应的信息。通常多光谱图像的空间分辨率较低，光谱分辨率较高。通俗得解释为多光谱图像包含更多得信息但会比较“模糊”。

尽管多光谱图像具有相当的优势，但目前对于多光谱图像的语义分割，还没有一种普适性的方法。将多光谱图像的所有通道直接融合为一张图像输入普通光学图像的语义分割模型中，这种方法效率不高且分割精度较低。可见，上述问题制约了深度学习的语义分割模型在多光谱图像分类方面的应用。

发明内容

本发明要解决的技术问题是针对多光谱图像语义分割算法普适性不高且精度低等问题，提出了一种多编码器融合的多光谱图像语义分割方法，既能运用于不同通道数的多光谱图像，又能提高分割精度。

本发明针对多光谱图像的多通道特点并为取得更好的语义分割效果，设计了一种可变的多编码器-单解码器结构，并在解码器的最高层将不同通道的特征图像进行拼接融合，且为了弥补多光谱图像低空间分辨率的问题，将红绿蓝三通道合并编码提高空间分辨率，同时将不同层的编码器产生的结果与解码器进行拼接融合，提高分割的精确度。

针对多光谱图像的多通道特点并为取得更好的语义分割效果，设计了一种可变的多编码器-单解码器结构，并在解码器的最高层将不同通道的特征图像进行拼接融合，且为了弥补多光谱图像低空间分辨率的问题，将红绿蓝三通道合并编码提高空间分辨率，同时将不同层的编码器产生的结果与解码器进行拼接融合，提高分割的精确度。

一种多编码器融合的多光谱图像语义分割方法包括以下步骤：

步骤1、建立多光谱语义分割训练数据集：

多光谱图像采集：使用多光谱相机对目标的环境数据信息进行采集，将采集到的多光谱图像的红绿蓝三通道进行组合并保存；

人工标注数据集：为了进行深度学习模型的训练，人工对(1)产生的三通道融合图像进行人工标注；

步骤2、构建多光谱多编码器语义分割模型：

针对多光谱图像的特点，针对N通道的多光谱图像，构建(N-2)个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器，将剩余多光谱图像输入各多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器，最后经过1×1卷积和Softmax激活函数输出语义分割结果。

每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数，所述卷积层是卷积核大小3×3的卷积核，所述激活函数采用ReLU函数，重复n次。每层编码器之间使用最大池化进行连接。RGB编码器除了卷积核数量是多光谱编码器的三倍其余参数和结构一致。

每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数，所述卷积层是卷积核大小3×3的卷积核，所述激活函数采用ReLU函数，重复n次。最后一层解码器后使用卷积核大小1×1的卷积核，激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。

步骤3、训练多光谱语义分割模型：

将步骤1生成的多光谱语义分割训练数据集输入步骤2构建的深度学习模型中，进行端到端的训练，得到训练好的网络模型和权重。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

1.将多光谱图像的可见光三通道进行融合，提高了空间分辨率，而且有益于有人标注；

2.提出了一种多编码器-单解码器的深度学习模型，融合各通道的特征，能够对不同通道数的多光谱图像进行端到端的语义分割；

3.在RGB编码器和解码器之间使用了跳跃连接，提高了多光谱图像语义分割的精度。

附图说明

图1是本发明多编码器融合的多光谱图像语义分割模型示意图。

图2为多光谱测试集语义分割效果对比图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明可以以许多不同的形式实现，而不应当认为限于这里所述的实施例。相反，提供这些实施例以便使本公开透彻且完整，并且将向本领域技术人员充分表达本发明的范围。

本发明的实验是在windows10环境下进行，基于tensorflow开源深度框架并使用NVDIA GTX 1050ti显卡加速。模型训练使用Adam优化器，初始学习率为0.0003。

在这一部分，我们进行了对比实验，以探究我们提出的方法的优势，具体包括以下步骤：

步骤1，获取数据集，本次采用的数据集来自Gaofen Image Dataset(GID)。将数据集中的红、绿、蓝三通道图像融合为RGB图像。并将图像剪裁为5000张像素256×256大小的图像，并按6：2：2的比例分配为训练集、验证集和测试集。

步骤2，基于tensorflow开源深度框架构建深度学习网络模型。

步骤2.1，构建UNet网络模型；

步骤2.2，构建本发明提出的网络模型，并保持网络参数一致。其网络模型结果如图1所示。

针对GID数据集四通道的多光谱图像，构建两个编码器和一个解码器结构。将多光谱图像的红绿蓝三个可见光波段进行融合输入RGB编码器，将剩余多光谱图像输入多光谱编码器。多编码器输出的特征图像进行拼接融合后输入解码器，最后经过1×1卷积和Softmax激活函数输出语义分割结果。

每个编码器都包含5层。每层编码器包括卷积层、批标准化和激活函数，所述卷积层是卷积核大小3×3的卷积核，所述激活函数采用ReLU函数，重复2次。每层编码器之间使用最大池化进行连接。RGB编码器的卷积核数量是UNet编码器卷积核数量的3/4，多光谱编码器的剪辑和数量是RGB编码器卷积核数量的1/3，其余参数和结构一致。

每个解码器都包含5层。每层解码器包括卷积层、批标准化和激活函数，所述卷积层是卷积核大小3×3的卷积核，所述激活函数采用ReLU函数，重复2次。最后一层解码器后使用卷积核大小1×1的卷积核，激活函数采用Softmax函数输出语义分割结果。每层解码器之间使用上采样进行连接。解码器的卷积核数量与UNet解码器的卷积核数量一致。并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。

步骤3，使用步骤1的数据集对步骤2中的两个模型进行训练，保存损失函数最小的模型权重。

步骤4，使用步骤1的测试集对训练好的网络模型进行测试，本发明提出的网络模型的语义分割精度达到了71.98％，相比UNet的56.56％平均交并比提升了15.42％，能够得到更好的语义分割结果。其语义分割结果如图2所示。

以上实例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权力要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替代，这种修改或等同替代也应视为落在本发明保护范围内。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多编码器融合的多光谱图像语义分割方法，其特征在于，包括以下步骤：

S1:采集多光谱图像数据，对多光谱图像进行预处理，制作相应的数据训练集；

S2:建立卷积神经网络模型，所述的卷积神经网络包括一个RGB编码器、多个多光谱编码器和一个解码器；

S3:使用所述数据训练集对所述卷积神经网络模型进行训练，生成已训练完成的卷积神经网络模型；

S4:将多光谱图像输入步骤S3中训练完成的模型，得到语义分割结果。

2.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法，其特征在于：所述S1具体包括，采集多光谱图像数据利用多光谱相机采集多光谱图像数据，将采集到的多光谱图像的红色、绿色和蓝色通道图像在深度维度上进行融合得到类普通光学图像的RGB图像，其余多光谱通道图像不变，人工对RGB图像进行标注。

3.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法，其特征在于，所述S2具体包括：

建立卷积神经网络模型，其中包括一个RGB编码器、多个多光谱编码器和一个解码器；所述编码器和解码器都为5层；

每层编码器包括卷积层、批标准化和激活函数，所述卷积层是卷积核大小3×3的卷积核，所述激活函数采用ReLU函数，重复n次，每层编码器之间使用最大池化进行连接；

其中RGB编码器对输入的RGB图像进行编码，多个多光谱编码器对剩余的多个多光谱图像进行编码，编码器的最高层输出的特征图像进行拼接融合后转入解码器；

每层解码器包括卷积层、批标准化和激活函数，所述卷积层是卷积核大小3×3的卷积核，所述激活函数采用ReLU函数，重复n次，最后一层解码器后使用卷积核大小1×1的卷积核，激活函数采用Softmax函数，每层解码器之间使用上采样进行连接，并且解码器会与RGB编码器输出的大小相同的特征图拼接融合。

4.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法，其特征在于，所述S3具体包括：将融合后的RGB图像输入RGB编码器，将剩余的多个多光谱图像分别输入各多光谱编码器，编码器最高层的特征图像融合后输入解码器，解码器对融合后的特征图像进行解码时会融合空间维度大小相同的RGB图像的特征图像，最后输出语义分割结果，使用损失函数衡量该输出与人工标签之间的距离，更新网络模型权重以降低损失函数的值；最终保存最小损失的网络模型权重，训练完成。

5.根据权利要求1所述的一种多编码器融合的多光谱图像语义分割方法，其特征在于，所述S4包括：将待语义分割的多光谱图像的红色、绿色、蓝色通道图像融合为类普通光学图像的RGB图像，将融合后的RGB图像和剩余多光谱通道图像输入S3保存的网络模型权重中，网络输出语义分割结果。