CN115082492A

CN115082492A - 一种基于多光谱图像的语义分割方法、装置及存储介质

Info

Publication number: CN115082492A
Application number: CN202210533579.2A
Authority: CN
Inventors: 谭明奎; 罗佩瑶; 李振梁; 杜永红
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-20
Also published as: WO2023221328A1

Abstract

本发明公开了一种基于多光谱图像的语义分割方法、装置及存储介质，其中方法包括：收集并标注用于语义分割的多光谱数据集；构建语义分割模型；采用所述多光谱数据集对所述语义分割模型进行训练；获取待处理图像，将所述待处理图像输入训练后的所述语义分割模型，输出语义分割结果；所述语义分割模型包括类别‑光谱关联模块，所述类别‑光谱关联模块用于通过提高相同类别像素之间的相似性，减小类间的差异性，以获得连续准确的分割结果。本发明通过提高相同类别像素之间的相似性，减小类间的差异性，能够更好地从多光谱图像中提取互补的信息，解决了类内差异性大的问题。本发明可广泛应用于计算机视觉技术领域。

Description

一种基于多光谱图像的语义分割方法、装置及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多光谱图像的语义分割方法、装置及存储介质。

背景技术

近年来，随着高空场景的地表观测数据急剧增加，语义分割在高分辨率的遥感图像上获得了广泛的应用。该任务通常只需要输入RGB图像，从丰富的纹理信息中学习语义表达，便可获得了较好的结果。然而，这些方法仅从单一图像视角分析对象，即仅通过可见光的纹理信息区分不同类别的物体，导致模型具有一定的局限性。

为了解决上述问题，现有方法引入多光谱图像，通过整合光在不同波长下的视觉信息来弥补RGB图像受光照等因素影响的缺陷，进而提升模型性能。然而，现有大部分方法简单地融合可见光和非可见光的信息，没有考虑相同类别的像素具有相近的多光谱特征，因此难以解决类内差异性大的问题。另外，一些方法仅在空间维度上引入类别上下文信息，没有考虑多光谱特征在不同类别之间存在不同程度的冗余，难以解决冗余信息带来的干扰及噪声，存在类间差异性小的问题。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于多光谱图像的语义分割方法、装置及存储介质。

本发明所采用的技术方案是：

一种基于多光谱图像的语义分割方法，包括以下步骤：

收集并标注用于语义分割的多光谱数据集；

构建语义分割模型；

采用所述多光谱数据集对所述语义分割模型进行训练；

获取待处理图像，将所述待处理图像输入训练后的所述语义分割模型，输出语义分割结果；

所述语义分割模型包括类别-光谱关联模块，所述类别-光谱关联模块用于通过提高相同类别像素之间的相似性，减小类间的差异性，以获得连续准确的分割结果。

进一步地，所述语义分割模型还包括光谱通道增强模块；

所述光谱通道增强模块用于利用通道注意力机制关注多光谱特征中重要的信息，以减少不同类别在多光谱特征中的冗余信息。

进一步地，所述收集并标注用于语义分割的多光谱数据集，包括：

从高空场景中收集多光谱图像，并对所述多光谱图像进行标注，以构建成多光谱数据集；

将标注后的多光谱数据集划分成训练集、验证集、测试集三个部分；

对训练集内的高分辨率图像采用随机的方式截取固定大小的图像，对验证集和测试集内的高分辨率图像采用滑动窗口的方式截取固定大小的图像。

进一步地，所述语义分割模型还包括编码器、光谱通道增强模块以及解码器；

所述编码器，用于从多光谱图像中提取特征；

所述类别-光谱关联模块，用于采用监督的方式得到初步分割结果，并对多光谱特征进行软类别均值池化，得到类别-光谱关系矩阵，进而减小类内差异；

所述光谱通道增强模块，用于计算每个类别的通道注意力分数，对不同类别区域的特征通道分配权重，减少不同类别在多光谱特征的冗余信息，进而增大类间差异；

所述解码器，用于解码多光谱特征并输出语义分割结果。

进一步地，定义X^h为所述解码器中第一次上采样后的高层特征；定义X^l为所述编码器中骨干网络第一阶段输出的低层特征；

所述类别-光谱关联模块的工作流程如下：

将所述高层特征X^h的通道数量减少到类别数目N，在类别维度进行softmax操作得到N张注意力图，作为类别注意力图X^p；

减少所述低层特征X^l的通道数量，得到特征X；

对所述类别注意力图X^p中属于不同类别区域的像素特征分别进行均值池化，得到N个多光谱特征，并结合所述特征X构成类别-光谱关系矩阵M。

进一步地，所述光谱通道增强模块的工作流程如下：

将所述类别-光谱关系矩阵M当作N个独立的光谱特征，基于通道注意力机制，分别计算N个通道注意力分数，并构成光谱通道注意力分数A；

对所述低层特征X^l进行特征提取，得到特征X^v；

根据所述光谱通道注意力分数A和所述特征X^v，对所述类别注意力图X^p中属于类别k对应区域的像素特征重新分配通道权重，并和所述低层特征X^l拼接在一起，得到输出特征Y。

进一步地，所述编码器包括骨干网络和ASPP模块；

其中，所述骨干网络采用空洞卷积代替下采样操作，以在增大感受野的同时防止分辨率下降；

所述ASPP模块，用于融合多个不同膨胀率的卷积层提取的特征来提取多尺度上下文特征。

进一步地，所述采用所述多光谱数据集对所述语义分割模型进行训练，包括：

采用交叉熵函数计算损失，并利用随机梯度下降算法更新网络的参数，直至收敛。

本发明所采用的另一技术方案是：

一种基于多光谱图像的语义分割装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过提高相同类别像素之间的相似性，减小类间的差异性，能够更好地从多光谱图像中提取互补的信息，解决了类内差异性大的问题。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于多光谱图像的语义分割方法的步骤流程图；

图2是本发明实施例中在高空场景下基于多光谱图像的语义分割模型的结构示意图；

图3是本发明实施例中类别-光谱关联模块的示意图；

图4是本发明实施例中光谱通道增强模块的示意图；

图5是本发明实施例中类内差异大和类间差异小的错误预测示例图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

现有基于多光谱图像的语义分割方法存在以下问题：(1)没有考虑到相同类别的像素具有相近的多光谱特征，导致语义表达模糊，存在类内差异大的问题，如图5(a)所示。(2)没有考虑到可见光图像和非可见光图像之间存在冗余信息，仅在空间维度引入类别上下文信息，难以解决冗余带来的干扰及噪声，存在类间差异小的问题，如图5(b)所示。针对问题(1)，本发明在空间上把像素划分为不同类别区域，并对相同类别的像素提取共同的多光谱特征。一方面，本发明利用监督的方式获得粗糙的分割结果，促使模型正确划分像素特征；另一方面考虑了远距离或外观差异大的同类像素，增强了类别内像素特征的语义表达并减少了类内差异。最终，本发明对每个类别提取了多光谱特征，即构建了类别和光谱之间的关系。针对问题(2)，本发明利用通道注意力机制减少不同类别中多光谱特征的冗余信息。由于不同类别关注不同光谱特征通道，本发明计算不同类别的通道注意力分数，对不同类别区域的像素用不同的通道注意力分数，根据不同类别减少多光谱特征中噪声的影响，从而增大类间差异。

如图1所示，本实施例提供了一种基于多光谱图像的语义分割方法，具体包括以下步骤：

S1、收集并标注用于语义分割的多光谱数据集。

作为可选的实施方式，步骤S1包括以下步骤S11-S13：

S11、从高空场景中收集多光谱图像，并对所述多光谱图像进行标注，以构建成多光谱数据集。其中图片包含了“道路”，“建筑”，“树木”，“汽车”，“低矮植物”，“杂物”这6个类别。

S12、将标注后的多光谱数据集划分成训练集、验证集、测试集三个部分。

S13、对训练集内的高分辨率图像采用随机的方式截取固定大小(512*512像素)的图像，对验证集和测试集内的高分辨率图像采用滑动窗口的方式截取固定大小(512*512像素)的图像。

S2、构建语义分割模型。针对类内差异性大的问题，利用监督的方式对空间像素进行类别区域划分，对相同类别像素提取共同特征，从而显式地建立类别和光谱之间的联系；针对类间差异性小的问题，利用通道注意力机制，对不同类别区域的特征通道分配权重，让网络让模型自主关注有用的信息，减少噪声影响。

在高空场景下，语义分割模型对输入的多光谱图像进行特征提取，为每个像素赋予一个类别标签，最终获得语义分割结果。如图2所示，语义分割模型主要包含四个部分：(1)编码器：旨在从多光谱图像中提取特征；(2)类别-光谱关联模块：用监督的方式得到初步分割结果，并对多光谱特征进行软类别均值池化得到类别-光谱关系矩阵，进而减小类内差异；(3)光谱通道增强模块：计算每个类别的通道注意力分数，对不同类别区域的特征通道分配权重，减少不同类别在多光谱特征的冗余信息，进而增大类间差异；(4)解码器：解码多光谱特征并输出语义分割结果。

作为一种可选的实施方式，编码器的工作方式如下：将多通道的多光谱图像I_spec输入到编码器中提取特征。编码器包含两个部分：骨干网络和ASPP模块。其中骨干网络为在ImageNet数据集上预训练的ResNet101模型。由于ResNet模型采用了5次下采样，其输出特征的分辨率为输入图像的1/32，即输出跨度为32，丢失了大量的细节信息并导致模型性能下降。因此骨干网络用空洞卷积代替下采样操作，在增大感受野的同时防止分辨率下降。具体而言，将最后两个残差块内的下采样操作替换成膨胀率分别为2和4的空洞卷积，使得网络的输出跨度为8。另外，本发明运用ASPP模块，融合多个不同膨胀率的卷积层提取的特征来提取多尺度上下文特征。

作为一种可选的实施方式，类别-光谱关联模块的工作方式如下：首先定义X^h为解码器中第一次上采样后的高层特征，该特征具有丰富的类别信息。定义X^l为编码器中骨干网络第一阶段输出的低层特征，该特征具有丰富的细节信息。该模块共分为两个步骤：(1)生成类别注意力图X^p。通过监督的方式，使得网络学习每个类别的注意力图，即每个像素属于该类别的概率。(2)计算类别-光谱关系矩阵M。基于自注意力机制，通过矩阵运算得到类别和光谱之间的关系。

参见图3，生成类别注意力图X^p的步骤具体如下：本实施例通过卷积核大小为1x1的卷积层将高层语义特征X^h的通道数量减少到类别数目N，在类别维度进行softmax操作得到N张注意力图，即类别注意力图X^p。为了更好地学习类别和光谱的关系，本发明在训练阶段采用监督学习的方式，引入损失函数使X^p接近语义分割标签。

参见图3，计算类别-光谱关系矩阵M的步骤具体如下：通过卷积核大小为1x1的卷积层减少多光谱特征X^l的通道数量，得到特征X。为了提取获得的语义表达，本发明通过提取相同类别像素的特征共性，将类别信息整合到多光谱特征中，进而减少类内差异，具体地，采用软类别均值池化，即对X^p中属于不同类别区域的像素特征分别进行均值池化，从而得到N个多光谱特征，并构成类别-光谱关系矩阵M。

作为一种可选的实施方式，光谱通道增强模块的工作方式如下：根据不同类别关注不同光谱特征通道，本发明利用不同类别(类间上下文)的差异性增强多光谱特征，减少其它类别的搜索空间。该模块主要分为两个部分：(1)计算光谱道注意力分数A。将类别-光谱关系矩阵M转化为每个类别的通道注意力分数；(2)对光谱特征通道重新分配权重。对相同类别的像素用对应的通道注意力分数相乘，对不同类别区域的像素用不同的通道注意力分数，从而减少多光谱特征中噪声的影响并增大类间差异。

参见图4，计算光谱通道注意力分数A的步骤具体如下：本实施例把类别-光谱关系矩阵M当作N个独立的光谱特征，基于通道注意力机制，分别计算N个通道注意力分数，并构成光谱通道注意力分数A。具体地，本发明所采用的通道注意力机制为通道扩张和挤压操作，挤压率为32。

参见图4，对光谱特征通道重新分配权重的步骤具体如下：通过卷积核大小为1x1的卷积层对低层的多光谱特征X^l提取特征，得到特征X^v。接着，对X^p中属于类别k对应区域的像素特征重新分配通道权重，并和原来的多光谱特征X^l拼接在一起，得到输出特征Y。

作为一种可选的实施方式，解码器的工作方式如下：将通道增强后的光谱特征Y输入到解码器中，和解码器原有的特征拼接并输出语义分割结果。本实施例通过融合具有丰富细节的多光谱特征以及具有丰富语义的高层特征，使得模型输出精确的分割结果。

S3、采用所述多光谱数据集对所述语义分割模型进行训练。

在划分好的训练集，通过交叉熵函数计算损失，并利用随机梯度下降算法更新网络的参数到收敛。在验证集和测试集上分别进行评估和测试。

S4、获取待处理图像，将所述待处理图像输入训练后的所述语义分割模型，输出语义分割结果。

本实施例提出的高空场景下基于多光谱图像的语义分割方法可以一方面增强类别内像素特征的语义表达并减少类内差异，另一方面减少多光谱特征中噪声的影响进而增大类间差异。表1和表2分别展示了在Potsdam数据集和Vaihingen数据集上与已有最好方法的对比结果。应用本方案之后，在两个常用的多光谱数据集上均能提升语义分割模型的性能。

表1本实施例方法与已有最好方法在Potsdam数据集上的对比结果

表2本实施例方法与已有最好方法在Vaihingen数据集上的对比结果

综上所述，本实施例相对于现有技术，具有如下优点及有益效果：

(1)本发明利用监督的方式获得粗糙的分割结果，促使模型正确划分像素特征；另一方面考虑了远距离或外观差异大的同类像素，增强了类别内像素特征的语义表达并减少了类内差异。最终，本发明对每个类别提取了多光谱特征，即构建了类别和光谱之间的关系。能够有效解决类内差异大的问题。

(2)本发明利用通道注意力机制减少不同类别中多光谱特征的冗余信息。由于不同类别关注不同光谱特征通道，本发明计算不同类别的通道注意力分数，对不同类别区域的像素用不同的通道注意力分数，根据不同类别减少多光谱特征中噪声的影响，从而增大类间差异。能够解决冗余带来的干扰及噪声，存在类间差异小的问题。

本实施例还提供一种基于多光谱图像的语义分割装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种基于多光谱图像的语义分割装置，可执行本发明方法实施例所提供的一种基于多光谱图像的语义分割方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于多光谱图像的语义分割方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于多光谱图像的语义分割方法，其特征在于，包括以下步骤：

收集并标注用于语义分割的多光谱数据集；

构建语义分割模型；

采用所述多光谱数据集对所述语义分割模型进行训练；

2.根据权利要求1所述的一种基于多光谱图像的语义分割方法，其特征在于，所述语义分割模型还包括光谱通道增强模块；

3.根据权利要求1所述的一种基于多光谱图像的语义分割方法，其特征在于，所述收集并标注用于语义分割的多光谱数据集，包括：

4.根据权利要求1所述的一种基于多光谱图像的语义分割方法，其特征在于，所述语义分割模型还包括编码器、光谱通道增强模块以及解码器；

所述编码器，用于从多光谱图像中提取特征；

所述解码器，用于解码多光谱特征并输出语义分割结果。

5.根据权利要求4所述的一种基于多光谱图像的语义分割方法，其特征在于，定义X^h为所述解码器中第一次上采样后的高层特征；定义X^l为所述编码器中骨干网络第一阶段输出的低层特征；

所述类别-光谱关联模块的工作流程如下：

减少所述低层特征X^l的通道数量，得到特征X；

6.根据权利要求5所述的一种基于多光谱图像的语义分割方法，其特征在于，所述光谱通道增强模块的工作流程如下：

对所述低层特征X^l进行特征提取，得到特征X^v；

7.根据权利要求4所述的一种基于多光谱图像的语义分割方法，其特征在于，所述编码器包括骨干网络和ASPP模块；

8.根据权利要求1所述的一种基于多光谱图像的语义分割方法，其特征在于，所述采用所述多光谱数据集对所述语义分割模型进行训练，包括：

9.一种基于多光谱图像的语义分割装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-8任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。