CN114445442B

CN114445442B - 基于非对称交叉融合的多光谱图像语义分割方法

Info

Publication number: CN114445442B
Application number: CN202210111951.0A
Authority: CN
Inventors: 李平; 陈俊杰; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-12-02
Anticipated expiration: 2042-01-28
Also published as: CN114445442A

Abstract

本发明公开了基于非对称交叉融合的多光谱图像语义分割方法。本发明方法首先对多光谱图像进行预处理，输入非对称编码器，获得RGB图像和Thermal图像的特征图及其显著置信度，将输入门控交叉融合模块得到融合特征图；将RGB和Thermal图像输入构建的多光谱显著性感知模块，得到对应显著伪标记；将融合特征图输入由转置卷积组成的解码器；使用随机梯度下降算法优化分割网络模型，对新的多光谱图像依次通过上述步骤获得语义分割结果。本发明方法通过非对称编码器提取多光谱图像特征，可有效减少模型计算开销，还利用门控交叉融合机制自适应地对图像的显著区域融合，有利于对像素点的空间分布关系进行建模，获得更优的语义分割性能。

Description

基于非对称交叉融合的多光谱图像语义分割方法

技术领域

本发明属于计算机视觉技术领域，尤其是多光谱数据中的语义分割领域，涉及一种基于非对称交叉融合的多光谱图像语义分割方法。

背景技术

随着我国车辆数量不断增加，驾驶员数量也随之增加。面对复杂的道路状况，驾驶员的不规范或夜间疲劳驾驶都将可能导致严重的车祸事故，因此，驾驶安全日益受到社会的高度关注，从而推动智能自动驾驶技术的发展。全天候条件下的高效稳健视觉感知系统是自动驾驶的关键部件，而多光谱图像语义分割作为其重要技术主要处理由RGB图像(可见光)和Thermal图像(不可见光)组成的多光谱图像。RGB图像是由红、绿、蓝三个颜色通道叠加而成的可见光光谱；Thermal图像是由温度在绝对零度以上的物体产生热辐射形成的不可见光谱。多光谱图像语义分割旨在对多光谱图像进行像素级别的类别标记，通常给定N个语义类别，其中包括N-1个前景类别和1个背景类别，获得与原始图像同等尺寸的逐像素类别标记矩阵。该技术可广泛应用在自动驾驶，无人机侦察、机器视觉等实际领域。例如，在自动驾驶夜间环境中，由于光照不足，仅利用RGB可见光摄像头无法有效采集路面状况，而利用多光谱摄像头可获得RGB图像与Thermal图像并组成多光谱图像，获得精确鲁棒的路况信息，有利于在光照不足或恶劣天气的情况中辅助驾驶并确保司乘安全。

近年来，深度卷积神经网络由于其卓越的特征提取能力被应用于多光谱图像语义分割。典型的方法利用现有深度卷积神经网络作为编码器，从多光谱图像组成的四通道张量中提取语义特征，然后通过解码器的逐层上采样操作获得逐像素类别标记矩阵。然而，此种方法在进行特征提取的过程中忽视RGB图像与Thermal图像两者的内在差异，对两种图像进行统一的特征提取，难以有效融合两种光谱的特征。为此，部分方法采用双流模型以获得准确的分割结果，其显著特点是：利用两个结构相同的卷积神经网络，即对称编码器分别作为RGB图像和Thermal图像的特征提取器，在特征提取的过程中，将两种光谱的中间特征图进行逐元素相加或者逐通道拼接得到融合特征图，以捕获两种光谱在多个分辨率下的语义特征，最后经过多次卷积与上采样得到逐像素类别标记矩阵。

上述方法存在的不足点主要表现在两个方面：1)为了提高精度，通常采用两个大型相同的卷积神经网络作为两种光谱的特征提取器，并没有充分考虑两种光谱数据的容量，如RGB图像能够刻画丰富的颜色、纹理等信息，而Thermal图像仅能表示粗略的位置与模糊的外观信息，使得提取Thermal图像的特征时存在冗余，并且时空复杂度高；2)采用逐元素相加或逐通道拼接的融合策略忽略了RGB图像与Thermal图像所刻画的物体信息差异，如难以有效地以互补的形式融合两种光谱物体信息。因此，针对双流分割模型的时空复杂度高、多光谱特征融合困难等问题，迫切需要一种既能达到较高分割精度又能保障多光谱分割模型轻量化的方法。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于非对称交叉融合的多光谱图像语义分割方法。本发明方法通过构建非对称结构编码器分别对RGB图像与Thermal图像进行特征提取，充分考虑RGB图像的颜色和纹理信息和Thermal图像的轮廓信息；同时设计门控交叉融合机制对两种光谱特征图中的显著性区域进行自适应融合，学习视觉显著性的先验知识，有利于提升模型在不同光照强度下对不同语义类别的判别能力，从而提高分割精度和鲁棒性。

本发明方法首先获取多光谱图像数据集合，然后进行如下操作：

步骤(1)对多光谱数据集进行预处理，将多光谱图像输入至非对称编码器，获得RGB图像的特征图和显著置信度，以及Thermal图像的特征图和显著置信度；

步骤(2)构建多光谱显著性感知模块，输入为RGB图像和Thermal图像，输出为RGB显著伪标记和Thermal显著伪标记；

步骤(3)构建门控交叉融合模块，输入为RGB图像和Thermal图像的特征图及其显著置信度，输出为融合特征图；

步骤(4)将融合特征图输入由转置卷积组成的解码器，获得预测分割标记；

步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络，使用交叉熵损失函数和L1损失函数进行优化，获得已训练的多光谱图像语义分割网络；

步骤(6)将新多光谱图像输入至已训练的分割网络，输出对应的语义分割结果。

步骤(1)具体是：

(1-1)对多光谱数据集进行预处理操作，得到训练数据集

其中I_i表示第i个增强多光谱图像训练样本，共N个训练样本，4表示多光谱通道数量，H表示多光谱图像的高度，W表示多光谱图像的宽度,其中

表示多光谱由配对的RGB图像与Thermal图像拼接而成，

表示第i个三通道的RGB图像样本，

表示第i个单通道的Thermal图像样本，上标r表示RGB，上标t表示Thermal；

(1-2)进行像素级标记，记为标记集合

其中Y_i是高为H、宽为W的矩阵，像素级标记Y_i的元素取值为{0,1,…,K}，其中K为待分割的类别总数，在训练阶段每张多光谱都有对应的像素级标记，处理新多光谱时不会给出像素级标记；

(1-3)构建非对称编码器中的RGB编码器，即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet，对训练数据集

的第i个RGB图像样本

依次提取RGB四个编码阶段特征图

其中H₁＝H/4，W₁＝W/4，H_j+1＝H_j/2，W_j+1＝W_j/2，H_j×W_j表示特征图分辨率，C₁＜C₂＜C₃＜C₄表示特征图的通道维度，根据神经网络中间特征图的H_j维度和W_j维度的不同将ResNet分为4个编码阶段，第j个编码阶段为在ResNet中由多个卷积层组成的模块；

(1-4)构建RGB置信度预测分类器，由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成，将RGB第四编码阶段特征图

经过RGB置信度预测分类器得到RGB显著置信度P_i ^r，0≤P_i ^r≤1；

(1-5)构建非对称编码器中的轻量级Thermal编码器，对训练数据集

的第i个Thermal图像样本

依次提取Thermal各个编码阶段特征图

其中Thermal编码器分为四个阶段，每个阶段均由7×7卷积层(7×7表示卷积核大小)、2×2最大池化层(2×2表示下采样比例)和两个结构相同的上下文卷积模块组成；将Thermal图像样本

输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层，获得浅层视觉特征图

构建上下文卷积模块，具体包含了两条并行的特征提取支路：其中一条支路由1×1卷积层、空洞率为1和分组数为C₁的3×3卷积层(3×3表示卷积核大小)与1×1卷积层(1×1表示卷积核大小)组成；另一条支路由空洞率为2和分组数为C₁的3×3卷积层与1×1卷积层组成；每个卷积层之后，经过批归一化操作和线性整流函数，将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图

和第二支路特征图

再经过通道维度上的拼接得到初级上下文特征图

将初级上下文特征图

输入到第二个上下文卷积模块，获得高级上下文特征图

再经过一次2×2最大池化层得到第一编码阶段Thermal特征图

将第一编码阶段特征图

输入到Thermal编码器的后续三个编码阶段获得后续特征图，最终输出四个编码阶段的Thermal特征图

(1-6)构建Thermal置信度预测分类器，由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成，将Thermal第四编码阶段特征图

经过Thermal置信度预测分类器得到Thermal显著置信度P_i ^t，0≤P_i ^t≤1。

步骤(2)具体是：

(2-1)构建多光谱显著性感知模块，将RGB图像

进行静态细粒度显著性计算，得到RGB显著图

将Thermal图像

进行静态细粒度显著性计算，得到Thermal显著图

静态细粒度显著性算法是一种基于中心像素点与周围像素点之间的差异计算显著值的传统图像处理方法；

(2-2)对RGB显著图

通过OSTU(大津法)进行阈值分割得到RGB二值图像

对Thermal显著图

通过OSTU(大津法)进行阈值分割得到Thermal二值图像

(2-3)计算RGB二值图像

与像素级标记Y_i的交并比

计算Thermal二值图像

与像素级标记Y_i的交并比

(2-4)通过交并比得到两种光谱图像的显著伪标记：RGB显著伪标记

Thermal显著伪标记

1e^-7的作用是为了防止除数为零。

进一步，步骤(3)具体是：

(3-1)构建门控交叉融合模块，由光谱引导模块和Sigmoid函数组成，将Thermal第四编码阶段特征图

输入到光谱引导模块得到Thermal第四编码阶段光谱特征图

光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成，目的是利用大感受野捕获重要的细节区域，进而感知该编码阶段特征图的显著性区域；

(3-2)将RGB第四编码阶段特征图

输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图

将Thermal第四编码阶段光谱特征图

经过Sigmoid函数再与RGB第四编码阶段光谱特征图

进行逐元素乘法操作，得到RGB第四编码阶段多光谱融合特征图

(3-3)将RGB第四编码阶段光谱特征图

经过Sigmoid函数，再与Thermal第四编码阶段光谱特征图

进行逐元素乘法操作，得到Thermal第四编码阶段多光谱融合特征图

将Thermal第四编码阶段特征图

与Thermal第四编码阶段多光谱融合特征图

进行逐元素相加再乘以Thermal显著置信度P_i ^t，得到Thermal第四编码阶段增强特征图

将RGB第四编码阶段特征图

与RGB第四编码阶段多光谱融合特征图

进行逐元素相加再乘以RGB显著置信度P_i ^r，得到RGB第四编码阶段增强特征图

将Thermal第四编码阶段增强特征图

和RGB第四编码阶段增强特征图

进行逐元素相加得到第四编码阶段融合特征图

(3-4)将Thermal第三编码阶段特征图

和RGB第三编码阶段特征图

输入到新构建的门控交叉融合模块，经过与(3-1)～(3-3)同类操作，获得第三编码阶段融合特征图

将Thermal第二编码阶段特征图

和RGB第二编码阶段特征图

输入到新构建的门控交叉融合模块，经过与(3-1)～(3-3)同类操作，获得第二编码阶段融合特征图

将Thermal第一编码阶段特征图

和RGB第一编码阶段特征图

输入到新构建的门控交叉融合模块，经过与(3-1)～(3-3)同类操作，获得第一编码阶段融合特征图

更进一步，步骤(4)具体是：

(4-1)构建由五个转置卷积层组成的解码器，转置卷积即卷积的逆向过程，将第一编码阶段融合特征图f_i,1输入到解码器第一个转置卷积层得到第一编码阶段修正特征图

(4-2)将第二编码阶段融合特征图f_i,2输入到解码器第二个转置卷积层，得到第二编码阶段修正特征图

将第三编码阶段融合特征图f_i,3输入到解码器第三个转置卷积层，得到第三编码阶段修正特征图

将第四编码阶段融合特征图f_i,4输入到解码器第四个转置卷积层，得到第四编码阶段修正特征图

(4-3)将各个编码阶段修正特征图进行通道维度上的拼接，得到集成修正特征图

(4-4)将集成修正特征图t_i输入到解码器的第五个转置卷积，得到预测分割标记

多光谱图像中每个像素对应的类别为这K个类别中概率最大的类别。

再进一步，步骤(5)的具体是：

(5-1)将预测分割标记

与像素级标记Y_i作为输入，利用交叉熵损失函数计算损失值

h表示像素点纵轴坐标值，w表示像素点横轴坐标值，k表示K个语义类别中的第k个类别；

(5-2)将RGB显著伪标记

和RGB显著置信度P_i ^r作为输入，利用L1损失函数计算损失值：

其中||·||₁表示L1范数；将Thermal显著伪标记

和Thermal显著置信度P_i ^t作为输入，利用L1损失函数计算损失值：

(5-3)将损失值

作为输入，得到最终的损失函数为

λ＞0为置信度损失函数权重；

(5-4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化，获得训练好的多光谱图像语义分割网络。

还进一步，步骤(6)具体是：

(6-1)获取新多光谱图像，并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度；

(6-2)将两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度按照步骤(3)和(4)进行操作，最终输出相应的分割结果

其中第一个维度表示语义类别。

本发明方法利用非对称编码器和门控交叉融合模块对多光谱图像进行语义分割，具有以下几个特点：1)不同于已有方法利用两个大型对称编码器对RGB图像和Thermal图像进行特征提取，所设计的非对称编码器对多光谱进行特征提取，通过构建轻量级Thermal编码器从低层特征表示中捕获边缘、轮廓等信息以及从高层特征表示中捕获语义信息，进而减少冗余的Thermal图像编码特征和整体模型的参数量；2)通过构建门控交叉融合模块，根据计算多光谱显著置信度对两种光谱的特征图分配不同权重，能够自适应地选择两种光谱特征图中显著性区域进行融合，有效地选取两种光谱的互补特征进行融合，获得更加精确的分割结果。

本发明方法适用于对实时性要求严格的多光谱图像语义分割，有益效果包括：1)通过构建非对称编码器对多光谱图像进行特征提取，能有效地减少冗余特征和整体网络的参数量，能够提高分割速度；2)通过构建门控交叉融合模块能够在不显著增加网络复杂度的情况下，能够自适应选择多光谱特征图中显著性区域进行有效融合，获得更加精确的分割结果。本发明具有高效的多光谱特征提取能力和有效的特征交叉融合能力，可应用于自动驾驶，无人机侦察、机器视觉等实际领域。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，一种基于非对称交叉融合的多光谱图像语义分割方法，首先获取多光谱图像在非对称编码器中各个编码阶段的特征图和显著置信度；在训练阶段中构建多光谱显著性感知模块生成显著伪标记，并对显著置信度进行训练优化；然后通过门控交叉融合机制将多光谱各个编码阶段和显著置信度进行多光谱融合得到各个编码阶段融合特征图，最后，将各个编码融合特征图输入解码器进行上采样得到语义分割结果。该方法利用非对称编码器，即构建两个由不同层数的卷积神经网络组成的编码器对两种光谱图像进行特征提取，减少提取Thermal图像时产生的冗余特征，降低整体网络的计算量，提高分割速度；同时利用门控交叉融合机制根据两种光谱图像的显著性，实现自适应融合互补的多光谱特征，提高在不同光照强度场景下的稳定性和健壮性。

具体是获取多光谱图像数据集合后，进行如下操作：

步骤(1)对多光谱数据集进行预处理，将多光谱图像输入至非对称编码器，获得RGB图像的特征图和显著置信度，以及Thermal图像的特征图和显著置信度。具体是：

(1-1)对多光谱数据集进行预处理操作，得到训练数据集

表示多光谱由配对的RGB图像与Thermal图像拼接而成，

表示第i个三通道的RGB图像样本，

(1-2)进行像素级标记，记为标记集合

的第i个RGB图像样本

依次提取RGB四个编码阶段特征图

的第i个Thermal图像样本

依次提取Thermal各个编码阶段特征图

和第二支路特征图

再经过通道维度上的拼接得到初级上下文特征图

将初级上下文特征图

输入到第二个上下文卷积模块，获得高级上下文特征图

再经过一次2×2最大池化层得到第一编码阶段Thermal特征图

将第一编码阶段特征图

步骤(2)构建多光谱显著性感知模块，输入为RGB图像和Thermal图像，输出为RGB显著伪标记和Thermal显著伪标记。具体是：

(2-1)构建多光谱显著性感知模块，将RGB图像

进行静态细粒度显著性计算，得到RGB显著图

将Thermal图像

进行静态细粒度显著性计算，得到Thermal显著图

(2-2)对RGB显著图

通过OSTU(大津法)进行阈值分割得到RGB二值图像

对Thermal显著图

通过OSTU(大津法)进行阈值分割得到Thermal二值图像

(2-3)计算RGB二值图像

与像素级标记Y_i的交并比

计算Thermal二值图像

与像素级标记Y_i的交并比

Thermal显著伪标记

1e^-7的作用是为了防止除数为零。

步骤(3)构建门控交叉融合模块，输入为RGB图像和Thermal图像的特征图及其显著置信度，输出为融合特征图。具体是：

输入到光谱引导模块得到Thermal第四编码阶段光谱特征图

(3-2)将RGB第四编码阶段特征图

将Thermal第四编码阶段光谱特征图

经过Sigmoid函数再与RGB第四编码阶段光谱特征图

(3-3)将RGB第四编码阶段光谱特征图

经过Sigmoid函数，再与Thermal第四编码阶段光谱特征图

将Thermal第四编码阶段特征图

与Thermal第四编码阶段多光谱融合特征图

将RGB第四编码阶段特征图

与RGB第四编码阶段多光谱融合特征图

将Thermal第四编码阶段增强特征图

和RGB第四编码阶段增强特征图

进行逐元素相加得到第四编码阶段融合特征图

(3-4)将Thermal第三编码阶段特征图

和RGB第三编码阶段特征图

将Thermal第二编码阶段特征图

和RGB第二编码阶段特征图

将Thermal第一编码阶段特征图

和RGB第一编码阶段特征图

步骤(4)将融合特征图输入由转置卷积组成的解码器，获得预测分割标记。具体是：

步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络，使用交叉熵损失函数和L1损失函数进行优化，获得已训练的多光谱图像语义分割网络。具体是：

(5-1)将预测分割标记

与像素级标记Y_i作为输入，利用交叉熵损失函数计算损失值

(5-2)将RGB显著伪标记

其中||·||₁表示L1范数；将Thermal显著伪标记

(5-3)将损失值

作为输入，得到最终的损失函数为

λ＞0为置信度损失函数权重；

步骤(6)将新多光谱图像输入至已训练的分割网络，输出对应的语义分割结果。具体是：

其中第一个维度表示语义类别。

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于非对称交叉融合的多光谱图像语义分割方法，其特征在于，该方法首先获取多光谱图像数据集合，然后进行如下操作：

步骤(1)对多光谱数据集进行预处理，将多光谱图像输入至非对称编码器，获得RGB图像的特征图和显著置信度，以及Thermal图像的特征图和显著置信度；具体是：

(1-1)对多光谱数据集进行预处理操作，得到训练数据集

表示多光谱由配对的RGB图像与Thermal图像拼接而成，

表示第i个三通道的RGB图像样本，

(1-2)进行像素级标记，记为标记集合

的第i个RGB图像样本I_ir依次提取RGB四个编码阶段特征图

的第i个Thermal图像样本

依次提取Thermal各个编码阶段特征图

其中Thermal编码器分为四个阶段，每个阶段均由7×7卷积层、2×2最大池化层和两个结构相同的上下文卷积模块组成；将Thermal图像样本

构建上下文卷积模块，具体包含了两条并行的特征提取支路：其中一条支路由1×1卷积层、空洞率为1和分组数为C₁的3×3卷积层与1×1卷积层组成；另一条支路由空洞率为2和分组数为C₁的3×3卷积层与1×1卷积层组成；每个卷积层之后，经过批归一化操作和线性整流函数，将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图