CN116912485A

CN116912485A - 一种基于热感图像和可见光图像特征融合的场景语义分割方法

Info

Publication number: CN116912485A
Application number: CN202310549430.8A
Authority: CN
Inventors: 朱江; 陈寒梅; 张�杰; 许海霞; 李赛斯; 田淑娟; 李艳春
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-10-20

Abstract

本发明公开了一种基于热感图像和可见光图像特征融合的场景语义分割方法，本发明方法将同一场景的可见光和热感图像成对输入到训练好的语义分割模型中得到图像中物体的分割结果，该分割模型包括：双分支主干特征提取网络Segfomer，用于对输入的数据进行全局特征的提取；辅助特征选择模块，用于对主干特征提取网络提取的层级特征进行两个模态之间相互补充特征信息；跨模态特征融合模块，进行模态间的特征进一步融合，得到一个丰富的语义信息特征；逐级特征融合解码器模块，实现解码器的精细化上采样；多损失监督模块，用于监督模型的学习。本发明能够有效地利用可见光图像和热感图像的特点，挖掘它们之间的互补特征，在保持模型较小参数量的同时，有效提高场景语义分割模型的分割精度和泛化能力。

Description

一种基于热感图像和可见光图像特征融合的场景语义分割方法

技术领域

本发明涉及基于深度学习语义分割技术领域，尤其涉及一种基于热感图像和可见光图像特征融合的场景语义分割方法。

背景技术

随着计算机视觉、机器人等技术的发展，以机器人、无人车为代表的无人系统在各个领域得到了广泛应用。为了实现无人系统的自主导航，环境感知是非常重要的环节，对于机器人与外界环境的理解、交互起重要的作用。环境感知主要有目标检测和语义分割两种方法，语义分割相比目标检测实现像素级的分割，能给出更多的语义信息，更有利帮助无人系统识别和理解周围环境的目标。在现有的语义分割方法中，针对现有的RGB图像数据集，其分割的结果往往是无法达到很好的效果，其鲁棒性差，在目标之间相互遮挡、光照条件差、天气气候不佳等环境下，分割性能往往不佳。

为了提高现有场景语义分割方法的鲁棒性，不少研究者将热感图像引入语义分割中，利用红外热成像相机与可见光相机成像机制不同，通过物体辐射的热量获取红外信息，可以增强对光线与天气变化的鲁棒性，热红外信息对于光照条件差产生的识别模糊非常有效，因此研究人员将关注转移到了多模态语义分割领域，利用具有丰富的纹理、颜色信息的可见光和稳定的热感图像特征，来提升语义分割的鲁棒性和精确度。

由于可见光图像和热感图像的特征融合会产生不可预测的噪声影响，简单的利用两个模态的特征会导致其分割精度不如单模态。2017年，Ha等人提出了MFNet网络和第一个RGB-T的城市街景的语义分割数据集，此网络采用了两个编码器分别提取RGB和热感图的特征和一个解码器结构，在编码器中部分上采样操作前融合两个模态的信息。2019年，Sun等人设计了RTFNet，采用的主干网络是resnet，在编码器中通过相加来连接两个模态的相应阶段的特征图，解码器设计了两个模块来逐步完成特征的提取和分辨率的恢复。2020年，Shivakumar等人设计了一个双路的神经网络结构，能够有效的融合RGB信息和RGB-T信息，同时提出了一种RGB-T数据集矫正的方法，通过Depth信息来校正RGB和RGB-T信息对齐，通过RGB-T到RGB图像的映射关系进行校正。2021年，Zhou等人提出了多级特征多标签学习网络，将编码器中提取的特征设计了相应的模块进行特征图处理，同时引入了三个标签对其网络进行监督。接着Liu等人提出了CMX模型，通过结合其他模态的特征，在空间和维度上来校准当前模态的特征。

在目前存在的研究方法中，分割精度仍然达不到满意的效果，无法兼顾精度和模型的参数量。如何有效地利用可见光图像和热感图像的特点，挖掘它们之间的互补特征，并降低由于成像机制不同而引入的噪声，以提高模型的泛化能力，这是一个重要的挑战。

发明内容

本发明针对上述已有方法存在的不足，发明了一种基于热感图像和可见光图像特征融合的场景语义分割方法，旨在对两个模态中进行选择性特征互补，进而充分的利用两个模态的特征优势实现模态间特征交互，结合一种跨模态特征融合方式和逐级特征融合解码器方法，同时使用多损失监督来定位、分割、细化目标边缘来提升复杂场景下语义分割精度。

根据上述思路，实现本发明采取的技术方案为：

一种基于热感图像和可见光图像特征融合的场景语义分割方法，分割模型包括：

主干特征提取网络，用于对输入的可见光图像和热感图像提取不同层次的特征；

辅助特征选择模块，用于对主干特征提取网络提取的多层级特征在两个模态之间进行相互补充特征信息，随后输入到主干网络进行进一步特征提取；

跨模态特征融合模块，对经过互补特征选择模块的特征进行特征的融合，得到一个富含两个模态的语义信息特征；

逐级特征融合解码器模块，用于融合跨模态特征密集融合模块中的特征图和上采样的特征图，实现解码器的精细化上采样；

多损失监督模块，得到前景分割预测、语义分割预测、轮廓分割预测用于来定位、分割、细化目标边缘。

可选地，所述主干特征提取网络为Segformer网络，所述Segformer网络的编码器是一种无位置编码的分层Transfomer编码器，可以适应任意的测试分辨率，不影响分割的性能，同时分层Transfomer解码器能够生成高分辨率的精细特征和低分辨率的粗特征，生成多尺度特征；

可选地，所述辅助特征选择模块包括拼接模块、通道注意力模块、空间注意力模块和辅助特征融合模块；所述拼接模块用于将输入特征P_main和另一个输入特征P_assist在通道维度上进行拼接处理，得到特征P1；特征P1并行输入到通道注意力模块和空间注意力模块分别得到两个特征输出P_C和P_S；将特征P_main、P_C和P_S输入到辅助特征融合模块得到最后的输出特征F_out，F_out会输入到主干网络和跨模态特征融合模块。

可选地，所述跨模态特征融合模块包括1×1卷积模块、分组卷积模块、密集级联语义信息模块以及残差连接。所述1×1卷积模块用于对由第1个输入特征和第2个输入特征/>拼接后的特征/>进行特征通道信息的学习，得到特征/> 经过分组卷积模块、密集级联语义信息模块得到特征/>和/>通过残差连接将特征和/>采取特征元素相加的方式进行融合得到的输出特征为/>

可选地，所述分组卷积模块输入一个尺度大小为2C×H×W的特征特征会经过1×1卷积模块对通道变换学习、经过3×3的分组卷积、通过激活函数Relu进行非线性学习，然后再经过1×1卷积，此时特征大小为C×H×W的特征，最后对其进行正则化处理得到特征/>

可选地，密集级联语义信息模块是一个密集特征连接结构，卷积核使用的是3×3，填充和扩张率分别为3，5，7，该模块构成特征内密集连接，输入特征为输出特征为

可选地，所述逐级特征融合解码器模块包含1×1卷积操作，进行一个通道的语义信息卷积，这个卷积是为后面融合相应融合跨模态特征融合模块中的特征图设置的，此时得到特征F_CBR1×1，特征F_CBR1×1经过3×3卷积、转置卷积得到第一个精细化上采样特征特征F_CBR1×1经过转置卷积得到第二个精细化上采样特征/>特征/>和特征/>采取特征元素相加的方式进行融合得到输出特征/>

可选地，多损失监督模块这模块得到前景分割预测、语义分割预测、轮廓分割预测，同时使用三个交叉熵损失函数对三个分割预测计算相应的损失，将三个损失相加得到整个网络损失输出；

本发明具有如下优点：

1.本发明对复杂的场景下目标的分割精度显著提升，同时模型的参数量较小，便于在嵌入式设备上的部署。

2.本发明能够有效的融合两个模态特征，探究了两个模态之间特征的有效性和互补性，模型具有较强的泛化能力。

附图说明

图1为本发明一种基于热感图像和可见光图像特征融合的场景语义分割方法的网络结构示意图。

图2为本发明提出的辅助特征选择模块示意图。

图3为本发明提出的跨模态特征融合模块示意图。

图4为本发明提出的密集级联语义信息模块示意图。

图5为本发明提出的逐级特征融合解码器模块示意图。

图6为本发明提出的多损失监督模块示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。下面将结合附图和具体实施例，对本发明进行详细说明。

典型的可见光图像为RGB图像，典型的热感图像可由红外热像仪获取，记为T图像，训练网络中基于深度学习模型的Pytorch框架实现，输入的同一场景的RGB图像和T图像的大小相同，记为(B,C,H,W)，其中B为图像批处理大小，C是通道数，H是图像的高，W是图像的宽。本实施例提供一种基于热感图像和可见光图像特征融合的场景语义分割方法，如图1所示，该语义分割模型包括：

辅助特征选择模块，用于对主干特征提取网络提取的层级特征进行两个模态之间相互补充特征信息；

逐级特征融合解码器模块，用于逐级融合跨模态特征融合模块中的输出特征和上级解码器的输出特征，实现解码器的精细化上采样；

主干特征提取网络用于实现多个层次的特征提取，其可以根据需要采用现有的主干特征提取网络。作为一种可选的实施方式，如图1所示，在本实施例中是双分支主干特征网络，主干特征提取网络A和主干特征提取网络B都采用Segformer网络分别用于对输入的可见光图像和热感图像提取不同层级的特征，Segformer网络的编码器是一种无位置编码的分层Transfomer编码器，可以适应任意的测试分辨率，不影响分割的性能，同时分层Transfomer编码器能够生成高分辨率的精细特征和低分辨率的粗特征，生成多尺度的特征。主干特征提取网络A和主干特征提取网络B均包含了四层特征提取编码器，分别记为LayerAi(i＝1,2,3,4)、LayerBi(i＝1,2,3,4)，对应所提取的特征有四个层级，记为和/>

所述辅助特征选择模块AFSM(Auxiliary Feature Selection Module)用于对主干特征提取网络提取的层级特征进行两个模态之间特征信息相互补充，主干网络A所在的支路中有4个辅助特征选择模块，记为主干网络B所在的支路中有4个辅助特征选择模块，记为/>所有的辅助特征选择模块的结构相同，如图2所示，输入为P_main和P_assist。在双分支主干网络中，在RGB图像支路上，由主干网络A提取的特征/> 为辅助特征选择模块/>中的特征P_main输入，主干网络B提取的特征/>为辅助特征选择模块/>中的特征P_assist输入；在T图像支路上，经过主干网络B提取的特征/>为辅助特征选择模块中的特征P_main输入，主干网络A提取的特征/>为辅助特征选择模块/> 中的特征P_assist输入。以RGB图像支路的第一个辅助特征选择模块/>为例说明该辅助特征选择模块的内部对数据处理的过程，特征/>为/>的输入特征P_main，特征/>为/>的另一个输入特征P_assist,将两个输入特征P_main和P_assist在通道维度上拼接起来得到特征P₁，特征P₁经过自适应最大池化、自适应平均池化得到两个维度大小为(B,2C,1,1)的通道特征图，将这两个通道特征图在通道上拼接起来，然后通过一个多层感知机(MLP)得到一个维度为(B,C,1,1)的通道权重C_weight1；特征P₁通过一个多层感知机(MLP)得到一个维度为(B,1,H,W)的空间权重S_weight1，最后RGB分支上的输出特征为同样在T图像支路上，以第一个辅助特征选择模块/>为例说明该辅助特征选择模块的内部对数据处理的过程，特征/>为/>的输入特征P_main，特征/>为/>的另一个输入特征P_assist,将两个输入特征P_main和P_assist在通道维度上拼接起来得到特征P₁，特征P₁经过自适应最大池化、自适应平均池化得到两个维度大小为(B,2C,1,1)的通道特征图，将这两个通道特征图在通道上拼接起来，然后通过一个多层感知机(MLP)得到一个维度为(B,C,1,1)的通道权重C_weight2；特征P₁通过一个多层感知机(MLP)得到一个维度为(B,1,H,W)的空间权重S_weight2，最后T图像分支上的输出特征为经过特征辅助模块得到的输出，继续输入后面的主干网络和跨模态特征融合模块。

所述跨模态特征融合模块CMFFM(Cross-module Feature Fusion Module)用于对两个主干网络中的互补特征选择模块的输出特征进行特征融合，得到两个模态之间的融合特征输入到模型的逐级特征融合解码器中。一共有四个跨模态特征融合模块，记为CMFFM_i(i＝1,2,3,4)，所有的跨模态特征融合模块的内部结构相同，如图3所示，其输入为和/>。经过主干网络A上的辅助特征选择模块/>的输出特征作为跨模态特征融合模块中输入特征/>经过主干网络B上的辅助特征选择模块/> 的输出特征/>为跨模态特征融合模块中特征输入。四个跨模态特征融合模块的输出分别为/>以第一个跨模态特征融合模块CMFFM₁为例说明该跨模态特征融合模块的内部对数据处理的过程，首先利用1×1卷积模块将特征/>特征/>在通道上拼接后的特征/>进行特征通道信息的学习得到第一个大小为(B,C,H,W)的特征/> 经过1×1卷积模块的进行通道维数变化，接着输入到3×3分组卷积模块、激活函数、1×1卷积、正则化层得到输出大小为(B,C,H,W)的特征/>特征/>经过密集级联语义信息模块得到特征为/>跨模态特征融合模块使用残差连接采用特征元素相加融合得到最终的输出为

所述逐级特征融合解码器模块SFFDM(Stepwise Feature Fusion DecoerModule)用于逐级融合跨模态特征融合模块中的输出特征和上一级解码器的输出特征，实现解码器的精细化上采样，如图5所示，图(a)表示第四个解码器，图(b)表示前三个解码器示意图，一共有四层解码器，记为SFFDM_i(i＝1,2,3,4),第四个解码器不同于前面三个，区别在解码器的输入，其SFFDM₄的输入为输出为/>SFFDM_i(i＝1,2,3)的输入为和/>特征相加融合，输出为/>下面以第四个逐级特征融合解码器模块SFFDM₄和第三个逐级特征融合解码器模块SFFDM₃为例说明该逐级特征融合解码器模块的内部对数据处理的过程，第四个解码器中输入特征/>直接输入1×1卷积模块，得到特征F_CBR1×1，接着特征F_CBR1×1分别输入两路，首先一路分支输入3×3卷积模块进行特征学习，接着输入转置卷积此时得到特征图大小上采样的特征/>另外一路分支特征特征F_CBR1×1经过转置卷积对特征图进行上采样得到特征/>最后模块的输出为第三个解码器的输入为/>和第四个的解码器的输出特征/>特征相加融合，再输入1×1卷积模块，得到特征F_CBR1×1，接着特征F_CBR1×1分别输入两路，首先一路分支输入3×3卷积模块进行特征学习，接着输入转置卷积，此时得到特征图大小上采样的特征/>另外一路分支特征特征F_CBR1×1经过转置卷积对特征图进行上采样得到特征/>最后模块的输出为/>逐级特征融合解码器模块得到的输出特征/>将输入到多损失监督模块。

所述多损失监督模块(Multi-Loss Monitoring Module)用于得到前景分割预测、语义分割预测、轮廓分割预测来实现定位、分割、细化目标边缘，如图6所示，在逐级特征融合解码器模块得到的输出特征特征/>输入到1×1卷积模块、正则化函数、激活函数，然后输入到一个输出通道数为2的1×1卷积模块得到特征F'，特征F'进行插值上采样得到原始图像大小一样的前景分割预测结果F_bin；特征F'进行卷积操作可得到一个单通道的特征图，接着通过Sigmoid激活函数得到特征F'的权重系。特征/>与特征F'的权重系数进行相乘操作接着输入到1×1卷积模块、正则化函数、激活函数得到特征F”，然后输入到一个通道数为9的1×1卷积模块、进行插值上采样得到原始图像大小一样的语义分割预测结果F_sem；将特征/>与特征特征F”在通道上进行特征拼接操作得到维度为(B,2C,H,W)的特征图，输入到1×1卷积模块、正则化函数、激活函数得到大小为(B,2C,H,W)的特征图，最后输入到一个通道数为2的1×1卷积模块、进行插值上采样得到原始图像大小一样的轮廓分割预测结果F_boud。使用交叉熵损失函数l_bin、l_sem、l_boud对其三个预测结果F_bin、F_sem、F_boud进行训练监督,其中l_bin、l_boud是二分类交叉熵损失函数；l_sem是多分类交叉熵损失函数，模型训练总损失为S，S＝l_bin+l_sem+l_boud。该模型结构中，前景分割预测F_bin用于确定图片中的目标所在位置，语义分割预测F_sem分割图片中每个目标，轮廓分割预测F_boud细化边缘特征，从而实现定位图片目标、分割图片中各类的目标、细化边缘特征。

实施本发明，采用公开的多模态语义分割数据集MFNet和PST900作为验证数据，以此为例说明具体实施过程。

对比实验结果分析：将测试集输入到训练好的网络模型中，使用的是mAcc、mIou来衡量测试模型的检测精度，mAcc表示所有类别的平均准确率、mIou表示平均交并比。表1给出了本发明在rtfnet数据集上与其他先进算法的比较结果，rtfnet数据集有9个类：汽车、人、自行车、曲线、车站、护栏、警戒线、凸起和未标标签，对比结果，本发明方法带来性能提升显著在mAcc、mIou达到75.4％和59.1％的检测精度。表2中给出了在白天和黑夜的分割结果，同样其指标的精度优于其他主流的语义分割模型。值的注意的是，本发明方法没有增加主干网络的深度以及宽度。

表1：本发明在rtfnet数据集上与其他算法对比实验结果

表2：本发明在rtfnet数据集上白天和黑夜对比实验结果

泛化性实验结果对比：表3给出了在PST900数据集上，本方法与其他先进算法的比较结果，该数据集有5个类：灭火器，背包，手钻，幸存者和未标标签。可以看到本发明提出的语义分割网络模型在其他多模态数据集上同样具有较好的性能，验证了所提模型的泛化性；

表3：本发明方法在PST900与其他算法对比实验结果

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围。

Claims

1.一种基于热感图像和可见光图像特征融合的场景语义分割方法，其特征在于，热感图像和可见光图像输入到训练好的语义分割模型，得到图像中每一类目标的分割结果，所述基于热感图像和可见光图像特征融合的场景语义分割方法包括：

主干特征提取网络A，采用Segformer网络用于对输入的可见光图像提取不同层级的特征，其中，Segformer网络是层次化的Transformer编码器，包含了四层特征提取编码器，记为LayerAi(i＝1,2,3,4)，对应所提取的特征有四个层级，记为

主干特征提取网络B，采用Segformer网络用于对输入的热感图像提取不同层级的特征，记为LayerBi(i＝1,2,3,4)，对应所提取的特征有四个层级，记为

辅助特征选择模块，放置于主干特征提取网络A的每一层特征提取编码器之后，记为放置于主干特征提取网络B的每一层特征提取编码器之后，记为的输入为/>和/>输出为/>的输入为/>和/>输出为/>

跨模态特征融合模块，一共有四个，记为CMFFM_i(i＝1,2,3,4)，其输入为和/>输出为/>

逐级特征融合解码器模块，一共有四层解码器，记为SFFDM_i(i＝1,2,3,4)；SFFDM₄的输入为输出为/>SFFDM_i(i＝1,2,3)的输入是/>和输出为/>

多损失监督模块，监督前景分割预测、语义分割预测、轮廓分割预测用于实现定位、分割、细化边缘目标。

2.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法，其特征在于，所述辅助特征选择模块包括拼接模块、通道注意力模块、空间注意力模块和辅助特征融合模块；所述拼接模块用于将输入特征P_main和另一个输入特征P_assist在通道维度上进行拼接处理，得到特征P1；特征P1并行输入到通道注意力模块和空间注意力模块分别得到两个特征输出P_C和Ps；将特征P_main、P_C和Ps输入到辅助特征融合模块得到最后的输出特征F_out。

3.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法，其特征在于，所述跨模态特征融合模块包括1×1卷积模块、分组卷积模块、密集级联语义信息模块和残差连接；所述1×1卷积模块用于对由第1个输入特征和第2个输入特征拼接后的特征/>进行特征通道信息的学习，得到特征/> 经过分组卷积模块、密集级联语义信息模块得到特征/>和/>通过残差连接将特征/> 和/>采取特征元素相加的方式进行融合得到输出特征为

4.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法，其特征在于，所述逐级特征融合解码器模块包含1×1卷积模块、3×3卷积模块和转置卷积模块；所述1×1卷积模块对输入特征进行一个通道的语义信息卷积，得到特征F_CBR1×1；特征F_CBR1×1经过3×3卷积、转置卷积得到第一个精细化上采样特征特征F_CBR1×1经过转置卷积得到第二个精细化上采样特征/>特征/>和特征/>采取特征元素相加的方式进行融合得到输出特征/>

5.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法，其特征在于，所述多损失监督模块是评估前景分割预测、语义分割预测、轮廓分割预测与它们对应的三个真实标签之间的误差，帮助网络模型进行学习，使用交叉熵损失函数l_bin、l_sem、l_boud对其三个分割预测输出F_bin、F_sem、F_boud进行训练监督：

其中，l_bin、l_boud均采用二分类交叉熵损失函数，定义为：

式中，N为样本数量，y_i表示样本i的标签，正类为1，负类为0，p_i表示样本为i预测为正类的概率；

l_sem是多分类交叉熵损失函数，定义为：

式中，M为类别的数量，y_ic符号函数(0或1)，如果样本i的真实类别等于c取1，否则取0，P_ic观测样本i属于类别c的预测概率；

模型训练总损失为S：

S＝l_bin+l_sem+l_boud。