CN117132759A

CN117132759A - 基于多波段视觉图像感知与融合的显著性目标检测方法

Info

Publication number: CN117132759A
Application number: CN202310969057.1A
Authority: CN
Inventors: 董洪文; 魏飞鸣; 孙高; 盛佳恋
Original assignee: Shanghai Radio Equipment Research Institute
Current assignee: Shanghai Radio Equipment Research Institute
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-28

Abstract

本发明提供一种基于多波段视觉图像感知与融合的显著性目标检测方法，其包含：步骤1：构建多波段视觉图像训练样本集，对扩充后的训练样本集进行标注；步骤2：构建孪生骨干网络模型，提取多层级特征信息；步骤3：构建多尺度特征提取网络模块，对各层级特征信息提取多尺度特征信息；步骤4：构建注意力机制模块，输出可见光注意力特征图和热红外注意力特征图；步骤5：构建特征融合模块，以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入，通过加法、乘法和顺序拼接操作将其融合，形成预测输出的目标特征图，完成显著性目标的检测。本发明充分利用多波段视觉图像信息，可以实现多波段视觉图像中的目标识别，还可提高识别的精度。

Description

基于多波段视觉图像感知与融合的显著性目标检测方法

技术领域

本发明属于图像处理、模式识别领域，具体涉及一种基于多波段视觉图像感知与融合的显著性目标检测方法。

背景技术

视觉感知与图像处理技术，作为人工智能理论与应用的关键组成部分，已广泛的应用于航空航天、智慧机器人、智能驾驶等领域，在航天器空间对接、月球车视觉导航、无人驾驶汽车等重要应用中发挥了关键作用。

视觉感知应用技术很多都是建立在背景环境简单、光线条件良好的前提之下，这时视觉感知器获取到的图像大多背景简单、像素较高、光照干扰信息较少，这就为后续的图像处理减少了大量麻烦。然而在现实生活中，以上各种应用领域的工作场景大都比较复杂，都会面临复杂光照环境影响这一共性问题，产生该问题的主要原因包括：白天与夜间光照的变化、夜间灯光等光源强弱的变化、环境场景转换过程中光强的差异变化、光照阴影的干扰等几个方面。复杂光照环境影响下的视觉感知问题对可见光视觉识别提出了严峻的挑战，并严重影响了检测的精度和识别的准确性。

针对单模态图像数据所获得的信息无法完全表示事物信息，导致最终识别性能指标难以满足实际应用的需求这一难题，多模态信息融合应运而生。多模态信息融合采用一定的方式将不同光谱波段传感器获取的图像中呈现的不同特征信息进行有效融合，可以最大程度的利用不同模态图像数据的互补信息，去除冗余信息，从而获得对事物更多元更全面表征，提升识别性能。

发明内容

本发明的目的是从多波段视觉感知融合的角度出发，利用多波段图像信息的互补性及其耦合识别机理，提出了一种基于多波段视觉图像感知与融合的显著性目标检测方法，以解决单一波段图像不能同时有效解决多方面原因产生的复杂光照变化影响问题，进而提高目标检测的准确性。

为实现上述目的，本发明提供一种基于多波段视觉图像感知与融合的显著性目标检测方法，其包含：步骤1：构建多波段视觉图像训练样本集，采用数据增强技术对训练样本集进行扩充，对扩充后的训练样本集进行标注；步骤2：构建孪生骨干网络模型，分别以扩充后的训练样本集中的可见光图像和热红外图像作为输入对象，提取多层级特征信息；步骤3：构建多尺度特征提取网络模块，以步骤2输出的多层级特征信息作为输入，分别对各层级特征信息提取多尺度特征信息；步骤4：构建注意力机制模块，注意力机制模块包括通道注意力和空间注意力；以步骤3获取的各层级多尺度特征信息作为输入，计算可见光和热红外分别对应的空间注意力特征和通道注意力特征；将可见光的空间注意力特征和热红外的空间注意力特征相乘获得第一乘积特征图，并将该第一乘积特征图分别与可见光的通道注意力特征和热红外的通道注意力特征相乘，输出可见光注意力特征图和热红外注意力特征图；步骤5：构建特征融合模块，以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入，通过加法、乘法和顺序拼接操作将其融合，形成最终作为预测输出的目标特征图，完成显著性目标的检测。

优选地，所述步骤1具体包括：步骤1.1：通过多源相机采集成对的可见光图像和热红外图像，形成所述训练样本集；步骤1.2：采用数据增强技术对采集到的训练样本集进行扩充，并对扩充后的训练样本集进行像素级标注。

优选地，步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型；所述第一骨干网络模型接收可见光图像X_r∈R^W×H×3作为输入，提取可见光多层级特征信息第二骨干网络模型接收热红外图像X_t∈R^W×H×3作为输入，提取热红外多层级特征信息/>其中，W和H分别表示输入图像的宽和高，N表示骨干网络模型输出的特征层级。

优选地，每个所述骨干网络模型包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络模块，用于提取多层级特征信息；所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块，并输入线性嵌入层；所述线性嵌入层将每一个图像块做线性变换，并输出线性特征图；将所述线性数据作为输入，开始每层级的特征信息提取；每层级进行特征信息提取前，通过所述图像块合并层对输入线性特征图进行将采样，缩小线性特征图分辨率，调整通道维度，形成层次化特征图；将调整后的层次化特征图输入到深度自注意力变换网络模块进行特征表征，获得每一层级的特征信息。

优选地，步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d＝1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。

优选地，将可见光多层级特征信息和热红外多层级特征信息/>输入所述多尺度特征提取网络模块，在每一层级输出的多尺度特征图上获取可见光多尺度特征信息/>和热红外多尺度特征信息/>其中，CAT表示顺序拼接。

优选地，所述步骤4包括：

步骤4.1：通过全局平均池化将可见光多尺度特征信息和热红外多尺度特征信息/>展开，以此生成通道特征向量/>和/>采用两个全连接层(f_c1，f_c2)对通道特征向量/>和/>进行编码；通过高斯激活函数将通道特征向量/>和/>的每一个值映射到区间[0,1]，生成通道权重；将生成的通道权重分别与对应的输入可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权，得到可见光通道注意力特征/>和热红外通道注意力特征/>其表达式为：

其中，sigmoid表示高斯激活函数，f_c表示全连接层，W表示权重，b表示偏置，表示特征图对应元素相乘；

步骤4.2：采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息/>进行加权，以此细化特征信息，生成细化特征图；通过1×1卷积核与所述细化特征图进行加权，获取细化特征图内每个单元的空间位置信息，并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1]，产生空间位置权重；将空间位置权重与输入的可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权，得到可见光空间注意力特征和热红外空间注意力特征/>其表达式为：

其中，sigmoid表示高斯激活函数，ReLU表示非线性激活函数，W表示权重，表示特征图对应元素相乘；

步骤4.3：将得到的和/>相乘获得所述第一乘积特征图，实现空间对齐；将所述第一乘积特征图分别与/>和/>相乘，输出可见光注意力特征图/>和热红外注意力特征图/>实现通道校准；其/>和/>的表达式分别为：

其中，表示特征图对应元素相乘。

优选地，所述步骤5包括：步骤5.1：单层级多模态特征信息融合，其包括：

步骤5.1.1：通过逐像素相加的方式将和/>二者融合，形成第一融合特征图；

步骤5.1.2：将第一融合特征图分别与和/>逐像素相乘，形成第二乘积特征图和第三乘积特征图；

步骤5.1.3：采用顺序拼接的方式将相乘得到的第二乘积特征图和第三乘积特征图进行再次融合，得到最终的各层级输出的单层特征图M_i；其中，单层特征图M_i表示为：

其中，表示逐像素相加，/>表示逐像素相乘，Concat表示顺序拼接；

步骤5.2：逐层级特征信息融合，对于步骤5.1得到的各层级的单层特征图M_i，从高维单层特征图逐步向低维单层特征图融合；其包括：

步骤5.2.1：将高维单层特征图二倍上采样；

步骤5.2.2：采用1×1卷积核改变高维单层特征图的通道数，使得二倍上采样后得到的高维特征图与相邻低维特征图的维度相同；

步骤5.2.3：将相邻层特征图进行逐像素相加融合，形成目标特征图；具体为：

其中，表示逐像素相加，conv表示带参数的1×1卷积核，UP表示二倍上采样。

本方法还包括步骤6：构建混合函数作为整体网络模型优化的损失函数，所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块；通过随机梯度下降算法优化网络模型；所述混合函数的表达式为：

L_loss＝αL_bce+βL_iou+γL_ssim

其中L_bce，L_iou，L_ssim，分别表示交叉熵损失函数，交并比损失函数和结构相似性指标损失函数；α，β，γ表示平衡参数。

优选地，所述采用随机梯度下降算法优化整体网络模型包括：每次输入网络的批量大小为16，动量系数为0.9，权重衰减系数为0.0005；网络初始学习速率为5e-5，每训练10个批次，学习速率降低1/10，总共训练300个批次。

综上所述，与现有技术相比，本发明提供的一种基于多波段视觉图像感知与融合的显著性目标检测方法具有以下有益效果：

(1)采用Swin Transformer作为骨干神经网络，可以提取更加鲁棒和丰富的层级特征。

(2)多尺度特征提取模块采用多条并行的类残差的空洞卷积形式，在保留原始信息以及不增加参数的同时，提升了网络模型对目标多尺度变化的感知能力；

(3)注意力机制充分融合了不同模态下的目标信息，使得模型聚焦于目标本身，提高了网络模型对目标的综合感知能力，提升了识别准确率；

(4)混合损失函数使得模型对目标样本特征表现更加紧凑，同时增强目标与背景的可分离性，加速网络模型的优化，提升了识别准确率。

附图说明

图1为本发明所述方法的整体流程示意图；

图2为本发明中用于多波段视觉图像特征提取的孪生骨干神经网络结构图；

图3为本发明中多尺度特征提取模块的示意图；

图4为本发明中注意力机制模块的示意图；

图5为本发明中特征融合模块的示意图。

具体实施方式

以下将结合本发明实施例中的附图1～附图5，对本发明实施例中的技术方案、构造特征、所达成目的及功效予以详细说明。

需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括明确列出的要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本发明提供了一种基于多波段视觉图像感知与融合的显著性目标检测方法，如图1所示，该显著性目标检测方法包括：

步骤1：构建多波段视觉图像训练样本集，采用数据增强技术对训练样本集进行扩充，对扩充后的训练样本集进行标注；

步骤2：构建孪生骨干网络模型，分别以扩充后的训练样本集中的可见光图像和热红外图像作为输入对象，提取多层级特征信息；

步骤3：构建多尺度特征提取网络模块，以步骤2输出的多层级特征信息作为输入，分别对各层级特征信息提取多尺度特征信息；

步骤4：构建注意力机制模块，注意力机制模块包括通道注意力和空间注意力；以步骤3获取的各层级多尺度特征信息作为输入，计算可见光和热红外分别对应的空间注意力特征和通道注意力特征；将可见光的空间注意力特征和热红外的空间注意力特征相乘获得第一乘积特征图，并将该第一乘积特征图分别与可见光的通道注意力特征和热红外的通道注意力特征相乘，输出可见光注意力特征图和热红外注意力特征图；

步骤5：构建特征融合模块，以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入，通过加法、乘法和顺序拼接操作将其融合，形成最终作为预测输出的目标特征图，完成显著性目标的检测。

其中，所述步骤1具体包括：步骤1.1：通过多源相机采集成对的可见光图像和热红外图像，形成所述训练样本集；所述训练样本集包含不同光照强度以及多样化背景；步骤1.2：采用数据增强技术对采集到的训练样本集进行扩充，并采用Labelme开源软件对扩充后的训练样本集进行像素级标注。

进一步，如图2所示，步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型，分别用于对可见光图像和热红外图像的特征表征，且二者之间参数共享；每个所述骨干网络模型主要基于自注意力(Self-Attention)机制进行构建，其结构主要包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络(Swin Transformer，SwinT)模块，用于提取多层级特征信息。所述骨干网络模型包括四个阶段：第一阶段由图像分块层、线性嵌入层以及深度自注意力变换网络模块组成，具体地，将输入图像切分成一个个图像块，该操作类似于降采样，目的是降低输入图像的分辨率，减少计算量。然后将一个个图像块输入到线性嵌入层，对每一个图像块做线性变换，输出线性特征。最后，将线性特征输入深度自注意力变换网络模块，通过自注意力机制以及多头部学习机制提取丰富的语义特征，同时保证图像块的数量，获得每一层级的特征信息。第二、三、四阶段结构相似，主要由图像合并层和深度自注意力变换网络模块组成，通过图像块合并层对输入的特征进行将采样，缩小特征图分辨率，调整通道维度，形成层次化特征图，然后通过深度自注意力变换网络模块，通过自注意力机制以及多头部学习机制提取丰富的语义特征，获得层级的特征信息。以可见光图像为例，各个层的详细作用如下：

(1)所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块，并输入线性嵌入层；在一实施例中，所述图像分块层通过大小为4×4×48，步长为4的卷积核将输入图像X_r∈R^W×H×3分割成大小为4×4像素的图像块，并且各个图像块之间没有交集，得到

(2)线性嵌入层：所述将每一个图像块做线性变换，并输出线性特征图；将所述线性数据作为输入，开始每层级的特征信息提取；具体的，在一实施例中，将图像分块层输出的结果通过线性嵌入层对每个像素的通道数据做线性变换，由48变成C，得到

(3)图像块合并层：每个层级进行特征信息提取前，通过所述图像块合并层对输入线性特征图进行将采样，缩小线性特征图分辨率，调整通道维度，形成层次化特征图；具体的，在一实施例中，图像块合并层按位置间隔2选取元素，拼接成4个像素的新图块，再把所有的新图块都拼接起来作为一整个张量展开，之后通过一个全连接层调整通道维度为原来的2倍，即获得所述层次化特征图；

(4)深度自注意力变换网络(Swin Transformer，SwinT)模块：将图像块合并层输出的层次化特征图输入到SwinT模块进行特征表征，通过自注意力机制以及多头部学习机制提取丰富的语义特征，同时保证图像块的数量，获得每一层级的特征信息。

具体的，在本实施例中，步骤2构建上述的孪生骨干网络模型，其包括两路相同的第一骨干网络模型和第二骨干网络模型；所述第一骨干网络模型接收可见光图像X_r∈R^W ^×H×3作为输入，提取可见光多层级特征信息第二骨干网络模型接收热红外图像X_t∈R^W×H×3作为输入，提取热红外多层级特征信息/>其中，W和H分别表示输入图像的宽和高，N表示骨干网络模型输出的特征层级；优选地，N＝4。

如图3所示，步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d＝1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。在本实施例中，每一空洞卷积层输出的通道维度为64，采用类残差连接的方式将输入与输出短连接，在保留原始信息的同时减少计算量，将每一卷积层输出的特征进行批量正则化和非线性激活。进一步，采用顺序拼接的方式将不同空洞卷积率输出的特征进行融合，通过1×1大小卷积核将融合的特征图通道维度降低为64，通过非线性激活函数将其激活。

进一步，所述多尺度特征提取网络模块分别作用于可见光多层级特征信息和热红外多层级特征信息/>具体的，将可见光多层级特征信息/>和热红外多层级特征信息/>输入所述多尺度特征提取网络模块，在每一层级输出的多尺度特征图上获取各层级高维可见光多尺度特征信息/>和高维热红外多尺度特征信息/>其中，/>CAT表示顺序拼接。

如图4所示，构建注意力机制模块，注意力机制模块包括通道注意力和空间注意力；步骤4所述的输出可见光注意力特征图和热红外注意力特征图具体包括步骤4.1、步骤4.2和步骤4.3。

其中，步骤4.1基于所述通道注意力实施，所述通道注意力由全局平均池化，两个全连接层和一个高斯激活函数层组成。通过全局平均池化将可见光多尺度特征信息和热红外多尺度特征信息/>展开，以此生成通道特征向量/>和/>采用两个全连接层(f_c1，f_c2)对通道特征向量/>和/>进行编码；通过高斯激活函数将通道特征向量/>和/>的每一个值映射到区间[0,1]，生成通道权重；将生成的通道权重分别与对应的输入可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权，得到可见光通道注意力特征/>和热红外通道注意力特征/>其表达式为：

进一步，步骤4.2基于所述空间注意力实施，所述空间注意力由一个3×3卷积层，一个1×1卷积层和一个高斯激活函数层组成。采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息/>进行加权，以此细化特征信息，生成细化特征图；通过1×1卷积核与所述细化特征图进行加权，获取细化特征图内每个单元的空间位置信息，并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1]，产生空间位置权重；将空间位置权重与输入的可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权，得到可见光空间注意力特征/>和热红外空间注意力特征/>其表达式为：

其中，sigmoid表示高斯激活函数，ReLU表示非线性激活函数，W表示权重，b表示偏置，表示特征图对应元素相乘；

再进一步，步骤4.3包括：将得到的和/>相乘获得所述第一乘积特征图，实现空间对齐；将所述第一乘积特征图分别与/>和/>相乘，输出可见光注意力特征图/>和热红外注意力特征图/>实现通道校准；其/>和/>的表达式分别为：

其中，表示特征图对应元素相乘。

如图5所示，图5为特征融合模块示意图，基于该特征融合模块，以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入，步骤5包含：步骤5.1：单层级多模态特征信息融合，和步骤5.2：逐层级特征信息融合；通过步骤5.1和步骤5.2形成目标特征图，完成显著性目标的检测。

具体的，所述步骤5.1包括如下步骤：

其中，表示逐像素相加，/>表示逐像素相乘，Concat表示顺序拼接。

具体的，步骤5.2所述的逐层级特征信息融合是对于步骤5.1得到的各层级的单层特征图M_i，从高维单层特征图逐步向低维单层特征图融合；其包括：

步骤5.2.1：将高维单层特征图二倍上采样；

步骤5.2.3：将相邻层特征图进行逐像素相加融合，形成目标特征图，具体为：

为了得到鲁棒性及泛化性更强的模型，本发明提供的显著性目标检测方法还包括：步骤6：构建混合函数作为整体网络模型优化的损失函数，所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块；通过随机梯度下降算法优化网络模型；所述混合函数的表达式为：

L_loss＝αL_bce+βL_iou+γL_ssim

所述交叉熵损失函数BCE用来反映预测值和真值之间的概率分布差异，具体为：

L_bce＝-∑T_rlogP_r-∑(1-T_r)log(1-P_r)

所述交并比损失IoU用于测量两个集合的相似性，具体为：

其中，T_r∈{0,1}表示像素r的真实值，P_r∈{0,1}表示像素r被预测为目标的概率值。

所述结构相似性指标SSIM能够捕获图像中的结构信息，指导网络模型学习显著目标的真值结构信息。假设p＝{p_i:i＝1,···,N²}和t＝{t_i:i＝1,···,N²}分别是从预测概率图P和真实值T裁剪的两个对应大小(大小：N×N)的图像区域的像素集合，p和t的SSIM被表示为：

其中v_p、v_t和分别是p和t的均值和方差，σ_pt是相应的协方差；C₁和C₂分别被设为0.01²和0.0³以避免被零除。

进一步，以设计的混合函数作为损失函数，所述采用随机梯度下降算法优化整体网络模型包括：每次输入网络的批量大小为16，动量系数为0.9，权重衰减系数为0.0005；网络初始学习速率为5e-5，每训练10个批次，学习速率降低1/10，总共训练300个批次，以实现网络模型的优化。

综上所述，与现有技术相比，本发明所提供的基于多波段视觉图像感知与融合的显著性目标检测方法充分利用多波段视觉图像信息，不仅实现了多波段视觉图像中的目标识别，还提高了识别的精度。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，包括：

2.如权利要求1所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，所述步骤1具体包括：

步骤1.1：通过多源相机采集成对的可见光图像和热红外图像，形成所述训练样本集；

步骤1.2：采用数据增强技术对采集到的训练样本集进行扩充，并对扩充后的训练样本集进行像素级标注。

3.如权利要求2所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型；所述第一骨干网络模型接收可见光图像X_r∈R^W×H×3作为输入，提取可见光多层级特征信息第二骨干网络模型接收热红外图像X_t∈R^W×H×3作为输入，提取热红外多层级特征信息/>

其中，W和H分别表示输入图像的宽和高，N表示骨干网络模型输出的特征层级。

4.如权利要求3所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，每个所述骨干网络模型包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络模块，用于提取多层级特征信息；

所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块，并输入线性嵌入层；

所述线性嵌入层将每一个图像块做线性变换，并输出线性特征图；将所述线性数据作为输入，开始每层级的特征信息提取；

每层级进行特征信息提取前，通过所述图像块合并层对输入线性特征图进行将采样，缩小线性特征图分辨率，调整通道维度，形成层次化特征图；

将调整后的层次化特征图输入到深度自注意力变换网络模块进行特征表征，获得每一层级的特征信息。

5.如权利要求3所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d＝1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。

6.如权利要求5所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，将可见光多层级特征信息和热红外多层级特征信息/>输入所述多尺度特征提取网络模块，在每一层级输出的多尺度特征图上获取可见光多尺度特征信息和热红外多尺度特征信息/>其中，CAT表示顺序拼接。

7.如权利要求6所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，所述步骤4包括：

步骤4.2：采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息进行加权，以此细化特征信息，生成细化特征图；通过1×1卷积核与所述细化特征图进行加权，获取细化特征图内每个单元的空间位置信息，并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1]，产生空间位置权重；将空间位置权重与输入的可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权，得到可见光空间注意力特征/>和热红外空间注意力特征/>其表达式为：

步骤4.3：将得到的和/>相乘获得所述第一乘积特征图，实现空间对齐；将所述第一乘积特征图分别与/>和/>相乘，输出可见光注意力特征图/>和热红外注意力特征图实现通道校准；其/>和/>的表达式分别为：

其中，表示特征图对应元素相乘。

8.如权利要求7所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，所述步骤5包括：

步骤5.1：单层级多模态特征信息融合，其包括：

步骤5.2.1：将高维单层特征图二倍上采样；

9.如权利要求1所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，还包括：步骤6：构建混合函数作为整体网络模型优化的损失函数，所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块；通过随机梯度下降算法优化网络模型；所述混合函数的表达式为：

L_loss＝αL_bce+βL_iou+γL_ssim

10.如权利要求9所述的基于多波段视觉图像感知与融合的显著性目标检测方法，其特征在于，所述采用随机梯度下降算法优化整体网络模型包括：每次输入网络的批量大小为16，动量系数为0.9，权重衰减系数为0.0005；网络初始学习速率为5e-5，每训练10个批次，学习速率降低1/10，总共训练300个批次。