CN114998667A

CN114998667A - 多光谱目标检测方法、系统、计算机设备及存储介质

Info

Publication number: CN114998667A
Application number: CN202210497054.8A
Authority: CN
Inventors: 张浪文; 解宇敏; 谢巍; 余孝源
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-09-02
Anticipated expiration: 2042-05-09
Also published as: CN114998667B

Abstract

本发明公开了一种多光谱目标检测方法、系统、计算机设备及存储介质，该方法包括：将获取的多光谱图像数据划分为训练集和验证集；构建的多光谱目标检测模型采用目标检测网络Yolov5作为基础架构，Backbone部分包括具有增强特征交互作用的双流特征提取网络和整合互补信息作用的自注意力特征融合模块；利用训练集训练多光谱目标检测模型，并利用验证集评估模型性能，获取最佳模型权重参数；将待测多光谱图像输入最佳模型权重参数的多光谱目标检测模型，得到待测图像中目标的坐标、类别和置信度等预测结果。本发明提供的方法通过构建多光谱目标检测模型，增强了网络对环境光照变化的鲁棒性，从而提高了模型在不良光照条件下的检测精度。

Description

多光谱目标检测方法、系统、计算机设备及存储介质

技术领域

本发明涉及目标检测技术领域，具体涉及一种多光谱目标检测方法、系统、计算机设备及存储介质。

背景技术

近年来，基于深度学习的目标检测方法得到长足发展，在工业生产、智慧交通、无人驾驶等领域逐步得到应用。但常规目标检测模型易受环境光照变化影响的缺陷而成为该技术广泛应用的一大掣肘。

为解决常规目标检测模型在夜间或恶劣气候条件下因光照不良而造成的精度下降问题，不少学者开始研究利用多光谱图像之间的互补信息来提升常规模型的检测精度。当前该研究采取的融合策略按层级可划分为像素级、特征级和决策级三种。其中，特征级融合因具有与卷积神经网络相契合的特点，在研究中备受关注，并取得了阶段性的成果。大体上，现有的多光谱目标检测方法主要从两方面考虑特征的融合：一是融合特征的位置；二是融合特征的方式。对于融合特征的最佳位置，多数研究结论表明在目标检测模型的网络中间层进行多光谱特征融合，取得的效果相比其他位置更为显著。而融合特征的常规方式采用对应元素相加、相乘或通道级联等操作，其他方法则利用注意力机制设计特殊的融合模块将多光谱特征映射为融合特征。这些模型的结构通常是采用双流的特征提取网络分别提取可见光与红外特征再由融合模块进行融合，简单的融合方式以及缺乏紧密联系的特征提取过程，导致无法建模足够鲁棒的互补特征表达。因此，在现有研究基础上，仍需进一步考虑增强多光谱特征间的交互作用以及设计更合理的融合机制，以获得信息更加丰富的表征特征。

发明内容

为了解决上述现有技术的不足，本发明提供了一种多光谱目标检测方法、系统、计算机设备及存储介质，该方法通过设计具有交互作用的双流特征提取网络，增强可见光和红外特征提取过程中二者之间的信息交互作用；并通过设计自注意力特征融合模块，对双流特征提取网络输出的可见光和红外特征进行信息筛选，过滤其中冗余的同质信息并增强其中的异质信息，从而获得更具表达能力的融合特征，融合特征结合了不同光谱的优势，从而使基于该特征的检测结果更加准确。

本发明的第一个目的在于提供一种多光谱目标检测方法。

本发明的第二个目的在于提供一种多光谱目标检测装置。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种多光谱目标检测方法，所述方法包括：

获取多光谱图像数据，并将所述多光谱图像数据划分为训练集和验证集；

构建多光谱目标检测模型；所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构，Backbone部分包括双流特征提取网络和自注意力特征融合模块，在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块，使可见光与红外特征发生信息交互，在所述Interact-C3模块后设计自注意力特征融合模块，对提取的可见光和红外特征进行信息整合；

利用所述训练集训练所述多光谱目标检测模型，在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能，获得最优模型权重参数；

将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型，得到所述待测多光谱图像的检测结果。

进一步的，所述双流特征提取网络包括多个Conv模块和多个Interact-C3模块，其中，Conv模块和Interact-C3模块交替连接；

以成对的可见光图像和红外图像作为所述双流特征提取网络的输入，依次经过多个Conv模块和多个Interact-C3模块，输出可见光和红外特征；

所述Conv模块对输入的图像进行下采样操作。

进一步的，所述Interact-C3模块使可见光与红外特征发生信息交互，包括：

将上一级两个并行的Conv模块输出的可见光特征

与红外特征

作为所述Interact-C3模块的输入，分别对可见光和红外特征采用两个1×1卷积核进行压缩，得到压缩后的可见光特征

和

以及压缩后的红外特征

和

将压缩后的特征

和

进行通道级联，再将级联后的特征输入残差单元，得到共享特征F_s；

将共享特征F_s按通道拆分成两部分

和

分别与特征

和

进行通道级联，各自再经过1×1卷积核重构信息，得到发生过交互作用的可见光特征

和红外特征

进一步的，在第2、第3和第4个Interact-C3模块后分别连接自注意力特征融合模块；

利用3个自注意力特征融合模块将3对不同尺度的可见光和红外特征映射为3个不同尺度的融合特征，其中，尺度最小的融合特征经过SPPF模块处理后，与另外两个尺度特征一同输入所述多光谱目标检测模型的Neck部分。

进一步的，将所述Interact-C3模块输出的可见光特征

与红外特征

作为所述自注意力特征融合模块的输入；

所述自注意力特征融合模块的内部采用对称结构，包括两个相同结构的自注意力分支，通过两个相同结构的自注意力分支分别为可见光特征和红外特征生成通道注意力权重；

生成可见光通道注意力权重，包括：

将特征

与特征

按通道级联，使用多个卷积核分别将级联后的特征的通道数进行压缩，得到特征Q_rgb∈R^1×H×W和特征V_rgb∈R^C×H×W；

通过reshape操作分别将特征V_rgb和特征Q_rgb的形状变换为C×HW和HW×1，再将特征Q_rgb经Softmax函数激活后与特征V_rgb相乘，得到特征Q′_rgb∈R^C×1；

特征Q′_rgb依次经过卷积核、层归一化和Sigmoid激活函数后，得到可见光通道注意力权重Z_rgb∈R^C×H×W；

同理生成红外通道注意力权重Z_ir∈R^C×H×W；

将输入的可见光特征

与红外特征

乘以各自的注意力权重后相加，得到融合特征F∈R^C×H×W。

进一步的，所述多光谱目标检测模型中Head部分输出三个尺度的预测向量，采用非极大值抑制算法对三个尺度的预测向量进行筛选后，得到检测结果。

进一步的，所述多光谱图像数据为同一视角、同一时刻下拍摄的可见光图像和红外图像，每对多光谱图像均包含其中目标的位置和类别信息标注。

进一步的，所述检测结果包括所述待测光谱图像中目标的坐标、类别以及置信度信息。

本发明的第二个目的可以通过采取如下技术方案达到：

一种多光谱目标检测系统，所述系统包括：

多光谱图像数据获取模块，用于获取多光谱图像数据，并将所述多光谱图像数据划分为训练集和验证集；

多光谱目标检测模型构建模块，用于构建多光谱目标检测模型；所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构，Backbone部分包括双流特征提取网络和自注意力特征融合模块，在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块，使可见光与红外特征发生信息交互，在所述Interact-C3模块后设计自注意力特征融合模块，对提取的可见光和红外特征进行信息整合；

多光谱目标检测模型训练模块，用于利用所述训练集训练所述多光谱目标检测模型，在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能，获得最优模型权重参数；

结果检测模块，用于将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型，得到所述待测多光谱图像的检测结果。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的多光谱目标检测方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的多光谱目标检测方法。

本发明相对于现有技术具有如下的有益效果：

本发明提供的多光谱目标检测方法、系统、计算机设备及存储介质，通过获取多光谱图像数据，并将多光谱图像数据划分为训练集和验证集；构建的多光谱目标检测模型采用目标检测网络Yolov5作为基础架构，Backbone部分包括双流特征提取网络和自注意力特征融合模块；利用训练集训练多光谱目标检测模型，在训练过程中利用验证集评估所述多光谱目标检测模型的性能，获得最优模型权重参数；将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型，得到待测多光谱图像的检测结果，其中，在双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块，使可见光与红外特征发生信息交互，使二者特征在提取过程中保持密切的信息交流，从而自适应地建模出二者的关系，而且，在Interact-C3模块后设计自注意力特征融合模块，对提取的可见光和红外特征进行信息整合，通过过滤可见光与红外特征中的冗余信息并增强二者中的互补信息，整合得到表达能力更强的融合特征；这样，构建的多光谱目标检测模型，可以使网络获得对光照变化更加鲁棒的能力，从而提高其在光照不良场景下的检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的多光谱目标检测方法的流程图。

图2为本发明实施例1的多光谱目标检测模型结构示意图。

图3为本发明实施例1的Interact-C3模块的结构示意图。

图4为本发明实施例1的自注意力特征融合模块的结构示意图。

图5为本发明实施例2的多光谱目标检测系统的结构框图。

图6为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例1：

本实施例基于Python编程语言、使用Pytorch深度学习框架构建网络模型结构，并在Ubuntu系统下完成模型的训练。硬件环境为Ubuntu18.04.3，GPU型号为GeForceRTX2080Ti。

如图1所示，本实施例公开的多光谱目标检测方法，具体包括以下步骤：

S101、获取多光谱图像数据，并将多光谱图像数据划分为训练集和验证集。

采用具有可见光和红外成像功能的双目设备获取多光谱图像数据，其中，获取的图像为同一视角、同一时刻下拍摄的可见光图像和红外图像。本实施例中，采用手动标注的方式为每对多光谱图像添加所关注目标对象的位置和类别信息，并将图像及对应的标注信息按照9:1的比例划分为训练集和验证集。

S102、构建多光谱目标检测模型。

如图2所示，多光谱目标检测模型基于YOLOv5目标检测框架而改进，具体包括Backbone、Neck和Head三部分。

(1)Backbone部分。

Backbone部分采用并行的双流网络结构以适应可见光和红外图像输入。双流网络结构采用两个并行的CSPDarkNet53网络，通过设计具有交互作用的Interact-C3模块替换原网络中的C3模块，从而使可见光与红外特征在提取过程中发生信息交互。同时，在Interact-C3模块后，设计了自注意力特征融合模块(SAFFM)，对提取的可见光和红外特征进行信息整合，过滤其中的冗余信息并增强互补信息，从而得到表达能力更强的融合特征。

双流网络结构以成对的可见光图像和红外图像为输入，中间依次经过Conv模块、Conv模块、Interact-C3模块、Conv模块、Interact-C3模块、Conv模块、Interact-C3模块、Conv模块、Interact-C3模块，输出可见光和红外特征。其中Conv模块主要执行了下采样操作，因此每一个Conv模块后的特征尺度逐层降低，而通道维度逐层增加。为得到融合特征，第2、第3和第4个Interact-C3模块后，分别采用三个自注意力特征融合模块，将3对不同尺度的可见光和红外特征，映射为3个不同尺度的融合特征。其中，尺度最小的融合特征再经过SPPF模块处理后，与另外两个尺度特征，一同输入模型的Neck部分。

(1-1)Interact-C3模块。

如图3所示，Interact-C3模块内部存在多个分支，交汇处与分离处由通道级联模块和通道拆分模块构成，各分支则由1×1卷积核或残差单元构成。该模块实现可见光与红外特征交互作用的具体过程如下：

将上一级两个并行的Conv模块输出的可见光特征

与红外特征

作为输入，分别对可见光和红外特征采用两个1×1卷积核进行压缩，通道维度压缩至原来的一半，即：

其中，conv(·)表示1×1卷积核压缩特征通道维度的操作；

和

分别表示经过两个不同的1×1卷积压缩后的可见光特征；

和

则分别表示经过两个不同的1×1卷积压缩后的红外特征。将压缩后的特征

和

进行通道级联，再将级联后的特征输入残差单元，得到共享特征F_s：

其中，res(·)表示残差单元；concat(·)表示级联操作。再将共享特征F_s按通道拆分成两部分

和

分别与压缩后的特征

和

进行通道级联，其后各自经过一个1×1卷积核重构信息，得到发生过交互作用的可见光特征

和红外特征

输出：

其中，chuck(·)表示特征按通道拆分操作。

(1-2)自注意力特征融合模块。

如图4所示，为本实施例的自注意力特征融合模块的结构示意图，其输入为Interact-C3模块输出的可见光特征

和红外特征

输出为融合了可见光与红外互补信息的融合特征F。该模块分别由初始的通道级联模块、中间的可见光自注意力分支和红外自注意力分支，以及最终的融合结构组成，其中的可见光自注意力分支和红外自注意力采用相同的结构，均由一系列1×1卷积核、Reshape模块、Softmax和Sigmoid激活函数构成，呈对称并行分布。二者分别为可见光特征和红外特征生成相应的通道注意力权重。以可见光自注意力分支为例，生成可见光通道注意力权重的过程如下：

首先将特征

与特征

按通道级联，使用两个1×1卷积核分别将级联后的特征的通道数压缩至1和原来的1/2，得到特征Q_rgb∈R^1×H×W和特征V_rgb∈R^C×H×W：

通过reshape操作分别将特征V_rgb和特征Q_rgb的形状变换为C×HW和HW×1，再将特征Q_rgb经Softmax函数激活后与特征V_rgb相乘，得到特征Q′_rgb∈R^C×1：

Q′_rgb＝V_rgb×softmax(Q_rgb)

其中，softmax(·)表示Softmax激活函数。特征Q′_rgb再依次经过1×1卷积核、层归一化(LayerNorm)和Sigmoid激活函数后，得到可见光通道注意力权重Z_rgb∈R^C×H×W：

Z_rgb＝sigmoid(LN(conv(Q′_rgb)))

其中，sigmoid(·)表示Sigmoid激活函数；LN(·)表示层归一化操作。同理，由红外自注意力分支可得到红外通道注意力权重Z_ir∈R^C×H×W。最后，将输入的可见光特征和红外特征乘以各自的注意力权重后相加，即得到融合特征F∈R^C×H×W：

(2)Neck部分和Head部分。

模型的Neck部分和Head部分均采用YOLOv5原本的结构，即采用FPN+PAN作为Neck部分，YOLO算法作为Head部分。Head部分最终输出三个尺度的预测向量，最终由非极大值抑制算法(NMS)筛选后，得到检测结果。

S103、利用训练集训练多光谱目标检测模型，在训练过程中利用验证集评估多光谱目标检测模型的性能，获得最优模型权重参数。

利用训练集训练多光谱目标检测模型，使模型的损失值逐渐收敛，并在训练过程中以验证集评估各个模型权重参数的性能，在训练结束后，选择其中最优的模型权重参数；

S104、将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型，得到待测多光谱图像的检测结果。

待测多光谱图像包括一对可见光图像和红外图像，将待测多光谱图像输入多光谱目标检测模型，并调用所述最优模型权重参数进行推理运算，最终得到该待测多光谱图像的检测结果，检测结果包括图像中目标的坐标、类别以及置信度信息。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图5所示，本实施例提供了一种多光谱目标检测系统，该系统包括多光谱图像数据获取模块501、多光谱目标检测模型构建模块502、多光谱目标检测模型训练模块503和结果检测模块504，其中：

多光谱图像数据获取模块501，用于获取多光谱图像数据，并将所述多光谱图像数据划分为训练集和验证集；

多光谱目标检测模型构建模块502，用于构建多光谱目标检测模型；所述多光谱目标检测模型采用目标检测网络Yolov5作为基础架构，Backbone部分包括双流特征提取网络和自注意力特征融合模块，在所述双流特征提取网络中将具有交互作用的Interact-C3模块替换C3模块，使可见光与红外特征发生信息交互，在所述Interact-C3模块后设计自注意力特征融合模块，对提取的可见光和红外特征进行信息整合；

多光谱目标检测模型训练模块503，用于利用所述训练集训练所述多光谱目标检测模型，在训练过程中利用所述验证集评估所述多光谱目标检测模型的性能，获得最优模型权重参数；

结果检测模块504，用于将待测多光谱图像输入最优模型权重参数的多光谱目标检测模型，得到所述待测多光谱图像的检测结果。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以为计算机，如图6所示，其通过系统总线601连接的处理器602、存储器、输入装置603、显示器604和网络接口605，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质606和内存储器607，该非易失性存储介质606存储有操作系统、计算机程序和数据库，该内存储器607为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器702执行存储器存储的计算机程序时，实现上述实施例1的多光谱目标检测方法，如下：

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的多光谱目标检测方法，如下：

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述，本发明通过在多光谱目标检测模型中设计具有增强特征交互作用的双流特征提取网络，使网络在提取可见光与红外特征的过程中，充分交流二者间的信息，从而建模出二者的潜在关系；同时通过在Backbone的输出位置设计自注意力特征融合模块，过滤可见光与红外特征中的冗余信息并增强二者中的互补信息，整合得到表达能力更强的融合特征。整个模型通过对多光谱融合特征的建模，令网络获得对光照变化更加鲁棒的能力，从而提高其在光照不良场景下的检测精度。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。