CN117315714A

CN117315714A - 一种基于跨模态特征分解的多光谱行人检测方法

Info

Publication number: CN117315714A
Application number: CN202311164103.7A
Authority: CN
Inventors: 项靖; 姜明新; 杜强; 洪远; 黄俊闻; 王杰
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-29

Abstract

本发明公开了一种基于跨模态特征分解的多光谱行人检测方法，包括以下步骤：(1)获取可见光和红外图片构成配对的多光谱行人数据集；(2)采用两路YOLOv8的骨干网络构建双流网络，分别提取可见光模态特征和红外模态特征；(3)获取不同尺度的包含低频信息和高频信息的可见光‑红外融合特征；(4)将得到的低频全局信息特征和高频局部信息特征进行低频和高频特征进行融合；(5)将聚合高低频融合特征进行多尺度融合；(6)输出预测框和相对应的置信度得分；本发明能够利用Transformer和精心设计的CNN结构提取不同的模态之间高频和低频信息，并进行有效融合；采用邻近注意力机制，进一步提高低光照环境下行人检测的准确度。

Description

一种基于跨模态特征分解的多光谱行人检测方法

技术领域

本发明涉及计算机数字图像处理技术领域，具体涉及一种基于跨模态特征分解的多光谱行人检测方法。

背景技术

行人检测是自动驾驶、自动视频监控和机器人等领域中的重要技术，随着深度卷积神经网络(CNN)在目标检测领域的发展，多光谱行人检测方面也取得了相当大的进步。然而，由于可见光摄像机对光照条件敏感，即使是优秀的检测器也无法在低光照的环境条件下准确检测行人，这限制了许多技术方案的实际应用。为了解决这个问题，目前已经引入热红外相机来捕捉物体发出的红外辐射，它们对光照和天气变化不敏感，因此可以在不利的光照条件下提供环境补充信息。

目前，已经提出了一些基于深度学习的多光谱行人检测方法，例如基于卷积神经网络(CNN)的方法、基于自动编码器(AE)的方法、基于生成对抗性网络(GAN)的方法和基于Transformers的方法。但是基于深度学习的方法在大多数光照不足场景中都能产生可观的结果，但仍存在一些缺点。首先，基于卷积神经网络的方法只在相对较小的感受野中提取局部信息，很难提取全局信息来生成高质量的图像特征。其次，基于Transformers的方法采用自注意力的方式对全局进行建模来有效处理低频的全局特征，然而使用相对简单的方法处理高频的局部特征，未能有效的提取跨模态中高频的局部特征。

发明内容

发明目的：本发明的目的是提供一种基于跨模态特征分解的多光谱行人检测方法充分提取和分解多光谱特征之间的高频局部特征和低频全局特征，并有效地融合融合不同频率的特征，获得高质量的跨模态融合特征。

技术方案：本发明所述的一种基于跨模态特征分解的多光谱行人检测方法，包括以下步骤：

(1)获取可见光和红外图片构成配对的多光谱行人数据集，按照M：N的比例划分为训练集和测试集，每个可见光和红外图片对拥有相同的图片通道数

(2)采用两路YOLOv8的骨干网络构建双流网络，分别提取可见光模态特征和红外模态特征；

(3)将步骤(2)中分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合，得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征；

(4)将步骤(3)得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块，按照低频和高频特征进行融合；

(5)将步骤(4)中聚合高低频融合特征输入到YOLOv8网络的Neck层中，进行多尺度融合；

(6)将步骤(5)中得到的多尺度特征输入到YOLOv8网络的检测头中，输出预测框和相对应的置信度得分。

进一步的，所述步骤(1)中获取的数据集为：可见光-红外配对数据集LLVIP。

进一步的，所述步骤(2)具体如下：将可见光和红外图片对送入双流网络中提取特征；双流网络采用堆叠卷积层的方式提取多模态特征；将双流网络的可见光支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为可见光输出特征将红外支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为红外输出特征/>

进一步的，所述步骤(3)具体如下：将i＝1、2、3处的可见光输出特征和红外输出特征/>按照不同的层分别输入到三个CTF模块中处理；其中，CTF模块包括：特征分解模块FD和高-低频信息特征融合模块两个部分。

进一步的，特征分解模块FD实现过程如下：将步骤2中可见光输出特征和红外输出特征/>送入两个特征分解模块FD中分别进行处理，每个FD模块包括两个部分，基于Transformer的低频全局信息提取Global和基于CNN的高频局部信息提取Local。

进一步的，低频全局信息提取Global实现过程如下：

首先，输入特征经过一个层归一化LayerNorm后，分别送入低频全局特征提取模块Global和高频局部特征提取模块Local，提取对于Global部分；/>先经过一个全连接层直接得到查询矩阵Q，再将/>输入到深度可分离卷积DWConv进行降采样处理；然后，分别经过全连接层进行映射，得到关键字矩阵K、值矩阵V；将查询矩阵、关键字矩阵、值矩阵作为输入传到空洞邻近注意力模块进行长程相互依赖建模和提取全局信息，经过残差连接以校正特征；再经过一个层归一化LayerNorm和多层感知机MLP，得到低频全局信息特征/>公式如下：

Attn＝Attention(Q,K',V')

Z＝MLP(Norm(Y))+Y

进一步的，基于CNN的高频局部信息提取Local实现过程如下：

首先，输入特征经过线性变换来获得查询矩阵Q、关键字矩阵K和值矩阵V；然后，将Q、K、V输入到简单的具有全局共享权重的深度卷积进行局部特征增强，得到具有聚合局部信息的Q’、K’、V’；其次，计算Q’和K’的Hadamard乘积，在经过多层感知机MLP得到Attn_h；其中，多层感知机MLP由两个线性层和一个Swish激活函数组成；Attn_h经过Softmax激活函数后和V’计算哈达玛积，得到具有局部上下文感知的高频局部信息特征公式如下：

Q',K',V'＝DWConv(Q,K,V)

Attn_h＝FC(Swish(FC(Q'⊙K')))

进一步的，所述步骤(4)具体如下：

对于可见光模态来说，由步骤(3)得到低频全局信息特征和高频局部信息特征/>对于红外模态来说，由步骤(3)得到低频全局信息特征/>和高频局部信息特征将不同模态的低频局部信息特征/>和/>进行相加融合，得到低频全局融合特征不同模态的高频局部信息特征/>和/>进行相加融合，得到高频局部融合特征/>将/>和/>按照通道维度连接起来，再应用一个全连接层进行融合，得到聚合高低频融合特征Z_i；公式如下：

进一步的，所述步骤(6)具体如下：根据损失函数计算预测结果与真实目标框之间的损失值，使用随机梯度下降方式更新网络中的可学习参数；重复步骤(1)-(6)，直到重复次数达到预先设定的训练次数，完成训练过程，即可得到检测模型。

本发明所述的一种基于跨模态特征分解的多光谱行人检测系统，包括以下模块：

数据获取模块：用于获取可见光和红外图片构成配对的多光谱行人数据集，按照M：N的比例划分为训练集和测试集，每个可见光和红外图片对拥有相同的图片通道数；

网络构建模块：用于采用两路YOLOv8的骨干网络构建双流网络，分别提取可见光模态特征和红外模态特征；

可见光-红外融合特征模块：用于将分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合，得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征；

低频和高频特征融合模块：用于将得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块，按照低频和高频特征进行融合；

多尺度融合融合模块：用于将步骤中聚合高低频融合特征输入到YOLOv8网络的Neck层中，进行多尺度融合；

预测模块：用于将得到的多尺度特征输入到YOLOv8网络的检测头中，输出预测框和相对应的置信度得分。

有益效果：与现有技术相比，本发明具有如下显著优点：能够利用Transformer和精心设计的CNN结构提取不同的模态之间高频和低频信息，并进行有效融合；采用邻近注意力机制，进一步提高低光照环境下行人检测的准确度。

附图说明

图1为本发明的网络结构图；

图2为本发明的CTF结构图；

图3为本发明的FD结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1-3所示，本发明实施例提供一种基于跨模态特征分解的多光谱行人检测方法，包括以下步骤：

(1)获取可见光和红外图片构成配对的多光谱行人数据集，按照8：2的比例划分为训练集和测试集，每个可见光和红外图片对拥有相同的图片通道数；获取的数据集为：可见光-红外配对数据集LLVIP。

(2)采用两路YOLOv8的骨干网络构建双流网络，分别提取可见光模态特征和红外模态特征；具体如下：将可见光和红外图片对送入双流网络中提取特征；双流网络采用堆叠卷积层的方式提取多模态特征；将双流网络的可见光支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为可见光输出特征将红外支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为红外输出特征/>

(3)将步骤(2)中分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合，得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征；具体如下：将i＝1、2、3处的可见光输出特征和红外输出特征/>按照不同的层分别输入到三个CTF模块中处理；其中，CTF模块包括：特征分解模块FD和高-低频信息特征融合模块两个部分。特征分解模块FD实现过程如下：将步骤2中可见光输出特征/>和红外输出特征/>送入两个特征分解模块FD中分别进行处理，每个FD模块包括两个部分，基于Transformer的低频全局信息提取Global和基于CNN的高频局部信息提取Local。低频全局信息提取Global实现过程如下：

Attn＝Attention(Q,K',V')

Z＝MLP(Norm(Y))+Y

基于CNN的高频局部信息提取Local实现过程如下：

Q',K',V'＝DWConv(Q,K,V)

Attn_h＝FC(Swish(FC(Q'⊙K')))

(4)将步骤(3)得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块，按照低频和高频特征进行融合；具体如下：

(6)将步骤(5)中得到的多尺度特征输入到YOLOv8网络的检测头中，输出预测框和相对应的置信度得分。具体如下：根据损失函数计算预测结果与真实目标框之间的损失值，使用随机梯度下降方式更新网络中的可学习参数；重复步骤(1)-(6)，直到重复次数达到预先设定的训练次数，完成训练过程，即可得到检测模型。

本发明实施例还提供一种基于跨模态特征分解的多光谱行人检测系统，包括以下模块：

Claims

1.一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，包括以下步骤：

(1)获取可见光和红外图片构成配对的多光谱行人数据集，按照M：N的比例划分为训练集和测试集，每个可见光和红外图片对拥有相同的图片通道数；

2.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，所述步骤(1)中获取的数据集为：可见光-红外配对数据集LLVIP。

3.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，所述步骤(2)具体如下：将可见光和红外图片对送入双流网络中提取特征；双流网络采用堆叠卷积层的方式提取多模态特征；将双流网络的可见光支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为可见光输出特征将红外支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为红外输出特征/>

4.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，所述步骤(3)具体如下：将i＝1、2、3处的可见光输出特征和红外输出特征/>按照不同的层分别输入到三个CTF模块中处理；其中，CTF模块包括：特征分解模块FD和高-低频信息特征融合模块两个部分。

5.根据权利要求4所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，特征分解模块FD实现过程如下：将步骤2中可见光输出特征和红外输出特征/>送入两个特征分解模块FD中分别进行处理，每个FD模块包括两个部分，基于Transformer的低频全局信息提取Global和基于CNN的高频局部信息提取Local。

6.根据权利要求5所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，低频全局信息提取Global实现过程如下：

首先，输入特征经过一个层归一化LayerNorm后，分别送入低频全局特征提取模块Global和高频局部特征提取模块Local，提取对于Global部分；/>先经过一个全连接层直接得到查询矩阵Q，再将/>输入到深度可分离卷积DWConv进行降采样处理；然后，分别经过全连接层进行映射，得到关键字矩阵K、值矩阵V；将查询矩阵、关键字矩阵、值矩阵作为输入传到空洞邻近注意力模块进行长程相互依赖建模和提取全局信息，经过残差连接以校正特征；再经过一个层归一化LayerNorm和多层感知机MLP，得到低频全局信息特征公式如下：

Attn＝Attention(Q,K',V')

Z＝MLP(Norm(Y))+Y。

7.根据权利要求5所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，基于CNN的高频局部信息提取Local实现过程如下：

Q',K',V'＝DWConv(Q,K,V)

Attn_h＝FC(Swish(FC(Q'WK')))

8.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，所述步骤(4)具体如下：

对于可见光模态来说，由步骤(3)得到低频全局信息特征和高频局部信息特征对于红外模态来说，由步骤(3)得到低频全局信息特征/>和高频局部信息特征/>将不同模态的低频局部信息特征/>和/>进行相加融合，得到低频全局融合特征/>不同模态的高频局部信息特征/>和/>进行相加融合，得到高频局部融合特征/>将/>和按照通道维度连接起来，再应用一个全连接层进行融合，得到聚合高低频融合特征Z_i；公式如下：

9.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法，其特征在于，所述步骤(6)具体如下：根据损失函数计算预测结果与真实目标框之间的损失值，使用随机梯度下降方式更新网络中的可学习参数；重复步骤(1)-(6)，直到重复次数达到预先设定的训练次数，完成训练过程，即可得到检测模型。

10.一种基于跨模态特征分解的多光谱行人检测系统，其特征在于，包括以下模块：