CN117315714A - 一种基于跨模态特征分解的多光谱行人检测方法 - Google Patents
一种基于跨模态特征分解的多光谱行人检测方法 Download PDFInfo
- Publication number
- CN117315714A CN117315714A CN202311164103.7A CN202311164103A CN117315714A CN 117315714 A CN117315714 A CN 117315714A CN 202311164103 A CN202311164103 A CN 202311164103A CN 117315714 A CN117315714 A CN 117315714A
- Authority
- CN
- China
- Prior art keywords
- frequency
- low
- visible light
- information
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000005286 illumination Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/58—Extraction of image or video features relating to hyperspectral data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨模态特征分解的多光谱行人检测方法,包括以下步骤:(1)获取可见光和红外图片构成配对的多光谱行人数据集;(2)采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;(3)获取不同尺度的包含低频信息和高频信息的可见光‑红外融合特征;(4)将得到的低频全局信息特征和高频局部信息特征进行低频和高频特征进行融合;(5)将聚合高低频融合特征进行多尺度融合;(6)输出预测框和相对应的置信度得分;本发明能够利用Transformer和精心设计的CNN结构提取不同的模态之间高频和低频信息,并进行有效融合;采用邻近注意力机制,进一步提高低光照环境下行人检测的准确度。
Description
技术领域
本发明涉及计算机数字图像处理技术领域,具体涉及一种基于跨模态特征分解的多光谱行人检测方法。
背景技术
行人检测是自动驾驶、自动视频监控和机器人等领域中的重要技术,随着深度卷积神经网络(CNN)在目标检测领域的发展,多光谱行人检测方面也取得了相当大的进步。然而,由于可见光摄像机对光照条件敏感,即使是优秀的检测器也无法在低光照的环境条件下准确检测行人,这限制了许多技术方案的实际应用。为了解决这个问题,目前已经引入热红外相机来捕捉物体发出的红外辐射,它们对光照和天气变化不敏感,因此可以在不利的光照条件下提供环境补充信息。
目前,已经提出了一些基于深度学习的多光谱行人检测方法,例如基于卷积神经网络(CNN)的方法、基于自动编码器(AE)的方法、基于生成对抗性网络(GAN)的方法和基于Transformers的方法。但是基于深度学习的方法在大多数光照不足场景中都能产生可观的结果,但仍存在一些缺点。首先,基于卷积神经网络的方法只在相对较小的感受野中提取局部信息,很难提取全局信息来生成高质量的图像特征。其次,基于Transformers的方法采用自注意力的方式对全局进行建模来有效处理低频的全局特征,然而使用相对简单的方法处理高频的局部特征,未能有效的提取跨模态中高频的局部特征。
发明内容
发明目的:本发明的目的是提供一种基于跨模态特征分解的多光谱行人检测方法充分提取和分解多光谱特征之间的高频局部特征和低频全局特征,并有效地融合融合不同频率的特征,获得高质量的跨模态融合特征。
技术方案:本发明所述的一种基于跨模态特征分解的多光谱行人检测方法,包括以下步骤:
(1)获取可见光和红外图片构成配对的多光谱行人数据集,按照M:N的比例划分为训练集和测试集,每个可见光和红外图片对拥有相同的图片通道数
(2)采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;
(3)将步骤(2)中分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合,得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征;
(4)将步骤(3)得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块,按照低频和高频特征进行融合;
(5)将步骤(4)中聚合高低频融合特征输入到YOLOv8网络的Neck层中,进行多尺度融合;
(6)将步骤(5)中得到的多尺度特征输入到YOLOv8网络的检测头中,输出预测框和相对应的置信度得分。
进一步的,所述步骤(1)中获取的数据集为:可见光-红外配对数据集LLVIP。
进一步的,所述步骤(2)具体如下:将可见光和红外图片对送入双流网络中提取特征;双流网络采用堆叠卷积层的方式提取多模态特征;将双流网络的可见光支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为可见光输出特征将红外支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为红外输出特征/>
进一步的,所述步骤(3)具体如下:将i=1、2、3处的可见光输出特征和红外输出特征/>按照不同的层分别输入到三个CTF模块中处理;其中,CTF模块包括:特征分解模块FD和高-低频信息特征融合模块两个部分。
进一步的,特征分解模块FD实现过程如下:将步骤2中可见光输出特征和红外输出特征/>送入两个特征分解模块FD中分别进行处理,每个FD模块包括两个部分,基于Transformer的低频全局信息提取Global和基于CNN的高频局部信息提取Local。
进一步的,低频全局信息提取Global实现过程如下:
首先,输入特征经过一个层归一化LayerNorm后,分别送入低频全局特征提取模块Global和高频局部特征提取模块Local,提取对于Global部分;/>先经过一个全连接层直接得到查询矩阵Q,再将/>输入到深度可分离卷积DWConv进行降采样处理;然后,分别经过全连接层进行映射,得到关键字矩阵K、值矩阵V;将查询矩阵、关键字矩阵、值矩阵作为输入传到空洞邻近注意力模块进行长程相互依赖建模和提取全局信息,经过残差连接以校正特征;再经过一个层归一化LayerNorm和多层感知机MLP,得到低频全局信息特征/>公式如下:
Attn=Attention(Q,K',V')
Z=MLP(Norm(Y))+Y
进一步的,基于CNN的高频局部信息提取Local实现过程如下:
首先,输入特征经过线性变换来获得查询矩阵Q、关键字矩阵K和值矩阵V;然后,将Q、K、V输入到简单的具有全局共享权重的深度卷积进行局部特征增强,得到具有聚合局部信息的Q’、K’、V’;其次,计算Q’和K’的Hadamard乘积,在经过多层感知机MLP得到Attnh;其中,多层感知机MLP由两个线性层和一个Swish激活函数组成;Attnh经过Softmax激活函数后和V’计算哈达玛积,得到具有局部上下文感知的高频局部信息特征公式如下:
Q',K',V'=DWConv(Q,K,V)
Attnh=FC(Swish(FC(Q'⊙K')))
进一步的,所述步骤(4)具体如下:
对于可见光模态来说,由步骤(3)得到低频全局信息特征和高频局部信息特征/>对于红外模态来说,由步骤(3)得到低频全局信息特征/>和高频局部信息特征将不同模态的低频局部信息特征/>和/>进行相加融合,得到低频全局融合特征不同模态的高频局部信息特征/>和/>进行相加融合,得到高频局部融合特征/>将/>和/>按照通道维度连接起来,再应用一个全连接层进行融合,得到聚合高低频融合特征Zi;公式如下:
进一步的,所述步骤(6)具体如下:根据损失函数计算预测结果与真实目标框之间的损失值,使用随机梯度下降方式更新网络中的可学习参数;重复步骤(1)-(6),直到重复次数达到预先设定的训练次数,完成训练过程,即可得到检测模型。
本发明所述的一种基于跨模态特征分解的多光谱行人检测系统,包括以下模块:
数据获取模块:用于获取可见光和红外图片构成配对的多光谱行人数据集,按照M:N的比例划分为训练集和测试集,每个可见光和红外图片对拥有相同的图片通道数;
网络构建模块:用于采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;
可见光-红外融合特征模块:用于将分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合,得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征;
低频和高频特征融合模块:用于将得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块,按照低频和高频特征进行融合;
多尺度融合融合模块:用于将步骤中聚合高低频融合特征输入到YOLOv8网络的Neck层中,进行多尺度融合;
预测模块:用于将得到的多尺度特征输入到YOLOv8网络的检测头中,输出预测框和相对应的置信度得分。
有益效果:与现有技术相比,本发明具有如下显著优点:能够利用Transformer和精心设计的CNN结构提取不同的模态之间高频和低频信息,并进行有效融合;采用邻近注意力机制,进一步提高低光照环境下行人检测的准确度。
附图说明
图1为本发明的网络结构图;
图2为本发明的CTF结构图;
图3为本发明的FD结构图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1-3所示,本发明实施例提供一种基于跨模态特征分解的多光谱行人检测方法,包括以下步骤:
(1)获取可见光和红外图片构成配对的多光谱行人数据集,按照8:2的比例划分为训练集和测试集,每个可见光和红外图片对拥有相同的图片通道数;获取的数据集为:可见光-红外配对数据集LLVIP。
(2)采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;具体如下:将可见光和红外图片对送入双流网络中提取特征;双流网络采用堆叠卷积层的方式提取多模态特征;将双流网络的可见光支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为可见光输出特征将红外支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为红外输出特征/>
(3)将步骤(2)中分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合,得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征;具体如下:将i=1、2、3处的可见光输出特征和红外输出特征/>按照不同的层分别输入到三个CTF模块中处理;其中,CTF模块包括:特征分解模块FD和高-低频信息特征融合模块两个部分。特征分解模块FD实现过程如下:将步骤2中可见光输出特征/>和红外输出特征/>送入两个特征分解模块FD中分别进行处理,每个FD模块包括两个部分,基于Transformer的低频全局信息提取Global和基于CNN的高频局部信息提取Local。低频全局信息提取Global实现过程如下:
首先,输入特征经过一个层归一化LayerNorm后,分别送入低频全局特征提取模块Global和高频局部特征提取模块Local,提取对于Global部分;/>先经过一个全连接层直接得到查询矩阵Q,再将/>输入到深度可分离卷积DWConv进行降采样处理;然后,分别经过全连接层进行映射,得到关键字矩阵K、值矩阵V;将查询矩阵、关键字矩阵、值矩阵作为输入传到空洞邻近注意力模块进行长程相互依赖建模和提取全局信息,经过残差连接以校正特征;再经过一个层归一化LayerNorm和多层感知机MLP,得到低频全局信息特征/>公式如下:
Attn=Attention(Q,K',V')
Z=MLP(Norm(Y))+Y
基于CNN的高频局部信息提取Local实现过程如下:
首先,输入特征经过线性变换来获得查询矩阵Q、关键字矩阵K和值矩阵V;然后,将Q、K、V输入到简单的具有全局共享权重的深度卷积进行局部特征增强,得到具有聚合局部信息的Q’、K’、V’;其次,计算Q’和K’的Hadamard乘积,在经过多层感知机MLP得到Attnh;其中,多层感知机MLP由两个线性层和一个Swish激活函数组成;Attnh经过Softmax激活函数后和V’计算哈达玛积,得到具有局部上下文感知的高频局部信息特征公式如下:
Q',K',V'=DWConv(Q,K,V)
Attnh=FC(Swish(FC(Q'⊙K')))
(4)将步骤(3)得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块,按照低频和高频特征进行融合;具体如下:
对于可见光模态来说,由步骤(3)得到低频全局信息特征和高频局部信息特征/>对于红外模态来说,由步骤(3)得到低频全局信息特征/>和高频局部信息特征将不同模态的低频局部信息特征/>和/>进行相加融合,得到低频全局融合特征不同模态的高频局部信息特征/>和/>进行相加融合,得到高频局部融合特征/>将/>和/>按照通道维度连接起来,再应用一个全连接层进行融合,得到聚合高低频融合特征Zi;公式如下:
(5)将步骤(4)中聚合高低频融合特征输入到YOLOv8网络的Neck层中,进行多尺度融合;
(6)将步骤(5)中得到的多尺度特征输入到YOLOv8网络的检测头中,输出预测框和相对应的置信度得分。具体如下:根据损失函数计算预测结果与真实目标框之间的损失值,使用随机梯度下降方式更新网络中的可学习参数;重复步骤(1)-(6),直到重复次数达到预先设定的训练次数,完成训练过程,即可得到检测模型。
本发明实施例还提供一种基于跨模态特征分解的多光谱行人检测系统,包括以下模块:
数据获取模块:用于获取可见光和红外图片构成配对的多光谱行人数据集,按照M:N的比例划分为训练集和测试集,每个可见光和红外图片对拥有相同的图片通道数;
网络构建模块:用于采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;
可见光-红外融合特征模块:用于将分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合,得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征;
低频和高频特征融合模块:用于将得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块,按照低频和高频特征进行融合;
多尺度融合融合模块:用于将步骤中聚合高低频融合特征输入到YOLOv8网络的Neck层中,进行多尺度融合;
预测模块:用于将得到的多尺度特征输入到YOLOv8网络的检测头中,输出预测框和相对应的置信度得分。
Claims (10)
1.一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,包括以下步骤:
(1)获取可见光和红外图片构成配对的多光谱行人数据集,按照M:N的比例划分为训练集和测试集,每个可见光和红外图片对拥有相同的图片通道数;
(2)采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;
(3)将步骤(2)中分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合,得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征;
(4)将步骤(3)得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块,按照低频和高频特征进行融合;
(5)将步骤(4)中聚合高低频融合特征输入到YOLOv8网络的Neck层中,进行多尺度融合;
(6)将步骤(5)中得到的多尺度特征输入到YOLOv8网络的检测头中,输出预测框和相对应的置信度得分。
2.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,所述步骤(1)中获取的数据集为:可见光-红外配对数据集LLVIP。
3.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,所述步骤(2)具体如下:将可见光和红外图片对送入双流网络中提取特征;双流网络采用堆叠卷积层的方式提取多模态特征;将双流网络的可见光支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为可见光输出特征将红外支路中输出特征图大小为80×80×256、40×40×512、20×20×1024的三处特征图作为红外输出特征/>
4.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,所述步骤(3)具体如下:将i=1、2、3处的可见光输出特征和红外输出特征/>按照不同的层分别输入到三个CTF模块中处理;其中,CTF模块包括:特征分解模块FD和高-低频信息特征融合模块两个部分。
5.根据权利要求4所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,特征分解模块FD实现过程如下:将步骤2中可见光输出特征和红外输出特征/>送入两个特征分解模块FD中分别进行处理,每个FD模块包括两个部分,基于Transformer的低频全局信息提取Global和基于CNN的高频局部信息提取Local。
6.根据权利要求5所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,低频全局信息提取Global实现过程如下:
首先,输入特征经过一个层归一化LayerNorm后,分别送入低频全局特征提取模块Global和高频局部特征提取模块Local,提取对于Global部分;/>先经过一个全连接层直接得到查询矩阵Q,再将/>输入到深度可分离卷积DWConv进行降采样处理;然后,分别经过全连接层进行映射,得到关键字矩阵K、值矩阵V;将查询矩阵、关键字矩阵、值矩阵作为输入传到空洞邻近注意力模块进行长程相互依赖建模和提取全局信息,经过残差连接以校正特征;再经过一个层归一化LayerNorm和多层感知机MLP,得到低频全局信息特征公式如下:
Attn=Attention(Q,K',V')
Z=MLP(Norm(Y))+Y。
7.根据权利要求5所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,基于CNN的高频局部信息提取Local实现过程如下:
首先,输入特征经过线性变换来获得查询矩阵Q、关键字矩阵K和值矩阵V;然后,将Q、K、V输入到简单的具有全局共享权重的深度卷积进行局部特征增强,得到具有聚合局部信息的Q’、K’、V’;其次,计算Q’和K’的Hadamard乘积,在经过多层感知机MLP得到Attnh;其中,多层感知机MLP由两个线性层和一个Swish激活函数组成;Attnh经过Softmax激活函数后和V’计算哈达玛积,得到具有局部上下文感知的高频局部信息特征公式如下:
Q',K',V'=DWConv(Q,K,V)
Attnh=FC(Swish(FC(Q'WK')))
8.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,所述步骤(4)具体如下:
对于可见光模态来说,由步骤(3)得到低频全局信息特征和高频局部信息特征对于红外模态来说,由步骤(3)得到低频全局信息特征/>和高频局部信息特征/>将不同模态的低频局部信息特征/>和/>进行相加融合,得到低频全局融合特征/>不同模态的高频局部信息特征/>和/>进行相加融合,得到高频局部融合特征/>将/>和按照通道维度连接起来,再应用一个全连接层进行融合,得到聚合高低频融合特征Zi;公式如下:
9.根据权利要求1所述的一种基于跨模态特征分解的多光谱行人检测方法,其特征在于,所述步骤(6)具体如下:根据损失函数计算预测结果与真实目标框之间的损失值,使用随机梯度下降方式更新网络中的可学习参数;重复步骤(1)-(6),直到重复次数达到预先设定的训练次数,完成训练过程,即可得到检测模型。
10.一种基于跨模态特征分解的多光谱行人检测系统,其特征在于,包括以下模块:
数据获取模块:用于获取可见光和红外图片构成配对的多光谱行人数据集,按照M:N的比例划分为训练集和测试集,每个可见光和红外图片对拥有相同的图片通道数;
网络构建模块:用于采用两路YOLOv8的骨干网络构建双流网络,分别提取可见光模态特征和红外模态特征;
可见光-红外融合特征模块:用于将分层的可见光输出特征和红外输出特征输入到CTF模块中进行特征的提取、分解和融合,得到不同尺度的包含低频信息和高频信息的可见光-红外融合特征;
低频和高频特征融合模块:用于将得到的低频全局信息特征和高频局部信息特征输入至高-低频信息特征融合模块,按照低频和高频特征进行融合;
多尺度融合融合模块:用于将步骤中聚合高低频融合特征输入到YOLOv8网络的Neck层中,进行多尺度融合;
预测模块:用于将得到的多尺度特征输入到YOLOv8网络的检测头中,输出预测框和相对应的置信度得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311164103.7A CN117315714A (zh) | 2023-09-11 | 2023-09-11 | 一种基于跨模态特征分解的多光谱行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311164103.7A CN117315714A (zh) | 2023-09-11 | 2023-09-11 | 一种基于跨模态特征分解的多光谱行人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117315714A true CN117315714A (zh) | 2023-12-29 |
Family
ID=89249028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311164103.7A Pending CN117315714A (zh) | 2023-09-11 | 2023-09-11 | 一种基于跨模态特征分解的多光谱行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315714A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994822A (zh) * | 2024-04-07 | 2024-05-07 | 南京信息工程大学 | 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法 |
CN118097089A (zh) * | 2024-04-19 | 2024-05-28 | 广东工业大学 | 基于整体性网络的夜间仓储机器人目标检测方法及系统 |
CN118097089B (zh) * | 2024-04-19 | 2024-07-02 | 广东工业大学 | 基于整体性网络的夜间仓储机器人目标检测方法及系统 |
-
2023
- 2023-09-11 CN CN202311164103.7A patent/CN117315714A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994822A (zh) * | 2024-04-07 | 2024-05-07 | 南京信息工程大学 | 一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法 |
CN118097089A (zh) * | 2024-04-19 | 2024-05-28 | 广东工业大学 | 基于整体性网络的夜间仓储机器人目标检测方法及系统 |
CN118097089B (zh) * | 2024-04-19 | 2024-07-02 | 广东工业大学 | 基于整体性网络的夜间仓储机器人目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN108537136B (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
CN110675418B (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
CN111222395B (zh) | 目标检测方法、装置与电子设备 | |
CN110689562A (zh) | 一种基于生成对抗网络的轨迹回环检测优化方法 | |
CN110569779B (zh) | 基于行人局部和整体属性联合学习的行人属性识别方法 | |
CN112215255A (zh) | 一种目标检测模型的训练方法、目标检测方法及终端设备 | |
CN112200057A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN117315714A (zh) | 一种基于跨模态特征分解的多光谱行人检测方法 | |
CN116343329A (zh) | 一种红外-可见光多源图像融合一体管控系统和设备 | |
CN110910456A (zh) | 基于Harris角点互信息匹配的立体相机动态标定算法 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN116824319A (zh) | 红外图像与可见光图像的融合方法、设备及存储介质 | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
CN113627504B (zh) | 基于生成对抗网络的多模态多尺度特征融合目标检测方法 | |
CN111160100A (zh) | 一种基于样本生成的轻量级深度模型航拍车辆检测方法 | |
CN116206196B (zh) | 一种海洋低光环境多目标检测方法及其检测系统 | |
CN114743045B (zh) | 一种基于双分支区域建议网络的小样本目标检测方法 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN116188930A (zh) | 一种基于融合事件相机的场景识别方法及系统 | |
WO2023086398A1 (en) | 3d rendering networks based on refractive neural radiance fields | |
CN115359067A (zh) | 一种基于连续卷积网络的逐点融合点云语义分割方法 | |
CN111126310B (zh) | 一种基于场景迁移的行人性别识别方法 | |
CN115167463A (zh) | 一种基于神经网络与人工势场法相结合的路径规划方法 | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |