CN116486431A - 基于目标感知融合策略的rgb-t多光谱行人检测方法 - Google Patents

基于目标感知融合策略的rgb-t多光谱行人检测方法 Download PDF

Info

Publication number
CN116486431A
CN116486431A CN202310319227.1A CN202310319227A CN116486431A CN 116486431 A CN116486431 A CN 116486431A CN 202310319227 A CN202310319227 A CN 202310319227A CN 116486431 A CN116486431 A CN 116486431A
Authority
CN
China
Prior art keywords
multispectral
features
rgb
representing
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310319227.1A
Other languages
English (en)
Inventor
沈会良
张学
张笑寒
俞贝楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310319227.1A priority Critical patent/CN116486431A/zh
Publication of CN116486431A publication Critical patent/CN116486431A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于目标感知融合策略的RGB‑T(热红外,Thermal)多光谱行人检测方法,该方法的目的是能够准确地从一对RGB和热红外图像中确定行人的位置。给定一对待检测的RGB和热红外图像,该方法首先对RGB和热红外图像提取多光谱特征;然后使用目标感知融合策略对提取的多光谱特征进行融合;最后将融合后的特征送入检测头进行行人检测,输出行人位置框以及置信度。本发明可以有效地融合多光谱图像的深层特征,融合过程中增强了行人区域的特征表达并抑制了无关的背景噪声特征,能够实现准确的行人检测。此外,目标感知融合策略是一种可以用于单阶段和双阶段检测器中的特征融合策略,能有效提升YOLO和Faster R‑CNN检测器在多光谱行人检测任务上的准确度。

Description

基于目标感知融合策略的RGB-T多光谱行人检测方法
技术领域
本发明涉及一种RGB-T多光谱图像行人检测方法,特别涉及基于多光谱图像的行人目标位置获取方法,应用到无人驾驶、路况感知和智能监控等领域。
背景技术
通过行人检测可以判断输入的图像或者视频帧中是否包含行人。在智能交通领域,通过行人检测可以判断路况上的行人情况,为无人驾驶决策提供参考依据;在智能安防领域,行人检测也可用来反映安防现场的人员状况,提示安防人员可能的风险。
目前的行人检测方法主要基于RGB图像,尽管它们在光照条件良好的场景中能表现出优异的检测性能,但是在光照条件不好的场景中的表现却差强人意,这是RGB图像在低光条件下的信噪比低导致的。热红外(Thermal)图像对人体热辐射敏感,它不受光照条件影响,能在全天候提供清晰的人体形状信息。但是热红外图像只能提供形状信息无法提供颜色和纹理信息,这使得基于热红外图像的行人检测方法容易受到与行人结构相似的物体影响。因此,多光谱行人检测方法应运而生,它结合RGB和热红外图像的优势,目的是能够实现全天候的行人检测。
多光谱行人检测方法因其具有鲁棒的行人检测表现,受到了研究者的广泛关注。《Multispectral Deep Neural Networks for Pedestrian Detection》研究了在神经网络的不同阶段融合多光谱特征对检测结果的影响,它设计了三种融合方法。一种是将RGB和热红外图像直接拼接成四通道的图像送入神经网络输出检测结果,这种方法叫做早期融合;一种是将RGB和热红外图像分别送入神经网络后,融合神经网络的中间层特征,并基于融合的特征完成检测,这种方法叫做中期融合;一种是将RGB和热红外图像分别送入两个单独的神经网络,并融合它们的检测结果,这种方法叫做晚期融合。这项研究发现中期融合的检测效果优于早期融合和晚期融合的表现。基于该发现,随后的研究中主要采用中期融合策略。
尽管融合多光谱特征能够为单一光谱提供互补信息,但是简单的拼接多光谱特征实现特征融合的方式并不能显著地提高检测表现。为解决这个问题,最近的研究工作提出了不同的特征融合策略。这些融合策略按照在特征融合时是否需要分割分支可以分为:融合时需要分割分支和不需要分割分支两种。
针对融合时不需要分割分支的特征融合策略。《Weakly Aligned Cross-modalLearning forMultispectral Pedestrian Detection》关注于解决多光谱数据中的未配准问题,它使用两个单独的神经网络抽取多光谱特征,并预测多光谱特征之间的位移关系,以实现弱配准多光谱数据的行人检测。
《Improving Multispectral Pedestrian Detection by Addressing ModalityImbalance Problems》意识到多光谱数据的差异性,并解决跨模态数据中信息不平衡的问题。
《Spatio-contextual Deep Network-based Multimodal Pedestrian Detectionfor Autonomous Driving》关注于解决多光谱特征融合过程中的空间和上下文信息聚合的问题。它使用图注意力网络融合多光谱特征,并使用条件随机场处理融合特征的空间信息,随后使用通道注意力机制和循环神经网络处理融合特征的上下文信息。
《BAANet:Learning Bi-directional Adaptive Attention Gates forMultispectral Pedestrian Detection》发现在低光照场景下RGB图像难以捕获清晰的行人信息,而在环境温度较高但光照良好的场景下,因为行人热辐射与环境中其它物体的热辐射相近,热红外图像难以区分行人和其它物体。它提出了双向注意力门控机制以及场景光照分类网络,能够在不同光照条件下自适应地使用有利的光谱信息。
《Learning a Dynamic Cross-modal Network for Multispectral PedestrianDetection》在融合多光谱特征时,动态地结合局部和非局部信息,以实现更好的检测表现。
《Multimodal Object Detection via Probabilistic Ensembling》使用集成学习的方式结合多个检测器的检测结果。
针对融合时使用分割分支的特征融合策略。《Multispectral PedestrianDetection via Simultaneous Detection and Segmentation》为原来的检测器引入了新的分割分支,并使用多任务损失函数监督分割和检测网络,这种方法获得了良好的检测表现。
《Guided Attentive Feature Fusion for Multispectral PedestrianDetection》采用分割分支预测分割掩膜,并基于该掩膜引导跨光谱和单一光谱的注意力。
《Locality Guided Cross-modal Feature Aggregation and Pixel-levelFusion for Multispectral Pedestrian Detection》使用分割分支预测分割掩膜,并基于该掩膜从互补的光谱特征中筛选局部特征,进而增强特定位置处的特征表达。
最近的研究发现,在融合过程中使用分割分支的方法普遍优于不使用分割分支的方法,所以本发明采用融合中使用分割分支的策略。不同于上述所有方法,本发明旨在融合多光谱特征并优化融合的特征,以增强行人区域的特征表达,抑制背景区域的特征表达,实现更准确的多光谱行人检测效果。
发明内容
针对现有技术中存在的问题,本发明提出一种基于目标感知融合策略的RGB-T多光谱行人检测方法,整体流程如下:
一种基于目标感知融合策略的RGB-T多光谱行人检测方法,该方法为:给定一对配准的可见光(RGB)和热红外(T)图像,首先提取多光谱特征,然后基于目标感知融合策略在特征空间对提取的多光谱特征进行融合,最后将融合的特征送入目标检测领域常用的检测头,输出行人的位置框和置信度,完成检测过程。
上述技术方案中,进一步地,所述的基于目标感知融合策略在特征空间对提取的多光谱特征进行融合,包括两个步骤:
S1:多光谱特征聚合。使用特征通道分层机制处理多光谱特征,输出初步融合的特征。使用特征通道分层机制处理多光谱特征,分两路处理多光谱特征,具体步骤为:一路使用一层卷积层压缩多光谱特征的通道维度,另一路使用一层卷积和残差模块压缩多光谱特征的通道维度。之后将两路被处理的特征在通道维度上拼接并经过一层卷积层输出初步融合的特征;多光谱特征聚合的优点在于,为拼接的多光谱特征提供了更多梯度流,能够更好地优化多光谱特征。
S2:多光谱特征优化。分成两路优化初步融合的特征,具体步骤为:一路使用三层卷积层将初步融合的特征处理成一个单通道的二维置信度图,随后计算该置信度图与初步融合的通道特征图之间的相关性向量,之后使用两层全连接层处理该相关性向量。另一路将所述初步融合的特征与上述经全连接层处理的相关性向量相乘,获得优化的特征并输出;多光谱特征优化的优点在于,根据特征图与二维置信度图的相关性自适应地调整每个通道特征图的权重。
一种用于执行上述方法的行人检测模型,在检测模型的训练过程中,为了保证模型准确性,在多光谱特征优化过程中设计一个相关性最大损失函数。相关性最大损失函数包括为两个部分:1)分割损失函数监督预测的二维置信度图与真实置信度图之间的一致性;2)最大化信息熵损失函数监督相关性向量中每个位置的相关度最大化。
所述检测模型的训练过程包括如下步骤:
1)使用RGB相机和热红外光相机采集应用场景下配准的多光谱图像;
2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征,分别表示为Frgb和Fthermal,记录卷积神经网络在不同层级输出的多光谱特征,将提取的多光谱特征在通道方向进行拼接,得到在通道方向拼接的特征;
3)采用目标感知融合模块在特征空间对所述在通道方向拼接的特征进行融合,具体步骤如下:
4)在每个层级进行如下处理:
首先,使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征Fx
其中,[Frgb,Fthermal]表示在通道方向上拼接的RGB和热红外图像特征;表示多光谱特征聚合模块中的第i个卷积层,θi表示第i个卷积层的可学习参数;/>表示一个残差卷积模块。
接着,分两路优化初步融合的特征Fx,并输出优化后的特征Fy
其中,
表示逐像素相乘操作;s为相关性向量;/>表示由两个全连接层组成的多层感知机;/>表示预测的二维置信度图m与融合的特征Fx第i个通道特征图的相关性运算;σ(·)表示sigmoid运算;θseg表示分割分支的可学习参数。
根据预测的二维置信度图m,真实的二维置信度图以及相关性向量s,计算相关性最大损失函数
其中,真实的二维置信度图真值的获取方式为:将给定图片所对应的标注框内的区域均设为1,其它区域设为0;/>为分割损失函数;/>为最大化信息熵损失函数;α表示平衡系数,用于控制两个损失函数之间的权重关系;
表示二值交叉熵损失函数;/>表示Dice损失函数;ε是一个小的常数,为了防止除以0和除0的情况。mi和/>表示二维置信度图m和真实的二维置信度图/>在第i个位置处的值;si表示相关性向量s在第i个位置处的值。
5)在卷积神经网络的不同层级重复步骤4),并记录不同层级下目标感知融合模块输出的特征Fy和损失值
6)将不同层级的特征送入特征金字塔网络,以融合多尺度的特征,并记录。
7)将步骤6)得到的多尺度特征输入到检测器的检测头中,输出预测框和相对应的置信度得分。
8)计算预测结果与真实目标框之间的损失值,并记录。
9)加权步骤5)与8)中计算所得的损失值。
10)根据步骤9)所得的损失值,使用随机梯度下降方式更新卷积神经网络的可学习参数。
11)重复步骤1)-10),直到重复次数达到预先设定的训练次数,完成训练过程,即可得到检测模型。
本发明的优势在于:
充分利用RGB和热红外图像信息互补的优势,弥补当前检测器易受光照条件影响的不足,实现鲁棒的全天候行人检测;监督多光谱特征融合过程,而不是仅使用最终检测头的分类与回归损失监督预测框;目标感知融合策略输出的特征强调了目标位置处的特征表达,弱化了无关背景上的特征表达。此种特征图能够更显著地区分目标物体与无关的背景噪声,进而帮助检测器达到更好的检测表现;本发明提出的目标感知融合策略是一种方便、通用的多光谱特征融合策略,可以用到Faster R-CNN和YOLO中,提升它们在多光谱行人检测任务上的检测性能。
附图说明
图1为神经网络中特征与通道特征图的定义。
图2为本发明实施例的模型训练阶段流程图。
图3为本发明实施例的模型进行行人检测的流程图。
图4为本发明实施例的多光谱图像特征聚合模块流程图。
图5为本发明实施例的模型训练阶段多光谱特征优化模块流程图。
图6为本发明实施例的模型推理阶段多光谱特征优化模块流程图。
图7为本发明实施例的原始输入图像、真实标注和检测结果。(a)RGB-T输入图片,左图为RGB图像,右图为热红外图像。(b)真实的标注与检测结果。绿色框表示真实标注,红色框表示检测结果。
具体实施方式
以下结合具体实施例和附图进一步说明本发明技术方案。
实施例
本发明提供一种基于目标感知融合策略的RGB-T多光谱行人检测方法,步骤如下:
给定一对配准的可见光RGB和热红外T图像,首先提取多光谱特征,然后基于目标感知融合策略在特征空间对提取的多光谱特征进行融合,最后将融合得到的特征送入检测头,输出行人的位置框和置信度,完成检测过程。
本发明还提供一种用于执行上述方法的行人检测模型,以下将对检测模型的训练过程以及基于该模型进行行人检测的具体过程进行阐述。
如图1,对特征和通道特征图进行定义:输入图片送入神经网络后,输出的结果定义为特征,它的维度为h×w×c,其中h,w,c分别为特征的高,宽和通道数。在通道方向的每一个h×w的矩阵叫做通道特征图。
一种基于目标感知融合策略的多光谱行人检测模型,训练过程如图2所示。
1)首先,使用RGB相机和热红外光相机采集应用场景下配准的多光谱(RGB和热红外)图像。
2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征,分别表示为Frgb和Fthermal,记录卷积神经网络在不同层级输出的多光谱特征,将上述提取的多光谱特征在通道方向进行拼接,得到在通道方向拼接的特征。
3)采用目标感知融合模块在特征空间对所述在通道方向拼接的特征进行融合,具体步骤如下:
4)在每个层级进行如下处理:
所述目标感知融合模块包括多光谱特征聚合模块和多光谱特征优化模块。多光谱特征聚合模块使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征Fx。使用特征通道分层机制处理神经网络提取的多光谱特征,分两路处理多光谱特征:一路使用一层卷积层压缩多光谱特征的通道维度,另一路使用一层卷积和残差模块压缩多光谱特征的通道维度。之后将两路被处理的特征在通道维度上拼接并经过一层卷积层输出初步融合的特征:
其中,[Frgb,Fthermal]表示在通道方向上拼接的RGB和热红外图像特征;表示多光谱特征聚合模块中的第i个卷积层,θi表示第i个卷积层的可学习参数;/>表示一个残差卷积模块。该过程如图4所示。
多光谱特征优化模块分两路优化初步融合的特征Fx,并输出优化后的特征Fy,具体步骤为,一路使用三层卷积层将初步融合的特征处理成一个单通道的二维置信度图,随后计算该置信度图与初步融合的通道特征图之间的相关性向量,之后使用两层全连接层处理该相关性向量。另一路将所述初步融合的特征与上述经全连接层处理的相关性向量相乘,获得优化的特征并输出:
其中,
表示逐像素相乘操作;s为相关性向量:/>表示由两个全连接层组成的多层感知机;/>表示预测的二维置信度图m与融合的特征Fx第i个通道特征图的相关性运算;σ(·)表示sigmoid运算;θseg表示分割分支的可学习参数。
根据预测的二维置信度图m,真实的二维置信度图以及相关性向量s,计算相关性最大损失函数
其中真实的二维置信度图真值的获取方式为:将给定图片所对应的标注框内的区域均设为1,其它区域设为0;/>为分割损失函数;/>为最大化信息熵损失函数;;α表示平衡系数,用于控制两个损失函数之间的权重关系。
表示二值交叉熵损失函数;/>表示Dice损失函数;ε是一个小的常数,为了防止除以0和除0的情况。mi和/>表示二维置信度图m和真实的二维置信度图/>在第i个位置处的值;si表示相关性向量s在第i个位置处的值。优化过程如图5所示。
5)在卷积神经网络的不同层级重复步骤4),并记录不同层级下目标感知融合模块输出的特征Fy和损失值
6)将不同层级的特征送入特征金字塔网络,以融合多尺度的特征,并记录。
7)将步骤6)所得多尺度特征输入到检测器的检测头中,输出预测框和相对应的置信度得分。
8)计算预测的结果与真实目标框之间的损失值,并记录。
9)加权步骤5)与8)中计算所得的损失值。
10)根据步骤9)中计算所得的损失值,使用随机梯度下降方式更新卷积神经网络的可学习参数。
11)重复步骤1)-10),直到重复次数达到预先设定的训练次数,完成训练过程。
如图3展示了基于上述模型执行行人检测的具体过程,步骤如下:
1)首先,使用RGB相机和热红外光相机采集应用场景下配准的多光谱(RGB和热红外)图像。
2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征,分别表示为Frgb和Fthermal,记录卷积神经网络在不同层级输出的多光谱特征,将提取的多光谱特征在通道方向进行拼接。
3)采用目标感知融合模块在特征空间对提取的多光谱特征进行融合,具体步骤如下:
4)在每个层级进行如下处理:
多光谱特征聚合模块使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征Fx
其中,[Frgb,Fthermal]表示在通道方向上拼接的RGB和热红外图像特征;表示多光谱特征聚合模块中的第i个卷积层,θi表示第i个卷积层的可学习参数;/>表示一个残差卷积层,该过程如图4所示。
多光谱特征优化模块分两路优化初步融合的特征Fx,并输出优化后的特征Fy
其中,
表示逐像素相乘操作;s为相关性向量;/>表示由两个全连接层组成的多层感知机;/>表示预测的二维置信度图m与融合的特征Fx第i个通道特征图的相关性运算;σ(·)表示sigmoid运算,该过程如图6所示。
5)在卷积神经网络的不同层级重复步骤4),并记录不同层级下目标感知融合模块输出的特征Fy
6)将不同层级的特征送入特征金字塔网络,以融合多尺度的特征,并记录;
7)将输出的多尺度特征输入到检测器的检测头中,输出预测框和相对应的置信度得分,完成检测过程。
如图7为基于本发明方法进行行人检测的结果,由图7可知本发明方法的检测结果与真实标注完全一致,该方法能够实现全天候的行人检测。

Claims (4)

1.一种基于目标感知融合策略的RGB-T多光谱行人检测方法,其特征在于,步骤如下:
给定一对配准的可见光RGB和热红外T图像,首先提取多光谱特征,然后基于目标感知融合策略在特征空间对提取的多光谱特征进行融合,最后将融合得到的特征送入检测头,输出行人的位置框和置信度,完成检测过程。
2.根据权利要求1所述的一种基于目标感知融合策略的RGB-T多光谱行人检测方法,其特征在于,所述基于目标感知融合策略在特征空间对提取的多光谱特征进行融合,包括两个步骤:
S1:多光谱特征聚合:使用特征通道分层机制处理所述多光谱特征,输出初步融合的特征;
S2:多光谱特征优化,分成两路优化初步融合的特征,具体方法为:一路使用三层卷积层将初步融合的特征处理成一个单通道的二维置信度图,随后计算所述二维置信度图与初步融合的通道特征图之间的相关性向量,之后使用两层全连接层处理所述相关性向量;另一路将所述初步融合的特征与所述经全连接层处理的相关性向量相乘,获得优化的特征并输出。
3.根据权利要求2所述的一种基于目标感知融合策略的RGB-T多光谱行人检测方法,其特征在于,所述步骤S1中,所述特征通道分层机制分两路处理所述多光谱特征,具体方法为:一路使用一层卷积层压缩多光谱特征的通道维度,另一路使用一层卷积和残差模块压缩多光谱特征的通道维度,之后将两路处理的特征在通道维度上拼接并经过一层卷积层输出初步融合的特征。
4.一种用于执行权利要求1-3任一项所述方法的检测模型,其特征在于,所述检测模型的训练过程包括如下步骤:
1)使用RGB相机和热红外光相机采集应用场景下配准的多光谱图像;
2)使用一个卷积神经网络分别对RGB图像和热红外光图像提取深层特征,分别表示为Frgb和Fthermal,记录卷积神经网络在不同层级输出的多光谱特征,将提取的多光谱特征在通道方向进行拼接,得到在通道方向拼接的特征;
3)采用目标感知融合模块在特征空间对所述在通道方向拼接的特征进行融合,具体步骤如下:
4)在每个层级进行如下处理:
首先,使用特征通道分层机制处理拼接的多光谱特征输出初步融合的特征Fx
其中,[Frgb,Fthermal]表示在通道方向上拼接的RGB和热红外图像特征;表示多光谱特征聚合模块中的第i个卷积层,θi表示第i个卷积层的可学习参数;/>表示一个残差卷积模块;
接着,分两路优化初步融合的特征Fx,并输出优化后的特征Fy
其中,
表示逐像素相乘操作;s为相关性向量;σ(·)表示sigmoid运算;/>表示由两个全连接层组成的多层感知机;/>表示预测的二维置信度图m与融合的特征Fx第i个通道特征图的相关性运算;θseg表示分割分支的可学习参数;
根据预测的二维置信度图m,真实的二维置信度图以及相关性向量s,计算相关性最大损失函数
其中,真实的二维置信度图真值的获取方式为:将给定图片所对应的标注框内的区域均设为1,其它区域设为0;/>为分割损失函数;/>为最大化信息熵损失函数;α表示平衡系数,用于控制两个损失函数之间的权重关系;
表示二值交叉熵损失函数;/>表示Dice损失函数;∈是一个小的常数,为了防止除以0和除0的情况;mi和/>表示二维置信度图m和真实的二维置信度图/>在第i个位置处的值;si表示相关性向量s在第i个位置处的值;
5)在卷积神经网络的不同层级重复步骤4),并记录不同层级下目标感知融合模块输出的特征Fy和损失值
6)将不同层级的特征送入特征金字塔网络,以融合多尺度的特征,并记录;
7)将步骤6)得到的多尺度特征输入到检测器的检测头中,输出预测框和相对应的置信度得分;
8)计算预测结果与真实目标框之间的损失值,并记录;
9)加权步骤5)与8)中计算所得的损失值;
10)根据步骤9)所得的损失值,使用随机梯度下降方式更新卷积神经网络的可学习参数;
11)重复步骤1)-10),直到重复次数达到预先设定的训练次数,完成训练过程,即可得到检测模型。
CN202310319227.1A 2023-03-29 2023-03-29 基于目标感知融合策略的rgb-t多光谱行人检测方法 Pending CN116486431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310319227.1A CN116486431A (zh) 2023-03-29 2023-03-29 基于目标感知融合策略的rgb-t多光谱行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310319227.1A CN116486431A (zh) 2023-03-29 2023-03-29 基于目标感知融合策略的rgb-t多光谱行人检测方法

Publications (1)

Publication Number Publication Date
CN116486431A true CN116486431A (zh) 2023-07-25

Family

ID=87218630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310319227.1A Pending CN116486431A (zh) 2023-03-29 2023-03-29 基于目标感知融合策略的rgb-t多光谱行人检测方法

Country Status (1)

Country Link
CN (1) CN116486431A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883825A (zh) * 2023-07-26 2023-10-13 南京信息工程大学 结合多模态数据融合和Multiplemix的水下目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883825A (zh) * 2023-07-26 2023-10-13 南京信息工程大学 结合多模态数据融合和Multiplemix的水下目标检测方法
CN116883825B (zh) * 2023-07-26 2024-08-02 南京信息工程大学 结合多模态数据融合和Multiplemix的水下目标检测方法

Similar Documents

Publication Publication Date Title
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN111582201A (zh) 一种基于几何注意力感知的车道线检测系统
CN111428556B (zh) 一种基于胶囊神经网络的交通标志识别方法
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN109034184B (zh) 一种基于深度学习的均压环检测识别方法
CN111582092B (zh) 一种基于人体骨架的行人异常行为检测方法
CN111291809A (zh) 一种处理装置、方法及存储介质
CN108769550B (zh) 一种基于dsp的图像显著分析系统及方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN107066916A (zh) 基于反卷积神经网络的场景语义分割方法
CN110111351B (zh) 融合rgbd多模态信息的行人轮廓跟踪方法
CN110807384A (zh) 低能见度下的小目标检测方法和系统
CN116704273A (zh) 一种自适应红外可见光双模融合检测方法
CN113139501B (zh) 一种联合局部区域检测与多级特征抓取的行人多属性识别方法
CN116681636B (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN112819858B (zh) 基于视频增强的目标跟踪方法、装置、设备及存储介质
CN114842503B (zh) 基于YOLOv5网络的头盔检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN116486431A (zh) 基于目标感知融合策略的rgb-t多光谱行人检测方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN115880663A (zh) 一种低照度环境交通标志检测与识别方法
CN111898427A (zh) 一种基于特征融合深度神经网络的多光谱行人检测方法
CN115019340A (zh) 一种基于深度学习的夜间行人检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination