CN115410147A - 面向全天候的跨模态自适应融合行人目标检测系统及方法 - Google Patents
面向全天候的跨模态自适应融合行人目标检测系统及方法 Download PDFInfo
- Publication number
- CN115410147A CN115410147A CN202210979010.9A CN202210979010A CN115410147A CN 115410147 A CN115410147 A CN 115410147A CN 202210979010 A CN202210979010 A CN 202210979010A CN 115410147 A CN115410147 A CN 115410147A
- Authority
- CN
- China
- Prior art keywords
- modal
- infrared
- visible light
- feature
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 230000004927 fusion Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 23
- 230000008447 perception Effects 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 33
- 230000003044 adaptive effect Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 238000005286 illumination Methods 0.000 claims description 13
- 230000002902 bimodal effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明提供了一种面向全天候的跨模态自适应融合行人目标检测系统及方法,主要包括跨模态差分信息融合模块和置信度感知自适应融合模块两部分。跨模态差分信息融合模块主要是针对网络提取后的可见光及红外模态的特征信息进行互补特征加强,通过全局池化及平均池化操作增强两者的差分特征图的空间信息,然后通过全连接层及Tanh激活函数获取各个模态的融合特征向量,进而对初步提取的可见光及红外模态特征分别进行特征增强表达;置信度感知自适应融合模块充分利用置信度感知表达对增强后的不同模态之间的特征进行自适应加权,使得网络检测器能够更好地选择可信赖的模态进行处理,提升检测器的鲁棒性;最后利用多任务损失实现网络模型参数优化。
Description
技术领域
本发明涉及图像处理、目标检测技术领域,具体涉及为一种面向全天候的跨模态自适应融合行人目标检测系统及方法。
背景技术
行人目标检测技术在计算机视觉领域是一个十分重要的研究课题,在视频监控,自动驾驶,军事侦查,人机交互等领域得到了广泛的应用。行人目标检测在实际应用中仍然存在较多的挑战,比如目标被遮挡,背景杂乱,低图像分辨率等等。
理论上,利用单一视觉传感器的检测算法可以进行准确的行人检测,但在实际的全天候检测中,由于光线、亮度环境多变性和不同摄像头成像的差异性,单一的可见光及红外传感器采集的图像都不能顾及所有的情况,常导致不同原因的行人漏检和误检,准确率不佳。比如,可见光摄像头对光照非常敏感,在昏暗的亮度条件下,获取的图像整体像素值较低,导致图像中目标的纹理、形状、细节等成像信息有限,容易发生识别错误;红外图像普遍存在分辨率较差的问题,一般只能表现出图像中目标前景的轮廓信息,背景细节粗糙,与人眼视觉感知效果的差距较大。因此如何利用这两种模态设计更为鲁棒的面向全天候的行人目标检测器十分重要。
目前,已经有了很多的行人检测方法,但是过去大多数对行人检测的研究多集中于单一可见图像或者单一红外图像,造成检测器的鲁棒性不强,无法全天候适应。通常来说,可见波段对于光照变化敏感,在夜间、昏暗或雾霾等环境表现欠佳,红外波段又缺乏细节信息,对于热辐射差异较小或其他热源干扰情况下检效果较差,因此现有的行人检测研究更多地放在了这两种模态的信息融合方面上,让各个模态的特征信息优势互补。具体来说,在多光谱行人检测中,可见光及红外双模态输入的行人检测器在光照较好时,可见光模态分支可以很好地获取行人的外观颜色信息,而红外模态作为多光谱行人检测的另一端输入源,其使用红外成像技术提供的红外图片在黑暗条件下可以较好地显示出人体轮廓信息,弥补可见光模态的不足,多模态行人检测器有效地利用了多模态图像之间的信息,提升了网络模型的鲁棒性。
但是,现存的行人检测方法存在以下缺点:已有的多模态行人检测方法仅侧重的是对各个模态特征进行简单的特征加强,未能高效地利用两种模态的特征信息,也未充分考虑模态与模态之间的关系;其次,现有大多数方法未能关注到每种模态对检测任务的贡献不同,无法有效地自适应环境的动态变化。因此,研究一种面向全天候的跨模态自适应融合行人目标检测方法是当前亟待解决的问题。
专利《一种基于特征融合深度神经网络的多光谱行人检测方法》(公开号:CN111898427A)也提出了一种多光谱行人检测方法,然而该方法中仅仅针对损失函数进行优化,该方法无法自适应选择最优模态进行加权输出,因此无法自适应外界环境的变化,实现全天候检测。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种面向全天候的跨模态自适应融合行人目标检测方法,通过自适应加权思想可以很好地选择最可信模态输出,采用加权融合可见光与红外模态特征思想,更好地实现全天候行人检测;而且可以充分地对输入的可见光及红外模态特征进行融合增强,并且能够自适应选择最可信的模态进行检测输出,提升了网络模型在全天候条件下的行人检测能力,降低误检率。
本发明方法采用可见光及红外行人图像这两种模态图像作为网络的输入,针对两路输入的图像分别提取特征,将提取后的特征送入跨模态差分信息融合模块,进而将不同路的模态特征信息进行融合增强,提高可见光及红外模态分支的特征信息表达。接下来,将增强后的可见光及红外特征信息送入置信度感知自适应融合模块,利用重新加权思想,让算法模型能够选择更加可信的模态同时抑制另外一种模态的特征表达,进而在全天候条件下自适应实现行人目标的检测,提升了行人目标检测器在白天及夜晚等恶劣光照条件下的检测能力,保证了算法的鲁棒性。
为了达到上述目的,本发明技术解决方案为:
一种面前全天候的跨模态自适应融合行人目标检测系统,包括图像输入及预处理部分、特征提取及增强部分和检测头及结果输出部分;
图像输入及预处理部分,用于可见光模态分支和红外模态分支输入图像的尺寸统一,并采用缩放、翻转、随机裁剪、色彩变换操作对输入的训练样本集进行数据扩充;
特征提取及增强部分,特征提取部分利用单阶段多框预测检测器SSD算法框架对可见光模态分支及红外模态分支输入的图像进行多尺度特征提取,获得提取后双模态多尺度特征,即可见光模态分支的多尺度可见光特征FR和红外模态分支的多尺度红外特征FT;特征增强部分,利用跨模态差分信息融合模块对提取后的双模态多尺度特征进行特征增强,分别得到增强后的可见光模态特征及红外模态特征;
检测头及结果输出部分,检测头部分首先利用置信度感知自适应融合模块产生可见光模态置信度权重Wr及红外模态置信度权重Wt,对增强后的可见光及红外模态特征进行加权融合,其中可见光模态置信度权重Wr及红外模态置信度权重Wt依据外界光照强度变化而自适应变化,因此目标检测系统的整体网络框架依照外界光照的强度变化自适应地对不同模态提取到的特征进行加权融合,即在良好光照条件下,Wr大于或等于Wt,可见光模态特征起主导作用;在恶劣光照条件下,Wr小于Wt红外模态特征起主导作用;置信度感知自适应融合模块使得整体网络框架依据外界光照变化而自适应地加权融合可见光及红外模态的特征,使得更可靠的模态的特征得到增强表达;再将获得的自适应加权融合后的可见光及红外模态特征送入全连接层,进行整体网络框架的网络模型训练,并保存训练得到的网络模型参数;训练过程中的多任务损失部分用于计算可见光模态分支和红外模态分支的分类损失和回归损失,实现网络模型参数优化,最后利用获得的最优网络参数进行网络模型推理部署,得到在可见光及红外模态下的行人目标检测结果,实现全天候行人目标检测。
进一步,所述特征提取部分利用单阶段多框预测检测器SSD算法框架对可见光模态分支及红外模态分支输入的图像进行多尺度特征提取,获得提取后双模态多尺度特征,即可见光模态分支的多尺度特征和红外模态分支的多尺度特征的具体如下:
利用单阶段多框预测检测器SSD算法框架进行多尺度特征提取产生不同分辨率的特征图提升对不同尺度行人目标的检出率,其中选取图1中所示的R_FM1,R_FM2,R_FM3,R_FM4,R_FM5五个特征层作为可见光模态分支的多尺度特征FR,进行可见光模态特征提取,其中R_FM1,R_FM2前两个为浅层网络特征层,R_FM3,R_FM4,R_FM5后三个为深层网络特征层;选取图1中所示的T_FM1,T_FM2,T_FM3,T_FM4,T_FM5五个特征层作为红外模态分支的多尺度特征FT,进行红外模态特征提取,其中T_FM1,T_FM2前两个为浅层网络特征层,T_FM3,T_FM4,T_FM5后三个为深层网络特征层;浅层网络特征层R_FM1,R_FM2,T_FM1,T_FM2负责检测行人的细节和纹理信息,深层网络特征层R_FM3,R_FM4,R_FM5,T_FM3,T_FM4,T_FM5负责行人的全局信息和语义信息;这种多尺度特征提取方法提取使网络模型获得不同的感受野,能够在不同尺度的行人目标上捕获特征信息;
所述不同分辨率是考虑到64倍的下采样率使得网络相比于16倍及32倍的下采样率会导致网络模型丢失多的行人细节信息,因此在目标检测系统的整体网络框架的前端的特征提取部分的最后一层输出,采用空洞卷积使得最后一层特征图R_FM5及T_FM5的下采样率仍与上一层特征图R_FM4及T_FM4的下采样率相同,保持为32;因此可见光模态分支和红外模态分支的特征图的下采样率均分别为4,8,16,32,32,两路分支的特征图尺寸大小分别输入图像大小的1/4,1/8,1/16,1/32,1/32。
进一步,所述增强部分中,利用跨模态差分信息融合模块对提取后的双模态多尺度特征进行特征增强,分别得到增强后的可见光模态特征及红外模态特征实现为:
跨模态差分信息融合模块将输入的多尺度可见光特征FR及多尺度红外特征FT进行差分提取,得到两者的初步差分特征FC,将初步获取的差分特征分别进行最大池化和平均池化,然后通过全连接层利用Tanh激活函数进行激活,获取融合后的特征向量VC为:
Vc=σ(MLP(AvgPool(FC))+MLP(MaxPool(FC)))
式中,σ表示Tanh激活函数,AvgPool和Maxpool分别代表平均池化和最大池化操作;再利用融合后的特征向量VC对可见光模态及红外模态进行特征融合增强,获得增强后的可见光模态特征E_FR及增强后的红外模态特征E_FT,其计算过程表示为:
式中,代表残差方程,⊕及⊙代表矩阵对应元素依次相加及矩阵对应元素依次相乘操作,如图2所示,FRC及FTC分别代表输入的多尺度可见光特征FR及多尺度红外特征FT经过特征向量VC加权融合后的可见光模态信息融合特征及红外模态信息融合特征。
进一步,所述检测头及结果输出部分中,置信度感知自适应融合模块加权融合来自增强后的不同模态的特征图时,可见光模态置信度权重Wr及红外模态置信度权重Wt分别为:
式中,p1代表检测目标为行人的概率,p0分代表为背景的概率;r和t分别代表可见光模态和红外模态;最终使用乘法运算在增强后的可见光模态特征E_FR及红外模态特征E_FT上利用获得的可见光模态置信度权重Wr及红外模态置信度权重Wt执行特征加权融合,加强整体网络框架对红外及可见光模态的感知能力。
进一步:所述多任务损失部分,利用Focal loss函数计算网络模型的分类损失,Smooth L1函数计算网络模型的回归损失,将两者的加权和作为整体网络框架的总损失函数,其中:
分类损失函数Lcls采用Focal loss函数进行计算,如下:
式中,S+,S-分别代表正负样本,超参数α=0.25,γ=2,si代表样本i的为行人目标概率;
位置回归损失采用Smooth L1进行计算,如下:
式中,x代表位置回归中回归框的坐标值;
整体网络框架的多任务损失函数Ltotal为:
Ltotal=Lcls+λLreg
式中,λ为控制分类损失及回归损失计算的超参数,设λ=1。
如图4所示,本发明的一种面向全天候的跨模态自适应融合行人目标检测方法,包括以下步骤:
步骤1:利用单阶段多框预测检测器SSD算法框架对红外和可见光双模态输入的图像进行多尺度特征提取,选取R_FM1,R_FM2,R_FM3,R_FM4,R_FM5五个特征层作为可见光模态分支的多尺度可见光特征;选取T_FM1,T_FM2,T_FM3,T_FM4,T_FM5五个特征层作为红外模态分支的多尺度红外特征;再利用跨模态差分信息融合模块对提取后的可见光及红外模态多尺度特征进行特征增强,得到增强后的可见光模态特征及红外模态特征;
步骤2:利用置信度感知自适应融合模块对从特征提取及增强部分获取的增强后的可见光模态特征及红外模态特征进行加权选择,置信度感知自适应融合模块自适应加权融合来自步骤1增强后的可见光模态及红外模态特征,使得整体网络框架能够对增强后的可见光模态及红外模态自适应加权融合更加可依赖的模态用于后续的检测输出;多任务损失部分用于计算可见光模态分支及红外模态分支的分类损失和回归损失,实现网络模型参数优化;最后利用获得的最优网络参数进行网络模型推理部署,得到在可见光及红外模态下的行人目标检测结果,实现全天候行人目标检测。
本发明提出的行人目标检测方法与现有技术相比的优点有:
(1)本发明采用一种双流跨模态可见光及红外图像对作为网络的输入,解决了单一模态输入的网络无法全天候检测的不足。实验结果表明可见光模态与红外模态可以提供在白天或者夜晚条件下互补的视觉信息,算法可以自适应实现全天候行人目标检测,鲁棒性获得提升;
(2)本发明设计了一种跨模态差分信息融合模块,该模块将可见光模态及红外模态获取的特征信息进行差分提取,获取两种模态的差分特征,后续用来增加各个模态的特征表征,增强后的各个模态更好地对输入图像进行了特征表达。该模块可以更好地利用不同模态之间的相互关系信息,减少了冗余信息的学习,向网络传达了更多的有效信息。
(3)本发明的一种置信度感知自适应融合模块,借助置信度感知表达的方法将各个模态的特征信息进行重新加权,进而使检测器可以更好地自适应选择可依赖性更高的模态进行后续检测输出。
附图说明
图1为本发明的面向全天候的跨模态自适应融合行人目标检测系统结构框图;
图2为本发明跨模态差分信息融合模块示意图;
图3为本发明置信度感知自适应融合模块示意图;
图4为本发明实施例模型训练和测试流程图;
图5为本发明两组实际应用场景测试图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明分为图像输入及预处理部分,特征提取及增强部分,检测头及结果输出部分三大部分。其具体实现步骤如下:
步骤一:由图像处理及预处理部分将成对的可见光及红外双流模态训练图片行人目标检测数据集进行划分,将标注信息转化为网络模型可直接读取的格式,数据集划分为训练集及测试集,并对数据集进行相应的预处理,即采用缩放、翻转、随机裁剪、色彩变换、等操作对输入的训练样本集进行数据扩充;
其中,实验环境配置:Ubuntu18.04,GPU型号为RTX 3070,cuDNN版本为8.0.5,CPU型号为Intel(R)Core(TM)i7-10850K@3.60GHz。输入的图片尺度统一转化为640×512像素;最大迭代次数inter_size设为120,000次;训练批次尺寸batch_size设为16;初始学习率设为0.001,在迭代至80,000次、100,000次的时候学习率衰减10倍;测试频率设为1000次迭代/1次;采用Xavier初始化方法随机初始化网络卷积层;反向传播方法采用SGD随机梯度下降算法;动量参数设为0.9;分类IOU阈值参数设为0.5;锚框的纵横比设定为0.41;
步骤二:由特征提取及增强部分对经过步骤一中预处理后的双流模态训练图片进行初步特征提取,如图1所示,具体表现为利用提取SSD算法框架对各个模态分别进行多尺度特征提取,选取R_FM1,R_FM2,R_FM3,R_FM4,R_FM5作为可见光模态分支的多尺度可见光特征FR;T_FM1,T_FM2,T_FM3,T_FM4,T_FM5作为红外模态分支的多尺度红外特征FT。考虑到64倍的下采样率使得网络相比于16倍及32倍的下采样率会导致网络模型丢失多的行人细节信息,因此在整体网络框架前端的特征提取部分的最后一层输出,采用空洞卷积使得最后一层特征图R_FM5及T_FM5的下采样率仍与上一层特征R_FM4及T_FM4的下采样率相同,保持为32;因此可见光模态分支和红外模态分支的特征图的下采样率均分别为4,8,16,32,32,两路分支的特征图尺寸大小分别输入图像大小的1/4,1/8,1/16,1/32,1/32,图1中H及W分别代表输入图像的高和宽;
步骤三:针对各个分支模态提取的多尺度特征,将其送入跨模态信息融合模块,进行互补特征增强。所述跨模态信息融合模块如图2所示,具体表现为在:
将可见光模态特征FR及红外模态特征FT进行差分特征提取,得到初步差分特征FC,将初步获取的差分特征进行最大池化和平均池化,然后送入全连接网络,利用Tanh激活函数对网络进行激活,获取融合特征向量VC,因此VC可以表示为:
Vc=σ(MLP(AvgPool(FC))+MLP(MaxPool(FC)))
式中,σ表示Tanh激活函数,AvgPool和MaxPool分别代表平均池化和最大池化操作;
步骤四:利用融合特征向量VC对双路模态进行特征融合增强,获取可见光模态增强后的特征E_FR及红外模态增强后的特征E_FT,如图2所示,具体操作表示为:
式中,代表残差方程,⊕及⊙代表矩阵对应元素依次相加及矩阵对应元素依次相乘操作,FRC及FTC分别代表输入的可见光特征FR及红外特征FT经过特征向量Vc加权融合后的可见光模态信息融合特征及红外模态信息融合特征。
步骤五:将经过增强后的可见光模态特征及红外模态特征送入置信度感知自适应融合模块进行自适应特征加权,所述置信度感知自适应融合模块如说图1及图3所示,具体表现为,该模块为一种两路模态输入的结构,融合来自不同模态的特征图,红外模态置信度权重Wr及可见光模态置信度权重Wt分别为:
式中,p1代表检测目标为行人的概率,p0分代表为背景的概率;r和t分别代表可见光模态和红外模态;如图3所示,该网络模型可以自适应地选择最可靠的模态对其进行加权用于后续的检测输出;其中,在良好光照条件下,行人外观轮廓清晰,因此红外和可见光特征是连续互补的,可见光模态置信度权重Wr=0.98及红外模态置信度权重Wt=0.96都具有较高的权重值,网络模型利用这些权重值去加权各个模态,自适应输出;在一般光照条件下,由于可见光图像中行人轮廓模糊,较难识别,因此网络给予可见光分支较低的可见光模态置信度权重Wr=0.28,给予红外分支较高的可见光模态置信度权重Wt=0.88,这样网络模型可以更加可依赖地关注红外分支行人特征;在恶劣光照条件下,如夜晚行人,可见光图像行人极难获取行人轮廓信息,因此网络模型更加关注红外分支行人特征,因此给予可见光分支极低的可见光模态置信度权重Wr=0.13,给予红外分支较高的可见光模态置信度权重Wt=0.96;通过上述方法,可见光模态及红外模态分支特征信息自适应加权融合,网络模型可以更好地选择可信赖的分支特征进行检测输出;
步骤六:将网络送入全连接层网络,根据上述设定在步骤一中划分的训练集上开始训练,并保存训练得到的网络模型及参数。其中,利用步骤一中的分类IOU阈值来判定检测的正误。检测头部分为分类损失和回归损失的加权和,具体表现为:分类损失采用Focalloss进行计算,处理正负样本不均衡问题,即分类损失函数Lcls表示为:
式中,S+,S-分别代表正负样本,超参数α=0.25,γ=2,si代表样本i为行人目标的概率;位置回归损失采用Smooth L1进行计算,如下:
因此,总的损失函数Ltotal表示为:
Ltotal=Lcls+λLreg
式中,λ为控制分类损失及回归损失计算的超参数,本发明设λ=1。
步骤七:判断是否完成步骤一中所设置的inter_size次batch_size张图片的迭代,如果是则转到步骤八;否则返回步骤六继续训练网络模型;
步骤八:根据步骤七获得的卷积神经网络模型及网络参数,对步骤一中的测试集进行测试,得到检测识别准确率,如果识别准确率能够满足实际工程需要,则所述的卷积神经网络模型能够应用到实际的行人目标检测的任务,执行步骤九,若不满足,根据测试准确率继续对构建的网络模型及相关参数和方法进行调整,并重新进行训练网络;
步骤九:将满足实际工程需求的卷积神经网络模型的参数应用到跨模态行人目标检测的实际场景中去,调用网络模型对测试集数据进行推理计算,得到对应的置信度预测结果和检测框位置,然后通过参数解码及非极大值抑制后处理得到最终应当保留的检测框,输出行人检测结果。
以上实施例模型训练及测试流程图如图4所示,实际检测结果如图5所示,从可见光图像检测效果1,2及红外图像检测效果1,2,可以看出所提出的行人检测算法模型可以准确地定位不同光照条件不同尺度的多行人目标,检测效果优良,定位准确。表明本发明可以很好地实现全天候条件下行人检测,提高了网络模型在不同的光照条件下不同尺度的行人目标检出率。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (6)
1.一种面向全天候的跨模态自适应融合行人目标检测系统,其特征在于,包括图像输入及预处理部分、特征提取及增强部分和检测头及结果输出部分;
图像输入及预处理部分,用于可见光模态分支和红外模态分支输入图像的尺寸统一,并采用缩放、翻转、随机裁剪、色彩变换操作对输入的训练样本集进行数据扩充;
特征提取及增强部分,特征提取部分利用单阶段多框预测检测器SSD算法框架对可见光模态分支及红外模态分支输入的图像进行多尺度特征提取,获得提取后双模态多尺度特征,即可见光模态分支的多尺度可见光特征FR和红外模态分支的多尺度红外特征FT;特征增强部分,利用跨模态差分信息融合模块对提取后的双模态多尺度特征进行特征增强,分别得到增强后的可见光模态特征及红外模态特征;
检测头及结果输出部分,检测头部分首先利用置信度感知自适应融合模块产生可见光模态置信度权重Wr及红外模态置信度权重Wt,对增强后的可见光及红外模态特征进行加权融合,其中可见光模态置信度权重Wt及红外模态置信度权重Wt依据外界光照强度变化而自适应变化,因此目标检测系统的整体网络框架依照外界光照的强度变化自适应地对不同模态提取到的特征进行加权融合,即在良好光照条件下,Wt大于或等于Wt,可见光模态特征起主导作用;在恶劣光照条件下,Wt小于Wt红外模态特征起主导作用;置信度感知自适应融合模块使得整体网络框架依据外界光照变化而自适应地加权融合可见光及红外模态的特征,使得更可靠的模态的特征得到增强表达;再将获得的自适应加权融合后的可见光及红外模态特征送入全连接层,进行整体网络框架的网络模型训练,并保存训练得到的网络模型参数;训练过程中的多任务损失部分用于计算可见光模态分支和红外模态分支的分类损失和回归损失,实现网络模型参数优化,最后利用获得的最优网络参数进行网络模型推理部署,得到在可见光及红外模态下的行人目标检测结果,实现全天候行人目标检测。
2.根据权利要求1所述的面向全天候的跨模态自适应融合行人目标检测系统,其特征在于:所述特征提取部分利用单阶段多框预测检测器SSD算法框架对可见光模态分支及红外模态分支输入的图像进行多尺度特征提取,获得提取后双模态多尺度特征,即可见光模态分支的多尺度特征和红外模态分支的多尺度特征的具体如下:
利用单阶段多框预测检测器SSD算法框架进行多尺度特征提取产生不同分辨率的特征图提升对不同尺度行人目标的检出率,其中选取R_FM1,R_FM2,R_FM3,R_FM4,R_FM5五个特征层作为可见光模态分支的多尺度特征FR,进行可见光模态特征提取,其中R_FM1,R_FM2前两个为浅层网络特征层,R_FM3,R_FM4,R_FM5后三个为深层网络特征层;选取T_FM1,T_FM2,T_FM3,T_FM4,T_FM5五个特征层作为红外模态分支的多尺度特征FT,进行红外模态特征提取,其中T_FM1,T_FM2前两个为浅层网络特征层,T_FM3,T_FM4,T_FM5后三个为深层网络特征层;浅层网络特征层R_FM1,R_FM2,T_FM1,T_FM2负责检测行人的细节和纹理信息,深层网络特征层R_FM3,R_FM4,R_FM5,T_FM3,T_FM4,T_FM5负责行人的全局信息和语义信息。
3.根据权利要求1所述的面向全天候的跨模态自适应融合行人目标检测系统,其特征在于:所述增强部分中,利用跨模态差分信息融合模块对提取后的双模态多尺度特征进行特征增强,分别得到增强后的可见光模态特征及红外模态特征实现为:
跨模态差分信息融合模块将输入的多尺度可见光特征FR及多尺度红外特征FT进行差分提取,得到两者的初步差分特征FC,将初步获取的差分特征分别进行最大池化和平均池化,然后通过全连接层利用Tanh激活函数进行激活,获取融合后的特征向量VC为:
Vc=σ(MLP(AvgPool(FC))+MLP(MaxPool(FC)))
式中,σ表示Tanh激活函数,AvgPool和MaxPool分别代表平均池化和最大池化操作;再利用融合后的特征向量VC对可见光模态及红外模态进行特征融合增强,获得增强后的可见光模态特征E_FR及增强后的红外模态特征E_FT,其计算过程表示为:
5.根据权利要求1所述的面向全天候的跨模态自适应融合行人目标检测系统,其特征在于:所述多任务损失部分,利用Focalloss函数计算网络模型的分类损失,Smooth L1函数计算网络模型的回归损失,将两者的加权和作为整体网络框架的总损失函数,其中:
分类损失函数Lcls采用Focalloss函数进行计算,如下:
式中,S+,S-分别代表正负样本,si代表样本i的为行人目标概率;
位置回归损失采用Smooth L1进行计算,如下:
式中,x代表位置回归中回归框的坐标值;
整体网络框架的多任务损失函数Ltotal为:
Ltotal=Lcls+λLreg
式中,λ为控制分类损失及回归损失计算的超参数。
6.一种面向全天候的跨模态自适应融合行人目标检测方法,其特征在于,包括以下步骤:
步骤1:利用单阶段多框预测检测器SSD算法框架对红外和可见光双模态输入的图像进行多尺度特征提取,选取R_FM1,R_FM2,R_FM3,R_FM4,R_FM5五个特征层作为可见光模态分支的多尺度可见光特征;选取T_FM1,T_FM2,T_FM3,T_FM4,T_FM5五个特征层作为红外模态分支的多尺度红外特征;再利用跨模态差分信息融合模块对提取后的可见光及红外模态多尺度特征进行特征增强,得到增强后的可见光模态特征及红外模态特征;
步骤2:利用置信度感知自适应融合模块对从特征提取及增强部分获取的增强后的可见光模态特征及红外模态特征进行加权选择,置信度感知自适应融合模块自适应加权融合来自步骤1增强后的可见光模态及红外模态特征,使得整体网络框架能够对增强后的可见光模态及红外模态自适应加权融合更加可依赖的模态用于后续的检测输出;多任务损失部分用于计算可见光模态分支及红外模态分支的分类损失和回归损失,实现网络模型参数优化;最后利用获得的最优网络参数进行网络模型推理部署,得到在可见光及红外模态下的行人目标检测结果,实现全天候行人目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210979010.9A CN115410147A (zh) | 2022-08-16 | 2022-08-16 | 面向全天候的跨模态自适应融合行人目标检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210979010.9A CN115410147A (zh) | 2022-08-16 | 2022-08-16 | 面向全天候的跨模态自适应融合行人目标检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410147A true CN115410147A (zh) | 2022-11-29 |
Family
ID=84158565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210979010.9A Pending CN115410147A (zh) | 2022-08-16 | 2022-08-16 | 面向全天候的跨模态自适应融合行人目标检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410147A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541944A (zh) * | 2023-11-07 | 2024-02-09 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
CN117541944B (zh) * | 2023-11-07 | 2024-06-11 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902965A (zh) * | 2021-09-30 | 2022-01-07 | 重庆邮电大学 | 一种基于多层特征融合的多光谱行人检测方法 |
CN113962246A (zh) * | 2021-09-17 | 2022-01-21 | 华南理工大学 | 融合双模态特征的目标检测方法、系统、设备及存储介质 |
CN114612937A (zh) * | 2022-03-15 | 2022-06-10 | 西安电子科技大学 | 基于单模态增强的红外与可见光融合行人检测方法 |
CN114898189A (zh) * | 2022-03-31 | 2022-08-12 | 西安电子科技大学 | 基于模态差异特征引导的红外可见光融合识别系统和方法 |
-
2022
- 2022-08-16 CN CN202210979010.9A patent/CN115410147A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962246A (zh) * | 2021-09-17 | 2022-01-21 | 华南理工大学 | 融合双模态特征的目标检测方法、系统、设备及存储介质 |
CN113902965A (zh) * | 2021-09-30 | 2022-01-07 | 重庆邮电大学 | 一种基于多层特征融合的多光谱行人检测方法 |
CN114612937A (zh) * | 2022-03-15 | 2022-06-10 | 西安电子科技大学 | 基于单模态增强的红外与可见光融合行人检测方法 |
CN114898189A (zh) * | 2022-03-31 | 2022-08-12 | 西安电子科技大学 | 基于模态差异特征引导的红外可见光融合识别系统和方法 |
Non-Patent Citations (2)
Title |
---|
LEI FU 等: "Adaptive spatial pixel-level feature fusion network for multispectral pedestrian detection", INFRARED PHYSICS&TECHNOLOGY, 7 May 2021 (2021-05-07), pages 1 - 11 * |
李宇琦;赵海涛;: "基于红外和可见光图像逐级自适应融合的场景深度估计", 应用光学, no. 01, 15 January 2020 (2020-01-15), pages 24 - 32 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541944A (zh) * | 2023-11-07 | 2024-02-09 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
CN117541944B (zh) * | 2023-11-07 | 2024-06-11 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
CN112347859A (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN110363770B (zh) | 一种边缘引导式红外语义分割模型的训练方法及装置 | |
CN112949508A (zh) | 模型训练方法、行人检测方法、电子设备及可读存储介质 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN113011562A (zh) | 一种模型训练方法及装置 | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN110428394A (zh) | 用于目标移动侦测的方法、装置及计算机存储介质 | |
CN115238758A (zh) | 一种基于点云特征增强的多任务三维目标检测方法 | |
CN115829915A (zh) | 图像质量检测方法、电子设备、存储介质及程序产品 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN114596503A (zh) | 一种基于遥感卫星影像的道路提取方法 | |
CN111339919B (zh) | 一种基于多任务协作的镜子检测方法 | |
CN117351363A (zh) | 基于Transformer的遥感影像建筑物提取方法 | |
CN116309050A (zh) | 图像超分辨率方法、程序产品、存储介质及电子设备 | |
CN115410147A (zh) | 面向全天候的跨模态自适应融合行人目标检测系统及方法 | |
CN116977911A (zh) | 基于注意力机制的目标检测模型及其训练方法、目标检测方法 | |
CN114708143A (zh) | 一种hdr图像生成方法、设备、产品及介质 | |
CN114359892A (zh) | 三维目标检测方法、装置及计算机可读存储介质 | |
CN116503737B (zh) | 基于空间光学图像的船舶检测方法和装置 | |
CN114842012B (zh) | 基于位置意识u型网络的医学图像小目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |