CN114612937A - 基于单模态增强的红外与可见光融合行人检测方法 - Google Patents

基于单模态增强的红外与可见光融合行人检测方法 Download PDF

Info

Publication number
CN114612937A
CN114612937A CN202210253062.8A CN202210253062A CN114612937A CN 114612937 A CN114612937 A CN 114612937A CN 202210253062 A CN202210253062 A CN 202210253062A CN 114612937 A CN114612937 A CN 114612937A
Authority
CN
China
Prior art keywords
network
loss
visible light
infrared
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210253062.8A
Other languages
English (en)
Inventor
缑水平
项佳军
李睿敏
任海洋
侯彪
郭璋
白苑宁
任子豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210253062.8A priority Critical patent/CN114612937A/zh
Publication of CN114612937A publication Critical patent/CN114612937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于单模态增强的红外与可见光融合行人检测方法,主要解决现有方法中单模态特征提取支路对特征表达能力差的问题。其方案为:1)对现有公开KAIST数据集进行筛选与处理,获得处理后的训练集与测试集;2)构建基于单模态增强的红外与可见光融合行人检测网络W;3)构建行人检测网络W的总体损失Loss;4)用训练集对基于单模态增强的红外与可见光融合行人检测网络W进行训练,通过损失Loss更新网络W中的参数,得到训练好的行人检测网络W′;5)将测试集的图像输入到训练好的行人检测网络W′,得到最终检测结果。本发明提高了行人目标的检测精度与检测速度,可用于无人驾驶,视频跟踪。

Description

基于单模态增强的红外与可见光融合行人检测方法
技术领域
本发明属于图像处理技术领域,特别涉及一种行人目标检测方法,可用于无人驾驶以及视频跟踪。
背景技术
红外与可见光图像在图像处理领域收到了越来越多的关注,通过红外成像传感器与可见光成像传感器在同一时刻进行图像采集来获取图像对数据。采用红外与可见光融合的方式相比单纯的可见光,可以有效的利用红外在黑夜中优势。红外是对热辐射的捕捉,所以在黑夜中能够有效地捕捉热物体。环境由于散发的热辐射远比热物体要少,所以红外图像对热物体还有强调的作用,同时可抑制环境。可见光拥有丰富的纹理信息,而红外捕捉的热辐射是一个整体的轮廓,因此无法对目标的细节进行很好的描述。所以将红外与可见光融合可以弥补红外在纹理上的不足,这种可见光与红外互相弥补对方的不足的效果,能更好地反映目标的信息,因而被应用到了多个领域,尤其应用于目标检测领域中。
基于红外与可见光融合的目标检测算法已广泛应用于无人驾驶防碰撞系统以及视频跟踪等领域,尤其是无人驾驶中对行人安全性的检测更是备受关注。Liu等人研究了在目标检测网络Faster R-CNN的不同深度特征层上进行融合对最终检测的影响。他们证明了使用Halfway融合的方式能够很好的权衡特征深度与目标尺度之间的互斥关系。Zhang等人研究了数据集中出现的红外与可见光图像对未对齐问题,并使用一个区域特征对齐模块RFA来对图像进行局部平移,缓解由于图像对未对齐导致的问题。Zhou等人对多模态数据中存在的模态不平衡问题进行了研究,并提出了模态平衡网络MB-Net来对模态不平衡等问题进行处理。
上述这些现有方法虽然利用了红外与可见光的优势,但是它们的不足之处在于只关注了融合的特征,而由于没有对单模态特征进行关注,因而导致了在单模态特征提取时,单模态分支上没有显式的监督信息,使得单模态提取的特征表征能力弱。对于基于多模态融合的目标检测,首先融合特征来源于单模态,只有单模态表征能力强,才能获得鲁棒的融合特征表示。同时较弱的表征能力将降低困难样本的识别能力,导致网络受到严重漏检的问题。同时,对于那些与行人较为相似的目标,弱表征能力的特征容易将这些背景检测为前景,使得网络检测的虚警率增大,因而有一个表征能力强的单模态特征显得尤为重要。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于单模态增强的红外与可见光融合行人检测方法,以增强单模态特征的表征能力,减小网络检测的漏检率及虚警率,提高网络的行人检测能力和检测速度。
本发明的技术方案是:利用单模态增强的网络框架以及生成约束的网络训练策略,配合多尺度自适应融合的模块,提升目标检测性能,其实现包括如下:
(1)对一个公开多模态数据集KAIST进行数据清洗,获得7601对训练图像,2252对测试图像;
(2)构建基于单模态增强的红外与可见光融合行人检测网络W:
(2a)在现有双路孪生网络Faster R-CNN结构上加入单模态训练分支,形成由双路特征提取分支T与R、区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联构成的检测网络D;
(2b)搭建由三层上采样模块级联构成的生成约束网络GC,每层上采样模块由上采样层与卷积层构成;
(2c)在网络D的T、R分支特征融合处加入生成约束网络GC,构成基于单模态增强的红外与可见光融合行人检测网络W;
(3)根据检测网络D的损失Ld和生成约束网络GC的损失Lr构建损失函数Loss:
(3a)将红外图像输入(2a)中特征提取分支T获得红外特征,将可见光图像输入(2a)中特征提取分支R获得可见光特征,将获得的红外特征与可见光特征融合获得融合特征,同时,使用随机高斯噪声与红外特征融合,获得增强的红外特征,使用随即高斯噪声与可见光特征融合,获得增强可见光特征;
(3b)将(3a)中获得的融合特征、增强的红外特征、增强可见光特征分别进一步特征提取,并输入区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P,分类与回归层级,最终计算得到检测损失Ld
(3c)将(3a)中获得的融合特征输入生成约束网络GC,计算得到生成约束损失Lr
(3d)将(3b)中的检测损失Ld与(3c)中的生成约束损失Lr结合,即为网络W的总体损失Loss;
Loss=γ1×Ld2×Lr
其中,γ1是损失Ld的权重参数,γ2是损失Lr的权重参数;
(4)利用训练数据,采用随机梯度下降法对行人检测网络W进行训练,得到训练好的行人检测网络W′;
(5)将测试集中待检测的可见光和红外图像对输入到训练好的行人检测网络W′中,得到测试集行人目标检测结果。
本发明与现有技术相比,具有以下优点:
1)单模态特征表征能力强,行人检测精度高
本发明由于构建了基于单模态增强的红外与可见光融合行人检测网络W,并使用其中的额外监督过程对单模态分支进行监督,有效强化了特征提取分支的特征提取能力;使用其中的多尺度自适应融合模块,以一种更灵活的方式融合了多尺度特征,使融合之后的特征具有更细粒度的特征表达能力;使用其中的生成约束网络,对可见光图像中重要的纹理信息以及红外图像中重要的亮度信息进行保留,使得网络特征提取保留更多输入中的重点信息;同时,由于构建的行人检测网络W具有了更强的特征表达能力,因而减小了行人的漏检率及虚警率,提高了网络的检测精度。
2)模型效率高
本发明引入的单模态训练分支与生成约束网络由于只在训练期间被使用,而在网络推理检测期间,这些加入的改进不需要被执行的,因而提高了行人目标的检测速度。
附图说明
图1是本发明的实现流程图;
图2是本发明中构建的行人检测网络W的结构图;
图3是行人检测网络W中多尺度自适应融合模块的网络结构示意图;
图4是行人检测网络W中的生成约束网络GC的结构示意图;
图5是分别用本发明和现有的8种方法对行人检测的性能对比图。
具体实施方式
下面结合附图对本发明的实施例和效果作进一步详细描述。
参照图1,本发明的实现步骤如下:
步骤1.构建行人检测与识别的数据集。
(1.1)选取一个现有公开的红外与可见光图像配对的数据集KAIST,其中图像大小为640×512;
(1.2)对现有公开的红外与可见光配对图像数据集KAIST进行数据清洗:
将训练集在每3对图像中取1对,并去掉选取图像对中不包含行人的图像对,并忽略严重遮挡或者小于50个像素的行人目标,得到7601对训练图像,其中白天有4755对,夜间有2846对;
将测试集每20对取1对,不做其他额外处理,得到2252对测试图像,其中白天1455对,夜间797对。
步骤2.构建基于单模态增强的红外与可见光融合行人检测网络W。
参照图2,本步骤的具体实现如下:
(2.1)选用现有双路孪生网络Faster R-CNN结构作为网络框架,该双路孪生网络包含红外特征提取分支T与可见光特征提取分支R,区域生成网络RPN、ROI池化层、分类与回归层;其中:
两个特征提取分支T与R均采用现有具有五层下采样卷积组的VGG-16网络结构,T与R共享最后一层卷积组权重,并去掉这层卷积组中的最大池化层,将T与R的输出相加可获得融合特征;
区域生成网络RPN,由一个3×3卷积,两个并列的1×1卷积级联而成,其输出分别代表目标区域以及区域的类别;
ROI池化层,其输出尺度为512×7×7,输出特征表示为P2
分类与回归层,其为两个并列的全连接层,分类层输出大小为2,代表行人与背景;回归层输出大小为4,代表坐标信息;
(2.2)构建包括两层并列的平均池化层P1与P2、第三层平均池化层AP3、拼接层V、两层并列的全连接层f1与f2、激活函数层S、乘积层M、相加层J的多尺度自适应融合网络P,如图3所示,其中AP1与P2、V、f1与f2、S、M、J依次级联,同时P3与M连接;其中:
AP1与AP2均使用全局平均池化,第三层平均池化层AP3使用步长为2×2的平均池化方式,V表示特征的拼接,两层并列的全连接层f1与f2,其输入大小均为1024,输出大小均为512,乘积层M表示通道方向的相乘,相加层J表示元素级的相加;
激活函数S,其采用Sigmoid激活函数,表示为:
Figure BDA0003547443000000041
其中x表示函数的输入,e为自然对数函数的底数;
(2.3)在(2.1)双路孪生网络中的池化层中新加入一个与其并列的ROI池化层,其设定的输出尺度分别为512×14×14,其输出表示为P1;将(2.2)获得的多尺度自适应融合网络P插入在两个并列ROI池化层与分类与回归层之间,形成由双路特征提取分支T与R、区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联构成的融合网络K;
(2.4)在融合网络K的基础上,通过随机高斯噪声分别与融合网络K中两个分支T、R的输出相加,得到与融合网络K结构相同的红外训练网络和可见光训练网络:
(2.4.1)由随机高斯噪声与融合网络K中的T分支输出相加,获得增强红外特征,将该增强红外特征与区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联,构成红外训练网络;
(2.4.2)由随机高斯噪声与融合网络K中R分支输出相加获得增强可见光特征,将该增强可见光特征与区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联,构成可见光训练网络;
上述红外训练网络以及可见光训练网络中的区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层与融合网络K中的区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层结构完全一致,并共享所有权重;
(2.5)将融合网络K,红外训练网络,可见光训练网络三个网络并联组合,构成检测网络D;
(2.6)搭建由三层上采样模块级联构成的生成约束网络GC,如图4所示,其中每层上采样模块由上采样层与卷积层构成,上采样层的上采样尺度为2,卷积层的卷积核大小为3×3,输出通道数分别为128,32,3;
(2.7)在检测网络D的T、R分支特征融合处加入生成约束网络GC,构成基于单模态增强的红外与可见光融合行人检测网络W。
步骤3.根据检测网络D的损失Ld和生成约束网络GC的损失Lr构建损失函数Loss。
(3.1)将红外图像输入到红外特征提取分支T中获得红外特征,将可见光图像输入到可见光特征提取分支R获得可见光特征,将获得的红外特征与可见光特征融合获得融合特征,同时,使用随机高斯噪声与红外特征融合,获得增强红外特征,使用随即高斯噪声与可见光特征融合,获得增强可见光特征;
(3.2)利用获得的融合特征、增强红外特征、增强可见光特征构建检测网络D的损失Ld
(3.2.1)将(3.1)中获得的增强可见光特征进一步特征提取,并依次输入到区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P,分类与回归层,根据最终输出与真实标签的区别,计算得到可见光训练网络损失Lrgb
Figure BDA0003547443000000061
式中:
Figure BDA0003547443000000062
为RPN网络的可见光分类预测,
Figure BDA0003547443000000063
为RPN网络的可见光边界框预测;
Figure BDA0003547443000000064
为最终检测阶段的可见光分类预测,
Figure BDA0003547443000000065
为最终检测阶段可见光边界框预测;G(c)为真实类别,G(r)为真实边界框;CE表示交叉熵损失,SmoothL1表示平滑最小绝对值误差损失;
Figure BDA0003547443000000066
表示RPN网络中可见光分类预测与真实类别的交叉熵损失,
Figure BDA0003547443000000067
表示最终检测阶段可见光分类预测与真实类别的交叉熵损失,
Figure BDA0003547443000000068
表示RPN网络中可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure BDA0003547443000000069
表示最终检测阶段可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失;
(3.2.2)将(3.1)中获得的增强红外特征进一步特征提取,并依次输入到区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P,分类与回归层,根据最终输出与真实标签的区别,计算得到红外训练网络损失Lt
Figure BDA00035474430000000610
式中:
Figure BDA00035474430000000611
为RPN网络的红外分类预测,
Figure BDA00035474430000000612
为RPN网络的红外边界框预测;
Figure BDA00035474430000000613
为最终检测阶段的红外分类预测,
Figure BDA00035474430000000614
为最终检测阶段红外边界框预测;
Figure BDA00035474430000000615
表示RPN网络中红外分类预测与真实类别的交叉熵损失,
Figure BDA00035474430000000616
表示最终检测阶段红外分类预测与真实类别的交叉熵损失,
Figure BDA00035474430000000617
表示RPN网络中红外边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure BDA00035474430000000618
表示最终检测阶段红外边界框预测与真实边界框之间的平滑最小绝对值误差损失;
(3.2.3)将(3.1)中获得的融合特征进一步特征提取,并依次输入到区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P,分类与回归层,根据最终输出与真实标签的区别,计算得到融合网络损失Lf
Figure BDA0003547443000000071
式中:
Figure BDA0003547443000000072
为RPN网络的融合分类预测,
Figure BDA0003547443000000073
为RPN网络的融合边界框预测;
Figure BDA0003547443000000074
为最终检测阶段的融合分类预测,
Figure BDA0003547443000000075
为最终检测阶段融合边界框预测;
Figure BDA0003547443000000076
表示RPN网络中融合分类预测与真实类别的交叉熵损失,
Figure BDA0003547443000000077
表示最终检测阶段融合分类预测与真实类别的交叉熵损失,
Figure BDA0003547443000000078
表示RPN网络中融合边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure BDA0003547443000000079
表示最终检测阶段融合边界框预测与真实边界框之间的平滑最小绝对值误差损失;
(3.2.4)对可见光训练网络损失Lrgb,红外分支损失Lt,融合分支损失Lf进行组合构成了检测损失Ld
Ld=α1×Lrgb2×Lt3×Lf
其中α1为Lrgb的权重参数,α2为Lt的权重参数,α3为Lf的权重参数;
(3.3)将(3.1)中获得的融合特征输入生成约束网络GC,根据GC的输出与输入图像之间的区别,计算得到生成约束损失Lr
Lr=β1×MSE(A,C)+β2×TV(C-B)
其中A表示红外图像,B表示可见光图像,C表示融合图像,MSE表示均方误差损失,TV表示全变分损失,MSE(A,C)表示红外图像与融合图像之间的均方误差损失,TV(C-β)表示融合图像与可见光图像之间的全变分损失,β1是红外图像与融合图像之间的均方误差损失的系数,β2是融合图像与可见光图像之间的全变分损失权重;
(3.4)根据(3.2)中的检测损失Ld与(3.3)中的生成约束损失Lr,计算得到网络W的总体损失Loss;
Loss=γ1×Ld2×Lr
其中,γ1是损失Ld的权重参数,γ2是损失Lr的权重参数。
步骤4.对基于单模态增强的红外与可见光融合行人检测网络W进行训练。
(4.1)设定批处理大小为4,学习率为0.001,训练迭代次数为10,每经过4个迭代次数,学习率下降为原来的0.1倍,所有的权重系数设定为:α1=1,α2=1,α3=2,β1=1,β2=0.65,γ1=1,γ2=0.001;
(4.2)根据(4.1)中设定的批处理大小值,将7601对训练数据进行划分,获得1900组数据;
(4.3)将(4.2)中获得的1900组数据集依次输入单模态增强的红外与可见光融合行人检测网络W,获得网络输出,并利用输出与真实标签获得网络的损失Loss,根据随机梯度下降法,利用损失表达式对网络各层权重进行求导,利用求导结果迭代更新W中双路特征提取分支T与R、区域生成网络RPN、分类与回归层、尺度自适应融合网络P以及生成约束网络GC权重;
(4.4)根据(4.1)中设定的训练迭代次数,重复步骤(4.2)和(4.3),直至完成10次迭代,得到训练好的基于单模态增强的红外与可见光融合行人检测网络W′。
步骤5.行人目标检测与识别。
将测试集中待检测的可见光和红外图像对输入到步骤4中训练好的行人检测网络W′中,此时网络只基于融合特征进行检测,忽略多余的红外模态分支与可见光模态分支,同时生成约束网络也无需再计算,最终基于融合特征得到测试集行人目标检测结果。
本发明的效果可通过以下仿真进一步说明。
一.仿真条件
基于集成开发环境PyCharm,使用PyTorch深度学习框架,以Python 3.6实现,开发所用操作系统为Linux系统,系统版本为Ubuntu 1804,使用CUDA10.1,两块NVIDIA GeForceRTX 2070GPU(8GB Memory)用于加速网络训练。
仿真所用的图像是处理之后的红外可见光数据集KAIST中共7601对红外与可见光图像对。每对红外可见光图像的大小为640×512。
仿真使用的现有对比的算法有八种:分别是聚合通道特征算法ACF,Halfway融合算法,融合RPN算法,光照意识融合检测算法IAF R-CNN,光照意识深度神经网络的算法IATDNN+IASS,同时分割与检测算法MSDS R-CNN,弱对齐的交叉模态学习算法AR-CNN,模态平衡网络MB-Net。
仿真所用的平台为:MATLAB平台、TITAN X平台、1080Ti平台、RTX 2070平台,各平台的性能从好到差依次为:1080Ti平台、TITAN X平台、RTX 2070平台、MATLAB平台。
二.仿真内容
仿真1,分别用本发明和上述现有8种对比方法在不同平台进行KAIST测试集的行人目标检测,计算其MR-2指标,同时计算每对图像的在各自平台运行的检测速度,结果如表1:
表1
Figure BDA0003547443000000091
表1中的MR-2是一种衡量漏检率的指标,其通过在平均每对图像虚警率处于[10-2,1]时,按平均间隔取样9个虚警率采样点,获得在该虚警率的设置下对应的漏检值,再将获得的漏检率取平均值,即获得MR-2,该值越低越好,而检测速度也是越快越好;
从表1可见,本发明在使用性能低于TITAN X平台及1080Ti平台的RTX 2070平台上,其在总体上的MR-2均比其他算法更优,而在检测速度上具有所有算法中的最快速度;对于性能更低的MATLAB平台,本发明比使用该平台的融合RPN算法在速度上快了10倍不止;而在检测性能上,本发明利用同样的数据集训练,并在相同的测试集上进行测试,在所有光照条件下达到了7.71%的MR-2,比其他的现有8种算法有更好的性能。同时从白天与晚上的检测指标看来,本发明的检测效果在晚上具有更大的优势,达到了6.00%的MR-2。这正符合了在晚上,对行人的检测需要更加谨慎这一现实需求;由于在白天,人类可以自行判断路上的行人,对机器的判断要求较低,在晚上由于光线暗,人类靠自身无法很好的判断,更需要机器的辅助;
为了验证算法的有效性,使用表1的检测结果,在近距、中距、远距、无遮挡、部分遮挡、严重遮挡的条件下进一步对MR-2进行计算,结果如表2。
表2
Figure BDA0003547443000000101
从表2可见,本发明在近距中只出现了0.01%的差距,但在中距、远距、无遮挡、部分遮挡、严重遮挡这些条件下,相比现有8种对比算法获得了极大的性能提升;特别是在远距离条件下,相比于MB-Net低了11.06%的MR-2,达到了一个非常大跨度的提升。
仿真2,将本发明检测结果与现有8种对比算法检测结果在所有亮度条件下进行FPPI-MR曲线绘制,结果如图5所示。其中:
曲线①是聚合通道特征算法ACF的FPPI-MR曲线,其MR-2值为47.32%;
曲线②是Halfway融合算法的FPPI-MR曲线,其MR-2值为25.75%;
曲线③是融合RPN算法的FPPI-MR曲线,其MR-2值为18.29%;
曲线④是光照意识融合检测算法IAF R-CNN的FPPI-MR曲线,其MR-2值为15.73%;
曲线⑤是光照意识深度神经网络的算法IATDNN+IASS的FPPI-MR曲线,其MR-2值为14.95%;
曲线⑥是同时分割与检测算法MSDS R-CNN的FPPI-MR曲线,其MR-2值为11.34%;
曲线⑦是弱对齐的交叉模态学习算法AR-CNN的FPPI-MR曲线,其MR-2值为9.34%;
曲线⑧是模态平衡网络MB-Net的FPPI-MR曲线,其MR-2值为8.13%;
曲线⑨是本发明的FPPI-MR曲线,其MR-2值为7.71%;
从图5中可以看到,本发明在[10-2,1]的平均每对图像虚警率FPPI有效范围内具有更低的漏检率MR。
综上,本发明通过对单模态表达能力的加强以及重点信息的保存,同时对多尺度特征进行更加细粒度的融合,提高了行人目标的检测精度。

Claims (7)

1.一种基于单模态增强的红外与可见光融合行人检测方法,其特征在于,包括:
(1)对一个公开多模态数据集KAIST进行数据清洗,获得7601对训练图像,2252对测试图像;
(2)构建基于单模态增强的红外与可见光融合行人检测网络W:
(2a)在现有双路孪生网络FasterR-CNN结构上加入单模态训练分支,形成由双路特征提取分支T与R、区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联构成的检测网络D;
(2b)搭建由三层上采样模块级联构成的生成约束网络GC,每层上采样模块由上采样层与卷积层构成;
(2c)在网络D的T、R分支特征融合处加入生成约束网络GC,构成基于单模态增强的红外与可见光融合行人检测网络W;
(3)根据检测网络D的损失Ld和生成约束网络GC的损失Lr构建损失函数Loss:
(3a)将红外图像输入(2a)中特征提取分支T获得红外特征,将可见光图像输入(2a)中特征提取分支R获得可见光特征,将获得的红外特征与可见光特征融合获得融合特征,同时,使用随机高斯噪声与红外特征融合,获得增强的红外特征,使用随即高斯噪声与可见光特征融合,获得增强可见光特征;
(3b)将(3a)中获得的融合特征、增强的红外特征、增强可见光特征分别进一步特征提取,并输入区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P,分类与回归层级,最终计算得到检测损失Ld
(3c)将(3a)中获得的融合特征输入生成约束网络GC,计算得到生成约束损失Lr
(3d)将(3b)中的检测损失Ld与(3c)中的生成约束损失Lr结合,即为网络W的总体损失Loss;
Loss=γ1×Ld2×Lr
其中,γ1是损失Ld的权重参数,γ2是损失Lr的权重参数;
(4)利用训练数据,采用随机梯度下降法对行人检测网络W进行训练,得到训练好的行人检测网络W′;
(5)将测试集中待检测的可见光和红外图像对输入到训练好的行人检测网络W′中,得到测试集行人目标检测结果。
2.根据权利要求1所述的方法,其特征在于,(2a)中得到的检测网络D,其各部分的参数结构如下:
所述双路特征提取分支T与R,其采用现有VGG-16网络作为网络结构,它具有五层下采样卷积组,T与R共享最后一层卷积组权重,并去掉这层卷积组中的最大池化层;
所述区域生成网络RPN,其由一个3×3卷积,两个并列的1×1卷积级联而成;
所述两个ROI池化层,其设定的输出尺度分别为512×14×14与512×7×7,分别代表为P1,P2
所述的多尺度自适应融合网络P,包括两层并列的平均池化层AP1与AP2、第三层平均池化层AP3、拼接层V、两层并列的全连接层f1与f2、激活函数层S、乘积层M、相加层J,其中AP1与AP2、V、f1与f2、S、M、J依次级联,同时AP3与M连接;
所述分类与回归层,其为两个并列的全连接层,分类层输出大小为2,代表行人与背景;回归层输出大小为4,代表坐标信息。
3.根据权利要求1所述的方法,其特征在于,(2a)中得到的多尺度自适应融合网络P,其各部分的参数结构如下:
所述两层并列的平均池化层AP1,AP2,其均使用全局平均池化;
所述的拼接层V,其表示特征的拼接;
所述的两层并列的全连接层f1与f2,其输入大小均为1024,输出大小均为512;
所述的激活函数S,其采用Sigmoid激活函数,表示为:
Figure FDA0003547442990000021
其中x表示函数的输入,e为自然对数函数的底数;
所述的乘积层M,其表示通道方向的相乘;
所述的相加层J,其表示元素级的相加;
所述的第三层平均池化层AP3,其表示步长为2×2的平均池化。
4.根据权利要求1所述的方法,其特征在于,(2b)中得到的生成约束网络GC,其各部分的参数结构如下:
所述的上采样模块中的上采样层,其放大尺度为2;
所述的上采样模块中的卷积层,其卷积核大小均为3×3,输出通道数依次为128,32和3。
5.根据权利要求1所述的方法,其特征在于,(3b)中计算检测损失Ld,公式如下:
Ld=α1×Lrgb2×Lt3×Lf
其中,Lrgb为可见光分支损失,Lt为红外分支损失,Lf为融合分支损失,α1为Lrgb的权重参数,α2为Lt的权重参数,α3为Lf的权重参数;
Figure FDA0003547442990000031
Figure FDA0003547442990000032
Figure FDA0003547442990000033
式中:
Figure FDA0003547442990000034
为RPN网络的可见光分类预测,
Figure FDA0003547442990000035
为RPN网络的可见光边界框预测;
Figure FDA0003547442990000036
为RPN网络的红外分类预测,
Figure FDA0003547442990000037
为RPN网络的红外边界框预测;
Figure FDA0003547442990000038
为RPN网络的融合分类预测,
Figure FDA0003547442990000039
为RPN网络的融合边界框预测;
Figure FDA00035474429900000310
为最终检测阶段的可见光分类预测,
Figure FDA00035474429900000311
为最终检测阶段可见光边界框预测;
Figure FDA00035474429900000312
为最终检测阶段的红外分类预测,
Figure FDA00035474429900000313
为最终检测阶段红外边界框预测;
Figure FDA00035474429900000314
为最终检测阶段的融合分类预测,
Figure FDA00035474429900000315
为最终检测阶段融合边界框预测;G(c)为真实类别,G(r)为真实边界框;CE表示交叉熵损失,SmoothL1表示平滑最小绝对值误差损失;
Figure FDA0003547442990000041
表示RPN网络中可见光分类预测与真实类别的交叉熵损失,
Figure FDA0003547442990000042
表示最终检测阶段可见光分类预测与真实类别的交叉熵损失,
Figure FDA0003547442990000043
表示RPN网络中红外分类预测与真实类别的交叉熵损失,
Figure FDA0003547442990000044
表示最终检测阶段红外分类预测与真实类别的交叉熵损失,
Figure FDA0003547442990000045
表示RPN网络中融合分类预测与真实类别的交叉熵损失,
Figure FDA0003547442990000046
表示最终检测阶段融合分类预测与真实类别的交叉熵损失;
Figure FDA0003547442990000047
表示RPN网络中可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure FDA0003547442990000048
表示最终检测阶段可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure FDA0003547442990000049
表示RPN网络中红外边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure FDA00035474429900000410
表示最终检测阶段红外边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure FDA00035474429900000411
表示RPN网络中融合边界框预测与真实边界框之间的平滑最小绝对值误差损失,
Figure FDA00035474429900000412
表示最终检测阶段融合边界框预测与真实边界框之间的平滑最小绝对值误差损失。
6.根据权利要求1所述的方法,其特征在于,(3c)中计算生成约束网络GC损失Lr,公式如下:
Lr=β1×MSE(A,C)+β2×TV(C-B)
其中A表示红外图像,B表示可见光图像,C表示融合图像,MSE表示均方误差损失,TV表示全变分损失,MSE(A,C)表示红外图像与融合图像之间的均方误差损失,TV(C-B)表示融合图像与可见光图像之间的全变分损失,β1是红外图像与融合图像之间的均方误差损失的系数,β2是融合图像与可见光图像之间的全变分损失权重。
7.根据权利要求1所述的方法,其特征在于,(4)中利用训练数据,采用随机梯度下降法对行人检测网络W进行训练,实现如下:
(4a)设定批处理大小为4,学习率为0.001,训练迭代次数为10,每经过4个迭代次数,学习率下降为原来的0.1倍;
(4b)根据(4a)中设定的批处理大小值,将7601对训练数据进行划分,获得1900组数据;
(4c)将(4b)中获得的1900组数据集依次输入红外与可见光图像自适应融合的行人检测网络W,获得网络输出,并利用输出与真实标签获得网络的损失Loss,利用损失表达式对网络各层权重进行求导,利用求导结果迭代更新W中双路特征提取分支T与R、区域生成网络RPN、分类与回归层、尺度自适应融合网络P以及生成约束网络GC权重;
(4d)根据(4a)中设定的训练迭代次数,重复步骤(4b)和(4c),直至完成10次迭代,得到训练好的基于单模态增强的红外与可见光融合行人检测网络W′。
CN202210253062.8A 2022-03-15 2022-03-15 基于单模态增强的红外与可见光融合行人检测方法 Pending CN114612937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210253062.8A CN114612937A (zh) 2022-03-15 2022-03-15 基于单模态增强的红外与可见光融合行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210253062.8A CN114612937A (zh) 2022-03-15 2022-03-15 基于单模态增强的红外与可见光融合行人检测方法

Publications (1)

Publication Number Publication Date
CN114612937A true CN114612937A (zh) 2022-06-10

Family

ID=81863675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210253062.8A Pending CN114612937A (zh) 2022-03-15 2022-03-15 基于单模态增强的红外与可见光融合行人检测方法

Country Status (1)

Country Link
CN (1) CN114612937A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393684A (zh) * 2022-10-27 2022-11-25 松立控股集团股份有限公司 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法
CN115410147A (zh) * 2022-08-16 2022-11-29 北京航空航天大学 面向全天候的跨模态自适应融合行人目标检测系统及方法
CN115953763A (zh) * 2023-03-03 2023-04-11 青岛慧拓智能机器有限公司 一种用于矿区无人驾驶场景的目标检测方法及系统
CN117036890A (zh) * 2023-08-22 2023-11-10 北京智芯微电子科技有限公司 行人检测模型的训练、行人检测方法、装置、设备及介质
CN117173692A (zh) * 2023-11-02 2023-12-05 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410147A (zh) * 2022-08-16 2022-11-29 北京航空航天大学 面向全天候的跨模态自适应融合行人目标检测系统及方法
CN115393684A (zh) * 2022-10-27 2022-11-25 松立控股集团股份有限公司 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法
CN115953763A (zh) * 2023-03-03 2023-04-11 青岛慧拓智能机器有限公司 一种用于矿区无人驾驶场景的目标检测方法及系统
CN117036890A (zh) * 2023-08-22 2023-11-10 北京智芯微电子科技有限公司 行人检测模型的训练、行人检测方法、装置、设备及介质
CN117173692A (zh) * 2023-11-02 2023-12-05 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备
CN117173692B (zh) * 2023-11-02 2024-02-02 安徽蔚来智驾科技有限公司 3d目标检测方法、电子设备、介质以及驾驶设备

Similar Documents

Publication Publication Date Title
CN114612937A (zh) 基于单模态增强的红外与可见光融合行人检测方法
CN109117876B (zh) 一种稠密小目标检测模型构建方法、模型及检测方法
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
CN110490239B (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
CN107220603A (zh) 基于深度学习的车辆检测方法及装置
CN112836713A (zh) 基于图像无锚框检测的中尺度对流系统识别与追踪方法
CN107564022A (zh) 基于贝叶斯融合的视频显著性检测方法
CN111709285A (zh) 一种基于无人机的疫情防护监控方法、装置和存储介质
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN110222604A (zh) 基于共享卷积神经网络的目标识别方法和装置
CN111666852A (zh) 一种基于卷积神经网络的微表情双流网络识别方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN114708566A (zh) 一种基于改进YOLOv4的自动驾驶目标检测方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN115731513A (zh) 基于数字孪生的智慧园区管理系统
CN116386081A (zh) 一种基于多模态图像的行人检测方法及系统
CN116824335A (zh) 一种基于YOLOv5改进算法的火灾预警方法及系统
CN114973199A (zh) 一种基于卷积神经网络的轨道交通列车障碍物检测方法
CN113221731B (zh) 一种多尺度遥感图像目标检测方法及系统
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN113762166A (zh) 一种基于可穿戴式装备的小目标检测改善方法及系统
CN113706404A (zh) 一种基于自注意力机制的俯角人脸图像校正方法及系统
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN113111740A (zh) 一种遥感图像目标检测的特征编织方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination