CN114612937A

CN114612937A - 基于单模态增强的红外与可见光融合行人检测方法

Info

Publication number: CN114612937A
Application number: CN202210253062.8A
Authority: CN
Inventors: 缑水平; 项佳军; 李睿敏; 任海洋; 侯彪; 郭璋; 白苑宁; 任子豪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-10

Abstract

本发明公开了一种基于单模态增强的红外与可见光融合行人检测方法，主要解决现有方法中单模态特征提取支路对特征表达能力差的问题。其方案为：1)对现有公开KAIST数据集进行筛选与处理，获得处理后的训练集与测试集；2)构建基于单模态增强的红外与可见光融合行人检测网络W；3)构建行人检测网络W的总体损失Loss；4)用训练集对基于单模态增强的红外与可见光融合行人检测网络W进行训练，通过损失Loss更新网络W中的参数，得到训练好的行人检测网络W′；5)将测试集的图像输入到训练好的行人检测网络W′，得到最终检测结果。本发明提高了行人目标的检测精度与检测速度，可用于无人驾驶，视频跟踪。

Description

基于单模态增强的红外与可见光融合行人检测方法

技术领域

本发明属于图像处理技术领域，特别涉及一种行人目标检测方法，可用于无人驾驶以及视频跟踪。

背景技术

红外与可见光图像在图像处理领域收到了越来越多的关注，通过红外成像传感器与可见光成像传感器在同一时刻进行图像采集来获取图像对数据。采用红外与可见光融合的方式相比单纯的可见光，可以有效的利用红外在黑夜中优势。红外是对热辐射的捕捉，所以在黑夜中能够有效地捕捉热物体。环境由于散发的热辐射远比热物体要少，所以红外图像对热物体还有强调的作用，同时可抑制环境。可见光拥有丰富的纹理信息，而红外捕捉的热辐射是一个整体的轮廓，因此无法对目标的细节进行很好的描述。所以将红外与可见光融合可以弥补红外在纹理上的不足，这种可见光与红外互相弥补对方的不足的效果，能更好地反映目标的信息，因而被应用到了多个领域，尤其应用于目标检测领域中。

基于红外与可见光融合的目标检测算法已广泛应用于无人驾驶防碰撞系统以及视频跟踪等领域，尤其是无人驾驶中对行人安全性的检测更是备受关注。Liu等人研究了在目标检测网络Faster R-CNN的不同深度特征层上进行融合对最终检测的影响。他们证明了使用Halfway融合的方式能够很好的权衡特征深度与目标尺度之间的互斥关系。Zhang等人研究了数据集中出现的红外与可见光图像对未对齐问题，并使用一个区域特征对齐模块RFA来对图像进行局部平移，缓解由于图像对未对齐导致的问题。Zhou等人对多模态数据中存在的模态不平衡问题进行了研究，并提出了模态平衡网络MB-Net来对模态不平衡等问题进行处理。

上述这些现有方法虽然利用了红外与可见光的优势，但是它们的不足之处在于只关注了融合的特征，而由于没有对单模态特征进行关注，因而导致了在单模态特征提取时，单模态分支上没有显式的监督信息，使得单模态提取的特征表征能力弱。对于基于多模态融合的目标检测，首先融合特征来源于单模态，只有单模态表征能力强，才能获得鲁棒的融合特征表示。同时较弱的表征能力将降低困难样本的识别能力，导致网络受到严重漏检的问题。同时，对于那些与行人较为相似的目标，弱表征能力的特征容易将这些背景检测为前景，使得网络检测的虚警率增大，因而有一个表征能力强的单模态特征显得尤为重要。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于单模态增强的红外与可见光融合行人检测方法，以增强单模态特征的表征能力，减小网络检测的漏检率及虚警率，提高网络的行人检测能力和检测速度。

本发明的技术方案是：利用单模态增强的网络框架以及生成约束的网络训练策略，配合多尺度自适应融合的模块，提升目标检测性能，其实现包括如下：

(1)对一个公开多模态数据集KAIST进行数据清洗，获得7601对训练图像，2252对测试图像；

(2)构建基于单模态增强的红外与可见光融合行人检测网络W：

(2a)在现有双路孪生网络Faster R-CNN结构上加入单模态训练分支，形成由双路特征提取分支T与R、区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联构成的检测网络D；

(2b)搭建由三层上采样模块级联构成的生成约束网络GC，每层上采样模块由上采样层与卷积层构成；

(2c)在网络D的T、R分支特征融合处加入生成约束网络GC，构成基于单模态增强的红外与可见光融合行人检测网络W；

(3)根据检测网络D的损失L_d和生成约束网络GC的损失L_r构建损失函数Loss：

(3a)将红外图像输入(2a)中特征提取分支T获得红外特征，将可见光图像输入(2a)中特征提取分支R获得可见光特征，将获得的红外特征与可见光特征融合获得融合特征，同时，使用随机高斯噪声与红外特征融合，获得增强的红外特征，使用随即高斯噪声与可见光特征融合，获得增强可见光特征；

(3b)将(3a)中获得的融合特征、增强的红外特征、增强可见光特征分别进一步特征提取，并输入区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P，分类与回归层级，最终计算得到检测损失L_d；

(3c)将(3a)中获得的融合特征输入生成约束网络GC，计算得到生成约束损失L_r；

(3d)将(3b)中的检测损失L_d与(3c)中的生成约束损失L_r结合，即为网络W的总体损失Loss；

Loss＝γ₁×L_d+γ₂×L_r

其中，γ₁是损失L_d的权重参数，γ₂是损失L_r的权重参数；

(4)利用训练数据，采用随机梯度下降法对行人检测网络W进行训练，得到训练好的行人检测网络W′；

(5)将测试集中待检测的可见光和红外图像对输入到训练好的行人检测网络W′中，得到测试集行人目标检测结果。

本发明与现有技术相比，具有以下优点：

1)单模态特征表征能力强，行人检测精度高

本发明由于构建了基于单模态增强的红外与可见光融合行人检测网络W，并使用其中的额外监督过程对单模态分支进行监督，有效强化了特征提取分支的特征提取能力；使用其中的多尺度自适应融合模块，以一种更灵活的方式融合了多尺度特征，使融合之后的特征具有更细粒度的特征表达能力；使用其中的生成约束网络，对可见光图像中重要的纹理信息以及红外图像中重要的亮度信息进行保留，使得网络特征提取保留更多输入中的重点信息；同时，由于构建的行人检测网络W具有了更强的特征表达能力，因而减小了行人的漏检率及虚警率，提高了网络的检测精度。

2)模型效率高

本发明引入的单模态训练分支与生成约束网络由于只在训练期间被使用，而在网络推理检测期间，这些加入的改进不需要被执行的，因而提高了行人目标的检测速度。

附图说明

图1是本发明的实现流程图；

图2是本发明中构建的行人检测网络W的结构图；

图3是行人检测网络W中多尺度自适应融合模块的网络结构示意图；

图4是行人检测网络W中的生成约束网络GC的结构示意图；

图5是分别用本发明和现有的8种方法对行人检测的性能对比图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1.构建行人检测与识别的数据集。

(1.1)选取一个现有公开的红外与可见光图像配对的数据集KAIST，其中图像大小为640×512；

(1.2)对现有公开的红外与可见光配对图像数据集KAIST进行数据清洗：

将训练集在每3对图像中取1对，并去掉选取图像对中不包含行人的图像对，并忽略严重遮挡或者小于50个像素的行人目标，得到7601对训练图像，其中白天有4755对，夜间有2846对；

将测试集每20对取1对，不做其他额外处理，得到2252对测试图像，其中白天1455对，夜间797对。

步骤2.构建基于单模态增强的红外与可见光融合行人检测网络W。

参照图2，本步骤的具体实现如下：

(2.1)选用现有双路孪生网络Faster R-CNN结构作为网络框架，该双路孪生网络包含红外特征提取分支T与可见光特征提取分支R，区域生成网络RPN、ROI池化层、分类与回归层；其中：

两个特征提取分支T与R均采用现有具有五层下采样卷积组的VGG-16网络结构，T与R共享最后一层卷积组权重，并去掉这层卷积组中的最大池化层，将T与R的输出相加可获得融合特征；

区域生成网络RPN，由一个3×3卷积，两个并列的1×1卷积级联而成，其输出分别代表目标区域以及区域的类别；

ROI池化层，其输出尺度为512×7×7，输出特征表示为P₂；

分类与回归层，其为两个并列的全连接层，分类层输出大小为2，代表行人与背景；回归层输出大小为4，代表坐标信息；

(2.2)构建包括两层并列的平均池化层P₁与P₂、第三层平均池化层AP₃、拼接层V、两层并列的全连接层f₁与f₂、激活函数层S、乘积层M、相加层J的多尺度自适应融合网络P，如图3所示，其中AP₁与P₂、V、f₁与f₂、S、M、J依次级联，同时P₃与M连接；其中：

AP₁与AP₂均使用全局平均池化，第三层平均池化层AP₃使用步长为2×2的平均池化方式，V表示特征的拼接，两层并列的全连接层f₁与f₂，其输入大小均为1024，输出大小均为512，乘积层M表示通道方向的相乘，相加层J表示元素级的相加；

激活函数S，其采用Sigmoid激活函数，表示为：

其中x表示函数的输入，e为自然对数函数的底数；

(2.3)在(2.1)双路孪生网络中的池化层中新加入一个与其并列的ROI池化层，其设定的输出尺度分别为512×14×14，其输出表示为P₁；将(2.2)获得的多尺度自适应融合网络P插入在两个并列ROI池化层与分类与回归层之间，形成由双路特征提取分支T与R、区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联构成的融合网络K；

(2.4)在融合网络K的基础上，通过随机高斯噪声分别与融合网络K中两个分支T、R的输出相加，得到与融合网络K结构相同的红外训练网络和可见光训练网络：

(2.4.1)由随机高斯噪声与融合网络K中的T分支输出相加，获得增强红外特征，将该增强红外特征与区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联，构成红外训练网络；

(2.4.2)由随机高斯噪声与融合网络K中R分支输出相加获得增强可见光特征，将该增强可见光特征与区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联，构成可见光训练网络；

上述红外训练网络以及可见光训练网络中的区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层与融合网络K中的区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层结构完全一致，并共享所有权重；

(2.5)将融合网络K，红外训练网络，可见光训练网络三个网络并联组合，构成检测网络D；

(2.6)搭建由三层上采样模块级联构成的生成约束网络GC，如图4所示，其中每层上采样模块由上采样层与卷积层构成，上采样层的上采样尺度为2，卷积层的卷积核大小为3×3，输出通道数分别为128，32，3；

(2.7)在检测网络D的T、R分支特征融合处加入生成约束网络GC，构成基于单模态增强的红外与可见光融合行人检测网络W。

步骤3.根据检测网络D的损失L_d和生成约束网络GC的损失L_r构建损失函数Loss。

(3.1)将红外图像输入到红外特征提取分支T中获得红外特征，将可见光图像输入到可见光特征提取分支R获得可见光特征，将获得的红外特征与可见光特征融合获得融合特征，同时，使用随机高斯噪声与红外特征融合，获得增强红外特征，使用随即高斯噪声与可见光特征融合，获得增强可见光特征；

(3.2)利用获得的融合特征、增强红外特征、增强可见光特征构建检测网络D的损失L_d：

(3.2.1)将(3.1)中获得的增强可见光特征进一步特征提取，并依次输入到区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P，分类与回归层，根据最终输出与真实标签的区别，计算得到可见光训练网络损失L_rgb：

式中：

为RPN网络的可见光分类预测，

为RPN网络的可见光边界框预测；

为最终检测阶段的可见光分类预测，

为最终检测阶段可见光边界框预测；G^(c)为真实类别，G^(r)为真实边界框；CE表示交叉熵损失，Smooth_L1表示平滑最小绝对值误差损失；

表示RPN网络中可见光分类预测与真实类别的交叉熵损失，

表示最终检测阶段可见光分类预测与真实类别的交叉熵损失，

表示RPN网络中可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失，

表示最终检测阶段可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失；

(3.2.2)将(3.1)中获得的增强红外特征进一步特征提取，并依次输入到区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P，分类与回归层，根据最终输出与真实标签的区别，计算得到红外训练网络损失L_t：

式中：

为RPN网络的红外分类预测，

为RPN网络的红外边界框预测；

为最终检测阶段的红外分类预测，

为最终检测阶段红外边界框预测；

表示RPN网络中红外分类预测与真实类别的交叉熵损失，

表示最终检测阶段红外分类预测与真实类别的交叉熵损失，

表示RPN网络中红外边界框预测与真实边界框之间的平滑最小绝对值误差损失，

表示最终检测阶段红外边界框预测与真实边界框之间的平滑最小绝对值误差损失；

(3.2.3)将(3.1)中获得的融合特征进一步特征提取，并依次输入到区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P，分类与回归层，根据最终输出与真实标签的区别，计算得到融合网络损失L_f：

式中：

为RPN网络的融合分类预测，

为RPN网络的融合边界框预测；

为最终检测阶段的融合分类预测，

为最终检测阶段融合边界框预测；

表示RPN网络中融合分类预测与真实类别的交叉熵损失，

表示最终检测阶段融合分类预测与真实类别的交叉熵损失，

表示RPN网络中融合边界框预测与真实边界框之间的平滑最小绝对值误差损失，

表示最终检测阶段融合边界框预测与真实边界框之间的平滑最小绝对值误差损失；

(3.2.4)对可见光训练网络损失L_rgb，红外分支损失L_t，融合分支损失L_f进行组合构成了检测损失L_d：

L_d＝α₁×L_rgb+α₂×L_t+α₃×L_f

其中α₁为L_rgb的权重参数，α₂为L_t的权重参数，α₃为L_f的权重参数；

(3.3)将(3.1)中获得的融合特征输入生成约束网络GC，根据GC的输出与输入图像之间的区别，计算得到生成约束损失L_r：

L_r＝β₁×MSE(A,C)+β₂×TV(C-B)

其中A表示红外图像，B表示可见光图像，C表示融合图像，MSE表示均方误差损失，TV表示全变分损失，MSE(A,C)表示红外图像与融合图像之间的均方误差损失，TV(C-β)表示融合图像与可见光图像之间的全变分损失，β₁是红外图像与融合图像之间的均方误差损失的系数，β₂是融合图像与可见光图像之间的全变分损失权重；

(3.4)根据(3.2)中的检测损失L_d与(3.3)中的生成约束损失L_r，计算得到网络W的总体损失Loss；

Loss＝γ₁×L_d+γ₂×L_r

其中，γ₁是损失L_d的权重参数，γ₂是损失L_r的权重参数。

步骤4.对基于单模态增强的红外与可见光融合行人检测网络W进行训练。

(4.1)设定批处理大小为4，学习率为0.001，训练迭代次数为10，每经过4个迭代次数，学习率下降为原来的0.1倍，所有的权重系数设定为：α₁＝1，α₂＝1，α₃＝2，β₁＝1，β₂＝0.65，γ₁＝1，γ₂＝0.001；

(4.2)根据(4.1)中设定的批处理大小值，将7601对训练数据进行划分，获得1900组数据；

(4.3)将(4.2)中获得的1900组数据集依次输入单模态增强的红外与可见光融合行人检测网络W，获得网络输出，并利用输出与真实标签获得网络的损失Loss，根据随机梯度下降法，利用损失表达式对网络各层权重进行求导，利用求导结果迭代更新W中双路特征提取分支T与R、区域生成网络RPN、分类与回归层、尺度自适应融合网络P以及生成约束网络GC权重；

(4.4)根据(4.1)中设定的训练迭代次数，重复步骤(4.2)和(4.3)，直至完成10次迭代，得到训练好的基于单模态增强的红外与可见光融合行人检测网络W′。

步骤5.行人目标检测与识别。

将测试集中待检测的可见光和红外图像对输入到步骤4中训练好的行人检测网络W′中，此时网络只基于融合特征进行检测，忽略多余的红外模态分支与可见光模态分支，同时生成约束网络也无需再计算，最终基于融合特征得到测试集行人目标检测结果。

本发明的效果可通过以下仿真进一步说明。

一.仿真条件

基于集成开发环境PyCharm，使用PyTorch深度学习框架，以Python 3.6实现，开发所用操作系统为Linux系统，系统版本为Ubuntu 1804，使用CUDA10.1,两块NVIDIA GeForceRTX 2070GPU(8GB Memory)用于加速网络训练。

仿真所用的图像是处理之后的红外可见光数据集KAIST中共7601对红外与可见光图像对。每对红外可见光图像的大小为640×512。

仿真使用的现有对比的算法有八种：分别是聚合通道特征算法ACF，Halfway融合算法，融合RPN算法，光照意识融合检测算法IAF R-CNN，光照意识深度神经网络的算法IATDNN+IASS，同时分割与检测算法MSDS R-CNN，弱对齐的交叉模态学习算法AR-CNN，模态平衡网络MB-Net。

仿真所用的平台为：MATLAB平台、TITAN X平台、1080Ti平台、RTX 2070平台，各平台的性能从好到差依次为：1080Ti平台、TITAN X平台、RTX 2070平台、MATLAB平台。

二.仿真内容

仿真1，分别用本发明和上述现有8种对比方法在不同平台进行KAIST测试集的行人目标检测，计算其MR^-2指标，同时计算每对图像的在各自平台运行的检测速度，结果如表1：

表1

表1中的MR^-2是一种衡量漏检率的指标，其通过在平均每对图像虚警率处于[10^-2,1]时，按平均间隔取样9个虚警率采样点，获得在该虚警率的设置下对应的漏检值，再将获得的漏检率取平均值，即获得MR^-2，该值越低越好，而检测速度也是越快越好；

从表1可见，本发明在使用性能低于TITAN X平台及1080Ti平台的RTX 2070平台上，其在总体上的MR^-2均比其他算法更优，而在检测速度上具有所有算法中的最快速度；对于性能更低的MATLAB平台，本发明比使用该平台的融合RPN算法在速度上快了10倍不止；而在检测性能上，本发明利用同样的数据集训练，并在相同的测试集上进行测试，在所有光照条件下达到了7.71％的MR^-2，比其他的现有8种算法有更好的性能。同时从白天与晚上的检测指标看来，本发明的检测效果在晚上具有更大的优势，达到了6.00％的MR^-2。这正符合了在晚上，对行人的检测需要更加谨慎这一现实需求；由于在白天，人类可以自行判断路上的行人，对机器的判断要求较低，在晚上由于光线暗，人类靠自身无法很好的判断，更需要机器的辅助；

为了验证算法的有效性，使用表1的检测结果，在近距、中距、远距、无遮挡、部分遮挡、严重遮挡的条件下进一步对MR^-2进行计算，结果如表2。

表2

从表2可见，本发明在近距中只出现了0.01％的差距，但在中距、远距、无遮挡、部分遮挡、严重遮挡这些条件下，相比现有8种对比算法获得了极大的性能提升；特别是在远距离条件下，相比于MB-Net低了11.06％的MR^-2，达到了一个非常大跨度的提升。

仿真2，将本发明检测结果与现有8种对比算法检测结果在所有亮度条件下进行FPPI-MR曲线绘制，结果如图5所示。其中：

曲线①是聚合通道特征算法ACF的FPPI-MR曲线，其MR^-2值为47.32％；

曲线②是Halfway融合算法的FPPI-MR曲线，其MR^-2值为25.75％；

曲线③是融合RPN算法的FPPI-MR曲线，其MR^-2值为18.29％；

曲线④是光照意识融合检测算法IAF R-CNN的FPPI-MR曲线，其MR^-2值为15.73％；

曲线⑤是光照意识深度神经网络的算法IATDNN+IASS的FPPI-MR曲线，其MR^-2值为14.95％；

曲线⑥是同时分割与检测算法MSDS R-CNN的FPPI-MR曲线，其MR^-2值为11.34％；

曲线⑦是弱对齐的交叉模态学习算法AR-CNN的FPPI-MR曲线，其MR^-2值为9.34％；

曲线⑧是模态平衡网络MB-Net的FPPI-MR曲线，其MR^-2值为8.13％；

曲线⑨是本发明的FPPI-MR曲线，其MR^-2值为7.71％；

从图5中可以看到，本发明在[10^-2,1]的平均每对图像虚警率FPPI有效范围内具有更低的漏检率MR。

综上，本发明通过对单模态表达能力的加强以及重点信息的保存，同时对多尺度特征进行更加细粒度的融合，提高了行人目标的检测精度。

Claims

1.一种基于单模态增强的红外与可见光融合行人检测方法，其特征在于，包括：

(2)构建基于单模态增强的红外与可见光融合行人检测网络W：

(2a)在现有双路孪生网络FasterR-CNN结构上加入单模态训练分支，形成由双路特征提取分支T与R、区域生成网络RPN、两个ROI池化层、多尺度自适应融合网络P、分类与回归层级联构成的检测网络D；

Loss＝γ₁×L_d+γ₂×L_r

其中，γ₁是损失L_d的权重参数，γ₂是损失L_r的权重参数；

2.根据权利要求1所述的方法，其特征在于，(2a)中得到的检测网络D，其各部分的参数结构如下：

所述双路特征提取分支T与R，其采用现有VGG-16网络作为网络结构，它具有五层下采样卷积组，T与R共享最后一层卷积组权重，并去掉这层卷积组中的最大池化层；

所述区域生成网络RPN，其由一个3×3卷积，两个并列的1×1卷积级联而成；

所述两个ROI池化层，其设定的输出尺度分别为512×14×14与512×7×7，分别代表为P₁，P₂；

所述的多尺度自适应融合网络P，包括两层并列的平均池化层AP₁与AP₂、第三层平均池化层AP₃、拼接层V、两层并列的全连接层f₁与f₂、激活函数层S、乘积层M、相加层J，其中AP₁与AP₂、V、f₁与f₂、S、M、J依次级联，同时AP₃与M连接；

所述分类与回归层，其为两个并列的全连接层，分类层输出大小为2，代表行人与背景；回归层输出大小为4，代表坐标信息。

3.根据权利要求1所述的方法，其特征在于，(2a)中得到的多尺度自适应融合网络P，其各部分的参数结构如下：

所述两层并列的平均池化层AP₁，AP₂，其均使用全局平均池化；

所述的拼接层V，其表示特征的拼接；

所述的两层并列的全连接层f₁与f₂，其输入大小均为1024，输出大小均为512；

所述的激活函数S，其采用Sigmoid激活函数，表示为：

其中x表示函数的输入，e为自然对数函数的底数；

所述的乘积层M，其表示通道方向的相乘；

所述的相加层J，其表示元素级的相加；

所述的第三层平均池化层AP₃，其表示步长为2×2的平均池化。

4.根据权利要求1所述的方法，其特征在于，(2b)中得到的生成约束网络GC，其各部分的参数结构如下：

所述的上采样模块中的上采样层，其放大尺度为2；

所述的上采样模块中的卷积层，其卷积核大小均为3×3，输出通道数依次为128，32和3。

5.根据权利要求1所述的方法，其特征在于，(3b)中计算检测损失L_d，公式如下：

L_d＝α₁×L_rgb+α₂×L_t+α₃×L_f

其中，L_rgb为可见光分支损失，L_t为红外分支损失，L_f为融合分支损失，α₁为L_rgb的权重参数，α₂为L_t的权重参数，α₃为L_f的权重参数；

式中：

为RPN网络的可见光分类预测，

为RPN网络的可见光边界框预测；

为RPN网络的红外分类预测，

为RPN网络的红外边界框预测；

为RPN网络的融合分类预测，

为RPN网络的融合边界框预测；

为最终检测阶段的可见光分类预测，

为最终检测阶段可见光边界框预测；

为最终检测阶段的红外分类预测，

为最终检测阶段红外边界框预测；

为最终检测阶段的融合分类预测，

为最终检测阶段融合边界框预测；G^(c)为真实类别，G^(r)为真实边界框；CE表示交叉熵损失，Smooth_L1表示平滑最小绝对值误差损失；

表示RPN网络中可见光分类预测与真实类别的交叉熵损失，

表示RPN网络中红外分类预测与真实类别的交叉熵损失，

表示最终检测阶段红外分类预测与真实类别的交叉熵损失，

表示RPN网络中融合分类预测与真实类别的交叉熵损失，

表示最终检测阶段融合分类预测与真实类别的交叉熵损失；

表示最终检测阶段可见光边界框预测与真实边界框之间的平滑最小绝对值误差损失，

表示最终检测阶段红外边界框预测与真实边界框之间的平滑最小绝对值误差损失，

表示最终检测阶段融合边界框预测与真实边界框之间的平滑最小绝对值误差损失。

6.根据权利要求1所述的方法，其特征在于，(3c)中计算生成约束网络GC损失L_r，公式如下：

L_r＝β₁×MSE(A，C)+β₂×TV(C-B)

其中A表示红外图像，B表示可见光图像，C表示融合图像，MSE表示均方误差损失，TV表示全变分损失，MSE(A，C)表示红外图像与融合图像之间的均方误差损失，TV(C-B)表示融合图像与可见光图像之间的全变分损失，β₁是红外图像与融合图像之间的均方误差损失的系数，β₂是融合图像与可见光图像之间的全变分损失权重。

7.根据权利要求1所述的方法，其特征在于，(4)中利用训练数据，采用随机梯度下降法对行人检测网络W进行训练，实现如下：

(4a)设定批处理大小为4，学习率为0.001，训练迭代次数为10，每经过4个迭代次数，学习率下降为原来的0.1倍；

(4b)根据(4a)中设定的批处理大小值，将7601对训练数据进行划分，获得1900组数据；

(4c)将(4b)中获得的1900组数据集依次输入红外与可见光图像自适应融合的行人检测网络W，获得网络输出，并利用输出与真实标签获得网络的损失Loss，利用损失表达式对网络各层权重进行求导，利用求导结果迭代更新W中双路特征提取分支T与R、区域生成网络RPN、分类与回归层、尺度自适应融合网络P以及生成约束网络GC权重；

(4d)根据(4a)中设定的训练迭代次数，重复步骤(4b)和(4c)，直至完成10次迭代，得到训练好的基于单模态增强的红外与可见光融合行人检测网络W′。