CN117392496A

CN117392496A - 基于红外与可见光图像融合的目标检测方法及系统

Info

Publication number: CN117392496A
Application number: CN202311395664.8A
Authority: CN
Inventors: 邓宽; 王朕; 张玉
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-12

Abstract

本发明公开了一种基于红外与可见光图像融合的目标检测方法及系统，涉及计算机视觉目标检测的技术领域，包括，使用获取的数据集对融合网络进行训练，以获取训练后的图像融合网络模型；对融合网络进行训练包括使用QDOB单元对可见光图像和红外图像分别进行细节信息和语义信息的特征提取，获取可见光图像特征图和红外图像特征图；对可见光和红外图像特征图进行特征融合以及重建，以获取重建图像；将待测的红外和可见光图像输入至训练后的图像融合网络模型中进行图像融合，并输出融合图像；将融合图像输入至训练好的YOLOv5网络模型中进行目标检测；本申请的目标检测方法，图像融合效果好，目标检测精度高，能够满足实时检测的需求。

Description

基于红外与可见光图像融合的目标检测方法及系统

技术领域

本发明属于计算机视觉的目标检测技术领域，具体涉及一种基于红外与可见光图像融合的目标检测方法及系统。

背景技术

由于成像设备的限制，单一类型的传感器通常无法全面的传达图像生成的信息。例如，可见光图像通常包含丰富的纹理细节信息，但却容易遭受极端环境的影响而失去场景中的目标。与之相反，红外传感器通过捕获物体散发的热辐射信息成像，能够有效地突出目标的轮廓、位置信息，但是缺乏对目标的细节描述。

图像融合技术是指通过将多个图像或视频序列进行处理和合成，生成一幅合成图像的技术。它广泛应用于航空、遥感、军事、医学等领域，可以从多个视角或传感器获取到的图像中提取出更多、更全面的信息，提高数据获取和分析效率。

现在已经存在针对以上获取图像信息方式的单一性，利用图像融合技术将各类图像中的信息集中起来，生成具有丰富特征的图像的方法，但现有技术中图像融合模型的准确率低，图像融合的效果也相对较差，导致目标检测的识别精度也比较差。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于红外与可见光图像融合的目标检测方法及系统，图像融合效果好，目标检测精度高。

本发明提供了如下的技术方案：

第一方面，提供了一种基于红外与可见光图像融合的目标检测方法，包括：

使用获取的数据集对融合网络进行训练，以获取训练后的图像融合网络模型；对融合网络进行训练包括使用QDOB单元对可见光图像和红外图像分别进行细节信息的特征提取和语义信息的特征提取，获取可见光图像特征图和红外图像特征图；对可见光图像特征图和红外图像特征图进行特征融合以及重建，以获取重建图像；

将待测的红外和可见光图像输入至训练后的图像融合网络模型中进行图像融合，并输出融合图像；

将融合图像输入至训练好的YOLOv5网络模型中进行目标检测。

优选地，对可见光图像和红外图像分别进行细节信息的特征提取时，使用OSA模型来提取信息，且位于OSA模型前层的特征会向后层传递，并在最后一层进行聚合；对可见光图像和红外图像分别进行语义信息的特征提取时，采用下采样网络结构。

优选地，对融合网络进行训练还包括使用3*3的卷积层对可见光图像和红外图像进行卷积提取，并输入QDOB单元中；使用QDOB单元对可见光图像和红外图像分别进行细节信息的特征提取和语义信息的特征提取后，使用CBAM单元对获取的细节信息和语义信息进行特征信息强化。

优选地，图像融合网络模型的总体损失函数L为：

L＝L_p+αL_gra+βL_per+γL_c

其中，L_p为像素损失，L_gra为梯度损失，L_per为感知损失，L_c为颜色损失，α为平衡梯度损失的权重，β为平衡感知损失的权重，γ为平衡颜色损失的权重。

优选地，像素损失用于计算重建图像与原图像间的像素误差；像素损失L_p为：

L_p＝MSE(O,I)

其中，O为重建图像，I为原图像，MSE(O,I)为重建图像与原图像的均方误差函数，N为像素的总个数，O_n为重建图像第n个像素；I_n为原图像第n个像素；

梯度损失用于计算重建图像和原图像的边缘信息损失，梯度损失L_gra为：

L_gra＝MSE(Gradient(O),Gradient(I))

其中，Gradient(O)为重建图像的梯度图函数，Gradient(I)为原图像的梯度图函数，MSE(Gradient(O),Gradient(I))为Gradient(O)和Gradient(I)的均方误差函数；

感知损失可以计算重建图像与原图像的特征误差，感知损失L_per为：

其中，MSE(q_i(O),q_i(I))为q_i(O)和q_i(I)的均方误差函数，q_i(O)为重建图像输入融合网络进行训练确定的第i层的特征，q_i(I)为原图像第i层的特征；

颜色损失来计算重建图像和原图像之间的颜色直方图误差，颜色损失L_c为：

L_c＝‖Histogram(O)-Histogram(I)‖₂

其中，Histogram(O)为重建图像的颜色直方图，Histogram(I)为原图像的颜色直方图；‖Histogram(O)-Histogram(I)‖₂为重建图像的颜色直方图与原图像的颜色直方图之差的二范数。

优选地，使用获取的数据集对融合网络进行训练时，获取的数据集为MSRS数据集，将MSRS数据集按照7：2：1比列划分训练集、验证集和测试集。

优选地，引入轻量型网络GhostNet替代YOLOv5网络模型主干网络中的CSP1模块中的残差结构。

第二方面，提供了一种基于红外与可见光图像融合的目标检测系统，包括：

融合训练模块，用于使用获取的数据集对融合网络进行训练，以获取训练后的图像融合网络模型；所述融合训练模块包括QDOB单元和融合重建单元；QDOB单元用于对可见光图像和红外图像分别进行细节信息的特征提取和语义信息的特征提取，获取可见光图像特征图和红外图像特征图；融合重建单元用于对QDOB单元获取的可见光图像特征图和红外图像特征图进行特征融合以及重建，以获取重建图像；

输出模块，用于将待测的红外和可见光图像输入至所述融合训练模块训练后的图像融合网络模型中进行图像融合，并输出融合图像；

目标检测模块，用于将输出模块输出的融合图像输入至训练好的YOLOv5网络模型中进行目标检测；

所述融合训练模块还包括卷积单元和CBAM单元；所述卷积单元用于使用3*3的卷积层对可见光图像和红外图像进行卷积提取，并输入QDOB单元中；所述CBAM单元用于对所述QDOB单元获取的细节信息和语义信息进行特征信息强化。

第三方面，提供了一种计算机设备，包括处理器和存储器；处理器执行存储器中保存的计算机程序时实现第一方面中任一项所述的基于红外与可见光图像融合的目标检测方法的步骤。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序；其特征在于，计算机程序被处理器执行时实现第一方面中任一项所述的基于红外与可见光图像融合的目标检测方法的步骤。

与现有技术相比，本发明的有益效果是：

本申请在对图像融合网络模型训练时，使用QDOB单元对红外图像和可见光图像进行特征提取，进行细节信息的特征提取时，使用OSA模型来提取信息，且位于OSA模型前层的特征会向后层传递，并在最后一层进行聚合；进行语义信息的特征提取时，采用下采样网络结构，从而精确的提取了多样化的中间层特征，并且避免了信息的冗余，图像融合效果好，目标检测精度高。

附图说明

图1是本发明的基于红外与可见光图像融合的目标检测方法的流程示意图；

图2是本发明的基于红外与可见光图像融合的流程示意图；

图3是本发明的融合网络的结构示意图；

图4是本发明的QDOB单元的结构示意图；

图5是本发明的CBAM单元的结构示意图；

图6是本发明的YOLOv5网络结构图；

图7是本发明的改进后的CSP1结构图；

图8是本发明的多个应用场景多个目标融合方法的融合效果对比图；

图9是本发明的不同目标检测算法的指标对比图；

图10是本发明的的基于红外与可见光图像融合的目标检测系统的结构框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在一实施例中，如图1和2所示，提供一种基于红外与可见光图像融合的目标检测方法，包括以下步骤：

S100：使用获取的数据集对融合网络进行训练，以获取训练后的图像融合网络模型。

使用获取的数据集对融合网络进行训练时，获取的数据集为MSRS数据集，将MSRS数据集按照7：2：1比列划分训练集、验证集和测试集。

具体地，选择427张白天场景图像和376张夜间场景图像来训练融合子网络，采用裁剪和分解数据增强来生成足够的训练数据，将这些图像裁剪成64*64的块，步长设置为64，总共收集了29960个白天块和26320个夜间块，利用376个白天图像对和376个夜间图像对来学习融合模型的参数，所有图像块在输入网络之前都被标准化为[0,1]，白天场景和夜间场景的标签分别设置为2D向量[1,0]和[0,1]，将MSRS数据集按照数量7：2：1比列划分训练集、验证集和测试集，其中，训练集包含了18424张图片及相应的标签，验证集包含了5264张图片及相应的标签，测试集包含了2632张图片及相应的标签。

具体地，对融合网络进行训练包括：

S101：使用3*3的卷积层对可见光图像VI和红外图像IR进行卷积提取，并输入QDOB单元中；

S102：使用QDOB单元对可见光图像和红外图像分别进行细节信息的特征提取和语义信息的特征提取；

S103：使用CBAM单元对QDOB单元获取的细节信息和语义信息进行特征信息强化，获取可见光图像特征图和红外图像特征图。

即融合网络包括编码器、融合层和加码器，编码器包括两个特征提取结构，一个特征提取结构用于可见光图像进行特征提取，另一个提取结构用于对红外图像进行特征提取；每个特征提取结构均包括一个3*3的卷积层、一个QDOB单元和一个CBAM单元，如图3所示，3*3的卷积层C1_1和C1_2分别用于从红外和可见光图像中获得一组浅层特征，第一个特征提取结构将C1_1提取的特征作为QDOB模块的输入，用来提取可见光图像的细节信息和语义信息，第二个特征提取结构将C1_2提取的特征作为QDOB模块的输入，用来提取红外图像的细节信息和语义信息。

具体地，对可见光图像和红外图像分别进行细节信息的特征提取时，使用OSA模型来提取信息，且位于OSA模型前层的特征会向后层传递，并在最后一层进行聚合；对可见光图像和红外图像分别进行语义信息的特征提取时，采用下采样网络结构。

如图4所示，QDOB单元包括两个分支，细节分支和语义分支，细节分支使用OSA模型来提取原图像的细节信息，该模型中前层的特征会向后层传递，在最后一层进行聚合，语义分支采用快速下采样网络结构，以实现对语义信息的提取，采用三个3*3的卷积对特征图进行下采样操作，上采样层用于对特征图进行上采样，以使得经过上采样后获得的特征图与QDOB模块的输入特征图保持相同的大小；细节分支中包含6个卷积层，它们分别是C3_1、C3_2、C3_3、C3_4、C3_5、C3_6，其中C3_1、C3_2、C3_3、C3_4、C3_5卷积层的卷积核大小为3×3，步长为1，输出特征图的通道数为64。C3_6卷积层的卷积核大小为1×1，步长为1，使用该卷积层以调整特征图的通道数；语义分支中包含三个卷积层和一个上采样层，三个卷积层分别是C4_1、C4_2、C4_3，这三个卷积层的卷积核大小为3×3，步长为2，以对特征图进行下采样操作。

如图5所示，CBAM单元代表了一个卷积模块的注意机制模块，它是一个将空间数据和通道数据相结合的注意机制模块，输入一个特征图，CBAM模块沿着两个独立的维度(通道和空间)依次推断注意图，其中通道注意力模块通过对输入特征图在通道维度上进行最大池化和平均池化，然后将这两个池化结果输入到一个全连接层中，最后输出一个通道注意力权重向量。空间注意力模块则通过对输入特征图在通道维度上进行平均池化和最大池化，然后将这两个池化结果输入到一个全连接层中，最后输出一个空间注意力权重张量，CBAM模块则将这两个子模块串联起来，用于插入到卷积神经网络中以提升模型性能。

如图4所示，2通道数的输入图像经过上层分支中C3_1卷积块通道数变为64；经过C3_2卷积块通道数变为64；经过C3_3卷积块通道数变为64；经过C3_4卷积块通道数变为64；C3_5卷积块通道数变为64；前层的特征图在最后一层累加起来得到352通道数的特征图，经过C3_5卷积块通道数变为64；输入图像经过下层分支中C4_1卷积块变为通道数为64；经过C4_2卷积块变为通道数为128；C4_3卷积块变为通道数为64；经过上采样层通道数变为64；然后与上层分支的特征图Concat变为通道数为128的特征图。

S104：对可见光图像特征图和红外图像特征图进行特征融合以及重建，以获取重建图像。

具体地，解码器由4个3*3的卷积层组成(C2_1、C2_2、C2_3、C2_4)，用于对融合后的特征进行重建并获得融合图像。其中，C1_1卷积块对输入至图像融合网络的红外图像进行特征提取得到通道数为32的特征图A；C1_2卷积块对输入至图像融合网络的红外图像进行特征提取得到通道数为32的特征图B；第一个QDOB模块将特征图A进行特征融合通道数变为128；第二个QDOB模块将特征图B进行特征融合通道数变为128；经过融合层对特征图A和B相加得到128的特征图C；经过C2_1卷积块将通道数变为64；经过C2_2卷积块将通道数变为32；经过C2_3卷积块将通道数变为16；经过C2_4卷积块获得融合重建图像。选用Mish激活函数，该函数可以防止网络饱和，提高正则化效果，对于较大的误差能够起到抑制作用。

具体地，图像融合网络模型的总体损失函数L为：

L＝L_p+αL_gra+βL_per+γL_c

其中，L_p为像素损失，L_gra为梯度损失，L_per为感知损失，L_c为颜色损失，α为平衡梯度损失的权重，β为平衡感知损失的权重，γ为平衡颜色损失的权重；

像素损失用于计算重建图像与原图像间的像素误差；像素损失L_p为：

L_p＝MSE(O,I)

L_gra＝MSE(Gradient(O),Gradient(I))

Gradient(O)和Gradient(I)函数采用拉普拉斯运算来获得梯度图，拉普拉斯运算的公式为：

L_c＝‖Histogram(O)-Histogram(I)‖₂

为了对比本发明融合方法，采用SeAFusion、U2Fusion、DIVFusion与本发明设计的融合算法进行对比，如图8所示，图8a-f是第一个场景下采用IR、DV、SeAFusion、U2Fusion、DIVFusion和MyFusion融合效果对比图；图8g-l是第二个场景下采用IR、DV、SeAFusion、U2Fusion、DIVFusion和MyFusion融合效果对比图；图8m-r是第三个场景下采用IR、DV、SeAFusion、U2Fusion、DIVFusion和MyFusion融合效果对比图；图8s-x是第四个场景下采用IR、DV、SeAFusion、U2Fusion、DIVFusion和MyFusion融合效果对比图；本申请所示的融合方法(MyFusion)具有可见光图像的纹理细节信息和红外图像的轮廓信息，使目标很容易被算法检测到。

以最左侧的图像进行数据分析，经过4种融合算法处理后的图像信息指标如表1所示：

表1各种算法图像融合信息对比

算法	SD	EN	AG	Q_abf
					SeAFusion	9.732	5.811	3.742	0.498
U2Fusion	9.641	5.125	3.342	0.441
					DIVFusion	9.766	5.795	3.756	0.509
MyFusion	10.332	5.837	4.013	0.523

由上述表1可知，本发明的算法(MyFusion)在标准差(SD)、信息熵(EN)、平均梯度(AG)、边缘保持度(Qabf)值上均要高于前三种融合算法。其中边缘保持度反映融合结果图像对可见光和红外图像的融入度，值越大则表示融合后的图像能更多的保留原图像的边缘信息，因此本发明的融合方法能够更好的满足图像融合的需求。

S200：将待测的红外和可见光图像输入至训练后的图像融合网络模型中进行图像融合，并输出融合图像。

S300：将融合图像输入至训练好的YOLOv5网络模型中进行目标检测。

具体地，引入轻量型网络GhostNet替代YOLOv5网络模型主干网络中的CSP1模块中的残差结构。

具体地，对YOLOv5网络模型的训练包括：

D1：建立YOLOv5网络，将训练集的融合图像送入YOLOv5网络中进行一个epoch的训练，通过损失函数计算YOLOv5网络的损失，优化梯度，反向传播，得到初步的YOLOv5训练模型。

从图6和图7中可以看出，在YOLOv5网络模型中有很多层CBS基本卷积块，CBS卷积块由卷积层(Convolution,Conv)、批量归一化层(BatchNormal,BN)和激活函数SiLu组成，然而卷积层太多会增大计算量和网络参数量，所以引入轻量型的GhostNet网络替代YOLOv5主干网络中CSP1结构中的残差结构；GhostNet卷积模块采用传统卷积与轻量的冗余特征生成器相结合的方式代替传统的卷积层，网络参数和计算量相对较少，更容易部署到终端。

YOLOv5网络损失函数由两部分组成，分别是回归损失和分类损失。回归损失又称坐标位置损失，采用CIOU_loss作为位置损失。分类损失又包括类别损失和置信损失，采用Focal_loss评价类损失和置信度损失，各计算公式如下：

CIOU_loss＝1-CIOU

Focal_loss＝-(1-p_t)^γlgp_t

其中，IOU表示预测框与真实框的交并比，ρ²(b,b^gt)表示待检测目标预测框与真实框中心点之间的欧式距离，c表示待检测目标的预测框与真实框最小外接矩形的对角线距离，α为权重系数，v表示衡量长宽比一致性的参数，表示真实框长宽比，/>表示预测框的长宽比，P_t表示预测样本概率，γ为常数参数。

D2：将测试集中的样本数据输入到初步的YOLOv5训练模型进行一次前向传播，并通过损失函数计算YOLOv5网络的损失，更新优化后的参数，得到YOLOv5网络的初步验证模型。

重复步骤D1和步骤D2，确定YOLOv5网络的最佳模型参数，得到YOLOv5网络模型。

为对本发明的算法性能进行客观评价，采用常用的Precision、Recall、mAP作为评价指标，各指标计算公式如下：

其中，TP表示真实正样本中被预测为正样本的个数，FP表示真实负样本中被预测为正样本的个数，FN表示真实正样本中被预测为负样本的个数，k表示检测总类别数，AP(i)表示第i个类别的AP值，特别的当k＝1时，AP＝mAP。

如图9可以看出，图9a为DV、SeAFusion、U2Fusion、DIVFusion和MyFusion准确率对比图，图9b为DV、SeAFusion、U2Fusion、DIVFusion和MyFusion召回率对比图，图9c为DV、SeAFusion、U2Fusion、DIVFusion和MyFusion平均进度值0.5时算法性能对比图，图9d为DV、SeAFusion、U2Fusion、DIVFusion和MyFusion平均进度值0.5:0.95％时算法性能对比图，由图9可知，融合图像训练出的模型各项指标均高于原图像训练出的模型的各项指标，其中本发明设计的融合算法将模型准确率P由67.23％提升到84.79％，还通过与其他三种算法进行比较，发现本发明算法有着最高的检测精度，综合性能也是较强，满足实时检测图像目标的需求。

在另一实施例中，如图10所示，提供一种基于红外与可见光图像融合的目标检测系统，包括融合训练模块100、输出模块200和目标检测模块300。

融合训练模块100，用于使用获取的数据集对融合网络进行训练，以获取训练后的图像融合网络模型；所述融合训练模块包括QDOB单元和融合重建单元；QDOB单元用于对可见光图像和红外图像分别进行细节信息的特征提取和语义信息的特征提取，获取可见光图像特征图和红外图像特征图；融合重建单元用于对QDOB单元获取的可见光图像特征图和红外图像特征图进行特征融合和重建，以获取重建图像；所述融合训练模块还包括卷积单元和CBAM单元；所述卷积单元用于使用3*3的卷积层对可见光图像和红外图像进行卷积提取，并输入QDOB单元中；所述CBAM单元用于对所述QDOB单元获取的细节信息和语义信息进行特征信息强化。

输出模块200，用于将待测的红外和可见光图像输入至所述融合训练模块100训练后的图像融合网络模型中进行图像融合，并输出融合图像。

目标检测模块300，用于将输出模块200输出的融合图像输入至训练好的YOLOv5网络模型中进行目标检测。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现上述基于红外与可见光图像融合的目标检测方法的步骤。

在另一实施例中，本发明提供一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现上述基于红外与可见光图像融合的目标检测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于红外与可见光图像融合的目标检测方法，其特征在于，包括：

将融合图像输入至训练好的YOLOv5网络模型中进行目标检测。

2.根据权利要求1所述的基于红外与可见光图像融合的目标检测方法，其特征在于，对可见光图像和红外图像分别进行细节信息的特征提取时，使用OSA模型来提取信息，且位于OSA模型前层的特征会向后层传递，并在最后一层进行聚合；对可见光图像和红外图像分别进行语义信息的特征提取时，采用下采样网络结构。

3.根据权利要求1所述的基于红外与可见光图像融合的目标检测方法，其特征在于，对融合网络进行训练还包括使用3*3的卷积层对可见光图像和红外图像进行卷积提取，并输入QDOB单元中；使用QDOB单元对可见光图像和红外图像分别进行细节信息的特征提取和语义信息的特征提取后，使用CBAM单元对获取的细节信息和语义信息进行特征信息强化。

4.根据权利要求1所述的基于红外与可见光图像融合的目标检测方法，其特征在于，图像融合网络模型的总体损失函数L为：

L＝L_p+αL_gra+βL_per+γL_c

5.根据权利要求4所述的基于红外与可见光图像融合的目标检测方法，其特征在于，像素损失用于计算重建图像与原图像间的像素误差；像素损失L_p为：

L_p＝MSE(O,I)

L_gra＝MSE(Gradient(O),Gradient(I))

L_c＝‖Histogram(O)-Histogram(I)‖₂

6.根据权利要求1所述的基于红外与可见光图像融合的目标检测方法，其特征在于，使用获取的数据集对融合网络进行训练时，获取的数据集为MSRS数据集，将MSRS数据集按照7：2：1比列划分训练集、验证集和测试集。

7.根据权利要求1所述的基于红外与可见光图像融合的目标检测方法，其特征在于，引入轻量型网络GhostNet替代YOLOv5网络模型主干网络中的CSP1模块中的残差结构。

8.一种基于红外与可见光图像融合的目标检测系统，其特征在于，包括：

9.一种计算机设备，包括处理器和存储器；其特征在于，处理器执行存储器中保存的计算机程序时实现权利要求1-7中任一项所述的基于红外与可见光图像融合的目标检测方法的步骤。

10.一种计算机可读存储介质，用于存储计算机程序；其特征在于，计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于红外与可见光图像融合的目标检测方法的步骤。