CN116977917A

CN116977917A - 一种红外图像行人检测方法

Info

Publication number: CN116977917A
Application number: CN202310742124.6A
Authority: CN
Inventors: 魏俊宇; 苏绍璟; 赵宗庆; 左震; 郭晓俊; 刘君豪
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-10-31

Abstract

本发明涉及行人检测技术领域，具体涉及一种红外图像行人检测方法，包括以下步骤：S1：将YOLOv5与attention模块、Unet结合，形成YOLO‑Unet网络；S2：attention模块和Unet形成attention Unet，attention Unet选择一副红外图像或者一对可见光和红外行人图像，attention Unet对选择的一副红外图像或者一对可见光和红外行人图像进行编码和解码，生成伪彩色图像并传输至YOLOv5；S3：YOLOv5利用DIoU‑NMS技术进行后处理和检测损失函数，并进行特征提取和行人分类。YOLO‑Unet网络可以在不需要复杂检测模型或者大型数据集的情况下，能提高热图像行人检测的性能。

Description

一种红外图像行人检测方法

技术领域

本发明涉及行人检测技术领域，具体涉及一种红外图像行人检测方法。

背景技术

行人检测是一项至关重要的任务，具有广泛的实际应用，包括增强行人的安全性，实现自动驾驶，改善视频监控。然而，在弱光环境下，由于能见度降低等因素，行人检测仍然是一项具有挑战性的任务。因此，开发有效的红外行人检测系统成为当务之急。红外成像由于其优越的视觉能力，已成为监控系统中可见光成像的热门技术。然而，由于红外图像相比可见光图像具有更为明显的特征，传统的依赖人工设计特征的行人检测方法可能不足以用于红外行人检测。此外，为了训练具有高精度的行人检测模型，大规模数据集的收集和标注也是一项艰巨的任务。

近年来，机器学习模型在红外行人检测和识别任务中得到了广泛应用。在端到端检测方法发展之前，传统的计算机视觉技术，如方向梯度直方图(HOG)、局部二值模式(LBP)和聚合通道特征(ACF)也常用于此领域。然而，这些方法在准确捕捉热成像中有关行人的所有必要信息方面存在局限性。虽然基于机器学习的方法，如深度神经网络和YOLO系列，已经被证实在一定程度上可以提高红外行人检测的性能，但它们可能会产生成本高昂的复杂检测模型。此外，红外行人的数据集通常比可见光数据集更小，因此使用复杂的检测模型并不总是切实可行的。

发明内容

本发明的目的在于简便的提高热图像行人检测的性能，针对上述存在的不足，提出一种红外图像行人检测方法。

本发明采用如下技术方案：

一种红外图像行人检测方法，包括以下步骤：

S1：将YOLOv5与attention模块、Unet结合，形成YOLO-Unet网络；

S2：attention模块和Unet形成attention Unet，attention Unet选择一副红外图像或者一对红外与可见光行人图像，attention Unet对选择的一副红外图像或者一对红外与可见光行人图像进行编码和解码，生成伪彩色图像并传输至YOLOv5；

S3：YOLOv5利用DIoU-NMS技术进行后处理和检测损失函数，并进行特征提取和行人分类；

在步骤S3中的DIoU-NMS技术涉及以下式子：

其中，S_i为DIoU-NMS的得分，IoU为交并比，R_DIoU为DIoU新增的惩罚项，ε为预定义的阈值，B为估计边界框，B^gt为目标基准真值，b为B的中心点，b^gt为B^gt的中心点，c为同时覆盖B和B^gt的最小边界框C的对角线长度，ρ为b和b^gt两个中心点的欧式距离。

可选的，在步骤S3中，YOLOv5检测的损失函数由三个部分组成，分别为bbox回归损失、目标置信度损失和类别损失。

可选的，在步骤S3中，YOLOv5检测损失函数满足以下式子：

其中，L(t_p,t_gt)为总损失，t_p为预测向量，t_gt为真值向量，K、S²和B分别为输出特征图、预测框和每个预测框上anchor的数量，α_box、α_obj和α_cls为对应的bbox回归损失、目标置信度损失和类别损失的权重，为第k个输出特征图，/>为用于平衡每个尺度的输出特征图的权重，/>取值为/>或/>或/>时对应80*80的输出特征图，/>时对应40*40的输出特征图，/>时对应20*20的输出特征图，L_CIoU为CioU损失，CIoU为考虑了重叠面积、中心点距离、长宽比的IoU，d_v为同时覆盖真值边界框和预测框的最小边界框的对角线长度，d_e为真值边界框和预测框的中心点的欧式距离，w^gt为真值边界框的宽，h^gt为真值边界框的高，w为预测框的宽，h为预测框的高，L_obj为目标置信度损失，p_iou为预测框和与之对应的目标框的IoU值，p_o为预测框中的目标置信度分数，/>为带sigmoid的二进制交叉熵函数BCEWithLogitsLoss，w_obj为调节样本的权重，L_cls为分类损失，w_cls为调节样本的权重，c_p为预测框的类别分数，c_gt为目标框的类别分数。

可选的，在步骤S3中，YOLOv5包括相互通信连接的骨干组件、颈部组件和头部组件。

可选的，在步骤S3中，骨干组件使用CSP-Darknet53架构，颈部组件使用SPPF和CSP-PAN架构来生成特征金字塔，头部组件使用YOLO通用预测层。

本发明所取得的有益效果是：

1、将YOLOv5与attention模块、Unet结合，形成YOLO-Unet网络，以专注于共同特征，能优化特征的提取且对行人进行分类；

2、YOLO-Unet网络能共享来自多个相关数据集的可见光信息，在公共红外行人数据集中能取得较高的行人检测精度；

3、YOLO-Unet网络可以在不需要复杂检测模型或者大型数据集的情况下提高热图像行人检测的性能。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明的流程图；

图2为本发明的结构框架；

图3为本发明的结构和组成；

图4为本发明中对应的FLIR数据集；

图5为本发明中对应的LLVIP数据集。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸描绘，事先声明。以下实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

本实施例提供了一种红外图像行人检测方法，结合图1至图5所示。

一种红外图像行人检测方法，包括以下步骤：

S1：将YOLOv5与attention模块、Unet结合，形成YOLO-Unet网络；

在步骤S3中的DIoU-NMS技术涉及以下式子：

其中，S_i为DIoU-NMS的得分，IoU为交并比，R_DIoU为DIoU新增的惩罚项，ε为预定义的阈值，B为估计边界框，B^gt为目标基准真值，b为B的中心点，b^gt为B^gt的中心点，c为同时覆盖B和B^gt的最小边界框C的对角线长度，ρ为b和b^gt两个中心点的欧式距离。DIoU-NMS技术涉及的式子考虑了预测边界框和实际真实边界框之间的距离以及交并度量，目的是抑制相互接近的重叠边界框，同时保留那些与给定的目标检测任务最相关的边界框。

具体的，YOLOv5进行后处理时主要是对结果进行预测，然后对行人的预测帧进行过滤，该过程是通过利用距离交集并集非极大值抑制技术来实现的，即为DIoU-NMS技术。

具体的，结合的YOLO-Unet网络创建了一种改进的端到端目标检测方法。

具体的，attention模块为注意力机制，可以学习关注不同大小和形状的结构，使其适用于红外行人检测。attention模块合并到Unet中，可以自动消除输入图像中不相关的区域，并突出显著特征以供后续处理。attention模块和Unet结合形成的attention Unet，去除softmax层并改变最后一层卷积的输出通道数，使attention Unet能够输出三通道伪彩色图像而不是像素级的分割图像，attention Unet的编码部分逐渐过滤输入图像，并在每个尺度上将其下采样两倍，且在解码过程中使用卷积和上采样来获得更深层次的特征，并使用AGs通过跳跃连接有选择地传播特征。在AGs中计算的注意力系数用于缩放输入特征，从较粗的尺度收集门控信号，为选择空间区域提供激活和上下文信息。利用三线性插值实现注意力系数的网格重采样。attention模块插入到Unet中的C3模块、解码器模块之后，通过提高红外特征提取精度和减少不必要特征的提取来增强网络性能。

可选的，在步骤S3中，YOLOv5检测损失函数满足以下式子：

具体的，k、i、j为求和的循环量。YOLOv5将特征图分为若干个cell，cell为预测框，每个cell输出一个[t_x，t_y，t_w，t_h，p_o，c₁，c₂，…]的向量，其中，t_x，t_y用于计算预测框和对应anchor box两者中心的偏移量，t_w，t_h用于计算预测框的宽高，p_o为cell含有目标的概率，c₁，c₂，…为对应类别的预测值。三个部分的损失均是通过匹配到的正样本对来计算，每一个输出伪彩色图像相互独立，直接相加得到最终每一部分的损失值。bbox回归损失使用的是CioU LOSS，使用到b和b_gt；目标置信度损失由正样本匹配得到的样本对计算，通过预测框中的目标置信度分数和预测框和与之对应的目标框的IoU值两者计算二进制交叉熵得到最终的目标置信度损失；类别损失和置信度损失类似。

具体的，attention模块插入到YOLOv5的骨干组件之后，通过提高红外特征提取精度和减少不必要特征的提取来增强网络性能。

以下设置对应的实验以及对结果进行分析。

在本研究中使用了两个数据集来研究行人检测。

第一个数据集是FLIR数据集，由带注释的热红外图像和对应的未注释的可见光图像组成，总共有14452张红外图像。其中，10,228张图像来自多个短视频的采集，而4224张图像来自一个长达144秒的视频。所有视频都是在街道和高速公路上拍摄的，这使得它们对行人检测的真实世界场景高度相关。

第二个数据集是LLVIP数据集，由严格对齐的热红外图像和可见光图像组成。该数据集包含30976张图像或15488对图像，主要是在非常黑暗的环境下拍摄的。

值得注意的是，该数据集中所有注释的物体都是行人，这使得它对本研究的目标非常相关。

此外，本研究使用三个指标评估了所提出方法在两个数据集上的性能。

首先，使用IoU阈值为0.5的平均精度均值(mAP@0.5)来衡量IoU为0.5或更高的预测边界框与真实值框的准确性。其次，mAP@0.5-0.95衡量了不同IoU阈值下预测边界框的准确性，提供了更全面的评估。最后，使用帧级的F1分数，这是分类任务中常用的指标，用于衡量准确率和召回率的调和平均值。F1分数从精度和召回率两个方面评估分类器的性能。虽然mAP@0.5和mAP@0.5-0.95专门用于目标检测任务，但F1分数更一般地用于分类任务。这些指标对所提方法在不同数据集上的性能进行了全面的评估。

并且，本研究采用PyTorch实现了该模型，并在NVIDIA Tesla A100 GPU和AMDThreadripper PRO 5995WX CPU上进行了实验。表1(模型大小和推理时间的比较)提供了该模型的不同网络体系结构及其相关关键参数。在每个训练模型中，epoch的数量被设置为50。损失函数在30次迭代后达到收敛，检测性能达到相对稳定。批处理大小为64，占用了近80％的可用显存。

表1

为了验证所提方法的优越性，使用三个不同的数据集FLIR和LLVIP进行了评估。具体而言，将FLIR数据集划分为8862张已标注的热图像进行训练，1366张已标注的热图像进行测试，保持原有的划分。同时，将LLVIP数据集按照原始划分进行划分，12025个图像对用于训练，3463个图像对用于测试。值得注意的是，所有测试结果都是使用完全收敛的网络模型权重确定的。

最后，对实验结果进行分析。在FLIR数据集上比较了YOLOv5和Unet+YOLOv5两种网络架构的性能，该数据集包含行人、自行车和汽车的标注热图像。由于数据集中图像的不对齐，故只使用热图像，并使用选择器将其转换为三通道灰度图像。在训练过程中，随机生成Unet的权重，而YOLOv5网络是在可见光图像上进行预训练的。表2(行人检测的精度的比较)所示的结果表明，仅训练YOLOv5骨干网络的Frozen-backbone训练方法的性能明显低于完全训练。在前端添加Unet可以更好地进行特征提取，从而提高了mAP@0.5和mAP@0.5-0.95方面的检测性能。这些结果证明了所提出的Unet+YOLOv5架构比单独的YOLOv5架构在热图像行人检测方面的优越性。

表2

FLIR数据集用于低照度行人检测，由对齐的红外和低照度可见光图像组成。在本研究中，使用设计的选择器生成了一个4通道的RGBT图像。将4通道输入Unet+YOLO的网络架构与原始YOLO网络进行对比。在训练过程中，随机生成Unet权重，而YOLO加载了现成的预训练YOLOv5x.pt权重。图4报告了FLIR数据集的行人检测结果。研究结果表明，红外图像训练优于可见光图像训练，因为大多数图像都是在低照度条件下捕获的。加入Unet结构增强了检测性能，特别是在mAP@0.5-0.95上，与可见光图像训练和红外图像训练相比，分别提高了0.154和0.05。图4中，(a)为真实行人图像，(b)为使用预训练权重获得的可见光YOLOv5预测结果，即YOLOv5x.pt，(c)为通过在FLIR数据集上训练得到的Unet检测结果，(d)为通过在FLIR数据集上训练得到的Unet+YOLOv5检测结果，其中，用红色框出的图像表示检测过程中的错误。

图5展示了提出的方法与原始YOLOv5针对不同类型的LLVIP数据集图像的比较。值得注意的是，实际测试表明，仅在可见光数据上训练的模型产生了很高的假阳性和漏报率。相比之下，Unet+YOLO训练的模型显示出的检测性能可与纯红外模型相媲美，即使在低光照条件下。对Unet输出图像的后处理，与原始可见光图像相比，通过生成可检测的、更清晰的区域，进一步增强了行人线索。然而，如上所述，在经过后处理的Unet输出图像的某些区域仍然可能出现一些“染色”伪影。重要的是，对图像的整体亮度进行中和，使其与正常光照设置下的正常可见光图像相匹配。图5中，(a)为行人真实值；(b)为仅使用可见光图像训练原始YOLOv5的检测结果；(c)为仅使用红外图像训练原始YOLOv5的检测结果；(d)为基于成对红外和可见光图像的检测结果，其中，黄色箭头为染色样区域，红色圈出为错误检测。

综上所述，一种红外行人检测的方法，利用改进的Unet和YOLO架构来纳入可见光域的信息，即利用attention Unet和YOLOv5的结构，所提出的方法涉及使用改进的Unet学习从红外和可见光域的行人数据到共享特征空间的映射。这种映射可以生成伪彩色红外图像，用于检测网络的训练和预测，特别是YOLO。通过融合这些伪彩色红外图像，在可见光数据上训练的YOLOv5模型可以在红外域准确检测行人目标。值得注意的是，所提出的利用可见光域信息的方法仍然依赖于该域中的可用公共数据集以获得最佳性能。尽管如此，所提出方法在红外行人检测中表现出显著的有效性。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素是可以更新的。

Claims

1.一种红外图像行人检测方法，其特征在于，包括以下步骤：

S1：将YOLOv5与attention模块、Unet结合，形成YOLO-Unet网络；

在步骤S3中的DIoU-NMS技术涉及以下式子：

2.如权利要求1所述的一种红外图像行人检测方法，其特征在于，在步骤S3中，YOLOv5检测的损失函数由三个部分组成，分别为bbox回归损失、目标置信度损失和类别损失。

3.如权利要求2所述的一种红外图像行人检测方法，其特征在于，在步骤S3中，YOLOv5检测损失函数满足以下式子：

其中，L(t_p，t_gt)为总损失，t_p为预测向量，t_gt为真值向量，K、S²和B分别为输出特征图、预测框和每个预测框上anchor的数量，α_box、α_obj和α_cls为对应的bbox回归损失、目标置信度损失和类别损失的权重，为第k个输出特征图，/>为用于平衡每个尺度的输出特征图的权重，/>取值为/>或/>或/> 时对应80*80的输出特征图，/>时对应40*40的输出特征图，/>时对应20*20的输出特征图，L_CIoU为CioU损失，CIoU为考虑了重叠面积、中心点距离、长宽比的IoU，d_v为同时覆盖真值边界框和预测框的最小边界框的对角线长度，d_e为真值边界框和预测框的中心点的欧式距离，w^gt为真值边界框的宽，h^gt为真值边界框的高，w为预测框的宽，h为预测框的高，L_obj为目标置信度损失，p_iou为预测框和与之对应的目标框的IoU值，p_o为预测框中的目标置信度分数，/>为带sigmoid的二进制交叉熵函数BCEWithLogitsLoss，w_obj为调节样本的权重，L_cls为分类损失，w_cls为调节样本的权重，c_p为预测框的类别分数，c_gt为目标框的类别分数。

4.如权利要求3所述的一种红外图像行人检测方法，其特征在于，在步骤S3中，YOLOv5包括相互通信连接的骨干组件、颈部组件和头部组件。

5.如权利要求4所述的一种红外图像行人检测方法，其特征在于，在步骤S3中，骨干组件使用CSP-Darknet53架构，颈部组件使用SPPF和CSP-PAN架构来生成特征金字塔，头部组件使用YOLO通用预测层。