CN116824630A

CN116824630A - 一种轻量化红外图像行人目标检测方法

Info

Publication number: CN116824630A
Application number: CN202310681618.8A
Authority: CN
Inventors: 张洪昌; 胡佳丽; 杨康
Original assignee: Chongqing Research Institute Of Wuhan University Of Technology; Wuhan University of Technology WUT
Current assignee: Chongqing Research Institute Of Wuhan University Of Technology; Wuhan University of Technology WUT
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-29

Abstract

本发明公开了一种轻量化红外图像行人目标检测方法，该方法包括以下步骤：步骤1，构建改进的轻量化YOLOv5网络模型；步骤2，获取红外图像行人数据集；步骤3，训练改进后的YOLOv5网络模型；步骤4，用训练好的模型进行红外图像中的行人检测。本发明可以提高模型训练速度，降低了模型部署成本，增加检测的准确率，更好的学习鲁棒性和可辨别性特征，并且提高了检测精度。

Description

一种轻量化红外图像行人目标检测方法

技术领域

本发明涉及红外图像行人目标检测技术领域，尤其涉及一种轻量化红外图像行人目标检测方法。

背景技术

红外成像抗干扰能力强、受光线和恶劣天气影响小，探测距离远，适合全天候目标检测，利用红外图像进行目标检测在很多领域具有不可替代的地位。红外图像目标检测算法可分为两类：传统算法和基于深度学习的算法。传统算法通常是根据目标本身灰度值，邻域背景信息等特征来进行检测识别，这些算法选取的特征大多是基于人工的选择，因此在算法设计中考虑的特征参数总是有限的，而深度学习能够通过训练提取数据中深层次的特征，用以目标表征，提升目标检测的鲁棒性。其中单阶段的YOLOv5目标检测模型具有高精度，灵活性，易用性强等特点，应用广泛。但YOLOv5的参数量较多，计算复杂度高，模型训练速度比较慢，部署成本比较高，只有高端图形处理器才能保证其性能。且由于红外行人目标距离远、能量弱、对比度低，分辨率低等问题导致行人目标检测识别率低。

发明内容

本发明针对上述背景技术中提到的算法参数量大，计算复杂度高，部署成本高，以及识别率低等问题，提供一种轻量化红外图像行人目标检测方法。

本发明是通过以下技术方案来实现的：

本发明提供的轻量化红外图像行人目标检测方法，包括以下步骤：

步骤1，构建改进的轻量化YOLOv5网络模型：

步骤1.1：选择轻量化的骨干特征提取网络MBNet替代YOLOv5的backbone部分；

步骤1.2：在CBAM注意力机制中增加LOG滤波器，用于在注意力模块中突出行人边缘特征；

步骤1.3：在骨干特征提取网络MBNet中引入增加了LOG滤波器的CBAM注意力机制，用于在骨干特征网络提取过程中加强红外图像行人目标特征的提取；

步骤1.4：基于高斯概率密度分布以及指数分布改进损失函数，为图像中各像素点赋予权重，重新设计CIoU损失函数中的IoU部分；

步骤2：获取红外图像行人数据集；

步骤3：训练改进后的YOLOv5网络模型；

步骤4：用训练好的模型进行红外图像中的行人检测；

上述方法中，步骤1.1所述的MBNet网络由1个CBH模块和11个Hblock基础模块组成，其中，CBH模块包括参数为(1，16，3，2)的卷积层，批归一化以及Hardwish激活函数。

上述方法中，所述的Hblock基础模块有三种，包括1个Hblock_1模块、2个Hblock_2模块以及8个Hblock_3模块。

上述方法中，所述的将CBH模块、Hblock_1模块、Hblock_2模块、Hblock_3模块依次连接，组成改进后的yolov5骨干层，即MBNet网络。

上述方法中，所述的Hblock_1模块由1个卷积核为3*3的DW卷积层，一个改进的CBAM注意力机制以及一个卷积核为1*1的卷积层构成；Hblock_2模块由1个卷积核为1*1的卷积层，1个卷积核为3*3的DW卷积层，以及一个卷积核为1*1的卷积层依次相连构成；Hblock_3模块由1个卷积核为1*1的卷积层，1个卷积核为3*3的DW卷积层，一个改进的CBAM注意力机制，以及一个卷积核为1*1的卷积层构成。此外，在Hblock_1模块、Hblock_2模块、Hblock_3模块中均添加残差结构，并且当且仅当输入与输出特征图的通道数一致时运行。

上述方法中，步骤1.3中所述的引入增加了LOG滤波器的CBAM注意力机制，分为三个部分，包括以下步骤：

步骤1.3.1：使输入的特征图经过CBAM的通道注意力模块得到加权特征图F′；

步骤1.3.2：通过LOG滤波器，将特征图F′与滤波后的图进行融合得到特征图F1；

步骤1.3.3：使特征图F1经过CBAM的空间注意力模块得到特征图F2。

上述方法中，步骤1.4中所述的基于概率密度函数改进的CIoU损失函数，其主要改进的部分为IoU，基于高斯概率密度分布以及指数分布重新设计IoU部分，具体步骤如下：

步骤1.4.1：建立图像概率分布模型，建立一个以图像左上角为原点的坐标系模型，其中纵轴方向以向下为正，并将长和宽归一化到坐标(0，1)上，其中y坐标在(0，0.5)范围内采用指数分布函数，在(0.5，1)范围采用高斯概率密度分布函数；

步骤1.4.2：通过多次对比实验，本文取高斯概率分布模型的均值为0.5，方差为0.3，指数分布的期望为1.33，得到概率分布模型f(y)如公式(1-1)所示。

式中：y_c为行人分布在纵轴方向上的坐标均值，σ为方差，λ指数系数，y为行人分布坐标，即行人所占像素区域在纵轴方向上的每行像素坐标；

步骤1.4.3：对于一张图像，利用得到的概率密度分布模型f(y)，对其在上下限进行积分，以得到每行像素的权重；

步骤1.4.4：在预测框和真实框中每行像素权重上，分别乘上该行面积再求和，得到公式1-2、1-3、1-4所示预测框和真实框加权面积A′和B′以及IoU′，包括：

其中，A，B分别为预测框和真实框的面积；n₁为预测框中像素的行数，n₂为真实框中像素的行数；A′为改进后的预测框加权面积，B′为改进后的真实框的加权面积；y_i为第i行像素的坐标；f(y)为概率分布函数值；IoU′为改进的预测框和真实框相交部分面积与相并部分面积的比值，也称交并比；

步骤1.4.5：改进的损失函数以公式1-5表示：

其中，b，b^gt分别表示预测框和真实框的中心点，ρ表示两个矩形框之间的欧氏距离，c表示两个矩形框的闭包区域的对角线的距离；ω^gt和h^gt表示真实框的宽和高，ω和h表示预测框的宽和高；υ为预测框和真实框的宽高比相似度；α为υ的影响因子；IoU′为改进的预测框和真实框相交部分面积与相并部分面积的比值，也称交并比。

上述方法中，可以采用公开的数据集KAIST，以6：2：2划分训练集验证集和测试集，并进行数据清洗和Mosaic数据增强。

上述方法中，训练改进的YOLOv5网络模型时，设置训练参数，利用随机优化算法Adam进行训练，训练批次设置为Batch＝64，初始权重采用yolov5s的权重，学习率设定为Ir＝0.001，训练迭代次数设置为Epoch＝300；

本发明提供的方法，用于红外图像或红外视频中行人目标的检测。

本发明与现有技术相比具有以下主要的有益效果：

第一，由于本发明采用轻量化骨干特征提取网络MBNet来代替YOLOv5的backbone部分，在准确率基本不变的前提下，大大减小参数量和计算量，提高模型训练速度，降低了模型部署成本；

第二，由于本发明在CBAM注意力机制中增加LOG滤波器，突出了行人边缘特征，将原始图与经过LOG滤波器的图融合起来，使原始图像轮廓边缘更清晰并具有更高的对比度，增加检测的准确率；

第三，由于本发明在骨干特征提取网络MBNet中引入了改进的CBAM注意力机制，从通道和空间维度对行人目标进行加权融合，迫使网络关注红外行人图像中不同尺度的目标，以更好的学习鲁棒性和可辨别性特征。

第四，本发明从检测速度、网络参数、权重文件等与YOLOv5红外行人图像目标检测相比有很大的提高，在检测精度方面由于YOLOv5本身的精度较高，故改进后的模型在精度方面略有提高，精确率提高了约4.2％，mAP50达到了98.9％；YOLOv5原本的参数量为7027720，本发明改进后的YOLOv5参数量为3206178，网络参数减少了约54.4％，检测时间减少了约48.4％，计算量减少了61.25％，权重文件减少了52.8％。

附图说明

图1为本发明实施例提供的一种轻量化红外图像行人目标检测方法的一个流程示意图；

图2为本发明实施例提供的一种Hblock结构示意图；

图3为本发明实施例提供的一种改进后的YOLOv5网络结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

本发明的轻量化红外图像行人目标检测方法，请参阅图1，包括：

步骤1：构建改进的轻量化YOLOv5网络模型：

首先，YOLOv5目标检测模型的neck层采用PANet结构，可以对不同层次的特征图进行特征融合，包括浅层、中层和深层特征图。这种多尺度特征融合可以提高模型对目标的识别能力，使得模型可以处理不同大小的目标并且适应不同的场景。

其次，YOLOv5目标检测模型具有高精度，灵活性，易用性强等特点，在模型的快速部署上具有极强优势。

最后，针对红外行人目标距离远、能量弱、对比度低，分辨率低导致的行人目标检测识别率低、虚警率高等问题，选择基于YOLOv5目标检测模型进行改进，基于改进YOLOv5的红外行人目标检测深度学习模型包括：采用轻量化的骨干特征提取网络MBNet来代替YOLOv5的backbone部分，在准确率基本不变的前提下，大大减小参数量和计算量，提高模型训练速度；引入CBAM注意力机制，加强红外行人目标特征的提取；增加LOG滤波器，用于注意力模块中突出行人边缘特征；改进损失函数，提高模型预测精度。

基于改进YOLOv5的红外行人检测深度网络模型如图3所示，具体的：

步骤1.1：采用轻量化骨干特征提取网络MBNet来代替YOLOv5的backbone部分，在准确率基本不变的前提下，大大减小参数量和计算量；MBNet网络由1个CBH模块和11个Hblock基础模块组成。其中，CBH模块包括参数为(1，16，3，2)的卷积层，批归一化以及Hardswish激活函数构成。Hblock基础网络有三种，包括1个Hblock_1，2个Hblock_2以及8个Hblock_3。输入的红外图像依次经过CBH模块、Hblock_1模块、Hblock_2模块、Hblock_3模块得到不同大小的特征图，实现对浅层信息的细粒度特征和深层高级语义信息的充分提取，在neck层进行特征融合。Hblock基础模块有三种，包括1个Hblock_1模块、2个Hblock_2模块以及8个Hblock_3模块。

Hblock_1模块由1个卷积核为3*3的DW卷积层，一个改进的CBAM注意力机制以及一个卷积核为1*1的卷积层构成；Hblock_2模块由1个卷积核为1*1的卷积层，1个卷积核为3*3的DW卷积层，以及一个卷积核为1*1的卷积层依次相连构成；Hblock_3模块由1个卷积核为1*1的卷积层，1个卷积核为3*3的DW卷积层，一个改进的CBAM注意力机制，以及一个卷积核为1*1的卷积层构成。此外，在Hblock_1模块、Hblock_2模块、Hblock_3模块中均添加残差结构，并且当且仅当输入与输出特征图的通道数一致时运行。如图3所示，把CBH，Hblock_1，Hblock_2，Hblock_3按顺序连接起来即组成改进的yolov5的骨干层。

图2表示的是Hblock_3模块，在Hblock_3模块基础上省去1个卷积核为1*1的卷积层即为Hblock_1模块，在Hblock_3模块基础上省去一个改进的CBAM注意力机制即为Hblock_2模块。

步骤1.2：在CBAM注意力机制中增加LOG滤波器，即高斯-拉普拉斯滤波器，用于注意力模块中突出行人边缘特征；将未经过LOG滤波器的特征图与经过LOG滤波器的特征图融合起来，使图像轮廓边缘更清晰并具有更高的对比度，增加检测的准确率。

步骤1.3：在骨干特征提取网络MBNet中引入增加了LOG滤波器的CBAM注意力机制，如图2所示，用于骨干网络特征提取过程中加强红外图像中行人目标特征的提取；基于注意力的特征精细化方法，分别采用通道和空间两个不同的模块，在保持开销较小的同时，获得了相当大的性能提升。由于CBAM注意力机制是可直接嵌入网络的轻量级模块，且通过获取不同的感受野信息自适应的调整结构，泛化能力强，将有益于红外图像行人的检测，而且仅需极少的计算负担就能实现系统性的改善。

改进的CBAM注意力机制，分为三个部分，具体包括以下步骤：

步骤1.3.1：首先使步骤1.2.1生成的特征图经过CBAM的通道注意力模块得到加权特征图F′。

步骤1.3.2：接着再通过LOG滤波器，将特征图F′与滤波后的图进行融合得到特征图F1。

步骤1.3.3：再使特征图F1经过CBAM的空间注意力模块得到特征图F2。

步骤1.4：改进损失函数，基于概率密度函数改进的CIoU损失函数，其主要改进的部分为IoU,基于高斯概率密度分布以及指数分布重新设计IoU部分，具体步骤如下：

步骤1.4.1：建立图像概率分布模型，通过对一组训练样本(即多张图像)中的行人分布情况进行统计，发现行人在横轴方向上的分布无明显差别，而在纵轴方向上差异较大，其中行人主要集中在图像中心区域以及偏下区域，此外，图像的上1/3大多为背景，出现行人的概率非常小。因此我们建立一个以图像左上角为原点的坐标系模型，其中纵轴方向以向下为正，并将长和宽归一化到(0，1)上，其中y坐标在(0，0.5)范围内采用指数分布函数，在(0.5，1)范围内采用高斯概率密度分布函数。

式中：y_c为行人分布在纵轴方向上的坐标均值，σ为方差，λ为指数系数，y为行人分布坐标，即行人所占像素区域在纵轴方向上的每行像素坐标。

步骤1.4.3：对于一张图像，利用得到的概率密度分布模型f(y)，对其在上下限上进行积分，以得到每行像素的权重。

步骤1.4.4：在预测框和真实框中每行像素权重上，分别乘上该行面积再求和即得到预测框加权面积A′和真实框加权面积B′和以及改进后的交并比IoU′，如公式1-2，1-3，1-4所示；

其中，A，B分别为预测框和真实框的面积；n₁为预测框中像素的行数，n₂为真实框中像素的行数；A′为改进后的预测框加权面积，B′为改进后的真实框的加权面积；y_i为第i行像素的坐标；f(y_i)为各像素行对应的概率分布函数值。

步骤1.4.5：改进的损失函数如公式1-5所示；

步骤2，建立红外行人检测数据集，具体的：

步骤2.1：选用公共数据集KAIST，先对公共数据集KAIST中的数据进行清洗，因为此数据集是取自视频连续帧图片，相邻图片相差不大，故每隔2张图片取一张，即每3张取一张。并去掉所有不包含任何行人的图片(数据集中有很多图片是负样本)，既选出来的图片中至少包含一个目标，且剔除数据集中行人被严重遮挡的图片。将最后得到的图片按6：2：2的比例划分训练集、验证集、测试集。

步骤2.2：对建立的数据集进行数据增强：

采用Mosaic算法实现红外行人数据的数据增强，Mosaic算法随机选取训练集中4张图片，进行随机缩放、随机裁减、随机排布，再拼接到一张图上作为训练样本，丰富了检测物体的背景和小目标，并且在计算批归一化的时候一次会计算4张图片的数据，使得minibatch大小不需要很大就可以达到比较好的效果，同时多样的目标样本使训练得到的模型具有更强的泛化能力；

步骤3：通过所述红外行人训练集对所述改进后的YOLOv5网络进行训练。具体的：

步骤3.1：将步骤2.2预处理后的红外图像行人检测训练集和验证集送入步骤1中构建的基于改进YOLOv5的红外图像行人目标检测深度学习模型；

步骤3.2：自适应缩放图片尺寸，根据网络设定的输入图片尺寸大小实现自适应红外图像行人检测训练集和验证集图片的缩放；

步骤3.3：设置训练参数，利用随机优化算法Adam进行训练，训练批次设置为Batch＝64，初始权重采用yolov5s的权重，训练迭代次数设置为Epoch＝300；

步骤3.4：根据步骤3.4确定的学习率和迭代次数，完成基于改进YOLOv5的红外图像行人目标检测深度学习模型的训练，得到收敛良好的基于改进YOLOv5的红外图像行人目标检测深度学习模型。

步骤4：通过训练好的模型进行红外图像行人检测。将训练好的改进后的yolov5模型用于红外图像或红外视频中行人目标的检测。

本发明的方法提供资源高效、实时性强、易于部署和实际应用可行的解决方案。通过减少计算负载和内存占用，它能在有限资源下高效运行，快速准确地检测行人目标，实现实时响应和低能耗。借助本发明的方法，无人驾驶系统能够很好地进行红外图像或红外视频中行人目标的检测，可以在夜间行车时更可靠地感知和响应行人目标，从而大大提高交通安全和乘客的保护水平，为无人驾驶技术的实际应用提供了强大的支持。

Claims

1.一种轻量化红外图像行人目标检测方法，其特征在于，包括以下步骤：

步骤1，构建改进的轻量化YOLOv5网络模型：

步骤2：获取红外图像行人数据集；

步骤3：训练改进后的YOLOv5网络模型；

步骤4：用训练好的模型进行红外图像中的行人检测。

2.根据权利要求1所述的轻量化红外图像行人目标检测方法，其特征在于：步骤1.1所述的MBNet网络由1个CBH模块和11个Hblock基础模块组成，其中，CBH模块包括参数为(1，16，3，2)的卷积层，批归一化以及Hardwish激活函数。

3.根据权利要求2所述的轻量化红外图像行人目标检测方法，其特征在于：Hblock基础模块有三种，包括1个Hblock_1模块、2个Hblock_2模块以及8个Hblock_3模块。

4.根据权利要求2所述的轻量化红外图像行人目标检测方法，其特征在于：将CBH模块、Hblock_1模块、Hblock_2模块、Hblock_3模块依次连接，组成改进后的yolov5骨干层，即MBNet网络。

5.根据权利要求3所述的轻量化红外图像行人目标检测方法，其特征在于：Hblock_1模块由1个卷积核为3*3的DW卷积层，一个改进的CBAM注意力机制以及一个卷积核为1*1的卷积层构成；Hblock_2模块由1个卷积核为1*1的卷积层，1个卷积核为3*3的DW卷积层，以及一个卷积核为1*1的卷积层依次相连构成；Hblock_3模块由1个卷积核为1*1的卷积层，1个卷积核为3*3的DW卷积层，一个改进的CBAM注意力机制，以及一个卷积核为1*1的卷积层构成；在Hblock_1模块、Hblock_2模块、Hblock_3模块中均添加残差结构，并且当且仅当输入与输出特征图的通道数一致时运行。

6.根据权利要求1所述的轻量化红外图像行人目标检测方法，其特征在于：步骤1.3中所述的引入增加了LOG滤波器的CBAM注意力机制，分为三个部分，包括以下步骤：

7.根据权利要求1所述的轻量化红外图像行人目标检测方法，其特征在于：步骤1.4中所述的基于概率密度函数改进的CIoU损失函数，其主要改进的部分为IoU，基于高斯概率密度分布以及指数分布重新设计IoU部分，具体步骤如下：

式中：y_c为行人分布在纵轴方向上的坐标均值，σ为方差，λ为指数系数，y为行人分布坐标，即行人所占像素区域在纵轴方向上的每行像素坐标；

步骤1.4.5：改进的损失函数以公式1-5表示：

8.根据权利要求1所述的轻量化红外图像行人目标检测方法，其特征在于，采用公开的数据集KAIST，以6：2：2划分训练集验证集和测试集，并进行数据清洗和Mosaic数据增强。

9.根据权利要求1所述的轻量化红外图像行人目标检测方法，其特征在于，训练改进后的YOLOv5网络模型时，设置训练参数，利用随机优化算法Adam进行训练，训练批次设置为Batch＝64，初始权重采用yolov5s的权重，学习率设定为Ir＝0.001，训练迭代次数设置为Epoch＝300。

10.权利要求1至9中任一所述的方法，用于红外图像或红外视频中行人目标的检测。