CN118097370A

CN118097370A - 基于改进YOLOv3优化算法的行人检测方法

Info

Publication number: CN118097370A
Application number: CN202410281219.7A
Authority: CN
Inventors: 厚芸; 娄强
Original assignee: PowerChina Huadong Engineering Corp Ltd
Current assignee: PowerChina Huadong Engineering Corp Ltd
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-05-28

Abstract

本发明公开了一种基于改进YOLOv3优化算法的行人检测方法，包含：拍摄若干城市道路环境图像；对拍摄的城市道路环境图像进行预处理；对预处理后的城市道路环境图像进行标注得到城市道路环境数据集；构建YOLOv3网络模型；将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型；通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。本发明提供的基于改进YOLOv3优化算法的行人检测方法，采用了改进YOLOv3网络模型进行行人检测，使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元，解决了模型随着网络深度加深，训练的收敛速度会变慢，性能下降的问题。

Description

基于改进YOLOv3优化算法的行人检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于改进YOLOv3优化算法的行人检测方法。

背景技术

研究自动驾驶背景下的行人检测是一个热点问题。在自动驾驶中，行人检测主要是指对车载摄像设备获取的实时视频进行检测，通过获取行人的相关信息来辅助车辆自动行驶的相关技术。

行人检测与一般的目标检测存在着较大差异，大多数目标检测方法并不完全适用于行人定位，主要原因有以下几点:

(1)小目标行人定位准确度较低。

(2)行人多姿态的特性导致定位准确度低。

(3)背景影响对检测的干扰

(4)目标重叠、遮挡对算法识别的影响。

传统的行人检测方法大都是基于一些传统的通用目标检测方法来实现的，如VJ检测器、HOG特征、DPM模型等，检测精度不够高。

发明内容

本发明提供了一种基于改进YOLOv3优化算法的行人检测方法解决上述提到的技术问题，具体采用如下的技术方案：

一种基于改进YOLOv3优化算法的行人检测方法，包含：

拍摄若干城市道路环境图像；

对拍摄的城市道路环境图像进行预处理；

对预处理后的城市道路环境图像进行标注得到城市道路环境数据集；

构建YOLOv3网络模型；

将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型；

通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。

进一步地，所述对拍摄的城市道路环境图像进行预处理的具体方法为：

对拍摄的城市道路环境图像进行直方图均衡化。

将拍摄的RGB格式的城市道路环境图像压缩为灰度图像，提取灰度图像的梯度特征和形态学特征，将灰度图像作为第一波段，梯度特征图像作为第二波段及形态学特征作为第三波段。

进一步地，将所述城市道路环境数据集划分为训练数据集、验证数据集和测试数据集。

进一步地，将所述城市道路环境数据集按照7:2:1的比例划分为所述训练数据集、所述验证数据集和所述测试数据集。

进一步地，所述ResneXt残差单元将输入其中的256通道的特征图，分成32个分支，每个分支的第一个参数是输入通道数，第二个参数是卷积核大小，第三个参数是输出通道数，将这32个分支的输出特征图进行逐点相加，最后通过短连接将相加的结果与输入部分在进行相加之后输出。

进一步地，所述ResneXt残差单元在将32个分支的输出特征图进行逐点相加之后，再在经过2倍上采样，最后将这32个分支的输出特征图进行逐点相加，最后通过短连接将相加的结果与输入部分在进行相加之后输出。

进一步地，在训练所述改进YOLOv3网络模型的过程中，采用CIOU损失的方法，CIOU损失方法具体计算公式如下所示：

公式中，D是预测框与真实框中心坐标的欧式距离，c是包含预测框和真实框的最小闭包矩形的对角线长度，a是大于0的权重系数，v是度量预测框与真实框宽高比的一致性参数。

进一步地，在训练所述改进YOLOv3网络模型的过程中，采用Mish激活函数，Mish函数的表达式如下：

δ(x)＝xtanh(ln(1+e^x)

进一步地，在训练所述改进YOLOv3网络模型的过程中，采用Relu函数，Relu函数的表达式如下：

本发明的有益之处在于所提供的基于改进YOLOv3优化算法的行人检测方法，采用了改进YOLOv3网络模型进行行人检测，使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元，解决了模型随着网络深度加深，训练的收敛速度会变慢，性能下降的问题。

本申请的有益之处还在于所提供的基于改进YOLOv3优化算法的行人检测方法，采用了CIOU改进损失函数，使得模型在训练的过程中更加注重困难样本的训练，解决了行人存在遮挡导致YOLOv3模型容易出现漏检和误检的情况。

本申请的有益之处还在于所提供的基于改进YOLOv3优化算法的行人检测方法，采用了改进的激活函数Mish函数，解决了原ReLU函数存在的在x＝0左右时两侧会产生不连续的梯度变化，避免了梯度饱和导致的训练速度下降，加快了训练速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种基于改进YOLOv3优化算法的行人检测方法的示意图；

图2是本发明的一种改进YOLOv3网络模型的示意图；

图3是本发明的ResneXt的单元结构的示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

如图1所示为本申请的一种基于改进YOLOv3优化算法的行人检测方法，包含：S1：拍摄若干城市道路环境图像。S2：对拍摄的城市道路环境图像进行预处理。S3：对预处理后的城市道路环境图像进行标注得到城市道路环境数据集。S4：构建YOLOv3网络模型。S5：将YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型。S6：通过城市道路环境数据集对改进YOLOv3网络模型进行训练。本申请的基于改进YOLOv3优化算法的行人检测方法，采用了改进YOLOv3网络模型进行行人检测，使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元，解决了模型随着网络深度加深，训练的收敛速度会变慢，性能下降的问题。以下具体介绍上述步骤。

对于步骤S1：拍摄若干城市道路环境图像。

在本申请中，拍摄的图像为RGB图像。使用相机从真实城市道路中拍摄1000张图片，图片中包含小行人目部分遮挡行人目标等多种情形。

对于步骤S2：对拍摄的城市道路环境图像进行预处理。

在本申请的实施方式中，对拍摄的城市道路环境图像进行预处理的具体方法为：对拍摄的城市道路环境图像进行直方图均衡化。具体地，将拍摄的RGB格式的城市道路环境图像压缩为灰度图像，提取灰度图像的梯度特征和形态学特征，将灰度图像作为第一波段，梯度特征图像作为第二波段及形态学特征作为第三波段。利用上述三个波段构建预处理后的图像作为城市道路环境数据集。

对于步骤S3：对预处理后的城市道路环境图像进行标注得到城市道路环境数据集。

具体地，采用LabelImg对数据进行人工标注。通过Labelling标注工具得到训练所需的XML文件，每一张图片对应一个Label.xml。

采用7:2:1的比例划分训练数据集、验证数据集和测试数据集。其中训练集包含700张图片，验证集包含200张图片，测试集包含100张图片，将所有图片统一处理成416*416的图片。

对于步骤S4：构建YOLOv3网络模型。

构建YOLOv3主干网络Darknet-53，结合残差思想，提取更深层次的语义信息。

对于步骤S5：将YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型。

如图2所示，为改进YOLOv3网络模型。其中，基础单元CBL是由线性卷积Conv、批归一化处理(BatchNormaliza－tion)和LeakyReLU激活函数等三部分组成。Resn是由CBL构成的残差结构模块。C-Sets是由5个CBL模块构成。Ups是CBL后完成2倍上采样操作，C完成特征图的拼接操作。改进YOLOv3网络模型中，Resnet残差单元都替换为ResneXt残差单元。如图3所示为ResneXt残差单元的一个基础单元结构。ResneXt残差单元将输入其中的256通道的特征图，分成32个分支，每个分支的第一个参数是输入通道数，第二个参数是卷积核大小，第三个参数是输出通道数，将这32个分支的输出特征图进行逐点相加，最后通过短连接将相加的结果与输入部分在进行相加。针对城市道路场景中行人目标容易被遮挡的情况，为了能够提升网络的对遮挡行人目标检测能力，增强网络对小目标的特征提取能力，本申请增加第4个尺度特征，即在经过2倍上采样后，输出的特征尺度由52x52提升至104x104，然后将特征进行融合后输出。

对于步骤S6：通过城市道路环境数据集对改进YOLOv3网络模型进行训练。

在本申请的实施方式中，在训练改进YOLOv3网络模型的过程中，采用CIOU损失的方法，CIOU损失方法具体计算公式如下所示：

公式中，D是预测框与真实框中心坐标的欧式距离，c是包含预测框和真实框的最小闭包矩形的对角线长度，a是大于0的权重系数，v是度量预测框与真实框宽高比的一致性参数。采用改进的CIOU改进损失函数，使得模型在训练的过程中更加注重困难样本的训练，解决了行人存在遮挡导致YOLOv3模型容易出现漏检和误检的情况。

YOLOv3的激活函数是LeakyReLU函数，其表达式如下：

该激活函数存在的问题是当目标函数的局部梯度值变化较大时，在x＝0左右两侧会产生不连续的梯度变化。

作为一种优选的实施方式，采用Mish函数代替Relu函数。该函数避免了导致训练速度急剧下降的梯度饱和，加快了训练过程。Mish函数的表达式如下：

δ(x)＝xtanh(ln(1+e^x)

模型设定的图像输入大小为416×416，初始学习率为0.0001，batch-size为7，将处理好的训练数据集根据设定好的batch-size输入模型中进行前向传播并计算损失，然后根据损失函数进行反向传播更新网络中的参数，经过多次迭代后，当网络损失趋于稳定时，停止模型的训练并将网络模型的参数进行保存。将待识别的图像输入到训练好的改进YOLOv3网络模型能够得到检测结果。

使用训练好的模型对测试数据进行检测，各个类别的检测结果取均精度mAP和召回率Recall来分析对比其性能。实验结果如下表1所示，表明改进后的模型对城市道路行人的检测精度有所提升。

表1改进YOLOv3网络模型与原网络模型检测性能对比

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于改进YOLOv3优化算法的行人检测方法，其特征在于，包含：

拍摄若干城市道路环境图像；

对拍摄的城市道路环境图像进行预处理；

构建YOLOv3网络模型；

2.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

所述对拍摄的城市道路环境图像进行预处理的具体方法为：

对拍摄的城市道路环境图像进行直方图均衡化。

3.根据权利要求2所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

所述对拍摄的城市道路环境图像进行预处理的具体方法为：

4.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

将所述城市道路环境数据集划分为训练数据集、验证数据集和测试数据集。

5.根据权利要求4所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

将所述城市道路环境数据集按照7:2:1的比例划分为所述训练数据集、所述验证数据集和所述测试数据集。

6.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

所述ResneXt残差单元将输入其中的256通道的特征图，分成32个分支，每个分支的第一个参数是输入通道数，第二个参数是卷积核大小，第三个参数是输出通道数，将这32个分支的输出特征图进行逐点相加，最后通过短连接将相加的结果与输入部分在进行相加之后输出。

7.根据权利要求6所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

所述ResneXt残差单元在将32个分支的输出特征图进行逐点相加之后，再在经过2倍上采样，最后将这32个分支的输出特征图进行逐点相加，最后通过短连接将相加的结果与输入部分在进行相加之后输出。

8.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

在训练所述改进YOLOv3网络模型的过程中，采用CIOU损失的方法，CIOU损失方法具体计算公式如下所示：

其中，D是预测框与真实框中心坐标的欧式距离，c是包含预测框和真实框的最小闭包矩形的对角线长度，a是大于0的权重系数，v是度量预测框与真实框宽高比的一致性参数。

9.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

在训练所述改进YOLOv3网络模型的过程中，采用Mish激活函数，Mish函数的表达式如下：

δ(x)＝xtanh(ln(1+e^x)。

10.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法，其特征在于，

在训练所述改进YOLOv3网络模型的过程中，采用Relu函数，Relu函数的表达式如下：