CN118097370A - 基于改进YOLOv3优化算法的行人检测方法 - Google Patents

基于改进YOLOv3优化算法的行人检测方法 Download PDF

Info

Publication number
CN118097370A
CN118097370A CN202410281219.7A CN202410281219A CN118097370A CN 118097370 A CN118097370 A CN 118097370A CN 202410281219 A CN202410281219 A CN 202410281219A CN 118097370 A CN118097370 A CN 118097370A
Authority
CN
China
Prior art keywords
yolov
urban road
road environment
improved
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410281219.7A
Other languages
English (en)
Inventor
厚芸
娄强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PowerChina Huadong Engineering Corp Ltd
Original Assignee
PowerChina Huadong Engineering Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PowerChina Huadong Engineering Corp Ltd filed Critical PowerChina Huadong Engineering Corp Ltd
Priority to CN202410281219.7A priority Critical patent/CN118097370A/zh
Publication of CN118097370A publication Critical patent/CN118097370A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • G06V20/39Urban scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于改进YOLOv3优化算法的行人检测方法,包含:拍摄若干城市道路环境图像;对拍摄的城市道路环境图像进行预处理;对预处理后的城市道路环境图像进行标注得到城市道路环境数据集;构建YOLOv3网络模型;将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型;通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。本发明提供的基于改进YOLOv3优化算法的行人检测方法,采用了改进YOLOv3网络模型进行行人检测,使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元,解决了模型随着网络深度加深,训练的收敛速度会变慢,性能下降的问题。

Description

基于改进YOLOv3优化算法的行人检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于改进YOLOv3优化算法的行人检测方法。
背景技术
研究自动驾驶背景下的行人检测是一个热点问题。在自动驾驶中,行人检测主要是指对车载摄像设备获取的实时视频进行检测,通过获取行人的相关信息来辅助车辆自动行驶的相关技术。
行人检测与一般的目标检测存在着较大差异,大多数目标检测方法并不完全适用于行人定位,主要原因有以下几点:
(1)小目标行人定位准确度较低。
(2)行人多姿态的特性导致定位准确度低。
(3)背景影响对检测的干扰
(4)目标重叠、遮挡对算法识别的影响。
传统的行人检测方法大都是基于一些传统的通用目标检测方法来实现的,如VJ检测器、HOG特征、DPM模型等,检测精度不够高。
发明内容
本发明提供了一种基于改进YOLOv3优化算法的行人检测方法解决上述提到的技术问题,具体采用如下的技术方案:
一种基于改进YOLOv3优化算法的行人检测方法,包含:
拍摄若干城市道路环境图像;
对拍摄的城市道路环境图像进行预处理;
对预处理后的城市道路环境图像进行标注得到城市道路环境数据集;
构建YOLOv3网络模型;
将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型;
通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。
进一步地,所述对拍摄的城市道路环境图像进行预处理的具体方法为:
对拍摄的城市道路环境图像进行直方图均衡化。
进一步地,所述对拍摄的城市道路环境图像进行预处理的具体方法为:
将拍摄的RGB格式的城市道路环境图像压缩为灰度图像,提取灰度图像的梯度特征和形态学特征,将灰度图像作为第一波段,梯度特征图像作为第二波段及形态学特征作为第三波段。
进一步地,将所述城市道路环境数据集划分为训练数据集、验证数据集和测试数据集。
进一步地,将所述城市道路环境数据集按照7:2:1的比例划分为所述训练数据集、所述验证数据集和所述测试数据集。
进一步地,所述ResneXt残差单元将输入其中的256通道的特征图,分成32个分支,每个分支的第一个参数是输入通道数,第二个参数是卷积核大小,第三个参数是输出通道数,将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
进一步地,所述ResneXt残差单元在将32个分支的输出特征图进行逐点相加之后,再在经过2倍上采样,最后将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
进一步地,在训练所述改进YOLOv3网络模型的过程中,采用CIOU损失的方法,CIOU损失方法具体计算公式如下所示:
公式中,D是预测框与真实框中心坐标的欧式距离,c是包含预测框和真实框的最小闭包矩形的对角线长度,a是大于0的权重系数,v是度量预测框与真实框宽高比的一致性参数。
进一步地,在训练所述改进YOLOv3网络模型的过程中,采用Mish激活函数,Mish函数的表达式如下:
δ(x)=xtanh(ln(1+ex)
进一步地,在训练所述改进YOLOv3网络模型的过程中,采用Relu函数,Relu函数的表达式如下:
本发明的有益之处在于所提供的基于改进YOLOv3优化算法的行人检测方法,采用了改进YOLOv3网络模型进行行人检测,使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元,解决了模型随着网络深度加深,训练的收敛速度会变慢,性能下降的问题。
本申请的有益之处还在于所提供的基于改进YOLOv3优化算法的行人检测方法,采用了CIOU改进损失函数,使得模型在训练的过程中更加注重困难样本的训练,解决了行人存在遮挡导致YOLOv3模型容易出现漏检和误检的情况。
本申请的有益之处还在于所提供的基于改进YOLOv3优化算法的行人检测方法,采用了改进的激活函数Mish函数,解决了原ReLU函数存在的在x=0左右时两侧会产生不连续的梯度变化,避免了梯度饱和导致的训练速度下降,加快了训练速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于改进YOLOv3优化算法的行人检测方法的示意图;
图2是本发明的一种改进YOLOv3网络模型的示意图;
图3是本发明的ResneXt的单元结构的示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
如图1所示为本申请的一种基于改进YOLOv3优化算法的行人检测方法,包含:S1:拍摄若干城市道路环境图像。S2:对拍摄的城市道路环境图像进行预处理。S3:对预处理后的城市道路环境图像进行标注得到城市道路环境数据集。S4:构建YOLOv3网络模型。S5:将YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型。S6:通过城市道路环境数据集对改进YOLOv3网络模型进行训练。本申请的基于改进YOLOv3优化算法的行人检测方法,采用了改进YOLOv3网络模型进行行人检测,使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元,解决了模型随着网络深度加深,训练的收敛速度会变慢,性能下降的问题。以下具体介绍上述步骤。
对于步骤S1:拍摄若干城市道路环境图像。
在本申请中,拍摄的图像为RGB图像。使用相机从真实城市道路中拍摄1000张图片,图片中包含小行人目部分遮挡行人目标等多种情形。
对于步骤S2:对拍摄的城市道路环境图像进行预处理。
在本申请的实施方式中,对拍摄的城市道路环境图像进行预处理的具体方法为:对拍摄的城市道路环境图像进行直方图均衡化。具体地,将拍摄的RGB格式的城市道路环境图像压缩为灰度图像,提取灰度图像的梯度特征和形态学特征,将灰度图像作为第一波段,梯度特征图像作为第二波段及形态学特征作为第三波段。利用上述三个波段构建预处理后的图像作为城市道路环境数据集。
对于步骤S3:对预处理后的城市道路环境图像进行标注得到城市道路环境数据集。
具体地,采用LabelImg对数据进行人工标注。通过Labelling标注工具得到训练所需的XML文件,每一张图片对应一个Label.xml。
采用7:2:1的比例划分训练数据集、验证数据集和测试数据集。其中训练集包含700张图片,验证集包含200张图片,测试集包含100张图片,将所有图片统一处理成416*416的图片。
对于步骤S4:构建YOLOv3网络模型。
构建YOLOv3主干网络Darknet-53,结合残差思想,提取更深层次的语义信息。
对于步骤S5:将YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型。
如图2所示,为改进YOLOv3网络模型。其中,基础单元CBL是由线性卷积Conv、批归一化处理(BatchNormaliza-tion)和LeakyReLU激活函数等三部分组成。Resn是由CBL构成的残差结构模块。C-Sets是由5个CBL模块构成。Ups是CBL后完成2倍上采样操作,C完成特征图的拼接操作。改进YOLOv3网络模型中,Resnet残差单元都替换为ResneXt残差单元。如图3所示为ResneXt残差单元的一个基础单元结构。ResneXt残差单元将输入其中的256通道的特征图,分成32个分支,每个分支的第一个参数是输入通道数,第二个参数是卷积核大小,第三个参数是输出通道数,将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加。针对城市道路场景中行人目标容易被遮挡的情况,为了能够提升网络的对遮挡行人目标检测能力,增强网络对小目标的特征提取能力,本申请增加第4个尺度特征,即在经过2倍上采样后,输出的特征尺度由52x52提升至104x104,然后将特征进行融合后输出。
对于步骤S6:通过城市道路环境数据集对改进YOLOv3网络模型进行训练。
在本申请的实施方式中,在训练改进YOLOv3网络模型的过程中,采用CIOU损失的方法,CIOU损失方法具体计算公式如下所示:
公式中,D是预测框与真实框中心坐标的欧式距离,c是包含预测框和真实框的最小闭包矩形的对角线长度,a是大于0的权重系数,v是度量预测框与真实框宽高比的一致性参数。采用改进的CIOU改进损失函数,使得模型在训练的过程中更加注重困难样本的训练,解决了行人存在遮挡导致YOLOv3模型容易出现漏检和误检的情况。
YOLOv3的激活函数是LeakyReLU函数,其表达式如下:
该激活函数存在的问题是当目标函数的局部梯度值变化较大时,在x=0左右两侧会产生不连续的梯度变化。
作为一种优选的实施方式,采用Mish函数代替Relu函数。该函数避免了导致训练速度急剧下降的梯度饱和,加快了训练过程。Mish函数的表达式如下:
δ(x)=xtanh(ln(1+ex)
模型设定的图像输入大小为416×416,初始学习率为0.0001,batch-size为7,将处理好的训练数据集根据设定好的batch-size输入模型中进行前向传播并计算损失,然后根据损失函数进行反向传播更新网络中的参数,经过多次迭代后,当网络损失趋于稳定时,停止模型的训练并将网络模型的参数进行保存。将待识别的图像输入到训练好的改进YOLOv3网络模型能够得到检测结果。
使用训练好的模型对测试数据进行检测,各个类别的检测结果取均精度mAP和召回率Recall来分析对比其性能。实验结果如下表1所示,表明改进后的模型对城市道路行人的检测精度有所提升。
表1改进YOLOv3网络模型与原网络模型检测性能对比
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于改进YOLOv3优化算法的行人检测方法,其特征在于,包含:
拍摄若干城市道路环境图像;
对拍摄的城市道路环境图像进行预处理;
对预处理后的城市道路环境图像进行标注得到城市道路环境数据集;
构建YOLOv3网络模型;
将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型;
通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。
2.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述对拍摄的城市道路环境图像进行预处理的具体方法为:
对拍摄的城市道路环境图像进行直方图均衡化。
3.根据权利要求2所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述对拍摄的城市道路环境图像进行预处理的具体方法为:
将拍摄的RGB格式的城市道路环境图像压缩为灰度图像,提取灰度图像的梯度特征和形态学特征,将灰度图像作为第一波段,梯度特征图像作为第二波段及形态学特征作为第三波段。
4.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
将所述城市道路环境数据集划分为训练数据集、验证数据集和测试数据集。
5.根据权利要求4所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
将所述城市道路环境数据集按照7:2:1的比例划分为所述训练数据集、所述验证数据集和所述测试数据集。
6.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述ResneXt残差单元将输入其中的256通道的特征图,分成32个分支,每个分支的第一个参数是输入通道数,第二个参数是卷积核大小,第三个参数是输出通道数,将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
7.根据权利要求6所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述ResneXt残差单元在将32个分支的输出特征图进行逐点相加之后,再在经过2倍上采样,最后将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
8.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
在训练所述改进YOLOv3网络模型的过程中,采用CIOU损失的方法,CIOU损失方法具体计算公式如下所示:
其中,D是预测框与真实框中心坐标的欧式距离,c是包含预测框和真实框的最小闭包矩形的对角线长度,a是大于0的权重系数,v是度量预测框与真实框宽高比的一致性参数。
9.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
在训练所述改进YOLOv3网络模型的过程中,采用Mish激活函数,Mish函数的表达式如下:
δ(x)=xtanh(ln(1+ex)。
10.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
在训练所述改进YOLOv3网络模型的过程中,采用Relu函数,Relu函数的表达式如下:
CN202410281219.7A 2024-03-12 2024-03-12 基于改进YOLOv3优化算法的行人检测方法 Pending CN118097370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410281219.7A CN118097370A (zh) 2024-03-12 2024-03-12 基于改进YOLOv3优化算法的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410281219.7A CN118097370A (zh) 2024-03-12 2024-03-12 基于改进YOLOv3优化算法的行人检测方法

Publications (1)

Publication Number Publication Date
CN118097370A true CN118097370A (zh) 2024-05-28

Family

ID=91154556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410281219.7A Pending CN118097370A (zh) 2024-03-12 2024-03-12 基于改进YOLOv3优化算法的行人检测方法

Country Status (1)

Country Link
CN (1) CN118097370A (zh)

Similar Documents

Publication Publication Date Title
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN112801182B (zh) 一种基于困难样本感知的rgbt目标跟踪方法
CN112287896A (zh) 一种基于深度学习的无人机航拍图像目标检测方法及系统
CN111814690B (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN112949578B (zh) 车灯状态识别方法、装置、设备及存储介质
CN113065559B (zh) 图像比对方法、装置、电子设备及存储介质
CN114332942A (zh) 基于改进YOLOv3的夜间红外行人检测方法及系统
CN116434002A (zh) 基于轻量级神经网络的烟雾检测方法、系统、介质和设备
CN114639067A (zh) 一种基于注意力机制的多尺度全场景监控目标检测方法
CN113657287A (zh) 一种基于深度学习改进YOLOv3的目标检测方法
CN116630932A (zh) 一种基于改进yolov5的道路遮挡目标检测方法
CN118038494A (zh) 一种损坏场景鲁棒的跨模态行人重识别方法
CN113239931A (zh) 一种物流站车牌识别的方法
CN117132910A (zh) 一种用于无人机的车辆检测方法、装置及存储介质
CN117011168A (zh) 一种联合DeeplabV3+和LaMa模型的透明光滑物体高光去除方法及系统
CN116258686A (zh) 基于图像卷积特征捕捉的结肠息肉分型检测模型建立方法
CN118097370A (zh) 基于改进YOLOv3优化算法的行人检测方法
CN116543295A (zh) 一种基于退化图像增强的轻量化水下目标检测方法及系统
CN113269150A (zh) 基于深度学习的车辆多属性识别的系统及方法
CN114882469A (zh) 一种基于dl-ssd模型的交通标志检测方法及系统
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质
CN113505724A (zh) 基于YOLOv4的交通标志识别模型训练方法及系统
CN113781409B (zh) 一种螺栓松动检测方法、装置及存储介质
CN114882449B (zh) 一种基于Car-Det网络模型的车辆检测方法及装置
CN117391177B (zh) 一种驾驶员行为检测模型的构建方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination