CN118097370A - 基于改进YOLOv3优化算法的行人检测方法 - Google Patents
基于改进YOLOv3优化算法的行人检测方法 Download PDFInfo
- Publication number
- CN118097370A CN118097370A CN202410281219.7A CN202410281219A CN118097370A CN 118097370 A CN118097370 A CN 118097370A CN 202410281219 A CN202410281219 A CN 202410281219A CN 118097370 A CN118097370 A CN 118097370A
- Authority
- CN
- China
- Prior art keywords
- yolov
- urban road
- road environment
- improved
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/38—Outdoor scenes
- G06V20/39—Urban scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于改进YOLOv3优化算法的行人检测方法,包含:拍摄若干城市道路环境图像;对拍摄的城市道路环境图像进行预处理;对预处理后的城市道路环境图像进行标注得到城市道路环境数据集;构建YOLOv3网络模型;将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型;通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。本发明提供的基于改进YOLOv3优化算法的行人检测方法,采用了改进YOLOv3网络模型进行行人检测,使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元,解决了模型随着网络深度加深,训练的收敛速度会变慢,性能下降的问题。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于改进YOLOv3优化算法的行人检测方法。
背景技术
研究自动驾驶背景下的行人检测是一个热点问题。在自动驾驶中,行人检测主要是指对车载摄像设备获取的实时视频进行检测,通过获取行人的相关信息来辅助车辆自动行驶的相关技术。
行人检测与一般的目标检测存在着较大差异,大多数目标检测方法并不完全适用于行人定位,主要原因有以下几点:
(1)小目标行人定位准确度较低。
(2)行人多姿态的特性导致定位准确度低。
(3)背景影响对检测的干扰
(4)目标重叠、遮挡对算法识别的影响。
传统的行人检测方法大都是基于一些传统的通用目标检测方法来实现的,如VJ检测器、HOG特征、DPM模型等,检测精度不够高。
发明内容
本发明提供了一种基于改进YOLOv3优化算法的行人检测方法解决上述提到的技术问题,具体采用如下的技术方案:
一种基于改进YOLOv3优化算法的行人检测方法,包含:
拍摄若干城市道路环境图像;
对拍摄的城市道路环境图像进行预处理;
对预处理后的城市道路环境图像进行标注得到城市道路环境数据集;
构建YOLOv3网络模型;
将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型;
通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。
进一步地,所述对拍摄的城市道路环境图像进行预处理的具体方法为:
对拍摄的城市道路环境图像进行直方图均衡化。
进一步地,所述对拍摄的城市道路环境图像进行预处理的具体方法为:
将拍摄的RGB格式的城市道路环境图像压缩为灰度图像,提取灰度图像的梯度特征和形态学特征,将灰度图像作为第一波段,梯度特征图像作为第二波段及形态学特征作为第三波段。
进一步地,将所述城市道路环境数据集划分为训练数据集、验证数据集和测试数据集。
进一步地,将所述城市道路环境数据集按照7:2:1的比例划分为所述训练数据集、所述验证数据集和所述测试数据集。
进一步地,所述ResneXt残差单元将输入其中的256通道的特征图,分成32个分支,每个分支的第一个参数是输入通道数,第二个参数是卷积核大小,第三个参数是输出通道数,将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
进一步地,所述ResneXt残差单元在将32个分支的输出特征图进行逐点相加之后,再在经过2倍上采样,最后将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
进一步地,在训练所述改进YOLOv3网络模型的过程中,采用CIOU损失的方法,CIOU损失方法具体计算公式如下所示:
公式中,D是预测框与真实框中心坐标的欧式距离,c是包含预测框和真实框的最小闭包矩形的对角线长度,a是大于0的权重系数,v是度量预测框与真实框宽高比的一致性参数。
进一步地,在训练所述改进YOLOv3网络模型的过程中,采用Mish激活函数,Mish函数的表达式如下:
δ(x)=xtanh(ln(1+ex)
进一步地,在训练所述改进YOLOv3网络模型的过程中,采用Relu函数,Relu函数的表达式如下:
本发明的有益之处在于所提供的基于改进YOLOv3优化算法的行人检测方法,采用了改进YOLOv3网络模型进行行人检测,使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元,解决了模型随着网络深度加深,训练的收敛速度会变慢,性能下降的问题。
本申请的有益之处还在于所提供的基于改进YOLOv3优化算法的行人检测方法,采用了CIOU改进损失函数,使得模型在训练的过程中更加注重困难样本的训练,解决了行人存在遮挡导致YOLOv3模型容易出现漏检和误检的情况。
本申请的有益之处还在于所提供的基于改进YOLOv3优化算法的行人检测方法,采用了改进的激活函数Mish函数,解决了原ReLU函数存在的在x=0左右时两侧会产生不连续的梯度变化,避免了梯度饱和导致的训练速度下降,加快了训练速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于改进YOLOv3优化算法的行人检测方法的示意图;
图2是本发明的一种改进YOLOv3网络模型的示意图;
图3是本发明的ResneXt的单元结构的示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
如图1所示为本申请的一种基于改进YOLOv3优化算法的行人检测方法,包含:S1:拍摄若干城市道路环境图像。S2:对拍摄的城市道路环境图像进行预处理。S3:对预处理后的城市道路环境图像进行标注得到城市道路环境数据集。S4:构建YOLOv3网络模型。S5:将YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型。S6:通过城市道路环境数据集对改进YOLOv3网络模型进行训练。本申请的基于改进YOLOv3优化算法的行人检测方法,采用了改进YOLOv3网络模型进行行人检测,使用ResneXt的单元结构替换YOLOv3网络结构中的Resnet残差单元,解决了模型随着网络深度加深,训练的收敛速度会变慢,性能下降的问题。以下具体介绍上述步骤。
对于步骤S1:拍摄若干城市道路环境图像。
在本申请中,拍摄的图像为RGB图像。使用相机从真实城市道路中拍摄1000张图片,图片中包含小行人目部分遮挡行人目标等多种情形。
对于步骤S2:对拍摄的城市道路环境图像进行预处理。
在本申请的实施方式中,对拍摄的城市道路环境图像进行预处理的具体方法为:对拍摄的城市道路环境图像进行直方图均衡化。具体地,将拍摄的RGB格式的城市道路环境图像压缩为灰度图像,提取灰度图像的梯度特征和形态学特征,将灰度图像作为第一波段,梯度特征图像作为第二波段及形态学特征作为第三波段。利用上述三个波段构建预处理后的图像作为城市道路环境数据集。
对于步骤S3:对预处理后的城市道路环境图像进行标注得到城市道路环境数据集。
具体地,采用LabelImg对数据进行人工标注。通过Labelling标注工具得到训练所需的XML文件,每一张图片对应一个Label.xml。
采用7:2:1的比例划分训练数据集、验证数据集和测试数据集。其中训练集包含700张图片,验证集包含200张图片,测试集包含100张图片,将所有图片统一处理成416*416的图片。
对于步骤S4:构建YOLOv3网络模型。
构建YOLOv3主干网络Darknet-53,结合残差思想,提取更深层次的语义信息。
对于步骤S5:将YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型。
如图2所示,为改进YOLOv3网络模型。其中,基础单元CBL是由线性卷积Conv、批归一化处理(BatchNormaliza-tion)和LeakyReLU激活函数等三部分组成。Resn是由CBL构成的残差结构模块。C-Sets是由5个CBL模块构成。Ups是CBL后完成2倍上采样操作,C完成特征图的拼接操作。改进YOLOv3网络模型中,Resnet残差单元都替换为ResneXt残差单元。如图3所示为ResneXt残差单元的一个基础单元结构。ResneXt残差单元将输入其中的256通道的特征图,分成32个分支,每个分支的第一个参数是输入通道数,第二个参数是卷积核大小,第三个参数是输出通道数,将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加。针对城市道路场景中行人目标容易被遮挡的情况,为了能够提升网络的对遮挡行人目标检测能力,增强网络对小目标的特征提取能力,本申请增加第4个尺度特征,即在经过2倍上采样后,输出的特征尺度由52x52提升至104x104,然后将特征进行融合后输出。
对于步骤S6:通过城市道路环境数据集对改进YOLOv3网络模型进行训练。
在本申请的实施方式中,在训练改进YOLOv3网络模型的过程中,采用CIOU损失的方法,CIOU损失方法具体计算公式如下所示:
公式中,D是预测框与真实框中心坐标的欧式距离,c是包含预测框和真实框的最小闭包矩形的对角线长度,a是大于0的权重系数,v是度量预测框与真实框宽高比的一致性参数。采用改进的CIOU改进损失函数,使得模型在训练的过程中更加注重困难样本的训练,解决了行人存在遮挡导致YOLOv3模型容易出现漏检和误检的情况。
YOLOv3的激活函数是LeakyReLU函数,其表达式如下:
该激活函数存在的问题是当目标函数的局部梯度值变化较大时,在x=0左右两侧会产生不连续的梯度变化。
作为一种优选的实施方式,采用Mish函数代替Relu函数。该函数避免了导致训练速度急剧下降的梯度饱和,加快了训练过程。Mish函数的表达式如下:
δ(x)=xtanh(ln(1+ex)
模型设定的图像输入大小为416×416,初始学习率为0.0001,batch-size为7,将处理好的训练数据集根据设定好的batch-size输入模型中进行前向传播并计算损失,然后根据损失函数进行反向传播更新网络中的参数,经过多次迭代后,当网络损失趋于稳定时,停止模型的训练并将网络模型的参数进行保存。将待识别的图像输入到训练好的改进YOLOv3网络模型能够得到检测结果。
使用训练好的模型对测试数据进行检测,各个类别的检测结果取均精度mAP和召回率Recall来分析对比其性能。实验结果如下表1所示,表明改进后的模型对城市道路行人的检测精度有所提升。
表1改进YOLOv3网络模型与原网络模型检测性能对比
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种基于改进YOLOv3优化算法的行人检测方法,其特征在于,包含:
拍摄若干城市道路环境图像;
对拍摄的城市道路环境图像进行预处理;
对预处理后的城市道路环境图像进行标注得到城市道路环境数据集;
构建YOLOv3网络模型;
将所述YOLOv3网络模型中的Resnet残差单元替换为ResneXt残差单元得到改进YOLOv3网络模型;
通过所述城市道路环境数据集对所述改进YOLOv3网络模型进行训练。
2.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述对拍摄的城市道路环境图像进行预处理的具体方法为:
对拍摄的城市道路环境图像进行直方图均衡化。
3.根据权利要求2所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述对拍摄的城市道路环境图像进行预处理的具体方法为:
将拍摄的RGB格式的城市道路环境图像压缩为灰度图像,提取灰度图像的梯度特征和形态学特征,将灰度图像作为第一波段,梯度特征图像作为第二波段及形态学特征作为第三波段。
4.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
将所述城市道路环境数据集划分为训练数据集、验证数据集和测试数据集。
5.根据权利要求4所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
将所述城市道路环境数据集按照7:2:1的比例划分为所述训练数据集、所述验证数据集和所述测试数据集。
6.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述ResneXt残差单元将输入其中的256通道的特征图,分成32个分支,每个分支的第一个参数是输入通道数,第二个参数是卷积核大小,第三个参数是输出通道数,将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
7.根据权利要求6所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
所述ResneXt残差单元在将32个分支的输出特征图进行逐点相加之后,再在经过2倍上采样,最后将这32个分支的输出特征图进行逐点相加,最后通过短连接将相加的结果与输入部分在进行相加之后输出。
8.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
在训练所述改进YOLOv3网络模型的过程中,采用CIOU损失的方法,CIOU损失方法具体计算公式如下所示:
其中,D是预测框与真实框中心坐标的欧式距离,c是包含预测框和真实框的最小闭包矩形的对角线长度,a是大于0的权重系数,v是度量预测框与真实框宽高比的一致性参数。
9.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
在训练所述改进YOLOv3网络模型的过程中,采用Mish激活函数,Mish函数的表达式如下:
δ(x)=xtanh(ln(1+ex)。
10.根据权利要求1所述的基于改进YOLOv3优化算法的行人检测方法,其特征在于,
在训练所述改进YOLOv3网络模型的过程中,采用Relu函数,Relu函数的表达式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410281219.7A CN118097370A (zh) | 2024-03-12 | 2024-03-12 | 基于改进YOLOv3优化算法的行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410281219.7A CN118097370A (zh) | 2024-03-12 | 2024-03-12 | 基于改进YOLOv3优化算法的行人检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118097370A true CN118097370A (zh) | 2024-05-28 |
Family
ID=91154556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410281219.7A Pending CN118097370A (zh) | 2024-03-12 | 2024-03-12 | 基于改进YOLOv3优化算法的行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118097370A (zh) |
-
2024
- 2024-03-12 CN CN202410281219.7A patent/CN118097370A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN112287896A (zh) | 一种基于深度学习的无人机航拍图像目标检测方法及系统 | |
CN111814690B (zh) | 一种目标重识别方法、装置和计算机可读存储介质 | |
CN112949578B (zh) | 车灯状态识别方法、装置、设备及存储介质 | |
CN113065559B (zh) | 图像比对方法、装置、电子设备及存储介质 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
CN116434002A (zh) | 基于轻量级神经网络的烟雾检测方法、系统、介质和设备 | |
CN114639067A (zh) | 一种基于注意力机制的多尺度全场景监控目标检测方法 | |
CN113657287A (zh) | 一种基于深度学习改进YOLOv3的目标检测方法 | |
CN116630932A (zh) | 一种基于改进yolov5的道路遮挡目标检测方法 | |
CN118038494A (zh) | 一种损坏场景鲁棒的跨模态行人重识别方法 | |
CN113239931A (zh) | 一种物流站车牌识别的方法 | |
CN117132910A (zh) | 一种用于无人机的车辆检测方法、装置及存储介质 | |
CN117011168A (zh) | 一种联合DeeplabV3+和LaMa模型的透明光滑物体高光去除方法及系统 | |
CN116258686A (zh) | 基于图像卷积特征捕捉的结肠息肉分型检测模型建立方法 | |
CN118097370A (zh) | 基于改进YOLOv3优化算法的行人检测方法 | |
CN116543295A (zh) | 一种基于退化图像增强的轻量化水下目标检测方法及系统 | |
CN113269150A (zh) | 基于深度学习的车辆多属性识别的系统及方法 | |
CN114882469A (zh) | 一种基于dl-ssd模型的交通标志检测方法及系统 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN113505724A (zh) | 基于YOLOv4的交通标志识别模型训练方法及系统 | |
CN113781409B (zh) | 一种螺栓松动检测方法、装置及存储介质 | |
CN114882449B (zh) | 一种基于Car-Det网络模型的车辆检测方法及装置 | |
CN117391177B (zh) | 一种驾驶员行为检测模型的构建方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |