CN113076804B - 基于YOLOv4改进算法的目标检测方法、装置及系统 - Google Patents

基于YOLOv4改进算法的目标检测方法、装置及系统 Download PDF

Info

Publication number
CN113076804B
CN113076804B CN202110255281.5A CN202110255281A CN113076804B CN 113076804 B CN113076804 B CN 113076804B CN 202110255281 A CN202110255281 A CN 202110255281A CN 113076804 B CN113076804 B CN 113076804B
Authority
CN
China
Prior art keywords
yolov4
frames
network structure
fcspx
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110255281.5A
Other languages
English (en)
Other versions
CN113076804A (zh
Inventor
杜小芳
薛新雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110255281.5A priority Critical patent/CN113076804B/zh
Publication of CN113076804A publication Critical patent/CN113076804A/zh
Application granted granted Critical
Publication of CN113076804B publication Critical patent/CN113076804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于YOLOv4改进算法的目标检测方法、装置及系统,方法包括获取YOLOv4‑FCSPX网络结构;获取含目标物体的图片集,包括训练子集和测试子集;对训练子集中图片分别进行目标物体标注,获得对应的标注框;对所有标注框进行聚类,获得K个先验框;将所有先验框和图片集中的原始图片输入至YOLOv4‑FCSPX网络结构,生成特征图,得到特征图对应先验框的物体置信度;基于特征图对应先验框的物体置信度筛选出一定数量的候选框;对所有候选框进行非极大值抑制得到预测框;基于各预测框与标注框的损失值对YOLOv4‑FCSPX网络结构的权值进行更新;将测试子集中的图片输入至训练好的YOLOv4‑FCSPX网络结构,获得目标物体的大小、位置及类别。本发明能够大大提高对小目标的检测精度。

Description

基于YOLOv4改进算法的目标检测方法、装置及系统
技术领域
本发明属于目标检测领域,具体涉及一种基于YOLOv4改进算法的目标检测方法、装置及系统。
背景技术
伴随我国汽车保有量的逐年增加,道路拥堵成为不可避免的问题。为了解决这一问题,智能交通系统(Intelligent Transportation System,ITS)应运而生。ITS由道路、车辆、行人三部分组成,通过对道路上车辆和行人的实时信息监测来缓解道路交通负担。其中视觉智能交通系统是构成ITS的重要部分,它通过采集到的路况信息,利用相关视觉算法,实现车辆和行人检测。
车辆和行人检测方法主要有两类,基于传统机器学习的检测方式和基于深度学习的目标检测方式。其中,基于传统方法的目标检测方式有基于图像特征和几何特征等这类方法。基于图像特征方法的常见特征有呈现图像灰度值的变化的haar特征,有计算局部图像区域的梯度直方图的HOG特征等;基于几何特征方法的常见特征有目标物体的形状特征、对称性特征、车底阴影特征等。但是,通过人工选择的单个或几种特征,并不能很好的描述目标物体,在车辆种类的不同、行人形态的差异以及外部环境因素等复杂场景下会导致物体检测的不准确性。
基于深度学习的目标检测的特征提取是将图像经过训练的更深,更复杂的网络模型进而从中提取特征,提取的特征优于传统上使用人工设计方法提取的特征。主要包括两大类,一类是two_stage检测算法,其步骤是首先确定目标区域,然后对区域进行分类,它对目标物体的检测分为两步,代表算法有Fast R-CNN和Faster R-CNN,这类算法的优点是检测精度较高,但检测速度慢,不适合实时检测;另一类是one_stage检测算法,通过单次检测就能检测出物体的类别概率和位置坐标,代表算法有YOLO和SSD,这类算法的检测精度会有所下降,但换来的是检测速度的提高,可以满足实时性要求,真正运用到无人驾驶领域,可以很好地改善传统方法带来的训练时间长,检测速度慢的问题。
在工程应用中,基于单阶段检测的YOLO算法被广泛应用,虽然能很好的解决检测速度慢这一缺点,但其检测准确性,尤其对小目标的检测精度还有待提高。
发明内容
针对上述问题,本发明提出一种基于YOLOv4改进算法的目标检测方法、装置及系统,能够大大提高对小目标的检测精度。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供轮一种基于YOLOv4改进算法的目标检测方法,包括:
获取YOLOv4-FCSPX网络结构,所述YOLOv4-FCSPX网络结构是通过对YOLOv4网络结构中CSPX的残差结构进行浅层到深层的融合构造而成的;
获取含目标物体的图片集,所述图片集分为训练子集和测试子集;
对训练子集中图片分别进行目标物体标注,获得对应的标注框;
对所有标注框进行聚类,获得K个先验框;
将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度;
基于设定的物体置信度阈值,以及特征图对应先验框的位置信息、类别信息和物体置信度,获得一定数量的候选框;
对所有候选框进行非极大值抑制,得到预测框;
基于各预测框与对应的标注框的损失值对YOLOv4-FCSPX网络结构的权值进行更新,直到损失值小于设定阈值,获得训练好的YOLOv4-FCSPX网络结构;
将测试子集中的图片输入至训练好的YOLOv4-FCSPX网络结构,获得目标物体的大小、位置及类别,完成目标检测。
可选地,所述YOLOv4-FCSPX网络结构包括:骨干Backbone、颈部Neck和头部Head三部分;
所述骨干Backbone由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Mish,称为CBM,另一部分是CBM与残差模块Res unitN组成的CSPX;所述CSPX的数量为5,分别记为:CSP1、CSP2、CSP8、CSP8、CSP4;所述CSP8中有8个残差模块,前6个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP8;所述CSP4中有4个残差模块,前2个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP4。
所述颈部Neck由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Leakyrelu,称为CBL,另一部分是空间金字塔池化SPP;
所述头部Head是由CBL和Conv组成。
可选地,所述标注框的获得方法包括:
利用数据标注软件labelme对训练集中图片进行车辆和行人标注,获得对应的标注框,以及目标物体的位置信息和类别信息,所述位置信息包括标注框的中心点坐标值、标注框的高宽值。
可选地,所述图片集中共包含9423帧图像,标签分为两类:车辆和行人;
所述训练子集和测试子集,比例为9:1;
利用数据标注软件labelme对数据集中的训练集进行车辆和行人标注,生成xml文件,利用python脚本voc_label将xml文件格式转换为txt文件格式。
可选地,所述先验框的个数为9,各先验框的宽高尺寸分别为(12,18)、(14,49)、(17,23)、(24,29)、(31,45)、(41,32)、(52,59)、(83,102)、(159,229)。
可选地,所述对所有标注框进行聚类,获得K个先验框,及各先验框的高宽值,具体为:
(1)获取任意标注框的高宽值作为初始聚类中心;
(2)计算标注框的中心与最近的聚类中心的距离d=1-IoU,计算时每个标注框的中心点都与聚类中心重合,其中IOU为标注框宽高与聚类中心宽高的交并比,把所有的距离加起来得到Sum(d);
(3)在选取新的聚类中心时,先取落在Sum(d)之间的随机值random,对于未被选中的数据点,若当前的数据点对应的∑d>random,该数据点被选为下一个聚类中心;
(4)重复步骤(1)和步骤(3),直到K个聚类中心(Wi,Hi)(i=1,2,...,k)被选出来;
(5)计算每个标注框与聚类中心的距离d=1-IOU[(xj,yj,wj,hj),(xj,yj,Wi,Hi)],j∈{1,2,...,N},i∈{1,2,3...k};
(6)将标注框分配给距离最近的聚类中心,计算时每个标注框的中心点都与聚类中心重合;
(7)所有标注框分配完毕后,对每个簇重新计算聚类中心点,计算方式为:
Figure BDA0002967985500000031
其中,Ni是第i个簇的标注框个数;
(8)重复步骤(6)和步骤(7),直到聚类中心的改变量逐渐收敛即可得到K个先验框的宽高尺寸。
可选地,所述将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度,具体为:
将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图尺寸为大、中、小三个尺寸,尺寸分别为76×76、38×38和19×19,大特征图对应有76×76个特征点,每个特征点对应有3种尺寸的先验框,则76×76的特征图一共有76×76×3=17328个先验框,那么3个特征图一共有76×76×3+38×38×3+19×19×3=22743个先验框,最终一张原始图片经过YOLOv4-FCSPX网络结构得到22743个先验框的位置信息、物体置信度和类别。
可选地,所述损失函数包括位置回归损失、物体置信度损失和类别损失,所述位置回归损失采用ciou_loss计算,物体置信度损失和类别损失均采用交叉熵损失计算。
第二方面,本发明提供了一种基于YOLOv4改进算法的目标检测装置,包括:
第一获取单元,用于获取YOLOv4-FCSPX网络结构,所述YOLOv4-FCSPX网络结构是通过对YOLOv4网络结构中CSPX的残差结构进行浅层到深层的融合构造而成的;
第二获取单元,用于获取含目标物体的图片集,所述图片集分为训练子集和测试子集;
对训练子集中图片分别进行目标物体标注,获得对应的标注框;
聚类单元,用于对所有标注框进行聚类,获得K个先验框;
生成单元,用于将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度;
计算单元,用于基于设定的物体置信度阈值,以及特征图对应先验框的位置信息、类别信息和物体置信度,获得一定数量的候选框;
筛选单元,用于对所有候选框进行非极大值抑制,得到预测框;
训练单元,用于基于各预测框与对应的标注框的损失值对YOLOv4-FCSPX网络结构的权值进行更新,直到损失值趋近于很小的值,获得训练好的YOLOv4-FCSPX网络结构;
检测单元,用于将测试子集中的图片输入至训练好的YOLOv4-FCSPX网络结构,获得目标物体的大小、位置及类别,完成目标检测。
第三方面,本发明提供了一种基于YOLOv4改进算法的目标检测系统,包括:包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的方法。
与现有技术相比,本发明的有益效果:
由于现有技术在使用YOLOv4网络结构对车辆和行人进行检测时,对于小目标物体的检测精度不足,因此本发明对YOLOv4网络结构进行改进,具体为对CSPX的残差结构进行浅层到深层的融合,避免了信息在深层网络传递过程中的部分损失和干扰,所以具有提高了对于小目标物体检测的准确性的效果。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1为本发明流程图;
图2为本发明基于改进的YOLOv4算法的车辆和行人检测的网络结构图;
图3为本发明在训练好的网络结构中检测输入图片中包含车辆和行人的检测结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。
下面结合附图对本发明的应用原理作详细的描述。
实施例1
参照图1,本发明实施例中提供了一种基于YOLOv4改进算法的目标检测方法,具体包括以下步骤:
步骤一:获取YOLOv4-FCSPX网络结构,并对YOLOv4-FCSPX网络结构进行参数初始化;
具体地,在本发明实施例的一种具体实施方式中,所述YOLOv4-FCSPX网络结构包括:骨干Backbone、颈部Neck和头部Head三部分;所述骨干Backbone由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Mish,称为CBM,另一部分是CBM与残差模块Res unitN组成的CSPX;所述CSPX的数量为5,分别记为:CSP1、CSP2、CSP8、CSP8、CSP4;所述CSP8中有8个残差模块,前6个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP8;所述CSP4中有4个残差模块,前2个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP4。所述颈部Neck由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Leaky relu,称为CBL,另一部分是空间金字塔池化SPP;所述头部Head是由CBL和Conv组成,具体参见图2。
步骤二:获取含目标物体的图片集,所述图片集分为训练子集和测试子集;
具体地,在本发明实施例的一种具体实施方式中,所述步骤二具体为:
在本发明实施例中设置目标物体为车辆和行人,图像集采用开源的self-driving-car数据集,共包含9423帧图像,超过65000个标签,标签分为两类:车辆和行人;所述图像集被分为训练子集和测试子集这两部分,所述训练子集和验证子集的比例为9:1。
步骤三、对训练子集中图片分别进行目标物体标注,获得对应的标注框;
具体地,在本发明实施例的一种具体实施方式中,所述步骤三具体为:
利用数据标注软件labelme对训练子集进行车辆和行人标注,可以得到目标物体的位置信息和类别信息,其中位置信息包括标注框的中心点坐标值,标注框的高宽值;即:利用数据标注软件labelme对数据集中的训练集进行车辆和行人标注,生成xml文件,利用python脚本voc_label将xml文件格式转换为txt文件格式。
标注框的数据为(c,x,y,w,h),其中c代表标注框内目标物体的类别,x、y分别代表标注框中心点的x、y坐标值,w、h分别代表标注框的宽、高值。
步骤四:对所有标注框进行聚类,获得K个先验框;
具体地,在本发明实施例的一种具体实施方式中,所述步骤四具体为:
(1)获取任意标注框的高宽值作为初始聚类中心;
(2)计算标注框的中心与最近的聚类中心的距离d=1-IoU,计算时每个标注框的中心点都与聚类中心重合,其中IOU为标注框宽高与聚类中心宽高的交并比,把所有的距离加起来得到Sum(d);
(3)在选取新的聚类中心时,先取落在Sum(d)之间的随机值random,对于未被选中的数据点,若当前的数据点对应的∑d>random,该数据点被选为下一个聚类中心;
(4)重复步骤(1)和步骤(3),直到K个聚类中心(Wi,Hi)(i=1,2,...,k)被选出来;
(5)计算每个标注框与聚类中心的距离d=1-IOU[(xj,yj,wj,hj),(xj,yj,Wi,Hi)],j∈{1,2,...,N},i∈{1,2,3...k};
(6)将标注框分配给距离最近的聚类中心,计算时每个标注框的中心点都与聚类中心重合;
(7)所有标注框分配完毕后,对每个簇重新计算聚类中心点,计算方式为:
Figure BDA0002967985500000061
其中,Ni是第i个簇的标注框个数;
(8)重复步骤(6)和步骤(7),直到聚类中心的改变量逐渐收敛,最终得到9个先验框的宽、高数值,分别为(12,18),(14,49),(17,23),(24,29),(31,45),(41,32),(52,59),(83,102),(159,229)。
步骤五、将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度;
在本发明实施例的一种具体实施方式中,所述步骤五具体为:
将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图尺寸为大、中、小三个尺寸,尺寸分别为76×76、38×38和19×19,大特征图对应有76×76个特征点,每个特征点对应有3种尺寸的先验框,则76×76的特征图一共有76×76×3=17328个先验框,那么3个特征图一共有76×76×3+38×38×3+19×19×3=22743个先验框,最终一张原始图片经过YOLOv4-FCSPX网络结构得到22743个先验框的位置信息、物体置信度和类别。
步骤六、基于设定的物体置信度阈值,以及特征图对应先验框的位置信息、类别信息和物体置信度,获得一定数量的候选框,即根据特征图对应先验框的置信度大于设定的物体置信度阈值,获得一定数量的候选框;
步骤七、对所有候选框进行非极大值抑制,得到预测框;
步骤八、基于各预测框与对应的标注框的损失值对YOLOv4-FCSPX网络结构的权值进行更新,直到损失值趋近于很小的值,获得训练好的YOLOv4-FCSPX网络结构;
损失函数包括位置回归损失、物体置信度损失和类别损失,其中位置回归损失采用ciou_loss计算,物体置信度损失和类别损失均采用交叉熵损失计算。
步骤九、将测试子集中的图片输入至训练好的YOLOv4-FCSPX网络结构,获得目标物体的大小、位置及类别,完成目标检测。
本实施例中,输入图像尺寸为608×608,对应的三个检测尺寸为76×76、38×38和19×19,每个检测尺寸的一个网格对应有三个先验框,预测目标物体种类为2种:车辆和行人,输出维度为3×(5+2)=21。仿真实验显卡选用的为NVIDIA GeForce RTX 2080 Ti,显存为11G,内存为32G。使用编程环境为python3.6,使用的深度学习框架为PyTorch。
为了验证本发明的有效性,在self-driving-car测试集上进行了验证,实验的结果如图3所示,能够识别出尺寸大小差别较大的目标物体,对小目标车辆和行人的检测有了明显的提升。
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种基于YOLOv4改进算法的目标检测装置,包括:
第一获取单元,用于获取YOLOv4-FCSPX网络结构,所述YOLOv4-FCSPX网络结构是通过对YOLOv4网络结构中CSPX的残差结构进行浅层到深层的融合构造而成的;
第二获取单元,用于获取含目标物体的图片集,所述图片集分为训练子集和测试子集;
对训练子集中图片分别进行目标物体标注,获得对应的标注框;
聚类单元,用于对所有标注框进行聚类,获得K个先验框,及各先验框的高宽值;
生成单元,用于将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度;
计算单元,用于基于设定的物体置信度阈值,以及特征图对应先验框的物体置信度,获得一定数量的候选框;
筛选单元,用于对所有候选框进行非极大值抑制,得到预测框;
训练单元,用于基于各预测框与对应的标注框的损失值对YOLOv4-FCSPX网络结构的权值进行更新,直到损失值趋近于很小的值,获得训练好的YOLOv4-FCSPX网络结构;
检测单元,用于将测试子集中的图片输入至训练好的YOLOv4-FCSPX网络结构,获得目标物体的大小、位置及类别,完成目标检测。
其余部分均与实施例1相同。
实施例3
基于与实施例1相同的发明构思,本发明实施例中提供了一种基于YOLOv4改进算法的目标检测系统,包括:包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的方法。
其余部分均与实施例1相同。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种基于YOLOv4改进算法的目标检测方法,其特征在于,包括:
获取YOLOv4-FCSPX网络结构,所述YOLOv4-FCSPX网络结构是通过对YOLOv4网络结构中CSPX的残差结构进行浅层到深层的融合构造而成的;
获取含目标物体的图片集,所述图片集分为训练子集和测试子集;
对训练子集中图片分别进行目标物体标注,获得对应的标注框;
对所有标注框进行聚类,获得K个先验框;
将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度;
基于设定的物体置信度阈值,以及特征图对应先验框的位置信息、类别信息和物体置信度,获得一定数量的候选框;
对所有候选框进行非极大值抑制,得到预测框;
基于各预测框与对应的标注框的损失值对YOLOv4-FCSPX网络结构的权值进行更新,直到损失值小于设定阈值,获得训练好的YOLOv4-FCSPX网络结构;
将测试子集中的图片输入至训练好的YOLOv4-FCSPX网络结构,获得目标物体的大小、位置及类别,完成目标检测;
所述YOLOv4-FCSPX网络结构包括:骨干Backbone、颈部Neck和头部Head三部分;所述骨干Backbone由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Mish,称为CBM,另一部分是CBM与残差模块Res unitN组成的CSPX;所述CSPX的数量为5,分别记为:CSP1、CSP2、CSP8、CSP8、CSP4;所述CSP8中有8个残差模块,前6个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP8;所述CSP4中有4个残差模块,前2个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP4;
所述颈部Neck由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Leaky relu,称为CBL,另一部分是空间金字塔池化SPP;
所述头部Head是由CBL和Conv组成。
2.根据权利要求1所述的一种基于YOLOv4改进算法的目标检测方法,其特征在于:所述标注框的获得方法包括:
利用数据标注软件labelme对训练集中图片进行车辆和行人标注,获得对应的标注框,以及目标物体的位置信息和类别信息,所述位置信息包括标注框的中心点坐标值、标注框的高宽值。
3.根据权利要求1所述的一种基于YOLOv4改进算法的目标检测方法,其特征在于:所述图片集中共包含9423帧图像,标签分为两类:车辆和行人;
所述训练子集和测试子集,比例为9:1;
利用数据标注软件labelme对数据集中的训练集进行车辆和行人标注,生成xml文件,利用python脚本voc_label将xml文件格式转换为txt文件格式。
4.根据权利要求3所述的一种基于YOLOv4改进算法的目标检测方法,其特征在于:所述先验框的个数为9,各先验框的宽高尺寸分别为12x18、14x49、17x23、24x29、31x45、41x32、52x59、83x102、159x229。
5.根据权利要求1所述的一种基于YOLOv4改进算法的目标检测方法,其特征在于:所述对所有标注框进行聚类,获得K个先验框,及各先验框的高宽值,具体为:
(1)获取任意标注框的高宽值作为初始聚类中心;
(2)计算标注框的中心与最近的聚类中心的距离d=1-IoU,计算时每个标注框的中心点都与聚类中心点重合,其中IOU为标注框宽高与聚类中心宽高的交并比,把所有的距离加起来得到Sum(d);
(3)在选取新的聚类中心时,先取落在Sum(d)之间的随机值random,对于未被选中的数据点,若当前的数据点对应的∑d>random,该数据点被选为下一个聚类中心;
(4)重复步骤(1)和步骤(3),直到K个聚类中心(Wi,Hi)被选出来,i=1,2,…,K;
(5)计算每个标注框与聚类中心的距离d=1-IOU[(xj,yj,wj,hj),(xj,yj,Wi,Hi)],j∈{1,2,…,N},i∈{1,2,3…K};
(6)将标注框分配给距离最近的聚类中心,计算时每个标注框的中心点都与聚类中心重合;
(7)所有标注框分配完毕后,对每个簇重新计算聚类中心点,计算方式为:
Figure FDA0003550109050000021
其中,Ni是第i个簇的标注框个数;
(8)重复步骤(6)和步骤(7),直到聚类中心的改变量逐渐收敛即可得到K个先验框的宽高尺寸。
6.根据权利要求1所述的一种基于YOLOv4改进算法的目标检测方法,其特征在于:所述将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度,具体为:
将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图尺寸为大、中、小三个尺寸,尺寸分别为76×76、38×38和19×19,大特征图对应有76×76个特征点,每个特征点对应有3种尺寸的先验框,则76×76的特征图一共有76×76×3=17328个先验框,那么3个特征图一共有76×76×3+38×38×3+19×19×3=22743个先验框,最终一张原始图片经过YOLOv4-FCSPX网络结构得到22743个先验框的位置信息、物体置信度和类别。
7.根据权利要求1所述的一种基于YOLOv4改进算法的目标检测方法,其特征在于:损失函数包括位置回归损失、物体置信度损失和类别损失,所述位置回归损失采用ciou_loss计算,物体置信度损失和类别损失均采用交叉熵损失计算。
8.一种基于YOLOv4改进算法的目标检测装置,其特征在于,包括:
第一获取单元,用于获取YOLOv4-FCSPX网络结构,所述YOLOv4-FCSPX网络结构是通过对YOLOv4网络结构中CSPX的残差结构进行浅层到深层的融合构造而成的;
第二获取单元,用于获取含目标物体的图片集,所述图片集分为训练子集和测试子集;对训练子集中图片分别进行目标物体标注,获得对应的标注框;
聚类单元,用于对所有标注框进行聚类,获得K个先验框;
生成单元,用于将所有先验框和所述图片集中的原始图片输入至YOLOv4-FCSPX网络结构,生成特征图,得到特征图对应先验框的位置信息、类别信息和物体置信度;
计算单元,用于基于设定的物体置信度阈值,以及特征图对应先验框的位置信息、类别信息和物体置信度,获得一定数量的候选框;
筛选单元,用于对所有候选框进行非极大值抑制,得到预测框;
训练单元,用于基于各预测框与对应的标注框的损失值对YOLOv4-FCSPX网络结构的权值进行更新,直到损失值趋近于很小的值,获得训练好的YOLOv4-FCSPX网络结构;
检测单元,用于将测试子集中的图片输入至训练好的YOLOv4-FCSPX网络结构,获得目标物体的大小、位置及类别,完成目标检测;
所述YOLOv4-FCSPX网络结构包括:骨干Backbone、颈部Neck和头部Head三部分;所述骨干Backbone由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Mish,称为CBM,另一部分是CBM与残差模块Res unitN组成的CSPX;所述CSPX的数量为5,分别记为:CSP1、CSP2、CSP8、CSP8、CSP4;所述CSP8中有8个残差模块,前6个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP8;所述CSP4中有4个残差模块,前2个残差模块均与最后一个残差模块进行跳接,进行浅层特征与深层特征的融合,命名为FCSP4;
所述颈部Neck由两部分组成,一部分是卷积Conv+批标准化BN+激活函数Leaky relu,称为CBL,另一部分是空间金字塔池化SPP;
所述头部Head是由CBL和Conv组成。
9.一种基于YOLOv4改进算法的目标检测系统,其特征在于,包括:包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7中任一项所述方法的方法。
CN202110255281.5A 2021-03-09 2021-03-09 基于YOLOv4改进算法的目标检测方法、装置及系统 Active CN113076804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110255281.5A CN113076804B (zh) 2021-03-09 2021-03-09 基于YOLOv4改进算法的目标检测方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110255281.5A CN113076804B (zh) 2021-03-09 2021-03-09 基于YOLOv4改进算法的目标检测方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113076804A CN113076804A (zh) 2021-07-06
CN113076804B true CN113076804B (zh) 2022-06-17

Family

ID=76612625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110255281.5A Active CN113076804B (zh) 2021-03-09 2021-03-09 基于YOLOv4改进算法的目标检测方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113076804B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114407030A (zh) * 2021-11-12 2022-04-29 山东大学 一种自主导航配网带电作业机器人及其工作方法
CN113807472B (zh) * 2021-11-19 2022-02-22 智道网联科技(北京)有限公司 分级目标检测方法及装置
CN115410196B (zh) * 2022-10-31 2023-02-07 南昌理工学院 一种基于复杂背景下的小目标识别系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345476A (zh) * 2018-09-19 2019-02-15 南昌工程学院 基于深度残差网络的高光谱图像超分辨率重建方法及装置
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
CN110110627A (zh) * 2019-04-24 2019-08-09 江南大学 一种面向计算资源局限平台部署的实时目标检测的方法
CN110210621A (zh) * 2019-06-06 2019-09-06 大连理工大学 一种基于残差网络改进的目标检测方法
CN110889324A (zh) * 2019-10-12 2020-03-17 南京航空航天大学 一种基于yolo v3面向末端制导的热红外图像目标识别方法
WO2020102988A1 (zh) * 2018-11-20 2020-05-28 西安电子科技大学 基于特征融合和稠密连接的红外面目标检测方法
CN111696036A (zh) * 2020-05-25 2020-09-22 电子科技大学 基于空洞卷积的残差神经网络及两阶段图像去马赛克方法
WO2020206861A1 (zh) * 2019-04-08 2020-10-15 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
WO2021040410A1 (ko) * 2019-08-31 2021-03-04 엘지전자 주식회사 레지듀얼 코딩에 대한 영상 디코딩 방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094070B2 (en) * 2019-04-23 2021-08-17 Jiangnan University Visual multi-object tracking based on multi-Bernoulli filter with YOLOv3 detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345476A (zh) * 2018-09-19 2019-02-15 南昌工程学院 基于深度残差网络的高光谱图像超分辨率重建方法及装置
WO2020102988A1 (zh) * 2018-11-20 2020-05-28 西安电子科技大学 基于特征融合和稠密连接的红外面目标检测方法
CN109685152A (zh) * 2018-12-29 2019-04-26 北京化工大学 一种基于dc-spp-yolo的图像目标检测方法
WO2020206861A1 (zh) * 2019-04-08 2020-10-15 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN110110627A (zh) * 2019-04-24 2019-08-09 江南大学 一种面向计算资源局限平台部署的实时目标检测的方法
CN110210621A (zh) * 2019-06-06 2019-09-06 大连理工大学 一种基于残差网络改进的目标检测方法
WO2021040410A1 (ko) * 2019-08-31 2021-03-04 엘지전자 주식회사 레지듀얼 코딩에 대한 영상 디코딩 방법 및 그 장치
CN110889324A (zh) * 2019-10-12 2020-03-17 南京航空航天大学 一种基于yolo v3面向末端制导的热红外图像目标识别方法
CN111696036A (zh) * 2020-05-25 2020-09-22 电子科技大学 基于空洞卷积的残差神经网络及两阶段图像去马赛克方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Scaled-YOLOv4: Scaling Cross Stage Partial Network;Chien-Yao Wang et al.;《arXiv.org》;20201116;第1-10页 *
基于YOLO改进残差网络结构的车辆检测方法;胡臣辰等;《信息技术与网络安全》;20200910;第39卷(第9期);第56-60页 *

Also Published As

Publication number Publication date
CN113076804A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113076804B (zh) 基于YOLOv4改进算法的目标检测方法、装置及系统
CN111967313B (zh) 一种深度学习目标检测算法辅助的无人机图像标注方法
CN114495029B (zh) 一种基于改进YOLOv4的交通目标检测方法及系统
CN113920107A (zh) 一种基于改进yolov5算法的绝缘子破损检测方法
CN110717493B (zh) 一种基于深度学习的含堆叠字符的车牌识别方法
CN112200186B (zh) 基于改进yolo_v3模型的车标识别方法
CN112528934A (zh) 一种基于多尺度特征层的改进型YOLOv3的交通标志检测方法
CN111428558A (zh) 一种基于改进YOLOv3方法的车辆检测方法
CN109871789A (zh) 一种基于轻量化神经网络的复杂环境下车辆检测方法
CN112766170B (zh) 基于簇类无人机图像的自适应分割检测方法及装置
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN113239753A (zh) 基于YOLOv4改进的交通标志检测与识别方法
CN114821492A (zh) 一种基于YOLOv4的道路车辆检测系统及方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN115565044A (zh) 一种目标检测方法及系统
CN114494248B (zh) 基于点云和不同视角下的图像的三维目标检测系统及方法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN111738040A (zh) 一种减速带识别方法及系统
CN113850195A (zh) 一种基于3d视觉的ai智能物体识别方法
CN113255555A (zh) 中国交通标志牌识别方法、系统、处理设备及存储介质
CN110929632A (zh) 面向复杂场景的车辆目标检测方法及装置
CN115861595A (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
CN114332814A (zh) 一种停车框识别方法、装置、电子设备及存储介质
CN114155524A (zh) 单阶段3d点云目标检测方法及装置、计算机设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant