CN116580235A - 基于YOLOv4网络优化的目标检测装置、方法、设备和介质 - Google Patents
基于YOLOv4网络优化的目标检测装置、方法、设备和介质 Download PDFInfo
- Publication number
- CN116580235A CN116580235A CN202310544880.8A CN202310544880A CN116580235A CN 116580235 A CN116580235 A CN 116580235A CN 202310544880 A CN202310544880 A CN 202310544880A CN 116580235 A CN116580235 A CN 116580235A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- yolov4
- feature
- c3str
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 22
- 230000002776 aggregation Effects 0.000 claims abstract description 26
- 238000004220 aggregation Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 10
- 239000010410 layer Substances 0.000 description 146
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000002085 persistent effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于YOLOv4网络优化的目标检测装置、方法、设备和介质,装置包括:获取模块,其被配置为获取待检测图像;检测模块,其被配置为将待检测图像输入基于YOLOv4网络优化的目标检测器得到不同尺度目标对象的检测结果;目标检测器包括主干网络、颈部网络和预测网络;主干网络包括Focus模块和特征提取网络,Focus模块切片处理待检测图像,特征提取网络对切片后的待检测图像进行下采样特征提取;颈部网络包括特征金字塔网络和路径聚合网络,路径聚合网络对特征金字塔网络在上采样中进行特征融合的输出进行下采样和全局特征融合;预测网络根据路径聚合网络的输出进行对应的目标对象预测。本申请能够有效提高目标检测精度和召回率。
Description
技术领域
本申请涉及图像检测的技术领域,尤其涉及一种基于YOLOv4网络优化的目标检测装置、方法、设备和介质。
背景技术
在自动驾驶技术中,作为实时定位与建图的基础技术之一的目标检测,其核心任务是检测出目标对象。相关技术中,以YOLOv4目标检测技术为例,其通过卷积对目标物进行位置回归和类别的预测,还具有检测速度快、计算资源消耗少等优点;但考虑到待检测的小目标对象具有目标特征少、数量占比小和目标位置定位精度要求高等问题,会出现比如检测小目标对象漏检误检的问题。
尽管现阶段计算机技术和深度学习算法的发展迅猛,目标检测技术也随之得到提高,然而YOLOv4检测算法应用在小目标对象检测中时,其表现并不十分理想,检测精度和召回率仍然还有待进一步优化。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种基于YOLOv4网络优化的目标检测装置、方法、设备和介质,能够有效提高目标检测精度和召回率。
本申请第一方面提供一种基于YOLOv4网络优化的目标检测装置,所述装置包括:
获取模块,其被配置为获取待检测图像;
检测模块,其被配置为将所述待检测图像输入基于YOLOv4改进的目标检测器得到不同尺度目标对象的检测结果;
其中,所述目标检测器包括依次相连的主干网络、颈部网络和预测网络;所述主干网络包括Focus模块和特征提取网络,所述Focus模块被配置为切片处理所述待检测图像,所述特征提取网络被配置为对切片后的待检测图像进行下采样特征提取以得到多个不同尺度的第一特征图;所述颈部网络包括特征金字塔网络和路径聚合网络,所述特征金字塔网络被配置为对各个不同尺度的第一特征图在上采样过程中进行特征融合以输出多个不同尺度的第二特征图,所述路径聚合网络被配置为对各个不同尺度的第二特征图在下采样过程中进行全局特征融合以输出多个不同尺度的第三特征图;所述预测网络被配置为根据多个不同尺度的第三特征图进行对应的目标对象预测,以得到对应的检测结果。
在一实施方式中,所述路径聚合网络的输出端通过卷积注意力机制层CBAM模块与所述预测网络的输入端相连。
在一实施方式中,所述特征提取网络包括自上而下依次相连的第一卷积层、第一C3网络、第二卷积层、第二C3网络、第三卷积层、第三C3网络、第四卷积层、第四C3网络和SPPF模块;
其中,所述第一卷积层与所述Focus模块相连;
所述第二C3网络、所述第三C3网络和所述SPPF模块均被配置为输出所述第一特征图。
在一实施方式中,所述特征金字塔网络包括自下而上依次相连的第五卷积层、第一上采样模块、第一拼接层、第五C3网络、第六卷积层、第二上采样模块、第二拼接层;
其中,所述第五卷积层、所述第一拼接层和所述第二拼接层的输入端与所述SPPF模块、所述第三C3网络、所述第二C3网络的输出端对应相连;
所述第五卷积层、所述第六卷积层和所述第二拼接层的输出端军被配置为输出所述第二特征图。
在一实施方式中,所述路径聚合网络包括自上而下依次相连的第一C3STR网络、第七卷积层、第三拼接层、第二C3STR网络、第八卷积层、第四拼接层和第三C3STR网络;
其中,所述第一C3STR网络、所述第三拼接层和所述第四拼接层的输入端与所述第二拼接层、所述第六卷积层和所述第五卷积层的输出端对应相连;
所述第一C3STR网络、所述第二C3STR网络和所述第三C3STR网络均被配置为输出所述第三特征图。
在一实施方式中,所述预测网络包括三个YOLOv4检测头网络,且所述第一C3STR网络、所述第二C3STR网络和所述第三C3STR网络的输出端各连接一个所述YOLOv4检测头网络。
在一实施方式中,所述第一C3STR网络、所述第二C3STR网络和所述第三C3STR网络的输出端分别通过三个卷积注意力机制层CBAM模块与三个所述YOLOv4检测头网络的输入端相连。
本申请第二方面提供一种基于YOLOv4网络优化的目标检测方法,其应用于如上所述的基于YOLOv4网络优化的目标检测装置,所述方法包括以下步骤:
获取待检测图像;
将所述待检测图像输入基于YOLOv4改进的目标检测器得到不同尺度目标对象的检测结果。
本申请第三方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请提供的技术方案,通过获取模块获取到待检测图像,再由检测模块中的基于YOLOv4网络优化的目标检测器将获取到的待检测图像通过依次相连的主干网络、颈部网络和预测网络来进行目标对象检测;其中,先通过主干网络中的Focus模块切片处理所述待检测图像,再由主干网络中的特征提取网络对切片后的待检测图像进行下采样特征提取以得到多个不同尺度的第一特征图,之后,通过颈部网络中的特征金字塔网络对各个不同尺度的第一特征图在上采样过程中进行特征融合来输出多个不同尺度的第二特征图,以及,由颈部网络中的路径聚合网络再对各个不同尺度的第二特征图在下采样过程中进行全局特征融合以输出多个不同尺度的第三特征图,最后,再由预测网络根据多个不同尺度的第三特征图进行对应的目标对象预测,得到大中小不同尺度目标对象的检测结果。本申请的技术方案,在主干网络下采样中先进行待检测图像的拆分加拼接处理,降低下采样计算过程中所带来的信息丢失,同时,在路径聚合网络中对各个不同尺度的第二特征图在多次下采样的过程中进行全局特征融合,获得更大范围感受野特征信息,有效提高目标对象的检测精度和召回率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是相关技术中示出的YOLOv4目标检测模型的网络结构示意图;
图2是本申请实施例示出的基于YOLOv4网络优化的目标检测装置的结构框图;
图3是本申请实施例示出的基于YOLOv4网络优化的目标检测器的网络结构示意图;
图4是本申请实施例示出的另一基于YOLOv4网络优化的目标检测器的网络结构示意图;
图5是本申请实施例示出的基于YOLOv4网络优化的目标检测方法的流程示意图;
图6是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在相关技术中,YOLOv4目标检测技术在小目标对象上容易出现漏检误检的问题,YOLOv4目标检测的检测精度和召回率仍然还有进一步优化。
如图1所示,其为相关技术中示出的一种YOLOv4目标检测模型的网络结构示意图。YOLOv4目标检测模型包括依次相连的主干网络、颈部网络和预测网络,其中主干网络在0~9层进行下采样的过程中,通过对输入到主干网络的图像进行特征提取,得到多个不同尺度的第一特征图;颈部网络在10~16层进行上采样的过程中融合4层、6层和9层输出的第一特征信息,并在17~23层再进行下采样的过程中融合16层、14层和10层输出的第二特征信息,以由17层、20层和23层输出第三特征信息;预测网络主要由三个不同尺度的检测头组成,其中,17层、20层和23层各连接一个检测头,各个检测头对相应的检测特征图进行目标预测,以实现不同大小目标对象的检测。以道路旁边的圆形路牌作为待检测的目标对象,YOLOv4目标检测模型的精确度precision为0.65783,召回率recall为0.69032。
针对上述问题,本申请实施例提供一种基于YOLOv4网络优化的目标检测装置,有效提高目标对象的检测精度和召回率。
以下结合附图详细描述本申请实施例的技术方案。
如图2和图3所示,本申请实施例提供一种基于YOLOv4网络优化的目标检测装置,目标检测装置200包括:
获取模块201,其被配置为获取待检测图像;
检测模块202,其被配置为将待检测图像输入基于YOLOv4网络优化的目标检测器得到不同尺度目标对象的检测结果;
其中,目标检测器包括依次相连的主干网络、颈部网络和预测网络;主干网络包括Focus模块和特征提取网络,Focus模块被配置为切片处理待检测图像,特征提取网络被配置为对切片后的待检测图像进行下采样特征提取以得到多个不同尺度的第一特征图;颈部网络包括特征金字塔网络和路径聚合网络,特征金字塔网络被配置为对各个不同尺度的第一特征图在上采样过程中进行特征融合以输出多个不同尺度的第二特征图,路径聚合网络被配置为对各个不同尺度的第二特征图在下采样过程中进行全局特征融合以输出多个不同尺度的第三特征图;预测网络被配置为根据多个不同尺度的第三特征图进行对应的目标对象预测,以得到对应的检测结果。
在本实施例中,在主干网络下采样过程中先进行待检测图像的拆分加拼接处理,降低下采样计算过程中所带来的信息丢失,同时,在路径聚合网络中对各个不同尺度的第二特征图在多次下采样的过程中进行全局特征融合,能够获得更大范围感受野特征信息,有效提高目标对象的检测精度和召回率。
其中,基于YOLOv4网络优化的目标检测器,通过大量的训练迭代直至收敛,得到训练好的目标检测器,将训练好的目标检测器部署在自动驾驶设备上,比如道路上形式的汽车。在汽车行驶过程中,汽车上的摄像设备可以实时获取的周围环境的图像,并将该图像作图像处理之后,通过训练好的目标检测器对处理后的图像进行目标对象的检测,目标检测器的精确度precision为0.68873,召回率recall为0.70395,明显都高于相关技术中的YOLOv4目标检测模型。
若以相关技术中的YOLOv4目标检测模型为基础,将0层改为Focus模块,其模型的测试结果的精确度precision为0.68873,召回率recall为0.64649。很明显,尽管精确度略有提升,然而其召回率却出现了下降的情况,因此,如何使得目标检测器的准确率和召回率都有所提高并非易事。
如图4所示,作为本申请的一个优选实施例,路径聚合网络的输出端通过卷积注意力机制层CBAM模块与预测网络的输入端相连。在第三特征图输入到预测网络之前,先通过卷积注意力机制层CBAM模块对第三特征图中的空间和通道进行特征融合,能够进一步提升检测的准确率和召回率。
如图3所示,进一步地,特征提取网络包括自上而下依次相连的第一卷积层、第一C3网络、第二卷积层、第二C3网络、第三卷积层、第三C3网络、第四卷积层、第四C3网络和SPPF模块;
其中,第一卷积层与Focus模块相连;
第二C3网络、第三C3网络和SPPF模块均被配置为输出第一特征图。
在本实施例中,主干网络被配置为对输入的图像进行多次下采样,以输出多个不同尺度的第一特征图;其中,主干网络包括依次相连的Focus模块、第一卷积层、第一C3网络、第二卷积层、第二C3网络、第三卷积层、第三C3网络、第四卷积层、第四C3网络和SPPF模块。将某一尺度大小的图像输入到主干网络,Focus模块进行下采样后得到1/2原尺度大小的特征图,再通过第一卷积层进行下采样操作,再输入到第一C3网络中进行残差处理,同样地再依次通过第二卷积层、第二C3网络以得到1/8原尺度大小的特征图(第一特征图),依次通过第三卷积层、第三C3网络以得到1/16原尺度大小的特征图(第一特征图),依次通过第四卷积层、第四C3网络以得到1/32原尺度大小的特征图,最后,主干网络将1/32原尺度大小的特征图(第一特征图)送入SPPF模块进行处理,输入至颈部网络的输入端。
其中,Focus模块、第一卷积层、第一C3网络、第二卷积层、第二C3网络、第三卷积层、第三C3网络、第四卷积层、第四C3网络和SPPF模块依次对应目标检测器的0~9层,即4层输出1/8原尺度大小的第一特征图,6层输出1/16原尺度大小的第一特征图,9层输出1/32原尺度大小的第一特征图。
如图3所示,具体地,特征金字塔网络包括自下而上依次相连的第五卷积层、第一上采样模块、第一拼接层、第五C3网络、第六卷积层、第二上采样模块、第二拼接层;
其中,第五卷积层、第一拼接层和第二拼接层的输入端与SPPF模块、第三C3网络、第二C3网络的输出端对应相连;
第五卷积层、第六卷积层和第二拼接层的输出端军被配置为输出第二特征图。
在本实施例中,特征金字塔网络将1/32原尺度大小的第一特征图依次通过第五卷积层、第一上采样模块处理后输入第一拼接层,第一拼接层将其与从主干网络输出的1/16原尺度大小的第一特征图进行特征融合,再依次通过第五C3网络、第六卷积层、第二上采样模块处理后输入到第二拼接层,第二拼接层将其与从主干网络输出的1/8原尺度大小的第一特征图进行特征融合,得到1/8原尺度大小的第二特征图;以及,特征金字塔网络中的第五卷积层对主干网络输出的1/32原尺度大小的第一特征图进行处理得到1/32原尺度大小的第二特征图,第六卷积层输出1/16原尺度大小的第二特征图。
其中,特征金字塔网络中的第五卷积层、第一上采样模块、第一拼接层、第五C3网络、第六卷积层、第二上采样模块、第二拼接层依次对应目标检测器中的10~16层,10、12和16层对应接收9、6、4层对应输出的1/32、1/16、1/8原尺度大小的第一特征图,10、14、16层对应输出1/32、1/16、1/8原尺度大小的第二特征图。
如图3所示,进一步地,路径聚合网络包括自上而下依次相连的第一C3STR网络、第七卷积层、第三拼接层、第二C3STR网络、第八卷积层、第四拼接层和第三C3STR网络;
其中,第一C3STR网络、第三拼接层和第四拼接层的输入端与第二拼接层、第六卷积层和第五卷积层的输出端对应相连;
第一C3STR网络、第二C3STR网络和第三C3STR网络均被配置为输出第三特征图。
在本实施例中,路径聚合网络将特征金字塔网络中的第二拼接层输出的1/8原尺度大小的第二特征图依次通过第一C3STR网络、第七卷积层处理输入第三拼接层,第三拼接层将其与从特征金字塔网络输出的1/16原尺度大小的第二特征图进行特征融合,再依次通过第二C3STR网络、第八卷积层处理输入至第四拼接层,第四拼接将其与从特征金字塔网络输出的1/32原尺度大小的第二特征图进行特征融合,再输入第三C3STR网络进行处理,得到1/32原尺度大小的第三特征图;以及,路径聚合网络中的第一C3STR网络对特征金字塔网络输出的1/8原尺度大小的第二特征图进行处理得到1/8原尺度大小的第三特征图,第二C3STR网络输出1/16原尺度大小的第三特征图。
其中,路径聚合网络中的第一C3STR网络、第七卷积层、第三拼接层、第二C3STR网络、第八卷积层、第四拼接层和第三C3STR网络依次对应目标检测器中的17~23层,17、19和22层对应接收16、14、10层对应输出的1/8、1/16、1/32原尺度大小的第二特征图,17、20、23层对应输出1/8、1/16、1/32原尺度大小的第三特征图。
进一步地,预测网络包括三个YOLOv4检测头网络,且第一C3STR网络、第二C3STR网络和第三C3STR网络的输出端各连接一个YOLOv4检测头网络。
在本实施例中,检测头网络优选为YOLOv4检测头网络,三个YOLOv4检测头网络对应三个不同的尺度,三个YOLOv4检测头网络自上而下分别对应8倍、16倍、32倍的视野,也就是分别预测小、中、大目标,其中,32倍的特征图的每个点感受野更大,以供预测大目标。
如图4所示,再进一步地,第一C3STR网络、第二C3STR网络和第三C3STR网络的输出端分别通过三个卷积注意力机制层CBAM模块与三个YOLOv4检测头网络的输入端相连。
在本实施例中,三个卷积注意力机制层CBAM模块依次对应目标检测器的24~26层。
其中,在各个YOLOv4检测头网络的输入端设置卷积注意力机制层CBAM模块,经过测试可以得到目标检测器的精确度precision为0.68455,召回率recall为0.76757。很明显,不管是精确度还是召回率均相较于相关技术中均有明显提升。
本申请提供的技术方案,通过获取模块获取到待检测图像,再由检测模块中的基于YOLOv4网络优化的目标检测器将获取到的待检测图像通过依次相连的主干网络、颈部网络和预测网络来进行目标对象检测;其中,先通过主干网络中的Focus模块切片处理待检测图像,再由主干网络中的特征提取网络对切片后的待检测图像进行下采样特征提取以得到多个不同尺度的第一特征图,之后,通过颈部网络中的特征金字塔网络对各个不同尺度的第一特征图在上采样的过程中进行特征融合来输出多个不同尺度的第二特征图,以及,由颈部网络中的路径聚合网络再对各个不同尺度的第二特征图在下采样的过程中进行全局特征融合以输出多个不同尺度的第三特征图,最后,再由预测网络根据多个不同尺度的第三特征图进行对应的目标对象预测,得到大中小不同尺度目标对象的检测结果。
如图5所示,本申请实施例还提供一种基于YOLOv4网络优化的目标检测装置的目标检测方法,其应用于基于YOLOv4网络优化的目标检测装置,方法包括以下步骤:
S501:获取待检测图像;
S502:将待检测图像输入基于YOLOv4网络优化的目标检测器得到不同尺度目标对象的检测结果。
在本实施例中,先获取到待检测图像,再由检测模块中的基于YOLOv4网络优化的目标检测器将获取到的待检测图像通过依次相连的主干网络、颈部网络和预测网络来进行目标对象检测。其中,先通过主干网络中的Focus模块切片处理待检测图像,再由主干网络中的特征提取网络对切片后的待检测图像进行下采样特征提取以得到多个不同尺度的第一特征图,之后,通过颈部网络中的特征金字塔网络对各个不同尺度的第一特征图在多次上采样的过程中进行特征融合来输出多个不同尺度的第二特征图,以及,由颈部网络中的路径聚合网络再对各个不同尺度的第二特征图在多次下采样的过程中进行全局特征融合以输出多个不同尺度的第三特征图,最后,再由预测网络根据多个不同尺度的第三特征图进行对应的目标对象预测,得到大中小不同尺度目标对象的检测结果。
在本实施例中,在主干网络下采样中先进行待检测图像的拆分加拼接处理,降低下采样计算过程中所带来的信息丢失,同时,在路径聚合网络中对各个不同尺度的第二特征图在多次下采样的过程中进行全局特征融合,获得更大范围感受野特征信息,有效提高目标对象的检测精度和召回率。
其中,基于YOLOv4网络优化的目标检测器,通过大量的训练迭代直至收敛,得到训练好的目标检测器,将训练好的目标检测器部署在自动驾驶设备上,比如道路上形式的汽车。在汽车行驶过程中,汽车上的摄像设备可以实时获取的周围环境的图像,并将该图像作图像处理之后,通过训练好的目标检测器对处理后的图像进行目标对象的检测,目标检测器的精确度precision为0.68873,召回率recall为0.70395,明显都高于相关技术中的YOLOv4目标检测模型。
如图4所示,作为本申请的一个优选实施例,路径聚合网络的输出端通过卷积注意力机制层CBAM模块与预测网络的输入端相连。在第三特征图输入到预测网络之前,先通过卷积注意力机制层CBAM模块对第三特征图中的空间和通道进行特征融合,能够进一步提升检测的准确率和召回率。
如图3所示,进一步地,特征提取网络包括自上而下依次相连的第一卷积层、第一C3网络、第二卷积层、第二C3网络、第三卷积层、第三C3网络、第四卷积层、第四C3网络和SPPF模块;
其中,第一卷积层与Focus模块相连;
第二C3网络、第三C3网络和SPPF模块均被配置为输出第一特征图。
如图3所示,具体地,特征金字塔网络包括自下而上依次相连的第五卷积层、第一上采样模块、第一拼接层、第五C3网络、第六卷积层、第二上采样模块、第二拼接层;
其中,第五卷积层、第一拼接层和第二拼接层的输入端与SPPF模块、第三C3网络、第二C3网络的输出端对应相连;
第五卷积层、第六卷积层和第二拼接层的输出端军被配置为输出第二特征图。
如图3所示,进一步地,路径聚合网络包括自上而下依次相连的第一C3STR网络、第七卷积层、第三拼接层、第二C3STR网络、第八卷积层、第四拼接层和第三C3STR网络;
其中,第一C3STR网络、第三拼接层和第四拼接层的输入端与第二拼接层、第六卷积层和第五卷积层的输出端对应相连;
第一C3STR网络、第二C3STR网络和第三C3STR网络均被配置为输出第三特征图。
如图4所示,进一步地,第一C3STR网络、第二C3STR网络和第三C3STR网络的输出端分别通过三个卷积注意力机制层CBAM模块与三个YOLOv4检测头网络的输入端相连。
其中,在各个YOLOv4检测头网络的输入端设置卷积注意力机制层CBAM模块,经过测试可以得到目标检测器的精确度precision为0.68455,召回率recall为0.76757。很明显,不管是精确度还是召回率均相较于相关技术中均有明显提升。
关于上述实施例中的方法,其中各个模块执行操作的具体方式已经在有关该装置的实施例中进行了详细描述,此处将不再做详细阐述说明。
与前述应用功能实现方法实施例相对应,本申请还提供了电子设备及相应的实施例。
图6是本申请实施例示出的电子设备的结构示意图。
参见图6,电子设备600包括存储器601和处理器602。
处理器602可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器601可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器602或者计算机的其他模块需要的数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器601可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器601可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器601上存储有可执行代码,当可执行代码被处理器602处理时,可以使处理器602执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种基于YOLOv4网络优化的目标检测装置,其特征在于,所述装置包括:
获取模块,其被配置为获取待检测图像;
检测模块,其被配置为将所述待检测图像输入基于YOLOv4网络优化的目标检测器得到不同尺度目标对象的检测结果;
其中,所述目标检测器包括依次相连的主干网络、颈部网络和预测网络;所述主干网络包括Focus模块和特征提取网络,所述Focus模块被配置为切片处理所述待检测图像,所述特征提取网络被配置为对切片后的待检测图像进行下采样特征提取以得到多个不同尺度的第一特征图;所述颈部网络包括特征金字塔网络和路径聚合网络,所述特征金字塔网络被配置为对各个不同尺度的第一特征图在上采样过程中进行特征融合以输出多个不同尺度的第二特征图,所述路径聚合网络被配置为对各个不同尺度的第二特征图在下采样过程中进行全局特征融合以输出多个不同尺度的第三特征图;所述预测网络被配置为根据多个不同尺度的第三特征图进行对应的目标对象预测,以得到对应的检测结果。
2.如权利要求1所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述路径聚合网络的输出端通过卷积注意力机制层CBAM模块与所述预测网络的输入端相连。
3.如权利要求1所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述特征提取网络包括自上而下依次相连的第一卷积层、第一C3网络、第二卷积层、第二C3网络、第三卷积层、第三C3网络、第四卷积层、第四C3网络和SPPF模块;
其中,所述第一卷积层与所述Focus模块相连;
所述第二C3网络、所述第三C3网络和所述SPPF模块均被配置为输出所述第一特征图。
4.如权利要求3所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述特征金字塔网络包括自下而上依次相连的第五卷积层、第一上采样模块、第一拼接层、第五C3网络、第六卷积层、第二上采样模块、第二拼接层;
其中,所述第五卷积层、所述第一拼接层和所述第二拼接层的输入端与所述SPPF模块、所述第三C3网络、所述第二C3网络的输出端对应相连;
所述第五卷积层、所述第六卷积层和所述第二拼接层的输出端军被配置为输出所述第二特征图。
5.如权利要求4所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述路径聚合网络包括自上而下依次相连的第一C3STR网络、第七卷积层、第三拼接层、第二C3STR网络、第八卷积层、第四拼接层和第三C3STR网络;
其中,所述第一C3STR网络、所述第三拼接层和所述第四拼接层的输入端与所述第二拼接层、所述第六卷积层和所述第五卷积层的输出端对应相连;
所述第一C3STR网络、所述第二C3STR网络和所述第三C3STR网络均被配置为输出所述第三特征图。
6.如权利要求5所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述预测网络包括三个YOLOv4检测头网络,且所述第一C3STR网络、所述第二C3STR网络和所述第三C3STR网络的输出端各连接一个所述YOLOv4检测头网络。
7.如权利要求6所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述第一C3STR网络、所述第二C3STR网络和所述第三C3STR网络的输出端分别通过三个卷积注意力机制层CBAM模块与三个所述YOLOv4检测头网络的输入端相连。
8.一种基于YOLOv4网络优化的目标检测方法,其应用于如权利要求1~7任意一项所述的基于YOLOv4网络优化的目标检测装置,其特征在于,所述方法包括以下步骤:
获取待检测图像;
将所述待检测图像输入基于YOLOv4网络优化的目标检测器得到不同尺度目标对象的检测结果。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求8所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310544880.8A CN116580235A (zh) | 2023-05-15 | 2023-05-15 | 基于YOLOv4网络优化的目标检测装置、方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310544880.8A CN116580235A (zh) | 2023-05-15 | 2023-05-15 | 基于YOLOv4网络优化的目标检测装置、方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580235A true CN116580235A (zh) | 2023-08-11 |
Family
ID=87544829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310544880.8A Pending CN116580235A (zh) | 2023-05-15 | 2023-05-15 | 基于YOLOv4网络优化的目标检测装置、方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580235A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893990A (zh) * | 2024-03-18 | 2024-04-16 | 中国第一汽车股份有限公司 | 道路标志检测方法、装置和计算机设备 |
-
2023
- 2023-05-15 CN CN202310544880.8A patent/CN116580235A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893990A (zh) * | 2024-03-18 | 2024-04-16 | 中国第一汽车股份有限公司 | 道路标志检测方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613375B (zh) | 一种轮胎受损检测识别方法和设备 | |
US20210158503A1 (en) | Generating synthetic defect images for new feature combinations | |
CN113807350A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN110689134A (zh) | 执行机器学习过程的方法、装置、设备以及存储介质 | |
CN115457415A (zh) | 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质 | |
CN114863379A (zh) | 多任务目标检测方法、电子设备、介质及车辆 | |
US20240038278A1 (en) | Method and device for timing alignment of audio signals | |
CN111695397A (zh) | 一种基于yolo的船只识别方法及电子设备 | |
CN116580235A (zh) | 基于YOLOv4网络优化的目标检测装置、方法、设备和介质 | |
CN113780287A (zh) | 一种多深度学习模型的最优选取方法及系统 | |
CN113807472B (zh) | 分级目标检测方法及装置 | |
CN115797742A (zh) | 图像融合方法和检测模型的训练方法及系统 | |
CN113743340B (zh) | 用于自动驾驶的计算机视觉网络模型优化方法及相关装置 | |
CN112825145B (zh) | 人体朝向检测方法、装置、电子设备和计算机存储介质 | |
CN116092039B (zh) | 自动驾驶仿真系统的显示控制方法及装置 | |
CN111931920A (zh) | 基于级联神经网络的目标检测方法、装置及存储介质 | |
CN116030331A (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
CN113901926A (zh) | 用于自动驾驶的目标检测方法、装置、设备及存储介质 | |
CN114280638B (zh) | 一种弱信号环境下北斗信号捕获方法、系统及云平台 | |
CN115953656A (zh) | 目标物的识别方法、装置、电子设备及存储介质 | |
CN117951326A (zh) | 更新数据集的方法、装置、车辆和存储介质 | |
CN116311126A (zh) | 模型训练方法、交通标线的识别方法、装置、设备及介质 | |
CN116246254A (zh) | 目标物的识别方法、装置、电子设备及存储介质 | |
CN116242399A (zh) | 车道线精度验证方法、装置、电子设备及存储介质 | |
CN116152779A (zh) | 基于分流多任务的交通灯识别方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |