CN117351448A - 一种基于YOLOv8改进的偏振图像道路目标检测方法 - Google Patents
一种基于YOLOv8改进的偏振图像道路目标检测方法 Download PDFInfo
- Publication number
- CN117351448A CN117351448A CN202311639656.3A CN202311639656A CN117351448A CN 117351448 A CN117351448 A CN 117351448A CN 202311639656 A CN202311639656 A CN 202311639656A CN 117351448 A CN117351448 A CN 117351448A
- Authority
- CN
- China
- Prior art keywords
- module
- network model
- convolution
- target
- polarized image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 abstract description 6
- 230000010287 polarization Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 102100034112 Alkyldihydroxyacetonephosphate synthase, peroxisomal Human genes 0.000 description 1
- 101000799143 Homo sapiens Alkyldihydroxyacetonephosphate synthase, peroxisomal Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000000848 angular dependent Auger electron spectroscopy Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于YOLOv8改进的偏振图像道路目标检测方法,属于偏振图像目标检测领域,包括:获取偏振图像数据集并进行预处理,将预处理后的偏振图像数据集划分为训练集和测试集;通过可变形卷积模块DCN v2构建第一C2f模块,通过重参数模块DBB构建第二C2f模块,结合卷积注意力机制模块CBAM和损失函数模块Wise IoU对YOLOv8进行改进,得到改进的网络模型;将训练集输入网络模型进行迭代训练,得到目标网络模型;将测试集输入至目标网络模型中进行测试,通过测试后的目标网络模型得到道路目标检测结果,检测性能更高,适用于恶劣天气条件下自动驾驶的场景分析。
Description
技术领域
本申请涉及一种基于YOLOv8改进的偏振图像道路目标检测方法,属于偏振图像目标检测领域。
背景技术
目标检测在图像处理和计算机视觉研究中被认为是最重要的任务之一。道路场景分析是自动驾驶和ADAS系统的一项基本任务,但是当能见度发生变化时还需要一些改进,特别在雾霾等恶劣环境下使用普通的光学成像很难完成目标检测任务。偏振图像与可见光相比,偏振图像反映的是物体的偏振信息,偏振图像受成像环境的影响较小。但是目前卷积神经网络目标检测应用于偏振图像领域的研究却不多,且在恶劣条件下现有的基于可见光的目标检测方法的检测精度不足,影响道路场景的分析。
发明内容
本申请的目的在于提供一种基于YOLOv8改进的偏振图像道路目标检测方法,在恶劣天气条件下偏振图像目标检测的精度更高,更符合自动驾驶的场景分析需要。
为实现上述目的,本申请第一方面提供了一种基于YOLOv8改进的偏振图像道路目标检测方法,包括:
获取偏振图像数据集并对所述偏振图像数据集进行预处理,将预处理后的偏振图像数据集划分为训练集和测试集,其中,所述偏振图像数据集包括不同天气条件下的道路目标偏振图像;
通过可变形卷积模块DCN v2构建第一C2f模块,通过重参数模块DBB构建第二C2f模块,结合卷积注意力机制模块CBAM和损失函数模块Wise IoU对YOLOv8进行改进,得到改进的网络模型;
将所述训练集输入所述网络模型进行迭代训练,得到目标网络模型;
将测试集输入至所述目标网络模型中进行测试,通过测试后的目标网络模型得到道路目标检测结果。
在一种实施方式中,所述将测试集输入至所述目标网络模型中进行测试之后还包括:
通过预设的性能评价指标对测试后的目标网络模型进行性能评估。
在一种实施方式中,所述通过可变形卷积模块DCN v2构建第一C2f模块,通过重参数模块DBB构建第二C2f模块,结合卷积注意力机制模块CBAM和损失函数模块Wise IoU对YOLOv8进行改进包括:
将所述第一C2f模块和所述卷积注意力机制模块CBAM引入至YOLOv8的特征提取网络中,得到目标特征提取网络;
将所述第二C2f模块引入至YOLOv8的特征融合网络中,得到目标特征融合网络;
将所述损失函数模块Wise IoU引入至YOLOv8的检测网络中,得到目标检测网络。
在一种实施方式中,所述第一C2f模块包括:依次连接的卷积Conv模块、Split模块,N个并行连接的DCN v2_Bottleneck模块以及卷积Conv模块,其中,所述DCN v2_Bottleneck模块包括两层可变形卷积模块DCN v2;
输入的图像信息通过一个卷积Conv模块后,通过Split模块将通道数平均分成两份,一半通道数的图像信息通过并行连接的DCN v2_Bottleneck模块后与另一半通道数的图像信息通过残差方式Concat连接,最后通过一个卷积Conv模块。
在一种实施方式中,所述目标特征提取网络中包括3个第一C2f模块,每个所述第一C2f模块后加入所述卷积注意力机制模块CBAM。
在一种实施方式中,所述第二C2f模块包括:依次连接的卷积Conv模块、Split模块,N个并行连接的DBB_Bottleneck模块以及卷积Conv模块,其中,所述DBB_Bottleneck模块包括两层重参数模块DBB;
输入的图像信息通过一个卷积Conv模块后,通过Split模块将通道数平均分成两份,一半通道数的图像信息通过并行连接的DBB_Bottleneck模块后与另一半通道数的图像信息通过残差方式Concat连接,最后通过一个卷积Conv模块。
在一种实施方式中,所述损失函数模块Wise IoU代替YOLO v8的检测网络中原有的CioU模块作为边框回归损失函数。
在一种实施方式中,所述将所述训练集输入所述网络模型进行迭代训练包括:
将所述训练集输入所述网络模型中,并通过SGD优化器对所述网络模型进行多轮迭代训练,直至所述网络模型收敛,得到目标网络模型。
本申请第二方面提供了一种电子设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
本申请第三方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一实施方式中的步骤。
由上可见,本申请提供了一种基于YOLOv8改进的偏振图像道路目标检测方法,对YOLOv8进行改进,改进的网络模型中,通过引入可变形卷积DCN v2设计新的第一C2f模块增加对道路未知变化的泛化能力和对小目标道路的检测能力以提升精度;引入卷积注意力机制模块CBAM以降低复杂的道路目标和恶劣天气引入的冗余的信息对检测精度的影响;引入重参数模块DBB设计新的第二C2f模块以达到提升精度的同时平衡检测效率的矛盾,引入损失函数模块Wise IoU将注意力集中在普通质量和锚框以提升检测器的整体性能;对改进的网络模型进行训练,并通过训练好的网络模型进行偏振图像道路目标检测,检测性能更高,适用于恶劣天气条件下自动驾驶的场景分析。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种偏振图像道路目标检测方法的流程示意图;
图2为本申请实施例提供的一种网络结构示意图;
图3为本申请实施例提供的一种C2f_DCN v2模块的结构示意图;
图4为本申请实施例提供的一种卷积注意力机制CBAM模块的结构示意图;
图5为本申请实施例提供的一种C2f_DBB模块的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例一
本申请实施例提供了一种基于YOLOv8改进的偏振图像道路目标检测方法,如图1所示,该方法包括:
S100获取偏振图像数据集并对所述偏振图像数据集进行预处理,将预处理后的偏振图像数据集划分为训练集和测试集,其中,所述偏振图像数据集包括不同天气条件下的道路目标偏振图像;
可选的,通过Mosaic数据增强策略对训练集数据进行数据增强以增加数据的多样性和目标个数。
可选的,还可根据预处理后的偏振图像数据集划分出验证集,以对训练集的训练结果进行验证。其中,偏振图像数据集中训练集由晴朗天气条件下的道路目标偏振图像组成,验证集由晴朗天气和多云天气条件下的道路目标偏振图像组成,为了测试偏振图像对于恶劣天气的优异性能和泛化能力,测试集由晴朗天气和恶劣天气如雾霾天气条件下的道路目标偏振图像组成。
在一种实施方式中,自然光为非偏振光,经过人造目标的表面反射后变成部分偏振光,可用Stokes(斯托克斯)矢量来描述光的偏振特性。Stokes的四个参量I、Q、U、V(也可表述为S0、S1、S2、S3),I/S0表示总光强度,Q/S1表示水平线偏振分量和竖直线偏振分量的光强差,U/S2表示45°线偏振分量和135°线偏振分量的光强差,V/S3表示圆偏振分量。在自然环境中圆偏振分量在一定测量范围内可忽略,故Stokes公式简化为:
进而可由Stokes公式计算出偏振度DOP与偏振角AOP图像。
偏振度公式为
本申请实施例中使用的偏振图像数据集的编码格式由、/>、/>参考R、G、B三通道形式组成,每个通道对应一个方向的偏振方向图像。再将偏振图像数据集按5:1:1的比例划分为晴朗天气的训练集,晴朗与多云天气的验证集,晴朗与雾霾天气组成的测试集。
S200通过可变形卷积模块DCN v2构建第一C2f模块,通过重参数模块DBB构建第二C2f模块,结合卷积注意力机制模块CBAM和损失函数模块Wise IoU对YOLOv8进行改进,得到改进的网络模型;
可选的,将所述第一C2f模块和所述卷积注意力机制模块CBAM引入至YOLOv8的特征提取网络中,得到目标特征提取网络;将所述第二C2f模块引入至YOLOv8的特征融合网络中,得到目标特征融合网络;将所述损失函数模块Wise IoU引入至YOLOv8的检测网络中,得到目标检测网络。
在一种实施方式中,目标特征提取网络的作用是提取输入图像的特征,特征提取的优劣影响着后续网络检测的精度。在此引入可变形卷积模块DCN v2构建的第一C2f模块可增加对道路未知变化的泛化能力和对小目标道路的检测能力;卷积注意力机制模块CBAM可降低复杂的道路目标和恶劣天气引入的冗余的信息对检测精度的影响。目标特征融合网络的作用是融合不同感受野的特征图,得到最终的特征图并将其传递到检测层。在此引入重参数模块DBB构建的第二C2f模块,重参数模块在训练阶段使用多分支以获得更高的精度,在检测阶段将其等效为一个单分支卷积模块使得在检测阶段不耗费更多的资源。目标检测层的作用是将网络提取的特征进行目标区域以及类别的预测,在此引入损失函数模块Wise IoU作为边框回归损失函数,其将注意力放在普通质量的锚框,可提高检测器的整体性能。改进的网络模型的结构如图2所示,输入图像经过两层Conv卷积模块后与C2f模块连接,往后连接三组Conv + C2f_DCN v2 + CBAM结构最后连接SPPF模块,组成目标特征提取网络,Conv结构为Conv2d + BN + SiLU;在SPPF模块后特征通过UP模块和Concat模块再与目标特征提取网络中经过CBAM模块后的相同特征图尺寸的分支相加再通过C2f_DBB模块进行多尺度特征融合,组成目标特征融合网络;对目标特征融合网络中的不同特征图尺寸通过目标检测网络进行检测,目标检测网络为解耦的两分支包括目标区域和类别预测,通过连续的两层Conv模块和Conv2d模块后两分支分别通过Bbox Loss和Cls Loss进行目标区域和类别预测。
可选的,所述第一C2f模块(也称C2f_DCN v2模块)包括:依次连接的卷积Conv模块(也称CBS模块)、Split模块,N个并行连接的DCN v2_Bottleneck模块以及卷积Conv模块。
在一种实施方式中,如图3所示,输入的图像信息通过一个卷积核为11,步长为1,无填充的卷积Conv模块后,通过Split模块将通道数平均分成两份,一半通道数的图像信息通过N个并行连接的DCN v2_Bottleneck模块后与另一半通道数的图像信息通过残差方式Concat连接,最后通过一个卷积Conv模块。其中卷积Conv模块具体结构为Conv2d + BN +SiLU。N代表在C2f_DCN v2模块中并行DCN v2_Bottleneck重复的次数,在图2所示的目标特征提取网络部分,C2f_DCN v2模块设置3个,每个的N分别为6,6,3个。在DCN v2_Bottleneck中输入图像通过两层DCN v2 + BN + SiLU,再与残差结构的输入相加。此处BN为BatchNormalization批归一化操作,SiLU为激活函数。1/>1的卷积核不能进行偏移参数学习,所以在此设置可变形卷积模块DCN v2为3/>3的卷积核来构建DCN v2_Bottleneck模块。SiLU激活函数的公式为:
可变形卷积模块DCN v2的公式为:
其中,是输出特征,/>是输入特征,/>是第k个采样位置的卷积权重,/>是第k个采样位置的预设的偏移量,/>和/>是可学习的偏移量和调制标量。可变形卷积模块DCN v2新引入的调制机制为每个采样点赋予一个权重从而减少无关区域的干扰,进一步提高重要信息的捕获能力。
可选的,在偏振度图像中,检测目标与背景有着较高的对比度,即检测目标的轮廓较为清晰。但实际道路环境是复杂的,特别在恶劣天气条件下引入的冗余信息较多,这些现实因素无疑会影响目标检测的精度。利用卷积注意力机制模块CBAM可学习通道和空间的重要程度,在复杂的道路目标和恶劣天气带来的冗余的信息中最大程度的利用有效地信息。图2所示的目标特征提取网络中包括3个C2f_DCN v2模块,每个C2f_DCN v2模块后加入一个卷积注意力机制模块CBAM,可以缓解C2f_DCN v2模块因拼接多个通道造成的信息冗余的问题,让特征提取网络提取的特征图中的有效信息得以向下传递,提高模型的检测精度。
在一种实施方式中,卷积注意力机制模块CBAM是一种可以无缝集成到神经网络中的注意力模块,能够完成端到端的训练且不会占用过多的计算资源。工作原理是一次采用通道注意力模块和空间注意力模块计算出输入特征图的注意力权重,再将其与原特征图相乘以实现特征权重的自适应调整。其结构如图4所示,对于主干网络输入的特征图,其中C、H、W依次为特征图通道数、高度、长度。注意力机制会将特征依次通过通道注意力模块/>,空间注意力模块/>,得到新特征图F’’即
式中:为矩阵逐元素相乘。
其中通道注意力模块将输入的特征图F通过平均池化和最大池化操作对空间信息进行聚合,再通过共享网络,最后将得到特征值相加并利用激活函数得到通道域的权重系数。通道域权重系数与输入的特征图相乘得到通道注意力模块特征图Fˊ。
通道注意力模块的特征图Fˊ作为空间注意力模块的输入,通过平均池化和最大池化得到两个通道特征矩阵,将其叠加再经过卷积和激活函数得到空间域权重系数。空间域权重系数和通道注意力模块特征图Fˊ相乘即可得到CBAM注意力机制模块特征图Fˊˊ。
可选的,所述第二C2f模块(也称C2f_DBB模块)包括:依次连接的卷积Conv模块、Split模块,N个并行连接的DBB_Bottleneck模块以及卷积Conv模块,其中,所述DBB_Bottleneck模块包括两层重参数模块DBB;
在一种实施方式中,重参数模块DBB通过组合不同大小的卷积核的卷积,如11、33,可以获得丰富的感受野和特征空间,提升了单个卷积模块的表达能力。在训练阶段使用多分支结构,并在训练完成后通过线性组合计算出对应的单分支结构参数。在推理阶段,只需使用等效变换后的结构和相应参数,有效提高了模型的推理速度。使用重参数模块DBB设计的第二C2f模块结构如图5所示,输入的图像信息通过一个卷积核为1/>1,步长为1,无填充的卷积Conv模块后,通过Split模块将通道数平均分成两份,一半通道数的图像信息依次通过并行连接的DBB_Bottleneck模块后与另一半通道数的图像信息通过残差方式Concat连接,最后通过一个卷积核为1/>1,步长为1,无填充的卷积Conv模块。N代表在C2f_DBB模块中并行DBB_Bottleneck重复的次数。在图2所示的目标特征融合网络部分,C2f_DBB模块设置4个,每个N分别为3,3,3,3个。卷积Conv模块包括Conv2d + BN + SiLU。在DBB_Bottleneck中输入图像通过两层DBB模块。
可选的,所述损失函数模块Wise IoU代替YOLO v8的检测网络中原有的CioU模块作为边框回归损失函数。
在一种实施方式中,损失函数模块Wise IoU作为边框回归损失函数,其公式如下:
式中为IoU损失函数;/>为距离度量;/>为WIoUv1损失函数;/>和/>为预测框和真实框最小包外接矩形框的宽和高;/>和/>为真实框的中心点;/>为非单调聚焦系数;/>为WIoUv3损失函数;/>为离群度;/>和/>为超参数;/>为移动平均值。损失函数模块Wise IoU使用“离群度”替代IoU对锚框进行质量评估,离群度较小和较大的均为其分配一个小的梯度增益,采取动态的增益分配策略将注意力放在普通质量的锚框提高检测器的整体性能。
S300将所述训练集输入所述网络模型进行迭代训练,得到目标网络模型;
可选的,将所述训练集输入所述网络模型中,并通过SGD优化器对所述网络模型进行多轮迭代训练,直至所述网络模型收敛,得到目标网络模型。
在一种实施方式中,以上改进方法可应用于YOLO v8的任意模型大小中,本申请实施例中以YOLO v8s模型大小为训练范例,当基于YOLO v8s模型进行改进并得到改进的网络模型时,可在SGD优化器中设置初始学习率为0.01,Batch size 设置为16,采用余弦退火的学习率下降方式,迭代次数为250次,IOU阈值为0.5,通过多轮迭代训练得到最优化的权重参数模型作为目标网络模型。
S400将测试集输入至所述目标网络模型中进行测试,通过测试后的目标网络模型得到道路目标检测结果。
可选的,将测试集输入至S300得到的最优的目标网络模型中进行测试并得到测试结果之后,通过预设的性能评价指标对测试后的目标网络模型进行性能评估,其中,性能评价指标包括IOU交并比,精确率P,召回率R,平均精度AP,平均AP值mAP。
在一种实施方式中,交并比IOU是指模型生成的预测框A和真实框B之间交集和并集的比例。交并比的取值范围是0 ~ 1,1代表预测框与真实框完全重合,0代表预测框与真实框完全分离。IOU体现了定位的准确性,比值越高说明预测的结果越接近真实值。
精确率P是指预测出的类别中是正确类别的概率,即正确预测为道路目标的数量占检测网络预测为道路目标的比例。
召回率R是指预测出的正确类别在该正样本中的概率,即正确预测为道路目标的数量占全部真实的道路目标的比例。
其中:TP为真阳性,即正样本被正确识别为正样本;FN为假阴性,即正样本被错误识别为负样本;TN为真阴性,即负样本被正确识别为负样本;FP为假阳性,即负样本被错误识别为正样本。
平均精度AP是使用积分的方式来计算PR曲线与坐标轴围成的面积。P(r)是在不同R值条件下,对应的P值大小。
平均AP值mAP是指对多个预测类别的AP值求平均AP值。
在一种应用场景中,为了测试本申请实施例方法对恶劣天气中的道路目标检测的精度改进情况,分别针对现有的YOLO v8s和本申请实施例改进的目标网络模型计算相应相关指标,现有技术和本申请实施例方法的相关指标对比结果如表1所示。
表1 现有技术和本申请实施例方法的相关指标对比
可以看出,本申请实施例的目标网络模型对于人物(Person)和车辆(Car)目标进行检测时的平均精度AP值以及平均AP值mAP都比YOLO v8s更高,本申请实施例方法相比于现有技术更具有可行性和优越性。
由上可见,本申请实施例提供了一种基于YOLOv8改进的偏振图像道路目标检测方法,对YOLOv8进行改进,改进的网络模型中,通过引入可变形卷积DCN v2设计新的第一C2f模块增加对道路未知变化的泛化能力和对小目标道路的检测能力以提升精度;引入卷积注意力机制模块CBAM以降低复杂的道路目标和恶劣天气引入的冗余的信息对检测精度的影响;引入重参数模块DBB设计新的第二C2f模块以达到提升精度的同时平衡检测效率的矛盾,引入损失函数模块Wise IoU将注意力集中在普通质量和锚框以提升检测器的整体性能;对改进的网络模型进行训练,并通过训练好的网络模型进行偏振图像道路目标检测,检测性能更高,适用于恶劣天气条件下自动驾驶的场景分析。
实施例二
本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本申请实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于YOLOv8改进的偏振图像道路目标检测方法,其特征在于,包括:
获取偏振图像数据集并对所述偏振图像数据集进行预处理,将预处理后的偏振图像数据集划分为训练集和测试集,其中,所述偏振图像数据集包括不同天气条件下的道路目标偏振图像;
通过可变形卷积模块DCN v2构建第一C2f模块,通过重参数模块DBB构建第二C2f模块,结合卷积注意力机制模块CBAM和损失函数模块Wise IoU对YOLOv8进行改进,得到改进的网络模型;
将所述训练集输入所述网络模型进行迭代训练,得到目标网络模型;
将测试集输入至所述目标网络模型中进行测试,通过测试后的目标网络模型得到道路目标检测结果。
2.如权利要求1所述的偏振图像道路目标检测方法,其特征在于,所述将测试集输入至所述目标网络模型中进行测试之后还包括:
通过预设的性能评价指标对测试后的目标网络模型进行性能评估。
3. 如权利要求1所述的偏振图像道路目标检测方法,其特征在于,所述通过可变形卷积模块DCN v2构建第一C2f模块,通过重参数模块DBB构建第二C2f模块,结合卷积注意力机制模块CBAM和损失函数模块Wise IoU对YOLOv8进行改进包括:
将所述第一C2f模块和所述卷积注意力机制模块CBAM引入至YOLOv8的特征提取网络中,得到目标特征提取网络;
将所述第二C2f模块引入至YOLOv8的特征融合网络中,得到目标特征融合网络;
将所述损失函数模块Wise IoU引入至YOLOv8的检测网络中,得到目标检测网络。
4. 如权利要求3所述的偏振图像道路目标检测方法,其特征在于,所述第一C2f模块包括:依次连接的卷积Conv模块、Split模块,N个并行连接的DCN v2_Bottleneck模块以及卷积Conv模块,其中,所述DCN v2_Bottleneck模块包括两层可变形卷积模块DCN v2;
输入的图像信息通过一个卷积Conv模块后,通过Split模块将通道数平均分成两份,一半通道数的图像信息通过并行连接的DCN v2_Bottleneck模块后与另一半通道数的图像信息通过残差方式Concat连接,最后通过一个卷积Conv模块。
5.如权利要求3或4所述的偏振图像道路目标检测方法,其特征在于,所述目标特征提取网络中包括3个第一C2f模块,每个所述第一C2f模块后加入所述卷积注意力机制模块CBAM。
6.如权利要求3或4所述的偏振图像道路目标检测方法,其特征在于,所述第二C2f模块包括:依次连接的卷积Conv模块、Split模块,N个并行连接的DBB_Bottleneck模块以及卷积Conv模块,其中,所述DBB_Bottleneck模块包括两层重参数模块DBB;
输入的图像信息通过一个卷积Conv模块后,通过Split模块将通道数平均分成两份,一半通道数的图像信息通过并行连接的DBB_Bottleneck模块后与另一半通道数的图像信息通过残差方式Concat连接,最后通过一个卷积Conv模块。
7. 如权利要求3或4所述的偏振图像道路目标检测方法,其特征在于,所述损失函数模块Wise IoU代替YOLO v8的检测网络中原有的CioU模块作为边框回归损失函数。
8.如权利要求1所述的偏振图像道路目标检测方法,其特征在于,所述将所述训练集输入所述网络模型进行迭代训练包括:
将所述训练集输入所述网络模型中,并通过SGD优化器对所述网络模型进行多轮迭代训练,直至所述网络模型收敛,得到目标网络模型。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311639656.3A CN117351448B (zh) | 2023-12-04 | 2023-12-04 | 一种基于YOLOv8改进的偏振图像道路目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311639656.3A CN117351448B (zh) | 2023-12-04 | 2023-12-04 | 一种基于YOLOv8改进的偏振图像道路目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117351448A true CN117351448A (zh) | 2024-01-05 |
CN117351448B CN117351448B (zh) | 2024-03-08 |
Family
ID=89363515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311639656.3A Active CN117351448B (zh) | 2023-12-04 | 2023-12-04 | 一种基于YOLOv8改进的偏振图像道路目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351448B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952977A (zh) * | 2024-03-27 | 2024-04-30 | 山东泉海汽车科技有限公司 | 一种基于改进yolov5s的路面裂缝识别方法、装置和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027415A (zh) * | 2019-11-21 | 2020-04-17 | 杭州凌像科技有限公司 | 一种基于偏振图像的车辆检测方法 |
CN116597224A (zh) * | 2023-05-25 | 2023-08-15 | 南京理工大学 | 基于改进yolo v8网络模型的马铃薯缺陷检测方法 |
CN116740124A (zh) * | 2023-06-05 | 2023-09-12 | 桂林电子科技大学 | 一种基于改进YOLOv8的车辆跟踪与车牌识别联合检测方法 |
CN116958688A (zh) * | 2023-07-28 | 2023-10-27 | 南京信息工程大学 | 一种基于YOLOv8网络的目标检测方法及系统 |
CN117037119A (zh) * | 2023-08-28 | 2023-11-10 | 中国科学技术大学 | 基于改进YOLOv8的道路目标检测方法及系统 |
CN117095246A (zh) * | 2023-10-20 | 2023-11-21 | 国网江西省电力有限公司超高压分公司 | 基于偏振成像的深度学习指针仪表读数识别方法 |
-
2023
- 2023-12-04 CN CN202311639656.3A patent/CN117351448B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027415A (zh) * | 2019-11-21 | 2020-04-17 | 杭州凌像科技有限公司 | 一种基于偏振图像的车辆检测方法 |
CN116597224A (zh) * | 2023-05-25 | 2023-08-15 | 南京理工大学 | 基于改进yolo v8网络模型的马铃薯缺陷检测方法 |
CN116740124A (zh) * | 2023-06-05 | 2023-09-12 | 桂林电子科技大学 | 一种基于改进YOLOv8的车辆跟踪与车牌识别联合检测方法 |
CN116958688A (zh) * | 2023-07-28 | 2023-10-27 | 南京信息工程大学 | 一种基于YOLOv8网络的目标检测方法及系统 |
CN117037119A (zh) * | 2023-08-28 | 2023-11-10 | 中国科学技术大学 | 基于改进YOLOv8的道路目标检测方法及系统 |
CN117095246A (zh) * | 2023-10-20 | 2023-11-21 | 国网江西省电力有限公司超高压分公司 | 基于偏振成像的深度学习指针仪表读数识别方法 |
Non-Patent Citations (5)
Title |
---|
ANIKET SANJAY MAURYA: "VEHCLE DETECTION IN AUTONOMOUS VEHICLES USING YOLOV8", INTERNATIONAL RESEARCH JOURNAL OF MODERNIZATION IN ENGINEERING TECHNOLOGY AND SCIENCE, vol. 5, no. 10, pages 3108 - 3113 * |
LIANHUI JIA ET AL.: "TBM Tunnel Surrounding Rock Debris Detection Based on Improved YOLO v8", ICIRA 2023, pages 177 - 188 * |
LIMING ZHU ET AL.: "CDD-YOLOv8:A Small Defect Detection and Classification Algorithm for Cigarette Packages", 2023 IEEE 13TH INTERNATIONAL CONFERENCE ON CYBER TECHNOLOGY IN AUTOMATION, CONTROL, AND INTELLIGENT SYSTEMS (CYBER), pages 716 - 721 * |
RACHEL BLIN ET AL.: "Road scenes analysis in adverse weather conditions by polarization-encoded images and adapted deep learning", 2019 IEEE INTELLIGENT TRANSPORTATION SYSTEMS CONFERENCE (ITSC), pages 27 - 32 * |
YANG LONG ET AL.: "Steel Surface Defect Detection Method Based on Improved YOLOv8", ACADEMIC JOURNAL OF SCIENCE AND TECHNOLOGY, pages 50 - 56 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952977A (zh) * | 2024-03-27 | 2024-04-30 | 山东泉海汽车科技有限公司 | 一种基于改进yolov5s的路面裂缝识别方法、装置和介质 |
CN117952977B (zh) * | 2024-03-27 | 2024-06-04 | 山东泉海汽车科技有限公司 | 一种基于改进yolov5s的路面裂缝识别方法、装置和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117351448B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112862702B (zh) | 图像增强方法、装置、设备及存储介质 | |
CN110728658A (zh) | 一种基于深度学习的高分辨率遥感影像弱目标检测方法 | |
CN117351448B (zh) | 一种基于YOLOv8改进的偏振图像道路目标检测方法 | |
Hu et al. | Underwater image restoration based on convolutional neural network | |
CN111160406A (zh) | 图像分类模型的训练方法、图像分类方法及装置 | |
CN113312983B (zh) | 基于多模态数据融合的语义分割方法、系统、装置及介质 | |
CN113570508A (zh) | 图像修复方法及装置、存储介质、终端 | |
CN111695463B (zh) | 人脸面部杂质检测模型的训练方法、人脸面部杂质检测方法 | |
CN109815931B (zh) | 一种视频物体识别的方法、装置、设备以及存储介质 | |
CN112215119A (zh) | 一种基于超分辨率重建的小目标识别方法、装置及介质 | |
CN116071650A (zh) | 一种融合卷积神经网络与Transformer的遥感影像建筑物提取方法 | |
CN113066065A (zh) | 无参考图像质量检测方法、系统、终端及介质 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN116563606A (zh) | 一种基于双分支空谱全局特征提取网络的高光谱图像分类方法 | |
CN115631397A (zh) | 一种基于双模态图像的目标检测方法及装置 | |
CN114299358A (zh) | 图像质量评估方法、装置、电子设备及机器可读存储介质 | |
CN116861262B (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN107392948B (zh) | 一种分振幅实时偏振成像系统的图像配准方法 | |
CN117523401A (zh) | 一种多模态遥感数据变化检测方法 | |
CN117333750A (zh) | 空间配准与局部全局多尺度的多模态医学图像融合方法 | |
CN116523888B (zh) | 路面裂缝的检测方法、装置、设备及介质 | |
CN117036806A (zh) | 一种基于双重复用残差网络的物体识别方法 | |
CN115147348B (zh) | 基于改进的YOLOv3的轮胎缺陷检测方法及系统 | |
CN115690752A (zh) | 一种驾驶员行为检测方法及装置 | |
CN112991257B (zh) | 基于半监督孪生网络的异质遥感图像变化快速检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |