CN117037119A - 基于改进YOLOv8的道路目标检测方法及系统 - Google Patents
基于改进YOLOv8的道路目标检测方法及系统 Download PDFInfo
- Publication number
- CN117037119A CN117037119A CN202311085132.4A CN202311085132A CN117037119A CN 117037119 A CN117037119 A CN 117037119A CN 202311085132 A CN202311085132 A CN 202311085132A CN 117037119 A CN117037119 A CN 117037119A
- Authority
- CN
- China
- Prior art keywords
- module
- detection
- feature
- features
- modules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 141
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000008878 coupling Effects 0.000 claims description 8
- 238000010168 coupling process Methods 0.000 claims description 8
- 238000005859 coupling reaction Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001094 effect on targets Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进YOLOv8的道路目标检测方法及系统,其方法包括:S1:采用数据增强方法对图片进行预处理,构建数据集;S2:构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;S3:将训练集输入改进YOLOv8网络,经过特征提取模块进行特征采集,生成不同层次的特征F1、F2、F3、F4;S4:将F1、F2、F3、F4输入特征融合模块,分别得到增强特征F10、F12、F14、F16;步骤S5:将F10、F12、F14、F16输入检测模块,经过Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别。本发明的方法,提高了道路目标检测的精度和速度,解决对极小目标的检测问题。
Description
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于改进YOLOv8的道路目标检测方法及系统。
背景技术
近些年来,人工智能飞速发展,汽车自动驾驶技术成为了解决传统汽车道路交通问题的重要技术,受到了许多企业乃至国家的重点关注。对于汽车自动驾驶系统来说目标检测算法是最为基础和核心的重要组成部分。随着机器学习和GPU并行计算技术的不断发展,基于卷积神经网络(Convolutional Neural Network,CNN)逐渐发展出了很多的目标检测算法,YOLO系列算法是目前应用最广的目标检测算法之一,刚问世就以快速的检测能力受到广泛关注,在经过了八个版本的迭代之后,YOLO算法不仅保留了检测速度快的优势,还补齐了检测准确率低的短板。
道路背景下的目标检测算法需要快速并且准确地识别并定位目标,现有的目标检测算法已经可以高效地完成绝大多数一般道路背景下的目标检测任务,但在复杂的道路背景下,因为目标多且杂,并且各个目标之间的距离和角度变化很大,存在着密集目标的遮挡问题以及小目标的检测问题,容易导致误检和漏检,这对算法的检测精度和速度都带来很大的影响,进而使得整个自动驾驶系统的安全性存在问题,甚至可能导致交通事故的发生。因此,如何解决复杂道路背景下的密集目标遮挡以及小目标的检测成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于改进YOLOv8的道路目标检测方法及系统。
本发明技术解决方案为:一种基于改进YOLOv8的道路目标检测方法,包括:
步骤S1:采用数据增强方法对图片进行预处理,构建数据集,按照比例将所述数据集划分训练集、验证集和测试集;
步骤S2:构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;其中,在所述特征提取模块中使用C2f-FNEMA模块替代原有的C2f模块;在所述特征融合模块中基于原有的三尺度检测层上,增加了一个检测层,以检测极小尺寸道路目标,同时,使用C2f-FN模块替代原有的C2f模块;在所述检测模块中将原先的耦合头替换为解耦头Detect模块,将道路目标的位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合;
步骤S3:将所述训练集输入所述改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4;
步骤S4:将F1、F2、F3、F4输入所述特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,所述增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标;
步骤S5:将F10、F12、F14、F16输入所述检测模块,经过所述Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种基于改进YOLOv8的道路目标检测方法,使用部分卷积Pconv和两个常规1×1卷积结合组成的FasterNet块来替换YOLOv8中C2f模块中的Bottleneck,构成新的C2f-FN模块。相比于C2f模块中的Bottleneck,FasterNet块更加轻量快速,可以同时减少计算冗余和内存访问,有效地节省了计算时间。C2f-FN模块可以在保证轻量化的同时获得更加丰富的梯度流信息。
2、本发明为了进一步提升YOLOv8在复杂道路背景下检测时的特征提取能力,将高效多尺度注意力EMA注意力机制加入C2f-FN模块中,构成C2f-FBEMA模块,EMA注意力机制在卷积运算中学习有效的通道描述而不降低通道维度,并为高级特征图产生更好的像素级关注。本发明将EMA注意力添加到特征提取模块中,显著增强了特征表达能力,降低了无关信息对特征带来的影响,使模型学习到特征图中更多的有效信息,增强特征图的信息表达能力,对尺寸小且分布密集的目标的检测效果得到明显的提升,提高了改进YOLOv8模型对小尺度目标的检测能力。
3、本发明使用SPPFCSPC模块替换了原Yolov8的SPPF模块,提高了图像的尺度不变性,有效增加了主干特征的接收范围,更容易使网络收敛,提高了准确率。
4、本发明在特征融合模块中增加了一层浅层的检测层作为极小目标的检测层,将原YOLOv8从三尺度改为四尺度检测,通过改进多尺度检测,能够检测更多的目标尺寸范围,更加适用于目标尺寸不均匀的复杂道路场景,有效提高了检测精度。
5、本发明在检测模块中,使用MPDIoU替换原YOLOv8中用于计算回归损失的CIOU,可以获得更快的收敛速度和更准确的回归结果。
附图说明
图1为本发明实施例中一种基于改进YOLOv8的道路目标检测方法的流程图;
图2为本发明实施例中改进YOLOv8网络结构示意图;
图3为本发明实施例中C2f-FNEMA模块结构示意图;
图4为本发明实施例中FasterNet模块结构示意图;
图5为本发明实施例中部分卷积模块Pconv示意图;
图6为本发明实施例中EMA注意力模块结构示意图;
图7为本发明实施例中SPPFCSPC模块结构示意图;
图8为本发明实施例中C2f-FN模块结构示意图;
图9为本发明实施例中Detect模块结构示意图;
图10为本发明实施例中一种基于改进YOLOv8的道路目标检测系统的结构框图。
具体实施方式
本发明提供了一种基于改进YOLOv8的道路目标检测方法,提高了道路目标检测的精度和速度,解决对极小道路目标的检测问题。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于改进YOLOv8的道路目标检测方法,包括下述步骤:
步骤S1:采用数据增强方法对图片进行预处理,构建数据集,按照比例将数据集划分训练集、验证集和测试集;
步骤S2:构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;其中,在特征提取模块中使用C2f-FNEMA模块替代原有的C2f模块;在特征融合模块中基于原有的三尺度检测层上,增加了一个检测层,以检测极小尺寸道路目标,同时,使用C2f-FN模块替代原有的C2f模块;在检测模块中将原先的耦合头替换为解耦头Detect模块,将道路目标的位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合;
步骤S3:将训练集输入改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4;
步骤S4:将F1、F2、F3、F4输入特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标;
步骤S5:将F10、F12、F14、F16输入检测模块,经过Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别。
在一个实施例中,上述步骤S1:采用数据增强方法对图片进行预处理,构建数据集,按照比例将数据集划分训练集、验证集和测试集,具体包括:
在本发明实施例中,选用BDD100k数据集,整个数据集原本分为Bus、Light、Sign、Person、Bike、Truck、Motor、Car、Train、Rider共十类标签,但本发明的道路目标检测方法并不关心这么多的分类,所以将其重新划分为本发明更关注的Car、Person、Rider三类标签,使用LabelImg软件将训练数据集中的图像中的目标标注出来,并将数据集中的带标注图像按照8:1:1的比例划分训练集、验证集和测试集,最后划分为训练集3200张,验证集400张,测试集400张。
本发明实施例采用Mosaic-9方法对训练集中的图片进行数据增强处理。将随机选取9张图片进行随机裁剪、缩放、排列以及色域变化后,分别粘贴到和最终输出图像大小相等的掩模的对应位置,将它们随机排列拼接最后形成一张图片,实现丰富数据集的同时,增加了小样本目标。
在一个实施例中,上述步骤S2:构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;其中,在特征提取模块中使用C2f-FNEMA模块替代原有的C2f模块;在特征融合模块中基于原有的三尺度检测层上,增加了一个检测层,以检测极小尺寸道路目标,同时,使用C2f-FN模块替代原有的C2f模块;在检测模块中将原先的耦合头替换为解耦头Detect模块,将道路目标的位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合,具体包括:
如图2所示,为改进YOLOv8网络结构示意图,其中特征提取模块、特征融合模块和检测模块分别对应原YOLOv8的Backbone网络、Neck网络、Head网络三个部分。在特征提取模块,构建了C2f-FNEMA模块替代原YOLOv8的C2f模块,其中,在C2f-FNEMA模块中使用FasterNet模块替代原C2f模块中BottleNeck模块。在特征融合模块中,增加一层160×160尺寸的检测层来检测极小尺寸的目标,将原YOLOv8的三尺度检测改为四尺度检测,同时将原YOLOv8的特征融合部分也相应改为四尺度特征融合。最后在检测模块中,构建解耦头Detect模块替代原YOLOv8的耦合头,并构建新损失函数MPDIoU用于计算回归损失,替换原YOLOv8的损失函数CIOU。
在一个实施例中,上述步骤S3:将训练集输入改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4,具体包括:
如图3所示,构建C2f-FNEMA模块,包括:2个CBS模块、1个分离模块、n个FasterNet模块和1个EMA注意力模块;
首先,输入特征经过第一个CBS模块改变输入特征的尺寸后进入分离模块,将输入特征分割成第一特征和第二特征,第一特征经由n个FasterNet模块进行特征提取,其中FasterNet模块替代原有的C2f中的BottleNeck模块,其中FasterNet模块,如图4所示,由1个部分卷积模块Pconv和2个1×1的普通卷积模块Conv构成;其中,如图5所示,Pconv只对一部分通道做卷积,其他的通道保持不变;两个1×1普通卷积模块是有倒残差结构,先对特征升维,后面接一个批次归一化和ReLU激活函数,再对特征进行降维;将第n个FasterNet模块的输出与第二特征进行concat操作后,输入EMA注意力模块,通过三条平行的路线来提取分组特征的注意力权重描述符,将EMA注意力模块的输出经过第二个CBS模块恢复尺寸,得到于输入特征尺寸一样的输出特征;
在本发明实施例中的部分卷积(Partial Convolution,PConv)利用了特征图中的冗余,并系统地仅对部分输入通道应用卷积,而对其余通道保持不变,通过同时减少冗余计算和内存访问,可以更有效地提取空间特征。
在设计快速神经网络时,很多现有工作都只考虑通过减少总的浮点运算数(FLOPs)的数量来提高速度,但实际上只是减少FLOPs并不一定会使得类似水平的延迟减少,因为一个模型延时的计算方法为:
其中,FLOPS指的是每秒浮点运算次数,即计算速度。通过公式可以看出如果FLOPS比较低的话,就算FLOPs较少,还是有可能会导致模型的延时增加。较低的FLOPS主要是由于算子的频繁内存访问导致的。
普通卷积的FLOPs是:h×ω×k2×c2,内存访问数量是:h×ω×2c。其中h和ω分别代表特征图的高和宽,k代表卷积核的大小,c代表通道数。
由于特征图的各个通道之间存在着极高的冗余,部分卷积的方法选择只对一部分通道做卷积,其他的通道保持不变。为了连续或常规的内存访问,只将开头或最后的cp个通道作为整个特征图的代表进行计算,此时PConv的FLOPs计算公式为:
其中,cp是常规卷积作用的通道数,实际的实现中cp一般只有c的四分之一,所以PConv的FLOPs仅为常规卷积的1/16。
Pconv的内存访问次数为:
可以看出PConv的内存访问数量仅仅为常规卷积的1/4,其余的c-cp个通道不参与计算,所以无需进行内存的访问。
由于剩余的c-cp个通道中仍存在相当多的特征信息,不能简单丢弃,为了充分有效地利用来自所有通道的信息,故在Pconv后再跟上两个1×1的普通卷积模块从而构成了FasterNet块,两个1×1普通卷积模块呈现倒残差结构,先对特征升维,后面接一个批次归一化(BN)和ReLU激活函数,再进行降维。
本发明实施例的EMA注意力模块会在跨通道维度方向将给定的输入特征映射 划分成G个子特征,用于学习不同的语义,其中组风格可以由下式表示:
在不损失一般性的前提条件下取G<<C,并假设学习到的注意力权重描述符将被用于增强每个子特征中感兴趣区域的特征表示。
本发明实施例的EMA注意力模块通过三条平行的路线来提取分组特征图的注意力权重描述符,如图6所示。其中两条平行路径在1×1分支上,第三条路径在3×3分支上。在1×1分支中分别沿两个空间方向对通道进行编码时采用了两个1D全局平均池化操作,在3×3分支中只堆叠一个3×3内核用于捕获多尺度特征表示。这样EMA注意力不仅对通道之间的信息进行编码以调整不同通道的重要性,而且将精确的空间结构信息保存到了通道之中。
EMA注意力模块引入了两个张量,其中一个是1×1分支的输出,另一个是3×3分支的输出。然后利用2D全局平均池化对分支的输出中的全局空间信息进行编码,并且最小分支的输出将直接在信道特征的联合激活机制之前转换成相应的维度形状。2D全局池化的操作公式为:
其被设计用于对全局信息进行编码并对长程依赖性进行建模。为了有效计算,在2D全局平均池化的输出处使用2D高斯映射的自然非线性函数softmax来拟合线性变换。通过将上述并行处理的输出与矩阵点积运算相乘,得到第一个空间注意力图。
之后再利用2D全局平均池化来编码分支中的全局空间信息,并且分支将直接在通道特征的联合激活机制之前被转换成对应的维度形状。然后导出保留了整个精确空间位置信息的第2空间注意力图。最后,每组内的输出特征图被计算为2个生成的空间注意力权重值的聚合,再使用Sigmoid函数来捕捉像素级的成对关系,并突出显示所有像素的全局上下文。
EMA注意力模块的最终输出特征与输入特征的大小相同,而且非常的灵活与轻量。故将EMA注意力模块连接到C2f-FN模块中的concat操作模块之后,特征经过注意力模块处理后再接上一个CBS单元,构成了本发明的C2f-FNEMA模块。
在特征提取模块中包括4个C2f-FNEMA模块,其中,前3个C2f-FNEMA模块分别输出特征F1、F2、F3,且每个C2f-FNEMA模块后接一个CBS模块;在最后一个C2f-FNEMA模块后接一个SPPFCSPC模块,进行不同尺度的池化;其中,SPPFCSPC模块,如图7所示,包括:3个依次连接的不同卷积核的普通卷积模块Conv1、Conv2、Conv3,其卷积核大小分别为1×1、3×3、1×1,3个依次连接的最大池化MaxPool模块,将Conv3的输出与三个Maxpool模块的输出进行Concat操作之后,再经过2个不同卷积核的普通卷积模块Conv4、Conv5,其卷积核大小分别为1×1、3×3,将Conv5的输出与输入特征经过卷积核大小为1×1的普通卷积模块Conv6的输出进行Concat操作后,最后经过卷积核大小为1×1的普通卷积模块Conv7,输出特征F4。
在特征提取模块中,即Backbone部分,对于输入的图像,首先用一个CBS模块将图像的特征信息集中到通道上。其中CBS模块由普通卷积Conv、批标准化BatchNormalization和激活函数SiLU组成,用于对输入数据进行卷积操作,实现对输入特征的转换和提取。卷积用于提取输入特征中的局部空间信息,BN层的作用是对卷积层的输出进行归一化,用于规范化神经网络中的特征值分布,提高网络的泛化能力并减轻模型对初始化的依赖性,激活函数是一种非线性函数,会对卷积层的输出进行非线性变换,将连续型输入变为离散形输出,增强模型的表达能力。
然后,连续使用四个CBS模块+C2f-FNEMA模块的组合,其中4个C2f-FNEMA模块中的FasterNet块的个数n,从上至下分别设置为3、6、6、3,shortcut设置为True,即开启残差连接。在最后一个C2f-FNEMA模块之后,接着一个SPPFCSPC模块,它可以对输入特征图进行不同尺度的池化,可以在不改变特征图大小的情况下,提取不同尺度的特征信息,从而适应不同大小的目标,可以减少特征图的大小,降低计算量,同时可以提高检测精度,使得模型更加准确地检测出目标。
在一个实施例中,步骤S4:将F1、F2、F3、F4输入特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标,具体包括:
构建C2f-FN模块,如图8所示,与C2f-FNEMA模块结构一致,但是不包括EMA注意力模块;
首先,对特征F1、F2、F3、F4进行自下而上的特征融合:将特征F4经过Upsample操作后与F3进行Concat操作,得到拼接特征F5;将F5经过C2f-FN模块,得到增强特征F6;再对F6经过Upsample操作后与F2进行Concat操作,得到拼接特征F7;将F7经过C2f-FN模块,得到增强特征F8;再对F8经过Upsample操作后与F1进行Concat操作,得到拼接特征F9,最后将F9经过C2f-FN模块,得到增强特征F10;
然后,进行自上而下的特征传递,通过上采样和与更粗粒度的特征融合来实现不同层次特征的融合:将F10输入CBS模块中进行特征提取,并与特征F7进行Concat操作,得到拼接特征F11;将F11输入C2f-FN模块,得到增强特征F12,重复上述操作,可到增强特征F14和F16,以及拼接特征F13和F15;
最终,将四个尺度的增强特征F10、F12、F14、F16作为特征融合模块的输出。
原YOLOv8采用多尺度检测的方式,当输入的图像尺寸为640×640时,算法使用20×20的特征层检测大尺寸的目标,40×40的特征层检测中等尺寸的目标,80×80的特征层进行融合检测小尺寸的目标。相比于单尺度的目标检测算法,多尺度目标检测算法检测目标的尺寸范围更大,能够提升检测的准确率。但在复杂的道路背景下,很多目标因为距离摄像头比较远,在图像或视频中显示出来的尺寸会非常小,原YOLOv8用来检测小尺寸目标的80×80尺度没有办法完全覆盖这些更加小的目标,使得部分目标无法被有效地检测到。
本发明在原YOLOv8的三尺度检测的基础上,增加了极小目标检测层,即增加一层160×160尺寸的检测层,即特征F10,来检测更小尺寸的目标,将原YOLOv8的三尺度检测增加变为四尺度检测。同时将原YOLOv8的特征融合部分也相应地改为四尺度特征融合,增加了一个160×160的特征层。
对于特征融合模块的C2f-FN模块中的FasterNet块,统一将数量设为3,shortcut设置为False,关闭残差连接。
在一个实施例中,上述步骤S5:将F10、F12、F14、F16输入检测模块,经过Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别,具体包括:
构建Detect模块,如图9所示,包括两个分支,每个分支都包含两个连续的CBS模块和一个普通1×1卷积,第一分支采用回归损失使用DFL+MPDIoU计算损失,第二分支采用分类损失使用BCE计算损失。
在检测模块中包括4个Detect模块,分别将增强特征F10、F12、F14、F16输入4个Detect模块,得到4个不同尺度下的检测框的位置和类别。
损失函数MPDIoU用于最小化预测边界框与实际标注边界框之间的左上角和右下角点距离。对于两个框A和B,A的左上角和右下角点坐标分别为B的左上角和右下角点坐标分别为/>
其中,w和h分别代表输入图像的宽和高。
本发明将原Yolov8的Head部分中耦合头替换成解耦头,将目标位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合。并且从基于锚框的目标检测变成了无锚框。并且使用MPDIoU替换原YOLOv8中的CIOU,以获得更快的收敛速度和更准确的回归结果。
实施例二
如图10所示,本发明实施例提供了一种基于改进YOLOv8的道路目标检测系统,包括下述模块:
预处理模块61,用于采用数据增强方法对图片进行预处理,构建数据集,按照比例将数据集划分训练集、验证集和测试集;
构建改进YOLOv8网络模块62,用于构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;其中,在特征提取模块中使用C2f-FNEMA模块替代原有的C2f模块;在特征融合模块中基于原有的三尺度检测层上,增加了一个检测层,以检测极小尺寸道路目标,同时,使用C2f-FN模块替代原有的C2f模块;在检测模块中将原先的耦合头替换为解耦头Detect模块,将道路目标的位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合;
特征提取模块63,用于将训练集输入改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4;
特征融合模块64,用于将F1、F2、F3、F4输入特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标;
检测模块65,用于将F10、F12、F14、F16输入检测模块,经过Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (5)
1.一种基于改进YOLOv8的道路目标检测方法,其特征在于,包括:
步骤S1:采用数据增强方法对图片进行预处理,构建数据集,按照比例将所述数据集划分训练集、验证集和测试集;
步骤S2:构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;其中,在所述特征提取模块中使用C2f-FNEMA模块替代原有的C2f模块;在所述特征融合模块中基于原有的三尺度检测层上,增加了一个检测层,以检测极小尺寸道路目标,同时,使用C2f-FN模块替代原有的C2f模块;在所述检测模块中将原先的耦合头替换为解耦头Detect模块,将道路目标的位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合;
步骤S3:将所述训练集输入所述改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4;
步骤S4:将F1、F2、F3、F4输入所述特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,所述增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标;
步骤S5:将F10、F12、F14、F16输入所述检测模块,经过所述Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别。
2.根据权利要求1所述的基于改进YOLOv8的道路目标检测方法,其特征在于,所述步骤S3:将所述训练集输入所述改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4,具体包括:
构建C2f-FNEMA模块,包括:2个CBS模块、1个分离模块、n个FasterNet模块和1个EMA注意力模块;
首先,输入特征经过第一个CBS模块改变所述输入特征的尺寸后进入分离模块,将所述输入特征分割成第一特征和第二特征,所述第一特征经由n个FasterNet模块进行特征提取,其中所述FasterNet模块替代原有的C2f中的BottleNeck模块,其中所述FasterNet模块由1个部分卷积模块Pconv和2个1×1的普通卷积模块Conv构成;其中,Pconv只对一部分通道做卷积,其他的通道保持不变;两个1×1普通卷积模块是有倒残差结构,先对特征升维,后面接一个批次归一化和ReLU激活函数,再对特征进行降维;将第n个FasterNet模块的输出与所述第二特征进行concat操作后,输入所述EMA注意力模块,通过三条平行的路线来提取分组特征的注意力权重描述符,将所述EMA注意力模块的输出经过第二个CBS模块恢复尺寸,得到于所述输入特征尺寸一样的输出特征;
在所述特征提取模块中包括4个C2f-FNEMA模块,其中,前3个C2f-FNEMA模块分别输出特征F1、F2、F3,且每个C2f-FNEMA模块后接一个CBS模块;在最后一个C2f-FNEMA模块后接一个SPPFCSPC模块,进行不同尺度的池化;其中,所述SPPFCSPC模块,包括:3个依次连接的不同卷积核的普通卷积模块Conv1、Conv2、Conv3,3个依次连接的最大池化MaxPool模块,将Conv3的输出与三个Maxpool模块的输出进行Concat操作之后,再经过2个不同卷积核的普通卷积模块Conv4、Conv5,将Conv5的输出与输入特征经过普通卷积模块Conv6的输出进行Concat操作后,最后经过普通卷积模块Conv7,输出特征F4。
3.根据权利要求2所述的基于改进YOLOv8的道路目标检测方法,其特征在于,所述步骤S4:将F1、F2、F3、F4输入所述特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,所述增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标,具体包括:
构建C2f-FN模块,与所述C2f-FNEMA模块结构一致,但是不包括EMA注意力模块;
首先,对特征F1、F2、F3、F4进行自下而上的特征融合:将所述特征F4经过Upsample操作后与F3进行Concat操作,得到拼接特征F5;将F5经过C2f-FN模块,得到增强特征F6;再对F6经过Upsample操作后与F2进行Concat操作,得到拼接特征F7;将F7经过C2f-FN模块,得到增强特征F8;再对F8经过Upsample操作后与F1进行Concat操作,得到拼接特征F9,最后将F9经过C2f-FN模块,得到增强特征F10;
然后,进行自上而下的特征传递:将F10输入CBS模块中进行特征提取,并与特征F7进行Concat操作,得到拼接特征F11;将F11输入C2f-FN模块,得到增强特征F12,重复上述操作,可到增强特征F14和F16,以及拼接特征F13和F15;
最终,将四个尺度的增强特征F10、F12、F14、F16作为所述特征融合模块的输出。
4.根据权利要求3所述的基于改进YOLOv8的道路目标检测方法,其特征在于,所述步骤S5:将F10、F12、F14、F16输入所述检测模块,经过所述Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别,具体包括:
构建Detect模块,包括两个分支,每个分支都包含两个连续的CBS模块和一个普通1×1卷积,第一分支采用回归损失使用DFL+MPDIoU计算损失,第二分支采用分类损失使用BCE计算损失;
在所述检测模块中包括4个Detect模块,分别将增强特征F10、F12、F14、F16输入4个所述Detect模块,得到4个不同尺度下的检测框的位置和类别。
5.一种基于改进YOLOv8的道路目标检测系统,其特征在于,包括下述模块:
预处理模块,用于采用数据增强方法对图片进行预处理,构建数据集,按照比例将所述数据集划分训练集、验证集和测试集;
构建改进YOLOv8网络模块,用于构建改进YOLOv8网络,包括:特征提取模块,特征融合模块和检测模块;其中,在所述特征提取模块中使用C2f-FNEMA模块替代原有的C2f模块;在所述特征融合模块中基于原有的三尺度检测层上,增加了一个检测层,以检测极小尺寸道路目标,同时,使用C2f-FN模块替代原有的C2f模块;在所述检测模块中将原先的耦合头替换为解耦头Detect模块,将道路目标的位置和类别信息分别提取出来,通过不同的网络分支分别学习,最后再进行融合;
特征提取模块,用于将所述训练集输入所述改进YOLOv8网络,经过特征提取模块中一系列CBS模块和C2f-FNEMA模块进行特征采集,生成不同层次的特征F1、F2、F3、F4;
特征融合模块,用于将F1、F2、F3、F4输入所述特征融合模块,分别经过四个不同尺度的检测层,实现语义信息从深层特征到浅层特征的传递以及定位信息从浅层特征层到深层特征层的传递,分别得到增强特征F10、F12、F14、F16,其中,所述增强特征F10是通过增加的检测层获得,用于检测极小尺寸道路目标;
检测模块,用于将F10、F12、F14、F16输入所述检测模块,经过所述Detect模块,利用两个分支对特征进行解耦,分别计算回归损失与分类损失,最后输出检测框的位置和类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085132.4A CN117037119A (zh) | 2023-08-28 | 2023-08-28 | 基于改进YOLOv8的道路目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311085132.4A CN117037119A (zh) | 2023-08-28 | 2023-08-28 | 基于改进YOLOv8的道路目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037119A true CN117037119A (zh) | 2023-11-10 |
Family
ID=88639047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311085132.4A Pending CN117037119A (zh) | 2023-08-28 | 2023-08-28 | 基于改进YOLOv8的道路目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037119A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351448A (zh) * | 2023-12-04 | 2024-01-05 | 长春理工大学 | 一种基于YOLOv8改进的偏振图像道路目标检测方法 |
CN117423062A (zh) * | 2023-11-13 | 2024-01-19 | 南通大学 | 一种基于改进的YOLOv5的建筑工地安全帽检测方法 |
CN117764959A (zh) * | 2023-12-26 | 2024-03-26 | 江南大学 | 一种光伏电池组件缺陷检测方法和系统 |
CN117893823A (zh) * | 2024-01-19 | 2024-04-16 | 安徽农业大学 | 一种基于Swin Transformer的苹果成熟度检测方法 |
CN117952985A (zh) * | 2024-03-27 | 2024-04-30 | 江西师范大学 | 基于缺陷检测场景下提升信息复用的图像数据处理方法 |
CN118429623A (zh) * | 2024-06-19 | 2024-08-02 | 深圳市锐明像素科技有限公司 | 城市设施异常识别方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-28 CN CN202311085132.4A patent/CN117037119A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423062A (zh) * | 2023-11-13 | 2024-01-19 | 南通大学 | 一种基于改进的YOLOv5的建筑工地安全帽检测方法 |
CN117351448A (zh) * | 2023-12-04 | 2024-01-05 | 长春理工大学 | 一种基于YOLOv8改进的偏振图像道路目标检测方法 |
CN117351448B (zh) * | 2023-12-04 | 2024-03-08 | 长春理工大学 | 一种基于YOLOv8改进的偏振图像道路目标检测方法 |
CN117764959A (zh) * | 2023-12-26 | 2024-03-26 | 江南大学 | 一种光伏电池组件缺陷检测方法和系统 |
CN117764959B (zh) * | 2023-12-26 | 2024-10-15 | 江南大学 | 一种光伏电池组件缺陷检测方法和系统 |
CN117893823A (zh) * | 2024-01-19 | 2024-04-16 | 安徽农业大学 | 一种基于Swin Transformer的苹果成熟度检测方法 |
CN117952985A (zh) * | 2024-03-27 | 2024-04-30 | 江西师范大学 | 基于缺陷检测场景下提升信息复用的图像数据处理方法 |
CN118429623A (zh) * | 2024-06-19 | 2024-08-02 | 深圳市锐明像素科技有限公司 | 城市设施异常识别方法、装置、电子设备及存储介质 |
CN118429623B (zh) * | 2024-06-19 | 2024-10-01 | 深圳市锐明像素科技有限公司 | 城市设施异常识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及系统 | |
CN111914838B (zh) | 一种基于文本行识别的车牌识别方法 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN112434586B (zh) | 一种基于域自适应学习的多复杂场景目标检测方法 | |
CN114841244B (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
CN111008633A (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN112132013B (zh) | 一种车辆关键点检测方法 | |
CN116912485A (zh) | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN116665176A (zh) | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
Zou et al. | Hft: Lifting perspective representations via hybrid feature transformation | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN114022727B (zh) | 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法 | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
CN117975218A (zh) | 一种基于混合注意力和特征中心化多尺度融合的小目标检测方法 | |
Zou et al. | Hft: Lifting perspective representations via hybrid feature transformation for bev perception | |
Zhang et al. | Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 | |
CN116630917A (zh) | 一种车道线检测方法 | |
Ma | PANet: parallel attention network for remote sensing image semantic segmentation | |
CN114219989A (zh) | 一种基于干扰抑制和动态轮廓的雾天场景船舶实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |