CN116740538A - 一种基于YOLOv8改进的轻量化目标检测方法及系统 - Google Patents
一种基于YOLOv8改进的轻量化目标检测方法及系统 Download PDFInfo
- Publication number
- CN116740538A CN116740538A CN202310886082.3A CN202310886082A CN116740538A CN 116740538 A CN116740538 A CN 116740538A CN 202310886082 A CN202310886082 A CN 202310886082A CN 116740538 A CN116740538 A CN 116740538A
- Authority
- CN
- China
- Prior art keywords
- module
- target detection
- vov
- gscsp
- gsconv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 139
- 230000007246 mechanism Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000002776 aggregation Effects 0.000 claims description 30
- 238000004220 aggregation Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 20
- 238000012545 processing Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000002679 ablation Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 239000012014 frustrated Lewis pair Substances 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001494479 Pecora Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv8改进的轻量化目标检测方法及系统,属于图像处理技术领域,使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集;引入BiFormer注意力机制、GSConv轻量化卷积模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型;基于训练集训练上述小目标检测模型,得到最优小目标检测模型;将测试集输入最优小目标检测模型,输出小目标检测结果。本发明能够在提高小目标检测性能的同时对YOLOv8进行轻量化改进,以满足端到端的工业部署。
Description
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种基于YOLOv8改进的轻量化目标检测方法及系统。
背景技术
近年来,随着深度学习相关理论的不断加深以及计算机算力的大规模提升,基于深度学习的目标检测技术在工业场景中(工业数字化设计、智能仓储、自动驾驶)已经得到了进一步的应用。YOLO(YouOnlyLookOnce)作为经典的单阶段(One-stage)目标检测算法,它的优势在于实时性高、简洁高效、多尺度检测、全局上下文信息利用和多任务学习。这些特点使得它在快速目标检测和实时应用场景中表现出色。但从另一方面来说,YOLO系列模型参数量过大,计算成本过高的问题长期存在,在保证较高目标检测性能的前提下对YOLO系列进行轻量化改进成为当前的热点研究问题。
目前,以YOLOv8为代表的单阶段目标检测技术,在主干网络中有比较明显的优化,但在颈部层未能高效融合上下文信息,导致在小目标检测方面存在漏检、错检的问题,而且还存在模型参数量大,计算复杂度高的问题,对于满足端到端的工业部署还存在一定的提升空间。
因此,设计一种基于YOLOv8改进的轻量化目标检测方法及系统,在提高小目标检测性能的同时对YOLOv8进行轻量化改进,以满足端到端的工业部署,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于YOLOv8改进的轻量化目标检测方法,通过改进YOLOv8结构实现模型轻量化和性能的平衡,提高小目标检测结果的准确性。
为了实现上述目的,本发明采用如下技术方案:
一方面,本发明公开一种基于YOLOv8改进的轻量化目标检测方法,包括以下步骤:
使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集;
引入BiFormer注意力机制、GSConv(GSConvolution,轻量级卷积模块)模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型;
基于所述训练集训练所述基于改进YOLOv8的小目标检测模型,得到最优小目标检测模型;
将所述测试集输入所述最优小目标检测模型,输出小目标检测结果。
优选的,所述基于改进YOLOv8的小目标检测模型包括主干网络、颈部网络和检测头;
所述颈部网络包括依次连接的第一上采样模块、第一聚合模块、第一VoV-GSCSP(VoV-GSCrossStagePartialmodule,一次性聚合跨级部分网络模块)模块、第二上采样模块、第二聚合模块、第二VoV-GSCSP模块、自注意力机制模块、第一GSconv模块、第三聚合模块、第三VoV-GSCSP模块、第二GSconv模块、第四聚合模块、第四VoV-GSCSP模块;所述第一VoV-GSCSP模块和所述第三聚合模块连接。
优选的,所述自注意力机制模块采用BiFormer注意力机制,工作流程如下:
将输入所述自注意力机制模块的特征图划分为若干个不重叠区域并进行线性映射;
通过构造有向图实现区域间的路由,得到路由索引矩阵;
利用所述路由索引矩阵计算细粒度token-to-token注意力。
优选的,所述GSConv模块包括第一GSConv模块、第二GSConv模块,每个所述GSConv模块中包含深度可分离卷积模块,工作流程如下:
所述GSConv模块的输入经过一个标准卷积后改变通道数,通过所述深度可分离卷积模块处理后,通道数不变,然后将第一次卷积后的结果与深度可分离卷积后的结构进行拼接和混洗。
优选的,VoV-GSCSP模块包括第一VoV-GSCSP模块、第二VoV-GSCSP模块、第三VoV-GSCSP模块和第四VoV-GSCSP模块;所述VoV-GSCSP模块是以GSConv模块为基础,引入GSbottleneck(GSConvbasedBottleneck,轻量级瓶颈模块),使用一次性聚合方法设计得到的。
优选的,首先使用连续的两个GSConv处理和一个普通卷积块分别处理输入图像后,将两种处理后的内容进行聚合,构建一种基于GSConv的瓶颈模块;其次,将所述瓶颈模块基于一次性聚合的方式构建VoV-GSCSP模块。
优选的,所述主干网络包括依次连接的第一卷积模块、第二卷积模块、第一C2f模块、第三卷积模块、第二C2f模块、第四卷积模块、第三C2f模块、第五卷积模块、第四C2f模块、SPPF(SpatialPyramidPooling–Fast,改进空间金字塔结构)模块;
其中所述第二C2f模块与所述第二聚合模块连接,所述第三C2f模块与所述第一聚合模块连接,所述SPPF模块同时连接所述第一上采样模块和所述第四聚合模块。
优选的,所述检测头包括三个相同的解耦头,所述自注意力机制模块、所述第三VoV-GSCSP模块、所述第四VoV-GSCSP模块分别连接至三个解耦头。
另一方面,本发明还公开一种基于YOLOv8改进的轻量化目标检测系统,包括:
数据集构建模块,用于使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集;
模型构建模块,用于引入BiFormer注意力机制、GSConv模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型;
模型训练模块,用于基于所述训练集训练所述基于改进YOLOv8的小目标检测模型,得到最优小目标检测模型;
检测模块,用于将所述测试集输入所述最优小目标检测模型,输出小目标检测结果。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于YOLOv8改进的轻量化目标检测方法及系统,在小目标检测模型中引入了基于Transformer架构的BiFormer注意力机制,相较于传统的Transformer有更好的性能,而且相较于现有的一些注意力机制,能够在小目标检测上有更加优越的性能;使用GSConv替换传统卷积模块,在保证模型性能不受负面影响的同时,保证模型参数量的有效下降,而且与BiFormer进行相辅相成,缓解由于Transformer架构带来的计算量提升问题;在模型参数量、检测精度上有极大的改善,相较于原模型实现了轻量化与高性能的平衡,保证了小目标检测准确性的同时也为其移植到终端设备中奠定了坚实的基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的提出的基于YOLOv8改进的轻量化目标检测方法的流程图;
图2为本发明改进后的YOLOv8网络结构图;
图3为BiFormer注意力机制工作流程图;
图4为GSConv模块结构图;
图5(a)为GSbottleneck结构图,图5(b)为VoV-GSCSP模块结构图;
图6为利用YOLOv8n和本发明改进后的YOLOv8进行小目标检测的实际检测差异对比图;
图7为本发明的提出的基于YOLOv8改进的轻量化目标检测系统的架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一方面,本发明实施例公开了一种基于YOLOv8改进的轻量化目标检测方法,如图1所示,包括如下步骤:
1.使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集。
本实施例中目标检测图像数据选择VOC2007+2012公开数据集,使用自制Python代码并将其转化为YOLO训练格式。将VOC07+12的train、value两类数据作为训练集,共16551张图片;VOC07的test数据作为测试集,共4952张图片,用于改进后的模型训练。
2.引入BiFormer注意力机制、GSConv模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型。
本实施例构建基于YOLOv8改进的小目标检测模型可分为三步:
第一步是在YOLOv8的小目标检测头前引入BiFormer注意力机制,构建一种基于Transformer架构的新小目标检测头,提高模型在小目标检测上的能力。
BiFormer注意力机制工作流程如图3所示,包括以下三个步骤:
S1、将输入自注意力机制模块的特征图划分为若干个不重叠区域并进行线性映射;
对于一个给定的二维输入特征图首先划分为S*S个不重叠的区域,使每个区域包含/>个特征向量;通过reshape操作,将上述X变形为Xr∈/>根据下列公式便可线性得到/>
Q=XrWq,K=XrWk,V=XrWv。
其中,Wq、Wk、Wv分别是query、key、value的投影权重。
S2、通过构造有向图实现区域间的路由,得到路由索引矩阵;
先对Q,K分别求对于区域的平均值Qr,然后对Q,K平均值做矩阵乘法得到区域与区域之间的亲和力邻接矩阵:
Ar=Qr(Kr)T
邻接矩阵Ar中的条目衡量两个区域在语义上的相关程度,接下来就是核心步骤,通过保留每个区域的前k个连接来修建亲和图。
具体说明就是对每行使用top-k运算导出一个路由索引矩阵:
Ir=topIndex(Ar)
因此,Ir的第i行包含第i个区域最相关的k个索引。
S3、利用路由索引矩阵计算token-to-token注意力。
对于区域i中的每个query token它将关注所有位于k个路由区域并集中的键值对,这些区域由Ir (i,1),Ir (i,2),……,Ir (i,k)索引。然而实现这一步并非易事,因为这些区域会分散在整个特征图上,而现代GPU依赖于内存合并一次加载数十个连续字节的块。因此先收集K和V:
Kg=gather(K,Ir),Vg=gather(V,Ir)
然后在收集的键值对上应用注意力:
O=Attention(Q,Kg,Vg)+LCE(V)
其中引入了一个局部上下文增强项LCE(V),函数LCE(·)用深度卷积参数化,并将内核大小设置为5。
在实际实验过程中,BiFormer注意力机制对于小目标的检测效果较好,与中目标和大目标两种检测头的相性较差,因此将实验方向确定为小目标检测的提升。
第二步为在YOLOv8的颈部网络中引入GSConv模块,替换颈部网络中原有的传统卷积模块。GSConv中的DSC(Depth-wise Separable Convolution,深度可分离卷积)深度可分离卷积模块在各个通道中进行卷积计算,最后将计算内容进行聚合,与传统卷积跨通道的计算过程相比能够有效降低参数量和计算量,并且通过GSConv的特征聚合与混洗操作,增加通道数后多通道信息得到有效保留,取到的语义信息获得增强因而GSConv的引入能在保证模型有效性的同时平衡由于BiFormer注意力机制中Transfomer架构带来的计算量提升问题。
与SC(Standard Convolution,传统卷积模块)相比,DSC的最大缺陷在于一定程度上忽视了通道之间的关系,产生了信息割裂。传统卷积对于输入的图像进行三通道的同时卷积,最后进行全内容的聚合;而深度可分离卷积则对输入通道的内容进行分层处理,针对每一个通道进行相互分离的卷积操作,最后依照其输入通道重新合并。的确,深度可分离卷积在一定程度上降低了多通道所带来的计算量问题,但会导致通道间的相关信息丢失。为了解决这样的问题,本实施例采用GSConv模块,主要结构如图4所示。使用混洗(shuffle)将SC生成的信息(密集卷积操作)渗透到DSC生成的信息的每个部分。输入通道数为C1,输出通道数为C2。首先经过一个标准卷积后通道数变为C2/2,通过DSC深度可分离卷积处理后,通道数不变,然后将第一次卷积后的结果与深度可分离卷积后的结构进行拼接和混洗。在最后的混洗操作中,通道信息被均匀打乱,但是多通道信息得到了有效保留,增强提取到的语义信息,加强特征信息的融合,提高图像特征的表达能力。
GSConv对应的时间复杂度为:
其中,W代表输出特征图的宽度,H代表输出特征图的高度;K1、K2分别代表卷积核大小;C1代表每一个卷积核的通道数,同时也等于输入特征图的通道数,C2代表了输出特征图的通道数。
第三步为使用基于GSConv构建的VoV-GSCSP模块,具体为:首先使用连续的两个GSConv处理和一个普通卷积块分别处理输入图像后,将两种处理后的内容进行聚合,构建一种基于GSConv的瓶颈模块(GSbottleneck),结构参考图5(a);其次,将该瓶颈模块基于一次性聚合的方式构建VoV-GSCSP模块,VoV-GSCSP模块结构如图5(b)所示,替换颈部网络中原有的C2f模块,进一步模型计算量和参数规模。
通过上述三步对YOLOv8模型进行优化,得到一个小目标检测模型,改进后的YOLOv8(即后文中的Bi-YOLO)网络结构参考图2,包括主干网络backbone、颈部网络Neck和检测头Head。
具体地,主干网络backbone(图2中未示出)在网络结构图中为前10层,主要用于特征提取,保留了原本YOLOv8的主干网络结构,包括依次连接的第一卷积模块、第二卷积模块、第一C2f模块、第三卷积模块、第二C2f模块、第四卷积模块、第三C2f模块、第五卷积模块、第四C2f模块、SPPF模块。
颈部网络Neck:图2中为模块编号10-22,为依次连接的第一上采样模块10、第一聚合模块11、第一VoV-GSCSP模块12、第二上采样模块13、第二聚合模块14、第二VoV-GSCSP模块15、自注意力机制模块16、第一GSconv模块17、第三聚合模块18、第三VoV-GSCSP模块19、第二GSconv模块20、第四聚合模块21、第四VoV-GSCSP模块22;第一VoV-GSCSP模块17和第三聚合模块18连接。其中,主干网络backbone中的第二C2f模块与第二聚合模块14连接,第三C2f模块与第一聚合模块11连接,SPPF模块同时连接第一上采样模块10和第四聚合模块21,编号为11、14、21的三个聚合模块的作用为提取主干网络中P3、P4、P5的三层特征,用于收集不同阶段主干网络获取到的特征信息。该算法对Neck中的卷积模块和瓶颈模块进行了相关改进,加强了特征获取的能力,以实现模型性能提升;同时降低了模型参数和计算量,实现轻量化。引入了基于Transformer架构的BiFormer注意力机制,放在小目标检测头前,提高模型在小目标上的检测能力。
检测头Head所述检测头包括三个相同的解耦头,用来预测目标的种类和位置,在算法中保留了原有的YOLOv8检测头,没有进行修改,自注意力机制模块16、第三VoV-GSCSP模块19、第四VoV-GSCSP模块22分别连接至三个解耦头。
3.基于训练集训练基于改进YOLOv8的小目标检测模型,得到最优小目标检测模型,本实施例训练参数配置表如表1所示:
表1训练参数配置表
4.将测试集输入最优小目标检测模型,输出小目标检测结果。
5.有效性验证:
本实施例为了验证本实验采用的轻量级优化方法与基于Transformer的BiFormer注意力机制的有效性,设置了消融实验和对比实验,以探究提出的改进方法与部分其他的改进方法对YOLOv8n模型的性能影响。
5.1性能指标
首先是性能指标,在YOLO系列模型中,评价其网络性能的指标主要有以下几种:精度(Precision,P)、召回率(Recall,R)、平均精度(meanAverage Precision,mAP),本次实验以mAP50和mAP50:95两项作为性能参考指标。mAP@0.5和mAP@0.5:0.95分别代表IoU阈值为0.5时的mAP值和IoU从50%开始,以步长为0.05增加到95%时的平均mAP值,平均精度均值mAP越大,则表示模型的整体精度就越高。各指标的计算公式如下:
其中,TP为预测正确的正样本数量,FN为预测错误的负样本数,FP为预测错误正样本数。
在讨论轻量化与性能相平衡的问题中,模型的参数量与计算量也是必须要考虑的一环,因此还需要引入FLOPs(FloatingPointOperations,浮点运算次数)和参数量(Params)两项模型架构细节参数。
5.2方法对比
本实施例采取消融实验与对比实验的方法分部验证改进算法的有效性,消融实验如表2所示,在进行消融实验的过程中,为了验证BiFormer作为新提出的基于Transformer架构的注意力机制的先进性,将其与其他的一些注意力机制进行了对比试验。
首先将YOLOv8n作为基线算法(Baseline)在VOC07+12数据集上进行了实验,经实验后发现,YOLOv8n在中目标和大目标上的检测效果较好,在小目标检测上性能还有一定的提升空间,所以后续在引入注意力机制的实验中都选择将注意力放在小目标检测头上进行性能测试。
由表2可知,将Neck层中的传统卷积模块用GSConv替换掉之后,不仅有效降低了Params和FLOPs,分别降低了9.32%和8.93%,在模型性能上mAP@0.5有超过1%的提升,mAP@0.5:0.95有1.89%的性能提升,虽然模型提升不多,但是证明了Slim-Neck设计范式在YOLOv8上的可行性。同时,实验引入了SE(Squeeze and Excitation)、CA(CoordinateAttention)、CBAM(Convolutional Block Attention Module)三种常用的注意力机制,将其放在小目标检测头上,在单独使用和与Slim-Neck组合使用这两种场景下进行实验。在单独使用注意力机制的场景中,除CA外,其余两种注意力机制均有一定的性能提升,分别提高了1.08%和1.49%,CA注意力机制的应用导致模型性能出现了0.81%的性能下降。由表2中数据不难得知,这三种注意力机制对于小目标检测的提升作用比较小,而且对于参数量的降低也无法做到一定贡献。在与Slim-Neck组合使用的场景中,由于CA注意力机制相比其他两种注意力机制较新,而CBAM的效果最好,因此选取了CA和CBAM与Slim-Neck进行组合与Bi-YOLO进行对比实验。可以看出,配合Slim-Neck三者的性能相较于Baseline都有性能提升。Bi-YOLO在mAP@0.5上提升了5.61%,mAP@0.5:0.95提升了6.43%,遥遥领先于Slim-Neck+CA的性能提升和Slim-Neck+CBAM的性能提升,同时,在Params和FLOPs上,Bi-YOLO分别有12.5%和8.99%的降低,在模型轻量化和性能提升上有优秀的表现。值得一提的是,在实验过程中发现,YOLOv8n+Slim-Neck+CA的组合在240个训练循环数(Epoch)时就达到了最优性能,可见在这个方面还有一定的优化空间,而Bi-YOLO仅仅需要200个Epoch就能够得到最优的性能,因此这证明了改进后的Neck和BiFormer注意力机制在小目标检测头上的应用对于模型轻量化和性能的平衡是有效的。
表2消融实验对比
在保持实验环境不变的前提下,将Bi-YOLO与目前比较常用的目标检测算法:YOLOv8s、SSD、FasterRCNN、YOLOv5s、YOLOv7-tiny进行了性能对比,同时也引入一些轻量化BackBone的修改YOLOv8算法,将其进行性能和参数规模的对比,对比结果如表3所示。SSD算法采用VGG主干网络和载入预训练权重,和SSD、FasterRCNN、YOLOv7-tiny这些经典目标检测算法相比,本发明提出的改进方法有着非常显著的优势。Bi-YOLO比SSD在mAP@0.5:0.95%上高出20%,比FasterRCNN在mAP@0.5%上高出5.3%,在mAP@0.5:0.95%上高出7.6%,比YOLOv7-tiny在mAP@0.5%上高出1%,在mAP@0.5:0.95%上高出11.9%,且参数量远远低于SSD和YOLOv7-tiny。YOLOv8-FastNet和YOLOv8-MobileNet分别为将YOLOv8n的主干网络替换为FastNet和MobileNet后的改进YOLOv8n网络,不难看出两者在Params和FLOPs上都有十分明显的下降,YOLOv8n-FastNet分别下降了46.8%和42.7%,YOLOv8n-MobileNet分别下降了21.9%和36%,虽然两者在轻量化的优势非常明显,但是在mAP@0.5%上分别带来了11.7%和10.9%的性能下降。相比于YOLOv8s和前代的YOLOv5s,由于Bi-YOLO主干网络的差距导致在性能上稍有一定的小差距,但在mAP@0.5:0.95%上比YOLOv5s高3.9%,因此不难看出,单独修改主干网络是不行的,还需要进一步的优化。综上所述,Bi-YOLO算法可以很好地平衡模型轻量化和算法性能,而且还能够优于一些常见的算法。
表3部分目标检测算法比较
5.3检测效果分析
前文中提到,YOLOv8n在小目标上的检测效果存在一定不足,在经过本发明方法改进后,Bi-YOLO对小目标的检测效果得到了有效提升,其性能对比如表4所示。在小目标检测上的总体mAP@0.5%提升了7%,且各小目标检测项目均有提升。
表4小目标检测效果对比
图6展示了YOLOv8n和Bi-YOLO的实际检测差异对比,(a)和(b)分别为利用YOLOv8n、Bi-YOLO对编号为004029的图像进行检测的结果,在编号004029这张图中共有一个沙发、一只小猫和一只小狗,三个物体所在的场景比较复杂且小猫和小狗在图中的面积较小,YOLOv8n没能检测到小猫和小狗,仅检测到相对面积较大的沙发,出现了漏检的情况,而Bi-YOLO能够成果检测出小猫和小狗。在编号为005798的图中,这是一个人体与摩托车混在一起的复杂场景,根据图6中的(c)和(d)不难看出YOLOv8n的person类别的置信度只有0.3,而Bi-YOLO对person类的置信度有0.7,复杂场景下的检测性能大大提升。而在编号003533这张图中,由于图中小狗的面积较小,参考(e),YOLOv8n直接将其误认为是一只羊,出现了错检的情况,而(f)中Bi-YOLO得益于BiFormer注意力机制,可以轻松判断出这是一只小狗并且获得较高的置信度。可见,相比于YOLOv8n,Bi-YOLO有着更好的小目标检测能力,拥有更高的总体精确度。
实验结果证明,相比于YOLOv8n,Bi-YOLO在小目标上有更好的精度表现,同时在总体上也有性能提升,在轻量化和算法性能平衡上具有优秀的表现。
另一方面,本发明实施例还提供一种基于YOLOv8改进的轻量化目标检测系统,如图7所示,该系统包括:
数据集构建模块,包括训练集构建单元和测试机构建单元,用于使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集,训练集储存于训练集构建单元,测试集存储于测试集构建单元;
模型构建模块,用于引入BiFormer注意力机制、GSConv模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型;
模型训练模块,用于基于训练集训练基于改进YOLOv8的小目标检测模型,得到最优小目标检测模型;
检测模块,用于将测试集输入最优小目标检测模型,输出小目标检测结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,包括以下步骤:
使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集;
引入BiFormer注意力机制、GSConv模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型;
基于所述训练集训练所述基于改进YOLOv8的小目标检测模型,得到最优小目标检测模型;
将所述测试集输入所述最优小目标检测模型,输出小目标检测结果。
2.根据权利要求1所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,所述基于改进YOLOv8的小目标检测模型包括主干网络、颈部网络和检测头;
所述颈部网络包括依次连接的第一上采样模块、第一聚合模块、第一VoV-GSCSP模块、第二上采样模块、第二聚合模块、第二VoV-GSCSP模块、自注意力机制模块、第一GSconv模块、第三聚合模块、第三VoV-GSCSP模块、第二GSconv模块、第四聚合模块、第四VoV-GSCSP模块;所述第一VoV-GSCSP模块和所述第三聚合模块连接。
3.根据权利要求2所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,所述自注意力机制模块采用BiFormer注意力机制,工作流程如下:
将输入所述自注意力机制模块的特征图划分为若干个不重叠区域并进行线性映射;
通过构造有向图实现区域间的路由,得到路由索引矩阵;
利用所述路由索引矩阵计算细粒度token-to-token注意力。
4.根据权利要求2所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,所述GSConv模块包括第一GSConv模块、第二GSConv模块,每个所述GSConv模块中包含深度可分离卷积模块,工作流程如下:
所述GSConv模块的输入经过一个标准卷积后改变通道数,通过所述深度可分离卷积模块处理后,通道数不变,然后将第一次卷积后的结果与深度可分离卷积后的结构进行拼接和混洗。
5.根据权利要求4所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,VoV-GSCSP模块包括所述第一VoV-GSCSP模块、所述第二VoV-GSCSP模块、所述第三VoV-GSCSP模块和所述第四VoV-GSCSP模块;所述VoV-GSCSP模块是以所述GSConv模块为基础,引入GSbottleneck,使用一次性聚合方法设计得到的。
6.根据权利要求5所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,首先使用连续的两个GSConv处理和一个普通卷积块分别处理输入图像后,将两种处理后的内容进行聚合,构建一种基于GSConv的瓶颈模块;其次,将所述瓶颈模块基于一次性聚合的方式构建VoV-GSCSP模块。
7.根据权利要求2所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,所述主干网络包括依次连接的第一卷积模块、第二卷积模块、第一C2f模块、第三卷积模块、第二C2f模块、第四卷积模块、第三C2f模块、第五卷积模块、第四C2f模块、SPPF模块;
其中所述第二C2f模块与所述第二聚合模块连接,所述第三C2f模块与所述第一聚合模块连接,所述SPPF模块同时连接所述第一上采样模块和所述第四聚合模块。
8.根据权利要求2所述的一种基于YOLOv8改进的轻量化目标检测方法,其特征在于,所述检测头包括三个相同的解耦头,所述自注意力机制模块、所述第三VoV-GSCSP模块、所述第四VoV-GSCSP模块分别连接至三个解耦头。
9.一种基于YOLOv8改进的轻量化目标检测系统,其特征在于,包括:
数据集构建模块,用于使用相应的数据库加载目标检测图像数据,并将其转换为YOLO训练格式,划分训练集和测试集;
模型构建模块,用于引入BiFormer注意力机制、GSConv模块优化YOLOv8目标检测算法,构建基于改进YOLOv8的小目标检测模型;
模型训练模块,用于基于所述训练集训练所述基于改进YOLOv8的小目标检测模型,得到最优小目标检测模型;
检测模块,用于将所述测试集输入所述最优小目标检测模型,输出小目标检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310886082.3A CN116740538A (zh) | 2023-07-19 | 2023-07-19 | 一种基于YOLOv8改进的轻量化目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310886082.3A CN116740538A (zh) | 2023-07-19 | 2023-07-19 | 一种基于YOLOv8改进的轻量化目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740538A true CN116740538A (zh) | 2023-09-12 |
Family
ID=87904635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310886082.3A Pending CN116740538A (zh) | 2023-07-19 | 2023-07-19 | 一种基于YOLOv8改进的轻量化目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740538A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315473A (zh) * | 2023-09-28 | 2023-12-29 | 安徽农业大学 | 一种基于改进YOLOv8的草莓成熟度检测方法及系统 |
CN117541586A (zh) * | 2024-01-10 | 2024-02-09 | 长春理工大学 | 一种基于可变形yolo的甲状腺结节检测方法 |
CN117557787A (zh) * | 2024-01-11 | 2024-02-13 | 安徽农业大学 | 一种基于改进yolov8的轻量化多环境番茄检测方法 |
CN117893894A (zh) * | 2024-03-15 | 2024-04-16 | 吉林大学 | 一种基于红外偏振图像的水下目标轻量化检测方法及装置 |
-
2023
- 2023-07-19 CN CN202310886082.3A patent/CN116740538A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315473A (zh) * | 2023-09-28 | 2023-12-29 | 安徽农业大学 | 一种基于改进YOLOv8的草莓成熟度检测方法及系统 |
CN117541586A (zh) * | 2024-01-10 | 2024-02-09 | 长春理工大学 | 一种基于可变形yolo的甲状腺结节检测方法 |
CN117557787A (zh) * | 2024-01-11 | 2024-02-13 | 安徽农业大学 | 一种基于改进yolov8的轻量化多环境番茄检测方法 |
CN117557787B (zh) * | 2024-01-11 | 2024-04-05 | 安徽农业大学 | 一种基于改进yolov8的轻量化多环境番茄检测方法 |
CN117893894A (zh) * | 2024-03-15 | 2024-04-16 | 吉林大学 | 一种基于红外偏振图像的水下目标轻量化检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116740538A (zh) | 一种基于YOLOv8改进的轻量化目标检测方法及系统 | |
CN110210539B (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
CN111860693A (zh) | 一种轻量级视觉目标检测方法及系统 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
He et al. | Automated model design and benchmarking of deep learning models for covid-19 detection with chest ct scans | |
Tang et al. | DFFNet: An IoT-perceptive dual feature fusion network for general real-time semantic segmentation | |
JP2022543954A (ja) | キーポイント検出方法、キーポイント検出装置、電子機器及び記憶媒体 | |
WO2021051987A1 (zh) | 神经网络模型训练的方法和装置 | |
Huang et al. | End-to-end continuous emotion recognition from video using 3D ConvLSTM networks | |
CN109492610A (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN117034100A (zh) | 基于分层池化架构自适应图分类方法、系统、设备和介质 | |
Huang et al. | Efficient attention network: Accelerate attention by searching where to plug | |
Lv et al. | An inverted residual based lightweight network for object detection in sweeping robots | |
CN110992320B (zh) | 一种基于双重交错的医学图像分割网络 | |
CN115861861B (zh) | 一种基于无人机配电线路巡检的轻量级验收方法 | |
Qin et al. | Multi-scale feedback feature refinement u-net for medical image segmentation | |
CN116386803A (zh) | 一种基于图的细胞病理报告生成方法 | |
CN113378934B (zh) | 一种基于语义感知图神经网络的小样本图像分类方法及系统 | |
Xiao et al. | Rcga-net: An improved multi-hybrid attention mechanism network in biomedical image segmentation | |
CN114494284A (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN112508958B (zh) | 一种轻量多尺度的生物医学图像分割方法 | |
Chen et al. | Hybrid Attention Fusion Embedded in Transformer for Remote Sensing Image Semantic Segmentation | |
CN114842914B (zh) | 一种基于深度学习的染色质环预测方法及系统 | |
WO2024040941A1 (zh) | 神经网络结构搜索方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |