CN117557922A - 改进YOLOv8的无人机航拍目标检测方法 - Google Patents
改进YOLOv8的无人机航拍目标检测方法 Download PDFInfo
- Publication number
- CN117557922A CN117557922A CN202311361640.0A CN202311361640A CN117557922A CN 117557922 A CN117557922 A CN 117557922A CN 202311361640 A CN202311361640 A CN 202311361640A CN 117557922 A CN117557922 A CN 117557922A
- Authority
- CN
- China
- Prior art keywords
- convolution
- network
- yolov8
- loss
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 2
- 238000012795 verification Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种改进YOLOv8的无人机航拍目标检测方法,涉及计算机视觉技术领域。所述方法包括如下步骤:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;构建无人机航拍目标检测用于改进的YOLOv8网络,在主干网络中通过引入部分空洞卷积构建多分支部分空洞卷积模块用以改进C2F中的Bottleneck块,增强特征提取网络感受野,提高模型检测性能,并减少参数量和计算量;最后综合检测精度和参数量指标来选取最佳模型,对测试集数据进行测试。所述方法能够提高无人机对小目标的检测性能,取得了较好的检测效果。
Description
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种基于改进的YOLOv8网络的改进YOLOv8的无人机航拍目标检测方法。
背景技术
随着无人机技术的发展使得无人机可以适应复杂和恶劣的环境,无人机目标检测已经广泛应用于交通安全、抢险救援和测绘航测等领域。
目前,基于深度学习的目标检测方法主要分为两种。第一种是两阶段式算法,其通过生成一系列的候选边界框再利用CNN提取特征,如FastR-CNN、R-CNN、R-FCN等。虽然双阶段算法能够提高检测精度,但由于生成大量候选区域所需时间开销大,实时性不足。而单阶段算法直接将目标边界定位问题转化为回归问题,仅需要一次便可以得到边界框的坐标和类概率值,因此单阶段算法在损失一部分检测精度的同时提升了检测速度。随着YOLO系列算法的不断改进,更适合无人机航拍目标检测。但由于无人机航拍图像中的目标呈现尺度各异、小物体多、密度大导致小目标像素信息少,特征纹理模糊,直接将YOLO系列的前沿版本应用于无人机航拍目标检测仍存在检测精度不高以及实时性不足的问题。
检测精度与参数量是衡量无人机航拍目标检测算法优劣的重要指标。刘婷婷等使用MobileNetV3替换YOLOv3的主干网络降低了模型参数量,但检测精度不足。Yang等通过在YOLOv5模型上优化锚框尺寸、增加注意力机制、添加小目标检测层的方法提高检测精度,但网络的参数量增加。苏凯第等通过在YOLOv5模型上增加卷积层数加深算法深度,采用多次循环神经网络提高训练速度,但也导致由于参数量增加无法适配无人机等边缘设备的问题。张徐等使用余弦注意力机制和后正则化方法改进Swin Transformer重构YOLOv7主干网络,虽然小目标检测精度有所提升,但模型推理速度慢、参数量大。
由上述分析知,当前改进YOLOv8的无人机航拍目标检测方法仍存在实时性不足,小目标检测精度低的问题。
发明内容
本发明所要解决的技术问题是如何提供一种能够提高对小目标的检测性能的改进YOLOv8的无人机航拍目标检测方法。
为解决上述技术问题,本发明所采取的技术方案是:一种改进YOLOv8的无人机航拍目标检测方法,包括如下步骤:
S1:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;
S2:构建无人机航拍目标检测用于改进的YOLOv8网络,所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC,来构建C2F中的Bottleneck块形成新的DPC2F块,并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合,数据集通过所述改进的YOLOv8网络的主干网络提取特征,得到三个尺度的特征图;
S3:将主干网络提取的网络特征进行处理,输出给颈部网络进行多尺度特征融合,并通过最小化总体损失函数,对目标检测网络进行训练,不断更新模型参数进行微调,得到训练模型;
S4:加载最佳轻量级多尺度模型参数,将待检测图像输入模型中得到检测结果,生成目标检测图像。
采用上述技术方案所产生的有益效果在于:本发明所述方法中改进的YOLOv8网络采用一种部分空洞卷积,由于同时兼顾部分卷积和空洞卷积的优势,能够降低网络参数量和加大模型感受野。在部分空洞卷积的基础上提出一种多分支部分空洞卷积模块,模块内部包含四个分支,每个分支分别对特征图进行特征提取,通过加入EMA注意力机制对四个分支的特征图按照通道数进行优化,增大小目标特征,抑制无关特征,提高模型对小目标的检测性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例所述方法的流程框图;
图2为本发明实施例所述方法中改进的YOLOv8网络结构示意图;
图3为本发明实施例中的部分空洞卷积的结构示意图;
图4为本发明实施例中多分支部分空洞卷积块的结构示意图;
图5为本发明实施例中EMA注意力机制模块的结构示意图;
图6为本发明实施例中DPC2F块的结构示意图;
图7为本发明实施例所述方法的检测效果图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1所示,本发明实施例公开了一种改进YOLOv8的无人机航拍目标检测方法,所述方法包括如下步骤:
S1:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;
具体的,本实施例中,使用公开数据集VisDrone2019,对数据集进行数据增强和划分;具体的,下载公开无人机航拍数据集VisDrone2019,共8629张无人机视角下的航拍图像,数据集共分为10个类别,分别为行人、人、自行车、汽车、面包车、卡车、三轮车、遮阳篷三轮车、公共汽车、摩托车。对数据集进行处理,以8:1:1的比率划分为训练集、验证集和测试集,其中训练集包括6471张图像,验证集包括548张图像、测试集包括1610张图像。通过Mosaic对数据集进行数据增强,并将增强后的图像分辨率调整为预设大小;
S2:构建无人机航拍目标检测用于改进的YOLOv8网络,所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC,来构建C2F中的Bottleneck块形成新的DPC2F块,并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合,数据集通过所述改进的YOLOv8网络的主干网络提取特征,得到三个尺度的特征图;
S3:将主干网络提取的三个尺度的特征进行处理,输出给颈部网络进行多尺度特征融合,得到三个尺度的融合特征图,头部网络则将三个尺度的融合特征图进行分类和回归预测,得到每个像素点对应每个类别和每个维度的概率,对所以像素点进行非极大值抑制去除重叠较大且置信度较低的预测框,保留下最终的预测框及其类别和置信度,并通过最小化总体损失函数,对目标检测网络进行训练,不断更新模型参数进行微调,得到训练模型;
S4:加载最佳轻量级多尺度模型参数,将待检测图像输入模型中得到检测结果,生成目标检测图像。
下面结合具体内容对上述步骤进行详细说明:
所述步骤S2中构建无人机航拍目标检测用于改进的YOLOv8网络的方法包括如下步骤:
S21:构建部分空洞卷积;
S22:构建部分空洞卷积块,所述部分空洞卷积块包括部分空洞卷积、批量归一化层和SiLU激活函数;
S23:构建多分支部分空洞卷积块DPC,所述多分支部分空洞卷积块包括部分空洞卷积、标准卷积和EMA注意力机制;
S24:构建主干网络特征提取模块DPC2F;
S25:构建改进YOLOv8的改进YOLOv8的无人机航拍目标检测方法,其具体结构如图2所示。
进一步的,所述步骤S21中使用部分空洞卷积提取图像特征,部分空洞卷积在提取图像特征时采用两阶段过程,第一阶段使用一个3×3空洞卷积提取特征,部分空洞卷积的具体结构如图3所示,这一阶段的计算过程如下:
其中,为卷积输入的特征图,f′∈RC×k×k×m×d为空洞卷积运算,Y′∈RH ‘×W’×m为得到的本征特征图;
第二阶段使用一个1×1卷积对第一阶段提取的特征进行线性变换,该阶段的计算过程如下:
其中,y′i表示Y′中的第i个本征特征图,Φi,j表示生成第i个部分卷积特征图yij的第j个线性运算;
最后将两阶段的结果进行拼接最后输出,其过程如下:
其中,Y∈RH‘×W‘×2m为部分空洞卷积最后生成的特征图;
部分空洞卷积与标准卷积的卷积核大小的对应关系如下:
k'=(k-1)×r+1
部分空洞卷积感受野的计算公式如下:
Rf=(k-1)×2(r-1)+k
其中:k表示输入的卷积核尺寸;r:表示膨胀系数;k’表示膨胀后等效的卷积核尺寸。
部分空洞卷积块由部分空洞卷积、批量归一化层、SiLU激活函数组成。SiLU激活函数公式如下:
进一步的,所述步骤S23中构建多分支部分空洞卷积块DPC(其具体结构如图4所示)具体包括如下步骤:
通过多分支来增大模块特征提取的感受野;DPC多分支部分空洞卷积模块由不同膨胀率的部分空洞卷积和1×1的卷积组成;第一个分支为普通的1×1卷积,第二个分支的部分空洞卷积的膨胀率为1,第三个分支的部分空洞卷积的膨胀率为3,第四个分支的部分空洞卷积的膨胀率为5。部分空洞卷积块提取不同尺度的特征,将不同尺度的特征拼接之后送入EMA注意力机制,通过一条跳连路径实现多尺度特征融合;上述过程可描述为:
上述公式中I表示输入特征图像;F1表示1×1的标准卷积,F2、F3、F4分别表示经过膨胀率为1、3和5的部分空洞卷积提取到的特征;(·)表示膨胀率为r的,卷积核大小为k的部分空洞卷积操作;σ(·)表示SiLU激活函数;Cat(·)表示按照通道维度对特征进行拼接操作;θ(·)表示EMA注意力机制;BN(·)表示归一化操作;f1×1(·)表示一个卷积核大小为1的卷积操作;F5表示EMA模块输出的特征,F6表示输出特征。
使用期望最大化注意力机制EMA(其具体结构如图5所示)对DPC模块并行拼接的特征按照通道进行调节,加强本模块特征的提取性能;期望最大化注意力机制EMA由ΑE、ΑM、ΑR三部分构成,其中ΑE、ΑM对应期望最大化(EM)算法的E步和M步;对输入的特征图X∈RN ×C,初始值为μ∈RN×C,ΑE为估计隐变量Z∈RN×K,即每个基对像素的权责;第k个基对第n个像素的权责计算方法为:
ΑM步负责更新μ,第k个基μ更新算法如下:
交替执行ΑE、ΑM步后μ和Z已近似收敛,重估计输入特征图后,获得估计后的特征图X′∈RN×C,计算方法如下:
X′=Zμ
进一步的,所述步骤S24中构建主干网络特征提取模块DPC2F(其具体结构如图6所示)具体包括如下步骤:
DPC2F块用1个或者多个多分支部分空洞卷积块DPC构建原始C2F中的Bottleneck块,降低主干网络的参数量和提高感受野。
DPC2F块中首先将特征图用一个1×1的标准卷积改变特征图通道数;然后按照通道数进行平分;其中通道数为一半的特征图经过1个或多个DPC块后与另一半划分未处理的特征图拼接;再经过一个1×1的标准卷积改变通道数输出给下一主干网络中的3×3卷积;
输入进DPC块中的特征图,首先通过一个标准卷积和三个并行的部分空洞卷积后按照通道数进行特征拼接,再通过一个EMA注意力模块后,与DPC原始输入特征图通过跳连路径进行相加操作后输出,之后将特征图送入后面的3×3卷积结构,经过主干网络特征提取得到三个尺度的特征图将其传递给颈部网络。
颈部网络是用于融合不同尺度特征的网络结构,由于使用了PANet结构,它可以将不同尺度的特征图进行自顶向下和自底向上相结合,首先将主干网络输出的三个尺度的特征图进行上采样和下采样,然后通过卷积层和跳层连接进行特征融合,最后输出三个尺度的特征图,分别为80x80、40x40和20x20。
头部网络是用于预测目标类别、位置和置信度的无锚框方法的网络结构,其通过将分类和回归分支分离来分别进行检测,分类分支使用一个卷积层和一个Sigmoid激活函数,输出每个像素点对应每个类别的概率,回归分支则使用一个卷积层和一个Softmax激活函数,输出每个像素点对应每个维度(左上角、右下角、中心点、宽高)的概率分布,得到检测结果。
上述具体公开了改进YOLOv8网络的具体结构。
进一步的,所述步骤S3中网络训练包括如下步骤:
S31:采用网络优化器为SGD优化器,设置BatchSize大小为8,学习率设置为0.01,训练轮数为300轮;
S32:本发明使用的总体损失函数为:
Loss=ALosscls+BLossRect+CLossobj
其中Losscls,LossRect,Lossobj分别表示分类损失、定位损失和置信度损失。A,B,C分别表示不同损失所占比重。
S33:分类损失采用BCE损失函数,具体公式如下:
其中,y表示预测值,t表示目标真实类别,n为样本数量,log表示自然对数。
S34:定位损失LossRect采用LossDFL+LossCIOU,具体公式如下:
LossRect=LossDFL+LossCIOU
其中,p表示预测值,y表示目标真实类别,n为样本数量,σ为预测框与真实框的中心点距离,c为二者最小包围矩形的对角线长度,λ为影响因子。
S35:置信度损失Lossobjt同样采用BCELoss,具体公式如下:
其中,y表示预测值,t表示预测框内目标是否为当前类别,n为样本数量,log表示自然对数。
S36:评价指标采用查准率(P)、查全率(R)、参数量、平均精度
均值(mAP),其中查准率公式为:
召回率公式为:
平均精度均值公式为:
其中TP表示真正例,FP表示假正例,FN表示假反例,n表示类别数量。
进一步的,所述步骤S4中:
使用训练好的改进YOLOv8网络对测试集进行目标检测,生成检测框,将生成的检测图像与原图像对比,得出每张检测图像的检测效果。
将实验结果与基准模型对比,本发明的网络参数量减少了13.52%,同时检测精度上涨6.5%。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种改进YOLOv8的无人机航拍目标检测方法,其特征在于包括如下步骤:
S1:对数据集进行数据增强和划分,并将增强后的图像分辨率调整为预设大小;
S2:构建无人机航拍目标检测用于改进的YOLOv8网络,所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC,来构建C2F中的Bottleneck块形成新的DPC2F块,并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合,数据集通过所述改进的YOLOv8网络的主干网络提取特征,得到三个尺度的特征图;
S3:将主干网络提取的网络特征进行处理,输出给颈部网络进行多尺度特征融合,并通过最小化总体损失函数,对目标检测网络进行训练,不断更新模型参数进行微调,得到训练模型;
S4:加载最佳轻量级多尺度模型参数,将待检测图像输入模型中得到检测结果,生成目标检测图像。
2.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于:所述步骤S1具体包括如下步骤:
S11:将数据集划分为训练集、验证集和测试集;
S12:对训练集数据集通过Mosaic进行样本增强;并将增强后的图像分辨率调整为640×640。
3.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S2中改进的YOLOv8网络通过如下方法进行构建:
S21:构建部分空洞卷积;
S22:构建部分空洞卷积块,所述部分空洞卷积块包括部分空洞卷积、批量归一化层和SiLU激活函数;
S23:构建多分支部分空洞卷积块DPC,所述多分支部分空洞卷积块DPC包括部分空洞卷积、标准卷积和EMA注意力机制;
S24:构建主干网络特征提取模块DPC2F;
S25:构建改进的YOLOv8网络。
4.如权利要求3所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S21中构建的部分空洞卷积处理图像的方法包括如下步骤:
使用部分空洞卷积提取图像特征,部分空洞卷积在提取图像特征时采用两阶段过程,第一阶段使用一个3×3空洞卷积提取特征,这一阶段的计算过程如下:
其中,为卷积输入的特征图,f′∈RC×k×k×m×d为空洞卷积运算,Y′∈RH ′×W′×m为得到的本征特征图;
第二阶段使用一个1×1卷积对第一阶段提取的特征进行线性变换,该阶段的计算过程如下:
其中,y′i表示Y′中的第i个本征特征图,Φi,j表示生成第i个部分卷积特征图yij的第j个线性运算;
最后将两阶段的结果进行拼接最后输出,其过程如下:
其中,Y∈RH′×W′×2m为部分空洞卷积最后生成的特征图;
部分空洞卷积与标准卷积的卷积核大小的对应关系如下:
k′=(k-1)×r+1
部分空洞卷积感受野的计算公式如下:
Rf=(k-1)×2(r-1)+k
其中:k表示输入的卷积核尺寸;r:表示膨胀系数;k’表示膨胀后等效的卷积核尺寸。
5.如权利要求3所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S23中构建多分支部分空洞卷积模块DPC的方法包括如下步骤:
所述DPC包括不同膨胀率的部分空洞卷积和1×1的卷积,第一个分支为普通的1×1卷积,第二个分支的部分空洞卷积的膨胀率为1,第三个分支的部分空洞卷积的膨胀率为3,第四个分支的部分空洞卷积的膨胀率为5;部分空洞卷积块提取不同尺度的特征,将不同尺度的特征拼接之后送入EMA注意力机制,通过一条跳连路径实现多尺度特征融合;上述过程可描述为:
上述公式中I表示输入特征图像;F1表示1×1的标准卷积,F2、F3、F4分别表示经过膨胀率为1、3和5的部分空洞卷积提取到的特征;(·)表示膨胀率为r的,卷积核大小为k的部分空洞卷积操作;σ(·)表示SiLU激活函数;Cat(·)表示按照通道维度对特征进行拼接操作;θ(·)表示EMA注意力机制;BN(·)表示归一化操作;f1×1(·)表示一个卷积核大小为1的卷积操作;F5表示EMA模块输出的特征,F6表示输出特征;
使用期望最大化注意力机制EMA对所述DPC并行拼接的特征按照通道进行调节,加强本模块特征的提取性能;期望最大化注意力机制EMA由AE、AM、AR三部分构成,其中AE、AM对应期望最大化(EM)算法的E步和M步;对输入的特征图X∈RN×C,初始值为μ∈RN×C,AE为估计隐变量Z∈RN×K,即每个基对像素的权责;第k个基对第n个像素的权责计算方法为:
AM步负责更新μ,第k个基μ更新算法如下:
交替执行AE、AM步后μ和Z已近似收敛,重估计输入特征图后,获得估计后的特征图X′∈RN×C,计算方法如下:
X′=Zμ。
6.如权利要求3所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S24中所述DPC2F的构建方法包括如下步骤:
使用1个或者多个多分支部分空洞卷积块DPC构建C2F块中的Bottleneck形成新的DPC2F块;
DPC2F块中首先将特征图用一个1×1的标准卷积改变特征图通道数;然后按照通道数进行平分;其中通道数为一半的特征图经过1个或多个DPC块后与另一半划分未处理的特征图拼接;再经过一个1×1的标准卷积改变通道数输出给下一主干网络中的3×3卷积;
输入进DPC块中的特征图,首先通过一个标准卷积和三个并行的部分空洞卷积后按照通道数进行特征拼接,再通过一个EMA注意力模块后,与DPC原始输入特征图通过跳连路径进行相加操作后输出,之后将特征图送入后面的3×3卷积结构,经过主干网络特征提取得到三个尺度的特征图将其传递给颈部网络;
颈部网络首先将主干网络输出的三个尺度的特征图进行上采样和下采样,然后通过卷积层和跳层连接进行特征融合,最后输出三个尺度的特征图,分别为80x80、40x40和20x20;
头部网络是用于预测目标类别、位置和置信度的无锚框方法的网络结构,其通过将分类和回归分支分离来分别进行检测,分类分支使用一个卷积层和一个Sigmoid激活函数,输出每个像素点对应每个类别的概率,回归分支则使用一个卷积层和一个Softmax激活函数,输出每个像素点对应每个维度的概率分布,得到检测结果。
7.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S3中网络训练包括如下步骤:
S31:采用网络优化器为SGD优化器,设置BatchSize大小为8,学习率设置为0.01,训练轮数为300轮;
S32:使用的总体损失函数为:
Loss=ALosscls+BLossRect+CLossobj
其中Losscls,LossRect,Lossobj分别表示分类损失、定位损失和置信度损失;A,B,C分别表示不同损失所占比重;
S33:分类损失采用BCE损失函数,具体公式如下:
其中,y表示预测值,t表示目标真实类别,n为样本数量,log表示自然对数;
S34:定位损失LossRect采用LossDFL+LossCIoU,具体公式如下:
LossRect=LossDFL+LossCIoU
其中,p表示预测值,y表示目标真实类别,n为样本数量,σ为预测框与真实框的中心点距离,c为二者最小包围矩形的对角线长度,λ为影响因子;
S35:置信度损失Lossobit同样采用BCELoss,具体公式如下:
其中,y表示预测值,t表示预测框内目标是否为当前类别,n为样本数量,log表示自然对数;
S36:评价指标采用查准率(P)、查全率(R)、参数量、平均精度均值(mAP),其中查准率公式为:
召回率公式为:
平均精度均值公式为:
其中TP表示真正例,FP表示假正例,FN表示假反例,n表示类别数量。
8.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法,其特征在于,所述步骤S4中:
使用训练好的改进YOLOv8网络对测试集进行目标检测,生成检测框,将生成的检测图像与原图像对比,得出每张检测图像的检测效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311361640.0A CN117557922B (zh) | 2023-10-19 | 2023-10-19 | 改进YOLOv8的无人机航拍目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311361640.0A CN117557922B (zh) | 2023-10-19 | 2023-10-19 | 改进YOLOv8的无人机航拍目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557922A true CN117557922A (zh) | 2024-02-13 |
CN117557922B CN117557922B (zh) | 2024-06-11 |
Family
ID=89821170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311361640.0A Active CN117557922B (zh) | 2023-10-19 | 2023-10-19 | 改进YOLOv8的无人机航拍目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557922B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765421A (zh) * | 2024-02-22 | 2024-03-26 | 交通运输部天津水运工程科学研究所 | 基于深度学习的海岸线垃圾识别方法及系统 |
CN118071751A (zh) * | 2024-04-22 | 2024-05-24 | 成都中科卓尔智能科技集团有限公司 | 一种基于YOLOv8的缺陷检测方法 |
CN118155106A (zh) * | 2024-05-13 | 2024-06-07 | 齐鲁空天信息研究院 | 面向山区救援的无人机行人检测方法、系统、设备及介质 |
CN118628933A (zh) * | 2024-08-15 | 2024-09-10 | 西南交通大学 | 一种舰船目标检测方法、系统、设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807464A (zh) * | 2021-09-29 | 2021-12-17 | 东南大学 | 基于改进yolo v5的无人机航拍图像目标检测方法 |
CN115205274A (zh) * | 2022-07-26 | 2022-10-18 | 西南石油大学 | 一种基于轻量化级联网络的布匹瑕疵检测方法 |
CN116468730A (zh) * | 2023-06-20 | 2023-07-21 | 齐鲁工业大学(山东省科学院) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 |
CN116597326A (zh) * | 2023-05-11 | 2023-08-15 | 西安电子科技大学 | 一种基于改进YOLOv7算法的无人机航拍小目标检测方法 |
CN116597411A (zh) * | 2023-04-20 | 2023-08-15 | 山东省计算中心(国家超级计算济南中心) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 |
WO2023154320A1 (en) * | 2022-02-08 | 2023-08-17 | Senem Velipasalar | Thermal anomaly identification on building envelopes as well as image classification and object detection |
CN116645563A (zh) * | 2023-06-12 | 2023-08-25 | 重庆邮电大学 | 一种基于深度学习的典型交通事件检测系统 |
CN116665080A (zh) * | 2023-07-26 | 2023-08-29 | 国网江西省电力有限公司电力科学研究院 | 基于目标识别的无人机劣化绝缘子检测方法及系统 |
CN116824413A (zh) * | 2023-07-25 | 2023-09-29 | 江苏科技大学 | 一种基于多尺度空洞卷积的航拍图像目标检测方法 |
CN116863539A (zh) * | 2023-07-20 | 2023-10-10 | 吴剑飞 | 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法 |
-
2023
- 2023-10-19 CN CN202311361640.0A patent/CN117557922B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807464A (zh) * | 2021-09-29 | 2021-12-17 | 东南大学 | 基于改进yolo v5的无人机航拍图像目标检测方法 |
WO2023154320A1 (en) * | 2022-02-08 | 2023-08-17 | Senem Velipasalar | Thermal anomaly identification on building envelopes as well as image classification and object detection |
CN115205274A (zh) * | 2022-07-26 | 2022-10-18 | 西南石油大学 | 一种基于轻量化级联网络的布匹瑕疵检测方法 |
CN116597411A (zh) * | 2023-04-20 | 2023-08-15 | 山东省计算中心(国家超级计算济南中心) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 |
CN116597326A (zh) * | 2023-05-11 | 2023-08-15 | 西安电子科技大学 | 一种基于改进YOLOv7算法的无人机航拍小目标检测方法 |
CN116645563A (zh) * | 2023-06-12 | 2023-08-25 | 重庆邮电大学 | 一种基于深度学习的典型交通事件检测系统 |
CN116468730A (zh) * | 2023-06-20 | 2023-07-21 | 齐鲁工业大学(山东省科学院) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 |
CN116863539A (zh) * | 2023-07-20 | 2023-10-10 | 吴剑飞 | 一种基于优化YOLOv8s网络结构的跌倒人物目标检测方法 |
CN116824413A (zh) * | 2023-07-25 | 2023-09-29 | 江苏科技大学 | 一种基于多尺度空洞卷积的航拍图像目标检测方法 |
CN116665080A (zh) * | 2023-07-26 | 2023-08-29 | 国网江西省电力有限公司电力科学研究院 | 基于目标识别的无人机劣化绝缘子检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
XIA LI 等: "Expectation-Maximization Attention Networks for Semantic Segmentation", 《ARXIV:1907.13426V2》, 16 August 2019 (2019-08-16), pages 1 - 10 * |
赵志宏等: "一种道路裂缝检测的变尺度VS-UNet 模型", 《湖南大学学报(自然科学版)》, 5 September 2023 (2023-09-05) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765421A (zh) * | 2024-02-22 | 2024-03-26 | 交通运输部天津水运工程科学研究所 | 基于深度学习的海岸线垃圾识别方法及系统 |
CN117765421B (zh) * | 2024-02-22 | 2024-04-26 | 交通运输部天津水运工程科学研究所 | 基于深度学习的海岸线垃圾识别方法及系统 |
CN118071751A (zh) * | 2024-04-22 | 2024-05-24 | 成都中科卓尔智能科技集团有限公司 | 一种基于YOLOv8的缺陷检测方法 |
CN118155106A (zh) * | 2024-05-13 | 2024-06-07 | 齐鲁空天信息研究院 | 面向山区救援的无人机行人检测方法、系统、设备及介质 |
CN118628933A (zh) * | 2024-08-15 | 2024-09-10 | 西南交通大学 | 一种舰船目标检测方法、系统、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117557922B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993082B (zh) | 卷积神经网络道路场景分类与道路分割方法 | |
CN117557922B (zh) | 改进YOLOv8的无人机航拍目标检测方法 | |
CN108108657B (zh) | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN113221911B (zh) | 一种基于双重注意力机制的车辆重识别方法及系统 | |
CN113486764B (zh) | 一种基于改进的YOLOv3的坑洼检测方法 | |
CN105138973A (zh) | 人脸认证的方法和装置 | |
CN117496384B (zh) | 一种无人机图像物体检测方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN111738300A (zh) | 一种交通标志及信号灯检测和识别的优化算法 | |
CN115393690A (zh) | 一种轻量化神经网络的空对地观测多目标识别方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN116824543A (zh) | 一种基于od-yolo的自动驾驶目标检测方法 | |
CN112084897A (zh) | 一种gs-ssd的交通大场景车辆目标快速检测方法 | |
CN116630932A (zh) | 一种基于改进yolov5的道路遮挡目标检测方法 | |
CN113869412B (zh) | 一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法 | |
CN113627240B (zh) | 一种基于改进ssd学习模型的无人机树木种类识别方法 | |
CN117765404A (zh) | 一种基于特征相关性神经网络的复杂场景变化检测方法 | |
CN117237900A (zh) | 一种基于ssc-yolov5的自动驾驶目标检测算法 | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 | |
CN115761667A (zh) | 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 | |
CN115035408A (zh) | 基于迁移学习和注意力机制的无人机影像树种分类方法 | |
CN112131996B (zh) | 基于通道分离卷积的路侧图像多尺度行人快速检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |