CN117037004A - 基于多尺度特征融合和上下文增强的无人机影像检测方法 - Google Patents
基于多尺度特征融合和上下文增强的无人机影像检测方法 Download PDFInfo
- Publication number
- CN117037004A CN117037004A CN202311089657.5A CN202311089657A CN117037004A CN 117037004 A CN117037004 A CN 117037004A CN 202311089657 A CN202311089657 A CN 202311089657A CN 117037004 A CN117037004 A CN 117037004A
- Authority
- CN
- China
- Prior art keywords
- module
- detection
- unmanned aerial
- aerial vehicle
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 109
- 230000004927 fusion Effects 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000012805 post-processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000001965 increasing effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度特征融合和上下文增强的无人机影像检测方法,针对影像中的小尺寸目标,在网络输出端新增一个极小目标检测头;在骨干网路中用可变形卷积替换部分卷积,提高特征提取能力;引入坐标注意力机制CA,充分利用通道信息和位置信息,有效提升网络模型的识别性能;在颈部网路中改进多尺度跳跃连接,使不同层次的特征融合的同时消除冗余的信息;构建上下文增强模块CAM;接下来在后处理操作中使用Soft NMS。本发明有效地提高了YOLOv5特征提取能力以及多尺度特征融合能力,并且缓解了深层特征图目标周围上下文信息利用不充分的问题,针对无人机影像检测中小目标漏检以及检测精度低的问题,本发明能有效提高检测效率和精度。
Description
技术领域
本发明涉及计算机视觉目标检测技术领域,特别是涉及一种基于多尺度特征融合和上下文增强的无人机影像检测方法。
背景技术
随着无人机技术的快速发展,无人机由于其低成本及便捷性,已经广泛地应用在视频监控、防火防灾、农业信息、故障检测、交通监控、航空摄影等多个领域。由于无人机影像数据十分庞大,传统的人工处理会导致遗漏和出错。无人机采集的海量影像数据可以利用大数据技术和深度学习进行处理,将传统的检测方法从低效的人工模式转变为高效的智能模式。因此,利用计算机视觉在无人机影像种进行检测具有重要的研究价值和意义。
近年来,计算机视觉通过深度学习等技术,在目标检测、图像分类、图像分割等领域取得了重大的突破。目标检测是计算机视觉领域的核心问题之一,其任务就是找出图像中所有感兴趣的目标,确定他们的类别和位置。常见的基于CNN的目标检测算法可分为两类。第一类是基于区域建议生成的二阶段算法,如R-CNN、Faster R-CNN等。这些方法在第一阶段生成区域建议,在第二阶段针对感兴趣区域中的内容进行分类和回归,丢失了局部目标在整幅图像中的空间信息,且检测速度无法达到实时。第二类是一阶段算法,如YOLO、SSD、RetinaNet等,这类算法不直接生成感兴趣区域,而是将目标检测任务看作是对整幅图像的回归任务。因此,一阶段算法的检测速度大多可以满足实时性的要求,但是也存在物体检测精度较低的问题。
然而,对于无人机航拍场景中的多目标且目标尺寸小的情况,模型的检测精度明显降低。当物体在输入图像中占据的像素面积或视野较小时,称其为小目标,在COCO数据集中小目标定义为像素小于32*32的目标。在此情况下,因为经过主干的多层处理,小目标的特征失去了重要性。并且由于视觉外观差,不充分的上下文信息,噪音数据,难以分辨的特征,复杂的背景,有限的分辨率,严重的遮挡等情况也给小目标检测带来了困难。因此对于无人机影像来说,精确检测小目标是必不可少的,也是具有挑战性的。
发明内容
发明目的:本发明的目的是在提供一种基于多尺度特征融合和上下文增强的无人机影像检测方法,并且缓解了深层特征图目标周围上下文信息利用不充分的问题,针对无人机影像检测中出现的漏检以及检测精度低的情况,本发明能有效提高检测效率和精度。
技术方案:本发明提供了一种基于多尺度特征融合和上下文增强的无人机影像检测方法,包括有以下步骤:
S1:数据获取并对数据集进行预处理;
S2:构建基于多尺度特征融合和上下文增强的MC-YOLOv5模型;
S3:在后处理中使用Soft NMS;
S4:设置训练参数,对模型训练,进行评价,获得训练好的模型,将无人机影像输入至训练好的模型,输出检测结果。
更进一步,所述S1主要分为以下步骤:
S11:将公开数据集VisDrone2019分为训练集和验证集,使用Mosaic数据增强,将其对输入图像进行随机缩放,随机裁剪,随机排布等方式进行拼接,增加数据多样性;
S12:重新进行聚类来进行自适应检测框计算,生成适合本实验所用数据集的12种尺度的检测框;
S13:将输入图像缩放到640*640像素的标准尺寸,再送入检测网络中。
更进一步,所述S2主要分为以下步骤:
S21:特征提取阶段,在骨干网路中用可变形卷积替换第1层和第5层的普通卷积,增强特征提取;在网络第10层即SPPF模块之前添加坐标注意力机制CA,充分利用通道信息和位置信息,有效提升网络模型的识别性能;
S22:在YOLOv5算法输出端新增一个极小目标检测头P2,提高检测效果;
S23:特征融合阶段,颈部网络中使用Concat在四个检测头的基础上改进多尺度跳跃连接,增加多度特征融合的同时减少冗余信息;在网络第30层引入上下文增强模块CAM,利用目标周围的上下文信息来增强目标的特征表示,从而提高检测器对目标的识别能力。
更进一步,S21所述骨干网络主要负责特征的提取,其中包括CBS模块,C3模块,可变形卷积模块,CA模块以及SPPF模块。
所述CBS是由一个二维卷积层+一个批量归一化Bn层+一个SiLU激活函数构成模块,作用是获取图像特征,一个CBS模块在YOLOv5模型中视为一个标准卷积模块;
所述C3模块用于特征更近一步提取,是对残差特征进行学习的主要模块,其含有残差Shortcut结构来解决深度网络的梯度发散问题,骨干网络中默认使用残差结构,颈部网络默认不使用;
所述可变形卷积模块DConv可以自适应特征提取,相较于标准卷积模块,其采样位置增加了一个偏移量offset,因此其卷积核可以在训练过程中扩展到很大的范围,卷积效果更好,在采样时可以更贴近物体的形状和尺寸,具有较高鲁棒性,有助于提高目标检测精度;
所述坐标注意力机制CA通过嵌入位置信息到通道注意力,避免在二维全局池化中位置信息的损失,还可以能够捕获长距离的依赖关系;
所述SPPF模块是改进式的空间金字塔池化模块,相较于常规池化模块该模块能够实现自适应尺寸的池化,且计算量较小,通过获得不同层次(池化次数)的特征再融合局部特征和整体特征,有助于保证模型具备较高的检测效率和检测精度;
更进一步,S22所述P2是基于原始YOLOv5三个检测头的基础上添加的对应检测极小目标的检测头,其对应于输出的160*160*255特征图,其余三个检测头分别为对应于输出80*80*255特征图的小目标检测P3,对应于输出40*40*255特征图的中目标检测P4,对应于输出20*20*255特征图的大目标检测P5;
更进一步,S23所述颈部网络主要用于特征的融合,其中包括CBS模块,C3模块上采样Upsample模块,Concat模块以及上下文增强模块CAM;
更进一步,所述上采样Upsample模块的作用是保持特征图通道数不变的情况下,对特征图进行尺寸放大,以便不同尺度但通道数相同的特征图可以进行融合;
所述Concat模块的作用是保证特征图尺寸不变的情况下,增加特征图的通道数,以便融合深层特征图的语义信息与浅层特征图的细节信息;
所述上下文增强模块CAM通过不同扩张系数的扩张卷积来获取不同的感受野,利用这些感受野中目标周围的上下文信息来增强目标的特征表示,从而提高检测器对目标的识别能力;
更进一步,S23所述多尺度跳跃连接具体为将第2层经过C3模块输出浅层特征图和第20层经过两倍上采样的深层特征图进行融合;将第4层经过C3模块输出的深层特征图和第18层经过C3模块输出的浅层特征图以及第23层经过CBS模块降维的浅层特征图进行融合;将第4层经过C3模块输出的深层特征图和第14层经过C3模块输出的深层特征图以及第26层经过CBS模块降维的浅层特征图进行融合。
更进一步,所述S3具体为:在后处理中使用Soft NMS替换原始YOLOv5所用的非极大值抑制NMS,减少高度重叠检测框的影响,提高目标检测的精度。
更进一步,所述S4中的训练参数具体为:输入图像大小imgsz=640,初始学习率lr=0.01,学习率动量momentum=0.937,权重衰减系数weight_decay=0.0005,训练迭代次数epoch=300,批量训练数据集样本数量batchsize=16,训练优化器选择SGD,并且使用官方预训练权重来迁移学习和微调。
更进一步,所述S4中的评价指标主要是:平均精度均值mAP、精确率P(Precision)、召回率R(Recall),其中mAP表示所有类别检测的平均精度(AP)进行综合加权平均,P表示正确预测的正样本数占实际拥有的正样本数的比例,R表示正确预测的正样本数占总预测样本数的比例,具体公式如下:
其中APi表示第i个类别的平均精度,K表示K个类别,TP表示真正例,即被模型预测为正类的正样本,FP表示假正例,即被模型预测为正类的负样本,FN表示假反例,即被模型预测为假类的正样本。
与现有技术相比,本发明能够带来以下至少一种有益效果:
(1)针对原始模型对于小目标检测精度低的情况,本发明在YOLOv5网络输出端新增一个极小目标检测头,并且针对深层特征高语义低细节和浅层特征高细节低语义的特点,在四个检测头的基础上进行多尺度跳跃连接,使不同层次的特征融合,并减去冗余的信息
(2)针对无人机影像中目标数量多且尺寸小的情况,在YOLOv5骨干网路中用可变形卷积替换部分卷积,提高特征提取能力;引入坐标注意力机制CA,充分利用通道信息和位置信息,有效提升网络模型的识别性能。
(3)针对深层特征图目标周围上下文信息利用不充分的情况,本发明在YOLOv5特征融合阶段引入上下文增强模块CAM,利用目标周围的上下文信息来增强目标的特征表示,从而提高检测器对目标的识别能力。
(4)针对无人机影像中数量多且密集的小目标在检测时出现检测框重叠的情况,本发明在后处理操作中使用Soft NMS,减少高度重叠检测框的影响。
附图说明
图1为本发明流程图;
图2为MC-YOLOv5模型结构示意图;
图3为可变形卷积示意图;
图4为坐标注意力机制CA示意图;
图5为上下文增强模块CAM示意图;
图6为MC-YOLOv5算法夜间检测结果;
图7为MC-YOLOv5算法白天检测结果。
具体实施方式
为了更好的理解本发明,下面结合本发明实例中的附图,对本发明的一种基于多尺度特征融合和上下文增强的航拍影像检测方法更为详细的描述。
由图1可知,本发明的具体步骤为:
步骤1:数据获取并对数据集进行预处理。
在本发明中,数据集选择公开数据集VisDrone-DET2019,其包含6471张训练集图像和549张验证集图像,包含行人、自行车、小轿车等10个类别;将VisDrone-DET2019数据集进行训练集与验证集的划分,使用Mosaic数据增强,将其对输入图像进行随机缩放,随机裁剪,随机排布等方式进行拼接,增加数据多样性;
原始YOLOv5自带的9种尺度的检测框是在COCO数据集的基础上生成的,并不完全适用于其他的数据集,此外由于本实例中在三个检测头的基础上额外引进了极小目标检测头,因此原始尺度的检测框更加无法适用于VisDrone-DET2019,需要利用K-means算法和遗传算法重新进行聚类来进行自适应检测框计算,生成适合本实验所用数据集的12种尺度的检测框;
YOLOv5采用自适应缩放确保图片宽高值最大为640,同时通过padding填充像素值的方式确保宽高能被32整除,最大程度地利用感受野,缩放完后再送入检测网络中。
步骤2:构建基于多尺度特征融合和上下文增强的改进YOLOv5模型,如图2所示。
YOLOv5网络模型主要分为输入端Input,骨干网络Backbone,颈部网络Neck,输出端Prediction。
(1)改进特征提取,在骨干网路中用可变形卷积替换第1层和第5层的普通卷积,增强特征提取;在网络第10层即SPPF模块之前引入坐标注意力机制CA,充分利用通道信息和位置信息,有效提升网络模型的识别性能;
MC-YOLOv5骨干网络主要负责特征的提取,其中包括CBS模块,C3模块,可变形卷积模块,CA模块以及SPPF模块。
CBS是由一个二维卷积层+一个批量归一化Bn层+一个SiLU激活函数构成模块,作用是获取图像特征,一个CBS模块在YOLOv5模型中视为一个标准卷积模块;
C3模块用于特征更近一步提取,是对残差特征进行学习的主要模块,其含有残差Shortcut结构来解决深度网络的梯度发散问题,骨干网络中默认使用残差结构,颈部网络默认不使用;
可变形卷积模块DConv可以自适应特征提取,相较于标准卷积模块,其采样位置增加了一个偏移量offset,如图3所示,因此其卷积核可以在训练过程中扩展到很大的范围,卷积效果更好,在采样时可以更贴近物体的形状和尺寸,具有较高鲁棒性,有助于提高目标检测精度。
坐标注意力机制CA通过嵌入位置信息到通道注意力,避免在二维全局池化中损失位置信息,还可以能够捕获长距离的依赖关系,示意图如图4所示。其算法流程如下:
首先将C*H*W大小的输入特征图逐通道进行平均池化,分别按X和Y轴方向进行池化对每个通道进行编码,产生C*H*1和C*1*W大小的特征图。通过这种方式所产生的一对方法感知特征图可以使坐标注意力机制CA能够在一个通道内捕获长距离的依赖关系,并且还有助于保留精确的位置信息,使网络能够更加准确的定位对象(见公式(1)和(2))。
其中,W和H表示特征图的宽和高,(h,i)和(w,i)表示分别按X轴和Y轴方向进行池化。
其次,将zh和zw进行Concat后进行降维和激活操作,生成特征图f∈RC/r×(W+H)×1(见公式(3))。
f=σ(F1([zh,zw])) (3)
其中,F1表示利用1*1卷积进行降维,σ表示进行Sigmoid操作。
接着,沿着空间维度即特征图的长和宽两个维度将特征图f进行split操作,分成f∈RC/r×H×1和f∈RC/r×1×W,然后分别利用1*1卷积进行升维度操作,再结合Sigmoid激活函数得到最后的注意力向量gh∈RC×H×1和gw∈RC×1×W(见公式(4)和(5))。
gh=σ(Fh(fh)) (4)
gw=σ(Fw(fw)) (5)
最后将gh和gw与原输入进行相乘得到与输入相同形状的输出(见公式(6))。
其中,xc(i,j)表示原输入。
SPPF模块是改进式的空间金字塔池化模块,相较于常规池化模块该模块能够实现自适应尺寸的池化,且计算量较小,通过获得不同层次的特征图再融合局部特征和整体特征,有助于保证模型具备较高的检测效率和检测精度;
(2)在YOLOv5算法输出端新增一个极小目标检测头P2,提高检测效果;P2对应于输出的160*160*255特征图,其余三个检测头分别为对应于输出80*80*255特征图的小目标检测P3,对应于输出40*40*255特征图的中目标检测P4以及对应于输出20*20*255特征图的大目标检测P5;
(3)改进特征融合,颈部网络中使用Concat在四个检测头的基础上改进多尺度跳跃连接,增加多度特征融合的同时减少冗余信息;在网络第30层引入上下文增强模块CAM,利用目标周围的上下文信息来增强目标的特征表示,从而提高检测器对目标的识别能力。
MC-YOLOv5颈部网络主要用于特征的融合,其中包括CBS模块,C3模块上采样Upsample模块,Concat模块以及上下文增强模块CAM。
上采样Upsample模块的作用是保持特征图通道数不变的情况下,对特征图进行尺寸放大,以便不同尺度但通道数相同的特征图可以进行融合;
Concat模块的作用是保证特征图尺寸不变的情况下,增加特征图的通道数,以便融合深层特征图的语义信息与浅层特征图的细节信息;
上下文增强模块CAM通过三种不同扩张系数的扩张卷积来获取不同的感受野,利用这些感受野中目标周围的上下文信息来增强目标的特征表示,从而提高检测器对目标的识别能力。
如图5所示,本发明中CAM模块首先将输入的特征图分别经过三种扩张系数为1,3,5的扩张卷积,其中加入扩张后的卷积核尺寸与原始卷积核尺寸之间的关系见公式(7):
K=k+(k-1)(k_a) (7)
其中,k为原始卷积核大小,a为扩张系数,K为经过扩张后实际卷积核大小。
故经过扩张后的三种卷积核变为1,7,11。
卷积核扩张伴随着感受野的增大,亦伴随着上下文信息的增加。上下文信息是指图像中像素以及周边像素的某种联系,由于素点不是孤立存在的,故每个像素都和周围像素有一定的关系。
经过三种扩张卷积后的特征图通过1*1卷积来达到一致的维度,最终进行特征图融合,由于CAM将不通感受野的上下文信息融合,因此可以提取到目标周围容易被忽视的信息,以此来有效增强目标的特征表示,提高检测效果。
改进的多尺度跳跃连接具体为将第2层经过C3模块输出浅层特征图和第20层经过两倍上采样的深层特征图进行融合;将第4层经过C3模块输出的深层特征图和第18层经过C3模块输出的浅层特征图以及第23层经过CBS模块降维的浅层特征图进行融合;将第4层经过C3模块输出的深层特征图和第14层经过C3模块输出的深层特征图以及第26层经过CBS模块降维的浅层特征图进行融合。
步骤3:在后处理中使用Soft NMS替换原始YOLOv5所用的非极大值抑制NMS,减少高度重叠检测框的影响,提高目标检测的精度。
其具体步骤为:假设集合B={b1,b2...bN}是检测到的所有初始检测框,假设集合S={s1,s2...sN}是各个检测框得分(分数表示检测框包含物体的可能性大小),假设M为当前得分最高框,假设D是保存经过Soft NMS抑制的检测框。开始当B集合不为空时,就将S中最高得分对应的检测框bm记为M,将M保存在集合D中,并去掉集合B中的最高得分检测框,剩余检测框记作bi(1≤i≤N,且i≠m),然后进行循环操作:设置NMS阈值Nt,对bi和M的IOU大小进行判断,IOU小于Nt则si保持不变,大于Nt则进行St(1-iou(M,bi))的操作来降低bi的分数si。最终当集合B空时,结束,返回集合D、集合S,即返回经过Soft NMS抑制的检测框及该检测框的得分。
其中,IOU的计算见公式(8)。
大于阈值的检测框经过抑制得以保留,避免NMS直接删除IOU大于阈值的检测框而造成真实框误删情况。
步骤4:设置训练参数,对模型训练,得到结果并进行评估,对比和检测。
设置输入图像大小imgsz=640,初始学习率lr=0.01,学习率动量momentum=0.937,权重衰减系数weight_decay=0.0005,训练迭代次数epoch=300,批量训练数据集样本数量batchsize=16,训练优化器选择SGD。
本发明在模型训练时使用官方预训练权重YOLOv5s.pt来进行迁移学习和微调,因为使用预训练权重可以缩短训练周期,加快网络收敛速度,提升训练效果。
评价指标主要是:平均精度均值mAP、精确率P(Precision)、召回率R(Recall),其中mAP表示所有类别检测的平均精度(AP)进行综合加权平均,P表示正确预测的正样本数占实际拥有的正样本数的比例,R表示正确预测的正样本数占总预测样本数的比例,具体公式如公式(11)~公式(13):
其中APi表示第i个类别的平均精度,K表示K个类别,TP表示真正例,即被模型预测为正类的正样本,FP表示假正例,即被模型预测为正类的负样本,FN表示假反例,即被模型预测为假类的正样本。
模型训练评估结果和消融实验结果如表1所示,其中括号里表示与原始模型的比较。
表1
其中,YOLOv5s表示原始模型;+P2表示添加极小目标检测头;+DConv表示添加了可变形卷积;+ImConcat表示改进了多尺度融合;+CA表示添加了坐标注意力机制CA;+CAM表示添加了上下文融合模块CAM;+Soft表示添加了Soft NMS。
从表中可以看出,本发明提出的MC-YOLOv5模型相比于原始YOLOv5检测精度提升很大,准确率和召回率也更高,因此本发明具有较高的鲁棒性。
推理检测阶段,detect.py中的权重参数选择本发明MC-YOLOv5模型训练得到的best.pt权重文件,进而对图像进行检测,部分结果如图6所示。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此。在阅读了本发明的内容之后,本领域的技术人员可以对本发明作各种改动或修改,这些等效变换和修饰同样落入本发明权利要求所限定的范围。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,包括有以下步骤:
S1:数据获取并对数据集进行预处理;
S2:构建基于多尺度特征融合和上下文增强的MC-YOLOv5模型;
S3:在后处理中使用Soft NMS;
S4:设置训练参数,对模型训练,进行评价,获得训练好的模型,将无人机影像输入至训练好的模型,输出检测结果。
2.根据权利要求1所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,所述S1的具体过程为:
S11:将公开数据集VisDrone2019分为训练集和验证集,使用Mosaic数据增强,将其对输入图像进行随机缩放,随机裁剪,随机排布方式进行拼接;
S12:重新进行聚类来进行自适应检测框计算,生成12种尺度的检测框;
S13:将输入图像缩放到640*640像素的标准尺寸,再送入MC-YOLOv5模型中。
3.根据权利要求2所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,所述S2的具体步骤为:
S21:特征提取阶段,在骨干网路中用可变形卷积替换第1层和第5层的普通卷积,增强特征提取;在网络第10层即SPPF模块之前引入坐标注意力机制CA;
S22:在YOLOv5算法输出端新增一个极小目标检测头P2;
S23:特征融合阶段,颈部网络中使用Concat在四个检测头的基础上改进多尺度跳跃连接;构建上下文增强模块CAM。
4.据权利要求3所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,步骤S21所述骨干网络负责特征的提取,包括CBS模块,C3模块,可变形卷积模块,CA模块以及SPPF模块,
所述CBS是由一个二维卷积层、一个批量归一化Bn层以及一个SiLU激活函数构成模块,用于获取图像特征,一个CBS模块在YOLOv5模型中视为一个标准卷积模块;
所述C3模块用于特征更近一步提取,是对残差特征进行学习的模块,其含有残差Shortcut结构来解决深度网络的梯度发散问题,骨干网络中默认使用残差结构,颈部网络默认不使用;
所述可变形卷积模块DConv可以自适应特征提取,相较于标准卷积模块,其采样位置增加了一个偏移量offset;
所述坐标注意力机制CA通过嵌入位置信息到通道注意力;
所述SPPF模块是改进式的空间金字塔池化模块。
5.据权利要求3所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,步骤S22所述P2是基于原始YOLOv5三个检测头的基础上添加的检测极小目标的检测头,其对应于输出的160*160*255特征图,其余三个检测头分别为对应于输出80*80*255特征图的小目标检测P3,对应于输出40*40*255特征图的中目标检测P4,对应于输出20*20*255特征图的大目标检测P5。
6.据权利要求3所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,步骤S23所述颈部网络用于特征的融合,包括CBS模块、C3模块上采样Upsample模块、Concat模块以及上下文增强模块CAM;
所述上采样Upsample模块的作用是保持特征图通道数不变的情况下,对特征图进行尺寸放大,以便不同尺度但通道数相同的特征图可以进行融合;
所述Concat模块的作用是保证特征图尺寸不变的情况下,增加特征图的通道数,以便融合深层特征图的语义信息与浅层特征图的细节信息;
所述上下文增强模块CAM通过不同扩张系数的扩张卷积来获取不同的感受野,利用这些感受野中目标周围的上下文信息来增强目标的特征表示,从而提高检测器对目标的识别能力。
7.据权利要求1所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,步骤S23所述多尺度跳跃连接具体为将第2层经过C3模块输出浅层特征图和第20层经过两倍上采样的深层特征图进行融合;将第4层经过C3模块输出的深层特征图和第18层经过C3模块输出的浅层特征图以及第23层经过CBS模块降维的浅层特征图进行融合;将第4层经过C3模块输出的深层特征图和第14层经过C3模块输出的深层特征图以及第26层经过CBS模块降维的浅层特征图进行融合。
8.根据权利要求1所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,所述S3具体为:在后处理中使用Soft NMS替换原始YOLOv5所用的非极大值抑制NMS。
9.根据权利要求1所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,所述S4中的训练参数具体为:输入图像大小imgsz=640,初始学习率lr=0.01,学习率动量momentum=0.937,权重衰减系数weight_decay=0.0005,训练迭代次数epoch=300,批量训练数据集样本数量batchsize=16,训练优化器选择SGD,并且使用官方预训练权重来迁移学习和微调。
10.根据权利要求1所述的基于多尺度特征融合和上下文增强的无人机影像检测方法,其特征在于,所述S4中的评价指标主要是:平均精度均值mAP、精确率P(Precisio n)、召回率R(Recall),其中mAP表示所有类别检测的平均精度(AP)进行综合加权平均,P表示正确预测的正样本数占实际拥有的正样本数的比例,R表示正确预测的正样本数占总预测样本数的比例,具体公式如下:
其中APi表示第i个类别的平均精度,K表示K个类别,TP表示真正例,即被模型预测为正类的正样本,FP表示假正例,即被模型预测为正类的负样本,FN表示假反例,即被模型预测为假类的正样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311089657.5A CN117037004A (zh) | 2023-08-28 | 2023-08-28 | 基于多尺度特征融合和上下文增强的无人机影像检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311089657.5A CN117037004A (zh) | 2023-08-28 | 2023-08-28 | 基于多尺度特征融合和上下文增强的无人机影像检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037004A true CN117037004A (zh) | 2023-11-10 |
Family
ID=88639057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311089657.5A Pending CN117037004A (zh) | 2023-08-28 | 2023-08-28 | 基于多尺度特征融合和上下文增强的无人机影像检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037004A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409100A (zh) * | 2023-12-15 | 2024-01-16 | 山东师范大学 | 基于卷积神经网络的cbct图像伪影矫正系统及方法 |
CN117593516A (zh) * | 2024-01-18 | 2024-02-23 | 苏州元脑智能科技有限公司 | 一种目标检测方法、装置、设备及存储介质 |
-
2023
- 2023-08-28 CN CN202311089657.5A patent/CN117037004A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409100A (zh) * | 2023-12-15 | 2024-01-16 | 山东师范大学 | 基于卷积神经网络的cbct图像伪影矫正系统及方法 |
CN117593516A (zh) * | 2024-01-18 | 2024-02-23 | 苏州元脑智能科技有限公司 | 一种目标检测方法、装置、设备及存储介质 |
CN117593516B (zh) * | 2024-01-18 | 2024-03-22 | 苏州元脑智能科技有限公司 | 一种目标检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN108985186B (zh) | 一种基于改进YOLOv2的无人驾驶中行人检测方法 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN112733749A (zh) | 融合注意力机制的实时行人检测方法 | |
CN111126202A (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN117037004A (zh) | 基于多尺度特征融合和上下文增强的无人机影像检测方法 | |
CN112149591B (zh) | 用于sar图像的ssd-aeff自动桥梁检测方法及系统 | |
CN110348437B (zh) | 一种基于弱监督学习与遮挡感知的目标检测方法 | |
CN110222604B (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN112150450B (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
CN111368754B (zh) | 一种基于全局上下文信息的机场跑道异物检测方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN110689021A (zh) | 一种基于深度学习的低可见度环境下实时目标检测方法 | |
CN112288008A (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN110717863B (zh) | 一种基于生成对抗网络的单图像去雪方法 | |
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及系统 | |
CN113743484A (zh) | 基于空间和通道注意力机制的图像分类方法与系统 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN116563913A (zh) | 一种基于多层特征融合的口罩规范佩戴检测方法 | |
CN115294326A (zh) | 一种基于目标检测分组残差结构进行特征提取的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |