CN117058542A - 基于大感受野和注意机制的多尺度高精度轻量化目标检测方法 - Google Patents
基于大感受野和注意机制的多尺度高精度轻量化目标检测方法 Download PDFInfo
- Publication number
- CN117058542A CN117058542A CN202311017245.0A CN202311017245A CN117058542A CN 117058542 A CN117058542 A CN 117058542A CN 202311017245 A CN202311017245 A CN 202311017245A CN 117058542 A CN117058542 A CN 117058542A
- Authority
- CN
- China
- Prior art keywords
- module
- branch
- target detection
- simam
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 238000005728 strengthening Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于大感受野和注意机制的多尺度高精度轻量化目标检测方法。该方法包括:步骤1:构建改进的YOLOv7‑Tiny网络,包括:将YOLOv7‑Tiny网络中的主干网络中新增SimAM注意机制;步骤2:采用遥感图像数据集对所述改进的网络进行训练,得到轻量化目标检测模型;步骤3:将待测的遥感图像输入至所述轻量化目标检测模型,得到检测结果。
Description
技术领域
本发明涉及遥感图像目标检测技术领域,尤其涉及一种基于大感受野和注意机制的多尺度高精度轻量化目标检测方法。
背景技术
遥感图像目标检测是遥感图像处理中的重要任务之一,它可以自动化地从遥感图像中提取出感兴趣的目标,如建筑物、道路、车辆等。在过去,人工目视解译是获取地理信息的主要方式,但随着遥感技术的不断发展和图像处理算法的不断创新,遥感图像目标检测已经成为了高效获取大规模地理信息的重要手段之一。然而,大多目标检测方法参数量较大,检测效率较低,无法在检测精度和参数量之间保持一个较好的平衡。
许多基于卷积神经网络的检测模型都取得了良好的效果,然而,大部分目标检测方法参数量较大,遥感图像中目标较多检测效率较低,遥感图像中目标尺度的差异较大,遥感图像上的目标检测工作通常面临以下几点挑战:(1)大部分目标检测器参数量较大,增大了硬件成本。(2)遥感图像中目标尺度差异较大,小、中、大等尺度类型目标共存,现有方法主要侧重遥感图像小目标检测的深入研究,却存在对同一遥感图像的中、大型目标检测能力差的问题。(3)遥感图像中许多目标或藏于阴影中或与地面颜色相接近,导致常用的目标检测方法难以将这些目标检测出来。
发明内容
为了能够解决上述问题中的至少一部分,本发明提供一种基于大感受野和注意机制的多尺度高精度轻量化目标检测方法。
本发明提供的一种基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,包括:
步骤1:构建改进的YOLOv7-Tiny网络,包括:将YOLOv7-Tiny网络中的主干网络中新增SimAM注意机制;
步骤2:采用遥感图像数据集对所述改进的网络进行训练,得到轻量化目标检测模型;
步骤3:将待测的遥感图像输入至所述轻量化目标检测模型,得到检测结果。
进一步地,步骤1中,所述新增的SimAM注意机制位于第一个MaxPool层和第二个ELAN模块之间。
进一步地,将主干网络中的最后两个ELAN模块替换为高效简洁特征提取模块;所述高效简洁特征提取模块的结构采用公式(1)至公式(3)表示:
Y1=P3,1(P3,1(F1,1(X))) (1)
Y2=P3,1((F1,1(X))+σ(SimAM(X))) (2)
其中,X代表高效简洁特征提取模块的输入,Y1和Y2分别代表高效简洁特征提取模块中第一分支和第二分支的输出,Y3代表高效简洁特征提取模块的最终输出,F1,1代表滤波器大小为1×1、步长为1的CBL模块,P3,1代表滤波器大小3×3、步长为1的PBL模块,SimAM表示SimAM注意机制,σ为Sigmoid激活函数,为Concat操作。
进一步地,将颈部网络中的SPPCSPC模块替换为空间金字塔池化加强模块;所述空间金字塔池化加强模块的结构包括:第一分支和第二分支;
在空间金字塔池化加强模块的第一分支中,输入的特征图先经过一个CBL模块,再依次经过三个MaxPool层,接着将经过CBL模块的输出以及三个MaxPool层各自的输出进行Concat操作,最后再经过一个CBL模块处理,得到第一分支的输出;
在空间金字塔池化加强模块的第二分支中,输入的特征图分别经过一个CBL模块和一个PBL模块,再将二者的输出逐元素相加,得到第二分支的输出;
将空间金字塔池化加强模块的第一分支和第二分支的输出在通道维度进行拼接,再通过一个CBL模块,得到空间金字塔池化加强模块的最终输出。
进一步地,所述三个MaxPool层的卷积核尺寸分别为5,9和13;感受野计算公式如下:
其中,n是第n个卷积,s是其步长大小,r是其对应的感受野,k是卷积核大小。
进一步地,将颈部网络中的最后两个CBL模块替换为卷积聚合交叉层;所述卷积聚合交叉层的结构采用公式(5)表示:
O=SimAM(F1,1(AvgPool(X)))+F3,2(X) (5)
其中,O和X分别表示卷积聚合交叉层的输出和输入,SimAM表示SimAM注意机制,F3,2表示一个滤波器大小为3×3、步长为2的CBL模块,AvgPool表示平均池化操作。
本发明的有益效果:
(1)在骨干网络中嵌入了SimAM注意机制并构造了一个新的特征提取模块-高效简洁特征提取模块,将其嵌入至主干网中来获得更具鲁棒性的特征,从而提高模型的特征提取能力,并且能够有效的降低模型参数量。
(2)提出了一种改进的空间金字塔池化模型-空间金字塔池化加强模块,可以更好地捕捉和融合多尺度特征信息,在不同尺度下增强了对遥感图像中存在的中、大型目标的检测能力。
(3)提出了卷积聚合交叉层,在缩小特征图尺寸的同时,能够保留重要的特征信息,增强上下文信息的融合以得到具有更多语义信息的特征图。
(4)在SIMD数据集的实验表明,与其他算法相比,本发明的方法在遥感图像目标检测中具有较好的性能。从消融实验中可以看出,本发明提出的每个改进模块都能够有效的提高检测精度。因此,本发明所提出的方法对现有的遥感目标检测算法在检测精度及模型参数量上达到了更好的平衡,对遥感图像的目标检测工作的研究具有重要的现实意义。
附图说明
图1为本发明实施例提供的基于大感受野和注意机制的多尺度高精度轻量化目标检测方法的流程示意图;
图2为本发明实施例提供的轻量化目标检测模型的网络结构;
图3为本发明实施例提供的VNFE的结构图;
图4为本发明实施例提供的SPPE模块的结构图;
图5为本发明实施例提供的CACL的结构图;
图6(a1)至图6(c6)为本发明实施例提供的检测效果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明实施例提供一种基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,包括以下步骤:
S101:构建改进的YOLOv7-Tiny网络,包括:将YOLOv7-Tiny网络中的主干网络中新增SimAM注意机制;
具体地,本实施例是以YOLOv7-Tiny网络作为基本框架,对该基本框架作出改进,得到改进的YOLOv7-Tiny网络。如图2所示,该改进的YOLOv7-Tiny网络主要包括主干网络(Backbone)、颈部网络(Neck)和预测头(Head)三部分。该改进的YOLOv7-Tiny网络的检测过程为:首先,通过主干网络来提取输入遥感图像的特征信息,为了检测不同尺寸的目标,主干网络输出了三种不同大小的特征图(分别是128×128、64×64和32×32)。然后,将提取出的不同尺寸的特征图,送到颈部网络进行特征融合,以获得具有丰富上下文信息的三个不同尺度的特征图。最后,这些特征图将送到预测头进行检测,来获得最终的检测结果。
本实施例中,所述新增的SimAM注意机制位于第一个MaxPool层和第二个ELAN模块之间。
S102:采用遥感图像数据集对所述改进的网络进行训练,得到轻量化目标检测模型;
S103:将待测的遥感图像输入至所述轻量化目标检测模型,得到检测结果。
本发明实施例提供的轻量化目标检测方法,通过在主干网络中增加SimAM注意机制,可以对存在大量待检测目标的遥感图像进行精确的检测工作。
实施例2
为了进一步提升轻量化检测模型的检测性能,在上述实施例1的基础上,本发明实施例对YOLOv7-Tiny网络作进一步改进,包括将主干网络中的最后两个ELAN模块替换为高效简洁特征提取(Validity-Neat Feature Extract,VNFE)模块,如图2所示;
具体地,对于原始的YOLOv7-Tiny网络模型,主干网络中存在过多的卷积层和池化层,不仅会导致特征冗余,同时也会导致计算冗余,本实施例通过使用VNFE模块来取代主干网络中的部分ELAN模块,如此可以在主干网络中捕捉到更多具有判别性的特征信息,同时还可以降低整个网络模型的参数量。
VNFE模块的结构如图3所示。VNFE模块主要包括两个分支:第一个分支通过PBL模块能够对输入通道进行空间特征提取,同时减少计算冗余和内存访问来保证网络模型的轻量化;第二个分支用SimAM注意力机制,在不引入额外参数的情况下提高神经网络的特征提取能力。
VNFE模块的结构采用如下公式表示:
Y1=(P3,1(P3,1(F1,1(X))) (1)
Y2=P3,1((F1,1(X))+σ(SimAM(X))) (2)
其中,X代表高效简洁特征提取模块的输入,Y1和Y2分别代表高效简洁特征提取模块中第一分支和第二分支的输出,Y3代表高效简洁特征提取模块的最终输出,F1,1代表滤波器大小为1×1、步长为1的CBL模块,P3,1代表滤波器大小3×3、步长为1的PBL模块,SimAM表示SimAM注意机制,σ为Sigmoid激活函数,为Concat操作。
实施例3
为了进一步提升轻量化检测模型的检测性能,在上述各实施例的基础上,本发明实施例对YOLOv7-Tiny网络作进一步改进,包括将颈部网络中的SPPCSPC模块替换为空间金字塔池化加强(Spatial Pyramid Pooling Enforce,SPPE)模块。
具体地,现有的空间金字塔池化方法在检测中、大型目标时仍有提升的空间,为了更好的增强模型对中、大型目标的检测能力,本实施例提出了一个新的SPPE模块,SPPE模块的结构如图4所示,包括第一分支和第二分支。
在空间金字塔池化加强模块的第一分支中,输入的特征图先经过一个CBL模块,再依次经过三个MaxPool层,接着将经过CBL模块的输出以及三个MaxPool层各自的输出进行Concat操作,最后再经过一个CBL模块处理,得到第一分支的输出;
具体地,在第一个分支中,通过构建不同尺度的金字塔层级来捕捉多尺度特征信息,不同尺度的池化操作使网络能够对输入图像的不同尺度和大小的目标物体进行感知和处理,从而提高模型的适应性和泛化能力。由于采用金字塔层级和池化操作,在提取多尺度特征的同时,也减少了空间信息的丢失。
同时,较大的池化操作可以保留目标物体的整体特征和空间布局,通过增大卷积核尺寸,模型可以覆盖更多的目标区域的细节和上下文信息,有助于更准确的检测中、大型目标。因此本实施例将三层最大池化层的卷积核尺寸改为了5,9和13,使其感受野分别增大为了5,13和25,以此增强对中、大型目标的检测能力。感受野计算公式如下:
其中,n是第n个卷积,s是其步长大小,r是其对应的感受野,k是卷积核大小。
在空间金字塔池化加强模块的第二分支中,输入的特征图分别经过一个CBL模块和一个PBL模块,再将二者的输出逐元素相加,得到第二分支的输出;
具体地,在第二个分支中,将输入分别经过CBL和PBL,在不改变使特征图尺寸的同时,使输出通道数都变为原来的一半,再将二者的输出逐元素相加,增加特征图每一维度的信息量来补充特征细节信息,以此获得更丰富和更全面的特征表示,并弥补因感受野加大对小目标检测能力的衰减。
将空间金字塔池化加强模块的第一分支和第二分支的输出在通道维度进行拼接,再通过一个CBL模块,得到空间金字塔池化加强模块的最终输出。
具体地,将两个分支的结果在通道维度进行一个拼接,再通过一个卷积核尺寸为1×1的CBL,将SPPE的输出通道数调整至与输入一致。
实施例4
为了进一步提升轻量化检测模型的检测性能,在上述各实施例的基础上,本发明实施例对YOLOv7-Tiny网络作进一步改进,包括将颈部网络中的最后两个CBL模块替换为卷积聚合交叉层(Convolution Aggregation Criss Layer,CACL);
具体地,为了减少因Neck中的下采样而导致的信息丢失,本实施例设计了一个新的CACL嵌入到网络,使特征图在下采样时能够保留更多的特征信息。CACL的结构如图5所示。
在CACL的第一个分支中,与最大池化层相比,使用平均池化层能够更好地保留特征图中的空间信息,并且在特征提取的过程中更充分地利用全局信息。之后,使用1×1卷积让网络加深,引入更多非线性且不增加感受野,增强神经网络的表达能力,并将通道数调整为原来的二倍。接着,再使用SimAM注意力机制使网络模型聚焦于具有更高判别性的特征区域,提高模型的区分度。
在CACL的第二个分支中,使用卷积核尺寸为3×3、步长为2的CBL模块,可以在空间上进行下采样,减小特征图的尺寸,同时保留重要的特征信息,有助于增强网络模型的鲁棒性。
通过将上述的两个分支进行加和操作,使CACL能够融合不同的特征表达方式,提高特征的多样性和表达能力,增强网络模型的表示能力和检测性能。
CACL的结构采用如下公式表示:
O=SimAM(F1,1(AvgPool(X)))+F3,2(X) (5)
其中,O和X分别表示卷积聚合交叉层的输出和输入,SimAM表示SimAM注意机制,F3,2表示一个滤波器大小为3×3、步长为2的CBL模块,AvgPool表示平均池化操作。
实施例5
在本实施例中,使用具有挑战性的SIMD数据集进行实验,以验证本发明所提出模型的有效性。
(一)实验环境和训练参数:
实验平台装备有NVIDIA GeForce RTX 3070显卡(8GB),Intel Core i7-10700KCPU,操作系统为Ubuntu 20.04.4LTS。使用PyTorch深度学习框架(版本1.13.1),在Python 3.8and CUDA 11.4的环境下进行模型的开发和训练。
在模型训练时,输入图像大小为1024×1024,使用带动量的StochasticGradientDescent(SGD)优化器进行训练。动量参数设置为0.937,初始学习率设置为0.01,权重衰减系数设置为0.0005,batch size设置为4,训练迭代总数为300次。
(二)实验结果:
在SIMD数据集上的实验用了K-Means++算法生成了新的先验框,使用新的先验框的后的实验数据如表1所示。除此之外,为了更直接的显示结果,为数据集中的每个类别分别指定了一个相应名称,如表2所示。
表1 YOLOv7-Tiny使用和不使用k-means++算法的结果
模型 | mAP | mAP0.5:0.95 | Params(m) | FLOPs(G) |
YOLOv7-Tiny | 82.3 | 64.2 | 6.05 | 13.3 |
YOLOv7-Tiny+K-Means++ | 82.7 | 64.8 | 6.05 | 13.3 |
与其他检测方法对比的实验结果如表2所示,本发明提出的方法以较小的参数量达到了最优的检测结果。
表2本发明方法与其他方法在SIMD数据集上的实验结果对比
Method | mAP | mAP0.75 | mAP0.5:0.95 | APS | APM | APL | Params(m) | FLOPs(G) |
YOLOX-S | 80.3 | 74.8 | 62.7 | 12.2 | 59.5 | 67.8 | 8.94 | 68.5 |
YOLOv6-N | 74.4 | 69.0 | 58.5 | 8.2 | 49.3 | 63.1 | 4.7 | 11.4 |
YOLOv6-S | 78.9 | 73.1 | 62.7 | 8.5 | 57.8 | 69.2 | 18.5 | 45.3 |
YOLOv8-N | 81.6 | - | 65.9 | - | - | - | 3.01 | 8.2 |
YOLO-HR-N | 83.0 | - | 64.0 | - | - | - | 3.34 | 4.4 |
YOLOv5-N | 75.7 | 69.3 | 57.9 | 15.1 | 49.6 | 62.0 | 1.78 | 4.3 |
YOLOv5-S | 82.8 | 74.9 | 64.4 | 11.2 | 61.9 | 68.0 | 7.06 | 16.1 |
YOLOv7-Tiny | 82.3 | 75.4 | 64.2 | 19.3 | 59.5 | 70.8 | 6.05 | 13.3 |
Ours | 84.7 | 78.3 | 66.8 | 20.1 | 61.9 | 72.1 | 5.28 | 12.2 |
由上述表2可知:
(1)与YOLOv7-Tiny相比,本发明提出的模型参数量降低了12.7%,mAP提高了2.4%,并且mAP0.75与mAP0.5:0.95也分别有2.9%和2.6%的提升;在中、大型目标上,APm和APl分别比YOLOv7-Tiny提高了2.4%和1.3%。
(2)与YOLOv5-S相比,本发明提出的方法将参数量降低了25.2%,mAP和mAP0.5:0.95分别提高了1.9%以及2.4%,在APs上和APl方面更是分别提高了8.9%和4.1%。
(3)YOLOv5-N虽然参数量上较于本发明模型占优,但在mAP和mAP0.5:0.95,本发明较其分别高了9%及8.9%;在中、大型目标检测方面上,本发明模型的APm比其高了12.3%,APl比其高了10.1%。
(4)与YOLOX-S和YOLOv6-S相比,参数量分别显著降低了40.9%和71.4%,而mAP分别提高了4.4%和5.8%,mAP0.5:0.95提高了4.1%。
(5)尽管YOLOv6-N和YOLOv8-N的参数量略低于本发明提出的方法,但本发明的mAP比其分别高了10.3%和3.1%,mAP0.5:0.95分别高了8.3%和0.9%。
为了更直观的表示我们提出的检测方法的优势,我们给出了几张不同场景图像的检测结果。如图6所示,其中(a1)-(a6)为输入图像,(b1)-(b6)为YOLOv7-Tiny的检测结果,(c1)-(c6)为本发明所提出方法的检测结果。
由图6(b1)和(c1)中的黄色方框部分可以看出,YOLOv7-Tiny没有将被背景围绕的车辆目标正确识别出来,而本发明提出的方法将其和背景区分开,正确的将目标检测了出来。由图6(b2)-(b4)及(c2)-(c4)可以看出,对于隐藏在阴影中或目标颜色与地面相近的物体,本发明提出的方法很好的将其检测了出来。如图5(b5)和(c5)中的黄色方框部分所示,YOLOv7-Tiny没有将仅暴露部分特征的物体检测到,而本发明的方法很准确的将其标记了出来。由图5(b6)和(c6)所示,本发明提出的方法对密集的小目标检测精度也很高。
为了验证所提出改进方法的有效性,我们在SIMD数据集上进行了消融实验。如表3所示,我们使用YOLOv7-Tiny作为基线,并在SIMD数据集上获得了84.7%的mAP。而我们提出的每一种改进方法都能使检测性能取得一定程度的提升。并且所提出的集成了所有改进点后的完整检测方法与YOLOv7-Tiny相比,mAP提高了2.4%,并且参数量比YOLOv7-Tiny低了1.1M。
表3SIMD数据集上的消融实验。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,其特征在于,包括:
步骤1:构建改进的YOLOv7-Tiny网络,包括:将YOLOv7-Tiny网络中的主干网络中新增SimAM注意机制;
步骤2:采用遥感图像数据集对所述改进的网络进行训练,得到轻量化目标检测模型;
步骤3:将待测的遥感图像输入至所述轻量化目标检测模型,得到检测结果。
2.根据权利要求1所述的基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,其特征在于,步骤1中,所述新增的SimAM注意机制位于第一个MaxPool层和第二个ELAN模块之间。
3.根据权利要求2所述的基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,其特征在于,将主干网络中的最后两个ELAN模块替换为高效简洁特征提取模块;所述高效简洁特征提取模块的结构采用公式(1)至公式(3)表示:
Y1=P3,1(P3,1(F1,1(X))) (1)
Y2=P3,1((F1,1(X))+σ(SimAM(X))) (2)
其中,X代表高效简洁特征提取模块的输入,Y1和Y2分别代表高效简洁特征提取模块中第一分支和第二分支的输出,Y3代表高效简洁特征提取模块的最终输出,F1,1代表滤波器大小为1×1、步长为1的CBL模块,P3,1代表滤波器大小3×3、步长为1的PBL模块,SimAM表示SimAM注意机制,σ为Sigmoid激活函数,⊕为Concat操作。
4.根据权利要求2或3所述的基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,其特征在于,将颈部网络中的SPPCSPC模块替换为空间金字塔池化加强模块;所述空间金字塔池化加强模块的结构包括:第一分支和第二分支;
在空间金字塔池化加强模块的第一分支中,输入的特征图先经过一个CBL模块,再依次经过三个MaxPool层,接着将经过CBL模块的输出以及三个MaxPool层各自的输出进行Concat操作,最后再经过一个CBL模块处理,得到第一分支的输出;
在空间金字塔池化加强模块的第二分支中,输入的特征图分别经过一个CBL模块和一个PBL模块,再将二者的输出逐元素相加,得到第二分支的输出;
将空间金字塔池化加强模块的第一分支和第二分支的输出在通道维度进行拼接,再通过一个CBL模块,得到空间金字塔池化加强模块的最终输出。
5.根据权利要求4所述的基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,其特征在于,所述三个MaxPool层的卷积核尺寸分别为5,9和13;感受野计算公式如下:
其中,n是第n个卷积,s是其步长大小,r是其对应的感受野,k是卷积核大小。
6.根据权利要求4所述的基于大感受野和注意机制的多尺度高精度轻量化目标检测方法,其特征在于,将颈部网络中的最后两个CBL模块替换为卷积聚合交叉层;所述卷积聚合交叉层的结构采用公式(5)表示:
O=SimAM(F1,1(AvgPool(X)))+F3,2(X) (5)
其中,O和X分别表示卷积聚合交叉层的输出和输入,SimAM表示SimAM注意机制,F3,2表示一个滤波器大小为3×3、步长为2的CBL模块,AvgPool表示平均池化操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311017245.0A CN117058542A (zh) | 2023-08-11 | 2023-08-11 | 基于大感受野和注意机制的多尺度高精度轻量化目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311017245.0A CN117058542A (zh) | 2023-08-11 | 2023-08-11 | 基于大感受野和注意机制的多尺度高精度轻量化目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058542A true CN117058542A (zh) | 2023-11-14 |
Family
ID=88654640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311017245.0A Pending CN117058542A (zh) | 2023-08-11 | 2023-08-11 | 基于大感受野和注意机制的多尺度高精度轻量化目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058542A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893894A (zh) * | 2024-03-15 | 2024-04-16 | 吉林大学 | 一种基于红外偏振图像的水下目标轻量化检测方法及装置 |
CN118505670A (zh) * | 2024-06-04 | 2024-08-16 | 沈阳航空航天大学 | 一种无人机与深度学习相结合的飞机蒙皮缺陷检测方法 |
-
2023
- 2023-08-11 CN CN202311017245.0A patent/CN117058542A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893894A (zh) * | 2024-03-15 | 2024-04-16 | 吉林大学 | 一种基于红外偏振图像的水下目标轻量化检测方法及装置 |
CN117893894B (zh) * | 2024-03-15 | 2024-06-11 | 吉林大学 | 一种基于红外偏振图像的水下目标轻量化检测方法及装置 |
CN118505670A (zh) * | 2024-06-04 | 2024-08-16 | 沈阳航空航天大学 | 一种无人机与深度学习相结合的飞机蒙皮缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN113780149B (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN110992238B (zh) | 一种基于双通道网络的数字图像篡改盲检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN113269224B (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN117058542A (zh) | 基于大感受野和注意机制的多尺度高精度轻量化目标检测方法 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN115984701A (zh) | 一种基于编解码结构的多模态遥感图像语义分割方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及系统 | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、系统 | |
CN113313721A (zh) | 基于多尺度结构的实时语义分割方法 | |
CN117496154A (zh) | 基于概率图表征边缘的高分辨率遥感影像语义分割方法 | |
CN112597875A (zh) | 一种多分支网络的抗漏检航拍目标检测方法 | |
CN117132910A (zh) | 一种用于无人机的车辆检测方法、装置及存储介质 | |
CN115424012A (zh) | 一种基于上下文信息的轻量图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |