CN116524379A - 基于注意力机制和自适应特征融合的航拍目标检测方法 - Google Patents
基于注意力机制和自适应特征融合的航拍目标检测方法 Download PDFInfo
- Publication number
- CN116524379A CN116524379A CN202310436543.7A CN202310436543A CN116524379A CN 116524379 A CN116524379 A CN 116524379A CN 202310436543 A CN202310436543 A CN 202310436543A CN 116524379 A CN116524379 A CN 116524379A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- module
- layer
- aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 153
- 230000004927 fusion Effects 0.000 title claims abstract description 83
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 80
- 230000002776 aggregation Effects 0.000 claims description 62
- 238000004220 aggregation Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 29
- 230000003044 adaptive effect Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 22
- 238000005215 recombination Methods 0.000 claims description 15
- 230000006798 recombination Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 7
- 230000000996 additive effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 2
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 208000026753 anterior segment dysgenesis Diseases 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制和自适应特征融合的航拍目标检测方法,包括:获取待检测的航拍图像数据;将待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到待检测的航拍图像数据的目标检测结果,其中,航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。本发明在航拍视角小目标检测上,能够达到更高的识别精度。对于无人机平台的航拍小目标检测,网络速度快精度搞,能够以较低参数和计算复杂度表现出更好的检测效果。
Description
技术领域
本发明涉及目标检测技术领域,特别涉及一种基于注意力机制和自适应特征融合的航拍目标检测方法。
背景技术
近年来,随着无人机技术的飞速发展,无人机航拍图像目标检测在多个领域,如城市交通、精准农业和环境勘测等众多实际场景中得到了广泛应用。由于航拍图像目标检测具有丰富的应用价值,研究者们围绕其展开了大量研究工作。早期的研究主要集中在滑动窗口搜索和手动特征提取技术上,这通常需要大量的先验知识和复杂的公式推导。随着计算机视觉技术的迅速发展,基于深度学习算法的目标检测展示出更为优越的性能,逐渐成为了主流技术并被广泛应用。
基于深度学习方法的目标检测算法主要分为两类:(1)以R-CNN、Faster R-CNN等为代表的二阶段目标检测算法,它们在生成候选框的基础上再回归出目标区域,具有较高的检测精度;(2)以YOLO、SSD等为代表的一阶段目标检测算法,它们直接对目标的位置和类别进行预测,具有更快的检测速度。尽管基于深度学习的目标检测方法在各种实际场景中广泛应用,但由于无人机通常部署在大型场景中,这意味着在一幅图像中存在许多小且密集分布的物体,同时复杂多样的背景信息也容易对待检测目标产生干扰,通用目标检测算法很难取得理想的检测效果。
无人机航拍图像中的小目标仅占据图像的一小部分,从细粒度局部区域直接获取的信息非常有限。利用图像中的上下文信息可以建立小目标与其他目标或背景的联系,从而帮助网络进行检测推断。多尺度特征是提高小目标检测率的一种有效方法。尽管FasterR-CNN和YOLO等方法采用了单一尺度的特征图,但这限制了特征信息的表达。为了增强网络多尺度信息的表达能力,结合不同层级特征图的特点,学者们提出了经典的特征金字塔结构,采用自上而下的体系结构和横向连接,交互不同层级的特征信息。进一步地,路径聚合网络在FPN的基础上添加了额外的自下而上的连接,以更高效地传递浅层信息到高层,从而减少信息流通时的损耗。然而,尽管上述结构能够提升网络多尺度表达的能力,但在融合不同层级特征图时,它们直接通过元素加法进行操作,忽略了不同层级特征图对小目标的贡献。对于小物体而言,更需要浅层特征中的细粒度特征信息来辨别,平等融合深层特征可能会削弱浅层特征对小目标的学习能力。此外,由于不同特征图之间的细腻度不同,直接采用相加或通道维度拼接的方式进行融合,容易产生冗余信息和噪声信息,影响上下文信息的获取,干扰物体之间的关系表达。
发明内容
本发明提供一种基于注意力机制和自适应特征融合的航拍目标检测方法,有助于在大型场景中实现对无人机航拍小目标的高效准确检测,满足多领域实际应用的需求。
本发明第一方面实施例提供一种基于注意力机制和自适应特征融合的航拍目标检测方法,包括以下步骤:获取待检测的航拍图像数据;将所述待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到所述待检测的航拍图像数据的目标检测结果,其中,所述航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。
可选地,在本发明的一个实施例中,所述航拍小目标检测模型包括:骨干网络、颈部网络、轻量级自适应特征融合模块和检测头层;
其中,所述骨干网络包括:一个起始处理层和四个阶段处理层,起始处理层包含两个卷积模块,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数三个子模块组成,第一阶段处理层由一个轻量级高效层聚合网络块和混洗坐标注意力层级联组成,第二阶段处理层、第三阶段处理层和第四阶段处理层均由一个最大池化层、轻量级高效层聚合网络块和混洗坐标注意力层级联组成,通过所述四个阶段处理层输出航拍图像数据的四层特征图;
所述颈部网络包括路径聚合特征金字塔网络,用于从所述骨干网络获取所述四层特征图,第一阶段处理层、第二阶段处理层和第三阶段处理层输出的特征图经过卷积模块降低通道后输入所述路径聚合特征金字塔网络,第四阶段处理层输出的特征图经过轻量级快速空间金字塔池化跨阶段局部网络模块降低通道后送入所述路径聚合特征金字塔网络,以利用所述路径聚合特征金字塔网络进行特征融合;
所述轻量级自适应特征融合模块设置在所述颈部网络的输出端,所述轻量级自适应特征融合模块由通过切片操作来下采样特征图大小并进行通道拼接以增加通道的扩张模块、融合通道信息以缩减通道的融合模块、内容感知的特征重组上采样模块和软池化模块,所述轻量级自适应特征融合模块用于通过对所述路径聚合特征金字塔网络输出的四层特征图进行自适应特征融合,并将特征图送入所述检测头层;
所述检测头层包括多个检测头,每个检测头由加性隐式模块、卷积模块和乘性隐式模块组成,检测头的损失函数包括定位损失,分类损失和置信度损失。
可选地,在本发明的一个实施例中,所述定位损失采用SIOU损失函数,所述置信度损失采用变焦损失函数。
可选地,在本发明的一个实施例中,所述路径聚合网络中的上采样层为内容感知的特征重组上采样层。
本发明第二方面实施例提供一种基于注意力机制和自适应特征融合的航拍目标检测装置,包括:获取模块,用于获取待检测的航拍图像数据;检测模块,用于将所述待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到所述待检测的航拍图像数据的目标检测结果,其中,所述航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。
可选地,在本发明的一个实施例中,所述航拍小目标检测模型包括:骨干网络、颈部网络、轻量级自适应特征融合模块和检测头层;
其中,所述骨干网络包括:一个起始处理层和四个阶段处理层,起始处理层包含两个卷积模块,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数三个子模块组成,第一阶段处理层由一个轻量级高效层聚合网络块和混洗坐标注意力层级联组成,第二阶段处理层、第三阶段处理层和第四阶段处理层均由一个最大池化层、轻量级高效层聚合网络块和混洗坐标注意力层级联组成,通过所述四个阶段处理层输出航拍图像数据的四层特征图;
所述颈部网络包括路径聚合特征金字塔网络,用于从所述骨干网络获取所述四层特征图,第一阶段处理层、第二阶段处理层和第三阶段处理层输出的特征图经过卷积模块降低通道后输入所述路径聚合特征金字塔网络,第四阶段处理层输出的特征图经过轻量级快速空间金字塔池化跨阶段局部网络模块降低通道后送入所述路径聚合特征金字塔网络,以利用所述路径聚合特征金字塔网络进行特征融合;
所述轻量级自适应特征融合模块设置在所述颈部网络的输出端,所述轻量级自适应特征融合模块由通过切片操作来下采样特征图大小并进行通道拼接以增加通道的扩张模块、融合通道信息以缩减通道的融合模块、内容感知的特征重组上采样模块和软池化模块,所述轻量级自适应特征融合模块用于通过对所述路径聚合特征金字塔网络输出的四层特征图进行自适应特征融合,并将特征图送入所述检测头层;
所述检测头层包括多个检测头,每个检测头由加性隐式模块、卷积模块和乘性隐式模块组成,检测头的损失函数包括定位损失,分类损失和置信度损失。
可选地,在本发明的一个实施例中,所述定位损失采用SIOU损失函数,所述置信度损失采用变焦损失函数。
可选地,在本发明的一个实施例中,所述路径聚合网络中的上采样层为内容感知的特征重组上采样层。
本发明第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以执行如上述实施例所述的基于注意力机制和自适应特征融合的航拍目标检测方法。
本发明第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以执行如上述实施例所述的基于注意力机制和自适应特征融合的航拍目标检测方法。
本发明实施例的基于注意力机制和自适应特征融合的航拍目标检测方法,利用轻量且高效的注意力机制混洗坐标注意力,该注意力机制旨在以较低的计算成本实现对特征之间的有效关注。通过将特征图通道分组,对每个分组使用空间注意力和通道注意力结合的坐标注意力,最后使用通道混洗操作将不同组之间的信息进行流通,计算成本低,适用于轻量级网络。同时,新增了一个小目标检测层P2级特征图检测层,P2检测层可以有效地检测较小尺寸的目标物体,提高检测性能。此外,在颈部网络中的路径聚合特征金字塔网络后面加入轻量级自适应特征融合模块,实现多尺度特征的自适应融合,提高检测准确性。最后,使用了变焦损失和SIOU损失进一步提高了分类和定位的准确性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例提供的一种基于注意力机制和自适应特征融合的航拍目标检测方法的流程图;
图2为根据本发明实施例提供的航拍小目标检测模型结构示意图;
图3为根据本发明实施例提供的混洗坐标注意力模块的结构图;
图4为根据本发明实施例提供的内容感知的特征重组上采样算子的框架图;
图5为根据本发明实施例提供的改进算法与原始算法的map指标对比图;
图6为根据本发明实施例提供的改进算法与原始算法的训练过程指标对比图;
图7为根据本发明实施例的基于注意力机制和自适应特征融合的航拍目标检测装置的示例图;
图8为发明实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
图1为根据本发明实施例提供的一种基于注意力机制和自适应特征融合的航拍目标检测方法的流程图。
如图1所示,该基于注意力机制和自适应特征融合的航拍目标检测方法包括以下步骤:
在步骤S101中,获取待检测的航拍图像数据。
在本发明的实施例中,航拍图像中包含行人、骑行人员、自行车、电动车、汽车、货车、公交车等多种类别。
在步骤S102中,将待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到待检测的航拍图像数据的目标检测结果,其中,航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。
在本发明的实施例中,将待检测的航拍图像数据输入预先训练好的航拍小目标检测模型中,得到待检测的航拍图像数据的目标检测结果,如多个检测框及对应的类别。
本发明的实施例利用无人机采集航拍图像数据,并进行标注得到数据集,将数据集划分为训练集,验证集合测试集,利用其对航拍小目标检测模型为进行训练、验证和测试,得到训练好的航拍小目标检测模型。
本发明实施例以YOLOv7算法框架为基础构建适用于航拍小目标检测的改进型网络模型,得到航拍小目标检测算法ASOD–YOLO。在训练集上对ASOD-YOLO算法进行训练,训练时采用多种数据增强策略,并通过验证集进行参数调优,得到最佳的权重文件。将训练出来的最佳权重文件加载到ASOD-YOLO算法得到目标检测网络,然后在测试集上测试检测结果,并对后续采集的航拍图像进行检测。
本发明选择以轻量级且速度快的YOLO系列算法为基础网络,并加以改进,提出了改进的ASOD-YOLO算法,以提升航拍小目标检测能力。通过这一系列创新性的改进,将有助于在大型场景中实现对无人机航拍小目标的高效准确检测,满足多领域实际应用的需求。
本发明实施例的航拍小目标检测模型包括:骨干网络、颈部网络、轻量级自适应特征融合模块和检测头层。
骨干网络包括:一个起始处理层和四个阶段处理层,起始处理层包含两个卷积模块,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数三个子模块组成,第一阶段处理层由一个轻量级高效层聚合网络块和混洗坐标注意力层级联组成,第二阶段处理层、第三阶段处理层和第四阶段处理层均由一个最大池化层、轻量级高效层聚合网络块和混洗坐标注意力层级联组成,通过四个阶段处理层输出航拍图像数据的四层特征图。
颈部网络包括路径聚合特征金字塔网络,用于从骨干网络获取四层特征图,第一阶段处理层、第二阶段处理层和第三阶段处理层输出的特征图经过卷积模块降低通道后输入路径聚合特征金字塔网络,第四阶段处理层输出的特征图经过轻量级快速空间金字塔池化跨阶段局部网络模块降低通道后送入路径聚合特征金字塔网络,以利用路径聚合特征金字塔网络进行特征融合。其中路径聚合网络中的上采样层使用内容感知的特征重组上采样层。
轻量级自适应特征融合模块设置在颈部网络的输出端,轻量级自适应特征融合模块由通过切片操作来下采样特征图大小并进行通道拼接以增加通道的扩张模块、融合通道信息以缩减通道的融合模块、内容感知的特征重组上采样模块和软池化模块。轻量级自适应特征融合模块用于通过对路径聚合特征金字塔网络输出的四层特征图进行自适应特征融合,增加了特征提取能力,并将特征图送入检测头层。
检测头层包括多个检测头,每个检测头由加性隐式模块、卷积模块和乘性隐式模块组成,检测头的损失函数包括定位损失,分类损失和置信度损失。
在航拍小目标检测模型的训练过程中,使用带权重衰减的自适应动量估计优化器作为优化器,初始学习率设置为1e-2、最小学习率为0.0004、权值衰减系数为0.05、网络共训练300个批次、每次训练的样本数量设置为256、学习率调度策略为余弦退火。
下面通过一个具体实施例对本发明的基于注意力机制和自适应特征融合的航拍目标检测方法进行说明。
首先,利用ASOD-YOLO网络模型对航拍图像进行特征提取的过程如图2中的骨干网络backbone部分所示。输入图像的大小为640x640x3,图像首先经过起始处理层(Stem)模块,降低图像尺寸大小增加通道数,起始处理层模块由两个卷积模块组成,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数(Silu)三个子模块组成。经过起始处理层后,特征图的大小变成160x160x64;
然后图像依次经过4个阶段处理层(Stage),第一个阶段处理层由轻量级高效层聚合网络块和混洗坐标注意力模块级联组成,其中轻量级高效层聚合网络块结构如图2中detail部分所示,混洗坐标注意力模块的结构图如图3所示。第二、三、四个阶段处理层由一个最大池化层、轻量级高效层聚合网络块、混洗坐标注意力模块级联组成。四个阶段处理层分别输出P2、P3、P4、P5四个不同尺寸的特征图,其大小分别为160x160x64、80x80x128、40x40x256、20x20x512。
P2、P3、P4级特征图各自经过一个卷积模块后进入颈部网络中,而P5级特征图是经过轻量级快速空间金字塔池化跨阶段局部网络模块(TinySPPFCSPBlock)处理后进入颈部网络中,轻量级快速空间金字塔池化跨阶段局部网络模块的详细结构如图2中的Detail部分所示。
进入颈部网络的P2、P3、P4、P5四层特征图,经过路径聚合特征金字塔网络进行特征融合,其中路径聚合特征金字塔网络的上采样层由最邻近上采样更换为内容感知的特征重组上采样算子,如图4所示。路径聚合特征金字塔网络输出的四层特征图,经过轻量级自适应特征融合模块(TinyASFF,图2中的Neck右半部分)进行自适应特征融合后输出四层特征图,并送入头部检测网络进行检测。轻量级的自适应特征融合模块,主要由四种模块组成:通过切片操作下采样特征图大小并进行通道拼接增加通道的扩张模块,融合通道信息缩减通道的融合模块,内容感知的特征重组上采样模块和软池化模块。
头部检测网络由加性隐式模块(ImplicitA)、卷积模块、乘性隐式模块(ImplicitM)、损失计算模块四个子模块组成,其详细结构如图2中的Detail部分所示。其中损失计算模块由三部分组成:定位损失采用SIOU损失函数,分类损失和置信度损失采用变焦损失(Varifocal Loss)函数。
在生成特征图的卷积网络中,生成底层特征图的神经元所叠加的前置计算较少,在原图上的感受野小,更注重保留图像的边缘、纹理等细节信息,而生成高层特征的神经元所叠加的前置计算较多,在原图上的感受野大,更注重保留图像的语义信息。高层特征经过多次下采样,一般会忽略较多的细节信息。原始的YOLOv7利用的是8、16、32倍下采样后输出的特征图进行后续的分类和回归任务,利用的是感受野大小为8、16、32倍的大、中、小尺度的特征图P3、P4、P5,具体尺寸为80x80x128、40x40x256、20x20x512,而航拍影像中小目标一般只具有几个像素,网络从这些仅有的少量像素中能提取出的语义信息是非常有限的。极端情况下,一个影像小目标在高层特征图上可能只对应一个点,所以小目标的检测需要更多的考虑具有较小感受野的神经元提取出的特征图。故本发明提出的ASOD-YOLO算法增加了P2层特征图进行检测,相应的新增了一个P2层检测头。
本发明提出的ASOD-YOLO算法,分别从特征提取主干网络输出特征图、注意力机制、特征融合、检测层、损失计算等方面进行优化,有效地增强了网络模型对小目标物体的检测精度。检测结果指标如图5所示,Map指标大幅提高。模型的训练也更加稳定,训练过程的相关指标如图6所示。
根据本发明实施例提出的基于注意力机制和自适应特征融合的航拍目标检测方法,增加了轻量且高效的注意力机制混洗坐标注意力,该注意力机制旨在以较低的计算成本实现对特征之间的有效关注。通过将特征图通道分组,对每个分组使用空间注意力和通道注意力结合的坐标注意力,最后使用通道混洗操作将不同组之间的信息进行流通,计算成本低,适用于轻量级网络。同时,同时新增了一个小目标检测层P2级特征图检测层,P2检测层可以有效地检测较小尺寸的目标物体,提高检测性能。在颈部网络中的路径聚合特征金字塔网络后面加入轻量级自适应特征融合模块,实现多尺度特征的自适应融合,提高检测准确性。最后,使用了变焦损失和SIOU损失进一步提高了分类和定位的准确性。
其次参照附图描述根据本发明实施例提出的基于注意力机制和自适应特征融合的航拍目标检测装置。
图7为根据本发明实施例的基于注意力机制和自适应特征融合的航拍目标检测装置的示例图。
如图7所示,该基于注意力机制和自适应特征融合的航拍目标检测装置10包括:获取模块100和检测模块200。
其中,获取模块100,用于获取待检测的航拍图像数据。检测模块200,用于将待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到待检测的航拍图像数据的目标检测结果,其中,航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。
在本发明的实施例中,航拍小目标检测模型包括:骨干网络、颈部网络、轻量级自适应特征融合模块和检测头层;
其中,骨干网络包括:一个起始处理层和四个阶段处理层,起始处理层包含两个卷积模块,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数三个子模块组成,第一阶段处理层由一个轻量级高效层聚合网络块和混洗坐标注意力层级联组成,第二阶段处理层、第三阶段处理层和第四阶段处理层均由一个最大池化层、轻量级高效层聚合网络块和混洗坐标注意力层级联组成,通过四个阶段处理层输出航拍图像数据的四层特征图;
颈部网络包括路径聚合特征金字塔网络,用于从骨干网络获取四层特征图,第一阶段处理层、第二阶段处理层和第三阶段处理层输出的特征图经过卷积模块降低通道后输入路径聚合特征金字塔网络,第四阶段处理层输出的特征图经过轻量级快速空间金字塔池化跨阶段局部网络模块降低通道后送入路径聚合特征金字塔网络,以利用路径聚合特征金字塔网络进行特征融合;
轻量级自适应特征融合模块设置在颈部网络的输出端,轻量级自适应特征融合模块由通过切片操作来下采样特征图大小并进行通道拼接以增加通道的扩张模块、融合通道信息以缩减通道的融合模块、内容感知的特征重组上采样模块和软池化模块。轻量级自适应特征融合模块用于通过对路径聚合特征金字塔网络输出的四层特征图进行自适应特征融合,并将特征图送入检测头层;
检测头层包括多个检测头,每个检测头由加性隐式模块、卷积模块和乘性隐式模块组成,检测头的损失函数包括定位损失,分类损失和置信度损失。
在本发明的实施例中,定位损失采用SIOU损失函数,置信度损失采用变焦损失函数。在本发明的实施例中,路径聚合网络中的上采样层为内容感知的特征重组上采样层
需要说明的是,前述对基于注意力机制和自适应特征融合的航拍目标检测方法实施例的解释说明也适用于该实施例的基于注意力机制和自适应特征融合的航拍目标检测装置,此处不再赘述。
根据本发明实施例提出的基于注意力机制和自适应特征融合的航拍目标检测装置,增加了轻量且高效的注意力机制混洗坐标注意力,该注意力机制旨在以较低的计算成本实现对特征之间的有效关注。通过将特征图通道分组,对每个分组使用空间注意力和通道注意力结合的坐标注意力,最后使用通道混洗操作将不同组之间的信息进行流通,计算成本低,适用于轻量级网络。同时,同时新增了一个小目标检测层P2级特征图检测层,P2检测层可以有效地检测较小尺寸的目标物体,提高检测性能。在颈部网络中的路径聚合特征金字塔网络后面加入轻量级自适应特征融合模块,实现多尺度特征的自适应融合,提高检测准确性。最后,使用了变焦损失和SIOU损失进一步提高了分类和定位的准确性。
图8为本发明实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
处理器802执行程序时实现上述实施例中提供的基于注意力机制和自适应特征融合的航拍目标检测方法。
进一步地,电子设备还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机程序。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上的基于注意力机制和自适应特征融合的航拍目标检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
Claims (10)
1.一种基于注意力机制和自适应特征融合的航拍目标检测方法,其特征在于,包括以下步骤:
获取待检测的航拍图像数据;
将所述待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到所述待检测的航拍图像数据的目标检测结果,其中,所述航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。
2.根据权利要求1所述的方法,其特征在于,所述航拍小目标检测模型包括:骨干网络、颈部网络、轻量级自适应特征融合模块和检测头层;
其中,所述骨干网络包括:一个起始处理层和四个阶段处理层,起始处理层包含两个卷积模块,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数三个子模块组成,第一阶段处理层由一个轻量级高效层聚合网络块和混洗坐标注意力层级联组成,第二阶段处理层、第三阶段处理层和第四阶段处理层均由一个最大池化层、轻量级高效层聚合网络块和混洗坐标注意力层级联组成,通过所述四个阶段处理层输出航拍图像数据的四层特征图;
所述颈部网络包括路径聚合特征金字塔网络,用于从所述骨干网络获取所述四层特征图,第一阶段处理层、第二阶段处理层和第三阶段处理层输出的特征图经过卷积模块降低通道后输入所述路径聚合特征金字塔网络,第四阶段处理层输出的特征图经过轻量级快速空间金字塔池化跨阶段局部网络模块降低通道后送入所述路径聚合特征金字塔网络,以利用所述路径聚合特征金字塔网络进行特征融合;
所述轻量级自适应特征融合模块设置在所述颈部网络的输出端,所述轻量级自适应特征融合模块由通过切片操作来下采样特征图大小并进行通道拼接以增加通道的扩张模块、融合通道信息以缩减通道的融合模块、内容感知的特征重组上采样模块和软池化模块,所述轻量级自适应特征融合模块用于通过对所述路径聚合特征金字塔网络输出的四层特征图进行自适应特征融合,并将特征图送入所述检测头层;
所述检测头层包括多个检测头,每个检测头由加性隐式模块、卷积模块和乘性隐式模块组成,检测头的损失函数包括定位损失,分类损失和置信度损失。
3.根据权利要求2所述的方法,其特征在于,
所述定位损失采用SIOU损失函数,所述置信度损失采用变焦损失函数。
4.根据权利要求2所述的方法,其特征在于,
所述路径聚合网络中的上采样层为内容感知的特征重组上采样层。
5.一种基于注意力机制和自适应特征融合的航拍目标检测装置,其特征在于,包括:
获取模块,用于获取待检测的航拍图像数据;
检测模块,用于将所述待检测的航拍图像数据输入预先训练的航拍小目标检测模型,得到所述待检测的航拍图像数据的目标检测结果,其中,所述航拍小目标检测模型为在YOLO算法框架中设置轻量级自适应特征融合模块和混洗坐标注意力层,并利用训练航拍图像数据及其对应的目标检测结果训练得到。
6.根据权利要求5所述的装置,其特征在于,所述航拍小目标检测模型包括:骨干网络、颈部网络、轻量级自适应特征融合模块和检测头层;
其中,所述骨干网络包括:一个起始处理层和四个阶段处理层,起始处理层包含两个卷积模块,卷积模块由二维卷积、批归一化、sigmoid加权线性单元激活函数三个子模块组成,第一阶段处理层由一个轻量级高效层聚合网络块和混洗坐标注意力层级联组成,第二阶段处理层、第三阶段处理层和第四阶段处理层均由一个最大池化层、轻量级高效层聚合网络块和混洗坐标注意力层级联组成,通过所述四个阶段处理层输出航拍图像数据的四层特征图;
所述颈部网络包括路径聚合特征金字塔网络,用于从所述骨干网络获取所述四层特征图,第一阶段处理层、第二阶段处理层和第三阶段处理层输出的特征图经过卷积模块降低通道后输入所述路径聚合特征金字塔网络,第四阶段处理层输出的特征图经过轻量级快速空间金字塔池化跨阶段局部网络模块降低通道后送入所述路径聚合特征金字塔网络,以利用所述路径聚合特征金字塔网络进行特征融合;
所述轻量级自适应特征融合模块设置在所述颈部网络的输出端,所述轻量级自适应特征融合模块由通过切片操作来下采样特征图大小并进行通道拼接以增加通道的扩张模块、融合通道信息以缩减通道的融合模块、内容感知的特征重组上采样模块和软池化模块,所述轻量级自适应特征融合模块用于通过对所述路径聚合特征金字塔网络输出的四层特征图进行自适应特征融合,并将特征图送入所述检测头层;
所述检测头层包括多个检测头,每个检测头由加性隐式模块、卷积模块和乘性隐式模块组成,检测头的损失函数包括定位损失,分类损失和置信度损失。
7.根据权利要求6所述的装置,其特征在于,
所述定位损失采用SIOU损失函数,所述置信度损失采用变焦损失函数。
8.根据权利要求6所述的装置,其特征在于,
所述路径聚合网络中的上采样层为内容感知的特征重组上采样层。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4任一项所述的基于注意力机制和自适应特征融合的航拍目标检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的基于注意力机制和自适应特征融合的航拍目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436543.7A CN116524379A (zh) | 2023-04-21 | 2023-04-21 | 基于注意力机制和自适应特征融合的航拍目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436543.7A CN116524379A (zh) | 2023-04-21 | 2023-04-21 | 基于注意力机制和自适应特征融合的航拍目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524379A true CN116524379A (zh) | 2023-08-01 |
Family
ID=87391444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310436543.7A Pending CN116524379A (zh) | 2023-04-21 | 2023-04-21 | 基于注意力机制和自适应特征融合的航拍目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524379A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
-
2023
- 2023-04-21 CN CN202310436543.7A patent/CN116524379A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593674A (zh) * | 2024-01-18 | 2024-02-23 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
CN117593674B (zh) * | 2024-01-18 | 2024-05-03 | 南昌大学 | 一种轻量级无人机航拍目标实时检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
US10275719B2 (en) | Hyper-parameter selection for deep convolutional networks | |
Fu et al. | Foreground gating and background refining network for surveillance object detection | |
CN111401516B (zh) | 一种神经网络通道参数的搜索方法及相关设备 | |
KR102582194B1 (ko) | 선택적 역전파 | |
CN112232232A (zh) | 一种目标检测方法 | |
KR20170140214A (ko) | 신경망을 위한 훈련 기준으로서의 필터 특이성 | |
KR20180044295A (ko) | 트레이닝된 머신 학습 모델의 성능을 개선시키는 방법 | |
US10303981B1 (en) | Learning method and testing method for R-CNN based object detector, and learning device and testing device using the same | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
KR20180036709A (ko) | 미디어 분류 | |
WO2022007867A1 (zh) | 神经网络的构建方法和装置 | |
TWI785739B (zh) | 目標模型的獲取方法、電子設備與儲存媒體 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN111507159A (zh) | 提供自动驾驶安全性的方法和装置 | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN111126401A (zh) | 一种基于上下文信息的车牌字符识别方法 | |
CN112464930A (zh) | 目标检测网络构建方法、目标检测方法、装置和存储介质 | |
CN116524379A (zh) | 基于注意力机制和自适应特征融合的航拍目标检测方法 | |
CN116486288A (zh) | 基于轻量级密度估计网络的航拍目标计数与检测方法 | |
CN116844032A (zh) | 一种海洋环境下目标检测识别方法、装置、设备及介质 | |
CN115661767A (zh) | 一种基于卷积神经网络的图像前方车辆目标识别方法 | |
CN116432736A (zh) | 神经网络模型优化方法、装置及计算设备 | |
CN111179212A (zh) | 集成蒸馏策略和反卷积的微小目标检测片上实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |