CN115719457A - 一种基于深度学习的无人机场景下小目标检测的方法 - Google Patents

一种基于深度学习的无人机场景下小目标检测的方法 Download PDF

Info

Publication number
CN115719457A
CN115719457A CN202211481338.4A CN202211481338A CN115719457A CN 115719457 A CN115719457 A CN 115719457A CN 202211481338 A CN202211481338 A CN 202211481338A CN 115719457 A CN115719457 A CN 115719457A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
image
generator
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211481338.4A
Other languages
English (en)
Inventor
张登银
邱宇
冯莹莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211481338.4A priority Critical patent/CN115719457A/zh
Publication of CN115719457A publication Critical patent/CN115719457A/zh
Priority to PCT/CN2023/086257 priority patent/WO2024108857A1/zh
Priority to US18/326,999 priority patent/US11881020B1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的无人机场景下小目标检测的方法,所述方法包括:将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中,输出正常光线的图像;将正常光照的图像输入目标检测网络中,输出多个多维矩阵特征图,所述目标检测网络以卷积块Self‑Block为基础融合了通道注意力机制和空间注意力机制,采用7*7的大卷积核;将多个多维矩阵特征图输入特征金字塔BiFPN‑S模块进行特征融合,输出相应的多个特征图用于预测不同尺寸的目标。

Description

一种基于深度学习的无人机场景下小目标检测的方法
技术领域
本发明涉及一种基于深度学习的无人机场景下小目标检测的方法,属于计算机视觉的目标检测领域。
背景技术
无人机产业迅速发展,在工业、农业、军事等行业都发挥着重要作用。无人机传输的画面也可以提供地面拍摄所不能给予的信息。目前无人机场景下小目标检测方法存在以下两种问题:无人机画面易受到光线或机身角度的影响,导致图像灰暗从而损失小目标的细节信息;目前的检测网络对小目标的检测性能不佳。
如果直接将无人机画面用于检测而不进行预处理,经常会出现自然光线不好或者无人机位置不合适导致曝光问题,这会损失小目标的部分细节并对后续检测造成不好的影响。
传统的弱光增强方法一般是基于直方图均衡或Retinex模型等方法,处理速度慢,自适应力低,不能满足后续检测对精度以及实时性的要求;而基于深度学习的弱光增强方法则大部分依赖成对的数据集进行训练,训练复杂其次无人机拍摄目标普遍较小,由于小目标本身具有尺寸有限,外观和几何线索较少以及和背景区分度不高等特点,所以一般方法对小目标检测的精度并不高,导致将其运用在无人机场景下的效果并不理想,而如何优化小目标的检测是计算机视觉领域的一个挑战性任务。
发明内容
本发明的目的在于提供本发明是一种基于深度学习的无人机场景下小目标检测的方法,该方法在增强和检测部分均采样深度学习的方法,解决了传统方法速度慢,精度低的缺点。同时对现有目标检测网络进行改进,使方法适用于无人机场景,解决了弱光图像的小目标检测问题,提升了小目标检测的性能。
一种基于深度学习的无人机场景下小目标检测的方法,所述方法包括:
将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中,输出正常光线的图像;
将正常光照的图像输入目标检测主干网络中,输出多个多维矩阵特征图,所述目标检测网络以卷积块Self-Block为基础融合了通道注意力机制和空间注意力机制,采用7*7的大卷积核;
将多个多维矩阵特征图输入特征金字塔BiFPN-S模块进行特征融合,输出相应的多个特征图用于预测不同尺寸的目标。
进一步地,所述生成器的训练方法包括:
选择弱光图像和正常光照的图像;
将弱光图像和正常光照的图像输入鉴别器与生成器中,通过鉴别器指导生成器生成更加真实的图像;
生成器与相对鉴别器采用交替训练使得生成的图像无限逼近正常光照图像,将生成器部分作为训练好的生成器。
进一步地,所述鉴别器的结构公式如下:
Figure BDA0003961762830000021
Figure BDA0003961762830000022
其中xr表示从正常图像中采样,而xf表示从生成器生成的图像中采样,σ表示sigmoid函数,C(x)表示图像是真实正常光照图像的概率,E()表示数学期望。
进一步地,所述生成器损失函数LossG如下:
Figure BDA0003961762830000023
E()表示数学期望,D()表示鉴别器的输出。
进一步地,所述鉴别器的损失函数LossD如下:
Figure BDA0003961762830000024
E()表示数学期望,D()表示鉴别器的输出。
进一步地,所述通道注意力机制等价的公式如下所示:
w=σ(C1D[AugPool(y);MaxPool(x)]) (5)
其中AugPool()代表全局平均池化后的1*1*C矩阵,MaxPool()代表最大池化后的1*1*C矩阵,C1D代表一维卷积运算,σ表示sigmoid函数。
进一步地,所述空间注意力机制等价的公式如下所示:
W=σ(Conv7*7[AugPool(y);MaxPool(x)]) (6)
AugPool()代表全局平均池化后的H*W*C矩阵,MaxPool()代表最大池化后的H*W*C矩阵,Conv7*7()表示卷积核大小为7*7的卷积运算,σ表示sigmoid函数。
进一步地,所述方法还包括:
将无人机拍摄的画面用K-means聚类算法对检测目标重新聚类。
与现有技术相比,本发明所达到的有益效果:
(1)本发明在预处理阶段采用深度学习的方法,通过生成对抗网络训练出一种Unet型网络结构的生成器,能够自适应地处理由于自然光线不好或者无人机位置不合适导致图像灰暗问题。克服了传统弱光增强模型处理速度慢,自适应力低等缺点,与此同时,也避免了目前深度学习方法大部分依赖成对的数据集进行训练的问题。除此之外,还可以通过筛选不同情况下的训练图片增强网络适应力,提升小目标检测性能。
(2)本发明通过融合注意力机制提出了一种新的卷积块Self-Block用于目标检测的主干网络,能够以很小的代价增加检测的性能。相比于现在普遍使用的3*3小卷积块,Self-Block具有更大感受野和关注重点目标的能力,有助于小目标的检测。
(3)本发明以BiFPN为基础提出了一种简化版特征金字塔(BiFPN-S)用于特征融合。现代特征金字塔一般有计算量大(如:PANet)或者融合不充分的缺点(如:FPN)。而BiFPN-S通过添加残差结构与减少不必要的融合点实现了一种高效、融合充分的特征金字塔结构,可以提高小目标检测的性能。
本发明的优点是全部采用深度学习的方式进行小目标检测,搭配计算机成熟的卷积运算技术以及GPU的高效计算性能,做到了检测速度快、精度高;通过Unet型网络结构的生成器对无人机图像进行预处理,可以自适应地处理不同条件下的弱光场景,减少对小目标检测的干扰;用Self-Block作为Backbone的卷积块提高网络性能;使用BiFPN-S进行特征融合,做到了同时保留大感受野、丰富语义信息以及小目标的特征线索,极大程度地提升小目标检测的性能。
附图说明
图1为本发明方法流程图;
图2为本发明整体网络框架示意图;
图3为本发明生成器训练过程示意图;
图4为本发明Self-Block结构示意图;
图5为本发明通道注意力结构示意图;
图6为本发明空间注意力结构示意图;
图7为本发明BiFPN-S结构示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图2所示,本发明提出一种基于深度学习的无人机场景下小目标检测方法,包括预处理网络和检测网络两个部分。
预处理网络通过生成对抗训练方式进行训练;检测网络中引入Self-Block卷积块和BiFPN-S特征金字塔来提高网络性能和小目标检测精度。以下详细叙述各模块实现方法及功能:
第一步,为了能够自适应的增强弱光图像,根据无人机传输回来的图像或视频挑选出500-1000张弱光图像,再选取1000张正常曝光的图像(此图像无需与无人机图像匹配,任何正常曝光的图像均可),接着将两个数据集放入生成对抗网络中进行训练。
训练流程如图3所示,在鉴别器C的基础上采用相对鉴别器结构,它可以估计正常光照图像比生成图像更加真实的概率,并指导生成器生成更加真实的图像,相对鉴别器结构的公式如下:
Figure BDA0003961762830000041
Figure BDA0003961762830000042
其中xr表示从正常图像中采样,而xf表示从生成器生成的图像中采样,σ表示sigmoid函数,C(x)表示图像是真实正常光照图像的概率,E()表示数学期望。
生成器与相对鉴别器采样交替训练的方式,使得生成的图像无限逼近正常光照图像,生成器的损失函数LossG和相对鉴别器的损失函数LossD如下:
Figure BDA0003961762830000051
Figure BDA0003961762830000052
E()表示数学期望,D()表示鉴别器的输出。
训练完后即可将生成器部分单独拿出。如果训练好的生成器在某个特定的场景增强效果不理想,可以将生成器用该场景的弱光图像再次训练,从而得到适应该场景的生成器。所以此增强方法具有传统方法不具备的自适应性。
第二步,将生成器的输出接入目标检测网络,该网络以Yolov5网络为基础,融合了ConvNeXt和特征金字塔思想提出一种高效、实时以及端到端的目标检测网络。
首先将Yolov5的头部(stem)简化成一层4*4的小卷积核。因为浅层特征主要是条纹和形状,过于复杂的头部并不会增强检测的性能,反而会增强运算量,所以使用一层小卷积核提取浅层特征即可。
其次将主干网络(Backbone)的四个阶段的层数设置为(3,3,9,3),且每层都由卷积块Self-Block串联而成,Self-Block结构示意图如图4所示。目前主流网络的卷积块普遍采用多个3*3的卷积核堆叠而成,因为这样可以加速运算,而Self-Block以ConvNeXt思想为基础,使用7*7的大卷积核以及深度可分离的卷积方式。7*7的大卷积核可以提供比3*3堆叠的卷积核更大、更有效的感受野,为下游的小目标检测提供更好的性能。而深度可分离的卷积方式可以加速大卷积核的运算,7*7卷积核的参数量远远大于3*3卷积核但实际运算速度只慢了一点,检测性能却得到极大提升。除此之外深度可分离的卷积方式也可以分离空间特征和通道特征,这与目前性能极佳的Swin transformer思想保持一致。在此基础上将通道注意力机制和空间注意力机制融入Self-Block模块,并将两个注意力模块分离放在不同的部分,既加强了“分离空间特征和通道特征”的特点,又让网络能够重点关注小目标的特征。通道注意力机制的结构如图5所示,因为在两个一维数组之间放弃全连接的方式,而采用卷积的方式共享参数,所以可以在增加很少计算量的同时能够关注特征图的重点通道,等价的公式如下所示:
w=σ(C1D[AugPool(y);MaxPool(x)]) (5)
其中AugPool()代表全局平均池化后的1*1*C矩阵,MaxPool()代表最大池化后的1*1*C矩阵,C1D代表一维卷积运算,σ表示sigmoid函数。空间注意力机制的结构如图6所示。同时采用平均池化和最大池化来池化特征,能最大程度的提高网络的表征能力,并关注特征图的重点空间位置区域,等价的公式如下所示:
W=σ(Conv7×7[AugPool(y);MaxPool(x)]) (6)
其中AugPool()代表全局平均池化后的H*W*C矩阵,MaxPool()代表最大池化后的H*W*C矩阵,Conv7*7()表示卷积核大小为7*7的卷积运算,σ表示sigmoid函数。
然后将目前主流使用的BN归一化替换成SN归一化(Switchable Normalization)。目前归一化的方法有BN、LN、IN、GN等,面对不同的网络结构以及场景会有不同的最优选择,如何达到最优需要大量的对照实验。而SN是一个可微的归一化层,可以让模型根据数据来学习到每一层该选择的归一化方法,亦或是三个归一化方法的加权和,从而提升模型的性能。
接着将不同阶段的特征图输入至特征金字塔(BiFPN-S)进行特征融合,BiFPN-S结构如图7所示。现代特征金字塔一般有计算量大或者融合不充分的缺点,所以本发明以BiFPN为基础提出了BiFPN-S用于特征融合。为克服特征融合计算量大的缺点,BiFPN-S移除了上下两边特征图一阶段的特征融合,因为在这个阶段两边信息单一,对最后融合贡献较少并且增强了计算量;为了克服融合不重复的缺点,BiFPNS-S在第二阶段进行第二次特征融合,以便充分融合浅层和深层的信息。除此之外,BiFPN-S还通过残差连接增强特征的表示能力。用特征融合后的特征图进行预测可以极大程度的提升小目标检测的性能。
因为无人机画面中的目标普遍较小,而通用的Anchor尺寸并不适用,所以在训练网络前用K-means聚类算法对检测目标重新聚类。最后用Yolov5的训练方式训练本发明的检测网络,网络整体的损失函数Loss如下所示:
Figure BDA0003961762830000071
其中Lcls是分类损失,Lobj是置信度损失,Lloc是定位损失,
Figure BDA0003961762830000072
是平衡系数。
本发明所提出的系统,其优点在于:
(1)通过生成对抗网络训练出一种Unet型网络结构的生成器,能够自适应地处理由于自然光线不好或者无人机位置不合适导致曝光问题。
(2)在检测网络中使用Self-Block和BiFPN-S可以提高网络性能、提高小目标检测的精度。
本发明公开一种基于深度学习的无人机场景下小目标检测方法,该方法可以提高小目标检测的性能,并且可以应对因自然光线不好或无人机角度不合适而造成的弱光情况对小目标检测的干扰。
以上所述,仅为本发明专利中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述方法包括:
将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中,输出正常光线的图像;
将正常光照的图像输入目标检测主干网络中,输出多个多维矩阵特征图,所述目标检测网络以卷积块Self-Block为基础融合了通道注意力机制和空间注意力机制,采用7*7的大卷积核;
将多个多维矩阵特征图输入特征金字塔BiFPN-S模块进行特征融合,输出相应的多个特征图用于预测不同尺寸的目标。
2.根据权利要求1所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述生成器的训练方法包括:
选择弱光图像和正常光照的图像;
将弱光图像和正常光照的图像输入鉴别器与生成器中,通过鉴别器指导生成器生成更加真实的图像;
生成器与相对鉴别器采用交替训练使得生成的图像无限逼近正常光照图像,将生成器部分作为训练好的生成器。
3.根据权利要求2所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述鉴别器的结构公式如下:
Figure FDA0003961762820000011
Figure FDA0003961762820000012
其中xr表示从正常图像中采样,而xf表示从生成器生成的图像中采样,σ表示sigmoid函数,C(x)表示图像是真实正常光照图像的概率,E()表示数学期望。
4.根据权利要求2所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述生成器损失函数LossG如下:
Figure FDA0003961762820000013
E()表示数学期望,D()表示鉴别器的输出。
5.根据权利要求2所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述鉴别器的损失函数LossD如下:
Figure FDA0003961762820000021
E()表示数学期望,D()表示鉴别器的输出。
6.根据权利要求1所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述通道注意力机制等价的公式如下所示:
w=σ(C1D[AugPool(y);MaxPool(x)]) (5)
其中AugPool()代表全局平均池化后的1*1*C矩阵,MaxPool()代表最大池化后的1*1*C矩阵,C1D代表一维卷积运算,σ表示sigmoid函数。
7.根据权利要求1所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述空间注意力机制等价的公式如下所示:
W=σ(Conv7*7[AugPool(y);MaxPool(x)]) (6)
AugPool()代表全局平均池化后的H*W*C矩阵,MaxPool()代表最大池化后的H*W*C矩阵,Conv7*7()表示卷积核大小为7*7的卷积运算,σ表示sigmoid函数。
8.根据权利要求1所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述方法还包括:
将无人机拍摄的画面用K-means聚类算法对检测目标重新聚类。
CN202211481338.4A 2022-11-24 2022-11-24 一种基于深度学习的无人机场景下小目标检测的方法 Pending CN115719457A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202211481338.4A CN115719457A (zh) 2022-11-24 2022-11-24 一种基于深度学习的无人机场景下小目标检测的方法
PCT/CN2023/086257 WO2024108857A1 (zh) 2022-11-24 2023-04-04 一种基于深度学习的无人机场景下小目标检测的方法
US18/326,999 US11881020B1 (en) 2022-11-24 2023-05-31 Method for small object detection in drone scene based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211481338.4A CN115719457A (zh) 2022-11-24 2022-11-24 一种基于深度学习的无人机场景下小目标检测的方法

Publications (1)

Publication Number Publication Date
CN115719457A true CN115719457A (zh) 2023-02-28

Family

ID=85256204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211481338.4A Pending CN115719457A (zh) 2022-11-24 2022-11-24 一种基于深度学习的无人机场景下小目标检测的方法

Country Status (2)

Country Link
CN (1) CN115719457A (zh)
WO (1) WO2024108857A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881020B1 (en) 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning
WO2024108857A1 (zh) * 2022-11-24 2024-05-30 南京邮电大学 一种基于深度学习的无人机场景下小目标检测的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950467B (zh) * 2020-08-14 2021-06-25 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN114581799A (zh) * 2022-02-18 2022-06-03 南京航空航天大学 一种基于多尺度特征融合的无人机小目标检测方法
CN115719457A (zh) * 2022-11-24 2023-02-28 南京邮电大学 一种基于深度学习的无人机场景下小目标检测的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881020B1 (en) 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning
WO2024108857A1 (zh) * 2022-11-24 2024-05-30 南京邮电大学 一种基于深度学习的无人机场景下小目标检测的方法

Also Published As

Publication number Publication date
WO2024108857A1 (zh) 2024-05-30

Similar Documents

Publication Publication Date Title
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN114170497B (zh) 一种基于注意力模块的多尺度水下鱼群检测方法
CN115719457A (zh) 一种基于深度学习的无人机场景下小目标检测的方法
CN110853032A (zh) 基于多模态深度学习的无人机视频美学质量评价方法
US11881020B1 (en) Method for small object detection in drone scene based on deep learning
CN110022422B (zh) 一种基于密集连接网络的视频帧序列生成方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN112465727A (zh) 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法
CN112418087B (zh) 一种基于神经网络的水下视频鱼类识别方法
CN115862066A (zh) 一种改进YOLOv5的轻量化社区场景下行人检测方法
CN114463677A (zh) 一种基于全局注意力的安全帽配戴检测方法
CN114092793B (zh) 适用于复杂水下环境的端到端生物目标检测方法
CN115861799A (zh) 基于注意力梯度的轻量化空对地目标检测方法
CN115331141A (zh) 一种基于改进YOLO v5的高空烟火检测方法
CN117036875B (zh) 一种基于融合注意力gan的红外弱小移动目标生成算法
CN113743505A (zh) 基于自注意力和特征融合的改进ssd目标检测方法
CN115035010A (zh) 一种由卷积网络引导模型映射的水下图像增强方法
CN114821356B (zh) 一种精确定位的光学遥感目标检测方法
CN116188859A (zh) 一种基于超分和检测网络的茶叶病害无人机遥感监测方法
CN111881803A (zh) 一种基于改进YOLOv3的畜脸识别方法
CN116664421A (zh) 一种基于多光照角度图像融合的航天器图像去阴影的方法
CN112084815A (zh) 一种基于摄像机焦距变换的目标检测方法、存储介质及处理器
Li et al. Fusion enhancement: UAV target detection based on multi-modal GAN
CN112465736B (zh) 一种用于港口船舶监控的红外视频图像增强方法
CN113392740A (zh) 一种基于双重注意力机制的行人重识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination