CN115359376A - 一种无人机视角下轻量级YOLOv4的行人检测方法 - Google Patents

一种无人机视角下轻量级YOLOv4的行人检测方法 Download PDF

Info

Publication number
CN115359376A
CN115359376A CN202211000295.3A CN202211000295A CN115359376A CN 115359376 A CN115359376 A CN 115359376A CN 202211000295 A CN202211000295 A CN 202211000295A CN 115359376 A CN115359376 A CN 115359376A
Authority
CN
China
Prior art keywords
multiplied
module
pedestrian
yolov4
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211000295.3A
Other languages
English (en)
Inventor
袁宁
黎宁
周明龙
张正冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211000295.3A priority Critical patent/CN115359376A/zh
Publication of CN115359376A publication Critical patent/CN115359376A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无人机视角下轻量级YOLOv4的行人检测方法,采用改进的MobileNetv3作为主干特征提取网络,结合YOLOv4框架开展行人的目标检测,并对检测模型进行量化分析,修改网络的结构,削减了模型的参数量和运算成本以达成无人机场景下行人检测的需求;改进的MobileNetv3主要指的是将SE注意力模块替换成SESAM模块,学习通道之间的相似性的同时学习了行人的空间特征,保证模型较小的同时不降低检测的精度;最后采用CIoU的损失函数去计算评价的参数,增加了对目标框尺度的敏感程度;本发明在复杂多变的情况下,能够有效克服不利因素,具有更强的泛化能力,检测效果更好,在智能交通检测等系统中具有良好的应用潜力。

Description

一种无人机视角下轻量级YOLOv4的行人检测方法
技术领域
本发明涉及深度学习和行人检测领域,尤其涉及一种无人机视角下轻量级YOLOv4的行人检测方法。
背景技术
无人机作为一种空中利用无线电遥感的轻型移动设备,具有重量轻、运行成本低、安全性及灵活性高等特点,可以在不同的高度及环境下完成图像采集、目标搜寻及检测等任务。但是无人机场景下的行检测技术还不是非常的成熟,具有数据集较少,检测背景复杂,检测网络要求较高等问题存在。
近年来,深度学习的不断发展使得行人目标检测及快速锁定得到了飞跃式的发展,与传统的机器学习相比,深度学习可以从更加多的数据中提取更加复杂的特征。然而就目前来讲,在无人机行人检测任务中,非刚性的人体的结构复杂,运动的方式和情况多变,检测难度高。
另外,在无人机视角中,若距离较远,行人目标非常小。在经典的目标检测算法中特征提取部分例如AlexNet、ResNet50及VGGNet等网络结构,为了使得图像符合显示区域的大小均采取了设置降采样层模块。这样一来将本就较小的行人目标进一步地缩小,随之带来的是图像质量的下降,自然小目标的特征图提取只有很小的像素数,导致最后的分类器分类效果变差。所以无人机下的对非刚性且目标较小的行人的目标检测是近几年来机器视觉领域的技术难点,逐渐成为近几年来机器视觉领域所关注的热点。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种无人机视角下轻量级YOLOv4的行人检测方法。
本发明为解决上述技术问题采用以下技术方案:
一种无人机视角下轻量级YOLOv4的行人检测方法,包括如下步骤:
步骤1),采用无人机进行数据集的初步构建:采用分帧算法对视频提取单帧图片,构建无人机平台的行人数据集;对行人数据集进行标注,得到带有标签的图像数据集;
步骤2),对图像数据集进行数据增广预处理操作,并采用K-means目标框聚类分析,自适应生成图像数据集下目标框大小;所述数据增广预处理操作包括随机翻转、裁剪、缩放和增加高斯白噪声;
步骤3),搭建改进的MobileNetv3-YOLOv4轻量级行人目标检测网络;所述改进的MobileNetv3-YOLOv4网络是用改进的MobileNetv3网络替换CSP-Darknet53网络作为行人检测网络的特征提取层、并用CIoU损失函数替换IoU损失函数的行人检测网络YOLOv4;
所述改进的MobileNetv3网络是在bottleneck结构的深度可分离卷积模块和Scale操作模块之间增加SESAM注意力模块的MobileNetv3网络;
所述SESAM注意力模块包含压缩模块、激励模块和SAM模块;
所述压缩模块包含一个全局平均池化层,用于将深度可分离卷积模块输出大小为H×W×C的特征向量压缩成1×1×C的特征向量,得到每个通道的全局特征向量并将其输入至激励模块,C代表了模型的通道数,H和W代表图片的高和宽;
所述激励模块包含了两个全连接层,第一个全连接层有C×SERatio神经元,第二个全连接层有C神经元,用于对压缩后的特征向量做非线性变换使其映射到C个通道数的权重上,并将经非线性变换后的特征向量输入至SAM模块,SERatio是通道数量的缩放的参数;
所述SAM模块包含全局最大池化模块、全局平均池化模块和sigmoid激活函数,用于将经非线性变换后的特征向量分别输入全局最大池化模块、全局平均池化模块,得到两个H×W×1的特征向量后链接起来形成一个H×W×2的特征向量,并将该H×W×2的特征向量通过sigmoid激活函数进行归一化处理输出至Scale操作模块;
所述CIoU损失函数的公式如下:
LCIoU=1-CIoU
CIoU=IoU-ρ2c-2-αν
Figure BDA0003807172060000021
式中,LCIoU是CIoU损失函数值,IoU是目标预测的边框和真实的边框的交叠率,即它们的交集和并集的比值,A是预测目标框的面积,B是真实目标框的面积;ρ是预测目标框中心与真实目标框之间的欧氏距离;c表示包含预测目标框和真实目标框的对角线距离;惩罚因子ρ2c-2能够最小化预测框中心与地面真值中心之间的距离,α和ν公式由以下定义:
Figure BDA0003807172060000022
Figure BDA0003807172060000023
wgt和hgt是真值的高度和宽度,w和h是预测框的高度和宽度;
步骤4),将经数据增广预处理操作后的图像数据集输入改进的MobileNetv3-YOLOv4轻量级行人目标检测网络,生成格式为ckpt的网络参数权重文件;
步骤5),将网络参数权重文件加载至改进的MobileNetv3-YOLOv4轻量级行人目标检测网络,对分帧图片和视频进行行人目标框的预测,在经过非极大抑制筛选无效的目标框后,得到精确的行人预测的目标框。
作为本发明一种无人机视角下基于MobileNetv3-YOLOv4的行人检测方法进一步的优化方案,所述步骤1)中训练集和测试集的比例分别占图像数据集的90%和10%,训练集中的20%在训练过程中用来验证模型准确性。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1.本发明采用改进的MobileNetv3作为主干特征提取网络,结合YOLOv4框架开展行人的目标检测,并对检测模型进行量化分析,修改网络的结构,削减了模型的参数量和运算成本以达成无人机场景下行人检测的需求;
2.本发明将MobileNetv3的SE注意力模块替换成SESAM模块,学习通道之间的相似性的同时学习了行人的空间特征,保证模型较小的同时不降低检测的精度;
3.本发明采用CIoU的损失函数去计算评价的参数,增加了对目标框尺度的敏感程度;
4.本发明在复杂多变的情况下,能够有效克服不利因素,具有更强的泛化能力,检测效果更好,在智能交通检测等系统中具有良好的应用潜力。
附图说明
图1为本发明方法原理图;
图2为特征提取层结构图;
图3为改进的MobileNetv3-YOLOv4网络的结构图;
图4为SESAM注意力模块结构图;
图5为锚框数量和精确度的参数曲线。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。在附图中,为了清楚起见放大了组件。
如图1所示,本发明提供了一种无人机视角下的轻量级行人检测方法,包括:
步骤1),采用无人机进行数据集的初步构建:利用无人机采集视频数据,并采用分帧算法对视频提取单帧图片,构建无人机平台行人数据集,采集到的图片分辨率为3840×2160,位深度为24的高像素图像;
对采集的无人机视角的行人目标数据集进行标注处理,数据集共计3243张行人图像,得到带有标签的图像数据集,其中xml标注文件与原图片一一对应,并划分数据集为训练集和测试集,其中训练集和测试集的比例分别占总数据集的90%和10%,训练集中的20%在训练过程中用来验证模型准确性;
步骤2),对图像数据集进行数据增广预处理操作,并采用K-means目标框聚类分析,自适应生成图像数据集下目标框大小;所述数据增广预处理操作包括随机翻转、裁剪、缩放和增加高斯白噪声,无人机行人数据集从3423张扩充到了11008张图片;;
步骤3),搭建改进的MobileNetv3-YOLOv4轻量级行人目标检测网络;所述改进的MobileNetv3-YOLOv4网络是用改进的MobileNetv3网络替换CSP-Darknet53网络作为行人检测网络的特征提取层、并用CIoU损失函数替换IoU损失函数的行人检测网络YOLOv4;
所述改进的MobileNetv3网络是在bottleneck结构的深度可分离卷积模块和Scale操作模块之间增加SESAM注意力模块的MobileNetv3网络,SESAM注意力模块能够更好的对小行人目标检测;
所述SESAM注意力模块如图4所示,所述压缩模块包含一个全局平均池化层,用于将深度可分离卷积模块输出大小为H×W×C的特征向量压缩成1×1×C的特征向量,得到每个通道的全局特征向量并将其输入至激励模块,C代表了模型的通道数,H和W代表图片的高和宽;
所述激励模块包含了两个全连接层,第一个全连接层有C×SERatio神经元,第二个全连接层有C神经元,用于对压缩后的特征向量做非线性变换使其映射到C个通道数的权重上,并将经非线性变换后的特征向量输入至SAM模块,SERatio是通道数量的缩放的参数;
所述SAM模块包含全局最大池化模块、全局平均池化模块和sigmoid激活函数,用于将经非线性变换后的特征向量分别输入全局最大池化模块、全局平均池化模块,得到两个H×W×1的特征向量后链接起来形成一个H×W×2的特征向量,并将该H×W×2的特征向量通过sigmoid激活函数进行归一化处理输出至Scale操作模块;
如图3所示将改进的MobileNetv3应用于YOLOv4上更换原有的CSP-DarkNet53主干网络,以减小模型的参数量,提升模型的运算速度,使模型轻量化;
所述CIoU损失函数替换了IoU损失函数对模型进行回归训练,公式如下:
LCIoU=1-CIoU
CIoU=IoU-ρ2c-2-αν
Figure BDA0003807172060000051
式中,LCIoU是CIoU损失函数值,IoU是目标预测的边框和真实的边框的交叠率,即它们的交集和并集的比值,A是预测目标框的面积,B是真实目标框的面积,预测的框和真实的边框重合度越高,越趋近于1,所以这里采用LIoU=1-IoU来度量两者之间的重合度;ρ是预测目标框中心与真实目标框之间的欧氏距离;c表示包含预测目标框和真实目标框的对角线距离;惩罚因子ρ2c-2能够最小化预测框中心与地面真值中心之间的距离,α和ν公式由以下定义:
Figure BDA0003807172060000052
Figure BDA0003807172060000053
wgt和hgt是真值的高度和宽度,w和h是预测框的高度和宽度;
步骤4),对将经数据增广预处理操作后的图像数据集输入改进的MobileNetv3-YOLOv4轻量级行人目标检测网络,于硬件平台CPU为Intel(R)Xeon(R)CPU E5-2640 0@2.50GHz,GPU的型号为GeForce GTX 1080Ti编写训练脚本等程序。于Ubuntu16.04(运存为32GB)下的Tensorflow-GPU1.4.0软件平台下完成网络平台的搭建以及训练,生成格式为ckpt的网络参数权重文件;
步骤6),将网络参数权重文件加载至改进的MobileNetv3-YOLOv4轻量级行人目标检测网络,对分帧图片和视频进行行人目标框的预测,在经过非极大抑制筛选无效的目标框后,得到精确的行人预测的目标框。
步骤2)中K-means目标框聚类分析如图5所示,选用9作为锚框的数量,此时平均IoU为0.7968。其中,大目标、中目标和小目标分别对应三个锚框大小,分别是[4.33333333,16.17777778][6.175,24.84444444][8.55833333,37.55555556]、[9.31666667,26.19259259][12.56666667,36.20740741][13.325,61.62962963]和[17.55,47.57037037][22.75,67.98518519][33.8,90.32592593],通过这些大小锚框针对大目标行人、中目标行人和小目标行人目标进行预测;
最后,采用检测速度(Fps)、检测平均精度(mAP)、F1-score、权重文件大小等评价指标对本发明中改进的MobileNetv3-YOLOv4轻量级行人目标检测网络进行评估。mAP是各类别平均精确度的平均值,即检测到的各种类别的精确度值的几何意义是PR曲线与x轴包围的面积,C表示检测的类别总数:
Figure BDA0003807172060000061
F1-score越高表示模型的泛化能力越好,是综合Recall和Precision给出的一个综合评价模型好坏的指标,Recall为召回率,Precision是准确率;权重文件越小代表着模型的参数量越少,这样部署客户端的内存要求就越低。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种无人机视角下轻量级YOLOv4的行人检测方法,其特征在于,包括如下步骤:
步骤1),采用无人机进行数据集的初步构建:采用分帧算法对视频提取单帧图片,构建无人机平台的行人数据集;对行人数据集进行标注,得到带有标签的图像数据集;
步骤2),对图像数据集进行数据增广预处理操作,并采用K-means目标框聚类分析,自适应生成图像数据集下目标框大小;所述数据增广预处理操作包括随机翻转、裁剪、缩放和增加高斯白噪声;
步骤3),搭建改进的MobileNetv3-YOLOv4轻量级行人目标检测网络;所述改进的MobileNetv3-YOLOv4网络是用改进的MobileNetv3网络替换CSP-Darknet53网络作为行人检测网络的特征提取层、并用CIoU损失函数替换IoU损失函数的行人检测网络YOLOv4;
所述改进的MobileNetv3网络是在bottleneck结构的深度可分离卷积模块和Scale操作模块之间增加SESAM注意力模块的MobileNetv3网络;
所述SESAM注意力模块包含压缩模块、激励模块和SAM模块;
所述压缩模块包含一个全局平均池化层,用于将深度可分离卷积模块输出大小为H×W×C的特征向量压缩成1×1×C的特征向量,得到每个通道的全局特征向量并将其输入至激励模块,C代表了模型的通道数,H和W代表图片的高和宽;
所述激励模块包含了两个全连接层,第一个全连接层有C×SERatio神经元,第二个全连接层有C神经元,用于对压缩后的特征向量做非线性变换使其映射到C个通道数的权重上,并将经非线性变换后的特征向量输入至SAM模块,SERatio是通道数量的缩放的参数;
所述SAM模块包含全局最大池化模块、全局平均池化模块和sigmoid激活函数,用于将经非线性变换后的特征向量分别输入全局最大池化模块、全局平均池化模块,得到两个H×W×1的特征向量后链接起来形成一个H×W×2的特征向量,并将该H×W×2的特征向量通过sigmoid激活函数进行归一化处理输出至Scale操作模块;
所述CIoU损失函数的公式如下:
LCIoU=1-CIoU
CIoU=IoU-ρ2c-2-αν
Figure FDA0003807172050000011
式中,LCIoU是CIoU损失函数值,IoU是目标预测的边框和真实的边框的交叠率,即它们的交集和并集的比值,A是预测目标框的面积,B是真实目标框的面积;ρ是预测目标框中心与真实目标框之间的欧氏距离;c表示包含预测目标框和真实目标框的对角线距离;惩罚因子ρ2c-2能够最小化预测框中心与地面真值中心之间的距离,α和ν公式由以下定义:
Figure FDA0003807172050000021
Figure FDA0003807172050000022
wgt和hgt是真值的高度和宽度,w和h是预测框的高度和宽度;
步骤4),将经数据增广预处理操作后的图像数据集输入改进的MobileNetv3-YOLOv4轻量级行人目标检测网络,生成格式为ckpt的网络参数权重文件;
步骤5),将网络参数权重文件加载至改进的MobileNetv3-YOLOv4轻量级行人目标检测网络,对分帧图片和视频进行行人目标框的预测,在经过非极大抑制筛选无效的目标框后,得到精确的行人预测的目标框。
2.根据权利要求1所述的无人机视角下基于MobileNetv3-YOLOv4的行人检测方法,其特征在于,所述步骤1)中训练集和测试集的比例分别占图像数据集的90%和10%,训练集中的20%在训练过程中用来验证模型准确性。
CN202211000295.3A 2022-08-19 2022-08-19 一种无人机视角下轻量级YOLOv4的行人检测方法 Pending CN115359376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211000295.3A CN115359376A (zh) 2022-08-19 2022-08-19 一种无人机视角下轻量级YOLOv4的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211000295.3A CN115359376A (zh) 2022-08-19 2022-08-19 一种无人机视角下轻量级YOLOv4的行人检测方法

Publications (1)

Publication Number Publication Date
CN115359376A true CN115359376A (zh) 2022-11-18

Family

ID=84003314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211000295.3A Pending CN115359376A (zh) 2022-08-19 2022-08-19 一种无人机视角下轻量级YOLOv4的行人检测方法

Country Status (1)

Country Link
CN (1) CN115359376A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116959085A (zh) * 2023-07-27 2023-10-27 山东睿芯半导体科技有限公司 一种虹膜定位识别方法、装置、芯片及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116959085A (zh) * 2023-07-27 2023-10-27 山东睿芯半导体科技有限公司 一种虹膜定位识别方法、装置、芯片及终端

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN112884760B (zh) 近水桥梁多类型病害智能检测方法与无人船设备
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
Vaudrey et al. Differences between stereo and motion behaviour on synthetic and real-world stereo sequences
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN113780211A (zh) 一种基于改进型Yolov4-tiny的轻量级飞机检测方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN107622229A (zh) 一种基于融合特征的视频车辆重识别方法与系统
CN112163602A (zh) 一种基于深度神经网络的目标检测方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及系统
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN114241003B (zh) 一种全天候轻量化高实时性海面船只检测与跟踪方法
CN111460980A (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
Kwan et al. Compressive vehicle tracking using deep learning
Zhou et al. YOLO-CIR: The network based on YOLO and ConvNeXt for infrared object detection
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
CN115359376A (zh) 一种无人机视角下轻量级YOLOv4的行人检测方法
Zhang et al. Real-time infrared and visible image fusion network using adaptive pixel weighting strategy
CN117853955A (zh) 一种基于改进YOLOv5的无人机小目标检测方法
CN117152644A (zh) 一种无人机航拍照片的目标检测方法
Ren et al. A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination