CN115620180A - 一种基于改进YOLOv5的航拍图像目标检测方法 - Google Patents

一种基于改进YOLOv5的航拍图像目标检测方法 Download PDF

Info

Publication number
CN115620180A
CN115620180A CN202211298646.3A CN202211298646A CN115620180A CN 115620180 A CN115620180 A CN 115620180A CN 202211298646 A CN202211298646 A CN 202211298646A CN 115620180 A CN115620180 A CN 115620180A
Authority
CN
China
Prior art keywords
aerial image
target
multiplied
layer
yolov5
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211298646.3A
Other languages
English (en)
Inventor
邓月明
陈正浩
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Normal University
Original Assignee
Hunan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Normal University filed Critical Hunan Normal University
Priority to CN202211298646.3A priority Critical patent/CN115620180A/zh
Publication of CN115620180A publication Critical patent/CN115620180A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进YOLOv5的航拍图像目标检测方法,包括获取航拍图像建立数据集,并对数据集进行处理;构建改进YOLOv5航拍图像检测模型YOLOv5‑TOD;将数据集划分为训练集和测试集,并传入YOLOv5‑TOD网络进行训练;使用训练完成的模型对测试集进行检测识别。本发明通过在Backbone中,分别将第三层卷积层与第四层C3层,第七层卷积层与第八层C3层进行拼接(Concat)操作,并分别在两次拼接操作之后引入CBAM(Convolutional Block Attention Module)注意力模块,并将大尺度特征图进行特征融合,剔除了小尺度特征图,在提升网络对小目标检测性能的同时,也减少了网络计算量,实现了对航拍图像的精准检测,同时也拥有较好的实时性。

Description

一种基于改进YOLOv5的航拍图像目标检测方法
技术领域
本发明涉及计算机视觉目标检测领域,特别涉及一种基于改进YOLOv5的航拍图像目标检测方法。
背景技术
随着人工智能技术的广泛应用以及目标检测技术的发展,近年来基于深度学习的目标检测技术发展迅猛,在许多不同的场景下取得了不错的效果。
目前常见的目标检测算法分为两大类:两阶段目标检测(Two-Stage)以及单阶段目标检测(One-Stage)。
两阶段目标检测算法是指先在图像中提取出候选区域,再通过卷积网络进行特征提取等一系列操作,完成目标检测任务;经典的两阶段目标检测算法主要有:RCNN系列,SPP-Net等。
单阶段目标检测算法不用产生候选区域,可以直接从图片中获得目标检测结果,直接实现在神经网络中端到端的训练;经典的单阶段目标检测算法主要有:YOLO系列,SSD等。
相比之下,单阶段目标检测算法拥有更快的检测速度,但检测精度往往不如两阶段目标检测算法。
以YOLO系列为代表的目标检测算法凭借其检测速度快以及良好的检测性能在工业界得到了广泛的应用,但YOLO算法更专注于对中等大小目标的检测,而航拍图像中的目标尺寸小,在图像中的占比低,因此,在小目标检测方面,YOLO算法要实现对航拍图像的实时精准检测仍然具有挑战性。
发明内容
本发明提供了一种基于改进YOLOv5的航拍图像目标检测方法,具有良好的可靠性和实用性,目的是为了改善原YOLOv5网络对航拍图像小目标的检测精度。
本发明提供的技术方案,包括:采用公开数据集AI-TOD,数据集总量20000张航拍图片,包含6个类别,分别为飞机,桥,船,储油罐,游泳池和车辆;构建基于改进YOLOv5的航拍图像检测模型YOLOv5-TOD;选取数据集中的5000张图片,按8:2的比例划定训练集和测试集;原数据集标签文件的数据表现形式为 (X1,Y1,X2,Y2,Classes);
其中(X1,Y1)为目标左上角坐标,(X2,Y2)为目标右下角坐标,Classes为目标类别;编写Python脚本文件将其格式转换为 (Classes,X,Y,W,H),并进行坐标归一化;其中(X,Y)为目标的中心点坐标,W为目标的宽度,H为目标的高度;对数据集标签进行K-means++聚类,得到新的预设锚框;对YOLOv5-TOD航拍图像模型进行训练,得到航拍图像检测模型;利用训练完成的航拍图像检测模型对测试集进行航拍图像检测。
本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案,图像处理部分包括:采用Mosaic数据增强策略对原始图像进行随机翻转,大小缩放,色域增强减弱,图片拼接等操作,扩充数据集。
本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案,其标签处理包括:原数据集标签文件的数据表现形式为 (X1,Y1,X2,Y2,Classes);其中(X1,Y1)为目标左上角坐标,(X2,Y2)为目标右下角坐标,Classes为目标类别。
通过编写Python脚本文件将其格式转换为 (Classes,X,Y,W,H),并进行坐标归一化;其中(X,Y)为目标的中心点坐标,W为目标的宽度,H为目标的高度。
本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案,采用K-means++聚类算法为网络检测层Detect模块初始化不同宽高比例的Anchors,锚框的使用层数为3层,共9组Anchors尺寸。
本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案,所构建的航拍图像检测模型YOLOv5-TOD包括:在该目标检测网络中的Backbone部分,使用两次拼接操作,首先,将第三层卷积层输出的特征图与第四层C3层输出的特征图进行拼接,其次,将第七层卷积层输出的特征图与第八层C3层输出的特征图进行拼接。
最后,分别在两次拼接操作之后添加CBAM注意力模块。
在该目标检测网络中的Neck部分,将原YOLOv5骨干网络的P5层剔除,利用P2,P3,P4层的特征图进行特征融合操作,最终得到160×160,80×80,40×40三种不同尺寸的检测层,其中160×160用于检测微小目标,80×80用于检测小目标,40×40用于检测中等目标。
本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案,注意力模块CBAM包括:CBAM注意力模块使特征图依次通过通道注意力模块和空间注意力模块;通道注意力模块将输入的特征图F(H×W×C)分别逐通道进行平均池化(AveragePooling)与最大池化(Max Pooling),将得到的两个特征图,大小为(1×1×C),分别送入拥有两层全连接层的多层感知机,将输出特征图相加并采用Sigmoid激活,得到通道特征图Mc(1×1×C),将输入的特征图F(H×W×C)和通道特征图进行加权相乘,得到拥有不同比重的特征图F1(H×W×C)。
将通道改进后的特征图F1(H×W×C)分别进行逐像素的通道平均池化和逐像素的通道最大池化,得到两个单通道特征图,大小为(H×W×1),然后利用标准7×7卷积层进行连接和卷积操作,经过Sigmoid激活,得到空间特征图Ms (H×W×1),最后将通道改进后的特征图F1与空间特征图进行加权相乘,得到最终的输出特征图F2(H×W×C)。
本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案,优化器设置为随机梯度下降(SGD),学习率(Learning rate)设置为0.01,训练次数Epoch设置为300,批量大小Batch_Size设置为8,并使用SIoU_Loss作为边界框损失函数,其中SIoU_Loss的计算方法如下。
Figure 551687DEST_PATH_IMAGE001
其中,IoU是真实框和预测框的交并比,Ω代表形状损失,Δ代表距离损失。
本发明提供了一种基于改进YOLOv5的航拍图像目标检测方法,通过对原YOLOv5目标检测网络进行改进优化,能够实现对航拍图像检测的实时性与精确性,并且拥有更高的可靠性。
附图说明
图1为本发明提供的一种基于改进YOLOv5的航拍图像目标检测方法的流程图。
图2为本发明提供的一种基于改进YOLOv5的航拍图像目标检测方法的检测网络结构示意图。
图3为CBAM注意力模块结构原理图。
图4为YOLOv5-TOD航拍图像检测网络的训练效果图。
图5为部分选取的AITOD数据集目标宽高比率分布图。
图6为YOLOv5-TOD航拍图像检测网络的检测效果图。
具体实施方式
图1为本发明方法的流程示意图,本发明提供的一种基于改进YOLOv5的航拍图像目标检测方法,具体包括如下步骤。
S1:获取航拍图像,建立数据集并对图像以及原标签文件进行处理。
采用Mosaic数据增强策略对原始图像进行随机翻转,大小缩放,色域增强减弱,图片拼接等操作,扩充数据集;原数据集标签文件的数据表现形式为 (X1,Y1,X2,Y2,Classes);其中(X1,Y1)为目标左上角坐标,(X2,Y2)为目标右下角坐标,Classes为目标类别。
通过编写Python脚本文件将其格式转换为 (Classes,X,Y,W,H),并进行坐标归一化;其中(X,Y)为目标的中心点坐标,W为目标的宽度,H为目标的高度。
S2:构建改进YOLOv5航拍图像检测模型YOLOv5-TOD,网络结构如图2所示。
原YOLOv5中,Backbone网络主要由Conv,C3和SPPF(Spatial Pyramid Pooling -Fast)构成,卷积层Conv之后连接BN(Batch Normalization)层用以加速训练并防止梯度消失与梯度爆炸,激活函数选择SiLu。
C3模块由Bottleneck模块构成,能够在不增加通道数的同时进行残差特征传递;SPPF模块将输入进行三次级联的最大池化,并将每次池化的结果与输入进行拼接(Concat)操作。在Neck网络中,C3模块采用与Backbone网络不同的CSP2_1结构,同时将Backbone网络提取的P3,P4,P5层进行一系列特征融合,上采样等操作,最终得到80×80,40×40,20×20的检测层。
本发明基于原YOLOv5网络做出如下改进。
在YOLOv5-TOD目标检测网络中的Backbone部分,使用两次拼接操作,首先,将第三层卷积层输出的特征图与第四层C3层输出的特征图进行拼接,其次,将第七层卷积层输出的特征图与第八层C3层输出的特征图进行拼接。
最后,分别在两次拼接操作之后添加CBAM注意力模块,将通道信息和空间信息结合,以增强网络特征提取的能力。
考虑到所用数据集为小目标数据集,故优选大尺寸目标检测层进行检测,同时考虑到网络的计算成本,因此,在YOLOv5-TOD目标检测网络中的Neck部分,选择将原YOLOv5骨干网络的P5层剔除,利用P2,P3,P4层的特征图进行特征融合操作,最终得到160×160,80×80,40×40三种不同尺寸的检测层。
其中160×160用于检测微小目标,80×80用于检测小目标,40×40用于检测中等目标。
CBAM注意力模块结构原理如图3所示。
CBAM注意力模块使特征图依次通过通道注意力模块(Channel AttentionModule)和空间注意力模块(Spatial Attention Module);CBAM注意力模块使特征图依次通过通道注意力模块和空间注意力模块;通道注意力模块将输入的特征图F(H×W×C)分别逐通道进行平均池化(Average Pooling)与最大池化(Max Pooling),将得到的两个特征图,大小为(1×1×C),分别送入拥有两层全连接层的多层感知机,将输出特征图相加并采用Sigmoid激活,得到通道特征图Mc (1×1×C),将输入的特征图F(H×W×C)和通道特征图进行加权相乘,得到拥有不同比重的特征图F1(H×W×C)。
将通道改进后的特征图F1(H×W×C)分别进行逐像素的通道平均池化和逐像素的通道最大池化,得到两个单通道特征图,大小为(H×W×1),然后利用标准7×7卷积层进行连接和卷积操作,经过Sigmoid激活,得到空间特征图Ms (H×W×1),最后将通道改进后的特征图F1与空间特征图进行加权相乘,得到最终的输出特征图F2(H×W×C)。
S3:将数据集按照8:2的比例划分为训练集和测试集,并对数据集标签进行K-means++聚类,得到新的预设锚框,将数据集传入航拍图像检测模型YOLOv5-TOD进行训练,得到航拍图像检测模型。
由K-means++聚类得到的锚框结果为:第一组的锚框尺寸[1,5,3,8,4,3]用于检测微小目标,第二组的锚框尺寸[6,7,7,15,8,4]用于检测小目标,第三组的锚框尺寸[9,8,12,15,16,8]用于检测中等大小的目标。
优化器设置为随机梯度下降(SGD),学习率(Learning rate)设置为0.01,训练次数Epoch设置为300,批量大小Batch_Size设置为8,并使用SIoU_Loss作为边界框损失函数,其中SIoU_Loss的计算方法如下。
Figure 330287DEST_PATH_IMAGE002
Figure 666591DEST_PATH_IMAGE003
Figure 923259DEST_PATH_IMAGE004
Figure 28619DEST_PATH_IMAGE005
Figure 978120DEST_PATH_IMAGE006
Figure 972359DEST_PATH_IMAGE007
Figure 95036DEST_PATH_IMAGE008
Figure 992584DEST_PATH_IMAGE009
其中,IoU是真实框和预测框的交并比,Ω代表形状损失,θ为常数,用于控制Ω在损失中所占的权重,Λ代表角度损失,Δ代表距离损失,wgt、hgt分别表示真实框的宽度与高度,w、h分别表示预测框的宽度与高度,用(B1,B2)表示真实框的中心点坐标,(b1,b2)表示预测框的中心点坐标,c1、c2分别表示真实框中心点与预测框中心点在水平方向和竖直方向上的距离。
本发明的模型训练环境为:CPU使用Intel(R) Xeon(R) W-2102@ 2.90GHz,GPU使用GeForce RTX 2080Ti,运行内存64GB,操作系统为Ubuntu 18.04.3 LTS,深度学习框架为PyTorch。
S4:采用精确率(Precision)、召回率(Recall)、FPS和平均准确率mAP对所得模型进行评估,计算公式如下所示。
Figure 909725DEST_PATH_IMAGE010
Figure 158304DEST_PATH_IMAGE011
Figure 819092DEST_PATH_IMAGE012
其中,TP表示将正样本预测为正样本的个数,FP表示将负样本预测为正样本的个数,FN表示将正样本预测为负样本的个数,P代表精确率,R代表召回率。
利用本发明方法得到的检测模型,其效果对比如下表1所示。
网络结构 mAP@0.5 FPS 精确率(Precision) 召回率(Recall)
YOLOv5 54.9% 83 71.4% 51.9%
YOLOv5-TOD 64.3% 50 74.7% 59.1%
根据表1可知,改进的航拍图像检测网络YOLOv5-TOD在精确率、召回率和平均准确率mAP上,相比于原YOLOv5网络,都有一定程度的提升;mAP提升了9.4%,精确率提升了3.3%,召回率提升了7.2%,同时也能够满足检测的实时性。

Claims (6)

1.一种基于改进YOLOv5的航拍图像目标检测方法,其特征在于,包括:
1.1.采用公开数据集AI-TOD,数据集总量20000张航拍图片,包含6个类别,分别为飞机,桥,船,储油罐,游泳池和车辆;
1.2.构建基于改进YOLOv5的航拍图像检测模型YOLOv5-TOD;
1.3.对数据集图像进行预处理;
1.4.选取数据集中的5000张图片,按8:2的比例划定训练集和测试集;
1.5.原数据集标签文件的数据表现形式为:(X1,Y1,X2,Y2,Classes);其中(X1,Y1)为目标左上角坐标,(X2,Y2)为目标右下角坐标,Classes为目标类别;编写Python脚本文件将其格式转换为:(Classes,X,Y,W,H),并进行坐标归一化;其中(X,Y)为目标的中心点坐标,W为目标的宽度,H为目标的高度;
1.6.对数据集标签进行K-means++聚类,得到新的预设锚框;
1.7.对YOLOv5-TOD航拍图像模型进行训练,得到航拍图像检测模型;
1.8.利用训练完成的航拍图像检测模型对测试集进行航拍图像检测。
2.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法,其特征在于,图像处理部分包括:
采用Mosaic数据增强策略对原始图像进行随机翻转,大小缩放,色域增强减弱,图片拼接等操作,扩充数据集。
3.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法,其特征在于,所述K-means++聚类算法为网络检测层Detect模块初始化不同宽高比例的Anchors,锚框的使用层数为3层,共9组Anchors尺寸。
4.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法,其特征在于,所构建的航拍图像检测模型YOLOv5-TOD包括:
在该目标检测网络中的Backbone部分,使用两次拼接(Concat)操作;首先,将第三层卷积层输出的特征图与第四层C3(CSP Bottleneck with 3 convolutions)层输出的特征图进行拼接,其次,将第七层卷积层输出的特征图与第八层C3层输出的特征图进行拼接,最后,分别在两次拼接操作之后添加CBAM(Convolutional Block Attention Module)注意力模块;
将原YOLOv5骨干网络的P5层剔除,利用P2,P3,P4层的特征图进行特征融合操作,最终得到160×160,80×80,40×40三种不同尺寸的检测层,其中160×160用于检测微小目标,80×80用于检测小目标,40×40用于检测中等目标。
5.如权利要求4所述的一种基于改进YOLOv5的航拍图像目标检测方法,其特征在于,注意力模块CBAM包括:
CBAM注意力模块使特征图依次通过通道注意力模块和空间注意力模块;通道注意力模块将输入的特征图F(H×W×C)分别逐通道进行平均池化(Average Pooling)与最大池化(Max Pooling),将得到的两个特征图(1×1×C),分别送入拥有两层全连接层的多层感知机,将输出特征图相加并采用Sigmoid激活,得到通道特征图Mc (1×1×C),将输入的特征图(H×W×C)和通道特征图进行加权相乘,得到拥有不同比重的特征图F’(H×W×C);
将特征图F’(H×W×C)分别进行逐像素的通道平均池化和逐像素的通道最大池化,得到两个单通道特征图(H×W×1),然后利用标准7×7卷积层进行连接和卷积操作,经过Sigmoid激活,得到空间特征图Ms (H×W×1),最后将通道特征图F’与空间特征图进行加权相乘,得到最终的输出特征图F’’ (H×W×C)。
6.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法,其特征在于,优化器设置为随机梯度下降(SGD),学习率(Learning rate)设置为0.01,训练次数Epoch设置为300,批量大小Batch_Size设置为8,并使用SIoU_Loss作为边界框损失函数,其中SIoU_Loss的计算方法为:
Figure 567186DEST_PATH_IMAGE001
其中,IoU是真实框和预测框的交并比,Ω代表形状损失,Δ代表距离损失。
CN202211298646.3A 2022-10-24 2022-10-24 一种基于改进YOLOv5的航拍图像目标检测方法 Pending CN115620180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211298646.3A CN115620180A (zh) 2022-10-24 2022-10-24 一种基于改进YOLOv5的航拍图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211298646.3A CN115620180A (zh) 2022-10-24 2022-10-24 一种基于改进YOLOv5的航拍图像目标检测方法

Publications (1)

Publication Number Publication Date
CN115620180A true CN115620180A (zh) 2023-01-17

Family

ID=84864162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211298646.3A Pending CN115620180A (zh) 2022-10-24 2022-10-24 一种基于改进YOLOv5的航拍图像目标检测方法

Country Status (1)

Country Link
CN (1) CN115620180A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152580A (zh) * 2023-04-18 2023-05-23 江西师范大学 一种复杂场景小目标的数据处理检测方法及数据训练方法
CN116245732A (zh) * 2023-03-13 2023-06-09 江南大学 一种基于YOLOv5的小目标反光衣识别检测方法
CN116935221A (zh) * 2023-07-21 2023-10-24 山东省计算中心(国家超级计算济南中心) 一种基于物联网的植保无人机杂草深度学习检测方法
CN117456389A (zh) * 2023-11-07 2024-01-26 西安电子科技大学 一种基于YOLOv5s的改进型无人机航拍图像密集和小目标识别方法、系统、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116245732A (zh) * 2023-03-13 2023-06-09 江南大学 一种基于YOLOv5的小目标反光衣识别检测方法
CN116152580A (zh) * 2023-04-18 2023-05-23 江西师范大学 一种复杂场景小目标的数据处理检测方法及数据训练方法
CN116152580B (zh) * 2023-04-18 2023-08-15 江西师范大学 一种复杂场景小目标的数据训练方法
CN116935221A (zh) * 2023-07-21 2023-10-24 山东省计算中心(国家超级计算济南中心) 一种基于物联网的植保无人机杂草深度学习检测方法
CN116935221B (zh) * 2023-07-21 2024-02-13 山东省计算中心(国家超级计算济南中心) 一种基于物联网的植保无人机杂草深度学习检测方法
CN117456389A (zh) * 2023-11-07 2024-01-26 西安电子科技大学 一种基于YOLOv5s的改进型无人机航拍图像密集和小目标识别方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110503112B (zh) 一种增强特征学习的小目标检测及识别方法
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
US11361546B2 (en) Action recognition in videos using 3D spatio-temporal convolutional neural networks
CN115620180A (zh) 一种基于改进YOLOv5的航拍图像目标检测方法
CN109902806B (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
US9965719B2 (en) Subcategory-aware convolutional neural networks for object detection
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
US20180114071A1 (en) Method for analysing media content
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN115035361A (zh) 基于注意力机制和特征交叉融合的目标检测方法及系统
CN113177560A (zh) 一种普适性轻量级深度学习车辆检测方法
CN110826411B (zh) 一种基于无人机图像的车辆目标快速识别方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN113743505A (zh) 基于自注意力和特征融合的改进ssd目标检测方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
CN115565044A (zh) 一种目标检测方法及系统
CN116579992A (zh) 一种用于无人机巡检的小目标螺栓缺陷检测方法
CN115273032A (zh) 交通标志识别方法、装置、设备及介质
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN112949635B (zh) 一种基于特征增强和IoU感知的目标检测方法
CN112101113B (zh) 一种轻量化的无人机图像小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination