CN116152580A - 一种复杂场景小目标的数据处理检测方法及数据训练方法 - Google Patents

一种复杂场景小目标的数据处理检测方法及数据训练方法 Download PDF

Info

Publication number
CN116152580A
CN116152580A CN202310414588.4A CN202310414588A CN116152580A CN 116152580 A CN116152580 A CN 116152580A CN 202310414588 A CN202310414588 A CN 202310414588A CN 116152580 A CN116152580 A CN 116152580A
Authority
CN
China
Prior art keywords
network
bounding box
training
data
complex scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310414588.4A
Other languages
English (en)
Other versions
CN116152580B (zh
Inventor
刘刚
王冰冰
周杰
王磊
史魁杰
曾辉
张金烁
胡莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202310414588.4A priority Critical patent/CN116152580B/zh
Publication of CN116152580A publication Critical patent/CN116152580A/zh
Application granted granted Critical
Publication of CN116152580B publication Critical patent/CN116152580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种复杂场景小目标的数据处理检测方法及数据训练方法,采用交叉熵函数、Epoch、PyTorch、SGD、卷积神经网络架构等技术组合,其中卷积神经网络架构使用的是YOLOv5架构,主要包括Focus、CBS、CSP和SPP模块,训练结束生成的模型,可以对复杂场景下的小目标进行实时检测。本发明可以有效缓解小目标检测中存在的聚集、遮挡及特征提取不充分的问题,并对新图像进行检测,并给出对应的识别与分类。

Description

一种复杂场景小目标的数据处理检测方法及数据训练方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种复杂场景小目标的数据处理检测方法及数据训练方法。
背景技术
目标检测是计算机视觉领域的重要问题之一,它可以应用于诸如自动驾驶、安防监控、人脸识别等领域。
复杂场景下的小目标检测场景通常包括,大场景,大场景中存在大量的目标和背景,小目标很容易被淹没在大量的背景中,难以被有效地检测出来;遮挡场景,小目标容易被遮挡,例如人群中的行人、车流中的摩托车、森林中的小动物等,往往会被周围的物体或者植被所遮挡,导致检测结果不准确;多变光照场景,光照条件的不断变化,往往会导致小目标的外观发生变化,例如在日落时分拍摄的人像和在正午时分拍摄的人像,往往具有明显的差异。
传统的目标检测方法通常采用滑动窗口和金字塔等方式对图像进行多次扫描,再使用分类器对每个窗口进行分类。但是,对于小目标来说,由于其尺寸较小,存在多种问题,如低分辨率、模糊和严重的遮挡等问题,这些问题使得传统的目标检测方法在小目标检测上的效果很难得到保证。
而深度学习技术的兴起为小目标检测带来了新的机遇,深度学习技术通过神经网络的训练,可以从大量数据中学习到特征,进而提高目标检测的准确率和速度。在小目标检测中,研究者们提出了一系列基于深度学习的方法,如Faster R-CNN、YOLO、SSD等,这些方法在一定程度上解决了小目标检测的问题。
但是,由于小目标的尺寸和特征与背景的差异较小,这些方法仍然存在一些限制,例如检测精度不高、漏检率高等问题。
这个时候建立良好的复杂场景小目标的数据处理检测方法,再结合复杂场景下的小目标数据集和YOLOv5网络,根据自身经验建立的多个训练模型,一方面提高复杂场景下小目标检测的准确率和效率,另一方面当训练完毕后,生成的神经网络模型还可以做到面对新的数据集或实时图像,检测出其中的人、自行车、轿车、面包车、卡车、三轮车、公共汽车和摩托车,依然可以保持良好的小目标检测准确率以及效率,对自动驾驶、安防监控、智能家居等行业都非常有意义。
发明内容
本发明的目的是为了提供一种复杂场景小目标的数据处理检测方法及数据训练方法。
本发明所要解决的问题是:
提出一种复杂场景小目标的数据处理检测方法结合数据训练方法,加强网络对小目标的敏感度,获得更多小目标初始特征和位置信息,最后结合YOLOv5网络和注意力机制进行模型训练,当模型训练完毕后,模型可以做到面对人、自行车、轿车、面包车、卡车、三轮车、公共汽车和摩托车等目标,依然可以保持良好的检测效率和检测质量。
一种复杂场景小目标的数据处理检测方法及数据训练方法采用的技术方案如下:
一种复杂场景小目标的数据处理检测方法,包括以下步骤:
S31:结合特征金字塔网络和路径聚合网络的思想,在YOLOv5网络结构中CSP2_1结构层的80×80预测特征层的基础上,加入与原网络相同的1×1卷积层和上采样层,将原YOLOv5的Neck网络的特征层再进行一次上采样,将其分辨率由80×80扩大到160×160,以获取小目标更为浅层的初始信息;
S32:将扩展后的高分辨率特征图与主干网络浅层特征进行特征融合,得到具备大量语义信息和位置信息的特征层,主干网络上的浅层特征图尺寸大小为160×160,而在进行特征增强时,需要保持融合的两个特征图具有相同的分辨率,后续对应增加一个尺寸为160×160的预测分支,并且由于添加的预测分支是由浅层具有更高分辨率的特征信息生成的,含有更多的小目标初始特征和位置信息,因此对小目标更加敏感;
S33:将融合后的特征层输入到卷积层中进行下采样,其中卷积核为3,步距为2,最后将其与原本卷积层输出结果进行融合。
一种数据训练方法,包括以下步骤:
S41:数据准备,需准备复杂场景下小目标图像数据集,其中存在大量小目标,小目标种类有:人、自行车、轿车、面包车、卡车、三轮车、公共汽车和摩托车,训练及使用前根据卷积网络的要求,将图片统一大小,以保证后续计算顺利进行;
S42:数据增强,为了提高训练出来的模型性能以及模型的泛化能力,在进行训练之前对图像进行数据翻转和mosaic处理;
S43:将上述的一种复杂场景小目标的数据处理检测方法与YOLOv5相结合,并结合注意力机制,建立最终检测网络,训练模型,模型训练在进行梯度下降的过程中,初始学习率设置为0.01,并通过"one-cycle policy"学习率调整策略和"AutoSelect"学习率自适应选择策略来动态改变和选择学习率,降低损失,以提高准确率;
S44:使用二元交叉熵损失函数用于对象损失,计算公式为:
Figure SMS_1
,其中
Figure SMS_2
表示所有格子即像素点的个数,
Figure SMS_3
表示预测的第i个格子中第j 个边界框是否包含目标,B表示每个格子预测的边界框数量,
Figure SMS_4
是一个指示函数,当格子i中第j个边界框包含目标时为1,否则为 0,
Figure SMS_5
则表示当格子i中第j个边界框不包含目标时为 1,否则为 0;
使用二元交叉熵损失函数用于类别损失,计算公式为:
Figure SMS_6
,其中
Figure SMS_7
表示预测的第i个格子中第j个边界框属于第c个类别的概率,
Figure SMS_8
是一个指示函数,当边界框属于第c个类别时为 1,否则为0;
使用均方误差损失用于边界框坐标损失,计算公式为:
Figure SMS_10
,其中
Figure SMS_13
Figure SMS_15
分别表示第i个格子中第j个边界框的预测中心的横坐标、预测中心的纵坐标、宽度和高度,
Figure SMS_9
Figure SMS_12
Figure SMS_14
Figure SMS_16
分别表示第i个格子中第j个边界框的真实中心的横坐标、真实中心的纵坐标、宽度和高度,t用于表示具体位置的x、y、w、h四个参数,用于计算指定位置各参数的均方差,
Figure SMS_11
是一个超参数,用于平衡边界框坐标损失和其他损失的权重;
使用GIOU损失函数计算预测框与真实框之间的重叠程度,计算公式为:
Figure SMS_18
Figure SMS_21
,其中
Figure SMS_23
是一个包含预测框和真实框的最小闭合区域的面积,
Figure SMS_19
表示第i个格子中第j个边界框的真实坐标,
Figure SMS_20
表示预测的坐标,
Figure SMS_22
表示预测坐标与真实坐标的交集与并集的比值,用于预测的边界框与真实边界框之间的
Figure SMS_24
Figure SMS_17
是广义交并比;
S45:YOLOv5网络在后处理阶段使用非极大值抑制来处理网络输出的边界框;
S46:模型训练,训练每一个Epoch都包括了前向传播和后向传播,并且不断迭代,在迭代后期,学习率降低频率增快,损失逐渐降低,准确率缓慢增加;
其中上述步骤S42中的Mosaic数据增强是利用了四张图片,对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的框,然后将这样一张新的图片传入到神经网络当中去学习,相当于直接传入四张图片进行学习,丰富了检测物体的背景。
其中上述步骤S43中的"one-cycle policy"学习率调整策略是一种基于学习率随时间变化的周期函数的训练方法,能够在训练过程中自适应地调整学习率,以提高训练效率和准确性,这种策略可以帮助模型更快地收敛,并且具有一定的泛化性能,而"AutoSelect"学习率自适应选择策略可以自动选择最优的学习率,并调整学习率的变化率和初始值以适应数据集和模型的不同。
其中上述步骤S45中在YOLOv5网络的前向传播过程中,网络输出一个包含多个边界框的预测结果。每个边界框包含了预测的物体类别、位置以及置信度等信息,在非极大值抑制的处理过程中,首先对于同一类别的边界框,根据它们的置信度排序,选择置信度最高的边界框作为最终的预测结果。然后,对于其余边界框,计算它们与最终预测结果的
Figure SMS_25
(Intersection over Union,交并比)值,若
Figure SMS_26
值大于一定阈值,则将其删除。这个过程将不断迭代,直到所有的边界框都被处理完毕。
其中上述步骤S46中的前向传播的目的是通过反复调整网络参数,使得输出结果逐渐接近标签数据,从而提高模型的预测准确率,在训练过程的前向传播阶段,由于网络参数是随机初始化的,输出结果很可能与标签数据存在较大差距,因此需要通过反向传播来调整网络参数,从而优化网络模型的性能。
本发明的有益效果:复杂场景下的小目标检测的大量聚集和严重的遮挡等特点带来的检测精度不高、漏检率高、低分辨率、模糊的问题可以通过复杂场景小目标的数据处理检测方法中增加的更多小目标初始特征、位置信息的预测分支及特征的融合,以及注意力机制进一步缓解。具体来说,通过训练复杂场景下的小目标检测模型(包括卷积神经网络架构、注意力机制以及复杂场景小目标的数据处理检测方法),可以把复杂场景下的的小目标以较高的效率和准确率检测出来,这些目标包括人、自行车、轿车、面包车、卡车、三轮车、公共汽车和摩托车。
对比来说,在训练过程中,针对同样的训练模型,常规的算法,常规的神经架构,过于依赖训练工程师的经验,需要有经验的训练工程师手动调节参数,训练效率不高。
如果采用其他经典架构,训练的准确度大致分布在10%-30%,即使训练数千个epoch,都很难达到50%的准确度。
附图说明
图1为本发明中最终模型示意图;
图2为本发明中迭代验证过程中指标变化示意图;
图3为本发明中与其它经典网络架构性能比较。
具体实施方式
下面结合说明书附图对本发明进一步清楚完整说明,但本发明的保护范围并不仅限于此。
实施例
如图1至图3所示,一种复杂场景小目标的数据处理检测方法及数据训练方法,其中一种复杂场景小目标的数据处理检测方法,包括以下步骤:
S31:结合特征金字塔网络和路径聚合网络的思想,在YOLOv5网络结构中CSP2_1结构层的80×80预测特征层的基础上,加入与原网络相同的1×1卷积层和上采样层,将原YOLOv5的Neck网络的特征层再进行一次上采样,将其分辨率由80×80扩大到160×160,以获取小目标更为浅层的初始信息;
S32:将扩展后的高分辨率特征图与主干网络浅层特征进行特征融合,得到具备大量语义信息和位置信息的特征层,主干网络上的浅层特征图尺寸大小为160×160,而在进行特征增强时,需要保持融合的两个特征图具有相同的分辨率,后续也必须对应增加一个尺寸为160×160的预测分支,如图1所示,并且由于添加的预测分支是由浅层具有更高分辨率的特征信息生成的,含有更多的小目标初始特征和位置信息,因此对小目标更加敏感;
S33:将融合后的特征层输入到卷积层中进行下采样,其中卷积核为3,步距为2,最后将其与原本卷积层输出结果进行融合。
一种数据训练方法,包括以下步骤:
S41:数据准备,需准备复杂场景下小目标图像数据集,其中存在大量小目标,小目标种类有:人、自行车、轿车、面包车、卡车、三轮车、公共汽车和摩托车,训练及使用前根据卷积网络的要求,将图片统一大小,以保证后续计算顺利进行;
S42:数据增强,为了提高训练出来的模型性能以及模型的泛化能力,在进行训练之前对图像进行数据翻转和mosaic处理;
S43:将上述的一种复杂场景小目标的数据处理检测方法与YOLOv5相结合,并结合注意力机制(注意力机制指通过快速扫描全局图像,获得需要重点关注的目标区域,得到注意力焦点,而后对这一区域投入更多注意力,以获取更多需要关注目标的细节信息,从而抑制其他无用信息,现有的注意力机制如channel-wise attention等),建立最终检测网络,训练模型,模型训练在进行梯度下降的过程中,初始学习率设置为0.01,并通过"one-cyclepolicy"学习率调整策略和"AutoSelect"学习率自适应选择策略来动态改变和选择学习率,降低损失,以提高准确率;
S44:使用二元交叉熵损失函数用于对象损失,计算公式为:
Figure SMS_27
,其中
Figure SMS_28
表示所有格子即像素点的个数,
Figure SMS_29
表示预测的第i个格子中第j 个边界框是否包含目标,B表示每个格子预测的边界框数量,
Figure SMS_30
是一个指示函数,当格子i中第j个边界框包含目标时为 1,否则为0,
Figure SMS_31
则表示当格子i中第j个边界框不包含目标时为 1,否则为 0;
使用二元交叉熵损失函数用于类别损失,计算公式为:
Figure SMS_32
,其中
Figure SMS_33
表示预测的第i个格子中第j个边界框属于第c个类别的概率,
Figure SMS_34
是一个指示函数,当边界框属于第c个类别时为1,否则为 0;
使用均方误差损失用于边界框坐标损失,计算公式为:
Figure SMS_37
,其中
Figure SMS_39
Figure SMS_41
分别表示第i个格子中第j个边界框的预测中心的横坐标、预测中心的纵坐标、宽度和高度,
Figure SMS_36
Figure SMS_38
Figure SMS_40
Figure SMS_42
分别表示第i个格子中第j个边界框的真实中心的横坐标、真实中心的纵坐标、宽度和高度,t用于表示具体位置的x、y、w、h四个参数,用于计算指定位置各参数的均方差,
Figure SMS_35
是一个超参数,用于平衡边界框坐标损失和其他损失的权重;
使用GIOU损失函数计算预测框与真实框之间的重叠程度,计算公式为:
Figure SMS_45
Figure SMS_47
,其中
Figure SMS_49
是一个包含预测框和真实框的最小闭合区域的面积,
Figure SMS_44
表示第i个格子中第j个边界框的真实坐标,
Figure SMS_46
表示预测的坐标,
Figure SMS_48
表示预测坐标与真实坐标的交集与并集的比值,用于预测的边界框与真实边界框之间的
Figure SMS_50
Figure SMS_43
是广义交并比;
S45:YOLOv5网络在后处理阶段使用非极大值抑制来处理网络输出的边界框;
S46:模型训练,训练200个epoch(周期),其中每个epoch都包括了前向传播和后向传播,并且不断迭代,在迭代后期,学习率降低频率增快,损失逐渐降低,mAP、mAP 50缓慢增加,其中mAP指平均精度、mAP 50指
Figure SMS_51
即交并比阈值0.5下的平均精度,如图2所示,最终模型性能优于其他经典架构,如图3所示,其中图3中SSD300、Retina-Net、Faster R-CNN、YOLOX均为常用的目标检测模型;
其中上述步骤S42中的Mosaic数据增强是利用了四张图片,对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的框,然后将这样一张新的图片传入到神经网络当中去学习,相当于直接传入四张图片进行学习,丰富了检测物体的背景。
所述步骤S43中的"one-cycle policy"学习率调整策略是一种基于学习率随时间变化的周期函数的训练方法,能够在训练过程中自适应地调整学习率,以提高训练效率和准确性,这种策略可以帮助模型更快地收敛,并且具有一定的泛化性能,而"AutoSelect"学习率自适应选择策略可以自动选择最优的学习率,并调整学习率的变化率和初始值以适应数据集和模型的不同。
所述步骤S45中在YOLOv5网络的前向传播过程中,网络输出一个包含多个边界框的预测结果。每个边界框包含了预测的物体类别、位置以及置信度等信息,在非极大值抑制的处理过程中,首先对于同一类别的边界框,根据它们的置信度排序,选择置信度最高的边界框作为最终的预测结果。然后,对于其余边界框,计算它们与最终预测结果的
Figure SMS_52
(Intersection over Union,交并比)值,若
Figure SMS_53
值大于一定阈值,则将其删除。这个过程将不断迭代,直到所有的边界框都被处理完毕。
所述步骤S46中的前向传播的目的是通过反复调整网络参数,使得输出结果逐渐接近标签数据,从而提高模型的预测准确率,在训练过程的前向传播阶段,由于网络参数是随机初始化的,输出结果很可能与标签数据存在较大差距,因此需要通过反向传播来调整网络参数,从而优化网络模型的性能。
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。
本发明建立良好的复杂场景小目标的数据处理检测方法,再结合注意力机制、复杂场景下的小目标数据集和YOLOv5网络,根据自身经验建立的多个训练模型,一方面提高复杂场景下小目标检测的准确率和效率,另一方面当训练完毕后,生成的神经网络模型还可以做到面对新的数据集或实时图像,检测出其中的目标,并且保持良好的小目标检测准确率以及效率。

Claims (3)

1.一种复杂场景小目标的数据处理检测方法,其特征在于,包括以下步骤:
S31:结合特征金字塔网络和路径聚合网络的思想,在YOLOv5网络结构中CSP2_1结构层的80×80预测特征层的基础上,加入与原网络相同的1×1卷积层和上采样层,将原YOLOv5的Neck网络的特征层再进行一次上采样,将其分辨率由80×80扩大到160×160,以获取小目标更为浅层的初始信息;
S32:将扩展后的高分辨率特征图与主干网络浅层特征进行特征融合,得到具备若干语义信息和位置信息的特征层;
S33:将融合后的特征层输入到卷积层中进行下采样,其中卷积核为3,步距为2,最后将其与原本卷积层输出结果进行融合。
2.根据权利要求1所述的一种复杂场景小目标的数据处理检测方法,其特征在于,
其中步骤S32中主干网络上的浅层特征的特征图尺寸大小为160×160,保证步骤S32进行特征融合时,高分辨率特征图与主干网络浅层特征的特征图分辨率一致。
3.一种数据训练方法,其特征在于,包括以下步骤:
S41:数据准备,需准备复杂场景下小目标图像数据集,其中存在大量小目标,小目标种类有:人、自行车、轿车、面包车、卡车、三轮车、公共汽车和摩托车,训练及使用前根据卷积网络的要求,将图片统一大小,以保证后续计算顺利进行;
S42:数据增强,在进行训练之前对图像进行数据翻转和mosaic处理;
S43:采用权利要求1-2任一项所述的一种复杂场景小目标的数据处理检测方法与YOLOv5相结合,并结合注意力机制,建立最终检测网络,训练模型,模型训练在进行梯度下降的过程中,初始学习率设置为0.01,并通过"one-cycle policy"学习率调整策略和"AutoSelect"学习率自适应选择策略来动态改变和选择学习率,降低损失,以提高准确率;
S44:使用二元交叉熵损失函数用于对象损失,计算公式为:
Figure QLYQS_1
,其中
Figure QLYQS_2
表示所有格子即像素点的个数,其中
Figure QLYQS_3
表示预测的第i个格子中第j 个边界框是否包含目标,B表示每个格子预测的边界框数量,
Figure QLYQS_4
是一个指示函数,当格子i中第j个边界框包含目标时为 1,否则为 0,
Figure QLYQS_5
则表示当格子i中第j个边界框不包含目标时为 1,否则为 0;
使用二元交叉熵损失函数用于类别损失,计算公式为:
Figure QLYQS_6
,其中
Figure QLYQS_7
表示预测的第i个格子中第j个边界框属于第c个类别的概率,
Figure QLYQS_8
是一个指示函数,当边界框属于第c个类别时为 1,否则为0;
使用均方误差损失用于边界框坐标损失,计算公式为:
Figure QLYQS_11
,其中
Figure QLYQS_13
Figure QLYQS_15
分别表示第i个格子中第j个边界框的预测中心的横坐标、预测中心的纵坐标、宽度和高度,
Figure QLYQS_10
Figure QLYQS_12
Figure QLYQS_14
Figure QLYQS_16
分别表示第i个格子中第j个边界框的真实中心的横坐标、真实中心的纵坐标、宽度和高度,t用于表示具体位置的x、y、w、h四个参数,用于计算指定位置各参数的均方差,
Figure QLYQS_9
是一个超参数,用于平衡边界框坐标损失和其他损失的权重;
使用GIOU损失函数计算预测框与真实框之间的重叠程度,计算公式为:
Figure QLYQS_18
Figure QLYQS_20
,其中
Figure QLYQS_22
是一个包含预测框和真实框的最小闭合区域的面积,
Figure QLYQS_17
表示第i个格子中第j个边界框的真实坐标,
Figure QLYQS_21
表示预测的坐标,
Figure QLYQS_23
表示预测坐标与真实坐标的交集与并集的比值,用于预测的边界框与真实边界框之间的
Figure QLYQS_24
Figure QLYQS_19
是广义交并比;
S45:YOLOv5网络在后处理阶段使用非极大值抑制来处理网络输出的边界框;
S46:模型训练,训练每一个Epoch都包括了前向传播和后向传播,并且不断迭代,在迭代后期,学习率降低频率增快,损失逐渐降低,准确率、mAP、mAP 50缓慢增加。
CN202310414588.4A 2023-04-18 2023-04-18 一种复杂场景小目标的数据训练方法 Active CN116152580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310414588.4A CN116152580B (zh) 2023-04-18 2023-04-18 一种复杂场景小目标的数据训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310414588.4A CN116152580B (zh) 2023-04-18 2023-04-18 一种复杂场景小目标的数据训练方法

Publications (2)

Publication Number Publication Date
CN116152580A true CN116152580A (zh) 2023-05-23
CN116152580B CN116152580B (zh) 2023-08-15

Family

ID=86352753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310414588.4A Active CN116152580B (zh) 2023-04-18 2023-04-18 一种复杂场景小目标的数据训练方法

Country Status (1)

Country Link
CN (1) CN116152580B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263660A (zh) * 2019-05-27 2019-09-20 魏运 一种自适应场景变化的交通目标检测识别方法
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN111914935A (zh) * 2020-08-03 2020-11-10 哈尔滨工程大学 一种基于深度学习的船舶图像目标检测方法
US20210370993A1 (en) * 2020-05-27 2021-12-02 University Of South Carolina Computer vision based real-time pixel-level railroad track components detection system
CN115330676A (zh) * 2022-07-01 2022-11-11 武汉理工大学 基于卷积神经网络的机场跑道异物检测方法、系统及设备
CN115471746A (zh) * 2022-08-26 2022-12-13 中船航海科技有限责任公司 一种基于深度学习的船舶目标识别检测方法
CN115620180A (zh) * 2022-10-24 2023-01-17 湖南师范大学 一种基于改进YOLOv5的航拍图像目标检测方法
CN115909276A (zh) * 2022-11-30 2023-04-04 河南大学 基于改进YOLOv5的复杂天气下小交通标志目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263660A (zh) * 2019-05-27 2019-09-20 魏运 一种自适应场景变化的交通目标检测识别方法
CN111666836A (zh) * 2020-05-22 2020-09-15 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
US20210370993A1 (en) * 2020-05-27 2021-12-02 University Of South Carolina Computer vision based real-time pixel-level railroad track components detection system
CN111914935A (zh) * 2020-08-03 2020-11-10 哈尔滨工程大学 一种基于深度学习的船舶图像目标检测方法
CN115330676A (zh) * 2022-07-01 2022-11-11 武汉理工大学 基于卷积神经网络的机场跑道异物检测方法、系统及设备
CN115471746A (zh) * 2022-08-26 2022-12-13 中船航海科技有限责任公司 一种基于深度学习的船舶目标识别检测方法
CN115620180A (zh) * 2022-10-24 2023-01-17 湖南师范大学 一种基于改进YOLOv5的航拍图像目标检测方法
CN115909276A (zh) * 2022-11-30 2023-04-04 河南大学 基于改进YOLOv5的复杂天气下小交通标志目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHILI ZHAO ET AL: "A lightweight dead fish detection method based on deformable convolution and YOLOV4", 《》COMPUTERS AND ELECTRONICS IN AGRICULTURE》, vol. 198, pages 1 - 11 *
李杨等: "一种无人机视角下的小目标检测算法", 《红外技术》, pages 468 - 474 *

Also Published As

Publication number Publication date
CN116152580B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
WO2023056889A1 (zh) 模型训练和场景识别方法、装置、设备及介质
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN112329658A (zh) 一种对于yolov3网络的检测算法改进方法
CN112801027B (zh) 基于事件相机的车辆目标检测方法
CN109801297B (zh) 一种基于卷积实现的图像全景分割预测优化方法
CN111652081B (zh) 一种基于光流特征融合的视频语义分割方法
CN113393457B (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN113807334B (zh) 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN113610087B (zh) 一种基于先验超分辨率的图像小目标检测方法及存储介质
CN110378837A (zh) 基于鱼眼摄像头的目标检测方法、装置和存储介质
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN111401150A (zh) 一种基于实例分割和自适应变换算法的多车道线检测方法
CN114155210B (zh) 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法
CN114037938B (zh) 一种基于NFL-Net的低照度目标检测方法
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
CN114220126A (zh) 一种目标检测系统及获取方法
Zhang et al. Multiscale adaptation fusion networks for depth completion
CN113963272A (zh) 一种基于改进yolov3的无人机图像目标检测方法
CN116189096A (zh) 多尺度注意力机制的双路人群计数方法
CN116824304A (zh) 一种基于对比学习的低照度目标检测方法
CN116977208A (zh) 双分支融合的低照度图像增强方法
Sun et al. UAV image detection algorithm based on improved YOLOv5
CN111027542A (zh) 一种基于Faster RCNN算法改进的目标检测方法
CN112990102B (zh) 一种改进的Centernet复杂环境目标检测方法
CN112801021B (zh) 基于多级语义信息的车道线检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant