CN115512206A - 适用于低照度环境下的改进版YOLOv5目标检测方法 - Google Patents

适用于低照度环境下的改进版YOLOv5目标检测方法 Download PDF

Info

Publication number
CN115512206A
CN115512206A CN202211278019.3A CN202211278019A CN115512206A CN 115512206 A CN115512206 A CN 115512206A CN 202211278019 A CN202211278019 A CN 202211278019A CN 115512206 A CN115512206 A CN 115512206A
Authority
CN
China
Prior art keywords
target detection
network
training
improved
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211278019.3A
Other languages
English (en)
Inventor
王鑫
叶鹏飞
覃琴
颜靖柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202211278019.3A priority Critical patent/CN115512206A/zh
Publication of CN115512206A publication Critical patent/CN115512206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及目标检测技术领域,具体涉及一种适用于低照度环境下的改进版YOLOv5目标检测方法,包括使用图像增强算法对低照度的数据集的训练集进行离线增强,得到增强数据集;使用增强数据集和原始训练集进行配对混合,得到混合数据集;对基准网络进行改进,得到改进网络模型;使用混合数据集对改进网络模型进行训练,得到目标检测网络模型;将待检测图片输入目标检测网络模型进行训练,得到检测结果。本发明通过混合增强训练方式,将低照度的数据集通过GAN算法进行增强,并与原始的训练集进行混合匹配,有效抑制直接使用增强算法所带来的特征破坏问题,解决了现有的目标检测方法对低照度环境下目标检测精确度较低的问题。

Description

适用于低照度环境下的改进版YOLOv5目标检测方法
技术领域
本发明涉及目标检测技术领域,尤其涉及一种适用于低照度环境下的改进版YOLOv5目标检测方法。
背景技术
目标检测作为计算机视觉领域的基础问题之一,旨在让计算机模拟人类的视觉,在图像的复杂背景中准确且高效地定位到各类物体的位置以及识别它们的类别,现如今已经被应用于智能交通、工业生产、视频监控等领域。但在实际的应用中,由于检测过程中环境光的变化十分复杂,尤其是低照度的情况下,采集设备往往会因为光线不足而获取成像效果较差的图像,这类图像往往存在信噪比低、对比度下降、目标特征不明显,背景颜色干扰强等特点,除此之外,真实采集图像中目标尺度变化较大、目标之间遮挡严重等问题的叠加也进一步加大了对于此类任务的检测难度。因此低照度下的目标检测对于图像增强以及特征提取能力的要求更高,进而输出较为高精度的检测结果。
目前基于深度学习的主流目标检测方法主要分为一阶段和二阶段。以RCNN、FastRCNN和Faster RCNN为代表的二阶段算法采用先生成候选框,再对候选区域进行分类和位置的精修,二阶段算法一般有着更高的精确度,但是训练和检测图片的速度不够快。而以SSD、YOLO系列、FCOS为代表的一阶段算法采用直接通过卷积获取的特征回归区域分类和位置,相较于二阶段的检测算法,其通常有着更快的检测速度可用于实时检测。但无论是一阶段还是二阶段的目标检测通用算法,都很难兼顾到低照度条件下图像成像质量差从而导致误检和漏检率较高的问题,同时也存在着图像中小目标以及遮挡物体较难提取特征的现象。一些文献也给出了自己的改进方法,例如针对夜间红外行人检测,有文献在YOLOv4的基础上通过在网络中添加空间金字塔池化模块和增加更小尺度检测头的方法来改善检测性能,然而红外图像并非真实环境下的夜间图像,模型的泛用性不是很强。有的文献则基于SSD检测网络,并从特征检索的角度将低照度图像增强算法用于特征提取过程中来提升精度。另外也有基于EfficientDet检测网络,将低分辨率低照度图片通过超分辨率网络的方式提升效果再检测,然而这一方法开销过大。基于边缘学习的方法是从RGB通道和深度图像中提取边缘特征,使用小目标的增强模块和上采样方式增强对低照度图像的目标检测。以及基于SSD模型,使用Retinex理论的图像增强算法对原始图像进行增强,之后在其中嵌入差分特征融合模块,使模型对互补特征有更好的提取效果,然而忽视了直接使用增强算法后所带来的噪点干扰影响,降低了对目标检测的精确度。
发明内容
本发明的目的在于提供一种适用于低照度环境下的改进版YOLOv5目标检测方法,旨在解决现有的目标检测方法对低照度环境下目标检测精确度较低的问题。
为实现上述目的,本发明提供了一种适用于低照度环境下的改进版YOLOv5目标检测方法,包括以下步骤:
使用图像增强算法对低照度的数据集的训练集进行离线增强,得到增强数据集;
使用所述增强数据集和原始训练集进行配对混合,得到混合数据集;
对基准网络进行改进,得到改进网络模型;
使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型;
将待检测图片输入所述目标检测网络模型进行训练,得到检测结果。
其中,所述图像增加算法为EnlightenGAN。
其中,所述基准网络为YOLOv5s网络。
其中,所述对YOLOv5s网络进行改进,包括:
在YOLOv5s网络的主干后三层的C3模块里添加多分支全局坐标注意力模块;
在所述YOLOv5s网络的颈部网络的两个C3模块之前添加复合感受野特征增强模块,并引入空洞卷积;
在所述颈部FPN网络和检测头中间添加自适应特征融合模块;
所述YOLOv5s网络的头部采用CIOU作为回归框损失函数。
其中,所述使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型,包括:
按照6:2:2的比例将所述混合数据集划分为训练集、验证集和测试集;
使用所述训练集对所述改进网络模型进行训练,得到预训练模型;
使用所述验证集对所述预训练模型进行验证,验证通过,得到目标检测网络。
其中,所述所述使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型,还包括:
使用所述测试集对所述目标检测网络进行测试,得到测试结果;
使用评价指标对所述测试结果进行验证。
其中,所述评价指标包括准确率、召回率、mAP0.5和mAP0.5:0.95。
本发明是一种适用于低照度环境下的改进版YOLOv5目标检测方法,使用图像增强算法对低照度的数据集的训练集进行离线增强,得到增强数据集;使用所述增强数据集和原始训练集进行配对混合,得到混合数据集;对基准网络进行改进,得到改进网络模型;使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型;将待检测图片输入所述目标检测网络模型进行训练,得到检测结果。本发明通过混合增强训练方式,将低照度的数据集通过EnlightenGAN算法进行增强,并与原始的训练集进行混合匹配,有效抑制直接使用增强算法所带来的特征破坏问题,解决了现有的目标检测方法对低照度环境下目标检测精确度较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是改进网络模型的网络结构图。
图2是MCA注意力模块结构图。
图3是C3_MCA模块结构图。
图4是RFAM特征增强模块。
图5是空洞卷积的扩张率与感受野的示意图。
图6是ASFF模块结构设计图。
图7是原始图像与三种算法的增强结果的示意图。
图8是三种训练方式实际效果对比图。
图9是添加MCA模块前后的热力图对比。
图10是添加RFAM模块前后的对比图。
图11是主流目标检测算法的视觉对比图。
图12是本发明提供的一种适用于低照度环境下的改进版YOLOv5目标检测方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图12,本发明提供一种适用于低照度环境下的改进版YOLOv5目标检测方法,包括以下步骤:
S1使用图像增强算法对低照度的数据集的训练集进行离线增强,得到增强数据集;
具体的,所述图像增加算法为EnlightenGAN。
在输入图像的训练策略方面,使用基于生成对抗网络(Generative AdversarialNetwork,GAN)的EnlightenGAN图像增强算法对ExDark(Exclusively Dark)数据集的训练集进行离线增强。
S2使用所述增强数据集和原始训练集进行配对混合,得到混合数据集;
具体的,使用所述增强数据集和原始训练集进行配对混合,以便于减少直接使用增强算法的数据集对网络的噪点干扰,将这一混合的增强数据集作为其网络的输入。
S3对基准网络进行改进,得到改进网络模型;
具体的,所述基准网络为YOLOv5s网络。
所述对YOLOv5s网络进行改进,包括:
S31在YOLOv5s网络的主干后三层的C3模块里添加多分支全局坐标注意力模块;
多分支全局坐标注意力模块MCA:
注意力机制本质上是一种权重分配机制,可以根据目标的重要程度对原始的信息进行加权,从而突出重要的部分,有效捕获上下文信息。本文在坐标注意力机制(coordinate attention,CA)的基础上提出了MCA多分支全局坐标注意力机制。
如图3所示,首先MCA模块将输入特征图x分别沿着水平和垂直两个维度分别进行一维的自适应平均池化,以提取两个空间方向上的重要特征信息,进而产生了两个不同方向的感知特征图zh和zw,大小分别是H×1×C和1×W×C,这种转换方式可以使得注意力模块沿着一个空间方向产生长期依赖关系,并保存沿着另一个空间方向的精确位置信息。随后将两个维度的输出进行拼接,并使用1×1卷积将其维度降低到原来的C/r,其中r是通道的下采样比例,再经过BN层和非线性激活函数进行特征转换,得到融合横向和纵向空间信息的中间特征图f∈R(C/r)×1×(H+W)。接着将特征图f按照原来的H和W分别进行卷积核为1×1的卷积操作,还原特征图的通道数,最后分别经过sigmoid激活函数,得到特征图在H和W两个维度上的注意力权重gh和gw。另一方面,为了弥补CA可能会对特征图的显著区域信息的丢失,本文引入全局最大池化下采样(GMP)得到一个特征图zm,大小为1×1×C,然后经过一个1×1的卷积降低通道为原来的C/r,之后BN层和非线性激活层用来防止梯度消失,再经过1×1卷积还原为特征图的原始通道数,最后通过sigmoid激活函数,得到特征图的注意力权重gm,最后在原始特征图上将两个分支的注意力权重通过乘法加权到原始特征图上,即可得到全新的带有注意力权重的特征图y。
如图3所示,本文将MCA模块添加到主干的C3模块中,在不破坏原本C3的残差结构的同时增强网络的紧凑性,本文选择将MCA模块添加到C3的CBS模块输出的后面,构成C3_MCA模块,进一步增强主干网络在面对低照度图像特征提取时捕获位置信息和全局显著性信息的能力。
S32在所述YOLOv5s网络的颈部网络的两个C3模块之前添加复合感受野特征增强模块,并引入空洞卷积;
复合感受野特征增强模块RFAM:
YOLOv5s中的FPN结构通过自顶向下和横向连接的方式,帮助高层融合底层的信息,进而增强对小目标的检测能力,然而在低照度条件下,各层之间的信息获取能力偏弱,遮挡物体和尺度极端物体的检测很难直接通过FPN网络改善。因此本文借鉴空洞卷积和的Inception的多分支结构以及深度可分离卷积模块设计了RFAM结构来增强FPN网络的颈部的特征融合能力,将其引入颈部结构提升其对于低照度下密集物体和遮挡物体的检测性能。
如图4所示,RFAM模块使用三个不同扩张卷积率r分别为{1,2,3}的3×3卷积分支,根据空洞卷积的理论可以等效为3×3卷积、7×7卷积核9×9卷积的感受野,如图5所示,这样就可以不通过下采样的方式去提升感受野。其中每一个空洞卷积的分支都包含残差结构,前后添加1×1的逐点卷积,先将通道数降半,再恢复,降低参数量的同时防止梯度爆炸和消失。为了进一步降低模块的计算量和参数量,将原本的3×3空洞卷积替换成深度可分离卷积模块(DWConv),然后借鉴Inception非对称卷积的操作,拆分成3×1和1×3的深度可分离空洞卷积。最终将三个分支的输出拼接,再经过一个BN层和SiLu激活函数得到最终输出,提升非线性能力。通过在FPN的颈部添加的特征增强模块,不同感受野的通道相互融合提升对遮挡物体和密集物体在低照度条件下的准确率。
S33在所述颈部FPN网络和检测头中间添加自适应特征融合模块;
自适应特征融合模块ASFF:
YOLOV5s原本的颈部结构为FPN+PAN,将经过高层与低层语义融合后的下采样8倍、16倍、32倍后的三个尺度的特征图{Level3,Level2,Level1}作为颈部网络的输出。然而不同特征尺度之间的不一致会导致融合特征图的噪音变大。比如当一个大的目标在高层检测时,小的目标就会在高层被当成背景,然而实际上这些地方都是存在目标的。为了解决因此本文在PANET和检测头的中间部分引入ASFF模块,即自适应空间特征融合模块,它通过学习了空间滤波冲突信息以抑制一致性的方法,实现了自适应下不同特征层之间的融合,并几乎没有引入推理开销。ASFF的基本思想在于加入注意力的权重机制,将每层的信息按照不同的权重相互融合起来,有效提升网络的对于不同尺度物体的检测能力,减少漏检率。
ASFF整体结构如图6所示,式(1)展示了ASFF的特征融合公式,
Figure BDA0003897133800000071
代表从Level n的特征resize到Level l后(i,j)处的特征向量,
Figure BDA0003897133800000072
表示三个不同层次的特征映射的空间重要性权重,输出
Figure BDA0003897133800000073
即图中的ASFF-l,最终作为头部的输入。
Figure BDA0003897133800000074
以ASFF-1为例,首先需要按照变换规则将三个特征图的{H,W,C}进行统一,对Level2和Level3层采用上采样的方式,将其余两层的尺寸和通道调整至Level1一样,得到
Figure BDA0003897133800000075
然后将resize后的Level1、Level2、Level3特征经过拼接,再进行1×1卷积获得对应的权值参数
Figure BDA0003897133800000076
之后将权值参数拼接并通过Softmax归一化,使得它们的范围映射到[0,1]之间,并且和为1,如式(2)所示,其中式(3)为
Figure BDA0003897133800000077
公式。
Figure BDA0003897133800000078
Figure BDA0003897133800000079
得到3个特征层的特征以及三个权值参数后,ASFF就会将这三个层的特征
Figure BDA00038971338000000710
分别乘上权重参数
Figure BDA00038971338000000711
并求和,就可以得到新的融合ASFF-1,即式(4),ASFF-2和ASFF-3也是同理。
Figure BDA00038971338000000712
S34所述YOLOv5s网络的头部采用CIOU作为回归框损失函数,最终分别在三个特征大小为20×20、40×40和80×80的不同尺度特征层上输出分类类别和回归框参数,并在预测时通过非极大值抑制(NMS)来对回归框进行筛选,得到检测结果。
损失函数:
YOLOv5s的损失函数由分类损失、目标置信度损失和定位损失加权相加组成.其中分类损失(Classes loss)和目标置信度损失(Objectness loss),均采用的是二值交叉熵损失(Binary Cross-Entropy,BCE)。定位损失(location loss)则是采用的是交并比(Intersection over Union,IOU)系列损失函数,从IOU到GIOU再到CIOU,每一种损失函数相较于上一种都有所提升。然而DIOU损失函数在IOU值和两个框的中心点距离一样时难以区分两个框的位置。因此CIOU作者认为预测的三个重要因素分别是重叠面积、中心点距离和长宽比,并在DIOU的基础上通过增加长宽比这一几何要素,使得评估更加准确,公式如下:
Figure BDA0003897133800000081
Figure BDA0003897133800000082
Figure BDA0003897133800000083
式(5)展示了CIOU损失函数的公式,其中ρ代表b和bgt之间的欧氏距离,α是用于平衡比例的参数,v是用来描述预测框和真实框的长宽比的比例一致性的参数,v和α的取值如式(6)和(7)所示。式(7)表明,损失函数会倾向于往重叠区域增多的方向进行优化,尤其是IOU为0的时候。由于YOLOv5默认的定位损失为GIOU,因此本节在ExDark数据集上对YOLOv5s默认的GIOU损失函数和CIOU损失函数进行了对比,表1展示了两者对比的实验结果,CIOU相比于默认的GIOU平均精度更高。因此本文选取CIOU作为后续实验YOLOv5的默认定位损失。
表1 GIOU与CIOU性能对比
Figure BDA0003897133800000084
S4使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型;
具体方式为:
S41按照6:2:2的比例将所述混合数据集划分为训练集、验证集和测试集;
具体的,为了更好体现改进后的目标检测算法在低照度环境下的性能,本文选用的基础数据集为ExDark数据集。这是一个专门在低照度环境下拍摄的针对低亮度目标的数据集,该数据集一共7363张低照度的图片,共分为10种不同的照度条件和12个类别,光源环境自然且多样,有着较好的泛化性和通用性。本文按照6:2:2的比例对数据集进行划分,即训练集4417张、验证集1473张和测试集1473张图片作为划分后的数据集。
S42使用所述训练集对所述改进网络模型进行训练,得到预训练模型;
具体的,超参设置:训练过程采用SGD优化器,初始学习率设为0.01,动量大小设为0.937。迭代次数为180个epoch,batch-size设为16。输入图片的大小均为640×640的统一尺寸,采用mosaic数据增强算法。预热学习epoch设置为3。使用K-means聚类算法来自适应生成适合数据集的先验框尺寸,anchors为3,生成的先验框尺寸和原始尺寸的对比如表2所示。
表2使用K-means聚类算法前后的先验框尺寸
Figure BDA0003897133800000091
S43使用所述验证集对所述预训练模型进行验证,验证通过,得到目标检测网络;
S44使用所述测试集对所述目标检测网络进行测试,得到测试结果;
S45使用评价指标对所述测试结果进行验证。
具体的,本文实验采用所有类别的平均精度(mean average precision,mAP)来衡量网络目标检测的性能,以准确率(Precision)、召回率(Recall)、mAP0.5以及mAP0.5:0.95这四个评价指标作为衡量网络性能的标准。其中mAP0.5表示IOU阈值设置为0.5时的平均检测精度,mAP0.5:0.95表示不同IOU阈值上的平均检测精度。文中实验的评价指标均为在测试集上验证得到的结果。
S5将待检测图片输入所述目标检测网络模型进行训练,得到检测结果。
图像增强算法的选择与影响:
由于低照度图像的特殊性,本文选取了3种常见的图像增强算法来进行性能的测试,即LIME、RetinexNet以及EnlightenGAN算法。首先通过运行这三种算法对ExDark数据集的训练集部分进行离线图像增强,然后将增强后的训练集作为YOLOv5s基准网络的输入,并验证其mAP指标。以单幅照片为例,图7列出了原始图像与三种算法的增强结果。图7低照度图像增强算法对比图。(a)ExDark;(b)RetinexNet;(c)LIME;(d)EnlightenGAN
从单幅的检测效果可以看出无论是哪一种增强算法都或多或少对原始图片的对比度和饱和度等进行了增强,但同样均对原始图片有所影响,带来了程度不一的信噪比问题。以图片中的人为例,相对来说(d)因为使用GAN作为增强网络,相比于另外两种增强方法在提升明亮度的同时噪点较少,因此本文选择使用EnlightenGAN作为数据集的图像增强算法对图像进行离线增强。表3为原始数据集以及使用三种增强算法增强后的数据集在YOLOv5s上进行训练后测试的mAP值,可以看出使用EnlightenGAN图像增强算法后的map指标是三种算法中最好的。
表3不同图像增强算法的性能对比
Figure BDA0003897133800000101
但同时从上表也能看出,无论是直接使用哪一种增强算法都与原始数据集训练的模型精度有一定差距,即便是效果最好的EnlightenGAN,其mAP0.5也降低了0.6%,只有mAP0.5:0.95提升了0.5%。这就说明了直接使用低照度图像增强算法反而容易因为增加的噪点以及不自然的色彩变化导致网络的特征提取能力下降。
基于上述问题,本文使用一种混合增强训练方式作为本文实验的输入,将EnlightenGAN增强后的训练集与原始的训练集混合,形成一一匹配的图像对作为YOLOv5s网络的输入。通过这样的离线数据增强方式,不仅不会破坏原始图像的特征提取能力,也能提升网络针对低照度图像特定的特征提取能力。如表4所示,Mix表示使用原始训练集和使用GAN增强后的训练集匹配混合后的数据集进行训练的结果。可以看到,P、R以及mAP相较于直接使用增强算法以及原始数据集,都有了显著的提升,其中mAP0.5提升了1.5%,mAP0.5:0.95提升了1.9%,表明了这一混合训练方法对于低照度图片目标检测的可行性。图8为三种训练方式实际效果对比图(图8不同训练策略对比图。(a)Exdark;(b)EnlightenGAN;(c)Mix),可以看出采用混合增强算法训练成功在低照度的条件下识别出了猫,相反直接使用增强算法和原始数据集作为输入后将目标误检成了狗。
表4不同训练策略的性能对比
Figure BDA0003897133800000102
另外本文为了验证混合增强训练方式的泛用性,在YOLOv5n和YOLOV5l两个不同网络大小的版本上也进行了验证,表5表明,通过这种使用这种方法可以有效避免直接使用增强算法导致的网络性能下降,并有效提升网络的鲁棒性。
表5 YOLOv5l和YOLOv5n使用混合训练前后的性能对比
Figure BDA0003897133800000111
消融实验:
为了验证各模块在网络中搞的有效性,实验过程中所使用的超参数相同,图片的输入大小均为640×640。本节实验所用的训练集为3.2节所使用的Mix混合增强训练集作为输入。以YOLOv5s作为消融实验的基准网络(Baseline)。以MCA、RFAM和ASFF作为主要算法模块,对ExDark数据集进行检测性能测试,实验结果如表6所示。
表6不同模块的消融实验性能对比
Figure BDA0003897133800000112
多分支全局坐标注意力模块MCA:
本文通过添加了MCA注意力模块,通过跨通道获取上下文信息以及提升对显著区域的关注,可以更好改善对于低照度图像特征提取能力偏弱的问题。M1网络为仅添加MCA在YOLOv5s的主干C3部分,虽然添加注意力机制之后准确率略微下降,但其余三个指标均有一定程度提升,其中mAP0.5提升了2%,mAP0.5:0.95提升了2.3%,这主要是由于MCA的跨通道获取上下文和对显著性区域的关注使得网络检测出了原来更容易被忽略的目标,在召回率大幅提升的同时,带动了平均精度的提升。图9以热力图的方式直观展示了添加MCA注意力机制后和Baseline之间的对比,可以看出因为添加注意力机制的缘故,猫咪远方的两张椅子也被MCA通过跨通道捕获的方式检测了出来,并且没有误检中间的动物,直观展现出了该模块的有效性。
复合感受野特征增强模块RFAM:
本文通过在网络颈部添加复合感受野特征增强模块RFAM,不仅提升了对于不同尺寸目标的特征捕获能力,也改善了对于密集的小物体和遮挡物体的误检率高的问题。M2为仅添加RFAM模块的网络,虽然召回率有所下降,但准确率提升较大,相比于Baseline提升了1.9%,mAP0.5提升了1.4%。从表7可以看出,RFAM模块针对场景中的密集目标和容易被遮挡等物体的mAP0.5的值均有所提升,例如公交车(Bus)从0.881提升至0.901、瓶子(bottle)从0.709提升至0.720、杯子(Cup)从0.688提升至0.708,体现了复合感受野通道混合对于夜间密集物体和遮挡物体检测效果的提升。从图10也能看出,M2网络成功将左侧被遮挡的汽车识别了出来。
表7添加RFAM模块前后的各类别的mAP0.5性能
Category Bicycle Boat Bottle Bus Car Cat
Baseline 0.844 0.647 0.709 0.881 0.792 0.678
M2 0.841 0.629 0.720 0.907 0.804 0.709
Category Chair Cup Dog Motorbike People Table
Baseline 0.645 0.688 0.709 0.759 0.753 0.596
M2 0.641 0.708 0.743 0.768 0.779 0.613
自适应特征融合模块ASFF:
本文通过添加自适应特征融合模块ASFF模块,进一步提升网络在低照度条件对不同尺度目标的检测性能。M3表示仅添加ASFF的网络,可以看出虽然有提升效果但幅度不是很大,mAP0.5仅提升了0.4%,主要原因在在没有添加注意力机制或特征增强模块的前提下,网络本身在低照度条件下的特征提取能力本身就很有限,即便进行自适应特征融合效果也并不明显。因此本文将ASFF和MCA结合之后,准确率提升至80.6%,为本节实验中的最高,并且mAP0.5相比于仅添加ASFF也提升了2.4%。另一方面ASFF与RFAM组合之后mAP0.5则提升了1.7%,体现了ASFF与本文的另外两个模块的互补能力。
最终本文选择将三个模块组合添加后形成了本文最终的网络模型,提升模块的互补能力,相比于Baseline而言,4个指标均有提升,其中召回率、mAP0.5、mAP0.5:0.95为本节实验中的最高,其中mAP0.5和mAP0.5:0.95分别提升了4.3%和6%,表明了模块的有效性。
主流检测算法性能对比:
为了验证本文改进的目标检测方法在低照度图像上检测的优势,本节选取了目前几种主流的目标检测算法,包括Faster-RCNN、SSD300、YOLOv3、YOLOv4、YOLOv4-tiny、YOLOX以及原始的YOLOv5s,与本文的改进算法进行对比。对比算法的数据集使用原始的ExDark数据集,其中输入尺寸均为640×640。
由表8可知,二阶段的Faster-RCNN在低照度的数据集上表现并不佳,而YOLOv4-tiny因为只有两个检测头,所以漏检较多,召回率最低导致平均精度也最低。其余算法中SSD、YOLOv3和YOLOv4表现相近,对比算法中效果最好的为YOLOX,精准率为81.1%最高,mAP也高于原始的YOLOv5s模型。而本文的改进算法在使用了GAN混合增强方法的基础上mAP0.5为76.8%,mAP0.5:0.95为50%。相比于原始的YOLOv5分别提升了5.6%,7.9%。其中准确率相较于对比算法中平均精度最好的YOLOX分别提升了3.7%、5.2%。
表8主流目标检测算法在ExDark数据集上的性能对比
Figure BDA0003897133800000131
为了更直观的体现监测性能,本节选取了5张不同场景下的低照度图片,包含多尺度目标和多遮挡的密集目标图以及特征成像不明显的图。图11为表中各算法的视觉对比图,最后一行为本文提出的改进算法的输出结果,其余为表8中所列的对比算法。可以看出Faster-RCNN在两张猫咪图片中误检率较高,比如将架子识别成了人或者铁道识别成了桌子。SSD300则没有识别出第二张图片右侧的人。YOLOv3和YOLOv4类似,对于和背景颜色相近和黑猫,均有误检和漏检。YOLOv4-tiny则是对多尺度目标敏感性不佳,第三张图中漏检了公交车。YOLOX相对最好,但在第一张图中将吉他误检成摩托,第五张图的猫误检成狗。相比之下,本文的算法降低了误检率,并且由于特征增强模块的多尺度融合的影响,对于遮挡物体和尺度极端的物体的检测性能也很好,第一张图片里增加了对后排人的检测数量,第二张图中将中间船上的人和船均成功检测出来,第三张图将公交车里的人以及公交背后被遮挡的汽车检测了出来,第四张和第五张均没有出现漏检和误检,可以体现出本文算法对于各种条件下低照度图片检测任务的有效性。
以上所揭露的仅为本发明一种适用于低照度环境下的改进版YOLOv5目标检测方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,包括以下步骤:
使用图像增强算法对低照度的数据集的训练集进行离线增强,得到增强数据集;
使用所述增强数据集和原始训练集进行配对混合,得到混合数据集;
对基准网络进行改进,得到改进网络模型;
使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型;
将待检测图片输入所述目标检测网络模型进行训练,得到检测结果。
2.如权利要求1所述的适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,
所述图像增加算法为EnlightenGAN。
3.如权利要求2所述的适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,
所述基准网络为YOLOv5s网络。
4.如权利要求3所述的适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,
所述对YOLOv5s网络进行改进,包括:
在YOLOv5s网络的主干后三层的C3模块里添加多分支全局坐标注意力模块;
在所述YOLOv5s网络的颈部网络的两个C3模块之前添加复合感受野特征增强模块,并引入空洞卷积;
在所述颈部FPN网络和检测头中间添加自适应特征融合模块;
所述YOLOv5s网络的头部采用CIOU作为回归框损失函数。
5.如权利要求4所述的适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,
所述使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型,包括:
按照6:2:2的比例将所述混合数据集划分为训练集、验证集和测试集;
使用所述训练集对所述改进网络模型进行训练,得到预训练模型;
使用所述验证集对所述预训练模型进行验证,验证通过,得到目标检测网络。
6.如权利要求5所述的适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,
所述所述使用所述混合数据集对所述改进网络模型进行训练,得到目标检测网络模型,还包括:
使用所述测试集对所述目标检测网络进行测试,得到测试结果;
使用评价指标对所述测试结果进行验证。
7.如权利要求6所述的适用于低照度环境下的改进版YOLOv5目标检测方法,其特征在于,
所述评价指标包括准确率、召回率、mAP0.5和mAP0.5:0.95。
CN202211278019.3A 2022-10-19 2022-10-19 适用于低照度环境下的改进版YOLOv5目标检测方法 Pending CN115512206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211278019.3A CN115512206A (zh) 2022-10-19 2022-10-19 适用于低照度环境下的改进版YOLOv5目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211278019.3A CN115512206A (zh) 2022-10-19 2022-10-19 适用于低照度环境下的改进版YOLOv5目标检测方法

Publications (1)

Publication Number Publication Date
CN115512206A true CN115512206A (zh) 2022-12-23

Family

ID=84510858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211278019.3A Pending CN115512206A (zh) 2022-10-19 2022-10-19 适用于低照度环境下的改进版YOLOv5目标检测方法

Country Status (1)

Country Link
CN (1) CN115512206A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841625A (zh) * 2023-02-23 2023-03-24 杭州电子科技大学 一种基于改进U-Net模型的遥感建筑物影像提取方法
CN116012825A (zh) * 2023-01-13 2023-04-25 上海赫立智能机器有限公司 基于多模态的电子元器件智能识别方法
CN116343011A (zh) * 2023-04-29 2023-06-27 河南工业大学 一种轻量级神经网络机场场面飞机识别方法
CN116563205A (zh) * 2023-03-10 2023-08-08 兰州理工大学 基于小目标检测和改进YOLOv5的麦穗计数检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012825A (zh) * 2023-01-13 2023-04-25 上海赫立智能机器有限公司 基于多模态的电子元器件智能识别方法
CN115841625A (zh) * 2023-02-23 2023-03-24 杭州电子科技大学 一种基于改进U-Net模型的遥感建筑物影像提取方法
CN116563205A (zh) * 2023-03-10 2023-08-08 兰州理工大学 基于小目标检测和改进YOLOv5的麦穗计数检测方法
CN116343011A (zh) * 2023-04-29 2023-06-27 河南工业大学 一种轻量级神经网络机场场面飞机识别方法

Similar Documents

Publication Publication Date Title
CN110188705B (zh) 一种适用于车载系统的远距离交通标志检测识别方法
CN115512206A (zh) 适用于低照度环境下的改进版YOLOv5目标检测方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN113077491B (zh) 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113052200B (zh) 一种基于yolov3网络的声呐图像目标检测方法
Chen et al. SNIS: A signal noise separation-based network for post-processed image forgery detection
CN113537110B (zh) 一种融合帧内帧间差异的虚假视频检测方法
CN114565860A (zh) 一种多维度增强学习合成孔径雷达图像目标检测方法
CN112149591A (zh) 用于sar图像的ssd-aeff自动桥梁检测方法及系统
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
Fan et al. A novel sonar target detection and classification algorithm
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
Xue et al. Rethinking automatic ship wake detection: state-of-the-art CNN-based wake detection via optical images
CN116935361A (zh) 一种基于深度学习的驾驶员分心行为检测方法
Dai et al. GCD-YOLOv5: An armored target recognition algorithm in complex environments based on array lidar
CN111680640B (zh) 一种基于领域迁移的车型识别方法及系统
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法
CN116977917A (zh) 一种红外图像行人检测方法
Fan et al. An improved yolov5 marine biological object detection algorithm
CN116824317A (zh) 一种基于多尺度特征自适应融合的水上红外目标检测方法
CN116863293A (zh) 一种基于改进YOLOv7算法的可见光下海上目标检测方法
CN115797684A (zh) 一种基于上下文信息的红外小目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination