CN115346177A - 一种新的路侧视角下目标检测系统及方法 - Google Patents

一种新的路侧视角下目标检测系统及方法 Download PDF

Info

Publication number
CN115346177A
CN115346177A CN202210985807.XA CN202210985807A CN115346177A CN 115346177 A CN115346177 A CN 115346177A CN 202210985807 A CN202210985807 A CN 202210985807A CN 115346177 A CN115346177 A CN 115346177A
Authority
CN
China
Prior art keywords
information
module
feature
model
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210985807.XA
Other languages
English (en)
Inventor
黄文准
黄磊
石钏
赵正阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xijing University
Original Assignee
Xijing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xijing University filed Critical Xijing University
Priority to CN202210985807.XA priority Critical patent/CN115346177A/zh
Publication of CN115346177A publication Critical patent/CN115346177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种新的路侧视角下目标检测系统及方法,包括:获取数据集;构建路侧图像检测改进模型;基于所述数据集对所述路侧图像检测改进模型进行训练和评价;获取路侧图像;将所述路侧图像输入至训练后的路侧图像检测改进模型进行识别,实现路侧视角下的目标检测。本发明在YOLOv5s的基础上重构了特征融合模块,使其能够更加有效的捕捉小目标信息,提高了小目标特征提取能力;其次引入了GFPN进行多尺度特征融合,提高了不同分辨率特征信息的融合效率;另外引入了CA模块,提高了模型的鲁棒性;最后替换Focal‑EIOU Loss为算法模型的损失函数,在提高边界框回归速度的同时提高定位速度。

Description

一种新的路侧视角下目标检测系统及方法
技术领域
本发明属于智能交通视觉领域,特别是涉及一种新的路侧视角下目标检测系统及方法。
背景技术
智能感知系统是实现自动驾驶的重要前提,目前的感知系统主要是给车辆配备激光雷达或摄像头传感器。由于车辆运动的原因,车辆感知系统在很长一段时间内无法对周围环境进行观察。车载视角更多地聚焦在正面区域,而路侧摄像头则是长期、大范围地观察场景。车载视野很容易被前方较近的物体挡住,而路侧视野位于路面较高位置进行监测,可以根据实际路口提供更加丰富的路况信息,能够有效降低交通事故的发生。目前智能感知系统中关于目标检测研究主要基于车载端视角下进行检测,并且实现较高的检测精度,但是少有以路侧视角进行目标检测的应用研究。
近年来随着深度学习的发展和高性能图像处理器的出现,使用深度学习卷积神经网络去进行目标检测已几乎被所有计算机视觉研究者所使用。典型的Two-stage检测算法有R-CNN,Fast R-CNN,Faster R-CNN,但是由于其结构限制,检测速度无法达到实时性的要求。YOLO(You Only Look Once)在2015年由Redmon等人首次被提出,作为One-stage检测算法其在生成帧的同时进行分类和回归任务,检测速率提升显著。随着机器视觉的发展,最新推出的YOLOv5s算法在模型参数量和浮点运算量方面表现更加突出。
路侧端的视角拥有更加广阔的感知范围,通过视觉传感器获取到的目标信息主要以小目标为主,由于检测模型网络浅层特征提取的信息较少,很难对小尺度的目标进行准确的分类和精确的定位。同时在复杂路况的情况下,目标信息更为复杂,存在检测目标与背景信息混淆在一起或者多个目标重叠的情况。此外,路侧端所感知到的信息还需要通过无线通信技术传递给车辆进行决策与控制,所以对于检测算法的实时性和易部署性具有较高的要求。
发明内容
本发明的目的是提供一种新的路侧视角下目标检测系统及方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种新的路侧视角下目标检测系统,包括:
数据获取模块、模型构建模块及损失函数模块;
所述数据获取模块用于获取路侧图像数据集与训练数据集;
所述模型构建模块包括信息提取模块、信息融合模块,所述信息融合模块用于将所述特征信息进行融合;
所述信息提取模块用于提取路侧图像数据集与训练数据集中的特征信息。
可选的,所述信息提取模块包括:特征提取模块、注意力模块;其中,所述注意力模块用于位置信息嵌入和坐标信息特征图生成,增强特征中的重要通道和空间特征信息;所述特征提取模块由YOLOv5s算法模型的主干网络特征提取模块去除顶层特征提取层得到,用于提取特征信息。
可选的,所述信息融合模块采用广义特征金字塔网络结构,跨尺度特征融合方法对特征信息进行融合,其中,所述跨尺度特征融合方法包括两种方式:各尺度的节点同时对其上一个、斜上方以及斜下方三个节点进行特征融合、对前一层与当前层的特征进行融合并建立跳层连接。
可选的,所述损失函数模块包括:EIOU Loss与Focal Loss,其中所述EIOU Loss包括重叠损失、中心距损失、宽高损失,所述EIOU Loss用于优化收敛速度和回归精度,所述Focal Loss用于优化边界框回归任务中的样本不平衡问题。
可选的,所述宽高损失用于使目标盒与锚盒的宽度和高度之差最小,优化收敛速度。
可选的,所述信息融合模块采取从底层特征提取层开始进行特征融合的方式进行信息融合。
本发明提供了一种新的路侧视角下目标检测系统及方法,其特征在于,包括以下步骤:
获取数据集;构建路侧图像检测改进模型;基于所述数据集对所述路侧图像检测改进模型进行训练和评价;获取路侧图像;将所述路侧图像输入至训练后的路侧图像检测改进模型进行识别,实现路侧视角下的目标检测。
可选的,基于照明条件、天气情况、道路场景、相机规格将所述数据集划分为不同的子数据集,并分为训练集和验证集。
本发明的技术效果为:
1.在研究路侧视角图像独特特征的基础上,通过对网络、通道和参数优化,提出了基于改进YOLOv5s的路侧视角下目标检测算法。针对路侧环境复杂,目标图像尺寸小的特点,对原始网络进行了特征融合层重构,增大特征空间感知野,使其能够更加有利于小目标的特征提取与识别。
2.由于特征融合层重构删除了高倍下采样特征融合层,针对其减少的深层特征融合所带来的损失,对YOLOv5s网络Neck部分的特征金字塔网络结构进行改进,增强了聚合多尺度特征信息的能力,使其能够更加有效地融合不同分辨率的特征信息,提高了模型的多尺度特征融合效率,进一步提高了目标检测的精度。
3.针对不同天气环境等干扰因素对检测效果带来的影响,我们在YOLOv5s网络Backbone部分引入注意力机制,提高了网络的感知野,使模型更加精准的定位和识别重要信息,提高了模型的鲁棒性。
4.为提高收敛速度和回归精度,我们在YOLOv5s网络的检测头部分针对损失函数进行了改进,加速对高置信度目标的学习,提高训练速度和锚框定位精度。
5.减轻模型重量,更加有利于边缘设备的部署。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的YOLOv5s网络结构图;
图2为本发明实施例中的特征融合层重构网络结构图;
图3为本发明实施例中的FPN、PANet、BiFPN和GFPN网络结构;
图4为本发明实施例中的Queen-Fusion皇后融合结构图;
图5为本发明实施例中的log2n-link跨层连接结构图;
图6为本发明实施例中的CA结构编码注意力的过程图;
图7为本发明实施例中的主干网络的改进图;
图8为本发明实施例中的方法流程图;
图9为本发明实施例中的改进YOLOv5网络结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一
路侧端的视角拥有更加广阔的感知范围,其中采集到的目标信息通常为小尺度,在复杂路况的情况下,目标信息更为复杂且重叠现象严重,传统的深度学习方法难以较好的检测准确率,且漏检率很高。此外,由于路侧端设备对于检测算法的实时性和易部署性具有较高的要求。因此,基于深度学习的目标检测算法逐渐显示出其优势,典型的Two-stage检测算法有R-CNN,Fast R-CNN,Faster R-CNN,但是由于其结构限制,检测速度无法达到实时性的要求。YOLO(You Only Look Once)在2015年由Redmon等人首次被提出,作为One-stage检测算法其在检测速率上具有显著提升。随着机器视觉的发展,最新推出的YOLOv5s算法在模型参数量和浮点运算量方面表现更加突出。
因此,本发明在YOLOv5s算法的基础上进行改进,提出了一种新的路侧视角下目标检测系统及方法。
如图1-9所示,本实施例中提供一种新的路侧视角下目标检测系统及方法,包括:
获取数据集;构建路侧图像检测改进模型;基于所述数据集对所述路侧图像检测改进模型进行训练和评价;获取路侧图像;将所述路侧图像输入至训练后的路侧图像检测改进模型进行识别,实现路侧视角下的目标检测。
YOLOv5s结构如图1所示,由Input输入端、Backbone主干网络、Neck网络和Head输出端四个部分组成。Input输入端具有Mosaic数据增强、自适应锚框计算以及自适应图片缩放功能。Backbone主干网络包括Focus结构,C3结构以及金字塔池化SPP结构,通过深度卷积操作提取图像中的不同层次的特征。Neck网络由金字塔FPN和路径聚合网络PAN构成。Head作为最后的检测,在大小不同的特征图上预测不同尺寸的目标,最后通过NMS(Non MaximumSuppression)进行预测锚框的处理。
YOLOv5s网络的Backbone部分负责图像特征信息的提取,通过对输入图像进行多次下采样操作,获取到不同尺度的特征信息。其中底层特征分辨率更高,包含更多位置、细节信息,但是语义信息较低,噪声更多,高层特征具有更将的语义信息,但是分辨率很低,对细节的感知能力较差。针对提取到的特征信息进行有效的特征融合是提高模型检测性能的关键,YOLOv5s网络的Neck由金字塔FPN和路径聚合网络PAN构成,FPN将深层的语义特征传递到浅层,增强多个尺度的语义表达,PAN将浅层的定位信息传递到深层,增强多尺度的定位能力。
针对路侧检测目标复杂、尺寸小和覆盖严重的难点,对YOLOv5s网络的Backbone网络特征提取模块、Neck网络特征融合模块进行重构,得到特征融合层重构网络结构图,如图2所示。在主干网络中,由于多次采用下采样进行特征提取,使得弱小目标的特征信息随着特征层级的增加而不断减少甚至消失,因此在YOLOv5s主干网络的基础上去除顶层特征提取层,在降低网络复杂度的同时,减少无效信息进入下个阶段进行特征融合。在特征融合模块,为捕获弱小目标更多的有效信息,从底层特征提取层开始进行特征融合,因为大尺寸特征图空间感受视野大,并且包含更多位置和细节信息,可以精确检测出图像中的弱小目标。
路侧视角下感受野更加广阔,采集到的目标图像信息在不同场景中的目标尺度大小往往是不一致的,特别是复杂路况的情况下,存在目标信息复杂和目标重叠严重的情况。因此在目标检测的任务中更需要同时兼顾到不同尺度大小的目标检测。
特征融合是目前解决多尺度差异问题的主要方法,其代表算法有FPN、PANet和BiFPN,其核心思想是通过主干网络的卷积模块提取到不同分辨率的特征信息进行特征融合,但是这些FPN架构主要聚焦于特征融合却忽略了块内连接。GFPN(Generalied FeaturePyramid Network)广义特征金字塔网络结构以跨尺度连接方式对前一层与当前层的特征进行融合并建立跳层连接,提供了更有效的信息传输,同时可以扩展为更深的网络。在不同FLOPs(Floating-point Operations per Second)性能均衡下,GFPN具有更加优异的性能,超越了其他SOTA方案,如图3(d)所示。
充分的信息交互应当不仅包含跳层连接,同时还包含跨尺度连接以克服大尺度变化,GFPN提出了Queen-Fusion结构。如图4所示,各尺度的节点同时对其上一个、斜上方以及斜下方三个节点进行特征融合,在大尺度变化的场景下,有助于目标图像特征进行有效的信息传输和不同尺度的特征融合,并且,使用concat代替sum进行特征融合,有效减少了特征融合的损失。GFPN结构相比其他特征金字塔网络结构具有较高的复杂度,为避免其计算量增加导致梯度消失,GFPN提出了log2n-link跨尺度特征融合,以增加的特征复用,不仅提高了GFPN扩展的深度,还保留有效的特征复用,如图5所示。
综上,GFPN对YOLOv5s的Neck部分进行改造,提高模型的多尺度特征融合能力。
在主干网络进行信息提取的过程中,由于经过多次下采样,高层特征图的感受野比较大,但很多细节信息以及丢失,尤其是小目标很可能完全不见了。为了增强网络的检测精度,本文引入了坐标注意力机制,构造了与人类感知相类似的分层注意力结构,以增强网络提取能力。
CA注意力机制的主要思想是将位置信息嵌入到通道注意力。准确的位置信息编码通道关系和长程依赖关系更加有利于网络提取特征图像的重要信息。CA注意力机制主要分为两个步骤,分别为位置信息嵌入和坐标信息特征图生成。其具体步骤如图6所示,输入图像信息X,分别使用尺寸为(1×W)和(H×1)的池化核沿着水平坐标方向和垂直坐标方向分别进行平均池化,分别获得在水平和垂直的两个独立方向感知注意力图zw与zh,大小分别为(C×1×W)和(C×H×1)。接着,将zh进行维度换位得到大小为(C×1×H)的特征图,并于大小为(C×1×W)的特征图做拼接操作,再输入到共享的(1×1)卷积模块与非线性激活函数,得到过程特征图f∈RC/r×1×(H+W),其中r为卷积中的通道下采样比例。然后,将f在通道维度上拆分成两个特征向量fh、fw,并调整向量在第二,第三维度的大小,使其大小分别为f∈RC /r×1×W和f∈RC/r×H×1。在分别通过(1×1)的卷积核进行通道转换,使fw,fh大小分别为f∈RC ×1×W和f∈RC×H×1,最终经过激活函数Sigmoid(x)得到两个空间方向的注意力权重图gh和gw,每个注意力权重图都带有特征图沿着特定方向的长程依赖。最后,输入特征图与两个权重相乘,进而加强了特征图的表达能力。
针对路侧图像目标检测差异大、小目标检测率低的问题,原YOLOv5s模型算法在进行卷积采样时容易丢失小目标的特征信息,对小目标的检测不是很好。因此,如图7所示,在YOLOv5s网络Backbone部分添加了CA注意力机制,增强特征中的重要通道和空间特征信息,即学习目标的“关键点”,从而有效提高定位小目标的精度。
YOLOv5s的Detect部分由损失函数和非极大值抑制组成。损失函数用于衡量模型生成的预测框与真实框之间的重叠程度。非极大值抑制用于目标框的筛选,抑制非极大值元素,搜索局部极大值,去除冗余的检测框,得到最终预测结果。YOLOv5s模型中采用的损失函数为CIOU Loss,虽然其考虑了边界框回归的重叠面积、中心点距离、纵横比。但是,CIOULoss所使用的宽和高是一个相对比例,并不是宽和高值,存在一定的模糊性,所以有时会阻碍模型有效的优化相似性。针对这一问题,Zhang等人在CIOU的基础上将纵横比拆开提出了EIOU Loss,并且加入了Focal聚焦优质的锚框,其原理如式(1)(2)所示。
Figure BDA0003798614030000091
Figure BDA0003798614030000092
Focal-EIOU Loss由三部分构成:重叠损失、中心距损失,宽高损失,前两部分延续CIOU Loss的方法,将纵横比的损失项拆分成预测的宽高分别与最小外接宽高的差值,加速了预测框的收敛、提高了预测框的回归精度,但是宽高损失直接使目标盒与锚盒的宽度和高度之差最小,使得收敛速度更快。其中Cω和Ch是覆盖两个Box的最小外接框的宽度和高度。考虑到边界框的回归中存在训练不平衡的问题,即在一张图像中回归误差小的高质量锚框的数量远小于误差大的低质量样本,质量较差的样本会产生过大的梯度影响训练过程。
针对边界框的回归中存在训练不平衡的问题,即在一张图像中回归误差小的高质量锚框的数量远小于误差大的低质量样本,质量较差的样本会产生过大的梯度影响训练过程,因此引入Focal Loss优化边界框回归任务中的样本不平衡问题,把高质量的锚框和低质量的锚框分开,使回归过程专注于高质量锚框,其原理如式(3)所示。
LFocal-EIOU=IOUγLEIOU (3)
本发明利用公开路侧数据集Rope3D对改进的网络进行训练和测试。在原YOLOv5s模型的基础上对其特征融合层进行重构,过滤掉冗余特征,保留重要特征,提高小目标检测的准确率;然后,采用GFPN特征金字塔结构进行特征融合,提高特征融合速度和效率,并集成了CA注意力机制,增强模型鲁棒性;最后,采用Focal-EIOU损失函数,提高边界框回归速率和锚框定位精度。
针对上述改进策略,提出了一种基于改进YOLOv5路侧视角下目标检测算法,其一般网路结构图如图9所示。
为了能够提高小目标检测率,如图9中的两个虚线框所示,删除了32倍下采样特征融合层,添加了4倍下采样特征融合层,增强了浅层特征信息提取的能力,有效防止了弱小目标的特征信息随着特征层级的增加而不断减少甚至消失的问题。在主干网络的最后添加了注意力机制,如图9中A表示CA注意力模块,增强特征中的重要通道和空间特征信息,提高定位小目标的能力。之后,通过Backbone部分采集到的多尺度特征信息输入到Neck部分中进行特征融合。其中包含两个信息传输路径,自顶向下和自底向上。在前一路径中,将深层特征向下传递,为浅层特征提供语义指导。在后一路径中,将浅层特征向上传递以补充深层特征的细节信息。融合后的特征既有抽象的语义信息,又有丰富的细节信息,有利于提高定位精度和分类精度。同时将同层的输出节点和输出节点进行连接,在不增加额外消耗的同时融合更多的特征信息。此外,各尺度的节点同时对其上一个、斜上方以及斜下方三个节点进行特征融合,在大尺度变化的场景下,有助于目标图像特征进行有效的信息传输和不同尺度的特征融合。最后将GFPN的输出输入到检测层生成预测框,然后再进行NMS运算,过滤掉局部区域冗余的预测框,得到最终的预测结果。
选择Rope3D公开数据集进行实验预测,由于YOLOv5s配置原因,对数据集的标注文件进行了预处理操作,采用2D框进行目标标注。Rope3D数据集具有挑战性,由于路侧摄像头安装在路侧杆子上,而不是汽车顶部,存在相机不同配置条件的情况,例如相机内参数、仰俯角高度、安装高度的不同,因此检测算法需要具备一定的鲁棒性。此外,由于路侧视角下的感知范围更大,能观察到更多的物体,也增加了感知系统检测的难度。
数据集分为训练集和验证集两个部分,包含50k张图像和超过1.5M的对象,在各种照明条件下(白天/夜晚/黄昏)收集,不同的天气情况(雨天/晴天/阴天),不同的道路场景,不同的相机规格,如焦距和视点。为了方便论文进行对比实验分析,把Rope3D数据集按照场景划分为不同的子数据集,具体划分结果如表1所示。分别是多云、夜晚、晴天和雨天的数据集。
表1
Figure BDA0003798614030000121
实验在Windows10操作系统下进行,CPU为Intel(R)Xeon(R)Silver 4210,GPU为NVIDIA TITAN RTX,开发环境为Python3.8,Pytorch1.6,CUDA10.1。保证训练结果的准确性,参与对比的算法均在相同训练参数下,对算法进行训练测试,模型参数值设置如表2所示。
表2
Figure BDA0003798614030000122
Figure BDA0003798614030000131
为了更准确的分析检改进后的YOLOv5s网络的性能,使用适当的评估指标是至关重要的。采用每秒处理的图像帧数(Frame Per Second,FPS),平均精度均值(Mean AveragePrecision,mAP),作为本实验算法模型的评价指标,每种指标都会在一定程度上反应检测算法在不同方面的性能。首先应计算其查准率(Precision)和查全率(Recall)。查准率是模型预测的所有目标中,预测正确的比例,突出结果的相关性;查全率又称召回率,所有的真实(正)目标中,预测正确的目标比例。其计算公式如式(4)、(5)所示:
Figure BDA0003798614030000132
Figure BDA0003798614030000133
其中,TP表示实际为正例且被分类为正例的样本数量;FP表示实际为负例但被分类为正例的样本数量;FN表示实际为正例但被分类为负例的样本数量。
平均精度(Average Precision,AP)就是对数据集中的一个类别的精度进行平均,如公式(6)所示,P和R分别表示查准率和查全率,AP为曲线包含的面积。平均精度均值(mAP)是指所有类AP的平均值,其计算公式如式(6)、(7)所示。
Figure BDA0003798614030000134
Figure BDA0003798614030000135
模型在Rope3D数据集上进行,首先针对YOLOv5s训练要求更改配置文件,设置实验参数值包括衰减系数、epoch值、学习率、批大小、动量等。在实验训练过程中通过查看训练日志可以发现,在训练达到150次左右时,损失函数基本不在下降逐渐趋于平稳,因此在训练达到150次时终止训练。
针对边缘设备轻量化部署的特点,采用YOLOv5s模型进行训练预测,并进行轻量化的优化改进。为了验证单个结构改变对网络性能的影响,共设计了3种模型与原YOLOv5s模型进行对比,分别为:
1)YOLOv5s-T:对YOLOv5s网络进行特征融合层重构,删除32倍下采样特征融合层,增加4倍下采样特征融合层。
2)YOLOv5s-CA:对YOLOv5s网络Backbone部分的空间金字塔池化模块之后添加注意力机制CA模块。
3)YOLOv5s-G:引入GFPN结构对YOLOv5s网络Neck部分特征金字塔结构进行改造。
分别对YOLOv5s、YOLOv5s-T、YOLOv5s-G、YOLOv5s-CA进行训练和测试,得到4种模型的复杂度和性能对比如表3和表4所示。
表3
Figure BDA0003798614030000141
表4
Figure BDA0003798614030000151
分析实验结果可知,YOLOv5s原模型在数据集上的实验结果表现,mAP值为53.6%,检测速率为71.4。YOLOv5s-T模型相比原YOLOv5s的参数量下降了75.2%,运算量减少了16.5%,检测速率提高了14.8,模型大小减少了71.1%,mAP值提高了3.5%。这得益于删除32倍下采用特征融合层,有效降低了深层特征带来的高维度计算和特征融合的开销。YOLOv5s-G由于采用GFPN结构,相比原YOLOv5s模型的参数量增加较多,计算量上升,导致检测速率下降了25.2,但mAP值提升了3.0%。YOLOv5s-CA相比原YOLOv5s模型,由于添加注意力机制CA模块,虽然模型的参数量和计算量略有增加,但是检测速率基本不变并且mAP值提升了0.5%,说明了引入注意力机制的有效性。
为证实改进损失函数的有效性,进行损失函数对比实验,实验参数中设置的epoch值为150,在实验训练过程中发现训练达到150次左右时,损失函数基本趋于稳定,因此终止训练。
改进后的YOLOv5的损失函数下降趋势更明显,表明了改进后算法的有效性。
为了进一步验证改进损失函数的有效性,将改进损失函数与原算法损失函数对算法性能影响的结果进行对比,结果如表5所示。
表5
Figure BDA0003798614030000161
由上表实验中为了验证改进损失函数对算法性能的影响,在实验中将算法中损失函数进行单独替换,分别替换为Focal-EIOU Loss与原算法中CIOU Loss进行横向对比实验。实验结果将损失函数为EIOU后检测虽然mAP50值变化不大,但是预测置信度在0.5到0.95的平均精度提升了0.5%,并且FPS提升13.3,因此可以得出提出的Focal-EIOU Loss对算法提升效果较优。
为了更好的验证本实验四种改造策略的有效性,在Rope3D数据集上展开消融实验,对改进算法的有效性分析。依次在YOLOv5s的基础上重构下采样特征融合层、GFPN模块、CA模块以及损失函数。为保证实验的准确性,训练均采用相同参数配置,衰减系数为0.0005,学习率为0.01,批量设置为8,动量设置为0.937。实验结果如表6所示。
表6
Figure BDA0003798614030000162
Figure BDA0003798614030000171
由表6可见,实验1为原YOLOv5s网络在Rope3D数据集上的训练结果,mAP50为53.6%,FPS为71.4。实验2在实验1基础上进行特征融合层重构,mAP50和FPS比实验1提升了3.5%和14.8,可以看出特征融合层重构增大网络特征空间感知野,使其能够更加有利于小目标的特征提取与识别,有效改善了网络对于小目标的检测性能。实验3是在实验2的基础上在YOLOv5s网路Neck部分引入GFPN结构,mAP50和FPS达到了58.3%和71.4,mAP50相比实验1提升了4.7%,FPS基本不变,表明GFPN结构增强了聚合多尺度特征信息的能力,使其能够更加有效地融合不同分辨率的特征信息,提高了模型的多尺度特征融合效率,进一步提高了目标检测的精度。实验4是在实验3的基础上在YOLOv5s网络Backbone部分引入注意力机制CA模块,提高了网络的感知野,使模型能够更加精准的定位和识别重要信息,mAP50相比实验1提升了5.2%,但由于模块的叠加导致模型复杂度上升,FPS下降了5.6。考虑到路侧小目标的检测中的收敛速度和回归结果不准确的问题,实验5在实验4基础上在YOLOv5s网络的检测头部分引入Focal-EIOU Loss,加速对高置信度目标的学习,提高边界框回归速率和锚框定位精度,mAP50和FPS相比实验9分别提高了0.3%和6.1,比实验1提高了5.5%,且FPS保持在71.9,表明模型仍有较高的检测速度,满足路侧端设备实时检测。
本发明主要针对路侧目标检测中检测目标较小、背景复杂及特征提取受限,导致路况信息检测速度和精度无法同时提升的问题。该算法在YOLOv5s的基础上重构了特征融合模块,使其能够更加有效的捕捉小目标信息,提高了小目标特征提取能力;其次引入了GFPN进行多尺度特征融合,提高了不同分辨率特征信息的融合效率;另外引入了CA模块,提高了模型的鲁棒性;最后替换Focal-EIOU Loss为算法模型的损失函数,在提高边界框回归速度的同时提高定位速度。以Rope3D数据集为基础,筛选建立新数据集进行实验。实验结果表明,在复杂环境下改进后的算法适应能力更强,准确率在原始算法的基础上提升了5.5%,并且检测速度基本不变。除此之外,模型重量下降了60.4%,更加有利于边缘设备的部署。然而,与理想的检测要求相比,我们的网络容易出现一些模糊的目标。这个问题将作为我们未来的主要研究方向。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种新的路侧视角下目标检测系统,其特征在于,包括:
数据获取模块、模型构建模块及损失函数模块;
所述数据获取模块用于获取路侧图像数据集与训练数据集;
所述模型构建模块包括信息提取模块、信息融合模块,所述信息融合模块用于将所述特征信息进行融合;
所述信息提取模块用于提取路侧图像数据集与训练数据集中的特征信息。
2.根据权利要求1所述的新的路侧视角下目标检测系统,其特征在于,所述信息提取模块包括:特征提取模块、注意力模块;其中,所述注意力模块用于位置信息嵌入和坐标信息特征图生成,增强特征中的重要通道和空间特征信息;所述特征提取模块由YOLOv5s算法模型的主干网络特征提取模块去除顶层特征提取层得到,用于提取特征信息。
3.根据权利要求1所述的新的路侧视角下目标检测系统,其特征在于,所述信息融合模块采用广义特征金字塔网络结构,跨尺度特征融合方法对特征信息进行融合,其中,所述跨尺度特征融合方法包括两种方式:各尺度的节点同时对其上一个、斜上方以及斜下方三个节点进行特征融合、对前一层与当前层的特征进行融合并建立跳层连接。
4.根据权利要求1所述的新的路侧视角下目标检测系统,其特征在于,所述损失函数模块包括:EIOULoss与FocalLoss,其中所述EIOULoss包括重叠损失、中心距损失、宽高损失,所述EIOULoss用于优化收敛速度和回归精度,所述FocalLoss用于优化边界框回归任务中的样本不平衡问题。
5.根据权利要求4所述的新的路侧视角下目标检测系统,其特征在于,所述宽高损失用于使目标盒与锚盒的宽度和高度之差最小,优化收敛速度。
6.根据权利要求3所述的新的路侧视角下目标检测系统,其特征在于,所述信息融合模块采取从底层特征提取层开始进行特征融合的方式进行信息融合。
7.一种新的路侧视角下目标检测方法,其特征在于,包括以下步骤:
获取数据集;构建路侧图像检测改进模型;基于所述数据集对所述路侧图像检测改进模型进行训练和评价;获取路侧图像;将所述路侧图像输入至训练后的路侧图像检测改进模型进行识别,实现路侧视角下的目标检测。
8.根据权利要求7所述的新的路侧视角下目标检测方法,其特征在于,
基于照明条件、天气情况、道路场景、相机规格将所述数据集划分为不同的子数据集,并分为训练集和验证集。
CN202210985807.XA 2022-08-15 2022-08-15 一种新的路侧视角下目标检测系统及方法 Pending CN115346177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210985807.XA CN115346177A (zh) 2022-08-15 2022-08-15 一种新的路侧视角下目标检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210985807.XA CN115346177A (zh) 2022-08-15 2022-08-15 一种新的路侧视角下目标检测系统及方法

Publications (1)

Publication Number Publication Date
CN115346177A true CN115346177A (zh) 2022-11-15

Family

ID=83951674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210985807.XA Pending CN115346177A (zh) 2022-08-15 2022-08-15 一种新的路侧视角下目标检测系统及方法

Country Status (1)

Country Link
CN (1) CN115346177A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861860A (zh) * 2023-02-24 2023-03-28 杭州靖安科技有限公司 一种无人机的目标跟踪定位方法和系统
CN115880574A (zh) * 2023-03-02 2023-03-31 吉林大学 一种水下光学图像轻量化目标识别方法、设备和介质
CN116385825A (zh) * 2023-03-22 2023-07-04 小米汽车科技有限公司 模型联合训练方法、装置及车辆
CN116645502A (zh) * 2023-07-27 2023-08-25 云南大学 输电线路图像检测方法、装置及电子设备
CN117011688A (zh) * 2023-07-11 2023-11-07 广州大学 一种水下结构病害的识别方法、系统及存储介质
CN117152484A (zh) * 2023-07-19 2023-12-01 南京林业大学 改进YOLOv5s的小目标布匹瑕疵检测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861860A (zh) * 2023-02-24 2023-03-28 杭州靖安科技有限公司 一种无人机的目标跟踪定位方法和系统
CN115861860B (zh) * 2023-02-24 2023-06-02 杭州靖安科技有限公司 一种无人机的目标跟踪定位方法和系统
CN115880574A (zh) * 2023-03-02 2023-03-31 吉林大学 一种水下光学图像轻量化目标识别方法、设备和介质
CN115880574B (zh) * 2023-03-02 2023-06-16 吉林大学 一种水下光学图像轻量化目标识别方法、设备和介质
CN116385825A (zh) * 2023-03-22 2023-07-04 小米汽车科技有限公司 模型联合训练方法、装置及车辆
CN116385825B (zh) * 2023-03-22 2024-04-30 小米汽车科技有限公司 模型联合训练方法、装置及车辆
CN117011688A (zh) * 2023-07-11 2023-11-07 广州大学 一种水下结构病害的识别方法、系统及存储介质
CN117011688B (zh) * 2023-07-11 2024-03-08 广州大学 一种水下结构病害的识别方法、系统及存储介质
CN117152484A (zh) * 2023-07-19 2023-12-01 南京林业大学 改进YOLOv5s的小目标布匹瑕疵检测方法
CN117152484B (zh) * 2023-07-19 2024-03-26 南京林业大学 基于改进的YOLOv5s的小目标布匹瑕疵检测方法
CN116645502A (zh) * 2023-07-27 2023-08-25 云南大学 输电线路图像检测方法、装置及电子设备
CN116645502B (zh) * 2023-07-27 2023-10-13 云南大学 输电线路图像检测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN115346177A (zh) 一种新的路侧视角下目标检测系统及方法
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN110929692B (zh) 一种基于多传感器信息融合的三维目标检测方法及装置
CN110175576B (zh) 一种结合激光点云数据的行驶车辆视觉检测方法
CN111695448B (zh) 一种基于视觉传感器的路侧车辆识别方法
CN109635685A (zh) 目标对象3d检测方法、装置、介质及设备
CN114565900A (zh) 基于改进YOLOv5和双目立体视觉的目标检测方法
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN111461221B (zh) 一种面向自动驾驶的多源传感器融合目标检测方法和系统
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及系统
CN103198300B (zh) 基于双层背景的停车事件检测方法
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及系统
CN115205264A (zh) 一种基于改进YOLOv4的高分辨率遥感船舶检测方法
CN114049572A (zh) 识别小目标的检测方法
CN114359130A (zh) 一种基于无人机影像的道路裂缝检测方法
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN116597411A (zh) 极端天气下无人驾驶车辆识别交通标志的方法及系统
CN116092034A (zh) 一种基于改进的DeeplabV3+模型的车道线检测方法
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
CN115019139A (zh) 一种基于双流网络的光场显著目标检测方法
Jiangzhou et al. Research on real-time object detection algorithm in traffic monitoring scene
Luo et al. Recognition and Extraction of Blue-roofed Houses in Remote Sensing Images based on Improved Mask-RCNN
CN118015490A (zh) 一种无人机航拍图像小目标检测方法、系统及电子设备
CN117455955B (zh) 一种基于无人机视角下的行人多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination