CN111814621A - 一种基于注意力机制的多尺度车辆行人检测方法及装置 - Google Patents

一种基于注意力机制的多尺度车辆行人检测方法及装置 Download PDF

Info

Publication number
CN111814621A
CN111814621A CN202010602508.4A CN202010602508A CN111814621A CN 111814621 A CN111814621 A CN 111814621A CN 202010602508 A CN202010602508 A CN 202010602508A CN 111814621 A CN111814621 A CN 111814621A
Authority
CN
China
Prior art keywords
yolov3
spp
network
module
pan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010602508.4A
Other languages
English (en)
Other versions
CN111814621B (zh
Inventor
孔斌
李经宇
杨静
王灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202010602508.4A priority Critical patent/CN111814621B/zh
Publication of CN111814621A publication Critical patent/CN111814621A/zh
Application granted granted Critical
Publication of CN111814621B publication Critical patent/CN111814621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的多尺度车辆行人检测方法及装置,所述方法包括:构建SPP+模块;将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3‑SPP+网络;在YOLOv3‑SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3‑SPP+‑PAN网络;在YOLOv3‑SPP+‑PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,形成SE‑YOLOv3‑SPP+‑PAN网络;本发明的优点在于:适用于多尺度车辆行人检测,且小目标检测性能提升。

Description

一种基于注意力机制的多尺度车辆行人检测方法及装置
技术领域
本发明涉及计算机视觉以及车辆行人检测领域,更具体涉及一种基于注意力机制的多尺度车辆行人检测方法及装置。
背景技术
车辆行人检测是智能交通系统中一个不可或缺的重要环节,而随着近些年来深度学习的发展和应用,基于深度学习的目标检测网络应运而生。基于深度学习的目标检测框架主要分为两类:1.两级检测器如fast-RCNN,faster-RCNN;2.一级检测器如YOLO,SSD。两级检测器首先在图像中生成候选区域,随后在候选区域提取特征,然后使用区域分类器预测候选区域的类别。一级检测器直接在特征图的每个位置对目标进行分类预测,无需级联区域分类步骤。一级检测器则显著提高了时间效率,并且对实时对象具有更大的适用性,网络的实时性对自动驾驶实际需求尤为重要。Yolo算法采用一个单独的CNN模型实现端对端的目标检测,首先将输入图片调整到448x448,然后送入CNN网络,最后处理网络预测结果得到检测的目标。
现有的车辆行人检测YOLOv3算法的多尺度预测侧重于将多尺度卷积层的全局特征串联起来,而忽略了同一卷积层上多尺度局部特征的融合。其次,对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征;深层网络分辨率低,学的更多是语义特征,信息融合路径长,丢失了位置信息导致小目标检测性能下降。
中国专利申请号CN201911013341.1,公开了一种基于YOLOv3的轻量级框架改进的目标识别方法,通过将YOLOv3的轻量级版本YOLOv3-tiny和SENet相结合得到YOLOv3-tiny-SE来进行目标检测和识别。具体包括:在不同的路况、行车环境和天气条件下进行车辆、行人和交通环境图片的采集,对采集到的数据进行预处理以及数据增强,制作并完善目标识别样本集,对样本集进行标注,然后将样本集分为训练集和测试集两部分,在YOLOv3-tiny中嵌入SENet结构,得到YOLOv3-tiny-SE,在训练集上训练YOLOv3-tiny-SE,在测试集上测试YOLOv3-tiny-SE,然后和YOLOv3-tiny性能进行比较。该发明申请提出的目标识别方法泛化能力强,且可以加快目标检测速度、提高小目标检测的准确率、提高模型参数对噪声的鲁棒性。但是其忽略了同一卷积层上多尺度局部特征的融合,不适用于多尺度车辆行人检测,并且没有解决YOLOv3网络信息融合路径长,易丢失位置信息导致小目标检测性能下降的问题。
发明内容
本发明所要解决的技术问题在于现有技术的车辆行人检测方法及装置不适用于多尺度车辆行人检测,且易导致小目标检测性能下降的问题。
本发明通过以下技术手段实现解决上述技术问题的:一种基于注意力机制的多尺度车辆行人检测方法,所述方法包括:
构建SPP+模块;
将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3-SPP+网络;
在YOLOv3-SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3-SPP+-PAN网络;
在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,形成SE-YOLOv3-SPP+-PAN网络;
构建损失函数并训练SE-YOLOv3-SPP+-PAN网络,当损失函数值最小时停止训练;利用训练好的SE-YOLOv3-SPP+-PAN网络进行车辆行人检测。
本发明构建SPP+模块,将其引入到YOLOv3网络中,对多尺度局部区域特征进行池化合并,然后将全局和局部多尺度特征结合起来提高目标检测的精度,适用于多尺度车辆行人检测,同时,在YOLOv3-SPP+网络基础上,添加PAN模块来构成YOLOv3-SPP+-PAN网络,利用PAN模块缩短信息融合的路径,利用低层特征中存储的精确定位信号,提升特征金字塔架构,提升小目标检测性能。
进一步地,所述SPP+模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。
进一步地,YOLOv3采用Darknet-53作为特征提取器,在三个不同尺度的特征图上分别建立三个检测头,检测头的最终结果张量为N×N×(3×(4+1+C)),其中N×N表示最后卷积特征图的空间大小,其中,C表示类别的个数。
进一步地,所述SE模块的参数reduction设置为16。
进一步地,构建损失函数的过程包括:
通过公式
Figure BDA0002559513680000031
获取定位损失,其中,lbox表示定位损失,S表示栅格的尺寸,B代表锚框,
Figure BDA0002559513680000032
表示如果在某处的栅格有目标,其值为1,否则为0。wi,hi分别代表锚框的宽和高,xi和yi分别代表中心点所处区域的左上角坐标;
通过公式
Figure BDA0002559513680000041
获取分类损失lcls,其中,pi(c)表示物体属于c类别的概率,classes表示类别集合;
通过公式
Figure BDA0002559513680000042
获取置信度损失lobj,其中,
Figure BDA0002559513680000043
表示如果在某处的栅格没有目标,其值为0,否则为1;
通过公式loss=lbox+lobj+lcls构建损失函数,其中,loss表示总的损失函数值。
进一步地,所述训练SE-YOLOv3-SPP+-PAN网络的过程包括:
将darknet53的激活函数替换为swish激活函数,动量为0.9,衰减为0.0005,批次大小为64,初始学习率为0.00261,第900和950代的学习率分别降低到原来的0.1倍,利用Adam优化器自动更新参数,不断训练,直到损失函数值最小时停止训练。
本发明还提供一种基于注意力机制的多尺度车辆行人检测装置,所述装置包括:
SPP+模块构建模块,用来构建SPP+模块;
YOLOv3-SPP+网络形成模块,用来将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3-SPP+网络;
YOLOv3-SPP+-PAN网络形成模块,用来在YOLOv3-SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3-SPP+-PAN网络;
SE-YOLOv3-SPP+-PAN网络形成模块,用来在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,形成SE-YOLOv3-SPP+-PAN网络;
损失函数构建模块,用来构建损失函数并训练SE-YOLOv3-SPP+-PAN网络,当损失函数值最小时停止训练;
车辆行人检测模块,利用训练好的SE-YOLOv3-SPP+-PAN网络进行车辆行人检测。
进一步地,所述SPP+模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。
进一步地,YOLOv3采用Darknet-53作为特征提取器,在三个不同尺度的特征图上分别建立三个检测头,检测头的最终结果张量为N×N×(3×(4+1+C)),其中N×N表示最后卷积特征图的空间大小,其中,C表示类别的个数。
进一步地,所述SE模块的参数reduction设置为16。
进一步地,损失函数构建模块还用于:
通过公式
Figure BDA0002559513680000051
获取定位损失,其中,lbox表示定位损失,S表示栅格的尺寸,B代表锚框,
Figure BDA0002559513680000052
表示如果在某处的栅格有目标,其值为1,否则为0。wi,hi分别代表锚框的宽和高,xi和yi分别代表中心点所处区域的左上角坐标;
通过公式
Figure BDA0002559513680000053
获取分类损失lcls,其中,pi(c)表示物体属于c类别的概率,classes表示类别集合;
通过公式
Figure BDA0002559513680000061
获取置信度损失lobj,其中,
Figure BDA0002559513680000062
表示如果在某处的栅格没有目标,其值为0,否则为1;
通过公式loss=lbox+lobj+lcls构建损失函数,其中,loss表示总的损失函数值。
进一步地,所述训练SE-YOLOv3-SPP+-PAN网络的过程包括:
将darknet53的激活函数替换为swish激活函数,动量为0.9,衰减为0.0005,批次大小为64,初始学习率为0.00261,第900和950代的学习率分别降低到原来的0.1倍,利用Adam优化器自动更新参数,不断训练,直到损失函数值最小时停止训练。
本发明的优点在于:
(1)本发明构建SPP+模块,将其引入到YOLOv3网络中,对多尺度局部区域特征进行池化合并,然后将全局和局部多尺度特征结合起来提高目标检测的精度,适用于多尺度车辆行人检测,同时,在YOLOv3-SPP+网络基础上,添加PAN模块来构成YOLOv3-SPP+-PAN网络,利用PAN模块缩短信息融合的路径,利用低层特征中存储的精确定位信号,提升特征金字塔架构,提升小目标检测性能。
(2)为了提高车辆行人的检测性能,使网络更加专注于车辆与行人检测,在YOLOv3-SPP+-PAN网络基础上嵌入SE注意力机制模块。
附图说明
图1为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中SPP+模块嵌入YOLOv3网络的示意图;
图2为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中FPN工作原理示意图;
图3为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中PAN模块嵌入YOLOv3-SPP+网络的示意图;
图4为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中SE模块嵌入YOLOv3-SPP+-PAN网络的示意图;
图5为本发明实施例所提供的一种基于注意力机制的多尺度车辆行人检测方法中SE-YOLOv3-SPP+-PAN网络示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
Yolo算法属于现有技术算法,其采用一个单独的CNN模型实现end-to-end(端对端)的目标检测,首先将输入图片resize到448x448,然后送入CNN网络,最后处理网络预测结果得到检测的目标。其速度更快,而且Yolo的训练过程也是端到端的。与滑动窗口不同的是,yolo先将图片分成S*S个块。每个单元格会预测B个边界框(bounding box)以及边界框的置信度(confidence score)。所谓置信度其实包含两个方面,一是这个框中目标存在的可能性大小,二是这个边界框的位置准确度。
例如将输入图像划分为S×S网格,每个网格预测K个包围框,包围框包含对象的置信真值
Figure BDA0002559513680000081
和对目标属于C类的条件概率Pr(Classi|Object);
Figure BDA0002559513680000082
是预测值和真值相结合的交集。因此,每个包围框特定类的置信度是:
Figure BDA0002559513680000083
公式(1)表示预测框与真值之间的重合度以及对象属于每个类的概率。
对于Yolo算法原理过程可以参考文章《Yolo算法--从原理到实现(一)》,原文链接https://blog.csdn.net/Dongjiuqing/java/article/details/84763430。其中,对于YOLOv3网络也有介绍。
YOLOv3网络也属于现有技术,关于YOLOv3网络属于本领域公知常识,在此不做过多赘述,简单介绍其原理。YOLOv3网络采用Darknet-53作为特征提取器。其次,YOLOv3遵循特征金字塔网络的思想,在三种不同的尺度上预测边界盒。在三个不同尺度的特征图上分别建立三个检测头,负责检测不同尺度的目标。检测头中的每个网格被分配了三个不同的锚,从而预测由4个边界框偏移、1个目标和C个类别预测组成的三个检测。检测头的最终结果张量为N×N×(3×(4+1+C)),其中N×N表示最后卷积特征图的空间大小。
本发明是在YOLOv3网络基础上添加SPP+模块、PAN模块以及SE模块,最终构建SE-YOLOv3-SPP+-PAN网络,其中,PAN模块以及SE模块为现有技术的算法模块,SPP+模块是基于现有技术的SPP模块进行架构改进得到的,以下详细介绍本申请的技术方案。
一种基于注意力机制的多尺度车辆行人检测方法,所述方法包括:
如图1所示,以YOLOv3为基础网络,针对无人驾驶实际场景问题,对网络进行改进。为了应对无人驾驶场景中尺度变化大问题。在此,通过融合不同尺度特征图和不同接收视野的信息的方法,提高多尺度检测的准确性。YOLOv3的多尺度预测侧重于将多尺度卷积层的全局特征串联起来,而忽略了同一卷积层上多尺度局部特征的融合。因此,SPP(金字塔池化)模块引入到YOLOv3中,对多尺度局部区域特征进行池化合并,然后将全局和局部多尺度特征结合起来提高目标检测的精度。本发明构建SPP+模块,SPP+模块由内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层组成,将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3-SPP+网络。图1中Convolutionallayer表示卷积层,卷积层前面的数字表示卷积层大小,Maxpool表示内核,内核后面的数字表示内核大小,module表示模块。改进的SPP+模块优点如下:改进的SPP+相比于原始SPP模块能够提取更多具有不同感受野的多尺度深度特征,并通过在特征映射的通道维度上拼接来融合。另外,改进的SPP+在同一层中获得的多尺度特征进一步提高YOLOv3的检测精度,且计算量小。
表1比较了YOLOv3以及YOLOv3-SPP+的模型复杂度,并比较了模型在KITTI数据集上的检测精度和速度。如表1所示,YOLOv3-SPP+在KITTI数据集上的目标检测精度为84.6%,比YOLOv3高0.6%。与YOLOv3相比,YOLOv3-SPP+的检测速度仅降低了约1.6fps,说明YOLOv3-SPP+仍具有较快的检测速度。
表1 YOLOv3,YOLOv3-SPP+比较
Figure BDA0002559513680000091
Figure BDA0002559513680000101
在已有YOLOv3-SPP+网络基础上,进一步优化网络,对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征;深层网络分辨率低,学的更多是语义特征,丢失了位置信息导致小目标检测性能下降。如图2所示,FPN(特征金字塔,Feature Pyramid Networks)提出不同分辨率特征融合的方式,即每个分辨率的特征图和上采样的低分辨率特征相加,使得不同层次的特征增强,由于此方式只在网络基础上做跨层连接和相加,增加计算量较少,同时性能改善卓越。FPN的低层次的特征对应大型目标,而高层级特征与低层级别特征之间路径较长,增加访问准确定位信息的难度。为了缩短信息路径和用低层级的准确定位信息增强特征金字塔,PAN模块在FPN基础上创建了自上而下的路径增强,用于缩短信息径,利用低层特征中存储的精确定位信号,提升特征金字塔架构。
如图3所示,在YOLOv3-SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3-SPP+-PAN网络;如图2所示,×2,×4,×8,×16,×32分别表示主干网络darknet-53的2倍,4倍,8倍,16倍与32倍下采样。YOLOv3三个检测头为图2中的P4,P5,P6。图中,N2、N4、N6组成PAN模块,通过添加PAN模块,YOLOv3-SPP+-PAN网络输出为N4对应的检测头1,N5对应的检测头2以及N6对应的检测头3,有效缩短信息融合的路径。
表2比较了YOLOv3-SPP+以及YOLOv3-SPP+-PAN的模型复杂度,并比较了模型在KITTI数据集上的检测精度和速度。如表2所示,YOLOv3-SPP+-PAN在KITTI数据集上的目标检测精度为85.8%,比YOLOv3-SPP+高1.2%。与YOLOv3-SPP+相比,YOLOv3-SPP+-PAN的检测速度仅降低了约0.5fps。在不影响检测速度的情况下,提高了检测精度。
表2 YOLOv3-SPP+,YOLOv3-SPP+-PAN比较
Figure BDA0002559513680000111
如图4所示为SE模块,其中X指输入,U是主干网络每一层卷积层的输出,X~表示结合了权重之后最终的输出。通过对卷积得到的特征图进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将该分数分别施加到对应的通道上,得到其结果。为了使网络更加专注于车辆与行人检测,在YOLOv3-SPP+-PAN网络基础上嵌入SE注意力机制模块也即SE模块。目标是通过使用注意机制来增加表现力,关注重要特征并抑制不必要的特征。
本发明的目标是增加一个车辆行人的注意力机制模块,但是注意力机制的添加的位置会对网络结果造成比较大的影响,本发明第一次将SE注意力机制模块与SPP+模块以及具有PAN结构的YOLOv3简单且高效的结合起来。实验证明,在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,网络会达到最优的效果。所述SE模块的参数reduction设置为16。最终构成的网络,SE模块通过对卷积得到车辆行人的特征图进行处理,得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将该分数分别施加到对应的通道上,得到一个更有效的车辆行人注意力机制的检测结果。
于是,成功构建了SE-YOLOv3-SPP+-PAN网络,形成了基于注意力机制的多尺度车辆行人检测算法模型。完整的网络结构示意图如图5所示。
本发明的目标是建立一个自动驾驶场景的实时高效的车辆、行人检测器。根据安装在驾驶车辆前部的摄像头所拍摄的图像数据集,检测器能识别汽车、行人、骑自行车者、货车、卡车、电车、杂项(例如拖车)。于是构建损失函数并训练SE-YOLOv3-SPP+-PAN网络,网络验证在KITTI数据集下进行。当损失函数值最小时停止训练;利用训练好的SE-YOLOv3-SPP+-PAN网络进行车辆行人检测。SE-YOLOv3-SPP+-PAN网络的训练参数设置以及训练过程如下:
将darknet53的激活函数替换为swish激活函数,动量为0.9,衰减为0.0005,批次大小为64,初始学习率为0.00261,第900和950代的学习率分别降低到原来的0.1倍,利用Adam优化器自动更新参数,不断训练,直到损失函数值最小时停止训练。
训练过程不断更新参数,损失函数值变化,损失函数值越小,mAP值越大,当mAP达到最大值时,网络总的损失函数最小,网络达到最优解。表4显示了原始YOLOv3,YOLOv3-SPP网络以及改进的YOLOv3-SPP+,YOLOv3-SPP+-PAN和SE-YOLOv3-SPP+-PAN在KITTI测试数据集上的对象检测结果并且详细比较了各个网络在KITTI测试数据集上的实验结果,包括精度,速度以及模型大小等。结果表明,所构造的SE-YOLOv3-SPP+-PAN网络有效提升了网络精度仍然保持了实时的检测速度,更适宜无人驾驶场景下的车辆行人目标检测。其中,Input-size表示输入图像大小,Precision表示精度,Recall表示召回率,F1-score是模型精确率和召回率的一种加权平均,FPS表示帧率,Volume表示模型大小。
表4各模型性能比较
Figure BDA0002559513680000121
Figure BDA0002559513680000131
其中,构建损失函数的过程包括:
通过公式
Figure BDA0002559513680000132
获取定位损失,其中,lbox表示定位损失,S表示栅格的尺寸,B代表锚框,
Figure BDA0002559513680000133
表示如果在某处的栅格有目标,其值为1,否则为0。wi,hi分别代表锚框的宽和高,xi和yi分别代表中心点所处区域的左上角坐标;
通过公式
Figure BDA0002559513680000134
获取分类损失lcls,其中,pi(c)表示物体属于c类别的概率,classes表示类别集合;
通过公式
Figure BDA0002559513680000135
获取置信度损失lobj,其中,
Figure BDA0002559513680000136
表示如果在某处的栅格没有目标,其值为0,否则为1;
通过公式loss=lbox+lobj+lcls构建损失函数,其中,loss表示总的损失函数值。
本发明的工作过程为:YOLOv3网络进行特征提取,经SE模块对特征图进行处理得到一个和通道数一样的一维向量作为每个通道的评价分数,然后将该分数分别施加到对应的通道上,得到其结果,然后SPP+模块对多通道的特征也即多尺度局部区域特征进行池化合并,然后将全局和局部多尺度特征结合起来,PAN模块利用三个检测头输出检测结果,并且在检测过程中,缩短信息融合的路径。
通过以上技术方案,本发明实施例1提供的一种基于注意力机制的多尺度车辆行人检测方法,在YOLOv3网络的基础上,通过添加改进的SPP(空间金字塔池化)模块即SPP+模块,对多尺度局部区域特征进行融合和拼接,使网络能够更全面地学习目标特征;其次,利用空间金字塔缩短通道间的信息融合,构造了YOLOv3-SPP+-PAN网络;最终,得到了基于注意力机制的高效的目标检测器SE-YOLOv3-SPP+-PAN。KITTI实验数据集验证结果SE-YOLOv3-SPP+-PAN比YOLOv3提升了2.2%mAP,证明了所提出的SE-YOLOv3-SPP+-PAN网络比YOLOv3更高效、更准确,因此更适合于智能驾驶场景下的目标检测。
实施例2
与本发明实施例1相对应的,本发明实施例2还提供一种基于注意力机制的多尺度车辆行人检测装置,所述装置包括:
SPP+模块构建模块,用来构建SPP+模块;
YOLOv3-SPP+网络形成模块,用来将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3-SPP+网络;
YOLOv3-SPP+-PAN网络形成模块,用来在YOLOv3-SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3-SPP+-PAN网络;
SE-YOLOv3-SPP+-PAN网络形成模块,用来在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,形成SE-YOLOv3-SPP+-PAN网络;
损失函数构建模块,用来构建损失函数并训练SE-YOLOv3-SPP+-PAN网络,当损失函数值最小时停止训练;
车辆行人检测模块,利用训练好的SE-YOLOv3-SPP+-PAN网络进行车辆行人检测。
具体的,所述SPP+模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。
具体的,YOLOv3采用Darknet-53作为特征提取器,在三个不同尺度的特征图上分别建立三个检测头,检测头的最终结果张量为N×N×(3×(4+1+C)),其中N×N表示最后卷积特征图的空间大小,其中,C表示类别的个数。
具体的,所述SE模块的参数reduction设置为16。
具体的,损失函数构建模块还用于:
通过公式
Figure BDA0002559513680000151
获取定位损失,其中,lbox表示定位损失,S表示栅格的尺寸,B代表锚框,
Figure BDA0002559513680000152
表示如果在某处的栅格有目标,其值为1,否则为0。wi,hi分别代表锚框的宽和高,xi和yi分别代表中心点所处区域的左上角坐标;
通过公式
Figure BDA0002559513680000153
获取分类损失lcls,其中,pi(c)表示物体属于c类别的概率,classes表示类别集合;
通过公式
Figure BDA0002559513680000154
获取置信度损失lobj,其中,
Figure BDA0002559513680000155
表示如果在某处的栅格没有目标,其值为0,否则为1;
通过公式loss=lbox+lobj+lcls构建损失函数,其中,loss表示总的损失函数值。
具体的,所述训练SE-YOLOv3-SPP+-PAN网络的过程包括:
将darknet53的激活函数替换为swish激活函数,动量为0.9,衰减为0.0005,批次大小为64,初始学习率为0.00261,第900和950代的学习率分别降低到原来的0.1倍,利用Adam优化器自动更新参数,不断训练,直到损失函数值最小时停止训练。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于注意力机制的多尺度车辆行人检测方法,其特征在于,所述方法包括:
构建SPP+模块;
将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3-SPP+网络;
在YOLOv3-SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3-SPP+-PAN网络;
在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,形成SE-YOLOv3-SPP+-PAN网络;
构建损失函数并训练SE-YOLOv3-SPP+-PAN网络,当损失函数值最小时停止训练;利用训练好的SE-YOLOv3-SPP+-PAN网络进行车辆行人检测。
2.根据权利要求1所述的一种基于注意力机制的多尺度车辆行人检测方法,其特征在于,所述SPP+模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。
3.根据权利要求1所述的一种基于注意力机制的多尺度车辆行人检测方法,其特征在于,YOLOv3采用Darknet-53作为特征提取器,在三个不同尺度的特征图上分别建立三个检测头,检测头的最终结果张量为N×N×(3×(4+1+C)),其中N×N表示最后卷积特征图的空间大小,其中,C表示类别的个数。
4.根据权利要求1所述的一种基于注意力机制的多尺度车辆行人检测方法,其特征在于,所述SE模块的参数reduction设置为16。
5.根据权利要求1所述的一种基于注意力机制的多尺度车辆行人检测方法,其特征在于,构建损失函数的过程包括:
通过公式
Figure FDA0002559513670000021
获取定位损失,其中,lbox表示定位损失,S表示栅格的尺寸,B代表锚框,
Figure FDA0002559513670000022
表示如果在某处的栅格有目标,其值为1,否则为0。wi,hi分别代表锚框的宽和高,xi和yi分别代表中心点所处区域的左上角坐标;
通过公式
Figure FDA0002559513670000023
获取分类损失lcls,其中,pi(c)表示物体属于c类别的概率,classes表示类别集合;
通过公式
Figure FDA0002559513670000024
获取置信度损失lobj,其中,
Figure FDA0002559513670000025
表示如果在某处的栅格没有目标,其值为0,否则为1;
通过公式loss=lbox+lobj+lcls构建损失函数,其中,loss表示总的损失函数值。
6.根据权利要求1所述的一种基于注意力机制的多尺度车辆行人检测方法,其特征在于,所述训练SE-YOLOv3-SPP+-PAN网络的过程包括:
将darknet53的激活函数替换为swish激活函数,动量为0.9,衰减为0.0005,批次大小为64,初始学习率为0.00261,第900和950代的学习率分别降低到原来的0.1倍,利用Adam优化器自动更新参数,不断训练,直到损失函数值最小时停止训练。
7.一种基于注意力机制的多尺度车辆行人检测装置,其特征在于,所述装置包括:
SPP+模块构建模块,用来构建SPP+模块;
YOLOv3-SPP+网络形成模块,用来将SPP+模块集成到YOLOv3网络的第一个检测头前面的第五卷积层和第六卷积层之间,形成YOLOv3-SPP+网络;
YOLOv3-SPP+-PAN网络形成模块,用来在YOLOv3-SPP+网络的三个检测头之后加入PAN模块,形成YOLOv3-SPP+-PAN网络;
SE-YOLOv3-SPP+-PAN网络形成模块,用来在YOLOv3-SPP+-PAN网络中YOLOv3网络的卷积层53层之后添加SE模块,形成SE-YOLOv3-SPP+-PAN网络;
损失函数构建模块,用来构建损失函数并训练SE-YOLOv3-SPP+-PAN网络,当损失函数值最小时停止训练;
车辆行人检测模块,利用训练好的SE-YOLOv3-SPP+-PAN网络进行车辆行人检测。
8.根据权利要求7所述的一种基于注意力机制的多尺度车辆行人检测装置,其特征在于,所述SPP+模块包括内核大小分别为5×5、7×7、9×9和13×13的并行最大池化层。
9.根据权利要求8所述的一种基于注意力机制的多尺度车辆行人检测装置,其特征在于,YOLOv3采用Darknet-53作为特征提取器,在三个不同尺度的特征图上分别建立三个检测头,检测头的最终结果张量为N×N×(3×(4+1+C)),其中N×N表示最后卷积特征图的空间大小,其中,C表示类别的个数。
10.根据权利要求8所述的一种基于注意力机制的多尺度车辆行人检测装置,其特征在于,所述SE模块的参数reduction设置为16。
CN202010602508.4A 2020-06-29 2020-06-29 一种基于注意力机制的多尺度车辆行人检测方法及装置 Active CN111814621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010602508.4A CN111814621B (zh) 2020-06-29 2020-06-29 一种基于注意力机制的多尺度车辆行人检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010602508.4A CN111814621B (zh) 2020-06-29 2020-06-29 一种基于注意力机制的多尺度车辆行人检测方法及装置

Publications (2)

Publication Number Publication Date
CN111814621A true CN111814621A (zh) 2020-10-23
CN111814621B CN111814621B (zh) 2024-01-23

Family

ID=72855201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010602508.4A Active CN111814621B (zh) 2020-06-29 2020-06-29 一种基于注意力机制的多尺度车辆行人检测方法及装置

Country Status (1)

Country Link
CN (1) CN111814621B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149643A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于多级注意力机制的面向无人机平台的车辆重识别方法
CN112396002A (zh) * 2020-11-20 2021-02-23 重庆邮电大学 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN112508014A (zh) * 2020-12-04 2021-03-16 东南大学 一种基于注意力机制的改进YOLOv3目标检测方法
CN112668662A (zh) * 2020-12-31 2021-04-16 北京理工大学 基于改进YOLOv3网络的野外山林环境目标检测方法
CN112733691A (zh) * 2021-01-04 2021-04-30 北京工业大学 一种基于注意力机制的多方向的无人机航拍的车辆检测方法
CN112990317A (zh) * 2021-03-18 2021-06-18 中国科学院长春光学精密机械与物理研究所 一种弱小目标检测方法
CN112990325A (zh) * 2021-03-24 2021-06-18 南通大学 一种面向嵌入式实时视觉目标检测的轻型网络构建方法
CN113011405A (zh) * 2021-05-25 2021-06-22 南京柠瑛智能科技有限公司 一种解决无人机地物目标识别多框重叠误差的方法
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113392695A (zh) * 2021-04-02 2021-09-14 太原理工大学 一种公路货车及其轮轴识别方法
CN113536885A (zh) * 2021-04-02 2021-10-22 西安建筑科技大学 一种基于YOLOv3-SPP的人体行为识别方法及系统
CN113780406A (zh) * 2021-09-08 2021-12-10 福州大学 一种基于yolo的成捆原木端面检测方法
CN113807311A (zh) * 2021-09-29 2021-12-17 中国人民解放军国防科技大学 一种多尺度目标识别方法
CN113837275A (zh) * 2021-09-24 2021-12-24 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN114495042A (zh) * 2022-01-27 2022-05-13 北京百度网讯科技有限公司 目标检测方法和装置
CN117409286A (zh) * 2023-12-15 2024-01-16 深圳昱拓智能有限公司 一种用于检测尺度均衡目标的目标检测方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095152A1 (en) * 2013-12-17 2015-06-25 The Penn State Research Foundation Manipulation of light spectral quality to reduce parasitism by cuscuta and other plant parasites
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110443208A (zh) * 2019-08-08 2019-11-12 南京工业大学 一种基于YOLOv2的车辆目标检测方法、系统及设备
CN110929577A (zh) * 2019-10-23 2020-03-27 桂林电子科技大学 一种基于YOLOv3的轻量级框架改进的目标识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015095152A1 (en) * 2013-12-17 2015-06-25 The Penn State Research Foundation Manipulation of light spectral quality to reduce parasitism by cuscuta and other plant parasites
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110443208A (zh) * 2019-08-08 2019-11-12 南京工业大学 一种基于YOLOv2的车辆目标检测方法、系统及设备
CN110929577A (zh) * 2019-10-23 2020-03-27 桂林电子科技大学 一种基于YOLOv3的轻量级框架改进的目标识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹燕;李欢;王天宝;: "基于深度学习的目标检测算法研究综述", 计算机与现代化, no. 05 *
郑冬;李向群;许新征;: "基于轻量化SSD的车辆及行人检测网络", 南京师大学报(自然科学版), no. 01 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149643A (zh) * 2020-11-09 2020-12-29 西北工业大学 基于多级注意力机制的面向无人机平台的车辆重识别方法
CN112396002A (zh) * 2020-11-20 2021-02-23 重庆邮电大学 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN112508014A (zh) * 2020-12-04 2021-03-16 东南大学 一种基于注意力机制的改进YOLOv3目标检测方法
CN112668662A (zh) * 2020-12-31 2021-04-16 北京理工大学 基于改进YOLOv3网络的野外山林环境目标检测方法
CN112668662B (zh) * 2020-12-31 2022-12-06 北京理工大学 基于改进YOLOv3网络的野外山林环境目标检测方法
CN112733691A (zh) * 2021-01-04 2021-04-30 北京工业大学 一种基于注意力机制的多方向的无人机航拍的车辆检测方法
CN112990317B (zh) * 2021-03-18 2022-08-30 中国科学院长春光学精密机械与物理研究所 一种弱小目标检测方法
CN112990317A (zh) * 2021-03-18 2021-06-18 中国科学院长春光学精密机械与物理研究所 一种弱小目标检测方法
CN113011329A (zh) * 2021-03-19 2021-06-22 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113011329B (zh) * 2021-03-19 2024-03-12 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
CN112990325A (zh) * 2021-03-24 2021-06-18 南通大学 一种面向嵌入式实时视觉目标检测的轻型网络构建方法
CN113536885A (zh) * 2021-04-02 2021-10-22 西安建筑科技大学 一种基于YOLOv3-SPP的人体行为识别方法及系统
CN113392695A (zh) * 2021-04-02 2021-09-14 太原理工大学 一种公路货车及其轮轴识别方法
CN113011405A (zh) * 2021-05-25 2021-06-22 南京柠瑛智能科技有限公司 一种解决无人机地物目标识别多框重叠误差的方法
CN113780406A (zh) * 2021-09-08 2021-12-10 福州大学 一种基于yolo的成捆原木端面检测方法
CN113837275A (zh) * 2021-09-24 2021-12-24 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN113837275B (zh) * 2021-09-24 2023-10-17 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN113807311A (zh) * 2021-09-29 2021-12-17 中国人民解放军国防科技大学 一种多尺度目标识别方法
CN114495042A (zh) * 2022-01-27 2022-05-13 北京百度网讯科技有限公司 目标检测方法和装置
CN114495042B (zh) * 2022-01-27 2023-08-29 北京百度网讯科技有限公司 目标检测方法和装置
CN117409286A (zh) * 2023-12-15 2024-01-16 深圳昱拓智能有限公司 一种用于检测尺度均衡目标的目标检测方法、系统及介质
CN117409286B (zh) * 2023-12-15 2024-03-26 深圳昱拓智能有限公司 一种用于检测尺度均衡目标的目标检测方法、系统及介质

Also Published As

Publication number Publication date
CN111814621B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN111814621A (zh) 一种基于注意力机制的多尺度车辆行人检测方法及装置
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN110263706B (zh) 一种雾霾天气车载视频动态目标检测和识别的方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN101470809B (zh) 一种基于扩展混合高斯模型的运动目标检测方法
CN113468967A (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN113343985B (zh) 车牌识别方法和装置
CN115376108A (zh) 一种复杂天气下障碍物检测方法及装置
CN113052159A (zh) 一种图像识别方法、装置、设备及计算机存储介质
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN114973199A (zh) 一种基于卷积神经网络的轨道交通列车障碍物检测方法
CN116758421A (zh) 一种基于弱监督学习的遥感图像有向目标检测方法
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
Arthi et al. Object detection of autonomous vehicles under adverse weather conditions
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s
CN117037104A (zh) 一种基于线锚的多分类车道线检测方法
CN116824630A (zh) 一种轻量化红外图像行人目标检测方法
CN116630904A (zh) 融合非临近跳连与多尺度残差结构的小目标车辆检测方法
CN108256444B (zh) 一种用于车载视觉系统的目标检测方法
CN113869239A (zh) 一种交通信号灯倒计时识别系统及其构建方法、应用方法
Yang et al. An instance segmentation algorithm based on improved mask R-CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant