CN115424237A - 一种基于深度学习的前向车辆识别与距离检测方法 - Google Patents

一种基于深度学习的前向车辆识别与距离检测方法 Download PDF

Info

Publication number
CN115424237A
CN115424237A CN202210979374.7A CN202210979374A CN115424237A CN 115424237 A CN115424237 A CN 115424237A CN 202210979374 A CN202210979374 A CN 202210979374A CN 115424237 A CN115424237 A CN 115424237A
Authority
CN
China
Prior art keywords
network
detection
forward vehicle
module
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210979374.7A
Other languages
English (en)
Inventor
赵敏
孙棣华
庞思袁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210979374.7A priority Critical patent/CN115424237A/zh
Publication of CN115424237A publication Critical patent/CN115424237A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/08Systems determining position data of a target for measuring distance only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供了一种基于深度学习的前向车辆识别与距离检测方法,包括以下步骤:获取前向车辆识别与距离检测所需的数据集,并对数据集进行预处理;搭建骨干网络;搭建目标检测子网络;搭建深度估计子网络;基于深度学习的前向车辆识别与距离检测网络的训练;基于K‑Means优化前向车辆距离检测。本发明一种基于深度学习的前向车辆识别与距离检测方法,从数据集、网络结构设计、模型搭建、损失函数设计和目标测距特征点拟合五个方面来实现前向车辆识别与距离检测,检测更准确,定位性能更佳。

Description

一种基于深度学习的前向车辆识别与距离检测方法
技术领域
本发明属于车辆检测技术领域,具体涉及一种基于深度学习的前向车辆识别与距离检测方法。
背景技术
前向车辆目标检测和距离检测是智能驾驶系统环境感知技术不可或缺的重要部分。通过及时准确的感知环境信息,结合场景数据进行分析和决策,预测潜在的交通事故并做出预警,可以显著提升汽车的主动安全性能。但是,在现实场景中,车辆种类、车型以及尺寸的变化复杂,加之不同程度的车与车之间的遮挡、车和环境的相互遮挡,以及道路的俯仰角变化,都对前向车辆识别和距离检测造成了很大的挑战。因此,如何快速准确的进行车辆目标识别和距离检测,成为了当下智能驾驶系统研究的一大难点。
进行环境感知的前提是了解车辆周围的环境信息,得到前向车辆的距离信息也是做出决策控制的关键。根据检测设备和检测方式的不同,前向车辆距离检测方法可以分为以下几类:毫米波雷达测距、激光测距、超声波测距、视觉测距等。在这几类方法中,尽管超声波、毫米波雷达、激光雷达等在测距精度上都远优于视觉测距,但是基于激光雷达和毫米波雷达的主动式传感器价格昂贵,测距扫描范围有限,而且对信号干扰比较敏感。对比之下,基于视觉测距的方式成本较低,安装简易方便,普及率高,因此工业界更青睐视觉测距的方式。
视觉测距中,基于单目视觉的测距方法具有模型简单,计算资源消耗少等优点,是普通车辆的标配,具有良好的应用前景。但如今交通环境多变、影响因素多,直接应用目标检测算法难以获得很好的车辆检测精度,这给车辆目标检测带来了很大的挑战。
目前,主流的基于单目视觉的距离检测方法一般都是基于相似几何原理,结合相机内外参数对前向车辆距离进行估计。但这类方法需要借助被测对象的实际高度或者宽度来完成,并且相机参数获取过程繁杂且匹配繁杂,在非结构化的道路上,测距有效距离较短,在弯道上测距误差较大。
因此,亟需一种能够准确识别前向车辆、检测前向车辆距离、进行精准定位的方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习的前向车辆识别与距离检测方法。本发明旨在解决现有方法无法准确检测前向车辆,定位性能欠佳的问题。
为达到上述目的,本发明提供了一种基于深度学习的前向车辆识别与距离检测方法,包括以下步骤;
S1.获取前向车辆识别与距离检测所需的数据集,并对数据集进行预处理;
S2.搭建骨干网络;
S3.搭建目标检测子网络;
S4.搭建深度估计子网络;
S5.基于深度学习的前向车辆识别与距离检测网络的训练;
S6.基于K-Means优化前向车辆距离检测。
进一步,所述步骤S1的数据集为KITTI数据集,所述KITTI数据集包括车辆训练图片、标注文件和点云文件。
进一步,所述步骤S1中,数据集的预处理步骤如下:
S1.1将点云文件转换为深度图标签;
S1.2对步骤S1.1处理后的KITTI数据集进行数据清洗,筛选出标注有误的图片并剔除;
S1.3采用K-means k均值聚类算法确定锚框个数和高宽比;
S1.4将数据集90%的内容作为训练集,剩下10%的内容作为测试集
进一步,所述步骤S2中,骨干网络的搭建步骤如下:
S2.1引入以VGG-16为骨干的多任务注意力网络MTAN,并构建目标检测任务和深度估计任务;
S2.2引入大核注意力机制LKA,对步骤S2.1引入的MTAN注意力模块中的1×1卷积层、BN层和ReLu激活函数进行替换;
S2.3提取步骤S2.2替换后的注意力模块对应共享网络Conv4-3、Conv7进行软注意力掩码的输出Conv4-3-1、Conv7-1、Conv4-3-2和Conv7-2,所述输出Conv4-3-1、Conv7-1、Conv4-3-2和Conv7-2为后续任务的输入;
S2.4将Conv4-3-1、Conv4-3-2、Conv7-1和Conv7-2上采样2倍后进行通道维度的拼接,得到特征图ψ1、ψ2
进一步,所述步骤S3中,目标检测子网络的搭建步骤如下:
S3.1将ψ1作为并联多尺度感受野融合模块的输入,所述多尺度感受野融合模块并联有ASPP模块,所述ASPP模块的空洞率分别设置为1、6、12,之后提取通过ASPP模块的特征图φ1、φ2和φ3
S3.2以特征图φ1、φ2、φ3为基准,对每个特征图额外添加4组卷积,第一组卷积为步长为1的3×3卷积,后面3组卷积为步长为2的3×3卷积组成,提取添加卷积后的特征图构建特征金字塔;
S3.3从三个不同感受野尺度的金字塔中选取同分辨率大小的金字塔进行通道维度的拼接,然后引入SE模块进行学习,将最终得到的特征金字塔作为目标检测网络的初检网络;
S3.4在初检网络的基础上,采用带权重的可变形卷积处理各尺度的特征图,从而提高检测框的回归精度。
进一步,所述步骤S4中,深度估计子网络的搭建步骤如下:
S4.1将ψ2作为DORN深度估计任务的输入;
S4.2增加一个场景理解模块,所述场景理解模块包括全图像编码模块、跨通道的信息压缩模块和空洞空间卷积池化金字塔模块;
S4.3利用序数回归模块将离散深度值化分为多类。
进一步,所述步骤S5中,训练步骤如下:
S5.1设计总体损失函数Ltotal,所述总体损失函数Ltotal包括目标检测损失函数Ldetect和深度估计损失函数Ldepth
S5.2设置网络输入图片大小、初始学习率和迭代次数;
S5.3采用损失函数自适应策略训练网络模型。
进一步,所述步骤S6中,优化检测步骤如下:
S6.1输入待预测图片,得到车辆检测框坐标和图片中各个像素点的深度值;
S6.2根据车辆检测框坐标,计算检测框的中心点坐标,然后将中心点坐标作为深度提取区域的中心点,以检测框高宽的一半构建深度值提取区域;
S6.3引入K-Means聚类算法,检测前向车辆目标距离。
本发明的有益效果在于:
1.本发明提供了一种基于深度学习的前向车辆识别与距离检测方法,通过深度学习技术带动目标检测和目标测距,深度信息可以用以表征图像中的真实距离值,单目深度估计可以提高距离检测的精度。本发明通过多尺度感受野融合模块和改进的级联SSD车辆检测算法,提升了多尺度目标检测效果和定位性能。
2.本发明提供了一种基于深度学习的前向车辆识别与距离检测方法,引入了多任务注意力网络MTAN,将前向车辆距离检测网络中目标检测任务与深度估计任务并联,提出了一种端到端的目标检测与单目深度估计多任务学习模型,解决了目标检测任务与深度估计任务之间的相关性与差异性难以平衡的问题。本发明还引入了大核注意力机制和多任务损失函数自适应策略,进一步提高了目标检测和深度估计的精度。同时,本发明还提出了基于测距特征点拟合与基于K-Means优化的测距方式,解决了2D车辆边界框中非车辆区域深度值对距离检测形成干扰的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究,对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
图1为本发明基于深度学习的前向车辆识别与距离检测方法的网络结构示意图。
具体实施方式
为使本发明的技术方案、优点和目的更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本申请的保护范围。
如图1所示,本发明提供了一种基于深度学习的前向车辆识别与距离检测方法,包括以下步骤:
S1.获取前向车辆识别与距离检测的目标检测和深度估计对齐的数据集,并对数据集进行预处理,主要分为以下五个部分:
S1.1下载KITTI数据集,该数据集里面包含车辆训练图片、标注文件和点云文件。
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。
KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。
点云是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合。在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为“点云”。
S1.2利用KITTI目标检测原始RGB图片和对应的相机参数矩阵、雷达点云数据生成uint8数据格式的深度图标签,单位为m。
S1.3以KITTI数据集的2D目标检测标注文件为准,对数据进行清洗,筛选出包含车辆信息标注的图片,进行车辆目标检测分支训练。
通过对每个车辆目标的距离进行统计,本实施例KITTI数据集中距离最远的一个目标为86.18m,为了和DORN模型设定的0-80m的深度值估计范围保持一致,需要对图片进行二次筛选。
S1.4参考YOLOv2算法中的K-Means(k均值聚类算法)方法,将目标框聚类为2-11类,得到的10个平均IoU,然后以聚类类别数为横坐标,平均IoU为纵坐标,得到类别数-平均IoU图,之后找到速度和精度权衡最好的拐点,确定类别数。
IoU全程交并比(Intersection over Union),计算的是“预测的边框”和“真实的边框”的交集和并集的比值。
S1.5将原始RGB图片按照9:1的比例随机划分为训练集和测试集,本实施例通过数据清洗后的图片大约有6800张。
S2.搭建骨干网络,主要包括以下四个部分:
S2.1引入以VGG-16为骨干的多任务注意力网络MTAN,并构建目标检测任务与深度估计任务两个分支。
VGG是Visual Geometry Group Network的缩写,视觉几何群网络,深度卷积神经网络。VGG16中数字“16”是指:VGG结构中有13个卷积层和3个全链接层。
MTAN(Muliti-Task Attention Netwrok)由一个包含全局特征池化的共享网络和基于特定任务的soft-attention模块组成。这些模块从全局共享特征中学习特定任务的特征,同时允许特征在不同任务间共享。该体系结构可以端到端训练,可以建立在任意前向神经网络上,实现简单,参数效率高。
S2.2引入大核注意力机制LKA替换步骤S2.1引入的MTAN注意力模块中的1×1卷积层、BN层以及ReLu激活函数。
LKA包括空间局部卷积(Depth-wise Convolution)、空间远程卷积(Depth-wiseDilation Convolution)和通道卷积(1×1Convolution)三个部分,其中空间局部卷积为5×5深度卷积,空间远程卷积为扩张率为3的7×7深度卷积。
S2.3提取步骤S2.2替换后的注意力模块对应共享网络Conv4-3、Conv7进行软注意力掩码的输出Conv4-3-1、Conv7-1、Conv4-3-2和Conv7-2,并将输出Conv4-3-1、Conv7-1、Conv4-3-2和Conv7-2为后续任务的输入。
其中,输出Conv4-3-1(表示目标检测子网络中与共享网络Conv4-3进行软注意力掩码的输出)、Conv4-3-2(表示深度估计子网络中与共享网络Conv4-3进行软注意力掩码的输出)。
S2.4将Conv4-3-1、Conv4-3-2、Conv7-1和Conv7-2上采样2倍后进行通道维度的拼接,得到特征图ψ1、ψ2
上采样,别名:放大图像,也叫图像插值。
S3.搭建目标检测子网络,主要分为以下四个部分:
S3.1将得到的特征图ψ1作为多尺度感受野融合模块(Multi-scale ReceptiveField Fusion Module,MRFFM)的输入,其中多尺度感受野融合模块并联有Res-ASPP模块,Res-ASPP模块的空洞率分别设置为1、6、12,之后通过Res-ASPP模块得到3种尺度感受野的特征图:φ1、φ2和φ3
S3.2以特征图φ1、φ2、φ3为基准,对每个特征图额外添加4组卷积,第一组卷积为步长为1的3×3卷积,后面3组为步长为2的3×3卷积组成,提取这4个尺度的特征图构建特征金字塔,金字塔各层分辨率如表1所示。
表1特征金字塔辨率大小
Figure BDA0003799802060000061
S3.3从三个不同感受野尺度的金字塔中选取同分辨率大小的金字塔进行通道维度的拼接,然后引入SE模块,学习不同特征层中各个通道的重要性,最终得到的特征金字塔作为目标检测网络的初检网络,用初检网络来分类背景和前景。
S3.4在初检网络的基础上,对每个尺度的特征图采用带权重的可变形卷积,利用基于学习的方法来获得卷积采样点的偏移量,完成带权重额可变形卷积计算。
步骤S3.4可以用来缓解锚框机制造成的特征不对齐问题,提高检测框的回归精度。初检网络输出四个变量:(dx,dy,dh,dw),其中(dx,dy)对应空间位置的偏移量,(dh,dw)表示尺度上的偏移量。本发明设计了一个带权重的特征对齐模块WFAM,WFAM所需的偏移量由dx,dy乘以一个初始化权重weight,然后通过一个卷积得到。WFAM全过程如下:
Δp=f(weight·(dx,dy))
a′=WeightDeformableConv(a,Δp)
式中,f表示卷积,a和a′分别表示原始特征图和对齐的特征图,Δp为卷积学习到的dx,dy,weight的偏差量。对于初始化权重weight,其初始值设为0.5。dx,dy的偏差量初始值设为0。WeightDeformable代表求带权重的可变形卷积。
S4.搭建深度估计子网络,主要分为以下四个部分:
S4.1将得到的特征图ψ2作为DORN模型深度估计任务的输入;
S4.2增加一个由全图像编码模块、跨通道的信息压缩模块和空洞空间卷积池化金字塔模块(Atrous Spatial Pyramid Pooling,ASPP)组成的场景理解模块,从而实现网络对输入图像的全面理解。
全图像编码模块可以捕获全局上下文信息,从而降低局部混淆问题。
跨通道的信息压缩模块旨在通过1×1的卷积,增强特征非线性能力的同时,对特征维度进行压缩,并对各通道间的信息进行交互共享。
ASPP模块通过设定6、12、18的膨胀率,在保证特征图分辨率不变的情况下,扩大特征图的感受野,实现对相同的输入进行不同比例的上下文捕捉,有助于对于场景特征的提取。
S4.3将一种空间递增离散化策略(SID)引入到DORN模型中,连续的进行深度值采样,然后利用序数回归模块将离散深度值化分为多类,将深度估计问题视为有序回归问题,并采用一个有序损失来学习其网络参数。
S5.基于深度学习的前向车辆识别与距离检测网络的训练,主要包括以下三个部分:
S5.1设计总体损失函数Ltotal,总体损失函数Ltotal包括目标检测损失函数Ldetect和单目估计网络损失函数Ldepth,λ1和λ2为超参数,总体损失函数Ltotal的计算表达式如下:
Ltotal=Ldetect+Ldepth
其中,级联SSD目标检测的损失函数分为Anchor提纯模块(Anchor RefinementModule,ARM)损失函数和目标检测模块(Object Detection Module,ODM)损失函数两部分,分类损失函数采用Softmax交叉熵损失函数,回归损失函数采用smooth-L1损失函数。
softmax交叉熵损失函数的计算表达式如下:
Figure BDA0003799802060000071
式中,Lcls(x,c)为softmax交叉熵损失函数,i代表候选框序号,j代表真实标签框序号,p是类别序号,p=0表示背景,其中
Figure BDA0003799802060000072
中取1表示第i个候选框匹配到第j个标注框,这个标注框的类别为p。
Figure BDA0003799802060000073
表示第i个候选框预测类别p的概率值。公式前半部分是正样本(Pos)的损失,即分类为某个类别的损失(不包括背景),后半部分是负样本(Neg)的损失,也就是类别为背景的损失。
目标检测损失函数Ldetect的计算表达式如下:
Figure BDA0003799802060000074
Figure BDA0003799802060000075
Lossdetect=LossARM+LossODM
式中,i表示Anchor的序号,pi与xi分别表示在ARM阶段模型预测第i个Anchor是前景目标的概率和对该Anchor的回归量,ci与ti分别表示在ODM阶段预测目标类别和预测框的坐标。LossARM与LossODM分别表是在ARM和ODM阶段的损失函数,Lb-cls和Lcls分别表示二分类和全类别Softmax交叉熵,Lreg表示基于Centerness加权的CIoU损失函数,
Figure BDA0003799802060000076
是第i个Anchor的类别标签,
Figure BDA0003799802060000081
是符号函数,
Figure BDA0003799802060000082
大于等于1时,其为1,反之则为0。
Figure BDA0003799802060000083
是第i个Anchor的匹配到的目标的位置和尺寸,λ参考RefineDet与Cas-SSD设置为1。
深度估计采用DORN深度估计的损失函数,单目估计网络损失函数Ldepth的计算表达式如下:
Figure BDA0003799802060000084
Figure BDA0003799802060000085
Figure BDA0003799802060000086
l(w,h)∈{0,1,...,K-1}
式中,χ为得到的特征图,W表示特征图的宽度,H表示特征图高度,Θ表示权重向量,N表示特征图像素点个数,l(w,h)表示采用SID策略对应(w,h)像素点的离散值标签,l(w,h)为有序回归的输出中解码的估计离散值,P为预测后的概率值。
S5.2设置网络输入图片大小、初始学习率和迭代次数。本实施例网络输入图片大小设置为320*320,初始学习率设置为0.0004,设定迭代次数为120个epoch(基于改进MTAN的前向车辆距离检测设定为250个epoch)。
初始前三个epoch采用预热WarmUp策略,学习率从10-6开始,经过3个epoch线性增长到0.0004,后续epoch的学习率采用余弦退火算法进行衰减。优化器采用带动量的SGD(随机梯度下降),其中动量momentum设置为0.9,权重衰减设置为0.0005,以防止模型过拟合。预热WarmUp策略以及余弦退火算法定义如下所示:
Figure BDA0003799802060000087
Figure BDA0003799802060000088
其中,lrmin根据经验设定为10-6;lrbase表示初始学习率0.0004;epoch_size设置为3,表示前3个epoch采用预热WarmUp策略;iter和Iter分别表示迭代一个epoch需要的次数和当前迭代次数;Tcur和Tsum分表表示当前迭代次数和总迭代次数。
S5.3采用损失函数自适应策略训练网络模型,计算表达式如下:
Ltotal=λ1Ldetect2Ldepth
式中,λ1与λ2分别作为目标检测和单目深度估计任务的权重参数。
根据多任务损失函数自适应权重策略,λ1与λ2的计算表达式如下:
Figure BDA0003799802060000089
Figure BDA00037998020600000810
式中,λk表示对应任务k的学习权重,k∈{1,2};wk(·)表示计算在(0,+∞)区间内的相对下降率;t表示当前迭代次数;T表示控制任务权重柔和度的变量,一个较大的T会使得不同任务之间的权重分布更加均匀,如果T足够大,那么λk≈1,所有任务的学习权重趋于相等,所以本实施例将T设置为2,以使网络能够找到两个任务之间的平衡;最后将softmax操作乘以K(任务总个数),以确保∑iλi(t)=K。在本实施例中,Lk(t)为每个epoch中所有迭代步数损失的平均值,这样做可以减少随机梯度下降和随机训练数据选择带来的不确定性,对于t=1,2时,将wk(t)初始化为1。
S6.基于K-Means优化的前向车辆距离检测,主要包括以下三个部分:
S6.1输入待预测图片,得到车辆检测框坐标和图片中各个像素点的深度值;
S6.2根据检测框坐标(x1,y1,x2,y2)计算车辆检测框的中心点坐标,中心点坐标的计算表达式为:
Figure BDA0003799802060000091
以此中心点作为深度值提取区域的中心点,以检测框高宽的一半构建深度值提取区域。
S6.3引入K-Means聚类算法,检测前向车辆目标的距离,检测过程如下:
①将前向车辆距离检测模型的目标检测输出的所有边界框视为集合
Figure BDA0003799802060000093
单目深度估计的输出为深度图M;
②计算集合
Figure BDA0003799802060000094
中任意两个框之间的IoU,用以判定是否存在车与车遮挡的情况。如果两个框之间的IoU大于设定阈值(如0.3),说明车与车之间的遮挡程度较高,则需要对两个框对应的深度图区域里面的像素进行K-Means聚类分析;反之,则跳转步骤③;
1)筛选出每个边界框内聚类簇数量排名的前两位,并记其簇“中心点”和簇数量分别为c1、c2为n1、n2
2)当n1≥1.5n2时,如果c1≤80,则选取c1作为边界框对应车辆的前向距离检测值;反之,则选取c2作为边界框对应车辆的前向距离检测值;
3)当n1<1.5n2时,选取c1和c2的最小值作为边界框对应车辆的前向距离检测值,来缓解背景深度值的干扰;
③为了提高前向距离检测的速度,选用计算深度值提取区域中深度值均值的方法对集合
Figure BDA0003799802060000095
中的所有车辆边界框进行距离检测,计算表达式为:
Figure BDA0003799802060000092
式中,d(w,h)表示在深度图(w,h)像素点对应的深度值;N表示在深度值信息提取区域的像素点总数;W和H分别表示深度值信息提取区域的高宽;Distance为拟合出的3D车辆的中心点的前向距离。
综上所述,本发明从数据集、网络结构设计、模型搭建、损失函数设计和目标测距特征点拟合五个方面来实现前向车辆识别与距离检测。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的保护范围当中。

Claims (8)

1.一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,包括以下步骤:
S1.获取前向车辆识别与距离检测所需的数据集,并对数据集进行预处理;
S2.搭建骨干网络;
S3.搭建目标检测子网络;
S4.搭建深度估计子网络;
S5.基于深度学习的前向车辆识别与距离检测网络的训练;
S6.基于K-Means优化前向车辆距离检测。
2.根据权利要求1所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S1的数据集为KITTI数据集,所述KITTI数据集包括车辆训练图片、标注文件和点云文件。
3.根据权利要求2所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S1中,数据集的预处理步骤如下:
S1.1将点云文件转换为深度图标签;
S1.2对步骤S1.1处理后的KITTI数据集进行数据清洗,筛选出标注有误的图片并剔除;
S1.3采用K-means k均值聚类算法确定锚框个数和高宽比;
S1.4将数据集90%的内容作为训练集,剩下10%的内容作为测试集。
4.根据权利要求1所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S2中,骨干网络的搭建步骤如下:
S2.1引入以VGG-16为骨干的多任务注意力网络MTAN,并构建目标检测任务和深度估计任务;
S2.2引入大核注意力机制LKA,对步骤S2.1引入的MTAN注意力模块中的1×1卷积层、BN层和ReLu激活函数进行替换;
S2.3提取步骤S2.2替换后的注意力模块对应共享网络Conv4-3、Conv7进行软注意力掩码的输出Conv4-3-1、Conv7-1、Conv4-3-2和Conv7-2,所述输出Conv4-3-1、Conv7-1、Conv4-3-2和Conv7-2为后续任务的输入;
S2.4将Conv4-3-1、Conv4-3-2、Conv7-1和Conv7-2上采样2倍后进行通道维度的拼接,得到特征图ψ1、ψ2
5.根据权利要求1所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S3中,目标检测子网络的搭建步骤如下:
S3.1将ψ1作为并联多尺度感受野融合模块的输入,所述多尺度感受野融合模块并联有ASPP模块,所述ASPP模块的空洞率分别设置为1、6、12,之后提取通过ASPP模块的特征图φ1、φ2和φ3
S3.2以特征图φ1、φ2、φ3为基准,对每个特征图额外添加4组卷积,第一组卷积为步长为1的3×3卷积,后面3组卷积为步长为2的3×3卷积组成,提取添加卷积后的特征图构建特征金字塔;
S3.3从三个不同感受野尺度的金字塔中选取同分辨率大小的金字塔进行通道维度的拼接,然后引入SE模块进行学习,将最终得到的特征金字塔作为目标检测网络的初检网络;
S3.4在初检网络的基础上,采用带权重的可变形卷积处理各尺度的特征图,从而提高检测框的回归精度。
6.根据权利要求1所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S4中,深度估计子网络的搭建步骤如下:
S4.1将ψ2作为DORN深度估计任务的输入;
S4.2增加一个场景理解模块,所述场景理解模块包括全图像编码模块、跨通道的信息压缩模块和空洞空间卷积池化金字塔模块;
S4.3利用序数回归模块将离散深度值化分为多类。
7.根据权利要求1所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S5中,训练步骤如下:
S5.1设计总体损失函数Ltotal,所述总体损失函数Ltotal包括目标检测损失函数Ldetect和深度估计损失函数Ldepth
S5.2设置网络输入图片大小、初始学习率和迭代次数;
S5.3采用损失函数自适应策略训练网络模型。
8.根据权利要求1所述的一种基于深度学习的前向车辆识别与距离检测方法,其特征在于,所述步骤S6中,优化检测步骤如下:
S6.1输入待预测图片,得到车辆检测框坐标和图片中各个像素点的深度值;
S6.2根据车辆检测框坐标,计算检测框的中心点坐标,然后将中心点坐标作为深度提取区域的中心点,以检测框高宽的一半构建深度值提取区域;
S6.3引入K-Means聚类算法,检测前向车辆目标距离。
CN202210979374.7A 2022-08-16 2022-08-16 一种基于深度学习的前向车辆识别与距离检测方法 Pending CN115424237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210979374.7A CN115424237A (zh) 2022-08-16 2022-08-16 一种基于深度学习的前向车辆识别与距离检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210979374.7A CN115424237A (zh) 2022-08-16 2022-08-16 一种基于深度学习的前向车辆识别与距离检测方法

Publications (1)

Publication Number Publication Date
CN115424237A true CN115424237A (zh) 2022-12-02

Family

ID=84198165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210979374.7A Pending CN115424237A (zh) 2022-08-16 2022-08-16 一种基于深度学习的前向车辆识别与距离检测方法

Country Status (1)

Country Link
CN (1) CN115424237A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012453A (zh) * 2023-03-28 2023-04-25 常州星宇车灯股份有限公司 车辆智能驾驶的单目测距方法、装置、设备、介质及车辆
CN117130010A (zh) * 2023-10-23 2023-11-28 青岛慧拓智能机器有限公司 用于无人驾驶的障碍物感知方法、系统及无人驾驶汽车

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012453A (zh) * 2023-03-28 2023-04-25 常州星宇车灯股份有限公司 车辆智能驾驶的单目测距方法、装置、设备、介质及车辆
CN116012453B (zh) * 2023-03-28 2023-06-09 常州星宇车灯股份有限公司 车辆智能驾驶的单目测距方法、装置、设备、介质及车辆
CN117130010A (zh) * 2023-10-23 2023-11-28 青岛慧拓智能机器有限公司 用于无人驾驶的障碍物感知方法、系统及无人驾驶汽车

Similar Documents

Publication Publication Date Title
Yu et al. A real-time detection approach for bridge cracks based on YOLOv4-FPM
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
CN115424237A (zh) 一种基于深度学习的前向车辆识别与距离检测方法
Li et al. Pixel-level bridge crack detection using a deep fusion about recurrent residual convolution and context encoder network
CN112434586B (zh) 一种基于域自适应学习的多复杂场景目标检测方法
Ye et al. Automatic pixel‐level crack detection with multi‐scale feature fusion for slab tracks
CN114049356B (zh) 一种结构表观裂缝检测方法、装置及系统
Ye et al. Autonomous surface crack identification of concrete structures based on the YOLOv7 algorithm
CN111833353B (zh) 一种基于图像分割的高光谱目标检测方法
Xie et al. Sparse‐sensing and superpixel‐based segmentation model for concrete cracks
CN114926693A (zh) 基于加权距离的sar图像小样本识别方法及装置
CN115937659A (zh) 基于Mask-RCNN的室内复杂环境下多目标检测方法
CN116824335A (zh) 一种基于YOLOv5改进算法的火灾预警方法及系统
CN114973031A (zh) 一种无人机视角下的可见光-热红外图像目标检测方法
CN113496260B (zh) 基于改进YOLOv3算法的粮库人员不规范作业检测法
CN113361528B (zh) 一种多尺度目标检测方法及系统
CN113255555A (zh) 中国交通标志牌识别方法、系统、处理设备及存储介质
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116205918B (zh) 基于图卷积的多模态融合半导体检测方法、装置及介质
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN113496480A (zh) 一种焊缝图像缺陷的检测方法
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
CN116665153A (zh) 一种基于改进型Deeplabv3+网络模型的道路场景分割方法
CN115294392B (zh) 基于生成网络模型的可见光遥感图像云去除方法及系统
CN116129234A (zh) 一种基于注意力的4d毫米波雷达与视觉的融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination