CN114913498A - 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 - Google Patents

一种基于关键点估计的并行多尺度特征聚合车道线检测方法 Download PDF

Info

Publication number
CN114913498A
CN114913498A CN202210594510.0A CN202210594510A CN114913498A CN 114913498 A CN114913498 A CN 114913498A CN 202210594510 A CN202210594510 A CN 202210594510A CN 114913498 A CN114913498 A CN 114913498A
Authority
CN
China
Prior art keywords
lane line
lane
key point
image
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210594510.0A
Other languages
English (en)
Inventor
张艳艳
左超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210594510.0A priority Critical patent/CN114913498A/zh
Publication of CN114913498A publication Critical patent/CN114913498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明涉及自动驾驶和计算机视觉领域,公开了一种基于关键点估计的并行多尺度特征聚合车道检测方法车道线检测方法,包括以下步骤:1)获取车道线图像数据集,用于训练车道线检测模型;2)对车道线图像数据集进行数据预处理,统一缩放图像尺寸并进行归一化;3)构建基于关键点估计的并行多尺度特征聚合车道线检测模型;4)将车道线图像数据集馈送到检测模型中进行训练;5)将待测试图像或视频输入到已训练收敛的检测模型中,模型进行车道线检测并输出图像或视频的车道线检测信息。本发明在兼顾车道线检测精度和检测速度的同时,也能够适应任意结构和任意数量的道路场景,具有较高的鲁棒性和实用性。

Description

一种基于关键点估计的并行多尺度特征聚合车道线检测方法
技术领域
本发明涉及自动驾驶和计算机视觉领域,具体的是一种基于关键点估计的并行多尺度特征聚合车道线检测方法。
背景技术
全自动驾驶主要包括三大核心模块:感知,决策和控制。其中,感知是通过各种传感器和控制模块来全面获取汽车周围的环境信息,这是决策和控制的基础。而车道线检测作为基本的环境感知任务,其检测速度和精度决定了自动驾驶系统的性能。由于车辆的遮挡、道路标识的磨损、夜间的暗光环境等因素的影响,使得实际应用中车道线检测仍面临较大的挑战。因此,研究适应场景广泛、鲁棒性强、检测精度和效率高的车道线检测方法具有现实意义。
传统的车道线检测方法通常依赖于手工提取的低级别特征或者固化的数学模型,手工设计的特征以及数学模型的强先验性对环境变化十分敏感,因此传统方法在复杂多变的现实场景下,存在检测精度低,模型泛化能力弱等问题。
基于深度学习的车道线检测方法以其强大的表示学习能力和海量的数据资源,可实现像素级检测。当前,深度学习的检测方法在大多数场景下都取得了较好的性能,这些方法可分为基于分割类方法、基于检测类的方法和参数预测方法。分割类的方法侧重于网络结构,其网络结构大都采用高到低,低到高的串联编-解码结构。在面对弱外观的复杂场景(如严重的车辆遮挡、阴影、模糊的标记等)时,串联型结构往往会忽略掉车道自身的几何先验性及相关性,难以提取出有效的判别性特征,导致检测精度降低。检测类的方法注重于网络的预测输出,其不局限于网络的结构但生成大量的参数化预测增加了模型的运算成本。此外,为对参数化的结果进行几何塑形,需要插入后处理步骤,进一步降低了算法的检测效率。参数预测方法直接预测参数方程来表示车道的几何线型,局限性在于只能检测固定结构,固定数量的车道。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于关键点估计的并行多尺度特征聚合车道线检测方法。
本发明的目的可以通过以下技术方案实现:
一种基于关键点估计的并行多尺度特征聚合车道线检测方法,所述方法包括如下步骤:
S1、获取车道线图像数据集,用于训练车道线检测模型;
S2、对所获得的车道线图像数据集进行数据预处理,统一缩放图像尺寸并进行归一化,同时应用多种数据增强策略;
S3、构建基于关键点估计的并行多尺度特征聚合车道线检测模型;
所述检测模型包括输入图像初始化模块、并行多尺度特征聚合网络、全局关键点检测模块、关键点关联聚类模块、图像输出模块;输入图像经过输入图像初始化模块后,被馈送到并行多尺度特征聚合网络中进行特征提取,全局关键点检测模块基于网络输出的特征图对全局车道线关键点的精确定位,而后关键点关联聚类模块依据网络为每个关键点生成的嵌入向量,应用关联嵌入思想将全局的关键点检测结果集成到局部的车道曲线几何建模中,最后,由输出模块可视化模型的车道线预测结果;
所述输入图像初始化模块的经过数据预处理后:输入图像尺寸压缩到32×64分辨率,同时图像通道维数也会由3扩充到32;
S4、将车道线图像数据集馈送到检测模型中进行训练,调整模型超参数,训练模型直至损失完全收敛,得到训练好的检测模型;
S5、将待测试图像或视频输入到已训练收敛的检测模型中,模型进行车道线检测并输出图像或视频的车道线检测信息。
进一步的,所述S1中车道线图像数据集,包括TuSimple和CULane车道线数据集;
所述TuSimple数据集场景主要为在良好和中等天气条件下白天不同时段的高速公路场景,包含3626张训练图像和2782张测试图像,准确率(accuracy)是该数据集的主要评估指标;
所述CULane数据集有88880幅训练图像,9675张验证图像和34680张测试图像,包涵九种不同道路场景(如拥堵、阴影、夜晚、眩光等场景),F1分数是其主要评估指标。
进一步的,所述S2中车道线图像数据集进行数据预处理方法为:将图像的尺寸统一调整为256×512分辨率,并将图像RGB值归一化到0~1。
进一步的,所述S3中并行多尺度特征聚合网络能够并行整合多个尺度特征映射的全局空间信息,并丰富车道线特征信息;并行多尺度特征聚合网络的网络架构由一个编码器和一个解码器组成,其间采用并行连接的方式。
进一步的,所述S3中并行多尺度特征聚合网络集成了双头注意力特征融合上采样模块(DAFU),DAFU通过注意力特征融合方式沿通道维度聚合来自插值型粗化采样和转置卷积细化采样两种不同感受域的全局信息,能够在多个空间尺度上并行地将低分辨率的特征映射精确恢复为像素级预测;DAFU由一个转置卷积细化分支、一个插值采样粗化分支和一个注意力特征融合模块组成,可表示为:
Figure BDA0003667243730000041
其中,T(·)表示转置卷积或反卷积,B(·)表示插值型上采样,M(·,·)表示注意力特征融合,δ为sigmoid函数,x是输入特征映射。
进一步的,所述S3中全局关键点检测模块,基于并行多尺度特征聚合网络预测一组关键点的概率热图和一组关键点位置偏移向量热图,精确定位出车道关键点的位置,保证最后输出车道曲线的几何精确性;其中,概率热图用于建模所有目标关键点的概率空间,预测出图像中每个网格的车道线关键点概率;偏移热图预测车道线关键点的位置偏移向量;
所述全局关键点检测模块,针对概率热图输出和偏移热图输出分别应用了平衡性焦损失函数和均方差损失函数训练网络,在训练数据中,每条车道曲线都被标记为一组有序的关键点集lm={ki|i=1,2,…,n},其中lm表示第m条车道包含n个关键点,ki表示第i个关键点;概率热图损失和位置偏移损失分别表示为:
Figure BDA0003667243730000042
Figure BDA0003667243730000043
其中,Lkp为关键点概率热图损失,Lposition为关键点位置偏移损失,Pi为热图中在第i个网格位置的关键点概率得分,Nk是当前图像中总关键点的数量,gi表示正负样本真实值,α是平衡因子,平衡训练过程的正负样本损失,γ是可调超参,控制对负样本的惩罚,Pi_x和Pi_y分别是横轴和纵轴偏移预测,Gi_x和Gi_y是真实值。
进一步的,所述S3中关键点关联聚类模块,将前一部分的全局检测关键点结果进一步细分,以确定它们归属的车道类别,针对这部分,网络为检测到的所有关键点生成一个特征嵌入向量,通过对关键点特征嵌入向量应用一种关联嵌入的聚类损失函数,训练网络完成聚类任务,该部分关键点关联聚类损失函数可表示为:
Figure BDA0003667243730000051
Figure BDA0003667243730000052
Figure BDA0003667243730000053
LGP=Lassemble+Lseparate
其中,
Figure BDA0003667243730000054
是车道l的一个关键点嵌入,Kl为车道l的关键点嵌入总数量,N表示图像中总车道数,μl表示l的集群中心(平均嵌入),||·||2代表L2距离,Δ表示集群中心之间的距离阈值,Lassemble是集合损失,它让同一车道类别的关键点嵌入尽可能接近该车道嵌入的集群中心μl;Lseparate是分离损失,它通过分离不同车道关键点嵌入的集群中心,让不同车道类别的关键点彼此远离,总聚类损失为集合损失和分离损失之和。
进一步的,所述关键点关联聚类模块,在模型训练收敛后,采用基于距离的聚类技术,通过迭代过程来细分出每条车道线关键点,具体操作如下:
1)首先设置嵌入特征距离阈值,为避免选择一个异常值设置为阈值,使用均值漂移来使其更靠近集群中心;
2)选择任意一个车道关键点嵌入并为其分配一个车道线标签,该关键点嵌入的值作为车道线的嵌入的集群中心;
3)从剩余的关键点嵌入选择一个嵌入,计算其与之间的特征距离(L2距离),若结果小于或等于距离阈值,则为该嵌入分配同一个标签并取和的平均值作为新的车道线的嵌入的集群中心,否则,继续判断下一个点;
4)重复步骤3,遍历剩余的所有关键点嵌入,找到车道线的所有关键点嵌入;
5)将剩余未分配车道标签的关键点嵌入进行新一轮迭代,重复步骤2,3,4,直到所有的关键点嵌入都被分配一个车道标签。
进一步的,所述S3中图像输出模块,将细化聚类后关键点坐标在原输入图像中进行可视化标记,并且每条车道关键点用不同颜色标记加以区分,输出最终的预测结果。
进一步的,所述S4中,图像批处理大小设置为8,使用学习率为0.0001优化器Adam和“poly”学习速率衰减策略训练模型300个批次,调整损失函数中α、γ、Δ、δi等超参数,使模型损失逐渐收敛至最小值并保存最优的模型。
本发明的有益效果:
1、本发明将车道线抽象为一组离散的关键点,提出了一种基于关键点估计的并行多尺度特征聚合车道线检测方法。相较于以往的检测方法,本方法直接从输入图像或视频中准确预测出车道的关键点,不仅消除了目标检测框和繁杂的后处理需求,且降低了背景像素的影响从而简化了网络的输出,适用于处理任意数量的车道场景。
2、本发明所述并行多尺度特征聚合网络,通过整合多个尺度特征映射的全局空间信息,利用其他位置的局部线索来丰富全局特征,可以在诸如遮挡、道路磨损、阴影暗光等弱外观场景中依然能捕获到识别性的车道线特征信息,提高了模型的检测性能。
3、本发明所述双头注意力特征融合上采样模块(DAFU),可实现将低分辨率的特征映射精细地恢复到更高分辨率的表征,帮助网络在极端尺度变化下精确地识别和检测到目标,有效地整合深层特征的空间信息。
4、本发明所述的基于关键点估计的并行多尺度特征聚合车道线检测方法,在Tusimple和CULane车道数据集上的检测精度及F1值分别为96.82%和75.6%,实时检测速率可达到25ms,优于目前主流的车道检测方法,具有较高实际应用价值。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明实施例中的模型整体架构图;
图2是本发明实施例中输入图像初始化模块结构示意图;
图3是本发明实施例中并行多尺度特征聚合网络结构示意图;
图4是本发明实施例中双头注意力特征融合上采样模块结构示意图;
图5是本发明实施例中车道线检测的可视化结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述方法包括如下步骤:
S1、获取车道线图像数据集,用于训练车道线检测模型;
所述S1中车道线图像数据集,包括TuSimple和CULane车道线数据集;
所述TuSimple数据集场景主要为在良好和中等天气条件下白天不同时段的高速公路场景,包含3626张训练图像和2782张测试图像,准确率(accuracy)是该数据集的主要评估指标;
所述CULane数据集有88880幅训练图像,9675张验证图像和34680张测试图像,包涵九种不同道路场景(如拥堵、阴影、夜晚、眩光等场景),F1分数是其主要评估指标。
S2、对所获得的车道线图像数据集进行数据预处理,统一缩放图像尺寸并进行归一化,同时应用多种数据增强策略;
所述S2中车道线图像数据集进行数据预处理方法为:将图像的尺寸统一调整为256×512分辨率,并将图像RGB值归一化到0~1。
S3、构建基于关键点估计的并行多尺度特征聚合车道线检测模型;
如图2所示,所述检测模型包括输入图像初始化模块、并行多尺度特征聚合网络、全局关键点检测模块、关键点关联聚类模块、图像输出模块;输入图像经过输入图像初始化模块后,被馈送到并行多尺度特征聚合网络中进行特征提取,全局关键点检测模块基于网络输出的特征图对全局车道线关键点的精确定位,而后关键点关联聚类模块依据网络为每个关键点生成的嵌入向量,应用关联嵌入思想将全局的关键点检测结果集成到局部的车道曲线几何建模中,最后,由输出模块可视化模型的车道线预测结果;
输入图像初始化模块由三个卷积核大小为3×3,步幅为2,填充为1的卷积层组成,并且在每次卷积操作之后均进行Prelu激活函数和BN归一化处理。经过数据预处理后的输入图像进入初始化模块,图像尺寸将被压缩到32×64分辨率,同时图像通道维数也会由3扩充到32;
所述S3中并行多尺度特征聚合网络能够并行整合多个尺度特征映射的全局空间信息,并丰富车道线特征信息;并行多尺度特征聚合网络的网络架构由一个编码器和一个解码器组成,其间采用并行连接的方式。
如图3(a)所示,编码器以ResNet-50为基础,其总共包括4个阶段的并行子网。以一个32×64分辨率子网开始作为第一阶段,每增加一个阶段,新增一个分辨率减半、通道数翻倍的低尺度并行子网。其中,每个阶段包含4个残差单元(residual units),最后一层的下采样层由一个步长为2的3×3卷积和一个步长为1的3×3卷积组成。在每个阶段中,并行子网间会进行重复的多尺度特征融合,能够有效地提取出丰富的多尺度特征信息,编码器最末端将通过四个不同尺度的卷积层输出多个尺度特征信息。
解码器结构如图3(b)所示,由6个双头注意力特征融合上采样模块(DAFU)和4个特征融合层构成。在这一部分中,编码器产生的低到高的多尺度特征,会逐步地融合入低到高的解码过程中。其中,双头注意力特征融合上采样模块(DAFU)如图4所示,通过注意力特征融合方式沿通道维度聚合来自插值型粗化采样和转置卷积细化采样两种不同感受域的全局信息,能够缓解上采样中因尺度变化引起的问题,便于网络在极端尺度变化下识别和检测目标。DAFU由一个转置卷积细化分支、一个插值采样粗化分支和一个注意力特征融合模块组成,可表示为:
Figure BDA0003667243730000091
其中,T(·)表示转置卷积或反卷积,B(·)表示插值型上采样,M(·,·)表示注意力特征融合,δ为sigmoid函数,x是输入特征映射。
如图3(b)所示,DAFU作为解码器的上采样模块,在多个空间尺度上进行并行上采样。假设前一阶段编码器产生S个特征输出,解码流程则分为S-1个阶段。
Figure BDA0003667243730000092
表示第K解码阶段的第j个特征映射。为了方便讨论,我们以第一阶段解码为例:该阶段有S个特征输入
Figure BDA0003667243730000093
生成S-1个输出
Figure BDA0003667243730000094
作为第二阶段的输入。首先,最低尺度的特征
Figure BDA0003667243730000095
经过DAFU采样后,输出高一级尺度特征
Figure BDA0003667243730000101
不仅作为下一阶段解码的输入
Figure BDA0003667243730000102
同时也会结合上一尺度的特征
Figure BDA0003667243730000103
形成新的融合特征
Figure BDA0003667243730000104
然后,该融合特征
Figure BDA0003667243730000105
又经过一次上采样,输出的
Figure BDA0003667243730000106
同样既作为下一阶段解码的输入
Figure BDA0003667243730000107
又会结合上一个尺度特征
Figure BDA0003667243730000108
形成新的融合特征
Figure BDA0003667243730000109
直至输出
Figure BDA00036672437300001010
结合
Figure BDA00036672437300001011
形成新的融合特征
Figure BDA00036672437300001012
结束。后续阶段重复上述过程,整个解码流程可表示为:
Figure BDA00036672437300001013
Figure BDA00036672437300001014
Figure BDA00036672437300001015
其中D(·,·)表示双头注意力特征融合上采样,
Figure BDA00036672437300001016
表示
Figure BDA00036672437300001017
采样后的第K解码阶段的第j-1个特征映射,
Figure BDA00036672437300001018
表示
Figure BDA00036672437300001019
Figure BDA00036672437300001020
融合后产生的新的第K解码阶段的第j-1个特征映射。
所述并行多尺度特征聚合网络集成了双头注意力特征融合上采样模块(DAFU),DAFU通过注意力特征融合方式沿通道维度聚合来自插值型粗化采样和转置卷积细化采样两种不同感受域的全局信息,能够在多个空间尺度上并行地将低分辨率的特征映射精确恢复为像素级预测;DAFU由一个转置卷积细化分支、一个插值采样粗化分支和一个注意力特征融合模块组成,可表示为:
Figure BDA00036672437300001021
其中,T(·)表示转置卷积或反卷积,B(·)表示插值型上采样,M(·,·)表示注意力特征融合,δ为sigmoid函数,x是输入特征映射。
所述全局关键点检测模块,基于并行多尺度特征聚合网络预测一组关键点的概率热图和一组关键点位置偏移向量热图,精确定位出车道关键点的位置,保证最后输出车道曲线的几何精确性;其中,概率热图用于建模所有目标关键点的概率空间,预测出图像中每个网格的车道线关键点概率;偏移热图预测车道线关键点的位置偏移向量;
所述全局关键点检测模块,针对概率热图输出和偏移热图输出分别应用了平衡性焦损失函数和均方差损失函数训练网络,在训练数据中,每条车道曲线都被标记为一组有序的关键点集lm={ki|i=1,2,…,n},其中lm表示第m条车道包含n个关键点,ki表示第i个关键点;概率热图损失和位置偏移损失分别表示为:
Figure BDA0003667243730000111
Figure BDA0003667243730000112
其中,Lkp为关键点概率热图损失,Lposition为关键点位置偏移损失,Pi为热图中在第i个网格位置的关键点概率得分,Nk是当前图像中总关键点的数量,gi表示正负样本真实值,α是平衡因子,平衡训练过程的正负样本损失,γ是可调超参,控制对负样本的惩罚,Pi_x和Pi_y分别是横轴和纵轴偏移预测,Gi_x和Gi_y是真实值。
所述关键点关联聚类模块,将前一部分的全局检测关键点结果进一步细分,以确定它们归属的车道类别,针对这部分,网络为检测到的所有关键点生成一个特征嵌入向量,通过对关键点特征嵌入向量应用一种关联嵌入的聚类损失函数,训练网络完成聚类任务,该部分关键点关联聚类损失函数可表示为:
Figure BDA0003667243730000113
Figure BDA0003667243730000114
Figure BDA0003667243730000115
LGP=Lassemble+Lseparate
其中,
Figure BDA0003667243730000121
是车道l的一个关键点嵌入,Kl为车道l的关键点嵌入总数量,N表示图像中总车道数,μl表示l的集群中心(平均嵌入),||·||2代表L2距离,Δ表示集群中心之间的距离阈值,Lassemble是集合损失,它让同一车道类别的关键点嵌入尽可能接近该车道嵌入的集群中心μl;Lseparate是分离损失,它通过分离不同车道关键点嵌入的集群中心,让不同车道类别的关键点彼此远离,总聚类损失为集合损失和分离损失之和。
所述关键点关联聚类模块,在模型训练收敛后,采用基于距离的聚类技术,通过迭代过程来细分出每条车道线关键点,具体操作如下:
1)首先设置嵌入特征距离阈值,为避免选择一个异常值设置为阈值,使用均值漂移来使其更靠近集群中心;
2)选择任意一个车道关键点嵌入并为其分配一个车道线标签,该关键点嵌入的值作为车道线的嵌入的集群中心;
3)从剩余的关键点嵌入选择一个嵌入,计算其与之间的特征距离(L2距离),若结果小于或等于距离阈值,则为该嵌入分配同一个标签并取和的平均值作为新的车道线的嵌入的集群中心,否则,继续判断下一个点;
4)重复步骤3,遍历剩余的所有关键点嵌入,找到车道线的所有关键点嵌入;
5)将剩余未分配车道标签的关键点嵌入进行新一轮迭代,重复步骤2,3,4,直到所有的关键点嵌入都被分配一个车道标签。
所述图像输出模块,将细化聚类后关键点坐标在原输入图像中进行可视化标记,并且每条车道关键点用不同颜色标记加以区分,输出最终的预测结果。
S4、将车道线图像数据集馈送到检测模型中进行训练,调整模型超参数,训练模型直至损失完全收敛,得到训练好的检测模型;
所述S4中,图像批处理大小设置为8,使用学习率为0.0001优化器Adam和“poly”学习速率衰减策略训练模型300个批次,调整损失函数中α、γ、Δ、δi等超参数,使模型损失逐渐收敛至最小值并保存最优的模型。
S5、将待测试图像或视频输入到已训练收敛的检测模型中,模型进行车道线检测并输出图像或视频的车道线检测信息。
为验证本发明的实施实例,计算本发明所提算法在TuSimple数据集和CULane数据集上与当前主流的几种车道线检测算法进行对比。
表1给出了Tusimple数据集的具体评估结果。准确率(accuracy)是该数据集的主要评估指标,其定义为每幅图像中正确预测车道点的平均数量,计算公式如下:
Figure BDA0003667243730000131
其中,Cim表示给定图像正确预测的点数,Sim表示给定图像中真实点的数量,真实点和预测点之间的差异小于某个阈值时,则该点是正确预测的。
表1不同算法在TuSimple数据集上的对比结果
Figure BDA0003667243730000132
表2展示了CULane数据集的具体评估结果。CULane包括了九种不同道路场景(如拥堵、阴影、夜晚、眩光等)。在该数据集中,F1分数是主要评估指标,定义公式为:
Figure BDA0003667243730000141
其中,查准率
Figure BDA0003667243730000142
表示预测值为1且真实值也为1的样本在预测值为1的所有样本中所占的比例;召回率
Figure BDA0003667243730000143
表示预测值为1且真实值也为1的样本在真实值为1的所有样本中所占的比例。
表2不同算法在CULane数据集上的评估结果
Figure BDA0003667243730000144
结果表明,本发明所提方法的检测精度及F1分数分别为96.82%和75.6%,优于目前主流的车道检测方法,且实时检测速率为25ms,具有更高的鲁棒性,达到了实时应用的标准。
图5展示了本发明模型的车道线检测可视化结果图。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (10)

1.一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述方法包括如下步骤:
S1、获取车道线图像数据集,用于训练车道线检测模型;
S2、对所获得的车道线图像数据集进行数据预处理,统一缩放图像尺寸并进行归一化,同时应用多种数据增强策略;
S3、构建基于关键点估计的并行多尺度特征聚合车道线检测模型;
所述检测模型包括输入图像初始化模块、并行多尺度特征聚合网络、全局关键点检测模块、关键点关联聚类模块、图像输出模块;输入图像经过输入图像初始化模块后,被馈送到并行多尺度特征聚合网络中进行特征提取,全局关键点检测模块基于网络输出的特征图对全局车道线关键点的精确定位,而后关键点关联聚类模块依据网络为每个关键点生成的嵌入向量,应用关联嵌入思想将全局的关键点检测结果集成到局部的车道曲线几何建模中,最后,由输出模块可视化模型的车道线预测结果;
所述输入图像初始化模块的经过数据预处理后:输入图像尺寸压缩到32×64分辨率,同时图像通道维数也会由3扩充到32;
S4、将车道线图像数据集馈送到检测模型中进行训练,调整模型超参数,训练模型直至损失完全收敛,得到训练好的检测模型;
S5、将待测试图像或视频输入到已训练收敛的检测模型中,模型进行车道线检测并输出图像或视频的车道线检测信息。
2.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S1中车道线图像数据集,包括TuSimple和CULane车道线数据集;
所述TuSimple数据集场景主要为在良好和中等天气条件下白天不同时段的高速公路场景,包含3626张训练图像和2782张测试图像,准确率(accuracy)是该数据集的主要评估指标;
所述CULane数据集有88880幅训练图像,9675张验证图像和34680张测试图像,包涵九种不同道路场景(如拥堵、阴影、夜晚、眩光等场景),F1分数是其主要评估指标。
3.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S2中车道线图像数据集进行数据预处理方法为:将图像的尺寸统一调整为256×512分辨率,并将图像RGB值归一化到0~1。
4.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S3中并行多尺度特征聚合网络能够并行整合多个尺度特征映射的全局空间信息,并丰富车道线特征信息;并行多尺度特征聚合网络的网络架构由一个编码器和一个解码器组成,其间采用并行连接的方式。
5.根据权利要求4所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S3中并行多尺度特征聚合网络集成了双头注意力特征融合上采样模块(DAFU),DAFU通过注意力特征融合方式沿通道维度聚合来自插值型粗化采样和转置卷积细化采样两种不同感受域的全局信息,能够在多个空间尺度上并行地将低分辨率的特征映射精确恢复为像素级预测;DAFU由一个转置卷积细化分支、一个插值采样粗化分支和一个注意力特征融合模块组成,可表示为:
Figure FDA0003667243720000021
其中,T(·)表示转置卷积或反卷积,B(·)表示插值型上采样,M(·,·)表示注意力特征融合,δ为sigmoid函数,x是输入特征映射。
6.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S3中全局关键点检测模块,基于并行多尺度特征聚合网络预测一组关键点的概率热图和一组关键点位置偏移向量热图,精确定位出车道关键点的位置,保证最后输出车道曲线的几何精确性;其中,概率热图用于建模所有目标关键点的概率空间,预测出图像中每个网格的车道线关键点概率;偏移热图预测车道线关键点的位置偏移向量;
所述全局关键点检测模块,针对概率热图输出和偏移热图输出分别应用了平衡性焦损失函数和均方差损失函数训练网络,在训练数据中,每条车道曲线都被标记为一组有序的关键点集lm={ki|i=1,2,…,n},其中lm表示第m条车道包含n个关键点,ki表示第i个关键点;概率热图损失和位置偏移损失分别表示为:
Figure FDA0003667243720000031
Figure FDA0003667243720000032
其中,Lkp为关键点概率热图损失,Lposition为关键点位置偏移损失,Pi为热图中在第i个网格位置的关键点概率得分,Nk是当前图像中总关键点的数量,gi表示正负样本真实值,α是平衡因子,平衡训练过程的正负样本损失,γ是可调超参,控制对负样本的惩罚,Pi_x和Pi_y分别是横轴和纵轴偏移预测,Gi_x和Gi_y是真实值。
7.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S3中关键点关联聚类模块,将前一部分的全局检测关键点结果进一步细分,以确定它们归属的车道类别,针对这部分,网络为检测到的所有关键点生成一个特征嵌入向量,通过对关键点特征嵌入向量应用一种关联嵌入的聚类损失函数,训练网络完成聚类任务,该部分关键点关联聚类损失函数可表示为:
Figure FDA0003667243720000041
Figure FDA0003667243720000042
Figure FDA0003667243720000043
LGP=Lassemble+Lseparate
其中,
Figure FDA0003667243720000044
是车道l的一个关键点嵌入,Kl为车道l的关键点嵌入总数量,N表示图像中总车道数,μl表示l的集群中心(平均嵌入),||·||2代表L2距离,Δ表示集群中心之间的距离阈值,Lassemble是集合损失,它让同一车道类别的关键点嵌入尽可能接近该车道嵌入的集群中心μl;Lseparate是分离损失,它通过分离不同车道关键点嵌入的集群中心,让不同车道类别的关键点彼此远离,总聚类损失为集合损失和分离损失之和。
8.根据权利要求7所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述关键点关联聚类模块,在模型训练收敛后,采用基于距离的聚类技术,通过迭代过程来细分出每条车道线关键点,具体操作如下:
1)首先设置嵌入特征距离阈值,为避免选择一个异常值设置为阈值,使用均值漂移来使其更靠近集群中心;
2)选择任意一个车道关键点嵌入并为其分配一个车道线标签,该关键点嵌入的值作为车道线的嵌入的集群中心;
3)从剩余的关键点嵌入选择一个嵌入,计算其与之间的特征距离(L2距离),若结果小于或等于距离阈值,则为该嵌入分配同一个标签并取和的平均值作为新的车道线的嵌入的集群中心,否则,继续判断下一个点;
4)重复步骤3,遍历剩余的所有关键点嵌入,找到车道线的所有关键点嵌入;
5)将剩余未分配车道标签的关键点嵌入进行新一轮迭代,重复步骤2,3,4,直到所有的关键点嵌入都被分配一个车道标签。
9.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S3中图像输出模块,将细化聚类后关键点坐标在原输入图像中进行可视化标记,并且每条车道关键点用不同颜色标记加以区分,输出最终的预测结果。
10.根据权利要求1所述的一种基于关键点估计的并行多尺度特征聚合车道线检测方法,其特征在于,所述S4中,图像批处理大小设置为8,使用学习率为0.0001优化器Adam和“poly”学习速率衰减策略训练模型300个批次,调整损失函数中α、γ、Δ、δi等超参数,使模型损失逐渐收敛至最小值并保存最优的模型。
CN202210594510.0A 2022-05-27 2022-05-27 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 Pending CN114913498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210594510.0A CN114913498A (zh) 2022-05-27 2022-05-27 一种基于关键点估计的并行多尺度特征聚合车道线检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210594510.0A CN114913498A (zh) 2022-05-27 2022-05-27 一种基于关键点估计的并行多尺度特征聚合车道线检测方法

Publications (1)

Publication Number Publication Date
CN114913498A true CN114913498A (zh) 2022-08-16

Family

ID=82769658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210594510.0A Pending CN114913498A (zh) 2022-05-27 2022-05-27 一种基于关键点估计的并行多尺度特征聚合车道线检测方法

Country Status (1)

Country Link
CN (1) CN114913498A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909255A (zh) * 2023-01-05 2023-04-04 北京百度网讯科技有限公司 图像生成、图像分割方法、装置、设备、车载终端及介质
CN116092040A (zh) * 2023-04-12 2023-05-09 齐鲁工业大学(山东省科学院) 一种车道线预测和车道线缺陷检测方法
CN116229406A (zh) * 2023-05-09 2023-06-06 华东交通大学 车道线检测方法、系统、电子设备及存储介质
CN117593717A (zh) * 2024-01-18 2024-02-23 武汉大学 一种基于深度学习的车道追踪方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909255A (zh) * 2023-01-05 2023-04-04 北京百度网讯科技有限公司 图像生成、图像分割方法、装置、设备、车载终端及介质
CN115909255B (zh) * 2023-01-05 2023-06-06 北京百度网讯科技有限公司 图像生成、图像分割方法、装置、设备、车载终端及介质
CN116092040A (zh) * 2023-04-12 2023-05-09 齐鲁工业大学(山东省科学院) 一种车道线预测和车道线缺陷检测方法
CN116229406A (zh) * 2023-05-09 2023-06-06 华东交通大学 车道线检测方法、系统、电子设备及存储介质
CN116229406B (zh) * 2023-05-09 2023-08-25 华东交通大学 车道线检测方法、系统、电子设备及存储介质
CN117593717A (zh) * 2024-01-18 2024-02-23 武汉大学 一种基于深度学习的车道追踪方法及系统
CN117593717B (zh) * 2024-01-18 2024-04-05 武汉大学 一种基于深度学习的车道追踪方法及系统

Similar Documents

Publication Publication Date Title
CN111160311B (zh) 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111814623A (zh) 一种基于深度神经网络的车辆车道偏离视觉检测方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111738113B (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN110175615B (zh) 模型训练方法、域自适应的视觉位置识别方法及装置
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
CN108230330B (zh) 一种快速的高速公路路面分割和摄像机定位的方法
CN113158768A (zh) 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法
CN111178451A (zh) 一种基于YOLOv3网络的车牌检测方法
CN110717493B (zh) 一种基于深度学习的含堆叠字符的车牌识别方法
CN110659601B (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN113723377A (zh) 一种基于ld-ssd网络的交通标志检测方法
Xiang et al. Lightweight fully convolutional network for license plate detection
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN112766136A (zh) 一种基于深度学习的空间车位检测方法
Zang et al. Traffic lane detection using fully convolutional neural network
CN113205107A (zh) 一种基于改进高效率网络的车型识别方法
CN114782919A (zh) 一种真实和仿真数据增强的道路栅格地图构建方法、系统
CN110910497B (zh) 实现增强现实地图的方法和系统
CN111832463A (zh) 一种基于深度学习的交通标志检测方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116630702A (zh) 一种基于语义分割网络的路面附着系数预测方法
CN114663839B (zh) 一种遮挡行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination