CN116630918A - 一种基于矩形注意力机制的车道线检测方法 - Google Patents
一种基于矩形注意力机制的车道线检测方法 Download PDFInfo
- Publication number
- CN116630918A CN116630918A CN202310514016.3A CN202310514016A CN116630918A CN 116630918 A CN116630918 A CN 116630918A CN 202310514016 A CN202310514016 A CN 202310514016A CN 116630918 A CN116630918 A CN 116630918A
- Authority
- CN
- China
- Prior art keywords
- lane line
- point
- points
- image
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 230000007246 mechanism Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理和车辆智能驾驶领域,提供了一种基于矩形注意力机制的车道线检测方法,步骤包括:获取车道线图像,将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中进行下采样,将所述下采样后的特征图通过注意力机制网络得到注意力加权后的特征图,将所述注意力加权后的特征图上采样,将上采样后的特征图通过关键点检测网络得到包含车道线起始点在内的所有关键点坐标,采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例。本发明解决了自动驾驶中存在的难检测车道线场景,提高了模型的推理速度和预测准确度。
Description
技术领域
本发明涉及图像处理和车辆智能驾驶领域,尤其是指一种基于矩形注意力机制的车道线检测方法、装置、设备以及计算机可读存储介质。
背景技术
车道线检测是一项具有挑战性的任务,需要在高实时性下预测复杂的车道线拓扑形状,并同时区分不同类型的车道。近十年来,自动驾驶技术逐渐成为计算机视觉领域的研究热点,并受到学术界和产业界的广泛关注。为了确保自动驾驶车辆的安全行驶,自动驾驶系统需要准确地理解车道线的空间信息。因此,从前置摄像头获取的图像中快速计算车道线的形状和位置信息是自动驾驶系统中至关重要的一步,这要求车道线检测既要具有高准确性,又要具有高实时性。
近些年大部分的研究将车道线检测视为实例分割或目标检测问题来解决。基于实例分割的方法大多采用多类别分类方式将像素点分割为车道线或者背景。基于检测的方法利用锚的思想来预测车道线,但也有一些方法利用车道线自身特性,使用锚线来扩大锚的特征范围,以此预测车道线实例。但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:当面对一些极端情况,例如道路遮挡,这些方法的检测性能往往不佳。在这种情况下,如何从图像中提取隐藏的车道线信息显得至关重要。
建立在图像实例分割基础上的方法,会预测出特征图中所有像素点的类别,但是对于车道线检测任务来讲,车道线本身的曲线特性就决定了车道线所含像素点占整张特征图的比例极小,大多数预测的像素点与车道线无关,就导致模型在分割过程中的计算效率低。
基于锚检测方法的不足之处:大多数车道线图像只会存在2-5条车道线,但是模型会预测出上百个锚,这就导致模型长尾效应明显,需要使用NMS(Non-MaximumSuppression)后处理方法来去除冗余的车道线锚。
发明内容
为此,本发明所要解决的技术问题在于提供一种基于矩形注意力机制的车道线检测方法,以克服现有自动驾驶中存在的道路被遮挡情况下难以检测车道线及检测效率低的问题。
为解决上述技术问题,本发明提供了一种基于矩形注意力机制的车道线检测方法,包括:获取车道线图像f∈RC×H′×W′,其中C为通道数,H′为图像高度,W′为图像宽度;将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中,对所述车道线图像进行卷积操作得到下采样后的特征图,所述下采样后的特征图尺寸为fds∈RC×P×W′,其中,C为通道数,P为图像高度,W′为图像宽度;将所述下采样后的特征图通过注意力机制网络得到Q、K、V,其中Q∈RP×W′×C′、K∈RP×C′×W′、V∈RP×C×W′,所述Q和所述K通过仿射变换操作后生成注意力特征图A,通过softmax层计算所述注意力图A中各点与其处在同一水平方向上各个点的关联度,将所述注意力特征图A与所述V之间通过矩阵乘法操作,得到注意力加权后的特征图fo∈RC×P×W′,将注意力加权后的特征图上每一点与该点处于同一行内所有点的上下文特征信息聚合起来,将其经过卷积操作得到与原始输入特征图尺寸一致的上采样后的车道线特征图;将所述上采样后的车道线特征图输入所述基于矩形注意力机制的车道线检测模型的关键点检测网络中,输出所述上采样后的车道线特征图中包含车道线起始点在内的所有关键点坐标;采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例。
优选地,所述基于矩形注意力机制的车道线检测模型的训练集车道线图像为TuSimple。
优选地,通过设置卷积核的尺寸参数、步长参数、填充值参数对所述车道线图像进行两次相同的卷积操作,得到下采样后的特征图。
优选地,所述关键点检测网络的损失函数计算公式如下:
其中,ζyx为起始点权重参数,Lf为二分类平衡交叉熵损失函数,H′为特征图的高度,W′为特征图的宽度,x∈[W′l,W′-W′r]and y∈[H′-H′b,H′]为非起始点区域,x∈[0,W′l]or x∈[W′-W′r,W′]or y∈[0,H′]为起始点区域,W′l、W′r、H′b分别代表起始点区域的左宽度、右宽度、底部宽度,a代表非起始点区域的权重系数,b代表起始点区域的权重系数。
优选地,所述采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例的损失函数为:
其中,H′为特征图的高度,W′为特征图的宽度,Oyx分别代表的是预测点与预测起始点之间的偏移量、实际点与实际起始点之间的偏移量。
优选地,所述基于矩形注意力机制的车道线检测模型中,网络的整体损失函数公式为:
Ltotal=λpointLpoint+λoffsetLoffset
其中,λpoint、λoffset分别为关键点和偏移量损失函数的权重值,Lpoint为关键点检测网络的损失函数,Loffset为基于距离的聚类网络损失函数。
优选地,采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例,包括:
设置起始点距离阈值;
选取一个关键点与其对应起始点之间的坐标偏移量值小于1,将其视为车道线实例的候选起始点;
根据关键点与其对应起始点之间的坐标偏移量计算剩余关键点的理论起始点,保留与所述候选起始点之间距离小于所述起始点距离阈值的理论起始点,大于所述起始点距离阈值的点被视作误差点;
保留下的所有起始点集中在一个区域,所述起始点包括候选起始和理论起始点,将所述区域的中心视为该车道线实例的实际起始点;
最后将属于同一个起始点的关键点聚类为同一个车道线实例。
本发明还提供了一种基于矩形注意力机制的车道线检测装置,包括:
检测样本获取模块:获取车道线图像f∈RC×H′×W′,其中,C为通道数,H′为图像高度,W′为图像宽度;
图像初始化模块:将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中,对所述车道线图像进行卷积操作得到下采样后的特征图,所述下采样后的特征图为fds∈RC×P×W′,P=H′/4,其中,C为通道数,P为图像高度,W′为图像宽度;
特征提取模块:将所述下采样后的特征图通过注意力机制网络得到Q、K、V,其中Q∈RP×W′×C′、K∈RP×C′×W′、V∈RP×C×W′,所述Q和所述K通过仿射变换操作后生成注意力特征图A,通过softmax层计算所述注意力图A中各点与其处在同一水平方向上各个点的关联度,将所述注意力特征图A与所述V之间通过矩阵乘法操作,得到注意力加权后的特征图fo∈RC×P×W′,将注意力加权后的特征图上每一点与该点处于同一行内所有点的上下文特征信息聚合起来,将其经过卷积操作得到与原始输入特征图尺寸一致的上采样后的车道线特征图;
关键点检测模块:将所述上采样后的车道线特征图输入所述基于矩形注意力机制的车道线检测模型的关键点检测网络中,输出所述上采样后的车道线特征图中包含车道线起始点在内的所有关键点坐标;
车道线循迹模块:采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例。
本发明还提供了一种基于矩形注意力机制的车道线检测设备,包括:
车道线图像采集装置,用于采集车道线图像;
上位机,与所述车道线图像采集装置通讯连接,接收所述车道线图像,执行所述计算机程序时,实现如上述所述的一种基于矩形注意力机制的车道线检测方法的步骤,得到车道线图像对应的车道线实例图像;
显示装置:与所述上位机通讯连接,用于显示所述车道线实例图像。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上如上述任一项所述的一种基于矩形注意力机制的车道线检测方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所提供的一种基于矩形注意力机制的车道线检测方法针对自动驾驶中存在的难检测车道线场景,通过将车道线图像下采样,将车道线图像中每个关键点的注意力范围集中在一个矩形区域,并通过注意力机制网络得到注意力加权后的特征图,将注意力加权后的特征图上每一点与该点处于同一行内所有点的上下文特征信息聚合起来,不需要考虑整张图像的全局信息,就可以构建未被遮挡车道线与被遮挡车道线在同一水平区域下的关联,减少了算法所使用的计算资源,加快了模型在推理阶段的速度。
另外,提出了一种用于车道线关键点检测的损失函数,该损失函数引入了起始点权重参数ζyx,增加了起始点在关键点中的重要性占比,以此间接地提高模型预测准确度。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明所提供的基于矩形注意力机制的车道线检测方法流程图;
图2是矩形注意力机制网络实现特征关联的流程示意图;
图3是基于距离的聚类方法流程图;
图4是车道线起始点在TuSimple原始图像中的分布;
图5是本发明所提供的lane focal loss关于W1′、Wr′、H′b含义的可视化图像。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供了一种基于矩形注意力机制的车道线检测方法,针对自动驾驶中存在的难检测车道线场景,将车道线特征图中关键点的注意力范围集中在一个矩形区域,不需要考虑整张图像的全局信息即可构建未被遮挡车道线与被遮挡车道线在同一水平区域下的关联;另外,提出了一种用于车道线关键点检测的损失函数,该损失函数引入了起始点权重参数ζyx,增加了起始点在关键点中的重要性占比,间接地提高模型预测准确度。
参照图1所示,本发明实施例所提供的基于矩形注意力机制的车道线检测方法流程图,具体操作步骤如下:
步骤S101:获取车道线图像,图像尺寸f∈RC×H′×W′,其中C为通道数,H′为图像高度,W′为图像宽度;
本发明中,选择某个车道线检测中的原始图像进行测试,该图像尺寸为1640×590像素单位,每个图像有0-5条车道线;
本次测试的实验环境:CPU型号为带有48核心的Intel(R)Xeon(R)Gold6248R CPU3.00GHz;GPU型号为:带有32G显存的Tesla-A100。
步骤S102:将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中,对所述车道线图像进行卷积操作得到下采样后的特征图,所述下采样后的特征图;
将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中,通过两次下采样操作将输入特征图下采样4倍,下采样后的特征图尺寸为fds∈RC×P×W′,P=H′/4,其中,C为通道数,P为下采样后的图像高度,W′为图像宽度,所述两次下采样操作采用相同卷积操作,通过卷积核尺寸为(3,1),步长为(2,1),填充值为(1,0)的设置,在保持宽度方向上的尺寸不变的同时,实现了高度方向上的1/4下采样,下采样后的图像尺寸为1640×147像素单位。
步骤S103:通过注意力机制网络从下采样后的特征图中提取车道线的特征信息,将所述特征信息加权求和,构建未被遮挡车道线与被遮挡车道线在同一水平区域下的关联;
参照图2所示,图2是矩形注意力机制网络实现特征关联的流程示意图:
将下采样后的特征图fds分别采用两个带有1×1滤波器的卷积层,通过网络学习权重参数Wq以及Wk来获得query map(用Q代表)与key map(用K代表),具体实现过程为:Q=fds×Wq,K=fds×Wk,其中Q∈RP×W′×C′,K∈RP×C′×W′,“×”代表矩阵乘法,C′是通道数;
Q,K通过仿射变换操作,生成注意力图A∈RP×W′×W′,其含义是在特征图fds的P×W′个点中任意一点p,与该点p处在同一水平方向上共W′个点的关联度,通过softmax层对注意力图中所有点的关联度进行再计算,将注意力特征图中所有点之间的关联度值控制在0~1之间;
另外特征图fds再通过一个带有1×1滤波器的卷积层学习权重参数Wv来生成valuemap(用V代表),V的具体实现过程为:V=fds×Wv,其中V∈RP×C×W′;
注意力图A与V之间通过矩阵乘法操作,加权后的特征图将原始输入特征图本身的特征信息融合到注意力图中,得到注意力加权后的特征图fo∈RC×P×W′,将特征图上每一点u与该点处于同一行内所有点的上下文特征信息聚合起来,得到未被遮挡车道线与被遮挡车道线在同一水平区域下的关联。
步骤S104:将所述注意力特征图经过两次卷积操作得到与原始输入特征图尺寸一致的上采样后的车道线特征图;
步骤S105:将所述上采样后的车道线特征图输入所述基于矩形注意力机制的车道线检测模型的关键点检测网络中,输出所述上采样后的车道线特征图中包含车道线起始点在内的所有关键点坐标;
步骤S106:采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例;
参照图3,图3是基于距离的聚类方法流程图:
步骤S301:首先设置起始点距离阈值Tdis;
步骤S302:选取一个关键点与其对应起始点之间的坐标偏移量值小于1,将其视为车道线实例的候选起始点Pc;
步骤S303:根据关键点与其对应起始点之间的坐标偏移量计算剩余关键点的理论起始点,保留与所述候选起始点之间距离小于所述起始点距离阈值Tdis的理论起始点Pt,大于所述起始点距离阈值的点被视作误差点;
步骤S304:保留下的所有起始点(包括Pc与Pt)集中在一个区域,将所述区域的中心视为该车道线实例的实际起始点;
步骤S305:这样每个关键点都得到了其对应的起始点,最后将属于同一个起始点的关键点聚类为同一个车道线实例。
由于偏移量的设计,所有关键点都需要通过其起始点进行聚类形成车道线实例,这使得起始点的预测非常重要,因此模型需要提高起始点预测的准确性,本发明提出一种基于车道线起始点分布特性的关键点检测损失函数lane focal loss,所述关键点检测损失函数计算公式如下:
其中,ζyx为起始点权重参数,针对车道线本身起始点的分布特性,提升起始点在预测过程中的重要性,Lf为二分类平衡交叉熵损失函数,解决关键点与非关键点的不平衡问题,H′为特征图的高度,W′为特征图的宽度;
图4为车道线起始点在TuSimple原始图像中的分布,颜色越深代表处于该位置的起始点越多,受到图4中起始点分布的启发,本文假设车道线起始点集中分布在图像边缘范围内的一个小部分区域,该区域被称为起始点区域,所述起始点权重参数ζyx的计算公式为:
其中,x∈[W′l,W′-W′r]and y∈[H′-H′b,H′]为非起始点区域,x∈[0,W′l]or x∈[W′-W′r,W′]or y∈[0,H′]为起始点区域,参照图5所示,图5为lane focal loss关于W′l、W′r、H′b含义的可视化图像,W′l、W′r、H′b分别代表起始点区域的左宽度、右宽度、底部宽度,a代表非起始点区域的权重系数,b代表起始点区域的权重系数。
针对基于距离的聚类网络,本发明提出关键点与其对应起始点间偏移量的损失函数Loffset,用每条车道线的起始点代表该车道线实例,并回归每个关键点及其起始点之间的偏移量,具体表示为:
其中,H′为特征图的高度,W′为特征图的宽度,Oyx分别代表的是预测点与预测起始点之间的偏移量、实际点与实际起始点之间的偏移量。
将所述基于车道线起始点分布特性的关键点检测损失函数Lpoint和所述关键点与其对应起始点间偏移量的损失函数Loffset通过调整权重系数,迭代训练优化模型,保存两种损失函数组合达到最小值时的网络模型,所述网络模型实现了车道线检测在关键点以及偏移量预测上的综合考量,基于矩形注意力机制的车道线检测网络的整体损失函数表示为:
Ltotal=λpointLpoint+λoffsetLoffset
其中,λpoint、λoffset分别为关键点和偏移量损失函数的权重值。
在本实施例中,训练了一个基于矩形注意力机制的车道线检测模型,包括矩形注意力机制网络、关键点检测网络、基于距离的聚类网络,矩形注意力机制网络用于构建未被遮挡车道线与被遮挡车道线在同一水平区域下的关联,关键点检测网络和基于距离的聚类网络通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例,实现对极端特殊场景的车道线检测及提高检测的准确度。
在公开数据集图像上,对本发明的模型和其他较好模型之间性能进行了对比,包括:
SCNN使用多类别分类的方法来预测输入特征图中每个像素点的类别,共有n+1个类别,其中n表示车道线的数量,另外一个类别为背景;
Fast-HBNet根据车道线的水平对称性特点,利用原始图像以及翻转后的图像,实现车道线的定位;
PointLaneNet利用锚的思想,将特征图中的每个像素点都作为锚点来预测车道线,但锚点所包含的车道线特征过少;
LaneATT利用车道线本身线性先验结构,使用锚线替代PointLaneNet中的锚点,根据锚线中等距的像素点来提取出对应车道线特征;
PINet受人体姿态估计的启发,将车道线检测看作关键点检测及聚类问题,使用沙漏网络预测车道线上关键点,并为每个关键点预测一个嵌入特征,将嵌入特征相似度大于阈值的关键点聚类在同一个车道线实例中;
与PINet需要额外计算嵌入特征不同,FOLOlane预测每个关键点与其相邻关键点之间的偏移量,然后通过关键点逐步向外延伸相邻关键点来实现聚类,但由于关键点之间存在密集的依赖性,FOLOLane在车道线实例构建过程中,可能会由于部分关键点预测错误而导致预测偏离预期;
为了避免FOLOLane在车道线实例构建过程中可能会由于部分关键点预测错误而导致预测偏离预期这种情况,GANet通过预测关键点与其对应起始点之间的偏移量,间接的将关键点聚类为车道线实例;
本发明将车道线检测看作关键点检测及聚类问题,根据车道线间关键点在同一水平局部区域下的关联性以及所有关键点对起始点的高依赖性,提出一种基于矩形注意力机制的车道线检测方法,增强了车道线检测算法对难检测场景的性能,提高了模型的推理速度;
模型的总体预测准确度、部分特殊场景的预测准确度、时间性能对比如表1所示:
表1:算法时间性能对比
Method | Total | Crowded | Dazzle | Shadow | FPS |
SCNN | 71.60 | 69.70 | 58.50 | 66.90 | 7.5 |
UFLDv2 | 75.90 | 74.90 | 65.70 | 75.30 | 312 |
LaneATT | 75.11 | 73.32 | 65.69 | 69.58 | 250 |
ESAnet | 74.20 | 73.10 | 63.10 | 75.10 | 123 |
Fast-HBNet | 73.10 | 71.60 | 64.70 | 66.70 | 39 |
Bézier curve | 75.57 | 73.20 | 69.20 | 76.74 | 150 |
PINet | 74.40 | 72.30 | 66.30 | 68.40 | 25 |
(Ours) | 77.11 | 76.40 | 68.45 | 78.24 | 89 |
本发明具体实施例还提供了一种基于矩形注意力机制的车道线检测设备,包括:
车道线图像采集装置,用于采集车道线图像;
上位机,与所述车道线图像采集装置通讯连接,接收所述车道线图像,执行所述计算机程序时,实现如上述所述的一种基于矩形注意力机制的车道线检测方法的步骤,得到车道线图像对应的车道线实例图像;
显示装置:与所述上位机通讯连接,用于显示所述车道线实例图像。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于矩形注意力机制的车道线检测方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于矩形注意力机制的车道线检测方法,其特征在于,包括:
获取车道线图像f∈RC×H′×W′,其中,C为通道数,H′为图像高度,W′为图像宽度;
将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中,对所述车道线图像进行卷积操作得到下采样后的特征图,所述下采样后的特征图为fds∈RC ×P×W′,其中,C为通道数,P为图像下采样后的高度,W′为图像宽度;
将所述下采样后的特征图通过注意力机制网络得到Q、K、V,其中Q∈RP×W′×C′、K∈RP ×C′×W′、V∈RP×C×W′,所述Q和所述K通过仿射变换操作后生成注意力特征图A,通过softmax层计算所述注意力图A中各点与其处在同一水平方向上各个点的关联度,将所述注意力特征图A与所述V之间通过矩阵乘法操作,得到注意力加权后的特征图fo∈RC×P×W′,将注意力加权后的特征图上每一点与该点处于同一行内所有点的上下文特征信息聚合起来,将其经过卷积操作得到与原始输入特征图尺寸一致的上采样后的车道线特征图;
将所述上采样后的车道线特征图输入所述基于矩形注意力机制的车道线检测模型的关键点检测网络中,输出所述上采样后的车道线特征图中包含车道线起始点在内的所有关键点坐标;
采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例。
2.根据权利要求1所述的一种基于矩形注意力机制的车道线检测方法,其特征在于,所述基于矩形注意力机制的车道线检测模型的训练集车道线图像为TuSimple。
3.根据权利要求1所述的一种基于矩形注意力机制的车道线检测方法,其特征在于,对所述车道线图像进行卷积操作得到下采样后的特征图包括:通过设置卷积核的尺寸参数、步长参数、填充值参数对所述车道线图像进行两次相同的卷积操作,得到下采样后的特征图。
4.根据权利要求1所述的一种基于矩形注意力机制的车道线检测方法,其特征在于,所述关键点检测网络的损失函数计算公式如下:
其中,ζyx为起始点权重参数,Lf为二分类平衡交叉熵损失函数,H′为特征图的高度,W′为特征图的宽度,x∈[Wl′,W′-Wr′]and y∈[H′-H′b,H′]为非起始点区域,x∈[0,Wl′]or x∈[W′-Wr′,W′]or y∈[0,H′]为起始点区域,Wl′、W′r、H′b分别代表起始点区域的左宽度、右宽度、底部宽度,a代表非起始点区域的权重系数,b代表起始点区域的权重系数。
5.根据权利要求1所述的一种基于矩形注意力机制的车道线检测方法,其特征在于,所述采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例的损失函数为:
其中,H′为特征图的高度,W′为特征图的宽度,Oyx分别代表的是预测点与预测起始点之间的偏移量、实际点与实际起始点之间的偏移量。
6.根据权利要求1所述的一种基于矩形注意力机制的车道线检测方法,其特征在于,所述基于矩形注意力机制的车道线检测模型中,网络的整体损失函数公式为:
Ltotal=λpointLpoint+λoffsetLoffset
其中,λpoint、λoffset分别为关键点和偏移量损失函数的权重值,Lpoint为关键点检测网络的损失函数,Loffset为基于距离的聚类网络损失函数。
7.根权利要求1所述的一种基于矩形注意力机制的车道线检测方法,其特征在于,采用基于距离的聚类网络,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例,包括:
设置起始点距离阈值;
选取一个关键点与其对应起始点之间的坐标偏移量值小于1,将其视为车道线实例的候选起始点;
根据关键点与其对应起始点之间的坐标偏移量计算剩余关键点的理论起始点,保留与所述候选起始点之间距离小于所述起始点距离阈值的理论起始点,大于所述起始点距离阈值的点被视作误差点;
保留下的所有起始点集中在一个区域,所述起始点包括候选起始和理论起始点,将所述区域的中心视为该车道线实例的实际起始点;
最后将属于同一个起始点的关键点聚类为同一个车道线实例。
8.一种基于矩形注意力机制的车道线检测装置,包括:
检测样本获取模块:获取车道线图像f∈RC×H′×W′,其中,C为通道数,H′为图像高度,W′为图像宽度;
图像初始化模块:将所述车道线图像输入到已训练收敛的基于矩形注意力机制的车道线检测模型中,对所述车道线图像进行卷积操作得到下采样后的特征图,所述下采样后的特征图为fds∈RC×P×W′,其中,C为通道数,P为图像下采样后的高度,W′为图像宽度;
特征提取模块:将所述下采样后的特征图通过注意力机制网络得到Q、K、V,其中Q∈RP ×W′×C′、K∈RP×C′×W′、V∈RP×C×W′,所述Q和所述K通过仿射变换操作后生成注意力特征图A,通过softmax层计算所述注意力图A中各点与其处在同一水平方向上各个点的关联度,将所述注意力特征图A与所述V之间通过矩阵乘法操作,得到注意力加权后的特征图fo∈RC×P×W′,将注意力加权后的特征图上每一点与该点处于同一行内所有点的上下文特征信息聚合起来,将其经过卷积操作得到与原始输入特征图尺寸一致的上采样后的车道线特征图;
关键点检测模块:将所述上采样后的车道线特征图输入所述基于矩形注意力机制的车道线检测模型的关键点检测网络中,输出所述上采样后的车道线特征图中包含车道线起始点在内的所有关键点坐标;
车道线循迹模块:采用基于距离的聚类技术,通过关键点坐标与其所属起始点间的偏移量来将关键点聚类为车道线实例。
9.一种基于矩形注意力机制的车道线检测设备,其特征在于,包括:
车道线图像采集装置,用于采集车道线图像;
上位机,与所述车道线图像采集装置通讯连接,接收所述车道线图像,执行所述计算机程序时,实现如权利要求1至7任一项所述的一种基于矩形注意力机制的车道线检测方法的步骤,得到车道线图像对应的车道线实例图像;
显示装置:与所述上位机通讯连接,用于显示所述车道线实例图像。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上如权利要求1至7任一项所述的一种基于矩形注意力机制的车道线检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310514016.3A CN116630918A (zh) | 2023-05-09 | 2023-05-09 | 一种基于矩形注意力机制的车道线检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310514016.3A CN116630918A (zh) | 2023-05-09 | 2023-05-09 | 一种基于矩形注意力机制的车道线检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630918A true CN116630918A (zh) | 2023-08-22 |
Family
ID=87591104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310514016.3A Pending CN116630918A (zh) | 2023-05-09 | 2023-05-09 | 一种基于矩形注意力机制的车道线检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630918A (zh) |
-
2023
- 2023-05-09 CN CN202310514016.3A patent/CN116630918A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460926B (zh) | 一种融合多目标跟踪线索的视频行人检测方法 | |
CN109376681B (zh) | 一种多人姿态估计方法及系统 | |
US9965719B2 (en) | Subcategory-aware convolutional neural networks for object detection | |
US9020195B2 (en) | Object tracking device, object tracking method, and control program | |
Zhou et al. | Efficient road detection and tracking for unmanned aerial vehicle | |
US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN108681994A (zh) | 一种图像处理方法、装置、电子设备及可读存储介质 | |
JP6553692B2 (ja) | 動画像背景除去方法及び動画像背景除去システム | |
WO2020048396A1 (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
KR20170038040A (ko) | 비디오에서의 컴퓨터화된 현저한 인물 인식 | |
CN109741293A (zh) | 显著性检测方法及装置 | |
EP3836083A1 (en) | Disparity estimation system and method, electronic device and computer program product | |
WO2022095818A1 (en) | Methods and systems for crowd motion summarization via tracklet based human localization | |
US20230394829A1 (en) | Methods, systems, and computer-readable storage mediums for detecting a state of a signal light | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN111881915B (zh) | 一种基于多种先验信息约束的卫星视频目标智能检测方法 | |
CN113763427A (zh) | 一种基于从粗到精遮挡处理的多目标跟踪方法 | |
CN114419102B (zh) | 一种基于帧差时序运动信息的多目标跟踪检测方法 | |
EP2698764A1 (en) | Method of sampling colors of images of a video sequence, and application to color clustering | |
Wang et al. | Object counting in video surveillance using multi-scale density map regression | |
JP2014110020A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
Panigrahi et al. | A ResNet-101 deep learning framework induced transfer learning strategy for moving object detection | |
CN109785367B (zh) | 三维模型追踪中外点滤除方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |