CN115546750A - 一种基于Transformer编码器和空洞卷积的车道线检测方法 - Google Patents

一种基于Transformer编码器和空洞卷积的车道线检测方法 Download PDF

Info

Publication number
CN115546750A
CN115546750A CN202211193390.XA CN202211193390A CN115546750A CN 115546750 A CN115546750 A CN 115546750A CN 202211193390 A CN202211193390 A CN 202211193390A CN 115546750 A CN115546750 A CN 115546750A
Authority
CN
China
Prior art keywords
lane line
convolution
feature
lane
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211193390.XA
Other languages
English (en)
Inventor
陈梓毅
杨志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202211193390.XA priority Critical patent/CN115546750A/zh
Publication of CN115546750A publication Critical patent/CN115546750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于Transformer编码器和空洞卷积的车道线检测方法,包括:采用无监督风格迁移将白天道路交通图像转换成夜间交通图像;构建主干特征提取网络,将普通卷积替换成空洞卷积以提取车道线的局部特征;建立Transformer编码器来提取车道线的全局特征;对提取到的局部特征和全局特征利用双向特征金字塔进行加权融合,并利用网络学习权重的大小来优化特征融合;构建车道线检测头;对模型进行训练,使模型收敛获得车道线检测网络参数;将模型安装在车载摄像头上,用于对车道线进行实时检测,得到车道线实例分割图。该方法可以提高不同场景下车道线特征提取的精度与计算效率,同时可以方便地整合到其他现有车道线检测算法中进行端到端训练。

Description

一种基于Transformer编码器和空洞卷积的车道线检测方法
技术领域
本发明涉及视觉车道线检测领域,尤其涉及一种基于Transformer编码器和空洞卷积的车道线检测方法。
背景技术
车道检测是一项具有挑战性的工作,因为它受到很多因素的影响,如光照条件、其他车辆遮挡、道路上不相关标记的存在以及车道本身固有的狭长特性。此外,考虑到车道检测是在基于车辆的系统上运行的,计算资源非常有限,车道检测方法的计算成本也应该被视为整体性能的关键指标。同时,作为高级驾驶辅助系统(ADAS)的基础功能,车道检测必须具备高精确度、高实时性与鲁棒性等的条件。因此,车道检测不仅是一项重要而复杂的任务,而且是开发任何自动驾驶车辆系统的关键因素。
车道线检测网络框架通常采用编码器-解码器的形式,目前关于车道线识别的研究主要集中在解码器上,然而提取清晰可靠的车道线特征具有同样的重要性,提取出清晰的车道线特征必然会对后续的检测部分减少很多负担。大多数算法中的编码器部分利用堆叠的卷积神经网络对图片的局部区域进行特征提取的同时对图片进行下采样,但卷积块在提取图像特征时只对局部像素进行运算而忽略了图片上的全局信息。现有方法通过对特征图进行切片,然后利用相邻行和列之间按顺序的卷积叠加在特征图上传递信息,但由于序列信息的传递操作耗时较长,导致推理速度较慢。同时,在相邻行或列之间顺序传递信息需要多次迭代,在长距离传播过程中会丢失部分信息。
堆叠的卷积神经网络进行了多次下采样,降低了进行后处理的特征图的分辨率,导致微小的车道线目标信息被忽略。为了解决多尺度目标检测问题,特征金字塔通过不同的方式融合了不同尺度的特征图。目前特征金字塔主要分为单向和双向,FPN通过将上层特征图的大小加倍并将其添加到下层,自顶而下融合特征图。Lizhe Liu等[1]采用FPN在车道检测网络中融合多尺度特征,但缺乏可解释性,计算效率低。PANet[2]在FPN的基础上添加了一个自底向上的特征融合,利用双向融合骨干网络保证特征的多样性和完整性,但其无法权衡各特征的重要性。NAS-FPN[3]采用神经架构搜索来寻找更好的跨尺度特征网络拓扑,但是在搜索过程中需要花费大量时间,并且发现的网络不规则,难以解释或修改。BiFPN[4]对不同尺度的特征图进行双向加权特征融合,并利用网络学习权重的大小来优化特征融合。
另外,交通图像数据多样性与数量对于深度学习来说的非常重要,但在某些特定的驾驶场景如遮挡、阴影、夜间等数据只占整个驾驶数据集中的一小部分,形成长尾数据,降低了深度学习神经网络对此部分数据的学习效果。通过采集特定场景下的交通图像作为新数据集来解决在此场景下的车道线检测问题,但这种方法耗时耗力,降低了算法迭代效率。在应对长尾数据上,Seokju Lee等[5]建立了一个新的数据集,包含17个车道和道路标记类,适用于四种不同的长尾场景:无雨、下雨、大雨和夜间,但收集长尾数据是耗时耗力的工作,不满足高速发展的技术需要。风格迁移将一张图片的风格转换成另一张图片的,同时保留原图片的内容不变,Gayts[6]通过重复运用VGG网络来提取图像的纹理信息和内容信息,使生成的图片保留内容值得同时具有新的纹理效果。Pix2Pix[7]通过生成对抗网络来实现图像风格转换,它需要成对的数据进行训练。但实际道路交通图片中极少存在成对的数据,如环境、交通流等完全相同的黑夜和白天道路场景图,因此上述两种方法不适用。而Cyclegan[8]通过引入循环一致性损失来保证内容不变,使其不需要一一对应的图片作为输入。UNIT[9]在Cyclegan的基础上进行了改进,它认为两个域图像可以由他们的联合分布转化得出,并利用VAE-GAN结构保留内容细节,但是实际道路交通图片中很难获取到成对的不同风格图片。
参考文献:
[1]Lizhe Liu,Xiaohao Chen,Siyu Zhu.CondLaneNet:a Top-to-down LaneDetection Framework Based on Conditional Convolution[J].arXiv preprint arXiv:2105.05003,2021.
[2]Liu S,Qi L,Qin H et a1.Path Aggregation Network for InstanceSegmentation[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.
[3]Ghiasi G,Lin TY,Le QV.NAS-FPN:Learning Scalable Feature PyramidArchitecture for Object Detection[C]//2019IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).IEEE,2019.
[4]Tan M,Pang R,Le QV.EfficientDet:Scalable and Efficient ObjectDetection[C]//2020 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).IEEE,2020.
[5]Seokju Lee,Junsik Kim,Jae Shin Yoon,et al.VPGNet:Vanishing PointGuided Network for Lane and Road Marking Detection and Recognition[C]//2017IEEE International Conference on Computer Vision(ICCV).IEEE,2017.
[6]Gatys LA,Ecker AS,Bethge M.Image Style Transfer UsingConvolutional Neural Networks[C]//2016 IEEE Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2016.
[7]Phillip Isola,Jun-Yan Zhu,Tinghui Zhou et al.Image-to-ImageTranslation with Conditional Adversarial Networks[J]//2017 IEEE Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2017.
[8]Jun-Yan Zhu,Taesung Park,Phillip Isola et al.Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[C]//IEEEConference on Computer Vision and Pattern Recognition(CVPR),2017:2223-2232.
[9]Ming-Yu Liu,Thomas Breuel,Jan Kautz.Unsupervised Image-to-ImageTranslation Networks[C]//31st Conference on Neural Information ProcessingSystems(NIPS 2017),Long Beach,CA,USA.
发明内容
针对现有技术所存在的问题,本发明提供一种基于Transformer编码器和空洞卷积的车道线检测方法,该算法将克服堆叠的卷积神经网络无法获得图像的全局信息、难以识别微小车道线目标识别的局限,并且通过风格迁移生成夜间数据,克服了长尾数据数据量不足的问题,提高了模型的检测效率和精度,并使模型适用于多种复杂道路交通场景。
为了达到上述目的,本发明通过使用空洞卷积来提取不同尺度的局部特征,并利用Transformer编码器对车道线的细长线形结构进行全局关联,最后通过双向加权特征金字塔对局部和全局信息进行加权融合,以适用于复杂交通环境中的车道线检测。此外,本发明还利用无监督风格迁移生成对抗网络进行夜间行驶图像的生成,提高了车道线检测网络在夜间、阴暗交通环境下的检测能力。
具体的,本发明提供的一种基于Transformer编码器和空洞卷积的车道线检测方法,包括以下步骤:
使用UNIT无监督风格迁移方法,利用白天交通图像生成夜间交通场景数据;
构建主干特征提取网络,且在主干特征提取网络中用空洞卷积代替原来的卷积,以提取车道线多尺度局部特征;
构建Transformer编码器,利用位置编码和自注意力机制获取全局特征;
使用双向特征金字塔对所提取出来的局部和全局特征进行自顶而下和自底而上的加权融合;
采用基于实例分割的方法构建车道线检测头;
利用数据集对模型进行训练,使模型收敛获得车道线检测网络参数;
将模型安装在车载摄像头上,用于对车道线进行实时检测,得到车道线实例分割图。
进一步地,在进行UNIT无监督风格迁移前,还包括步骤:获取网络公开道路交通数据集,所述数据集中包含车道线及其标签。
进一步地,为了应对不同的交通场景,所述的数据集应为CULane数据集,里面包括正常场景、拥堵场景、转弯场景、眩光场景、夜晚场景、无车道线场景、阴影场景和道路有箭头标记场景。
进一步地,所述使用UNIT无监督风格迁移方法,利用白天交通图像生成夜间交通场景,包括:
设B=(X,Y),其中X为原图像,Y为原图像的标签,B为原始数据及其标签的组合;
假设Bg=(Xg,Yg),其中Xg为生成的图像,Yg为生成图像的标签,则:
Xg=G(E(X))
Yg=Y
其中,G为生成器;E为编码器,Bg为生成的数据及其标签的组合。
由于风格迁移只通过白天的图像生成了夜间图像,并没有改变图像中车道线和环境等细节的分布,因此生成图像的标签可以直接使用原图像的标签。
进一步地,通过将主干特征提取网络的卷积步长减小为1来保持特征图的分辨率不变。
进一步地,所述主干特征提取网络中用空洞卷积代替原来的卷积,包括:
将主干特征提取网络的后两个模块的卷积修改为空洞卷积,假设输入
Figure BDA0003870322220000041
W为输入图片的宽、H为输入图片的高,在经过空洞卷积进行特征提取之后,输出特征图
Figure BDA0003870322220000042
卷积输入输出的尺寸关系为:
Figure BDA0003870322220000043
其中,Win为输入的尺寸;Wout为输出的尺寸;P为填充数;K为卷积核大小;D为卷积空洞数;S为卷积步长。
进一步地,在Transformer编码器中,特征图首先经过一个卷积核大小为3,步长为1的卷积层来得到特征图嵌入F′,并对其加入固定位置编码PE,在自注意力模块中,通过点积计算注意力值,最后通过残差连接在不增加太多计算成本的基础下添加更多的特征,并利用单层的卷积网络作进一步的特征整合;
其中,位置编码使用不同频率的sin和cos计算得到:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
F″=F′+PE
其中,pos为像素的位置;i为当前维度;d为总维度大小;F″为加入位置编码后的特征图嵌入,PE(pos,2i)为第2i个维度上位置为pos的像素的位置编码。
进一步地,在双向特征金字塔中,通过快速标准化权重融合来约束了权重的范围,所述快速标准化权重融合公式为
Figure BDA0003870322220000051
进行双向加权融合后的输出为:
O=conv(ωio·Fi)
其中,ωi为第i个输入的初始权重,∈为一预设的极小的数,防止分母为0,ωj为第j个输入的权重,ωio为快速标准化权重融合后第i个输入的权重,Fi为第i个输入,conv为3x3卷积,O为融合后的输出。
进一步地,总的损失函数包括实例分割损失和车道线存在情况损失。
进一步地,在车道线检测中,实例分割损失通过cross entropy损失函数计算,车道线存在情况损失通过binary cross entropy损失函数计算;
进一步地,在对模型进行训练时,使用SGD优化器对网络进行优化,学习率设置为0.03,动量设置为0.9,权重衰减率为5e-4。每次训练的批量为16,训练轮次为12。
进一步地,设置有至少一个双向特征金字塔。
本发明的基于Transformer和空洞卷积的车道线检测算法与现有技术相比,至少具备以下有益效果:
该方法采用空洞卷积提取车道线局部特征,基于Transformer编码器来获取全局特征,并通过双向加权特征金字塔加强了特征的融合,提高了在不同场景下多尺度细长车道线特征提取和融合的能力。此外,使用了无监督风格迁移生成对抗网络来扩充数据集,将白天样式的图像转换为夜间,这增强了模型在长尾场景中检测车道的能力。
附图说明
图1为本发明实施例中的基于Transformer和空洞卷积的车道线检测方法的模型整体结构示意图;
图2为本发明实施例中的无监督风格迁移生成对抗网络结构示意图;
图3为本发明实施例中的空洞卷积与普通卷积的对比图;
图4为本发明实施例中的Transformer编码器结构示意图;
图5为本发明实施例中的特征融合器结构示意图;
图6为本发明实施例提供的一种基于Transformer编码器和空洞卷积的车道线检测方法的流程示意图。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行说明,所描述的优选实施例仅仅是本发明的一部分实施例,而不是全部实施例,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
请参阅图1,本发明提供的一种基于Transformer编码器和空洞卷积的车道线检测方法,具体步骤包括:
S1、下载网络公开道路交通数据集CULane,它是专用于车道线检测的大型数据集,包含了正常场景和拥挤、眩光、阴影、地面箭头、弯道、十字路口、夜晚道路等高挑战性的场景,其中训练集包含88880张道路交通图片,测试集包含34680张道路交通图片。
S2、使用UNIT无监督风格迁移方法,利用白天交通图像生成夜间交通场景来进行数据增广;
如图2所示,UNIT首先通过编码器E1和E2将两个不同的域(定义为X1域和X2域)的图片共同编码到潜在隐藏空间Z域中,再通过生成器G1和G2将Z域的数据分别转换到X1和X2域,图中
Figure BDA0003870322220000061
为由X1域编码解码得到的X1域图片、
Figure BDA0003870322220000062
为由X2域编码解码得到的X1域图片、
Figure BDA0003870322220000063
为由X1域编码解码得到的X2域图片、
Figure BDA0003870322220000064
为由X2域编码解码得到的X2域图片,然后计算
Figure BDA0003870322220000065
和X1
Figure BDA0003870322220000066
和X2的循环一致性损失,保留图片的细节信息,最后用判别器D1和D2判别生成图片和真实图片的真伪,以对抗训练的方式提高图片风格迁移后的真实性。
在本发明的其中一些实施例中,设B=(X,Y),其中X为原图像,Y为原图像的标签,B为原始数据及其标签的组合。
风格迁移只通过白天的图像生成了夜间图像,并没有改变图像中车道线和环境等细节的分布,因此生成图像的标签可以直接使用原图像的标签;
假设Bg=(Xg,Yg),其中Xg为生成的图像,Yg为生成图像的标签,则:
Xg=G(E(X))
Yg=Y
其中,Bg为生成的数据及其标签的组合,G为生成器;E为编码器。
S3、构建主干特征提取网络,用空洞卷积代替原来的卷积,以提取车道线多尺度局部特征;
在本发明的其中一些实施例中,采用ResNet18来构建主干特征提取网络。当然,在其他实施例中,也可以采用VGG16等常用网络来构建主干特征提取网络。
在本发明的其中一些实施例中,在步骤1中,将主干特征提取网络后两个模块的卷积修改为空洞卷积,如图3所示,空洞卷积与普通卷积相比,能够让每个卷积块的输出都包含较大范围的信息,在增大了卷积感受野的同时防止特征图过小而丢失小目标的信息。其中,假设输入
Figure BDA0003870322220000071
即X为三维输入,其尺寸为(3,W,H)。其中,W为输入图片的宽、H为输入图片的高,在经过空洞卷积进行特征提取之后,输出特征图
Figure BDA0003870322220000072
即F的尺寸为(512,W/8,H/8),卷积输入输出的尺寸关系为:
Figure BDA0003870322220000073
其中,Win为输入的尺寸;Wout为输出的尺寸;P为填充数;K为卷积核大小;D为卷积空洞数;S为卷积步长。
在本发明的其中一些实施例中,在步骤1中,将主干特征提取网络的卷积步长减小为1,来保持特征图的分辨率不变。
S4、构建Transformer编码器,利用位置编码和自注意力机制获取全局特征;
在本发明的其中一些实施例中,如图3所示,特征图F首先经过一个卷积核大小为3,步长为1的输入嵌入卷积层来得到特征图嵌入F′;
随后加入位置编码PE,由于特征图嵌入F′与位置编码PE具有相同的维度,因此位置信息的加入可以通过特征图嵌入与位置编码相加来完成,位置编码使用不同频率的sin和cos计算得到:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
F″=F′+PE
其中,pos为像素的位置;i为当前维度;d为总维度大小,当d为奇数时,i=0,1,...,
Figure BDA0003870322220000081
当d为偶数时,i=0,1,...,
Figure BDA0003870322220000082
F″为加入位置编码后的特征图嵌入,PE(pos,2i)为第2i个维度上位置为pos的像素的位置编码。
在位置编码PE后加入自注意力模块,在自注意力模块中,加入位置编码后的特征图嵌入F″经过线性变换和尺寸调整后得到查询向量Q、关键字
Figure BDA0003870322220000083
和特征值V,其中dk=128为Q和K的维度;通过点积计算注意力值Attention,即像素与像素之间关联的强弱:
Figure BDA0003870322220000084
然后将注意力值Attention与特征值V相乘得到自注意力模块的输出Fo
Fo=V·Attention
并且输入嵌入卷积层和自注意力模块的输出之间通过残差连接,通过残差连接在不增加太多计算成本的基础下添加更多的特征,并进一步地利用单层的卷积网络作进一步的特征整合。
S5、使用双向特征金字塔对所提取出来的局部和全局特征进行自顶而下和自底而上的加权融合。
双向特征金字塔设置有至少一个。当设置两个及以上的双向特征金字塔时,上一个特征金字塔的输出是下一个特征金字塔的输入。在本发明的其中一些实施例中,考虑到实时性,只设置一个双向特征金字塔。
图1中实线部分是实际的应用,虚线部分是可应用但考虑了实时性而未应用的,因此双向特征金字塔的输入为顶层的Transformer编码器输出的全局特征和第二、三层空洞卷积直接输出的多尺度局部特征。
由于对主干特征提取网络行了修改,使后三层输出特征图的尺寸大小相同,因此双向特征金字塔无需对特征图进行线性插值扩张或池化缩小,避免了信息的丢失。
在本发明的其中一些实施例中,通过快速标准化权重融合来约束权重的范围,使融合后的权重值ωio落在0~1之间,并通过学习的方式让网络对权重的大小进行自动调整。此权重融合方法可以防止权重值过大导致的训练不稳定,同时在gpu上运行速度更快。
其中,快速标准化权重融合公式为
Figure BDA0003870322220000085
如图4所示,进行双向加权融合后的输出为:
Figure BDA0003870322220000091
其中,ωi为第i个输入的初始权重,∈为一预设的极小的数,防止分母为0,ωj为第j个输入的权重,ωio为快速标准化权重融合后第i个输入的权重,Fi为第i个输入,conv为3x3卷积,O为融合后的输出。
如图5所示,三个特征图F1、F2、F3输入双向特征金字塔,并以箭头方向进行融合,如F5的融合过程为:
Figure BDA0003870322220000092
ω1、ω4分别为第1个输入和第4个输入的权重;
在本发明的其中一些实施例中,∈=0.0001,防止数值出现不稳定的情况。
S6、采用基于实例分割的方法构建车道线检测头,通过卷积输出车道线实例分割图;
总的损失函数包括实例分割损失和车道线存在情况损失,在本发明的其中一些实施例中,实例分割损失通过cross entropy损失函数计算,车道线存在情况损失通过binarycross entropy损失函数计算,当然,在其他实施例中,也可以采用其他损失函数。
损失函数公式为:
Figure BDA0003870322220000093
Figure BDA0003870322220000094
L=αLseg+βLexit
其中,Lseg为实例分割损失;yi为实例分割真值;pi为预测为第i条车道线实例的概率;Lexit为车道线存在情况损失;qi为车道线存在情况真值;ei为车道线存在情况预测值;α、β分别为实例分割损失和为车道线存在情况损失的权重系数,L为总的损失函数。
S7、利用道路交通原始数据集和风格迁移生成的数据集对所述模型(主干特征提取网络、Transformer编码器、双向特征金字塔、基于实例分割的检测头组成的车道线检测网络模型)进行训练,使模型收敛获得车道线检测网络参数。
在本发明的其中一些实施例中,在步骤7中,使用SGD优化器对网络进行优化
学习率设置为0.03;
动量设置为0.9;
权重衰减率为0.0005;
每次训练的批量为16;
训练轮次为12。
在一台配备一张NVIDIA GeForce RTX2080ti显卡的服务器上训练。
S8、将网络模型安装在车载摄像头上,即可实现车道线的实时检测。此步骤只需要车载摄像头获取道路图像,然后输入到训练好的网络模型文件中,将输出车道线实例分割图。
本发明前述实施例提供的车道线检测方法,具体是利用Transformer编码器可以高效提取图片全局特征和空洞卷积可以扩大卷积感受野并提取多尺度局部特征的特点,基于深度学习算法,以道路交通图像作为模型的输入,通过局部和全局特征提取后,利用双向加权特征金字塔对提取到的特征进行融合,最后采用实例分割检测头输出车道线实例分割图片,实现车道线检测。为了提高模型在夜间和阴暗场景下的车道线检测能力,采用无监督风格迁移将白天场景的图像转换为夜间加入数据集中。所提算法提高了不同场景下车道线特征提取的精度与计算效率,同时可以方便地整合到其他现有车道线检测算法中进行端到端训练。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,该方法包括以下步骤:
使用UNIT无监督风格迁移方法,利用白天交通图像生成夜间交通场景数据;
构建主干特征提取网络,且在主干特征提取网络中用空洞卷积代替原来的卷积,以提取车道线多尺度局部特征;
构建Transformer编码器,利用位置编码和自注意力机制获取全局特征;
使用双向特征金字塔对所提取出来的局部和全局特征进行自顶而下和自底而上的加权融合;
采用基于实例分割的方法构建车道线检测头;
对模型进行训练,使模型收敛获得车道线检测网络参数;
将模型安装在车载摄像头上,用于对车道线进行实时检测,得到车道线实例分割图。
2.根据权利要求1所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,在进行UNIT无监督风格迁移前,还包括步骤:获取网络公开道路交通数据集,所述数据集中包含车道线及其标签。
3.根据权利要求2所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,所述数据集中包括正常场景、拥堵场景、转弯场景、眩光场景、夜晚场景、无车道线场景、阴影场景和道路、有箭头标记场景。
4.根据权利要求1所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,所述使用UNIT无监督风格迁移方法,利用白天交通图像生成夜间交通场景,包括:
设B=(X,Y),其中X为原图像,Y为原图像的标签,B为原始数据及其标签的组合;
假设Bg=(Xg,Yg),其中Xg为生成的图像,Yg为生成图像的标签,则:
Xg=G(E(X))
Yg=Y
其中,G为生成器;E为编码器,Bg为生成的数据及其标签的组合。
5.根据权利要求1所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,所述主干特征提取网络中用空洞卷积代替原来的卷积,包括:
将主干特征提取网络的后两个模块的卷积修改为空洞卷积,假设输入
Figure FDA0003870322210000021
W为输入图片的宽、H为输入图片的高,在经过空洞卷积进行特征提取之后,输出特征图F,卷积输入输出的尺寸关系为:
Figure FDA0003870322210000022
其中,Win为输入的尺寸;Wout为输出的尺寸;P为填充数;K为卷积核大小;D为卷积空洞数;S为卷积步长。
6.根据权利要求1所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,所述构建Transformer编码器,利用位置编码和自注意力机制获取全局特征,包括:
特征图F首先经过卷积层来得到特征图嵌入F′;
随后加入位置编码PE,位置编码使用不同频率的sin和cos计算得到:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
F″=F′+PE
其中,pos为像素的位置;i为当前维度;d为总维度大小;F″为加入位置编码后的特征图嵌入,PE(pos,2i)为第2i个维度上位置为pos的像素的位置编码;
在位置编码PE后加入自注意力模块,在自注意力模块中,F″经过线性变换和尺寸调整后得到查询向量Q、关键字K和特征值V;通过点积计算注意力值Attention,即像素与像素之间关联的强弱:
将注意力值Attention与特征值V相乘得到输出Fo
最后通过残差连接在不增加太多计算成本的基础下添加更多的特征,并利用单层的卷积网络作进一步的特征整合。
7.根据权利要求1所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,所述双向加权特征金字塔结构对特征提取器提取的特征图进行双向加权融合中,通过快速标准化权重融合来约束权重的范围,所述快速标准化权重融合公式为
Figure FDA0003870322210000023
进行双向加权融合后的输出为:
O=conv(ωio·Fi)
其中,ωi为第i个输入的初始权重,∈为一预设的极小的数,防止分母为0,ωj为第j个输入的权重,ωio为快速标准化权重融合后第i个输入的权重,Fi为第i个输入,conv为3x3卷积,O为融合后的输出。
8.根据权利要求1所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,总的损失函数包括实例分割损失和车道线存在情况损失。
9.根据权利要求8所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,实例分割损失通过cross entropy损失函数计算,车道线存在情况损失通过binary cross entropy损失函数计算,损失函数公式为:
Figure FDA0003870322210000031
Figure FDA0003870322210000032
L=αLseg+βLexit
其中,yi为实例分割真值;pi为预测为第i条车道线实例的概率;qi为车道线存在情况真值;ei为车道线存在情况预测值;Lseg为实例分割损失;Lexit为车道线存在情况损失;α、β分别为实例分割损失和为车道线存在情况损失的权重系数,L为总的损失函数。
10.根据权利要求1-9任一所述的一种基于Transformer编码器和空洞卷积的车道线检测方法,其特征在于,设置有至少一个双向特征金字塔。
CN202211193390.XA 2022-09-28 2022-09-28 一种基于Transformer编码器和空洞卷积的车道线检测方法 Pending CN115546750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211193390.XA CN115546750A (zh) 2022-09-28 2022-09-28 一种基于Transformer编码器和空洞卷积的车道线检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211193390.XA CN115546750A (zh) 2022-09-28 2022-09-28 一种基于Transformer编码器和空洞卷积的车道线检测方法

Publications (1)

Publication Number Publication Date
CN115546750A true CN115546750A (zh) 2022-12-30

Family

ID=84730829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211193390.XA Pending CN115546750A (zh) 2022-09-28 2022-09-28 一种基于Transformer编码器和空洞卷积的车道线检测方法

Country Status (1)

Country Link
CN (1) CN115546750A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160205A (zh) * 2019-12-24 2020-05-15 江苏大学 一种交通场景嵌入式多类目标端对端统一检测方法
CN115797853A (zh) * 2023-02-10 2023-03-14 天津城建大学 基于注意力与多尺度池化的岩渣图像处理方法和系统
CN115983140A (zh) * 2023-03-16 2023-04-18 河北工业大学 一种基于大数据深度学习的电磁场数值预测方法
CN116071374A (zh) * 2023-02-28 2023-05-05 华中科技大学 一种车道线实例分割方法及系统
CN116453121A (zh) * 2023-06-13 2023-07-18 合肥市正茂科技有限公司 一种车道线识别模型的训练方法及装置
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116503729A (zh) * 2023-03-17 2023-07-28 中国自然资源航空物探遥感中心 应用于遥感数字图像的道路提取方法和装置
CN116680656A (zh) * 2023-07-31 2023-09-01 合肥海普微电子有限公司 基于生成型预训练变换器的自动驾驶运动规划方法及系统
CN117593716A (zh) * 2023-12-07 2024-02-23 山东大学 一种基于无人机巡检图像的车道线识别方法和系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160205A (zh) * 2019-12-24 2020-05-15 江苏大学 一种交通场景嵌入式多类目标端对端统一检测方法
CN111160205B (zh) * 2019-12-24 2023-09-05 江苏大学 一种交通场景嵌入式多类目标端对端统一检测方法
CN115797853A (zh) * 2023-02-10 2023-03-14 天津城建大学 基于注意力与多尺度池化的岩渣图像处理方法和系统
CN116071374A (zh) * 2023-02-28 2023-05-05 华中科技大学 一种车道线实例分割方法及系统
CN116071374B (zh) * 2023-02-28 2023-09-12 华中科技大学 一种车道线实例分割方法及系统
CN115983140B (zh) * 2023-03-16 2023-06-09 河北工业大学 一种基于大数据深度学习的电磁场数值预测方法
CN115983140A (zh) * 2023-03-16 2023-04-18 河北工业大学 一种基于大数据深度学习的电磁场数值预测方法
CN116503729A (zh) * 2023-03-17 2023-07-28 中国自然资源航空物探遥感中心 应用于遥感数字图像的道路提取方法和装置
CN116453121A (zh) * 2023-06-13 2023-07-18 合肥市正茂科技有限公司 一种车道线识别模型的训练方法及装置
CN116453121B (zh) * 2023-06-13 2023-12-22 合肥市正茂科技有限公司 一种车道线识别模型的训练方法及装置
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116469132B (zh) * 2023-06-20 2023-09-05 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116680656A (zh) * 2023-07-31 2023-09-01 合肥海普微电子有限公司 基于生成型预训练变换器的自动驾驶运动规划方法及系统
CN116680656B (zh) * 2023-07-31 2023-11-07 合肥海普微电子有限公司 基于生成型预训练变换器的自动驾驶运动规划方法及系统
CN117593716A (zh) * 2023-12-07 2024-02-23 山东大学 一种基于无人机巡检图像的车道线识别方法和系统

Similar Documents

Publication Publication Date Title
CN115546750A (zh) 一种基于Transformer编码器和空洞卷积的车道线检测方法
Tang et al. A review of lane detection methods based on deep learning
CN110738090B (zh) 使用神经网络进行端到端手写文本识别的系统和方法
Zamanakos et al. A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving
Wang et al. An empirical study of remote sensing pretraining
Zhu et al. Adaptive deep sparse semantic modeling framework for high spatial resolution image scene classification
CN109711463B (zh) 基于注意力的重要对象检测方法
Ren et al. Unsupervised change detection in satellite images with generative adversarial network
CN113239981B (zh) 局部特征耦合全局表征的图像分类方法
CN112633220B (zh) 一种基于双向序列化建模的人体姿态估计方法
CN115424059B (zh) 一种基于像素级对比学习的遥感土地利用分类方法
Ruan et al. Vision transformers: state of the art and research challenges
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
CN116206306A (zh) 一种类间表征对比驱动的图卷积点云语义标注方法
CN116740424A (zh) 基于Transformer的时序点云三维目标检测
Wang et al. STCD: efficient Siamese transformers-based change detection method for remote sensing images
Zhou et al. A novel object detection method in city aerial image based on deformable convolutional networks
CN114168773A (zh) 一种基于伪标签和重排序的半监督草图图像检索方法
Liu et al. FPPNet: A Fixed-Perspective-Perception Module for Small Object Detection Based on Background Difference
CN116229406B (zh) 车道线检测方法、系统、电子设备及存储介质
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
CN116051850A (zh) 神经网络目标检测方法、装置、介质和嵌入式电子设备
Zhang et al. Lane Detection Transformer Based on Multi-frame Horizontal and Vertical Attention and Visual Transformer Module
Zhong et al. Improved U-Net Network Segmentation Method for Remote Sensing Image
Wei et al. An Efficient Point Cloud-based 3D Single Stage Object Detector

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination