CN116863437A - 车道线检测模型训练方法、装置、设备、介质及车辆 - Google Patents
车道线检测模型训练方法、装置、设备、介质及车辆 Download PDFInfo
- Publication number
- CN116863437A CN116863437A CN202310576881.0A CN202310576881A CN116863437A CN 116863437 A CN116863437 A CN 116863437A CN 202310576881 A CN202310576881 A CN 202310576881A CN 116863437 A CN116863437 A CN 116863437A
- Authority
- CN
- China
- Prior art keywords
- lane line
- encoder
- line detection
- path
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000000644 propagated effect Effects 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000010339 dilation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种车道线检测模型训练方法、装置、设备、介质及车辆,方法包括:获取车道线图像数据集;构建神经网络模型,神经网络模型包括基于编码器‑解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。其中车道线检测模型采用空间信息引导路径和编码器路径合并的方式,可以学习不同深度的特征,能够高效地提取图像不同层次的信息,提高检测的精度,同时还能降低模型的复杂程度。
Description
技术领域
本发明涉及一种车道线检测模型训练方法、装置、设备、介质及车辆,属于车道线检测领域。
背景技术
可靠地对道路前方的车道检测进行检测和识别,是智能驾驶车辆感知周围环境、决策规划路线等任务的判定基础,也是目前智能汽车行业快速发展所要解决的根本问题之一。车道检测算法的关键挑战来自于系统对高层视觉内容的灵敏解读和判断,然而城市道路交通情况复杂,行人、骑行人以及各类车辆分布较为密集且距离较近,车辆速度变化较大,变道频繁。此外,受自然场景中天气、光线、环境等影响,在实际交通场景图像往往存在反光、逆光、昏暗以及部分遮挡等情况。诸多客观因素所带来的问题严重影响了车辆对周围环境感知的准确度和实时性。
智能车需要感知和理解周围事物如道路参与者,可通行区域和其它语义元素等。视觉传感器可获得亮度、颜色、纹理等丰富的目标信息,充分利用这些信息可大大提高车道线提取、目标检测、立体视觉SLAM(Simultaneous localization and mapping)等场景理解技术的准确性。2014年,Long等人[1]提出了全卷积网络。该文作者提出了一种新颖的模型结构,它由用于学习高级语义信息的编码器和用于恢复空间信息的解码器组成。SegNet[2]在编码时将每一个池化层的索引都保存起来,上采样时用对应的编码索引进行去池化操作。ICNet[3]使用多个不同分辨率的图像作为输入,提出了一种级联网络来提取不同尺寸的对象。
目前,此领域大多是构建深层卷积神经网络进行道路场景识别或车道线检测。Zequn Qin等人[4]通过把车道检测的过程作为一个基于行选择问题,使用全局特征来解决严重确实和极端光照条件下的车道线语义识别。SAD[5]提出基于分割的密集预测特,VPGNet[6]提出了一种由消失点引导的多任务网络用于车道和道路标记检测。Jiang等人[7]提出一种基于多尺度交替训练的图像理解方法,以每个像素为中心提取图像的密集特征。Qin等人[4]通过把车道检测的过程作为一个基于行选择问题,使用全局特征来解决严重确实和极端光照条件下的车道线语义识别。近年来,各种视觉Transformer(ViT)模型在许多视觉任务中取得了显著的效果,逐渐替代卷积神经网络。ViT擅长提取全局信息,利用注意力机制建立数据的不同位置间的关联。Dosovitskiy等人[8]将Transformer结构应用于物体分类任务中,利用更强的训练技术和更大规模的数据集实现与CNN相似的性能。尽管ViT模型在大多数视觉任务中取得了成功,但计算成本很高,并且难以训练,因此在需要实时计算的场景中无法与轻量级CNNs[9]相比。为了提升计算速度,许多方法提出了新的架构或模块[10,11]。MobileViT[12]引入了一种混合架构,将轻量级的MobileNet和自注意力模块相结合,前者放置在网络管道的早期阶段提取低级特征,而后者放置在后期阶段享受全局接受域。
这类方法的缺点是卷积网络中编码器早期的空间信息不容易恢复。由于车道较长,空间位置很重要,因此早期的编码器中所包含的位置、细节信息会更为重要。编码路径的较深阶段缺乏空间细节,影响了网络的特征学习能力。卷积网络缺少利用图像全局上下文信息的能力,无法直接在特征直接建立相互关系。而基于Transformer的结构模型参数多,训练及推理时间长,很难应用到需要实时处理的实际应用场合中。此外,在实际的道路场景中,由于距离观察点远近不同,识别目标的尺度大小会呈现数倍的差异,而不同尺度的目标所提供的特征会有显著的不同,用卷积网络中的通用特征对目标进行描述,往往具有较高的错误率。这些方法通常只能用来解决单一目标识别问题,而对实际场景中的车道线检测问题缺乏通用性。
因此,需要提供一种能够对复杂环境多尺度特征进行提取和对多模态数据自适应融合的轻量级车道线模型训练方案及轻量级车道线检测方案。
参考文献:
[1]Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2014,39(4):640-651.
[2]Badrinarayanan V,Kendall A,Cipolla R.SegNet:A Deep ConvolutionalEncoder-Decoder Architecture for Image Segmentation[J].IEEE Trans PatternAnal Mach Intell,2015,39(12):2481-2495.
[3]Zhao H,Qi X,Shen X,et al.ICNet for Real-Time Semantic Segmentationon High-Resolution Images[J].15th European Conference,2018:418-434.
[4]Qin Z,Wang H,Li X.Ultra Fast Structure-aware Deep Lane Detection[J].Springer,Cham,2020.
[5]Hou Y,Ma Z,Liu C,et al.Learning Lightweight Lane Detection CNNs bySelf Attention Distillation[J],2019.
[6]Lee S,Kim J,Yoon J S,et al.VPGNet:Vanishing Point Guided Networkfor Lane and Road Marking Detection and Recognition[J].IEEE,2017.
[7]蒋应锋,张桦,薛彦兵,et al.一种新的多尺度深度学习图像语义理解方法研究[J].光电子·激光,2016,v.27;No.248(02):102-108.
[8]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An Image is Worth 16x16Words:Transformers for Image Recognition at Scale[C].ICLR,2021.
[9]Tan M,Le Q V.EfficientNet:Rethinking Model Scaling forConvolutional Neural Networks[C].International conference on machinelearning,2019:6105-6114.
[10]Chen C F,Fan Q,Panda R.CrossViT:Cross-Attention Multi-ScaleVision Transformer for Image Classification[C].IEEE/CVF InternationalConference on Computer Vision,2021:357-366.
[11]Fayyaz M,Koohpayegani S A,Jafari F R,et al.Adaptive InverseTransform Sampling For Efficient Vision Transformers[J].arXiv:2111.15667,2021.
[12]Mehta S,Rastegari M.MobileViT:Light-weight,General-purpose,andMobile-friendly Vision Transformer[J].arXiv:2110.02178,2021。
发明内容
有鉴于此,本发明提供了一种车道线检测模型训练方法、装置、计算机设备、存储介质及车辆,其中车道线检测模型采用空间信息引导路径和编码器路径合并的方式,可以学习不同深度的特征,能够高效地提取图像不同层次的信息,提高检测的精度,同时还能降低模型的复杂程度。
本发明的第一个目的在于提供一种车道线检测模型训练方法。
本发明的第二个目的在于提供一种车道线检测模型训练装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第五个目的在于提供一种车辆。
本发明的第一个目的可以通过采取如下技术方案达到:
一种车道线检测模型训练方法,包括:
获取车道线图像数据集;
构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
进一步的,所述基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征,如下式:
其中,Θi表示编码器路径的第i个阶段,xi表示Θi的输出结果,Γ(·)表示全局自适应特征融合方式,T表示编码器中的总阶段数。
进一步的,所述全局自适应特征融合方式,包括:
对两个路径数据进行像素级别的合并,获得每个像素的融合特征向量;
根据均值池化方式,将每个像素的融合特征向量压缩成一维形式,生成空间全局信息,空间全局信息包括多个特征通道的信息;
基于空间全局信息,根据全连接操作和激活函数操作,计算每个特征通道的权重,并生成注意力掩码;
基于注意力掩码和合并的两个路径数据,根据连接操作,完成全局自适应特征融合。
进一步的,所述解码器使用双线性上采样操作对编码器输出的数据进行还原。
进一步的,所述预设值为128。
进一步的,所述利用含有稀疏性正则化的损失函数,如下式:
其中,W表示卷积层的参数,表示数据项,Y表示对应的标签,X表示输入特征映射,μ表示正则化因子,/>表示稀疏正则化,A表示稀疏化引导矩阵。
本发明的第二个目的可以通过采取如下技术方案达到:
一种车道线检测模型训练装置,包括:
获取模块,用于获取车道线图像数据集;
构建模块,用于构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
训练模块,用于基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的车道线检测模型训练方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的车道线检测模型训练方法。
本发明的第五个目的可以通过采取如下技术方案达到:
一种车辆,包括:
摄像单元,用于拍摄待识别车道线图像;
控制处理单元,用于获取待识别车道线图像;利用车道线检测模型对待识别车道线图像进行检测,得到检测结果;车道线检测模型通过上述的车道线检测模型训练方法获取得到。
本发明相对于现有技术具有如下的有益效果:
1、本实施例提供的车道线检测模型采用空间信息引导路径和编码器路径合并的方式,可以学习不同深度的特征,能够高效地提取图像不同层次的信息,提高检测的精度,同时还能降低模型的复杂程度。
2、本实施例提供的车道线检测模型对空间信息引导路径中的特征和编码器中的特征进行密集融合;核心是采用基于空间注意力机制的自适应融合方式,有效地融合不同路径的特征,提高特征的表达能力,提高算法的准确率和通用性;
3、本实施例设计的由稀疏性矩阵引导的正则化方法,与交叉熵损失函数相结合,可以进一步地压缩模型参数,提高模型的计算效率,从而降低对硬件配置的需求,能够让本实施例的方法运行在现实场合中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的车道线检测模型训练方法的流程图。
图2为本发明实施例1的神经网络模型的结构图。
图3为本发明实施例1的全局自适应特征融合模块的结构图。
图4为本发明实施例2的车道线检测模型训练装置的结构框图。
图5为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种车道线检测模型训练方法,该方法包括如下步骤:
S101、获取车道线图像数据集。
S102、构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值。
本实施例中,构建神经网络模型具体为,首先建立基于编码器-解码器的网络结构。为了在增大感受域的同时不丢失太多的空间信息,编码器只进行了四次下采样操作和一次扩张卷积操作,得到了1/16分辨率的特征图。为了进一步减少模型参数,将编码器深层阶段的卷积核数量减少到128(预设值)。建立空间信息引导路径,利用低层特征来指导高层阶段特征的选择。引导路径能够在特征学习过程中逐步传播具有丰富空间信息的低层阶段特征,以提高整个编码路径的细节表示能力。对编码器特征和引导路径中的特征进行自适应融合。先逐像素串联不同路径的特征,然后使用自适应的权重调整机制,通过它可以显示地调整不同路径中的各个特征的重要性。这种注意力机制带来了两个好处,其一,让网络更容易提取出对实际场景具有判别力的特征。其二,建立了不同空间的特征相互作用关系,改进了模型的语义特征表达。这样,能够减少对遮挡和噪声等因素对检测结果造成的影响。对于从编码器输出的特征,利用解码器将低维度特征重新上采样获得高维度特征,从而确保输入与输出的维度一致。接下来,将使用双线性插值上采样四倍后的特征与来自编码器主路径的相对应的低层次特征连接,再进行卷积操作。此过程重复两次,得到与原始图像分辨率相同的特征。最后在经过一个Softmax层得到最终的预测结果。由于编码器的特征提取比较充分,解码器可以通过减少提取高层次特征的卷积核的数量,进一步减少网络参数,仍然能够获得较好的效果。
值得注意的是,在传统的编码器-解码器模型中,深层语义信息往往缺少保留丰富空间细节的低层特征,这将影响网络性能,特别是边界或细节的分割。为了在增大感受域的同时不丢失太多的空间信息,本实施例的编码器只进行了四次下采样操作和一次扩张卷积操作,得到了1/16分辨率的特征图。为了进一步减少模型参数,将深层阶段的卷积核数量减少到128。为了补偿丢失的空间信息,本实施例提出的空间信息引导路径,利用低层特征来指导高层阶段特征的选择。引导路径能够在特征学习过程中逐步传播具有丰富空间信息的低层阶段特征,以提高整个编码路径的细节表示能力。与现有的多路径方法、多尺度方法及密集连接网络不同,本实施例只添加了一条优化路径,这提高了编码器的表示能力,同时计算复杂度较低。
进一步地,所述解码器使用双线性上采样操作对编码器输出的数据进行还原。
具体地,通过融合编码器中各条特征路径的结果,得到的特征图为输入图像大小的1/16。但是,车道线检测是像素级识别问题,输入的原始图和输出的预测图需要保持相同大小。因此,利用解码器将低维度特征重新上采样获得高维度特征,从而确保输入与输出的维度一致。为了减少计算量,提出一种轻量级解码器。首先对节点使用双线性上采样。对于点(x,y),假设知道函数/>在(x,y)周围的四个点PLL=(xL,yL)、PLR=(xL,yR),PRL=(xR,yL)以及PRR=(xR,yR)上的值。为了求解目标点的值/>先在X方向进行线性插值:
然后在Y方向上进行线性插值,结果如下所示:
接下来,将使用双线性插值上采样四倍后的特征与来自编码器主路径的相对应的低层次特征连接,再进行卷积操作。此过程重复两次,得到与原始图像分辨率相同的特征。最后在经过一个Softmax层得到最终的预测结果。由于编码器的特征提取比较充分,解码器可以通过减少提取高层次特征的卷积核的数量,进一步减少网络参数,仍然能够获得较好的效果。
进一步地,为了对编码器特征和空间信息引导路径中的特征进行高效融合,本实施例设计了一个空间自适应特征融合模块,如图2和图3所示,具体的说,该模块先逐像素串联不同路径的特征,然后建立了一种自适应的权重调整机制,通过它可以显示地调整不同路径中的各个特征的重要性。这种注意力机制带来了两个好处,其一,让网络更容易提取出对实际场景具有判别力的特征。其二,建立了不同空间的特征相互作用关系,改进了模型的语义特征表达。这样,能够减少对遮挡和噪声等因素对检测结果造成的影响。空间自适应特征融合模块的操作即下述的全局自适应特征融合方式。
S103、基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
本实施例中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征,具体包括:
将编码器主路经的第i个阶段定义为Θi,1≤i≤K,这里K表示编码器中的总阶段数。定义xi为Θi的输出结果,x0是输入的二维图片。在标准的编码器中,xi的计算方法如式(1)所示:
xi=Θi(xi-1) (4)
加入空间细化路径后,xi的计算方法如下:
这里Г(·)表示全局自适应特征融合方式,T是编码器中总的阶段数。
值得注意的是,利用空间细化路径的优势有三方面:首先,低层特征和高层特征的连接使得梯度传播更容易到达较低的阶段,从而使网络训练更加有效。其次,编码器通过重复使用低层特征将细节信息传递给整个编码过程,从而增强了每个阶段的细节表示能力。第三,编码器的输出既包含来自模型初期的低层信息,也包含来自模型后期的抽象信息。它通过一条路径整合了不同深度阶段的上下文信息,提高了模型的特征表示能力。
进一步地,全局自适应特征融合方式,包括:
S1、对两个路径数据进行像素级别的合并,获得每个像素的融合特征向量。
两种数据首先在像素级别合并,这样每个像素的融合特征就成为了一个由两个路径特征组成的向量,如下所示:
fc=[fe,fs] (6)
式中,[]表示拼接操作。合并后的特征fc∈RN×(M+C),M表示编码器中特征向量的通道数,C表示引导路径中特性向量的通道数。
S2、根据均值池化方式,将每个像素的融合特征向量压缩成一维形式,生成空间全局信息,空间全局信息包括多个特征通道的信息。
为了学习各个通道之间的关系,采用均值池化将fc压缩为一维特征,生成全局空间特征z∈R1×(M+C),z的通道数与级联特征的通道数一致。第j个特征通道的全局特征zj可以表示为:
其中,fc(i,j)表示特征在第j个通道中第i个点的特征。
S3、基于空间全局信息,根据全连接操作和激活函数操作,计算每个特征通道的权重,并生成注意力掩码。
获得空间全局信息后,在全局信息后加上一个全连接层,目的是学习各个通道间的非线性关系。最后由Softmax激活函数计算通道权重h,如下所示:
s(z)=MLP(z,W) (8)
hi=softmax(s(zi))
=exp(s(zi))/∑jexp(s(zj)) (9)
其中,W是可学习的参数矩阵。
本实施例提出将全局特征z映射成一组权重,建立特征通道之间的相关性,可以看作是通道上的自注意函数。通过归一化函数,将权重hi归一到区间[0,1]之内。该方法生成的注意力掩码不仅能反映出各个通道之间的关系,而且能够抓取空间位置对特征的影响。更特别的是,注意力机制能增强关键通道的特征,从而促进网络学习到更加具有判别性的特征。
S4、基于注意力掩码和合并的两个路径数据,根据连接操作,完成全局自适应特征融合。
将学习到的权重看作是做过特征选择后的每个特征通道的重要性,然后将掩码相乘到先前对应的特征上,完成在通道维度上的调整,可以得到:
其中,输出特征为f′c∈RN×C,⊙表示点乘。融合模块学习通道之间的相关性,根据全局信息将关联性强的通道进行了调整。对于融合后的特征,该模块把重要的通道增强,不重要的通道减弱,从而让提取的特征指向性更强。值得注意的是,参数W在训练完之后是固定的,测试过程中不会发生变化。但是输入特征z不同,注意机制模块计算出的权重h也不同,即模块可以根据输入的变化输出最合适的权重,从而实现自适应的特征调整。
此外,需要注意的是,深度神经网络在场景理解,车道线检测等领域取得了巨大成绩,但是优秀的性能总是以大量参数为代价的,这导致现有的基于深度神经网络的方法计算量大,进而导致了较高的内存和计算需求,不适于实际应用落地。为了解决这个问题,本实施例提出一个基于稀疏变分引导的正则化方法,对(1)、(2)中提到的模型做稀疏性优化,使得模型尺寸和计算成本进一步降低。利用稀疏矩阵A对网络模型进行压缩。设数据集为其中/>表示输入数据,/>表示对应的标签。网络中卷积层的输出特征映射用Z表示,卷积层的参数用W表示。则输入特征映射X和滤波器之间的卷积可以转换成矩阵乘法Z=X×W。为了简洁起见,这里省略偏差项。为了避免过度拟合,网络权重参数W通常需要一些正则化,如权值衰减。为了得到过滤器的结构化修剪,结构化稀疏性正则化用于约束过滤器,即:
其中表示稀疏正则化,μ正则化因子。引入一个矩阵A来加强组稀疏性约束,因此式(1)变成Z=X×(W×A)。为了得到一个结构化的稀疏矩阵,采用了群稀疏正则化方法因此,损失函数为:
通过最小化上述损失函数,将网络参数W和稀疏化引导矩阵A结合,进而对网络模型进行压缩。通过对矩阵稀疏引导A的设置,可以自适应的调整模型参数要优化的部分。
本实施例的训练过程采用了小批量随机梯度下降法进行优化,批次大小设置为6,动量和重量衰减分别设置为0.9和10-3。此外,学习率采用“poly”算法更新,初始学习率设为10-3。对训据集图像进行了数据增强,首先随机地水平和垂直翻转图像,然后随机旋转来调整图像的方向并进行随机高斯模糊,将训练图像的大小随机调整为0.8~1.2倍。最终得到车道线检测模型。
本实施例还提供了一种车道线检测方法,该方法包括如下步骤:
1.建立基于编码器-解码器的网络结构。为了在增大感受域的同时不丢失太多的空间信息,编码器只进行了四次下采样操作和一次扩张卷积操作,得到了1/16分辨率的特征图。为了进一步减少模型参数,将编码器深层阶段的卷积核数量减少到128。建立空间信息引导路径,利用低层特征来指导高层阶段特征的选择。引导路径能够在特征学习过程中逐步传播具有丰富空间信息的低层阶段特征,以提高整个编码路径的细节表示能力。
2.对编码器特征和引导路径中的特征进行自适应融合。先逐像素串联不同路径的特征,然后使用自适应的权重调整机制,通过它可以显示地调整不同路径中的各个特征的重要性。这种注意力机制带来了两个好处,其一,让网络更容易提取出对实际场景具有判别力的特征。其二,建立了不同空间的特征相互作用关系,改进了模型的语义特征表达。这样,能够减少对遮挡和噪声等因素对检测结果造成的影响。
3.对于从编码器输出的特征,利用解码器将低维度特征重新上采样获得高维度特征,从而确保输入与输出的维度一致。首先对编码器输出的特征进行双线性上采样。具体方法如下:对于点(x,y),假设知道函数在(x,y)周围的四个点PLL=(xL,yL)、PLR=(xL,yR),PRL=(xR,yL)以及PRR=(xR,yR)上的值。为了求解目标点的值/>先在X方向进行线性插值:
然后在Y方向上进行线性插值,结果如下所示:
接下来,将使用双线性插值上采样四倍后的特征与来自编码器主路径的相对应的低层次特征连接,再进行卷积操作。此过程重复两次,得到与原始图像分辨率相同的特征。最后在经过一个Softmax层得到最终的预测结果。由于编码器的特征提取比较充分,解码器可以通过减少提取高层次特征的卷积核的数量,进一步减少网络参数,仍然能够获得较好的效果。
4.为了进一步压缩模型、提高计算效率,利用含有稀疏性正则化的损失函数对模型进行训练。模型损失函数如式(14)所示,式(14)中的数据项使用交叉熵损失。训练过程采用了小批量随机梯度下降法进行优化,批次大小设置为6,动量和重量衰减分别设置为0.9和10-3。此外,学习率采用“poly”算法更新,初始学习率设为10-3。每一次迭代的更新速率为初始速率乘以/>其中power设为0.9。为了避免在训练期间过度拟合,对训据集图像进行了数据增强。首先随机地水平和垂直翻转图像。然后随机旋转来调整图像的方向并进行随机高斯模糊。将训练图像的大小随机调整为0.8~1.2倍。最终得到车道线检测模型
5.利用车道线检测模型对待识别车道线图像进行检测,得到检测结果。
本实施例还提供了一种车辆,包括:
摄像单元,用于拍摄待识别车道线图像;
控制处理单元,用于获取待识别车道线图像;利用车道线检测模型对待识别车道线图像进行检测,得到检测结果;车道线检测模型通过上述的车道线检测模型训练方法获取得到。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图4所示,本实施例提供了一种车道线检测模型训练装置,该装置包括获取模块401、构建模块402和训练模块403,各个模块的具体功能如下:
获取模块401,用于获取车道线图像数据集;
构建模块402,用于构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
训练模块403,用于基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
实施例3:
如图5所示,本实施例提供了一种计算机设备,其包括通过系统总线501连接的处理器502、存储器、输入装置503、显示装置504和网络接口505。其中,处理器502用于提供计算和控制能力,存储器包括非易失性存储介质506和内存储器507,该非易失性存储介质506存储有操作系统、计算机程序和数据库,该内存储器507为非易失性存储介质506中的操作系统和计算机程序的运行提供环境,计算机程序被处理器502执行时,实现上述实施例1的车道线检测模型训练方法,如下:
获取车道线图像数据集;
构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
实施例4:
本实施例提供一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的车道线检测模型训练方法,如下:
获取车道线图像数据集;
构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以以一种或多种程序设计语言或其组合来编写用于执行本实施例的计算机程序,上述程序设计语言包括面向对象的程序设计语言-诸如Java、Python、C++,还包括常规的过程式程序设计语言-诸如C语言或类似的程序设计语言。程序可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明将空间信息引导路径融合到编码器-解码器结构中,从而有效地融合不同语义级别的信息。与现有方法将金字塔结构连接到骨干网络的最后阶段或将级联图像作为输入不同,本发明在网络早期融合空间信息,使模型能够很好地保留低层空间信息,这对于检测车道线位置具有很大意义。为了提供方法的准确性,本发明设计了自适应融合方法对编码器特征和空间信息引导路径上的底层级信息进行融合。为了降低模型复杂性,设计轻量级的编码器和解码器,并且利用稀疏性矩阵降低模型参数。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (10)
1.一种车道线检测模型训练方法,其特征在于,包括:
获取车道线图像数据集;
构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
2.根据权利要求1所述方法,其特征在于,所述基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征,如下式:
其中,Θi表示编码器路径的第i个阶段,xi表示Θi的输出结果,Γ(·)表示全局自适应特征融合方式,T表示编码器中的总阶段数。
3.根据权利要求2所述方法,其特征在于,所述全局自适应特征融合方式,包括:
对两个路径数据进行像素级别的合并,获得每个像素的融合特征向量;
根据均值池化方式,将每个像素的融合特征向量压缩成一维形式,生成空间全局信息,空间全局信息包括多个特征通道的信息;
基于空间全局信息,根据全连接操作和激活函数操作,计算每个特征通道的权重,并生成注意力掩码;
基于注意力掩码和合并的两个路径数据,根据连接操作,完成全局自适应特征融合。
4.根据权利要求1-3任一项所述方法,其特征在于,所述解码器使用双线性上采样操作对编码器输出的数据进行还原。
5.根据权利要求1所述方法,其特征在于,所述预设值为128。
6.根据权利要求1所述方法,其特征在于,所述利用含有稀疏性正则化的损失函数,如下式:
其中,W表示卷积层的参数,表示数据项,Y表示对应的标签,X表示输入特征映射,μ表示正则化因子,/>表示稀疏正则化,A表示稀疏化引导矩阵。
7.一种车道线检测模型训练装置,其特征在于,包括:
获取模块,用于获取车道线图像数据集;
构建模块,用于构建神经网络模型,神经网络模型包括基于编码器-解码器的网络结构和空间信息引导路径,其中,编码器只进行四次下采样操作和一次扩张卷积操作,编码器的深层阶段的卷积核数量减少到预设值;
训练模块,用于基于车道线图像数据集,利用含有稀疏性正则化的损失函数对神经网络模型进行训练,得到车道线检测模型,其中,基于空间信息引导路径,在特征学习过程中逐步向编码器路径传播具有空间信息的低层阶段特征。
8.一种车辆,其特征在于,包括:
摄像单元,用于拍摄待识别车道线图像;
控制处理单元,用于获取待识别车道线图像;利用车道线检测模型对待识别车道线图像进行检测,得到检测结果;车道线检测模型通过权利要求1-6任一项所述方法获取得到。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-6任一项所述方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-6任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576881.0A CN116863437A (zh) | 2023-05-22 | 2023-05-22 | 车道线检测模型训练方法、装置、设备、介质及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310576881.0A CN116863437A (zh) | 2023-05-22 | 2023-05-22 | 车道线检测模型训练方法、装置、设备、介质及车辆 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863437A true CN116863437A (zh) | 2023-10-10 |
Family
ID=88227438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310576881.0A Pending CN116863437A (zh) | 2023-05-22 | 2023-05-22 | 车道线检测模型训练方法、装置、设备、介质及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863437A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710416A (zh) * | 2023-12-27 | 2024-03-15 | 佛山科学技术学院 | 一种面向复杂光照变化场景的流体光流测速方法及系统 |
-
2023
- 2023-05-22 CN CN202310576881.0A patent/CN116863437A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117710416A (zh) * | 2023-12-27 | 2024-03-15 | 佛山科学技术学院 | 一种面向复杂光照变化场景的流体光流测速方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
de Queiroz Mendes et al. | On deep learning techniques to boost monocular depth estimation for autonomous navigation | |
Li et al. | Implementation of deep-learning algorithm for obstacle detection and collision avoidance for robotic harvester | |
CN114255361A (zh) | 神经网络模型的训练方法、图像处理方法及装置 | |
CN115147598B (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN112257759A (zh) | 一种图像处理的方法以及装置 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN112991350A (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN117237740B (zh) | 一种基于CNN和Transformer的SAR图像分类方法 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
Li et al. | Gated auxiliary edge detection task for road extraction with weight-balanced loss | |
CN117173394A (zh) | 面向无人机视频数据的弱监督显著性目标检测方法及系统 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN113066018A (zh) | 一种图像增强方法及相关装置 | |
Hwang et al. | Lidar depth completion using color-embedded information via knowledge distillation | |
CN116258756A (zh) | 一种自监督单目深度估计方法及系统 | |
CN116863437A (zh) | 车道线检测模型训练方法、装置、设备、介质及车辆 | |
Liu et al. | L2-LiteSeg: A Real-Time Semantic Segmentation Method for End-to-End Autonomous Driving | |
Lee et al. | Perception-friendly video enhancement for autonomous driving under adverse weather conditions | |
Zou et al. | Traffic Sign Image Segmentation Algorithm Based on Improved Spatio-Temporal Map Convolution | |
WO2023206532A1 (zh) | 预测方法、装置、电子设备及计算机可读存储介质 | |
Ni et al. | Multi-task Learning of Semantics, Geometry and Motion for Vision-based End-to-End Self-Driving | |
Che et al. | TwinLiteNetPlus: A Stronger Model for Real-time Drivable Area and Lane Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |