CN113255459A - 一种基于图像序列的车道线检测方法 - Google Patents
一种基于图像序列的车道线检测方法 Download PDFInfo
- Publication number
- CN113255459A CN113255459A CN202110475124.5A CN202110475124A CN113255459A CN 113255459 A CN113255459 A CN 113255459A CN 202110475124 A CN202110475124 A CN 202110475124A CN 113255459 A CN113255459 A CN 113255459A
- Authority
- CN
- China
- Prior art keywords
- network
- frame
- feature
- lane line
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于图像序列的车道线检测方法,包括以下四部分:(1)搭建车道线并行检测网络;(2)对车道线并行检测网络进行训练优化;(3)完成对车道线并行检测网络的训练;(4)使用训练好的车道线并行检测网络对输入图像进行检测,输出车道线分割图像。与使用相同骨架网络的现有语义分割网络相比,本文的并行网络在客观检测精度和主观检测效果上都有明显的提升。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于图像序列的车道线检测方法。
背景技术
车道线检测是全自动驾驶和高级辅助驾驶的重要实现环节,能够有效的检测车辆可通行区域,对于车辆的环境感知能力以及车道保持系统具有重要的意义。虽然目前已有一些商用的车道线检测应用,但仍然受到一些特殊场景的限制,无法完全满足自动驾驶的严格要求,在一些诸如车道线短时遮挡、路面明暗变化等复杂场景下,仍具有较大的提升空间。
早期的车道线检测方法主要通过挖掘图像不同的低层视觉特征,如颜色、边缘、梯度等,考虑像素点在其领域空间上的特征差异。Otsuka等(见Itti L,Koch C,Niebur E.Amodel of saliency-based visual attention for rapid scene analysis[J].IEEETransactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259)将边缘信息应用于检测过程中,将车道线的边缘特征,通过直方图分析得到车道线特征的显著性图,最后依靠寻找边缘点的方向来找到车道线边界。Boggavarapu等(见Hou X,Zhang L.Dynamic visual attention:searching for coding length increments[C].//Neural Information Processing Systems.Massachusetts:MIT,2009:681-688)为了利用图像中的颜色信息,先将图像的颜色空间从RGB转换为HSV,再应用颜色分割算法,将像素划分为车道线和背景。上述方法从底层特征出发,基于变换分析、颜色分割等方法,建立了一系列检测模型,该类方法无需训练学习,操作简单,但对于复杂的背景、多噪声、低对比度图像等场景,其准确率较低,有待进一步的提高和完善。
由于神经网络在图像分割研究中取得了优异的成绩,各种车道线检测网络相继被提出。目前大部分车道线检测网络主要是从基于单帧图像的语义分割网络发展而来。Badrinarayanan等(见Badrinarayanan V,Kendall A,Cipolla R.SEGNET:A DeepConvolutional Encoder-Decoder Architecture for Image Segmentation[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.)提出的经典的分割网络模型SegNet,采用了对称式的网络结构,通过特殊设计的池化索引记录池化值在特征图中的位置索引,并在上采样时将该值直接赋给相应的位置,从而恢复图像分割信息。Ronneberger等(见Ronneberger O,Fischer P,Brox T.U-net:Convolutional Networks for Biomedical Image segmentation[C].//InternationalConference on Medical Image Computing and Computer-assistedIntervention.Berlin,Germany:Springer,2015:234-241.)提出的网络模型UNet,加入了反卷积与横向连接,使得上采样操作变得可学习,同时上采样网络通过融合高层特征来还原细节信息,使得预测结果更加平滑。
除了传统的语义分割网络外,现有网络也会依据车道线特征进行结构设计。Neven等(见Neven D,Brabandere B D,Georgoulis S,et al.Towards End-to-End LaneDetection:an Instance Segmentation Approach[C].//IEEE Intelligent VehiclesSymposium.Washington,USA:IEEE,2018:286-291.)提出了多任务网络模型LaneNet,利用车道线具有多车道实例的特征,将车道线检测看作实例分割问题,额外增加了一个实例分割网络分支,将所有车道线像素区域分割成不同的车道线实例。Lee等(见Lee S,Kim J,Shin Yoon J,et al.Vpgnet:Vanishing Point Guided Network for Lane and RoadMarking Detection and Recognition[C].//IEEE International Conference onComputer Vision.Washington,USA:IEEE,2017:1947-1955)提出了一种基于消失点原理和端到端的多任务神经网络模型VPGNet,能够同时处理车道线和道路标记,并利用消失点提供的全局信息来提高在复杂天气环境下的检测精度。申请号为201910132608.2的专利公开了一种利用生成对抗网络的车道线检测方法,该方法利用生成网络生成高分辨率的车道线图像,以此来优化判别网络的数据分布情况,从而提高车道线检测效果。虽然上述网络已经可以有效检测车道线,但它们都仅使用当前时刻图像来检测车道线,忽略了过去时序上的车道线特征,这使得在诸如在一些突发车道遮挡、视角变换、地面光线明暗变化的场景下,由于缺乏时域上下文的信息,存在检测准确度不高的问题。
发明内容
为了解决现有车道线检测方法无法较好的处理车道线短时遮挡、地面明暗变换等复杂的实际应用场景,本发明提供了一种基于图像序列的车道线检测方法,具体步骤如下:
(1)搭建车道线并行检测网络
所搭建的车道线并行检测网络由两个网络模块构成:单帧网络和多帧网络,其中多帧网络用于提取多帧时序图像中的时域特征,单帧网络基于编码-解码模型,用于提取当前时刻图像的全局语义特征。车道线并行检测网络的具体搭建步骤如下:
(1-1)多帧网络搭建
多帧网络以包括当前帧在内的过去时刻的多帧图像作为网络输入,并依靠一个轻量级的骨架网络提取目标特征,以降低多帧网络所带来的计算复杂度。针对每张图像所提取特征的融合问题,采用ConvLSTM门机制对多帧图像中按时序变化的目标特征信息和环境上下文信息进行融合提取。因此,所搭建的多帧网络由多帧特征提取骨架网络、多帧特征融合模块组成,具体结构如下:
(1-1-1)多帧特征提取骨架网络
为减少引入多帧网络所带来的计算量,并拥有可观的网络性能,在分析现有轻量级神经网络后,本发明选取ESPNetV2的骨架网络作为多帧网络的骨架网络。该网络相较于ICNet、ERFNet和MobileNetV2等轻量级网络的FLOPs要低9~12倍,而准确率仅仅下降了2~4%。ESPNetV2网络作为ESPNet网络的改进网络,进一步优化了ESPNet的卷积方式,通过逐点群卷积和空洞深度可分离卷积减少了网络的训练参数量,同时保持原有类似于空间金字塔的网络结构,提出了新的基础网络模块(EESP)。EESP模块主要基于分组卷积原理和空间金字塔理论,首先通过逐点分组卷积对输入特征进行降维,然后使用不同尺度的卷积核对低维特征进行深度可分离卷积运算,最后采用逐元素求和的方式将特征拼接融合。该模块融合不同感受野下的局部和全局特征信息,扩大整个网络的信息接收域,有效提升了检测效果。
ESPNetV2骨架网络基于EESP网络模块构建,在经过初始的3×3卷积之后,按特征图尺寸可将ESPNetV2骨架网络结构划分为四部分空间结构,每部分结构都采用一个或多个EESP网络模块。在分析ESPNetV2原网络结构后,发现其第二部分空间结构和第三部分空间结构对同一尺度运用了多个EESP模块,而大量重复的卷积操作会重复性地提取特征信息,会造成一定的信息冗余。因此本发明进一步减少了ESPNetV2骨架网络中第二部分空间结构和第三部分空间结构的EESP模块数量,最终分别采用了2和4个EESP模块数量,有效减少了多帧网络的计算量,而保持第一部分空间结构和第四部分空间结构的EESP模块数量不变。
依据网络结构,多帧特征提取骨架网络会传入4张时序图像进行特征提取,分别将这4张时序图像定义为Xt、Xt-1、Xt-2、Xt-3。其中,Xt代表了当前时刻t的当前帧图像,Xt-1、Xt-2、Xt-3则代表过去具有相同间隔的过去帧图像。当时序图像经过特征提取后,最终会得到A1、A2、A3、A4四个特征图。
(1-1-2)多帧特征融合模块
(1-1-1)当通过多帧网络获得特征序列时,如何从特征序列中提取出时域变化的目标特征信息,对变化不大的背景特征有效的忽略,即如何有选择性的抽象特征对分割目标来说十分重要。为此,通过研究RNN的特点,本发明采用经典的ConvLSTM网络模块作为多帧特征融合模块,来选择性的获取目标特征信息,融合经过多帧特征提取骨架网络提取的多帧特征。ConvLSTM作为一个特殊形式的RNN,利用3种不同的门函数来提取长时特征、控制信息的保留程度,分别为控制新信息加入的输入门,控制信息通过的遗忘门以及决定信息输出的输出门。通过ConvLSTM网络模块来处理多帧特征序列,即经过多帧特征提取骨架网络提取特征所得到的四张特征图,可以提取多帧特征序列中依时域变化的目标特征信息,同时遗忘不重要的特征信息,最终得到多帧特征A5。
(1-2)单帧网络搭建
单帧网络需要选取相比于多帧网络更复杂的骨架网络。这是由于在现实情况中,当前时刻的图像帧相比于过去其他时刻的图像帧,包含了更为准确的语义信息,而高复杂度的网络结构往往具有对语义信息更强的泛化学习能力和表征能力,因此单帧网络采用了更复杂的网络结构和更深的网络层次以学习到更高层的抽象特征,并通过金字塔模块结构整合不同尺寸的特征信息,从而得到单帧特征。为将单帧网络与多帧网络的特征信息进行融合,还需要使用一个单帧和多帧特征融合模块,使单帧特征能够融合完整的多帧时域特征,从而弥补单帧特征在时域信息上的缺失,并且单帧特征在融合特征中将占据更多的特征维度,确保了单帧特征能够作为融合特征中的主导特征。该融合特征将通过上采样网络输出最终融合特征图。因此,本发明中单帧网络的主要结构分为单帧特征提取骨架网络、单帧特征与多帧特征融合模块、上采样网络,具体结构如下:
(1-2-1)单帧特征提取骨架网络
单帧特征提取骨架网络选用基于VGG16的衍生版本VGG16-BN,并在其基础上去除原先网络的全连接层,仅保留其的卷积结构。VGG16-BN沿用了VGG16中的13个卷积层和3个全连接层作为基础网络结构,同时在每一个卷积层后加入了批量归一化层(BN层)。加入BN层可以改善每层数据经过线性变换之后的数据分布情况,在一定程度上避免了过拟合现象,改善了梯度传播以及增加了网络对于高学习率的容忍度,从而提高网络的训练速度。
由于不同骨架网络的输出特征图的通道数有所不同,为了保持单帧网络的输出特征图与多帧网络的输出特征图有相同尺度以及等比的通道数,同时强化单帧特征在不同尺度下的特征信息,本发明在单帧特征提取骨架网络之后额外增加了一个多尺度特征增强结构SPP,通过在3个不同尺度上对特征信息进行增强。使用该增强结构后,每个空间位置能在不同尺度空间查看局部环境,进一步扩大整个网络的信息接收域,从而提升车道检测效果。
当前帧图像Xt会经过VGG16-BN卷积层,通过13个带有BN层的3×3卷积核进行特征提取,从而得到输出特征图B1,之后该特征图会传入多尺度特征增强结构SPP以融合多尺度特征,采用1×1、3×3、5×5三种不同卷积核对其进行特征提取,接着在池化层后设置激活层,使用ReLu为激活函数,最后采用级联的方式使上述得到的三种特征图合并重组,得到最终的单帧特征B2。
(1-2-2)单帧特征与多帧特征融合模块
为了有效的融合通过并行网络提取得到的单帧特征与多帧特征,本发明的单帧特征与多帧特征融合模块为ConvLSTM融合模块(CLF),该融合模块首先对多帧特征图A5进行上采样,使得到的特征图A6恢复到与单帧特征相同的尺寸大小;接着分别对单帧特征B2与经上采样的多帧特征A6使用一个1×1的卷积核以平滑特征;然后使用通道连接的方式将多帧特征A6与单帧特征B2融合,得到融合特征C1,其中单帧特征A6会在融合特征C1中占据更多的特征维度,使其作为主导特征;最后对融合特征使用一个非线性激活函数ReLU进行激活,减少参数之间的相互依存关系,得到的融合特征C2会被送入上采样网络中。
(1-2-3)上采样网络
上采样网络属于解码网络,利用底层特征通过上采样的方式恢复目标信息。本发明的上采样网络采用了与LaneNet相同的解码结构,该上采样网络由四个3×3的卷积层和一个上采样层组成,以4个3×3的卷积层用于恢复特征维度,以上采样层用于恢复特征尺度;上采样层通过双线性插值的上采样算法对采样后的特征图C2进行平滑处理,即进行四次上采样,每次上采样对输入的特征图尺寸放大两倍,最终融合特征图C2会被放大到与输入特征图相同尺寸,并以此特征映射作为结果特征输出。
(2)对车道线并行检测网络进行训练优化
本发明对步骤(1)所搭建的神经网络进行训练优化,具体步骤如下:
(2-1)多分辨率输入
为减少多帧网络因处理连续的多帧图像所增加的计算量,采用了多分辨率策略。由于图像输入分辨率的增长对于网络计算量的增长并不是等价的线性增长关系,而是按照指数的趋势增长,且网络层的通道数越多,计算量的增长幅度越大。此外,聚焦于车道线这类语义分割问题时,降低分辨率也能够使一些不重要的背景细节淡化,更凸显车道线与背景的差别。因此,本发明以高分辨率的单帧图像作为单帧网络的输入,以低分辨率的连续图像作为多帧网络的输入;所述高分辨率的单帧图像具体尺寸记为w×h,其中w为水平像素个数,h为竖直像素个数,数据集图像缩放到高分辨率之后作为单帧网络的输入,所述的低分辨率的连续图像的尺寸为(w/2)×(h/2),其水平和竖直方向像素个数都为高分辨率的一半,数据集图像缩放到低分辨率之后作为多帧网络的输入;w的取值范围为[320,1280],h的取值范围为[180,720]。
(2-2)模型训练策略
本发明的并行网络结构确立之后,设计一个合理的训练策略也是神经网络训练的一个关键环节。本发明的模型训练策略主要针对网络参数初始化策略、参数优化策略以及损失函数展开,具体的步骤如下:
(2-2-1)针对网络参数初始化问题,由于本发明网络采用了并行网络结构设计,在初始化参数策略上也会有所不同:对于单帧网络的骨架网络,采用了该网络模型在ImageNet数据集中的预训练参数进行参数初始化;对于多帧网络中的卷积层,采用kaiming正态分布初始化算法对卷积层权值参数进行初始化,对多帧网络结构中的BN层,将权重值和偏置值分别使用固定1填充和固定0填充。
(2-2-2)针对网络的优化算法和学习率调整策略,本发明采用随机梯度下降算法作为优化策略,学习率策略选择Poly作为调整学习率的方式,学习率初始值的取值范围为[0.001,0.05]。
(2-2-3)最后考虑损失函数,本发明采用加权交叉熵损失函数。这是由于未加权的交叉熵损失函数会对计算每个像素的损失值,但是在实际图像中,背景像素远远多于车道线像素,这会导致在学习过程中类别不均衡的问题,使得最终的损失值是由背景这一类别主导;因此,通过对背景类的损失值乘上一个较小权重值,便可以极大的减少背景类对于损失值的影响,反之对目标类乘上一个较大权重值,进而增加目标类被学习的概率,最终实现车道线与背景的分离;背景类的加权值取值范围为[0.01,0.05],车道线的加权值取值范围为[1.0,1.2]。
(3)完成对车道线并行检测网络的训练
经过步骤(1)、步骤(2)建好神经网络之后,需要构建一个图像序列数据集来完成对神经网络的训练;为此,本发明会构建多组包含时序关联的车道线图像序列数据集。首先获取基于车道线视频片段采样的多组序列图像,每组序列图像包含了一秒之内采集的N张连续帧图像,并对最后的第N帧图像标记了真实车道线标签;然后依据本发明的网络结构,针对每组序列图像,以最后的第N帧图像作为采样的结尾帧,使用不同的间隔对这N张连续帧图像采样4张图像,采样间隔分别选取1、2、3、4、5,并结合标签图像组合成一组图像序列数据,以此构成最终的训练和测试数据集,其中N的范围是[20,30]。通过将训练数据传输到网络模型,便可完成网络的训练。
(4)使用训练好的车道线并行检测网络对输入图像进行检测
使用步骤(3)中训练好的神经网络对输入图像进行检测,输出车道线分割图像。
本发明的技术构思为:在基于原有的单帧网络的基础上增加了并行的多帧图像提取网络,通过并行结构设计,并赋予单帧网络与多帧网络不同的信息流,使多帧网络能够学习到多帧时域特征,单帧网络能够学习到单帧图像中的空域语义特征,不仅能够更全面的表达车道线信息,而却相对独立的并行网络结构也方便进行针对性的结构调优;在多帧网络中,利用RNN模块对包含当前帧以及过去多帧图像序列进行时域特征、环境上下文特征的提取和融合,不仅有效弥补了单帧网络对于时域上下文信息的缺失,也辅助增强了车道线语义信息;特征融合模块有效地使多帧网络提取的多帧时域特征与单帧网络提取的全局语义特征进行融合,通过通道连接的方式,使单帧特征能够有效融合全部的多帧时域信息,从而让融合特征同时具备表征空域和时域信息的能力。与现有技术相比,本方法对于车道线短时遮挡、光线明暗变换的复杂场景,也能检测出精确的车道线区域。
附图说明
图1为本发明的内容框图。
图2为车道线并行检测网络结构。
图3为高效金字塔模块EESP。
图4为单帧特征与多帧特征融合模块CLF。
图5为本发明网络与独立的单帧网络和多帧网络采样对比图,其中图(a)为原图,(b)为多帧网络效果图,(c)为单帧网络效果图,(d)为本发明网络效果图,(e)为标签图像。
图6为本发明网络对于各种车道线情况的检测效果图。
具体实施方式
下面结合实施例和附图来详细描述本发明,但本发明并不仅限于此。
本发明方法选用运行的计算机硬件配置为Intel(R)Xeon(R)E5-2678CPU@2.50GHz,GPU为GeForce GTX TITAN Xp,显存为12GB,内存为16GB;软件环境为64位的Ubuntu 16.04系统,并基于PyTorch0.4.1实现。车道线检测模型的检测指标主要包括:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1度量(F1-Measure)和帧率(FPS)。
如图1所示,一种基于图像的车道线检测方法,包括以下四个部分:
(1)搭建车道线并行检测神经网络:
(2)车道线检测神经网络的训练优化;
(3)完成对神经网络的训练;
(4)使用训练好的神经网络对输入图像进行检测。
第一部分搭建车道线并行检测网络具体包括:
(1-1)构建多帧网络
多帧网络由多帧特征提取骨架网络和多帧特征融合模块两部分组成
(1-1-1)多帧特征提取骨架网络采用ESPNetV2的骨架网络进行构建,其中的EESP网络模块如图3所示,每个模块先通过一个3×3的分组卷积核进行处理,然后使用不同尺度的空洞卷积核对低维特征进行深度可分离卷积运算,空洞卷积核尺度的大小范围为[1,8],之后通过逐元素求和以及通道连接的方式融合不同感受野下的局部和全局特征信息,最后通过一个1×1的分组卷积核输出该模块的特征图。ESPNetV2原始的骨架网络结构在经过初始的3×3卷积之后,按特征图尺寸可被划分为4部分空间结构,每部分空间结构都采用一个或多个EESP网络模块。为有效减少多帧网络的计算量,减少了ESPNetV2原骨架网络中第二部分空间结构和第三部分空间结构的EESP模块数量,最终分别采用了2和4个EESP模块数量,其它第一部分空间结构和第二部分空间结构保持不变。通过将4张时序图像Xt、Xt-1、Xt-2、Xt-3传入该骨架网络依次进行特征提取,最终得到A1、A2、A3、A4四个特征图。
(1-1-2)多帧特征融合模块采用ConvLSTM模块来融合经过骨架网络所提取的多帧特征,ConvLSTM通过遗忘门、输入门、输出门来控制信息的保留程度,并且在输入与状态和状态与状态的计算中采用卷积运算。ConvLSTM将LSTM中输入与状态的前向全连接计算更改为卷积运算,因此,ConvLSTM结合了LSTM和CNN,不仅具有时序建模能力,而且还能像CNN一样提取图像的局部特征。当前帧的信息通过ConvLSTM传递到下一帧,网络可以利用视频相邻帧之间的相关性,以此来提升车道线结果的准确度。对步骤(1-1-1)所得到的4个特征图通过ConvLSTM模块进行时序特征提取,最终得到多帧特征A5。
(1-2)构建单帧网络
单帧网络由单帧特征提取骨架网络、单帧特征与多帧特征融合模块和上采样网络三部分构成。
(1-2-1)单帧特征提取骨架网络基于VGG16-BN和SPP模块构成,VGG16-BN包含了13个卷积层和3个全连接层,每个卷积层会依次连接一个3×3的卷积核、BN层和ReLU激活函数层,同时在卷积层之间,保留了VGG16原有的4个下采样池化层对特征图进行下采样操作。本发明在其基础上去除原先网络的全连接层,仅保留其的卷积结构,当前帧图像Xt经过该从而得到输出特征图B1。该特征图会经过一个SPP模块以融合多尺度特征,通过采用1×1、3×3、5×5三种不同卷积核对其进行特征提取,接着在池化层后设置了激活层,选用ReLU为激活函数,最后采用级联的方式使上述得到三种特征图合并重组,得到单帧特征B2。
(1-2-2)单帧特征和多帧特征融合模块会对步骤(1-1-2)和步骤(1-2-1)所提取的多帧特征A5和单帧特征B2进行特征融合,模块结构图4所示,首先对多帧特征A5进行上采样,使得到的特征图A6恢复到与单帧特征相同的尺寸大小;接着分别对单帧特征A6与多帧特征B2使用一个1×1的卷积核以平滑特征;然后使用通道连接的方式使多帧特征A6与单帧特征B2融合,得到融合特征C1;最后对融合特征C1使用一个非线性激活函数ReLU进行激活,减少参数之间的相互依存关系,得到的融合特征C2。
(1-2-3)上采样网络属于解码网络,用于恢复融合特征C2所包含的信息,本发明的上采样网络包含了4个卷积层用于恢复特征维度,以及一个上采样层用于恢复特征尺度,采用双线性插值的上采样方法对融合模块输出的特征图C2进行四次上采样,每次上采样对输入的特征图尺寸放大两倍,最终融合特征图C2会被放大到与输入特征图相同尺寸,并以此特征映射作为结果特征输出。
第二部分车道线检测网络的训练优化具体包括:
本发明对第一部分所搭建的神经网络进行训练优化,包括多分辨率输入以及模型训练策略。
(2-1)多分辨率输入
本发明为了减少因引入多帧网络而增加的网络计算量,采用了多分辨率策略,数据集图像经过缩放,以尺寸为(w/2)×(h/2)的低分辨率的连续图像作为多帧网络的输入,以尺寸为w×h的高分辨率的单帧图像作为单帧网络的输入;w的取值范围为[320,1280],此处取640,h的取值范围为[180,720],此处取360。
(2-2)模型训练策略
模型训练策略主要针对网络参数初始化策略、参数优化策略以及损失函数展开。
(2-2-1)网络参数初始化策略针对单帧网络和多帧网络会采用不同的初始化方法,对于单帧网络的骨架网络,采用了该网络模型在ImageNet数据集中的预训练参数进行参数初始化。对于多帧网络中的卷积层,采用kaiming正态分布初始化算法对卷积层权值参数进行初始化。多帧网络结构中的BN层,对权重值和偏置值分别使用固定1填充和固定0填充。
(2-2-2)参数优化策略采用随机梯度下降算法作为优化算法,并设置初始学习率的取值范围为[0.001,0.05],此处取0.01,权值衰减为5e-5,动量参数为0.9。学习率策略选择Poly函数作为调整学习率的方式。
(2-2-3)损失函数采用的是加权交叉熵损失函数,通过设置不同类别对于总损失的加权值,可以有效的减少背景类对于总损失的影响,进而增大目标类被学习的概率。最终背景类加权值的取值范围为[0.01,0.05],此处取0.02,车道线加权值的取值范围为[1.0,1.2],此处取1.02。
第三部分完成对神经网络的训练具体包括:
经过第一部分和第二部分,需要构建一个基于图像序列的车道线数据集。为此,本发明以TuSimple车道线数据集为基础,并对该数据进行相应的序列化操作。TuSimple数据包含了6570组车道线图像序列,每组图像序列包含了20张连续帧图像和一张标签图像。由于本发明网络仅需要4张序列图像作为网络的输入,因此针对每组序列图像,使用不同采样间隔对这20张连续帧图像进行采样,采样间隔分别选取1、2、3、4、5,以此模拟出不同车速下的摄像头所采集的道路图像。最终构建了包括51260组图像序列的训练集,12820组图像序列的测试集。之后在已配置好的计算机平台上完成对神经网络的训练。
第四部分使用训练好的神经网络对输入图像进行检测具体包括:
使用第三部分训练好的神经网络模型对输入图像序列进行检测,输出当前时刻的车道线分割图像。图5为本发明方法、仅使用多帧网络与仅使用单帧网络的检测结果对比图,其中图5(a)为待检测图像、图5(b)为多帧网路检测结果、图5(c)为单帧网络检测结果、图5(d)为本发明检测结果、图5(e)为图5(a)的真值图。本发明的检测结果更接近真实值,主观说明本发明的并行网络在单帧网络的基础上,增加了多帧网络模块,不仅加强了单帧网络对于复杂场景的泛化学习能力和表征能力,而且融合多帧网络所赋予的时域上下文特征,使得本发明的并行网络能够在短时遮挡的情况下,依然可以依据RNN特征得到被遮挡的车道线特征。图6则为本发明的车道线检测网络在各个车道线环境中的检测效果图,其中图6(a)为待检测图像、图6(b)为多帧网路检测结果、图6(c)为真值图。如图所示,无论是在无遮挡的车道线场景,还是存在车道线遮挡以及光线明暗变换的场景下,本发明的网络都能够有效的检测出车道线。
Claims (10)
1.一种基于图像序列的车道线检测方法,其特征在于:所述方法包括以下步骤:
步骤1:搭建车道线并行检测网络;所述车道线并行检测网络包括:一多帧网络,用于提取多帧时序图像中的时域特征;
一单帧网络,基于编码-解码模型,用于提取当前时刻图像的全局语义特征;
步骤2:对车道线并行检测网络进行训练优化;
步骤3:完成对车道线并行检测网络的训练;
步骤4:使用训练好的车道线并行检测网络对输入图像进行检测,输出车道线分割图像。
2.根据权利要求1所述的一种基于图像序列的车道线检测方法,其特征在于:所述步骤1中,多帧网络包括多帧特征提取骨架网络和多帧特征融合模块。
3.根据权利要求2所述的一种基于图像序列的车道线检测方法,其特征在于:所述多帧特征提取骨架网络的构建采用ESPNetV2的骨架网络,在经过初始的3×3卷积之后,按特征图尺寸将ESPNetV2骨架网络结构划分为四部分空间结构,减少第二部分空间结构和第三部分空间结构的EESP模块数量为2个和4个;
通过该骨架网络对传入的4张时序图像Xt、Xt-1、Xt-2、Xt-3进行特征提取,最终得到对应的四张特征图A1、A2、A3、A4。
4.根据权利要求2或3所述的一种基于图像序列的车道线检测方法,其特征在于:所述多帧特征融合模块采用ConvLSTM模块融合经过多帧特征提取骨架网络提取的多帧特征;ConvLSTM通过遗忘门、输入门、输出门控制信息的保留程度,将经过多帧特征提取骨架网络提取特征所得到的四张特征图经过ConvLSTM模块进行时序特征提取,得到多帧特征A5。
5.根据权利要求4所述的一种基于图像序列的车道线检测方法,其特征在于:所述步骤1中,单帧网络包括单帧特征提取骨架网络、单帧特征与多帧特征融合模块、上采样网络。
6.根据权利要求5所述的一种基于图像序列的车道线检测方法,其特征在于:所述单帧特征提取骨架网络基于VGG16-BN和SPP模块构建;
VGG16-BN仅保留原网络的卷积层,当前帧图像Xt通过13个带有BN层的3×3卷积核进行特征提取,得到输出特征图B1;
输出特征图B1经过一个SPP模块融合多尺度特征,采用1×1、3×3、5×5三种不同卷积核对其进行特征提取,接着在池化层后设置激活层,使用ReLu为激活函数,最后采用级联的方式使上述得到的三种特征图合并重组,得到单帧特征B2。
7.根据权利要求6所述的一种基于图像序列的车道线检测方法,其特征在于:所述单帧特征和多帧特征融合模块对提取的多帧特征A5和单帧特征B2进行特征融合:
对多帧特征A5进行上采样,使得到的特征图A6恢复到与单帧特征相同的尺寸大小;分别对多帧特征A6与单帧特征B2以一个1×1的卷积核平滑特征;使用通道连接的方式将多帧特征A6与单帧特征B2进行融合,得到融合特征C1;对融合特征C1使用一个非线性激活函数ReLU进行激活,减少参数之间的相互依存关系,得到融合特征C2。
8.根据权利要求7所述的一种基于图像序列的车道线检测方法,其特征在于:所述上采样网络采用与LaneNet相同的解码结构,通过使用4个3×3的卷积层用于恢复特征维度,以及一个上采样层用于恢复特征尺度,采用双线性插值的上采样方法对融合模块输出的特征图C2进行四次上采样,每次上采样对输入的特征图尺寸放大两倍,最终C2被放大到与输入特征图相同尺寸,并将此特征映射作为结果特征输出。
9.根据权利要求1所述的一种基于图像序列的车道线检测方法,其特征在于:所述步骤2中,优化包括多分辨率输入策略,以低分辨率的连续图像作为多帧网络的输入,以高分辨率的单帧图像作为单帧网络的输入;所述高分辨率的单帧图像的尺寸记为w×h,其中w为水平像素个数,h为竖直像素个数,数据集图像缩放到高分辨率之后作为单帧网络的输入,所述的低分辨率的连续图像的尺寸为(w/2)×(h/2),其水平和竖直方向像素个数都为高分辨率的一半,数据集图像缩放到低分辨率之后作为多帧网络的输入;w的取值范围为[320,1280],h的取值范围为[180,720]。
10.根据权利要求1或9所述的一种基于图像序列的车道线检测方法,其特征在于:所述步骤2中,优化还包括模型训练策略,所述模型训练策略包括网络参数初始化策略、参数优化策略以及损失函数设置;
网络参数初始化策略中,对单帧网络的骨架网络采用该网络模型在ImageNet数据集中的预训练参数进行参数初始化;对多帧网络中的卷积层,采用kaiming正态分布初始化算法对卷积层权值参数进行初始化,对多帧网络结构中的BN层,将权重值和偏置值分别使用固定1填充和固定0填充;
参数优化策略采用随机梯度下降算法作为优化算法,选择Poly函数作为调整学习率策略,学习率初始值的取值范围为[0.001,0.05];损失函数采用加权交叉熵损失函数,设置背景类对于总损失的加权值取值范围为[0.01,0.05],设置车道线对于总损失的加权值取值范围为[1.0,1.2]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475124.5A CN113255459B (zh) | 2021-04-29 | 2021-04-29 | 一种基于图像序列的车道线检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475124.5A CN113255459B (zh) | 2021-04-29 | 2021-04-29 | 一种基于图像序列的车道线检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255459A true CN113255459A (zh) | 2021-08-13 |
CN113255459B CN113255459B (zh) | 2024-03-22 |
Family
ID=77223323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110475124.5A Active CN113255459B (zh) | 2021-04-29 | 2021-04-29 | 一种基于图像序列的车道线检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255459B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113844448A (zh) * | 2021-09-18 | 2021-12-28 | 广东松科智能科技有限公司 | 基于深度强化学习的车道保持方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070127774A1 (en) * | 2005-06-24 | 2007-06-07 | Objectvideo, Inc. | Target detection and tracking from video streams |
CN110569704A (zh) * | 2019-05-11 | 2019-12-13 | 北京工业大学 | 一种基于立体视觉的多策略自适应车道线检测方法 |
CN111950467A (zh) * | 2020-08-14 | 2020-11-17 | 清华大学 | 基于注意力机制的融合网络车道线检测方法及终端设备 |
-
2021
- 2021-04-29 CN CN202110475124.5A patent/CN113255459B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070127774A1 (en) * | 2005-06-24 | 2007-06-07 | Objectvideo, Inc. | Target detection and tracking from video streams |
CN110569704A (zh) * | 2019-05-11 | 2019-12-13 | 北京工业大学 | 一种基于立体视觉的多策略自适应车道线检测方法 |
CN111950467A (zh) * | 2020-08-14 | 2020-11-17 | 清华大学 | 基于注意力机制的融合网络车道线检测方法及终端设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113844448A (zh) * | 2021-09-18 | 2021-12-28 | 广东松科智能科技有限公司 | 基于深度强化学习的车道保持方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113255459B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
Pohlen et al. | Full-resolution residual networks for semantic segmentation in street scenes | |
Kim et al. | Beyond classification: Directly training spiking neural networks for semantic segmentation | |
JP6861249B2 (ja) | 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法 | |
CN113902915B (zh) | 一种基于低光照复杂道路场景下的语义分割方法及系统 | |
EP3923233A1 (en) | Image denoising method and apparatus | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN113792641B (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN112258436B (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN111340844A (zh) | 基于自注意力机制的多尺度特征光流学习计算方法 | |
CN112529904B (zh) | 图像语义分割方法、装置、计算机可读存储介质和芯片 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN111382759B (zh) | 一种像素级分类方法、装置、设备及存储介质 | |
CN111652081A (zh) | 一种基于光流特征融合的视频语义分割方法 | |
CN111079507B (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
CN113837938A (zh) | 基于动态视觉传感器重建潜在图像的超分辨率方法 | |
CN112489050A (zh) | 一种基于特征迁移的半监督实例分割算法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN116071748A (zh) | 一种基于频域全局滤波的无监督视频目标分割方法 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
Tomar et al. | Hybrid transformer based feature fusion for self-supervised monocular depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |