CN113095164A

CN113095164A - 基于强化学习和标志点表征的车道线检测定位方法

Info

Publication number: CN113095164A
Application number: CN202110317140.1A
Authority: CN
Inventors: 李学龙; 王�琦; 赵致远
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-09

Abstract

本发明提供了一种基于强化学习和标志点表征的车道线检测定位方法。首先，利用Faster RCNN神经网络检测得到车道线边界框，并基于边界框定义车道线类别，使用特定数量的标志点来进一步描述边界框内的车道线形状特征，并使用初步检测出的边界框来初始化所有的标志点；然后，使用基于深度强化学习的车道线标志点定位模块依据当前场景的实时状况来逐个移动初始化的标志点，直至系统判定所有标志点都被移动到合适的位置，得到最终的车道线检测定位结果。本发明能够兼顾检测结果的精准度与检测方法的复杂度，达到计算量与表征精度的平衡，有效提升车道线检测的精度和效率。

Description

基于强化学习和标志点表征的车道线检测定位方法

技术领域

本发明属智能驾驶与智慧城市技术领域，具体涉及一种基于强化学习和标志点表征的车道线检测定位方法。

背景技术

文献“基于卷积神经网络的车道线实例分割算法，激光与光电子学进展，2020”公开发表了一种基于卷积神经网络实例分割的车道线检测方法。该方法针对复杂车道线实例与车辆行驶环境提出一种三分支车道线实例分割算法，该算法使用基于三分视野法的Tversky损失函数来训练实例分割神经网络，对神经网络输出的分割结果进行自适应的聚类，拟合不同的车道线实例。在TuSimple车道线检测数据集上的测试表明文中提出的方法提升了车道线检测的精度，缓解了数据不平衡和复杂场景带来的检测难度。但是文献所提出的方法参数量大，计算复杂度高，此类基于分割的车道线检测方法使用像素级图像掩码表征车道线，依赖于冗余的计算过程和结果输出，降低了车道线检测的效率，不利于智能驾驶技术的进一步发展。

文献“Robust lane detection and tracking in challenging scenarios[J]，IEEE Transactions on Intelligent Transportation Systems,2008,9(1):16-26”提出使用诸如直线和边界框等较为简洁的方式来表征车道线。这种简洁的车道线表征方式降低了相应检测方法的难度和计算复杂度，进而加快了车道线检测的速度，提升了算法的效率。但是也同时降低了相关方法输出结果的表征精度，进一步影响自动驾驶和智能交通算法的精准度，阻碍后续研究的进展。

发明内容

为了克服现有车道线检测方法无法平衡检测效率和检测精确度的不足，本发明提供一种基于强化学习和标志点表征的车道线检测定位方法。首先，利用Faster RCNN神经网络检测得到车道线边界框，并基于边界框定义车道线类别，使用特定数量的标志点来进一步描述边界框内的车道线形状特征，并使用初步检测出的边界框来初始化所有的标志点；然后，使用基于深度强化学习的车道线标志点定位模块依据当前场景的实时状况来逐个移动初始化的标志点，直至系统判定所有标志点都被移动到合适的位置，得到最终的车道线检测定位结果。本发明所构建的标志点表征车道线方式能够在不引入大量数据的情况下更好的表征相对复杂的曲线形状；所提出的基于强化学习的车道线检测定位方法与所构建的标志点表征方式紧密契合，能够兼顾检测结果的精准度与检测方法的复杂度，达到计算量与表征精度的平衡，有效提升车道线检测的精度和效率。

一种基于强化学习和标志点表征的车道线检测定位方法，其特征在于步骤如下：

步骤1：对于输入的交通场景图像集合，采用基于统计Z-score标准化方法对其中的交通场景图像进行归一化处理；

步骤2：以带有边界框标注的交通场景图像集为训练数据，对Faster RCNN神经网络模型进行训练；然后，将步骤1处理后的交通场景图像输入到训练好Faster RCNN神经网络，输出得到车道线检测结果，包括图像中所有的车道线边界框和其所属类别，其中，车道线类别包括2个类别，一类是斜率为正的车道线，在图像中表现为沿着边界框左下角到右上角的对角线，另一类是斜率为负的车道线，在图像中表现为沿着边界框左上角到右下角的对角线；

步骤3：对于步骤2得到的每个车道线边界框，首先将其从原图像中裁切出来并重置到[100,100,3]的大小，得到对应的彩色图像块，然后，使用N条水平分割线将其均匀分割为N+1个区域，并与边界框内的车道线相交产生N个点，以这N个点在边界框中的位置为该车道线的标志点正确位置；依据当前车道线边界框的斜率类型选取边界框对角线与N条水平分割线相交于N个点，以这N个点为当前车道线的初始化标志点，并以这N个点在边界框中的位置为标志点初始位置，其中，如果车道线斜率为正，则选取边界框从左下角到右上角的对角线，如果车道线斜率为负，则选取边界框从左上角到右下角的对角线；N的可取值范围为[3,8]；

步骤4：以带有车道线标志点标注的交通场景图像集为训练数据，对车道线标志点定位模块进行训练；所述的车道线标志点定位模块包含标志点状态计算模块、标志点状态更新模块、奖励值计算模块和动作决策模块，其中，标志点状态计算模块获取当前标志点状态表征，然后，将对应的状态表征输入到动作决策模块的决策网络内，获取相应的动作决策，接着，标志点状态更新模块依据决策网络输出的动作来操作当前标志点，更新其状态，重复上述过程，直至决策网络输出最终动作，此时的标志点视为完成了位置调整的标志点；

所述的标志点状态计算模块按下式计算当前标志点的状态S：

其中，ε(I_b)表示对彩色图像块I_b进行特征提取得到的结果，I_b为步骤3中从原图像中裁剪并重置大小后得到的车道线边界框对应的彩色图像块，x为当前标志点的位置横坐标，

为记录了当前标志点的前m步动作情况的历史动作向量，

表示向量运算中的拼接操作；m的可取值范围为[0,10]；

所述的标志点状态更新模块对当前标志点执行动作a，并按照

更新该标志点的状态，S′来表示更新后的标志点状态；所述的动作a包括判决动作和移动动作，判决动作包括删除动作和终止动作；其中，当标志点的当前位置超出了图像块的范围或其距离正确位置超过距离阈值D时，使用删除动作移除当前标志点，按照

得到当前标志点执行删除动作后的位置x′，

取值为-1，用于表示该标志点处于被删除的状态，D的可取值范围为50至100像素；当标志点到达合适的位置时，即标志点位置与正确位置距离在5像素内，使用终止动作终止当前标志点的移动过程，并保持当前标志点位置不变，即x′＝x；除上述两种情况外，标志点沿水平方向向左或向右移动指定像素值即为移动动作，当前标志点执行移动动作后的位置为

n为指定的像素值个数，可取值范围为1至10；

所述的奖励值计算模块计算当前采取动作的奖励值R_a(S,S′)，如果执行动作a后标志点被移出了图像块横坐标范围，或者错误地删除了应当保留的标志点，或者错误地保留了应该删除的标志点，则令奖励值R_a(S,S′)＝-5；如果动作a为移动动作，则令奖励值

其中，d(S′)为状态更新后的当前标志点位置与正确标志点位置间的距离，d(S)为状态更新前的当前标志点位置与正确标志点位置间的距离；如果动作a为终止动作，则令奖励值

所述的动作决策模块使用三层全连接神经网络作为决策神经网络，基于深度Q学习的强化学习策略，使用决策神经网络进行Q值表的存储，并依赖最新的Q值表做出标志点动作选择的决策；其中，在测试阶段决策神经网络接受当前标志点的状态S作为输入，输出建议的动作决策a，在决策神经网络参数学习的阶段，每次标志点执行动作后，首先按下式更新Q值：

其中，←表示更新操作，Q(S,a)表示在状态S中执行动作a的预期Q值，R表示通过奖励值计算模块计算得到的实际奖励值，δ为学习率，γ为衰减参数，学习率和衰减参数的取值范围均为[0,1]；

表示对于当前状态执行任意动作能够得到的最大Q值，

表示通过贝尔曼方程和贪心算法解出来的理想Q值；

再按照下式计算理想Q值和决策网络得到的预测Q值的均方损失MSE：

其中，K表示参与当前批次损失函数计算的数据总数，可取值范围为[1，1000]；

然后，通过梯度回传更新决策网络的参数，直至均方损失函数值收敛至低于设定的阈值或者训练的轮数超出预定的轮数，得到训练好的决策网络；阈值设定的范围为[0,10^-4]，训练轮数设定的范围为[50,1000]；

步骤5：对于步骤3中得到的每一个车道线初始化标志点，利用步骤4训练好的车道线标志点定位模块依据其状态在预定的动作类型中选取合适的动作逐步将标志点从初始位置移动到正确位置，所有完成位置调整后的车道线标志点即为车道线检测定位结果。

本发明的有益效果是：通过定义全新的车道线表征方式达到数据量和表征精度之间的平衡，使得在尽量少的运算下可以更精细的表征车道线位置形状信息，该表征方法能够极大地提升极少量数据表征方法对曲线形车道线的表征能力；通过基于Faster RCNN的目标检测算法和基于强化学习的标志点定位方法结合，形成二阶精准车道线检测定位框架，加以专为标志点表征设计的深度强化学习方法，能够保障方法具有较低的计算复杂度，同时能够具有较高的车道线定位精准度。

附图说明

图1是本发明的基于强化学习和标志点表征的车道线检测定位方法流程图；

图2是本发明的两类不同边界框和其标志点示意图；

图中，(a)-斜率为负的车道线的边界框与标志点，(b)-斜率为正的车道线的边界框与标志点。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

为了降低计算复杂度，并提升车道线检测结果的表征精度，本发明提出了一种基于强化学习和标志点表征的车道线检测定位方法，首先，设计了一种基于标志点的车道线表征方式，它以边界框表征方式为基础，使用指定数量的标志点来标记当前车道线在对应水平层级网格中的纵向位置；为了完成车道线的检测与定位工作，本发明还设计了串联的车道线检测器和车道线定位器模块，检测器模块接受完整的交通场景图像输入用于粗略的车道线检测，输出以边界框表征的检测结果，定位器模块使用初步的检测框结果来初始化全体标志点的位置，接着使用基于强化学习的方法来逐个移动所有标志点，直到系统认为移动到了正确的位置。通过两个模块的逐步细化检测定位过程，最终得到以标志点形式表征的车道线检测定位结果，以用于后续的自动驾驶、智能交通系统。由于采用了全新的标志点表征方式，而且两个模块分别针对车道线的检测和定位进行了训练与特定的算法模型设计，最终能够达到较好的车道线检测定位效果，提升了方法在复杂场景中的鲁棒性与表征精度。如图1所示，其具体实现过程如下：

1、交通场景图像预处理

在整个车道线检测定位方法的实现与应用过程中，为了保证方法的高效运行同时提升方法鲁棒性，减少复杂场景背景噪声信息的干扰，采用基于统计Z-score标准化方法对输入图像进行归一化处理。对于统计得到的三通道像素点值的均值μ、标准差σ和当前位置的像素点值x，通过如下公式计算得到新的归一化像素点值x^*：

完成归一化后的交通场景图像即可送入后续的步骤进行下一步的处理和应用。

2、车道线类别预定义与车道线边界框检测

基于边界框表征的车道线可以通过使用常见的通用目标检测方法进行检测，但是在此之前需要对检测目标也就是车道线进行类别上的划分以方便后续工作的进行。通过目标车道线的走向表型，即数学意义上的斜率，他们被严格的分为两类：1)斜率为正的车道线，在图像中表现为沿着边界框左下角到右上角的对角线；2)斜率为负的车道线，在图像中表现为沿着边界框左上角到右下角的对角线发展。

在拥有了车道线的类别预定义之后，车道线边界框检测算法需要在输入的图像中检测出所有的车道线边界框并给出相应的车道线类别预测。基于深度神经网络的FasterRCNN目标检测算法由特征提取模块、边界框提取模块、边界框池化模块和边界框回归与分类模块构成。具体来说，特征提取模块使用串联的VGG16作为骨干网络，抽取得到深度特征f_d。边界框提取模块由一个初步的卷积层和后续两个并联的卷积层构成，使用深度特征f_d作为输入，输出大小不一的边界框组{G_Bbox}。由于{G_Bbox}中包含的坐标信息是基于特征f_d定义的，因此需要通过边界框池化模块将{G_Bbox}中的坐标同实际输入图像中的坐标进行空间位置关系上的对齐，同时将特征区域降采样到统一的尺寸以方便后续全连接神经网络层的应用。最终，用于输出的边界框回归与分类部分由两个串联和后续两个并联的全连接神经网络构成，串联的部分用于特征的进一步抽取提炼，并联的部分则分别用于边界框精调的坐标输出和车道线类别的预测。在网络的训练阶段，通过输入的图像预测得到车道线边界框结果之后会进一步同实际的车道线边界框进行损失函数的计算，并通过SGD算法反向回传梯度来更新模型的参数，直到得到训练好的网络。

然后，将步骤1处理后的交通场景图像输入到训练好Faster RCNN神经网络，输出得到车道线检测结果，包括图像中所有的车道线边界框和其所属类别。

3、车道线标志点定义与初始化

对于步骤2得到的每个车道线边界框，首先将其从原图像中裁切出来并重置到[100,100,3]的大小，得到对应的彩色图像块，然后，使用N条水平分割线将其均匀分割为N+1个区域，并与边界框内的车道线相交产生N个点，也就是最终想要得到的车道线标志点位置，以这N个点在边界框中的位置为该车道线的标志点正确位置。这里的N代表了标志点的数量，该数量可以依据实际的车道线状况进行改变，可取值范围为[3,8]，典型值为5。

对于斜率为正的车道线边界框，选取边界框从左下角到右上角的对角线与N条水平分割线相交于N个点，以这N个点为当前车道线的初始化标志点，并以这N个点在边界框中的位置为标志点初始位置；同理，对于斜率为负的车道线边界框，选取边界框从左上角到右下角的对角线与N条水平分割线相交于N个点，以这N个点为当前车道线的初始化标志点，并以这N个点在边界框中的位置为标志点初始位置。

后续处理将通过训练强化学习模型来自动地将所有标志点逐个从初始化的位置移动到正确的位置。

图2给出了本发明定义的两类不同边界框和其标志点示意图，其中，圆形代表预期标志点位置，加号代表初始化的标志点位置。

4、车道线标志点定位

为实现精准的车道线表征，本发明构建了基于深度强化学习的车道线标志点定位模块，包含标志点状态计算模块、标志点状态更新模块、奖励值计算模块和动作决策模块。对于车道线的每一个标志点，车道线标志点定位模块依据其状态在预定的动作类型中选取合适的动作逐步将标志点从初始位置移动到正确位置，即：对于输入的初始标志点，其使用标志点状态计算模块获取当前标志点状态表征；然后，将对应的状态表征输入到动作决策模块的决策网络内，获取相应的动作决策；接着，标志点状态更新模块依据决策网络输出的动作来操作当前标志点，更新其状态；重复上述“状态计算-动作决策获取-状态更新”过程，直至决策网络输出终止动作。最终输出的是完成了位置调整的标志点。

(1)标志点状态计算模块

标志点状态计算模块主要是获取标志点状态表征。具体来说按下式计算当前标志点的状态S：

为记录了当前标志点的前m步动作情况的历史动作向量，

表示向量运算中的拼接操作；m的可取值范围为[0,10]，典型值为4。

三个和标志点移动紧密相关的量拼接在一起即构成了当前的系统状态表征，进而决定后续的动作选择。

(2)标志点状态更新模块

车道线标志点移动系统做出的每一个动作选择需要被限制在预先设定好的动作空间范围内，依据系统的实际任务决定了标志点只能够进行水平方向上的移动，以及判决类型的动作。所有的动作被分为两大类：判决动作和移动动作，判决动作包括删除动作和终止动作。当标志点的当前位置超出了图像块的范围或其距离正确位置超过距离阈值D时，使用删除动作移除当前标志点，按照

得到当前标志点执行删除动作后的位置x′，

为取值为-1，用于表示该标志点处于被删除的状态，D的可取值范围为50至100像素；当标志点到达合适的位置时，即标志点位置与正确位置距离在5像素内，使用终止动作终止当前标志点的移动过程，并保持当前标志点位置不变，即x′＝x；除上述两种情况外，标志点沿水平方向向左或向右移动指定像素值即为移动动作，当前标志点执行移动动作后的位置为

n为指定的像素值个数，可取值范围为1至10。

对当前标志点，其执行动作a后(即判决或移动)，按照

更新该标志点的状态，S′来表示更新后的标志点状态。

(3)奖励值计算模块

在模型的训练学习过程中需要通过判断当前动作的合适与否来进行模型的训练与参数更新，因而需要通过一定的规则来衡量当前动作为最终目标带来的效益。奖励值计算模块通过观测经过执行动作a使得环境状态由S更新为S′后当前标志点位置与正确标志点位置间的距离d(S′)相比较于原本的距离d(S)的变化来计算对于当前采取动作的奖励值R_a(s,s′)。如果执行动作a后标志点被移出了图像块横坐标范围，或者错误地删除了应当保留的标志点，或者错误地保留了应该删除的标志点，这样的动作是被严格禁止和惩罚的，此时令奖励值R_a(s,s′)＝-5；如果动作a为移动动作，则令奖励值

即如果终止位置在预期点周边5个像素范围内，则认为是合理的终止动作，反之则被判定为不合理的终止动作。

(4)动作决策模块

动作决策模块使用三层全连接神经网络作为决策神经网络，基于深度Q学习的强化学习策略，使用决策神经网络进行Q值表的存储，并依赖最新的Q值表做出标志点动作选择的决策；其中，决策神经网络接受当前标志点的状态S作为输入，输出建议的动作决策a，在决策神经网络参数学习的阶段，每次标志点执行动作后，首先按下式更新Q值：

表示对于当前状态执行任意动作能够得到的最大Q值，

表示通过贝尔曼方程和贪心算法解出来的理想Q值；

为验证本发明方法的有效性，在

i7-6800K@3.4GHz CPU、64G内存、NVIDIA GTX 1080Ti GPU、Ubuntu 14.10环境下，基于TensorFlow和Pytorch框架进行的实验和仿真。实验中使用的数据集为TuSimple Lane Dataset，由TuSimple在“https://github.com/TuSimple/tusimple-benchmark/tree/master/doc/lane_detection”公开，包含了3626张训练图像和2782张测试图像。

由于本发明中所使用的表征方式与数据集提供的不一致，因此首先需要进行数据表征方式的转换，即通过预处理生成当前数据集中车道线的边界框表征方式和标志点表征方式的真实标签。然后，分阶段的进行边界框检测模块和标志点定位模块的训练。完成训练之后使用完整的模型流程在数据集的测试集部分上进行测试，并计算相应的命中率和平均步数。所述的命中率是指命中点与标志点数量之比，用来衡量标志点定位方法的准确率，其中，命中点是指在完成所有标志点的移动后，如果最终的标志点位置在预期位置5像素点范围内，这样的标志点即为命中点。平均步数是指整个测试过程中所使用的动作步数之和与标志点总数的比值，用来衡量方法的效率。

为了证明方法的有效性，选择了多种不同的边界框检测算法和强化学习车道线定位方法相结合同时作为对比算法。具体的边界框检测算法包括：Ren等人在文献“Faster r-cnn:Towards real-time object detection with region proposal networks[J],IEEETransactions on Pattern Analysis&Machine Intelligence,2017,39(6):1137-1149”中提出的Faster RCNN方法、Pan等人在文献“Spatial as deep:Spatial cnn for trafficscene understanding[C],AAAI Conference on Artificial Intelligence,2018”中提出的SCNN方法和Ko等人在文献“Key Points Estimation and Point InstanceSegmentation Approach for Lane Detection[J],arXiv preprint,2020,arXiv:2002.06604”中提出的PINet方法。对比结果如表1所示，可以看出，无论与哪种边界框检测方法相结合，本发明提出的方法都能够有效的提升车道线表征的精度，同时与初始精度越高的检测方法结合越能够在较少的步数内完成标志点的定位，总的来说，平均能够在不到两步的移动将标志点准确的移动到预期位置。

表1

方法	命中率(％)	平均步数
			Faster RCNN	71.85	-
SCNN	84.69	-
			PINet	86.09	-
本发明方法	86.96	1.8370