CN109204308B

CN109204308B - 车道保持算法的确定方法、车道保持的控制方法及系统

Info

Publication number: CN109204308B
Application number: CN201710534979.4A
Authority: CN
Inventors: 徐成; 邹清全; 刘奋; 吕成浩; 卢远志; �田润
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2020-04-07
Anticipated expiration: 2037-07-03
Also published as: CN109204308A

Abstract

本发明实施例提供一种车道保持算法的确定方法，包括：获得行车状态的车辆与车道中心线的距离、偏角以及车辆的道路图像、车辆车速；根据所述距离和偏角，确定行车状态的即时回报；以各状态的即时回报、车辆车速以及车辆的道路图像为样本参数集，基于卷积神经网络训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从车辆的道路图像序列提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数。该算法为深度增强学习的端到端车道保持算法，使用时的鲁棒性和舒适性强，可以基于好的驾驶习惯的数据样本进行训练，提高驾驶的舒适性和安全性。

Description

车道保持算法的确定方法、车道保持的控制方法及系统

技术领域

本发明涉及自动驾驶汽车领域，尤其涉及一种车道保持算法的确定方法、车道保持控制方法及系统。

背景技术

车道保持是自动驾驶汽车技术中的重点之一，其目的是在车道存在的城区或高速工况下，智能汽车能够保持在车道的中心自动驾驶，从而释放驾驶员的双手，同时保证汽车的安全行驶。

通常地，在车道保持的控制中，主要通过计算汽车的期望轨迹，控制汽车沿着车道行驶，或者通过对车辆偏离车道中心线的距离进行PID控制转向，使得车辆回到车道中心，这些方法都是以人为的控制策略出发，算法的鲁棒性和行驶中的舒适性欠缺。

发明内容

本发明提供了一种车道保持算法的确定方法、车道保持控制方法及系统，为深度增强学习的车道保持算法，鲁棒性和舒适性强。

本发明提供了一种车道保持算法的确定方法，包括：

获得行车状态的车辆与车道中心线的距离、偏角以及车辆的道路图像、车辆车速；

根据所述距离和偏角，确定行车状态的即时回报；

以各状态的即时回报、车辆车速以及车辆的道路图像为样本参数集，基于卷积神经网络训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从车辆的道路图像序列提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数。

可选地，所述获得行车状态的车辆与车道中心线的距离、偏角，包括：

获得行车状态的车辆两侧的环视图像，所述环视图像中包含有车道线；

根据所述环视图像，获得行车状态的车辆距离车道中心线的距离、偏角。

可选地，获得车辆的道路图像包括：

获得行车状态的车辆的前视图像，所述前视图像中包含车道线；

从所述前视图像中选取预定大小的图像，作为车辆的道路图像。

此外，本发明还提供一种车道保持的控制方法，其特征在于，包括：

获得行车状态的车辆的当前道路图像和当前车速；

通过上述的车道保持算法的确定方法中建立的动作值函数的深度强化学习网络，对所述当前道路图像进行图像特征展开，并在卷积的最后一层图像特征加入车辆车速，获得当前动作值函数；

确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值；

根据所述当前最佳动作值控制车辆转向。

一种车道保持算法的确定系统，包括：

车辆状态获取单元，用于获得行车状态的车辆与车道中心线的距离、偏角；

道路图像获取单元，用于获得行车状态的车辆的道路图像；

车速获取单元，用于获得行车状态的车辆车速；

即时回报确定单元，用于根据所述距离和偏角，确定行车状态的即时回报；

深度强化学习网络确定单元，用于以各状态的即时回报、车辆车速以及车辆的道路图像为样本参数集，基于卷积神经网络训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从所述车辆的道路图像提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数。

可选地，所述车辆状态获取单元包括：

环视图像获取单元，用于获得行车状态的车辆两侧的环视图像，所述环视图像中包含有车道线；

第一计算单元，用于根据所述环视图像，获得行车状态的车辆与车道中心线的距离、偏角。

可选地，所述道路图像获取单元包括：

前视图像获取单元，用于获得行车状态的车辆的前视图像，所述前视图像中包含车道线；

道路图像确定单元，用于从所述前视图像中选取预定大小的图像，作为车辆的道路图像。

可选地，还包括：

当前道路图像获取单元，用于获得行车状态的车辆的当前道路图像和当前车速；

第二计算单元，用于通过所述动作值函数的深度强化学习网络，对所述当前道路图像进行图像特征展开，并在卷积的最后一层图像特征加入车辆车速，获得当前动作值函数；以及确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值；

转向控制单元，用于根据所述当前最佳动作值控制车辆转向。

一种车道保持的控制系统，包括：

前视摄像头，设置于前挡风玻璃，用于获得车辆的道路图像；

后视摄像头，分别设置于车辆的两侧，用于获取车辆两侧的环视图像；

第一处理单元，用于接收所述道路图像和所述环视图像，以及采集车辆车速；

第二处理单元，用于根据车辆的环视图像确定车辆与车道中心线的距离、偏角，并根据所述距离和偏角，确定行车状态的即时回报；以及，深度强化学习网络确定单元，用于基于卷积神经网络和即时回报训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从所述车辆的道路图像提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数；

第三处理单元，用于通过所述动作值函数的深度强化学习网络，对所述当前道路图像进行图像特征展开，并在卷积的最后一层图像特征加入车辆车速，获得当前动作值函数；以及确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值；

控制单元，用于根据所述当前最佳动作值控制车辆转向。

本发明实施例提供的车道保持算法的确定方法、车道保持控制方法及系统，通过车辆距离车道中心线的距离、偏角，确定出该状态时的即时回报，并基于卷积神经网络和即时回报训练动作值函数，在训练时通过卷积神经网络从所述车辆的道路图像提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，从而获得动作值函数，在目标函数收敛后，则建立起动作值函数的深度强化学习网络，该深度强化学习网络的车道保持算法进一步用于车道保持的控制，该算法为深度增强学习的端到端车道保持算法，使用时的鲁棒性和舒适性强，可以基于好的驾驶习惯的数据样本进行训练，提高驾驶的舒适性和安全性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的车道保持算法的确定方法的流程示意图；

图2为根据本发明实施例的车道保持算法的确定方法中距离和偏角的示意图；

图3为根据本发明实施例的车道保持算法的确定方法中卷积神经网络训练过程的示意图；

图4根据本发明实施例的车道保持的控制方法的流程示意图；

图5为根据本发明实施例的车道保持算法的确定系统的结构示意图；

图6为根据本发明实施例的车道保持的控制系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提出了一种车道保持算法的确定方法，该算法以行车状态时车辆道路图像的数据作为训练样本，基于车辆距离车道中心线的距离和偏角构建即时回报，基于卷积神经网络进行样本训练，并在全连接层加入车辆车速，来获得动作值函数，在目标函数收敛时，确定出动作值函数的深度强化学习网络。为了更好地理解本发明实施例的技术方案和技术效果，以下将结合具体的实施例进行详细的说明。

参考图1所示，在步骤S01，获得行车状态的车辆距离车道中心线的距离、偏角以及车辆的道路图像、车辆车速。

车辆距离车道中心线的距离可以通过车辆两侧的环视图像获得，环视图像可以通过分别设置在左、右后视镜的摄像头获取，具体的，可以包括步骤：获得行车状态的车辆两侧的环视图像，所述环视图像中包含有车道线；根据所述环视图像，获得行车状态的车辆距离车道中心线的距离、偏角。

通过摄像头的安装位置和角度的设定，使得获得的环视图像中至少包含了左右车道线，从摄像头拍摄的视频中获得车辆处于一个状态时的环视图像，进而，可以根据摄像头标定参数以及安装角度的信息，计算出车辆质心与左、右车道线的距离以及车辆航向与车道中心线的偏角，进而获得辆距离车道中心线的距离l、偏角θ，参考图2所示，车辆与车道中心线的距离l，即车辆质心与车道中心线之间的距离，车辆与车道中心线的偏角θ，即车辆航向与车道中心线之间的夹角。

车辆的道路图像可以通过前视摄像头来获得，前视摄像头可以设置在车辆前挡风玻璃上，通常地，可以设置在前挡风玻璃的中心位置处，该道路图像是用于模型训练的样本数据，具体的，可以包括步骤：获得行车状态的车辆的前视图像，所述前视图像中包含车道线；从所述前视图像中选取预定大小的图像，作为车辆的道路图像。

前视摄像头获得车辆前方的道路视频，通过合理的设置摄像头的位置和角度，获得的视频中可以至少包含有车道线的信息，进而，从道路视频中可以截取车辆的前视图像，该前视图像是用于后续动作值函数的训练，需要从整张前视图像中选取预定大小的图像，作为车辆的道路图像，该道路图像将作为卷积神经网络训练的样本集，样本集为道路图像序列，道路图像序列可以选取当前时刻之前的多张道路图像。

车辆车速可以通过内部CAN总线，从车速采集单元或ECU(Electronic ControlUnit，电子控制单元)中获得。

在步骤S02，根据所述距离和偏角，确定行车状态的即时回报。

通过行车状态的车辆与车道中心线的距离l、偏角θ，可以确定出当前状态下的即时回报R(s)，在一个具体的实施例中，即时回报R(s)的表达式如下：

其中，l为车辆与车道中心线的距离、θ为车辆与车道中心线的夹角，w为车辆所在道路的宽度。

道路的宽度可以从图片中获取，而当道路的宽度为固定时，可以通过指定宽度参数来获得。

该即时回报用于训练动作值函数时作为目标函数中的即时回报。

在步骤S03，以各状态的即时回报、车辆车速以及车辆的道路图像为样本参数集，基于卷积神经网络训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从车辆的道路图像序列提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数。

在每一个行车状态下，对应一组样本参数，样本参数包括该行车状态下的即时回报以及车辆的道路图像、车辆车速的数据，通过采集行车状态下的样本参数，行车用于模型训练的样本参数集。

在获得用于训练的样本参数集之后，进行动作值函数的训练，在训练中，基于卷积神经网络进行训练，需要基于样本进行多次的迭代，每次迭代之后，根据梯度下降法，重新设置模型参数进行迭代，直到目标函数收敛，目标函数收敛之后，则确定了动作值函数的卷积神经网络，即建立了动作值函数的深度强化学习网络。在每一次迭代中，参考图3所示，以道路图像序列中的一个道路图像作为卷积神经网络的输入，设置卷积神经网络模型参数，模型参数包括网络层数、每一层卷积层的卷积核的大小和数量以及卷积核参数等，经过多次卷积和池化之后，提取出展开的图像特征，在卷积的最后一层图像特征S₁、S₂....S_m加入车辆车速v，从而获得动作值函数，每次迭代后，判断目标函数是否收敛，若收敛，则确定卷积神经网络的模型，若不收敛，则根据梯度下降法，重新设定模型参数，继续进行模型的训练。

在一个具体的实施例中，目标函数为：

其中，s为当前状态，a为当前动作，γ为学习率，s'为下一步状态，a’为下一步动作，R(s)为当前状态的即时回报。

动作值函数中的动作参数为一组离散的方向盘转角数值，代表方向盘转角的方向和度数。在一个具体的示例中，例如a＝{-5,-4,-3,-2,-1,0,1,2,3,4,5}，a＝-5表示方向盘向右转5度。γ为学习率，通常地，其取值范围为0～1。

在上述的模型训练收敛之后，可以确定出动作值函数的卷积神经网络的模型，也就是说确定了卷积神经网络的模型的参数，即建立了动作值函数的深度强化学习网络，之后，可以利用该深度强化学习网络进行车道保持的控制。

参考图4所示，进行车道保持的控制的方法包括：

在步骤S101，获得行车状态的车辆的当前道路图像和当前车速。

同上述步骤S01，可以通过前视摄像头获得行车时的道路视频，进而获得所需规格的当前道路图像，以作为深度强化学习网络的输入。

在步骤S102，通过上述方法中建立的动作值函数的深度强化学习网络，对所述当前道路图像进行图像特征展开，并在卷积的最后一层图像特征加入车辆车速，获得当前动作值函数。

通过上述训练好的深度强化学习网络，所述当前道路图像进行计算，也就是以当前道路图像为输入，通过上述的深度强化学习网络进行卷积，卷积的最后一层图像特征加入车辆车速，获得动作值函数q(s,a)。

在步骤S103，确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值。

动作值函数q(s,a)中包含了一系列转角，确定最佳动作值函数为：

进而，以最佳动作值函数为最大时的动作值作为最佳动作值，从而确定出最佳动作值为：

在步骤S104，根据所述当前最佳动作值控制车辆转向。

控制系统根据确定出的最佳动作值控制车辆的转向，从而达到车道保持的目的。该方法中，采用深度增强学习之后的模型进行车道保持动作的计算和控制，该算法深度增强学习的端到端车道保持算法，使用时的鲁棒性和舒适性强，可以基于好的驾驶习惯的数据样本进行训练，提高驾驶的舒适性和安全性。

以上对本发明实施例的车道保持算法的确定方法以及车道保持的控制方法进行了详细的描述。此外，本发明还提供了实现上述方法的系统。

参考图5所示，一种车道保持算法的确定系统，包括：

车辆状态获取单元200，用于获得行车状态的车辆与车道中心线的距离、偏角；

道路图像获取单元210，用于获得行车状态的车辆的道路图像；

车速获取单元220，用于获得行车状态的车辆车速；

即时回报确定单元230，用于根据所述距离和偏角，确定行车状态的即时回报；

深度强化学习网络确定单元240，用于以各状态的即时回报、车辆车速以及车辆的道路图像为样本参数集，基于卷积神经网络训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从所述车辆的道路图像提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数。

进一步地，所述车辆状态获取单元200包括：

进一步地，所述道路图像获取单元210包括：

进一步地，还包括：

当前道路图像获取单元，用于获得行车状态的车辆的当前道路图像；

第二计算单元，用于通过所述动作值函数的深度强化学习网络，对所述当前道路图像进行计算，获得当前动作值函数；以及确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值；

此外，本发明还提供了一种车道保持的控制系统，参考图6所示，包括：

前视摄像头300，设置于前挡风玻璃，用于获得车辆的道路图像；

后视摄像头310，分别设置于车辆的两侧，用于获取车辆两侧的环视图像；

第一处理单元320，用于接收所述道路图像和所述环视图像，以及采集车辆车速；

第二处理单元330，用于根据车辆的环视图像确定车辆与车道中心线的距离、偏角，并根据所述距离和偏角，确定行车状态的即时回报；以及，深度强化学习网络确定单元，用于基于卷积神经网络和即时回报训练动作值函数，直到目标函数收敛，以建立动作值函数的深度强化学习网络，其中，所述动作值函数的训练包括：通过卷积神经网络从所述车辆的道路图像提取展开的图像特征，并在卷积的最后一层图像特征加入车辆车速，以获得动作值函数。

第三处理单元340，用于通过所述动作值函数的深度强化学习网络，对当前道路图像进行计算，获得当前动作值函数；以及确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值；

控制单元350，用于根据所述当前最佳动作值控制车辆转向。

其中，第一处理单元和第三处理单元可以设置于车辆上，第一处理单元用于实时接收和传输来自于摄像头的数据，第三处理用于计算并输出最佳动作值，以用于车道保持的控制。第二处理单元可以设置于离线的服务器上，用于车道保持算法的模型的训练。更优选地，第一处理单元和第三处理单元可以由一个处理器单元来实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

Claims

1.一种车道保持算法的确定方法，其特征在于，包括：

根据所述距离和偏角，确定行车状态的即时回报；

2.根据权利要求1所述的确定方法，其特征在于，所述获得行车状态的车辆与车道中心线的距离、偏角，包括：

3.根据权利要求1所述的确定方法，其特征在于，获得车辆的道路图像包括：

4.一种车道保持的控制方法，其特征在于，包括：

获得行车状态的车辆的当前道路图像和当前车速；

通过如权利要求1-3中任一项的车道保持算法的确定方法中建立的动作值函数的深度强化学习网络，对所述当前道路图像进行图像特征展开，并在卷积的最后一层图像特征加入车辆车速，获得当前动作值函数；

根据所述当前最佳动作值控制车辆转向。

5.一种车道保持算法的确定系统，其特征在于，包括：

道路图像获取单元，用于获得行车状态的车辆的道路图像；

车速获取单元，用于获得行车状态的车辆车速；

6.根据权利要求5所述的系统，其特征在于，所述车辆状态获取单元包括：

7.根据权利要求5所述的系统，其特征在于，所述道路图像获取单元包括：

8.根据权利要求5-7中任一项所述的系统，其特征在于，还包括：

9.一种车道保持的控制系统，其特征在于，包括：

第三处理单元，用于通过所述动作值函数的深度强化学习网络，对当前道路图像进行图像特征展开，并在卷积的最后一层图像特征加入车辆车速，获得当前动作值函数；以及确定当前动作值函数的数值最大时所对应的方向转角为当前最佳动作值；

控制单元，用于根据所述当前最佳动作值控制车辆转向。