CN109466552B

CN109466552B - 智能驾驶车道保持方法及系统

Info

Publication number: CN109466552B
Application number: CN201811260601.0A
Authority: CN
Inventors: 赵冬斌; 李栋; 张启超; 陈亚冉; 朱圆恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2020-07-28
Anticipated expiration: 2038-10-26
Also published as: CN109466552A

Abstract

本发明涉及一种智能驾驶车道保持方法及系统，所述智能驾驶车道保持方法包括：获取驾驶员视角的当前前方图像；基于预设的驾驶图像感知模型，预测所述当前前方图像的车道特征；基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量；根据所述方向盘转角控制量，控制本车行驶在车道中央。本发明通过采用多任务学习网络构建所述驾驶图像感知模型，促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征，可提高车道特征预测的准确率；在方向盘转角控制量计算中，采用数据驱动的方法，不依赖于车辆模型，可提高方向盘转角控制量计算的准确性与鲁棒性。

Description

智能驾驶车道保持方法及系统

技术领域

本发明涉及智能驾驶技术领域，具体涉及一种智能驾驶车道保持方法及系统。

背景技术

车道保持系统作为先进驾驶辅助系统的一个重要部分，可以防止驾驶员因疲劳或走神而导致的交通事故。车道保持系统借助车载摄像头识别前方车道线，控制车辆行驶在当前车道内，在结构化道路的智能驾驶中扮演着重要角色。

现有的控制方法如线性二次规划器和模型预测控制等方法，其求解过程需要精确的车辆模型，而车辆模型由于系统的强非线性和强耦合性，难以被精确建模，这导致控制效果难以保证，难以取得驾驶员的充分信任。在车道保持系统中，基于图像的前方车道线识别主要用于确定本车在车道中的位置和姿态，采用基于深度学习方法如深度卷积神经网络的模型预测本车在当前车道的位置和姿态。

此外，由于环境因素，在光照条件较差的情况下，其预测准确率较低，容易对控制器的输入造成较大干扰，降低车道保持系统的安全性，同时对优化控制方法也提出了更高的要求。

发明内容

为了解决现有技术中的上述问题，即为了解决位置和姿态预测准确率和控制性能的问题，本发明提供了一种智能驾驶车道保持方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种智能驾驶车道保持方法，所述智能驾驶车道保持方法包括：

获取驾驶员视角的当前前方图像；

基于预设的驾驶图像感知模型，预测所述当前前方图像的车道特征；其中，所述预设的驾驶图像感知模型为基于深度卷积神经网络的多任务学习网络构建的预测模型；

基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量；所述预设的数据驱动车道保持模型为基于强化学习的动作网络和评价网络构建的控制模型；

根据所述方向盘转角控制量，控制本车行驶在车道中央。

可选的，所述车道特征包括本车在当前车道的位置，姿态和当前车道朝向类别；

其中，所述位置由本车与当前车道中心线的距离所表示，所述距离由本车与车道线的距离所确定；

所述姿态由本车偏航角确定，所述偏航角为本车前进方向与当前车道中心线切线方向的夹角；

所述车道朝向类别包括三个类别，具体为：左转车道，直行车道和右转车道。

可选的，所述智能驾驶车道保持方法还包括构建驾驶图像感知模型；

其中，所述构建驾驶图像感知模型，具体包括：

获取历史驾驶数据集；其中，所述历史驾驶数据集包括驾驶员视角的历史前方图像，本车与车道线的历史距离，本车的历史偏航角和当前车道的历史朝向类别；

根据本车与车道线的历史距离，本车的历史偏航角和当前车道的历史朝向类别，计算多任务学习网络损失函数；

根据多任务学习网络损失函数，训练基于深度卷积神经网络的多任务学习网络，获得驾驶图像感知模型。

可选的，所述基于深度卷积神经网络的多任务学习网络包括三个学习任务，具体为：本车与车道线距离的预测任务，本车偏航角的预测任务和当前车道朝向类别的分类任务。

可选的，所述基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量，具体包括：

根据所述数据驱动车道保持模型和状态，获得方向盘转角控制量；

所述状态由所述预测的本车在当前车道的位置，姿态和本车当前速度构成。

可选的，所述智能驾驶车道保持方法还包括构建数据驱动车道保持模型；

所述构建数据驱动车道保持模型，具体包括：

获取强化学习训练数据集；所述强化学习训练数据集包括当前状态，当前方向盘转角控制量，奖赏值和下一时刻状态；

根据确定策略梯度定理，计算动作网络的确定策略梯度；

根据状态动作值函数的预测值计算评价网络的损失函数；

根据确定策略梯度和评价网络的损失函数训练动作网络和评价网络，获得数据驱动车道保持模型。

可选的，所述动作网络以状态为输入，输出方向盘转角控制量；所述评价网络以状态和方向盘转角控制量为输入，输出评价所述方向盘转角控制量优劣程度的状态动作值函数。

可选的，通过智能驾驶仿真器的摄像头获取驾驶员视角的当前前方图像，其中，智能驾驶仿真器为带有传感器，通信协议接口和应用程序接口的仿真器。

可选的，所述传感器包括雷达、测速传感器、偏航角传感器、里程计、计时器和摄像头中至少一者，用于采集驾驶员视角的图像和标签数据；

所述通信协议接口用于将传感器采集的数据输出至应用程序接口，或接收来自应用程序接口的方向盘转角控制量；

所述应用程序接口用于接收传感器数据，并将所述传感器数据整合成选定的传感器数据输出，或接收来自强化学习动作网络的方向盘转角控制量，将方向盘转角控制量输入至通信协议接口。

为解决上述技术问题，本发明还提供了如下方案：

一种智能驾驶车道保持系统，所述智能驾驶车道保持系统包括：

获取单元，用于获取驾驶员视角的当前前方图像；

预测单元，用于基于预设的驾驶图像感知模型，预测所述当前前方图像中的车道特征；其中，所述预设的驾驶图像感知模型为基于深度卷积神经网络的多任务学习网络构建的预测模型；

计算单元，用于基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量；所述预设的数据驱动车道保持模型为基于强化学习的动作网络和评价网络构建的控制模型；

控制单元，用于根据所述方向盘转角控制量，控制本车行驶在车道中央。

根据本发明的实施例，本发明公开了以下技术效果：

本发明通过采用多任务学习网络构建所述驾驶图像感知模型，促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征，可提高车道特征预测的准确率；在方向盘转角控制量计算中，采用数据驱动的方法，不依赖于车辆模型，可提高方向盘转角控制量计算的准确性与鲁棒性。

附图说明

图1是本发明智能驾驶车道保持方法的流程图；

图2为基于深度卷积神经网络的多任务学习网络的网络结构示意图；

图3为强化学习奖赏值设置示意图；

图4为基于深度卷积神经网络的多任务学习网络的本车位置预测，姿态预测结果示意图；

图5为数据驱动车道保持模型训练过程累积奖赏值的变化结果示意图；

图6为本发明智能驾驶车道保持系统的模块结构示意图。

符号说明：

获取单元—1，预测单元—2，计算单元—3，控制单元—4。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种智能驾驶车道保持方法，通过采用多任务学习网络构建所述驾驶图像感知模型，促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征，可提高车道特征预测的准确率；在方向盘转角控制量计算中，采用数据驱动的方法，不依赖于车辆模型，可提高方向盘转角控制量计算的准确性与鲁棒性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明智能驾驶车道保持方法包括：

步骤100：获取驾驶员视角的当前前方图像；

步骤200：基于预设的驾驶图像感知模型，预测所述当前前方图像的车道特征。

其中，所述预设的驾驶图像感知模型为基于深度卷积神经网络的多任务学习网络构建的预测模型。

步骤300：基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量。

所述预设的数据驱动车道保持模型为基于强化学习的动作网络和评价网络构建的控制模型。

步骤400：根据所述方向盘转角控制量，控制本车行驶在车道中央。

其中，在步骤100中，通过智能驾驶仿真器的摄像头获取驾驶员视角的当前前方图像，其中，智能驾驶仿真器为基于TORCS开发的带有传感器，通信协议接口和应用程序接口的仿真器。

进一步地，所述传感器包括雷达、测速传感器、偏航角传感器、里程计、计时器和摄像头中至少一者，用于采集驾驶员视角的图像和标签数据。

所述通信协议接口用于将传感器采集的数据输出至应用程序接口，或接收来自应用程序接口的方向盘转角控制量。

可选的，所述车道特征包括本车在当前车道的位置，姿态和当前车道朝向类别。

其中，所述位置由本车与当前车道中心线的距离所表示，所述距离由本车与车道线的距离所确定。

所述姿态由本车偏航角确定，所述偏航角为本车前进方向与当前车道中心线切线方向的夹角。

为了提高所述车道特征的预测准确率，本发明基于深度卷积神经网络构建了多任务学习网络，将所述深度卷积神经网络的底层特征在多个学习任务间共享，使得多任务学习网络能够学习到对多个学习任务均很重要的共享特征，可提高多任务学习网络的泛化性能。

所述基于深度卷积神经网络的多任务学习网络由两部分组成，具体包括：特征提取层和任务分支层。

为了准确地根据所述驾驶员视角的前方图像预测本车位置和姿态，所述深度卷积神经网络需要准确地识别车道特征。鉴于此，引入辅助学习任务，即所述当前车道朝向类别分类任务。在该任务中，所述深度卷积神经网络需要提取车道的弯曲和变化等图像特征。在多任务学习网络中，底层网络权重共享，这些图像特征能够进一步促进车道线的识别，从而能够提高所述位置和姿态预测的准确率。

所述特征提取层用于接受图像输入，通过卷积层的堆叠提取不同等级的图像特征，通过全连接层将二维图像特征转化为一维特征，为所述任务分支层做好输入准备。

本实施例中，所述特征提取层共包含5个卷积层，3个最大值池化层和3个全连接层，如图2所示。所述第i个卷积层用Conv_i(k_h,k_w,s_conv,n)表示，k_h,k_w分别表示卷积核的高和宽，s_conv表示卷积核移动的步长，n表示所述卷积层的通道数。所述第i个最大值池化层用MaxPool_i(k_mp,s_mp)表示，k_mp表示最大值池化层的模板边长，s_mp表示最大值池化层的模板移动步长。所述第i个全连接层用FC_i(m)表示，m表示所述全连接层神经元数量。所述特征提取层的神经网络结构为：Conv₁(11,11,4,96)-MaxPool₁(3,2)-Conv₂(5,5,2,256)-MaxPool₂(3,2)-Conv₃(3,3,2,384)-Conv₄(3,3,2,384)-Conv₅(3,3,2,256)-MaxPool₃(3,2)-FC₁(4096)-FC₂(1024)-FC₃(256)。

所述卷积层和全连接层的激活函数为正则化线性激活函数，计算公式如下：

σ(x)＝max(0,x)------公式(1)。

对于所述特征提取层，为了防止其过拟合，采用在ImageNet数据集上预训练的AlexNet网络权重作为所述特征提取层的初始网络权重。

对于所述特征提取层，给定一个驾驶员视角的前方图像输入o，则所述特征提取层的输出为：

z＝f_fe(o；θ_fe)------公式(2)。

其中z表示所述特征提取层的特征向量，是一个256维的向量，f_fe(·；θ_fe)表示所述特征提取层的前向传播函数，θ_fe表示所述特征提取层的所有网络权重集合。

所述任务分支层用于接受所述特征提取层所提取的所述特征向量z，预测所述多个学习任务的输出，即输出所述本车与车道线的距离，所述本车偏航角和所述车道朝向类别。对于所述3个学习任务的任务分支层，分别采用距离输出层，夹角输出层和类别输出层表示。为了预测所述多个学习任务的输出，消去不同量纲带来的影响，距离输出层和夹角输出层的输出为归一化的数值，即输出结果在[0,1]范围内。

所述距离输出层用于输出本车与车道线的距离，具体包括2种情况。当本车行驶在当前车道内时，所述距离输出层预测本车与当前车道左右两侧车道线的距离，共2个输出量。当本车行驶在车道线上时，所述距离输出层预测本车与车身下方车道线距离以及与相邻车道的左右车道线距离，共3个输出量。根据几何关系，确定本车与当前车道中心线距离。因此，所述距离输出层的输出维度为5，采用全连接层构成，网络结构表示为FC_dist.(5)，网络权重表示为θ_dist.。由于需要将输出结果归一化到[0,1]范围内，所述距离输出层的激活函数采用sigmoid函数：

所述夹角输出层用于输出所述本车偏航角，输出维度是1，采用全连接层构成，网络结构表示为FC_angle(1)，网络权重表示为θ_angle，激活函数采用sigmoid函数，将输出结果归一化到[0,1]范围内。

所述类别输出层用于输出驾驶员视角的前方图像中的车道朝向类别，所述车道朝向类别共包含3个类别，具体为：左转车道，直行车道和右转车道。因此，所述类别输出层的输出维度是3，分别输出驾驶员视角的前方图像中车道属于所述3种类别的概率。采用全连接层构成，网络结构表示为FC_type(3)，网络权重表示为θ_type，激活函数采用softmax函数：

在步骤200之前，本发明智能驾驶车道保持方法还包括：

步骤100a：构建驾驶图像感知模型。

其中，所述构建驾驶图像感知模型，具体包括：

获取历史驾驶数据集。

其中，所述历史驾驶数据集包括驾驶员视角的历史前方图像，本车与车道线的历史距离，本车的历史偏航角和当前车道的历史朝向类别。

根据本车与车道线的历史距离，本车的历史偏航角和当前车道的历史朝向类别，计算多任务学习网络损失函数。

其中，所述基于深度卷积神经网络的多任务学习网络包括三个学习任务，具体为：本车与车道线距离的预测任务，本车偏航角的预测任务和当前车道朝向类别的分类任务。

本实施例中，多任务网络损失函数L_mtl为多个学习任务损失函数的加权和：

L_mtl＝α₁L_dist.+α₂L_angle+α₃L_type+Φ(θ_mtl)------公式(5)。

其中，所述L_dist.为本车与车道线距离预测的损失函数，所述L_angle为本车偏航角预测的损失函数，L_type为当前车道朝向类别预测的损失函数，所述

为输入的二范数正则化损失函数，所述θ_mtl＝[θ_fe,θ_dist.,θ_angle,θ_type]表示所述基于深度卷积神经网络的多任务学习网络的所有网络权重集合，所述α_i,i∈{1,2,3}为多个损失函数的加权系数。

其中，所述损失函数L_dist.和L_angle为均方误差和损失函数；所述损失函数L_type为交叉熵损失函数。

所述本车与车道线距离预测任务损失函数，采用所述距离输出层的输出f₁(z；θ_dist.)和真实值y^dist.之间的均方误差和作为损失函数：

其中N为所述驾驶数据集的训练样本数。

所述本车偏航角预测任务损失函数，采用所述夹角输出层的输出f₂(z；θ_angle)和真实值y^angle之间的均方误差和作为损失函数：

所述当前车道朝向类别预测任务损失函数，采用所述类别输出层的输出f₃(z；θ_type)和真实值y^type之间的交叉熵作为损失函数：

其中

表示所述类别输出层的输出的第

个分量。

计算多任务学习网络损失函数L_mtl对多任务学习网络的网络权重θ_mtl的梯度

采用随机梯度下降方法更新多任务学习网络的网络权重。

训练完成后，基于深度卷积神经网络的多任务学习网络的本车位置预测，姿态预测结果如图4所示，位置和姿态的预测值可以准确的跟踪真值。

在步骤300中，所述基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量，具体包括：

步骤301：根据所述数据驱动车道保持模型和状态，获得方向盘转角控制量；

步骤302：所述状态由所述预测的本车在当前车道的位置，姿态和本车当前速度构成。

具体的，本实施例中所述预设的数据驱动车道保持模型为基于强化学习的动作网络和评价网络构建的控制模型。

数据驱动车道保持模型根据当前本车状态s_t，输出当前本车控制动作a_t，即方向盘转角控制量，控制本车行驶在车道中央。智能驾驶仿真器执行所述方向盘转角控制量后，由所述状态s_t转移至下一状态s_t+1，并给出奖赏值r_t衡量所述方向盘转角控制量a_t的优劣。

本实施例中，所述本车状态s_t包括所述本车在当前车道的位置，姿态和本车当前速度。

所述方向盘转角控制量a_t为归一化的方向盘转角，数值在[-1,1]范围内，其中负值表示向左转向，正值表示向右转向。

所述奖赏值r_t，用于评判所述强化学习动作网络输出的方向盘转角控制量的优劣程度。对于车道保持问题，目标是控制本车行驶在车道中央，并且本车前进方向与车道朝向保持一致。

本实施例中，对于所述本车与当前车道中心线距离d_t和本车偏航角θ_t，如图3所示，所述奖赏值r_t根据如下几何关系确定：

其中w是所述当前车道宽度的一半，当本车行驶在车道中央，并且前进方向与车道朝向一致时，奖赏值达到最大值。

所述强化学习评价网络，根据所述本车状态s_t和所述方向盘转角控制量a_t，输出评价方向盘转角控制量优劣程度的状态动作值函数Q(s_t,a_t)，指导所述动作网络的网络权重更新趋向于输出更好的控制动作。

本实施例中，所述动作网络由3层全连接网络构成。其中，网络结构是FC₁(150)-FC₂(100)-FC₃(1)。前2个全连接层的激活函数为正则化线性激活函数，最后1个全连接层，即所述动作网络输出层的激活函数为双曲正切函数，将输出限制在[-1,1]之间，即：

本实施例中，所述评价网络有2个输入层，即所述本车状态s_t和所述方向盘转角控制量a_t。所述本车状态s_t，首先经过2个全连接层FC₁(150)-FC₂(100)完成特征提取，得到100维的特征向量。所述方向盘转角控制量a_t，经过1个全连接层FC₃(100)完成特征提取后，得到100维的特征向量。2个输入层的100维特征向量拼接合并后，再经过2个全连接层FC₄(100)-FC₅(1)，得到所述评价网络的输出。最后1个全连接层，即所述评价网络输出层的激活函数为线性激活函数。

在执行步骤300前，本发明智能驾驶车道保持方法还包括：

步骤200a：构建数据驱动车道保持模型。

所述建数据驱动车道保持模型，具体包括：

获取强化学习训练数据集。

其中，所述强化学习训练数据集包括当前状态，当前方向盘转角控制量，奖赏值和下一时刻状态。

根据确定策略梯度定理，计算动作网络的确定策略梯度。

根据状态动作值函数的预测值计算评价网络的损失函数。

所述动作网络以状态为输入，输出方向盘转角控制量；所述评价网络以状态和方向盘转角控制量为输入，输出评价所述方向盘转角控制量优劣程度的状态动作值函数。

本实施例中，采用确定策略梯度方法完成所述动作网络和评价网络的训练。

所述动作网络逼近确定策略函数μ(s_t；θ_μ)，所述评价网络逼近状态动作值函数Q(s_t,a_t；θ_Q)，其中θ_μ和θ_Q分别为所述动作网络和所述评价网络的网络权重。在所述训练过程中，对于当前状态s_t，所述动作网络输出当前策略函数的输出μ(s_t；θ_μ)，并采用ε-greedy探索方法对策略函数的输出加以扰动，得到方向盘转角控制量a_t，实现动作空间的探索。

智能驾驶仿真器执行所述方向盘转角控制量a_t，系统转移至下一状态s_t+1并反馈奖赏值r_t，得到每一步的经验样本(s_t,a_t,r_t,s_t+1)。在每一步，采用确定策略梯度更新动作网络的网络权重，通过最小化评价网络的损失函数来更新评价网络的网络权重。

本实施例中，所述ε-greedy探索方法，依概率1-ε执行所述策略函数的输出μ(s_t；θ_μ)，依概率ε对所述策略函数的输出引入高斯噪声N(0,0.05²)，即所述方向盘转角控制量a_t根据下式确定：

其中p为随机数生成器所产生的服从均匀分布的概率值。所述概率ε初始值取1.0，在5×10⁵训练步数内线性减小，最终衰减至最小值0.1.

所述确定策略梯度为：

其中J是累积奖赏值，E_x[·]表示依随机变量x的期望。

所述评价网络的损失函数为状态动作值函数的预测值Q(s_t,a_t；θ_Q)和目标值y_t的均方误差：

其中目标值y_t为：

其中γ∈[0,1]是折扣因子，

和

分别表示目标动作网络和目标评价网络的网络权重，用于保证训练过程的稳定和收敛。

根据所述确定策略梯度，采用梯度上升方法更新所述动作网络的网络权重；计算评价网络损失函数L_Q对评价网络的网络权重的梯度

采用梯度下降方法更新所述评价网络的网络权重。

所述数据驱动车道保持模型训练过程累积奖赏值的变化结果如图5所示，可以看出，对于不同的赛道，所述数据驱动车道保持模型均可收敛。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

(1)本发明在车道特征预测中，采用多任务学习网络构建所述驾驶图像感知模型，促使所述驾驶图像感知模型学习到多个相关任务共有的图像特征，可提高车道特征预测的准确率。

(2)本发明在方向盘转角控制量计算中，采用数据驱动的方法，不依赖于车辆模型，可提高方向盘转角控制量计算的准确性与鲁棒性。

(3)本发明在视觉输入的数据驱动车道保持控制中，采用车道特征预测和方向盘转角控制量计算分离的方式，能够准确监测各步骤的输出，相比较于端到端学习方式，增强了车道保持系统的可解释性。

(4)本发明通过智能驾驶仿真器搭建了多种传感器和驾驶环境，更具有安全性和低成本性。

此外，本发明还提供一种智能驾驶车道保持系统，可提高位置和姿态预测准确率和控制性能。

如图6所示，本发明智能驾驶车道保持系统包括获取单元1、预测单元2、计算单元3及控制单元4。

所述获取单元1用于获取驾驶员视角的当前前方图像。

所述预测单元2用于基于预设的驾驶图像感知模型，预测所述当前前方图像中的车道特征。其中，所述预设的驾驶图像感知模型为基于深度卷积神经网络的多任务学习网络构建的预测模型。

所述计算单元3用于基于预设的数据驱动车道保持模型，根据所述车道特征，计算方向盘转角控制量。所述预设的数据驱动车道保持模型为基于强化学习的动作网络和评价网络构建的控制模型。

所述控制单元4用于根据所述方向盘转角控制量，控制本车行驶在车道中央。

相对于现有技术，本发明智能驾驶车道保持系统与上述智能驾驶车道保持方法的有益效果相同，在此不再赘述。。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种智能驾驶车道保持方法，其特征在于，所述智能驾驶车道保持方法包括：

获取驾驶员视角的当前前方图像；

基于预设的驾驶图像感知模型，预测所述当前前方图像的车道特征；

其中，所述预设的驾驶图像感知模型为基于深度卷积神经网络的多任务学习网络构建的预测模型；

基于预设的数据驱动车道保持模型，根据预测出的所述车道特征，采用所述数据驱动车道保持模型计算方向盘转角控制量；

其中，所述预设的数据驱动车道保持模型为基于强化学习的动作网络和评价网络构建的控制模型；

根据所述方向盘转角控制量，控制本车行驶在车道中央；

其中，所述数据驱动车道保持模型的构建过程具体包括：

根据确定策略梯度定理，计算动作网络的确定策略梯度；

根据状态动作值函数的预测值计算评价网络的损失函数；

根据确定策略梯度和评价网络的损失函数训练动作网络和评价网络，获得数据驱动车道保持模型；

其中，所述动作网络以状态为输入，输出方向盘转角控制量；

其中，所述评价网络以状态和方向盘转角控制量为输入，输出评价所述方向盘转角控制量优劣程度的状态动作值函数。

2.根据权利要求1所述的智能驾驶车道保持方法，其特征在于，所述车道特征包括本车在当前车道的位置，姿态和当前车道朝向类别；

3.根据权利要求2所述的智能驾驶车道保持方法，其特征在于，所述智能驾驶车道保持方法还包括构建驾驶图像感知模型；

其中，所述构建驾驶图像感知模型，具体包括：

4.根据权利要求3所述的智能驾驶车道保持方法，其特征在于，所述基于深度卷积神经网络的多任务学习网络包括三个学习任务，具体为：本车与车道线距离的预测任务，本车偏航角的预测任务和当前车道朝向类别的分类任务。

5.根据权利要求2所述的智能驾驶车道保持方法，其特征在于，所述基于预设的数据驱动车道保持模型，根据预测出的所述车道特征，采用所述数据驱动车道保持模型计算方向盘转角控制量，具体包括：

6.根据权利要求1所述的智能驾驶车道保持方法，其特征在于，通过智能驾驶仿真器的摄像头获取驾驶员视角的当前前方图像，

其中，智能驾驶仿真器为带有传感器，通信协议接口和应用程序接口的仿真器。

7.根据权利要求6所述的智能驾驶车道保持方法，其特征在于，所述传感器包括雷达、测速传感器、偏航角传感器、里程计、计时器和摄像头中的至少一者，所述传感器用于采集驾驶员视角的图像和标签数据；

所述应用程序接口用于接收传感器数据，并将所述传感器数据整合成选定的传感器数据输出；或者

所述应用程序接口用于接收来自强化学习动作网络的方向盘转角控制量，将方向盘转角控制量输入至通信协议接口。

8.一种智能驾驶车道保持系统，其特征在于，所述智能驾驶车道保持系统包括：

获取单元，用于获取驾驶员视角的当前前方图像；

预测单元，用于基于预设的驾驶图像感知模型，预测所述当前前方图像中的车道特征；

计算单元，用于基于预设的数据驱动车道保持模型，根据预测出的所述车道特征，采用所述车道保持模型计算方向盘转角控制量；

控制单元，用于根据所述方向盘转角控制量，控制本车行驶在车道中央；

其中，所述数据驱动车道保持模型的构建过程具体包括：

根据确定策略梯度定理，计算动作网络的确定策略梯度；

根据状态动作值函数的预测值计算评价网络的损失函数；