CN115257809A

CN115257809A - 一种人在环的自动驾驶车辆交互学习控制方法及设备

Info

Publication number: CN115257809A
Application number: CN202210900448.3A
Authority: CN
Inventors: 黄岩军; 唐昕月; 袁康; 杨硕; 杜嘉彤; 陈虹
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-01
Anticipated expiration: 2042-07-28
Also published as: CN115257809B

Abstract

本发明涉及一种人在环的自动驾驶车辆交互学习控制方法及设备，所述方法包括以下步骤：采集自动驾驶车辆当前时刻的状态感知信息，基于训练好的DQN‑MPC双层控制模型获得下一刻的期望加速度和方向盘转角；所述DQN‑MPC双层控制模型基于人在环控制实现更新，在接收到驾驶员指令时，将所述驾驶员指令替换当前的决策指令，更新作为训练数据集的经验回放池，同时生成惩罚因子，该惩罚因子用于修正Q价值网络参数的更新。此外，本发明具有人类反馈预测功能，当可信度达到设置标准时，模型在环控制模块将代替长时间的人在环控制，解放驾驶员。与现有技术相比，本发明具有提高驾驶安全性和舒适性等优点。

Description

一种人在环的自动驾驶车辆交互学习控制方法及设备

技术领域

本发明涉及自动驾驶汽车的行为决策、控制领域和人工智能的机器学习算法领域，涉及一种车辆控制方法，尤其是涉及一种人在环的自动驾驶车辆交互学习控制方法及设备。

背景技术

近年来，随着人工智能算法的不断发展，自动驾驶汽车技术得到了飞速提升。在基于学习的驾驶系统研究方面，强化学习算法能使自动驾驶汽车在行驶环境中自主搜索可行的控制措施并优化决策策略，具有广泛的应用前景。然而，尽管强化学习算法已经在解决简单交通场景案例中有所成效，但实际的车辆行驶道路类型多样，交通流复杂多变，极可能出现智能体对场景认知有限，学习能力和泛化性能显著下降的情况。此外，强化学习算法在神经网络训练的探索过程中，难免做出不适合目前行驶状态的决策指令，得到不合理的状态-动作对，从而影响神经网络的参数更新。因此，确保自动驾驶汽车行驶过程中的安全舒适，提高智能体学习过程的回放经验质量和多场景移植泛化能力是本领域技术人员亟待解决的技术难点。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高驾驶安全性和舒适性的人在环的自动驾驶车辆交互学习控制方法及设备。

本发明的目的可以通过以下技术方案来实现：

一种人在环的自动驾驶车辆交互学习控制方法，包括以下步骤：

采集自动驾驶车辆当前时刻的状态感知信息，基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角，其中，所述DQN-MPC双层控制模型包括DQN层和MPC层，DQN层基于所述状态感知信息通过Q价值网络获得决策指令，MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪，获得所述期望加速度和方向盘转角；

所述DQN-MPC双层控制模型基于人在环控制实现更新，在接收到驾驶员指令时，将所述驾驶员指令替换当前的决策指令，更新作为训练数据集的经验回放池，同时生成惩罚因子，该惩罚因子用于修正Q价值网络参数的更新。

进一步地，所述DQN-MPC双层控制模型的训练过程包括：

初始化经验回放池的容量为N，随机初始化动作值函数Q网络的权重值θ和目标动作值函数

网络的权重值

获取一段时间内的自动驾驶车辆的状态感知信息，形成状态-动作-奖励值的数据对，存储入经验回放池；

从所述经验回放池采样，构建训练数据集，基于前一次更新的目标动作值函数

网络的估计目标值，执行梯度下降法，更新参数θ。

进一步地，自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型，每次更新从经验回放池中均匀随机抽取M个数据对，构建训练数据集。

进一步地，前一次更新的目标动作值函数

网络的估计目标值具体为：

判断下一步自动驾驶汽车是否到达终点，若是，则计目标值Y＝r_i，否则，

其中，γ为奖励折扣系数，

指根据下一状态s′选取的最大

值，此

值与下一时刻动作a′对应；

若存在所述惩罚因子，则r_i替换为r_ie_H，其中，e_H为惩罚因子。

进一步地，所述驾驶员指令通过输入设备获取或由模型在环控制神经网络产生。

进一步地，所述模型在环控制神经网络训练时，基于自动驾驶过程中的状态感知信息、决策指令信息以及通过输入设备获取的驾驶员指令构建训练数据集。

进一步地，所述模型在环控制神经网络的可信度大于设定值时，由模型在环控制神经网络产生所述驾驶员指令。

进一步地，所述DQN层根据ε-greedy算法按概率选取Q值最大的指令或随机指令作为所述决策指令。

进一步地，所述MPC层利用PID控制器进行加速度跟踪。

本发明还提供一种电子设备，包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上所述人在环的自动驾驶车辆交互学习控制方法的指令。

本发明针对复杂多变的道路环境，引入驾驶员交互信息以训练安全可靠的价值神经网络，使自动驾驶汽车能根据不同的车辆间距、相对速度、道路曲率等状态选择合适的决策指令，从而控制车辆安全行驶。与现有技术相比，本发明具有以下有益效果：

1、本发明将驾驶员必要时的决策判断放入深度Q网络(Deep Q-Learning Net，DQN)的价值网络训练过程中，并采用模型预测控制(Model Predictive Control，MPC)方法实现下层控制，充分利用了人类在面临复杂驾驶场景时的鲁棒性和适应性，提高了自动驾驶汽车智能体的学习能力和泛化能力，其MPC控制器的约束条件确保了自动驾驶过程中的安全和舒适。

2、本发明还设置有用于学习真人驾驶指令的模型在环控制神经网络，保证可靠性的同时，减少人工操作。

附图说明

图1为本发明的原理示意图；

图2为本发明MPC层的控制流程示意图；

图3为本发明人在环控制的流程示意图；

图4为本发明反馈预测的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种人在环的自动驾驶车辆交互学习控制方法，包括以下步骤：采集自动驾驶车辆当前时刻的状态感知信息，基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角，其中，所述DQN-MPC双层控制模型包括DQN层和MPC层，DQN层基于所述状态感知信息通过Q价值网络获得决策指令，MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪，获得所述期望加速度和方向盘转角，其中，所述DQN-MPC双层控制模型基于人在环控制实现更新，在接收到驾驶员指令时，将所述驾驶员指令替换当前的决策指令，更新作为训练数据集的经验回放池，同时生成惩罚因子，该惩罚因子用于修正Q价值网络参数的更新。

具体地，上述方法包括：

1)产生决策指令，基于决策指令获得期望加速度和方向盘转角，实现自动驾驶车辆控制。

自动驾驶汽车在行驶过程中采集当前时刻状态集合s，并将状态集合s的信息传递给收敛的Q价值网络；Q价值网络根据自动驾驶汽车所处的状态s和可能做出的换道、车道保持指令a_Q计算Q值，并根据ε-greedy算法按概率选取Q值最大动作指令或随机指令作为决策指令；决策指令将作为MPC层的输入，以得到自动驾驶汽车下一刻的期望加速度和方向盘转角，并利用PID控制器进行加速度跟踪，如图2所示。其中，MPC控制器不仅作为执行上层决策的下层控制器，还要确保自动驾驶汽车行驶的安全性和舒适性，其具体结构设计如下：

纵向运动学模型为：

其中，x为自车的纵向位移，v_x为自车纵向速度，Δx_z为相对速度，选取x、v_x、Δx_z为状态变量，a_x为输入变量，y_lon＝Δx_z为输出变量，其成本函数可以定义为：

约束设置为：

(i＝1,2,…,N₁；j＝0,1,…,N₁-1)

横向动力学模型为：

其中，r表示自车在重心处的横摆率，l_f和l_r表示重心到前轴和后轴的距离，F_yf和F_yr的表达式如下：

选取v_y、

r、y为状态变量，u_lat＝δ为输入变量，y_lat＝y为输出变量，成本函数可以定义为：

约束可设置为：

(i＝1,2,…,N₂；j＝0,1,…,N₂-1)

2)基于驾驶员指令的模型更新。

驾驶员需要在自动驾驶汽车行驶过程中实时观察道路环境、周车行驶状态和自车做出的行为决策。若自车在t时刻做出了不合理或不必要的动作决策，人在环控制模块接收驾驶员通过车内的内嵌操控屏幕在t+1时刻提供合理的换道或车道保持指令a_H覆盖自动驾驶汽车的自动控制决策指令a_Q，进行汽车行为矫正，与此同时，相应的状态-动作-奖励值信息(s,a_H,r,s′)将存储进经验回放池中；当自动驾驶汽车运行至Q网络更新步骤时，驾驶员指令信息(s,a_H,r,s′)将作为候选信息对Q网络的更新进行修正。除此之外，人在环控制机制还相当于一个向后预测惩罚模块，当驾驶员存在接管自动驾驶汽车的行为时，目标值Y估计函数中奖励值r_i将乘以惩罚因数e_H，以进一步修正Q网络参数的更新，如图3所示。由此可见，人在环机制不仅提高了经验回放池中的经验质量，还进一步提高了DQN算法中价值Q神经网络的鲁棒性和适应性。其中，r_i为从经验回放池中采样后所得集合的奖励值。

上述方法在模型训练时引入人在环控制信息，能对不够准确、不合理的决策进行修正，从而对模型参数的更新过程进行修正，提高模型可靠性，从而提高自动驾驶车辆控制的可靠性和安全性。

本实施例中，DQN-MPC双层控制模型中，DQN层包括Q价值网络和经验回放池，其训练过程包括：

1)初始化经验回放池的容量为N，随机初始化动作值函数Q网络的权重值θ和目标动作值函数

网络的权重值

2)获取一段时间内的自动驾驶车辆的状态感知信息，形成状态-动作-奖励值的数据对，表示为(s,a_Q,r,s′)，s表示状态，a_Q表示动作，r表示奖励值，s′为下一时刻状态，奖励值r由奖励函数计算获得，r包括限速奖励、撞击奖励、越线奖励、舒适驾驶奖励、停止奖励和礼让奖励，将数据对存储入经验回放池。

通过车载传感器观测目前t时刻所处的道路环境和交通流情况，将自车位移x、y，自车速度v_x、v_y，自车与中心线的距离d₁，周车位移x_z、y_z，周车速度v_xz、v_yz，与周车的相对位置Δx_z、Δy_z和相对速度Δv_xz、Δv_yz打包为t时刻的状态s；利用Q神经网络计算动作值Q(s,a)；根据ε-greedy算法选取换道和车道保持指令a_Q，a_Q作用于MPC层，从而控制自动驾驶汽车t至t+1时刻的加速度大小和方向盘角度，并获取下一时刻环境观测状态s′和对应的奖励函数值r。

3)从所述经验回放池采样，构建训练数据集，基于前一次更新的目标动作值函数

网络的估计目标值Y，执行梯度下降法，更新参数θ。设置自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型，每次更新从经验回放池中均匀随机抽取M个数据对，构建训练数据集。采用均方误差计算损失L＝(Y-Q)²，然后执行梯度下降法，更新参数θ。

其中，前一次更新的目标动作值函数

网络的估计目标值具体为：

其中，γ为奖励折扣系数，

指根据下一状态s′选取的最大

值，此

值与下一时刻动作a′对应。

上述驾驶员指令可通过输入设备获取或由模型在环控制神经网络产生。在另一实施方式中，引入有人类反馈预测机制，通过设置人反馈预测模型可信度模块和模型在环监督控制模块对通过输入设备获取的驾驶员指令进行学习，以替代长时间的人在环控制，解放驾驶员。如图4所示，在训练时，自动驾驶汽车感知的状态s，决策行为a_Q和驾驶员的干预决策a_H将作为神经网络的输入并由此训练LSTM神经网络以使其能模拟驾驶员的监督行为；当人反馈预测模型可信度模块判断模型在环监督控制模块的可信度大于ξ时，模型在环监督控制模块将代替人在环控制模块，在必要时输出合适的决策指令，进行人类反馈的预测和自动驾驶汽车不良决策行为的补偿。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种人在环的自动驾驶车辆交互学习控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，所述DQN-MPC双层控制模型的训练过程包括：

网络的权重值

网络的估计目标值，执行梯度下降法，更新参数θ。

3.根据权利要求2所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型，每次更新从经验回放池中均匀随机抽取M个数据对，构建训练数据集。

4.根据权利要求2所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，前一次更新的目标动作值函数

网络的估计目标值具体为：

其中，γ为奖励折扣系数，

指根据下一状态s′选取的最大

值，此

值与下一时刻动作a′对应；

5.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，所述驾驶员指令通过输入设备获取或由模型在环控制神经网络产生。

6.根据权利要求5所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，所述模型在环控制神经网络训练时，基于自动驾驶过程中的状态感知信息、决策指令信息以及通过输入设备获取的驾驶员指令构建训练数据集。

7.根据权利要求5所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，所述模型在环控制神经网络的可信度大于设定值时，由模型在环控制神经网络产生所述驾驶员指令。

8.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，所述DQN层根据ε-greedy算法按概率选取Q值最大的指令或随机指令作为所述决策指令。

9.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法，其特征在于，所述MPC层利用PID控制器进行加速度跟踪。

10.一种电子设备，其特征在于，包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-9任一所述人在环的自动驾驶车辆交互学习控制方法的指令。