CN111824182A

CN111824182A - 一种基于深度强化学习的三轴重型车自适应巡航控制算法

Info

Publication number: CN111824182A
Application number: CN202010749185.1A
Authority: CN
Inventors: 赵伟强; 孙铭; 牟嘉鹏; 宗长富
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-27
Anticipated expiration: 2040-07-30
Also published as: CN111824182B

Abstract

本发明公开了一种基于深度强化学习的三轴重型车自适应巡航控制算法，包括如下步骤：包括如下步骤：步骤一、获取表征车辆状态的特征值；其中，车辆状态包括：本车质心相对于车道中线位置的偏移、本车与前车的距离、前车车速和本车车速；步骤二、将表征车辆状态的特征值输入强化学习网络模型，得到车辆控制参数；并且根据车辆状态特征值与其对应的车辆控制参数确定奖励函数；其中，车辆控制参数包括：方向盘转角、制动踏板开度和油门踏板开度；步骤三、对强化学习网络模型进行优化，直到获得奖励函数的最大值，得到最优强化学习网络；其中，在车辆自适应巡航状态下，通过最优强化学习网络得到的方向盘转角、制动踏板开度和油门踏板开度。

Description

一种基于深度强化学习的三轴重型车自适应巡航控制算法

技术领域

本发明属于车辆控制技术领域，特别涉及一种基于深度强化学习的三轴重型车自适应巡航控制算法。

背景技术

在无人驾驶技术的感知，决策，控制三大领域中，智能车辆的决策一直是自动驾驶的核心部分和关键竞争领域，扮演着驾驶员大脑的角色。重型重型车辆的自适应巡航系统作为一项重要的辅助驾驶技术，其决策的优越性直接影响到车辆的行驶安全和行驶效率。

传统智能车辆的ACC决策系统基于规则设计，人为规定车辆在各场景下的行为模式并以某些特征变量作为条件切换的判断依据。这种智能车辆的控制策略大多在封闭场景、结构化道路下基于规则设计，在处理复杂和陌生环境时不具备自适应能力。这一方面是由于复杂工况下的测试验证在实际场景中难以开展，另一方面，复杂工况下设计规则会指数级上升且在考虑侧向失稳时原车的横摆力矩控制系统与ACC可能存在相互制约。

强化学习方法在解决贯序决策问题上表现出了极大的优势与潜力。强化学习是一种典型的经验驱动、自主学习方法，在机器人、无人机、车辆领域的应用都取得了较好的效果。然而，由于强化学习算法固有的存储复杂度、计算复杂度和采样复杂度，其扩展性受到了极大的限制，多数时候只能使用低维特征处理任务。近年来，由于计算能力的提升，具有强大非线性函数拟合功能和表征学习特性的深度学习为解决这一问题提供了新的思路。深度学习部分如同人类的眼睛，负责复杂驾驶环境的感知和特征提取；强化学习部分则通过马尔可夫决策过程完成推理、判断和决策，作用如同人脑。通过与环境不断交互，强化学习可以自主地在复杂的驾驶环境中进行决策与控制。

目前常见的重型车自适应巡航控制算法大多基于规则设计且未考虑重型车辆的侧倾稳定性，但重型车辆质心位置较高，轮距相对于车身较窄，因此相较于其他车辆更容易出现侧翻等稳定性问题。而对于运载大质量货物且车身更长的多轴车辆而言，一旦出现事故就是极其严重的恶性交通事故。

发明内容

本发明设计开发了一种基于深度强化学习的三轴重型车自适应巡航控制算法，在深度强化学习网络训练过程中考虑车辆侧倾稳定性，其目的是在车辆自适应过程中能够对车辆的危险状态进行纠正，提高车辆在自适应巡航过程中的安全性。

本发明提供的技术方案为：

一种基于深度强化学习的三轴重型车自适应巡航控制算法，包括如下步骤：

步骤一、获取表征车辆状态的特征值；

其中，所述车辆状态包括：本车质心相对于车道中线位置的偏移、本车与前车的距离、前车车速和本车车速；

步骤二、将所述表征车辆状态的特征值输入强化学习网络模型，得到车辆控制参数；并且根据所述车辆状态特征值与其对应的车辆控制参数确定奖励函数；

其中，所述车辆控制参数包括：方向盘转角、制动踏板开度和油门踏板开度；所述奖励函数为：

式中，

为本车侧倾角，v_kl为前车车速，v_e为本车车速，v_set为自适应巡航的期望车速，D_error为本车与前车的距离，v_vkl为本车车速和目标车速的比值；R₁为车辆稳定性奖励函数；

步骤三、对所述强化学习网络模型进行优化，直到获得所述奖励函数的最大值，得到最优强化学习网络；

其中，在车辆自适应巡航状态下，通过所述最优强化学习网络得到的方向盘转角、制动踏板开度和油门踏板开度。

优选的是，所述车辆稳定性奖励函数为：

式中，k_r为车辆稳定性系数，LTR为横向载荷转移率，ε为调节参数。

优选的是，所述横向荷载转移率为：

式中，F_zr、F_zl分别车辆左右轮的垂直载荷。

优选的是，在所述步骤二中，所述强化学习网络包括：演员网络和评论家网络；并且所述演员网络和所述评论家网络采用异构确定性策略梯度进行优化；

其中，所述异构确定性策略梯度为：

式中，β为采样策略，ρ为状态分布，μ(s|θ^μ)为确定性策略，Q(s,a|θ^Q)为动作值函数，a为强化学习网络选择的动作，s为强化学习网络的状态，s_i为强化学习网络的第i个状态，θ为策略参数。

优选的是，所述评论家网络优化过程中的权值更新算法为：

其中，δ_i为时间差分误差，r_t表示当前时刻奖励，Q′表示当前时刻该时刻的状态价值函数的估计值，Q表示上一时刻的状态价值函数值。

优选的是，所述的基于深度强化学习的三轴重型车自适应巡航控制算法，还包括：

在所述步骤三中，当LTR＞0.95时，结束当前优化过程，并且开始新的优化周期。

本发明的有益效果是：

本发明提供的基于深度强化学习的三轴重型车自适应巡航控制算法，在深度强化学习网络训练过程中考虑车辆侧倾稳定性，在车辆自适应巡航过程中能够对车辆的危险状态进行纠正，提高车辆在自适应巡航过程中的安全性。

附图说明

图1为本发明所述的基于深度强化学习的三轴重型车自适应巡航控制算法的流程图。

图2为本发明所述的三轴重型商用车辆载荷建模断开图。

图3为本发明所述的强化学习算法网络结构。

图4为本发明所述的强化学习网络奖赏值的训练过程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供了一种基于深度强化学习的三轴重型车自适应巡航控制算法，所述的自适应巡航控制算法能够适用于各种道路，并且能在高速过弯情况下兼顾三轴商用车的侧倾稳定性。

强化学习中的车辆的环境状态信息通过传感器数据获得，输出动作包括方向盘转角，制动踏板开度，油门踏板开度三个维度，车辆的环境状态信息包括车辆质心相对于车道中心位置的偏移，与前车的距离，前车车速，本车车速四个维度。安装在智能商用车上的传感器可以提供关于车辆状态和车辆周围环境的必要信息。由于车辆获得的是多个不同类型传感器的观测数据，即信息具有多样性和复杂性，因此需要对相关信息进行处理并融合后作为深度强化学习算法中输入的状态量。对于多源传感器而言，其数据融合过程可简要概括为三点：

(1)收集并处理多源传感器数据，对输入数据进行状态特征提取，得到观测数据的特征值；对输入图像和雷达信息进行处理，传感输入的信息是矩阵，卷积之后得到特征值，用来表征车辆参数信息(与前车的距离，前车车速，本车车速)

(2)为了完成对同一个目标的综合描述，对相关特征值进行数据关联。

(3)将不同目标的特征值进行数据组合处理，然后传入深度强化学习算法中，在仿真环境下对深度强化学习网络参数进行训练。

在未知环境中，车辆需要躲避任意形状的静态和动态障碍物，为提高车辆的智能化水平，控制算法需要考虑一系列环境状态。首先通过对商用车辆进行载荷建模，得到三轴商用车辆的侧倾稳定性判据，然后构建深度强化学习的训练网络，设计动作空间、状态空间、更新方程和奖赏函数，使该三轴重型商用车辆在仿真环境中自我学习，并更新强化学习网络，在训练结束后，决策智能体可以满足上述重型商用车自适应巡航控制的要求，同时也实现了重型商用车辆通过大曲率弯道时对侧倾稳定性的要求。

本发明的具体实施方法如下：

(1)重型车辆垂直载荷建模

垂直载荷分配是多轴车辆和两轴车辆最大的不同，为了避免过约束和引入动态载荷分配比率等参数，本发明将该三轴车辆分段分析，如图2所示，在断开点处引入虚拟内力，同时考虑了质心位置不同对载荷分配带来的差异影响，忽略车辆的俯仰运动与车身的柔性，车辆各轴的垂直载荷仅由侧倾角速度、侧倾角、侧向加速度与纵向加速度引起。

建模过程如下：

其中，m为整车质量，m_v为空载车身质量，m_i为第i部分货物质量(i为分割后车体子系统数量，i＝1,2)，l_v为第一轴到整车质心的距离，l_i为第一轴到第i-1轴的距离，l_ri为整车质心到第i轴的距离，l_r1i为第一部分质心到第i-1轴的距离，l_vi为第i轴到第i部分质心的距离，L_c为第一轴到货物质心的距离，H为车辆的轮距，h为整车质心C.G高度，h_i为第i部分质心高度，h_ri为第i部分质心至侧倾轴距离，

为侧倾角，C.G为整车质心，c.g_i为第i部分质心，K_bi为第i部分防侧倾稳定杆刚度系数，C_i为第i部分悬架阻尼系数，a_x为纵向加速度，a_y为侧向加速度，ΔF_zrmi,zlmi为第i轴侧向力矩转化的垂向载荷变化值，ΔF_zrai,zlai为第i轴俯仰力矩转化的垂向载荷变化值，ΔF_zri,zli为第i轴垂向载荷总变化值。

采用横向载荷转移率(LTR)作为鉴别车辆是否趋于侧翻的评价指标，其中：

结合以上建立的载荷模型，可带入动态横向载荷转移计算各轴的垂向载荷，其值的大小与车辆的侧倾角，侧倾角速度，侧向加速度等变量有关。经过仿真验证，设置三轴商用车辆LTR阈值的绝对值为0.55，即当LTR绝对值大于0.55时，算法判断车辆将趋于发生侧翻事故，启动控制算法对车辆进行控制。

(2)深度强化学习网络的构建

如图3所示，深度强化学习网络主要包括演员网络和评论家网络，其中演员网络主要负责接受当前驾驶状态的数据进行组合，然后对组合特征进行回归输出连续动作；而评论家网络则接受传感输入和当前状态下演员网络给出的动作，输出当前状态-动作对的价值。对以往的实践证明，如果只使用单个神经网络的算法，数据的马尔科夫性使得函数逼近达不到稳定效果，鉴于神经网络常用参数θ进行参数化表征，基于此创建两个神经网络，eval net和target net(目标网络)。

演员网络和评论家网络均通过4个全连接层(每层具有48个神经元)进行特征回归，演员网络使用非线性激活函数(tanh函数)输出方向盘转角和油门/制动踏板开度，演员网络和评论家网络结构分别整理如表1-2所示：

表1演员网络结构表

表2评论家网络结构表

(3)强化学习网络的更新

如图4所示，演员的策略更新方式采用策略梯度进行优化，优化目标为策略期望总奖励max_θE(R|π_θ)，R为过程中的累计奖励，π_θ为行为策略。

强化学习的目标函数可以表示为：

其中，R(τ)表示轨迹τ的回报，P(τ；θ)表示轨迹出现的概率。

对于智能体的一组状态-动作序列，为了使策略产生固定轨迹，也就是在同一状态下动作输出唯一，采用确定性策略。同时为了避免确定性策略无法访问其他状态导致无法学习，采用异策略的学习方法，即演员和评论家不采用同一策略。异构确定性策略梯度的计算方法如下：

其中，β为采样策略，ρ为状态分布，μ(s|θ^μ)为确定性策略，Q(s,a|θ^Q)为动作值函数。演员中的eval net指导车辆进行行为决策，控制车辆在未知环境中行驶，车辆的状态信息和可视化图像从仿真环境中得到，将反馈数据输入上文搭建好的强化学习训练环境进行计算。因为深度神经网络训练往往假设数据服从独立同分布，强化学习训练数据是顺序的时间序列，为打断数据中的关联性建立记忆库，即把损失函数定义为

其中，U(D)为用于经验存储和回放的样本池，每次抽取一个小的经验样本的数据进行训练，使样本不连续，打断相关性可以提高训练效果。

在训练过程中，该确定性-评论家算法的更新过程可以表示为：

δ_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)-Q(s_i,μ(s_i|θ^μ)|θ^Q)

其中，δ_i为时间差分误差，r_t表示当前时刻奖励，Q′表示当前时刻该时刻的状态价值函数的估计值；Q表示上一时刻的状态价值函数值，初始化后由其他位置的状态价值求出。上式分别表示利用值函数逼近的方法更新值函数参数θ^μ和利用确定性策略梯度方法更新策略参数θ^Q，其中，α_θQ和α_θμ分别为值函数和策略函数的学习速率。学习速率一般是0.01，避免波动过大或者不收敛。

独立目标网络对演员eval网络和评论家eval网络进行单步的学习和迭代更新，经过一定的迭代次数后，再将eval网络的参数赋值给target网络。对于强化学习网络，targetnet参数每次以微小变化量逼近eval net，此过程视为间隔更新，这虽然使训练过程变慢，但训练过程易于收敛，使用独立目标网络后的强化学习网络更新公式为

θ^μ′＝σθ^μ+(1-σ)θ^μ′

θ^Q′＝σθ^Q+(1-σ)θ^Q′，σ＝0.001

同时，该强化学习算法的奖赏函数设计如下所示

其中，k_r＝1，

为车辆侧倾角，e为车辆质心相对于车道中心的偏移量，v_kl为前车车速，v_e为本车车速，v_set为自适应巡航控制的期望车速，D_error为本车与前车的相对距离；ε为调节参数，为一个极小量。

(4)单次训练终止条件

(a)离开车道。如果车辆过多的跑出车道，会得到很大的惩罚，接着仿真环境会被终止和重新载入，新的训练周期开始。

(b)车辆卡滞。如果车辆在100个步长内速度一直低于5km/h，则进程会被终止，新的训练周期开始。

(c)奖励无提升。如果车辆在20个步长内奖励不增长，则重新开始新周期。

(d)车辆逆行。如果检测到车头逆行，则给予惩罚并开始新周期。

(e)若车辆的LTR值大于0.95，则认为车辆侧翻，终止训练并进入下一回合。

(5)智能体训练结束判定

在训练过程中，如果智能体在奖赏函数中获得的奖励值达到上述奖赏函数设计的最大奖励值，且整个训练过程趋于收敛，则认为训练的智能体达到重型商用车辆的自适应巡航控制目标的要求，结束训练并储存深度强化学习网络中的智能体参数。

本发明提供的基于深度强化学习的三轴商用车自适应巡航控制算法可以根据车辆状态实时做出最优决策，相较于传统方法和其他强化学习方法，不基于规则设计，且将载荷建模计算得到的LTR值作为稳定性判据引入奖赏函数的构造中，使该算法兼顾了商用车自适应巡航时的稳定性，这对提高商用车公路运输的安全性具有重要的研究意义。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于深度强化学习的三轴重型车自适应巡航控制算法，其特征在于，包括如下步骤：

步骤一、获取表征车辆状态的特征值；

式中，

2.根据权利要求1所述的基于深度强化学习的三轴重型车自适应巡航控制算法，其特征在于，所述车辆稳定性奖励函数为：

3.根据权利要求2所述的基于深度强化学习的三轴重型车自适应巡航控制算法，其特征在于，所述横向荷载转移率为：

式中，F_zr、F_zl分别车辆左右轮的垂直载荷。

4.根据权利要求2或3所述的基于深度强化学习的三轴重型车自适应巡航控制算法，其特征在于，在所述步骤二中，所述强化学习网络包括：演员网络和评论家网络；并且所述演员网络和所述评论家网络采用异构确定性策略梯度进行优化；

其中，所述异构确定性策略梯度为：

5.根据权利要求4所述的基于深度强化学习的三轴重型车自适应巡航控制算法，其特征在于，所述评论家网络优化过程中的权值更新算法为：

6.据权利要求5所述的基于深度强化学习的三轴重型车自适应巡航控制算法，其特征在于，还包括：