CN116946162B

CN116946162B - 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Info

Publication number: CN116946162B
Application number: CN202311209606.1A
Authority: CN
Inventors: 罗为明; 李旭; 徐启敏; 胡锦超; 胡玮明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-15
Anticipated expiration: 2043-09-19
Also published as: CN116946162A

Abstract

本发明公开了一种考虑路面附着条件的智能网联商用车安全驾驶决策方法。首先，将安全驾驶决策问题建模为有限马尔可夫决策模型，并定义决策模型的基本参数。其次，设计决策模型的网络架构。最后，训练决策模型的网络参数。本发明提出的方法综合考虑了路面附着条件、道路坡度和弯度等因素对于行车安全的影响，能够适应不同的交通环境和行驶工况，解决了现有的商用车驾驶决策方法适应性差、决策不准确的问题。

Description

考虑路面附着条件的智能网联商用车安全驾驶决策方法

技术领域

本发明涉及一种智能网联汽车驾驶决策方法，尤其是涉及一种考虑路面附着条件的智能网联商用车安全驾驶决策方法，属于新一代信息技术领域。

背景技术

智能网联汽车是以车辆为主体和主要节点，融合现代通信和网络技术，使车辆与外部节点实现信息共享和协同控制，以达到车辆安全、有序、高效、节能行驶的新一代多车辆系统。其中，驾驶决策模块将环境感知模块的感知结果、定位结果等信息作为输入，根据决策方法，规划出合理的车辆驾驶行为，并发送给后续的执行模块。因此，驾驶决策决定了智能网联汽车的合理性和安全性。

目前，针对安全驾驶决策的研究相对较多，但大多面向智能网联乘用车。相比于小型乘用车，商用车具有质心位置较高、整车质量较大等特点，导致其制动距离较长、制动性能相对较差。在执行紧急制动、紧急避障等操作或行驶在雨水、冰雪等附着系数较低的路面时，易失稳而发生侧翻。因此，主要从防碰撞层面出发的乘用车安全驾驶决策方法，难以直接应用于商用车的驾驶决策。

在商用车安全驾驶决策方法研究中，申请号为ZL202011512718.0 ，发明创造名称为“基于深度强化学习的重型营运车辆防侧翻驾驶决策方法”的中国专利以及申请号为ZL202210158758.2，发明创造名称为“一种高度类人的自动驾驶营运车辆安全驾驶决策方法”的中国专利围绕商用车的安全驾驶决策展开研究，但忽略了路面附着条件、道路坡度等因素对于行车安全的影响。申请号为ZL202111225841.9 ，发明创造名称为“一种考虑路面附着条件的大型营运车辆防侧翻决策方法” 的中国专利以及申请号为ZL202111225837.2，发明创造名称为“一种考虑路面附着条件的大型营运车辆防碰撞决策方法”的中国专利研究了不同路面附着条件下的驾驶决策方法，但未综合考虑碰撞、侧翻等因素对于行车安全的影响。智能网联商用车的行车安全受道路环境、路面附着系数、道路坡度和弯度等多因素影响，上述方法虽然可以起到一定的决策作用，但存在对不同交通环境的适应性差、决策不准确的问题。总体而言，现有的智能网联商用车驾驶决策方法，在安全性和环境适应性上仍存在着较大的不足，尚缺乏适应于不同路面状况的智能网联商用车安全驾驶决策方法。

发明内容

发明目的：为了解决现有的智能网联商用车驾驶决策方法缺乏安全性和环境适应性的问题，本发明提出了一种考虑路面附着条件等智能网联商用车安全驾驶决策方法。该方法综合考虑了路面附着条件、道路坡度和弯度等因素对于行车安全的影响，能够适应不同的交通环境和行驶工况，解决了现有的商用车驾驶决策方法适应性差、决策不准确的问题。同时，该方法使用的传感器成本较低，计算方法清晰，计算耗时低，可以实时地提供油门开度、方向盘转向角、制动踏板开度等连续决策输出，便于大规模推广。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种考虑路面附着条件等智能网联商用车安全驾驶决策方法，首先，将安全驾驶决策问题建模为有限马尔可夫决策模型，并定义决策模型的基本参数；其次，设计决策模型的网络架构；最后，训练决策模型的网络参数；其特征在于：该方法具体包括如下步骤：

步骤一：建立有限马尔可夫决策模型

具体表示为一个五元组：；其中，S和A分别表示状态集合和动作集合，R和P _a分别表示奖励函数和状态转移概率，/>表示折扣因子；

接下来，对所建决策模型的基本参数进行定义；首先，定义状态集合；状态集合包含自车运动状态信息、相对运动状态信息和环境信息三类感知信息；具体描述为：

（1）

式中，表示t时刻的状态集合，/>分别表示智能网联商用车，即自车的横向位置、纵向位置，单位为米；/>分别表示自车的横向速度和纵向速度，单位为米每秒；/>分别表示自车的横向加速度和纵向加速度，单位为米每二次方秒，/>表示自车的航向角，单位为度，/>表示自车与周围第i个交通参与者的相对横向间距、相对纵向间距和相对速度，单位分别为米、米和米每秒，/>表示道路的附着系数，/>分别表示道路的附着系数、坡度和弯度，单位度、米的负一次方；

为了获取上述信息，在商用车上安装若干车载传感器；具体而言，位置信息通过厘米级精度的北斗系统测量获得，速度信息通过轮速传感器测量获得，加速度和航向角信息通过惯性测量单元测量获得，相对车间距离和相对速度信息通过毫米波雷达测量获得，道路信息通过路侧单元发布获得；

其次，定义动作集合；利用连续的时间序列输出定义动作集合，具体表示为：

（2）

式中，表示t时刻的动作集合，/>表示方向盘转角控制量，单位为度，/>表示油门或制动踏板的控制量，取值为[-1,1]；当控制量为负数时，表示施加制动踏板的控制量，当控制量为正数时，表示施加油门踏板的控制量；

再次，定义综合考虑防碰撞和防侧翻因素的奖励函数，具体表示为：

（3）

式中，R _t表示t时刻的奖励函数，R ₁，R ₂，R ₃和R ₄分别表示前向防撞奖励函数、后向防撞奖励函数、防侧翻奖励函数和惩罚函数；

前向防撞奖励函数R ₁具体表示为：

（4）

式中，S _s表示两车的最小车间距离，S _f表示在此期间前车行驶的距离，S表示自车的行车距离，单位均为米，S通过下式计算获得；

（5）

式中，t ₁表示制动器开始增压到最大压力的时间，t ₂表示车辆持续制动到停车的时间，单位均为秒，a _max表示最大制动加速度，单位为米每二次方秒；v ₀表示车辆的初始速度，单位为米每秒；

车辆的最大制动加速度应随着路面附着条件自适应变化，具体表示为：

（6）

式中，g表示重力加速度；

后向防撞奖励函数R ₂具体表示为：

（7）

式中，表示t时刻的后向碰撞时间，单位为秒；

防侧翻奖励函数R ₃具体表示为：

（8）

惩罚函数R ₄表示当决策模型输出造成碰撞或侧翻的驾驶动作时，应对该策略施加负反馈，具体表示为：

（9）

步骤二：设计决策模型的网络架构

采用“演员-评论家”结构，设计了由策略网络和目标网络组成的网络架构；具体而言，策略网络将状态集合中的参数作为输入，输出安全驾驶策略，目标网络将状态集合和驾驶策略作为输入，输出Q值；策略网络和目标网络均由5层组成，即一个输入层、一个输出层和三个具有64个神经元的隐藏层，激活函数均采用线性整流函数；

步骤三：训练决策模型的网络参数

最后，采用双延迟深度确定性策略梯度算法更新决策模型的网络参数；首先，建立两个独立的目标网络来计算目标值，具体表示为：

（10）

式中，分别表示第一个目标网络和第二个目标网络的目标值，分别表示第一个目标网络及其参数，/>分别表示第二个目标网络及其参数，/>表示添加噪声的驾驶动作，r _i表示i时刻的奖励值，/>表示t+1时刻的状态集合；

利用下式计算损失函数：

（11）

（12）

式中，表示当前网络上一步的Q值，/>表示当前网络的参数，/>表示第i个目标网络，/>表示当前网络的损失，M表示更新的步数，/>表示当前网络当前的Q值，/>表示i时刻的状态集合，/>表示i时刻的驾驶动作；

接下来，对各个目标网络均使用软更新的方式进行更新，具体表示为：

（13）

式中，表示目标网络的参数，/>表示目标网络参数更新后的值，/>表示当前网络的参数，/>表示当前网络参数更新后的值，/>表示软更新速率；

当决策模型训练结束后，将厘米级精度的北斗系统、轮速传感器、惯性测量单元、毫米波雷达、路侧单元获取的信息输入到驾驶决策模型中，实时地输出方向盘转角、油门和制动踏板开度控制量，实现了自适应路面附着条件的智能网联商用车安全驾驶决策。

进一步地，软更新速率取值为0.001。

进一步地，采用双延迟深度确定性策略梯度算法更新决策模型的网络参数的过程中，策略网络参数更新速度比目标网络慢。

有益效果：相比于一般的驾驶决策方法，本发明提出的决策方法具有更为准确、可靠、自适应的特点，具体体现在：

（1）本发明提出的方法能够适应干燥、雨水、冰雪等不同路面条件，解决了现有的智能网联商用车驾驶决策方法缺乏环境适应性的问题。

（2）本发明提出的方法综合考虑了碰撞和侧翻对于行车安全的影响，且考虑了道路坡度、弯度，进一步提高了驾驶决策的安全性。

（3）本发明的决策方法使用的传感器成本较低，计算方法清晰，计算耗时低，可以实时地提供油门开度、方向盘转向角、制动踏板开度等连续决策输出，便于大规模推广。

附图说明

图1是本发明的技术路线图；

图2是实车实验结果。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

步骤一：建立有限马尔可夫决策模型

考虑到智能网联商用车的运动状态受当前时刻和上一时刻的运动状态影响，将安全驾驶决策问题转化为有限马尔可夫决策过程，建立有限马尔可夫决策模型，具体可以表示为一个五元组：。其中，S和A分别表示状态集合和动作集合，R和P _a分别表示奖励函数和状态转移概率，/>表示折扣因子。

接下来，对所建决策模型的基本参数进行定义。首先，定义状态集合。状态集合包含自车运动状态信息、相对运动状态信息和环境信息三类感知信息。具体描述为：

（1）

式中，表示t时刻的状态集合，/>分别表示智能网联商用车，即自车的横向位置、纵向位置，单位为米；/>分别表示自车的横向速度和纵向速度，单位为米每秒；/>分别表示自车的横向加速度和纵向加速度，单位为米每二次方秒，/>表示自车的航向角，单位为度，/>表示自车与周围第i个交通参与者的相对横向间距、相对纵向间距和相对速度，单位分别为米、米和米每秒，/>表示道路的附着系数，/>分别表示道路的附着系数、坡度和弯度，单位度、米的负一次方。

为了获取上述信息，可在商用车上安装若干车载传感器。具体而言，位置信息可以通过厘米级精度的北斗系统测量获得，速度信息可通过轮速传感器测量获得，加速度和航向角信息可通过惯性测量单元测量获得。此外，相对车间距离和相对速度信息可通过毫米波雷达测量获得，道路信息可通过路侧单元发布获得。

其次，定义动作集合。考虑到连续的决策输出能够直接生成决策控制序列，具有遍历解空间的优点，本发明利用连续的时间序列输出定义动作集合，具体表示为：

（2）

式中，表示t时刻的动作集合，/>表示方向盘转角控制量，单位为度，/>表示油门或制动踏板的控制量，取值为[-1,1]；当控制量为负数时，表示施加制动踏板的控制量，当控制量为正数时，表示施加油门踏板的控制量。

再次，定义奖励函数。为了反馈每一时刻驾驶动作的优劣，指导安全驾驶决策的更新，设计了综合考虑防碰撞和防侧翻因素的奖励函数，具体表示为：

（3）

式中，R _t表示t时刻的奖励函数，R ₁，R ₂，R ₃和R ₄分别表示前向防撞奖励函数、后向防撞奖励函数、防侧翻奖励函数和惩罚函数。

为了避免发生前向碰撞，设计了前向防撞奖励函数，具体表示为：

（4）

（5）

式中，t ₁表示制动器开始增压到最大压力的时间，t ₂表示车辆持续制动到停车的时间，单位均为秒，a _max表示最大制动加速度，单位为米每二次方秒；v ₀表示车辆的初始速度，单位为米每秒。

考虑到路面附着系数对于车辆的制动距离影响较大，为了提高安全驾驶决策的环境适应性，车辆的最大制动加速度应随着路面附着条件自适应变化，具体表示为：

（6）

式中，g表示重力加速度。

为了避免发生后向碰撞，设计了后向防撞奖励函数R ₂具体表示为：

（7）

式中，表示t时刻的后向碰撞时间，单位为秒。

为了避免车辆发生侧翻，设计了防侧翻奖励函数R ₃具体表示为：

（8）

当决策模型输出造成碰撞或侧翻的驾驶动作时，应对该策略施加负反馈。为此，设计了惩罚函数，具体可表示为：

（9）

步骤二：设计决策模型的网络架构

为了实现智能网联商用车的安全驾驶决策，采用“演员-评论家”结构，设计了由策略网络和目标网络组成的网络架构。具体而言，策略网络将状态集合中的参数作为输入，输出安全驾驶策略，目标网络将状态集合和驾驶策略作为输入，输出Q值。策略网络和目标网络均由5层组成，即一个输入层、一个输出层和三个具有64个神经元的隐藏层，激活函数均采用线性整流函数。

步骤三：训练决策模型的网络参数

最后，采用双延迟深度确定性策略梯度 (Twin Delayed Deep DeterministicPolicy Gradient Algorithm,TD3) 算法更新决策模型的网络参数。首先，建立两个独立的目标网络来计算目标值，具体表示为：

（10）

式中，分别表示第一个目标网络和第二个目标网络的目标值，分别表示第一个目标网络及其参数，/>分别表示第二个目标网络及其参数，/>表示添加噪声的驾驶动作，r _i表示i时刻的奖励值，/>表示t+1时刻的状态集合。

为了避免因Q值估计过高导致的模型难以收敛的问题，选取两个目标值中较小的值作为目标Q值，利用下式计算损失函数：

（11）

（12）

式中，表示当前网络上一步的Q值，/>表示当前网络的参数，/>表示第i个目标网络，/>表示当前网络的损失，M表示更新的步数，/>表示当前网络当前的Q值，/>表示i时刻的状态集合，/>表示i时刻的驾驶动作。

为了进一步提高网络的收敛速度，策略网络参数更新速度比目标网络慢，从而导致值函数的更新方差越小，得到的策略越好。

（13）

式中，表示目标网络的参数，/>表示目标网络参数更新后的值，/>表示当前网络的参数，/>表示当前网络参数更新后的值，/>表示软更新速率，在本实施例中，取值为0.001。

当决策模型训练结束后，将厘米级精度的北斗系统、轮速传感器、惯性测量单元、毫米波雷达、路侧单元获取的信息输入到驾驶决策模型中，可以实时地输出方向盘转角、油门和制动踏板开度控制量，实现了自适应路面附着条件的智能网联商用车安全驾驶决策。

为验证本发明方法的有效性，开展实车实验，其中实验用车为一汽解放J6P自卸车，在正常干燥沥青路面上进行实车实验，摩擦系数取0.6。对本发明方法进行训练后部署在以NVIDIA jetson tx2高性能边缘计算单元为核心的工控机中，最后实验结果如图2所示，从图上可以看出，本发明的方法考虑路面附着条件所用的刹车时间小于未考虑路面附着条件所用的刹车时间，同时从加速度曲线来看本发明方法防止反复刹车，保证了车辆运行的平稳性，为驾驶员提供较为舒适的驾驶环境。

Claims

1.一种考虑路面附着条件的智能网联商用车安全驾驶决策方法；其特征在于，该方法具体包括如下步骤：

步骤一：将安全驾驶决策问题建模为有限马尔可夫决策模型，并定义决策模型的基本参数；有限马尔可夫决策模型具体表示为一个五元组：{S，A，P_a，R，γ}；其中，S和A分别表示状态集合和动作集合，R和P_a分别表示奖励函数和状态转移概率，γ表示折扣因子，然后对所建决策模型的基本参数进行定义；

步骤二：采用“演员-评论家”结构，设计了由策略网络和目标网络组成的决策模型的网络架构；

步骤三：采用双延迟深度确定性策略梯度算法更新决策模型的网络参数；

步骤一所述对所建决策模型的基本参数进行定义具体包括：

首先，定义状态集合；状态集合包含自车运动状态信息、相对运动状态信息和环境信息三类感知信息；具体描述为：

式中，S_t表示t时刻的状态集合，p_x、p_y分别表示智能网联商用车，即自车的横向位置、纵向位置，单位为米；v_x、v_y分别表示自车的横向速度和纵向速度，单位为米每秒；a_x、a_y分别表示自车的横向加速度和纵向加速度，单位为米每二次方秒，表示自车的航向角，单位为度，x_i、y_i、v_i表示自车与周围第i个交通参与者的相对横向间距、相对纵向间距和相对速度，单位分别为米、米和米每秒，μ表示道路的附着系数，ρ、δ分别表示道路的附着系数、坡度和弯度，单位度、米的负一次方；

A_t＝[φ，ξ] (2)

式中，A_t表示t时刻的动作集合，φ表示方向盘转角控制量，单位为度，ξ表示油门或制动踏板的控制量，取值为[-1，1]；当控制量为负数时，表示施加制动踏板的控制量，当控制量为正数时，表示施加油门踏板的控制量；

R_t＝R₁+R₂+R₃+R₄ (3)

式中，R_t表示t时刻的奖励函数，R₁，R₂，R₃和R₄分别表示前向防撞奖励函数、后向防撞奖励函数、防侧翻奖励函数和惩罚函数；

前向防撞奖励函数R₁具体表示为：

式中，S_s表示两车的最小车间距离，S_f表示在此期间前车行驶的距离，S表示自车的行车距离，单位均为米，S通过下式计算获得；

式中，t₁表示制动器开始增压到最大压力的时间，t₂表示车辆持续制动到停车的时间，单位均为秒，a_max表示最大制动加速度，单位为米每二次方秒；v₀表示车辆的初始速度，单位为米每秒；

a_max≤μ·g (6)

式中，g表示重力加速度；

后向防撞奖励函数R₂具体表示为：

式中，t_RTTC(t)表示t时刻的后向碰撞时间，单位为秒；

防侧翻奖励函数R₃具体表示为：

惩罚函数R₄表示当决策模型输出造成碰撞或侧翻的驾驶动作时，应对该策略施加负反馈，具体表示为：

步骤三所述采用双延迟深度确定性策略梯度算法更新决策模型的网络参数，首先，建立两个独立的目标网络来计算目标值，具体表示为：

式中，y₁、y₂分别表示第一个目标网络和第二个目标网络的目标值，分别表示第一个目标网络及其参数，/>分别表示第二个目标网络及其参数，/>表示添加噪声的驾驶动作，r_i表示i时刻的奖励值，S_i+1表示t+1时刻的状态集合；

利用下式计算损失函数：

式中，Q′_k表示当前网络上一步的Q值，表示当前网络的参数，y_i表示第i个目标网络，/>表示当前网络的损失，M表示更新的步数，Q_k表示当前网络当前的Q值，S_i表示i时刻的状态集合，a_i表示i时刻的驾驶动作；

式中，θ表示目标网络的参数，表示目标网络参数更新后的值，ω_i表示当前网络的参数，/>表示当前网络参数更新后的值，τ表示软更新速率；

2.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法，其特征在于，为了获取步骤一中所述决策模型的基本参数，需要在商用车上安装若干车载传感器；具体而言，位置信息通过厘米级精度的北斗系统测量获得，速度信息通过轮速传感器测量获得，加速度和航向角信息通过惯性测量单元测量获得，相对车间距离和相对速度信息通过毫米波雷达测量获得，道路信息通过路侧单元发布获得。

3.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法，其特征在于，步骤二所述采用“演员-评论家”结构，设计了由策略网络和目标网络组成的决策模型的网络架构，具体而言，策略网络将状态集合中的参数作为输入，输出安全驾驶策略，目标网络将状态集合和驾驶策略作为输入，输出Q值；策略网络和目标网络均由5层组成，即一个输入层、一个输出层和三个具有64个神经元的隐藏层，激活函数均采用线性整流函数。

4.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法，其特征在于，软更新速率τ取值为0.001。

5.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法，其特征在于，采用双延迟深度确定性策略梯度算法更新决策模型的网络参数的过程中，策略网络参数更新速度比目标网络慢。