CN113954837A

CN113954837A - 一种基于深度学习的大型营运车辆车道变换决策方法

Info

Publication number: CN113954837A
Application number: CN202111309270.7A
Authority: CN
Inventors: 周炜; 董轩; 张学文; 胡玮明
Original assignee: Research Institute of Highway Ministry of Transport
Current assignee: Research Institute of Highway Ministry of Transport
Priority date: 2021-11-06
Filing date: 2021-11-06
Publication date: 2022-01-21
Anticipated expiration: 2041-11-06
Also published as: CN113954837B

Abstract

本发明公开了一种基于深度学习的大型营运车辆车道变换决策方法。首先，定义车道变换决策方法适用的营运车辆运动场景。其次，将车道变换决策问题描述为马尔科夫决策过程，利用软演员评论家算法建立大型营运车辆的车道变换决策模型，得到不同交通环境和行驶工况下的变道决策策略。本发明提出的决策方法，能够为驾驶员提供是否变道、何时变道等安全驾驶策略，实现了准确、有效的大型营运车辆车道变换驾驶决策，具备同时保障大型营运车辆防侧翻和防碰撞的能力，可以有效保障大型营运车辆变道过程中的行车安全。

Description

一种基于深度学习的大型营运车辆车道变换决策方法

技术领域

本发明涉及车辆驾驶控制技术，尤其是涉及一种大型营运车辆车道变换决策方法，属于汽车安全技术领域。

背景技术

大型营运车辆作为道路运输的主要承担者，其安全状况直接影响道路运输安全。大型营运车辆具有运营强度大、运行时间长，运行环境复杂等特点，在运输过程中更容易发生交通事故。

车道变换是行车过程中最常见也是最危险的驾驶行为之一，由其导致的碰撞等事故占比较高。车道变换驾驶决策是主动安全防控的重要一环，为了有效减少因车道变换导致的交通事故，需要在车道变换过程中，确定合理的安全驾驶决策策略。因此，研究大型营运车辆在车道变换过程中的驾驶决策，对于保障车辆运行安全、提高公路安全通行能力具有重要意义。

目前，已有较多文献、专利对车道变换驾驶决策进行了研究，研究对象主要为普通乘用车辆，部分文献针对出租车等小型营运车辆的变道行为进行了研究，但缺乏面向大型营运车辆变道决策的针对性研究。不同于普通乘用车辆和小型营运车辆，大型、特大型客车、半挂车等大型营运车辆具有质心位置高、外廓尺寸大、净质量大、载客和载货质量大等特点，导致其稳定性相对较差。在急转向或紧急变道过程中，车身的晃动进一步加剧了行车的不稳定性，极易失稳而发生侧翻。因此，针对大型营运车辆的车道变换决策研究，应同时具备保障车辆防碰撞和防侧翻的能力，而现有的针对普通乘用车辆或小型营运车辆的变道决策方法未考虑失稳侧翻等因素，难以适用于大型营运车辆。

总体而言，在车道变换驾驶决策的研究中，未涉及面向大型营运车辆的车道变换驾驶决策，特别是缺少准确、有效的大型营运车辆车道变换决策方法。

发明内容

(一)本发明解决的技术问题：

针对现有技术提出的缺少有效、准确的大型营运车辆车道变换决策方法的问题，本发明公开一种基于深度学习的大型营运车辆车道变换决策方法。该方法能够适应不同的交通环境和行驶工况，为驾驶员提供是否变道、何时变道等安全驾驶策略，实现了安全、有效的车道变换控制，具备同时保障大型营运车辆防侧翻和防碰撞的能力，可以有效保障大型营运车辆变道过程中的行车安全。

(二)本发明的技术方案：

一种基于深度学习的大型营运车辆车道变换决策方法，该方法包括如下步骤：

步骤一：定义车道变换决策方法适用的营运车辆运动场景

至少3条车道，大型营运车辆执行车道变换时刻，在目标车道存在着交通参与者；

步骤二：建立营运车辆车道变换决策模型

采用软演员评论家算法构建车道变换决策模型，具体包括以下3个子步骤：

子步骤1：定义车道变换决策模型的参数

对车道变换决策模型的基础参数进行定义，包括状态空间、动作空间以及对应的奖励函数：

(1)状态空间

式中，S_t表示t时刻的状态空间，P_lon,P_lat分别表示大型营运车辆的纵向位置和横向位置，v_lon,v_lat分别表示大型营运车辆的纵向速度和横向速度，a_lon,a_lat分别表示大型营运车辆的纵向加速度和侧向加速度，

分别表示大型营运车辆与第i辆车的相对纵向距离和相对横向距离，

分别表示大型营运车辆与第i辆车的相对速度和相对加速度，i＝1,2,3,4,5,6，表示当前车道和目标车道的交通参与者；

(2)动作空间

A_t＝[A_lat,A_lon] (2)

式中，A_t表示t时刻的动作空间，A_lat,A_lon分别表示输出的横向动作和纵向动作，且A_lat＝[A₁,A₂,A₃]，A_lon＝[A₄,A₅]，A₁,A₂,A₃分别表示大型营运车辆选择左侧车道为目标车道、选择当前车道为目标车道、选择右侧车道为目标车道的横向动作，A₄,A₅分别表示大型营运车辆选择跟随当前车道的前车、选择跟随换道车道的前车的纵向动作；

(3)奖励函数

R_t＝R₁(t)+R₂(t)+R₃(t)+R₄(t) (3)

式中，R_t为t时刻的奖励函数，R₁(t),R₂(t),R₃(t),R₄(t)分别表示t时刻的防碰撞奖励函数、防侧翻奖励函数、稳定性奖励函数和惩罚函数；

子步骤2：设计车道变换决策模型的网络架构

利用多个全连接层结构的神经网络建立策略网络和值函数网络：

(1)策略网络

首先，对大型营运车辆的自身运动状态量[P_lon,P_lat,v_lon,v_lat,a_lon,a_lat]进行归一化，并依次输入到全连接层H₁、全连接层H₂和全连接层H₃，得到输出O₁；

其次，对大型营运车辆与周围交通参与者的相对运动状态量

进行归一化，并依次输入到全连接层H₄、全连接层H₅和全连接层H₆，得到输出O₂；

最后，通过张量相加的方式，将输出的O₁和O₂进行合并，并输入到全连接层H₇，得到输出O₃，即具有特定特征的动作空间A_t；

(2)值函数网络

首先，将得到的动作空间A_t、归一化后的大型营运车辆运动状态量、相对运动状态量分别输入到全连接层H₈、H₉、H₁₀，分别得到输出O₄、O₅、O₆；

其次，通过张量相加的方式，将神经网络输出的O₄、O₅和O₆进行合并，并依次输入到全连接层H₁₁、H₁₂，得到输出O₇，即软Q值函数Q_θ(S_t,A_t)；

子步骤3：训练值函数网络和策略网络

包括以下步骤：

子步骤3.1：初始化网络参数；

子步骤3.2：初始化目标网络的权重；

子步骤3.3：初始化经验回放池；

子步骤3.4：在某一运动场景下，对状态空间、动作空间进行迭代求解；

子步骤3.5：当大型营运车辆利用车道变换决策模型输出的驾驶策略稳定有效地避免车辆碰撞、侧翻时，表示训练完成；

步骤三：利用车道变换决策模型输出驾驶策略

将行驶中状态空间的信息输入到已训练好的车道变换决策模型中，在线输出变道驾驶策略。

优选地：

(3.1)防碰撞奖励函数计算如下：

式中，F₁(t),F₂(t),F₃(t),F₄(t),F₅(t),F₆(t)分别表示大型营运车辆与正前、正后、左前、左后、右前、右后6个交通参与者发生碰撞危险的距离参数，通过式(5)求得：

式中，ρ表示防碰撞奖励函数的权重系数，

表示大型营运车辆在t时刻与第 i辆车的相对纵向距离；

(3.2)防侧翻奖励函数计算如下：

式中，α表示防侧翻奖励函数的权重系数，a_lat(t)表示大型营运车辆在t时刻的侧向加速度，

表示在不发生侧翻的情况下，大型营运车辆的侧向加速度阈值；

(3.3)稳定性奖励函数计算如下：

R₃(t)＝-β·|a_lon(t+1)-a_lon(t)| (7)

式中，β表示稳定性奖励函数的权重系数，a_lon(t)、a_lon(t+1)分别表示大型营运车辆在t时刻、t+1时刻的纵向加速度；

所述ρ、α、β权重系数由试验确定；

(3.4)惩罚函数计算如下：

优选地，在执行所述子步骤3.4过程中，若发现大型营运车辆发生碰撞或侧翻，则终止当前运动场景下的训练，更换新的场景进行训练。

(三)本发明的有益效果：

本发明提出的车道变换决策方法具有更为准确、有效的特点，具体体现在：

(1)本发明提出的方法能够适应不同的交通环境和行驶工况，输出的决策策略能够根据交通环境和行驶工况变化进行自适应调整，实现了准确、有效的大型营运车辆车道变换驾驶决策；

(2)本发明提出的方法综合考虑了横向和纵向驾驶行为对行车安全的影响，能够为驾驶员提供是否变道、何时变道等安全驾驶策略，具有明确的决策意图；

(3)本发明提出的方法考虑了失稳侧翻、动态安全间隙等因素，具备同时保障车辆防侧翻和防碰撞的能力，有效保障了大型营运车辆变道过程中的行车安全；

(4)本发明提出的方法无需进行复杂的动力学建模，计算方法简单清晰。

附图说明

图1是本发明的技术路线示意图；

图2是本发明描述的大型营运车辆车道变换运动场景示意图；

图3是本发明建立的车道变换决策模型的网络架构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明。

本发明针对大型营运车辆，如大型、特大型客车、半挂罐车，提出了一种基于深度强化学习的车道变换决策方法。为了防止车辆在车道变换中发生碰撞和侧翻事故，首先，定义车道变换决策方法适用的大型营运车辆运动场景。其次，将车道变换决策问题描述为马尔科夫决策过程，利用软演员评论家算法建立大型营运车辆的车道变换决策模型，得到不同交通环境和行驶工况下的变道决策策略，实现准确、有效的大型营运车辆车道变换驾驶决策。本发明的技术路线如图1所示，具体步骤如下：

步骤一：定义车道变换决策方法适用的营运车辆运动场景

在大型营运车辆执行车道变换的过程中，为了减少因车辆碰撞、侧翻造成的交通事故，提高大型营运车辆的运行安全性，本发明提出了一种车道变换驾驶决策方法，其适用的场景如图2所示，具体描述为：

在多车道的高等级公路上，大型营运车辆(即自车C₀)的前方、后方、两侧，均存在交通参与者，包括：当前车道的前方车辆C₁、当前车道的后方车辆C₂、左侧车道的前方车辆C₃、左侧车道的后方车辆C₄、右侧车道的前方车辆C₅和右侧车道的后方车辆C₆。这些位置的车辆，是车辆变道时最易受影响的车辆，当自车执行变道操作时，为了避免自车发生侧翻和碰撞事故，应重点考虑这些位置的车辆。

因此，本发明所适用的大型营运车辆车道变换运动场景是：在车道变换时刻，在目标车道存在着交通参与者。所谓交通参与者是指对车道变换决策产生影响的车辆或人或物。在本发明中，多车道是指车道的数量大于等于3。

步骤二：建立营运车辆车道变换决策模型

针对缺少准确、有效的大型营运车辆车道变换决策方法的问题，本发明综合考虑交通环境、行驶工况对行车安全的影响，建立准确、有效的车道变换决策模型。

周围交通参与者状态和驾驶员行为的复杂性和不确定性是影响驾驶决策的重要因素，考虑到深度强化学习对不确定性的适应性特点，以及对车辆运动状态等高维特征的充分挖掘和表征能力，本发明采用深度强化学习算法建立车道变换决策模型。

根据参数的更新方式，深度强化学习方法可以分为离线策略学习方法和在线策略学习方法两类。在线策略学习方法中，参数的每一次更新，均需要与环境进行交互，并对采集的新的经验样本进行学习。对于状态空间维度和任务复杂度较高的驾驶决策而言，网络的更新步骤和样本量激增，极大的增加了采样复杂度。近端策略优化 (Proximal PolicyOptimization,PPO)算法作为目前最主流的在线策略学习方法，仍存在着严重的采样低效的问题，无法保证变道驾驶决策的训练速度和有效性。

离线策略学习方法中，深度确定性策略梯度(Deep Deterministic PolicyGradient, DDPG)及其扩展算法，在采样有效性方面具有较好的效果，但是存在着对超参数敏感、收敛效果差的问题。

基于演员-评论家(Actor-Critic)架构的软演员评论家(Soft Actor Critic,SAC)算法，利用最大熵计算累计奖励，以离线策略的方式对随机策略进行优化，具有鲁棒性高、策略探索能力强、训练速度快等优点。因此，本发明采用软演员评论家算法构建车道变换决策模型，具体包括以下3个子步骤：

子步骤1：定义车道变换决策模型的参数

考虑到大型营运车辆的未来运动状态同时受当前运动状态和当前动作的影响，本发明将车道变换决策问题描述为马尔科夫决策过程(Markov Decision Process,MDP)，并对模型的基础参数进行定义：t时刻的状态空间S_t、t+1时刻的状态空间S_t+1、t时刻的动作空间A_t以及动作空间A_t对应的奖励函数R_t。具体地：

(1)定义状态空间

在大型营运车辆车道变换执行的过程中，应考虑大型营运车辆自身及其周围交通参与者的运动状态，本发明将状态空间定义为：

式中，S_t表示t时刻状态空间，P_lon,P_lat分别表示大型营运车辆(自车)的纵向位置和横向位置，单位均为米，v_lon,v_lat分别表示大型营运车辆的纵向速度和横向速度，单位均为米/秒，a_lon,a_lat分别表示大型营运车辆的纵向加速度和侧向加速度，单位均为米 /秒²。

分别表示大型营运车辆与第i辆车的相对纵向距离和相对横向距离，单位均为米，

分别表示大型营运车辆与第i辆车的相对速度和相对加速度，单位分别为米/秒、米/秒²。自车周围的交通参与者，可能为自车的前方车辆，也可能为自车的后方车辆，或侧前方、侧后方车辆，所以，i＝1,2,3,4,5,6。

S_t+1表示t+1时刻状态空间，均按上述方法确定。

(2)定义动作空间

为了综合考虑横向和纵向驾驶行为对车道变换决策的影响，本发明将离散的横向动作和纵向动作作为控制量，即动作空间可表示为：

A_t＝[A_lat,A_lon] (2)

式中，A_lat,A_lon分别表示输出的横向动作和纵向动作，且A_lat＝[A₁,A₂,A₃]， A_lon＝[A₄,A₅]，其中，A₁,A₂,A₃分别表示大型营运车辆选择左侧车道为目标车道、选择当前车道为目标车道、选择右侧车道为目标车道的相应的横向动作，A₄,A₅分别表示大型营运车辆选择跟随当前车道的前车、选择跟随换道车道的前车的相应的纵向动作。

(3)定义奖励函数

行车安全是车道变换过程中最重要的关注点。在安全方面，大型营运车辆不仅要避免发生车辆碰撞，还应避免自身发生侧翻。本发明将奖励函数设计为：

R_t＝R₁(t)+R₂(t)+R₃(t)+R₄(t) (3)

式中，R_t为t时刻的奖励函数，R₁(t),R₂(t),R₃(t),R₄(t)分别表示t时刻的防碰撞奖励函数、防侧翻奖励函数、稳定性奖励函数和惩罚函数。

首先，为了避免发生车辆碰撞，大型营运车辆应与周围车辆保持一定的安全间隙。传统的防碰撞奖励函数中，常利用固定值作为防碰撞的安全间隙阈值，仅适用于某些特定的工况，但在其他工况下阈值过大或过小，无法随着行驶工况的改变做出响应。因此，本发明设计了考虑行驶工况和动作决策变化的防碰撞奖励函数：

式中，F₁(t),F₂(t),F₃(t),F₄(t),F₅(t),F₆(t)分别表示大型营运车辆与前述描述的6个交通参与者发生碰撞危险的距离参数，可通过式(5)求得：

式中，ρ表示防碰撞奖励函数的权重系数；

表示大型营运车辆在t时刻与第i辆车的相对纵向距离，i＝1,2,3,4,5,6。

其次，为了避免大型营运车辆自身发生侧翻，在车道变换过程中，应避免出现较大的侧向加速度，因此设计防侧翻奖励函数为：

表示在不发生侧翻的情况下，大型营运车辆的侧向加速度阈值。

再次，为了保证大型营运车辆的横摆稳定性，应尽可能地避免出现急加速、急减速的情况，设计稳定性奖励函数：

R₃(t)＝-β·|a_lon(t+1)-a_lon(t)| (7)

式中，β表示稳定性奖励函数的权重系数，a_lon(t)、a_lon(t+1)分别表示大型营运车辆在t时刻、t+1时刻的纵向加速度。

以上ρ、α、β几个权重系数都是由试验确定。

最后，对训练迭代过程中出现的碰撞、侧翻事故进行惩罚，设计惩罚函数：

子步骤2：设计车道变换决策模型的网络架构

利用演员-评论家(Actor-Critic)网络架构搭建如图3所示的车道变换决策网络，包括策略网络和值函数网络两部分。其中，策略网络用于对状态空间S_t的特征提取，从而输出动作空间A_t；值函数网络用于接收状态空间S_t和动作空间A_t，从而评估当前策略的价值。具体地：

(1)设计策略网络

利用多个全连接层结构的神经网络建立策略网络。

首先，利用最值归一化方法，对描述大型营运车辆自身运动的状态量 [P_lon,P_lat,v_lon,v_lat,a_lon,a_lat]进行归一化，并依次输入到全连接层H₁、全连接层H₂和全连接层H₃，得到输出O₁。

其次，利用最值归一化方法，将描述大型营运车辆与周围交通参与者相对运动的状态量

进行归一化，并依次输入到全连接层H₄、全连接层H₅和全连接层H₆，得到输出O₂。

最后，通过张量相加的方式，将神经网络输出的O₁和O₂在合并层进行合并，并与全连接层H₇相连，得到输出O₃，即具有特定特征的动作空间A_t。

进一步地，设置全连接层H₁、H₂、H₃、H₄、H₅、H₆、H₇的神经元数量分别为6， 100，50，24，100，50，50，各层的激活函数均为线性修正单元(The Rectified Linear Unit, ReLU)。

(2)设计值函数网络

利用多个全连接层结构的神经网络建立值函数网络。

首先，将动作空间、归一化后的大型营运车辆运动状态量、相对运动状态量分别输入到全连接层H₈、H₉、H₁₀，分别得到输出O₄、O₅、O₆。

其次，通过张量相加的方式，将神经网络输出的O₄、O₅和O₆进行合并，并依次与全连接层H₁₁、H₁₂相连，得到输出O₇，即软Q值函数Q_θ(S_t,A_t)。

进一步地，设置全连接层H₈、H₉、H₁₀、H₁₁、H₁₂的神经元数量分别为2、6、24、 100、50。各层的激活函数均为ReLU。

子步骤3：训练值函数网络和策略网络

软演员评论家算法中的策略网络和值函数网络均存在各自的网络参数，在训练迭代时更新这两部分的网络参数，使得网络收敛以得到更佳的结果。具体训练更新步骤包括：

子步骤3.1：初始化网络参数；

子步骤3.2：初始化目标网络的权重；

子步骤3.3：初始化经验回放池；

子步骤3.4：进行迭代求解，每一次迭代包括子步骤3.41至子步骤3.42；

子步骤3.41：随机选取三个大型营运车辆车道变换运动场景中的一个(如图2所示)，作为当前回合的训练环境；

子步骤3.42：对环境中的状态空间、动作空间进行迭代求解，迭代方式可参考文献([1]Haarnoja T,Zhou A,Abbeel P,et al.Soft Actor-Critic:Off-Policy MaximumEntropy Deep Reinforcement Learning with a Stochastic Actor[J].2018.)

子步骤3.5：重复子步骤3.1至子步骤3.4，直到训练过程结束。

在训练过程中，若大型营运车辆发生碰撞或侧翻，则终止当前回合并开始新的回合进行训练。当大型营运车辆利用模型输出的驾驶策略稳定有效地避免车辆碰撞、侧翻时，表示训练完成。

步骤三：利用车道变换决策模型输出驾驶策略

将状态空间的信息输入到已训练好的车道变换决策模型中，在线输出变道决策策略，即特定特征的动作空间，为驾驶员提供是否变道、何时变道、怎么变道等驾驶建议，从而实现准确、有效的大型营运车辆车道变换驾驶决策。