CN117348415B

CN117348415B - 一种基于有限状态机的自动驾驶决策方法

Info

Publication number: CN117348415B
Application number: CN202311485787.0A
Authority: CN
Inventors: 于洪; 刘志成; 王烨; 钟福金
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Filing date: 2023-11-08
Publication date: 2024-06-04
Anticipated expiration: 2043-11-08

Abstract

本发明属于自动驾驶技术领域，具体涉及一种基于有限状态机的自动驾驶决策方法；该方法包括：将密集交通场景下的驾驶任务分解为三种驾驶子任务，包括变道、保持和姿态调整；对三种驾驶子任务分别进行马尔可夫建模；使用DQN算法求解马尔可夫决策过程，得到三种驾驶子任务的驾驶动作策略；根据驾驶过程中的任务切换过程构建有限状态机模型；根据有限状态机模型和驾驶动作策略得到驾驶决策并执行；本发明可解决DRL在自动驾驶决策任务中存在的稀疏回报问题，提高自动驾驶车在多样化驾驶环境中的适应能力，从而增强自动驾驶的可靠性和安全性。

Description

一种基于有限状态机的自动驾驶决策方法

技术领域

本发明属于自动驾驶技术领域，具体涉及一种基于有限状态机的自动驾驶决策方法。

背景技术

深度强化学习(DRL)融合了深度神经网络的表征能力和强化学习的决策推理能力，广泛应用于自动驾驶汽车的驾驶决策任务。在现实的驾驶场景中，智能体需要在快速变化的交通情境中做出决策，例如超车、躲避障碍物等。然而，在密集交通中，传统的DRL方法受到稀疏奖励问题的影响，使得智能体难以掌握复杂的交通决策策略。稀疏奖励限制了强化学习的学习效率，使得智能体难以快速获得正向反馈来引导策略的优化。

自动驾驶汽车在密集交通中的决策需要兼顾安全性、效率和舒适性，这使得奖励函数的设计变得复杂而困难。而传统的奖励设计方法无法充分引导智能体学习高质量的驾驶策略。在现有的研究中，虽然多目标强化学习、Reward Shaping、Inverse ReinforcementLearning等方法在一定程度上解决了稀疏奖励问题，但仍存在着无法适应多样驾驶情景、难以处理多目标权衡等问题。

综上所述，亟需一种自动驾驶决策方法，可缓解稀疏奖励问题，同时可适应多样驾驶情景，可在复杂动态的交通环境下取得有效性和鲁棒性。

发明内容

针对现有技术存在的不足，本发明提出了一种基于有限状态机的自动驾驶决策方法，该方法包括：

S1：将密集交通场景下的驾驶任务分解为三种驾驶子任务，包括变道、保持和姿态调整；

S2：对三种驾驶子任务分别进行马尔可夫建模；使用DQN算法求解马尔可夫决策过程，得到三种驾驶子任务的驾驶动作策略；

S3：根据驾驶过程中的任务切换过程构建有限状态机模型；

S4：根据有限状态机模型和驾驶动作策略得到驾驶决策并执行。

优选的，对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括：

为每个驾驶子任务定义马尔可夫决策过程的状态空间和动作空间；

搭建密集交通的仿真驾驶场景作为马尔可夫决策过程的状态转移概率矩阵；

分别为变道和姿态调整子任务设计奖励函数。

进一步的，马尔可夫决策过程的状态空间表示为：

S＝{S_{pos_ego，}S_{velocity_ego},S_{head_ego},S_{pos_ob},S_{velocity_ob}}

其中，S表示状态空间，S_{pos_ego}表示驾驶车在地图坐标系中的位置坐标，S_{velocity_ego}表示驾驶车的纵向和横向速度，S_{head_ego}表示驾驶车的车身转向角，S_{pos_ob}表示驾驶车的位置偏移，S_{velocity_ob}表示障碍车的纵向和横向速度；

马尔可夫决策过程的动作空间表示为：

A＝{LTL,LTS,S,RTS,RTL}

其中，A表示动作空间，LTL和RTL分别表示大角度的左、右转向动作，LTS和RTS分别代表小角度的左、右转向动作，S代表直行动作。

进一步的，变道的奖励函数为：

其中，r₁表示变道的奖励值，η表示位置奖励的修正系数，r_pos表示变道过程中的实时位置奖励，θ表示成功变道奖励值，ob_c表示当前车道内是否有障碍车，lane_in表示驾驶车是否发生了压线，colli表示驾驶车是否发生了碰撞。

进一步的姿态调整的奖励函数为：

其中，r₂表示姿态调整的奖励值，φ表示成功姿态调整奖励值，δ表示位置奖励的修正系数，表示姿态调整过程中的实时奖励，ε表示角度奖励的修正系数，r_angle表示姿态调整过程中的角度奖励，ld_hv表示智能驾驶车的横向位置，ld_center表示车道中心的横向位置，α表示预定义的横向位置阈值，head表示驾驶车的车身转向角，β表示预定义的转向角阈值，lane_in表示驾驶车是否发生了压线，colli表示驾驶车是否发生了碰撞。

优选的，构建有限状态机模型的过程包括：

确定有限状态机模型的所有状态；

根据有限状态机模型的状态和可行切换过程定义状态迁移路径集合；

定义状态迁移路径集合中所有状态迁移路径的触发条件。

进一步的，状态迁移路径的触发条件包括：

当驾驶车处于任务开始状态时，若驾驶车所在车道前方一定距离内没有障碍车，并且驾驶车偏离车道中心的距离与车身转向角都在预定义范围内，则驾驶车切换到变道子任务状态；

当驾驶车处于任务开始状态时，如果驾驶车所在车道前方一定距离内没有障碍车，并且驾驶车偏离车道中心的距离或车身转向角超过了预定义范围，则驾驶车切换到姿态切换子任务状态；

当驾驶车处于任务开始状态时，如果驾驶车所在车道前方一定距离内存在障碍车，并且另一车道中一定范围内不存在障碍车，则驾驶车切换到变道子任务状态；

当驾驶车处于保持子任务状态时，如果驾驶车偏离车道中心的距离或车身转向角超过了预定义范围，则驾驶车切换到姿态调整子任务状态；

当驾驶车处于保持子任务状态时，如果驾驶车所在车道前方一定距离内存在障碍车，并且另一车道中一定范围内不存在障碍车，则驾驶车切换到变道子任务状态；

当驾驶车处于姿态调整子任务状态时，如果驾驶车偏离车道中心的距离与车身转向角都在预定义范围内，则驾驶车切换到保持子任务状态；

当驾驶车处于姿态调整子任务状态时，如果驾驶车所在车道前方一定距离内存在障碍车，并且另一车道中一定范围内不存在障碍车，则驾驶车切换到变道子任务状态；

当驾驶车处于变道子任务状态时，如果驾驶车所在车道前方一定距离内不存在障碍车，则驾驶车切换到姿态调整子任务状态；

驾驶车处于保持、姿态调整或变道子任务状态时，若发生了压线、碰撞，或驾驶车到达目标地点，则驾驶车切换到任务结束状态。

优选的，根据有限状态机模型和驾驶动作策略得到驾驶决策的过程包括：

获取驾驶车的实时状态参数；

根据驾驶车的实时状态参数和有限状态机模型中状态迁移路径的触发条件确定驾驶车需要完成的子任务；

选择驾驶车需要完成的子任务对应的驾驶动作策略作为驾驶决策。

本发明的有益效果为：

本发明提出了一种基于有限状态机的自动驾驶决策方法，缓解了Sparse Reward为基于深度强化学习的驾驶决策任务带来的性能瓶颈；

本发明单独为每一个子任务进行马尔科夫决策过程建模，缩短了智能车的探索路径。子任务的奖励信号得以更高效地向前传播，在一定程度上缓解了深度强化学习的的贡献度分配困难问题；

本发明提供了一种和方式，将无需驾驶员干预的驾驶场景单独建模为一个Wheel-Holding子任务，实现了只在需要时做决策的目的。这一点，更符合真实的人类驾驶逻辑。

附图说明

图1为本发明中基于有限状态机的自动驾驶决策方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于有限状态机的自动驾驶决策方法，如图1所示，所述方法包括以下内容：

S1：将密集交通场景下的驾驶任务分解为三种驾驶子任务，包括变道、保持和姿态调整。

基于先验知识，定义密集交通场景下的3中驾驶行为：Lane-Changing(变道)、Posture-Adjustment(姿态调整)和Wheel-Holding(保持)；将3种驾驶行为作为密集交通场景下的三种驾驶子任务。

S2：对三种驾驶子任务分别进行马尔可夫建模；使用DQN算法求解马尔可夫决策过程，得到三种驾驶子任务的驾驶动作策略。

对三种驾驶子任务分别进行马尔可夫建模的过程包括：

为每个驾驶子任务定义马尔可夫决策过程的状态空间，表示为：

S＝{S_{pos_ego}，S_{velocity_ego},S_{head_ego},S_{pos_ob},S_{velocity_ob}}

其中，S表示状态空间；S_{pos_ego}＝(x_{pos_ego},y_{pos_ego})表示驾驶车在地图坐标系中的位置坐标，x_{pos_ego}表示横坐标，y_{pos_ego}表示纵坐标；S_{velocity_ego}＝(x_{velocity_ego},y_{velocity_ego})表示驾驶车的纵向和横向速度，x_{velocity_ego}为横向速度，y_{velocity_ego}为纵向速度；S_{head_ego}表示驾驶车的车身转向角；S_{pos_ob}＝(x_{pos_ob},y_{pos_ob})表示障碍车相对于驾驶车的位置偏移，x_{pos_ob}表示位置横向偏移，y_{pos_ob}表示位置纵向偏移；

S_{velocity_ob}＝(x_{velocity_ob},y_{velocity_ob})表示障碍车的纵向和横向速度。

马尔可夫决策过程的动作空间表示为：

A＝{LTL,LTS,S,RTS,RTL}

搭建密集交通的仿真驾驶场景作为马尔可夫决策过程的状态转移概率矩阵。

Wheel-Holding子任务代表真实驾驶情景中“无需驾驶员干预”的情形。这一状态下的驾驶决策不需要学习，只需保持原有的驾驶决策即可(无需驾驶员干预)，当驾驶车为保持状态时，其状态参数始终保持在预设范围内，优选的，保持预定义的横向位置和预定义的转向角均不超过阈值。

分别为变道和姿态调整子任务设计奖励函数；具体的：

变道子任务的奖励函数设计需要考虑三种情况：成功、失败、其他；变道的奖励函数为：

其中，r₁表示变道的奖励值，η表示位置奖励的修正系数；r_pos表示变道过程中的实时位置奖励，是驾驶车与目标横向位置距离成负相关的实数值；θ表示成功变道奖励值，ob_c表示当前车道内是否有障碍车，lane_in表示驾驶车是否发生了压线，colli表示驾驶车是否发生了碰撞，ld_hv表示智能驾驶车的横向位置，d_{target-center}表示变道时的目标车道的车道中心横向位置。

当驾驶车完成了变道子任务时，获取一个正向的奖励θ。反之，当驾驶车因压线或碰撞而导致变道子任务失败时，获取一个负向的惩罚-θ；其他情况获得奖励ηr_pos，其他情况指正在变道过程中，既尚未完成变道，也并未压线或撞车的情形。

姿态调整子任务的奖励函数设计同样需要考虑三种情况：成功、失败、其他(正在姿态调整过程中，既尚未完成姿态调整，也并未压线或撞车的情形)；姿态调整的奖励函数为：

其中，r₂表示姿态调整的奖励值，φ表示成功姿态调整奖励值，δ表示位置奖励的修正系数，表示姿态调整过程中的实时奖励，ε表示角度奖励的修正系数，r_angle表示姿态调整过程中的角度奖励，ld_hv表示智能驾驶车的横向位置，ld_center表示车道中心的横向位置，α表示预定义的横向位置阈值，head表示驾驶车的车身转向角，β表示预定义的转向角阈值，lane_in表示驾驶车是否发生了压线，colli表示驾驶车是否发生了碰撞；ω表示预定义的车身转向角阈值，超过这个阈值奖励信号是负数，表示惩罚，在这个阈值内，奖励信号是正数，表示奖励；d表示预定义的偏离车道中心横向距离阈值，超过这个阈值奖励信号是负数，表示惩罚，在这个阈值内，奖励信号是正数，表示奖励；w表示预定义第一权重系数，目的是保证w-|ld_hv-ld_center|是一个正数；χ表示第二预定义权重系数，目的是保证χ-|head|是一个正数。

当驾驶车完成了姿态调整子任务时，获取一个正向的奖励φ。反之，当驾驶车因压线或碰撞而导致姿态调整子任务失败时，获取一个负向的惩罚-φ；r_pos表示姿态调整子任务过程中其他情况的位置实时奖励。当驾驶车横向位置与车道中心距离小于预定义阈值d时，r_pos表现为一个正向的实值奖励。当智能车横向位置与车道中心距离超过预定义阈值d时，r_pos表现为一个负向的实值惩罚。

采用DQN(Deep Q-Learning)算法求解马尔可夫决策过程，可得到三种驾驶子任务的驾驶动作策略。

S3：根据驾驶过程中的任务切换过程构建有限状态机模型。

构建有限状态机模型的过程包括：

确定有限状态机模型的所有状态，表示为：

其中，S₀表示驾驶任务的开始状态，S₁、S₂、S₃分别表示驾驶车处于保持、姿态调整、变道的子任务状态，S₄表示驾驶任务的结束状态。

根据有限状态机模型的状态和可行切换过程定义状态迁移路径集合T：

T＝{T₀₁,T₀₂,T₀₃,T₁₂,T₁₃,T₂₁,T₂₃,T₃₂,T₁₄,T₂₄,T₄₃}

例如，T₁₂表示从保持子任务到姿态调整子任务的状态迁移。

定义状态迁移路径集合中所有状态迁移路径的触发条件，包括：

获取驾驶车的实时状态参数。

根据驾驶车的实时状态参数和有限状态机模型中状态迁移路径的触发条件确定驾驶车需要完成的子任务；具体的：将获取的驾驶车实时状态参数作为输入事件输入到有限状态机模型中，有限状态机模型根据其状态迁移的触发规则，得到驾驶车需要完成的实时子任务。

选择驾驶车需要完成的子任务对应的驾驶动作策略，获取该驾驶动作策略下的驾驶车控制参数，根据驾驶车控制参数执行，以使得驾驶车转移到新的状态，完成驾驶子任务。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于有限状态机的自动驾驶决策方法，其特征在于，包括：

S2：对三种驾驶子任务分别进行马尔可夫决策过程建模；使用DQN算法求解马尔可夫决策过程，得到三种驾驶子任务的驾驶动作策略；

S3：根据驾驶过程中的任务切换过程构建有限状态机模型；构建有限状态机模型的过程包括：

确定有限状态机模型的所有状态；

定义状态迁移路径集合中所有状态迁移路径的触发条件；状态迁移路径的触发条件包括：

驾驶车处于保持、姿态调整或变道子任务状态时，若发生了压线、碰撞，或驾驶车到达目标地点，则驾驶车切换到任务结束状态；

2.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法，其特征在于，对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括：

分别为变道和姿态调整子任务设计奖励函数。

3.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法，其特征在于，马尔可夫决策过程的状态空间表示为：

S＝{S_{pos_ego，}S_{velocity_ego,}S_{head_ego,}S_{pos_ob,}S_{velocity_ob}}

马尔可夫决策过程的动作空间表示为：

A＝{LTL,LTS,S,RTS,RTL}

4.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法，其特征在于，变道的奖励函数为：

5.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法，其特征在于，姿态调整的奖励函数为：

6.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法，其特征在于，根据有限状态机模型和驾驶动作策略得到驾驶决策的过程包括：

获取驾驶车的实时状态参数；