CN114407925A

CN114407925A - 一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法

Info

Publication number: CN114407925A
Application number: CN202210067361.2A
Authority: CN
Inventors: 蔡英凤; 杨绍卿; 滕成龙; 刘泽; 孙晓强; 陈龙; 王海
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-29
Anticipated expiration: 2042-01-20
Also published as: CN114407925B

Abstract

本发明公开了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法，属于自动驾驶驾驶技术领域，通过机器学习来生成自动驾驶车辆的规划轨迹，使得规划轨迹更加智能化，提高了自动驾驶车辆在复杂场景下的轨迹规划能力，提高了普通采样法进行轨迹规划算法的效率，避免了复杂交通场景下的无效采样；本发明提出使用时空鸟瞰图作为策略网络的输入状态量，使得轨迹规划策略网络能有效的提取周边交通环境特征；本发明提出的策略梯度算法实现自动驾驶轨迹规划的方法，将交通环境、规划器和控制器有效联系起来，实现了三者的有效耦合，使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。

Description

一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法

技术领域

本发明属于自动驾驶汽车轨迹规划技术领域，特别涉及了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法。

背景技术

近年来自动驾驶技术得到了迅速发展。它不仅在经济上具有巨大潜力，而且在提高交通效率和驾驶安全方面也具有巨大优势。轨迹规划作为自动驾驶系统中不可避免的一环，对整个自动驾驶车辆的研究具有重要意义。如何根据上层感知和预测结果，准确避开周边障碍物，进行安全和高效的行驶，是对自动驾驶车辆的基本要求。可靠的自动驾驶轨迹规划算法，可以实时指导自动驾驶车辆安全地避开周边障碍物，具有较高的安全和舒适性，能够极大的提高行车效率。现有的规划算法大都是基于人为规则的采样、搜索方法和优化法。一般的类似栅格法的采样方法难以进行完全采样，只能采样到较优的行驶轨迹。而完全的搜索方法，较难考虑到自动驾驶车辆的动力学约束。利用优化法进行轨迹规划算法对车载计算机的算力有较高的要求，每一帧之间轨迹的优化延时较大。因此，目前学术界和工业界在内的大多数自主驾驶研究者都在关注更加智能、安全和可靠的轨迹规划方法。

强化学习通过机器学习的方式，利用环境中提取的状态特征，做出相应的动作输出，进一步获得周边环境的反馈，再通过反馈不断完善自身的方法。目前，越来越多的学者将其应用到自动驾驶领域。利用强化学习训练规划器，训练出直接映射交通环境和规划轨迹的模型，使得该模型成为一种智能的轨迹规划器，能够适应复杂的交通场景，通过环境的反馈不断自我完善，最终规划出的轨迹可以超于一般基于规则的轨迹规划算法。但如何设计一种有效的算法和应用方式，凸显强化学习方法在自动驾驶轨迹规划方面的优势成为了大多数研究学者关注的重点。

发明内容

基于上述问题，本发明设计了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法，利用策略梯度算法，提高自动驾驶车辆行驶安全性，使得自动驾驶车辆的行驶轨迹更加智能化。与策略梯度算法相配合提出的时空鸟瞰图作为状态量，能够加强策略网络特征提取的能力，使得网络收敛更加容易，提高了方法的可行性。

一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统，包括两部分：基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块。

所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块具体设计如下：

(1)根据自动驾驶汽车的感知模块，获得周边的环境信息，包括动、静态障碍物，车道线。利用预测模块获得动态障碍物在未来0～t_end的时间内的位置信息；

(2)将感知模块和预测模块所获得的信息，生成横向、纵向和时间三个维度的时空鸟瞰图；

(3)利用策略网络，对时空鸟瞰图进行进一步的特征提取，并输出轨迹的末状态

其中s为纵向位移；

为纵向位移s关于时间t的一阶导，

为纵向位移s关于时间t的二阶导数；l为横向位移；

为横向位移关于时间t的一阶导数；

为横向位移关于时间t的二阶导数；

(4)根据当前时刻自动驾驶车辆的纵向状态

和策略网络输出的纵向状态

生成纵向轨迹trajectory_longitudinal；根据当前时刻自动驾驶车辆的横向状态

生成横向轨迹trajectory_lateral；

(5)将纵向轨迹trajectory_longitudinal和横向轨迹trajectory_lateral进行合并生成最终轨迹trajectory发送到控制模块。控制模块控制实车跟踪生成的最终轨迹trajectory。进一步，所述时空鸟瞰图为三维矩阵，三维分别为横向位移l、纵向位移s和时间t。其中具体的元素有可行驶区域，不可行驶区域，障碍物和参考线；

进一步，所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示；所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示；所述的参考线在时空鸟瞰图中用1进行表示。

所述轨迹规划策略网络π_θ(z,a)具体包括卷积(CNN)特征提取网络和全连接网络(FCN)两部分。其中z为策略网络的输入状态量，包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹；a为策略网络的输出，即规划轨迹的末状态

θ为网络的权重和偏置参数。

进一步，所述策略网络π_θ(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法进行优化更新；

进一步，所述奖励函数R(τ)为：

R(τ)＝k₁·R_speed+k₂·R_accleration+k₃·R_jerk+k₄·R_lateral+k₅·R_comfort

其中，R_speed为纵向速度奖励，R_accleration为纵向加速度奖励，R_jerk为纵向加加速度奖励(即加速度的导数)，R_lateral为横向偏差奖励，R_comfort为横向舒适度奖励，k_1～5为每部分奖励前对应的比例系数；

进一步，所述纵向速度奖励R_speed为：

其中γ为奖励函数的折扣因子，

为期望的目标车速，

为每个时刻的规划车速；

进一步，所述纵向加速度奖励R_accleration为：

其中γ为奖励函数的折扣因子，其中

为每个时刻的规划加速度；

进一步，所述纵向加加速度奖励R_jerk具体表示为：

其中γ为奖励函数的折扣因子，其中

为每个时刻的规划加加速度；

进一步，所述横向偏差奖励R_lateral具体表示为：

其中γ为奖励函数的折扣因子，其中l_t为每个时刻的横向位移，l_reference为参考线上距离当前时刻规划轨迹点最近点的横向位移；

进一步，所述横向舒适度奖励R_comfort具体表示为：

其中γ为奖励函数的折扣因子，其中

为每个时刻的横向加速度；

进一步，所述策略网络π_θ(z,a)的优化目标为最大输出规划轨迹的期望回报：

J(π)＝∑_τp(τ,θ)·R(τ)

其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率；

进一步，所述策略网络π_θ(z,a)的优化方法为梯度上升法，其中ω为更新步长：

其中优化函数的梯度

为：

所述轨迹规划策略网络从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器，轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory。交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络。策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。

本发明基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划方法部分在下面具体实施方式里结合实施例描述。

本发明的有益效果为：

(1)本发明通过机器学习来生成自动驾驶车辆的规划轨迹，使得规划轨迹更加智能化，提高了自动驾驶车辆在复杂场景下的轨迹规划能力；

(2)本发明通过机器学习的方法，提高了普通采样法进行轨迹规划算法的效率，避免了复杂交通场景下的无效采样；

(3)本发明提出使用时空鸟瞰图作为策略网络的输入状态量，使得轨迹规划策略网络能有效的提取周边交通环境特征；

(4)本发明提出的策略梯度算法实现自动驾驶轨迹规划的方法，将交通环境、规划器和控制器有效联系起来，实现了三者的有效耦合，使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。

附图说明

图1为基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划流程图；

图2为时空鸟瞰图与规划轨迹具体描述图；

图3为轨迹规划策略网络结构图；

图4为规划器-控制器-环境关系图；

具体实施方式

下面将结合附图说明及具体实施方式具体对本发明作进一步的说明，但本发明的保护范围并不仅限于此。

图1为基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划流程图，具体的流程如下所示：

(2)将感知模块和预测所获得的信息，根据当前时刻感知模块获得的周边障碍物信息生成当前时刻的横向和纵向两个维度的空间鸟瞰图；根据预测模块获得的周边障碍物的预测信息，对当前时刻空间鸟瞰图上障碍进行位置转变，生成未来每个时刻的空间鸟瞰图；最后将各个时刻的空间鸟瞰图在时间维度上进行拼接，生成最终的横向、纵向和时间三个维度的时空鸟瞰图；

其中s为纵向位移；

为纵向位移s关于时间t的一阶导，

为纵向位移s关于时间t的二阶导数；l为横向位移；

为横向位移关于时间t的一阶导数；

为横向位移关于时间t的二阶导数；

(4)根据当前时刻自动驾驶车辆的纵向状态

和策略网络输出的纵向状态

生成横向轨迹trajectory_lateral；

(5)将纵向轨迹trajectory_longitudinal和横向轨迹trajectory_lateral进行合并生成最终轨迹trajectory发送到控制模块。

图2为时空鸟瞰图与规划轨迹具体描述图，如图所示，所述的时空鸟瞰图为三维矩阵，三维分别为横向位移l、纵向位移s和时间t。图2中的具体元素包括：(a)自车当前的位置状态；(b)自车规划末状态的位置状态；(c)障碍物；(d)不可行驶区域；(e)可行使区域；(f)参考线；(g)规划轨迹。

所述的三维时空鸟瞰图矩阵的尺寸为(40，400，80)。其中第一维40表示参考线左右各10m的横向范围，横向位移间隔为0.5m；第二维400表示以自车为原点向前纵向200m的范围，纵向位移间隔为0.5m，第三维80表示未来8s内的时间范围，时间间隔为0.1s。

所述的(c)障碍物和(d)不可行驶区域在时空鸟瞰图矩阵中用-1进行表示；所述的(e)可行驶区域在时空鸟瞰图矩阵中用0进行表示；所述的(f)参考线在时空鸟瞰图中用1进行表示。具体的，当时空鸟瞰图矩阵中的点[α,β,γ]为-1，表示该点在时空间中存在障碍物或为不可行驶区域；当时空鸟瞰图矩阵中的点[α,β,γ]为0，表示该点在时空间中为可行驶区域；当时空鸟瞰图矩阵中的点[α,β,γ]为1，表示该点为参考线的一个点。在矩阵中，参考线表示的优先级高于(c)障碍物、(d)不可行驶区域和(e)可行驶区域。

所述的(a)自车当前的位置、(b)自车规划末状态的位置、和(g)规划轨迹不在时空鸟瞰图矩阵中作具体的表示。所述(g)规划轨迹会避开所有(c)障碍物、(d)不可行驶区域，到达(b)自车规划末状态的位置。

图3为轨迹规划策略网络结构图，所述的策略网络π_θ(z,a)具体包括卷积(CNN)特征提取网络和全连接网络(FCN)两部分。其中z为策略网络的输入状态量，包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹；a为策略网络的输出，即规划轨迹的末状态

θ为网络的权重和偏置参数。

所述卷积(CNN)特征提取网络的输入为上述的时空鸟瞰图矩阵，输出为最终提取的环境特征信息。所述的全连接网络(FCN)的输入为卷积(CNN)特征提取网络输出的环境特征信息和自动驾驶汽车的历史轨迹信息，输出为轨迹的末状态

策略网络π_θ(z,a)的优化目标为最大输出规划轨迹的期望回报：

J(π)＝∑_τp(τ,θ)·R(τ)

其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率，R(τ)为轨迹τ的奖励函数。具体的，所述奖励R(τ)为：

其中，R_speed为纵向速度奖励，R_accleration为纵向加速度奖励，R_jerk为纵向加加速度奖励，R_lateral为横向偏差奖励，R_comfort为横向舒适度奖励，k_1～5为每部分奖励前对应的比例系数。

所述纵向速度奖励R_speed具体表示为：

其中γ为奖励函数的折扣因子，

为期望的目标车速，

为每个时刻的规划车速。

所述纵向加速度奖励R_accleration具体表示为：

其中γ为奖励函数的折扣因子，其中

为每个时刻的规划加速度。

所述纵向加加速度奖励R_jerk具体表示为：

其中γ为奖励函数的折扣因子，其中

为每个时刻的规划的纵向加加速度。

所述横向偏差奖励R_lateral具体表示为：

其中γ为奖励函数的折扣因子，其中l_t为每个时刻的横向位移，l_reference为参考线上距离当前时刻规划轨迹点最近点的横向位移。

所述横向舒适度奖励R_comfort具体表示为：

其中γ为奖励函数的折扣因子，其中

为每个时刻的横向加速度。

所述策略网络π_θ(z,a)的优化方法为梯度上升法：

具体的，所述优化目标函数J(π)对θ的导数为：

所述策略网络π_θ(z,a)的输出符合正态分布，具体包括均值μ(z,θ)和方差σ(z,θ)两个部分：

执行策略时，从该正态分布采样出动作

进行输出并执行。

图4为规划器-控制器-环境关系图。如图4所示，规划器智能体从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器，轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory。交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给规划器智能体。规划器智能体进行根据R(τ)对策略网络的参数θ进行不断更新优化。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统，其特征在于，包括：基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块；

所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块：根据自动驾驶汽车的感知模块，获得周边的环境信息，包括动、静态障碍物，车道线，利用预测模块获得动态障碍物在未来0～t_end的时间内的位置信息；将感知模块和预测模块所获得的信息，生成横向、纵向和时间三个维度的特征鸟瞰图；利用策略网络，对时空鸟瞰图进行进一步的特征提取，并输出轨迹的末状态

其中s为纵向位移；

为纵向位移s关于时间t的一阶导，

为纵向位移s关于时间t的二阶导数；l为横向位移；

为横向位移关于时间t的二阶导数；根据当前时刻自动驾驶车辆的纵向状态

和策略网络输出的纵向状态

生成横向轨迹trajectory_lateral；将纵向轨迹trajectory_longitudinal和横向轨迹trajectory_lateral进行合并生成最终轨迹trajectory发送到控制模块；

所述轨迹规划策略网络π_θ(z，a)包括卷积(CNN)特征提取网络和全连接网络(FCN)，其中z为策略网络的输入状态量，包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹；a为策略网络的输出，即规划轨迹的末状态

θ为网络的权重和偏置参数；

所述轨迹规划策略网络π_θ(z，a)从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器，轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory，交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络，策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。

2.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统，其特征在于，所述时空鸟瞰图为三维矩阵，三维分别为横向位移l、纵向位移s和时间t，其中具体的元素有可行驶区域，不可行驶区域，障碍物和参考线；

所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用-1进行表示；所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示；所述的参考线在时空鸟瞰图中用1进行表示。

3.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统，其特征在于，所述策略网络π_θ(z，a)通过生成轨迹的奖励函数R(τ)进行梯度上升法实现优化更新；

所述奖励函数R(τ)为：