CN114715193B

CN114715193B - 一种实时轨迹规划方法及系统

Info

Publication number: CN114715193B
Application number: CN202210396772.6A
Authority: CN
Inventors: 蒲华燕; 刘海; 马捷; 郑旭阳; 罗均; 陈永兵; 黄静; 陈超; 吴飞
Original assignee: Chongqing Chang'an Wangjiang Industry Group Co ltd; Chongqing University; University of Shanghai for Science and Technology
Current assignee: Chongqing Chang'an Wangjiang Industry Group Co ltd; Chongqing University; University of Shanghai for Science and Technology
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2024-07-23
Anticipated expiration: 2042-04-15
Also published as: CN114715193A

Abstract

本发明涉及一种实时轨迹规划方法及系统，属于自动驾驶轨迹规划领域，采用预演的方式，使用动态障碍物的预测信息和车辆自身的运动学模型进行状态更新，利用强化学习对未来时间的轨迹进行决策，生成粗略轨迹为后端的轨迹优化提供初始解从而提高粗略轨迹的生成效率。在后端的轨迹优化上，采用固定纵向采样距离，优化横向距离和时间的方法，使其能够处理在道路中常见的区域依赖约束，从而生成更加可靠安全的轨迹。

Description

一种实时轨迹规划方法及系统

技术领域

本发明涉及自动驾驶轨迹规划领域，特别是涉及一种实时轨迹规划方法及系统。

背景技术

轨迹规划是自动驾驶技术的重要一环，指在满足动力学约束、运动学约束、避碰约束等约束情况下，按照给定的评价指标(例如通行时间，耗能等)，在有限道路空间，寻找车辆从起始状态到目标状态的时空运动轨迹。对于自动驾驶的轨迹规划，目前存在解耦轨迹规划和直接轨迹规划两种方法，解耦规划将高维度的轨迹规划问题解耦成路径-速度规划，或者横向-纵向规划，通过解耦，轨迹求解的效率得到一定程度的提升，但是得到的轨迹往往是次优解。对于直接规划，目前的主要处理方式是先通过传统的轨迹规划方法得到粗略的可行轨迹，然后在粗略轨迹上进行轨迹优化从而得到满足约束条件且最大化性能指标的轨迹，比如说在动态环境中，其往往先采用基于搜索或者采样的方法获取初始可行轨迹，然后在初始可行轨迹的基础上，采用非线性优化或者线性优化的方法对粗略轨迹进行优化以满足一些评价指标。

对于直接轨迹规划方法，在获取粗略可行轨迹的时候，基于搜索和基于采样的方法往往会出现维数灾难，导致初始轨迹的获取时间成本较高。目前的强化学习应用于自动驾驶中时，其往往是直接与现实环境进行交互进而做出相应的动作，如图1所示，这种处理方式未能考虑未来一段时间的状态，且有可能会出现一些没有远见的决策。

对于后端的轨迹优化，目前的方法大多是在固定时间间隔的基础上对车辆的控制输入和状态进行优化，但是在实际的轨迹规划过程中，很多的约束往往是与空间位置状态有关的区域依赖约束，比如说在结构化道路中的限速要求，经过减速带、弯道时的速度要求，以及转弯时候的横向加速度约束等。

发明内容

本发明的目的是提供一种实时轨迹规划方法及系统，以生成更加可靠安全的轨迹。

为实现上述目的，本发明提供了如下方案：

一种实时轨迹规划方法，包括：

获取车辆当前时刻所处真实环境的状态信息和预测的动态障碍物状态；所述状态信息包括自身车辆状态、动态障碍物状态和静态障碍物的位置；

将所述状态信息从笛卡尔坐标系投影到弗莱纳坐标系下的状态空间形式，获得当前帧状态空间信息；

根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值；所述决策神经网络模型通过采用DQN强化学习方法训练神经网络获得；

根据自身车辆在当前时刻的决策动作值和时间步长，利用车辆自身的运动学模型，获得自身车辆在下一时刻的自身车辆状态；

将下一时刻的自身车辆状态、预测的下一时刻的动态障碍物状态、静态障碍物的位置和当前交通信息构成下一帧状态空间信息；

将下一帧状态空间信息更新为当前帧状态空间信息，并返回步骤“根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值”，直至完成整个未来规划周期的决策，同时将整个未来规划周期内获得的自身车辆状态形成自身车辆在未来规划周期的粗略轨迹；

构建以粗略轨迹上相邻轨迹点之间的纵向距离为固定量的轨迹优化目标函数；

以轨迹优化目标函数最大化为目标，利用非线性规划求解器求解所述轨迹优化目标函数，获得最优轨迹。

可选的，所述自身车辆状态包括：自身车辆的位置、速度和方向角；

所述动态障碍物状态包括：动态障碍物的位置和速度；

所述决策动作值包括：加速度和偏航角变化量。

可选的，所述决策神经网络模型的训练过程为：

构建状态空间；所述状态空间包括栅格地图和道路规则；所述栅格地图包括将自身车辆和周围障碍物的位置投影到栅格地图上的位置层和将自身车辆和周围障碍物的速度投影到栅格地图上的速度层；所述道路规则包括道路信息、红绿灯信息、到停止线距离和当前的限速；

构建由离散化的加速度和离散化的偏航角变化量组成的动作空间；

设置奖励函数；

获取以状态空间信息为输入，以动作空间信息为输出构成的训练集；

利用所述训练集，基于奖励函数，在仿真环境中采用DQN强化学习方法训练神经网络模型，获得决策神经网络模型。

可选的，所述运动学模型为：

其中，v_t,θ_t,y_t,x_t分别表示自身车辆在t时刻的速度、方向角、纵向坐标、横向坐标，v_t+1,θ_t+1,y_t+1,x_t+1分别表示自身车辆在t+1时刻的速度、方向角、纵向坐标、横向坐标，Δt为时间步长，a_t表示自身车辆在t时刻的加速度，Δyaw_t表示自身车辆在t时刻的偏航角变化量。

可选的，所述构建以粗略轨迹上相邻轨迹点之间的纵向距离为固定量的轨迹优化目标函数，具体包括：

确定对粗略轨迹进行轨迹优化的优化变量为:到达各个轨迹点对应的纵向位置的时间，各个纵向位置的纵向速度、纵向加速度以及纵向加加速度，各个纵向位置的横向位置、横向速度、横向加速度以及横向加加速度；

构建优化变量关于纵向距离的轨迹优化损失函数为：

f＝f₁+f₂

其中，f表示轨迹优化损失函数，f₁和f₂分别表示第一、第二损失函数，w₁、w₂、w₃、w₄、w₅分别表示第一、第二、第三、第四、第五权重，分别表示第i个纵向位置的纵向速度、纵向加速度，n为粗略轨迹上纵向位置的总数量，κ(s_i)表示第i个纵向位置处的道路曲率，t_n表示最后一个纵向位置的时间，l_i、l′_i、l″_i和l″′_i分别表示第i个纵向位置的横向位置、横向速度、横向加速度和横向加加速度；

构建优化变量的约束条件；所述约束条件包括纵向分段多项式约束、横向分段多项式约束和曲率约束；

所述纵向分段多项式约束为：

t_i ^min≤t_i≤t_i ^max

其中，Δs_i为第i个纵向位置的纵向距离，t_i、t_i+1分别为到达第i、i+1个纵向位置的时间，为第i个纵向位置的纵向加加速度，分别为第i+1个纵向位置的纵向速度、纵向加速度，t_i ^min、t_i ^max分别为第i个纵向位置的时间变化范围的下界、上界，v_i ^min、v_i ^max分别为第i个纵向位置的速度变化范围的下界、上界，a_i ^min、a_i ^max分别为第i个纵向位置的加速度变化范围的下界、上界，Jerk_i ^min、Jerk_i ^max分别为第i个纵向位置的加加速度变化范围的下界、上界，a_c ^min、a_c ^max分别为向心加速度变化范围的下界、上界，表示第i个纵向位置的车辆向心加速度；

所述横向分段多项式约束为：

l″_i+1＝l″_i+l″′_iΔs_i

l_i ^min≤l_i≤l_i ^max

其中，l_i+1、l′_i+1、l″_i+1分别为第i+1个纵向位置的横向位置、横向速度、横向加速度，l_i ^min、l_i ^max分别为第i个纵向位置的横向可移动的最小和最大位置；

所述曲率约束为：

tan(α_max)κ(s_i)l_i-tan(α_max)+|κ(s_i)|L≤0

其中，α_max为车辆前轮的最大转角，L为车辆前轮和车辆后轮的间距。

一种实时轨迹规划系统，包括：

当前信息获取模块，用于获取车辆当前时刻所处真实环境的状态信息和预测的动态障碍物状态；所述状态信息包括自身车辆状态、动态障碍物状态和静态障碍物的位置；

投影模块，用于将所述状态信息从笛卡尔坐标系投影到弗莱纳坐标系下的状态空间形式，获得当前帧状态空间信息；

决策模块，用于根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值；所述决策神经网络模型通过采用DQN强化学习方法训练神经网络获得；

自身车辆状态预测模块，用于根据自身车辆在当前时刻的决策动作值和时间步长，利用车辆自身的运动学模型，获得自身车辆在下一时刻的自身车辆状态；

下一帧状态空间信息构成模块，用于将下一时刻的自身车辆状态、预测的下一时刻的动态障碍物状态、静态障碍物的位置和当前交通信息构成下一帧状态空间信息；

粗略轨迹确定模块，用于将下一帧状态空间信息更新为当前帧状态空间信息，并返回步骤“根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值”，直至完成整个未来规划周期的决策，同时将整个未来规划周期内获得的自身车辆状态形成自身车辆在未来规划周期的粗略轨迹；

轨迹优化目标函数构建模块，用于构建以粗略轨迹上相邻轨迹点之间的纵向距离为固定量的轨迹优化目标函数；

最优轨迹确定模块，用于以轨迹优化目标函数最大化为目标，利用非线性规划求解器求解所述轨迹优化目标函数，获得最优轨迹。

所述动态障碍物状态包括：动态障碍物的位置和速度；

所述决策动作值包括：加速度和偏航角变化量。

可选的，所述决策神经网络模型的训练过程为：

设置奖励函数；

可选的，所述运动学模型为：

可选的，所述轨迹优化目标函数构建模块，具体包括：

优化变量确定子模块，用于确定对粗略轨迹进行轨迹优化的优化变量为:到达各个轨迹点对应的纵向位置的时间，各个纵向位置的纵向速度、纵向加速度以及纵向加加速度，各个纵向位置的横向位置、横向速度、横向加速度以及横向加加速度；

损失函数构建子模块，用于构建优化变量关于纵向距离的轨迹优化损失函数为：

f＝f₁+f₂

约束条件构建子模块，用于构建优化变量的约束条件；所述约束条件包括纵向分段多项式约束、横向分段多项式约束和曲率约束；

所述纵向分段多项式约束为：

t_i ^min≤t_i≤t_i ^max

所述横向分段多项式约束为：

l″_i+1＝l″_i+l″′_iΔs_i

l_i ^min≤l_i≤l_i ^max

所述曲率约束为：

tan(α_max)κ(s_i)l_i-tan(α_max)+|κ(s_i)|L≤0

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明的目的是提供一种实时轨迹规划方法及系统，采用预演的方式，使用动态障碍物的预测信息和车辆自身的运动学模型进行状态更新，利用强化学习对未来时间的轨迹进行决策，生成粗略轨迹为后端的轨迹优化提供初始解从而提高粗略轨迹的生成效率。在后端的轨迹优化上，采用固定纵向采样距离，优化横向距离和时间的方法，使其能够处理在道路中常见的区域依赖约束，从而生成更加可靠安全的轨迹。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的强化学习应用于自动驾驶的示意图；

图2为本发明提供的实时轨迹规划方法的原理图；

图3为本发明提供的从笛卡尔坐标下到弗莱纳坐标系的转换关系示意图；

图4为本发明提供的粗略轨迹示意图；

图5为本发明提供的区域速度限制示意图；

图6为本发明提供的状态预演的强化学习结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供了一种实时轨迹规划方法，如图2所示，包括：

步骤1，获取车辆当前时刻所处真实环境的状态信息和预测的动态障碍物状态；状态信息包括自身车辆状态、动态障碍物状态和静态障碍物的位置。

示例性的，自身车辆状态包括：自身车辆的位置、速度和方向角。动态障碍物状态包括：动态障碍物的位置和速度。自动驾驶可以分为感知层、规划层、控制层，感知层可以为规划层提供感知信息以及障碍物的预测信息。动态障碍车辆的位置预测信息从自动驾驶感知层获得，其形式可以由y＝x(t)表示，自变量为时间，因变量为障碍物车辆的位置以及速度。需要注意的是，当有多个障碍物车俩时，感知层会给出多个y，如y1，y2，y3表示三个障碍物车辆的预测信息，这里的所有信息都是由传感器获得的笛卡尔坐标系下的信息。

步骤2，将状态信息从笛卡尔坐标系投影到弗莱纳坐标系下的状态空间形式，获得当前帧状态空间信息。

状态空间：在仿真环境中获取状态空间时，需要将前后20m内的车辆信息从笛卡尔坐标系投影到弗莱纳坐标系下并进行栅格化，如图3所示，状态空间S包括栅格地图M_t和道路规则R_t，其中M_t的位置层是将周围车辆的位置投影到栅格地图上，被障碍物占用的栅格的值为1，未占用的栅格的值为0，能够表达出周围车辆相对于自身车辆的位置，速度层保存各个栅格的速度，其中未被障碍物占用的栅格的速度为-1，被障碍物占用的栅格的速度为障碍物的实际速度。R_t由多个部分组成，包括道路信息[el,er,al,ac,ar]，其中el,er表示是否有左车道和右车道，1表示有，0表示没有，al,ac,ar表示左车道，当前车道，右车道是否可通行，1表示可通行，0表示不可通行，红绿灯信息[lg,ly,lr]，1表示亮灯，0表示熄灯。到停止线距离ds，当前的限速v_lim。

步骤3，根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值；决策神经网络模型通过采用DQN强化学习方法训练神经网络获得。决策动作值包括：加速度和偏航角变化量。

示例性的，决策神经网络模型的训练过程包括以下步骤1)-5)：

1)构建状态空间；状态空间包括栅格地图和道路规则；栅格地图包括将自身车辆和周围障碍物的位置投影到栅格地图上的位置层和将自身车辆和周围障碍物的速度投影到栅格地图上的速度层；道路规则包括道路信息、红绿灯信息、到停止线距离和当前的限速。

2)构建由离散化的加速度和离散化的偏航角变化量组成的动作空间。其中加速度被离散为[-4,-2,0,2,4]，单位为m/s²，偏航角的变化量被离散为[-π/2,-π/4,0,π/4,π/2]，单位为弧度。

3)设置奖励函数：时间间隔里行驶的距离s，是否与其他物体发生碰撞。

4)获取以状态空间信息为输入，以动作空间信息为输出构成的训练集。

神经网络的输入为当前的状态，这里的状态需要满足状态空间的数据形式，模型的输出为具体的动作，包括具体的加速度和偏航角变化量。

5)利用训练集，基于奖励函数，在仿真环境中采用DQN强化学习方法训练神经网络模型，获得决策神经网络模型。

在仿真环境中利用DQN(Deep Q-Learning)强化学习方法进行神经网络模型的训练，当对仿真环境中的自身车辆施加相应的动作后，计算相应的奖励，进而利用奖励调整相应的状态对应的输出。

步骤4，根据自身车辆在当前时刻的决策动作值和时间步长，利用车辆自身的运动学模型，获得自身车辆在下一时刻的自身车辆状态。

示例性的，运动学模型为：

自身车辆状态需要利用决策结果(动作值)和运动学模型获得，并记录下对应的自身车辆状态。

步骤5，将下一时刻的自身车辆状态、预测的下一时刻的动态障碍物状态、静态障碍物的位置和当前交通信息构成下一帧状态空间信息。

利用动态障碍物的预测信息y＝x(t)和车辆自身的运动学模型进行环境状态的更新。

步骤6，将下一帧状态空间信息更新为当前帧状态空间信息，并返回步骤“根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值”，直至完成整个未来规划周期的决策，同时将整个未来规划周期内获得的自身车辆状态形成自身车辆在未来规划周期的粗略轨迹。

参照图6，当时间步长取Δt＝0.5s，规划周期取5s时，在5s的时间内总共需要做10次决策，如第一次做决策时，神经网络模型的输入为第一帧状态空间信息，输出为该状态下的具体动作值，然后需要利用运动学模型、预测信息y＝x(0.5)、其他静态障碍物的位置信息以及由地图服务端获得的当前的交通信息构建第二帧状态空间信息，其中把由运动学模型得到的信息称为自身车辆状态，接着对第二帧状态空间信息做出决策，直到第10次决策完成，最后将5s内的总共10帧的自身车辆状态信息记录下来，形成未来5s内的车辆粗略轨迹。图4中，所有轨迹点形成粗略轨迹，车辆1和车辆2所在四边形的宽表示障碍物车宽+自身车辆宽度，这样，自身车辆就可以通过自身的质点表示，而不用考虑车辆的长度等几何信息。矩形的斜率表示车辆的速度。

步骤7，构建以粗略轨迹上相邻轨迹点之间的纵向距离为固定量的轨迹优化目标函数。

以粗略轨迹为基础、固定纵向距离Δs_i，建立起时间、横向距离及其导数、纵向距离的导数等状态关于纵向距离的轨迹优化问题，并将其离散为非线性规划问题。采用该方法能够很好的适用于结构化道路场景。这里的纵向距离是指粗略轨迹中的轨迹点到相邻轨迹点之间的纵向距离。横向距离是指车辆位置相对于道路的中心线的距离。图4中，在纵向距离为s_e的地方，时间在t_min和t_max之间的轨迹点A时，自身车辆会与车辆1发生纵向位置的重叠，所以，在该区间上，自身车辆需要在其他车道上，以避免与车辆1发生碰撞。图5为道路对车辆速度限制的简略表达，该图可以直接从感知部分的交通信息获得。

示例性的，优化问题的建立过程如下：

构建优化变量关于纵向距离的轨迹优化损失函数为：

f＝f₁+f₂

构建优化变量的约束条件；约束条件包括纵向分段多项式约束、横向分段多项式约束和曲率约束；

纵向分段多项式约束为：

t_i ^min≤t_i≤t_i ^max

横向分段多项式约束为：

l″_i+1＝l″_i+l″′_iΔs_i

l_i ^min≤l_i≤l_i ^max

曲率约束为：

tan(α_max)κ(s_i)l_i-tan(α_max)+|κ(s_i)|L≤0

步骤8，以轨迹优化目标函数最大化为目标，利用非线性规划求解器求解轨迹优化目标函数，获得最优轨迹。

优选方式，利用非线性规划求解器IPOPT对该优化问题进行求解，该优化问题包括损失函数、纵向分段多项式约束、横向分段多项式约束、曲率约束，以得到满足约束条件的轨迹。该轨迹包含时间和空间信息，并且相对于粗略轨迹更加的平滑，有利于后续的控制模块的跟踪执行。

算法的输出：满足约束条件且最大化目标函数的最优轨迹。

本发明提出的状态预演的方法，利用对其他障碍物的预测信息来更新环境状态，从而达到对未来状态处理的作用，进而生成包含对未来状态处理的粗略轨迹。而且粗略轨迹的生成相对于传统的基于搜索和采样的方法具有更高的效率，不会出现维数灾难等问题，且相比与搜索和采样的方法，该方法一定会给出一段粗略轨迹，解决了自动驾驶直接轨迹规划中粗略轨迹的生成效率问题。

针对结构化道路的特点，本发明提出了固定纵向采样距离，优化时间以及横向偏移距离等状态的算法以处理区域依赖约束。对于后端轨迹优化，本发明能够将自动驾驶中常见的限速、减速带、斑马线等造成的空间速度、加速度等约束考虑在内进行优化。

对于自动驾驶的轨迹规划模块来说，其需要为下层的控制模块提供安全可靠的包含时间、空间信息的轨迹。为了能够得到更加优越的轨迹，本发明采用直接轨迹规划的方法，以避免由于解耦造成的次优解。在直接轨迹规划中，本发明采用了轨迹预演的方式，利用强化学习DQN方法生成粗略轨迹为后端的轨迹优化提供初始解从而提高粗略轨迹的生成效率。在后端的轨迹优化上，本发明采用固定纵向采样距离，优化横向距离和时间的方法，使其能够处理在道路中常见的区域依赖约束，从而生成更加可靠安全的轨迹。

本发明还提供了一种实时轨迹规划系统，包括：

当前信息获取模块，用于获取车辆当前时刻所处真实环境的状态信息和预测的动态障碍物状态；状态信息包括自身车辆状态、动态障碍物状态和静态障碍物的位置；

投影模块，用于将状态信息从笛卡尔坐标系投影到弗莱纳坐标系下的状态空间形式，获得当前帧状态空间信息；

决策模块，用于根据当前帧状态空间信息，利用决策神经网络模型进行自身车辆在当前时刻所要执行动作的决策，获得自身车辆在当前时刻的决策动作值；决策神经网络模型通过采用DQN强化学习方法训练神经网络获得；

最优轨迹确定模块，用于以轨迹优化目标函数最大化为目标，利用非线性规划求解器求解轨迹优化目标函数，获得最优轨迹。

自身车辆状态包括：自身车辆的位置、速度和方向角；

动态障碍物状态包括：动态障碍物的位置和速度；

决策动作值包括：加速度和偏航角变化量。

决策神经网络模型的训练过程为：

构建状态空间；状态空间包括栅格地图和道路规则；栅格地图包括将自身车辆和周围障碍物的位置投影到栅格地图上的位置层和将自身车辆和周围障碍物的速度投影到栅格地图上的速度层；道路规则包括道路信息、红绿灯信息、到停止线距离和当前的限速；

设置奖励函数；

利用训练集，基于奖励函数，在仿真环境中采用DQN强化学习方法训练神经网络模型，获得决策神经网络模型。

运动学模型为：

轨迹优化目标函数构建模块，具体包括：

f＝f₁+f₂

约束条件构建子模块，用于构建优化变量的约束条件；约束条件包括纵向分段多项式约束、横向分段多项式约束和曲率约束；

纵向分段多项式约束为：

t_i ^min≤t_i≤t_i ^max

横向分段多项式约束为：

l″_i+1＝l″_i+l″′_iΔs_i

l_i ^min≤l_i≤l_i ^max

其中，l_i+1、l′_i+1、l″_i+1分别为第i+1个纵向位置的横向位置、横向速度、横向加速度，l_i ^max、l_i ^max分别为第i个纵向位置的横向可移动的最小和最大位置；

曲率约束为：

tan(α_max)κ(s_i)l_i-tan(α_max)+|κ(s_i)|L≤0

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种实时轨迹规划方法，其特征在于，包括：

2.根据权利要求1所述的实时轨迹规划方法，其特征在于，

所述自身车辆状态包括：自身车辆的位置、速度和方向角；

所述动态障碍物状态包括：动态障碍物的位置和速度；

所述决策动作值包括：加速度和偏航角变化量。

3.根据权利要求1所述的实时轨迹规划方法，其特征在于，所述决策神经网络模型的训练过程为：

设置奖励函数；

4.根据权利要求1所述的实时轨迹规划方法，其特征在于，所述运动学模型为：

5.根据权利要求1所述的实时轨迹规划方法，其特征在于，所述构建以粗略轨迹上相邻轨迹点之间的纵向距离为固定量的轨迹优化目标函数，具体包括：

构建优化变量关于纵向距离的轨迹优化损失函数为：

f＝f₁+f₂

其中，f表示轨迹优化损失函数，f₁和f₂分别表示第一、第二损失函数，w₁、w₂、w₃、w₄、w₅分别表示第一、第二、第三、第四、第五权重，分别表示第i个纵向位置的纵向速度、纵向加速度，n为粗略轨迹上纵向位置的总数量，κ(s_i)表示第i个纵向位置处的道路曲率，t_n表示最后一个纵向位置的时间，l_i、l_i′、l_i″和l_i″′分别表示第i个纵向位置的横向位置、横向速度、横向加速度和横向加加速度；

所述纵向分段多项式约束为：

t_i ^min≤t_i≤t_i ^max

所述横向分段多项式约束为：

l″_i+1＝l″_i+l″′_iΔ_si

l_i ^min≤l_i≤l_i ^max

所述曲率约束为：

tan(α_max)κ(s_i)l_i-tan(α_max)+|κ(s_i)|L≤0

6.一种实时轨迹规划系统，其特征在于，包括：

7.根据权利要求6所述的实时轨迹规划系统，其特征在于，

所述自身车辆状态包括：自身车辆的位置、速度和方向角；

所述动态障碍物状态包括：动态障碍物的位置和速度；

所述决策动作值包括：加速度和偏航角变化量。

8.根据权利要求6所述的实时轨迹规划系统，其特征在于，所述决策神经网络模型的训练过程为：

设置奖励函数；

9.根据权利要求6所述的实时轨迹规划系统，其特征在于，所述运动学模型为：

10.根据权利要求6所述的实时轨迹规划系统，其特征在于，所述轨迹优化目标函数构建模块，具体包括：

f＝f₁+f₂

所述纵向分段多项式约束为：

t_i ^min≤t_i≤t_i ^max

所述横向分段多项式约束为：

l″_i+1＝l″_i+l_i″′Δs_i

l_i ^min≤l_i≤l_i ^max

所述曲率约束为：

tan(α_max)κ(s_i)l_i-tan(α_max)+|κ(s_i)|L≤0