CN116161056A

CN116161056A - 一种基于强化学习的结构化道路车辆轨迹规划方法与系统

Info

Publication number: CN116161056A
Application number: CN202310195520.1A
Authority: CN
Inventors: 徐彪; 袁诗杰; 李洋; 秦晓辉; 胡满江; 边有钢; 谢国涛; 秦兆博; 王晓伟; 秦洪懋; 丁荣军
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-26

Abstract

本申请公开了本申请提供了一种基于强化学习的结构化道路车辆轨迹规划方法，基于强化学习的轨迹规划方法，通过构建行车风险场，将风险指标纳入优化函数中，提高了轨迹规划的安全性；通过智能体进行初始轨迹的求解，提高了轨迹规划在时空域下的计算效率；通过轨迹优化模型，基于轨迹初始解，进行轨迹优化，保证了生成轨迹的最优性和可行性。

Description

一种基于强化学习的结构化道路车辆轨迹规划方法与系统

技术领域

本申请属于车辆轨迹规划技术领域，具体涉及一种基于强化学习的结构化道路车辆轨迹规划方法与系统。

背景技术

自动驾驶汽车具有在复杂环境下自主导航的能力，能够显著降低人为操作引起的交通事故发生概率，提高道路安全以及道路利用率，缓解交通拥堵。自动驾驶汽车的自动驾驶系统包含环境感知、地图与定位、轨迹预测、决策规划、运动控制等五个模块，其中决策规划模块是自动驾驶的核心部分，它结合高精地图以及感知技术获取的环境信息，在未来有限时域内规划出一条无碰撞的可行轨迹。

相关技术中，在结构化道路中的轨迹规划方法主要分为基于采样和基于优化两种。基于采样的方法将轨迹解耦成路径-速度分别进行规划，最后再合成获得轨迹，但该方法难以应用于具有动态障碍物的复杂场景；基于优化的方法通过将轨迹规划问题建模成非线性规划问题，再通过最优化算法进行求解，但该方法依赖于初始解的质量以及容易陷入局部最优解。

因此，实有必要提供一种基于强化学习的结构化道路车辆轨迹规划方法与系统。

发明内容

本申请实施例的目的是提供一种基于强化学习的结构化道路车辆轨迹规划方法与系统，通过构建行车风险场，将风险指标纳入优化函数中，提高了轨迹规划的安全性；通过智能体进行初始轨迹的求解，提高了轨迹规划在时空域下的计算效率；通过轨迹优化模型，基于轨迹初始解，进行轨迹优化，保证了生成轨迹的最优性和可行性。

为了解决上述技术问题，本申请是这样实现的：

一种基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，包括如下步骤：

S1：采集状态信息，所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息；

S2：构建智能体，所述智能体包括状态空间、动作空间及动作网络，所述状态空间将采集的状态信息转换为状态向量，所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量；所述动作网络为多层感知机模型，将所述状态向量作为所述动作网络的输入，以所述动作网络的输出向量为基础构建多个正态分布，在正态分布中采样生成动作向量；所述动作空间以所述动作向量中的元素为基础，根据车辆运动学模型，规划目标车辆在未来t_e时间内的轨迹序列；

S3：构建轨迹优化模型，所述轨迹优化模型包括目标函数及约束条件，以步骤S2中目标车辆未来t_e时间内的轨迹序列作为所述轨迹优化模型的初始解，对规划的轨迹进行优化，利用非线性优化器，对轨迹优化问题进行求解，并且利用模型预测控制方法对生成的优化轨迹进行跟踪；其中，所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和，所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束；

S4：定义奖励函数，并在仿真环境中，利用强化学习算法训练所述智能体；训练完成后，采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。

优选的，所述状态向量表示为：s＝[s_ego,s_V,s_bound]，其中，s_ego表示目标车辆的状态向量，s_V表示障碍物的状态向量，s_bound表示环境边界信息；目标车辆的状态向量

其中，x、y、

ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度；障碍物的状态向量

其中

分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度；环境边界信息s_bound＝[d_l,d_r]，其中，d_l、d_r分别表示目标车辆与车道左右两侧边界线的距离；所述障碍物的状态向量中

的维度均为K，K值为预设的最大可观测障碍物数目，若实际观测到的障碍物数量小于K，则余位用0进行补位。

优选的，所述动作空间用于为目标车辆规划在未来t_e时间内的轨迹，轨迹规划的过程为：

将时间t_e划分为N个时间节点，得到时间序列

式中，t_j表示第j个时间节点，t_j＝jΔt，Δt表示相邻两个时间节点的间隔；T表示向量转置；

计算目标车辆在时间节点t_j+1时的横、纵向位置，计算过程表示为：

式中，v_j和

分别表示目标车辆在时间节点t_j时的速度和航向角；x_j+1和y_j+1分别表示目标车辆在时间节点t_j+1时的横、纵向位置；x_j和y_j分别表示目标车辆在时间节点t_j时的横、纵向位置；

计算目标车辆在时间节点t_j+1时的速度和航向角，计算过程表示为：

v_j+1＝v_j+ε_ju_maxΔt；

式中，v_j+1和

分别表示目标车辆在时间节点t_j+1时的速度和航向角，ε_j和∈_j分别表示在第j个时间节点加速度和横摆角速度的控制系数；u_max表示目标车辆加速度的最大控制值；ω_max表示目标车辆横摆角速度的最大控制值；

以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点，将所有时间节点下的轨迹点组合形成轨迹序列，表示为：

式中，x₁，y₁，v₁，

表示目标车辆在时间节点t₁时的轨迹点；x_j，y_j，v_j，

表示目标车辆在时间节点t_j时的轨迹点；x_N，y_N，v_N，

表示目标车辆在时间节点t_e时的轨迹点。

优选的，所述动作网络为多层感知机模型，包括1层输入层，2层隐藏层及1层输出层，网络权重记为w_θ，每层的神经元数为64，输入层和隐藏层采用ReLU函数激活，输出层采用tanh函数激活；所述动作网络的输入向量为所述状态向量s，其维度为4K+8，输出向量的维度2N，将输出向量的值作为均值

以

为标准差σ，依次构建2N个正态分布

最后在正态分布中采样获得动作向量，记为a＝[ε₁，∈₁，ε₂，∈₂，...，ε_j，∈_j，...，ε_N，∈_N]，其中，ε_j和∈_j分别表示在第j个时间节点时，目标车辆加速度和横摆角速度的控制系数。

优选的，所述智能体还包括价值网络，所述价值网络为多层感知机模型，包含1层输入层，2层隐藏层，1层输出层，网络权重记为w_v；每层的神经元数为64，输入层和隐藏层采用ReLU函数激活，所述价值网络的输入向量为所述状态向量s，输出向量是维度为1的状态价值V(s)，所述状态价值V(s)用于评估当前状态，反应了当前状态对于完成轨迹规划任务的贡献程度。

优选的，所述目标函数表示为：

式中，J_e表示道路风险程度指标，

表示道路风险程度指标的权重；J_r表示舒适度，

表示舒适度的权重；J_o表示轨迹偏移程度，

轨迹偏移程度的权重；

道路风险程度指标J_e用静态障碍物风险场

和动态障碍物风险场

来进行评价，表示为：

式中，K_O表示静态障碍物数量，K_V表示动态障碍物的数量，K_O+K_V＝K；

表示静态障碍物风险场的权重，

表示动态障碍物风险场的权重；

式中，

表示目标车辆在位置(x_j，y_j)与静态障碍物O_i的碰撞风险；G表示常系数，取值大于0；R表示道路环境状况系数，取值大于0，道路曲率、坡度越大，取值越大；r_j表示目标车辆在位置(x_j，y_j)与静态障碍物位置

在的距离；

表示目标车辆在位置(x_j，y_j)时与第i个动态障碍物V_i的碰撞风险；η为大小0至1之间的时间衰减系数；r_i，j目标车辆位置(x_j，y_j)与周围第i个动态障碍物的位置的距离；

舒适度用加速度和横摆角速度进行评价，表示为：

轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量，表示为：

式中，ζ′_j和ζ_j分别表示时间节点t_j时优化前、后的轨迹序列。

优选的，所述车辆运动学约束表示为：

v_j+1＝v_j+u_jΔt；

所述控制变量范围约束表示为：

u_min≤u_j≤umax，ω_min≤ω_j≤ω_max；

式中，u_min、u_max为加速度的最小、最大控制值；ω_min、ω_max为横摆角速度的最小、最大控制值；

车辆的纵向位置需要道路左右边界(P_l，P_r)内，且保持安全距离e_safe：

P_l≤y_j≤P_r；||y_j-P_l||₂≥e_safe；||y_j-P_r||₂≥e_safe；

所述无碰撞约束表示为：

式中，

分别表示障碍物V_i在时间节点t_j时的横、纵位置；α_safe表示大于1的安全系数；利用N_c个单位圆将目标车辆的车身完全覆盖，

表示第c个单位圆的圆心坐标，d_c表示第c个单位圆的半径；

式中，L_b、L、L_w、L_f分别为目标车辆的车辆轴距、车长、车宽以及前悬距。

优选的，所述强化学习算法选自近端策略优化算法、软演员评论家算法及深度确定性策略梯度算法中的一种。

优选的，所述奖励函数根据碰撞惩罚指标r_c(s，ζ′)、到达目标点指标r_g(s，ζ′)以及行驶速度指标r_V(s，ζ′)进行建立，表示为：

r(s，ζ′)＝r_c(s，ζ′)+r_g(s，ζ′)+r_v(s，ζ′)；

式中，v_max是目标车辆速度的最大控制值，

是目标车辆规划轨迹的平均速度。

优选的，在所述智能体的训练过程中，需要对动作网络和价值网络的网络权值进行更新，具体步骤为：首先对动作网络权值w_θ和价值网络权值w_v进行正态初始化，使每个网络中每层间的权值分布为标准正态分布；随后将当前时刻的状态向量s输入动作网络，获得规划轨迹的初始解，然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪，车辆行驶0.1s后进行状态转移，构建下一个状态向量s₁，并以此重新进行轨迹规划，直到车辆到达终点，若车辆到达终点，记终点标识d＝1，反之记d＝0；其中，每完成一次状态转移，则进行奖励函数以及状态价值的计算，同时增加一次交互次数。

本申请提供了一种基于强化学习的结构化道路车辆轨迹规划方法，基于强化学习的轨迹规划方法，通过构建行车风险场，将风险指标纳入优化函数中，提高了轨迹规划的安全性；通过智能体进行初始轨迹的求解，提高了轨迹规划在时空域下的计算效率；通过轨迹优化模型，基于轨迹初始解，进行轨迹优化，保证了生成轨迹的最优性和可行性。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供一种基于强化学习的结构化道路车辆轨迹规划方法，包括如下步骤：

S1：采集状态信息，所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息。

所述目标车辆为自动驾驶汽车，所述状态信息通过所述目标车辆上配置的环境感知传感器进行采集，所述环境感知传感器主要包括视觉类摄像机(包括单目、双目立体视觉、全景视觉及红外相机)和雷达类测距传感器(激光雷达、毫米波雷达、超声波雷达等)。

所述障碍物包括静态障碍物和动态障碍物，所述静态障碍物和所述动态障碍物根据障碍物当前时刻的状态进行区分，例如运行中的周围车辆为动态障碍物，抛锚的车辆为静态障碍物。道路边界信息为车道左右两侧边界线的位置。

S2：构建智能体，所述智能体包括状态空间、动作空间及动作网络，所述状态空间将采集的状态信息转换为状态向量，所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量；所述动作网络为多层感知机模型，将所述状态向量作为所述动作网络的输入，以所述动作网络的输出向量为基础构建多个正态分布，在正态分布中采样生成动作向量；所述动作空间以所述动作向量中的元素为基础，根据车辆运动学模型，规划目标车辆在未来t_e时间内的轨迹序列。

所述状态向量表示为：s＝[s_ego，s_V，s_bound]，其中，s_ego表示目标车辆的状态向量，s_V表示障碍物的状态向量，s_bound表示环境边界信息。以目标车辆当前时刻的位置为笛卡尔坐标系的原点，目标车辆的状态向量

其中，x、y、

其中

分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度；环境边界信息s_bound＝[d_l，d_r]，其中，d_l、d_r分别表示目标车辆与车道左右两侧边界线的距离。

目标车辆在实际的行驶过程中，可观测范围内的障碍物数量存在不确定性，但是为了方便计算，障碍物的状态向量的维度应为定值，因此，需要设定一个最大可观测障碍物数目，记为K，则状态向量sV中

的维度均为K，若实际观测到的障碍物数量小于K，则余位用0进行补位。以

为例进行说明，若实际观测到的障碍物数量为κ(0≤κ≤K)，则

中第κ+1个至第K个元素用0进行补位。

所述动作网络为多层感知机模型，包括1层输入层，2层隐藏层及1层输出层，网络权重记为w_θ，每层的神经元数为64，输入层和隐藏层采用ReLU函数激活，输出层采用tanh函数激活，保证输出向量的值在-1至1之间。所述动作网络的输入向量为所述状态向量s，其维度为4K+8，输出向量的维度2N。将输出向量的值作为均值

以

为标准差σ，依次构建2N个正态分布

最后在正态分布中采样获得动作向量，记为a＝[ε₁，∈₁，ε₂，∈₂，...，ε_j，∈_j，...，ε_N，∈_N]，其中，ε_j和∈_j分别表示在第j个时间节点加速度和横摆角速度的控制系数。并将所选动作向量对应的概率向量记为

所述动作空间用于为目标车辆规划在未来t_e时间内的轨迹，轨迹规划的过程为：

将时间t_e划分为N个时间节点，得到时间序列

根据车辆运动学模型，计算目标车辆在时间节点t_j+1时的横、纵向位置，计算过程表示为：

式中，v_j和

分别表示目标车辆在时间节点t_j时的速度和航向角；x_j+1和y_j+1分别表示目标车辆在时间节点t_j+1时的横、纵向位置；x_j和y_j分别表示目标车辆在时间节点t_j时的横、纵向位置。

在目标车辆的轨迹规划中，为了保证目标车辆行驶的稳定性，相邻两个时间节点下，速度和航向角变化，而加速度和横摆角速度恒定。计算目标车辆在时间节点t_j+1时的速度和航向角，计算过程表示为：

v_j+1＝v_j+ε_ju_maxΔt；

式中，v_j+1和

分别表示目标车辆在时间节点t_j+1时的速度和航向角；ε_j和∈_j分别表示在第j个时间节点加速度和横摆角速度的控制系数，其大小在-1至1之间；u_max表示目标车辆加速度的最大控制值；ω_max表示目标车辆横摆角速度的最大控制值。

式中，x₁，y₁，v₁，

表示目标车辆在时间节点t₁时的轨迹点；x_j，v_j，v_j，

表示目标车辆在时间节点t_j时的轨迹点；x_N，y_N，v_N，

表示目标车辆在时间节点t_e时的轨迹点。

所述智能体还包括价值网络，所述价值网络为多层感知机模型，包含1层输入层，2层隐藏层，1层输出层，网络权重记为w_v。每层的神经元数为64。输入层和隐藏层采用ReLU函数激活。所述价值网络的输入向量为所述状态向量s，输出向量是维度为1的状态价值V(s)，所述状态价值V(s)用于评估当前状态，反应了当前状态对于完成轨迹规划任务的贡献程度，状态价值越大，贡献程度越高，智能体在进行轨迹规划时，有更大的概率到达状态价值更大的状态。

S3：构建轨迹优化模型，所述轨迹优化模型包括目标函数及约束条件，以步骤S2中目标车辆未来t_e时间内的轨迹序列作为所述轨迹优化模型的初始解，对规划的轨迹进行优化，利用非线性优化器，对轨迹优化问题进行求解，并且利用模型预测控制方法对生成的优化轨迹进行跟踪；其中，所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和，所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束。

所述目标函数表示为：

式中，J_e表示道路风险程度指标，

表示道路风险程度指标的权重；J_r表示舒适度，

表示舒适度的权重；J_o表示轨迹偏移程度，

轨迹偏移程度的权重。

在目标车辆行驶过程中，距离障碍物越近，则碰撞的风险程度越高，道路风险程度指标J_e用静态障碍物风险场

和动态障碍物风险场

来进行评价，表示为：

表示静态障碍物风险场的权重，

表示动态障碍物风险场的权重；

式中，

在的距离；

舒适度用加速度和横摆角速度进行评价，表示为：

在轨迹规划中，还需要满足一定的约束条件，所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束。

根据车辆运动学模型构建运动学约束：

v_j+1＝v_j+u_jΔt；

目标车辆的加速度和横摆角速度还需要在控制值的区间范围内：

u_min≤u_j≤u_max，ω_min≤ω_j≤ω_max。

式中，u_min、u_max为加速度的最小、最大控制值；ω_min、ω_max为横摆角速度的最小、最大控制值。

为保证所规划轨迹的安全性，需要使车辆行驶在车道范围内，因此车辆的纵向位置需要道路左右边界(P_l，P_r)内，且保持安全距离e_safe：

P_l≤y_j≤P_r；||y_j-P_l||₂≥e_safe；||y_j-P_r||₂≥e_safe。

目标车辆的规划轨迹还需与障碍物满足无碰撞约束。利用N_c个单位圆将目标车辆的车身完全覆盖，第c个单位圆的圆心坐标

以及半径dc利用下式获得：

利用大于1的安全系数α_safe，建立如下无碰撞不等式约束：

式中，

分别表示障碍物V_i在时间节点t_j时的横、纵位置。

需要说明的是，对于静态障碍物而言，其保持静止状态，因此静态障碍物在时间节点t_j时的位置与当前时刻的位置相同；对于动态障碍物而言，其保持运动状态，在时间节点t_j时的位置与当前时刻的位置不同，可以根据本领域常规的预测方式进行预测。

所述非线性优化器为IPOPT求解器。

所述强化学习算法选自近端策略优化算法(Proximal Policy Optimization，PPO)、软演员评论家算法(Soft Actor Critic，SAC)及深度确定性策略梯度算法(DeepDeterministic Policy Gradient，DDPG)中的一种。

所述奖励函数根据碰撞惩罚指标r_c(s，ζ′)、到达目标点指标r_g(s，ζ′)以及行驶速度指标r_v(s，ζ′)进行建立，表示为：

r(s，ζ′)＝r_c(s，ζ′)+r_g(s，ζ′)+r_v(s，ζ′)；

式中，v_max是目标车辆速度的最大控制值，

是规划轨迹的平均速度。

在所述智能体的训练过程中，需要对动作网络和价值网络的网络权值进行更新。具体步骤为：首先对动作网络权值w_θ和价值网络权值w_v进行正态初始化，使每个网络中每层间的权值分布为标准正态分布；随后将当前时刻的状态向量s输入动作网络，获得规划轨迹的初始解，然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪。由于轨迹规划频率设定为10Hz，因此车辆行驶0.1s后进行状态转移，构建下一个状态向量s₁，并以此重新进行轨迹规划，直到车辆到达终点。若车辆到达终点，记终点标识d＝1，反之记d＝0。

其中，每完成一次状态转移，则进行奖励函数以及状态价值的计算与相关数据的存储，同时增加一次交互次数。将状态向量s，动作网络输出的动作向量a，动作向量对应的概率大小

下一个状态向量s′，奖励值r，状态价值V(s)以及终点标识d存放在大小为B的缓冲区D内，记为

当缓冲区存满数据后，利用缓冲区内的数据对神经网络权重进行更新，动作网络和价值网络分别更新80次。更新完成后，清空缓冲区内的数据，智能体继续和仿真环境进行交互。

其中，动作网络损失函数计算公式如下：

式中，ρ_t(w_θ)为新旧动作网络生成动作的概率比值

同一批数据将进行多次迭代更新，

为更新之前的动作网络权重参数。

为优势函数，其计算公式

γ和λ分别为折扣因子和优势因子，依次选取为0.99和0.97；μ为更新范围阈值，取0.2；clip函数表示如果概率比值ρ_t(w_θ)大于1.2，则返回1.2，如果小于0.8，则返回0.8，如果在0.8至1.2之间，则不变。

其中，价值网络损失函数计算公式如下：

上面对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述状态向量表示为：s＝[s_ego,s_V,s_bound]，其中，s_ego表示目标车辆的状态向量，s_V表示障碍物的状态向量，s_bound表示环境边界信息；目标车辆的状态向量

其中，x、y、

其中

3.根据权利要求2所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述动作空间用于为目标车辆规划在未来t_e时间内的轨迹，轨迹规划的过程为：

将时间t_e划分为N个时间节点，得到时间序列

式中，v_j和

v_j+1＝v_j+ε_ju_maxΔt；

式中，v_j+1和

式中，x₁,y₁,v₁,

表示目标车辆在时间节点t₁时的轨迹点；x_j,y_j,v_j,

表示目标车辆在时间节点t_j时的轨迹点；x_N,y_N,v_N,

表示目标车辆在时间节点t_e时的轨迹点。

4.根据权利要求3所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述动作网络为多层感知机模型，包括1层输入层，2层隐藏层及1层输出层，网络权重记为w_θ，每层的神经元数为64，输入层和隐藏层采用ReLU函数激活，输出层采用tanh函数激活；所述动作网络的输入向量为所述状态向量s，其维度为4K+8，输出向量的维度2N，将输出向量的值作为均值

以

为标准差σ，依次构建2N个正态分布

最后在正态分布中采样获得动作向量，记为a＝[ε₁,∈₁,ε₂,∈₂,…,ε_j,∈_j,…,ε_N,∈_N]，其中，ε_j和∈_j分别表示在第j个时间节点时，目标车辆加速度和横摆角速度的控制系数。

5.根据权利要求4所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述智能体还包括价值网络，所述价值网络为多层感知机模型，包含1层输入层，2层隐藏层，1层输出层，网络权重记为w_v；每层的神经元数为64，输入层和隐藏层采用ReLU函数激活，所述价值网络的输入向量为所述状态向量s，输出向量是维度为1的状态价值V(s)，所述状态价值V(s)用于评估当前状态，反应了当前状态对于完成轨迹规划任务的贡献程度。

6.根据权利要求5所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述目标函数表示为：

式中，J_e表示道路风险程度指标，

表示道路风险程度指标的权重；J_r表示舒适度，

表示舒适度的权重；J_o表示轨迹偏移程度，

轨迹偏移程度的权重；

道路风险程度指标J_e用静态障碍物风险场

和动态障碍物风险场

来进行评价，表示为：

表示静态障碍物风险场的权重，

表示动态障碍物风险场的权重；

式中，

表示目标车辆在位置(x_j,y_j)与静态障碍物O_i的碰撞风险；G表示常系数，取值大于0；R表示道路环境状况系数，取值大于0，道路曲率、坡度越大，取值越大；r_j表示目标车辆在位置(x_j,y_j)与静态障碍物位置

在的距离；

表示目标车辆在位置(x_j,y_j)时与第i个动态障碍物V_i的碰撞风险；η为大小0至1之间的时间衰减系数；r_i,j目标车辆位置(x_j,y_j)与周围第i个动态障碍物的位置的距离；

舒适度用加速度和横摆角速度进行评价，表示为：

7.根据权利要求6所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，

所述车辆运动学约束表示为：

v_j+1＝v_j+u_jΔt；

所述控制变量范围约束表示为：

u_min≤u_j≤u_max，ω_min≤ω_j≤ω_max；

车辆的纵向位置需要道路左右边界(P_l,P_r)内，且保持安全距离e_safe：

P_l≤y_j≤P_r；||y_j-P_l||₂≥e_safe；||y_j-P_r||₂≥e_safe；

所述无碰撞约束表示为：

式中，

表示第c个单位圆的圆心坐标，d_c表示第c个单位圆的半径；

8.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述强化学习算法选自近端策略优化算法、软演员评论家算法及深度确定性策略梯度算法中的一种。

9.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，所述奖励函数根据碰撞惩罚指标r_c(s,ζ′)、到达目标点指标r_g(s,ζ′)以及行驶速度指标r_v(s,ζ′)进行建立，表示为：

r(s,ζ′)＝r_c(s,ζ′)+r_g(s,ζ′)+r_v(s,ζ′)；

式中，v_max是目标车辆速度的最大控制值，

是目标车辆规划轨迹的平均速度。

10.根据权利要求7所述的基于强化学习的结构化道路车辆轨迹规划方法，其特征在于，在所述智能体的训练过程中，需要对动作网络和价值网络的网络权值进行更新，具体步骤为：首先对动作网络权值w_θ和价值网络权值w_v进行正态初始化，使每个网络中每层间的权值分布为标准正态分布；随后将当前时刻的状态向量s输入动作网络，获得规划轨迹的初始解，然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪，车辆行驶0.1s后进行状态转移，构建下一个状态向量s₁，并以此重新进行轨迹规划，直到车辆到达终点，若车辆到达终点，记终点标识d＝1，反之记d＝0；其中，每完成一次状态转移，则进行奖励函数以及状态价值的计算，同时增加一次交互次数。