CN117007066A

CN117007066A - 多规划算法集成的无人驾驶轨迹规划方法及相关装置

Info

Publication number: CN117007066A
Application number: CN202310722703.4A
Authority: CN
Inventors: 薛建儒; 孟祥宁; 李庚欣; 赵康; 吴孟森
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-11-07

Abstract

多规划算法集成的无人驾驶轨迹规划方法及相关装置，包括获取车辆环境感知数据，得到两类结果级的感知信息；将两类结果级的感知信息作为场景分析模型的输入，选择最优轨迹规划算法；采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹；在非结构化场景下采用感知信息对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径，得到最终的运动轨迹。本发明将城区环境下无人车的运动规划问题分解成为场景分析和轨迹规划两个可以进行单独建模的子问题。通过场景中交通参与者的状态特征与场景的栅格图实现对环境状态的表征，利用势场模型产生及时的奖励解决强化学习训练中稀疏奖励的问题。

Description

多规划算法集成的无人驾驶轨迹规划方法及相关装置

技术领域

本发明属于无人驾驶技术领域，特别涉及多规划算法集成的无人驾驶轨迹规划方法及相关装置。

背景技术

作为自动驾驶最通用的应用场景，城区环境中的自动驾驶目前已成为无人车领域广泛研究的热点，城区自动驾驶普遍采用的是模块化框架的解决方案，其采用由全局规划、行为决策和轨迹规划组成的分层驾驶策略框架来生成车辆运动轨迹。但由于分层框架中包含大量复杂的人工规则设定，目前许多研究开始利用基于学习的方法来改进传统的驾驶策略。

模仿学习由于其简明的框架及易于实现的训练方式首先被应用于驾驶策略模型的训练中，随着研究的不断深入，目前通过模仿学习训练的驾驶策略能够完成更具挑战性的自动驾驶任务。但尽管如此，由于受到示教数据的限制，基于模仿学习的方法很难推广到新环境中。深度强化学习通过智能体与环境的交互，在试错中学习到更鲁棒的策略模型，其在机器人技术、游戏和自然语言处理等领域展现出了最为优越的性能，并开始被应用于驾驶策略的学习。

然而，现有的基于深度强化学习的驾驶策略大多采用端到端的形式，这导致学习到的驾驶策略是一个“黑箱”，缺乏可解释性和可控性。此外，端到端方法直接将原始观测值映射到控制指令或运动轨迹，造成了在大规模连续动作空间中探索效率低下的问题。为了解决这些问题，有必要将传统的规划算法与基于学习的方法相结合。分层式的驾驶策略保留了传统模块化框架下驾驶策略的层次结构，使用深度强化学习来学习驾驶策略中的行为决策或轨迹规划。虽然这种形式为深度强化学习的落地提供了更为可行的解决方案，但目前大多数研究只探索了其在常规的结构化场景中的应用。城区环境中的交通场景复杂多样，不仅有包含规则道路和车流的结构化场景，也有不规则的非结构化场景，不同的场景对轨迹规划提出了不同的约束条件，使得难以通过单一的规划算法进行解决。因此，集成了多种规划算法的驾驶策略将更能适应动态、开放、复杂的城市环境。

发明内容

本发明的目的在于提供多规划算法集成的无人驾驶轨迹规划方法及相关装置，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供多规划算法集成的无人驾驶轨迹规划方法，包括：

获取车辆环境感知数据，基于感知数据提取场景特征，得到两类结果级的感知信息；

通过强化学习建立场景分析模型，将两类结果级的感知信息作为场景分析模型的输入，选择最优轨迹规划算法；

采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹；在非结构化场景下采用感知信息对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径，得到最终的运动轨迹。

可选的，获取车辆环境感知数据包括车辆位姿、障碍物、栅格图、边界地图和车道线地图；

基于感知数据提取场景特征，得到两类结果级的感知信息：

两类结果级的感知信息作为模型的输入状态，分别是包含车辆附近障碍物信息的特征列表s_feature和表示车辆周围可行驶区域的占据栅格图s_grid；特征列表由距离自车最近的N个障碍物的状态向量的组合而成，状态向量包含障碍物的位置、方向、速度和加速度信息；

占据栅格图的尺寸为350×200，栅格的分辨率为0.2m，其中1代表该栅格被占据，0代表未被占据；占据栅格图隐式地对车辆周围的空间信息进行编码，能够反映场景的非结构化特征。

可选的，通过强化学习建立场景分析模型：

通过强化学习进行建模，形式化为马尔科夫决策过程，通过深度强化学习得到策略：

π_θ:S→A

其中S是状态空间，表示所有可能观测到的环境状态；A＝{贝塞尔曲线,混合A*}是动作空间，代表选择的轨迹规划算法；θ是策略参数；在每个时刻t，智能体车辆观察到环境状态s_t并确定将要执行的规划算法a_t并通过轨迹规划器产生车辆的运动轨迹；然后，车辆从环境中获得奖励r_t，状态观测转换为s_t+1～p(s_t+1∣s_t,a_t)；强化学习的目标是学习到最佳策略使得期望收益G_t最大化：

其中γ∈[0,1]是折扣系数；

占据栅格图通过CNN分支，而特征列表则被扁平化并被送入全连接分支；然后，这两个处理过的输入被串联起来，并通过另外两个全连接层，产生动作空间中每个动作的Q值或概率分布。

可选的，利用基于栅格图的势场来评估轨迹，并在每个训练步骤中为场景分析模型产生实时的奖励；势场的大小根据与障碍物的距离计算，与障碍物距离越近势场越大，反之势场越小，势场的具体计算公式如下：

其中d是位置(x,y)与其最近的占据栅格点之间的距离，κ和φ是控制势函数形状的参数；最终的奖励函数$r$定义为两种奖励函数的加权和：

r＝ω·r_potential+r_collision

其中，r_potential是轨迹势能的奖励，通过对规划轨迹上每一点(x_i,y_i)的势能进行求和计算；r_collision是碰撞惩罚，如果发生碰撞，其等于-200，否则为0。

可选的，采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹：

结构化场景的特点是有明确的道路结构，以车道中心线作为车辆运动的参考路径，并通过车道线约束车辆的运动范围，采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹，贝塞尔曲线的数学表达式为：

其中P_i是曲线的第i个控制点，n是曲线的阶数，t∈[0,1]是控制参数，B_i,n(t)是伯恩斯坦多项式，其表达式为：

生成三阶贝塞尔曲线确保一阶和二阶连续性，生成三阶贝塞尔曲线需要得到P₀、P₁、P₂、P₃四个控制点；由车辆当前位姿(x₀,y₀,θ₀)确定起始控制点P₀，而终止控制点P₃则是根据前视距离在全局引导线上选取目标点并在其周围采样得到；根据起始位姿(x₀,y₀,θ₀)和目标位姿(x₃,y₃,θ₃)，确定P₁和P₂所在的直线，沿直线分别从P₀、P₃向前、向后延长l₀、l₃的距离确定控制点P₁和P₂；根据贝塞尔曲线公式得到三阶贝塞尔曲线的x、y坐标分别为：

整理后得到：

x(t)＝a₃t³+a₂t²+a₁t+a₀,t∈[0,1]

y(t)＝b₃t³+b₂t²+b₁t+b₀,t∈[0,1]

其中：

a₃＝(x₃-x₀)+3(x₁-x₂),a₂＝3(x₀-2x₁+x₂)

a₁＝3(x₁-x₀),a₀＝x₀

b₃＝(y₃-y₀)+3(y₁-y₂),b₂＝3(y₀-2y₁+y₂)

b₁＝3(y₁-y₀),b₀＝y₀

根据采样得到的控制点生成一簇贝塞尔路径曲线，通过车辆运动学约束和边界约束对路径进行筛选，再根据代价函数从满足约束条件的候选路径中选择最优路径。

可选的，代价函数的定义为：

J(π)＝J_smo(π)+J_dist(π)

其中J_smo(π)是路径上所有点处曲率平方之和，J_dist(π)是路径的长度；在得到行驶路径的基础上，基于自车前方障碍物得到目标速度，进而生成速度曲线：对于自车前方的车辆，采用IDM跟驰模型计算目标加速度，并通过预演推算的方式进行校正，最终得到目标速度，计算公式为：

式中α是自车最大加速度，v_ego是自车速度，v_max是速度限制，δ是加速指数，s是前后车的纵向距离，s_min是最小跟车距离，T₀是安全跟车时距，Δv是前后车纵向速度差，β是舒适减速度；对于车辆前方的行人和其它障碍物，则根据自车与它们的距离设定目标速度；将得到的速度曲线与行驶路径进行时域关联得到最终的车辆运动轨迹。

可选的，在非结构化场景下采用感知信息对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径，得到最终的运动轨迹：

在非结构化的场景中，在驾驶策略系统的轨迹规划中采用栅格图对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径，改进混合A*算法只向前扩展节点：

结点n的代价f(n)＝g(n)+h(n)主要由两部分组成，其中g(n)是起始节点到节点n的代价；h(n)是n到目标节点的代价，被称为启发式；改进的混合A*使用障碍物和车道线的混合势场来计算n的邻居节点n′的g值：

g(n′)＝g(n)+[1+P(n′)]·L(n,n′)

其中P(n')是n'处的势场值。L(n,n′)是n到n′的欧氏距离；而对于启发式，使用加权的Dijkstra距离进行计算：

h(n′)＝[1+ω·C(n′)]·D(n′)

其中D(n′)是n'到目标节点的Dijkstra距离，ω等于0.03，C(n′)是n'的朝向代价，表示为：

其中(Δx,Δy,Δθ)是节点n'和目标节点之间的位姿偏差，(ΔX,ΔY)是起始节点和目标节点之间的位置偏差。

第二方面，本发明提供一种多规划算法集成的无人驾驶轨迹规划系统，包括：

数据获取模块，用于获取车辆环境感知数据，基于感知数据提取场景特征，得到两类结果级的感知信息；

规划选择模块，用于通过强化学习建立场景分析模型，将两类结果级的感知信息作为场景分析模型的输入，选择最优轨迹规划算法；

轨迹输出模块，用于采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹；在非结构化场景下采用感知信息对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径，得到最终的运动轨迹。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现多规划算法集成的无人驾驶轨迹规划方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现多规划算法集成的无人驾驶轨迹规划方法的步骤。

与现有技术相比，本发明有以下技术效果：

本发明将城区环境下无人车的运动规划问题分解成为场景分析和轨迹规划两个可以进行单独建模的子问题。针对复杂环境下难以通过有限规则构建准确的场景理解的问题，提出了一个基于深度强化学习的场景分析模型，通过场景中交通参与者的状态特征与场景的栅格图实现对环境状态的表征，利用势场模型产生及时的奖励解决强化学习训练中稀疏奖励的问题。针对单一规划算法无法适用于所有场景类型的问题，采用集成贝塞尔曲线和混合A*两种规划算法的方式来构建轨迹规划器，并为驾驶策略提供可解释和可控的轨迹规划结果。

附图说明

图1驾驶策略系统所在的自动驾驶系统整体框架

图2驾驶策略系统中场景分析模型的网络结构

图3a至3c为势场生成过程

图4三阶贝塞尔曲线。

具体实施方式

以下结合附图对本发明进一步说明：

请参阅图1至图4，本发明采用深度强化学习模型集成多种规划算法的方式，解决了城区复杂环境下无人车的运动规划问题；克服了单一规划算法难以应对复杂多变的场景的问题，同时保证了驾驶策略的可解释性和可控性。

实施例1：

多规划算法集成的无人驾驶轨迹规划方法，包括：

实施例2：

本发明提出了多规划算法集成的无人驾驶轨迹规划方法。如图1所示，本发明将无人车驾驶策略分解为两个主要部分：场景分析和轨迹规划。

场景分析部分使用感知数据来提取场景特征，并为轨迹规划选择合适的算法。轨迹规划则为车辆提供一个安全、平滑和可行的轨迹。

在传统的驾驶策略中，场景分析通常使用有限状态机等基于规则的方法进行决策。然而，人工制定的规则缺乏处理极端情况的能力。为了提高场景分析的准确性和通用性，本章提出了一个深度强化学习训练的场景分析模型来集成多种轨迹规划算法，该模型使用神经网络对场景表征表示进行编码并提取隐含的场景特征。为了在学习过程中获得连续的奖励，本发明还提出了一种基于势场的轨迹奖励来为模型的选择结果提供反馈。在轨迹规划部分，主要使用了Bezier曲线和混合A*两种算法，它们可以处理城市环境中的大部分典型场景。总体上来说，本发明所提出的集成驾驶策略介于传统的分层驾驶策略和端到端学习方法之间，能够有效结合两者的优点。与传统的分层驾驶策略相比，该方法利用深度强化学习模型进行复杂的场景推理，简化了驾驶策略的框架结构并有效减少了人工规则设计。与端到端方法相比，本发明利用传统规划算法来确保轨迹的可行性和最优性，从而为车辆的运动提供了一个可解释和可控的规划结果。

场景分析的主要目的是根据场景特征选择最合适的轨迹规划算法，通过强化学习进行建模，可以形式化为马尔科夫决策过程(Markov Decision Process，MDP)，即通过深度强化学习得到策略：

π_θ:S→A

其中S是状态空间，表示所有可能观测到的环境状态；A＝{贝塞尔曲线,混合A*}是动作空间，代表选择的轨迹规划算法；θ是策略参数。在每个时刻t，智能体车辆观察到环境状态s_t并确定将要执行的规划算法a_t并通过轨迹规划器产生车辆的运动轨迹。然后，车辆从环境中获得奖励r_t，状态观测转换为s_t+1～p(s_t+1∣s_t,a_t)。强化学习的目标是学习到最佳策略使得期望收益G_t最大化：

其中γ∈[0,1]是折扣系数。

采取了两类结果级的感知信息作为模型的输入状态，分别是包含车辆附近障碍物信息的特征列表sf_eature和表示车辆周围可行驶区域的占据栅格图s_grid。特征列表由距离自车最近的N个障碍物(包括车辆、行人和其他静态障碍物)的状态向量的组合而成，状态向量包含障碍物的位置、方向、速度和加速度信息。

占据栅格图的尺寸为350×200，栅格的分辨率为0.2m，其中1代表该栅格被占据，0代表未被占据。占据栅格图隐式地对车辆周围的空间信息进行编码，能够反映场景的非结构化特征。

本发明所使用的场景分析模型如图2所示，其采用卷积神经网络(CNN)作为主干网络。该模型同时接受占据栅格图s_grid和特征列表s_feature作为输入。占据栅格图通过CNN分支，而特征列表则被扁平化并被送入全连接分支。然后，这两个处理过的输入被串联起来，并通过另外两个全连接层，产生动作空间中每个动作的Q值或概率分布。

强化学习的目标是使奖励最大化，而奖励是由策略模型的决策结果决定的。在许多情况下，奖励具有延迟性和稀疏性，只有在一幕训练结束后才能得到最终的奖励。因此，有必要在训练过程中提供连续的、及时的奖励，以减轻延迟奖励的影响，使学习更有效率。由于规划结果直接受到场景分析的影响，因此可以采用每一时刻的规划结果对场景分析的结果进行评价。为此，本章提出利用基于栅格图的势场来评估轨迹，并在每个训练步骤中为场景分析模型产生实时的奖励。势场的大小根据与障碍物的距离计算，与障碍物距离越近势场越大，反之势场越小，势场的具体计算公式如下：

其中d是位置(x,y)与其最近的占据栅格点之间的距离，κ和φ是控制势函数形状的参数。势场的产生如图3所示。最终的奖励函数$r$定义为两种奖励函数的加权和：

r＝ω·r_potential+r_collision

使用了三种无模型的强化学习算法对所提出的驾驶策略系统中的场景分析模型进行训练，分别为深度Q网络(Deep Q-Network，DQN)、双深度Q网络(Double Deep Q-Network，DDQN)和近端策略优化(Proximal Policy Optimization，PPO)

本发明在驾驶策略系统的轨迹规划部分分别使用了贝塞尔曲线和混合A*两种算法来进行解决。结构化场景的特点是有明确的道路结构，通常以车道中心线作为车辆运动的参考路径，并通过车道线约束车辆的运动范围，此类场景下无人车的运动轨迹相对简单，因此采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹。贝塞尔曲线的数学表达式为：

生成n阶贝塞尔曲线需要n-1个控制点，随着阶数的上升，能够生成形状更加复杂的贝塞尔曲线，但需要预先确定的控制点数目与计算量也随之增加。无人车运动轨迹需要保证平滑性和连续性，鉴于三阶贝塞尔曲线能够确保一阶和二阶连续性，符合车辆运动轨迹连续性的要求，且具有运算代价小、实时性强的优点，选取三阶贝塞尔曲线来进行路径规划。如图4所示，生成三阶贝塞尔曲线需要得到P₀、P₁、P₂、P₃四个控制点。由车辆当前位姿(x₀,y₀,θ₀)可以确定起始控制点P₀，而终止控制点P₃则是根据前视距离在全局引导线上选取目标点并在其周围采样得到的。根据起始位姿(x₀,y₀,θ₀)和目标位姿(x₃,y₃,θ₃)，可以确定P₁和P₂所在的直线，沿直线分别从P₀、P₃向前、向后延长l₀、l₃的距离可以确定控制点P₁和P₂。根据贝塞尔曲线公式可以得到三阶贝塞尔曲线的x、y坐标分别为：

整理后得到：

x(t)＝a₃t³+a₂t²+a₁t+a₀,t∈[0,1]

y(t)＝b₃t³+b₂t²+b₁t+b₀,t∈[0,1]

其中：

a₃＝(x₃-x₀)+3(x₁-x₂),a₂＝3(x₀-2x₁+x₂)

a₁＝3(x₁-x₀),a₀＝x₀

b₃＝(y₃-y₀)+3(y₁-y₂),b₂＝3(y₀-2y₁+y₂)

b₁＝3(y₁-y₀),b₀＝y₀

根据采样得到的控制点可以生成一簇贝塞尔路径曲线，通过车辆运动学约束和边界约束对路径进行筛选，再根据代价函数从满足约束条件的候选路径中选择最优路径。代价函数的定义为：

J(π)＝J_smo(π)+J_dist(π)

其中J_smo(π)是路径上所有点处曲率平方之和，保证了路径的平滑性，J_dist(π)是路径的长度，保证了最短的行驶距离。在得到行驶路径的基础上，基于自车前方障碍物得到目标速度，进而生成速度曲线：对于自车前方的车辆，采用IDM跟驰模型计算目标加速度，并通过预演推算的方式进行校正，最终得到目标速度。计算公式为：

式中α是自车最大加速度，v_ego是自车速度，v_max是速度限制，δ是加速指数，s是前后车的纵向距离，s_min是最小跟车距离，T₀是安全跟车时距，Δv是前后车纵向速度差，β是舒适减速度。对于车辆前方的行人和其它障碍物，则根据自车与它们的距离设定目标速度。将得到的速度曲线与行驶路径进行时域关联可以得到最终的车辆运动轨迹。

在非结构化的场景中，通常没有明确的道路结构，且会有障碍物对车辆的可行驶区域做出限制，最终得到的可行轨迹往往不规则。对于这种情况，在驾驶策略系统的轨迹规划中采用栅格图对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径。使用的改进混合A*算法与混合A*在运动基元的生成以及代价函数的设计上有所区别。运动基元表示节点扩展的方式。在混合A*中，节点被向前和向后扩展。为了减少计算量，本章使用的改进混合A*算法只向前扩展节点。结点n的代价f(n)＝g(n)+h(n)主要由两部分组成，其中g(n)是起始节点到节点n的代价；h(n)是n到目标节点的代价，一般被称为启发式。为了使节点搜索更加符合障碍物与交通规则的约束，改进的混合A*使用障碍物和车道线的混合势场来计算n的邻居节点n′的g值：

g(n′)＝g(n)+[1+P(n′)]·L(n,n′)

其中P(n')是n'处的势场值。L(n,n′)是n到n′的欧氏距离。而对于启发式，本章使用加权的Dijkstra距离进行计算：

h(n′)＝[1+ω·C(n′)]·D(n′)

其中(Δx,Δy,Δθ)是节点n'和目标节点之间的位姿偏差，(ΔX,ΔY)是起始节点和目标节点之间的位置偏差。这样的启发式构造有助于在接近目标节点时减少搜索的发散。

实施例3：

本发明再一实施例中，提供一种多规划算法集成的无人驾驶轨迹规划系统，能够用于实现上述的一种多规划算法集成的无人驾驶轨迹规划方法，具体的，该系统包括：

本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本发明各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.多规划算法集成的无人驾驶轨迹规划方法，其特征在于，包括：

2.根据权利要求1所述的多规划算法集成的无人驾驶轨迹规划方法，其特征在于，获取车辆环境感知数据包括车辆位姿、障碍物、栅格图、边界地图和车道线地图；

基于感知数据提取场景特征，得到两类结果级的感知信息：

其中(x_i,y_i)代表第i个交通参与者的位置，θ_i代表朝向；代表x方向和y方向的速度；/>代表x方向和y方向的加速度；位置和朝向使用的是自车坐标系，速度和加速度使用的是以交通参与者自身为原点的局部坐标系；

3.根据权利要求2所述的多规划算法集成的无人驾驶轨迹规划方法，其特征在于，通过强化学习建立场景分析模型：

π_θ:S→A

其中θ是策略参数；G_t是收益，采用累计折扣奖励计算；γ∈[0,1]是折扣系数；

4.根据权利要求3所述的多规划算法集成的无人驾驶轨迹规划方法，其特征在于，利用基于栅格图的势场来评估轨迹，并在每个训练步骤中为场景分析模型产生实时的奖励；势场的大小根据与障碍物的距离计算，与障碍物距离越近势场越大，反之势场越小，势场的具体计算公式如下：

其中d是位置(x,y)与其最近的占据栅格点之间的距离，κ和φ是控制势函数形状的参数；最终的奖励函数r定义为两种奖励函数的加权和：

r＝ω·r_potential+r_collision

5.根据权利要求1所述的多规划算法集成的无人驾驶轨迹规划方法，其特征在于，采用贝塞尔曲线来生成车辆在结构化场景下的运动路径，并加之速度规划得到最终的运动轨迹：

整理后得到：

x(t)＝a₃t³+a₂t²+a₁t+a₀,t∈[0,1]

y(t)＝b₃t³+b₂t²+b₁t+b₀,t∈[0,1]

其中：

a₃＝(x₃-x₀)+3(x₁-x₂),a₂＝3(x₀-2x₁+x₂)

a₁＝3(x₁-x₀),a₀＝x₀

b₃＝(y₃-y₀)+3(y₁-y₂),b₂＝3(y₀-2y₁+y₂)

b₁＝3(y₁-y₀),b₀＝y₀

6.根据权利要求5所述的多规划算法集成的无人驾驶轨迹规划方法，其特征在于，代价函数的定义为：

J(π)＝J_smo(π)+J_dist(π)

7.根据权利要求1所述的多规划算法集成的无人驾驶轨迹规划方法，其特征在于，在非结构化场景下采用感知信息对非结构化场景进行表征，并利用改进的混合A*算法来搜索路径，得到最终的运动轨迹：

g(n′)＝g(n)+[1+P(n′)]·L(n,n′)

其中P(n')是n'处的势场值；L(n,n′)是n到n′的欧氏距离；而对于启发式，使用加权的Dijkstra距离进行计算：

h(n′)＝[1+ω·C(n′)]·D(n′)

8.一种多规划算法集成的无人驾驶轨迹规划系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述多规划算法集成的无人驾驶轨迹规划方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多规划算法集成的无人驾驶轨迹规划方法的步骤。