CN117492447B

CN117492447B - 自动驾驶车辆行驶轨迹规划方法、装置、设备及存储介质

Info

Publication number: CN117492447B
Application number: CN202311831113.1A
Authority: CN
Inventors: 赵雅倩; 邓琪; 李茹杨; 张恒; 张腾飞
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-26
Anticipated expiration: 2043-12-28
Also published as: CN117492447A

Abstract

本发明涉及自动驾驶技术领域，公开了自动驾驶车辆行驶轨迹规划方法、装置、设备及存储介质，方法包括：获取目标车辆的所处环境中的驾驶环境信息、历史状态序列和局部矢量化地图；将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；将历史状态序列和局部矢量化地图输入至预先建立的预测模型中，得到目标车辆的未来轨迹预测特征；将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图；将预测占用图与各候选轨迹进行匹配，确定各候选轨迹在预测占用图中的占用概率；将占用概率最大的候选轨迹确定为最优轨迹。本发明综合考虑周围车辆在未来的交互情况得到最优行驶轨迹，安全性更高。

Description

自动驾驶车辆行驶轨迹规划方法、装置、设备及存储介质

技术领域

本发明涉及自动驾驶技术领域，具体涉及自动驾驶车辆行驶轨迹规划方法、装置、设备及存储介质。

背景技术

自动驾驶汽车在复杂交通场景中做出明智决策是当前自动驾驶技术的关键挑战之一。现实世界中，道路上存在着各种各样的智能体，包括其他车辆、行人和自行车等，它们都具有各自的意图和行动。为了能够做出有效的决策，自动驾驶汽车需要全面理解这些智能体的意图，并准确预测它们的未来行动。现有技术中在对自动驾驶的轨迹进行规划时，并未结合未来各智能体之间的交互行为，因此，通过现有技术预测得到的轨迹安全性较差。

发明内容

有鉴于此，本发明提供了一种自动驾驶车辆行驶轨迹规划方法、装置、设备及存储介质，以解决通过现有技术预测得到的轨迹安全性较差的问题。

第一方面，本发明提供了一种自动驾驶车辆行驶轨迹规划方法，该方法包括：获取目标车辆的所处环境中的驾驶环境信息、目标车辆和所处环境中周围车辆的历史状态序列，以及局部矢量化地图；将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；子规划区域是根据目标车辆不同的视野范围确定的；将历史状态序列和局部矢量化地图输入至预先建立的预测模型中，得到目标车辆以及周围车辆的未来轨迹预测特征；预测模型是采用分层博弈论框架构建的；将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图；将预测占用图与各候选轨迹进行匹配，确定各候选轨迹在预测占用图中的占用概率；将占用概率最大的候选轨迹确定为最优轨迹。

本发明实施例提供的自动驾驶车辆行驶轨迹规划方法，先将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹，采用具有差异化视野范围的规划策略生成多样化候选轨迹，扩大选择范围，提升候选轨迹可行性，通过分层博弈论框架构建预测模型，通过对车辆多模态未来轨迹进行迭代推理，增强预测交互性与准确性，最后结合候选轨迹与车辆未来轨迹预测特征，选择最优行驶轨迹，该最优行驶轨迹是综合考虑周围车辆在未来的交互情况得到的，因此，该最优行驶轨迹具有更高的安全性。

在一种可选的实施方式中，确定子规划区域的步骤包括：根据目标车辆的行驶方向确定待规划道路；按照预设划分策略将待规划道路划分为多个子规划区域。

在一种可选的实施方式中，按照预设划分策略将待规划道路划分为多个子规划区域，包括：将待规划道路均匀划分为多个子规划区域，各子规划区域的视野宽度相同。

在一种可选的实施方式中，按照预设划分策略将待规划道路划分为多个子规划区域，包括：各子规划区域的视野宽度随着与目标车辆距离的增大而增大；各子规划区域的视野宽度为：

其中，表示第i个子规划区域的视野宽度，/>表示第1个子规划区域的视野宽度，/>为递增系数；

各子规划区域的视野宽度满足以下条件：

其中，表示待规划道路的视野宽度，/>表示子规划区域的数量。

在一种可选的实施方式中，按照预设划分策略将待规划道路划分为多个子规划区域，包括：确定待规划道路中不同位置的车流密度；根据车流密度将待规划道路划分为多个子规划区域，子规划区域的视野宽度随着子规划区域内车流密度的增大而减小。

在一种可选的实施方式中，将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹，包括：将驾驶环境信息输入值预先建立的规划策略模型中，得到各子规划区域对应的轨迹参数集；根据各子规划区域的轨迹参数集，分别计算各子规划区域分别对应的候选轨迹。

在一种可选的实施方式中，轨迹参数集包括目标车辆的结束状态信息和轨迹规划窗口，其中，结束状态信息包括结束点纵向位置、结束点横向位置、结束点航向角和结束点加速度；根据子规划区域的轨迹参数集，子规划区域对应的候选轨迹的步骤包括：确定目标车辆的起始状态信息，起始状态信息包括起始点纵向位置、起始点横向位置、起始点航向角和起始点加速度；按照轨迹规划窗口对车辆纵向位置在起始点纵向位置和结束点纵向位置内等间隔采样取点，得到多个离散路径点；根据起始点纵向位置、起始点横向位置、起始点航向角、结束点纵向位置、结束点横向位置、结束点航向角，计算各离散路径点的位置信息和综合航向角信息；根据各离散路径点的位置信息和综合航向角信息确定候选路径；按照轨迹规划窗口对时间步等间隔采样取点，得到多个离散速度点；根据起始点加速度、结束点加速度和轨迹规划窗口，计算各离散速度点的离散速度值；将候选路径和各离散速度点的离散速度值进行匹配，得到候选轨迹。

在一种可选的实施方式中，规划策略模型包括主网络层和第一输出编码层，主网络层包括卷积编码层和第一全连接层，第一输出编码层包括多个并行的编码头，编码头的数量与子规划区域的数量相同，各编码头中分别包括第二全连接层；卷积编码层用于通过卷积运算提取驾驶环境信息中的图像特征；第一全连接层用于对图像特征进行融合处理以及降维处理，得到融合特征；各第二全连接层用于根据融合特征分别输出不同子规划区域的轨迹参数集。

在一种可选的实施方式中，规划策略模型是结合策略评价网络对规划策略网络进行训练得到的，策略评价网络包括结构相同的第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络，第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络均包括主网络层和第二输出编码层，主网络层与规划策略模型的主网络层相同，第二输出编码层包括第三全连接层；第三全连接层用于将融合特征编码为价值标量，价值标量用于估计规划策略采取动作的预期回报；结合策略评价网络对规划策略网络进行训练得到规划策略模型的步骤包括：将训练数据分别输入至规划策略网络、第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络中，通过规划策略网络得到多个训练轨迹参数集，通过第一策略评估网络得到第一目标评估值，通过第二策略评估网络得到第二目标评估值，通过第三策略评估网络得到第三目标评估值，通过第四策略评估网络得到第四目标评估值，第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值是对训练轨迹参数集进行评估得到的；将第一目标评估值和第二目标评估值中的最小值确定为目标评估值；通过利用梯度下降算法最小化实际值和目标评估值之间的误差，更新第三策略评估网络和第四策略评估网络的网络参数，其中，实际值是根据第三目标评估值和第四目标评估值确定的；基于Polyak平均更新第一策略评估网络和第二策略评估网络的网络参数；基于目标函数更新规划策略网络的网络参数，得到规划策略模型，目标函数是结合价值函数的平方误差损失和策略熵损失构建的，价值函数的平方误差损失是结合目标评估值、第三目标评估值和第四目标评估值确定的。

在一种可选的实施方式中，策略评估网络通过如下公式计算目标评估值：

，

其中，为策略评估参数，/>表示一次规划周期中策略输出的/>个子规划区域的候选轨迹参数集，/>为车辆所处/>状态下规划策略选择参数集/>生成多条候选轨迹时的环境奖励，/>为奖励衰减因子，奖励函数/>应为多条候选轨迹的奖励平均/>。

在一种可选的实施方式中，预测模型包括编码器网络和解码器网络，编码器网络用于将历史状态序列和局部矢量化地图进行编码，得到场景上下文编码，并将场景上下文编码作为公共环境背景输入解码器网络；解码器网络中包括多级解码层，在各级解码层中基于博弈论对场景上下文编码和车辆历史特征进行推理迭代分析，得到目标车辆以及周围车辆的未来轨迹预测特征。

在一种可选的实施方式中，编码器网络包括长短期记忆网络、多层感知器、Transformer编码器，编码器网络将历史状态序列和局部矢量化地图进行编码，得到场景上下文编码的步骤包括：通过长短期记忆网络对历史状态序列进行编码，得到历史特征张量，历史特征张量中包含所有车辆的历史特征；通过多层感知器对局部矢量化地图进行编码，得到初始地图特征张量；对地图特征张量中同一地图元素中的航路点进行分组，并通过最大池化来对特征进行聚合，得到的地图特征张量；将历史特征张量和地图特征张量进行拼接，得到目标车辆和周围车辆的驾驶场景上下文张量；利用Transformer编码器捕获每个车辆的上下文张量中所有场景元素之间的关系，得到场景上下文编码。

在一种可选的实施方式中，解码器网络的各解码层中包括多头交叉注意力模块，解码器网络得到目标车辆以及周围车辆的未来轨迹预测特征的步骤包括：在0级解码层中，将初始模态嵌入和历史特征张量相结合作为查询输入至多头交叉注意力模块，将场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数；在k级解码层中，接收第（k-1）层输出的内容特征、预测特征和分数；在时间轴上使用多层感知器对预测特征进行编码，得到车辆多模态未来轨迹编码张量；使用分数对车辆多模态未来轨迹编码张量在模态轴上进行加权平均池化，得到车辆未来轨迹；通过自注意力模块对车辆未来轨迹之间的交互进行建模，得到交互特征；将交互特征与场景上下文编码相连接，得到目标车辆以及周围车辆更新后的场景上下文编码；将（k-1）层输出的内容特征和车辆未来轨迹作为查询输入至多头交叉注意力模块，将更新后的场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数。

在一种可选的实施方式中，预测模型是采用监督学习的方式进行预训练得到的；对预测模型进行训练时所适用的损失函数为：

，

其中，和/>是平衡两个损失项影响的权重因子，/>为交互损失，/>表示车辆i在k级交互预测中得到行为模式/>的/>时刻状态，/>是不同车辆的未来状态/>之间的 L2 距离，/>是/>级车辆/>的行驶模式，/>是（k-1）级车辆/>的行驶模式，/>为模仿损失，令/>为车辆最接近真实行为的最佳预测模式，/>为该模式每时刻对应的GMM特征，/>，/>为行为模式/>的选择概率，/>为车辆状态，/>为负对数似然损失函数。

在一种可选的实施方式中，本发明实施例提供的方法还包括：基于预测占用图构建车辆碰撞概率图；根据碰撞概率图和预设优化目标对最优轨迹进行调整，得到优化后的最优轨迹。

在一种可选的实施方式中，基于预测占用图构建车辆碰撞概率图，包括：将周围车辆的未来轨迹预测特征在矢量地图上进行投影，得到场景预测占用图；根据场景预测占用图和预测占用图确定周围动态目标的未来预测特征；获取周围环境的静态环境信息和可行驶区域；根据周围环境的静态环境信息、周围动态目标的未来预测特征和可行驶区域进行合并，得到不可行驶区域图；根据最优轨迹构建卷积核，卷积核与目标车辆的形状和未来姿态相匹配；在不可行驶区域图上对卷积核进行卷积，得到碰撞概率图。

在一种可选的实施方式中，预设优化目标的成本函数包括：

其中，、/>和/>均为超参数，/>为运动学函数集，包括急动、曲率、曲率变化率、加速度和横向加速度五项，/>为碰撞成本函数，

，

其中表示采样得到的/>个最近的占用图像素点，/>为占用像素点方差，/>为预测成本函数，

，

其中，表示采样得到的前/>个的占用图像素点，/>为占用像素点方差，

预设优化目标的约束条件包括：

s.t.

其中，表示车辆在/>点处的转弯半径，/>表示车辆可达到的最大转弯半径，/>为车辆最大加速度，/>为车辆横向最大加速度，/>为/>点处的轨迹曲线曲率。

第二方面，本发明提供了一种自动驾驶车辆行驶轨迹规划装置，该装置包括：数据获取模块，用于获取目标车辆的所处环境中的驾驶环境信息、目标车辆和所处环境中周围车辆的历史状态序列，以及局部矢量化地图；候选轨迹获取模块，用于将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；子规划区域是根据目标车辆不同的视野范围确定的；未来轨迹预测特征获取模块，用于将历史状态序列和局部矢量化地图输入至预先建立的预测模型中，得到目标车辆以及周围车辆的未来轨迹预测特征；预测模型是采用分层博弈论框架构建的；预测占用图确定模块，用于将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图；占用概率确定模块，用于将预测占用图与各候选轨迹进行匹配，确定各候选轨迹在预测占用图中的占用概率；最优轨迹确定模块，用于将占用概率最大的候选轨迹确定为最优轨迹。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的自动驾驶车辆行驶轨迹规划方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的自动驾驶车辆行驶轨迹规划方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的自动驾驶车辆行驶轨迹规划方法的流程示意图；

图2是根据本发明实施例的差异化视野范围中的候选轨迹生成示意图；

图3是根据本发明实施例的根据车流密度划分子规划区域的示意图；

图4是根据本发明实施例的规划策略模型的结构示意图；

图5是根据本发明实施例的策略评估网络的结构示意图；

图6是根据本发明实施例的场景上下文编码流程示意图；

图7是根据本发明实施例的k级交互解码器示意图；

图8是根据本发明实施例的自动驾驶车辆行驶轨迹规划装置的结构框图；

图9是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

自动驾驶汽车在复杂交通场景中做出明智决策是当前自动驾驶技术的关键挑战之一。现实世界中，道路上存在着各种各样的智能体，包括其他车辆、行人和自行车等，它们都具有各自的意图和行动。为了能够做出有效的决策，自动驾驶汽车需要全面理解这些智能体的意图，并准确预测它们的未来行动。

为了解决上述问题，许多研究借助机器学习模型来进行驾驶行为预测。然而，仅仅关注行为预测的准确性是不足以保证最佳规划性能的。这是因为自动驾驶汽车和其他智能体之间存在复杂的交互关系，仅仅预测其行为并不足以实现最佳的决策。因此，开发能够推理智能体和自动驾驶汽车之间交互的联合规划和预测方法变得至关重要。许多现有方法致力于产生联合和协调的决策，以增强规划过程的交互性。通过考虑自动驾驶汽车和其他智能体之间的复杂互连关系，这些方法能够更好地应对现实环境中的挑战，从而提高自动驾驶汽车的规划性能和安全性。例如，一些研究通过引入博弈论和优化算法，实现了自动驾驶汽车与其他智能体之间的协同决策。这些方法不仅考虑到自动驾驶汽车的目标和约束，还考虑到其他智能体的行为和意图，从而实现了更具合作性和适应性的决策。

然而，自动驾驶汽车和其他智能体之间相互影响、相互依赖，如何准确地建模这些互连关系，并将其纳入联合规划和预测方法中，是当前需要解决的问题。一方面，需要研究如何从传感器数据中准确地感知和识别其他智能体的行为和意图。另一方面，需要开发更高效的算法和模型来推理和预测智能体之间的交互关系，以实现更准确和可靠的联合规划和预测。

现有自动驾驶联合预测规划研究中，通常会先使用采集到的数据，构建预测模型。传统方法可以基于规则和模型进行建模，而基于深度学习的方法则可以使用神经网络模型。在训练过程中，通过优化算法和损失函数，不断调整模型的参数，使其能够准确地预测交通参与者的行为和意图。然后，在预测模型的基础上，设计规划决策算法，根据预测结果和当前车辆的状态，制定合理的驾驶决策，例如车辆的速度、转向、车道选择等。常用的规划决策算法主要基于传统的路径规划和控制方法，也有少部分研究使用强化学习技术来实现智能决策。

然而，大多数现有的预测规划研究主要侧重于对驾驶场景进行编码，并通过车辆历史轨迹来表示交互，而没有明确地对车辆未来交互行为进行建模，影响规划准确性。

另一方面，大多数现有研究中，自动驾驶车辆的下游规划模块必须被动地对预测结果做出反应。然而，在并道、变道和无保护转弯等危急情况下，自动驾驶汽车需要积极行动以寻求与其他车辆的驾驶协商。针对上述问题，一种典型方法是采用条件预测模型，使用自车内部规划来预测其他车辆对自车的响应，从而缓解交互问题，但这种单向交互方案仍然忽略了自动驾驶汽车和其他道路目标之间的动态相互影响。

综上，开发更加综合和全面的联合预测规划方法，考虑自动驾驶汽车和其他道路参与者之间的动态相互影响，使自动驾驶系统能够做出更明智、安全和社会兼容的决策，是当前高阶自动驾驶系统落地过程中亟待解决的技术问题。

根据本发明实施例，提供了一种自动驾驶车辆行驶轨迹规划方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种自动驾驶车辆行驶轨迹规划方法，图1是根据本发明实施例的自动驾驶车辆行驶轨迹规划方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取目标车辆的所处环境中的驾驶环境信息、目标车辆和所处环境中周围车辆，以及局部矢量化地图。

在一可选实施例中，驾驶环境信息包括目标车辆和周围目标的时空信息以及道路几何和导航信息，可通过鸟瞰图（Birds-eye view，BEV）来表征车辆驾驶环境。目标车辆和周围目标的时空信息是指在某一时刻下目标车辆和周围目标的静止信息，周围目标包括全部的智能体。

在一可选实施例中，历史状态序列为，其中/>表示车辆数量，/>表示历史信息长度，/>表示状态属性的数量。历史状态序列包含有目标车辆和目标车辆所处环境内周围车辆的历史信息。

在一可选实施例中，局部矢量化地图，对于环境中的每个车辆，需要提取/>个附近的地图元素，例如路线和人行横道，每个元素包含具有/>个属性的/>个航路点。所有输入数据将根据自我车辆的状态进行标准化，并且张量中任何缺失的位置都用零填充。

步骤S102，将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；子规划区域是根据目标车辆不同的视野范围确定的，即，对于不同的子规划区域，其对应的视野范围是不同的。

在一可选实施例中，可以将BEV图像作为规划策略模型的状态输入s，通过规划策略模型得到多个子规划区域内的候选轨迹。

在一可选实施例中，如图2所示，子规划区域是对目标车辆即将行驶的路段进行划分得到的，各子规划区域之间不存在交叉。

步骤S103，将历史状态序列和局部矢量化地图输入至预先建立的预测模型中，得到目标车辆以及周围车辆的未来轨迹预测特征；预测模型是采用分层博弈论框架构建的。针对车辆间的交互驾驶行为，本发明实施例中利用分层博弈论框架对预测模型进行建模，以更好地反映认知推理过程。

步骤S104，将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图。

在一可选实施例中，将目标车辆的未来轨迹预测特征字在矢量地图上进行投影，能够在矢量地图上确定与未来轨迹特征对应的多个网格，未来轨迹特征对应的多个网格构成了目标车辆的预测占用图。

步骤S105，将预测占用图与各候选轨迹进行匹配，确定各候选轨迹在预测占用图中的占用概率。

在一可选实施例中，将各候选轨迹与未来轨迹特征对应的多个网格进行匹配，根据未来轨迹特征对应的多个网格中与候选轨迹重合的网格确定各候选轨迹在预测占用图中的占用概率。

步骤S106，将占用概率最大的候选轨迹确定为最优轨迹。

本发明实施例中，将该占用图与候选轨迹/>进行匹配，/>表示步骤一的轨迹生成过程，选择占用概率最大的一条候选轨迹作为最优轨迹：/>。

在一可选实施例中，上述步骤S102具体包括：

首先，将驾驶环境信息输入值预先建立的规划策略模型中，得到各子规划区域对应的轨迹参数集。

然后，根据各子规划区域的轨迹参数集，分别计算各子规划区域分别对应的候选轨迹。

在本发明实施例中，为了确保候选轨迹的平滑性和灵活性，规划策略模型输出的是候选轨迹的生成参数，然后将轨迹参数映射为一条曲率连续的候选轨迹。

在一可选实施例中，基于多项式曲线的轨迹生成方法可生成曲率连续的平滑轨迹，满足车辆行驶需求，轨迹曲线的起止边界条件与曲线形态具有一一对应关系，因此在给定规划窗口和轨迹起止边界条件的情况下，可生成唯一的一条局部轨迹曲线，将曲线按照设定执行步长进行离散化处理，即可得到一连串可行轨迹点。假定轨迹规划窗口大小为T，对于任意待规划轨迹，需要已知的边界条件包括：

起始边界条件，即车辆当前状态，包括车辆起始位置、航向角/>、速度/>、加速度/>；

结束边界条件，即T时刻后的车辆行驶状态，包括车辆结束位置、航向角/>、速度/>、加速度/>；

对于一条待规划轨迹，当已知轨迹的起止点位置信息，可以采用多项式曲线产生由起点至终点的可行路径。其中，路径结束点处的位置由纵向位置、横向位置/>和航向角三个参数表征，为了鼓励车辆尽可能沿车道中心线行驶，这里将/>设定在车道中心点处。考虑车辆变道、超车等驾驶行为，/>可设定在当前车道、左侧车道或右侧车道，因此对于任意局部候选轨迹，其待学习参数包括横向位置/>、纵向位置/>、航向角/>、速度/>、以及加速度/>，其中/>应当对应于离散的取值空间。为满足动态不确定场景中的车辆多样化驾驶需求，本发明将局部规划窗口T也作为待学习参数，从而使规划策略可根据车辆所处环境的风险程度自适应调整轨迹长度，以实现长度可变的自适应轨迹规划，有效增强所生成候选轨迹的灵活性与风险响应能力。综上，规划策略模型输出应当对应为一组可行性最高的轨迹规划参数/>。

在一可选实施例中，根据子规划区域的轨迹参数集，子规划区域对应的候选轨迹的步骤包括：

步骤a1，确定目标车辆的起始状态信息，起始状态信息包括起始点纵向位置、起始点横向位置、起始点航向角和起始点加速度。

步骤a2，按照轨迹规划窗口对车辆纵向位置在起始点纵向位置和结束点纵向位置内等间隔采样取点，得到多个离散路径点。

即，对车辆纵向位置在内等间隔采样取点，可得到一系列离散路径点，其中采样间隔的设置与规划窗口T相关，表示为/>，将离散路径点序列表示为，该序列包含/>个路径点，其中为第/>个中间路径点。

步骤a3，根据起始点纵向位置、起始点横向位置、起始点航向角、结束点纵向位置、结束点横向位置、结束点航向角，计算各离散路径点的位置信息和综合航向角信息。

步骤a4，根据各离散路径点的位置信息和综合航向角信息确定候选路径。

步骤a5，按照轨迹规划窗口对时间步等间隔采样取点，得到多个离散速度点。

在一可选实施例中，为了减小各路径点处位置和速度的匹配误差，将速度点数设置为路径采样点数的1/10，因此速度曲线的采样间隔设置为，产生/>个速度点/>。

步骤a6，根据起始点加速度、结束点加速度和轨迹规划窗口，计算各离散速度点的离散速度值。

步骤a7，将候选路径和各离散速度点的离散速度值进行匹配，得到候选轨迹。

在本发明实施例中，上述步骤a1-步骤a4生成了候选路径，候选路径只是路线的生成，并不包含速度信息，步骤a5、步骤a5生成了速度曲线，在步骤a7中将候选路径和速度曲线相结合，得到了包含有路径信息和速度信息的候选轨迹。

在实际应用中，候选路径可行性通常会受到车辆自身动力学约束，包括转向角、安全距离等。因此路径上的任意一点的曲率必须小于目标的最大曲率限制（或最小转弯半径约束），同时所产生的可行路径还应该是曲率连续的。为满足路径可行性约束，同时降低求解空间维度，本发明实施例中基于五次多项式曲线生成路径，将车辆候选路径规划转化为曲线参数的搜索寻优。

在上述步骤a1-步骤a4中，假设一次规划期中车辆起始状态为，规划策略根据状态/>获取到规划参数，此时已知路径起始状态为/>，结束状态为，采用5次多项式描述横向位置/>与纵向位置/>的变化关系：

（1）

其中均为路径曲线系数。基于路径起止状态构造端点约束条件

(2)

根据端点约束条件可以通过下式求解各系数

(3)

对车辆纵向位置在内等间隔采样取点，结合公式（1）与（3），可得到一系列离散路径点，其中采样间隔的设置与规划窗口T相关，表示为

(4)/>

将路径点序列表示为，该序列包含个路径点，其中/>为第/>个中间路径点，该点处的车辆航向角通过下式计算

(5)

综合航向角和各路径点处位置信息，即可得到该规划周期内的局部候选路径，其中，起始路径点/>，结束路径点。

在上述步骤a5、步骤a6中，由于步骤a1-步骤a4得到的候选路径不包含速度、加速度等车辆运动信息，为确保车辆可沿该路径行驶，还需相应地进行运动规划。已知路径起止点处的车辆运动信息，采用5次多项式描述速度与时间步/>的变化关系：

（6）

其中为局部路径的起始时间步，/>为速度曲线系数。为便于处理，令起始时间步/>，结束时间步等同于规划窗口大小，即/>，根据起止点处的车辆运动状态构造端点约束条件：

(7)

根据端点约束条件可以通过下式求解各系数：

(8)

同样在规划窗口内对时间步等间隔采样取点，结合公式（6）与（8），可得到一系列离散速度值。其中，起始速度点，结束速度点/>，为/>时刻的加速度值，通过下式估算：

(9)

在步骤a7中，在完成路径和运动规划后，按照路程长度将路径点序列和速度序列进行匹配，构成可行驶的候选轨迹。

首先对速度曲线进行积分，计算第个离散速度值处的车辆已行驶距离：/>

(10)

根据上式可得到与速度序列相对应的第一距离序列，其中车辆行驶距离在/>处的速度和加速度为/>。

然后，基于路径序列计算行驶距离：

(11)

根据上式可得到与路径序列相对应的第二距离序列，其中车辆行驶距离在/>处的位置和转向角为/>。

由于路径曲线和速度曲线的生成过程相对独立，无法直接按照规划步长或序列索引将其等间隔对应起来，此处通过对比上述第一距离和第二距离信息，实现速度点与路径点间的耦合。对于任意速度点，已知该点处的行驶距离应当为/>，按照距离值大小选取与之最接近的路径点索引：

(12)

进一步根据距离接近程度计算与该速度点匹配的路径点位姿：

(13)

其中，为距离权重，通过下式计算：

(14)

最后，综合速度与位姿信息，即可得到所需候选轨迹

。

在一可选实施例中，为了提升候选轨迹多样性，上述步骤S102中确定了多个子规划区域内的候选轨迹，划分子规划区域的步骤包括：

首先，根据目标车辆的行驶方向确定待规划道路。

其次，按照预设划分策略将待规划道路划分为多个子规划区域。

如图2所示，沿车辆行驶方向将待规划道路按照纵向视野划分为多个子区域，每个子区域内采用一个具有特定视野范围的规划策略生成一条最优候选轨迹。假设车辆前方道路被划分为个子规划区域，车辆当前纵向位置为/>，第/>个子区域的规划视野宽度为/>，则该区域内候选轨迹结束点的纵向位置应当处于以下范围内：

(15)/>

考虑到车辆对于驾驶环境感知的局限性，在规划候选轨迹前，先根据感知范围设定规划策略的最大视野距离，然后在此基础上划分规划子区域，因此所有子区域的视野宽度相加后应当等于/>，即

(16)

以下提供了三种不同的方式进行区域划分，在具体实施过程中，可以根据实际需求选择合适的划分方式。

方式一、均匀划分：将每个子规划区域的视野范围设置为固定大小，若已知子区域数量为，则各视野宽度为：

(17)

同理，若已设定视野宽度，则规划区域数/>亦是确定的。

方式二、指数划分：各子规划区域的视野范围从前往后按照指数递增，距离越远则视野宽度越大，假设已知第一子区域的视野宽度为，则后续各区域的视野宽度满足：

(18)

其中为递增系数。在已知最大视野距离/>的情况下，各区域视野满足：

(19)

q的取值大于1，考虑到实际交通中常以50米、100米和200米作为测速区间，可经验性选为2。如车流相对稀疏，可适当调大；若车流密集，可适当调小。

方式三、自适应划分：按照前方车流密度自适应设定各子区域的视野宽度，车流密度越大，则规划视野越小。此处可通过行驶车辆数来实现视野范围的自适应划分，每间隔辆车则将该段视野划分为一个规划子区域，如图3所示，为车辆数m=4时的区域划分示例图。

在一可选实施例中，如图4所示，上述步骤S102中所使用的规划策略模型包括主网络层和第一输出编码层，

主网络层包括卷积编码层和第一全连接层，第一输出编码层包括多个并行的编码头，编码头的数量与子规划区域的数量相同，各编码头中分别包括第二全连接层。卷积编码层用于通过卷积运算提取驾驶环境信息中的图像特征。第一全连接层用于对图像特征进行融合处理以及降维处理，得到融合特征。

如图4所示，规划策略模型的主网络层中，卷积编码层均包括三个卷积层，位于最上层的卷积层，通道数=32，卷积核=3×3，步长=2，位于中间层的卷积层，通道数=64，卷积核=3×3，步长=2，位于最下层的卷积层，通道数=128，卷积核=3×3，步长=2。主网络层中，第一全连接层中均包括两个全连接层，位于上层的全连接层单元数=128，位于下层的全连接层单元数=64。

第一输出编码层中的各第二全连接层用于根据融合特征分别输出不同子规划区域的轨迹参数集。

如图4所示，规划策略模型的第一输出编码层中，第二全连接层的单元数=6。

在一可选实施例中，规划策略模型基于Actor-Critic架构构建的，Actor-Critic架构包括规划策略网络（Actor）和策略评估网络（Critic），即，在本发明实施例中，规划策略模型是结合策略评价网络对规划策略网络进行训练得到的，策略评价网络包括结构相同的第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络，

第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络的结构相同，如图5所示为以其中一个策略评估网络为例提供的结构示意图，第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络均包括主网络层和第二输出编码层，主网络层与规划策略模型的主网络层相同，第二输出编码层包括第三全连接层。主网络层的详细内容参见上述对规划策略模型的描述，在此不再赘述。

第三全连接层用于将融合特征编码为价值标量，价值标量用于估计规划策略采取动作的预期回报。如图5所示，策略评估网络的第二输出编码层中，第三全连接层的单元数=1。

在本发明实施例中，第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络的结构相同，但是由于第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络中的参数不同，因此，输出的数据的值也不同，本发明实施例中根据第三策略评估网络和第四策略评估网络/>输出的数据对第一策略评估网络/>和第二策略评估网络的参数进行更新，第一策略评估网络/>和第二策略评估网络目标网络/>输出的数据用于实际策略评估。

利用Actor-Critic架构构建规划策略模型的步骤包括：

步骤b1，将训练数据分别输入至规划策略网络、第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络中，通过规划策略网络得到多个训练轨迹参数集，通过第一策略评估网络得到第一目标评估值，通过第二策略评估网络得到第二目标评估值，通过第三策略评估网络得到第三目标评估值，通过第四策略评估网络得到第四目标评估值，第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值是对训练轨迹参数集进行评估得到的。

步骤b2，将第一目标评估值和第二目标评估值中的最小值确定为目标评估值。

步骤b3，通过利用梯度下降算法最小化实际值和目标评估值之间的误差，更新第三策略评估网络和第四策略评估网络的网络参数，其中，实际值是根据第三目标评估值和第四目标评估值确定的。

步骤b4，基于Polyak平均更新第一策略评估网络和第二策略评估网络的网络参数。

步骤b5，基于目标函数更新规划策略网络的网络参数，得到规划策略模型，目标函数是结合价值函数的平方误差损失和策略熵损失构建的，价值函数的平方误差损失是结合目标评估值、第三目标评估值和第四目标评估值确定的。

训练期间，策略评估网络critic通过回归预期回报以衡量规划策略性能，考虑到多视野候选轨迹参数的同时生成，本发明实施例中策略评估的计算过程定义为：

(20)/>

其中，为策略评估参数，/>表示一次规划周期中策略输出的/>个规划视野中的候选轨迹参数集，/>为车辆所处/>状态下规划策略选择参数集/>生成多条候选轨迹时的环境奖励，/>为奖励衰减因子。此处，奖励函数/>应当为多条候选轨迹的奖励平均：

(21)

其中为车辆状态为/>时执行参数/>对应轨迹时的环境反馈奖励，考虑车辆行驶效率、安全性、平稳性等因素，采用如下奖励函数定义：

(22)

其中，表示：车辆到达目的地，奖励/>，否则/>；

表示：车辆每行驶 1 m，奖励+0.1；令/>为路程累计标志，假设车辆/>时刻已行驶路程长度为/>，若/>，无行驶奖励，若/>，有两种处理方法：

（1），更新路程累计标志，此处/>为向下取整操作；

（2），更新路程累计标志/>；

表示：车辆与其他车辆或路缘发生碰撞，奖励/>，否则；

表示：车辆成功完成一次超车操作，奖励/>，车辆被周围车辆超车，奖励/>，其中超车成功与否需基于车辆当前状态及其上一时刻状态进行判定；特别地，为确保不同驾驶场景中的奖励设置均衡性，该奖励项将通过交通流密度/>进行加权调节。其中/>表示为/>，其中/>为当前设置的车辆总数或每秒车流量，/>为场景上限；

表示：车辆连续10s以上压线行驶，奖励/>，否则；

表示：车辆速度连续30s以上低于0.1 m/s，奖励/>，否则。

实际求解过策略评估值时，对于任意/>时刻的参数值，可以基于Bellman方程迭代计算：

(23)

为了提升后续策略在线训练的探索能力，本发明在策略评估值的计算过程中增加熵正则化项，即：

(24)

其中，为熵权重，/>为策略的熵正则化项。同时为了减少策略评估值的过高估计，提高模型稳定性，本发明实施例中设置有四个结构相同的Critic网络：第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络结构相同，其中，第三策略评估网络/>、第四策略评估网络/>用于参数更新，第一策略评估网络、第二策略评估网络目标网络/>用于实际策略评估。在评估规划策略过程中，本发明实施例中基于两个目标Critic网络计算目标评估值，并选择其中最小值作为目标评估

(25)

并通过利用梯度下降算法最小化实际值和目标值之间的误差，更新两个评估Critic网络参数：

(26)

同时基于Polyak平均更新两个目标Critic网络参数。

规划策略网络Actor则采用裁剪的目标函数更新网络参数

(27)

其中，为规划策略网络参数，/>为重要性权重，/>为优势函数，/>为裁剪参数。在此基础上，本发明实施例中为了提升策略探索效率，添加两项损失以改进上述目标函数：

(28)

其中，和/>均为损失权值，/>为价值函数的平方误差损失，为策略熵损失，采用KL散度进行计算，/>表示/>范围内的均匀分布。

本发明实施例中，价值函数的平方误差损失用于度量预期回报与估计值之间的差异，策略熵损失用于度量采取的行动与新策略之间的差异。训练期间，价值平方差损失越小，意味着估计越准确，因此在进行探索时，可以更关注具有较大价值的状态或状态-动作对，从而更有效地进行探索。另一方面，策略熵损失越大，意味着当前策略在未来的执行中存在较大的不确定性，即存在较大的探索空间，因此，可以鼓励模型在未来的执行中尝试更多的可能性，从而提高探索效率。

在一可选实施例中，上述步骤S104中确定未来轨迹预测特征所使用的预测模型包括编码器网络和解码器网络，编码器网络用于将历史状态序列和局部矢量化地图进行编码，得到场景上下文编码，并将场景上下文编码作为公共环境背景输入解码器网络；解码器网络中包括多级解码层，在各级解码层中基于博弈论对场景上下文编码和车辆历史特征进行推理迭代分析，得到各车辆的未来轨迹预测特征。

具体地，如图6所示，编码器网络包括长短期记忆网络（Long Short-Term Memory，LSTM）、多层感知器（Multilayer Perceptron，MLP）、Transformer编码器，编码器网络将历史状态序列和局部矢量化地图进行编码，得到场景上下文编码的步骤包括：

步骤c1，通过长短期记忆网络对历史状态序列进行编码，得到历史特征张量，其中/>表示隐藏特征维度。历史特征张量中包含所有车辆的历史特征。

步骤c2，通过多层感知器对局部矢量化地图进行编码，得到地图特征张量。

在一可选实施例中，多层感知器对局部矢量化地图进行编码后得到初始地图特征张量，然后对地图特征张量中同一地图元素中的航路点进行分组，并通过最大池化来对特征进行聚合，得到地图特征张量：/>，其中/>表示聚合后的地图元素数量。

步骤c3，将历史特征张量和地图特征张量进行拼接，得到各车辆的驾驶场景上下文张量：。

步骤c4，利用Transformer编码器捕获每个车辆的上下文张量中所有场景元素之间的关系，得到场景上下文编码：。

具体地，如图7所示，解码器网络包括多个解码层，各解码层中包括多头交叉注意力模块。解码器网络得到各车辆的未来轨迹预测特征的步骤包括：

在0级解码层中，将初始模态嵌入和历史特征张量相结合作为查询输入至多头交叉注意力模块，将场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数。在历史特征张量0级解码层中，历史特征张量是通过长短期记忆网络对历史状态序列进行编码得到的。

在k级解码层中，接收第（k-1）层输出的内容特征、预测特征和分数；在时间轴上使用多层感知器对预测特征进行编码，得到车辆多模态未来轨迹编码张量；使用分数对车辆多模态未来轨迹编码张量在模态轴上进行加权平均池化，得到车辆未来轨迹；通过自注意力模块对车辆未来轨迹之间的交互进行建模，得到交互特征；将交互特征与场景上下文编码相连接，得到各车辆更新后的场景上下文编码；将（k-1）层输出的内容特征和车辆未来轨迹作为查询输入至多头交叉注意力模块，将更新后的场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数。

本发明实施例中，以车辆沿模态维度的最大池化潜在特征和历史信息作为输入，采用k级推理的解码方法，选取车辆最优轨迹，期间车辆的未来行为被建模为高斯混合模型(Gaussian Mixture Model，GMM)，其中车辆在每个时间步t的行驶模式（即驾驶意图）由位置点/>上的高斯分布表示，其均值和方差分别表示为/>和，因此车辆行为模型为/>时的GMM 特征将对应于每个时间步的/>。

考虑到未来的不确定性，在预测解码部分，需要初始化每个可能未来轨迹的模态嵌入，以作为0级解码器的查询。可以通过基于启发式的方法、可学习的初始查询或通过数据驱动的方法来实现，以生成一个可学习的初始模态嵌入张量作为解码查询输入，其中/>表示未来轨迹的模态数量。

在0级解码层中，使用多头交叉注意力模块，该模块将初始模态嵌入和车辆在最终场景上下文中的历史编码/>的组合作为输入，得到/>作为查询，同时将场景上下文编码/>作为键和值。这里将注意力机制应用于每个车辆的模态轴，然后可在注意力层之后可以获得查询内容特征为/>。然后，将两个 MLP 添加到查询内容特征/>上之后，以解码得到未来预测特征/>的 GMM 特征（即每个时间步的/>）及其分数/>。

后续交互解码阶段包含对应于K个推理级别的K个解码层。在第层中，接收来自第（k-1）层的所有车辆轨迹/>（通过GMM特征/>的均值来表示），并在时间轴上使用带有最大池化的 MLP 对轨迹进行编码，从而得到车辆多模态未来轨迹编码/>的张量。然后，使用来自（k-1）层的分数/>对在模态轴上进行加权平均池化，以获得车辆未来特征。进一步，使用多头自注意力模块对各车辆的未来轨迹/>之间的交互进行建模，得到交互特征，并将所得交互特征与编码器部分的场景上下文编码连接起来，得到车辆 i 更新后的场景上下文编码/>。

在多头交叉注意力模块中，其查询内容特征来自（k-1）层和车辆未来特征，因此查询特征可表示为/>，而更新的场景上下文编码则作为键和值。最后，交叉注意力模块生成的查询内容张量/>通过两个 MLP 来分别解码代理的 GMM 预测特征和分数。图7展示了/>级交互解码器的详细结构。

实际应用过程中，所有车辆将统一采用级解码器进行处理，以生成该级别的多智能体轨迹。在交互解码的最后一级，可以获得目标车辆和周围车辆的未来轨迹预测特征/>，以及各未来轨迹预测特征的分数/>。

在一可选实施例中，预测模型主要采用监督学习的方式进行预训练。考虑车辆间的交互，本发明实施例采用一个交互损失来鼓励车辆避免与其他车辆的未来可能轨迹发生碰撞，同时引入模仿损失来规范车辆驾驶行为。综合上述两项，总损失函数表示为：

(29)

其中，和/>是平衡两个损失项影响的权重因子，/>为交互损失，形式如下：

(30)

其中，表示车辆i在k级交互预测中得到行为模式/>的/>时刻状态，/>是不同车辆的未来状态/>之间的 L2 距离，/>是/>级车辆/>的行驶模式，/>是（k-1）级车辆/>的行驶模式。

为模仿损失，令/>为车辆最接近真实行为的最佳预测模式，为该模式每时刻对应的GMM特征，该损失具有如下形式：

(31)

其中，，/>为行为模式/>的选择概率，/>为车辆状态，为负对数似然损失函数，表示为：

(32)

在一可选实施例中，在执行上述步骤S101-步骤S107得到最优轨迹后，本发明实施例提供的方法还包括：

步骤d1，基于预测占用图构建车辆碰撞概率图。

步骤d2，根据碰撞概率图和预设优化目标对最优轨迹进行调整，得到优化后的最优轨迹。

在一可选实施例中，上述步骤d1具体包括：

步骤e1，将周围车辆的未来轨迹预测特征在矢量地图上进行投影，得到场景预测占用图：

(33)

步骤e2，根据场景预测占用图和预测占用图确定周围动态目标的未来预测特征：，/>为预测占用图，/>。

步骤e3，获取周围环境的静态环境信息和可行驶区域/>。

步骤e4，根据周围环境的静态环境信息、周围动态目标的未来预测特征和可行驶区域进行合并，得到不可行驶区域图：

(34)

步骤e5，根据最优轨迹构建卷积核，卷积核与目标车辆的形状和未来姿态相匹配。

结合最优轨迹构建一个卷积核/>，其中/>为自车预测占用图，该卷积核与自我车辆的形状和未来姿态相匹配。

步骤e6，在不可行驶区域图上对卷积核进行卷积，得到碰撞概率图：

(35)

在一可选实施例中，在上述步骤d2中，结合原始轨迹、碰撞概率图/>、预测占用图/>，可以将轨迹后处理过程转化为一个非线性优化问题进行求解。首先，构建轨迹优化的成本函数

(36)

其中，、/>和/>均为超参数，/>为运动学函数集，包括急动、曲率、曲率变化率、加速度和横向加速度五项，/>为碰撞成本函数，具体形式分别如下

(37)

其中表示采样得到的/>个最近的占用图像素点，/>为占用像素点方差。/>为预测成本函数，具体形式如下

(38)

其中，表示采样得到的前/>个的占用图像素点，/>为占用像素点方差。

为了确保模型能够输出与实际物理条件一致的轨迹，这里还添加了一些硬约束，包括车辆的动力学约束、状态约束和控制约束，因此进一步基于式（36）定义带约束的轨迹优化目标

s.t.

(39)

其中，表示车辆在/>点处的转弯半径，/>表示车辆可达到的最大转弯半径，/>为车辆最大加速度，/>为车辆横向最大加速度，/>为/>点处的轨迹曲线曲率。基于上述优化目标，可采用迭代优化算法完成轨迹修正，最终得到满足动力学约束和安全性要求的最优轨迹/>。/>

相关技术方案中，路径微调方案仅考虑车辆动力学约束，不考虑未来交互行为影响，存在安全隐患，本发明实施例结合预测模块推理结果构建碰撞概率图，设计带约束的轨迹优化成本函数，在预见性和安全性方面具有显著优势。

在本实施例中还提供了一种自动驾驶车辆行驶轨迹规划装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种自动驾驶车辆行驶轨迹规划装置，如图8所示，包括：

数据获取模块801，用于获取目标车辆的所处环境中的驾驶环境信息、目标车辆和所处环境中周围车辆的历史状态序列，以及局部矢量化地图；

候选轨迹获取模块802，用于将驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；子规划区域是根据目标车辆不同的视野范围确定的；

未来轨迹预测特征获取模块803，用于将历史状态序列和局部矢量化地图输入至预先建立的预测模型中，得到目标车辆以及周围车辆的未来轨迹预测特征；预测模型是采用分层博弈论框架构建的；

预测占用图确定模块804，用于将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图；

占用概率确定模块805，用于将预测占用图与各候选轨迹进行匹配，确定各候选轨迹在预测占用图中的占用概率；

最优轨迹确定模块806，用于将占用概率最大的候选轨迹确定为最优轨迹。

在一可选实施例中，候选轨迹获取模块802具体包括：

轨迹参数集获取子模块，用于将驾驶环境信息输入值预先建立的规划策略模型中，得到各子规划区域对应的轨迹参数集。

候选轨迹生成子模块，用于根据各子规划区域的轨迹参数集，分别计算各子规划区域分别对应的候选轨迹。

在一可选实施例中，轨迹参数集包括目标车辆的结束状态信息和轨迹规划窗口，其中，结束状态信息包括结束点纵向位置、结束点横向位置、结束点航向角和结束点加速度。

候选轨迹生成子模块具体包括：

起始状态信息获取单元，用于确定目标车辆的起始状态信息，起始状态信息包括起始点纵向位置、起始点横向位置、起始点航向角和起始点加速度；

路径点采样单元，用于按照轨迹规划窗口对车辆纵向位置在起始点纵向位置和结束点纵向位置内等间隔采样取点，得到多个离散路径点；

路径点信息计算单元，用于根据起始点纵向位置、起始点横向位置、起始点航向角、结束点纵向位置、结束点横向位置、结束点航向角，计算各离散路径点的位置信息和综合航向角信息；

候选路径确定单元，用于根据各离散路径点的位置信息和综合航向角信息确定候选路径；

速度点采样单元，用于按照轨迹规划窗口对时间步等间隔采样取点，得到多个离散速度点；

速度值计算单元，用于根据起始点加速度、结束点加速度和轨迹规划窗口，计算各离散速度点的离散速度值；

候选轨迹生成单元，用于将候选路径和各离散速度点的离散速度值进行匹配，得到候选轨迹。

在一可选实施例中，本发明实施例提供的装置包括：

待规划道路确定模块，用于根据目标车辆的行驶方向确定待规划道路；

区域划分模块，用于按照预设划分策略将待规划道路划分为多个子规划区域。

在一可选实施例中，区域划分模块包括：

第一划分子模块，用于将待规划道路均匀划分为多个子规划区域，各子规划区域的视野宽度相同。

在一可选实施例中，区域划分模块包括：

第二划分子模块，用于按照各子规划区域的视野宽度从前往后按照指数递增的方式划分子规划区域，子规划区域的视野宽度随着与目标车辆距离的增大而增大；

各子规划区域的视野宽度为：

各子规划区域的视野宽度满足以下条件：

在一可选实施例中，区域划分模块包括：

第三划分子模块，用于确定待规划道路中不同位置的车流密度；根据车流密度将待规划道路划分为多个子规划区域，子规划区域的视野宽度随着子规划区域内车流密度的增大而减小。

在一可选实施例中，规划策略模型包括主网络层和第一输出编码层，主网络层包括卷积编码层和第一全连接层，第一输出编码层包括多个并行的编码头，编码头的数量与子规划区域的数量相同，各编码头中分别包括第二全连接层；卷积编码层用于通过卷积运算提取驾驶环境信息中的图像特征；第一全连接层用于对图像特征进行融合处理以及降维处理，得到融合特征；各第二全连接层用于根据融合特征分别输出不同子规划区域的轨迹参数集。

在一可选实施例中，规划策略模型是结合策略评价网络对规划策略网络进行训练得到的，策略评价网络包括结构相同的第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络，第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络均包括主网络层和第二输出编码层，主网络层与规划策略模型的主网络层相同，第二输出编码层包括第三全连接层；第三全连接层用于将融合特征编码为价值标量，价值标量用于估计规划策略采取动作的预期回报。

本发明实施例提供的装置包括规划策略模型构建模块，规划策略模型构建模块具体包括：

数据输入子模块，用于将训练数据分别输入至规划策略网络、第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络中，通过规划策略网络得到多个训练轨迹参数集，通过第一策略评估网络得到第一目标评估值，通过第二策略评估网络得到第二目标评估值，通过第三策略评估网络得到第三目标评估值，通过第四策略评估网络得到第四目标评估值，第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值是对训练轨迹参数集进行评估得到的；

目标评估值计算子模块，用于将第一目标评估值和第二目标评估值中的最小值确定为目标评估值；

第一参数调整子模块，用于通过利用梯度下降算法最小化实际值和目标评估值之间的误差，更新第三策略评估网络和第四策略评估网络的网络参数，其中，实际值是根据第三目标评估值和第四目标评估值确定的；

第二参数调整子模块，用于基于Polyak平均更新第一策略评估网络和第二策略评估网络的网络参数；

第三参数调整子模块，用于基于目标函数更新规划策略网络的网络参数，得到规划策略模型，目标函数是结合价值函数的平方误差损失和策略熵损失构建的，价值函数的平方误差损失是结合目标评估值、第三目标评估值和第四目标评估值确定的。

在一可选实施例中，策略评估网络通过如下公式计算目标评估值：

，

在一可选实施例中，预测模型包括编码器网络和解码器网络，

编码器网络用于将历史状态序列和局部矢量化地图进行编码，得到场景上下文编码，并将场景上下文编码作为公共环境背景输入解码器网络；

解码器网络中包括多级解码层，在各级解码层中基于博弈论对场景上下文编码和车辆历史特征进行推理迭代分析，得到目标车辆以及周围车辆的未来轨迹预测特征。

在一可选实施例中，编码器网络包括长短期记忆网络、多层感知器、编码器，编码器网络将历史状态序列和局部矢量化地图进行编码，得到场景上下文编码的步骤包括：

通过长短期记忆网络对历史状态序列进行编码，得到历史特征张量，历史特征张量中包含所有车辆的历史特征；

通过多层感知器对局部矢量化地图进行编码，得到初始地图特征张量；

对地图特征张量中同一地图元素中的航路点进行分组，并通过最大池化来对特征进行聚合，得到的地图特征张量；

将历史特征张量和地图特征张量进行拼接，得到各车辆的驾驶场景上下文张量；

利用编码器捕获每个车辆的上下文张量中所有场景元素之间的关系，得到场景上下文编码。

在一可选实施例中，解码器网络的解码层中包括多头交叉注意力模块，解码器网络得到各车辆的未来轨迹预测特征的步骤包括：

在0级解码层中，将初始模态嵌入和历史特征张量相结合作为查询输入至多头交叉注意力模块，将场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数；

在一可选实施例中，预测模型是采用监督学习的方式进行预训练得到的；

对预测模型进行训练时所适用的损失函数为：

，

其中，和/>是平衡两个损失项影响的权重因子，/>为交互损失，/>表示车辆i在k级交互预测中得到行为模式/>的/>时刻状态，/>是不同车辆的未来状态/>之间的 L2 距离，/>是/>级车辆/>的行驶模式，/>是(k-1)级车辆/>的行驶模式，/>为模仿损失，令/>为车辆最接近真实行为的最佳预测模式，/>为该模式每时刻对应的GMM特征，/>，/>为行为模式/>的选择概率，/>为车辆状态，/>为负对数似然损失函数。

在一可选实施例中，本发明实施例提供的装置还包括：

碰撞概率图构建模块，用于基于预测占用图构建车辆碰撞概率图；

轨迹调整模块，用于根据碰撞概率图和预设优化目标对最优轨迹进行调整，得到优化后的最优轨迹。

在一可选实施例中，碰撞概率图构建模块具体包括：

场景预测占用图构建子模块，将周围车辆的未来轨迹预测特征在矢量地图上进行投影，得到场景预测占用图；

动态目标特征确定子模块，用于根据场景预测占用图和预测占用图确定周围动态目标的未来预测特征；

周围环境信息获取子模块，用于获取周围环境的静态环境信息和可行驶区域；

不可行驶区域图确定子模块，用于根据周围环境的静态环境信息、周围动态目标的未来预测特征和可行驶区域进行合并，得到不可行驶区域图；

卷积核构建子模块，用于根据最优轨迹构建卷积核，卷积核与目标车辆的形状和未来姿态相匹配；

碰撞概率图生成子模块，用于在不可行驶区域图上对卷积核进行卷积，得到碰撞概率图。

在一可选实施例中，预设优化目标的成本函数包括：

，

预设优化目标的约束条件包括：

s.t.

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的自动驾驶车辆行驶轨迹规划装置是以功能单元的形式来呈现，这里的单元是指ASIC（Application Specific Integrated Circuit，专用集成电路）电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图8所示的自动驾驶车辆行驶轨迹规划装置。

请参阅图9，图9是本发明可选实施例提供的一种计算机设备的结构示意图，如图9所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种自动驾驶车辆行驶轨迹规划方法，其特征在于，所述方法包括：

获取目标车辆的所处环境中的驾驶环境信息、所述目标车辆和所处环境中周围车辆的历史状态序列，以及局部矢量化地图；

将所述驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；所述子规划区域是根据所述目标车辆不同的视野范围确定的；

将所述历史状态序列和所述局部矢量化地图输入至预先建立的预测模型中，得到所述目标车辆以及周围车辆的未来轨迹预测特征；所述预测模型是采用分层博弈论框架构建的；所述预测模型包括编码器网络和解码器网络，所述编码器网络用于将所述历史状态序列和局部矢量化地图进行编码，得到场景上下文编码，并将所述场景上下文编码作为公共环境背景输入所述解码器网络；所述解码器网络中包括多级解码层，在各级解码层中基于博弈论对所述场景上下文编码和车辆历史特征进行推理迭代分析，得到所述目标车辆以及周围车辆的未来轨迹预测特征；

将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图；

将所述预测占用图与各所述候选轨迹进行匹配，确定各候选轨迹在所述预测占用图中的占用概率；

将所述占用概率最大的候选轨迹确定为最优轨迹；

所述将所述驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹，包括：

将所述驾驶环境信息输入值预先建立的规划策略模型中，得到各子规划区域对应的轨迹参数集；

根据各子规划区域的轨迹参数集，分别计算各子规划区域分别对应的候选轨迹；

所述规划策略模型包括主网络层和第一输出编码层，

所述主网络层包括卷积编码层和第一全连接层，所述第一输出编码层包括多个并行的编码头，所述编码头的数量与所述子规划区域的数量相同，各编码头中分别包括第二全连接层；

所述卷积编码层用于通过卷积运算提取所述驾驶环境信息中的图像特征；

所述第一全连接层用于对所述图像特征进行融合处理以及降维处理，得到融合特征；

各所述第二全连接层用于根据所述融合特征分别输出不同子规划区域的轨迹参数集。

2.根据权利要求1所述的方法，其特征在于，确定子规划区域的步骤包括：

根据所述目标车辆的行驶方向确定待规划道路；

按照预设划分策略将所述待规划道路划分为多个子规划区域。

3.根据权利要求2所述的方法，其特征在于，所述按照预设划分策略将所述待规划道路划分为多个子规划区域，包括：

将所述待规划道路均匀划分为多个子规划区域，各子规划区域的视野宽度相同。

4.根据权利要求2所述的方法，其特征在于，所述按照预设划分策略将所述待规划道路划分为多个子规划区域，包括：

各子规划区域的视野宽度随着与目标车辆距离的增大而增大；

各子规划区域的视野宽度为：

各子规划区域的视野宽度满足以下条件：

其中，表示所述待规划道路的视野宽度，/>表示子规划区域的数量。

5.根据权利要求2所述的方法，其特征在于，所述按照预设划分策略将所述待规划道路划分为多个子规划区域，包括：

确定所述待规划道路中不同位置的车流密度；

根据所述车流密度将所述待规划道路划分为多个子规划区域，所述子规划区域的视野宽度随着子规划区域内车流密度的增大而减小。

6.根据权利要求1所述的方法，其特征在于，所述轨迹参数集包括目标车辆的结束状态信息和轨迹规划窗口，其中，所述结束状态信息包括结束点纵向位置、结束点横向位置、结束点航向角和结束点加速度；

根据子规划区域的轨迹参数集，子规划区域对应的候选轨迹的步骤包括：

确定目标车辆的起始状态信息，所述起始状态信息包括起始点纵向位置、起始点横向位置、起始点航向角和起始点加速度；

按照所述轨迹规划窗口对车辆纵向位置在所述起始点纵向位置和所述结束点纵向位置内等间隔采样取点，得到多个离散路径点；

根据所述起始点纵向位置、起始点横向位置、起始点航向角、结束点纵向位置、结束点横向位置、结束点航向角，计算各离散路径点的位置信息和综合航向角信息；

根据各离散路径点的位置信息和综合航向角信息确定候选路径；

按照所述轨迹规划窗口对时间步等间隔采样取点，得到多个离散速度点；

根据所述起始点加速度、结束点加速度和轨迹规划窗口，计算各离散速度点的离散速度值；

将所述候选路径和各离散速度点的离散速度值进行匹配，得到所述候选轨迹。

7.根据权利要求1所述的方法，其特征在于，所述规划策略模型是结合策略评价网络对规划策略网络进行训练得到的，所述策略评价网络包括结构相同的第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络，

所述第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络均包括主网络层和第二输出编码层，所述主网络层与所述规划策略模型的主网络层相同，所述第二输出编码层包括第三全连接层；

所述第三全连接层用于将所述融合特征编码为价值标量，所述价值标量用于估计规划策略采取动作的预期回报；

结合策略评价网络对规划策略网络进行训练得到所述规划策略模型的步骤包括：

将训练数据分别输入至规划策略网络、第一策略评估网络、第二策略评估网络、第三策略评估网络、第四策略评估网络中，通过所述规划策略网络得到多个训练轨迹参数集，通过所述第一策略评估网络得到第一目标评估值，通过所述第二策略评估网络得到第二目标评估值，通过所述第三策略评估网络得到第三目标评估值，通过所述第四策略评估网络得到第四目标评估值，所述第一目标评估值、第二目标评估值、第三目标评估值、第四目标评估值是对所述训练轨迹参数集进行评估得到的；

将所述第一目标评估值和第二目标评估值中的最小值确定为目标评估值；

通过利用梯度下降算法最小化实际值和目标评估值之间的误差，更新所述第三策略评估网络和第四策略评估网络的网络参数，其中，所述实际值是根据所述第三目标评估值和第四目标评估值确定的；

基于Polyak平均更新所述第一策略评估网络和第二策略评估网络的网络参数；

基于目标函数更新所述规划策略网络的网络参数，得到所述规划策略模型，所述目标函数是结合价值函数的平方误差损失和策略熵损失构建的，所述价值函数的平方误差损失是结合所述目标评估值、第三目标评估值和第四目标评估值确定的。

8.根据权利要求7所述的方法，其特征在于，策略评估网络通过如下公式计算目标评估值：

，

9.根据权利要求1所述的方法，其特征在于，所述编码器网络包括长短期记忆网络、多层感知器、Transformer编码器，所述编码器网络将所述历史状态序列和局部矢量化地图进行编码，得到场景上下文编码的步骤包括：

通过长短期记忆网络对所述历史状态序列进行编码，得到历史特征张量，所述历史特征张量中包含所有车辆的历史特征；

通过多层感知器对所述局部矢量化地图进行编码，得到地图特征张量；

将所述历史特征张量和所述地图特征张量进行拼接，得到所述目标车辆和周围车辆的驾驶场景上下文张量；

利用所述Transformer编码器捕获每个车辆的上下文张量中所有场景元素之间的关系，得到所述场景上下文编码。

10.根据权利要求9所述的方法，其特征在于，所述解码器网络的各解码层中包括多头交叉注意力模块，所述解码器网络得到目标车辆以及周围车辆的未来轨迹预测特征的步骤包括：

在0级解码层中，将初始模态嵌入和所述历史特征张量相结合作为查询输入至多头交叉注意力模块，将所述场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数；

在k级解码层中，接收第（k-1）层输出的内容特征、预测特征和分数；在时间轴上使用多层感知器对所述预测特征进行编码，得到车辆多模态未来轨迹编码张量；使用所述分数对所述车辆多模态未来轨迹编码张量在模态轴上进行加权平均池化，得到车辆未来轨迹；通过自注意力模块对车辆未来轨迹之间的交互进行建模，得到交互特征；将所述交互特征与所述场景上下文编码相连接，得到目标车辆和周围更新后的场景上下文编码；将（k-1）层输出的内容特征和所述车辆未来轨迹作为查询输入至多头交叉注意力模块，将更新后的场景上下文编码作为键和值输入至多头交叉注意力模块，得到内容特征、预测特征和分数。

11.根据权利要求10所述的方法，其特征在于，

所述预测模型是采用监督学习的方式进行预训练得到的；

对所述预测模型进行训练时所适用的损失函数为：

，

其中，和/>是平衡两个损失项影响的权重因子，/>为交互损失， />表示车辆i在k级交互预测中得到行为模式/>的/>时刻状态，/>是不同车辆的未来状态/>之间的L2 距离，/>是/>级车辆/>的行驶模式，/> 是（k-1）级车辆/>的行驶模式，/>为模仿损失，令/>为车辆最接近真实行为的最佳预测模式，/>为该模式每时刻对应的GMM特征，/>，/>为行为模式/>的选择概率，/>为车辆状态，/>为负对数似然损失函数。

12.根据权利要求1所述的方法，其特征在于，还包括：

基于所述预测占用图构建车辆碰撞概率图；

根据所述碰撞概率图和预设优化目标对所述最优轨迹进行调整，得到优化后的最优轨迹。

13. 根据权利要求12所述的方法，其特征在于，所述基于所述预测占用图构建车辆碰撞概率图，包括：

将所述周围车辆的未来轨迹预测特征在矢量地图上进行投影，得到场景预测占用图；

根据所述场景预测占用图和所述预测占用图确定周围动态目标的未来预测特征；

获取周围环境的静态环境信息和可行驶区域；

根据周围环境的静态环境信息、周围动态目标的未来预测特征和可行驶区域进行合并，得到不可行驶区域图；

根据所述最优轨迹构建卷积核，所述卷积核与所述目标车辆的形状和未来姿态相匹配；

在所述不可行驶区域图上对所述卷积核进行卷积，得到所述碰撞概率图。

14.根据权利要求12所述的方法，其特征在于，

所述预设优化目标的成本函数包括：

，

其中表示采样得到的/>个最近的占用图像素点，/>为占用像素点方差，为预测成本函数，

，

所述预设优化目标的约束条件包括：

s.t.

其中，表示车辆在/>点处的转弯半径，/>表示车辆可达到的最大转弯半径，为车辆最大加速度，/>为车辆横向最大加速度，/>为/>点处的轨迹曲线曲率。

15.一种自动驾驶车辆行驶轨迹规划装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标车辆的所处环境中的驾驶环境信息、所述目标车辆和所处环境中周围车辆的历史状态序列，以及局部矢量化地图；

候选轨迹获取模块，用于将所述驾驶环境信息输入至预先建立的规划策略模型中，得到多个子规划区域内的候选轨迹；所述子规划区域是根据所述目标车辆不同的视野范围确定的；

未来轨迹预测特征获取模块，用于将所述历史状态序列和所述局部矢量化地图输入至预先建立的预测模型中，得到所述目标车辆以及周围车辆的未来轨迹预测特征；所述预测模型是采用分层博弈论框架构建的；所述预测模型包括编码器网络和解码器网络，所述编码器网络用于将所述历史状态序列和局部矢量化地图进行编码，得到场景上下文编码，并将所述场景上下文编码作为公共环境背景输入所述解码器网络；所述解码器网络中包括多级解码层，在各级解码层中基于博弈论对所述场景上下文编码和车辆历史特征进行推理迭代分析，得到所述目标车辆以及周围车辆的未来轨迹预测特征；

预测占用图确定模块，用于将目标车辆的未来轨迹预测特征在矢量地图上进行投影，得到目标车辆的预测占用图；

占用概率确定模块，用于将所述预测占用图与各所述候选轨迹进行匹配，确定各候选轨迹在所述预测占用图中的占用概率；

最优轨迹确定模块，用于将所述占用概率最大的候选轨迹确定为最优轨迹；

所述规划策略模型包括主网络层和第一输出编码层，

16.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至14中任一项所述的自动驾驶车辆行驶轨迹规划方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至14中任一项所述的自动驾驶车辆行驶轨迹规划方法。