CN115900725B

CN115900725B - 路径规划装置、电子设备、存储介质和相关方法

Info

Publication number: CN115900725B
Application number: CN202310017545.2A
Authority: CN
Inventors: 高令平; 敬巍; 陈俊波
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-06-16
Anticipated expiration: 2043-01-06
Also published as: CN115900725A

Abstract

本申请实施例提供了一种路径规划装置、电子设备、存储介质和相关方法，路径规划方法包括：对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，所述环境信息包括所述自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；根据所述环境特征编码和目标位置编码，确定所述自动驾驶设备的横向偏移量和纵向速度，其中，所述目标位置编码用于指示所述自动驾驶设备所要运动至的目标位置；根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的规划路径。本方案能够在保证路径规划实时性的前提下，提高路径规划的准确性。

Description

路径规划装置、电子设备、存储介质和相关方法

技术领域

本申请实施例涉及自动驾驶技术领域，尤其涉及一种路径规划装置、电子设备、存储介质和相关方法。

背景技术

路径规划模型是一种用于自动驾驶设备（如车辆、机器人等）的自动驾驶算法，用于生成自动驾驶设备的运动路径，进而自动驾驶设备的控制器会根据该运动路径控制自动驾驶设备运行，实现自动驾驶。

目前，自动驾驶设备的路径规划模型采用基于采样的路径规划算法，比如LatticePlanner就是一种基于栅格化采样的局部路径规划算法。基于采样的路径规划算法需要在横向偏移量、纵向偏移量、速度和时间上进行采样，基于采样结果生成多条路径，从所生成的多条路径中择优选取路径发送给控制器，使控制器根据接收到的路径控制自动驾驶设备运行。

然而，基于采样的路径规划算法得到的解（即发送给控制器的路径）的优劣严重依赖于采样的数量，小范围的采样可能无法保证获得较优解，大范围采样会导致处理时间较长，无法满足实时性要求。

发明内容

有鉴于此，本申请实施例提供一种路径规划装置、电子设备、存储介质和相关方法，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种路径规划方法，包括：对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，所述环境信息包括所述自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；根据所述环境特征编码和目标位置编码，确定所述自动驾驶设备的横向偏移量和纵向速度，其中，所述目标位置编码用于指示所述自动驾驶设备所要运动至的目标位置；根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的规划路径。

根据本申请实施例的第二方面，提供了一种路径规划装置，包括：编码器，用于对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，所述环境信息包括所述自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；执行器，用于根据所述环境特征编码和目标位置编码，确定所述自动驾驶设备的横向偏移量和纵向速度，其中，所述目标位置编码用于指示所述自动驾驶设备所要运动至的目标位置；规划器，用于根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的规划路径。

根据本申请实施例的第三方面，提供了一种模型训练方法，用于对包括编码器、判决器、执行器和规划器的路径规划模型进行训练，所述模型训练方法包括：通过所述编码器对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，所述环境信息包括所述自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；根据时间差分误差对所述判决器进行训练，其中，所述时间差分误差根据所述执行器执行动作导致的状态变化和即时奖励确定；将所述环境特征编码和所述目标位置编码输入所述执行器，获得所述执行器输出的所述自动驾驶设备的横向偏移量和纵向速度；将所述自动驾驶设备的横向偏移量和纵向速度输入训练后的所述判决器，获得所述执行器的奖励值；根据所述奖励值对所述执行器进行训练；将所述自动驾驶设备的横向偏移量和纵向速度输入所述规划器，使所述规划器根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的当前规划路径。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行上述第一方面所述的路径规划方法对应的操作或如上述第三方面所述的模型训练方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述的路径规划方法或上述第二方面所述的模型训练方法。

根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行上述第一方面所述的路径规划方法或上述第二方面所述的模型训练方法。

由上述技术方案可知，在对自动驾驶设备的环境信息进行特征提取获得环境特征编码后，首先根据环境特征编码和目标位置编码，通过非采样的方式获得自动驾驶设备的横向偏移量和纵向速度，然后根据所确定的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的规划路径。在生成规划路径所需的横向偏移量、纵向偏移量、纵向速度和时间中，横向偏移量和纵向速度通过非采样的方式获得，纵向偏移量和时间基于首先获得的横向偏移量和纵向速度通过采样方式获得，由于仅需对纵向偏移量和时间进行采样，可以在较大范围内进行采样，从而可以在保证路径规划实时性的前提下，提高路径规划的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例所应用示例性系统的示意图；

图2是本申请一个实施例的路径规划方法的流程图；

图3是本申请一个实施例的环境特征编码生成过程的示意图；

图4是本申请一个实施例的路径规划装置的示意图；

图5是本申请另一个实施例的路径规划装置的示意图；

图6是本申请一个实施例的模型训练方法的流程图；

图7是本申请一个实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

首先，对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释。

强化学习：强化学习（Reinforcement Learning，RL）又被称为再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习基于和环境交互来获得奖励，以学习策略模型和价值函数，通常用于连续决策问题，场景需要满足马尔可夫决策过程（Markov Decision Process，MDP）或部分可观察马尔可夫决策过程（Partially Observable Markov Decision Process，POMDP）假设。

分层强化学习：分层强化学习（Hierarchical Reinforcement Learning，HRL）是强化学习领域的一个重要研究方向，它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于，根据分层思想构建具有多层结构的强化学习策略，运用时序抽象表达方法组合时间细粒度的下层动作，学习时间粗粒度的、有语义的上层动作，将复杂问题分解为数个简单问题进行求解。

Lattice Planner：Lattice Planner是一种基于栅格化采样的局部轨迹规划器，通过将车辆坐标系转换到frenet坐标系，然后在frenet坐标系下分别对frenet的d轴和s轴进行规划，形成frenet坐标系下的规划路径，然后将frenet坐标系下的轨迹合成到世界坐标系下还原为世界坐标系下的轨迹。

横向偏移量和纵向偏移量：在自动驾驶领域，将车道线方向定义为纵向，将垂直于车道线的方向定义为横向，沿车道线方向的偏移量为纵向偏移量，沿垂直于车道线方向的偏移量为横向偏移量。横向偏移量用于指示车辆沿横向需要偏移的距离，纵向偏移量用于指示车辆沿纵向需要偏移的距离。

示例性系统

图1示出了一种适用于本申请实施例的路径规划方法的示例性系统。如图1所示，车辆100上安装有环境感知模块110、路径规划模块120和运动控制模块130。环境感知模块110包括摄像头、激光雷达、毫米波雷达和工业相机等不同类型的传感器，各传感器的数据可以相关结合，为车辆100在行驶环境中提供静态环境、动态环境及物体的可靠识别数据，以用于障碍物检测、建图定位和导航等。其中，激光雷达可用于获取三维点云，相机可用于获取图片或视频数据。

路径规划模块120可以根据环境信息、自车状态信息和地图信息，生成遵守交通规则的规划路径，即规划出一条精密的行驶轨迹，使得自动驾驶设备可以跟随该轨迹行驶。运动控制模块130可以根据规划出的路径、速度及自车当前的位置、姿态和速度，产生对油门、刹车、方形盘和变速杆的控制命令。

路径规划模块120可以部署在位于车辆100上的计算设备中，计算设备可以包括安装于车辆内部的处理器、处理芯片或设备，或者计算设备实现的功能可以由在车内的多个分散分布的处理器执行。路径规划模块120还可以部署在车辆100之外，比如路径规划模块120部署在网络设备上，网络设备包括但不限于云服务器，例如，车辆100可以将图像、三维点云、自车状态信息等上传至云服务器，由云服务器对数据进行分析和处理获得规划路径，并将生成的规划路径返回车辆100，进而车辆100上的运动控制模块130基于接收到的规划路径控制车辆100运行。

应理解，图1所示的系统仅仅作为示例而非限定，在实践中，可以在上述场景的基础上适当的变形和增减，调整后的场景仍适用于本申请实施例的方案。

本申请实施例主要着眼于路径规划模块120进行路径规划的过程，及路径规划模块120所使用路径规划模块的构成和训练方法，在后文中会对路径规划过程、路径规划模型及其训练过程进行详细描述。

路径规划方法

基于上述系统，本申请实施例提供了一种路径规划方法，该路径规划方法可由上述系统实施例中的路径规划模块120执行，以下通过多个实施例对该路径规划方法进行详细说明。

图2是本申请一个实施例的路径规划方法的流程图。如图2所示，该路径规划方法包括如下步骤：

步骤201、对自动驾驶设备的环境信息进行特征提取，获得环境特征编码。

自动驾驶设备的环境信息包括自动驾驶设备的运行状态信息、障碍物信息和地图信息等。运行状态信息包括自动驾驶设备的速度、加速度、所处位置信息和历史轨迹信息等。障碍物信息可以指示自动驾驶设备所处环境中障碍物的相对位置、速度、加速度等，当自动驾驶设备为自动驾驶汽车时，障碍物可以是周围的其他汽车、路障等。地图信息可以指示自动驾驶设备所处位置的车道线、坡度等信息。

环境信息可以从自动驾驶设备上各类传感器的数据中获得，比如，运行状态信息可以从速度传感器、加速度传感器和定位系统的数据中获取，障碍物信息可以从摄像头、激光雷达、毫米波雷达等的数据中获取，地图信息可以基于自动驾驶设备所处位置，从离线地图中获取。

在获取到自动驾驶设备的环境信息后，可以对环境信息进行特征提取，获得可以通过神经网络模型进行处理的环境特征编码，环境特征编码基于环境信息生成，当自动驾驶设备的环境信息发生改变时，环境特征编码会发生相应的改变。

步骤202、根据环境特征编码和目标位置编码，确定自动驾驶设备的横向偏移量和纵向速度。

目标位置编码可以指示自动驾驶设备所要运动至的目标位置。在自动驾驶系统中，由于路径规划是一个连续过程，在每次进行路径规划之前会首先确定自动驾驶设备需要运动至的目标位置，进而根据自动驾驶设备当前所处的位置、目标位置和环境信息，来规划自动驾驶设备从当前位置运动至目标位置的规划路径。目标位置编码可以基于目标位置的坐标确定，比如可以按照预定的编码方式对目标位置的坐标进行编码，获得目标位置编码，本申请实施例对目标位置编码的获取方式不作限定。

横向偏移量是指自动驾驶设备从当前位置运动至目标位置时，在垂直于车道线方向上需要产生的偏移量。纵向速度是指自动驾驶设备从当前位置运动至目标位置时，自动驾驶设备沿车道线方向所需达到的速度值。

在获取到自动驾驶设备的环境特征编码和目标位置编码后，可以将环境特征编码和目标位置编码输入预先训练的神经网络模型中，该神经网络模型可以基于输入的环境特征编码和目标位置编码，生成自动驾驶设备的横向偏移量和纵向速度。

步骤203、根据自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的规划路径。

在通过非采样的方式获得自动驾驶设备的横向偏移量和纵向速度后，根据自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，得到一个自动驾驶设备可追的目标点，并基于该目标点生成自动驾驶设备的规划路径。

在纵向偏移量和时间上采样，并基于采样结果生成规划路径的过程，可以通过规划器实现。在通过传统的规划器生成规划路径时，规划器需要在横向偏移量、纵向偏移量、时间和纵向速度上分别进行采样，本申请实施例通过非采样方式获得横向偏移量和纵向速度后，规划器无需在横向偏移量和纵向速度上进行采样，而仅需基于横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，根据采样结果可以确定一个自动驾驶设备可追的目标点，进而根据该目标点可以生成一平滑轨迹，并将该轨迹作为自动驾驶设备的规划路径。

需要说明的是，由于实际路况和车辆性能的影响，通过非采样方式获得的横向偏移量和纵向速度可能无法达到，所以在基于横向偏移量和纵向速度在纵向偏移量和时间上进行二次采样时，可以获得一个自动驾驶设备可追的目标点，进而基于该目标点生成规划路径，保证将规划路径发送给运动控制模块后，运动控制模块可以根据规划路径控制自动驾驶设备平稳、安全、舒适的运动。

在本申请实施例中，在对自动驾驶设备的环境信息进行特征提取获得环境特征编码后，首先根据环境特征编码和目标位置编码，通过非采样的方式获得自动驾驶设备的横向偏移量和纵向速度，然后根据所确定的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的规划路径。在生成规划路径所需的横向偏移量、纵向偏移量、速度和时间中，横向偏移量和纵向速度通过非采样的方式获得，纵向偏移量和时间基于首先获得的横向偏移量和纵向速度通过采样方式获得，由于仅需对纵向偏移量和时间进行采样，可以在较大范围内进行采样，从而可以在保证路径规划实时性的前提下，提高路径规划的准确性。

图3是本申请一个实施例的环境特征编码生成过程的示意图。如图3所以，在获取到包括运行状态信息、障碍物信息和地图信息的环境信息后，分别通过全连接层（FC）对运行状态信息、障碍物信息和地图信息进行特征提取，其中，对运行状态信息进行特征提取获得第一特征，对障碍物信息进行特征提取获得第二特征，对地图信息进行特征提取获得第三特征。对第一特征、第二特征和第三特征进行特征融合，可以获得第四特征。基于多头注意力机制对第四特征进行特征提取，获得环境特征编码。

在获取到包括运行状态信息、障碍物信息和地图信息的环境信息后，对环境信息进行预处理，获得环境信息对应的特征矩阵，其中，运行状态信息对应运行状态特征矩阵，障碍物信息对应障碍物特征矩阵，地图信息对应地图特征矩阵。运行状态特征矩阵、障碍物特征矩阵和地图特征矩阵作为神经网络的输入，分别通过全连接层对运行状态特征矩阵、障碍物特征矩阵和地图特征矩阵进行特征提取，获得第一特征、第二特征和第三特征。

运行状态特征矩阵、障碍物特征矩阵和地图特征矩阵具有相同的维数，比如，运行状态特征矩阵、障碍物特征矩阵和地图特征矩阵均包括10个维度，运行状态特征矩阵为1×10的矩阵，障碍物特征矩阵为N×10的矩阵，N为障碍物的数量，地图特征矩阵为M×10的矩阵，M为地图信息的条数。通过全连接层的特征提取，第一特征为1×32的矩阵，第二特征为N×32的矩阵，第三特征为M×32的矩阵。通过特征融合所获得的第四特征为(1+N+M)×32的矩阵。基于多头注意力机制进行特征融合后所获得的环境特征编码为(1+N+M)×32的矩阵。

在本申请实施例中，分别对运行状态信息、障碍物信息和地图信息进行特征提取后，对各提取到的特征进行特征融合，然后基于多头注意力机制进一步融合特征信息，获得环境特征编码，使得环境特征编码能够全面、准确地反映自动驾驶设备的自身状态和周围环境，保证后续基于环境特征编码进行路径规划的准确性。

在一种可能的实现方式中，在获取到环境特征编码和目标位置编码后，可以根据环境特征编码和目标位置编码，确定对应于横向偏移量的均值和方差，并确定对应于纵向速度的均值和方差，进而可以根据对应于横向偏移量的均值和方差，构建对应于横向偏移量的第一正态分布，并根据对应于纵向速度的均值和方差，构建对应于纵向速度的第二正态分布，然后可以基于第一正态分布进行随机采样，获得自动驾驶设备的横向偏移量，并基于第二正态分布进行随机采样，获得自动驾驶设备的纵向速度。

自动驾驶设备的横向偏移量和纵向速度，可以通过预训练的策略函数来确定。策略函数的头（head）由一个全连接神经网络构成，将环境特征编码和目标位置编码输入策略函数后，策略函数会输出高斯模型的均值和方差来建模动作输出的概率分布。策略函数会输出横向偏移量的均值和方差及纵向速度的均值和方差，基于横向偏移量的均值和方差可以构建指示横向偏移量的概率分布的第一正态分布，基于纵向速度的均值和方差可以构建指示纵向速度的概率分布的第二正态分布，进而根据第一正态分布基于概率随机获得自动驾驶设备的横向偏移量，并根据第二正太分布基于概率随机获得自动驾驶设备的纵向速度。

在本申请实施例中，根据环境特征编码和目标位置编码分别确定对应于横向偏移量和纵向速度的均值和方差，基于横向偏移量的均值和方差构建第一正态分布，基于纵向速度的均值和方差构建第二正态分布，进而根据第一正态分布进行随机采样获得自动驾驶设备的横向偏移量，并根据第二正态分布进行随机采样获得自动驾驶设备的纵向速度，保证所获得的横向偏移量和纵向速度与自动驾驶设备的自身状态和周围环境相匹配，进而保证所生成规划路径的准确性。

路径规划装置

本申请实施例提供了一种路径规划装置，该路径规划装置可实现上述方法实施例中的路径规划方法，以下通过多个实施例对该路径规划装置进行详细说明。

图4是本申请一个实施例的路径规划装置的示意性结构图。如图4所示，该路径规划装置包括：

编码器401，用于对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，环境信息包括自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；

执行器402，用于根据环境特征编码和目标位置编码，确定自动驾驶设备的横向偏移量和纵向速度，其中，目标位置编码用于指示自动驾驶设备所要运动至的目标位置；

规划器403，用于根据自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的规划路径。

在本申请实施例中，编码器401对自动驾驶设备的环境信息进行特征提取获得环境特征编码后，执行器402根据环境特征编码和目标位置编码，获取自动驾驶设备的横向偏移量和纵向速度，然后规划器403根据横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，根据采样结果生成自动驾驶设备的规划路径。在生成规划路径所需的横向偏移量、纵向偏移量、速度和时间中，横向偏移量和纵向速度由执行器402获得，规划器403根据横向偏移量和纵向速度在纵向偏移量和时间上进行采样，基于采样结果生成规划路径，由于规划器403仅需对纵向偏移量和时间进行采样，可以在较大范围内进行采样，从而可以在保证路径规划实时性的前提下，提高路径规划的准确性。

在一种可能的实现方式中，如图3所示，编码器401可以包括全连接层、特征融合层和自注意力层。

全连接层可以对环境信息包括的运行状态信息、障碍物信息和地图信息分别进行特征提取，对运行状态信息进行特征提取获得第一特征，对障碍物信息进行特征提取获得第二特征，对地图信息进行特征提取获得第三特征。特征融合层可以对全连接层获得的第一特征、第二特征和第三特征进行特征融合，获得四特征。自注意力层可以基于多头注意力机制对第四特征作进一步特征融合，获得环境特征编码。

在本申请实施例中，全连接层分别对运行状态信息、障碍物信息和地图信息进行特征提取，提取各自的特征后，特征融合层对全连接层提取到的特征进行特征融合，自注意力层对特征融合层的输出作进一步特征融合，获得环境编码信息，使得环境特征编码能够全面、准确地反映自动驾驶设备的自身状态和周围环境，保证后续基于环境特征编码进行路径规划的准确性。全连接层、特征融合层和自注意力层构成图神经网络（GNN），通过图神经网络可以有效编码自动驾驶设备的环境信息，避免编码过程中信息的丢失和冗余，提高路径规划的准确性。

在一种可能的实现方式中，执行器402可以根据环境特征编码和目标位置编码，确定对应于横向偏移量的均值和方差，并确定对应于纵向速度的均值和方差，进而根据对应于横向偏移量的均值和方差，确定对应于横向偏移量的第一正态分布，并根据对应于纵向速度的均值和方差，确定对应于纵向速度的第二正态分布，然后基于第一正态分布进行随机采样，获得自动驾驶设备的横向偏移量，并基于第二正态分布进行随机采样，获得自动驾驶设备的纵向速度。

在本申请实施例中，执行器402根据环境特征编码和目标位置编码分别确定对应于横向偏移量和纵向速度的均值和方差，基于横向偏移量的均值和方差构建第一正态分布，基于纵向速度的均值和方差构建第二正态分布，进而根据第一正态分布进行随机采样获得自动驾驶设备的横向偏移量，并根据第二正态分布进行随机采样获得自动驾驶设备的纵向速度，保证所获得的横向偏移量和纵向速度与自动驾驶设备的自身状态和周围环境相匹配，进而保证所生成规划路径的准确性。

在一种可能的实现方式中，规划器403可以包括Lattice Planner。

执行器402输出自动驾驶设备当前时刻的横向偏移量和纵向速度后，LatticePlanner可以根据执行器402输出的信息，在纵向偏移量和时间上进行二次采样，得到一个车辆模型可追的目标点，并依据该目标点生成规划路径，然后将所生成的规划路径发送给运动控制模块，运动控制模块会将规划路径解析为对应的控制指令，以控制自动驾驶设备运行。

在本申请实施例中，执行器402输出横向偏移量和纵向速度这两个点值，可解释性较差，Lattice Planner基于执行器402输出的信息生成规划路径，在生成轨迹时具有较强的可靠性和可解释性。路径规划装置采用执行器402与规划器403的分层结构，可以充分利用Lattice Planner在轨迹生成时的可靠性和可解释性，而执行器402得到的横向偏移量和纵向速度，可以有效减少Lattice Planner采样的范围，从而提高Lattice Planner得到较优解的概率，从而可以提高自动规划算法的安全性、舒适性和泛化性。

执行器402将横向偏移量和纵向速度输入给Lattice Planner后，LatticePlanner可以基于横向偏移量和纵向速度产生5阶连续的平滑轨迹，从而运动控制器在根据Lattice Planner输出的规划路径控制自动驾驶设备运动时，可以是自动驾驶设备的运行过程更加平稳，从而提高自动驾驶设备的安全性和舒适性。

图5是本申请另一个实施例的路径规划装置的示意图。如图5所示，路径规划装置除了包括编码器401、执行器402和规划器403之外，还可以包括用于训练执行器402的判决器404。判决器404与执行器402构成强化学习网络，判决器404可以基于时间差分误差训练获得，时间差分误差根据执行器402执行动作导致的状态变化和即时奖励确定。判决器404可以根据执行器402确定出的自动驾驶设备的横向偏移量和纵向速度，确定执行器402的奖励值，该奖励值用于对执行器402进行训练。

判决器404和执行器402构成了强化学习网络，该强化学习网络是由多层感知器（Multilayer Perceptron，MLP）组成的actor-aritic的强化学习网络。强化学习网络可以输出较好的行为决策给下层的规划器403。规划器403可以对强化学习的决策进行二次推理得到一切实可追的目标点，并依据该目标点生成一平滑轨迹，该轨迹会被下发到底层的运动控制模块来控制自动驾驶设备与环境交互，得到环境的反馈，进而通过环境的反馈来训练神经网络。

在模型训练过程中，可以针对每个训练样本依次对判决器404和执行器402进行训练，训练样本即为自动驾驶设备的环境信息。执行器402针对上一个训练样本生成规划路径后，基于规划路径可以确定自动驾驶设备的状态变化，该状态变化可以反映路径规划装置所生成规划路径的准确性，该状态变化和即时奖励可以产生时间差分（Temporal-Difference，TD）误差，进而根据基于时间差分误差对判决器404进行优化和参数更新。在针对上一训练样本对判决器404进行训练后，编码器401将当前训练样本编码为环境特征编码，执行器402根据环境特征编码确定自动驾驶设备的横向偏移量和纵向速度，规划器403根据执行器402获得的横向偏移量和纵向速度，生成针对当前训练样本的规划路径，判决器404根据执行器402获得的横向偏移量和纵向速度，确定针对当前训练样本的奖励值，进而根据该奖励值对执行器402的模型参数进行调整。按照上述方式对判决器404和执行器402进行训练，直至所使用训练样本的数量达到预设值，或者所生成规划路径的准确度达到预设要求。

应理解，由于判决器404用于训练执行器402，当执行器402训练完成后，判决器404不再需要基于执行器402输出的横向偏移量和纵向速度，对执行器402的模型参数进行调整，所以用于推理的路径规划装置可以不包括判决器404。当然，用于推理的路径规划装置也可以包括判决器404，但判决器404并不参与实际的路径规划工作。

在本申请实施例中，路径规划装置采用基于分层强化学习的方案，结合了强化学习和传统规划器（比如Lattice Planner）的优点，充分利用强化学习在面临复杂场景（比如十字路口、无保护左转、汇车等）时的高决策性和泛化性，同时利用传统规划器在生成轨迹时的可靠性和可解释性，强化学习网络得到的决策（横向偏移量和纵向速度）可有效减少传统规划器的采样范围，提高了传统规划器得到较优解的概率，显著提高了路径规划装置在面临复杂场景时的安全性、舒适性和泛化性。

需要说明的是，本申请实施例提供的路径规划装置用于实现前述方法实施例中的路径规划方法，并具有相对应方法实施例的有益效果，在此不再进行赘述。

模型训练方法

本申请实施例提供了一种模型训练方法，该模型训练方法用于对路径规划模型进行训练，路径规划模型的结构可参见上述实施例中的路径规划装置，以下通过多个实施例对该模型训练方法进行详细说明。如无特别声明，下述方法实施例中的编码器可为前述实施例中的编码器401，下述方法实施例中的执行器可为前述实施例中的执行器402，下述方法实施例中的规划器可为前述实施例中的规划器403，下述方法实施例中的判决器可为前述实施例中的判决器404。

图6是本申请一个实施例的模型训练方法的流程图。如图6所示，该模型训练方法包括如下步骤：

步骤601、通过编码器对自动驾驶设备的环境信息进行特征提取，获得环境特征编码。

环境信息包括自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个，运行状态信息包括自动驾驶设备的速度、加速度、所处位置信息和历史轨迹信息等。在模型训练过程中，环境信息包括自动驾驶设备在各种复杂场景下的运行状态信息、障碍物信息和地图信息，比如通过自动驾驶设备在十字路口、无保护左转、汇车等复杂场景下对应的环境信息对路径规划模型进行训练。

需要说明的是，在模型训练过程中编码器生成环境特征编码的过程，与模型推理过程中编码成生成环境特征编码的过程相同，具体可参见前述路径规划方法实施例中的描述，在此不再进行赘述。

步骤602、根据时间差分误差对判决器进行训练。

时间差分误差可以根据执行器执行动作导致的状态变化和即时奖励确定。执行器执行动作是指执行器生成自动驾驶设备的横向偏移量和纵向速度，规划器可以基于执行器所生成的横向偏移量和纵向速度生产规划路径，根据规划路径自动驾驶设备可以运动至一个目标点，时自动驾驶设备产生状态变化，根据目标点与目标位置编码所指示目标位置的相对位置，可以确定目标点的即时奖励，进而根据状态变化和即时奖励可以计算时间差分误差，进而根据时间差分误差对判决器进行优化和参数更新。

需要说明的是，在模型训练过程中，运动控制模块不必实际根据规划路径控制自动驾驶设备运行，而仅需根据规划路径模拟控制自动驾驶设备运行，以确定自动驾驶设备所能够到达的目标点。

在一个例子中，规划器基于训练数据Q_n生成规划路径S_n后，自动驾驶设备基于规划路径S_n可运动至目标点D_n，根据目标点D_n与目标位置

之间的相对位置，可以确定目标点D_n 的奖励值J_n。目标点D_n的奖励值J_n指示了通过训练数据Q_n对路径规划模型训练后路径规划模型所生成规划路径的准确性，从而可以根据目标点D_n的奖励值J_n对判决器的模型参数进行调整。

步骤603、将环境特征编码与目标位置编码输入执行器，获得执行器输出的自动驾驶设备的横向偏移量和纵向速度。

编码器将一个训练数据编码为环境特征编码后，将所获得的环境特征编码和目标位置编码输入执行器，执行器基于被输入的环境特征编码和目标位置编码，确定自动驾驶设备的横向偏移量和纵向速度。

由于自动驾驶的路径规划是一个连续过程，所以不同的训练数据可以对应相同或不同的目标位置编码，比如连续变化场景中的m个训练数据对应相同的目标位置编码，m为大于或等于2的正整数。

接续上述例子，在编码器将训练数据Q_n+1编码为环境特征编码S_n+1后，将环境特征编码Q_n+1和相对应的目标位置编码输入执行器后，执行器输出自动驾驶设备的横向偏移量d_n+1和纵向速度v_n+1。

需要说明的是，在模型训练过程中执行器确定横向偏移量和纵向速度的过程，与模型推理过程中执行器确定横向偏移量和纵向速度的过程相同，具体可参见前述路径规划方法实施例中的描述，在此不再进行赘述。

步骤604、将自动驾驶设备的横向偏移量和纵向速度输入训练后的判决器，获得执行器的奖励值。

判决器为通过训练的神经网络模型，判决器以执行器输出的横向偏移量和纵向速度为输入，以执行器的奖励值为输出，执行器的奖励值用于指示执行器所确定横向偏移量和纵向速度的准确性。

接续上述例子，在通过目标点D_n的奖励值J_n对判决器的模型参数进行调整，并且执行器输出自动驾驶设备的横向偏移量d_n+1和纵向速度v_n+1后，将横向偏移量d_n+1和纵向速度v_n+1输入基于奖励值J_n进行模型参数调整后的判决器中，获得判决器输出的奖励值H_n+1，奖励值H_n+1用于指示执行器输出横向偏移量和纵向速度的准确性。

步骤605、根据执行器的奖励值对执行器进行训练。

执行器是基于强化学习训练的神经网络模型，在获取到判决器输出的奖励值后，由于该奖励值可以指示执行器所生成横向偏移量和纵向速度的准确性，所以可以根据判决器输出的奖励值，对执行器的模型参数进行调整，实现执行器的训练。

接续上述例子，在判决器输出奖励值H_n+1后，根据奖励值H_n+1对判决器的模型参数进行调整。

步骤606、将自动驾驶设备的横向偏移量和纵向速度输入规划器，使规划器根据自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的当前规划路径。

在对执行器的模型参数进行调整后，将执行器输出的横向偏移量和纵向速度输入规划器，规划器根据接收到的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的当前规划路径。

接续上述例子，在根据奖励值H_n+1对判决器的模型参数进行调整后，将执行器输出的横向偏移量d_n+1和纵向速度v_n+1输入规划器，规划器根据横向偏移量d_n+1和纵向速度v_n+1，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的规划路径S_n+1。

需要说明的是，在模型训练过程中规划器生成规划路径的过程，与模型推理过程中规划器生成规划路径的过程相同，具体可参见前述路径规划方法实施例中的描述，在此不再进行赘述。

依次使用多个训练数据，针对每个训练数据通过上述步骤601至步骤606对判决器和执行器进行交互迭代，直至迭代次数达到预设的次数阈值，或者判决器和执行器均已收敛。

在本申请实施例中，判决器和执行器构成强化学习网络，强化学习网络与规划器构成分层强化学习方案，结合了强化学习和传统规划器的优点，执行器在复杂场景时依据强化学习可以进行高效决策（横向偏移量和纵向速度），有效减少规划器采样器的范围，从而提高规划器得到较优解的概率，而规划器使用传统路径规划算法可以产生有效、安全和可解释的轨迹，从而可以提高路径规划模型在面临复杂场景时的安全性、舒适性和泛化性。

在一种可能的实现方式中，在将自动驾驶设备的横向偏移量和纵向速度输入训练后的判决器，以获得执行器的奖励值时，可以将自动驾驶设备的横向偏移量和纵向速度输入训练后的判决器，通过判决器分别计算稀疏奖励和稠密奖励，根据稀疏奖励和稠密奖励，确定执行器的奖励值。其中，稀疏奖励包括自动驾驶设备到达目标位置的奖励、发生碰撞的惩罚和耗时惩罚中的至少一个，稠密奖励包括向目标位置运动的奖励和动作一致性奖励中的至少一个。

执行器包括稀疏奖励函数和稠密奖励函数，稀疏奖励函数用于根据横向偏移量和纵向速度生成稀疏奖励，稠密奖励函数用于根据横向偏移量和纵向速度生成稠密奖励。稀疏奖励包括自动驾驶设备到达目标位置的奖励、发生碰撞的惩罚和耗时惩罚等，稠密奖励包括自动驾驶设备向目标位置运动的奖励和动作一致性奖励。

执行器的奖励值根据稀疏奖励和稠密奖励确定，执行器的奖励值可以包括稀疏奖励和稠密奖励这两个独立的部分，也可以通过预定义的奖励值算法，根据稀疏奖励和稠密奖励计算执行器的奖励值，对此本申请实施例不做限定。

在本申请实施例中，判决器根据自动驾驶设备的横向偏移量和纵向速度，确定稀疏奖励和稠密奖励，进而根据稀疏奖励和稠密奖励确定执行器的奖励值，而稀疏奖励从宏观上反映自动驾驶设备按照路径规划模型生成的规划路径运行时，是否能够到达目标位置、是否会发生碰撞及所用时长，而稠密奖励反映自动驾驶设备按照路径规划模型生成的规划路径运行时，是否在向目标位置运动及动作一致性。判决器通过多维度的奖励函数生成执行器的奖励值，能够有效的建模执行器的规划目标，从而更有效的训练强化学习模型。

在一种可能的实现方式中，在将环境特征编码和目标位置编码输入执行器，获得执行器输出的自动驾驶设备的横向偏移量和纵向速度时，可以将环境特征编码和目标位置编码输入执行器，通过执行器确定对应于横向偏移量的均值和方差，及对应于纵向速度的均值和方差，根据对应于横向偏移量的均值和方差，确定对应于横向偏移量的第一正态分布，根据对应于纵向速度的均值和方差，确定对应于纵向速度的第二正态分布，基于第一正态分布进行随机采样，获得自动驾驶设备的横向偏移量，基于第二正态分布进行随机采样，获得自动驾驶设备的纵向速度。

在本申请实施例中，执行器根据环境特征编码和目标位置编码分别确定对应于横向偏移量和纵向速度的均值和方差，基于横向偏移量的均值和方差构建第一正态分布，基于纵向速度的均值和方差构建第二正态分布，进而根据第一正态分布进行随机采样获得自动驾驶设备的横向偏移量，并根据第二正态分布进行随机采样获得自动驾驶设备的纵向速度，保证所获得的横向偏移量和纵向速度与自动驾驶设备的自身状态和周围环境相匹配，进而保证所训练出的路径规划模型的准确性。

电子设备

图7是本申请实施例提供的一种电子设备的示意性框图，本申请具体实施例并不对电子设备的具体实现做限定。如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行前述任一路径规划方法实施例或模型训练方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

RISC-V是一种基于精简指令集（RISC）原则的开源指令集架构，其可以应用于单片机和FPGA芯片等各个方面，具体可应用在物联网安全、工业控制、手机、个人计算机等领域，且由于其在设计时考虑了小型、快速、低功耗的现实情况，使得其尤其适用于仓库规模云计算机、高端移动电话和微小嵌入式系统等现代计算设备。随着人工智能物联网AIoT的兴起，RISC-V指令集架构也受到越来越多的关注和支持，并有望成为下一代广泛应用的CPU架构。

本申请实施例中的计算机操作指令可以是基于RISC-V指令集架构的计算机操作指令，对应地，处理器702可以基于RISC-V的指令集设计。具体地，本申请实施例提供的电子设备中的处理器的芯片可以为采用RISC-V指令集设计的芯片，该芯片可基于所配置的指令执行可执行代码，进而实现上述实施例中的路径规划方法或模型训练方法。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行前述任一实施例中的路径规划方法或模型训练方法。

程序710中各步骤的具体实现可以参见前述任一路径规划方法实施例或模型训练方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本申请实施例的电子设备，在对自动驾驶设备的环境信息进行特征提取获得环境特征编码后，首先根据环境特征编码和目标位置编码，通过非采样的方式获得自动驾驶设备的横向偏移量和纵向速度，然后根据所确定的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成自动驾驶设备的规划路径。在生成规划路径所需的横向偏移量、纵向偏移量、速度和时间中，横向偏移量和纵向速度通过非采样的方式获得，纵向偏移量和时间基于首先获得的横向偏移量和纵向速度通过采样方式获得，由于仅需对纵向偏移量和时间进行采样，可以在较大范围内进行采样，从而可以在保证路径规划实时性的前提下，提高路径规划的准确性。

计算机存储介质

本申请还提供了一种计算机可读存储介质，存储用于使一机器执行如本文所述的路径规划方法或模型训练方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本申请的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

计算机程序产品

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种路径规划方法，应用于包括编码器、判决器、执行器和规划器的路径规划模型，所述方法包括：

通过所述编码器对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，所述环境信息包括所述自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；

通过所述执行器根据所述环境特征编码和目标位置编码，确定所述自动驾驶设备的横向偏移量和纵向速度，其中，所述目标位置编码用于指示所述自动驾驶设备所要运动至的目标位置，所述横向偏移量用于指示所述自动驾驶设备从当前位置运动至所述目标位置时在垂直于车道线方向上需要产生的偏移量，所述纵向速度用于指示所述自动驾驶设备从当前位置运动至所述目标位置时沿车道线方向所需达到的速度值；

通过所述规划器根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的规划路径；

所述路径规划模型通过如下方法训练获得：

根据时间差分误差对所述判决器进行训练，其中，所述时间差分误差根据所述执行器执行动作导致的状态变化和即时奖励确定；

将所述环境特征编码和所述目标位置编码输入所述执行器，获得所述执行器输出的所述自动驾驶设备的横向偏移量和纵向速度；

将所述自动驾驶设备的横向偏移量和纵向速度输入训练后的所述判决器，通过所述判决器分别计算稀疏奖励和稠密奖励，根据所述稀疏奖励和所述稠密奖励，确定所述执行器的奖励值，其中，所述稀疏奖励包括所述自动驾驶设备到达所述目标位置的奖励、发生碰撞的惩罚和耗时惩罚中的至少一个，所述稠密奖励包括向所述目标位置运动的奖励和动作一致性奖励中的至少一个；

根据所述奖励值对所述执行器进行训练；

将所述自动驾驶设备的横向偏移量和纵向速度输入所述规划器，使所述规划器根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的当前规划路径。

2.根据权利要求1所述的方法，其中，所述对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，包括：

对所述运行状态信息进行特征提取，获得第一特征；

对所述障碍物信息进行特征提取，获得第二特征；

对所述地图信息进行特征提取，获得第三特征；

对所述第一特征、所述第二特征和所述第三特征进行特征融合，获得第四特征；

基于多头注意力机制对所述第四特征进行特征提取，获得所述环境特征编码。

3.根据权利要求1或2所述的方法，其中，所述根据所述环境特征编码和目标位置编码，确定所述自动驾驶设备的横向偏移量和纵向速度，包括：

根据所述环境特征编码和所述目标位置编码，确定对应于横向偏移量的均值和方差，及对应于纵向速度的均值和方差；

根据所述对应于横向偏移量的均值和方差，确定对应于横向偏移量的第一正态分布；

根据所述对应于纵向速度的均值和方差，确定对应于纵向速度的第二正态分布；

基于所述第一正态分布进行随机采样，获得所述自动驾驶设备的横向偏移量；

基于所述第二正态分布进行随机采样，获得所述自动驾驶设备的纵向速度。

4.一种路径规划装置，包括：编码器、执行器、规划期和判决器；

所述编码器，用于对自动驾驶设备的环境信息进行特征提取，获得环境特征编码，其中，所述环境信息包括所述自动驾驶设备的运行状态信息、障碍物信息和地图信息中的至少一个；

所述执行器，用于根据所述环境特征编码和目标位置编码，确定所述自动驾驶设备的横向偏移量和纵向速度，其中，所述目标位置编码用于指示所述自动驾驶设备所要运动至的目标位置，所述横向偏移量用于指示所述自动驾驶设备从当前位置运动至所述目标位置时在垂直于车道线方向上需要产生的偏移量，所述纵向速度用于指示所述自动驾驶设备从当前位置运动至所述目标位置时沿车道线方向所需达到的速度值；

所述规划器，用于根据所述自动驾驶设备的横向偏移量和纵向速度，在纵向偏移量和时间上进行采样，并根据采样结果生成所述自动驾驶设备的规划路径；

所述判决器与所述执行器构成强化学习网络，所述判决器基于时间差分误差训练获得，所述时间差分误差根据所述执行器执行动作导致的状态变化和即时奖励确定；

所述判决器，用于将所述自动驾驶设备的横向偏移量和纵向速度输入训练后的所述判决器，通过所述判决器分别计算稀疏奖励和稠密奖励，根据所述稀疏奖励和所述稠密奖励，确定所述执行器的奖励值，其中，所述稀疏奖励包括所述自动驾驶设备到达所述目标位置的奖励、发生碰撞的惩罚和耗时惩罚中的至少一个，所述稠密奖励包括向所述目标位置运动的奖励和动作一致性奖励中的至少一个，所述奖励值用于对所述执行器进行训练。

5.根据权利要求4所述的装置，其中，所述编码器包括：全连接层、特征融合层和自注意力层；

所述全连接层，用于对所述运行状态信息进行特征提取获得第一特征，对所述障碍物信息进行特征提取获得第二特征，对所述地图信息进行特征提取获得第三特征；

所述特征融合层，用于对所述第一特征、所述第二特征和所述第三特征进行特征融合，获得第四特征；

所述自注意力层，用于基于多头注意力机制对所述第四特征进行特征提取，获得所述环境特征编码。

6.根据权利要求4所述的装置，其中，

所述执行器，用于根据所述环境特征编码和所述目标位置编码，确定对应于横向偏移量的均值和方差，及对应于纵向速度的均值和方差，根据所述对应于横向偏移量的均值和方差，确定对应于横向偏移量的第一正态分布，根据所述对应于纵向速度的均值和方差，确定对应于纵向速度的第二正态分布，基于所述第一正态分布进行随机采样，获得所述自动驾驶设备的横向偏移量，基于所述第二正态分布进行随机采样，获得所述自动驾驶设备的纵向速度。

7.根据权利要求4所述的装置，其中，所述规划器包括Lattice Planner。

8.一种模型训练方法，用于对包括编码器、判决器、执行器和规划器的路径规划模型进行训练，所述模型训练方法包括：

将所述环境特征编码和目标位置编码输入所述执行器，获得所述执行器输出的所述自动驾驶设备的横向偏移量和纵向速度，其中，所述目标位置编码用于指示所述自动驾驶设备所要运动至的目标位置，所述横向偏移量用于指示所述自动驾驶设备从当前位置运动至所述目标位置时在垂直于车道线方向上需要产生的偏移量，所述纵向速度用于指示所述自动驾驶设备从当前位置运动至所述目标位置时沿车道线方向所需达到的速度值；

根据所述奖励值对所述执行器进行训练；

9.根据权利要求8所述的方法，其中，所述将所述环境特征编码和所述目标位置编码输入所述执行器，获得所述执行器输出的所述自动驾驶设备的横向偏移量和纵向速度，包括：

将所述环境特征编码和所述目标位置编码输入所述执行器，通过所述执行器确定对应于横向偏移量的均值和方差，及对应于纵向速度的均值和方差，根据所述对应于横向偏移量的均值和方差，确定对应于横向偏移量的第一正态分布，根据所述对应于纵向速度的均值和方差，确定对应于纵向速度的第二正态分布，基于所述第一正态分布进行随机采样，获得所述自动驾驶设备的横向偏移量，基于所述第二正态分布进行随机采样，获得所述自动驾驶设备的纵向速度。

10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如权利要求1-3中任一项的路径规划方法对应的操作或如权利要求8-9中任一项的模型训练方法对应的操作。

11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-3中任一项的路径规划方法或如权利要求8-9中任一项的模型训练方法。