CN116394977A

CN116394977A - 确定规划轨迹的方法、模型训练方法和自动驾驶车辆

Info

Publication number: CN116394977A
Application number: CN202310395159.7A
Authority: CN
Inventors: 宋泽良; 柳长春; 苏亚博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-07-07

Abstract

本公开提供了一种确定规划轨迹的方法，涉及人工智能技术领域，尤其涉及自动驾驶、智能交通、深度学习技术领域。具体实现方案为：根据当前车辆的当前场景数据以及与当前场景数据关联的历史信息，确定当前场景的特征；根据当前场景的特征从参考场景数据库中确定多个参考场景各自的未来轨迹，作为当前车辆的候选轨迹，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；针对每个候选轨迹，确定候选轨迹的特征，并根据当前场景的特征和候选轨迹的特征，确定候选轨迹的评估值；根据评估值从多个候选轨迹中确定目标轨迹，作为当前车辆的规划轨迹。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。

Description

确定规划轨迹的方法、模型训练方法和自动驾驶车辆

技术领域

本公开涉及人工智能技术领域，尤其涉及自动驾驶、智能交通、深度学习技术领域。更具体地，本公开提供了一种确定规划轨迹的方法、深度学习模型的训练方法、装置、电子设备和存储介质。

背景技术

基于人工智能的数据处理，已经广泛应用于各个领域。其中，在自动驾驶领域中，基于人工智能对数据进行处理，能够为车辆规划合理的驾驶轨迹。

发明内容

本公开提供了一种确定规划轨迹的方法、深度学习模型的训练方法、装置、设备以及存储介质。

根据第一方面，提供了一种确定规划轨迹的方法，该方法包括：根据当前车辆的当前场景数据以及与当前场景数据关联的历史信息，确定当前场景的特征；根据当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为当前车辆的候选轨迹，其中，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；针对每个候选轨迹，确定候选轨迹的特征，并根据当前场景的特征和候选轨迹的特征，确定候选轨迹的评估值；以及根据评估值，从多个候选轨迹中确定目标轨迹，作为当前车辆在当前场景下的规划轨迹。

根据第二方面，提供了一种深度学习模型的训练方法，该方法包括：根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为样本场景的候选轨迹，其中，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；将样本场景的特征和多个候选轨迹各自的特征输入深度学习模型，得到多个候选轨迹各自的评估值；根据评估值，确定深度学习模型的损失；以及根据损失，调整深度学习模型的参数。

根据第三方面，提供了一种确定规划轨迹的装置，该装置包括：当前场景特征确定模块，用于根据当前车辆的当前场景数据以及与当前场景数据关联的历史信息，确定当前场景的特征；第一候选轨迹确定模块，用于根据当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为当前车辆的候选轨迹，其中，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；评估值确定模块，用于针对每个候选轨迹，确定候选轨迹的特征，并根据当前场景的特征和候选轨迹的特征，确定候选轨迹的评估值；以及目标轨迹确定模块，用于根据评估值，从多个候选轨迹中确定目标轨迹，作为当前车辆在当前场景下的规划轨迹。

根据第四方面，提供了一种深度学习模型的训练装置，该装置包括：第二候选轨迹确定模块，用于根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为样本场景的候选轨迹，其中，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；处理模块，用于将样本场景的特征和多个候选轨迹各自的特征输入深度学习模型，得到多个候选轨迹各自的评估值；损失确定模块，用于根据评估值，确定深度学习模型的损失；以及调整模块，用于根据损失，调整深度学习模型的参数。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用确定规划轨迹的方法和深度学习模型的训练方法的示例性系统架构示意图；

图2是根据本公开的一个实施例的确定规划轨迹的方法的流程图；

图3是根据本公开的一个实施例的确定当前场景的特征方法的示意图；

图4是根据本公开的一个实施例的确定候选轨迹的评估值的方法的示意图；

图5是根据本公开的一个实施例的确定候选轨迹的评估值的方法的示意图；

图6是根据本公开的一个实施例的深度学习模型的训练方法的流程图；

图7是根据本公开的一个实施例的候选轨迹的召回率曲线图；

图8是根据本公开的一个实施例的确定规划轨迹的装置的框图；

图9是根据本公开的一个实施例的深度学习模型的训练装置的框图；

图10是根据本公开的一个实施例的确定规划轨迹的方法和/或深度学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

轨迹规划是自动驾驶技术中的重要组成部分，解决自动驾驶车辆该怎么走的问题。在相关技术中，可以采用基于轨迹检索的自动驾驶轨迹规划方法。

例如，将车辆行驶过程中的场景信息(例如，周围障碍物信息、车道信息等)编码成场景特征。然后基于场景特征从数据库中召回与当前场景相似度较高的历史场景，将历史场景对应的未来驾驶轨迹作为当前的规划轨迹。

该基于轨迹检索的自动驾驶轨迹规划方法可以从千万级场景中召回出百级别的候选轨迹。但是，该方法中场景相似度的计算是粗粒度的，按照相似度召回的候选轨迹的置信度不高，最优轨迹的召回率偏低。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1是根据本公开一个实施例的可以应用确定规划轨迹的方法和深度学习模型的训练方法的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括自动驾驶车辆101、网络102、服务器103和数据库104。网络102用以在自动驾驶车辆101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。

在一个示例中，自动驾驶车辆101可以将在自动驾驶过程中采集的场景数据发送给服务器103，服务器103可以将场景数据进行处理，并将处理后的场景数据作为参考场景数据添加到数据库104中。

在对自动驾驶车辆101进行轨迹规划时，自动驾驶车辆101可以将采集的当前场景数据发送给服务器103，服务器103针对自动驾驶车辆101的当前场景数据，可以从数据库中查询出与当前场景最相似的前K个(TopK个，K为大于1的整数，例如K＝100)参考场景，将该最相似的TopK个参考场景的未来驾驶轨迹作为自动驾驶车辆101在当前场景下的候选轨迹。

对于TopK个候选轨迹，可以调用SLT(SL表示frenet坐标系，即SL坐标系，T表示时间)规则进行安全计算，即计算在该候选轨迹下，自动驾驶车辆是否会与障碍物发生碰撞。如果不会，则该候选轨迹通过安全计算。可以将第一个通过SLT安全计算的候选轨迹确定为自动驾驶车辆101的规划轨迹。

SL坐标系中S轴为车辆行驶方向，L为与车辆行驶方向垂直的一个方向。构建该SL坐标系便于计算当前车辆与障碍物在空间上是否发生碰撞。此外，SLT规则还可以在时间维度上检测在预设时间内(例如3S)按照候选轨迹行驶是否会与障碍物发生碰撞。

由于SLT规则的计算比较耗时，因此需要尽可能的将最优轨迹排在前面，减少SLT规则的调用次数。上述TopK个参考场景是按照场景相似度排序的，然而，该场景相似度的计算是粗粒度的，置信度并不高，最优轨迹(Top1轨迹)的召回率偏低，导致SLT规则的调用次数增加，进而增加计算耗时，影响自动驾驶车辆101的轨迹规划效率。

有鉴于此，本公开提供了一种确定规划轨迹的方法，对于需要进行轨迹规划的当前场景，从数据库中召回与当前场景最相近的多个参考场景的未来轨迹作为候选轨迹，使用细粒度的轨迹排序模型对召回的候选轨迹进行重排序，提高最优轨迹的召回率，进而提高自动驾驶车辆的轨迹规划效率。

本公开提供的确定规划轨迹的方法可以由自动驾驶车辆101执行，也可以由服务器103执行。相应地，本公开提供的确定规划轨迹的装置可以设置在自动驾驶车辆101中，也可以设置在服务器103中。本公开提供的深度学习模型的训练方法可以由服务器103执行。相应地，本公开提供的深度学习模型的训练装置可以设置在服务器103中。

图2是根据本公开的一个实施例的确定规划轨迹的方法的流程图。

如图2所示，该确定规划轨迹的方法200包括操作S210～操作S240。

在操作S210，根据当前车辆的当前场景数据以及与当前场景数据关联的历史信息，确定当前场景的特征。

当前车辆可以是自动驾驶车辆，当前场景可以是自动驾驶车辆的当前驾驶场景或驾驶环境。自动驾驶车辆在行驶过程中可以采集场景数据，场景数据可以是按帧采集的，每一帧可以是0.1s。

每一帧场景数据对应一个时刻，当前场景数据对应当前时刻。每一帧场景数据可以包括该帧场景数据所在时刻的场景图像以及场景图像中的对象信息。自动驾驶车辆可以称为自车，场景图像中的对象可以包括自车、障碍物(行人、机动车、非机动车等)以及道路信息。道路信息可以包括道路中心线、停止线、人行横道等车道线信息。

每一帧场景数据可以关联该帧场景数据所在时刻之前的历史时段内的历史信息。例如，当前场景图像中包括自车(当前车辆)、当前障碍物和当前道路的位置信息。当前场景数据可以关联在当前场景数据所在时刻之前的历史时段(例如历史1.6s)内的自车历史轨迹、当前障碍物历史轨迹以及当前道路信息。

由于在历史时段内包括多个历史场景，历史时段内的自车历史轨迹可以是由自车在每个历史场景中的位置组成的，历史时段内的当前障碍物历史轨迹可以是当前障碍物在每个历史场景中的位置组成的。每个历史场景图像中的道路信息为一个道路段，历史1.6s内的多个历史场景图像可以包括多个道路段，每个道路段的路面上包括车道线信息(例如位置、颜色、线型等)，每个道路段的路面上包含的车道线是一段车道线，可以称为车道线片段。因此，历史时段内的当前车道线信息包括多个道路段各自的车道线片段信息，多个道路段的车道线片段可以拼接成历史时段内的完整车道线信息。车道线可以包括道路中心线、停止线和人行横道，车道线片段可以包括车道中心线片段、停止线片段和人性横道片段等。

根据当前场景数据以及与当前场景数据关联的历史信息，可以确定当前场景的特征。

例如，根据当前场景所在时刻之前的历史1.6s内的自车历史轨迹，可以确定自车特征。根据该历史1.6s内的当前障碍物历史轨迹，可以确定当前障碍物特征。根据该历史1.6s内的当前车道线的多个片段信息，可以确定当前车道线特征。根据自车特征、当前障碍物特征和当前车道线特征可以确定当前场景的特征。

在操作S220，根据当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为当前车辆的候选轨迹。

例如，参考场景数据库中可以包括千万级数量的参考场景数据，每个参考场景数据对应一个参考场景，该参考场景数据可以包括参考场景的特征，参考场景的特征可以与当前场景的特征的确定方式类似，例如可以是根据参考场景所在时刻之前的历史时段(例如历史1.6s)内的参考车辆历史轨迹、参考障碍物历史轨迹以及参考车道线的多个片段信息确定的。

参考场景数据库还存储有参考场景的未来轨迹，该未来轨迹可以是在参考场景所在时刻之后的未来时段(例如6s)内的轨迹信息。

例如，可以计算当前场景的特征分别与参考场景数据库中的每个参考场景的特征之间的相似度，按照相似度由高到低的顺序对参考场景数据库中的参考场景进行排序，按照排列顺序从中选取多个(例如TopK个)参考场景作为候选场景。将该多个(例如TopK个)候选场景各自的未来轨迹确定为当前车辆的候选轨迹，例如可以得到K个候选轨迹。

在操作S230，针对每个候选轨迹，确定候选轨迹的特征，并根据当前场景的特征和候选轨迹的特征，确定候选轨迹的评估值。

例如，针对每个候选轨迹，可以提取该候选轨迹的特征，可以使用TransformerEncoder结构的深度学习模型提取候选轨迹的特征。接下来将多个(例如K个)候选轨迹和当前场景的特征一起输入到经训练的轨迹排序模型，该轨迹排序模型将当前场景的特征分别与多个候选轨迹的特征进行信息交互，得到当前场景与每个候选轨迹之间的交互特征，根据该交互特征可以确定每个候选轨迹的评估值。该评估值越大，表示该候选轨迹与当前场景的匹配度越高，越适合作为当前场景的规划轨迹。

上述经训练的轨迹排序模型可以是利用上述参考场景数据库中的参考场景以及对应的未来轨迹进行训练得到的。例如，将参考场景作为样本场景，从参考场景数据库中召回多个候选轨迹，利用轨迹排序模型基于样本场景的特征和候选轨迹的特征进行信息交互，计算候选轨迹的评估值，根据候选轨迹的评估值以及样本场景真实的未来轨迹，确定轨迹排序模型的损失，根据损失调整轨迹排序模型的参数。重复上述训练过程，直至得到经训练的轨迹排序模型。

上述轨迹排序模型可以是任意能够进行特征间的信息交互处理的深度学习模型，例如可以是MLP(Multi-Layer Perception，多层感知机)模型。

在操作S240，根据评估值从多个候选轨迹中确定目标轨迹，作为当前车辆在当前场景下的规划轨迹。

例如，由于候选轨迹的评估值是基于当前场景的特征和候选轨迹的特征确定的，可以表征当前场景与候选轨迹的匹配度，而场景相似度是当前场景与千万级场景之间的粗略的相似度，因此该评估值相比于场景相似度的置信度更高。可以按照评估值由高到低的顺序对多个候选轨迹进行重排序，得到重排序结果。该重排序结果相比于按照场景相似的排序结果，排序更加精确，最优轨迹的召回率更高。

为了确保通行的安全性，可以按照重排序结果中多个候选轨迹的顺序，依次对多个候选轨迹进行SLT安全计算。如果通过该SLT安全计算，当前车辆在该候选轨迹下不会与障碍物发生碰撞，否则会发生碰撞。可以将第一个通过SLT安全计算的候选轨迹确定为当前车辆的规划轨迹。

由于基于评估值进行重排序后的排序结果更加精确，最优轨迹召回率高，因此相比于按照场景相似度的排序进行SLT安全计算，本实施例按照重排序结果进行SLT安全计算大概率能够从排列靠前(例如前10)的候选轨迹中确定出目标轨迹，从而减少SLT安全计算的调用次数，提高自动驾驶车辆的轨迹规划效率。

本公开的实施例根据当前场景的特征从参考场景数据库中确定多个参考场景的未来轨迹作为候选轨迹，确定候选轨迹的评估值，根据评估值确定目标轨迹，该评估值能够对候选轨迹进行更加精确的重排序，因此，能够提高最优轨迹召回率，有效地提升自动驾驶轨迹规划的效率。

图3是根据本公开的一个实施例的确定当前场景的特征方法的示意图。

根据本公开的实施例，确定当前场景的特征包括：根据当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息，确定当前车辆特征、当前障碍物特征以及当前车道线特征；根据当前车辆特征和当前车道线特征，确定当前车辆和当前车道线之间的第一交互特征；根据第一交互特征和当前障碍物特征，确定当前车辆和当前障碍物之间的第二交互特征；以及根据第二交互特征，确定当前场景的特征。

如图3所示，当前场景数据包括当前车辆信息、当前障碍物信息和当前车道线信息，与当前场景数据关联的历史信息包括在当前场景下的历史时段(例如历史1.6s)内的当前车辆历史轨迹320、当前障碍物历史轨迹310以及当前车道线的多个片段330。

可以采用Transformer Encoder结构的模型或者卷积结构的模型对当前障碍物历史轨迹310进行特征提取，可以得到当前障碍物特征311。

类似地，可以采用Transformer Encoder结构的模型或者卷积结构的模型对当前车辆历史轨迹320进行特征提取，可以得到当前车辆特征321。

对于当前车道线，由于在历史时段内被划分成了多个片段，可以针对每个片段进行特征提取，得到各片段的特征，每个片段的特征可以包括车道线片段的位置、颜色(例如白色或黄色)、线型(例如实线或虚线)等。各个片段的特征进行信息交互，可以得到完整的当前车道线特征331。

可以采用卷积网络加池化网络的组合结构提取当前车道线特征331。卷积网络用于提取当前车道线的各个片段的特征，卷积网络结构相比于Transformer Encoder结构，特征提取的计算复杂度更低。池化网络用于对多个片段特征进行信息交互，使得各片段特征相互关联，将特征一致(例如颜色一致、线型一致、位置连续)的片段特征拼接在一起，从而得到车道线特征。该车道线特征是历史时段内的多个车道线片段特征进行拼接得到的，因此该车道线特征表征了历史时段内的完整车道线信息。

车道线可以包括道路中心线、停止线和人行横道。当前车道线的多个片段包括多个中心线片段、多个停止线片段和多个人行横道片段。

可以将多个中心线片段输入卷积网络加池化网络的组合结构，得到中心线特征。将多个停止线片段输入卷积网络加池化网络的组合结构，得到停止线特征。将多个人行横道片段输入卷积网络加池化网络的组合结构，得到人行横道特征。

根据当前车辆特征321和当前车道线特征331可以确定当前车辆和当前车道线之间的第一交互特征340。当前车辆特征321表征了当前车辆在历史时段内的轨迹信息，当前车道线特征331表征了当前车辆在历史时段内经过的道路的完整车道线信息，因此，二者的第一交互特征340可以表征当前车辆在历史时段内与车道线进行交互的交互信息。例如，当前车辆跨过当前车道中心线，则该当前车辆与车道中心线进行了交互，当前车辆特征321和当前车道线特征331之间存在第一交互特征340。可以采用MCG(Multi-Context Gating，多层上下文门控)结构的模型提取该第一交互特征。MCG结构是Multipath++(一种轨迹预测模型)中的模块，用于进行特征之间的信息交互和关联。

例如，将当前车辆特征321和当前车道线特征331进行融合，融合后输入MCG结构，得到当前车辆和当前车道线之间的第一交互特征340。

根据第一交互特征340和当前障碍物特征311可以确定当前车辆和当前障碍物之间的第二交互特征350。第一交互特征340表征了当前车辆在历史时段内与车道线进行交互的交互信息，当前障碍物特征311表征了当前障碍物在历史时段内的轨迹信息，因此，第二交互特征350可以表征当前车辆在历史时段内与当前车道线和当前障碍物均进行交互的交互信息。例如，当前车辆跨过当前车道中心线，并绕过当前障碍物，则该当前车辆与当前障碍物和当前障碍物均进行了交互，第一交互特征340和当前障碍物特征311之间存在第二交互特征350。可以使用Transformer Encoder结构的模型提取该第二交互特征。

例如，将第一交互特征340和当前障碍物特征311进行融合，融合后输入Transformer Encoder结构，得到当前车辆和当前障碍物之间的第二交互特征350。

该第二交互特征350可以直接作为当前场景的特征。该第二交互特征350包含了当前障碍物是否与当前车辆有交互，例如，如果当前障碍物信息与当前车辆有交互，该障碍物为重要障碍物，用“1”表示。如果当前障碍物信息与当前车辆有交互，该障碍物为不重要障碍物，用“0”表示。

本实施例通过确定当前车辆与当前车道线之间的交互特征以及当前车辆与当前障碍物之间的交互特征，来得到当前场景的特征，使得当前场景的特征包含了当前车辆与车道线的交互信息以及当前车辆与障碍物之间的交互信息，这些交互信息是车辆轨迹规划的关键信息，因此当前场景的特征表征更准确，能够提高场景检索的准确性，进而提高轨迹确定的准确性。

在确定当前场景的特征之后，根据当前场景的特征从参考场景数据库中确定与当前场景相似的参考场景。下面对参考场景数据库进行说明。

参考场景数据库中可以存储有千万级参考场景的特征，以及每个参考场景的未来轨迹。

参考场景数据的来源可以是使用专用的自动驾驶车辆在指定路段进行行驶，行驶一定时长(例如1个月或1年等)得到的路跑数据。该专用的自动驾驶车辆可以作为参考车辆。路跑数据可以是以参考车辆为主视角的坐标系采集的，该坐标系可以以主车所在位置为原点，以行驶方向为y轴，以垂直于y轴的一个方向为x轴。

路跑数据可以包括千万级(例如17万个)的ads(autonomous driving sample)，每个ads对应一段连续时间(例如20s)的路跑数据，一个ads包含约200帧参考场景数据，每一帧对应一个参考场景，每帧参考场景数据为0.1s。每一帧的参考场景数据包含自车(即参考车辆)、参考障碍物(机动车、非机动车、行人)和参考道路信息，且每一帧的参考场景数据关联该参考场景下的历史时段(例如历史1.6s)内的历史信息以及参考车辆在该参考场景下的未来时段(例如未来6s)内的轨迹信息。例如，每一帧参考场景数据关联该参考场景下的历史时段内的参考车辆历史轨迹、历史时段内的参考障碍物历史轨迹、历史时段内的参考车道线的多个片段信息以及未来时段内参考车辆的轨迹信息。

根据参考场景所在时刻之前的历史时段内的参考车辆历史轨迹、参考障碍物历史轨迹以及参考车道线的多个片段信息可以确定参考场景的特征。

确定参考场景的特征的方式与当前场景的特征的确定方式类似。例如，根据参考车辆历史轨迹确定参考车辆特征，根据参考障碍物历史轨迹确定参考障碍物特征，根据参考车道线的多个片段信息，确定参考车道线的多个片段特征；根据参考车道线的多个片段特征，确定参考车道线特征。根据参考车辆特征和参考车道线特征，确定参考车辆和参考车道线之间的第三交互特征；根据第三交互特征和参考参考障碍物特征，确定参考车辆和参考障碍物之间的第四交互特征，作为参考场景的特征；以及将参考场景的特征和参考场景的未来轨迹添加到参考场景数据库中。接下来，可以将参考场景的特征和参考车辆在该参考场景下的未来时段内的未来轨迹相关联的存储在参考场景数据库中。根据参考车道线的多个片段信息，确定参考车道线的多个片段特征；根据参考车道线的多个片段特征，确定参考车道线特征。

参考车辆和参考车道线之间的第三交互特征例如表示参考车辆跨过参考车道中心线等交互信息。第三交互特征和参考障碍物之间的第四交互特征例如表示参考车辆跨过参考车道中心线，并绕过参考障碍物等交互信息。

参考场景的特征包含了参考车辆与车道线的交互信息以及参考车辆与障碍物之间的交互信息，特征表征更加准确，便于场景检索。

本实施例的参考场景数据来源于参考车辆长时间的路跑数据，参考车辆长时间的路跑过程中遇到大量的场景，这些场景作为参考场景，提取出特征和未来轨迹，存储到数据库中，能够为轨迹检索提供数据支持。

本实施例的当前场景的特征和参考场景数据库中的参考场景的特征表征的信息更加准确，能够提高场景相似度计算的准确率。但是，由于参考数据库中的参考场数据是千万级别的，根据当前场景的特征从参考场景数据库中确定多个相似的参考场景，场景相似度的计算依然是比较粗糙的。为了进一步缩小候选范围，减少SLT规则的调用次数，本实施例提供了确定候选轨迹评估值的方法，该评估值能够对召回的候选轨迹进行精细排序，提高最优轨迹召回率，有效地提升自动驾驶轨迹规划的效率。

图4是根据本公开的一个实施例的确定候选轨迹的评估值的方法的示意图。

如图4所示，候选轨迹401是基于当前场景的特征402从参考场景数据数据库中选取的与当前场景相似的参考场景的未来轨迹。候选轨迹401例如是K个(例如K＝100)。K个候选轨迹401输入特征提取模型410，可以得到K个候选轨迹各自的特征，例如特征1、……、特征K。特征提取模型410可以是Transformer Encoder结构的模型。

特征1、……特征K以及当前场景的特征402一起输入轨迹排序模型420，轨迹排序模型420将当前场景的特征402分别与特征1、……特征K进行信息交互，得到与特征1、……特征K各自对应的评估值1、……、评估值K。评估值1、……、评估值K分别作为候选轨迹1、……、候选轨迹K的得分，得分越高，表示该候选轨迹与当前场景的匹配度越高，越适合作为当前场景的规划轨迹。

轨迹排序模型420可以是任意可以进行特征间的信息交互处理的深度学习模型，例如可以是MLP(Multi-Layer Perception，多层感知机)模型。

本实施例在当前场景需要进行轨迹规划时，面对多条候选轨迹，使用轨迹排序模型420可以快速并行地计算出每条候选轨迹的得分，根据得分确定最后候选轨迹，能够减少耗时，提升计算效率。

图5是根据本公开的一个实施例的确定候选轨迹的评估值的方法的示意图。

如图5所示，本实施例包括确定当前场景的特征和确定候选轨迹的评估值两部分。确定候选轨迹的评估值部分如图5中的虚线框所示。

下面对确定当前场景的特征部分进行说明。

将当前障碍物历史轨迹501和当前车辆历史轨迹502分别输入TransformerEncoder模型510(Transformer Encoder结构的模型可以称为Transformer Encoder模型)，得到当前障碍物特征511和当前车辆特征512。

当前车道线的多个片段503包括多个中心线片段、多个停止线片段和多个人行横道片段。将多个中心线片段输入卷积+池化模型520，得到中心线特征。将多个停止线片段输入卷积+池化模型520，得到停止线特征。将多个人行横道片段输入卷积+池化模型520，得到人行横道特征。卷积+池化模型可以包括一个卷及网络、一个最大化池化网络和一个平均池化网络，卷积网络用于提取车道线片段特征，最大化池化网络和平均池化网络用于将多个车道线特征进行信息交互，使得每个片段特征包含其他片段特征的信息，从而提取最明显的片段特征以及所有片段特征的平均特征，组成车道线特征。

将当前车辆特征512和中心线特征输入MCG模型530，可以得到当前车辆与中心线之间的交互特征。将当前车辆特征512和停止线特征输入MCG模型530，可以得到当前车辆与停止线之间的交互特征。将当前车辆特征512和人行横道特征输入MCG模型530，可以得到当前车辆与人行横道之间的交互特征。将当前车辆与中心线之间的交互特征、当前车辆与停止线之间的交互特征以及当前车辆与人行横道之间的交互特征融合在一起，然后输入到MLP模型540，MLP模型对上述三个交互特征进行交互和关联，得到当前车辆和车道线之间的第一交互特征541。

当前障碍物特征511和第一交互特征541输入融合模块550，得到融合特征，将融合特征输入Transformer Encoder模型560，得到当前车辆和当前障碍物之间的第二交互特征，该第二交互特征可以作为当前场景的特征561。

下面对确定候选轨迹的评估值部分进行说明。

候选轨迹504是基于当前场景的特征561从参考场景数据数据库中选取的与当前场景相似的参考场景的未来轨迹。候选轨迹504例如是K个(例如K＝100)。K个候选轨迹504输入Transformer Encoder模型570，得到K个候选轨迹各自的特征，例如特征1、……、特征K。

特征1、…特征K以及当前场景的特征561一起输入MLP模型580，得到与特征1、……特征K各自对应的评估值1、……、评估值K。评估值1、……、评估值K分别作为候选轨迹1、……、候选轨迹K的得分，得分越高，表示该候选轨迹与当前场景的匹配度越高，越适合作为当前场景的规划轨迹。

本实施例提取当前场景的特征，基于当前场景的特征和候选轨迹的特征计算候选轨迹的评估值，能够对多个候选轨迹进行更加精细的排序，使得轨迹确定更加精确。

图6是根据本公开的一个实施例的深度学习模型的训练方法的流程图。

如图6所示，该深度学习模型的训练方法600包括操作S610～操作S640。

在操作S610，根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为样本场景的候选轨迹。

在操作S620，将样本场景的特征和多个候选轨迹各自的特征输入深度学习模型，得到多个候选轨迹各自的评估值。

在操作S630，根据评估值确定深度学习模型的损失。

在操作S640，根据损失调整深度学习模型的参数。

该深度学习模型可以用于确定多个候选轨迹的评估值。样本场景的特征可以来自参考场景数据库，即可以使用参考场景数据库中的千万级场景数据作为训练数据，来训练该深度学习模型。

例如，每次训练可以使用N个参考场景作为样本场景。对于N个样本场景中的每个样本场景i，根据该样本场景的特征可以从参考场景数据库中召回出K(例如K＝100)个相似参考场景各自的未来轨迹，作为样本场景i的K个候选轨迹。将样本场景i的特征和K个候选轨迹的特征输入深度学习模型，得到K个候选轨迹各自的评估值。

样本场景i具有真实的标签轨迹，该标签轨迹可以是样本场景i的未来轨迹。针对每个候选轨迹，根据该候选轨迹和标签轨迹之间的距离，可以确定该候选轨迹为最优轨迹的第一概率。该第一概率由于是基于标签轨迹计算的，因此可以认为是真实可信的。

可以根据如下公式(1)计算第一概率。

其中，p_ij表示第一概率，i表示第i个样本场景，d_ij表示第i个样本场景的标签轨迹与第j个候选轨迹之间的距离，d_it表示第i个样本场景的标签轨迹与第t个候选轨迹之间的距离，K表示候选轨迹的数量。

针对每个候选轨迹，根据深度学习模型输出的该候选轨迹的评估值，可以计算该候选轨迹为最优轨迹的第二概率。

可以根据如下公式(2)计算第二概率。

其中，p′_ij表示第二概率，i表示第i个样本场景；s_ij表示针对第i个样本场景，深度学习模型输出的第j个候选轨迹的评估值；s_it表示针对第i个样本场景，深度学习模型输出的第t个候选轨迹的评估值；K表示候选轨迹的数量。

第一概率是基于标签确定的，第二概率是基于模型输出确定的，因此，基于该第二概率和第一概率可以确定深度学习模型的损失。

例如，可以以第一概率和第二概率之间的差异最小为目标，确定损失函数；将第一概率和第二概率输入损失函数，确定深度学习模型的损失。

以第一概率和第二概率之间的差异最小为目标，可以构建如下公式(3)的损失函数。

其中，Loss表示损失函数，i表示第i个样本场景，N表示样本场景的数量，.j表示第.j个候选轨迹，K表示候选轨迹的数量，p_ij表示第一概率，p′_ij表示第二概率。

模型训练时可以将第一概率p_ij和第二概率p′_ij输入上述公式(3)，以该损失最小化为目标进行训练。

本实施例利用参考场景数据库中的数据训练深度学习模型，使得深度学习模型能够针对候选轨迹输出评估值，进而可以基于评估值确定最优轨迹，能够提高确定最优轨迹的准确性。

本公开实施例使用深度学习模型对候选轨迹进行细粒度排序，相比于未使用深度学习模型对候选轨迹进行细粒度排序，能够优化候选轨迹的召回率。

例如，候选轨迹包括未来6s的轨迹信息，针对样本场景，召回的Top1候选轨迹的未来1s时刻的位置与样本场景的真实未来轨迹的未来1s时刻的位置之间的误差如果小于阈值(例如0.5米)，则认为Top1候选轨迹为1s点召回成功的候选轨迹。按照此标准计算Top1召回成功的比例，可以得到1s点Top1召回率。

类似地，召回的Top1候选轨迹的未来1s时刻的位置与样本场景的真实未来轨迹的未来1s时刻的位置之间的误差小于阈值，并且Top1候选轨迹的未来3s时刻的位置与样本场景的真实未来轨迹的未来3s时刻的位置之间的误差也小于阈值，则认为Top1候选轨迹为3s点召回成功的候选轨迹。按照此标准计算Top1召回成功的比例，可以得到3s点Top1召回率。

图7是根据本公开的一个实施例的候选轨迹的召回率曲线图。

如图7所示，该召回率曲线图的横轴k表示表示召回的前k条候选轨迹，k＝1，……K。该召回率曲线图示出了Top10以内的候选轨迹的召回率(recall)。

该召回率曲线图还示出了使用深度学习模型对候选轨迹进行细粒度排序的召回率和未使用深度学习模型对候选轨迹进行细粒度排序的召回率的对比效果。

如图7所示，曲线701表示对候选轨迹进行细粒度排序的Top10以内的候选轨迹的1s点的召回率，曲线702表示未对候选轨迹进行细粒度排序的Top10以内的1s点的召回率。曲线703表示对候选轨迹进行细粒度排序的Top10以内的候选轨迹的3s点的召回率，曲线704表示未对候选轨迹进行细粒度排序的Top10以内的3s点的召回率。

参见曲线701和曲线702，对候选轨迹进行细粒度排序的1s点top1召回率为94.41％，未对候选轨迹进行细粒度排序的1s点top1召回率为80.58％。

参见曲线703和曲线704，对候选轨迹进行细粒度排序的3s点topl召回率为76.20％，未对候选轨迹进行细粒度排序的3s点top1召回率为43.37％。

通过对比可得，本实施例对候选轨迹进行细粒度排序，相比于相关技术中未对候选轨迹进行细粒度排序，候选轨迹的召回率能够得到大幅提升。

此外，伴随top1召回率的提升，调用SLT规则进行安全计算的效率也相应提高。相关技术中未对候选轨迹进行细粒度排序的方案，平均每个场景平均需要调用3.4次SLT规则，本实施例对候选轨迹进行细粒度排序的方案平均只需1.8次SLT规则，有效节省了耗时。

图8是根据本公开的一个实施例的确定规划轨迹的装置的框图。

如图8所示，该确定规划轨迹的装置800包括当前场景特征确定模块801、第一候选轨迹确定模块802、评估值确定模块803和目标轨迹确定模块804。

当前场景特征确定模块801用于根据当前车辆的当前场景数据以及与当前场景数据关联的历史信息，确定当前场景的特征。

第一候选轨迹确定模块802用于根据当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为当前车辆的候选轨迹，其中，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息。

评估值确定模块803用于针对每个候选轨迹，确定候选轨迹的特征，并根据当前场景的特征和候选轨迹的特征，确定候选轨迹的评估值。

目标轨迹确定模块804用于根据评估值，从多个候选轨迹中确定目标轨迹，作为当前车辆在当前场景下的规划轨迹。

根据本公开的实施例，当前场景数据包括当前车辆信息、当前障碍物信息和当前车道线信息，历史信息包括当前场景下的历史时段内的当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息；当前场景特征确定模块包括当前特征确定单元、第一交互特征确定单元和第二交互特征确定单元。

当前特征确定单元用于根据当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息，确定当前车辆特征、当前障碍物特征以及当前车道线特征。

第一交互特征确定单元用于根据当前车辆特征和当前车道线特征，确定当前车辆和当前车道线之间的第一交互特征。

第二交互特征确定单元用于根据第一交互特征和当前障碍物特征，确定当前车辆和当前障碍物之间的第二交互特征，作为当前场景的特征。

当前特征确定单元用于根据当前车道线的多个片段信息，确定当前车道线的多个片段特征；以及根据当前车道线的多个片段特征，确定当前车道线特征。

第一候选轨迹确定模块包括第一相似度计算单元、第一参考场景确定单元和第一候选轨迹确定单元。

第一相似度计算单元用于计算当前场景的特征分别与参考场景数据库中的每个参考场景的特征之间的相似度。

第一参考场景确定单元用于根据相似度，从参考场景数据库中确定多个参考场景。

第一候选轨迹确定单元用于将多个参考场景各自的未来轨迹确定为当前车辆的候选轨迹。

确定规划轨迹的装置800还包括参考场景特征确定模块，参考场景特征确定模块包括参考特征确定单元、第三交互特征确定单元、第四交互特征确定单元和存储单元。

参考特征确定单元用于根据参考场景下的历史时段内的参考车辆历史轨迹、参考障碍物历史轨迹以及参考车道线的多个片段信息，确定参考车辆特征、参考障碍物特征和参考车道线特征。

第三交互特征确定单元用于根据参考车辆特征和参考车道线特征，确定参考车辆和参考车道线之间的第三交互特征。

第四交互特征确定单元用于根据第三交互特征和参考参考障碍物特征，确定参考车辆和参考障碍物之间的第四交互特征，作为参考场景的特征。

存储单元用于将参考场景的特征和参考场景的未来轨迹添加到参考场景数据库中。

参考特征确定单元用于根据参考车道线的多个片段信息，确定参考车道线的多个片段特征；根据参考车道线的多个片段特征，确定参考车道线特征。

评估值确定模块803包括第五交互特征确定单元和评估值确定单元。

第五交互特征确定单元用于对当前场景的特征和候选轨迹的特征进行信息交互，得到当前场景和候选轨迹之间的第五交互特征。

评估值确定单元用于根据当前场景和候选轨迹之间的第五交互特征，确定候选轨迹的评估值。

目标轨迹确定模块804包括排序单元和目标轨迹确定单元。

排序单元用于根据评估值，对多个候选轨迹进行排序。

目标轨迹确定单元用于按照多个候选轨迹的排列顺序，依次对多个候选轨迹进行安全计算，直至得到通过安全计算的候选轨迹，作为目标轨迹。

图9是根据本公开的一个实施例的深度学习模型的训练装置的框图。

如图9所示，该深度学习模型的训练装置900包括第二候选轨迹确定模块901、处理模块902、损失确定模块903和调整模块904。

第二候选轨迹确定模块901用于根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为样本场景的候选轨迹，其中，未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息。

处理模块902用于将样本场景的特征和多个候选轨迹各自的特征输入深度学习模型，得到多个候选轨迹各自的评估值。

损失确定模块903用于根据评估值，确定深度学习模型的损失。

调整模块904用于根据损失，调整深度学习模型的参数。

样本场景包括标签轨迹，标签轨迹包括样本场景下的未来时段内的轨迹信息。损失确定模块903包括第一概率确定单元、第二概率确定单元和损失确定单元。

第一概率确定单元用于针对每个候选轨迹，根据标签轨迹与候选轨迹之间的距离，确定候选轨迹是样本场景的最优轨迹的第一概率。

第二概率确定单元用于针对每个候选轨迹，根据候选轨迹的评估值，确定候选轨迹是样本场景的最优轨迹的第二概率。

损失确定单元用于根据第一概率和第二概率，确定深度学习模型的损失。

损失确定单元用于以第一概率和第二概率之间的差异最小为目标，确定损失函数；以及将第一概率和第二概率输入损失函数，确定深度学习模型的损失。

第二候选轨迹确定模块901包括第二相似度计算单元、第二参考场景确定单元和第二候选轨迹确定单元。

第二相似度计算单元用于计算样本场景的特征分别与参考场景数据库中的每个参考场景的特征之间的相似度。

第二参考场景确定单元用于根据相似度，从参考场景数据库中确定多个参考场景。

第二候选轨迹确定单元用于将多个参考场景各自的未来轨迹确定为样本场景下的候选轨迹。

根据本公开的实施例，本公开还提供了一种电子设备、一种自动驾驶车辆、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如确定规划轨迹的方法和深度学习模型的训练方法中的至少之一。例如，在一些实施例中，确定规划轨迹的方法和深度学习模型的训练方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的确定规划轨迹的方法和深度学习模型的训练方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定规划轨迹的方法和深度学习模型的训练方法中的至少之一。

本公开的实施例提供的自动驾驶车辆可以包括场景采集设备和如图10所示的电子设备。场景采集设备例如包括摄像头，可以在自动驾驶车辆行驶过程中以该自动驾驶车辆所在位置为原点，以车辆行驶方向为y轴，以垂直于y轴的一个方向为x轴，构建坐标系。按帧采集该坐标系下的场景数据。每一帧场景数据可以包括该帧场景数据所在时刻的场景图像以及场景图像中的自动驾驶车辆位置信息、障碍物(行人、机动车、非机动车等)位置信息以及道路车道线信息。

场景采集设备可以将采集到的场景数据发送给电子设备，电子设备例如实现上文所描述的确定规划轨迹的方法，得到自动驾驶车辆在当前场景下的未来时段(例如未来6s)内的规划轨迹。连续帧的场景数据发送给电子设备，电子设备可以连续输出针对每一帧场景数据的未来时段内的规划轨迹，从而形成自动驾驶车辆的规划轨迹。

自动驾驶车辆根据电子设备确定的规划轨迹，可以控制车辆按照该规划轨迹进行自动行驶。

本实施例将电子设备置于自动驾驶车辆中，相比于置于外部服务器中，能够节省数据传输时间，提高数据处理效率，进一步提高自动驾驶车辆的轨迹规划效率。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定规划轨迹的方法，包括：

根据当前车辆的当前场景数据以及与所述当前场景数据关联的历史信息，确定当前场景的特征；

根据所述当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为所述当前车辆的候选轨迹，其中，所述未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；

针对每个候选轨迹，确定所述候选轨迹的特征，并根据所述当前场景的特征和所述候选轨迹的特征，确定所述候选轨迹的评估值；以及

根据所述评估值，从所述多个候选轨迹中确定目标轨迹，作为所述当前车辆在当前场景下的规划轨迹。

2.根据权利要求1所述的方法，其中，所述当前场景数据包括当前车辆信息、当前障碍物信息和当前车道线信息，所述历史信息包括当前场景下的历史时段内的当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息；所述根据当前车辆的当前场景数据以及与所述当前场景数据关联的历史信息，确定当前场景的特征包括：

根据所述当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息，确定当前车辆特征、当前障碍物特征以及当前车道线特征；

根据所述当前车辆特征和所述当前车道线特征，确定所述当前车辆和所述当前车道线之间的第一交互特征；

根据所述第一交互特征和所述当前障碍物特征，确定所述当前车辆和所述当前障碍物之间的第二交互特征，作为所述当前场景的特征。

3.根据权利要求2所述的方法，其中，所述根据所述当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息，确定当前车辆特征、当前障碍物特征以及当前车道线特征包括：

根据所述当前车道线的多个片段信息，确定所述当前车道线的多个片段特征；以及

根据所述当前车道线的多个片段特征，确定所述当前车道线特征。

4.根据权利要求1至3中任一项所述的方法，其中，所述根据所述当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为所述当前车辆的候选轨迹包括：

计算所述当前场景的特征分别与所述参考场景数据库中的每个参考场景的特征之间的相似度；

根据所述相似度，从所述参考场景数据库中确定所述多个参考场景；以及

将所述多个参考场景各自的未来轨迹确定为所述当前车辆的候选轨迹。

5.根据权利要求1所述的方法，所述方法还包括：

根据参考场景下的历史时段内的参考车辆历史轨迹、参考障碍物历史轨迹以及参考车道线的多个片段信息，确定参考车辆特征、参考障碍物特征和参考车道线特征；

根据所述参考车辆特征和所述参考车道线特征，确定所述参考车辆和所述参考车道线之间的第三交互特征；

根据所述第三交互特征和所述参考参考障碍物特征，确定所述参考车辆和所述参考障碍物之间的第四交互特征，作为所述参考场景的特征；以及

将所述参考场景的特征和所述参考场景的未来轨迹添加到所述参考场景数据库中。

6.根据权利要求5所述的方法，其中，所述根据参考场景下的历史时段内的参考车辆历史轨迹、参考障碍物历史轨迹以及参考车道线的多个片段信息，确定参考车辆特征、参考障碍物特征和参考车道线特征包括：

根据所述参考车道线的多个片段信息，确定所述参考车道线的多个片段特征；

根据所述参考车道线的多个片段特征，确定所述参考车道线特征。

7.根据权利要求1至6中任一项所述的方法，其中，所述针对每个候选轨迹，确定所述候选轨迹的特征，并根据所述当前场景的特征和所述候选轨迹的特征，确定所述候选轨迹的评估值包括：

对所述当前场景的特征和所述候选轨迹的特征进行信息交互，得到所述当前场景和所述候选轨迹之间的第五交互特征；以及

根据所述当前场景和所述候选轨迹之间的第五交互特征，确定所述候选轨迹的评估值。

8.根据权利要求1至7中任一项所述的方法，其中，所述根据所述评估值，从所述多个候选轨迹中确定目标轨迹，作为所述当前车辆在所述当前场景下的规划轨迹包括：

根据所述评估值，对所述多个候选轨迹进行排序；以及

按照所述多个候选轨迹的排列顺序，依次对所述多个候选轨迹进行安全计算，直至得到通过所述安全计算的候选轨迹，作为所述目标轨迹。

9.一种深度学习模型的训练方法，包括：

根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为所述样本场景的候选轨迹，其中，所述未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；

将所述样本场景的特征和多个所述候选轨迹各自的特征输入深度学习模型，得到所述多个候选轨迹各自的评估值；

根据所述评估值，确定所述深度学习模型的损失；以及

根据所述损失，调整所述深度学习模型的参数。

10.根据权利要求9所述的方法，其中，所述样本场景包括标签轨迹，所述标签轨迹包括所述样本场景下的未来时段内的轨迹信息；所述根据所述评估值，确定所述深度学习模型的损失包括：

针对每个候选轨迹，根据所述标签轨迹与所述候选轨迹之间的距离，确定所述候选轨迹是所述样本场景的最优轨迹的第一概率；

针对每个候选轨迹，根据所述候选轨迹的评估值，确定所述候选轨迹是所述样本场景的最优轨迹的第二概率；以及

根据所述第一概率和所述第二概率，确定所述深度学习模型的损失。

11.根据权利要求10所述的方法，其中，所述根据所述第一概率和所述第二概率，确定所述深度学习模型的损失包括：

以所述第一概率和所述第二概率之间的差异最小为目标，确定损失函数；以及

将所述第一概率和所述第二概率输入所述损失函数，确定所述深度学习模型的损失。

12.根据权利要求9所述的方法，其中，所述根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为所述样本场景的候选轨迹包括：

计算所述样本场景的特征分别与所述参考场景数据库中的每个参考场景的特征之间的相似度；

将所述多个参考场景各自的未来轨迹确定为所述样本场景下的候选轨迹。

13.一种确定规划轨迹的装置，包括：

当前场景特征确定模块，用于根据当前车辆的当前场景数据以及与所述当前场景数据关联的历史信息，确定当前场景的特征；

第一候选轨迹确定模块，用于根据所述当前场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为所述当前车辆的候选轨迹，其中，所述未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；

评估值确定模块，用于针对每个候选轨迹，确定所述候选轨迹的特征，并根据所述当前场景的特征和所述候选轨迹的特征，确定所述候选轨迹的评估值；以及

目标轨迹确定模块，用于根据所述评估值，从所述多个候选轨迹中确定目标轨迹，作为所述当前车辆在所述当前场景下的规划轨迹。

14.根据权利要求13所述的装置，其中，所述当前场景数据包括当前车辆信息、当前障碍物信息和当前车道线信息，所述历史信息包括当前场景下的历史时段内的当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息；所述当前场景特征确定模块包括：

当前特征确定单元，用于根据所述当前车辆历史轨迹、当前障碍物历史轨迹以及当前车道线的多个片段信息，确定当前车辆特征、当前障碍物特征以及当前车道线特征；

第一交互特征确定单元，用于根据所述当前车辆特征和所述当前车道线特征，确定所述当前车辆和所述当前车道线之间的第一交互特征；

第二交互特征确定单元，用于根据所述第一交互特征和所述当前障碍物特征，确定所述当前车辆和所述当前障碍物之间的第二交互特征，作为所述当前场景的特征。

15.根据权利要求14所述的装置，其中，所述当前特征确定单元，用于根据所述当前车道线的多个片段信息，确定所述当前车道线的多个片段特征；以及根据所述当前车道线的多个片段特征，确定所述当前车道线特征。

16.根据权利要求13至15中任一项所述的装置，其中，所述第一候选轨迹确定模块包括：

第一相似度计算单元，用于计算所述当前场景的特征分别与所述参考场景数据库中的每个参考场景的特征之间的相似度；

第一参考场景确定单元，用于根据所述相似度，从所述参考场景数据库中确定所述多个参考场景；以及

第一候选轨迹确定单元，用于将所述多个参考场景各自的未来轨迹确定为所述当前车辆在所述当前场景下的候选轨迹。

17.根据权利要求13所述的装置，所述装置还包括参考场景特征确定模块，所述参考场景特征确定模块包括：

参考特征确定单元，用于根据参考场景下的历史时段内的参考车辆历史轨迹、参考障碍物历史轨迹以及参考车道线的多个片段信息，确定参考车辆特征、参考障碍物特征和参考车道线特征；

第三交互特征确定单元，用于根据所述参考车辆特征和所述参考车道线特征，确定所述参考车辆和所述参考车道线之间的第三交互特征；

第四交互特征确定单元，用于根据所述第三交互特征和所述参考参考障碍物特征，确定所述参考车辆和所述参考障碍物之间的第四交互特征，作为所述参考场景的特征；以及

存储单元，用于将所述参考场景的特征和所述参考场景的未来轨迹添加到所述参考场景数据库中。

18.根据权利要求17所述的装置，所述参考特征确定单元，用于根据所述参考车道线的多个片段信息，确定所述参考车道线的多个片段特征；根据所述参考车道线的多个片段特征，确定所述参考车道线特征。

19.根据权利要求13至18中任一项所述的装置，其中，所述评估值确定模块包括：

第五交互特征确定单元，用于对所述当前场景的特征和所述候选轨迹的特征进行信息交互，得到所述当前场景和所述候选轨迹之间的第五交互特征；以及

评估值确定单元，用于根据所述当前场景和所述候选轨迹之间的第五交互特征，确定所述候选轨迹的评估值。

20.根据权利要求13至19中任一项所述的装置，其中，所述目标轨迹确定模块包括：

排序单元，用于根据所述评估值，对所述多个候选轨迹进行排序；以及

目标轨迹确定单元，用于按照所述多个候选轨迹的排列顺序，依次对所述多个候选轨迹进行安全计算，直至得到通过所述安全计算的候选轨迹，作为所述目标轨迹。

21.一种深度学习模型的训练装置，包括：

第二候选轨迹确定模块，用于根据样本场景的特征，从参考场景数据库中确定多个参考场景各自的未来轨迹，作为所述样本场景的候选轨迹，其中，所述未来轨迹包括参考车辆在参考场景下的未来时段内的轨迹信息；

处理模块，用于将所述样本场景的特征和多个所述候选轨迹各自的特征输入深度学习模型，得到所述多个候选轨迹各自的评估值；

损失确定模块，用于根据所述评估值，确定所述深度学习模型的损失；以及

调整模块，用于根据所述损失，调整所述深度学习模型的参数。

22.根据权利要求21所述的装置，其中，所述样本场景包括标签轨迹，所述标签轨迹包括所述样本场景下的未来时段内的轨迹信息；所述损失确定模块包括：

第一概率确定单元，用于针对每个候选轨迹，根据所述标签轨迹与所述候选轨迹之间的距离，确定所述候选轨迹是所述样本场景的最优轨迹的第一概率；

第二概率确定单元，用于针对每个候选轨迹，根据所述候选轨迹的评估值，确定所述候选轨迹是所述样本场景的最优轨迹的第二概率；以及

损失确定单元，用于根据所述第一概率和所述第二概率，确定所述深度学习模型的损失。

23.根据权利要求22所述的装置，其中，所述损失确定单元，用于以所述第一概率和所述第二概率之间的差异最小为目标，确定损失函数；以及将所述第一概率和所述第二概率输入所述损失函数，确定所述深度学习模型的损失。

24.根据权利要求21所述的装置，其中，所述第二候选轨迹确定模块包括：

第二相似度计算单元，用于计算所述样本场景的特征分别与所述参考场景数据库中的每个参考场景的特征之间的相似度；

第二参考场景确定单元，用于根据所述相似度，从所述参考场景数据库中确定所述多个参考场景；以及

第二候选轨迹确定单元，用于将所述多个参考场景各自的未来轨迹确定为所述样本场景下的候选轨迹。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至12中任一项所述的方法。

28.一种自动驾驶车辆，包括如权利要求25所述的电子设备。