CN115019275A

CN115019275A - 启发项确定及模型训练方法、电子设备及计算机存储介质

Info

Publication number: CN115019275A
Application number: CN202210682303.0A
Authority: CN
Inventors: 胡晋; 郑仁杰; 刘云夫
Original assignee: Alibaba China Co Ltd
Current assignee: Zhejiang Cainiao Chuancheng Network Technology Co ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-06

Abstract

本申请实施例提供了一种启发项确定及模型训练方法、电子设备及计算机存储介质，其中，启发项确定方法包括：获取自动驾驶车辆的环境信息、自动驾驶车辆的行车起始点信息和待评估的候选启发项目标点信息，其中，环境信息至少包括：自动驾驶车辆所在区域的道路边界信息、和自动驾驶车辆所在区域中的障碍物的信息；基于道路边界信息生成道路边界子图、基于障碍物的信息生成障碍物子图，以及，基于行车起始点信息和候选启发项目标点信息生成位置点子图；基于道路边界子图、障碍物子图和位置点子图生成全连接图；将全连接图输入用于进行启发项目标点预测的图神经网络模型中，根据图神经网络模型的输出为自动驾驶车辆确定行驶规划的启发项。

Description

启发项确定及模型训练方法、电子设备及计算机存储介质

技术领域

本申请实施例涉及自动驾驶技术领域，尤其涉及一种启发项确定方法、一种启发项确定模型训练方法、及对应的电子设备及计算机存储介质。

背景技术

在自动驾驶中，针对自动驾驶车辆的行驶规划是必不可少的一个环节。行驶规划的基本任务是在给定感知环境信息以及起点、目标点的情况下，计算一条从起点到终点，并满足安全、平滑、路径最短等多种要求的最合适行驶路径，用于自动驾驶车辆的自主行驶。

为了能够高效地求解行驶规划问题，行驶规划方法中目前主流的方法包括以a*为代表的基于搜索的方法，和以rrt为代表的基于采样的方法。这些方法均需要设置一个合理的启发项函数，以引导行驶规划算法的搜索方向或采样分布。其中，启发项函数也称启发项，其可以量化预估出环境中某个采样节点与最合适规划路径的靠近程度。通过启发项函数，能够引导行驶规划算法的搜索方向或采样点分布，向着能够得到更好规划结果的空间上进行搜索或者采样，以提升规划速度及成功率。

但目前行驶规划算法的启发项函数经常因为自动驾驶车辆的构形或信息准确度等因素，而无法获得准确的结果，进而导致不能做出最合理的行驶规划。

发明内容

有鉴于此，本申请实施例提供一种启发项确定及模型训练方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种启发项确定方法，包括：获取自动驾驶车辆的环境信息、所述自动驾驶车辆的行车起始点信息和待评估的候选启发项目标点信息，其中，所述环境信息至少包括：所述自动驾驶车辆所在区域的道路边界信息、和所述自动驾驶车辆所在区域中的障碍物的信息；基于所述道路边界信息生成道路边界子图、基于所述障碍物的信息生成障碍物子图，以及，基于所述行车起始点信息和所述候选启发项目标点信息生成位置点子图；基于所述道路边界子图、所述障碍物子图和所述位置点子图生成全连接图；将所述全连接图输入用于进行启发项目标点预测的图神经网络模型中，根据所述图神经网络模型的输出为所述自动驾驶车辆确定行驶规划的启发项。

根据本申请实施例的第二方面，提供了一种启发项确定模型训练方法，包括：获取预设的自动驾驶车辆所在区域的道路边界样本信息、所述区域内的障碍物样本信息、所述自动驾驶车辆的行车起始点样本信息、和候选启发项样本位置点信息；基于所述道路边界样本信息生成道路边界样本子图、基于所述障碍物样本信息生成障碍物样本子图，以及，基于所述行车起始点样本信息和所述候选启发项样本位置点信息生成位置点样本子图；基于所述道路边界样本子图、所述障碍物样本子图和所述位置点样本子图生成全连接样本图；以所述全连接样本图为训练样本，对用于进行启发项目标点预测的图神经网络模型进行训练。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

根据本申请实施例提供的方案，采用图神经网络模型来确定行驶规划的启发项。为此，先获得自动驾驶车辆的环境信息、行车起始点信息和候选启发项目标点信息，通过这些信息能够准确地描述自动驾驶车辆当前所处的环境以及可能的目标点，以此为后续启发项的确定提供充分和全面的信息。基于这些信息，进一步生成不同类别的子图，即用于描述道路的道路边界子图、用于描述障碍物的障碍物子图和用于描述各个位置点的位置点子图，通过这些子图可以从不同类别角度更为准确和有序地描述不同类别的信息间关系。再基于这些子图生成全有子图的节点互相连接的全连接图，该全连接图给出了所有可能的节点间的关系信息。基于全连接图，通过图神经网络模型，可对所有节点间的关系进行预测和判定，从而从中找出最合理的启发项目标点。

由此，不管自动驾驶车辆为何种构型都不影响其启发项的确定，并且，通过各种信息及信息间的关系(全连接图)，可以更为准确和全面地描述自动驾驶车辆所处环境，为其确定更为准确和合理的启发项。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例方案的示例性系统的示意图；

图2A为根据本申请实施例一的一种启发项确定模型训练方法的步骤流程图；

图2B为图2A所示实施例中的一种各种数据的向量化表示的示意图；

图3A为根据本申请实施例二的一种启发项确定方法的步骤流程图；

图3B为图3A所示实施例中的一种场景示例的示意图；

图4为根据本申请实施例三的一种启发项确定系统的示意图；

图5为根据本申请实施例四的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例方案的示例性系统。如图1所示，该系统100可以包括服务器102、通信网络104和/或一个或多个自动驾驶车辆106，图1中示例为多个自动驾驶车辆。需要说明的是，本申请实施例的方案可以部署服务器102中，也可以部署于自动驾驶车辆106中。

服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。当本申请实施例的方案部署于服务器102中时，在一些实施例中，服务器102可以接收自动驾驶车辆106发送来的环境信息和行车起始点信息，并为其确定候选启发项目标点信息，基于这些信息生成相应的多个类别的子图，再基于多个类别的子图生成全连接图；再利用服务器102中部署的图神经网络模型来确定出启发项。作为可选的示例，在一些实施例中，服务器102还可以基于确定的启发项，为自动驾驶车辆106进行行驶规划，并把行驶规划结果反馈给自动驾驶车辆106。作为可选的示例，在一些实施例中，多个类别的子图包括用于描述道路边界信息的道路边界子图、用于描述障碍物信息的障碍物子图和用于描述自动驾驶车辆的行车起始点和候选启发项目标点的位置点子图。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。自动驾驶车辆106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到服务器102。通信链路可以是适合于在自动驾驶车辆106和服务器102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

自动驾驶车辆106可以包括具有自动驾驶功能的车辆或其它形式的机器人设备。当本申请实施例的方案部署于服务器102中时，自动驾驶车辆106可以将采集的相应信息如环境信息、行车起始点信息等上传给服务器102，并在接收到服务器102反馈的行驶规划后，基于该行驶规划进行自主控制行驶。当本申请实施例的方案部署于自动驾驶车辆106中时，在一些实施例中，自动驾驶车辆106可以根据采集的环境信息和行车起始点信息，确定候选启发项目标点信息，基于这些信息生成相应的多个类别的子图，再基于多个类别的子图生成全连接图；再利用自动驾驶车辆106中部署的图神经网络模型来确定出启发项。作为可选的示例，在一些实施例中，自动驾驶车辆106还可以基于确定的启发项，进行行驶规划。作为可选的示例，在一些实施例中，多个类别的子图包括用于描述道路边界信息的道路边界子图、用于描述障碍物信息的障碍物子图和用于描述自动驾驶车辆的行车起始点和候选启发项目标点的位置点子图。作为可选的示例，在一些实施例中，自动驾驶车辆106还可以将行驶规划相关的数据上传服务器102进行存储。

尽管将服务器102图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器102执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器102执行的功能。或者，可使用云服务实现服务器102的功能。

基于上述系统，以下通过多个实施例对本申请的方案进行说明。为便于理解，先从启发项确定模型训练的角度对本申请实施例的方案进行说明，再基于该训练完成的启发项确定模型，从模型应用的角度对本申请实施例的方案进行说明。

实施例一

参照图2A，示出了根据本申请实施例一的一种启发项确定模型训练方法的步骤流程图。

本实施例的启发项确定模型训练方法包括以下步骤：

步骤S202：获取预设的自动驾驶车辆所在区域的道路边界样本信息、自动驾驶车辆所在区域内的障碍物样本信息、自动驾驶车辆的行车起始点样本信息、和候选启发项样本位置点信息。

其中，道路边界样本信息可以通过自动驾驶车辆所在区域的高精度地图获得，可用于描述该区域的道路情况；障碍物样本信息可通过自动驾驶车辆所在区域的高精度地图和/或自动驾驶车辆通过其传感器(包括但不限于摄像头、激光雷达等)采集的数据获得，可用于描述自动驾驶车辆所在区域的道路上的障碍物情况；自动驾驶车辆的行车起始点样本信息可以基于自动驾驶车辆的定位信息获得。而对于候选启发项样本位置点信息，在启发项确定模型的训练阶段，可基于高精度地图和障碍物信息，结合自动驾驶车辆的定位信息和传感器采集的数据，构建出相对应的仿真环境，然后，基于该环境中可行驶且与障碍物不碰撞的区域随机生成候选启发项位置点作为样本。该候选启发项样本位置点可包括多个，可以认为是自动驾驶车辆可能行驶的路径上的多个目标点。

基于此，在一种可行方式中，本步骤可以实现为：获取自动驾驶车辆所在区域的地图样本信息和所述区域内的障碍物样本信息；基于地图样本信息中的道路边界样本信息和障碍物样本信息，以及行车起始点样本信息，为自动驾驶车辆生成候选启发项样本位置点信息。由此，既降低了获得样本的成本，还可提升后续的启发项处理在大量不同环境中的准确性和泛化性，并且，综合了障碍物的信息，使得样本信息更为全面和充分，为后续的启发项预测提供了更为准确和丰富的信息。

进一步可选地，在获得了上述各种信息的基础上，还可以基于行车起始点样本信息对应的行车起始点和候选启发项样本位置点信息对应的候选启发项位置点，进行自动驾驶车辆的行驶规划，获得对应的行驶路径；从行驶路径中提取出关键点序列，作为候选启发项样本位置点信息对应的期望启发项位置点。此种方式中，可以使用成熟的行驶规划算法或人工来进行行驶规划，获得行驶路径，从行驶路径中提取出的关键点序列，可作为与候选启发项样本位置点信息对应的期望启发项位置点，该期望启发项位置点在后续可作为图神经网络模型预测出的目标启发项位置点对应的参照，评价模型训练效果。

例如，可以通过离线数据收集完成样本信息的模拟生成和分析存储过程。该过程包括：首先，读取包含高精度地图、自动驾驶车辆的感知(自动驾驶车辆的感知模块(至少包括摄像头和激光雷达采集的数据))信息、自动驾驶车辆的定位信息的一帧实际数据，并以此构建出相应的仿真环境；然后，在该环境中地图内可行驶，且与障碍物不碰撞的区域随机生成一组基于行车起始点的候选目标点(即候选启发项样本位置点)；接着，调用规划器计算从行车起始点到候选目标点的行驶轨迹；随后，提取出行驶轨迹中的关键点序列，关键点的选取方式可以是在得到的行驶轨迹上等间隔采样或者选取轨迹方向切换的转折点序列。上述过程重复进行多次，并将每次规划过程的环境信息、行车起始点信息、候选目标点信息和结果信息存储下来。其中的关键点可作为后续相对应的候选启发项样本位置点对应的期望启发项位置点。

需要说明的是，本申请实施例中，候选启发项样本位置点包括多个，若无特殊说明，本文中“多个”、“多种”等与“多”有关的数量均意指两个及两个以上。

步骤S204：基于道路边界样本信息生成道路边界样本子图、基于障碍物样本信息生成障碍物样本子图，以及，基于行车起始点样本信息和候选启发项样本位置点信息生成位置点样本子图。

对于每一类别的信息，都可以基于这些信息对应的位置及相互间的位置关系，生成相对应的子图。

具体地，可采用下述多个方式中的至少一种方式来生成相对应的子图，包括：

(1)基于道路边界样本信息生成道路边界样本子图可以实现为：根据道路边界样本信息，获取道路边界上的位置点的位置顺序；根据位置顺序构建对应的道路边界向量；根据位置点和道路边界向量，构建生成道路边界样本子图。

(2)基于障碍物样本信息生成障碍物样本子图可以实现为：根据障碍物样本信息，获取障碍物样本的外包络及外包络的包络点的排布顺序；根据包络点的排布顺序为对应的障碍物样本构建障碍物向量；根据障碍物向量，构建生成障碍物样本子图。

其中，若障碍物样本包括多个，则可以根据各个障碍物样本对应的障碍物向量，和各个障碍物样本之间的位置关系，构建生成障碍物样本子图。

(3)基于行车起始点样本信息和候选启发项样本位置点信息生成位置点样本子图可以实现为：按照自动驾驶车辆的构型(机械形状)，为行车起始点样本信息指示的行车起始点和候选启发项样本位置信息指示的候选启发项样本位置点分别生成对应的外包络；根据生成的各个外包络中包络点的排布顺序，生成对应的位置点外包络向量；根据位置点外包络向量，构建生成对应的位置点样本子图。

本申请实施例中，将前述获得的信息，包括道路边界样本信息、障碍物样本信息，以及行车起始点样本信息、候选启发项样本位置点信息(也简称为候选目标点信息)，分别使用向量的形式进行描述，如图2B中所示。

其中，道路边界按照位置点的位置数据依次选出前后的位置点构建向量；障碍物的外包络按照包络点的排布顺序依次构建向量；行车起始点和候选目标点(图2B中仅示出一个示例，其它候选目标点可参照该示例实现)按照自动驾驶车辆的机械形状，构建对应的外包络的向量表示。其中，道路边界信息可以对应为道路边界类信息，其向量可对应为道路边界类向量；障碍物信息可以对应为障碍物类信息，其向量可对应为障碍物类向量；行车起始点和候选目标点可以对应为位置点类信息，其向量可对应为位置点类向量。

然后，将每一类向量中的每个位置点作为节点，对每一类向量的元素构建一个子图，子图间各个节点两两相连。即，道路边界样本子图、障碍物样本子图和位置点样本子图。

步骤S206：基于道路边界样本子图、障碍物样本子图和位置点样本子图生成全连接样本图。

在获得了道路边界样本子图、障碍物样本子图和位置点样本子图后，即可基于这些子图生成全连接样本图。即，将各个子图作为一个节点两两连接，构成一张全连接的完整图结构，即全连接样本图。

在一种可行方式中，可以将道路边界样本子图中的所有节点、障碍物样本子图中的所有节点和位置点样本子图中的所有节点互相连接，生成全连接样本图。即，将一个子图中的所有节点与其它子图中的所有节点相互连接，最终生成全连接样本图。由此生成的全连接样本图中包含了所有节点间的可能关系和信息，为后续训练图神经网络模型提供了更好的基础。

步骤S208：以全连接样本图为训练样本，对用于进行启发项目标点预测的图神经网络模型进行训练。

全连接样本图中，至少所有子图内部边的权重，和，子图与子图之间的边的权重均需要作为图神经网络模型待学习的参数。

此外，在一种可行方式中，图神经网络模型在向量输出层之后，再接入了一个多层感知机MLP层，以高效快速地输出预测结果。基于此，在一种可行方式中，本步骤可以实现为：将全连接样本图输入图神经网络模型，获得启发项样本位置点对应的向量；将启发项样本位置点对应的向量输入多层感知机层，获得目标启发项位置点的信息；根据目标启发项位置点与期望位置点的差异，对图神经网络模型进行训练。

其中，可选地，根据目标启发项位置点与期望位置点的差异，对图神经网络模型进行训练可以包括：根据目标启发项位置点与期望启发项位置点的差异，以及预设的回归损失函数，对图神经网络模型进行训练。采用回归损失函数的方式更能适用于与自动驾驶任务相关的模型的训练，使得训练出的模型更贴合实际使用环境的需要。本申请实施例中，对回归损失函数的具体实现方式不作限制，平方损失或绝对值或huber损失的方式均可适用。

示例性地，在构建了全连接图后，可以将候选的多个目标点位置(即候选启发项样本位置点)所对应的embedding输出层后，再接入一个多层感知机(MLP)层，将多层感知机层输出结果的组合为目标位置点(即目标启发项位置点)，并计算其与期望位置点的距离差，根据该距离差使用反向传播算法对图神经网络模型的参数进行训练。

需要说明的是，本申请实施例中，图神经网络模型可以实现为任意适当的形式，包括但不限于：GNN、GCN等，只需训练完成的模型可实现启发项目标点预测即可，本申请实施例不对图神经网络模型的具体实现形式进行限定。

可见，通过本实施例，基于多类别的样本信息构建相对应的多个子图，进而基于多个子图构建全连接图，以该全连接图为训练样本对图神经网络模型进行训练。从而使得训练完成的图神经网络模型能够综合考虑各方面的信息，以对可能的启发项位置点进行更为精准的预测和判定，从中找出最合理的启发项目标点。由此，不管自动驾驶车辆为何种构型都不影响其启发项的确定，并且，通过各种信息及信息间的关系(全连接图)，可以更为准确和全面地描述自动驾驶车辆所处环境，为其确定更为准确和合理的启发项。

实施例二

参照图3A，示出了根据本申请实施例二的一种启发项确定方法的步骤流程图。

本实施例以实施例一训练获得的图神经网络模型为基础，从其应用角度对本申请实施例提供的启发项确定方法进行说明。

该启发项确定方法包括以下步骤：

步骤S302：获取自动驾驶车辆的环境信息、自动驾驶车辆的行车起始点信息和待评估的候选启发项目标点信息。

其中，自动驾驶车辆的环境信息至少包括：自动驾驶车辆所在区域的道路边界信息、和自动驾驶车辆所在区域中的障碍物的信息。道路边界信息可基于自动驾驶车辆所在区域对应的高精度地图获得；障碍物的信息可基于自动驾驶车辆所在区域对应的高精度地图和/或自动驾驶车辆中的传感器采集的数据分析获得；行车起始点信息可基于自动驾驶车辆的定位或人工输入获得；候选启发项目标点信息可基于上述高精度地图、道路边界信息、障碍物信息和行车起始点信息，随机生成或按预设规则生成。其中，候选启发项目标点可以包括多个，预设规则可由本领域技术人员根据实际需求适当设置，本申请实施例对此不作限制。

步骤S304：基于道路边界信息生成道路边界子图、基于障碍物的信息生成障碍物子图，以及，基于行车起始点信息和候选启发项目标点信息生成位置点子图。

例如，可以根据道路边界信息，获取道路边界上的位置点的位置顺序；根据位置顺序构建对应的道路边界向量；根据位置点和道路边界向量，构建生成道路边界子图。

再例如，可以根据障碍物的信息，获取障碍物的外包络及外包络的包络点的排布顺序；根据包络点的排布顺序为对应的障碍物构建障碍物向量；根据障碍物向量，构建生成障碍物子图。

而如果障碍物包括多个，则可以根据各个障碍物对应的障碍物向量，和各个障碍物之间的位置关系，构建生成障碍物子图。

又例如，可以按照自动驾驶车辆的构型，为行车起始点信息指示的行车起始点和候选启发项目标点信息指示的候选启发项目标点分别生成对应的外包络；根据生成的各个外包络中包络点的排布顺序，生成对应的位置点外包络向量；根据位置点外包络向量，构建生成对应的位置点子图。

上述生成各个子图的具体过程和实现可参照实施例一中生成相对应的样本子图的描述，在此不再赘述。

步骤S306：基于道路边界子图、障碍物子图和位置点子图生成全连接图。

即，以各个子图为节点，进行子图间的互连。具体地，可以将道路边界子图中的所有节点、障碍物子图中的所有节点和位置点子图中的所有节点互相连接，生成全连接图。

步骤S308：将全连接图输入用于进行启发项目标点预测的图神经网络模型中，根据图神经网络模型的输出为自动驾驶车辆确定行驶规划的启发项。

如前所述，训练完成的图神经网络模型具有为自动驾驶车辆确定启发项的功能，因此，将全连接图输入图神经网络，即可获得相应的结果，如，具体的目标启发项的位置点信息，或者，多个候选启发项目标点对应的概率信息，等。

以下，以一个具体场景示例对上述过程进行示例性说明，如图3B所示。

图3B中，假设自动驾驶车辆处于区域X(区域的具体大小和边界由本领域技术人员根据实际需求设定，如可以为某一个地理区划范围，或者为以自动驾驶车辆为中心的某个半径值范围内，等等)，基于该区域X的高精度地图，获得区域X的道路边界信息和障碍物信息，基于自动驾驶车辆的当前定位确定其行车起始点信息。进而，基于上述信息随机生成N个候选启发项目标点(N≥2)，获得该N个候选启发项目标点信息。图3B中，N简单示意为7。

接着，基于区域X的道路边界信息生成对应的道路边界子图；基于区域X内的障碍物信息生成对应的障碍物子图；基于自动驾驶车辆的行车起始点信息和N个候选启发项目标点信息生成对应的位置点子图。

再对这些子图彼此间的节点进行全连接，生成全连接图。将该全连接图输入预先训练完成的图神经网络模型中，获得模型输出，例如，输出为N个候选启发项目标点中的3个位置点的信息，图中示例为候选目标点2、3和5。则，可基于此确定启发项，其中，这3个位置点即为目标启发项位置点。

通过本实施例，采用图神经网络模型来确定行驶规划的启发项。为此，先获得自动驾驶车辆的环境信息、行车起始点信息和候选启发项目标点信息，通过这些信息能够准确地描述自动驾驶车辆当前所处的环境以及可能的目标点，以此为后续启发项的确定提供充分和全面的信息。基于这些信息，进一步生成不同类别的子图，即用于描述道路的道路边界子图、用于描述障碍物的障碍物子图和用于描述各个位置点的位置点子图，通过这些子图可以从不同类别角度更为准确和有序地描述不同类别的信息间关系。再基于这些子图生成全有子图的节点互相连接的全连接图，该全连接图给出了所有可能的节点间的关系信息。基于全连接图，通过图神经网络模型，可对所有节点间的关系进行预测和判定，从而从中找出最合理的启发项目标点。

实施例三

参照图4，示出了根据本申请实施例三的一种启发项确定系统的示意图。图4所示的系统中，从离线数据收集、网络训练和线上部署三个角度，对本申请实施例提供的启发项确定方案进行全角度说明。

如图4所示，在离线数据收集阶段，完成相关信息的模拟生成和分析存储。包括：首先，读取包含预设的自动驾驶车辆所在区域的高精度地图、自动驾驶车辆的感知信息(摄像头和激光雷达采集的信息)、自动驾驶车辆的定位信息等的一帧实际环境信息，并以此构建出相应的仿真环境；然后，在该环境中地图内可行驶，且与障碍物不碰撞的区域随机生成一组基于行车起始点的候选目标点(即候选启发项位置点)，然后调用规划器计算从行车起始点到候选目标点的行驶轨迹；随后，提取出行驶轨迹中的关键点序列，关键点的选取方式可以是在行驶轨迹上等间隔采样或者选取行驶轨迹方向切换的转折点序列。该过程重复进行多次，并将每次规划过程的环境信息(包括道路边界信息、障碍物外包络信息)、行车起始点、候选目标点和结果信息存储下来。

在网络训练阶段，使用图神经网络模型来进行训练学习。包括：首先，将前述环境信息(包括道路边界信息、障碍物外包络信息)，以及行车起始点信息、候选目标点信息分别使用向量的形式进行描述。在使用向量形式进行描述时，道路边界信息按照道路边界上的位置点的位置数据依次选出前后的位置点构建向量，障碍物外包络按照包络点的排布顺序依次构建向量，行车起始点和候选目标点也按照自动驾驶车辆的机械形状构建相应的外包络的向量表示，如图2B所示。然后，将每一个类别信息中的每个位置点作为节点，对每一类信息基于它们的向量表示构建为一个子图，每个子图中各个节点两两相连。随后，将各个子图作为一个节点两两连接，构成一张完整的图结构(即全连接图)，其中子图内部边的权重以及子图与子图的边权重均为图神经网络模型待学习的参数。

在构建了全连接图这样一个图结构后，将其输入图神经网络模型，将图神经网络模型获得的候选目标点位置所对应的embedding输出层后再接入一个多层感知机(MLP)层，将多层感知机层输出结果的组合为目标位置点，并计算与期望位置点的距离差作为图神经网络模型的回报函数，使用反向传播算法对图神经网络模型的参数进行训练。

到了线上部署阶段，则可以使用车端部署或者云端部署的形式，首先通过高精度地图、自动驾驶车辆的定位信息和实时的感知数据得到当前的环境信息；然后将该环境信息按照图神经网络模型训练时使用的数据的向量化方法构建出图神经网络模型的输入信息，并生成待评估的候选目标点(即候选启发项目标点)；然后，可以直接调用车端中部署的图神经网络模型，或者将上述输入信息上传至云端调用云端部署的图神经网络模型，采用前向计算的方式得到当前候选目标点的启发项计算结果。

由上可见，本实施例的启发项确定系统采用离线大量仿真模拟，并通过图神经网络模型对模拟结果进行训练，最终在线调用训练完成的图神经网络模型输出启发点位置序列。其中，离线数据收集过程中，首先在仿真系统中导入实际的环境信息等数据，然后在仿真系统中的所有地图内可行驶范围随机设置目标点，并调用完整的规划方法计算规划结果，并且把每次规划结果的行驶轨迹记录下来。然后，提取出行驶轨迹中的关键点序列，关键点的选取方式可以是在行驶轨迹上等间隔采样或者选取轨迹方向切换的转折点序列。然后，把包含道路边界、障碍物、自车位置(行车起始点)、目标点等信息作为输入数据，关键点序列作为输出数据，对输入数据使用向量形式建模，并使用图神经网络模型方法来训练输入和输出之间的映射关系。图神经网络模型训练好以后，可以把新的环境信息和起始点、目标点作为输入，通过图神经网络模型的前向计算即可快速得到一条位置点序列，以此位置点序列作为规划器的启发项，提升行驶规划的效率和成功率。

其中，通过离线训练图神经网络模型，并在线使用该图神经网络模型进行启发项预测的方法，可以提升启发项计算在大量不同环境中的准确性和泛化性，避免了基于规则设计的启发项无法准确适用于某些构型车辆及无法考虑环境障碍物的问题。此外，和其它基于机器学习模型的方式对比，将图神经网络模型用于启发项计算，利用图神经网络模型中向量化的信息描述方式对道路边界、障碍物信息进行无分辨率损失的高精度建模，可提升计算结果在距离比较敏感(如过窄路、调头等)的环境中的准确性和稳定性。

实施例四

参照图5，示出了根据本申请实施例四的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行前述多个方法实施例中任一实施例所描述的方法对应的操作。

程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种启发项确定方法，包括：

获取自动驾驶车辆的环境信息、所述自动驾驶车辆的行车起始点信息和待评估的候选启发项目标点信息，其中，所述环境信息至少包括：所述自动驾驶车辆所在区域的道路边界信息、和所述自动驾驶车辆所在区域中的障碍物的信息；

基于所述道路边界信息生成道路边界子图、基于所述障碍物的信息生成障碍物子图，以及，基于所述行车起始点信息和所述候选启发项目标点信息生成位置点子图；

基于所述道路边界子图、所述障碍物子图和所述位置点子图生成全连接图；

将所述全连接图输入用于进行启发项目标点预测的图神经网络模型中，根据所述图神经网络模型的输出为所述自动驾驶车辆确定行驶规划的启发项。

2.根据权利要求1所述的方法，其中，所述基于所述道路边界子图、所述障碍物子图和所述位置点子图生成全连接图，包括：

将所述道路边界子图中的所有节点、所述障碍物子图中的所有节点和所述位置点子图中的所有节点互相连接，生成全连接图。

3.根据权利要求1或2所述的方法，其中，所述基于所述道路边界信息生成道路边界子图，包括：

根据所述道路边界信息，获取道路边界上的位置点的位置顺序；

根据所述位置顺序构建对应的道路边界向量；

根据所述位置点和所述道路边界向量，构建生成所述道路边界子图。

4.根据权利要求1或2所述的方法，其中，所述基于所述障碍物的信息生成障碍物子图，包括：

根据所述障碍物的信息，获取所述障碍物的外包络及所述外包络的包络点的排布顺序；

根据所述包络点的排布顺序为对应的障碍物构建障碍物向量；

根据所述障碍物向量，构建生成所述障碍物子图。

5.根据权利要求4所述的方法，其中，若所述障碍物包括多个，则所述根据所述障碍物向量，构建生成所述障碍物子图，包括：

根据各个障碍物对应的障碍物向量，和各个障碍物之间的位置关系，构建生成所述障碍物子图。

6.根据权利要求1或2所述的方法，其中，所述基于所述行车起始点信息和所述候选启发项目标点信息生成位置点子图，包括：

按照所述自动驾驶车辆的构型，为所述行车起始点信息指示的行车起始点和所述候选启发项目标点信息指示的候选启发项目标点分别生成对应的外包络；

根据生成的各个外包络中包络点的排布顺序，生成对应的位置点外包络向量；

根据所述位置点外包络向量，构建生成对应的位置点子图。

7.一种启发项确定模型训练方法，包括：

获取预设的自动驾驶车辆所在区域的道路边界样本信息、所述区域内的障碍物样本信息、所述自动驾驶车辆的行车起始点样本信息、和候选启发项样本位置点信息；

基于所述道路边界样本信息生成道路边界样本子图、基于所述障碍物样本信息生成障碍物样本子图，以及，基于所述行车起始点样本信息和所述候选启发项样本位置点信息生成位置点样本子图；

基于所述道路边界样本子图、所述障碍物样本子图和所述位置点样本子图生成全连接样本图；

以所述全连接样本图为训练样本，对用于进行启发项目标点预测的图神经网络模型进行训练。

8.根据权利要求7所述的方法，其中，所述基于所述道路边界样本子图、所述障碍物样本子图和所述位置点样本子图生成全连接样本图，包括：

将所述道路边界样本子图中的所有节点、所述障碍物样本子图中的所有节点和所述位置点样本子图中的所有节点互相连接，生成全连接样本图。

9.根据权利要求7或8所述的方法，其中，

所述基于所述道路边界样本信息生成道路边界样本子图，包括：根据所述道路边界样本信息，获取道路边界上的位置点的位置顺序；根据所述位置顺序构建对应的道路边界向量；根据所述位置点和所述道路边界向量，构建生成所述道路边界样本子图；

和/或，

所述基于所述障碍物样本信息生成障碍物样本子图，包括：根据所述障碍物样本信息，获取所述障碍物样本的外包络及所述外包络的包络点的排布顺序；根据所述包络点的排布顺序为对应的障碍物样本构建障碍物向量；根据所述障碍物向量，构建生成所述障碍物样本子图；

和/或，

所述基于所述行车起始点样本信息和所述候选启发项样本位置点信息生成位置点样本子图，包括：按照所述自动驾驶车辆的构型，为所述行车起始点样本信息指示的行车起始点和所述候选启发项样本位置信息指示的候选启发项样本位置点分别生成对应的外包络；根据生成的各个外包络中包络点的排布顺序，生成对应的位置点外包络向量；根据所述位置点外包络向量，构建生成对应的位置点样本子图。

10.根据权利要求7或8所述的方法，其中，所述以所述全连接样本图为训练样本，对用于进行启发项目标点预测的图神经网络模型进行训练，包括：

将所述全连接样本图输入所述图神经网络模型，获得所述启发项样本位置点对应的向量；

将所述启发项样本位置点对应的向量输入多层感知机层，获得目标启发项位置点的信息；

根据所述目标启发项位置点与期望位置点的差异，对所述图神经网络模型进行训练。

11.根据权利要求10所述的方法，其中，所述根据所述目标启发项位置点与期望位置点的差异，对所述图神经网络模型进行训练，包括：

根据所述目标启发项位置点与期望启发项位置点的差异，以及预设的回归损失函数，对所述图神经网络模型进行训练。

12.根据权利要求7或8所述的方法，其中，所述获取预设的自动驾驶车辆所在区域的道路边界样本信息、所述区域内的障碍物样本信息、所述自动驾驶车辆的行车起始点样本信息、和候选启发项样本位置点信息，包括：

获取所述自动驾驶车辆所在区域的地图样本信息和所述区域内的障碍物样本信息；

基于所述地图样本信息中的道路边界样本信息和所述障碍物样本信息，以及所述行车起始点样本信息，为所述自动驾驶车辆生成候选启发项样本位置点信息。

13.根据权利要求12所述的方法，其中，所述方法还包括：

基于所述行车起始点样本信息对应的行车起始点和所述候选启发项样本位置点信息对应的候选启发项位置点，进行所述自动驾驶车辆的行驶规划，获得对应的行驶路径；

从所述行驶路径中提取出关键点序列，作为所述候选启发项样本位置点信息对应的期望启发项位置点。

14.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-13中任一项所述的方法对应的操作。