CN115848413A

CN115848413A - 一种自动驾驶车辆控制决策确定方法、装置、设备及介质

Info

Publication number: CN115848413A
Application number: CN202211673532.2A
Authority: CN
Inventors: 游越
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-28

Abstract

本发明公开了一种自动驾驶车辆控制决策确定方法、装置、设备及介质，用于解决现有的自动驾驶车辆的控制决策确定方式场景适应性差，导致预测准确率低的技术问题。本发明包括：采集所述自动驾驶车辆的当前环境数据；以所述自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；对所述历史环境数据进行预处理，得到训练数据；采用所述训练数据训练控制决策模型；将所述当前环境数据输入所述控制决策模型，得到控制决策。

Description

一种自动驾驶车辆控制决策确定方法、装置、设备及介质

技术领域

本发明涉及自动驾驶控制技术领域，尤其涉及一种自动驾驶车辆控制决策确定方法、装置、设备及介质。

背景技术

自动驾驶汽车，又称无人驾驶汽车、电脑驾驶汽车、或轮式移动机器人，是一种通过电脑系统实现无人驾驶的智能汽车。无人车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，让电脑可以在没有任何人类主动的操作下，自动安全地操作机动车辆。

目前对于自动驾驶的控制，要么是端到端的控制算法，输入图像信号，直接输出方向盘和油门刹车的控制信号，该方法整个系统都是一个黑盒，虽然在一些仿真场景下可以实现一定的功能，但是由于其应用到工程实际中会有难以解释、难以查错及调试的问题，并不能实现落地和推广，且其对场景的理解能力较差，导致预测准确率较低。

发明内容

本发明提供了一种自动驾驶车辆控制决策确定方法、装置、设备及介质，用于解决现有的自动驾驶车辆的控制决策确定方式场景适应性差，导致预测准确率低的技术问题。

本发明提供了一种自动驾驶车辆控制决策确定方法，应用于自动驾驶车辆；所述方法包括：

采集所述自动驾驶车辆的当前环境数据；

以所述自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；

对所述历史环境数据进行预处理，得到训练数据；

采用所述训练数据训练控制决策模型；

将所述当前环境数据输入所述控制决策模型，得到控制决策。

可选地，所述将所述当前环境数据输入所述控制决策模型，得到控制决策的步骤之后，还包括：

执行所述控制决策对应的驾驶行为。

可选地，所述以所述自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据的步骤，包括：

以所述自动驾驶车辆为中心，获取预设范围、预设时间范围内的历史参与车辆；

获取各历史参与车辆采集到的历史环境数据。

可选地，所述对所述历史环境数据进行预处理，得到训练数据的步骤，包括：

确定所述当前环境数据对应的场景类型；

根据所述场景类型从所述历史环境数据中筛选目标场景数据；

根据所述目标场景数据生成所述历史参与车辆的轨迹数据；

根据所述轨迹数据和所述目标场景数据生成所述历史参与车辆的标签信息；

将所述目标场景数据和所述标签信息作为训练数据。

可选地，所述目标场景数据包括障碍物信息；所述根据所述轨迹数据和所述目标场景数据生成所述历史参与车辆的标签信息的步骤，包括：

根据所述轨迹数据和所述障碍物信息，确定所述历史参与车辆相对于所述障碍物信息的相对行为；

根据所述轨迹数据确定所述历史参与车辆相对于地面的绝对行为；

根据所述相对行为和所述绝对行为生成所述历史参与车辆的标签信息。

本发明还提供了一种自动驾驶车辆控制决策确定装置，应用于自动驾驶车辆；所述装置包括：

当前环境数据采集模块，用于采集所述自动驾驶车辆的当前环境数据；

历史环境数据获取模块，用于以所述自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；

训练数据获取模块，用于对所述历史环境数据进行预处理，得到训练数据；

控制决策模型训练模块，用于采用所述训练数据训练控制决策模型；

控制决策生成模块，用于将所述当前环境数据输入所述控制决策模型，得到控制决策。

可选地，所述装置还包括：

执行模块，用于执行所述控制决策对应的驾驶行为。

可选地，所述历史环境数据获取模块，包括：

历史参与车辆获取子模块，用于以所述自动驾驶车辆为中心，获取预设范围、预设时间范围内的历史参与车辆；

历史环境数据获取子模块，用于获取各历史参与车辆采集到的历史环境数据。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的自动驾驶车辆控制决策确定方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的自动驾驶车辆控制决策确定方法。

从以上技术方案可以看出，本发明具有以下优点：本发明提供了一种自动驾驶车辆控制决策确定方法，并具体公开了：采集自动驾驶车辆的当前环境数据；以自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；对历史环境数据进行预处理，得到训练数据；采用训练数据训练控制决策模型；将当前环境数据输入控制决策模型，得到控制决策。

本发明通过当前自动驾驶车辆所处环境预设范围内的历史参与车辆的历史环境数据作为基础来提取训练数据，并根据训练数据训练得到控制决策模型，使得自动驾驶车辆可以基于历史参与车辆在当前路段的行为数据生成在当前路段当前场景下的控制决策。由于该控制决策模型是基于当前路段的历史参与车辆的历史环境数据得到的，因此其对于自动驾驶车辆当前所处场景有更强的场景理解能力，从而提高了控制决策的预测准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种自动驾驶车辆控制决策确定方法的步骤流程图；

图2为本发明另一实施例提供的一种自动驾驶车辆控制决策确定方法的步骤流程图；

图3为本发明实施例提供的一种自动驾驶车辆控制决策确定装置的结构框图。

具体实施方式

本发明实施例提供了一种自动驾驶车辆控制决策确定方法、装置、设备及介质，用于解决现有的自动驾驶车辆的控制决策确定方式场景适应性差，导致预测准确率低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种自动驾驶车辆控制决策确定方法的步骤流程图。

本发明提供的一种自动驾驶车辆控制决策确定方法，应用于自动驾驶车辆；方法具体可以包括以下步骤：

步骤101，采集自动驾驶车辆的当前环境数据；

当前环境数据，可以是在自动驾驶车辆的感知、定位、规划模块都已经在运行的条件下，数据采集设备自动(或安全员手动控制数据采集设备)对自动驾驶车辆周围(采集范围可以根据实际使用需要进行设定，如半径50米内等，本发明实施例不对采集范围做具体限定)识别到的障碍物的形状、位置、速度、加速度、场景中提前标注的语义地图数据、周围的交通控制设备状态等数据。由于数据量较大，采集得到的信息可以存储在自动驾驶车辆上的硬盘等存储介质中。

步骤102，以自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；

在本发明实施例中，预设范围可以是当前自动驾驶车辆所处的完整路段，也可以是预先设定的半径范围，本发明实施例对此不作具体限定。

自动驾驶车辆在基于自身采集到的当前环境数据做出控制决策之前，可以获取以自动驾驶车辆为中心，预设范围内各历史参与车辆的历史环境数据来生成适用于当前场景的控制决策模型，然后控制决策模型来生成相应的控制决策。

其中，历史参与车辆是指在预设时间段内在上述预设范围内出现，且采集并上传了环境数据的车辆，包括但不限于各种车型的自动驾驶车辆、半自动驾驶车辆和非自动驾驶车辆。

历史参与车辆的历史环境数据是指历史参与车辆在上述预设范围内识别到的障碍物的形状、位置、速度、加速度、场景中提前标注的语义地图数据、周围的交通控制设备状态，以及历史参与车辆自身的车型、随时间变动的位置、速度、加速度等数据。

历史参与车辆的历史环境数据数量繁杂，因此可以将各个历史参与车辆采集到的数据上传到云端集中存储，方便后续进行模型训练。

需要说明的是，由于历史环境数据数量繁多，为了保证数据的有效性以及避免存储空间浪费，需要对完全不符合要求的数据进行筛选和剔除。其中，需要进行剔除的数据可以包括系统状态不稳定时采集的数据，如硬件故障时采集的数据，模块不完整时采集的数据，环境长时间没有变化的数据，天气或者信号等原因导致的不可信数据等。

步骤103，对历史环境数据进行预处理，得到训练数据；

在获取到历史参与车辆的历史环境数据后，可以对其进行预处理，以得到控制决策模型的训练数据。

通过历史环境数据，可以对历史参与车辆的整个场景进行带时间维度的整体三维重建，能知道某个时刻，场景中各个参与者的可观测位置和运动状态，比如其位置、朝向、速度、加速度、角速度等。也可以了解车辆的转向灯、尾灯、倒车灯、路况的摄像头情况、行人的速度及脸部朝向等细节。但在自动驾驶的控制决策中，只需要对车辆的行为(不同的车辆行为对应于不同的控制决策)进行分类，因此，本发明需要对历史环境数据进行进一步地过滤，以得到控制决策模型的训练数据。

在一个示例中，不同的车辆行为可以历史参与车辆相对于其他车辆的相对行为和相对于地面的绝对行为来确定，具体地控制决策可以包括：

向左变道：相对于地图完成一次向左变换车道；

向左绕行：相对前车驶出当前车道，并且完成对前车在纵向方向上的超越；

放弃变道：进行了一次相对幅度的压线行驶，但最终回到当前车道；

保持直行：在一定时间内，没有超过任何本车道的障碍物。

步骤104，采用训练数据训练控制决策模型；

在获取到训练数据后，可以采用训练数据来训练控制决策模型，其中，控制决策模型可以通过常规的深度学习训练得到，本发明不对训练过程做具体限制。

步骤105，将当前环境数据输入控制决策模型，得到控制决策。

在训练得到控制决策模型后，可以将当前环境数据输入到控制决策模型中，得到当前场景下的控制决策。如直行、向左绕行、向左变道等。

请参阅图2，图2为本发明另一实施例提供的一种自动驾驶车辆控制决策确定方法的步骤流程图。具体可以包括以下步骤：

步骤201，采集自动驾驶车辆的当前环境数据；

步骤201与步骤101相同，具体可以参考步骤101的描述，此处不再赘述。

步骤202，以自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；

在本发明实施例中，自动驾驶车辆在基于自身采集到的当前环境数据做出控制决策之前，可以获取以自动驾驶车辆为中心，预设范围内各历史参与车辆的历史环境数据来生成适用于当前场景的控制决策模型，然后控制决策模型来生成相应的控制决策。

在一个示例中，以自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据的步骤，可以包括以下子步骤：

S21，以自动驾驶车辆为中心，获取预设范围、预设时间范围内的历史参与车辆；

S22，获取各历史参与车辆采集到的历史环境数据。

在本发明实施例中，可以从云端获取以自动驾驶车辆为中心，预设范围、预设时间范围内的历史参与车辆。例如，在自动驾驶车辆当前所处时间往前一个月内出现在以自动驾驶车辆为中心的半径100米的范围内的历史参与车辆。

接着从云端获取相应的历史环境数据。

步骤203，对历史环境数据进行预处理，得到训练数据；

在一个示例中，对历史环境数据进行预处理，得到训练数据的步骤，可以包括以下子步骤：

S31，确定当前环境数据对应的场景类型；

S32，根据场景类型从历史环境数据中筛选目标场景数据；

S33，根据目标场景数据生成历史参与车辆的轨迹数据；

S34，根据轨迹数据和目标场景数据生成历史参与车辆的标签信息；

在本发明实施例中，历史参与车辆的历史环境数据包含了很多内容，当并不是所有的历史环境数据都适用于当前自动驾驶车辆所面临的场景，因此，在本发明实施例中，首先需要确定当前环境数据对应的场景类型，以筛选符合当前场景要求的目标场景数据。

目标场景数据记录在历史参与车辆在当前场景下一段连续时间内采集的数据。因此，按照时间线，可以生成历史参与车辆的轨迹数据。而轨迹数据结合相应车辆前方障碍物的行驶情况，可以判断车辆所采取的驾驶行为，根据该驾驶行为，可以得到车辆的标签信息。

具体地，根据轨迹数据和目标场景数据生成历史参与车辆的标签信息的步骤，可以包括以下子步骤：

S341，根据轨迹数据和障碍物信息，确定历史参与车辆相对于障碍物信息的相对行为；

S342，根据轨迹数据确定历史参与车辆相对于地面的绝对行为；

S343，根据相对行为和绝对行为生成历史参与车辆的标签信息。

在具体实现中，可以从目标场景数据中获取历史参与车辆与障碍物信息之间的相对行为，以及历史参与车辆与地面之间的绝对行为来判断历史参与车辆的行驶行为，从而根据行驶行为为历史参与车辆生成该行驶行为的标签信息。

如当历史参与车辆发生相对地图(地面)完成了一次向左变换车道的行驶行为，则其标签信息可以为向左变道。

如当历史参与车辆相对前车驶出了当前车道，并且完成对前车在纵向方向上的超越，则其标签信息可以为向左绕行。

如当历史参与车辆进行了一次相对幅度的压线行驶(如车身朝向相对车道线的夹角大于预设角度，如5度、10度等，可根据实际情况设定)，但是最终又回到了当前车道，则标签信息可以为放弃变道。

如当历史参与车辆在一定时间内，没有超过任何的本车道障碍物，则其标签信息可以为保持直行。

需要说明的是，历史参与车辆的行驶行为对应的标签信息也可以通过管理人员人工确定。

S35，将目标场景数据和标签信息作为训练数据。

在得到目标场景数据和对应的标签信息后，可以将目标场景数据数据和标签数据作为训练数据。

步骤204，采用训练数据训练控制决策模型；

在获取到训练数据后，便可以采用训练数据来训练控制决策模型；其中，控制决策模型可以通过常规的深度学习训练得到，本发明不对训练过程做具体限制。

需要说明的是，根据不同的场景可以训练不同的控制决策模型，本发明对控制决策模型的类型、训练过程不作具体限制，本领域技术人员可以基于常规的深度学习和实际的场景需求灵活设置。

需要说明的是，考虑到历史参与车辆的历史环境数据较大，云端在筛选出相应的历史环境数据后，也可以不发送给自动驾驶车辆。而是在云端完成对控制决策模型的训练，并将训练好的控制决策模型发送至自动驾驶车辆。

步骤205，将当前环境数据输入控制决策模型，得到控制决策；

在生成了控制决策模型后，可以从当前环境数据中提取控制决策模型所需要的输入数据输入到控制决策模型中，以得到相应的控制决策。

步骤206，执行控制决策对应的驾驶行为。

在获取到控制决策后，可以执行控制决策对应的驾驶行为，如向左变道、向左绕行、保持直行等。

请参阅图3，图3为本发明实施例提供的一种自动驾驶车辆控制决策确定装置的结构框图。

本发明实施例提供了一种自动驾驶车辆控制决策确定装置，应用于自动驾驶车辆；装置包括：

当前环境数据采集模块301，用于采集自动驾驶车辆的当前环境数据；

历史环境数据获取模块302，用于以自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据；

训练数据获取模块303，用于对历史环境数据进行预处理，得到训练数据；

控制决策模型训练模块304，用于采用训练数据训练控制决策模型；

控制决策生成模块305，用于将当前环境数据输入控制决策模型，得到控制决策。

在本发明实施例中，装置还包括：

执行模块，用于执行控制决策对应的驾驶行为。

在本发明实施例中，历史环境数据获取模块302，包括：

历史参与车辆获取子模块，用于以自动驾驶车辆为中心，获取预设范围、预设时间范围内的历史参与车辆；

在本发明实施例中，训练数据获取模块303，包括：

场景类型确定子模块，用于确定当前环境数据对应的场景类型；

目标场景数据筛选子模块，用于根据场景类型从历史环境数据中筛选目标场景数据；

轨迹数据生成子模块，用于根据目标场景数据生成历史参与车辆的轨迹数据；

标签信息生成子模块，用于根据轨迹数据和目标场景数据生成历史参与车辆的标签信息；

训练数据生成子模块，用于将目标场景数据和标签信息作为训练数据。

在本发明实施例中，目标场景数据包括障碍物信息；标签信息生成子模块，包括：

相对行为确定单元，用于根据轨迹数据和障碍物信息，确定历史参与车辆相对于障碍物信息的相对行为；

绝对行为确定单元，用于根据轨迹数据确定历史参与车辆相对于地面的绝对行为；

标签信息生成单元，用于根据相对行为和绝对行为生成历史参与车辆的标签信息。

本发明还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明实施例的自动驾驶车辆控制决策确定方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的自动驾驶车辆控制决策确定方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自动驾驶车辆控制决策确定方法，其特征在于，应用于自动驾驶车辆；所述方法包括：

采集所述自动驾驶车辆的当前环境数据；

对所述历史环境数据进行预处理，得到训练数据；

采用所述训练数据训练控制决策模型；

2.根据权利要求1所述的方法，其特征在于，所述将所述当前环境数据输入所述控制决策模型，得到控制决策的步骤之后，还包括：

执行所述控制决策对应的驾驶行为。

3.根据权利要求1所述的方法，其特征在于，所述以所述自动驾驶车辆为中心，获取预设范围内各历史参与车辆的历史环境数据的步骤，包括：

获取各历史参与车辆采集到的历史环境数据。

4.根据权利要求1所述的方法，其特征在于，所述对所述历史环境数据进行预处理，得到训练数据的步骤，包括：

确定所述当前环境数据对应的场景类型；

根据所述目标场景数据生成所述历史参与车辆的轨迹数据；

将所述目标场景数据和所述标签信息作为训练数据。

5.根据权利要求4所述的方法，其特征在于，所述目标场景数据包括障碍物信息；所述根据所述轨迹数据和所述目标场景数据生成所述历史参与车辆的标签信息的步骤，包括：

6.一种自动驾驶车辆控制决策确定装置，其特征在于，应用于自动驾驶车辆；所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

执行模块，用于执行所述控制决策对应的驾驶行为。

8.根据权利要求6所述的装置，其特征在于，所述历史环境数据获取模块，包括：

9.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的自动驾驶车辆控制决策确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任一项所述的自动驾驶车辆控制决策确定方法。