CN112859849A

CN112859849A - 自动行驶设备的路口运动规划方法、装置、电子设备

Info

Publication number: CN112859849A
Application number: CN202110020963.8A
Authority: CN
Inventors: 白钰; 金昕泽; 贾庆山; 任冬淳
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-28

Abstract

本申请公开了一种自动行驶设备的路口运动规划方法，属于自动控制技术领域，有助于节省运动规划时的计算资源消耗。本申请实施例公开的路口运动规划方法包括：获取包括自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据的实时的联合状态；确定联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；响应于联合状态匹配的预定义事件为所述可控事件，通过预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；基于得到的动作向量对自动行驶设备进行运动规划，能够节省对进行路口运动规划时的计算资源消耗，提升自动行驶设备进行路口运动规划的效率。

Description

自动行驶设备的路口运动规划方法、装置、电子设备

技术领域

本申请实施例涉及自动控制技术领域，特别是涉及一种自动行驶设备的路口运动规划方法、装置、电子设备及计算机可读存储介质。

背景技术

运动规划模块是自动行驶系统中的核心技术模块。运动规划模块根据感知定位模块获取到的信息，对自动行驶设备的运动方向、速度等进行控制，规划出一条满足安全、舒适，以及满足车辆动力学约束的高效运动路径。现有技术中的运动规划模块的一种实现方式是：利用深度学习方法来得到采集的环境图像的高层语义信息，并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。现有技术中的运动规划方案在模型训练过程中，学习过程缓慢，模型不易收敛。并且，在运动规划过程中对采集的环境图像进行处理时，需要从图像中提取大量特征，对于自动行驶设备决策路运动状态的场景，其中包含了很多冗余状态，浪费了自动行驶设备的计算资源。

综上，需要提供一种高效的自动行驶设备的路口运动规划方法。

发明内容

本申请实施例提供一种自动行驶设备的路口运动规划方法，有助于节省对进行路口运动规划时的计算资源消耗。

第一方面，本申请实施例提供了一种自动行驶设备的路口运动规划方法，包括：

获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据；

确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；

响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；

基于所述动作向量对所述自动行驶设备进行运动规划。

第二方面，本申请实施例提供了一种自动行驶设备的路口运动规划装置，包括：

实时联合状态获取单元，用于获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据；

事件确定单元，用于确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；

可控事件决策单元，用于响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；

第一运动规划单元，用于基于所述动作向量对所述自动行驶设备进行运动规划。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的自动行驶设备的路口运动规划方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的自动行驶设备的路口运动规划方法的步骤。

本申请实施例公开的自动行驶设备的路口运动规划方法，通过获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据；确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；基于所述动作向量对所述自动行驶设备进行运动规划，有助于节省对进行路口运动规划时的计算资源消耗，提升自动行驶设备进行路口运动规划的效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例一的自动行驶设备的路口运动规划方法流程图；

图2是本申请实施例一中的路口场景示意图；

图3是本申请实施例一的自动行驶设备的路口运动规划方法另一流程图；

图4是本申请实施例二的自动行驶设备的路口运动规划装置结构示意图之一；

图5是本申请实施例二的自动行驶设备的路口运动规划装置结构示意图之二；

图6示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图7示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

在运动规划任务中，需要同时考虑自动行驶设备以及周边障碍物的位置、速度、转向等运动状态信息。直接利用状态向量来描述自动行驶设备的运动状态维度较大，且随着场景复杂化，搜索解空间时会面临维数灾的问题。本申请实施例公开的路口运动规划旨在改进现有基于强化学习的运动规划方案，融合事件驱动优化方法至路口场景的决策问题。利用问题结构做状态聚集，以缓解搜索空间的维数灾，并减少不必要维度信息对学习结果的影响，从而提升路径规划的准确性。

基于上述思路，在本申请的一些实施例中，需要采集实时状态，并转化为时间事件，之后，根据事件确定决策，即确定执行的动作。

本申请实施例公开的一种自动行驶设备的路口运动规划方法，如图1所示，所述方法包括：步骤110至步骤140。

步骤110，获取实时的联合状态，其中，所述联合状态包括：自动行驶设备的状态和/或所述自动行驶设备周边障碍物的状态。

本申请实施例中所述的状态包括位置信息和速度信息，其中，所述位置信息包括位置坐标，所述速度信息包括速度的大小和方向信息。本申请的一些实施例中，所述速度信息可以通过速度向量表示。下文中，所述联合状态可以通过s＝(s¹,s²,…)表示，其中，s¹,s²,…表示自动行驶设备和/或障碍物的状态，状态sⁱ可以表示为

其中，xⁱ,yⁱ表示位置信息(如自动行驶设备在路口图像中的坐标)，

表示对应坐标方向的速度。

本申请的一些实施例中，所述自动行驶设备例如可以包括：无人车、机器人等设置有信息采集装置和数据处理装置的设备。可以通过自动行驶设备的图像采集装置、定位装置、距离探测仪、加速度传感器等装置实时采集所述自动行驶设备所处路口的交通状态信息。其中，所述交通状态信息可以为图片、数据流等形式。之后，通过预设的数据处理模块对采集的交通状态信息进行数据处理，得到包括所述自动行驶设备的状态，以及，所述自动行驶设备附近的障碍物的状态。之后，根据自动行驶设备的状态和所述自动行驶设备周边障碍物的状态生成当前时刻的联合状态。

本申请对获取自动行驶设备的状态，以及获取所述自动行驶设备周边障碍物的状态的具体技术手段不做限定。

本申请的一些实施例中，当障碍物或者自动行驶设备为静止状态时，状态中的速度信息可以表示为0。当所述自动行驶设备周边没有障碍物时，生成的所述联合状态中可以只包括所述自动行驶设备的状态。

步骤120，确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件。

许多系统运行过程中都具有事件驱动的特性，即系统状态的动态演化由一系列离散事件触发，这类系统称为离散事件动态系统。基于事件优化模型的主要特征是基于事件采取决策，在数学角度，“事件”通常对应一组相同特征的状态转移的集合。在自动行驶设备的运动规划系统中，同样具有事件驱动特征。例如，当自动行驶设备进入即将碰撞障碍物的状态(如下一个进入的区域为邻近障碍物的区域)时，是经过一系列的位置和速度的检测和调整的。

在基于事件的优化模型中，事件通常分为三类：可观事件、可控事件及自然转移事件。这三类事件对应状态转移空间的三种不同划分，同时对应系统动态演化的不同逻辑阶段。具体而言，对于离散事件动态系统，首先观测到可观事件，可观事件触发决策(可控事件发生)，最后由自然转移事件(系统的随机性)共同决定系统下一时刻的状态。通常而言，系统在观测到可观事件后进行下一步的决策。

具体到自动行驶设备的运动规划系统中，按照事件驱动的方式对基于当前状态执行的下一个动作进行决策问题建模，结合问题结构与社会准则预定义可控事件、可观事件和自然转移事件。下面分别举例说明各种事件在自动行驶设备的运动规划的定义。

第一种，可控事件。

在自动行驶设备的运动规划系统中，可控事件指示需要采取行动的事件，例如，需要执行动作以改变下一时刻所述自动行驶设备的状态的事件。例如，当控制车辆到达与邻近障碍指定距离的区域范围时，重新计算自动行驶设备的加速度大小和方向(即重新计算动作输出的全部维度)，来调整自动行驶设备的运动状态。

本申请的一些实施例中，所述确定所述联合状态匹配的预定义事件，包括：根据所述联合状态中自动行驶设备的位置和速度，以及障碍物的位置和速度，确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围；响应于所述自动行驶设备到达邻近所述障碍物指定距离的区域范围，确定所述联合状态匹配所述可控事件。以图2所示的路口场景为例，提取的实时的联合状态中包括障碍物210的状态S2和障碍物220的状态S3(例如自动行驶设备所处路口有两个障碍物)和自动行驶设备230的状态S1为例，首先，确定自动行驶设备230是否到达障碍物210指定距离的区域范围(如距离50米内)，以及，确定自动行驶设备230是否到达障碍物220指定距离的区域范围(如距离50米内)，如果自动行驶设备230到达其中任意一障碍物(如障碍物210)指定距离的区域范围，则获取的所述联合状态匹配可控事件。反之，如果自动行驶设备230没有到达其中任意一障碍物指定距离的区域范围，则获取的所述联合状态不匹配可控事件。

本申请的一些实施例中，可以根据自动行驶设备230的状态S1中的位置和速度和障碍物210的状态S2中的位置和速度，计算自动行驶设备是否到达障碍物1指定距离的区域范围。根据两个物体的位置和速度确定二者是否在指定距离的区域范围的具体方法可以采用现有技术中的计算距离的方法，本申请实施例中不再赘述。本申请实施例对根据两个物体的位置和速度确定二者是否在指定距离的区域范围的具体方法不做限定。

第二种，可观事件。

本申请的一些实施例中，所述预定义事件还包括：指示需要继续观察的可观事件，所述可观事件进一步还可以分为:边界类型的可观事件、碰撞类型的可观事件等，事件的定义根据自动行驶设备具体控制需求确定。其中，边界类型的可观事件例如可以为当自动行驶设备在原始策略下无法保持在道路范围内行驶的事件，碰撞类型的可观事件例如可以为当自动行驶设备到达与障碍物潜在冲突点前的最后一个区域的事件。所述可观事件还可以包括其他类型的事件，本申请实施例中不再一一理据。

相应的，本申请的一些实施例中，所述根据所述联合状态中自动行驶设备的位置和速度，以及障碍物的位置和速度，确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围之后，还包括：响应于所述自动行驶设备未到达邻近所述障碍物指定距离的区域范围，且所述自动行驶设备在原始策略下无法保持在道路范围内时，确定所述联合状态数据匹配边界类型的所述可观事件；响应于所述自动行驶设备未到达邻近所述障碍物指定距离的区域范围，且所述自动行驶设备到达与障碍物潜在冲突点前的最后一个区域时，确定所述联合状态数据匹配碰撞类型的所述可观事件。

仍以图2所示的路口场景为例，以自动行驶设备为220举例，可以进一步根据所述联合状态中自动行驶设备220的位置和速度以及所述自动行驶设备所述路口的到路边界范围，进一步判断所述自动行驶设备在原始策略下是否能够保持在道路范围内(如图2中虚线框所示道路范围)。如果所述自动行驶设备在原始策略下能够保持在道路范围内，则所述联合状态不匹配预定义的边界类型的可观条件；如果所述自动行驶设备在原始策略下不能够保持在道路范围内，则所述联合状态匹配预定义的边界类型的可观条件。

对于碰撞类型的可观条件，可以根据所述联合状态中自动行驶设备的位置和速度以及所述障碍物的位置和速度进一步判断所述自动行驶设备是否到达与障碍物潜在冲突点前的最后一个区域；如果根据所述联合状态判断自动行驶设备将到达与障碍物潜在冲突点前的最后一个区域，则确定所述自动行驶设备匹配碰撞类型的可观事件；如果根据所述联合状态判断自动行驶设备将未到达与障碍物潜在冲突点前的最后一个区域，则确定所述自动行驶设备不匹配碰撞类型的可观事件。

第三种，自然转移事件。

本申请的一些实施例中，所述预定义事件还包括：指示根据前一个状态调整下一个状态的可观事件，即自然转移事件。例如，自动行驶设备在路口中间正常速度行驶，不在道路边界和障碍物的指定范围区域内。

本申请实施例中所描述的可控事件、可观事件以及自然转移事件是根据自动行驶设备行驶的不同阶段的状态和控制动作定义的，以上所述的可控事件、可观事件以及自然转移事件仅仅是为了便于读者理解本方案所例举的具体案例，具体实施时，本领域技术人员还可以定义其他种类的可控事件、可观事件以及自然转移事件，本申请对此不做具体限定。

状态本身衡量的是静态信息，而如何从一个状态变化到另一个状态，即动态的状态转移过程更是运动规划宏的重点问题。例如，自动行驶设备从在位置A时行驶速度为V_A的状态转移到位置B时行驶速度为V_B的状态需要执行的决策，即动作。而对于一些状态，例如，匹配自然转移事件或可观事件的状态，无需消耗自动行驶设备的计算资源来调整现有决策。通过确定获取的实时联合状态匹配的预定义事件，即可根据实时联合状态匹配的预定义事件确定后续做出决策的方式。

本申请的一些实施例中，可以根据当前场景定义考虑的状态范围(例如：以路口为中心辐射50米)。

步骤130，响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量。

如前所述，事件触发状态改变。本申请实施例中，可观事件和自然转移事件触发的状态改变为有限集，因此可以预先设定可观事件和自然转移事件对应的策略。而对于可控事件，其触发的状态改变为无限集，需要通过预先训练的网络模型确定自动行驶设备的动作，以影响自动行驶设备的状态。例如，当所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络确定所述自动行驶设备的动作向量。

本申请的一些实施例中，如图3所示，所述通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理之前，所述方法还包括:步骤100至步骤102。通过执行步骤100至步骤102训练强化学习网络。

为便于读者理解本申请实施例公开的路口运动规划方法的设计思路，下面对基于事件的优化方法进行简单介绍。

在基于事件的优化模型中，事件通常分为三类：可观事件、可控事件及自然转移事件。因此，首先需要定义运动规划场景中的可观事件、可控事件及自然转移事件。这三类事件对应状态转移空间的三种不同划分，同时对应运动状态动态演化的不同逻辑阶段。具体而言，对于离散事件动态系统，首先观测到可观事件，可观事件触发决策(可控事件发生)，最后由自然转移事件(系统的随机性)共同决定系统下一时刻的状态。通常而言，系统在观测到可观事件后进行下一步的决策。

在训练基于事件的优化模型时，定义事件e的输入状态集合为I(e)＝{i∈S|<i,j>∈e,j∈S}，输出状态集合为O(e)＝{j∈S|<i,j>∈e,i∈S}，状态j的输入集合为I_j(e)＝{i∈S|<i,j>∈e}，状态i的输出集合为O_i(e)＝{j∈S|<i,j>∈e}。定义系统的事件空间为

其中e_i表示一个事件集合，

表示不采取任何行动的事件集合，V表示事件总数。

在基于事件的优化模型中，只在特定事件发生时采取行动，当系统决策只依赖于当前发生的事件时，基于事件的策略可看作是事件空间到动作空间的映射，即d∶E→A，其中，A表示动作空间，D表示基于e事件的策略空间，d∈D。在基于事件的优化模型中，系统的状态转移概率可表示为p^a(j|i,e)，其中i,j∈S，<i,j>∈e，e∈E，a∈A。定义决策d下单阶段的奖励函数为f(i,a)＝f(i,d(e))，其中，动作a＝d(e)，f(i,d(e))表示系统处于状态i，事件e发生时，基于该事件采取行动d(e)的即时收益。若初始时刻，观测到事件E₀，并将长期平均收益作为系统的性能指标(即回报)，则有

其中，X_n表示在时刻n采取的行动，E_n表示在时刻n观测到的事件。系统的性能优化即为寻找一个最优的基于事件的策略d^*∈D_e来最大化长期平均收益，即

下面结合路口运动规划场景，详细描述基于事件的优化模型的具体训练过程。

步骤100，获取预定义事件的输入状态集合和输出动作集合。

本申请实施例公开的路口运动规划方法，针对无自动行驶设备的路口控制决策问题，对现有的深度强化学习运动规划方法进行改进，深度学习的目的是基于给定的状态，输出相应的动作。因此，在进行深度学习之前，首先需要构建输入状态集合和输出动作集合。

本申请实施例中所述的输入状态集合是与触发状态转移的预定义事件对应的。其中，所述预定义事件包括：可控事件、可观事件和自然转移事件。具体到自动行驶设备的运动规划场景中，所述可控事件、可观事件和自然转移事件的定义参见前述步骤的描述，此处不再赘述。

本申请的一些实施例中，对应每种预定义事件的状态包括：自动行驶设备的实时状态和所述自动行驶设备所述路口的障碍物的实时状态，在同一路口同一时刻的自动行驶设备的实时状态和障碍物的实时状态，组成了一组联合状态，若干组联合状态构成了输入状态集合，即事模型中的状态空间，下文中表示为S。其中，每组联合状态对应一个预定义事件。

本申请的一些实施例中，所述联合状态可以为根据采集的路口历史路况数据进行处理得到的状态，也可以是根据模拟实验数据得到的状态，本申请对获取预定义事件的输入状态集合中各联合状态的具体实施方式不做限定。

本申请实施例中所述的输出动作集合指对应每组联合状态所执行的动作的集合，下文中，以符号A表示输出动作集合，a表示所述输出动作集合中的动作，a∈A。具体到自动行驶设备的运动规划场景中，所述动作可以通过自动行驶设备的加速度和转向角表示，例如，a＝(α,φ)，其中，α表示加速度，φ表示转向角。本申请的一些实施例中，可以根据自动行驶设备的物理性能限制动作输出的范围(例如：α∈[-10,10]m/s²)。

步骤101，构建基于事件的优化模型。

其中，所述优化模型包括：状态事件映射模块和决策模块，所述状态事件映射模块用于确定所述输入状态对应的预定义事件，所述决策模块为基于马尔科夫决策过程的强化学习网络，所述马尔科夫决策过程的模型要素中:状态空间要素为所述输入状态集合；动作空间要素为自动行驶设备的动作空间；奖励为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与障碍物的距离中的一项或多项状态关联数据的调整；回报为累计折扣奖励；策略为针对当前状态执行相应动作后到达新的状态。

所述状态事件映射模块可以按照前述步骤中描述的确定实时的联合状态匹配的预定义事件的方法，确定输入状态集合中的每个状态对应的预定义事件。

每一个时刻都是从状态空间中选择状态，从动作空间中来选择动作。动作是当前步的决策，而策略则包含后续的所有决策，它指导的是：在当前状态(如t时刻)执行动作到达新的状态，进而后续采取什么动作到达什么状态，这样得到一个可以不断延伸的序列。所述决策模块可以表示为Q(s,a；θ_t)，其中，θ_t为网络参数，所述优化模型的训练过程就是所述决策模块的训练过程(即强化学习网络得训练过程)。训练决策模块的过程则是通过更新θ_t，使得输入状态到输出动作的映射Q趋于理想的过程。

所述奖励函数表示为R(s,a)，即奖励函数为将状态s映射为a的即时奖励。具体实施时，奖励函数根据控制需求确定。本申请的一些实施例中，奖励可以配置为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与其他障碍物的距离的加权。本申请的其他实施例中，还可以定义以动作和状态为参数的其他函数作为奖励函数，本实施例中不再一一例举。

本申请的一些实施例中，决策模块的回报为在状态s下执行动作a并后续执行策略的期望回报。例如，回报定义为从t时刻开始累积的折扣奖励(即对下一个时刻的奖励都会多乘一个折扣因子，所述折扣因子的取值根据业务需求确定)。

进一步的，基于上述要素训练决策模块，即训练强化学习网络。

步骤102，基于所述输入状态集合和所述输出动作集合，训练强化学习网络，求解一组使得全局回报最大化的策略。

其中，使得全局回报最大化的策略表征了所述可控事件对应的输入状态到输出动作的映射关系。

庞杂的状态空间通常包含了很多冗余信息，叠加不确定性下计算偏差会进一步放大，对其的无效探索会影响到策略改进的方向，导致没有利用问题结构的方法在训练过程中难以保证策略性能。因此，本申请具体实施时，仅仅基于对应可控事件的输入状态和输出动作训练所述强化学习网络。

本申请的一些实施例中，所述训练所述强化学习网络，包括：对于所述输入状态集合中的每个输入状态，通过执行所述状态事件映射模块确定所述输入状态匹配的所述预定义事件；响应于所述联合状态匹配的预定义事件为所述可控事件，通过所述强化学习网络将所述输入状态映射为下一时刻的动作；根据所述下一时刻的动作与所述输出动作集合中所述输入状态对应的输出动作，计算即时奖励，并以根据各所述即时奖励计算得到全局回报最大化为目标，优化所述策略。

在训练过程中，首先通过执行所述状态事件映射模块，根据输入状态集合中当前输入状态中包括的自动行驶设备的位置和速度、障碍物的位置和速度，确定所述当前输入状态是否匹配可控事件，并在所述当前输入状态匹配可控事件的情况下，通过所述决策模块将所述当前输入状态映射为动作空间中的一个动作。接下来，根据映射得到的动作计算执行该动作的即时奖励，并基于所述即时奖励、动作和当前状态，更新下一时刻的状态。并通过梯度下降法，优化策略模块中的权重，迭代执行状态到动作的映射，以及即时奖励和全局回报计算，直至根据各所述即时奖励计算得到全局回报最大化，完成强化学习网络的训练过程。

本申请实施例通过将自动行驶设备的一些状态(如在马路中间的正常行驶状态)定义为自然转移事件，不触发策略调整，对于需要触发策调整的状态定义为可控事件，并通过对可控时间对应的对场景特征进行提炼，将待学习的映射关系从状态空间到动作空间转化为从事件空间到动作空间，能够使强化学习网络尽快收敛，节省模型训练时消耗的技术资源。

另一方面，由于训练强化学习网络时，采用的是特定状态的数据，样本更加纯净，有利于提升强化学习网络进行状态到动作映射的准确性。

步骤140，基于所述动作向量对所述自动行驶设备进行运动规划。

在线进行运动规划过程中，当通过执行强化学习网络对实时的联合状态进行映射后得到输出的动作向量时，进一步根据强化学习网络输出的动作向量对所述自动行驶设备进行运动规划。如前所述，所述强化学习网络输出的动作向量包括：加速度和转向角，将强化学习网络输出的加速度向量和转向角输入至自动行驶设备的机械控制系统，重新规划自动行驶设备运动方向和速度，实现对自动行驶设备的下一个状态进行调整。

本申请的一些实施例中，所述确定所述联合状态匹配的预定义事件之后，还包括：响应于所述联合状态匹配的预定义事件为所述可观事件，按照预设策略调整所述自动行驶设备当前的动作向量。根据前述步骤中对可观事件的定义可知，特定种类的可观事件触发的状态转化是固定的，因此，为了减少搜索决策对自动行驶设备计算资源的消耗，可以在确定所述实时的联合状态匹配的特定可观事件之后，直接获取预设的针对所述特定可观事件的动作向量，自动行驶设备运动方向或者速度，实现对自动行驶设备的下一个状态进行调整。

例如，当确定所述实时的联合状态匹配的边界类可观事件之后，触发反向行驶决策，即保持加速度维度的向量不变，调整转向角，得到反向行驶的动作向量，并将得到的动作向量输入至自动行驶设备的机械控制系统，调整所述自动行驶设备的下一个状态。

再例如，当确定所述实时的联合状态匹配的碰撞类可观事件之后，触发避碰机制，重新评估行驶安全性，引入避碰机制来确定对自动行驶设备的控制动作。

本申请实施例公开的自动行驶设备的路口运动规划方法，聚焦于自动行驶设备在路口场景中的运动规划，融合事件驱动的优化思路，利用问题结构做状态聚集，将路口的状态聚集为指定类型的事件，并且仅针对特定类型事件对应的状态到动作的映射进行学习，减少状态维度巨大带来的不必要计算开销，在相同的训练迭代次数下，学习到的策略在通行速度和避碰性能上都有所提升。另一方面，由于在训练强化学习网络的过程中，仅针对特定类型事件对应的状态到动作的映射进行学习，减少了不必要状态数据对训练结果的影响，提升了运动规划的准确性。

通过在运动规划问题中引入基于事件的方法构建优化模型，定义的事件数目远小于实际状态数量，因此可利用事件特征实现性能势集结，缓解问题的维数灾难题。并且，道路动态障碍(行人、其他车辆等)的行为难以准确估计预测，但事件的定义却很明晰，可以被车载传感设备直接观测，因此，在决策规划模块中只需在特定事件发生时采取行动，即可准确进行运动规划，简化了运动规划问题。

实施例二

本申请实施例公开的一种自动行驶设备的路口运动规划装置，如图4所示，所述装置包括：

实时联合状态获取单元410，用于获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据；

事件确定单元420，用于确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；

可控事件决策单元430，用于响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；

第一运动规划单元440，用于基于所述动作向量对所述自动行驶设备进行运动规划。

本申请的一些实施例中，如图5所示，所述装置还包括:

训练数据集合获取单元400，用于获取预定义事件的输入状态数据集合和输出动作集合；

优化模型构建单元401，用于构建基于事件的优化模型；其中，所述优化模型包括：状态事件映射模块和决策模块，所述状态事件映射模块用于确定所述输入状态数据对应的预定义事件，所述决策模块为基于马尔科夫决策过程的强化学习网络，所述马尔科夫决策过程的模型要素中:状态空间要素为所述输入状态数据集合中的状态；动作空间要素为自动行驶设备的动作空间；奖励为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与障碍物的距离中的一项或多项状态关联数据的调整；回报为累计折扣奖励；策略为针对当前状态执行相应动作后到达新的状态；

强化学习网络训练单元402，用于基于所述输入状态数据集合和所述输出动作集合，训练所述强化学习网络，求解一组策略使得全局回报最大化，其中，使得全局回报最大化的策略表征了所述可控事件对应的输入状态数据到输出动作的映射关系。

本申请的一些实施例中，所述强化学习网络训练单元402，进一步用于：

对于所述输入状态集合中的每个输入状态，通过执行所述状态事件映射模块确定所述输入状态匹配的所述预定义事件；

响应于所述联合状态匹配的预定义事件为所述可控事件，通过所述强化学习网络将所述输入状态映射为下一时刻的动作；

根据所述下一时刻的动作与所述输出动作集合中所述输入状态对应的输出动作，计算即时奖励，并以根据各所述即时奖励计算得到全局回报最大化为目标，优化所述策略。

本申请的一些实施例中，所述事件确定单元420，进一步用于：

根据所述联合状态中自动行驶设备的位置和速度，以及障碍物的位置和速度，确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围；

响应于所述自动行驶设备到达邻近所述障碍物指定距离的区域范围，确定所述联合状态匹配所述可控事件。

本申请的一些实施例中，所述预定义事件还包括：指示需要继续观察的可观事件，所述可观事件包括边界类型的可观事件和碰撞类型的可观事件，所述事件确定单元420，还用于：

响应于所述自动行驶设备未到达邻近所述障碍物指定距离的区域范围，且所述自动行驶设备在原始策略下无法保持在道路范围内时，确定所述联合状态数据匹配边界类型的所述可观事件；

响应于所述自动行驶设备未到达邻近所述障碍物指定距离的区域范围，且所述自动行驶设备到达与障碍物潜在冲突点前的最后一个区域时，确定所述联合状态数据匹配碰撞类型的所述可观事件。

本申请的一些实施例中，所述预定义事件还包括：指示需要继续观察的可观事件，所述装置还包括：

第二运动规划单元450，响应于所述联合状态匹配的预定义事件为所述可观事件，按照预设策略调整所述自动行驶设备当前的动作向量。

本申请实施例公开的自动行驶设备的路口运动规划装置，用于实现本申请实施例一中所述的自动行驶设备的路口运动规划方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的自动行驶设备的路口运动规划装置，通过获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据；确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；基于所述动作向量对所述自动行驶设备进行运动规划，有助于节省对进行路口运动规划时的计算资源消耗，提升自动行驶设备进行路口运动规划的效率。

本申请实施例公开的自动行驶设备的路口运动规划装置，聚焦于自动行驶设备在路口场景中的运动规划，融合事件驱动的优化思路，利用问题结构做状态聚集，将路口的状态聚集为指定类型的事件，并且仅针对特定类型事件对应的状态到动作的映射进行学习，减少状态维度巨大带来的不必要计算开销，在相同的训练迭代次数下，学习到的策略在通行速度和避碰性能上都有所提升。另一方面，由于在训练强化学习网络的过程中，仅针对特定类型事件对应的状态到动作的映射进行学习，减少了不必要状态数据对训练结果的影响，提升了运动规划的准确性。

通过在运动规划问题中引入基于事件的方法构建优化模型，定义的事件数目远小于实际状态数量，因此可利用事件特征实现性能势集结，缓解问题的维数灾难题。并且，道路动态障碍(行人、其他车辆等)的行为难以准确估计预测，但事件的定义却很明晰，可以被车载传感设备直接观测，因此，在决策规划模块中只需在特定事件发生时采取行动，即可准确进行运动规划，简化了运动规划问题

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种自动行驶设备的路口运动规划方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图6示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器610和存储器620及存储在所述存储器620上并可在处理器610上运行的程序代码630，所述处理器610执行所述程序代码630时实现上述实施例中所述的方法。所述存储器620可以为计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码630的存储空间6201。例如，用于程序代码630的存储空间6201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码630为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的自动行驶设备的路口运动规划方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图6所示的电子设备中的存储器620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图7所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码630’，所述计算机可读代码630’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种自动行驶设备的路口运动规划方法，其特征在于，包括：

基于所述动作向量对所述自动行驶设备进行运动规划。

2.根据权利要求1所述的方法，其特征在于，所述通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理的步骤之前，还包括:

获取预定义事件的输入状态集合和输出动作集合；

构建基于事件的优化模型；其中，所述优化模型包括：状态事件映射模块和决策模块，所述状态事件映射模块用于确定所述输入状态对应的预定义事件，所述决策模块为基于马尔科夫决策过程的强化学习网络，所述马尔科夫决策过程的模型要素中:状态空间要素为所述输入状态集合；动作空间要素为自动行驶设备的动作空间；奖励为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与障碍物的距离中的一项或多项状态关联数据的调整；回报为累计折扣奖励；策略为针对当前状态执行相应动作后到达新的状态；

基于所述输入状态集合和所述输出动作集合，训练强化学习网络，求解一组使得全局回报最大化的策略；其中，使得全局回报最大化的策略表征了所述可控事件对应的输入状态到输出动作的映射关系。

3.根据权利要求2所述的方法，其特征在于，所述训练所述强化学习网络的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述联合状态匹配的预定义事件的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述预定义事件还包括：指示需要继续观察的可观事件，所述可观事件包括边界类型的可观事件和碰撞类型的可观事件，所述根据所述联合状态中自动行驶设备的位置和速度，以及障碍物的位置和速度，确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围的步骤之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述预定义事件还包括：指示需要继续观察的可观事件，所述确定所述联合状态匹配的预定义事件的步骤之后，还包括：

响应于所述联合状态匹配的预定义事件为所述可观事件，按照预设策略调整所述自动行驶设备当前的动作向量。

7.一种自动行驶设备的路口运动规划装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括:

训练数据集合获取单元，用于获取预定义事件的输入状态数据集合和输出动作集合；

优化模型构建单元，用于构建基于事件的优化模型；其中，所述优化模型包括：状态事件映射模块和决策模块，所述状态事件映射模块用于确定所述输入状态数据对应的预定义事件，所述决策模块为基于马尔科夫决策过程的强化学习网络，所述马尔科夫决策过程的模型要素中:状态空间要素为所述输入状态数据集合中的状态；动作空间要素为自动行驶设备的动作空间；奖励为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与障碍物的距离中的一项或多项状态关联数据的调整；回报为累计折扣奖励；策略为针对当前状态执行相应动作后到达新的状态；

强化学习网络训练单元，用于基于所述输入状态数据集合和所述输出动作集合，训练所述强化学习网络，求解一组策略使得全局回报最大化，其中，使得全局回报最大化的策略表征了所述可控事件对应的输入状态数据到输出动作的映射关系。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至6任意一项所述的自动行驶设备的路口运动规划方法。

10.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至6任意一项所述的自动行驶设备的路口运动规划方法的步骤。