CN115631651A

CN115631651A - 一种无管控路口环境的自动驾驶决策规划系统和方法

Info

Publication number: CN115631651A
Application number: CN202211164802.7A
Authority: CN
Inventors: 付梦印; 张婷; 宋文杰; 杨毅; 王美玲
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-01-20

Abstract

本发明公开了一种无控制信号路口的自动驾驶决策方案，将自动驾驶决策分工为基于预测的辅助决策和实时规划两大主体，各主体相对独立运行，辅助决策部分负责对目标车辆进行预测和最优动作决策，向实时规划部分输出决策结果；而实时规划部分则基于观测信息和辅助决策信息进行实时轨迹规划和冲突检测，并在必要时调整动作。该框架结构清晰，保证了模型的透明度和道路行驶过程中的安全可控，充分考虑了车辆之间的交互性和不确定性，最优动作决策采用了以预测结果为导向的决策树搜索方法，能够有效减小运算消耗，提高实时决策效率。

Description

一种无管控路口环境的自动驾驶决策规划系统和方法

技术领域

本发明涉及自动控制技术领域，具体涉及一种无控制信号路口交通环境下的自动驾驶车辆决策规划系统和基于长期预测结果导向的策略树搜索决策方法。

背景技术

没有交通信号指引的路口场景受到了自动驾驶领域的广泛关注，这种环境下需要更加智能化的决策。根据美国高速路交通安全机构的调查报告，在美国超过1/4的交通事故和路口相关，这其中又有超过50％的事故发生在无管控的路口。

在决策的过程中，有两个问题十分凸显：第一是对于其他车辆行为的不恰当理解。例如，在没有任何预测的情况下，当面对存在潜在冲突的车辆时，无人车可能会浪费大量不必要的时间等候在路口外(行为过于保守)或者是冒险率先驶入路口(激进)。因此，在驶入路口时，预测路口未来一段时间内的态势是至关重要的。目前，基于图神经网络的车辆行为预测广为使用，该模型具有描述车辆间以及车辆与道路环境交互特征的功能。基于此，也有学者提出“锚点轨迹”的概念，来列举出可能的未来轨迹，将轨迹预测问题转化为锚点选择+偏移量回归的问题。相较而言，行驶目标导向的模型，例如TNT(Target-driveNTrajectory)被提出，其包含以下特点：1)充分利用例如道路几何等专家知识产生可靠的候选轨迹；2)输出多模态的概率轨迹。

第二个问题来源于对于不确定性的忽视。由于观测误差、复杂的驾驶特征以及预测偏差等，不确定性的产生是不可避免的。部分可观马尔可夫决策过程(PartiallyObservable Markov Decision Process,POMDP)提供了一个显式的方式——置信度，为环境中的不确定性建模。随着形势的推进(搜索深度的增加)，模型的维度也在观测空间和行为空间上成指数地增加，导致其难以线上实时运行。此外，由于模型中的动作是离散化的，也会导致轨迹的不平滑。同时，因为模型中的预测时长不足(通常为1-3步，少于2s)，也不利于做长周期的规划。为此，多策略决策模型(Multipolicy Decision-Making,MPDM)通过考虑来自行为和环境的约束并用语义策略代替基本动作来改进POMDP，从而减少了动作空间的规模。在此基础上，也有工作通过制定决策树的分支引导策略来降低动作空间和观测空间的复杂性。

尽管已经有一些工作针对无控制路口设计了决策规划模型，例如基于“领导车-跟随车”的博弈模型对车辆之间的交互行为进行建模，但是其只考虑了三辆车的简单场景，难以泛化到多辆车同时存在、交互关系复杂的交通环境中。另有工作利用强化学习神经网络，模仿人类司机在不同的情境中调节油门和方向盘来控制车辆，但模型的训练需要依赖大量的数据，模型本身属于“黑箱”难以解释，且模型输出结果难以保证车辆执行后的安全性。

因此，对于无控制信号的路口而言，亟需研发新型的决策方法。

发明内容

有鉴于此，本发明提供了一种可适用于无管控路口的自动驾驶决策规划系统和基于长前瞻周期预测结果导向的决策树搜索决策方法，能够提前对目标车辆的行为做出合理的预测，并将预测结果的不确定性显式量化地融合进决策的方法中，实现在行为复杂、交互频繁的无管控路口环境中的智能、可靠决策规划。

本公开提供的可适用于无管控路口的自动驾驶决策规划系统，包括：副驾驶模块和主驾驶模块，其中：

副驾驶模块，用于基于态势预测进行辅助决策，包括：对存在冲突可能的社会车辆进行轨迹预测，并判断是否会与受控车辆当前轨迹规划产生冲突；当存在冲突时，以安全为首要原则，搜索、选择最优动作序列，并向主驾驶模块输出；

主驾驶模块，用于实时轨迹规划，包括：根据当前观测情况和副驾驶模块的辅助决策结果，进行轨迹规划并对规划的轨迹进行冲突检测，当确定存在冲突时进行动作调整，即更新轨迹。

进一步地，所述副驾驶模块每1s运行一次，每次得出3s内的最优动作序列；所述主驾驶模块每0.1s运行一次。

进一步地，所述系统还包括社会车辆选择模块，用于对社会车辆的意图和/或驾驶风格进行判断；其中，意图的判断用于进一步筛选进行轨迹预测的车辆，确定采样路径；驾驶风格的判断用于控制目标点的采样密度。

本公开还提供了一种可应用于上述系统的，以预测结果为导向的动作序列搜索方法，包括以下步骤：

以受控车辆当前每个可能的动作为基础，分别根据车辆运动学进行逐步前向仿真；

每一步仿真完成后，基于受控车辆与目标车辆的碰撞可能性，对各个候选动作的安全性进行评估；

以通过评估的动作为基础，继续进行下一步前向仿真搜索，直到获取一系列满足搜索深度要求的动作序列。

进一步地，所述搜索方法具体包括以下步骤：

针对受控车当前的状态

生成候选动作对集合A_raw，其中，

A为受限于最大加加速度的纵向加速度动作集，I为可选的车道路径集；

分别以每个候选动作a_jd＝(a_jd,id_jd)∈A_raw作为起始状态，根据车辆运动学模型进行前向仿真，生成受控车在未来T时间段内的轨迹

a_jd为纵向加速度，id_jd为车道路径编号；j为动作编号，d为搜索深度；

在每步前向仿真完成后，基于所述轨迹

检查受控车辆与目标车辆在该过程中的碰撞情况，对候选动作a_jd进行安全评估；

以安全性高的候选动作为基础，继续进行下一步的搜索，直到满足搜索深度要求。

进一步地，所述安全评估的方法包括：

每个候选动作a_jd都伴随一个分数列表R，列表最大值为最终危险评分r(a_jd)，如式(4a)所示：

在分数列表中，存储着受控车与每一个目标车辆n的第k条预测轨迹的危险评分

它来源于时间危险值序列r^n,k的均值，r^n,k是受控车与目标车辆n的第k条预测轨迹在所有t∈T时刻危险值的时间列表；

其中，

是受控车和目标车n的第k条预测轨迹在t时刻的危险值，计算方法如式(4c)所示：

其中，

表示t时刻受控车的安全外接矩形，为车辆自身外形尺寸+安全余量扩展得到的矩形，

表示目标车n的安全外接矩形；

表示受控车车体外接矩形，其形状由车辆自身的外形尺寸决定，

表示预测出的目标车辆车体外接矩形；

表示此条预测轨迹发生的概率，

表示预测碰撞时间；

预测碰撞时间的计算方法如式(4d)所示，

即目标车辆n在t时刻的预测状态

转化到受控车局部Frenet坐标系下的坐标值与受控车Frenet坐标系下的位置

求差，除以受控车在s方向上的速度v_s，其中，s表示局部Frenet坐标系纵轴。

进一步地，所述目标车辆轨迹预测的时间长度为3秒，所述动作序列的搜索深度长度为3。

另外，本公开还提供了一种应用上述系统的无管控路口自动驾驶决策方法，包括以下步骤：

步骤S1，对无车道划分的路口进行虚拟车道划分；

步骤S2，选取目标车辆；

步骤S3，对目标车辆进行轨迹预测；

步骤S4，判断目标车辆的预测轨迹与受控车当前的轨迹规划是否存在冲突；

步骤S5，存在冲突时，以安全为首要原则，进行动作序列搜索；

步骤S6，从得到的一系列动作序列中选取最优动作序列。

进一步地，基于TNT模型，进行目标车辆的轨迹预测。

进一步地，该决策方法还包括步骤S7和/或步骤S8，其中：

步骤S7，利用随机森林模型，判断目标车辆的意图；基于意图，进一步筛选进行轨迹预测的目标车辆，确定采样的路径；

步骤S8，基于IMM交互式多模型，对目标车辆的驾驶风格进行判断；基于驾驶风格，确定目标样本的采样密度。

进一步地，所述步骤S8具体包括：

假设任意一辆目标车辆n可能的驾驶风格有三种，分别是激进式、正常和保守式，记为{ξ_a,ξ_b,ξ_c}，每一种驾驶风格ξ都对应一定的加速度范围；

当目标车辆初次被观察到时，将属于三种驾驶风格的概率初始化为相同值，在此之后，会基于对车辆的观测预估的车辆状态

与该车辆实际到达的状态

进行对比，计算似然度Λ^ξ；

然后使用交互式多模型的预测部分来更新所属风格概率，其中P为协方差，∈为避免零除数的极小常量，ξ′为归一化处理后的ξ；

则目标样本将会以分辨率r＝r₀/Λ^ξ采样，其中r₀为固定的采用分辨率。

进一步地，上述决策方法还包括以下步骤：

根据所述最优动作序列对应的最优状态序列，以及对社会车辆的实时观测结果，进行实时轨迹规划和冲突检测；

当确定存在冲突时进行动作调整，即更新轨迹。

进一步地，当确定存在冲突时，利用博弈模型进行动作调整。

本公开提供的自动驾驶决策规划方案，将自动驾驶决策分工为基于态势预测的辅助决策和实时规划两大主体，各主体相对独立运行；前者用于目标预测和最优动作决策，向实时规划部分输出结果；而实时规划部分则基于观测信息和辅助决策信息进行实时轨迹规划和碰撞检测，并在必要时调整动作。其中，动作序列的搜索采用了“以预测结果为导向的决策树搜索方法(Prediction-Guided Strategy Tree,PGST)”，以保证搜索的高效可行。

与现有技术相比，本公开的有益效果是：

(1)对自动驾驶决策的任务进行了清晰划分，两个主体相对独立运行，极大地减少了自动驾驶决策程序的复杂性和处理各种实时情况带来的分支干扰，提高了模型的透明度，保证了在各种路况下行驶的安全性；

(2)决策方法考虑了道路行驶过程中车辆的交互行为以及不确定性，融合了基于学习的目标车辆预测模型和基于树搜索的动作决策模型，能够理解并预测动态环境的发展态势；

(3)基于意图和驾驶风格的预测判断，对目标车辆轨迹预测模型的输入数据进行了优化，减小数据运算量的同时，提高了模型预测的准确率；

(4)明确考虑预测结果的不确定性，基于预测出的目标车辆可能轨迹分布，生成“混沌预测前向模拟场景”，考虑所有未来可能的危险场景，评估动作样本的安全等级；

(5)动作序列的搜索，采用以预测结果为导向的决策树搜索，在每一步仿真预测后都以安全为准则对预测结果进行评估，通过评估的才进行下一步仿真搜索，有效减小观测空间和动作空间，减少计算负担，提高了决策速度；

(6)辅助决策频率为1Hz，每次可以实现对目标车辆3秒内的轨迹预测，输出3秒内的最优状态序列，实现了长周期的预测；结合10Hz的实时规划，能够既有足够的前瞻性，又能适应路况的实时变化。

附图说明

图1为无管控路口中，采用本发明中“预测导向型决策树搜索”方法的过程示意图；

图2为用于无管控路口的副驾驶辅助决策+主驾驶轨迹规划的示例性框架结构图和流程图；

图3示出了全局坐标系与局部Frenet坐标系相互转化的示意图，其中全局坐标系为设定的大地坐标系，Frenet坐标系以车辆位置中心为纵向零点，以道路前进的切线方向为s方向，垂直于切线方向为d方向；

图4示出了碰撞检测示意图，其中a)为代表车辆的形状的外接矩形G_VEH以及带有安全余量的外接矩形G_SAFE；b)为外接矩形描述的车辆轨迹在时空域展开的结果；c)为无碰撞的场景；d)为碰撞场景；

图5示出了在无管控信号路口中，采用本公开方法决策直行车辆的几个关键帧场景；

图6示出了在无管控信号路口中，采用本公开方法决策右转车辆的几个关键帧场景；

图7示出了在无管控信号路口中，采用本公开方法决策左转车辆的几个关键帧场景；

图8示出了在直行、右转、左转情况下的位置曲线、速度曲线和加速度曲线，其中三角符代表每一轮决策的时间，阴影区域代表主车和其他社会车辆产生交互的驾驶过程；

图9示出了在无管控信号路口中，复杂左转情况下，采用本公开方法决策的几个关键帧场景。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本公开主要针对存在相互作用以及不确定性的无控制信号路口自动驾驶决策规划问题，其基本解决思想为：一方面，自动驾驶需要实现实时的运动规划，另一方面，预测和考虑动态环境未来的态势进而做出前瞻性决策也十分重要。这两项驾驶功能应该是紧密结合的，具体到现实交通场景中，类似于“主驾驶”(Primary Driver,PD)和“副驾驶”(Subordinate Driver,SD)。

按照该思路，示例性的可用于无管制路口的自动驾驶决策规划系统如附图2所示，其中包括：

负责辅助决策的副驾驶模块和负责实时规划的主驾驶模块，其中：

所述副驾驶模块，用于对无车道划分的路口进行虚拟车道划分；对存在冲突可能的社会车辆进行轨迹预测，并判断是否会与受控车辆当前的轨迹规划产生冲突；当存在冲突时，以安全为首要原则，搜索、选择最优动作序列，向主驾驶模块输出，所述动作序列包括：所选车道，以及纵向的加速度等；

所述主驾驶模块，则不断根据实时观测结果以及副驾驶模块提供的决策结果，进行轨迹规划和冲突检测，当确定存在冲突时进行动作调整，即更新轨迹，其中，所述轨迹指车辆状态按照时间展开的序列，包括各个时刻车辆应该处于的位置，速度，以及加速度等等。

作为优选，其中的SD模型每1s运行一次，运行频率为1Hz，每次输出3秒内的最优动作序列；而PD模型运行频率较高，为10Hz。如果当前需要进行决策，SD即启动，其首先调用轨迹预测模型对目标车辆的轨迹进行预测。

作为优选，图中还包括社会车辆模块，该模块负责对社会车辆的意图和驾驶风格进行判断；并基于意图的判断，筛选其中需要进行轨迹预测的车辆，确定采样路径；基于驾驶风格的判断，控制目标点的采样密度。

图2中也示出了示例性的无管控路口自动驾驶决策流程：

当主车(即当前受控车辆)未进入路口且跟车时，对主车可以利用智能驾驶者模型(Intelligent Driver Model,IDM)控制；而当判断需要进行决策时，则进入决策流程如下：

副驾驶首先预测目标车辆轨迹(优选通过神经网络TNT模型)，若与主车当前的轨迹规划不存在冲突，则可以按当前的状态继续行进，也可考虑当前状态和车辆模型，进行更优化的规划；否则，进入“预测导向型决策树”搜索流程，搜索、选择出最优动作序列以及相应的最优状态序列，交给主驾驶；

主驾驶根据收到的最优状态序列，执行轨迹平滑规划，轨迹的平滑通过构建最优化问题解决；同时还要根据对社会车辆的实时观察情况，不断进行当前规划的轨迹与社会车辆的碰撞检测，如果存在冲突，则调整动作(优选通过博弈模型)，即对轨迹进行重新规划；

对于社会车辆，还会进一步判断预测出其意图以及驾驶风格，意图和驾驶风格用于确定可能的车辆和可能的目标位置，作为预测模型的部分输入，驾驶风格是通过比较其真实动作与通过博弈过程预估动作的似然程度、利用交互多模型(Interacting MultipleModel,IMM)的预测部分来更新的。

以下对其中应用的以预测结果为导向的动作序列搜索方法，以及更加完整的无管控路口自动驾驶决策方法，给出进一步的示例和说明。

根据本公开的示例性的无管控路口自动驾驶决策，包括以下步骤：

步骤1：变量设置

将无管控路口的静态环境定义为E，将车道中心线定义为l_E，主车的标号设置为0，其他目标车辆的标号设置为n＝1,2,…,N(变量上角标)。从决策周期T_F的起始时间t₀开始，假设主车的状态

和其他目标车辆的状态为

都可以获得，其中，状态变量X＝(x,y,v,a,s,d,φ,id)包括全局坐标(x,y)，局部Frenet坐标(s,d)，以及速度v，加速度a，航向角φ和当前所在路径的序号id。历史时间段T_H内的状态序列记为

(无车辆序号代表主车和所有目标车)。对于主车而言，其所有的参考路径记为

其中，主车当前所在的参考路径记为

步骤2：划分参考路径

原始规划路径

将会指引主车行驶通过路口，其可以由上游的路径规划器生成。对于无管控路口环境，通常没有划分车道，因此需要划分参考路径即虚拟车道，每条虚拟车道对应不同的横向距离偏差。

已知环境地图或者是道路边界，首先找到对于主车而言可行的驶离车道，然后根据Frenet坐标系下每个车道的不同横向偏移量d_i确定出驶离的终点。确定出终点之后，利用样条曲线来表示参考路径，实现全局坐标与Frenet局部坐标的相互转化。

步骤3：目标车辆的选取

对于需要经过路口的车辆而言，一旦意图已经确定，就比较容易确定出需要格外关注的目标车辆。由于路口的形状和大小都不相同，示例性实施例中不采用固定的距离阈值来筛选目标，而是选择和主车有潜在交互关系的车辆。具体而言，对于在主车观测距离范围内的车辆，首先根据其行驶阶段，包括即将驶入、已经驶入、已经驶离来分类。已经驶离路口的车辆就不再考虑；正在路口内部的车辆将全部视为目标车辆，因为这些车辆通常占有路权或者可能存在潜在冲突。根据优先级，路口外部最靠近停止线的车辆被当作目标车。最后，在t₀时刻共计有

辆车被选为目标车。

步骤4：社会车辆的轨迹预测

路口的车辆预测与高速环境的预测有所不同，其更需要体现因为交互导致的不确定性和多样化的机动性。首先说明对于路口车辆轨迹预测而言，一个优秀的预测模型需要考虑的因素：

道路约束：车辆的行为会受到道路几何特征的约束；

交互作用：车辆之间的交互关系更加频繁和明显，包括合作以及冲突；

行为的不确定性：由于司机自身驾驶方式以及外界的影响，其行为是变化着的，因此会产生未来多模态的概率轨迹。

根据以上特性，本实施例中优选使用了TNT模型，其包含了三个简明可观的步骤，分别是局部目标的预测、基于局部目标点的运动估计和轨迹评分。首先，模型会沿着车道中心线(社会车辆使用的参考路径，可以认为是地图里的，根据路口形状生成的)均匀采样出可能的目标点；然后通过网络编码车辆之间的交互关系以及车辆与环境的交互关系，生成基于目标点的预测轨迹。最后，评分步骤将会估计出预测轨迹的概率，从中挑选出评分排名前k_TNT条轨迹作为最终结果。

为了进一步减小计算量，以及提高模型的准确率，本公开还可以包括以下步骤：

一是优选利用随机森林(Random Forest,RF)的模型预测车辆的意图，这不仅为冲突估计提供了线索，而且也方便确定出目标车辆可能的参考轨迹。根据车辆意图预测结果，从步骤3的目标车辆中进一步筛选进入TNT模型预测的目标车辆，确定目标点的采样路径。

二是以一种更加有针对性的方式确定出采样目标点。TNT原模型是按照固定的分辨率r₀，对所有目标车辆采样目标点，忽视了车辆的当前状态X₀以及不同车辆的不同驾驶风格ξ。本公开优选采用IMM交互式多模型，对驾驶风格进行预测，并基于驾驶风格，决定目标点的采样密度，提高轨迹预测准确率。

具体可采用如下方法：

假设任意一辆目标车n可能的驾驶风格有三种，分别是激进式、正常和保守式，记为{ξ_a,ξ_b,ξ_c}。每一种驾驶风格ξ都对应着相应的加速度范围

当目标车辆初次被观察到时，将属于三种驾驶风格的概率初始化为相同值，在此之后，会根据对目标车辆的观测预估的该车辆状态

(图2所示实施例中由博弈模型完成)，与该车辆实际到达的状态

进行对比，计算似然度Λ^ξ，然后使用IMM交互式多模型的驾驶风格预测来更新所属风格概率。计算方式可参考式(1)，其中P为协方差，∈为避免零除数的极小常量：

每次采样，目标样本

将由以各个驾驶风格ξ为仿真模型采集的样本

组成：

式(2)中根据前向仿真车辆运动模型f得到了距离范围

之后，目标样本将会根据采样函数g以分辨率r＝r₀/Λ^ξ采样。

总之，样本在符合驾驶风格的行驶区域内分布更加密集，其余区域分布较为分散，这种自适应的采样方法使基于学习的预测模型和普通的车辆模型关联起来，可以生成更加具有针对性的样本，进而提高轨迹预测的准确率。

步骤5：预测导向型决策树搜索方法

如果基于TNT预测的其他车辆的轨迹，和主车当前的规划轨迹并无潜在冲突，则可以按照当前的状态输出，也可考虑当前状态和车辆模型，进行更优化的规划；

否则，在已知的k_TNT条预测轨迹及其评分下，会初始化一个基于预测的决策搜索树，并最终找出长度为D的最佳动作序列

动作序列包括：选择哪条车道，纵向的加速度等等，其中的纵向是在车体的Frenet局部坐标系下的纵向。

本公开中，对动作序列的搜索提供了以预测结果为导向的决策树搜索方法，即：基于当前所有可能的动作集，通过前向仿真，获取一定时间内的轨迹，基于该轨迹进行安全评估，以通过评估的状态为基础，继续进行前向仿真搜索，由此得到一系列搜索深度为D的动作序列

对该方法进一步说明如下。

已知环境观测量和自身的定位姿态信息的情况下，TNT模型会以周围车辆的历史状态

车道中心线(由地图模块生成给出的，用于社会车辆轨迹预测)对应的向量l_E以及采样得到的局部目标点集

作为输入，生成目标车辆

未来T_F时间内的预测结果

包括多模态的轨迹状态

及其评分

以及轨迹对应的外接矩形

(这里包括车体外接矩形

和带有安全余量的外接矩形

)，如图4a)所示。

在POMDP(Partially Observable Markov Decision Process，部分可观马尔可夫决策过程)中，前向模拟是在一系列采样场景中进行的，所谓场景就是基于对环境的置信度采样出的观测量的排列组合，容易造成空间的维度爆炸。在本公开的算法中，直接将预测结果融合成了一个混合的观察场景，所有的预测结果及其评分都被投射到三维时空内。除了计算轻量外，其优势在于两个方面：一是只要预测足够准确，混合场景就涵盖了所有最可能发生的危险情况；另一个是所有原始动作样本都将在相同的预测结果下进行明确的安全风险评估。

与许多工作中将采样动作固定不同的是，本公开的示例性算法允许针对主车当前的状态

生成自适应动作对集合A_raw。为了降低动作空间的维度，优选采用由加速动作和语义变道动作组成的动作对：

给定主车当前的状态

考虑最大加加速度jerk得到一个纵向的加速度动作集A，集合由当前加速度、当前加速度加上最大加加速度、当前加速度减最大加加速度等元素组成，其每个元素的值是互不相同的，且受最大最小速度、加速度范围的限制。在Frenet坐标系的横轴方向上，将选择候选路径

中的相邻车道形成路径集I。原始动作集是加速度和候选路径的组合，即

为安全起见，在一次决策的搜索深度期间只允许更改一次路径。

然后，将以每个a_jd＝(a_jd,id_jd)∈A_raw为起始状态进行前向仿真，即根据车辆运动学模型，生成主车在未来T时间段内的轨迹

其中，a_jd为纵向加速度，id_jd为车道路径编号；j为动作序号，d为搜索深度；轨迹

服从如(4)式所示的车辆模型，其中Δt为离散采样时间，l_r和l_f为以质心为起点向后、向前的长度，可近似为半车长，

为前轮打角。

之后，在动作剪枝方面，本公开提供了示例性的危险系数评分和重挑选机制，即基于以上获得的轨迹，检查轨迹与目标社会车辆的碰撞情况，在保证安全的前提下帮助选出动作序列，如图4d)所示。

决策树共包含两种类型的容器，其中一个是容纳每一层父节点的动作容器A_buff以及与其相关的状态容器M_buff、碰撞指示容器C_buff和评分容器S_buff；另一类是每一层的暂存容器，包括A_temp,M_temp,C_temp,S_temp，用于收纳暂时存在风险的候选动作。

在每一步前向仿真完成后，对每个候选动作进行安全评估，即计算每个候选动作a_jd的危险评分r(a_jd)，其中完全安全(r(a_jd)＝0)的动作及其对应状态和评分等会被直接放入下标为buff的缓冲容器中，直接成为父节点；其余的候选动作会被暂时放入暂存容器中(下标为temp)。若A_buff中的候选动作数量不足N_th，则会从经过排序的A_temp中再次挑选出危险评分相对较小的动作参与到下一轮的拓展当中。需要注意的是，已经发生碰撞(即collision＝True)的动作被选出的可能性非常小，即使被选出，其产生的子节点也会被标记为碰撞且危险评分＝1.0，极大程度降低了其被选择的可能性。

其中，对每个候选动作的危险评分方法优选如下：

具体而言，每一个动作都会伴随一个分数列表R，列表最大值为最终危险评分，如(4a)：

在分数列表中，存储着主车与每一个目标车辆n的第k条预测轨迹的危险评分，它是所有t∈T时刻危险值(4b)的均值

r^n,k为各个t∈T时刻危险值

的序列。

在每一个时刻t，通过检测主车车体外接矩形与目标车辆外接矩形之间的几何关系，计算危险值

具体如式(4c)所示：

其中，

表示t时刻主车的安全外接矩形，是车辆自身外形尺寸+安全余量扩展得到的矩形，

表示目标车辆n的安全外接矩形，其中心位置可以通过神经网络预测得到，

表示主车车体外接矩形，其形状由车辆自身的长宽决定，

表示目标车辆车体外接矩形；

表示通过神经网络预测此条轨迹发生的概率，

表示预测碰撞时间。

在t时刻，若主车的安全外接矩形

和目标车辆n的安全外接矩形

不存在交集，认为不会发生碰撞，危险系数记为0.0；否则，将会按照式(4c)计算危险值，其中包括此条轨迹的预测概率

碰撞时间

以及预警时间。特别地，如果主车车体外接矩形

与目标车辆

产生交集，认为碰撞的可能性非常大，直接将该时刻的危险系数记为1.0。如图4a)，将轨迹投射到时空域如图4b)，在每一个时间t，检测矩形之间的几何关系，c)为无碰撞，d)为发生碰撞。

其中，碰撞时间的计算如式(4d)所示，即为目标车辆n在t时刻的预测状态

转化到主车局部Frenet坐标系下(上角标0)的坐标值与主车Frenet坐标系下的纵向位置求差，除以主车在s方向(纵向)上的速度。

附图1中给出了无控制信号的路口中，采用本发明中“预测导向型决策树搜索”方法的过程示意。其中：

a)图中加粗曲线路径代表根据道路形状预先生成的参考路径，可由路径规划器生成；(参考路径(转弯实线)是为主车生成的；车道中心线(转弯虚线)可以认为是地图模块生成的，供预测社会车辆轨迹使用)；

b)图表示经过对路口社会车辆的意图预测，确定出的目标车辆，标注为圆圈；

c)图表示基于神经网络预测出的目标车轨迹结果，主车候选轨迹与预测轨迹在时空的重合意味着潜在冲突的发生；

d)决策树搜索方法，动作由横向的路径选择(不同灰度颜色表示)和纵向的加速度选择(图形表示)共同构成，在每一层的筛选过程中，会对动作对应的状态进行安全性的评估，将得分排序。危险性＝0.0的动作将会直接被选作父节点进入下一轮的拓展，其余将根据排序重新筛选，危险性相对较小的选为父节点，其中危险性＝1.0即导致撞车的动作被视为不可行动作，其子节点的危险系数始终＝1.0，以保证大概率不被选出。

步骤6：选取最优动作序列

经步骤5，得到了一系列的动作之后，设计目标函数从多个角度对动作序列进行评价。对于每一个长度为搜索深度D的动作序列

其均伴随着在状态容器中的状态序列

和分数容器中的危险评分。所设计的目标函数

会考虑动作在安全

舒适状态

换道

与理想速度的偏差

和与目标位置的距离

这些代价，进行加权线性组合，如式(5)所示，其中λ为系数，乘上该项实际设置的代价值。最终，代价最低的动作序列

会被选出作为最优的决策结果。

安全是评价指标中最为重要的一项，表示的是主车和社会车辆相撞的可能性，如式(6)所示，其中F_safe为基础代价值，D为搜索深度，与对应状态(动作)的危险评分相乘，c_safe为归一化因子。

关于舒适度，将会考虑加速度和加加速度，如式(7)所示。

换道代价用参考车道的偏离代价来表示。因为在路口内，贸然转换方向是比较危险的，因此一旦发生换道，需要考虑换道代价。

实际的速度与理想速度之间的差异导致的代价如式(9)所示，与目标距离的代价如式(10)所示。

其中，γ为折损因子，考虑了随时间延长而增加的不确定性。

考虑到最优动作序列+车辆模型＝最优状态序列，由于车辆模型是固定的，所以给定了初始状态，最佳动作序列和最优状态序列是一一对应的，本实施例在确定最优动作序列后，将相应的最优状态序列作为辅助决策的结果，由副驾驶模块提供给主驾驶模块。

主驾驶模块根据收到的最优状态序列，以及对目标社会车辆的实时观测结果，即可进行轨迹平滑规划(轨迹指车辆状态按照时间展开的序列，包括每一个时刻，车辆应该处于的位置、速度、加速度等等；方法可以使用MPC，或者最优化的方法均可)和基于碰撞的冲突检测，当确定存在冲突时进行动作调整，更新轨迹规划，优选采用博弈模型。

本公开中认为辅助决策和轨迹规划可以并行运行。通常来看，决策属于宏观层面的行为，需要经过谨慎判断而且最好保持前后一致性；而规划的任务是根据环境的动态变化，需要及时调整轨迹确保安全和舒适。因此，本实施例中，副驾驶模块采用1Hz的运行频率，每次对目标车辆预测未来3s的轨迹，相应地，对最优动作序列的搜索深度为3s，即每次给出未来3s内的最优状态决策；主驾驶采用10Hz的频率，每一次调整动作，会重新生成未来1s的轨迹。

应用示例：

为了最大限度地还原交通场景的真实性，选用了真实场景采集的数据INTERACTION进行实验测试，此数据集收集了不同国家的各种交通交互场景的行驶数据，具有一定的挑战性。同时，为了进一步表示社会车辆对于主车行为的反应，做出了如下的仿真假设：当社会车辆和主车之间不存在危险冲突时，社会车辆按照原始数据集的轨迹行驶(反映人类司机真实驾驶特性)，当二者存在危险碰撞时，会基于车辆的真实驾驶风格生成动作池，采用随机采样的方式从动作池中选择出动作来控制车辆，以此反映交互的特性并且增加场景的随机多样性。

图5-7展示的是每种意图的代表性案例，包括直行通过路口的132号车，右转的88号车以及左转的144号车。图中，为了对比采用本公开方法的决策规划结果与人类司机实际驾驶结果，将由人类司机驾驶的主车表示为不带有任何标记矩形，本公开方法控制驱动的无人车用标号为‘ego’的矩形表示，每个规划周期产生的轨迹为加粗曲线。社会车辆用带有车辆标号的矩形表示，由其延申出的多条虚线代表预测的未来轨迹。

图5展示的是直行通过路口的132号车的行驶过程。截取了通行过程中的几个关键帧，分别是2.9s、3.9s、4.9s、5.6s、6.6s和7.1s帧。当132号主车即将进入路口时，与其首先发生交互的是128号社会车(圆圈标注)。因为有预测作为提前的判断,主车成功预测到了可能发生的危险，并产生了减速的礼貌行为，生成低速前进的一段轨迹。3.9s时，128号车辆已经通过主车正前方，主车在保证安全的前提下稍稍加速，提高通行效率。通过路口中央后，场景中不存在对主车构成危险的车辆，主车属于自由驾驶状态，保持平稳的加速度，通过路口。反观人类司机的行驶策略，由于缺乏对于路口待通行的其他车辆的合理和准确的预测，人类司机只能采取更加保守的行为，选择在路口外进行观望，浪费了等待的时间，降低了路口车辆的通行效率。

图6展示的是右转的88号车在行驶过程中的几个关键帧场景，包括2.5s、3.0s、3.5s、4.0s、4.5s和5.0s。在只考虑机动车的前提下，从路权角度考虑，右转的车辆需要让行直行的车辆以及左转的车辆。从图6中可以看出，当主车开始右转时，73号社会车(圆圈标注)正欲直行通过。由于73号车相比主车距离路口出口更近，且占有路权，因此主车的决策是减速让行73号车。从加速度曲线中也可以看出，在3.5s前，主车基本处于持续减速阶段。在确定73号车通过之后，主车根据实时的交通情况调节速度，平稳安全完成右转，与人类司机行为具有很高的相似性，很好的还原了人类司机的决断策略。

图7展示的是左转的144号车行驶过程，包括提取的几个关键帧：2.0s、3.0s、3.5s、4.0s、5.0s和6.0s。左转相对而言是较为复杂的。一是左转的车辆常常不固定车道，可能转大弯或是转小弯；另一个体现在车辆通过的路程相对较长，增加了与其他社会车辆交互的机率。在主车开始左转的阶段，其发现131号车辆(圆圈标注)正从其左边直行通过，因此主车选择减速让行，在4s前的持续的减速使其成功避让131号车。避开冲突车辆后，主车采用幅度较小的加速度提速，顺利通过路口。图8分别展示了图5-7中决策规划的速度和加速度曲线，可以看到主车会根据场景的实时动态变化，调节自身行为，保证安全且相对舒适。

为了定量地比较本方法(PGST)与人类司机驾驶效果(Ground Truth,GT)的差别，从决策规划过程的加速度方差、通行时间等方面进行对比。其中，速度方差可以体现出车辆整体前行的平稳状况，当在路口中发生频繁的“走-停”行为时，速度方差较大。从实验数据中可以看出，采用本框架规划的行进速度较为平稳，舒适度较高。通行时间指标主要用于衡量车辆的通行效率。通行时间短意味着车辆对于环境的理解能力更高，可以在更短的时间内融入路口环境中并实施自己的策略，而人类司机由于缺乏对于环境的长远预测，经常会在路口外犹豫不决，浪费很长时间。重规划次数指的是在某些认定的主车和社会车辆距离过近时进行的轨迹微调的行为。从表格中可以看出，本发明方法重规划的次数在接受范围内，同时，可以通过调节安全距离参数以及代价函数等来改变对于安全指标的考虑。

表1本发明方法与人类司机驾驶的决策规划结果比较

图5-7、9中使用虚线展示的均是目标车辆的预测结果。值得一提的是，神经网络在整个过程中的预测性能也是比较稳定的。例如直行场景中，正确预测出129号社会车左转轨迹，128号车直行通过，127号车右转。同时在右转场景中，面对逐渐放缓前行的80号车和84号车，预测出其未来的前进速度较慢，几乎保持静止。与之相对,对于将要驶出路口的71和73号车，根据其速度预测出将会加速驶出路口。可以看出，因神经网络的输入利用了环境中的道路信息，预测的轨迹几乎都被很好地约束在车道的可通行区域内，同时，由于图神经网络很好地表示出了车辆之间的相互影响作用，预测出的轨迹很少有彼此相矛盾的情况。

在大多数的情况下，所提出的PGST算法可以应对路口的避障问题，即说明预测模型的稳定性以及决策模块对于预测误差的包容性。但是当出现以下的情况时，会给决策规划系统造成一定的难题：(1)预测的偏差过大，例如误判了目标车辆的意图或者其动静的意向；(2)社会车辆动作的随机性，例如模拟的疲劳驾驶、酒驾等，增加了系统的不确定性；(3)车辆速度太快造成的安全距离预留不足。以上情况均是十分复杂的，图9中展示的57号车辆是一个典型的例子。实验中使用level-k博弈模型进行建模，通过博弈过程，主车可以确定出符合自身最大利益的动作，同时预测出目标车辆可能的动作，从而帮助更新对于目标车辆驾驶风格的估计。

从图9中可以看出，起始时，主车会陷入一个两难的境地，会面对来自左侧支路的大批涌入的车辆以及来自右边支路的52号社会车。开始阶段，面对55号社会车(三角形标注)，主车占有路权，所以率先通过冲突区域。然后主车开始和52号车(圆圈标注)交互。相较而言，52号车更加靠近冲突区域，同时依据“路口处右手边支路驶入的车辆具有优先权”的原则，主车做出了减速让行的决策。在6.8s时，主车和54号车(菱形标注)相距非常近，形成了对峙的局面。因为此时双方分不出明显的优先级，而且54号车行驶速度很慢，很难辨别出其真实的驾驶意图。处于安全的考虑，主车主动降低速度来保证安全。与此同时，受到随机采样模型控制动作的54号车，做出了加速的反应来打破双方死锁的僵局。最终，54号车轻微加速通过冲突区，而主车停车让行，直至9.8s。之后，54号车驶入主车前行位置前方，主车开始跟车行驶。

可见，本公开提出的自动驾驶决策方案，充分考虑了道路行驶过程中车辆间的交互行为以及不确定性，能够理解并预测动态环境的发展态势，预测结果引导的驾驶决策模型在测试场景中表现出比人类司机更优的性能。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。