CN115204455A

CN115204455A - 适用于高速与环路交通场景的长时域驾驶行为决策方法

Info

Publication number: CN115204455A
Application number: CN202210589496.5A
Authority: CN
Inventors: 王建强; 许庆; 崔明阳; 杨奕彬; 郑昊天
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-10-18

Abstract

本申请涉及车辆技术领域，特别涉及一种适用于高速与环路交通场景的长时域驾驶行为决策方法，包括：获取自车的全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态；根据全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态生成自车的最优驾驶行为序列；基于最优驾驶行为序列的第一个驾驶行为规划自车的行驶轨迹，并在控制自车基于行驶轨迹执行第一个驾驶行为之后，重新生成最优驾驶行为序列，直到完成全局规划路径。由此，本申请实施例可以实现换道间隙选择与变道超越等驾驶行为的多步决策，具有前瞻性；同时基于可行性判别，给出对长时域驾驶行为序列规划的最优解，兼顾安全与高效，满足一般驾驶的需要。

Description

适用于高速与环路交通场景的长时域驾驶行为决策方法

技术领域

本申请涉及车辆技术领域，特别涉及一种适用于高速与环路交通场景的长时域驾驶行为决策方法。

背景技术

驾驶决策一般分为全局路径规划(车道级)、驾驶行为规划(换道、避让等语义驾驶行为)及运动轨迹规划(目标驾驶行为的具体运动轨迹)。

传统行为规划方法以单步规划为主，具有较为短视的缺点，无法规划多行为序列以实现更长期的最优驾驶。而以高速公路场景为例，长时域行为决策的难点，在于在决策过程中需融合对周车的交互行为预测，并实现复杂决策问题的实时求解。

发明内容

本申请提供一种适用于高速与环路交通场景的长时域驾驶行为决策方法、装置、车辆及存储介质，可以实现换道间隙选择与变道超越等驾驶行为的多步决策，具有前瞻性；同时基于可行性判别，给出对长时域驾驶行为序列规划的最优解，兼顾安全与高效，满足一般驾驶的需要。

本申请第一方面实施例提供一种适用于高速与环路交通场景的长时域驾驶行为决策方法，包括以下步骤：获取自车的全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态；根据所述全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态生成所述自车的最优驾驶行为序列；基于所述最优驾驶行为序列的第一个驾驶行为规划所述自车的行驶轨迹，并在控制所述自车基于所述行驶轨迹执行所述第一个驾驶行为之后，重新生成所述最优驾驶行为序列，直到完成所述全局规划路径。

可选地，所述根据所述全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态生成所述自车的最优驾驶行为序列，包括：以所述自车的当前运动状态和区域内所有周围车辆的当前运动状态为根节点，依次选择最优的子节点，直至叶子结点；在所述叶子结点处，计算所述自车在所有驾驶行为下的新子节点状态，并基于所述自车的运动模型和所述区域内所有周围车辆的运动模型对每个新子节点状态进行可达性计算，得到可达节点；在所有可达子节点中，随机选择一个子节点作为拓展节点，并从所述拓展节点出发，基于Rollout策略抵达目标状态，得到模拟结果；基于所述模拟结果进行反向传播，更新子节点路径上所有节点的评价值，直到满足迭代停止条件，并根据所述所有节点的评价值确定最优路径，基于所述最优路径上的节点对应的驾驶行为生成所述最优驾驶行为序列。

可选地，每个节点中均保存有所述自车和区域内所有周围车辆的运动状态，并基于所述自车的运动模型和所述区域内所有周围车辆的运动模型更新每个节点中所述自车和区域内所有周围车辆的运动状态。

可选地，基于所述自车的运动模型和所述区域内所有周围车辆的运动模型对每个新子节点状态进行可达节点计算，得到可达节点，包括：根据所述自车的当前运动状态和区域内所有周围车辆的当前运动状态预测所述区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果；基于横向与纵向行为预测结果匹配所述区域内所有周围车辆的运动模型，基于所述自车的运动模型和所述区域内所有周围车辆的运动模型验证每个新子节点状态是否满足所述自车的行为约束条件；在满足所述自车的行为约束条件时，确定节点可达。

可选地，根据所述自车的当前运动状态和区域内所有周围车辆的当前运动状态预测所述区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果，包括：将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的换道行为预测动态贝叶斯网络，输出所述区域内所有周围车辆的换道行为置信度，其中，所述换道行为预测动态贝叶斯网络中的变量信息包括换道区、换道意图、换道驱动、车道线横向距离、横向速度、与前车速度差和纵向距离差；将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的让行行为预测动态贝叶斯网络，输出所述让行置信度，其中，所述让行行为预测动态贝叶斯网络中的变量信息包括速度条件、距离条件、让行意图、自车纵向位置、自车纵向速度、后车纵向位置、后车纵向速度和让行与抢行完成标志。

可选地，在所述自车的运动模型和所述周围车辆的运动模型中，每个驾驶行为对应的纵向加速度和完成一个序列的时间均为预设值；所述周围车辆的运动模型还包括：对于纵向跟随行为，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型(Intelligence Driver Model，智能驱动模型)；对于纵向让行行为，在车辆前方生成虚拟前车，并基于IDM模型控制所述车辆的纵向车速，在周围车辆之间存在冲突时，靠后车辆让行，并在周围车辆与所述自车冲突时，在让车置信度大于第一预设置信度时，确定所述周围车辆让行；对于横向变道行为，在变道车辆变换至最外侧车道、且每次变换一个车道时，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型，在变道车辆与原车道车辆存在冲突时，靠后车辆让行，并在换道置信度大于第二预设置信度时，确定所述变道车辆存在变道行为。

可选地，所述行为约束条件包括碰撞检验、让行校验、可行驶区域校验、最高车速校验和终点位置校验，其中，所述碰撞检验包括：在所述自车的驾驶行为结束后，判断所述自车与车道前车与后车的车距和时距是否均大于约束值，如果大于，则判定所述驾驶行为可行，否则，则判定所述驾驶行为不可行，其中，将对于非车辆的障碍物虚拟为与所述障碍物速度相同的周围车辆；所述让行校验包括：在所述自车执行换道行为时，如果与所述自车冲突车辆的让行置信度小于预设置信度时，判定所述换道行为不可行，否则，判定所述换道行为可行；所述可行驶区域校验包括：在所述自车的驾驶行为结束后，如果所述自车的位置未处于可行驶区域内，则判定所述驾驶行为不可行，否则，则判定所述驾驶行为可行；所述最高车速校验包括：在所述自车的加速行为开始时，如果所述自车的车速大于或等于当前位置的速度限值，则判定加速不可行，否则，在加速行为结束后，如果所述自车的车速大于或等于当前位置的速度限值，确定所述自车的最高车速为所述速度限值；所述终点位置校验包括：在所述自车的驾驶行为结束后，如果所述自车的纵向位置超过目标位置，且未处于目标车道内，则判定所述驾驶行为不可行。

可选地，所述驾驶行为包括加速直行、匀速直行、减速直行、左换道、右换道中的任意一种。

本申请第二方面实施例提供一种适用于高速与环路交通场景的长时域驾驶行为决策装置，包括：信息获取模块，用于获取自车的全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态；决策模块，用于根据所述全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态生成所述自车的最优驾驶行为序列；控制模块，用于基于所述最优驾驶行为序列的第一个驾驶行为规划所述自车的行驶轨迹，并在控制所述自车基于所述行驶轨迹执行所述第一个驾驶行为之后，重新生成所述最优驾驶行为序列，直到完成所述全局规划路径。

可选地，所述决策模块用于：以所述自车的当前运动状态和区域内所有周围车辆的当前运动状态为根节点，依次选择最优的子节点，直至叶子结点；在所述叶子结点处，计算所述自车在所有驾驶行为下的新子节点状态，并基于所述自车的运动模型和所述区域内所有周围车辆的运动模型对每个新子节点状态进行可达性计算，得到可达节点；在所有可达子节点中，随机选择一个子节点作为拓展节点，并从所述拓展节点出发，基于Rollout策略抵达目标状态，得到模拟结果；基于所述模拟结果进行反向传播，更新子节点路径上所有节点的评价值，直到满足迭代停止条件，并根据所述所有节点的评价值确定最优路径，基于所述最优路径上的节点对应的驾驶行为生成所述最优驾驶行为序列。

可选地，所述决策模块进一步用于：根据所述自车的当前运动状态和区域内所有周围车辆的当前运动状态预测所述区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果；基于横向与纵向行为预测结果匹配所述区域内所有周围车辆的运动模型，基于所述自车的运动模型和所述区域内所有周围车辆的运动模型验证每个新子节点状态是否满足所述自车的行为约束条件；在满足所述自车的行为约束条件时，确定节点可达。

可选地，所述决策模块进一步用于：将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的换道行为预测动态贝叶斯网络，输出所述区域内所有周围车辆的换道行为置信度，其中，所述换道行为预测动态贝叶斯网络中的变量信息包括换道区、换道意图、换道驱动、车道线横向距离、横向速度、与前车速度差和纵向距离差；将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的让行行为预测动态贝叶斯网络，输出所述让行置信度，其中，所述让行行为预测动态贝叶斯网络中的变量信息包括速度条件、距离条件、让行意图、自车纵向位置、自车纵向速度、后车纵向位置、后车纵向速度和让行与抢行完成标志。

可选地，在所述自车的运动模型和所述周围车辆的运动模型中，每个驾驶行为对应的纵向加速度和完成一个序列的时间均为预设值；所述周围车辆的运动模型还包括：对于纵向跟随行为，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型；对于纵向让行行为，在车辆前方生成虚拟前车，并基于IDM模型控制所述车辆的纵向车速，在周围车辆之间存在冲突时，靠后车辆让行，并在周围车辆与所述自车冲突时，在让车置信度大于第一预设置信度时，确定所述周围车辆让行；对于横向变道行为，在变道车辆变换至最外侧车道、且每次变换一个车道时，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型，在变道车辆与原车道车辆存在冲突时，靠后车辆让行，并在换道置信度大于第二预设置信度时，确定所述变道车辆存在变道行为。

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的适用于高速与环路交通场景的长时域驾驶行为决策方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的适用于高速与环路交通场景的长时域驾驶行为决策方法。

由此，本申请至少具有如下有益效果：

可以针对高速路、环路等多车道驾驶场景，基于MCTS(The monte carlo searchtree，蒙特卡洛树搜索)，通过耦合考虑高速公路场景下最优决策目标与周车行为响应预测，实现换道间隙选择与变道超越等驾驶行为的多步决策，具有前瞻性；同时基于可行性判别，给出对长时域驾驶行为序列规划的最优解，兼顾安全与高效，满足一般驾驶的需要。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种适用于高速与环路交通场景的长时域驾驶行为决策方法的流程图；

图2根据本申请实施例的为高速路车道弗莱纳坐标系示意图；

图3根据本申请实施例的为决策系统整体工作流程图；

图4根据本申请实施例的为行为决策算法功能示意图；

图5根据本申请实施例的行为决策过程示意图；

图6根据本申请实施例的为换道行为预测动态贝叶斯网络示意图；

图7根据本申请实施例的为让行行为预测动态贝叶斯网络示意图；

图8为根据本申请实施例的适用于高速与环路交通场景的长时域驾驶行为决策装置的示例图；

图9为根据本申请实施例的车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面将参考附图描述本申请实施例的适用于高速与环路交通场景的长时域驾驶行为决策方法、装置、车辆及存储介质。针对上述背景技术中提到的问题，本申请提供了一种适用于高速与环路交通场景的长时域驾驶行为决策方法，具体而言，图1为本申请实施例所提供的一种适用于高速与环路交通场景的长时域驾驶行为决策方法的流程示意图。

如图1所示，该适用于高速与环路交通场景的长时域驾驶行为决策方法包括以下步骤：

在步骤S101中，获取自车的全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态。

其中，本申请实施例可以通过多种方式获取自车的全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态等，对此不作具体限定。

需要说明的是，在本申请实施例可以将以上道路、车辆位置信息，由笛卡尔坐标系转换为以参考车道中心线为基础的弗莱纳坐标系，其中，高速路车道弗莱纳坐标系可以如图2所示，弗莱纳坐标系上点的位置坐标可以表达为：

(纵向位移s,到参考线位移d)。

在步骤S102中，根据全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态生成自车的最优驾驶行为序列。

其中，驾驶行为可以包括加速直行、匀速直行、减速直行、左换道、右换道中的任意一种。

可以理解的是，本申请实施例可以基于高精度地图、全局路径规划、车流平均车速，计算自车多步行为后期望抵达的目标车道、纵向距离，以生成最优驾驶行为序列。例如，本申请实施例可以计算6步行为后期望抵达的目标车道、纵向距离，且每一步可采取固定时长，如4s等。

具体而言，如图3所示，本申请实施例可以将高精度地图、地图上的全局路径规划、区域内周车运动状态和自车运动状态等作为上层输入，并可以通过决策器规划最优的驾驶行为序列，其中，决策器可以如图4所示，可以根据输入的区域内全局交通信息(道路高精度地图、周车运动状态、自车全局路径规划、道路限速、交通管制等其他信息等)，规划得到如左并道→加速直行→匀速直行→右并道→匀速直行等的驾驶行为序列。

在本申请实施例中，根据全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态生成自车的最优驾驶行为序列，包括：以自车的当前运动状态和区域内所有周围车辆的当前运动状态为根节点，依次选择最优的子节点，直至叶子结点；在叶子结点处，计算自车在所有驾驶行为下的新子节点状态，并基于自车的运动模型和区域内所有周围车辆的运动模型对每个新子节点状态进行可达性计算，得到可达节点；在所有可达子节点中，随机选择一个子节点作为拓展节点，并从拓展节点出发，基于Rollout策略抵达目标状态，得到模拟结果；基于模拟结果进行反向传播，更新子节点路径上所有节点的评价值，直到满足迭代停止条件，并根据所有节点的评价值确定最优路径，基于最优路径上的节点对应的驾驶行为生成最优驾驶行为序列。

可以理解的是，本申请实施例可以提供一种生成最优驾驶序列的算法，以利用该算法生成最优驾驶行为序列。具体而言，如图5所示，本申请实施例适用于高速与环路交通场景的长时域驾驶行为决策算法如下：

输入：高精度地图(含全局目标路径)、区域周车运动状态、自车运动状态；

输出：最优的驾驶行为序列。

1：初始化。以初始时刻的自车、周车状态为根节点。

2：选择。从根节点开始，基于评价值，依次选择最优的子节点，直至叶子结点。

3：可达节点计算。不满足终止条件：在该叶子节点处，计算所有自车行为下的新子节点状态。其中，自车、周车状态变化分别基于提出的运动模型计算。进行可达性校验，筛选出可行的驾驶行为，及对应的可达节点。

满足终止条件：停止循环，进入步骤7。

4：模拟。在所有可达子节点中，随机选择一个子节点作为本轮拓展节点。从该节点出发，基于Rollout策略抵达目标状态。

5：反向传播。基于模拟结果，更新子节点路径上所有节点的评价值。

6：循环执行步骤2至步骤5。

7：返回：与子节点选择路径对应的自车行为序列。

在本申请实施例中，每个节点中均保存有自车和区域内所有周围车辆的运动状态，并基于自车的运动模型和区域内所有周围车辆的运动模型更新每个节点中自车和区域内所有周围车辆的运动状态。

可以理解的是，在MCTS中，每个节点保存了该步所有车辆运动状态(含自车、周车)，与前、后节点连接关系(即自车采取的驾驶行为)，及本节点的被访问次数、评价函数值。基于某个节点，在自车采取某行为、经历一个步长后，需要更新生成节点中的车辆运动状态。其中，为存储区域内所有车辆的运动状态及位置关系，本申请实施例可以针对每条车道建立链表；链表中，每个单元存储对应车辆运动状态(纵向位置、纵向速度)，及本单元前、后相邻单元(即前、后车关系)。当车辆进行换道时(含自车、周车)，首先根据纵向位置判断冲突关系及换道后与冲突车的前后位置关系，并基于链表的前后连接关系更新所涉及车道的链表。

在本申请实施例中，基于自车的运动模型和区域内所有周围车辆的运动模型对每个新子节点状态进行可达节点计算，得到可达节点，包括：根据自车的当前运动状态和区域内所有周围车辆的当前运动状态预测区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果；基于横向与纵向行为预测结果匹配区域内所有周围车辆的运动模型，基于自车的运动模型和区域内所有周围车辆的运动模型验证每个新子节点状态是否满足自车的行为约束条件；在满足自车的行为约束条件时，确定节点可达。

可以理解的是，本申请实施例可以基于设计的周车横向-纵向行为预测，设计自车、周车的运动模型；并基于上述运动模型，设计行为可行性校验。下面将分别对周车横向-纵向行为预测、自车和周车的运动模型设计以及可行性校验进行阐述，具体如下：

在本申请实施例中，根据自车的当前运动状态和区域内所有周围车辆的当前运动状态预测区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果，包括：将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的换道行为预测动态贝叶斯网络，输出区域内所有周围车辆的换道行为置信度，其中，换道行为预测动态贝叶斯网络中的变量信息包括换道区、换道意图、换道驱动、车道线横向距离、横向速度、与前车速度差和纵向距离差；将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的让行行为预测动态贝叶斯网络，输出让行置信度，其中，让行行为预测动态贝叶斯网络中的变量信息包括速度条件、距离条件、让行意图、自车纵向位置、自车纵向速度、后车纵向位置、后车纵向速度和让行与抢行完成标志。

可以理解的是，本申请实施例可以基于动态贝叶斯网络，输出周车换道行为置信度和周车直行时让行行为置信度，其中，置信度可以是指统计学中样本的某个总体参数的真实值有一定概率落在测量结果的周围的程度。

具体而言，本申请实施例的周车横向-纵向行为预测的具体步骤如下：

(1)在换道行为预测中，对于每一辆车，输入其过去3s的行驶信息，可采用固定帧率，比如10fps、30帧等；每一帧输入信息可以包括：到车道线横向距离、横向速度、该车与前车速度差、纵向距离差。

用于换道行为预测的动态贝叶斯网络结构可以如图6所示，其参数标定基于场景下自然驾驶数据与EM算法(Expectation-Maximum，期望值最大算法)训练生成，箭头代表各个变量之间具有的条件概率关系。其中，隐变量分别为换道区G、换道意图C、换道驱动ActA，构成该车换道决策潜在影响变量；显变量分别为到车道线横向距离s、横向速度v、该车与前车速度差Dv、纵向距离差Dl，作为预测器的可观测信息；预测器以最后一帧时该车的换道置信度C为输出。

(2)在让行行为预测中，对于自车变道过程中具有潜在冲突车的周车，输入其过去2s的行驶信息，可采用固定帧率，比如10fps、20帧等；每一帧输入信息可以包括：自车纵向位置、自车纵向速度、冲突车纵向位置、冲突车纵向速度。其中，最后一帧的时刻，应与进行自车换道决策的时刻对齐。

用于让行行为预测的动态贝叶斯网络结构可以如图7所示，其参数标定基于场景下自然驾驶数据与EM算法训练生成，箭头代表各个变量之间具有的条件概率关系；其中，隐变量分别为速度条件VGap、距离条件DGap和让行意图Y，构成该车换道决策潜在影响变量；显变量分别为自车纵向位置De、自车纵向速度Ve、冲突车纵向位置Do、冲突车纵向速度Vo，以及让行、抢行完成标志M，作为预测器的可观测信息；预测器以最后一帧时该车的让行置信度Y为输出。

在本申请实施例中，在自车的运动模型和周围车辆的运动模型中，每个驾驶行为对应的纵向加速度和完成一个序列的时间均为预设值；周围车辆的运动模型还包括：对于纵向跟随行为，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型(Intelligence Driver Model，智能驱动模型)；对于纵向让行行为，在车辆前方生成虚拟前车，并基于IDM模型控制车辆的纵向车速，在周围车辆之间存在冲突时，靠后车辆让行，并在周围车辆与自车冲突时，在让车置信度大于第一预设置信度时，确定周围车辆让行；对于横向变道行为，在变道车辆变换至最外侧车道、且每次变换一个车道时，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型，在变道车辆与原车道车辆存在冲突时，靠后车辆让行，并在换道置信度大于第二预设置信度时，确定变道车辆存在变道行为。

其中，第一、第二预设置信度可以根据实际情况进行具体设置等，对此不做具体限定。

可以理解的是，本申请实施例可以基于上述对周围车辆的横向与纵向行为预测，设计生成自车、周车的运动模型。具体而言，本申请实施例对自车、周车运动模型的设计如下：

(1)对自车运动模型的设计：

设计自车行为可以包括5种：加速直行、匀速直行、减速直行、左换道、右换道。其中，各个行为对应的纵向加速度采取固定值，固定值大小适应于场景；完成每一步的时间采取固定值，固定值大小适应于场景。

(2)对前车、后车的周车运动模型的设计：

周车行为模型可以包含两类纵向行为(跟随与让行)及两类横向行为(左并道与右并道)，行为置信度如上述实施例中的计算结果；周车运动模型参数采取固定值，固定值大小适应于场景，且完成每一步的时间与自车运动模型设定一致。

对于横向变道行为，本申请实施例可以假定变道车将变换至最外侧车道、每步变道一条；变道过程中，纵向速度模型与纵向跟随一致。当与原车道车辆具有潜在冲突时，变道后的两车前后顺序以变道起始时刻判断，靠后方车辆执行纵向让行行为。当换道置信度C大于第一预设置信度(比如大于80％时)，认为换道发生。

对于纵向跟随行为，本申请实施例可以假定观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型；对于纵向让行行为，本申请实施例可以在其前方生成虚拟前车，并基于IDM模型控制其纵向车速。因此，当周车之间发生冲突，本申请实施例可以假定靠后车一定让行，当周车与自车冲突，则其让车置信度Y大于第二预设置信度(比如大于80％)时假设让行。

在本申请实施例中，行为约束条件包括碰撞检验、让行校验、可行驶区域校验、最高车速校验和终点位置校验，其中，碰撞检验包括：在自车的驾驶行为结束后，判断自车与车道前车与后车的车距和时距是否均大于约束值，如果大于，则判定驾驶行为可行，否则，则判定驾驶行为不可行，其中，将对于非车辆的障碍物虚拟为与障碍物速度相同的周围车辆；让行校验包括：在自车执行换道行为时，如果与自车冲突车辆的让行置信度小于预设置信度时，判定换道行为不可行，否则，判定换道行为可行；可行驶区域校验包括：在自车的驾驶行为结束后，如果自车的位置未处于可行驶区域内，则判定驾驶行为不可行，否则，则判定驾驶行为可行；最高车速校验包括：在自车的加速行为开始时，如果自车的车速大于或等于当前位置的速度限值，则判定加速不可行，否则，在加速行为结束后，如果自车的车速大于或等于当前位置的速度限值，确定自车的最高车速为速度限值；终点位置校验包括：在自车的驾驶行为结束后，如果自车的纵向位置超过目标位置，且未处于目标车道内，则判定驾驶行为不可行。

其中，自车与车道前车与后车的车距和时距的约束值、让行行为和换道行为的预设置信度可以根据实际情况进行具体设置等，对此不作具体限定。

可以理解的是，本申请实施例在MCTS运行过程中，需保证生成的每一个子节点具有可达性，即：基于设定的运动模型，自车采取该行为时满足可行性约束条件。其中，本申请实施例对自车行为的约束条件及校验方式具体如下：

(1)碰撞检验。自车行为结束后，其与车道前、后车的车距、时距应大于约束值，否则认为该行为不可行；对于非车辆的其他障碍物，将其虚拟为速度相同的周车。

(2)让行校验。执行换道时，若潜在冲突车辆的让行置信度小于预设置信度，比如小于80％等，则判断该自车换道行为不可行。

(3)可行驶区域校验。行为结束后，若车辆位置不在地图可行驶区域内，认为该行为不可行。

(4)最高车速。加速行为开始时，若车速大于或等于该位置处限速，则认为加速不可行；加速行为结束后，若车速高于该位置处限速，则加速可行但末速度应等于限速。

(5)终点位置校验。行为结束后，若自车纵向位置越过目标位置，且不处于目标车道上，则认为行为不可行。

在本申请实施例中，本申请实施例还设计了Rollout模拟机制，以对最终抵达目的地的完整策略进行评价。具体地，在MCTS迭代运行过程中，若拓展节点未抵达终点，则本申请实施例可以采取Rollout模拟其抵达目的地的剩余行为序列。本申请实施例所采取的Rollout机制为一种固定策略：首先并入目标车道，其后保持匀速行驶直到目的地；其中，在模拟过程中，不考虑上述实施例中的可行性约束。

在本申请实施例中，本申请实施例还设计了评价函数，以用于策略评价和节点评价值更新，具体设计如下：

(1)策略评价：对于一条完整策略，评价函数Q_policy表达为行为步数S、换道次数H、节点所在车道与目标车道距离L、节点车速V等四方面信息的线性加权之和。权重系数适应于场景，应用该评价函数，可鼓励生成运行速度快、避免过多换道的行为序列。其中，评价函数Q_policy表达公式如下：

Q_policy＝a×S+b×H+c×L+d×V。

(2)节点评价值更新：基于对策略的评价，更新策略上所有节点的评价值。采用UCB1算法(Upper Confidence Bound，置信区间上界算法)，计算公式如下：

Q_i＝α×Q_i+β×Q_policy，

其中，Q_i为i节点Q值，更新方法为此前Q值与新策略Q_policy加权和；评价函数R_i表达为Q_i与此节点被探索情况函数的加权和；其中，T_i为策略经过i节点的次数；各项权重适应于场景。

在本申请实施例中，本申请实施例还进行了迭代终止的设计，包括终止标志：迭代次数限制和计算时间限制；其中，迭代终止标志为迭代次数与计算时间二者首先满足的标志即生效，退出迭代，且标志取值适应于场景。

在步骤S103中，基于最优驾驶行为序列的第一个驾驶行为规划自车的行驶轨迹，并在控制自车基于行驶轨迹执行第一个驾驶行为之后，重新生成最优驾驶行为序列，直到完成全局规划路径。

其中，如图3所示，本申请实施例可以将上述步骤中自车行为的终态目标位置和速度作为下层输出，输出给下层规划器，以进行具体行驶轨迹规划。

可以理解的是，本申请实施例可以在生成目标最优驾驶行为序列后，使自车仅执行其中第一个驾驶行为，并待该行为执行结束后，基于自车对该驾驶行为的执行结果和更新的场景状态信息循环执行上述决策过程，直至车辆抵达目标地。

下面将通过根据本申请实施例的一个具体算法对适用于高速与环路交通场景的长时域驾驶行为决策方法进行阐述，如图3所示，具体如下：

1、计算目标状态(首先进行弗莱纳坐标转换，并基于地图、全局路径与自车、周车状态，估计6步后的自车期望位置与运动状态)。

2、周车横向-纵向行为预测：

2.1、换道行为预测：基于动态贝叶斯网络，输出周车换道行为置信度；

2.2、让行行为预测：基于动态贝叶斯网络，输出周车直行时“让行”行为置信度。

3、基于MCTS的长时域驾驶行为决策：

3.1、自车运动模型设计(加速直行、匀速直行、减速直行、左换道、右换道)；

3.2、周车运动模型设计(纵向：跟随、让车；横向：左/右换道)，其中，行为预测由前述“周车横向-纵向行为预测”模块给出；

3.3、节点状态更新：针对每条车道建立链表储存各车运动状态，状态更新时，基于前述自车、周车运动模型进行更新；

3.4、行为可行性校验(碰撞检验、可行驶区域检验等)；

3.5、Rollout模拟机制设计(固定策略：先并入目标车道，后匀速直线行驶至目标)；

3.6、评价函数设计(策略评价与节点评价更新)；

3.7、迭代终止设计(终止标志：迭代次数限制、计算时间限制)。

4、输出：计算最优序列第一步行为的终状态，并转换回笛卡尔坐标系以输出。

5、循环执行：车辆驾驶行为执行结束后，重复过程1～4。若执行过程中发现行为不可行，则采取避险驾驶策略。

综上，本申请实施例可以获取场景状态信息，包含自车及周围车辆的运动状态、道路的几何结构、交规约束和计划抵达的目标位置；接着基于MCTS算法优化求解长时域驾驶行为序列，其中，在驾驶行为的迭代求解过程中，周车在横向-纵向上的换道、让行意图分别由对应的动态贝叶斯网络辨识，并考虑碰撞约束、道路结构与法规约束，保障生成驾驶策略的可行性；生成目标行为序列后，车辆仅执行其中第一个行为，并待该行为执行结束后，基于更新的场景状态信息循环执行上述决策过程，直至车辆抵达目标地。本申请实施例主要适用于高速公路、城市环路等结构化道路场景下的智能驾驶车辆应用，并具有实现多步决策、生成高可行性较优解的功能，有助于综合提升智能车运行的安全性与效率。

根据本申请实施例提出的适用于高速与环路交通场景的长时域驾驶行为决策方法，可以针对高速路、环路等多车道驾驶场景，基于MCTS，通过耦合考虑高速公路场景下最优决策目标与周车行为响应预测，实现换道间隙选择与变道超越等驾驶行为的多步决策，具有前瞻性；同时基于可行性判别，给出对长时域驾驶行为序列规划的最优解，兼顾安全与高效，满足一般驾驶的需要。

其次参照附图描述根据本申请实施例提出的适用于高速与环路交通场景的长时域驾驶行为决策装置。

图8是本申请实施例的适用于高速与环路交通场景的长时域驾驶行为决策装置的方框示意图。

如图8所示，该适用于高速与环路交通场景的长时域驾驶行为决策装置10包括：信息获取模块100、决策模块200和控制模块300。

其中，信息获取模块100用于获取自车的全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态；决策模块200用于根据全局规划路径、自车的当前运动状态和区域内所有周围车辆的当前运动状态生成自车的最优驾驶行为序列；控制模块300用于基于最优驾驶行为序列的第一个驾驶行为规划自车的行驶轨迹，并在控制自车基于行驶轨迹执行第一个驾驶行为之后，重新生成最优驾驶行为序列，直到完成全局规划路径。

在本申请实施例中，决策模块200用于：以自车的当前运动状态和区域内所有周围车辆的当前运动状态为根节点，依次选择最优的子节点，直至叶子结点；在叶子结点处，计算自车在所有驾驶行为下的新子节点状态，并基于自车的运动模型和区域内所有周围车辆的运动模型对每个新子节点状态进行可达性计算，得到可达节点；在所有可达子节点中，随机选择一个子节点作为拓展节点，并从拓展节点出发，基于Rollout策略抵达目标状态，得到模拟结果；基于模拟结果进行反向传播，更新子节点路径上所有节点的评价值，直到满足迭代停止条件，并根据所有节点的评价值确定最优路径，基于最优路径上的节点对应的驾驶行为生成最优驾驶行为序列。

在本申请实施例中，决策模块200进一步用于：根据自车的当前运动状态和区域内所有周围车辆的当前运动状态预测区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果；基于横向与纵向行为预测结果匹配区域内所有周围车辆的运动模型，基于自车的运动模型和区域内所有周围车辆的运动模型验证每个新子节点状态是否满足自车的行为约束条件；在满足自车的行为约束条件时，确定节点可达。

在本申请实施例中，决策模块200进一步用于：将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的换道行为预测动态贝叶斯网络，输出区域内所有周围车辆的换道行为置信度，其中，换道行为预测动态贝叶斯网络中的变量信息包括换道区、换道意图、换道驱动、车道线横向距离、横向速度、与前车速度差和纵向距离差；将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的让行行为预测动态贝叶斯网络，输出让行置信度，其中，让行行为预测动态贝叶斯网络中的变量信息包括速度条件、距离条件、让行意图、自车纵向位置、自车纵向速度、后车纵向位置、后车纵向速度和让行与抢行完成标志。

在本申请实施例中，决策模块200进一步用于：对于纵向跟随行为，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型；对于纵向让行行为，在车辆前方生成虚拟前车，并基于IDM模型控制车辆的纵向车速，在周围车辆之间存在冲突时，靠后车辆让行，并在周围车辆与自车冲突时，在让车置信度大于第一预设置信度时，确定周围车辆让行；对于横向变道行为，在变道车辆变换至最外侧车道、且每次变换一个车道时，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型，在变道车辆与原车道车辆存在冲突时，靠后车辆让行，并在换道置信度大于第二预设置信度时，确定变道车辆存在变道行为。

在本申请实施例中，驾驶行为包括加速直行、匀速直行、减速直行、左换道、右换道中的任意一种。

需要说明的是，前述对适用于高速与环路交通场景的长时域驾驶行为决策方法实施例的解释说明也适用于该实施例的适用于高速与环路交通场景的长时域驾驶行为决策装置，此处不再赘述。

根据本申请实施例提出的适用于高速与环路交通场景的长时域驾驶行为决策装置，可以针对高速路、环路等多车道驾驶场景，基于MCTS，通过耦合考虑高速公路场景下最优决策目标与周车行为响应预测，实现换道间隙选择与变道超越等驾驶行为的多步决策，具有前瞻性；同时基于可行性判别，给出对长时域驾驶行为序列规划的最优解，兼顾安全与高效，满足一般驾驶的需要。

图9为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序。

处理器902执行程序时实现上述实施例中提供的适用于高速与环路交通场景的长时域驾驶行为决策方法。

进一步地，车辆还包括：

通信接口903，用于存储器901和处理器902之间的通信。

存储器901，用于存放可在处理器902上运行的计算机程序。

存储器901可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器901、处理器902和通信接口903独立实现，则通信接口903、存储器901和处理器902可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器901、处理器902及通信接口903，集成在一块芯片上实现，则存储器901、处理器902及通信接口903可以通过内部接口完成相互间的通信。

处理器902可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的适用于高速与环路交通场景的长时域驾驶行为决策方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种适用于高速与环路交通场景的长时域驾驶行为决策方法，其特征在于，包括以下步骤：

获取自车的全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态；

根据所述全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态生成所述自车的最优驾驶行为序列；以及

基于所述最优驾驶行为序列的第一个驾驶行为规划所述自车的行驶轨迹，并在控制所述自车基于所述行驶轨迹执行所述第一个驾驶行为之后，重新生成所述最优驾驶行为序列，直到完成所述全局规划路径。

2.根据权利要求1所述的方法，其特征在于，所述根据所述全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态生成所述自车的最优驾驶行为序列，包括：

以所述自车的当前运动状态和区域内所有周围车辆的当前运动状态为根节点，依次选择最优的子节点，直至叶子结点；

在所述叶子结点处，计算所述自车在所有驾驶行为下的新子节点状态，并基于所述自车的运动模型和所述区域内所有周围车辆的运动模型对每个新子节点状态进行可达性计算，得到可达节点；

在所有可达子节点中，随机选择一个子节点作为拓展节点，并从所述拓展节点出发，基于Rollout策略抵达目标状态，得到模拟结果；

基于所述模拟结果进行反向传播，更新子节点路径上所有节点的评价值，直到满足迭代停止条件，并根据所述所有节点的评价值确定最优路径，基于所述最优路径上的节点对应的驾驶行为生成所述最优驾驶行为序列。

3.根据权利要求2所述的方法，其特征在于，其中，每个节点中均保存有所述自车和区域内所有周围车辆的运动状态，并基于所述自车的运动模型和所述区域内所有周围车辆的运动模型更新每个节点中所述自车和区域内所有周围车辆的运动状态。

4.根据权利要求2所述的方法，其特征在于，基于所述自车的运动模型和所述区域内所有周围车辆的运动模型对每个新子节点状态进行可达节点计算，得到可达节点，包括：

根据所述自车的当前运动状态和区域内所有周围车辆的当前运动状态预测所述区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果；

基于横向与纵向行为预测结果匹配所述区域内所有周围车辆的运动模型，基于所述自车的运动模型和所述区域内所有周围车辆的运动模型验证每个新子节点状态是否满足所述自车的行为约束条件；

在满足所述自车的行为约束条件时，确定节点可达。

5.根据权利要求4所述的方法，其特征在于，根据所述自车的当前运动状态和区域内所有周围车辆的当前运动状态预测所述区域内所有周围车辆的横向与纵向行为，得到横向与纵向行为预测结果，包括：

将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的换道行为预测动态贝叶斯网络，输出所述区域内所有周围车辆的换道行为置信度，其中，所述换道行为预测动态贝叶斯网络中的变量信息包括换道区、换道意图、换道驱动、车道线横向距离、横向速度、与前车速度差和纵向距离差；

将当前运动状态和区域内所有周围车辆的当前运动状态预测输入至预先训练完成的让行行为预测动态贝叶斯网络，输出所述让行置信度，其中，所述让行行为预测动态贝叶斯网络中的变量信息包括速度条件、距离条件、让行意图、自车纵向位置、自车纵向速度、后车纵向位置、后车纵向速度和让行与抢行完成标志。

6.根据权利要求5所述的方法，其特征在于，其中，在所述自车的运动模型和所述周围车辆的运动模型中，每个驾驶行为对应的纵向加速度和完成一个序列的时间均为预设值；所述周围车辆的运动模型还包括：

对于纵向跟随行为，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型；

对于纵向让行行为，在车辆前方生成虚拟前车，并基于IDM模型控制所述车辆的纵向车速，在周围车辆之间存在冲突时，靠后车辆让行，并在周围车辆与所述自车冲突时，在让车置信度大于第一预设置信度时，确定所述周围车辆让行；

对于横向变道行为，在变道车辆变换至最外侧车道、且每次变换一个车道时，设置观测区域的车道头车采取匀速行驶，车道中后车采取IDM模型，在变道车辆与原车道车辆存在冲突时，靠后车辆让行，并在换道置信度大于第二预设置信度时，确定所述变道车辆存在变道行为。

7.根据权利要求6所述的方法，其特征在于，所述行为约束条件包括碰撞检验、让行校验、可行驶区域校验、最高车速校验和终点位置校验，其中，

所述碰撞检验包括：在所述自车的驾驶行为结束后，判断所述自车与车道前车与后车的车距和时距是否均大于约束值，如果大于，则判定所述驾驶行为可行，否则，则判定所述驾驶行为不可行，其中，将对于非车辆的障碍物虚拟为与所述障碍物速度相同的周围车辆；

所述让行校验包括：在所述自车执行换道行为时，如果与所述自车冲突车辆的让行置信度小于预设置信度时，判定所述换道行为不可行，否则，判定所述换道行为可行；

所述可行驶区域校验包括：在所述自车的驾驶行为结束后，如果所述自车的位置未处于可行驶区域内，则判定所述驾驶行为不可行，否则，则判定所述驾驶行为可行；

所述最高车速校验包括：在所述自车的加速行为开始时，如果所述自车的车速大于或等于当前位置的速度限值，则判定加速不可行，否则，在加速行为结束后，如果所述自车的车速大于或等于当前位置的速度限值，确定所述自车的最高车速为所述速度限值；

所述终点位置校验包括：在所述自车的驾驶行为结束后，如果所述自车的纵向位置超过目标位置，且未处于目标车道内，则判定所述驾驶行为不可行。

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述驾驶行为包括加速直行、匀速直行、减速直行、左换道、右换道中的任意一种。

9.一种适用于高速与环路交通场景的长时域驾驶行为决策装置，其特征在于，包括：

信息获取模块，用于获取自车的全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态；

决策模块，用于根据所述全局规划路径、所述自车的当前运动状态和区域内所有周围车辆的当前运动状态生成所述自车的最优驾驶行为序列；以及

控制模块，用于基于所述最优驾驶行为序列的第一个驾驶行为规划所述自车的行驶轨迹，并在控制所述自车基于所述行驶轨迹执行所述第一个驾驶行为之后，重新生成所述最优驾驶行为序列，直到完成所述全局规划路径。

10.一种车辆，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-8任一项所述的适用于高速与环路交通场景的长时域驾驶行为决策方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-8任一项所述的适用于高速与环路交通场景的长时域驾驶行为决策方法。