CN115034281A

CN115034281A - 一种基于RoboSim的自动驾驶行为决策模型的构建方法

Info

Publication number: CN115034281A
Application number: CN202210286994.2A
Authority: CN
Inventors: 杜德慧; 李博; 陈洁娜; 张馨元
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-09-09

Abstract

本发明公开了一种基于RoboSim的自动驾驶行为决策模型的构建方法，旨在通过构建面向自动驾驶场景的安全高效的行为决策模型，帮助自动驾驶系统生成可靠的行为决策。该方法的特点包括：基于自动驾驶领域本体和他车意图预测LSTM模型；基于贝叶斯网络生成决策信息；利用贝叶斯网络决策信息进一步构建面向自动驾驶行为决策的RoboSim模型。本发明针对自动驾驶行为决策生成，在贝叶斯网络决策的基础上，进一步构建RoboSim决策模型，通过RoboSim模型的状态迁移代替贝叶斯网络生成决策的计算过程，能够让自动驾驶车辆在相同的场景下，减少贝叶斯网络推理的冗余操作，有效的提高了自动驾驶行为决策的生成效率。

Description

一种基于RoboSim的自动驾驶行为决策模型的构建方法

技术领域

本发明涉及自动驾驶决策生成、系统建模，尤其是一种针对自动驾驶行为决策模型的构建方法。

背景技术

目前，自动驾驶系统主要包含感知、决策、执行三大模块。其中，决策模块需要接受感知模块的数据并进行分析，再根据当前的驾驶场景如车辆周围环境等做出最优的决策，最后将相应的指令传输给执行模块以执行具体的决策动作。作为自动驾驶中的关键技术，行为决策生成仍面临诸多挑战。首先，自动驾驶场景具有高度的复杂性与不确定性，如环境因素的多样性、其他车辆及行人意图的不确定性等。其次，自动驾驶车辆在行驶过程中应考虑决策执行的高效性，即对复杂的环境信息及时做出响应。在同一自动驾驶场景中，车辆周围的环境在一连续时间内不会发生剧烈改变，若重复执行决策算法势必会产生诸多冗余计算，引起不必要的时间消耗。

目前，汽车自动驾驶车辆的行为决策方法主要分为基于学习、基于规则和基于概率统计模型三类。基于学习的方法主要利用深度学习等算法对环境样本进行自主学习，进而产生行为决策。基于规则的方法主要通过划分车辆状态，以建立驾驶环境与驾驶动作之间的映射关系，进而进行决策，代表方法包括状态机模型和基于知识推理的模型等。基于概率统计模型的方法主要包括部分可观测马尔可夫决策过程（partiallyobservable Markovdecision process, POMDP）、贝叶斯网络等。然而，这些方法难以充分表达驾驶场景信息以及自动驾驶领域知识，且存在由于冗余计算导致决策效率低的问题。

发明内容

本发明的目的是为了解决自动驾驶领域的行为决策生成问题，提供了一种基于RoboSim的自动驾驶行为决策模型的构建方法，该方法采用基于自动驾驶领域本体和他车意图预测LSTM模型构建的贝叶斯网络提供决策信息，结合决策信息、车辆状态信息和环境信息进一步构建面向自动驾驶行为决策的RoboSim模型，通过RoboSim模型的状态迁移代替贝叶斯网络决策的生成过程，有效地减少了贝叶斯网络推理的冗余操作，保证了决策的高效性。

实现本发明目的的具体技术方案是：

一种基于RoboSim的自动驾驶行为决策模型的构建方法，特点是使用基于自动驾驶领域本体和他车意图预测LSTM模型构建贝叶斯网络生成决策信息，通过结合决策信息、车辆状态信息和环境信息进一步构建面向自动驾驶行为决策的RoboSim模型，该方法包括如下具体步骤：

A：基于驾驶场景中元素之间的层次性和关联性，提取驾驶场景中的车辆状态、驾驶环境、车辆驾驶行为决策元素的语义信息，构建自动驾驶领域本体概念模型；

B：针对驾驶场景中周围车辆未来运动状态的随机性，基于车辆轨迹数据，构建LSTM模型进行他车意图预测；

C：基于自动驾驶领域本体概念模型、他车意图预测LSTM模型的预测结果和车辆轨迹数据，构建面向自动驾驶行为决策的贝叶斯网络进行贝叶斯推理，生成车辆驾驶行为决策信息；

D：基于车辆轨迹数据，结合数据中体现的车辆状态信息、环境信息和贝叶斯网络生成的车辆驾驶行为决策信息，构建面向自动驾驶行为决策的RoboSim模型。

步骤A构建自动驾驶领域本体概念模型，具体包括：

A1：自身车辆类，描述当前车辆自身的状态，包括当前车辆的速度、加速度、与障碍物之间的相对距离、当前所处车道以及行驶方向；

A2：环境类，表示自动驾驶场景中的环境因素，由行人、车辆、天气、路网结构组成；

A3：行为类，分为纵向行为与横向行为，其中纵向行为包括加速、减速和匀速行驶，横向行为包括向左转、右转和保持当前车道。

所述步骤B具体包括：

B1：设计他车意图预测LSTM模型的网络结构，由三个部分组成，分别为输入层、LSTM层以及全连接层；

B2：输入层用于表示每个时间步长内，待预测车辆的历史轨迹数据信息；

B3：LSTM层由LSTM单元体构成，LSTM单元体接收输入层的历史轨迹数据信息以及上一个时刻历史轨迹数据信息的隐藏状态，以更新当前的历史轨迹数据信息的隐藏状态；

B4：全连接层用于接收LSTM层的输出，并对待预测车辆的驾驶意图进行预测，预测的结果输出为左转、右转及直行的概率。

所述步骤C具体包括：

C1：基于自动驾驶领域本体概念模型中的三大类别，将贝叶斯网络的节点分为三类并设计分层结构，分别为车辆状态节点、环境因素节点、行为决策节点三类，其中车辆状态节点和环境因素节点为上层父节点，行为决策节点为下层子节点，在环境因素节点内还添加了关于车辆意图预测节点，使用他车意图预测LSTM模型得到的预测结果作为车辆意图预测节点上的概率分布；

C2：基于车辆轨迹数据，进行贝叶斯网络的参数学习，确定贝叶斯网络节点中参数的概率分布；

C3：利用确定的贝叶斯网络节点参数的概率分布，进行贝叶斯网络推理，在给定车辆状态节点和环境因素节点的概率后，计算自动驾驶车辆横向动作和纵向动作的概率，选择概率值最大的横向动作和纵向动作，作为贝叶斯网络生成车辆驾驶行为决策的结果。

所述步骤D具体包括：

D1：定义RoboSim模型的状态机体中的状态state，用state表示当前车辆的状态信息，包括车辆当前运行速度、转向角度、车道信息及与其它车辆的相对距离信息；

D2：定义RoboSim模型的状态机体中的迁移transition，transition由一个四元组(source, target, condition, action) 组成，其中source和target为迁移的起始和终止状态，condition 标识了当前环境信息，action 标识了当前的行为决策信息；

D3：为RoboSim模型定义接口、枚举类型和控制器，接口包括环境因素接口Envl、本车状态接口EgoStatel和决策接口Decisionl；接口Envl定义了所有环境因素事件，接口EgoStatel定义了本车的状态，接口Decisionl定义了决策操作；枚举类型用于定义变量的取值，包含速度区间Speed、方向区间Direction、加速度情况Acceleration、天气情况Weather和安全状况IsSafe；控制器通过接口Envl中的事件异步连接，将环境信息传递给状态机体，并通过接口Decitionl接受来自状态机体的车辆决策操作；

D4：基于定义的RoboSim模型的结构，遍历车辆轨迹数据，从数据中体现的车辆初始状态开始，将车辆初始状态作为车辆的当前状态，利用上述贝叶斯网络，根据当前车辆状态信息和数据中体现的环境信息进行贝叶斯推理，生成车辆的驾驶行为决策信息，模拟车辆从当前状态执行生成的驾驶行为决策，计算出车辆的下一个状态，将计算出的新的状态信息保存，同时构建两个状态之间的迁移边，将迁移边信息进行保存，之后将计算出的新的状态作为车辆的当前状态，重复操作，直至数据遍历结束，利用保存的所有状态信息以及迁移边信息，得到承载了车辆状态信息、环境信息及贝叶斯网络生成的车辆驾驶行为决策的RoboSim模型。

本发明采用基于自动驾驶领域本体和他车意图预测LSTM模型构建的贝叶斯网络提供决策信息，结合决策信息、车辆状态信息和环境信息进一步构建面向自动驾驶行为决策的RoboSim模型，使用RoboSim 模型中的状态机作为自动驾驶行为决策的载体，以状态迁移代替行为决策，消除贝叶斯网络概率推理过程中的非必要操作，提高了生成决策的效率。

附图说明

图1为本发明的流程图；

图2为实施例中的变道超车场景示意图；

图3为他车意图预测LSTM模型的网络结构示意图；

图4为实施例中变道超车场景行为决策的贝叶斯网络节点及含义示意图；

图5为实施例中CARLA工具生成的变道超车仿真场景示意图；

图6为实施例中变道超车场景行为决策的贝叶斯网络结构示意图；

图7为实施例中变道超车场景的RoboSim行为决策模型中定义的接口、事件、操作以及枚举类型示意图；

图8为实施例中变道超车场景的RoboSim 行为决策模型的状态机体示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。

本发明提出了一种基于RoboSim的自动驾驶行为决策模型的构建方法，具体步骤如下：

所述步骤A构建自动驾驶领域本体概念模型，具体包括：

所述步骤B具体包括：

所述步骤C具体包括：

所述步骤D具体包括：

实施例

本发明的流程如图1所示，采用了基于自动驾驶领域本体及他车意图预测的LSTM模型构建面向自动驾驶行为决策的贝叶斯网络，结合贝叶斯网络决策信息，数据集的车辆状态和环境信息进一步构建面向自动驾驶行为决策的RoboSim模型。变道超车场景是自动驾驶中的典型场景，这里首先对场景内容进行说明，实施例的变道超车场景如图2所示。该场景主要包含了天气状态和四个动态实体。动态实体包括作为决策主体的当前车辆veh_e，以及三个周围车辆：当前车道前方车辆veh_f0，左车道后方车辆veh_b1，左车道前方车辆veh_f1。变道超车过程为：自动驾驶车辆veh_e 首先在车道lane0 上直线行驶，并希望通过变道超车的方式超过前方车辆veh_f0（如图2中虚线箭头所示），且需要与周围车辆保持一定的安全距离。然而，受天气、周围车辆意图的不确定性影响，变道超车动作并非在任何时刻都适合。因此，veh_e 需要结合当前环境和自身状态，判断应该做出何种决策，才能在保证安全的前提下进行变道超车或维持原状态。

针对变道超车场景，一种基于RoboSim的自动驾驶行为决策模型的构建方法，具体包括以下步骤：

所述步骤A构建自动驾驶领域本体概念模型，具体包括以下步骤：

A1：自身车辆类，描述当前车辆自身的状态，包括当前车辆的速度、加速度、与障碍物之间的相对距离、当前所处车道以及行驶方向。结合场景描述，当前车辆的状态包括：ego车所在车道、ego车行驶速度、ego车转向角度、ego车与veh_f0车、veh_f1车和veh_b1车的相对距离以及是否在当前速度下处于安全距离；

A2：环境类，表示自动驾驶场景中的环境因素，主要由行人、车辆、天气、路网结构组成。结合场景描述，环境因素包括：veh_f0车、veh_f1车和veh_b1车的行驶速度、转向角度、加速状况和车辆意图、以及当前天气状态；

A3：行为类，分为纵向行为与横向行为，其中纵向行为包括加速、减速和匀速行驶，横向行为包括向左转、右转和保持当前车道。结合场景描述，行为决策包括：ego车可能采取的纵向驾驶动作决策和横向驾驶动作决策。

所述步骤B具体包括以下步骤：

B1：构建如图3所示的他车意图预测LSTM模型。其中输入层用于表示在每个时间步长内，待预测车辆的历史轨迹信息，用特征向量X_t表示；LSTM层用于在每一个时刻t，LSTM单元体接收此刻的输入X_t和上一个时刻历史轨迹信息的隐藏状态X_{t- 1}，以更新当前的历史轨迹信息的隐藏状态h_t；全连接层用于接收LSTM 层的输出，并对其做预测；

B2：使用他车意图预测LSTM模型，对变道超车场景中的周围车辆的驾驶意图进行预测。将最后一个节点y_{seq_length} = (y1, y2, y3) 作为预测输出结果，分别表示左转、右转、直行的概率。

所述步骤C具体包括以下步骤：

C1：根据自动驾驶的领域本体中定义的类，抽象出基于变道超车场景行为决策的贝叶斯网络所应包含的节点，节点分为车辆状态节点、环境因素节点和行为决策节点三类。节点以及节点的含义如图4所示。其中，环境因素节点中id_intension节点表示其他车辆的驾驶意图，该节点的值根据基于LSTM的他车行为意图预测算法实时计算得出，并能够动态地影响最终的行为决策；

C2：通过CARLA仿真引擎生成如图5所示的不同的变道超车场景获取车辆轨迹仿真数据，数据共包括200组变道超车场景，基本涵盖变道超车的所有可能的情况，每组场景采样100次，采样间隔为0.2秒，共计产生20000条数据，作为本次实验的车辆轨迹数据。然后，使用LSTM模型对环境中的动态实体车辆（即veh_f1，veh_f0和veh_b1）进行驾驶意图预测，将预测结果一并加入数据集中；

C3：使用GeNIe 工具构建贝叶斯网络并基于仿真数据进行参数学习，得到如图6所示的基于超车变道场景行为决策的贝叶斯网络，可以直观地看出各因素之间的依赖关系，且各节点最终均会对veh_e 车的行为决策即节点dec_longti和节点dec_lateral 产生影响。

所述步骤D具体包括以下步骤：

D1：定义RoboSim模型状态机体中的状态state；用state表示当前车辆的状态信息，包括车辆当前运行速度、转向角度、车道信息、与其它车辆的相对距离信息等；

D2：定义RoboSim模型状态机体中的迁移transition；transition设定为一个四元组(source, target, condition, action)，其中source和target为迁移的起始和终止状态；condition标识了当前环境信息env，且需要扩展为以合取符号/\连接的表达式，并通过提供接口（provided interface）由上层组件输入；action标识了当前的行为决策信息decision，并通过定义接口（defined interface）传递给上层组件。action 中的决策信息表示为表达式$decision(acc, angle)，其中acc和angle分别用具体的决策值替换；

D3：首先针对变道超车场景行为决策的RoboSim 模型定义如图7所示的模块、控制器、接口、数据结构和操作；接口包括环境因素接口EnvI、ego车状态接口EgoStateI和决策接口DecisionI。其中，接口EnvI中定义了所有环境因素事件，包括动态实体车辆的速度、转向、道路、加速情况以及天气状态，这些事件将通过车辆的物理平台CarPlatform传递给RoboSim模型的内部控制器和状态机；接口EgoStateI中定义了ego车的状态，包括ego车的速度、角度、与其他动态实体车辆的相对距离及是否安全；接口DecisionI定义了一个决策操作decision，该操作用于为车辆下一时刻的加速情况和转向角度提供决策建议。枚举类型Speed等用于定义变量的取值，如Speed类型中定义了四个值stop，low，mid 和fast，用于表示车辆的当前速度区间，stop表示车辆的当前速度为0；模型中车辆物理平台CarPlatform和控制器OverTakingController的引用通过接口EnvI中的事件异步连接，将从物理平台读取的环境信息传递给控制器，此外，CarPlatform的提供接口DecisionI用于接受由控制器传来的车辆决策操作；控制器和内部状态机OverTakingSTM的引用也通过接口EnvI中的事件异步连接，将环境信息传递给内部状态机，并通过接口DecisionI接受来自状态机的车辆决策操作；

D4：基于定义的RoboSim模型的结构，遍历车辆轨迹数据，从数据中体现的车辆初始状态开始，将车辆初始状态作为车辆的当前状态，利用上述贝叶斯网络，根据当前车辆状态信息和数据中体现的环境信息进行贝叶斯推理，生成车辆的驾驶行为决策信息，模拟车辆从当前状态执行生成的驾驶行为决策，计算出车辆的下一个状态，将计算出的新的状态信息保存，同时构建两个状态之间的迁移边，将迁移边信息进行保存，之后将计算出的新的状态作为车辆的当前状态，重复操作，直至数据遍历结束，利用保存的所有状态信息以及迁移边信息，得到承载了车辆状态信息、环境信息及贝叶斯网络生成的车辆驾驶行为决策的RoboSim模型，图8为得到的面向自动驾驶行为决策的RoboSim模型的状态机体；状态机的控制流运行流程如下：初始化即车辆进入变道超车场景时，控制流便会从初始连接点init出发到达s_0状态，随后，控制流会根据车辆的当前状态和环境条件进行判断并进入合适的安全状态节点，并在每个执行周期结束时将决策通过DecitionI传出。图中展示了一条从状态s_1到状态s_2的迁移，斜杠前为condition条件部分，斜杠后为决策部分，当满足condition所列条件时，则会触发action动作，最后通过exec结束当前执行周期。

Claims

1.一种基于RoboSim的自动驾驶行为决策模型的构建方法，其特征在于，该方法包括以下具体步骤：

2.根据权利要求1所述的基于RoboSim的自动驾驶行为决策模型的构建方法，其特征在于，步骤A所构建的自动驾驶领域本体概念模型，具体包括：

3.根据权利要求1所述的基于RoboSim的自动驾驶行为决策模型的构建方法，其特征在于，所述步骤B具体包括：

4.根据权利要求1所述的基于RoboSim的自动驾驶行为决策模型的构建方法，所述步骤C具体包括：

5.根据权利要求1所述的基于RoboSim的自动驾驶行为决策模型的构建方法，其特征在于，所述步骤D具体包括：