CN113264043A

CN113264043A - 基于深度强化学习的无人驾驶分层运动决策控制方法

Info

Publication number: CN113264043A
Application number: CN202110533120.8A
Authority: CN
Inventors: 黄志清; 曲志伟
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-17

Abstract

本发明公开了基于深度强化学习的无人驾驶分层运动决策控制方法，以“元动作决策‑车辆控制”层次化运动决策控制模型为载体实现的。通过对驾驶行为的抽象分解和对影响驾驶行为的环境因素分析，以将运动决策控制过程分解为“元动作决策‑车辆控制”的模式实现的，元动作决策属于离散型决策问题，利用DQN深度强化学习算法建立一个由动态驾驶信息到元动作的端到端模型。车辆控制属于连续型动作输出，采用DDPG深度强化学习算法建立一个从道路信息与元动作，映射到油门、刹车和方向盘控制量的端到端模型，神经网络的搭建使用PyTorch深度学习框架，选择的开发语言是Python，模型通过接收驾驶行为指令并结合环境状态信息，输出车辆的控制量。

Description

基于深度强化学习的无人驾驶分层运动决策控制方法

技术领域

本发明涉及人工智能领域，无人驾驶领域和车辆控制技术，尤其涉及城市道路等需要多交通参与者交互协调驾驶的场景，基于深度强化学习算法实现的一种无人车运动控制方案。

背景技术

快速发展的汽车工业，使汽车成为人们出行不可或缺的基本交通工具，随之而来的城市道路交通安全、交通拥堵、交通污染、能源消耗等是当今城市交通发展面临的重要问题，而我国汽车销量近年来保持世界第一，汽车保有量增长迅猛，上述这些社会问题尤为突出，无人驾驶车辆的应用是解决这些问题的重要途径。无人驾驶车辆(简称无人车)是智能车辆发展的高级阶段，它能综合利用其具有的感知、决策和控制能力，在特定的环境中，代替人类驾驶员，独立地执行车辆驾驶任务，无人驾驶车辆在交通运输、军事、危险环境场景下有着广阔的应用前景。运动决策控制是无人驾驶研究的核心问题之一，它属于无人驾驶决策控制系统三层结构(全局路径规划、行为决策和运动决策控制)的底层，直接操控车辆完成行为决策层给出的驾驶行为指令，关系到行车安全，同时也是道路通行能力和生态驾驶的重要影响因素。

随着无人驾驶技术的发展，无人车的应用将从简单的工程场景进入到复杂的城市道路环境，在复杂道路结构和动态车流的环境下，实现安全、类人的自主驾驶，对无人车的运动决策控制环节产生极大的挑战。现有的无人驾驶运动决策控制方式主要包括传统的分层规划控制和基于学习的端到端决策控制两类。传统的分层规划控制在结构上划分为轨迹规划和反馈控制两个层次，轨迹规划层将行为决策层下达的驾驶行为规划成一条带有时间信息的轨迹点曲线，反馈控制层则通过控制油门、刹车、以及方向盘信号去执行这些轨迹点来实施对车辆的操控。该方式的决策控制过程清晰，但其决策任务主要集中在运动规划层，在面对复杂、动态的驾驶环境时决策难度大，不适合开放道路环境。近年来，人工智能技术迅猛发展，基于学习的端到端决策控制通过训练一个BP(backpropagation)神经网络来直接建立“驾驶场景特征-车辆控制量”的映射关系，系统简单且性能良好，驾驶模式与人类驾驶风格更加接近，但其决策控制过程缺乏一定的可解释性与可调节性。因此，面对复杂道路结构与动态行车环境的客观需求，设计一套系统的智能化无人车运动决策控制方案，这对无人车从封闭道路走向开放道路具有重要的理论意义和实用价值。

鉴于此，本发明在分层架构下基于深度强化学习算法，实现一种面向动态驾驶场景的无人车运动决策控制方案。基于对驾驶行为的抽象分解和对影响驾驶行为的环境因素分析，将运动决策控制过程分为“元动作决策”与“车辆控制”两个子层，在不增加运动决策控制模型复杂性的情况下，可以极大的简化决策任务、分担决策压力。同时，以驾驶行为的类人化为出发点引入深度强化学习算法，其优化过程与人类更加接近且适合解决动态决策过程，为运动决策控制的智能性提供了保证。该方案解决了复杂道路和动态场景下的无人车运动决策控制问题。

发明内容

本发明的主要目的是提出一种面向动态驾驶场景的无人车运动决策控制方案，旨在解决基于学习的端到端运动决策控制模型完成驾驶行为的问题，让无人车能够充分考虑道路结构与动态交通参与者等环境信息，实现车辆的行为变更。其模型结构图如图1所示。

本发明采用的技术方案为基于深度强化学习算法的端到端模型与传统分层控制结构的结合，实现面向复杂道路结构与动态驾驶场景的无人车运动决策控制。该方案是以``元动作决策-车辆控制”层次化运动决策控制模型为载体实现的。该模型通过对驾驶行为的抽象分解和对影响驾驶行为的环境因素分析，以将运动决策控制过程分解为`元动作决策-车辆控制”的模式实现的，元动作决策属于离散型决策问题，利用DQN(DeepQ-learningNetwork)深度强化学习算法建立一个由动态驾驶信息到元动作的端到端模型。车辆控制属于连续型动作输出，采用DDPG(DeepDeterministicPolicyGradient)深度强化学习算法建立一个从道路信息与元动作，映射到油门、刹车和方向盘控制量的端到端模型，神经网络的搭建使用PyTorch深度学习框架，选择的开发语言是Python，模型通过接收驾驶行为指令并结合环境状态信息，输出车辆的控制量。

具体方案如图2所示，在整个的方案中，主要分为以下两部分：

1、元动作决策层

元动作决策层接收特定驾驶行为指令，输出一系列的元动作指令(包括左转、右转、加速、减速等)至车辆控制层。

2、车辆控制层

车辆控制层基本任务是使无人车维持车道保持驾驶状态，当接收到元动作指令后，则根据元动作指令决策出促使车辆运行状态进行改变的控制量，操控车辆完成目标元动作，进而实现目标驾驶行为。

方案实现如下：

首先，在无人运动控制框架中，确立一个无人车行驶的目标驾驶状态，代表车辆控制层控制无人车进行车道保持时的期望状态，并针对目标驾驶行为元动作决策层创建相应的奖励函数，当训练元动作决策网络时，需先完成车辆控制层网络的元动作训练。

其次，在Ubuntu服务器下配置VirtualEnv虚拟环境，并搭建TORCS仿真平台，修改其源目录下的/src/libs/raceengineclient/raceinit.cpp配置文件，以更改车辆的起始路段与初始车道供本发明使用。无人车通过搭建的仿真环境进行交互训练，后续得到组成运动决策控制的神经网络模型。

S1)将驾驶行为分解为元动作序列；

1)关键动作更改驾驶状态；

2)元动作序列的组合；

S2)车辆控制层实现车道保持；

1)确定目标驾驶状态；

2)基于静态道路结构进行车辆控制；

S3)车辆控制层学习元动作指令；

1)更新目标驾驶状态；

2)决策出符合元动作指令的车辆控制量；

S4)元动作决策层完成目标驾驶行为；

1)确立决策任务；

2)基于动态交通信息进行元动作决策；

上述的步骤中，具体的实现方法如下：

S1)所述的内容是驾驶行为的执行过程分解，车辆行驶过程中的基本驾驶任务为进行车道保持，将控制车辆稳定行驶在目标驾驶状态附近，其它驾驶行为通过在此基础之上叠加“左转”、“右转”、“加速”等额外驾驶动作——“元动作”，以更新目标驾驶状态的方式迫使车辆发生时空坐标的改变，即任意驾驶行为的执行过程均可编码为一个有限的元动作序列，比如将元动作集合具体定义为A_meta＝{K、L、R、U、D}，所包含元素依次代表保持、左转、右转、加速、减速元动作，对超车驾驶行为的分解如图3所示。

S2)所述的内容是车辆控制层根据静态道路环境使无人车维持车道保持驾驶状态的控制过程，其中需首先确立无人车进行车道保持时的目标驾驶状态，如纵向期望速度、横向偏移车道等，然后利用在贴合目标驾驶状态时给予的极大奖励值，引导无人车在目标状态基础之上进行车道保持，如图4所示。

S3)所述的内容是车辆控制层期望通过输入上层元动作决策指令、车辆自身状态及道路环境，通过神经网络输出区别于车道保持的横纵向控制量，迫使无人车在车道保持的基础之上发生时空坐标的改变以完成相应元动作，同时利用奖励函数以及更新后的目标驾驶状态，对神经网络进行更新，令决策的结果更加合理的过程，如图5所示。

S4)所述的内容是运动决策控制模型接收驾驶行为指令，基于横纵向期望状态确立决策任务，输出刹车、油门与转向车辆控制量，完成相应目标驾驶行为的决策控制过程，是本发明的重点。元动作决策层通过对驾驶行为指令、车辆自身状态以及驾驶动态环境三者结合分析，决策出代表驾驶行为执行过程中关键动作点的元动作序列，并实时将元动作指令交由车辆控制层依次执行，以完成目标驾驶行为，期间无人车不得冲出车道或与其他车辆相撞，如图6所示。具体决策控制流程如下，

相较于现有的无人车运动决策控制方案，本发明提出的面向复杂道路和动态场景的运动决策控制方案具有以下益处：

1本发明所述的方案是在分层结构下利用深度强化学习算法对运动决策和控制进行端到端建模的无人车运动决策控制方案，相较于传统的端到端运动决策控制方案更为灵活，极大的简化了决策任务、分担决策压力，更适用于复杂动态的驾驶场景。

2本发明在驾驶行为的执行过程中引入元动作指令，将驾驶行为执行过程分解为更加直观、可控的元动作序列，令决策过程具有良好的解释性与调节性。

3本发明在无人车运动决策控制中引入深度强化学习算法，利用与环境交互获取数据的方式进行决策训练，缓解深度学习方法的数据依赖性难题，通过以驾驶行为的类人化为出发点提出奖励策略，可提高动态行车环境下无人车运动决策控制过程的安全性与协作性。

附图说明

图1为模型结构图。

图2为运行机制图。

图3为驾驶行为分解示意图。

图4为车辆控制示意图。

图5为元动作条件指令示意图。

图6为元动作决策示意图。

具体实施方式

为了使本发明的目的，发明内容及优点更加清楚明白，以及结合附图对本发明作进一步的详细说明。实施案例的具体步骤如下：

步骤001：为运动决策控制模型配置在目标场景下进行车道保持的目标驾驶状态(如目标速度、横向偏移位置等)，并确定目标驾驶行为，创建运动控制模型框架，如图1所示。

步骤002：结合目标驾驶行为的执行特点，对驾驶行为的执行过程进行分解为元动作序列，建立符合相应驾驶行为优化目标的奖励函数。

步骤003：车辆控制层指导车辆输出合理的刹车、油门与转向三种控制信号，学习由静止状态进入车道保持驾驶状态，并维持车辆在目标车道按照期望速度稳定的行驶，如图4所示。

步骤004：向车辆控制层发送元动作指令，更新车辆行驶的目标状态。

步骤005：车辆控制层的神经网络根据当前环境状态信息与元动作指令，决策出车辆控制量，操控车辆完成目标元动作，基于奖励值对神经网络进行反向传播来优化决策结果，如图5所示。

步骤006：元动作决策层收到驾驶行为指令，确立该驾驶行为的决策任务。

步骤007：元动作决策层神经网络根据当前状态环境信息与驾驶行为指令，决策出元动作指令，经噪声函数处理后，传至车辆控制层中执行，并利用该驾驶行为的奖励函数计算出相应奖励值，对神经网络的参数进行梯度更新，如图6所示。

步骤008：将元动作决策层对驾驶行为的执行过程进行分解得到的元动作序列，依次实时交由车辆控制层执行，直至完成目标驾驶行为。

本发明的实施案例中，驾驶行为选取的是在应用场景中广泛涉及的变道驾驶行为，车辆在决策时的参考信息包括车道边界距离、自车状态、周围动态车辆的检测距离等易获取的关键信息，在Ubuntu服务器上搭建了VirtualEnv虚拟环境，训练中的人机交互基于TORCS仿真平台。驾驶行为指令通过步骤006传递给元动作决策层，由步骤007决策出元动作指令交至车辆控制层，车辆控制层通过步骤004获取指令，并经步骤005完成车辆控制，步骤008最终实现目标驾驶行为。

Claims

1.基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：分为以下两部分：

1)元动作决策层；

元动作决策层接收特定驾驶行为指令，输出一系列的元动作指令至车辆控制层；

2)车辆控制层；

车辆控制层基本任务是使无人车维持车道保持驾驶状态，当接收到元动作指令后，根据元动作指令决策出促使车辆运行状态进行改变的控制量，操控车辆完成目标元动作，进而实现目标驾驶行为。

2.根据权利要求1所述的基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：该方法具体的实施步骤如下：

S1)将驾驶行为分解为元动作序列；

1)关键动作更改驾驶状态；

2)元动作序列的组合；

S2)车辆控制层实现车道保持；

1)确定目标驾驶状态；

2)基于静态道路结构进行车辆控制；

S3)车辆控制层学习元动作指令；

1)更新目标驾驶状态；

2)决策出符合元动作指令的车辆控制量；

S4)元动作决策层完成目标驾驶行为；

1)确立决策任务；

2)基于动态交通信息进行元动作决策。

3.根据权利要求2所述的基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：S1)所述的内容是驾驶行为的执行过程分解，车辆行驶过程中的基本驾驶任务为进行车道保持，将控制车辆稳定行驶在目标驾驶状态附近，其它驾驶行为通过在此基础之上叠加额外驾驶动作——“元动作”，以更新目标驾驶状态的方式迫使车辆发生时空坐标的改变，即任意驾驶行为的执行过程均可编码为一个有限的元动作序列，将元动作集合具体定义为A_meta＝{K、L、R、U、D}，所包含元素依次代表保持、左转、右转、加速、减速元动作。

4.根据权利要求2所述的基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：S2)所述的内容是车辆控制层根据静态道路环境使无人车维持车道保持驾驶状态的控制过程，确立无人车进行车道保持时的目标驾驶状态，利用在贴合目标驾驶状态时给予的奖励值，引导无人车在目标状态基础之上进行车道保持。

5.根据权利要求2所述的基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：S3)所述的内容是车辆控制层期望通过输入上层元动作决策指令、车辆自身状态及道路环境，通过神经网络输出区别于车道保持的横纵向控制量，迫使无人车在车道保持的基础之上发生时空坐标的改变以完成相应元动作，同时利用奖励函数以及更新后的目标驾驶状态，对神经网络进行更新，令决策的结果更加合理的过程。

6.根据权利要求2所述的基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：S4)所述的内容是运动决策控制模型接收驾驶行为指令，基于横纵向期望状态确立决策任务，输出刹车、油门与转向车辆控制量，完成相应目标驾驶行为的决策控制过程；元动作决策层通过对驾驶行为指令、车辆自身状态以及驾驶动态环境三者结合分析，决策出代表驾驶行为执行过程中关键动作点的元动作序列，并实时将元动作指令交由车辆控制层依次执行，以完成目标驾驶行为，期间无人车不得冲出车道或与其他车辆相撞。

7.根据权利要求1所述的基于深度强化学习的无人驾驶分层运动决策控制方法，其特征在于：具体步骤如下：

步骤001：为运动决策控制模型配置在目标场景下进行车道保持的目标驾驶状态，并确定目标驾驶行为，创建运动控制模型框架；

步骤002：结合目标驾驶行为的执行特点，对驾驶行为的执行过程进行分解为元动作序列，建立符合相应驾驶行为优化目标的奖励函数；

步骤003：车辆控制层指导车辆输出合理的刹车、油门与转向三种控制信号，学习由静止状态进入车道保持驾驶状态，并维持车辆在目标车道按照期望速度稳定的行驶；

步骤004：向车辆控制层发送元动作指令，更新车辆行驶的目标状态；

步骤005：车辆控制层的神经网络根据当前环境状态信息与元动作指令，决策出车辆控制量，操控车辆完成目标元动作，基于奖励值对神经网络进行反向传播来优化决策结果；

步骤006：元动作决策层收到驾驶行为指令，确立该驾驶行为的决策任务；

步骤007：元动作决策层神经网络根据当前状态环境信息与驾驶行为指令，决策出元动作指令，经噪声函数处理后，传至车辆控制层中执行，并利用该驾驶行为的奖励函数计算出相应奖励值，对神经网络的参数进行梯度更新；