CN111473794A

CN111473794A - 一种基于强化学习的结构化道路无人驾驶决策规划方法

Info

Publication number: CN111473794A
Application number: CN202010249138.0A
Authority: CN
Inventors: 宋文杰; 封志奇; 付梦印; 陈思园; 张婷; 杨毅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-31
Anticipated expiration: 2040-04-01
Also published as: CN111473794B

Abstract

本发明公开了一种基于强化学习的结构化道路无人驾驶决策规划方法，结合强化学习和传统贝塞尔曲线轨迹生成方法的优点，利用DQN网络进行决策方法的训练，并根据决策信息利用贝塞尔曲线规划最优轨迹；本发明是在已知高精度地图、全局路径的前提下对智能车辆所在的局部行驶环境进行智能决策与规划，实现结构化道路下符合人类驾驶习惯的安全决策；利用DQN网络，输入多帧车辆所处的局部地图，得到的决策信息结合轨迹规划方法得到reward反馈，驱动DQN网络的更新。

Description

一种基于强化学习的结构化道路无人驾驶决策规划方法

技术领域

本发明属于智能车辆的技术领域，具体涉及一种基于强化学习的结构化道路无人驾驶决策规划方法。

背景技术

智能车辆(Intelligent Vehicle，IV)，也称作地面无人平台(Unmanned GroundVehicle，UGV)，是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统，集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术。

智能车辆对于结构化道路环境下的智能决策规划技术研究对于各个行业的发展均具有重大意义，能够代替人类完成高密度、长周期、大流量等复杂场景下的繁琐作业，极大地节省人力物力。城市结构化道路具备着拓扑结构清晰、交通规则已知、限制条件明确等特点。然而对于城市结构化道路，智能车辆的无人驾驶仍然存在着诸多问题。首先，城市结构化道路下动态车辆运动状态复杂，其次需要对行驶状态进行实时决策，以确保行驶的安全性。

基于规则限定的无人驾驶决策方法需要对大量的驾驶数据进行分析，面对结构化道路复杂多变的场景，基于规则的决策方法鲁棒性较差。随着机器学习的发展，强化学习在无人驾驶的应用也更加广泛。其目的是通过和环境交互，学习如何在相应观测中采取最优行为。相比传统的机器学习，它有以下优势：首先，由于不需要标注的过程，可以更有效地解决环境中存在的特殊情况。其次，可以把整个系统作为一个整体，从而对其中的一些模块更加鲁棒。强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物，它的本质是解决决策问题，即自动进行决策，并且可以做连续决策。

在结构化道路下，面对复杂的动态场景，智能车辆需要准确的决策，并规划一条符合车辆运动学的安全轨迹。从“图像输入”直接映射到车辆“速度、方向”的“端到端”控制方式是当前无人驾驶的研究热点之一，然而其可解释性较差。因此本发明结合强化学习不断从环境中学习决策策略的优点和传统轨迹生成方法符合运动学规律的优点，面对复杂结构化道路，进行车辆的决策和规划，符合人类驾驶行为习惯的智能决策。

发明内容

有鉴于此，本发明提供了一种基于强化学习的结构化道路无人驾驶决策规划方法，能够结合强化学习不断从环境中学习决策策略的优点和传统轨迹生成方法的优点，面对复杂结构化道路，进行车辆的决策和规划，生成符合人类驾驶行为习惯的智能决策。

实现本发明的技术方案如下：

一种基于强化学习的结构化道路无人驾驶决策规划方法，包括以下步骤：

步骤一、选取主车前方a米的距离范围构建局部地图，在局部地图中根据实际道路情况划分车道信息，并标注主车位置(s_ego,d_ego)及其他车辆的位置信息(s_i,d_i)(i＝1,2,...,n)；

步骤二、随着主车的运动获得多帧局部地图，将所述多帧局部地图作为训练后的DQN网络的输入，输出面对当前场景主车采取的决策策略并获得目标车道，决策策略为：车道保持、向左换道或向右换道；

其中，DQN网络在训练过程中，通过奖励函数获得DQN网络的奖励值，用于Target-Q网络的更新；

所述奖励函数为：

c₁,c₂为reward权重，k(t)为轨迹的曲率；t为训练时间，v为当前车速，v_Target为目标车速；

步骤三、在目标车道进行采样，对每个采样点进行一次轨迹规划，并计算每条轨迹的代价，选取代价最小的轨迹作为主车执行的轨迹。

进一步地，采用分段贝塞尔曲线表征根据采样点所规划的轨迹。

有益效果：

1.本发明方法通过利用强化学习DQN网络和传统的最优路径生成方法相结合，对结构化道路智能车辆决策规划方法进行研究，既保证了决策的智能性，又确保了驾驶的安全性。

2.本发明选择数帧局部地图作为输入，考虑了历史状态对于车辆决策的影响；提取的局部地图在一定程度上是对环境特征的提取，提高了该发明对环境的适应性和鲁棒性。

3.本发明利用贝塞尔曲线进行轨迹的规划，符合车辆运动学约束。以贝塞尔曲线的三次微分作为优化指标，符合驾驶舒适度的设计。

附图说明

图1、本发明的方案框图；

图2、本发明DQN网络输入的局部地图；

图3、(a)本发明强化学习决策示意图，(b)本发明学习决策与规划示意图；

图4、本发明DQN网络结构图；

图5、本发明贝塞尔曲线轨迹规划图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于强化学习的结构化道路无人驾驶决策规划方法，该方法将决策规划分为两部分，第一部分将连续多帧的周围环境信息作为观测输入到DQN(Deep QNetwork)网络，输出车辆当前的决策(车道保持、向左或向右换道)，第二部分为根据决策信息，进行轨迹规划，车辆执行该轨迹得到的奖励即为DQN的奖励值。经过不断训练，即可得到在结构化场景的智能车辆决策模型。具体包括以下几个步骤：

步骤S1，坐标系转换，根据全局路径给出的参考线和高精度地图，将车道所在的笛卡尔坐标系转化为Frenet坐标系。使用变量s和d描述车辆在道路上的位置。该s坐标表示沿道路的纵向位移。d坐标表示道路上的横向位移。

步骤S2，局部地图中，主车及周围车辆运动信息的获取。

(201)对步骤一中的Frenet坐标系，通过组合导航及视觉导航系统，确定主车在Frenet坐标系中的位置信息(s_ego,d_ego)。选取主车前方50m的距离内所有同方向车道方位作为局部地图范围限制。

(202)将主车周围的车辆位置信息(s_i,d_i)(i＝1,2,...,n)映射到局部地图中。

(203)每一帧局部地图中包含了当前时刻主车和周围车辆的位置信息。

步骤S3，利用步骤S2中得到的局部地图，每次将历史的多帧局部地图数据作为输入，输入到DQN网络中，如图3(a)所示，输出面对当前场景主车采取的决策策略并获得目标车道，决策策略为：车道保持、向左换道或向右换道。

建立两个结构相同但网络参数不同的神经网络，分别用于预测Target-Q和Q(s,a)。

其中Target-Q的定义为：Target-Q＝r+γmax_a'Q(s',a'；θ')，DQN的网络参数为θ，损失函数定义为均方误差损失：

L(θ)＝E[(Target-Q-Q(s,a；θ))²]

步骤S4，在步骤S3中得到决策策略后，在目标车道进行稠密采样，将采样点作为局部的目标点。如图3(b)所示，利用分段贝塞尔曲线对于每一个目标点都可计算出一条轨迹。计算方法为：

其中，c_ji为第k个目标点对应的贝塞尔曲线中第j段轨迹的第i个控制点；T₁,T₂,…,T_m为每一段轨迹的结束时间，总时间为T＝T_m-T₀；α₁,α₂,…,α_m为每一段贝塞尔曲线的尺度因子，使得第i段轨迹在[0,1]区间分配时间[T_i-1,T_i]。

为多项式的基。

根据分段贝塞尔轨迹，设定起点、终点的约束，速度、加速度的约束，优化加加速度项，可得到优化后的轨迹。选取代价最低的曲线作为智能车辆执行的轨迹。

步骤S5,智能车辆在执行过程中，得到的奖励值R(t)＝f(v_target,v,s,d,t)，奖励值与车辆行驶的速度相关。将得到的奖励值作为DQN网络的reward值进行网络的训练。一次训练在车辆偏离车道或车辆发生碰撞结束。

实施案例一

本实施案例提供一种基于车道时空间隙的结构化道路无人驾驶决策规划方法，方法框架如图1所示。本发明是在已知全局路径、高精度地图的基础上，对智能车辆在结构化道路上的行驶进行决策和规划。本发明采用高速道路模拟环境作为仿真环境。

步骤S1，如图2所示，本案例中，智能车辆的驾驶环境为同方向的三车道环境，并且可获得智能车辆周围车辆的运动信息。选取主车前方50m作为局部地图范围，并在地图中划分四车道范围。

步骤S2，将连续多帧的局部地图作为输入，输入到DQN网络中。分别设计两个结构相同参数不同的网络，即“当前值网络”和“目标值网络”。“当前值网络”参数进行实时更新，“目标值网络”参数在每隔N步进行“当前值网络”参数的拷贝。此项操作成为Fixed Q-targets，是一种打乱相关性的机理。

如图4所示，另外设计“经验回放单元”，用于学习之前的经历，每次DQN更新的时候,我们都可以随机抽取一些之前的经历进行学习。随机抽取这种做法打乱了经历之间的相关性,也使得神经网络更新更有效率。

步骤S3，得决策信息后，采样得到一簇稠密采样点，利用分段贝塞尔曲线规划轨迹。设计最优化问题如下：

其中，μ∈{s,d}表示曲线分为s,d两个维度，对两个维度的加加速度之和进行优化。

对于每一条贝塞尔曲线，其高阶导数可以用相应的低阶控制点的线性组合表示，即

设计约束条件如下：

1)路点约束，及轨迹起点、终点的约束。通过在相应的控制点上设置等式约束，可以直接实施路径点约束。

2)连续性约束。在分段轨迹的连接点处，φ次导数也必须连续(0≤φ≤k-1)。连续约束是通过在两条连续曲线上的对应控制点之间设置相等约束来实现。

3)安全约束。由于贝塞尔曲线的凸包特性，对第j段的控制点，通过增加控制点的边界限制来施加安全约束。

μ∈{s,d},i＝0,1,2,...,n

对应于控制点的上下界。

4)动态限制。对轨迹上点的速度、加速度进行限制。

分别对应速度、加速度的上下边界。最终得到的轨迹如图5所示。

步骤S4,选择一簇轨迹中优化值J最小的轨迹作为智能车辆执行的轨迹。设计reward函数，计算奖励值，用于DQN网络的训练。reward函数设计如下：

若发生碰撞或偏离车道：

R(t)＝-1

否则：

其中，c₁,c₂为reward权重，k(t)为轨迹的曲率。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的结构化道路无人驾驶决策规划方法，其特征在于，包括以下步骤：

所述奖励函数为：

步骤三、在目标车道进行采样，对每个采样点进行一次轨迹规划，并计算每条轨迹的代价，选取代价最小的轨迹作为主车执行的轨迹。。

2.如权利要求1所述的一种基于强化学习的结构化道路无人驾驶决策规划方法，其特征在于，采用分段贝塞尔曲线表征根据采样点所规划的轨迹。