CN111473794B - 一种基于强化学习的结构化道路无人驾驶决策规划方法 - Google Patents

一种基于强化学习的结构化道路无人驾驶决策规划方法 Download PDF

Info

Publication number
CN111473794B
CN111473794B CN202010249138.0A CN202010249138A CN111473794B CN 111473794 B CN111473794 B CN 111473794B CN 202010249138 A CN202010249138 A CN 202010249138A CN 111473794 B CN111473794 B CN 111473794B
Authority
CN
China
Prior art keywords
decision
track
lane
target
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010249138.0A
Other languages
English (en)
Other versions
CN111473794A (zh
Inventor
宋文杰
封志奇
付梦印
陈思园
张婷
杨毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010249138.0A priority Critical patent/CN111473794B/zh
Publication of CN111473794A publication Critical patent/CN111473794A/zh
Application granted granted Critical
Publication of CN111473794B publication Critical patent/CN111473794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem

Abstract

本发明公开了一种基于强化学习的结构化道路无人驾驶决策规划方法,结合强化学习和传统贝塞尔曲线轨迹生成方法的优点,利用DQN网络进行决策方法的训练,并根据决策信息利用贝塞尔曲线规划最优轨迹;本发明是在已知高精度地图、全局路径的前提下对智能车辆所在的局部行驶环境进行智能决策与规划,实现结构化道路下符合人类驾驶习惯的安全决策;利用DQN网络,输入多帧车辆所处的局部地图,得到的决策信息结合轨迹规划方法得到reward反馈,驱动DQN网络的更新。

Description

一种基于强化学习的结构化道路无人驾驶决策规划方法
技术领域
本发明属于智能车辆的技术领域,具体涉及一种基于强化学习的结构化道路无人驾驶决策规划方法。
背景技术
智能车辆(Intelligent Vehicle,IV),也称作地面无人平台(Unmanned GroundVehicle,UGV),是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统,集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术。
智能车辆对于结构化道路环境下的智能决策规划技术研究对于各个行业的发展均具有重大意义,能够代替人类完成高密度、长周期、大流量等复杂场景下的繁琐作业,极大地节省人力物力。城市结构化道路具备着拓扑结构清晰、交通规则已知、限制条件明确等特点。然而对于城市结构化道路,智能车辆的无人驾驶仍然存在着诸多问题。首先,城市结构化道路下动态车辆运动状态复杂,其次需要对行驶状态进行实时决策,以确保行驶的安全性。
基于规则限定的无人驾驶决策方法需要对大量的驾驶数据进行分析,面对结构化道路复杂多变的场景,基于规则的决策方法鲁棒性较差。随着机器学习的发展,强化学习在无人驾驶的应用也更加广泛。其目的是通过和环境交互,学习如何在相应观测中采取最优行为。相比传统的机器学习,它有以下优势:首先,由于不需要标注的过程,可以更有效地解决环境中存在的特殊情况。其次,可以把整个系统作为一个整体,从而对其中的一些模块更加鲁棒。强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决决策问题,即自动进行决策,并且可以做连续决策。
在结构化道路下,面对复杂的动态场景,智能车辆需要准确的决策,并规划一条符合车辆运动学的安全轨迹。从“图像输入”直接映射到车辆“速度、方向”的“端到端”控制方式是当前无人驾驶的研究热点之一,然而其可解释性较差。因此本发明结合强化学习不断从环境中学习决策策略的优点和传统轨迹生成方法符合运动学规律的优点,面对复杂结构化道路,进行车辆的决策和规划,符合人类驾驶行为习惯的智能决策。
发明内容
有鉴于此,本发明提供了一种基于强化学习的结构化道路无人驾驶决策规划方法,能够结合强化学习不断从环境中学习决策策略的优点和传统轨迹生成方法的优点,面对复杂结构化道路,进行车辆的决策和规划,生成符合人类驾驶行为习惯的智能决策。
实现本发明的技术方案如下:
一种基于强化学习的结构化道路无人驾驶决策规划方法,包括以下步骤:
步骤一、选取主车前方a米的距离范围构建局部地图,在局部地图中根据实际道路情况划分车道信息,并标注主车位置(sego,dego)及其他车辆的位置信息(si,di)(i=1,2,...,n);
步骤二、随着主车的运动获得多帧局部地图,将所述多帧局部地图作为训练后的DQN网络的输入,输出面对当前场景主车采取的决策策略并获得目标车道,决策策略为:车道保持、向左换道或向右换道;
其中,DQN网络在训练过程中,通过奖励函数获得DQN网络的奖励值,用于Target-Q网络的更新;
所述奖励函数为:
Figure BDA0002434853560000031
c1,c2为reward权重,k(t)为轨迹的曲率;t为训练时间,v为当前车速,vTarget为目标车速;
步骤三、在目标车道进行采样,对每个采样点进行一次轨迹规划,并计算每条轨迹的代价,选取代价最小的轨迹作为主车执行的轨迹。
进一步地,采用分段贝塞尔曲线表征根据采样点所规划的轨迹。
有益效果:
1.本发明方法通过利用强化学习DQN网络和传统的最优路径生成方法相结合,对结构化道路智能车辆决策规划方法进行研究,既保证了决策的智能性,又确保了驾驶的安全性。
2.本发明选择数帧局部地图作为输入,考虑了历史状态对于车辆决策的影响;提取的局部地图在一定程度上是对环境特征的提取,提高了该发明对环境的适应性和鲁棒性。
3.本发明利用贝塞尔曲线进行轨迹的规划,符合车辆运动学约束。以贝塞尔曲线的三次微分作为优化指标,符合驾驶舒适度的设计。
附图说明
图1、本发明的方案框图;
图2、本发明DQN网络输入的局部地图;
图3、(a)本发明强化学习决策示意图,(b)本发明学习决策与规划示意图;
图4、本发明DQN网络结构图;
图5、本发明贝塞尔曲线轨迹规划图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种基于强化学习的结构化道路无人驾驶决策规划方法,该方法将决策规划分为两部分,第一部分将连续多帧的周围环境信息作为观测输入到DQN(Deep QNetwork)网络,输出车辆当前的决策(车道保持、向左或向右换道),第二部分为根据决策信息,进行轨迹规划,车辆执行该轨迹得到的奖励即为DQN的奖励值。经过不断训练,即可得到在结构化场景的智能车辆决策模型。具体包括以下几个步骤:
步骤S1,坐标系转换,根据全局路径给出的参考线和高精度地图,将车道所在的笛卡尔坐标系转化为Frenet坐标系。使用变量s和d描述车辆在道路上的位置。该s坐标表示沿道路的纵向位移。d坐标表示道路上的横向位移。
步骤S2,局部地图中,主车及周围车辆运动信息的获取。
(201)对步骤一中的Frenet坐标系,通过组合导航及视觉导航系统,确定主车在Frenet坐标系中的位置信息(sego,dego)。选取主车前方50m的距离内所有同方向车道方位作为局部地图范围限制。
(202)将主车周围的车辆位置信息(si,di)(i=1,2,...,n)映射到局部地图中。
(203)每一帧局部地图中包含了当前时刻主车和周围车辆的位置信息。
步骤S3,利用步骤S2中得到的局部地图,每次将历史的多帧局部地图数据作为输入,输入到DQN网络中,如图3(a)所示,输出面对当前场景主车采取的决策策略并获得目标车道,决策策略为:车道保持、向左换道或向右换道。
建立两个结构相同但网络参数不同的神经网络,分别用于预测Target-Q和Q(s,a)。
其中Target-Q的定义为:Target-Q=r+γmaxa'Q(s',a';θ'),DQN的网络参数为θ,损失函数定义为均方误差损失:
L(θ)=E[(Target-Q-Q(s,a;θ))2]
步骤S4,在步骤S3中得到决策策略后,在目标车道进行稠密采样,将采样点作为局部的目标点。如图3(b)所示,利用分段贝塞尔曲线对于每一个目标点都可计算出一条轨迹。计算方法为:
Figure BDA0002434853560000051
其中,cji为第k个目标点对应的贝塞尔曲线中第j段轨迹的第i个控制点;T1,T2,…,Tm为每一段轨迹的结束时间,总时间为T=Tm-T0;α12,…,αm为每一段贝塞尔曲线的尺度因子,使得第i段轨迹在[0,1]区间分配时间[Ti-1,Ti]。
Figure BDA0002434853560000052
为多项式的基。
根据分段贝塞尔轨迹,设定起点、终点的约束,速度、加速度的约束,优化加加速度项,可得到优化后的轨迹。选取代价最低的曲线作为智能车辆执行的轨迹。
步骤S5,智能车辆在执行过程中,得到的奖励值R(t)=f(vtarget,v,s,d,t),奖励值与车辆行驶的速度相关。将得到的奖励值作为DQN网络的reward值进行网络的训练。一次训练在车辆偏离车道或车辆发生碰撞结束。
实施案例一
本实施案例提供一种基于车道时空间隙的结构化道路无人驾驶决策规划方法,方法框架如图1所示。本发明是在已知全局路径、高精度地图的基础上,对智能车辆在结构化道路上的行驶进行决策和规划。本发明采用高速道路模拟环境作为仿真环境。
步骤S1,如图2所示,本案例中,智能车辆的驾驶环境为同方向的三车道环境,并且可获得智能车辆周围车辆的运动信息。选取主车前方50m作为局部地图范围,并在地图中划分四车道范围。
步骤S2,将连续多帧的局部地图作为输入,输入到DQN网络中。分别设计两个结构相同参数不同的网络,即“当前值网络”和“目标值网络”。“当前值网络”参数进行实时更新,“目标值网络”参数在每隔N步进行“当前值网络”参数的拷贝。此项操作成为Fixed Q-targets,是一种打乱相关性的机理。
如图4所示,另外设计“经验回放单元”,用于学习之前的经历,每次DQN更新的时候,我们都可以随机抽取一些之前的经历进行学习。随机抽取这种做法打乱了经历之间的相关性,也使得神经网络更新更有效率。
步骤S3,得决策信息后,采样得到一簇稠密采样点,利用分段贝塞尔曲线规划轨迹。设计最优化问题如下:
Figure BDA0002434853560000061
其中,μ∈{s,d}表示曲线分为s,d两个维度,对两个维度的加加速度之和进行优化。
对于每一条贝塞尔曲线,其高阶导数可以用相应的低阶控制点的线性组合表示,即
Figure BDA0002434853560000062
设计约束条件如下:
1)路点约束,及轨迹起点、终点的约束。通过在相应的控制点上设置等式约束,可以直接实施路径点约束。
2)连续性约束。在分段轨迹的连接点处,φ次导数也必须连续(0≤φ≤k-1)。连续约束是通过在两条连续曲线上的对应控制点之间设置相等约束来实现。
3)安全约束。由于贝塞尔曲线的凸包特性,对第j段的控制点,通过增加控制点的边界限制来施加安全约束。
Figure BDA0002434853560000071
μ∈{s,d},i=0,1,2,...,n
Figure BDA0002434853560000072
对应于控制点的上下界。
4)动态限制。对轨迹上点的速度、加速度进行限制。
Figure BDA0002434853560000073
Figure BDA0002434853560000074
Figure BDA0002434853560000075
分别对应速度、加速度的上下边界。最终得到的轨迹如图5所示。
步骤S4,选择一簇轨迹中优化值J最小的轨迹作为智能车辆执行的轨迹。设计reward函数,计算奖励值,用于DQN网络的训练。reward函数设计如下:
若发生碰撞或偏离车道:
R(t)=-1
否则:
Figure BDA0002434853560000076
其中,c1,c2为reward权重,k(t)为轨迹的曲率。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于强化学习的结构化道路无人驾驶决策规划方法,其特征在于,包括以下步骤:
步骤一、选取主车前方a米的距离范围构建局部地图,在局部地图中根据实际道路情况划分车道信息,并标注主车位置(sego,dego)及其他车辆的位置信息(si,di),i=1,2,...,n;
步骤二、随着主车的运动获得多帧局部地图,将所述多帧局部地图作为训练后的DQN网络的输入,输出面对当前场景主车采取的决策策略并获得目标车道,决策策略为:车道保持、向左换道或向右换道;
其中,DQN网络在训练过程中,通过奖励函数获得DQN网络的奖励值,用于Target-Q网络的更新;
所述奖励函数为:
Figure FDA0003342415080000011
c1,c2为reward权重,k(t)为轨迹的曲率;t为训练时间,v为当前车速,vTarget为目标车速;
步骤三、在目标车道进行采样,对每个采样点进行一次轨迹规划,采用分段贝塞尔曲线表征根据采样点所规划的轨迹,并计算每条轨迹的代价,选取代价最小的轨迹作为主车执行的轨迹。
CN202010249138.0A 2020-04-01 2020-04-01 一种基于强化学习的结构化道路无人驾驶决策规划方法 Active CN111473794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249138.0A CN111473794B (zh) 2020-04-01 2020-04-01 一种基于强化学习的结构化道路无人驾驶决策规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249138.0A CN111473794B (zh) 2020-04-01 2020-04-01 一种基于强化学习的结构化道路无人驾驶决策规划方法

Publications (2)

Publication Number Publication Date
CN111473794A CN111473794A (zh) 2020-07-31
CN111473794B true CN111473794B (zh) 2022-02-11

Family

ID=71749474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010249138.0A Active CN111473794B (zh) 2020-04-01 2020-04-01 一种基于强化学习的结构化道路无人驾驶决策规划方法

Country Status (1)

Country Link
CN (1) CN111473794B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112129296B (zh) * 2020-09-25 2022-10-11 山东大学 一种机器人轨迹规划方法及系统
CN112462776A (zh) * 2020-11-30 2021-03-09 的卢技术有限公司 一种基于非结构化道路的无人驾驶决策方法
CN112550314B (zh) * 2020-12-16 2022-04-19 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN113276883B (zh) * 2021-04-28 2023-04-21 南京大学 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN113734170B (zh) * 2021-08-19 2023-10-24 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN117141520B (zh) * 2023-10-31 2024-01-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种实时轨迹规划方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110646009A (zh) * 2019-09-27 2020-01-03 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置
CN110794832A (zh) * 2019-10-21 2020-02-14 同济大学 一种基于强化学习的移动机器人路径规划方法
CN110850877A (zh) * 2019-11-19 2020-02-28 北方工业大学 基于虚拟环境和深度双q网络的自动驾驶小车训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11480971B2 (en) * 2018-05-01 2022-10-25 Honda Motor Co., Ltd. Systems and methods for generating instructions for navigating intersections with autonomous vehicles

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110646009A (zh) * 2019-09-27 2020-01-03 北京邮电大学 一种基于dqn的车辆自动驾驶路径规划的方法及装置
CN110794832A (zh) * 2019-10-21 2020-02-14 同济大学 一种基于强化学习的移动机器人路径规划方法
CN110850877A (zh) * 2019-11-19 2020-02-28 北方工业大学 基于虚拟环境和深度双q网络的自动驾驶小车训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Route Planning Method Based on Least-Squares Policy Iteration for Unmanned Aerial Vehicle;Chen Xiaogian et al.;《Computer Engineering and Applications》;20200131;第191-195页 *
无人驾驶铰接式车辆强化学习路径跟踪控制算法;邵俊恺等;《农业机械学报》;20170331;第376-382页 *

Also Published As

Publication number Publication date
CN111473794A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111473794B (zh) 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN111489578B (zh) 一种基于车道时空间隙的高速道路无人驾驶决策规划方法
US11131993B2 (en) Methods and systems for trajectory forecasting with recurrent neural networks using inertial behavioral rollout
Chen et al. Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety
CN110081894B (zh) 一种基于道路结构权值融合的无人车轨迹实时规划方法
US11243532B1 (en) Evaluating varying-sized action spaces using reinforcement learning
CN110796856B (zh) 车辆变道意图预测方法及变道意图预测网络的训练方法
CN109582993B (zh) 城市交通场景图像理解与多视角群智优化方法
KR20210074366A (ko) 자율주행 차량 계획 및 예측
CN112347993B (zh) 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法
JP2022532972A (ja) 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
CN106428009A (zh) 车辆轨迹确定
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN109084798A (zh) 网络下发带有道路属性的控制点的路径规划方法
CN109643118A (zh) 基于关于车辆的环境的与功能相关的信息来影响车辆的功能
CN114846425A (zh) 移动机器人的预测和规划
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
Muzahid et al. Deep reinforcement learning-based driving strategy for avoidance of chain collisions and its safety efficiency analysis in autonomous vehicles
CN116129066A (zh) 基于数字孪生的自动驾驶高精度地图模型及高精度静态地图制作方法
Ren et al. Self-learned intelligence for integrated decision and control of automated vehicles at signalized intersections
US11436504B1 (en) Unified scene graphs
CN114495486B (zh) 一种基于层次强化学习的微观交通流预测系统及方法
CN113460091B (zh) 一种无保护十字路口无人车滚动优化决策方法
De Schutter et al. • Advances traffic control on highways
Hua et al. Multi-agent reinforcement learning for connected and automated vehicles control: Recent advancements and future prospects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant