CN110322017A - 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 - Google Patents

基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 Download PDF

Info

Publication number
CN110322017A
CN110322017A CN201910743104.4A CN201910743104A CN110322017A CN 110322017 A CN110322017 A CN 110322017A CN 201910743104 A CN201910743104 A CN 201910743104A CN 110322017 A CN110322017 A CN 110322017A
Authority
CN
China
Prior art keywords
training
network
vehicle
automatic pilot
reviewer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910743104.4A
Other languages
English (en)
Inventor
田彦涛
曹轩豪
季学武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910743104.4A priority Critical patent/CN110322017A/zh
Publication of CN110322017A publication Critical patent/CN110322017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Robotics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,针对智能车自动驾驶任务,根据深度确定性策略梯度(DDPG)算法中的“动作‑评论家”结构,采用“双动作”网络分别输出方向盘转角命令和车速命令,并设计“主评论家”网络用以指导“双动作”网络的更新过程,具体包括:将自动驾驶任务描述为马尔可夫决策过程:<st,at,Rt,st+1>;采用行为克隆算法对改进DDPG算法中的“双动作”网络进行初始化;对深度强化学习DDPG算法中的“评论家”网络进行预训练;设计包含多种驾驶场景的训练道路进行强化学习在线训练;设置新的道路对训练好的深度强化学习(DRL)模型进行测试。本发明通过模仿人学车过程设计控制策略,实现了智能车在简单道路环境下的自动驾驶。

Description

基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
技术领域
本发明属于智能车自动驾驶领域,涉及一种基于深度强化学习的智能车自动驾驶轨迹跟踪控制策略。
背景技术
自动驾驶智能车的出现为解决交通事故的发生提供了一种新的解决办法,而精确的轨迹跟踪控制器的设计是实现自动驾驶车辆安全稳定行驶的前提,也是智能车实现智能化、商用化的必要条件。
目前,现有技术包括公开的专利主要采用的轨迹跟踪控制方法有MPC控制、前馈-反馈控制、线性二次型调节器LQR跟踪控制等传统控制方法。然而汽车行驶环境具有高度的不确定性、不可重复性以及不可预测性等特征,同时车辆本身的非线性、不确定性也很严重,很难建立精确的数学模型进行控制律的设计,因此,传统控制策略已无法完全满足智能驾驶控制的要求。近年来,随着人工智能算法的发展以及硬件技术的不断提高,采用人工智能的手段来解决自动驾驶问题逐渐成为了一种可行方案。自动驾驶的目标是使车辆感知它的环境和在没有人参与下的行驶。实现这个目标最重要的任务是学习根据观察到的环境自动输出方向盘、油门、刹车等控制信号的驾驶策略。最直接的方法是端到端的有监督学习,训练一个神经网络模型直接映射环境输入到动作输出。然而,有监督的方法通常需要大量的数据,并且训练好的模型的泛化能力也很难得到保证。相比之下,深度强化学习(DRL)是通过一种反复试错的方式来学习的,不需要人工的明确监督。
综合考虑当前自动驾驶技术的瓶颈以及现有控制策略的不足,迫切需要提出一种实现自动驾驶技术的新的控制策略。而深度强化学习的方法,通过一种反复试错的方式建立了从行驶环境到驾驶动作的直接映射过程,控制过程无需建立被控对象的数学模型,具有较强的机动性和实时性。因此研究基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略具有重要的理论和现实意义。
发明内容
本发明针对现有技术存在的问题,提出一种基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,目的在于解决对于自动驾驶过程中道路环境的不确定性、不可重复性、不可预测性以及车辆本身的非线性、不确定性,当前现有技术很难保证较好的控制效果的问题。
本发明为解决其技术问题提出以下技术方案:
一种基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,包括以下步骤:
步骤一、模仿人的学车过程,将自动驾驶任务分解为:1)模仿专业驾驶员的驾车行为;2)在专业驾驶员指导下进行自我探索学习(“探索-指导”);
步骤二、将自动驾驶任务描述成马尔可夫决策过程,主要包括:状态(st)选择、动作(at)选择及奖励函数(Rt)设计;
步骤三、根据DDPG算法中的“动作-评论家”结构并针对自动驾驶任务,设计“双动作”网络分别输出方向盘转角命令和车速命令,设计“主评论家”网络用以指导“双动作”网络的更新过程;
步骤四、采集优秀驾驶员驾驶车辆时的“状态-动作”数据集,根据该数据集,采用模仿学习的方式对DDPG算法中的“双动作”网络进行初始化;
步骤五、采集优秀驾驶员驾驶车辆时的驾驶行为数据集,并以马尔可夫决策过程的形式进行数据记录,基于该数据集对强化学习DDPG算法中的“评论家”网络进行预训练;
步骤六、设计包含多种驾驶场景的训练道路进行深度强化学习训练并设计新的道路对训练好的深度强化学习模型进行测试。
进一步地,所述步骤一中的模仿人的学车过程:
1)采用行为克隆的方法离线训练用以模仿专业驾驶员的驾车行为;
2)针对自动驾驶任务,采用所提出的改进深度强化学习DDPG算法在线训练,并利用其中的“动作-评论家”结构模拟学车过程中的“探索-指导”过程。
进一步地,所述步骤二将自动驾驶任务描述成马尔可夫决策过程:
1)状态(st)选择
针对车辆的自动驾驶任务,通过大量的测试与筛选,选择如下14个易获得的车辆运动学和动力学信息作为系统输入的状态向量,主要包括:
δ为车辆方向盘转角,信号来自方向盘转角传感器;
v为车辆速度,信号来自车速传感器;
l_div_i为驾驶员预瞄点到参考路径的偏差,信号来自于驾驶员预瞄信息,其中i=1,2,3,4,;5
v_i为等效车轮速度,信号来自于轮速传感器,其中i=1,2,3,4;
lat_veh为车辆当前位置与参考路径侧向偏差,信号来自于车辆当前位置信息;
vx为车辆沿参考轨迹的纵向速度,其中vx=vcosψ,ψ=β+γ,β为车辆质心侧偏角,γ为车辆横摆角,ψ为车辆航向角;
vy为车辆沿参考轨迹的侧向速度,其中vy=vsinψ。
2)动作(at)选择
选择方向盘转角δ和车辆速度v作为深度强化学习动作网络的输出,其动作空间为[δ,v]。
3)奖励函数(Rt)设计
奖励函数包括两个部分:来自速度的奖励和来自轨迹跟踪精度的奖励,其中来自轨迹跟踪精度的奖励函数设计采用一种非直接式的奖励设计方法,即采用当前状态的轨迹误差(latt)与下一状态的轨迹误差(latt+1)的差值进行奖励函数的设计。奖励函数的设计规则为:在保证轨迹跟踪精度(part3)的前提下最大化车辆沿轨迹方向的纵向速度(part1),同时最小化车辆沿轨迹方向的垂向速度(part2):
其中ω0,ω1为权重系数,ω1用以调节轨迹跟踪性能在奖励函数中所占比重,ω0用以调节奖励函数的取值范围以便更好地进行网络整形。
进一步地,所述步骤三中,针对自动驾驶任务,提出一种改进DDPG算法:
针对自动驾驶任务,设计“双动作”网络分别输出方向盘转角命令和车速命令,同时设计“主评论家”网络用于指导“双动作”网络的更新过程。
进一步地,改进的DDPG算法的在线训练过程主要包括以下步骤:
1)采用行为克隆算法对“双动作”网络进行初始化;
2)对“主评论家”网络进行预训练;
3)初始化经验池memory_batch;
4)“双动作”网络根据当前状态st及动作噪声产生动作命令at,包含方向盘转角命令和车速命令;
5)下层执行器(包含线控转向系统和驱动控制系统)执行动作命令at,并返回奖励Rt和新的状态st+1
6)将状态转移过程(st,at,Rt,st+1)存入到经验池memory_batch中,作为在线训练的数据集;
7)从经验池memory_batch中随机获取训练数据mini_batch;
8)根据训练数据集开始进行在线训练;
9)计算online Q网络的梯度;
10)采用Adam optimizer更新“主评论家”网络;
11)分别计算“双动作”网络的策略梯度;
12)采用Adam optimizer更新“双动作”网络;
13)Soft update target网络,包括“双动作”网络的目标网络及“主评论家”的目网络14)更新状态:st=st+1
15)返回步骤四。
进一步地,动作噪声的设计采用离散Ornstein-Uhlenbeck过程噪声:
式中:θi,μi,σi为超参数,εt i为维纳过程,i=1,2,λ为噪声折扣因子。
进一步地,所述步骤四中所提出的“双动作”网络的初始化训练主要包括如下两个部分:
1)数据采集
对专业的驾驶员模型的驾驶行为进行数据采集。训练数据集包含状态信息(st)和动作信息(at),数据采集的道路需包含多种不同的行驶工况。
2)行为克隆
在对专业的驾驶员模型的驾驶行为进行数据采集的过程中,为了更加精确的进行驾驶行为的行为克隆,采样频率设置为f1=1000Hz,并以“状态-动作”对的形式进行记录。
进一步地,所述步骤五中所提出的对“主评论家”网络的预训练,具体为:
对专业的驾驶员模型的驾驶行为进行数据采集,为了保证前后两个状态之间有较为明显的差异,采样频率设置为f2=100Hz,并以马尔可夫决策过程的形式对该数据集进行记录。之后对改进DDPG算法中的“主评论家”网络进行预训练,其损失函数定义为:
其中:
yt=rt+γQ'(st+1,at+1)
式中γ为折扣因子,Q为“主评论家”网络,Q'为目标“主评论家”网络。
进一步地,所述步骤六中主要包括DRL模型的在线训练和测试,具体为:
1)训练过程
首先设计一个包含多种工况的道路环境用以DRL模型收集丰富的驾驶数据直至填满经验池,在此过程中DRL模型不进行训练,同时,如果车辆即将冲出道路,要进行人为干预使车辆回到中心线位置(期望轨迹)。之后DRL模型开始进行在线训练,在训练过程中为了保证DRL模型可以控制车辆精确的跟踪期望的路径,轨迹跟踪误差的最大值设置为:max(cte)=0.1m,如果误差超过这个最大值,则停止此次训练,并进行人为干预使车辆回到道路中心线位置开始下一次训练,直到DRL模型可以控制车辆完成整个训练道路且轨迹跟踪误差的最大值不超过0.1m,则训练完成。如果DRL模型训练次数超过设置的最大训练次数但仍未完成整个训练道路,则说明该模型训练失败,需要重新调整训练参数并开始新的DRL模型训练。
2)测试过程
首先设计一个包含不同工况的新的道路环境作为测试道路,之后将训练好的DRL模型在训练道路上进行测试。在整个测试过程中DRL模型不进行在线训练以验证其在不同道路环境下的泛化能力。
本发明的优点效果
1、本发明针对智能车自动驾驶任务,采用模仿学习和改进DDPG算法相结合的方法模仿人的学车行为进行控制策略的设计,最终实现了智能车自动驾驶的目标。控制策略的设计无需建立被控对象的数学模型,从而有效地避免了道路环境的不确定性和车辆本身的非线性等因素对控制效果的影响;
2、本发明拓展了模仿学习及深度强化学习理论的应用,为智能车实现自动驾驶提供了一种新的研究思路。
附图说明
图1为本发明的系统结构图;
图2为本发明的系统流程图;
图3为本发明实施例的训练过程图;
图4为训练结果产生转角命令图;
图5为训练结果产生车速命令图;
图6为在训练道路上实际路径与期望路径的侧向位移偏差图;
图7为测试结果产生转角命令图;
图8为测试结果产生车速命令图;
图9为在测试道路上实际路径与期望路径的侧向位移偏差图。
具体实施方式
发明原理概述
本发明的目的:本发明的最终目的是通过模仿学习和深度强化学习相结合的方式训练出一个DRL模型,该模型可以输出合理的方向盘转角和车速命令,实现智能车在自动驾驶过程中即保证较高的轨迹跟踪精度,又可以使维持车速在一个合理的范围内。发明内容中的前两个步骤是将自动驾驶任务描述成马尔可夫决策过程,这是整个控制策略的基础;之后的的步骤三到步骤五是“双动作”网络的模仿学习过程和对“主评论家”的“预训练”过程,这是进行在线深度强化学习训练的准备工作;步骤六是强化学习的在线训练及最后的测试过程。
1.本发明的控制策略是基于模仿人的学车过程进行设计:模仿人的学车过程,将自动驾驶任务分解为:1)模仿专业驾驶员的驾车行为;2)在专业驾驶员指导下进行自我探索学习(“探索-指导”)。具体实现为:采用行为克隆的方法离线训练模仿专业驾驶员的驾车行为;针对自动驾驶任务,采用所提出的改进深度强化学习DDPG算法在线训练,利用其中的“动作-评论家”结构模拟学车过程中的“探索-指导”过程。
2.采用模仿学习结合强化学习的方法设计训练模型:首先需要将自动驾驶任务描述成马尔可夫决策过程,主要包括:状态(st)选择、动作(at)选择及奖励函数(Rt)设计。通过大量的测试与筛选,选择十四个易获得的车辆运动学和动力学信息作为系统输入的状态向量。动作空间由方向盘转角和车速组成,这样即易于训练(维度较低),又可以满足自动驾驶车辆轨迹跟踪任务的上层控制输出。奖励函数的设计包括两个部分:来自速度的奖励和来自轨迹跟踪精度的奖励,其中来自轨迹跟踪精度的奖励函数设计采用一种非直接式的奖励设计方法,即采用当前状态的轨迹误差(latt)与下一状态的轨迹误差(latt+1)的差值进行奖励函数的设计。奖励函数的设计规则为:在保证轨迹跟踪精度的前提下,最大化车辆沿轨迹方向的纵向速度,同时最小化车辆沿轨迹方向的垂向速度。在此基础上,根据深度强化学习DDPG算法中的“动作-评论家”结构,设计“双动作”网络分别输出方向盘转角命令和车速命令,设计“主评论家”网络用以指导“双动作”网络的更新过程。之后,采集优秀驾驶员的驾驶行为数据,采用模仿学习方式对“双动作”网络进行初始化训练,同时对“主评论家”网络进行预训练。通过对“双动作”网络进行初始化训练,可以有效地避免动作网络在探索初期产生一些无效的动作命令,如掉头、倒车等。通过对对“主评论家”网络进行预训练,可以使其对动作网络输出动作命令的好坏有初步的判断,这样可以大大加快接下来的在线训练过程。
3.DRL模型在线训练及测试:第一步:在线训练。首先设计一个包含多种工况的道路环境用以DRL模型收集丰富的驾驶数据直至填满经验池,在此过程中DRL模型不进行训练,同时,如果车辆即将冲出道路,要进行人为干预使车辆回到中心线位置(期望轨迹)。之后DRL模型开始在训练道路上进行在线训练,在训练过程中为了保证DRL模型可以控制车辆精确的跟踪期望的路径,轨迹跟踪误差的最大值设置为:max(cte)=0.1m,如果误差超过这个最大值,则停止此次训练,并进行人为干预使车辆回到道路中心线位置开始下一次训练,直到DRL模型可以控制车辆完成整个训练道路且轨迹跟踪误差的最大值不超过0.1m。此外,如果DRL模型训练次数超过设置的最大训练次数但仍未完成整个训练道路,则说明该模型训练失败,需要重新调整训练参数并开始新的DRL模型训练。第二步:模型测试。设计一个包含不同工况的新的道路环境作为测试道路,之后将训练好的DRL模型在训练道路上进行测试。在整个测试过程中DRL模型不进行在线训练以验证其在不同道路环境下的泛化能力。
基于以上发明原理,本发明设计了一种基于深度强化学习的智能车自动驾驶轨迹跟踪控制策略,参阅图1所示,其具体实施方式包括以下步骤:
步骤一、模仿人的学车过程,将自动驾驶任务分解为:1)模仿专业驾驶员的驾车行为;2)在专业驾驶员指导下进行自我探索学习(“探索-指导”)。
关于步骤一的补充说明:
1.采用行为克隆的方法离线训练模仿专业驾驶员的驾车行为;针对自动驾驶任务,采用所提出的改进DDPG算法在线训练,利用其中的Actor-Critic结构模拟学车过程中的“探索-指导”过程。
2.Actor-Critic网络的工作方式:首先车路模型会给出一个当前状态st,状态包括车辆的运动学信息和动力学信息,之后,动作网络会根据当前状态输入做出决策产生动作输出at,车路模型收到此动作后会给出一个奖励Rt及新的状态st+1,这个过程是一个循环。之后根据Rt去更新“评论家”网络,然后沿“评论家”建议的方向去更新动作网络,接着进入下一个循环。如此循环下去,直到训练出了一个好的动作网络。
步骤二、将自动驾驶任务描述成马尔可夫决策过程,主要包括:状态(st)选择、动作(at)选择及奖励函数(Rt)设计。
关于步骤二的补充说明:
1.强化学习算法是基于马尔可夫决策过程实现的,所以,首先需要将自动驾驶任务描述成为一个马尔可夫决策过程。
2.状态(st)选择针对车辆的自动驾驶任务,通过大量的测试与筛选,选择如下14个易获得的车辆运动学和动力学信息作为系统输入的状态向量,主要包括:
δ为车辆方向盘转角,信号来自方向盘转角传感器;
为车辆速度,信号来自车速传感器;
l_div_i为驾驶员预瞄点到参考路径的偏差,信号来自于驾驶员预瞄信息,其中:i=1,2,3,4,5;
v_i为等效车轮速度,信号来自于轮速传感器,其中:i=1,2,3,4;
lat_veh为车辆当前位置与参考路径侧向偏差,信号来自于车辆当前位置信息;
vx为车辆沿参考轨迹的纵向速度,其中vx=vcosψ,ψ=β+γ,β为车辆质心侧偏角,γ为车辆横摆角,ψ为车辆航向角;
vy为车辆沿参考轨迹的侧向速度,其中:vy=vsinψ。
3.动作(at)选择:选择方向盘转角δ和车辆速度v作为深度强化学习动作网络的输出,其动作空间为[δ,v]。
4.奖励函数(Rt)设计:奖励函数包括两个部分:来自速度的奖励和来自轨迹跟踪精度的奖励,其中来自轨迹跟踪精度的奖励函数设计采用一种非直接式的奖励设计方法,即采用当前状态的轨迹误差(latt)与下一状态的轨迹误差(latt+1)的差值进行奖励函数的设计。奖励函数的设计规则为:在保证轨迹跟踪精度(part3)的前提下最大化车辆沿轨迹方向的纵向速度(part1),同时最小化车辆沿轨迹方向的垂向速度(part2):
其中:ω0,ω1为权重系数,ω1用以调节轨迹跟踪性能在奖励函数中所占比重,ω0用以调节奖励函数的取值范围以便更好地进行网络整形。
步骤三、根据深度强化学习DDPG算法中的Actor-Critic结构并针对自动驾驶任务,设计“双动作”网络分别输出方向盘转角命令和车速命令,设计“主评论家”网络用以指导“双动作”网络的更新过程。
关于步骤三的补充说明:
改进的DDPG算法的更新过程主要包括以下步骤:
1)根据行为克隆结果初始化“双动作”网络;
2)根据“预训练”结果初始化“主评论家”网络;
3)初始化经验池memory_batch;
4)“双动作”网络根据当前状态st及动作噪声产生动作命令at,包含方向盘转角命令和车速命令;
5)下层执行器(包含线控转向系统和驱动控制系统)执行动作命令at,并返回奖励Rt和新的状态st+1
6)将状态转移过程(st,at,rt,st+1)存入到经验池memory_batch中,作为在线训练的数据集;
7)从经验池memory_batch中随机获取训练数据mini_batch;
8)根据训练数据集开始进行在线训练
9)计算online Q网络的梯度;
10)采用Adam optimizer更新“主评论家”网络;
11)分别计算“双动作”网络的策略梯度;
12)采用Adam optimizer更新“双动作”网络;
13)Soft update target网络,包括“双动作”网络的目标网络及“主评论家”的目网络;
14)更新状态:st=st+1
15)返回第四步。
步骤四、采集优秀驾驶员驾驶车辆时的“状态-动作”数据集,根据该采用模仿学习的方式对DDPG算法中的“双动作”网络进行初始化。
关于步骤四的补充说明:
1.数据采集:对专业的驾驶员的驾驶进行数据采集。训练数据集包含状态信息(st)和动作信息(at),数据采集的道路需包含多种不同的行驶工况。
2.行为克隆:在对专业的驾驶员的驾驶进行数据采集的过程中,为了更加精确的进行驾驶行为的行为克隆,采样频率设置为f1=1000Hz,最后以“状态-动作”对的数据形式进行记录:
D1={(s1,a1),(s1,a1),(s1,a1),…,(sn,an)}
3.采用行为克隆的方法对深度强化学习DDPG算法中的“双动作”网络进行初始化训练。
步骤五、采集优秀驾驶员驾驶车辆时的驾驶行为数据集,并以马尔可夫决策过程的形式进行数据记录,基于该数据集对强化学习DDPG算法中的“评论家”网络进行预训练。
关于步骤五的补充说明:
1.数据采集:对专业的驾驶员模型的驾驶行为进行数据采集,为了保证前后两个状态之间有较为明显的差异,采样频率设置为f2=100Hz,最后以马尔可夫决策过程的形式对该数据集进行记录:
D2=(st,at,rt,st+1,at+1)
之后对改进DDPG算法中的“主评论家”网络进行预训练,其损失函数定义为:
其中:
yt=rt+γQ'(st+1,at+1)
式中:γ为折扣因子γ=0.9,Q为“主评论家”网络,Q'为目标“主评论家”网络,Q'由Q soft update获得:
θQ'=τθQ+(1-τ)θQ'
式中τ为更新因子。
2.基于标准的back-propagation方法,可以求得L针对θQ的梯度:并采用Adam optimizer更新网络参数:θQ
总结:到步骤五为止,完成了控制策略的设计以及模型在线训练的前期准备工作,接下来是对模型的在线训练及测试。
步骤六、设计包含多种驾驶场景的训练道路进行强化学习训练并设计新的道路对训练好的深度强化学习模型进行测试。
关于步骤六的补充说明:
1.训练过程:首先设计一个包含多种工况的道路环境用以DRL模型收集丰富的驾驶数据直至填满经验池,在此过程中DRL模型不进行训练,同时,如果车辆即将冲出道路,要进行人为干预使车辆回到中心线位置(期望轨迹)。之后DRL模型开始进行在线训练,在训练过程中为了保证DRL模型可以控制车辆精确的跟踪期望的路径,轨迹跟踪误差的最大值设置为:max(cte)=0.1m,如果误差超过这个最大值,则停止此次训练,并进行人为干预使车辆回到道路中心线位置开始下一次训练,直到DRL模型可以控制车辆完成整个训练道路且轨迹跟踪误差的最大值不超过0.1m,则训练完成。如果DRL模型训练次数超过设置的最大训练次数但仍未完成整个训练道路,则说明该模型训练失败,需要重新调整训练参数并开始新的DRL模型训练。
2.测试过程:首先设计一个包含不同工况的新的道路环境作为测试道路,之后将训练好的DRL模型在训练道路上进行测试。在整个测试过程中DRL模型不进行在线训练以验证其在不同道路环境下的泛化能力。
实施例:本发明的实施过程:
1.针对车辆的自动驾驶任务,通过大量的测试与筛选,选择如下14个易获得的车辆运动学和动力学信息作为系统输入的状态向量,主要包括:
δ为车辆方向盘转角,信号来自方向盘转角传感器;
v为车辆速度,信号来自车速传感器;
l_div_i为驾驶员预瞄点到参考路径的偏差,信号来自于驾驶员预瞄信息,其中:i=1,2,3,4,5;
v_i为等效车轮速度,信号来自于轮速传感器,其中:i=1,2,3,4;
lat_veh为车辆当前位置与参考路径侧向偏差,信号来自于车辆当前位置信息;
vx为车辆沿参考轨迹的纵向速度,其中vx=vcosψ,ψ=β+γ,β为车辆质心侧偏角,γ为车辆横摆角,ψ为车辆航向角;
vy为车辆沿参考轨迹的侧向速度,其中vy=vsinψ。
2.奖励函数设计包括两个部分:来自速度的奖励和来自轨迹跟踪精度的奖励,其中来自轨迹跟踪精度的奖励函数设计采用一种非直接式的奖励设计方法,即采用当前状态的轨迹误差(latt)与下一状态的轨迹误差(latt+1)的差值进行奖励函数的设计。奖励函数的设计规则为:在保证轨迹跟踪精度(part3)的前提下最大化车辆沿轨迹方向的纵向速度(part1),同时最小化车辆沿轨迹方向的垂向速度(part2):
其中ω0,ω1为权重系数,ω1用以调节轨迹跟踪性能在奖励函数中所占比重,ω0用以调节奖励函数的取值范围以便更好地进行网络整形。
3.采用Carsim中专业的驾驶员模型进行数据采集。训练数据集包含状态信息(st)和动作信息(at),数据采集的道路长度为:length=2327.97,并且包含多种不同的行驶工况。为了更加精确的进行驾驶行为的行为克隆,采样频率设置为f1=1000Hz最后共获得1×105组“状态-动作”对:
D1={(s1,a1),(s1,a1),(s1,a1),…,(sn,an)}
式中:n=1×105
4.重新对Carsim中专业的驾驶员模型的驾驶行为进行数据采集,为了保证前后两个状态之间有较为明显的差异,采样频率设置为f2=100Hz,最后共获得了n=1×104组“状态-动作”对,以马尔可夫决策过程的形式对该“状态-动作”数据集进行数据重构:
D2=(st,at,rt,st+1,at+1)
之后对改进DDPG算法中的“主评论家”网络进行预训练,其损失函数定义为:
其中:
yt=rt+γQ'(st+1,at+1)
式中:γ为奖励折扣因子γ=0.9,Q为“主评论家”网络,Q'为目标“主评论家”网络,Q'由Qsoft update获得:
θQ'=τθQ+(1-τ)θQ'
式中:τ=0.01。
5.模型在线训练:首先设计一个包含多种工况的道路环境用以DRL模型收集丰富的驾驶数据直至填满经验池,在此过程中DRL模型不进行训练,同时,如果车辆即将冲出道路,要进行人为干预使车辆回到中心线位置(期望轨迹)。之后DRL模型开始在训练道路上进行在线训练,在训练过程中为了保证DRL模型可以控制车辆精确的跟踪期望的路径,轨迹跟踪误差的最大值设置为:max(cte)=0.1m,如果误差超过这个最大值,则停止此次训练,并进行人为干预使车辆回到道路中心线位置开始下一次训练,直到DRL模型可以控制车辆完成整个训练道路且轨迹跟踪误差的最大值不超过0.1m,则训练完成。如果DRL模型训练次数超过设置的最大训练次数但仍未完成整个训练道路,则说明该模型训练失败,需要重新调整训练参数并开始新的DRL模型训练。训练流程如下:
1)采用行为克隆算法对“双动作”网络进行初始化;
2)对“主评论家”网络进行“预训练”;
3)初始化经验池memory_batch;
4)“双动作”网络根据当前状态st及动作噪声产生动作命令at,包含方向盘转角命令和车速命令;
5)下层执行器(包含线控转向系统和驱动控制系统)执行动作命令at,并返回奖励Rt和新的状态st+1
6)将状态转移过程(st,at,rt,st+1)存入到经验池memory_batch中,作为在线训练的数据集;
7)从经验池memory_batch中随机获取训练数据mini_batch;
8)根据训练数据集开始进行在线训练
9)计算online Q网络的梯度;
10)采用Adam optimizer更新“主评论家”网络;
11)分别计算“双动作”网络的策略梯度;
12)采用Adam optimizer更新“双动作”网络;
13)Soft update target网络,包括“双动作”网络的目标网络及“主评论家”的目网络;
14)更新状态:st=st+1
15)返回步骤四。
7.训练参数设置
转向动作噪声参数设计为:
θ1=0.6,μ1=0,σ1=0.3
速度动作噪声参数设计为:
θ2=0.6,μ2=0,σ2=0.4
噪声的折扣因子:
λ=0.9
此外,经验池memory_batch大小为100000,每次随机抽取训练数据mini_batch大小为64。
6.模型测试:首先设计一个包含不同工况的新的道路环境作为测试道路,之后将训练好的DRL模型在训练道路上进行测试。在整个测试过程中DRL模型不进行在线训练以验证其在不同道路环境下的泛化能力。
为验证本发明控制策略的有效性,采用Simulink和Carsim联合仿真的方式验证本发明所提出的控制策略,控制策略如图1所示,车辆模型采用Carsim内部车辆模型。训练工况及测试工况如表1所示,本发明实施例训练过程如图2所示,训练结果产生转角命令如图4所示,训练结果产生车速命令如图5所示,在训练道路上的与期望路径的侧向位移偏差如图6所示,测试结果产生转角命令如图7所,测试结果产生车速命令如图8所示,在测试道路上的与期望路径的侧向位移偏差如图9所示。
表1
需要强调的是,本发明所述的实施例是说明性的,而非限定性的,因此本发明包括并不限于具体实施方式中所述的实施例。

Claims (9)

1.一种基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于,包括以下步骤:
步骤一、模仿人的学车过程,将自动驾驶任务分解为:1)模仿专业驾驶员的驾车行为;2)在专业驾驶员指导下进行自我探索学习,即“探索-指导”;
步骤二、将自动驾驶任务描述成马尔可夫决策过程,主要包括:状态(st)选择、动作(at)选择及奖励函数(Rt)设计;
步骤三、根据深度强化学习DDPG算法中的Actor-Critic结构,并针对自动驾驶任务,设计“双动作”网络分别输出方向盘转角命令和车速命令,设计“主评论家”网络用以指导“双动作”网络的更新过程;
步骤四、采集优秀驾驶员驾驶车辆时的“状态-动作”数据集,根据该数据集,采用模仿学习的方式对DDPG算法中的“双动作”网络进行初始化;
步骤五、采集优秀驾驶员驾驶车辆时的驾驶行为数据集,并以马尔可夫决策过程的形式进行数据记录,基于该数据集对强化学习DDPG算法中的“评论家”网络进行预训练;
步骤六、设计包含多种驾驶场景的训练道路进行强化学习训练,并设计新的道路对训练好的深度强化学习模型进行测试。
2.如权利要求1所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
步骤一所述的模仿人的学车过程:
1)采用行为克隆的方法离线训练模仿专业驾驶员的驾车行为;
2)针对自动驾驶任务,采用所提出的改进深度强化学习DDPG算法在线训练,并利用其中的“动作-评论家”结构模拟学车过程中的“探索-指导”过程。
3.如权利要求1所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
步骤二所述将自动驾驶任务描述成马尔可夫决策过程:
1)状态(st)选择
针对车辆的自动驾驶任务,通过大量的测试与筛选,选择如下14个易获得的车辆运动学和动力学信息作为系统输入的状态向量,主要包括:
δ为车辆方向盘转角,信号来自方向盘转角传感器;
v为车辆速度,信号来自车速传感器;
l_div_i为驾驶员预瞄点到参考路径的偏差,信号来自于驾驶员预瞄信息,其中i=1,2,3,4,5;
v_i为等效车轮速度,信号来自于轮速传感器,其中i=1,2,3,4;
lat_veh为车辆当前位置与参考路径侧向偏差,信号来自于车辆当前位置信息;
vx为车辆沿参考轨迹的纵向速度,其中vx=vcosψ,ψ=β+γ,β为车辆质心侧偏角,γ为车辆横摆角,ψ为车辆航向角;
vy为车辆沿参考轨迹的侧向速度,其中vy=vsinψ;
2)动作(at)选择
选择方向盘转角δ和车辆速度v作为深度强化学习动作网络的输出,其动作空间为[δ,v];
3)奖励函数(Rt)设计
奖励函数包括两个部分:来自速度的奖励和来自轨迹跟踪精度的奖励,其中来自轨迹跟踪精度的奖励函数设计采用一种非直接式的奖励设计方法,即采用当前状态的轨迹误差(latt)与下一状态的轨迹误差(latt+1)的差值进行奖励函数的设计;奖励函数的设计规则为:在保证轨迹跟踪精度(part3)的前提下最大化车辆沿轨迹方向的纵向速度(part1),同时最小化车辆沿轨迹方向的垂向速度(part2):
式中:ω0,ω1为权重系数,ω1用以调节轨迹跟踪性能在奖励函数中所占比重,ω0用以调节奖励函数的取值范围以便更好地进行网络整形。
4.如权利要求1所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
步骤三中,所述针对自动驾驶任务,提出一种改进DDPG算法:
设计“双动作”网络分别输出方向盘转角命令和车速命令,同时设计“主评论家”网络用于指导“双动作”网络的更新过程。
5.如权利要求4所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
改进的DDPG算法的在线训练过程主要包括以下步骤:
1)采用行为克隆算法对“双动作”网络进行初始化;
2)对“主评论家”网络进行预训练;
3)初始化经验池memory_batch;
4)“双动作”网络根据当前状态st及动作噪声产生动作命令at,包含方向盘转角命令和车速命令;
5)下层执行器(包含线控转向系统和驱动控制系统)执行动作命令at,并返回奖励Rt和新的状态st+1
6)将状态转移过程(st,at,Rt,st+1)存入到经验池memory_batch中,作为在线训练的数据集;
7)从经验池memory_batch中随机获取训练数据mini_batch;
8)根据训练数据集开始进行在线训练;
9)计算online Q网络的梯度;
10)采用Adam optimizer更新“主评论家”网络;
11)分别计算“双动作”网络的策略梯度;
12)采用Adam optimizer更新“双动作”网络;
13)Soft update target网络,包括“双动作”网络的目标网络及“主评论家”的目网络14)更新状态:st=st+1
15)返回步骤四。
6.如权利要求5所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
动作噪声的设计采用离散Ornstein-Uhlenbeck过程噪声:
式中:θi,μi,σi为超参数,εt i为维纳过程,i=1,2,λ为噪声折扣因子。
7.如权利要求1所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
步骤四中所提出的“双动作”网络的初始化训练主要包括如下两个部分:
1)数据采集
对专业驾驶员的驾驶行为进行数据采集,采集数据包含状态信息(st)和动作信息(at);数据采集的道路应包含多种不同的行驶工况;
2)行为克隆
对专业驾驶员的驾驶行为进行数据采集的过程中,为了更加精确的进行驾驶行为的行为克隆,采样频率设置为f1=1000Hz。
8.如权利要求1所述的基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略,其特征在于:
步骤五中所提出的对“主评论家”网络的“预训练”主要包括如下两个部分:
1)数据采集
对专业驾驶员的驾驶行为进行数据采集,为了保证前后两个状态之间有较为明显的差异,采样频率设置为f2=100Hz,以马尔可夫决策过程的形式对该数据集进行记录;之后,对改进DDPG算法中的“主评论家”网络进行预训练,其损失函数定义为:
其中:
yt=rt+γQ'(st+1,at+1)
式中:γ为奖励折扣因子,Q为“主评论家”网络,Q'为目标“主评论家”网络。
9.如权利要求1所述的基于深度强化学习的智能车自动驾驶轨迹跟踪控制策略,其特征在于:
步骤六中主要包括DRL模型的在线训练和测试:
1)训练过程
首先设计一个包含多种工况的道路环境用以DRL模型收集丰富的驾驶数据直至填满经验池,在此过程中DRL模型不进行训练,同时,如果车辆即将冲出道路,要进行人为干预使车辆回到中心线位置即期望轨迹;之后DRL模型开始进行在线训练,在训练过程中为了保证DRL模型可以控制车辆精确的跟踪期望的路径,轨迹跟踪误差的最大值设置为:max(cte)=0.1m,如果误差超过这个最大值,则停止此次训练,并进行人为干预使车辆回到道路中心线位置开始下一次训练,直到DRL模型可以控制车辆完成整个训练道路且轨迹跟踪误差的最大值不超过0.1m;如果DRL模型训练次数超过设置的最大训练次数但仍未完成整个训练道路,则说明该模型训练失败,需要重新调整训练参数并开始新的DRL模型训练;
2)测试过程
首先设计一个包含不同工况的新的道路环境作为测试道路,之后将训练好的DRL模型在训练道路上进行测试;在整个测试过程中DRL模型不进行在线训练以验证其在不同道路环境下的泛化能力。
CN201910743104.4A 2019-08-13 2019-08-13 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 Pending CN110322017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910743104.4A CN110322017A (zh) 2019-08-13 2019-08-13 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910743104.4A CN110322017A (zh) 2019-08-13 2019-08-13 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略

Publications (1)

Publication Number Publication Date
CN110322017A true CN110322017A (zh) 2019-10-11

Family

ID=68125959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910743104.4A Pending CN110322017A (zh) 2019-08-13 2019-08-13 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略

Country Status (1)

Country Link
CN (1) CN110322017A (zh)

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079936A (zh) * 2019-11-06 2020-04-28 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN111272174A (zh) * 2020-02-27 2020-06-12 中国科学院计算技术研究所 一种组合导航方法和系统
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111292001A (zh) * 2020-02-24 2020-06-16 清华大学深圳国际研究生院 基于强化学习的联合决策方法及装置
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111461309A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 实现隐私保护的更新强化学习系统的方法及装置
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN111507501A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111856925A (zh) * 2020-06-02 2020-10-30 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112078318A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于深度强化学习算法的汽车主动悬架智能控制方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112256037A (zh) * 2020-11-03 2021-01-22 智邮开源通信研究院(北京)有限公司 应用于自动驾驶的控制方法、装置、电子设备及介质
CN112346457A (zh) * 2020-11-03 2021-02-09 智邮开源通信研究院(北京)有限公司 用于避障的控制方法、装置、电子设备及可读存储介质
CN112348113A (zh) * 2020-11-27 2021-02-09 腾讯科技(深圳)有限公司 离线元强化学习模型的训练方法、装置、设备及存储介质
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112801290A (zh) * 2021-02-26 2021-05-14 中国人民解放军陆军工程大学 一种多智能体深度强化学习方法、系统及应用
CN112801149A (zh) * 2021-01-15 2021-05-14 江苏大学 一种基于深度强化学习的多车队列控制方法
CN112802061A (zh) * 2021-03-22 2021-05-14 浙江师范大学 一种基于层次化决策网络的鲁棒目标跟踪方法及系统
CN112904864A (zh) * 2021-01-28 2021-06-04 的卢技术有限公司 基于深度强化学习的自动驾驶方法和系统
CN112977606A (zh) * 2021-04-01 2021-06-18 清华大学 基于ddpg的线控转向系统转向补偿控制方法及装置
CN113010967A (zh) * 2021-04-22 2021-06-22 吉林大学 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN113110547A (zh) * 2021-04-21 2021-07-13 吉林大学 一种微型航空飞行器的飞行控制方法、装置及设备
CN113110359A (zh) * 2021-05-17 2021-07-13 清华大学 约束型智能汽车自主决策系统在线训练方法及装置
CN113156961A (zh) * 2021-04-28 2021-07-23 广州极飞科技股份有限公司 驾驶控制模型训练方法、驾驶控制方法及相关装置
CN113298324A (zh) * 2021-07-12 2021-08-24 东风悦享科技有限公司 一种基于深度强化学习与神经网络的轨迹预测模型方法、系统及装置
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113449823A (zh) * 2021-08-31 2021-09-28 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113525396A (zh) * 2021-08-13 2021-10-22 北京理工大学 一种融合深度强化学习的混动汽车分层预测能量管理方法
CN113552883A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车自主驾驶方法及系统
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113609777A (zh) * 2021-08-11 2021-11-05 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113715842A (zh) * 2021-08-24 2021-11-30 华中科技大学 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113741180A (zh) * 2020-11-30 2021-12-03 北京京东乾石科技有限公司 自动驾驶车辆模型的在线更新方法和装置
WO2021244207A1 (zh) * 2020-06-06 2021-12-09 华为技术有限公司 训练驾驶行为决策模型的方法及装置
WO2022017307A1 (zh) * 2020-07-22 2022-01-27 华为技术有限公司 自动驾驶场景生成方法、装置及系统
CN114114929A (zh) * 2022-01-21 2022-03-01 北京航空航天大学 一种基于lssvm的无人驾驶车辆路径跟踪方法
CN114179835A (zh) * 2021-12-30 2022-03-15 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114348021A (zh) * 2022-01-05 2022-04-15 清华大学 基于强化学习的车辆自主极限驾驶规划控制方法及系统
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
WO2022252457A1 (zh) * 2021-06-01 2022-12-08 苏州浪潮智能科技有限公司 一种自动驾驶控制方法、装置、设备及可读存储介质
CN115457782A (zh) * 2022-09-19 2022-12-09 吉林大学 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法
CN116300977A (zh) * 2023-05-22 2023-06-23 北京科技大学 一种依托强化学习的铰接车轨迹跟踪控制方法及装置
WO2023155231A1 (zh) * 2022-02-21 2023-08-24 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506830A (zh) * 2017-06-20 2017-12-22 同济大学 面向智能汽车规划决策模块的人工智能训练平台
US20180357552A1 (en) * 2016-01-27 2018-12-13 Bonsai AI, Inc. Artificial Intelligence Engine Having Various Algorithms to Build Different Concepts Contained Within a Same AI Model
CN109636699A (zh) * 2018-11-06 2019-04-16 中国电子科技集团公司第五十二研究所 一种基于深度强化学习的无监督智能作战推演系统
CN109765820A (zh) * 2019-01-14 2019-05-17 南栖仙策(南京)科技有限公司 一种用于自动驾驶控制策略的训练系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357552A1 (en) * 2016-01-27 2018-12-13 Bonsai AI, Inc. Artificial Intelligence Engine Having Various Algorithms to Build Different Concepts Contained Within a Same AI Model
CN107506830A (zh) * 2017-06-20 2017-12-22 同济大学 面向智能汽车规划决策模块的人工智能训练平台
CN109636699A (zh) * 2018-11-06 2019-04-16 中国电子科技集团公司第五十二研究所 一种基于深度强化学习的无监督智能作战推演系统
CN109765820A (zh) * 2019-01-14 2019-05-17 南栖仙策(南京)科技有限公司 一种用于自动驾驶控制策略的训练系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YANTAO TIAN: "Learning to Drive like human beings: A method based on deep reinforcement learning", 《IEEE》 *
夏伟: "基于深度强化学习的自动驾驶策略学习方法", 《集成技术》 *
张斌: "改进DDPG算法在自动驾驶中的应用", 《计算机工程与应用》 *
徐国艳: "基于DDPG的无人车智能避障方法研究", 《汽车工程》 *

Cited By (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507501A (zh) * 2019-01-31 2020-08-07 斯特拉德视觉公司 通过强化学习来执行个性化路径规划的方法及装置
CN111079936B (zh) * 2019-11-06 2023-03-14 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111079936A (zh) * 2019-11-06 2020-04-28 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111292001A (zh) * 2020-02-24 2020-06-16 清华大学深圳国际研究生院 基于强化学习的联合决策方法及装置
CN111272174A (zh) * 2020-02-27 2020-06-12 中国科学院计算技术研究所 一种组合导航方法和系统
CN111272174B (zh) * 2020-02-27 2021-11-23 中国科学院计算技术研究所 一种组合导航方法和系统
CN111267831B (zh) * 2020-02-28 2023-09-26 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN111300390B (zh) * 2020-03-20 2021-03-23 南栖仙策(南京)科技有限公司 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111461309A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 实现隐私保护的更新强化学习系统的方法及装置
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111856925A (zh) * 2020-06-02 2020-10-30 清华大学 基于状态轨迹的对抗式模仿学习方法及装置
CN113835421A (zh) * 2020-06-06 2021-12-24 华为技术有限公司 训练驾驶行为决策模型的方法及装置
WO2021244207A1 (zh) * 2020-06-06 2021-12-09 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN113835421B (zh) * 2020-06-06 2023-12-15 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN111552301B (zh) * 2020-06-21 2022-05-20 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111552301A (zh) * 2020-06-21 2020-08-18 南开大学 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
CN111845741A (zh) * 2020-06-28 2020-10-30 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
CN111845741B (zh) * 2020-06-28 2021-08-03 江苏大学 一种基于分层强化学习的自动驾驶决策控制方法及系统
WO2022017307A1 (zh) * 2020-07-22 2022-01-27 华为技术有限公司 自动驾驶场景生成方法、装置及系统
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112078318B (zh) * 2020-08-28 2024-05-07 的卢技术有限公司 一种基于深度强化学习算法的汽车主动悬架智能控制方法
CN112078318A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于深度强化学习算法的汽车主动悬架智能控制方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112216124B (zh) * 2020-09-17 2021-07-27 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112256037B (zh) * 2020-11-03 2021-07-30 智邮开源通信研究院(北京)有限公司 应用于自动驾驶的控制方法、装置、电子设备及介质
CN112256037A (zh) * 2020-11-03 2021-01-22 智邮开源通信研究院(北京)有限公司 应用于自动驾驶的控制方法、装置、电子设备及介质
CN112346457A (zh) * 2020-11-03 2021-02-09 智邮开源通信研究院(北京)有限公司 用于避障的控制方法、装置、电子设备及可读存储介质
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112348113A (zh) * 2020-11-27 2021-02-09 腾讯科技(深圳)有限公司 离线元强化学习模型的训练方法、装置、设备及存储介质
CN113741180A (zh) * 2020-11-30 2021-12-03 北京京东乾石科技有限公司 自动驾驶车辆模型的在线更新方法和装置
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112801149A (zh) * 2021-01-15 2021-05-14 江苏大学 一种基于深度强化学习的多车队列控制方法
CN112904864A (zh) * 2021-01-28 2021-06-04 的卢技术有限公司 基于深度强化学习的自动驾驶方法和系统
CN112801290A (zh) * 2021-02-26 2021-05-14 中国人民解放军陆军工程大学 一种多智能体深度强化学习方法、系统及应用
CN112802061A (zh) * 2021-03-22 2021-05-14 浙江师范大学 一种基于层次化决策网络的鲁棒目标跟踪方法及系统
CN112802061B (zh) * 2021-03-22 2021-08-06 浙江师范大学 一种基于层次化决策网络的鲁棒目标跟踪方法及系统
CN112977606A (zh) * 2021-04-01 2021-06-18 清华大学 基于ddpg的线控转向系统转向补偿控制方法及装置
CN113110547A (zh) * 2021-04-21 2021-07-13 吉林大学 一种微型航空飞行器的飞行控制方法、装置及设备
CN113010967B (zh) * 2021-04-22 2022-07-01 吉林大学 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN113010967A (zh) * 2021-04-22 2021-06-22 吉林大学 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN113156961B (zh) * 2021-04-28 2024-04-12 广州极飞科技股份有限公司 驾驶控制模型训练方法、驾驶控制方法及相关装置
CN113156961A (zh) * 2021-04-28 2021-07-23 广州极飞科技股份有限公司 驾驶控制模型训练方法、驾驶控制方法及相关装置
CN113110359A (zh) * 2021-05-17 2021-07-13 清华大学 约束型智能汽车自主决策系统在线训练方法及装置
WO2022252457A1 (zh) * 2021-06-01 2022-12-08 苏州浪潮智能科技有限公司 一种自动驾驶控制方法、装置、设备及可读存储介质
US11887009B2 (en) 2021-06-01 2024-01-30 Inspur Suzhou Intelligent Technology Co., Ltd. Autonomous driving control method, apparatus and device, and readable storage medium
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113298324A (zh) * 2021-07-12 2021-08-24 东风悦享科技有限公司 一种基于深度强化学习与神经网络的轨迹预测模型方法、系统及装置
CN113552883A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车自主驾驶方法及系统
CN113552883B (zh) * 2021-07-19 2024-05-14 吉林大学 基于深度强化学习的地面无人车自主驾驶方法及系统
CN113743469B (zh) * 2021-08-04 2024-05-28 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113743469A (zh) * 2021-08-04 2021-12-03 北京理工大学 一种融合多源数据及综合多维指标的自动驾驶决策方法
CN113609777A (zh) * 2021-08-11 2021-11-05 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113609777B (zh) * 2021-08-11 2023-05-26 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113501008B (zh) * 2021-08-12 2023-05-19 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113501008A (zh) * 2021-08-12 2021-10-15 东风悦享科技有限公司 一种基于强化学习算法的自动驾驶行为决策方法
CN113525396B (zh) * 2021-08-13 2023-10-13 北京理工大学 一种融合深度强化学习的混动汽车分层预测能量管理方法
CN113525396A (zh) * 2021-08-13 2021-10-22 北京理工大学 一种融合深度强化学习的混动汽车分层预测能量管理方法
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN113561986B (zh) * 2021-08-18 2024-03-15 武汉理工大学 自动驾驶汽车决策方法及装置
CN113715842A (zh) * 2021-08-24 2021-11-30 华中科技大学 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN113449823A (zh) * 2021-08-31 2021-09-28 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113449823B (zh) * 2021-08-31 2021-11-19 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN114179835A (zh) * 2021-12-30 2022-03-15 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114179835B (zh) * 2021-12-30 2024-01-05 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114348021B (zh) * 2022-01-05 2023-10-20 清华大学 基于强化学习的车辆自主极限驾驶规划控制方法及系统
CN114348021A (zh) * 2022-01-05 2022-04-15 清华大学 基于强化学习的车辆自主极限驾驶规划控制方法及系统
CN114114929A (zh) * 2022-01-21 2022-03-01 北京航空航天大学 一种基于lssvm的无人驾驶车辆路径跟踪方法
WO2023155231A1 (zh) * 2022-02-21 2023-08-24 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN115202341B (zh) * 2022-06-16 2023-11-03 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115202341A (zh) * 2022-06-16 2022-10-18 同济大学 一种自动驾驶车辆横向运动控制方法及系统
CN115457782B (zh) * 2022-09-19 2023-11-03 吉林大学 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法
CN115457782A (zh) * 2022-09-19 2022-12-09 吉林大学 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法
CN116300977B (zh) * 2023-05-22 2023-07-21 北京科技大学 一种依托强化学习的铰接车轨迹跟踪控制方法及装置
CN116300977A (zh) * 2023-05-22 2023-06-23 北京科技大学 一种依托强化学习的铰接车轨迹跟踪控制方法及装置
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Similar Documents

Publication Publication Date Title
CN110322017A (zh) 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
Codevilla et al. End-to-end driving via conditional imitation learning
CN108860139B (zh) 一种基于深度增强学习的自动泊车轨迹规划方法
CN110471444A (zh) 基于自主学习的无人机智能避障方法
CN109733415A (zh) 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110297494A (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
JP2022532972A (ja) 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN107264534A (zh) 基于驾驶员经验模型的智能驾驶控制系统和方法、车辆
CN109739218A (zh) 一种基于gru网络的仿优秀驾驶员换道模型建立方法
CN109625333A (zh) 一种基于深度增强学习的空间非合作目标捕获方法
CN111752261B (zh) 基于自主驾驶机器人的自动驾驶测试平台
CN109492763A (zh) 一种基于强化学习网络训练的自动泊车方法
CN109726804A (zh) 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
CN108897313A (zh) 一种分层式端到端车辆自动驾驶系统构建方法
CN104462716B (zh) 一种基于人‑车‑路模型的脑‑控车辆的脑‑机接口参数和动力学参数设计方法
CN112508164B (zh) 一种基于异步监督学习的端到端自动驾驶模型预训练方法
CN107092256A (zh) 一种无人车转向控制方法
CN110347154B (zh) 基于模拟控制系统的高精度地图路径规划方法
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN114282433A (zh) 基于模仿学习与强化学习结合的自动驾驶训练方法及系统
CN110320916A (zh) 考虑乘员感受的自动驾驶汽车轨迹规划方法及系统
CN114852105A (zh) 一种自动驾驶车辆换道轨迹规划方法及系统
CN109318897A (zh) 基于自动推理机制的接管巡航方法及系统
CN115416024A (zh) 一种力矩控制的机械臂自主轨迹规划方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191011

WD01 Invention patent application deemed withdrawn after publication