CN113276852A - 一种基于最大熵强化学习框架的无人驾驶车道保持方法 - Google Patents
一种基于最大熵强化学习框架的无人驾驶车道保持方法 Download PDFInfo
- Publication number
- CN113276852A CN113276852A CN202110375328.1A CN202110375328A CN113276852A CN 113276852 A CN113276852 A CN 113276852A CN 202110375328 A CN202110375328 A CN 202110375328A CN 113276852 A CN113276852 A CN 113276852A
- Authority
- CN
- China
- Prior art keywords
- network
- value function
- unmanned vehicle
- state value
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 41
- 230000007613 environmental effect Effects 0.000 claims abstract description 10
- 238000004088 simulation Methods 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000001514 detection method Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。
Description
技术领域
本发明涉及一种基于最大熵强化学习框架的无人驾驶车道保持方法,基于最大熵强化学习算法的思想,实现了在各类复杂多变路况下,对无人车进行自主车道保持,属于无人车深度强化学习技术领域。
背景技术
无人车包括环境感知、规划决策和车辆控制三个模块,其中规划决策阶段依据环境感知阶段采集的信息决定当前条件下应该采取的行动(包括跟驰、换道的选择,多车交互情况下的决策等),其内部决策算法的优劣决定着智能汽车的“驾驶水平”,因此又被称为智能汽车的“驾驶脑”。现有的决策系统采用的是基于逻辑规则的算法,能解决简单场景下的车辆行为决策,比如高速公路上的车辆跟驰。但这种算法往往过于保守,侧重安全而牺牲了效率。并且考虑到实际交通环境的复杂性,比如交织区、无信号交叉口等,面对交通环境中诸多交通参与者,如何在保证安全的前提下实现提高效率的行为决策,成为进一步实现完全自动驾驶的症结所在。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,以试错的方式与环境进行交互,获取最大的累积奖赏,是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域,智能交通、电商推荐系统等领域都取得了较广泛的应用。
在现有的强化学习方法中,SAC是一种基于最大熵强化学习框架的免模型方法。在最大熵强化学习框架下,无人车更加倾向于随机策略,探索效率得到很大的提高,因此SAC有效解决了以往强化学习算法采样效率低和对超参敏感等问题。然而基于SAC的无人车决策,在模型推理阶段,由于使用的随机性策略,导致无人车在相同的状态下每次决策都有可能不一样,这使得模型的鲁棒性变差。
发明内容
发明目的:为了解决基于SAC的无人车决策中模型不够稳定的问题,本发明提供一种基于最大熵强化学习框架的无人驾驶车道保持方法。本发明在SAC算法的基础上做了些改进,对于训练阶段,在目标状态值网络将近收敛时去掉优化目标中的熵项以减小探索,鼓励利用已经学到的策略;对于使用阶段,根据策略网络输出的动作概率分布,选择概率值最大的动作给无人车执行。本发明在利用SAC加快模型训练时间的同时,又能保证无人车在环境中具有可靠稳定的性能。
技术方案:一种基于最大熵强化学习框架的无人驾驶车道保持方法,搭建无人车环境模拟器,在训练初始阶段基于最大熵强化学习框架使用SAC算法训练无人车控制策略模型,在训练后期,去除目标状态值网络优化目标中的熵项以减小探索,鼓励利用已经学到的策略;在推理阶段,对于训练好的策略模型,基于贪心算法使用确定性的策略。具体地,包括以下步骤:
步骤1,创建无人车模拟环境,包含环境车、行人以及各类交通设施;定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长;设置无人车的起始点、目标点以及给定的规划路径;设置环境车行驶策略和行人的运动模型;设置无人车分别与环境车、行人和路障的碰撞条件等。
步骤3,在无人车模拟环境中,获得无人车观测到的初始状态s0;
步骤4,对于每个时间步,基于无人车当前观测到的状态st从策略网络πφ(at|st)中采样获得动作at,无人车在环境中执行动作at,然后基于奖励机制获得奖励值r(st,at),并获得无人车在环境中的当前状态st+1。
步骤5,将样本{(st,at,r(st,at),st+1)}加入缓冲池D。
步骤6,重复步骤4到步骤5直到缓冲池D填满。
步骤7,从缓冲池D采样N个样本(即小批量样本),基于梯度下降依次对状态值函数网络Vψ(st)做如下更新:
其中,
λV是状态值函数网络的更新步长。
其中,
λQ是状态值函数网络的更新步长,γ是折扣系数,值越大表示短期回报的权重越大。
其中,
其中fφ(εt;st)输出均值和方差,εt是输入的噪声向量(从一个固定分布采样,比如球形高斯分布),λπ是策略网络的更新步长。
τ是目标状态值函数网络参数的更新步长,ψ是状态值函数网络Vψ(st)的参数。
最后从缓冲区D中删除这N个样本。
步骤8,对于每个小批量样本,重复执行步骤7直到缓冲区为空或者剩余样本数不足N。
步骤10:去除公式(2)中的动作熵项,即梯度计算公式变为:
步骤11:使用训练好的策略网络πφ(at|st)对无人车做决策。对于当前观测到的状态st,选取策略网络πφ(at|st)输出值最大的那个动作at=argmaxπφ(·|st),对无人车执行动作at,与环境交互。
与现有技术相比,本发明具有的益处有:
1、本发明使用了深度强化学习算法对无人车进行决策,相比传统基于规则的决策方式更加智能和高效,泛化性更强。
2、本发明基于最大熵的强化学习框架,相比传统强化学习,极大加速了无人车决策模型的训练速度和收敛率。
3、本发明基于改进的SAC算法,能有效提高无人车决策模型鲁棒性和稳定性。
附图说明
图1为本发明的整体框架图;
图2为本发明的使用阶段框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明基于最大熵强化学习算法的思想,实现了在各类复杂多变路况下,对无人车进行自主车道保持,文后是整体训练算法伪代码。
首先,强化学习可以用一个马尔科夫决策过程(MDP)表述,它是由四元组<S,A,p,r>所定义。其中,S表示状态空间,A表示动作空间,p表示未知的状态转移概率:S×S×A→[0,1],表示从当前状态和动作转移到下一个状态的概率,r表示在当前状态st下执行动作at收到的环境回报值。可以用ρπ(st)和ρπ(st,at)分别表示状态以及状态动作对在遵循策略π(at|st)下生成轨迹的分布。
下面对基于最大熵的强化学习做简单介绍。标准的强化学习最大化累积期望回报而最大熵的强化学习在目标函数中增加了在策略ρπ(st)下的期望熵这一项来激励agent对随机动作的采样,从而提高探索几率,这在复杂任务下往往很有效,它的通用公式为:温度系数α决定了熵这一项相对xeward的重要性。该目标函数相比标准的强化学习具有许多概念和实践优势。首先,它鼓励策略进行更广泛的探索,同时放弃显然毫无希望的途径。其次,该策略可以捕获接近最佳行为的多种模式。
基于上述知识点以及发明内容中的步骤,下面对本发明的具体实施细节做详细介绍。
如图1-2所示,基于最大熵强化学习框架的无人驾驶车道保持方法,包括如下步骤:
步骤一:搭建无人车模拟环境,包括环境车、行人以及交通设施。定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长;设置无人车的起始点、目标点以及给定的规划路径;设置环境车行驶策略和行人的运动模型;设置无人车分别与环境车、行人和路障的碰撞条件等。
步骤二:初始化状态值函数网络Vψ(st)、目标状态值函数网络两个动作值函数网络策略网络πφ(at|st)以及重放缓冲池D。网络结构可以设置为简单的MLP,激活函数采用Leaky ReLU,重放缓冲池的大小至少保证100条轨迹的样本数量,以保证值函数网络的稳定更新和收敛。
步骤三:在模拟器中,获得无人车观测到的初始状态s0。在该步骤中,可以使用并行的方法加快采样效率,初始状态的选择应尽可能随机,从而可以对复杂任务的轨迹进行有效采样;
步骤四:对于每个时间步,基于无人车当前观测到的状态st从策略网络πφ(at|st)中采样获得动作at,无人车在环境中执行动作at,然后基于奖励机制获得奖励值r(st,at),并获得无人车在环境中的当前状态st+1。与DQN和DDPG不同是的,这里从策略网络πφ(at|st)采样到的动作不是基于贪心算法,而是与生成动作的概率分布有关,概率越大的动作被采样到的可能性越大;
步骤五:将样本{(st,at,r(st,at),st+1)}加入缓冲池D。需要注意的是,如果st+1是终止状态,表示当前的轨迹已经结束,无人车应该重新选择起始状态开始下一段轨迹;
步骤六:重复步骤四到步骤五直到缓冲池D填满;
步骤七:将缓冲区D中的样本随机打乱,然后从缓冲区D采样N个样本,基于梯度下降依次对状态值函数网络Vψ(st)做如下更新:
最后从缓冲区D中删除这N个样本。
步骤八:对于每个小批量样本,重复执行步骤七直到缓冲区为空或者剩余样本数不足N;
步骤十:去除公式(2)中的动作熵项,即梯度计算公式变为:
步骤十一:使用训练好的策略网络πφ(at|st)对无人车做决策。对于当前观测到的状态st,选取策略网络πφ(at|st)输出值最大的那个动作at=argmaxπφ(·|st),对无人车执行动作at,与环境交互。
Claims (8)
1.一种基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,包括以下步骤:
(1)创建无人车模拟环境;
(2)无人车与环境交互,收集样本数据并存储到缓冲池;
(3)使用随机策略从缓冲池中采样,对状态值函数网络、动作值函数网络以及策略网络进行更新;
(4)使用软更新的方法对目标状态值函数网络进行更新;
(5)重复执行步骤(2)到步骤(4),直到策略网络将近收敛;
(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;
(7)在使用阶段,对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。
2.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,所述无人车模拟环境包含环境车、行人以及各类交通设施;创建无人车模拟环境包括定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长;设置无人车的起始点、目标点以及给定的规划路径;设置环境车行驶策略和行人的运动模型;设置无人车分别与环境车、行人和路障的碰撞条件。
3.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,所述步骤(2)中,收集样本数据并存储到缓冲池,包括:
(22)在无人车模拟环境中,获得无人车观测到的初始状态s0;
(23)对于每个时间步,基于无人车当前观测到的状态st从策略网络πφ(at|st)中采样获得动作at,无人车在环境中执行动作at,然后基于奖励机制获得奖励值r(st,at),并获得无人车在环境中的当前状态st+1;
(24)将样本{(st,at,r(st,at),st+1)}加入缓冲池D;
(25)重复步骤(23)到步骤(24)直到缓冲池D填满。
5.根据权利要求4所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,更新完状态值函数网络、两个动作值函数网络、策略网络和目标状态值函数网络以后,从缓冲区D中删除这N个样本;对于每个小批量样本,重复执行更新状态值函数网络、两个动作值函数网络、策略网络和目标状态值函数网络直到缓冲区为空或者剩余样本数不足N。
8.根据权利要求7所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,使用训练好的策略网络πφ(at|st)对无人车做决策;对于当前观测到的状态st,选取策略网络πφ(at|st)输出值最大的那个动作at=argmaxπφ(·|st),对无人车执行动作at,与环境交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375328.1A CN113276852B (zh) | 2021-04-08 | 2021-04-08 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110375328.1A CN113276852B (zh) | 2021-04-08 | 2021-04-08 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113276852A true CN113276852A (zh) | 2021-08-20 |
CN113276852B CN113276852B (zh) | 2022-09-23 |
Family
ID=77276311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110375328.1A Active CN113276852B (zh) | 2021-04-08 | 2021-04-08 | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113276852B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580302A (zh) * | 2022-03-16 | 2022-06-03 | 重庆大学 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
CN115061371A (zh) * | 2022-06-20 | 2022-09-16 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种防止策略抖动的无人机控制策略强化学习生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200117916A1 (en) * | 2018-10-11 | 2020-04-16 | Baidu Usa Llc | Deep learning continuous lane lines detection system for autonomous vehicles |
CN111026127A (zh) * | 2019-12-27 | 2020-04-17 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
CN111783994A (zh) * | 2020-05-29 | 2020-10-16 | 华为技术有限公司 | 强化学习的训练方法和装置 |
CN112193280A (zh) * | 2020-12-04 | 2021-01-08 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
CN112447065A (zh) * | 2019-08-16 | 2021-03-05 | 北京地平线机器人技术研发有限公司 | 一种轨迹规划方法及装置 |
CN112550314A (zh) * | 2020-12-16 | 2021-03-26 | 吉林大学青岛汽车研究院 | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 |
-
2021
- 2021-04-08 CN CN202110375328.1A patent/CN113276852B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200117916A1 (en) * | 2018-10-11 | 2020-04-16 | Baidu Usa Llc | Deep learning continuous lane lines detection system for autonomous vehicles |
CN112447065A (zh) * | 2019-08-16 | 2021-03-05 | 北京地平线机器人技术研发有限公司 | 一种轨迹规划方法及装置 |
CN111026127A (zh) * | 2019-12-27 | 2020-04-17 | 南京大学 | 基于部分可观测迁移强化学习的自动驾驶决策方法及系统 |
CN111783994A (zh) * | 2020-05-29 | 2020-10-16 | 华为技术有限公司 | 强化学习的训练方法和装置 |
CN112193280A (zh) * | 2020-12-04 | 2021-01-08 | 华东交通大学 | 一种重载列车强化学习控制方法及系统 |
CN112550314A (zh) * | 2020-12-16 | 2021-03-26 | 吉林大学青岛汽车研究院 | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580302A (zh) * | 2022-03-16 | 2022-06-03 | 重庆大学 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
CN115061371A (zh) * | 2022-06-20 | 2022-09-16 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种防止策略抖动的无人机控制策略强化学习生成方法 |
CN115061371B (zh) * | 2022-06-20 | 2023-08-04 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种防止策略抖动的无人机控制策略强化学习生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113276852B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Mousavi et al. | Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning | |
Such et al. | Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning | |
CN113110592A (zh) | 一种无人机避障与路径规划方法 | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN111696370A (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN114839884B (zh) | 一种基于深度强化学习的水下航行器底层控制方法及系统 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN110014428A (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
CN113299079B (zh) | 一种基于ppo和图卷积神经网络区域交叉口信号控制方法 | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
CN115009291B (zh) | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 | |
CN116968721A (zh) | 一种混合动力汽车预测式能量管理方法、系统和存储介质 | |
CN111443701A (zh) | 基于异构深度学习的无人驾驶车辆/机器人行为规划方法 | |
CN115759199A (zh) | 基于层次化图神经网络的多机器人环境探索方法及系统 | |
CN115719478A (zh) | 一种独立于无关信息的加速强化学习的端到端自动驾驶方法 | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
Deng et al. | Context-Enhanced Meta-Reinforcement Learning with Data-Reused Adaptation for Urban Autonomous Driving | |
Gharaee et al. | A Bayesian approach to reinforcement learning of vision-based vehicular control | |
CN110516599A (zh) | 基于渐进式关系学习的群体行为识别模型及其训练方法 | |
CN116880218B (zh) | 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统 | |
CN117490696A (zh) | 一种加速机器人导航效率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |