CN113276852A - 一种基于最大熵强化学习框架的无人驾驶车道保持方法 - Google Patents

一种基于最大熵强化学习框架的无人驾驶车道保持方法 Download PDF

Info

Publication number
CN113276852A
CN113276852A CN202110375328.1A CN202110375328A CN113276852A CN 113276852 A CN113276852 A CN 113276852A CN 202110375328 A CN202110375328 A CN 202110375328A CN 113276852 A CN113276852 A CN 113276852A
Authority
CN
China
Prior art keywords
network
value function
unmanned vehicle
state value
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110375328.1A
Other languages
English (en)
Other versions
CN113276852B (zh
Inventor
俞扬
詹德川
周志华
余峰
陈雄辉
罗凡明
张云天
管聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110375328.1A priority Critical patent/CN113276852B/zh
Publication of CN113276852A publication Critical patent/CN113276852A/zh
Application granted granted Critical
Publication of CN113276852B publication Critical patent/CN113276852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • B60W30/12Lane keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。

Description

一种基于最大熵强化学习框架的无人驾驶车道保持方法
技术领域
本发明涉及一种基于最大熵强化学习框架的无人驾驶车道保持方法,基于最大熵强化学习算法的思想,实现了在各类复杂多变路况下,对无人车进行自主车道保持,属于无人车深度强化学习技术领域。
背景技术
无人车包括环境感知、规划决策和车辆控制三个模块,其中规划决策阶段依据环境感知阶段采集的信息决定当前条件下应该采取的行动(包括跟驰、换道的选择,多车交互情况下的决策等),其内部决策算法的优劣决定着智能汽车的“驾驶水平”,因此又被称为智能汽车的“驾驶脑”。现有的决策系统采用的是基于逻辑规则的算法,能解决简单场景下的车辆行为决策,比如高速公路上的车辆跟驰。但这种算法往往过于保守,侧重安全而牺牲了效率。并且考虑到实际交通环境的复杂性,比如交织区、无信号交叉口等,面对交通环境中诸多交通参与者,如何在保证安全的前提下实现提高效率的行为决策,成为进一步实现完全自动驾驶的症结所在。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,以试错的方式与环境进行交互,获取最大的累积奖赏,是天然的决策利器。在Atari游戏、围棋、星际争霸等游戏领域,智能交通、电商推荐系统等领域都取得了较广泛的应用。
在现有的强化学习方法中,SAC是一种基于最大熵强化学习框架的免模型方法。在最大熵强化学习框架下,无人车更加倾向于随机策略,探索效率得到很大的提高,因此SAC有效解决了以往强化学习算法采样效率低和对超参敏感等问题。然而基于SAC的无人车决策,在模型推理阶段,由于使用的随机性策略,导致无人车在相同的状态下每次决策都有可能不一样,这使得模型的鲁棒性变差。
发明内容
发明目的:为了解决基于SAC的无人车决策中模型不够稳定的问题,本发明提供一种基于最大熵强化学习框架的无人驾驶车道保持方法。本发明在SAC算法的基础上做了些改进,对于训练阶段,在目标状态值网络将近收敛时去掉优化目标中的熵项以减小探索,鼓励利用已经学到的策略;对于使用阶段,根据策略网络输出的动作概率分布,选择概率值最大的动作给无人车执行。本发明在利用SAC加快模型训练时间的同时,又能保证无人车在环境中具有可靠稳定的性能。
技术方案:一种基于最大熵强化学习框架的无人驾驶车道保持方法,搭建无人车环境模拟器,在训练初始阶段基于最大熵强化学习框架使用SAC算法训练无人车控制策略模型,在训练后期,去除目标状态值网络优化目标中的熵项以减小探索,鼓励利用已经学到的策略;在推理阶段,对于训练好的策略模型,基于贪心算法使用确定性的策略。具体地,包括以下步骤:
步骤1,创建无人车模拟环境,包含环境车、行人以及各类交通设施;定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长;设置无人车的起始点、目标点以及给定的规划路径;设置环境车行驶策略和行人的运动模型;设置无人车分别与环境车、行人和路障的碰撞条件等。
步骤2,初始化状态值函数网络Vψ(st)、目标状态值函数网络
Figure BDA0003010940120000021
两个动作值函数网络
Figure BDA0003010940120000022
策略网络πφ(at|st)以及重放缓冲池D。
步骤3,在无人车模拟环境中,获得无人车观测到的初始状态s0
步骤4,对于每个时间步,基于无人车当前观测到的状态st从策略网络πφ(at|st)中采样获得动作at,无人车在环境中执行动作at,然后基于奖励机制获得奖励值r(st,at),并获得无人车在环境中的当前状态st+1
步骤5,将样本{(st,at,r(st,at),st+1)}加入缓冲池D。
步骤6,重复步骤4到步骤5直到缓冲池D填满。
步骤7,从缓冲池D采样N个样本(即小批量样本),基于梯度下降依次对状态值函数网络Vψ(st)做如下更新:
Figure BDA0003010940120000023
其中,
Figure BDA0003010940120000024
λV是状态值函数网络的更新步长。
对两个动作值函数网络
Figure BDA0003010940120000025
做如下更新:
Figure BDA0003010940120000026
其中,
Figure BDA0003010940120000027
λQ是状态值函数网络的更新步长,γ是折扣系数,值越大表示短期回报的权重越大。
对策略网络
Figure BDA0003010940120000031
做如下更新:
Figure BDA0003010940120000032
其中,
Figure BDA0003010940120000033
其中fφt;st)输出均值和方差,εt是输入的噪声向量(从一个固定分布采样,比如球形高斯分布),λπ是策略网络的更新步长。
然后更新目标状态值函数网络
Figure BDA0003010940120000034
Figure BDA0003010940120000035
τ是目标状态值函数网络参数的更新步长,ψ是状态值函数网络Vψ(st)的参数。
最后从缓冲区D中删除这N个样本。
步骤8,对于每个小批量样本,重复执行步骤7直到缓冲区为空或者剩余样本数不足N。
步骤9,重复执行步骤3到步骤8直到目标状态值函数网络
Figure BDA0003010940120000036
将近收敛(可用目标函数梯度值小于某个数值ε判定,如ε=0.1)。
步骤10:去除公式(2)中的动作熵项,即梯度计算公式变为:
Figure BDA0003010940120000037
重复执行步骤3到步骤8直到达到最大迭代轮数或者目标状态值函数网络
Figure BDA0003010940120000038
完全收敛。
步骤11:使用训练好的策略网络πφ(at|st)对无人车做决策。对于当前观测到的状态st,选取策略网络πφ(at|st)输出值最大的那个动作at=argmaxπφ(·|st),对无人车执行动作at,与环境交互。
与现有技术相比,本发明具有的益处有:
1、本发明使用了深度强化学习算法对无人车进行决策,相比传统基于规则的决策方式更加智能和高效,泛化性更强。
2、本发明基于最大熵的强化学习框架,相比传统强化学习,极大加速了无人车决策模型的训练速度和收敛率。
3、本发明基于改进的SAC算法,能有效提高无人车决策模型鲁棒性和稳定性。
附图说明
图1为本发明的整体框架图;
图2为本发明的使用阶段框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明基于最大熵强化学习算法的思想,实现了在各类复杂多变路况下,对无人车进行自主车道保持,文后是整体训练算法伪代码。
首先,强化学习可以用一个马尔科夫决策过程(MDP)表述,它是由四元组<S,A,p,r>所定义。其中,S表示状态空间,A表示动作空间,p表示未知的状态转移概率:S×S×A→[0,1],表示从当前状态和动作转移到下一个状态的概率,r表示在当前状态st下执行动作at收到的环境回报值。可以用ρπ(st)和ρπ(st,at)分别表示状态以及状态动作对在遵循策略π(at|st)下生成轨迹的分布。
下面对基于最大熵的强化学习做简单介绍。标准的强化学习最大化累积期望回报
Figure BDA0003010940120000041
而最大熵的强化学习在目标函数中增加了在策略ρπ(st)下的期望熵这一项来激励agent对随机动作的采样,从而提高探索几率,这在复杂任务下往往很有效,它的通用公式为:
Figure BDA0003010940120000042
温度系数α决定了熵这一项相对xeward的重要性。该目标函数相比标准的强化学习具有许多概念和实践优势。首先,它鼓励策略进行更广泛的探索,同时放弃显然毫无希望的途径。其次,该策略可以捕获接近最佳行为的多种模式。
基于上述知识点以及发明内容中的步骤,下面对本发明的具体实施细节做详细介绍。
如图1-2所示,基于最大熵强化学习框架的无人驾驶车道保持方法,包括如下步骤:
步骤一:搭建无人车模拟环境,包括环境车、行人以及交通设施。定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长;设置无人车的起始点、目标点以及给定的规划路径;设置环境车行驶策略和行人的运动模型;设置无人车分别与环境车、行人和路障的碰撞条件等。
步骤二:初始化状态值函数网络Vψ(st)、目标状态值函数网络
Figure BDA0003010940120000043
两个动作值函数网络
Figure BDA0003010940120000044
策略网络πφ(at|st)以及重放缓冲池D。网络结构可以设置为简单的MLP,激活函数采用Leaky ReLU,重放缓冲池的大小至少保证100条轨迹的样本数量,以保证值函数网络的稳定更新和收敛。
步骤三:在模拟器中,获得无人车观测到的初始状态s0。在该步骤中,可以使用并行的方法加快采样效率,初始状态的选择应尽可能随机,从而可以对复杂任务的轨迹进行有效采样;
步骤四:对于每个时间步,基于无人车当前观测到的状态st从策略网络πφ(at|st)中采样获得动作at,无人车在环境中执行动作at,然后基于奖励机制获得奖励值r(st,at),并获得无人车在环境中的当前状态st+1。与DQN和DDPG不同是的,这里从策略网络πφ(at|st)采样到的动作不是基于贪心算法,而是与生成动作的概率分布有关,概率越大的动作被采样到的可能性越大;
步骤五:将样本{(st,at,r(st,at),st+1)}加入缓冲池D。需要注意的是,如果st+1是终止状态,表示当前的轨迹已经结束,无人车应该重新选择起始状态开始下一段轨迹;
步骤六:重复步骤四到步骤五直到缓冲池D填满;
步骤七:将缓冲区D中的样本随机打乱,然后从缓冲区D采样N个样本,基于梯度下降依次对状态值函数网络Vψ(st)做如下更新:
Figure BDA0003010940120000051
其中,
Figure BDA0003010940120000052
的计算公式见公式(2)。
对两个动作值函数网络
Figure BDA0003010940120000053
做如下更新:
Figure BDA0003010940120000054
其中,
Figure BDA0003010940120000055
的计算公式见公式(4)。
对策略网络
Figure BDA0003010940120000056
做如下更新:
Figure BDA0003010940120000057
其中,
Figure BDA0003010940120000058
的计算公式见公式(6)。
然后更新目标状态值函数网络
Figure BDA0003010940120000059
Figure BDA00030109401200000510
最后从缓冲区D中删除这N个样本。
步骤八:对于每个小批量样本,重复执行步骤七直到缓冲区为空或者剩余样本数不足N;
步骤九:重复执行步骤三到步骤八直到目标状态值函数网络
Figure BDA0003010940120000061
将近收敛(可用目标函数梯度值小于某个数值ε判定,如ε=0.1)。
步骤十:去除公式(2)中的动作熵项,即梯度计算公式变为:
Figure BDA0003010940120000062
重复执行步骤三到步骤八直到达到最大迭代轮数或者目标状态值函数网络
Figure BDA0003010940120000063
完全收敛。
步骤十一:使用训练好的策略网络πφ(at|st)对无人车做决策。对于当前观测到的状态st,选取策略网络πφ(at|st)输出值最大的那个动作at=argmaxπφ(·|st),对无人车执行动作at,与环境交互。
Figure BDA0003010940120000064

Claims (8)

1.一种基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,包括以下步骤:
(1)创建无人车模拟环境;
(2)无人车与环境交互,收集样本数据并存储到缓冲池;
(3)使用随机策略从缓冲池中采样,对状态值函数网络、动作值函数网络以及策略网络进行更新;
(4)使用软更新的方法对目标状态值函数网络进行更新;
(5)重复执行步骤(2)到步骤(4),直到策略网络将近收敛;
(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;
(7)在使用阶段,对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。
2.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,所述无人车模拟环境包含环境车、行人以及各类交通设施;创建无人车模拟环境包括定义无人车的强化学习观测集合、动作集合、奖励机制和最大步长;设置无人车的起始点、目标点以及给定的规划路径;设置环境车行驶策略和行人的运动模型;设置无人车分别与环境车、行人和路障的碰撞条件。
3.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,所述步骤(2)中,收集样本数据并存储到缓冲池,包括:
(21)初始化状态值函数网络Vψ(st)、目标状态值函数网络
Figure FDA0003010940110000011
两个动作值函数网络
Figure FDA0003010940110000013
策略网络πφ(at|st)以及重放缓冲池D;
(22)在无人车模拟环境中,获得无人车观测到的初始状态s0
(23)对于每个时间步,基于无人车当前观测到的状态st从策略网络πφ(at|st)中采样获得动作at,无人车在环境中执行动作at,然后基于奖励机制获得奖励值r(st,at),并获得无人车在环境中的当前状态st+1
(24)将样本{(st,at,r(st,at),st+1)}加入缓冲池D;
(25)重复步骤(23)到步骤(24)直到缓冲池D填满。
4.根据权利要求1所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,更新状态值函数网络:从缓冲池D采样N个样本,基于梯度下降对状态值函数网络Vψ(st)做如下更新:
Figure FDA0003010940110000012
其中,
Figure FDA0003010940110000021
λV是状态值函数网络的更新步长;
对两个动作值函数网络
Figure FDA00030109401100000211
做如下更新:
Figure FDA0003010940110000022
其中,
Figure FDA0003010940110000023
λQ是状态值函数网络的更新步长,γ是折扣系数,值越大表示短期回报的权重越大;
对策略网络
Figure FDA0003010940110000024
做如下更新:
Figure FDA0003010940110000025
其中,
Figure FDA0003010940110000026
其中fφt;st)输出均值和方差,εt是输入的噪声向量,λπ是策略网络的更新步长;
对目标状态值函数网络
Figure FDA0003010940110000027
进行更新:
Figure FDA0003010940110000028
τ是目标状态值函数网络参数的更新步长。
5.根据权利要求4所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,更新完状态值函数网络、两个动作值函数网络、策略网络和目标状态值函数网络以后,从缓冲区D中删除这N个样本;对于每个小批量样本,重复执行更新状态值函数网络、两个动作值函数网络、策略网络和目标状态值函数网络直到缓冲区为空或者剩余样本数不足N。
6.根据权利要求5所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,重复执行步骤(2)到步骤(4)直到目标状态值函数网络
Figure FDA0003010940110000029
将近收敛,是否将近收敛用目标函数梯度值小于某个数值ε判定,ε=0.1。
7.根据权利要求6所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,所述步骤(6)中去掉目标状态值网络
Figure FDA00030109401100000210
的优化目标的熵项,即梯度计算公式变为:
Figure FDA0003010940110000031
重复执行步骤(2)到步骤(4)直到达到最大迭代轮数或者目标状态值函数网络
Figure FDA0003010940110000032
完全收敛。
8.根据权利要求7所述的基于最大熵强化学习框架的无人驾驶车道保持方法,其特征在于,使用训练好的策略网络πφ(at|st)对无人车做决策;对于当前观测到的状态st,选取策略网络πφ(at|st)输出值最大的那个动作at=argmaxπφ(·|st),对无人车执行动作at,与环境交互。
CN202110375328.1A 2021-04-08 2021-04-08 一种基于最大熵强化学习框架的无人驾驶车道保持方法 Active CN113276852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110375328.1A CN113276852B (zh) 2021-04-08 2021-04-08 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110375328.1A CN113276852B (zh) 2021-04-08 2021-04-08 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Publications (2)

Publication Number Publication Date
CN113276852A true CN113276852A (zh) 2021-08-20
CN113276852B CN113276852B (zh) 2022-09-23

Family

ID=77276311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110375328.1A Active CN113276852B (zh) 2021-04-08 2021-04-08 一种基于最大熵强化学习框架的无人驾驶车道保持方法

Country Status (1)

Country Link
CN (1) CN113276852B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117916A1 (en) * 2018-10-11 2020-04-16 Baidu Usa Llc Deep learning continuous lane lines detection system for autonomous vehicles
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111783994A (zh) * 2020-05-29 2020-10-16 华为技术有限公司 强化学习的训练方法和装置
CN112193280A (zh) * 2020-12-04 2021-01-08 华东交通大学 一种重载列车强化学习控制方法及系统
CN112447065A (zh) * 2019-08-16 2021-03-05 北京地平线机器人技术研发有限公司 一种轨迹规划方法及装置
CN112550314A (zh) * 2020-12-16 2021-03-26 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200117916A1 (en) * 2018-10-11 2020-04-16 Baidu Usa Llc Deep learning continuous lane lines detection system for autonomous vehicles
CN112447065A (zh) * 2019-08-16 2021-03-05 北京地平线机器人技术研发有限公司 一种轨迹规划方法及装置
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111783994A (zh) * 2020-05-29 2020-10-16 华为技术有限公司 强化学习的训练方法和装置
CN112193280A (zh) * 2020-12-04 2021-01-08 华东交通大学 一种重载列车强化学习控制方法及系统
CN112550314A (zh) * 2020-12-16 2021-03-26 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN115061371B (zh) * 2022-06-20 2023-08-04 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法

Also Published As

Publication number Publication date
CN113276852B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Mousavi et al. Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning
Such et al. Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning
CN113110592A (zh) 一种无人机避障与路径规划方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN111696370A (zh) 基于启发式深度q网络的交通灯控制方法
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN114839884B (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN110014428A (zh) 一种基于强化学习的时序逻辑任务规划方法
CN113299079B (zh) 一种基于ppo和图卷积神经网络区域交叉口信号控制方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN116968721A (zh) 一种混合动力汽车预测式能量管理方法、系统和存储介质
CN111443701A (zh) 基于异构深度学习的无人驾驶车辆/机器人行为规划方法
CN115759199A (zh) 基于层次化图神经网络的多机器人环境探索方法及系统
CN115719478A (zh) 一种独立于无关信息的加速强化学习的端到端自动驾驶方法
CN115331460A (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
Deng et al. Context-Enhanced Meta-Reinforcement Learning with Data-Reused Adaptation for Urban Autonomous Driving
Gharaee et al. A Bayesian approach to reinforcement learning of vision-based vehicular control
CN110516599A (zh) 基于渐进式关系学习的群体行为识别模型及其训练方法
CN116880218B (zh) 基于驾驶风格误解的鲁棒驾驶策略生成方法及系统
CN117490696A (zh) 一种加速机器人导航效率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant