CN112801149A - 一种基于深度强化学习的多车队列控制方法 - Google Patents
一种基于深度强化学习的多车队列控制方法 Download PDFInfo
- Publication number
- CN112801149A CN112801149A CN202110054062.0A CN202110054062A CN112801149A CN 112801149 A CN112801149 A CN 112801149A CN 202110054062 A CN202110054062 A CN 202110054062A CN 112801149 A CN112801149 A CN 112801149A
- Authority
- CN
- China
- Prior art keywords
- network
- vehicle
- training
- experience pool
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 62
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 11
- 230000001133 acceleration Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000002542 deteriorative effect Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000010355 oscillation Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种基于深度强化学习的多车队列控制方法,将堆叠4帧的状态量作为网络的输入,使用车队共享网络的训练方法产生训练样本填充经验池;在训练过程中每个周期结束时对经验池进行备份;在经验池中进行采样训练网络。本发明使用车队共享网络,多车同时参加训练的训练方法,车队成员同时产生训练样本,大幅度缓解了连续动作空间探索效率低下的问题,利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好,模型可以应对更加复杂的工况。使用时序信息,堆叠4帧状态量作为网络输入,增强网络的鲁棒性。提出经验池备份方法,通过对经验池的备份和覆盖,剔除非法周期产生的样本,防止低效的样本抽取劣化训练效果。
Description
技术领域
本发明属于交通运输领域,涉及一种基于深度强化学习的多车队列控制方法。
背景技术
近些年,针对自动驾驶的研究有很多,强化学习被提出后,在自动驾驶方面的应用也相继涌现。跟车是自动驾驶中重要的行为之一,使用深度强化学习训练跟车网络,通过设定合适的奖励函数可以优化汽车的跟车策略,在保证安全性的基础上体现一定的利他性。在复杂交通条件跟车策略难以设定时,可以通过逆强化学习对策略进行学习。
车队控制是在跟车基础上的多车体控制情境,使用深度强化学习进行训练,可以在一定程度上消减交通震荡,提高燃油经济性的同时展现利他性。但是车队控制在训练过程中存在问题:首先,多车体同时参加训练,训练难度大,甚至可能导致网络难以收敛。其次,奖励函数设计困难,每个车队成员拥有一个奖励函数,车队成员输出的动作互相干扰,存在奖励抵消的现象,导致训练中探索困难。最后,由于输入输出固定,与现实车队频繁改变成员数量矛盾,实用性差。为了避免以上问题,传统的训练方法是首先训练单车网络,再将收敛后的网络应用到每个车队成员,这样的方法没有在训练过程中体现车队环境,由于单车网络产生的样本单一,导致获得模型无法面对复杂情况。
发明内容
本发明目的在于提供一种基于深度强化学习的多车队列训练方法,通过车队共享网络,提高探索效率和样本多样性,使得后期训练稳定性得以提高,并通过使用时序信息和经验池备份增强训练的稳定性。
为实现上述目的,本发明采用如下技术方案:
基于深度强化学习的多车队列控制方法,包括如下步骤:
步骤1:使用基于深度强化学习的车队共享深度确定性策略梯度算法(PSDDPG),堆叠4帧的状态量作为网络的输入。以跟车网络为例,首先我们使用前后四帧的本车和前车状态作为神经网络输入,一帧状态量为[d,v1,v2,a1,a2],其中前后车之间距离d,前车车速v1,前车加速度a1,后车车速v2,后车加速度a2,一共20个状态量作为神经网络的输入,使用前后四帧的时序信息作为网络输入有助于提高训练的稳定性,增强网络的鲁棒性。
然后,我们使用归一化对神经网络的输入进行处理,归一化后的输入范围为[-1,1]。归一化是为了消除指标之间的量纲影响,使各指标处于同一数量级,减少奇异样本数据,防止梯度消失和梯度爆炸,加速网络收敛。
步骤2:在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池。相比于把所有车队成员状态作为输入,输出成员个数的动作,我们只将每一辆智能网联汽车自身和前车的状态作为输入,输出控制自身的一个动作,促使网络收敛,避免出现成员动作互相干扰、奖励抵消的现象。与此同时所有智能网联汽车共享决策网络,共同参与网络的训练。
步骤3:使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练,其使用的网络均为Actor-Critic网络架构;在训练过程中每个周期结束时对经验池进行备份。针对强化学习探索阶段探索不充分,学习初期样本采样效率低下,神经网络输出饱和值,导致经验池被污染,劣化训练效果的问题,提出了经验池备份的方法。在每个周期结束时,对经验池进行备份:
M0=M
其中M表示经验池、M0表示备用经验池。当本周期没有达到设定的条件时,我们认为该周期为非法周期,用之前备份的经验池进行覆盖,防止非法样本对经验池的污染,在本次实验中,判定依据设定为前后两帧本车的车速:
M=M0,ifvego[0]<0.01and vego[1]<0.01
其中vego[0]表示本车第一帧的车速、vego[1]表示本车第二帧的车速。
步骤4:从经验池中按照小批次抽样之后,计算目标函数yi:
yi=ri+γQi(si+1,μ′(si+1∣θμ′)θQ)
其中ri表示即时回报、γ表示折扣因子、Qi(si+1,μ′(si+1∣θμ′)θQ)表示状态si+1采取演出网络的目标网络μ′(si+1∣θμ′)的策略所获得的价值、θμ′表示演出网络的目标网络的参数、θQ表示评论家网络的参数。然后通过最小化损失loss更新评论家网络:
其中N表示小批次抽样个数、yi表示目标网络、Q(si,ai∣θQ)表示状态si在策略π下采取动作ai的价值、θQ表示评论家网络的参数。最后使用策略梯度下降更新演出网络:
优选的,步骤1中,所述DDPG算法中Actor网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用relu激活函数,最后一层网络使用tanh激活函数将输出映射到[-1,1]区间。Critic网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用relu激活函数,最后一层网络不使用激活函数直接输出q值进行评估。而后,对每一帧状态归一化使用的系数为[0.1,0.1,0.1,0.1,0.1]。
优选的,步骤2中,训练网络过程中,Actor和Critic网络选取的学习率均为0.001;折扣因子γ为0.8;目标网络更新权重tau为0.01。
优选的,步骤3中,经验池最大容量选为10000,经验池填满之前,网络属于探索过程,使用的噪声选为以0.5为方差的正态分布;经验池填满之后,网络属于学习过程,噪声衰减因子为0.9995。
优选的,步骤4中,从经验池中抽取的minibatch为128。
有益效果:训练初期探索速度更快,经验池更快被填满,后期训练稳定性更好,训练得到的网络实用性更高。实现了典型交通流下,多车队列的巡航、跟车、超车和避障控制。
本发明使用车队共享网络,多车同时参加训练的训练方法,车队成员同时产生训练样本,相比于传统的单车训练方法,大幅度缓解了连续动作空间探索效率低下的问题,并且利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好,模型可以应对更加复杂的工况。
本发明使用时序信息,堆叠4帧状态量作为神经网络输入,增强网络的鲁棒性,提出经验池备份方法,通过对经验池的备份和覆盖,剔除非法周期产生的样本,防止低效的样本抽取劣化训练效果。
附图说明
图1本发明的方法流程图;
图2本发明所使用Actor网络神经网络结构;
图3本发明所使用Critic网络神经网络结构。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明,但本发明的内容不局限于此。
本发明提供了基于深度强化学习的多车队列控制方法,可实现简单情境下车队的巡航、跟车、超车和避障,具体包括以下步骤:
搭建训练模型:
(1)对车队网络使用预训练,使其学会车道保持。
(2)在车道保持的基础上,使用深度强化学习算法(DDPG)对跟车、换道、决策网络分别进行训练。其使用的网络均为Actor-Critic网络架构:Actor网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用Relu激活函数,最后一层网络使用tanh激活函数将输出映射到[-1,1]区间。Critic网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用Relu激活函数,最后一层网络不使用激活函数直接输出q值进行评估。
(3)确定网络的输入和输出。对于跟车网络,首先我们使用前后四帧的本车和前车状态作为神经网络输入,一帧状态量为[d,v1,v2,a1,a2],其中前后车之间距离d,前车车速v1,前车加速度a1,后车车速v2,后车加速度a2,一共20个状态量作为神经网络的输入,使用前后四帧的时序信息作为网络输入有助于提高训练的稳定性,增强网络的鲁棒性。
然后,我们使用归一化对神经网络的输入进行处理,归一化后的输入范围为[-1,1],对每一帧状态归一化使用的系数为[0.1,0.1,0.1,0.1,0.1]。归一化是为了消除指标之间的量纲影响,使各指标处于同一数量级,减少奇异样本数据,防止梯度消失和梯度爆炸,加速网络收敛。
对于换道网络我们进行相似的处理,将归一化后的四帧一共12个状态量作为神经网络的输入,一帧状态量为[error,angle,v],其中智能网联汽车与车道中心线横向误差error,智能网联汽车与车道中心线夹角angle,本车车速v。归一化使用的系数为[1,1,0.1]。
对于决策网络,我们使用毫米波雷达返回领航车和社会车辆的车间距和相对速度,计算得出社会车辆的加速度,然后与间距、相对速度一起堆叠4帧,作为神经网络的输入,一帧状态量为[d,v,a],同样使用系数[0.1,0.1,0.1]进行归一化处理。
结合Carla模拟器中车辆的控制方法,我们跟车、换道、决策网络的输出都使用Tanh激活函数映射到[-1,1]中。对于跟车网络,将其拆分为两个区间[-1,0],[0,1],其中[-1,0]代表最大刹车到最小刹车(刹车=0),[0,1]代表最小油门(油门=0)到最大油门。将油门和刹车分开可以防止出现油门刹车同时存在的非法输出。对于换道网络,直接将[-1,1]映射到方向盘转动量,-1代表左打满,1代表右打满。对于决策网络,同样将[-1,1]拆分为正负两个区间。其中负值代表执行跟车行为,正值代表执行换道行为。
(4)设计网络的奖励函数。针对不同的网络,我们设定了相应的回报函数。对于跟车网络,我们从三个方面进行考虑,首先是安全性:
其中,headway头车时距、Δd表示车间距、v表示后车车速。我们对其进行了约束,防止过大的头车时距劣化训练效果。然后是预测性:
Rewardforecast=(vego-vfront)*(headway-headway0)
其中,vego本车速度、vfront前车速度、headway0理想头车时距,本文取headway0=1。这是一个与前后车车速和头车时距相关的奖励函数,当头车时距大于理想头车时距时,本车车速大于前车车速会带来正向的回报。同样的,当头车时距小于理想头车时距时,本车车速小于前车车速会带来正向的奖励。其次是舒适性:
其中,aego本车加速度。舒适性是跟车情境下的重要指标,当加(减)速度过大时会造成车内人员的不适,因此对于过大加(减)速度进行惩罚。最后,我们把三方面的回报函数进行加权,从而得到我们的跟车回报函数:
Reward=α*Rewardheadway+β*Rewardforecast+γ*Rewardcomfort
其中α、β、γ表示加权系数通过实验验证,当α=β=γ=1的时候,训练效果最好。
对于换道网络,我们将智能网联汽车与车道中心线横向误差error,智能网联汽车与车道中心线夹角angle、上一帧和这一帧的方向盘转动量steer、_steer作为回报函数的组成部分:
r2=-log(abs(error)+1,1.2)
r3=-5*abs(steer-_steer)
Rewardlane-change=(r1+r2+r3+4.4)*3
对于决策网络,我们使用稀疏奖励,只考虑社会车辆的车速和领航车的决策:
其中v表示社会车辆车速、车队行为包括三个动作车道保持keep_lane、左换道turn_left、右换道turn_right。只有在适当的情况下做出正确的决策才能得到正向的回报,否则只能得到负面的回报。使用稀疏的奖励函数使得决策网络更易于收敛。
(5)使用Carla模拟器作为仿真实验平台,结合随机噪声,使强化学习智能体在与仿真环境的交互中产生经验,并存入提前设置好的经验池中。
(6)当经验池被填满后,随机噪声逐渐衰减至0.01,系统从经验池中抽取minibatch对网络运用梯度下降法进行训练。训练中使用的参数分别是:Actor和Critic网络选取的学习率均为0.001;折扣因子γ为0.8;目标网络更新权重tau为0.01,经验池最大容量选为10000,噪声衰减因子为0.9995,从经验池中抽取的minibatch为128。
(7)当每个周期结束,对经验池进行备份,同时按照设定阈值判断周期是否满足条件,是否存在神经网络输出饱和值的情况。若该周期小于所设定阈值,则视为非法周期,使用备份好的经验池进行覆盖。其中使用公式为:
M0=M
M=M0,ifvego[0]<0.01and vego[1]<0.01
其中M表示经验池、M0表示备用经验池、vego[0]表示本车第一帧的车速、vego[1]表示本车第二帧的车速。
(8)对于训练好的网络进行测试:
测试参数:最大周期100,最大步长500。由于在测试过程中,领航车油门由训练时的0.4-0.7离散线性油门变为[-0.3,0.4,0.5,0.6,0.7,0.8,0.9]的随机油门,更加考验跟车网络的鲁棒性。从测试结果看,使用PSDDPG算法训练网络,在测试过程中没有发生碰撞和目标丢失,鲁棒性好。而使用单车训练方法,在100个周期中存在多次的目标丢失,发生了2次成员间的碰撞,鲁棒性差。
综上,本发明的一种基于深度强化学习的多车队列控制方法,通过基于深度强化学习的PSDDPG算法,把深度强化学习(DRL)应用到由智能网联汽车(ICV)组成的多车队列控制中,实现了典型交通流下,多车队列的巡航、跟车、超车和避障控制。包括如下步骤:使用PSDDPG算法,堆叠4帧的状态量作为网络的输入;在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池;在训练过程中每个周期结束时对经验池进行备份;在经验池中进行采样训练网络。本发明使用车队共享网络,多车同时参加训练的训练方法,车队成员同时产生训练样本,大幅度缓解了连续动作空间探索效率低下的问题,利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好,模型可以应对更加复杂的工况。使用时序信息,堆叠4帧状态量作为网络输入,增强网络的鲁棒性。提出经验池备份方法,通过对经验池的备份和覆盖,剔除非法周期产生的样本,防止低效的样本抽取劣化训练效果。
Claims (6)
1.一种基于深度强化学习的多车队列控制方法,其特征在于,包括如下步骤:
步骤1:使用基于深度强化学习的车队共享深度确定性策略梯度算法PSDDPG,堆叠4帧的状态量作为网络的输入;首先我们使用前后四帧的本车和前车状态作为神经网络输入,一帧状态量为[d,v1,v2,a1,a2],其中前后车之间距离d,前车车速v1,前车加速度a1,后车车速v2,后车加速度a2,一共20个状态量作为神经网络的输入;
步骤2:使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练,其使用的网络均为演出-评论家Actor-Critic网络架构;在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池,相比于把所有车队成员状态作为输入,输出成员个数的动作,只将每一辆智能网联汽车自身和前车的状态作为输入,输出控制自身的一个动作,与此同时所有智能网联汽车共享决策网络,共同参与网络的训练;
步骤3:在训练网络过程中每个周期结束时对经验池进行备份,在每个周期结束时,对经验池进行备份:
M0=M
其中M表示经验池、M0表示备用经验池,当本周期没有达到设定的条件时,我们认为该周期为非法周期,用之前备份的经验池进行覆盖,防止非法样本对经验池的污染,在本次实验中,判定依据设定为前后两帧本车的车速:
M=M0,ifvego[0]<0.01 and vego[1]<0.01
其中vego[0]表示本车第一帧的车速、vego[1]表示本车第二帧的车速;
步骤4:从经验池中按照小批次抽样之后,计算目标函数yi:
yi=ri+γQi(si+1,μ′(si+1|θμ′)θQ)
其中ri表示即时回报、γ表示折扣因子、Qi(si+1,μ′(si+1|θμ′)θQ)表示状态si+1采取演出网络的目标网络μ′(si+1|θμ′)的策略所获得的价值、θμ′表示演出网络的目标网络的参数、θQ表示评论家网络的参数;然后通过最小化损失loss更新评论家网络:
其中N表示小批次抽样个数、yi表示目标网络、Q(si,ai|θQ)表示状态si在策略π下采取动作ai的价值、θQ表示评论家网络的参数;最后使用策略梯度下降更新演出网络:
2.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤1还包括使用归一化对神经网络的输入进行处理,归一化后的输入范围为[-1,1]。
3.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤1中,所述DDPG算法中Actor网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用relu激活函数,最后一层网络使用tanh激活函数将输出映射到[-1,1]区间;Critic网络所使用神经网络模型结构由5个全连接层组成,其中前4个网络使用relu激活函数,最后一层网络不使用激活函数直接输出q值进行评估,而后,对每一帧状态归一化使用的系数为[0.1,0.1,0.1,0.1,0.1]。
4.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤2中,训练网络过程中,Actor和Critic网络选取的学习率均为0.001;折扣因子γ为0.8;目标网络更新权重tau为0.01。
5.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤3中,经验池最大容量选为10000,经验池填满之前,网络属于探索过程,使用的噪声选为以0.5为方差的正态分布;经验池填满之后,网络属于学习过程,噪声衰减因子为0.9995。
6.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法,其特征在于,所述步骤4中,从经验池中抽取的minibatch为128。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110054062.0A CN112801149B (zh) | 2021-01-15 | 2021-01-15 | 一种基于深度强化学习的多车队列控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110054062.0A CN112801149B (zh) | 2021-01-15 | 2021-01-15 | 一种基于深度强化学习的多车队列控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801149A true CN112801149A (zh) | 2021-05-14 |
CN112801149B CN112801149B (zh) | 2024-06-11 |
Family
ID=75809623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110054062.0A Active CN112801149B (zh) | 2021-01-15 | 2021-01-15 | 一种基于深度强化学习的多车队列控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801149B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
US20190232488A1 (en) * | 2016-09-15 | 2019-08-01 | Google Llc | Deep reinforcement learning for robotic manipulation |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111845741A (zh) * | 2020-06-28 | 2020-10-30 | 江苏大学 | 一种基于分层强化学习的自动驾驶决策控制方法及系统 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN112162555A (zh) * | 2020-09-23 | 2021-01-01 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
-
2021
- 2021-01-15 CN CN202110054062.0A patent/CN112801149B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190232488A1 (en) * | 2016-09-15 | 2019-08-01 | Google Llc | Deep reinforcement learning for robotic manipulation |
CN109733415A (zh) * | 2019-01-08 | 2019-05-10 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111845741A (zh) * | 2020-06-28 | 2020-10-30 | 江苏大学 | 一种基于分层强化学习的自动驾驶决策控制方法及系统 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN112162555A (zh) * | 2020-09-23 | 2021-01-01 | 燕山大学 | 混合车队中基于强化学习控制策略的车辆控制方法 |
Non-Patent Citations (3)
Title |
---|
夏伟;李慧云;: "基于深度强化学习的自动驾驶策略学习方法", 集成技术, no. 03, 15 May 2017 (2017-05-15) * |
张斌;何明;陈希亮;吴春晓;刘斌;周波;: "改进DDPG算法在自动驾驶中的应用", 计算机工程与应用, no. 10, 21 December 2018 (2018-12-21) * |
张法帅;李宝安;阮子涛;: "基于深度强化学习的无人艇航行控制", 计测技术, no. 1, 30 June 2018 (2018-06-30) * |
Also Published As
Publication number | Publication date |
---|---|
CN112801149B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362910B (zh) | 基于博弈论的自动驾驶车辆换道冲突协调模型建立方法 | |
CN111898211B (zh) | 基于深度强化学习的智能车速度决策方法及其仿真方法 | |
CN111222630B (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
CN110861634B (zh) | 交互感知决策 | |
CN113010967B (zh) | 一种基于混合交通流模型的智能汽车在环仿真测试方法 | |
CN103324085B (zh) | 基于监督式强化学习的最优控制方法 | |
CN113954837B (zh) | 一种基于深度学习的大型营运车辆车道变换决策方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN114407931A (zh) | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN113581182B (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
CN112861269B (zh) | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 | |
CN113386790A (zh) | 一种面向跨海大桥路况的自动驾驶决策方法 | |
CN115257789A (zh) | 城市低速环境下的营运车辆侧向防撞驾驶决策方法 | |
CN114488799B (zh) | 汽车自适应巡航系统控制器参数优化方法 | |
CN115107767A (zh) | 基于人工智能的自动驾驶刹车与防碰撞的控制方法 | |
Zhao et al. | Supervised adaptive dynamic programming based adaptive cruise control | |
CN113033902A (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
Xu et al. | Modeling Lateral Control Behaviors of Distracted Drivers for Haptic-Shared Steering System | |
CN112801149A (zh) | 一种基于深度强化学习的多车队列控制方法 | |
CN116127853A (zh) | 融合时序信息的基于ddpg的无人驾驶超车决策方法 | |
CN114148349A (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN114701517A (zh) | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 | |
CN114997048A (zh) | 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法 | |
CN113353102A (zh) | 一种基于深度强化学习的无保护左转弯驾驶控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |