CN116127853A - 融合时序信息的基于ddpg的无人驾驶超车决策方法 - Google Patents
融合时序信息的基于ddpg的无人驾驶超车决策方法 Download PDFInfo
- Publication number
- CN116127853A CN116127853A CN202310197273.9A CN202310197273A CN116127853A CN 116127853 A CN116127853 A CN 116127853A CN 202310197273 A CN202310197273 A CN 202310197273A CN 116127853 A CN116127853 A CN 116127853A
- Authority
- CN
- China
- Prior art keywords
- unmanned
- overtaking
- vehicle
- model
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000009471 action Effects 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000004088 simulation Methods 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 28
- 230000004927 fusion Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract 1
- 230000002787 reinforcement Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了融合时序信息的基于DDPG的无人驾驶超车决策方法。本发明通过获取多个连续时刻的状态,如车辆速度、车轮转速、距离邻近其它车辆位置和车道线距离检测等状态信息,处理生成一个多维状态输入矩阵。然后将该状态矩阵输入到超车决策控制模型中,直接输出车辆的动作控制信号,如油门、刹车和转向角度,从而控制车辆完成超车驾驶行为。超车模型的神经网络结构基于Actor‑Critic架构,其中神经网络输入的多维状态矩阵融入了时间序列驾驶状态信息,通过时间衰减因子权重系数来控制不同时刻的状态空间所占的比重。最后通过在TORCS(TheOpenRacingCarSimulator)平台上的仿真实验表明,融合时序信息的超车模型能够控制无人车安全、精准地完成超车任务。
Description
技术领域
本发明属于无人驾驶智能决策控制领域,涉及一种基于DDPG算法建模实现的无人驾驶超车决策方法。
背景技术
随着人工智能和信息感知的快速发展,无人驾驶技术受到学术界和工业界的广泛关注,迎来了蓬勃发展的阶段,无人驾驶技术已成为国内外研究的热点。无人驾驶在未来构建智慧城市体系中发挥着关键作用,无人驾驶的应用可以缓解道路交通拥堵、尾气排放污染、能源消耗、土地资源紧张等问题。超车是无人驾驶中一种基础的驾驶行为,它是指从当前车道变道进入超车道,超越同侧车辆后再返回原车道的过程。
目前解决超车决策控制问题的方法主要包括基于规则和基于学习的方法。基于规则的方法通常为针对某一场景人工设定规则,其中最具代表性的是有限状态机,它可以在不同的驾驶状态之间进行分类和切换,从而适应不同的驾驶场景。随着场景不确定性的增加,人工设定的规则也多种多样,从而导致规则数量庞大,规则库维护困难,因此基于规则的方法难以适应高动态和多样性的环境。基于学习的方法可以分为强化学习和深度强化学习。基于强化学习的方法只能用来解决低维度的状态和动作空间问题,具有很大的局限性且缺乏扩展性。基于深度强化学习的方法将神经网络的特征提取和强化学习的分步决策能力相结合,能够处理高维状态空间,更好地适应高动态和复杂的高维环境。基于深度强化学习构建超车驾驶行为是一种重要的研究途径,其中DDPG算法被广泛应用于无人驾驶领域,优势在于擅长处理连续型动作输出,同时与真实世界中的驾驶动作更加相近。根据真实世界中人类的超车行为可推断出,车辆超车的动作不仅取决于车辆当前时刻的状态,还取决于过去多个历史时刻的状态,即每个时刻的状态之间存在时间序列上的依赖关系。DDPG算法是依靠无人车的当前状态决策出的动作,并未考虑多个时刻的时序依赖性。对此,本发明提出了融合时序信息的基于DDPG的无人驾驶超车决策方法。
发明内容
本发明提出了融合时序信息的基于DDPG的无人驾驶超车决策方法,旨在解决不同时间段的多个状态对车辆动作具有不同程度影响,从而让无人车决策出更精准、更安全的动作控制信号,实现无人车的超车驾驶行为。考虑无人车的时间序列驾驶状态信息的端对端超车决策控制模型如图2所示。
本发明包括以下步骤:
步骤1:融合时序信息的基于DDPG的无人驾驶超车模型的多维状态空间和动作空间的设计。通过结合仿真环境上车辆的运动学和动力学因素分析,无人车的输入状态空间包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息,接着对输入状态进行维度扩充,然后构建无人车考虑时间序列驾驶状态信息的多维状态矩阵。多维状态矩阵由一段连续时间内多个时刻的状态数据组成,在考虑到多个时刻中距离当前时刻越近,其对无人车决策车辆动作产生影响越大的原因,决定设计一个时间衰减因子权重系数来控制不同时刻的状态空间所占比重不同。最后再对多维状态矩阵进行卷积操作形成带有时间衰减因子的特征图,形成过程如图3所示。无人车的输出动作空间包括油门、转角和刹车三种动作控制信号。
步骤2:融合时序信息的基于DDPG的无人驾驶超车模型的神经网络搭建。超车模型的神经网络由Actor网络μ(s|θμ)、Critic网络Q(s,a|θQ)、Target-Actor网络μ′(s′|θμ′)和Target-Critic网络Q′(s′,a′|θQ′)组成。无人驾驶超车模型的Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号,无人驾驶超车模型的Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号。无人驾驶超车模型的Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值,无人驾驶超车模型的Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值。
步骤3:融合时序信息的基于DDPG的无人驾驶超车模型的训练过程。通过无人车车身传感器获取连续t时刻内的环境状态信息st-1,st-2,…,st-n,处理生成无人车的多维状态空间矩阵,之后输入到超车模型的Actor网络得到无人车应该执行的动作at。然后将动作at交给无人驾驶仿真环境执行后生成无人车面临的新环境状态s′t,并计算无人车所获得的奖励值rt,最后不断地与无人驾驶仿真环境进行交互训练。融合时序信息的基于DDPG的超车模型与环境的交互过程如图4所示。超车模型控制无人车完成超车行为的过程中需要明确一个触发条件和两个关键变量,如图5所示。其中一个触发条件指的是汽车探测到前方有车且自身相对该车处于安全距离内,此时达到触发超车的条件。两个关键变量指的是无人车相对整个车道的横向偏移点位和纵向行驶速度偏移量,横向偏移点位控制无人车在不同车道行驶,纵向行驶速度偏移量控制无人车以不同的目标速度行驶,这两者都为超车模型控制无人车实施超车行为奠定基础。
步骤4:超车模型的学习过程。其学习过程一共分为两个阶段,分别是车道保持和超车阶段。车道保持阶段是无人车在单车环境下学习以恒定速度进行车道保持状态。通过调整横向偏移点位和纵向速度偏移量,同时结合车道保持奖励函数,共同指导无人车不断地学习左右转向和加减速操作,最后达到在不同车道以不同速度进行车道保持行驶的目的。超车阶段是无人车在多车的环境下学习超车行为。这一阶段以车道保持阶段为基础,当无人车前方传感器探测到前方有其它车辆时,则触发超车条件。由于无人车一开始没有超车经验,故会直接与前方车辆发生碰撞。当它在超车奖励函数的指导下经过一段时间的学习后,就能够在安全距离内通过改变横向偏移点位左转进入左车道,并进行车道保持行驶。然后通过更改纵向速度偏移量的值来学习加速超车行为,最后超车完成返回原车道。当无人车在右车道行驶,发现前方车辆后准备进行超车时的流程图如图6所示。
步骤5:融合时序信息的基于DDPG的无人驾驶超车模型的验证过程。对训练好的超车模型在TORCS仿真平台上进行测试,以验证无人车超车模型的控制精准度。
进一步地,步骤3中,超车模型的具体训练流程为:
步骤3.1:加载无人驾驶仿真环境,初始化车辆起始位置,更新无人车的环境状态信息st。
步骤3.2:获得无人车在连续t时刻内的环境状态信息st-1,st-2,…,st-n,同时设定一个时间衰减因子权重系数α(0<α<1)。
步骤3.3:把获得的无人车多个状态信息组合形成多维状态矩阵A。
步骤3.4:将该状态矩阵输入到无人驾驶超车模型的Actor网络中,根据时间衰减因子α进行卷积操作形成无人车的多个时间衰减因子特征图Aα。
Aα=A*diag(1,α1,α2…αn) (1)
步骤3.5:然后将多个特征图Aα中的信息进行整合,重新组合成一个特征向量。最后把特征向量转化为一组三维向量,即为无人驾驶超车模型的Actor网络输出的动作at。
步骤3.6:对动作at加入噪声N处理,之后把动作at应用到仿真环境上生成无人车的新环境状态信息s′t。
at=at+N (2)
步骤3.7:接着根据奖励函数R计算整体奖励值。其中为无人车的纵向速度奖励函数,Rcollision为判断无人车是否发生碰撞的奖励函数,Rtrack为判断无人车是否冲出车道的奖励函数,Rovertaking为无人车执行超车行为时的奖励函数
步骤3.8:最后收集无人车的整体奖励值、新环境状态以及回合结束标志存入经验回放池。
步骤3.9:接着开始更新无人驾驶超车模型的Actor网络和Critic网络。
步骤3.10:首先从经验回放池中随机选取批量大小的样本数据,每个样本数据包括根据时间衰减因子组合成的多维状态矩阵A。
步骤3.11:接着把无人车的多维状态矩阵A和样本数据中的动作at拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间。
步骤3.12:将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出下一状态和动作的最大Q值y,其中γ是奖励衰减因子,rt是奖励值。
y=γQ′(s′t,μ′(s′t|θμ)|θQ)+rt (4)
步骤3.13:然后通过最小化损失函数L(θQ)的方式更新无人驾驶超车模型的Critic网络参数θQ。
步骤3.15:之后以滑动平均的方式更新Target-Actor网络参数θμ′和Target-Critic网络参数θQ′,其中τ是滑动系数。
步骤3.16:最后保存无人驾驶超车模型的Actor网络和Critic网络模型。至此,融合时序信息的基于DDPG的无人驾驶超车模型训练完成。
进一步地,无人车的多维状态输入矩阵包括多个连续时刻的环境状态信息st,每一环境状态又包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息。
进一步地,无人车的动作空间at包括油门、转角和刹车三种动作控制信号。
与现有的方法相比,本发明提出的融合时序信息的基于DDPG的无人驾驶超车决策方法具有更精准的动作控制效果,相较于单个状态决策的动作能够更好地控制无人车完成超车任务。
附图说明
图1为本发明的模型整体结构图
图2为本发明的融合时序信息的端对端超车模型图
图3为本发明的时间衰减因子特征图
图4为本发明的超车模型与仿真环境交互图
图5为本发明的超车触发条件和关键变量示意图
图6为本发明的超车行为流程图
具体实施方式
为了使本发明的目的,发明内容及优点更加清楚明白,以及结合附图对本发明作进一步的详细说明。实施案例中超车行为的执行流程以及网络模型的决策和更新过程的具体步骤如下:
步骤1:首先是无人车进行超车行为的执行流程。开始加载无人驾驶仿真环境,初始化车辆起始位置,更新无人车的环境状态信息。
步骤2:搭建融合时序信息的基于DDPG的无人驾驶超车模型的神经网络。超车模型的神经网络由Actor网络μ(s|θμ)、Critic网络Q(s,a|θQ)、Target-Actor网络μ′(s′|θμ′)和Target-Critic网络Q′(s′,a′|θQ′)组成。无人驾驶超车模型的Actor网络和Target-Actor网络是相同的,都由两层全连接网络组成,两层隐藏层均含有Relu激活函数,输出层含有Tanh和Sigmoid激活函数。Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号,Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号。无人驾驶超车模型的Critic和Target-Critic网络相同,都由三层全连接网络组成,且只在第一层和第三层隐藏层含有Relu激活函数,其他层没有任何激活函数。Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值,Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值。
步骤3:初始化无人驾驶超车模型的神经网络参数、经验回放池Replay Buffer和随机噪声N等。
步骤4:与仿真环境交互,收集无人车的多个时间序列驾驶状态信息存入经验回放池。
步骤5:将无人车的多个状态组合成多维状态矩阵A。
步骤6:将无人车的多维状态矩阵A作为环境状态空间输入到无人驾驶超车模型的Actor网络中。
步骤7:无人驾驶超车模型的Actor网络则进行状态处理,根据时间衰减因子α对多维状态矩阵A进行卷积操作,形成多个时间衰减因子特征图Aα,如图2所示。
步骤8:将多个特征图中的信息进行整合,重新组合成一个特征向量。
步骤9:此特征向量经过全连接操作转化为一组三维向量,即为无人驾驶超车模型的Actor网络输出的无人车的具体动作。
步骤10:再将此动作加入噪声N处理,变成带有噪声的动作at。
步骤11:把噪声处理的动作at应用到TORCS仿真环境上,生成无人车的新环境观测信息s′t。
步骤13:判断此时无人车与其他车的安全距离是否触发超车条件,是否应执行超车行为流程。
步骤14:若达到超车条件,则超车模型开始控制无人车实施超车操作,如图6所示。
步骤15:根据无人车进行超车时的奖励函数Rovwrtaking开始计算无人车超车时的奖励值r2。
步骤16:通过更改无人车横向偏移点位的值,控制无人车执行左转操作进入超车道中行驶。
步骤17:通过更改无人车纵向速度偏移量的值,控制无人车执行加速操作超越同侧车道中的车辆。
步骤18:在无人车超车完成后,超车模型控制无人车返回原车道行驶。
步骤19:同时更改无人车的纵向速度偏移量,控制无人车在原车道减速继续进行车道保持行驶。
步骤20:根据无人车的碰撞奖励函数Rcollision计算无人车在超车过程中是否发生碰撞的奖励值r3。
步骤21:根据无人车的回合终止奖励函数Rtrack计算无人车在行驶过程中是否发生卡在轨道不动或冲出轨道的奖励值r4。
步骤22:对无人车所获得的奖励值进行整合,得到整体奖励值Reward=r1+r2+r3+r4。
步骤23:收集无人车的整体奖励值Reward、新环境状态s′t、回合结束标志done存入经验回放池。
步骤24:至此一次完整的融合时序信息的基于DDPG的无人驾驶超车模型控制无人车执行超车行为的流程完成,接着是超车模型中的神经网络决策和更新过程。
步骤25:从无人驾驶超车模型的经验回放池中随机选取批量大小的样本数据,每个样本数据包括根据时间衰减因子组合成的多维状态矩阵R。
步骤26:接着把无人车的多维状态矩阵A和样本数据中的动作at拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间。
步骤27:将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出下一状态和动作的最大Q值y。
步骤28:然后通过最小化损失函数L(θQ)的方式更新无人驾驶超车模型的Critic网络参数θQ。
步骤30:之后以滑动平均的方式更新无人驾驶超车模型的Target-Actor网络参数θμ′和Target-Critic网络参数θQ′
步骤31:最后将无人驾驶超车模型的Actor网络和Critic网络进行保存。
本发明的实施案例中,选用Ubuntu服务器上搭建的单向双车道的无人驾驶仿真平台超车场景作为无人车完成超车操作的条件。融合时序信息的基于DDPG的无人驾驶超车模型在达到超车条件时,通过结合无人车的横向偏移点位和纵向速度偏移量两个变量控制无人车实施超车行为,顺利展现了融合时序信息的基于DDPG的无人驾驶超车模型的决策控制过程。最后在TORCS仿真平台的E-track5地图上进行实验测试,表明无人车能够在无碰撞的条件下安全、精准地完成超车任务。
Claims (5)
1.融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,包括以下步骤:
步骤1:融合时序信息的基于DDPG的无人驾驶超车模型的多维状态空间和动作空间的设计;通过结合仿真环境上车辆的运动学和动力学因素分析,无人车的输入状态空间包括车辆速度、车辆与道路中心线的夹角以及车轮转速等信息,接着对输入状态进行维度扩充,然后构建考虑时间序列驾驶状态信息的多维状态矩阵;无人车的输出动作空间包括油门、转角和刹车三种动作控制信号;
步骤2:融合时序信息的基于DDPG的无人驾驶超车模型的神经网络搭建;超车模型的神经网络由Actor网络μ(s|θμ)、Critic网络Q(s,a|θQ)、Target-Actor网络μ′(s′|θμ′)和Target-Critic网络Q′(s′,a′|θQ′)组成;无人驾驶超车模型的Actor网络负责根据无人车观测的当前状态输出无人车应采取的动作控制信号,无人驾驶超车模型的Target-Actor网络负责根据无人车观测的下一状态输出无人车应采取的目标动作控制信号;无人驾驶超车模型的Critic网络负责估计无人车观测的当前状态与采取的动作时应取得的Q值,无人驾驶超车模型的Target-Critic网络负责估计无人车观测的下一状态与采取的目标动作时应取得的Q值;
步骤3:融合时序信息的基于DDPG的无人驾驶超车模型的训练过程;通过无人车车身传感器获取连续t时刻内的环境状态信息st-1,st-2,…,st-n,处理生成无人车的多维状态空间矩阵,之后输入到超车模型的Actor网络得到无人车应该执行的动作at;然后将动作at交给无人驾驶仿真环境执行后生成无人车面临的新环境状态s′t,并计算无人车所获得的奖励值rt,最后不断地与无人驾驶仿真环境进行交互训练;
步骤4:融合时序信息的基于DDPG的无人驾驶超车模型的学习过程;其学习过程一共分为两个阶段,分别是车道保持和超车阶段;车道保持阶段是超车模型控制的无人车在单车环境下学习以恒定速度进行车道保持状态;超车阶段是超车模型控制的无人车在多车的环境下学习超车行为;
步骤5:融合时序信息的基于DDPG的无人驾驶超车模型的验证过程;对训练好的超车模型在TORCS仿真平台上进行测试,以验证无人车超车模型的控制精准度。
2.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,在步骤3中,无人驾驶超车模型与环境交互的训练流程为:
第一步,初始化无人驾驶场景中的车辆起始位置,更新环境状态信息st;
第二步,获得连续多个t时刻内的环境状态信息st-1,st-2,…,st-n,同时设定一个时间衰减因子权重系数α,0<α<1;
第三步,将所获得的无人车的多个状态组合形成一个多维状态矩阵A;
第四步,将该状态矩阵输入到无人驾驶超车模型的Actor网络中,根据时间衰减因子α进行卷积操作形成无人车的多个时间衰减因子特征图Aα;
第五步,然后将多个特征图Aα中的信息进行整合,重新组合成一个特征向量;最后把特征向量转化为一组三维向量,即为无人驾驶超车模型的Actor网络输出的无人车应执行的动作at;
第六步,对动作at加入噪声N处理,之后把动作at应用到无人驾驶仿真环境上生成无人车的新环境状态信息s′t;
第七步,接着根据设定的无人车整体奖励函数R计算其整体奖励值;
第八步,最后收集无人车的整体奖励值、新环境状态、回合结束标志存入无人车超车模型的经验回放池;
第九步,接着开始更新无人驾驶超车模型的Actor网络和Critic;
第十步,首先从经验回放池中随机选取批量大小的样本数据,每个样本数据包括根据时间衰减因子组合成的多维状态矩阵A;
第十一步,接着把无人车的多维状态矩阵A和样本数据中的动作at拼接成无人驾驶超车模型的Target-Critic网络的输入状态空间;
第十二步,将该状态空间输入无人驾驶超车模型的Target-Critic网络估计出无人车的下一状态和动作的最大Q值;
第十三步,然后通过最小化损失函数的方式更新无人驾驶超车模型的Critic网络参数θQ;
第十四步,再根据策略梯度更新无人驾驶超车模型的Actor网络参数θμ;
第十五步,之后以滑动平均的方式更新无人驾驶超车模型的Target-Actor网络参数θμ′和Target-Critic网络参数θQ′;
第十六步,最后保存无人驾驶超车模型的Actor网络和Critic网络模型;至此,融合时序信息的基于DDPG的无人驾驶超车决策控制模型训练完成。
3.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,无人车的多维状态输入矩阵包括多个连续时刻的环境状态信息st,每一状态又包括车辆速度、车辆与道路中心线的夹角以及车轮转速。
4.根据权利要求1所述的融合时序信息的基于DDPG的无人驾驶超车决策方法,其特征在于,无人车的动作空间at包括油门、转角和刹车三种动作控制信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310197273.9A CN116127853A (zh) | 2023-03-03 | 2023-03-03 | 融合时序信息的基于ddpg的无人驾驶超车决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310197273.9A CN116127853A (zh) | 2023-03-03 | 2023-03-03 | 融合时序信息的基于ddpg的无人驾驶超车决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127853A true CN116127853A (zh) | 2023-05-16 |
Family
ID=86297539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310197273.9A Pending CN116127853A (zh) | 2023-03-03 | 2023-03-03 | 融合时序信息的基于ddpg的无人驾驶超车决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127853A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881853A (zh) * | 2023-09-08 | 2023-10-13 | 小舟科技有限公司 | 基于多模态融合的注意力评估方法、系统、设备及介质 |
-
2023
- 2023-03-03 CN CN202310197273.9A patent/CN116127853A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881853A (zh) * | 2023-09-08 | 2023-10-13 | 小舟科技有限公司 | 基于多模态融合的注意力评估方法、系统、设备及介质 |
CN116881853B (zh) * | 2023-09-08 | 2024-01-05 | 小舟科技有限公司 | 基于多模态融合的注意力评估方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN112232490B (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN110992695B (zh) | 基于冲突消解的车辆城市交叉口通行决策多目标优化方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN112034887A (zh) | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 | |
CN114564016A (zh) | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 | |
CN115469663B (zh) | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN113581182B (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
CN114312830A (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN114153213A (zh) | 一种基于路径规划的深度强化学习智能车行为决策方法 | |
CN113311828B (zh) | 一种无人车局部路径规划方法、装置、设备及存储介质 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN112784485A (zh) | 一种基于强化学习的自动驾驶关键场景生成方法 | |
CN116127853A (zh) | 融合时序信息的基于ddpg的无人驾驶超车决策方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
CN116629114A (zh) | 多智能体的模型训练方法、系统、计算机设备和存储介质 | |
Chen et al. | Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization | |
CN115031753A (zh) | 基于安全势场和dqn算法的行车工况局部路径规划方法 | |
CN117872800A (zh) | 一种基于离散状态空间下强化学习的决策规划方法 | |
CN113033902A (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
Guo et al. | Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |