CN111824182A - 一种基于深度强化学习的三轴重型车自适应巡航控制算法 - Google Patents

一种基于深度强化学习的三轴重型车自适应巡航控制算法 Download PDF

Info

Publication number
CN111824182A
CN111824182A CN202010749185.1A CN202010749185A CN111824182A CN 111824182 A CN111824182 A CN 111824182A CN 202010749185 A CN202010749185 A CN 202010749185A CN 111824182 A CN111824182 A CN 111824182A
Authority
CN
China
Prior art keywords
vehicle
reinforcement learning
state
adaptive cruise
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010749185.1A
Other languages
English (en)
Other versions
CN111824182B (zh
Inventor
赵伟强
孙铭
牟嘉鹏
宗长富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202010749185.1A priority Critical patent/CN111824182B/zh
Publication of CN111824182A publication Critical patent/CN111824182A/zh
Application granted granted Critical
Publication of CN111824182B publication Critical patent/CN111824182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • B60W60/0016Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • B60W2554/404Characteristics
    • B60W2554/4042Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/802Longitudinal distance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种基于深度强化学习的三轴重型车自适应巡航控制算法,包括如下步骤:包括如下步骤:步骤一、获取表征车辆状态的特征值;其中,车辆状态包括:本车质心相对于车道中线位置的偏移、本车与前车的距离、前车车速和本车车速;步骤二、将表征车辆状态的特征值输入强化学习网络模型,得到车辆控制参数;并且根据车辆状态特征值与其对应的车辆控制参数确定奖励函数;其中,车辆控制参数包括:方向盘转角、制动踏板开度和油门踏板开度;步骤三、对强化学习网络模型进行优化,直到获得奖励函数的最大值,得到最优强化学习网络;其中,在车辆自适应巡航状态下,通过最优强化学习网络得到的方向盘转角、制动踏板开度和油门踏板开度。

Description

一种基于深度强化学习的三轴重型车自适应巡航控制算法
技术领域
本发明属于车辆控制技术领域,特别涉及一种基于深度强化学习的三轴重型车自适应巡航控制算法。
背景技术
在无人驾驶技术的感知,决策,控制三大领域中,智能车辆的决策一直是自动驾驶的核心部分和关键竞争领域,扮演着驾驶员大脑的角色。重型重型车辆的自适应巡航系统作为一项重要的辅助驾驶技术,其决策的优越性直接影响到车辆的行驶安全和行驶效率。
传统智能车辆的ACC决策系统基于规则设计,人为规定车辆在各场景下的行为模式并以某些特征变量作为条件切换的判断依据。这种智能车辆的控制策略大多在封闭场景、结构化道路下基于规则设计,在处理复杂和陌生环境时不具备自适应能力。这一方面是由于复杂工况下的测试验证在实际场景中难以开展,另一方面,复杂工况下设计规则会指数级上升且在考虑侧向失稳时原车的横摆力矩控制系统与ACC可能存在相互制约。
强化学习方法在解决贯序决策问题上表现出了极大的优势与潜力。强化学习是一种典型的经验驱动、自主学习方法,在机器人、无人机、车辆领域的应用都取得了较好的效果。然而,由于强化学习算法固有的存储复杂度、计算复杂度和采样复杂度,其扩展性受到了极大的限制,多数时候只能使用低维特征处理任务。近年来,由于计算能力的提升,具有强大非线性函数拟合功能和表征学习特性的深度学习为解决这一问题提供了新的思路。深度学习部分如同人类的眼睛,负责复杂驾驶环境的感知和特征提取;强化学习部分则通过马尔可夫决策过程完成推理、判断和决策,作用如同人脑。通过与环境不断交互,强化学习可以自主地在复杂的驾驶环境中进行决策与控制。
目前常见的重型车自适应巡航控制算法大多基于规则设计且未考虑重型车辆的侧倾稳定性,但重型车辆质心位置较高,轮距相对于车身较窄,因此相较于其他车辆更容易出现侧翻等稳定性问题。而对于运载大质量货物且车身更长的多轴车辆而言,一旦出现事故就是极其严重的恶性交通事故。
发明内容
本发明设计开发了一种基于深度强化学习的三轴重型车自适应巡航控制算法,在深度强化学习网络训练过程中考虑车辆侧倾稳定性,其目的是在车辆自适应过程中能够对车辆的危险状态进行纠正,提高车辆在自适应巡航过程中的安全性。
本发明提供的技术方案为:
一种基于深度强化学习的三轴重型车自适应巡航控制算法,包括如下步骤:
步骤一、获取表征车辆状态的特征值;
其中,所述车辆状态包括:本车质心相对于车道中线位置的偏移、本车与前车的距离、前车车速和本车车速;
步骤二、将所述表征车辆状态的特征值输入强化学习网络模型,得到车辆控制参数;并且根据所述车辆状态特征值与其对应的车辆控制参数确定奖励函数;
其中,所述车辆控制参数包括:方向盘转角、制动踏板开度和油门踏板开度;所述奖励函数为:
Figure BDA0002609449680000021
式中,
Figure BDA0002609449680000022
为本车侧倾角,vkl为前车车速,ve为本车车速,vset为自适应巡航的期望车速,Derror为本车与前车的距离,vvkl为本车车速和目标车速的比值;R1为车辆稳定性奖励函数;
步骤三、对所述强化学习网络模型进行优化,直到获得所述奖励函数的最大值,得到最优强化学习网络;
其中,在车辆自适应巡航状态下,通过所述最优强化学习网络得到的方向盘转角、制动踏板开度和油门踏板开度。
优选的是,所述车辆稳定性奖励函数为:
Figure BDA0002609449680000031
式中,kr为车辆稳定性系数,LTR为横向载荷转移率,ε为调节参数。
优选的是,所述横向荷载转移率为:
Figure BDA0002609449680000032
式中,Fzr、Fzl分别车辆左右轮的垂直载荷。
优选的是,在所述步骤二中,所述强化学习网络包括:演员网络和评论家网络;并且所述演员网络和所述评论家网络采用异构确定性策略梯度进行优化;
其中,所述异构确定性策略梯度为:
Figure BDA0002609449680000033
式中,β为采样策略,ρ为状态分布,μ(s|θμ)为确定性策略,Q(s,a|θQ)为动作值函数,a为强化学习网络选择的动作,s为强化学习网络的状态,si为强化学习网络的第i个状态,θ为策略参数。
优选的是,所述评论家网络优化过程中的权值更新算法为:
Figure BDA0002609449680000034
其中,δi为时间差分误差,rt表示当前时刻奖励,Q′表示当前时刻该时刻的状态价值函数的估计值,Q表示上一时刻的状态价值函数值。
优选的是,所述的基于深度强化学习的三轴重型车自适应巡航控制算法,还包括:
在所述步骤三中,当LTR>0.95时,结束当前优化过程,并且开始新的优化周期。
本发明的有益效果是:
本发明提供的基于深度强化学习的三轴重型车自适应巡航控制算法,在深度强化学习网络训练过程中考虑车辆侧倾稳定性,在车辆自适应巡航过程中能够对车辆的危险状态进行纠正,提高车辆在自适应巡航过程中的安全性。
附图说明
图1为本发明所述的基于深度强化学习的三轴重型车自适应巡航控制算法的流程图。
图2为本发明所述的三轴重型商用车辆载荷建模断开图。
图3为本发明所述的强化学习算法网络结构。
图4为本发明所述的强化学习网络奖赏值的训练过程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供了一种基于深度强化学习的三轴重型车自适应巡航控制算法,所述的自适应巡航控制算法能够适用于各种道路,并且能在高速过弯情况下兼顾三轴商用车的侧倾稳定性。
强化学习中的车辆的环境状态信息通过传感器数据获得,输出动作包括方向盘转角,制动踏板开度,油门踏板开度三个维度,车辆的环境状态信息包括车辆质心相对于车道中心位置的偏移,与前车的距离,前车车速,本车车速四个维度。安装在智能商用车上的传感器可以提供关于车辆状态和车辆周围环境的必要信息。由于车辆获得的是多个不同类型传感器的观测数据,即信息具有多样性和复杂性,因此需要对相关信息进行处理并融合后作为深度强化学习算法中输入的状态量。对于多源传感器而言,其数据融合过程可简要概括为三点:
(1)收集并处理多源传感器数据,对输入数据进行状态特征提取,得到观测数据的特征值;对输入图像和雷达信息进行处理,传感输入的信息是矩阵,卷积之后得到特征值,用来表征车辆参数信息(与前车的距离,前车车速,本车车速)
(2)为了完成对同一个目标的综合描述,对相关特征值进行数据关联。
(3)将不同目标的特征值进行数据组合处理,然后传入深度强化学习算法中,在仿真环境下对深度强化学习网络参数进行训练。
在未知环境中,车辆需要躲避任意形状的静态和动态障碍物,为提高车辆的智能化水平,控制算法需要考虑一系列环境状态。首先通过对商用车辆进行载荷建模,得到三轴商用车辆的侧倾稳定性判据,然后构建深度强化学习的训练网络,设计动作空间、状态空间、更新方程和奖赏函数,使该三轴重型商用车辆在仿真环境中自我学习,并更新强化学习网络,在训练结束后,决策智能体可以满足上述重型商用车自适应巡航控制的要求,同时也实现了重型商用车辆通过大曲率弯道时对侧倾稳定性的要求。
本发明的具体实施方法如下:
(1)重型车辆垂直载荷建模
垂直载荷分配是多轴车辆和两轴车辆最大的不同,为了避免过约束和引入动态载荷分配比率等参数,本发明将该三轴车辆分段分析,如图2所示,在断开点处引入虚拟内力,同时考虑了质心位置不同对载荷分配带来的差异影响,忽略车辆的俯仰运动与车身的柔性,车辆各轴的垂直载荷仅由侧倾角速度、侧倾角、侧向加速度与纵向加速度引起。
建模过程如下:
Figure BDA0002609449680000051
Figure BDA0002609449680000052
Figure BDA0002609449680000053
Figure BDA0002609449680000054
Figure BDA0002609449680000055
Figure BDA0002609449680000056
其中,m为整车质量,mv为空载车身质量,mi为第i部分货物质量(i为分割后车体子系统数量,i=1,2),lv为第一轴到整车质心的距离,li为第一轴到第i-1轴的距离,lri为整车质心到第i轴的距离,lr1i为第一部分质心到第i-1轴的距离,lvi为第i轴到第i部分质心的距离,Lc为第一轴到货物质心的距离,H为车辆的轮距,h为整车质心C.G高度,hi为第i部分质心高度,hri为第i部分质心至侧倾轴距离,
Figure BDA0002609449680000063
为侧倾角,C.G为整车质心,c.gi为第i部分质心,Kbi为第i部分防侧倾稳定杆刚度系数,Ci为第i部分悬架阻尼系数,ax为纵向加速度,ay为侧向加速度,ΔFzrmi,zlmi为第i轴侧向力矩转化的垂向载荷变化值,ΔFzrai,zlai为第i轴俯仰力矩转化的垂向载荷变化值,ΔFzri,zli为第i轴垂向载荷总变化值。
采用横向载荷转移率(LTR)作为鉴别车辆是否趋于侧翻的评价指标,其中:
Figure BDA0002609449680000061
结合以上建立的载荷模型,可带入动态横向载荷转移计算各轴的垂向载荷,其值的大小与车辆的侧倾角,侧倾角速度,侧向加速度等变量有关。经过仿真验证,设置三轴商用车辆LTR阈值的绝对值为0.55,即当LTR绝对值大于0.55时,算法判断车辆将趋于发生侧翻事故,启动控制算法对车辆进行控制。
(2)深度强化学习网络的构建
如图3所示,深度强化学习网络主要包括演员网络和评论家网络,其中演员网络主要负责接受当前驾驶状态的数据进行组合,然后对组合特征进行回归输出连续动作;而评论家网络则接受传感输入和当前状态下演员网络给出的动作,输出当前状态-动作对的价值。对以往的实践证明,如果只使用单个神经网络的算法,数据的马尔科夫性使得函数逼近达不到稳定效果,鉴于神经网络常用参数θ进行参数化表征,基于此创建两个神经网络,eval net和target net(目标网络)。
Figure BDA0002609449680000062
演员网络和评论家网络均通过4个全连接层(每层具有48个神经元)进行特征回归,演员网络使用非线性激活函数(tanh函数)输出方向盘转角和油门/制动踏板开度,演员网络和评论家网络结构分别整理如表1-2所示:
表1演员网络结构表
Figure BDA0002609449680000071
表2评论家网络结构表
Figure BDA0002609449680000072
(3)强化学习网络的更新
如图4所示,演员的策略更新方式采用策略梯度进行优化,优化目标为策略期望总奖励maxθE(R|πθ),R为过程中的累计奖励,πθ为行为策略。
强化学习的目标函数可以表示为:
Figure BDA0002609449680000081
其中,R(τ)表示轨迹τ的回报,P(τ;θ)表示轨迹出现的概率。
对于智能体的一组状态-动作序列,为了使策略产生固定轨迹,也就是在同一状态下动作输出唯一,采用确定性策略。同时为了避免确定性策略无法访问其他状态导致无法学习,采用异策略的学习方法,即演员和评论家不采用同一策略。异构确定性策略梯度的计算方法如下:
Figure BDA0002609449680000082
其中,β为采样策略,ρ为状态分布,μ(s|θμ)为确定性策略,Q(s,a|θQ)为动作值函数。演员中的eval net指导车辆进行行为决策,控制车辆在未知环境中行驶,车辆的状态信息和可视化图像从仿真环境中得到,将反馈数据输入上文搭建好的强化学习训练环境进行计算。因为深度神经网络训练往往假设数据服从独立同分布,强化学习训练数据是顺序的时间序列,为打断数据中的关联性建立记忆库,即把损失函数定义为
Figure BDA0002609449680000083
其中,U(D)为用于经验存储和回放的样本池,每次抽取一个小的经验样本的数据进行训练,使样本不连续,打断相关性可以提高训练效果。
在训练过程中,该确定性-评论家算法的更新过程可以表示为:
δi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)-Q(si,μ(siμ)|θQ)
Figure BDA0002609449680000084
Figure BDA0002609449680000085
其中,δi为时间差分误差,rt表示当前时刻奖励,Q′表示当前时刻该时刻的状态价值函数的估计值;Q表示上一时刻的状态价值函数值,初始化后由其他位置的状态价值求出。上式分别表示利用值函数逼近的方法更新值函数参数θμ和利用确定性策略梯度方法更新策略参数θQ,其中,αθQ和αθμ分别为值函数和策略函数的学习速率。学习速率一般是0.01,避免波动过大或者不收敛。
独立目标网络对演员eval网络和评论家eval网络进行单步的学习和迭代更新,经过一定的迭代次数后,再将eval网络的参数赋值给target网络。对于强化学习网络,targetnet参数每次以微小变化量逼近eval net,此过程视为间隔更新,这虽然使训练过程变慢,但训练过程易于收敛,使用独立目标网络后的强化学习网络更新公式为
θμ′=σθμ+(1-σ)θμ′
θQ′=σθQ+(1-σ)θQ′,σ=0.001
同时,该强化学习算法的奖赏函数设计如下所示
Figure BDA0002609449680000091
Figure BDA0002609449680000092
其中,kr=1,
Figure BDA0002609449680000093
为车辆侧倾角,e为车辆质心相对于车道中心的偏移量,vkl为前车车速,ve为本车车速,vset为自适应巡航控制的期望车速,Derror为本车与前车的相对距离;ε为调节参数,为一个极小量。
(4)单次训练终止条件
(a)离开车道。如果车辆过多的跑出车道,会得到很大的惩罚,接着仿真环境会被终止和重新载入,新的训练周期开始。
(b)车辆卡滞。如果车辆在100个步长内速度一直低于5km/h,则进程会被终止,新的训练周期开始。
(c)奖励无提升。如果车辆在20个步长内奖励不增长,则重新开始新周期。
(d)车辆逆行。如果检测到车头逆行,则给予惩罚并开始新周期。
(e)若车辆的LTR值大于0.95,则认为车辆侧翻,终止训练并进入下一回合。
(5)智能体训练结束判定
在训练过程中,如果智能体在奖赏函数中获得的奖励值达到上述奖赏函数设计的最大奖励值,且整个训练过程趋于收敛,则认为训练的智能体达到重型商用车辆的自适应巡航控制目标的要求,结束训练并储存深度强化学习网络中的智能体参数。
本发明提供的基于深度强化学习的三轴商用车自适应巡航控制算法可以根据车辆状态实时做出最优决策,相较于传统方法和其他强化学习方法,不基于规则设计,且将载荷建模计算得到的LTR值作为稳定性判据引入奖赏函数的构造中,使该算法兼顾了商用车自适应巡航时的稳定性,这对提高商用车公路运输的安全性具有重要的研究意义。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (6)

1.一种基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,包括如下步骤:
步骤一、获取表征车辆状态的特征值;
其中,所述车辆状态包括:本车质心相对于车道中线位置的偏移、本车与前车的距离、前车车速和本车车速;
步骤二、将所述表征车辆状态的特征值输入强化学习网络模型,得到车辆控制参数;并且根据所述车辆状态特征值与其对应的车辆控制参数确定奖励函数;
其中,所述车辆控制参数包括:方向盘转角、制动踏板开度和油门踏板开度;所述奖励函数为:
Figure FDA0002609449670000011
式中,
Figure FDA0002609449670000012
为本车侧倾角,vkl为前车车速,ve为本车车速,vset为自适应巡航的期望车速,Derror为本车与前车的距离,vvkl为本车车速和目标车速的比值;R1为车辆稳定性奖励函数;
步骤三、对所述强化学习网络模型进行优化,直到获得所述奖励函数的最大值,得到最优强化学习网络;
其中,在车辆自适应巡航状态下,通过所述最优强化学习网络得到的方向盘转角、制动踏板开度和油门踏板开度。
2.根据权利要求1所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,所述车辆稳定性奖励函数为:
Figure FDA0002609449670000013
式中,kr为车辆稳定性系数,LTR为横向载荷转移率,ε为调节参数。
3.根据权利要求2所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,所述横向荷载转移率为:
Figure FDA0002609449670000021
式中,Fzr、Fzl分别车辆左右轮的垂直载荷。
4.根据权利要求2或3所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,在所述步骤二中,所述强化学习网络包括:演员网络和评论家网络;并且所述演员网络和所述评论家网络采用异构确定性策略梯度进行优化;
其中,所述异构确定性策略梯度为:
Figure FDA0002609449670000022
式中,β为采样策略,ρ为状态分布,μ(s|θμ)为确定性策略,Q(s,a|θQ)为动作值函数,a为强化学习网络选择的动作,s为强化学习网络的状态,si为强化学习网络的第i个状态,θ为策略参数。
5.根据权利要求4所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,所述评论家网络优化过程中的权值更新算法为:
Figure FDA0002609449670000023
其中,δi为时间差分误差,rt表示当前时刻奖励,Q′表示当前时刻该时刻的状态价值函数的估计值,Q表示上一时刻的状态价值函数值。
6.据权利要求5所述的基于深度强化学习的三轴重型车自适应巡航控制算法,其特征在于,还包括:
在所述步骤三中,当LTR>0.95时,结束当前优化过程,并且开始新的优化周期。
CN202010749185.1A 2020-07-30 2020-07-30 一种基于深度强化学习的三轴重型车自适应巡航控制算法 Active CN111824182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010749185.1A CN111824182B (zh) 2020-07-30 2020-07-30 一种基于深度强化学习的三轴重型车自适应巡航控制算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010749185.1A CN111824182B (zh) 2020-07-30 2020-07-30 一种基于深度强化学习的三轴重型车自适应巡航控制算法

Publications (2)

Publication Number Publication Date
CN111824182A true CN111824182A (zh) 2020-10-27
CN111824182B CN111824182B (zh) 2022-03-22

Family

ID=72920409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010749185.1A Active CN111824182B (zh) 2020-07-30 2020-07-30 一种基于深度强化学习的三轴重型车自适应巡航控制算法

Country Status (1)

Country Link
CN (1) CN111824182B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113264064A (zh) * 2021-03-31 2021-08-17 志行千里(北京)科技有限公司 用于交叉路口场景的自动驾驶方法及相关设备
CN113753034A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法
CN113753026A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180022361A1 (en) * 2016-07-19 2018-01-25 Futurewei Technologies, Inc. Adaptive passenger comfort enhancement in autonomous vehicles
CN109969183A (zh) * 2019-04-09 2019-07-05 台州学院 基于安全可控域的弯道跟车控制方法
CN110214264A (zh) * 2016-12-23 2019-09-06 御眼视觉技术有限公司 具有施加的责任约束的导航系统
KR20200084955A (ko) * 2018-12-27 2020-07-14 현대자동차주식회사 차량 및 그 제어방법
KR20200087886A (ko) * 2018-12-28 2020-07-22 현대자동차주식회사 차량 및 그 제어 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180022361A1 (en) * 2016-07-19 2018-01-25 Futurewei Technologies, Inc. Adaptive passenger comfort enhancement in autonomous vehicles
CN110214264A (zh) * 2016-12-23 2019-09-06 御眼视觉技术有限公司 具有施加的责任约束的导航系统
KR20200084955A (ko) * 2018-12-27 2020-07-14 현대자동차주식회사 차량 및 그 제어방법
KR20200087886A (ko) * 2018-12-28 2020-07-22 현대자동차주식회사 차량 및 그 제어 방법
CN109969183A (zh) * 2019-04-09 2019-07-05 台州学院 基于安全可控域的弯道跟车控制方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113264064A (zh) * 2021-03-31 2021-08-17 志行千里(北京)科技有限公司 用于交叉路口场景的自动驾驶方法及相关设备
CN113753034A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法
CN113753026A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法
CN113753034B (zh) * 2021-10-21 2022-08-02 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法
CN113753026B (zh) * 2021-10-21 2022-08-02 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法

Also Published As

Publication number Publication date
CN111824182B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN112162555B (zh) 混合车队中基于强化学习控制策略的车辆控制方法
Liang et al. Cirl: Controllable imitative reinforcement learning for vision-based self-driving
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN110525428B (zh) 一种基于模糊深度强化学习的自动泊车方法
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
CN113954837B (zh) 一种基于深度学习的大型营运车辆车道变换决策方法
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN114580302A (zh) 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN107132840A (zh) 一种越野电驱动无人车辆纵/横/垂拟人化协同控制方法
CN116486356A (zh) 一种基于自适应学习技术的狭窄场景轨迹生成方法
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN116161056A (zh) 一种基于强化学习的结构化道路车辆轨迹规划方法与系统
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN113353102B (zh) 一种基于深度强化学习的无保护左转弯驾驶控制方法
CN116258242A (zh) 一种自动驾驶车辆反应式轨迹预测方法及系统
CN116127853A (zh) 融合时序信息的基于ddpg的无人驾驶超车决策方法
CN114839992A (zh) 一种基于多智能体强化学习的自动驾驶协同决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant