CN112580148B - 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 - Google Patents
基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 Download PDFInfo
- Publication number
- CN112580148B CN112580148B CN202011512718.0A CN202011512718A CN112580148B CN 112580148 B CN112580148 B CN 112580148B CN 202011512718 A CN202011512718 A CN 202011512718A CN 112580148 B CN112580148 B CN 112580148B
- Authority
- CN
- China
- Prior art keywords
- network
- substep
- vehicle
- state
- rollover
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/18—Details relating to CAD techniques using virtual or augmented reality
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Automation & Control Theory (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本发明公开了一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法。首先,面向高等级公路,建立包含直道和弯道的三车道虚拟环境模型。其次,采集道路状态信息和车辆运动信息。最后,将防侧翻驾驶决策问题建模为马尔科夫决策过程,利用深度确定性策略梯度算法建立重型营运车辆的防侧翻驾驶决策模型,得到不同交通环境和行驶工况下的防侧翻驾驶决策策略,实现对重型营运车辆侧翻主动防控的最优决策。本发明提出的决策方法,克服了现有方法缺乏有效性、环境适应性等不足,为驾驶员提供制动踏板开度、方向盘转角控制量等精确量化的驾驶建议,从而实现有效、可靠、自适应的防侧翻驾驶决策。
Description
技术领域
本发明涉及一种防侧翻驾驶决策方法,尤其是涉及一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法,属于汽车安全技术领域。
背景技术
重型营运车辆作为我国道路运输的主要承担者,其安全状况直接影响我国道路交通运输安全。运输过程中一旦发生交通事故,易导致群死群伤、货物脱落、燃烧、爆炸等严重后果,造成财产损失、环境污染、生态破坏等恶劣影响,且极易诱发大型、特大型安全事故,严重威胁我国社会公共安全。
美国公路交通安全管理局的相关数据表明,在所有营运车辆交通事故中,侧翻事故的危害程度仅次于碰撞事故,位居第2位。因此,侧翻主动防控对于保障道路交通安全,提升道路运输重特大事故防控能力具有重要意义。防侧翻驾驶决策作为侧翻主动防控的重要一环,如果能够在侧翻事故发生前,确定合理的防侧翻干预策略,为驾驶员提供准确、可靠的制动减速、转向等驾驶决策,可以大幅度降低因侧翻造成的交通事故发生频率。
目前防侧翻驾驶决策主要采用基于动力学模型的决策方法。首先,建立车辆的动力学模型;其次,利用横向载荷转移率等参数识别车辆侧翻危险;最后,以制动压力、车轮制动力或转向角作为控制量,利用PID控制、模糊控制等控制算法建立防侧翻控制策略。目前的决策方法虽然可以起到一定的作用,但仍然存在以下问题:1、在进行防侧翻驾驶决策时,未考虑驾驶员的操作,决策策略可能与驾驶员的操作发生冲突,影响防侧翻的有效性;2、大多数的方法仅输出车轮制动力或转向角等单一控制量,未综合考虑横向和纵向控制对防侧翻的影响,防侧翻效果有限;3、不同车辆的动力学模型具有差异性,使得防侧翻驾驶决策策略的适应性较差。总体而言,现有的重型营运车辆防侧翻驾驶决策方法,在有效性、可靠性和自适应性方面仍存在不足。
发明内容
发明目的:针对重型营运车辆防侧翻驾驶决策方法有效性、可靠性和自适应性低的问题,本发明公开了一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法。该方法能够适应不同的交通环境和行驶工况,输出的驾驶策略能够根据驾驶员操作和交通环境自适应调整,并以数值的形式将制动减速、转向等驾驶策略精确量化,提高了重型营运车辆防侧翻驾驶决策的有效性、可靠性和自适应性。
技术方案:本发明针对重型营运车辆,如半挂罐车、半挂列车,提出了一种基于深度强化学习的防侧翻驾驶决策方法。首先,面向高等级公路,建立包含直道和弯道的三车道虚拟环境模型。其次,采集道路状态信息和车辆运动信息。最后,将防侧翻驾驶决策问题建模为马尔科夫决策过程,利用深度确定性策略梯度算法建立重型营运车辆的防侧翻驾驶决策模型,得到不同交通环境和行驶工况下的防侧翻驾驶决策策略,实现了有效、可靠、自适应的防侧翻驾驶决策。包括以下步骤:
步骤一:构建虚拟环境模型
面向高等级公路,构建包含直道和弯道的三车道环境模型。在行驶过程中,重型营运车辆通过车路通信接收路侧单元发布的道路弯度、坡度信息。当车辆进行制动、变道或经过弯道时,为了避免发生侧翻,应有效、及时地为驾驶员提供制动减速、转向等决策策略,以避免侧翻事故的发生。
步骤二:采集道路状态信息和车辆运动信息
在重型营运车辆行驶过程中,位置、加速度、横纵向速度等车辆运动状态信息和道路坡度等道路状态信息对于行车安全具有较大影响,因此实时获取以上信息是建立防侧翻驾驶决策策略的基础。
本发明利用厘米级高精度组合导航系统、MEMS陀螺仪和压力传感器采集重型营运车辆的运动状态信息,将厘米级高精度组合导航系统的天线固定在车顶中心位置,可以实时输出车辆所在位置的经纬度、横纵向加速度、横纵向速度信息;将MEMS陀螺仪固定于车辆的底盘质心处,可以实时输出横摆角速度、侧倾角信息;将压力传感器安装在空气悬架气囊通气阀处,可以实时输出车轴钢板弹簧所受压力;利用CAN总线实时读取车辆的方向盘转角、油门和制动踏板开度;利用DSRC车载设备接收路侧单元发布的道路曲率半径、坡度信息。
其中,厘米级高精度组合导航系统、MEMS陀螺仪、压力传感器、CAN总线的信息采集频率和路侧单元的输出频率均为20Hz。
步骤三:建立重型营运车辆防侧翻驾驶决策模型
针对重型营运车辆防侧翻驾驶决策方法有效性、可靠性和自适应性低的问题,本发明综合考虑驾驶员操作、行驶工况和交通环境对驾驶决策的影响,建立有效、可靠、具有自适应性的防侧翻驾驶决策模型。
道路状态和驾驶员行为的复杂性和不确定性是影响防侧翻驾驶决策的重要因素,考虑到深度强化学习对不确定性的适应性特点,以及对道路状态等高维特征的充分挖掘和表征能力,本发明采用深度强化学习算法建立防侧翻驾驶决策模型。
基于深度强化学习的决策方法主要包括:基于值函数、基于策略搜索和基于Actor-Critic架构的决策方法三类。基于值的深度强化学习算法不能处理连续输出的问题,无法满足防侧翻决策中连续输出驾驶策略的需求。相比于基于策略搜索的方法,基于Actor-Critic架构的决策方法结合了值函数估计和策略搜索,具有较快的更新速度,其中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法借鉴了深度Q网络(Deep Q Network,DQN)经验回放的思路,在输出连续动作空间方面取得了较好的效果。因此,本发明采用DDPG算法,并基于步骤一构建的虚拟环境模型、步骤二获取的车辆运动信息和道路状态信息,建立防侧翻驾驶决策模型,研究不同行驶工况、道路状态下的自适应驾驶策略。具体包括以下4个子步骤:
子步骤1:定义防侧翻驾驶决策模型的基础参数
考虑到重型营运车辆的未来运动状态同时受当前运动状态和当前动作影响,本发明将防侧翻驾驶决策问题建模为马尔科夫决策过程,并对模型的基础参数进行定义:虚拟环境模型(由步骤一输出)中t时刻的状态st、虚拟环境模型中t+1时刻的状态st+1、t时刻的动作at以及动作at对应的回报值rt。具体地:
(1)定义状态空间
重型营运车辆的侧倾稳定性不仅与车辆自身的运动状态有关,还与道路状态有关。因此,本发明利用步骤二获取的车辆运动状态参数和道路状态信息定义状态空间,即t时刻的状态空间st=[vlon,vhor,alon,ahor,ωyaw,θroll,θswa,δbrake,δthr,Lf,Rroad,θs]。
其中,vlon,vhor分别表示重型营运车辆的纵向、横向速度,单位均为米每秒;alon,ahor分别表示纵向、侧向加速度,单位均为米每二次方秒,可通过厘米级高精度组合导航系统测量获得;ωyaw,θroll分别表示横摆角速度和侧倾角,单位分别为弧度每秒、度,可通过MEMS陀螺仪测量获得;θswa为车辆的方向盘转角,单位为度,δbrake,δthr分别表示制动踏板开度和节气门开度,单位均为百分数,可通过读取车身CAN总线信息获得;Lf为板簧压力横向转移率,可通过压力传感器测量的车轴钢板弹簧所受压力计算获得。Rroad,θs分别表示道路曲率半径、坡度,单位分别为米、度,可通过接收路侧单元发布的信息获得。
(2)定义动作空间
为了综合考虑横向和纵向控制对防侧翻的影响,合理、有效地输出防侧翻驾驶决策策略,本发明将方向盘转角和制动踏板开度作为控制量,定义决策模型输出的驾驶策略,即t时刻的动作空间at=[θswa_out,δbrake]。
其中,θswa_out表示归一化后的方向盘转角控制量,δbrake表示归一化后的制动踏板开度,范围均为[0,1]。当δbrake=0时,表示重型营运车辆未进行制动,当δbrake=1时,表示车辆以最大制动减速度进行制动。
(3)定义回报函数
为了实现对动作空间at优劣的定量评价,通过建立回报函数的方式,将评价具体化和数值化。若执行动作at之后能够使重型营运车辆的运行状态更加安全,则回报值为奖赏,否则,回报值为惩罚,使得防侧翻驾驶决策模型对上一次执行的错误动作有一定的判断。
考虑到利用单个侧翻表征参数估计侧翻风险缺乏准确性的问题,本发明综合考虑侧倾角、侧向加速度和板簧压力横向载荷转移率3个表征参数对侧翻的影响,建立回报函数:
式(1)中,rt为t时刻的回报函数,r1,r2,r3分别表示根据侧向加速度、侧倾角和板簧压力横向载荷转移率变化建立的回报值,且其中,athr,θthr,Lthr分别表示预设的侧向加速度阈值、侧倾角阈值和板簧压力横向转移率阈值,Spen为惩罚值,在本发明中,取Spen=50,表示若重型营运车辆发生侧翻,决策模型会得到-50的惩罚。
子步骤2:设计防侧翻驾驶决策模型的网络架构
利用Actor-Critic网络框架搭建防侧翻驾驶决策网络,包括策略网络和评价网络两部分。其中,策略网络用于对状态st的特征提取,并对特征向量进行回归,从而输出连续动作at;评价网络用于接收状态st和动作at,从而评估当前“状态-动作”的价值。具体地:
(1)设计策略网络
利用多个隐藏层结构的神经网络建立策略网络。首先,将归一化后的状态量st依次输入到隐藏层M1、隐藏层M2中。其次,与全连接层F1、全连接层F2依次连接。最后,得到输出O1,即动作at。
考虑到状态空间的维度为12,设置状态输入层的神经元数量为12。设置M1、M2、F1、F2层的神经元数量分别为400,300,200,200。全连接层F1、F2的激活函数分别为Tanh函数和Sigmoid函数,其他各层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)。
(2)设计评价网络
利用多个隐藏层结构的神经网络建立策略网络。首先,将归一化后的状态量st和动作at输入到隐藏层S1中,并与隐藏层S2相连;同时,将动作量at输入到隐藏层A1中。其次,隐藏层S2与隐藏层A1通过张量相加的方式进行合并。最后,依次通过全连接层H1、全连接层H2后得到输出O2,即Q函数值Q(s,a)。设置S1层的神经元数量为400,其余隐藏层的神经元数量均为200,各层的激活函数均为ReLU。
子步骤3:训练策略网络和评价网络
策略网络和评价网络均存在各自的网络参数,在训练迭代时更新这两部分的网络参数,使得网络收敛以得到更佳的结果。
首先,将虚拟环境模型的当前状态st作为策略网络的输入,并在策略网络上加高斯扰动,策略网络输出一个动作at。其次,在接收到动作at后,评价网络生成对动作at评价的回报值rt,同时获得下一时刻状态st+1。最后,根据回报值rt更新评价网络的参数,并沿评价网络建议的方向更新策略网络的参数。具体训练更新步骤包括:
子步骤3.1:利用权重θQ和θμ随机初始化评价网络参数Q(s,a|θQ)和策略网络参数μ(s,a|θμ);
子步骤3.2:初始化目标评价网络参数Q′和μ′;
子步骤3.3:建立经验回放存储空间R,初始化第1时刻的状态S1;
子步骤3.4:进行迭代求解,每一次迭代包括子步骤3.41至子步骤3.43,具体地:
子步骤3.41:在当前策略网络中输入高斯噪声Nt,执行动作at=μ(s|θμ)+Nt;
子步骤3.42:接收初始的观测状态s1;
子步骤3.43:对当前策略网络参数θμ、目标策略网络参数θμ′、当前评价网络参数θQ和目标评价网络参数θQ′进行迭代更新,每一次迭代包括子步骤3.431至子步骤3.438,具体地:
子步骤3.431:接收子步骤3.41输出的动作at,生成对动作at评价的回报值rt和下一时刻状态st+1;根据获得的回报值rt,更新当前评价网络参数θQ;
子步骤3.432:将形成的元组(st,at,rt,st+1)存储到经验回放存储空间R中;
子步骤3.433:当前评价网络通过Q函数计算得到Q函数值:Q(st,at|θQ);
子步骤3.434:从经验回放存储空间R中随机选择N个元组数据(si,ai,ri,si+1),其中i=0,1,...,N;
子步骤3.435:设计目标值yi=ri+γQ′(si+1,μ′(si+1|Qμ′)|QQ′);
其中,yi,ri分别表示第i个元组的Q函数值和回报值;γ为折扣因子;si+1为第i+1时刻的状态;μ′(si+1|Qμ′)为目标策略网络根据输入的状态si+1得到的动作;Q′(si+1,μ′(si+1|Qμ′)|QQ′)为目标评价网络根据输入的si+1和动作μ′(si+1|Qμ′)而计算得到的Q函数值。
子步骤3.436:利用最小化损失函数L更新评价网络参数θQ:
子步骤3.437:基于更新后的评价网络参数θQ,利用梯度上升方法更新策略梯度,以获得最大化期望回报值。同时,利用策略梯度更新策略网络参数θQ:
子步骤3.438:根据更新后的评价网络参数θQ和策略网络参数θμ,更新目标评价网络参数θQ′和目标策略网络参数θμ′:
式(5)中,τ为权重,在本发明中,取τ=0.95。
子步骤3.5:按照子步骤3.4提供的方法进行迭代更新,使策略网络和评价网络逐渐收敛。在训练过程中,若车辆发生侧翻,则终止当前回合并开始新的回合进行训练。当迭代达到最大次数或重型营运车辆利用模型输出的决策策略稳定有效地实现防侧翻时,表示迭代完成。
子步骤4:利用防侧翻驾驶决策模型输出驾驶策略
将路侧单元发布的信息以及厘米级高精度组合导航系统、CAN总线、MEMS陀螺仪、压力传感器采集的信息输入到已训练的防侧翻驾驶决策模型中,可以在线输出防侧翻驾驶决策策略,为驾驶员提供方向盘转角控制量、制动踏板开度等精确量化的驾驶建议,从而实现有效、可靠、自适应的防侧翻驾驶决策。
有益效果:相比于一般的防侧翻驾驶决策方法,本发明提出的方法具有更为有效、可靠、自适应的特点,具体体现在:
(1)本发明提出的方法能够适应不同的行驶工况和交通环境,输出的决策策略能够根据驾驶员操作、行驶工况和交通环境自适应调整,解决了现有的重型营运车辆防侧翻驾驶决策方法缺乏适应性的问题;
(2)本发明提出的方法综合考虑横向和纵向控制对防侧翻的影响,并以数值的形式将制动减速、转向等驾驶策略精确量化,进一步提高了防侧翻驾驶决策的有效性和可靠性;
(3)本发明提出的方法无需进行复杂的动力学建模,计算方法简单清晰。
附图说明
图1是本发明的技术路线示意图;
图2是本发明建立的防侧翻驾驶决策模型的网络架构示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明。
为了实现有效、可靠、具有自适应性的防侧翻驾驶决策,本发明针对重型营运车辆,如半挂罐车、半挂列车,提出了一种基于深度强化学习的防侧翻驾驶决策方法。首先,面向高等级公路,建立包含直道和弯道的三车道虚拟环境模型。其次,采集道路状态信息和车辆运动信息。最后,将防侧翻驾驶决策问题建模为马尔科夫决策过程,利用深度确定性策略梯度算法建立重型营运车辆的防侧翻驾驶决策模型,得到不同交通环境和行驶工况下的防侧翻驾驶决策策略,实现了有效、可靠、自适应的防侧翻驾驶决策。本发明的技术路线如图1所示,具体步骤如下:
步骤一:构建虚拟环境模型
面向高等级公路,构建包含直道和弯道的三车道环境模型。在行驶过程中,重型营运车辆通过车路通信接收路侧单元发布的道路弯度、坡度信息。当车辆进行制动、变道或经过弯道时,为了避免发生侧翻,应有效、及时地为驾驶员提供制动减速、转向等决策策略,以避免侧翻事故的发生。
步骤二:采集道路状态信息和车辆运动信息
在重型营运车辆行驶过程中,位置、加速度、横纵向速度等车辆运动状态信息和道路坡度等道路状态信息对于行车安全具有较大影响,因此实时获取以上信息是建立防侧翻驾驶决策策略的基础。
本发明利用厘米级高精度组合导航系统、MEMS陀螺仪和压力传感器采集重型营运车辆的运动状态信息。将厘米级高精度组合导航系统的天线固定在车顶中心位置,可以实时输出车辆所在位置的经纬度、横纵向加速度、横纵向速度信息;将MEMS陀螺仪固定于车辆的底盘质心处,可以实时输出横摆角速度、侧倾角信息;将压力传感器安装在空气悬架气囊通气阀处,可以实时输出车轴钢板弹簧所受压力;利用CAN总线实时读取车辆的方向盘转角、油门和制动踏板开度;利用DSRC车载设备接收路侧单元发布的道路曲率半径、坡度信息。
其中,厘米级高精度组合导航系统、MEMS陀螺仪、压力传感器、CAN总线的信息采集频率和路侧单元的输出频率均为20Hz。
步骤三:建立重型营运车辆防侧翻驾驶决策模型
针对重型营运车辆防侧翻驾驶决策方法有效性、可靠性和自适应性低的问题,本发明综合考虑驾驶员操作、行驶工况和交通环境对驾驶决策的影响,建立有效、可靠、具有自适应性的防侧翻驾驶决策模型。
道路状态和驾驶员行为的复杂性和不确定性是影响防侧翻驾驶决策的重要因素,考虑到深度强化学习对不确定性的适应性特点,以及对道路状态等高维特征的充分挖掘和表征能力,本发明采用深度强化学习算法建立防侧翻驾驶决策模型。
基于深度强化学习的决策方法主要包括:基于值函数、基于策略搜索和基于Actor-Critic架构的决策方法三类。基于值的深度强化学习算法不能处理连续输出的问题,无法满足防侧翻决策中连续输出驾驶策略的需求。相比于基于策略搜索的方法,基于Actor-Critic架构的决策方法结合了值函数估计和策略搜索,具有较快的更新速度,其中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法借鉴了深度Q网络(Deep Q Network,DQN)经验回放的思路,在输出连续动作空间方面取得了较好的效果。因此,本发明采用DDPG算法,并基于步骤一构建的虚拟环境模型、步骤二获取的车辆运动信息和道路状态信息,建立防侧翻驾驶决策模型,研究不同行驶工况、道路状态下的自适应驾驶策略。具体包括以下4个子步骤:
子步骤1:定义防侧翻驾驶决策模型的基础参数
考虑到重型营运车辆的未来运动状态同时受当前运动状态和当前动作影响,本发明将防侧翻驾驶决策问题建模为马尔科夫决策过程,并对模型的基础参数进行定义:虚拟环境模型(由步骤一输出)中t时刻的状态st、虚拟环境模型中t+1时刻的状态st+1、t时刻的动作at以及动作at对应的回报值rt。具体地:
(1)定义状态空间
重型营运车辆的侧倾稳定性不仅与车辆自身的运动状态有关,还与道路状态有关。因此,本发明利用步骤二获取的车辆运动状态参数和道路状态信息定义状态空间,即t时刻的状态空间st=[vlon,vhor,alon,ahor,ωyaw,θroll,θswa,δbrake,δthr,Lf,Rroad,θs]。
其中,vlon,vhor分别表示重型营运车辆的纵向、横向速度,单位均为米每秒;alon,ahor分别表示纵向、侧向加速度,单位均为米每二次方秒,可通过厘米级高精度组合导航系统测量获得;ωyaw,θroll分别表示横摆角速度和侧倾角,单位分别为弧度每秒、度,可通过MEMS陀螺仪测量获得;θswa为车辆的方向盘转角,单位为度,δbrake,δthr分别表示制动踏板开度和节气门开度,单位均为百分数,可通过读取车身CAN总线信息获得;Lf为板簧压力横向转移率,可通过压力传感器测量的车轴钢板弹簧所受压力计算获得。Rroad,θs分别表示道路曲率半径、坡度,单位分别为米、度,可通过接收路侧单元发布的信息获得。
(2)定义动作空间
为了综合考虑横向和纵向控制对防侧翻的影响,合理、有效地输出防侧翻驾驶决策策略,本发明将方向盘转角和制动踏板开度作为控制量,定义决策模型输出的驾驶策略,即t时刻的动作空间at=[θswa_out,δbrake_out]。
其中,θswa_out表示归一化后的方向盘转角控制量,范围为[-1,1],δbrake_out表示归一化后的制动踏板开度,范围为[0,1]。当δbrake=0时,表示车辆未进行制动,当δbrake=1时,表示车辆以最大制动减速度进行制动。
(3)定义回报函数
为了实现对动作空间at优劣的定量评价,通过建立回报函数的方式,将评价具体化和数值化。若执行动作at之后能够使车辆的运行状态更加安全,则回报值为奖赏,否则,回报值为惩罚,使得防侧翻驾驶决策模型对上一次执行的错误动作有一定的判断。
考虑到利用单个侧翻表征参数估计侧翻风险缺乏准确性的问题,本发明综合考虑侧倾角、侧向加速度和板簧压力横向载荷转移率3个表征参数对侧翻的影响,建立回报函数:
式(1)中,rt为t时刻的回报函数,r1,r2,r3分别表示根据侧向加速度、侧倾角和板簧压力横向载荷转移率变化建立的回报值,且其中,athr,θthr,Lthr分别表示预设的侧向加速度阈值、侧倾角阈值和板簧压力横向转移率阈值,Spen为惩罚值,在本发明中,取Spen=50,表示若车辆发生侧翻,决策模型会得到-50的惩罚。
子步骤2:设计防侧翻驾驶决策模型的网络架构
利用“策略-评价”网络框架搭建防侧翻驾驶决策网络,包括策略网络和评价网络两部分。其中,策略网络用于对状态st的特征提取,并对特征向量进行回归,从而输出连续动作at;评价网络用于接收状态st和动作at,从而评估当前“状态-动作”的价值。网络架构如图2所示,具体地:
(1)设计策略网络
利用多个隐藏层结构的神经网络建立策略网络。首先,将归一化后的状态量st依次输入到隐藏层M1、隐藏层M2中。其次,与全连接层F1、全连接层F2依次连接。最后,得到输出O1,即动作at。
考虑到状态空间的维度为12,设置状态输入层的神经元数量为12。设置M1、M2、F1、F2层的神经元数量分别为400,300,200,200。全连接层F1、F2的激活函数分别为Tanh函数和Sigmoid函数,其他各层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)。
(2)设计评价网络
利用多个隐藏层结构的神经网络建立策略网络。首先,将归一化后的状态量st和动作at输入到隐藏层S1中,并与隐藏层S2相连;同时,将动作量at输入到隐藏层A1中。其次,隐藏层S2与隐藏层A1通过张量相加的方式进行合并。最后,依次通过全连接层H1、全连接层H2后得到输出O2,即Q函数值Q(s,a)。设置S1层的神经元数量为400,其余隐藏层的神经元数量均为200,各层的激活函数均为ReLU。
子步骤3:训练策略网络和评价网络
策略网络和评价网络均存在各自的网络参数,在训练迭代时更新这两部分的网络参数,使得网络收敛以得到更佳的结果。
首先,将虚拟环境模型的当前状态st作为策略网络的输入,并在策略网络上加高斯扰动,策略网络输出一个动作at。其次,评价网络接收到动作at,生成对动作at评价的回报值rt,同时获得下一时刻状态st+1。最后,根据回报值rt更新评价网络的参数,并沿评价网络建议的方向更新策略网络的参数。具体训练更新步骤包括:
子步骤3.1:利用权重θQ和θμ随机初始化评价网络参数Q(s,a|θQ)和策略网络参数μ(s,a|θμ);
子步骤3.2:初始化目标评价网络参数Q′和μ′;
子步骤3.3:建立经验回放存储空间R,初始化第1时刻的状态S1;
子步骤3.4:进行迭代求解,每一次迭代包括子步骤3.41至子步骤3.43,具体地:
子步骤3.41:在当前策略网络中输入高斯噪声Nt,执行动作at=μ(s|θμ)+Nt;
子步骤3.42:接收初始的观测状态s1;
子步骤3.43:对当前策略网络参数θμ、目标策略网络参数θμ′、当前评价网络参数θQ和目标评价网络参数θQ′进行迭代更新,每一次迭代包括子步骤3.431至子步骤3.438,具体地:
子步骤3.431:接收子步骤3.41输出的动作at,生成对动作at评价的回报值rt和下一时刻状态st+1;根据获得的回报值rt,更新当前评价网络参数θQ;
子步骤3.432:将形成的元组(st,at,rt,st+1)存储到经验回放存储空间R中;
子步骤3.433:当前评价网络通过Q函数计算得到Q函数值:Q(st,at|θQ);
子步骤3.434:从经验回放存储空间R中随机选择N个元组数据(si,ai,ri,si+1),其中i=0,1,...,N;
子步骤3.435:设计目标值yi=ri+γQ′(si+1,μ′(si+1|Qμ′)|QQ′);
其中,yi,ri分别表示第i个元组的Q函数值和回报值;γ为折扣因子;si+1为第i+1时刻的状态;μ′(si+1|Qμ′)为目标策略网络根据输入的状态si+1得到的动作;Q′(si+1,μ′(si+1|Qμ′)|QQ′)为目标评价网络根据输入的si+1和动作μ′(si+1|Qμ′)而计算得到的Q函数值。
子步骤3.436:利用最小化损失函数L更新评价网络参数θQ:
子步骤3.437:基于更新后的评价网络参数θQ,利用梯度上升方法更新策略梯度,以获得最大化期望回报值。同时,利用策略梯度更新策略网络参数θμ:
子步骤3.438:根据更新后的评价网络参数θQ和策略网络参数θμ,更新目标评价网络参数θQ′和目标策略网络参数θμ′:
式(5)中,τ为权重,在本发明中,取τ=0.95。
子步骤3.5:按照子步骤3.4提供的方法进行迭代更新,使策略网络和评价网络逐渐收敛。在训练过程中,若车辆发生侧翻,则终止当前回合并开始新的回合进行训练。当迭代达到最大次数或重型营运车辆利用模型输出的决策策略稳定有效地实现防侧翻时,表示迭代完成。
子步骤4:利用防侧翻驾驶决策模型输出驾驶策略
将路侧单元发布的信息以及厘米级高精度组合导航系统、CAN总线、MEMS陀螺仪、压力传感器采集的信息输入到已训练的防侧翻驾驶决策模型中,可以在线输出防侧翻驾驶决策策略,为驾驶员提供方向盘转角控制量、制动踏板开度等精确量化的驾驶建议,从而实现有效、可靠、自适应的防侧翻驾驶决策。
Claims (1)
1.一种基于深度强化学习的重型营运车辆防侧翻驾驶决策方法,其特征在于:该方法包括如下步骤:
步骤一:构建虚拟环境模型:面向高等级公路,构建包含直道和弯道的三车道环境模型;在行驶过程中,重型营运车辆通过车路通信接收路侧单元发布的道路弯度、坡度信息;当车辆进行制动、变道或经过弯道时,为驾驶员提供制动减速、转向等决策策略;
步骤二:采集道路状态信息和车辆运动信息:在重型营运车辆行驶过程中,实时获取车辆运动状态信息和道路状态信息;
所述采集道路状态信息和车辆运动信息的过程中,利用厘米级高精度组合导航系统、MEMS陀螺仪和压力传感器采集重型营运车辆的运动状态信息,将厘米级高精度组合导航系统的天线固定在车顶中心位置,实时输出车辆所在位置的经纬度、横纵向加速度、横纵向速度信息;将MEMS陀螺仪固定于车辆的底盘质心处,实时输出横摆角速度、侧倾角信息;将压力传感器安装在空气悬架气囊通气阀处,实时输出车轴钢板弹簧所受压力;利用CAN总线实时读取车辆的方向盘转角、油门和制动踏板开度;利用DSRC车载设备接收路侧单元发布的道路曲率半径、坡度信息;
所述厘米级高精度组合导航系统、MEMS陀螺仪、压力传感器、CAN总线的信息采集频率和路侧单元的输出频率均为20Hz;
步骤三:建立重型营运车辆防侧翻驾驶决策模型:采用DDPG算法,并基于步骤一构建的虚拟环境模型、步骤二获取的车辆运动信息和道路状态信息,建立防侧翻驾驶决策模型,研究不同行驶工况、道路状态下的自适应驾驶策略,具体包括以下4个子步骤:
子步骤1:定义防侧翻驾驶决策模型的基础参数
将防侧翻驾驶决策问题建模为马尔科夫决策过程,并对模型的基础参数进行定义:步骤一输出的虚拟环境模型中t时刻的状态st、虚拟环境模型中t+1时刻的状态st+1、t时刻的动作at以及动作at对应的回报值rt;具体地:
(1)定义状态空间
利用步骤二获取的车辆运动状态参数和道路状态信息定义状态空间,即t时刻的状态空间st=[vlon,vhor,alon,ahor,ωyaw,θroll,θswa,δbrake,δthr,Lf,Rroad,θs];
其中,vlon,vhor分别表示重型营运车辆的纵向、横向速度,单位均为米每秒;alon,ahor分别表示纵向、侧向加速度,单位均为米每二次方秒,可通过厘米级高精度组合导航系统测量获得;ωyaw,θroll分别表示横摆角速度和侧倾角,单位分别为弧度每秒、度,可通过MEMS陀螺仪测量获得;θswa为车辆的方向盘转角,单位为度,δbrake,δthr分别表示制动踏板开度和节气门开度,单位均为百分数,可通过读取车身CAN总线信息获得;Lf为板簧压力横向转移率,可通过压力传感器测量的车轴钢板弹簧所受压力计算获得;Rroad,θs分别表示道路曲率半径、坡度,单位分别为米、度,可通过接收路侧单元发布的信息获得;
(2)定义动作空间
将方向盘转角和制动踏板开度作为控制量,定义决策模型输出的驾驶策略,即t时刻的动作空间at=[θswa_out,δbrake];
其中,θswa_out表示归一化后的方向盘转角控制量,δbrake表示归一化后的制动踏板开度,范围均为[0,1];当δbrake=0时,表示重型营运车辆未进行制动,当δbrake=1时,表示车辆以最大制动减速度进行制动;
(3)定义回报函数
为了实现对动作空间at优劣的定量评价,通过建立回报函数的方式,将评价具体化和数值化;若执行动作at之后能够使重型营运车辆的运行状态更加安全,则回报值为奖赏,否则,回报值为惩罚,使得防侧翻驾驶决策模型对上一次执行的错误动作有一定的判断;
综合考虑侧倾角、侧向加速度和板簧压力横向载荷转移率3个表征参数对侧翻的影响,建立回报函数:
式(1)中,rt为t时刻的回报函数,r1,r2,r3分别表示根据侧向加速度、侧倾角和板簧压力横向载荷转移率变化建立的回报值,且其中,athr,θthr,Lthr分别表示预设的侧向加速度阈值、侧倾角阈值和板簧压力横向转移率阈值,Spen为惩罚值;
子步骤2:设计防侧翻驾驶决策模型的网络架构
利用Actor-Critic网络框架搭建防侧翻驾驶决策网络,包括策略网络和评价网络两部分;其中,策略网络用于对状态st的特征提取,并对特征向量进行回归,从而输出连续动作at;评价网络用于接收状态st和动作at,从而评估当前“状态-动作”的价值;具体地:
(1)设计策略网络
利用多个隐藏层结构的神经网络建立策略网络;首先,将归一化后的状态量st依次输入到隐藏层M1、隐藏层M2中;其次,与全连接层F1、全连接层F2依次连接;最后,得到输出O1,即动作at;
考虑到状态空间的维度为12,设置状态输入层的神经元数量为12;设置M1、M2、F1、F2层的神经元数量分别为400,300,200,200;全连接层F1、F2的激活函数分别为Tanh函数和Sigmoid函数,其他各层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU);
(2)设计评价网络
利用多个隐藏层结构的神经网络建立策略网络;首先,将归一化后的状态量st和动作at输入到隐藏层S1中,并与隐藏层S2相连;同时,将动作量at输入到隐藏层A1中;其次,隐藏层S2与隐藏层A1通过张量相加的方式进行合并;最后,依次通过全连接层H1、全连接层H2后得到输出O2,即Q函数值Q(s,a);设置S1层的神经元数量为400,其余隐藏层的神经元数量均为200,各层的激活函数均为ReLU;
子步骤3:训练策略网络和评价网络
策略网络和评价网络均存在各自的网络参数,在训练迭代时更新这两部分的网络参数,使得网络收敛以得到更佳的结果;
首先,将虚拟环境模型的当前状态st作为策略网络的输入,并在策略网络上加高斯扰动,策略网络输出一个动作at;其次,在接收到动作at后,评价网络生成对动作at评价的回报值rt,同时获得下一时刻状态st+1;最后,根据回报值rt更新评价网络的参数,并沿评价网络建议的方向更新策略网络的参数;具体训练更新步骤包括:
子步骤3.1:利用权重θQ和θμ随机初始化评价网络参数Q(s,a|θQ)和策略网络参数μ(s,a|θμ);
子步骤3.2:初始化目标评价网络参数Q′和μ′;
子步骤3.3:建立经验回放存储空间R,初始化第1时刻的状态S1;
子步骤3.4:进行迭代求解,每一次迭代包括子步骤3.41至子步骤3.43,具体地:
子步骤3.41:在当前策略网络中输入高斯噪声Nt,执行动作at=μ(s|θμ)+Nt;
子步骤3.42:接收初始的观测状态s1;
子步骤3.43:对当前策略网络参数θμ、目标策略网络参数θμ′、当前评价网络参数θQ和目标评价网络参数θQ′进行迭代更新,每一次迭代包括子步骤3.431至子步骤3.438,具体地:
子步骤3.431:接收子步骤3.41输出的动作at,生成对动作at评价的回报值rt和下一时刻状态st+1;根据获得的回报值rt,更新当前评价网络参数θQ;
子步骤3.432:将形成的元组(st,at,rt,st+1)存储到经验回放存储空间R中;
子步骤3.433:当前评价网络通过Q函数计算得到Q函数值:Q(st,at|θQ);
子步骤3.434:从经验回放存储空间R中随机选择N个元组数据(si,ai,ri,si+1),其中i=0,1,...,N;
子步骤3.435:设计目标值yi=ri+γQ′(si+1,μ′(si+1|Qμ′)|QQ′);
其中,yi,ri分别表示第i个元组的Q函数值和回报值;γ为折扣因子;si+1为第i+1时刻的状态;μ′(si+1|Qμ′)为目标策略网络根据输入的状态si+1得到的动作;Q′(si+1,μ′(si+1|Qμ′)|QQ′)为目标评价网络根据输入的si+1和动作μ′(si+1|Qμ′)而计算得到的Q函数值;
子步骤3.436:利用最小化损失函数L更新评价网络参数θQ:
子步骤3.437:基于更新后的评价网络参数θQ,利用梯度上升方法更新策略梯度,以获得最大化期望回报值;同时,利用策略梯度更新策略网络参数θQ:
子步骤3.438:根据更新后的评价网络参数θQ和策略网络参数θμ,更新目标评价网络参数θQ′和目标策略网络参数θμ′:
式(5)中,τ为权重,在本发明中,取τ=0.95;
子步骤3.5:按照子步骤3.4提供的方法进行迭代更新,使策略网络和评价网络逐渐收敛,在训练过程中,若车辆发生侧翻,则终止当前回合并开始新的回合进行训练;当迭代达到最大次数或重型营运车辆利用模型输出的决策策略稳定有效地实现防侧翻时,表示迭代完成;
子步骤4:利用防侧翻驾驶决策模型输出驾驶策略
将路侧单元发布的信息以及厘米级高精度组合导航系统、CAN总线、MEMS陀螺仪、压力传感器采集的信息输入到已训练的防侧翻驾驶决策模型中,可以在线输出防侧翻驾驶决策策略,为驾驶员提供方向盘转角控制量、制动踏板开度等精确量化的驾驶建议,从而实现有效、可靠、自适应的防侧翻驾驶决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011512718.0A CN112580148B (zh) | 2020-12-20 | 2020-12-20 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011512718.0A CN112580148B (zh) | 2020-12-20 | 2020-12-20 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580148A CN112580148A (zh) | 2021-03-30 |
CN112580148B true CN112580148B (zh) | 2022-11-18 |
Family
ID=75136355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011512718.0A Active CN112580148B (zh) | 2020-12-20 | 2020-12-20 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580148B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113335277A (zh) * | 2021-04-27 | 2021-09-03 | 北京工业大学 | 智能巡航控制方法、装置、电子设备和存储介质 |
CN113253612B (zh) | 2021-06-01 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶控制方法、装置、设备及可读存储介质 |
CN113771864B (zh) * | 2021-06-18 | 2023-06-23 | 湖南大学 | 一种基于人工智能的新能源车辆侧翻预警方法 |
CN113954837B (zh) * | 2021-11-06 | 2023-03-14 | 交通运输部公路科学研究所 | 一种基于深度学习的大型营运车辆车道变换决策方法 |
CN114407931B (zh) * | 2022-02-21 | 2024-05-03 | 东南大学 | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 |
CN114637327A (zh) * | 2022-03-16 | 2022-06-17 | 哈尔滨逐宇航天科技有限责任公司 | 基于深度策略性梯度强化学习的在线轨迹生成制导方法 |
CN114863708B (zh) * | 2022-05-09 | 2023-04-18 | 东南大学 | 一种面向营运车辆的道路合流区路侧实时精准诱导方法 |
CN115675098B (zh) * | 2022-11-15 | 2024-04-26 | 长安大学 | 基于用户特征差异的智能网联汽车动能回收系统、方法、设备及存储介质 |
CN116946162B (zh) * | 2023-09-19 | 2023-12-15 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN117541066B (zh) * | 2024-01-09 | 2024-03-29 | 巨野金牛车业有限公司 | 一种自卸半挂车侧翻评价指标及评价方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213148B (zh) * | 2018-08-03 | 2021-05-28 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
CN110027553B (zh) * | 2019-04-10 | 2020-10-23 | 湖南大学 | 一种基于深度强化学习的防碰撞控制方法 |
CN111311945B (zh) * | 2020-02-20 | 2021-07-09 | 南京航空航天大学 | 一种融合视觉和传感器信息的驾驶决策系统及方法 |
-
2020
- 2020-12-20 CN CN202011512718.0A patent/CN112580148B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112580148A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580148B (zh) | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 | |
CN112622886B (zh) | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 | |
CN112633474B (zh) | 一种重型营运车辆的后向防撞驾驶决策方法 | |
CN108819951B (zh) | 一种考虑驾驶员驾驶技能的人机共驾横向驾驶权分配方法 | |
CN103963593B (zh) | 具有道路预视的自适应主动悬架系统 | |
CN113753026B (zh) | 一种考虑路面附着条件的大型营运车辆防侧翻决策方法 | |
CN106990714A (zh) | 基于深度学习的适配控制方法与装置 | |
CN113753034B (zh) | 一种考虑路面附着条件的大型营运车辆防碰撞决策方法 | |
CN114379540B (zh) | 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法 | |
CN113359457B (zh) | 智能车底盘域控制器的高维动力学模型解算装置及方法 | |
CN112101709B (zh) | 用于商用车辆自动紧急制动系统的全面准确的测评方法 | |
CN116457270A (zh) | 用于多挂车重型车辆的预测性能量和运动管理 | |
Alonso et al. | Toward a methodology to assess safety of a vehicle | |
CN112613125B (zh) | 一种路面激励情况下汽车侧倾中心辨识和动态修正的方法 | |
Kumarawadu et al. | Neuroadaptive output tracking of fully autonomous road vehicles with an observer | |
CN113771864B (zh) | 一种基于人工智能的新能源车辆侧翻预警方法 | |
Antonyan et al. | The algorithm of diagnosing the development of a skid when driving a two-axle vehicle | |
CN114212074B (zh) | 基于路面附着系数估计的车辆主动转向防侧翻控制方法 | |
CN115422837A (zh) | 一种基于深度高斯过程的智能汽车动力学预测模型、训练数据获取方法、以及训练方法 | |
CN116039672A (zh) | 一种面向自动驾驶决策控制功能的数据-模型后端融合方法 | |
Kissai et al. | Importance of vertical dynamics for accurate modelling, friction estimation and vehicle motion control | |
Sieberg et al. | Side-slip angle estimation by artificial neural networks for vehicle dynamics control applications | |
CN116472505A (zh) | 用于减少多挂车重型车辆高速跑偏的方法 | |
WO2023234271A1 (ja) | 連節車両によって実行される自動運転方法 | |
Zhong et al. | Research on Strategy and Algorithm of Lateral Motion Control for Autonomous Driving Electric Vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |