CN113460090A - 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 - Google Patents
自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN113460090A CN113460090A CN202110948176.XA CN202110948176A CN113460090A CN 113460090 A CN113460090 A CN 113460090A CN 202110948176 A CN202110948176 A CN 202110948176A CN 113460090 A CN113460090 A CN 113460090A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- control
- reward
- updating
- collision avoidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000006870 function Effects 0.000 claims abstract description 46
- 230000002787 reinforcement Effects 0.000 claims abstract description 36
- 230000009471 action Effects 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical group O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
- B60W60/0016—Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备,其包括:根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;满足第二设定条件时,基于TD3的Actor‑Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。本发明能最大限度地发挥自动驾驶车辆的避撞潜能,提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。本发明能在自动驾驶汽车主动安全控制技术领域中广泛应用。
Description
技术领域
本发明涉及一种自动驾驶汽车主动安全控制技术领域,特别是关于一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备。
背景技术
随着汽车行业的快速发展,汽车的主动安全性受到越来越严峻的挑战,同时国内外各大厂商也开发并应用了多种车辆主动安全系统,包括制动防抱死系统(Anti-lockBraking System)、驱动防滑系统(Acceleration Slip Regulation)、电子稳定性系统(Electronic Stability Program)等。目前,这些主动安全系统主要通过将车辆的行驶状态限制在一个线性、稳定的范围内,来帮助驾驶员避免由于车辆的非线性动力学特征导致的“异常”驾驶场景,如打滑、过度转向、不足转向等。然而从车辆可控性的角度来看,这种提高稳定性的方法过于保守,主要适用于常规工况,无法应对突发场景以及极端行驶工况,如T型碰撞。同时这些主动安全系统也没有考虑当碰撞无法避免时,如何控制车辆来减小碰撞损失。
T型碰撞是指一辆车撞上另一辆车的侧面。当一辆车违反红灯或停止标志进入十字路口,与另一辆与之垂直行驶的车辆相撞时,经常会发生T型碰撞。这种碰撞可能是由于机械故障(油门卡住/刹车失灵)、制动力不足(路面潮湿/结冰)、驾驶员注意力不集中等原因造成的。由于汽车侧面结构缺乏能量吸收装置,与其他碰撞方式相比T型碰撞在交通事故中造成的伤亡和损失更大。相关数据表明T型碰撞事故中司机往往采取制动措施,而这种操作并非最佳避撞或减轻碰撞损失的选择。在这种紧急工况下,需要充分利用轮胎的附着能力,尽可能地扩大车辆的行驶极限来避免碰撞或减轻碰撞损失。常规的车辆避撞策略一般采用路径规划-跟踪的分层架构,在路径规划过程中会基于车辆动力学特性加入一定的限制条件,而这种限制条件可能会导致车辆无法充分发挥其动力潜能或无法跟踪该规划路径导致失稳。而在专业驾驶比赛中,驾驶员通常会有意识地控制车轮抱死或打滑以减少圈时或躲避障碍物,这种操作被称为“漂移”。漂移的本质,是通过精确控制使车辆处于转向过度状态下的临界稳定平衡工况,此时后轮达到附着极限。专业驾驶员在漂移中可以同时实现对车辆侧滑和行驶路径两者的精确控制,尽管是完全在车辆稳定性极限范围外操纵的。
附着极限工况下,车辆是一个复杂的非线性系统,制动、驱动、转向系统控制高度耦合,协调控制算法更复杂。
发明内容
针对上述问题,本发明的目的是提供一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法、系统、介质及设备,其能最大限度地发挥自动驾驶车辆的避撞潜能,提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。
为实现上述目的,本发明采取以下技术方案:一种自动驾驶车辆T型紧急避撞控制方法,其包括:根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。
进一步,还包括:预先设置基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间和动作空间;
所述状态空间包含自动驾驶车辆T型紧急避撞所需的全部信息,包括自车状态信息以及周围环境信息;
所述动作空间包括自车的前轮转向角、自车左后轮和右后轮的纵向滑移率。
进一步,所述奖励函数的设置,包括:由第一种奖励与第二种奖励叠加后构成;
所述第一种奖励是在避撞过程中每个决策后给予的即时奖励;
所述第二种奖励是在每个训练回合结束后,基于自车不同的状态模式给予的终止状态奖励;所述自车不同的状态模式包括发生碰撞、完成避撞以及避撞过程中发生侧翻。
进一步,所述计算基于规则的最优控制问题的控制输入量,包括:
所述基于规则的最优控制问题为自车首先全力制动,在设定时间之后全力进行转向使车辆最大程度进行横摆运动;
所述控制输入向量由当前轮胎的横向力和纵向力构成;
所述基于规则的最优控制问题的目标函数设置为终止状态奖励。
进一步,所述第一设定条件为:episode≤icontrol;
所述第二设定条件为:episode>icontrol;
所述第三设定条件为:episode=imax;
episode为当前训练的序列次数,icontrol为学习最优控制的序列次数;imax为设定的最大训练回合次数。
进一步,所述基于控制输入量对强化学习的网络参数进行更新,包括:
基于控制输入量得到新的测量值和当前奖励值,由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素,并存于经验池;
在经验池内进行随机采样,计算TD3的Actor-Critic框架中两个评价网络的目标值,并取最小值;
通过最小化损失函数更新评价网络参数;
通过最小化最优控制输入量和动作网络控制量的差异更新动作网络,然后更新目标评价网络和目标动作网络。
进一步,所述基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,包括:
选择控制输入量,根据控制输入量得到新的测量值和当前奖励值,将由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素,并存于经验池;
在经验池内随机采样,计算TD3的Actor-Critic框架中两个评价网络的目标值,并取最小值;
通过最小化损失函数更新评价网络参数:
通过策略梯度方法更新更新动作网络,然后更新目标评价网络和目标动作网络。
一种自动驾驶车辆T型紧急避撞控制系统,其包括:计算模块、第一更新模块和第二更新模块;所述计算模块,根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;所述第一更新模块,满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;所述第二更新模块,满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,输出最优控制量。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明采用结合先验知识的深度强化学习,对自动驾驶车辆T型紧急避撞的决策控制进行一体化设计,相较于路径规划-跟踪的分层控制架构,该控制架构能够最大限度地发挥自动驾驶车辆的避撞潜能,即使在碰撞不可避免的极端情况下,也要实现尽可能减小碰撞损失的控制规划,提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。
2、本发明结合先验知识的深度强化学习算法,针对分布式后驱车型自动驾驶车辆设置的T型紧急避撞的控制系统,结合最优控制的双延迟深度确定性策略梯度(TwinDelayed Deep Deterministic policy gradient algorithm,TD3)算法,使得车辆在T型紧急避撞场景下可以实现避撞或最大程度的减轻碰撞损失。
附图说明
图1是本发明一实施例中基于TD3算法的车辆T型避障学习过程示意图;
图2是本发明一实施例中车辆动力学模型示意图;
图3是本发明一实施例中碰撞位置和碰撞角度的组合方式示意图;
图4是本发明一实施例中TD3动作网络的网络结构示意图;
图5是本发明一实施例中TD3评价网络的网络结构示意图;
图6是本发明一实施例中T型避撞初始状态示意图;
图7是本发明一实施例中TD3的回合奖励示意图;
图8是本发明一实施例中T型避撞轨迹示意图;
图9是本发明一实施例中计算设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
目前应用的车辆主动安全系统及避撞策略无法适用于极端T型碰撞工况。在这种紧急工况下,需要借鉴专业驾驶比赛中漂移操作,尽可能地扩大车辆的行驶极限来避免碰撞或减轻碰撞损失。本发明公开了一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制系统,结合最优控制的双延迟深度确定性策略梯度算法,针对分布式后驱车型的T型避撞决策控制系统进行了一体化设计,最大限度地发挥自动驾驶车辆的避撞潜能,即使在碰撞不可避免的极端情况下,也要实现尽可能减小碰撞损失的控制规划,提升自动驾驶车辆的高速紧急避让、极端行驶工况的性能。训练测试结果证明了本发明所提出方案的可行性,将为自动驾驶车辆T型紧急避撞控制提供新的方案。
在本发明的一个实施例中,如图1所示,提供一种基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法,本实施例以采用6个深度神经网络进行举例说明,,包含1个动作网络π(s∣θπ),1个目标动作网络π′(s∣θπ′),2个评价网络和2个目标评价网络由于T型紧急避撞场景较为危险,控制模型训练过程均在仿真环境MATLAB/Simulink中完成。本实施例中,该方法包括以下步骤:
步骤1、根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;
步骤2、满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;
步骤3、满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。
本实施例中的控制方法还包括预先设置基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间和动作空间的步骤。
具体为:构造基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间S,动作空间A和奖励函数R。其中:
(1)状态空间S
状态空间中包含自动驾驶车辆T型紧急避撞所需的全部信息,包括自车状态信息以及周围环境信息,如下式所示:
S=[xe,xr]T
xr=[Xr,Yr,ceX,ceY,crX,ceY]T
式中,xe和xr分别为自车状态信息和周围环境信息。Vx,Vy和分别为车辆坐标系下自车的纵向速度、横向速度和横摆角速度,Ve,Ye和ψ分别为大地坐标系下自车的质心位置和横摆角。M为当前自车状态模式,包括:1-尚未碰撞、2-发生碰撞、3-完成避撞、4-避撞过程中发生侧翻等四种模式。Xr,Yr为大地坐标系下他车的质心位置。(ceX,ceY)和(crX,crY)分别为大地坐标系下自车和他车上的某一点坐标,使得两点连线为两车的最小距离,仅非碰撞状态下存在。本实施例中以他车静止的避撞场景为例介绍该T型避撞策略。
(2)动作空间A
动作空间包含以下三个元素:
A=[δ,λ3,λ4]T
其中,δ为自车的前轮转向角,λ3和λ4分别为自车左后轮和右后轮的纵向滑移率。其范围为δ∈[-30°,30°],λ3∈[-1,1],λ4∈[-1,1]。
本实施例中针对分布式后驱的自车车型进行T型避撞策略设置。为了使车辆更容易发生侧滑从而在极限工况下实现避撞或减轻避撞损失,前后轮的制动力分配系数为0:1,即只产生后轮制动力,模拟了真实驾驶环境中专业驾驶员利用手刹完成漂移的策略。基于控制量[δ,λ3,λ4]T,结合车辆动力学模型以及轮胎模型,可以得到相应的各个轮胎的纵横向力以及当前车辆的运动状态。
在本实施例中,采用双轨三自由度车辆动力学模型,如图2所示。
其中,系数矩阵B为:
式中,ψ为车辆的横摆角,为车辆的横摆角加速度,为纵向加速度,为横向加速度,m为车辆质量,Iz为车辆横摆转动惯量,La和Lb分别为质心与前轴/后轴之间的直线距离,Lw为二分之一轮距,Fxj和Fyj分别表示车轮切向及横向轮胎地面力,其中j=1,2,3,4分别表示左前轮、右前轮、左后轮和右后轮,Froll和Fair分别为车辆的滚动阻力和空气阻力:
Froll=fmg
式中,f为滚动阻力系数,g为重力加速度系数,ρ为空气密度,Cd为空气阻力系数,A为车辆横截面积。
轮胎模型采取基于实验数据的查表法。轮胎实验数据是针对纯滑移率或纯侧偏情况下采集的。而实际上轮胎力为侧向力和牵引力的合力,彼此是有影响的。因此该模型采用考虑纵横向耦合特性的Pacejka轮胎模型对实验数据两个分力进行椭圆化,修正查表数据。最终根据各轮胎的纵向滑移率λi、侧偏角αi以及垂向力Fzi,可以通过查表得到当前该轮胎的纵向力Fxi以及横向力Fyi(i=1,2,3,4),即
Fxi=T1(λi,αi,Fzi)
Fyi=T2(λi,αi,Fzi)
T1、T2分别表示轮胎的纵向力Fxi以及横向力Fyi与纵向滑移率λi、侧偏角αi以及垂向力Fzi的对应关系函数。
其中,各轮的侧偏角为:
各轮的垂直载荷为:
(3)奖励函数R
奖励函数的设置,包括:由第一种奖励与第二种奖励叠加后构成;第一种奖励是在避撞过程中每个决策后给予的即时奖励;第二种奖励是在每个训练回合结束后,基于自车不同的状态模式给予的终止状态奖励;所述自车不同的状态模式包括发生碰撞、完成避撞以及避撞过程中发生侧翻。
具体为:在TD3框架下,智能体只根据奖励函数的定义来学习如何与环境的交互,从而实现奖励函数的最大化,因此奖励函数的设计直接决定了智能体的控制效果。奖励函数需要定义在不同驾驶状态下相应动作的奖惩,如果定义不明容易导致模型不收敛或模型收敛于局部最优解。针对自动驾驶车辆的T型紧急避撞问题中存在两种类型的奖励,分别用Ri和Rt表示。第一种奖励Ri是在避撞过程中每个决策步骤后给予的即时奖励,其目的是克服强化学习过程中奖励的稀疏性,加快智能体的学习速度。第二种奖励Rt是在每个训练回合结束后,基于自车不同的状态模式给予的终止状态奖励。其共有三种结局模式,分别为发生碰撞、完成避撞以及避撞过程中发生侧翻。下面将具体介绍各奖励项的定义。
(31)即时奖励Ri
即时奖励的设置可以帮助智能体的学习速度更快、收敛更稳定。即时奖励主要考虑以下几个方面:
(311)相对速度项Ri1
相对速度项Ri1用于鼓励自车相对于他车的相对速度尽可能小,从而减小潜在碰撞可能或碰撞损失,Ri1定义为
其中,D为自车与他车的相对最小距离,ΔV为自车与他车的相对速度沿D方向的分量大小。k1为负常数,用于调整相对速度项的奖励权重。
(312)相对航向角项Ri2
相关事故研究报告表明,碰撞时当两车车身相对平行时,冲击能量通过将剩余动能分布在更大的表面积上减轻了碰撞的影响。因此Ri2定义为
其中k为任意整数,k2为负常数,用于调整相对航向角项的奖励权重。ψ为自车横摆角,他车在本示例中处于静止状态,其横摆角恒为π/2。
(313)输入大小及变化率项Ri3
智能系统的输入为动作空间的三个元素:
A=[δ,λ3,λ4]T
其中,δ为自车的前轮转向角,λ3和λ4自车左后轮和右后轮的纵向滑移率。其范围为δ∈[-30°,30°],λ3∈[-1,1],λ4∈[-1,1]。输入项及其变化率的大小与奖励之间的关系呈负相关。输入项及其变化率越小,车辆越容易保持在一个线性稳定的区域,不易失稳。Ri1定义为
其中,k3、k4为负常数,分别用于调整输入项及其变化率大小的奖励权重。
(32)终止状态奖励Rt
当T型紧急避撞处于终止状态时,该训练回合结束,将基于自车不同的状态模式给予终止状态奖励。该终止状态共有三种结局模式,分别为完成避撞、发生碰撞以及避撞过程中发生侧翻。
其中,k5为正常数,当车辆完成T型避撞而没有发生碰撞以及侧翻时,则给予较大的奖励;k6为负常数,当车辆避撞过程中发生侧翻,则给予较大的惩罚;Rtc为自车与他车最终发生碰撞时给予的奖励,奖励大小反映了发生碰撞的严重程度,其取决于多种因素的组合,包括碰撞速度、碰撞位置及角度,Rtc表示为
Rtc=k7+Rtc1+Rtc2
其中,k7为负常数,为发生碰撞的基础惩罚;Rtc1为碰撞速度相关项,Rtc2为碰撞位置及角度相关项。下面将描述Rtc的具体定义。
(321)碰撞速度项Rtc1
本实施例中假设他车静止,因此自车碰撞前的速度越大,其携带的动能越大,碰撞损失越严重。因此Rtc1表示为
其中k8为负常数,用于调整相对碰撞速度项的奖励权重。
(322)碰撞位置及角度项Rtc2
碰撞位置及角度即碰撞车辆之间相互作用力的区域及方向,其直接影响了碰撞能量的转移程度,是影响碰撞严重程度的重要因素。
碰撞位置往往是车身受损最严重的区域,由于车辆不同部位的结构、材料以及碰撞变形程度不同,碰撞位置会对碰撞损失产生很大影响,根据车辆碰撞事故统计分析,车辆碰撞的部位Ip可分为以下区域:
碰撞角度是指发碰撞时两车长轴的夹角。根据车辆碰撞事故统计分析,碰撞角度Ia的范围由0°至180°划分为6个区域:0±5°(180±5°)、20±15°、50±15°、90±25°、130±15°、160±15°。根据作用效果对这6个区域进行合并:
碰撞位置和碰撞角度这两个因素交互耦合,对于不同组合的碰撞状态,其碰撞严重程度也各不相同。碰撞位置和碰撞角度的不同组合方式如图3所示,不同碰撞状态对应的奖励函数值Rtc2表示为:
其中,k9为负常数,用于调整碰撞位置及角度项的奖励权重,βi为图3中碰撞位置和碰撞角度的不同组合方式对应的系数。
综合上述所有的因素,最终得到智能体奖励函数R为
R=Ri+Rt。
上述实施例中,在对强化学习的网络参数进行更新之前,初始化TD3的网络参数。具体如下:
其中,动作网络的网络结构如图4所示,由一个输入层、两个隐藏层和一个输出层组成。其中,输入状态为13维,第一隐藏层由400个神经元组成,第二隐藏层由300个神经元组成,控制输出层为3维。各隐藏层的激活函数为线性修正单元(ReLU),为限制控制量的幅值,控制输出层的激活函数为双曲正切函数(Tanh)。
评价网络的网络结构如图5所示,由两个输入层、三个隐藏层和一个输出层组成。其中,状态输入为13维,控制输入为3维,第一隐藏层由400个神经元组成,第二隐藏层由300个神经元组成,输出为1维的动作值函数。状态输入层与控制输入层跳过第一隐藏层,与第二隐藏层直接相连。各隐藏层的激活函数为线性修正单元(ReLU),输出层的激活函数为恒等变换(dentity)。
上述实施例中,第一设定条件为:episode≤icontrol;第二设定条件为:episode>icontrol;第三设定条件为:episode=imax;其中,episode为当前训练的序列次数,icontrol为学习最优控制的序列次数;imax为设定的最大训练回合次数。
上述实施例中,预先设置的初始状态如图6所示。
在本实施例中,设置的初始状态测量值s0为:
初始动作如下:
[δ,λ3,λ4]T=[0,0,0]T
自车及他车的总车长、总车宽分别设置为
[Le,We,Lr,Wr]T=[3.5m,1.66m,8m,3m]T
上述实施例中,步骤1中,基于规则的最优控制问题为自车首先全力制动,在设定时间之后全力进行转向使车辆最大程度进行横摆运动;控制输入向量由当前轮胎的横向力和纵向力构成;基于规则的最优控制问题的目标函数设置为终止状态奖励。
在本实施例中,对于将T型紧急避撞问题转化为基于规则的最优控制问题,根据驾驶员执行紧急避撞的操纵经验设定基于规则的避撞行为策略。假设T型避撞过程中,自车首先全力制动,在设定时间t0之后全力进行转向使车辆最大程度进行横摆运动,从而使得车辆在T型紧急避撞场景下可以实现避撞或最大程度的减轻碰撞损失。该控制优化模型描述如下:
当t≤t0,车辆后轴两轮全力制动(假设驱制动力仅由后轮提供),根据本实施例中采用的车辆模型,此时控制输入向量ucontrol为:
ucontrol=[Fy1,Fy2,Fy3,Fy4,Fx3,Fx4]T=[0,0,0,0,μFz3,μFz4]T
其中,μ为路面附着系数,Fzi(i=1,2,3,4)可由车辆模型的轮胎垂向力公式求得,μFzi为附着条件限制下所能提供的最大轮胎力。
当t>t0,车辆全力转向,根据图6所示的初始状态及碰撞位置及角度项对应的奖励函数可知,自车应采取左转且最终Y轴位移尽可能大,才能实现避撞或最大程度的减少碰撞损失。此时:
δ=δmax=30°
由车辆模型描述的轮胎侧偏角公式可求得前轴两轮的侧偏角α1和α2,再由查表法求得前轴两轮的侧向力(前轴两轮纵向滑移率假设为0):
后轴两轮分别提供相反方向的最大纵向力,使得车辆在该力矩及转向作用下最大程度地进行横摆运动。此时控制输入向量ucontrol为:
ucontrol=[Fy1,Fy2,Fy3,Fy4,Fx3,Fx4]T=[T2(0,α1,Fz1),T2(0,α2,Fz2),0,0,-μFz3,μFz4]T
目标函数J设置为终止状态奖励Rt:
J=Rt
该优化问题中唯一的变量是t0,当t0确定时,车辆整个避撞过程的实时控制输入ucontrol及运动状态也是确定的。因此在MATLAB/Simulink仿真软件中通过迭代可求解出使得目标函数J最大化的t0。
上述实施例中,步骤2中当满足第一设定条件episode≤icontrol,基于最优控制输入对强化学习的网络参数进行更新。具体包括以下步骤:
步骤21、基于控制输入量得到新的测量值和当前奖励值,由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素,并存于经验池;
步骤22、在经验池内进行随机采样,计算TD3的Actor-Critic框架中两个评价网络的目标值,并取最小值;
具体为:在经验池D内随机采样N组数据,计算两个评价网络的目标值,并取最小值:
步骤23、通过最小化损失函数更新评价网络参数:
步骤24、通过最小化最优控制输入量和动作网络控制量的差异更新动作网络,然后更新目标评价网络和目标动作网络。
具体为:每隔d轮,通过最小化最优控制输入量和动作网络控制量的差异更新动作网络:
然后更新目标评价网络和目标动作网络:
θπ′←τθπ+(1-τ)θπ′。
上述实施例中,步骤3中的当满足第二设定条件episode>icontrol,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,包括以下步骤:
步骤31、选择控制输入量,根据控制输入量得到新的测量值和当前奖励值,将由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素,并存于经验池;
根据控制量ut得到新的测量值st+1和当前奖励值rt,将状态转移四元素(st,ut,rt,st+1)存于经验池D;
步骤32、在经验池内随机采样,计算TD3的Actor-Critic框架中两个评价网络的目标值,并取最小值;
具体为:在经验池D内随机采样N组数据,计算评价网络的目标值,并取最小值:
步骤33、通过最小化损失函数更新评价网络参数:
步骤34、通过策略梯度方法更新更新动作网络,然后更新目标评价网络和目标动作网络;
具体为:每隔d轮,通过策略梯度算法更新动作网络:
并更新目标评价网络和目标动作网络:
θπ′←τθπ+(1-τ)θπ′
直至满足第三设定条件episode=imax。
综上,如图7和图8所示,为利用本发明提供的基于深度强化学习的自动驾驶车辆T型紧急避撞控制方法在仿真环境下进行训练及测试后的效果示意图。
图7为TD3算法在学习过程中的回合奖励训练情况,图中灰色曲线为每个回合的实际奖励,深色曲线每200回合的平均奖励。由图7可知,随着回合数的增加,前8000回合获得的回报值呈总体提升的趋势,这说明算法的控制能力从交互过程中得到了提高。8000-12000回合获得的回报值逐渐趋于平稳,这说明算法在训练的后期得到的策略已经接近最优。
图8为T型避撞轨迹示意图,基于设置的初始状态条件,虽然在该极端工况下无法避免碰撞,但自车通过转向横摆运动,最终与他车碰撞时两车的车身基本平行,从而增大了碰撞接触面积,减小了碰撞损失。
在本发明的一个实施例中,提供一种自动驾驶车辆T型紧急避撞控制系统,其包括:计算模块、第一更新模块和第二更新模块;
计算模块,根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;
第一更新模块,满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;
第二更新模块,满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,输出最优控制量。
本实施例提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
如图9所示,为本发明一实施例中提供的计算设备结构示意图,该计算设备可以是终端,其可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中,处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统和计算机程序,该计算机程序被处理器执行时以实现一种控制方法;该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏,该输入装置可以是显示屏上覆盖的触摸层,也可以是计算设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令,以执行如下方法:
根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的一个实施例中,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。
在本发明的一个实施例中,提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法,例如包括:根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种自动驾驶车辆T型紧急避撞控制方法,其特征在于,包括:
根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;
满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;
满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,并输出最优控制量。
2.如权利要求1所述控制方法,其特征在于,还包括:预先设置基于自动驾驶车辆T型避撞的马尔可夫决策模型中的状态空间和动作空间;
所述状态空间包含自动驾驶车辆T型紧急避撞所需的全部信息,包括自车状态信息以及周围环境信息;
所述动作空间包括自车的前轮转向角、自车左后轮和右后轮的纵向滑移率。
3.如权利要求1所述控制方法,其特征在于,所述奖励函数的设置,包括:由第一种奖励与第二种奖励叠加后构成;
所述第一种奖励是在避撞过程中每个决策后给予的即时奖励;
所述第二种奖励是在每个训练回合结束后,基于自车不同的状态模式给予的终止状态奖励;所述自车不同的状态模式包括发生碰撞、完成避撞以及避撞过程中发生侧翻。
4.如权利要求1所述控制方法,其特征在于,所述计算基于规则的最优控制问题的控制输入量,包括:
所述基于规则的最优控制问题为自车首先全力制动,在设定时间之后全力进行转向使车辆最大程度进行横摆运动;
所述控制输入向量由当前轮胎的横向力和纵向力构成;
所述基于规则的最优控制问题的目标函数设置为终止状态奖励。
5.如权利要求1所述控制方法,其特征在于,所述第一设定条件为:episode≤icontrol;
所述第二设定条件为:episode>icontrol;
所述第三设定条件为:episode=imax;
episode为当前训练的序列次数,icontrol为学习最优控制的序列次数;imax为设定的最大训练回合次数。
6.如权利要求5所述控制方法,其特征在于,所述基于控制输入量对强化学习的网络参数进行更新,包括:
基于控制输入量得到新的测量值和当前奖励值,由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素,并存于经验池;
在经验池内进行随机采样,计算TD3的Actor-Critic框架中两个评价网络的目标值,并取最小值;
通过最小化损失函数更新评价网络参数;
通过最小化最优控制输入量和动作网络控制量的差异更新动作网络,然后更新目标评价网络和目标动作网络。
7.如权利要求5所述控制方法,其特征在于,所述基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,包括:
选择控制输入量,根据控制输入量得到新的测量值和当前奖励值,将由原测量值、控制输入量、新的测量值和当前奖励值构成状态转移四元素,并存于经验池;
在经验池内随机采样,计算TD3的Actor-Critic框架中两个评价网络的目标值,并取最小值;
通过最小化损失函数更新评价网络参数:
通过策略梯度方法更新更新动作网络,然后更新目标评价网络和目标动作网络。
8.一种自动驾驶车辆T型紧急避撞控制系统,其特征在于,包括:计算模块、第一更新模块和第二更新模块;
所述计算模块,根据预先设置的车辆模型、奖励函数和初始状态,计算基于规则的最优控制问题的控制输入量;
所述第一更新模块,满足第一设定条件时,基于控制输入量对强化学习的网络参数进行更新,直到满足第二设定条件;
所述第二更新模块,满足第二设定条件时,基于TD3的Actor-Critic框架对强化学习的网络参数进行更新,直到满足第三设定条件,输出最优控制量。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至7所述方法中的任一方法。
10.一种计算设备,其特征在于,包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948176.XA CN113460090B (zh) | 2021-08-18 | 2021-08-18 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948176.XA CN113460090B (zh) | 2021-08-18 | 2021-08-18 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113460090A true CN113460090A (zh) | 2021-10-01 |
CN113460090B CN113460090B (zh) | 2023-09-12 |
Family
ID=77866713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948176.XA Active CN113460090B (zh) | 2021-08-18 | 2021-08-18 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113460090B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564016A (zh) * | 2022-02-24 | 2022-05-31 | 江苏大学 | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 |
CN115685753A (zh) * | 2022-10-25 | 2023-02-03 | 清华大学 | 基于强化学习的车辆制动末期纵向平顺性优化方法及系统 |
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN117944637A (zh) * | 2024-02-01 | 2024-04-30 | 南栖仙策(南京)高新技术有限公司 | 一种车辆制动控制方法、装置、设备和存储介质 |
CN118372818A (zh) * | 2024-06-21 | 2024-07-23 | 江西交通职业技术学院 | 一种基于个性化驾驶习惯的智能汽车纵向避障方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018052444A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Subaru | 車両の衝突入力低減装置 |
CN110658829A (zh) * | 2019-10-30 | 2020-01-07 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策系统的方法、系统和介质 |
CN112224202A (zh) * | 2020-10-14 | 2021-01-15 | 南京航空航天大学 | 一种紧急工况下的多车协同避撞系统及方法 |
WO2021053474A1 (en) * | 2019-09-17 | 2021-03-25 | Kpit Technologies Limited | System and method for dynamic evasive maneuver trajectory planning of a host vehicle |
CN112633474A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN112896170A (zh) * | 2021-01-30 | 2021-06-04 | 同济大学 | 一种车路协同环境下的自动驾驶横向控制方法 |
CN112906126A (zh) * | 2021-01-15 | 2021-06-04 | 北京航空航天大学 | 基于深度强化学习的车辆硬件在环仿真训练系统及方法 |
-
2021
- 2021-08-18 CN CN202110948176.XA patent/CN113460090B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018052444A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Subaru | 車両の衝突入力低減装置 |
WO2021053474A1 (en) * | 2019-09-17 | 2021-03-25 | Kpit Technologies Limited | System and method for dynamic evasive maneuver trajectory planning of a host vehicle |
CN110658829A (zh) * | 2019-10-30 | 2020-01-07 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN111985614A (zh) * | 2020-07-23 | 2020-11-24 | 中国科学院计算技术研究所 | 一种构建自动驾驶决策系统的方法、系统和介质 |
CN112224202A (zh) * | 2020-10-14 | 2021-01-15 | 南京航空航天大学 | 一种紧急工况下的多车协同避撞系统及方法 |
CN112633474A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN112906126A (zh) * | 2021-01-15 | 2021-06-04 | 北京航空航天大学 | 基于深度强化学习的车辆硬件在环仿真训练系统及方法 |
CN112896170A (zh) * | 2021-01-30 | 2021-06-04 | 同济大学 | 一种车路协同环境下的自动驾驶横向控制方法 |
Non-Patent Citations (1)
Title |
---|
王立群;朱舜;韩笑;何军;: "基于深度Q值网络的自动小车控制方法", 电子测量技术, no. 11, pages 226 - 229 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564016A (zh) * | 2022-02-24 | 2022-05-31 | 江苏大学 | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 |
CN115685753A (zh) * | 2022-10-25 | 2023-02-03 | 清华大学 | 基于强化学习的车辆制动末期纵向平顺性优化方法及系统 |
CN115685753B (zh) * | 2022-10-25 | 2024-10-29 | 清华大学 | 基于强化学习的车辆制动末期纵向平顺性优化方法及系统 |
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN116946162B (zh) * | 2023-09-19 | 2023-12-15 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN117944637A (zh) * | 2024-02-01 | 2024-04-30 | 南栖仙策(南京)高新技术有限公司 | 一种车辆制动控制方法、装置、设备和存储介质 |
CN118372818A (zh) * | 2024-06-21 | 2024-07-23 | 江西交通职业技术学院 | 一种基于个性化驾驶习惯的智能汽车纵向避障方法 |
CN118372818B (zh) * | 2024-06-21 | 2024-08-16 | 江西交通职业技术学院 | 一种基于个性化驾驶习惯的智能汽车纵向避障方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113460090B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113460090B (zh) | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 | |
Li et al. | Comprehensive tire–road friction coefficient estimation based on signal fusion method under complex maneuvering operations | |
CN110606079B (zh) | 一种分层控制的车辆防侧翻方法及多轴分布式驱动车辆 | |
Wang et al. | Constrained H∞ control for road vehicles after a tire blow-out | |
Chakraborty et al. | Vehicle posture control through aggressive maneuvering for mitigation of T-bone collisions | |
Singh et al. | Trajectory tracking and integrated chassis control for obstacle avoidance with minimum jerk | |
Chakraborty et al. | Time-optimal vehicle posture control to mitigate unavoidable collisions using conventional control inputs | |
Mok et al. | A post impact stability control for four hub-motor independent-drive electric vehicles | |
CN112092805B (zh) | 一种智能车辆避撞与降低碰撞伤害的集成控制方法和系统 | |
CN115534938A (zh) | 一种基于附加横摆力矩的人机共驾汽车紧急避撞控制方法及系统 | |
Hang et al. | Cooperative decision making of lane-change for automated vehicles considering human-like driving characteristics | |
Hou et al. | Crash mitigation controller for unavoidable T-bone collisions using reinforcement learning | |
Nguyen | Establishing a novel adaptive fuzzy control algorithm for an active stabilizer bar with complex automotive dynamics model | |
CN113002527B (zh) | 一种自主电动汽车横向稳定性鲁棒容错控制方法 | |
Lai et al. | Simulation analysis of automatic emergency braking system under constant steer conditions | |
CN108569288B (zh) | 一种汽车危险工况的界定与避撞控制方法 | |
Zhao et al. | Adaptive drift control of autonomous electric vehicles after brake system failures | |
CN107561943A (zh) | 一种汽车最速操纵逆动力学数学模型的建立方法 | |
Guastadisegni et al. | Vehicle stability control through pre-emptive braking | |
Zhang et al. | A fuzzy control strategy and optimization for four wheel steering system | |
CN114212074B (zh) | 基于路面附着系数估计的车辆主动转向防侧翻控制方法 | |
CN114162110B (zh) | 一种无人驾驶车辆的横向稳定性控制方法 | |
CN114925461A (zh) | 一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法 | |
Szosland | Fuzzy logic approach to four-wheel steering of motor vehicle | |
Wu et al. | Trajectory planning and tracking for four-wheel independent drive intelligent vehicle based on model predictive control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |