CN116946162B - 考虑路面附着条件的智能网联商用车安全驾驶决策方法 - Google Patents
考虑路面附着条件的智能网联商用车安全驾驶决策方法 Download PDFInfo
- Publication number
- CN116946162B CN116946162B CN202311209606.1A CN202311209606A CN116946162B CN 116946162 B CN116946162 B CN 116946162B CN 202311209606 A CN202311209606 A CN 202311209606A CN 116946162 B CN116946162 B CN 116946162B
- Authority
- CN
- China
- Prior art keywords
- network
- representing
- decision
- vehicle
- decision model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000006870 function Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 20
- 230000001133 acceleration Effects 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000005452 bending Methods 0.000 abstract description 2
- 230000007613 environmental effect Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000010426 asphalt Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0098—Details of control systems ensuring comfort, safety or stability not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/06—Road conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/06—Road conditions
- B60W40/064—Degree of grip
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/06—Road conditions
- B60W40/072—Curvature of the road
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/06—Road conditions
- B60W40/076—Slope angle of the road
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0043—Signal treatments, identification of variables or parameters, parameter estimation or state estimation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/15—Road slope
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/30—Road curve radius
Abstract
本发明公开了一种考虑路面附着条件的智能网联商用车安全驾驶决策方法。首先,将安全驾驶决策问题建模为有限马尔可夫决策模型,并定义决策模型的基本参数。其次,设计决策模型的网络架构。最后,训练决策模型的网络参数。本发明提出的方法综合考虑了路面附着条件、道路坡度和弯度等因素对于行车安全的影响,能够适应不同的交通环境和行驶工况,解决了现有的商用车驾驶决策方法适应性差、决策不准确的问题。
Description
技术领域
本发明涉及一种智能网联汽车驾驶决策方法,尤其是涉及一种考虑路面附着条件的智能网联商用车安全驾驶决策方法,属于新一代信息技术领域。
背景技术
智能网联汽车是以车辆为主体和主要节点,融合现代通信和网络技术,使车辆与外部节点实现信息共享和协同控制,以达到车辆安全、有序、高效、节能行驶的新一代多车辆系统。其中,驾驶决策模块将环境感知模块的感知结果、定位结果等信息作为输入,根据决策方法,规划出合理的车辆驾驶行为,并发送给后续的执行模块。因此,驾驶决策决定了智能网联汽车的合理性和安全性。
目前,针对安全驾驶决策的研究相对较多,但大多面向智能网联乘用车。相比于小型乘用车,商用车具有质心位置较高、整车质量较大等特点,导致其制动距离较长、制动性能相对较差。在执行紧急制动、紧急避障等操作或行驶在雨水、冰雪等附着系数较低的路面时,易失稳而发生侧翻。因此,主要从防碰撞层面出发的乘用车安全驾驶决策方法,难以直接应用于商用车的驾驶决策。
在商用车安全驾驶决策方法研究中,申请号为ZL202011512718.0 ,发明创造名称为“基于深度强化学习的重型营运车辆防侧翻驾驶决策方法”的中国专利以及申请号为ZL202210158758.2,发明创造名称为“一种高度类人的自动驾驶营运车辆安全驾驶决策方法”的中国专利围绕商用车的安全驾驶决策展开研究,但忽略了路面附着条件、道路坡度等因素对于行车安全的影响。申请号为ZL202111225841.9 ,发明创造名称为“一种考虑路面附着条件的大型营运车辆防侧翻决策方法” 的中国专利以及申请号为ZL202111225837.2,发明创造名称为“一种考虑路面附着条件的大型营运车辆防碰撞决策方法”的中国专利研究了不同路面附着条件下的驾驶决策方法,但未综合考虑碰撞、侧翻等因素对于行车安全的影响。智能网联商用车的行车安全受道路环境、路面附着系数、道路坡度和弯度等多因素影响,上述方法虽然可以起到一定的决策作用,但存在对不同交通环境的适应性差、决策不准确的问题。总体而言,现有的智能网联商用车驾驶决策方法,在安全性和环境适应性上仍存在着较大的不足,尚缺乏适应于不同路面状况的智能网联商用车安全驾驶决策方法。
发明内容
发明目的:为了解决现有的智能网联商用车驾驶决策方法缺乏安全性和环境适应性的问题,本发明提出了一种考虑路面附着条件等智能网联商用车安全驾驶决策方法。该方法综合考虑了路面附着条件、道路坡度和弯度等因素对于行车安全的影响,能够适应不同的交通环境和行驶工况,解决了现有的商用车驾驶决策方法适应性差、决策不准确的问题。同时,该方法使用的传感器成本较低,计算方法清晰,计算耗时低,可以实时地提供油门开度、方向盘转向角、制动踏板开度等连续决策输出,便于大规模推广。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种考虑路面附着条件等智能网联商用车安全驾驶决策方法,首先,将安全驾驶决策问题建模为有限马尔可夫决策模型,并定义决策模型的基本参数;其次,设计决策模型的网络架构;最后,训练决策模型的网络参数;其特征在于:该方法具体包括如下步骤:
步骤一:建立有限马尔可夫决策模型
具体表示为一个五元组:;其中,S和A分别表示状态集合和动作集合,R和P a 分别表示奖励函数和状态转移概率,/>表示折扣因子;
接下来,对所建决策模型的基本参数进行定义;首先,定义状态集合;状态集合包含自车运动状态信息、相对运动状态信息和环境信息三类感知信息;具体描述为:
(1)
式中,表示t时刻的状态集合,/>分别表示智能网联商用车,即自车的横向位置、纵向位置,单位为米;/>分别表示自车的横向速度和纵向速度,单位为米每秒;/>分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒,/>表示自车的航向角,单位为度,/>表示自车与周围第i个交通参与者的相对横向间距、相对纵向间距和相对速度,单位分别为米、米和米每秒,/>表示道路的附着系数,/>分别表示道路的附着系数、坡度和弯度,单位度、米的负一次方;
为了获取上述信息,在商用车上安装若干车载传感器;具体而言,位置信息通过厘米级精度的北斗系统测量获得,速度信息通过轮速传感器测量获得,加速度和航向角信息通过惯性测量单元测量获得,相对车间距离和相对速度信息通过毫米波雷达测量获得,道路信息通过路侧单元发布获得;
其次,定义动作集合;利用连续的时间序列输出定义动作集合,具体表示为:
(2)
式中,表示t时刻的动作集合,/>表示方向盘转角控制量,单位为度,/>表示油门或制动踏板的控制量,取值为[-1,1];当控制量为负数时,表示施加制动踏板的控制量,当控制量为正数时,表示施加油门踏板的控制量;
再次,定义综合考虑防碰撞和防侧翻因素的奖励函数,具体表示为:
(3)
式中,R t 表示t时刻的奖励函数,R 1,R 2,R 3和R 4分别表示前向防撞奖励函数、后向防撞奖励函数、防侧翻奖励函数和惩罚函数;
前向防撞奖励函数R 1具体表示为:
(4)
式中,S s 表示两车的最小车间距离,S f 表示在此期间前车行驶的距离,S表示自车的行车距离,单位均为米,S通过下式计算获得;
(5)
式中,t 1表示制动器开始增压到最大压力的时间,t 2表示车辆持续制动到停车的时间,单位均为秒,a max表示最大制动加速度,单位为米每二次方秒;v 0表示车辆的初始速度,单位为米每秒;
车辆的最大制动加速度应随着路面附着条件自适应变化,具体表示为:
(6)
式中,g表示重力加速度;
后向防撞奖励函数R 2具体表示为:
(7)
式中,表示t时刻的后向碰撞时间,单位为秒;
防侧翻奖励函数R 3具体表示为:
(8)
惩罚函数R 4表示当决策模型输出造成碰撞或侧翻的驾驶动作时,应对该策略施加负反馈,具体表示为:
(9)
步骤二:设计决策模型的网络架构
采用“演员-评论家”结构,设计了由策略网络和目标网络组成的网络架构;具体而言,策略网络将状态集合中的参数作为输入,输出安全驾驶策略,目标网络将状态集合和驾驶策略作为输入,输出Q值;策略网络和目标网络均由5层组成,即一个输入层、一个输出层和三个具有64个神经元的隐藏层,激活函数均采用线性整流函数;
步骤三:训练决策模型的网络参数
最后,采用双延迟深度确定性策略梯度算法更新决策模型的网络参数;首先,建立两个独立的目标网络来计算目标值,具体表示为:
(10)
式中,分别表示第一个目标网络和第二个目标网络的目标值,分别表示第一个目标网络及其参数,/>分别表示第二个目标网络及其参数,/>表示添加噪声的驾驶动作,r i 表示i时刻的奖励值,/>表示t+1时刻的状态集合;
利用下式计算损失函数:
(11)
(12)
式中,表示当前网络上一步的Q值,/>表示当前网络的参数,/>表示第i个目标网络,/>表示当前网络的损失,M表示更新的步数,/>表示当前网络当前的Q值,/>表示i时刻的状态集合,/>表示i时刻的驾驶动作;
接下来,对各个目标网络均使用软更新的方式进行更新,具体表示为:
(13)
式中,表示目标网络的参数,/>表示目标网络参数更新后的值,/>表示当前网络的参数,/>表示当前网络参数更新后的值,/>表示软更新速率;
当决策模型训练结束后,将厘米级精度的北斗系统、轮速传感器、惯性测量单元、毫米波雷达、路侧单元获取的信息输入到驾驶决策模型中,实时地输出方向盘转角、油门和制动踏板开度控制量,实现了自适应路面附着条件的智能网联商用车安全驾驶决策。
进一步地,软更新速率取值为0.001。
进一步地,采用双延迟深度确定性策略梯度算法更新决策模型的网络参数的过程中,策略网络参数更新速度比目标网络慢。
有益效果:相比于一般的驾驶决策方法,本发明提出的决策方法具有更为准确、可靠、自适应的特点,具体体现在:
(1)本发明提出的方法能够适应干燥、雨水、冰雪等不同路面条件,解决了现有的智能网联商用车驾驶决策方法缺乏环境适应性的问题。
(2)本发明提出的方法综合考虑了碰撞和侧翻对于行车安全的影响,且考虑了道路坡度、弯度,进一步提高了驾驶决策的安全性。
(3)本发明的决策方法使用的传感器成本较低,计算方法清晰,计算耗时低,可以实时地提供油门开度、方向盘转向角、制动踏板开度等连续决策输出,便于大规模推广。
附图说明
图1是本发明的技术路线图;
图2是实车实验结果。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
步骤一:建立有限马尔可夫决策模型
考虑到智能网联商用车的运动状态受当前时刻和上一时刻的运动状态影响,将安全驾驶决策问题转化为有限马尔可夫决策过程,建立有限马尔可夫决策模型,具体可以表示为一个五元组:。其中,S和A分别表示状态集合和动作集合,R和P a 分别表示奖励函数和状态转移概率,/>表示折扣因子。
接下来,对所建决策模型的基本参数进行定义。首先,定义状态集合。状态集合包含自车运动状态信息、相对运动状态信息和环境信息三类感知信息。具体描述为:
(1)
式中,表示t时刻的状态集合,/>分别表示智能网联商用车,即自车的横向位置、纵向位置,单位为米;/>分别表示自车的横向速度和纵向速度,单位为米每秒;/>分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒,/>表示自车的航向角,单位为度,/>表示自车与周围第i个交通参与者的相对横向间距、相对纵向间距和相对速度,单位分别为米、米和米每秒,/>表示道路的附着系数,/>分别表示道路的附着系数、坡度和弯度,单位度、米的负一次方。
为了获取上述信息,可在商用车上安装若干车载传感器。具体而言,位置信息可以通过厘米级精度的北斗系统测量获得,速度信息可通过轮速传感器测量获得,加速度和航向角信息可通过惯性测量单元测量获得。此外,相对车间距离和相对速度信息可通过毫米波雷达测量获得,道路信息可通过路侧单元发布获得。
其次,定义动作集合。考虑到连续的决策输出能够直接生成决策控制序列,具有遍历解空间的优点,本发明利用连续的时间序列输出定义动作集合,具体表示为:
(2)
式中,表示t时刻的动作集合,/>表示方向盘转角控制量,单位为度,/>表示油门或制动踏板的控制量,取值为[-1,1];当控制量为负数时,表示施加制动踏板的控制量,当控制量为正数时,表示施加油门踏板的控制量。
再次,定义奖励函数。为了反馈每一时刻驾驶动作的优劣,指导安全驾驶决策的更新,设计了综合考虑防碰撞和防侧翻因素的奖励函数,具体表示为:
(3)
式中,R t 表示t时刻的奖励函数,R 1,R 2,R 3和R 4分别表示前向防撞奖励函数、后向防撞奖励函数、防侧翻奖励函数和惩罚函数。
为了避免发生前向碰撞,设计了前向防撞奖励函数,具体表示为:
(4)
式中,S s 表示两车的最小车间距离,S f 表示在此期间前车行驶的距离,S表示自车的行车距离,单位均为米,S通过下式计算获得;
(5)
式中,t 1表示制动器开始增压到最大压力的时间,t 2表示车辆持续制动到停车的时间,单位均为秒,a max表示最大制动加速度,单位为米每二次方秒;v 0表示车辆的初始速度,单位为米每秒。
考虑到路面附着系数对于车辆的制动距离影响较大,为了提高安全驾驶决策的环境适应性,车辆的最大制动加速度应随着路面附着条件自适应变化,具体表示为:
(6)
式中,g表示重力加速度。
为了避免发生后向碰撞,设计了后向防撞奖励函数R 2具体表示为:
(7)
式中,表示t时刻的后向碰撞时间,单位为秒。
为了避免车辆发生侧翻,设计了防侧翻奖励函数R 3具体表示为:
(8)
当决策模型输出造成碰撞或侧翻的驾驶动作时,应对该策略施加负反馈。为此,设计了惩罚函数,具体可表示为:
(9)
步骤二:设计决策模型的网络架构
为了实现智能网联商用车的安全驾驶决策,采用“演员-评论家”结构,设计了由策略网络和目标网络组成的网络架构。具体而言,策略网络将状态集合中的参数作为输入,输出安全驾驶策略,目标网络将状态集合和驾驶策略作为输入,输出Q值。策略网络和目标网络均由5层组成,即一个输入层、一个输出层和三个具有64个神经元的隐藏层,激活函数均采用线性整流函数。
步骤三:训练决策模型的网络参数
最后,采用双延迟深度确定性策略梯度 (Twin Delayed Deep DeterministicPolicy Gradient Algorithm,TD3) 算法更新决策模型的网络参数。首先,建立两个独立的目标网络来计算目标值,具体表示为:
(10)
式中,分别表示第一个目标网络和第二个目标网络的目标值,分别表示第一个目标网络及其参数,/>分别表示第二个目标网络及其参数,/>表示添加噪声的驾驶动作,r i 表示i时刻的奖励值,/>表示t+1时刻的状态集合。
为了避免因Q值估计过高导致的模型难以收敛的问题,选取两个目标值中较小的值作为目标Q值,利用下式计算损失函数:
(11)
(12)
式中,表示当前网络上一步的Q值,/>表示当前网络的参数,/>表示第i个目标网络,/>表示当前网络的损失,M表示更新的步数,/>表示当前网络当前的Q值,/>表示i时刻的状态集合,/>表示i时刻的驾驶动作。
为了进一步提高网络的收敛速度,策略网络参数更新速度比目标网络慢,从而导致值函数的更新方差越小,得到的策略越好。
接下来,对各个目标网络均使用软更新的方式进行更新,具体表示为:
(13)
式中,表示目标网络的参数,/>表示目标网络参数更新后的值,/>表示当前网络的参数,/>表示当前网络参数更新后的值,/>表示软更新速率,在本实施例中,取值为0.001。
当决策模型训练结束后,将厘米级精度的北斗系统、轮速传感器、惯性测量单元、毫米波雷达、路侧单元获取的信息输入到驾驶决策模型中,可以实时地输出方向盘转角、油门和制动踏板开度控制量,实现了自适应路面附着条件的智能网联商用车安全驾驶决策。
为验证本发明方法的有效性,开展实车实验,其中实验用车为一汽解放J6P自卸车,在正常干燥沥青路面上进行实车实验,摩擦系数取0.6。对本发明方法进行训练后部署在以NVIDIA jetson tx2高性能边缘计算单元为核心的工控机中,最后实验结果如图2所示,从图上可以看出,本发明的方法考虑路面附着条件所用的刹车时间小于未考虑路面附着条件所用的刹车时间,同时从加速度曲线来看本发明方法防止反复刹车,保证了车辆运行的平稳性,为驾驶员提供较为舒适的驾驶环境。
Claims (5)
1.一种考虑路面附着条件的智能网联商用车安全驾驶决策方法;其特征在于,该方法具体包括如下步骤:
步骤一:将安全驾驶决策问题建模为有限马尔可夫决策模型,并定义决策模型的基本参数;有限马尔可夫决策模型具体表示为一个五元组:{S,A,Pa,R,γ};其中,S和A分别表示状态集合和动作集合,R和Pa分别表示奖励函数和状态转移概率,γ表示折扣因子,然后对所建决策模型的基本参数进行定义;
步骤二:采用“演员-评论家”结构,设计了由策略网络和目标网络组成的决策模型的网络架构;
步骤三:采用双延迟深度确定性策略梯度算法更新决策模型的网络参数;
步骤一所述对所建决策模型的基本参数进行定义具体包括:
首先,定义状态集合;状态集合包含自车运动状态信息、相对运动状态信息和环境信息三类感知信息;具体描述为:
式中,St表示t时刻的状态集合,px、py分别表示智能网联商用车,即自车的横向位置、纵向位置,单位为米;vx、vy分别表示自车的横向速度和纵向速度,单位为米每秒;ax、ay分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒,表示自车的航向角,单位为度,xi、yi、vi表示自车与周围第i个交通参与者的相对横向间距、相对纵向间距和相对速度,单位分别为米、米和米每秒,μ表示道路的附着系数,ρ、δ分别表示道路的附着系数、坡度和弯度,单位度、米的负一次方;
其次,定义动作集合;利用连续的时间序列输出定义动作集合,具体表示为:
At=[φ,ξ] (2)
式中,At表示t时刻的动作集合,φ表示方向盘转角控制量,单位为度,ξ表示油门或制动踏板的控制量,取值为[-1,1];当控制量为负数时,表示施加制动踏板的控制量,当控制量为正数时,表示施加油门踏板的控制量;
再次,定义综合考虑防碰撞和防侧翻因素的奖励函数,具体表示为:
Rt=R1+R2+R3+R4 (3)
式中,Rt表示t时刻的奖励函数,R1,R2,R3和R4分别表示前向防撞奖励函数、后向防撞奖励函数、防侧翻奖励函数和惩罚函数;
前向防撞奖励函数R1具体表示为:
式中,Ss表示两车的最小车间距离,Sf表示在此期间前车行驶的距离,S表示自车的行车距离,单位均为米,S通过下式计算获得;
式中,t1表示制动器开始增压到最大压力的时间,t2表示车辆持续制动到停车的时间,单位均为秒,amax表示最大制动加速度,单位为米每二次方秒;v0表示车辆的初始速度,单位为米每秒;
车辆的最大制动加速度应随着路面附着条件自适应变化,具体表示为:
amax≤μ·g (6)
式中,g表示重力加速度;
后向防撞奖励函数R2具体表示为:
式中,tRTTC(t)表示t时刻的后向碰撞时间,单位为秒;
防侧翻奖励函数R3具体表示为:
惩罚函数R4表示当决策模型输出造成碰撞或侧翻的驾驶动作时,应对该策略施加负反馈,具体表示为:
步骤三所述采用双延迟深度确定性策略梯度算法更新决策模型的网络参数,首先,建立两个独立的目标网络来计算目标值,具体表示为:
式中,y1、y2分别表示第一个目标网络和第二个目标网络的目标值,分别表示第一个目标网络及其参数,/>分别表示第二个目标网络及其参数,/>表示添加噪声的驾驶动作,ri表示i时刻的奖励值,Si+1表示t+1时刻的状态集合;
利用下式计算损失函数:
式中,Q′k表示当前网络上一步的Q值,表示当前网络的参数,yi表示第i个目标网络,/>表示当前网络的损失,M表示更新的步数,Qk表示当前网络当前的Q值,Si表示i时刻的状态集合,ai表示i时刻的驾驶动作;
接下来,对各个目标网络均使用软更新的方式进行更新,具体表示为:
式中,θ表示目标网络的参数,表示目标网络参数更新后的值,ωi表示当前网络的参数,/>表示当前网络参数更新后的值,τ表示软更新速率;
当决策模型训练结束后,将厘米级精度的北斗系统、轮速传感器、惯性测量单元、毫米波雷达、路侧单元获取的信息输入到驾驶决策模型中,实时地输出方向盘转角、油门和制动踏板开度控制量,实现了自适应路面附着条件的智能网联商用车安全驾驶决策。
2.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法,其特征在于,为了获取步骤一中所述决策模型的基本参数,需要在商用车上安装若干车载传感器;具体而言,位置信息通过厘米级精度的北斗系统测量获得,速度信息通过轮速传感器测量获得,加速度和航向角信息通过惯性测量单元测量获得,相对车间距离和相对速度信息通过毫米波雷达测量获得,道路信息通过路侧单元发布获得。
3.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法,其特征在于,步骤二所述采用“演员-评论家”结构,设计了由策略网络和目标网络组成的决策模型的网络架构,具体而言,策略网络将状态集合中的参数作为输入,输出安全驾驶策略,目标网络将状态集合和驾驶策略作为输入,输出Q值;策略网络和目标网络均由5层组成,即一个输入层、一个输出层和三个具有64个神经元的隐藏层,激活函数均采用线性整流函数。
4.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法,其特征在于,软更新速率τ取值为0.001。
5.根据权利要求1所述的考虑路面附着条件的智能网联商用车安全驾驶决策方法,其特征在于,采用双延迟深度确定性策略梯度算法更新决策模型的网络参数的过程中,策略网络参数更新速度比目标网络慢。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311209606.1A CN116946162B (zh) | 2023-09-19 | 2023-09-19 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311209606.1A CN116946162B (zh) | 2023-09-19 | 2023-09-19 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116946162A CN116946162A (zh) | 2023-10-27 |
CN116946162B true CN116946162B (zh) | 2023-12-15 |
Family
ID=88449548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311209606.1A Active CN116946162B (zh) | 2023-09-19 | 2023-09-19 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116946162B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019031268A (ja) * | 2017-05-12 | 2019-02-28 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | 能動的探索なしの強化学習に基づく制御ポリシー学習及び車両制御方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN112158189A (zh) * | 2020-09-30 | 2021-01-01 | 东南大学 | 基于机器视觉和深度学习的混合动力汽车能量管理方法 |
CN112580148A (zh) * | 2020-12-20 | 2021-03-30 | 东南大学 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
CN112633474A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN113460090A (zh) * | 2021-08-18 | 2021-10-01 | 清华大学 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
CN113753026A (zh) * | 2021-10-21 | 2021-12-07 | 东南大学 | 一种考虑路面附着条件的大型营运车辆防侧翻决策方法 |
CN113753034A (zh) * | 2021-10-21 | 2021-12-07 | 东南大学 | 一种考虑路面附着条件的大型营运车辆防碰撞决策方法 |
CN113954837A (zh) * | 2021-11-06 | 2022-01-21 | 交通运输部公路科学研究所 | 一种基于深度学习的大型营运车辆车道变换决策方法 |
WO2022052406A1 (zh) * | 2020-09-08 | 2022-03-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN114312830A (zh) * | 2021-12-14 | 2022-04-12 | 江苏大学 | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 |
CN114379540A (zh) * | 2022-02-21 | 2022-04-22 | 东南大学 | 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法 |
CN114407931A (zh) * | 2022-02-21 | 2022-04-29 | 东南大学 | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 |
CN114598655A (zh) * | 2022-03-10 | 2022-06-07 | 东南大学 | 基于强化学习的移动性负载均衡方法 |
CN115016534A (zh) * | 2022-06-02 | 2022-09-06 | 之江实验室 | 一种基于记忆增强学习的无人机自主避障导航方法 |
WO2022197252A1 (en) * | 2021-03-17 | 2022-09-22 | Nanyang Technological University | Autonomous driving methods and systems |
CN115257745A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
CN116039672A (zh) * | 2022-12-30 | 2023-05-02 | 浙江工业大学 | 一种面向自动驾驶决策控制功能的数据-模型后端融合方法 |
WO2023102962A1 (zh) * | 2021-12-06 | 2023-06-15 | 深圳先进技术研究院 | 一种训练端到端的自动驾驶策略的方法 |
CN116468159A (zh) * | 2023-04-03 | 2023-07-21 | 云南电网有限责任公司昆明供电局 | 一种基于双延迟深度确定性策略梯度的无功优化方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860023B2 (en) * | 2018-06-25 | 2020-12-08 | Mitsubishi Electric Research Laboratories, Inc. | Systems and methods for safe decision making of autonomous vehicles |
EP3842304A3 (en) * | 2018-08-14 | 2021-09-15 | Mobileye Vision Technologies Ltd. | Systems and methods for navigating with safe distances |
US20230114997A1 (en) * | 2020-12-18 | 2023-04-13 | Strong Force Vcn Portfolio 2019, Llc | Robotic Fleet Resource Provisioning |
KR102457914B1 (ko) * | 2021-04-21 | 2022-10-24 | 숭실대학교산학협력단 | 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법, 이를 수행하기 위한 기록 매체 및 장치 |
-
2023
- 2023-09-19 CN CN202311209606.1A patent/CN116946162B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019031268A (ja) * | 2017-05-12 | 2019-02-28 | トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド | 能動的探索なしの強化学習に基づく制御ポリシー学習及び車両制御方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
WO2022052406A1 (zh) * | 2020-09-08 | 2022-03-17 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112158189A (zh) * | 2020-09-30 | 2021-01-01 | 东南大学 | 基于机器视觉和深度学习的混合动力汽车能量管理方法 |
CN112633474A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种重型营运车辆的后向防撞驾驶决策方法 |
CN112580148A (zh) * | 2020-12-20 | 2021-03-30 | 东南大学 | 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
WO2022197252A1 (en) * | 2021-03-17 | 2022-09-22 | Nanyang Technological University | Autonomous driving methods and systems |
CN113460090A (zh) * | 2021-08-18 | 2021-10-01 | 清华大学 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
CN113753026A (zh) * | 2021-10-21 | 2021-12-07 | 东南大学 | 一种考虑路面附着条件的大型营运车辆防侧翻决策方法 |
CN113753034A (zh) * | 2021-10-21 | 2021-12-07 | 东南大学 | 一种考虑路面附着条件的大型营运车辆防碰撞决策方法 |
CN113954837A (zh) * | 2021-11-06 | 2022-01-21 | 交通运输部公路科学研究所 | 一种基于深度学习的大型营运车辆车道变换决策方法 |
WO2023102962A1 (zh) * | 2021-12-06 | 2023-06-15 | 深圳先进技术研究院 | 一种训练端到端的自动驾驶策略的方法 |
CN114312830A (zh) * | 2021-12-14 | 2022-04-12 | 江苏大学 | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 |
CN114407931A (zh) * | 2022-02-21 | 2022-04-29 | 东南大学 | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 |
CN114379540A (zh) * | 2022-02-21 | 2022-04-22 | 东南大学 | 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法 |
CN114598655A (zh) * | 2022-03-10 | 2022-06-07 | 东南大学 | 基于强化学习的移动性负载均衡方法 |
CN115016534A (zh) * | 2022-06-02 | 2022-09-06 | 之江实验室 | 一种基于记忆增强学习的无人机自主避障导航方法 |
CN115257745A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
CN116039672A (zh) * | 2022-12-30 | 2023-05-02 | 浙江工业大学 | 一种面向自动驾驶决策控制功能的数据-模型后端融合方法 |
CN116468159A (zh) * | 2023-04-03 | 2023-07-21 | 云南电网有限责任公司昆明供电局 | 一种基于双延迟深度确定性策略梯度的无功优化方法 |
Non-Patent Citations (4)
Title |
---|
基于TD(λ)的自然梯度强化学习算法;陈圣磊;谷瑞军;陈耿;薛晖;;计算机科学(12);186-188 * |
基于动态延迟策略更新的TD3算法;康朝海;孙超;荣垂霆;刘鹏云;;吉林大学学报(信息科学版)(04) * |
基于延迟策略的最大熵优势演员评论家算法;祁文凯;桑国明;;小型微型计算机系统(08);90-98 * |
基于深度强化学习的自动驾驶车控制算法研究;王丙琛;司怀伟;谭国真;;郑州大学学报(工学版)(04);45-49 * |
Also Published As
Publication number | Publication date |
---|---|
CN116946162A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111439260B (zh) | 面向个性化需求的网联商用柴油车巡航行驶优化控制系统 | |
CN110228462B (zh) | 四轮轮毂电机驱动电动汽车横摆稳定性控制方法 | |
CN108284836B (zh) | 一种车辆纵向跟随控制方法 | |
CN113788021B (zh) | 一种结合前车速度预测的自适应跟车巡航控制方法 | |
Kamal et al. | Model predictive control of vehicles on urban roads for improved fuel economy | |
CN106740846B (zh) | 一种双模式切换的电动汽车自适应巡航控制方法 | |
Kamal et al. | On board eco-driving system for varying road-traffic environments using model predictive control | |
CN112622886B (zh) | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 | |
CN109910890B (zh) | 一种基于道路地形信息的卡车预测节能系统及控制方法 | |
CN107097791A (zh) | 基于道路坡度和曲率的四驱电动车速度优化控制方法 | |
CN108447308A (zh) | 一种基于车路协同的交叉口车辆碰撞风险预测方法及系统 | |
US11643080B2 (en) | Trailing vehicle positioning system based on detected pressure zones | |
CN111341152B (zh) | 考虑待行队列与安全避撞的网联汽车绿色通行系统与方法 | |
CN113593275B (zh) | 一种基于公交信号优先的交叉口网联自动驾驶方法 | |
CN112660130A (zh) | 基于智能网联信息的新能源汽车滑行控制系统、方法及新能源汽车 | |
CN111275987B (zh) | 一种考虑路口待行队列影响的汽车行驶车速优化方法 | |
CN113076641B (zh) | 基于风险评估的智能车人机协同转向控制并行计算方法 | |
Lin et al. | Simplified energy-efficient adaptive cruise control based on model predictive control | |
US20220105933A1 (en) | Trailing vehicle positioning system based on detected lead vehicle | |
CN112286212A (zh) | 一种车网协同节能控制方法 | |
Zhang et al. | Predictive eco-driving application considering real-world traffic flow | |
CN115257789A (zh) | 城市低速环境下的营运车辆侧向防撞驾驶决策方法 | |
CN115593433A (zh) | 一种自动驾驶车辆远程接管方法 | |
Kamal et al. | Eco-driving using real-time optimization | |
CN116946162B (zh) | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |