CN113954837A - 一种基于深度学习的大型营运车辆车道变换决策方法 - Google Patents

一种基于深度学习的大型营运车辆车道变换决策方法 Download PDF

Info

Publication number
CN113954837A
CN113954837A CN202111309270.7A CN202111309270A CN113954837A CN 113954837 A CN113954837 A CN 113954837A CN 202111309270 A CN202111309270 A CN 202111309270A CN 113954837 A CN113954837 A CN 113954837A
Authority
CN
China
Prior art keywords
commercial vehicle
lane change
lane
vehicle
lon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111309270.7A
Other languages
English (en)
Other versions
CN113954837B (zh
Inventor
周炜
董轩
张学文
胡玮明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of Highway Ministry of Transport
Original Assignee
Research Institute of Highway Ministry of Transport
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of Highway Ministry of Transport filed Critical Research Institute of Highway Ministry of Transport
Priority to CN202111309270.7A priority Critical patent/CN113954837B/zh
Publication of CN113954837A publication Critical patent/CN113954837A/zh
Application granted granted Critical
Publication of CN113954837B publication Critical patent/CN113954837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0043Signal treatments, identification of variables or parameters, parameter estimation or state estimation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明公开了一种基于深度学习的大型营运车辆车道变换决策方法。首先,定义车道变换决策方法适用的营运车辆运动场景。其次,将车道变换决策问题描述为马尔科夫决策过程,利用软演员评论家算法建立大型营运车辆的车道变换决策模型,得到不同交通环境和行驶工况下的变道决策策略。本发明提出的决策方法,能够为驾驶员提供是否变道、何时变道等安全驾驶策略,实现了准确、有效的大型营运车辆车道变换驾驶决策,具备同时保障大型营运车辆防侧翻和防碰撞的能力,可以有效保障大型营运车辆变道过程中的行车安全。

Description

一种基于深度学习的大型营运车辆车道变换决策方法
技术领域
本发明涉及车辆驾驶控制技术,尤其是涉及一种大型营运车辆车道变换决策方法,属于汽车安全技术领域。
背景技术
大型营运车辆作为道路运输的主要承担者,其安全状况直接影响道路运输安全。大型营运车辆具有运营强度大、运行时间长,运行环境复杂等特点,在运输过程中更容易发生交通事故。
车道变换是行车过程中最常见也是最危险的驾驶行为之一,由其导致的碰撞等事故占比较高。车道变换驾驶决策是主动安全防控的重要一环,为了有效减少因车道变换导致的交通事故,需要在车道变换过程中,确定合理的安全驾驶决策策略。因此,研究大型营运车辆在车道变换过程中的驾驶决策,对于保障车辆运行安全、提高公路安全通行能力具有重要意义。
目前,已有较多文献、专利对车道变换驾驶决策进行了研究,研究对象主要为普通乘用车辆,部分文献针对出租车等小型营运车辆的变道行为进行了研究,但缺乏面向大型营运车辆变道决策的针对性研究。不同于普通乘用车辆和小型营运车辆,大型、特大型客车、半挂车等大型营运车辆具有质心位置高、外廓尺寸大、净质量大、载客和载货质量大等特点,导致其稳定性相对较差。在急转向或紧急变道过程中,车身的晃动进一步加剧了行车的不稳定性,极易失稳而发生侧翻。因此,针对大型营运车辆的车道变换决策研究,应同时具备保障车辆防碰撞和防侧翻的能力,而现有的针对普通乘用车辆或小型营运车辆的变道决策方法未考虑失稳侧翻等因素,难以适用于大型营运车辆。
总体而言,在车道变换驾驶决策的研究中,未涉及面向大型营运车辆的车道变换驾驶决策,特别是缺少准确、有效的大型营运车辆车道变换决策方法。
发明内容
(一)本发明解决的技术问题:
针对现有技术提出的缺少有效、准确的大型营运车辆车道变换决策方法的问题,本发明公开一种基于深度学习的大型营运车辆车道变换决策方法。该方法能够适应不同的交通环境和行驶工况,为驾驶员提供是否变道、何时变道等安全驾驶策略,实现了安全、有效的车道变换控制,具备同时保障大型营运车辆防侧翻和防碰撞的能力,可以有效保障大型营运车辆变道过程中的行车安全。
(二)本发明的技术方案:
一种基于深度学习的大型营运车辆车道变换决策方法,该方法包括如下步骤:
步骤一:定义车道变换决策方法适用的营运车辆运动场景
至少3条车道,大型营运车辆执行车道变换时刻,在目标车道存在着交通参与者;
步骤二:建立营运车辆车道变换决策模型
采用软演员评论家算法构建车道变换决策模型,具体包括以下3个子步骤:
子步骤1:定义车道变换决策模型的参数
对车道变换决策模型的基础参数进行定义,包括状态空间、动作空间以及对应的奖励函数:
(1)状态空间
Figure BDA0003341293250000021
式中,St表示t时刻的状态空间,Plon,Plat分别表示大型营运车辆的纵向位置和横向位置,vlon,vlat分别表示大型营运车辆的纵向速度和横向速度,alon,alat分别表示大型营运车辆的纵向加速度和侧向加速度,
Figure BDA0003341293250000022
分别表示大型营运车辆与第i辆车的相对纵向距离和相对横向距离,
Figure BDA0003341293250000023
分别表示大型营运车辆与第i辆车的相对速度和相对加速度,i=1,2,3,4,5,6,表示当前车道和目标车道的交通参与者;
(2)动作空间
At=[Alat,Alon] (2)
式中,At表示t时刻的动作空间,Alat,Alon分别表示输出的横向动作和纵向动作,且Alat=[A1,A2,A3],Alon=[A4,A5],A1,A2,A3分别表示大型营运车辆选择左侧车道为目标车道、选择当前车道为目标车道、选择右侧车道为目标车道的横向动作,A4,A5分别表示大型营运车辆选择跟随当前车道的前车、选择跟随换道车道的前车的纵向动作;
(3)奖励函数
Rt=R1(t)+R2(t)+R3(t)+R4(t) (3)
式中,Rt为t时刻的奖励函数,R1(t),R2(t),R3(t),R4(t)分别表示t时刻的防碰撞奖励函数、防侧翻奖励函数、稳定性奖励函数和惩罚函数;
子步骤2:设计车道变换决策模型的网络架构
利用多个全连接层结构的神经网络建立策略网络和值函数网络:
(1)策略网络
首先,对大型营运车辆的自身运动状态量[Plon,Plat,vlon,vlat,alon,alat]进行归一化,并依次输入到全连接层H1、全连接层H2和全连接层H3,得到输出O1
其次,对大型营运车辆与周围交通参与者的相对运动状态量
Figure BDA0003341293250000031
进行归一化,并依次输入到全连接层H4、全连接层H5和全连接层H6,得到输出O2
最后,通过张量相加的方式,将输出的O1和O2进行合并,并输入到全连接层H7,得到输出O3,即具有特定特征的动作空间At
(2)值函数网络
首先,将得到的动作空间At、归一化后的大型营运车辆运动状态量、相对运动状态量分别输入到全连接层H8、H9、H10,分别得到输出O4、O5、O6
其次,通过张量相加的方式,将神经网络输出的O4、O5和O6进行合并,并依次输入到全连接层H11、H12,得到输出O7,即软Q值函数Qθ(St,At);
子步骤3:训练值函数网络和策略网络
包括以下步骤:
子步骤3.1:初始化网络参数;
子步骤3.2:初始化目标网络的权重;
子步骤3.3:初始化经验回放池;
子步骤3.4:在某一运动场景下,对状态空间、动作空间进行迭代求解;
子步骤3.5:当大型营运车辆利用车道变换决策模型输出的驾驶策略稳定有效地避免车辆碰撞、侧翻时,表示训练完成;
步骤三:利用车道变换决策模型输出驾驶策略
将行驶中状态空间的信息输入到已训练好的车道变换决策模型中,在线输出变道驾驶策略。
优选地:
(3.1)防碰撞奖励函数计算如下:
Figure BDA0003341293250000041
式中,F1(t),F2(t),F3(t),F4(t),F5(t),F6(t)分别表示大型营运车辆与正前、正后、左前、左后、右前、右后6个交通参与者发生碰撞危险的距离参数,通过式(5)求得:
Figure BDA0003341293250000042
式中,ρ表示防碰撞奖励函数的权重系数,
Figure BDA0003341293250000043
表示大型营运车辆在t时刻与第 i辆车的相对纵向距离;
(3.2)防侧翻奖励函数计算如下:
Figure BDA0003341293250000044
式中,α表示防侧翻奖励函数的权重系数,alat(t)表示大型营运车辆在t时刻的侧向加速度,
Figure BDA0003341293250000045
表示在不发生侧翻的情况下,大型营运车辆的侧向加速度阈值;
(3.3)稳定性奖励函数计算如下:
R3(t)=-β·|alon(t+1)-alon(t)| (7)
式中,β表示稳定性奖励函数的权重系数,alon(t)、alon(t+1)分别表示大型营运车辆在t时刻、t+1时刻的纵向加速度;
所述ρ、α、β权重系数由试验确定;
(3.4)惩罚函数计算如下:
Figure BDA0003341293250000046
优选地,在执行所述子步骤3.4过程中,若发现大型营运车辆发生碰撞或侧翻,则终止当前运动场景下的训练,更换新的场景进行训练。
(三)本发明的有益效果:
本发明提出的车道变换决策方法具有更为准确、有效的特点,具体体现在:
(1)本发明提出的方法能够适应不同的交通环境和行驶工况,输出的决策策略能够根据交通环境和行驶工况变化进行自适应调整,实现了准确、有效的大型营运车辆车道变换驾驶决策;
(2)本发明提出的方法综合考虑了横向和纵向驾驶行为对行车安全的影响,能够为驾驶员提供是否变道、何时变道等安全驾驶策略,具有明确的决策意图;
(3)本发明提出的方法考虑了失稳侧翻、动态安全间隙等因素,具备同时保障车辆防侧翻和防碰撞的能力,有效保障了大型营运车辆变道过程中的行车安全;
(4)本发明提出的方法无需进行复杂的动力学建模,计算方法简单清晰。
附图说明
图1是本发明的技术路线示意图;
图2是本发明描述的大型营运车辆车道变换运动场景示意图;
图3是本发明建立的车道变换决策模型的网络架构示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明。
本发明针对大型营运车辆,如大型、特大型客车、半挂罐车,提出了一种基于深度强化学习的车道变换决策方法。为了防止车辆在车道变换中发生碰撞和侧翻事故,首先,定义车道变换决策方法适用的大型营运车辆运动场景。其次,将车道变换决策问题描述为马尔科夫决策过程,利用软演员评论家算法建立大型营运车辆的车道变换决策模型,得到不同交通环境和行驶工况下的变道决策策略,实现准确、有效的大型营运车辆车道变换驾驶决策。本发明的技术路线如图1所示,具体步骤如下:
步骤一:定义车道变换决策方法适用的营运车辆运动场景
在大型营运车辆执行车道变换的过程中,为了减少因车辆碰撞、侧翻造成的交通事故,提高大型营运车辆的运行安全性,本发明提出了一种车道变换驾驶决策方法,其适用的场景如图2所示,具体描述为:
在多车道的高等级公路上,大型营运车辆(即自车C0)的前方、后方、两侧,均存在交通参与者,包括:当前车道的前方车辆C1、当前车道的后方车辆C2、左侧车道的前方车辆C3、左侧车道的后方车辆C4、右侧车道的前方车辆C5和右侧车道的后方车辆C6。这些位置的车辆,是车辆变道时最易受影响的车辆,当自车执行变道操作时,为了避免自车发生侧翻和碰撞事故,应重点考虑这些位置的车辆。
因此,本发明所适用的大型营运车辆车道变换运动场景是:在车道变换时刻,在目标车道存在着交通参与者。所谓交通参与者是指对车道变换决策产生影响的车辆或人或物。在本发明中,多车道是指车道的数量大于等于3。
步骤二:建立营运车辆车道变换决策模型
针对缺少准确、有效的大型营运车辆车道变换决策方法的问题,本发明综合考虑交通环境、行驶工况对行车安全的影响,建立准确、有效的车道变换决策模型。
周围交通参与者状态和驾驶员行为的复杂性和不确定性是影响驾驶决策的重要因素,考虑到深度强化学习对不确定性的适应性特点,以及对车辆运动状态等高维特征的充分挖掘和表征能力,本发明采用深度强化学习算法建立车道变换决策模型。
根据参数的更新方式,深度强化学习方法可以分为离线策略学习方法和在线策略学习方法两类。在线策略学习方法中,参数的每一次更新,均需要与环境进行交互,并对采集的新的经验样本进行学习。对于状态空间维度和任务复杂度较高的驾驶决策而言,网络的更新步骤和样本量激增,极大的增加了采样复杂度。近端策略优化 (Proximal PolicyOptimization,PPO)算法作为目前最主流的在线策略学习方法,仍存在着严重的采样低效的问题,无法保证变道驾驶决策的训练速度和有效性。
离线策略学习方法中,深度确定性策略梯度(Deep Deterministic PolicyGradient, DDPG)及其扩展算法,在采样有效性方面具有较好的效果,但是存在着对超参数敏感、收敛效果差的问题。
基于演员-评论家(Actor-Critic)架构的软演员评论家(Soft Actor Critic,SAC)算法,利用最大熵计算累计奖励,以离线策略的方式对随机策略进行优化,具有鲁棒性高、策略探索能力强、训练速度快等优点。因此,本发明采用软演员评论家算法构建车道变换决策模型,具体包括以下3个子步骤:
子步骤1:定义车道变换决策模型的参数
考虑到大型营运车辆的未来运动状态同时受当前运动状态和当前动作的影响,本发明将车道变换决策问题描述为马尔科夫决策过程(Markov Decision Process,MDP),并对模型的基础参数进行定义:t时刻的状态空间St、t+1时刻的状态空间St+1、t时刻的动作空间At以及动作空间At对应的奖励函数Rt。具体地:
(1)定义状态空间
在大型营运车辆车道变换执行的过程中,应考虑大型营运车辆自身及其周围交通参与者的运动状态,本发明将状态空间定义为:
Figure BDA0003341293250000071
式中,St表示t时刻状态空间,Plon,Plat分别表示大型营运车辆(自车)的纵向位置和横向位置,单位均为米,vlon,vlat分别表示大型营运车辆的纵向速度和横向速度,单位均为米/秒,alon,alat分别表示大型营运车辆的纵向加速度和侧向加速度,单位均为米 /秒2
Figure BDA0003341293250000072
分别表示大型营运车辆与第i辆车的相对纵向距离和相对横向距离,单位均为米,
Figure BDA0003341293250000073
分别表示大型营运车辆与第i辆车的相对速度和相对加速度,单位分别为米/秒、米/秒2。自车周围的交通参与者,可能为自车的前方车辆,也可能为自车的后方车辆,或侧前方、侧后方车辆,所以,i=1,2,3,4,5,6。
St+1表示t+1时刻状态空间,均按上述方法确定。
(2)定义动作空间
为了综合考虑横向和纵向驾驶行为对车道变换决策的影响,本发明将离散的横向动作和纵向动作作为控制量,即动作空间可表示为:
At=[Alat,Alon] (2)
式中,Alat,Alon分别表示输出的横向动作和纵向动作,且Alat=[A1,A2,A3], Alon=[A4,A5],其中,A1,A2,A3分别表示大型营运车辆选择左侧车道为目标车道、选择当前车道为目标车道、选择右侧车道为目标车道的相应的横向动作,A4,A5分别表示大型营运车辆选择跟随当前车道的前车、选择跟随换道车道的前车的相应的纵向动作。
(3)定义奖励函数
行车安全是车道变换过程中最重要的关注点。在安全方面,大型营运车辆不仅要避免发生车辆碰撞,还应避免自身发生侧翻。本发明将奖励函数设计为:
Rt=R1(t)+R2(t)+R3(t)+R4(t) (3)
式中,Rt为t时刻的奖励函数,R1(t),R2(t),R3(t),R4(t)分别表示t时刻的防碰撞奖励函数、防侧翻奖励函数、稳定性奖励函数和惩罚函数。
首先,为了避免发生车辆碰撞,大型营运车辆应与周围车辆保持一定的安全间隙。传统的防碰撞奖励函数中,常利用固定值作为防碰撞的安全间隙阈值,仅适用于某些特定的工况,但在其他工况下阈值过大或过小,无法随着行驶工况的改变做出响应。因此,本发明设计了考虑行驶工况和动作决策变化的防碰撞奖励函数:
Figure BDA0003341293250000081
式中,F1(t),F2(t),F3(t),F4(t),F5(t),F6(t)分别表示大型营运车辆与前述描述的6个交通参与者发生碰撞危险的距离参数,可通过式(5)求得:
Figure BDA0003341293250000082
式中,ρ表示防碰撞奖励函数的权重系数;
Figure BDA0003341293250000083
表示大型营运车辆在t时刻与第i辆车的相对纵向距离,i=1,2,3,4,5,6。
其次,为了避免大型营运车辆自身发生侧翻,在车道变换过程中,应避免出现较大的侧向加速度,因此设计防侧翻奖励函数为:
Figure BDA0003341293250000084
式中,α表示防侧翻奖励函数的权重系数,alat(t)表示大型营运车辆在t时刻的侧向加速度,
Figure BDA0003341293250000085
表示在不发生侧翻的情况下,大型营运车辆的侧向加速度阈值。
再次,为了保证大型营运车辆的横摆稳定性,应尽可能地避免出现急加速、急减速的情况,设计稳定性奖励函数:
R3(t)=-β·|alon(t+1)-alon(t)| (7)
式中,β表示稳定性奖励函数的权重系数,alon(t)、alon(t+1)分别表示大型营运车辆在t时刻、t+1时刻的纵向加速度。
以上ρ、α、β几个权重系数都是由试验确定。
最后,对训练迭代过程中出现的碰撞、侧翻事故进行惩罚,设计惩罚函数:
Figure BDA0003341293250000091
子步骤2:设计车道变换决策模型的网络架构
利用演员-评论家(Actor-Critic)网络架构搭建如图3所示的车道变换决策网络,包括策略网络和值函数网络两部分。其中,策略网络用于对状态空间St的特征提取,从而输出动作空间At;值函数网络用于接收状态空间St和动作空间At,从而评估当前策略的价值。具体地:
(1)设计策略网络
利用多个全连接层结构的神经网络建立策略网络。
首先,利用最值归一化方法,对描述大型营运车辆自身运动的状态量 [Plon,Plat,vlon,vlat,alon,alat]进行归一化,并依次输入到全连接层H1、全连接层H2和全连接层H3,得到输出O1
其次,利用最值归一化方法,将描述大型营运车辆与周围交通参与者相对运动的状态量
Figure BDA0003341293250000092
进行归一化,并依次输入到全连接层H4、全连接层H5和全连接层H6,得到输出O2
最后,通过张量相加的方式,将神经网络输出的O1和O2在合并层进行合并,并与全连接层H7相连,得到输出O3,即具有特定特征的动作空间At
进一步地,设置全连接层H1、H2、H3、H4、H5、H6、H7的神经元数量分别为6, 100,50,24,100,50,50,各层的激活函数均为线性修正单元(The Rectified Linear Unit, ReLU)。
(2)设计值函数网络
利用多个全连接层结构的神经网络建立值函数网络。
首先,将动作空间、归一化后的大型营运车辆运动状态量、相对运动状态量分别输入到全连接层H8、H9、H10,分别得到输出O4、O5、O6
其次,通过张量相加的方式,将神经网络输出的O4、O5和O6进行合并,并依次与全连接层H11、H12相连,得到输出O7,即软Q值函数Qθ(St,At)。
进一步地,设置全连接层H8、H9、H10、H11、H12的神经元数量分别为2、6、24、 100、50。各层的激活函数均为ReLU。
子步骤3:训练值函数网络和策略网络
软演员评论家算法中的策略网络和值函数网络均存在各自的网络参数,在训练迭代时更新这两部分的网络参数,使得网络收敛以得到更佳的结果。具体训练更新步骤包括:
子步骤3.1:初始化网络参数;
子步骤3.2:初始化目标网络的权重;
子步骤3.3:初始化经验回放池;
子步骤3.4:进行迭代求解,每一次迭代包括子步骤3.41至子步骤3.42;
子步骤3.41:随机选取三个大型营运车辆车道变换运动场景中的一个(如图2所示),作为当前回合的训练环境;
子步骤3.42:对环境中的状态空间、动作空间进行迭代求解,迭代方式可参考文献([1]Haarnoja T,Zhou A,Abbeel P,et al.Soft Actor-Critic:Off-Policy MaximumEntropy Deep Reinforcement Learning with a Stochastic Actor[J].2018.)
子步骤3.5:重复子步骤3.1至子步骤3.4,直到训练过程结束。
在训练过程中,若大型营运车辆发生碰撞或侧翻,则终止当前回合并开始新的回合进行训练。当大型营运车辆利用模型输出的驾驶策略稳定有效地避免车辆碰撞、侧翻时,表示训练完成。
步骤三:利用车道变换决策模型输出驾驶策略
将状态空间的信息输入到已训练好的车道变换决策模型中,在线输出变道决策策略,即特定特征的动作空间,为驾驶员提供是否变道、何时变道、怎么变道等驾驶建议,从而实现准确、有效的大型营运车辆车道变换驾驶决策。

Claims (3)

1.一种基于深度学习的大型营运车辆车道变换决策方法,其特征在于,包括如下步骤:
步骤一:定义车道变换决策方法适用的营运车辆运动场景
至少有3条车道,大型营运车辆执行车道变换时刻,在目标车道存在着交通参与者;
步骤二:建立营运车辆车道变换决策模型
采用软演员评论家算法构建车道变换决策模型,具体包括以下3个子步骤:
子步骤1:定义车道变换决策模型的参数
对车道变换决策模型的基础参数进行定义,包括状态空间、动作空间以及对应的奖励函数:
(1)状态空间
Figure FDA0003341293240000011
式中,St表示t时刻的状态空间,Plon,Plat分别表示大型营运车辆的纵向位置和横向位置,vlon,vlat分别表示大型营运车辆的纵向速度和横向速度,alon,alat分别表示大型营运车辆的纵向加速度和侧向加速度,
Figure FDA0003341293240000012
分别表示大型营运车辆与第i辆车的相对纵向距离和相对横向距离,
Figure FDA0003341293240000013
分别表示大型营运车辆与第i辆车的相对速度和相对加速度,i=1,2,3,4,5,6,表示当前车道和目标车道的交通参与者;
(2)动作空间
At=[Alat,Alon] (2)
式中,At表示t时刻的动作空间,Alat,Alon分别表示输出的横向动作和纵向动作,且Alat=[A1,A2,A3],Alon=[A4,A5],A1,A2,A3分别表示大型营运车辆选择左侧车道为目标车道、选择当前车道为目标车道、选择右侧车道为目标车道的横向动作,A4,A5分别表示大型营运车辆选择跟随当前车道的前车、选择跟随换道车道的前车的纵向动作;
(3)奖励函数
Rt=R1(t)+R2(t)+R3(t)+R4(t) (3)
式中,Rt为t时刻的奖励函数,R1(t),R2(t),R3(t),R4(t)分别表示t时刻的防碰撞奖励函数、防侧翻奖励函数、稳定性奖励函数和惩罚函数;
子步骤2:设计车道变换决策模型的网络架构
利用多个全连接层结构的神经网络建立策略网络和值函数网络:
(1)策略网络
首先,对大型营运车辆的自身运动状态量[Plon,Plat,vlon,vlat,alon,alat]进行归一化,并依次输入到全连接层H1、全连接层H2和全连接层H3,得到输出O1
其次,对大型营运车辆与周围交通参与者的相对运动状态量
Figure FDA0003341293240000021
进行归一化,并依次输入到全连接层H4、全连接层H5和全连接层H6,得到输出O2
最后,通过张量相加的方式,将输出的O1和O2进行合并,并输入到全连接层H7,得到输出O3,即具有特定特征的动作空间At
(2)值函数网络
首先,将得到的动作空间At、归一化后的大型营运车辆的运动状态量、相对运动状态量分别输入到全连接层H8、H9、H10,分别得到输出O4、O5、O6
其次,通过张量相加的方式,将神经网络输出的O4、O5和O6进行合并,并依次输入到全连接层H11、H12,得到输出O7,即软Q值函数Qθ(St,At);
子步骤3:训练值函数网络和策略网络
包括以下步骤:
子步骤3.1:初始化网络参数;
子步骤3.2:初始化目标网络的权重;
子步骤3.3:初始化经验回放池;
子步骤3.4:在某一运动场景下,对状态空间、动作空间进行迭代求解;
子步骤3.5:当大型营运车辆利用车道变换决策模型输出的驾驶策略稳定有效地避免车辆碰撞、侧翻时,表示训练完成;
步骤三:利用车道变换决策模型输出驾驶策略
将行驶中状态空间的信息输入到已训练好的车道变换决策模型中,在线输出变道驾驶策略。
2.根据权利要求1所述的基于深度学习的大型营运车辆车道变换决策方法,其特征在于:
(3.1)防碰撞奖励函数计算如下:
Figure FDA0003341293240000031
式中,F1(t),F2(t),F3(t),F4(t),F5(t),F6(t)分别表示大型营运车辆与正前、正后、左前、左后、右前、右后6个交通参与者发生碰撞危险的距离参数,通过式(5)求得:
Figure FDA0003341293240000035
式中,ρ表示防碰撞奖励函数的权重系数,
Figure FDA0003341293240000036
表示大型营运车辆在t时刻与第i辆车的相对纵向距离;
(3.2)防侧翻奖励函数计算如下:
Figure FDA0003341293240000032
式中,α表示防侧翻奖励函数的权重系数,alat(t)表示大型营运车辆在t时刻的侧向加速度,
Figure FDA0003341293240000033
表示在不发生侧翻的情况下,大型营运车辆的侧向加速度阈值;
(3.3)稳定性奖励函数计算如下:
R3(t)=-β·|alon(t+1)-alon(t)| (7)
式中,β表示稳定性奖励函数的权重系数,alon(t)、alon(t+1)分别表示大型营运车辆在t时刻、t+1时刻的纵向加速度;
所述ρ、α、β权重系数由试验确定;
(3.4)惩罚函数计算如下:
Figure FDA0003341293240000034
3.根据权利要求1所述的基于深度学习的大型营运车辆车道变换决策方法,其特征在于:在执行所述子步骤3.4过程中,若发现大型营运车辆发生碰撞或侧翻,则终止当前运动场景下的训练,更换新的场景进行训练。
CN202111309270.7A 2021-11-06 2021-11-06 一种基于深度学习的大型营运车辆车道变换决策方法 Active CN113954837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111309270.7A CN113954837B (zh) 2021-11-06 2021-11-06 一种基于深度学习的大型营运车辆车道变换决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111309270.7A CN113954837B (zh) 2021-11-06 2021-11-06 一种基于深度学习的大型营运车辆车道变换决策方法

Publications (2)

Publication Number Publication Date
CN113954837A true CN113954837A (zh) 2022-01-21
CN113954837B CN113954837B (zh) 2023-03-14

Family

ID=79469572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111309270.7A Active CN113954837B (zh) 2021-11-06 2021-11-06 一种基于深度学习的大型营运车辆车道变换决策方法

Country Status (1)

Country Link
CN (1) CN113954837B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
CN114104007A (zh) * 2022-01-28 2022-03-01 交通运输部公路科学研究所 一种自动驾驶车辆最小风险控制策略
CN114379540A (zh) * 2022-02-21 2022-04-22 东南大学 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法
CN114407931A (zh) * 2022-02-21 2022-04-29 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN115019531A (zh) * 2022-05-31 2022-09-06 东风汽车有限公司东风日产乘用车公司 车辆控制方法和车辆
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110562258A (zh) * 2019-09-30 2019-12-13 驭势科技(北京)有限公司 一种车辆自动换道决策的方法、车载设备和存储介质
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
WO2021080507A1 (en) * 2019-10-24 2021-04-29 National University Of Singapore Autonomous vehicle control using context aware reward

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110562258A (zh) * 2019-09-30 2019-12-13 驭势科技(北京)有限公司 一种车辆自动换道决策的方法、车载设备和存储介质
WO2021080507A1 (en) * 2019-10-24 2021-04-29 National University Of Singapore Autonomous vehicle control using context aware reward
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄志清等: "基于深度强化学习的端到端无人驾驶决策", 《电子学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
CN114104007A (zh) * 2022-01-28 2022-03-01 交通运输部公路科学研究所 一种自动驾驶车辆最小风险控制策略
CN114379540A (zh) * 2022-02-21 2022-04-22 东南大学 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法
CN114407931A (zh) * 2022-02-21 2022-04-29 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
WO2023155231A1 (zh) * 2022-02-21 2023-08-24 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN114379540B (zh) * 2022-02-21 2024-04-30 东南大学 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法
CN114407931B (zh) * 2022-02-21 2024-05-03 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN115019531A (zh) * 2022-05-31 2022-09-06 东风汽车有限公司东风日产乘用车公司 车辆控制方法和车辆
CN115019531B (zh) * 2022-05-31 2024-03-22 东风汽车有限公司东风日产乘用车公司 车辆控制方法和车辆
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Also Published As

Publication number Publication date
CN113954837B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN113954837B (zh) 一种基于深度学习的大型营运车辆车道变换决策方法
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN110362910B (zh) 基于博弈论的自动驾驶车辆换道冲突协调模型建立方法
CN112622886B (zh) 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112633474B (zh) 一种重型营运车辆的后向防撞驾驶决策方法
You et al. Autonomous planning and control for intelligent vehicles in traffic
CN110861634B (zh) 交互感知决策
Zhang et al. Adaptive decision-making for automated vehicles under roundabout scenarios using optimization embedded reinforcement learning
CN114407931B (zh) 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
Naveed et al. Trajectory planning for autonomous vehicles using hierarchical reinforcement learning
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
Sun et al. DDPG-based decision-making strategy of adaptive cruising for heavy vehicles considering stability
Yu et al. Autonomous overtaking decision making of driverless bus based on deep Q-learning method
CN115079697A (zh) 一种结合深度强化学习和rss策略的商用车队列路径规划方法、控制器、存储装置
Qiao et al. Behavior planning at urban intersections through hierarchical reinforcement learning
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN115056798A (zh) 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
Dubey et al. Autonomous braking and throttle system: A deep reinforcement learning approach for naturalistic driving
Wang et al. An autonomous driving approach based on trajectory learning using deep neural networks
CN116176572A (zh) 一种基于dqn深度强化学习的汽车紧急避撞控制方法
US11794780B2 (en) Reward function for vehicles
Pathare et al. Improved Tactical Decision Making and Control Architecture for Autonomous Truck in SUMO Using Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant