CN114312830A - 一种考虑危险驾驶工况的智能车耦合决策模型及方法 - Google Patents

一种考虑危险驾驶工况的智能车耦合决策模型及方法 Download PDF

Info

Publication number
CN114312830A
CN114312830A CN202111526027.0A CN202111526027A CN114312830A CN 114312830 A CN114312830 A CN 114312830A CN 202111526027 A CN202111526027 A CN 202111526027A CN 114312830 A CN114312830 A CN 114312830A
Authority
CN
China
Prior art keywords
intelligent vehicle
driving
decision
model
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111526027.0A
Other languages
English (en)
Other versions
CN114312830B (zh
Inventor
蔡英凤
张雪翔
滕成龙
王海
刘擎超
孙晓强
陈龙
李祎承
熊晓夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202111526027.0A priority Critical patent/CN114312830B/zh
Publication of CN114312830A publication Critical patent/CN114312830A/zh
Application granted granted Critical
Publication of CN114312830B publication Critical patent/CN114312830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种考虑危险驾驶工况的智能车耦合决策模型及方法,采用了自学习和驾驶规则耦合的决策方法,克服了单一决策方法的局限性、缺乏灵活性和不可靠性等问题,能有效处理各种复杂交通场景的智能车驾驶决策问题。本发明充分考虑了智能车行驶过程中的碰撞风险和换道风险,并在此基础上划分了相对应的决策算法,进一步提高了智能车决策的实时性和其在危险驾驶工况下决策的可靠性。本发明提出的基于特征空间映射的迁移学习算法实现了智能车最优价值动作由仿真场景‑真实场景的知识迁移,解决了真实交通场景的建模误差问题,同时也验证了本发明所提出的智能车耦合决策模型在真实驾驶场景中的有效性,大大提升了智能车的迁移学习能力。

Description

一种考虑危险驾驶工况的智能车耦合决策模型及方法
技术领域
本发明涉及无人驾驶车辆驾驶决策技术领域,尤其涉及一种考虑危险驾驶工况的智能车耦合决策模型及方法。
背景技术
现阶段研究普遍认为未来智能驾驶技术的发展在解决道路安全、交通拥挤、降低驾驶员工作负荷等方面起着至关重要的作用。而现今智能驾驶技术的核心挑战之一是其能否在高度复杂的交通环境下行驶时,基于外部不确定性的多传感器融合感知信息和已有的驾驶先验知识,做出安全高效的行驶决策。因此,决策算法需要进一步考虑驾驶员的个性化需求(包括安全性、舒适性和高效性)、道路环境结构、交通规则约束信息、车辆动力学性能和不同地区的驾驶习惯等影响因素,其算法也应该具备广泛的适用性和鲁棒性,以处理高维交通环境的随机性,特别是感知层和决策层因信息不同步而导致决策失效等问题。
目前已有的决策算法主要分为以下三大类:基于强化学习的驾驶决策算法、基于驾驶规则的驾驶决策算法、基于驾驶规则和自学习算法耦合的驾驶决策算法,其中基于驾驶规则和自学习算法耦合的驾驶决策算法因其决策过程的部分可解释性和对高维随机动态环境的适用性逐渐成为研究热点。但现有的驾驶决策算法出于对真实交通场景中实验样本的采样效率和决策安全性等考虑,对于驾驶数据分析、决策模型训练和决策模型验证等方面大多在构建的仿真环境中进行,无法验证智能车在仿真环境中的最优价值决策是否适用于真实交通驾驶环境,进而实现从仿真器到真实环境的决策知识迁移。而且对于仿真驾驶环境的构建大多是考虑高速公路等单一驾驶环境,较少考虑智能车行驶决策算法在危险驾驶工况下决策的可靠性,特别是智能车在行驶过程中对于考虑碰撞风险和换道风险的决策研究较少。
发明内容
为解决上述技术问题,本发明构建一种考虑危险驾驶工况的智能车耦合决策模型。在智能车仿真驾驶场景模型的搭建上,本发明考虑了智能车和周围交通参与者的位置、速度和朝向角度信息、车道环境结构信息和交通规则信息等,并将其搭建的交通场景建模为马尔可夫决策过程(MDP)。在智能车驾驶工况评估模型的输入信息采集上,通过安装在智能车上的GPS定位装置、速度和加速度传感器、激光雷达和摄像头等多传感器设备采集自车、周围交通参与者、车道环境和驾驶规则约束等信息,并基于智能车行驶时与周围交通参与者的碰撞风险和自身的变道风险对驾驶工况进行划分,将其划分为一般驾驶工况和危险驾驶工况。在智能车行为决策模型算法的选取上,考虑到驾驶规则库的有限性和对于随机场景处理缺乏灵活性等问题,本发明主要是采用基于规则和深度强化学习算法相耦合的决策方式,一方面从驾驶安全性规则、危险避障规则、行人拥有最高优先权规则等角度构建基于驾驶规则的决策方法,来有效处理在一般驾驶工况下的行驶决策,进而提高决策过程的可解释性;另一方面,对于危险驾驶工况,主要是采用具有约束动作空间的深度Q网络(DQN)模型让智能车在交互场景中去自主学习最优驾驶动作策略。而在仿真-真实环境的智能车最优价值动作的知识迁移过程中,主要考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下,智能车在动作相同、奖励函数相同和相似驾驶场景下决策时,其最优驾驶决策状态映射空间的特征概率分布应该是相同的,所以通过对不同领域对应特征空间对应关系的内隐学习,就可求解出在真实交通场景中智能车的最优价值动作状态。
本发明所述的一种考虑危险驾驶工况的智能车耦合决策方法采用的技术方案,依次包括如下步骤:
步骤1)搭建智能车仿真驾驶场景,并将该场景建模为马尔可夫决策过程;
步骤2)通过安装在智能车上的GPS、激光雷达、速度传感器、摄像头等多传感器来采集自车和驾驶场景信息,并将其作为驾驶工况评估模型的输入;
步骤3)基于步骤2)中多传感器采集到的相关信息,构建智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η,并依据此对智能车的驾驶工况进行划分,如下式(1)所示:
Figure BDA0003410521370000021
式中,Dc表示智能车驾驶工况的集合;Dd表示危险驾驶工况;Dg则表示一般驾驶工况。
步骤4)在智能车决策模型的训练上,首先设置DQN模型的超参数,包括模型的学习率β,模型的训练轮次N和折扣率γ,以及车辆和行人的初始速度范围;
步骤5)随机初始化Q网络的权重参数ω,TD(时间差分算法)目标
Figure BDA0003410521370000022
的权重参数ω-=ω,以及模型训练样本的存储空间V;
步骤6)在模型训练N轮次的过程中,在每一时间步长t=0,1,2…上,智能车通过多传感器观测交通场景的状态空间s(t),并构建当前状态相应的奖励函数r(t);
步骤7)根据步骤3)对智能车行驶的驾驶工况进行评估,当驾驶工况为一般驾驶工况时,则是采用基于驾驶规则的决策算法来实现智能车的横纵向决策,并生成相应的期望动作空间
Figure BDA0003410521370000031
和智能车的决策动作a(t);
步骤8)将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中;
步骤9)从存储空间V中每次迭代随机采样64组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值,并选择最优价值的动作作为智能车在当前场景状态的决策行为,并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD(时间差分算法)的目标函数
Figure BDA0003410521370000032
的权重参数ω-=ω;
步骤10)如果根据步骤3)中对驾驶工况评估的结果为危险驾驶工况时,则随机选择一个智能车的决策动作a(t),并采用DQN决策算法重复步骤8)和步骤9);
步骤11)根据上述求解出的在t时刻仿真场景中智能车的最优价值动作状态
Figure BDA0003410521370000033
并结合基于特征空间映射的迁移学习算法,最终获取智能车在真实驾驶场景中的最优价值动作状态
Figure BDA0003410521370000034
进一步的,步骤1)所述的将仿真交通场景建模为马尔可夫决策过程,就是构建场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))。其中,交通场景的状态空间s(t)则是由智能车的状态信息sAV(t)、周围交通参与者的状态信息sOA(t)、车道结构和交通规则sTR(t)等信息组成;而智能车的驾驶决策则是通过控制智能车的纵向加速度aL(t)和前轮转角aT(t)来实现,并相应构成了智能车的决策动作集合a(t);另外,奖励函数r(t)的构建则是考虑了导航目标点的约束r1(t)、行驶安全性指标r2(t)、可行驶区域约束r3(t)和车道约束r4(t)等信息;最后,随机状态转移函数则是由智能车的状态转移概率分布p(sAV(t+1)|sAV(t),a(t))和周围交通参与者的状态转移概率分布p(sOA(t+1)|s(t))的乘积所得。
进一步的,步骤2)所述的驾驶工况评估模型的输入信息包括t时刻智能车的速度vAV(t)、前方交通参与者的速度vFV(t)、邻近车道车辆的速度vOV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离Dh(t)、智能车变道时的纵向速度
Figure BDA0003410521370000035
和横向速度
Figure BDA0003410521370000036
智能变道时与车道边界线的横向距离dAL、车道宽度wk等信息。
进一步的,步骤3)所述的碰撞风险模型δ主要是利用车头时距(TH)和碰撞时间(TTC)等指标来比较智能车与前方交通参与者的实际距离Dh(t)和安全距离Ds(t)的比值大小,其中安全距离主要是由智能车制动距离vAV(t)ρ、最终跟车距离
Figure BDA0003410521370000041
和前方交通参与者的纵向位移
Figure BDA0003410521370000042
计算所得。
变道风险模型η主要是通过比较智能车变道后的两车间距离DLF和后车自适应刹车距离Db的大小,后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D1、后车制动响应阶段的行车距离D2、后车制动力增加阶段的行车距离D3和后车持续制动阶段的行车距离D4
进一步的,步骤4)所述的DQN模型的初始学习率β设置为0.002,该模型结构是由一个五层的全连接网络构成,并且网络的每个隐藏层含有100个神经元节点,同时模型的初始训练轮次N和折扣率γ分别设置为10000和0.9。而仿真场景中车辆和行人的初始速度的范围分别是[15,65]km/h、[0,5]km/h。
进一步的,步骤7)所述的基于驾驶规则的决策算法主要是从驾驶的安全性规则、驾驶的避障规则和礼让行人等规则角度出发,结合IF-THEN信息触发事件的方式,通过智能车所在的特殊位置信息P*(t)(例如交叉路口附近)、导航目标点位置信息
Figure BDA0003410521370000043
和当前智能车的状态信息
Figure BDA0003410521370000044
来生成期望动作空间
Figure BDA0003410521370000045
和智能车的决策动作a(t),从而降低智能车决策对于感知任务的维度需求,提高决策的实时性和可靠性。
进一步的,步骤9)所述的模型训练,主要是通过时间差分算法(TD)来训练DQN模型,大致流程如下:首先,基于样本数据(s(t),a(t),r(t),s(t+1))和最优贝尔曼方程求解得到最优价值动作函数Q*(s(t),a(t)),并将其替换为神经网络Q(s(t),a(t)|ω);然后,将TD算法的目标函数
Figure BDA0003410521370000046
与Q(s(t),a(t)|ω)作差值来计算TD算法的误差,并以此构建DQN模型的训练损失函数L(ω)。
进一步的,步骤11)所述的采用基于特征空间映射的迁移学习算法主要是考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下,智能车在动作相同、奖励函数相同和相似驾驶场景下决策时,其最优驾驶决策状态映射空间的特征概率分布应该是相同的,即
Figure BDA0003410521370000047
其中f和g则表示特征空间映射的神经网络函数。
本发明的有益效果为:
1、本发明提出的一种考虑危险驾驶工况的智能车耦合决策模型,其采用了自学习和驾驶规则耦合的决策方法,克服了单一决策方法的局限性、缺乏灵活性和不可靠性等问题,能有效处理各种复杂交通场景的智能车驾驶决策问题。
2、本发明提出的智能车耦合决策模型充分考虑了智能车行驶过程中的碰撞风险和换道风险,并在此基础上划分了相对应的决策算法,进一步提高了智能车决策的实时性和其在危险驾驶工况下决策的可靠性。
3、本发明提出了基于特征空间映射的迁移学习算法实现了智能车最优价值动作由仿真场景-真实场景的知识迁移,解决了真实交通场景的建模误差问题,同时也验证了本发明所提出的智能车耦合决策模型在真实驾驶场景中的有效性,大大提升了智能车的迁移学习能力。
附图说明
图1为本发明的研究技术路线图
图2为本发明的智能车仿真驾驶场景图
图3为本发明的智能车碰撞风险示意图
图4为本发明的智能车换道风险示意图
图5为本发明的汽车自适应制动安全距离示意图
图6为本发明的基于特征空间映射的迁移学习算法流程图
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明提出了一种考虑危险驾驶工况的智能车耦合决策模型及方法。本发明的技术方案依次包括如下步骤,
步骤1):首先构建智能车仿真驾驶场景模型,如图2所示,并将该仿真驾驶场景建模为马尔可夫决策过程,其是由交通场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))等组成。
1)交通场景的状态空间s(t)
对于交通场景的状态空间s(t),其主要是由智能车的状态信息sAV(t)、周围交通参与者的状态信息sOA(t)、车道结构和交通规则sTR(t)等信息组成。其中智能车的状态信息sAV(t)则是由智能车的位置pAV(t)、速度vAV(t)和朝向信息θAV(t)的集合表示,如下式(2)所示:
sAV(t)={pAV(t),vAV(t),θAV(t)} (2)
式中,pAV(t)则表示为智能车在t时刻的位置坐标(xAV,yAV)。
周围交通参与者的状态信息sOA(t)则包括其位置
Figure BDA0003410521370000061
速度
Figure BDA0003410521370000062
朝向
Figure BDA0003410521370000063
和类别信息
Figure BDA0003410521370000064
如下式(3)所示:
Figure BDA0003410521370000065
式中,
Figure BDA0003410521370000066
则表示周围交通参与者在t时刻的位置坐标(xOV,yOV);i则表示场景中的第i个交通参与者;j则表示周围交通参与者的类别信息,其中j=1表示车辆,而j=0则表示行人。
车道结构和交通规则信息sTR(t)则可表示为下式(4):
Figure BDA0003410521370000067
式中,k表示为当前车道编号,第k条车道;Ck表示为车道中心线点的位置向量;Wk表示为所在车道的宽度;
Figure BDA0003410521370000068
则表示为车道中心线点的切线方向角度;Vmin,k表示为所在车道的最小限速;Vmax,k则表示为所在车道的最大限速;
Figure BDA0003410521370000069
表示为交通信号灯,其是通过一个(0,1)的信号来判断车辆是否需要在末端停车;
Figure BDA00034105213700000610
则表示智能车的导航目标点位置;τs则表示交通场景的可行驶边界,其边界是按顺序连接的点列构成,点与点之间用直线连接。
综上所述,交通场景的状态空间s(t)可表示为:
s(t)={sAV(t),sOA(t),sTR(t)} (5)
2)智能车的决策动作a(t)
对于智能车的未来驾驶决策动作集合,其主要包括了智能车的纵向加速度aL(t)和前轮转角aT(t),如下式(6)所示:
a(t)={aL(t),aT(t)} (6)
式中,出于驾驶的舒适度考虑,纵向加速度aL(t)的取值范围为[-3,2]m/s2;前轮转角aT(t)的取值范围则为[-40°,40°]。
3)奖励函数r(t)
在强化学习过程中,需要设计一个奖励函数来奖励或惩罚智能车在驾驶过程中的操作,本发明的奖励函数设计主要考虑了导航目标点的约束r1(t)、行驶安全性指标r2(t)、可行驶区域约束r3(t)和车道约束r4(t)等信息。
A)导航目标点的约束r1(t)
智能车在行驶过程中的运动决策一定程度上受到导航目标点
Figure BDA0003410521370000071
的坐标约束,车辆需要在可行驶区域内规划一条合理的路径到达该点,其奖励函数r1(t)可表示为:
Figure BDA0003410521370000072
B)行驶安全性指标r2(t)
避免碰撞是智能车行驶决策的前提,如果在模型训练过程中智能车发生碰撞事故,那么本轮次的模型训练将会结束。其中行驶安全性指标r2(t)可表示为:
r2(t)=-vAV(t)2·φ{Collsion} (8)
式中,当智能车发生碰撞事故时,φ{Collsion}的值为1,除此之外值为0;从公式(8)中可知,智能车车速越快,事故则越严重。
C)可行驶区域约束r3(t)
同样的,智能车的行驶范围也应该是在可行驶区域的状态集合内,一旦智能车超过该集合范围,就会受到相应的惩罚。特别是考虑到当前方出现行人时,智能车则需要做出避让行为,那么其就无需考虑车道的约束,只需考虑可行驶区域的约束。所以智能车可行驶区域约束r3(t)的表示如下:
Figure BDA0003410521370000073
D)车道约束r4(t)
依据驾驶规则,智能车的驾驶方向大部分情况下应该与车道的方向保持一致,否则智能车将会受到惩罚,其车道约束r4(t)的表示如下:
r4(t)=cosα(t)-sinα(t) (10)
式中,α表示智能车驾驶方向与车道方向的夹角,如图2所示。
综上所述,智能车的最终奖励函数则是通过r1(t)、r2(t)、r3(t)、r4(t)的加权求和所得,如下式(11):
Figure BDA0003410521370000074
式中,ωL表示权重参数。
4)随机状态转移函数p(s(t+1)|s(t),a(t))
考虑到交通参与者之间的交互作用,在给定当前状态s(t)和选定智能车的动作a(t)的前提下,对于场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t)),其主要是由智能车的状态转移概率分布p(sAV(t+1)|sAV(t),a(t))和周围交通参与者的状态转移概率分布p(sOA(t+1)|s(t))的乘积所求得,如下式(12)所示:
p(s(t+1)|s(t),a(t))=p(sAV(t+1)|sAV(t),a(t))×p(sOA(t+1)|s(t)) (12)
步骤2):基于上述构建的驾驶仿真场景,通过安装在智能车上的GPS、激光雷达、速度传感器、摄像头等多传感器来采集自车和其周围驾驶场景信息,主要包括t时刻智能车的速度vAV(t)、前方交通参与者的速度vFV(t)、邻近车道车辆的速度vOV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离Dh(t)、智能车变道时的纵向速度
Figure BDA0003410521370000081
和横向速度
Figure BDA0003410521370000082
智能变道时与车道边界线的横向距离dAL、车道宽度wk等信息,并将其作为驾驶工况评估模型的输入。
步骤3):基于上述步骤2)中多传感器采集到的相关信息,构建智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η。
1)碰撞风险模型δ
如图3所示,碰撞风险模型δ主要是利用车头时距(TH)和碰撞时间(TTC)等指标来比较智能车与前方交通参与者的实际距离Dh(t)和安全距离Ds(t)的比值大小,其中安全距离Ds(t)主要是由智能车制动距离vAV(t)ρ、最终跟车距离
Figure BDA0003410521370000083
和前方交通参与者的纵向位移
Figure BDA0003410521370000084
计算所得,如下式(12):
Figure BDA0003410521370000085
式中,vAV(t)和vFV(t)分别表示智能车和前方交通参与者在t时刻的速度;v′AV(t)和v′FV(t)则分别表示智能车和前方交通参与者在t时刻的减速度,对于乘用车来说两者取值相同;ρ则表示智能车反应时间,其包括系统反应时间ρ1和制动响应时间ρ2
则智能车与周围交通参与者的碰撞风险模型δ可表示为:
Figure BDA0003410521370000086
式中,当δ≥1则表示智能车存在碰撞风险,反之则表示其不存在碰撞风险。
最后,利用车头时距(TH)和碰撞时间(TTC)等指标,其定义如下式(14),并结合上式(12)和(13),则最终智能车碰撞风险模型δ如下式(15)所示。
Figure BDA0003410521370000091
Figure BDA0003410521370000092
2)变道风险模型η
如图4和图5所示,而变道风险模型η主要是通过比较智能车变道后的两车间距离DLF和后车自适应刹车距离Db的大小,其中后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D1、后车制动响应阶段的行车距离D2、后车制动力增加阶段的行车距离D3和后车持续制动阶段的行车距离D4求得。
A)智能车变道后的两车间距离DLF计算
在智能车变道之前,智能车与后车的纵向距离DLB可表示为:
DLB=yAV-yOV (16)
根据智能车的横向速度
Figure BDA0003410521370000093
和横向加速度
Figure BDA0003410521370000094
求解智能车到目标车道中心线的时间tLC
Figure BDA0003410521370000095
式中,wk表示车道宽度,dAL则表示智能车距离车道边界的横向距离。
则在tLC时间段内,后车的纵向位移可表示为:
Figure BDA0003410521370000096
同理,智能车在tLC时间段内的纵向位移则可表示为:
Figure BDA0003410521370000097
最终,在智能车变道完成之后,其与后车之间的距离DLF则可表示为:
Figure BDA0003410521370000098
B)后车自适应刹车距离Db计算
对于后车自适应刹车距离Db的计算,主要考虑了后车速度、后车制动性能、驾驶员和系统的响应时间,具体描述如下:
Step1:假设驾驶员反应时间t1(1s),则后车驾驶员反应阶段的行车距离D1则为:
D1=vOV(t)×t1 (21)
Step2:在后车制动的响应阶段,假设响应时间为t2(0.2s),则后车制动响应阶段的行车距离D2则为:
D2=vOV(t)×t2 (22)
Step3:在后车制动力增加阶段t3内,后车减速度的改变近乎是线性变化,假设后车以舒适的减速度(asoft)大小进行减速,则此阶段后车制动力增加过程中的行车距离D3可表示为:
Figure BDA0003410521370000101
Step4:在后车持续制动阶段,后车以asoft大小的减速度减速以致后车的速度降为零,这一阶段后车的行车距离D4可表示为:
Figure BDA0003410521370000102
Step5:最后通过累加后车驾驶员反应阶段的行车距离D1、后车制动响应阶段的行车距离D2、后车制动力增加阶段的行车距离D3和后车持续制动阶段的行车距离D4求解出后车自适应刹车距离Db,如下式所示:
Figure BDA0003410521370000103
综上所述,智能车的变道风险模型η则可表示为:
η=DLF-Db (26)
式中,当η≤0时则表示智能车存在换道风险,反之则不存在换道风险。
与此同时,基于上述构建的智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η,对智能车的驾驶工况进行评估,评估依据如下:
Figure BDA0003410521370000104
式中,Dc表示智能车驾驶工况的集合;Dd表示危险驾驶工况;Dg则表示一般驾驶工况。
步骤4)在智能车决策模型的训练上,首先设置DQN模型的超参数,包括模型的学习率β,模型的训练轮次N和折扣率γ,以及车辆和行人的初始速度范围。其中DQN模型的初始学习率β设置为0.002,该模型结构是由一个五层的全连接网络构成,并且网络的每个隐藏层含有100个神经元节点,同时模型的初始训练轮次N和折扣率γ分别设置为10000和0.9。而仿真场景中车辆和行人的初始速度的范围分别是[15,65]km/h、[0,5]km/h。
步骤5)然后随机初始化Q网络的权重参数ω,TD(时间差分算法)目标
Figure BDA0003410521370000111
的权重参数ω-=ω,以及模型训练样本的存储空间V。
步骤6)在模型训练N轮次的过程中,在每一时间步长t=0,1,2…上,智能车通过多传感器观测交通场景的状态空间s(t),并构建当前状态相应的奖励函数r(t)。
步骤7)根据上述步骤3)对智能车行驶的驾驶工况进行评估,当驾驶工况为一般驾驶工况时,则是采用基于驾驶规则的决策算法来实现智能车的横纵向决策,并生成相应的期望动作空间
Figure BDA0003410521370000112
和智能车的决策动作a(t)。
基于驾驶规则的决策算法主要是从驾驶的安全性规则、驾驶的避障规则和礼让行人等规则角度出发,通过在仿真场景中为智能车设置较大的行车安全距离、在遇到静态障碍物时执行制动或转向等操作、避让行人和在十字路口直行或转弯时遵循正常驾驶规则等设定来实现。为了降低对复杂环境感知的维度需求,本发明的基于驾驶规则的决策算法主要是结合IF-THEN信息触发事件的方式,通过判断智能车所在的特殊位置信息P*(t)(例如交叉路口附近)、导航目标点位置信息
Figure BDA0003410521370000113
和当前智能车的状态信息
Figure BDA0003410521370000114
来生成期望动作空间
Figure BDA0003410521370000115
和智能车的决策动作a(t),其中期望动作空间
Figure BDA0003410521370000116
的表示如下:
Figure BDA0003410521370000117
式中,
Figure BDA0003410521370000118
表示预期动作空间
Figure BDA0003410521370000119
的智能车纵向动作集合;
Figure BDA00034105213700001110
表示预期动作空间
Figure BDA00034105213700001111
的智能车横向动作集合。
步骤8)将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中;
步骤9)从存储空间V中每次迭代随机采样64组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值,并选择最优价值的动作作为智能车在当前场景状态的决策行为,并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD(时间差分算法)的目标函数
Figure BDA0003410521370000121
的权重参数ω-=ω;
对于DQN模型的训练,主要是通过时间差分算法(TD)来训练DQN模型,大致流程如下:
A)首先,基于上述步骤8)存储空间V中的训练样本数据(s(t),a(t),r(t),s(t+1))和最优贝尔曼方程求解得到最优价值动作函数Q*(s(t),a(t)),如下式(29):
Figure BDA0003410521370000122
式中,
Figure BDA0003410521370000123
表示智能车在t+1时刻累计奖励的期望;而A则表示智能车的动作空间集合。
B)其次,考虑到在实际问题中,通过迭代求解最优策略是不可行的,特别是在状态空间比较大的情况下,方法的计算量较大。所以这里将最优价值动作函数Q*(s(t),a(t))替换为神经网络Q(s(t),a(t)|ω)的形式:
Figure BDA0003410521370000124
式中,Q(s(t),a(t)|ω)则表示神经网络在t时刻对智能车所有决策动作累计回报最大值的预测,其没有考虑任何事实成分;而
Figure BDA0003410521370000125
(也可表示为TD算法的目标函数
Figure BDA0003410521370000126
)则表示神经网络在t+1时刻对智能车所有决策动作累计回报最大值的预测,其部分是基于真实观测到的奖励r(t)。
C)然后,考虑到
Figure BDA0003410521370000127
和Q(s(t),a(t)|ω)都是对最优动作价值Q*(s(t),a(t))的估计,但是
Figure BDA0003410521370000128
是部分基于事实的,应该尽可能的让Q(s(t),a(t)|ω)接近于
Figure BDA0003410521370000129
所以,通过利用TD算法的目标函数
Figure BDA00034105213700001210
与Q(s(t),a(t)|ω)作差值来计算TD算法的误差,并以此构建DQN模型的训练损失函数L(ω):
Figure BDA00034105213700001211
D)最后,采用TD算法对DQN模型训练迭代过程中的权重参数ω进行更新,如下所示:
Figure BDA0003410521370000131
式中,β表示模型的学习率;
Figure BDA0003410521370000132
则表示TD算法的误差;
Figure BDA0003410521370000133
则表示神经网络Q(s(t),a(t)|ω)对权重参数ω求导。
步骤10)如果根据步骤3)中对驾驶工况评估的结果为危险驾驶工况时,则随机选择一个智能车的决策动作a(t),并采用DQN决策算法重复步骤8)和步骤9);
步骤11)根据上述求解出的在t时刻仿真场景中智能车的最优价值动作状态
Figure BDA0003410521370000134
并结合基于特征空间映射的迁移学习算法,最终获取智能车在真实驾驶场景中的最优价值动作状态
Figure BDA0003410521370000135
如图6所示,基于特征空间映射的迁移学习算法,其主要是考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下,智能车在动作相同、奖励函数相同和相似驾驶场景下决策时,其最优驾驶决策状态映射空间的特征概率分布应该是相同的,即
Figure BDA0003410521370000136
其中f和g表示特征空间映射的神经网络函数,在这里采用相似性度量指标(2-范数)对其进行优化,具体公式如下:
Figure BDA0003410521370000137
式中,
Figure BDA0003410521370000138
表示智能车在仿真环境中最优价值动作状态集合;
Figure BDA0003410521370000139
表示智能车在真实驾驶环境中最优价值动作状态集合;
Figure BDA00034105213700001310
表示在源域内(仿真驾驶环境中)的特征空间映射的神经网络函数;
Figure BDA00034105213700001311
表示在目标域内(真实驾驶环境中)的特征空间映射的神经网络函数;而ωf和ωg则分别表示神经网络函数f和g的权重参数。
客观来讲,映射函数f和g应该是可逆的,为了尽可能使映射函数f和g最大化保留各自域的不变信息,在这里主要是通过训练解码器网络来从映射特征空间中分别重构最优价值动作状态集合
Figure BDA00034105213700001312
Figure BDA00034105213700001313
则解码器网络训练的优化目标如下:
Figure BDA00034105213700001314
Figure BDA00034105213700001315
式中,
Figure BDA00034105213700001316
表示源域内解码器的重构目标;
Figure BDA00034105213700001317
表示目标域内解码器的重构目标;其中ωS和ωT则分别表示两个解码器的权重参数。
综上所述,基于特征空间映射的迁移学习算法模型的优化目标如下式(35)所示,同时依据步骤11)所述,在获取t时刻仿真场景中智能车的最优价值动作状态
Figure BDA0003410521370000141
的前提下,并结合特征空间映射的神经网络函数f和g,即可求解出智能车在t时刻真实驾驶场景中的最优价值动作状态
Figure BDA0003410521370000142
如下式(36)所示:
Figure BDA0003410521370000143
Figure BDA0003410521370000144
式中,ψ表示智能车最优价值决策迁移的奖励权重。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种考虑危险驾驶工况的智能车耦合决策模型,其特征在于,包括:交通场景模型、驾驶工况评估模型、行为决策模型;
所述交通场景模型根据智能车和周围交通参与者的位置、速度和朝向角度信息、车道环境结构信息和交通规则信息,采用马尔可夫模型;
所述驾驶工况评估模型基于智能车行驶时与周围交通参与者的碰撞风险和自身的变道风险对驾驶工况进行划分,划分为一般驾驶工况和危险驾驶工况;
所述行为决策模型采用基于规则和深度强化学习算法相耦合的决策,一方面从驾驶安全性规则、危险避障规则、行人拥有最高优先权规则角度构建基于驾驶规则的决策算法,来处理在一般驾驶工况下的行驶决策;另一方面,对于危险驾驶工况,采用具有约束动作空间的深度Q网络(DQN)模型让智能车在交互场景中去自主学习最优驾驶动作策略。
2.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型,其特征在于,所述交通场景模型具体如下:
包括场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t)),其中,交通场景的状态空间s(t)则是由智能车的状态信息sAV(t)、周围交通参与者的状态信息sOA(t)、车道结构和交通规则sTR(t)信息组成;智能车的决策动作a(t)是针对行为决策模型通过控制智能车的纵向加速度aL(t)和前轮转角aT(t)相应构成了智能车的决策动作集合;奖励函数r(t)的设计融合了导航目标点的约束r1(t)、行驶安全性指标r2(t)、可行驶区域约束r3(t)和车道约束r4(t)信息;随机状态转移函数p(s(t+1)|s(t),a(t))则是由智能车的状态转移概率分布p(sAV(t+1)|sAV(t),a(t))和周围交通参与者的状态转移概率分布p(sOA(t+1)|s(t))的乘积所得。
3.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型,其特征在于,所述驾驶工况评估模型的输入信息包括t时刻智能车的速度vAV(t)、前方交通参与者的速度vFV(t)、邻近车道车辆的速度vOV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离Dh(t)、智能车变道时的纵向速度
Figure FDA0003410521360000011
和横向速度
Figure FDA0003410521360000012
智能变道时与车道边界线的横向距离dAL、车道宽度wk信息。
4.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型,其特征在于,包括碰撞风险模型δ和变道风险模型η;
碰撞风险模型δ利用车头时距(TH)和碰撞时间(TTC)指标来比较智能车与前方交通参与者的实际距离Dh(t)和安全距离Ds(t)的比值大小,其中安全距离主要是由智能车制动距离所述驾驶工况评估模型vAV(t)ρ、最终跟车距离
Figure FDA0003410521360000021
和前方交通参与者的纵向位移
Figure FDA0003410521360000022
计算所得;
变道风险模型η通过比较智能车变道后的两车间距离DLF和后车自适应刹车距离Db的大小判断变道风险,其中后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D1、后车制动响应阶段的行车距离D2、后车制动力增加阶段的行车距离D3和后车持续制动阶段的行车距离D4
5.根据权利要求4所述的一种考虑危险驾驶工况的智能车耦合决策模型,其特征在于,所述驾驶工况评估模型依据碰撞风险模型δ和变道风险模型η对智能车的驾驶工况进行划分,如下式(1)所示:
Figure FDA0003410521360000023
式中,Dc表示智能车驾驶工况的集合;Dd表示危险驾驶工况;Dg则表示一般驾驶工况。
6.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型,其特征在于,所述行为决策模型:
针对驾驶工况为一般驾驶工况时,采用基于驾驶规则的决策算法来实现智能车的横纵向决策,并生成相应的期望动作空间
Figure FDA0003410521360000024
和智能车的决策动作a(t);将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中;从存储空间V中每次迭代随机采样若干组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值,并选择最优价值的动作作为智能车在当前场景状态的决策行为,并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD的目标函数
Figure FDA0003410521360000031
的权重参数ω-=ω;
针对驾驶工况为危险驾驶工况时,则随机选择一个智能车的决策动作a(t),将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中;从存储空间V中每次迭代随机采样64组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值,并选择最优价值的动作作为智能车在当前场景状态的决策行为,并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD(时间差分算法)的目标函数
Figure FDA0003410521360000032
的权重参数ω-=ω;
求解出在t时刻仿真场景中智能车的最优价值动作状态
Figure FDA0003410521360000033
并结合基于特征空间映射的迁移学习算法,最终获取智能车在真实驾驶场景中的最优价值动作状态
Figure FDA0003410521360000034
所述特征空间映射的迁移学习算法,考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下,智能车在动作相同、奖励函数相同和相似驾驶场景下决策时,其最优驾驶决策状态映射空间的特征概率分布是相同的,即
Figure FDA0003410521360000035
其中f和g表示特征空间映射的神经网络函数,采用相似性度量指标对其进行优化,具体公式如下:
Figure FDA0003410521360000036
式中,
Figure FDA0003410521360000037
表示智能车在仿真环境中最优价值动作状态集合;
Figure FDA0003410521360000038
表示智能车在真实驾驶环境中最优价值动作状态集合;
Figure FDA0003410521360000039
表示在源域内(仿真驾驶环境中)的特征空间映射的神经网络函数;
Figure FDA00034105213600000310
表示在目标域内(真实驾驶环境中)的特征空间映射的神经网络函数;而ωf和ωg则分别表示神经网络函数f和g的权重参数。
7.一种考虑危险驾驶工况的智能车耦合决策方法,其特征在于,包括如下步骤:
步骤1)搭建智能车仿真驾驶场景,并将该场景建模为马尔可夫决策过程;
步骤2)通过安装在智能车上的GPS、激光雷达、速度传感器、摄像头多传感器来采集自车和驾驶场景信息,并将其作为驾驶工况评估模型的输入;
步骤3)基于步骤2)中多传感器采集到的相关信息,构建驾驶工况评估模型,包括智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η,并依据此对智能车的驾驶工况进行划分,如下式(1)所示:
Figure FDA0003410521360000041
式中,Dc表示智能车驾驶工况的集合;Dd表示危险驾驶工况;Dg则表示一般驾驶工况。
步骤4)训练智能车决策模型,首先设置DQN模型的超参数,包括模型的学习率β,模型的训练轮次N和折扣率γ,以及车辆和行人的初始速度范围;
步骤5)随机初始化Q网络的权重参数ω,TD(时间差分算法)目标
Figure FDA0003410521360000042
的权重参数ω-=ω,以及模型训练样本的存储空间V;
步骤6)在模型训练N轮次的过程中,在每一时间步长t=0,1,2…上,智能车通过多传感器观测交通场景的状态空间s(t),并构建当前状态相应的奖励函数r(t);
步骤7)根据步骤3)对智能车行驶的驾驶工况进行评估,当驾驶工况为一般驾驶工况时,则是采用基于驾驶规则的决策算法来实现智能车的横纵向决策,并生成相应的期望动作空间
Figure FDA0003410521360000043
和智能车的决策动作a(t);
所述基于驾驶规则的决策算法是从驾驶的安全性规则、驾驶的避障规则和礼让行人规则角度出发,结合IF-THEN信息触发事件的方式,通过智能车所在的特殊位置信息P*(t)、导航目标点位置信息
Figure FDA0003410521360000044
和当前智能车的状态信息
Figure FDA0003410521360000045
来生成期望动作空间
Figure FDA0003410521360000046
和智能车的决策动作a(t);
步骤8)将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中;
步骤9)从存储空间V中每次迭代随机采样64组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值,并选择最优价值的动作作为智能车在当前场景状态的决策行为,并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD(时间差分算法)的目标函数
Figure FDA0003410521360000047
的权重参数ω-=ω;
步骤10)如果根据步骤3)中对驾驶工况评估的结果为危险驾驶工况时,则随机选择一个智能车的决策动作a(t),并采用DQN决策算法重复步骤8)和步骤9);
步骤11)根据上述求解出的在t时刻仿真场景中智能车的最优价值动作状态
Figure FDA0003410521360000051
并结合基于特征空间映射的迁移学习算法,最终获取智能车在真实驾驶场景中的最优价值动作状态
Figure FDA0003410521360000052
8.根据权利要求7所述的一种考虑危险驾驶工况的智能车耦合决策方法,其特征在于,步骤1)所述的将仿真交通场景建模为马尔可夫决策过程,具体如下:
构建场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t)),其中,交通场景的状态空间s(t)则是由智能车的状态信息sAV(t)、周围交通参与者的状态信息sOA(t)、车道结构和交通规则sTR(t)等信息组成;而智能车的驾驶决策则是通过控制智能车的纵向加速度aL(t)和前轮转角aT(t)来实现,并相应构成了智能车的决策动作集合a(t);另外,奖励函数r(t)的构建则是考虑了导航目标点的约束r1(t)、行驶安全性指标r2(t)、可行驶区域约束r3(t)和车道约束r4(t)等信息;最后,随机状态转移函数则是由智能车的状态转移概率分布p(sAV(t+1)|sAV(t),a(t))和周围交通参与者的状态转移概率分布p(sOA(t+1)|s(t))的乘积所得。
9.根据权利要求7所述的一种考虑危险驾驶工况的智能车耦合决策方法,其特征在于,步骤3)所述的驾驶工况评估模型的输入信息包括t时刻智能车的速度vAV(t)、前方交通参与者的速度vFV(t)、邻近车道车辆的速度vOV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离Dh(t)、智能车变道时的纵向速度
Figure FDA0003410521360000055
和横向速度
Figure FDA0003410521360000056
智能变道时与车道边界线的横向距离dAL、车道宽度wk等信息;
所述的碰撞风险模型δ利用车头时距(TH)和碰撞时间(TTC)等指标来比较智能车与前方交通参与者的实际距离Dh(t)和安全距离Ds(t)的比值大小,其中安全距离主要是由智能车制动距离vAV(t)ρ、最终跟车距离
Figure FDA0003410521360000053
和前方交通参与者的纵向位移
Figure FDA0003410521360000054
计算所得;
所述变道风险模型η通过比较智能车变道后的两车间距离DLF和后车自适应刹车距离Db的大小,后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D1、后车制动响应阶段的行车距离D2、后车制动力增加阶段的行车距离D3和后车持续制动阶段的行车距离D4
10.根据权利要求7所述的一种考虑危险驾驶工况的智能车耦合决策方法,其特征在于,步骤4)所述的DQN模型的初始学习率β设置为0.002,该模型结构是由一个五层的全连接网络构成,并且网络的每个隐藏层含有100个神经元节点,同时模型的初始训练轮次N和折扣率γ分别设置为10000和0.9,而仿真场景中车辆和行人的初始速度的范围分别是[15,65]km/h、[0,5]km/h;
步骤9)所述的模型训练,是通过时间差分算法(TD)来训练DQN模型,流程如下:首先,基于样本数据(s(t),a(t),r(t),s(t+1))和最优贝尔曼方程求解得到最优价值动作函数Q*(s(t),a(t)),并将其替换为神经网络Q(s(t),a(t)|ω);然后,将TD算法的目标函数
Figure FDA0003410521360000061
与Q(s(t),a(t)|ω)作差值来计算TD算法的误差,并以此构建DQN模型的训练损失函数L(ω);
步骤11)所述的采用基于特征空间映射的迁移学习算法是考虑到不管是在仿真驾驶场景或是在真实驾驶场景下,智能车在动作相同、奖励函数相同和相似驾驶场景下决策时,其最优驾驶决策状态映射空间的特征概率分布是相同的,即
Figure FDA0003410521360000062
其中f和g则表示特征空间映射的神经网络函数。
CN202111526027.0A 2021-12-14 2021-12-14 一种考虑危险驾驶工况的智能车耦合决策模型及方法 Active CN114312830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111526027.0A CN114312830B (zh) 2021-12-14 2021-12-14 一种考虑危险驾驶工况的智能车耦合决策模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111526027.0A CN114312830B (zh) 2021-12-14 2021-12-14 一种考虑危险驾驶工况的智能车耦合决策模型及方法

Publications (2)

Publication Number Publication Date
CN114312830A true CN114312830A (zh) 2022-04-12
CN114312830B CN114312830B (zh) 2024-06-07

Family

ID=81050039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111526027.0A Active CN114312830B (zh) 2021-12-14 2021-12-14 一种考虑危险驾驶工况的智能车耦合决策模型及方法

Country Status (1)

Country Link
CN (1) CN114312830B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112346450A (zh) * 2019-07-22 2021-02-09 沃尔沃汽车公司 鲁棒的自主驾驶设计
CN114880938A (zh) * 2022-05-16 2022-08-09 重庆大学 一种实现自动驾驶汽车行为决策的方法
CN115630583A (zh) * 2022-12-08 2023-01-20 西安深信科创信息技术有限公司 仿真车辆行驶状态的生成方法、装置、设备和介质
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN117076816A (zh) * 2023-07-19 2023-11-17 清华大学 响应预测方法、装置、计算机设备、存储介质和程序产品
CN117574111A (zh) * 2024-01-15 2024-02-20 大秦数字能源技术股份有限公司 基于场景状态的bms算法选择方法、装置、设备和介质
CN117708999A (zh) * 2024-02-06 2024-03-15 北京航空航天大学 一种面向场景的混动汽车能量管理策略评价方法
CN117076816B (zh) * 2023-07-19 2024-07-16 清华大学 响应预测方法、装置、计算机设备、存储介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239741A (zh) * 2014-09-28 2014-12-24 清华大学 基于行车风险场的汽车驾驶安全辅助方法
US20160187880A1 (en) * 2014-12-25 2016-06-30 Automotive Research & Testing Center Driving control system and dynamic decision control method thereof
CN108332977A (zh) * 2018-01-23 2018-07-27 常熟昆仑智能科技有限公司 一种对智能网联汽车测试场景的分类分析方法
CN112242059A (zh) * 2020-09-30 2021-01-19 南京航空航天大学 基于动机与风险评估的无人驾驶车辆智能决策方法
CN113253739A (zh) * 2021-06-24 2021-08-13 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法
CN113291308A (zh) * 2021-06-02 2021-08-24 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239741A (zh) * 2014-09-28 2014-12-24 清华大学 基于行车风险场的汽车驾驶安全辅助方法
US20160187880A1 (en) * 2014-12-25 2016-06-30 Automotive Research & Testing Center Driving control system and dynamic decision control method thereof
CN108332977A (zh) * 2018-01-23 2018-07-27 常熟昆仑智能科技有限公司 一种对智能网联汽车测试场景的分类分析方法
CN112242059A (zh) * 2020-09-30 2021-01-19 南京航空航天大学 基于动机与风险评估的无人驾驶车辆智能决策方法
CN113291308A (zh) * 2021-06-02 2021-08-24 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法
CN113253739A (zh) * 2021-06-24 2021-08-13 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112346450A (zh) * 2019-07-22 2021-02-09 沃尔沃汽车公司 鲁棒的自主驾驶设计
CN114880938A (zh) * 2022-05-16 2022-08-09 重庆大学 一种实现自动驾驶汽车行为决策的方法
CN114880938B (zh) * 2022-05-16 2023-04-18 重庆大学 一种实现自动驾驶汽车行为决策的方法
CN115630583A (zh) * 2022-12-08 2023-01-20 西安深信科创信息技术有限公司 仿真车辆行驶状态的生成方法、装置、设备和介质
CN117076816A (zh) * 2023-07-19 2023-11-17 清华大学 响应预测方法、装置、计算机设备、存储介质和程序产品
CN117076816B (zh) * 2023-07-19 2024-07-16 清华大学 响应预测方法、装置、计算机设备、存储介质和程序产品
CN116946162A (zh) * 2023-09-19 2023-10-27 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法
CN117574111A (zh) * 2024-01-15 2024-02-20 大秦数字能源技术股份有限公司 基于场景状态的bms算法选择方法、装置、设备和介质
CN117574111B (zh) * 2024-01-15 2024-03-19 大秦数字能源技术股份有限公司 基于场景状态的bms算法选择方法、装置、设备和介质
CN117708999A (zh) * 2024-02-06 2024-03-15 北京航空航天大学 一种面向场景的混动汽车能量管理策略评价方法
CN117708999B (zh) * 2024-02-06 2024-04-09 北京航空航天大学 一种面向场景的混动汽车能量管理策略评价方法

Also Published As

Publication number Publication date
CN114312830B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
Huang et al. Personalized trajectory planning and control of lane-change maneuvers for autonomous driving
CN110745136B (zh) 一种驾驶自适应控制方法
CN112347567B (zh) 一种车辆意图和轨迹预测的方法
CN112162555B (zh) 混合车队中基于强化学习控制策略的车辆控制方法
Tang et al. A hierarchical prediction model for lane-changes based on combination of fuzzy C-means and adaptive neural network
Min et al. Deep Q learning based high level driving policy determination
CN112888612A (zh) 自动驾驶车辆规划
CN107813820A (zh) 一种仿优秀驾驶员的无人车换道路径规划方法
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN110956851A (zh) 一种智能网联汽车协同调度换道方法
Sun et al. DDPG-based decision-making strategy of adaptive cruising for heavy vehicles considering stability
CN113581182A (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
Yu et al. Autonomous overtaking decision making of driverless bus based on deep Q-learning method
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
Feng et al. Active collision avoidance strategy considering motion uncertainty of the pedestrian
Sun et al. Human-like highway trajectory modeling based on inverse reinforcement learning
CN114368387B (zh) 一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
Lodhi et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
CN113200054B (zh) 一种自动驾驶接管的路径规划方法及系统
Siboo et al. An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving
Dubey et al. Autonomous braking and throttle system: A deep reinforcement learning approach for naturalistic driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant