CN114312830A

CN114312830A - 一种考虑危险驾驶工况的智能车耦合决策模型及方法

Info

Publication number: CN114312830A
Application number: CN202111526027.0A
Authority: CN
Inventors: 蔡英凤; 张雪翔; 滕成龙; 王海; 刘擎超; 孙晓强; 陈龙; 李祎承; 熊晓夏
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-12
Anticipated expiration: 2041-12-14
Also published as: CN114312830B

Abstract

本发明公开了一种考虑危险驾驶工况的智能车耦合决策模型及方法，采用了自学习和驾驶规则耦合的决策方法，克服了单一决策方法的局限性、缺乏灵活性和不可靠性等问题，能有效处理各种复杂交通场景的智能车驾驶决策问题。本发明充分考虑了智能车行驶过程中的碰撞风险和换道风险，并在此基础上划分了相对应的决策算法，进一步提高了智能车决策的实时性和其在危险驾驶工况下决策的可靠性。本发明提出的基于特征空间映射的迁移学习算法实现了智能车最优价值动作由仿真场景‑真实场景的知识迁移，解决了真实交通场景的建模误差问题，同时也验证了本发明所提出的智能车耦合决策模型在真实驾驶场景中的有效性，大大提升了智能车的迁移学习能力。

Description

一种考虑危险驾驶工况的智能车耦合决策模型及方法

技术领域

本发明涉及无人驾驶车辆驾驶决策技术领域，尤其涉及一种考虑危险驾驶工况的智能车耦合决策模型及方法。

背景技术

现阶段研究普遍认为未来智能驾驶技术的发展在解决道路安全、交通拥挤、降低驾驶员工作负荷等方面起着至关重要的作用。而现今智能驾驶技术的核心挑战之一是其能否在高度复杂的交通环境下行驶时，基于外部不确定性的多传感器融合感知信息和已有的驾驶先验知识，做出安全高效的行驶决策。因此，决策算法需要进一步考虑驾驶员的个性化需求(包括安全性、舒适性和高效性)、道路环境结构、交通规则约束信息、车辆动力学性能和不同地区的驾驶习惯等影响因素，其算法也应该具备广泛的适用性和鲁棒性，以处理高维交通环境的随机性，特别是感知层和决策层因信息不同步而导致决策失效等问题。

目前已有的决策算法主要分为以下三大类：基于强化学习的驾驶决策算法、基于驾驶规则的驾驶决策算法、基于驾驶规则和自学习算法耦合的驾驶决策算法，其中基于驾驶规则和自学习算法耦合的驾驶决策算法因其决策过程的部分可解释性和对高维随机动态环境的适用性逐渐成为研究热点。但现有的驾驶决策算法出于对真实交通场景中实验样本的采样效率和决策安全性等考虑，对于驾驶数据分析、决策模型训练和决策模型验证等方面大多在构建的仿真环境中进行，无法验证智能车在仿真环境中的最优价值决策是否适用于真实交通驾驶环境，进而实现从仿真器到真实环境的决策知识迁移。而且对于仿真驾驶环境的构建大多是考虑高速公路等单一驾驶环境，较少考虑智能车行驶决策算法在危险驾驶工况下决策的可靠性，特别是智能车在行驶过程中对于考虑碰撞风险和换道风险的决策研究较少。

发明内容

为解决上述技术问题，本发明构建一种考虑危险驾驶工况的智能车耦合决策模型。在智能车仿真驾驶场景模型的搭建上，本发明考虑了智能车和周围交通参与者的位置、速度和朝向角度信息、车道环境结构信息和交通规则信息等，并将其搭建的交通场景建模为马尔可夫决策过程(MDP)。在智能车驾驶工况评估模型的输入信息采集上，通过安装在智能车上的GPS定位装置、速度和加速度传感器、激光雷达和摄像头等多传感器设备采集自车、周围交通参与者、车道环境和驾驶规则约束等信息，并基于智能车行驶时与周围交通参与者的碰撞风险和自身的变道风险对驾驶工况进行划分，将其划分为一般驾驶工况和危险驾驶工况。在智能车行为决策模型算法的选取上，考虑到驾驶规则库的有限性和对于随机场景处理缺乏灵活性等问题，本发明主要是采用基于规则和深度强化学习算法相耦合的决策方式，一方面从驾驶安全性规则、危险避障规则、行人拥有最高优先权规则等角度构建基于驾驶规则的决策方法，来有效处理在一般驾驶工况下的行驶决策，进而提高决策过程的可解释性；另一方面，对于危险驾驶工况，主要是采用具有约束动作空间的深度Q网络(DQN)模型让智能车在交互场景中去自主学习最优驾驶动作策略。而在仿真-真实环境的智能车最优价值动作的知识迁移过程中，主要考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下，智能车在动作相同、奖励函数相同和相似驾驶场景下决策时，其最优驾驶决策状态映射空间的特征概率分布应该是相同的，所以通过对不同领域对应特征空间对应关系的内隐学习，就可求解出在真实交通场景中智能车的最优价值动作状态。

本发明所述的一种考虑危险驾驶工况的智能车耦合决策方法采用的技术方案，依次包括如下步骤：

步骤1)搭建智能车仿真驾驶场景，并将该场景建模为马尔可夫决策过程；

步骤2)通过安装在智能车上的GPS、激光雷达、速度传感器、摄像头等多传感器来采集自车和驾驶场景信息，并将其作为驾驶工况评估模型的输入；

步骤3)基于步骤2)中多传感器采集到的相关信息，构建智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η，并依据此对智能车的驾驶工况进行划分，如下式(1)所示：

式中，D_c表示智能车驾驶工况的集合；D_d表示危险驾驶工况；D_g则表示一般驾驶工况。

步骤4)在智能车决策模型的训练上，首先设置DQN模型的超参数，包括模型的学习率β，模型的训练轮次N和折扣率γ，以及车辆和行人的初始速度范围；

步骤5)随机初始化Q网络的权重参数ω，TD(时间差分算法)目标

的权重参数ω^-＝ω，以及模型训练样本的存储空间V；

步骤6)在模型训练N轮次的过程中，在每一时间步长t＝0,1,2…上，智能车通过多传感器观测交通场景的状态空间s(t)，并构建当前状态相应的奖励函数r(t)；

步骤7)根据步骤3)对智能车行驶的驾驶工况进行评估，当驾驶工况为一般驾驶工况时，则是采用基于驾驶规则的决策算法来实现智能车的横纵向决策，并生成相应的期望动作空间

和智能车的决策动作a(t)；

步骤8)将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中；

步骤9)从存储空间V中每次迭代随机采样64组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值，并选择最优价值的动作作为智能车在当前场景状态的决策行为，并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD(时间差分算法)的目标函数

的权重参数ω^-＝ω；

步骤10)如果根据步骤3)中对驾驶工况评估的结果为危险驾驶工况时，则随机选择一个智能车的决策动作a(t)，并采用DQN决策算法重复步骤8)和步骤9)；

步骤11)根据上述求解出的在t时刻仿真场景中智能车的最优价值动作状态

并结合基于特征空间映射的迁移学习算法，最终获取智能车在真实驾驶场景中的最优价值动作状态

进一步的，步骤1)所述的将仿真交通场景建模为马尔可夫决策过程，就是构建场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))。其中，交通场景的状态空间s(t)则是由智能车的状态信息s_AV(t)、周围交通参与者的状态信息s_OA(t)、车道结构和交通规则s_TR(t)等信息组成；而智能车的驾驶决策则是通过控制智能车的纵向加速度a_L(t)和前轮转角a_T(t)来实现，并相应构成了智能车的决策动作集合a(t)；另外，奖励函数r(t)的构建则是考虑了导航目标点的约束r₁(t)、行驶安全性指标r₂(t)、可行驶区域约束r₃(t)和车道约束r₄(t)等信息；最后，随机状态转移函数则是由智能车的状态转移概率分布p(s_AV(t+1)|s_AV(t),a(t))和周围交通参与者的状态转移概率分布p(s_OA(t+1)|s(t))的乘积所得。

进一步的，步骤2)所述的驾驶工况评估模型的输入信息包括t时刻智能车的速度v_AV(t)、前方交通参与者的速度v_FV(t)、邻近车道车辆的速度v_OV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离D_h(t)、智能车变道时的纵向速度

和横向速度

智能变道时与车道边界线的横向距离d_AL、车道宽度w_k等信息。

进一步的，步骤3)所述的碰撞风险模型δ主要是利用车头时距(TH)和碰撞时间(TTC)等指标来比较智能车与前方交通参与者的实际距离D_h(t)和安全距离D_s(t)的比值大小，其中安全距离主要是由智能车制动距离v_AV(t)ρ、最终跟车距离

和前方交通参与者的纵向位移

计算所得。

变道风险模型η主要是通过比较智能车变道后的两车间距离D_LF和后车自适应刹车距离D_b的大小，后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D₁、后车制动响应阶段的行车距离D₂、后车制动力增加阶段的行车距离D₃和后车持续制动阶段的行车距离D₄。

进一步的，步骤4)所述的DQN模型的初始学习率β设置为0.002，该模型结构是由一个五层的全连接网络构成，并且网络的每个隐藏层含有100个神经元节点，同时模型的初始训练轮次N和折扣率γ分别设置为10000和0.9。而仿真场景中车辆和行人的初始速度的范围分别是[15,65]km/h、[0,5]km/h。

进一步的，步骤7)所述的基于驾驶规则的决策算法主要是从驾驶的安全性规则、驾驶的避障规则和礼让行人等规则角度出发，结合IF-THEN信息触发事件的方式，通过智能车所在的特殊位置信息P^*(t)(例如交叉路口附近)、导航目标点位置信息

和当前智能车的状态信息

来生成期望动作空间

和智能车的决策动作a(t)，从而降低智能车决策对于感知任务的维度需求，提高决策的实时性和可靠性。

进一步的，步骤9)所述的模型训练，主要是通过时间差分算法(TD)来训练DQN模型，大致流程如下：首先，基于样本数据(s(t),a(t),r(t),s(t+1))和最优贝尔曼方程求解得到最优价值动作函数Q_*(s(t),a(t))，并将其替换为神经网络Q(s(t),a(t)|ω)；然后，将TD算法的目标函数

与Q(s(t),a(t)|ω)作差值来计算TD算法的误差，并以此构建DQN模型的训练损失函数L(ω)。

进一步的，步骤11)所述的采用基于特征空间映射的迁移学习算法主要是考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下，智能车在动作相同、奖励函数相同和相似驾驶场景下决策时，其最优驾驶决策状态映射空间的特征概率分布应该是相同的，即

其中f和g则表示特征空间映射的神经网络函数。

本发明的有益效果为：

1、本发明提出的一种考虑危险驾驶工况的智能车耦合决策模型，其采用了自学习和驾驶规则耦合的决策方法，克服了单一决策方法的局限性、缺乏灵活性和不可靠性等问题，能有效处理各种复杂交通场景的智能车驾驶决策问题。

2、本发明提出的智能车耦合决策模型充分考虑了智能车行驶过程中的碰撞风险和换道风险，并在此基础上划分了相对应的决策算法，进一步提高了智能车决策的实时性和其在危险驾驶工况下决策的可靠性。

3、本发明提出了基于特征空间映射的迁移学习算法实现了智能车最优价值动作由仿真场景-真实场景的知识迁移，解决了真实交通场景的建模误差问题，同时也验证了本发明所提出的智能车耦合决策模型在真实驾驶场景中的有效性，大大提升了智能车的迁移学习能力。

附图说明

图1为本发明的研究技术路线图

图2为本发明的智能车仿真驾驶场景图

图3为本发明的智能车碰撞风险示意图

图4为本发明的智能车换道风险示意图

图5为本发明的汽车自适应制动安全距离示意图

图6为本发明的基于特征空间映射的迁移学习算法流程图

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，本发明提出了一种考虑危险驾驶工况的智能车耦合决策模型及方法。本发明的技术方案依次包括如下步骤，

步骤1)：首先构建智能车仿真驾驶场景模型，如图2所示，并将该仿真驾驶场景建模为马尔可夫决策过程，其是由交通场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))等组成。

1)交通场景的状态空间s(t)

对于交通场景的状态空间s(t)，其主要是由智能车的状态信息s_AV(t)、周围交通参与者的状态信息s_OA(t)、车道结构和交通规则s_TR(t)等信息组成。其中智能车的状态信息s_AV(t)则是由智能车的位置p_AV(t)、速度v_AV(t)和朝向信息θ_AV(t)的集合表示，如下式(2)所示：

s_AV(t)＝{p_AV(t),v_AV(t),θ_AV(t)} (2)

式中，p_AV(t)则表示为智能车在t时刻的位置坐标(x_AV,y_AV)。

周围交通参与者的状态信息s_OA(t)则包括其位置

速度

朝向

和类别信息

如下式(3)所示：

式中，

则表示周围交通参与者在t时刻的位置坐标(x_OV,y_OV)；i则表示场景中的第i个交通参与者；j则表示周围交通参与者的类别信息，其中j＝1表示车辆，而j＝0则表示行人。

车道结构和交通规则信息s_TR(t)则可表示为下式(4)：

式中，k表示为当前车道编号，第k条车道；C_k表示为车道中心线点的位置向量；W_k表示为所在车道的宽度；

则表示为车道中心线点的切线方向角度；V_min,k表示为所在车道的最小限速；V_max,k则表示为所在车道的最大限速；

表示为交通信号灯，其是通过一个(0,1)的信号来判断车辆是否需要在末端停车；

则表示智能车的导航目标点位置；τ_s则表示交通场景的可行驶边界，其边界是按顺序连接的点列构成，点与点之间用直线连接。

综上所述，交通场景的状态空间s(t)可表示为：

s(t)＝{s_AV(t),s_OA(t),s_TR(t)} (5)

2)智能车的决策动作a(t)

对于智能车的未来驾驶决策动作集合，其主要包括了智能车的纵向加速度a_L(t)和前轮转角a_T(t)，如下式(6)所示：

a(t)＝{a_L(t),a_T(t)} (6)

式中，出于驾驶的舒适度考虑，纵向加速度a_L(t)的取值范围为[-3,2]m/s²；前轮转角a_T(t)的取值范围则为[-40°,40°]。

3)奖励函数r(t)

在强化学习过程中，需要设计一个奖励函数来奖励或惩罚智能车在驾驶过程中的操作，本发明的奖励函数设计主要考虑了导航目标点的约束r₁(t)、行驶安全性指标r₂(t)、可行驶区域约束r₃(t)和车道约束r₄(t)等信息。

A)导航目标点的约束r₁(t)

智能车在行驶过程中的运动决策一定程度上受到导航目标点

的坐标约束，车辆需要在可行驶区域内规划一条合理的路径到达该点，其奖励函数r₁(t)可表示为：

B)行驶安全性指标r₂(t)

避免碰撞是智能车行驶决策的前提，如果在模型训练过程中智能车发生碰撞事故，那么本轮次的模型训练将会结束。其中行驶安全性指标r₂(t)可表示为：

r₂(t)＝-v_AV(t)²·φ{Collsion} (8)

式中，当智能车发生碰撞事故时，φ{Collsion}的值为1，除此之外值为0；从公式(8)中可知，智能车车速越快，事故则越严重。

C)可行驶区域约束r₃(t)

同样的，智能车的行驶范围也应该是在可行驶区域的状态集合内，一旦智能车超过该集合范围，就会受到相应的惩罚。特别是考虑到当前方出现行人时，智能车则需要做出避让行为，那么其就无需考虑车道的约束，只需考虑可行驶区域的约束。所以智能车可行驶区域约束r₃(t)的表示如下：

D)车道约束r₄(t)

依据驾驶规则，智能车的驾驶方向大部分情况下应该与车道的方向保持一致，否则智能车将会受到惩罚，其车道约束r₄(t)的表示如下：

r₄(t)＝cosα(t)-sinα(t) (10)

式中，α表示智能车驾驶方向与车道方向的夹角，如图2所示。

综上所述，智能车的最终奖励函数则是通过r₁(t)、r₂(t)、r₃(t)、r₄(t)的加权求和所得，如下式(11)：

式中，ω_L表示权重参数。

4)随机状态转移函数p(s(t+1)|s(t),a(t))

考虑到交通参与者之间的交互作用，在给定当前状态s(t)和选定智能车的动作a(t)的前提下，对于场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))，其主要是由智能车的状态转移概率分布p(s_AV(t+1)|s_AV(t),a(t))和周围交通参与者的状态转移概率分布p(s_OA(t+1)|s(t))的乘积所求得，如下式(12)所示：

p(s(t+1)|s(t),a(t))＝p(s_AV(t+1)|s_AV(t),a(t))×p(s_OA(t+1)|s(t)) (12)

步骤2)：基于上述构建的驾驶仿真场景，通过安装在智能车上的GPS、激光雷达、速度传感器、摄像头等多传感器来采集自车和其周围驾驶场景信息，主要包括t时刻智能车的速度v_AV(t)、前方交通参与者的速度v_FV(t)、邻近车道车辆的速度v_OV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离D_h(t)、智能车变道时的纵向速度

和横向速度

智能变道时与车道边界线的横向距离d_AL、车道宽度w_k等信息，并将其作为驾驶工况评估模型的输入。

步骤3)：基于上述步骤2)中多传感器采集到的相关信息，构建智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η。

1)碰撞风险模型δ

如图3所示，碰撞风险模型δ主要是利用车头时距(TH)和碰撞时间(TTC)等指标来比较智能车与前方交通参与者的实际距离D_h(t)和安全距离D_s(t)的比值大小，其中安全距离D_s(t)主要是由智能车制动距离v_AV(t)ρ、最终跟车距离

和前方交通参与者的纵向位移

计算所得，如下式(12)：

式中，v_AV(t)和v_FV(t)分别表示智能车和前方交通参与者在t时刻的速度；v′_AV(t)和v′_FV(t)则分别表示智能车和前方交通参与者在t时刻的减速度，对于乘用车来说两者取值相同；ρ则表示智能车反应时间，其包括系统反应时间ρ₁和制动响应时间ρ₂。

则智能车与周围交通参与者的碰撞风险模型δ可表示为：

式中，当δ≥1则表示智能车存在碰撞风险，反之则表示其不存在碰撞风险。

最后，利用车头时距(TH)和碰撞时间(TTC)等指标，其定义如下式(14)，并结合上式(12)和(13)，则最终智能车碰撞风险模型δ如下式(15)所示。

2)变道风险模型η

如图4和图5所示，而变道风险模型η主要是通过比较智能车变道后的两车间距离D_LF和后车自适应刹车距离D_b的大小，其中后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D₁、后车制动响应阶段的行车距离D₂、后车制动力增加阶段的行车距离D₃和后车持续制动阶段的行车距离D₄求得。

A)智能车变道后的两车间距离D_LF计算

在智能车变道之前，智能车与后车的纵向距离D_LB可表示为：

D_LB＝y_AV-y_OV (16)

根据智能车的横向速度

和横向加速度

求解智能车到目标车道中心线的时间t_LC：

式中，w_k表示车道宽度，d_AL则表示智能车距离车道边界的横向距离。

则在t_LC时间段内，后车的纵向位移可表示为：

同理，智能车在t_LC时间段内的纵向位移则可表示为：

最终，在智能车变道完成之后，其与后车之间的距离D_LF则可表示为：

B)后车自适应刹车距离D_b计算

对于后车自适应刹车距离D_b的计算，主要考虑了后车速度、后车制动性能、驾驶员和系统的响应时间，具体描述如下：

Step1：假设驾驶员反应时间t₁(1s)，则后车驾驶员反应阶段的行车距离D₁则为：

D₁＝v_OV(t)×t₁ (21)

Step2：在后车制动的响应阶段，假设响应时间为t₂(0.2s)，则后车制动响应阶段的行车距离D₂则为：

D₂＝v_OV(t)×t₂ (22)

Step3：在后车制动力增加阶段t₃内，后车减速度的改变近乎是线性变化，假设后车以舒适的减速度(a_soft)大小进行减速，则此阶段后车制动力增加过程中的行车距离D₃可表示为：

Step4：在后车持续制动阶段，后车以a_soft大小的减速度减速以致后车的速度降为零，这一阶段后车的行车距离D₄可表示为：

Step5：最后通过累加后车驾驶员反应阶段的行车距离D₁、后车制动响应阶段的行车距离D₂、后车制动力增加阶段的行车距离D₃和后车持续制动阶段的行车距离D₄求解出后车自适应刹车距离D_b，如下式所示：

综上所述，智能车的变道风险模型η则可表示为：

η＝D_LF-D_b (26)

式中，当η≤0时则表示智能车存在换道风险，反之则不存在换道风险。

与此同时，基于上述构建的智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η，对智能车的驾驶工况进行评估，评估依据如下：

步骤4)在智能车决策模型的训练上，首先设置DQN模型的超参数，包括模型的学习率β，模型的训练轮次N和折扣率γ，以及车辆和行人的初始速度范围。其中DQN模型的初始学习率β设置为0.002，该模型结构是由一个五层的全连接网络构成，并且网络的每个隐藏层含有100个神经元节点，同时模型的初始训练轮次N和折扣率γ分别设置为10000和0.9。而仿真场景中车辆和行人的初始速度的范围分别是[15,65]km/h、[0,5]km/h。

步骤5)然后随机初始化Q网络的权重参数ω，TD(时间差分算法)目标

的权重参数ω^-＝ω，以及模型训练样本的存储空间V。

步骤6)在模型训练N轮次的过程中，在每一时间步长t＝0,1,2…上，智能车通过多传感器观测交通场景的状态空间s(t)，并构建当前状态相应的奖励函数r(t)。

步骤7)根据上述步骤3)对智能车行驶的驾驶工况进行评估，当驾驶工况为一般驾驶工况时，则是采用基于驾驶规则的决策算法来实现智能车的横纵向决策，并生成相应的期望动作空间

和智能车的决策动作a(t)。

基于驾驶规则的决策算法主要是从驾驶的安全性规则、驾驶的避障规则和礼让行人等规则角度出发，通过在仿真场景中为智能车设置较大的行车安全距离、在遇到静态障碍物时执行制动或转向等操作、避让行人和在十字路口直行或转弯时遵循正常驾驶规则等设定来实现。为了降低对复杂环境感知的维度需求，本发明的基于驾驶规则的决策算法主要是结合IF-THEN信息触发事件的方式，通过判断智能车所在的特殊位置信息P^*(t)(例如交叉路口附近)、导航目标点位置信息

和当前智能车的状态信息

来生成期望动作空间

和智能车的决策动作a(t)，其中期望动作空间

的表示如下：

式中，

表示预期动作空间

的智能车纵向动作集合；

表示预期动作空间

的智能车横向动作集合。

的权重参数ω^-＝ω；

对于DQN模型的训练，主要是通过时间差分算法(TD)来训练DQN模型，大致流程如下：

A)首先，基于上述步骤8)存储空间V中的训练样本数据(s(t),a(t),r(t),s(t+1))和最优贝尔曼方程求解得到最优价值动作函数Q_*(s(t),a(t))，如下式(29)：

式中，

表示智能车在t+1时刻累计奖励的期望；而A则表示智能车的动作空间集合。

B)其次，考虑到在实际问题中，通过迭代求解最优策略是不可行的，特别是在状态空间比较大的情况下，方法的计算量较大。所以这里将最优价值动作函数Q_*(s(t),a(t))替换为神经网络Q(s(t),a(t)|ω)的形式：

式中，Q(s(t),a(t)|ω)则表示神经网络在t时刻对智能车所有决策动作累计回报最大值的预测，其没有考虑任何事实成分；而

(也可表示为TD算法的目标函数

)则表示神经网络在t+1时刻对智能车所有决策动作累计回报最大值的预测，其部分是基于真实观测到的奖励r(t)。

C)然后，考虑到

和Q(s(t),a(t)|ω)都是对最优动作价值Q_*(s(t),a(t))的估计，但是

是部分基于事实的，应该尽可能的让Q(s(t),a(t)|ω)接近于

所以，通过利用TD算法的目标函数

与Q(s(t),a(t)|ω)作差值来计算TD算法的误差，并以此构建DQN模型的训练损失函数L(ω)：

D)最后,采用TD算法对DQN模型训练迭代过程中的权重参数ω进行更新，如下所示：

式中，β表示模型的学习率；

则表示TD算法的误差；

则表示神经网络Q(s(t),a(t)|ω)对权重参数ω求导。

如图6所示，基于特征空间映射的迁移学习算法，其主要是考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下，智能车在动作相同、奖励函数相同和相似驾驶场景下决策时，其最优驾驶决策状态映射空间的特征概率分布应该是相同的，即

其中f和g表示特征空间映射的神经网络函数，在这里采用相似性度量指标(2-范数)对其进行优化，具体公式如下：

式中，

表示智能车在仿真环境中最优价值动作状态集合；

表示智能车在真实驾驶环境中最优价值动作状态集合；

表示在源域内(仿真驾驶环境中)的特征空间映射的神经网络函数；

表示在目标域内(真实驾驶环境中)的特征空间映射的神经网络函数；而ω_f和ω_g则分别表示神经网络函数f和g的权重参数。

客观来讲，映射函数f和g应该是可逆的，为了尽可能使映射函数f和g最大化保留各自域的不变信息，在这里主要是通过训练解码器网络来从映射特征空间中分别重构最优价值动作状态集合

和

则解码器网络训练的优化目标如下：

式中，

表示源域内解码器的重构目标；

表示目标域内解码器的重构目标；其中ω_S和ω_T则分别表示两个解码器的权重参数。

综上所述，基于特征空间映射的迁移学习算法模型的优化目标如下式(35)所示，同时依据步骤11)所述，在获取t时刻仿真场景中智能车的最优价值动作状态

的前提下，并结合特征空间映射的神经网络函数f和g，即可求解出智能车在t时刻真实驾驶场景中的最优价值动作状态

如下式(36)所示：

式中，ψ表示智能车最优价值决策迁移的奖励权重。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种考虑危险驾驶工况的智能车耦合决策模型，其特征在于，包括：交通场景模型、驾驶工况评估模型、行为决策模型；

所述交通场景模型根据智能车和周围交通参与者的位置、速度和朝向角度信息、车道环境结构信息和交通规则信息，采用马尔可夫模型；

所述驾驶工况评估模型基于智能车行驶时与周围交通参与者的碰撞风险和自身的变道风险对驾驶工况进行划分，划分为一般驾驶工况和危险驾驶工况；

所述行为决策模型采用基于规则和深度强化学习算法相耦合的决策，一方面从驾驶安全性规则、危险避障规则、行人拥有最高优先权规则角度构建基于驾驶规则的决策算法，来处理在一般驾驶工况下的行驶决策；另一方面，对于危险驾驶工况，采用具有约束动作空间的深度Q网络(DQN)模型让智能车在交互场景中去自主学习最优驾驶动作策略。

2.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型，其特征在于，所述交通场景模型具体如下：

包括场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))，其中，交通场景的状态空间s(t)则是由智能车的状态信息s_AV(t)、周围交通参与者的状态信息s_OA(t)、车道结构和交通规则s_TR(t)信息组成；智能车的决策动作a(t)是针对行为决策模型通过控制智能车的纵向加速度a_L(t)和前轮转角a_T(t)相应构成了智能车的决策动作集合；奖励函数r(t)的设计融合了导航目标点的约束r₁(t)、行驶安全性指标r₂(t)、可行驶区域约束r₃(t)和车道约束r₄(t)信息；随机状态转移函数p(s(t+1)|s(t),a(t))则是由智能车的状态转移概率分布p(s_AV(t+1)|s_AV(t),a(t))和周围交通参与者的状态转移概率分布p(s_OA(t+1)|s(t))的乘积所得。

3.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型，其特征在于，所述驾驶工况评估模型的输入信息包括t时刻智能车的速度v_AV(t)、前方交通参与者的速度v_FV(t)、邻近车道车辆的速度v_OV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离D_h(t)、智能车变道时的纵向速度

和横向速度

智能变道时与车道边界线的横向距离d_AL、车道宽度w_k信息。

4.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型，其特征在于，包括碰撞风险模型δ和变道风险模型η；

碰撞风险模型δ利用车头时距(TH)和碰撞时间(TTC)指标来比较智能车与前方交通参与者的实际距离D_h(t)和安全距离D_s(t)的比值大小，其中安全距离主要是由智能车制动距离所述驾驶工况评估模型v_AV(t)ρ、最终跟车距离

和前方交通参与者的纵向位移

计算所得；

变道风险模型η通过比较智能车变道后的两车间距离D_LF和后车自适应刹车距离D_b的大小判断变道风险，其中后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D₁、后车制动响应阶段的行车距离D₂、后车制动力增加阶段的行车距离D₃和后车持续制动阶段的行车距离D₄。

5.根据权利要求4所述的一种考虑危险驾驶工况的智能车耦合决策模型，其特征在于，所述驾驶工况评估模型依据碰撞风险模型δ和变道风险模型η对智能车的驾驶工况进行划分，如下式(1)所示：

6.根据权利要求1所述的一种考虑危险驾驶工况的智能车耦合决策模型，其特征在于，所述行为决策模型：

针对驾驶工况为一般驾驶工况时，采用基于驾驶规则的决策算法来实现智能车的横纵向决策，并生成相应的期望动作空间

和智能车的决策动作a(t)；将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中；从存储空间V中每次迭代随机采样若干组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值，并选择最优价值的动作作为智能车在当前场景状态的决策行为，并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD的目标函数

的权重参数ω^-＝ω；

针对驾驶工况为危险驾驶工况时，则随机选择一个智能车的决策动作a(t)，将智能车在t时刻选择的决策动作a(t)、奖励函数r(t)、场景状态s(t)和t+1时刻的场景状态s(t+1)以四元组(s(t),a(t),r(t),s(t+1))的形式存储在V中；从存储空间V中每次迭代随机采样64组样本数据训练DQN模型来计算在每一时刻状态下的智能车所有决策动作的奖励价值，并选择最优价值的动作作为智能车在当前场景状态的决策行为，并在DQN模型训练迭代过程中同步更新Q网络的权重参数ω和TD(时间差分算法)的目标函数

的权重参数ω^-＝ω；

求解出在t时刻仿真场景中智能车的最优价值动作状态

所述特征空间映射的迁移学习算法，考虑到不管是在仿真驾驶场景抑或是在真实驾驶场景下，智能车在动作相同、奖励函数相同和相似驾驶场景下决策时，其最优驾驶决策状态映射空间的特征概率分布是相同的，即

其中f和g表示特征空间映射的神经网络函数，采用相似性度量指标对其进行优化，具体公式如下：

式中，

表示智能车在仿真环境中最优价值动作状态集合；

表示智能车在真实驾驶环境中最优价值动作状态集合；

7.一种考虑危险驾驶工况的智能车耦合决策方法，其特征在于，包括如下步骤：

步骤2)通过安装在智能车上的GPS、激光雷达、速度传感器、摄像头多传感器来采集自车和驾驶场景信息，并将其作为驾驶工况评估模型的输入；

步骤3)基于步骤2)中多传感器采集到的相关信息，构建驾驶工况评估模型，包括智能车与周围交通参与者的碰撞风险模型δ和变道风险模型η，并依据此对智能车的驾驶工况进行划分，如下式(1)所示：

步骤4)训练智能车决策模型，首先设置DQN模型的超参数，包括模型的学习率β，模型的训练轮次N和折扣率γ，以及车辆和行人的初始速度范围；

步骤5)随机初始化Q网络的权重参数ω，TD(时间差分算法)目标

的权重参数ω^-＝ω，以及模型训练样本的存储空间V；

和智能车的决策动作a(t)；

所述基于驾驶规则的决策算法是从驾驶的安全性规则、驾驶的避障规则和礼让行人规则角度出发，结合IF-THEN信息触发事件的方式，通过智能车所在的特殊位置信息P^*(t)、导航目标点位置信息

和当前智能车的状态信息

来生成期望动作空间

和智能车的决策动作a(t)；

的权重参数ω^-＝ω；

8.根据权利要求7所述的一种考虑危险驾驶工况的智能车耦合决策方法，其特征在于，步骤1)所述的将仿真交通场景建模为马尔可夫决策过程，具体如下：

构建场景的状态空间s(t)、智能车的决策动作a(t)、奖励函数r(t)和场景在t+1时刻的随机状态转移函数p(s(t+1)|s(t),a(t))，其中，交通场景的状态空间s(t)则是由智能车的状态信息s_AV(t)、周围交通参与者的状态信息s_OA(t)、车道结构和交通规则s_TR(t)等信息组成；而智能车的驾驶决策则是通过控制智能车的纵向加速度a_L(t)和前轮转角a_T(t)来实现，并相应构成了智能车的决策动作集合a(t)；另外，奖励函数r(t)的构建则是考虑了导航目标点的约束r₁(t)、行驶安全性指标r₂(t)、可行驶区域约束r₃(t)和车道约束r₄(t)等信息；最后，随机状态转移函数则是由智能车的状态转移概率分布p(s_AV(t+1)|s_AV(t),a(t))和周围交通参与者的状态转移概率分布p(s_OA(t+1)|s(t))的乘积所得。

9.根据权利要求7所述的一种考虑危险驾驶工况的智能车耦合决策方法，其特征在于，步骤3)所述的驾驶工况评估模型的输入信息包括t时刻智能车的速度v_AV(t)、前方交通参与者的速度v_FV(t)、邻近车道车辆的速度v_OV(t)、智能车碰撞反应时间ρ、智能车与前方周围交通参与者的实际距离D_h(t)、智能车变道时的纵向速度

和横向速度

智能变道时与车道边界线的横向距离d_AL、车道宽度w_k等信息；

所述的碰撞风险模型δ利用车头时距(TH)和碰撞时间(TTC)等指标来比较智能车与前方交通参与者的实际距离D_h(t)和安全距离D_s(t)的比值大小，其中安全距离主要是由智能车制动距离v_AV(t)ρ、最终跟车距离

和前方交通参与者的纵向位移

计算所得；

所述变道风险模型η通过比较智能车变道后的两车间距离D_LF和后车自适应刹车距离D_b的大小，后车自适应刹车距离主要是通过累加后车驾驶员反应阶段的行车距离D₁、后车制动响应阶段的行车距离D₂、后车制动力增加阶段的行车距离D₃和后车持续制动阶段的行车距离D₄。

10.根据权利要求7所述的一种考虑危险驾驶工况的智能车耦合决策方法，其特征在于，步骤4)所述的DQN模型的初始学习率β设置为0.002，该模型结构是由一个五层的全连接网络构成，并且网络的每个隐藏层含有100个神经元节点，同时模型的初始训练轮次N和折扣率γ分别设置为10000和0.9，而仿真场景中车辆和行人的初始速度的范围分别是[15,65]km/h、[0,5]km/h；

步骤9)所述的模型训练，是通过时间差分算法(TD)来训练DQN模型，流程如下：首先，基于样本数据(s(t),a(t),r(t),s(t+1))和最优贝尔曼方程求解得到最优价值动作函数Q_*(s(t),a(t))，并将其替换为神经网络Q(s(t),a(t)|ω)；然后，将TD算法的目标函数

与Q(s(t),a(t)|ω)作差值来计算TD算法的误差，并以此构建DQN模型的训练损失函数L(ω)；

步骤11)所述的采用基于特征空间映射的迁移学习算法是考虑到不管是在仿真驾驶场景或是在真实驾驶场景下，智能车在动作相同、奖励函数相同和相似驾驶场景下决策时，其最优驾驶决策状态映射空间的特征概率分布是相同的，即

其中f和g则表示特征空间映射的神经网络函数。