CN113753034A

CN113753034A - 一种考虑路面附着条件的大型营运车辆防碰撞决策方法

Info

Publication number: CN113753034A
Application number: CN202111225837.2A
Authority: CN
Inventors: 李旭; 胡玮明; 胡悦; 胡锦超; 徐启敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2021-12-07
Anticipated expiration: 2041-10-21
Also published as: CN113753034B

Abstract

本发明公开了一种考虑路面附着条件的大型营运车辆防碰撞决策方法。首先，建立三自由度的营运车辆运动模型。其次，建立基于交互多模型的路面附着条件估计模型，对路面附着系数进行准确识别。最后，将防碰撞决策问题描述为马尔科夫决策过程，建立基于强化学习的防碰撞驾驶决策模型，得到准确、可靠、自适应路面条件的防碰撞决策策略。本发明提出的方法，综合考虑路面附着条件、前向和后向障碍物对车辆碰撞的影响，为驾驶员提供节气门开度、方向盘转角控制量等精确量化的防碰撞策略，克服了现有的大型营运车辆防碰撞驾驶策略缺乏准确性和路面条件适应性的不足。

Description

一种考虑路面附着条件的大型营运车辆防碰撞决策方法

技术领域

本发明涉及一种车辆防碰撞驾驶策略，尤其涉及一种考虑路面附着条件的大型营运车辆防碰撞决策方法，属于汽车安全技术领域。

背景技术

营运车辆作为道路运输的主要承担者，其安全状况直接影响道路交通运输安全。不同于小型乘用车辆，营运客、货运输车辆多为大、中型车辆，具有总质量大、轮距较窄等特点，且车辆运营强度大、运行时间长、运行环境复杂。运输过程中一旦发生交通事故，易导致群死群伤等严重后果，造成财产损失、环境污染、生态破坏等恶劣影响，且极易诱发大型、特大型安全事故，严重威胁社会公共安全。

相关研究表明，碰撞类事故是营运车辆的主要事故形态，更是导致群死群伤事故发生的罪魁祸首。在营运车辆发生碰撞事故前，如果能够及时、准确地为驾驶员提供防碰撞驾驶建议，可以有效降低甚至避免碰撞导致的群死群伤事故，大幅度提升道路运输安全水平。因此，研究准确、可靠的防碰撞驾驶决策策略，对于保障营运车辆在途运行安全具有重要的作用。

道路附着系数是影响防碰撞决策准确性和可靠性的重要参数，当前考虑路面附着条件变化的小型乘用车辆防碰撞方法已有研究，但对于大型营运车辆，除了确保车辆远离碰撞事故之外，避免车辆发生侧翻尤其重要。具体原因在于：相比于乘用车辆，大型营运车辆所具有的质心位置较高、载重量较大等特点导致其制动距离较长、侧倾稳定性较差，特别是运输货物的半挂汽车列车和运输危险品的半挂罐车，在避撞过程中，若采取紧急制动、紧急变道等操作，挂车上的货物或罐内液体晃动会进一步增加车辆的不稳定性，极易失稳而发生侧翻。

此外，在湿滑、冰雪、干燥等不同路面条件下，车辆的制动距离、安全距离和制动时间相差非常大，甚至相差达到数百米或10秒左右。同时，在附着系数较低的路面上，大型营运车辆的操纵稳定性较差，因失稳而导致的侧滑、侧翻事故发生频率更高。因此，面向乘用车辆的防碰撞驾驶策略，难以适用于大型营运车辆。

在面向大型营运车辆的防碰撞驾驶决策研究中，当前研究仅涉及干燥路面条件下的碰撞危险辨识和防碰撞驾驶决策，难以适用于其他路面状况，致使现有的防碰撞决策方法在准确性和可靠性方面仍存在一定的不足。总体而言，目前尚缺乏考虑大型营运车辆运行特点的防碰撞决策方法，特别是缺少准确、可靠、自适应不同路面条件的大型营运车辆防碰撞决策方法。

发明内容

发明目的：针对大型营运车辆防碰撞决策方法缺乏准确性和路面条件适应性的问题，本发明公开了一种考虑路面附着条件的大型营运车辆防碰撞决策方法。该方法能够为驾驶员提供节气门开度、制动踏板开度、方向盘转角控制量等精确量化的驾驶建议，且能够适应不同的路面附着条件，提高了大型营运车辆防碰撞决策方法的准确性和适应性。

技术方案：本发明针对大型营运车辆，如半挂汽车列车、半挂罐车，提出了一种考虑路面附着条件的防碰撞驾驶决策方法。首先，建立三自由度的营运车辆运动模型。其次，建立基于交互多模型的路面附着条件估计模型，对路面附着系数进行准确识别。最后，将防碰撞决策问题描述为马尔科夫决策过程，建立基于强化学习的防碰撞驾驶决策模型，得到准确、可靠、自适应路面条件的防碰撞决策策略。包括以下步骤：

步骤一：建立车辆运动的动态模型

在营运车辆运行和输出防碰撞策略的过程中，需要准确的获取路面附着系数、车辆行驶速度、横摆角速度等参数。为了满足信息全、精度高的测量需求，需建立能够准确描述营运车辆运动特性的动态模型。针对本发明的应用领域，对于前轮转向的四轮车辆，做出以下合理假定：

(1)忽略车辆的俯仰、侧倾和上下弹跳运动；

(2)假定车辆前轴的两个轮胎具有相同的转向角、侧偏角、纵向力和侧向力，类似地，假定车辆后轴的两个轮胎具有相同的转向角、侧偏角、纵向力和侧向力；

(3)忽略车辆悬架对轮胎轴的影响；假定车辆前轮的方向与车辆当前速度方向一致。

根据以上要求和假定，对车辆进行动力学建模。由于营运车辆的动力学模型比较复杂，涉及的部分参数较难获取，需对其进行适当的简化。考虑到单自由度、二自由度的动力学模型过于简单，忽略了轮胎的非线性特性等因素对车辆运动的影响，无法准确描述营运车辆运行过程中的车辆运动特性。因此，在兼顾模型精度和参数复杂性的情况下，本发明采用三自由度模型，即考虑纵向、侧向和横摆转动，进行车辆动力学建模。

其中，O点为车辆的质心，将前轴的左、右侧车轮合并为一个点，位于C点，将后轴的左、右侧车轮合并为一个点，位于D点。车辆的动力学模型可描述为：

式中，上标“·”表示微分，如

表示v_x的微分，ω_s，v_x，v_y，a_x，a_y分别表示领航车的横摆角速度、纵向速度、侧向速度、纵向加速度和侧向加速度，M，δ，I_z分别表示领航车的质量、前轮转向角、绕车身坐标系垂向轴的转动惯量，l_f，l_r分别表示车辆质心到前轴、后轴的距离，F_xf，F_xr，F_yf，F_yr分别表示前轮、后轮受到的纵向力、侧向力。

其中，轮胎的侧向力可表示为：

F_yf＝C_αf·α_f F_yr＝C_αr·α_r (2)

式中，C_αf，C_αr分别表示前、后轮胎的侧偏刚度，α_f，Δ_r分别表示前、后轮胎的侧偏角，且α_f＝δ-(v_y+l_fr_s)/v_x，α_r＝(l_rr_s-v_y)/v_x。

为了计算式(1)中的轮胎纵向力，可采用轮胎模型来确定。常用的轮胎模型包括经验模型、理论模型、自适应模型三类，为了保证车辆运动参数测量的准确性和实时性，本发明采用刷子轮胎模型，轮胎的纵向力可表示为：

式中，F_xf，F_xr分别表示作用于前、后轮胎的纵向力，C_xf，C_xr分别表示前、后轮胎的纵向刚度，μ为路面附着系数，F_zf，F_zr分别表示前、后轮胎的垂向载荷，s_xf，s_xr分别表示前、后轮胎的纵向滑移率，可通过式(4)、式(5)获得：

式中，R_tyre为轮胎半径，ω_f，ω_r分别表示前、后轮的旋转角速度，可通过轮速传感器测量的线速度计算获得，v_xf，v_xr分别表示前、后轮轴上沿轮胎方向的速度，且v_xr＝v_x，v_xf＝v_xcosδ+(v_y+l_fω_s)sinδ。

步骤二：建立基于交互多模型的路面附着系数估计模型

为了推算营运车辆运行过程中的路面附着系数，可采用滤波递推估计的方法，利用较少的系统观测量实现路面附着系数的准确估计。为处理步骤一中描述的非线性系统状态方程，需采用非线性卡尔曼滤波器。

在常用的非线性滤波器中，粒子滤波计算复杂度较高，若减少粒子数量，估计精度将会下降。扩展卡尔曼滤波算法引入线性化误差，对于模型复杂的系统，容易导致滤波效果降低。考虑到无迹卡尔曼滤波器(Unscented Kalman Filter，UKF)在计算复杂度上与扩展卡尔曼滤波同阶次，但参数估计精度高于扩展卡尔曼滤波，本发明采用UKF算法对路面附着系数、车辆的横摆角速度、横向和纵向速度进行递推估计。

利用式(1)、式(2)和式(3)所述的车辆与轮胎模型，针对路面附着系数分别为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1.0的10种情况，建立10个不同的UKF滤波模型。因此，所建立的滤波状态方程也应有10个。而这10个模型具有相同的形式，其区别仅在于路面附着系数取值的不同。

首先，对于车辆的运动过程，取系统状态向量X_l＝[v_x v_y ω_s]^T，在本发明中，矩阵上角标^T表示对矩阵转置，T为离散的周期。根据式(1)描述的动力学模型，建立系统状态方程：

X_l＝f_l(X_l，U_l，W_l，γ_l) (6)

式中，下标l表示第l个模型，f(·)为3维向量函数，W_l为零均值的系统高斯白噪声，γ_l为系统外输入对应的零均值高斯白噪声，U_l为系统外部输入向量且U_l＝[δ F_{l_xf}F_{l_xr}]^T，其中，δ为前轮转向角，且δ＝ε_s/ρ_s，ε_s为方向盘转角，可通过车身CAN总线获取，ρ_s为转向系的传动比，F_{l_xf}和F_{l_xr}分别表示第l个模型中前、后轮胎的纵向力，可通过刷子轮胎模型确定；γ_l表示系统外部输入向量对应的零均值高斯白噪声向量

其中，ω_δ表示系统外输入δ对应的零均值高斯白噪声，

和

表示F_{l_xf}和F_{l_xr}对应的零均值高斯白噪声，这些白噪声隐含在状态方程的系统外输入里面。

其次，选择惯性测量单元作为车辆运动的测量传感器，以车辆的纵向前进速度和横摆角速度作为系统观测向量，则系统的观测方程可表示为：

z(t)＝h(X(t)，V(t)) (7)

式中，h为观测方程，t表示时间，系统观测向量z＝[v_{x_m} ω_{z_m}]^T，其中，v_{x_m}，ω_{z_m}分别表示车辆的纵向前进速度和横摆角速度测量值，可通过惯性测量单元测量获得。

在实际的滤波递推过程中，需要采用离散化的滤波模型。为此，对式(7)和式(8)进行离散化处理，离散化后的系统状态方程和观测方程分别为：

式中，k为离散化时刻，系统过程噪声W_l＝[w₁ w₂ w₃]^T，其中，w₁，w₂，w₃分别表示3个系统高斯白噪声分量，W_l(k-1)对应的高斯白噪声协方差阵

其中，

分别表示高斯白噪声w₁，w₂，w₃对应的方差。U_l(k-1)表示k-1时刻第l个模型的系统外部输入向量；V_l为系统观测噪声，且V_l＝[v₁ v₂]^T，其中，v₁，v₂分别表示两个系统高斯白噪声分量，V_l(k)对应的测量高斯白噪声协方差阵

其中，

分别表示高斯白噪声v₁，v₂对应的方差，可根据传感器的位置、速度、横摆角速度测量噪声的统计特性来确定。系统外输入噪声

其中，

分别表示δ，F_xf，F_xr对应的零均值高斯白噪声分量，这些白噪声隐含在系统状态函数f_l的三个系统外输入中。系统状态函数为：

其中，

最后，根据式(8)描述的系统状态方程和观测方程，运用交互多模型滤波理论，建立基于交互多模型的滤波递推过程，利用时间更新和测量更新进行参数估计：

(1)交互估计计算

上述10个UKF滤波模型之间的转移概率为p_jl，下标j、l(j＝1，2，...，10，l＝1，2，...，10)表示从状态j转移到状态l的概率，则预测第l个模型的模型概率ρ_l(k，k-1)和预测混合概率ρ_j|l(k-1)分别为：

则交互估计后第l个滤波器在k时刻的输入为：

(2)模型条件滤波

对于式(6)和式(7)所描述的状态方程和观测方程，运用卡尔曼滤波理论，分别对每个滤波器进行UKF滤波递推，第l个模型的滤波过程如下：

1)对输入变量进行初始化并进行参数计算

式中，P₀为初始误差方差矩阵，本发明中，带有上标符号∧的变量表示该变量的滤波估计值，如

为表示输入变量初始值X₀的滤波估计值。

2)状态估计

式中，ξ_i(k-1)为Sigma点，

为加权协方差矩阵平方根的第i列，x_dim

为状态向量的维数。

式中，λ为距离参数，且λ＝x_dim(α²-1)，α为第一刻度因数，

分别表示均值和方差的权重系数。

3)时间更新

ξ_i(k，k-1)＝f_l[ξ_i(k，k-1)]，i＝0，1，...，2x_dim (17)

式中，

为k-1时刻的最优估计，P_l(k，k-1)为k时刻的一步预测误差方差矩阵。

4)观测更新

χ_i(k，k-1)＝h_l[ξ_i(k，k-1)] (20)

式中，χ_i(k，k-1)表示观测方程对Sigma点集变换后的值，

表示由k-1时刻递推的k时刻的一步预测观测值，

为预测值协方差，P_XZ为状态值与测量值的协方差。

5)滤波更新

式中，K_l(k)为滤波增益矩阵，

为状态量估计值，P_l(k)为估计误差方差阵。

(3)模型概率更新

在每个模型完成上一步的更新之后，利用最大似然函数Λ_l(k)计算新的模型概率：

根据贝叶斯定理，第l个模型在k时刻的模型概率ρ_l(k)为：

(4)计算路面附着系数

在计算出各模型为正确的后验概率后，首先，对所有滤波器的状态估计进行概率加权并求和，加权系数为正确的后验概率，得到最终的状态估计为：

即滤波递推后的车辆纵向速度、横向速度和横摆角速度。其次，对各模型所设定的附着系数进行概率加权即可求出当前时刻的道路附着系数μ：

式中，μ_l为第l个模型的路面附着系数，其中，l＝1，2，...，10，μ₁＝0.1，μ₂＝0.2，...，μ₁₀＝1.0。

步骤三：建立基于强化学习的防碰撞驾驶决策模型

针对大型营运车辆防碰撞驾驶决策方法缺乏准确性和路面条件适应性的问题，本发明考虑路面附着条件对驾驶决策的影响，建立准确、可靠、具有自适应性的防碰撞驾驶决策模型。强化学习以“试错”的方式进行学习，以获得最大的奖励为目的，通过与环境进行交互指导驾驶策略的生成，具有较强的决策能力。因此，本发明采用强化学习算法建立防碰撞驾驶决策模型。

常见的强化学习算法包括离线和在线两种学习模式。离线学习方法需要等待学习算法收敛之后才能得出最优行为，无法满足营运车辆在实际交通环境下实时交互和学习策略的需求。在线学习方法无需建立环境模型，且值函数的迭代与营运车辆在交通环境下的运行状态同步更新，其中的SARSA算法基于Q值迭代，通过采用贪婪策略，可以保证收敛到最优策略和行为函数值，能够更好地输出不同路面附着条件下的最优防撞策略。因此，本发明采用SARSA算法，建立防碰撞驾驶决策模型，研究不同路面条件下的自适应防碰撞驾驶策略。具体包括以下4个子步骤：

子步骤1：建立状态空间

大型营运车辆的行驶安全不仅与车辆自身的运动状态有关，还与前、后障碍物的相对运动状态有关。因此，利用传感器测量得到的营运车辆运动状态信息、相对运动状态信息和步骤一输出的路面附着系数、车辆的横摆角速度，建立状态空间：

S_t＝(v_sx，v_sy，v_sf，v_sr，a_sx，a_sy，d_sf，d_sr，ω_s，θ_str，δ_br，δ_thr，μ) (30)

式中，v_sf，v_sr分别表示大型营运车辆与前方车辆、后方车辆的相对速度，单位为米每秒；a_sx，a_sv分别表示大型营运车辆的横向加速度和纵向加速度，单位为米每二次方秒；d_sf，d_sr分别表示与前方车辆、后方车辆的相对距离，单位为米；ω_s为大型营运车辆的横摆角速度，单位为弧度每秒；θ_str为大型营运车辆的方向盘转角，单位为度，δ_br，δ_thr分别表示大型营运车辆制动踏板开度、节气门开度，单位为百分数。

子步骤2：建立行为空间

为了建立更为准确、可靠的防碰撞驾驶策略，本发明兼顾车辆的横向运动和纵向运动，将方向盘转角和加速/制动归一量作为控制量，定义决策模型输出的驾驶策略，即行为空间：

A_t＝[θ_{str_out}，δ_{br_out}，δ_{thr_out}] (31)

式中，A_t为t时刻的动作决策，θ_{str_out}表示归一化后的方向盘转角控制量，范围为[-1，1]，δ_{br_out}，δ_{thr_out}分别表示归一化后的制动踏板控制量和节气门开度控制量，范围均为[0，1]。

子步骤3：建立奖励函数

为了实现对行为空间A_t优劣的定量评价，通过建立奖励函数的方式，将评价具体化和数值化。若执行行为空间A_t之后能够使大型营运车辆的行驶状态更加安全，则回报值为正奖励，否则，回报值为负奖励，使得防碰撞驾驶决策模型对上一次执行的错误动作有一定的判断。

不同于乘用车辆，大型营运车辆具有质心位置较高、载重量较大等特点，在紧急制动、急转向、变道过程中，容易发生侧翻。因此，在建立防碰撞驾驶策略时，需同时考虑车辆碰撞、侧翻的发生，本发明将奖励函数设计为：

R_t＝r₁+r₂+r₃ (32)

式中，R_t为t时刻的奖励函数，r₁为安全距离奖励函数，r₂为舒适性奖励函数，r₃为惩罚函数。

首先，为了防止车辆发生碰撞，营运车辆应与前方车辆、后方车辆均保持一定的安全间隙。同时，考虑到车辆在低附着系数路面上的制动距离更长，设计考虑路面附着系数的车辆安全距离奖励函数r₁：

式中，ω₁，ω₂为安全距离奖励函数的权重系数。

其次，为了保证车辆的驾驶舒适性，应尽可能的避免出现过大的冲击度，设计舒适性奖励函数r₂＝-|a_sy(t+1)-a_sy(t)|。

最后，为了对车辆的错误动作进行判断，设计惩罚函数r₃：

式中，S_pen为惩罚项，在本发明中，取S_pen＝-500，表示当车辆发生碰撞或侧翻时，决策模型将得到-500的惩罚。

子步骤4：建立行为选择机制

考虑到驾驶决策学习过程中需要与实际交通环境实时交互，本发明采用Pursuit函数建立防碰撞决策的行为更新机制。

式中，在t+1时刻，选择动作决策A_t＝argmaxQ(S_t，A_t)的概率为

选择其他行为空间的概率为π_t+1(A_t+1)。

子步骤5：训练基于SARSA的防碰撞驾驶决策模型

1)初始化Q值矩阵和行为选择矩阵；

2)利用车载传感器获取营运车辆的自身运动状态和与其他交通参与者的相对运动状态，利用步骤一获取路面附着系数，通过式(30)建立初始状态S₀；

3)利用Q值经验，在状态空间S_t对应的行为空间集合中，根据行为选择策略选择一个驾驶决策策略A_t；

4)在营运车辆行驶过程中执行决策策略A_t，观测奖励函数R_t和新的状态空间S′_t，并选取下一时刻的决策策略，即新的行为空间A′_t；

5)对Q值进行更新，更新方法如下：

式中，ψ_s表示学习速率，

表示折扣因子。

6)将新的状态空间S′_t赋予状态空间S_t，将新的行为空间A′_t赋予A_t；

7)重复步骤3)、步骤4)、步骤5)和步骤6)，直到训练过程结束。

子步骤6：利用防碰撞驾驶决策模型输出驾驶策略

将状态空间中的各参数输入到已训练的防碰撞驾驶决策模型中，可以实时输出合理的方向盘转角、制动踏板和节气门开度控制量，为驾驶员提供精确量化、可靠的防碰撞驾驶建议，从而实现了准确、可靠、自适应路面附着条件的大型营运车辆防碰撞驾驶决策。

有益效果：相比于一般的车辆防碰撞决策策略，本发明提出的方法具有更为准确、可靠、自适应的特点，具体体现在：

(1)本发明提出的方法综合考虑前向和后向障碍物对车辆碰撞的影响，以数值的形式将行驶速度、方向盘转向等安全驾驶策略精确量化，实现了准确、可靠的大型营运车辆防碰撞驾驶决策；

(2)本发明提出的方法考虑了大型营运车辆失稳侧翻对行车安全的影响，使得输出的驾驶决策策略，不仅可以防止碰撞事故的发生，还可以避免车辆在避撞过程中出现侧翻事故，进一步提高了防碰撞驾驶决策的准确性和可靠性；

(3)本发明提出的方法能够适应不同的路面条件，输出的驾驶策略能够根据路面附着条件变化进行自适应调整，克服了现有的大型营运车辆防碰撞驾驶策略缺乏准确性和路面条件适应性的不足。

附图说明

图1是本发明的技术路线示意图；

图2是本发明的车辆动力学模型示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明。

为了建立准确、可靠、自适应路面附着条件的防碰撞驾驶策略，本发明针对大型营运车辆，如半挂汽车列车、半挂罐车，提出了一种考虑路面附着条件的防碰撞驾驶决策方法。首先，建立三自由度的营运车辆运动模型。其次，建立基于交互多模型的路面附着条件估计模型，对路面附着系数进行准确识别。最后，将防碰撞决策问题描述为马尔科夫决策过程，建立基于强化学习的防碰撞驾驶决策模型，得到准确、可靠、自适应路面条件的防碰撞决策策略。本发明的技术路线如图1所示，具体步骤如下：

步骤一：建立车辆运动的动态模型

(1)忽略车辆的俯仰、侧倾和上下弹跳运动；

根据以上要求和假定，对车辆进行动力学建模。由于营运车辆的动力学模型比较复杂，涉及的部分参数较难获取，需对其进行适当的简化。考虑到单自由度、二自由度的动力学模型过于简单，忽略了轮胎的非线性特性等因素对车辆运动的影响，无法准确描述营运车辆运行过程中的车辆运动特性。因此，在兼顾模型精度和参数复杂性的情况下，本发明采用三自由度模型，进行车辆动力学建模。

图2定义了车辆的三自由度动力学模型，即考虑纵向、侧向和横摆转动。其中，O点为车辆的质心，将前轴的左、右侧车轮合并为一个点，位于C点，将后轴的左、右侧车轮合并为一个点，位于D点。根据图2，车辆的动力学模型可描述为：

式中，上标“·”表示微分，如

其中，轮胎的侧向力可表示为：

F_yf＝C_αf·α_f F_yr＝C_αr·α_r (2)

式中，C_αf，C_αr分别表示前、后轮胎的侧偏刚度，α_f，α_r分别表示前、后轮胎的侧偏角，且α_f＝δ-(v_y+l_fr_s)/v_x，α_r＝(l_rr_s-v_y)/v_x。

步骤二：建立基于交互多模型的路面附着系数估计模型

X_l＝f_l(X_l，U_l，W_l，γ_l) (6)

其中，ω_δ表示系统外输入δ对应的零均值高斯白噪声，

和

表示F_{l_xf}和F_{l_xr}对应的零均值高斯白噪声，这些白噪声隐含在状态方程的系统外输入里面；

Z(t)＝h(X(t)，V(t)) (7)

其中，

其中，

其中，

其中，

(1)交互估计计算

则交互估计后第l个滤波器在k时刻的输入为：

(2)模型条件滤波

1)对输入变量进行初始化并进行参数计算

为表示输入变量初始值X₀的滤波估计值。

2)状态估计

式中，ξ_i(k-1)为Sigma点，

为加权协方差矩阵平方根的第i列，x_dim

为状态向量的维数。

式中，λ为距离参数，且λ＝x_dim(α²-1)，α为第一刻度因数，

分别表示均值和方差的权重系数。

3)时间更新

ξ_i(k，k-1)＝f_l[ξ_i(k，k-1)]，i＝0，1，...，2x_dim (17)

式中，

4)观测更新

χ_i(k，k-1)＝h_l[ξ_i(k，k-1)] (20)

式中，χ_i(k，k-1)表示观测方程对Sigma点集变换后的值，

表示由k-1时刻递推的k时刻的一步预测观测值，

为预测值协方差，P_xz为状态值与测量值的协方差。

5)滤波更新

式中，K_l(k)为滤波增益矩阵，

为状态量估计值，P_l(k)为估计误差方差阵。

(3)模型概率更新

根据贝叶斯定理，第l个模型在k时刻的模型概率ρ_l(k)为：

(4)计算路面附着系数

步骤三：建立基于强化学习的防碰撞驾驶决策模型

子步骤1：建立状态空间

式中，v_sf，v_sr分别表示大型营运车辆与前方车辆、后方车辆的相对速度，单位为米每秒；a_sx，a_sy分别表示大型营运车辆的横向加速度和纵向加速度，单位为米每二次方秒；d_sf，d_sr分别表示与前方车辆、后方车辆的相对距离，单位为米；ω_s为大型营运车辆的横摆角速度，单位为弧度每秒；θ_str为大型营运车辆的方向盘转角，单位为度，δ_br，δ_thr分别表示大型营运车辆制动踏板开度、节气门开度，单位为百分数。

子步骤2：建立行为空间

A_t＝[θ_{str_out}，δ_{br_out}，δ_{thr_out}](31)

子步骤3：建立奖励函数

R_t＝r₁+r₂+r₃ (32)

式中，ω₁，ω₂为安全距离奖励函数的权重系数。

最后，为了对车辆的错误动作进行判断，设计惩罚函数r₃：

子步骤4：建立行为选择机制

式中，在t+1时刻，选择动作决策A_t＝argmaxQ(S_t，A_t)的概率为

选择其他行为空间的概率为π_t+1(A_t+1)。

子步骤5：训练基于SARSA的防碰撞驾驶决策模型

1)初始化Q值矩阵和行为选择矩阵；

5)对Q值进行更新，更新方法如下：

式中，ψ_s表示学习速率，

表示折扣因子。

7)重复步骤3)、步骤4)、步骤5)和步骤6)，直到训练过程结束。

子步骤6：利用防碰撞驾驶决策模型输出驾驶策略

Claims

1.一种考虑路面附着条件的大型营运车辆防碰撞决策方法，其特征在于：该方法包括如下步骤：

步骤一：建立车辆运动的动态模型

采用三自由度模型，即考虑纵向、侧向和横摆转动，进行车辆动力学建模；其中，O点为车辆的质心，将前轴的左、右侧车轮合并为一个点记为C点，将后轴的左、右侧车轮合并为一个点记为D点；车辆的动力学模型描述为：

式中，上标“·”表示微分，如

表示v_x的微分，ω_s,v_x,v_y,a_x,a_y分别表示领航车的横摆角速度、纵向速度、侧向速度、纵向加速度和侧向加速度，M,δ,I_z分别表示领航车的质量、前轮转向角、绕车身坐标系垂向轴的转动惯量，l_f,l_r分别表示车辆质心到前轴、后轴的距离，F_xf,F_xr,F_yf,F_yr分别表示前轮、后轮受到的纵向力、侧向力；

其中，轮胎的侧向力表示为：

F_yf＝C_αf·α_f F_yr＝C_αr·α_r (2)

式中，C_αf,C_αr分别表示前、后轮胎的侧偏刚度，α_f,α_r分别表示前、后轮胎的侧偏角，且α_f＝δ-(v_y+l_fr_s)/v_x,α_r＝(l_rr_s-v_y)/v_x；

轮胎的纵向力表示为：

式中，F_xf,F_xr分别表示作用于前、后轮胎的纵向力，C_xf,C_xr分别表示前、后轮胎的纵向刚度，μ为路面附着系数，F_zf,F_zr分别表示前、后轮胎的垂向载荷，s_xf,s_xr分别表示前、后轮胎的纵向滑移率，通过式(4)、式(5)获得：

式中，R_tyre为轮胎半径，ω_f,ω_r分别表示前、后轮的旋转角速度，可通过轮速传感器测量的线速度计算获得，v_xf,v_xr分别表示前、后轮轴上沿轮胎方向的速度，且v_xr＝v_x，v_xf＝v_xcosδ+(v_y+l_fω_s)sinδ；

步骤二：建立基于交互多模型的路面附着系数估计模型

采用UKF算法对路面附着系数、车辆的横摆角速度、横向和纵向速度进行递推估计，具体地：

利用式(1)、式(2)和式(3)所述的车辆与轮胎模型，针对路面附着系数分别为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1.0的10种情况，建立10个不同的UKF滤波模型；因此，所建立的滤波状态方程也应有10个；而这10个模型具有相同的形式，其区别仅在于路面附着系数取值的不同；

首先，对于车辆的运动过程，取系统状态向量X_l＝[v_x v_y ω_s]^T，其中，矩阵上角标T表示对矩阵转置，T为离散的周期；根据式(1)描述的动力学模型，建立系统状态方程：

X_l＝f_l(X_l,U_l,W_l,γ_l) (6)

式中，下标l表示第l个模型，f(·)为3维向量函数，W_l为零均值的系统高斯白噪声，γ_l为系统外输入对应的零均值高斯白噪声，U_l为系统外部输入向量且U_l＝[δ F_{l_xf} F_{l_xr}]^T，其中，δ为前轮转向角，且δ＝ε_s/ρ_s，ε_s为方向盘转角，可通过车身CAN总线获取，ρ_s为转向系的传动比，F_{l_xf}和F_{l_xr}分别表示第l个模型中前、后轮胎的纵向力，可通过刷子轮胎模型确定；γ_l表示系统外部输入向量对应的零均值高斯白噪声向量

其中，ω_δ表示系统外输入δ对应的零均值高斯白噪声，

和

Z(t)＝h(X(t),V(t)) (7)

式中，h为观测方程，t表示时间，系统观测向量Z＝[v_{x_m} ω_{z_m}]^T，其中，v_{x_m},ω_{z_m}分别表示车辆的纵向前进速度和横摆角速度测量值，可通过惯性测量单元测量获得；

对式(7)和式(8)进行离散化处理，离散化后的系统状态方程和观测方程分别为：

式中，k为离散化时刻，系统过程噪声W_l＝[w₁ w₂ w₃]^T，其中，w₁,w₂,w₃分别表示3个系统高斯白噪声分量，W_l(k-1)对应的高斯白噪声协方差阵

其中，

分别表示高斯白噪声w₁,w₂,w₃对应的方差；U_l(k-1)表示k-1时刻第l个模型的系统外部输入向量；V_l为系统观测噪声，且V_l＝[v₁ v₂]^T，其中，v₁,v₂分别表示两个系统高斯白噪声分量，V_l(k)对应的测量高斯白噪声协方差阵

其中，

分别表示高斯白噪声v₁,v₂对应的方差，根据传感器的位置、速度、横摆角速度测量噪声的统计特性来确定；系统外输入噪声

其中，

分别表示δ,F_xf,F_xr对应的零均值高斯白噪声分量，这些白噪声隐含在系统状态函数f_l的三个系统外输入中；系统状态函数为：

其中，

(1)交互估计计算

上述10个UKF滤波模型之间的转移概率为p_jl，下标j、l(j＝1,2,…,10,l＝1,2,…,10)表示从状态j转移到状态l的概率，则预测第l个模型的模型概率ρ_l(k,k-1)和预测混合概率ρ_jl(k-1)分别为：

则交互估计后第l个滤波器在k时刻的输入为：

(2)模型条件滤波

1)对输入变量进行初始化并进行参数计算

式中，P₀为初始误差方差矩阵，本发明中，带有上标符号^的变量表示该变量的滤波估计值，如

为表示输入变量初始值X₀的滤波估计值；

2)状态估计

式中，ξ_i(k-1)为Sigma点，

为加权协方差矩阵平方根的第i列，x_dim为状态向量的维数；

式中，λ为距离参数，且λ＝x_dim(α²-1)，α为第一刻度因数，

分别表示均值和方差的权重系数；

3)时间更新

ξ_i(k,k-1)＝f_l[ξ_i(k,k-1)],i＝0,1,...,2x_dim (17)

式中，

为k-1时刻的最优估计，P_l(k,k-1)为k时刻的一步预测误差方差矩阵；

4)观测更新

χ_i(k,k-1)＝h_l[ξ_i(k,k-1)] (20)

式中，χ_i(k,k-1)表示观测方程对Sigma点集变换后的值，

表示由k-1时刻递推的k时刻的一步预测观测值，

为预测值协方差，P_XZ为状态值与测量值的协方差；

5)滤波更新

式中，K_l(k)为滤波增益矩阵，

为状态量估计值，P_l(k)为估计误差方差阵；

(3)模型概率更新

根据贝叶斯定理，第l个模型在k时刻的模型概率ρ_l(k)为：

(4)计算路面附着系数

即滤波递推后的车辆纵向速度、横向速度和横摆角速度；其次，对各模型所设定的附着系数进行概率加权即可求出当前时刻的道路附着系数μ：

式中，μ_l为第l个模型的路面附着系数，其中，l＝1,2,...,10，μ₁＝0.1,μ₂＝0.2,...,μ₁₀＝1.0；

步骤三：建立基于强化学习的防碰撞驾驶决策模型

采用SARSA算法，建立防碰撞驾驶决策模型，研究不同路面条件下的自适应防碰撞驾驶策略；具体包括以下4个子步骤：

子步骤1：建立状态空间

大型营运车辆的行驶安全不仅与车辆自身的运动状态有关，还与前、后障碍物的相对运动状态有关；因此，利用传感器测量得到的营运车辆运动状态信息、相对运动状态信息和步骤一输出的路面附着系数、车辆的横摆角速度，建立状态空间：

S_t＝(v_sx,v_sy,v_sf,v_sr,a_sx,a_sy,d_sf,d_sr,ω_s,θ_str,δ_br,δ_thr,μ) (30)

式中，v_sf,v_sr分别表示大型营运车辆与前方车辆、后方车辆的相对速度，单位为米每秒；a_sx,a_sy分别表示大型营运车辆的横向加速度和纵向加速度，单位为米每二次方秒；d_sf,d_sr分别表示与前方车辆、后方车辆的相对距离，单位为米；ω_s为大型营运车辆的横摆角速度，单位为弧度每秒；θ_str为大型营运车辆的方向盘转角，单位为度，δ_br,δ_thr分别表示大型营运车辆制动踏板开度、节气门开度，单位为百分数；

子步骤2：建立行为空间

兼顾车辆的横向运动和纵向运动，将方向盘转角和加速/制动归一量作为控制量，定义决策模型输出的驾驶策略，即行为空间：

A_t＝[θ_{str_out},δ_{br_out},δ_{thr_out}] (31)

式中，A_t为t时刻的动作决策，θ_{str_out}表示归一化后的方向盘转角控制量，范围为[-1,1]，δ_{br_out},δ_{thr_out}分别表示归一化后的制动踏板控制量和节气门开度控制量，范围均为[0,1]；

子步骤3：建立奖励函数

为了实现对行为空间A_t优劣的定量评价，通过建立奖励函数的方式，将评价具体化和数值化；若执行行为空间A_t之后能够使大型营运车辆的行驶状态更加安全，则回报值为正奖励，否则，回报值为负奖励，使得防碰撞驾驶决策模型对上一次执行的错误动作有一定的判断；

在建立防碰撞驾驶策略时，需同时考虑车辆碰撞、侧翻的发生，将奖励函数设计为：

R_t＝r₁+r₂+r₃ (32)

式中，R_t为t时刻的奖励函数，r₁为安全距离奖励函数，r₂为舒适性奖励函数，r₃为惩罚函数；

设计考虑路面附着系数的车辆安全距离奖励函数r₁：

式中，ω₁,ω₂为安全距离奖励函数的权重系数；

设计舒适性奖励函数r₂＝-|a_sy(t+1)-a_sy(t)|；

最后，为了对车辆的错误动作进行判断，设计惩罚函数r₃：

式中，S_pen为惩罚项，在本发明中，取S_pen＝-500，表示当车辆发生碰撞或侧翻时，决策模型将得到-500的惩罚；

子步骤4：建立行为选择机制

考虑到驾驶决策学习过程中需要与实际交通环境实时交互，本发明采用Pursuit函数建立防碰撞决策的行为更新机制；

式中，在t+1时刻，选择动作决策A_t＝argmaxQ(S_t,A_t)的概率为

选择其他行为空间的概率为π_t+1(A_t+1)；

子步骤5：训练基于SARSA的防碰撞驾驶决策模型

1)初始化Q值矩阵和行为选择矩阵；

5)对Q值进行更新，更新方法如下：

Q_t(S_t,A_t)←Q_t(S_t,A_t)+ψ_s[R_t+θ_sQ_t(S′_t,A′_t)-Q_t(S_t,A_t)] (36)

式中，ψ_s表示学习速率，θ_s表示折扣因子；

7)重复步骤3)、步骤4)、步骤5)和步骤6)，直到训练过程结束；

子步骤6：利用防碰撞驾驶决策模型输出驾驶策略

将状态空间中的各参数输入到已训练的防碰撞驾驶决策模型中，可以实时输出合理的方向盘转角、制动踏板和节气门开度控制量，为驾驶员提供精确量化、可靠的防碰撞驾驶建议。