CN117775015A

CN117775015A - 一种人机博弈横纵向协同控制方法

Info

Publication number: CN117775015A
Application number: CN202410079675.3A
Authority: CN
Inventors: 陈翔; 丁文龙; 赵万忠; 王春燕; 李雨书
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-03-29

Abstract

本发明涉及一种人机博弈横纵向协同控制方法，包括步骤一、在信息不对称的条件下，建立驾驶员和控制器的模型；步骤二、设计人机博弈横向和纵向协同控制策略；步骤三、理论推导达到博弈均衡时人机双方最优控制策略，所述的最优控制策略包括驾驶员和控制器的最优控制策略；步骤四、实现人机博弈横纵向协同控制；旨在逼真人机共驾模型，并减轻人机冲突和提高人机协同性能，从而实现横纵向人机协同控制。

Description

一种人机博弈横纵向协同控制方法

技术领域

本发明实施涉及车辆控制技术领域，具体涉及一种信息不对称条件下考虑驾驶员特性的人机博弈横纵向协同控制方法。

背景技术

实施车辆自动化有可能降低事故率，提高交通效率，从而推动自动驾驶的发展。然而，当前的自动驾驶系统在特定情况下并不能够独立有效完成驾驶任务，这给智能汽车带来安全风险。除了各种技术障碍外，自动驾驶技术的商业化还需要考虑社会因素，例如道德问题和与权利和责任有关的立法。因此，在现有的技术和应用框架内，人机协同控制为自动驾驶发展提供了一个可行的解决方案。

在当前的人机共享控制的研究中，大多研究恒定纵向车速下的横向共享控制，忽略了纵向速度对横向控制的影响。然而，在实际车辆运行过程中，驾驶员不仅需要通过转动方向盘来控制车辆，还需要通过踩油门或刹车踏板来控制车辆的速度。忽略车辆纵向速度的变化将极大地影响控制精度和车辆安全性。因此，有必要从横向和纵向两个维度考虑人机协同控制。此外，大多研究都是基于完全信息条件来进行人机博弈控制策略的设计。但是在实际情况下，驾驶员和控制器并不是都能获取全部博弈信息。博弈者可能依据自己的经验或者其他辅助措施来估计某一博弈信息，因此容易形成人机之间信息不对称。综上，有必要对信息不对称条件下人机博弈横纵向协同控制方法进行研究。

发明内容

本发明的目的是针对现有技术中存在的缺陷，提供一种人机博弈横纵向协同控制方法，旨在逼真人机共驾模型，并减轻人机冲突和提高人机协同性能，从而实现横纵向人机协同控制。

为了实现本发明的目的，本发明将采用如下所述的技术方案加以实施。

首先根据人机两者分别对对方操控信息的接收程度、各自对车辆状态的估计程度以及驾驶员神经肌肉延迟特性来建立信息不对称条件下的驾驶员和控制器的模型；然后考虑到人机冲突，采用博弈论来描述人机之间的耦合交互关系，并设计人机博弈横纵向协同控制策略，包含驾驶员和控制器的目标函数和驾驶权限分配策略的建立；最后，从理论层面推导达到博弈均衡时人机双方的最优控制策略，实现横纵向人机协同控制。本方法具体步骤如下：

一种人机博弈横纵向协同控制方法，包括如下所述的步骤：

步骤一、在信息不对称的条件下，建立驾驶员和控制器的模型；其中：

所述信息不对称是由于在实际驾驶过程中驾驶员和控制器各自获取对方操纵信息和估计车辆状态的方法和途径不同，所以人机协同控制过程中驾驶员和控制器对信息了解程度不一致形成的；

所述的驾驶员模型包括：

概率因子，根据驾驶员的驾驶技能、驾驶经验和驾驶风格综合判断驾驶员对控制器的操控信息的接收程度加以确定；

信息矩阵，根据驾驶员的驾驶技能、驾驶经验、先验知识和人机交互界面以及显示器功能建立的驾驶员对车辆状态的估计程度加以确定；所述信息矩阵包括：驾驶员单独驾驶时的信息矩阵和驾驶员在控制器辅助下协同控制时的信息矩阵；

所述的控制器模型包括：控制器的信息矩阵，根据驾驶员的神经肌肉延迟特性加以确定；

步骤二、利用博弈论将人机之间无意识竞争关系描述为博弈交互关系，并建立横向和纵向协同控制策略，所述协同控制策略包括：驾驶员和控制器目标函数和驾驶权限分配策略；其中，所述的驾驶员和控制器目标函数是根据迭代后得到的驾驶员和控制器的状态输出、各自的期望状态量和控制输入建立的；所述的驾驶权限分配策略是基于对横纵向风险场力的评估，同时考虑车辆速度变化来设计的；

步骤三、理论推导达到博弈均衡时人机双方最优控制策略，所述的最优控制策略包括驾驶员和控制器的最优控制策略；

步骤四、实现人机博弈横纵向协同控制。

作为本发明的优选方案，所述的驾驶员和控制器的模型，包括驾驶员的模型和控制器的模型，其中，

所述的驾驶员的模型为：

其中，ξ_d(t)为信息不对称条件下驾驶员估计的车辆状态量；为ξ_d(t)的一阶导；/>为驾驶员在控制器辅助下协同驾驶时估计的车辆状态量的一阶导；/>为驾驶员单独驾驶时估计的车辆状态量的一阶导；p为概率因子。驾驶员单独驾驶时估计的车辆状态量ξ_da(t)和在控制器辅助下协同驾驶时估计的车辆状态量ξ_sc(t)分别与车辆状态量ξ(t)之间的关系为：ξ_da(t)＝M_daξ(t),ξ_sc(t)＝M_scξ(t)，M_da为驾驶员单独驾驶时的信息矩阵；M_sc为驾驶员在控制器辅助下协同控制时的信息矩阵；

所述的控制器的模型为：

其中，ξ_c(t)代表控制器估计的车辆状态量；为ξ_c(t)的一阶导；u_d(t)为驾驶员的控制输入；u_c(t)为控制器的控制输入；控制器对车辆状态量的估计ξ_c(t)与车辆状态量ξ(t)之间的关系为：ξ_c(t)＝M_cξ(t)，M_c为控制器的信息矩阵。

作为本发明的优选方案，所述的驾驶员和控制器的模型的建立过程：

首先，建立车辆动力学模型：

其中，C_cf和C_cr分别代表车辆前、后轮胎的侧偏刚度；m和I_z分别代表车辆质量和车辆的转动惯量；l_f和l_r分别代表车辆质心到其前轴和后轴的距离；r,δ_f,v_x and v_y分别代表横摆角、横摆角速度、前轮转角、纵向速度和横向速度；X和Y分别表示车辆的纵向和横向位移；a表示纵向加速度；

将上式转化为状态空间方程:

其中，ξ(t)代表车辆状态量，代表ξ(t)的一阶导数；u(t)＝[δ_f,a]^T；

对状态空间方程进行泰勒级数展开，并进行离散化处理，可以得到:

ξ(k+1)＝A_k,t(k)ξ(k)+B_k,t(k)u(k)+d_k,t(k)；

其中，ξ(k+1)代表k+1时刻车辆状态量；ξ(k)代表k时刻车辆状态量；u(k)代表k时刻控制量；

A_k,t(k)＝I+TA(t),B_k,t(k)＝TB(t)，T为采样周期，

d_k,t(k)＝ξ(k+1)-A_k,t(k)ξ(k)-B_k,t(k)u(k)；

在人机协同驾驶过程中，驾驶员和控制器都可以感知车辆状态和道路交通信息，做出相应的决策，共同参与车辆控制；因此将驾驶员和控制器的控制动作线性叠加后的结果作为车辆实际接收到的控制动作，如下式所示:

其中，λ代表驾驶权限，取值范围为0～1；δ_f代表车辆实际接受到的前轮转角；δ_d代表驾驶员施加的前轮转角；δ_c代表控制器施加的前轮转角；a代表车辆实际接受到的纵向加速度；a_d代表驾驶员施加的纵向加速度；a_c代表控制器施加的纵向加速度；

将状态空间方程和上式结合，得到共驾模式下车辆模型，表达式如下：

ξ(k+1)＝A_k,t(k)ξ(k)+B_d,t(k)u_d(k)+B_c,t(k)u_c(k)+d_k,t(k) (5)

其中，B_d,t(k)＝λB_k,t(k)，B_c,t(k)＝(1-λ)B_k,t(k)，

u_d(k)＝[δ_d,a_d]^T，u_c(k)＝[δ_c,a_c]^T。

作为本发明的优选方案，所述的驾驶员和控制器目标函数是利用步骤一所述驾驶员和控制器的模型迭代后得到驾驶员和控制器的状态输出和各自的参考状态输出以及控制输入来建立的；

所述的驾驶权限分配策略是通过考虑车辆位置到道路边界的距离和道路限速计算横向和纵向风险场力，并考虑车辆速度的变化来设计的。

作为本发明的优选方案，所述的驾驶员和控制器目标函数表示式：

其中，J_d代表驾驶员的目标函数；J_c代表控制器的目标函数；Y_d(k)代表迭代后得到的驾驶员的状态量输出；Y_c(k)代表迭代后得到的控制器的状态量输出；T_d(k)代表驾驶员的期望状态量；T_c(k)代表控制器的期望状态量；Q₁、Q₂、R₁和R₂均代表权重因子；δ_d(k)为预测时域内驾驶员施加的前轮转角控制序列；a_d(k)为预测时域内驾驶员施加的纵向加速度控制序列；δ_c(k)为预测时域内控制器施加的前轮转角控制序列；a_c(k)为预测时域内控制器施加的纵向加速度控制序列；

通过考虑车辆位置到道路边界的距离和道路限速来进行横纵向风险场力的计算，其表达式为：

其中，F_c代表横向风险场力；k₁为常系数；k₂为侧向坡度调整系数；m代表车辆质量；v代表车辆速度；y_d为车辆重心到道路边界的距离；r₀代表驾驶员对风险的关注范围；r₁代表道路边界线的影响范围；D代表车道宽度；F_l代表纵向风险场力；v_l,min和v_l,nax分别表示道路所允许行驶的最低和最高车速；k_x和k_y分别表示车辆速度的纵向和横向梯度调整系数；x_p和y_p分别表示车辆与其他交通参与者在纵向和横向的距离；

基于所述的横纵向风险场力的评估，我们可以得到纵向和横向一体化风险评估模型；将横向风险场力F_c和纵向风险场力F_l进行归一化处理，可得到标准化的驾驶风险场力F_q；基于评估得到的驾驶风险场力F_q，建立考虑车辆速度变化的驾驶权限分配策略；驾驶权限的表达式：

其中，λ代表驾驶权限；ω₁、ω₂和ω₃均为调优参数；

因此，信息不对称条件下人机博弈横纵向协同控制问题可以表述为：

其中，J_d代表驾驶员的目标函数；J_c代表控制器的目标函数；Y_d(k)代表迭代后得到的驾驶员的状态量输出；Y_c(k)代表迭代后得到的控制器的状态量输出；p为概率因子；ξ_sc(k)为驾驶员在控制器辅助下协同驾驶时k时刻估计的状态量；ξ_da(k)为驾驶员单独驾驶时k时刻估计的状态量；ξ_c(k)为控制器在k时刻估计的状态量；U_d(k)为预测时域N_p内驾驶员的控制序列；U_c(k)为预测时域N_p内控制器的控制序列；U_d(k-τ)为预测时域N_p内考虑驾驶员神经肌肉延迟特性后控制器所接收到的驾驶员的控制序列；Φ_sc(k)为驾驶员在控制器辅助下协同驾驶时的状态干扰控制序列；Φ_da(k)为驾驶员单独驾驶时的状态干扰控制序列；Φ_c(k)为控制器的状态干扰控制序列；θ_{d_sc}、θ_{c_sc}和Γ_sc为驾驶员在控制器辅助下协同驾驶时的状态空间方程中系数矩阵在预测时域内迭代后的矩阵；/>θ_da和Γ_da为驾驶员单独驾驶时的状态空间方程中系数矩阵在预测时域内迭代后的矩阵；/>θ_{c_d}、θ_{c_c}和Γ_c为控制器的状态空间方程中系数矩阵在预测时域内迭代后的矩阵。

作为本发明的优选方案，所述的人机双方最优控制策略是基于步骤二中所述的人机之间博弈交互关系以及所述的横向和纵向协同控制策略，结合凸迭代辅助方程来求解最小二乘问题获得的。

作为本发明的优选方案，所述人机双方最优控制策略的理论推导过程：

根据博弈论中纳什均衡的概念，当博弈达到均衡时，存在一组控制输入(U_d ^*,U_c*)使得以下不等式关系成立：

其中，J_d(U_d ^*,U_c ^*)表示达到博弈均衡时驾驶员的目标函数；J_d(U_d,U_c ^*)表示在博弈均衡点处，驾驶员单方面改变自身控制策略后的驾驶员的目标函数；J_c(U_d ^*,U_c ^*)表示达到博弈均衡时控制器的目标函数；J_c(U_d ^*,U_c)表示在博弈均衡点处，控制器单方面改变自身控制策略后的控制器的目标函数；

要求解达到博弈均衡时人机双方最优控制策略，需满足上式所述博弈均衡条件；

首先，将控制器接收到考虑驾驶员神经肌肉延迟特性的驾驶员操纵信息U_d(k-τ)与U_d(k)进行转化：

W_k-τU_d(k-τ)＝W_kU_d(k)；

其中，W_k-τ是U_d(k-τ)的信息提取矩阵；W_k是U_d(k)的信息提取矩阵；

然后，结合上式，将迭代后得到的驾驶员和控制器的状态输出带入到各自目标函数，将预测控制问题转化成求最小二乘问题；因此，最优控制序列U_d(k)^*和U_c(k)^*为如下最小二乘问题的解：

其中，p为概率因子；和/>均为权重因子；θ_{d_sc}、θ_da和θ_{c_c}均为状态空间方程中系数矩阵在预测时域内迭代后的矩阵；U_d(k)为预测时域内驾驶员的控制序列；U_c(k)为预测时域内控制器的控制序列；E_d(k)和E_c(k)均为偏差方程；

求解式可知，驾驶员最优控制策略U_d(k)^*不仅与驾驶员自身估计的车辆状态和期望状态量有关，还与控制器控制动作有关；同理，控制器最优控制策略U_c(k)^*与驾驶员控制动作有关；因此，两者控制动作存在着耦合关系。我们可以引入凸迭代辅助方程来进行求解，其表达式为：

其中，q表示迭代步数；当q→+∞，U_d(k)＝U_d ^*(k)、U_c(k)＝U_c ^*(k)。κ₁、和κ₂均为迭代权重值，取值范围0～1；

通过联立式可得到信息不对称条件下达到博弈均衡时驾驶员和控制器的最优控制策略。

作为本发明的优选方案，所述步骤四中的人机博弈横纵向协同控制的实现过程：

将求解出来的驾驶员和控制器最优控制动作，通过人机输入模式将驾驶员和控制器的最优控制动作进行线性叠加，其表达式为:

其中，δ_f和a分别代表车辆的前轮转角和纵向加速度；δ_d和a_d分别代表驾驶员施加的前轮转角和纵向加速度；δ_c和a_c分别代表控制器施加的前轮转角和纵向加速度；λ代表驾驶权限；

将线性叠加后得到前轮转角δ_f直接输入给车辆，对车辆横向运动进行控制；将线性叠加后得到的纵向加速度a输送给已标定的油门/刹车标定表，输出相应的油门开度或者制动主缸压力，对车辆纵向运动进行控制；从而实现横纵向人机协同控制。

有益效果

1.本发明针对研究中较少考虑信息不对称博弈以及普遍假设博弈模型是线性时不变，并忽略变化的车辆速度对横向共享控制的影响等问题，设计了一种信息不对称条件下考虑驾驶员特性的人机博弈横纵向协同控制框架，以逼真横纵向人机共驾模型，并提升横纵向人机协同控制性能。

2.根据驾驶员和控制器分别对对方操控信息的接收程度、各自对车辆状态的估计程度以及驾驶员神经肌肉延迟特性来确定概率因子p和信息矩阵M，以此建立信息不对称条件下的驾驶员和控制器的模型。

3.利用博弈论将人机无意识竞争关系描述为博弈交互关系，来处理人机之间冲突问题；并理论推导了达到博弈均衡时驾驶员和控制器的最优控制策略。

4.在对横纵向风险力评估的基础上，设计了考虑车辆速度的驾驶权限分配策略，以此为驾驶员提供不同程度的辅助。

附图说明

图1为本发明所述的一种人机博弈横纵向协同控制方法的流程简图；

图2为本发明所述的一种人机博弈横纵向协同控制方法的控制框架图；

图3为本发明所述的一种人机博弈横纵向协同控制方法的中概率因子p和信息矩阵M的相关因素示意图；

图4为本发明所述的一种人机博弈横纵向协同控制方法中的驾驶权限分配示意图，(a)为不同车速下驾驶权限分布曲线；(b)为驾驶权限分配的三维视图。

图5为本发明所述的一种人机博弈横纵向协同控制方法中信息不对称条件下人机博弈示意图；

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述：

作为本发明的实施例，如图1至图5所示，本发明的具体实施步骤如下：

步骤一、建立信息不对称条件下的驾驶员和控制器的模型：

首先，建立车辆动力学模型，如下：

其中，C_cf和C_cr分别代表车辆前、后轮胎的侧偏刚度；m和I_z分别代表车辆质量和车辆的转动惯量；l_f和l_r分别代表车辆质心到其前轴和后轴的距离；r,δ_f,v_x and v_y分别代表横摆角、横摆角速度、前轮转角、纵向速度和横向速度；X和Y分别表示车辆的纵向和横向位移；a表示纵向加速度。

将式(1)转化为状态空间方程:

其中，ξ(t)代表车辆状态量，代表ξ(t)的一阶导数；u(t)＝[δ_f,a]^T。

对上述式(2)进行泰勒级数展开，并进行离散化处理，可以得到:

ξ(k+1)＝A_k,t(k)ξ(k)+B_k,t(k)u(k)+d_k,t(k) (3)

A_k,t(k)＝I+TA(t),B_k,t(k)＝TB(t)，T为采样周期，

d_k,t(k)＝ξ(k+1)-A_k,t(k)ξ(k)-B_k,t(k)u(k)。

在人机协同驾驶过程中，驾驶员和控制器都可以感知车辆状态和道路交通信息，做出相应的决策，共同参与车辆控制。因此将驾驶员和控制器的控制动作线性叠加后的结果作为车辆实际接收到的控制动作，如式(4)所示:

其中，λ代表驾驶权限，取值范围为0～1；δ_f代表车辆实际接受到的前轮转角；δ_d代表驾驶员施加的前轮转角；δ_c代表控制器施加的前轮转角；a代表车辆实际接受到的纵向加速度；a_d代表驾驶员施加的纵向加速度；a_c代表控制器施加的纵向加速度。

将式(3)和式(4)结合，可得到共驾模式下车辆模型，表达式如下：

ξ(k+1)＝A_k,t(k)ξ(k)+B_d,t(k)u_d(k)+B_c,t(k)u_c(k)+d_k,t(k) (5)

其中，B_d,t(k)＝λB_k,t(k)，B_c,t(k)＝(1-λ)B_k,t(k)，

u_d(k)＝[δ_d,a_d]^T，u_c(k)＝[δ_c,a_c]^T。

我们使用模型预测控制方法对驾驶员控制行为进行建模，将简化的车辆动力学模型作为驾驶员模型的预测模型。

基于上文所述，我们可以得到驾驶员单独驾驶时的驾驶员模型，表达式如下：

其中，ξ_da(t)为驾驶员单独驾驶时估计的状态量；为ξ_da(t)的一阶导数；u_d(t)为驾驶员的控制输入。

将式(6)进行线性化和离散化处理，得到式(7)：

ξ_da(k+1)＝A_da(k)ξ_da(k)+B_da(k)u_d(k)+d_da(k) (7)

其中，ξ_da(k+1)为驾驶员单独驾驶时k+1时刻估计的状态量；ξ_da(k)为驾驶员单独驾驶时k时刻估计的状态量；u_d(k)为k时刻驾驶员的控制输入；A_da(k)＝A_k,t(k)，B_da(k)＝B_k,t(k)，d_da(k)＝d_k,t(k)。

基于上文所述，我们可以得到在控制器辅助下协同驾驶的驾驶员模型，表达式如下：

其中，ξ_sc(t)为驾驶员在控制器辅助下协同驾驶时估计的状态量；为ξ_sc(t)的一阶导数；u_d(t)为驾驶员的控制输入；u_c(t)为控制器的控制输入。

将式(8)进行线性化和离散化处理，得到式(9)：

ξ_sc(k+1)＝A_sc(k)ξ_sc(k)+B_{sc_d}(k)u_d(k)+B_{sc_c}(k)u_c(k)+d_sc(k) (9)

其中，ξ_sc(k+1)为驾驶员在控制器辅助下协同驾驶时k+1时刻估计的状态量；ξ_sc(k)为驾驶员在控制器辅助下协同驾驶时k时刻估计的状态量；u_d(k)为k时刻驾驶员的控制输入；u_c(k)为k时刻控制器的控制输入；

A_sc(k)＝A_k,t(k)，B_{sc_d}(k)＝B_d,t(k)＝λB_k,t(k)，

d_sc(k)＝d_k,t(k)，B_{sc_c}(k)＝B_c,t(k)＝(1-λ)B_k,t(k)。

由此，我们得到了驾驶员单独驾驶和在控制器辅助下协同驾驶两种情况下的驾驶员模型。

在实际过程中，由于每个驾驶员的驾驶技能、驾驶经验和驾驶风格不同以及车内人机交互界面或者显示器功能的局限性而暂不能提供驾驶员所需要的全部信息，所以不同驾驶员对控制器的操纵信息的接受程度以及对车辆状态的估计程度是不同的，而且驾驶员几乎不可能掌握控制器的全部操纵信息以及车辆的全部状态量信息。因此，本发明采用概率因子p和信息矩阵M来建立信息不对称条件下驾驶员模型。

该概率因子p与驾驶员的驾驶技能、驾驶经验和驾驶风格有关，取值范围在0～1；当驾驶员驾驶技能高，驾驶员经验充足以及驾驶风格为稳重型，概率因子p值就越接近于1；反之，概率因子p值就越接近于0。它反映驾驶员对控制器的操纵信息接受程度，如图3所示。

该信息矩阵M与驾驶员的驾驶技能、驾驶经验、先验知识以及人机交互界面和显示器功能有关；信息矩阵M为对角矩阵，对角线上元素为0和1组成；驾驶员对车辆状态的估计数量越多且准确性越高，则元素1的数目越多。它来表示驾驶员估计的车辆状态与实际车辆状态之间的映射关系，反映驾驶员对车辆状态的估计程度。因此，驾驶员单独驾驶时估计的车辆状态量ξ_da(k)和在控制器辅助下协同驾驶时估计的车辆状态量ξ_sc(k)分别与车辆状态量ξ(k)之间的关系为：

ξ_da(k)＝M_daξ(k),ξ_sc(k)＝M_scξ(k) (10)

其中，M_da为驾驶员单独驾驶时的信息矩阵；M_sc为驾驶员在控制器辅助下协同控制时的信息矩阵。

综上，信息不对称下驾驶员模型由驾驶员单独驾驶时驾驶员模型、驾驶员在控制器辅助下协同驾驶时驾驶员模型、概率因子p以及信息矩阵来确定，其表达式如下：

其中，ξ_d(t)为信息不对称条件下驾驶员估计的车辆状态量；为ξ_d(t)的一阶导；/>为驾驶员在控制器辅助下协同驾驶时估计的车辆状态量的一阶导，其表达式如式(8)所示；/>为驾驶员单独驾驶时估计的车辆状态量的一阶导，其表达式如式(6)所示；p为概率因子。

将式(11)进行离散化处理,并联立式(7)和式(9)，得下式：

此外，控制器在实际车辆行驶过程中可以根据传感器等硬件较全面且精确接收到驾驶员的操纵信息和车辆状态，所以控制器对信息的掌握程度要比驾驶员的掌握程度要高。考虑到现有传感器精度较高，可以假设控制器能够完全知道驾驶员的操纵信息以及车辆状态信息。控制器对车辆状态量的估计ξ_c(t)与车辆状态量ξ(t)之间的关系可以表示为：

ξ_c(t)＝M_cξ(t) (13)

其中，M_c为控制器的信息矩阵。

同时由于驾驶员具有神经肌肉延迟特性，驾驶员大脑决定的控制动作要经过一段时间才能传递给控制器。为了提高模型的真实性以及减少驾驶员神经肌肉延迟特性对车辆控制精度的影响，因此有必要考虑驾驶员神经肌肉延迟特性。假设驾驶员神经肌肉延迟时间为t₁，系统采样周期为T,则驾驶员大脑绝对的控制动作经过τ周期后传递给控制器，其中延迟周期τ＝t₁/T。

在此基础上，基于动力学模型，利用模型预测控制方法来建立信息不对称条件下考虑驾驶员神经肌肉延迟特性的控制器模型，表达式如下：

其中，ξ_c(t)代表控制器估计的车辆状态量；为ξ_c(t)的一阶导；u_d(t)为驾驶员的控制输入；u_c(t)为控制器的控制输入。

将式(14)进行线性化和离散化处理，得到下式：

ξ_c(k+1)＝A_c(k)ξ_c(k)+B_{c_d}(k)u_d(k-τ)+B_{c_c}(k)u_c(k)+d_c(k) (15)

其中，ξ_c(k+1)为控制器k+1时刻估计的状态量；ξ_c(k)为控制器k时刻估计的状态量；u_c(k)为k时刻控制器的控制输入；u_d(k-τ)为考虑驾驶员神经肌肉延迟特性后控制器在k时刻所接收到的驾驶员的控制输入；τ为延迟周期。

A_c(k)＝A_k,t(k)，B_{c_d}(k)＝B_d,t(k)＝λB_k,t(k)，

d_c(k)＝d_k,t(k)，B_{c_c}(k)＝B_c,t(k)＝(1-λ)B_k,t(k)。

步骤二、设计人机博弈横向和纵向协同控制策略：

在人机共驾过程中，驾驶员和控制器不断地交互各自的控制策略，并分别依据对方的控制策略来不断地调整自身的控制策略，使得自身目标函数最小，以追求自身最大收益；在驾驶员和控制器追求自身最大收益时，人机之间不免形成竞争关系，产生人机冲突。本步骤利用博弈论将人机之间无意识竞争关系描述为博弈交互关系，以此来处理人机之间冲突问题；并设计横纵向协同控制策略，包含驾驶员和控制器目标函数和驾驶权限分配策略的建立，其中根据迭代后得到的驾驶员和控制器的状态输出、各自的期望状态量和控制输入来建立目标函数，以追求路径跟踪性能和操纵平顺性；基于横纵向风险力的评估，并考虑车速变化来设计驾驶权限分配策略，从而为驾驶员提供不同程度地辅助，具体方式如下：

首先，将步骤一中信息不对称条件下驾驶员和控制器的离散后的状态空间方程进行迭代，得到驾驶员和控制器的状态输出方程。驾驶员的状态输出方程如式(16)所示：

同理，控制器的状态输出方程如式(17)所示：

其中，Y_d(k)代表迭代后得到的驾驶员的状态量输出；Y_c(k)代表迭代后得到的控制器的状态量输出；p为概率因子；ξ_sc(k)为驾驶员在控制器辅助下协同驾驶时k时刻估计的状态量；ξ_da(k)为驾驶员单独驾驶时k时刻估计的状态量；ξ_c(k)为控制器在k时刻估计的状态量；U_d(k)为预测时域N_p内驾驶员的控制序列；U_c(k)为预测时域N_p内控制器的控制序列；U_d(k-τ)为预测时域N_p内考虑驾驶员神经肌肉延迟特性后控制器所接收到的驾驶员的控制序列；N_p是预测时域；N_c是控制时域。

/>

然后，根据迭代后得到的驾驶员和控制器的状态量输出、各自的期望状态量和控制输入(包含各自施加的前轮转角和纵向加速度)来建立驾驶员和控制器的目标函数，以追求路径跟踪性能和操纵平顺性，提高人机横纵向协同性能目标函数如下：

其中，Jd代表驾驶员的目标函数；Jc代表控制器的目标函数；Y_d(k)代表迭代后得到的驾驶员的状态量输出；Y_c(k)代表迭代后得到的控制器的状态量输出；T_d(k)代表驾驶员的期望状态量；T_c(k)代表控制器的期望状态量；Q₁、Q₂、R₁和R₂均代表权重因子；δ_d(k)为预测时域内驾驶员施加的前轮转角控制序列；a_d(k)为预测时域内驾驶员施加的纵向加速度控制序列；δ_c(k)为预测时域内控制器施加的前轮转角控制序列；a_c(k)为预测时域内控制器施加的纵向加速度控制序列。

接着，通过考虑车辆位置到道路边界的距离和道路限速来进行横纵向风险场力的计算；同时考虑车辆速度的变化来设计驾驶权限分配策略，以此能够根据实际情况为驾驶员提供不同程度的辅助。

一般来说，道路边界线能对车辆横向运动有约束作用。为了避免车辆与道路边界发生碰撞，建立道路边界势场来描述车道线对车辆的约束。当车辆接近道路边界时，道路边界势场力会逐渐增大。因此我们可以用式(19)来描述横向风险场力:

其中，F_c代表横向风险场力；k₁为常系数；k₂为侧向坡度调整系数；m代表车辆质量；v代表车辆速度；y_d为车辆重心到道路边界的距离；r₀代表驾驶员对风险的关注范围；r₁代表道路边界线的影响范围；D代表车道宽度。

道路纵向速度限制是指车辆在道路上沿某一特定方向行驶时所允许的最高和最低速度。当车辆超过道路上的最高速度限制或低于道路上的最低速度限制时，驾驶员的操作行为不仅违反了交通规则，而且对附近行驶的其他车辆构成威胁。因此我们可以用式(20)来描述纵向风险场力:

其中，F_l代表纵向风险场力；m代表车辆质量；v_l,min和v_l,nax分别表示道路所允许行驶的最低和最高车速；r₀代表驾驶员对风险的关注范围；r₁代表道路边界线的影响范围；k_x和k_y分别表示车辆速度的纵向和横向梯度调整系数；x_p和y_p分别表示车辆与其他交通参与者在纵向和横向的距离。

基于所述的横纵向风险场力的评估，我们可以得到纵向和横向一体化风险评估模型；将横向风险场力F_c和纵向风险场力F_l进行归一化处理，可得到标准化的驾驶风险场力F_q，其表达式如下：

基于标准化的驾驶风险场力F_q，设计了驾驶权限的分配策略。在接管过程中，要考虑到驾驶员在恐慌情况下做出的决策不够理性，希望在驾驶风险场力F_q较大时，能够增加控制器的驾驶权重，以保证车辆能够规避风险；反之，驾驶员的驾驶权重占比高些。

另外在实际行驶过程中，车辆速度的变化会影响车辆的稳定性和安全性，因此在设计驾驶权限分配策略时有必要考虑车辆速度这一因素。我们希望速度越高，驾驶权限分布曲线随标准化的驾驶风险场力F_q的增大而下降得越快，从而使驾驶权限更快地转移给控制器，以保证接管过程的安全。

综合考虑驾驶风险场力F_q和车辆速度v这两方面来设计驾驶权限分配策略，我们可以用式(22)来描述：

其中，λ代表驾驶权限；ω₁、ω₂和ω₃均为调优参数。

综上所述，在信息不对称条件下考虑驾驶员特性的人机博弈横纵向协同控制问题可以描述为：

步骤三、理论推导达到博弈均衡时人机双方最优控制策略：

其中，J_d(U_d ^*,U_c ^*)表示达到博弈均衡时驾驶员的目标函数；J_d(U_d,U_c ^*)表示在博弈均衡点处，驾驶员单方面改变自身控制策略后的驾驶员的目标函数；J_c(U_d ^*,U_c ^*)表示达到博弈均衡时控制器的目标函数；J_c(U_d ^*,U_c)表示在博弈均衡点处，控制器单方面改变自身控制策略后的控制器的目标函数。

因此当达到博弈均衡时，没有人可以通过单方面改变自身控制策略来获得更好的结果。

基于步骤二中所述的人机博弈横纵向协同控制策略，我们可以将求解达到博弈均衡时人机双方最优控制策略问题转化成求解式(23)。首先我们将驾驶员和控制器各自状态量输出方程带入各自目标函数中去，将求解式(23)问题转化成求解最小二乘问题；然后结合凸迭代辅助方程来处理驾驶员和控制器两者控制动作耦合交互问题；最后获得达到博弈均衡时驾驶员和控制器的最优控制策略，具体方式如下：

首先，将驾驶员和控制器各自状态输出方程带入到各自目标函数(J_d和J_c)，即将式(16)和式(17)带入到式(18)，可得下式：

其中，权重因子Q_j＝S_Qj ^TS_Qj，R_j＝S_Rj ^TS_Rj，j＝1,2；

/>

将考虑驾驶员神经肌肉延迟特性后得到的控制序列U_d(k-τ)与U_d(k)进行转化：

W_k-τU_d(k-τ)＝W_kU_d(k) (26)

其中，

因此，最优控制序列U_d(k)^*和U_c(k)^*为如下最小二乘问题的解：

为了提高计算结果的准确性和减少计算时间，可采用正交三角分解法来求解最小二乘问题。因此，驾驶员的最优控制序列U_d(k)^*和控制器的最优控制序列U_c(k)^*可以得到如下形式:

然后，由式(28)可知，驾驶员的最优控制序列U_d(k)^*不仅取决于驾驶员自身的期望状态量T_d(k)和估计的车辆系统状态ξ_sc(k)、ξ_da(k)，还取决于控制器的控制序列U_c(k)。同样地，控制器的最优控制序列U_c(k)^*也取决于驾驶员的控制序列U_d(k)。因此我们可以得知驾驶员和控制器的最优控制策略是相互耦合的，博弈双方优化问题的求解需要知道对方的优化结果，所以直接求解最优控制策略是不可能的。为了解决这个问题，我们可以使用凸迭代辅助方程:

其中，q表示迭代步数；当q→+∞，U_d(k)＝U_d ^*(k)、U_c(k)＝U_c ^*(k)。κ₁、和κ₂均为迭代权重值，取值范围0～1。

最后，联立式(28)和式(29)，可获得达到博弈均衡时驾驶员和控制器的最优控制策略；驾驶员和控制器最优控制序列表达式如下：

其中，

步骤四、实现信息不对称条件下人机博弈横纵向协同控制：

首先分别提取步骤三中求解出来的驾驶员和控制器的最优控制序列U_d(k)^*、U_c(k)^*的第一项，然后通过人机输入模式将驾驶员和控制器的最优控制动作进行线性叠加，最后作用于车辆，从而实现横纵向协同控制，具体方式如下：

首先，按照式(31)提取步骤三中求解出来的驾驶员和控制器的最优控制序列U_d(k)^*、U_c(k)^*的第一项，作为未来k时刻驾驶员和控制器的最优控制动作u_d(k)^*、u_c(k)^*，具体表达式如下：

其中，u_d(k)^*＝[δ_d,a_d]^T，u_c(k)^*＝[δ_c,a_c]^T；δ_d和a_d分别代表驾驶员施加的前轮转角和纵向加速度；δ_c和a_c分别代表控制器施加的前轮转角和纵向加速度。

然后根据人机输入模式将驾驶员和控制器的最优控制动作u_d(k)^*、u_c(k)^*进行线性叠加，可得到未来k时刻车辆的前轮转角δ_f和纵向加速度a，如下式所示：

其中，λ代表驾驶权限。

最后，将得到的前轮转角δ_f直接作为车辆的输入，进而对车辆横向运动进行控制；将得到的纵向加速度a输入到已标定的油门/刹车标定表，可得到相应的油门开度或者制动主缸压力，进而对车辆纵向运动进行控制；通过得到的前轮转角δ_f以及油门开度或者制动主缸压力来实现信息不对称条件下考虑驾驶员特性的人机博弈横纵向协同控制。

上面结合实施例/附图对本发明的技术方案作了详细说明，但是本发明并不限于上述技术方案，对于本技术领域的普通技术人员来说，在获知本发明中记载内容后，在不脱离本发明原理的前提下，还可以对其作出若干同等变换和替代，这些同等变换和替代也应视为属于本发明的保护范围。

Claims

1.一种人机博弈横纵向协同控制方法，其特征在于，包括如下所述的步骤：

所述的驾驶员模型包括：

驾驶员的信息矩阵，根据驾驶员的驾驶技能、驾驶经验、先验知识和人机交互界面以及显示器功能建立的驾驶员对车辆状态的估计程度加以确定；所述信息矩阵包括：驾驶员单独驾驶时的信息矩阵和驾驶员在控制器辅助下协同控制时的信息矩阵；

步骤二、利用博弈论将人机之间无意识竞争关系描述为博弈交互关系，并建立横向和纵向协同控制策略，所述协同控制策略包括：驾驶员和控制器目标函数和驾驶权限分配策略；其中，所述的驾驶员和控制器目标函数是根据驾驶员和控制器的模型迭代后得到的驾驶员和控制器的状态输出、各自的期望状态量和控制输入建立的；所述的驾驶权限分配策略是基于对横纵向风险场力的评估，同时考虑车辆速度变化来设计的；

步骤四、实现人机博弈横纵向协同控制。

2.根据权利要求1所述的一种人机博弈横纵向协同控制方法，其特征在于，

所述的驾驶员和控制器的模型，包括驾驶员的模型和控制器的模型，其中，

所述的驾驶员的模型为：

其中，ξ_d(t)为信息不对称条件下驾驶员估计的车辆状态量；为ξ_d(t)的一阶导；为驾驶员在控制器辅助下协同驾驶时估计的车辆状态量的一阶导；/>为驾驶员单独驾驶时估计的车辆状态量的一阶导；p为概率因子。驾驶员单独驾驶时估计的车辆状态量ξ_da(t)和在控制器辅助下协同驾驶时估计的车辆状态量ξ_sc(t)分别与车辆状态量ξ(t)之间的关系为：ξ_da(t)＝M_daξ(t),ξ_sc(t)＝M_scξ(t)，M_da为驾驶员单独驾驶时的信息矩阵；M_sc为驾驶员在控制器辅助下协同控制时的信息矩阵；

所述的控制器的模型为：

3.根据权利要求2所述的一种人机博弈横纵向协同控制方法，其特征在于：所述的驾驶员和控制器的模型的建立过程：

首先，建立车辆动力学模型：

将上式转化为状态空间方程:

ξ(k+1)＝A_k,t(k)ξ(k)+B_k,t(k)u(k)+d_k,t(k)；

A_k,t(k)＝I+TA(t),B_k,t(k)＝TB(t)，T为采样周期，

d_k,t(k)＝ξ(k+1)-A_k,t(k)ξ(k)-B_k,t(k)u(k)；

ξ(k+1)＝A_k,t(k)ξ(k)+B_d,t(k)u_d(k)+B_c,t(k)u_c(k)+d_k,t(k) (5)

其中，B_d,t(k)＝λB_k,t(k)，B_c,t(k)＝(1-λ)B_k,t(k)，

u_d(k)＝[δ_d,a_d]^T，u_c(k)＝[δ_c,a_c]^T。

4.根据权利要求1所述的一种人机博弈横纵向协同控制方法，其特征在于：所述的驾驶员和控制器目标函数是利用步骤一所述驾驶员和控制器的模型迭代后得到驾驶员和控制器的状态输出和各自的参考状态输出以及控制输入来建立的；

5.根据权利要求4所述的一种人机博弈横纵向协同控制方法，其特征在于，所述的驾驶员和控制器目标函数表示式：

其中，λ代表驾驶权限；ω₁、ω₂和ω₃均为调优参数；

6.根据权利要求1所述的一种人机博弈横纵向协同控制方法，其特征在于，所述的人机双方最优控制策略是基于步骤二中所述的人机之间博弈交互关系以及所述的横向和纵向协同控制策略，结合凸迭代辅助方程来求解最小二乘问题获得的。

7.根据权利要求6所述的一种人机博弈横纵向协同控制方法，其特征在于，所述人机双方最优控制策略的理论推导过程：

W_k-τU_d(k-τ)＝W_kU_d(k)；

8.根据权利要求1所述的一种人机博弈横纵向协同控制方法，其特征在于，所述步骤四中的人机博弈横纵向协同控制的实现过程：