CN113200056B - 一种非完全信息非合作博弈人机共驾控制方法 - Google Patents

一种非完全信息非合作博弈人机共驾控制方法 Download PDF

Info

Publication number
CN113200056B
CN113200056B CN202110694150.7A CN202110694150A CN113200056B CN 113200056 B CN113200056 B CN 113200056B CN 202110694150 A CN202110694150 A CN 202110694150A CN 113200056 B CN113200056 B CN 113200056B
Authority
CN
China
Prior art keywords
vehicle
driver
state
game
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110694150.7A
Other languages
English (en)
Other versions
CN113200056A (zh
Inventor
常宇鹏
郑宏宇
何睿
郭中阳
宋娟娟
王剑波
吴竟启
束琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Jiangsu Chaoli Electric Inc
Original Assignee
Jilin University
Jiangsu Chaoli Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University, Jiangsu Chaoli Electric Inc filed Critical Jilin University
Priority to CN202110694150.7A priority Critical patent/CN113200056B/zh
Publication of CN113200056A publication Critical patent/CN113200056A/zh
Application granted granted Critical
Publication of CN113200056B publication Critical patent/CN113200056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/005Handover processes
    • B60W60/0059Estimation of the risk associated with autonomous or manual driving, e.g. situation too complex, sensor failure or driver incapacity
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • B60W2050/0034Multiple-track, 2D vehicle model, e.g. four-wheel model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/12Lateral speed

Abstract

本发明公开了一种非完全信息非合作博弈人机共驾控制方法,属于智能汽车决策领域,首先建立人车操纵博弈模型,模型包含操纵动力学模型、驾驶员和车辆路径预览模型,再建立车辆实际行驶情况下驾驶员和车辆信息获取与真实系统状态的线性关系,并在非完全信息模式下对人车操纵博弈模型中驾驶员和车辆决策进行假设,所假设的非完全信息非合作最优策略目的为优化包含驾驶员和车辆输入、系统状态的收益函数,最后根据非完全信息下驾驶员和车辆信息掌握精确程度和数量特点求解驾驶员和车辆最优策略迭代公式,并给出迭代公式的迭代方法。

Description

一种非完全信息非合作博弈人机共驾控制方法
技术领域
本发明属于智能汽车博弈决策领域,特别涉及一种非完全信息非合作博弈人机共驾控制方法。
背景技术
智能网联汽车是集高精度感知技术、智能决策技术、V2X技术、深度学习技术和其他多项技术于一体的新型汽车,其符合汽车为驾驶员提供更安全、更舒适的驾驶体验的发展趋势。目前,车辆自适应巡航、自动泊车和一些处理简单场景的车辆技术日渐成熟,但在面对复杂且多变的驾驶环境和对道路上特殊物体识别情况时,智能网联汽车技术仍有很大的提升空间。
在当前车辆不能完全达到L4、L5自动驾驶水平的情况下,人机共驾,即驾驶员和汽车共享控制权成为一种中间替代方案,这其中不可避免地涉及到驾驶员和汽车驾驶行为的相互影响,涉及到人车博弈情况。
在当前对人车博弈的研究中,大多是以完全信息博弈为研究对象,很少涉及非完全信息下人车信息模式分析以及驾驶员和车辆最优策略求解方法的研究。然而,在现实情况下,驾驶员和车辆并不能够掌握博弈的全部信息,可能智能凭经验对某一信息或某些信息进行估计,且可能掌握模糊的博弈信息。这种情况下,博弈双方的策略都会与以往的情况不同,从而需要进一步研究更加符合实际情况的博弈控制方法。
中国专利CN112926744A提供了一种基于强化学习的非完全信息博弈方法、系统以及电子设备,通过获取博弈及所述博弈场景对应的至少两个智能体,并用多维向量表示所述智能体的各个博弈状态和博弈行为;获取博弈过程中各智能体的博弈数据,计算终局收益值;根据所述终局收益值,计算博弈过程中各博弈行为的反事实后悔值,得到训练数据;根据所述训练数据对所述至少两个智能体的神经网络进行训练,并输出策略模型。
发明内容
为了应对信息模式下驾驶员和车辆博弈的相互影响并提出相应的控制决策,本发明提出了一种非完全信息非合作博弈人机共驾控制方法;
为实现以上目的,本发明采用以下解决方案:
步骤S1建立人车操纵博弈模型,首先建立车辆二自由度系统动力学模型并离散化,离散化的模型中包括车辆横向车速,车辆横摆角速度,车辆横向位移,横向位移积分,车辆横摆角为系统状态,再建立驾驶员和车辆对目标路径的预览模型,在实际行驶中,利用车载摄像头采集车辆前进方向图像,判断车辆当前行驶路径,并与预览模型中的期望路径对比,规划下一步行驶路径,最终将离散车辆二自由度系统动力学模型中侧向位移变量下扩展预览路径描述向量,此模型中转向系统为线控转向系统,线控转向系统根据驾驶员操纵输入与控制器叠加操纵输入之和执行汽车前轮转角;
步骤S2建立非完全信息模式下人车信息博弈数学表达形式,在所述非完全信息模式下,根据驾驶员和车辆信息掌握途径不同,车辆通过车载摄像头和传感器获取信息准确度高,驾驶员通过驾驶经验以及视野接收信息准确程度低且受干扰,建立车辆与驾驶员所掌握系统状态与系统真实状态的线性关系;
步骤S3建立人车行驶收益博弈模型,根据驾驶员和车辆操作输入以及非完全信息下的驾驶员和车辆对系统状态掌握特点设计系统收益函数,收益函数值的大小设计为驾驶员和车辆操作输入相关的权重系数,实现了人车行驶收益博弈;
步骤S4求解控制策略,针对上述设计的非完全信息非合作博弈人机共驾框架和所设计的收益函数特点,以及利用非完全信息状态下驾驶员和车辆对系统状态掌握情况的特点,设计并求解驾驶员和车辆随对方操作输入和针对估计的系统状态而实时变化的最优控制策略,其中驾驶员操纵输入由传感器测得和软件估计方法得到,并将测得和估计得到的数据传输给控制器进行比对分析,控制器根据车载摄像头和转角传感器采集到的车辆状态和驾驶员输入,控制器计算当前车辆最优控制策略,并控制线控转向系统执行所控制器计算的控制策略;
步骤S5迭代求解参数,根据上述S4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S1建立避障场景下人车操纵博弈模型;
首先建立二自由度车辆动力学模型
Figure BDA0003127729580000025
U=δdc
Figure BDA0003127729580000021
Figure BDA0003127729580000022
其中,系统状态X=[v ω y yint ψ]T,v为车辆横向车速,ω为车辆横摆角速度,y为车辆横向位移,yint为横向位移积分,ψ为车辆横摆角,A、B为系统状态矩阵,U为系统输入矩阵,其代表驾驶员方向盘输入转角δd和线控转向系统方向盘输入转角δc,Cf、Cr分别为前后轮侧偏刚度,la、lb分别为前后轴到质心的距离,vc为车辆纵向速度,m为车辆总质量,G为转向系统总传动比,i为车辆绕横摆惯量,驾驶员和线控转向系统方向盘转角输入受到对方的操作影响从而根据对方的输入和当前驾驶状况判断自身的方向盘转角输入决策,构成人车操纵博弈;
建立非完全信息非合作博弈场景人车目标路线预览模型,其采用移位寄存器方法建立,驾驶员和车辆对目标路径预览行为表示为驾驶员和车辆分别观察目标路径上的预览点,并且在车辆行驶过程中始终有旧预览点去除和新的预览点输入,驾驶员和车辆一次最多可预览的预览点数量设定为N个,预览方式建模如下:
Rd(k+1)=Ar1Ri(k)+Ar2Rd N
Rc(k+1)=Ar1Ri(k)+Ar2Rc N
其中,Rd和Rc分别为代表驾驶员和车辆路径预览向量,维数为(3N+3)*1,
Figure BDA0003127729580000023
为驾驶员和车辆最新预览点输入,维数为3*1,Ar1和Ar2为状态转移矩阵,Ri
Figure BDA0003127729580000024
为预览路径描述向量,都包含了车辆横向位移y、横向位移积分yint和车辆横摆角ψ;
Figure BDA0003127729580000031
Figure BDA0003127729580000032
为了便于计算求解且能够和非完全信息非合作博弈场景人车目标路线预览模型相结合,按照t秒的采样间隔对二自由度系统进行离散化处理,形式如下:
X(k+1)=AdX(k)+BdU
Ad=et*A
Figure BDA0003127729580000034
将离散化的模型与非完全信息非合作博弈场景人车目标路线预览模型相结合,形成离散化人车操纵博弈模型,如下:
Z(k+1)=FZ(k)+G1u(k)+G1v(k)+G2RN
其中,Z(k+1)=[X(k)Rc(k)Rd(k)]T,F、G1、G2为系统状态矩阵,u(k)为车辆输入向量,v(k)为驾驶员方向盘转角输入向量。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S2对非完全信息非合作情况下人车信息模式进行分析;
非完全信息情况下,驾驶员和车辆至少其中一方不能掌握博弈的全部信息,其中,博弈的全部信息包括系统状态、博弈对方策略以及博弈对方对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:
Z1=H1Z+W1
Z2=H2Z+W2
其中Z1和Z2分别表示车辆和驾驶员对系统状态的估计,H1、H2为状态估计矩阵,W1、W2为随机干扰,当驾驶员和车辆对系统状态完全掌握时,H1、H2为单位矩阵,W1、W2为零矩阵;当驾驶员和车辆对系统状态完全不清楚时,H1、H2为零矩阵,W1、W2为零矩阵;当驾驶员和车辆对系统状态部分掌握时,H1、H2为主对角线上部分元素为0的对角矩阵,W1、W2为随机干扰;
在非完全信息情况下驾驶员只知道车辆的初始状态,而不知道行驶中的中间状态,而车辆可通过车载传感器和摄像头了解车辆当前状态信息;
驾驶员不知道系统的状态,且不知道车辆对系统状态的估计,只能根据车辆对方向盘转角输入、依据先验知识估计的车辆状态以及对自身目标路径的预览来判断自身最优决策,而车辆要根据当前车辆状态,驾驶员对方向盘转角输入、驾驶员对车辆状态估计与真实状态的偏差以及对自身目标路径的预览来判断当前应采取的策略。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S3对非完全信息非合作博弈情况下人车博弈收益函数进行设计;
设计收益函数中驾驶员和车辆的操作输入为加权项,并包含了可观察的可预览的车辆最终状态为收益函数的一部分,在非完全信息条件下,没有将不能完全掌握的系统状态设为人车博弈收益函数的一部分,收益函数设计如下:
Figure BDA0003127729580000041
其中,Jd、Jc分别为驾驶员和车辆收益函数其值都为J,Q1、Q2分别为驾驶员和车辆的收益函数加权矩阵,CTC为车辆状态加权矩阵,Z(T)为车辆可预览的最终状态收益加权矩阵。
上述方案中,所述基于线控转向的非完全信息人机博弈控制方法,其特征在于,所述步骤S4对非完全信息非合作情况下人车博弈最优控制策略进行求解;
在非完全信息情况下,车辆所掌握系统状态Z1(k)近似等于车辆真实状态Z(k),驾驶员只能获得自身估计的系统状态Z2(k),驾驶员能够通过方向盘感受到车辆方向盘转角输入,而车辆也能通过转角传感器检测到驾驶员方向盘转角输入;
在此信息模式下,车辆根据掌握的系统状态Z1(k)和驾驶员估计系统状态Z2(k)与实际值Z(k)的偏差这两个因素来制定自身决策,而驾驶员根据自身对系统状态的估计Z2(k)来判断自身决策,则设驾驶员估计系统状态与实际值的偏差
Figure BDA0003127729580000042
车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)为如下形式:
Figure BDA0003127729580000043
Figure BDA0003127729580000044
v(k)=CdZ2(k)
其中,Cc、Cd、Dc为变量,将所设控制输入代入系统状态方程和系统收益函数中,得到
Figure BDA0003127729580000045
将所设驾驶员估计系统状态与实际值的偏差
Figure BDA0003127729580000046
车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)带入收益函数得到
Figure BDA0003127729580000047
为便于计算,并简化以上方程,设
Figure BDA0003127729580000048
Y(k)=E[Z(k) Z(k)]
根据所设的P(k)和Y(k)简化收益函数后得
Figure BDA0003127729580000051
从而根据拉格朗日乘数方法,设计收益函数如下
Figure BDA0003127729580000052
其中
P(k+1)=(F+G1Cc+G1Dc)P(k)+[Y(k)FT+(Y(k)-P(k))Cd TG1 T+Y(k)Cc TG1 T+P(k)Dc TG1 T](I-H2)T
Y(k+1)=FY(k)+G1Cd(Y(k)-P(k))+G1CcY(k)+G1DcP(k)+Y(k)FT+(Y(k)-P(k))Cd TG1 T+Y(k)Cc TG1 T+P(k)Dc TG1 T
根据拉格朗日乘数法理论,为求出最优解,必有对所求变量求偏导值为零
Figure BDA0003127729580000053
Figure BDA0003127729580000054
Figure BDA0003127729580000055
由(1)、(2)可得
Figure BDA0003127729580000056
Figure BDA0003127729580000057
由(3)可直接得
Figure BDA0003127729580000058
继续对P(k)和Y(k)求偏导
Figure BDA0003127729580000061
Figure BDA0003127729580000062
得到迭代计算公式
Figure BDA0003127729580000063
Figure BDA0003127729580000064
上式中,为使公式表述简洁,对公式中部分变量进行了简化描述,其中有
Figure BDA0003127729580000065
X3=F+X1(z+Γ)-X2(z+Γ)
z=(I-H2)Tλ1(k+1)
Figure BDA0003127729580000066
根据收益函数可知,端点值为
λ1(k+N)=0
λ2(k+N)=CTC。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,步骤S5对参数迭代求解,根据上述S4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤;
公式(4)和(5)中,公式左边λ1、λ2皆为第k步的值,而公式右边λ1、λ2皆为第k+1步的值,已知k+N步端点值,因此需要从k+N步开始逐步迭代至k+1步以求出最优控制策略参数值,首先代入k+N步端点值至迭代公式,然后逐步迭代至k+1步的值,代入计算公式计算得到Cc、Dc和Cd值,代入求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车操纵博弈模型。
附图说明
图1本发明一种非完全信息非合作博弈人机共驾控制方法;
具体实施方式
下面根据附图及具体实施例,对本发明进一步详细说明
如图1所示,一种非完全信息非合作博弈人机共驾控制方法其包括以下步骤:
步骤S1建立离散化人车非合作交互模型,首先建立车辆系统动力学模型并离散化,再建立驾驶员和车辆对目标路径的预瞄模型,在实际行驶中,利用车载摄像头采集车辆前进方向图像,判断车辆当前行驶路径,并与预瞄模型中的期望路径对比,规划下一步行驶路径,最终将离散车辆系统动力学模型和驾驶员和车辆目标路径预览模型结合,形成最终的交互模型,此模型中转向系统为线控转向系统,线控转向系统根据驾驶员和车辆的方向盘输入之和与转向系统传动比的乘积的值执行汽车前轮转角,因此汽车前轮转角由驾驶员和车辆的方向盘输入之共同决定,初步体现了人车之间的博弈;
步骤S2非完全信息模式下人车信息模式分析,针对所研究的非完全信息模式下的博弈,分析驾驶员和车辆对系统状态掌握情况并建立其数学表达形式,在非完全信息模式下对离散化人车非合作交互模型进行分析,形成非完全信息非合作博弈人机共驾框架,分析驾驶员和车辆在当前情况下做出决策的依据,并为收益函数的设计提供依据;
步骤S3收益函数设计,根据驾驶员和车辆操作输入以及非完全信息下的驾驶员和车辆对系统状态掌握特点设计系统收益函数,收益函数值的大小取决于驾驶员和车辆操作输入以及权重系数,进一步体现了人车之间的博弈;
步骤S4控制策略求解,针对上述设计的非完全信息非合作博弈人机共驾框架和所设计的收益函数特点,以及利用非完全信息状态下驾驶员和车辆对系统状态掌握情况的特点,设计并求解驾驶员和车辆随对方操作输入和针对估计的系统状态而实时变化的最优控制策略,其中驾驶员方向盘输入转角由转角传感器测得,并将测得的数据传输给控制器,控制器根据车载摄像头和转角传感器采集到的车辆状态和驾驶员输入,计算当前车辆最优控制策略,并控制线控转向系统执行所计算的控制策略;
步骤S5参数迭代求解,根据上述S4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S1建立避障场景下人机交互模型;
首先建立二自由度车辆动力学模型
Figure BDA0003127729580000071
其中,系统状态X=[v ω y yintψ]T,v为车辆横向车速,ω为车辆横摆角速度,y为车辆横向位移,yint为横向位移积分,ψ为车辆横摆角,A、B为系统状态矩阵,U为系统输入矩阵,其值为驾驶员方向盘输入转角δd和线控转向系统方向盘输入转角δc之和,驾驶员和线控转向系统方向盘转角输入受到对方的操作影响从而根据对方的输入和当前驾驶状况判断自身的方向盘转角输入决策,构成人车操纵博弈;
建立非完全信息非合作博弈场景人车目标路线预览模型,其采用移位寄存器方法建立,驾驶员和车辆对目标路径预览行为表示为驾驶员和车辆分别观察目标路径上的预览点,并且在车辆行驶过程中始终有旧预览点去除和新的预览点输入,驾驶员和车辆一次最多可预览的预览点数量设定为N=100个,预览方式建模如下:
Rd(k+1)=Ar1Ri(k)+Ar2Rd N
Rc(k+1)=Ar1Ri(k)+Ar2Rc N
其中,Rd和Rc分别为代表驾驶员和车辆路径预览向量,维数为202*1,
Figure BDA0003127729580000072
为驾驶员和车辆最新预览点输入,维数为2*1,Ar1和Ar2为状态转移矩阵,Ri
Figure BDA0003127729580000073
都包含了车辆横向位移y和车辆横摆角ψ;
为了便于计算求解且能够和非完全信息非合作博弈场景人车目标路线预览模型相结合,按照t秒的采样间隔对二自由度“自行车模型”进行离散化处理,形式如下:
X(k+1)=AdX(k)+BdU
Ad=et*A
Figure BDA0003127729580000082
将离散化的模型与非完全信息非合作博弈场景人车目标路线预览模型相结合,形成离散化人车非合作交互模型,如下:
Z(k+1)=FZ(k)+G1u(k)+G1v(k)+G2RN
其中,Z(k+1)=[X(k) Rc(k) Rd(k)]T,F、G1、G2为系统状态矩阵,u(k)为车辆输入向量,v(k)为驾驶员方向盘转角输入向量。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S2对非完全信息非合作情况下人车信息模式进行分析;
非完全信息情况下,驾驶员和车辆至少其中一方不能掌握博弈的全部信息,其中,博弈的全部信息包括系统状态、博弈对方策略以及博弈对方对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:
Z1=H1Z+W1
Z2=H2Z+W2
其中Z1和Z2分别表示车辆和驾驶员对系统状态的估计,H1、H2为状态估计矩阵,W1、W2为随机干扰,当驾驶员和车辆对系统状态完全掌握时,H1、H2为单位矩阵,W1、W2为零矩阵;当驾驶员和车辆对系统状态完全不清楚时,H1、H2为零矩阵,W1、W2为零矩阵;当驾驶员和车辆对系统状态部分掌握时,H1、H2为主对角线上部分元素为0的对角矩阵,W1、W2为随机干扰;
在非完全信息情况下驾驶员只知道车辆的初始状态,而不知道行驶中的中间状态,而车辆可通过车载传感器和摄像头了解车辆当前状态信息;
驾驶员不知道系统的状态,且不知道车辆对系统状态的估计,只能根据车辆对方向盘转角输入、依据先验知识估计的车辆状态以及对自身目标路径的预览来判断自身最优决策,而车辆要根据当前车辆状态,驾驶员对方向盘转角输入、驾驶员对车辆状态估计与真实状态的偏差以及对自身目标路径的预览来判断当前应采取的策略。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S3对非完全信息非合作博弈情况下人车博弈收益函数进行设计;
设计收益函数中驾驶员和车辆的操作输入为加权项,并包含了可观察的可预览的车辆最终状态为收益函数的一部分,在非完全信息条件下,没有将不能完全掌握的系统状态设为人车博弈收益函数的一部分,收益函数设计如下:
Figure BDA0003127729580000083
其中,Jd、Jc分别为驾驶员和车辆收益函数其值都为J,Q1、Q2分别为驾驶员和车辆的收益函数加权矩阵,CTC为车辆状态加权矩阵,Z(T)为车辆可预览的最终状态收益加权矩阵。
上述方案中,所述基于线控转向的非完全信息人机博弈控制方法,其特征在于,所述步骤S4对非完全信息非合作情况下人车博弈最优控制策略进行求解;
在非完全信息情况下,车辆所掌握系统状态Z1(k)近似等于车辆真实状态Z(k),驾驶员只能获得自身估计的系统状态Z2(k),驾驶员能够通过方向盘感受到车辆方向盘转角输入,而车辆也能通过转角传感器检测到驾驶员方向盘转角输入;
在此信息模式下,车辆根据掌握的系统状态Z1(k)和驾驶员估计系统状态Z2(k)与实际值Z(k)的偏差这两个因素来制定自身决策,而驾驶员根据自身对系统状态的估计Z2(k)来判断自身决策,则设驾驶员估计系统状态与实际值的偏差
Figure BDA0003127729580000091
车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)为如下形式:
Figure BDA0003127729580000092
Figure BDA0003127729580000093
v(k)=CdZ2(k)
其中,Cc、Cd、Dc为变量,将所设控制输入代入系统状态方程和系统收益函数中,得到
Figure BDA0003127729580000094
将所设驾驶员估计系统状态与实际值的偏差
Figure BDA0003127729580000095
车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)带入收益函数得到
Figure BDA0003127729580000096
为便于计算,并简化以上方程,设
Figure BDA0003127729580000097
Y(k)=E[Z(k)Z(k)]
根据所设的P(k)和Y(k)简化收益函数后得
Figure BDA0003127729580000098
从而根据拉格朗日乘数方法,设计收益函数如下
Figure BDA0003127729580000099
其中
P(k+1)=(F+G1Cc+G1Dc)P(k)+[Y(k)FT+(Y(k)-P(k))Cd TG1 T+Y(k)Cc TG1 T+P(k)Dc TG1 T](I-H2)T
Y(k+1)=FY(k)+G1Cd(Y(k)-P(k))+G1CcY(k)+G1DcP(k)+Y(k)FT+(Y(k)-P(k))Cd TG1 T+Y(k)Cc TG1 T+P(k)Dc TG1 T
根据拉格朗日乘数法理论,为求出最优解,必有对所求变量求偏导值为零
Figure BDA0003127729580000101
Figure BDA0003127729580000102
Figure BDA0003127729580000103
由(1)、(2)可得
Figure BDA0003127729580000104
Figure BDA0003127729580000105
由(3)可直接得
Figure BDA0003127729580000106
继续对P(k)和Y(k)求偏导
Figure BDA0003127729580000107
Figure BDA0003127729580000108
得到迭代计算公式
Figure BDA0003127729580000109
Figure BDA00031277295800001010
上式中,为使公式表述简洁,对公式中部分变量进行了简化描述,其中有
Figure BDA0003127729580000111
X3=F+X1(z+Γ)-X2(z+Γ)
z=(I-H2)Tλ1(k+1)
Figure BDA0003127729580000112
根据收益函数可知,端点值为
λ1(k+N)=0
λ2(k+N)=CTC。
上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,步骤S5对参数迭代求解,根据上述S4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤;
公式(4)和(5)中,公式左边λ1、λ2皆为第k步的值,而公式右边λ1、λ2皆为第k+1步的值,已知k+N步端点值,因此需要从k+N步开始逐步迭代至k+1步以求出最优控制策略参数值,首先代入k+N步端点值至迭代公式,然后逐步迭代至k+1步的值,代入计算公式计算得到Cc、Dc和Cd值,代入求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车非合作交互模型。

Claims (5)

1.一种非完全信息非合作博弈人机共驾控制方法,其特征在于,其包括以下步骤:
步骤S1建立人车操纵博弈模型,首先建立车辆操纵动力学模型
Figure FDA0003515746450000012
U=δdc
其中,系统状态X=[v ω y yint ψ]T,v为车辆横向车速,ω为车辆横摆角速度,y为车辆横向位移,yint为横向位移积分,ψ为车辆横摆角,A、B为系统状态矩阵,U为输入矩阵,其代表驾驶员方向盘输入转角δd和线控转向系统方向盘输入转角δc,对车辆操纵动力学模型离散化,再建立可以描述驾驶员和车辆目标路径的预览模型;在实际行驶中,利用车载摄像头采集车辆前进方向图像,判断车辆当前行驶路径,并与预览模型中的期望路径对比,规划下一步行驶路径,最终将离散车辆操纵动力学模型中横向位移变量与横向位移积分变量扩展添加预览路径描述向量,此模型中转向系统为线控转向系统,线控转向系统根据驾驶员操纵输入与控制器叠加的操纵输入之和控制汽车前轮转角;
步骤S2建立非完全信息模式下人车信息博弈数学表达形式,在所述非完全信息模式下,量化驾驶员和车辆信息掌握的途径和信息掌握数量不同,建立车辆与驾驶员所掌握系统状态与系统真实状态的线性关系,车辆通过车载摄像头和传感器获取信息准确度高,驾驶员通过驾驶经验以及视野接收信息准确程度低且受干扰,驾驶员只知道车辆的初始状态,而不知道行驶中的中间状态,而车辆可通过车载传感器和摄像头了解车辆当前状态信息,驾驶员不知道系统的状态,且不知道车辆对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:
Z1=H1Z+W1
Z2=H2Z+W2
其中Z1和Z2分别表示车辆和驾驶员对系统状态的估计,Z(k)为车辆真实状态,H1、H2为状态估计矩阵,W1、W2为随机干扰;
步骤S3建立人车行驶收益博弈模型,根据驾驶员和车辆操作输入以及非完全信息下的驾驶员和车辆对系统状态掌握特点设计系统收益函数,驾驶员只能根据车辆对方向盘转角输入、依据先验知识估计的车辆状态以及对自身目标路径的预览来判断自身最优决策,而车辆要根据当前车辆状态,驾驶员对方向盘转角输入、驾驶员对车辆状态估计与真实状态的偏差以及对自身目标路径的预览来判断当前应采取的策略,收益函数值的大小设计与三个因素相关,一个是驾驶员和车辆操作输入,一个是驾驶员和车辆操作输入相关的权重系数,还有一个是路径可预览范围最远处的系统状态,实现人车行驶收益博弈,在非完全信息条件下,没有将不能完全掌握的系统状态设为人车博弈收益函数的一部分,收益函数设计如下:
Figure FDA0003515746450000011
其中,Jd、Jc分别为驾驶员和车辆收益函数其值都为J,Q1、Q2分别为驾驶员和车辆的收益函数加权矩阵,u(k)为车辆输入向量,v(k)为驾驶员方向盘转角输入向量,CTC为车辆状态加权矩阵,Z(T)为车辆可预览的最终状态收益加权矩阵;
步骤S4是求解控制策略,针对上述设计的人车操纵博弈模型和所设计的收益函数特点,以及利用非完全信息状态下驾驶员和车辆对系统状态掌握的信息不对称的特点,在非完全信息情况下,车辆所掌握系统状态Z1(k)近似等于车辆真实状态Z(k),驾驶员只能获得自身估计的系统状态Z2(k);
在非完全信息模式下,车辆根据掌握的系统状态Z1(k)和驾驶员估计系统状态Z2(k)与实际值Z(k)的偏差这两个因素来制定自身决策,而驾驶员根据自身对系统状态的估计Z2(k)来判断自身决策,则设驾驶员估计系统状态与实际值的偏差
Figure FDA0003515746450000021
车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)为如下形式:
Figure FDA0003515746450000022
Figure FDA0003515746450000023
v(k)=CdZ2(k)
其中,Cc、Cd、Dc为变量,求解驾驶员和车辆随对方操作输入以及实时估计状态变化的方向盘转角策略与方向盘转角叠加策略,其中驾驶员操纵输入由传感器测得和软件估计方法得到,并将测得和估计得到的数据传输给控制器进行比对分析,控制器计算当前车辆非完全信息状态下的非合作博弈最优方向盘转角叠加策略;
步骤S5迭代求解参数,根据上述S4中推导的最优控制策略求解公式,推导迭代求解控制策略中变化的参数的实时迭代求解方法,求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车操纵博弈模型。
2.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S1建立避障场景下人车操纵博弈模型;
首先建立操纵动力学模型,驾驶员和线控转向系统方向盘转角输入受到对方的操作影响从而根据对方的输入和当前驾驶状况判断自身的方向盘转角输入决策,构成人车操纵博弈;
建立非完全信息非合作博弈场景人车目标路线预览模型,其采用移位寄存器方法建立,驾驶员和车辆对目标路径预览行为表示为驾驶员和车辆分别观察目标路径上的预览点,并且在车辆行驶过程中始终有旧预览点去除和新的预览点输入,驾驶员和车辆一次最多可预览的预览点数量设定为N个,预览方式建模如下:
Rd(k+1)=Ar1Ri(k)+Ar2Rd N
Rc(k+1)=Ar1Ri(k)+Ar2Rc N
其中,Rd(k)和Rc(k)分别为代表驾驶员和车辆第k步路径预览向量,维数为(3N+3)*1,Rd N和Rc N为驾驶员和车辆最新预览点输入,维数为3*1,Ar1和Ar2为状态转移矩阵,Rd(k)、Rc(k)和Ri N为预览路径描述向量,其中包含车辆横向位移y、横向位移积分yint和车辆横摆角ψ;
为了便于计算求解且能够和非完全信息非合作博弈场景人车目标路线预览模型相结合,按照t秒的采样间隔对操纵动力学模型进行离散化处理,形式如下:
X(k+1)=AdX(k)+BdU
Ad=et*A
Figure FDA0003515746450000024
将离散化的模型与非完全信息非合作博弈场景人车目标路线预览模型相结合,形成离散化人车操纵博弈模型,如下:
Z(k+1)=FZ(k)+G1u(k)+G1v(k)+G2RN
其中,Z(k+1)=[X(k) Rc(k) Rd(k)]T,F、G1、G2为系统状态矩阵,RN为预览路径描述向量。
3.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S2对非完全信息非合作情况下人车信息模式进行分析;
非完全信息情况下,驾驶员和车辆至少其中一方不能掌握博弈的全部信息,其中,博弈的全部信息包括系统状态、博弈对方策略以及博弈对方对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:
当代表驾驶员和车辆对系统状态完全掌握时,H1、H2为单位矩阵,W1、W2为零矩阵;当代表驾驶员和车辆对系统状态完全不清楚时,H1、H2为零矩阵,W1、W2为零矩阵;当代表驾驶员和车辆对系统状态部分掌握时,H1、H2为主对角线上部分元素为0的对角矩阵,W1、W2为随机干扰。
4.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤S4对非完全信息非合作情况下人车博弈最优控制策略进行求解;
将控制输入代入系统状态方程和系统收益函数中,得到
Figure FDA0003515746450000031
将驾驶员估计系统状态与实际值的偏差
Figure FDA0003515746450000032
车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)带入收益函数得到
Figure FDA0003515746450000033
为便于计算,并简化以上方程,设
Figure FDA0003515746450000034
Y(k)=E[Z(k)Z(k)]
根据所设的P(k)和Y(k)简化收益函数后得
Figure FDA0003515746450000035
从而根据拉格朗日乘数方法,设计收益函数如下
Figure FDA0003515746450000036
其中I为单位矩阵
P(k+1)=(F+G1Cc+G1Dc)P(k)+[Y(k)FT+(Y(k)-P(k))Cd TG1 T+Y(k)Cc TG1 T+P(k)Dc TG1 T](I-H2)T
Y(k+1)=FY(k)+G1Cd(Y(k)-P(k))+G1CcY(k)+G1DcP(k)+Y(k)FT+(Y(k)-P(k))Cd TG1 T+Y(k)Cc TG1 T+P(k)Dc TG1 T
根据拉格朗日乘数法理论,为求出最优解,必有对所求变量求偏导值为零
Figure FDA0003515746450000041
Figure FDA0003515746450000042
Figure FDA0003515746450000043
由(1)、(2)可得控制策略中可变参数Cc、Cd
Figure FDA0003515746450000044
Figure FDA0003515746450000045
由(3)可直接得控制策略中可变参数Dc
Figure FDA0003515746450000046
继续对P(k)和Y(k)求偏导
Figure FDA0003515746450000047
Figure FDA0003515746450000048
得到迭代计算公式
Figure FDA0003515746450000049
Figure FDA00035157464500000410
上式中,为使公式表述简洁,对公式中部分变量进行了简化描述,其中有
Figure FDA00035157464500000411
X3=F+X1(z+Γ)-X2(z+Γ)
z=(I-H2)Tλ1(k+1)
Figure FDA0003515746450000051
根据收益函数可知,端点值为
λ1(k+N)=0
λ2(k+N)=CTC。
5.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,步骤S5对参数迭代求解,根据上述S4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤;
公式(4)和(5)中,公式左边λ1、λ2皆为第k步的值,而公式右边λ1、λ2皆为第k+1步的值,已知k+N步端点值,因此需要从k+N步开始逐步迭代至k+1步以求出最优控制策略参数值,首先代入k+N步端点值至迭代公式,然后逐步迭代至k+1步的值,代入计算公式计算得到Cc、Dc和Cd值,代入求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车操纵博弈模型。
CN202110694150.7A 2021-06-22 2021-06-22 一种非完全信息非合作博弈人机共驾控制方法 Active CN113200056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694150.7A CN113200056B (zh) 2021-06-22 2021-06-22 一种非完全信息非合作博弈人机共驾控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694150.7A CN113200056B (zh) 2021-06-22 2021-06-22 一种非完全信息非合作博弈人机共驾控制方法

Publications (2)

Publication Number Publication Date
CN113200056A CN113200056A (zh) 2021-08-03
CN113200056B true CN113200056B (zh) 2022-04-08

Family

ID=77022666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694150.7A Active CN113200056B (zh) 2021-06-22 2021-06-22 一种非完全信息非合作博弈人机共驾控制方法

Country Status (1)

Country Link
CN (1) CN113200056B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113335291B (zh) * 2021-07-27 2022-07-08 燕山大学 一种基于人车风险状态的人机共驾控制权决策方法
CN113911140B (zh) * 2021-11-24 2022-09-27 无锡物联网创新中心有限公司 一种基于非合作博弈的人机共驾控制方法及相关装置
CN116729417B (zh) * 2023-05-22 2024-03-15 南京航空航天大学 一种基于非合作博弈的人机共驾横纵向联合控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110641475A (zh) * 2019-10-29 2020-01-03 重庆大学 基于合作博弈的四轮独立驱动电动汽车分层容错控制方法
CN111994088A (zh) * 2020-09-02 2020-11-27 中国科学技术大学 基于混合策略博弈的驾驶人换道意图识别方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549597B (zh) * 2016-02-04 2018-06-26 同济大学 一种基于环境不确定性的无人车动态路径规划方法
US10534364B2 (en) * 2016-11-17 2020-01-14 Baidu Usa Llc Method and system for autonomous vehicle speed following
CN107323457B (zh) * 2017-07-06 2019-08-16 吉林大学 一种人机协同的共享转向控制方法
CN108819951B (zh) * 2018-07-27 2020-11-17 重庆大学 一种考虑驾驶员驾驶技能的人机共驾横向驾驶权分配方法
CN110386191B (zh) * 2019-04-23 2020-07-24 南京航空航天大学 一种电液智能转向系统性能监测器及性能优化方法
CN110525433B (zh) * 2019-07-10 2020-07-28 聊城大学 基于驾驶员意图识别的转向力矩引导分配曲线设计方法
CN110562265B (zh) * 2019-08-19 2020-10-20 中国第一汽车股份有限公司 一种车辆驾驶控制系统及其控制方法
CN110539799B (zh) * 2019-10-09 2021-07-23 吉林大学 一种基于驾驶员状态的分层架构人机共驾系统
CN110826192B (zh) * 2019-10-15 2024-02-13 南京航空航天大学 一种基于纳什谈判准则的人-车合作型博弈控制方法
CN111717207B (zh) * 2020-07-09 2021-07-23 吉林大学 一种考虑人车冲突的协同转向控制方法
CN111994079A (zh) * 2020-09-18 2020-11-27 南京航空航天大学 考虑驾驶风格特性的非合作博弈换道辅助决策系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110641475A (zh) * 2019-10-29 2020-01-03 重庆大学 基于合作博弈的四轮独立驱动电动汽车分层容错控制方法
CN111994088A (zh) * 2020-09-02 2020-11-27 中国科学技术大学 基于混合策略博弈的驾驶人换道意图识别方法及系统

Also Published As

Publication number Publication date
CN113200056A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN113200056B (zh) 一种非完全信息非合作博弈人机共驾控制方法
JP2882232B2 (ja) 車体重心スリップ角計測装置
US7996130B2 (en) Driver workload-based vehicle stability enhancement system
CN111332362B (zh) 一种融合驾驶员个性的智能线控转向控制方法
US20140136052A1 (en) Method for determining the drawbar length of a trailer of a tractor vehicle
EP1610999B1 (en) Rack force disturbance rejection
CN113433947B (zh) 基于障碍车估计与预测的交叉路口轨迹规划与控制方法
CN108909703A (zh) 一种自动驾驶紧急避让的失稳可控域的判定方法
CN114379583A (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
Na et al. Experimental evaluation of a game-theoretic human driver steering control model
CN116184835A (zh) 考虑输入时延与速度时变的无人驾驶车辆跟踪控制方法
Wu et al. Adaptive authority allocation of human-automation shared control for autonomous vehicle
CN115402348A (zh) 一种横向控制系统、方法、电子设备和存储介质
Dai et al. A bargaining game-based human–machine shared driving control authority allocation strategy
Boada et al. A robust observer based on energy-to-peak filtering in combination with neural networks for parameter varying systems and its application to vehicle roll angle estimation
JP2001134320A (ja) 車線追従制御装置
CN112287289A (zh) 一种面向云控智能底盘的车辆非线性状态融合估计方法
Zhu et al. Design of an integrated vehicle chassis control system with driver behavior identification
Junqueira et al. A Model-less Approach for Estimating Vehicles Sideslip Angle by a Neural Network Concept
CN115239814A (zh) 一种基于深度学习和ukf算法结合的3d车辆跟踪方法
Huang et al. Data-driven shared steering control design for lane keeping
CN111413974B (zh) 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
Jeon et al. Tire force estimation of dynamic wheeled mobile robots using tire-model based constrained kalman filtering
JP3246042B2 (ja) 後輪操舵制御装置
Sriranjan et al. Lateral controllers using neuro-fuzzy systems for automated vehicles: A comparative study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant