CN115993826A - 一种针对智能体的自适应最优合作博弈控制方法 - Google Patents

一种针对智能体的自适应最优合作博弈控制方法 Download PDF

Info

Publication number
CN115993826A
CN115993826A CN202310025787.6A CN202310025787A CN115993826A CN 115993826 A CN115993826 A CN 115993826A CN 202310025787 A CN202310025787 A CN 202310025787A CN 115993826 A CN115993826 A CN 115993826A
Authority
CN
China
Prior art keywords
vehicle
control
equation
optimal
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310025787.6A
Other languages
English (en)
Inventor
马松
王翊民
孙涛
孙希明
于欣萌
张一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202310025787.6A priority Critical patent/CN115993826A/zh
Publication of CN115993826A publication Critical patent/CN115993826A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明属于多智能体控制领域,涉及一种针对智能体的自适应最优合作博弈控制方法。本发明的方法能够使车辆系统在运动过程中保持稳定的同时使协作的性能指标最优。首先,对合作博弈中的两个控制器施加噪声信号,并收集一定时间段内的车辆状态数据。然后,找到一对可以使系统稳定的控制策略作为初始控制。最后,利用自适应动态规划方法进行策略迭代,以求得能使协作的性能指标达到最优的合作博弈控制策略。本发明可以对合作博弈问题求解,计算时间少,可以保证系统稳定,并且为全局最优。

Description

一种针对智能体的自适应最优合作博弈控制方法
技术领域
本发明属于多智能体控制领域,涉及一种针对智能体的自适应最优合作博弈控制方法。
背景技术
多智能体系统是多个智能体组成的集合,它的目标是将大而复杂的系统建设成小的、彼此相互通信和协调的,易于管理的系统。目前,根据多智能体的优化目标不同,可以将智能体的学习任务分为三种类型:完全协作、完全竞争和混合环境。本发明以车辆稳定性控制系统为例,将驾驶员与车辆控制系统视作完全协作的两个智能体,共同保持车辆的稳定。
车辆稳定控制系统,可以帮助驾驶员在多种情况下保持车辆的稳定。在车速过快时,无论是紧急制动或者转向都可能会发生侧滑、甩尾以及侧翻问题。此时车辆稳定控制就会发挥作用,辅助驾驶员控制车辆平衡稳定以避免可能的安全事故。因此车辆稳定性控制研究有着十分重要的意义。
目前,车辆稳定控制算法的研究按照控制目标分类有以下几种:
1)以横摆运动和质心侧偏角为控制目标。
该方法根据方向盘传感器测出驾驶员目标转弯状态,根据车辆实际运行状态与期望值进行比较,如果存在偏差则按照预先设计好的算法分配车轮驱动力,得到期望的横摆力矩,使实际运行状态跟踪上期望运行状态。使用的控制算法有滑模控制、模糊控制、二次线性最优控制等。
2)以滑移率为控制目标。
规定车辆处于驱动或制动状态时,将保证车辆安全行驶的滑移率范围称为正常区域,其他情况称为紧急区域。车辆行驶过程中,实时监控车辆滑移率变化,当滑移率处于紧急区域时,控制器按照设定好的控制律进行控制。该方式主要防止车辆的侧滑以保证稳定行驶。
3)以侧倾运动为控制目标。
该方法将横向载荷转移率用作评价车辆侧倾方向是否稳定的指标。当横向载荷转移率大于0.8时视作车辆有侧翻的风险,并引入预测控制算法对车辆运动进行控制。
从上述方法中可以看出,目前车辆控制系统主要目的是保障车辆正常行驶的稳定以及对车辆预期行驶轨迹的跟踪,但是未考虑到驾驶员与车辆系统之间完全合作博弈的优化控制问题。
发明内容
本发明针对车辆系统中的稳定性问题,将驾驶员与车辆控制器视为两个完全合作博弈的智能体,运用直接横摆控制的策略,在保证系统稳定的前提下同时使共同协作的性能指标达到最优。
为实现上述的目的,本发明的技术方案如下:
本发明提出了一种自适应最优合作博弈控制方法,该方法能够使车辆系统在运动过程中保持稳定的同时使协作的性能指标最优。首先,对合作博弈中的两个控制器施加噪声信号,并收集一定时间段内的车辆状态数据。然后,找到一对可以使系统稳定的控制策略作为初始控制。最后,利用自适应动态规划方法进行策略迭代,以求得能使协作的性能指标达到最优的合作博弈控制策略。
本发明具体包括以下步骤:
一种针对智能体的自适应最优合作博弈控制方法,步骤如下:
步骤1:构建一个车辆系统合作博弈问题,如附图1所示。
考虑到一个系统方程
Figure BDA0004044539330000021
其中u为驾驶员施加于方向盘的控制输入,v为车辆横摆控制器的控制输入,f(x)为已知的系统矩阵,g1(x)与g2(x)分别为两个控制器的输入矩阵。对两个控制器分别施加一个探测输入,u0与v0,其中u0为对方向盘控制器施加的探测噪声,v0为对车辆横摆控制器施加的探测噪声。采集一段时间内系统的状态变量x,
Figure BDA0004044539330000022
其中y为车辆质心的横向位置,vy为车辆质心的横向速度,ψ为横摆角,
Figure BDA0004044539330000023
为横摆率。引用Carsim7中的车辆动力学模型,处于控制目的,对该模型进行简化,假定轮胎侧向力是轮胎侧偏角的线性函数,其f(x)、g1(x)、g2(x)分别满足下式
Figure BDA0004044539330000024
Figure BDA0004044539330000025
Figure BDA0004044539330000031
其中,m为车辆自身质量,vx为车辆的前向速度,CαF和CαR分别为前后轮胎侧偏刚度,转向传动比rst为方向盘转角与前轮转角的比值,lF、lR分别为车辆前后轮距离车辆质心的轴距。Iz为汽车绕z轴的转动惯量。
步骤2:运用自适应动态规划中策略迭代的方法求得博弈控制器最优解。对于系统方程(1),其中的两个控制器u,v双方共同优化一个性能指标J如下:
Figure BDA0004044539330000032
其中r(x(t),u(t),v(t))=q(x)+uTR1(x)u+uTR2(x)v+vTR3(x)v,R1(x)、R2(x)、R3(x)为权重矩阵。根据贝尔曼最优性原理,可以得到广义的哈密顿方程如下:
Figure BDA0004044539330000033
其中值函数V为在最优控制律u*与v*控制作用下的最优性能指标。两个控制器的最优控制律如下:
Figure BDA0004044539330000034
Figure BDA0004044539330000035
步骤3:对于施加探测噪声的系统方程
Figure BDA0004044539330000036
定义αi=u0-uii=v0-vi,ui,vi为第i次迭代后得到的控制律。将系统方程重写为:
Figure BDA0004044539330000037
对于任意的i≥0,值函数的导数
Figure BDA0004044539330000038
满足下式:
Figure BDA0004044539330000039
以当前时刻t,积分时间段T,对(7)式在时间段[t,t+T]中进行积分可以得到下式:
Figure BDA0004044539330000041
分别使用三个基函数近似的替代值函数V以及控制策略u、v。
Figure BDA0004044539330000042
Figure BDA0004044539330000043
Figure BDA0004044539330000044
其中φj(x),ψj(x)为不同基函数,N1,N2分别为基函数的个数,ci,j、ωi,j、σi,j分别代表着3个基函数的权重。将公式(12)、公式(13)、公式(14)代入的公式(11)中,得到迭代方程如下:
Figure BDA0004044539330000045
其中tk为以T为时间间隔从0开始严格递增的时间序列,ui与vi为上一次迭代得到的控制律。
步骤4:首先将采集到的状态变量以时间间隔T分为N组,根据公式(15)的需要处理数据,然后以四阶以内的多项式函数作为基函数的基底,并确定控制策略的初始权重ω0、σ0。通过公式(15)进行迭代更新ω、σ、c的值,直至值函数V收敛时停止迭代,迭代后得到的控制策略即为最优控制方法。
本发明的有益效果如下:
本发明可以对合作博弈问题求解,计算时间少,可以保证系统稳定,并且为全局最优。
附图说明
图1是本发明研究的所采用的汽车动力学模型。
图2是最优控制器u的响应曲线。
图3是最优控制器v的响应曲线。
图4是车辆质心的横向位置y在自适应控制器输入与无控制输入下的响应曲线。
图5是车辆质心的横向速度vy在自适应控制器输入与无控制输入下的响应曲线。
图6是横摆角ψ在自适应控制器输入与无控制输入下的响应曲线。
图7是横摆率
Figure BDA0004044539330000051
在自适应控制器输入与无控制输入下的响应曲线。
图8是将状态变量x2和x3固定为0,绘制出x1与x4在区间[-0.5,0.5]中,首次迭代得到的值函数V0与最终迭代得到的值函数V18的曲面图。
具体实施方式
实施例1:
步骤1:对于一个简化的汽车模型
Figure BDA0004044539330000052
取m=2257kg,Iz=3254.9kg.m2,rst=17.8,lF=1.330m,lR=1.616m,CαF=CαR≈84000N/rad,可得
Figure BDA0004044539330000053
Figure BDA0004044539330000054
Figure BDA0004044539330000055
选择如下的性能指标:
Figure BDA0004044539330000056
步骤2:选取探测信号u0,v0分别施加与方向盘控制器与车辆横摆控制器上。
u0=sum(0.2*sin([1 3 7 11 13 15]*t))
v0=sum(0.2*sin([1 3 7 9 11 13 15]*t))
然后收集系统3.7s内的状态变量数据
Figure BDA0004044539330000061
步骤3:确定三个基函数的初始权重,权重ω、σ均为拥有24个元素的列向量,权重c为拥有20个元素的列向量,注意ω与σ的权重选择应该能够使系统达到稳定。其初始化分别如下:
ω=[-1,0,0,-3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]T
σ=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]T
c=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]T
将采集的状态变量分为以T=0.01s为时间间隔,N=370组数据。根据公式(15)的需要,利用所采集的数据以及初始化的基函数权重计算在0.01s的时间间隔内各项的积分。公式(15)可以视为AX=B,其中X是由c、ω、σ组成的拥有68个元素的列向量。公式(15)的左侧可以构成含有370行68列的矩阵A,公式(15)的右侧可以构成含有370行1列的矩阵B。随后利用最小二乘法求得三个基函数的权值。
此时完成了第一次迭代,随后利用更新的控制律基函数权重ω、σ重新计算公式(15),得到第二次迭代的控制律基函数权重,直至值函数基函数权重c收敛,认为在两次迭代间,权重向量c的欧几里得范数之差小于0.00001,则权重向量c收敛。收敛后所得到两个控制器的控制律即为最优控制律。
步骤4:此方法可以实现在线学习,本文首先采取了3.7s内的数据计算控制律,然后在3.7s时刻立即施加控制律,如附图2、附图3所示。所得到的状态变量曲线如附图4、附图5、附图6、附图7所示。根据值函数权重c可以得到在不同初始条件下性能指标的数值。选用首次迭代后得到的值函数与最后迭代得到的值函数绘制图8。
实施结果
1)从附图2、附图3、附图4、附图5中可以看出,在3.7s前系统在探测噪声下运动。在3.7s后,虚线为无控制输入下状态变量的变化曲线,呈发散状态。实线为施加控制后的状态变量曲线,可以收敛到原点。证明所得的控制律可以使系统稳定。
2)从附图6中可以看出,使用本方法多次迭代并达到稳定点后。系统的值函数在每一个初始状态均小于初始的值函数。证明本方法可以在双人合作博弈条件下使系统的性能指标达到最优。

Claims (1)

1.一种针对智能体的自适应最优合作博弈控制方法,其特征在于,步骤如下:
步骤1:构建车辆系统合作博弈方程
Figure FDA0004044539320000011
其中:u为驾驶员施加于方向盘的控制输入,v为车辆横摆控制器的控制输入,f(x)为已知的系统矩阵,g1(x)与g2(x)分别为两个控制器的输入矩阵;对两个控制器分别施加一个探测输入,u0与v0,其中u0为对方向盘控制器施加的探测噪声,v0为对车辆横摆控制器施加的探测噪声;
采集一段时间内系统的状态变量x,
Figure FDA0004044539320000012
其中:y为车辆质心的横向位置,vy为车辆质心的横向速度,ψ为横摆角,
Figure FDA0004044539320000013
为横摆率;引用Carsim7中的车辆动力学模型,处于控制目的,对该模型进行简化,假定轮胎侧向力是轮胎侧偏角的线性函数,其f(x)、g1(x)、g2(x)分别满足下式:
Figure FDA0004044539320000014
Figure FDA0004044539320000015
Figure FDA0004044539320000016
其中,m为车辆自身质量,vx为车辆的前向速度,CαF和CαR分别为前后轮胎侧偏刚度,转向传动比rst为方向盘转角与前轮转角的比值,lF、lR分别为车辆前后轮距离车辆质心的轴距;Iz为汽车绕z轴的转动惯量;
步骤2:运用自适应动态规划中策略迭代的方法求得博弈控制器最优解;
对于系统方程(1),其中的两个控制器u,v双方共同优化一个性能指标J如下:
Figure FDA0004044539320000021
其中r(x(t),u(t),v(t))=q(x)+uTR1(x)u+uTR2(x)v+vTR3(x)v,R1(x)、R2(x)、R3(x)为权重矩阵;根据贝尔曼最优性原理,得到广义的哈密顿方程如下:
Figure FDA0004044539320000022
其中值函数V为在最优控制律u*与v*控制作用下的最优性能指标;
两个控制器的最优控制律如下:
Figure FDA0004044539320000023
Figure FDA0004044539320000024
步骤3:对于施加探测噪声的系统方程
Figure FDA0004044539320000025
定义αi=u0-uii=v0-vi,ui,vi为第i次迭代后得到的控制律;将系统方程重写为:
Figure FDA0004044539320000026
对于任意的i≥0,值函数的导数
Figure FDA0004044539320000027
满足下式:
Figure FDA0004044539320000028
以当前时刻t,积分时间段T,对(7)式在时间段[t,t+T]中进行积分可以得到下式:
Figure FDA0004044539320000031
分别使用三个基函数近似的替代值函数V以及控制策略u、v;
Figure FDA0004044539320000032
Figure FDA0004044539320000033
Figure FDA0004044539320000034
其中φj(x),ψj(x)为不同基函数,N1,N2分别为基函数的个数,ci,j、ωi,j、σi,j分别代表着3个基函数的权重;将公式(12)、公式(13)、公式(14)代入的公式(11)中,得到迭代方程如下:
Figure FDA0004044539320000035
其中tk为以T为时间间隔从0开始严格递增的时间序列,ui与vi为上一次迭代得到的控制律;
步骤4:首先将采集到的状态变量以时间间隔T分为N组,根据公式(15)的需要处理数据,然后以四阶以内的多项式函数作为基函数的基底,并确定控制策略的初始权重ω0、σ0
通过公式(15)进行迭代更新ω、σ、c的值,直至值函数V收敛时停止迭代,迭代后得到的控制策略即为最优控制方法。
CN202310025787.6A 2023-01-09 2023-01-09 一种针对智能体的自适应最优合作博弈控制方法 Pending CN115993826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310025787.6A CN115993826A (zh) 2023-01-09 2023-01-09 一种针对智能体的自适应最优合作博弈控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310025787.6A CN115993826A (zh) 2023-01-09 2023-01-09 一种针对智能体的自适应最优合作博弈控制方法

Publications (1)

Publication Number Publication Date
CN115993826A true CN115993826A (zh) 2023-04-21

Family

ID=85989992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310025787.6A Pending CN115993826A (zh) 2023-01-09 2023-01-09 一种针对智能体的自适应最优合作博弈控制方法

Country Status (1)

Country Link
CN (1) CN115993826A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116215155A (zh) * 2023-05-09 2023-06-06 清华大学 智能网联客车的抗侧倾交互控制方法、装置、客车及介质
CN116495014A (zh) * 2023-06-28 2023-07-28 北京理工大学 一种自进化非博弈自动驾驶车辆人机共驾方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116215155A (zh) * 2023-05-09 2023-06-06 清华大学 智能网联客车的抗侧倾交互控制方法、装置、客车及介质
CN116215155B (zh) * 2023-05-09 2023-07-25 清华大学 智能网联客车的抗侧倾交互控制方法、装置、客车及介质
CN116495014A (zh) * 2023-06-28 2023-07-28 北京理工大学 一种自进化非博弈自动驾驶车辆人机共驾方法及系统
CN116495014B (zh) * 2023-06-28 2023-09-01 北京理工大学 一种自进化非博弈自动驾驶车辆人机共驾方法及系统

Similar Documents

Publication Publication Date Title
CN109849899B (zh) 一种电动轮汽车电液复合车身稳定控制系统及方法
CN115993826A (zh) 一种针对智能体的自适应最优合作博弈控制方法
CN113320542B (zh) 一种自动驾驶车辆的跟踪控制方法
CN111002840B (zh) 一种分布式驱动电动汽车的容错控制方法
JP4143104B2 (ja) 車両の制御装置
US10059344B2 (en) Vehicle behavior control apparatus
CN111002976B (zh) 一种基于模糊自适应pid控制的智能车辆抗侧风控制方法
CN112519873B (zh) 一种四轮独立线控转向电动汽车执行机构主动容错控制算法及系统
CN109094644A (zh) 极限工况下的主动后轮转向与直接横摆力矩控制方法
CN114987537A (zh) 基于神经网络动力学的自动驾驶车辆道路自适应漂移控制系统与方法
Liang et al. Integration of active tilting control and full-wheel steering control system on vehicle lateral performance
Jinzhu et al. Vehicle stability control based on adaptive PID control with single neuron network
Adam et al. Robust super-twisting sliding mode controller for the lateral and longitudinal dynamics of rack steering vehicle
Li et al. Longitudinal and lateral control for four wheel steering vehicles
Zhang et al. Analysis of vehicle steering stability of nonlinear four wheel steering based on sliding mode control
Zhang et al. A nonlinear dynamic control design with conditional integrators applied to unmanned skid-steering vehicle
Hakima et al. Designing a fuzzy logic controller to adjust the angle of tires in four wheel steering vehicles
Zhang et al. Fuzzy neural network simulation of vehicle yaw rate control based on PID
Dao et al. Tuning fuzzy-logic controllers
Li et al. Four wheel steering vehicles stability control based on adaptive radial basis function neural network
Hou et al. Integrated chassis control using ANFIS
Lu et al. Research on Handling Stability Control Strategy of Distributed Drive Electric Vehicle
CN113985868B (zh) 一种轮式移动机器人分层路径跟踪控制实现方法
CN116424353B (zh) 一种基于分布式汽车的线控底盘子系统协调控制策略
Shaout et al. A nonlinear optimal four wheels steering controller

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination