CN112230552A

CN112230552A - 针对离散时间多智能体博弈的抗干扰控制方法

Info

Publication number: CN112230552A
Application number: CN202011192651.7A
Authority: CN
Inventors: 袁源; 赵力冉; 孙冲
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-15
Anticipated expiration: 2040-10-30
Also published as: CN112230552B

Abstract

本发明提供针对离散时间多智能体博弈的抗干扰控制方法。包括：S1，构建基于离散时间的智能体模型；S2，基于智能体模型，针对多智能体博弈系统中智能体受到的未知扰动，设计离散干扰观测器，用于对未知扰动进行估计和消除；S3，基于智能体模型设计博弈策略，用于对智能体的成本函数进行优化使多智能体博弈系统达到唯一的纳什均衡状态；S4，基于干扰观测器和博弈策略，设计多智能体博弈系统的抗干扰控制器，对智能体的成本函数进行优化并对未知扰动进行估计和消除；S5，确定抗干扰控制器中参数的约束。本发明可以对扰动进行很好的估计和消除。

Description

针对离散时间多智能体博弈的抗干扰控制方法

技术领域

本发明涉及一种多智能体抗干扰的纳什均衡寻求控制方法，具体涉及针对离散时间多智能体博弈的抗干扰控制方法。

背景技术

经过几十年的研究，博弈论已经在众多领域中得到了广泛的研究和应用，例如社会学与经济学、航空航天、通信工程、控制工程等。同样的，博弈论也为多智能体工程问题提供了有效的解决工具。在多智能体博弈系统中，每个智能体都是一个自私的决策者，他们会尽力优化自己的成本函数，而每个智能体的成本函数之间又存在着耦合关系。已有的应用包括城市交通协调控制、无线通信、智能电网、多智能体的控制问题等。在这类问题中，通常目的都是设计有效的博弈控制策略使系统能够达到纳什均衡状态，在这种状态下，系统中的任何智能体都没有单方面改变状态的动机。大多数的研究都是在个体不具备动力学或者没有干扰的情况下进行的。

而在实际工程问题中，几乎所有的系统都会受到由模型不确定性、传输波动、环境噪声或其他原因引起的某种干扰。博弈或者智能体受到未知扰动的影响会出现在很多场景中，例如光信噪比的功率控制、智能电网管理、网络化控制。然而对于在未知扰动存在时的多智能体博弈纳什均衡寻求问题的研究相对较少。显然直接忽略扰动带来的影响是不合理的，因为存在于博弈动力学的扰动会对博弈的结果造成影响。

在各种抗干扰的方法中，干扰观测器可以实现未知扰动的准确估计并提供一个前馈补偿项对扰动进行抵消，同时也有着很好的动态响应。而滑膜控制能够克服系统的不确定性，对干扰和未建模动态具有很强的鲁棒性，对非线性系统也有良好的控制效果。基于滑膜控制设计的观测器也已经展示出显著的特性，尤其是超扭曲算法。但是关于超扭曲算法的研究绝大多数都是在连续时间条件下，在离散时间系统中的研究很少。

发明内容

本发明针对受到未知扰动的离散多智能体博弈系统，克服现有技术的不足，提供一种针对离散时间多智能体博弈的抗干扰控制方法。

本发明是通过以下技术方案来实现：

针对离散时间多智能体博弈的抗干扰控制方法，包括：

S1，构建基于离散时间的智能体模型；

S2，基于智能体模型，针对多智能体博弈系统中智能体受到的未知扰动，设计离散干扰观测器，用于对未知扰动进行估计和消除；

S3，基于智能体模型设计博弈策略，用于对智能体的成本函数进行优化使多智能体博弈系统达到唯一的纳什均衡状态；

S4，基于干扰观测器和博弈策略，设计多智能体博弈系统的抗干扰控制器，对智能体的成本函数进行优化并对未知扰动进行估计和消除；

S5，确定抗干扰控制器中参数的约束。

优选的，S1中，构建的智能体模型如下：

x_i,k+1＝x_i,k+μ(u_i,k+d_i,k) (1)

单个智能体的模型中，x_i,k+1表示第i个智能体在第k+1步的状态；x_i,k表示第i个智能体在第k步的状态；u_i,k表示第i个智能体在第k步的控制输入； d_i,k表示第i个智能体在第k步受到的扰动；μ表示步长。

进一步的，S2中，首先定义：

d_i,k+1表示第i个智能体在第k+1步受到的扰动；然后建立多智能体博弈系统的扩张状态方程：

对扩张状态方程建立干扰观测器：

其中，z_1,i,k+1和z_2,i,k+1分别是在第k+1步时干扰观测器对x_i,k+1和d_i,k+1的估计量，z_1,i,k和z_2,i,k分别是第k步时干扰观测器对x_i,k和d_i,k的估计量；α₁、α₂、α₃和α₄分别是干扰观测器的参数；e_1,i,k是干扰观测器对智能体状态x_i,k+1的观测误差，定义为e_1,i,k＝z_1,i,k-x_i,k。

定义干扰观测器对扰动d_i,k的观测误差为e_2,i,k，然后建立观测误差系统：

再进一步的，将第i个智能体的成本函数定义为

其中

N是智能体的总数量，T是矩阵的转置符号；

代表第i个智能体的成本函数对自身状态的偏导数；定义

并对多智能体博弈系统做出如下假设：多智能体博弈系统中智能体的成本函数

对于自身状态x_i是严格的凸函数；F(x)是强单调且Lipschitz连续的；基于上述假设， S3中的博弈策略设计为梯度博弈策略

再进一步的，S4中，抗干扰控制器的控制律设计如下：

再进一步的，S5中，结合干扰观测器和控制律建立闭环系统的状态方程：

然后利用李雅普诺夫定理对多智能体博弈系统收敛性进行分析得到抗干扰控制器中参数要满足的约束。

再进一步的，对于参数矩阵

需要满足以下两个约束：

第一：对于步长μ，要满足

第二：对于给定的矩阵Γ＝Γ^T＞0，参数矩阵Φ使得下列线性矩阵不等式有正定的解H＝H^T＞0；

其中σ和δ是两个正常数，I是单位矩阵，γ满足0＜γ＜1。

与现有技术相比，本发明具有以下有益的技术效果：

本发明可以对扰动进行很好的估计和消除，在多智能体博弈问题中，扰动的存在是不能忽略的，因为未知扰动会对博弈的结果造成影响。本发明所设计的抗干扰控制器可以实现对智能体自身的成本函数进行优化的同时，对扰动进行估计和抵消，使系统达到唯一的纳什均衡状态。本发明与实际工程问题相贴合，采用离散的智能体模型进行分析设计，而且设计的抗干扰控制器对扰动的约束和信息要求很少，不需要知道扰动的具体形式，不约束扰动有界，便于工程实现；通过设计干扰观测器对未知扰动进行观测估计，再结合博弈策略设计抗干扰的博弈控制策略，从而使受到干扰的系统最终达到纳什均衡。

附图说明

图1为本发明的流程图。

图2为本发明实施例的结果数据。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明首先构建智能体的博弈模型，其次针对系统中智能体受到的未知扰动，设计离散扰动观测器，对未知扰动进行估计；然后对多智能体系统设计博弈策略，对智能体的成本函数进行优化使系统达到唯一的纳什均衡状态；之后结合扰动观测器和梯度博弈策略设计抗干扰控制器；最后通过对系统的稳定性分析确定抗干扰控制器中参数的约束；本方法将博弈论和干扰观测器应用在多智能体系统中，能够在消除未知扰动影响的同时优化智能体的成本函数，使系统达到纳什均衡；本发明结合实际工程中会出现的扰动，抗扰动能力强，适用于工程应用。

如图1所示，本发明的具体实施步骤如下：

(1)构建智能体模型

x_i,k+1＝x_i,k+μ(u_i,k+d_i,k) (1)

单个智能体的模型中，x_i,k+1表示第i个智能体在第k+1步的状态；x_i,k表示第i个智能体在第k步的状态；u_i,k表示第i个智能体在第k步的控制输入； d_i,k表示第i个智能体在第k步受到的扰动；μ表示步长，在本发明中步长是定值。

在多智能体博弈系统中，每个智能体都会有与系统状态相关的成本函数，第i个智能体的成本函数定义为

其中

N是智能体的总数量。

代表第i个智能体的成本函数对自身状态的偏导数；定义

其中 T是矩阵的转置符号。

本发明对于多智能体博弈系统做出如下假设：

1)系统中智能体的成本函数

对于自身状态x_i是严格的凸函数；

2)F(x)是强单调且Lipschitz连续的。

(2)设计干扰观测器

在各种抗干扰的方法中，干扰观测器可以实现未知扰动的准确估计并提供一个前馈补偿项对扰动进行抵消，同时也有着很好的动态响应。而滑膜控制能够克服系统的不确定性，对干扰和未建模动态具有很强的鲁棒性，对非线性系统也有良好的控制效果。因此本发明基于滑膜控制设计干扰观测器。

为了设计干扰观测器，首先需要建立系统的扩张状态方程。需要定义：

d_i,k+1表示第i个智能体在第k+1步受到的扰动。

然后通过将扰动d_i,k扩张为新的状态得到扩张后系统的状态方程：

对智能体的扩张状态方程建立干扰观测器：

其中，z_1,i,k+1、z_2,i,k+1分别是在第k+1步时干扰观测器对x_i,k+1和d_i,k+1的估计量，同理z_1,i,k、z_2,i,k是第k步时干扰观测器对x_i,k和d_i,k的估计量；α₁、α₂、α₃、 α₄是干扰观测器的参数；e_1,i,k是干扰观测器对智能体状态x_i,k+1的观测误差，定义为e_1,i,k＝z_1,i,k-x_i,k。

定义干扰观测器对扰动d_i,k的观测误差为e_2,i,k，然后可以得到误差方程：

通过以下定义得到式(4)的简化形式(5)

e_i,k+1＝Φe_i,k+Ψsign(e_1,i,k) (5)

(3)设计博弈策略

在多智能体博弈系统中，每个智能体都是一个自私的决策者，他们会尽力优化自己的成本函数，而每个智能体的成本函数之间又存在着耦合关系。因此需要设计博弈策略对智能体自身的成本函数进行优化使系统达到纳什均衡。

纳什均衡：如果x^*能使系统中每一个智能体的成本函数都满足

则称x^*是系统的一个纳什均衡点。

本发明采用梯度博弈策略

其中u_g代表控制器中的博弈策略项

基于本发明对于多智能体博弈系统的假设，该系统有且只有唯一的纳什均衡点。采用梯度博弈可以使系统达到纳什均衡。

(4)设计多智能体博弈系统的抗干扰控制器

抗干扰控制器的设计主要考虑实现两个功能：第一是优化每个智能体自身的成本函数。这是因为在多智能体博弈中，每个智能体都具有自私性，也就是首先要优化自身的性能；第二是对于存在的未知匹配扰动进行估计并消除扰动。

基于前边设计的干扰观测器和梯度博弈策略，第i个智能体的控制律设计如下：

其中第一项

是按照智能体成本函数的梯度方向对智能体的性能进行优化，第二项是将干扰观测器对扰动d_i,k+1的估计量z_2,i,k引入控制中对扰动进行抑制消除。

(5)确定抗干扰控制器中参数的约束

结合之前设计的干扰观测器式(3)和控制律式(6)建立多智能体博弈系统的状态方程：

将闭环系统的状态方程转化为紧凑形式

其中，

然后利用李雅普诺夫定理对系统收敛性进行分析可以得到抗干扰控制器中参数要满足的约束。在本发明中对于参数矩阵

需要满足以下两个约束。

第一：对于步长μ，要满足

第二：对于给定的矩阵Γ＝Γ^T＞0，参数矩阵Φ能够使得下列线性矩阵不等式(LMI)有正定的解H＝H^T＞0。

其中σ和δ是两个正常数，I是单位矩阵，γ满足0＜γ＜1。

本发明未详细说明部分属于领域技术人员公知常识。

实施例

为了验证该理论的正确性和有效性，本发明考虑了多智能体通信任务中网络层发生的攻防博弈。其中智能体1-6是正常的智能体，智能体7、8为敌方智能体。敌方智能体会尽可能降低普通智能体的通信能力，普通智能体会尽可能提高自己的通信能力。并且每个智能体还会受到未知的扰动影响，扰动的表达式如下：

d_i,0＝[0.2 0.1 -0.2 0.5 0.3 0.2 -0.1 1.2]^T

其中i表示智能体的编号，k代表步数，μ代表步长，d_i,0是扰动的初值，

表示正弦函数的初始相位。

从结果图2中可以看出，每个智能体都可以抵消未知扰动的影响，并且在博弈策略下，最终多智能体系统达到了纳什均衡状态。

本发明针对受到未知扰动的离散多智能体博弈系统，充分考虑可能出现的匹配扰动，基于干扰观测器设计抗干扰博弈控制策略，实现多智能体的纳什均衡寻求，使系统达到唯一的纳什均衡状态。可能产生匹配扰动的原因包括但不限于控制通道中的信号噪声、执行器故障、多智能体的成本函数不准确、系统模型误差等。

Claims

1.针对离散时间多智能体博弈的抗干扰控制方法，其特征在于，包括：

S1，构建基于离散时间的智能体模型；

S5，确定抗干扰控制器中参数的约束。

2.根据权利要求1所述的针对离散时间多智能体博弈的抗干扰控制方法，其特征在于，S1中，构建的智能体模型如下：

x_i,k+1＝x_i,k+μ(u_i,k+d_i,k) (1)

单个智能体的模型中，x_i,k+1表示第i个智能体在第k+1步的状态；x_i,k表示第i个智能体在第k步的状态；u_i,k表示第i个智能体在第k步的控制输入；d_i,k表示第i个智能体在第k步受到的扰动；μ表示步长。

3.根据权利要求2所述的针对离散时间多智能体博弈的抗干扰控制方法，其特征在于，S2中，首先定义：

对扩张状态方程建立干扰观测器：

其中，z_1,i,k+1和z_2,i,k+1分别是在第k+1步时干扰观测器对x_i,k+1和d_i,k+1的估计量，z_1,i,k和z_2,i,k分别是第k步时干扰观测器对x_i,k和d_i,k的估计量；α₁、α₂、α₃和α₄分别是干扰观测器的参数；e_1,i,k是干扰观测器对智能体状态x_i,k+1的观测误差，定义为e_1,i,k＝z_1,i,k-x_i,k；