CN114200830A - 一种多智能体一致性强化学习控制方法 - Google Patents

一种多智能体一致性强化学习控制方法 Download PDF

Info

Publication number
CN114200830A
CN114200830A CN202111333034.9A CN202111333034A CN114200830A CN 114200830 A CN114200830 A CN 114200830A CN 202111333034 A CN202111333034 A CN 202111333034A CN 114200830 A CN114200830 A CN 114200830A
Authority
CN
China
Prior art keywords
agent
controller
neural network
distributed
sliding mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111333034.9A
Other languages
English (en)
Other versions
CN114200830B (zh
Inventor
李金娜
袁林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN202111333034.9A priority Critical patent/CN114200830B/zh
Publication of CN114200830A publication Critical patent/CN114200830A/zh
Application granted granted Critical
Publication of CN114200830B publication Critical patent/CN114200830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种多智能体一致性强化学习控制方法,包含如下步骤:由所述多智能体系统中领导者动力学模型,定义智能体i的第j个分量的局部邻居误差;通过式(3)得到智能体i的局部邻居误差系统方程;定义虚拟控制器;根据实际多智能体之间通信存在的时滞,构建公式;N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量;设计分布式积分滑模控制器;设计分布式最优控制器。本发明将具有强鲁棒性的滑模控制和强化学习算法相结合,设计的分布式复合控制律不仅能使整个高阶多智能体系统抵抗外界扰动使系统具有很强的鲁棒性而且使整个多智能体系统具有自学习能力从而实现最优一致性。

Description

一种多智能体一致性强化学习控制方法
技术领域
本发明涉及一种多智能体一致性控制方法,特别是涉及一种多智能体一致性强化学习控制方法。
背景技术
由于分布式计算、传感器技术,以及通信技术的迅速发展,实际系统的每个单元都具有协同计算和处理复杂任务的能力。因此,多智能体系统应运而生。多智能体系统一致性问题是多智能系统研究中基本并且相当重要的问题,其主要任务是利用智能体之间的状态信息设计一致性控制协议,从而随着时间的推移使得所有智能体的状态相同。
在实际应用中,多智能系统的动力学模型不能完全准确的确定,系统多为非线性系统,并且含有干扰,智能体之间相互耦合,再加上智能体之间通信时滞的存在,使得多智能体系统一致性控制更加困难。滑模控制是一种鲁棒控制方法,其根本特点是可以针对系统的不确定性和受到外部扰动时系统具有良好的控制性能和强鲁棒性。强化学习是机器学习的子领域,其参照哺乳动物的学习机制,即智能体不断地通过与环境的交互改变其行为以实现累积奖励最大化。
现有多智能体一致性控制方法大多只考虑系统为一阶或者二阶的情形,然而实际有些场景要求多智能体系统具有很强的机动性,即要求多智能体系统实现高阶一致性。部分多智能体一致性控制方法未考虑智能体之间由于通信带宽有限而存在的时滞、外部干扰对多智能体系统一致性的影响,或者仅考虑的多智能体系统为线性多智能体,然而实际中绝大部分多智能体系统为非线性系统。
发明内容
针对现有的多智能体系统一致性控制方法存在的问题以及为了实现多智能体系统达到最优一致性,本发明的目的是提供一种多智能体一致性强化学习控制方法,该方法设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性,而且使系统具有自学习能力从而实现最优一致性。
为了解决现有技术存在的问题,本发明采用以下技术方案:
一种基于滑模控制的多智能体一致性强化学习控制方法,所述多智能体系统中跟随者的模型为:
Figure BDA0003349503450000021
其中,
Figure BDA0003349503450000022
代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰;
所述多智能体系统中领导者动力学方程为:
Figure BDA0003349503450000023
其中,
Figure BDA0003349503450000024
代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰;
N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息;
包括以下步骤:
步骤1:由所述多智能体系统模型,定义智能体i的第j个分量的局部邻居误差:
Figure BDA0003349503450000031
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和;
步骤2:通过式(3)得到智能体i的局部邻居误差系统方程:
Figure BDA0003349503450000032
步骤3:定义虚拟控制器:Vi ι(t)=f(xi)+ui(t) (5)
步骤4:根据实际多智能体之间通信存在的时滞,构建公式,定义如下:
Figure BDA0003349503450000033
其中,
Figure BDA0003349503450000034
Figure BDA0003349503450000035
为分布式最优控制器,
Figure BDA0003349503450000036
为分布式积分滑模控制器,
Figure BDA0003349503450000037
为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;
步骤5:N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:
Figure BDA0003349503450000038
其中,
Figure BDA0003349503450000039
δi(t)为智能体i的状态误差向量,
Figure BDA00033495034500000310
为智能体i的复合控制器,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t));
步骤6:设计分布式积分滑模控制器;
步骤7:设计分布式最优控制器。
进一步地,所述步骤6设计分布式积分滑模控制器包括以下步骤:
步骤6.1:对所述分布式积分滑模控制器,选用积分滑模面为:
Figure BDA0003349503450000041
其中,δi为智能体i的状态误差向量,Sii)为滑模函数,Si0i)为关于δi(t)的函数,Si00)为常数,
Figure BDA0003349503450000042
步骤6.2:根据所选积分滑模面式(8)设计分布式积分滑模控制器为:
Figure BDA0003349503450000043
其中,β(0<β<1)为通信时滞系数,定义Ri(t)的导数:
Figure BDA0003349503450000044
σ00>0)为常数,sgn(·)为符号函数,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t));
所述步骤7设计分布式最优控制器包括以下步骤:
步骤7.1:当智能体达到滑模面时,设计式(10)的等效控制器为:
Figure BDA0003349503450000045
步骤7.2:智能体达到滑模面后,式(7)则为:
Figure BDA0003349503450000046
步骤7.3:提出如下性能指标:
Figure BDA0003349503450000047
其中,
Figure BDA0003349503450000051
γi为折扣因子,Qi≥0为半正定矩阵,Ri>0为正定矩阵;
步骤7.4:基于所提出的性能指标,定义其值函数为:
Figure BDA0003349503450000052
步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:
Figure BDA0003349503450000053
有如下HJB方程:
Figure BDA0003349503450000054
步骤7.6:得到分布式最优控制器:
Figure BDA0003349503450000055
进一步地,所述HJB方程采用基于策略迭代强化学习算法的Actor-Critic神经网络求解,求解过程包括以下步骤:
所述值函数采用Critic神经网络逼近:
Figure BDA0003349503450000056
其中,
Figure BDA0003349503450000057
表示Critic神经网络估计权值,φii)为神经网络激活函数;
所述分布式最优控制器采用Actor神经网络估计:
Figure BDA0003349503450000058
其中,
Figure BDA0003349503450000059
表示Actor神经网络估计权值,
Figure BDA00033495034500000510
为激活函数的导数;
所述Critic神经网络估计权值采用如下方程更新:
Figure BDA0003349503450000061
其中,
Figure BDA0003349503450000062
Qi1为Critic神经网络的学习率;
所述Actor神经网络估计权值采用如下方程更新:
Figure BDA0003349503450000063
其中,
Figure BDA0003349503450000064
Qi2为Actor神经网络的学习率,Gi1与Gi2为可调参数。
进一步地,所述分布式积分滑模控制器具有自适应学习能力,分布式积分滑模控制器的自适应学习算法,包括以下步骤:
S1:初始化;
S2:计算
Figure BDA0003349503450000065
S3:计算分布式滑模面:Sii(t));
S4:计算分布式积分滑模控制器:
Figure BDA0003349503450000066
S5:计算复合控制器:
Figure BDA0003349503450000067
S6:由式(6)计算Vi ι(t);
S7:计算实际控制器:ui(t)=Vi ι(t)-f(xi(t));
S8:计算值函数:
Figure BDA0003349503450000068
S9:更新Critic神经网络权值;
S10:更新Actor神经网络权值;
S11:重复步骤S2-S10,直到
Figure BDA0003349503450000071
收敛。
优选地,所述步骤S1初始化包括:初始化领导者的状态x0(0)与跟随者的状态xi(0),令
Figure BDA0003349503450000072
并且初始化Critic神经网络权值
Figure BDA0003349503450000073
和Actor神经网络权值
Figure BDA0003349503450000074
优选地,所述步骤S2是通过式(19)计算
Figure BDA0003349503450000075
优选地,所述步骤S3是通过式(8)计算分布式滑模面Sii(t))。
优选地,所述步骤S4是通过式(10)计算分布式积分滑模控制器
Figure BDA0003349503450000076
优选地,所述步骤S9是通过式(20)更新Critic神经网络权值。
优选地,所述步骤S10是通过式(21)更新Actor神经网络权值。
本发明所具有的优点与有益效果是:
本发明一种多智能体一致性强化学习控制方法,该方法通过将虚拟控制器和复合控制器相结合来设计分布式滑模控制器,设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性而且使系统具有自学习能力从而实现最优一致性。
本发明方法针对带有模型不确定性和外部干扰以及含有通信时滞的高阶多智能体系统,首次提出考虑智能体通信时滞的包含邻居智能体信息的滑模面设计方法,设计了分布式滑模面,去除了每个智能体的不确定性,使得系统具有很强的鲁棒性。同时,在设计分布式滑模面时,考虑了智能体邻居节点的各阶状态信息,提升了整个多智能体系统的抗扰性能。由于滑模面的设计是基于强化学习求解的最优控制器,使得所有智能体均能够通过近似最优的方法跟随领导者且具有很好的鲁棒性。在设计控制律时为基于高阶多智能体系统设计的并且考虑了智能体之间的通信时滞对多智能体系统一致性的影响,因此本发明还能够满足在时滞的情况下的高阶一致性。
附图说明
下面结合附图对本发明具体方法、实现过程,以及实现效果做作进一步的说明,
图中:
图1为本发明一种多智能体一致性强化学习控制方法的框架图;
图2为多智能体系统第一阶状态跟踪图;
图3为多智能体系统第二阶状态跟踪图;
图4为Critic神经网络权值收敛图;
图5为Actor神经网络权值收敛图;
图6为分布式积分滑模控制器自适应学习算法流程图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图所示实施例对本发明具体实施方式进行详细说明。
如图1所示,本发明一种多智能体一致性强化学习控制方法,包括以下步骤:
其中,所述多智能体中跟随者动态模型为:
Figure BDA0003349503450000081
其中,
Figure BDA0003349503450000082
代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰。
所述多智能体系统中领导者动力学方程为:
Figure BDA0003349503450000091
其中,
Figure BDA0003349503450000092
代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰。
步骤1:由所述多智能体动力学模型,定义智能体i的第j个分量的局部邻居误差:
Figure BDA0003349503450000093
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者之间的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和。
步骤2:根据式(3)第j个分量的局部邻居误差方程可得智能体i的局部邻居误差系统方程:
Figure BDA0003349503450000094
步骤3:定义虚拟控制器:Vi ι(t)=f(xi)+ui(t) (5)
步骤4:构建公式,该公式考虑到实际多智能体之间通信存在的时滞,定义如下:
Figure BDA0003349503450000095
其中,复合控制器
Figure BDA0003349503450000096
Figure BDA0003349503450000097
为分布式最优控制器,
Figure BDA0003349503450000098
为分布式积分滑模控制器,
Figure BDA0003349503450000099
为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;
步骤5:所述N个智能体(跟随者)根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:
Figure BDA0003349503450000101
其中,
Figure BDA0003349503450000102
δi(t)为智能体i的状态误差向量,
Figure BDA0003349503450000103
为复合控制律,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t))。
步骤6:设计分布式积分滑模控制器,包括以下步骤:
步骤6.1:选用积分滑模面为:
Figure BDA0003349503450000104
其中,δi为智能体i的状态误差向量,Sii)为滑模函数,Si0i)为关于δi(t)的函数,Si00)为常数,
Figure BDA0003349503450000105
步骤6.2:对选用的积分滑模面求导为:
Figure BDA0003349503450000106
步骤6.3:根据所选积分滑模面式(8)设计相应的分布式积分滑模控制器为:
Figure BDA0003349503450000107
其中,β(0<β<1)为通信时滞系数,定义Ri(t)的导数:
Figure BDA0003349503450000108
σ00>0)为常数,sgn(·)为符号函数,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t))。
步骤7:设计分布式最优控制器,包括以下步骤:
步骤7.1:根据式(10),当智能体达到滑模面时,其等效控制器为:
Figure BDA0003349503450000111
步骤7.2:相应地,智能体达到滑模面后,其误差动力学方程则为:
Figure BDA0003349503450000112
步骤7.3:为了实现所述多智能体系统实现最优一致性,提出如下性能指标:
Figure BDA0003349503450000113
其中,
Figure BDA0003349503450000114
γi为折扣因子,Qi≥0为半正定矩阵,Ri≥0为正定矩阵。
步骤7.4:基于所提出的性能指标,定义其值函数为:
Figure BDA0003349503450000115
步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:
Figure BDA0003349503450000116
有如下Hamilton-Jacobi-Bellman(HJB)方程:
Figure BDA0003349503450000117
步骤7.6:由此,得到分布式最优控制器:
Figure BDA0003349503450000118
根据所述最优控制器可知,欲得到最优的控制协议,需要先求解HJB方程。以下,采用基于策略迭代强化学习算法的Actor-Critic神经网络求解HJB方程,包括以下步骤:
所述值函数采用Critic神经网络逼近:
Figure BDA0003349503450000121
其中,
Figure BDA0003349503450000122
表示Critic神经网络估计权值,φii)为神经网络激活函数。
所述最优控制律采用Actor神经网络估计:
Figure BDA0003349503450000123
其中,
Figure BDA0003349503450000124
表示Actor神经网络估计权值,
Figure BDA0003349503450000125
为激活函数的导数。
所述Critic神经网络估计权值采用如下方程更新:
Figure BDA0003349503450000126
其中,
Figure BDA0003349503450000127
Qi1为Critic神经网络的学习率。
所述Actor神经网络估计权值采用如下方程更新:
Figure BDA0003349503450000128
其中,
Figure BDA0003349503450000129
Figure BDA00033495034500001210
为Actor神经网络的学习率,Gi1与Gi2为可调参数。
如图6所示,所述分布式积分滑模控制器具有自适应学习能力,由于所述分布式积分滑模控制器自适应学习算法的学习目标是得到最优控制协议:
Figure BDA00033495034500001211
因此所述分布式积分滑模控制器自适应学习算法,包括以下步骤:
S1:初始化:初始化领导者的状态x0(0)与跟随者的状态xi(0),令Vj ι(-τ)=0,并且初始化Critic神经网络权值
Figure BDA00033495034500001212
和Actor神经网络权值
Figure BDA00033495034500001213
S2:由式(19)计算
Figure BDA0003349503450000131
S3:由式(8)计算分布式滑模面:Sii(t));
S4:由式(10)计算分布式滑模控制器:
Figure BDA0003349503450000132
S5:计算复合控制器:
Figure BDA0003349503450000133
S6:由式(6)计算Vi ι(t);
S7:计算实际控制器:ui(t)=Vi ι(t)-f(xi(t));
S8:计算值函数:
Figure BDA0003349503450000134
S9:由式(20)更新Critic神经网络权值;
S10:由式(21)更新Actor神经网络权值;
S11:重复步骤S1-S10,直到
Figure BDA0003349503450000135
收敛。
实施例1:
为了更加直观的展示本发明所提出的多智能体一致性强化学习控制方法的有效性,采用MATLAB软件对本发明提出的方法进行仿真实验。
跟随者为带有外部干扰的二阶非线性状态方程:
Figure BDA0003349503450000136
其中,i=1,2,3,4,di(t)=2sin(t)+2,
Figure BDA0003349503450000137
领导者的状态方程为:
Figure BDA0003349503450000138
其中,
Figure BDA0003349503450000139
d0(t)=cos(t)。
根据实施案例1得到如图2-图5所示的仿真图。图2是多智能体系统第一阶状态跟踪曲线图,图3是多智能体系统第二阶状态跟踪曲线图,从图2和图3可以看出本发明提出的多智能体系统能够在很短的时间内很好的跟上领导者的运动轨迹。图4为Critic神经网络权值收敛曲线图,图5是Actor神经网络权值收敛曲线图。从图2-图5中可以看出当权值逐渐收敛于稳定值时,系统的状态也趋于一致,收敛速度较快,同时由于所述实施例为非线性含干扰的系统,从仿真曲线可以看出本发明提出的方法具有很好的鲁棒性。

Claims (10)

1.一种多智能体一致性强化学习控制方法,所述多智能体系统中跟随者模型为:
Figure FDA0003349503440000011
其中,
Figure FDA0003349503440000012
代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰;
所述多智能体系统中领导者动力学方程为:
Figure FDA0003349503440000013
其中,
Figure FDA0003349503440000014
代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰;
N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息;
其特征在于包括以下步骤:
步骤1:由所述多智能体系统模型,定义智能体i的第j个分量的局部邻居误差:
Figure FDA0003349503440000015
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和;
步骤2:通过式(3)得到智能体i的局部邻居误差系统方程:
Figure FDA0003349503440000021
步骤3:定义虚拟控制器:Vi ι(t)=f(xi)+ui(t); (5)
步骤4:根据实际多智能体之间通信存在的时滞,构建公式,定义如下:
Figure FDA0003349503440000022
其中,复合控制器
Figure FDA0003349503440000023
Figure FDA0003349503440000024
为分布式最优控制器,
Figure FDA0003349503440000025
为分布式积分滑模控制器,
Figure FDA0003349503440000026
为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;
步骤5:N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:
Figure FDA0003349503440000027
其中,
Figure FDA0003349503440000028
δi(t)为智能体i的状态误差向量,
Figure FDA0003349503440000029
为智能体i的复合控制器,
Figure FDA00033495034400000210
为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t));
步骤6:设计分布式积分滑模控制器;
步骤7:设计分布式最优控制器。
2.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤6设计分布式积分滑模控制器包括以下步骤:
步骤6.1:对所述分布式积分滑模控制器,选用积分滑模面为:
Figure FDA0003349503440000031
其中,δi为智能体i的状态误差向量,Sii)为滑模函数,Si0i)为关于δi(t)的函数,Si00)为常数,
Figure FDA0003349503440000032
步骤6.2:根据所选积分滑模面式(8)设计分布式积分滑模控制器为:
Figure FDA0003349503440000033
其中,β(0<β<1)为通信时滞系数,定义Ri(t)的导数:
Figure FDA0003349503440000034
σ00>0)为常数,sgn(·)为符号函数,
Figure FDA0003349503440000035
为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t));
所述步骤7设计分布式最优控制器包括以下步骤:
步骤7.1:当智能体达到滑模面时,设计式(10)的等效控制器为:
Figure FDA0003349503440000036
步骤7.2:智能体达到滑模面后,式(7)则为:
Figure FDA0003349503440000037
步骤7.3:提出如下性能指标:
Figure FDA0003349503440000038
其中,
Figure FDA0003349503440000039
γi为折扣因子,Qi≥0为半正定矩阵,Ri>0为正定矩阵;
步骤7.4:基于所提出的性能指标,定义其值函数为:
Figure FDA00033495034400000310
步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:
Figure FDA00033495034400000311
Figure FDA0003349503440000041
有如下HJB方程:
Figure FDA0003349503440000042
步骤7.6:得到分布式最优控制器:
Figure FDA0003349503440000043
3.根据权利要求2所述的一种多智能体一致性强化学习控制方法,其特征在于,所述HJB方程采用基于策略迭代强化学习算法的Actor-Critic神经网络求解,求解过程包括以下步骤:
所述值函数采用Critic神经网络逼近:
Figure FDA0003349503440000044
其中,
Figure FDA0003349503440000045
表示Critic神经网络估计权值,φii)为神经网络激活函数;
所述分布式最优控制器采用Actor神经网络估计:
Figure FDA0003349503440000046
其中,
Figure FDA0003349503440000047
表示Actor神经网络估计权值,
Figure FDA0003349503440000048
为激活函数的导数;
所述Critic神经网络估计权值采用如下方程更新:
Figure FDA0003349503440000049
其中,
Figure FDA00033495034400000410
Figure FDA00033495034400000411
为Critic神经网络的学习率;
所述Actor神经网络估计权值采用如下方程更新:
Figure FDA0003349503440000051
其中,
Figure FDA0003349503440000052
Figure FDA0003349503440000053
为Actor神经网络的学习率,Gi1与Gi2为可调参数。
4.根据权利要求3所述的一种多智能体一致性强化学习控制方法,其特征在于,所述分布式积分滑模控制器具有自适应学习能力,分布式积分滑模控制器的自适应学习算法,包括以下步骤:
S1:初始化;
S2:计算
Figure FDA0003349503440000054
S3:计算分布式滑模面:Sii(t));
S4:计算分布式积分滑模控制器:
Figure FDA0003349503440000055
S5:计算复合控制器:
Figure FDA0003349503440000056
S6:由式(6)计算
Figure FDA0003349503440000057
S7:计算实际控制器:
Figure FDA0003349503440000058
S8:计算值函数:
Figure FDA0003349503440000059
S9:更新Critic神经网络权值;
S10:更新Actor神经网络权值;
S11:重复步骤S2-S10,直到
Figure FDA00033495034400000510
收敛。
5.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S1初始化包括:初始化领导者的状态x0(0)与跟随者的状态xi(0),令
Figure FDA00033495034400000511
并且初始化Critic神经网络权值
Figure FDA00033495034400000512
和Actor神经网络权值
Figure FDA00033495034400000513
6.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S2是通过式(19)计算
Figure FDA0003349503440000061
7.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S3是通过式(8)计算分布式滑模面Sii(t))。
8.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S4是通过式(10)计算分布式积分滑模控制器
Figure FDA0003349503440000062
9.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S9是通过式(20)更新Critic神经网络权值。
10.根据权利要求4所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S10是通过式(21)更新Actor神经网络权值。
CN202111333034.9A 2021-11-11 2021-11-11 一种多智能体一致性强化学习控制方法 Active CN114200830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111333034.9A CN114200830B (zh) 2021-11-11 2021-11-11 一种多智能体一致性强化学习控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111333034.9A CN114200830B (zh) 2021-11-11 2021-11-11 一种多智能体一致性强化学习控制方法

Publications (2)

Publication Number Publication Date
CN114200830A true CN114200830A (zh) 2022-03-18
CN114200830B CN114200830B (zh) 2023-09-22

Family

ID=80647327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111333034.9A Active CN114200830B (zh) 2021-11-11 2021-11-11 一种多智能体一致性强化学习控制方法

Country Status (1)

Country Link
CN (1) CN114200830B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171492A (zh) * 2022-07-29 2022-10-11 梅查利·奥马尔 多智能体控制实验设备、控制方法及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040017563A1 (en) * 2002-07-25 2004-01-29 James Lawrence H. Method and apparatus for volume and density measurements
CN104950672A (zh) * 2015-06-10 2015-09-30 北京理工大学 一种最优积分滑模控制方法
CN109551479A (zh) * 2018-11-30 2019-04-02 长春工业大学 基于参数优化可重构模块化柔性机械臂轨迹跟踪控制方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110119087A (zh) * 2019-05-05 2019-08-13 西北工业大学 一种有向通信下二阶多智能体系统固定时一致性跟踪方法
CN110782011A (zh) * 2019-10-21 2020-02-11 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN111948937A (zh) * 2020-07-20 2020-11-17 电子科技大学 多智能体系统的多梯度递归强化学习模糊控制方法及系统
US20210302923A1 (en) * 2015-03-16 2021-09-30 Rockwell Automation Technologies, Inc. Backup of an industrial automation plant in the cloud

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040017563A1 (en) * 2002-07-25 2004-01-29 James Lawrence H. Method and apparatus for volume and density measurements
US20210302923A1 (en) * 2015-03-16 2021-09-30 Rockwell Automation Technologies, Inc. Backup of an industrial automation plant in the cloud
CN104950672A (zh) * 2015-06-10 2015-09-30 北京理工大学 一种最优积分滑模控制方法
CN109551479A (zh) * 2018-11-30 2019-04-02 长春工业大学 基于参数优化可重构模块化柔性机械臂轨迹跟踪控制方法
CN109946975A (zh) * 2019-04-12 2019-06-28 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110119087A (zh) * 2019-05-05 2019-08-13 西北工业大学 一种有向通信下二阶多智能体系统固定时一致性跟踪方法
CN110782011A (zh) * 2019-10-21 2020-02-11 辽宁石油化工大学 一种基于强化学习的网络化多智能体系统分布式优化控制方法
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN111948937A (zh) * 2020-07-20 2020-11-17 电子科技大学 多智能体系统的多梯度递归强化学习模糊控制方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZIJIAN LUO,等: "Consensus Learning Tracking of Two-dimensional Discrete Networks Based on Sliding Mode Method", 《2020 IEEE 9TH DATA DRIVEN CONTROL AND LEARNING SYSTEMS CONFERENCE (DDCLS)》 *
李金娜,等: "基于强化学习的数据驱动多智能体系统最优一致性综述", 《智能科学与技术学报》, vol. 2, no. 4 *
陈世明,等: "带扰动混杂多智能体系统领导–跟随一致性", 《控制理论与应用》, vol. 37, no. 7 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171492A (zh) * 2022-07-29 2022-10-11 梅查利·奥马尔 多智能体控制实验设备、控制方法及存储介质
CN115171492B (zh) * 2022-07-29 2023-12-15 梅查利·奥马尔 多智能体控制实验设备、控制方法及存储介质

Also Published As

Publication number Publication date
CN114200830B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Wu et al. Quantized adaptive finite-time bipartite NN tracking control for stochastic multiagent systems
Jin et al. Adaptive fault-tolerant consensus for a class of leader-following systems using neural network learning strategy
Sun et al. Adaptive decentralized neural network tracking control for uncertain interconnected nonlinear systems with input quantization and time delay
CN110597061B (zh) 一种多智能体完全分布式自抗扰时变编队控制方法
Liu et al. Adaptive fixed-time hierarchical sliding mode control for switched under-actuated systems with dead-zone constraints via event-triggered strategy
CN104950677A (zh) 基于反演滑模控制的机械臂系统饱和补偿控制方法
Lu et al. Adaptive fuzzy output feedback control for nonlinear systems based on event-triggered mechanism
Lan et al. Adaptive output feedback tracking control for a class of nonlinear time-varying state constrained systems with fuzzy dead-zone input
CN109062240B (zh) 一种基于神经网络估计的刚性飞行器固定时间自适应姿态跟踪控制方法
Rong et al. Adaptive neural control for a class of MIMO nonlinear systems with extreme learning machine
CN114851198B (zh) 一种多单连杆式机械臂的一致跟踪固定时间稳定控制方法
CN114841074A (zh) 基于状态观测与经验池的非线性多智能体一致性方法
CN110543183A (zh) 一种考虑执行器受限问题的刚体飞行器固定时间姿态跟踪控制方法
CN111007724A (zh) 一种基于区间ii型模糊神经网络的高超音速飞行器指定性能量化跟踪控制方法
Meng et al. Finite-time extended state observer based collision-free leaderless formation control of multiple AUVs via event-triggered control
Lin et al. Distributed adaptive cooperative control for uncertain nonlinear multi-agent systems with hysteretic quantized input
CN114200830B (zh) 一种多智能体一致性强化学习控制方法
CN115981162A (zh) 一种基于新型扰动观测器的机器人系统滑模控制轨迹跟踪方法
Song et al. Adaptive dynamic event-triggered control for constrained modular reconfigurable robot
Fu et al. Dynamic event-triggered adaptive control for uncertain stochastic nonlinear systems
Wang et al. Event-triggered model-parameter-free trajectory tracking control for autonomous underwater vehicles
CN112068446B (zh) 一种基于离散时间模糊模型的直流电机系统抗干扰控制方法
Wang et al. Fixed-time event-triggered sliding mode cooperative path-following control with prescribed performance for USVs based on lumped disturbance observer
Khan et al. Neuro-adaptive dynamic integral sliding mode control design with output differentiation observer for uncertain higher order MIMO nonlinear systems
CN112685835B (zh) 车辆自主驾驶的弹性事件触发控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant