CN114200830B - 一种多智能体一致性强化学习控制方法 - Google Patents
一种多智能体一致性强化学习控制方法 Download PDFInfo
- Publication number
- CN114200830B CN114200830B CN202111333034.9A CN202111333034A CN114200830B CN 114200830 B CN114200830 B CN 114200830B CN 202111333034 A CN202111333034 A CN 202111333034A CN 114200830 B CN114200830 B CN 114200830B
- Authority
- CN
- China
- Prior art keywords
- agent
- controller
- neural network
- sliding mode
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 131
- 238000004891 communication Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 239000002131 composite material Substances 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 30
- 238000013461 design Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种多智能体一致性强化学习控制方法,包含如下步骤:由所述多智能体系统中领导者动力学模型,定义智能体i的第j个分量的局部邻居误差;通过式(3)得到智能体i的局部邻居误差系统方程;定义虚拟控制器;根据实际多智能体之间通信存在的时滞,构建公式;N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量;设计分布式积分滑模控制器;设计分布式最优控制器。本发明将具有强鲁棒性的滑模控制和强化学习算法相结合,设计的分布式复合控制律不仅能使整个高阶多智能体系统抵抗外界扰动使系统具有很强的鲁棒性而且使整个多智能体系统具有自学习能力从而实现最优一致性。
Description
技术领域
本发明涉及一种多智能体一致性控制方法,特别是涉及一种多智能体一致性强化学习控制方法。
背景技术
由于分布式计算、传感器技术,以及通信技术的迅速发展,实际系统的每个单元都具有协同计算和处理复杂任务的能力。因此,多智能体系统应运而生。多智能体系统一致性问题是多智能系统研究中基本并且相当重要的问题,其主要任务是利用智能体之间的状态信息设计一致性控制协议,从而随着时间的推移使得所有智能体的状态相同。
在实际应用中,多智能系统的动力学模型不能完全准确的确定,系统多为非线性系统,并且含有干扰,智能体之间相互耦合,再加上智能体之间通信时滞的存在,使得多智能体系统一致性控制更加困难。滑模控制是一种鲁棒控制方法,其根本特点是可以针对系统的不确定性和受到外部扰动时系统具有良好的控制性能和强鲁棒性。强化学习是机器学习的子领域,其参照哺乳动物的学习机制,即智能体不断地通过与环境的交互改变其行为以实现累积奖励最大化。
现有多智能体一致性控制方法大多只考虑系统为一阶或者二阶的情形,然而实际有些场景要求多智能体系统具有很强的机动性,即要求多智能体系统实现高阶一致性。部分多智能体一致性控制方法未考虑智能体之间由于通信带宽有限而存在的时滞、外部干扰对多智能体系统一致性的影响,或者仅考虑的多智能体系统为线性多智能体,然而实际中绝大部分多智能体系统为非线性系统。
发明内容
针对现有的多智能体系统一致性控制方法存在的问题以及为了实现多智能体系统达到最优一致性,本发明的目的是提供一种多智能体一致性强化学习控制方法,该方法设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性,而且使系统具有自学习能力从而实现最优一致性。
为了解决现有技术存在的问题,本发明采用以下技术方案:
一种基于滑模控制的多智能体一致性强化学习控制方法,所述多智能体系统中跟随者的模型为:
其中,代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰;
所述多智能体系统中领导者动力学方程为:
其中,代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰;
N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息;
包括以下步骤:
步骤1:由所述多智能体系统模型,定义智能体i的第j个分量的局部邻居误差:
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和;
步骤2:通过式(3)得到智能体i的局部邻居误差系统方程:
步骤3:定义虚拟控制器:Vi ι(t)=f(xi)+ui(t) (5)
步骤4:根据实际多智能体之间通信存在的时滞,构建公式,定义如下:
其中, 为分布式最优控制器,/>为分布式积分滑模控制器,/>为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;
步骤5:N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:
其中,δi(t)为智能体i的状态误差向量,/>为智能体i的复合控制器,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t));
步骤6:设计分布式积分滑模控制器;
步骤7:设计分布式最优控制器。
进一步地,所述步骤6设计分布式积分滑模控制器包括以下步骤:
步骤6.1:对所述分布式积分滑模控制器,选用积分滑模面为:
其中,δi为智能体i的状态误差向量,Si(δi)为滑模函数,Si0(δi)为关于δi(t)的函数,Si0(δ0)为常数,
步骤6.2:根据所选积分滑模面式(8)设计分布式积分滑模控制器为:
其中,β(0<β<1)为通信时滞系数,定义Ri(t)的导数:σ0(σ0>0)为常数,sgn(·)为符号函数,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t));
所述步骤7设计分布式最优控制器包括以下步骤:
步骤7.1:当智能体达到滑模面时,设计式(10)的等效控制器为:
步骤7.2:智能体达到滑模面后,式(7)则为:
步骤7.3:提出如下性能指标:
其中,γi为折扣因子,Qi≥0为半正定矩阵,Ri>0为正定矩阵;
步骤7.4:基于所提出的性能指标,定义其值函数为:
步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:
有如下HJB方程:
步骤7.6:得到分布式最优控制器:
进一步地,所述HJB方程采用基于策略迭代强化学习算法的Actor-Critic神经网络求解,求解过程包括以下步骤:
所述值函数采用Critic神经网络逼近:其中,/>表示Critic神经网络估计权值,φi(δi)为神经网络激活函数;
所述分布式最优控制器采用Actor神经网络估计:
其中,表示Actor神经网络估计权值,/>为激活函数的导数;
所述Critic神经网络估计权值采用如下方程更新:
其中,Qi1为Critic神经网络的学习率;
所述Actor神经网络估计权值采用如下方程更新:
其中,Qi2为Actor神经网络的学习率,Gi1与Gi2为可调参数。
进一步地,所述分布式积分滑模控制器具有自适应学习能力,分布式积分滑模控制器的自适应学习算法,包括以下步骤:
S1:初始化;
S2:计算
S3:计算分布式滑模面:Si(δi(t));
S4:计算分布式积分滑模控制器:
S5:计算复合控制器:
S6:由式(6)计算Vi ι(t);
S7:计算实际控制器:ui(t)=Vi ι(t)-f(xi(t));
S8:计算值函数:
S9:更新Critic神经网络权值;
S10:更新Actor神经网络权值;
S11:重复步骤S2-S10,直到收敛。
优选地,所述步骤S1初始化包括:初始化领导者的状态x0(0)与跟随者的状态xi(0),令并且初始化Critic神经网络权值/>和Actor神经网络权值/>
优选地,所述步骤S2是通过式(19)计算
优选地,所述步骤S3是通过式(8)计算分布式滑模面Si(δi(t))。
优选地,所述步骤S4是通过式(10)计算分布式积分滑模控制器
优选地,所述步骤S9是通过式(20)更新Critic神经网络权值。
优选地,所述步骤S10是通过式(21)更新Actor神经网络权值。
本发明所具有的优点与有益效果是:
本发明一种多智能体一致性强化学习控制方法,该方法通过将虚拟控制器和复合控制器相结合来设计分布式滑模控制器,设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性而且使系统具有自学习能力从而实现最优一致性。
本发明方法针对带有模型不确定性和外部干扰以及含有通信时滞的高阶多智能体系统,首次提出考虑智能体通信时滞的包含邻居智能体信息的滑模面设计方法,设计了分布式滑模面,去除了每个智能体的不确定性,使得系统具有很强的鲁棒性。同时,在设计分布式滑模面时,考虑了智能体邻居节点的各阶状态信息,提升了整个多智能体系统的抗扰性能。由于滑模面的设计是基于强化学习求解的最优控制器,使得所有智能体均能够通过近似最优的方法跟随领导者且具有很好的鲁棒性。在设计控制律时为基于高阶多智能体系统设计的并且考虑了智能体之间的通信时滞对多智能体系统一致性的影响,因此本发明还能够满足在时滞的情况下的高阶一致性。
附图说明
下面结合附图对本发明具体方法、实现过程,以及实现效果做作进一步的说明,
图中:
图1为本发明一种多智能体一致性强化学习控制方法的框架图;
图2为多智能体系统第一阶状态跟踪图;
图3为多智能体系统第二阶状态跟踪图;
图4为Critic神经网络权值收敛图;
图5为Actor神经网络权值收敛图;
图6为分布式积分滑模控制器自适应学习算法流程图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图所示实施例对本发明具体实施方式进行详细说明。
如图1所示,本发明一种多智能体一致性强化学习控制方法,包括以下步骤:
其中,所述多智能体中跟随者动态模型为:
其中,代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰。
所述多智能体系统中领导者动力学方程为:
其中,代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰。
步骤1:由所述多智能体动力学模型,定义智能体i的第j个分量的局部邻居误差:
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者之间的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和。
步骤2:根据式(3)第j个分量的局部邻居误差方程可得智能体i的局部邻居误差系统方程:
步骤3:定义虚拟控制器:Vi ι(t)=f(xi)+ui(t) (5)
步骤4:构建公式,该公式考虑到实际多智能体之间通信存在的时滞,定义如下:
其中,复合控制器 为分布式最优控制器,/>为分布式积分滑模控制器,/>为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;
步骤5:所述N个智能体(跟随者)根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:
其中,δi(t)为智能体i的状态误差向量,/>为复合控制律,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t))。
步骤6:设计分布式积分滑模控制器,包括以下步骤:
步骤6.1:选用积分滑模面为:
其中,δi为智能体i的状态误差向量,Si(δi)为滑模函数,Si0(δi)为关于δi(t)的函数,Si0(δ0)为常数,
步骤6.2:对选用的积分滑模面求导为:
步骤6.3:根据所选积分滑模面式(8)设计相应的分布式积分滑模控制器为:
其中,β(0<β<1)为通信时滞系数,定义Ri(t)的导数:σ0(σ0>0)为常数,sgn(·)为符号函数,Vj ι(t)为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t))。
步骤7:设计分布式最优控制器,包括以下步骤:
步骤7.1:根据式(10),当智能体达到滑模面时,其等效控制器为:
步骤7.2:相应地,智能体达到滑模面后,其误差动力学方程则为:
步骤7.3:为了实现所述多智能体系统实现最优一致性,提出如下性能指标:
其中,γi为折扣因子,Qi≥0为半正定矩阵,Ri≥0为正定矩阵。
步骤7.4:基于所提出的性能指标,定义其值函数为:
步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:
有如下Hamilton-Jacobi-Bellman(HJB)方程:
步骤7.6:由此,得到分布式最优控制器:
根据所述最优控制器可知,欲得到最优的控制协议,需要先求解HJB方程。以下,采用基于策略迭代强化学习算法的Actor-Critic神经网络求解HJB方程,包括以下步骤:
所述值函数采用Critic神经网络逼近:其中,/>表示Critic神经网络估计权值,φi(δi)为神经网络激活函数。
所述最优控制律采用Actor神经网络估计:
其中,表示Actor神经网络估计权值,/>为激活函数的导数。
所述Critic神经网络估计权值采用如下方程更新:
其中,Qi1为Critic神经网络的学习率。
所述Actor神经网络估计权值采用如下方程更新:
其中, 为Actor神经网络的学习率,Gi1与Gi2为可调参数。
如图6所示,所述分布式积分滑模控制器具有自适应学习能力,由于所述分布式积分滑模控制器自适应学习算法的学习目标是得到最优控制协议:因此所述分布式积分滑模控制器自适应学习算法,包括以下步骤:
S1:初始化:初始化领导者的状态x0(0)与跟随者的状态xi(0),令Vj ι(-τ)=0,并且初始化Critic神经网络权值和Actor神经网络权值/>
S2:由式(19)计算
S3:由式(8)计算分布式滑模面:Si(δi(t));
S4:由式(10)计算分布式滑模控制器:
S5:计算复合控制器:
S6:由式(6)计算Vi ι(t);
S7:计算实际控制器:ui(t)=Vi ι(t)-f(xi(t));
S8:计算值函数:
S9:由式(20)更新Critic神经网络权值;
S10:由式(21)更新Actor神经网络权值;
S11:重复步骤S1-S10,直到收敛。
实施例1:
为了更加直观的展示本发明所提出的多智能体一致性强化学习控制方法的有效性,采用MATLAB软件对本发明提出的方法进行仿真实验。
跟随者为带有外部干扰的二阶非线性状态方程:
其中,i=1,2,3,4,di(t)=2sin(t)+2,
领导者的状态方程为:
其中,d0(t)=cos(t)。
根据实施案例1得到如图2-图5所示的仿真图。图2是多智能体系统第一阶状态跟踪曲线图,图3是多智能体系统第二阶状态跟踪曲线图,从图2和图3可以看出本发明提出的多智能体系统能够在很短的时间内很好的跟上领导者的运动轨迹。图4为Critic神经网络权值收敛曲线图,图5是Actor神经网络权值收敛曲线图。从图2-图5中可以看出当权值逐渐收敛于稳定值时,系统的状态也趋于一致,收敛速度较快,同时由于所述实施例为非线性含干扰的系统,从仿真曲线可以看出本发明提出的方法具有很好的鲁棒性。
Claims (7)
1.一种多智能体一致性强化学习控制方法,基于如下多智能体系统跟随者模型:
其中,代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰;
所述多智能体系统中领导者动力学方程为:
其中,代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰;
N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息;
其特征在于包括以下步骤:
步骤1:由所述多智能体系统模型,定义智能体i的第j个分量的局部邻居误差:
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者的权重,Π为拓扑图中智能体j到智能体i的所有拓扑关系的总和;
步骤2:通过式(3)得到智能体i的局部邻居误差系统方程:
步骤3:定义虚拟控制器:Vi ι(t)=f(xi)+ui(t); (5)
步骤4:根据实际多智能体之间通信存在的时滞,构建公式,定义如下:
其中,复合控制器 为分布式最优控制器,/>为分布式积分滑模控制器,/>为智能体j具有时滞信息的虚拟控制器,τ为通信时滞;
步骤5:N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:
其中,δi(t)为智能体i的状态误差向量,/>为智能体i的复合控制器,/>为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t-dj(t))+bi(di(t)-dj(t);
步骤6:设计分布式积分滑模控制器;
所述步骤6设计分布式积分滑模控制器包括以下步骤:
步骤6.1:对所述分布式积分滑模控制器,选用积分滑模面为:
其中,δi为智能体i的状态误差向量,Si(δi)为滑模函数,Si0(δi)为关于δi(t)的函数,Si0(δ0)为常数,
步骤6.2:根据所选积分滑模面式(8)设计分布式积分滑模控制器为:
其中,β(0<β<1)为通信时滞系数,定义Ri(t)的导数:σ0(σ0>0)为常数,sgn(·)为符号函数,/>为关于智能体j的虚拟控制器,Δij(t)=∑aij(di(t)-dj(t))+bi(di(t)-dj(t);
步骤7:设计分布式最优控制器;
所述步骤7设计分布式最优控制器包括以下步骤:
步骤7.1:当智能体达到滑模面时,设计式(10)的等效控制器为:
步骤7.2:智能体达到滑模面后,式(7)则为:
步骤7.3:提出如下性能指标:
其中,γi为折扣因子,Qi≥0为半正定矩阵,Ri>0为正定矩阵;
步骤7.4:基于所提出的性能指标,定义其值函数为:
步骤7.5:根据最优控制理论,提出如下哈密尔顿函数:
有如下HJB方程:
步骤7.6:得到分布式最优控制器:
所述HJB方程采用基于策略迭代强化学习算法的Actor-Critic神经网络求解,求解过程包括以下步骤:
所述值函数采用Critic神经网络逼近:
其中,表示Critic神经网络估计权值,φi(δi)为神经网络激活函数;
所述分布式最优控制器采用Actor神经网络估计:
其中,表示Actor神经网络估计权值,/>为激活函数的导数;
所述Critic神经网络估计权值采用如下方程更新:
其中, 为Critic神经网络的学习率;
所述Actor神经网络估计权值采用如下方程更新:
其中, 为Actor神经网络的学习率,Gi1与Gi2为可调参数;
所述分布式积分滑模控制器具有自适应学习能力,分布式积分滑模控制器的自适应学习算法,包括以下步骤:
S1:初始化;
S2:计算
S3:计算分布式滑模面:Si(δi(t));
S4:计算分布式积分滑模控制器:
S5:计算复合控制器:
S6:由式(6)计算
S7:计算实际控制器:
S8:计算值函数:
S9:更新Critic神经网络权值;
S10:更新Actor神经网络权值;
S11:重复步骤S2-S10,直到收敛。
2.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S1初始化包括:初始化领导者的状态x0(0)与跟随者的状态xi(0),令 并且初始化Critic神经网络权值/>和Actor神经网络权值/>
3.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S2是通过式(19)计算
4.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S3是通过式(8)计算分布式滑模面Si(δi(t))。
5.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S4是通过式(10)计算分布式积分滑模控制器
6.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S9是通过式(20)更新Critic神经网络权值。
7.根据权利要求1所述的一种多智能体一致性强化学习控制方法,其特征在于,所述步骤S10是通过式(21)更新Actor神经网络权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111333034.9A CN114200830B (zh) | 2021-11-11 | 2021-11-11 | 一种多智能体一致性强化学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111333034.9A CN114200830B (zh) | 2021-11-11 | 2021-11-11 | 一种多智能体一致性强化学习控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114200830A CN114200830A (zh) | 2022-03-18 |
CN114200830B true CN114200830B (zh) | 2023-09-22 |
Family
ID=80647327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111333034.9A Active CN114200830B (zh) | 2021-11-11 | 2021-11-11 | 一种多智能体一致性强化学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114200830B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171492B (zh) * | 2022-07-29 | 2023-12-15 | 梅查利·奥马尔 | 多智能体控制实验设备、控制方法及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104950672A (zh) * | 2015-06-10 | 2015-09-30 | 北京理工大学 | 一种最优积分滑模控制方法 |
CN109551479A (zh) * | 2018-11-30 | 2019-04-02 | 长春工业大学 | 基于参数优化可重构模块化柔性机械臂轨迹跟踪控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110119087A (zh) * | 2019-05-05 | 2019-08-13 | 西北工业大学 | 一种有向通信下二阶多智能体系统固定时一致性跟踪方法 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN110908281A (zh) * | 2019-11-29 | 2020-03-24 | 天津大学 | 无人直升机姿态运动有限时间收敛强化学习控制方法 |
CN111780777A (zh) * | 2020-07-13 | 2020-10-16 | 江苏中科智能制造研究院有限公司 | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 |
CN111948937A (zh) * | 2020-07-20 | 2020-11-17 | 电子科技大学 | 多智能体系统的多梯度递归强化学习模糊控制方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040017563A1 (en) * | 2002-07-25 | 2004-01-29 | James Lawrence H. | Method and apparatus for volume and density measurements |
US11042131B2 (en) * | 2015-03-16 | 2021-06-22 | Rockwell Automation Technologies, Inc. | Backup of an industrial automation plant in the cloud |
-
2021
- 2021-11-11 CN CN202111333034.9A patent/CN114200830B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104950672A (zh) * | 2015-06-10 | 2015-09-30 | 北京理工大学 | 一种最优积分滑模控制方法 |
CN109551479A (zh) * | 2018-11-30 | 2019-04-02 | 长春工业大学 | 基于参数优化可重构模块化柔性机械臂轨迹跟踪控制方法 |
CN109946975A (zh) * | 2019-04-12 | 2019-06-28 | 北京理工大学 | 一种未知伺服系统的强化学习最优跟踪控制方法 |
CN110119087A (zh) * | 2019-05-05 | 2019-08-13 | 西北工业大学 | 一种有向通信下二阶多智能体系统固定时一致性跟踪方法 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN110908281A (zh) * | 2019-11-29 | 2020-03-24 | 天津大学 | 无人直升机姿态运动有限时间收敛强化学习控制方法 |
CN111780777A (zh) * | 2020-07-13 | 2020-10-16 | 江苏中科智能制造研究院有限公司 | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 |
CN111948937A (zh) * | 2020-07-20 | 2020-11-17 | 电子科技大学 | 多智能体系统的多梯度递归强化学习模糊控制方法及系统 |
Non-Patent Citations (3)
Title |
---|
Zijian Luo,等.Consensus Learning Tracking of Two-dimensional Discrete Networks Based on Sliding Mode Method.《2020 IEEE 9th Data Driven Control and Learning Systems Conference (DDCLS)》.2020,全文. * |
李金娜,等.基于强化学习的数据驱动多智能体系统最优一致性综述.《智能科学与技术学报》.2020,第2卷(第4期),全文. * |
陈世明,等.带扰动混杂多智能体系统领导–跟随一致性.《控制理论与应用》.2020,第37卷(第7期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114200830A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | Adaptive fault-tolerant consensus for a class of leader-following systems using neural network learning strategy | |
CN110877333B (zh) | 一种柔性关节机械臂控制方法 | |
Wang et al. | Event-triggered formation control of AUVs with fixed-time RBF disturbance observer | |
CN110597061A (zh) | 一种多智能体完全分布式自抗扰时变编队控制方法 | |
Jin et al. | Adaptive general pinned synchronization of a class of disturbed complex networks | |
Rong et al. | Adaptive neural control for a class of MIMO nonlinear systems with extreme learning machine | |
Meng et al. | Finite-time extended state observer based collision-free leaderless formation control of multiple AUVs via event-triggered control | |
CN109062240B (zh) | 一种基于神经网络估计的刚性飞行器固定时间自适应姿态跟踪控制方法 | |
Liu et al. | Distributed adaptive fuzzy control approach for prescribed-time containment of uncertain nonlinear multi-agent systems with unknown hysteresis | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
CN114200830B (zh) | 一种多智能体一致性强化学习控制方法 | |
Li et al. | Training a robust reinforcement learning controller for the uncertain system based on policy gradient method | |
Wang et al. | Fixed-time event-triggered sliding mode cooperative path-following control with prescribed performance for USVs based on lumped disturbance observer | |
Wang et al. | Event-triggered model-parameter-free trajectory tracking control for autonomous underwater vehicles | |
Song et al. | Adaptive dynamic event-triggered control for constrained modular reconfigurable robot | |
Gong et al. | Three-dimensional optimal trajectory tracking control of underactuated AUVs with uncertain dynamics and input saturation | |
CN114063438A (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
Han et al. | Robust learning-based control for uncertain nonlinear systems with validation on a soft robot | |
Liu et al. | Constrained event-driven policy iteration design for nonlinear discrete time systems | |
CN116382313A (zh) | 一种考虑通信受限的auh协同编队控制方法 | |
Hsu | Adaptive dynamic CMAC neural control of nonlinear chaotic systems with L2 tracking performance | |
Meng et al. | Distributed fixed-time dynamic event-triggered leaderless formation control for multiple AUVs based on FRBFDO | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
CN110095985A (zh) | 一种观测器设计方法和抗干扰控制系统 | |
CN112685835B (zh) | 车辆自主驾驶的弹性事件触发控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |