CN114545777A - 基于改进q函数的多智能体一致性强化学习方法及系统 - Google Patents
基于改进q函数的多智能体一致性强化学习方法及系统 Download PDFInfo
- Publication number
- CN114545777A CN114545777A CN202210217147.0A CN202210217147A CN114545777A CN 114545777 A CN114545777 A CN 114545777A CN 202210217147 A CN202210217147 A CN 202210217147A CN 114545777 A CN114545777 A CN 114545777A
- Authority
- CN
- China
- Prior art keywords
- follower
- function
- learning
- agent
- consistency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 title claims abstract description 55
- 230000002787 reinforcement Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 239000003795 chemical substances by application Substances 0.000 claims description 66
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000011217 control strategy Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明基于改进Q函数的多智能体一致性强化学习方法及系统,首先建立线性离散时间异构多智能体系统的动态模型;其次引入可靠性因子ρ折中非策略Q‑学习和策略Q‑学习两种学习模式,设计基于改进Q函数的分布式控制协议;最后采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制;本发明提出了一种改进的Q函数的异构多智能体一致性强化学习控制方法,提升了强化学习自学习能力,使智能体对环境变化更敏感,学习速度更快,增强学习可靠性,提高学习效率,同时实现异构多智能体系统以最优的方式达到一致性。
Description
技术领域
本发明属于多智能体一致性技术领域,具体涉及一种基于改进Q函数的多智能体一致性强化学习方法及系统。
背景技术
强化学习作为人工智能的一种,在智能机器人、无人机、电网等各种实际应用中表现出强大的力量和潜力,因为它能够通过与未知环境的交互进行自主决策,以实现累积回报的最大化。
在实际应用中,基于模型的强化学习和无模型的强化学习方法是一种自学习方法。基于模型的强化学习方法依赖于模型动力学,由于大多数系统的动力学模型不能完全准确的确定,系统多为非线性系统,并且含有干扰,智能体之间相互耦合,再加上智能体之间通信时滞的存在,使得多智能体系统一致性控制更加困难,依赖模型的强化学习方法缺乏对环境变化的快速感知,通常会出现模型误差。无模型的强化学习方法需要选取具有充分探索意义的充沛的数据信息,但实际应用中数据的稀疏性给无模型的强化学习技术带来严峻挑战。
基于强化学习的异构多智能体一致性控制学习方法有值迭代、策略迭代、策略、非策略等自学习方法,异构多智能体系统最优一致性的分布式控制设计仅依赖具有模型动力学的策略强化学习方法,或仅依赖具有数据信息的非策略强化学习方法,然而实际场景系统的精确模型难以得到,或已知模型的动力学存在模型误差;另外一方面,实际应用中数据的稀疏性使得完全不依赖模型的强化学习技术学习效率低,自学习性能差。
发明内容
针对现有技术的不足,本发明提出一种基于改进Q函数的多智能体一致性强化学习方法,包括以下步骤:
步骤1、建立线性离散时间异构多智能体系统的动态模型;
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。
所述步骤1为:
考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。
步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:
定义第i个跟随者的局部邻居同步误差为:
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
定义异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-x 0(k) (4)
全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
对于其中任意一个跟随者i,定义其性能指标为:
其中,
其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。
步骤2所述引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议为:
定义一个可靠性因子ρ折中中非策略Q-学习和策略Q-学习两种学习模式,得到改进的Q函数为:
基于改进的Q函数设计的分布式控制协议为:
所述步骤3包括以下步骤:
步骤3.1、为跟随者i提供行为控制策略,收集第i个跟随者k+1时刻的状态和局部邻居同步误差;
步骤3.2、初始化跟随者i的Critic网络权重,使异构多智能体系统的控制协议能够实现;
步骤3.3、根据收集到的第i个跟随者k+1时刻的状态和局部邻居同步误差获得跟随者i的神经网络近似误差;
步骤3.4、根据跟随者i的神经网络近似误差对跟随者i的Critic网络权重进行训练;
步骤3.5、判断训练后的跟随者i的Critic网络权重是否达到阈值,若是,执行下个步骤,否则,返回执行步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
步骤3.4所述对跟随者i的Critic网络权重进行训练,公式如下:
其中,表示更新后的Critic网络权重,表示Critic神经网络权重,μic表示神经网络学习率,表示第i个跟随者通过可靠性因子ρ在两种强化学习模式下折中得到的改进的Q函数,表示激活函数前一时刻与后一时刻的差组成的列向量。
基于改进Q函数的多智能体一致性强化学习方法系统,采用如权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法进行异构多智能体系统的最优一致性控制。
进一步地,该系统还包括存储设备,存储设备存储指令及数据用于实现权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法。
本发明的优点:
本发明基于改进Q函数的多智能体一致性强化学习方法及系统,通过一个可靠性因子ρ折中非策略强化学习和策略强化学习模式,提出了一种改进的Q函数的异构多智能体一致性强化学习控制方法,提升了强化学习自学习能力,使智能体对环境变化更敏感,学习速度更快,增强学习可靠性,提高学习效率,同时实现异构多智能体系统以最优的方式达到一致性。
附图说明
图1为本发明一种实施例的基于改进Q函数的多智能体一致性强化学习方法流程图;
图2为本发明一种实施例的基于改进Q函数的多智能体一致性强化学习方法设计框架图;
图3为本发明一种实施例的异构多智能体系统一个领导者和四个跟随者的通信拓扑图;
图4为本发明一种实施例的实施算法2的跟随者Critic神经网络权重图;
图5为本发明一种实施例的实施算法2的领导者和跟随者状态轨迹图;
图6为本发明一种实施例的实施算法2的跟随者局部邻居误差图;
图7为本发明一种实施例的实施非策略Q-学习算法跟随者和领导者的状态轨迹图;
图8为本发明一种实施例的实施非策略Q-学习算法的跟随者局部邻居误差图。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
本发明实施例中,一种基于改进Q函数的多智能体一致性强化学习方法,方法流程图如图1所示,包括以下步骤:
步骤1、建立具有N个跟随者和一个领导者的线性离散时间异构多智能体系统的动态模型:
跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵;
本发明实施例中,N个跟随者均能够获取自身各个时刻的状态信息以及与其相连接的邻居智能体j各个时刻的状态信息。
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
由所述异构多智能体动力学模型,定义第i个跟随者的局部邻居同步误差为:
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
设定δ-ik={δj|j∈Ni}表示第i个跟随者的所有邻居跟随者k时刻的局部误差,由式(3)和δ-ik结合可以表示出异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-x 0(k) (4)
基于公式(3)和公式(4),异构多智能体系统的全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
对于其中任意一个跟随者i,定义其性能指标为:
其中,
其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。
根据现有的强化学习结果,定义基于bellman方程的值函数和Q函数分别为:
和
其中,εik是由δik和δ-ik组成的第i个跟随者k时刻的全局同步误差,δ-ik表示第i个跟随者的邻居跟随者k时刻的全局同步误差,δis表示第i个跟随者当前时刻到无穷时刻的局部邻居误差,uis表示第i个跟随者当前时刻到无穷时刻的控制策略,u-is表示第i个跟随者的所有邻居跟随者当前时刻到无穷时刻的控制策略, 表示第i个跟随者k时刻的最优控制协议,*表示最优值;
根据最优性的必要条件有:
其中,arg表示Qi取最小值时uik的取值,Qi表示第i个跟随者的Q函数;
进一步定义基于非策略强化学习和策略强化学习方法的Q函数迭代过程:
基于非策略强化学习方法的Q函数迭代方程为:
基于策略强化学习方法的Q函数迭代方程为:
定义一个可靠性因子ρ折中非策略强化学习Q函数和策略强化学习Q函数,得到改进的Q函数为:
基于改进的Q函数设计的分布式控制协议为:
基于此,通过充分利用可探测数据在提出的具有改进的Q函数的强化学习方法上,学习得到最优控制策略。
步骤3、采用Critic神经网络通过第i个跟随者产生的数据(即可测数据),自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制,包括以下步骤:
步骤3.1、为跟随者i提供行为控制策略,收集第i个跟随者k+1时刻的状态和局部邻居同步误差;
步骤3.2、初始化跟随者i的Critic网络权重,使异构多智能体系统的控制协议能够实现;
步骤3.3、根据收集到的第i个跟随者k+1时刻的状态和局部邻居同步误差获得跟随者i的神经网络近似误差;
步骤3.4、根据跟随者i的神经网络近似误差对跟随者i的Critic网络权重进行训练;
步骤3.5、判断训练后的跟随者i的Critic网络权重是否达到阈值,若是,执行下个步骤,否则,返回执行步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
本发明实施例中,采用两种算法来学习求解跟随者i的最优控制协议方法:
算法1具有改进的Q函数的自学习算法:
步骤3.3:策略更新:针对式(14)更新控制协议;
时停止;否则返回步骤3.2;
本发明实施例中,针对上述算法1,仅仅使用Critic神经网络近似估计改进的Q函数,并利用梯度下降法来训练Critic神经网络权,评估最优一致性控制协议,具体如下:
构建跟随者i的Critic神经网络:
通过式(16)对uik求偏导,得到控制协议的近似值:
即:
进一步有:
计算跟随者i的神经网络近似误差为:
其中,表示第i个跟随者的控制策略的估计值,表示第i个跟随者的邻居跟随者控制策略的估计值表示第b个跟随者的邻居跟随者的控制策略的估计值, 表示激活函数前一时刻与后一时刻的差组成的列向量,Ui(δik,uik,u-ik)和分别表示非策略Q效应函数和策略Q效应函数,表示i个跟随者k时刻的改进的Q函数;
计算Critic神经网络平方近似误差的梯度为:
最后,得到Critic神经网络权更新公式:
本发明实施例中,算法2提出了如何仅仅使用Critic神经网络学习找到近似最优一致性控制协议;
算法2仅仅使用Critic神经网络实现:
步骤3.1、为跟随者i提供行为控制策略,通过式(1)和式(3)分别收集系统数据xi(k+1)和所有跟随者i的局部邻居误差δi(k+1);
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
本发明实施例中,如图2~图8所示,为了更加直观的展示本发明所提出的基于改进Q函数的多智能体一致性强化学习方法的有效性,采用MATLAB软件对本发明提出的方法进行仿真验证;
跟随者i的线性离散时间状态方程为:
xi(k+1)=Aixi(k)+Biui(k) (26)
领导者的状态方程为:
x0(k+1)=A0x0(k) (27)
本发明实施例中,图4是实施算法2的跟随者i的Critic神经网络权重图,图5是实施算法2的领导者和跟随者i的状态轨迹图,图6是实施算法2的跟随者i局部邻居误差图,从图4、图5和图6可以看出本发明提出的多智能体系统能够很好的跟上领导者的运动轨迹。图7为实施非策略Q-学习算法跟随者i和领导者的状态轨迹图,图8是实施非策略Q-学习算法跟随者i局部邻居误差图。从图4-图8中可以看出当权值逐渐收敛于稳定值时,系统的状态也趋于一致,而且四个跟随者在200s-400s之间加入噪声,运行之后同样也达到一致,从仿真曲线可以看出本发明提出的方法能够提升强化学习自学习能力,使智能体对环境变化更敏感,学习速度更快,增强学习可靠性,提高学习效率,同时实现异构多智能体系统以近似最优的方式达到一致性。
本发明实施例中,一种基于改进Q函数的多智能体一致性强化学习方法系统,采用如权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法进行异构多智能体系统的最优一致性控制。
Claims (7)
1.一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:包括以下步骤:
步骤1、建立线性离散时间异构多智能体系统的动态模型;
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。
2.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤1为:
考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。
3.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:
定义第i个跟随者的局部邻居同步误差为:
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
定义异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-x 0(k) (4)
全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
对于其中任意一个跟随者i,定义其性能指标为:
其中,
5.根据权利要求1所述的基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1、为跟随者i提供行为控制策略,收集第i个跟随者k+1时刻的状态和局部邻居同步误差;
步骤3.2、初始化跟随者i的Critic网络权重,使异构多智能体系统的控制协议能够实现;
步骤3.3、根据收集到的第i个跟随者k+1时刻的状态和局部邻居同步误差获得跟随者i的神经网络近似误差;
步骤3.4、根据跟随者i的神经网络近似误差对跟随者i的Critic网络权重进行训练;
步骤3.5、判断训练后的跟随者i的Critic网络权重是否达到阈值,若是,执行下个步骤,否则,返回执行步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
7.一种基于改进Q函数的多智能体一致性强化学习方法系统,其特征在于:采用如权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法进行异构多智能体系统的最优一致性控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210217147.0A CN114545777A (zh) | 2022-03-07 | 2022-03-07 | 基于改进q函数的多智能体一致性强化学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210217147.0A CN114545777A (zh) | 2022-03-07 | 2022-03-07 | 基于改进q函数的多智能体一致性强化学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114545777A true CN114545777A (zh) | 2022-05-27 |
Family
ID=81662781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210217147.0A Pending CN114545777A (zh) | 2022-03-07 | 2022-03-07 | 基于改进q函数的多智能体一致性强化学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114545777A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116974204A (zh) * | 2023-08-23 | 2023-10-31 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
-
2022
- 2022-03-07 CN CN202210217147.0A patent/CN114545777A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116974204A (zh) * | 2023-08-23 | 2023-10-31 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
CN116974204B (zh) * | 2023-08-23 | 2024-04-09 | 南通大学 | 无人机跟踪控制模型训练方法、使用方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Data-based fault tolerant control for affine nonlinear systems through particle swarm optimized neural networks | |
Haarnoja et al. | Composable deep reinforcement learning for robotic manipulation | |
Peng et al. | Data-driven optimal tracking control of discrete-time multi-agent systems with two-stage policy iteration algorithm | |
CN102402712B (zh) | 基于神经网络的机器人强化学习初始化方法 | |
Zhao et al. | Distributed optimal coordination control for nonlinear multi-agent systems using event-triggered adaptive dynamic programming method | |
CN108803349A (zh) | 非线性多智能体系统的最优一致性控制方法及系统 | |
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
Zhang et al. | Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight | |
CN111260124A (zh) | 一种基于注意力机制深度学习的混沌时间序列预测方法 | |
Zhifei et al. | Target maneuver trajectory prediction based on RBF neural network optimized by hybrid algorithm | |
Lai et al. | Sim-to-real transfer for quadrupedal locomotion via terrain transformer | |
CN112632876A (zh) | 一种基于dmhe和dmpc的无人船协同目标跟踪控制方法 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN114545777A (zh) | 基于改进q函数的多智能体一致性强化学习方法及系统 | |
Chang et al. | Fuzzy formation control and collision avoidance for multiagent systems | |
Al-Araji et al. | Design of a neural predictive controller for nonholonomic mobile robot based on posture identifier | |
Ennen et al. | Learning robust manipulation skills with guided policy search via generative motor reflexes | |
CN113359439A (zh) | 多智能体系统有限时间多目标协同追踪方法和存储介质 | |
Williams et al. | Locally weighted regression pseudo-rehearsal for adaptive model predictive control | |
CN114372418A (zh) | 一种风电功率时空态势描述模型建立方法 | |
CN114200830A (zh) | 一种多智能体一致性强化学习控制方法 | |
Wei et al. | Event-triggered containment control for multi-agent systems with switching topology in finite-time | |
Hwang et al. | Adaptive reinforcement learning in box-pushing robots | |
Khorasgani et al. | Deep reinforcement learning with adjustments | |
CN117539153B (zh) | 基于确定学习的上肢康复机器人自适应控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |