CN114545777A - 基于改进q函数的多智能体一致性强化学习方法及系统 - Google Patents

基于改进q函数的多智能体一致性强化学习方法及系统 Download PDF

Info

Publication number
CN114545777A
CN114545777A CN202210217147.0A CN202210217147A CN114545777A CN 114545777 A CN114545777 A CN 114545777A CN 202210217147 A CN202210217147 A CN 202210217147A CN 114545777 A CN114545777 A CN 114545777A
Authority
CN
China
Prior art keywords
follower
function
learning
agent
consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210217147.0A
Other languages
English (en)
Inventor
李金娜
聂豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Shihua University
Original Assignee
Liaoning Shihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Shihua University filed Critical Liaoning Shihua University
Priority to CN202210217147.0A priority Critical patent/CN114545777A/zh
Publication of CN114545777A publication Critical patent/CN114545777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明基于改进Q函数的多智能体一致性强化学习方法及系统,首先建立线性离散时间异构多智能体系统的动态模型;其次引入可靠性因子ρ折中非策略Q‑学习和策略Q‑学习两种学习模式,设计基于改进Q函数的分布式控制协议;最后采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制;本发明提出了一种改进的Q函数的异构多智能体一致性强化学习控制方法,提升了强化学习自学习能力,使智能体对环境变化更敏感,学习速度更快,增强学习可靠性,提高学习效率,同时实现异构多智能体系统以最优的方式达到一致性。

Description

基于改进Q函数的多智能体一致性强化学习方法及系统
技术领域
本发明属于多智能体一致性技术领域,具体涉及一种基于改进Q函数的多智能体一致性强化学习方法及系统。
背景技术
强化学习作为人工智能的一种,在智能机器人、无人机、电网等各种实际应用中表现出强大的力量和潜力,因为它能够通过与未知环境的交互进行自主决策,以实现累积回报的最大化。
在实际应用中,基于模型的强化学习和无模型的强化学习方法是一种自学习方法。基于模型的强化学习方法依赖于模型动力学,由于大多数系统的动力学模型不能完全准确的确定,系统多为非线性系统,并且含有干扰,智能体之间相互耦合,再加上智能体之间通信时滞的存在,使得多智能体系统一致性控制更加困难,依赖模型的强化学习方法缺乏对环境变化的快速感知,通常会出现模型误差。无模型的强化学习方法需要选取具有充分探索意义的充沛的数据信息,但实际应用中数据的稀疏性给无模型的强化学习技术带来严峻挑战。
基于强化学习的异构多智能体一致性控制学习方法有值迭代、策略迭代、策略、非策略等自学习方法,异构多智能体系统最优一致性的分布式控制设计仅依赖具有模型动力学的策略强化学习方法,或仅依赖具有数据信息的非策略强化学习方法,然而实际场景系统的精确模型难以得到,或已知模型的动力学存在模型误差;另外一方面,实际应用中数据的稀疏性使得完全不依赖模型的强化学习技术学习效率低,自学习性能差。
发明内容
针对现有技术的不足,本发明提出一种基于改进Q函数的多智能体一致性强化学习方法,包括以下步骤:
步骤1、建立线性离散时间异构多智能体系统的动态模型;
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。
所述步骤1为:
考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。
步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:
定义第i个跟随者的局部邻居同步误差为:
Figure BDA0003535434840000021
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,
Figure BDA0003535434840000022
表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
定义异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-x 0(k) (4)
其中,ξ(k)表示异构多智能体系统的全局同步误差,x(k)表示k时刻N个跟随者的全局状态,
Figure BDA0003535434840000023
T表示向量转置,x 0(k)表示k时刻每一个跟随者对应的领导者的全局状态,
Figure BDA0003535434840000024
全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
Figure BDA0003535434840000025
其中,L表示系统拓扑图的拉普拉斯矩阵,In表示一个n维的单位矩阵,g=diag{gi}∈RN×N表示一个固定增益的对角矩阵,
Figure BDA0003535434840000026
表示克罗内克积。
对于其中任意一个跟随者i,定义其性能指标为:
Figure BDA0003535434840000027
其中,
Figure BDA0003535434840000031
其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,
Figure BDA0003535434840000032
表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。
步骤2所述引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议为:
定义一个可靠性因子ρ折中中非策略Q-学习和策略Q-学习两种学习模式,得到改进的Q函数为:
Figure BDA0003535434840000033
基于改进的Q函数设计的分布式控制协议为:
Figure BDA0003535434840000034
其中,εik是由δik和δ-ik组成的第i个跟随者k时刻的全局同步误差,
Figure BDA0003535434840000035
表示第i个跟随者k时刻的目标策略产生的数据,
Figure BDA0003535434840000036
表示第i个跟随者k时刻的目标策略,α表示学习率,μ表示控制策略
Figure BDA0003535434840000037
Figure BDA0003535434840000038
表示
Figure BDA0003535434840000039
Figure BDA00035354348400000310
Figure BDA00035354348400000311
的梯度为:
Figure BDA00035354348400000312
所述步骤3包括以下步骤:
步骤3.1、为跟随者i提供行为控制策略,收集第i个跟随者k+1时刻的状态和局部邻居同步误差;
步骤3.2、初始化跟随者i的Critic网络权重,使异构多智能体系统的控制协议能够实现;
步骤3.3、根据收集到的第i个跟随者k+1时刻的状态和局部邻居同步误差获得跟随者i的神经网络近似误差;
步骤3.4、根据跟随者i的神经网络近似误差对跟随者i的Critic网络权重进行训练;
步骤3.5、判断训练后的跟随者i的Critic网络权重是否达到阈值,若是,执行下个步骤,否则,返回执行步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
步骤3.4所述对跟随者i的Critic网络权重进行训练,公式如下:
Figure BDA0003535434840000041
其中,
Figure BDA0003535434840000042
表示更新后的Critic网络权重,
Figure BDA0003535434840000043
表示Critic神经网络权重,μic表示神经网络学习率,
Figure BDA0003535434840000044
表示第i个跟随者通过可靠性因子ρ在两种强化学习模式下折中得到的改进的Q函数,
Figure BDA0003535434840000045
表示激活函数前一时刻与后一时刻的差
Figure BDA0003535434840000046
组成的列向量。
基于改进Q函数的多智能体一致性强化学习方法系统,采用如权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法进行异构多智能体系统的最优一致性控制。
进一步地,该系统还包括存储设备,存储设备存储指令及数据用于实现权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法。
本发明的优点:
本发明基于改进Q函数的多智能体一致性强化学习方法及系统,通过一个可靠性因子ρ折中非策略强化学习和策略强化学习模式,提出了一种改进的Q函数的异构多智能体一致性强化学习控制方法,提升了强化学习自学习能力,使智能体对环境变化更敏感,学习速度更快,增强学习可靠性,提高学习效率,同时实现异构多智能体系统以最优的方式达到一致性。
附图说明
图1为本发明一种实施例的基于改进Q函数的多智能体一致性强化学习方法流程图;
图2为本发明一种实施例的基于改进Q函数的多智能体一致性强化学习方法设计框架图;
图3为本发明一种实施例的异构多智能体系统一个领导者和四个跟随者的通信拓扑图;
图4为本发明一种实施例的实施算法2的跟随者Critic神经网络权重图;
图5为本发明一种实施例的实施算法2的领导者和跟随者状态轨迹图;
图6为本发明一种实施例的实施算法2的跟随者局部邻居误差图;
图7为本发明一种实施例的实施非策略Q-学习算法跟随者和领导者的状态轨迹图;
图8为本发明一种实施例的实施非策略Q-学习算法的跟随者局部邻居误差图。
具体实施方式
下面结合附图对本发明一种实施例做进一步说明。
本发明实施例中,一种基于改进Q函数的多智能体一致性强化学习方法,方法流程图如图1所示,包括以下步骤:
步骤1、建立具有N个跟随者和一个领导者的线性离散时间异构多智能体系统的动态模型:
跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵;
本发明实施例中,N个跟随者均能够获取自身各个时刻的状态信息以及与其相连接的邻居智能体j各个时刻的状态信息。
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
由所述异构多智能体动力学模型,定义第i个跟随者的局部邻居同步误差为:
Figure BDA0003535434840000051
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,
Figure BDA0003535434840000052
表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
设定δ-ik={δj|j∈Ni}表示第i个跟随者的所有邻居跟随者k时刻的局部误差,由式(3)和δ-ik结合可以表示出异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-x 0(k) (4)
其中,ξ(k)表示异构多智能体系统的全局同步误差,x(k)表示k时刻N个跟随者的全局状态,
Figure BDA0003535434840000061
T表示向量转置,x 0(k)表示k时刻每一个跟随者对应的领导者的全局状态,
Figure BDA0003535434840000062
基于公式(3)和公式(4),异构多智能体系统的全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
Figure BDA0003535434840000063
其中,L表示系统拓扑图的拉普拉斯矩阵,In表示一个n维的单位矩阵,g=diag{gi}∈RN×N表示一个固定增益的对角矩阵,
Figure BDA0003535434840000064
表示克罗内克积。
对于其中任意一个跟随者i,定义其性能指标为:
Figure BDA0003535434840000065
其中,
Figure BDA0003535434840000066
其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,
Figure BDA0003535434840000067
表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。
根据现有的强化学习结果,定义基于bellman方程的值函数和Q函数分别为:
Figure BDA0003535434840000068
Figure BDA0003535434840000069
其中,εik是由δik和δ-ik组成的第i个跟随者k时刻的全局同步误差,δ-ik表示第i个跟随者的邻居跟随者k时刻的全局同步误差,δis表示第i个跟随者当前时刻到无穷时刻的局部邻居误差,uis表示第i个跟随者当前时刻到无穷时刻的控制策略,u-is表示第i个跟随者的所有邻居跟随者当前时刻到无穷时刻的控制策略,
Figure BDA0003535434840000071
Figure BDA0003535434840000072
表示第i个跟随者k时刻的最优控制协议,*表示最优值;
根据最优性的必要条件有:
Figure BDA0003535434840000073
其中,arg表示Qi取最小值时uik的取值,Qi表示第i个跟随者的Q函数;
进一步定义基于非策略强化学习和策略强化学习方法的Q函数迭代过程:
基于非策略强化学习方法的Q函数迭代方程为:
Figure BDA0003535434840000074
基于策略强化学习方法的Q函数迭代方程为:
Figure BDA0003535434840000075
其中,j表示迭代指标,
Figure BDA0003535434840000076
表示第i个跟随者的邻居跟随者k时刻的目标策略,
Figure BDA0003535434840000077
表示第i个跟随者k时刻的目标策略,
Figure BDA0003535434840000078
表示第i个跟随者k时刻的目标策略产生的数据;
定义一个可靠性因子ρ折中非策略强化学习Q函数和策略强化学习Q函数,得到改进的Q函数为:
Figure BDA0003535434840000079
基于改进的Q函数设计的分布式控制协议为:
Figure BDA00035354348400000710
其中,α表示学习率,μ表示控制策略
Figure BDA00035354348400000711
Figure BDA00035354348400000712
表示
Figure BDA00035354348400000713
Figure BDA00035354348400000714
Figure BDA00035354348400000715
的梯度为:
Figure BDA00035354348400000716
基于此,通过充分利用可探测数据在提出的具有改进的Q函数的强化学习方法上,学习得到最优控制策略。
步骤3、采用Critic神经网络通过第i个跟随者产生的数据(即可测数据),自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制,包括以下步骤:
步骤3.1、为跟随者i提供行为控制策略,收集第i个跟随者k+1时刻的状态和局部邻居同步误差;
步骤3.2、初始化跟随者i的Critic网络权重,使异构多智能体系统的控制协议能够实现;
步骤3.3、根据收集到的第i个跟随者k+1时刻的状态和局部邻居同步误差获得跟随者i的神经网络近似误差;
步骤3.4、根据跟随者i的神经网络近似误差对跟随者i的Critic网络权重进行训练;
步骤3.5、判断训练后的跟随者i的Critic网络权重是否达到阈值,若是,执行下个步骤,否则,返回执行步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
本发明实施例中,采用两种算法来学习求解跟随者i的最优控制协议方法:
算法1具有改进的Q函数的自学习算法:
步骤3.1:给定初始可允许的控制协议
Figure BDA0003535434840000081
和可允许的具有探测噪声的行为控制策略uik,作用于系统来产生数据,并保存数据;
步骤3.2:策略评估:针对式(11)和(12),计算出
Figure BDA0003535434840000082
Figure BDA0003535434840000083
然后根据式(13)计算出改进的Q函数
Figure BDA0003535434840000084
步骤3.3:策略更新:针对式(14)更新控制协议;
步骤3.4:当
Figure BDA0003535434840000085
(ε是一个很小的整数,即一个正的误差限,数量级在10-4以上)
时停止;否则返回步骤3.2;
本发明实施例中,针对上述算法1,仅仅使用Critic神经网络近似估计改进的Q函数,并利用梯度下降法来训练Critic神经网络权,评估最优一致性控制协议,具体如下:
构建跟随者i的Critic神经网络:
Figure BDA0003535434840000086
其中,
Figure BDA0003535434840000087
表示
Figure BDA0003535434840000088
的估计值,
Figure BDA0003535434840000089
表示第i个跟随者改进的Q函数,
Figure BDA00035354348400000810
Figure BDA0003535434840000091
Figure BDA0003535434840000092
表示Critic神经网络权重为:
Figure BDA0003535434840000093
通过式(16)对uik求偏导,得到控制协议的近似值:
Figure BDA0003535434840000094
即:
Figure BDA0003535434840000095
进一步有:
Figure BDA0003535434840000096
其中,
Figure BDA0003535434840000097
表示由对称矩阵
Figure BDA0003535434840000098
重构的列向量,即Critic神经网络权的估计值,
Figure BDA0003535434840000099
表示
Figure BDA00035354348400000910
对应的激活函数,Zik表示第i个跟随者k时刻的状态组成的向量。
Figure BDA00035354348400000911
表示Critic神经网络的目标Q函数为:
Figure BDA00035354348400000912
计算跟随者i的神经网络近似误差为:
Figure BDA00035354348400000913
其平方近似误差
Figure BDA00035354348400000914
为:
Figure BDA00035354348400000915
其中,
Figure BDA00035354348400000916
表示第i个跟随者的控制策略的估计值,
Figure BDA00035354348400000917
表示第i个跟随者的邻居跟随者控制策略的估计值
Figure BDA00035354348400000918
表示第b个跟随者的邻居跟随者的控制策略的估计值,
Figure BDA00035354348400000919
Figure BDA00035354348400000920
表示激活函数前一时刻与后一时刻的差
Figure BDA0003535434840000101
组成的列向量,Uiik,uik,u-ik)和
Figure BDA0003535434840000102
分别表示非策略Q效应函数和策略Q效应函数,
Figure BDA0003535434840000103
表示i个跟随者k时刻的改进的Q函数;
计算Critic神经网络平方近似误差的梯度为:
Figure BDA0003535434840000104
最后,得到Critic神经网络权更新公式:
Figure BDA0003535434840000105
其中,μic表示神经网络学习率,
Figure BDA0003535434840000106
表示第i个跟随者通过可靠性因子ρ在两种强化学习模式下折中得到的改进的Q函数。
本发明实施例中,算法2提出了如何仅仅使用Critic神经网络学习找到近似最优一致性控制协议;
算法2仅仅使用Critic神经网络实现:
步骤3.1、为跟随者i提供行为控制策略,通过式(1)和式(3)分别收集系统数据xi(k+1)和所有跟随者i的局部邻居误差δi(k+1)
步骤3.2、初始化跟随者i的Critic网络权重,给出可允许的控制律
Figure BDA0003535434840000107
步骤3.3、通过使用收集到的数据来计算
Figure BDA0003535434840000108
所述数据包括行为控制策略生成的数据以及利用更新的目标策略
Figure BDA0003535434840000109
从跟随者在线收集的数据;
步骤3.4、根据Critic网络权重更新式(25),对
Figure BDA00035354348400001010
权进行训练;
步骤3.5、如果
Figure BDA00035354348400001011
则停止迭代,将
Figure BDA00035354348400001012
代入式(19),得到最优一致性控制协议的近似值;否则返回步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
本发明实施例中,如图2~图8所示,为了更加直观的展示本发明所提出的基于改进Q函数的多智能体一致性强化学习方法的有效性,采用MATLAB软件对本发明提出的方法进行仿真验证;
跟随者i的线性离散时间状态方程为:
xi(k+1)=Aixi(k)+Biui(k) (26)
其中i=1,…,4,
Figure BDA0003535434840000111
Figure BDA0003535434840000112
Figure BDA0003535434840000113
领导者的状态方程为:
x0(k+1)=A0x0(k) (27)
其中,
Figure BDA0003535434840000114
本发明实施例中,图4是实施算法2的跟随者i的Critic神经网络权重图,图5是实施算法2的领导者和跟随者i的状态轨迹图,图6是实施算法2的跟随者i局部邻居误差图,从图4、图5和图6可以看出本发明提出的多智能体系统能够很好的跟上领导者的运动轨迹。图7为实施非策略Q-学习算法跟随者i和领导者的状态轨迹图,图8是实施非策略Q-学习算法跟随者i局部邻居误差图。从图4-图8中可以看出当权值逐渐收敛于稳定值时,系统的状态也趋于一致,而且四个跟随者在200s-400s之间加入噪声,运行之后同样也达到一致,从仿真曲线可以看出本发明提出的方法能够提升强化学习自学习能力,使智能体对环境变化更敏感,学习速度更快,增强学习可靠性,提高学习效率,同时实现异构多智能体系统以近似最优的方式达到一致性。
本发明实施例中,一种基于改进Q函数的多智能体一致性强化学习方法系统,采用如权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法进行异构多智能体系统的最优一致性控制。

Claims (7)

1.一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:包括以下步骤:
步骤1、建立线性离散时间异构多智能体系统的动态模型;
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。
2.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤1为:
考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。
3.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:
定义第i个跟随者的局部邻居同步误差为:
Figure FDA0003535434830000011
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,
Figure FDA0003535434830000012
表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
定义异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-x 0(k) (4)
其中,ξ(k)表示异构多智能体系统的全局同步误差,x(k)表示k时刻N个跟随者的全局状态,
Figure FDA0003535434830000021
T表示向量转置,x 0(k)表示k时刻每一个跟随者对应的领导者的全局状态,
Figure FDA0003535434830000022
全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
Figure FDA0003535434830000023
其中,L表示系统拓扑图的拉普拉斯矩阵,In表示一个n维的单位矩阵,g=diag{gi}∈RN ×N表示一个固定增益的对角矩阵,
Figure FDA0003535434830000024
表示克罗内克积。
对于其中任意一个跟随者i,定义其性能指标为:
Figure FDA0003535434830000025
其中,
Figure FDA0003535434830000026
其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,
Figure FDA0003535434830000027
表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。
4.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤2所述引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议为:
定义一个可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,得到改进的Q函数为:
Figure FDA0003535434830000028
基于改进的Q函数设计的分布式控制协议为:
Figure FDA0003535434830000029
其中,εik是由δik和δ-ik组成的第i个跟随者k时刻的全局同步误差,
Figure FDA0003535434830000031
表示第i个跟随者k时刻的目标策略产生的数据,
Figure FDA0003535434830000032
表示第i个跟随者k时刻的目标策略,α表示学习率,μ表示控制策略
Figure FDA0003535434830000033
Figure FDA0003535434830000034
表示
Figure FDA0003535434830000035
Figure FDA0003535434830000036
Figure FDA0003535434830000037
的梯度为:
Figure FDA0003535434830000038
5.根据权利要求1所述的基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1、为跟随者i提供行为控制策略,收集第i个跟随者k+1时刻的状态和局部邻居同步误差;
步骤3.2、初始化跟随者i的Critic网络权重,使异构多智能体系统的控制协议能够实现;
步骤3.3、根据收集到的第i个跟随者k+1时刻的状态和局部邻居同步误差获得跟随者i的神经网络近似误差;
步骤3.4、根据跟随者i的神经网络近似误差对跟随者i的Critic网络权重进行训练;
步骤3.5、判断训练后的跟随者i的Critic网络权重是否达到阈值,若是,执行下个步骤,否则,返回执行步骤3.3;
步骤3.6、将训练后的跟随者i的Critic网络权重所对应的一致性控制协议作为最优控制协议。
6.根据权利要求5所述的基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤3.4所述对跟随者i的Critic网络权重进行训练,公式如下:
Figure FDA0003535434830000039
其中,
Figure FDA00035354348300000310
表示更新后的Critic网络权重,
Figure FDA00035354348300000311
表示Critic神经网络权重,μic表示神经网络学习率,
Figure FDA00035354348300000312
表示第i个跟随者通过可靠性因子ρ在两种强化学习模式下折中得到的改进的Q函数,
Figure FDA00035354348300000313
表示激活函数前一时刻与后一时刻的差
Figure FDA00035354348300000314
组成的列向量。
7.一种基于改进Q函数的多智能体一致性强化学习方法系统,其特征在于:采用如权利要求1-6任一项所述的基于改进Q函数的多智能体一致性强化学习方法进行异构多智能体系统的最优一致性控制。
CN202210217147.0A 2022-03-07 2022-03-07 基于改进q函数的多智能体一致性强化学习方法及系统 Pending CN114545777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210217147.0A CN114545777A (zh) 2022-03-07 2022-03-07 基于改进q函数的多智能体一致性强化学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210217147.0A CN114545777A (zh) 2022-03-07 2022-03-07 基于改进q函数的多智能体一致性强化学习方法及系统

Publications (1)

Publication Number Publication Date
CN114545777A true CN114545777A (zh) 2022-05-27

Family

ID=81662781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210217147.0A Pending CN114545777A (zh) 2022-03-07 2022-03-07 基于改进q函数的多智能体一致性强化学习方法及系统

Country Status (1)

Country Link
CN (1) CN114545777A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN116974204B (zh) * 2023-08-23 2024-04-09 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备

Similar Documents

Publication Publication Date Title
Lin et al. Data-based fault tolerant control for affine nonlinear systems through particle swarm optimized neural networks
Haarnoja et al. Composable deep reinforcement learning for robotic manipulation
Zhao et al. Distributed optimal coordination control for nonlinear multi-agent systems using event-triggered adaptive dynamic programming method
CN113900380B (zh) 一种异构集群系统鲁棒输出编队跟踪控制方法及系统
CN111260124A (zh) 一种基于注意力机制深度学习的混沌时间序列预测方法
Zhang et al. Recurrent neural network-based model predictive control for multiple unmanned quadrotor formation flight
Liu et al. Distributed adaptive fuzzy control approach for prescribed-time containment of uncertain nonlinear multi-agent systems with unknown hysteresis
Zhifei et al. Target maneuver trajectory prediction based on RBF neural network optimized by hybrid algorithm
CN114545777A (zh) 基于改进q函数的多智能体一致性强化学习方法及系统
CN117055605A (zh) 多无人机姿态控制方法及系统
Lai et al. Sim-to-real transfer for quadrupedal locomotion via terrain transformer
CN112269931B (zh) 数据驱动的群体智能交互关系推断与演化计算方法
Al-Araji et al. Design of a neural predictive controller for nonholonomic mobile robot based on posture identifier
Ennen et al. Learning robust manipulation skills with guided policy search via generative motor reflexes
CN113359439A (zh) 多智能体系统有限时间多目标协同追踪方法和存储介质
Williams et al. Locally weighted regression pseudo-rehearsal for adaptive model predictive control
Ye et al. Costate-supplement ADP for model-free optimal control of discrete-time nonlinear systems
CN112632876B (zh) 一种基于dmhe和dmpc的无人船协同目标跟踪控制方法
CN114372418A (zh) 一种风电功率时空态势描述模型建立方法
CN114200830A (zh) 一种多智能体一致性强化学习控制方法
Chopra et al. A Neurofuzzy Learning and its Application to Control system
Hwang et al. Adaptive reinforcement learning in box-pushing robots
Wei et al. Event-triggered containment control for multi-agent systems with switching topology in finite-time
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Khorasgani et al. Deep reinforcement learning with adjustments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination