CN114995157A - 多智能体系统在合作竞争关系下的反同步优化控制方法 - Google Patents

多智能体系统在合作竞争关系下的反同步优化控制方法 Download PDF

Info

Publication number
CN114995157A
CN114995157A CN202210751251.8A CN202210751251A CN114995157A CN 114995157 A CN114995157 A CN 114995157A CN 202210751251 A CN202210751251 A CN 202210751251A CN 114995157 A CN114995157 A CN 114995157A
Authority
CN
China
Prior art keywords
agent
network
function
critic
competition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210751251.8A
Other languages
English (en)
Other versions
CN114995157B (zh
Inventor
张翠娟
孙宜南
何锐
黄师化
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anqing Normal University
Original Assignee
Anqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anqing Normal University filed Critical Anqing Normal University
Priority to CN202210751251.8A priority Critical patent/CN114995157B/zh
Priority claimed from CN202210751251.8A external-priority patent/CN114995157B/zh
Publication of CN114995157A publication Critical patent/CN114995157A/zh
Application granted granted Critical
Publication of CN114995157B publication Critical patent/CN114995157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了多智能体系统在合作竞争关系下的反同步优化控制方法,包括:设计自适应合作竞争强度函数;基于设计的合作竞争强度函数重新定义局部误差系统;根据局部误差系统设计合理的奖励函数,此奖励函数可以有效避免现有方法中的激励条件;使用深度决定性策略梯度算法近似最优控制策略时,采用演员‑评论家网络结构;在AC神经网络框架中,设计了一种经验回放和目标网络机制,以消除数据之间的相关性并调整AC神经网络的权重。本发明中的多智能体系统中包括合作‑竞争关系的多智能体,根据多智能体系统中智能体之间的交互关系将智能体分为两个组,这种复杂的内部关系比单一的合作或者竞争关系,更符合现实,实现反同步控制。

Description

多智能体系统在合作竞争关系下的反同步优化控制方法
技术领域
本发明涉及智能体控制方法领域,具体涉及多智能体系统在合作竞争关系下的反同步优化控制方法。
背景技术
近年来,专家学者受到自然界生物群集行为的启发将多智能体系统(multi-agentsystems,MASs)一致性应用于复杂系统协同控制中,多智能体系统一致性问题在智能电网、编队控制、无人机集群等领域有着重要的应用前景。
对于多智能体系统来说,一致性问题是一个基本现象。所有智能体在一致控制协议的作用下通过信息交换实现相同的状态。在过去的几年中,大多数关于一致性控制的研究都假设智能体之间是合作关系。然而,在现实世界中,合作竞争也很常见。例如,在两个联盟中,双方持有相反的观点,各方成员达成内部共识。显然,研究合作竞争的相互作用是有意义的。
现有多智能体系统之间关系的研究主要有以下几类:
合作关系,整个智能体系统之间只有合作关系。这种模式忽略了多智能体之间因为资源有限而产生的竞争情况;
合作者竞争关系,考虑了智能体之间的合作者竞争关系,但是忽视了合作竞争强度对多智能体系统达到一致性的收敛速度;
上面提及的大多数研究工作都是基于单一的合作关系或者竞争关系,但现实有限的资源引发智能体间的竞争行为以及共同协作的合作行为,使得智能体间合作-竞争关系普遍存在复杂系统中,同时存在的合作-竞争关系更符合现实需求。现有的研究工作中,较少考虑优化问题,然而在实际中,由于智能体的算力、存储的有限,任务的复杂性,所以多智能体系统的优化问题是一个值得考虑的问题。
发明内容
本发明所要解决的技术问题在于:如何解决现有的研究工作中,较少考虑优化问题,然而在实际中,由于智能体的算力、存储的有限,任务的复杂性,所以多智能体系统的优化较差的问题,提供了一种多智能体系统在合作竞争关系下的反同步优化控制方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:根据多智能体系统之间的连接复杂性,确定系统的拓扑结构及拉普拉斯连接矩阵;
S2:创建自适应合作竞争强度函数,基于此,构建新的局部误差系统并重新定义合理的性能函数;
多智能体系统包括领导者与跟随者模式,每个智能体包含自身的状态信息,第i个智能体的状态信息表示为xi(k),xj(k)表示第j个智能体的状态信息,任意两个智能体之间的合作或者竞争关系分别表示为:xj(k)-xi(k)和xj(k)+xi(k);
S3:针对多智能体系统精确模型未知的情形,采用Actor-Critic网络结构分别近似智能体的控制动作和性能函数;
S4:Critic对Actor近似的控制动作进行评价,Actor根据Critic的评价对控制动作进行调整,整个过程使用梯度下降更新,在训练神经网络参数时加入了经验回放和目标网络技术,当神经网络参数趋于稳定时,即获取到最优反同步的控制策略。
进一步在于,所述S2设计自适应合作竞争强度函数时,使用改进后的DDPG算法近似未知精确模型进行多智能体系统的最优反同步控制。
进一步在于,所述S2中的自适应合作竞争强度函数如下:
Figure BDA0003718396830000031
其中,sigmoid函数的表达式为
Figure BDA0003718396830000032
基于此,重构内部误差系统
Figure BDA0003718396830000033
其中gi表示追随者是否与领导者之间有信息交互,gi=1表示追随者与领导者之间有信息交互,gi=0表示无;x0(k)表领导者的状态信息,aij表示智能体之间的连接关系,aij=1表示智能体之间是合作关系,aij=-1表示智能体之间是竞争关系。
进一步在于,所述S2中的领导者与跟随者模式中设置了领导者的动态方程与跟随者的动态方程,其中:
领导者的动态方程:
x0(k+1)=Ax0(k)
追随者的动态方程:
xi(k+1)=Axi(k)+Biμi(k);
其中,μi(k)表示智能体i在k时刻的控制输入A,Bi是未知的合适维度的常数矩。
进一步在于,所述S2中设计自适应合作竞争强度函数的过程如下:
Figure BDA0003718396830000034
其中,sigmoid函数的表达式为
Figure BDA0003718396830000035
基于此,重构局部误差系统,即:
Figure BDA0003718396830000041
因此,局部误差系统的紧凑形式为:
Figure BDA0003718396830000042
其中,
Figure BDA0003718396830000043
Figure BDA0003718396830000044
分别表示Kronecker乘积和Hadamard乘积;
Figure BDA0003718396830000045
Figure BDA0003718396830000046
Figure BDA0003718396830000047
In表示n维单位矩阵;
定义合理的性能函数
Figure BDA0003718396830000048
其中
Figure BDA0003718396830000049
权重矩阵Qii≥0,和Rii>0是对称矩阵。
进一步在于,所述S3中采用Actor-Critic网络结构分别近似智能体的控制动作和性能函数;
神经网络对控制动作的近似:
Figure BDA00037183968300000410
神经网络对性能函数的近似:
Figure BDA00037183968300000411
进一步在于,所述S4中:
Critic网络:Critic网络通过动作值函数的输出来评价agent动作的好坏,对于Critic网络,由以下网络结构近似
Figure BDA00037183968300000412
其中zci(k)=(ei(k),μi(ei(k)))是Critic网络包含动作和相关位置信息的输入向量,
Figure BDA00037183968300000413
表示激活函数。
由差分方法:
Figure BDA0003718396830000051
其中
Figure BDA0003718396830000052
Figure BDA0003718396830000053
分别用Critic网络和目标Critic网络逼近,神经网络参数分别为Wci,now
Figure BDA0003718396830000054
目标是通过对Critic网络的训练使得函数
Figure BDA0003718396830000055
最小,此处用梯度下降方法来调整神经网络参数,因此,Critic网络的权重更新如下所示
Figure BDA0003718396830000056
其中,βc∈(0,1]是学习率。
Actor网络:Actor网络用于近似控制策略,表示如下:
Figure BDA0003718396830000057
其中,ei(k)是包含agent i及其邻居信息的Actor网络的输入,为了获得最优控制策略,随着,l→∞,将控制策略
Figure BDA0003718396830000058
用神经网络方法近似为最优目标控制策略
Figure BDA0003718396830000059
Figure BDA00037183968300000510
由于上面近似方法不适应于连续动作空间,用本文所提算法
Figure BDA00037183968300000511
因此,Actor网络的网络权重更新表示为:
Figure BDA00037183968300000512
其中βc∈(0,1]是学习速率。
本发明相比现有技术具有以下优点:
1、本发明的多智能体系统中包括合作-竞争关系的多智能体,根据多智能体系统中智能体之间的交互关系将智能体分为两个组,这种复杂的内部关系比单一的合作或者竞争关系,更符合现实,最终实现反同步控制。
2、本发明所提的自适应合作竞争强度函数能有效的提高多智能体系统的收敛性和鲁棒性。
3、本发明的多智能体系统是系统精确模型未知的系统,相比于传统的优化方法要求精确模型已知,然而在很多实际情形中,系统精确模型未知或者不容易获取,本发明所提出的Actor-Critic框架能较好的解决系统精确模型未知的情形。
4、本发明所提出的增加经验池和目标网络技术方法能有效的提高智能体与环境的探索,最终提高收敛性。
附图说明
图1是本发明的整体流程图;
图2是本发明的系统收敛过程中可能出现的拓扑图;
图3为本发明的对比实验的智能体状态第一个分量的演变图;
图4为本发明的对比实验的智能体状态第二个分量的演变图;
图5为本发明的对比实验的近似优化控制演变图;
图6为本发明的智能体状态第一个分量的演变图;
图7为本发明的智能体状态第二个分量的演变图;
图8为本发明的近似优化控制演变图;
图9为本发明的合作竞争强度参数收敛图;
图10为本发明中的Actor-Critic交互图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种技术方案:多智能体系统在合作竞争关系下的反同步优化控制方法,该方法包括但不限于如下步骤:
S1、根据多智能体系统之间的连接复杂性(合作竞争关系),确定系统的拓扑结构及拉普拉斯连接矩阵;
S2、创建自适应合作竞争强度函数,基于此,构建新的局部误差系统并重新定义合理的性能函数;
多智能体系统由领导者与跟随者模式组成,每个智能体包含自身的状态信息,第i个智能体的状态信息表示为xi(k),xj(k)表示第j个智能体的状态信息,任意两个智能体之间的合作或者竞争关系分别表示为xj(k)-xi(k)和xj(k)+xi(k);设计自适应合作竞争强度函数
Figure BDA0003718396830000071
其中,sigmoid函数的表达式为
Figure BDA0003718396830000072
T表示转置。
基于此,重构局部误差系统
Figure BDA0003718396830000073
因此,局部误差系统的紧凑形式为:
Figure BDA0003718396830000074
其中,
Figure BDA0003718396830000075
Figure BDA0003718396830000076
分别表示Kronecker乘积和Hadamard乘积。
Figure BDA0003718396830000077
Figure BDA0003718396830000078
Figure BDA0003718396830000081
In表示n维单位矩阵。
定义合理的性能函数
Figure BDA0003718396830000082
其中
Figure BDA0003718396830000083
权重矩阵Qii≥0,和Rii>0是对称矩阵。
S3、采用演员-评论家(Actor-Critic)网络结构分别近似智能体的控制动作和性能函数;
神经网络对控制动作的近似:
Figure BDA0003718396830000084
神经网络对性能函数的近似:
Figure BDA0003718396830000085
S4、Critic对Actor近似的控制动作进行评价,Actor根据Critic的评价对控制动作进行调整,整个过程使用梯度下降更新,在训练神经网络参数时加入了经验回放和目标网络技术,使得智能体在环境中能够充分探索,当神经网络参数趋于稳定时,即找到了使得系统达到最优反同步的控制策略。
Critic网络:Critic网络通过动作值函数的输出来评价智能体(agent)动作的好坏。对于Critic网络,由以下网络结构近似
Figure BDA0003718396830000086
其中zci(k)=(ei(k),μi(ei(k)))是Critic网络包含动作和相关位置信息的输入向量,
Figure BDA0003718396830000087
表示激活函数。
由差分方法:
Figure BDA0003718396830000088
其中
Figure BDA0003718396830000089
Figure BDA00037183968300000810
分别用Critic网络和目标Critic网络逼近,Critic网络为了估计性能函数
Figure BDA00037183968300000811
其神经网络参数为Wci,now,目标Critic网络为了使得多智能体系统训练时更加稳定,其神经网络参数为
Figure BDA0003718396830000091
目标是通过对Critic网络的训练使得函数
Figure BDA0003718396830000092
最小。此处用梯度下降方法来调整神经网络参数,因此,Critic网络的权重更新如下所示
Figure BDA0003718396830000093
其中,βc∈(0,1]是学习率。
Actor网络:Actor网络用于近似控制策略,表示如下:
Figure BDA0003718396830000094
其中,ei(k)是包含agent i及其邻居信息的Actor网络的输入。为了获得最优控制策略,随着,l→∞,将控制策略
Figure BDA0003718396830000095
用神经网络方法近似为最优目标控制策略
Figure BDA0003718396830000096
Figure BDA0003718396830000097
能够使得性能函数
Figure BDA0003718396830000098
取最小值。
Figure BDA0003718396830000099
由于上面近似方法不适应于连续动作空间,用本案中的自适应合作竞争强度函数获取到:
Figure BDA00037183968300000910
因此,Actor网络的网络权重更新表示为:
Figure BDA00037183968300000911
具体的更新方式如下:
算法1:CS-DDPG
初始化:
Figure BDA00037183968300000912
1:分别初始化领导者x0(0)和追随者xi(0)的状态;
2:初始化局部误差ei(0);
3:在(0,1)内随机初始化Critic和Actor神经网络参数;目标Critic和目标Actor的初始化神经网络参数与Critic和Actor神经网络参数相同;
4:βa和βc是学习速率;b是经验池的容量;τ是超参数,在本算法中,τ=0.0001;
迭代:
5:令k=0,l=0;
6:神经网络近似控制动作:
Figure BDA0003718396830000101
7:神经网络近似性能函数:
Figure BDA0003718396830000102
8:计算Critic的损失值:
Figure BDA0003718396830000103
9:更新Critic神经网络参数:
Figure BDA0003718396830000104
10:更新Actor神经网络参数:
Figure BDA0003718396830000105
11:更新critic目标网络参数:
Figure BDA0003718396830000106
12:更新actor目标网络参数:
Figure BDA0003718396830000107
13:If
Figure BDA0003718396830000108
14:end;
15:else令l+l+1,k=k+1并重复6-12;
16:end。
为了使得更新过程更加直观,用图10进行展示。
为了验证提出的基于自适应合作-竞争强度的最优反同步控制的有效性,运用matlab进行仿真验证。本实施例以图2为实验拓扑图,一个由5个节点组成的领导者-跟随者模式的多智能体系统,其中节点1、2、3、4表示跟随者,节点0表示领导者。由图2,将agent划分为两个子组(agent 1、3属于一个子组,agent 2、4属于另一个子组),其中实线表示agent之间是合作关系,虚线表示agent之间是竞争关系。值得注意的是,agent 1和2会从领导者0处获取信息。领导者可以充当两个子小组之间的协调者。
本发明中的相关参数为:
G=diag{1,1,0,0},C=diag{1,-1,1,-1}
连接矩阵:
Figure BDA0003718396830000111
拉普拉斯矩阵:
Figure BDA0003718396830000112
系统相关参数为:
Figure BDA0003718396830000113
Figure BDA0003718396830000114
R11=R22=R33=R44=1,学习率βa=βc=0.05。
从仿真结果可看出,图3和图4中,显示了四个追随者和一个领导者的状态轨迹。然后,我们可以得出agent最终实现了反同步。近似最优控制器的演化如图5所示,控制器在达到收敛之前,振荡很强。
为了进一步验证本发明的优势,可以使用与前面给出的相同的agent动态系统、拓扑结构,系统状态的初始值、Critic权重、Actor权重和其他相关参数。
将图3与图6、图4与图7在相同参数下进行比较,我们发现图6和图7中状态收敛速度更快,这意味着可以通过控制合作竞争强度来调整agent的收敛速度。为了进一步说明所提出算法的优点,图5和图8给出了比较仿真结果,以描述控制器的演变。很明显,图8中的曲线更稳定,收敛速度更快。这说明该算法可以生成性能更好的控制器。
由以往的研究知,选择不合适的合作竞争强度参数会导致多智能体系统不稳定。通过设计一个自适应合作竞争强度函数,当具有合作竞争交互关系的多智能体系统最终达到反同步一致性时,相应的合作强度和竞争强度参数收敛到最佳值(见图9),而无需手动调整协同参数,保证了系统的稳定性,提高了系统的鲁棒性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于,包括以下步骤:
S1:根据多智能体系统之间的连接复杂性,确定系统的拓扑结构及拉普拉斯连接矩阵;
S2:创建自适应合作竞争强度函数,基于此,构建新的局部误差系统并重新定义合理的性能函数;
多智能体系统包括领导者与跟随者模式,每个智能体包含自身的状态信息,第i个智能体的状态信息表示为xi(k),xj(k)表示第j个智能体的状态信息,任意两个智能体之间的合作或者竞争关系分别表示为:xj(k)-xi(k)和xj(k)+xi(k);
S3:针对多智能体系统精确模型未知的情形,采用Actor-Critic网络结构分别近似智能体的控制动作和性能函数;
S4:Critic对Actor近似的控制动作进行评价,Actor根据Critic的评价对控制动作进行调整,整个过程使用梯度下降更新,在训练神经网络参数时加入了经验回放和目标网络技术,当神经网络参数趋于稳定时,即获取到最优反同步的控制策略。
2.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S2设计自适应合作竞争强度函数时,使用改进后的DDPG算法近似未知精确模型进行多智能体系统的最优反同步控制。
3.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S2中的自适应合作竞争强度函数如下:
Figure FDA0003718396820000011
其中,sigmoid函数的表达式为
Figure FDA0003718396820000012
基于此,重构内部误差系统
Figure FDA0003718396820000021
其中gi表示追随者是否与领导者之间有信息交互,gi=1表示追随者与领导者之间有信息交互,gi=0表示无;x0(k)表领导者的状态信息,aij表示智能体之间的连接关系,aij=1表示智能体之间是合作关系,aij=-1表示智能体之间是竞争关系。
4.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S2中的领导者与跟随者模式中设置了领导者的动态方程与跟随者的动态方程,其中:
领导者的动态方程:
x0(k+1)=Ax0(k)
追随者的动态方程:
xi(k+1)=Axi(k)+Biμi(k);
其中,μi(k)表示智能体i在k时刻的控制输入,A,Bi是未知的合适维度的常数矩。
5.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S2中设计自适应合作竞争强度函数的过程如下:
Figure FDA0003718396820000022
基于此,重构局部误差系统,即:
Figure FDA0003718396820000023
因此,局部误差系统的紧凑形式为:
Figure FDA0003718396820000024
其中,
Figure FDA0003718396820000031
Figure FDA0003718396820000032
分别表示Kronecker乘积和Hadamard乘积;
Figure FDA0003718396820000033
Figure FDA0003718396820000034
Figure FDA0003718396820000035
In表示n维单位矩阵;
定义合理的性能函数
Figure FDA0003718396820000036
其中
Figure FDA0003718396820000037
权重矩阵Qii≥0,和Rii>0是对称矩阵。
6.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S3中采用Actor-Critic网络结构分别近似智能体的控制动作和性能函数;
神经网络对控制动作的近似:
Figure FDA0003718396820000038
神经网络对性能函数的近似:
Figure FDA0003718396820000039
7.根据权利要求1所述的多智能体系统在合作竞争关系下的反同步优化控制方法,其特征在于:所述S4中:
Critic网络:Critic网络通过动作值函数的输出来评价agent动作的好坏,对于Critic网络,由以下网络结构近似
Figure FDA00037183968200000310
其中zci(k)=(ei(k),μi(ei(k)))是Critic网络包含动作和相关位置信息的输入向量,
Figure FDA00037183968200000311
表示激活函数;
由差分方法:
Figure FDA0003718396820000041
其中
Figure FDA0003718396820000042
Figure FDA0003718396820000043
分别用Critic网络和目标Critic网络逼近,神经网络参数分别为Wci,now
Figure FDA0003718396820000044
目标是通过对Critic网络的训练使得函数
Figure FDA0003718396820000045
最小,此处用梯度下降方法来调整神经网络参数,因此,Critic网络的权重更新如下所示
Figure FDA0003718396820000046
其中,βc∈(0,1]是学习率;
Actor网络:Actor网络用于近似控制策略,表示如下:
Figure FDA0003718396820000047
其中,ei(k)是包含agent i及其邻居信息的Actor网络的输入,为了获得最优控制策略,随着,l→∞,将控制策略
Figure FDA0003718396820000048
用神经网络方法近似为最优目标控制策略
Figure FDA0003718396820000049
Figure FDA00037183968200000410
由于上面近似方法不适应于连续动作空间,用本文所提算法
Figure FDA00037183968200000411
因此,Actor网络的网络权重更新表示为:
Figure FDA00037183968200000412
其中βc∈(0,1]是学习速率。
CN202210751251.8A 2022-06-28 多智能体系统在合作竞争关系下的反同步优化控制方法 Active CN114995157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751251.8A CN114995157B (zh) 2022-06-28 多智能体系统在合作竞争关系下的反同步优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751251.8A CN114995157B (zh) 2022-06-28 多智能体系统在合作竞争关系下的反同步优化控制方法

Publications (2)

Publication Number Publication Date
CN114995157A true CN114995157A (zh) 2022-09-02
CN114995157B CN114995157B (zh) 2024-11-05

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095940A (zh) * 2021-11-17 2022-02-25 北京邮电大学 混合接入认知无线网络切片资源分配方法及设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114095940A (zh) * 2021-11-17 2022-02-25 北京邮电大学 混合接入认知无线网络切片资源分配方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIANGHAO JI: "Multi-group consensus for heterogeneous agents in cooperative–competitive networks via pinning and adaptive coupling weight methods", 《INTERNATIONAL JOURNAL OF SYSTEMS SCIENCE 》, 8 December 2021 (2021-12-08), pages 1469 - 1482 *
李骏: "基于强化学习的多智能体系统最优一致性", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 March 2022 (2022-03-15), pages 11 - 12 *
耿俊香: "CIDDPG 的多智能体通信优化方法研究", 《沈阳理工大学学报》, 15 August 2021 (2021-08-15), pages 29 - 34 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116500893B (zh) * 2023-04-19 2023-11-14 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统

Similar Documents

Publication Publication Date Title
CN110909865B (zh) 边缘计算中基于分层张量分解的联邦学习方法
Guo et al. Cloud resource scheduling with deep reinforcement learning and imitation learning
Fox et al. Multi-level discovery of deep options
WO2020147142A1 (zh) 一种深度学习模型的训练方法、系统
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN115277689A (zh) 一种基于分布式联邦学习的云边网络通信优化方法及系统
CN108873936A (zh) 一种基于势博弈的飞行器自主编队方法
CN113485826B (zh) 一种边缘服务器负载均衡方法、系统
CN109818792B (zh) 一种基于二阶线性系统时变耦合复杂动态网络模型的控制器
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
Zhu et al. A q-values sharing framework for multi-agent reinforcement learning under budget constraint
Zhang et al. Decentralized optimal control for the mean field LQG problem of multi-agent systems
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
CN114995157A (zh) 多智能体系统在合作竞争关系下的反同步优化控制方法
CN114995157B (zh) 多智能体系统在合作竞争关系下的反同步优化控制方法
CN111488208A (zh) 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN110610231A (zh) 一种信息处理方法、电子设备和存储介质
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
Thathachar et al. Parallel algorithms for modules of learning automata
CN115793448A (zh) 一种多时延影响下的智能无人集群系统最优一致性协同控制方法
CN108415783A (zh) 一种基于改进蜂群算法的异构多核任务分配方法
Yoon et al. GDFed: Dynamic Federated Learning for Heterogenous Device Using Graph Neural Network
CN110162400B (zh) 复杂网络环境下实现mas系统中智能体合作的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant