CN115685763A - 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法 - Google Patents

一种基于自适应动态规划的智能无人集群系统最优一致性控制方法 Download PDF

Info

Publication number
CN115685763A
CN115685763A CN202211444686.4A CN202211444686A CN115685763A CN 115685763 A CN115685763 A CN 115685763A CN 202211444686 A CN202211444686 A CN 202211444686A CN 115685763 A CN115685763 A CN 115685763A
Authority
CN
China
Prior art keywords
agent
control strategy
neural network
representing
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211444686.4A
Other languages
English (en)
Inventor
纪良浩
卢建松
张翠娟
杨莎莎
郭兴
于凤敏
于南翔
李华青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211444686.4A priority Critical patent/CN115685763A/zh
Publication of CN115685763A publication Critical patent/CN115685763A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明涉及多智能体系统控制领域,具体涉及一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,包括:确定多智能体系统的拓扑结构与智能体的动力学方程,其中智能体的系统矩阵是未知的;系统拓扑图中包含有向生成树,并且有向生成树的根节点为领导者;根据系统状态定义智能体的局部跟踪误差以及局部跟踪误差的更新表达式,从而将一致性问题转化为跟踪控制问题;定义性能指标函数用来评估当前的控制策略,并根据当前的性能指标函数对控制策略进行优化;对系统在演化过程中的信息进行收集,并设计一个自适应动态规划算法用于近似智能体的控制策略与性能指标,根据控制策略对智能体状态进行更新,从而达到最优一致性。

Description

一种基于自适应动态规划的智能无人集群系统最优一致性控 制方法
技术领域
本发明属于多智能体协同控制技术领域,具体涉及一种基于自适应动态规划的智能无人集群系统最优一致性控制方法。
背景技术
自然界中普遍存在着生物的群集现象,其指的是一些生物通常会以一定的规则进行群体性的活动。比如蜜蜂筑巢;鱼群觅食。相关专家学者受到这一生物集群行为的启发,将多智能体系统(multi-agent systems,MASs)一致性应用到复杂系统的协同控制中,如智能电网、传感器网络、无人机群的协同工作等。一致性指的式多智能体系统中的各个智能体通过与自己局部智能体进行信息交流,根据提前设置的控制协议来动态的调整自身的行为,从达到某一个共同的状态。
在现实生活中,系统在达成特定控制目的过程中所需要的资源和成本都是有限的,考虑到经济性与实用性,系统必须能以最经济的方式完成控制任务,否则理论成果将难以应用到现实的工业领域中。此外,在实际应用中,智能体的系统信息是很难获取的,因此,研究未知模型下的多智能体系统最优一致性控制具有很强应用价值。
在求解最优一致性控制的过程中,传统的做法是基于强化学习的两类算法框架,即值迭代算法和策略迭代算法。然而,这两类算法都有各自的不足,策略迭代算法需要给定一个初始可容许容许控制策略,但此策略通常很难得到。值迭代算法虽然不需要初始可容许控制策略,但是它的收敛速度会很慢,在实际应用中是不可取。
目前,大多数使用数据驱动方法来研究多智能体系统最优一致性控制的工作对系统所测量出的数据往往只会使用一次,即根据当且迭代产生的数据来更新当前的控制策略。然而,在实际应用中,真实系统所测量出的数据是很宝贵的,可以作为训练数据供其他相似系统使用。因此,与普通的数据驱动方法相比较,通过引入经验回放机制来收集智能体在迭代过程中所产生的数据能够反复的利用这些数据,提升数据效率,在数据获取困难的情况下更有效果。并且通过随机选择训练数据能够打破数据之间的相关性,从而获得更好的训练效果。
上面提及的大多数研究工作都是使用单一的神经网络结构(评估网络)来对智能体进行训练,使用单独的Critic网络估计的性能指标函数在追逐变化的累计效用函数时很容易出现不稳定的情况。通过引入目标网络,其在一段时间内是相对固定的,就可以将评估网络的更新转换为类似监督学习的问题,从而增加了学习过程的稳定性,更符合实际应用场景的需求。因此,如何设计一种基于自适应动态规划的智能无人集群系统最优一致性控制,是一个亟待解决的问题。
发明内容
为解决上述技术问题,本发明提出一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,包括:
S1:将多智能体系统中的智能体分为两类,一类为领导者智能体,其不会接收到来自邻居智能体发送的信息,另一类为跟随者智能体,其会根据所接收到邻居智能体发送的信息对自身行为做出调整;
所述每个智能体发送的信息包括自身的状态信息和控制策略;
S2:通过智能体自身的传感器获取邻居跟随者智能体与领导者智能体之间状态信息,并根据状态信息计算智能体的局部跟踪误差;
S3:为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池;
S4:根据智能体的发送信息和智能体之间的局部跟踪误差构造用于评价智能体当前控制策略优劣的动作状态值函数;
S5:设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略;
S6:使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,当动作状态值函数与控制策略都收敛到一个足够小的值时,此时算法执行完毕,所有智能体获得最优的控制策略。
本发明的有益效果:
1、利用基于数据的自适应动态规划使得离散时间多智能体系统能够实现最优一致性;
2、使用到了经验回放机制来存储智能体在交互过程中所产生的信息,包括当前和过去的状态信息,以及当前的控制策略,经验回放机制不仅能够多次利用系统产生的数据,提升数据效率,同时也可以打破数据之间的相关性,提升训练效果;
3、多智能体系统所采用的自适应动态规划算法是结合了值迭代算法和策略迭代算法的优势,通过一个平衡参数实现了两类算法的结合,此算法比值迭代算法收敛速度快,且不需要初始容许控制策略,有效的克服了值迭代算法和策略迭代算法的缺陷;基于自适应动态规划算法能够以“软更新”的方式来更新控制策略,其所消耗的计算成本跟小,同时保证训练过程更加稳定;
4、采用了动作状态值函数,智能体在学习过程中具有异策学习的特点,其行为策略能够与外部环境交互,采集数据放到经验池中,而后的目标策略从经验池中选取数据用于神经网络的训练学习,大大提高了训练过程的稳定性和效率;
5、利用了自适应调参规则来调整自适应参数ρl,ρl从0开始一直增大至1,使得提出的自适应动态规划算法,能够先实现值迭代算法,找到可容许控制策略,然后过渡到策略迭代算法。使得自适应动态规划算法不需要难以获得的初始可容许控制策略,而且比值迭代算法加快了收敛速度,这具有更广阔的实际应用。
附图说明
图1是本发明提供优选实施例的系统控制流程图;
图2是本发明实施例的系统拓扑图;
图3是本发明实施例的智能体三维状态信息的演变图;
图4是本发明实施例的智能体误差向量的演变图;
图5是本发明实施例的智能体二维状态信息演变图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,如图1所示,包括:
S1:将多智能体系统中的智能体分为两类,一类为领导者智能体,其不会接收到来自邻居智能体发送的信息,另一类为跟随者智能体,其会根据所接收到邻居智能体发送的信息对自身行为做出调整;
所述每个智能体发送的信息包括自身的状态信息和控制策略;
S2:通过智能体自身的传感器获取邻居跟随者智能体与领导者智能体之间状态信息,并根据状态信息计算智能体的局部跟踪误差;
S3:为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池;
S4:根据智能体的发送信息和智能体之间的局部跟踪误差构造用于评价智能体当前控制策略优劣的动作状态值函数;
S5:设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略;
S6:使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,当动作状态值函数与控制策略都收敛到一个足够小的值时,此时算法执行完毕,所有智能体获得最优的控制策略。
领导者-跟随者的动力学方程包括:
xi(k+1)=Axi(k)+Bi(k),i=1,2,...,N
x0(k+1)=Ax0(k)
其中,A∈Rp×p和Bi∈Rp×q为智能体的系统矩阵,并且是完全未知的,其中Rp×p表示系统矩阵A的取值范围,R指的是实数域,p,q指的是矩阵的维度。xi(k)∈Rp和ui(k)∈Rq分别是第i个智能体在第k时刻的状态和控制策略;x0(k)∈Rp为领导者的状态信息,同时也作为跟随者智能体的一致性目标状态,每个智能体发送的信息包括自身的状态信息和控制策略,xi(k)∈Rp和ui(k)∈Rq分别是第i个智能体在第k时刻的状态信息和控制策略;其中k表示智能体的更新时刻。
假定智能体在通信的过程中不会受到环境的影响,导致通信拓扑发生变化。根据多智能体系统中智能体之间的信息交互,确定系统的拓扑结构,并且保证拓扑结构中包含一棵有向生成树。
根据状态信息计算智能体的局部跟踪误差,包括:
Figure BDA0003949700320000061
其中,ei(k)表示第k时刻智能体i的局部跟踪误差,bi表示牵制增益,若bi=1表示该智能体与领导者直接相连接,否则bi=0;aij表示第i个智能体与第j个智能体之间的连接权重,xj(k)表示第k时刻第j个智能体的状态向量,
Figure BDA0003949700320000062
表示第i个智能体的邻居智能体的集合,xi(k)表示第i个智能体在第k时刻的状态信息,x0(k)表示第k时刻领导者的状态信息。
所述S3中的经验池有容量大小限制,当经验池的容量达到一定程度,则会删除存放时间最长的一组或多组数据,同时将新生成的数据存入。
所述用于评价智能体当前控制策略优劣的动作状态值函数,包括:
Qi(ei(k),μ)=ci(ei(k),μ)+τQi(ei(k+1),ui(ei(k+1)))
其中,Qi(ei(k),μ)表示用于评价智能体当前控制策略优劣的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,
Figure BDA0003949700320000063
表示用来评价智能体在第k时刻控制策略的效用函数,ui(k)表示第k时刻智能体i的控制策略,T表示转置操作,Qii≥0,Rii≥0表示正定的权重矩阵,τ∈[0,1]表示强化学习中的折扣因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差。
所述自适应动态规划算法:使用自适应动态参数来调整自适应动态规划算法的动态因子ρl,动态因子ρl由小到大的变化,初始时,动态因子ρl从接近0开始,自适应动态规划算法通过值迭代找到可容许控制策略,然后随着动态因子ρl逐渐增大接近1,在可容许控制策略的基础上找到最优控制策略;该过程表示为:
ρl=tanh(bIn(a+l))
其中,b表示第一常数,a表示第二常数,l表示迭代指数,a>1且b>0,动态因子ρl为从0到1的单调增加函数。
设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略,包括:
初始化迭代指数l=0,并为所有的智能体初始化一个任意的控制策略
Figure BDA0003949700320000071
计算动作状态值函数:
Figure BDA0003949700320000072
其中,Qi l()表示融入迭代指数的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,
Figure BDA0003949700320000073
表示用来评价智能体在第k时刻控制策略的效用函数,τ表示强化学习中的折扣因子,ρl表示动态因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差,l表示迭代指数;
用动作状态价值函数更新控制策略:
Figure BDA0003949700320000074
其中,ei(k)表示第k时刻智能体i的局部跟踪误差,l表示迭代指数,μ表示智能体的发送的信息,τ表示强化学习中的折扣因子,ρl表示动态因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差,ri()表示第i个智能体的效用函数,
Figure BDA0003949700320000081
表示融入迭代指数的动作状态值函数;
随着迭代的进行,若动作状态价值函数
Figure BDA0003949700320000082
和控制策略
Figure BDA0003949700320000083
都能够收敛到最优值,则智能体的学习过程完毕。
使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,包括:
使用神经网络来分别近似性能指标函数和控制策略,使用了Actor-Critic神经网络框架来求解最优控制策略;其中Actor神经网络用于近似最优控制策略,Critic神经网络用于近似性能指标函数;
Actor神经网络的表达式为:
Figure BDA0003949700320000084
其中,
Figure BDA0003949700320000085
表示Actor神经网络估计出来的控制策略,
Figure BDA0003949700320000086
表示Actor神经网络的第一连接权重,T表示转置操作,σai()表示神经网络actor的激活函数,
Figure BDA0003949700320000087
表示Actor神经网络的第二连接权重,θai(k)表示神经网络actor的调整矩阵;
Critic神经网络的表达式为:
Figure BDA0003949700320000088
其中,
Figure BDA0003949700320000089
表示Critic神经网络估计出来的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,
Figure BDA00039497003200000810
表示Critic神经网络的第一连接权重,T表示转置操作,σci()表示神经网络Critic的激活函数,
Figure BDA0003949700320000091
表示Critic神经网络的第二连接权重,θci(k)表示神经网络Critic的调整矩阵。
当性能指标函数与控制策略都收敛到一个足够小的值时,则算法执行完毕,多智能体系统达到最优一致性:
limk→∞‖e(k)‖=0
其中,k表示时间,e(k)表示全局跟踪误差,||e(k)||表示求全局跟踪误差的范数,
Figure BDA0003949700320000092
eN(k)表示第N个局部跟踪误差,T表示转置操作,RNp表示实数域矩阵。
本实例考虑一个由N个跟随者智能体和1个领导者智能体组成的多智能体系统。多智能体系统的关系拓扑可以用一个有向加权图G=(V,E,A)表示,每个智能体为无向加权图G=(V,E,A)的一个节点,其中V={v1,v2,...,vN+1}中表示节点的集合,E={aij=(vi,vj):vi,vj∈V,i≠j},A-[aij]表示邻接矩阵,其中矩阵元素aij表示智能体节点i到j之间的连接权重。若节点i到j之间存在连接,则aij>0;若节点i到j之间无连接,则aij=0,规定aij=0即系统无自环。与节点i相连的节点为节点i的邻居节点,节点i的邻居节点用集合Ni={vj∈V|(vj,vi)∈E}表示。对于跟随者智能体i,其入度表示为
Figure BDA0003949700320000093
则系统节点的入度矩阵为D=diag{d1,...,dN}。系统的拓扑的拉普拉斯矩阵为L=D-A=[lij]∈RN×N,其中lij=-aij,i≠j,lii=∑i≠jaij
本实例以图2为实验拓扑图,一个由且4个节点组成的多智能体系统,其中0号节点为领导者智能体,其他节点均为跟随者智能体,且领导者智能体与1号节点和2号结点之间存在直接相连的边。从拓扑中可以发现,0号节点可以间接的到达其他所有跟随者智能体,故该拓扑图中包含一棵有向生成树。考虑系统的模型如下:
x0(k+1)=Ax0(k)
xi(k+1)=Axi(k)+Biui(k),i=1,2,3,4
其中
Figure BDA0003949700320000101
Figure BDA0003949700320000102
Figure BDA0003949700320000103
在拓扑图中,非零边权值为a32=1,领导者的邻接矩阵为B=diag{1,1,0}。随机初始化领导者的状态信息在[-1,1]之间,设置Actor神经网络和Critic神经网络的学习率均为αai=αci=0.03,且神经网络的初始权重均取自范围为[-1,1]之间的随机数。Critic神经网络的激活函数分别为σc1=tanh([e11(k) e21(k) u1(k)]T),σc2=tanh([e21(k) e22(k) u2(k)]T),σc3=tanh([e31(k) e32(k) u3(k) u2(k)])。Actor神经网络的激活函数为σai=[ei1(k) ei2(k)],且所有神经网络都至少训练300次。
如图3所示,展示了所有智能体三维状态信息的变化过程,从中不难看出所有智能体的状态最终都与领导者达成一致性,证明了算法的可行性。图4给出了所有智能体的跟踪误差的演化过程,可以看出最终都能收敛到0,即所有的跟随者智能体与领导者智能体的状态信息达成一致。图5给出了智能体的二维状态信息的演化过程,可以看出所有智能体能够实现跟踪领导者的状态,最后所有智能体达成一致性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,包括:
S1:将多智能体系统中的智能体分为两类,一类为领导者智能体,其不会接收到来自邻居智能体发送的信息,另一类为跟随者智能体,其会根据所接收到邻居智能体发送的信息对自身行为做出调整;
所述每个智能体发送的信息包括自身的状态信息和控制策略;
S2:通过智能体自身的传感器获取邻居跟随者智能体与领导者智能体之间状态信息,并根据状态信息计算智能体的局部跟踪误差;
S3:为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池;
S4:根据智能体的发送信息和智能体之间的局部跟踪误差构造用于评价智能体当前控制策略优劣的动作状态值函数;
S5:设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略;
S6:使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,当动作状态值函数与控制策略都收敛到一个足够小的值时,此时算法执行完毕,所有智能体获得最优的控制策略。
2.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,根据状态信息计算智能体的局部跟踪误差,包括:
Figure FDA0003949700310000021
其中,ei(k)表示第k时刻智能体i的局部跟踪误差,bi表示牵制增益,若bi=1表示该智能体与领导者直接相连接,否则bi=0;aij表示第i个智能体与第j个智能体之间的连接权重,xj(k)表示第k时刻第j个智能体的状态向量,
Figure FDA0003949700310000023
表示第i个智能体的邻居智能体的集合,xi(k)表示第i个智能体在第k时刻的状态信息,x0(k)表示第k时刻领导者的状态信息。
3.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述S3中的经验池有容量大小限制,当经验池的容量达到一定程度,则会删除存放时间最长的一组或多组数据,同时将新生成的数据存入。
4.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述用于评价智能体当前控制策略优劣的动作状态值函数,包括:
Qi(ei(k),μ)=ci(ei(k),μ)+τQi(ei(k+1),ui(ei(k+1)))
其中,Qi(ei(k),μ)表示用于评价智能体当前控制策略优劣的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,
Figure FDA0003949700310000022
表示用来评价智能体在第k时刻控制策略的效用函数,ui(k)表示第k时刻智能体i的控制策略,T表示转置操作,Qii≥0,Rii≥0表示正定的权重矩阵,τ∈[0,1]表示强化学习中的折扣因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差。
5.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,所述自适应动态规划算法:使用自适应动态参数来调整自适应动态规划算法的动态因子ρl,动态因子ρl由小到大的变化,初始时,动态因子ρl从接近0开始,自适应动态规划算法通过值迭代找到可容许控制策略,然后随着动态因子ρl逐渐增大接近1,在可容许控制策略的基础上找到最优控制策略;该过程表示为:
ρl=tanh(bIn(a+l))
其中,b表示第一常数,a表示第二常数,l表示迭代指数,a>1且b>0,动态因子ρl为从0到1的单调增加函数。
6.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数,并通过梯度更新的方式来计迭代更新每个智能体的控制策略,包括:
初始化迭代指数l=0,并为所有的智能体初始化一个任意的控制策略
Figure FDA0003949700310000031
计算动作状态值函数:
Figure FDA0003949700310000032
其中,
Figure FDA0003949700310000033
表示融入迭代指数的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,
Figure FDA0003949700310000034
表示用来评价智能体在第k时刻控制策略的效用函数,τ表示强化学习中的折扣因子,ρl表示动态因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差,l表示迭代指数;
用动作状态价值函数更新控制策略:
Figure FDA0003949700310000035
其中,ei(k)表示第k时刻智能体i的局部跟踪误差,l表示迭代指数,μ表示智能体的发送的信息,τ表示强化学习中的折扣因子,ρl表示动态因子,ei(k+1)表示下一时刻智能体i的局部跟踪误差,ri()表示第i个智能体的效用函数,
Figure FDA0003949700310000048
表示融入迭代指数的动作状态值函数;
随着迭代的进行,若动作状态价值函数
Figure FDA0003949700310000041
和控制策略
Figure FDA0003949700310000042
都能够收敛到最优值,则智能体的学习过程完毕。
7.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,使用神经网络来分别近似控制策略和动作状态值函数,设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程,包括:
使用神经网络来分别近似性能指标函数和控制策略,使用了Actor-Critic神经网络框架来求解最优控制策略;其中Actor神经网络用于近似最优控制策略,Critic神经网络用于近似性能指标函数;
Actor神经网络的表达式为:
Figure FDA0003949700310000043
其中,
Figure FDA0003949700310000044
表示Actor神经网络估计出来的控制策略,
Figure FDA0003949700310000045
表示Actor神经网络的第一连接权重,T表示转置操作,σai()表示神经网络actor的激活函数,
Figure FDA0003949700310000046
表示Actor神经网络的第二连接权重,θai(k)表示神经网络actor的调整矩阵;
Critic神经网络的表达式为:
Figure FDA0003949700310000047
其中,
Figure FDA0003949700310000051
表示Critic神经网络估计出来的动作状态值函数,ei(k)表示第k时刻智能体i的局部跟踪误差,μ表示智能体的发送的信息,
Figure FDA0003949700310000052
表示Critic神经网络的第一连接权重,T表示转置操作,σci()表示神经网络Critic的激活函数,
Figure FDA0003949700310000053
表示Critic神经网络的第二连接权重,θci(k)表示神经网络Critic的调整矩阵。
8.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法,其特征在于,当性能指标函数与控制策略都收敛到一个足够小的值时,则算法执行完毕,多智能体系统达到最优一致性:
limk→∞||e(k)||=0
其中,k表示时间,e(k)表示全局跟踪误差,||e(k)||表示求全局跟踪误差的范数,
Figure FDA0003949700310000054
eN(k)表示第N个局部跟踪误差,T表示转置操作,RNp表示实数域矩阵。
CN202211444686.4A 2022-11-18 2022-11-18 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法 Pending CN115685763A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211444686.4A CN115685763A (zh) 2022-11-18 2022-11-18 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211444686.4A CN115685763A (zh) 2022-11-18 2022-11-18 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法

Publications (1)

Publication Number Publication Date
CN115685763A true CN115685763A (zh) 2023-02-03

Family

ID=85054129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211444686.4A Pending CN115685763A (zh) 2022-11-18 2022-11-18 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法

Country Status (1)

Country Link
CN (1) CN115685763A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177328A (zh) * 2023-08-25 2023-12-05 中国科学院自动化研究所 通信拓扑模型的动态更新方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4884216A (en) * 1987-11-09 1989-11-28 Michael Kuperstein Neural network system for adaptive sensory-motor coordination of multijoint robots for single postures
JP2016026356A (ja) * 2015-09-07 2016-02-12 洋彰 宮崎 自己組織的に知識を拡大する人工知能装置
CN105847438A (zh) * 2016-05-26 2016-08-10 重庆大学 基于事件触发的多智能体一致性控制方法
EP3403924A1 (en) * 2017-05-16 2018-11-21 Sikorsky Aircraft Corporation In cockpit control of a fixed wing aircraft
CN114755926A (zh) * 2022-05-10 2022-07-15 重庆邮电大学 一种基于强化学习的多智能体系统最优一致性的控制方法
CN114791741A (zh) * 2022-03-10 2022-07-26 重庆邮电大学 事件触发下无人系统集群的无模型最优分组协同控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4884216A (en) * 1987-11-09 1989-11-28 Michael Kuperstein Neural network system for adaptive sensory-motor coordination of multijoint robots for single postures
JP2016026356A (ja) * 2015-09-07 2016-02-12 洋彰 宮崎 自己組織的に知識を拡大する人工知能装置
CN105847438A (zh) * 2016-05-26 2016-08-10 重庆大学 基于事件触发的多智能体一致性控制方法
EP3403924A1 (en) * 2017-05-16 2018-11-21 Sikorsky Aircraft Corporation In cockpit control of a fixed wing aircraft
CN114791741A (zh) * 2022-03-10 2022-07-26 重庆邮电大学 事件触发下无人系统集群的无模型最优分组协同控制方法
CN114755926A (zh) * 2022-05-10 2022-07-15 重庆邮电大学 一种基于强化学习的多智能体系统最优一致性的控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐晓波;: "自抗扰控制器的一致性优化设计与应用", 电子世界, no. 03, 8 February 2017 (2017-02-08) *
席磊: "基于虚拟狼群控制策略的智能发电控制", 中国电机工程学报, no. 10, 22 January 2018 (2018-01-22) *
赵倩: "基于Q-learning的多智能体系统最优一致性的研究", 《中国优秀硕士学位论文电子全文库 信息科技辑》, 15 January 2022 (2022-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177328A (zh) * 2023-08-25 2023-12-05 中国科学院自动化研究所 通信拓扑模型的动态更新方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
Baumann et al. Deep reinforcement learning for event-triggered control
CN112180734A (zh) 一种基于分布式自适应事件触发的多智能体一致性方法
CN114281104B (zh) 一种基于改进蚁群算法的多无人机协同调控方法
CN113919485A (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
CN112180730B (zh) 一种多智能体系统分层最优一致性控制方法和装置
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
CN113359476B (zh) 离散时间下多智能体系统的一致性控制算法设计方法
CN115685763A (zh) 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法
CN112558470A (zh) 一种执行器饱和多智能体系统最优一致性控制方法和装置
CN111983923B (zh) 一种受限多智能体系统编队控制方法、系统及设备
CN114791741A (zh) 事件触发下无人系统集群的无模型最优分组协同控制方法
CN114511042A (zh) 一种模型的训练方法、装置、存储介质及电子装置
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN114063438B (zh) 一种数据驱动的多智能体系统pid控制协议自学习方法
CN117055605A (zh) 多无人机姿态控制方法及系统
CN117762014A (zh) 一种采用分布式事件触发控制的有限时间协同控制方法
CN111967199A (zh) 一种强化学习多代理合作任务下的代理贡献分配的方法
CN115729267A (zh) 一种基于有向拓扑和数据包丢失补偿机制的无人机编队分布式协同跟踪控制方法
CN114859719A (zh) 一种基于图神经网络的强化学习集群蜂拥控制方法
CN113469369A (zh) 一种面向多任务强化学习的缓解灾难性遗忘的方法
Masadeh et al. Selector-actor-critic and tuner-actor-critic algorithms for reinforcement learning
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Hwang et al. Adaptive reinforcement learning in box-pushing robots
Dai et al. Coordinated Sensing Coverage with Distributed Deep Reinforcement Learning
CN116684273B (zh) 一种基于粒子群的机动通信网络结构自动规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination