CN114791741A - 事件触发下无人系统集群的无模型最优分组协同控制方法 - Google Patents
事件触发下无人系统集群的无模型最优分组协同控制方法 Download PDFInfo
- Publication number
- CN114791741A CN114791741A CN202210233645.4A CN202210233645A CN114791741A CN 114791741 A CN114791741 A CN 114791741A CN 202210233645 A CN202210233645 A CN 202210233645A CN 114791741 A CN114791741 A CN 114791741A
- Authority
- CN
- China
- Prior art keywords
- agent
- tracking error
- intelligent
- optimal
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000011217 control strategy Methods 0.000 claims abstract description 27
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 230000002860 competitive effect Effects 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 295
- 230000006870 function Effects 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000009133 cooperative interaction Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- -1 but in practice Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明请求保护一种事件触发下无人系统集群的无模型最优分组协同控制方法,无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。包括:利用矩阵理论转换二阶智能体的动力学模型,得到包含位置和速度信息的动力学方程;设计基于合作竞争交互的局部邻域跟踪误差协议,得到智能体的局部邻域跟踪误差;利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;使用基于神经网络的自适应动态规划方法拟合最优控制;为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时,更新其控制策略,最终实现多智能体系统的最优分组一致。
Description
技术领域
本发明涉及多智能体系统控制领域,无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体描述。
背景技术
近几十年来,多智能体系统的一致性控制得到了很大的发展和广泛的应用,如自主移动机器人编队控制、群集、多无人机编队控制、卫星编队飞行、传感器网络目标跟踪等。需要注意的是,多智能体系统的一致性控制的相关工作主要集中在系统模型的设计和稳定性条件的获取上,但很少考虑最优性能。因此,最优协调控制问题已成为一个热门而重要的研究课题,因为它可以极大地降低控制成本,具有重要的实际应用价值。传统的最优控制依赖于耦合的哈密顿-雅可比-贝尔曼方程的解析。然而,求解此方程是一项非常困难的任务。自适应动态规划方法被认为是解决该问题的有效且潜在的方法,它结合了最优控制和强化学习的优点。然而,现有的大部分采用自适应动态规划方法的一致性研究工作都必须依赖精确的系统模型。但在实际应用中,由于结构复杂,大多数系统难以获得精确的系统模型,这限制了它们的应用范围。此外,这些工作通常使用智能体之间的周期性采样控制,这会消耗大量的系统资源。
目前大部分关于多智能体系统最优控制的工作都是基于一阶智能体的,但实际上,大多数机械系统都是二阶动态系统,例如成群结队的车辆、机器人、无人机等等。除了位置信息,我们还需要知道它们的速度信息,才能准确地描述它们的动力学特性。此外,现有工作很少涉及智能体之间的竞争交互,但是实际上智能体之间需要竞争有限的系统资源,同时又要相互合作完成一致性任务,因此,对于智能体之间的合作竞争交互研究很有必要性。最后,随着多智能体系统规模和复杂性的增加,可能需要将其划分为不同的子网,并且智能体的一致值可能会随着环境或任务的变化而有所不同。
经过检索,申请公开号CN108897229A,一种二阶多智能体系统的领导-跟随比例一致性控制方法,根据网络的拓扑结构确定跟随智能体与领导者,确定以领导者为根节点的有向生成树结构;其次根据期望实现多智能体状态比例关系,为跟随智能体选择比例参数,使二阶多智能体状态达到预期指定比例关系;最后在一个或多个跟随智能体能获取领导者信息的情况下,设计多智能体的领导-跟随比例一致性协议,实现跟随智能体的状态以一定的比例严格跟随领导者的状态,所有跟随智能体的状态实现比例一致性。
本专利和上述专利内容仅领导者-跟随者模型相似,本文的专利创新重点是合作竞争网络,多智能体最优控制,事件触发。系统的模型只是一种材料,谁都可以用,比如在纸上写文字,重点是用这个材料做出的东西。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种事件触发下无人系统集群的无模型最优分组协同控制方法。无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。本发明的技术方案如下:
一种事件触发下无人系统集群的无模型最优分组协同控制方法,其包括以下步骤:
S1、首先获取智能体的初始位置和速度信息,利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程;
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差;
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
S4、使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略;
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略;
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致。
进一步的,所述S1利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程,具体包括:
所述二阶智能体的模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
其中,xi(k),ui(k),vi(k)分别表示智能体的位置信息、控制输入以及速度信息;矩阵A,B,C以及Ti是系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
所述领导者智能体的动力学方程为:
其中,x0(k)∈Rn,v0(k)∈Rm分别是领导者智能体的位置和速度信息;
所述转换后的智能体动力学模型为:
进一步的,所述S2根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差,具体包括:
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。
进一步的,所述S3利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略,具体包括:
所述智能体的性能指标函数为:
Ji(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k),uj(k))+αJi(δi(k+1),ui(k+1),uj(k+1))
其中是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵;为了方便研究,简化公式Ji(δi(k),ui(k),uj(k))=Ji(δi(k))以及Ui(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k));
所述最优控制策略为:
进一步的,所述S4使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略,具体包括:
所述Actor神经网络为:
所述Critic神经网络为:
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统矩阵P和Si是未知的也不会影响神经网络权重的更新。
进一步的,所述S5为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略,具体包括:
所述智能体的事件触发阈值为:
其中Z=η-σk是过滤函数,事件触发参数F,η,σ是正数且满足F2-2σlnη<0,是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,ksi+1为智能体i下一事件触发时刻。
进一步的,所述S6智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致,具体包括:
当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
其中,如果第i个智能体和领导者智能体在同一子网,那么ci=1,否则ci=-1;x0(k)、v0(k)分别表示领导者智能体在k时刻的位置和速度信息,xi(k)、vi(k)分别表示智能体i在k时刻的位置和速度信息。
考虑由一个领导者智能体和N个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图其中是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)},矩阵是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;定义顶点vi的邻接顶点集为则顶点vi的入度为D=diag{d1,d2,...,dN},其中
本发明的优点及有益效果如下:
1、本发明的多智能体系统中包括合作-竞争关系的多智能体,根据多智能体系统中智能体之间的合作竞争关系设计如下局部邻域跟踪误差协议:
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;aij是智能体i和智能体的邻接关系,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。此协议将智能体分为两个组,这种竞争合作的内部关系相比于单一的合作关系或者竞争关系,更符合现实复杂系统的内部关系,有利于智能体系统执行并行分布式任务,最终使同组智能体收敛到相同值,不同组智能体收敛值相反。
2、本发明的多智能体系统是具位置信息和速度信息的二阶多智能体系统,相比于一阶多智能体系统,二阶多智能体系统能够更加准确的描述实际存在的工程项目系统。
3、本发明为每个智能体设计了一种新颖的包含过滤函数的事件触发机制:
其中Z=η-σk是过滤函数,事件触发参数F,η,σ是正数且满足F2-2σlnη<0,是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,ksi+1为智能体i下一事件触发时刻。此事件触发机制中的过滤函数可以有效的减少普通事件触发机制引起的过度触发问题,降低了控制成本,极大的减少的系统资源的消耗。
4、本发明使用基于神经网络的无模型自适应动态规划算法进行拟合最优控制,使得该算法不必考虑真实系统的精确模型,其应用分为更加广泛。
演员神经网络为:
定义输出误差函数为:
设计演员神经网络的权重更新公式为:
附图说明
图1是本发明提供优选实施例例的系统控制流程图;
图2为本发明实施例的系统拓扑图;
图3为本发明实施例的智能体位置演变图;
图4为本发明实施例的智能体速度演变图。
图5为本发明实施例的智能体事件触发时刻图。
具体实施方式
无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,一种合作竞争网络中事件触发下无人系统集群的无模型最优分组协同控制方法,该方法包括但不限于如下步骤:
S1、利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程。
所述二阶智能体模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
所述领导者智能体的动力学方程为:
其中,x0(k)∈Rn,v0(k)∈Rm分别是领导者智能体的位置和速度信息。
所述转换后的智能体动力学模型为:
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差。
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
其中,Γij是智能体之间的竞争系数。Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互。如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
所述智能体的性能指标函数为:
Ji(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k),uj(k))+αJi(δi(k+1),ui(k+1),uj(k+1))
其中是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵。为了方便研究,简化公式Ji(δi(k),ui(k),uj(k))=Ji(δi(k))以及Ui(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k))。
所述最优控制策略为:
S4、由于关于智能体最优控制策略的哈密顿-雅可比-贝尔曼方程非常难以解析,因此使用基于Actor-Critic神经网络的自适应动态规划算法拟合智能体的最优控制策略。
所述Actor神经网络为:
所述Critic神经网络为:
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统矩阵P和Si是未知的也不会影响神经网络权重的更新,对于实际工程中无法获取精确系统模型的情况更加适用。
所述基于Actor-Critic神经网络的自适应动态规划算法包括:
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略。
所述智能体的事件触发阈值为:
其中Z=η-σk是过滤函数,F,η,σ是正数且满足F2-2σlnη<0,是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差。
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致;
本发明中当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
其中,如果第i个智能体和领导者智能体在同一子网,那么ci=1,否则ci=-1。
考虑由一个领导者智能体和N个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图其中是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)}。矩阵是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0。定义顶点vi的邻接顶点集为则顶点vi的入度为D=diag{d1,d2,...,dN},其中
为了验证提出的合作-竞争牵制二分组一致性算法的效果,运用matlab进行仿真验证。在本说明书的描述中,所述一个节点表示一个智能体。
考虑具有如图2所示通信拓扑结构的多智能体系统,其中节点0表示领导者智能体,其余为跟随者智能体。将图示多智能体系统划分成两个子网,智能体1、3、6组成子网一,智能体2、4、5、7组成子网二。对于多智能体系统,设置系统和网络参数如下:
系统矩阵:S1=[0.019 0.38]T,S2=[0.026 0.43]T,S3=[0.041 0.52]T,S4=[0.025 0.37]T,S5=[0.033 0.40]T,S6=[0.021 0.30]T,S7=[0.0420.43]T。牵制增益参数:b1=1,b2=b3=b4=b5=b6=b7=0。合作竞争系数:Γ21=-0.1,Γ25=2.1,Γ31=Γ42=Γ54=Γ75=1,Γ63=3,Γ67=-1,其它系数为0;折扣因子:α=0.95;学习率:κci=κai=0.03;事件触发参数:F=0.47,σ=0.8,η=1.23。
从仿真结果可以得出,如图3、图4所分别示展示了所有智能体的位置状态和速度状态的演化过程。智能体节点2、4、5、7组成子网二是受领导者智能体节点0控制的子网,因此,子网二中的智能体最终与领导者智能体达成一致的状态(位置状态与速度状态)。而智能体节点1、3、6组成子网一则达成与领导者相反的状态(位置状态与速度状态)。实现了同组智能体趋于一致,不同组趋于相反的收敛值,符合实现了合作-竞争的内部关系,达到了分组一致的状态。图5展示了采用本发明所设计的事件触发机制下智能体的触发时刻,可以明显的看到相较于每一时刻都进行触发的时间触发模式,该事件触发机制下,智能体的触发时刻不连续,并且有极大的减少。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,包括以下步骤:
S1、首先获取智能体的初始位置和速度信息,利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程;
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差;
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
S4、使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略;
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略;
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致。
2.根据权利要求1所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S1利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程,具体包括:
所述二阶智能体的模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
其中,xi(k),ui(k),vi(k)分别表示智能体的位置信息、控制输入以及速度信息;矩阵A,B,C以及Ti是系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
所述领导者智能体的动力学方程为:
其中,x0(k),v0(k)分别是领导者智能体的位置和速度信息;
所述转换后的智能体动力学模型为:
3.根据权利要求2所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S2根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差,具体包括:
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;aij是智能体i和智能体的邻接关系,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。
4.根据权利要求3所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S3利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略,具体包括:
所述智能体的性能指标函数为:
Ji(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k),uj(k))+αJi(δi(k+1),ui(k+1),uj(k+1))
其中是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵;为了方便研究,简化公式Ji(δi(k),ui(k),uj(k))=Ji(δi(k))以及Ui(δi(k),ui(k),uj(k))=Ui(δi(k),ui(k));
所述最优控制策略为:
5.根据权利要求4所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S4使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略,具体包括:
所述批评家神经网络为:
所述Critic神经网络为:
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统参数矩阵P和Si是未知的也不会影响神经网络权重的更新。
7.根据权利要求6所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S6智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致,具体包括:
当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
其中,如果第i个智能体和领导者智能体在同一子网,那么牵制参数ci=1,否则ci=-1;x0(k)、v0(k)分别表示领导者智能体在k时刻的位置和速度信息,xi(k)、vi(k)分别表示智能体i在k时刻的位置和速度信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210233645.4A CN114791741A (zh) | 2022-03-10 | 2022-03-10 | 事件触发下无人系统集群的无模型最优分组协同控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210233645.4A CN114791741A (zh) | 2022-03-10 | 2022-03-10 | 事件触发下无人系统集群的无模型最优分组协同控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114791741A true CN114791741A (zh) | 2022-07-26 |
Family
ID=82459668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210233645.4A Pending CN114791741A (zh) | 2022-03-10 | 2022-03-10 | 事件触发下无人系统集群的无模型最优分组协同控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114791741A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115562009A (zh) * | 2022-09-23 | 2023-01-03 | 苏州大学 | 基于事件触发的连续搅拌釜反应器一致性控制方法及系统 |
-
2022
- 2022-03-10 CN CN202210233645.4A patent/CN114791741A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115562009A (zh) * | 2022-09-23 | 2023-01-03 | 苏州大学 | 基于事件触发的连续搅拌釜反应器一致性控制方法及系统 |
CN115562009B (zh) * | 2022-09-23 | 2023-08-25 | 苏州大学 | 基于事件触发的连续搅拌釜反应器一致性控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108803349B (zh) | 非线性多智能体系统的最优一致性控制方法及系统 | |
Chen et al. | Approximating explicit model predictive control using constrained neural networks | |
CN109496305A (zh) | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 | |
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
CN112788699B (zh) | 一种飞行自组织网网络拓扑确定方法及系统 | |
CN112051734B (zh) | 一种基于确定学习的轮式移动机器人事件触发跟踪控制方法 | |
CN111983923B (zh) | 一种受限多智能体系统编队控制方法、系统及设备 | |
CN114791741A (zh) | 事件触发下无人系统集群的无模型最优分组协同控制方法 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN114840021A (zh) | 一种无人机收集数据的轨迹规划方法、装置、设备及介质 | |
CN112198796B (zh) | 一种分布式前置时间状态观测器的设计方法 | |
CN112180730B (zh) | 一种多智能体系统分层最优一致性控制方法和装置 | |
CN111967199B (zh) | 一种强化学习多代理合作任务下的代理贡献分配的方法 | |
CN111694272B (zh) | 基于模糊逻辑系统的非线性多智能体的自适应控制方法及装置 | |
CN113867934A (zh) | 一种无人机协助的多节点任务卸载调度的方法 | |
CN114755926A (zh) | 一种基于强化学习的多智能体系统最优一致性的控制方法 | |
CN116700340A (zh) | 轨迹规划方法、装置及无人机集群 | |
CN112752290B (zh) | 一种无线基站数据流量预测方法和设备 | |
CN110618607B (zh) | 一种基于行为的多uuv自组织协调控制方法 | |
CN114609910A (zh) | 一种具有乘性噪声的线性多智体系统及其一致控制方法 | |
CN114859719A (zh) | 一种基于图神经网络的强化学习集群蜂拥控制方法 | |
CN112925197A (zh) | 基于有限时间的多智能体系统二分一致跟踪方法 | |
CN111856935A (zh) | 基于lpv多智能体系统的鲁棒共识方法 | |
CN115685763A (zh) | 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法 | |
Hwang et al. | Adaptive reinforcement learning in box-pushing robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |