CN114791741A - 事件触发下无人系统集群的无模型最优分组协同控制方法 - Google Patents

事件触发下无人系统集群的无模型最优分组协同控制方法 Download PDF

Info

Publication number
CN114791741A
CN114791741A CN202210233645.4A CN202210233645A CN114791741A CN 114791741 A CN114791741 A CN 114791741A CN 202210233645 A CN202210233645 A CN 202210233645A CN 114791741 A CN114791741 A CN 114791741A
Authority
CN
China
Prior art keywords
agent
tracking error
intelligent
optimal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210233645.4A
Other languages
English (en)
Inventor
纪良浩
李曦
杨莎莎
郭兴
于南翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210233645.4A priority Critical patent/CN114791741A/zh
Publication of CN114791741A publication Critical patent/CN114791741A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明请求保护一种事件触发下无人系统集群的无模型最优分组协同控制方法,无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。包括:利用矩阵理论转换二阶智能体的动力学模型,得到包含位置和速度信息的动力学方程;设计基于合作竞争交互的局部邻域跟踪误差协议,得到智能体的局部邻域跟踪误差;利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;使用基于神经网络的自适应动态规划方法拟合最优控制;为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时,更新其控制策略,最终实现多智能体系统的最优分组一致。

Description

事件触发下无人系统集群的无模型最优分组协同控制方法
技术领域
本发明涉及多智能体系统控制领域,无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体描述。
背景技术
近几十年来,多智能体系统的一致性控制得到了很大的发展和广泛的应用,如自主移动机器人编队控制、群集、多无人机编队控制、卫星编队飞行、传感器网络目标跟踪等。需要注意的是,多智能体系统的一致性控制的相关工作主要集中在系统模型的设计和稳定性条件的获取上,但很少考虑最优性能。因此,最优协调控制问题已成为一个热门而重要的研究课题,因为它可以极大地降低控制成本,具有重要的实际应用价值。传统的最优控制依赖于耦合的哈密顿-雅可比-贝尔曼方程的解析。然而,求解此方程是一项非常困难的任务。自适应动态规划方法被认为是解决该问题的有效且潜在的方法,它结合了最优控制和强化学习的优点。然而,现有的大部分采用自适应动态规划方法的一致性研究工作都必须依赖精确的系统模型。但在实际应用中,由于结构复杂,大多数系统难以获得精确的系统模型,这限制了它们的应用范围。此外,这些工作通常使用智能体之间的周期性采样控制,这会消耗大量的系统资源。
目前大部分关于多智能体系统最优控制的工作都是基于一阶智能体的,但实际上,大多数机械系统都是二阶动态系统,例如成群结队的车辆、机器人、无人机等等。除了位置信息,我们还需要知道它们的速度信息,才能准确地描述它们的动力学特性。此外,现有工作很少涉及智能体之间的竞争交互,但是实际上智能体之间需要竞争有限的系统资源,同时又要相互合作完成一致性任务,因此,对于智能体之间的合作竞争交互研究很有必要性。最后,随着多智能体系统规模和复杂性的增加,可能需要将其划分为不同的子网,并且智能体的一致值可能会随着环境或任务的变化而有所不同。
经过检索,申请公开号CN108897229A,一种二阶多智能体系统的领导-跟随比例一致性控制方法,根据网络的拓扑结构确定跟随智能体与领导者,确定以领导者为根节点的有向生成树结构;其次根据期望实现多智能体状态比例关系,为跟随智能体选择比例参数,使二阶多智能体状态达到预期指定比例关系;最后在一个或多个跟随智能体能获取领导者信息的情况下,设计多智能体的领导-跟随比例一致性协议,实现跟随智能体的状态以一定的比例严格跟随领导者的状态,所有跟随智能体的状态实现比例一致性。
本专利和上述专利内容仅领导者-跟随者模型相似,本文的专利创新重点是合作竞争网络,多智能体最优控制,事件触发。系统的模型只是一种材料,谁都可以用,比如在纸上写文字,重点是用这个材料做出的东西。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种事件触发下无人系统集群的无模型最优分组协同控制方法。无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。本发明的技术方案如下:
一种事件触发下无人系统集群的无模型最优分组协同控制方法,其包括以下步骤:
S1、首先获取智能体的初始位置和速度信息,利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程;
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差;
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
S4、使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略;
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略;
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致。
进一步的,所述S1利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程,具体包括:
所述二阶智能体的模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
Figure BDA0003541316010000031
其中,xi(k),ui(k),vi(k)分别表示智能体的位置信息、控制输入以及速度信息;矩阵A,B,C以及Ti是系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
所述领导者智能体的动力学方程为:
Figure BDA0003541316010000032
其中,x0(k)∈Rn,v0(k)∈Rm分别是领导者智能体的位置和速度信息;
所述转换后的智能体动力学模型为:
Figure BDA0003541316010000033
其中跟随者智能体的状态为
Figure BDA0003541316010000034
领导者智能体的状态为
Figure BDA0003541316010000035
Figure BDA0003541316010000036
矩阵P,Si是转换后新的系统参数矩阵,矩阵A,B,C以及Ti是原系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
进一步的,所述S2根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差,具体包括:
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
Figure BDA0003541316010000041
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。
进一步的,所述S3利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略,具体包括:
所述智能体的性能指标函数为:
Jii(k),ui(k),uj(k))=Uii(k),ui(k),uj(k))+αJii(k+1),ui(k+1),uj(k+1))
其中
Figure BDA0003541316010000042
是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵;为了方便研究,简化公式Jii(k),ui(k),uj(k))=Jii(k))以及Uii(k),ui(k),uj(k))=Uii(k),ui(k));
所述最优控制策略为:
Figure BDA0003541316010000043
其中,bi是智能体i与领导者智能体的关系参数,当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。di是智能体i的入度、
Figure BDA0003541316010000044
是智能体i的最优控制策略、
Figure BDA0003541316010000045
是矩阵Rii的逆矩阵。
进一步的,所述S4使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略,具体包括:
所述Actor神经网络为:
Figure BDA0003541316010000051
其中,ksi为智能体i的事件触发时刻,ksi+1为智能体i下一事件触发时刻;
Figure BDA0003541316010000052
是智能体i的演员神经网络权重,zci()是包含跟踪误差δj信息的输入向量,ψci(·)是激活函数;
Figure BDA0003541316010000053
为近似性能指标函数。
所述Critic神经网络为:
Figure BDA0003541316010000054
其中,
Figure BDA0003541316010000055
是智能体i近似最优控制策略,ψai(·)是激活函数,zai(·)是包含跟踪误差δi信息的输入向量,
Figure BDA0003541316010000056
智能体i的演员神经网络权重。
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统矩阵P和Si是未知的也不会影响神经网络权重的更新。
进一步的,所述S5为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略,具体包括:
所述智能体的事件触发阈值为:
Figure BDA0003541316010000057
其中Z=η-σk是过滤函数,事件触发参数F,η,σ是正数且满足F2-2σlnη<0,
Figure BDA0003541316010000058
是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,ksi+1为智能体i下一事件触发时刻。
进一步的,所述S6智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致,具体包括:
当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
Figure BDA0003541316010000061
其中,如果第i个智能体和领导者智能体在同一子网,那么ci=1,否则ci=-1;x0(k)、v0(k)分别表示领导者智能体在k时刻的位置和速度信息,xi(k)、vi(k)分别表示智能体i在k时刻的位置和速度信息。
考虑由一个领导者智能体和N个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图
Figure BDA0003541316010000062
其中
Figure BDA0003541316010000063
是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;
Figure BDA0003541316010000064
是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)},矩阵
Figure BDA0003541316010000065
是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;定义顶点vi的邻接顶点集为
Figure BDA0003541316010000066
则顶点vi的入度为D=diag{d1,d2,...,dN},其中
Figure BDA0003541316010000067
本发明的优点及有益效果如下:
1、本发明的多智能体系统中包括合作-竞争关系的多智能体,根据多智能体系统中智能体之间的合作竞争关系设计如下局部邻域跟踪误差协议:
Figure BDA0003541316010000068
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;aij是智能体i和智能体的邻接关系,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。此协议将智能体分为两个组,这种竞争合作的内部关系相比于单一的合作关系或者竞争关系,更符合现实复杂系统的内部关系,有利于智能体系统执行并行分布式任务,最终使同组智能体收敛到相同值,不同组智能体收敛值相反。
2、本发明的多智能体系统是具位置信息和速度信息的二阶多智能体系统,相比于一阶多智能体系统,二阶多智能体系统能够更加准确的描述实际存在的工程项目系统。
3、本发明为每个智能体设计了一种新颖的包含过滤函数的事件触发机制:
Figure BDA0003541316010000071
其中Z=η-σk是过滤函数,事件触发参数F,η,σ是正数且满足F2-2σlnη<0,
Figure BDA0003541316010000072
是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,ksi+1为智能体i下一事件触发时刻。此事件触发机制中的过滤函数可以有效的减少普通事件触发机制引起的过度触发问题,降低了控制成本,极大的减少的系统资源的消耗。
4、本发明使用基于神经网络的无模型自适应动态规划算法进行拟合最优控制,使得该算法不必考虑真实系统的精确模型,其应用分为更加广泛。
演员神经网络为:
Figure BDA0003541316010000081
其中,
Figure BDA0003541316010000082
是智能体i近似最优控制策略,ψai(·)是激活函数,zai(·)是包含跟踪误差δi信息的输入向量,
Figure BDA0003541316010000083
智能体i的演员神经网络权重。
定义输出误差函数为:
Figure BDA0003541316010000084
其中,
Figure BDA0003541316010000085
Figure BDA0003541316010000086
是批评家神经网络近似最优性能指标函数,参数
Figure BDA0003541316010000087
通常设置为0。
设计演员神经网络的权重更新公式为:
Figure BDA0003541316010000088
其中,参数
Figure BDA0003541316010000089
参数
Figure BDA00035413160100000810
κai是演员神经网络的学习率。
附图说明
图1是本发明提供优选实施例例的系统控制流程图;
图2为本发明实施例的系统拓扑图;
图3为本发明实施例的智能体位置演变图;
图4为本发明实施例的智能体速度演变图。
图5为本发明实施例的智能体事件触发时刻图。
具体实施方式
无人系统集群控制是多智能体系统一致性协同控制的典型应用,本专利内容中使用多智能体系统进行具体阐述。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,一种合作竞争网络中事件触发下无人系统集群的无模型最优分组协同控制方法,该方法包括但不限于如下步骤:
S1、利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程。
所述二阶智能体模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
Figure BDA0003541316010000091
其中,xi(k)∈Rn
Figure BDA0003541316010000098
vi(k)∈Rm分别表示智能体的位置信息、控制输入以及速度信息;系统矩阵A∈Rn×n,B∈Rn×m,C∈Rm×m以及
Figure BDA0003541316010000099
都是完全未知的矩阵。
所述领导者智能体的动力学方程为:
Figure BDA0003541316010000092
其中,x0(k)∈Rn,v0(k)∈Rm分别是领导者智能体的位置和速度信息。
所述转换后的智能体动力学模型为:
Figure BDA0003541316010000093
其中跟随者智能体的状态为
Figure BDA0003541316010000094
领导者智能体的状态为
Figure BDA0003541316010000095
Figure BDA0003541316010000096
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差。
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
Figure BDA0003541316010000097
其中,Γij是智能体之间的竞争系数。Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互。如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
所述智能体的性能指标函数为:
Jii(k),ui(k),uj(k))=Uii(k),ui(k),uj(k))+αJii(k+1),ui(k+1),uj(k+1))
其中
Figure BDA0003541316010000101
是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵。为了方便研究,简化公式Jii(k),ui(k),uj(k))=Jii(k))以及Uii(k),ui(k),uj(k))=Uii(k),ui(k))。
所述最优控制策略为:
Figure BDA0003541316010000102
S4、由于关于智能体最优控制策略的哈密顿-雅可比-贝尔曼方程非常难以解析,因此使用基于Actor-Critic神经网络的自适应动态规划算法拟合智能体的最优控制策略。
所述Actor神经网络为:
Figure BDA0003541316010000103
其中,ksi为智能体i的事件触发时刻,ksi+1为智能体i下一事件触发时刻。
Figure BDA0003541316010000104
是智能体i的演员神经网络权重,zci()是包含跟踪误差δj信息的输入向量。ψci(·)是激活函数。
所述Critic神经网络为:
Figure BDA0003541316010000111
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统矩阵P和Si是未知的也不会影响神经网络权重的更新,对于实际工程中无法获取精确系统模型的情况更加适用。
所述基于Actor-Critic神经网络的自适应动态规划算法包括:
Figure BDA0003541316010000112
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略。
所述智能体的事件触发阈值为:
Figure BDA0003541316010000121
其中Z=η-σk是过滤函数,F,η,σ是正数且满足F2-2σlnη<0,
Figure BDA0003541316010000122
是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差。
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致;
本发明中当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
Figure BDA0003541316010000123
其中,如果第i个智能体和领导者智能体在同一子网,那么ci=1,否则ci=-1。
考虑由一个领导者智能体和N个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图
Figure BDA0003541316010000124
其中
Figure BDA0003541316010000125
是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;
Figure BDA0003541316010000126
是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)}。矩阵
Figure BDA0003541316010000127
是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0。定义顶点vi的邻接顶点集为
Figure BDA0003541316010000131
则顶点vi的入度为D=diag{d1,d2,...,dN},其中
Figure BDA0003541316010000132
为了验证提出的合作-竞争牵制二分组一致性算法的效果,运用matlab进行仿真验证。在本说明书的描述中,所述一个节点表示一个智能体。
考虑具有如图2所示通信拓扑结构的多智能体系统,其中节点0表示领导者智能体,其余为跟随者智能体。将图示多智能体系统划分成两个子网,智能体1、3、6组成子网一,智能体2、4、5、7组成子网二。对于多智能体系统,设置系统和网络参数如下:
系统矩阵:
Figure BDA0003541316010000133
S1=[0.019 0.38]T,S2=[0.026 0.43]T,S3=[0.041 0.52]T,S4=[0.025 0.37]T,S5=[0.033 0.40]T,S6=[0.021 0.30]T,S7=[0.0420.43]T。牵制增益参数:b1=1,b2=b3=b4=b5=b6=b7=0。合作竞争系数:Γ21=-0.1,Γ25=2.1,Γ31=Γ42=Γ54=Γ75=1,Γ63=3,Γ67=-1,其它系数为0;折扣因子:α=0.95;学习率:κci=κai=0.03;事件触发参数:F=0.47,σ=0.8,η=1.23。
从仿真结果可以得出,如图3、图4所分别示展示了所有智能体的位置状态和速度状态的演化过程。智能体节点2、4、5、7组成子网二是受领导者智能体节点0控制的子网,因此,子网二中的智能体最终与领导者智能体达成一致的状态(位置状态与速度状态)。而智能体节点1、3、6组成子网一则达成与领导者相反的状态(位置状态与速度状态)。实现了同组智能体趋于一致,不同组趋于相反的收敛值,符合实现了合作-竞争的内部关系,达到了分组一致的状态。图5展示了采用本发明所设计的事件触发机制下智能体的触发时刻,可以明显的看到相较于每一时刻都进行触发的时间触发模式,该事件触发机制下,智能体的触发时刻不连续,并且有极大的减少。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,包括以下步骤:
S1、首先获取智能体的初始位置和速度信息,利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程;
S2、根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差;
S3、利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略;
S4、使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略;
S5、为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略;
S6、智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致。
2.根据权利要求1所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S1利用矩阵理论转换二阶智能体的动力学模型,得到同时包含智能体位置信息和速度信息的动力学方程,具体包括:
所述二阶智能体的模型为领导者-跟随者模型,其中跟随者智能体的动力学方程为:
Figure FDA0003541315000000011
其中,xi(k),ui(k),vi(k)分别表示智能体的位置信息、控制输入以及速度信息;矩阵A,B,C以及Ti是系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长;
所述领导者智能体的动力学方程为:
Figure FDA0003541315000000012
其中,x0(k),v0(k)分别是领导者智能体的位置和速度信息;
所述转换后的智能体动力学模型为:
Figure FDA0003541315000000021
其中跟随者智能体的状态为
Figure FDA0003541315000000022
领导者智能体的状态为
Figure FDA0003541315000000023
Figure FDA0003541315000000024
矩阵P,Si是转换后新的系统参数矩阵,矩阵A,B,C以及Ti是原系统参数矩阵,并且是完全未知的;k是智能体迭代的时间步长。
3.根据权利要求2所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S2根据包含智能体合作竞争交互的局部邻域跟踪误差协议分别对智能体状态信息进行处理,得到该智能体的局部邻域跟踪误差,具体包括:
所述包含智能体合作竞争交互的局部邻域跟踪误差协议包括:
Figure FDA0003541315000000025
其中,Γij是智能体之间的竞争系数,Γij<0代表着智能体i与智能体j之间存在竞争交互,相反,Γij>0代表着智能体之间的合作交互;aij是智能体i和智能体的邻接关系,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0。yj(k)是转换后智能体j的状态信息、Ni表示智能体i的邻域智能体、δi(k)是智能体i的局部邻域跟踪误差协议。
4.根据权利要求3所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S3利用邻域跟踪误差和贝尔曼最优原理建立智能体的性能指标函数,并计算该智能体的最优控制策略,具体包括:
所述智能体的性能指标函数为:
Jii(k),ui(k),uj(k))=Uii(k),ui(k),uj(k))+αJii(k+1),ui(k+1),uj(k+1))
其中
Figure FDA0003541315000000031
是智能体i的回报函数,α∈(0,1]是强化学习领域中的折扣因子;Qii≥0,Rii≥0,Rij≥0是正对称加权矩阵,通常设置为单位矩阵;为了方便研究,简化公式Jii(k),ui(k),uj(k))=Jii(k))以及Uii(k),ui(k),uj(k))=Uii(k),ui(k));
所述最优控制策略为:
Figure FDA0003541315000000032
其中,bi是智能体i与领导者智能体的关系参数,当且仅当跟随者智能体i存在一条入度边来自领导者智能体,bi>0,否则,bi=0,di是智能体i的入度、
Figure FDA0003541315000000033
是智能体i的最优控制策略、
Figure FDA0003541315000000034
是矩阵Rii的逆矩阵。
5.根据权利要求4所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S4使用基于演员-批评家神经网络的自适应动态规划方法拟合智能体的最优控制策略,具体包括:
所述批评家神经网络为:
Figure FDA0003541315000000035
其中,ksi为智能体i的事件触发时刻,ksi+1为智能体i下一事件触发时刻;
Figure FDA0003541315000000036
是智能体i的批评家神经网络权重,zci(·)是包含跟踪误差δi信息的输入向量,ψci(·)是激活函数;
Figure FDA0003541315000000037
为近似性能指标函数。
所述Critic神经网络为:
Figure FDA0003541315000000038
其中,
Figure FDA0003541315000000039
是智能体i近似最优控制策略,ψai(·)是激活函数,zai(·)是包含跟踪误差δi信息的输入向量,
Figure FDA00035413150000000310
智能体i的演员神经网络权重;
在演员-批评家神经网络权重的更新规则中,仅仅使用系统过去和当前的数据,并没有涉及到多智能体系统精确的系统模型,即使系统参数矩阵P和Si是未知的也不会影响神经网络权重的更新。
6.根据权利要求5所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S5为每个智能体设置事件触发阈值,当该智能体的局部邻域跟踪误差超过该阈值时更新其控制策略,具体包括:
所述智能体的事件触发阈值为:
Figure FDA0003541315000000041
其中Z=η-σk是过滤函数,事件触发参数F,η,σ是正数且满足F2-2σlnη<0,
Figure FDA0003541315000000042
是智能体j的演员神经网络权重,zaj(ksj+1)是包含跟踪误差δj(ksj)信息的输入向量,ei(k)是智能体的事件触发误差;k1为智能体i的第一次事件触发时刻,ksi+1为智能体i下一事件触发时刻。
7.根据权利要求6所述的一种事件触发下无人系统集群的无模型最优分组协同控制方法,其特征在于,所述S6智能体根据控制策略不断更新其状态信息,最终实现多智能体系统的最优分组一致,具体包括:
当异质多智能体系统满足以下条件时,所有的智能体可以达到分组一致;满足的条件为:
Figure FDA0003541315000000043
其中,如果第i个智能体和领导者智能体在同一子网,那么牵制参数ci=1,否则ci=-1;x0(k)、v0(k)分别表示领导者智能体在k时刻的位置和速度信息,xi(k)、vi(k)分别表示智能体i在k时刻的位置和速度信息。
考虑由一个领导者智能体和N个跟随者智能体组成的离散二阶多智能体系统,其通信拓扑可以抽象为图
Figure FDA0003541315000000044
其中
Figure FDA0003541315000000045
是图的顶点集,每一个顶点代表着多智能体系统中的一个智能体;
Figure FDA0003541315000000051
是图的所有的边组成的集合;在有向图中,有向路径(vi,vj)是指从顶点vi到顶点vj的一系列连续的边{(vi,vn),(vn,vm)...,(vm,vj)},矩阵
Figure FDA0003541315000000052
是多智能体系统的加权邻接矩阵,如果智能体i可以收到智能体j的通信信息,则aij>0,否则,aij=0;定义顶点vi的邻接顶点集为
Figure FDA0003541315000000053
则顶点vi的入度为D=diag{d1,d2,...,dN},其中
Figure FDA0003541315000000054
CN202210233645.4A 2022-03-10 2022-03-10 事件触发下无人系统集群的无模型最优分组协同控制方法 Pending CN114791741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210233645.4A CN114791741A (zh) 2022-03-10 2022-03-10 事件触发下无人系统集群的无模型最优分组协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210233645.4A CN114791741A (zh) 2022-03-10 2022-03-10 事件触发下无人系统集群的无模型最优分组协同控制方法

Publications (1)

Publication Number Publication Date
CN114791741A true CN114791741A (zh) 2022-07-26

Family

ID=82459668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210233645.4A Pending CN114791741A (zh) 2022-03-10 2022-03-10 事件触发下无人系统集群的无模型最优分组协同控制方法

Country Status (1)

Country Link
CN (1) CN114791741A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115562009A (zh) * 2022-09-23 2023-01-03 苏州大学 基于事件触发的连续搅拌釜反应器一致性控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115562009A (zh) * 2022-09-23 2023-01-03 苏州大学 基于事件触发的连续搅拌釜反应器一致性控制方法及系统
CN115562009B (zh) * 2022-09-23 2023-08-25 苏州大学 基于事件触发的连续搅拌釜反应器一致性控制方法及系统

Similar Documents

Publication Publication Date Title
CN108803349B (zh) 非线性多智能体系统的最优一致性控制方法及系统
Chen et al. Approximating explicit model predictive control using constrained neural networks
CN109496305A (zh) 连续动作空间上的纳什均衡策略及社交网络舆论演变模型
CN113900380B (zh) 一种异构集群系统鲁棒输出编队跟踪控制方法及系统
CN112788699B (zh) 一种飞行自组织网网络拓扑确定方法及系统
CN112051734B (zh) 一种基于确定学习的轮式移动机器人事件触发跟踪控制方法
CN111983923B (zh) 一种受限多智能体系统编队控制方法、系统及设备
CN114791741A (zh) 事件触发下无人系统集群的无模型最优分组协同控制方法
CN117055605A (zh) 多无人机姿态控制方法及系统
CN114840021A (zh) 一种无人机收集数据的轨迹规划方法、装置、设备及介质
CN112198796B (zh) 一种分布式前置时间状态观测器的设计方法
CN112180730B (zh) 一种多智能体系统分层最优一致性控制方法和装置
CN111967199B (zh) 一种强化学习多代理合作任务下的代理贡献分配的方法
CN111694272B (zh) 基于模糊逻辑系统的非线性多智能体的自适应控制方法及装置
CN113867934A (zh) 一种无人机协助的多节点任务卸载调度的方法
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
CN116700340A (zh) 轨迹规划方法、装置及无人机集群
CN112752290B (zh) 一种无线基站数据流量预测方法和设备
CN110618607B (zh) 一种基于行为的多uuv自组织协调控制方法
CN114609910A (zh) 一种具有乘性噪声的线性多智体系统及其一致控制方法
CN114859719A (zh) 一种基于图神经网络的强化学习集群蜂拥控制方法
CN112925197A (zh) 基于有限时间的多智能体系统二分一致跟踪方法
CN111856935A (zh) 基于lpv多智能体系统的鲁棒共识方法
CN115685763A (zh) 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法
Hwang et al. Adaptive reinforcement learning in box-pushing robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination