CN117319169B - 多智能体系统分布式优化方法、装置、终端及存储介质 - Google Patents
多智能体系统分布式优化方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN117319169B CN117319169B CN202311599125.6A CN202311599125A CN117319169B CN 117319169 B CN117319169 B CN 117319169B CN 202311599125 A CN202311599125 A CN 202311599125A CN 117319169 B CN117319169 B CN 117319169B
- Authority
- CN
- China
- Prior art keywords
- agent
- state information
- intelligent
- moment
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004891 communication Methods 0.000 claims abstract description 65
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 29
- 230000001960 triggered effect Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims 2
- 230000000737 periodic effect Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 7
- 239000003795 chemical substances by application Substances 0.000 description 148
- 238000004364 calculation method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000008045 co-localization Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/042—Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multi Processors (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了多智能体系统分布式优化方法、装置、终端及存储介质,涉及控制和信息技术领域。本发明通过智能体的状态信息判断当前时刻是否为事件触发时刻,只有在事件触发时刻才会使智能体与邻居智能体之间进行通信。通过事件触发机制可以有效地控制分布式优化过程中的通信成本。解决了现有技术中分布式优化算法采用周期性通信机制,智能体在每次迭代时均要与邻居智能体进行通信,导致通信成本较高的问题。
Description
技术领域
本发明涉及控制和信息技术领域,尤其涉及的是多智能体系统分布式优化方法、装置、终端及存储介质。
背景技术
在过去的几十年中,多智能体系统协同优化因其在传感器网络、机器学习、协作定位和资源调度等领域的潜在应用而成为热门的研究领域。一般而言,分布式优化问题涉及到一个由通信网络互联的多智能体系统,所有智能体的目标是合作寻求全局目标函数的最优解。目前许多分布式优化算法,例如存在连续时间、离散时间类型算法,但是这些算法仍存在一定的不足,具体介绍如下:
(1)现有的分布式优化算法很少考虑智能体的动力学模型。在一些实际应用中,如多机器人目标聚集任务、多刚体编队控制、分布式模型预测控制等,这些分布式优化问题通常涉及智能体的动态模型。因此,有必要考虑具有动态约束的多智能体系统的分布式优化问题;
(2)大多数存在的分布式算法均使用周期性通信机制,即智能体在每次迭代时均要与邻居智能体进行通信。如果采样时间或迭代步长较小,周期性通信的算法会导致较高的通信成本。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供多智能体系统分布式优化方法、装置、终端及存储介质,旨在解决现有技术中分布式优化算法采用周期性通信机制,智能体在每次迭代时均要与邻居智能体进行通信,导致通信成本较高的问题。
本发明解决问题所采用的技术方案如下:
第一方面,本发明实施例提供一种多智能体系统分布式优化方法,所述方法包括:
针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息,并判断所述状态信息是否收敛至优化问题的最优解;
若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;
若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;
根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;
继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解。
在一种实施方式中,所述获取该智能体当前时刻的状态信息,包括:
获取该智能体的动力学模型;
通过所述动力学模型获取该智能体当前时刻的所述状态信息。
在一种实施方式中,所述动力学模型用于:
根据该智能体当前时刻的所述控制输入信息、前一时刻的所述状态信息以及系统采样步长,计算该智能体当前时刻的所述状态信息。
在一种实施方式中,所述优化问题为将所述多智能体系统对应的全局代价函数收敛至最小值,且各所述智能体的所述状态信息相等;所述全局代价函数的构建方法包括:
获取各所述智能体分别对应的局部代价函数,其中,各所述智能体分别对应不同的集合约束;
根据各所述局部代价函数确定所述全局代价函数。
在一种实施方式中,所述通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻,包括:
通过前一时刻和当前时刻分别对应的所述状态信息,计算状态变化值;
若所述状态变化值大于预设变化阈值,则判断当前时刻为所述事件触发时刻。
在一种实施方式中,所述判断所述状态信息是否收敛至优化问题的最优解,包括:
根据前一时刻和当前时刻分别对应的所述状态信息,计算迭代误差;
若所述迭代误差小于预设阈值,则判断已收敛至所述优化问题的最优解。
在一种实施方式中,所述获取邻居状态信息,包括:
获取预先建立的所述多智能体系统对应的网络通信拓扑结构;
根据所述网络通信拓扑结构确定该智能体对应的邻居智能体;
获取所述邻居智能体的所述状态信息,得到所述邻居状态信息。
第二方面,本发明实施例还提供一种多智能体系统分布式优化装置,所述装置包括:
状态判断模块,用于针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息,并判断所述状态信息是否收敛至优化问题的最优解;
触发判断模块,用于若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;
控制输入模块,用于若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;
状态更新模块,用于根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;
迭代优化模块,用于继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解。
第三方面,本发明实施例还提供一种终端,所述终端包括有存储器和一个以上处理器;所述存储器存储有一个以上的程序;所述程序包含用于执行如上述任一所述的多智能体系统分布式优化方法的指令;所述处理器用于执行所述程序。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有多条指令,所述指令适用于由处理器加载并执行,以实现上述任一所述的多智能体系统分布式优化方法的步骤。
本发明的有益效果:本发明实施例通过智能体的状态信息判断当前时刻是否为事件触发时刻,只有在事件触发时刻才会使智能体与邻居智能体之间进行通信。通过事件触发机制可以有效地控制分布式优化过程中的通信成本。解决了现有技术中分布式优化算法采用周期性通信机制,智能体在每次迭代时均要与邻居智能体进行通信,导致通信成本较高的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多智能体系统分布式优化方法的流程示意图。
图2是本发明实施例提供的6个无人车组成的网络拓扑结构图。
图3是本发明实施例提供的每个无人车的状态轨迹示意图。
图4是本发明实施例提供的在事件触发通讯和周期采样通讯条件下,全局目标函数误差的收敛示意图。
图5是本发明实施例提供的变量的收敛轨迹示意图。
图6是本发明实施例提供的变量的收敛轨迹示意图。
图7是本发明实施例提供的多智能体系统分布式优化装置的模块示意图。
图8是本发明实施例提供的终端的原理框图。
具体实施方式
本发明公开了多智能体系统分布式优化方法、装置、终端及存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。 应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
针对现有技术的上述缺陷,本发明提供一种多智能体系统分布式优化方法,所述方法包括:针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息,并判断所述状态信息是否收敛至优化问题的最优解;若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解。本发明通过智能体的状态信息判断当前时刻是否为事件触发时刻,只有在事件触发时刻才会使智能体与邻居智能体之间进行通信。通过事件触发机制可以有效地控制分布式优化过程中的通信成本。解决了现有技术中分布式优化算法采用周期性通信机制,智能体在每次迭代时均要与邻居智能体进行通信,导致通信成本较高的问题。
如图1所示,所述方法包括:
步骤S100、针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息,并判断所述状态信息是否收敛至优化问题的最优解;
步骤S200、若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;
步骤S300、若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;
步骤S400、根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;
步骤S500、继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解。
具体地,智能体是一种具有自主决策能力的智能系统,可以通过感知环境、学习知识和执行动作来实现特定的任务,多智能体系统则是一个由通信网络互联的多个智能体组成的系统。本实施例的目标是优化多智能体系统中各智能体的状态,基于该目标构建优化问题并进行求解。智能体的优化过程是一个迭代过程,针对每一智能体,需要不断地获取该智能体当前时刻的位置和速度得到该智能体当前时刻的状态信息,分析当前状态是否收敛到优化问题的最优解,若未收敛至最优解,则表示该智能体还需要继续迭代优化。现有技术中,每轮迭代时智能体都需要与邻居智能体进行通讯交互。本实施例为了减少迭代时的通讯成本,根据智能体的状态设定了事件触发条件,通过智能体相邻两个时刻的状态信息判断是否满足事件触发条件。只有当满足事件触发条件时,当前时刻才会作为事件触发时刻,触发该智能体与邻居智能体之间的通讯交互。在事件触发时刻,该智能体会参考自身和邻居智能体的状态信息共同计算出下一时刻的控制输入信息;在非事件触发时刻,该智能体只会参考自身的状态信息计算出下一时刻的控制输入信息。再通过控制输入信息进行下一轮的优化迭代,循环往复直至该智能体当前时刻的状态信息收敛至优化问题的最优解。
在一种实现方式中,所述获取该智能体当前时刻的状态信息,包括:
获取该智能体的动力学模型;
通过所述动力学模型获取该智能体当前时刻的所述状态信息。
具体地,本实施例预先构建了智能体的动力学模型,动力学模型即为智能体的动态模型,用于反映智能体在执行动作时所遵循的规律和原理。通过动力学模型可以快速计算智能体在不同时刻的位置和速度,从而得到智能体在不同时刻的状态信息。
在一种实现方式中,所述动力学模型用于:
根据该智能体当前时刻的所述控制输入信息、前一时刻的所述状态信息以及系统采样步长,计算该智能体当前时刻的所述状态信息。
具体地,动力学模型的输入为当前时刻的控制输入信息和前一时刻的状态信息,并基于预设的系统采样步长输出智能体当前时刻的状态信息。
举例说明,建立智能体的动力学模型,动力学模型的计算公式组(1)如下所示:
,
;
其中,,/>表示智能体/>的状态信息,/>是m维的实数空间,/>是智能体/>的控制输入,/>是系统的采样步长,k是迭代次数。
在一种实现方式中,所述优化问题为将所述多智能体系统对应的全局代价函数收敛至最小值,且各所述智能体的所述状态信息相等;所述全局代价函数的构建方法包括:
获取各所述智能体分别对应的局部代价函数,其中,各所述智能体分别对应不同的集合约束;
根据各所述局部代价函数确定所述全局代价函数。
具体地,每个智能体都拥有一个局部目标函数和互不相同的集合约束。所有智能体的目标是合作寻求全局目标函数的最优解,全局目标函数由所有局部目标函数求和而成。优化问题是为了将所有智能体的系统状态最终收敛到全局代价函数的最优解。
举例说明,本实施例中基于动力学模型的分布式优化问题描述为计算公式组(2):
,
;
本实施例考虑每个智能体都有一个局部代价函数/>和互不相同的集合约束/>,优化目标是使所有智能体的所有状态/>最终收敛到上述优化问题的最优解。
在一种实现方式中,所述通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻,包括:
通过前一时刻和当前时刻分别对应的所述状态信息,计算状态变化值;
若所述状态变化值大于预设变化阈值,则判断当前时刻为所述事件触发时刻。
具体地,本实施例基于事件触发机制实现智能体之间的通信交互。当满足事件触发条件时,智能体将与邻居智能体启动通信。否则它将在没有任何通信的情况下继续计算。本实施例设定事件触发条件为智能体相邻两次迭代时的状态变化值大于预设变化阈值。此时表示智能体的自身状态发生了较大波动,需要与邻居智能体进行通信,获取邻居智能体的状态信息。
举例说明,本实施例基于事件触发机制设计了一个分布式协同优化算法,具体表达为计算公式(3):
,
其中,,/>和/>是正常数,/>表示在集合/>的投影,/>是辅助变量,其动态方程对应的计算公式(4)如下所示:
;
从上述算法可以看出,每个智能体仅需要获得邻居智能体/>的状态信息。因此上述提出的算法可以通过分布式的方式运行。另外,每个智能体在每个迭代k中必须与邻居进行交互,频繁的交互将导致较高的通信成本。为了解决这个问题,本实施例引入一个事件触发机制,每个智能体在线上根据本地条件来自主决定其事件触发时刻。这意味着每个智能体根据本地条件决定何时需要与邻居进行通信。当满足触发条件时,智能体将与其邻居智能体启动通信。否则,它将在没有任何通信的情况下继续计算。
本实施例设计的事件触发更新条件如下所示:
记作为智能体/>的事件触发时刻,其中/>,/>,/>和/>分别表示非负整数集和正整数集。/>和/>记作为智能体/>状态变量在最近事件触发时刻对应的状态值,具体表示为计算公式组(5):
;
针对每个智能体,设计如下事件触发更新条件,具体表示为计算公式(6):
;
其中是一个正常数。
本实施例设计的基于事件触发机制的分布式协同控制协议,具体表示为计算公式组(7):
,
。
在一种实现方式中,所述判断所述状态信息是否收敛至优化问题的最优解,包括:
根据前一时刻和当前时刻分别对应的所述状态信息,计算迭代误差;
若所述迭代误差小于预设阈值,则判断已收敛至所述优化问题的最优解。
具体地,本实施例中迭代优化的停止条件是检测到该智能体相邻两次迭代值几乎相等,表示该智能体的状态信息已经收敛到优化问题的最优解。
举例说明,将与计算控制输入信息相关的计算公式组(7)带入与系统相关的计算公式组(1)中,得到闭环的优化迭代算法,具体表示为计算公式组(8):
,
,
;
对于任意设定的多智能体系统的初始值信息,运行优化迭代算法,即计算公式组(8),得到k+1步的系统状态。根据事件触发条件判断智能体是否需要将k+1步的状态信息传播给邻居智能体,即是否需要与邻居智能体进行通讯。
令k=k+1, 重复执行运行优化迭代算法得到k+1步的系统状态,根据事件触发条件判断智能体是否需要将k+1步的状态信息传播给邻居智能体的步骤,直至迭代误差小于预设阈值(例如很小的常数),表示状态信息/>的相邻两次迭代值几乎相等,状态信息/>已经收敛到优化问题,即计算公式组(2)的最优解。
在一种实现方式中,所述获取邻居状态信息,包括:
获取预先建立的所述多智能体系统对应的网络通信拓扑结构;
根据所述网络通信拓扑结构确定该智能体对应的邻居智能体;
获取所述邻居智能体的所述状态信息,得到所述邻居状态信息。
具体地,为了识别每一智能体的邻居智能体,本实施例预先构建了多智能体系统的网络通信拓扑结构。网络通信拓扑结构可以反映出不同智能体之间的位置、通讯关系,因此可以基于网络通信结构确定当前智能体的邻居智能体,并在事件触发时刻使当前智能体与邻居智能体进行状态交互,从而使当前智能体及时获取到邻居状态信息。
举例说明,为了实现建立多智能体系统的网络通信拓扑结构,本实施例利用加权无向图来表征多智能体系统的网络通信拓扑关系。其中/>表示节点集合,/>表示边集合。/>表示图G的邻接矩阵,其中/>,如果边,否则/>。图G的拉普拉斯矩阵定义为/>,其中/>和/>。
在一种实现方式中,本实施例还提供一种系统采样步长的选取方法,具体表示为计算公式组(9):
,
其中,,/>表示局部代价函数/>的李普希兹常数,/>表示拉普拉斯矩阵L的最大特征值。
具体地,本实施例在所选系统采样步长满足给定条件时,能够保证每个智能体的状态精确收敛到最优解。另外,针对一般凸目标函数的情况,本实施例也能够实现O(1/k)收敛速度。
为了证明本发明方法的技术效果,本实施例以一个由6个无人车组成的多智能体系统进行试验,无人车动力学模型可以利用二阶系统进行简化表征,目标是根据5个确定位置的参考瞄点来协同探索出未知的静态声源。每个无人车仅能获取部分瞄点信息而不是全部瞄点信息。定义,其中/>,如果智能体/>能够获得关于瞄点/>的距离信息,否则/>。每个智能体/>的局部代价函数可以描述为计算公式(10):
;
这意味着每个智能体尽可能靠近他能够获取位置信息的锚点。此外,每个智能体对未知声源所在的区域有一定的先验知识,具体表达为计算公式(11):
;
这样未知声源的协同定位问题转化为分布式求解下面的受限优化问题。
六个无人车的网络通讯拓扑结果如图2所示,参考瞄点的位置约束集合/>的参数,/>设置情况如下所示:
;
;
;
。
图3显示了所有无人车的状态均收敛到全局代价函数的最优解,其对应的全局代价函数的最优值为/>。图4给出了分布式控制算法在事件触发通讯和周期采样通讯的条件下,全局目标函数误差/>关于通信次数/>的收敛结果。从图4中可以看到基于事件触发的优化迭代算法,即计算公式组(8)保证了目标函数误差/>收敛到零,并且通过事件触发机制显著减少了总通信频率。特别地,表1给出了固定周期通讯和事件触发通讯两种通讯机制在目标函数误差达到/>水平需要的通讯次数。从表1可以发现,和固定周期通讯方式相比,本发明所提出的多智能体系统分布式优化在两个不同阈值条件下分别能够减少78.89% 和72.92%通讯频次。此外,图5和图6还给出了变量/>和/>的收敛性结果。
表1:分布式算法在目标函数误差达到的通讯次数
本发明的优点在于:
1、本发明方法能够适用于一般的二阶积分型多智能体系统,可以用来描述许多实际的物理系统,例如运动系统和机械系统。
2、本发明方法还另外给出了固定步长参数的选取准则。在所选固定步长满足给定条件时,本发明方法所提出的多智能体系统分布式优化方法能够保证每个智能体的状态精确收敛到最优解。另外,针对一般凸目标函数的情况,本发明方法也能够实现O(1/k)收敛速度。
3、本发明方法所提出的多智能体系统分布式优化方法可以有效地降低通信成本,并且不会牺牲收敛速度。
基于上述实施例,本发明还提供了一种多智能体系统分布式优化装置,如图7所示,所述装置包括:
状态判断模块01,用于针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息,并判断所述状态信息是否收敛至优化问题的最优解;
触发判断模块02,用于若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;
控制输入模块03,用于若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;
状态更新模块04,用于根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;
迭代优化模块05,用于继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解。
基于上述实施例,本发明还提供了一种终端,其原理框图可以如图7所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中,该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现多智能体系统分布式优化方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图8中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一种实现方式中,所述终端的存储器中存储有一个以上的程序,且经配置以由一个以上处理器执行所述一个以上程序包含用于进行多智能体系统分布式优化方法的指令。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了多智能体系统分布式优化方法、装置、终端及存储介质,所述方法包括:针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息,并判断所述状态信息是否收敛至优化问题的最优解;若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解。本发明通过智能体的状态信息判断当前时刻是否为事件触发时刻,只有在事件触发时刻才会使智能体与邻居智能体之间进行通信。通过事件触发机制可以有效地控制分布式优化过程中的通信成本。解决了现有技术中分布式优化算法采用周期性通信机制,智能体在每次迭代时均要与邻居智能体进行通信,导致通信成本较高的问题。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述方法包括:
针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息;判断所述状态信息是否收敛至优化问题的最优解;
若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;
若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;
根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;
继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解;
所述通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻,包括:
将记作为智能体/>的事件触发时刻, 其中/>,/>,/>和/>分别表示非负整数集和正整数集;/>和/>记作为智能体/>状态变量在最近事件触发时刻对应的状态值:
;
针对每个智能体,事件触发更新条件为:
;
其中,是一个正常数;
基于事件触发机制的分布式协同控制协议为:
,
;
其中,是智能体/>的控制输入;/>是系统的采样步长;/>是迭代次数;/>表示智能体/>的状态信息;/>是辅助变量,
基于分布式协同控制协议的优化迭代算法为:
,
,
;
其中,表示智能体/>的状态信息;/>表示图G的邻接矩阵,图G用于表征所述多智能体系统的网络通信拓扑关系;
对于任意设定的所述多智能体系统的初始值信息,运行所述优化迭代算法得到k+1步的系统状态,根据事件触发机制确定智能体是否需要将k+1步的状态信息传播它的邻居智能体;
令k=k+1, 重复执行运行所述优化迭代算法得到k+1步的系统状态,根据事件触发机制确定智能体是否需要将k+1步的状态信息传播它的邻居智能体的步骤,直至迭代误差小于预设阈值,得到优化问题的最优解。
2.根据权利要求1所述的基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述获取该智能体当前时刻的状态信息,包括:
获取该智能体的动力学模型;
通过所述动力学模型获取该智能体当前时刻的所述状态信息。
3.根据权利要求2所述的基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述动力学模型用于:
根据该智能体当前时刻的所述控制输入信息、前一时刻的所述状态信息以及系统采样步长,计算该智能体当前时刻的所述状态信息。
4.根据权利要求1所述的基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述优化问题为将所述多智能体系统对应的全局代价函数收敛至最小值,且各所述智能体的所述状态信息相等;所述全局代价函数的构建方法包括:
获取各所述智能体分别对应的局部代价函数,其中,各所述智能体分别对应不同的集合约束;
根据各所述局部代价函数确定所述全局代价函数。
5.根据权利要求1所述的基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻,包括:
通过前一时刻和当前时刻分别对应的所述状态信息,计算状态变化值;
若所述状态变化值大于预设变化阈值,则判断当前时刻为所述事件触发时刻。
6.根据权利要求1所述的基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述判断所述状态信息是否收敛至优化问题的最优解,包括:
根据前一时刻和当前时刻分别对应的所述状态信息,计算迭代误差;
若所述迭代误差小于预设阈值,则判断已收敛至所述优化问题的最优解。
7.根据权利要求1所述的基于事件触发通信的多智能体系统分布式优化方法,其特征在于,所述获取邻居状态信息,包括:
获取预先建立的所述多智能体系统对应的网络通信拓扑结构;
根据所述网络通信拓扑结构确定该智能体对应的邻居智能体;
获取所述邻居智能体的所述状态信息,得到所述邻居状态信息。
8.一种基于事件触发通信的多智能体系统分布式优化装置,其特征在于,所述装置包括:
状态判断模块,用于针对多智能体系统中的每一智能体,获取该智能体当前时刻的状态信息;判断所述状态信息是否收敛至优化问题的最优解;
触发判断模块,用于若未收敛至所述优化问题的最优解,则通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻;
控制输入模块,用于若是,则获取邻居状态信息,根据当前时刻的所述状态信息和所述邻居状态信息确定下一时刻的控制输入信息;若否,则根据当前时刻的所述状态信息确定所述控制输入信息;
状态更新模块,用于根据当前时刻的所述状态信息和所述控制输入信息确定该智能体下一时刻的所述状态信息;
迭代优化模块,用于继续执行判断所述状态信息是否收敛至优化问题的最优解的步骤,直至得到最优解;
所述通过前一时刻和当前时刻分别对应的所述状态信息判断当前时刻是否为事件触发时刻,包括:
将记作为智能体/>的事件触发时刻, 其中/>,/>,/>和/>分别表示非负整数集和正整数集;/>和/>记作为智能体/>状态变量在最近事件触发时刻对应的状态值:
;
针对每个智能体,事件触发更新条件为:
;
其中,是一个正常数;
基于事件触发机制的分布式协同控制协议为:
,
;
其中,是智能体/>的控制输入;/>是系统的采样步长;/>是迭代次数;/>表示智能体/>的状态信息;/>是辅助变量,
基于分布式协同控制协议的优化迭代算法为:
,
,
;
其中,表示智能体/>的状态信息;/>表示图G的邻接矩阵,图G用于表征所述多智能体系统的网络通信拓扑关系;
对于任意设定的所述多智能体系统的初始值信息,运行所述优化迭代算法得到k+1步的系统状态,根据事件触发机制确定智能体是否需要将k+1步的状态信息传播它的邻居智能体;
令k=k+1, 重复执行运行所述优化迭代算法得到k+1步的系统状态,根据事件触发机制确定智能体是否需要将k+1步的状态信息传播它的邻居智能体的步骤,直至迭代误差小于预设阈值,得到优化问题的最优解。
9.一种终端,其特征在于,所述终端包括有存储器和一个以上处理器;所述存储器存储有一个以上的程序;所述程序包含用于执行如权利要求1-7中任一所述的基于事件触发通信的多智能体系统分布式优化方法的指令;所述处理器用于执行所述程序。
10.一种计算机可读存储介质,其上存储有多条指令,其特征在于,所述指令适用于由处理器加载并执行,以实现上述权利要求1-7任一所述的基于事件触发通信的多智能体系统分布式优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311599125.6A CN117319169B (zh) | 2023-11-28 | 2023-11-28 | 多智能体系统分布式优化方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311599125.6A CN117319169B (zh) | 2023-11-28 | 2023-11-28 | 多智能体系统分布式优化方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117319169A CN117319169A (zh) | 2023-12-29 |
CN117319169B true CN117319169B (zh) | 2024-02-27 |
Family
ID=89260682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311599125.6A Active CN117319169B (zh) | 2023-11-28 | 2023-11-28 | 多智能体系统分布式优化方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117319169B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110858718A (zh) * | 2018-08-22 | 2020-03-03 | 郑州大学 | 考虑经济性的交流微电网分布式事件驱动的频率控制方法 |
CN115327901A (zh) * | 2022-08-05 | 2022-11-11 | 重庆大学 | 异步框架下非仿射多智能体动态事件触发跟踪控制方法 |
CN115333956A (zh) * | 2022-10-17 | 2022-11-11 | 南京信息工程大学 | 一种多联盟非合作博弈的多智能体状态控制方法 |
CN116702925A (zh) * | 2023-06-21 | 2023-09-05 | 重庆大学 | 一种基于事件触发机制的分布式随机梯度优化方法及系统 |
-
2023
- 2023-11-28 CN CN202311599125.6A patent/CN117319169B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110858718A (zh) * | 2018-08-22 | 2020-03-03 | 郑州大学 | 考虑经济性的交流微电网分布式事件驱动的频率控制方法 |
CN115327901A (zh) * | 2022-08-05 | 2022-11-11 | 重庆大学 | 异步框架下非仿射多智能体动态事件触发跟踪控制方法 |
CN115333956A (zh) * | 2022-10-17 | 2022-11-11 | 南京信息工程大学 | 一种多联盟非合作博弈的多智能体状态控制方法 |
CN116702925A (zh) * | 2023-06-21 | 2023-09-05 | 重庆大学 | 一种基于事件触发机制的分布式随机梯度优化方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于事件触发的微电网经济分配一致性算法;宋超等;中国科学: 信息科学;第48卷(第10期);摘要、第2-5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN117319169A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6359182B2 (ja) | 機械の動作を制御するための方法およびシステム | |
Boedecker et al. | Approximate real-time optimal control based on sparse gaussian process models | |
Nguyen-Tuong et al. | Local gaussian process regression for real-time model-based robot control | |
JP2016100009A (ja) | 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム | |
CN109932905B (zh) | 一种基于非策略的观测器状态反馈的优化控制方法 | |
Nguyen-Tuong et al. | Learning robot dynamics for computed torque control using local Gaussian processes regression | |
Zhou et al. | Cubic-RBF-ARX modeling and model-based optimal setting control in head and tail stages of cut tobacco drying process | |
Zhang et al. | Q-learning-based model predictive control for nonlinear continuous-time systems | |
CN111830822A (zh) | 配置与环境交互的系统 | |
Hong et al. | On the sensitivity of reward inference to misspecified human models | |
JP2023517142A (ja) | データ駆動型モデル適応を用いる制御のための装置および方法 | |
Zhang et al. | Nonlinear model predictive control based on piecewise linear Hammerstein models | |
CN117319169B (zh) | 多智能体系统分布式优化方法、装置、终端及存储介质 | |
Pozzi et al. | A deep learning-based predictive controller for the optimal charging of a lithium-ion cell with non-measurable states | |
Zhong et al. | Adaptive anti-noise least-squares algorithm for parameter identification of unmanned marine vehicles: Theory, simulation, and experiment | |
KR102531646B1 (ko) | 지연된 보상에 기초하여 공조 장치를 제어하기 위한 방법 | |
Zhu et al. | A data-based online reinforcement learning algorithm satisfying probably approximately correct principle | |
Antão et al. | Model-based control using interval type-2 fuzzy logic systems | |
Parsa et al. | A hierarchical Bayesian linear regression model with local features for stochastic dynamics approximation | |
Palunko et al. | Learning near‐optimal broadcasting intervals in decentralized multi‐agent systems using online least‐square policy iteration | |
CN113910221B (zh) | 一种机械臂自主运动规划方法、装置、设备及存储介质 | |
US20220012585A1 (en) | Deep reinforcement learning with short-term adjustments | |
Khanduja et al. | Hybrid state of matter search algorithm and its application to PID controller design for position control of ball balancer system | |
Das et al. | DroneDiffusion: Robust Quadrotor Dynamics Learning with Diffusion Models | |
Chen et al. | Robust large-scale online kernel learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |