CN112699594A - 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 - Google Patents
多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112699594A CN112699594A CN202011036515.9A CN202011036515A CN112699594A CN 112699594 A CN112699594 A CN 112699594A CN 202011036515 A CN202011036515 A CN 202011036515A CN 112699594 A CN112699594 A CN 112699594A
- Authority
- CN
- China
- Prior art keywords
- value
- determining
- binary
- neural network
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 230000002860 competitive effect Effects 0.000 claims abstract description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 166
- 238000013528 artificial neural network Methods 0.000 claims description 79
- 230000006870 function Effects 0.000 claims description 78
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000009795 derivation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Feedback Control In General (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种多智能体系统的二分共识控制值确定方法、装置、设备及存储介质,所述二分共识控制值确定方法包括:确定系统状态方程以及多智能体系统中代理节点之间的权值邻接矩阵,与代理节点之间的合作关系与竞争关系相关;按照预设的计算规则依次确定相邻节点二分共识控制误差、系统值函数以及二分共识控制函数;按照预设的更新规则更新系统值以及二分共识控制值,直至满足迭代结束条件,并确定最优二分共识控制值。本发明提供的二分共识控制值确定方法,引入了与代理节点之间关系相关的权值邻接矩阵,充分考虑了代理节点之间竞争关系,有效解决了现有技术没有充分考虑、研究竞争关系带来的不确定性的技术问题。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种多智能体系统的二分共识控制 值确定方法、装置、设备及存储介质。
背景技术
近年来,多智能体系统共识在工程中得到广泛应用,使之成为非常热门的 研究方向,例如分布式最优共识控制,跟踪共识控制等。多智能体系统是在同 一个环境中由多个信息交互的智能体组成的系统,可以解决单智能体系统无法 解决的问题,应用范围更广泛。
而在现有的针对多智能体系统的研究中,都是仅仅考虑到智能体与智能体 之间存在的合作关系,并在此基础上研究其共识控制,但在实际应用中,有限 的资源必然会导致多智能体系统中代理节点之间产生竞争作用,竞争作用会带 来负面的影响,导致系统的不稳定性,而现有技术没有充分考虑、研究竞争关 系带来的不确定性,导致最终确定出的共识控制实际效果不够理想。
发明内容
本发明实施例的目的在于提供一种多智能体系统的二分共识控制值确定方 法,旨在解决现有的多智能体系统中共识控制技术还存在的没有充分考虑、研 究竞争关系带来的不确定性,导致最终确定出的共识控制实际效果不够理想的 技术问题。
本发明实施例是这样实现的,一种多智能体系统的二分共识控制值确定方 法,包括:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权 值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节 点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的 关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相 邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函 数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及 二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定 为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误 差、系统值函数以及二分共识控制函数。
本发明实施例的另一目的在于提供一种多智能体系统的二分共识控制值确 定装置,包括:
系统状态方程确定单元,用于确定多智能体系统的系统状态方程以及多智 能体系统中代理节点之间的权值邻接矩阵;所述多智能体系统由一个领导者代 理节点以及多个跟随者代理节点组成;所述权值邻接矩阵与代理节点之间的关 系相关;所述代理节点之间的关系包括合作关系与竞争关系;
二分共识控制误差确定单元,用于根据所述系统状态方程、所述权值邻接 矩阵并按照预设的计算规则确定相邻节点二分共识控制误差;
系统值函数与二分共识控制函数确定单元,用于根据所述相邻节点二分共 识控制误差确定系统值函数以及二分共识控制函数;
迭代优化单元,用于确定初始化的二分共识控制值并按照预设的更新规则 依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前 二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相邻 节点二分共识控制误差、系统值函数以及二分共识控制函数。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器, 所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得 所述处理器执行如上述所述多智能体系统的二分共识控制值确定方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机 可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所 述处理器执行如上述所述多智能体系统的二分共识控制值确定方法的步骤。
本发明实施例提供的一种多智能体系统的二分共识控制值确定方法,通过 构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的系 统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接矩 阵,使得权值邻接矩阵包含了代理节点之间的合作关系与竞争关系,同时配合 后续数据处理过程:按照预设的计算规则依次计算相邻节点二分共识控制误差 以及系统值函数和二分共识控制函数,然后按照预设的迭代更新规则对系统值 以及二分共识控制值进行迭代更新,直至满足预设的迭代结束条件,最终所确 定的当前二分共识控制值考虑到了代理节点之间竞争关系,有效解决了现有技 术没有充分考虑、研究竞争关系带来的不确定性的技术问题。此外,本发明还 进一步具体公开了适用于考虑到竞争关系的多智能体系统中二分共识控制值的 计算规则以及迭代更新规则。
附图说明
图1为本发明实施例提供的一种多智能体系统的二分共识控制值确定方法 的步骤流程图;
图2为本发明实施例提供的另一种多智能体系统的二分共识控制值确定方 法的步骤流程图;
图3为本发明实施例提供的一种更新二分共识控制值的步骤流程图;
图4为本发明实施例提供的另一种更新二分共识控制值的步骤流程图;
图5为本发明实施例提供的实验过程中各代理节点的参数随迭代次数的变 化规律。
图6为本发明实施例提供的一种多智能体系统的二分共识控制值确定装置 的结构示意图;
图7为本发明实施例提供的一种执行二分共识控制值确定方法的计算机装 置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描 述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于 将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下, 可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx 脚本。
本发明为解决现有的多智能体系统中因没有考虑到代理节点之间的竞争作 用,从而导致最终确定出的共识控制实际效果不够理想的技术问题,利用有向 图构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的 系统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接 矩阵,使得权值邻接矩阵同时包含了代理节点之间的合作关系与竞争关系,同 时配合后续的数据处理过程,使得最终确定的当前二分共识控制值考虑到了代 理节点之间竞争关系,从而解决了现有技术没有充分考虑、研究竞争关系带来 的不确定性的技术问题。此外,本发明还进一步具体提供了适用于考虑了竞争 关系的多智能体系统的二分共识控制值确定方法中后续数据处理过程的具体处 理规则,详述如下。
如图1所示,为本发明实施例提供的一种多智能体系统的二分共识控制值 确定方法的步骤流程图,具体包括以下步骤:
步骤S102,确定多智能体系统的系统状态方程以及多智能体系统中代理节 点之间的权值邻接矩阵。
在本发明实施例中,将多智能体系统建模为合作竞争网络G={V,E,C},包含 N个跟随者代理节点和一个领导者代理节点,其中V={v0,v1,...,vN}是一个非空的有 限点集,每一个值代表一个代理节点,v0为领导者代理节点,其他的为跟随者 代理节点。是一个非空的有限边集,指从vi到vj有 信息流,即二者能够通信。
在本发明实施例中,多智能体系统的系统状态方程具体可描述为:
xi(k+1)=Axi(k)+Biui(k-hi),i∈1,2,…,N…
其中,xi(k)、ui(k)分别表示多智能体系统中代理节点的状态和控制力,系 统的状态矩阵用A和Bi表示,hi表示有界、时变的时延,领导者代理节点的动力 学模型为:
x0(k+1)=Ax0(k)
在本发明实施例中,C=[cij]表示代理节点之间的权值邻接矩阵,表示代理与 代理之间的相邻关系,其中cij>0表示存在合作关系,cij<0表示存在着竞争关系, 否则cij=0。
步骤S104,根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算 规则确定相邻节点二分共识控制误差。
在本发明实施例中,设为代理节点vi的邻域集,并且定义 图G的拉普拉斯矩阵为L=D-C,其中为入度矩阵,然后定义 一个交流矩阵g=diag{g1,…,gN},其中gi>0代表跟随者代理vi能够收到领导者的 信息,否则gi=0。
在本发明实施例中,则对于每一个跟随者代理接,其相邻节点二分共识误 差为:
结合上述公式与系统的系统状态方程可以进一步得到相邻节点二分共识控 制误差的动力学模型:
步骤S106,根据所述相邻节点二分共识控制误差确定系统值函数以及二分 共识控制函数。
在本发明实施例中,基于最优控制的相关原理,结合前述提供的具体公式, 可以得到系统值函数具体为:
相应的二分共识控制函数为:
作为另一个可行实施例,如果需要利用actor-critic神经网络来实现对二分共识控制值的迭代,则系统值函数以及二分共识控制函数是基于actor-critic神经网 络确定的,此时系统值函数以及二分共识控制函数的计算公式具体如图4所示。
步骤S108,确定初始化的二分共识控制值并按照预设的更新规则依次更新 系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识 控制值确定为最优二分共识控制值。
在本发明实施例中,在给定系统值函数以及二分共识控制函数后,可以利 用迭代优化思想不断对二分共识控制值进行迭代更新,直至满足预设的迭代结 束条件,则此时将当前二分共识控制值确定为最优二分共识控制值,从而实现 对多智能体的稳定控制。
在本发明实施例中,对二分共识控制值进行迭代更新的规则有多种,其中 可以利用actor-critic神经网络来实现对二分共识控制值的迭代,具体可以参阅如 图3以及图4及其解释说明。
本发明实施例提供的一种多智能体系统的二分共识控制值确定方法,通过 构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的系 统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接矩 阵,使得权值邻接矩阵包含了代理节点之间的合作关系与竞争关系,同时配合 后续数据处理过程:按照预设的计算规则依次计算相邻节点二分共识控制误差 以及系统值函数和二分共识控制函数,然后按照预设的迭代更新规则对系统值 以及二分共识控制值进行迭代更新,直至满足预设的迭代结束条件,最终所确 定的当前二分共识控制值考虑到了代理节点之间竞争关系,有效解决了现有技 术没有充分考虑、研究竞争关系带来的不确定性的技术问题。
如图2所示,为本发明实施例提供的另一种多智能体系统的二分共识控制 值确定方法的步骤流程图,详述如下。
在本发明实施例中,考虑到多智能体系统当中存在的时延问题,本发明进 一步提供了一种用于解决多智能体系统时延问题的二分共识控制值确定方法, 与图1所示出的一种多智能体系统的二分共识控制值确定方法的步骤流程图相 比,在所述步骤S104之后,还包括:
步骤S202,根据预设的变量对所述相邻节点二分共识控制误差进行时延消 除处理,生成无时延状态下多智能体系统的相邻节点二分共识控制误差。
在本发明实施例中,基于模型简化法的原理,引入变量:
此时,带时延的多智能体系统就可以转化为无时延的形式
基于前述得到相邻节点二分共识控制误差的动力学模型的原理,将上述公 式与系统的系统状态方程可以进一步得到无时延多智能体系统的相邻节点二分 共识控制误差的动力学模型:
在本发明实施例中,现有技术在处理多智能体系统中存在的时延,通常是 利用事件触发机制或者线性不等式进行理论分析,推导过程复杂且算法设计困 难,效率低。本设计利用模型简化法的思想,采用上述计算公式,推导过程简 单,并且无论是定时延,亦或是时变时延,经过转换后得到的无时延多智能体 系统都能够快速、简便的实现、控制。
如图3所示,为本发明实施例提供的一种更新二分共识控制值的步骤流程 图,具体包括以下步骤:
步骤S302,确定初始化的二分共识控制值。
步骤S304,根据二分共识控制值以及所述系统值函数更新系统值。
基于前述提供的系统值函数:
步骤S306,根据更新后的系统值以及二分共识控制函数更新二分共识控制 值。
在本发明实施例中,进一步的基于前述提供的二分共识控制函数为:
将更新后的系统值代入,可以得到更新后的二分共识控制值。
步骤S308,判断更新后的系统值与更新前的系统值之间的差值是否小于预 设的收敛阈值。当判断否时,返回至所述步骤S304;当判断是时,将更新后的 二分共识控制值确定为最优二分共识控制值。
在本发明实施例中,在按照预设的计算公式依次对系统值和二分共识控制 值进行更新后,需要判断是否满足迭代完成条件,本发明是以更新后的系统值 与更新前的系统值之间的差值作为判断是否满足迭代完成条件的参数,实际上, 也可以采用其他可行的方式,例如判断迭代次数是否达到预设的次数,本发明 对具体的迭代完成条件不做具体的限制。
在本发明实施例中,具体的,定义迭代完成条件:
也就是判断更新后的系统值与更新前的系统值之间的差值是否小于预设的 收敛阈值ω,如果不满足,则表明迭代优化过程未完成,需要重新返回至步骤 S304继续循环迭代,如果满足,表明迭代优化过程完成,此时将当前最新的二 分共识控制值确定为最优二分共识控制值即可。作为优选,所述收敛阈值ω通 常设置为10-5。
步骤S310,将更新后的二分共识控制值确定为最优二分共识控制值。
本发明实施例提供了一种具体的对二分共识控制值进行优化的过程,从而 确定了最优二分共识控制值。
如图4所示,为本发明实施例提供的另一种更新二分共识控制值的步骤流 程图,详述如下。
在本发明实施例中,所述更新二分共识控制值是基于actor-critic神经网络来实现的,也就是说系统值函数以及二分共识控制函数是基于actor-critic神经网络 确定的,具体包括以下步骤:
步骤S402,确定初始化的actor-critic神经网络的权值矩阵。
在本发明实施例中,actor-critic神经网络的权值矩阵包括critic神经网络的权值矩阵Wic以及actor神经网络的权值矩阵Wia。
步骤S404,根据critic神经网络的权值矩阵计算系统值。
在本发明实施例中,由于采用了actor-critic神经网络的思想来实现对二分共识控制值的优化,因此系统值函数以及二分共识控制函数是基于actor-critic神经 网络确定,具体的系统值函数为:
其中,Wic为critic神经网络的权值矩阵,Yi(k)是节点vi和它相邻节点的二分 共识控制误差组成的向量。
在本发明实施例中,可以看出系统值的计算过程可以由两步确定,第一步 确定代理节点及其相邻节点的二分共识控制误差确定代理节点误差向量也就是 Yi(k),第二步根据critic神经网络的权值矩阵Wic以及代理节点误差向量Yi(k)计算 系统值。
步骤S406,根据actor神经网络的权值矩阵计算二分共识控制值。
在本发明实施例中,二分共识控制函数的公式具体为:
其中,Wia为actor神经网络的权值矩阵,Yi(k)与前述相同,是节点vi和它相 邻节点的二分共识控制误差组成的向量。
步骤S408,根据所述系统值以及预设的critic神经网络误差计算规则确定critic神经网络的误差值。
在本发明实施例中,所述误差值的计算过程具体也可以分为两步:
第一步确定critic神经网络在第l次迭代的目标值,具体计算公式如下:
其中,是由actor神经网络求得的二分共识控制律,也就是使得critic 神经网络误差计算规则与当前二分共识控制律有关,体现了actor-critic神经网络 的核心思想:能与环境互动,即由actor神经网络的值调整critic神经网络的值。
第二步根据目标值以及当前系统值计算critic神经网络的误差值,即:
步骤S410,根据所述critic神经网络的误差值更新所述critic神经网络的权 值矩阵以及系统值。
在本发明实施例中,基于梯度下降的原理,我们可以得出critic神经网络的 权重矩阵更新律,具体为:
其中,κic是critic神经网络的学习率,满足0<κic<1。
在此基础上,可以进一步确定系统值的更新律。
步骤S412,根据所述二分共识控制值以及预设的actor神经网络误差计算规 则确定actor神经网络的误差值。
在本发明实施例中,基于与critic神经网络相似的原理,可以确定actor神 经网络的误差值,具体的,actor神经网络在第l次迭代的目标值为:
从而进一步可以确定actor神经网络的误差值。
步骤S414,根据所述actor神经网络的误差值更新所述actor神经网络的权 值矩阵以及二分共识控制值。
在本发明实施例中,同样的,基于与critic神经网络相似的原理,可以得到 actor神经网络的权值矩阵的更新律具体为:
在此基础上,可以进一步确定二分共识控制值的更新律。
步骤S416,判断更新后的系统值与更新前的系统值之间的差值是否小于预 设的收敛阈值,当判断否时,返回至所述步骤S404;当判断是时执行步骤S418。
在本发明实施例中,与步骤S308相似,在按照预设的计算公式依次对系统 值和二分共识控制值进行更新后,需要判断是否满足迭代完成条件,本发明是 以更新后的系统值与更新前的系统值之间的差值作为判断是否满足迭代完成条 件的参数,实际上,也可以采用其他可行的方式,例如判断迭代次数是否达到 预设的次数,本发明对具体的迭代完成条件不做具体的限制。
在本发明实施例中,具体的,定义迭代完成条件:
也就是判断更新后的系统值与更新前的系统值之间的差值是否小于预设的 收敛阈值ω,如果不满足,则表明迭代优化过程未完成,需要重新返回至步骤 S304继续循环迭代,如果满足,表明迭代优化过程完成,此时将当前最新的二 分共识控制值确定为最优二分共识控制值即可。作为优选,所述收敛阈值ω通 常设置为10-5。
步骤S418,将更新后的二分共识控制值确定为最优二分共识控制值。
本发明实施例提供了一种具体的基于actor-critic神经网络强化学习的思想 来对二分共识控制值进行迭代优化的过程,其中,由于actor-critic神经网络强化 学习中考虑到了系统受到环境也就是其他代理节点的影响,利用值函数的反馈 求解最优控制的解,因此能够很好适用于多智能体系统中对最优二分共识控制 值的确定,相比于其他算法,例如分布式反馈、最优控制算法,H∞控制等等, 非常高效,同时降低了系统的能耗,节约了资源。
为便于理解本发明提供的多智能体系统的二分共识控制值确定方法所带来 的有益效果,利用本发明提供的基于actor-critic神经网络更新二分共识控制值进 行实验。其中,各代理节点的参数随迭代次数的变化规律如组图5所示,其中, 图5(a)~图5(e)分别示出的内容如下。
如图5(a)所示,示出了各代理节点随迭代次数的critic神经网络的权值矩 阵变化规律。
如图5(b)所示,示出了各代理节点随迭代次数的ctor神经网络的权值矩 阵变化规律。
如图5(c)所示,示出了各代理节点随迭代次数的相邻节点二分共识误差 变化规律。
如图5(d)所示,示出了各跟随者代理节点随迭代次数的与领导者代理节 点的二分状态图变化规律。
如图5(e)所示,示出了各代理节点随迭代次数的控制律的变化规律。
如组图5可以看出,列出了各代理节点随迭代次数的各个参数的变化规律, 可以看到,critic神经网络的权重矩阵参数大约在迭代100次后开始稳定,actor 神经网络的权重矩阵参数大约在迭代150次后开始稳定,而相邻节点二分共识 误差变化随着迭代次数的增多,在迭代250次后已经接近于0,跟随者与领导者 代理的二分状态在迭代150次后已经趋于稳定,控制律在迭代300次后趋于稳 定,可以看出,本发明提供的多智能体系统的二分共识控制值确定方法十分高 效,且效果稳定。
如图6所示,为本发明实施例提供的一种多智能体系统的二分共识控制值 确定装置的结构示意图,详述如下。
在本发明实施例中,所述多智能体系统的二分共识控制值确定装置的包括:
系统状态方程确定单元610,用于确定多智能体系统的系统状态方程以及多 智能体系统中代理节点之间的权值邻接矩阵。
在本发明实施例中,将多智能体系统建模为合作竞争网络G={V,E,C},包含 N个跟随者代理节点和一个领导者代理节点,其中V={v0,v1,...,vN}是一个非空的有 限点集,每一个值代表一个代理节点,v0为领导者代理节点,而剩余为跟随者 代理节点。是一个非空的有限边集,指从vi到vj有 信息流,即二者能够通信。
在本发明实施例中,多智能体系统的系统状态方程具体可描述为:
xi(k+1)=Axi(k)+Biui(k-hi),i∈1,2,…,N
其中,xi(k)、ui(k)分别表示多智能体系统中代理节点的状态和控制力,系 统的状态矩阵用A和Bi表示,hi表示有界、时变的时延,领导者代理节点的动力 学模型为:
x0(k+1)=Ax0(k)
在本发明实施例中,C=[cij]表示代理节点之间的权值邻接矩阵,表示代理与 代理之间的相邻关系,其中cij>0表示存在合作关系,cij<0表示存在着竞争关系, 否则cij=0。
二分共识控制误差确定单元620,用于根据所述系统状态方程、所述权值邻 接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差。
在本发明实施例中,设为代理节点vi的邻域集,并且定义 图G的拉普拉斯矩阵为L=D-C,其中为入度矩阵,然后定义 一个交流矩阵g=diag{g1,…,gN],其中gi>0代表跟随者代理vi能够收到领导者的 信息,否则gi=0。
在本发明实施例中,则对于每一个跟随者代理接,其相邻节点二分共识误 差为:
结合上述公式与系统的系统状态方程可以进一步得到相邻节点二分共识控 制误差的动力学模型:
系统值函数与二分共识控制函数确定单元630,用于根据所述相邻节点二分 共识控制误差确定系统值函数以及二分共识控制函数。
在本发明实施例中,基于最优控制的相关原理,结合前述提供的具体公式, 可以得到系统值函数具体为:
相应的二分共识控制函数为:
作为另一个可行实施例,如果需要利用actor-critic神经网络来实现对二分 共识控制值的迭代,则系统值函数以及二分共识控制函数是基于actor-critic神经 网络确定的,此时系统值函数以及二分共识控制函数的计算公式具体如图4所 示。
迭代优化单元640,用于确定初始化的二分共识控制值并按照预设的更新规 则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当 前二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相 邻节点二分共识控制误差、系统值函数以及二分共识控制函数。
在本发明实施例中,在给定系统值函数以及二分共识控制函数后,可以利 用迭代优化思想不断对二分共识控制值进行迭代更新,直至满足预设的迭代结 束条件,则此时将当前二分共识控制值确定为最优二分共识控制值,从而实现 对多智能体的稳定控制。
在本发明实施例中,对二分共识控制值进行迭代更新的规则有多种,其中 可以利用actor-critic神经网络来实现对二分共识控制值的迭代,具体可以参阅如 图3以及图4及其解释说明。
本发明实施例提供的一种多智能体系统的二分共识控制值确定装置,通过 构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的系 统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接矩 阵,使得权值邻接矩阵包含了代理节点之间的合作关系与竞争关系,同时配合 后续数据处理过程:按照预设的计算规则依次计算相邻节点二分共识控制误差 以及系统值函数和二分共识控制函数,然后按照预设的迭代更新规则对系统值 以及二分共识控制值进行迭代更新,直至满足预设的迭代结束条件,最终所确 定的当前二分共识控制值考虑到了代理节点之间竞争关系,有效解决了现有技 术没有充分考虑、研究竞争关系带来的不确定性的技术问题。
图7示出了一个实施例中计算机设备的内部结构图。如图7所示,该计算 机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示 屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失 性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器 执行时,可使得处理器实现多智能体系统的二分共识控制值确定方法。该内存 储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器 执行多智能体系统的二分共识控制值确定方法。计算机设备的显示屏可以是液 晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是 外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,本申请提供的多智能体系统的二分共识控制值确定装置 可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备 上运行。计算机设备的存储器中可存储组成该多智能体系统的二分共识控制值 确定装置的各个程序模块,比如,图6所示的系统状态方程确定单元610、二分 共识控制误差确定单元620、系统值函数与二分共识控制函数确定单元630以及 迭代优化单元640。各个程序模块构成的计算机程序使得处理器执行本说明书中 描述的本申请各个实施例的多智能体系统的二分共识控制值确定方法中的步 骤。
例如,图7所示的计算机设备可以通过如图6所示的多智能体系统的二分 共识控制值确定装置中的系统状态方程确定单元610执行步骤S102;计算机设 备可通过二分共识控制误差确定单元620执行步骤S104;计算机设备可通过系 统值函数与二分共识控制函数确定单元630执行步骤S106。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处 理器执行所述计算机程序时实现以下步骤:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权 值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节 点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的 关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相 邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函 数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及 二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定 为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误 差、系统值函数以及二分共识控制函数。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上 存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权 值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节 点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的 关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相 邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函 数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及 二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定 为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误 差、系统值函数以及二分共识控制函数。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指 示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本 文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以 其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或 者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以 在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而 是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替 地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易 失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据 库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存 储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包 括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、 同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
Claims (10)
1.一种多智能体系统的二分共识控制值确定方法,其特征在于,包括:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误差、系统值函数以及二分共识控制函数。
2.根据权利要求1所述的二分共识控制值确定方法,其特征在于,根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差的步骤之后,还包括:
根据预设的变量对所述相邻节点二分共识控制误差进行时延消除处理,生成无时延状态下多智能体系统的相邻节点二分共识控制误差。
3.根据权利要求1所述的二分共识控制值确定方法,其特征在于,所述确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值的步骤,具体包括:
确定初始化的二分共识控制值;
根据二分共识控制值以及所述系统值函数更新系统值;
根据更新后的系统值以及二分共识控制函数更新二分共识控制值;
判断更新后的系统值与更新前的系统值之间的差值是否小于预设的收敛阈值;
当判断否时,返回至所述根据二分共识控制值以及所述系统值函数更新系统值的步骤;
当判断是时,将更新后的二分共识控制值确定为最优二分共识控制值。
4.根据权利要求1所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述系统值函数以及二分共识控制函数是基于actor-critic神经网络确定的;所述确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值的步骤,具体包括:
确定初始化的actor-critic神经网络的权值矩阵;所述actor-critic神经网络的权值矩阵包括actor神经网络的权值矩阵以及critic神经网络的权值矩阵;
根据critic神经网络的权值矩阵计算系统值;
根据actor神经网络的权值矩阵计算二分共识控制值;
根据所述系统值以及预设的critic神经网络误差计算规则确定critic神经网络的误差值;所述预设的critic神经网络误差计算规则与当前二分共识控制值有关;
根据所述critic神经网络的误差值更新所述critic神经网络的权值矩阵以及系统值;
根据所述二分共识控制值以及预设的actor神经网络误差计算规则确定actor神经网络的误差值;所述预设的actor神经网络误差计算规则与当前系统值有关;
根据所述actor神经网络的误差值更新所述actor神经网络的权值矩阵以及二分共识控制值;
判断更新后的系统值与更新前的系统值之间的差值是否小于预设的收敛阈值;
当判断否时,返回至所述根据critic神经网络的权值矩阵计算系统值的步骤;
当判断是时,将更新后的二分共识控制值确定为最优二分共识控制值。
5.根据权利要求4所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述根据critic神经网络的权值矩阵计算系统值的步骤,具体包括:
根据代理节点及其相邻节点的二分共识控制误差确定代理节点误差向量;
根据所述critic神经网络的权值矩阵以及所述代理节点误差向量计算系统值。
6.根据权利要求4所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述根据所述系统值以及预设的critic神经网络误差计算规则确定critic神经网络的误差值的步骤,具体包括:
根据预设的目标值计算规则确定critic神经网络的目标值;所述critic神经网络的目标值与当前迭代次数以及当前二分共识控制值有关;
根据所述critic神经网络的目标值以及所述系统值计算critic神经网络的误差值。
7.根据权利要求4所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述根据所述critic神经网络的误差值更新所述critic神经网络的权值矩阵以及系统值的步骤,具体包括:
根据所述critic神经网络的误差值并基于梯度下降算法更新所述critic神经网络的权值矩阵以及系统值。
8.一种多智能体系统的二分共识控制值确定装置,其特征在于,包括:
系统状态方程确定单元,用于确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的关系包括合作关系与竞争关系;
二分共识控制误差确定单元,用于根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差;
系统值函数与二分共识控制函数确定单元,用于根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函数;
迭代优化单元,用于确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误差、系统值函数以及二分共识控制函数。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述多智能体系统的二分共识控制值确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述多智能体系统的二分共识控制值确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036515.9A CN112699594A (zh) | 2020-09-27 | 2020-09-27 | 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036515.9A CN112699594A (zh) | 2020-09-27 | 2020-09-27 | 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112699594A true CN112699594A (zh) | 2021-04-23 |
Family
ID=75505800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036515.9A Pending CN112699594A (zh) | 2020-09-27 | 2020-09-27 | 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699594A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097726A (zh) * | 2022-04-25 | 2022-09-23 | 深圳市人工智能与机器人研究院 | 一种智能体共识控制方法、装置、设备及存储终端 |
CN115356922A (zh) * | 2022-07-22 | 2022-11-18 | 深圳市人工智能与机器人研究院 | 一种异步通信下的多智能体系统二分蜂拥控制方法 |
CN117973431A (zh) * | 2024-03-25 | 2024-05-03 | 四川航天职业技术学院(四川航天高级技工学校) | 一种最优二分共识控制方法、装置、设备及存储介质 |
-
2020
- 2020-09-27 CN CN202011036515.9A patent/CN112699594A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115097726A (zh) * | 2022-04-25 | 2022-09-23 | 深圳市人工智能与机器人研究院 | 一种智能体共识控制方法、装置、设备及存储终端 |
CN115097726B (zh) * | 2022-04-25 | 2023-03-10 | 深圳市人工智能与机器人研究院 | 一种智能体共识控制方法、装置、设备及存储终端 |
CN115356922A (zh) * | 2022-07-22 | 2022-11-18 | 深圳市人工智能与机器人研究院 | 一种异步通信下的多智能体系统二分蜂拥控制方法 |
CN115356922B (zh) * | 2022-07-22 | 2024-10-15 | 深圳市人工智能与机器人研究院 | 一种异步通信下的多智能体系统二分蜂拥控制方法 |
CN117973431A (zh) * | 2024-03-25 | 2024-05-03 | 四川航天职业技术学院(四川航天高级技工学校) | 一种最优二分共识控制方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699594A (zh) | 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 | |
Chen et al. | Growing echo state network with an inverse-free weight update strategy | |
Shu et al. | An on-line variable fidelity metamodel assisted multi-objective genetic algorithm for engineering design optimization | |
Ji et al. | Optimal consensus model-free control for multi-agent systems subject to input delays and switching topologies | |
Zhang et al. | Adaptive MPC for constrained systems with parameter uncertainty and additive disturbance | |
Buisson-Fenet et al. | Joint state and dynamics estimation with high-gain observers and Gaussian process models | |
Freitag et al. | Calculating the H_∞-norm using the implicit determinant method | |
CN113821983A (zh) | 基于代理模型的工程设计优化方法、装置及电子设备 | |
CN113935235A (zh) | 基于遗传算法和代理模型的工程设计优化方法及装置 | |
Tang et al. | Distributed coordination for a class of non‐linear multi‐agent systems with regulation constraints | |
US20100205574A1 (en) | Support apparatus and method | |
CN113691993B (zh) | 基于图神经网络的5g连通簇基站群流量预测方法及系统 | |
Chen et al. | Optimizing polynomial-time solutions to a network weighted vertex cover game | |
Hespanhol et al. | A real-time iteration scheme with quasi-Newton Jacobian updates for nonlinear model predictive control | |
Lu et al. | Temporal difference learning for high-dimensional PIDEs with jumps | |
JPH07200512A (ja) | 最適化問題解決装置 | |
CN115630316A (zh) | 基于改进长短期记忆网络的超短期风速预测方法 | |
Ororbia et al. | Structural design synthesis through a sequential decision process | |
Lu et al. | Laplacian deep echo state network optimized by genetic algorithm | |
Cheng | Adaptive fuzzy CMAC-based nonlinear control with dynamic memory architecture | |
CN110246549B (zh) | 多物理耦合应用处理方法、装置、计算机设备以及存储介质 | |
CN114722490A (zh) | 一种基于混合增点与区间缩减的代理模型全局优化方法 | |
CN113449863A (zh) | 一种基于查表的神经网络量化方法 | |
Cherifi et al. | An incremental evidential conflict resolution method for data stream fusion in IoT | |
Wu et al. | Solving Constrained Pseudoconvex Optimization Problems with deep learning-based neurodynamic optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210423 |