CN112699594A - 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 - Google Patents

多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112699594A
CN112699594A CN202011036515.9A CN202011036515A CN112699594A CN 112699594 A CN112699594 A CN 112699594A CN 202011036515 A CN202011036515 A CN 202011036515A CN 112699594 A CN112699594 A CN 112699594A
Authority
CN
China
Prior art keywords
value
determining
binary
neural network
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011036515.9A
Other languages
English (en)
Inventor
马慧
张静
宿浩
李婉青
张赟
姜雪娜
周瀚阁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202011036515.9A priority Critical patent/CN112699594A/zh
Publication of CN112699594A publication Critical patent/CN112699594A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明适用于计算机技术领域,提供了一种多智能体系统的二分共识控制值确定方法、装置、设备及存储介质,所述二分共识控制值确定方法包括:确定系统状态方程以及多智能体系统中代理节点之间的权值邻接矩阵,与代理节点之间的合作关系与竞争关系相关;按照预设的计算规则依次确定相邻节点二分共识控制误差、系统值函数以及二分共识控制函数;按照预设的更新规则更新系统值以及二分共识控制值,直至满足迭代结束条件,并确定最优二分共识控制值。本发明提供的二分共识控制值确定方法,引入了与代理节点之间关系相关的权值邻接矩阵,充分考虑了代理节点之间竞争关系,有效解决了现有技术没有充分考虑、研究竞争关系带来的不确定性的技术问题。

Description

多智能体系统的二分共识控制律确定方法、装置、设备及存储 介质
技术领域
本发明属于计算机技术领域,尤其涉及一种多智能体系统的二分共识控制 值确定方法、装置、设备及存储介质。
背景技术
近年来,多智能体系统共识在工程中得到广泛应用,使之成为非常热门的 研究方向,例如分布式最优共识控制,跟踪共识控制等。多智能体系统是在同 一个环境中由多个信息交互的智能体组成的系统,可以解决单智能体系统无法 解决的问题,应用范围更广泛。
而在现有的针对多智能体系统的研究中,都是仅仅考虑到智能体与智能体 之间存在的合作关系,并在此基础上研究其共识控制,但在实际应用中,有限 的资源必然会导致多智能体系统中代理节点之间产生竞争作用,竞争作用会带 来负面的影响,导致系统的不稳定性,而现有技术没有充分考虑、研究竞争关 系带来的不确定性,导致最终确定出的共识控制实际效果不够理想。
发明内容
本发明实施例的目的在于提供一种多智能体系统的二分共识控制值确定方 法,旨在解决现有的多智能体系统中共识控制技术还存在的没有充分考虑、研 究竞争关系带来的不确定性,导致最终确定出的共识控制实际效果不够理想的 技术问题。
本发明实施例是这样实现的,一种多智能体系统的二分共识控制值确定方 法,包括:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权 值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节 点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的 关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相 邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函 数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及 二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定 为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误 差、系统值函数以及二分共识控制函数。
本发明实施例的另一目的在于提供一种多智能体系统的二分共识控制值确 定装置,包括:
系统状态方程确定单元,用于确定多智能体系统的系统状态方程以及多智 能体系统中代理节点之间的权值邻接矩阵;所述多智能体系统由一个领导者代 理节点以及多个跟随者代理节点组成;所述权值邻接矩阵与代理节点之间的关 系相关;所述代理节点之间的关系包括合作关系与竞争关系;
二分共识控制误差确定单元,用于根据所述系统状态方程、所述权值邻接 矩阵并按照预设的计算规则确定相邻节点二分共识控制误差;
系统值函数与二分共识控制函数确定单元,用于根据所述相邻节点二分共 识控制误差确定系统值函数以及二分共识控制函数;
迭代优化单元,用于确定初始化的二分共识控制值并按照预设的更新规则 依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前 二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相邻 节点二分共识控制误差、系统值函数以及二分共识控制函数。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器, 所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得 所述处理器执行如上述所述多智能体系统的二分共识控制值确定方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机 可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所 述处理器执行如上述所述多智能体系统的二分共识控制值确定方法的步骤。
本发明实施例提供的一种多智能体系统的二分共识控制值确定方法,通过 构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的系 统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接矩 阵,使得权值邻接矩阵包含了代理节点之间的合作关系与竞争关系,同时配合 后续数据处理过程:按照预设的计算规则依次计算相邻节点二分共识控制误差 以及系统值函数和二分共识控制函数,然后按照预设的迭代更新规则对系统值 以及二分共识控制值进行迭代更新,直至满足预设的迭代结束条件,最终所确 定的当前二分共识控制值考虑到了代理节点之间竞争关系,有效解决了现有技 术没有充分考虑、研究竞争关系带来的不确定性的技术问题。此外,本发明还 进一步具体公开了适用于考虑到竞争关系的多智能体系统中二分共识控制值的 计算规则以及迭代更新规则。
附图说明
图1为本发明实施例提供的一种多智能体系统的二分共识控制值确定方法 的步骤流程图;
图2为本发明实施例提供的另一种多智能体系统的二分共识控制值确定方 法的步骤流程图;
图3为本发明实施例提供的一种更新二分共识控制值的步骤流程图;
图4为本发明实施例提供的另一种更新二分共识控制值的步骤流程图;
图5为本发明实施例提供的实验过程中各代理节点的参数随迭代次数的变 化规律。
图6为本发明实施例提供的一种多智能体系统的二分共识控制值确定装置 的结构示意图;
图7为本发明实施例提供的一种执行二分共识控制值确定方法的计算机装 置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描 述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于 将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下, 可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx 脚本。
本发明为解决现有的多智能体系统中因没有考虑到代理节点之间的竞争作 用,从而导致最终确定出的共识控制实际效果不够理想的技术问题,利用有向 图构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的 系统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接 矩阵,使得权值邻接矩阵同时包含了代理节点之间的合作关系与竞争关系,同 时配合后续的数据处理过程,使得最终确定的当前二分共识控制值考虑到了代 理节点之间竞争关系,从而解决了现有技术没有充分考虑、研究竞争关系带来 的不确定性的技术问题。此外,本发明还进一步具体提供了适用于考虑了竞争 关系的多智能体系统的二分共识控制值确定方法中后续数据处理过程的具体处 理规则,详述如下。
如图1所示,为本发明实施例提供的一种多智能体系统的二分共识控制值 确定方法的步骤流程图,具体包括以下步骤:
步骤S102,确定多智能体系统的系统状态方程以及多智能体系统中代理节 点之间的权值邻接矩阵。
在本发明实施例中,将多智能体系统建模为合作竞争网络G={V,E,C},包含 N个跟随者代理节点和一个领导者代理节点,其中V={v0,v1,...,vN}是一个非空的有 限点集,每一个值代表一个代理节点,v0为领导者代理节点,其他的为跟随者 代理节点。
Figure BDA0002705241380000051
是一个非空的有限边集,
Figure BDA0002705241380000052
指从vi到vj有 信息流,即二者能够通信。
在本发明实施例中,多智能体系统的系统状态方程具体可描述为:
xi(k+1)=Axi(k)+Biui(k-hi),i∈1,2,…,N…
其中,xi(k)、ui(k)分别表示多智能体系统中代理节点的状态和控制力,系 统的状态矩阵用A和Bi表示,hi表示有界、时变的时延,领导者代理节点的动力 学模型为:
x0(k+1)=Ax0(k)
在本发明实施例中,C=[cij]表示代理节点之间的权值邻接矩阵,表示代理与 代理之间的相邻关系,其中cij>0表示存在合作关系,cij<0表示存在着竞争关系, 否则cij=0。
步骤S104,根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算 规则确定相邻节点二分共识控制误差。
在本发明实施例中,设
Figure BDA0002705241380000064
为代理节点vi的邻域集,并且定义 图G的拉普拉斯矩阵为L=D-C,其中
Figure BDA0002705241380000065
为入度矩阵,然后定义 一个交流矩阵g=diag{g1,…,gN},其中gi>0代表跟随者代理vi能够收到领导者的 信息,否则gi=0。
在本发明实施例中,则对于每一个跟随者代理接,其相邻节点二分共识误 差为:
Figure BDA0002705241380000061
结合上述公式与系统的系统状态方程可以进一步得到相邻节点二分共识控 制误差的动力学模型:
Figure BDA0002705241380000062
步骤S106,根据所述相邻节点二分共识控制误差确定系统值函数以及二分 共识控制函数。
在本发明实施例中,基于最优控制的相关原理,结合前述提供的具体公式, 可以得到系统值函数具体为:
Figure BDA0002705241380000063
相应的二分共识控制函数为:
Figure BDA0002705241380000071
作为另一个可行实施例,如果需要利用actor-critic神经网络来实现对二分共识控制值的迭代,则系统值函数以及二分共识控制函数是基于actor-critic神经网 络确定的,此时系统值函数以及二分共识控制函数的计算公式具体如图4所示。
步骤S108,确定初始化的二分共识控制值并按照预设的更新规则依次更新 系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识 控制值确定为最优二分共识控制值。
在本发明实施例中,在给定系统值函数以及二分共识控制函数后,可以利 用迭代优化思想不断对二分共识控制值进行迭代更新,直至满足预设的迭代结 束条件,则此时将当前二分共识控制值确定为最优二分共识控制值,从而实现 对多智能体的稳定控制。
在本发明实施例中,对二分共识控制值进行迭代更新的规则有多种,其中 可以利用actor-critic神经网络来实现对二分共识控制值的迭代,具体可以参阅如 图3以及图4及其解释说明。
本发明实施例提供的一种多智能体系统的二分共识控制值确定方法,通过 构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的系 统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接矩 阵,使得权值邻接矩阵包含了代理节点之间的合作关系与竞争关系,同时配合 后续数据处理过程:按照预设的计算规则依次计算相邻节点二分共识控制误差 以及系统值函数和二分共识控制函数,然后按照预设的迭代更新规则对系统值 以及二分共识控制值进行迭代更新,直至满足预设的迭代结束条件,最终所确 定的当前二分共识控制值考虑到了代理节点之间竞争关系,有效解决了现有技 术没有充分考虑、研究竞争关系带来的不确定性的技术问题。
如图2所示,为本发明实施例提供的另一种多智能体系统的二分共识控制 值确定方法的步骤流程图,详述如下。
在本发明实施例中,考虑到多智能体系统当中存在的时延问题,本发明进 一步提供了一种用于解决多智能体系统时延问题的二分共识控制值确定方法, 与图1所示出的一种多智能体系统的二分共识控制值确定方法的步骤流程图相 比,在所述步骤S104之后,还包括:
步骤S202,根据预设的变量对所述相邻节点二分共识控制误差进行时延消 除处理,生成无时延状态下多智能体系统的相邻节点二分共识控制误差。
在本发明实施例中,基于模型简化法的原理,引入变量:
Figure BDA0002705241380000081
此时,带时延的多智能体系统就可以转化为无时延的形式
Figure BDA0002705241380000082
其中,
Figure BDA0002705241380000084
基于前述得到相邻节点二分共识控制误差的动力学模型的原理,将上述公 式与系统的系统状态方程可以进一步得到无时延多智能体系统的相邻节点二分 共识控制误差的动力学模型:
Figure BDA0002705241380000083
在本发明实施例中,现有技术在处理多智能体系统中存在的时延,通常是 利用事件触发机制或者线性不等式进行理论分析,推导过程复杂且算法设计困 难,效率低。本设计利用模型简化法的思想,采用上述计算公式,推导过程简 单,并且无论是定时延,亦或是时变时延,经过转换后得到的无时延多智能体 系统都能够快速、简便的实现、控制。
如图3所示,为本发明实施例提供的一种更新二分共识控制值的步骤流程 图,具体包括以下步骤:
步骤S302,确定初始化的二分共识控制值。
在本发明实施例中,在对二分共识控制值进行优化的过程中,需要先确定 任意的初始化的二分共识控制值
Figure BDA0002705241380000093
则迭代过程就是不断对二分共识控制值 进行优化的过程。
步骤S304,根据二分共识控制值以及所述系统值函数更新系统值。
基于前述提供的系统值函数:
Figure BDA0002705241380000091
将二分共识控制值
Figure BDA0002705241380000094
代入确定更新后的系统值:
Figure BDA0002705241380000092
步骤S306,根据更新后的系统值以及二分共识控制函数更新二分共识控制 值。
在本发明实施例中,进一步的基于前述提供的二分共识控制函数为:
Figure BDA0002705241380000095
将更新后的系统值代入,可以得到更新后的二分共识控制值。
Figure BDA0002705241380000096
步骤S308,判断更新后的系统值与更新前的系统值之间的差值是否小于预 设的收敛阈值。当判断否时,返回至所述步骤S304;当判断是时,将更新后的 二分共识控制值确定为最优二分共识控制值。
在本发明实施例中,在按照预设的计算公式依次对系统值和二分共识控制 值进行更新后,需要判断是否满足迭代完成条件,本发明是以更新后的系统值 与更新前的系统值之间的差值作为判断是否满足迭代完成条件的参数,实际上, 也可以采用其他可行的方式,例如判断迭代次数是否达到预设的次数,本发明 对具体的迭代完成条件不做具体的限制。
在本发明实施例中,具体的,定义迭代完成条件:
Figure BDA0002705241380000101
也就是判断更新后的系统值与更新前的系统值之间的差值是否小于预设的 收敛阈值ω,如果不满足,则表明迭代优化过程未完成,需要重新返回至步骤 S304继续循环迭代,如果满足,表明迭代优化过程完成,此时将当前最新的二 分共识控制值确定为最优二分共识控制值即可。作为优选,所述收敛阈值ω通 常设置为10-5
步骤S310,将更新后的二分共识控制值确定为最优二分共识控制值。
本发明实施例提供了一种具体的对二分共识控制值进行优化的过程,从而 确定了最优二分共识控制值。
如图4所示,为本发明实施例提供的另一种更新二分共识控制值的步骤流 程图,详述如下。
在本发明实施例中,所述更新二分共识控制值是基于actor-critic神经网络来实现的,也就是说系统值函数以及二分共识控制函数是基于actor-critic神经网络 确定的,具体包括以下步骤:
步骤S402,确定初始化的actor-critic神经网络的权值矩阵。
在本发明实施例中,actor-critic神经网络的权值矩阵包括critic神经网络的权值矩阵Wic以及actor神经网络的权值矩阵Wia
步骤S404,根据critic神经网络的权值矩阵计算系统值。
在本发明实施例中,由于采用了actor-critic神经网络的思想来实现对二分共识控制值的优化,因此系统值函数以及二分共识控制函数是基于actor-critic神经 网络确定,具体的系统值函数为:
Figure BDA0002705241380000113
其中,Wic为critic神经网络的权值矩阵,Yi(k)是节点vi和它相邻节点的二分 共识控制误差组成的向量。
在本发明实施例中,可以看出系统值的计算过程可以由两步确定,第一步 确定代理节点及其相邻节点的二分共识控制误差确定代理节点误差向量也就是 Yi(k),第二步根据critic神经网络的权值矩阵Wic以及代理节点误差向量Yi(k)计算 系统值。
步骤S406,根据actor神经网络的权值矩阵计算二分共识控制值。
在本发明实施例中,二分共识控制函数的公式具体为:
Figure BDA0002705241380000114
其中,Wia为actor神经网络的权值矩阵,Yi(k)与前述相同,是节点vi和它相 邻节点的二分共识控制误差组成的向量。
步骤S408,根据所述系统值以及预设的critic神经网络误差计算规则确定critic神经网络的误差值。
在本发明实施例中,所述误差值的计算过程具体也可以分为两步:
第一步确定critic神经网络在第l次迭代的目标值,具体计算公式如下:
Figure BDA0002705241380000111
其中,
Figure RE-GDA0002822181850000122
是由actor神经网络求得的二分共识控制律,也就是使得critic 神经网络误差计算规则与当前二分共识控制律有关,体现了actor-critic神经网络 的核心思想:能与环境互动,即由actor神经网络的值调整critic神经网络的值。
第二步根据目标值以及当前系统值计算critic神经网络的误差值,即:
Figure BDA0002705241380000123
步骤S410,根据所述critic神经网络的误差值更新所述critic神经网络的权 值矩阵以及系统值。
在本发明实施例中,基于梯度下降的原理,我们可以得出critic神经网络的 权重矩阵更新律,具体为:
Figure BDA0002705241380000124
其中,κic是critic神经网络的学习率,满足0<κic<1。
在此基础上,可以进一步确定系统值的更新律。
步骤S412,根据所述二分共识控制值以及预设的actor神经网络误差计算规 则确定actor神经网络的误差值。
在本发明实施例中,基于与critic神经网络相似的原理,可以确定actor神 经网络的误差值,具体的,actor神经网络在第l次迭代的目标值为:
Figure RE-GDA0002822181850000125
从而进一步可以确定actor神经网络的误差值。
步骤S414,根据所述actor神经网络的误差值更新所述actor神经网络的权 值矩阵以及二分共识控制值。
在本发明实施例中,同样的,基于与critic神经网络相似的原理,可以得到 actor神经网络的权值矩阵的更新律具体为:
Figure RE-GDA0002822181850000131
在此基础上,可以进一步确定二分共识控制值的更新律。
步骤S416,判断更新后的系统值与更新前的系统值之间的差值是否小于预 设的收敛阈值,当判断否时,返回至所述步骤S404;当判断是时执行步骤S418。
在本发明实施例中,与步骤S308相似,在按照预设的计算公式依次对系统 值和二分共识控制值进行更新后,需要判断是否满足迭代完成条件,本发明是 以更新后的系统值与更新前的系统值之间的差值作为判断是否满足迭代完成条 件的参数,实际上,也可以采用其他可行的方式,例如判断迭代次数是否达到 预设的次数,本发明对具体的迭代完成条件不做具体的限制。
在本发明实施例中,具体的,定义迭代完成条件:
Figure BDA0002705241380000131
也就是判断更新后的系统值与更新前的系统值之间的差值是否小于预设的 收敛阈值ω,如果不满足,则表明迭代优化过程未完成,需要重新返回至步骤 S304继续循环迭代,如果满足,表明迭代优化过程完成,此时将当前最新的二 分共识控制值确定为最优二分共识控制值即可。作为优选,所述收敛阈值ω通 常设置为10-5
步骤S418,将更新后的二分共识控制值确定为最优二分共识控制值。
本发明实施例提供了一种具体的基于actor-critic神经网络强化学习的思想 来对二分共识控制值进行迭代优化的过程,其中,由于actor-critic神经网络强化 学习中考虑到了系统受到环境也就是其他代理节点的影响,利用值函数的反馈 求解最优控制的解,因此能够很好适用于多智能体系统中对最优二分共识控制 值的确定,相比于其他算法,例如分布式反馈、最优控制算法,H控制等等, 非常高效,同时降低了系统的能耗,节约了资源。
为便于理解本发明提供的多智能体系统的二分共识控制值确定方法所带来 的有益效果,利用本发明提供的基于actor-critic神经网络更新二分共识控制值进 行实验。其中,各代理节点的参数随迭代次数的变化规律如组图5所示,其中, 图5(a)~图5(e)分别示出的内容如下。
如图5(a)所示,示出了各代理节点随迭代次数的critic神经网络的权值矩 阵变化规律。
如图5(b)所示,示出了各代理节点随迭代次数的ctor神经网络的权值矩 阵变化规律。
如图5(c)所示,示出了各代理节点随迭代次数的相邻节点二分共识误差 变化规律。
如图5(d)所示,示出了各跟随者代理节点随迭代次数的与领导者代理节 点的二分状态图变化规律。
如图5(e)所示,示出了各代理节点随迭代次数的控制律的变化规律。
如组图5可以看出,列出了各代理节点随迭代次数的各个参数的变化规律, 可以看到,critic神经网络的权重矩阵参数大约在迭代100次后开始稳定,actor 神经网络的权重矩阵参数大约在迭代150次后开始稳定,而相邻节点二分共识 误差变化随着迭代次数的增多,在迭代250次后已经接近于0,跟随者与领导者 代理的二分状态在迭代150次后已经趋于稳定,控制律在迭代300次后趋于稳 定,可以看出,本发明提供的多智能体系统的二分共识控制值确定方法十分高 效,且效果稳定。
如图6所示,为本发明实施例提供的一种多智能体系统的二分共识控制值 确定装置的结构示意图,详述如下。
在本发明实施例中,所述多智能体系统的二分共识控制值确定装置的包括:
系统状态方程确定单元610,用于确定多智能体系统的系统状态方程以及多 智能体系统中代理节点之间的权值邻接矩阵。
在本发明实施例中,将多智能体系统建模为合作竞争网络G={V,E,C},包含 N个跟随者代理节点和一个领导者代理节点,其中V={v0,v1,...,vN}是一个非空的有 限点集,每一个值代表一个代理节点,v0为领导者代理节点,而剩余为跟随者 代理节点。
Figure BDA0002705241380000151
是一个非空的有限边集,
Figure BDA0002705241380000152
指从vi到vj有 信息流,即二者能够通信。
在本发明实施例中,多智能体系统的系统状态方程具体可描述为:
xi(k+1)=Axi(k)+Biui(k-hi),i∈1,2,…,N
其中,xi(k)、ui(k)分别表示多智能体系统中代理节点的状态和控制力,系 统的状态矩阵用A和Bi表示,hi表示有界、时变的时延,领导者代理节点的动力 学模型为:
x0(k+1)=Ax0(k)
在本发明实施例中,C=[cij]表示代理节点之间的权值邻接矩阵,表示代理与 代理之间的相邻关系,其中cij>0表示存在合作关系,cij<0表示存在着竞争关系, 否则cij=0。
二分共识控制误差确定单元620,用于根据所述系统状态方程、所述权值邻 接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差。
在本发明实施例中,设
Figure BDA0002705241380000153
为代理节点vi的邻域集,并且定义 图G的拉普拉斯矩阵为L=D-C,其中
Figure BDA0002705241380000154
为入度矩阵,然后定义 一个交流矩阵g=diag{g1,…,gN],其中gi>0代表跟随者代理vi能够收到领导者的 信息,否则gi=0。
在本发明实施例中,则对于每一个跟随者代理接,其相邻节点二分共识误 差为:
Figure BDA0002705241380000161
结合上述公式与系统的系统状态方程可以进一步得到相邻节点二分共识控 制误差的动力学模型:
Figure BDA0002705241380000162
系统值函数与二分共识控制函数确定单元630,用于根据所述相邻节点二分 共识控制误差确定系统值函数以及二分共识控制函数。
在本发明实施例中,基于最优控制的相关原理,结合前述提供的具体公式, 可以得到系统值函数具体为:
Figure BDA0002705241380000163
相应的二分共识控制函数为:
Figure BDA0002705241380000164
作为另一个可行实施例,如果需要利用actor-critic神经网络来实现对二分 共识控制值的迭代,则系统值函数以及二分共识控制函数是基于actor-critic神经 网络确定的,此时系统值函数以及二分共识控制函数的计算公式具体如图4所 示。
迭代优化单元640,用于确定初始化的二分共识控制值并按照预设的更新规 则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当 前二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相 邻节点二分共识控制误差、系统值函数以及二分共识控制函数。
在本发明实施例中,在给定系统值函数以及二分共识控制函数后,可以利 用迭代优化思想不断对二分共识控制值进行迭代更新,直至满足预设的迭代结 束条件,则此时将当前二分共识控制值确定为最优二分共识控制值,从而实现 对多智能体的稳定控制。
在本发明实施例中,对二分共识控制值进行迭代更新的规则有多种,其中 可以利用actor-critic神经网络来实现对二分共识控制值的迭代,具体可以参阅如 图3以及图4及其解释说明。
本发明实施例提供的一种多智能体系统的二分共识控制值确定装置,通过 构建由一个领导者代理节点以及多个跟随者代理节点组成的多智能体系统的系 统状态方程,然后根据代理节点之间的合作关系与竞争关系来确定权值邻接矩 阵,使得权值邻接矩阵包含了代理节点之间的合作关系与竞争关系,同时配合 后续数据处理过程:按照预设的计算规则依次计算相邻节点二分共识控制误差 以及系统值函数和二分共识控制函数,然后按照预设的迭代更新规则对系统值 以及二分共识控制值进行迭代更新,直至满足预设的迭代结束条件,最终所确 定的当前二分共识控制值考虑到了代理节点之间竞争关系,有效解决了现有技 术没有充分考虑、研究竞争关系带来的不确定性的技术问题。
图7示出了一个实施例中计算机设备的内部结构图。如图7所示,该计算 机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示 屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失 性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器 执行时,可使得处理器实现多智能体系统的二分共识控制值确定方法。该内存 储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器 执行多智能体系统的二分共识控制值确定方法。计算机设备的显示屏可以是液 晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是 外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,本申请提供的多智能体系统的二分共识控制值确定装置 可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备 上运行。计算机设备的存储器中可存储组成该多智能体系统的二分共识控制值 确定装置的各个程序模块,比如,图6所示的系统状态方程确定单元610、二分 共识控制误差确定单元620、系统值函数与二分共识控制函数确定单元630以及 迭代优化单元640。各个程序模块构成的计算机程序使得处理器执行本说明书中 描述的本申请各个实施例的多智能体系统的二分共识控制值确定方法中的步 骤。
例如,图7所示的计算机设备可以通过如图6所示的多智能体系统的二分 共识控制值确定装置中的系统状态方程确定单元610执行步骤S102;计算机设 备可通过二分共识控制误差确定单元620执行步骤S104;计算机设备可通过系 统值函数与二分共识控制函数确定单元630执行步骤S106。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处 理器执行所述计算机程序时实现以下步骤:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权 值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节 点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的 关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相 邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函 数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及 二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定 为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误 差、系统值函数以及二分共识控制函数。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上 存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权 值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节 点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的 关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相 邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函 数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及 二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定 为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误 差、系统值函数以及二分共识控制函数。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指 示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本 文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以 其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或 者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以 在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而 是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替 地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易 失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据 库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存 储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包 括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM 以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、 同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附 权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (10)

1.一种多智能体系统的二分共识控制值确定方法,其特征在于,包括:
确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的关系包括合作关系与竞争关系;
根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差;
根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函数;
确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误差、系统值函数以及二分共识控制函数。
2.根据权利要求1所述的二分共识控制值确定方法,其特征在于,根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差的步骤之后,还包括:
根据预设的变量对所述相邻节点二分共识控制误差进行时延消除处理,生成无时延状态下多智能体系统的相邻节点二分共识控制误差。
3.根据权利要求1所述的二分共识控制值确定方法,其特征在于,所述确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值的步骤,具体包括:
确定初始化的二分共识控制值;
根据二分共识控制值以及所述系统值函数更新系统值;
根据更新后的系统值以及二分共识控制函数更新二分共识控制值;
判断更新后的系统值与更新前的系统值之间的差值是否小于预设的收敛阈值;
当判断否时,返回至所述根据二分共识控制值以及所述系统值函数更新系统值的步骤;
当判断是时,将更新后的二分共识控制值确定为最优二分共识控制值。
4.根据权利要求1所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述系统值函数以及二分共识控制函数是基于actor-critic神经网络确定的;所述确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值的步骤,具体包括:
确定初始化的actor-critic神经网络的权值矩阵;所述actor-critic神经网络的权值矩阵包括actor神经网络的权值矩阵以及critic神经网络的权值矩阵;
根据critic神经网络的权值矩阵计算系统值;
根据actor神经网络的权值矩阵计算二分共识控制值;
根据所述系统值以及预设的critic神经网络误差计算规则确定critic神经网络的误差值;所述预设的critic神经网络误差计算规则与当前二分共识控制值有关;
根据所述critic神经网络的误差值更新所述critic神经网络的权值矩阵以及系统值;
根据所述二分共识控制值以及预设的actor神经网络误差计算规则确定actor神经网络的误差值;所述预设的actor神经网络误差计算规则与当前系统值有关;
根据所述actor神经网络的误差值更新所述actor神经网络的权值矩阵以及二分共识控制值;
判断更新后的系统值与更新前的系统值之间的差值是否小于预设的收敛阈值;
当判断否时,返回至所述根据critic神经网络的权值矩阵计算系统值的步骤;
当判断是时,将更新后的二分共识控制值确定为最优二分共识控制值。
5.根据权利要求4所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述根据critic神经网络的权值矩阵计算系统值的步骤,具体包括:
根据代理节点及其相邻节点的二分共识控制误差确定代理节点误差向量;
根据所述critic神经网络的权值矩阵以及所述代理节点误差向量计算系统值。
6.根据权利要求4所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述根据所述系统值以及预设的critic神经网络误差计算规则确定critic神经网络的误差值的步骤,具体包括:
根据预设的目标值计算规则确定critic神经网络的目标值;所述critic神经网络的目标值与当前迭代次数以及当前二分共识控制值有关;
根据所述critic神经网络的目标值以及所述系统值计算critic神经网络的误差值。
7.根据权利要求4所述的多智能体系统的二分共识控制值确定方法,其特征在于,所述根据所述critic神经网络的误差值更新所述critic神经网络的权值矩阵以及系统值的步骤,具体包括:
根据所述critic神经网络的误差值并基于梯度下降算法更新所述critic神经网络的权值矩阵以及系统值。
8.一种多智能体系统的二分共识控制值确定装置,其特征在于,包括:
系统状态方程确定单元,用于确定多智能体系统的系统状态方程以及多智能体系统中代理节点之间的权值邻接矩阵;所述多智能体系统由一个领导者代理节点以及多个跟随者代理节点组成;所述权值邻接矩阵与代理节点之间的关系相关;所述代理节点之间的关系包括合作关系与竞争关系;
二分共识控制误差确定单元,用于根据所述系统状态方程、所述权值邻接矩阵并按照预设的计算规则确定相邻节点二分共识控制误差;
系统值函数与二分共识控制函数确定单元,用于根据所述相邻节点二分共识控制误差确定系统值函数以及二分共识控制函数;
迭代优化单元,用于确定初始化的二分共识控制值并按照预设的更新规则依次更新系统值以及二分共识控制值直至满足预设的迭代结束条件,并将当前二分共识控制值确定为最优二分共识控制值;所述预设的更新规则中包括相邻节点二分共识控制误差、系统值函数以及二分共识控制函数。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述多智能体系统的二分共识控制值确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述多智能体系统的二分共识控制值确定方法的步骤。
CN202011036515.9A 2020-09-27 2020-09-27 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质 Pending CN112699594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011036515.9A CN112699594A (zh) 2020-09-27 2020-09-27 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011036515.9A CN112699594A (zh) 2020-09-27 2020-09-27 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112699594A true CN112699594A (zh) 2021-04-23

Family

ID=75505800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011036515.9A Pending CN112699594A (zh) 2020-09-27 2020-09-27 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112699594A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115097726A (zh) * 2022-04-25 2022-09-23 深圳市人工智能与机器人研究院 一种智能体共识控制方法、装置、设备及存储终端
CN115356922A (zh) * 2022-07-22 2022-11-18 深圳市人工智能与机器人研究院 一种异步通信下的多智能体系统二分蜂拥控制方法
CN117973431A (zh) * 2024-03-25 2024-05-03 四川航天职业技术学院(四川航天高级技工学校) 一种最优二分共识控制方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115097726A (zh) * 2022-04-25 2022-09-23 深圳市人工智能与机器人研究院 一种智能体共识控制方法、装置、设备及存储终端
CN115097726B (zh) * 2022-04-25 2023-03-10 深圳市人工智能与机器人研究院 一种智能体共识控制方法、装置、设备及存储终端
CN115356922A (zh) * 2022-07-22 2022-11-18 深圳市人工智能与机器人研究院 一种异步通信下的多智能体系统二分蜂拥控制方法
CN115356922B (zh) * 2022-07-22 2024-10-15 深圳市人工智能与机器人研究院 一种异步通信下的多智能体系统二分蜂拥控制方法
CN117973431A (zh) * 2024-03-25 2024-05-03 四川航天职业技术学院(四川航天高级技工学校) 一种最优二分共识控制方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112699594A (zh) 多智能体系统的二分共识控制律确定方法、装置、设备及存储介质
Chen et al. Growing echo state network with an inverse-free weight update strategy
Shu et al. An on-line variable fidelity metamodel assisted multi-objective genetic algorithm for engineering design optimization
Ji et al. Optimal consensus model-free control for multi-agent systems subject to input delays and switching topologies
Zhang et al. Adaptive MPC for constrained systems with parameter uncertainty and additive disturbance
Buisson-Fenet et al. Joint state and dynamics estimation with high-gain observers and Gaussian process models
Freitag et al. Calculating the H_∞-norm using the implicit determinant method
CN113821983A (zh) 基于代理模型的工程设计优化方法、装置及电子设备
CN113935235A (zh) 基于遗传算法和代理模型的工程设计优化方法及装置
Tang et al. Distributed coordination for a class of non‐linear multi‐agent systems with regulation constraints
US20100205574A1 (en) Support apparatus and method
CN113691993B (zh) 基于图神经网络的5g连通簇基站群流量预测方法及系统
Chen et al. Optimizing polynomial-time solutions to a network weighted vertex cover game
Hespanhol et al. A real-time iteration scheme with quasi-Newton Jacobian updates for nonlinear model predictive control
Lu et al. Temporal difference learning for high-dimensional PIDEs with jumps
JPH07200512A (ja) 最適化問題解決装置
CN115630316A (zh) 基于改进长短期记忆网络的超短期风速预测方法
Ororbia et al. Structural design synthesis through a sequential decision process
Lu et al. Laplacian deep echo state network optimized by genetic algorithm
Cheng Adaptive fuzzy CMAC-based nonlinear control with dynamic memory architecture
CN110246549B (zh) 多物理耦合应用处理方法、装置、计算机设备以及存储介质
CN114722490A (zh) 一种基于混合增点与区间缩减的代理模型全局优化方法
CN113449863A (zh) 一种基于查表的神经网络量化方法
Cherifi et al. An incremental evidential conflict resolution method for data stream fusion in IoT
Wu et al. Solving Constrained Pseudoconvex Optimization Problems with deep learning-based neurodynamic optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210423