CN111814915B

CN111814915B - 多智能体时空特征提取方法及系统、行为决策方法及系统

Info

Publication number: CN111814915B
Application number: CN202010872541.9A
Authority: CN
Inventors: 蒲志强; 王彗木; 刘振; 丘腾海; 易建强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-25
Anticipated expiration: 2040-08-26
Also published as: CN111814915A

Abstract

本发明涉及一种多智能体时空特征提取方法及系统、行为决策方法及系统，所述时空特征提取方法包括：获取在时刻t下，基于t‑n _t时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史状态数；基于图网络生成层，根据各状态集合，得到原始特征集；基于空间特征提取层，根据原始特征集，得到在当前时刻t下的空间关系特征集；基于时空关系提取层，根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集；从而实现智能体在动态复杂任务中的自主时空特征关系提取和智能行为决策。

Description

多智能体时空特征提取方法及系统、行为决策方法及系统

技术领域

本发明涉及多智能体系统及群体智能应用技术领域，特别涉及一种基于图注意力和长短期记忆网络的多智能体时空特征提取方法及系统、行为决策方法及系统。

背景技术

多智能体系统具有分布性、简单性、灵活性和健壮性等优势，为很多极具挑战的复杂性问题提供了崭新的解决方案。随着微纳电子、计算平台、自主控制等新兴技术的迅猛发展，由无人机、无人车等无人自主平台组成的多智能体系统在关乎国计民生以及国家和国防安全的重大场景中获得了越来越多的应用。

无人自主多智能体系统能以网络化、分布化、协同化方式快速形成区域覆盖，实现集群资源优化调度，提高任务完成率和响应速度，一方面可作为一种常态化部署系统，服务于山区巡逻、灾害预警、环境监测、区域物流等领域；另一方面也可作为一种突发事件的快速响应系统，在诸如疫情防控、突发灾害、大型活动人防等场景下提供快速物资调度、灾害监测评估、通信保障支援等能力。

然而，现有对于无人自主多智能体系统实时决策与控制技术的研究尚处于起步阶段，大多数多智能体系统采用预规划的方式提前拟定了各智能体的行为决策规则，使得智能体在面向实际应用场景时不能随着任务、环境变化实现自适应的自主行为决策，极大限制了多智能体系统智能协同效果的发挥。

实际场景中，单个智能体往往仅具有有限的环境感知能力、通信能力和行为能力，智能体之间的通信拓扑连接关系也将在动态任务中时刻发生改变，此外由于任务分工不同，每个智能体对于其他智能体及周围环境的注意力并不相同，因此，采取有效手段时刻提取出智能体与智能体之间、智能体与任务环境要素之间的时空特征关系，是保障多智能体系统实现对任务、环境的抽象理解，进而实现自主决策与智能控制的关键。

发明内容

为了解决现有技术中的上述问题，即为了提升多智能体系统在大规模复杂任务中的自主决策与智能控制能力，本发明的目的在于提供一种多智能体时空特征提取方法及系统、行为决策方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种多智能体系统的时空特征提取方法，所述时空特征提取方法包括：

步骤100：获取在时刻t下，基于（t-n _t）时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史状态数；

步骤200：基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；

步骤300：基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；

步骤400：基于时空关系提取层，根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集。

可选地，所述基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集，具体包括：

步骤310，以多智能体系统原始特征集h作为输入，通过第一图注意力网络模块，获得空间关系特征集

；其中，原始特征集

，

为智能体i 对应的原始特征向量，i=1,2…,N；

步骤320，以

为输入，通过第一全连接网络模块，获得空间特征集

；

步骤330，基于步骤320方法获得的空间特征集，通过堆叠的图注意力网络模块和全连接网络模块，采用步骤310、步骤320的方法迭代计算第f次的空间特征集

、

；其中，

，

为图注意力网络模块和全连接网络模块的堆叠层数；

步骤340，在迭代计算第

次的空间特征集时，基于

，采用步骤310的方法，通过第

图注意力网络模块得到空间特征集

；将拼接特征集

输入第

全连接网络模块，得到空间特征集

，作为时刻t下多智能体系统基于所述空间特征提取层的最终输出

。

可选地，所述获得空间关系特征集

，具体包括：

步骤311：采用多头注意力机制，针对多头注意力机制的多智能体系统中的第m头注意力机制下的任一智能体i，智能体i能直接通信的邻居智能体组成的集合为N _i，在邻居智能体中选取一个智能体j，采用可学习的矩阵W对智能体i、j对应的关系特征向量

、

进行线性变换，并拼接为一个新的关系特征向量

；其中，W为关系特征向量

、

的线性变换矩阵；

步骤312：将

输入一个全连接神经网络，输出智能体i对于智能体j的注意力系数

；

步骤313：计算第m头注意力机制下的智能体i对于智能体j的注意力归一化系数

：

；

步骤314：计算多头注意力机制融合下智能体i与其邻居间的空间关系特征向量

：

；

其中，

为sigmoid激活函数，

为第

头注意力选取的线性变换矩阵，

表示向量的拼接操作，K为注意力机制的头数；

步骤315：计算得到所有智能体与其邻居间的空间关系特征后，得多智能体系统空间关系特征集

。

可选地，所述得到多智能体系统在当前时刻t下的时空关系特征集，具体包括：

将得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系特征集

，顺次输入到包含n+1个串序连接的、带窥视孔的长短期记忆网络单元的时空关系提取层，靠近输出端的长短期记忆网络单元记作

，向前依次类推；第q个长短期记忆网络单元

的单元状态记作

，输出为时空关系特征集

，输入为(

)时刻的空间关系特征集

以及第(q+1)个单元

输出的时空关系特征集

及其单元状态

；q=1,2,…,n+1；

将(

)时刻的空间关系特征集

、第(q+1)个单元

输出的时空关系特征集

及单元状态

输入到采用图卷积神经网络的忘记门

：

其中，*表示图卷积运算，

表示忘记门的图卷积神经网络的权重系数矩阵，

表示忘记门的图卷积神经网络的偏置，

为sigmoid激活函数；

将(

)时刻的空间特征集

以及第(q+1)个单元

输出的时空关系特征集

及单元状态

输入到采用图卷积神经网络的输入门

，并对单元状态进行更新：

；

；

其中，*表示图卷积运算，

、

为输入门的图卷积神经网络对应的权重系数矩阵，

、

为输入门的图卷积神经网络对应的偏置，

为sigmoid激活函数，

为tanh激活函数，

为哈达玛积；

将(

)时刻的空间关系特征集

以及第(q+1)个单元

输出的时空关系特征集

以及更新后的单元状态

输入到采用图卷积神经网络的输出门

，得到第q个单元

输出的时空关系特征集

：

；

；

其中，*表示图卷积运算，

表示过度变量，

表示输出门的图卷积神经网络对应的权重系数矩阵，

表示输出门的图卷积神经网络对应的偏置，

为 sigmoid激活函数，

为tanh激活函数，

为哈达玛积；其中第1个单元

输出的为多智能体系统在当前时刻t下的时空关系特征集

。

可选地，所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态；

其中，智能体自身状态包括智能体自身位置、速度、加速度状态，任务目标状态包括目标位置、速度状态；

可观测到的其他智能体状态包括可观测到的其他智能体的位置、速度状态，

可观测到的环境要素状态包括可观测到的环境中障碍物的位置、速度状态，环境中禁止通行区的位置状态。

可选地，所述图网络生成层由多层全连接神经网络连接组成。

为解决上述技术问题，本发明还提供了如下方案：

一种多智能体系统的行为决策方法，所述行为决策方法包括：

基于上述多智能体系统的时空特征提取方法，获取多智能体系统在当前时刻t下的时空关系特征集

；

计算多智能体系统在当前时刻t下的行为决策集

，其中，

，

（i=1,2,…,N）表示第i个智能体在当前时刻t下的行为决策，A为所选决策空间维数，

表示实数。

为解决上述技术问题，本发明还提供了如下方案：

一种多智能体系统的时空特征提取系统，所述时空特征提取系统包括：

状态向量获取单元，用于获取在时刻t下，基于（t-n _t）时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史状态数；

原始特征生成单元，用于基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；

空间关系计算单元，用于基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；

时空关系计算单元，用于基于时空关系提取层，根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集。

为解决上述技术问题，本发明还提供了如下方案：

一种多智能体系统的行为决策系统，所述行为决策系统包括

基于上述多智能体系统的时空特征提取系统，用于获取多智能体系统在当前时刻t下的时空关系特征集

；

行为决策计算单元，用于计算多智能体系统在当前时刻t下的行为决策集

，其中，

，

表示实数。

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取在时刻t下，基于（t-n _t）时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史状态数；

基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；

基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；

基于时空关系提取层，根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集。

根据本发明的实施例，本发明公开了以下技术效果：

本发明获取多个时刻下的各智能体可观测到的时空状态向量，采用图网络生成层来表达智能体个体及与环境的空间关系，进一步采用空间特征提取层提取空间特征关系，基于时空关系提取层实现时空特征关系提取，可完成在复杂环境、时变拓扑、有限资源等约束下的时空特征关系的提取，从而可实现智能体在动态复杂任务中的自主时空特征关系提取。

附图说明

图1是本发明多智能体系统的行为决策方法的流程图；

图2是图网络生成层的结构示意图；

图3是空间特征提取层的结构示意图；

图4是时空关系提取层的结构示意图；

图5是时空特征提取层中单个长短期记忆网络单元结构示意图；

图6是本发明多智能体系统的行为决策系统的模块结构示意图。

符号说明：

状态向量获取单元—1，原始特征生成单元—2，空间关系计算单元—3，时空关系计算单元—4。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种多智能体系统的时空特征提取方法，获取多个时刻下的各智能体可观测到的时空状态向量，采用图网络生成层来表达智能体个体及与环境的空间关系，进一步采用空间特征提取层提取空间特征关系，基于时空关系提取层实现时空特征关系提取，可完成在复杂环境、时变拓扑、有限资源等约束下的时空特征关系的提取，从而可实现智能体在动态复杂任务中的自主时空特征关系提取。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明多智能体系统的时空特征提取方法包括：

更新时间，返回步骤100，开始下一时刻多智能体系统的时空特征提取。

其中，在步骤100中，可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态；

其中，智能体自身状态包括但不限于智能体自身位置、速度、加速度状态；任务目标状态包括但不限于目标位置、速度状态；可观测到的其他智能体状态包括但不限于可观测到的其他智能体的位置、速度状态；可观测到的环境要素状态包括但不限于可观测到的环境中障碍物的位置、速度状态，环境中禁止通行区的位置状态，以及其他影响多智能体系统任务的环境状态信息。

在当前时刻t下，获取从（t-n _t）时刻起每个智能体i（i=1,2…,N）可观测到的时空状态向量

；将每一时刻所有智能体获取的时空状态向量拼接为状态集合，第（t-n _t）时刻的状态集合为

，第（t-n _t +1）时刻的状态集合为

，以此类推，第t时刻的状态集合为

，其中n _t为历史状态数，是一个可调整的非负整数。

在步骤200中，所述图网络生成层由多层全连接神经网络连接组成（如图2所示）。

如图3所示，所述空间特征提取层包括k对交替堆叠的图注意力网络模块及全连接网络模块，全连接网络模块由多层全连接神经网络层构成，用于对特征进行增强表示和维数压缩。

；其中，原始特征集

，

为智能体i对应的原始特征向量，i=1,2…,N；

步骤320，以

为输入，通过第一全连接网络模块，获得空间特征集

；

、

；其中，

，

为图注意力网络模块和全连接网络模块的堆叠层数；

步骤340，在迭代计算第

次的空间特征集时，基于

，采用步骤310的方法，通过第

图注意力网络模块得到空间特征集

；将拼接特征集

输入第

全连接网络模块，得到空间特征集

。

优选地，所述获得空间关系特征集

，具体包括：

、

进行线性变换，并拼接为一个新的关系特征向量

；其中，W为关系特征向量

、

的线性变换矩阵；

步骤312：将

；

：

；

：

；

其中，

为sigmoid激活函数，

为第

头注意力选取的线性变换矩阵，

表示向量的拼接操作，K为注意力机制的头数；

。

将空间特征向量

输入到全连接网络模块中，得到空间特征向量

具体包括：

通过对空间特征向量

进行增强表示和维数压缩，得到空间特征向量

，空间特征集

，其中²

（ i=1,2,…,N），F为所选特征空间维数。

在步骤400中，得到的当前时刻t及其前n个离散时刻内多智能体系统的空间关系特征集

，向前依次类推；第q（q= 1,2,…,n+1）个长短期记忆网络单元

的单元状态记作

，输出为时空关系特征集

，输入为(

)时刻的空间关系特征集

以及第(q+1)个单元

输出的时空关系特征集

及其单元状态

（如图4所示）。

如图5所示，在步骤400中，得到多智能体系统在当前时刻t下的时空关系特征集，具体包括：

步骤410：将(

)时刻的空间关系特征集

、第(q+1)个单元

输出的时空关系特征集

及单元状态

输入到采用图卷积神经网络的忘记门

：

；

其中，*表示图卷积运算，

表示忘记门的图卷积神经网络的权重系数矩阵，

表示忘记门的图卷积神经网络的偏置，

为sigmoid激活函数；

步骤420：将(

)时刻的空间特征集

以及第(q+1)个单元

输出的时空关系特征集

及单元状态

输入到采用图卷积神经网络的输入门

，并对单元状态进行更新：

；

；

其中，*表示图卷积运算，

、

为输入门的图卷积神经网络对应的权重系数矩阵，

、

为输入门的图卷积神经网络对应的偏置，

为sigmoid激活函数，为tanh激活函数，

为哈达玛积；

步骤430：将(

)时刻的空间关系特征集

以及第(q+1)个单元

输出的时空关系特征集

以及更新后的单元状态

输入到采用图卷积神经网络的输出门

，得到第q个单元

输出的时空关系特征集

：

；

；

其中，*表示图卷积运算，

表示过度变量，

表示输出门的图卷积神经网络对应的权重系数矩阵，

表示输出门的图卷积神经网络对应的偏置，

为 sigmoid激活函数，为tanh激活函数，

为哈达玛积；其中第1个单元

输出的为多智能体系统在当前时刻t下的时空关系特征集

。

本发明另一实施例：一种多智能体系统的行为决策方法，包括：

；

采用基于模型知识驱动的方法或基于强化学习数据驱动的方法（优选采用Actor- Critic架构进行智能体行为的训练学习），计算多智能体系统在当前时刻t下的行为决策集

，其中，

，

表示实数。

重复步骤100-步骤400，更新行为决策集。

本发明多智能体系统的行为决策方法通过图注意力机制和长短记忆网络对多智能体系统中蕴含的时空特征关系进行提取，可以为多智能体系统后续智能行为决策提供重要的依据，使得智能体能够在动态、复杂任务中实现自主行为决策，充分发挥多智能体系统分布化、协同化等特点，而采用图神经网络、长短期记忆网络等参数可学习的模型来构建特征提取层，可实现智能体内部隐藏特征、变化特征的提取，提升智能体的任务、环境适应性。

下面以一具体实施例详细说明本发明：

该实施例中包括5个捕食者智能体、2个猎物智能体、2个障碍物智能体，设置一定的通信距离，通信距离内的捕食者间能共享信息，同时设置一定的探测距离，探测距离内的障碍物及猎物信息为捕食者的可观测信息。捕食者智能体采用本发明所提供的方法进行时空特征提取，并在此基础上采用Actor-Critic架构进行行为决策，猎物智能体则采用传统人工势场法进行行为决策，障碍物智能体设定为静态障碍物，在一定时间内，捕食者智能体能学得协作行为，将2个猎物智能体包围住，并且能够学得一些高层策略，例如当2个猎物彼此位置较为分散时，捕食者智能体分成两组分别对其进行包围，展现了本发明所提供方法在应对复杂、动态多智能体行为决策时的自适应、分布式协同优势。

此外，本发明还提供一种多智能体系统的时空特征提取系统，可提升多智能体系统在大规模复杂任务中的自主决策与智能控制能力。

如图6所示本发明多智能体系统的时空特征提取系统包括：向量获取单元1、生成单元2、空间关系计算单元3及时空关系计算单元4。

具体地，所述状态向量获取单元1用于获取在时刻t下，基于（t-n _t）时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史状态数；

所述原始特征生成单元2用于基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；

所述空间关系计算单元3用于基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；

所述时空关系计算单元4用于基于时空关系提取层，根据当前时刻t前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集。

优选地，本发明还提供一种多智能体系统的行为决策系统。所述多智能体系统的行为决策系统包括：

多智能体系统的时空特征提取系统，用于获取多智能体系统在当前时刻t下的时空关系特征集；

，其中，

，

表示实数。

进一步地，本发明还提供一种多智能体系统的时空特征提取系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

相对于现有技术，本发明多智能体系统的时空特征提取系统、行为决策方法、计算机可读存储介质与上述多智能体系统的时空特征提取方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种多智能体系统的时空特征提取方法，其特征在于，所述时空特征提取方法包括：

步骤100：获取在时刻t下，基于t-n _t时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史时刻数；

步骤200：基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；所述图网络生成层由多层全连接神经网络构成；

步骤300：基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建；

步骤400：基于时空关系提取层，根据当前时刻t及其前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集；所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。

2.根据权利要求1所述的多智能体系统的时空特征提取方法，其特征在于，所述基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集，具体包括：

；其中，原始特征集

，

为智能体i对应的原始特征向量，i=1,2…,N；

步骤320，以

为输入，通过第一全连接网络模块，获得空间特征集

、

；其中，

，

为图注意力网络模块和全连接网络模块的堆叠层数；

步骤340，在迭代计算第

次的空间特征集时，基于

，采用步骤310的方法，通过第

图注意力网络模块得到空间特征集

；将拼接特征集

输入第

全连接网络模块，得到空间特征集

。

3.根据权利要求2所述的多智能体系统的时空特征提取方法行为决策方法，其特征在于，所述获得空间关系特征集

，具体包括：

、

进行线性变换，并拼接为一个新的关系特征向量

；其中，W为关系特征向量

、

的线性变换矩阵；

步骤312：将

；

：

；

：

；

其中，

为sigmoid激活函数，

为第

头注意力选取的线性变换矩阵，

表示向量的拼接操作，K为注意力机制的头数；

。

4.根据权利要求1所述的多智能体系统的时空特征提取方法，其特征在于，所述得到多智能体系统在当前时刻t下的时空关系特征集，具体包括：

，向前依次类推；第q个长短期记忆网络单元

的单元状态记作

，输出为时空关系特征集

，输入为

时刻的空间关系特征集

以及第q+1个单元

输出的时空关系特征集

及其单元状态

；q=1,2,…,n+1；

将

时刻的空间关系特征集

、第q+1个单元

输出的时空关系特征集

及单元状态

输入到采用图卷积神经网络的忘记门

：

；

其中，*表示图卷积运算，

表示忘记门的图卷积神经网络的权重系数矩阵，

表示忘记门的图卷积神经网络的偏置，

为sigmoid激活函数；

将

时刻的空间特征集

以及第q+1个单元

输出的时空关系特征集

及单元状态

输入到采用图卷积神经网络的输入门

，并对单元状态进行更新：

；

；

其中，*表示图卷积运算，

、

为输入门的图卷积神经网络对应的权重系数矩阵，

、

为输入门的图卷积神经网络对应的偏置，

为sigmoid激活函数，

为tanh激活函数，

为哈达玛积；

将

时刻的空间关系特征集

以及第q+1个单元

输出的时空关系特征集

以及更新后的单元状态

输入到采用图卷积神经网络的输出门

，得到第q个单元

输出的时空关系特征集

：

；

；

其中，*表示图卷积运算，

表示过度变量，

表示输出门的图卷积神经网络对应的权重系数矩阵，

表示输出门的图卷积神经网络对应的偏置，

为sigmoid激活函数，

为tanh激活函数，

为哈达玛积；其中第1个单元

输出的为多智能体系统在当前时刻t下的时空关系特征集

。

5.根据权利要求1所述的多智能体系统的时空特征提取方法，其特征在于，所述可观测到的时空状态向量包括智能体自身状态、任务目标状态、可观测到的其他智能体状态和可观测到的环境要素状态；

6.一种多智能体系统的行为决策方法，其特征在于，所述行为决策方法包括：

基于权利要求1-5中任一项所述的多智能体系统的时空特征提取方法，获取多智能体系统在当前时刻t下的时空关系特征集

；

计算多智能体系统在当前时刻t下的行为决策集

，其中，

，

表示第i个智能体在当前时刻t下的行为决策，A为所选决策空间维数，

表示实数，i=1,2,…,N。

7.一种多智能体系统的时空特征提取系统，其特征在于，所述时空特征提取系统包括：

状态向量获取单元，用于获取在时刻t下，基于t-n _t时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史时刻数；

原始特征生成单元，用于基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；所述图网络生成层由多层全连接神经网络构成；

空间关系计算单元，用于基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建；

时空关系计算单元，用于基于时空关系提取层，根据当前时刻t及其前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集；所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。

8.一种多智能体系统的行为决策系统，其特征在于，所述行为决策系统包括：

基于权利要求7所述的多智能体系统的时空特征提取系统，用于获取多智能体系统在当前时刻t下的时空关系特征集

；

，其中，

，

表示实数，i=1,2,…,N。

9.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取在时刻t下，基于t-n _t时刻起每一时刻的各智能体可观测到的时空状态向量，得到多智能体系统在各时刻的状态集合，多智能体系统由N个智能体组成，n _t为预设的历史时刻数；

基于图网络生成层，根据各时刻的状态集合，得到多智能体系统的原始特征集；所述图网络生成层由多层全连接神经网络构成；

基于空间特征提取层，根据所述原始特征集，得到多智能体系统在当前时刻t下的空间关系特征集；所述空间特征提取层采用图注意力网络模块与全连接网络模块交替堆叠的方式构建；

基于时空关系提取层，根据当前时刻t及其前n个离散时刻多智能体系统的空间关系特征集，得到多智能体系统在当前时刻t下的时空关系特征集；所述时空关系提取层采用图卷积运算、带窥视孔的长短期记忆网络构建。