CN113872924A

CN113872924A - 一种多智能体的动作决策方法、装置、设备及存储介质

Info

Publication number: CN113872924A
Application number: CN202010622063.6A
Authority: CN
Inventors: 司瑞彬; 顾杜娟; 杨传安; 王静平; 李和聪; 郭广宇; 徐澄
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd; China Academy of Electronic and Information Technology of CETC
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd; China Academy of Electronic and Information Technology of CETC
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-12-31
Anticipated expiration: 2040-06-30
Also published as: CN113872924B

Abstract

本申请提供一种多智能体的动作决策方法、装置、设备及存储介质，涉及人工智能技术领域，用于优化对多智能体的动作进行决策的过程。该方法包括：对多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点；获取各节点的整合环境信息；一个节点的整合环境信息包括该节点基于接收的目标环境信息和历史信息且利用强化学习选取的待执行动作；历史信息包括该节点在历史时刻的节点类型及执行的动作，且是该节点从历史接收的目标环境信息中获得的；基于各节点的整合环境信息获取动作集合；从动作集合中选取部分节点的待执行动作，并根据选取的待执行动构建序列动作集，序列动作集中包括按照设定执行顺序排列后的选取的待执行动作。

Description

一种多智能体的动作决策方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种多智能体的动作决策方法、装置、设备及存储介质。

背景技术

相关技术中，对多智能体组成的系统中多个智能体的动作决策时，大多数智能决策支持系统是基于专家系统的辅助决策进行的；如专家系统强调利用专家经验知识和推理方法，且其是针对专门领域问题的，所需的知识为某一专业领域的知识。但这些辅助决策方法如专家系统，均需要获取用于辅助决策的信息(如针对专门领域问题的专家经验知识和推理方法)，存在信息资源分散、过分依赖领域专家经验、难以从海量、有噪音的、随机的数据中提取和挖掘潜在有用的信息、系统扩展性差、通用性不强等不足，即现有的辅助决策方法缺乏主动的学习机制，进而会增加智能决策支持系统的局限性，也会影响智能决策的结果的准确度。

发明内容

本申请实施例提供一种多智能体的动作决策方法、装置、设备及存储介质，用于优化对多智能体的动作进行决策的过程。

本申请第一方面，提供一种多智能体的动作决策方法，应用于服务器，包括：

对感知的多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点，所述节点包括智能体或服务；

获取各节点的整合环境信息；其中，一个节点的整合环境信息包括所述一个节点基于接收的目标环境信息和历史信息，且利用强化学习选取的待执行动作；所述历史信息包括所述一个节点在历史时刻的节点类型及执行的动作，且所述历史信息是所述一个节点从历史接收的目标环境信息中获得的；

基于所述各节点的整合环境信息，获取所述多个节点对应的动作集合，所述动作集合包括按照执行时间排序后的所述各节点的待执行动作；

根据历史动作选择信息，从所述动作集合中选取部分节点的待执行动作，并根据选取的待执行动作构建序列动作集，所述序列动作集中包括按照设定执行顺序排列后的所述选取的待执行动作。

在一种可能的实现方式中，所述对感知的多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点，包括：

利用注意力网络，对所述多个节点的当前环境信息进行状态转换，获得多个状态特征集合；

对各状态特征集合进行处理，获得所述各状态特征集合对应的注意力分布概率；

根据注意力分布概率的大小，从所述各状态特征集合对应的注意力分布概率中选取部分注意力分布概率；

利用选取的注意力分布概率对相应的状态特征集合进行加权处理，获得所述目标环境信息。

在一种可能的实现方式中，所述一个节点的整合环境信息是所述一个节点将自身的基本环境信息和所述一个节点之外的其它节点的基本环境信息进行整合处理得到的，其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息。

在一种可能的实现方式中，所述基于所述各节点的整合环境信息，获取所述多个节点对应的动作集合，包括：

基于所述各节点的整合环境信息的时间特征，利用循环神经网络对所述各节点的整合环境信息进行处理，获取所述各节点的历史整合环境信息和当前整合环境信息；

基于所述各节点的历史整合环境信息和当前整合环境信息，获取所述各节点的待执行动作；

将所述各节点的待执行动作按照执行时间排序，得到所述动作集合。

在一种可能的实现方式中，所述根据历史动作选择信息，从所述动作集合中选取部分节点的待执行动作，包括：

根据历史动作选择信息中的动作，确定动作集合中各节点的待执行动作的历史选择概率；

根据各节点的待执行动作的历史选择概率的大小，从所述动作集合中选取部分节点的待执行动作。

在一种可能的实现方式中，所述根据各节点的待执行动作的历史选择概率的大小，从所述动作集合中选取部分节点的待执行动作，包括：

将各节点的待执行动作的历史选择概率按照从大到小的顺序进行排序；

选取排序在指定序位的历史选择概率对应的节点的待执行动作。

在一种可能的实现方式中，所述从所述动作集合中选取部分节点的待执行动作之后，还包括：

对选取的各节点的待执行动作的可靠度进行验证，若验证失败，则随机从所述动作集合中选取部分节点的待执行动作。

在一种可能的实现方式中，所述历史时刻包括早于当前时刻且与当前时刻的时间间隔小于时间阈值的时刻；或

所述历史时刻包括早于当前时刻且距离当前时刻最近的时刻。

本申请第二方面，提供一种多智能体的动作决策装置，包括：

状态信息筛选单元，被配置为执行对感知的多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点，所述节点包括智能体或服务；

整合环境信息获取单元，被配置为执行获取各节点的整合环境信息；其中，一个节点的整合环境信息包括所述一个节点基于接收的目标环境信息和历史信息，且利用强化学习选取的待执行动作；所述历史信息包括所述一个节点在历史时刻的节点类型及执行的动作，且所述历史信息是所述一个节点从历史接收的目标环境信息中获得的；

动作集合获取单元，被配置为执行基于所述各节点的整合环境信息，获取所述多个节点对应的动作集合，所述动作集合包括按照执行时间排序后的所述各节点的待执行动作；

决策单元，被配置为执行根据历史动作选择信息，从所述动作集合中选取部分节点的待执行动作，并根据选取的待执行动作构建序列动作集，所述序列动作集中包括按照设定执行顺序排列后的所述选取的待执行动作。

在一种可能的实现方式中，所述状态信息筛选单元具体被配置为执行：

在一种可能的实现方式中，所述动作集合获取单元具体被配置为执行：

在一种可能的实现方式中，所述决策单元具体被配置为执行：

在一种可能的实现方式中，所述决策单元还被配置为执行：

从所述动作集合中选取部分节点的待执行动作之后，对选取的各节点的待执行动作的可靠度进行验证，若验证失败，则随机从所述动作集合中选取部分节点的待执行动作。

本申请第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及一种可能的实施方式中任一所述的方法。

本申请第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及一种可能的实施方式中任一所述的方法。

本申请的方案至少带来以下的有益效果：

本申请中服务器首先筛选出目标环境信息；各节点根据当前的目标环境信息和自身的历史信息确定出自身的整合环境信息，且历史信息中包括各节点利用强化学习选取的待执行动作；之后服务器根据各节点的整合环境信息，获取多个节点对应的动作集合，并根据历史动作选择信息从动作集合中选取部分节点的待执行动作，该过程中各节点能够自主学习选取待执行动作，多节点的系统的服务器也根据多个节点的整合环境信息，通过自主学习选取部分节点的待执行动作，并根据选取的待执行动作构建出高效的序列动作集，将动作序列集作为决策结果，从而时针对多个智能体的智能决策系统实现自主学习，根据各节点的整合环境选取部分智能体利用强化学习确定的待执行动作，提升了智能决策系统的灵活度和决策的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1为本申请示例性实施例提供的多智能体系统的结构示意图；

图2为本申请示例性实施例提供的一种多智能体的动作决策方法的过程示意图；

图3为本申请示例性实施例提供的一种利用注意力网络筛选出目标环境信息的过程示意图；

图4为本申请示例性实施例提供的一种注意力网络模型的结构示意图；

图5为本申请示例性实施例提供的一种不同节点通过通信网络交换信息的结构框图；

图6为本申请示例性实施例提供的一种根据各节点的整合环境信息获取动作集合的流程示意图；

图7为本申请示例性实施例提供的一种态势信息与各节点的整合环境信息的融合原理示意图；

图8为本申请示例性实施例提供的一种动作决策网络的结构示意图；

图9为本申请示例性实施例提供的一种决策引擎的基本框图；

图10为本申请示例性实施例提供的一种多智能体的动作决策装置的结构图；

图11为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的技术名词进行说明。

智能决策支持系统(Intelligence Decision Support systems，IDSS)：人工智能(Artificial Intelligence，AI)和DSS相结合，应用专家系统(Expert System，ES)技术，使DSS能够更充分地应用人类的知识，如关于决策问题的描述性知识，决策过程中的过程性知识，求解问题的推理性知识，通过逻辑推理来帮助解决复杂的决策问题的辅助决策系统；IDSS引入智能数据处理的理论与方法使问题得以解决，使DSS具有更好的学习、发现和使用知识的能力、具有更多智能性和灵活性，更高的自适应能力。

决策支持系统(Decision Support System，DSS)是一个基于计算机用于支持业务或组织决策活动的信息系统；DSS服务于组织管理、运营和规划管理层(通常是中级和高级管理层)，并帮助人们对可能快速变化并且不容易预测结果的问题做出决策；决策支持系统可以全计算机化、人力驱动或二者结合。

专家系统(Expert System，ES)：是一种模拟人类专家解决特定领域的问题的计算机程序系统，其内部含有大量的某个领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法来处理该领域问题。其具备下述特点：能处理符号知识、应用启发知识减少搜索复杂性、吸收新知识、解释所得的结论、提供专家级的咨询服务；专家系统通常由人机交互界面、知识库、推理机、解释器、综合数据库、知识获取等6个部分构成。

强化学习(Reinforcement Learning,RL)：是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，通过最大化积累奖赏的方式学习到最优策略；强化学习不同于监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号对产生动作的好坏做一种评价(通常为标量信号)，而不是告诉强化学习系统(Rreinforcement Learning System，RLS)如何去产生正确的动作；由于外部环境提供的信息很少，RLS必须靠自身的经验进行学习，通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

下面对本申请的设计思想进行说明。

随着互联网技术的发展，网络信息系统的建设越来越被重视，但其面临的安全威胁与挑战也与日俱增，各种攻击手段和方法(如网络攻击、程序漏洞、计算机病毒、逻辑炸弹、预置后门、恶意软件等)在网络信息系统中层出不穷。另一方面在网络信息系统中，直接开展真实的大范围的网络安全试验和攻防演练，容易造成物理设备故障和系统崩溃，其中使用到的虚拟化环境(如从虚拟化平台、虚拟机内核、内存、存储、监控器、网络流量等)的各个层次都面临新的安全风险，还有待开展包括虚拟机安全隔离、虚拟网络隔离和试验平台隔离等各方面的安全技术研究；不同安全事件威胁程度的等级不同，不同试验任务安全防护的等级和需求也各不相同，已部署安全设备间缺乏有效的安全信息协作；攻击者只要能够接入系统，就可不受时间和地点的影响，随时随地发起攻击，而且攻击能够瞬间到达，且网络信息系统所面临的威胁攻击不能预测，是不确定的。

为了应对网络信息系统的不定性威胁攻击，安全决策中有必要采取一种与以往不同的安全策略及方法来实现决策智能化，针对多智能体系统中的多个智能体的动作进行决策的大多数智能决策支持系统是基于专家系统进行的，但专家系统强调利用专家经验知识和推理方法，且其是针对专门领域问题的，所需的知识为某一专业领域(如化学质谱分析专家系统、医疗诊断专家系统、地质勘探专家系统等)的知识；但用专家系统进行智能决策支持系统主要存在以下几个方面的问题。

1)知识获取难度高：由于专家知识的经验性和模糊性难以用语言准确描述，进而获取专家知识的难度较高。

2)处理问题的耗时长：专家系统中对信息进行串行处理，针对一个问题而言，需要时间对相关的各信息进行串行处理，导致处理问题耗时长。

3)容错能力差：专家系统中计算机采用局部存储方式，不同的数据和知识存储时互不相关，只有通过设定程序才能相互沟通，设定程序中微小的错误都会引起严重的后果，系统表现出极大的脆弱性；

4)基础理论不完善：专家系统的本质特征是基于规则的逻辑推理思维，然而迄今的逻辑理论仍然很不完善，现有的逻辑理论的表达能力和处理能力有很大的局限性。

人类专家要清楚地表达领域知识，领域知识必须要连贯正确，对偏离系统领域的问题而言专家系统的性能急剧下降；另外大型专家系统难以调试和维护、执行时间过长，即从上可以看出依据专家系统进行多个智能体的动作决策时，只能依据专家的知识和经验，而缺乏主动的学习机制，进而会增加智能决策支持系统的局限性，也会影响智能决策的结果的准确度。

综上，当前通过辅助决策对多智能体的动作进行决策时，其学习行为大多是静态的、被动的，而不是按照实际环境需求制定动态的学习策略，缺乏主动学习机制。

鉴于此，本申请设计一种多智能体的动作决策方法、装置、设备及存储介质。考虑到现有的辅助决策中缺乏主动学习机制，本申请中各智能体的整合环境信息和被保护的网络信息系统(即多智能体组成的多智能体系统)的安全目标，实现对多智能体的动作的智能安全决策分析，智能安全决策是网络信息系统的安全防护的核心环节。随着网络信息系统的环境、时间和威胁攻击的变化，智能安全决策自动调整各智能体的安全防护行为以适应决策问题的求解要求，如多智能体系统处于何种安全状态，怎样协调各智能体的待执行动作进行联防等问题。具体地，本申请实施例中，针对多智能体组成的多智能体系统而言，可以自主学习各智能体的整合环境信息，获取包含各智能体通过强化学习选取的待执行动作的动作集合，并从中选择出对多智能体系统的安全最优的部分智能体的待执行动作，利用选取的待执行动作构建高效的序列动作集，将序列动作集作为决策的结果，其中，序列动作集中包括按照设定执行顺序排列后的选取的待执行动作；一个智能体的整合环境信息包括该智能体通过强化学习选取的待执行动作，该待执行的动作是该智能体根据当前的环境信息和历史信息利用强化学习获取的。

以下结合附图对本申请的方案进行详细说明。

请参见图1，给出一种多智能体系统的结构示意图，该多智能体系统中包括多个节点110和服务器120；其中节点包括智能体(智能设备)或服务，节点110和服务器120之间可以通过通信网络进行通信。

节点110可以将感知的自身的当前环境信息发送给服务器120，并接收服务器120从多个节点的当前环境信息中筛选出来的目标环境信息；以及节点110可以基于当前接收的目标环境信息和历史信息，利用强化学习选取自身在当前环境下的待执行动作；上述历史信息包括节点在历史时刻的节点类型及执行的动作，且是从节点历史接收的目标环境信息中获取的。

服务器120可以从多个节点的当前环境信息中筛选出目标环境信息并发送给各个节点110；以及获取各节点110的整合环境信息，基于各节点110的整合环境信息，获取包含各节点110选取的待执行动作的动作集合，并从动作集合中选取部分节点110的待执行动作确定为决策结果，其中整合环境信息包括节点110利用强化学习选取的待执行动作。

作为一种实施例，各个节点110之间可以通过通信网络互相进行通信，各节点的整合环境信息可以是各节点自己整合的，如针对其中的某一个节点而言，该节点利用通信网络获取其它节点的基本环境信息，将其它节点的基本环境信息与自身的基本环境信息进行整合处理，得到自身的整合环境信息；其中每个节点的基本环境信息包括其从服务器120当前接收的目标环境信息和历史接收的目标环境信息。

请参见图2，本申请实施例提供一种多智能体的动作决策方法，应用于上述服务器120，具体包括如下步骤：

步骤S201，对感知的多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点，上述节点包括智能体或服务。

具体地，针对于每个节点而言，可以通过一个或多个传感器对当前环境进行感知，获取该节点的当前环境信息，当前环境信息可以包括音频信号、温度、湿度、噪声信号等信息，本领域的技术人员可根据实际需求设置当前环境信息包含的信息，并选取对应的传感器去感知相应的当前环境信息。

作为一种实施例，不同信息源(即不同的节点)得到的当前环境信息，常只有部分当前环境信息对多智能体的安全起到关键的作用，而另外一部分当前环境信息(如噪声信号)，则会干扰对节点的动作进行决策的正确性，因此本申请实施例中服务器120首先需要对不同节点的当前环境信息进行区分，以筛选出引起多智能体系统的潜在威胁的环境信息。具体地，本申请实施例中通过注意力网络，动态地学习不同时刻对动作决策起到决定作用的当前环境信息，其中各节点的当前环境信息经注意力网络之后，筛选出对动作决策起到决定作用的目标环境信息，并将目标环境信息传递到各节点，以使各节点根据接收的目标环境信息确定自身的基本环境信息以及整合环境信息。

步骤S202，获取各节点的整合环境信息；其中，一个节点的整合环境信息包括该节点(上述一个节点)基于接收的目标环境信息和历史信息且利用强化学习选取的待执行动作；历史信息包括该节点在历史时刻的节点类型及执行的动作，且历史信息是该节点从历史接收的目标环境信息中获得的。

具体地，上述各节点的整合环境信息可以是各节点自身整合得到的，服务器通过网络通信从各节点的信息中获取各节点的整合环境信息；在步骤S201中服务器利用注意力网络对多个节点的当前环境信息进行筛选，将筛选后的目标环境信息传递到各节点中，常需要不同节点的相互配合以完成潜在威胁的消除。

针对多智能体系统，网络中具有大量的节点，这些节点可以是路由器、交换机等智能体或者服务；在多智能体系统面临一个甚至若干潜在威胁时，常需要不同节点协作以降低风险，因此不同设备需要进行协同，且多智能体协同需要考虑到不同节点之间的通信，以交换彼此的信息，辅助其它节点做出自己的决策信息。因此针对多智能体系统，本申请实施例中设计通信网络，以实现不同节点间的信息交换，并对不同节点的信息进行整合，以完成不同节点的决策，最终实现多智能体的协同框架。

步骤S203，基于各节点的整合环境信息，获取多个节点对应的动作集合，该动作集合包括按照执行时间排序后的各节点的待执行动作。

针对当前的潜在威胁，服务器在针对智能体系统做出决策，针对多个节点进行动作决策时，可以当前时刻之前的时刻中节点的环境信息作为一种辅助信息，进行当前时刻信息的动作决策；故而本申请实施例中可以利用循环神经网络模型对各节点的整合环境信息进行处理，以充分利用之前时刻节点的环境信息以输出当前状态的综合信息。

其中，上述待执行动作的信息中包括节点的类型、命令以及该命令需要接受的参数；在本申请实施例中，可以基于层次化强化学习的策略网络获得各节点选取的待执行动作。

具体地，将上述层次化的策略网络设计为并行预测的模式，即每一时刻策略网络π_θ(a|s)输出的动作action为组合动作的形式，如下公式1所示：

公式1：action＝{a⁰,a¹,…,a^L}；

公式1中a⁰为节点的类型、a¹为节点的命令类型，a²到a^L为命令参数。

步骤S204，根据历史动作选择信息，从动作集合中选取部分节点的待执行动作，并根据选取的待执行动作构建序列动作集，上述序列动作集中包括按照设定执行顺序排列后的上述选取的待执行动作。

作为一种实施例，可以但不局限于根据选取的待执行动作的执行顺序间的依赖关系以及上述多智能体系统的效率、安全目标、网络效率、能耗等中的一个或多个因素，设置上述设定执行顺序，本领域的技术人员还可以根据其他需求设置上述设定执行顺序，此处不做过多限定。

具体地，可以根据历史动作选择信息中的动作，确定动作集合中各节点的待执行动作的历史选择概率；根据各节点的待执行动作的历史选择概率的大小，从上述动作集合中选取部分节点的待执行动作。

更进一步地，可以将各节点的待执行动作的历史选择概率按照从大到小的顺序进行排序；选取排序在指定序位的历史选择概率对应的节点的待执行动作；对上述指定序位不做限定，本领域的技术人员可根据实际需求设置，如将指定序位设置为排序前k1个位置的序位、或排序在中间k2至k3的位置的序位等，上述k1、k2和k3为正整数，本领域的技术人员可根据实际需求设置。

作为一种实施例，从上述动作集合中选取的部分节点的待执行动作有可能存在不可靠的情况，因此可以对选取的各节点的待执行动作的可靠度进行验证，若验证失败，则随机从上述动作集合中选取部分节点的待执行动作，作为决策结果。

作为一种实施例，在步骤S201中，可以通过图3示意出的步骤S301至S304利用注意力网络筛选出目标环境信息，具体如下：

步骤S301，利用注意力网络，对多个节点的当前环境信息进行状态转换，获得多个状态特征集合。

在该过程中可以采用图4所示的注意力网络模型，对多个节点的当前环境信息进行筛选，可以将多个节点的当前环境信息输入注意力网络模型，利用注意力网络模型的全连接层网络f对多个节点的当前环境信息进行状态转换，获得对应的多个状态特征集合。

其中上述一个状态特征集合e_i是对至少一个节点的当前环境信息进行状态转换获得的，如图4中将节点0至节点4对应的当前环境信息S0至S4输入注意力网络的全连接层网络f，全连接层网络会输出对应的一个状态特征集合e_i可以是通过将当前环境信息S0至S4中的两个当前环境状态信息进行转换得到的，也可以是通过将当前环境信息S0至S4中的三个当前环境状态信息进行转换得到的。

上述全连接层网络f的设计，常根据模型输入的复杂度决定全连接层网络的参数的尺寸，即f的层数以及每层节点的类型；另外在网络模型的训练中，一般在网络模型的最终层之前加入dropout操作，dropout是指在深度学习网络的训练过程中，对于神经网络单元按照一定的概率将其暂时从网络中丢弃，以防止网络模型过拟合的有效方式。

由于本申请实施例中是通过传感器感知各节点的当前环境信息，不同传感器或者不同节点采集的当前环境信息包含的内容要素不同，对不同内容要素进行编码的状态特征维度也各不相同；为使获取的各节点的当前环境信息适应全连接网络f的输入格式，需要将各节点的当前环境信息的状态特征维度进行统一；为实现此功能，假设不同的当前环境信息在一个隐变量空间存在可比性，因此，首先将不同的当前环境信息对应的状态编码投影到该空间下，使其具有一致的特征维度，即s_i＝g(x_i)，这里，g为投影函数，其可以选择非线性或者线性函数，i为当前环境信息的标识信息，S_i为第i个当前环境信息，x_i为第i个当前环境信息的信号源编码。

步骤S302，对各状态特征集合进行处理，获得上述各状态特征集合对应的注意力分布概率。

在该步骤中，可以利用注意力网络，通过如下公式2计算各状态特征集合e_i的贡献权重a_i，贡献权重a_i用于表征注意力网络关注该a_i对应的状态特征集合的注意力分布概率，一个状态特征集合ei对应有一个贡献权重a_i。

公式2：

公式2中，i表示状态特征集合的标识信息，a_i表示状态特征集合e_i对应的注意力分布概率。

对上述a_i的值不做限定，本领域的技术人员可根据实际需求设置，如将a_i的值设置为0至1之间的数值，a_i的值的大小表示其对应的状态特征集合受关注的程度高低。

步骤S303，根据注意力分布概率的大小，从上述各状态特征集合对应的注意力分布概率中选取部分注意力分布概率。

作为一种实施例，可以根据多智能体系统的安全目标选取注意力分布概率，针对不同的安全目标，选取的注意力分布概率可以不同，如针对某一安全目标可以选取较大的一部分注意力分布概率，也有可能选取较小的一部分注意力分布概率，还有可能选择大小居中的一部分注意力分布概率，本领域的技术人员可根据实际需求灵活设置。

进一步，在该步骤中还可以设定选取的注意力分布概率的数量，如根据多智能体系统的安全目标，从获取的注意力分布概率中选取设定数量的注意力分布概率。

步骤S304，利用选取的注意力分布概率对相应的状态特征集合进行加权处理，获得上述目标环境信息。

具体地，可以利用注意力网络模型中的soft attention网络，通过如下公式3，将注意力分布概率a_j作为相应的状态特征集合e_j的权重，对相应的状态特征集合e_j进行加权处理，获取目标环境信息S，其中j为步骤S303选取出的注意力分布概率的标识信息。

公式3：S＝∑_j(e_j×a_j)；

公式3中，S为筛选出的目标环境信息，j为选取出的注意力分布概率的标识信息。

通过上述注意力网络的机制，反映当前潜在安全威胁的核心的当前环境信息得以保留，而其他冗余的环境信息以及噪声信息将会被去除，有效减少了对复杂的各节点的当前环境细腻信息处理的难度，为后续不同节点的环境信息的整合提供了基础。

作为一种实施例，在步骤S202之前，各节点可通过通信网络与其它节点进行通信，根据通信得到的信息获取自身的整合环境信息，以下内容给出一种不同节点通过通信网络交换信息的基本结构框图，请参见图5。

具体地，多智能体系统中各节点之间可以通过图5示意出的通信网络互相进行通信，将各自的基本环境信息发送给其它节点以及接收其它节点发送的基本环境信息；进而对于其中的一个节点而言，该节点可以将自身的基本环境信息和该节点之外的其它节点的基本环境信息进行整合，得到该节点自身的整合环境信息，其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息，上述目标环境信息是服务器发送给各节点的。

作为一种实施例，上述历史时刻包括早于当前时刻且与当前时刻的时间间隔小于时间阈值的时刻，对上述时间阈值不做限定如5小时、1天、3天、一星期等。上述历史时刻也包括早于当前时刻且距离当前时刻最近的时刻，如当前时刻的前一时刻，本领域的技术人员可根据实际需求选择上述历史时刻。

请继续参见图5，节点的整合环境信息包括当前节点综合信息、通信信息和节点信息。当前节点(节点3)在确定自身的整合环境信息时，通过融合近邻节点(节点1、节点2和节点5)的基本环境信息获得当前节点综合信息和通信信息，通过融合自身的基本信息得到节点信息。图5中白色圆圈和黑色圆圈分别代表各节点当前接收的目标环境信息和历史接收的目标环境信息。

进一步地，当各节点在确定自身的整合环境信息时，可以采用Pooling操作进行不同类型信息的融合；具体来说，pooling操作使得对于任意数量的信息可以得到一致的特征表达，基本的类型如max pooling，将使得不同节点最具显著性的特征进行组合；如参见图5，最终当前节点融合其它节点的基本环境信息以及自身的基本环境信息，得到的整合环境信息如图中最右侧所示，即前节点综合信息、通信信息和节点信息的串联后的信息。

多智能体系统中存在大量的节点，直接将所有节点的信息进行传递，则将带来巨大的计算复杂度，因此本申请实施例中将当前节点相关的节点的信息进行通信；具体地，可以根据各节点对应的物理设备的距离和类型，确定出与当前节点相关的近邻节点和无关节点，进而当前节点在获得自身的整合环境信息时，只需要将近邻节点的基本环境信息和自身的基本环境信息进行整合即可。

任意节点都通过上述方式获得自身的较为完整的整合环境信息，即获得自身的有用的环境信息以及其它节点的环境信息；上述各节点的环境整合信息将为后续选择多节点的动作决策提供基础。

作为一种实施例，在上述步骤S203中，可以通过图6示意出的步骤S601至步骤S603获取对应的动作集合。

步骤S601，基于各节点的整合环境信息的时间特征，利用循环神经网络对上述各节点的整合环境信息进行处理，获取上述各节点的历史整合环境信息和当前整合环境信息。

步骤S602，基于上述各节点的历史整合环境信息和当前整合环境信息，获取上述各节点的待执行动作；

步骤S603，将上述各节点的待执行动作按照执行时间排序，得到上述动作集合。

上述各节点为一个多智能体系统中的节点，因此各节点的待执行动作的执行顺序具有依赖关系，一些节点的待执行动作可能必须在另一些节点的待执行动作之后执行，步骤S603中即根据不同节点的待执行动作的执行顺序的依赖关系进行排序后，得到上述动作集合。

本申请实施例中又将上述当前整合环境信息称为态势信息或上下文信息，该态势信息可以理解为输入的各节点的当前环境信息中关于整个多智能体系统态势(状态)的估计。

且上述步骤S601至步骤S603中可以用基于上下文的循环神经网络(contextaware LSTM，cLSTM)，将上下文信息增加到LSTM模型中，以更有效地处理各节点的整合环境信息表征的状态特征。

此处给出一种有效的基于上下文的循环神经网络的处理原理，请参见如下公式4至公式8：

公式4：i_t＝σ(W_xix_t+W_mim_t+W_hih_t-1+b_i)；

公式5：f_t＝σ(W_xfx_t+W_mim_t+W_hfh_t-1+b_f)；

公式6：o_t＝σ(W_xox_t+W_mim_t+W_hoh_t-1+b_o)；

公式7：c_t＝f_t⊙c_t-1+i_t⊙tanh(W_xcx_t+W_mim_t+W_hch_t-1+b_c)；

公式8：h_t＝o_t⊙tanh(c_t)；

上述公式4至公式8中m_t为上下文信息(即当前时刻的态势信息)，其随着时间的变化而发生变化，通过控制三个门控开关对态势信息和动作信息进行融合，最终该网络输出h_t，其作为最终决策系统的输入，融合了态势信息，动作信息以及不同节点之间的通信信息，上述h_t中包括多个节点各自选取的待执行动作。

上述cLSTM为加入态势信息的一种有效手段，但本领域的技术人员还可以通过其他方式选择性地加入态势信息，通过交叉验证等方式得到动作集合；如采用一种经验性的方式，同时对比整合环境信息x_t与态势信息m_t的融合方式，其在融合m_t时并不影响原始LSTM的计算方式，请参见图7，示意出上述方式中态势信息与各节点的整合环境信息的融合原理。

在图7所示的经验模型中，通信网络输出的整合环境信息x_t与态势信息m_t分别作为各自LSTM网络的输入，两种信息的融合在LSTM输出端通过门控电路进行融合；通过该门控电路，两种信号可以进行融合；此处的门控电路可以定义不同的融合方式，如加权的方式等。

作为一种实施例，在上述步骤S204中从动作集合中选取部分节点的待执行动作的过程中，可以根据各待执行动作的历史选择概率(即条件概率分布)的情况进行，如按照如下公式9示意出的原理进行。

公式9：

即当前的并行a^l动作仅与并行动作中的之前的动作相关；公式9示意出的条件概率分布模型一定程度地减少了动作空间复杂度，使得优化相对容易；为设计该条件概率分布模型，可以通过循环神经网络进行状态与输出的映射，并基于状态的转移模拟条件概率。

请参见图8，本申请实施例还提供了一种用于从动作集合中选取部分节点的待执行动作的动作决策网络，将不同节点的待执行动作输入动作决策网络，并利用全连接层网络(FC Layer)对各节点的待执行动作进行分散，并各自输出待执行动作。其中在将各节点的待执行动作进行分散时，对于离散型动作，可以采用softmax激活函数进行输出的计算，以筛选包括节点类型和节点命令的动作；对于连续性动作，则可以直接基于regression，并采用Relu激活函数进行最后连续值的输出。

本申请实施例以下内容给出一个决策引擎的基本框图，上述服务器120可以是决策引擎的服务器，请参见图9，该决策引擎中包括注意力网络模901、通信网络模块902、循环神经网络模块903以及决策网络模块904，其中：

注意力网络模块901用于实现上述步骤S201的过程，对通过传感器在t时刻(当前时刻)感知得到的各个节点的当前环境信息进行筛选，获得目标环境信息，进而将目标环境信息发送给各个节点。

通信网络模块902用于各个节点进行互相通信，各个节点可以通信网络模块获得其它节点的基本环境信息，并将自身的基本环境信息与其它节点的基本环境信息进行整合，得到自身的整合环境信息。

循环神经网络模块903用于实现上述步骤S203的过程，基于各个节点的整合环境信息，获取包含各个节点选取的待执行动作的动作集合，并将动作集合传递给决策网络模块904处理。

决策网络模块904用于实现上述步骤S204的过程，可以根据历史动作选择信息，从动作集合中选取部分节点的待执行动作确定为决策结果，详细内容可参见上述描述，此处不再重复叙述。

本申请实施例中各节点能够自主学习选取待执行动作，多节点的系统的服务器也根据多个节点的整合环境信息，通过自主学习选取部分节点的待执行动作，从而时针对多个智能体的智能决策系统实现自主学习，根据各节点的整合环境选取部分智能体利用强化学习确定的待执行动作，并利用选取的待执行动作构建出高效的序列动作集作为决策结果，提升了智能决策系统的灵活度和决策的准确度，且在决策过程中能够自主性学习以积累经验，具有自我演进的能力。

如图10所示，基于相同的发明构思，本申请实施例还提供一种多智能体的动作决策装置1000，该装置包括：

状态信息筛选单元1001，被配置为执行对感知的多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点，上述节点包括智能体或服务；

整合环境信息获取单元1002，被配置为执行获取各节点的整合环境信息；其中，一个节点的整合环境信息包括上述一个节点基于接收的目标环境信息和历史信息且利用强化学习选取的待执行动作；上述历史信息包括上述一个节点在历史时刻的节点类型及执行的动作，且上述历史信息是上述一个节点从历史接收的目标环境信息中获得的；

动作集合获取单元1003，被配置为执行基于上述各节点的整合环境信息，获取上述多个节点对应的动作集合，上述动作集合包括按照执行时间排序后的上述各节点的待执行动作；

决策单元1004，被配置为执行根据历史动作选择信息，从上述动作集合中选取部分节点的待执行动作，并根据选取的待执行动作构建序列动作集，上述序列动作集中包括按照设定执行顺序排列后的上述选取的待执行动作。

作为一种实施例，状态信息筛选单元1001具体被配置为执行：

利用注意力网络，对上述多个节点的当前环境信息进行状态转换，获得多个状态特征集合；

对各状态特征集合进行处理，获得上述各状态特征集合对应的注意力分布概率；

根据注意力分布概率的大小，从上述各状态特征集合对应的注意力分布概率中选取部分注意力分布概率；

利用选取的注意力分布概率对相应的状态特征集合进行加权处理，获得上述目标环境信息。

作为一种实施例，上述一个节点的整合环境信息是上述一个节点将自身的基本环境信息和上述一个节点之外的其它节点的基本环境信息进行整合处理得到的，其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息。

作为一种实施例，动作集合获取单元1003具体被配置为执行：

基于上述各节点的整合环境信息的时间特征，利用循环神经网络对上述各节点的整合环境信息进行处理，获取上述各节点的历史整合环境信息和当前整合环境信息；

基于上述各节点的历史整合环境信息和当前整合环境信息，获取上述各节点的待执行动作；

将上述各节点的待执行动作按照执行时间排序，得到上述动作集合。

作为一种实施例，决策单元1004具体被配置为执行：

根据各节点的待执行动作的历史选择概率的大小，从上述动作集合中选取部分节点的待执行动作。

作为一种实施例，决策单元1004具体被配置为执行：

作为一种实施例，决策单元1004还被配置为执行：

从上述动作集合中选取部分节点的待执行动作之后，对选取的各节点的待执行动作的可靠度进行验证，若验证失败，则随机从上述动作集合中选取部分节点的待执行动作。

作为一种实施例，上述历史时刻包括早于当前时刻且与当前时刻的时间间隔小于时间阈值的时刻；或

上述历史时刻包括早于当前时刻且距离当前时刻最近的时刻。

如图11所示，本申请提供一种电子设备1100，包括处理器1101、用于存储上述处理器可执行指令的存储器1102；

其中，上述处理器被配置为执行上述任意一种多智能体的动作决策方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由上述电子设备的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种多智能体的动作决策方法，其特征在于，应用于服务器，包括：

2.如权利要求1所述的方法，其特征在于，所述对感知的多个节点的当前环境信息进行筛选，获得目标环境信息并发送给各节点，包括：

3.如权利要求1所述的方法，其特征在于，所述一个节点的整合环境信息是所述一个节点将自身的基本环境信息和所述一个节点之外的其它节点的基本环境信息进行整合处理得到的，其中每个节点的基本环境信息包括其当前接收的目标环境信息和历史接收的目标环境信息。

4.如权利要求1所述的方法，其特征在于，所述基于所述各节点的整合环境信息，获取所述多个节点对应的动作集合，包括：

5.如权利要求1所述的方法，其特征在于，所述根据历史动作选择信息，从所述动作集合中选取部分节点的待执行动作，包括：

6.如权利要求5所述的方法，其特征在于，所述根据各节点的待执行动作的历史选择概率的大小，从所述动作集合中选取部分节点的待执行动作，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述历史时刻包括早于当前时刻且与当前时刻的时间间隔小于时间阈值的时刻；或

8.一种多智能体的动作决策装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1-7中任一项所述的方法。