CN114118400B

CN114118400B - 一种基于专注网络的集群对抗方法及装置

Info

Publication number: CN114118400B
Application number: CN202111183478.9A
Authority: CN
Inventors: 丘腾海; 付清旭; 蒲志强; 刘振; 易建强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2023-01-03
Anticipated expiration: 2041-10-11
Also published as: CN114118400A

Abstract

本发明提供一种基于专注网络的集群对抗方法、装置、设备、介质和产品，其中，该方法包括：获取集群中智能体的自身观测状态和环境观测状态；基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征；将估计威胁评估参数和环境状态特征输入行动‑评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。增强了集群对威胁场景的特征提取能力，加速集群对周围威胁环境的迭代更新学习，能够有效实现复杂环境下大规模集群的对抗。

Description

一种基于专注网络的集群对抗方法及装置

技术领域

本发明涉及无人集群领域，尤其涉及一种基于专注网络的集群对抗方法、装置、设备、介质和产品。

背景技术

无人集群可以通过合作和竞争形成集群行为，完成个体无法实现的复杂任务，比如集群对抗、覆盖和追逃围捕等，提高任务的完成度、执行效率和成功概率等。近些年，多智能体强化学习作为无人集群系统中最有可能成为通用人工智能的技术路线之一，是众多研究人员的研究热点，具有非常大的应用潜力，同时也存在很大的挑战。相比于单智能体强化学习问题，多智能体的强化学习由于需要考虑智能体与环境、邻居智能体的交互关系和优化策略，显得更为复杂。尤其，对于集群对抗问题，智能体不仅要与邻居智能体展开合作，还与对手智能体进行竞争和对抗。

现在有不少针对集群协同对抗的研究，有些采用深度图神经网络的方法，能够促进和引导集群完成任务的集群协同行为，但需要所有智能体间进行低延迟通信，以满足频繁的信息交互，这导致算法仿真与分布式应用存在较大差距。因此，有人提出基于注意力机制的集群协同方法，从多种特征状态输入中获取到最重要的交互信息。但随着智能体数量的增加，存在注意力聚合函数非线性逼近误差变大，观测特征中重要信息削弱，导致注意力机制性能退化等问题。此外，现有大部分研究更多是针对小规模集群对抗，往往集群个数小于20个智能体，尚未涉及大规模集群的协同。综上所述，现有方法随着智能体数量的增加，存在注意力聚合函数非线性逼近误差变大，观测特征中重要信息削弱，导致注意力机制性能退化，且要求通信低延迟，因此只能一定程度上解决小规模的集群控制。大规模集群协同对抗问题有待进一步研究和解决。

发明内容

本发明提供一种基于专注网络的集群对抗方法、装置、设备、介质和产品，旨在解决随着集群规模扩大，现有技术存在注意力聚合函数非线性逼近误差变大，观测特征中重要信息削弱，使得注意力机制性能退化等问题，导致集群控制效果不佳，无法有效实现大规模集群协同对抗的问题。

第一方面，本发明提供了一种基于专注网络的集群对抗方法，包括：获取集群中智能体的自身观测状态和环境观测状态；基于所述自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征；将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络，得到所述智能体的动作策略，使所述智能体根据所述动作策略完成动作。

进一步地，所述基于所述自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，包括：通过多层感知机编码网络对所述自身观测状态进行特征提取，得到自身观测状态特征矩阵；通过所述多层感知机编码网络对所述环境观测状态进行特征提取，得到环境观测状态特征矩阵；根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征。

进一步地，所述根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征，包括：基于所述自身观测状态特征矩阵，通过所述专注网络的查询模块确定查询目标特征；基于所述环境观测状态特征矩阵，通过所述专注网络的键模块确定键目标特征；基于所述查询目标特征和所述键目标特征，通过softmax函数确定专注权重系数；基于所述专注权重系数和所述环境观测状态特征矩阵，通过所述专注网络的排序模块确定新的状态特征矩阵；基于所述专注权重系数，通过所述排序模块确定新的专注权重系数；基于所述新的专注权重系数和所述新的状态特征矩阵，通过所述专注网络的动机模块确定所述估计威胁评估参数；基于所述新的状态特征矩阵，通过所述专注网络的截断模块，确定截断后的所述新的状态特征矩阵；基于所述截断后的所述新的状态特征矩阵，通过特征堆叠函数，确定所述环境状态特征。

进一步地，所述将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络，得到所述智能体的动作策略，包括：将所述估计威胁评估参数输入所述行动-评价网络的评价网络，得到策略优势评价系数；将所述环境状态特征输入所述行动-评价网络的行动网络，得到动作策略，所述策略优势评价系数用于评价所述动作策略。

第二方面，本发明还提供了一种基于专注网络的集群对抗装置，包括：第一处理模块，用于获取集群中智能体的自身观测状态和环境观测状态；第二处理模块，用于基于所述自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征；第三处理模块，用于将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络，得到所述智能体的动作策略，使所述智能体根据所述动作策略完成动作。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于专注网络的集群对抗方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于专注网络的集群对抗方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一种所述基于专注网络的集群对抗方法的步骤。

本发明提供的一种基于专注网络的集群对抗方法、装置、设备、介质和产品，通过将自身观测状态和环境观测状态通过专注网络进行融合，确定估计威胁评估参数和环境状态特征；将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。可以看出，动作策略融合了环境状态特征，且结合了估计威胁评估参数，因此，增强了集群对威胁场景的特征提取能力，加速集群对周围威胁环境的迭代更新学习，能够有效实现复杂环境下大规模集群的对抗。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明提供的基于专注网络的集群对抗方法的一些实施例的流程示意图；

图2是根据本发明提供的基于专注网络的集群对抗方法的另一些实施例的流程示意图；

图3-1是根据本发明提供的基于专注网络的集群对抗方法的专注网络的结构示意图；

图3-2是根据本发明提供的基于专注网络的集群对抗方法的行动-评价网络的结构示意图；

图4是根据本发明提供的基于专注网络的集群对抗装置的一些实施例的结构示意图；

图5是根据本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本发明。

请参阅图1，图1是本发明提供的基于专注网络的集群对抗方法的一些实施例的流程示意图。如图1所示，该方法包括以下步骤：

步骤101，获取集群中智能体的自身观测状态和环境观测状态。

在一些实施例中，对于集群中每一个智能体，获取智能体的自身观测状态和环境观测状态，其中，自身观测状态包括智能体的位置、速度、飞行角度等。环境观测状态包括邻居智能体的状态和对手智能体的状态，邻居智能体的状态和对手智能体的状态也包括其位置、速度、飞行角度等。

步骤102，基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征。

在一些实施例中，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征。专注网络可以包括查询模块、键模块、排序模块、截断模块和动机模块等，查询模块可以用于提取网络查询目标特征，键模块可以用于提取键目标特征，排序可以模块用于对特征向量进行从大到小或者从小到大的排序，截断模块可以用于截断特征向量，动机模块可以用于训练专注网络中的权重系数。估计威胁评估参数表示智能体在当前状态中的预计受到的威胁，环境状态特征表示对于智能体而言，当前所处的环境状态。

步骤103，将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。

在一些实施例中，行动-评价网络可以采用多层感知机(Multilayer Perceptron，简称MLP)，也叫人工神经网络(Artificial Neural Network，简称ANN)的结构。行动-评价网络也可以采用基于最优策略的算法(Proximal Policy Optimization，简称PPO)的深度强化学习架构。以行动-评价网络为PPO为例，在训练行动-评价网络时学习速率可以为5e-4，且可以将连续存储的64个回合的集群轨迹作为训练数据。评价网络负责对行动网络选择的动作进行评价，行动网络直接输出动作，驱动智能体进行动作。

本发明一些实施例公开的基于专注网络的集群对抗方法，通过将自身观测状态和环境观测状态通过专注网络进行融合，确定估计威胁评估参数和环境状态特征；将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。可以看出，动作策略融合了环境状态特征，且结合了估计威胁评估参数，因此，增强了集群对威胁场景的特征提取能力，加速集群对周围威胁环境的迭代更新学习，能够有效实现复杂环境下大规模集群的对抗。

请参阅图2，图2是根据本发明的基于专注网络的集群对抗方法的另一些实施例的流程图。如图2所示，该方法包括以下步骤：

步骤201，获取集群中智能体的自身观测状态和环境观测状态。

在一些实施例中，步骤201的具体实现及其所带来的技术效果，可以参考图1对应的实施例中的步骤101，在此不再赘述。

步骤202，基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征。

在一些可选的实现方式中，基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，可以包括：通过多层感知机编码网络对自身观测状态进行特征提取，得到自身观测状态特征矩阵；通过多层感知机编码网络对环境观测状态进行特征提取，得到环境观测状态特征矩阵；根据自身观测状态特征矩阵和环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征。

作为示例，自身观测状态特征矩阵和环境观测状态特征矩阵可以表示为：

v_s＝Encoder(z_s)

v_e＝Encoder(z_e) (公式1)

其中，v_s、v_e分别表示智能体自身观测状态特征矩阵和环境观测状态特征矩阵，Encoder()表示多层感知机编码网络，z_s和z_e分别表示智能体的自身观测状态和环境观测状态。多层感知机编码网络用于提取自身观测状态和环境观测状态的特征，多层感知机编码网络可以选取现有的网络模型，也可以根据需要构建适合的网络模型。

在一些可选的实现方式中，根据自身观测状态特征矩阵和环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征，可以包括：基于自身观测状态特征矩阵，通过专注网络的查询模块确定查询目标特征；基于环境观测状态特征矩阵，通过专注网络的键模块确定键目标特征；基于查询目标特征和键目标特征，通过softmax函数确定专注权重系数；基于专注权重系数和环境观测状态特征矩阵，通过专注网络的排序模块确定新的状态特征矩阵；基于专注权重系数，通过排序模块确定新的专注权重系数；基于新的专注权重系数和新的状态特征矩阵，通过专注网络的动机模块确定估计威胁评估参数；基于新的状态特征矩阵，通过专注网络的截断模块，确定截断后的新的状态特征矩阵；基于截断后的新的状态特征矩阵，通过特征堆叠函数，确定环境状态特征。专注网络结构可以参考图3-1。

作为示例，基于查询目标特征和键目标特征，通过softmax函数确定专注权重系数，可以表示为：

其中，W_q,W_k表示系数，d_k表示向量v_s的维度，ω_e表示专注权重系数。

基于专注权重系数和环境观测状态特征矩阵，通过专注网络的排序模块确定新的状态特征矩阵，以及，基于专注权重系数，通过排序模块确定新的专注权重系数，可以表示为：

v_e′＝Sort(v_e|ω_e)

ω′_e＝Sort(ω_e) (公式3)

其中，v_e′、ω′_e分别表示新的状态特征矩阵和新的专注权重系数，Sort()表示对其进行由大到小的排序。

基于新的专注权重系数和新的状态特征矩阵，通过专注网络的动机模块确定估计威胁评估参数；基于新的状态特征矩阵，通过专注网络的截断模块，确定截断后的新的状态特征矩阵；基于截断后的新的状态特征矩阵，通过特征堆叠函数，确定环境状态特征，可以表示为：

v^M＝f[ω′_e.(v′_eW_q)]

v^C＝MLP(Stack(Drop[v′_e|d_p])) (公式4)

其中，Drop[v′_e|d_p]表示截断后的新的状态特征矩阵，即保留矩阵前d_p行的数据，删除其余行，d_p表示行数，v^c表示环境状态特征，

代表估计威胁评估参数，f()，g_k()，MLP()都表示多层感知机模型，Stack()表示numpy库的特征堆叠函数。

步骤203，将估计威胁评估参数输入行动-评价网络的评价网络，得到策略优势评价系数。

作为示例，行动-评价网络结构可以参考图3-2。

作为示例，评价网络的损失值可以通过以下式子计算得到：

Ψ_ut(Γ)＝[Ψ(·)|Ψ(·)≥-T_m]

其中，λ_value，λ_Ψ表示两项损失函数的权重系数，Ψ(·)表示智能体的威胁估计函数，T_m表示超参数，其作为威胁估计的阈值，L(Γ)表示评价网络的损失函数，Γ表示智能体的历史轨迹集合，L_value(Γ)表示评价网络常规损失函数，L_Ψ(Γ)表示智能体的威胁评估损失函数，

Ψ_ut分别表示估计和实际的威胁评估参数，MSE[·]可以表示回归代价函数。

其中，智能体的威胁估计函数Ψ(·)的具体表达式可以是：

其中，Ψ(t,i|s)表示实际的威胁评估函数，T_i表示智能体i在当前局的存活的实际总时长，t表示智能体i在当前局从开始到当前时刻的存活时间，s表示第i个智能体的状态s，threat()表示威胁函数，

表示从第t时刻开始的智能体轨迹的平均威胁估计，τ_i(t)表示智能体i在第t时刻的轨迹，包含在智能体i的历史轨迹集合Γ中，T_m表示判断威胁的阈值。

步骤204，将环境状态特征输入行动-评价网络的行动网络，得到动作策略，策略优势评价系数用于评价动作策略。

在一些实施例中，动作策略表示智能体接下来的一个连续动作，比如可以表示智能体在一段时间的运行速度的变化、运行方向的变化和打击对象等。策略优势评价系数可以是一个常数，表示评价动作策略的等级或者分数。在训练行动-评价网络时，可以将估计威胁评估参数和动作策略输入到评价网络中的损失函数，根据损失函数的结果更新行动-评价网络的参数。评价网络的损失函数结合了估计和实际威胁评估参数，增强了行动网络对威胁场景的特征提取能力，实现了行动-评价网络对周围威胁环境的快速迭代更新学习。

从图2中可以看出，与图1对应的一些实施例的描述相比，图2对应的一些实施例中的基于专注网络的集群对抗方法体现了评价-行动网络的结构，将估计威胁评估参数输入评价网络，得到策略优势评价系数，策略优势评价系数用于评价动作策略。可以看出，利用估计威胁评估参数训练和评估行动-评价网络，可以提高行动-评价网络对威胁场景的特征提取能力，使动作策略能够参考周围威胁环境的变化。也能使策略优势评价系数可以根据周围威胁环境的变化来评价动作策略。

请参阅图4，图4是根据本发明提供的基于专注网络的集群对抗装置的一些实施例的结构示意图，作为对上述各图所示方法的实现，本发明还提供了一种基于专注网络的集群对抗装置的一些实施例，这些装置实施例与图1所示的一些方法的实施例相对应，且该装置可以应用于各种电子设备中。

如图4所示，一些实施例的基于专注网络的集群对抗装置400包括第一处理模块401、第二处理模块402、第三处理模块403：第一处理模块401，用于获取集群中智能体的自身观测状态和环境观测状态；第二处理模块402，用于基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征；第三处理模块403，用于将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。

在一些实施例的可选实现方式中，第二处理模块402，还包括：第一处理单元，用于通过多层感知机编码网络对自身观测状态进行特征提取，得到自身观测状态特征矩阵；第二处理单元，用于通过多层感知机编码网络对环境观测状态进行特征提取，得到环境观测状态特征矩阵；第三处理单元，用于根据自身观测状态特征矩阵和环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征。

在一些实施例的可选实现方式中，第三处理单元，还用于：基于自身观测状态特征矩阵，通过专注网络的查询模块确定查询目标特征；基于环境观测状态特征矩阵，通过专注网络的键模块确定键目标特征；基于查询目标特征和键目标特征，通过softmax函数确定专注权重系数；基于专注权重系数和环境观测状态特征矩阵，通过专注网络的排序模块确定新的状态特征矩阵；基于专注权重系数，通过排序模块确定新的专注权重系数；基于新的专注权重系数和新的状态特征矩阵，通过专注网络的动机模块确定估计威胁评估参数；基于新的状态特征矩阵，通过专注网络的截断模块，确定截断后的新的状态特征矩阵；基于截断后的新的状态特征矩阵，通过特征堆叠函数，确定环境状态特征。

在一些实施例的可选实现方式中，第三处理模块403还用于将估计威胁评估参数输入行动-评价网络的评价网络，得到策略优势评价系数；将环境状态特征输入行动-评价网络的行动网络，得到动作策略，策略优势评价系数用于评价动作策略。

可以理解的是，该装置400中记载的各模块与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置400及其中包含的模块、单元，在此不再赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行基于专注网络的集群对抗方法，该方法包括：获取集群中智能体的自身观测状态和环境观测状态；基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征；将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，上述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，上述计算机程序包括程序指令，当上述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于专注网络的集群对抗方法，该方法包括：获取集群中智能体的自身观测状态和环境观测状态；基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征；将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于专注网络的集群对抗方法，该方法包括：获取集群中智能体的自身观测状态和环境观测状态；基于自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征；将估计威胁评估参数和环境状态特征输入行动-评价网络，得到智能体的动作策略，使智能体根据动作策略完成动作。

以上所描述的装置实施例仅仅是示意性的，其中上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分上述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于专注网络的集群对抗方法，其特征在于，包括：

获取集群中智能体的自身观测状态和环境观测状态；基于所述自身观测状态和环境观测状态，通过专注网络包括的查询模块、键模块、排序模块、截断模块和动机模块，确定估计威胁评估参数和环境状态特征，所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征；

将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络，得到所述智能体的动作策略，使所述智能体根据所述动作策略完成动作；

其中，所述自身观测状态包括智能体的位置、速度和飞行角度，所述环境观测状态包括邻居智能体的状态和对手智能体的状态，邻居智能体的状态和对手智能体的状态均包括其位置、速度和飞行角度；

查询模块用于提取网络查询目标特征，键模块用于提取键目标特征，排序模块用于对特征向量进行从大到小或者从小到大的排序，截断模块用于截断特征向量，动机模块用于训练专注网络中的权重系数；

动作策略表示智能体在一段时间的运行速度的变化、运行方向的变化和打击对象。

2.根据权利要求1所述的基于专注网络的集群对抗方法，其特征在于，所述基于所述自身观测状态和环境观测状态，通过专注网络，确定估计威胁评估参数和环境状态特征，包括：

通过多层感知机编码网络对所述自身观测状态进行特征提取，得到自身观测状态特征矩阵；

通过所述多层感知机编码网络对所述环境观测状态进行特征提取，得到环境观测状态特征矩阵；

根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征。

3.根据权利要求2所述的基于专注网络的集群对抗方法，其特征在于，所述根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征，包括：

基于所述自身观测状态特征矩阵，通过所述专注网络的查询模块确定查询目标特征；

基于所述环境观测状态特征矩阵，通过所述专注网络的键模块确定键目标特征；

基于所述查询目标特征和所述键目标特征，通过softmax函数确定专注权重系数；

基于所述专注权重系数和所述环境观测状态特征矩阵，通过所述专注网络的排序模块确定新的状态特征矩阵；

基于所述专注权重系数，通过所述排序模块确定新的专注权重系数；

基于所述新的专注权重系数和所述新的状态特征矩阵，通过所述专注网络的动机模块确定所述估计威胁评估参数；

基于所述新的状态特征矩阵，通过所述专注网络的截断模块，确定截断后的所述新的状态特征矩阵；

基于所述截断后的所述新的状态特征矩阵，通过特征堆叠函数，确定所述环境状态特征。

4.根据权利要求1所述的基于专注网络的集群对抗方法，其特征在于，所述将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络，得到所述智能体的动作策略，包括：

将所述估计威胁评估参数输入所述行动-评价网络的评价网络，得到策略优势评价系数；

将所述环境状态特征输入所述行动-评价网络的行动网络，得到动作策略，所述策略优势评价系数用于评价所述动作策略。

5.一种基于专注网络的集群对抗装置，其特征在于，包括：

第一处理模块，用于获取集群中智能体的自身观测状态和环境观测状态；

第二处理模块，用于基于所述自身观测状态和环境观测状态，通过专注网络包括的查询模块、键模块、排序模块、截断模块和动机模块，确定估计威胁评估参数和环境状态特征，所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征；

第三处理模块，用于将所述估计威胁评估参数和所述环境状态特征输入行动-评价网络，得到所述智能体的动作策略，使所述智能体根据所述动作策略完成动作；

6.根据权利要求5所述的基于专注网络的集群对抗装置，其特征在于，所述第二处理模块，还包括：

第一处理单元，用于通过多层感知机编码网络对所述自身观测状态进行特征提取，得到自身观测状态特征矩阵；

第二处理单元，用于通过所述多层感知机编码网络对所述环境观测状态进行特征提取，得到环境观测状态特征矩阵；

第三处理单元，用于根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵，通过专注网络，确定估计威胁评估参数和环境状态特征。

7.根据权利要求6所述的基于专注网络的集群对抗装置，其特征在于，所述第三处理单元，还用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的基于专注网络的集群对抗方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于专注网络的集群对抗方法的步骤。

10.一种计算机系统，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于专注网络的集群对抗方法的步骤。