CN114815904A

CN114815904A - 基于注意力网络的无人集群对抗方法、装置及无人设备

Info

Publication number: CN114815904A
Application number: CN202210745988.9A
Authority: CN
Inventors: 丘腾海; 张天乐; 蒲志强; 刘振; 易建强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-07-29
Anticipated expiration: 2042-06-29
Also published as: CN114815904B

Abstract

本发明提供一种基于注意力网络的无人集群对抗方法、装置及无人设备，涉及无人设备自动化技术领域，该方法包括：根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定无人设备中的第二无人设备在当前时刻所对应的特征信息，无人设备包括第一无人设备和第二无人设备；根据特征信息，确定第二无人设备在当前时刻所对应的当前环境嵌入特征；根据当前环境嵌入特征，基于预设的分布式策略头网络，确定第一无人设备的对抗动作，预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。该方法可实现第一无人设备具有更高的自主决策能力，从而能够准确且有效地对抗其它无人集群。

Description

基于注意力网络的无人集群对抗方法、装置及无人设备

技术领域

本发明涉及无人设备自动化技术技术领域，尤其涉及一种基于注意力网络的无人集群对抗方法、装置及无人设备。

背景技术

随着科学技术的发展，由于无人设备（例如无人机、无人车等）具有高机动性、强隐蔽性和无人驾驶等特点，所以，该无人设备可广泛应用于各类军事场景，比如探测、监视和对抗等高动态复杂环境。

在现有的集群对抗方法中，第一无人集群通常利用多智能体（Multi-Agent PPO，MAPPO）方法或自回归分布滞后模型（Autoregressive Distributed Lag，ADRL）方法对其它无人集群进行对抗。由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性，所以，无论该第一无人集群是利用MAPPO方法，还是利用ADRL方法，都会导致该第一无人集群无法准确且有效地对抗其它无人集群。

发明内容

本发明提供一种基于注意力网络的无人集群对抗方法、装置及无人设备，用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性，导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷，实现第一无人设备具有更高的自主决策能力，从而能够准确且有效地对抗其它无人集群。

本发明提供一种基于注意力网络的无人集群对抗方法，应用于第一无人设备，该方法包括：

根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息，该无人设备包括该第一无人设备和该第二无人设备；

根据该特征信息，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征；

根据该当前环境嵌入特征，基于预设的分布式策略头网络，确定该第一无人设备的对抗动作，该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

根据本发明提供的一种无人集群对抗方法，该根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息，包括：获取无人设备在当前时刻所对应的观测信息；根据该观测信息，基于预设的观测注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息；根据该观测特征信息，基于预设的通信注意力网络，确定该第二无人设备在该当前时刻所对应的通信特征信息。

根据本发明提供的一种无人集群对抗方法，该根据该观测信息，基于预设的观测注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息，包括：基于预设的观测注意力网络，提取该观测信息对应的信息特征；根据该信息特征，确定该观测信息对应的观测键向量、观测查询向量和观测值向量；根据该观测键向量和该观测查询向量，确定该无人设备中的第二无人设备对应的第一权重；根据该观测值向量和该第一权重，确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息。

根据本发明提供的一种无人集群对抗方法，该根据该观测特征信息，基于预设的通信注意力网络，确定该第二无人设备在该当前时刻所对应的通信特征信息，包括：根据该观测特征信息，确定该第二无人设备在该当前时刻所对应的通信信息；基于预设的通信注意力网络，提取该通信信息对应的通信键向量、通信查询向量和通信值向量；根据该通信键向量和该通信查询向量，在该第二无人设备中，确定与该第一无人设备通信连接的目标无人设备及该目标无人设备对应的第二权重；根据该通信值向量和该第二权重，确定该目标无人设备在该当前时刻所对应的通信特征信息。

根据本发明提供的一种无人集群对抗方法，该根据该特征信息，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征，包括：获取该第二无人设备在上一时刻所对应的第一环境嵌入特征；根据该特征信息和该第一环境嵌入特征，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。

根据本发明提供的一种无人集群对抗方法，该根据该特征信息和该第一环境嵌入特征，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征，包括：根据该观测特征信息、该通信特信息征和该第一环境嵌入特征，基于门控循环单元，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。

根据本发明提供的一种无人集群对抗方法，该方法还包括：根据该对抗动作，确定该第一无人设备对应的奖惩函数；利用该奖惩函数对该预设的分布式策略头网络进行更新，得到更新后的分布式策略头网络，并将该更新后的分布式策略头网络作为该第一无人设备中新的预设的分布式策略头网络。

根据本发明提供的一种无人集群对抗方法，该根据该对抗动作，确定该第一无人设备对应的奖惩函数，包括：获取该第一无人设备对应的状态信息；根据该状态信息和该对抗动作，确定该第一无人设备对应的个体惩罚函数；根据该观测信息中包括的该第二无人设备的健康值，确定团队惩罚函数；根据该个体惩罚函数和该团队惩罚函数，确定该第一无人设备对应的奖惩函数。

本发明还提供一种无人集群对抗装置，应用于第一无人设备，包括：

获取模块，用于获取的无人设备在当前时刻所对应的观测信息；

确定模块，用于根据该观测信息，基于预设的注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息，该无人设备包括该第一无人设备和该第二无人设备；根据该特征信息和该第一环境嵌入特征，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征；根据该当前环境嵌入特征，基于预设的分布式策略头网络，确定该第一无人设备的对抗动作，该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

本发明还提供一种无人设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如上述任一种该基于注意力网络的无人集群对抗方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种该基于注意力网络的无人集群对抗方法。

本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述任一种该基于注意力网络的无人集群对抗方法。

本发明提供的基于注意力网络的无人集群对抗方法、装置及无人设备，通过第一无人设备根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，可以准确确定该第二无人设备在该当前时刻所对应的特征信息，该无人设备包括该第一无人设备和该第二无人设备，也就是说，该特征信息的准确性较高；根据该特征信息，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征，该当前环境嵌入特征的准确性也较高；根据该当前环境嵌入特征，基于预设的分布式策略头网络，确定该第一无人设备的对抗动作，该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。也即，第一无人设备可基于获取到的观测信息，准确确定该第一无人设备的对抗动作决策信息。该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性，导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷，实现第一无人设备具有更高的自主决策能力，从而能够准确且有效地对抗其它无人集群。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图之一；

图2是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图之二；

图3是本发明提供的基于注意力网络的无人集群对抗方法的仿真波形图；

图4是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图之一；

图5是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图之二；

图6是本发明提供的无人集群对抗装置的结构示意图；

图7是本发明提供的无人设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例涉及的无人驾驶设备（简称：无人设备）可以包括但不限于：无人机，无人车及无人船等。

上述无人设备指的是不载人设备。其中，无人机指的是不载人飞机，无人车指的是不载人车辆，无人船指的是不载人船只。

在一些实施例中，不同的无人设备之间可以连接同一个无线通信技术，该无线通信技术可以包括但不限于以下其中一项：第四代通讯技术（the 4 Generation mobilecommunication technology，4G）、第五代通讯技术（the 5 Generation mobilecommunication technology，5G）及无线保真技术（Wireless Fidelity，WiFi）等。

需要说明的是，本发明实施例的执行主体可以是无人集群对抗装置，也可以是第一无人设备。下面以第一无人设备为例对基于注意力网络的无人集群对抗方法进行进一步地说明。

如图1所示，是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图，可以包括：

101、根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定无人设备中的第二无人设备在当前时刻所对应的特征信息。

其中，无人设备包括第一无人设备和第二无人设备。

该第二无人设备为该第一无人设备周围的无人设备。

第一无人设备不仅要获取自身在当前时刻所对应的观测信息，还要获取周围的第二无人设备在当前时刻所对应的观测信息；然后，该第一无人设备再根据获取的所有观测信息，基于预设的注意力网络，可准确得到该第二无人设备对应的特征信息。

可选的，观测信息可以包括但不限于以下至少一项：位置信息、速度信息及健康值信息等。

可选的，位置信息可以包括但不限于：经度信息和纬度信息等；速度信息可以包括但不限于：运行速度信息和运行加速度信息等；健康值信息可以包括但不限于：姿态数据信息和电池电量信息等。

可选的，预设的注意力网络可以包括但不限于：预设的观测注意力网络和预设的通信注意力网络等。

特征信息可以包括但不限于：观测特征信息和通信特征信息等。

其中，预设的观测注意力网络可以用于得到无人设备中的第二无人设备在当前时刻所对应的观测特征信息；预设的通信注意力网络可以用于得到该第二无人设备在当前时刻所对应的通信特征信息。

在一些实施例中，第一无人设备获取无人设备在当前时刻所对应的特征信息，可以包括：第一无人设备在预设距离范围内，获取无人设备在当前时刻所对应的特征信息。

可选的，预设距离范围指的是第一无人设备可观测到的距离范围，该预设距离范围可以是第一无人设备出厂前设置的，也可以是用户根据大量仿真实验数据得到的，此处不作具体限定。也就是说，第二无人设备为第一无人设备可观测到的无人设备。

示例性的，假设预设距离范围为10米（m）。第一无人设备可以在以该第一无人设备为中心，半径为10 m的范围内，获取该第一无人设备及第二无人设备在当前时刻所对应的特征信息。

在一些实施例中，第二无人设备中的部分无人设备为第一无人设备的友方无人设备，也可称为我方无人设备或目标无人设备，该第二无人设备中除友方无人设备以外的无人设备为该第一无人设备的敌方无人设备。

可选的，敌方无人设备的数量为至少一个，友方无人设备的数量不限。也就是说，第二无人设备的数量为至少一个。当第二无人设备的数量为一个时，该第二无人设备应为敌方无人设备，否则，第一无人设备无法实现与第二无人设备进行有效对抗。

102、根据特征信息，确定第二无人设备在当前时刻所对应的当前环境嵌入特征。

可选的，第一无人设备根据特征信息，确定第二无人设备在当前时刻所对应的当前环境嵌入特征，可以包括：第一无人设备获取第二无人设备在上一时刻所对应的第一环境嵌入特征；该第一无人设备根据特征信息和第一环境嵌入特征，确定第二无人设备在当前时刻所对应的当前环境嵌入特征。

可选的，环境嵌入特征可以包括但不限于：天气特征、地形特征及障碍物特征等。

可选的，该天气特征可包括但不限于以下至少一项：风速、雨量、气压、温度及湿度等；地形特征可包括但不限于以下至少一项：地物特征、地貌特征、土壤特征、植被特征、居民点特征及交通线特征等。

其中，障碍物特征指的是能够迟滞或阻止第一无人设备运动的物体特征。

在一些实施例中，当前时刻上一时刻是相邻的。

可选的，第一无人设备根据特征信息和第一环境嵌入特征，确定第二无人设备在当前时刻所对应的当前环境嵌入特征，可以包括：根据观测特征信息、通信特信息征和第一环境嵌入特征，基于门控循环单元，确定第二无人设备在当前时刻所对应的当前环境嵌入特征。

门控循环单元（Gated Recurrent Unit，GRU）是一种门控循环神经网络（GatedRecurrent Neural Network，GRNN），可较好捕捉时间序列中时间步距离较大的依赖关系。也就是说，第一无人设备利用第二无人设备在当前时刻所对应的观测特征信息和通信特信息征及上一时刻所对应的第一环境嵌入特征，利用GRU，可准确得到第二无人设备在当前时刻所对应的当前环境嵌入特征。

103、根据当前环境嵌入特征，基于预设的分布式策略头网络，确定第一无人设备的对抗动作。

其中，预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

可选的，对抗动作可以看作是一个空间，称为对抗动作空间。该对抗动作空间可以分为机动动作空间和打击动作空间。该机动动作控制可以包括但不限于：停止动作、速度动作、航向角动作及俯仰角动作等；该打击动作空间可以包括但不限于：载荷方位角动作和载荷俯仰角动作等。

示例性的，机动动作控制可以包括但不限于：1个停止动作、3个速度动作、8个航向角动作及5个俯仰角动作；打击动作空间可以包括但不限于：8个载荷方位角动作和5个载荷俯仰角动作。

由于预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的，所以，第一无人设备在获取当前环境嵌入特征之后，可以将该当前环境嵌入特征输入至该预设的分布式策略头网络中，得到该预设的分布式策略头网络输出的准确的对抗动作，使得该第一无人设备可有效对抗第二无人设备中的敌方无人设备。

在本发明实施例中，第一无人设备可基于获取到的该第一无人设备和第二无人设备对应的观测信息，准确确定该第一无人设备的对抗动作决策信息。该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性，导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷，实现第一无人设备具有更高的自主决策能力，从而能够准确且有效地对抗其它无人集群。

如图2所示，是本发明提供的基于注意力网络的无人集群对抗方法的流程示意图，可以包括：

201、获取无人设备在当前时刻所对应的观测信息。

其中，无人设备包括第一无人设备和第二无人设备。

第一无人设备需要获取该第一无人设备及至少一个无人设备中的每个第二无人设备在当前时刻所对应的观测信息，也就是说，该观测信息的数量为至少一个。

其中，至少一个观测信息可以作为一个观测信息矩阵。

202、根据观测信息，基于预设的观测注意力网络，确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。

可选的，第一无人设备根据观测信息，基于预设的观测注意力网络，确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息，可以包括：第一无人设备基于预设的观测注意力网络，提取观测信息对应的信息特征；该第一无人设备根据信息特征，确定观测信息对应的观测键向量、观测查询向量和观测值向量；该第一无人设备根据观测键向量和观测查询向量，确定无人设备中的第二无人设备对应的第一权重；该第一无人设备根据观测值向量和第一权重，确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。

可选的，第一无人设备基于预设的观测注意力网络，提取观测信息对应的信息特征，可以包括：第一无人设备基于预设的观测注意力网络中的第一特征提取公式，确定观测信息对应的信息特征。

其中，第一特征提取公式为

；

c_k表示第一无人设备i在可观测到的无人设备中，第k个无人设备在当前时刻所对应的观测信息，

表示观测信息c_k对应的信息特征，W_N表示可学习的第一参数矩阵；

表示第一无人设备i可观测到的无人设备的数量。

k≠i说明第一无人设备i在可观测到的无人设备中，第一无人设备i无法确定该第一无人设备i自身所对应的观测信息c_k，也无法确定观测信息c_i对应的信息特征

。也就是说，c_k表示该第一无人设备i在可观测到的第二无人设备中，第k个第二无人设备在当前时刻所对应的观测信息。

可选的，可学习的第一参数矩阵W_N是预设的观测注意力网络中基于历史观测信息集和历史信息特征集进行训练得到的，也就是说，可学习的第一参数矩阵W_N是该第一无人设备中预设的。

第一无人设备可以基于第一特征公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的信息特征。

可选的，第一无人设备根据信息特征，确定观测信息对应的观测键向量、观测查询向量和观测值向量，可以包括：第一无人设备基于第一键向量公式，得到观测信息对应的观测键向量；该第一无人设备基于第一查询向量公式，得到观测信息对应的观测查询向量；该第一无人设备基于第一值向量公式，得到观测信息对应的观测值向量。

其中，第一键向量公式为

；

表示观测键向量；

表示可学习的第二参数矩阵。

第一查询向量公式为

；

表示观测查询向量；

表示可学习的第三参数矩阵。

第一值向量公式为

；

表示观测值向量；

表示可学习的第四参数矩阵。

可选的，可学习的第二参数矩阵

是预设的通信注意力网络中基于历史观测信息集和历史观测键向量集进行训练得到的；可学习的第三参数矩阵

是预设的通信注意力网络中基于历史观测信息集和历史观测查询向量集进行训练得到的；可学习的第四参数矩阵

是预设的通信注意力网络中基于历史观测信息集和历史观测值向量集进行训练得到的。也就是说，可学习的第二参数矩阵

、可学习的第三参数矩阵

及可学习的第四参数矩阵

是该第一无人设备中预设的。

第一无人设备可以基于第一键向量公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的观测键向量；第一无人设备可以基于第一查询向量公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的观测查询向量；第一无人设备可以基于第一值向量公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的观测值向量。

可选的，第一无人设备根据观测键向量和观测查询向量，确定无人设备中的第二无人设备对应的第一权重，可以包括：第一无人设备根据第一权重公式，确定无人设备中的第二无人设备对应的第一权重。

其中，第一权重公式为

；

表示第一无人设备i在可观测到的第二无人设备中，第k个第二无人设备对应的第一权重；

表示观测键向量

的维数，

表示第一无人设备i对应的查询向量，

表示归一化指数函数。

需要说明的是，不同的第二无人设备对应的第一权重可以是相同的，也可以是不同的，此处不作具体限定。

第一无人设备可以基于第一权重公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的第一权重。

可选的，第一无人设备根据观测值向量和第一权重，确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息，可以包括：第一无人设备根据观测特征公式，确定无人设备中的第二无人设备在当前时刻所对应的观测特征信息。

其中，观测特征公式为

；

表示第一无人设备i可观测到的第二无人设备所对应的观测特征信息；

表示可学习的第五参数矩阵。

可选的，可学习的第五参数矩阵

是预设的通信注意力网络中基于历史观测值向量集和历史观测特征信息集进行训练得到的，也就是说，可学习的第五参数矩阵

是该第一无人设备中预设的。

第一无人设备可以基于观测特征公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的观测特征信息。

203、根据观测特征信息，基于预设的通信注意力网络，确定第二无人设备在当前时刻所对应的通信特征信息。

可选的，第一无人设备根据观测特征信息，基于预设的通信注意力网络，确定第二无人设备在当前时刻所对应的通信特征信息，可以包括：第一无人设备根据观测特征信息，确定第二无人设备在当前时刻所对应的通信信息；该第一无人设备基于预设的通信注意力网络，提取通信信息对应的通信键向量、通信查询向量和通信值向量；该第一无人设备根据通信键向量和通信查询向量，在第二无人设备中，确定与第一无人设备通信连接的目标无人设备及目标无人设备对应的第二权重；该第一无人设备根据通信值向量和第二权重，确定目标无人设备在当前时刻所对应的通信特征信息。

可选的，第一无人设备根据观测特征信息，确定第二无人设备在当前时刻所对应的通信信息，可以包括：第一无人设备根据预设的通信注意力网络中的通信信息公式，得到第二无人设备在当前时刻所对应的通信信息。

其中，通信信息公式为通信信息

；

表示第一无人设备i可观测到的第二无人设备中，第j个第二无人设备所对应的通信信息，

表示第j个第二无人设备对应的观测特征信息，

表示第一无人设备i可观测到的第二无人设备中友方无人设备的数量。

第一无人设备可以基于通信信息公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备对应的通信信息。

可选的，第一无人设备基于预设的通信注意力网络，提取通信信息对应的通信键向量、通信查询向量和通信值向量，可以包括：第一无人设备基于第二键向量公式，得到观测信息对应的通信键向量；该第一无人设备基于第二查询向量公式，得到观测信息对应的通信查询向量；该第一无人设备基于第二值向量公式，得到观测信息对应的通信值向量。

其中，第二键向量公式为

；

表示通信键向量；

表示可学习的第六参数矩阵。

第二查询向量公式为

；

表示通信查询向量；

表示可学习的第七参数矩阵。

第二值向量公式为

；

表示通信值向量；

表示可学习的第八参数矩阵。

可选的，可学习的第六参数矩阵

是预设的通信注意力网络中基于历史观测信息集和历史通信键向量集进行训练得到的；可学习的第七参数矩阵

是预设的通信注意力网络中基于历史观测信息集和历史通信查询向量集进行训练得到的；可学习的第八参数矩阵

是预设的通信注意力网络中基于历史观测信息集和历史通信值向量集进行训练得到的。也即，可学习的第六参数矩阵

、可学习的第七参数矩阵

及可学习的第八参数矩阵

是该第一无人设备中预设的。

第一无人设备可以基于第二键向量公式、第二查询向量公式及第二值向量公式，得到该第一无人设备可观测到的

个第二无人设备中，每个第二无人设备分别对应的通信键向量、通信查询向量及通信值向量。

可选的，第一无人设备根据通信键向量和通信查询向量，在第二无人设备中，确定与第一无人设备通信连接的目标无人设备及目标无人设备对应的第二权重，可以包括：第一无人设备根据第二权重公式，确定与第一无人设备通信连接的目标无人设备对应的第二权重。

其中，第二权重公式为

；

表示第一无人设备i可观测到的第二无人设备中，第j个目标无人设备对应的第二权重；

表示通信键向量

的维数，

表示第一无人设备i对应的查询向量。

第一无人设备可以基于第二权重公式，得到该第一无人设备可观测到的

个目标无人设备中，每个目标无人设备对应的第二权重。

可选的，第一无人设备根据通信值向量和第二权重，确定目标无人设备在当前时刻所对应的通信特征信息，可以包括：第一无人设备根据通信特征公式，确定目标无人设备在当前时刻所对应的通信特征信息。

其中，通信特征公式为

；

表示第一无人设备i可观测到的目标无人设备对应的通信特征信息；

表示可学习的第九参数矩阵。

可选的，可学习的第九参数矩阵

是预设的通信注意力网络中基于历史通信值向量集和历史通信特征信息集进行训练得到的，也就是说，可学习的第九参数矩阵

是该第一无人设备中预设的。

第一无人设备可基于通信特征公式，得到该第一无人设备可观测到的

个目标无人设备中，每个目标无人设备对应的观测特征信息。

204、获取第二无人设备在上一时刻所对应的第一环境嵌入特征。

205、根据观测特征信息、通信特信息征和第一环境嵌入特征，基于门控循环单元，确定第二无人设备在当前时刻所对应的当前环境嵌入特征。

206、根据当前环境嵌入特征，基于预设的分布式策略头网络，确定第一无人设备的对抗动作。

需要说明的是，步骤204-206还可以与图1所示步骤102-103类似，此处不作具体赘述。

207、根据对抗动作，确定第一无人设备对应的奖惩函数。

可选的，第一无人设备根据对抗动作，确定第一无人设备对应的奖惩函数，可以包括：第一无人设备获取第一无人设备对应的状态信息；该第一无人设备根据状态信息和对抗动作，确定第一无人设备对应的个体惩罚函数；该第一无人设备根据观测信息中包括的第二无人设备的健康值，确定团队惩罚函数；该第一无人设备根据个体惩罚函数和团队惩罚函数，确定第一无人设备对应的奖惩函数。

其中，第一无人设备对应的状态信息可以包括但不限于：该第一无人设备对应的运动时长、运行速度、运行位置及健康值信息等。

可选的，第一无人设备根据状态信息和对抗动作，确定第一无人设备对应的个体惩罚函数，可以包括：第一无人设备获取第二无人设备对应的奖惩函数；该第一无人设备根据该第二无人设备对应的奖惩函数和该第一无人设备对应的状态信息及对抗动作，确定该第一无人设备对应的势函数的目标值；该第一无人设备根据该势函数的目标值，确定该第一无人设备对的个体惩罚函数。

其中，第二无人设备对应的奖惩函数为

表示第一无人设备i对应的个体行为知识；

表示第一超参数，

表示第一无人设备i时刻t攻击的第二无人设备中敌方无人设备的数量，

表示第一无人设备i可观测到的第二无人设备中，第k个第二无人设备在时刻t所对应的健康值信息，

表示第k个第二无人设备在时刻t+1所对应的健康值信息，

表示第j个第二无人设备对应的最大健康值信息；m表示敌方无人设备的总数量，也即，表示第二无人设备中除目标无人设备的其他无人设备的数量。

在一些实施例中，第一超参数

是第一无人设备出厂前设置好的。

可选的，第一无人设备根据第二无人设备对应的奖惩函数和该第一无人设备对应的状态信息及对抗动作，确定该第一无人设备对应的势函数的目标值，可以包括：第一无人设备根据第二无人设备对应的奖惩函数和第一公式，确定该第一无人设备对应的势函数的目标值。

其中，第一公式为

表示第一无人设备i对应的势函数的目标值；

表示第一无人设备i在时刻t所对应的状态信息；

表示第一无人设备i在时刻t所对应的对抗动作；

表示折扣因子；

表示第一无人设备i对应的势函数；

表示第一无人设备i在时刻t+1所对应的状态信息；

表示第一无人设备i在时刻t+1所对应的对抗动作。

可选的，势函数

对应的最小化损失函数为

表示均值。

在一些实施例中，折扣因子

是第一无人设备出厂前设置好的。

其中，个体惩罚函数为

，该个体惩罚函数是基于势场的个体奖惩函数。

团队惩罚函数为

表示第二超参数；

表示第一无人设备i可观测到的第二无人设备中，第j个第二无人设备在时刻t所对应的健康值信息，

表示第j个第二无人设备在时刻t+1所对应的健康值信息。

在一些实施例中，第二超参数

是第一无人设备出厂前设置好的。

其中，第一无人设备对应的奖惩函数为

。也就是说，第一无人设备对应的奖惩函数是个体惩罚函数和团队惩罚函数之和。

208、利用奖惩函数对预设的分布式策略头网络进行更新，得到更新后的分布式策略头网络，并将更新后的分布式策略头网络作为第一无人设备中新的预设的分布式策略头网络。

在一些实施例中，预设的分布式策略头网络采用的是集中式训练分布式执行架构，该集中式训练分布式执行架构中的参数是基于最小化评价网络损失函数和分布式策略头网络损失函数进行更新的，从而可以得到更新后的分布式策略头网络。

其中，最小化评价网络损失函数为

；

分布式策略头网络损失函数为

，

表示时序差分目标函数，

表示第一无人设备i对应的奖惩函数，

表示评价网络值函数；

表示均值；

表示最小值，

表示当前策略，

表示更新前策略，

表示第一无人设备i获取的无人设备对应的观测信息；

表示通过广义优势估计器得到的优势函数，a表示优势值；

表示clip函数；

表示第三超参数。

在一些实施例中，第三超参数

是第一无人设备出厂前设置好的。第一无人设备可以根据广义优势估计器中的广义优势估计公式，得的优势值a对应的优势函数

。

第一无人设备在利用奖惩函数对预设的分布式策略头网络进行更新的过程中，可以判断该第一无人设备对应的对抗动作进行奖励或惩罚，即可有效确定该对抗动作的优劣，进一步准确且有效地优化该预设的分布式策略头网络中的参数，从而得到一个准确的更新后的分布式策略头网络。

需要说明的是，现有技术中，第一无人设备利用MAPPO方法对抗敌方无人设备，或，该第一无人设备利用ADRL方法对抗敌方无人设备。然而，MAPPO方法采用了集中式训练分布式执行架构，但未引入注意力机制；ADRL方法构建了观测注意力网络和通信注意力网络，但未引入基于势场的个体奖惩函数，这就使得该第一无无人设备无论是利用MAPPO方法，还是利用ADRL方法对抗敌方无人设备，都具有一定的局限性，从而使得该第一无人设备无法准确且有效地对抗敌方无人设备。

示例性的，如图3所示，是本发明提供的基于注意力网络的无人集群对抗方法的仿真波形图。在图3中，第一无人设备利用不同的方法对抗敌方无人设备的平均胜率。可以看出，第一无人设备利用本发明实施例提供的无人集群对抗方法对抗敌方无人设备的第一平均胜率是高于该第一无人设备利用MAPPO方法或ADRL方法对抗敌方无人设备的第二平均胜率，此外，该第一平均胜率的收敛速度也是快于该第二平均胜率的收敛速度。也就是说，本发明第一无人设备利用本发明实施例提供的无人集群对抗方法，可以更加准确且有效地对抗敌方无人设备，能够提高成功对抗敌方无人设备的概率。

示例性的，如表1所示，是本发明提供的基于注意力网络的无人集群对抗方法的胜率对比表格。表1：

在表1中，WR 表示胜率；10vs.10表示10个友方无人设备对抗10个敌方无人设备；10vs.15表示10个友方无人设备对抗15个敌方无人设备；15vs.15表示15个友方无人设备对抗15个敌方无人设备；15vs.20表示15个友方无人设备对抗20个敌方无人设备。从表1中可以看出，本发明实施例提供的无人集群对抗方法对应的胜率均高于MAPPO方法或ADRL方法对应的胜率。

如表2所示，是本发明提供的基于注意力网络的无人集群对抗方法的平均回合奖励对比表格。表2：

在表2中，MER表示平均回合奖励。从表2中可以看出，本发明实施例提供的无人集群对抗方法对应的平均回合奖励略高于MAPPO方法或ADRL方法对应的平均回合奖励。

如表3所示，是本发明提供的基于注意力网络的无人集群对抗方法的平均回合长度对比表格。表3：

在表3中，MEL表示平均回合长度。从表3中可以看出，本发明实施例提供的无人集群对抗方法对应的平均回合长度均低于MAPPO方法或ADRL方法对应的平均回合长度。

综上，基于表1、表2和表3中的指标数据可以看出，本发明实施例提供的基于注意力网络的无人集群对抗方法对应的性能指标均优于MAPPO方法或ADRL方法对应的性能指标。

示例性的，如图4所示，是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图。在图4中，黑色实体三角表示第一无人设备，黑色实体圆圈表示我方无人设备，黑色实体方形表示敌方无人设备。第一无人设备获取的观测信息

，该观测信息

包括第一无人设备可观测到的每个第二无人设备对应的观测信息α_ij；接着，该第一无人设备将该观测信息

输入至预设的观测注意力网络中，得到该预设的观测注意力网络输出的观测特征信息

；然后，该第一无人设备将该观测特征信息

输入至预设的通信注意力网络中，得到该预设的通信注意力网络输出的通信特征信息

；接着，该第一无人设备根据获取的第一环境嵌入特征e_i（t-1），利用门控循环单元，得到当前环境嵌入特征e_i（t）；最后，该第一无人设备将该当前环境嵌入特征e_i（t）输入至预设的分布式策略头网络，得到该预设的分布式策略头网络输出的当前策略

。

此外，该第一无人设备还会获取该第一无人设备对应的状态信息

；然后，该第一无人设备将该状态信息

输入至评价网络，得到该评价网络输出的评价网络值函数

；接着，该第一无人设备获取团队惩罚函数为

和个体惩罚函数为

；最后，该第一无人设备根据该团队惩罚函数为

、该个体惩罚函数为

和该评价网络值函数

更新预设的分布式策略头网络中的参数。其中，该参数可以包括：最小化损失函数为

、最小化评价网络损失函数为

及分布式策略头网络损失函数为

。

示例性的，如图5所示，是本发明提供的基于注意力网络的无人集群对抗方法的场景示意图。在图5中，我方无人设备与敌方无人设备进行有效对抗。

可选的，步骤208之后，该方法还可以包括但不限于以下其中一种实现方式：

实现方式1：第一无人设备在未检测到第二无人设备的情况下，停止对预设的分布式策略头网络进行更新。

实现方式2：第一无人设备在检测该第一无人设备的运动时长达到预设运行时长阈值的情况下，停止对预设的分布式策略头网络进行更新。可选的，该预设运动时长阈值可以是第一无人设备出厂前设置的，也可以是用户根据实际情况自定义的，此处不作具体限定。

示例性的，假设预设运动时长阈值为150步。第一无人设备检测到该第一无人设备的当前运行时长为148步，此时，继续对该第一无人设备中预设的分布式策略头网络进行更新，直到该第一无人设备检测到该第一无人设备的当前运行时长为150步，已达到预设运动时长阈值150步，此时，停止对预设的分布式策略头网络进行更新。

在本发明实施例中，该方法用以解决现有技术中由于应用场景具有较大的复杂度且其它无人集群具体很多的不确定性，导致第一无人集群无法准确且有效地对抗其它无人集群的缺陷，不仅可以实现第一无人设备具有更高的自主决策能力，从而能够准确且有效地对抗其它无人集群，还可以在对抗其它集群的过程中，自动更新该第一无人设备中的预设的分布式策略头网络，从而提高第一无人设备的自主决策能力，以便后续更加准确且有效地对抗其它无人集群。

需要说明的是，步骤207和208还可以与图1所示步骤104结合，形成新的实施例，该新的实施例也都在本发明实施例保护的范围内，此处不作具体赘述。

下面对本发明提供的无人集群对抗装置进行描述，下文描述的无人集群对抗装置与上文描述的基于注意力网络的无人集群对抗方法可相互对应参照。

如图6所示，是本发明提供的无人集群对抗装置的结构示意图，应用于第一无人设备，可以包括：

获取模块601，用于获取的无人设备在当前时刻所对应的观测信息；

确定模块602，用于根据该观测信息，基于预设的注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的特征信息，该无人设备包括该第一无人设备和该第二无人设备；根据该特征信息，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征；根据该当前环境嵌入特征，基于预设的分布式策略头网络，确定该第一无人设备的对抗动作，该预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

可选的，获取模块601，具体用于获取第二无人设备在该当前时刻所对应的观测信息；

确定模块602，具体用于根据该观测信息，基于预设的观测注意力网络，确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息；根据该观测特征信息，基于预设的通信注意力网络，确定该第二无人设备在该当前时刻所对应的通信特征信息。

可选的，确定模块602包括提取单元6021和确定单元6022；

提取单元6021，具体用于基于预设的观测注意力网络，提取该观测信息对应的信息特征；

确定单元6022，具体用于根据该信息特征，确定该观测信息对应的观测键向量、观测查询向量和观测值向量；根据该观测键向量和该观测查询向量，确定该无人设备中的第二无人设备对应的第一权重；根据该观测值向量和该第一权重，确定该无人设备中的第二无人设备在该当前时刻所对应的观测特征信息。

可选的，提取单元6021，具体用于根据该观测特征信息，确定该第二无人设备在该当前时刻所对应的通信信息；

确定单元6022，具体用于基于预设的通信注意力网络，提取该通信信息对应的通信键向量、通信查询向量和通信值向量；根据该通信键向量和该通信查询向量，在该第二无人设备中，确定与该第一无人设备通信连接的目标无人设备及该目标无人设备对应的第二权重；根据该通信值向量和该第二权重，确定该目标无人设备在该当前时刻所对应的通信特征信息。

可选的，获取模块601，具体用于获取该第二无人设备在上一时刻所对应的第一环境嵌入特征；

确定单元6022，具体用于根据该特征信息和该第一环境嵌入特征，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。

可选的，确定单元6022，具体用于根据该观测特征信息、该通信特信息征和该第一环境嵌入特征，基于门控循环单元，确定该第二无人设备在该当前时刻所对应的当前环境嵌入特征。

可选的，确定单元6022，具体用于根据该对抗动作，确定该第一无人设备对应的奖惩函数；

无人集群对抗装置还包括更新模块603；更新模块603，用于利用该奖惩函数对该预设的分布式策略头网络进行更新，得到更新后的分布式策略头网络，并将该更新后的分布式策略头网络作为该第一无人设备中新的预设的分布式策略头网络。

可选的，获取模块601，具体用于获取该第一无人设备对应的状态信息；

确定单元6022，具体用于根据该状态信息和该对抗动作，确定该第一无人设备对应的个体惩罚函数；根据该观测信息中包括的该第二无人设备的健康值，确定团队惩罚函数；根据该个体惩罚函数和该团队惩罚函数，确定该第一无人设备对应的奖惩函数。

图7示例了一种无人设备的实体结构示意图，如图7所示，该无人设备可以包括：处理器（processor）710、通信接口（Communications Interface）720、存储器（memory）730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于注意力网络的无人集群对抗方法，该方法包括：根据获取的第二无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定该第二无人设备在该当前时刻所对应的特征信息；根据特征信息，确定第二无人设备在该当前时刻所对应的当前环境嵌入特征；根据当前环境嵌入特征，基于预设的分布式策略头网络，确定第一无人设备的对抗动作，预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于注意力网络的无人集群对抗方法，该方法包括：根据获取的第二无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定该第二无人设备在该当前时刻所对应的特征信息；根据特征信息，确定第二无人设备在该当前时刻所对应的当前环境嵌入特征；根据当前环境嵌入特征，基于预设的分布式策略头网络，确定第一无人设备的对抗动作，预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于注意力网络的无人集群对抗方法，该方法包括：根据获取的第二无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定该第二无人设备在该当前时刻所对应的特征信息；根据特征信息，确定第二无人设备在该当前时刻所对应的当前环境嵌入特征；根据当前环境嵌入特征，基于预设的分布式策略头网络，确定第一无人设备的对抗动作，预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于注意力网络的无人集群对抗方法，其特征在于，应用于第一无人设备，所述方法包括：

根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息，所述无人设备包括所述第一无人设备和所述第二无人设备；

根据所述特征信息，确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征；

根据所述当前环境嵌入特征，基于预设的分布式策略头网络，确定所述第一无人设备的对抗动作，所述预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

2.根据权利要求1所述的无人集群对抗方法，其特征在于，所述根据获取的无人设备在当前时刻所对应的观测信息，基于预设的注意力网络，确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息，包括：

获取无人设备在当前时刻所对应的观测信息；

根据所述观测信息，基于预设的观测注意力网络，确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息；

根据所述观测特征信息，基于预设的通信注意力网络，确定所述第二无人设备在所述当前时刻所对应的通信特征信息。

3.根据权利要求2所述的无人集群对抗方法，其特征在于，所述根据所述观测信息，基于预设的观测注意力网络，确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息，包括：

基于预设的观测注意力网络，提取所述观测信息对应的信息特征；

根据所述信息特征，确定所述观测信息对应的观测键向量、观测查询向量和观测值向量；

根据所述观测键向量和所述观测查询向量，确定所述无人设备中的第二无人设备对应的第一权重；

根据所述观测值向量和所述第一权重，确定所述无人设备中的第二无人设备在所述当前时刻所对应的观测特征信息。

4.根据权利要求2所述的无人集群对抗方法，其特征在于，所述根据所述观测特征信息，基于预设的通信注意力网络，确定所述第二无人设备在所述当前时刻所对应的通信特征信息，包括：

根据所述观测特征信息，确定所述第二无人设备在所述当前时刻所对应的通信信息；

基于预设的通信注意力网络，提取所述通信信息对应的通信键向量、通信查询向量和通信值向量；

根据所述通信键向量和所述通信查询向量，在所述第二无人设备中，确定与所述第一无人设备通信连接的目标无人设备及所述目标无人设备对应的第二权重；

根据所述通信值向量和所述第二权重，确定所述目标无人设备在所述当前时刻所对应的通信特征信息。

5.根据权利要求2-4中任一项所述的无人集群对抗方法，其特征在于，所述根据所述特征信息，确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征，包括：

获取所述第二无人设备在上一时刻所对应的第一环境嵌入特征；

根据所述特征信息和所述第一环境嵌入特征，确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征。

6.根据权利要求5所述的无人集群对抗方法，其特征在于，所述根据所述特征信息和所述第一环境嵌入特征，确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征，包括：

根据所述观测特征信息、所述通信特信息征和所述第一环境嵌入特征，基于门控循环单元，确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征。

7.根据权利要求1、2、3、4或6所述的无人集群对抗方法，其特征在于，所述方法还包括：

根据所述对抗动作，确定所述第一无人设备对应的奖惩函数；

利用所述奖惩函数对所述预设的分布式策略头网络进行更新，得到更新后的分布式策略头网络，并将所述更新后的分布式策略头网络作为所述第一无人设备中新的预设的分布式策略头网络。

8.根据权利要求7所述的无人集群对抗方法，其特征在于，所述根据所述对抗动作，确定所述第一无人设备对应的奖惩函数，包括：

获取所述第一无人设备对应的状态信息；

根据所述状态信息和所述对抗动作，确定所述第一无人设备对应的个体惩罚函数；

根据所述观测信息中包括的所述第二无人设备的健康值，确定团队惩罚函数；

根据所述个体惩罚函数和所述团队惩罚函数，确定所述第一无人设备对应的奖惩函数。

9.一种无人集群对抗装置，其特征在于，应用于第一无人设备，包括：

确定模块，用于根据所述观测信息，基于预设的注意力网络，确定所述无人设备中的第二无人设备在所述当前时刻所对应的特征信息，所述无人设备包括所述第一无人设备和所述第二无人设备；根据所述特征信息，确定所述第二无人设备在所述当前时刻所对应的当前环境嵌入特征；根据所述当前环境嵌入特征，基于预设的分布式策略头网络，确定所述第一无人设备的对抗动作，所述预设的分布式策略头网络是基于历史环境嵌入特征集和历史对抗动作集进行训练得到的。

10.一种无人设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于注意力网络的无人集群对抗方法。