CN117572893B

CN117572893B - 基于强化学习的无人机集群对抗策略获取方法及相关设备

Info

Publication number: CN117572893B
Application number: CN202410054970.3A
Authority: CN
Inventors: 黄安付; 高超; 龙海涛; 郭伟; 曹一丁
Original assignee: Baiyang Times Beijing Technology Co ltd
Current assignee: Baiyang Times Beijing Technology Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-03-19
Anticipated expiration: 2044-01-15
Also published as: CN117572893A

Abstract

本申请还提出了一种基于强化学习的无人机集群对抗策略获取方法及相关设备，基于无人机集群中各无人机的属性参数，以及在真实环境下获取的飞行日志数据，通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境，使其与真实飞行环境接近，这样，在该虚拟对抗环境下，基于针对无人机智能体模型的样本数据，对不同对抗方的初始对抗策略进行强化学习，能够快速且可靠获得相应的目标对抗策略，之后，基于该目标对抗策略，在真实测试环境和虚拟测试环境中进行对抗测试，减轻了实验资源和成本，提高了基于目标对抗策略进行无人机对抗任务的获胜率，无需地面控制人员给各无人机发送控制指令，降低了人工成本。

Description

基于强化学习的无人机集群对抗策略获取方法及相关设备

技术领域

本申请主要涉及无人机集群对抗领域，更具体地说是涉及一种基于强化学习的无人机集群对抗策略获取方法及相关设备。

背景技术

在无人机集群对抗任务中，通常需要地面对抗人员依据对抗环境下各无人机的对抗情况，手动调整无人机的对抗策略，以向各无人机发送控制指令，控制无人机进行飞行，完成对抗任务。但这在多变对抗环境下的对抗表现并不好，且需要大量人工参与，不仅增大了人工成本，也降低了对抗策略调试效率。

发明内容

为了解决上述技术问题，本申请提供了以下技术方案：

本申请提出了一种基于强化学习的无人机集群对抗决策获取方法，包括：

获取无人机集群中各无人机的属性参数以及飞行日志数据；所述飞行日志数据是所述无人机集群在多种环境参数下产生的；

基于所述属性参数和所述飞行日志数据，通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境，以及呈现于所述虚拟对抗环境的各无人机智能体模型；所述无人机智能体模型基于强化学习算法构建；

在不同的所述虚拟对抗环境下，基于针对各所述无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应所述对抗方的目标对抗策略；

基于所述目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，所述不同测试环境包括真实测试环境以及通过所述仿真引擎构建的虚拟测试环境。

可选的，所述在不同的所述虚拟对抗环境下，基于针对各所述无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应所述对抗方的目标对抗策略，包括：

获取针对各所述无人机智能体模型的样本数据中的初始状态信息；

将所述初始状态信息输入对应对抗方的无人机智能体模型，获得相应的所述无人机智能体模型在所述虚拟对抗环境下执行不同对抗动作的概率分布；

基于所述概率分布，控制相应的所述无人机智能体模型在所述虚拟对抗环境下执行对抗动作，获得所述无人机智能体模型执行所述对抗动作后的累积奖励值和下一状态信息；

至少基于所述累积奖励值，调整所述无人机智能体模型中的对抗策略；

将所述下一状态信息输入具有调整后的对抗策略的所述无人机智能体模型继续进行训练，直至满足训练终止条件，得到相应对抗方的目标对抗策略；

其中，所述目标对抗策略能够表征相应对抗方的所述无人机智能体模型在不同所述虚拟对抗环境下的不同状态信息与不同目标执行动作之间的映射关系，所述目标执行动作是指具有映射的所述状态信息的所述无人机智能体模型在所述虚拟对抗环境获得最大奖励值的执行动作。

可选的，所述至少基于所述累积奖励值，调整所述无人机智能体模型中的对抗策略，包括：

获取所述无人机智能体模型在所述虚拟对抗环境下的执行所述对抗动作后的累积奖励值；

确定所述无人机智能体模型的训练次数达到预设次数，获得对抗双方的所述无人机智能体模型在所述训练次数中各自的获胜率；

确定对抗双方各自的所述获胜率之间的差值大于获胜阈值，中断训练所述获胜率较高的一对抗方的所述无人机智能体模型，基于另一对抗方的所述累积奖励值，通过近端策略优化方式，调整相应所述无人机智能体模型中的对抗策略；

确定对抗双方各自新的所述获胜率之间的差值小于或等于所述获胜阈值，结束所述中断，基于对抗双方各自的所述累积奖励值，通过近端策略优化方式，调整相应所述无人机智能体模型中的对抗策略。

可选的，所述状态信息包括相应所述无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量；

所述累积奖励值基于同一对抗方的所述无人机智能体模型的所述剩余虚拟能量的变化量、战胜另一对抗方的所述无人机智能体模型的数量，以及所述无人机智能体模型执行对抗动作是否达到期望位置而确定。

可选的，所述针对各所述无人机智能体模型的样本数据的获得方法包括以下至少一种：

在所述虚拟对抗环境下，按照对抗双方各自的初始对抗策略，控制相应的所述无人机智能体模型执行对抗动作，获得相应的样本数据；

按照对抗双方各自的初始对抗策略，控制相应无人机在真实对抗环境下执行对抗动作，获得相应的样本数据；

其中，所述样本数据包括同一时间步长下，所述无人机智能体模型或对应无人机执行对抗动作前所处的状态信息、所执行的对抗动作信息，以及在相应对抗环境下得到的奖励信息；所述对抗动作信息包括相应无人机智能体模型或无人机的飞行控制输入指令，所述飞行控制输入指令至少包括横滚角控制指令、仰俯角控制指令以及飞行速度控制指令之中的一个或多个组合。

可选的，所述基于所述目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果，包括：

将所述目标对抗策略迁移学习至真实测试环境下第一数量无人机的无人机模型；所述无人机模型基于所述飞行日志数据构建；

在所述真实测试环境下，基于所述无人机模型迁移学习到的所述目标对抗策略进行对抗测试，得到相应的第一对抗测试数据；

在所述虚拟测试环境下，基于所述目标对抗策略，对第二数量无人机的无人机智能体模型进行对抗测试，得到相应的第二对抗测试数据；所述第一数量无人机和所述第二数量无人机构成所述无人机集群；

将所述第一对抗测试数据导入所述虚拟测试环境；

基于所述虚拟测试环境下得到的所述第二对抗测试数据和所述第一对抗测试数据，获得针对所述目标对抗策略的对抗测试结果。

本申请还提出了一种基于强化学习的无人机集群对抗决策获取装置，所述装置包括：

第一获取模块，用于获取无人机集群中各无人机的属性参数以及飞行日志数据；所述飞行日志数据是所述无人机集群在多种环境参数下产生的；

第一构建模块，用于基于所述属性参数和所述飞行日志数据，通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境，以及呈现于所述虚拟对抗环境的各无人机智能体模型；所述无人机智能体模型基于强化学习算法构建；

强化学习模块，用于在不同的所述虚拟对抗环境下，基于针对各所述无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应所述对抗方的目标对抗策略；

对抗测试模块，用于基于所述目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，所述不同测试环境包括真实测试环境以及通过所述仿真引擎构建的虚拟测试环境。

本申请还提出了一种电子设备，所述电子设备包括：

显示器；

通信连接端口，用于连接检测设备，接收所述检测设备发送的无人机集群的飞行日志数据；所述飞行日志数据是所述无人机集群在多种环境参数下产生的；

处理器，用于加载执行多个计算机指令，实现以下步骤：

获取无人机集群中各无人机的属性参数以及所述通信连接端口接收到的飞行日志数据；

可选的，所述显示器用于：

在所述各对抗方的初始对抗策略的强化学习过程中，展示所述无人机智能体模型在所述虚拟对抗环境下执行的对抗动作；以及，

展示基于所述目标对抗策略在所述虚拟测试环境下的对抗测试过程。

本申请还提出了一种基于强化学习的无人机集群对抗决策获取系统，包括：

至少一个如上述的电子设备；

连接所述电子设备的检测设备，用于获取所述无人机集群中各无人机的飞行日志数据，将所述飞行日志数据发送至所述电子设备，并在真实测试环境进行对抗测试过程中，获取对应的第一对抗测试数据，将所述第一对抗测试数据发送至所述电子设备，以导入所述电子设备构建的虚拟测试环境，基于所述虚拟测试环境下得到的第二对抗测试数据和所述第一对抗测试数据，获得针对目标对抗策略的对抗测试结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例一的流程示意图；

图2为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例二的流程示意图；

图3为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例三的流程示意图；

图4为适用于本申请提出的基于强化学习的无人机集群对抗决策获取方法的无人机智能体模型的一可选网络结构示意图；

图5为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例四的流程示意图；

图6为本申请提出的基于强化学习的无人机集群对抗决策获取装置的一可选实施例结构示意图；

图7为适用于本申请提出的基于强化学习的无人机集群对抗决策获取方法的电子设备的一可选实施例的硬件结构示意图；

图8为本申请提出的基于强化学习的无人机集群对抗决策获取系统的一可选实施例的结构示意图。

具体实施方式

针对背景技术部分的描述，本申请提出通过多智能体强化学习与虚实结合的测试方式，实现适用于复杂对抗环境的无人机集群（也就是航模集群）对抗策略（即一种深度神经网络）学习，以使得每架无人机（即航模飞机）可以基于对抗环境信息，自动执行对抗策略，完成对抗任务，无需地面对抗人员给己方的各无人机逐一发送控制命令，节省了人工成本，提高了对抗控制效率和对抗成功率。

其中，对于在仿真环境下，通过多智能体强化学习方式获得的目标对抗策略，可以使用部分真实无人机和仿真无人机模型共同参与对抗测试，减轻了测试资源和成本。且该仿真环境将基于真实飞行日志和无人机属性参数进行优化，确保了仿真环境的真实性，从而提高了在该仿真环境下训练学习到的目标对抗策略的可靠性，使其能够在真实环境中得到高效执行。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例一的流程示意图，该方法可以应用于电子设备，该电子设备可以是服务器或终端设备，如图1所示，该基于强化学习的无人机集群对抗决策获取方法可以包括：

步骤S11，获取无人机集群中各无人机的属性参数以及飞行日志数据；该飞行日志数据是无人机集群在多种环境参数下产生的；

在无人机集群的真实环境下飞行过程中，可以实时接收无人机的各飞行数据，作为日志文件记录，即实时获得各无人机的飞行日志数据，用以构建虚拟对抗环境，因此，为了保证所构建的虚拟对抗环境尽可能接近真实对抗环境，实现高度逼真的飞行动态模型，如无人机的控制响应、性能包线等参数，本申请可以获取无人机在各种复杂环境（即具有不同环境参数的飞行环境，如不同的天气条件、地形等复杂飞行环境）中飞行产生的飞行日志数据，本申请对飞行日志数据的获取方式不做限制。

其中，为了获得飞行日志数据，可以在系统中部署合适的硬件设备，如参与对抗任务的各微型无人机、固定翼航模、各种传感器、通信设备等，以满足无人机集群飞行的要求和约束，本申请对该系统的硬件结构不做限制，可视情况而定。

另外，为了构建无人机虚拟模型，使其呈现于构建的虚拟对抗环境，展示无人机集群对抗过程，本申请可以获得无人机的属性参数（即航模参数），如无人机的各种性能参数以及机械结构参数等，本申请对该属性参数的内容不做限制，可以结合参与对抗任务的航模类型确定。

步骤S12，基于该属性参数和飞行日志数据，通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境，以及呈现于虚拟对抗环境的各无人机智能体模型；

继上述分析，本申请在仿真环境设计过程中，将结合真实环境下的无人机的飞行日志数据和属性参数进行设计，利用仿真引擎构建相应的虚拟对抗环境，即模拟无人机对抗任务的仿真环境，实现过程可以结合仿真引擎的工作原理确定，本申请不做详述。

可选的，本申请可以使用pybullet作为仿真引擎，来构建虚拟对抗环境。当然，本申请也可以采用其他仿真引擎，如Gazebo、V-REP等，来执行步骤S12，本申请对用于构建高度逼真的虚拟对抗环境及其无人机智能体模型的实现方法不做限制，需要该仿真引擎能够在系统平台上兼容。其中，该无人机智能体模型基于强化学习算法构建，其网络结构可以基于采用的强化学习算法确定，本申请实施例在此不做详述。

其中，对于上述构建的虚拟对抗环境和无人机虚拟模型可以展示于显示设备的显示屏上，以观看无人机智能体模型在该虚拟对抗环境下的对抗过程，本申请对该显示设备的类型不做限制，可视情况而定。

步骤S13，在不同的虚拟对抗环境下，基于各无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应对抗方的目标对抗策略；

本申请可以采用多智能体强化学习方式，对不同对抗方法的对抗策略网络进行协同训练，获得相应对抗方的无人机在复杂环境（尤其是对抗环境）下可以采用更智能的目标对抗策略。

其中，该对抗策略可以通过对无人机集群在对抗环境下的路径规划问题进行建模得到的深度神经网络，如一个部分可观测马尔可夫决策（POMDP，Partially ObservableMarkov Decision Process，一种用于解决不完全观测下的决策问题的强化学习算法）模型，可以将无人机集群中的每个无人机作为一个智能体，其状态、动作和奖励都是局部信息，飞行环境（即对抗环境）是动态、不确定和对抗的，通过无人机与该对抗环境的交互信息，训练相应对抗方的目标策略，即不同状态下执行什么动作，才能获得最大奖励值。

本申请可以选择合适的强化学习算法，实现上述对抗策略的强化学习，例如基于近端策略优化（Proximal Policy Optimization ，PPO）的多智能体强化学习算法（IPPO），其采用Actor-Critic框架，利用全局感知的Critic网络（即价值网络，以计算当前状态信息下的值函数和下一状态信息下的值函数，由此获得时间差误差TD error，衡量无人机当前状态与预期状态的差异，更新策略网络的参数，以使策略网络朝向最优策略的方向快速学习）和局部感知的Actor网络（即记录己方无人机的对抗策略的策略网络，可以依据当前状态信息，输出每个动作的概率，以选择合适的动作与环境交互，得到下一状态信息和奖励信息），使用集中式训练、分布式执行的方法。

其中，在上述学习过程中，可以利用仿真环境（即虚拟对抗环境）或实验场地（即真实环境）进行无人机集群飞行的交互，收集飞行日志数据（如每个无人机智能体在连续的每个时间步长的状态信息、动作信息、奖励信息和下一状态信息等内容）作为样本数据，用于更新无人机集群的对抗策略，提高训练效率和可靠性。且在每次训练后，可以评估无人机集群执行对抗任务的性能和效果，通过如获胜率、平均奖励值、碰撞次数等指标实现，具体调整强化学习网络的网络参数或网络结构，据此执行下一次训练，本申请对步骤S13描述的强化学习过程不做详述。

需要说明，对于实现对抗策略的多智能体强化学习算法，包括但并不局限于上文描述的强化学习算法，根据需实际需要选择合适的强化学习算法，实现不同对抗方的初始对抗策略网络的协同训练，以得到对应的目标对抗策略，实现过程本申请不做详述。

另外，应该理解的是，在上述强化学习之前，可以设计合适的软件架构和算法，如分布式控制协议、强化学习算法、神经网络模型等，以实现无人机集群智能体的建模、学习和决策，如执行步骤S13，本申请对如系统平台的软件架构和算法不做限制。

步骤S14，基于目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，不同测试环境包括真实测试环境以及通过仿真引擎构建的虚拟测试环境。

对于在虚拟对抗环境下通过强化学习算法得到的各对抗方的目标对抗策略，为了确保该目标对抗策略能够在真实环境下得到高效执行，本申请提出采用虚拟结合的测试方式，对各目标对抗策略进行测试，降低测试难度，提高测量效率。

因此，本申请可以确定具有不同环境参数的真实测试环境的同时，还可以通过仿真引擎来构建不同的虚拟测试环境，基于实际采集到的飞行日志数据构建真实航模（真实的无人机模型）后，将目标对抗策略迁移学习至该航模上，之后，可以控制该航模在真实测试环境下进行对抗测试，即由该航模基于目标对抗策略执行对抗动作，评估对抗性能和飞行性能等，得到相应的对抗测试结果。根据需要，本申请还可以基于对抗测试结果，优化相应的目标对抗策略，提高对抗任务成功率。

对于无人机虚拟模型在虚拟测试环境下的对抗测试过程，与上文描述的对抗决策训练过程中的飞行过程类似，可以由无人机智能体模型在该虚拟测试环境下执行对应的目标对抗策略，自动完成对抗任务，在该过程中记录无人机智能体模型飞行数据以及对抗结果等，得到相应的对抗测试结果，本申请对对抗测试过程中记录的数据内容不做限制，可以依据实际测试需求确定。

综上，本申请结合无人机集群中的各无人机在真实环境下的飞行日志数据，通过仿真引擎构建高度逼真的虚拟对抗环境，并基于无人机属性参数构建无人机智能体模型，使其呈现于虚拟对抗环境，以在基于多智能体的强化学习方式，训练不同对抗方的对抗策略过程中，可以控制该无人机智能体模型在该虚拟对抗环境执行动作，结合所得策略表现评估结果调整对抗策略，如此多次训练后，得到不同对抗方的目标对抗策略。

可见，对于不同对抗方的不同对抗难度的对抗任务，本申请动态训练各自的对抗策略网络，确保各对抗方都能够得到高效的目标对抗策略。之后，本申请采用虚拟结合的测试方式，确保了在复杂环境下无人机能够快速且准确的对抗策略，提高对抗任务成功率，且减轻了实验资源和成本。

示例性的，本申请以训练红方和蓝方这两个对抗方的目标对抗策略的场景为例进行说明，参照图2所示的可选实施例二的流程示意图，本申请可以初始化红蓝双方无人机对抗策略，即初始化对抗双方的决策网络，之后，可以分别对不同的决策网络进行强化学习，以获得各自的目标对抗决策，

对应用于训练各自的决策网络的样本数据可以是在虚拟对抗环境或真实对抗环境下，每一对抗方的无人机智能体模型根据当前的对抗策略执行对抗动作，记录相应的飞行日志数据作为样本数据，还可以结合对抗经验确定样本数据，基于此，本申请实施例中，无人机智能体模型按照当前己方的对抗策略，以当前的状态信息在虚拟对抗环境下执行相应的对抗动作后，可以记录由此产生的无人机智能体模型的下一状态信息，以及由此得到的奖励信息，如用于评估本次执行的对抗策略表现的累积奖励值，据此采用预设的优化算法（如梯度下降算法）来调整己方的对抗策略，即调整己方策略网络的网络参数，以利用调整后的对抗策略，执行下一次迭代训练，提高其在下一次迭代训练中的表现。

其中，对于红蓝双方各自的对抗策略的训练调整实现过程类似，本申请不做一一详述。在红蓝双方完成一次迭代练后，可以确定是否满足训练终止条件，如是否收敛，可以通过比较连续多次迭代训练的评估结果的变化，如果评估结果变化很小或达到预设阈值，可以认为强化学习算法收敛，结束训练，将最终得到的策略网络确定为相应对抗方的目标对抗策略。反之，可以按照上文描述的方式，基于本次训练得到的己方样本数据，完成对己方策略网络的下一次迭代训练。

在一些实施例中，在上述每一次迭代训练后，用于评估己方本次执行的对抗策略的表现的评估算法包括但并不局限于PPO算法，本申请仅以此为例进行说明，在该PPO算法的评估过程中，可以如上文描述的方法，收集本次执行的对抗策略，与虚拟对抗环境交互的各交互信息即样本数据，来评估己方执行的对抗策略表现，可以通过累积奖励值或其他评估指标实现。

以红方对口策略表现评估为例进行说明，该累积奖励值可以指红方无人机在一次对抗过程中获得的总奖励，反映了红方无人机在本次对抗任务中的整体效果。其他评估指标可以根据具体的任务目标和场景来设计，例如获胜率、平均存活时间、平均击落数等，可视情况而定，本申请不做详述。

在其他对抗策略表现评估中，还可以使用固定的蓝方无人机作为基准来评估红方无人机执行的对抗策略的表现，这可以通过比较红方无人机与不同类型或水平的蓝方无人机的对抗结果实现。例如，可以使用预训练号的蓝方无人机模型或人工设计的对抗策略来控制蓝方无人机进行对抗，记录红方无人机与之对抗的获胜率、平均奖励等指标，确定为红方无人机的对抗策略表现的评估结果，据此实现对红方无人机的对抗策略的调整。

此外，本申请还可以采用自博弈（self-play）的方式来评估红方无人机执行的对抗策略表现，这样，可以通过红方无人机与自己或自己的历史版本进行对抗来实现。例如，可以使用当前训练好的红方无人机智能体模型（其包含该无人机的对抗策略）或之前保存下来的红方无人机智能体模型来控制另一方无人机，然后观察两者之间的对抗结果和策略演化情况，用以实现对己方对抗策略的调整，即调整红方无人机智能体模型中的策略网络的网络参数。

结合上文对本次训练所执行的对抗策略表现的评估结果，实现对该对抗策略的调整，即对智能体模型中策略网络的网络参数调整过程中，可以依据预设的优化算法实现，以使得调整后的策略网络更好地适应训练数据和测试数据，避免过拟合或欠拟合的问题，提高智能体模型的泛化能力和鲁棒性。

可选的，本申请可以采用调整学习率、调整批量大小（Batch Size）获调整正则化项（Regularization Term，是指在损失函数中添加一些额外的项，以惩罚网络权重过大或过小、过于复杂或简单等情况，从而防止过拟合或欠拟合，如L1正则化、L2正则化、Dropout、Batch Normalization等）等方式实现。但前两种调整方式需要选择合适的大小，才能够加快网络收敛，保证网络的稳定性和灵活性，如使用学习率衰减（Learning Rate Decay）方式（即随着训练次数的推进，逐渐降低学习率），或使用动态批量大小（Dynamic Batch Size）方式（如依据训练过程的损失函数或梯度方差，动态调整批量大小，以适应于不同阶段的训练需求）实现。

需要说明，由于红蓝双方的无人机智能体模型的对抗策略训练过程类似，关于蓝发无人机的对抗策略的强化学习过程，可以参照上文对红方无人机的对抗策略的强化学习过程的描述，本实施例在此不做详述。

下面将结合无人机智能体模型即强化学习网络的结构，来详细说明本申请提出的基于强化学习的无人机集群对抗决策获取方法的实现过程，但并不局限于下文实施例描述的实现方式，可以依据强化学习网络的网络结构的变化进行适应性调整，本申请不做一一举例详述。

参照图3，为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例三的流程示意图，如上文描述，本实施例可以对上文描述的基于强化学习的无人机集群对抗决策获取方法的一可选细化实现方式进行描述，结合上文描述的构建虚拟对抗环境，在该虚拟对抗环境下，如图3所示，本实施例提出的目标对抗策略的训练实现过程可以包括：

步骤S31，获取针对各无人机智能体模型的样本数据中的初始状态信息；

本申请实施例中，用于无人机智能体模型训练的初始样本数据可以来自飞行日志数据，也可以随机生成每一架无人机的初始状态信息，如飞行位置信息飞行速度信息、飞行姿态信息以及剩余虚拟攻击资源（虚拟弹量）和剩余虚拟能量（血量）等实体状态信息，为了区别不同的无人机，对于参与对抗任务的各无人机可以配置对应的无人机标识，如实体ID等唯一标识符，将这些信息作为模型输入，用以实现无人机智能体模型训练。

步骤S32，将初始状态信息输入对应对抗方的无人机智能体模型，获得相应的无人机智能体模型在虚拟对抗环境下执行不同对抗动作的概率分布；

在一些实施例中，本申请以基于IPPO算法这种强化学习算法构建的无人机智能体模型的网络结构为例进行说明，参照图4所示的网络结构示意图，每一个无人机智能体模型可以包括输入层、神经网络组件和输出层这几部分组成。

其中，输入层可以将输入的初始状态信息转换成神经网络可以处理的特征信息，可以使用MLP（Multi-Layer Perceptron，多层感知机）模型构成，对输入的初始状态信息进行特征提取，得到更高层次的抽象特征，将得到的特征信息输入神经网络组件进行处理。本申请实施例中，可以将各无人机实体状态信息输入MLP进行特征提取，输出各无人机实体的特征向量。

如图4所示的神经网络组件结构，可以通过Embedding（嵌入）模块将离散的数据（如上述实体ID等）转换为连续的向量表示，用以后续神经网络进行处理和学习。因此，该Embedding模型可以使用预训练的词向量对实体ID进行编码，得到对应无人机实体的标识向量，实现过程本申请不做详述。

之后，可以通过GAT（Graph Attention Network，图注意力网络）中的图神经网络对不同无人机实体之间的关系进行建模，利用注意力机制对不同无人机实体之间的关系进行加权，以实现智能对抗策略。对于不同无人机实体之间的特征可以通过邻接矩阵连接，经过聚合处理后，得到相应的无人机实体特征，经过Attention（注意力）模块从大量无人机实体特征中，选择和聚焦到重要部分，用以实现后续的处理和对抗策略。在该处理过程中，可以使用如softmax函数、sigmoid函数等预设函数计算权重向量，用以确定大量特征中的重要特征，以提高模型训练效率和可靠性。

经过上述处理后的各无人机实体的特征向量，可以输入Action Probability（动作概率）模块，利用如softmax函数、sigmoid函数等预设函数，来计算不同无人机智能体模型在不同对抗动作（即行为）下的概率分布，以便据此选择最可能获得最大奖励值的对抗动作，将该概率分布发送至输出层，作为对应的无人机智能体模型的输出数据。

步骤S33，基于该概率分布，控制相应的无人机智能体模型在虚拟对抗环境下执行对抗动作，获得无人机智能体模型执行该对抗动作后的累积奖励值和下一状态信息；

对于无人机智能体模型输出的概率分布，可以选择执行最大概率对应的对抗动作，与虚拟对抗环境进行交互，记录该无人机智能体模型在该虚拟对抗环境下产生的下一状态信息，以及本次交互所得到的累积奖励值，如基于预设的奖励函数，计算每个状态-动作对应的奖励函数值，反映该状态-动作这一对抗策略相对于平均水平的优劣程度。

其中，对于模型训练过程中，无人机智能体模型按照对抗策略，在当前状态信息下执行对应的对抗动作过程中，该无人机智能体模型可以基于输出的概率分布，确定相应的对抗动作信息，如相应无人机智能体模型的飞行控制输入指令，该飞行控制输入指令至少可以包括横滚角控制指令、仰俯角控制指令以及飞行速度控制指令等之中的一个或多个组合，据此控制无人机智能体模型在虚拟对抗环境下执行相应对抗动作，以按照指令内容完成对抗任务。

步骤S34，至少基于该累积奖励值，调整无人机智能体模型的对抗策略；

继上述分析，本申请获得的累积奖励值可以评估本次训练执行的对抗策略表现，据此按照预设的优化算法，实现对无人机智能体模型的对抗策略的调整，即对无人机智能体模型的策略网络的网络参数进行调整，使其能够产生更优化的对抗动作选择，实现过程可以参照上文相应部分的描述，本申请对对抗策略调整方式不做详述。

结合上文实施例对每一时间步长的状态信息的描述，即无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量，完成一次训练得到的累积奖励值可以基于同一对抗方的无人机智能体模型的剩余虚拟能量的变化量、战胜另一对抗方的无人机智能体模型的数量，以及无人机智能体模型执行对抗动作是否达到期望位置等内容确定。由此可见，本申请设计的奖励函数，所计算的奖励值取决于红蓝双方无人机的血量变化、击落敌方无人机的数量以及是否成功到达目标位置等，可以依据实际情况确定。

步骤S35，将下一状态信息输入具有调整后的对抗策略的无人机智能体模型继续进行训练，直至满足训练终止条件，得到不同对抗方的目标对抗策略。

其中，目标对抗策略能够表征相应对抗方的所述无人机智能体模型在不同虚拟对抗环境下的不同状态信息与不同目标执行动作之间的映射关系，该目标执行动作是指具有映射的状态信息的无人机智能体模型在虚拟对抗环境获得最大奖励值的执行动作。

在完成一次训练后，可以将本次训练得到的状态信息（即上述下一状态信息）输入具有调整后的对抗策略的无人机智能体模型继续进行训练，实现过程可以参照上文实施例对应部分的描述，每次训练的实现过程类似，本申请不做一一详述。在对抗策略的训练过程中，如上文描述的方法，可以通过确定无人机智能体模型是否收敛（即是否满足训练终止条件等方式，确定是否结束训练。当然，也可以是其他内容的训练终止条件，如训练次数是否达到预设训练次数等，本申请对训练终止条件的内容不做限制。

在本申请提出的一些实施例中，按照上文描述的方法，经过若干次训练后，即确定无人机智能体模型的训练次数达到预设次数的情况下，可以获得对抗双方的无人机智能体模型在该训练次数中各自的获胜率，通过将该获胜率与获胜阈值进行比较，来确定是否需要暂停或加强一对抗方的无人机智能体模型的训练，实现各对抗方的无人机智能体模型的协同训练。

其中，在确定对抗双方各自的获胜率之间的差值大于获胜阈值，说明一对抗方的无人机获胜率过高或过低，对抗双方的无人机对抗水平存在较大差距，可以暂停对抗水平较高的一对抗方的无人机智能体模型的训练，并加强另一对抗方的无人机智能体模型的训练。即中断训练获胜率较高的一对抗方的无人机智能体模型，基于另一对抗方的累积奖励值，通过近端策略优化方式，调整相应无人机智能体模型中的对抗策略，即调整对抗水平较低的一对抗方的策略网络的网络参数，实现过程本申请不做详述。

之后，经过若干次训练，确定对抗双方各自新的获胜率之间的差值小于或等于获胜阈值，可以结束上述中断，基于对抗双方各自的累积奖励值，通过近端策略优化方式，调整相应无人机智能体模型中的对抗策略，也就是说，对抗双方无人机的对抗水平基本相同的情况下，对抗双方的无人机智能体模型可以同时进行训练，直至达到训练终止条件，从而保证对抗双方训练得无人机智能体模型都有机会获得良好的学习奖励，提高模型的对抗性和协同性。

结合上文各实施例描述的基于强化学习的无人机集群对抗决策获取方法，在训练之前，针对各无人机智能体模型的样本数据的获得方法可以包括：在虚拟对抗环境下，按照对抗双方各自的初始对抗策略，控制相应的无人机智能体模型执行对抗动作，获得相应的样本数据，如状态信息、对抗动作信息以及奖励信息等。

可选的，本申请也可以按照对抗双方各自的初始对抗策略，控制相应无人机在真实对抗环境下执行对抗动作，获得相应的样本数据。本申请实施例中，上述获得的样本数据可以包括同一时间步长下，无人机智能体模型或对应无人机执行对抗动作前所处的状态信息、所执行的对抗动作信息，以及在相应对抗环境下得到的奖励信息，本申请对这些信息获取方法不做限制。在模型训练过程中，无人机智能体模型在当前状态信息下，按照当前的对抗策略执行对抗动作，也会按照这种方式记录样本数据，用以实现下一次训练。

对于训练得到的各对抗方的对抗策略，即完整各对抗方的无人机智能体模型后，可以采用虚拟结合方式进行对抗测试，得到相应的目标对抗策略的测试结果。基于此，如图5所示，为本申请提出的基于强化学习的无人机集群对抗决策获取方法的可选实施例四的流程示意图，按照上文实施例描述的方法，获得不同对抗方的无人机智能体模型后，可以按照但并不局限于下文描述的方法进行测试：

步骤S51，将目标对抗策略迁移学习至真实测试环境下第一数量无人机的无人机模型；该无人机模型基于飞行日志数据构建；

步骤S52，在真实测试环境下，基于人机模型迁移学习到的目标对抗策略进行对抗测试，得到相应的第一对抗测试数据；

步骤S53，在虚拟测试环境下，基于目标对抗策略，对第二数量无人机的无人机智能体模型进行对抗测试，得到相应的第二对抗测试数据；

如上述分析，在虚实结合的测试过程中，可以由部分航模在真实测试环境下进行飞行，另一部分航模在虚拟测试环境下进行飞行，因此，在基于飞行日志数据构建真实的无人机模型（如固定翼航模）后，可以将训练得到的每一对抗方的目标对抗策略迁移学习到对应的无人机模型上，从而基于该目标对抗策略，在真实测试环境下进行对抗测试，记录相应的飞行数据，记为第一对抗测试数据。

与此同时，对于上述训练得到的各对抗方的无人机智能机模型，可以在虚拟测试环境下基于训练得到的目标对抗策略进行对抗测试，记录相应的飞行数据，记为第二对抗测试数据。上述测试过程与模型训练过程类似，本申请不做详述。

步骤S54，将第一对抗测试数据导入虚拟测试环境；

步骤S55，基于虚拟测试环境下得到的第一对抗测试数据和第二对抗测试数据，获得针对目标对抗策略的对抗测试结果。

本申请实施例中，可以将真实测试环境下得到的第一对抗测试数据传入虚拟测试环境，与该虚拟测试环境中的无人机智能体模型的数据进行交互，得到最终的对抗测试结果。可见，本申请采用虚拟结合的测试方式，不仅减少了测试的复杂性，且确保了测试的高效性和真实性。

参照图6，为本申请提出的基于强化学习的无人机集群对抗决策获取装置的一可选实施例结构示意图，如图6所示，该装置可以包括：

第一获取模块61，用于获取无人机集群中各无人机的属性参数以及飞行日志数据；飞行日志数据是无人机集群在多种环境参数下产生的；

第一构建模块62，用于基于属性参数和飞行日志数据，通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境，以及呈现于虚拟对抗环境的各无人机智能体模型；无人机智能体模型基于强化学习算法构建；

强化学习模块63，用于在不同的虚拟对抗环境下，基于针对各无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应对抗方的目标对抗策略；

对抗测试模块64，用于基于目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，不同测试环境包括真实测试环境以及通过仿真引擎构建的虚拟测试环境。

可选的，强化学习模块63可以包括：

初始状态信息获取单元，用于获取针对各无人机智能体模型的样本数据中的初始状态信息；

概率分布获得单元，用于将初始状态信息输入对应对抗方的无人机智能体模型，获得相应的无人机智能体模型在虚拟对抗环境下执行不同对抗动作的概率分布；

对抗动作执行单元，用于基于该概率分布，控制相应的无人机智能体模型在虚拟对抗环境下执行对抗动作，获得无人机智能体模型执行该对抗动作后的累积奖励值和下一状态信息；

对抗策略调整单元，用于至少基于该累积奖励值，调整无人机智能体模型中的对抗策略；

训练单元，用于将该下一状态信息输入具有调整后的对抗策略的无人机智能体模型继续进行训练，直至满足训练终止条件，得到相应对抗方的目标对抗策略；

其中，目标对抗策略能够表征相应对抗方的无人机智能体模型在不同虚拟对抗环境下的不同状态信息与不同目标执行动作之间的映射关系，目标执行动作是指具有映射的状态信息的无人机智能体模型在虚拟对抗环境获得最大奖励值的执行动作。

可选的，上述对抗策略调整单元可以包括：

累积奖励值获取单元，用于获取无人机智能体模型在虚拟对抗环境下的执行对抗动作后的累积奖励值；

获胜率获得单元，用于确定无人机智能体模型的训练次数达到预设次数，获得对抗双方的无人机智能体模型在训练次数中各自的获胜率；

第一调整单元，用于确定对抗双方各自的获胜率之间的差值大于获胜阈值，中断训练获胜率较高的一对抗方的无人机智能体模型，基于另一对抗方的累积奖励值，通过近端策略优化方式，调整相应无人机智能体模型中的对抗策略；

第二调整单元，用于确定对抗双方各自新的获胜率之间的差值小于或等于获胜阈值，结束该中断，基于对抗双方各自的累积奖励值，通过近端策略优化方式，调整相应无人机智能体模型中的对抗策略。

可选的，上述状态信息可以包括相应无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量；

上述累积奖励值基于同一对抗方的无人机智能体模型的剩余虚拟能量的变化量、战胜另一对抗方的无人机智能体模型的数量，以及无人机智能体模型执行对抗动作是否达到期望位置而确定。

在一些实施例中，用于获得针对各无人机智能体模型的样本数据的样本数据获得模块可以包括：

第一获得单元，用于在虚拟对抗环境下，按照对抗双方各自的初始对抗策略，控制相应的无人机智能体模型执行对抗动作，获得相应的样本数据；或者，

第二获得单元，用于按照对抗双方各自的初始对抗策略，控制相应无人机在真实对抗环境下执行对抗动作，获得相应的样本数据；

其中，样本数据包括同一时间步长下，无人机智能体模型或对应无人机执行对抗动作前所处的状态信息、所执行的对抗动作信息，以及在相应对抗环境下得到的奖励信息；对抗动作信息包括相应无人机智能体模型或无人机的飞行控制输入指令，飞行控制输入指令至少包括横滚角控制指令、仰俯角控制指令以及飞行速度控制指令之中的一个或多个组合。

在又一些实施例中，上述对抗测试模块64可以包括：

迁移学习单元，用于将目标对抗策略迁移学习至真实测试环境下第一数量无人机的无人机模型；无人机模型基于飞行日志数据构建；

第一测试单元，用于在真实测试环境下，基于无人机模型迁移学习到的目标对抗策略进行对抗测试，得到相应的第一对抗测试数据；

第二测试单元，用于在虚拟测试环境下，基于目标对抗策略，对第二数量无人机的无人机智能体模型进行对抗测试，得到相应的第二对抗测试数据；第一数量无人机和第二数量无人机构成无人机集群；

导入单元，用于将第一对抗测试数据导入虚拟测试环境；

对抗测试结果获得单元，用于基于虚拟测试环境下得到的第一对抗测试数据和第二对抗测试数据，获得针对目标对抗策略的对抗测试结果。

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种计算机可读存储介质，其上可以存储至少一个计算机指令集，处理设备通过执行该计算机指令，实现本申请提出的基于强化学习的无人机集群对抗决策获取方法，关于基于强化学习的无人机集群对抗决策获取方法的实现过程，可以参照上文方法实施例对应部分的描述，本申请在此不做一一举例详述。

参照图7，为适用于本申请提出的基于强化学习的无人机集群对抗决策获取方法的电子设备的一可选实施例的硬件结构示意图，如图7所示，该电子设备可以包括：显示器71、通信连接端口72以及处理器73，其中：

通信连接端口72可以用于连接检测设备，接收该检测设备发送的无人机集群的飞行日志数据；该飞行日志数据是无人机集群在多种环境参数下产生的，由检测设备实时检测后通过该通信连接端口72发送至电子设备。该检测设备作为系统硬件设备，可以包括各种传感器，以实时检测无人机对应类型的飞行数据，本申请对飞行数据的检测实现方法不做限制，可视情况而定。

可选的，该通信连接端口72可以是支持如wifi、蓝牙和/或近场通道方式等无线通信方式对应的通讯元件，以使得电子设备可以通过该通讯元件，实现与其他设备（如上述分布式数据库或其他设备）进行数据传输，本申请对通信连接端口72的组成结构及其对应的通信传输机制不做限制，可视情况而定。

可选的，通信连接端口72还可以包括一个或多个支持有线通信方式的接口，如通用输入输出(general-purpose input/output，GPIO)接口、USB接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口等，以实现电子设备内部各组成部分之间的数据传输，本申请对通信连接端口72的类型和数量不做限制，可视情况而定。其中，对于电子设备中的各组成部分之间可以通过通信总线，如数据总线、指令总线等进行数据交互。

处理器73可以用于加载执行多个计算机指令，实现以下步骤：

获取无人机集群中各无人机的属性参数以及通信连接端口接收到的飞行日志数据；基于属性参数和飞行日志数据，通过仿真引擎构建针对无人机集群对抗任务的虚拟对抗环境，以及呈现于虚拟对抗环境的各无人机智能体模型，在不同的虚拟对抗环境下，基于针对各无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应对抗方的目标对抗策略，基于目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，不同测试环境包括真实测试环境以及通过仿真引擎构建的虚拟测试环境。

关于处理器73实现本申请提出的基于强化学习的无人机集群对抗决策获取方法的实现过程，可以参照上文方法实施例对应部分的描述，本实施例在此不做赘述。

可选的，上述处理器73也可以包括至少一个存储单元和至少一个处理单元，处理单元可以执行存储单元存储的计算机指令，实现本申请提出的基于强化学习的无人机集群对抗决策获取方法。

在本申请实际应用中，上述处理器73或其包含的处理单元可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)、中央处理器(Central Processing Unit，CPU)、特定应用集成电路(application-specific integrated circuit，ASIC) 现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。存储单元可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件等，本申请对处理器73的组成结构不做限制。

结合上文对本申请提出的基于强化学习的无人机集群对抗决策获取方法的相关描述，上述存储单元还存储有实现仿真引擎的程序代码，处理单元可以执行该程序代码，运行该仿真引擎，以构建高度逼真的虚拟对抗环境、虚拟测试环境等，即构建相应的环境模型，本申请对仿真引擎的工作过程不做详述。

对于上述构建的环境模型运行过程中，可以由显示器71展示所构建的虚拟对抗环境和虚拟测试环境，并在对抗训练和对抗测试过程中，还可以在该环境下展示无人机模型的对抗过程，以直观看到无人机智能体模型的训练过程和测试过程，便于结合实际情况进行人工干预，本申请对该可视化展示过程不做详述。

为了实现无人机集群的飞行测试和验证，可以使用上述仿真引擎构建虚拟测试环境，也可以使用如MATLAB、ROS等工具搭建虚拟测试环境，模拟无人机集群飞行的动力学、通信、干扰等因素，评估无人机集群飞行的性能和效果，本申请对虚拟测试环境的构建实现过程不做详述。

应该理解的是，图7所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中，电子设备可以包括比图7所示的更多或更少的部件，或者组合某些部件，可以结合实际需求进行灵活调整，本申请在此不做一一列举。

参照图8，为本申请提出的基于强化学习的无人机集群对抗决策获取系统的一可选实施例的结构示意图，如图8所示，该系统可以包括至少一个电子设备81，以及与电子设备81连接的检测设备82，其中：

电子设备81可以为笔记本电脑、台式电脑、机器人等终端设备，用于执行本申请提出的基于强化学习的无人机集群对抗决策获取方法，实现过程可以参照上文方法实施例对应部分的描述。对于该电子设备81的硬件结构可以参照上文电子设备实施例的描述，本实施例不做详述。

在一些实施例中，对于本申请提出的基于强化学习的无人机集群对抗决策获取方法，也可以由终端设备与服务器进行交互实现，如由服务器执行目标对抗策略的强化学习过程，通过终端设备的显示器对强化学习过程和对抗测试过程进行可视化展示，实现过程本申请不做详述。

检测设备82可以用于获取无人机集群中各无人机的飞行日志数据，将飞行日志数据发送至电子设备，并在真实测试环境进行对抗测试过程中，获取对应的第一对抗测试数据，将第一对抗测试数据发送至电子设备，以导入电子设备构建的虚拟测试环境，基于虚拟测试环境下得到的第二对抗测试数据和第一对抗测试数据，获得针对目标对抗策略的对抗测试结果，实现过程可以参照上文实施例对应部分的描述，本实施例不做详述。

在实际应用中，如上述分析，检测设备82可以包括各种传感器和通信模块，通过传感器检测无人机在真实环境下飞行的对应类型飞行数据，生成飞行日志数据，实现过程本申请不做详述。之后，通过通信模块与电子设备的通信连接端口72之间建立的数据传输通道，将该飞行日志数据发送至电子设备进行后续处理。

此外，上述系统还可以包括其他控制设备，如无线电遥控器、地面站等设备，以在真实测试环境下进行测试过程中，可以使用控制设备控制无人机的起飞、降落和回收等动作，以观察无人机的飞行表现和结果，本申请飞行测试过程使用的硬件设备及其工作不做详述，可视情况而定。

应该理解的是，图8所示的基于强化学习的无人机集群对抗决策获取系统的硬件结构并不构成对本申请实施例中基于强化学习的无人机集群对抗决策获取系统的限定，在实际应用中，基于强化学习的无人机集群对抗决策获取系统可以包括比图8所示的更多的部件，或者组合某些部件，如数据库等，可以结合实际需求进行灵活调整，本申请在此不做一一列举。

最后，需要说明的是，关于上述各实施例中，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

本申请涉及到的术语诸如“第一”、“第二”等仅用于描述目的，用来将一个操作、单元或模块与另一个操作、单元或模块区分开来，而不一定要求或者暗示这些单元、操作或模块之间存在任何这种实际的关系或者顺序。且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言，由于其与实施例公开的方法对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于强化学习的无人机集群对抗决策获取方法，其特征在于，所述基于强化学习的无人机集群对抗决策获取方法包括：

基于所述目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，所述不同测试环境包括真实测试环境以及通过所述仿真引擎构建的虚拟测试环境；

其中，所述在不同的所述虚拟对抗环境下，基于针对各所述无人机智能体模型的样本数据，对各对抗方的初始对抗策略进行强化学习，获得相应所述对抗方的目标对抗策略，包括：

2.根据权利要求1所述的基于强化学习的无人机集群对抗决策获取方法，其特征在于，所述至少基于所述累积奖励值，调整所述无人机智能体模型中的对抗策略，包括：

3.根据权利要求1所述的基于强化学习的无人机集群对抗决策获取方法，其特征在于，所述状态信息包括相应所述无人机智能体模型在当前状态下的位置信息、飞行速度信息、飞行姿态信息、剩余虚拟攻击资源和剩余虚拟能量；

4.根据权利要求1所述的基于强化学习的无人机集群对抗决策获取方法，其特征在于，所述针对各所述无人机智能体模型的样本数据的获得方法包括以下至少一种：

5.根据权利要求1-4任一项所述的基于强化学习的无人机集群对抗决策获取方法，其特征在于，所述基于所述目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果，包括：

将所述第一对抗测试数据导入所述虚拟测试环境；

6.一种基于强化学习的无人机集群对抗决策获取装置，其特征在于，所述基于强化学习的无人机集群对抗决策获取装置包括：

对抗测试模块，用于基于所述目标对抗策略，在不同测试环境进行对抗测试，获得对抗测试结果；其中，所述不同测试环境包括真实测试环境以及通过所述仿真引擎构建的虚拟测试环境；

其中，所述强化学习模块包括：

7.一种电子设备，其特征在于，所述电子设备包括：

显示器；

处理器，用于加载执行多个计算机指令，实现以下步骤：

8.根据权利要求7所述的电子设备，其特征在于，所述显示器用于：

9.一种基于强化学习的无人机集群对抗决策获取系统，其特征在于，所述基于强化学习的无人机集群对抗决策获取系统包括：

至少一个如权利要求7或8所述的电子设备；