CN115047912B

CN115047912B - 一种基于强化学习的无人机集群自适应自重构方法及系统

Info

Publication number: CN115047912B
Application number: CN202210831328.2A
Authority: CN
Inventors: 赵稀; 姚安卓; 李大庆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-06-14
Anticipated expiration: 2042-07-14
Also published as: CN115047912A

Abstract

本发明涉及一种基于强化学习的无人机集群自适应自重构方法及系统，涉及无人机集群领域，该方法包括：初始化多个无人机智能体模型；构造局域对抗仿真环境；仿真环境包括虚拟物理引擎；虚拟物理引擎用于驱动各无人机智能体模型按照物理规律进行仿真飞行；在局域对抗仿真环境中施加设定外加扰动；在仿真飞行的过程中，基于多智能体强化学习模型，根据各无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练多智能体强化学习模型中的神经网络；在每个时刻，根据生成的联合动作决策重构无人机集群，为每个打击目标分配设定数量的无人机智能体模型。本发明提高了无人机集群的可靠性。

Description

一种基于强化学习的无人机集群自适应自重构方法及系统

技术领域

本发明涉及无人机集群技术领域，特别是涉及一种基于强化学习的无人机集群自适应自重构方法及系统。

背景技术

目前，存在不少关于无人系统的研究，包括海上异构无人系统、无人反水雷系统和地面无人系统等，其中无人机集群是典型的无人体系。无人机集群指依靠大量低成本、速度快、适应能力强、易于携带和投射的无人机形成规模优势，从而取得对抗的主动权的过程。无人机集群技术在目前的对抗体系中占有重要战略地位，全球强国都十分重视无人机集群技术的持续发展，因此基于无人机集群的装备体系研究受到了很多研究人员的关注。

无人机集群对抗是近年来提出的一种全新对抗模式，具有很高的潜在应用价值，可能成为未来对抗的主流趋势。无人机集群是将众多无人机在灵活的体系框架下整体聚合，以平台间协同控制为基础，以提升协同任务能力为目标的分布式系统。无人机集群将带来对抗模式的颠覆性变革，可广泛应用于广域搜索侦查监视、边境巡逻搜救等领域，并可衍生新的对抗模式，提升体系对抗效能，减缩开支。

在实际任务对抗中，无人机集群更侧重于以具体对抗任务为中心，随着对抗环境日益复杂和执行任务的日趋多样化，无人机集群能否安全、可靠地完成既定对抗任务已成为使用者最为关心的主题。因此，为提升无人机集群在多种复杂环境执行多样化任务的任务对抗能力和抗毁能力，迫切需要从可靠性、抗毁性角度研究无人机集群的故障机理和韧性技术，为正在蓬勃发展的无人机集群系统提供必要的理论支撑和优化方案。

发明内容

本发明的目的是提供一种基于强化学习的无人机集群自适应自重构方法及系统，提高了无人机集群的可靠性。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的无人机集群自适应自重构方法，包括：

根据无人机集群参数初始化多个无人机智能体模型；

构造局域对抗仿真环境；所述局域对抗仿真环境包括通过障碍物边界圈定的设定区域范围、虚拟物理引擎和打击目标；所述虚拟物理引擎用于驱动各所述无人机智能体模型按照物理规律进行仿真飞行；

使各所述无人机智能体模型生成的无人机集群在所述局域对抗仿真环境中飞行，并在所述局域对抗仿真环境中施加设定外加扰动；

在各所述无人机智能体模型仿真飞行的过程中，基于多智能体强化学习模型，根据各所述无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练所述多智能体强化学习模型中的神经网络；所述神经网络用于根据整体观察信息输出联合动作决策；所述整体观察信息为各所述无人机智能体模型获得的观察信息的总和；

在每个时刻，根据所述多智能体强化学习模型生成的所述联合动作决策重构无人机集群，并根据当前无人机集群和整体观察信息，为每个打击目标分配设定数量的所述无人机智能体模型，各所述无人机智能体模型对对应所述打击目标进行打击。

可选地，所述观察信息包括所述无人机智能体模型是否存活、所述无人机智能体模型拥有的弹药信息、探测到的所述打击目标规模和所述无人机智能体模型存在的无人机集群规模。

可选地，所述在各所述无人机智能体模型仿真飞行的过程中，基于多智能体强化学习模型，根据各所述无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练所述多智能体强化学习模型中的神经网络，具体包括：

在当前时刻，将各所述无人机智能体模型的观察信息构成的观察信息向量输入所述多智能体强化学习模型，所述多智能体强化学习模型输出所述联合动作决策；所述联合动作决策包括各所述无人机智能体模型的动作决策；

在下一时刻，各所述无人机智能体模型执行对应动作决策，并将各所述无人机智能体模型执行后的即时奖励和下一时刻获得的观察信息封装为训练数据，所述训练数据用于训练所述神经网络。

可选地，所述即时奖励包括由击毁打击目标、自身无人机智能体模型受损和探索到所述打击目标而生成的即时奖励。

可选地，所述无人机集群参数包括无人机总架数、各无人机初始位置坐标、最大飞行速度、最大转弯半径、最大加速度、避撞警告距离、弹药容限和续航时长。

可选地，所述无人机智能体模型为根据察打一体无人机生成的仿真模型，各所述无人机智能体模型用于在所述虚拟物理引擎的驱动下，执行飞行、导弹发射和侦察探测。

可选地，所述设定外加扰动的参数包括扰动类型、扰动范围、扰动频率和扰动强度。

本发明公开了一种基于强化学习的无人机集群自适应自重构系统，包括：

无人机智能体模型初始化模块，用于根据无人机集群参数初始化多个无人机智能体模型；

局域对抗仿真环境构成模块，用于构造局域对抗仿真环境；所述局域对抗仿真环境包括通过障碍物边界圈定的设定区域范围、虚拟物理引擎和打击目标；所述虚拟物理引擎用于驱动各所述无人机智能体模型按照物理规律进行仿真飞行；

设定外加扰动施加模块，用于使各所述无人机智能体模型生成的无人机集群在所述局域对抗仿真环境中飞行，并在所述局域对抗仿真环境中施加设定外加扰动；

联合动作决策生成模块，用于在各所述无人机智能体模型仿真飞行的过程中，基于多智能体强化学习模型，根据各所述无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练所述多智能体强化学习模型中的神经网络；所述神经网络用于根据整体观察信息输出联合动作决策；所述整体观察信息为各所述无人机智能体模型获得的观察信息的总和；

目标打击模块，用于在每个时刻，根据所述多智能体强化学习模型生成的所述联合动作决策重构无人机集群，并根据当前无人机集群和整体观察信息，为每个打击目标分配设定数量的所述无人机智能体模型，各所述无人机智能体模型对对应所述打击目标进行打击。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于强化学习的无人机集群自适应自重构方法及系统，在局域对抗仿真环境中施加设定外加扰动，根据多智能体强化学习模型进行下一时刻的动作决策输出，并通过无人机智能体模型整体观察信息和即时奖励训练多智能体强化学习模型中的神经网络，通过不断进行神经网络的训练，提高了无人机集群的可靠性和抗毁性，同时提高了无人机集群的决策能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于强化学习的无人机集群自适应自重构方法流程示意图；

图2为本发明多智能体强化学习模型中数据传输示意图；

图3为本发明一种基于强化学习的无人机集群自适应自重构系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

由于无人机集群涉及大量无人机对抗平台的协同控制，复杂度极高，是具有异构性、动态性、规模性和非线性的复杂系统。庞大的对抗空域、异质的敌方单位、瞬息万变的态势，加上我方无人机集群之间频繁的通信协同，使得大量无人机所组成集群的自适应控制和对抗下的自组织重构极为困难。

图1为本发明一种基于强化学习的无人机集群自适应自重构方法流程示意图，如图1所示，一种基于强化学习的无人机集群自适应自重构方法，包括：

步骤101：根据无人机集群参数初始化多个无人机智能体模型。

无人机集群参数包括无人机总架数、各无人机初始位置坐标、最大飞行速度、最大转弯半径、最大加速度、避撞警告距离、弹药容限和续航时长。

建立真实物理空间下无人机集群到虚拟时空域下无人机集群智能体模型的准确映射，以作为后续扰动、对抗、决策训练等的基础；包括以下步骤：

根据仿真所需特定场景，选取无人机总架数、初始位置坐标、最大飞行速度、最大转弯半径、最大加速度、避撞警告距离、弹药容限、续航时长等参数的合理数值，并封装成参数集P。

将封装好的参数集P中的参数传入智能体类，并逐个进行实例化，构建出指定数量的无人机智能体对象。

无人机智能体模型为根据察打一体无人机生成的仿真模型，性能由各特征参数限定，各无人机智能体模型在虚拟物理引擎下按照力学和信息特性，受动作决策控制，执行仿真飞行、导弹发射、侦察探测等功能的智能体模型。

步骤102：构造局域对抗仿真环境；局域对抗仿真环境包括通过障碍物边界圈定的设定区域范围、虚拟物理引擎和打击目标；虚拟物理引擎用于驱动各无人机智能体模型按照物理规律进行仿真飞行。

打击目标包括敌方无人机集群。对应的，其中步骤101中初始化的多个无人机智能体模型构成我方无人机集群。

其中，步骤102具体包括：在仿真空间内设置一定大小的障碍物边界，使无人机无法飞出，只能在指定区域内接受扰动或与敌方无人机对抗。在仿真空间内设置虚拟物理引擎，仿真无人机在加速、减速、协同、受到打击时的运动规律。将步骤101中初始化的无人机智能体模型放入局域对抗仿真环境中。

局域对抗仿真环境的具体含义为：包括有限空间的虚拟对抗空域和驱动空域内无人机按照抽象的物理规律进行仿真飞行的物理引擎的虚拟仿真空间。

步骤103：使各无人机智能体模型生成的无人机集群在局域对抗仿真环境中飞行，并在局域对抗仿真环境中施加设定外加扰动。

设定外加扰动的参数包括扰动类型、扰动范围、扰动频率和扰动强度，将设定外加扰动的参数封装入扰动参数集D。扰动类型包括天气扰动、地形扰动和敌方扰动。

其中，步骤103中在局域对抗仿真环境中施加设定外加扰动，即为向我方无人机集群施加设定扰动，具体包括：根据封装好的扰动参数集D，按照扰动参数集中包含的扰动类型、扰动范围、扰动频率、扰动强度等参数，向局域对抗仿真环境中的无人机集群施加扰动。

步骤104：在各无人机智能体模型仿真飞行的过程中，基于多智能体强化学习模型，根据各无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练多智能体强化学习模型中的神经网络；神经网络用于根据整体观察信息输出联合动作决策；整体观察信息(观察信息向量)为各无人机智能体模型获得的观察信息的总和。

观察信息包括无人机智能体模型是否存活、无人机智能体模型拥有的弹药信息、探测到的打击目标规模和无人机智能体模型存在的无人机集群规模。

其中，步骤104具体包括：

在当前时刻，将各无人机智能体模型的观察信息构成的观察信息向量输入多智能体强化学习模型，多智能体强化学习模型输出联合动作决策；联合动作决策包括各无人机智能体模型的动作决策。

在下一时刻，各无人机智能体模型执行对应动作决策，并将各无人机智能体模型执行后的即时奖励和下一时刻获得的观察信息封装为训练数据，采用N 个训练数据训练神经网络，N为动作决策的数量。

即时奖励包括由击毁打击目标、自身无人机智能体模型受损和探索到打击目标而生成的即时奖励。其中，由击毁打击目标和探索到打击目标而生成的即时奖励为正数，由自身无人机智能体模型受损生成的即时奖励为负数。

动作决策包括是否发射导弹攻击设定打击目标、是否离开当前编组前往另一编组和是否离开当前编组前往未知空域进行探索。

其中神经网络为决策神经网络。

本发明中多智能体强化学习模型根据无人机集群扰动后的受损情况，不断进行集群适应性重构决策，生成无人机集群编组，并根据动作决策和即使奖励训练决策神经网络。步骤104更具体的步骤如下：在仿真进行过程中的每一离散时刻下，各个无人机智能体都会不断向多智能体强化学习模型传入其视野范围内的观察信息，如自身是否存活、拥有何种类型的弹药、可探测到的对手集群规模和自身所处集群规模等，多智能体强化学习模型根据无人机智能体模型传入的观察信息，经由多层神经网络输出无人机下一步的动作决策，如是否发射导弹攻击某架敌机、是否离开当前编组前往另一编组、是否离开编组前往自行探索未知空域等，以此类微观动作决策，根据实时态势重新构造无人机集群编组。执行动作决策后，各无人机智能体会将因击毁敌机、自身受损、探索到有价值目标等事件获得即时奖励，此时无人机智能体将再执行一次对外界的观察，并将上一动作决策、当前观察信息和当前即时奖励传入多智能体强化学习模型中央控制器，供中央控制器用来训练神经网络参数，提升决策能力。该轮训练完成后，多智能体强化学习模型再次接收下一轮观察信息，给出下一轮动作决策，以及进行下一轮神经网络训练。

神经网络训练的过程包括：

步骤E1：无人机智能体i进行观察，将观察信息传入多智能体强化学习模型。

其具体做法如下：各无人机智能体i对自身观察范围内的自身存活信息、弹药存量信息、对手集群规模信息、自身集群规模信息等进行汇总，汇聚成观察信息向量o_t-1，分别传给多智能体强化学习模型。

步骤E2：多智能体强化学习模型将所有智能体的观察信息向量o_t-1输入决策神经网络，并输出所有无人机智能体的联合动作决策a_t。

其具体做法如下：多智能体强化学习将每个无人机智能体i的观察信息进行整合，构造出总的观察信息向量o_t-1，将o_t-1输入决策神经网络，输出所有无人机智能体的联合动作决策a_t。

步骤E3：各无人机智能体分别执行动作决策并将执行后的即时奖励/>和再次的观察信息/>封装为/>传入多智能体强化学习模型中央控制器；

其具体做法如下：将步骤E2中决策神经网络输出的无人机智能体联合动作决策a_t拆分为N个动作分别传给各无人机智能体i。各无人机智能体i执行动作/>进行自适应自重构执行，生成多个待调配的无人机集群编组接受外加扰动或与敌方对抗，此后将执行后的即时奖励/>和再次的观察信息/>封装为/>传给多智能体强化学习模型中央控制器以供其训练决策神经网络。

步骤E4：多智能体强化学习模型中央控制器利用传入的N个对决策神经网络进行训练。

其具体做法如下：多智能体强化学习模型中央控制器读取传入的N个并将其依次拼接成整体信息[a_t,o_t,r_t]，进行中央控制器价值神经网络参数更新，如图2所示。

图2中，a¹为决策神经网络输出的联合动作决策分量，由无人机智能体1 执行。o¹为无人机智能体1执行观察后，输入决策神经网络的观察信息。r¹为无人机智能体1执行动作a¹后获得的即时奖励。aⁿ为决策神经网络输出的联合动作决策分量，由无人机智能体n执行。oⁿ：无人机智能体n执行观察后，输入决策神经网络的观察信息。rⁿ：无人机智能体n执行动作aⁿ后获得的即时奖励。

步骤105：在每个时刻，根据多智能体强化学习模型生成的联合动作决策重构无人机集群，并根据当前无人机集群和整体观察信息，为每个打击目标分配设定数量的无人机智能体模型，各无人机智能体模型对对应打击目标进行打击。

其中，步骤105具体包括：顶层决策智能体调动每一时刻下联合动作决策，自适应自重构出的无人机集群编组，围剿敌方单位。一个无人机集群包括多个无人机编组。具体步骤包括：每一时刻下，多智能体强化学习决策模型自动生成合理的无人机集群编组供顶层决策智能体调配，顶层决策智能体读取可调配的无人机集群编组及当前时刻的整体态势观察信息，选取数个特定的敌方目标，并为每个敌方目标分配一定数量的我方无人机集群编组前往围剿，直至敌方全部被歼灭。

本发明一种基于强化学习的无人机集群自适应自重构方法，考虑到无人机集群复杂系统异构性、涌现性、非线性和多重耦合等多种复杂特性，基于强化学习方法，将察打一体无人机视为智能体，智能体基于局域态势进行战术决策组成小型集群编组，再由顶层决策智能体根据全局态势指挥各集群编组围剿敌方单元。当各集群受到雷暴、炮击、地形等外界扰动或遭遇敌袭损失部分单元时，各智能体会根据实际态势进行自适应编组调整或自组织编组重构，以应对外界扰动，以较强韧性恢复对抗效能，最大化打击对手。

本发明在局域集群受到敌方毁伤后，根据自身损伤情况及敌方态势，进行自身阵营内单元的集群重构，以利用剩余对抗资源最大化杀伤敌方。根据执行后的战术效果给出即时奖励，训练智能体决策网络，在对抗中不断提升决策能力。便捷有效，易于计算，实际应用价值和前景良好。

本发明具有如下的有益效果：

1、计算简明：本发明采用的基于强化学习的无人机集群自适应自重构策略，指标清晰便于复用，模型科学、简单、易计算，数值易于获取和监测，易于使用各类遍历搜索策略实现无人机集群参数统计分析，对硬软件系统要求门槛较低，易于进行工程实践。

2、决策能力强：本发明所提出基于强化学习对无人机集群进行自适应自重构控制的方法，将强化学习决策方法引入无人机集群的适应性控制，该方法能够在不断对抗中进化、提升决策能力；

3、通用性强：本发明所构建的基于强化学习的无人机集群自适应自重构方法适用于绝大多数无人机集群的自适应控制，在进行不同类型无人机仿真时，仅需更改初始的无人机性能参数而无需其他更改，迁移性强，可移植性较好，通用性强。

下面以具体实施例说明本发明一种基于强化学习的无人机集群自适应自重构方法。

本发明实施例以某察打一体无人机集群为例，阐述本发明方法。具体地说，该无人机集群包含无人机总架数为50架，最大航行速度为25m/s，最大加速度7.3m/s，载弹量为2发。由于目标对抗空域中同时存在异常天气和敌方来袭无人机集群，需要在抵抗恶劣天气这一外加扰动的同时，对受损节点(受损无人机智能体)进行实时功能代偿，对集群编组进行动态重构，以不断自适应地组织起对抗力量歼灭对手。

为了实现上述目的，本发明的方法所采用的技术方案是：一种基于强化学习的无人机集群自适应自重构方法。

本发明一种基于强化学习的无人机集群自适应自重构方法，其步骤如下：

步骤A：根据无人机集群参数初始化无人机智能体模型。

步骤B：构造局域对抗仿真环境。

步骤C：设定外加扰动参数。

步骤D：向我方无人机集群施加设定扰动。

步骤E：多智能体强化学习模型根据无人机集群扰动后的受损情况，不断进行集群适应性重构决策，生成集群编组，并根据决策奖励训练决策模型。

步骤F：顶层决策智能体调动每一时刻下决策生成、适应、重构出的无人机集群编组，围剿敌方单位。

其中，步骤A中所述的“根据无人机集群参数初始化无人机智能体模型”，其具体做法如下：根据待测试的无人机集群各类参数，包括无人机总架数为 50架，最大航行速度为25m/s，最大加速度7.3m/s，载弹量为2发等参数，建立真实物理空间下无人机集群到虚拟时空域下无人机集群智能体模型的准确映射，以作为后续扰动、对抗、决策训练等的基础；包括以下步骤：

步骤A1：给出待仿真无人机集群全部初始化参数集P。

其具体做法如下：根据仿真所需特定场景，选取无人机总架数为50架，最大航行速度为25m/s，最大加速度7.3m/s，载弹量为2发等参数的合理数值，并封装成参数集P。

步骤A2：将参数集P中的各参数作为初始参数建立无人机智能体模型。

其具体做法如下：将封装好的参数集P中的参数传入智能体类，并逐个进行实例化，构建出指定数量的无人机智能体模型。

其中，步骤A中所述的“无人机智能体模型”，为一个具体的察打一体无人机可以抽象出的，性能由各特征参数限定，可在虚拟物理引擎下按照力学和信息特性，受智能决策控制，执行仿真飞行、导弹发射、侦察探测等功能的智能体模型。

其中，步骤B所述的“构造局域对抗仿真环境”，其具体做法如下：在仿真空间内设置边长为12000米、高度为3000米的四棱柱状障碍物边界，使无人机无法飞出，只能在指定区域内接受扰动或与敌方无人机对抗。在仿真空间内设置虚拟物理引擎，仿真无人机在加速、减速、协同、受到打击时的运动规律。此后，将步骤A中初始化完成的无人机智能体模型放入仿真环境。

其中，步骤B所述的“局域对抗仿真环境”，其具体含义为：包括有限空间的虚拟对抗空域和驱动空域内无人机按照抽象的物理规律进行仿真飞行的物理引擎的虚拟仿真空间。

其中，步骤C所述的“设定外加扰动参数”，其具体做法如下：从天气扰动、地形扰动、敌方扰动等扰动类型中选定扰动类型为天气扰动，并根据测试要求给定扰动范围为整个无人机集群、扰动频率为20s/次、扰动强度为3架/ 次等参数，并封装入扰动参数集D。

其中，步骤D所述的“向我方无人机集群施加设定扰动”，其具体做法如下，根据步骤C中封装好的扰动参数集D，按照其中包含的扰动类型、扰动范围、扰动频率、扰动强度等参数，向局域对抗仿真环境中的无人机集群施加扰动。

其中，步骤E中所述的“多智能体强化学习模型根据无人机集群扰动后的受损情况，不断进行集群适应性重构决策，生成集群编组，并根据决策奖励训练决策模型”，其具体做法如下：在仿真进行过程中的每一离散时刻下，各个无人机智能体都会不断向多智能体强化学习模型传入其视野范围内的观察信息，如自身是否存活、拥有何种类型的弹药、可探测到的对手集群规模、自身所处集群规模、友军位置坐标、可观察到的对手位置坐标等，多智能体强化学习模型根据无人机智能体模型传入的观察信息，经由多层神经网络输出无人机下一步的动作决策，如是否发射导弹攻击某架敌机、是否离开当前编组前往另一编组、是否离开编组前往自行探索未知空域等，以此类微观动作决策，根据实时态势重新构造无人机集群编组。执行动作决策后，各无人机智能体会将因击毁敌机、自身受损、探索到有价值目标等事件获得即时奖励，此时无人机智能体将再执行一次对外界的观察，并将上一动作决策、当前观察和当前即时奖励传入多智能体强化学习模型中央控制器，供中央控制器用来训练神经网络参数，提升决策能力。该轮训练完成后，多智能体强化学习模型再次接收下一轮观察信息，给出下一轮动作决策，以及进行下一轮神经网络训练；包括以下步骤：

步骤E1：各无人机智能体i进行观察，将观察信息传入多智能体强化学习模型；

其具体做法如下：以时刻t＝35s为例，各无人机智能体i对自身观察范围内的自身存活信息、弹药存量信息、对手集群规模信息、自身集群规模信息、友军坐标信息、可观察的对手坐标信息等进行汇总，汇聚成50维的观察向量分别传给多智能体强化学习模型。

步骤E2：多智能体强化学习模型将所有智能体的联合观察信息o_t-1输入决策神经网络，并输出所有无人机智能体的联合动作决策a_t；

其具体做法如下：以t＝35s为例，多智能体强化学习将每个无人机智能体 i的观察信息进行整合，构造出总的观察信息o₃₄，将o₃₄输入决策神经网络，输出所有无人机智能体t＝35s的联合动作决策a₃₅。

其具体做法如下：将步骤E2中决策神经网络输出的无人机智能体联合动作决策a₃₅拆分为N＝50个动作分别传给各无人机智能体i。各无人机智能体 i执行动作/>进行自适应自重构执行，生成多个待调配的无人机集群编组接受外加扰动或与敌方对抗，此后将执行后的即时奖励/>和再次的观察信息/>封装为/>传给多智能体强化学习模型中央控制器以供其训练决策神经网络。

步骤E4：多智能体强化学习模型中央控制器利用传入的N个对决策神经网络进行训练；

其具体做法如下：多智能体强化学习模型中央控制器读取传入的N个并将其依次拼接成整体信息[a₃₅,o₃₅,r₃₅]，进行中央控制器价值神经网络参数更新。

其中，步骤F所述的“顶层决策智能体调动每一时刻下决策生成、适应、重构出的无人机集群编组，围剿敌方单位”，其具体做法如下：每一时刻下，多智能体强化学习决策模型自动生成的7个合理的无人机集群编组供顶层决策智能体调配，顶层决策智能体读取可调配的7个无人机集群编组及当前时刻的整体态势观察信息，选取2个特定的敌方目标(分别称作1号目标和2号目标)，并为1号敌方目标分配3个我方无人机集群编组，为2号敌方目标分配4 个我方无人机集群编组前往围剿，直至敌方全部被歼灭。

图3为本发明一种基于强化学习的无人机集群自适应自重构系统结构示意图，如图3所示，一种基于强化学习的无人机集群自适应自重构系统，包括：

无人机智能体模型初始化模块201，用于根据无人机集群参数初始化多个无人机智能体模型。

局域对抗仿真环境构成模块202，用于构造局域对抗仿真环境；局域对抗仿真环境包括通过障碍物边界圈定的设定区域范围、虚拟物理引擎和打击目标；虚拟物理引擎用于驱动各无人机智能体模型按照物理规律进行仿真飞行。

设定外加扰动施加模块203，用于使各无人机智能体模型生成的无人机集群在局域对抗仿真环境中飞行，并在局域对抗仿真环境中施加设定外加扰动。

联合动作决策生成模块204，用于在各无人机智能体模型仿真飞行的过程中，基于多智能体强化学习模型，根据各无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练多智能体强化学习模型中的神经网络；神经网络用于根据整体观察信息输出联合动作决策；整体观察信息为各无人机智能体模型获得的观察信息的总和。

目标打击模块205，用于在每个时刻，根据多智能体强化学习模型生成的联合动作决策重构无人机集群，并根据当前无人机集群和整体观察信息，为每个打击目标分配设定数量的无人机智能体模型，各无人机智能体模型对对应打击目标进行打击。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的无人机集群自适应自重构方法，其特征在于，包括：

根据无人机集群参数初始化多个无人机智能体模型；

2.根据权利要求1所述的基于强化学习的无人机集群自适应自重构方法，其特征在于，所述观察信息包括所述无人机智能体模型是否存活、所述无人机智能体模型拥有的弹药信息、探测到的所述打击目标规模和所述无人机智能体模型存在的无人机集群规模。

3.根据权利要求2所述的基于强化学习的无人机集群自适应自重构方法，其特征在于，所述在各所述无人机智能体模型仿真飞行的过程中，基于多智能体强化学习模型，根据各所述无人机智能体模型当前时刻获得的观察信息生成下一时刻的联合动作决策，并根据下一时刻的观察信息和即时奖励训练所述多智能体强化学习模型中的神经网络，具体包括：

4.根据权利要求3所述的基于强化学习的无人机集群自适应自重构方法，其特征在于，所述即时奖励包括由击毁打击目标、自身无人机智能体模型受损和探索到所述打击目标而生成的即时奖励。

5.根据权利要求1所述的基于强化学习的无人机集群自适应自重构方法，其特征在于，所述无人机集群参数包括无人机总架数、各无人机初始位置坐标、最大飞行速度、最大转弯半径、最大加速度、避撞警告距离、弹药容限和续航时长。

6.根据权利要求1所述的基于强化学习的无人机集群自适应自重构方法，其特征在于，所述无人机智能体模型为根据察打一体无人机生成的仿真模型，各所述无人机智能体模型用于在所述虚拟物理引擎的驱动下，执行飞行、导弹发射和侦察探测。

7.根据权利要求1所述的基于强化学习的无人机集群自适应自重构方法，其特征在于，所述设定外加扰动的参数包括扰动类型、扰动范围、扰动频率和扰动强度。

8.一种基于强化学习的无人机集群自适应自重构系统，其特征在于，包括：