CN114815882A

CN114815882A - 一种基于强化学习的无人飞行器自主编队智能控制方法

Info

Publication number: CN114815882A
Application number: CN202210369183.9A
Authority: CN
Inventors: 张淼; 赵红波; 李凯; 张鹏; 吴森堂; 康鹏斌; 冯卓; 王彤; 张�杰
Original assignee: Beihang University; Beijing Institute of Control and Electronic Technology
Current assignee: Beihang University; Beijing Institute of Control and Electronic Technology
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-29
Anticipated expiration: 2042-04-08
Also published as: CN114815882B

Abstract

本发明公开了一种基于强化学习的无人飞行器自主编队智能控制方法，应用于多无人机系统。本发明方法首先构建多无人飞行器系统模型，确定多无人飞行器协同编队的任务目标；然后基于MADDPG框架构建自主编队协同控制器，布置在每个跟随无人飞行器上；自主编队协同控制器包括基于策略梯度的编队行为者网络和编队目标行为者网络，以及基于值的编队评价者网络和编队目标评价者网络；行为者网络允许单个智能体策略网络的优化过程使用邻居节点的观测信息，训练完成之后每个智能体以分散的方式行动，本发明方法可实现多飞行器智能协同编队，共同完成特定的队形保持、冲突协调以及避免碰撞等协同问题，提高采样效率，适用于大规模的多智能体系统。

Description

一种基于强化学习的无人飞行器自主编队智能控制方法

技术领域

本发明属于多飞行器智能编队控制技术领域，具体来说是一种基于强化学习的无人飞行器自主编队智能控制方法。

背景技术

在真实世界中，存在一些较为复杂的系统，如非常规布局的无人飞行器，其系统的非线性程度、时变或非时变、比例或积分特性、时间常数、过渡过程时间等先验知识获取难度较大，而这些先验知识对预选系统数学模型种类和辨识试验设计将起到指导性的作用。如果系统的结构、组成和运动规律是已知的，适合于通过机理分析进行建模，则系统可以称为“白盒”，例如常规布局的固定翼飞行器、旋翼无人机等，此类系统可通过大量有效的队形设计方法以及队形控制方法实现协同编队控制，协同完成任务。如果系统的客观规律不清楚，只能从系统的试验中测量系统的响应数据，应用辨识方法建立系统的数学模型，则称系统为“黑盒”，例如包含多个开裂舵面的非常规布局的固定翼飞行器、可变翼型飞行器等。而通过传统的系统辨识方法得到的数学模型会产生很大的近似残差，无法有效获得精确的数学模型。无人机集群是执行任务的主要载体，多无人飞行器智能编队控制技术是一个研究热点。

随着人工智能技术的发展与突破，深度强化学习的研究得到了广泛的关注以及应用。强化学习(Reinforcement Learning,RL)是一个智能体通过其与环境的交互来最大化/最小化其累积奖励/累积代价函数的过程。这类似于优化长期目标函数的最优控制。强化学习与控制的关系推动了RL技术在控制领域的广泛应用。多无人飞行器智能编队问题属于多智能体协同控制问题。现有的解决多智能体协同控制问题的经典RL方法主要可分为两类:基于值的方法和基于策略的方法。

Q学习方法是最常见和最直接的基于值的方法，用深度神经网络(Deep NeuralNetwork, DNN)拟合价值函数估计器的深度Q学习方法(Deep Q Network,DQN)在RL中得到了广泛的应用。但是DQN是一个面向离散控制的算法，即网络的输出是所有可能执行的动作的概率，是离散的动作。然而在实际中，控制问题则是连续的、高维的，比如一个具有升降舵、副翼和方向舵的无人机，每组舵面的偏转角度输出是连续值，假设范围是-50°～50°，归一化后为 (-1,1)。若把每组舵偏角取值范围离散化，比如精度到0.01，则一个关节有200个取值，那么3组舵面共有600维度的动作值，学习起来数据量太大，效率较低。

基于策略的方法，比如策略梯度(Policy Gradient,PG)方法是另外一种被广泛应用的强化学习方法。众所周知，策略梯度方法中的梯度估计值具有高方差的问题。这种情况在多智能体系统的学习任务中更为严重。行动者-评价者(Actor-Critic,AC)方法是基于价值和基于策略的强化学习方法的结合，AC方法综合了基于值的在线策略学习的无偏性和稳定性，以及基于策略梯度的离线策略学习的数据采样效率的优势。深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是一种无模型的基于离线策略的AC算法，利用DQN扩展Q学习算法的思路对确定性策略梯度(Deterministic Policy Gradient,DPG)方法进行改造，其策略模型和评价者模型都用DNN近似，它结合了DPG和DQN的特点，该算法可用于解决连续动作空间上的深度强化学习问题。多智能体深度确定性策略梯度(Multi-agent DDPG,MADDPG) 将DDPG扩展到一个多智能体环境中，是一个经过重新设计的AC模型，旨在解决不断变化的环境与智能体之间的互动问题。

目前多无人飞行器智能编队技术中，非常规布局的无人飞行器应用越来越广泛，由于无法获取无人机精确的数学大规模，多采用流体仿真获取气动参数，计算消耗量大，不利获取多无人机协同编队控制策略。而利用强化学习技术多是针对常规布局的无人飞行器的编队。而随着任务的复杂度，参与执行任务的无人飞行器数量也越多，若采用中心式控制方式，多智能体状态空间随规模的增大呈现指数爆炸现象。

发明内容

针对非常规布局的无人飞行器的编队控制问题，本发明提出一种基于强化学习的无人飞行器自主编队智能控制方法，基于MADDPG网络模型实现多无人机编队的自适应动态规划。本发明方法利用现有的和过去的系统经验数据，让飞行器学习与周围飞行器保持一致或者保持相应队形的控制调节方法，利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化能力，利用强化学习使累积奖励最大化来获取高性能的协同控制策略。

本发明的基于强化学习的无人飞行器自主编队智能控制方法，包括如下步骤：

步骤1，构建多无人飞行器系统模型，确定多无人飞行器协同编队的任务目标；

步骤2，基于强化学习为每个跟随无人飞行器构建自主编队协同控制器；

步骤3，训练自主编队协同控制器，以用于完成多无人飞行器协同编队任务。

所述步骤1中，设多无人飞行器系统包括1个领航者和N个跟随者，在t时刻，领航者的状态向量为x₀(t)，跟随者i的状态向量为x_i(t)，i＝1,2,…,N，N为正整数；多无人飞行器协同编队的任务目标表示为：使所有跟随者通过自主训练学习与领航者形成期望队形，设f_i为跟随者i的期望位置信息，对于任意有界的初始状态，若跟随者与领航者的队形保持误差，满足

i＝1,2,…,N，则表示多无人飞行器系统实现了期望队形保持。

所述步骤2中，自主编队协同控制器采用MADDPG框架，包括四个深度神经网络：基于策略梯度的编队行为者网络和编队目标行为者网络，基于值的编队评价者网络和编队目标评价者网络。其中，无人飞行器i来说：编队行为者网络的输入是飞行器i的邻域飞行器的位置信息，输出动作是飞行器i的速度；编队行动者网络的目标是最小化达到期望编队队形的累积代价。编队评价者网络的输入是飞行器i及其邻域飞行器的编队行为者网络的输出动作，以及飞行器i及其邻域飞行器使用对应动作与环境交互后的位置。编队评价者网络的输出是飞行器i的值函数，用于表示飞行器i及其邻域飞行器的期望编队的误差。编队目标行为者网络的结构和输入、输出与编队行为者网络相同，定期利用经验池中的数据更新网络参数，为编队行为者网络提供一个参考目标。编队目标评价者网络的结构和输入、输出与编队评价者网络相同，定期利用经验池中的数据更新网络参数，为编队目标评价者网络提供一个参考目标。

自主编队协同控制器中还包括经验池，用于存储所有飞行器的元组数据，元组表示为 (X,A,R,X')，其中X记录所有飞行器当前位置，A记录所有飞行器通过编队行为者网络得到的速度，R记录所有飞行器执行动作A后从环境中得到的奖励，X′记录所有飞行器通过动作 A与环境交互后转换的下一个位置。

相对于现有技术，本发明的优点和积极效果在于：

(1)对于模型较为复杂的飞行器来说，其精确的数学模型无法获得，通过流体仿真获取相应的气动参数需要消耗大量的计算成本。本发明方法针对这一难点，设计基于强化学习的黑盒控制器，展开其中编队队形的控制方法研究。本发明研究了基于MADDPG方法的多飞行器协同编队控制问题，利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化能力；利用训练过程中现有的和过去的系统经验数据，让飞行器学习与周围飞行器保持一致或者保持相应队形的控制调节方法，利用强化学习使累积奖励最大化来获取高性能的协同控制策略；学习的过程中，对单个飞行器来说，环境的状态转移模型是未知的，通过不断环境进行交互、不断试错的过程中，强化有利于系统控制的信号，从而改善深度神经网络的参数，使深度神经网络具有更好的控制特性，因此只需通过多飞行器系统与环境交互过程中不断地试错来得到最优控制策略，不需要系统精确的运动模型。

(2)本发明方法采用部分中心化训练分散式执行的强化学习框架，相对于现有模型，本模型是完全分布式的，其中部分中心化是指单个智能体策略网络的优化过程中仅使用能观测到的邻居节点的信息而不是其他所有智能体的信息，在提高采样效率的同时，不会有过多的信息输入，从而适用于大规模的多智能体系统，不会存在状态空间随规模的增大而呈现指数爆炸的现象；分散式执行是指训练完成之后每个智能体以分散的方式行动。本发明方法的强化学习网络框架在合作和竞争的环境中同样适用。

附图说明

图1是本发明方法所构建的MADDPG框架的自主编队协同控制器示意图；

图2是本发明实施例的一个多无人飞行器通信的有向连通图；

图3是本发明实施例中累积价值曲线示意图；

图4是本发明实施例中即时奖励曲线示意图；

图5是本发明实施例中单回合多智能体训练前后状态对比图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明针对多智能体系统设计了一个MADDPG框架，并将该框架应用于多无人机系统，实现模型复杂的多飞行器智能协同编队，共同完成特定的队形保持、冲突协调以及避免碰撞等协同目标。利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化能力。本发明采用完全分布式去中心化的信息传递协议，每个飞行器只会利用邻域内可观测到的飞行器的信息作为经验数据进行自身参数的训练，适用于大规模的多智能体系统。

首先，说明本发明实施例的多无人飞行器模型以及协同编队任务目标。

考虑一个由1个领航者和N个跟随者组成的多飞行器系统，领航者飞行器编号为0，表示为节点v₀，跟随者编号i＝1,2,…,N，跟随者i表示为节点v_i。其中，每个跟随节点的动态模型如下：

其中，

表示节点v_i在t时刻的状态向量，

表示x_i(t)的一阶导数，

表示实数域，n表示节点状态向量的维度；

为系统矩阵，

为输入矩阵。对于所有的跟随节点，A和B都是未知的。

表示节点v_i在t时刻的控制输入向量，m表示节点控制输入向量的维度。x₀(t)代表领航者节点在t时刻的状态向量。参考系统，即领航者的动态模型，表示为：

本发明实施例中，节点的状态向量包含飞行器的位置，节点的控制输入向量包含飞行器的速度。

本发明的目标是使所有无模型的跟随者飞行器基于强化学习模型通过自主训练学习与领航者形成期望队形，即

其中，f_i为编队队形参数，其定义如下：领航节点与跟随节点之间的期望队形关系定义为：

f_i ^T表示f_i的转置，f_i表示节点i的编队队形参数，编队队形参数也即节点的期望位置信息。

对于任意有界的初始状态，跟随者节点与领航者的队形保持误差若满足：

则称多无人飞行器系统实现了编队队形保持。

在上述目标下，本发明基于MADDPG框架进行智能编队队形控制器设计。如图1所示，本发明的MADDPG框架中，为每个飞行器都构建一个自主编队协同控制器，协同控制器中包含四个深度神经网络，也即，基于策略梯度的编队行为者网络和编队目标行为者网络，基于值的编队评价者网络和编队目标评价者网络。如图1所示，Actor网络、Critic网络、Actor 目标网络和Critic目标网络分别对应的编队行为者网络、编队评价者网络、编队目标行为者网络以及编队目标评价者网络。本发明使用MADDPG框架，通过构造目标行为者-评价者网络带来了更有效、更稳定的学习过程，具体自主编队协同控制器的结构说明如下。

(1)编队行为者网络：无人飞行器节点v_i的行为者网络

的参数为θ_Ai，该深度神经网络

的输入为环境中得到的节点v_i的邻域飞行器的状态，状态包括飞行器的位置信息，输出为节点v_i确定的行为a_i(t)，即飞行器i的速度，值得注意的是，行为者网络输出的行为是连续可微的。

(2)编队评价者网络：无人飞行器节点v_i的编队评价者网络的作用是估计该节点的值函数

也即该飞行器与邻域内飞行器期望编队的误差；节点v_i的编队评价者网络的输入为节点v_i及其邻域内节点v_j,

的编队行为者网络的输出动作，也即飞行器i及其邻域内飞行器的速度信息，以及使用该动作与环境交互之后转换得到的状态，也即飞行器 i及其邻域内飞行器当前的位置信息，编队评价者网络的输出是节点v_i的值函数。

表示无人飞行器节点v_i的邻域内飞行器节点集合，

分别表示飞行器i本身以及其邻域内飞行器的状态和动作。

编队评价者网络的特点是部分中心化的结构，也即其输入仅包含节点v_i邻域内所有的策略而不是所有其它节点的信息，节点v_i通过学习邻域内所有节点的策略来优化自身的控制策略。值函数用于评价编队行为者网络输出的动作能带来的未来累积代价，也即从初始队形到达期望队形过程中消耗的总的控制代价，以调整编队行为者网络的参数。需要注意的是，每个节点的编队评价者网络的学习过程是相互独立的，也就是可以对不同的节点设计不同的奖励函数，使每个节点完成不同的任务，例如，保持一定的队形完成任务或者设计具有竞争关系的小组完成攻防对抗的任务。

(3)编队目标行为者网络：每个节点的编队目标行为者网络会在一定数量的回合中保持不变，以等待编队行为者-评价者网络不断的更新以及累积一定的数据，从而为编队行为者- 评价者网络提供一个基线或者参考的目标。当累积足够的数据之后，编队目标行为者网络会利用经验池中的数据学习一次，以更新该网络的参数。因此目标行为者的更新频率相对编队行为者网络来说更低，从而为编队行为者网络提供一个参考的目标，因此可以降低编队行为者网络参数的波动性。编队目标行为者网络与编队行为者网络的结构相同，输入和输出也相同。

(4)编队目标评价者网络：每个节点的编队目标评价者网络的作用类似于编队目标行为者网络，会在一定数量的回合中保持不变，以等待编队行为者-评价者网络不断的更新以及累积一定的数据，从而为编队行为者-评价者网络提供一个基线或者参考的目标。当累积足够的数据之后，编队目标评价者网络会利用经验池中的数据学习一次，以更新该网络的参数。因此编队目标评价者的更新频率相对编队评价者网络来说也会更低，从而为编队评价者网络提供一个参考的目标，因此可以降低编队评价者网络参数的波动性。编队目标评价者网络与编队评价者网络的结构相同，输入和输出也相同。

(5)数据存储模块：数据池也即经验池，缓存经验数据，保存了所有与节点相关的数据，包括元组：

其中X＝{x₁,x₂,...,x_N}是所有节点的当前位置信息，A＝{a₁,a₂,...,a_N}是所有节点在当前状态下通过编队行为者网络得到的速度信息， R＝{r₁,r₂,...,r_N}是所有节点采取上述行为之后从环境中得到的奖励，X′＝{x₁′,x₂′,...,x_N′}是所有飞行器通过行为A与环境交互后转换的下一个位置。通过存储一定容量的数据，编队行为者网络与编队评价者网络就可以在数据池中随机采样样本进行学习和参数的更新。需要注意的是，对于每个节点，其通信能力受到如图2所示的图

的约束，只能获取邻域节点的数据，因此本学习框架是完全分布式的方法。图2的示例中，0,1,2,3分别代表4个无人机节点，0 为领航者节点，1,2,3为跟随者节点，节点之间的有向边代表无人机之间的通信状况。本发明中，自主编队协同控制器布置在每个跟随者节点上，领航者不必须布置。

编队评价者网络的目标是最小化下式所定义的TD(Temperal-Difference)误差：

表示节点v_i的TD误差，

是节点v_i的编队评价者网络估计的Q值，

是节点v_i执行动作后的目标Q值，由编队目标评价者网络给出。

是目标价值，

估计价值。

其中，

定义如下：

是从飞行器i的编队目标评价者网络中估计的下一个状态的价值。

是从经验池中采样得到的邻域内节点采取动作

之后的状态，

是在状态

下从编队目标行为者网络中输出的动作，γ是折扣因子。r_i是飞行器i采取动作a_i之后从环境中得到的奖励。本发明中领航者与跟随者飞行器在协同编队控制场景中的奖励函数设计如下：

领航者节点v₀的奖励函数r₀(t)为：

其中p_tar是编队的目标位置，是预先设定的领航者期望位置。

跟随者节点v_i的奖励函数r_i(t)为：

其中，

z_ij(t)＝a_ij[(x_i(t)-f_i)-(x_j(t)-f_j)]；

a_ij为飞行器v_i与邻域节点v_j的邻接矩阵参数，如果v_i与v_j可通信，则a_ij＝1，否则a_ij＝0。

编队行动者网络

是一个确定性的策略，它的目标是最大化累积奖励，也即最小化达到期望编队队形的累积代价，累积奖励J(θ_Ai)定义为：

上式的梯度可表示为：

其中，θ_Ai表示编队行为者网络

的参数，

表示节点v_i的状态x_i输入编队行为者网络得到行为a_i。

从节点v_i的编队评价者网络中得到，相对于连续的动作a_i是可微的。a_i表示节点v_i的动作。

本发明对MADDPG框架的多飞行器自主编队协同控制器，进行训练的流程如下：

(1)初始化：首先初始化上述四个深度神经网络的超参数，然后随机初始化所有飞行器节点v₁,v₂,...,v_N的初始位置状态X，其中X在[-1,0]范围内服从均匀分布；

(2)执行每个回合的仿真，仿真步骤如下：

(2.1)编队行为者网络生成动作：对于每个飞行器节点v_i，将状态输入到该节点的行为者网络

可得到相应的速度输出：

其中N_t表示环境中的噪声；

(2.2)与仿真环境交互：每个飞行器节点通过按照上一步得到的速度进行运动，即采取 A＝{a₁(t),a₂(t),...,a_N(t)}与环境进行交互，并且观察得到环境反馈给各个节点的奖励r_i，以及转移到的下一个位置状态X′；

(2.3)保存经验数据：将仿真得到的经验数据元组

存放到缓存中；

(2.4)更新所有节点的位置状态：令X←X′；

(2.5)学习过程：当经验池中的数据积累到一定数量之后，开始学习更新网络参数，具体学习步骤如下：

(2.5.1)采样训练样本：从经验池

中随机采样批量样本数据(x_j,a_j,r_j,x′_j)，其中

是飞行器节点v_i邻域内的所有节点的数据，也包含节点v_i的数据；x_j是飞行器节点v_j的当前位置，a_j是飞行器节点v_j在当前状态x_j下通过编队行为者网络得到的速度，r_j是飞行器节点 v_j在采取动作a_j后从环境中得到的奖励，x′_j是飞行器节点v_j在采取动作a_j与环境交互后转换的下一个位置；

(2.5.2)计算代价函数：计算TD误差；

(2.5.3)更新编队评价者参数θ_Ci：编队评价者网络参数的更新目标是使TD误差降为0，如公式(3)所示；

(2.5.4)更新编队行为者参数θ_Ai：编队行为者网络参数的更新通过编队任务的累积奖励梯度方程得到；

(2.6)更新目标行为者和目标评价值网络参数：行为者-评价者网络经过一定回合的学习更新之后，目标网络参数θ_Ai′和θ_Ci′通过下式更新：

其中，τ_i为神经网络参数更新频率；θ_A′_i(old)、θ_A′_i(new)分别是飞行器i的编队目标行为者网络的当前参数和更新后参数；θ′_Ci(old)、θ′_Ci(new)分别是飞行器i的编队目标评价值网络的当前参数和更新后参数；

(3)循环执行M回合仿真学习：重复步骤(2)，直到训练完成M回合仿真；

(4)保存仿真数据，分析编队队形控制仿真结果。

实施例

仿真环境设置：为了进一步研究所本发明方法的有效性，本发明将MADDPG方法应用基于领航-跟随者模型架构的飞行器协同编队控制问题中。研究对象为如图2中有向连通图

所约束下的包含4个智能体的系统，也即N＝4。该多飞行器系统的任务是花费最小的累积代价协同地进行轨迹跟踪以及目标跟踪，在执行任务的同时，跟随飞行器与领航飞行器也需要保持一个稳定的队形。该多飞行器系统的目标位置设置在p_tar＝(1.0,1.0)。在此场景下，状态空间以及动作空间分别定义为所有飞行器的二维位置以及在两个方向上的连续的移动变量。在深度学习网络中，本发明经过大量的调参，总结出如下参数设置，其中，本发明利用 Adam优化器进行梯度更新，设置学习率α＝0.01，设置折扣因子γ＝0.9，在MADDPG算法中，经验池的容量设置为10⁶，每次学习更新随机选取的样本大小为1024个单位的数据。所有的仿真都是基于Ubuntu18.04下的Python语言，基于Pytorch深度学习库，仿真环境是在 gym的基础上进行设计。

仿真结果分析与讨论：仿真结果如图3～5所示。图3表示所有飞行器的长期累积奖励之和，从图中可以得出结论，随着训练学习的回合越来越多，经验数据的累积也在增加，系统达到目标队形以及目标位置所需花费的代价越来越少，也即，在随机初始状态下能更快的形成期望的队形，然后到达目标位置。在学习50000回合之后，最终为了消除初始误差所需花费的代价可以稳定在6以内，这符合设定的条件。图4表示在一个回合中，每一个仿真步长下从环境中得到的奖励，也即当前的队形跟踪误差，本发明观察可得，在学习50000回合之后，这四个智能体会很快的收敛到一个稳定的队形，在学习30000回合之后，跟踪误差基本上就可以在1秒内收敛到0，从而验证了本发明方法的有效性。最终的仿真视景如图5所示，本发明可以观察得到，四个节点从初始的随机状态出发，1s之后跟随者节点与领航者节点基本上形成了一个稳定的队形，2s，3s按照稳定的期望队形移动，最终在第四秒的时候达到最终的目标位置。

Claims

1.一种基于强化学习的无人飞行器自主编队智能控制方法，其特征在于，包括：

步骤1，确定多无人飞行器协同编队的任务目标；

设多无人飞行器系统包括1个领航者和N个跟随者，在t时刻，领航者的状态向量为x₀(t)，跟随者i的状态向量为x_i(t)，i＝1,2,…,N，N为正整数；协同编队的任务目标为：使所有跟随者通过自主训练学习与领航者形成期望队形，设f_i为跟随者i的期望位置，对于任意有界的初始状态，若跟随者与领航者的队形保持误差满足

则表示多无人飞行器实现了期望队形保持；

步骤2，构建自主编队协同控制器，布置在每个跟随无人飞行器上；

所述自主编队协同控制器采用MADDPG框架，包括四个深度神经网络：基于策略梯度的编队行为者网络和编队目标行为者网络，基于值的编队评价者网络和编队目标评价者网络；

无人飞行器i的编队行为者网络的输入是飞行器i的邻域飞行器的位置信息，输出动作是飞行器i的速度；编队行动者网络的目标是最小化达到期望编队队形的累积代价；

无人飞行器i的编队评价者网络的输入是飞行器i及其邻域飞行器的编队行为者网络的输出动作，以及飞行器i及其邻域飞行器使用对应动作与环境交互后的位置，编队评价者网络的输出是飞行器i的值函数，用于表示飞行器i及其邻域飞行器的期望编队的误差；

无人飞行器i的编队目标行为者网络的结构和输入、输出与编队行为者网络相同，定期利用经验池中的数据更新网络参数，为编队行为者网络提供一个参考目标；

无人飞行器i的编队目标评价者网络的结构和输入、输出与编队评价者网络相同，定期利用经验池中的数据更新网络参数，为编队目标评价者网络提供一个参考目标；

所述自主编队协同控制器中还包括经验池，用于存储所有飞行器的元组数据，元组表示为(X,A,R,X')，其中X记录所有飞行器当前位置，A记录所有飞行器通过编队行为者网络得到的速度，R记录所有飞行器执行动作A后从环境中得到的奖励，X′记录所有飞行器通过动作A与环境交互后转换的下一个位置；

步骤3，训练各无人飞行器的自主编队协同控制器。

2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，为多无人飞行器系统建模，其中，将领航者作为参考系统，表示为

跟随者i的动态模型表示为：

其中，

表示x_i(t)的一阶导数，A为系统矩阵，B为输入矩阵，跟随者的矩阵A和B都是未知的；u_i(t)表示跟随者i在t时刻的控制输入向量。

3.根据权利要求1所述的方法，其特征在于，所述的步骤2中，领航者与跟随者采取动作后从环境中得到的奖励分别如下：

领航者的奖励函数r₀(t)为：

其中，p_tar是编队的目标位置；

跟随者i的奖励函数r_i(t)为：

其中，

z_ij(t)＝a_ij[(x_i(t)-f_i)-(x_j(t)-f_j)]；

表示无人飞行器i的邻域内无人飞行器集合，a_ij为跟随者i与邻域内无人飞行器j的邻接矩阵参数，若飞行器i与j可通信，a_ij取值为1，否则取值为0。

4.根据权利要求1或3所述的方法，其特征在于，所述的步骤2中，无人飞行器i的编队评价者网络的目标是最小化TD误差

如下：

其中，

是飞行器i的编队评价者网络输出的Q值，

是飞行器i的编队目标评价者网络输出的Q值；

分别表示飞行器i以及其邻域内飞行器的位置和动作；

根据下式计算：

其中，r_i是飞行器i采取动作后从环境中得到的奖励，γ是折扣因子，

是飞行器i以及其邻域内飞行器在状态

下从编队目标行为者网络中输出的动作，

是从经验池中采样得到的飞行器i以及其邻域内飞行器采取动作

之后的位置，

是从飞行器i的编队目标评价者网络输出的Q值。

5.根据权利要求1或3所述的方法，其特征在于，所述的步骤2中，无人飞行器i的编队行动者网络的目标是最小化达到期望编队队形的累积代价，也即最大化累积奖励，累积奖励J(θ_Ai)定义为：

上式的梯度表示为：

其中，θ_Ai表示飞行器i的编队行为者网络

的参数，

是飞行器i的编队评价者网络输出的Q值，

分别表示飞行器i以及其邻域内飞行器的位置和动作；

表示无人机i的邻域内无人飞行器集合；

表示飞行器i的状态x_i输入编队行为者网络得到动作a_i。

6.根据权利要求1或3所述的方法，其特征在于，所述的步骤3中，训练自主编队协同控制器的方法包括：

(1)初始化：初始化四个深度神经网络的超参数，随机初始化所有飞行器的初始位置X，其中X在[-1,0]范围内服从均匀分布；

(2)执行每个回合的仿真，仿真步骤如下：

(2.1)编队行为者网络生成动作：对于每个飞行器，输入当前位置x_i(t)到编队行为者网络

得到相应的速度

其中N_t为环境噪声；

(2.2)与仿真环境交互：每个飞行器按照(2.1)得到的速度进行运动，即采取A＝{a₁(t),a₂(t),...,a_N(t)}与环境进行交互，并且观察得到环境反馈给各飞行器的奖励r_i，以及转移到的下一个位置X′；

(2.3)保存经验数据：将仿真得到的经验数据元组

存放到缓存中；

(2.4)更新所有飞行器的位置状态：令X←X′；

(2.5)学习过程：当经验池中的数据积累到设定数量之后，开始学习更新网络参数，具体学习步骤如下：

(2.5.1)采样训练样本：对于飞行器i，从经验池中随机采样批量样本数据，批量样本数据包括飞行器i以及飞行器i邻域内的所有飞行器j的数据

x_j、a_j分别是飞行器j的当前位置、通过编队行为者网络得到的速度，r_j是飞行器j采取动作a_j后从环境中得到的奖励，x′_j是飞行器j采取动作a_j与环境交互后转换的下一个位置；

(2.5.2)计算代价函数：计算TD误差；

(2.5.3)更新编队评价者参数θ_Ci；

(2.5.4)更新编队行为者参数θ_Ai；

(2.6)更新编队目标行为者网络和编队目标评价值网络的参数，如下：

其中，τ_i为神经网络参数更新频率；θ′_Ai(old)、θ′_Ai(new)分别是飞行器i的编队目标行为者网络的当前参数和更新后参数；θ′_Ci(old)、θ′_Ci(new)分别是飞行器i的编队目标评价值网络的当前参数和更新后参数；

(3)循环执行M回合仿真学习：重复步骤(2)M回合仿真；

(4)保存仿真数据，分析编队队形控制仿真结果。