CN115509251A

CN115509251A - 基于mappo算法的多无人机多目标协同跟踪控制方法

Info

Publication number: CN115509251A
Application number: CN202211017296.9A
Authority: CN
Inventors: 张平; 张斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-23

Abstract

本发明提出基于MAPPO算法的多无人机多目标协同跟踪控制方法。方法包括多无人机目标跟踪过程建模；环境标准化及数据归一化预处理；多目标任务分配；设计状态、动作价值函数以及奖励回报函数；设计深度神经网络结构；将各无人机的局部观测状态

输入所述多无人机多目标协同跟踪控制器，得到各无人机的动作控制量，根据各动作控制量控制各无人机工作，完成控制多无人机对多目标展开协同跟踪任务。本发明方法采用分布式框架，降低了无人机对通信和计算能力的要求，有效解决了传统的多无人机多目标跟踪方法计算量大、无人机之间可能相互影响或碰撞、难以应对需要实时解算的环境变化等问题，具有较强的自适应性和鲁棒性。

Description

基于MAPPO算法的多无人机多目标协同跟踪控制方法

技术领域

本发明属于无人机控制技术领域，尤其涉及一种基于深度强化学习MAPPO算法的多无人机多目标协同跟踪控制方法。

背景技术

近年来，无人机作为智能体进行多智能体之间的协作研究受到国内外学者的广泛关注；同时，在无人机行业的应用领域中，许多任务的实现都以多目标跟踪为基础。多无人机协同跟踪可以有效降低被跟踪目标的逃离概率，提高任务执行的成功率。因此，多无人机协同跟踪多目标便成为一个重要的研究方向。

传统的多无人机多目标跟踪方法采用的是分级控制算法：上层控制器为协同轨迹跟踪控制器，通过无人机系统状态信息以及目标状态信息，使用编队控制算法，如领航跟随法、人工势场法、虚拟结构法等解算出多无人机中各架无人机在跟踪过程中的一个个航点，组成航线轨迹，输出轨迹信息；下层控制器为无人机的姿态控制器，通过上层控制器解算出来的下一个航点位置，计算出无人机到达下一个航点过程中的线速度和偏航角速度，并保持飞行过程中翻滚角和俯仰角的稳定，输出速度控制指令。特别的，当跟踪目标处于运动状态时，系统需要不断地计算优化轨迹航点，若算法复杂，将需要消耗较多的计算资源；此外，当跟踪多个目标时，各无人机之间发生碰撞的概率将大大增加，传统的控制算法无法很好的解决多无人机跟踪过程中协同合作问题，无法发挥多无人机跟踪的优势。针对上述问题，近来有研究将基于智能算法的自我学习策略应用于多无人机目标跟踪控制领域，智能算法包括群体智能、模仿学习、深度强化学习等，自我学习策略指通过自身的经验来优化自身策略模型的结构或参数。此类算法将系统中的每架无人机看作拥有独立性和自主性的智能体，与环境进行交互，表现出自适应能力强、能够应对复杂多变的任务场景的特点。

深度强化学习是机器学习的一个分支，其融合了深度学习的感知能力和强化学习的决策能力，在诸多挑战性领域均有广泛地应用，如自动驾驶、计算机视觉、医疗诊断以及机器人控制等。在处理一系列环境感知及控制决策问题时，其学习过程具有一定的通用性，可表示为： (1)智能体与环境交互时刻进行，并通过深度学习方法感知和观察高维度目标，得到当前环境下具体的状态信息；(2)基于预期回报来评价各动作的价值函数(以此激励智能体)，并通过强化学习方法得到某种适应性策略，将当前状态映射为相应的动作；(3)环境对该动作做出相应反馈，智能体以此进行下一时刻的观察。通过以上过程的不断循环，智能体最终可以得到完成既定任务的最优行动策略。

MAPPO算法是一种多代理最近策略优化深度强化学习算法，它是PPO算法应用于多智能体任务的变种。(PPO算法又叫最近策略优化算法，是2017年由OenpAI提出的一种基于Actor-Critic(AC)框架的策略梯度优化算法，通过提出重要性采样和梯度参数剪裁的目标函数解决了策略梯度算法中步长难以确定和更新差异过大的问题，实现了对连续控制问题很好的求解；PPO算法是同策略(On-policy)算法，其中的Actor网络，也称之为Policy网络，接收局部观测(Observation)并输出动作(Action)，Critic网络，也称之为Value网络，接收状态(State)输出动作价值(Value)，用于评估Actor网络输出动作的好坏。MAPPO 同样采用Actor-Critic架构，不同之处在于是一种中心式训练分散式执行(Centralizedtraining and decentralized execution,CTDE)框架的算法，此时Critic网络学习的是一个中心价值函数(Centralized value function)。即训练完成后，各智能体就可以基于自己的局部观测状态通过自己的Actor网络生成的动作策略函数来产生最优动作，最终组合成多智能体联合动作来完成任务。蔡志浩等在中国授权发明专利CN111580544B中公开了“一种基于强化学习PPO算法的无人机目标跟踪控制方法”，采用一体化控制器替代了传统的内外环控制器，具有较好的鲁棒性能与较小计算量的特点。但是该方法只能实现单个无人机的跟踪控制，而无法进行多无人机多目标协同跟踪。而采用MAPPO算法进行多无人机多目标协同跟踪控制的方法尚未见记载。

发明内容

针对多无人机协同跟踪多目标的控制问题，本发明提出一种基于多智能体深度强化学习 MAPPO算法的多无人机多目标协同跟踪控制方法，能够进行多无人机多目标协同跟踪，而且有效解决了传统的多无人机多目标跟踪方法计算量大、无人机之间可能相互影响或碰撞、难以应对需要实时解算的环境变化等问题。本发明方法采用分布式框架，降低了无人机对通信和计算能力的要求，具有较强的自适应性和鲁棒性。

为了实现本发明目的，本发明提供的基于MAPPO算法的多无人机多目标协同跟踪控制方法，包括如下步骤：

步骤1：对多无人机目标跟踪过程进行建模，包括建立无人机六自由度运动学模型、运动目标恒定转弯率和速度模型、分布式部分可观察的马尔可夫决策模型；

步骤2：进行环境标准化及数据归一化预处理；

步骤3：对多无人机跟踪任务进行任务分配，将N架无人机分成m组跟踪m个目标，同时基于各无人机距离各目标初始位置距离，计算最小的所有无人机跟踪各目标的欧式距离代价和，其中，N≥2，m≥2；

步骤4：构建状态价值函数、动作价值函数以及奖励回报函数；

步骤5：构建深度神经网络结构，包括策略网络结构和价值网络结构，策略网络用于根据输入的各无人机的无人机状态量

输出各无人机动作控制量

价值网络用于根据输入的多无人机全局状态量S_k，输出当前无人机状态量对应的价值估计值value；

步骤6：基于MAPPO算法的多无人机多目标协同跟踪训练，得到多无人机多目标协同跟踪控制器；

步骤7：将各无人机的局部观测状态

输入所述多无人机多目标协同跟踪控制器，得到各无人机的动作控制量，根据各动作控制量控制各无人机工作，完成控制多无人机对多目标展开协同跟踪任务。

进一步地，步骤1中，构建所述无人机六自由度运动学模型的方式为：

假设无人机为对称刚体，且忽略空气阻力的影响，无人机在空间的运动为六自由度运动，分别为沿地面空间坐标X、Y、Z轴的平移运动和绕机体坐标主轴的旋转运动，无人机在地理坐标的位置为

姿态角为

无人机质心相对于地面坐标的位置运动方程为

无人机绕质心转动的运动方程为

其中，v_X、v_Y、v_Z分别为无人机相对于地面在X、Y、Z三个方向上的速度，v_x、v_y、v_z分别为无人机相对自身速度坐标系在X、Y、Z三个方向上的速度，C是无人机速度坐标系到地面空间坐标系的转换矩阵，

分别为无人机相对于地面坐标在X、Y、Z三个方向上沿的角速度，

ψ分别为无人机相对于地面坐标系在X、Z两个方向上的角度，

分别为无人机在机体坐标系中的X、Y、Z三个方向上的角速度。

进一步地，步骤1中，构建运动目标恒定转弯率和速度模型的方式为：

针对无人机目标跟踪，无人机本身与被跟踪目标相对于整个动态环境视为质点，同时无人机跟踪目标的过程与纵向空间无关，将被跟踪目标瞬时速度和转弯率的改变以及高度变化视为噪声，构建运动目标恒定转弯率和速度模型

其中，坐标(x_m，y_m)表示目标在环境中的位置，v、σ、

分别表示目标在地面空间坐标系中的速度、偏航角和角速度。

进一步地，步骤1中，构建分布式部分可观察的马尔可夫决策模型的方式为：

多无人机多目标协同跟踪控制过程是个完全合作式的多智能体部分可观察马尔可夫决策过程，将单机的部分可观察的马尔可夫决策模型扩展到多机分布式部分可观察的马尔可夫决策模型，用一个元组G表示为G＝<S,U,P,T,Z,Ο,n,γ>，其中，γ表示折扣因子，n表示n架无人机智能体，s∈S表示环境的真实状态信息，S表示环境真实状态信息集合，在每一个时间步，对于无人机智能体i∈N≡{1,…,n}，N表示无人机智能体集合，需要选择一个动作a_i∈A，A表示动作集合，去组成一个联合动作u∈U，U表示联合动作的集合，再将这个联合动作给到环境中去进行状态转移P(s′|s,u):S×U→[0,1]，P(s′|s,u)表示在u的情况下，s转换成s′的概率；之后，无人机智能体i都会得到一个奖励r_i，所有的无人机智能体得到的奖励总和

T表示奖励总和集合，对于无人机智能体i接收的是一个独立的部分可观察的状态ζ∈Z，不同的无人机智能体具备不同的观察，所有的观察都来自于环境的真实状态信息，一组条件观察转移概率函数Ο(s,i):S×N→Z，Z表示部分可观察状态集合。

进一步地，步骤2中对环境标准化预处理，包括：将多无人机展开多目标协同跟踪任务的环境界限定义在总面积为a²的正方形区域内，其中，a为环境模型的界限边长，训练过程中无人机与目标始终在环境界限内移动，记区域中心位置为环境模型的坐标原点，训练初始时刻，各无人机与各目标处于区域内的任意位置。

进一步地，步骤2中对数据归一化预处理，包括：设立无人机状态量和目标状态量的最大值和最小值，分别将无人机状态量和目标状态量进行剪裁，将大于最大值和小于最小值的数据设为最大值和最小值，防止数据溢出，之后将数据除以最大值，使其的值域限定在[-1，1]。

进一步地，步骤3中进行多任务分配的步骤包括：

步骤3.1：建立目标分配问题的效益矩阵M₀(m×N)，若m＜N，在效益矩阵M₀中添加(N-m)行构成方阵，并将新添加的(N-m)行中的元素均设为0；

步骤3.2：从效益矩阵M₀每行减去该行最小的元素，使得每行都有一个零元素，得到效益矩阵M₁；

步骤3.3：从效益矩阵M₁每列减去该列最小的元素，使得每列都有一个零元素，得到效益矩阵M₂；

步骤3.4：用最少的直线覆盖效益矩阵M₂中的零元素得到效益矩阵M₃，如果最少直线的数量等于m，转入步骤3.6：否则转入步骤3.5；

步骤3.5：效益矩阵M₃中所有未被直线覆盖的元素减去未被覆盖元素中最小的元素，同时在直线相交点加上该最小元素得到效益矩阵M₄，令效益矩阵M₂等于效益矩阵M₄；

步骤3.6：从零元素最少的行或列开始分配，直到所有无人机都被分配一个目标，至此分配完毕。

进一步地，步骤4中，所构建的状态价值函数表示智能体i∈{1，…，N}在k∈{1，…，t}时刻状态空间为

其中j∈{1，…，N}∩ j≠i，(d_x，d_y，d_z，d_ω)表示无人机与目标在X、Y、Z三个方向上的相对距离和偏航角的相差角度，(v_x，v_y，v_z，

)表示无人机在X、Y、Z三个方向上的速度大小和偏航角速度，

表示无人机i与无人机j在X、Y、Z三个方向上的相对距离，t为训练的最大步数，T表示向量转置；

用x、y、z方向矢量和一个速度绝对值来定义无人机的速度，所构建的动作价值函数表示智能体i∈{1，…，N}在k∈{1，…，t}时刻连续动作空间为

其中，

表示无人机执行动作在X、Y、Z三个方向上的方向矢量，speed表示无人机执行动作的速度绝对值大小，

表示无人机执行动作的偏航角速度，T表示向量转置；

所构建的奖励回报函数表示智能体i∈{1，…，N}在k∈{1，…，t}时刻获得的奖励回报值

其中

分别表示智能体i在k时刻的追踪奖惩、高度奖惩和安全奖惩。

进一步地，步骤5中的策略网络的输入量为归一化处理后的无人机状态量

输出量为无人机动作控制量

其策略网络的结构有7层，其中，第一层为输入层，第二层为256个节点的隐藏层，第三层为LayerNorm归一化层，第三层和第四层之间加入Tanh激活函数，第四层和第五层均为256个节点的隐藏层，第五层和第六层之间加入Elu激活函数，第六层为计算无人机动作控制量均值loc和方差scale的隐藏层，输出为一个多元高斯分布的采样值

第七层为输出层，输出层包含Tanh激活函数和归一化。

进一步地，步骤5中的价值网络的输入量为归一化处理后的多无人机全局状态量Sk，输出量为当前无人机状态量对应的价值估计值value，其结构有6层，其中，第一层为输入层，第二层为512个节点的隐藏层，第三层为LayerNorm归一化层，第三层和第四层之间加入Tanh 激活函数，第四层512个节点的隐藏层，第五层为256个节点的隐藏层，第六层为输出层。

进一步地，步骤6中的训练过程包括：

设定训练的总回合数以及步数；

在每个回合内，随机初始化目标的位置和速度，并进行多目标分配，之后各无人机与环境(环境中包含其他无人机和目标)进行信息交互，即模拟多无人机在环境中对多目标进行一次协同跟踪的过程，无论跟踪的结果如何，将交互的信息数据进行数据预处理后，按照时间序列存储在经验池中；

每当经验池的数据存满时，将数据全部取出，依照MAPPO算法对策略网络和价值网略进行参数迭代更新，其中，系统中的同构无人机可以共享参数，异构无人机不可以共享参数；

当达到设定的训练总回合数，全部训练结束，将策略网络取出作为多无人机多目标协同跟踪控制器。

与现有技术相比，本发明能够实现的有益效果至少如下：

1.本发明采用MAPPO算法训练生成多无人机多目标协同跟踪控制器，采用中心式训练分散式执行的结构，考虑到现实环境条件下的部分可观察性，使每个智能体仅依靠自身观察输出控制指令，实现多无人机分布式控制，避免了单智能体深度强化学习算法处理多智能体问题时集中控制带来维度过高、不可扩展等弊端，同时在现实环境中降低了无人机对通信和计算能力的要求。

2.本发明提出的方法训练得到的多无人机多目标协同跟踪器与传统的多无人机多目标跟踪方法采用分层控制的思路不同，采用深度强化学习训练的控制器，本质上是一个深度神经网络，直接将观测信息作为输入，动作指令作为输出，简化了多无人机多目标协同跟踪的控制过程，使用该控制器时只需要用到乘法、加法和部分激活函数的运算，总体上的计算量要远远低于传统的多无人机多目标跟踪方法中需要使用优化算法规划多无人机目标跟踪航线所需的计算量。

3.本发明提出的方法可以使各无人机在跟踪过程中动态控制自己的飞行偏航、方向和速度，并与其他无人机合作形成当前环境下合适的空间拓扑结构，解决了多无人机在跟踪多目标的过程中可能相互影响或碰撞、难以应对需要实时解算的环境变化等问题，适用于跟踪各种运动方式(例如匀速、变速、直线运动、随机运动等)的目标，具有较强的自适应性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明实施例提供的策略网络结构设计图；

图2是本发明实施例提供的价值网络结构设计图；

图3是本发明实施例中MAPPO算法结构图；

图4是本发明基于MAPPO算法的多无人机多目标协同跟踪控制方法的训练流程图；

图5是本发明实施例的5架无人机跟踪3个随机运动目标单次训练时的平均回合总奖励回报曲线图；

图6是本发明实施例中5架无人机跟踪3个随机运动目标单次仿真试验轨迹图；

图7是本发明实施例中5架无人机跟踪3个随机运动目标单次仿真试验距离差变化图；

图8是本发明实施例中5架无人机跟踪3个随机运动目标单次仿真试验偏航角度差变化图；

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在本发明的其中一些实施例中，假定当前的任务是有5架通过自身携带的传感器设备可以实时获取目标当前位置信息的四旋翼无人机，要求在其可侦察范围内跟踪3个随机移动的车辆目标。现通过本发明的方法，设计并训练多无人机多目标协同跟踪控制器，使5架四旋翼无人机可以在不相互影响或碰撞的前提下完成跟踪任务。整个设计、训练与验证过程均在仿真环境下完成。

步骤1：对多无人机目标跟踪过程进行建模，包括建立无人机六自由度运动学模型、运动目标恒定转弯率和速度模型、分布式部分可观察的马尔可夫决策模型。

本步骤具体包括：

步骤1.1：构建无人机六自由度运动学模型；

无人机的运动主要为飞行姿态与空间位置的变化，以四旋翼无人机为例，假设四旋翼无人机为对称刚体，且忽略空气阻力的影响，四旋翼无人机在空间的运动为六自由度运动，分别为沿地面空间坐标X、Y、Z轴的平移运动和绕机体坐标主轴的旋转运动。无人机在地理坐标的位置为

姿态角为

p为俯仰角，q为滚转角，r为偏航角，建立无人机质心相对于地面坐标的位置运动方程

并依据无人机相对地面空间坐标系转动角速度之间的关系式建立无人机绕质心转动的运动方程

其中，v_X、v_Y、v_Z分别为无人机相对于地面在X、Y、Z三个方向上的速度，v_x、v_y、v_z分别为无人机相对自身速度坐标系在X、Y、Z 三个方向上的速度，C是无人机速度坐标系到地面空间坐标系的转换矩阵，

分别为无人机相对于地面坐标在X、Y、Z三个方向上的角速度，

ψ分别为无人机相对于地面坐标系在X、Z两个方向上的角度，

分别为无人机在机体坐标系中的X、Y、Z三个方向上的角速度；

步骤1.2：构建运动目标恒定转弯率和速度模型；

针对无人机目标跟踪，将无人机本身与被跟踪目标相对于整个动态环境视为质点，同时无人机跟踪目标的过程与纵向空间无关，将被跟踪目标瞬时速度和转弯率的改变以及高度变化视为噪声，构建运动目标恒定转弯率和速度模型

其中，坐标(x_m，y_m)表示目标在环境中的位置，v、σ、

分别表示目标在地面空间坐标系中的速度、偏航角和角速度；

步骤1.3：构建分布式部分可观察的马尔可夫决策模型；

分布式研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给多个计算机进行处理，最后把这些计算结果综合起来得到最终的结果。分布式是相对集中式而言的，多无人机协同控制不是集中决策的，而是由各无人机自行决策，在建模当中基于分布式建模，并且采用的MAPPO算法是集中式训练分散式执行框架，实现了分布式控制；。

多无人机多目标协同跟踪控制过程是个完全合作式的多智能体部分可观察马尔可夫决策过程，将单机的部分可观察的马尔可夫决策模型扩展到多机分布式部分可观察的马尔可夫决策模型(multi-UAV POMDP或Dec-POMDP)。用一个元组G表示为G＝<S，U，P，T，Z，O，n，γ>，其中，γ表示折扣因子，n表示n架无人机智能体，s∈S表示环境的真实状态信息，S表示环境真实状态信息集合，在每一个时间步，对于无人机智能体i∈N≡{1，…，n}，N表示无人机智能体集合，需要选择一个动作a_i∈A，A表示动作集合，去组成一个联合动作u∈U，U表示联合动作的集合，再将这个联合动作给到环境中去进行状态转移P(s′|s，u)：S×U→[0，1]，P(s′|s，u) 表示在u的情况下，s转换成s′的概率；之后，无人机智能体i都会得到一个奖励r_i，所有的无人机智能体得到的奖励总和

，T表示奖励总和集合；对于无人机智能体i接收的是一个独立的部分可观察的状态ζ∈Z，不同的无人机智能体具备不同的观察，所有的观察都来自于环境的真实状态信息，一组条件观察转移概率函数O(s，i)：S×N→Z，Z表示部分可观察状态集合。

步骤2：环境标准化及数据归一化预处理；

步骤2.1：环境标准化预处理；

将多无人机展开多目标协同跟踪任务的环境界限定义在总面积为a²的正方形区域内，其中，a为环境模型的界限边长，训练过程中无人机与目标始终在环境界限内移动，记区域中心位置为环境模型的坐标原点，训练初始时刻，各无人机与各目标处于区域内的任意位置，其中，在本发明的其中一些实施例中，a＝5；

步骤2.2：数据归一化预处理；

设立无人机状态量和目标状态量的最大值和最小值，分别将无人机状态量和目标状态量进行剪裁，将大于最大值和小于最小值的数据设为最大值和最小值，防止数据溢出，之后将数据除以最大值，使其的值域限定在[-1，1]；

步骤3：多目标任务分配；

采用改进的匈牙利算法(加边补零法)对多无人机跟踪任务进行任务分配，在非标准指派问题多无人机(N≥2)跟踪多目标(m≥2)的情况下，为确保每个目标至少被1架无人机跟踪，无人机的数量要大于等于目标数量(N≥m)，求解空间为m×N矩阵，这里需要将N架无人机分成m组跟踪m个目标，要求每组无人机的个数尽量相等(至多差1)，同时基于各无人机距离各目标初始位置距离，计算所有无人机跟踪各目标的欧式距离代价和最小。

在本发明的其中一些实施例中，在非标准指派问题5架无人机跟踪3个目标，需要将5 架无人机分成3组跟踪3个目标，要求每组无人机的个数尽量相等(至多差1)，同时基于各无人机距离各目标初始位置距离，计算最小的所有无人机跟踪各目标的欧式距离代价和，(在跟踪目标进行分配时，我们期望在保证每个目标都能被跟踪并且整体丢失概率最小化(即尽可能平均分配)的前提下，让多无人机系统中的每一架无人机都可以跟踪距离最近的目标，以使每一架无人机都以最少的油耗、最短的距离、最短的时间靠近并跟踪被跟踪目标，因此要计算欧式距离代价和)。

本步骤进行任务分配的方式为：

步骤3.1：建立目标分配问题的效益矩阵M₀(3×5)，并在效益矩阵M₀中添加2行构成方阵，并将新添加的2行中的元素设为0；

步骤4：设计状态价值函数、动作价值函数以及奖励回报函数；

本步骤具体包括：

步骤4.1：设计状态价值函数；

无人机在跟踪目标的过程中无需进行俯仰和翻滚动作，只需保证在跟踪过程中保持平稳，并且保证各无人机之间不发生碰撞，在此前提下，采取最短最佳的路径跟踪目标。针对多无人机多目标协同跟踪问题，设计的状态价值函数表示智能体i∈{1，…，N}在k∈{1，…，t}(t为训练的最大步数)时刻的状态空间为

其中j∈{1，…，N}∩j≠i，

表示无人机与目标在X、Y、Z三个方向上的相对距离和偏航角的相差角度，(v_x，v_y，v_z，

)表示无人机在X、Y、Z三个方向上的速度大小和偏航角速度，

表示无人机i与无人机j在X、Y、Z三个方向上的相对距离，T表示向量转置；

步骤4.2：设计动作价值函数；

用x、y、z方向矢量和一个速度绝对值来定义无人机的速度，设计的动作价值函数表示智能体i∈{1，…，N}在k∈{1，…，t}时刻连续动作空间为

其中，

表示无人机i在k时刻执行动作时在X、Y、Z三个方向上的方向矢量，speed表示无人机执行动作的速度绝对值大小，

表示无人机i在k时刻执行动作的偏航角速度，T表示向量转置；

步骤4.3：基于势能塑性回报函数和非势能塑性回报函数设计奖励回报函数；

训练的目标是使无人机能够朝向目标点运动，期间无人机之间不能发生碰撞，将目标的随机运动轨迹看成一个时间序列的位置坐标点，无人机在每个时刻能够追踪当前目标所处的位置，即完成在整个时间序列上对目标点位置跟踪；基于势能塑性回报函数设计跟踪奖惩，基于非势能塑性回报函数设计高度奖惩和安全奖惩；设计的奖励回报函数表示智能体 i∈{1，…，N}在k∈{1，…，t}(t为训练的最大步数)时刻获得的奖励回报值

其中

分别表示智能体i在k时刻的追踪奖惩、高度奖惩和安全奖惩；

式中，

其中，μ、δ、τ、α、β均代表折扣因子，

表示无人机i与其目标之间在k 时刻的距离差，

表示无人机i与其目标之间在k时刻的偏航角度差，H_max、H_min、D_min分别代表无人机允许飞行的最大高度、最小高度和无人机之间最小的安全距离，

分别代表无人机i在k时刻的飞行高度和与其他最近无人机在k时刻的最小空间距离。

表示无人机i在k时刻的坐标位置，

表示其目标在k时刻的坐标位置，

表示无人机i在k时刻的偏航角度，

表示其目标在k时刻的偏航角度。

折扣因子属于超参数，它们的数值由其对

贡献度(影响程度)和实验效果调整得出，在本发明的其中一些实施例中，μ＝1、δ＝1、τ＝15、α＝10、β＝3。

步骤5：设计深度神经网络结构，包括策略网络结构和价值网络结构；

步骤5.1：设计策略网络结构；

如图1所示，策略网络结构为七层，策略网络的输入量为归一化处理后的无人机状态量

，第一层为输入层，第二层为256个节点的隐藏层，第三层为LayerNorm归一化层，第三层和第四层之间加入Tanh激活函数，第四层和第五层均为256个节点的隐藏层，第五层和第六层之间加入Elu激活函数，第六层为计算无人机动作控制量均值loc和方差scale的隐藏层，输出为一个多元高斯分布的采样值

第七层为输出层，输出层包含Tanh激活函数和归一化，策略网络结构的输出量为无人机动作控制量

步骤5.2：设计价值网络结构；

如图2所示，价值网络结构为六层，价值网络的输入量为归一化处理后的多无人机全局状态量S_k，第一层为输入层，第二层为512个节点的隐藏层，第三层为LayerNorm归一化层，第三层和第四层之间加入Tanh激活函数，第四层512个节点的隐藏层，第五层为256个节点的隐藏层，第六层为输出层，输出量为当前无人机状态量对应的价值估计值value。

步骤6：基于MAPPO算法的多无人机多目标协同跟踪训练；

MAPPO算法的结构如图3所示，使用MAPPO算法进行多无人机多目标协同跟踪训练，训练流程如图4所示，设定训练的总回合数Rounds＝400，每回合训练步数Steps＝240，在每个回合内，随机初始化目标的位置和速度，并进行多目标分配，之后各无人机与环境(环境包含其他无人机和目标)进行信息交互，即模拟多无人机在环境中对多目标进行一次协同跟踪的过程，无论跟踪的结果如何，将交互的信息数据进行数据预处理后，按照时间序列存储在经验池中；每当经验池的数据存满时，将数据全部取出，利用重要性采样，依照MAPPO算法对策略网络和价值网略进行参数迭代更新，系统中的同构无人机可以共享参数，异构无人机不可以共享参数，直到达到设定的训练总回合数，至此全部训练结束，将策略网络取出作为多无人机多目标协同跟踪控制器。

在本发明的其中一些实施例中，此处设定的训练总回合数，需满足最终训练的平均回合总奖励回报函数τ(s，u)收敛至稳定状态或总汇报奖励值接近设定跟踪成功时的奖励值，如图5 所示。

步骤7：多无人机多目标协同跟踪控制器的使用：将各无人机的局部观测状态

基于深度强化学习的特点，在使用MAPPO算法对多无人机多目标协同跟踪训练时，只训练多无人机对其中一种运动状态(例如静止、匀速直线运动、变速曲线运动等)的多目标进行跟踪，得到的多无人机多目标协同跟踪控制器就可以直接应用于随机运动的多目标跟踪，此外，在应用时无需再引入训练时需添加的随机性(步骤6中的“随机初始化环境信息”)，各无人机可以基于自己归一化处理后的局部观测状态

作为输入，得到各无人机的动作控制量，实现分布式控制各无人机跟踪分配的目标，从而完成控制多无人机对多目标展开协同跟踪任务。

在本发明的其中一些实施例中，进行了100次跟踪试验，每次随机初始化环境信息(5 架旋翼无人机的初始位置和3个车辆目标的初始位置、方向和速度)。

取其中一次试验结果，初始时，5架四旋翼无人机和3个随机移动的车辆目标初始位置和任务分配为：无人机id0的初始位置[-0.17，0.44，0.5]，无人机id1的初始位置[-1，-0.4， 0.5]，无人机id2的初始位置[-0.71，-0.82，0.5]，无人机id3的初始位置[-0.63，-0.31， 0.5]，无人机id4的初始位置[-0.21，0.08，0.5]，目标id0的初始位置[-0.57，0.69，0]，目标id1的初始位置[0.16，-0.81，0]，目标id2的初始位置[0.24，-0.15，0]；任务分配详情为无人机id0跟踪目标id0，最小欧式距离代价为0.69，无人机id1跟踪目标id0，最小欧式距离代价为1.27，无人机id2跟踪目标id1，最小欧式距离代价为1.00，无人机id3 跟踪目标id2，最小欧式距离代价为1.02，无人机id4跟踪目标id2，最小欧式距离代价为 0.71；最小路径开销总和为4.69。

5架四旋翼无人机在多无人机多目标协同跟踪控制器的作用下跟踪3个随机运动的车辆目标的轨迹图如图6所示，其中圆点表示无人机的起点位置，三角表示无人机的终点位置；距离差变化图如图7所示，距离差在跟踪前期快速缩小，之后保持恒定；偏航角度差变化图如图8所示，偏航角度差在跟踪前期快速缩小，之后保持恒定。由图可以看出5架四旋翼无人机从随机起点位置出发后，最终可以稳定的跟踪3个随机运动的车辆目标。因此，通过本发明方法，能够保证多机之间处于合理的空间分布而不发生碰撞以及相互影响(如遮挡等) 的同时通过相互协作的方式，对目标持续稳定跟踪。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，包括以下步骤：

步骤2：进行环境标准化及数据归一化预处理；

输出无人机动作控制量

价值网络用于根据输入的多无人机全局状态量S_k输出当前无人机状态量对应的价值估计值value；

步骤7：将各无人机的局部观测状态

2.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤1中，构建所述无人机六自由度运动学模型的方式为：

姿态角为

无人机质心相对于地面坐标的位置运动方程为

无人机绕质心转动的运动方程为

ψ分别为无人机相对于地面坐标系在X、Z两个方向上的角度，

3.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤1中，构建运动目标恒定转弯率和速度模型的方式为：

其中，坐标(x_m，y_m)表示目标在环境中的位置，v、σ、

4.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤1中，构建分布式部分可观察的马尔可夫决策模型的方式为：

多无人机多目标协同跟踪控制过程是个完全合作式的多智能体部分可观察马尔可夫决策过程，将单机的部分可观察的马尔可夫决策模型扩展到多机分布式部分可观察的马尔可夫决策模型(multi-UAV POMDP或Dec-POMDP)，用一个元组G表示为G＝<S,U,P,T,Z,Ο,n,γ>，其中，γ表示折扣因子，n表示n架无人机智能体，s∈S表示环境的真实状态信息，S表示环境真实状态信息集合，在每一个时间步，对于无人机智能体i∈N≡{1,…,n}，N表示无人机智能体集合，需要选择一个动作a_i∈A，A表示动作集合，去组成一个联合动作u∈U，U表示联合动作的集合，再将这个联合动作给到环境中去进行状态转移P(s′|s,u):S×U→[0,1]，(P(s′|s,u)表示在u的情况下，s转换成s′的概率；之后，无人机智能体i都会得到一个奖励r_i，所有的无人机智能体得到的奖励总和

T表示奖励总和集合；对于无人机智能体i接收的是一个独立的部分可观察的状态ζ∈Z，不同的无人机智能体具备不同的观察，所有的观察都来自于环境的真实状态信息，一组条件观察转移概率函数Ο(s,i):S×N→Z，Z表示部分可观察状态集合。

5.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤2中对环境标准化预处理，包括：将多无人机展开多目标协同跟踪任务的环境界限定义在总面积为a²的正方形区域内，其中，a为环境模型的界限边长，训练过程中无人机与目标始终在环境界限内移动，记区域中心位置为环境模型的坐标原点，训练初始时刻，各无人机与各目标处于区域内的任意位置；

步骤2中对数据归一化预处理，包括：设立无人机状态量和目标状态量的最大值和最小值，分别将无人机状态量和目标状态量进行剪裁，将大于最大值和小于最小值的数据设为最大值和最小值，防止数据溢出，之后将数据除以最大值，使其的值域限定在[-1，1]。

6.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤3中进行多任务分配的步骤包括：

7.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤4中，所构建的状态价值函数表示智能体i∈{1，…，N}在k∈{1，…，t}时刻状态空间为

其中j∈{1，…，N}∩j≠i，(d_x，d_y，d_z，d_ω)表示无人机与目标在X、Y、Z三个方向上的相对距离和偏航角的相差角度，

表示无人机在X、Y、Z三个方向上的速度大小和偏航角速度，

其中，

表示无人机执行动作的偏航角速度，T表示向量转置；

其中

8.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤5中的策略网络的输入量为归一化处理后的无人机状态量

输出量为无人机动作控制量

第七层为输出层，输出层包含Tanh激活函数和归一化。

9.根据权利要求1任一所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤5中的价值网络的输入量为归一化处理后的多无人机全局状态量Sk，输出量为当前无人机状态量对应的价值估计值value，其结构有6层，其中，第一层为输入层，第二层为512个节点的隐藏层，第三层为LayerNorm归一化层，第三层和第四层之间加入Tanh激活函数，第四层512个节点的隐藏层，第五层为256个节点的隐藏层，第六层为输出层。

10.根据权利要求1-9任一所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法，其特征在于，步骤6中的训练过程包括：

设定训练的总回合数以及步数；

在每个回合内，随机初始化目标的位置和速度，并进行多目标分配，之后各无人机与其他无人机和目标进行信息交互，即模拟多无人机在环境中对多目标进行一次协同跟踪的过程，无论跟踪的结果如何，将交互的信息数据进行数据预处理后，按照时间序列存储在经验池中；