CN116225065A

CN116225065A - 多智能体强化学习的多自由度模型的无人机协同追捕方法

Info

Publication number: CN116225065A
Application number: CN202310296946.6A
Authority: CN
Inventors: 傅妍芳; 雷凯麟; 曹子建; 杨博; 孙泽龙; 高领航; 李秦洁
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-06

Abstract

本发明涉及一种多智能体强化学习的多自由度模型的无人机协同追捕方法，由于采用多智能体强化学习算法对多无人机追捕问题进行研究，比传统的数学模型方法或者单智能体强化学习方法体现出更智能的自主决策，同时本发明中，建立了基于强化学习的多无人机围捕策略推演方法，制定了多自由度无人机模型集群对抗策略。由于采用多自由度无人机模型，构建了更为复杂和精确的模型更新优化，弥补了现有方法在复杂场景下多智能体系统空战对抗方法的不足，提高了空战模型的精确性。

Description

多智能体强化学习的多自由度模型的无人机协同追捕方法

技术领域

本发明属于强化学习和多无人机对抗领域，涉及一种多智能体强化学习的多自由度模型的无人机协同追捕方法。具体涉及一种基于多智能体强化学习的多自由度模型的无人机协同追捕方法，主要完成了在使用多自由度无人机模型的军事作战仿真场景下，使用多智能体强化算法，研究多架低速追捕无人机对单架高速逃逸无人机的追捕方法，对于提高多无人机协同空战对抗能力具有非常重要的实践意义。

背景技术

随着现代科技的飞速发展，未来战场环境愈发复杂多变，具有较强隐蔽性，低成本，高伴随性的无人作战装备的重要性日益凸显，甚至将颠覆传统战争理念。而随着无人装备体系的日渐复杂，为提升作战效能提出的协同作战概念也得到了快速发展。然而,传统方法在设计围捕策略时,往往对逃逸目标的运动策略做出单一假定,但是在真实战场环境下己方很难获知逃逸目标的控制策略,同时当环境模型发生变化时,控制器参数难以快速适配,具有一定局限性。

近年来随着强化学习算法的不断充实，人工智能技术可解决的问题已经从简单环境下完全信息动态博弈问题转向复杂环境下不完全信息动态博弈问题。多智能体强化学习的发展为解决无人机集群追捕问题提供了新的方法，各军事强国持续发展无人机集群作战力量，期望以成体系的低成本无人机集群，袭扰相对孤立的高价值军事目标，发挥出非对称作战优势。在未来多域多维的体系化作战中克敌制胜。

在未来战争中，无人机集群必然会在战场中担任重要角色，智能体集群智能化也将越来越深入。因此，面对多自由度的无人机集群追捕问题，使用强化学习算法构造一套高效率训练算法，教会智能体在一个连续且动态变化的环境中完成协同追捕工作，提高多智能体的自适应性和协同性，对现代战场的智能体协同作战具有重要的指导意义。

现有技术的方案：

现有的基于强化学习的无人机集群追捕方法中对无人机模型的控制一般均为单自由度模型，基于这个模型在一个二维场景内选择追捕无人机去围捕逃逸无人机，同时对追捕无人机集群的控制算法采用单智能体的算法进行控制，即无人机集群内部没有单元之间的通讯。

现有技术的缺点：

1、部分基于强化学习的无人机集群问题都简化为基于单智能体的无人机问题，在多智能体无人系统中使用此类算法会出现协同性差、学习和收敛速度慢甚至难以收敛等一系列问题。

2、目前已有的作战仿真场景大多数为二维场景，即算法中受控的无人机为单自由度模型，此类方法较难以应用于实际中。

3、目前是目前围捕问题场景中大多都是设定追捕无人机速度优于逃逸无人机，而针对追捕无人机速度相对于逃逸无人机处于劣势的场景还是研究比较少。需要研究更为复杂和精确的模型，能够基于集群智能的优势，处理这种非同等运动参数条件下的追捕问题。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种多智能体强化学习的多自由度模型的无人机协同追捕方法，探讨使用多自由度无人机模型在军事作战场景下低速追捕无人机集群对一架高速逃逸无人机进行围捕的对抗策略，并使用多智能体深度强化学习算法来控制智能体之间进行通讯协同，对现代化无人机集群空战具有一定的现实指导意义。

技术方案

一种多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：作战区域中存在红方多艘同构追捕无人机和蓝方单架逃逸无人机，红方无人机通过协同合作尽快对逃逸目标实现围捕成功。步骤如下：

步骤1：对战双方智能体红方和蓝方，红方单元使用强化学习算法进行控制，蓝方单元基于传统作战规则，双方的智能体环境模型为：

以P_n(n＝1,2,…,N)代表红方多个围捕无人机，E代表逃逸无人机，v_E代表逃逸无人机的速度大小，

代表追捕无人机的速度大小，d_cap代表围捕半径，ψ_E代表逃逸无人机的偏航角，/>

代表追捕无人机的偏航角，d_t为追捕无人机和逃逸无人机之间的距离，d_i为追捕无人机和追捕无人机之间的距离；

所述红方算法智能体模型包括追捕无人机的运动学方程、智能体的状态空间、动作空间和奖赏函数；

所述蓝方规则智能体模型为逃逸无人机采用的逃逸对抗策略；

步骤2：采用多智能体深度确定性策略梯度算法(Multi-Agent DeepDeterministic Policy Gradient，MADDPG)作为红方智能体算法，其中MADDPG使用中心化训练、去中心化执行的方法；

构建价值Critic网络和策略Actor网络，其中：价值网络Critic部署在全局控制器上，策略网络Actor部署在每个智能体上，训练时，智能体agent_i将观测值state_i传输到全局价值网络，价值网络将TD误差传回智能体，供智能体训练策略网络，此时智能体之间不进行直接通讯，而是由训练好的策略网络做决策；

采用MADDPG算法对红方智能体进行训练并优化；

步骤3：将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合，生成最终的基于强化学习的多无人机协同围捕方法，过程为：

步骤3-1：以当前智能体为基准，计算当前智能体与其余智能体的差值，所述差值为：

经度差值

纬度差值

高度差值

/>

距离差值

获得当前智能体的偏航角

输入智能体的联合状态/>

其中

步骤3-2：将智能体联合状态传入多智能体强化学习算法中，得到下一步的联合动作

其中/>

并在三维仿真作战环境中执行动作；

步骤3-3：执行动作结束后获得智能体下一步的动作

和当前动作的奖励值R_n，将数据(S_n，A_n，S_n+1，R_n)存入经验缓冲池中，并抽取批大小的数据对算法进行训练；

在整个围捕过程中循环执行步骤3操作。

所述围捕成功满足以下条件：1)存在任意追捕无人机P_n(n＝1,2,…,N)与逃逸目标E的距离小于围捕半径d_cap；2)相邻追捕无人机之间的围捕角不大于π。

所述围捕过程中满足以下约束：1)为避免地形和温度对无人机的影响，限制无人机的飞行高度在1000米和3000米之间；2)追捕无人机需要在限定区域内追捕到逃逸无人机，逃逸无人机超出限定区域判定任务失败；3)追捕无人机之间不能发生碰撞。

所述红方算法智能体模型中无人机的运动学方程为：

其中(x_i，y_i)代表无人机的当前位置，h_i代表无人机的当前高度，

分别表示无人机i在第n周期内的航迹偏航角和航迹俯仰角。航迹偏航角δ_i和航迹俯仰角ω_i受到约束限制：-ω_max<ω_i<ω_max,-δ_max<δ_i<δ_max；

所述智能体的状态空间为：

式中：

为单个追捕无人机在仿真步长为n时的态势信息；

所述智能体的动作空间为：

式中：

为单个追捕无人机在仿真步长为n时所做的动作，其中：

所述奖赏函数为：奖励函数设计采用连续型奖励和稀疏奖励相结合的方式，针对无人机协同追捕问题，主要考虑两方面要素：一是追捕无人机要成功追捕到逃逸无人机，在多无人机追捕场景中，仅需有一架无人机追捕到逃逸无人机就算是任务成功；二是各追捕无人机之间不能互相碰撞。具体表达式如下：

R＝r_sparse+r_step

式中：包括稀疏奖励r_sparse和步长奖励r_step。

所述单个追捕无人机在仿真步长为n时的态势信息

为：

其中：

式中：

分别为追捕无人机和逃逸无人机之间的相对经度，相对纬度，相对高度。/>

和/>

分别为追捕无人机的航迹偏角和航迹倾角。/>

为追捕无人机和逃逸无人机之间的距离。

所述稀疏奖励r_sparse和步长奖励r_step为：

追捕无人机的稀疏奖励r_sparse分为以下两个模块：一是当追捕无人机集群中有一架无人机成功捕捉逃逸无人机时，给予正奖励回报；二是当逃逸无人机成功逃出区域时，算作任务失败，给予负奖励回报；

每个追捕无人机经过每个仿真步长都会根据执行的动作获得一次步长奖励r_step，通过这个奖励引导无人机完成既定任务。步长奖励r_step由多种子奖励加权构成：

r_step＝αr₁+βr₂+γr₃

式中：r₁为追捕距离奖励、r₂为追捕高度差奖励，r₃为无人机碰撞奖励。α、β、γ为加权系数，并且满足α+β+γ＝1。

所述追捕距离奖励r₁、追捕高度差奖励r₂和无人机碰撞奖励r₃为：

r₁＝-k(d_t-d_max)

式中：d_t为无人机之间的相对距离，d_max为追捕无人机的最大打击范围；设置r₁为负奖励函数，当追捕无人机和逃逸无人机的距离为追捕无人机的打击距离时，r₁＝0；

r₂＝-k(h_i-h_E)

当追捕无人机和逃逸无人机的高度之差h_i-h_E＝0时，追捕无人机与逃逸目标的高度关系是局部最优的；

建立负指数形式的奖励函数r₃描述追捕无人机之间的碰撞风险，d_min表示当前无人机与其他无人机最近的距离。

所述逃逸无人机采用的逃逸对抗策略为：当被追捕无人机包围的时候，逃逸无人机向着追捕无人机构成的多边形所有边长中点中最远距离的中点逃逸；当没被逃逸无人机包围时，采取人工势场法的思想，假设追捕无人机向逃逸无人机的向量方向施加斥力，两者之间的斥力分量与两者之间的距离呈反函数关系：距离增大，斥力则减小。逃逸无人机向所有追捕无人机给予的斥力矢量综合后的斥力方向逃逸。

所述MADDPG算法中Actor网络结构为：

所述MADDPG算法中Critic网络结构为：

有益效果

本发明提出的一种多智能体强化学习的多自由度模型的无人机协同追捕方法，由于采用多智能体强化学习算法对多无人机追捕问题进行研究，比传统的数学模型方法或者单智能体强化学习方法体现出更智能的自主决策，同时本发明中，建立了基于强化学习的多无人机围捕策略推演方法，制定了多自由度无人机模型集群对抗策略。由于采用多自由度无人机模型，构建了更为复杂和精确的模型更新优化，弥补了现有方法在复杂场景下多智能体系统空战对抗方法的不足，提高了空战模型的精确性。

附图说明

图1：无人机围捕态势示意图

图2：无人机坐标系示意图

图3：Actor-Critic网络框架图

图4：MADDPG算法流程图

图5：三维场景下无人机追捕算法奖励图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明采用的技术方案：

步骤1，采用现有系统中的神经网络模型、战场环境模型、态势判断和作战目标分配模型，假定对战双方智能体为红方和蓝方，红方单元使用强化学习算法进行控制，蓝方单元基于传统作战规则构建。首先构建红方算法智能体模型、蓝方规则智能体模型、。

本发明任务场景描述如下:作战区域中存在红方多艘同构追捕无人机和蓝方逃逸无人机，双方具有相反的战术目的：红方无人机之间需要通过协同合作尽快对逃逸目标实现围捕，而逃逸目标要躲避远离红方无人机群。现有研究通常认为当存在任意追击者与逃逸者的距离小于给定阈值时，围捕任务即成功完成。如图1所示。

图1中，P_n(n＝1,2,…,N)代表红方无人机，E代表逃逸无人机，v_E代表逃逸无人机的速度大小，

代表追捕无人机的偏航角，d_t为追捕无人机和逃逸无人机之间的距离，d_i为追捕无人机和追捕无人机之间的距离。

规定围捕成功需满足以下条件：1)存在任意追捕无人机P_n(n＝1,2,…,N)与逃逸目标E的距离小于围捕半径d_cap；2)相邻追捕无人机之间的围捕角不大于π。

围捕过程中需要满足以下约束：1)为避免地形和温度对无人机的影响，限制无人机的飞行高度在1000米和3000米之间；2)追捕无人机需要在限定区域内追捕到逃逸无人机，逃逸无人机超出限定区域判定任务失败；3)追捕无人机之间不能发生碰撞。

步骤2，采用MADDPG算法作为多智能体深度强化学习算法，并构建合适的Actor网络和Critic网络。

步骤3，将步骤1构建的智能体环境模型与步骤2中的多智能体深度强化学习算法进行结合，生成最终的强化学习驱动的多域异构环境下多智能体协同优化方法。

进一步的，所述步骤1中构建红方算法智能体模型、蓝方规则智能体模型具体步骤如下：

步骤1-1：构建蓝方规则智能体模型；构建蓝方逃逸无人机单元，逃逸无人机采用如下的灵活逃逸对抗策略：即将对战态势综合简单考虑，当被追捕无人机包围的时候，逃逸无人机向着追捕无人机构成的多边形所有边长中点中最远距离的中点逃逸；当没被逃逸无人机包围时，采取人工势场法的思想，假设追捕无人机向逃逸无人机的向量方向施加斥力，两者之间的斥力分量与两者之间的距离呈反函数关系：距离增大，斥力则减小。逃逸无人机向所有追捕无人机给予的斥力矢量综合后的斥力方向逃逸。

步骤1-2：构建红方算法智能体模型；具体步骤如下：

步骤1-2-1：构建红方智能体单元，构建追捕无人机的运动学方程为：

分别表示无人机i在第n周期内的航迹偏航角速率和航迹俯仰角速率。航迹偏航角速率δ_i和航迹俯仰角速率ω_i受到约束限制：-ω_max<ω_i<ω_max,-δ_max<δ_i<δ_max.

步骤1-2-2：构建智能体的状态空间；在三维环境下进行协同围捕，需要考虑围捕无人机的经度纬度和高度。设定双方无人机均携带机载GPS设备和陀螺仪，可以获得自身的位置信息、高度信息和自身朝向角即(x_i,y_i,h_i,φ_i)；携带机载火控雷达设备，能获得探测目标(空战目标)的位置信息、高度信息和朝向角(x_E,y_E,h_E,ψ_E)。针对多智能体围捕问题的特点，以逃逸无人机为原点构建直角坐标系，计算追捕无人机和逃逸无人机位置信息的相对值。

设计出的无人机围捕问题在仿真步长为n时的联合状态空间如下所示：

式中：

为单个追捕无人机在仿真步长为n时的态势信息，具体包括：

其中：

式中：

和/>

分别为追捕无人机的航迹偏角速率和航迹倾角速率。/>

为追捕无人机和逃逸无人机之间的距离。

步骤1-2-3：构建智能体的动作空间；本专利设计了一种适用于多自由度无人机模型围捕问题的动作空间，在无人机的运动学模型中找到影响无人机追捕策略的最大影响因子，将动作空间解耦为无人机的当前偏航角、当前俯仰角和当前滚转角，通过无人机的朝向角控制无人机的下一步飞行方向。受最大偏航角限制，每个仿真步长下，无人机的最大偏航角不能超过15°。

设计出的无人机围捕问题的联合动作空间如下所示：

式中：

为单个追捕无人机在仿真步长为n时所做的动作，具体包括：

步骤1-2-4：设置环境中的奖惩机制，当智能体之间达到某种状态时环境所给予的奖惩回报。奖励函数设计采用连续型奖励和稀疏奖励相结合的方式，针对无人机协同追捕问题，主要考虑两方面要素：一是追捕无人机要成功追捕到逃逸无人机，在多无人机追捕场景中，仅需有一架无人机追捕到逃逸无人机就算是任务成功；二是各追捕无人机之间不能互相碰撞。因此奖励函数的设计中还需考虑无人机的相对距离。具体表达如下：

步骤1-2-4-1全局奖励函数设计。在任务过程中，追捕无人机的全局奖励分为以下两个模块：一是当追捕无人机集群中有一架无人机成功捕捉逃逸无人机时，给予正奖励回报；二是当逃逸无人机成功逃出区域时，算作任务失败，给予负奖励回报。

步骤1-2-4-2局部奖励函数设计。针对每个追捕无人机，经过每个仿真步长都会根据执行的动作获得一次步长奖励，通过这个奖励引导无人机完成既定任务。步长奖励r_step由多种子奖励加权构成，子奖励r_k的定义如下：

1)追捕距离奖励r₁

r₁＝-k(d_t-d_max)

式中：d_t为无人机之间的相对距离，d_max为追捕无人机的最大打击范围。为确保追捕无人机高效完成追捕任务，每个时间步长会计算追捕无人机与逃逸无人机之间的相对距离，设置r₁为负奖励函数，此距离与追捕距离奖励r₁呈正相关，相对距离越远，r₁便越小。当追捕无人机和逃逸无人机的距离为追捕无人机的打击距离时，r₁＝0.

2)追捕高度差奖励r₂

r₂＝-k(h_i-h_E)

当追捕无人机和逃逸无人机的高度之差h_i-h_E＝0时，可以认为追捕无人机与逃逸目标的高度关系是局部最优的。

3)无人机碰撞奖励r₃

综上，每个无人机的步长奖励为上述两个奖励函数的加权和：

r_step＝αr₁+βr₂+γr₃

式中：α、β、γ为加权系数，并且满足α+β+γ＝1.

步长奖励r_step中的各项子奖励均设置为负值，且无人机之间形成的协同态势越接近理想状态时，T_step的值越趋近0，从而能引导无人机更新到较优的协同策略；当围捕任务完成时，所有无人机会得到正回报，使无人机集群达到快速围捕的目的。

所述步骤2中，采用MADDPG算法作为多智能体强化学习算法，其算法架构如图所示。MADDPG使用中心化训练、去中心化执行的方法，即每个智能体根据自身策略得到当前状态执行的动作，并与环境交互得到经验存入自身的经验缓存池，待所有智能体与环境交互后，每个智能体从经验池中随机抽取经验训练各自的神经网络。在这个架构中我们需要获得环境中智能体的状态，并让智能体执行各自的动作从而获得奖励返回到强化学习算法中进行训练。价值网络(Critic)部署在全局控制器上，策略网络(Actor)部署在每个智能体上，训练时，agent_i将观测值state_i传输到价值网络，价值网络将TD误差传回智能体，供智能体训练策略网络，此时智能体之间不进行通讯，由训练好的策略网络做决策。具体步骤如图3：

步骤2-1：建立actor模块和critic模块的网络结构，初始化网络参数，actor模块运用于决策行动，critic模块应用于评价反馈，分为以下两个步骤：

步骤2-1-1：本发明所使用的actor模块网络结构示意图如表1所示，以各运动节点的状态s作为输入，经过三个全连接层(Inner product layer)，其中前两个全连接层之后使用修正线性单元(Rectified Linear Units,ReLU)作为激活函数，将第三层的输出经过一个双曲正切函数tanh()，tanh()函数是sigmoid()函数的一种变体，它的取值范围为[-1,1]，而不是sigmoid函数的[0,1]，输出结果为两个值，分别是无人机的当前朝向角和无人机的当前倾向角。在每一轮的迭代过程中，由于网络的参数都是动态变化的，为了使参数的学习更加稳定，保留一个actor网络结构的副本，该副本只在一定的时间步长才进行参数的更新；

表1MADDPG算法中Actor网络结构

步骤2-1-2：本发明所使用的critic模块网络结构示意图如表2所示，以各运动节点的状态s为输入，经过一个全连接层和修正线性激活函数；然后将输出与动作a作为第二个全连接层的输入，输出结果经修正线性单元激活后，输入一个长短期记忆网络LSTM(LongShort-Term Memory)，输出结果为状态s和动作a对应的动作-价值Q。

表2MADDPG算法中Critic网络结构

步骤2-2：训练并优化基于深度确定性的策略梯度算法。critic模块的参数更新需要依赖于actor模块计算出来的动作a；而actor模块的参数更新则需要依赖于critic模块计算出来的动作-价值梯度，两者互相反馈，对算法进行优化。因此重复步骤2，直至满足多智能体协同决策的优化终止条件或达到最大迭代步数。

所述步骤3中，将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合，生成最终的基于强化学习的多无人机协同围捕方法。

步骤3-1：以当前智能体为基准，计算当前智能体与其余智能体的经度差值

纬度差值/>

高度差值/>

距离差值/>

获得当前智能体的朝向角/>

输入智能体的联合状态/>

其中

其中/>

并在三维仿真作战环境中执行动作。

步骤3-3：执行动作结束后获得智能体下一步的动作

和当前动作的奖励值R_n，将数据(S_n，A_n，S_n+1，R_n)存入经验缓冲池中，并抽取批大小的数据对算法进行训练。

步骤3-4：循环执行上述操作。

算法流程图如图4所示：

本发明的效果可以通过以下仿真实验做进一步的说明。

1.仿真条件

本发明是在中央处理器为Inter(R)Core(TM)i7-10870H 2.20GHz CPU、NVIDIAGeForce GTX1660 GPU、、32GB内存、Windows 10操作系统上，运用某军棋仿真推演平台作为军事仿真环境，算法框架使用百度的飞浆框架。

2.仿真内容

本实验设计的随即探索次数是100次，从图5中可以看出在前100次的随机探索阶段，智能体获取到的奖励基本为-100，即逃逸无人机每次都能逃逸成功，在100轮之后开始使用算法训练出来的动作进行执行，可以看出追捕无人机的奖励值有了明显的提高并稳定在500分左右，即追捕无人机每次都能以最快的速度追捕到。为防止算法陷入局部最优在训练时添加了随机探索噪音，所以在100轮之后无人机也会有一个随机探索的可能性。因此在使用此模型时作战成功率达到99％，下图是此算法的Reward曲线图。

Claims

1.一种多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：作战区域中存在红方多艘同构追捕无人机和蓝方单架逃逸无人机，红方无人机通过协同合作尽快对逃逸目标实现围捕成功；步骤如下：

步骤2：采用多智能体深度确定性策略梯度算法作为红方智能体算法，其中MADDPG使用中心化训练、去中心化执行的方法；

采用MADDPG算法对红方智能体进行训练并优化；

经度差值

纬度差值

高度差值

距离差值

获得当前智能体的偏航角

输入智能体的联合状态/>

其中

其中/>

并在三维仿真作战环境中执行动作；

步骤3-3：执行动作结束后获得智能体下一步的动作

在整个围捕过程中循环执行步骤3操作。

2.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述围捕成功满足以下条件：1)存在任意追捕无人机P_n(n＝1,2,…,N)与逃逸目标E的距离小于围捕半径d_cap；2)相邻追捕无人机之间的围捕角不大于π。

3.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述围捕过程中满足以下约束：1)为避免地形和温度对无人机的影响，限制无人机的飞行高度在1000米和3000米之间；2)追捕无人机需要在限定区域内追捕到逃逸无人机，逃逸无人机超出限定区域判定任务失败；3)追捕无人机之间不能发生碰撞。

4.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述红方算法智能体模型中无人机的运动学方程为：

分别表示无人机i在第n周期内的航迹偏航角和航迹俯仰角；航迹偏航角δ_i和航迹俯仰角ω_i受到约束限制：-ω_max<ω_i<ω_max,-δ_max<δ_i<δ_max；

所述智能体的状态空间为：

式中：

为单个追捕无人机在仿真步长为n时的态势信息；

所述智能体的动作空间为：

式中：

为单个追捕无人机在仿真步长为n时所做的动作，其中：

所述奖赏函数为：奖励函数设计采用连续型奖励和稀疏奖励相结合的方式，针对无人机协同追捕问题，主要考虑两方面要素：一是追捕无人机要成功追捕到逃逸无人机，在多无人机追捕场景中，仅需有一架无人机追捕到逃逸无人机就算是任务成功；二是各追捕无人机之间不能互相碰撞，具体表达式如下：

R＝r_sparse+r_step

式中：包括稀疏奖励r_sparse和步长奖励r_step。

5.根据权利要求4所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述单个追捕无人机在仿真步长为n时的态势信息

为：

/>

其中：

式中：

分别为追捕无人机和逃逸无人机之间的相对经度，相对纬度，相对高度；/>

和/>

分别为追捕无人机的航迹偏角和航迹倾角；/>

为追捕无人机和逃逸无人机之间的距离。

6.根据权利要求4所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述稀疏奖励r_sparse和步长奖励r_step为：

每个追捕无人机经过每个仿真步长都会根据执行的动作获得一次步长奖励r_step，通过这个奖励引导无人机完成既定任务；步长奖励r_step由多种子奖励加权构成：

r_step＝αr₁+βr₂+γr₃

式中：r₁为追捕距离奖励、r₂为追捕高度差奖励，r₃为无人机碰撞奖励；α、β、γ为加权系数，并且满足α+β+γ＝1。

7.根据权利要求6所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述追捕距离奖励r₁、追捕高度差奖励r₂和无人机碰撞奖励r₃为：

r₁＝-k(d_t-d_max)

r₂＝-k(h_i-h_E)

8.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述逃逸无人机采用的逃逸对抗策略为：当被追捕无人机包围的时候，逃逸无人机向着追捕无人机构成的多边形所有边长中点中最远距离的中点逃逸；当没被逃逸无人机包围时，采取人工势场法的思想，假设追捕无人机向逃逸无人机的向量方向施加斥力，两者之间的斥力分量与两者之间的距离呈反函数关系：距离增大，斥力则减小；逃逸无人机向所有追捕无人机给予的斥力矢量综合后的斥力方向逃逸。

9.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述MADDPG算法中Actor网络结构为：

10.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述MADDPG算法中Critic网络结构：

/>