CN116127848A

CN116127848A - 一种基于深度强化学习的多无人机协同追踪方法

Info

Publication number: CN116127848A
Application number: CN202310169927.7A
Authority: CN
Inventors: 姜昊; 武永宝; 薛磊; 刘剑
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-16

Abstract

本发明公开了一种基于深度强化学习的多无人机协同追踪方法，属于多智能体控制领域。该方法首先在无人机对战仿真平台上对多无人机作战系统进行建模；随后，设置多无人机协同作战的固定规则动作以及多无人机的初始位置和追踪条件；接着，设置无人机智能体强化学习的状态、动作和奖励函数；最后，在面对不同对手的情况下，使用QMIX算法对无人机智能体进行训练，并根据训练效果调整超参数，实现无人机协同追踪的目的。

Description

一种基于深度强化学习的多无人机协同追踪方法

技术领域

本发明涉及一种基于深度强化学习的多无人机协同追踪方法，该方法通过控制方法和强化学习的结合，实现多无人机的协同追踪，属于多智能体控制领域。

背景技术

无人机由于具有重量轻、尺寸小、机动性高、隐蔽性好、适应能力强、可操作性好等特点，在民用和军用领域受到广泛关注。近几年，无人机在情报侦察、目标搜索和跟踪以及目标攻击等各种任务中占据关键位置，取得了相当好的战果。

但是，随着无人机所面临的战场环境变得越来越复杂，在复杂多变的信息化战场环境下，单个无人机执行侦察或攻击等任务时面临侦察角度和范围、杀伤半径和摧毁能力等诸多方面的限制，制约了作战效能的发挥，单个无人机完成任务的难度也变得越来越大。

而由于多无人机系统既能形成协调有序的集体运动模式，又能快速、一致地应对外界刺激，具有自组织性强、协调性高、稳定性强等优点，且对环境具有较强的适应能力。因此，越来越多的人们开始了对多无人机的协同作战的研究。

然而多无人机的协同作战问题较为复杂，仅仅依靠设计者的经验和知识，很难获得多无人机在复杂环境下的良好适应性。因此，强化学习算法作为实现多无人机复杂环境下良好适应性的一条可行技术路线，已经成为当前多无人机协同作战领域的一个研究热点。

在多智能体深度强化学习领域中完全合作环境MARL中常见的方法有COMA算法、VDN算法、QMIX算法等等。在QMIX算法的基础上，通过设置合适的规则并根据规则设置恰当的奖励，实现多无人机协同追踪的策略，具有一定的应用前景与意义。

发明内容

技术问题：

基于深度强化学习的多无人机协同作战策略主要研究多无人机在复杂环境下通过强化学习的训练不断完善自身与系统的策略，并通过一定的策略进行协同作战的问题。本发明专利实现了多无人机系统在一定条件下的协同作战，主要使用深度强化学习中的QMIX算法，通过对动作空间、状态空间和奖励函数的设置，实现了多无人机的协同追踪。

技术方案：

一种基于深度强化学习的多无人机协同追踪方法，其特征在于，包括以下步骤：

步骤1：在无人机对战仿真平台上建立多无人机作战的模型；

步骤2：设置多无人机协同作战的固定规则动作；

步骤3：设置多无人机的初始位置和追踪条件；

步骤4：设置无人机智能体强化学习的状态、动作和奖励函数；

步骤5：使用QMIX算法对无人机智能体进行训练，并根据训练结果调整超参数；

步骤6：在面对不同对手的情况下，重复步骤5，实现多无人机协同追踪的目标。

进一步地，步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下：

步骤1.1建立二维绝对坐标系

以当前选择的作战地图的左下角为坐标系原点，水平方向为坐标系x轴，垂直方向为坐标系y轴，建立二维绝对坐标系。

步骤1.2建立多无人机作战系统

建立含有n架无人机的多无人机作战系统，设每架无人机智能体(agent)用A表示，则该多无人机作战系统可以用集合D＝{A₁,A₂,...,A_n}表示。

步骤1.3建立无人机智能体模型

对于多无人机系统D中的每架无人机A，其在时间步t时选择的动作(action)由移动、探测、干扰和攻击四个模块组成：

对于移动模块，无人机选择二维平面坐标系内0-359°中的一个方向，并按此方向在单位时间里移动单位步长，无人机在时间步t时选择的方向可记为F_1t(A_i)；

对于探测模块，设雷达频点总数为m，无人机选择雷达频点表中的任意一个雷达频点后，固定向以其朝向为轴、左右各60°、距离为d₁的扇形范围内探测是否有敌方无人机，并将探测到的敌方无人机记录到探测列表L_i中，无人机在时间步t时选择的雷达频点可记为F_2t(A_i)；

对于干扰模块，无人机选择雷达频点表中的任意一个频点后，固定向以其朝向为轴、左右各15°、距离为d₁的扇形范围内干扰敌方无人机选择对应频点的雷达，使其失去探测能力；无人机也可以选择开启阻塞干扰，固定向以其朝向为轴、左右各1°、距离为d₁的扇形范围内干扰敌方无人机所有频点的雷达，设无人机在时间步t时选择的干扰频点为F_3t(A_i)，则有：

对于攻击模块，无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹(距离为d₂)或长距离导弹(距离为d₃)，设该无人机选择攻击的敌方无人机为探测列表中的L_i(1≤i≤n)，该无人机选择发射的导弹种类为p，(当p＝0时，无人机不发射导弹，当p＝1时，无人机发射短距离导弹；当p＝2时，无人机发射长距离导弹)，该无人机是否还有该种类的导弹为w(p)，(当w(p)＝0时，无人机没有该类型的导弹；当w(p)＝1时，无人机有该类型的导弹；默认w(0)＝0)，设无人机在时间步t时选择的攻击动作为F_4t(A_i)，则有：

F_4t(A_i)＝w(p)×((p-1)×n+Li)

由此，无人机智能体在时间步t时的动作空间可由集合{F₁(A_i)，F₂(A_i)，F₃(A_i)，F₄(A_i)}表示。

对于多无人机系统D中的每架无人机A，其在时间步t时的状态(state)表示如下：

无人机A_i在当前时间步t时的位置信息(x_it，y_it)；无人机A_i在当前时间步t时探测到的敌方无人机探测列表L_it，多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表L_Dt(L_Dt＝L_1t∪L_2t∪...∪L_nt)；无人机A_i在当前时间步t时剩余的短距离导弹w_it1和长距离导弹数量w_it2。

由此，无人机智能体在时间步t时的状态空间可由集合{x_it，y_it，L_it，w_it1，w_it2}表示。

由此便构建了多无人机作战的模型。

进一步地，步骤2所述的设置多无人机协同作战的固定规则动作具体如下：

步骤2.1设置探测模块的固定规则动作

对于探测模块，由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低，且探测模块的效能更多取决于移动模块中无人机方向的选择，因此在每个时间步时，使用随机数生成雷达频点。

设无人机的雷达频点总数为m，则无人机在时间步t时选择的雷达频点可表示为：

F_2t(A_i)＝random(1，m)

步骤2.2设置干扰模块的固定规则动作

对于干扰模块，引入条件判断，如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机，则对其使用全频道干扰，避免其探测到我方无人机；如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机，则使用随机数生成干扰频点。

因此无人机在时间步t时选择的干扰频点可表示为：

步骤2.3设置攻击模块的固定规则动作

对于攻击模块，引入条件判断，如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机，则发射选择发射导弹，设当前时刻我方无人机和敌方无人机的位置分别为(x_1t，y_1t)和(x_2t，y_2t)，则我方无人机与敌方无人机间的距离为

若距离d在短距离导弹射程范围内，且短距离导弹有剩余，则发射短距离导弹；若距离d在长距离导弹射程范围内，且长距离导弹有剩余，则发射长距离导弹；否则不发射导弹。

设短距离导弹射程范围为d₂，长距离导弹射程范围为d₃，则无人机在时间步t时选择的攻击动作可表示为：

由此便设置了多无人机协同作战的固定规则动作。

进一步地，步骤3所述的设置多无人机的初始位置和追踪条件具体如下：

步骤3.1开局初始位置调整

开局时，设我方无人机均处于地图左侧，敌方无人机均处于地图右侧，且双方无人机均一字排开，且无人机间的距离为常数，即：

x₁₀＝x₂₀＝...＝x_n0

y₂₀-y₁₀＝y₃₀-y₂₀＝...＝y_n0-y_(n-1)0

为了使无人机系统在对局中能在开局占得先机，因此在开局时需要对无人机系统中每架无人机的初始位置进行调整，在t₁个时间步长内，将多无人机系统的阵型调整为雁形，从而在与敌方无人机碰面时取得一定优势。

若多无人机系统中无人机的数量n为奇数，则处于中间位置的那架无人机

成为领队，其初始位置为

且开局后始终向右侧(0°方向)移动，即

设多无人机系统中的所有无人机的速度相同均为v，则领队向右侧移动的距离为：

其在t₁时刻的位置为：

设将无人机系统调整为雁形时两侧无人机与x轴的夹角为θ，两两相邻无人机间的距离相等为d₄，则此时无人机A_i的位置为：

类似的，若多无人机系统中无人机的数量n为偶数，则处于中间位置的两架无人机

和

成为领队，其初始位置分别为

和

开局后向右侧移动t₁个步长后的位置为：

此时无人机A_i的位置为：

由此，便将多无人机系统的阵型调整为了雁形。

步骤3.2协同追踪条件判断

当多无人机系统完成阵型调整后，其开始探索地图并通过当前时间步的探测信息进行协同追踪条件判断。即多无人机系统在t₁后的每个时间步t进行条件判断，如果存在某架无人机A_i探测到敌方无人机，且该无人机A_i周围半径为r的圆内的友方无人机数目(包含自身)与这些友方无人机探测到的敌方无人机数目之比大于等于2，则协同追踪条件通过，否则不通过。

设协同追踪条件为f(t,i)，则有

其中，⊙为以无人机A_i当前位置为圆心，r为半径的单位圆，L_K为敌方无人机探测列表L_Dt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表。

由此，便完成了对协同追踪条件的设置，无人机可以通过协同追踪条件进行判断并依此选择移动模块的动作。

进一步地，步骤4所述的设置无人机智能体强化学习的状态、动作和奖励函数具体如下：

对于多无人机系统中的每架无人机智能体A_i，其通过强化学习的方法寻找在状态S下的最优动作a，通过与环境的交互以求取得最大化的奖励R。

其中，状态S包括无人机智能体A_i在当前时间步t时的位置信息(x_it,y_it)；无人机智能体A_i在当前时间步t时探测到的敌方无人机探测列表L_it；无人机智能体A_i在当前时间步t时剩余的短距离导弹w_it1和长距离导弹数量w_it2以及当前时刻无人机智能体A_i的追踪条件f(t,i)。

动作a为无人机智能体A_i在时间步t时选择的方向F_1t(A_i)，由于F_1t(A_i)的取值为0-359°中的任意一个方向，训练维度过大，收敛难度较高，因此设置F_1t(A_i)为15°的整数倍共24种取值，这样在不妨碍无人机转向的同时大大减小了训练的维度。

奖励R包括了以下几个部分：

(1)无人机探测到敌方无人机的奖励r₁

(2)无人机发射导弹并击中敌方无人机的奖励r₂和我方无人机被敌方无人机导弹击中的惩罚r₂’

(3)无人机正确使用协同追踪条件的奖励r₃、r₄

若无人机智能体A_i在f(t，i)＝1时，对探测列表中发现的敌方无人机进行协同追踪，即无人机A_i和在该无人机A_i周围半径为r的圆内的友方无人机同时向敌方无人机所在位置移动，则获得奖励r₃；若无人机智能体A_i在f(t，i)＝0时，无人机A_i随机选择向最近的友方无人机汇合或是向自身与该敌方无人机连线夹角大于等于90°的方向进行探索，则获得奖励r4。

(4)避免无人机原地不动的惩罚r₅

由于当无人机选择在原地转圈不动时，依然有较大的概率得到奖励r₄，从而在训练的过程中陷入原地转圈不动的局部最优情况，因此必须引入惩罚措施，计算无人机在连续τ个时间步内的位移，并根据位移的大小给予无人机智能体相应的惩罚。

设无人机系统D中的某架无人机为A_i，其在连续的τ个时间步内的位置分别为{(x₁，y₁)，(x₂，y₂)，...，(x_τ，y_τ)}，则其在τ个时间步长上的位移为：

若无人机在τ个时间步内原地转圈不动，则其位移Δ较小；若无人机正常追踪敌方无人机或搜索地图，则其位移Δ必然大于某特定值。因此，该无人机A_i在τ个时间步长上的位移Δ与惩罚r₅可近似用反比例函数描述，并通过适当的修正使其能满足所有情况。

设置惩罚函数如下：

其中，C_t为比例系数，可适用于不同的场景下修改训练；δ为一个和位移相比可以忽略的小量，防止当Δ恰好为0时，函数值为无穷大；ε为奖励补偿，使无人机在τ个时间步长上的位移Δ大于某特定值时，不会进行距离奖励值的衰减；max函数为激活函数，使得当Δ大于某特定值，即

时，惩罚函数r₅的值为0。

由此，便完成了对无人机智能体强化学习的状态、动作和奖励函数的设置。

有益效果：

1.本发明专利提出了一种基于深度强化学习QMIX算法的多无人机协同追踪方法。通过对多无人机作战系统的建模，并在开源的多无人机作战平台MaCA平台上进行训练和测试，实现了多无人机的协同追踪。

2.本发明专利在深度强化学习QMIX算法的基础上，通过对奖励函数的设计，使其能更好解决强化学习中由于维数过大而导致的稀疏奖励的问题，同时，通过对追踪条件的设计，并将其作为状态空间的一部分使用强化学习算法进行训练，可以有效的提高胜率。

3.本发明专利在开局时对无人机的初始位置进行了调整，采取了雁形阵，该阵型是一种横向展开，左右两翼向后梯次排列的战斗队形，具有很好的稳定性和高效性，有助于提高多无人机作战的协同性和胜率。

4.本发明专利所建立的多无人机系统协同作战模型不仅可以用于多无人机的协同作战，也可用于其他场景，如海上作战、地面作战单元等。

附图说明

图1为本发明专利总体框架图；

图2为本发明专利的整体程序流程图；

图3为多无人机系统的二维绝对坐标系；

图4为无人机探测模块范围示意图；

图5为无人机干扰模块范围示意图；

图6为无人机攻击模块范围示意图；

图7为多无人机系统进行初始位置调整的示意图；

图8为无人机进行追踪条件判断的示意图；

图9为训练后的多无人机进行协同追踪的效果图；

具体实施方式

下面对本发明方法和系统进行详细的阐述。

本发明专利是一种基于深度强化学习的多无人机协同追踪方法，其特征在于，包括以下步骤：

步骤1：在无人机对战仿真平台上建立的多无人机作战的模型。包括建立多无人机作战系统和绝对坐标系和系统中各个无人机智能体的数学模型。

(1)建立二维绝对坐标系

以当前选择的作战地图的左下角为坐标系原点，水平方向为坐标系x轴，垂直方向为坐标系y轴，建立二维绝对坐标系如图3所示。

(2)建立多无人机作战系统

(3)建立无人机智能体模型

对于探测模块，设雷达频点总数为m，无人机选择雷达频点表中的任意一个雷达频点后，固定向以其朝向为轴、左右各60°、距离为d₁的扇形范围内探测是否有敌方无人机，并将探测到的敌方无人机记录到探测列表L_i中，无人机在时间步t时选择的雷达频点可记为F_2t(A_i)，探测模块的具体范围如图4所示；

对于干扰模块，无人机选择雷达频点表中的任意一个频点后，固定向以其朝向为轴、左右各15°、距离为d₁的扇形范围内干扰敌方无人机选择对应频点的雷达，使其失去探测能力；无人机也可以选择开启阻塞干扰，固定向以其朝向为轴、左右各1°、距离为d₁的扇形范围内干扰敌方无人机所有频点的雷达，干扰模块的具体范围如图5所示，设无人机在时间步t时选择的干扰频点为F_3t(A_i)，则有：

对于攻击模块，无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹(距离为d₂)或长距离导弹(距离为d₃)，攻击模块的具体范围如图6所示，设该无人机选择攻击的敌方无人机为探测列表中的L_i(1≤i≤n)，该无人机选择发射的导弹种类为p，(当p＝0时，无人机不发射导弹，当p＝1时，无人机发射短距离导弹；当p＝2时，无人机发射长距离导弹)，该无人机是否还有该种类的导弹为w(p)，(当w(p)＝0时，无人机没有该类型的导弹；当w(p)＝1时，无人机有该类型的导弹；默认w(0)＝0)，设无人机在时间步t时选择的攻击动作为F_4t(A_i)，则有：

F_4t(A_i)＝w(p)×((p-1)×n+Li)

由此便构建了多无人机作战的模型。

步骤2：设置多无人机协同作战的固定规则动作

(1)设置探测模块的固定规则动作

F_2t(A_i)＝random(1,m)

(2)设置干扰模块的固定规则动作

因此无人机在时间步t时选择的干扰频点可表示为：

(3)设置攻击模块的固定规则动作

对于攻击模块，引入条件判断，如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机，则发射选择发射导弹，设当前时刻我方无人机和敌方无人机的位置分别为(x_1t,y_1t)和(x_2t,y_2t)，则我方无人机与敌方无人机间的距离为

由此便设置了多无人机协同作战的固定规则动作。

步骤3：设置多无人机的初始位置和追踪条件

(1)开局初始位置调整

x₁₀＝x₂₀＝...＝x_n0

y₂₀-y₁₀＝y₃₀-y₂₀＝...＝y_n0-y_(n-1)0

成为领队，其初始位置为

且开局后始终向右侧(0°方向)移动，即

其在t₁时刻的位置为：

和

成为领队，其初始位置分别为

和

开局后向右侧移动t1个步长后的位置为：

此时无人机A_i的位置为：

由此，便将多无人机系统的阵型调整为了雁形，具体过程如图7所示。

(2)协同追踪条件判断

设协同追踪条件为f(t，i)，则有

其中，⊙为以无人机A_i当前位置为圆心，r为半径的单位圆，LK为敌方无人机探测列表L_Dt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表，具体判断情况如图8所示。

步骤4：设置无人机智能体强化学习的状态、动作和奖励函数

其中，状态S包括无人机智能体A_i在当前时间步t时的位置信息(x_it，y_it)；无人机智能体A_i在当前时间步t时探测到的敌方无人机探测列表L_it；无人机智能体A_i在当前时间步t时剩余的短距离导弹w_it1和长距离导弹数量w_it2以及当前时刻无人机智能体A_i的追踪条件f(t，i)。

奖励R包括了以下几个部分：

(1)无人机探测到敌方无人机的奖励r₁

(3)无人机正确使用协同追踪条件的奖励r₃、r₄

(4)避免无人机原地不动的惩罚r₅

由于当无人机选择在原地转圈不动时，依然有较大的概率得到奖励r4，从而在训练的过程中陷入原地转圈不动的局部最优情况，因此必须引入惩罚措施，计算无人机在连续τ个时间步内的位移，并根据位移的大小给予无人机智能体相应的惩罚。

设无人机系统D中的某架无人机为A_i，其在连续的τ个时间步内的位置分别为{(x₁,y₁),(x₂,y₂),...,(x_τ,y_τ)}，则其在τ个时间步长上的位移为：

设置惩罚函数如下：

时，惩罚函数r₅的值为0。

由此，便完成了对无人机智能体强化学习的状态、动作和奖励函数的设置

步骤5：使用QMIX算法对无人机智能体进行训练，分别训练n个无人机智能体来拟合在状态S下的最佳动作a和1个源控制器来拟合最佳的多智能体间的奖励分配，并根据训练结果调整超参数，设置的部分超参数如下表所示；

超参数	值
		Buffer size	320
Batch size	32
		Learning rate	0.01
Epsilon	0.9
		Gamma	0.9
Target update frequency	100

训练后的多无人机系统能在一定程度上较好的完成协同追踪的任务，具体效果如图9所示。

Claims

1.一种基于深度强化学习的多无人机协同追踪方法，其特征在于，包括以下步骤：

步骤1：在无人机对战仿真平台上建立多无人机作战的模型；

步骤2：设置多无人机协同作战的固定规则动作；

步骤3：设置多无人机的初始位置和追踪条件；

2.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法，其特征在于，步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下：

步骤1.1建立二维绝对坐标系

以当前选择的作战地图的左下角为坐标系原点，水平方向为坐标系x轴，垂直方向为坐标系y轴，建立二维绝对坐标系；

步骤1.2建立多无人机作战系统

建立含有n架无人机的多无人机作战系统，设每架无人机智能体用A表示，则该多无人机作战系统可以用集合D＝{A₁,A₂,...,A_n}表示；

步骤1.3建立无人机智能体模型

对于多无人机系统D中的每架无人机A，其在时间步t时选择的动作由移动、探测、干扰和攻击四个模块组成：

对于攻击模块，无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹，距离为d₂或长距离导弹，距离为d₃，设该无人机选择攻击的敌方无人机为探测列表中的L_i(1≤i≤n)，该无人机选择发射的导弹种类为p，当p＝0时，无人机不发射导弹，当p＝1时，无人机发射短距离导弹；当p＝2时，无人机发射长距离导弹，该无人机是否还有该种类的导弹为w(p)，当w(p)＝0时，无人机没有该类型的导弹；当w(p)＝1时，无人机有该类型的导弹；默认w(0)＝0，设无人机在时间步t时选择的攻击动作为F_4t(A_i)，则有：

F_4t(A_i)＝w(p)×((p-1)×n+Li)

由此，无人机智能体在时间步t时的动作空间可由集合{F₁(A_i),F₂(A_i),F₃(A_i),F₄(A_i)}表示；

对于多无人机系统D中的每架无人机A，其在时间步t时的状态表示如下：

无人机A_i在当前时间步t时的位置信息(x_it,y_it)；无人机A_i在当前时间步t时探测到的敌方无人机探测列表L_it，多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表L_Dt(L_Dt＝L_1t∪L_2t∪...∪L_nt)；无人机A_i在当前时间步t时剩余的短距离导弹w_it1和长距离导弹数量w_it2；

由此，无人机智能体在时间步t时的状态空间可由集合{x_it,y_it,L_it,w_it1,w_it2}表示；

由此便构建了多无人机作战的模型。

3.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法，其特征在于，步骤2所述的设置多无人机协同作战的固定规则动作具体如下：

步骤2.1设置探测模块的固定规则动作

对于探测模块，由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低，且探测模块的效能更多取决于移动模块中无人机方向的选择，因此在每个时间步时，使用随机数生成雷达频点；

设无人机的雷达频点总数为m，则无人机在时间步t时选择的雷达频点表示为：

F_2t(A_i)＝random(1,m)

步骤2.2设置干扰模块的固定规则动作

对于干扰模块，引入条件判断，如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机，则对其使用全频道干扰，避免其探测到我方无人机；如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机，则使用随机数生成干扰频点；

因此无人机在时间步t时选择的干扰频点可表示为：

步骤2.3设置攻击模块的固定规则动作

若距离d在短距离导弹射程范围内，且短距离导弹有剩余，则发射短距离导弹；若距离d在长距离导弹射程范围内，且长距离导弹有剩余，则发射长距离导弹；否则不发射导弹；

由此便设置了多无人机协同作战的固定规则动作。

4.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法，其特征在于，步骤3所述的设置多无人机的初始位置和追踪条件具体如下：

步骤3.1开局初始位置调整

x₁₀＝x₂₀＝...＝x_n0

y₂₀-y₁₀＝y₃₀-y₂₀＝...＝y_n0-y_(n-1)0

为了使无人机系统在对局中能在开局占得先机，因此在开局时需要对无人机系统中每架无人机的初始位置进行调整，在t₁个时间步长内，将多无人机系统的阵型调整为雁形，从而在与敌方无人机碰面时取得一定优势；

成为领队，其初始位置为

且开局后始终向右侧(0°方向)移动，即

其在t₁时刻的位置为：

和

成为领队，其初始位置分别为

和

开局后向右侧移动t₁个步长后的位置为：

此时无人机A_i的位置为：

由此，便将多无人机系统的阵型调整为了雁形；

步骤3.2协同追踪条件判断

当多无人机系统完成阵型调整后，其开始探索地图并通过当前时间步的探测信息进行协同追踪条件判断，即多无人机系统在t₁后的每个时间步t进行条件判断，如果存在某架无人机A_i探测到敌方无人机，且该无人机A_i周围半径为r的圆内的友方无人机数目(包含自身)与这些友方无人机探测到的敌方无人机数目之比大于等于2，则协同追踪条件通过，否则不通过；

设协同追踪条件为f(t,i)，则有

其中，⊙为以无人机A_i当前位置为圆心，r为半径的单位圆，L_K为敌方无人机探测列表L_Dt在t时刻中所有满足k∈⊙条件的敌方无人机k所组成的列表；

5.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法，其特征在于，步骤4所述的设置无人机智能体强化学习的状态、动作和奖励函数具体如下：

对于多无人机系统中的每架无人机智能体A_i，其通过强化学习的方法寻找在状态S下的最优动作a，通过与环境的交互以求取得最大化的奖励R；

其中，状态S包括无人机智能体A_i在当前时间步t时的位置信息(x_it,y_it)；无人机智能体A_i在当前时间步t时探测到的敌方无人机探测列表L_it；无人机智能体A_i在当前时间步t时剩余的短距离导弹w_it1和长距离导弹数量w_it2以及当前时刻无人机智能体A_i的追踪条件f(t,i)；

动作a为无人机智能体A_i在时间步t时选择的方向F_1t(A_i)，由于F_1t(A_i)的取值为0-359°中的任意一个方向，训练维度过大，收敛难度较高，因此设置F_1t(A_i)为15°的整数倍共24种取值，这样在不妨碍无人机转向的同时大大减小了训练的维度；

奖励R包括了以下几个部分：

(1)无人机探测到敌方无人机的奖励r₁；

(2)无人机发射导弹并击中敌方无人机的奖励r₂和我方无人机被敌方无人机导弹击中的惩罚r₂’；

(3)无人机正确使用协同追踪条件的奖励r₃、r₄；

若无人机智能体A_i在f(t,i)＝1时，对探测列表中发现的敌方无人机进行协同追踪，即无人机A_i和在该无人机A_i周围半径为r的圆内的友方无人机同时向敌方无人机所在位置移动，则获得奖励r₃；若无人机智能体A_i在f(t,i)＝0时，无人机A_i随机选择向最近的友方无人机汇合或是向自身与该敌方无人机连线夹角大于等于90°的方向进行探索，则获得奖励r₄；

(4)避免无人机原地不动的惩罚r₅

由于当无人机选择在原地转圈不动时，依然有较大的概率得到奖励r₄，从而在训练的过程中陷入原地转圈不动的局部最优情况，因此必须引入惩罚措施，计算无人机在连续τ个时间步内的位移，并根据位移的大小给予无人机智能体相应的惩罚；

若无人机在τ个时间步内原地转圈不动，则其位移Δ较小；若无人机正常追踪敌方无人机或搜索地图，则其位移Δ必然大于某特定值，因此，该无人机A_i在τ个时间步长上的位移Δ与惩罚r₅可近似用反比例函数描述，并通过适当的修正使其能满足所有情况；

设置惩罚函数如下：

时，惩罚函数r₅的值为0；