CN115097861A

CN115097861A - 一种基于cel-maddpg的多无人机围捕策略方法

Info

Publication number: CN115097861A
Application number: CN202210525305.9A
Authority: CN
Inventors: 李波; 黄晶益; 谢国燕; 杨志鹏; 杨帆; 万开方; 高晓光
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-05-15
Filing date: 2022-05-15
Publication date: 2022-09-23
Anticipated expiration: 2042-05-15
Also published as: CN115097861B

Abstract

本发明提供了一种基于CEL‑MADDPG的多无人机围捕策略方法，建立一种基于多智能体深度确定性策略梯度算法的框架，将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务，通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习，通过引入相关性指标对样本采样效率进行改进，最终，提出的基于课程经验学习的多无人机围捕策略方法能够帮助无人机在动态复杂环境下，成功追踪接近目标，并实现对目标的包围捕获。本发明能够实现无人机自主决策，且各无人机产生的行为策略协同性更强，能够使多无人机学习到更为合理的围捕策略，提升多无人机围捕模型训练效率，且构建的多无人机决策模型具有更好的围捕性能。

Description

一种基于CEL-MADDPG的多无人机围捕策略方法

技术领域

本发明涉及多智能体系统和无人机智能决策领域，尤其是一种多无人机围捕策略方法。

背景技术

随着近些年无线通信、人工智能等高新技术的发展，无人机在区域搜索、工业巡检、等诸多领域大放异彩。然而，一些不法分子利用无人机敏捷、隐蔽的特性，将无人机部署于对国家领土或基础设施的恶意间谍活动或恐怖袭击中，大大危害了国土领域安全。这一系列的恶意无人机事件，引发了无人技术研究界对空域安全的新思考。为了守卫空域安全，在敌方入侵我方领空进行非法情报侦察的场景中，采用多架防御无人机构成多无人机编队，让多无人机编队能够根据态势环境而自动进行对目标的包围驱逐或伴飞监视，具有重要意义。

现有对多无人机围捕策略的研究主要基于传统的一致性控制等方法，将若干无人机形成系统或集群，实现协同化决策。公开专利CN113917944A提出了一种无线紫外光协作集群无人机围捕方法，其中无人机集群基于贪婪最优效益构建多个子联盟，己方无人机之间通过不同波长紫外光信号进行防碰撞，通过效益最大化实现对目标的围捕。然而，该类方法只关注当前收益，当目标具备更优机动性能时，己方无人机难以完成战术布局，实现对目标的围捕。

深度强化学习(Deep Reinforcement Learning，DRL)通过最大化智能体从环境中获得的累计奖赏值，帮助智能体学习到完成任务的最优序列决策，目前已被广泛应用于智能控制、多智能体系统、博弈对抗等领域中。公开专利CN113625775A提出了一种状态预测和DDPG相结合的多无人机围捕方法，通过最小二乘法预测无人机状态信息，然后基于深度强化学习DDPG算法对无人机模型进行训练，实现多无人机协同围捕。然而，该方法中各无人机之间关联性较差，难以实现高效率的智能化协同决策。公开专利CN113467508A提出了一种面向围捕任务的多无人机智能协同决策方法，基于状态部分可观测的特点、任务环境动态性与不确定性因素的影响，采用多智能体深度强化学习方法和避障机制，获得最优行动策略，达到多无人机智能协同决策的目的。然而，该训练方法依赖大量样本数据，大大影响训练效率。同时，考虑到各无人机既需要完成对目标的接近和自主障碍物规避，也需要考虑多智能体系统中的其他无人机单元信息，通过合作完成对包围捕获。因此，让各无人机在适当的状态下学习合适的行为，提升多无人机协同决策的有效性，也是我们需要关注的。

课程学习(Curriculum Learning，CL)的基本思想是将一个困难的目标任务排序为一系列更简单的任务，使得智能体可以通过依次解决课程中易处理的子任务来逐步学习复杂的策略。因此，如何将课程学习方法引入到多智能体深度强化学习方法之中，并与复杂的多无人机围捕决策模型相结合以改善各无人机的自主行为，并通过协同决策完成对目标的靠近、包围、捕获，成为了深度强化学习在多无人机智能决策领域运用的难题。

发明内容

为了克服现有技术的不足，本发明提供一种基于CEL-MADDPG的多无人机围捕策略方法。本发明为一种基于课程经验学习多智能体深度确定性策略梯度(CurriculumExperience Learning Multi-agent deep deterministic policy gradient,CEL-MADDPG)的多无人机围捕策略方法。具体地，建立一种基于多智能体深度确定性策略梯度(Multi-agent deep deterministic policy gradient，MADDPG)算法的框架，实现多无人机协同运动控制。然后，引入课程学习方法，将多无人机围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务，通过设立三种奖励函数帮助多无人机对围捕过程中的各子任务进行学习。在此基础上，引入相关性学习策略(Relative Experience Learning， REL)和优先经验回放策略，通过引入相关性指标对样本采样效率进行改进。最终，提出的基于课程经验学习(Curriculum Experience Learning，CEL)的多无人机围捕策略方法能够帮助无人机在动态复杂环境下，成功追踪接近目标，并实现对目标的包围捕获。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：设定无人机状态信息：

步骤2：设定无人机的动作信息和无人机的状态更新过程：

通过直接控制无人机的受力，实现对无人机的运动姿态和飞行速度控制；因此，设定无人机动作状态信息为：

A＝[F_x,F_y]

其中，F_x,F_y分别表示无人机在x、y轴上的受力，则无人机的加速度表示为：

a＝[a_x,a_y]＝[F_x,F_y]/m_u

其中，a_x,a_y分别表示无人机在x、y轴上的加速度，m_u表示无人机质量；基于无人机受力的无人机状态更新过程表示为：

其中，其中上标t表示时间，p^t，v^t，

分别表示t时刻我方无人机的位置信息、速度信息和偏航角，x^t-1,y^t-1分别表示t-1时刻我方无人机在x、y轴上的位置，

分别表示t时刻我方无人机在x、y轴上的速度分量，

分别表示t-1时刻我方无人机在x、y轴上的速度分量，△t表示无人机运动时间间隔，a为无人机加速度，

分别表示t时刻无人机加速度在x、y轴上的加速度分量；

步骤3：定义奖励函数R：

步骤4：结合课程学习策略，优化无人机奖励函数：

在围捕课程学习中，引入课程奖励r_course用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习；

步骤4-1：设定目标追踪子任务判定条件为：

其中，d_capture表示单机捕获距离，d_limit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值。当满足该条件时，课程奖励r_course等于目标追踪子奖励r_track，此时设定目标追踪子奖励为：

其中，d_max为任务场景中目标与无人机的最大距离值；

步骤4-2：设定包围过渡子任务判定条件为：

其中，

表示无人机i、无人机i+1、目标E构成的三角形面积，U₀和U_n都用于表示最后一个即第n个无人机，当满足该条件时，课程奖励r_course等于包围过渡子奖励r_encicle，此时设定包围过渡子奖励为：

步骤4-3：设定靠近捕获子任务判定条件为：

当满足该条件时，课程奖励r_course等于靠近捕获子奖励r_capture，此时设定靠近捕获子奖励为：

其中，

和

分别表示t时刻和t-1时刻无人机i到目标的距离；

步骤4-4：对于每个无人机，更新其受到的总奖励为：

其中，β₁～β₄表示四项奖励的相应权重值；

步骤4-5：设定多无人机围捕判定条件：当目标处于多无人机围捕网内，且目标与各围捕无人机距离都小于捕获距离d_capture时，视作目标无法逃逸，此时多无人机围捕任务完成；

步骤5：引入相关性学习策略，基于深度强化学习CEL-MADDPG算法，构建多无人机围捕决策模型并进行训练，通过CEL-MADDPG神经网络进行拟合，输出无人机飞行动作，各个围捕无人机通过协同决策，实现对目标的靠近、包围、捕获。

所述步骤1中设定无人机状态信息的具体步骤为：

对于每个围捕无人机，其状态信息S设定为：

S＝[S_uav,S_teamer,S_obser,S_target]

其中，S_uav,S_teamer,S_obser,S_target分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息和目标状态信息；

在多无人机围捕机动决策任务中，设定任务场景宽度和长度分别为l_width和l_length，对于无人机i，设定无人机自身状态信息为：

其中，x_i和y_i表示第i个无人机在x、y轴上的坐标信息，

和

表示第i个无人机在x、y轴上的速度信息，v_max为无人机最大速度；

对于无人机i，设定友方无人机状态信息为：

其中，n表示多无人机系统中无人机数量；

对于无人机i，设定无人机自身观测状态信息为

其中，d_i和θ_i分别表示我方围捕无人机与目标的距离和相对方位角；

分别利用j个距离传感器对无人机周围环境进行探测；对于无人机i，设定无人机探测状态信息为：

其中

表示无人机i的各距离传感器示数，L表示距离传感器探测范围。

所述定义奖励函数R为：

步骤3-1：对于无人机i，设定无人机靠近目标奖励为：

其中v_i表示无人机速度大小，ψ_i表示无人机与目标的相对方位角；

步骤3-2：对于无人机i，设定无人机安全飞行奖励：

d_io表示无人机到障碍物的距离，R_obstacle表示无人机到障碍物的最小安全距离，

表示无人机处于任务场景外；

步骤3-3：对于无人机i，设定无人机任务完成奖励：

其中，

表示目标与我方两两无人机形成的三角形面积之和，

表示所有无人机形成的多边形面积，d_i表示无人机i到目标的距离，d_capture表示单机捕获距离；

步骤3-4：对于无人机i，设定其受到的总奖励为：

其中，μ₁～μ₃表示三项奖励的相应权重值。

所述步骤5的实现步骤为：

步骤5-1：对于每个围捕无人机，分别构建动作网络

和评价网络

基于

同步参数至目标价值网络

和目标动作网络

中，其中i表示无人机序号；

步骤5-2：初始化超参数：经验回放队列大小M，初次采样大小N_pre-batch，二次采样大小N_batch，每回合最大步长T，折扣因子γ，最大回合数E，训练频次K，设定回合数e＝0；

步骤5-3：初始化n个围捕无人机的状态s₁,…,s_n，更新当前时刻为t＝0；

步骤5-4：对于每一个无人机i，根据当前动作网络和探索噪声选择动作

其中

表示动作噪声；

步骤5-5：分别执行动作a₁,…,a_n后，得到奖励值r₁,…,r_n，得到下一时刻系统状态x′；

步骤5-6：计算当前t时刻下的相关性指标函数：

其中，σ_1～3为三项子指标的权重值，为常量。O为多围捕无人机勾成的围捕网质心，

表示序号为i的无人机与围捕网质心O的距离；

然后，存储经验样本[x,a₁,…,a_N,r₁,…,r_N,x′,f_r(x)]于经验回放队列中；

步骤5-7：根据

采样N_pre-batch个样本数据，其中c表示被抽取的经验样本的序号，p_c表示其优先级，参数α为用于调节样本优先采样程度的参数；

在所采样的N_pre-batch个样本数据中，根据△f_r＝|f_r(s_t)-f_r(s_batch)|进行二次采样获得 N_batch个相关性样本，f_r(s_batch)为基于采样样本数据计算得到的相关性指标数据；

计算重要性权重w_j＝(M·P(i))^-β/max_iw_i，其中M为经验回放队列大小，β为超参数，用于调节重要性采样对模型收敛速率的影响；

计算目标值：

其中，γ为奖励折扣因子，a₁′，…a_N′为下一时刻各无人机动作；

通过最小化损失函数对在线价值网络进行更新：

通过策略梯度方法对在线动作网络进行更新：

步骤5-8：分别更新各无人机智能体的目标动作网络和目标价值网络参数：

τ表示更新比例系数；

步骤5-9：更新步长t加1，执行判定：当t<T且不满足多无人机围捕判定条件时，进入步骤5-4；否则进入步骤5-10；

步骤5-10：更新回合数e加1，执行判定：若e<E，则更新至步骤5-3；否则，训练完成，进入步骤5-11；

步骤5-11：终止CEL-MADDPG网络训练过程，保存当前网络参数；将保存好的参数加载至多无人机围捕系统中；每一时刻，每个无人机分别将状态信息输入至神经网络中，通过CEL-MADDPG神经网络进行拟合，输出无人机飞行动作，各个围捕无人机通过协同决策，实现对目标的靠近、包围、捕获。

本发明提出的基于CEL-MADDPG的多无人机围捕策略方法，其优点具体体现在：

(1)构建的基于深度强化学习的多无人机系统控制模型，采用集中式训练、分布式执行方法，能够实现无人机自主决策，且各无人机产生的行为策略协同性更强；

(2)本发明将深度强化学习方法和课程学习方法相结合，针对多无人机围捕场景，将复杂围捕任务拆分为目标追踪、包围过渡、靠近捕获三个子任务，并设立相应的奖励函数用于鼓励无人机在不同状态下学习合适的行为策略，能够使多无人机学习到更为合理的围捕策略；

(3)本发明在训练过程中引入相关性学习策略和优先经验回放策略，利用优先经验回放机制打破经验回放队列中连续经验条的相关性，然后在经验样本中引入多种围捕相关的数据指标，对样本采样效率进行改进，提升多无人机围捕模型训练效率，且构建的多无人机决策模型具有更好的围捕性能。

附图说明

图1为基于CEL-MADDPG的多无人机围捕机动决策模型构建示意图。

图2为无人机探测示意图。

图3为围捕无人机与目标的位置关系示意图。

图4为基于课程学习的多无人机围捕各子任务图，图4(a)为目标跟踪状态的子任务图，图4(b)为包围过渡状态的子任务图，图4(c)为靠近捕获状态的子任务图。

图5为多无人机围捕仿真测试图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出的一种基于CEL-MADDPG的多无人机围捕策略方法，其模型训练、测试和构建流程如图1所示。下面结合附图和具体实施例，对该技术方案作进一步清晰和完整的描述：

步骤1：设定无人机状态信息：

对于每个围捕无人机，其状态信息S设定为：

S＝[S_uav,S_teamer,S_obser,S_target]

其中，S_uav,S_teamer,S_obser,S_target分别表示无人机自身状态信息、其他右方无人机状态信息、无人机自身观测状态信息、目标状态信息；

具体地，在多无人机围捕机动决策任务中，设定任务场景宽度和长度分别为l_width和 l_length。对于无人机i，设定无人机自身状态信息为：

其中，x_i和y_i表示第i个无人机在x、y轴上的坐标信息，

和

对于无人机i，设定友方无人机状态信息为：

其中，n表示多无人机系统中无人机数量；

对于无人机i，设定无人机自身观测状态信息为：

其中，d_i和θ_i分别表示我方围捕无人机与目标的距离和相对方位角，x_e,y_e表示目标位置信息；

其中

表示无人机i的各距离传感器示数，L表示距离传感器探测范围。无人机探测模型如图2所示，当传感器探测到障碍物或环境边界时，l_n∈[0,L]，表示无人机到障碍物或环境边界的距离。

步骤2：设定无人机的动作信息和无人机的状态更新过程：

通过直接控制无人机的受力，实现对无人机的运动姿态和飞行速度控制。因此，设定无人机动作状态信息为：

A＝[F_x,F_y]

其中，F_x,F_y分别表示无人机在x、y轴上的受力。则无人机的加速度可以表示为：

a＝[a_x,a_y]＝[F_x,F_y]/m_u

其中，a_x,a_y分别表示无人机在x、y轴上的加速度，m_u表示无人机质量；基于无人机受力的无人机状态更新过程可以表示为：

其中，其中上标t表示时间，p^t，v^t，

分别表示t时刻我方无人机在x、y轴上的速度分量，

分别表示t时刻无人机加速度在x、y轴上的加速度分量；

步骤3：定义奖励函数R：

步骤3-1：对于无人机i，设定无人机靠近目标奖励为：

其中v_i表示无人机速度大小，ψ_i表示无人机与目标的相对方位角，具体表示为：

无人机和目标的相对位置关系如图3所示；

步骤3-2：对于无人机i，设定无人机安全飞行奖励：

表示无人机处于任务场景外；

步骤3-3：对于无人机i，设定无人机任务完成奖励：

其中，

表示目标与我方两两无人机形成的三角形面积之和，

步骤3-4：对于无人机i，设定其受到的总奖励为：

其中，μ_1～3表示三项奖励的相应权重值；

步骤4：结合课程学习策略，优化无人机奖励函数：

在围捕课程学习中，引入课程奖励r_course用于引导无人机对目标追踪子任务、包围过渡子任务、靠近捕获子任务进行学习，基于课程学习的多无人机围捕任务图如图4所示；

步骤4-1：设定目标追踪子任务判定条件为：

其中，d_limit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值。当满足该条件时，课程奖励r_course等于目标追踪子奖励r_track，此时设定目标追踪子奖励为：

其中，d_max为任务场景中目标与无人机的最大距离值；

步骤4-2：设定包围过渡子任务判定条件为：

其中，

表示无人机i、无人机i+1、目标E构成的三角形面积。为方便公式表述，U₀和U_n都用于表示最后一个即第n个无人机。当满足该条件时，课程奖励r_course等于包围过渡子奖励r_encicle，此时设定包围过渡子奖励为：

步骤4-3：设定靠近捕获子任务判定条件为：

其中，

和

分别表示t时刻和t-1时刻无人机i到目标的距离；

步骤4-4：对于每个无人机，更新其受到的总奖励为：

其中，β_1～4表示四项奖励的相应权重值；

步骤5：引入相关性学习策略，基于深度强化学习CEL-MADDPG算法，构建多无人机围捕决策模型并进行训练：

步骤5-1：对于每个围捕无人机，分别构建动作网络

和评价网络

基于

同步参数至目标价值网络

和目标动作网络

中，其中i表示无人机序号；

其中

表示动作噪声；

步骤5-6：计算当前t时刻下的相关性指标函数：

表示序号为i的无人机与围捕网质心O的距离；

步骤5-7：根据

计算目标值：

通过最小化损失函数对在线价值网络进行更新：

通过策略梯度方法对在线动作网络进行更新：

τ表示更新比例系数；

步骤5-9：更新步长t＝t+1，执行判定：当t<T且不满足多无人机围捕判定条件时，进入步骤5-4；否则进入步骤5-10；

步骤5-11：终止CEL-MADDPG网络训练过程，保存当前网络参数；将保存好的参数加载至多无人机围捕系统中。每一时刻，每个无人机分别将状态信息进行输入，并通过神经网络进行拟合，输出无人机飞行动作。各围捕无人机通过协同决策，最终实现对目标的靠近、包围、捕获。

综上，本发明提出的一种基于CEL-MADDPG的多无人机围捕策略方法，实现了多无人机协同围捕决策控制。同时，将多无人机围捕任务进行拆解，并引导多无人机通过课程学习对围捕过程中的相关策略进行系统性学习。此外，引入相关性学习策略和经验优先回放策略，在训练过程中对经验样本进行筛选，提升训练效率。

基于本发明提出的多无人机围捕策略方法，能够为多无人机系统提供自主学习和自适应能力，使我方多无人机系统能够动态感知环境变化，在不同的状态下决策出合适的行为，最终逐渐实现对目标的追踪接近和包围捕获,多无人围捕仿真测试图如图5所示。

以上所述仅为本发明的优选实施方式，应该指出：本发明的实施方式并不局限于上述实施方法的限制；在不脱离本发明原理的前提下，其他的对本发明做出的删减、修饰、简化等修改方式的方案，都包含在本发明的保护范围之内。

Claims

1.一种基于CEL-MADDPG的多无人机围捕策略方法，其特征在于包括下述步骤：

步骤1：设定无人机状态信息：

步骤2：设定无人机的动作信息和无人机的状态更新过程：

A＝[F_x,F_y]

a＝[a_x,a_y]＝[F_x,F_y]/m_u

其中，其中上标t表示时间，p^t，v^t，

分别表示t时刻我方无人机在x、y轴上的速度分量，

分别表示t时刻无人机加速度在x、y轴上的加速度分量；

步骤3：定义奖励函数R：

步骤4：结合课程学习策略，优化无人机奖励函数：

步骤4-1：设定目标追踪子任务判定条件为：

其中，d_capture表示单机捕获距离，d_limit表示针对目标追踪子任务到包围过渡子任务转化设定的阈值，当满足该条件时，课程奖励r_course等于目标追踪子奖励r_track，此时设定目标追踪子奖励为：

其中，d_max为任务场景中目标与无人机的最大距离值；

步骤4-2：设定包围过渡子任务判定条件为：

其中，

步骤4-3：设定靠近捕获子任务判定条件为：

其中，

和

分别表示t时刻和t-1时刻无人机i到目标的距离；

步骤4-4：对于每个无人机，更新其受到的总奖励为：

其中，β₁～β₄表示四项奖励的相应权重值；

2.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法，其特征在于：

所述步骤1中设定无人机状态信息的具体步骤为：

对于每个围捕无人机，其状态信息S设定为：

S＝[S_uav,S_teamer,S_obser,S_target]

其中，x_i和y_i表示第i个无人机在x、y轴上的坐标信息，

和

对于无人机i，设定友方无人机状态信息为：

其中，n表示多无人机系统中无人机数量；

对于无人机i，设定无人机自身观测状态信息为

其中

3.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法，其特征在于：

所述定义奖励函数R为：

步骤3-1：对于无人机i，设定无人机靠近目标奖励为：

步骤3-2：对于无人机i，设定无人机安全飞行奖励：

表示无人机处于任务场景外；

步骤3-3：对于无人机i，设定无人机任务完成奖励：

其中，

表示目标与我方两两无人机形成的三角形面积之和，

步骤3-4：对于无人机i，设定其受到的总奖励为：

其中，μ₁～μ₃表示三项奖励的相应权重值。

4.根据权利要求1所述的基于CEL-MADDPG的多无人机围捕策略方法，其特征在于：

所述步骤5的实现步骤为：

步骤5-1：对于每个围捕无人机，分别构建动作网络

和评价网络

基于

同步参数至目标价值网络

和目标动作网络

中，其中i表示无人机序号；

其中

表示动作噪声；

步骤5-6：计算当前t时刻下的相关性指标函数：

其中，σ_1～3为三项子指标的权重值，为常量；O为多围捕无人机勾成的围捕网质心，

表示序号为i的无人机与围捕网质心O的距离；

步骤5-7：根据

在所采样的N_pre-batch个样本数据中，根据△f_r＝|f_r(s_t)-f_r(s_batch)|进行二次采样获得N_batch个相关性样本，f_r(s_batch)为基于采样样本数据计算得到的相关性指标数据；

计算目标值：

通过最小化损失函数对在线价值网络进行更新：

通过策略梯度方法对在线动作网络进行更新：

τ表示更新比例系数；