CN113741525A

CN113741525A - 基于策略集合maddpg多无人机协同攻防对抗方法

Info

Publication number: CN113741525A
Application number: CN202111065663.8A
Authority: CN
Inventors: 丁勇; 聂志诚; 何金
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-03
Anticipated expiration: 2041-09-10
Also published as: CN113741525B

Abstract

本发明公布了基于策略集合MADDPG多无人机协同攻防对抗方法，所述方法首先构建多无人机协同攻防对抗作战任务环境；其次建立多无人机系统的联合状态空间和联合动作空间；然后，针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数，包括进攻方无人机和防御方无人机两个部分；接着，对基于策略集合MADDPG网络进行训练；最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明对MADDPG算法进行改进，设计基于群体目标的奖赏函数，引导协同攻防策略的学习，使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题，攻防效率更高，从而赋予了无人机更好的协同攻防对抗能力。

Description

基于策略集合MADDPG多无人机协同攻防对抗方法

技术领域

本发明属于空战决策技术领域，具体为基于策略集合MADDPG多无人机协同攻防对抗方法。

技术背景

随着计算机技术的不断进步，强化学习算法已经被大量运用到无人机空战机动决策的研究。多无人机系统中，一个无人机学习的同时，其他无人机也在进行学习，他们所执行的动作作用于环境，使当前的学习环境发生变化，这将使得多无人机系统不满足MDP模型，那么强化学习也就不能直接运用到多无人机系统。为解决此问题，部分算法采用状态预测的强化学习方法解决多无人机智能决策问题，各个无人机首先利用其他无人机的以往状态历史对其他无人机的动作选择进行预测，得到下一时刻其他无人机的预测状态，根据自身状态与其他无人机下一时刻的预测状态进行决策。但是，该方法的好坏很大程度依赖于状态预测的准确性，因此该方法的实用性并不强。深度强化学习于2016年由DeepMind团队提出，迅速成为决策领域研究热点，主要分为基于值函数的方法和基于策略的方法。基于值函数的DRL算法主要解决离散状态空间与离散行为空间的问题，在状态或者动作空间连续的情况下，无法很好地估计出各个状态-动作值函数。基于策略梯度的深度强化学习正好可以弥补基于值函数算法在动作空间连续情况下的不足。其中应用最广泛的为深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)及其改进算法，该算法利用策略网络直接输出动作，可以应对连续动作的输出，但存在一个重要的问题，由于每个智能体的策略都在更新迭代，导致环境对于某一个特定的智能体是动态不稳定的。

发明内容

本发明的目的在于提供一种基于策略集合MADDPG多无人机协同攻防对抗方法，该方法对MADDPG算法进行改进，为多无人机系统构建基于群体目标状态的奖赏函数进行环境与算法的沟通，将每个无人机智能体的策略网络重建为一个子策略集合，达到优化策略集合的整体效果，实现多无人机的协同攻防对抗。

为达到上述目的，本发明采用以下技术方案：

基于策略集合MADDPG多无人机协同攻防对抗方法，包括：

步骤(1)建立多无人机协同攻防对抗作战示意图，包括任务目标、隐蔽区域和障碍物位置，以及进攻无人机和防御无人机，进而构建多无人机攻防对抗作战任务，包含目标攻防和无人机追逃两个方面；

步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A；

步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数r^t，其中，进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面，防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分；

步骤(4)对基于策略集合MADDPG网络进行训练；

步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。

本发明具有以下优点：

1.本发明对MADDPG算法进行改进，提出了基于策略集合MADDPG算法，解决了多智能体强化学习中动态不稳定的问题；

2.基于策略集合MADDPG算法设计了基于任务目标设计的奖赏函数，引导协同攻防策略的学习，解决了无偏连续奖赏函数设计困难的问题。

3.基于策略集合MADDPG算法能够使无人机不断学习和优化协同攻防策略直至收敛，且攻防效率更高，从而赋予了无人机更好的协同攻防对抗能力，为多无人机协同攻防对抗决策提供了新思路。

附图说明

图1为本发明的算法流程图。

图2为多无人机协同攻防对抗示意图。

图3为攻防对抗仿真初始环境示意图。

图4为本发明的基于策略集合MADDPG算法与MADDPG算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。

图5为多无人机协同攻防对抗运动轨迹。

图6为障碍物临界区域δ_threat取不同值情况下基于策略集合MADDPG算法的奖赏值比较。

具体实施方式

结合所附图表，对本发明的技术方案作具体说明。

如图1所示，本发明基于策略集合MADDPG多无人机协同攻防对抗方法，具体包括以下步骤：

步骤1建立多无人机协同攻防对抗作战示意图，包括任务目标、隐蔽区域和障碍物位置，以及进攻无人机和防御无人机，进而构建多无人机攻防对抗作战任务，包含目标攻防和无人机追逃两个方面，具体过程为：

(1.1)建立多无人机协同攻防对抗示意图，如图2所示，在区域(0km～2km，7km～10km)内随机产生3架进攻无人机，初始速度随机产生；在区域 (6km～8km，0km～3km)内随机产生4架防御无人机，初始速度随机产生；目标位置分别为(2km，2.5km)、(8.5km，5km)，且不可移动；障碍物区域和隐蔽区域在整个仿真环境内随机产生，且不可移动；图中(x_target，y_target)为目标位置，(x_hidden，y_hidden)为隐蔽区域位置，(x_threat，y_threat)为障碍物位置，(x_{attack_i}，y_{attcck_i})为第i架进攻无人机的位置坐标，(x_{defense_i}，y_{defense_i})为第i架防御无人机的位置坐标；

(1.2)根据该示意图，构建多无人机攻防对抗作战任务，包含目标攻防：进攻无人机在整个攻防过程中要找到目标且进行摧毁打击，防御无人机负责保护目标；无人机追逃：在有限区域内，防御无人机追捕进攻无人机，进攻无人机躲避防御无人机的进攻。

步骤2建立多无人机系统的联合状态空间S，具体为：

(2.1)假设i＝1，2，...，n表示各个无人机的编号，n为无人机的总数量，t时刻n架无人机的联合观测信息为

其中

为第i架无人机的观测信息，包括自身的位置坐标和速度，与其他所有无人机的相对位置，与隐蔽区域、威胁区域以及目标的相对位置；

(2.2)令t时刻所有无人机的状态为s^t，使s^t＝x^t，则所有无人机在各个时刻的状态构成无人机的联合状态空间S。

步骤3建立多无人机系统的联合动作空间A，具体为：

假设每架无人机的动作为当前时刻的加速度，则t时刻所有无人机的动作

则所有时刻无人机的动作空间构成了无人机联合动作空间A。

步骤4设计多无人机系统中基于群体目标状态的奖赏函数r^t，具体为：

(4.1)进攻方无人机的奖赏函数r^t _{attack_i}包括攻占目标、避免冲突和避免被敌机击毁三个方面，具体为：

(4.1.1)定义攻占目标的奖赏函数r_{attack_1}为：

r_{attack_1}＝-max(d) (1)

式中，d为所有目标与各个进攻无人机的距离集合，

m为目标数，n为进攻无人机数，

为进攻无人机i与目标j的距离，max(d)为集合d中的最大值。

(4.1.2)定义避免与威胁区域冲突的奖赏函数r_{attack_2}为：

式中，l_uav为进攻无人机尺寸，l_threat为威胁区域半径，δ_uav为无人机的临界区域宽度，δ_threat为威胁区域的临界区域宽度，

为进攻无人机i与威胁区域的中心距离；

(4.1.3)定义无人机相互碰撞的奖赏函数

为：

式中，d_ij为进攻无人机i与进攻无人机j的距离；

(4.1.4)定义避免被防御方无人机击毁的奖赏函数

为：

式中，

为进攻无人机i相对于防御无人机j的视线角，η_ji为防御无人机j相对于进攻无人机i的视线角，d_ij进攻无人机i与防御无人机j的距离，R_d为期望的相对距离，k为调节因子；

(4.1.5)进攻方无人机获得的奖赏为以上各部分奖赏值的和，即：

(4.2)防御方无人机的奖赏函数r^t _{defence_j}分为避免冲突和打击进攻方无人机两部分，具体为：

(4.2.1)定义避免与威胁区域冲突的奖赏函数r_{defence_1}为：

为防御无人机j与威胁区域的中心距离；

(4.2.2)定义无人机之间避免机间碰撞奖赏函数r_{defence_2}为：

式中，d_ij为进攻无人机i与进攻无人机j的距离；

(4.2.3)定义打击进攻方无人机i的奖赏函数

为：

式中，η_ij为进攻无人机i相对于防御无人机j的视线角，

为防御无人机j相对于进攻无人机i的视线角，d_ij进攻无人机i与防御无人机j的距离，R_d为期望的相对距离，k为调节因子；

(4.2.4)防御方无人机获得的奖赏为以上各部分奖赏值的和，即：

(4.3)基于群体目标状态的奖赏函数r^t如下所示：

r^t＝(r^t _{attack_1}，...，r^t _{attack_i}，...r^t _{attack_m}，r^t _{defence_1}...，r^t _{defence_j}，...，r^t _{defence_n-m}) (10)

步骤5进行基于策略集合MADDPG网络的训练，具体过程为：

(5.1)随机初始化无人机的Online策略网络参数θ^μ和Online Q网络参数θ^Q，以及Target策略网络参数θ^μ′和Target Q网路参数θ^Q′，满足θ^Q′←θ^Q和θ^μ′←θ^μ，同时初始化经验回放缓冲区R；

(5.2)初始化一个随机过程χ进行动作探索，并对联合状态S进行初始化；

(5.3)对于每个无人机i，利用其当前的策略网络和随机过程选择动作

计算t时刻n个无人机的状态s^t、所执行的动作

得到奖赏值r^t＝(r^t _{attack_1}，...，r^t _{attack_i}，...r^t _{attack_m}，r^t _{defence_1}...，r^t _{defence_j}，...，r^t _{defence_n-m})和下一时刻的状态s′，并将其存入经验回放缓冲区D；

(5.4)从D中随机抽取一批样本，样本数为S，设其中一条为(s^j，a^j，r^j，s′^j)，计算Q值

并通过最小化损失函数更新Online Q网络，其损失函数为：

式中，y^j由第j架无人机的Target Q网络得出，即

(5.5)从无人机i的策略网络中选择某一子策略

更新其Online策略网络，具体更新梯度为：

式中，

为无人机i第k个子策略的记忆存储，

为无人机i的第k个子策略的神经网络参数，

为无人机i的Q网络参数，a_i为无人机i执行的动作，o_i为无人机i的观测信息，s为当前时刻多无人机联合状态。

(5.6)通过soft update算法更新Target策略网络和Target Q网络的参数，具体为：

式中，τ为学习率，θ^μ′为Target策略网络参数，θ^Q′为Target Q网络参数。

步骤6使用训练完成的网络模型实现基于策略集合MADDPG多无人机协同攻防对抗决策。

为了验证方法的可行性和有效性，下面结合仿真实例对本发明做进一步详细的描述。

假设空战环境设定为10km×10km的战场平面，无人机尺寸设置为2m，隐蔽区域为边长为5m的矩形，威胁区域为半径为5m的圆形。

表1为本发明基于策略集合MADDPG的多无人机协同攻防对抗方法中算法仿真主要初始化参数。

表1算法仿真主要初始化参数设置

图3为攻防对抗仿真初始环境示意图。从图中可以看出，进攻无人机数量为 4，防御无人机数量为4。训练时，对于每个情节，攻防无人机在整个仿真区域内随机产生，初始速度随机产生；威胁区域、隐蔽区域和目标位置随机初始化，且威胁区域、隐蔽区域和目标不可移动。

图4为本发明的基于策略集合MADDPG算法(PE-MADDPG)与MADDPG 算法和DDPG算法在训练过程中进攻无人机平均奖赏曲线。从图中可以看出，本发明的基于策略集合算法和MADDPG算法都可以较好的收敛，同时基于策略集合MADDPG算法收敛后的集群回合平均奖赏大于MADDPG算法收敛后的集群回合平均奖赏，而DDPG算法始终处于发散的状态，这是由于攻防无人机均采用DDPG算法进行训练，双方均无法获得优于对手的策略。

图5为多无人机协同攻防对抗运动轨迹。图中，实线和虚线分别为进攻无人机和防御无人机的运动轨迹，曲线箭头处为无人机运动终点，两个小圆形区域为两个目标，实心矩形区域为隐蔽区域，大的圆形区域为障碍物区域。从图中可以看出，进攻无人机相比于防御无人机具有机动优势，距离最近的两个进攻无人机构成一组，共分为两组进攻两个目标，其中进攻无人机1、2为一组，3、4为一组；同样防御无人机也按此原则分组，其中防御无人机5、6为一组，7、8为一组。最后，进攻无人机利用速度和机动能力优势从防御无人机追捕的空隙中突防，成功入侵两个目标。

图6为障碍物临界区域δ_threat取不同值情况下基于策略集合MADDPG算法的奖赏值比较。由图中可以看出，临界区域δ_threat越大，无人机能更早得到预警信号以避免与障碍物碰撞，无人机收获的奖赏值更大。