CN111880563A

CN111880563A - 一种基于maddpg的多无人机任务决策方法

Info

Publication number: CN111880563A
Application number: CN202010691504.8A
Authority: CN
Inventors: 李波; 甘志刚; 越凯强; 高晓光; 万开方; 高佩忻
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-03
Anticipated expiration: 2040-07-17
Also published as: CN111880563B

Abstract

本发明公开了一种基于MADDPG的多无人机任务决策方法，将MADDPG算法引入到多无人机任务分配当中，首先根据多无人机实际作战环境，建立深度强化学习所需的二维作战环境模型，其次，建立多无人机作战环境中的防空导弹等多种威胁的数学描述，最后将多无人机的航迹、距离和战场的防御威胁作为约束条件，进行学习训练，进而得到多无人机任务决策模型。本方法采用了经验池和双网络结构，使得整个网络的运算与收敛速度大大提升，在无人机高速飞行的过程中，可以更快的得到结果，并且可以实现多无人机自主决策的目的，在未知的作战环境下也可以保证其任务决策的高效性。

Description

一种基于MADDPG的多无人机任务决策方法

技术领域

本发明属于飞行控制领域，具体涉及一种多无人机任务决策的方法。

背景技术

对于各国军方来说，无人机将会成为未来战场必不可少的武器之一。无人机很可能成为多个作战平台的攻击和反击对象，成为最普遍和最致命的空战“利剑”。现有的多无人机系统，虽然能完成一些复杂的作战任务，但是作为一个庞大的机群协作系统，一般传统的多无人机任务决策是在战场环境已知的条件下进行的，一旦预先设定的作战计划不能满足实际作战环境，就很难及时做出应对处理方案。因此，寻找一种能够在未知作战环境下多无人机快速高效进行任务分配的方法，对未来无人机作战显得尤为重要。

目前针对无人机系统的任务决策问题，主要的研究方法是通过地面指挥中心对作战任务进行划分，先利用无人机对目标区域进行搜索与探测，收集卫星图像信息和目标信息等情报，通过分析得到作战区域的整体态势情况。然后地面指挥中心使用随机路径图算法、蚁群算法、A*算法等方法对任务分配和路径规划等一系列问题进行求解，再制定整个作战流程与细节，最后下达作战任务，选择符合作战要求的无人机组成作战编队，将详细的作战任务分配给多无人机系统中的每个无人机。多个无人机根据预先加载的作战路径，按照预规划航路前往作战区域执行任务，在一系列的“观察-判断-决策-分配-执行”动作中完成整个作战任务。这种传统的解决方法，面对相对稳定的作战环境虽然有效性与可靠度较高，但是在战场未知的环境下很难发挥其原本的作用，仅仅依靠传统的方法来进行多无人机的任务分配是远远不够的。

当环境变化时，还需要重新制定作战计划，再重新发送作战指令到每架无人机，一旦出现不稳定因素，就会大大影响整个作战任务的执行，很大几率导致任务失败。为此，需要提高无人机群的自行调整能力和自主决策能力，使得无人机群在多变的作战环境当中，能够具有一定的“自我意识”以迅速适应战场状况和调整自我行动。

深度强化学习算法在解决无人机自主决策的领域发挥了重要的作用，现有的研究成果将传统的深度强化学习算法引入到无人机的航迹规划、自主避障等问题当中并取得了可喜的成果。但是在多无人机的环境下，传统强化学习方法很难发挥作用，因为在多无人机环境中，每架无人机都是不断变化，环境也不再稳定，并且对于传统强化学习算法中的策略梯度方法来说，随着无人机数量增加，环境复杂度也增加，这就导致通过采样来估计梯度的优化方式，方差急剧增加，难以计算得到最终结果。

发明内容

为了克服现有技术的不足，本发明提供一种基于MADDPG的多无人机任务决策方法，将MADDPG算法引入到多无人机任务分配当中，首先根据多无人机实际作战环境，建立深度强化学习所需的二维作战环境模型，其次，建立多无人机作战环境中的防空导弹等多种威胁的数学描述，最后将多无人机的航迹、距离和战场的防御威胁作为约束条件，进行学习训练，进而得到多无人机任务决策模型。本发明使用基于MADDPG的强化学习算法，采用集中式学习和分布式应用的原理，允许在学习时使用一些额外的信息(即全局信息)，但是在应用决策的时候只使用局部信息，能够使多无人机在战场环境未知的前提下，进行高效的任务决策，同时，该方法还采用了经验池和双网络结构，使得整个网络的运算与收敛速度大大提升，在无人机高速飞行的过程中，可以更快的得到结果，并且可以实现多无人机自主决策的目的，在未知的作战环境下也可以保证其任务决策的高效性。

为达到上述目的，本发明提出了一种基于MADDPG的多无人机任务决策方法，包括以下步骤：

步骤1：设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机；随机选择一个或多个威胁区,随机选择一个或多个目标区域，随机选择一架或多架无人机，将选择的威胁区、目标区域、无人机进行组合，构建一个无人机作战环境；重复上述随机选择和组合过程，构建G个无人机作战环境；

步骤2：建立雷达威胁模型、导弹威胁模型和转弯半径约束模型

建立雷达威胁模型为：

其中，R_max为雷达在水平方向上最远的探测距离，U_R是无人机当前位置与雷达位置的距离；

建立导弹威胁模型为：

其中，U_M是无人机当前位置与导弹位置的距离，d_Mmax为导弹所能攻击的最远距离，d_Mmin为导弹的不可逃逸距离，一旦无人机与导弹的距离小于d_Mmin，则无人机一定会被击中；

建立转弯半径约束模型为：

R_uav≥R_min (3)

其中,R_min为无人机的最小转弯半径，R_uav为无人机的实际转弯半径；

步骤3：设定作战环境中共有k架无人机、m个威胁区和k个目标区域；k架无人机分别为：UAV₁,UAV₂,...,UAV_k；定义第i架无人机的状态S_uavi包含当前时刻的速度矢量(v_uavi,x,v_uavi,y)和在作战环境中的坐标位置(p_uavi,x,p_uavi,y)；定义环境状态S_env包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置，其中第i个威胁区的坐标位置和威胁半径分别表示为(W_i,x,W_i,y)和r_i,y，第i个目标区域的坐标位置表示为(M_i,x,M_i,y)；k架无人机从起点出发，绕过作战环境中的威胁区，最终要分别到达k个目标区域；

步骤3-1：建立无人机的状态空间

每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态，无人机UAV₁在t时刻的状态定义为：

S_t,uav1＝(S_uav1,S_uav2,...,S_uavk,S_env) (4)

进一步第i架无人机在t时刻的状态表示为：

无人机在各个时刻的状态构成无人机的状态空间；

步骤3-2：建立无人机的动作空间

t时刻将无人机的状态输入无人机的控制网络，控制网络输出无人机动作策略，表示为无人机瞬时速度(v_x,v_y)，v_x表示无人机沿x轴方向的速度，v_y表示无人机沿y轴方向的速度；瞬时速度的大小限制在指定范围内，若超过指定范围的上限将瞬时速度设定为上限，若低于指定范围的下限将瞬时速度设定为下限；瞬时速度的方向受到无人机的转弯半径约束模型的约束，如果不符合转弯半径约束模型，则控制网络重新输出瞬时速度；

无人机经过△t时刻后的位置更新为

式中，

和

分别表示无人机在t时刻的位置；

无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间；

步骤3-3：建立无人机奖励函数

定义威胁奖励函数R_f，如下式：

式中，D_W为无人机与威胁区的距离；

设定碰撞奖励函数R_p，如下式：

式中，D_dij为第i架无人机与第j架无人机之间的距离，D_d为无人机之间的最小安全距离；

设定距离奖励函数R_r，如下式：

式中，d_min是每个目标区域距最近无人机的距离之和，(p_uavi,x,p_uavi,y)表示第i架无人机在作战环境中的坐标位置，(M_j,x,M_j,y)表示第j个目标区域在作战环境中的坐标位置；

最终无人机奖励函数设定为：

R_i＝R_f+R_p+R_r (10)

式中，R_i表示第i架无人机的奖励值；

步骤4：构建与训练基于MADDPG算法的多无人机任务决策网络模型；

步骤4-1：加载步骤1中创建的任一无人机作战环境；

步骤4-2：无人机随机产生动作，无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化，从而无人机作战环境发生改变；

步骤4-3：根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值，从而得到无人机状态转移数据；无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态；无人机状态转移数据表示为<s_i,a_i,r_i,s_i+1>，其中s_i表示无人机当前时刻的状态，a_i表示当前时刻无人机动作策略，r_i当前时刻无人机奖励值，s_i+1表示无人机下一时刻的状态；

步骤4-4：每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间，每一架无人机的状态转移数据存储空间定义为一个经验池，经验池中的每个状态转移数据称为一个经验；

步骤4-5：采用基于MADDPG算法进行无人机控制网络更新；

每架无人机的控制网络包含两个网络：Actor网络和Critic网络；Actor网络和Critic网络也都具备双网络结构，拥有各自的target网络和eval网络；

步骤4-5-1：随机从每个无人机的经验池中取出不同时刻的H个经验，组成经验包<S,A,R,S′>，其中S和S′分别是经验包中的无人机当前时刻状态集合和下一时刻状态集合，A是抽取的经验包中当前时刻无人机动作策略集合，R是抽取的经验包中当前时刻无人机奖励值集合，下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到；

步骤4-5-2：将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中，得到每一架无人机对下一时刻估计的目标Q值；

步骤4-5-3：定义Critic网络的损失函数为：

其中，θ^Q是Critic网络中eval网络的权重，N表示训练时抽取经验数；Q(s_i,a_i|θ^Q)表示以s_i和a_i为输入时，Critic网络中eval网络的输出Q值；

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′) (12)

式中，γ是折扣因子，θ^Q′是Critic网络中target网络的权重，θ^μ′是Actor网络中target网络的权重，μ′表示Actor网络中target网络的策略；μ′(s_i+1|θ^μ′)表示以s_i+1为输入时，Actor网络中target网络的输出；Q′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)表示以s_i+1和μ′(s_i+1|θ^μ′)为输入时，Critic网络中target网络的输出；

以y_i为训练标签，通过back-propagation算法更新Actor网络中eval网络权重；

步骤4-5-4：采用off-policy方法进行训练和更新Critic网络中eval网络的权重；

步骤4-5-5：每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重；

步骤4-6：重复步骤4-2到步骤4-5，当达到设定的训练次数时停止训练；

步骤4-7：从步骤1中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载，重复步骤4-1到4-6，直到加载完G个作战环境后结束训练；

步骤5：使用训练完成的多无人机任务决策网络模型实现多架无人机在动态作战环境下面对多目标时的任务决策。

由于采用了本发明提出的一种基于MADDPG的多无人机任务决策方法，取得了以下有益效果：

1.本发明提供的基于MADDPG的多无人机任务决策方法，在未知的作战环境下，也可以高效的进行决策，实现无人机的任务，克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷。

2.深度强化学习中的MADDPG算法可以解决复杂环境中的多无人机问题，当未探测或者突发状况出现时，也可以自我进行快速有效的自我决策，解决问题，具有一定的智能化水平。

3.MADDPG算法具有双网络结构和经验池回放机制，相比传统的深度强化学习算法，具有更高的学习效率和更快的收敛速度，可以保证在飞行过程中，能够快速及时的得到准确的决策方案。

4.本发明深度强化学习与多无人机系统联系在一起，在日益复杂化的战场环境下，可以增加无人机群的智能化水平，提高机群的作战能力，大大保障了无人机群在未知作战环境中的生存能力，具有很好的发展前景。

附图说明

图1是本发明多无人机任务决策模型的实现步骤示意图。

图2是本发明雷达威胁示意图

图3是本发明导弹威胁示意图。

图4是本发明无人机最小转弯半径示意图。

图5是本发明多无人机任务决策网络模型构建流程图。

图6是本发明Critic网络和Actor网络结构示意图。

图7是本发明基于MADDPG的多无人机任务决策网络模型图。

图8是本发明无人机网络结构示意图。

图9是本发明无人机的经验池结构示意图。

图10是本发明的多无人机任务决策方法测试结果轨迹图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明提出了一种基于MADDPG的多无人机任务决策方法，包括以下步骤：

步骤1：设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机；随机选择一个或多个威胁区,随机选择一个或多个目标区域，随机选择一架或多架无人机，将选择的威胁区、目标区域、无人机进行组合，构建一个无人机作战环境；重复上述随机选择和组合过程，构建G个无人机作战环境；无人机作战环境采用二维平面环境，无人机飞行的航迹是连续的，无人机需要绕过威胁区域，最终达到目标区域。

作战环境模型采用连续表示的环境模型。在连续表示的环境中，无人机所处的环境是连续的，飞行的航迹也是连续的，可以将环境中的信息映射为坐标信息，用坐标的变化来反应环境的动态改变，通常可以建立二维或三维空间的环境模型。连续表示模型中无人机和目标的位置可以用坐标点来表示，并且威胁区等可以建立函数关系用数学模型来表示。

雷达威胁主要是指无人机在敌方空域飞行时，能够探测并且对无人机造成影响的防空雷达。通常假设敌方防空雷达的探测范围是360度，如图2所示。在二维空间环境中等效为以雷达位置为中心，雷达水平方向探测最远距离为半径的圆周，建立雷达威胁模型为：

导弹威胁主要是指可以影响无人机正常飞行的防空导弹。和雷达威胁相同，导弹威胁在二维空间环境中也可以等效为圆周，如图3所示。但是不同的是，无人机与导弹的距离越近越容易被击中，无人机的杀伤概率与无人机和导弹的距离成一定比例，建立导弹威胁模型为：

无人机在飞行过程中，由于惯性原因无法毫无约束的进行飞行转弯，在进行转弯飞行时会有一个最小转弯半径。如果航迹决策中的转弯半径小于无人机的最小转弯半径，则实际环境中无人机就无法完成此动作决策。如图4所示，建立转弯半径约束模型为：

R_uav≥R_min (3)

步骤3：设定作战环境中共有k架无人机、m个威胁区和k个目标区域；k架无人机分别为：UAV₁,UAV₂,...,UAV_k；定义第i架无人机的状态S_uavi包含当前时刻的速度矢量(v_uavi,x,v_uavi,y)和在作战环境中的坐标位置(p_uavi,x,p_uavi,y)；定义环境状态S_env包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置，其中第i个威胁区的坐标位置和威胁半径分别表示为(W_i,x,W_i,y)和r_i,y，第i个目标区域的坐标位置表示为(M_i,x,M_i,y)；k架无人机从起点出发，绕过环境中的威胁区，最终要分别到达k个目标区域；在k架无人机向目标飞行的过程中，无人机除了需要避开威胁区域外，还要注意避免航线与其它无人机产生重合而导致碰撞，因此单独无人机机动动作的选择不再具有完全独立性，与其它飞机具有一定的相关性，同时对于k个无人机各自对应的目标也没有明确指定，需要无人机之间相互协作共同决策，保证每个目标都有无人机前往，从而协同完成任务。

步骤3-1：建立无人机的状态空间

S_t,uav1＝(S_uav1,S_uav2,...,S_uavk,S_env) (4)

进一步第i架无人机在t时刻的状态表示为：

无人机在各个时刻的状态构成无人机的状态空间；

步骤3-2：建立无人机的动作空间

无人机经过△t时刻后的位置更新为

式中，

和

分别表示无人机在t时刻的位置；

步骤3-3：建立无人机奖励函数

针对躲避威胁区设定一个威胁奖励，当无人机进入威胁区后，会被给予一个负奖励，定义威胁奖励函数R_f，如下式：

式中，D_W为无人机与威胁区的距离；

在无人机的飞行过程中，每一架无人机都应和其它无人机保持安全距离，一旦无人机的位置过近，就会互相产生飞行威胁甚至发生碰撞，所以为了避免无人机发生碰撞，设定碰撞奖励函数R_p，当无人机间的距离小于安全距离时，就会给予其负奖励。碰撞奖励R_p如下式：

为了在开始训练时，能够准确的引导无人机选择动作策略，并且让无人机每一步都拥有一个奖励，在这里设计了一个距离奖励R_r，计算每一时刻，无人机与目标的最近距离，以距离的负值作为奖励值，距离越近，奖励值越大。

设定距离奖励函数R_r，如下式：

式中，d_min是每个目标区域距最近无人机的距离之和，(p_uavi,x,p_uavi,y)表示第i架无人机在环境中的坐标位置，(M_j,x,M_j,y)表示第j个目标区域在环境中的坐标位置；

最终无人机奖励函数设定为：

R_i＝R_f+R_p+R_r (10)

式中，R_i表示第i架无人机的奖励值；

步骤4：如图5和图7所示，构建与训练基于MADDPG算法的多无人机任务决策网络模型；

步骤4-1：加载步骤1中创建的任一无人机作战环境；

步骤4-4：每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间，每一架无人机的状态转移数据存储空间定义为一个经验池，如图9所示，经验池中的每个状态转移数据称为一个经验；

步骤4-5：基于MADDPG算法进行无人机控制网络更新；

如图8所示，每架无人机的控制网络包含两个网络：Actor网络和Critic网络；Actor网络和Critic网络也都具备双网络结构，拥有各自的target网络和eval网络；

步骤4-5-3：实际Q值通过使用Critic网络得到，再利用时间差分法来更新Critic网络，用Q值的策略梯度来更新Actor网络，定义Critic网络的损失函数为：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′) (12)

步骤4-5-4：计算Actor网络的策略梯度时，采用off-policy方法进行训练和更新Critic网络中eval网络的权重；

策略梯度如下式：

当s根据ρ^β分布时，策略梯度是

的期望值；使用蒙特卡罗算法估算

的值；其中，θ^μ是Actor网络中eval网络的权重，μ(s|θ^μ)表示Actor网络中eval网络在状态s时的输出动作，Q(s,a|θ^Q)表示Critic网络中eval网络在输入状态s、动作a时的输出价值，ρ^β表示策略，

表示对a求梯度，

表示对θ^μ求梯度；

步骤4-5-5：每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重；更新过程如下式：

其中τ表示soft-update过程系数；

所有无人机依照相同的方法来更新自身的网络，只是每一个无人机的输入有所差别，而在其它方面的更新流程相同；

步骤4-7：从步骤1中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载，重复步骤4-1到步骤4-6，直到加载完G个作战环境后结束训练；

上述步骤中所述加载无人机作战环境的过程是在无人机与环境进行交互的前提下，当无人机面对新的作战环境时，将无人机之前在某一种或者多种环境上已经学好的模型参数迁移到新的环境当中。

实施例：

本实例中最终网络结构设计为：Actor网络结构为[56；56；2]的全连接神经网络，Critic网络的结构是[118；78；36；1]的全连接神经网络，两个神经网络隐藏层都采用RELU函数作为激活函数，如图6所示。在训练时的mini-batch大小为1024，最大学习步长(maxepisode)为30000，辅助网络的更新率τ＝0.01，Critic网络的学习率为0.01，Actor网络的学习率为0.001，两个网络都采用了AdamOptimizer优化器进行学习，经验池的大小为1000000，一旦经验池的数据超过最大数值，将会丢掉原始的经验数据，所构建的多无人机任务决策网络性能达到最优。

本发明在二维空间的连续环境模型中指定区域初始化3架无人机的位置，同时在环境中设置防空导弹等威胁源的位置和3个目标的位置。3架无人机从起点出发，绕过环境中的威胁区域，最终要分别到达3个目标区域。在3架无人机向目标飞行的过程中，无人机除了需要避开威胁区域外，还要注意避免航线与其它无人机产生重合而导致碰撞。

多无人机任务决策结果如图10所示，图中正方形阴影区域为威胁区，圆形区域为目标区域，可以看出3架无人机飞行轨迹全都进入了目标区域，而且躲避了所有的威胁区。结果表明，使用基于MADDPG所构建的多无人机任务决策网络可以快速的收敛并且保证较高的精度，可以满足作战时多无人机任务决策的要求。