CN111859541B

CN111859541B - 一种基于迁移学习改进的pmaddpg多无人机任务决策方法

Info

Publication number: CN111859541B
Application number: CN202010691509.0A
Authority: CN
Inventors: 李波; 甘志刚; 梁诗阳; 高晓光; 万开方; 高佩忻
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-10-14
Anticipated expiration: 2040-07-17
Also published as: CN111859541A

Abstract

本发明公开了一种基于迁移学习改进的PMADDPG多无人机任务决策方法。首先在多无人机实际作战环境背景下，针对环境中的防空导弹、雷达等威胁进行合理的数学建模，然后创建多个不同的二维作战环境模型，并且设计约束条件，依次对多个作战环境进行学习和训练，进而得到最终的多无人机任务分配模型。本发明方法克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷，在未知的作战环境下，也可以能够高效的进行决策，实现无人机的任务，大大保障了无人机群在未知作战环境中的生存能力。

Description

一种基于迁移学习改进的PMADDPG多无人机任务决策方法

技术领域

本发明属于飞行控制领域，具体涉及一种多无人机任务决策的方法。

背景技术

对于各国军方来说，无人机将会成为未来战场必不可少的武器之一。无人机很可能成为多个作战平台的攻击和反击对象，成为最普遍和最致命的空战“利剑”，多无人机的协同作战方式将会成为未来的主流发展趋势。目前，国内外军事院校及学者对多无人机任务决策问题的研究十分关注，成果也有很多。但是，多无人机任务决策的研究仍存在不少问题。比如在多无人机协同搜索、跟踪、任务分配、航迹规划、编队控制等问题中，一方面，大多研究的无人机模型建立基本都未考虑实际战场需求，仅仅在静态的无人机任务背景下进行单无人机的研究，并且使用的优化算法还是一些传统的优化算法。这些传统算法大多都基于单目标函数的优化问题而提出，并且大部分都是基于理论研究，适用于静态作战环境，未考虑实际空战中的各种动态变化和约束条件。另一方面，虽然有些无人机研究成果引入了深度强化学习的方法，但是，现有的深度强化学习算法在处理多无人机任务决策相关问题时耗时较长，对于实时性的需求还有待提高。并且在算法的泛化能力还远远不够，只能在训练时所处的环境中有很好的表现，在全新环境中的表现还远远不够。

发明内容

为了克服现有技术的不足，本发明提供一种基于迁移学习改进的PMADDPG多无人机任务决策方法。首先在多无人机实际作战环境背景下，针对环境中的防空导弹、雷达等威胁进行合理的数学建模，然后创建多个不同的二维作战环境模型，并且设计约束条件，依次对多个作战环境进行学习和训练，进而得到最终的多无人机任务分配模型。本发明方法克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷，在未知的作战环境下，也可以能够高效的进行决策，实现无人机的任务，大大保障了无人机群在未知作战环境中的生存能力。

为达到上述目的，本发明提出了一种基于迁移学习改进的PMADDPG多无人机任务决策方法，包括以下步骤：

步骤1：建立雷达威胁模型、导弹威胁模型和转弯半径约束模型

建立雷达威胁模型为：

其中，R_max为雷达在水平方向上最远的探测距离，U_R是无人机当前位置与雷达位置的距离；

建立导弹威胁模型为：

其中，U_M是无人机当前位置与导弹位置的距离，d_{M max}为导弹所能攻击的最远距离，d_{M min}为导弹的不可逃逸距离，一旦无人机与导弹的距离小于d_{M min}，则无人机一定会被击中；

建立转弯半径约束模型为：

R_uav≥R_min (3)

其中,R_min为无人机的最小转弯半径，R_uav为无人机的实际转弯半径；

步骤2：设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机；随机选择一个或多个威胁区,随机选择一个或多个目标区域，随机选择一架或多架无人机，将选择的威胁区、目标区域、无人机进行组合，构建一个无人机作战环境；重复上述随机选择和组合过程，构建G个无人机作战环境；

步骤3：设定作战环境中共有k架无人机、m个威胁区和k个目标区域；k架无人机分别为：UAV₁，UAV₂，...，UAV_k；定义第i架无人机的状态S_uavi包含当前时刻的速度矢量(v_uavi,x，v_uavi,y)和在作战环境中的坐标位置(p_uavi,x，p_uavi,y)；定义环境状态S_env包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置，其中第i个威胁区的坐标位置和威胁半径分别表示为(W_i，x，W_i，y)和r_i，y，第i个目标区域的坐标位置表示为(M_i，x，M_i，y)；k架无人机从起点出发，绕过作战环境中的威胁区，最终要分别到达k个目标区域；

步骤3-1：建立无人机的状态空间

每一架无人机的状态包括了自身的状态、其它无人机的状态和环境状态，无人机UAV₁在t时刻的状态定义为：

S_t，uav1＝(S_uav1，S_uav2，...，S_uavk，S_env) (4)

进一步第i架无人机在t时刻的状态表示为：

无人机在各个时刻的状态构成无人机的状态空间；

步骤3-2：建立无人机的动作空间

t时刻将无人机的状态输入无人机的控制网络，控制网络输出无人机动作策略，表示为无人机瞬时速度(v_x，v_y)，v_x表示无人机沿x轴方向的速度，v_y表示无人机沿y轴方向的速度；瞬时速度的大小限制在指定范围内，若超过指定范围的上限将瞬时速度设定为上限，若低于指定范围的下限将瞬时速度设定为下限；瞬时速度的方向受到无人机的转弯半径约束模型的约束，如果不符合转弯半径约束模型，则控制网络重新输出瞬时速度；

无人机经过Δt时刻后的位置更新为

式中，

和

分别表示无人机在t时刻的位置；

无人机在不同时刻的动作策略构成了二维向量表示的无人机动作空间；

步骤3-3：建立无人机奖励函数

定义威胁奖励函数R_f，如下式：

式中，D_W为无人机与威胁区的距离；

设定碰撞奖励函数R_p，如下式：

式中，D_dij为第i架无人机与第j架无人机之间的距离，D_d为无人机之间的最小安全距离；

设定距离奖励函数R_r，如下式：

式中，d_min是每个目标区域距最近无人机的距离之和，(p_uavi,x,p_uavi,y)表示第i架无人机在作战环境中的坐标位置，(M_j，x，M_j，y)表示第j个目标区域在作战环境中的坐标位置；

最终无人机奖励函数设定为：

R_i＝R_f+R_p+R_r (10)

式中，R_i表示第i架无人机的奖励值；

步骤4：构建与训练采用迁移学习的多无人机任务决策网络模型；

步骤4-1：加载步骤2中创建的任一无人机作战环境；

步骤4-2：无人机随机产生动作，无人机与威胁区、无人机与目标区域及无人机之间的相对位置发生变化，从而无人机作战环境发生改变；

步骤4-3：根据步骤3-3的无人机奖励函数(10)计算无人机随机产生动作后得到的奖励值，从而得到无人机状态转移数据；无人机状态转移数据包括无人机当前时刻状态、无人机动作策略、无人机奖励值、无人机下一时刻的状态；无人机状态转移数据表示为<s_i,a_i,r_i,s_i+1>，其中s_i表示无人机当前时刻的状态，a_i表示当前时刻无人机动作策略，r_i当前时刻无人机奖励值，s_i+1表示无人机下一时刻的状态；

步骤4-4：每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间，每一架无人机的状态转移数据存储空间定义为一个经验池，经验池中的每个状态转移数据称为一个经验；

步骤4-5：采用优先经验回放的经验池进行无人机控制网络更新；

每架无人机的控制网络包含两个网络：Actor网络和Critic网络；Actor网络和Critic网络也都具备双网络结构，拥有各自的target网络和eval网络；

步骤4-5-1：初始化网络参数，创建经验池B和经验池M，从每架无人机的经验池中取出不同时刻的H个经验放入经验池B；

步骤4-5-2：计算经验池B中每个经验的优先级P：

L(i)＝P_s-αT (12)

其中，L(i)表示i时刻Critic网络损失，C为时刻总数，T为抽取经验次数，P_s为经验顺序，α为经验抽取次数对经验优先级影响的权重，α∈(0，1)；β为优先级的放大次数，L^β(i)表示i时刻经过优先放大的Critic网络损失，β∈(0，1)；

步骤4-5-3：随机抽取经验池B中的经验，如果抽取的经验优先级P小于等于预设的优先级阈值，则将该经验放入经验池M中；重复上述抽取过程，直到经验池M被装满；

步骤4-5-4：从经验池M中随机抽取若干个经验，组成经验包<S,A,R,S′>，其中S和S′分别是抽取的若干个经验中的无人机当前时刻状态集合和下一时刻状态集合，A是抽取的若干个经验中当前时刻无人机动作策略集合，R是抽取的若干个经验中当前时刻无人机奖励值集合，下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到；

步骤4-5-5：将S′输入到每一架无人机的Actor网络中得到下一时刻所有无人机动作策略集合A′,随后将A′和S′一起输入到每一架无人机的Critic网络中，得到每一架无人机对下一时刻估计的目标Q值；

步骤4-5-6：定义Critic网络的损失函数为：

其中，θ^Q是Critic网络中eval网络的权重，N表示训练时抽取经验数；Q(s_i，a_i|θ^Q)表示以s_i和a_i为输入时，Critic网络中eval网络的输出Q值；

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′ )(14)

式中，γ是折扣因子，θ^Q′是Critic网络中target网络的权重，θ^μ′是Actor网络中target网络的权重，μ′表示Actor网络中target网络的策略；μ′(s_i+1|θ^μ′)表示以s_i+1为输入时，Actor网络中target网络的输出；Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)表示以s_i+1和μ′(s_i+1|θ^μ′)为输入时，Critic网络中target网络的输出；

以y_i为训练标签，通过back-propagation算法更新Actor网络中eval网络权重；

步骤4-5-7：采用off-policy方法进行训练和更新Critic网络中eval网络的权重；

步骤4-5-8：每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重；

步骤4-6：重复步骤4-2到步骤4-5，当达到设定的训练次数时停止训练；

步骤4-7：从步骤2中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载，重复步骤4-1到4-6，直到加载完G个作战环境后结束训练；

步骤5：使用训练完成的多无人机任务决策网络模型实现多架无人机在动态作战环境下面对多目标时的任务决策。

由于采用了本发明提出的一种基于迁移学习改进的PMADDPG多无人机任务决策方法，取得了以下有益效果：

1.本发明提供的基于PMADDPG的多无人机任务决策方法，在未知的作战环境下，也可以能够高效的进行决策，实现无人机的任务，克服了已有技术中只能在已知或静态作战环境下进行任务决策的缺陷。

2.PMADDPG算法引用了基于模型的迁移学习算法，将多种环境学习得到的模型参数迁移到其它多个环境学习的模型当中，加快学习的速度和提高了网络的表达能力，提高了最终模型的泛化性能，并且随着学习环境数量的增加，模型的泛化能力和学习速度也会进一步提升。

3.PMADDPG算法改进了经验池存储机制，采用优先回放经验算法，通过建立两个经验池进行筛选，获得经验分布更均匀更合理的经验池，为网络训练更新提供更有价值的经验，从而加快了模型的训练速度和增强了模型的稳定性。

4.本发明深度强化学习与多无人机系统联系在一起，在日益复杂化的战场环境下，可以增加无人机群的智能化水平，提高机群的作战能力，大大保障了无人机群在未知作战环境中的生存能力，具有很好的发展前景。

附图说明

图1是本发明雷达威胁示意图。

图2是本发明导弹威胁示意图。

图3是本发明无人机最小转弯半径示意图。

图4是本发明无人机的经验池结构示意图。

图5是本发明无人机作战环境模型加载流程图。

图6是本发明无人机网络结构示意图。

图7是本发明Critic网络和Actor网络结构示意图。

图8是本发明方法测试结果轨迹图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种基于迁移学习改进的PMADDPG多无人机任务决策方法，包括以下步骤：

雷达威胁主要是指无人机在敌方空域飞行时，能够探测并且对无人机造成影响的防空雷达。通常假设敌方防空雷达的探测范围是360度，如图1所示。在二维空间环境中等效为以雷达位置为中心，雷达水平方向探测最远距离为半径的圆周，建立雷达威胁模型为：

导弹威胁主要是指可以影响无人机正常飞行的防空导弹。和雷达威胁相同，导弹威胁在二维空间环境中也可以等效为圆周，如图2所示。但是不同的是，无人机与导弹的距离越近越容易被击中，无人机的杀伤概率与无人机和导弹的距离成一定比例，建立导弹威胁模型为：

无人机在飞行过程中，由于惯性原因无法毫无约束的进行飞行转弯，在进行转弯飞行时会有一个最小转弯半径。如果航迹决策中的转弯半径小于无人机的最小转弯半径，则实际环境中无人机就无法完成此动作决策。如图3所示，建立转弯半径约束模型为：

R_uav≥R_min (3)

步骤2：设定作战环境中存在若干个威胁区、若干个目标区域、若干架无人机；随机选择一个或多个威胁区,随机选择一个或多个目标区域，随机选择一架或多架无人机，将选择的威胁区、目标区域、无人机进行组合，构建一个无人机作战环境；重复上述随机选择和组合过程，构建G个无人机作战环境；无人机作战环境采用二维平面环境，无人机飞行的航迹是连续的，无人机需要绕过威胁区域，最终达到目标区域。

作战环境模型采用连续表示的环境模型。在连续表示的环境中，无人机所处的环境是连续的，飞行的航迹也是连续的，可以将环境中的信息映射为坐标信息，用坐标的变化来反应环境的动态改变，通常可以建立二维或三维空间的环境模型。连续表示模型中无人机和目标的位置可以用坐标点来表示，并且威胁区等可以建立函数关系用数学模型来表示。

步骤3：设定作战环境中共有k架无人机、m个威胁区和k个目标区域；k架无人机分别为：UAV₁，UAV₂，...，UAV_k；定义第i架无人机的状态S_uavi包含当前时刻的速度矢量(v_uavi,x，v_uavi,y)和在作战环境中的坐标位置(p_uavi,x，p_uavi,y)；定义环境状态S_env包含m个威胁区的坐标位置及威胁半径和k个目标区域的坐标位置，其中第i个威胁区的坐标位置和威胁半径分别表示为(W_i，x，W_i，y)和r_i，y，第i个目标区域的坐标位置表示为(M_i，x，M_i，y)；k架无人机从起点出发，绕过作战环境中的威胁区，最终要分别到达k个目标区域；在k架无人机向目标飞行的过程中，无人机除了需要避开威胁区域外，还要注意避免航线与其它无人机产生重合而导致碰撞，因此单独无人机机动动作的选择不再具有完全独立性，与其它飞机具有一定的相关性，同时对于k个无人机各自对应的目标也没有明确指定，需要无人机之间相互协作共同决策，保证每个目标都有无人机前往，从而协同完成任务。

步骤3-1：建立无人机的状态空间

S_t，uav1＝(S_uav1，S_uav2，...，S_uavk，S_env) (4)

进一步第i架无人机在t时刻的状态表示为：

无人机在各个时刻的状态构成无人机的状态空间；

步骤3-2：建立无人机的动作空间

无人机经过Δt时刻后的位置更新为

式中，

和

分别表示无人机在t时刻的位置；

步骤3-3：建立无人机奖励函数

针对躲避威胁区设定一个威胁奖励，当无人机进入威胁区后，会被给予一个负奖励，定义威胁奖励函数R_f，如下式：

式中，D_W为无人机与威胁区的距离；

在无人机的飞行过程中，每一架无人机都应和其它无人机保持安全距离，一旦无人机的位置过近，就会互相产生飞行威胁甚至发生碰撞，所以为了避免无人机发生碰撞，设定碰撞奖励函数R_p，当无人机间的距离小于安全距离时，就会给予其负奖励。碰撞奖励R_p如下式：

为了在开始训练时，能够准确的引导无人机选择动作策略，并且让无人机每一步都拥有一个奖励，在这里设计了一个距离奖励R_r，计算每一时刻，无人机与目标的最近距离，以距离的负值作为奖励值，距离越近，奖励值越大。

设定距离奖励函数R_r，如下式：

最终无人机奖励函数设定为：

R_i＝R_f+R_p+R_r (10)

式中，R_i表示第i架无人机的奖励值；

步骤4：如图5所示，构建与训练采用迁移学习的多无人机任务决策网络模型；

步骤4-1：加载步骤2中创建的任一无人机作战环境；

步骤4-4：每架无人机在每一时刻都不断地产生状态转移数据并存储在自身的数据存储空间，每一架无人机的状态转移数据存储空间定义为一个经验池，如图4所示，经验池中的每个状态转移数据称为一个经验；经验池是一种经验回放缓存结构，用来专门贮存学习的经验，回放缓存中仅储存固定数量的最近经验，当有新的信息输入时，需要删除旧的信息；

步骤4-5：采用优先经验回放的经验池进行无人机控制网络更新

如图6所示，每架无人机的控制网络包含两个网络：Actor网络和Critic网络；Actor网络和Critic网络也都具备双网络结构，拥有各自的target网络和eval网络；

步骤4-5-2：计算经验池B中每个经验的优先级P：

L(i)＝P_s-αT (12)

其中，L(i)表示i时刻Critic网络损失，C为时刻总数，T为抽取经验次数，P_s为经过排序后的经验顺序，α为经验抽取次数对经验优先级影响的权重，α值越大，说明抽选次数对经验优先级的影响越大，α∈(0，1)；β为优先级的放大次数，L^β(i)表示i时刻经过优先放大的Critic网络损失，β∈(0，1)；

步骤4-5-6：实际Q值通过使用Critic网络得到，再利用时间差分法来更新Critic网络，用Q值的策略梯度来更新Actor网络，定义Critic网络的损失函数为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′) (14)

步骤4-5-7：计算Actor网络的策略梯度时，采用off-policy方法进行训练和更新Critic网络中eval网络的权重；

策略梯度如下式：

当状态s根据ρ^β分布时，策略梯度是

的期望值；使用蒙特卡罗算法估算

的值；其中，θ^μ是Actor网络中eval网络的权重，μ(s|θ^μ)表示Actor网络中eval网络在状态s时的输出动作，Q(s，a|θ^Q)表示Critic网络中eval网络在输入状态s、动作a时的输出价值，ρ^β表示策略，

表示对a求梯度，

表示对θ^μ求梯度；

步骤4-5-8：每间隔固定时间通过soft-update算法更新Critic网络中target网络和Actor网络中target网络的权重；更新过程如下式：

其中τ表示soft-update过程系数；

所有无人机依照相同的方法来更新自身的网络，只是每一个无人机的输入有所差别，而在其它方面的更新流程相同；

步骤4-7：从步骤2中创建的G个无人机作战环境中选取未训练的无人机作战环境进行加载，重复步骤4-1到步骤4-6，直到加载完G个作战环境后结束训练；

上述步骤中所述加载无人机作战环境的过程是在无人机与环境进行交互的前提下，当无人机面对新的作战环境时，将无人机之前在某一种或者多种环境上已经学好的模型参数迁移到新的环境当中。

实施例：

本实施例主要设计了PMADDPG算法，采用了确定性动作策略。针对PMADDPG算法，每进行一次训练，就输入新的环境，进行一次迁移学习，并且经验池B的大小为2000000，经验池M的大小为1000000。Actor网络结构为[56；56；2]的全连接神经网络，Critic网络的结构是[118；78；36；1]的全连接神经网络，如图7所示，具体网络参数设计如表1所示：

表1 具体网络参数

多无人机任务决策结果如图8所示，图中正方形阴影区域为威胁区，圆形区域为目标区域，可以看出3架无人机飞行轨迹全都进入了目标区域，而且躲避了所有的威胁区。结果表明，使用基于PMADDPG所构建的多无人机任务决策网络可以快速的收敛并且保证较高的精度，可以满足作战时不同环境多无人机任务决策的要求。可以看出，本发明提出的PMADDPG算法在新环境下具有更强的泛化能力。

Claims

1.一种基于迁移学习改进的PMADDPG多无人机任务决策方法，其特征在于，包括以下步骤：

建立雷达威胁模型为：

建立导弹威胁模型为：

其中，U_M是无人机当前位置与导弹位置的距离，d_Mmax为导弹所能攻击的最远距离，d_Mmin为导弹的不可逃逸距离，一旦无人机与导弹的距离小于d_Mmin，则无人机一定会被击中；

建立转弯半径约束模型为：

R_uav≥R_min (3)

步骤3-1：建立无人机的状态空间

S_t，uav1＝(S_uav1，S_uav2，...，S_uavk，S_env) (4)

进一步第i架无人机在t时刻的状态表示为：

无人机在各个时刻的状态构成无人机的状态空间；

步骤3-2：建立无人机的动作空间

无人机经过Δt时刻后的位置更新为

式中，

和

分别表示无人机在t时刻的位置；

步骤3-3：建立无人机奖励函数

定义威胁奖励函数R_f，如下式：

式中，D_W为无人机与威胁区的距离；

设定碰撞奖励函数R_p，如下式：

设定距离奖励函数R_r，如下式：

最终无人机奖励函数设定为：

R_i＝R_f+R_p+R_r (10)

式中，R_i表示第i架无人机的奖励值；

步骤4-1：加载步骤2中创建的任一无人机作战环境；

步骤4-5-2：计算经验池B中每个经验的优先级P：

L(i)＝P_s-αT (12)

步骤4-5-4：从经验池M中随机抽取若干个经验，组成经验包＜S,A,R,S′>，其中S和S′分别是抽取的若干个经验中的无人机当前时刻状态集合和下一时刻状态集合，A是抽取的若干个经验中当前时刻无人机动作策略集合，R是抽取的若干个经验中当前时刻无人机奖励值集合，下一时刻状态集合S′由当前时刻状态集合S采取集合A中的动作策略得到；

步骤4-5-6：定义Critic网络的损失函数为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′) (14)