CN112507622B

CN112507622B - 一种基于强化学习的反无人机任务分配方法

Info

Publication number: CN112507622B
Application number: CN202011482387.0A
Authority: CN
Inventors: 黄魁华; 黄亭飞; 程光权; 黄金才; 冯旸赫; 陈超; 孙博良
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-21
Anticipated expiration: 2040-12-16
Also published as: CN112507622A

Abstract

针对当前反无人机系统单一拦截装备在暂时性的任务分配中无法有效压制无人机的问题，本发明公开了一种基于强化学习的反无人机任务分配方法，包括：对改进的DQN算法初始化，改进的DQN算法是指相对于DQN算法，采用当前时刻的状态来预测Q值；通过改进的DQN算法完成智能体的训练与优化，在智能体训练完备之后保存网络参数；将无人机状态信息S输入强化学习模块，通过强化学习输出次优解X，即初期的分配策略；通过进化算法对强化学习生成的次优解进行优化，生成目标分配的最优解；对所述的最优解进行解码，获得反无人机的任务分配方案。本发明中通过改进的DQN算法训练的智能体拦截表现更为精确，任务分配更加高效且适用。

Description

一种基于强化学习的反无人机任务分配方法

技术领域

本发明属于反无人机任务分配技术领域，涉及一种基于强化学习的反无人机任务分配方法。

背景技术

近年来，随着通信和工业等领域技术的不断发展与完善，无人机的数量正经历爆发性的增长，在军事和民用领域都得到了广泛应用。它们的身影广泛的出现在航空拍摄、农业生产、植物保护、快递运输、交通监控、灾难救援、测绘，电力巡检等诸多领域。其中，安全通信与攻击检测领域尤其引人重视，越来越多的研究人员开始将目光聚集在此。

目前，世界各国大多是将无人机视为传统飞行目标，普遍采用传统防空武器系统，以确保打击和防护效果的有效性。虽然这样做可以确保无人机防护的有效性，但是从成本对比上，这无疑是一种战略资源的浪费，是在使用“高射炮打蚊子”。另一方面，在设计之时，现有防空武器系统并不是用来针对无人机的，所以也不适合抵御小型、廉价无人机集群的飞行入侵。

针对低空无人机的诸多问题，一些行之有效的方法逐渐浮现。这些方法方法分为两类，一类以研发新的武器装备为主，但是现有的国内外反无人机装备只能在某些特定环境下具备反无人机的能力，并且能力也比较单，具有极大的局限性。另一类以研发新的反无人机系统为主，旨在通过合理利用现有的设备与理论期望实现对无人机的全方位压制。目前，可以系统有效进行无人机防护与压制的全要素反无人机系统尚未投入到实际应用当中。

发明内容

针对反无人机武器的射程较近且相对的防护区域较大，单个武器的防护区域有限，面对多个方向的来袭无人机，单个武器的可打击目标有限；同时，对单个方向的多架次无人机，在暂时性的分配中可使用的武器有限等问题，本发明提出一种采用多类型装备复合式反无人机方法。该方法中，使用动态的目标分配，更注重考虑分配时的随机事件，力求即时且完美的解决意外出现的目标。由于时间和随机事件的因素，如何针对不同类型拦截装备的属性和使用特点，进行高效的任务分配是问题的核心。

本发明中基于强化学习的反无人机任务分配方法，采用深度强化学习与进化算法相结合的方法来解决动态的任务分配问题。包括如下步骤：

步骤1，对改进的DQN(Deep Q Networks)算法初始化，所述改进的DQN 算法是指相对于DQN算法，采用当前时刻的状态来预测Q值；

步骤2，通过改进的DQN算法完成智能体的训练与优化，在智能体训练完备之后保存网络的参数；

步骤3，将无人机状态信息S输入强化学习模块，通过强化学习输出决策结果次优解X，即初期的分配策略，表示为拦截装备的状态；

步骤4，通过进化算法对强化学习生成的次优解进行优化，最终生成目标任务分配的最优解；

步骤5，对所述的最优解进行解码，获得反无人机的任务分配方案。

同时，本发明采用多智能体进行决策，智能体的数量与拦截装备的数量相同。单独采用一个智能体来决定分配问题的状态空间太过庞大，算法难以收敛，同时无法遍历状态空间，无法在合理时间内给出满意的结果。

在传统的DQN决策流程中，learning()函数的输入为(s_t,a_t,r_t,s_t+1),分别为当前状态，当前动作，当前奖励与下一时刻状态。该发明中，智能体获得的未来状态与现状的奖励关系并不密切，算法迭代的后期计算出的无人机下一状态一般为击毁，对于智能体的学习基本无用，因此采用当前时刻的状态来预测Q值，算法的记忆空间并不是常见的四元素模式，故Q值的更新公式不同，具体见公式 (1)。

其中Q_e(s_t,a_t)表示估值网络在当前时刻的状态与动作中输出的Q值；s_t为当前状态；a_t为当前动作；r为当前奖励；γ表示衰减系数，用来平衡当前与未来的收益；α为学习率，代表学习最优Q值选择行为的概率；Q_t(s_t,a_t)表示估值网络在目标时刻的状态与动作中输出的Q值。

与常用的求解算法相比，该发明的方法不仅可以动态的解决目标分配问题，还更易使用，求出的分配结果更加高效精准。

具体的，步骤1中对改进DQN算法初始化，分为三个部分：

1.1，初始化Q网络Q_e(s,a)参数

1.2，初始化目标网络Q_t(s,a)参数

1.3，初始化经验池D，容量为n；

智能体的训练与优化建模通过反无人机系统MDP的决策模型进行，模型训练过程中针对每个拦截设备采用一对一拦截的方式分别训练对应的智能体。该模型含4个要素，分别是状态、动作、策略和奖励，元组表示为(S,A,P,R)，其中，S表示无人机的状态，状态信息为(x,y)，表示无人机在网格化防区的位置； A表示智能体的动作，0表示静默，即不采取行动，1表示打击无人机；P表示状态之间的转移概率，R表示在状态S下采取不同控制动作A所能得到的即时奖赏。反无人机系统的MDP模型如图2所示：从防护区域输出的无人机状态S，经过转移概率P与武器动作A共同作用后，防护区域产生变化，无人机也随之进入新的状态S_t+1。

智能体训练过程中与环境交互的所有信息通过step()模块实现：其输入是动作a，输出是下一时刻状态s^’，当前动作的奖励r，是否终止训练done以及调试项info；step()模块主要包括三个部分：

2.11，获得系统下一时刻的状态

系统的状态主要是由无人机的位置组成，从防护区域的边界开始，模拟意外闯入预设区域的无人机，无人机在预设区域范围随机行动，有(0，1，2，3， 4)这5种基本动作，分别表示静止，往东移动，往西移动，往北移动，往南移动；

2.12，获得动作的奖励

智能体在打击无人机时，无人机在射程之内，武器动作为0，则奖励值为-1；武器动作为1，则奖励值为1；

无人机在射程之外，武器动作为0，则奖励值为1；武器动作为1，则奖励值为-1；

2.13，获得训练的终止信号

在无人机被成功击毁或者是无人机飞入预设区域跑道时，done＝True；此时结束训练；否则，done＝False，表示继续进行训练，直至达成终止条件。

具体的，步骤2中通过改进的DQN算法训练智能体包括如下步骤：

2.21，初始化状态s，选择训练的起点，状态s是从防护区边界坐标中随机抽取的；

2.22，选择动作a，智能体开始与环境进行交互；

2.23，环境根据动作a做出改变，状态s发生改变，done值发生变化，并且环境给予智能体一个奖励r；

2.24，将(s,a,r)放入经验池D中；检验经验池D是否储存完毕，若储存完毕则进行学习，否则继续储存。

2.25，从经验池中学习并判断是否达到终止条件，未达到终止条件，则根据公式(1)进行Q值更新；

2.26，采用如下公式作为损失函数更新网络；

2.27，进行状态S的更新；

2.28，每隔指定步数更新一次

是目标网络Q_t(s,a)的参数；

2.29，检测算法的终止状态与收敛情况；当达到终止条件时，算法此时优化的神经网络即为要输出的网络Q_e(s_t,a_t)。

将无人机状态输入基于DQN的强化学习决策模型之后，强化学习模块输出决策结果，决策结果可以看做传统数学优化中的X决策变量。此决策结果与传统优化过程中的次优解或差解相当，之后采用进化算法对次优解的决策变量矩阵进行优化得到优解。

强化学习模块的输出X为m*n阶的决策矩阵，m为来袭无人机的数量，n为武器的数量；矩阵的每一行数值都表示一个完整的决策，即若x_i,j为1，表示第j个武器打击无人机i；同时，x_i,j中的i可以看成第i个决策方案，进化算法是对多个方案进行优化。

采用进化算法的反无人机系统优化模型部分，对决策变量进行一对一打击的优化，因此进化的结果为产生多个打击策略，且每个策略的分配结果为系统可在一对一打击的情况下打击多个无人机。

具体的，步骤4通过进化算法对强化学习生成的次优解进行优化，最终生成目标分配的最优解分为如下步骤：

首先获得初始种群(X)并对初始种群编码，然后计算适应度，选择算子并进行交叉，判定是否进行变异，如判断值为0，则进行变异，如判断值为1，则重复上一步，从而得到新种群，最终种群进化完成，直到达到迭代次数，从而输出多个决策结果。

与现有技术相比，本发明方法训练的智能体可以用于解决反无人机的火力分配问题，与传统方法相比，不仅绕过复杂的约束和繁琐的求解过程，还可以随着状态的刷新继续生成动态的分配方案，且算法表现也非常优秀。与DQN和 double DQN相比，改进的DQN算法的收敛速度更快，收敛时间节省了近50％，并且算法鲁棒性也有了更好地提升；同时，算法所求解的质量也更高，所获得的奖励值提升了将近20％。

同时针对反无人机的问题，相对于国内外大多数的单一反无人机设备与方法，本文提出了复合式拦截的方法，综合了多个反无人机设备的优点，实现了对无人机的全方位防护与压制，为反无人机问题提供了借鉴意义。

附图说明

图1为本发明方法的整体流程示意图；

图2为本发明反无人机系统的MDP模型；

图3为具体实施方式中的反无人机火力部署。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明采用了仿真场景对算法的性能进行了测试。仿真场景参考国内的机场大小以及建筑环境，考虑到火力部署资源成本问题以及机场大小，采用了9 个拦截设备来进行部署，具体部署情况如图3所示。

机场的航班跑道是一个长4.8km，宽1.2km的矩形。因此，我们建立一个部署范围为3*9km的防区。其中，防区中的跑道范围不能部署拦截设备，考虑到拦截设备的反应时间以及二次打击间隔，还有无人机野外飞行速度的问题，我们将网格的长度设定为300m。

三种不同圆圈表示部署时的三种拦截设备，同时，三种拦截设备的数量相同，都是3个。虚线大圆圈表示激光拦截设备的防护边界，实线大圆圈表示无线电干扰设备的防护边界，小圆圈表示网式拦截设备的防护边界。其中，下方的小圆圈是两个重合的设备部署。图中的阴影部分为飞机跑道，机场西部环境较为复杂，为市内环境，防护规则与其它三面不同，不属于开阔地场景。

本发明采用深度强化学习与进化算法相结合的方法来解决动态的任务分配问题，整体流程如图1所示：首先，输入无人机的状态，在反无人机系统马尔科夫决策过程(MDP)的决策模型部分利用深度强化学习的决策机制进行初期的决策行为判定，输出次优解X，即在何种情况下可以使用哪种武器打击哪个无人机。这一过程也是对智能体进行训练的过程。其次，在反无人机系统优化模型部分使用进化算法对强化学习的决策策略进行优化，从而得出最终分配策略。同时，本发明采用多智能体进行决策，智能体的数量与拦截装备的数量相同。

包括如下步骤：

步骤1，对改进的DQN算法初始化，所述改进的DQN算法是指相对于DQN算法，采用当前时刻的状态来预测Q值；

步骤4，通过进化算法对强化学习生成的次优解进行优化，最终生成目标分配的最优解；

该实施例中Q值的更新公式为公式(1)。

具体的，步骤1对改进的DQN算法初始化，分为三个部分：

1.1，初始化Q网络Q_e(s,a)参数

1.2，初始化目标网络Q_t(s,a)参数

1.3，初始化经验池D，容量为n。

反无人机系统的MDP模型如图2所示：从防护区域输出的无人机状态S，经过转移概率P与武器动作A共同作用后，防护区域产生变化，无人机也随之进入新的状态S_t+1。

该实施例中智能体训练过程中与环境交互的所有信息通过step()模块实现：其输入是动作a，输出是下一时刻状态s’，当前动作的奖励r，是否终止训练done 以及调试项info；step()模块主要包括三个部分：

2.11，获得系统下一时刻的状态

系统的状态主要是由无人机的位置组成，从防护区域的边界开始，模拟意外闯入机场的无人机，无人机在机场范围随机行动，有(0，1，2，3，4)这5种基本动作，分别表示静止，往东移动，往西移动，往北移动，往南移动；

2.12，获得动作的奖励

2.13，获得训练的终止信号

系统在无人机被成功击毁或者是无人机飞入机场跑道时，done＝True；此时结束训练；否则，done＝False，表示系统继续进行训练，直至达成终止条件。

完成智能体的训练与优化分为以下步骤：

2.22，选择动作a，智能体始与环境进行交互；

2.26，采用如下公式作为损失函数更新网络；

2.27，进行状态S的更新；

2.28，每隔100步更新一次

是目标网络Q_t(s,a)的参数；

该实施例中在智能体训练完备之后保存网络的参数，然后将无人机状态信息S输入强化学习模块，通过强化学习输出决策结果，具体分为如下步骤：

3.1，模型每隔1s输入所搜索的状态s；

3.2，将状态s输入神经网络Q_e(s,a)，神经网络按照训练要求输出相应的动作；

3.3，输出代表智能体的神经网络决策结果。

该实施例中通过进化算法对强化学习生成的次优解进行优化，最终生成目标分配的最优解分为如下步骤：

在实验中假设有n架无人机从北，南和东三面闯入机场，它们飞入防护区的状态为(x₁,y₁)，(x₂,y₂)，...(x_n,y_n)。选取1种飞临情况进行模拟，计算相应的火力分配结果。设置反无人机系统的武器参数和DQN模型超参数如表1和表2所示。

表1反无人机系统的武器参数

表2 DQN模型超参数

该飞临情况中选取6个网格为无人机的进入节点，则有无人机飞临防护区域的坐标距离各个拦截设备的距离，进而得出无人机的可打击信息。实验中选择随机种子为0时所训练的模型，由此可得智能网络输出的初步分配结果，不同算法的表现如表4-表6所示。

表3初始化时的可打击信息

从表3中可以看出，飞临的6架无人机只有三架在可打击范围，并且对于无人机4，有两个火力资源可以对其进行打击。

表4改进的DQN方法输出的可打击信息

表5 DQN方法输出的可打击信息

表6 Double DQN方法输出的可打击信息

从表4～表6的分析可知，DQN算法训练的智能体虽然不会贻误战机，成功的打击了所有的可打击无人机，完成了反无人机任务，但是它也对射程之外的无人机进行打击，极大的浪费了火力资源；Double DQN算法训练的智能体与之相比虽然改善了火力资源浪费的问题，但忽略了某些射程之内的无人机，产生的危害比火力资源浪费还要严重；改进的DQN算法训练的智能体则完美的解决了这些问题，既没有发生浪费火力资源的过度打击的问题，也没有出现忽略射程之内无人机的现象。

将以上的火力分配矩阵输入进化算法模块，可以得到两个打击方案A和B，具体采用何种方案由指挥官决定。除在火力分配设备射程之外的无人机，其他无人机均有设备进行打击，并且对于目标T4有两个设备F7,F8可进行打击。本实施例提出的模型成功的在不贻误战机的情况下，节约了火力资源且可以提供多种任务分配方案。

在实验中，每次训练的智能体是9个火力资源中的一个。选择loss()函数的值与reward值两个指标来检测改进强化学习算法的收敛速度与解的质量。在 2000次迭代时，分别求出每个周期的loss()函数与reward的平均值。然后对所求的9组数据取均值，即对9个智能体的表现取均值，取20次独立重复实验的均值。可以分析出，DQN算法很不稳定，甚至在1800次epoch左右时开始发散，实验测定，算法在此时对某些特定的学习数据产生了过拟合；在1000次epoch 左右时，改进的DQN算法已经基本收敛；double DQN的收敛速度与改进的DQN 算法基本保持一致，但是收敛过程中的鲁棒性较差，不如改进的DQN算法，并且收敛性能也不如改进DQN算法。

综上所述，本发明中提出的改进的DQN算法与DQN和Double DQN算法相比，拥有更准确的拦截表现，更快的收敛速度，任务分配的性能表现更加优异。

Claims

1.一种基于强化学习的反无人机任务分配方法，其特征在于，采用强化学习与进化算法相结合的方法来解决动态的反无人机任务分配问题，包括如下步骤：

步骤5，对所述的最优解进行解码，获得反无人机的任务分配方案；

步骤2中所述的智能体的训练与优化通过反无人机系统MDP的决策模型进行；反无人机系统MDP的决策模型包含4个要素，分别是状态、动作、策略和奖励，元组表示为：(S,A,P,R)，其中，S表示无人机的状态，状态信息为(x,y)，表示无人机在网格化防区的位置；A表示智能体的动作，0表示静默，即不采取行动，1表示打击无人机；P表示状态之间的转移概率，R表示在状态S下采取不同控制动作A所能得到的即时奖赏；

步骤2中智能体训练过程中与环境交互的所有信息通过step()模块实现：其输入是动作a，输出是下一时刻状态s’，当前动作的奖励r，是否终止训练done以及调试项info；step()模块主要包括三个部分：

2.11，获得系统下一时刻的状态

系统的状态主要是由无人机的位置组成，从防护区域的边界开始，模拟意外闯入预设区域的无人机，无人机在预设区域范围随机行动，有(0，1，2，3，4)这5种基本动作，分别表示静止，往东移动，往西移动，往北移动，往南移动；

2.12，获得动作的奖励

2.13，获得训练的终止信号

在无人机被成功击毁或者是无人机飞入预设区域跑道时，done＝True；此时结束训练；否则，done＝False，表示继续进行训练，直至达成终止条件；

步骤2中所述的通过改进的DQN算法训练智能体具体包括如下步骤：

2.22，选择动作a，智能体开始与环境进行交互；

2.24，将(s,a,r)放入经验池D中；检验经验池D是否储存完毕，若储存完毕则进行学习，否则继续储存；

2.26，采用如下公式作为损失函数更新网络；

2.27，进行状态S的更新；

2.28，每隔指定步数更新一次

是目标网络Q_t(s,a)的参数；

2.根据权利要求1所述的基于强化学习的反无人机任务分配方法，其特征在于，所述智能体的数量与拦截装备的数量相同。

3.根据权利要求1或2中所述的基于强化学习的反无人机任务分配方法，其特征在于，步骤1中所述改进的DQN算法中Q值的公式如下：

4.根据权利要求3中所述的基于强化学习的反无人机任务分配方法，其特征在于，步骤1中所述的对改进的DQN算法初始化包括如下步骤：

1.1，初始化Q网络Q_e(s,a)参数

1.2，初始化目标网络Q_t(s,a)参数

1.3，初始化经验池D，容量为n。

5.根据权利要求1中所述的基于强化学习的反无人机任务分配方法，其特征在于，步骤3中所述强化学习模块的输出X为m*n阶的决策矩阵，m为来袭无人机的数量，n为武器的数量；矩阵的每一行数值都表示一个完整的决策，即若x_i,j为1，表示第j个武器打击无人机i；同时，x_i,j中的i可以看成第i个决策方案，进化算法是对多个方案进行优化。

6.根据权利要求1中所述的基于强化学习的反无人机任务分配方法，其特征在于，步骤3中所述的将无人机状态信息S输入强化学习模块，通过强化学习输出决策结果分为如下步骤：

3.1，模型每隔1s输入所搜索的状态s；

3.3，输出代表智能体的神经网络决策结果。

7.根据权利要求6所述的基于强化学习的反无人机任务分配方法，其特征在于，步骤4中所述的通过进化算法对强化学习生成的次优解进行优化，最终生成目标任务分配的最优解包括如下步骤：