CN113298368A

CN113298368A - 一种基于深度强化学习的多无人机任务规划方法

Info

Publication number: CN113298368A
Application number: CN202110528432.XA
Authority: CN
Inventors: 马瑞; 欧阳权; 吴兆香
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-24
Anticipated expiration: 2041-05-14
Also published as: CN113298368B

Abstract

本发明公开了一种基于深度强化学习的多无人机任务规划方法。首先，根据任务需求，建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型；然后，在建立的任务模型基础上，设计基于QMIX的任务规划算法。本发明设计了多智能体强化学习算法与协作任务奖赏函数，使得多无人机在集中训练后，执行任务时可以在分布式框架下根据不同的环境状态与自身观测做出协作完成任务的动作，使任务完成时间减少，最大化任务收益。

Description

一种基于深度强化学习的多无人机任务规划方法

技术领域

本发明属于无人机技术领域，特别涉及了一种多无人机任务规划方法。

背景技术

由于大规模电网的空间距离较远，人工巡检效率低下，因此很多电力企业开始使用无人机对电力系统进行巡检。无人机凭借其成本低，灵活性高，操控性强等特点，在电力巡检任务中发挥了重要的作用。在应对大范围电力系统巡检任务时，由于电塔与电力设施数量较多，结构复杂，设施之间距离较远，会采用多无人机同时进行巡检。多架无人机协作可以为重要电力设施带来多角度、全方位的观测信息，也可以分别对不同的电力设施进行巡视，提高巡检任务的效率。因而针对多无人机、多目标的任务场景，无人机的任务规划是研究的重点。

目前，多无人机任务规划的方法可分为传统方法和人工智能方法。传统方法是在已有的任务模型基础上，将任务规划转化为一个多目标优化问题，进而利用智能优化算法或随机优化算法，如蚁群算法，遗传算法，启发式算法等对其进行在线的求解计算。在面对多无人机多目标的优化问题时，往往需要耗费较大的算力与时间，满足不了对任务动态实时分配的要求。随着深度学习的发展，神经网络为强化学习带来了新的生命力。深度强化学习算法是在马尔科夫决策这一框架下，通过观测环境的状态做出自身的动作决策，并反作用于环境以达到最高累计回报的智能算法。此外，单智能体强化学习算法在解决多无人机协同问题时，会引起动作空间的维度爆炸与环境状态的不确定问题，增加了网络的收敛难度。在多无人机电力巡检这一任务场景下，关键需求是多架无人机协作巡视同一个电力设施以达到多角度巡视的目的，这要求无人机在多智能体强化学习算法下激发其协作完成任务的能力。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于深度强化学习的多无人机任务规划方法。

为了实现上述技术目的，本发明的技术方案为：

一种基于深度强化学习的多无人机任务规划方法，包括以下步骤：

(1)根据任务需求，建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型；任务场景为多个无人机从起点出发，在最短的时间内对多个电力设施进行抵近侦察；所述分布式部分马尔科夫决策过程模型包含元组G＝S,U,P,r,O，其中S表示环境状态，O表示观测状态，U表示无人机动作，P表示状态转移函数，r表示即时奖励，具体如下：

环境状态S：设定每一时刻的环境总体状态为s_t＝(yn_t,loc_t)，其中yn_t为任务区域中全部电力设施的巡检情况，yn_t＝(yn_t,1,yn_t,2,…,yn_t,N)，yn_t,i∈{0,1}，0表示未巡检或正在巡检，1表示巡检完毕，loc_t表示多无人机自身位置信息，loc_t＝(loc_t,1,loc_t,2,...,loc_t,M)，其中N表示目标电力设施个数，M表示无人机个数；

观测状态O：设定每个无人机的观测量为o_t,j＝(dyn_t,j,loc_t,j)，其中dyn_t,j表示某无人机在t时刻自身距离X范围内的所有电力设施的当前巡检状态，loc_t,j为每个无人机自身当前时刻的位置状态；

无人机动作U：将单个无人机巡检的动作过程集合成一个抽象动作，将向电力设施飞行，对设施进行抵近巡视、信息采集集合为动作u_t,TG，将多个无人机的动作集合为一个联合动作u_t，作用于环境并引起状态转移，每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤，完成当前动作后进行下一步动作决策；

状态转移函数P：将多无人机看作多智能体，在任务过程中，每个无人机将从当前环境总体状态s_t中获取自身的状态观测o_t,j，按照自身内部策略π_t,j得到输出动作u_t,j，多个智能体的动作结合形成联合动作u_t，环境将根据状态转换函数P(s_t+1|s_t,u_t)做出对应的环境状态转移，得到下一时刻状态s_t+1，并且以此循环往复，直至任务结束；

即时奖励r：t时刻的即时奖励r_t包括探索奖惩、协作奖惩和路程奖惩，即时奖励为三种奖励之和；

(2)在步骤(1)建立的任务模型基础上，设计基于QMIX的任务规划算法；为每个智能体建立一个DRQN网络，该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成；DRQN网络的输出是该智能体每个动作的概率，然后通过ε-greedy算法来选择动作，以ε的概率进行随机选择，以1-ε的概率使用贪心算法选择最大Q值的动作，将多无人机组成的联合动作u_t与环境进行交互，并将经验存于经验池D＝s_t,u_t,r_t,s_t+1中；将每个智能体的DRQN网络输出的送入Mixing网络，该Mixing网络将部分动作值函数混合为联合动作值函数，它代表每个智能体的独立值函数之和，根据联合动作值函数建立损失函数，通过最小化损失函数对DRQN网络进行训练。

进一步地，用TG＝{TG₁,TG₂,…TG_N}表示目标电力设施，无人机群表示为Drone＝{Drone₁,Drone₂,…Drone_M}，N表示目标电力设施个数，M表示无人机个数，将多无人机任务归纳为一个受约束的优化问题：

其中，d_i表示目标TG_i的复杂程度，x_j,i,t表示无人机Drone_j在t时刻是否对目标TG_i进行抵近侦察，x_j,i,t∈{0,1}，其中1表示正在巡检，0表示未巡检，T表示设定总体飞行时间为T个单位时间，τ_j表示无人机Drone_j对目标电力设施的巡查速率，θ是无人机的飞行策略。

进一步地，探索奖惩

指的是奖励无人机前去巡检未被检查的设施，即

协作奖惩r_t ^el指的是相邻无人机协作巡检同一电力设施的奖赏，即

其中cop为协作标志位，1表示出现协作状态，0表示未协作；

路程奖惩r_t,j ^pa与无人机飞过的路程距离L^pa成反比，以引导无人机用最短的路程、最少的时间来完成巡检任务，即

r_t,j ^pa＝N^pa/L^pa

对于单个无人机来说，即时奖励表示为三种奖励之和，即

r_t,j＝r_t,j ^ex+r_t,j ^el+r_t,j ^pa

全部无人机的奖励之和为

其中N^ex、N^el和N^pa均为设定的常数。

进一步地，对于DRQN网络，输入全连接层采用ReLU激活函数：

X₁＝ReLU(W₁ ^T(o_t,j,u_t-1,j)+b₁)

其中，W₁,b₁分别为输入全连接层的权重参数和偏置；

然后将X₁输入门控循环网络层，包括更新门、重置门和遗忘门：

z_t＝σ(W_z(h_t-1,X₁))

R_t＝σ(W_R(h_t-1,X₁))

h_t′＝tanh(W[R_th_t-1,X₁])

h_t＝(1-z_t)h_t-1+z_th_t′

其中，z_t为更新门输出，h_t为t时刻的输出，h_t-1为上一时刻的输出，R_t为重置门输出，h_t′为遗忘门输出，W_z为更新门的权重参数，W_R为遗忘门的权重参数，W为遗忘门的权重参数，σ为Sigmoid激活函数；

循环更新L次，输出h_L，进入输出全连接层，采用softmx激活函数：

其中，W₂,b₂分别为输出全连接层的权重参数和偏置。

进一步地，所述损失函数如下：

其中，b为训练中对经验回放的采样批次，Q_tot表示联合动作值函数，τ为动作-观测对的历史记录，θ_P为DRQN网络的评估网络参数，y_i ^tot为第i批次的折扣累计回报，

r_i第i批次的即时奖励，γ为折扣率，θ_T为DRQN网络的目标网络参数。

进一步地，评估网络参数θ_P的更新方法如下：

其中，θ_P′为更新后的评估网络参数，

为学习率，

为梯度算子。

进一步地，目标网络参数θ_T的更新方法如下：

θ_T′＝βθ_T+(1-β)θ_P

其中，θ_T′为更新后的目标网络参数，β为网络替换更新速率，0≤β≤1。

采用上述技术方案带来的有益效果：

1、在集中式训练，分布式执行的框架下，本发明建立了多无人机电力巡检任务规划模型，在该模型基础上，利用多智能体强化学习算法进行训练，可以使得每架无人机根据自身对环境的观测进行动作选择，实现了多无人机协作快速完成巡检。

2、本发明通过建立合适的Mixing网络，设计了适合的奖赏函数，激发了多无人机间的协作能力，多架无人机能够同时巡检同一目标，与传统算法相比加快了任务完成速度。

附图说明

图1是多无人机大范围电力巡检示意图；

图2是QMIX训练网络框架图；

图3是各算法训练过程累计回报图；

图4是多无人机巡检结果轨迹图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明设计了一种基于深度强化学习的多无人机任务规划方法，步骤如下：

步骤1：根据任务需求，建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型。如图1所示，任务场景为多个无人机从起点出发，在最短的时间内对多个电力设施进行抵近侦察。

在本实施例中，优选地，用TG＝{TG₁,TG₂,…TG_N}表示目标电力设施，无人机群表示为Drone＝{Drone₁,Drone₂,…Drone_M}，N表示目标电力设施个数，M表示无人机个数，将多无人机任务归纳为一个受约束的优化问题：

在本实施例中，优选地，所述分布式部分马尔科夫决策过程模型包含元组G＝<S,U,P,r,O>，其中S表示环境状态，O表示观测状态，U表示无人机动作，P表示状态转移函数，r表示即时奖励，具体如下：

环境状态S：设定每一时刻的环境总体状态为s_t＝(yn_t,loc_t)，其中yn_t为任务区域中全部电力设施的巡检情况，yn_t＝(yn_t,1,yn_t,2,...,yn_t,N)，yn_t,i∈{0,1}，0表示未巡检或正在巡检，1表示巡检完毕，loc_t表示多无人机自身位置信息，loc_t＝(loc_t,1,loc_t,2,...,loc_t,M)，其中N表示目标电力设施个数，M表示无人机个数。

观测状态O：设定每个无人机的观测量为o_t,j＝(dyn_t,j,loc_t,j)，其中dyn_t,j表示某无人机在t时刻自身距离X范围内的所有电力设施的当前巡检状态，loc_t,j为每个无人机自身当前时刻的位置状态。

无人机动作U：将单个无人机巡检的动作过程集合成一个抽象动作，将向电力设施飞行，对设施进行抵近巡视、信息采集集合为动作u_t,TG，将多个无人机的动作集合为一个联合动作u_t，作用于环境并引起状态转移，每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤，完成当前动作后进行下一步动作决策。

状态转移函数P：将多无人机看作多智能体，在任务过程中，每个无人机将从当前环境总体状态s_t中获取自身的状态观测o_t,j，按照自身内部策略π_t,j得到输出动作u_t,j，多个智能体的动作结合形成联合动作u_t，环境将根据状态转换函数P(s_t+1|s_t,u_t)做出对应的环境状态转移，得到下一时刻状态s_t+1，并且以此循环往复，直至任务结束。

即时奖励r：t时刻的即时奖励r_t包括探索奖惩、协作奖惩和路程奖惩，即时奖励为三种奖励之和。探索奖惩

指的是奖励无人机前去巡检未被检查的设施，即

其中cop为协作标志位，1表示出现协作状态，0表示未协作；

r_t,j ^pa＝N^pa/L^pa

对于单个无人机来说，即时奖励表示为三种奖励之和，即

r_t,j＝r_t,j ^ex+r_t,j ^el+r_t,j ^pa

全部无人机的奖励之和为

其中N^ex、N^el和N^pa均为设定的常数。

步骤2：在步骤1建立的任务模型基础上，设计基于QMIX的任务规划算法。

QMIX的算法架构如图2所示，将t时刻的多无人机的联合动作u_t作用于区域环境，环境状态由s_t转移至s_t+1，并给予每个无人机对应的奖励r_t,j。s_t包括目标的侦查情况yn_t，多无人机自身位置loc_t，但是每个无人机在训练结束后的执行过程中只能观测到部分信息o_t,j＝(dyn_t,j,loc_t,j)。

在本实施例中，优选地，为每个智能体建立一个DRQN(Deep Recurrent Q-Learning Network)网络，该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成。

输入全连接层采用ReLU激活函数：

X₁＝ReLU(W₁ ^T(o_t,j,u_t-1,j)+b₁)

其中，W₁,b₁分别为输入全连接层的权重参数和偏置；

z_t＝σ(W_z(h_t-1,X₁))

R_t＝σ(W_R(h_t-1,X₁))

h_t′＝tanh(W[R_th_t-1,X₁])

h_t＝(1-z_t)h_t-1+z_th_t′

其中，W₂,b₂分别为输出全连接层的权重参数和偏置。

DRQN网络的输出是该智能体每个动作的概率，然后通过ε-greedy算法来选择动作，以ε的概率进行随机选择，以1-ε的概率使用贪心算法选择最大Q值的动作，将多无人机组成的联合动作u_t与环境进行交互，并将经验存于经验池D＝<s_t,u_t,r_t,s_t+1>中。

通过利用DRQN的经验回放训练网络，DRQN中的门控循环网络对一段时间内的连续动作观测对的信息进行处理，解决了多智能体中部分马尔科夫可观问题。

将每个智能体DRQN网络输出的(Q₁(τ₁,u_t,1),Q₂(τ₂,u_t,2),...,Q_M(τ_M,u_t,M))送入Mixing网络，即图2中的混合网络，该网络可以将部分动作值函数混合为联合动作值函数

它代表每个智能体的独立值函数之和，其中τ为动作-观测对的历史记录。

建立损失函数，并最小化损失函数训练网络：

评估网络参数θ_P的更新方法如下：

其中，θ_P′为更新后的评估网络参数，

为学习率，

为梯度算子。

目标网络参数θ_T的更新方法如下：

θ_T′＝βθ_T+(1-β)θ_P

对本发明所提出的任务分配方法进行仿真验证，并与传统的(值分解网络)VDN算法，基于(深度Q学习)DQN的(独立Q学习)IQL算法进行了对比实验，验证了本发明的有效性。

设定大范围电力系统的区域面积为2.5km×2.5km，区域中随机分布着12座电力设施，3架无人机在起点位置出发，且在分布式执行过程中只能感受到距离自身1.5km的电力设施。无人机飞行速度限定在5m/s。分别采用本发明设计的QMIX算法和传统的VDN、IQL算法对该任务环境进行训练，仿真平台采用的CPU为I7-9700，GPU为RTX2080Ti，内存为16GB，在OpenAI Gym环境下训练。每个算法训练6000回合，经验池大小设置为50000，采样训练样本大小为32，回报折扣率0.9，学习率0.005，ε值为0.05，网络更新速率β为100。三种算法的训练过程累计回报如图3所示。

从图3中可以看出，所提QMIX算法在训练开始后回合累计回报开始逐渐升高，并在1300回合左右就完成了收敛，而VDN算法由于其对多智能体问题的表征能力欠缺，因此在2500回合左右才收敛。而IQL算法会导致智能体之间互相影响，智能体难以通过统一的联合动作值函数协同行动，因此难以适应多智能体问题。进一步，所提出的QMIX算法由于采用了协同奖赏函数，可以激发无人机之间的协作能力，仿真结果和轨迹如图4、表1所示。

由图4可以看出，3架无人机在获得自身观测量后，各自执行不同电力设施的巡检任务以实现最短时间合作完成整体巡检任务。并且1，2号无人机在遇到2号电力设施时激发了智能体间协作能力，两架无人机共同协作完成同一目标巡检任务，加快了任务完成时间。表1表明任务时间相比于VDN算法加快了350.4s。

表1

算法	是否收敛	是否协作	回报	时间
					独立Q学习	否	否	-15	无
值分解网络	是	否	0	2359.6
					本发明	是	是	2	2009.2

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于深度强化学习的多无人机任务规划方法，其特征在于，包括以下步骤：

(1)根据任务需求，建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型；任务场景为多个无人机从起点出发，在最短的时间内对多个电力设施进行抵近侦察；所述分布式部分马尔科夫决策过程模型包含元组G＝<S,U,P,r,O>，其中S表示环境状态，O表示观测状态，U表示无人机动作，P表示状态转移函数，r表示即时奖励，具体如下：

环境状态S：设定每一时刻的环境总体状态为s_t＝(yn_t,loc_t)，其中yn_t为任务区域中全部电力设施的巡检情况，yn_t＝(yn_t,1,yn_t,2,...,yn_t,N)，yn_t,i∈{0,1}，0表示未巡检或正在巡检，1表示巡检完毕，loc_t表示多无人机自身位置信息，loc_t＝(loc_t,1,loc_t,2,...,loc_t,M)，其中N表示目标电力设施个数，M表示无人机个数；

(2)在步骤(1)建立的任务模型基础上，设计基于QMIX的任务规划算法；为每个智能体建立一个DRQN网络，该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成；DRQN网络的输出是该智能体每个动作的概率，然后通过ε-greedy算法来选择动作，以ε的概率进行随机选择，以1-ε的概率使用贪心算法选择最大Q值的动作，将多无人机组成的联合动作u_t与环境进行交互，并将经验存于经验池D＝<s_t,u_t,r_t,s_t+1>中；将每个智能体的DRQN网络输出的送入Mixing网络，该Mixing网络将部分动作值函数混合为联合动作值函数，它代表每个智能体的独立值函数之和，根据联合动作值函数建立损失函数，通过最小化损失函数对DRQN网络进行训练。

2.根据权利要求1所述基于深度强化学习的多无人机任务规划方法，其特征在于，用TG＝{TG₁,TG₂,…TG_N}表示目标电力设施，无人机群表示为Drone＝{Drone₁,Drone₂,…Drone_M}，N表示目标电力设施个数，M表示无人机个数，将多无人机任务归纳为一个受约束的优化问题：