CN113298368A - 一种基于深度强化学习的多无人机任务规划方法 - Google Patents

一种基于深度强化学习的多无人机任务规划方法 Download PDF

Info

Publication number
CN113298368A
CN113298368A CN202110528432.XA CN202110528432A CN113298368A CN 113298368 A CN113298368 A CN 113298368A CN 202110528432 A CN202110528432 A CN 202110528432A CN 113298368 A CN113298368 A CN 113298368A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
action
task
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528432.XA
Other languages
English (en)
Other versions
CN113298368B (zh
Inventor
马瑞
欧阳权
吴兆香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110528432.XA priority Critical patent/CN113298368B/zh
Publication of CN113298368A publication Critical patent/CN113298368A/zh
Application granted granted Critical
Publication of CN113298368B publication Critical patent/CN113298368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于深度强化学习的多无人机任务规划方法。首先,根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;然后,在建立的任务模型基础上,设计基于QMIX的任务规划算法。本发明设计了多智能体强化学习算法与协作任务奖赏函数,使得多无人机在集中训练后,执行任务时可以在分布式框架下根据不同的环境状态与自身观测做出协作完成任务的动作,使任务完成时间减少,最大化任务收益。

Description

一种基于深度强化学习的多无人机任务规划方法
技术领域
本发明属于无人机技术领域,特别涉及了一种多无人机任务规划方法。
背景技术
由于大规模电网的空间距离较远,人工巡检效率低下,因此很多电力企业开始使用无人机对电力系统进行巡检。无人机凭借其成本低,灵活性高,操控性强等特点,在电力巡检任务中发挥了重要的作用。在应对大范围电力系统巡检任务时,由于电塔与电力设施数量较多,结构复杂,设施之间距离较远,会采用多无人机同时进行巡检。多架无人机协作可以为重要电力设施带来多角度、全方位的观测信息,也可以分别对不同的电力设施进行巡视,提高巡检任务的效率。因而针对多无人机、多目标的任务场景,无人机的任务规划是研究的重点。
目前,多无人机任务规划的方法可分为传统方法和人工智能方法。传统方法是在已有的任务模型基础上,将任务规划转化为一个多目标优化问题,进而利用智能优化算法或随机优化算法,如蚁群算法,遗传算法,启发式算法等对其进行在线的求解计算。在面对多无人机多目标的优化问题时,往往需要耗费较大的算力与时间,满足不了对任务动态实时分配的要求。随着深度学习的发展,神经网络为强化学习带来了新的生命力。深度强化学习算法是在马尔科夫决策这一框架下,通过观测环境的状态做出自身的动作决策,并反作用于环境以达到最高累计回报的智能算法。此外,单智能体强化学习算法在解决多无人机协同问题时,会引起动作空间的维度爆炸与环境状态的不确定问题,增加了网络的收敛难度。在多无人机电力巡检这一任务场景下,关键需求是多架无人机协作巡视同一个电力设施以达到多角度巡视的目的,这要求无人机在多智能体强化学习算法下激发其协作完成任务的能力。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于深度强化学习的多无人机任务规划方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于深度强化学习的多无人机任务规划方法,包括以下步骤:
(1)根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察;所述分布式部分马尔科夫决策过程模型包含元组G=S,U,P,r,O,其中S表示环境状态,O表示观测状态,U表示无人机动作,P表示状态转移函数,r表示即时奖励,具体如下:
环境状态S:设定每一时刻的环境总体状态为st=(ynt,loct),其中ynt为任务区域中全部电力设施的巡检情况,ynt=(ynt,1,ynt,2,…,ynt,N),ynt,i∈{0,1},0表示未巡检或正在巡检,1表示巡检完毕,loct表示多无人机自身位置信息,loct=(loct,1,loct,2,...,loct,M),其中N表示目标电力设施个数,M表示无人机个数;
观测状态O:设定每个无人机的观测量为ot,j=(dynt,j,loct,j),其中dynt,j表示某无人机在t时刻自身距离X范围内的所有电力设施的当前巡检状态,loct,j为每个无人机自身当前时刻的位置状态;
无人机动作U:将单个无人机巡检的动作过程集合成一个抽象动作,将向电力设施飞行,对设施进行抵近巡视、信息采集集合为动作ut,TG,将多个无人机的动作集合为一个联合动作ut,作用于环境并引起状态转移,每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤,完成当前动作后进行下一步动作决策;
状态转移函数P:将多无人机看作多智能体,在任务过程中,每个无人机将从当前环境总体状态st中获取自身的状态观测ot,j,按照自身内部策略πt,j得到输出动作ut,j,多个智能体的动作结合形成联合动作ut,环境将根据状态转换函数P(st+1|st,ut)做出对应的环境状态转移,得到下一时刻状态st+1,并且以此循环往复,直至任务结束;
即时奖励r:t时刻的即时奖励rt包括探索奖惩、协作奖惩和路程奖惩,即时奖励为三种奖励之和;
(2)在步骤(1)建立的任务模型基础上,设计基于QMIX的任务规划算法;为每个智能体建立一个DRQN网络,该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成;DRQN网络的输出是该智能体每个动作的概率,然后通过ε-greedy算法来选择动作,以ε的概率进行随机选择,以1-ε的概率使用贪心算法选择最大Q值的动作,将多无人机组成的联合动作ut与环境进行交互,并将经验存于经验池D=st,ut,rt,st+1中;将每个智能体的DRQN网络输出的送入Mixing网络,该Mixing网络将部分动作值函数混合为联合动作值函数,它代表每个智能体的独立值函数之和,根据联合动作值函数建立损失函数,通过最小化损失函数对DRQN网络进行训练。
进一步地,用TG={TG1,TG2,…TGN}表示目标电力设施,无人机群表示为Drone={Drone1,Drone2,…DroneM},N表示目标电力设施个数,M表示无人机个数,将多无人机任务归纳为一个受约束的优化问题:
Figure BDA0003066172880000031
Figure BDA0003066172880000032
其中,di表示目标TGi的复杂程度,xj,i,t表示无人机Dronej在t时刻是否对目标TGi进行抵近侦察,xj,i,t∈{0,1},其中1表示正在巡检,0表示未巡检,T表示设定总体飞行时间为T个单位时间,τj表示无人机Dronej对目标电力设施的巡查速率,θ是无人机的飞行策略。
进一步地,探索奖惩
Figure BDA0003066172880000041
指的是奖励无人机前去巡检未被检查的设施,即
Figure BDA0003066172880000042
协作奖惩rt el指的是相邻无人机协作巡检同一电力设施的奖赏,即
Figure BDA0003066172880000043
其中cop为协作标志位,1表示出现协作状态,0表示未协作;
路程奖惩rt,j pa与无人机飞过的路程距离Lpa成反比,以引导无人机用最短的路程、最少的时间来完成巡检任务,即
rt,j pa=Npa/Lpa
对于单个无人机来说,即时奖励表示为三种奖励之和,即
rt,j=rt,j ex+rt,j el+rt,j pa
全部无人机的奖励之和为
Figure BDA0003066172880000044
其中Nex、Nel和Npa均为设定的常数。
进一步地,对于DRQN网络,输入全连接层采用ReLU激活函数:
X1=ReLU(W1 T(ot,j,ut-1,j)+b1)
其中,W1,b1分别为输入全连接层的权重参数和偏置;
然后将X1输入门控循环网络层,包括更新门、重置门和遗忘门:
zt=σ(Wz(ht-1,X1))
Rt=σ(WR(ht-1,X1))
ht′=tanh(W[Rtht-1,X1])
ht=(1-zt)ht-1+ztht
其中,zt为更新门输出,ht为t时刻的输出,ht-1为上一时刻的输出,Rt为重置门输出,ht′为遗忘门输出,Wz为更新门的权重参数,WR为遗忘门的权重参数,W为遗忘门的权重参数,σ为Sigmoid激活函数;
循环更新L次,输出hL,进入输出全连接层,采用softmx激活函数:
Figure BDA0003066172880000051
其中,W2,b2分别为输出全连接层的权重参数和偏置。
进一步地,所述损失函数如下:
Figure BDA0003066172880000052
其中,b为训练中对经验回放的采样批次,Qtot表示联合动作值函数,τ为动作-观测对的历史记录,θP为DRQN网络的评估网络参数,yi tot为第i批次的折扣累计回报,
Figure BDA0003066172880000053
ri第i批次的即时奖励,γ为折扣率,θT为DRQN网络的目标网络参数。
进一步地,评估网络参数θP的更新方法如下:
Figure BDA0003066172880000054
其中,θP′为更新后的评估网络参数,
Figure BDA0003066172880000055
为学习率,
Figure BDA0003066172880000056
为梯度算子。
进一步地,目标网络参数θT的更新方法如下:
θT′=βθT+(1-β)θP
其中,θT′为更新后的目标网络参数,β为网络替换更新速率,0≤β≤1。
采用上述技术方案带来的有益效果:
1、在集中式训练,分布式执行的框架下,本发明建立了多无人机电力巡检任务规划模型,在该模型基础上,利用多智能体强化学习算法进行训练,可以使得每架无人机根据自身对环境的观测进行动作选择,实现了多无人机协作快速完成巡检。
2、本发明通过建立合适的Mixing网络,设计了适合的奖赏函数,激发了多无人机间的协作能力,多架无人机能够同时巡检同一目标,与传统算法相比加快了任务完成速度。
附图说明
图1是多无人机大范围电力巡检示意图;
图2是QMIX训练网络框架图;
图3是各算法训练过程累计回报图;
图4是多无人机巡检结果轨迹图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明设计了一种基于深度强化学习的多无人机任务规划方法,步骤如下:
步骤1:根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型。如图1所示,任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察。
在本实施例中,优选地,用TG={TG1,TG2,…TGN}表示目标电力设施,无人机群表示为Drone={Drone1,Drone2,…DroneM},N表示目标电力设施个数,M表示无人机个数,将多无人机任务归纳为一个受约束的优化问题:
Figure BDA0003066172880000061
Figure BDA0003066172880000062
其中,di表示目标TGi的复杂程度,xj,i,t表示无人机Dronej在t时刻是否对目标TGi进行抵近侦察,xj,i,t∈{0,1},其中1表示正在巡检,0表示未巡检,T表示设定总体飞行时间为T个单位时间,τj表示无人机Dronej对目标电力设施的巡查速率,θ是无人机的飞行策略。
在本实施例中,优选地,所述分布式部分马尔科夫决策过程模型包含元组G=<S,U,P,r,O>,其中S表示环境状态,O表示观测状态,U表示无人机动作,P表示状态转移函数,r表示即时奖励,具体如下:
环境状态S:设定每一时刻的环境总体状态为st=(ynt,loct),其中ynt为任务区域中全部电力设施的巡检情况,ynt=(ynt,1,ynt,2,...,ynt,N),ynt,i∈{0,1},0表示未巡检或正在巡检,1表示巡检完毕,loct表示多无人机自身位置信息,loct=(loct,1,loct,2,...,loct,M),其中N表示目标电力设施个数,M表示无人机个数。
观测状态O:设定每个无人机的观测量为ot,j=(dynt,j,loct,j),其中dynt,j表示某无人机在t时刻自身距离X范围内的所有电力设施的当前巡检状态,loct,j为每个无人机自身当前时刻的位置状态。
无人机动作U:将单个无人机巡检的动作过程集合成一个抽象动作,将向电力设施飞行,对设施进行抵近巡视、信息采集集合为动作ut,TG,将多个无人机的动作集合为一个联合动作ut,作用于环境并引起状态转移,每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤,完成当前动作后进行下一步动作决策。
状态转移函数P:将多无人机看作多智能体,在任务过程中,每个无人机将从当前环境总体状态st中获取自身的状态观测ot,j,按照自身内部策略πt,j得到输出动作ut,j,多个智能体的动作结合形成联合动作ut,环境将根据状态转换函数P(st+1|st,ut)做出对应的环境状态转移,得到下一时刻状态st+1,并且以此循环往复,直至任务结束。
即时奖励r:t时刻的即时奖励rt包括探索奖惩、协作奖惩和路程奖惩,即时奖励为三种奖励之和。探索奖惩
Figure BDA0003066172880000081
指的是奖励无人机前去巡检未被检查的设施,即
Figure BDA0003066172880000082
协作奖惩rt el指的是相邻无人机协作巡检同一电力设施的奖赏,即
Figure BDA0003066172880000083
其中cop为协作标志位,1表示出现协作状态,0表示未协作;
路程奖惩rt,j pa与无人机飞过的路程距离Lpa成反比,以引导无人机用最短的路程、最少的时间来完成巡检任务,即
rt,j pa=Npa/Lpa
对于单个无人机来说,即时奖励表示为三种奖励之和,即
rt,j=rt,j ex+rt,j el+rt,j pa
全部无人机的奖励之和为
Figure BDA0003066172880000084
其中Nex、Nel和Npa均为设定的常数。
步骤2:在步骤1建立的任务模型基础上,设计基于QMIX的任务规划算法。
QMIX的算法架构如图2所示,将t时刻的多无人机的联合动作ut作用于区域环境,环境状态由st转移至st+1,并给予每个无人机对应的奖励rt,j。st包括目标的侦查情况ynt,多无人机自身位置loct,但是每个无人机在训练结束后的执行过程中只能观测到部分信息ot,j=(dynt,j,loct,j)。
在本实施例中,优选地,为每个智能体建立一个DRQN(Deep Recurrent Q-Learning Network)网络,该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成。
输入全连接层采用ReLU激活函数:
X1=ReLU(W1 T(ot,j,ut-1,j)+b1)
其中,W1,b1分别为输入全连接层的权重参数和偏置;
然后将X1输入门控循环网络层,包括更新门、重置门和遗忘门:
zt=σ(Wz(ht-1,X1))
Rt=σ(WR(ht-1,X1))
ht′=tanh(W[Rtht-1,X1])
ht=(1-zt)ht-1+ztht
其中,zt为更新门输出,ht为t时刻的输出,ht-1为上一时刻的输出,Rt为重置门输出,ht′为遗忘门输出,Wz为更新门的权重参数,WR为遗忘门的权重参数,W为遗忘门的权重参数,σ为Sigmoid激活函数;
循环更新L次,输出hL,进入输出全连接层,采用softmx激活函数:
Figure BDA0003066172880000091
其中,W2,b2分别为输出全连接层的权重参数和偏置。
DRQN网络的输出是该智能体每个动作的概率,然后通过ε-greedy算法来选择动作,以ε的概率进行随机选择,以1-ε的概率使用贪心算法选择最大Q值的动作,将多无人机组成的联合动作ut与环境进行交互,并将经验存于经验池D=<st,ut,rt,st+1>中。
通过利用DRQN的经验回放训练网络,DRQN中的门控循环网络对一段时间内的连续动作观测对的信息进行处理,解决了多智能体中部分马尔科夫可观问题。
将每个智能体DRQN网络输出的(Q11,ut,1),Q22,ut,2),...,QMM,ut,M))送入Mixing网络,即图2中的混合网络,该网络可以将部分动作值函数混合为联合动作值函数
Figure BDA0003066172880000092
它代表每个智能体的独立值函数之和,其中τ为动作-观测对的历史记录。
建立损失函数,并最小化损失函数训练网络:
Figure BDA0003066172880000101
其中,b为训练中对经验回放的采样批次,Qtot表示联合动作值函数,τ为动作-观测对的历史记录,θP为DRQN网络的评估网络参数,yi tot为第i批次的折扣累计回报,
Figure BDA0003066172880000102
ri第i批次的即时奖励,γ为折扣率,θT为DRQN网络的目标网络参数。
评估网络参数θP的更新方法如下:
Figure BDA0003066172880000103
其中,θP′为更新后的评估网络参数,
Figure BDA0003066172880000104
为学习率,
Figure BDA0003066172880000105
为梯度算子。
目标网络参数θT的更新方法如下:
θT′=βθT+(1-β)θP
其中,θT′为更新后的目标网络参数,β为网络替换更新速率,0≤β≤1。
对本发明所提出的任务分配方法进行仿真验证,并与传统的(值分解网络)VDN算法,基于(深度Q学习)DQN的(独立Q学习)IQL算法进行了对比实验,验证了本发明的有效性。
设定大范围电力系统的区域面积为2.5km×2.5km,区域中随机分布着12座电力设施,3架无人机在起点位置出发,且在分布式执行过程中只能感受到距离自身1.5km的电力设施。无人机飞行速度限定在5m/s。分别采用本发明设计的QMIX算法和传统的VDN、IQL算法对该任务环境进行训练,仿真平台采用的CPU为I7-9700,GPU为RTX2080Ti,内存为16GB,在OpenAI Gym环境下训练。每个算法训练6000回合,经验池大小设置为50000,采样训练样本大小为32,回报折扣率0.9,学习率0.005,ε值为0.05,网络更新速率β为100。三种算法的训练过程累计回报如图3所示。
从图3中可以看出,所提QMIX算法在训练开始后回合累计回报开始逐渐升高,并在1300回合左右就完成了收敛,而VDN算法由于其对多智能体问题的表征能力欠缺,因此在2500回合左右才收敛。而IQL算法会导致智能体之间互相影响,智能体难以通过统一的联合动作值函数协同行动,因此难以适应多智能体问题。进一步,所提出的QMIX算法由于采用了协同奖赏函数,可以激发无人机之间的协作能力,仿真结果和轨迹如图4、表1所示。
由图4可以看出,3架无人机在获得自身观测量后,各自执行不同电力设施的巡检任务以实现最短时间合作完成整体巡检任务。并且1,2号无人机在遇到2号电力设施时激发了智能体间协作能力,两架无人机共同协作完成同一目标巡检任务,加快了任务完成时间。表1表明任务时间相比于VDN算法加快了350.4s。
表1
算法 是否收敛 是否协作 回报 时间
独立Q学习 -15
值分解网络 0 2359.6
本发明 2 2009.2
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种基于深度强化学习的多无人机任务规划方法,其特征在于,包括以下步骤:
(1)根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察;所述分布式部分马尔科夫决策过程模型包含元组G=<S,U,P,r,O>,其中S表示环境状态,O表示观测状态,U表示无人机动作,P表示状态转移函数,r表示即时奖励,具体如下:
环境状态S:设定每一时刻的环境总体状态为st=(ynt,loct),其中ynt为任务区域中全部电力设施的巡检情况,ynt=(ynt,1,ynt,2,...,ynt,N),ynt,i∈{0,1},0表示未巡检或正在巡检,1表示巡检完毕,loct表示多无人机自身位置信息,loct=(loct,1,loct,2,...,loct,M),其中N表示目标电力设施个数,M表示无人机个数;
观测状态O:设定每个无人机的观测量为ot,j=(dynt,j,loct,j),其中dynt,j表示某无人机在t时刻自身距离X范围内的所有电力设施的当前巡检状态,loct,j为每个无人机自身当前时刻的位置状态;
无人机动作U:将单个无人机巡检的动作过程集合成一个抽象动作,将向电力设施飞行,对设施进行抵近巡视、信息采集集合为动作ut,TG,将多个无人机的动作集合为一个联合动作ut,作用于环境并引起状态转移,每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤,完成当前动作后进行下一步动作决策;
状态转移函数P:将多无人机看作多智能体,在任务过程中,每个无人机将从当前环境总体状态st中获取自身的状态观测ot,j,按照自身内部策略πt,j得到输出动作ut,j,多个智能体的动作结合形成联合动作ut,环境将根据状态转换函数P(st+1|st,ut)做出对应的环境状态转移,得到下一时刻状态st+1,并且以此循环往复,直至任务结束;
即时奖励r:t时刻的即时奖励rt包括探索奖惩、协作奖惩和路程奖惩,即时奖励为三种奖励之和;
(2)在步骤(1)建立的任务模型基础上,设计基于QMIX的任务规划算法;为每个智能体建立一个DRQN网络,该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成;DRQN网络的输出是该智能体每个动作的概率,然后通过ε-greedy算法来选择动作,以ε的概率进行随机选择,以1-ε的概率使用贪心算法选择最大Q值的动作,将多无人机组成的联合动作ut与环境进行交互,并将经验存于经验池D=<st,ut,rt,st+1>中;将每个智能体的DRQN网络输出的送入Mixing网络,该Mixing网络将部分动作值函数混合为联合动作值函数,它代表每个智能体的独立值函数之和,根据联合动作值函数建立损失函数,通过最小化损失函数对DRQN网络进行训练。
2.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,用TG={TG1,TG2,…TGN}表示目标电力设施,无人机群表示为Drone={Drone1,Drone2,…DroneM},N表示目标电力设施个数,M表示无人机个数,将多无人机任务归纳为一个受约束的优化问题:
Figure FDA0003066172870000022
Figure FDA0003066172870000021
其中,di表示目标TGi的复杂程度,xj,i,t表示无人机Dronej在t时刻是否对目标TGi进行抵近侦察,xj,i,t∈{0,1},其中1表示正在巡检,0表示未巡检,T表示设定总体飞行时间为T个单位时间,τj表示无人机Dronej对目标电力设施的巡查速率,θ是无人机的飞行策略。
3.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,探索奖惩
Figure FDA0003066172870000031
指的是奖励无人机前去巡检未被检查的设施,即
Figure FDA0003066172870000032
协作奖惩
Figure FDA0003066172870000033
指的是相邻无人机协作巡检同一电力设施的奖赏,即
Figure FDA0003066172870000034
其中cop为协作标志位,1表示出现协作状态,0表示未协作;
路程奖惩
Figure FDA0003066172870000035
与无人机飞过的路程距离Lpa成反比,以引导无人机用最短的路程、最少的时间来完成巡检任务,即
Figure FDA0003066172870000036
对于单个无人机来说,即时奖励表示为三种奖励之和,即
Figure FDA0003066172870000037
全部无人机的奖励之和为
Figure FDA0003066172870000038
其中Nex、Nel和Npa均为设定的常数。
4.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,对于DRQN网络,输入全连接层采用ReLU激活函数:
Figure FDA0003066172870000039
其中,W1,b1分别为输入全连接层的权重参数和偏置;
然后将X1输入门控循环网络层,包括更新门、重置门和遗忘门:
zt=σ(Wz(ht-1,X1))
Rt=σ(WR(ht-1,X1))
ht′=tanh(W[Rtht-1,X1])
ht=(1-zt)ht-1+ztht
其中,zt为更新门输出,ht为t时刻的输出,ht-1为上一时刻的输出,Rt为重置门输出,ht′为遗忘门输出,Wz为更新门的权重参数,WR为遗忘门的权重参数,W为遗忘门的权重参数,σ为Sigmoid激活函数;
循环更新L次,输出hL,进入输出全连接层,采用softmx激活函数:
Figure FDA0003066172870000041
其中,W2,b2分别为输出全连接层的权重参数和偏置。
5.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,所述损失函数如下:
Figure FDA0003066172870000042
其中,b为训练中对经验回放的采样批次,Qtot表示联合动作值函数,τ为动作-观测对的历史记录,θP为DRQN网络的评估网络参数,
Figure FDA0003066172870000043
为第i批次的折扣累计回报,
Figure FDA0003066172870000044
ri第i批次的即时奖励,γ为折扣率,θT为DRQN网络的目标网络参数。
6.根据权利要求5所述基于深度强化学习的多无人机任务规划方法,其特征在于,评估网络参数θP的更新方法如下:
Figure FDA0003066172870000045
其中,θP′为更新后的评估网络参数,
Figure FDA0003066172870000047
为学习率,
Figure FDA0003066172870000046
为梯度算子。
7.根据权利要求5所述基于深度强化学习的多无人机任务规划方法,其特征在于,目标网络参数θT的更新方法如下:
θT′=βθT+(1-β)θP
其中,θT′为更新后的目标网络参数,β为网络替换更新速率,0≤β≤1。
CN202110528432.XA 2021-05-14 2021-05-14 一种基于深度强化学习的多无人机任务规划方法 Active CN113298368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528432.XA CN113298368B (zh) 2021-05-14 2021-05-14 一种基于深度强化学习的多无人机任务规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528432.XA CN113298368B (zh) 2021-05-14 2021-05-14 一种基于深度强化学习的多无人机任务规划方法

Publications (2)

Publication Number Publication Date
CN113298368A true CN113298368A (zh) 2021-08-24
CN113298368B CN113298368B (zh) 2023-11-10

Family

ID=77322019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528432.XA Active CN113298368B (zh) 2021-05-14 2021-05-14 一种基于深度强化学习的多无人机任务规划方法

Country Status (1)

Country Link
CN (1) CN113298368B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114140033A (zh) * 2022-01-29 2022-03-04 北京新唐思创教育科技有限公司 一种服务人员的分配方法、装置、电子设备及存储介质
CN116069023A (zh) * 2022-12-20 2023-05-05 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统
CN117707219A (zh) * 2024-02-05 2024-03-15 西安羚控电子科技有限公司 基于深度强化学习的无人机集群侦查对抗方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110266803A (zh) * 2019-06-25 2019-09-20 北京工业大学 基于无人机航拍的油气管道监管系统
CN110879610A (zh) * 2019-10-24 2020-03-13 北京航空航天大学 太阳能无人机自主寻优航迹规划的强化学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110266803A (zh) * 2019-06-25 2019-09-20 北京工业大学 基于无人机航拍的油气管道监管系统
CN110879610A (zh) * 2019-10-24 2020-03-13 北京航空航天大学 太阳能无人机自主寻优航迹规划的强化学习方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114140033A (zh) * 2022-01-29 2022-03-04 北京新唐思创教育科技有限公司 一种服务人员的分配方法、装置、电子设备及存储介质
CN114140033B (zh) * 2022-01-29 2022-04-12 北京新唐思创教育科技有限公司 一种服务人员的分配方法、装置、电子设备及存储介质
CN116069023A (zh) * 2022-12-20 2023-05-05 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统
CN116069023B (zh) * 2022-12-20 2024-02-23 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统
CN117707219A (zh) * 2024-02-05 2024-03-15 西安羚控电子科技有限公司 基于深度强化学习的无人机集群侦查对抗方法及装置

Also Published As

Publication number Publication date
CN113298368B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN113298368A (zh) 一种基于深度强化学习的多无人机任务规划方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN109992000A (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN109870162A (zh) 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
CN110531786A (zh) 基于dqn的无人机机动策略自主生成方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN113286275A (zh) 一种基于多智能体强化学习的无人机集群高效通信方法
Wang et al. UAV swarm confrontation using hierarchical multiagent reinforcement learning
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Kebria et al. Evaluating architecture impacts on deep imitation learning performance for autonomous driving
Shi et al. The improved Q-Learning algorithm based on pheromone mechanism for swarm robot system
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
CN116466662A (zh) 一种基于分层内在激励的多agv智能调度方法
Zhang et al. Multi-UAV cooperative short-range combat via attention-based reinforcement learning using individual reward shaping
CN115187056A (zh) 一种考虑公平性原则的多智能体协同资源分配方法
CN115963724A (zh) 一种基于群智激发联盟博弈的无人机集群任务分配方法
Bromo et al. Reinforcement Learning based Coverage Planning for UAVs Fleets
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant