CN114548663A - 一种充电无人机为任务无人机空中充电的调度方法 - Google Patents

一种充电无人机为任务无人机空中充电的调度方法 Download PDF

Info

Publication number
CN114548663A
CN114548663A CN202210019884.XA CN202210019884A CN114548663A CN 114548663 A CN114548663 A CN 114548663A CN 202210019884 A CN202210019884 A CN 202210019884A CN 114548663 A CN114548663 A CN 114548663A
Authority
CN
China
Prior art keywords
charging
unmanned aerial
aerial vehicle
task
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210019884.XA
Other languages
English (en)
Inventor
朱琨
杨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210019884.XA priority Critical patent/CN114548663A/zh
Publication of CN114548663A publication Critical patent/CN114548663A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/16Information or communication technologies improving the operation of electric vehicles

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种充电无人机为任务无人机空中充电的调度方法,用于调度充电无人机为正在空中执行任务的任务无人机进行充电。该方法根据任务无人机的充电需求确定远程充电或近场充电方式,然后根据充电无人机的参与数量进行分类建模计算,包括建立单个充电无人机进行充电调度问题的模型和建立多个充电无人机进行充电调度问题的模型进行求解;最后基于深度强化学习或多智能体强化学习的算法优化充电无人机的充电调度策略,充电无人机根据优化的策略和当前环境的状态以进行决策,根据充电调度指令完成任务无人机的充电。本发明实现了任务无人机任务完成时间最短,对任务无人机的公平充电和充电无人机的充电调度策略优化。

Description

一种充电无人机为任务无人机空中充电的调度方法
技术领域
本发明属于飞行调度技术,具体涉及一种充电无人机为任务无人机空中充电的调度方法。
背景技术
近年来,由于无人机(UAV)具有成本低、遥控方便、部署灵活、机动性强等优点,无人机在很多领域得到广泛的应用。无人机可以可搭载各种设备,完成许多民用应用的各种任务,例如数据采集、环境监测、区域检测、通信、物流等。大多数小型无人机通过配备电池的电力驱动。然而,此类无人机电池容量有限,只能支持较短的工作和飞行时间。大多数电池驱动的无人机的运行时间从几十分钟到一个小时不等。无人机活动范围因此也受限。如果任务时间超过无人机的续航时间或者无人机需要在更大范围内执行任务,则无人机必须着陆充电或派遣更多的无人机执行任务。如果无人机需要着陆到地面充电,那正在执行的任务将被中断,任务的完成时间也会被推迟。
要想大幅度增加无人机的工作时间,一个直观的方法是为无人机配备更大容量的电池,但这也会显着增加无人机的重量和体积。为了克服上述问题,为一组选定的无人机在线补充能量成为一种很有前景的选择。为了在任务期间为无人机充电,已经提出了基于地面站的无线充电方案,可分为近场充电和远场充电两种类型。使用近场充电,无人机需要降落在地面充电站上,通过电感耦合或磁共振耦合进行充电。远场充电通常由激光束进行,其中无人机在地面充电站周围盘旋,并可以通过来自地面站的对准激光束进行充电。虽然现有的基于地面充电站的解决方案可以有效延长无人机的工作时间,但仍然存在一些缺点。首先,地面站需要预先部署在某些固定位置,当无人机应用场景或环境是动态的时,会产生额外的成本。其次,正在充电的无人机必须暂停正在进行的任务并物理移动到充电站进行能量补充。这无疑会增加任务时间和能量消耗,也会中断无人机正在执行的任务。
发明内容
发明目的:为了解决无人机应用场景中电量不足的问题,考虑无线充电应用的合理性,本发明提供一种充电无人机为任务无人机空中充电的调度方法。
技术方案:一种充电无人机为任务无人机空中充电的调度方法,该方法用于调度充电无人机为执行任务中的任务无人机进行充电,所述调度方法包括如下步骤:
(1)根据任务无人机的充电需求信息确定充电方式,充电需求信息包括充电无人机执行任务的环境障碍、地点、动作及飞行数据;
(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于DDPG算法优化单个充电无人机的充电调度策略;
(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于MADDPG算法优化多个充电无人机的充电调度策略;
(4)以任务无人机完成任务的时间最短为目标,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。
进一步的,步骤(1)所述的无人机充电方式包括近场充电和远场充电,充电无人机和任务无人机搭载有相应的无线充电设备,近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电,远场充电是由充电无人机通过RF射频或激光实现能量转化充电。
所述方法的步骤(1)对于存在有n个任务无人机执行任务时,则表示为M={Mi|i=1,2,…,n},任务无人机执行任务的环境中障碍物表示为B={Bi|i=1,2,…,n},无人机的执行任务的地点表示为P={Pi|i=1,2,…,n},任务无人机Mi在t时刻的动作为
Figure BDA0003461943560000021
动作包括悬停状态或飞行状态,其飞行过程中飞行方向为
Figure BDA0003461943560000022
飞行速度为v;
执行充电任务的充电无人机表示为C={Ci|i=1,2,…,m},充电无人机Ci在t时刻的动作为
Figure BDA0003461943560000023
动作包括悬停状态或飞行状态,其飞行过程中飞行方向为
Figure BDA0003461943560000024
飞行速度为v。
步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程,其模型表述为M=(S,A,P,R,γ),其表达式与参数含义如下:
S表示环境的状态空间,所述状态空间为充电无人机根据观察到的状态采取行动集合,为无限集,包括充电任务过程中所有可能的状态,时刻t的状态空间表示为St,每个状态由充电无人机当前的位置坐标、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态;
A表示任务无人机的动作空间,包含充电无人机在执行充电任务过程中可能采取的所有动作,充电无人机在时刻t采取的行动由
Figure BDA0003461943560000031
表示,充电无人机的每个动作都包含移动方向和充电目标,移动方向的动作空间是连续的,充电目标是充电无人机正在或者将来提供充电的对象;
P表示状态转移概率,所述的状态转移概率定义为在时刻t,给定充电无人机在当前状态St采取特定动作At,充电无人机到达下一个可能状态St+1的概率,P:St×At→St+1,且充电无人机做出的不同动作会以不同方式改变充电无人机的状态;
R表示奖励函数,奖励函数St×At→Rt+1,计算的是充电执行动作At后它的状态从St转换为St+1所获得的奖励值;
γ表示折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
在步骤(2)及上述对于单个充电无人机进行充电调度问题的模型中,对于单个充电无人机进行充电调度问题,当任务无人机完成任务并返回出发点时,任务完成,任务无人机Mi的任务完成时间为Ti,Ti=Tmi+Tci+Twi,其中Tmi表示移动所花费的总时间,Tci是执行任务所花费的时间,Twi表示任务无人机等待充电无人机充电所花费的总时间;
充电调度策略优化的目标是最小化任务完成时间,为了达成目标,充电无人机采取行动At后它的状态从St转换为St+1所获得的奖励值的计算方式包括如下过程:
根据任务无人机预先规划的行进路径和任务,设定任务无人机可以被充电无人机按时充电则持续保持工作,定义奖励函数使充电无人机选择合理的充电目标和移动方向;充电无人机在t时刻的执行动作获得的奖励值设计如下:
rt=Rct+Rmt-Pl-Pb
Rct表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:
Figure BDA0003461943560000032
如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励;如果充电无人机在
Figure BDA0003461943560000033
大于Emi的情况下给任务无人机Mi充电,则奖励Rct为零;Rct中的Et是表示t时刻的充电量,Rc是一个正偏移量,用于鼓励充电无人机h花更多时间用于充电,ft表示充电无人机对每个任务无人机充电的公平性;
Figure BDA0003461943560000034
为任务无人机在t时刻的剩余能量,Em={Em1,Em2…Emn}表示任务无人机完成任务所需的估计最小充电量的集合,
Figure BDA0003461943560000035
表示任务无人机从时刻1到t的累积充电量,公平性因子ft由Jain公平指数计算,其计算表达式如下:
ft=wffct+(1-wf)frt
Figure BDA0003461943560000041
Figure BDA0003461943560000042
wf为权重值,Rct中的Rmt用于鼓励充电无人机向任务无人机的位置移动;
因Rmt与目标任务无人机的剩余能量水平呈负相关,约定剩余电量较少的任务无人机具有高优先级充电,wd和we为负值;充电无人机与任务无人机之间的相对距离变小时或者充电目标的电量越小,Rmt越大,以此来引导充电无人机靠近任务无人机,其中Rmt的计算公式如下:
Figure BDA0003461943560000043
其中D(i)t是充电无人机和任务无人机之间的欧几里得距离Mi,而
Figure BDA0003461943560000044
是Mi在t时刻的剩余能量,当充电无人机为任务无人机充电时,Rmt设置为零;
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚,Eat为任务无人机平均剩余电量,p为固定正值,其表达式如下:
Figure BDA0003461943560000045
Pb是充电无人机飞出边界或撞到环境中的障碍时对充电无人机的惩罚。
步骤(3)在建立多个充电无人机进行充电调度问题的模型中,对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈M=(S,A,T,R,O,γ);
S表示状态空间,时刻t的状态是St,包括了所有无人机在环境中的状态;
A表示动作空间,多个充电无人机在时刻t采取的行动由
Figure BDA0003461943560000046
表示;
T表示状态转移函数,状态转移函数T:
Figure BDA0003461943560000051
环境中,所有的充电无人机同时采取动作,对环境产生影响;
R表示奖励函数,奖励函数
Figure BDA0003461943560000052
计算的是充电无人机Ci执行动作
Figure BDA0003461943560000053
后它的状态从
Figure BDA0003461943560000054
转换为
Figure BDA0003461943560000055
所获得的奖励值;
O表示观察集合:观察是指充电无人机从自己的角度对环境的感知,充电无人机根据自己对环境的观察进行决策,
Figure BDA0003461943560000056
是所有充电无人机在时间t的观测集合;
γ为折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
在步骤(3)及上述对于多个充电无人机进行充电调度问题的模型中,充电无人机Ci在t时刻的奖励设计如下:
Figure BDA0003461943560000057
Figure BDA0003461943560000058
定义如下:
Figure BDA0003461943560000059
ft表示公平性因子;
Figure BDA00034619435600000510
的计算公式如下:
Figure BDA00034619435600000511
其中D(i,j)t是充电无人机Ci和任务无人机Mj之间的欧几里得距离,
Figure BDA00034619435600000512
是任务无人机Mj在时间t的剩余电量,wd和we是调整
Figure BDA00034619435600000513
的负系数;
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚;Pb是充电无人机飞出边界或撞到环境中的障碍时的惩罚。
更进一步的,步骤(4)通过训练actor网络实现充电无人机调度策略优化,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,基于深度强化学习优化单个充电无人机的充电调度策略,基于多智能体强化学习优化多个充电无人机的充电调度策略。
有益效果:本发明所述的充电无人机为任务无人机空中充电的调度方法与传统的地面静态充电方式相比,节省了任务无人机中断任务进行充电的时间,也通过空中充电,拓展延续了任务无人机执行任务的覆盖范围,可灵活部署,且实现了完成任务时间最小化,能量消耗最小化的目标,具有充电时间和充电地点均可灵活部署、分配的效果。
附图说明
图1是本发明所述方法的调度流程图;
图2是无人机远场充电方式的示意图;
图3是无人机近场充电方式的示意图;
图4为实施例中单充电无人机充电任务的场景;
图5为实施例中多充电无人机充电任务的场景;
图6(a)为实施例中依据本发明所述单个充电无人机充电和基于地面的充电方法的平均任务完成时间对比图;
图6(b)为实施例中依据本发明所述多个充电无人机充电和基于地面的充电方法的平均任务完成时间对比图;
图7(a)为实施例中单个充电无人机执行任务时飞行的轨迹图;
图7(b)为实施例中多个充电无人机执行任务时飞行的轨迹图。
具体实施方式
为详细的说明本发明所公开的技术方案,下面结合说明书附图做进一步的表述。
本发明所提供的是一种充电无人机为任务无人机空中充电的调度方法,旨在不中断任务的情况下为无人机充电。在本发明中,具有任务的无人机被称为任务无人机,其中任务通常涉及数据通信和计算(例如,无人机边缘计算)。任务无人机可以通过另一架无人机进行无线充电,即充电无人机。无线充电技术的最新发展使我们的设计成为可能。例如,现有的基于磁共振耦合的充电平台为便携式设备提供充电,射频天线阵列贴片,分布式激光充电(DLC)系统。通过对无人机进行空中充电可以实现几个好处。首先,使用充电无人机代替(或补充)地面充电站可以显着提高灵活性并降低充电站部署所产生的成本。其次,凭借无线充电的优势和无人机的高机动性,系统中的任务无人机可以在移动或悬停时按需充电。第三,由于任务无人机可以通过充电无人机在线补充能量,任务无人机可以继续执行任务而不会降落充电而中断充电。
为了给环境中的任务无人机进行充电,需要对充电无人机进行调度。充电无人机需要根据环境和充电无人机的电量状态进行决策,选择合理的充电对象。强化学习常用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习可用于解决无人机做出充电决策的问题。对于单个充电无人机使用基于深度确定性策略梯度(DDPG)的算法来解决该问题。在多个充电无人机充电场景中,基于多智能体深度确定性策略梯度(MADDPG)的算法可以解决多充电无人机的调度策略优化问题。
本发明所述方法的调度流程如图1所示,所述的方法用于调度充电无人机为执行任务中的任务无人机进行充电,充电无人机和任务无人机均搭载有无线充电设备,该调度方法包括如下步骤:
(1)根据任务无人机的充电需求确定充电方式,所述充电需求信息包括充电无人机提供执行任务的环境障碍、地点、动作及飞行信息;
(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于DDPG算法优化单个充电无人机的充电调度策略;
(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于MADDPG算法优化多个充电无人机的充电调度策略;
(4)基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略(训练actor网络),充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。
具体的过程,以调度充电无人机给执行数据收集任务的任务无人机充电为例。
(1)需要确定给任务无人机进行充电的无线充电方法。
充电无人机给正在执行任务的无人机进行补充电量的方式:使用具有无线充电的功能充电无人机给需要被充电的任务无人机进行充电。根据无线充电的种类提供两种充电方式:远场充电和近场充电。远场充电的方式如图2所示,指的是任务无人机在充电无人机附近飞行,充电无人机通过RF射频充电或者激光无线充电的方式给任务无人机进行充电。近场充电的方式如图3所示,指的是任务无人机降落在充电无人机的无线充电平台上进行充电,主要使用电感耦合或磁共振耦合充电。
选择何种充电方式应根据任务无人机的大小,耗能决定。对于近场充电和远场充电中的RF射频的充电功率较小,一般适用于小型无人机的充电。激光充电的充电效率可达30%,可提供更大的充电功率。由于采用了无线充电,在无人机移动过程中也能进行充电。
本发明所提出的两种充电方式可用于给数据收集任务无人机充电,本实施例中可以采用远场充电方案,使用激光给任务无人机充电。设置充电功率为90w,任务无人机工作功率为60w。
(2)需要确定任务无人机,充电无人机相关参数和执行任务的环境。图4和图5分别展示了单个充电无人机和多个充电无人机的工作场景,其中MUAV指数据收集任务无人机,CUAV指充电无人机,PoI指任务无人机执行数据收集任务的地点。任务无人机出发后执行数据收集任务,任务完成后返回出发点。黑色虚线是任务无人机执行数据收集任务的轨迹,灰色虚线是任务无人机返回的轨迹。但是,由于任务电量不足,如果不进行充电,任务无人机任务将会中断,并提前降落。需要调度充电无人机对其充电,以确保其能够完成收集任务并返回出发点。所有的环境因素,包括无人机,障碍,PoI等可按照前述技术方案的技术进行定义。需要提前定义PoI和障碍的位置,任务无人机的执行收集任务的飞行路径。有n个任务无人机执行任务,表示为M={Mi|i=1,2,…,n}。任务无人机执行任务的环境中障碍物表示为B={Bi|i=1,2,…,n},无人机的执行任务的地点表示为P={Pi|i=1,2,…,n}。任务无人机Mi在t时刻的动作为
Figure BDA0003461943560000081
动作可以是悬停执行任务,或者是飞行。飞行过程中飞行方向为
Figure BDA0003461943560000082
飞行速度为v。执行充电任务的充电无人机表示为C={Ci|i=1,2,…,m}。充电无人机Ci在t时刻的动作为
Figure BDA0003461943560000083
动作可以是悬停在某处给,或者是飞行。飞行过程中飞行方向为
Figure BDA0003461943560000084
飞行速度为v。
(3)对于单个充电无人机充电问题,需要建立单个充电无人机进行充电调度问题的模型。根据前述技术方案的建模方法,建立马尔可夫决策过程的模型。具体的状态,动作,奖励等设计根据前述的技术方案进行设置。这个过程可以建模成一个马尔可夫过程M=(S,A,P,R,γ)。
a)状态空间:环境的状态空间S是一个无限集,包括充电任务过程中所有可能的状态。时刻t的状态是St。每个状态由无人机当前的位置(二维坐标)、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态。
b)动作空间:动作空间A包含了充电无人机在执行充电任务过程中可能采取的所有动作。充电无人机在时刻t采取的行动由
Figure BDA0003461943560000085
表示。充电无人机的每个动作都包含移动方向(二维向量)和充电目标。移动方向的动作空间是连续的。充电目标是充电无人机正在或者将来提供充电的对象(任务无人机)。
c)状态转移概率:状态转移概率定义为:在时刻t,给定充电无人机在当前状态St采取特定动作At,充电无人机到达下一个可能状态St+1的概率,即P:St×At→St+1。充电无人机做出的不同动作会以不同方式改变充电无人机的状态,例如,当采取移动到另一个位置的动作时,所有无人机位置和任务无人机的剩余能量都会发生变化。
d)奖励函数:St×At→Rt+1,计算的是充电无人机采取行动Ct后它的状态从S转换为St+1所获得的奖励。在本发明的问题中,目标是最小化任务完成时间。任务无人机的行进路径和任务是预先规划好的,如果任务无人机可以被充电无人机按时充电(保持能量状态在安全阈值以上),充电无人机在t时刻的奖励设计如下:
rt=Rct+Rmt-Pl-Pb
Rct表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:
Figure BDA0003461943560000091
如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励。如果充电无人机在
Figure BDA0003461943560000092
大于Emi的情况下给任务无人机Mi充电,则奖励Rct为零。Rct中的Et是表示t时刻的充电量。Rc是一个正偏移量,用于鼓励充电无人机h花更多时间用于充电。ft表示充电无人机对每个任务无人机充电的公平性。如果每个任务无人机被公平地充电,充电无人机的将获得更大奖励值。
Figure BDA0003461943560000093
表示任务无人机在t时刻的剩余能量,Em={Em1,Em2…Emn}是任务无人机完成任务所需的估计最小充电量的集合。
Figure BDA0003461943560000094
表示任务无人机从时刻1到t的累积充电量。公平性因子ft是利用Jain公平指数计算出来的,如下:
ft=wffct+(1-wf)frt
Figure BDA0003461943560000095
Figure BDA0003461943560000096
wf是一个权重,可以调整以提升算法效果。
Rct中的Rmt用于鼓励充电无人机朝向任务无人机的位置移动。我们认为Rmt与目标任务无人机的剩余能量水平呈负相关,即剩余电量较少的任务无人机具有高优先级充电。wd和we为负值。充电无人机与充电目标(任务无人机)之间的相对距离变小时或者充电目标的电量越小,Rmt越大,以此来引导充电无人机靠近任务无人机。Rmt的计算公式如下:
Figure BDA0003461943560000101
其中D(i)t是充电无人机和任务无人机之间的欧几里得距离Mi,而
Figure BDA0003461943560000102
是Mi在t时刻的剩余能量。当充电无人机为任务无人机充电时,Rmt设置为零。
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚,Eat为任务无人机平均剩余电量,p为固定正值,其表达式如下:
Figure BDA0003461943560000103
Pb是充电无人机飞出边界或撞到环境中的障碍(例如树木、建筑物、禁飞区)时对充电无人机的惩罚。
e)折扣因子:γ∈[0,1]被定义为一个折扣因子,它决定了未来奖励对当前即时奖励的影响程度。
(4)对于多个充电无人机充电问题,需要建立多个充电无人机进行充电调度问题的模型。根据前述技术方案的建模方法,建立马尔可夫博弈的模型。具体的状态,动作,奖励等设计根据前述的技术方案进行设置。同时调度多个充电无人机的过程可以建模成一个马尔可夫博弈M=(S,A,T,R,O,γ)。
A)状态空间:时刻t的状态是St。包括了所有无人机在环境中的状态。
B)动作空间:多个充电无人机在时刻t采取的行动由
Figure BDA0003461943560000104
表示。。
C)状态转移函数:状态转移函数T:
Figure BDA0003461943560000105
环境中,所有的充电无人机同时采取动作,对环境产生影响。
D)观察:观察是指充电无人机从自己的角度对环境的感知。充电无人机根据自己对环境的观察进行决策。
Figure BDA0003461943560000106
是所有充电无人机在时间t的观测集合。
E)奖励函数:
奖励函数为
Figure BDA0003461943560000111
得到的是所有充电无人机行动后得到的奖励的集合。多无人机调度下的奖励函数和单无人机调度类似,充电无人机Ci在t时刻的奖励设计如下:
Figure BDA0003461943560000112
Figure BDA0003461943560000113
定义如下:
Figure BDA0003461943560000114
ft的计算方法如上述单个充电无人机进行充电调度问题的模型的计算相同。
Figure BDA0003461943560000115
的计算公式如下:
Figure BDA0003461943560000116
其中D(i,j)t是充电无人机Ci和任务无人机Mj之间的欧几里得距离,
Figure BDA0003461943560000117
是任务无人机Mj在时间t的剩余电量。wd和we是调整
Figure BDA0003461943560000118
的负系数。
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚(即负值奖励),计算方法同上述单个充电无人机充电建模的求解计算过程。
Pb是充电无人机飞出边界或撞到环境中的块(例如树木、建筑物、禁飞区)时的惩罚。
F)折扣因子:γ∈[0,1]被定义为一个折扣因子,它决定了未来奖励对当前即时奖励的影响程度。
(5)使用深度强化学习或多智能体强化学习训练actor网络,充电无人机向通过训练得到的actor网络输入当前状态以进行决策。任务无人机工作环境设置为二维正方形平面。当充电无人机和任务无人机出发时,任务和充电调度开始。强化学习算法的每个训练集都是执行充电任务的历史经验。强化学习算法的每个训练片段在充电无人机和任务无人机(满能量)开始工作时开始,并在所有任务无人机返回站(完成任务后)或步长达到预设限制值时结束。在强化学习算法的设置中,actor和critic神经网络有2个隐藏层,每个隐藏层有64个神经元。actor网络使用Softmax作为激活函数来生成动作。经验重放缓冲区大小最多可容纳600,000条记录用于更新权重,每轮更新从缓冲区采样1024条记录。学习率和折扣因子分别设置为α=0.01和γ=0.95。该算法在训练60,000次任务后结束。奖励函数中wf设置为0.4,wd=-1,we=-1.33。
本发明所述的方法中,对于单充电无人机采用DDPG方法求解,多无人机采用MADDPG算法求解。通过训练后得到的actor网络,充电无人机输入自己的状态或对环境的观察,从而得到该采取的动作。算法如下,其中MUAV为任务无人机,CUAV为充电无人机。也可以根据相关模型建模和算法编写代码,构建数据收集环境。通过算法处理单充电无人机充电场景和多充电无人机充电场景中的充电无人机策略优化问题。在训练过程中,策略逐渐收敛。图6(a)和图6(b)展示了单充电无人机充电和多充电无人机充电在缩短任务无人机执行任务时间上和基于地面的充电方法的对比(地面充电桩,充电车)。使用充电无人机充电在任务完成时间上又优势。图7(a)和图7(b)分别展示了单充电无人机充电和多充电无人机环境下充电调度过程中无人机的飞行轨迹。充电无人机能根据学习到策略及时地对执行数据收集任务的任务无人机进行充电。

Claims (8)

1.一种充电无人机为任务无人机空中充电的调度方法,该方法用于调度充电无人机为执行任务中的任务无人机进行充电,其特征在于:所述调度方法包括如下步骤:
(1)根据任务无人机的充电需求信息确定充电方式,充电需求信息包括充电无人机执行任务的环境障碍、地点、动作及飞行数据;
(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于DDPG算法优化单个充电无人机的充电调度策略;
(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于MADDPG算法优化多个充电无人机的充电调度策略;
(4)以任务无人机完成任务的时间最短为目标,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。
2.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(1)充电无人机为任务充电方式包括近场充电和远场充电,近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电,远场充电是由充电无人机通过RF射频或激光实现能量转化充电。
3.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(1)对于存在有n个任务无人机执行任务时,则表示为M={Mi|i=1,2,…,n},任务无人机执行任务的环境中障碍物表示为B={Bi|i=1,2,…,n},无人机的执行任务的地点表示为P={Pi|i=1,2,…,n},任务无人机Mi在t时刻的动作为
Figure FDA0003461943550000011
动作包括悬停状态或飞行状态,其飞行过程中飞行方向为
Figure FDA0003461943550000012
飞行速度为v;
执行充电任务的充电无人机表示为C={Ci|i=1,2,…,m},充电无人机Ci在t时刻的动作为
Figure FDA0003461943550000013
动作包括悬停状态或飞行状态,其飞行过程中飞行方向为
Figure FDA0003461943550000014
飞行速度为v。
4.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程,其模型表述为M=(S,A,P,R,γ),其表达式与参数含义如下:
S表示环境的状态空间,所述状态空间为充电无人机根据观察到的状态采取行动集合,为无限集,包括充电任务过程中所有可能的状态,时刻t的状态空间表示为St,每个状态由充电无人机当前的位置坐标、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态;
A表示任务无人机的动作空间,包含充电无人机在执行充电任务过程中可能采取的所有动作,充电无人机在时刻t采取的行动由
Figure FDA0003461943550000023
表示,充电无人机的每个动作都包含移动方向和充电目标,移动方向的动作空间是连续的,充电目标是充电无人机正在或者将来提供充电的对象;
P表示状态转移概率,所述的状态转移概率定义为在时刻t,给定充电无人机在当前状态St采取特定动作At,充电无人机到达下一个可能状态St+1的概率,P:St×At→St+1,且充电无人机做出的不同动作会以不同方式改变充电无人机的状态;
R表示奖励函数,奖励函数St×At→Rt+1,计算的是充电执行动作At后它的状态从St转换为St+1所获得的奖励值;
γ表示折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
5.根据权利要求4述的充电无人机为任务无人机空中充电的调度方法,其特征在于:对于单个充电无人机进行充电调度问题的模型,当任务无人机完成任务并返回出发点时表示任务完成,任务无人机Mi的任务完成时间为Ti,Ti=Tmi+Tci+Twi,其中Tmi表示移动所花费的总时间,Tci是执行任务所花费的时间,Twi表示任务无人机等待充电无人机充电所花费的总时间;
充电无人机采取行动At后它的状态从St转换为St+1所获得的奖励值的计算方式包括如下过程:
根据任务无人机预先规划的行进路径和任务,设定任务无人机可以被充电无人机按时充电则持续保持工作,定义奖励函数使充电无人机选择合理的充电目标和移动方向;充电无人机在t时刻的执行动作获得的奖励值设计如下:
rt=Rct+Rmt-Pl-Pb
Rct表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:
Figure FDA0003461943550000021
如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励;如果充电无人机在
Figure FDA0003461943550000022
大于Emi的情况下给任务无人机Mi充电,则奖励Rct为零;Rct中的Et是表示t时刻的充电量,Rc是一个正偏移量,用于鼓励充电无人机花费更多时间用于充电,ft表示充电无人机对每个任务无人机充电的公平性;
Figure FDA0003461943550000031
为任务无人机在t时刻的剩余能量,Em={Em1,Em2…Emn}表示任务无人机完成任务所需的估计最小充电量的集合,
Figure FDA0003461943550000032
表示任务无人机从时刻1到t的累积充电量,公平性因子ft由Jain公平指数计算,其计算表达式如下:
ft=wffct+(1-wf)frt
Figure FDA0003461943550000033
Figure FDA0003461943550000034
wf为权重值,Rct中的Rmt用于鼓励充电无人机朝向任务无人机的位置移动;
因Rmt与目标任务无人机的剩余能量水平呈负相关,约定剩余电量较少的任务无人机具有高优先级充电,wd和we为负值;充电无人机与任务无人机之间的相对距离变小时或者充电目标的电量越小,Rmt越大,以此来引导充电无人机靠近任务无人机,其中Rmt的计算公式如下:
Figure FDA0003461943550000035
其中D(i)t是充电无人机和任务无人机之间的欧几里得距离Mi,而
Figure FDA0003461943550000037
是Mi在t时刻的剩余能量,当充电无人机为任务无人机充电时,Rmt设置为零;
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚,Eat为任务无人机平均剩余电量,p为固定正值,其表达式如下:
Figure FDA0003461943550000036
Pb是充电无人机飞出边界或撞到环境中的障碍时对充电无人机的惩罚。
6.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(3)在建立多个充电无人机进行充电调度问题的模型中,对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈M=(S,A,T,R,O,γ);
S表示状态空间,时刻t的状态是St,包括了所有无人机在环境中的状态;
A表示动作空间,多个充电无人机在时刻t采取的行动由
Figure FDA0003461943550000041
表示;
T表示状态转移函数,状态转移函数T:
Figure FDA0003461943550000042
环境中,所有的充电无人机同时采取动作,对环境产生影响;
R表示奖励函数,奖励函数
Figure FDA0003461943550000043
计算的是充电无人机Ci执行动作
Figure FDA0003461943550000044
后它的状态从
Figure FDA0003461943550000045
转换为
Figure FDA0003461943550000046
所获得的奖励值;
O表示观察集合:观察是指充电无人机从自己的角度对环境的感知,充电无人机根据自己对环境的观察进行决策,
Figure FDA0003461943550000047
表示所有充电无人机在时间t的观测集合;
γ为折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
7.根据权利要求6述的充电无人机为任务无人机空中充电的调度方法,其特征在于:对于多个充电无人机进行充电调度问题的模型中,充电无人机Ci在t时刻的奖励设计如下:
Figure FDA0003461943550000048
Figure FDA0003461943550000049
定义如下:
Figure FDA00034619435500000410
ft表示公平性因子;
Figure FDA00034619435500000411
的计算公式如下:
Figure FDA00034619435500000412
其中D(i,j)t是充电无人机Ci和任务无人机Mj之间的欧几里得距离,
Figure FDA00034619435500000413
是任务无人机Mj在时间t的剩余电量,wd和we是调整
Figure FDA00034619435500000414
的负系数;
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚;Pb是充电无人机飞出边界或撞到环境中的障碍时的惩罚。
8.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(4)通过训练actor网络实现充电无人机调度策略优化,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,基于深度强化学习优化单个充电无人机的充电调度策略,基于多智能体强化学习优化多个充电无人机的充电调度策略。
CN202210019884.XA 2022-01-10 2022-01-10 一种充电无人机为任务无人机空中充电的调度方法 Pending CN114548663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210019884.XA CN114548663A (zh) 2022-01-10 2022-01-10 一种充电无人机为任务无人机空中充电的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210019884.XA CN114548663A (zh) 2022-01-10 2022-01-10 一种充电无人机为任务无人机空中充电的调度方法

Publications (1)

Publication Number Publication Date
CN114548663A true CN114548663A (zh) 2022-05-27

Family

ID=81669455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210019884.XA Pending CN114548663A (zh) 2022-01-10 2022-01-10 一种充电无人机为任务无人机空中充电的调度方法

Country Status (1)

Country Link
CN (1) CN114548663A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330556A (zh) * 2022-08-10 2022-11-11 北京百度网讯科技有限公司 充电站的信息调整模型的训练方法、装置及产品
CN116502547A (zh) * 2023-06-29 2023-07-28 深圳大学 一种基于图强化学习的多无人机无线能量传输方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115330556A (zh) * 2022-08-10 2022-11-11 北京百度网讯科技有限公司 充电站的信息调整模型的训练方法、装置及产品
CN115330556B (zh) * 2022-08-10 2024-04-02 北京百度网讯科技有限公司 充电站的信息调整模型的训练方法、装置及产品
CN116502547A (zh) * 2023-06-29 2023-07-28 深圳大学 一种基于图强化学习的多无人机无线能量传输方法
CN116502547B (zh) * 2023-06-29 2024-06-04 深圳大学 一种基于图强化学习的多无人机无线能量传输方法

Similar Documents

Publication Publication Date Title
Liu et al. Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
CN114548663A (zh) 一种充电无人机为任务无人机空中充电的调度方法
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
Zhu et al. Aerial refueling: Scheduling wireless energy charging for UAV enabled data collection
CN108170158B (zh) 基于数据驱动的无人机智能对抗控制方法
CN114169234A (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
CN116451934B (zh) 多无人机边缘计算路径优化与依赖任务调度优化方法及系统
Bartashevich et al. Energy-saving decision making for aerial swarms: PSO-based navigation in vector fields
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Wang et al. Robotic wireless energy transfer in dynamic environments: system design and experimental validation
CN113283827B (zh) 一种基于深度强化学习的两阶段无人机物流路径规划方法
CN117724524A (zh) 一种基于改进球面向量粒子群算法的无人机航线规划方法
CN114355900A (zh) 一种无人机与无人车结合的协同作业方法
Peng et al. Cooperative area search for multiple UAVs based on RRT and decentralized receding horizon optimization
CN116757249A (zh) 一种基于分布式强化学习的无人机集群策略意图识别方法
Zhang et al. Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning
CN116702903A (zh) 一种基于深度强化学习的航天器集群博弈智能决策方法
CN116203990A (zh) 基于梯度下降法的无人机路径规划方法及系统
Wang et al. Deep reinforcement learning based multi-uuv cooperative control for target capturing
Poudel et al. Priority-aware task assignment and path planning for efficient and load-balanced multi-UAV operation
CN114756017A (zh) 一种无人机与无人艇结合的导航避障方法
Yang et al. Learning-based aerial charging scheduling for UAV-based data collection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination