CN114548663A - 一种充电无人机为任务无人机空中充电的调度方法 - Google Patents
一种充电无人机为任务无人机空中充电的调度方法 Download PDFInfo
- Publication number
- CN114548663A CN114548663A CN202210019884.XA CN202210019884A CN114548663A CN 114548663 A CN114548663 A CN 114548663A CN 202210019884 A CN202210019884 A CN 202210019884A CN 114548663 A CN114548663 A CN 114548663A
- Authority
- CN
- China
- Prior art keywords
- charging
- unmanned aerial
- aerial vehicle
- task
- drone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002787 reinforcement Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 10
- 230000008878 coupling Effects 0.000 claims description 9
- 238000010168 coupling process Methods 0.000 claims description 9
- 238000005859 coupling reaction Methods 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000001939 inductive effect Effects 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000013480 data collection Methods 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- HSFWRNGVRCDJHI-UHFFFAOYSA-N Acetylene Chemical compound C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02T90/10—Technologies relating to charging of electric vehicles
- Y02T90/16—Information or communication technologies improving the operation of electric vehicles
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种充电无人机为任务无人机空中充电的调度方法,用于调度充电无人机为正在空中执行任务的任务无人机进行充电。该方法根据任务无人机的充电需求确定远程充电或近场充电方式,然后根据充电无人机的参与数量进行分类建模计算,包括建立单个充电无人机进行充电调度问题的模型和建立多个充电无人机进行充电调度问题的模型进行求解;最后基于深度强化学习或多智能体强化学习的算法优化充电无人机的充电调度策略,充电无人机根据优化的策略和当前环境的状态以进行决策,根据充电调度指令完成任务无人机的充电。本发明实现了任务无人机任务完成时间最短,对任务无人机的公平充电和充电无人机的充电调度策略优化。
Description
技术领域
本发明属于飞行调度技术,具体涉及一种充电无人机为任务无人机空中充电的调度方法。
背景技术
近年来,由于无人机(UAV)具有成本低、遥控方便、部署灵活、机动性强等优点,无人机在很多领域得到广泛的应用。无人机可以可搭载各种设备,完成许多民用应用的各种任务,例如数据采集、环境监测、区域检测、通信、物流等。大多数小型无人机通过配备电池的电力驱动。然而,此类无人机电池容量有限,只能支持较短的工作和飞行时间。大多数电池驱动的无人机的运行时间从几十分钟到一个小时不等。无人机活动范围因此也受限。如果任务时间超过无人机的续航时间或者无人机需要在更大范围内执行任务,则无人机必须着陆充电或派遣更多的无人机执行任务。如果无人机需要着陆到地面充电,那正在执行的任务将被中断,任务的完成时间也会被推迟。
要想大幅度增加无人机的工作时间,一个直观的方法是为无人机配备更大容量的电池,但这也会显着增加无人机的重量和体积。为了克服上述问题,为一组选定的无人机在线补充能量成为一种很有前景的选择。为了在任务期间为无人机充电,已经提出了基于地面站的无线充电方案,可分为近场充电和远场充电两种类型。使用近场充电,无人机需要降落在地面充电站上,通过电感耦合或磁共振耦合进行充电。远场充电通常由激光束进行,其中无人机在地面充电站周围盘旋,并可以通过来自地面站的对准激光束进行充电。虽然现有的基于地面充电站的解决方案可以有效延长无人机的工作时间,但仍然存在一些缺点。首先,地面站需要预先部署在某些固定位置,当无人机应用场景或环境是动态的时,会产生额外的成本。其次,正在充电的无人机必须暂停正在进行的任务并物理移动到充电站进行能量补充。这无疑会增加任务时间和能量消耗,也会中断无人机正在执行的任务。
发明内容
发明目的:为了解决无人机应用场景中电量不足的问题,考虑无线充电应用的合理性,本发明提供一种充电无人机为任务无人机空中充电的调度方法。
技术方案:一种充电无人机为任务无人机空中充电的调度方法,该方法用于调度充电无人机为执行任务中的任务无人机进行充电,所述调度方法包括如下步骤:
(1)根据任务无人机的充电需求信息确定充电方式,充电需求信息包括充电无人机执行任务的环境障碍、地点、动作及飞行数据;
(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于DDPG算法优化单个充电无人机的充电调度策略;
(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于MADDPG算法优化多个充电无人机的充电调度策略;
(4)以任务无人机完成任务的时间最短为目标,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。
进一步的,步骤(1)所述的无人机充电方式包括近场充电和远场充电,充电无人机和任务无人机搭载有相应的无线充电设备,近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电,远场充电是由充电无人机通过RF射频或激光实现能量转化充电。
所述方法的步骤(1)对于存在有n个任务无人机执行任务时,则表示为M={Mi|i=1,2,…,n},任务无人机执行任务的环境中障碍物表示为B={Bi|i=1,2,…,n},无人机的执行任务的地点表示为P={Pi|i=1,2,…,n},任务无人机Mi在t时刻的动作为动作包括悬停状态或飞行状态,其飞行过程中飞行方向为飞行速度为v;
步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程,其模型表述为M=(S,A,P,R,γ),其表达式与参数含义如下:
S表示环境的状态空间,所述状态空间为充电无人机根据观察到的状态采取行动集合,为无限集,包括充电任务过程中所有可能的状态,时刻t的状态空间表示为St,每个状态由充电无人机当前的位置坐标、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态;
A表示任务无人机的动作空间,包含充电无人机在执行充电任务过程中可能采取的所有动作,充电无人机在时刻t采取的行动由表示,充电无人机的每个动作都包含移动方向和充电目标,移动方向的动作空间是连续的,充电目标是充电无人机正在或者将来提供充电的对象;
P表示状态转移概率,所述的状态转移概率定义为在时刻t,给定充电无人机在当前状态St采取特定动作At,充电无人机到达下一个可能状态St+1的概率,P:St×At→St+1,且充电无人机做出的不同动作会以不同方式改变充电无人机的状态;
R表示奖励函数,奖励函数St×At→Rt+1,计算的是充电执行动作At后它的状态从St转换为St+1所获得的奖励值;
γ表示折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
在步骤(2)及上述对于单个充电无人机进行充电调度问题的模型中,对于单个充电无人机进行充电调度问题,当任务无人机完成任务并返回出发点时,任务完成,任务无人机Mi的任务完成时间为Ti,Ti=Tmi+Tci+Twi,其中Tmi表示移动所花费的总时间,Tci是执行任务所花费的时间,Twi表示任务无人机等待充电无人机充电所花费的总时间;
充电调度策略优化的目标是最小化任务完成时间,为了达成目标,充电无人机采取行动At后它的状态从St转换为St+1所获得的奖励值的计算方式包括如下过程:
根据任务无人机预先规划的行进路径和任务,设定任务无人机可以被充电无人机按时充电则持续保持工作,定义奖励函数使充电无人机选择合理的充电目标和移动方向;充电无人机在t时刻的执行动作获得的奖励值设计如下:
rt=Rct+Rmt-Pl-Pb
Rct表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:
如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励;如果充电无人机在大于Emi的情况下给任务无人机Mi充电,则奖励Rct为零;Rct中的Et是表示t时刻的充电量,Rc是一个正偏移量,用于鼓励充电无人机h花更多时间用于充电,ft表示充电无人机对每个任务无人机充电的公平性;
为任务无人机在t时刻的剩余能量,Em={Em1,Em2…Emn}表示任务无人机完成任务所需的估计最小充电量的集合,表示任务无人机从时刻1到t的累积充电量,公平性因子ft由Jain公平指数计算,其计算表达式如下:
ft=wffct+(1-wf)frt
wf为权重值,Rct中的Rmt用于鼓励充电无人机向任务无人机的位置移动;
因Rmt与目标任务无人机的剩余能量水平呈负相关,约定剩余电量较少的任务无人机具有高优先级充电,wd和we为负值;充电无人机与任务无人机之间的相对距离变小时或者充电目标的电量越小,Rmt越大,以此来引导充电无人机靠近任务无人机,其中Rmt的计算公式如下:
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚,Eat为任务无人机平均剩余电量,p为固定正值,其表达式如下:
Pb是充电无人机飞出边界或撞到环境中的障碍时对充电无人机的惩罚。
步骤(3)在建立多个充电无人机进行充电调度问题的模型中,对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈M=(S,A,T,R,O,γ);
S表示状态空间,时刻t的状态是St,包括了所有无人机在环境中的状态;
γ为折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
在步骤(3)及上述对于多个充电无人机进行充电调度问题的模型中,充电无人机Ci在t时刻的奖励设计如下:
ft表示公平性因子;
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚;Pb是充电无人机飞出边界或撞到环境中的障碍时的惩罚。
更进一步的,步骤(4)通过训练actor网络实现充电无人机调度策略优化,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,基于深度强化学习优化单个充电无人机的充电调度策略,基于多智能体强化学习优化多个充电无人机的充电调度策略。
有益效果:本发明所述的充电无人机为任务无人机空中充电的调度方法与传统的地面静态充电方式相比,节省了任务无人机中断任务进行充电的时间,也通过空中充电,拓展延续了任务无人机执行任务的覆盖范围,可灵活部署,且实现了完成任务时间最小化,能量消耗最小化的目标,具有充电时间和充电地点均可灵活部署、分配的效果。
附图说明
图1是本发明所述方法的调度流程图;
图2是无人机远场充电方式的示意图;
图3是无人机近场充电方式的示意图;
图4为实施例中单充电无人机充电任务的场景;
图5为实施例中多充电无人机充电任务的场景;
图6(a)为实施例中依据本发明所述单个充电无人机充电和基于地面的充电方法的平均任务完成时间对比图;
图6(b)为实施例中依据本发明所述多个充电无人机充电和基于地面的充电方法的平均任务完成时间对比图;
图7(a)为实施例中单个充电无人机执行任务时飞行的轨迹图;
图7(b)为实施例中多个充电无人机执行任务时飞行的轨迹图。
具体实施方式
为详细的说明本发明所公开的技术方案,下面结合说明书附图做进一步的表述。
本发明所提供的是一种充电无人机为任务无人机空中充电的调度方法,旨在不中断任务的情况下为无人机充电。在本发明中,具有任务的无人机被称为任务无人机,其中任务通常涉及数据通信和计算(例如,无人机边缘计算)。任务无人机可以通过另一架无人机进行无线充电,即充电无人机。无线充电技术的最新发展使我们的设计成为可能。例如,现有的基于磁共振耦合的充电平台为便携式设备提供充电,射频天线阵列贴片,分布式激光充电(DLC)系统。通过对无人机进行空中充电可以实现几个好处。首先,使用充电无人机代替(或补充)地面充电站可以显着提高灵活性并降低充电站部署所产生的成本。其次,凭借无线充电的优势和无人机的高机动性,系统中的任务无人机可以在移动或悬停时按需充电。第三,由于任务无人机可以通过充电无人机在线补充能量,任务无人机可以继续执行任务而不会降落充电而中断充电。
为了给环境中的任务无人机进行充电,需要对充电无人机进行调度。充电无人机需要根据环境和充电无人机的电量状态进行决策,选择合理的充电对象。强化学习常用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习可用于解决无人机做出充电决策的问题。对于单个充电无人机使用基于深度确定性策略梯度(DDPG)的算法来解决该问题。在多个充电无人机充电场景中,基于多智能体深度确定性策略梯度(MADDPG)的算法可以解决多充电无人机的调度策略优化问题。
本发明所述方法的调度流程如图1所示,所述的方法用于调度充电无人机为执行任务中的任务无人机进行充电,充电无人机和任务无人机均搭载有无线充电设备,该调度方法包括如下步骤:
(1)根据任务无人机的充电需求确定充电方式,所述充电需求信息包括充电无人机提供执行任务的环境障碍、地点、动作及飞行信息;
(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于DDPG算法优化单个充电无人机的充电调度策略;
(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于MADDPG算法优化多个充电无人机的充电调度策略;
(4)基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略(训练actor网络),充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。
具体的过程,以调度充电无人机给执行数据收集任务的任务无人机充电为例。
(1)需要确定给任务无人机进行充电的无线充电方法。
充电无人机给正在执行任务的无人机进行补充电量的方式:使用具有无线充电的功能充电无人机给需要被充电的任务无人机进行充电。根据无线充电的种类提供两种充电方式:远场充电和近场充电。远场充电的方式如图2所示,指的是任务无人机在充电无人机附近飞行,充电无人机通过RF射频充电或者激光无线充电的方式给任务无人机进行充电。近场充电的方式如图3所示,指的是任务无人机降落在充电无人机的无线充电平台上进行充电,主要使用电感耦合或磁共振耦合充电。
选择何种充电方式应根据任务无人机的大小,耗能决定。对于近场充电和远场充电中的RF射频的充电功率较小,一般适用于小型无人机的充电。激光充电的充电效率可达30%,可提供更大的充电功率。由于采用了无线充电,在无人机移动过程中也能进行充电。
本发明所提出的两种充电方式可用于给数据收集任务无人机充电,本实施例中可以采用远场充电方案,使用激光给任务无人机充电。设置充电功率为90w,任务无人机工作功率为60w。
(2)需要确定任务无人机,充电无人机相关参数和执行任务的环境。图4和图5分别展示了单个充电无人机和多个充电无人机的工作场景,其中MUAV指数据收集任务无人机,CUAV指充电无人机,PoI指任务无人机执行数据收集任务的地点。任务无人机出发后执行数据收集任务,任务完成后返回出发点。黑色虚线是任务无人机执行数据收集任务的轨迹,灰色虚线是任务无人机返回的轨迹。但是,由于任务电量不足,如果不进行充电,任务无人机任务将会中断,并提前降落。需要调度充电无人机对其充电,以确保其能够完成收集任务并返回出发点。所有的环境因素,包括无人机,障碍,PoI等可按照前述技术方案的技术进行定义。需要提前定义PoI和障碍的位置,任务无人机的执行收集任务的飞行路径。有n个任务无人机执行任务,表示为M={Mi|i=1,2,…,n}。任务无人机执行任务的环境中障碍物表示为B={Bi|i=1,2,…,n},无人机的执行任务的地点表示为P={Pi|i=1,2,…,n}。任务无人机Mi在t时刻的动作为动作可以是悬停执行任务,或者是飞行。飞行过程中飞行方向为飞行速度为v。执行充电任务的充电无人机表示为C={Ci|i=1,2,…,m}。充电无人机Ci在t时刻的动作为动作可以是悬停在某处给,或者是飞行。飞行过程中飞行方向为飞行速度为v。
(3)对于单个充电无人机充电问题,需要建立单个充电无人机进行充电调度问题的模型。根据前述技术方案的建模方法,建立马尔可夫决策过程的模型。具体的状态,动作,奖励等设计根据前述的技术方案进行设置。这个过程可以建模成一个马尔可夫过程M=(S,A,P,R,γ)。
a)状态空间:环境的状态空间S是一个无限集,包括充电任务过程中所有可能的状态。时刻t的状态是St。每个状态由无人机当前的位置(二维坐标)、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态。
b)动作空间:动作空间A包含了充电无人机在执行充电任务过程中可能采取的所有动作。充电无人机在时刻t采取的行动由表示。充电无人机的每个动作都包含移动方向(二维向量)和充电目标。移动方向的动作空间是连续的。充电目标是充电无人机正在或者将来提供充电的对象(任务无人机)。
c)状态转移概率:状态转移概率定义为:在时刻t,给定充电无人机在当前状态St采取特定动作At,充电无人机到达下一个可能状态St+1的概率,即P:St×At→St+1。充电无人机做出的不同动作会以不同方式改变充电无人机的状态,例如,当采取移动到另一个位置的动作时,所有无人机位置和任务无人机的剩余能量都会发生变化。
d)奖励函数:St×At→Rt+1,计算的是充电无人机采取行动Ct后它的状态从S转换为St+1所获得的奖励。在本发明的问题中,目标是最小化任务完成时间。任务无人机的行进路径和任务是预先规划好的,如果任务无人机可以被充电无人机按时充电(保持能量状态在安全阈值以上),充电无人机在t时刻的奖励设计如下:
rt=Rct+Rmt-Pl-Pb
Rct表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:
如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励。如果充电无人机在大于Emi的情况下给任务无人机Mi充电,则奖励Rct为零。Rct中的Et是表示t时刻的充电量。Rc是一个正偏移量,用于鼓励充电无人机h花更多时间用于充电。ft表示充电无人机对每个任务无人机充电的公平性。如果每个任务无人机被公平地充电,充电无人机的将获得更大奖励值。表示任务无人机在t时刻的剩余能量,Em={Em1,Em2…Emn}是任务无人机完成任务所需的估计最小充电量的集合。表示任务无人机从时刻1到t的累积充电量。公平性因子ft是利用Jain公平指数计算出来的,如下:
ft=wffct+(1-wf)frt
wf是一个权重,可以调整以提升算法效果。
Rct中的Rmt用于鼓励充电无人机朝向任务无人机的位置移动。我们认为Rmt与目标任务无人机的剩余能量水平呈负相关,即剩余电量较少的任务无人机具有高优先级充电。wd和we为负值。充电无人机与充电目标(任务无人机)之间的相对距离变小时或者充电目标的电量越小,Rmt越大,以此来引导充电无人机靠近任务无人机。Rmt的计算公式如下:
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚,Eat为任务无人机平均剩余电量,p为固定正值,其表达式如下:
Pb是充电无人机飞出边界或撞到环境中的障碍(例如树木、建筑物、禁飞区)时对充电无人机的惩罚。
e)折扣因子:γ∈[0,1]被定义为一个折扣因子,它决定了未来奖励对当前即时奖励的影响程度。
(4)对于多个充电无人机充电问题,需要建立多个充电无人机进行充电调度问题的模型。根据前述技术方案的建模方法,建立马尔可夫博弈的模型。具体的状态,动作,奖励等设计根据前述的技术方案进行设置。同时调度多个充电无人机的过程可以建模成一个马尔可夫博弈M=(S,A,T,R,O,γ)。
A)状态空间:时刻t的状态是St。包括了所有无人机在环境中的状态。
E)奖励函数:
ft的计算方法如上述单个充电无人机进行充电调度问题的模型的计算相同。
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚(即负值奖励),计算方法同上述单个充电无人机充电建模的求解计算过程。
Pb是充电无人机飞出边界或撞到环境中的块(例如树木、建筑物、禁飞区)时的惩罚。
F)折扣因子:γ∈[0,1]被定义为一个折扣因子,它决定了未来奖励对当前即时奖励的影响程度。
(5)使用深度强化学习或多智能体强化学习训练actor网络,充电无人机向通过训练得到的actor网络输入当前状态以进行决策。任务无人机工作环境设置为二维正方形平面。当充电无人机和任务无人机出发时,任务和充电调度开始。强化学习算法的每个训练集都是执行充电任务的历史经验。强化学习算法的每个训练片段在充电无人机和任务无人机(满能量)开始工作时开始,并在所有任务无人机返回站(完成任务后)或步长达到预设限制值时结束。在强化学习算法的设置中,actor和critic神经网络有2个隐藏层,每个隐藏层有64个神经元。actor网络使用Softmax作为激活函数来生成动作。经验重放缓冲区大小最多可容纳600,000条记录用于更新权重,每轮更新从缓冲区采样1024条记录。学习率和折扣因子分别设置为α=0.01和γ=0.95。该算法在训练60,000次任务后结束。奖励函数中wf设置为0.4,wd=-1,we=-1.33。
本发明所述的方法中,对于单充电无人机采用DDPG方法求解,多无人机采用MADDPG算法求解。通过训练后得到的actor网络,充电无人机输入自己的状态或对环境的观察,从而得到该采取的动作。算法如下,其中MUAV为任务无人机,CUAV为充电无人机。也可以根据相关模型建模和算法编写代码,构建数据收集环境。通过算法处理单充电无人机充电场景和多充电无人机充电场景中的充电无人机策略优化问题。在训练过程中,策略逐渐收敛。图6(a)和图6(b)展示了单充电无人机充电和多充电无人机充电在缩短任务无人机执行任务时间上和基于地面的充电方法的对比(地面充电桩,充电车)。使用充电无人机充电在任务完成时间上又优势。图7(a)和图7(b)分别展示了单充电无人机充电和多充电无人机环境下充电调度过程中无人机的飞行轨迹。充电无人机能根据学习到策略及时地对执行数据收集任务的任务无人机进行充电。
Claims (8)
1.一种充电无人机为任务无人机空中充电的调度方法,该方法用于调度充电无人机为执行任务中的任务无人机进行充电,其特征在于:所述调度方法包括如下步骤:
(1)根据任务无人机的充电需求信息确定充电方式,充电需求信息包括充电无人机执行任务的环境障碍、地点、动作及飞行数据;
(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于DDPG算法优化单个充电无人机的充电调度策略;
(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于MADDPG算法优化多个充电无人机的充电调度策略;
(4)以任务无人机完成任务的时间最短为目标,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。
2.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(1)充电无人机为任务充电方式包括近场充电和远场充电,近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电,远场充电是由充电无人机通过RF射频或激光实现能量转化充电。
4.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程,其模型表述为M=(S,A,P,R,γ),其表达式与参数含义如下:
S表示环境的状态空间,所述状态空间为充电无人机根据观察到的状态采取行动集合,为无限集,包括充电任务过程中所有可能的状态,时刻t的状态空间表示为St,每个状态由充电无人机当前的位置坐标、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态;
A表示任务无人机的动作空间,包含充电无人机在执行充电任务过程中可能采取的所有动作,充电无人机在时刻t采取的行动由表示,充电无人机的每个动作都包含移动方向和充电目标,移动方向的动作空间是连续的,充电目标是充电无人机正在或者将来提供充电的对象;
P表示状态转移概率,所述的状态转移概率定义为在时刻t,给定充电无人机在当前状态St采取特定动作At,充电无人机到达下一个可能状态St+1的概率,P:St×At→St+1,且充电无人机做出的不同动作会以不同方式改变充电无人机的状态;
R表示奖励函数,奖励函数St×At→Rt+1,计算的是充电执行动作At后它的状态从St转换为St+1所获得的奖励值;
γ表示折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
5.根据权利要求4述的充电无人机为任务无人机空中充电的调度方法,其特征在于:对于单个充电无人机进行充电调度问题的模型,当任务无人机完成任务并返回出发点时表示任务完成,任务无人机Mi的任务完成时间为Ti,Ti=Tmi+Tci+Twi,其中Tmi表示移动所花费的总时间,Tci是执行任务所花费的时间,Twi表示任务无人机等待充电无人机充电所花费的总时间;
充电无人机采取行动At后它的状态从St转换为St+1所获得的奖励值的计算方式包括如下过程:
根据任务无人机预先规划的行进路径和任务,设定任务无人机可以被充电无人机按时充电则持续保持工作,定义奖励函数使充电无人机选择合理的充电目标和移动方向;充电无人机在t时刻的执行动作获得的奖励值设计如下:
rt=Rct+Rmt-Pl-Pb
Rct表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:
如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励;如果充电无人机在大于Emi的情况下给任务无人机Mi充电,则奖励Rct为零;Rct中的Et是表示t时刻的充电量,Rc是一个正偏移量,用于鼓励充电无人机花费更多时间用于充电,ft表示充电无人机对每个任务无人机充电的公平性;
为任务无人机在t时刻的剩余能量,Em={Em1,Em2…Emn}表示任务无人机完成任务所需的估计最小充电量的集合,表示任务无人机从时刻1到t的累积充电量,公平性因子ft由Jain公平指数计算,其计算表达式如下:
ft=wffct+(1-wf)frt
wf为权重值,Rct中的Rmt用于鼓励充电无人机朝向任务无人机的位置移动;
因Rmt与目标任务无人机的剩余能量水平呈负相关,约定剩余电量较少的任务无人机具有高优先级充电,wd和we为负值;充电无人机与任务无人机之间的相对距离变小时或者充电目标的电量越小,Rmt越大,以此来引导充电无人机靠近任务无人机,其中Rmt的计算公式如下:
Pl表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值Eth以上,则对充电无人机的惩罚,Eat为任务无人机平均剩余电量,p为固定正值,其表达式如下:
Pb是充电无人机飞出边界或撞到环境中的障碍时对充电无人机的惩罚。
6.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(3)在建立多个充电无人机进行充电调度问题的模型中,对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈M=(S,A,T,R,O,γ);
S表示状态空间,时刻t的状态是St,包括了所有无人机在环境中的状态;
γ为折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。
8.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(4)通过训练actor网络实现充电无人机调度策略优化,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,基于深度强化学习优化单个充电无人机的充电调度策略,基于多智能体强化学习优化多个充电无人机的充电调度策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019884.XA CN114548663A (zh) | 2022-01-10 | 2022-01-10 | 一种充电无人机为任务无人机空中充电的调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019884.XA CN114548663A (zh) | 2022-01-10 | 2022-01-10 | 一种充电无人机为任务无人机空中充电的调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114548663A true CN114548663A (zh) | 2022-05-27 |
Family
ID=81669455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210019884.XA Pending CN114548663A (zh) | 2022-01-10 | 2022-01-10 | 一种充电无人机为任务无人机空中充电的调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548663A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330556A (zh) * | 2022-08-10 | 2022-11-11 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN116502547A (zh) * | 2023-06-29 | 2023-07-28 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
-
2022
- 2022-01-10 CN CN202210019884.XA patent/CN114548663A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115330556A (zh) * | 2022-08-10 | 2022-11-11 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN115330556B (zh) * | 2022-08-10 | 2024-04-02 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN116502547A (zh) * | 2023-06-29 | 2023-07-28 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
CN116502547B (zh) * | 2023-06-29 | 2024-06-04 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network | |
CN102819264B (zh) | 移动机器人路径规划q学习初始化方法 | |
CN114548663A (zh) | 一种充电无人机为任务无人机空中充电的调度方法 | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及系统 | |
CN112799386B (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
Zhu et al. | Aerial refueling: Scheduling wireless energy charging for UAV enabled data collection | |
CN108170158B (zh) | 基于数据驱动的无人机智能对抗控制方法 | |
CN114169234A (zh) | 一种无人机辅助移动边缘计算的调度优化方法及系统 | |
CN116451934B (zh) | 多无人机边缘计算路径优化与依赖任务调度优化方法及系统 | |
Bartashevich et al. | Energy-saving decision making for aerial swarms: PSO-based navigation in vector fields | |
CN114679729B (zh) | 一种雷达通信一体化的无人机协同多目标探测方法 | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
Wang et al. | Robotic wireless energy transfer in dynamic environments: system design and experimental validation | |
CN113283827B (zh) | 一种基于深度强化学习的两阶段无人机物流路径规划方法 | |
CN117724524A (zh) | 一种基于改进球面向量粒子群算法的无人机航线规划方法 | |
CN114355900A (zh) | 一种无人机与无人车结合的协同作业方法 | |
Peng et al. | Cooperative area search for multiple UAVs based on RRT and decentralized receding horizon optimization | |
CN116757249A (zh) | 一种基于分布式强化学习的无人机集群策略意图识别方法 | |
Zhang et al. | Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning | |
CN116702903A (zh) | 一种基于深度强化学习的航天器集群博弈智能决策方法 | |
CN116203990A (zh) | 基于梯度下降法的无人机路径规划方法及系统 | |
Wang et al. | Deep reinforcement learning based multi-uuv cooperative control for target capturing | |
Poudel et al. | Priority-aware task assignment and path planning for efficient and load-balanced multi-UAV operation | |
CN114756017A (zh) | 一种无人机与无人艇结合的导航避障方法 | |
Yang et al. | Learning-based aerial charging scheduling for UAV-based data collection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |