CN114548663A

CN114548663A - 一种充电无人机为任务无人机空中充电的调度方法

Info

Publication number: CN114548663A
Application number: CN202210019884.XA
Authority: CN
Inventors: 朱琨; 杨佳
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-05-27

Abstract

本发明公开了一种充电无人机为任务无人机空中充电的调度方法，用于调度充电无人机为正在空中执行任务的任务无人机进行充电。该方法根据任务无人机的充电需求确定远程充电或近场充电方式，然后根据充电无人机的参与数量进行分类建模计算，包括建立单个充电无人机进行充电调度问题的模型和建立多个充电无人机进行充电调度问题的模型进行求解；最后基于深度强化学习或多智能体强化学习的算法优化充电无人机的充电调度策略，充电无人机根据优化的策略和当前环境的状态以进行决策，根据充电调度指令完成任务无人机的充电。本发明实现了任务无人机任务完成时间最短，对任务无人机的公平充电和充电无人机的充电调度策略优化。

Description

一种充电无人机为任务无人机空中充电的调度方法

技术领域

本发明属于飞行调度技术，具体涉及一种充电无人机为任务无人机空中充电的调度方法。

背景技术

近年来，由于无人机(UAV)具有成本低、遥控方便、部署灵活、机动性强等优点，无人机在很多领域得到广泛的应用。无人机可以可搭载各种设备，完成许多民用应用的各种任务，例如数据采集、环境监测、区域检测、通信、物流等。大多数小型无人机通过配备电池的电力驱动。然而，此类无人机电池容量有限，只能支持较短的工作和飞行时间。大多数电池驱动的无人机的运行时间从几十分钟到一个小时不等。无人机活动范围因此也受限。如果任务时间超过无人机的续航时间或者无人机需要在更大范围内执行任务，则无人机必须着陆充电或派遣更多的无人机执行任务。如果无人机需要着陆到地面充电，那正在执行的任务将被中断，任务的完成时间也会被推迟。

要想大幅度增加无人机的工作时间，一个直观的方法是为无人机配备更大容量的电池，但这也会显着增加无人机的重量和体积。为了克服上述问题，为一组选定的无人机在线补充能量成为一种很有前景的选择。为了在任务期间为无人机充电，已经提出了基于地面站的无线充电方案，可分为近场充电和远场充电两种类型。使用近场充电，无人机需要降落在地面充电站上，通过电感耦合或磁共振耦合进行充电。远场充电通常由激光束进行，其中无人机在地面充电站周围盘旋，并可以通过来自地面站的对准激光束进行充电。虽然现有的基于地面充电站的解决方案可以有效延长无人机的工作时间，但仍然存在一些缺点。首先，地面站需要预先部署在某些固定位置，当无人机应用场景或环境是动态的时，会产生额外的成本。其次，正在充电的无人机必须暂停正在进行的任务并物理移动到充电站进行能量补充。这无疑会增加任务时间和能量消耗，也会中断无人机正在执行的任务。

发明内容

发明目的：为了解决无人机应用场景中电量不足的问题，考虑无线充电应用的合理性，本发明提供一种充电无人机为任务无人机空中充电的调度方法。

技术方案：一种充电无人机为任务无人机空中充电的调度方法，该方法用于调度充电无人机为执行任务中的任务无人机进行充电，所述调度方法包括如下步骤：

(1)根据任务无人机的充电需求信息确定充电方式，充电需求信息包括充电无人机执行任务的环境障碍、地点、动作及飞行数据；

(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型，并基于DDPG算法优化单个充电无人机的充电调度策略；

(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型，并基于MADDPG算法优化多个充电无人机的充电调度策略；

(4)以任务无人机完成任务的时间最短为目标，基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略，充电无人机向通过训练得到的actor网络输入当前状态进行决策，根据actor网络输出的充电调度指令完成对任务无人机的充电。

进一步的，步骤(1)所述的无人机充电方式包括近场充电和远场充电，充电无人机和任务无人机搭载有相应的无线充电设备，近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电，远场充电是由充电无人机通过RF射频或激光实现能量转化充电。

所述方法的步骤(1)对于存在有n个任务无人机执行任务时，则表示为M＝{M_i|i＝1,2,…,n}，任务无人机执行任务的环境中障碍物表示为B＝{B_i|i＝1,2,…,n}，无人机的执行任务的地点表示为P＝{P_i|i＝1,2,…,n}，任务无人机M_i在t时刻的动作为

动作包括悬停状态或飞行状态，其飞行过程中飞行方向为

飞行速度为v；

执行充电任务的充电无人机表示为C＝{C_i|i＝1,2,…,m}，充电无人机C_i在t时刻的动作为

动作包括悬停状态或飞行状态，其飞行过程中飞行方向为

飞行速度为v。

步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程，其模型表述为M＝(S,A,P,R,γ)，其表达式与参数含义如下：

S表示环境的状态空间，所述状态空间为充电无人机根据观察到的状态采取行动集合，为无限集，包括充电任务过程中所有可能的状态，时刻t的状态空间表示为S^t，每个状态由充电无人机当前的位置坐标、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成，包括充电状态和移动状态；

A表示任务无人机的动作空间，包含充电无人机在执行充电任务过程中可能采取的所有动作，充电无人机在时刻t采取的行动由

表示，充电无人机的每个动作都包含移动方向和充电目标，移动方向的动作空间是连续的，充电目标是充电无人机正在或者将来提供充电的对象；

P表示状态转移概率，所述的状态转移概率定义为在时刻t，给定充电无人机在当前状态S^t采取特定动作A^t，充电无人机到达下一个可能状态S^t+1的概率，P:S^t×A^t→S^t+1，且充电无人机做出的不同动作会以不同方式改变充电无人机的状态；

R表示奖励函数，奖励函数S^t×A^t→R^t+1，计算的是充电执行动作A^t后它的状态从S^t转换为S^t+1所获得的奖励值；

γ表示折扣因子，γ∈[0,1]，决定未来奖励对当前即时奖励的影响程度。

在步骤(2)及上述对于单个充电无人机进行充电调度问题的模型中，对于单个充电无人机进行充电调度问题，当任务无人机完成任务并返回出发点时，任务完成，任务无人机M_i的任务完成时间为T_i，T_i＝Tm_i+Tc_i+Tw_i，其中Tm_i表示移动所花费的总时间，Tc_i是执行任务所花费的时间，Tw_i表示任务无人机等待充电无人机充电所花费的总时间；

充电调度策略优化的目标是最小化任务完成时间，为了达成目标，充电无人机采取行动A^t后它的状态从S^t转换为S^t+1所获得的奖励值的计算方式包括如下过程：

根据任务无人机预先规划的行进路径和任务，设定任务无人机可以被充电无人机按时充电则持续保持工作，定义奖励函数使充电无人机选择合理的充电目标和移动方向；充电无人机在t时刻的执行动作获得的奖励值设计如下：

r^t＝Rc^t+Rm^t-P_l-P_b

Rc^t表示在t时段内成功给任务无人机充电所获得的奖励，定义如下：

如果充电无人机未给任务无人机充电，则奖励为零，若进行了充电，将产生正奖励；如果充电无人机在

大于Em_i的情况下给任务无人机M_i充电，则奖励Rc^t为零；Rc^t中的E^t是表示t时刻的充电量，Rc是一个正偏移量，用于鼓励充电无人机h花更多时间用于充电，f_t表示充电无人机对每个任务无人机充电的公平性；

为任务无人机在t时刻的剩余能量，Em＝{Em₁,Em₂…Em_n}表示任务无人机完成任务所需的估计最小充电量的集合，

表示任务无人机从时刻1到t的累积充电量，公平性因子f_t由Jain公平指数计算，其计算表达式如下：

f_t＝w_ffc_t+(1-w_f)fr_t

w_f为权重值，Rc^t中的Rm^t用于鼓励充电无人机向任务无人机的位置移动；

因Rm^t与目标任务无人机的剩余能量水平呈负相关，约定剩余电量较少的任务无人机具有高优先级充电，w_d和w_e为负值；充电无人机与任务无人机之间的相对距离变小时或者充电目标的电量越小，Rm^t越大，以此来引导充电无人机靠近任务无人机，其中Rm^t的计算公式如下：

其中D(i)^t是充电无人机和任务无人机之间的欧几里得距离M_i，而

是M_i在t时刻的剩余能量，当充电无人机为任务无人机充电时，Rm^t设置为零；

P_l表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值E_th以上，则对充电无人机的惩罚，Ea^t为任务无人机平均剩余电量，p为固定正值，其表达式如下：

P_b是充电无人机飞出边界或撞到环境中的障碍时对充电无人机的惩罚。

步骤(3)在建立多个充电无人机进行充电调度问题的模型中，对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈M＝(S,A,T,R,O,γ)；

S表示状态空间，时刻t的状态是S^t，包括了所有无人机在环境中的状态；

A表示动作空间，多个充电无人机在时刻t采取的行动由

表示；

T表示状态转移函数，状态转移函数T:

环境中，所有的充电无人机同时采取动作，对环境产生影响；

R表示奖励函数，奖励函数

计算的是充电无人机C_i执行动作

后它的状态从

转换为

所获得的奖励值；

O表示观察集合：观察是指充电无人机从自己的角度对环境的感知，充电无人机根据自己对环境的观察进行决策，

是所有充电无人机在时间t的观测集合；

γ为折扣因子，γ∈[0,1]，决定未来奖励对当前即时奖励的影响程度。

在步骤(3)及上述对于多个充电无人机进行充电调度问题的模型中，充电无人机C_i在t时刻的奖励设计如下：

定义如下：

f_t表示公平性因子；

的计算公式如下：

其中D(i,j)^t是充电无人机C_i和任务无人机M_j之间的欧几里得距离，

是任务无人机M_j在时间t的剩余电量，w_d和w_e是调整

的负系数；

P_l表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值E_th以上，则对充电无人机的惩罚；P_b是充电无人机飞出边界或撞到环境中的障碍时的惩罚。

更进一步的，步骤(4)通过训练actor网络实现充电无人机调度策略优化，基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略，基于深度强化学习优化单个充电无人机的充电调度策略，基于多智能体强化学习优化多个充电无人机的充电调度策略。

有益效果：本发明所述的充电无人机为任务无人机空中充电的调度方法与传统的地面静态充电方式相比，节省了任务无人机中断任务进行充电的时间，也通过空中充电，拓展延续了任务无人机执行任务的覆盖范围，可灵活部署，且实现了完成任务时间最小化，能量消耗最小化的目标，具有充电时间和充电地点均可灵活部署、分配的效果。

附图说明

图1是本发明所述方法的调度流程图；

图2是无人机远场充电方式的示意图；

图3是无人机近场充电方式的示意图；

图4为实施例中单充电无人机充电任务的场景；

图5为实施例中多充电无人机充电任务的场景；

图6(a)为实施例中依据本发明所述单个充电无人机充电和基于地面的充电方法的平均任务完成时间对比图；

图6(b)为实施例中依据本发明所述多个充电无人机充电和基于地面的充电方法的平均任务完成时间对比图；

图7(a)为实施例中单个充电无人机执行任务时飞行的轨迹图；

图7(b)为实施例中多个充电无人机执行任务时飞行的轨迹图。

具体实施方式

为详细的说明本发明所公开的技术方案，下面结合说明书附图做进一步的表述。

本发明所提供的是一种充电无人机为任务无人机空中充电的调度方法，旨在不中断任务的情况下为无人机充电。在本发明中，具有任务的无人机被称为任务无人机，其中任务通常涉及数据通信和计算(例如，无人机边缘计算)。任务无人机可以通过另一架无人机进行无线充电，即充电无人机。无线充电技术的最新发展使我们的设计成为可能。例如，现有的基于磁共振耦合的充电平台为便携式设备提供充电，射频天线阵列贴片，分布式激光充电(DLC)系统。通过对无人机进行空中充电可以实现几个好处。首先，使用充电无人机代替(或补充)地面充电站可以显着提高灵活性并降低充电站部署所产生的成本。其次，凭借无线充电的优势和无人机的高机动性，系统中的任务无人机可以在移动或悬停时按需充电。第三，由于任务无人机可以通过充电无人机在线补充能量，任务无人机可以继续执行任务而不会降落充电而中断充电。

为了给环境中的任务无人机进行充电，需要对充电无人机进行调度。充电无人机需要根据环境和充电无人机的电量状态进行决策，选择合理的充电对象。强化学习常用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习可用于解决无人机做出充电决策的问题。对于单个充电无人机使用基于深度确定性策略梯度(DDPG)的算法来解决该问题。在多个充电无人机充电场景中，基于多智能体深度确定性策略梯度(MADDPG)的算法可以解决多充电无人机的调度策略优化问题。

本发明所述方法的调度流程如图1所示，所述的方法用于调度充电无人机为执行任务中的任务无人机进行充电，充电无人机和任务无人机均搭载有无线充电设备，该调度方法包括如下步骤：

(1)根据任务无人机的充电需求确定充电方式，所述充电需求信息包括充电无人机提供执行任务的环境障碍、地点、动作及飞行信息；

(4)基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略(训练actor网络)，充电无人机向通过训练得到的actor网络输入当前状态进行决策，根据actor网络输出的充电调度指令完成对任务无人机的充电。

具体的过程，以调度充电无人机给执行数据收集任务的任务无人机充电为例。

(1)需要确定给任务无人机进行充电的无线充电方法。

充电无人机给正在执行任务的无人机进行补充电量的方式：使用具有无线充电的功能充电无人机给需要被充电的任务无人机进行充电。根据无线充电的种类提供两种充电方式：远场充电和近场充电。远场充电的方式如图2所示，指的是任务无人机在充电无人机附近飞行，充电无人机通过RF射频充电或者激光无线充电的方式给任务无人机进行充电。近场充电的方式如图3所示，指的是任务无人机降落在充电无人机的无线充电平台上进行充电，主要使用电感耦合或磁共振耦合充电。

选择何种充电方式应根据任务无人机的大小，耗能决定。对于近场充电和远场充电中的RF射频的充电功率较小，一般适用于小型无人机的充电。激光充电的充电效率可达30％，可提供更大的充电功率。由于采用了无线充电，在无人机移动过程中也能进行充电。

本发明所提出的两种充电方式可用于给数据收集任务无人机充电，本实施例中可以采用远场充电方案，使用激光给任务无人机充电。设置充电功率为90w，任务无人机工作功率为60w。

(2)需要确定任务无人机，充电无人机相关参数和执行任务的环境。图4和图5分别展示了单个充电无人机和多个充电无人机的工作场景，其中MUAV指数据收集任务无人机，CUAV指充电无人机，PoI指任务无人机执行数据收集任务的地点。任务无人机出发后执行数据收集任务，任务完成后返回出发点。黑色虚线是任务无人机执行数据收集任务的轨迹，灰色虚线是任务无人机返回的轨迹。但是，由于任务电量不足，如果不进行充电，任务无人机任务将会中断，并提前降落。需要调度充电无人机对其充电，以确保其能够完成收集任务并返回出发点。所有的环境因素，包括无人机，障碍，PoI等可按照前述技术方案的技术进行定义。需要提前定义PoI和障碍的位置，任务无人机的执行收集任务的飞行路径。有n个任务无人机执行任务，表示为M＝{M_i|i＝1,2,…,n}。任务无人机执行任务的环境中障碍物表示为B＝{B_i|i＝1,2,…,n}，无人机的执行任务的地点表示为P＝{P_i|i＝1,2,…,n}。任务无人机M_i在t时刻的动作为

动作可以是悬停执行任务，或者是飞行。飞行过程中飞行方向为

飞行速度为v。执行充电任务的充电无人机表示为C＝{C_i|i＝1,2,…,m}。充电无人机C_i在t时刻的动作为

动作可以是悬停在某处给，或者是飞行。飞行过程中飞行方向为

飞行速度为v。

(3)对于单个充电无人机充电问题，需要建立单个充电无人机进行充电调度问题的模型。根据前述技术方案的建模方法，建立马尔可夫决策过程的模型。具体的状态，动作，奖励等设计根据前述的技术方案进行设置。这个过程可以建模成一个马尔可夫过程M＝(S,A,P,R,γ)。

a)状态空间：环境的状态空间S是一个无限集，包括充电任务过程中所有可能的状态。时刻t的状态是S^t。每个状态由无人机当前的位置(二维坐标)、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成，包括充电状态和移动状态。

b)动作空间：动作空间A包含了充电无人机在执行充电任务过程中可能采取的所有动作。充电无人机在时刻t采取的行动由

表示。充电无人机的每个动作都包含移动方向(二维向量)和充电目标。移动方向的动作空间是连续的。充电目标是充电无人机正在或者将来提供充电的对象(任务无人机)。

c)状态转移概率：状态转移概率定义为：在时刻t，给定充电无人机在当前状态S^t采取特定动作A^t，充电无人机到达下一个可能状态S^t+1的概率，即P:S^t×A^t→S^t+1。充电无人机做出的不同动作会以不同方式改变充电无人机的状态，例如，当采取移动到另一个位置的动作时，所有无人机位置和任务无人机的剩余能量都会发生变化。

d)奖励函数：S^t×A^t→R^t+1，计算的是充电无人机采取行动C^t后它的状态从S转换为S^t+1所获得的奖励。在本发明的问题中，目标是最小化任务完成时间。任务无人机的行进路径和任务是预先规划好的，如果任务无人机可以被充电无人机按时充电(保持能量状态在安全阈值以上)，充电无人机在t时刻的奖励设计如下：

r^t＝Rc^t+Rm^t-P_l-P_b

如果充电无人机未给任务无人机充电，则奖励为零，若进行了充电，将产生正奖励。如果充电无人机在

大于Em_i的情况下给任务无人机M_i充电，则奖励Rc^t为零。Rc^t中的E^t是表示t时刻的充电量。Rc是一个正偏移量，用于鼓励充电无人机h花更多时间用于充电。f_t表示充电无人机对每个任务无人机充电的公平性。如果每个任务无人机被公平地充电，充电无人机的将获得更大奖励值。

表示任务无人机在t时刻的剩余能量，Em＝{Em₁,Em₂…Em_n}是任务无人机完成任务所需的估计最小充电量的集合。

表示任务无人机从时刻1到t的累积充电量。公平性因子f_t是利用Jain公平指数计算出来的，如下：

f_t＝w_ffc_t+(1-w_f)fr_t

w_f是一个权重，可以调整以提升算法效果。

Rc^t中的Rm^t用于鼓励充电无人机朝向任务无人机的位置移动。我们认为Rm^t与目标任务无人机的剩余能量水平呈负相关，即剩余电量较少的任务无人机具有高优先级充电。w_d和w_e为负值。充电无人机与充电目标(任务无人机)之间的相对距离变小时或者充电目标的电量越小，Rm^t越大，以此来引导充电无人机靠近任务无人机。Rm^t的计算公式如下：

是M_i在t时刻的剩余能量。当充电无人机为任务无人机充电时，Rm^t设置为零。

P_b是充电无人机飞出边界或撞到环境中的障碍(例如树木、建筑物、禁飞区)时对充电无人机的惩罚。

e)折扣因子：γ∈[0,1]被定义为一个折扣因子，它决定了未来奖励对当前即时奖励的影响程度。

(4)对于多个充电无人机充电问题，需要建立多个充电无人机进行充电调度问题的模型。根据前述技术方案的建模方法，建立马尔可夫博弈的模型。具体的状态，动作，奖励等设计根据前述的技术方案进行设置。同时调度多个充电无人机的过程可以建模成一个马尔可夫博弈M＝(S,A,T,R,O,γ)。

A)状态空间：时刻t的状态是S^t。包括了所有无人机在环境中的状态。

B)动作空间：多个充电无人机在时刻t采取的行动由

表示。。

C)状态转移函数：状态转移函数T:

环境中，所有的充电无人机同时采取动作，对环境产生影响。

D)观察：观察是指充电无人机从自己的角度对环境的感知。充电无人机根据自己对环境的观察进行决策。

是所有充电无人机在时间t的观测集合。

E)奖励函数：

奖励函数为

得到的是所有充电无人机行动后得到的奖励的集合。多无人机调度下的奖励函数和单无人机调度类似，充电无人机C_i在t时刻的奖励设计如下：

定义如下：

f_t的计算方法如上述单个充电无人机进行充电调度问题的模型的计算相同。

的计算公式如下：

是任务无人机M_j在时间t的剩余电量。w_d和w_e是调整

的负系数。

P_l表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值E_th以上，则对充电无人机的惩罚(即负值奖励)，计算方法同上述单个充电无人机充电建模的求解计算过程。

P_b是充电无人机飞出边界或撞到环境中的块(例如树木、建筑物、禁飞区)时的惩罚。

F)折扣因子：γ∈[0,1]被定义为一个折扣因子，它决定了未来奖励对当前即时奖励的影响程度。

(5)使用深度强化学习或多智能体强化学习训练actor网络，充电无人机向通过训练得到的actor网络输入当前状态以进行决策。任务无人机工作环境设置为二维正方形平面。当充电无人机和任务无人机出发时，任务和充电调度开始。强化学习算法的每个训练集都是执行充电任务的历史经验。强化学习算法的每个训练片段在充电无人机和任务无人机(满能量)开始工作时开始，并在所有任务无人机返回站(完成任务后)或步长达到预设限制值时结束。在强化学习算法的设置中，actor和critic神经网络有2个隐藏层，每个隐藏层有64个神经元。actor网络使用Softmax作为激活函数来生成动作。经验重放缓冲区大小最多可容纳600,000条记录用于更新权重，每轮更新从缓冲区采样1024条记录。学习率和折扣因子分别设置为α＝0.01和γ＝0.95。该算法在训练60,000次任务后结束。奖励函数中w_f设置为0.4，w_d＝-1，w_e＝-1.33。

本发明所述的方法中，对于单充电无人机采用DDPG方法求解，多无人机采用MADDPG算法求解。通过训练后得到的actor网络，充电无人机输入自己的状态或对环境的观察，从而得到该采取的动作。算法如下，其中MUAV为任务无人机，CUAV为充电无人机。也可以根据相关模型建模和算法编写代码，构建数据收集环境。通过算法处理单充电无人机充电场景和多充电无人机充电场景中的充电无人机策略优化问题。在训练过程中，策略逐渐收敛。图6(a)和图6(b)展示了单充电无人机充电和多充电无人机充电在缩短任务无人机执行任务时间上和基于地面的充电方法的对比(地面充电桩，充电车)。使用充电无人机充电在任务完成时间上又优势。图7(a)和图7(b)分别展示了单充电无人机充电和多充电无人机环境下充电调度过程中无人机的飞行轨迹。充电无人机能根据学习到策略及时地对执行数据收集任务的任务无人机进行充电。

Claims

1.一种充电无人机为任务无人机空中充电的调度方法，该方法用于调度充电无人机为执行任务中的任务无人机进行充电，其特征在于：所述调度方法包括如下步骤：

2.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法，其特征在于：步骤(1)充电无人机为任务充电方式包括近场充电和远场充电，近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电，远场充电是由充电无人机通过RF射频或激光实现能量转化充电。

3.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法，其特征在于：步骤(1)对于存在有n个任务无人机执行任务时，则表示为M＝{M_i|i＝1,2,…,n}，任务无人机执行任务的环境中障碍物表示为B＝{B_i|i＝1,2,…,n}，无人机的执行任务的地点表示为P＝{P_i|i＝1,2,…,n}，任务无人机M_i在t时刻的动作为

动作包括悬停状态或飞行状态，其飞行过程中飞行方向为

飞行速度为v；

动作包括悬停状态或飞行状态，其飞行过程中飞行方向为

飞行速度为v。

4.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法，其特征在于：步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程，其模型表述为M＝(S,A,P,R,γ)，其表达式与参数含义如下：

5.根据权利要求4述的充电无人机为任务无人机空中充电的调度方法，其特征在于：对于单个充电无人机进行充电调度问题的模型，当任务无人机完成任务并返回出发点时表示任务完成，任务无人机M_i的任务完成时间为T_i，T_i＝Tm_i+Tc_i+Tw_i，其中Tm_i表示移动所花费的总时间，Tc_i是执行任务所花费的时间，Tw_i表示任务无人机等待充电无人机充电所花费的总时间；

充电无人机采取行动A^t后它的状态从S^t转换为S^t+1所获得的奖励值的计算方式包括如下过程：

r^t＝Rc^t+Rm^t-P_l-P_b

大于Em_i的情况下给任务无人机M_i充电，则奖励Rc^t为零；Rc^t中的E^t是表示t时刻的充电量，Rc是一个正偏移量，用于鼓励充电无人机花费更多时间用于充电，f_t表示充电无人机对每个任务无人机充电的公平性；

f_t＝w_ffc_t+(1-w_f)fr_t

w_f为权重值，Rc^t中的Rm^t用于鼓励充电无人机朝向任务无人机的位置移动；

6.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法，其特征在于：步骤(3)在建立多个充电无人机进行充电调度问题的模型中，对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈M＝(S,A,T,R,O,γ)；

A表示动作空间，多个充电无人机在时刻t采取的行动由

表示；

T表示状态转移函数，状态转移函数T:

R表示奖励函数，奖励函数

计算的是充电无人机C_i执行动作

后它的状态从

转换为

所获得的奖励值；

表示所有充电无人机在时间t的观测集合；

7.根据权利要求6述的充电无人机为任务无人机空中充电的调度方法，其特征在于：对于多个充电无人机进行充电调度问题的模型中，充电无人机Ci在t时刻的奖励设计如下：

定义如下：

f_t表示公平性因子；

的计算公式如下：

是任务无人机M_j在时间t的剩余电量，w_d和w_e是调整

的负系数；

8.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法，其特征在于：步骤(4)通过训练actor网络实现充电无人机调度策略优化，基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略，基于深度强化学习优化单个充电无人机的充电调度策略，基于多智能体强化学习优化多个充电无人机的充电调度策略。