CN116502547A

CN116502547A - 一种基于图强化学习的多无人机无线能量传输方法

Info

Publication number: CN116502547A
Application number: CN202310782518.4A
Authority: CN
Inventors: 车越岭; 赵泽宇; 罗胜; 梁中明
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-07-28
Anticipated expiration: 2043-06-29
Also published as: CN116502547B

Abstract

本申请涉及无线携能移动通信网络技术领域，具体而言，涉及一种基于图强化学习的多无人机无线能量传输方法，一定程度上可以解决目前关于多UAV辅助下的WET方案，忽略了不同IoT设备中公平充电的问题。包括：基于现实数据构建系统模型，系统模型包括信道模型、无人机的能耗模型、物联网设备的能量收集模型及能量饥渴度模型；根据系统模型，建立优化问题，优化问题为不满足能量需求的物联网设备的总能量饥渴度最小化问题；将优化问题转化为马尔科夫决策过程及无人机的图表示；基于马尔科夫决策过程及无人机的图表示，确定训练流程及损失函数；根据训练流程及损失函数对神经网络进行训练，得到最优化问题的解决算法。

Description

一种基于图强化学习的多无人机无线能量传输方法

技术领域

本申请涉及无线携能移动通信网络技术领域，具体而言，涉及一种基于图强化学习的多无人机无线能量传输方法。

背景技术

物联网设备通常被部署在一些特定地点用于收集相关信息，通常物联网设备无法携带大容量电池，基于射频（radio frequency, RF）的无线能量传输（wirel ess energytransfer, WET）技术被认为是支持能源可持续的物联网网络的一种有前途的方法。传统上，地面基础设施（如专用能源发射器或基站）被用来为低功率物联网设备充电。然而，由于端到端的无线能量传输效率普遍较低，为了保证物联网设备收获的能量不为零，从地面基础设施到每个物联网设备的有效传输距离被限制（例如，10米左右），

现有的做法通常是，要么通过加大天线数量来加大传输功率，要么对能量波束进行优化提高物联网设备的接收功率。然而这些方法通常都需要消耗大量的能量，更加高效的方法有，通过利用无人机的灵活机动性来有效缩短无人机和物联网设备之间的传输距离。

目前，无人机辅助的无线能量传输系统已经有了许多研究，包括：为主要用户提供无人机辅助的动态无线能量传输方案；通过研究无人机的悬停位置，以使物联网设备的最小收获能量最大化；通过共同优化无人机的飞行轨迹和无线能量传输，以使物联网设备的总收获能量最大化。

上述研究只考虑了单个无人机的无线能量传输，由于单个无人机的机载电池能量有限，通常难以服务于大规模网络，通过处理多个无人机的轨迹和无线能量传输的更复杂的联合设计来解决上述问题。目前对多无人机辅助的无线能量传输有：利用Lagrange乘数法和基于飞行和悬停的轨迹设计来使物联网设备的总收获能量最大化；还有应用了深度强化学习（deep reinforcement learning, DRL）的方法来适应多无人机辅助的无线能量传输下的动态环境。

但是，目前关于多无人机辅助下的无线能量传输方案，大多只关注于物联网设备总体的能量收集，而忽略了不同无人机设备中公平充电的问题。

发明内容

为了解决目前关于多UAV辅助下的WET方案，大多只关注于IoT设备总体的能量收集，而忽略了不同IoT设备中公平充电的问题，本申请提供了一种基于图强化学习的多无人机无线能量传输方法，能够公平的为地面低功率物联网（Internet of Things, IoT）设备充电，有效地解决了在不知IoT设备具体位置的情况下有效地为它们提供能量。

本申请的实施例是这样实现的：

第一方面，本申请提供一种基于图强化学习的多无人机无线能量传输方法，包括：

基于现实数据构建系统模型，所述系统模型包括信道模型、无人机的能耗模型、物联网设备的能量收集模型及能量饥渴度模型，所述能量饥渴度是基于其所需能量和从UAV收获的能量之间的能量差距，能够反映物联网设备随时间变化的能量需求；

根据所述系统模型，建立优化问题，所述优化问题为不满足能量需求的物联网设备的总能量饥渴度最小化问题；

将所述优化问题转化为马尔科夫决策过程及无人机的图表示；

基于所述马尔科夫决策过程及无人机地图表示，确定训练流程及损失函数；

根据训练流程及损失函数对神经网络进行训练，得到所述最优化问题的解决算法。

在一种可能的实现方式中，将U架无人机作为空中无线能量发射器，为地面上的物联网设备充电，设每个无人机在固定高度米处飞行，将无人机与物联网设备的集合分别表示为和：

无人机的无线能量传输任务周期分为T个时隙，所述时隙的长度为秒，所述时隙的集合表示为；

无人机在个时隙中的坐标表示为，由于时隙长度非常小，假定在每个时隙中不变，但在不同时隙中可能发生变化；

物联网设备在地面上的坐标表示为

表示无人机与物联网设备在第个时隙的距离，表示无人机在第个时隙的无线能量传输决策，如果，则无人机在时隙进行能量广播，否则保持静默。

在一种可能的实现方式中，所述建立信道模型，包括：

定义为在时隙内从无人机到物联网设备的空对地信道的视线概率，其中为在时隙中无人机（UAV）-到设备的仰角，常数和为环境相关参数；

得到非视线的概率为无人机到物联网设备的平均AtG信道功率增益为

。

在一种可能的实现方式中，所述建立无人机能耗模型，包括：

在每个时隙，无人机的推进力消耗由其速度决定，具体如下：

其中，为与无人机（UAV）型号相关的常量。

得到无人机在时刻的移动能耗为，无线能量传输能耗为，其中的范围为，时表示悬停，为无人机的最大飞行速度。我们可以定义无人机在时隙的电量为

。

在一种可能的实现方式中，所述建立物联网设备的能量收集模型，包括：

物联网设备上的能量转换装置都会有一个功率转换函数，定义功率转换函数为：

其中，和，分别表示为能量转换转置的灵敏功率和饱和功率，是物联网设备接收到的RF功率，为非线性函数；

定义物联网设备在时隙收集到的能量为；

其中，为无人机的发射功率；

定义为物联网（IoT）设备在时隙的电量，其在每个时隙开始时更新，如下表示：

其中，为物联网设备的电池容量，表示初始电量；

为了判断物联网设备的电量是否达阈值，对于那些电量在时隙低于的物联网设备，定义为。

在一种可能的实现方式中，所述建立能量饥渴度模型，包括：

定义能量饥渴度为

其中，，表示物联网设备要想在T个时隙内能量达到每个时隙所期望得到的能量；

需要优化的目标定义为：

。

在一种可能的实现方式中，所述根据所述系统模型，建立优化问题，包括：

通过优化问题确定所有无人机的无线能量传输决策和轨迹，在无人机的实际机动性和能量约束下，我们使最小，具体如下：

。

在一种可能的实现方式中，所述将所述优化问题转化为马尔科夫决策过程及无人机的图表示，包括：

根据式（1），通过让每个无人机作为一个代理，为每个代理建立MDP模型；

状态集包含了每个无人机的所有可能的环境配置，包括无人机自身的位置、所有物联网设备的能量饥渴度、所有物联网设备的电池水平以及无人机自身的电池水平；

动作集提供了每个无人机决定其轨迹和无线能量传输的动作空间；

对于任何给定的状态，无人机应用策略来选择行动；

在第时隙结束时获得相应的奖励、

其中，为无人机在时隙的水平转角；

奖励函数设计为：

其中，为权值，为奖励，为惩罚；

其中，，为无人机在时隙传输的能量对整个系统传输的能量的平均比例；

，表示无人机在时刻传给物联网设备时的能量占物联网设备在时刻收到的总能量所占的比例；

其中，，分别为不满足约束无人机发生碰撞和超出区域范围时的惩罚。

定义全局信息分别为, 和；

使用无人机之间的相似度矩阵来表示它们的连接强度，其表示为：

其中，，是无人机（UAV）-u和无人机（UAV）-u′之间的高斯距离，对角线上的元素表示无人机（UAV）-的度。

为了得到全局特征矩阵, 首先生成矩阵和值矩阵，其表示如下：

对于任何矩阵，函数将元素转换为, ；

得到，作为中央控制器新观察矩阵。

在一种可能的实现方式中，所述基于所述马尔科夫决策过程及无人机的图表示，确定训练流程及损失函数，包括：

所述训练流程包括每个无人机的局部训练及中央控制器的全局训练；

在训练阶段，一个元组（）被存储在经验回放池中，所有Local和Global训练的神经网络都应用随机梯度下降（SGD）算法来更新其参数；

所述局部训练包括五个神经网络，分别为策略网络,Local Q网络以及局部V网络，其对应的网络参数我们分别定义为和；

全局训练包括三个神经网络，分别为Global Q网络以及Global V网络。其中对应的网络参数我们分别定义为，和；

在训练时神经网络将会根据损失函数进行参数更新，我们将从提取出经验用来计算损失值。

本申请提供的技术方案至少可以达到以下有益效果：

1.基于能量饥渴度的多无人机的无线能量传输建模和新问题的提出：本申请提出了 "能量饥渴度 "这一指标，以指导多架无人机辅助的无线能量传输，满足物联网设备的不同能源需求。基于每个物联网设备的非线性能量采集模型和每架无人机的速度决定的能量消耗模型，无人机和物联网设备的电量都被正确建模。通过优化确定所有无人机的轨迹和随时间变化的无线能量传输决策，在无人机的实际移动性和能量约束下，提出了新的能量饥渴度最小化问题。

2. 基于MAGRL的分布式和协作式多无人机的无线能量传输方法：本申请提出了基于MAGRL的方法来解决复杂的能量饥渴度最小化问题，其中无人机的自注意力机制被挖掘出来，用于其协作无线能量传输。通过所提出的MAGRL模型的离线训练，中央控制器引导全局训练来指导每个无人机的局部训练，每架无人机根据训练好的局部神经网络来决定其轨迹和无线能量传输决策。

3. 性能评估的模拟结果：本申请通过实际的建模，我们将所提出的MAGRL的方法与各种基准方法进行比较，验证了所提出的无人机按需无线能量传输的能量饥渴度指标的有效性。此外，还说明了基于MAGRL的方法下无人机之间的协作性无线能量传输。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例示出的多无人机无线能量传输方法的流程示意图；

图2是本申请一示例性实施例示出的多无人机无线能量传输方法的系统模型示意图；

图3是本申请一示例性实施例示出的训练流程的示意图；

图4是本申请一示例性实施例示出的算法示意图；

图5是本申请一示例性实施例示出的训练奖励变化示意图；

图6是本申请一示例性实施例示出的训练优化结果示意图。

具体实施方式

为了使本申请的目的、实施方式和优点更加清楚明白，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整的描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例，应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”“第二”“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。

为便于对申请的技术方案进行，以下首先在对本申请所涉及到的一些概念进行说明。

在对本申请实施例提供的基于图强化学习的多无人机无线能量传输方法进行解释说明之前，先对本申请实施例的应用场景和实施环境进行介绍。

物联网（IoT）设备通常被部署在一些特定地点用于收集相关信息，通常物联网（IoT）设备无法携带大容量电池，基于射频（radio frequency, RF）的无线能量传输（wireless energy transfer, 无线能量传输（WET））技术被认为是支持能源可持续的物联网（IoT）网络的一种有前途的方法。传统上，地面基础设施（如专用能源发射器或基站）被用来为低功率物联网设备充电。然而，由于端到端的无线能量传输效率普遍较低，为了保证物联网设备收获的能量不为零，从地面基础设施到每个物联网设备的有效传输距离被限制（例如，10米左右）。以前的做法是，要么通过加大天线数量来加大传输功率，要么对能量波束进行优化提高物联网（IoT）设备的接收功率。然而这些方法通常都需要消耗大量的能量。

更加高效的方法有，通过利用无人机（UAV）的灵活机动性来有效缩短无人机（UAV）和物联网（IoT）设备之间的传输距离。目前无人机（UAV）辅助的无线能量传输（WET）系统已经有了许多研究。目前的研究有：1.为主要用户提供无人机（UAV）辅助的动态无线能量传输（WET）方案；2.通过研究无人机（UAV）的悬停位置，以使物联网（IoT）设备的最小收获能量最大化； 3.通过共同优化无人机（UAV）的飞行轨迹和无线能量传输（WET），以使物联网（IoT）设备的总收获能量最大化。上述研究只考虑了单个无人机（UAV）的无线能量传输（WET），由于单个无人机（UAV）的机载电池能量有限，通常难以服务于大规模网络。通过处理多个无人机（UAV）的轨迹和无线能量传输（WET）的更复杂的联合设计来解决上述问题。目前对多无人机（UAV）辅助的无线能量传输（WET）有：利用Lagrange乘数法和基于飞行和悬停的轨迹设计来使物联网（IoT）设备的总收获能量最大化；还有应用了深度强化学习（deepreinforcement learning, DRL）的方法来适应多无人机（UAV）辅助的无线能量传输（WET）下的动态环境。

目前，关于多无人机（UAV）辅助下的无线能量传输（WET）方案，大多只关注于物联网（IoT）设备总体的能量收集，而忽略了不同物联网（IoT）设备中公平充电的问题。

基于此，本申请提供了一种基于图强化学习的多无人机无线能量传输方法，为了满足物联网（IoT）设备的能源需求，通过提出一个新的指标，称为能量饥渴度（hungry-level of energy, 能量饥渴度（HoE）），基于其所需能量和从无人机（UAV）收获的能量之间的能量差距，它反映了每个物联网（IoT）设备随时间变化的能量需求。

此外，为了探索无人机（UAV）的潜在合作，使其能够根据物联网（IoT）设备的能量饥渴度（HoE）自动确定其联合或单独的无线能量传输（WET），本申请采用了基于图的无人机（UAV）的自注意（self-attentions）机制。

并且，本申请提出了新的基于多代理图强化学习（multi-agent graphreinforcement learning, MAGRL）的方法，以最小化那些不满足能量需求的物联网（IoT）设备的整体能量饥渴度（HoE）。

接下来，将通过实施例并结合附图具体地对本申请的技术方案，以及本申请的技术方案如何解决上述技术问题进行详细说明。各实施例之间可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。显然，所描述的实施例是本申请实施例一部分实施例，而不是全部的实施例。

图1是本申请一示例性实施例示出的多无人机无线能量传输方法的流程示意图，图4是本申请一示例性实施例示出的算法示意图。

在一个示例性实施例中，如图1所示，提供了一种基于图强化学习的多无人机无线能量传输方法，本实施例中，该方法可以包括以下步骤：

步骤100：基于现实数据构建系统模型，所述系统模型包括信道模型、无人机的能耗模型、物联网设备的能量收集模型及能量饥渴度模型，所述能量饥渴度是基于其所需能量和从UAV收获的能量之间的能量差距，能够反映物联网设备随时间变化的能量需求；

步骤200：根据所述系统模型，建立优化问题，所述优化问题为不满足能量需求的物联网设备的总能量饥渴度最小化问题；

步骤300：将所述优化问题转化为马尔科夫决策过程及无人机的图表示；

步骤400：基于所述马尔科夫决策过程及无人机的图表示，确定训练流程及损失函数；

步骤500：根据训练流程及损失函数对神经网络进行训练，得到所述最优化问题的解决算法。

其中，基于上述框架，我们提出基于MAGRL的算法来解决优化问题，基于MAGRL的算法在算法1（Algorithm 1）中具体说明，如图4所示。

可以看出，本申请能够公平的为地面低功率物联网（Internet of Things, 物联网（IoT））设备充电，有效地解决了在不知物联网（IoT）设备具体位置的情况下有效地为它们提供能量。

图2是本申请一示例性实施例示出的多无人机无线能量传输方法的系统模型示意图。

在一种可能的实现方式中，如图2所示，将U架无人机作为空中无线能量发射器，为地面上的物联网设备充电，设每个无人机在固定高度米处飞行，将无人机与物联网设备的集合分别表示为和：

物联网设备在地面上的坐标表示为

在一种可能的实现方式中，所述建立信道模型，包括：

定义为在时隙内从无人机到物联网设备的空对地信道的视线概率，其中为在时隙中无人机（UAV）-到设备的仰角，常数和为环境相关参数。

得到非视线的概率为无人机到物联网设备的平均AtG信道功率增益为：

。

其中，为与无人机（UAV）型号相关的常量。

得到无人机在时刻的移动能耗为，无线能量传输能耗为，其中的范围为，时表示悬停，为无人机的最大飞行速度。我们可以定义无人机在时隙的电量为：

。

其中，和，分别表示为能量转换转置的灵敏功率和饱和功率，是物联网设备接收到的RF功率，为非线性函数，通过曲线拟合技术可以很容易获得；

定义物联网设备在时隙收集到的能量为：

；

其中，为无人机的发射功率；

其中，为物联网设备的电池容量，表示初始电量；

为了判断物联网设备的电量是否达阈值，对于那些电量在时隙低于的物联网设备，定义为：

。

定义能量饥渴度为

需要优化的目标定义为：

。

其中，为了解决充电不均衡的问题，我们引入了一种新的度量能量饥渴度。能量饥渴度表示为物联网设备对能量的渴望程度，当得不到能量的补充时其就会增加，它能使无人机知道哪些物联网设备迫切需要得到能量的补充。

。

可以看出，本申请的一些实施例，基于能量饥渴度的多无人机的无线能量传输建模和新问题的提出：我们新提出了 "能量饥渴度 "这一指标，以指导多架无人机辅助的无线能量传输，满足物联网设备的不同能源需求。基于每个物联网设备的非线性能量采集模型和每架无人机的速度决定的能量消耗模型，无人机和物联网设备的电量都被正确建模。通过优化确定所有无人机的轨迹和随时间变化的无线能量传输决策，在无人机的实际移动性和能量约束下，提出了新的能量饥渴度最小化问题。

对于任何给定的状态，无人机应用策略来选择行动；

在第时隙结束时获得相应的奖励、；

其中，为无人机在时隙的水平转角；

奖励函数设计为：

其中，为权值，为奖励，为惩罚；

定义全局信息分别为, 和；

为了探索无人机（UAV）之间的潜在联系，以提高整体的无线能量传输（WET）性能，并避免碰撞，中央控制器（central controller）使用图来表示所有的无人机（UAV），将每个无人机（UAV）视为图中的一个节点，使用无人机之间的相似度矩阵来表示它们的连接强度，其表示为：

对于任何矩阵，函数将元素转换为, ；

得到，作为中央控制器新观察矩阵。

图3是本申请一示例性实施例示出的训练流程的示意图。

在一种可能的实现方式中，如图3所示，所述基于所述马尔科夫决策过程及无人机的图表示，确定训练流程及损失函数，包括：

在Local训练时以第次采样为例。基站首先计算出全局Q值，同时将采取的局部经验一起发送给无人机（UAV）-进行训练。我们根据损失函数

计算出梯度来更新，其中，。对于的参数，我们通过进行软更新，定义为。我们根据损失函数

计算出梯度来更新和。其中，为求均值的函数，为全局Q值用来指导局部网络的训练。根据损失函数

计算出梯度来更新。为根据加噪声动作计算出来的信息熵。为从固定分布中采样的噪声。在动作中加入噪声可以防止网络过拟合，保证网络训练稳定。我们根据损失函数

计算出梯度来更新温度系数，其中。

在Global训练时，我们将以第次采样为例。根据提取出的Global经验来更新Global网络。我们根据损失函数

计算出梯度，来更新全局网络的参数。对于的参数，我们通过进行软更新，定义为。最后我们根据损失函数

计算出梯度，来更新。

可以看出，本申请的一些实施例，基于MAGRL的分布式和协作式多无人机的无线能量传输方法：我们提出了基于MAGRL的方法来解决复杂的能量饥渴度最小化问题，其中无人机的self-attentions被挖掘出来，用于其协作无线能量传输。通过所提出的MAGRL模型的离线训练，central controller引导Global训练来指导每个无人机的Local训练，每架无人机根据训练好的Local神经网络来决定其轨迹和无线能量传输决策。

并且，本申请通过实际的建模，我们将所提出的MAGRL的方法与各种基准方法进行比较，验证了所提出的无人机按需无线能量传输的能量饥渴度（HoE）指标的有效性。此外，还说明了基于MAGRL的方法下无人机之间的协作性无线能量传输。

本申请经过仿真实验结果论证，结果表明本发明在满足各种约束下能够有效地降低那些能量达不到需求的物联网设备的总能量饥渴度，从而能够使无人机为物联网设备进行公平的充电。

为了验证本申请，通过进行仿真实验，获得相关实验结果数据。

图5是本申请一示例性实施例示出的训练奖励变化示意图，图6是本申请一示例性实施例示出的训练优化结果示意图

实验表明，本申请在训练时我们在区域范围为400mm，4架无人机和6台物联网设备的情况下进行了2000次训练，分别与3种基线方法进行了对比；这3种基线方法分别为：MAGR-能量饥渴度：在此方法中我们将在奖励中不加入能量饥渴度这一度量；MAGR-G: 在此方法中我们将去掉Global训练；MAGR－能量饥渴度-G: 这一方法则将能量饥渴度度量和Global训练都去掉。结果表明我们提出的算法由于基线方法如图5所示且最终能够将我们所需的优化目标降到最低如图6所示，进而使所有物联网设备的能量能够得到补充。

应该理解的是，虽然上述实施例所涉及的流程图中的各个步骤按照指示依次显示，但是这些步骤并不是必然按照指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其他的顺序执行。而且，上述实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述的实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图强化学习的多无人机无线能量传输方法，其特征在于，包括：

基于所述马尔科夫决策过程及无人机的图表示，确定训练流程及损失函数；

根据训练流程及损失函数对神经网络进行训练，得到所述优化问题的解决算法。

2.如权利要求1所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，将U架无人机作为空中无线能量发射器，为地面上的物联网设备充电，设每个无人机在固定高度米处飞行，将无人机与物联网设备的集合分别表示为/>和/>：

无人机的无线能量传输任务周期分为T个时隙，所述时隙的长度为秒，所述时隙的集合表示为/>；

无人机在t个时隙中的坐标表示为，由于时隙长度/>非常小，/>假定在每个时隙中不变，但在不同时隙中可能发生变化；

物联网设备在地面上的坐标表示为；

表示无人机与物联网设备在第t个时隙的距离，/>表示无人机在第t个时隙的无线能量传输决策，如果/>，则无人机在t时隙进行能量广播，否则保持静默。

3.如权利要求2所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述建立信道模型，包括：

定义为在时隙t内从无人机到物联网设备的空对地信道的视线概率，其中/>为在时隙t中无人机（UAV）-/>到设备i的仰角，常数a和b为环境相关参数；

。

4.如权利要求3所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述建立无人机能耗模型，包括：

在每个时隙t，无人机的推进力消耗由其速度决定，具体如下：

，

其中，为与无人机（UAV）型号相关的常量；

得到无人机在t时刻的移动能耗为，无线能量传输能耗为/>，其中的范围为/>，/>时表示悬停，/>为无人机的最大飞行速度，我们可以定义无人机在t时隙的电量为

。

5.如权利要求4所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述建立物联网设备的能量收集模型，包括：

；

其中，和/>，分别表示为能量转换转置的灵敏功率和饱和功率，p是物联网设备接收到的RF功率，/>为非线性函数；

定义物联网设备i在t时隙收集到的能量为；

其中，为无人机的发射功率；

定义为物联网（IoT）设备i在t时隙的电量，其在每个时隙开始时更新，如下表示：

，

其中，为物联网设备的电池容量，/>表示初始电量；

为了判断物联网设备的电量是否达阈值，对于那些电量在t时隙低于/>的物联网设备，定义为/>。

6.如权利要求5所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述建立能量饥渴度模型，包括：

定义能量饥渴度为

；

其中，，表示物联网设备要想在T个时隙内能量达到/>每个时隙所期望得到的能量；

需要优化的目标定义为：

。

7.如权利要求6所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述根据所述系统模型，建立优化问题，包括：

通过优化问题确定所有无人机的无线能量传输决策和轨迹/>，在无人机的实际机动性和能量约束下，我们使/>最小，具体如下：

。

8.如权利要求7所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述将所述优化问题转化为马尔科夫决策过程及无人机的图表示，包括：

对于任何给定的状态，无人机应用策略/>来选择行动/>；

在第t时隙结束时获得相应的奖励、、/>；

其中，为无人机在t时隙的水平转角；

奖励函数设计为：

；

其中，为权值，/>为奖励，/>为惩罚；

；

其中，，为无人机在t时隙传输的能量对整个系统传输的能量的平均比例；

，/>表示无人机在t时刻传给物联网设备i时的能量占物联网设备在t时刻收到的总能量所占的比例；

；

其中，分别为不满足约束无人机发生碰撞和超出区域范围时的惩罚。

9.如权利要求8所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述将所述优化问题转化为马尔科夫决策过程及无人机的图表示，包括：

定义全局信息分别为,/>和；

；

其中，，是无人机（UAV）-u和无人机（UAV）-u′之间的高斯距离，对角线上的元素/>表示无人机（UAV）-u的度；

为了得到全局特征矩阵, 首先生成矩阵/>和值矩阵/>，其表示如下：

，

对于任何矩阵，/>函数将元素/>转换为/>，/>；

得到，作为中央控制器新观察矩阵。

10.如权利要求9所述的基于图强化学习的多无人机无线能量传输方法，其特征在于，所述基于所述马尔科夫决策过程及无人机的图表示，确定训练流程及损失函数，包括：

在训练阶段，一个元组（）被存储在经验回放池/>中，所有Local和Global训练的神经网络都应用随机梯度下降（SGD）算法来更新其参数；

所述局部训练包括五个神经网络，分别为策略网络,Local Q网络/>以及局部V网络/>，其对应的网络参数我们分别定义为/>和/>；

全局训练包括三个神经网络，分别为Global Q网络以及Global V网络；其中对应的网络参数我们分别定义为/>，/>和/>；