CN117119489A

CN117119489A - 一种基于多无人机辅助的无线供能网络的部署和资源优化方法

Info

Publication number: CN117119489A
Application number: CN202311077525.0A
Authority: CN
Inventors: 王小洁; 李家梦; 冀宏婧; 易令; 吴宇; 宁兆龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-11-24

Abstract

本发明公开了一种基于多无人机辅助的无线供能网络的部署和资源优化方法，考虑到多无人机的有限覆盖范围和可穿戴设备的服务需求，提出均衡任务负载的聚类算法以确定候选悬停点位置，采用多智能体协同决策算法以获得无人机在用户集群间的服务调度决策，在用户集群中无人机进行用户时隙调度和无人机高度位置的调整。将用户时隙调度和无人机高度调整问题转化为受约束的马尔可夫决策过程，在拉格朗日原始对偶策略优化的基础上，采用嵌套的基于受约束的近似策略优化算法，由无人机决定调整高度的移动距离和当前覆盖范围内选择服务的可穿戴设备。仿真结果表明，与现有的两种深度强化学习算法相比，本发明的解决方案具有良好的服务完成率和节能性能。

Description

一种基于多无人机辅助的无线供能网络的部署和资源优化方法

技术领域

本发明涉及学术领域中基于多无人机辅助无线供能网络的部署和资源优化方法，尤其涉及一种可以同时优化无人机高度和用户调度策略的基于拉格朗日原始对偶优化的近似策略优化的方法。

背景技术

近年来，无线能量传输和无人机通信技术都被视作提升设备性能的关键技术。无线能量传输可以通过无线频谱传输能量实现无线充电，轨迹可控的无人机作为空中边缘服务器能够为用户提供动态可控的服务。多无人机辅助的无线供能平台就是将这两种技术相结合，不仅能够实现高机动性的通信服务而且可以降低能量供应成本。对于多无人机辅助的无线供能平台，有两个关键问题需要解决。一个关键问题是如何平衡无人机有限的电池能量以及可穿戴设备的能量需求。另一个关键问题是如何解决无人机的高度位置与设备调度的紧密耦合的问题。因此，同时实现无人机的均衡负载和设备的任务分配并合理优化无人机高度调整和设备调度有待于研究人员的进一步探索。

发明内容

本发明的目的主要针对现有研究的一些不足之处，提出多无人机辅助的无线供能网络的部署和资源优化方法，使用聚类算法、多智能体协同轨迹优化算法和基于拉格朗日原始对偶优化的近似策略优化算法来分别完成任务分配、无人机服务调度以及用户时隙调度和无人机高度调整。

本发明采用的技术方案是：1、一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于，包括以下步骤：

1)构建系统模型，确定通信模型和能量模型，构建以最大化吞吐量和最小化任务完成时间为优化目标的优化问题；

2)将步骤1)中的优化问题为三个子问题，分别是任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题；

3)利用聚类算法和多智能体协同决策算法分别求解步骤2)中的任务分配子问题和无人机服务调度子问题；

4)利用深度强化学习理论对步骤2)中的用户时隙调度和无人机高度调整子问题进行分析，构建受约束的马尔可夫问题；

5)为步骤4)中问题建立智能体模型，并对该模型进行训练。

本发明的有益效果：

本发明构建了一个动态服务部署框架，用于在多无人机辅助的无线供能网络中实现高机动性的通信服务和低成本的能量供应。在保证无人机的能量非负值的前提下，本发明考虑到多无人机的有限覆盖范围和可穿戴设备的服务需求，首先提出了一个均衡任务负载的聚类算法以确定候选悬停点位置，然后设计了一种多智能体协同决策算法以获得无人机在用户集群间的服务调度决策，接着在用户集群中无人机进行用户时隙调度和无人机高度位置的调整，目的是使网络吞吐量最大化。为了解决能量受限的无人机辅助网络中可穿戴设备的时隙调度和无人机的高度控制问题，本发明将该问题转化为受约束的马尔可夫决策过程，在拉格朗日原始对偶策略优化的基础上，提出了嵌套的基于受约束的近似策略优化算法，由无人机决定调整高度的移动距离和当前覆盖范围内选择服务的可穿戴设备。仿真结果表明，与现有的两种深度强化学习算法相比，本研究的解决方案具有良好的服务完成率和节能性能。

附图说明

图1为基于无人机辅助智能可穿戴设备网络无线供能的下行链路网络系统。

图2为多智能体协同决策算法网络架构图。

图3和图4表示了本发明设计的算法与另外两个基线算法在总能量消耗方面的性能。实验数据结果表明本发明设计的算法使用深度强化学习来同时学习多个无人机之间的负载和高度调整策略的方法是有效的。相比另外个算法，本发明能够获得最低的总能量消耗。

图5和图6表示了本发明设计的算法与另外两个基线算法在服务公平性方面的性能。实验数据结果表明本发明在可穿戴设备数量和时隙数量较大的情况下，仍能获得较高的服务公平性。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

本发明实例提供了一种基于多无人机辅助的无线供能网络的部署和资源优化方法，该方法包括：

步骤1：构建系统模型，确定通信模型和能量模型。

如图1所示，本发明构建一个系统模型，其中包含I个智能可穿戴设备，表示为以及U个无人机，表示为/>在任务开始前，无人机在基站装载充足的电量资源。当智能可穿戴设备而发出能量请求时，无人机按照连续的悬停飞行策略，飞行到一个给定的悬停位置(例如，在用户集群中心的正上方)向用户设备提供能量供应。考虑到无人机的有限覆盖范围，它可以通过调整高度为热点区域的智能可穿戴设备提供服务。用户集群中的智能可穿戴设备的能量需求用w_i表示。本发明假设无人机的大部分传输功率集中在无人机正下方α的孔径角度内。

采用时隙-帧结构，将时域划分为L_max个等长的时间帧为单位的集合l表示第l个时间帧。每一帧由K时间段组成，/>代表时间段的集合，每个时间段的持续时间为δ。随着无人机高度位置的变化，无人机当前覆盖的可穿戴设备的集合为/>此外，将在该时间段内安排的智能可穿戴设备定义为一个服务设备组，可选的候选服务设备组记为/>z表示第z个候选服务设备组。最大数量为在帧l的时间段k上，当前服务的设备组z的数量和集合用C_k，z，l和/>表示。

本发明采用3D欧几里得坐标建模无人机和智能可穿戴设备的位置，智能可穿戴设备的坐标为(x_i，y_i，0)和无人机的坐标为(x_u，k，l，y_u，k，l，h_u，k，l)，其中h_u，k，l为无人机的高度。因此，无人机u到智能可穿戴设备之间的距离表示为：

本发明在无人机通信模型上考虑了视距(Line of Sight，简称Los)链路以及非视距(Non-Line of Sight，简称NLos)链路对通信模型建模的影响，无人机u和智能可穿戴设备i之间的LoS链路概率可以表示为：

其中和/>是与环境条件相关的常数，符号θ_i，u表示无人机与用户设备之间的仰角，遵循θ_i，u＝(180/π)arctan(h_u，k，l/χ_i，u)。符号/>表示无人机与设备的水平距离。

相对应地，NLos链路的概率为那么，无人机和智能可穿戴设备之间Los链路和NLos链路的路径损耗模型表示为：

其中，符号f_c和c分别代表载波频率和光速。符号κ代表路径损耗指数。和/>分别描述Los链路和NLos链路的额外路径损耗。进一步，平均路径损耗表述为：

此外，将G_i，u＝1/L_i，u定义为平均信道增益。然后，从无人机到智能可穿戴设备之间的信噪比(Signal to Noise Ratio，简称SNR)可以表示为：

其中，P_t表示传输功率，σ²是加性白高斯噪声(Additive White Gaussian Noise，简称AWGN)的方差。进一步，本发明中可穿戴设备网络的总吞吐量定义为：

其中B为系统带宽。

每架无人机装备一个初始能量为E_init的电池来提供电力。在l帧中的每个时间段k，无人机以一定的速度η移动，然后在新的悬停位置与环境进行交互，无人机飞行运动的推进功率计算如下：

其中符号P₀和P_s分别代表无人机悬停状态下的叶片剖面功率和诱导功率。符号u_tip和v₀分别表示无人机旋翼叶片的尖端速度和悬停状态下的平均旋翼诱导速度。符号d₀表示机身阻力比，ρ表示空气密度，s表示旋翼实体度，以及J代表旋翼盘面积。因此，无人机飞行能耗可以定义为：其中l_f为在帧l上无人机调整高度的飞行时间表示为l_f＝||h^u(k+1)-_h ^u(k)||/η，符号h^u(k+1)和h^u(k)分别表示无人机在帧l的k+1和k时间段的高度。

无人机u从起始点飞到被其服务的第一个用户簇的距离表示为d_u，d_n，n+1表示为用户簇μ_n和用户簇μ_n+1之间的距离，因此无人机u的飞行时间l_u可以表示为：

其中M_u表示无人机u遍历的用户簇总数，由于用户簇总数为N，那么有1≤M_u≤N且另外，无人机的悬停能耗为：

其中符号θ表示阻力系数，符号V和R分别代表旋翼叶片角速度和旋翼半径。符号W是无人机的重量W＝mg，其中m为无人机的质量，g是重力加速度。变量l表示增量修正系数。

在下行链路的能量供应阶段，无人机u在悬停状态下向智能可穿戴设备传输能量，其中无人机的悬停时间l_h等于能量供应时间l_c，因此，无人机提供能量和悬停的总能耗可以表示为：

其中P_c是无人机对智能穿戴设备能量传输时的发射功率。因此，无人机在时间帧l的电池能量为进一步，无人机u完成任务的时间定义为：

此外，智能可穿戴设备i从无人机u收集到的能量由下式给出：

其中，是射频到直流的转换速率，它的范围为/>

本发明优化目标为最大化吞吐量和最小化任务完成时间，该多目标优化问题描述如下：

s.t.

其中，变量Υ_i，n为可穿戴设备分配指标，Υ_i，n＝1表示用户设备i被分配到用户簇μ_n中。变量Ψ_u，n为无人机与用户簇的关联指标，Ψ_u，n＝1表示无人机u选择服务用户簇μ_n。将决策变量p_{u，z，k，l}为可穿戴设备调度指标，p_u，z，kl＝1表示可穿戴设备组在时隙k上被无人机u选中进行服务。另一个决策变量/>表示无人机在k时隙在l帧上调整高度的距离。

约束条件1和4分别决策变量Υ_i，n和Ψ_u，n的有效性。约束条件2表明用户设备i仅能被分配到一个用户簇中。约束条件3中过设置变量Π_max表明一个用户簇的服务阈值。约束条件5确保每个用户簇只能由一个无人机来服务。约束条件6表示无人机u选择服务的用户簇的数量在范围[1，N]内。约束条件7和8限制了决策变量p_{u，z，k，l}和h_u，kl的范围，其中h_max表示为无人机的最大飞行高度。约束条件9确保所有可穿戴设备的能量传输需求在L_max个时间帧内得到满足。约束条件10表明，在一个时间段内每架无人机u只能服务一组可穿戴设备。约束11设定SNR阈值Λ_th，如果SNR大于阈值，则认为传输成功。

步骤2：利用聚类算法和多智能体协同决策算法分别求解步骤1)中的任务分配子问题和无人机服务调度子问题。

步骤1)描述的优化问题中无人机的高度位置与可穿戴设备的调度是紧密耦合的。为了解决步骤1)描述的优化问题，本发明将其分为三个子问题，分别是任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题。本部分首先考虑一种改进的聚类算法来保证每个用户簇的任务均衡，然后使用一种多智能体协同决策的算法来完成无人机服务调度。

将步骤1)中的问题分解为任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题。其中，任务分配子问题表示如下：

s.t.

其中，和(x_i，y_i)分别为用户设备集群簇中心二维位置和智能可穿戴设备的位置，μ_n是用户簇n的设备集群/>的向量均值。

本发明设计基于改进的聚类算法来平衡每架无人机的负载。首先，根据用户设备之间的距离，将用户划分为N个用户集群(μ₁，μ₂，...，μ_N)，将集群中的用户设备划分到与之最近的簇中心范围内。在将用户设备划分到对应的用户集群的过程中，如果当前用户簇的总需求小于用户簇的服务阈值，那么将用户设备划分到最近的用户集群中，否则将用户划分到次近的用户集群中。

基于改进的聚类算法的具体细节如表1所示。

此外，任务分配子问题通过决策变量Υ_i，n将用户设备划分到用户簇中得到候选的悬停点位置并且均衡用户簇的任务分配，作为无人机服务调度子问题的输入。无人机服务调度子问题通过选择候选的悬停点确定无人机的服务调度以最小化任务完成时间，该子问题表示加下：

s.t.

在解决任务分配子问题获得候选悬停点位置之后，由于为了尽可能降低无人机在各个用户簇之间的飞行时间l_u，将无人机服务调度子问题优化目标转化为最小化最长子路径的距离，然后提出了一种基于多智能体协同决策算法来解决无人机服务调度问题。多智能体协同决策算法网络架构如图2所示。本发明构建了一个包含共享的图网络和分布策略网络的网络架构，将每个无人机看作一个智能体，在智能体上部署了分配悬停位置策略网络和确定服务序列策略网络，以获得最优的无人机解决方案，考虑到无人机的算力有限，本研究将该网络架构放置在边缘云上。

多智能体协同决策算法的伪代码如表2所示。该算法的输入为候选悬停点位置信息，无人机个数以及起飞点的位置，通过将候选的悬停点分配到不同的无人机智能体的任务集中生成每个智能体的初始解决方案，然后通过改进的领域搜索算法确定一个智能体访问的悬停点序列。最后，输出的解决方案由多个智能体的服务悬停点轨迹组成。

具体来说，本发明为分配悬停位置策略网络构建了马尔可夫决策模型，其中状态S_t表示在回合t时的候选悬停点位置状态，它包含多个解决方案，即每个智能体选择服务的候选悬停点集合。动作A_t表示为在当前S_t状态下，每个候选悬停节点被分配到哪一个智能体的服务任务集合当中。奖励R_t表示为最小化最长子路径的距离。

此外，智能体之间可以利用观测到的悬停点位置信息x(μ₁)，x(μ₂)，...，x(_N)，通过共享的图网络构建悬停点的图结构，在该图结构中将候选悬停点的位置看作节点，候选悬停点之间的距离看作边，构成一个完全图，展示了候选悬停点的连接关系。在相邻的悬停点之间可以采用消息传递和消息聚合的方式获得悬停节点的特征向量以及图嵌入信息/>作为各个分配悬停位置策略网络的输入信息。

由于每个无人机智能体从起始点h₁出发飞往各个候选悬停点，因此除了起始点会有多个无人机智能体访问外，其余候选悬停点仅被访问一次，将h_c＝[g_h，h₁]作为上下文嵌入，此外，在分配悬停位置策略网络中，利用注意力机制先将是每个智能体通过全局的悬停节点特征信息构造各自的智能体嵌入信息，如下式所示：

其中，和/>分别表示查询矩阵，键值矩阵以及价值矩阵，/>和/>分别表示其对应矩阵参数。d_k和d_v分别表示键值矩阵和价值矩阵的维度。另外，/>分别表示悬停节点嵌入信息和智能体嵌入信息的维度。接着，结合之前的悬停点图嵌入信息g_h，利用上述提到的类似的注意力机制获得的评分系数/>来衡量每个悬停点位置对每个智能体的重要性概率，如下式所示：

其中，利用tanh函数将矩阵结果限制在[-C，C]中，C、和/>分别表示调节参数、查询转置矩阵和键值转置矩阵。然后，每个智能体依据重要性概率确定每个智能体分别服务哪些悬停点的分配决策。在获得无人机智能体的分配候选悬停点策略后，通过改进的领域搜索算法确定每个智能体访问的候选悬停点序列。将多智能体协同决策算法的每个智能体输出作为改进的领域搜索算法每个智能体的输入初始解决方案，利用深度学习框架学习特定成对局部算子选择策略，以提高初始解决方案。改进的领域搜索算法的流程如表3所示。

步骤3：利用深度强化学习理论对步骤2)中的用户时隙调度和无人机高度调整子问题进行分析。

步骤2)中的用户时隙调度和无人机高度调整子问题仍然难以解决，主要是因为难以平衡无人机有限的覆盖范围和电池能量以及可穿戴设备的能量需求。本部分将用户时隙调度和无人机高度调整子问题构建为一个受约束的马尔可夫决策过程，并建立基于深度强化学习的优化问题。

在解决完任务分配子问题和无人机服务调度子问题后，每架无人机通过调整高度位置和选择用户设备来最大化每个用户集群的吞吐量：

s.t.

在解决均衡任务负载与确定候选悬停位置后，此时无人机向每个用户集群中智能可穿戴设备提供服务，考虑到无人机的覆盖范围和有限的电池能量约束以及可穿戴设备的能量需求，本发明首先将用户时隙调度和无人机高度调整子问题构建为一个受约束的马尔可夫决策过程模型，然后提出了一种基于受约束的近似策略优化算法。

首先，系统的状态定义由三个部分组成：无人机的当前高度h_u，k，l∈[H_minH_max]，无人机的剩余电池容量以及智能可穿戴设备i未得到的能量需求D_i，l。状态S_l可以定义为：/>

其次，无人机的动作由两部分组成，一部分是l时间帧的高度移动距离其/>另一个是无人机u在时间段帧l的用户时隙分配p_u，k，l＝{p_u，1，l，…，p_u，K，l}，其中p_u，k，l∈{1，…，z，…Z_u，k，l}，p_u，k，l＝z表示在l时间帧的k时间段的z用户设备候选组被无人机u选中进行服务。因此，动作空间被定义为

然后，下面将介绍奖励和惩罚的定义。即时奖励被定义为可穿戴设备网络的吞吐量，即考虑到长期折扣网络吞吐量的最大化，引入了折扣因子β，因此，受约束的马尔可夫问题可以表述如下：

s.t.

其中，π_ζ表示用户时隙调度和无人机高度调整策略。表示根据策略π_ζ求期望。

步骤4：为步骤3)中问题建立智能体模型，并对该模型进行训练。

本发明将无人机看作与可穿戴设备互动的智能体，并学习最佳高度调整决策和可穿戴设备调度策略。本发明提出了一种嵌套的基于受约束的近似策略优化算法，通过构建基于拉格朗日的奖惩函数来解决这个问题，以放松约束性优化问题。在这个算法中，使用了一个演员批判方案来改进策略，在较快的时间尺度上更新价值网络和策略网络参数，在较慢的时间尺度上更新拉格朗日的参数。

在所提出的受约束的深度强化学习算法中，策略网络通过最大化目标函数L^CLIP(ζ)来更新网络参数，

其中，表示求l帧的期望，A_l和S_l分别表示在l帧的动作和状态。ζ是策略网络的网络参数，符号π_ζ和π_ζol分别代表新旧策略。符号∈表示调整裁剪的超参数，clip表示裁剪函数，它可以看作一个正则化器，通过这种方式可以在每次迭代中对当前策略提出局部改进，通过将更新新旧策略比率/>设置在一个特定的范围边界来提升策略，以解决更新的不稳定性和数据效率低下的问题。此外，符号/>示广义优势估计，是平衡偏差和方差影响的关键。

其次，使用最小化策略的均方误差来学习状态值函数

其中，表示l帧的期望的估计值，/>和/>分别表示状态值函数和从l帧到l+k帧的拉格朗日惩罚奖励函数，β^k表示第k个时间段的折扣因子。同时，惩罚评论家对惩罚值函数参数w_q进行优化，/>的计算方式与状态值函数类似。

其中，表示从l帧到l+k帧的长期动作值函数，/>表示惩罚评论家的价值估计函数。

通过执行随机梯度上升法，用惩罚演员来更新在帧l+1的拉格朗日参数γl+1：

其中，ε表示拉格朗日乘子的学习率，γ_l表示帧l的拉格朗日参数。和/>分别表示在帧l和帧l+1时无人机u的电量。

关于嵌套的基于受约束的近似策略优化算法的伪代码见表4.

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于，包括以下步骤：

5)为步骤4)中问题建立智能体模型，并对该模型进行训练。

2.根据权利要求1所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：所述通信模型中无人机和智能可穿戴设备之间Los链路和NLos链路的路径损耗模型表示为：

其中，是无人机u到智能可穿戴设备i之间的距离，(x_u，k，l，y_u，k，l，h_u，k，l)和(x_i，y_i)分别为无人机和智能可穿戴设备的位置；f_c和c分别代表载波频率和光速，/>代表路径损耗指数，/>和/>分别表述Los链路和NLos链路的额外路径损耗；/>和/>分别表示Los链路概率和NLos链路概率，平均路径损耗表述为：

将G_i，u＝1/L_i，u定义为平均信道增益，从无人机到智能可穿戴设备之间的信噪比表示为：

其中，P_t表示传输功率，σ²是加性白高斯噪声的方差；可穿戴设备网络的总吞吐量为：

B为系统带宽，代表帧l中所有时间段的集合，k表示第k个时间段；

所述能量模型中无人机u完成任务的时间为：

其中，是无人机当前覆盖的可穿戴设备的集合，l_f为无人机调整高度的飞行时间，l_h和l_c分别为无人机的悬停时间和能量供应时间，智能可穿戴设备i从无人机u收集到的能量为：

其中，是射频到直流的转换速率，P_c是无人机对智能穿戴设备能量传输时的发射功率，z表示第z个候选服务设备组，l表示第l个帧。

3.根据权利要求2所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：所述以最大化吞吐量和最小化任务完成时间为优化目标的优化问题为：

s.t.

其中，变量Υ_i，n为可穿戴设备分配指标，Υ_i，n＝1表示用户设备i被分配到用户簇μ_n中，变量Ψ_u，n为无人机与用户簇的关联指标，Ψ_u，n＝1表示无人机u选择服务用户簇μ_n，将决策变量p_{u，z，k，l}为可穿戴设备调度指标，p_{u，z，k，l}＝1表示可穿戴设备组在时隙k上被无人机u选中进行服务，另一个决策变量/>表示无人机在k时隙在l帧上调整高度的距离，/>分别为智能可穿戴设备和无人机的集合，具体表示为/>和表示在帧l的时间段k上当前服务的设备组集合，/>表示在帧l的时间段k上候选服务设备组的集合，/>表示以帧为单位的集合；w_i表示用户集群中的智能可穿戴设备的能量需求，Π_max表示一个用户簇的服务阈值，N表示用户簇总数，n表示第n个用户簇；h_max表示为无人机的最大飞行高度。

4.根据权利要求1或3所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：所述任务分配子问题为：

s.t.

其中，和/>分别为用户设备集群簇中心二维位置和智能可穿戴设备的位置，μ_n是用户簇n的设备集群/>的向量均值；所述无人机服务调度子问题为：

s.t.

5.根据权利要求4所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：步骤3)所述聚类算法包括：根据用户设备之间的距离，将用户划分为N个用户集群(μ₁，μ₂，...，μ_N)，将集群中的用户设备划分到与之最近的簇中心范围内，在将用户设备划分到对应的用户集群的过程中，如果当前用户簇的总需求小于用户簇的服务阈值，那么将用户设备划分到最近的用户集群中，否则将用户划分到次近的用户集群中。

6.根据权利要求4所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：步骤3)所述多智能体协同决策算法，将每个无人机看作一个智能体，在智能体上部署分配悬停位置策略网络和确定服务序列策略网络，输入为候选悬停点位置信息，无人机个数以及起飞点的位置，通过将候选的悬停点分配到不同的无人机智能体的任务集中生成每个智能体的初始解决方案，然后通过改进的领域搜索算法确定一个智能体访问的悬停点序列；最后，输出的解决方案由多个智能体的服务悬停点轨迹组成。

7.根据权利要求1或3所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：所述用户时隙调度和无人机高度调整子问题为：

s.t.

8.根据权利要求7所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：所述受约束的马尔可夫问题为：

s.t.

其中，β^l和π_ζ分别表示帧l的折扣因子和用户时隙调度和无人机高度调整策略，表示根据策略π_ζ求期望。

9.根据权利要求8所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：所述步骤5)中采用嵌套的基于受约束的近似策略优化算法，通过构建基于拉格朗日的奖惩函数来解决步骤4)中的问题，使用了一个演员批判方案来改进策略，给出策略网络、值网络以及拉格朗日参数的更新方式，通过执行随机梯度上升法来更新它们的网络权重。

10.根据权利要求9所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法，其特征在于：策略网络通过最大化目标函数L^CLIP(ζ)来更新网络参数，

其中，A_l和S_l分别表示l帧的动作和状态，ζ是策略网络的网络参数，π_ζ和分别代表新旧策略，∈表示调整裁剪的超参数，clip表示裁剪函数，/>表示广义优势估计，/>表示求l帧的期望；

使用最小化策略的均方误差来学习状态值函数

其中，和/>分别表示状态值函数和从l帧到l+k帧的拉格朗日惩罚奖励函数，β^k表示时间段k的折扣因子，/>表示l帧的期望的估计值，同时，惩罚评论家对惩罚值函数参数ω_q进行优化，/>的计算方式与状态值函数类似；

其中，表示从l帧到l+k帧的长期动作值函数，/>表示惩罚评论家的价值估计函数；

通过执行随机梯度上升法，用惩罚演员来更新在帧l+1的拉格朗日参数γ_l+1：

其中，ε表示拉格朗日乘子的学习率，γ_l表示帧l的拉格朗日参数，和/>分别表示在帧l和帧l+1时无人机u的电量。