CN117119489A - 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 - Google Patents
一种基于多无人机辅助的无线供能网络的部署和资源优化方法 Download PDFInfo
- Publication number
- CN117119489A CN117119489A CN202311077525.0A CN202311077525A CN117119489A CN 117119489 A CN117119489 A CN 117119489A CN 202311077525 A CN202311077525 A CN 202311077525A CN 117119489 A CN117119489 A CN 117119489A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- user
- representing
- deployment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 claims abstract description 8
- 230000033001 locomotion Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 claims 1
- 230000009977 dual effect Effects 0.000 abstract description 4
- 238000004088 simulation Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 8
- 238000005265 energy consumption Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000033748 Device issues Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/50—Service provisioning or reconfiguring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于多无人机辅助的无线供能网络的部署和资源优化方法,考虑到多无人机的有限覆盖范围和可穿戴设备的服务需求,提出均衡任务负载的聚类算法以确定候选悬停点位置,采用多智能体协同决策算法以获得无人机在用户集群间的服务调度决策,在用户集群中无人机进行用户时隙调度和无人机高度位置的调整。将用户时隙调度和无人机高度调整问题转化为受约束的马尔可夫决策过程,在拉格朗日原始对偶策略优化的基础上,采用嵌套的基于受约束的近似策略优化算法,由无人机决定调整高度的移动距离和当前覆盖范围内选择服务的可穿戴设备。仿真结果表明,与现有的两种深度强化学习算法相比,本发明的解决方案具有良好的服务完成率和节能性能。
Description
技术领域
本发明涉及学术领域中基于多无人机辅助无线供能网络的部署和资源优化方法,尤其涉及一种可以同时优化无人机高度和用户调度策略的基于拉格朗日原始对偶优化的近似策略优化的方法。
背景技术
近年来,无线能量传输和无人机通信技术都被视作提升设备性能的关键技术。无线能量传输可以通过无线频谱传输能量实现无线充电,轨迹可控的无人机作为空中边缘服务器能够为用户提供动态可控的服务。多无人机辅助的无线供能平台就是将这两种技术相结合,不仅能够实现高机动性的通信服务而且可以降低能量供应成本。对于多无人机辅助的无线供能平台,有两个关键问题需要解决。一个关键问题是如何平衡无人机有限的电池能量以及可穿戴设备的能量需求。另一个关键问题是如何解决无人机的高度位置与设备调度的紧密耦合的问题。因此,同时实现无人机的均衡负载和设备的任务分配并合理优化无人机高度调整和设备调度有待于研究人员的进一步探索。
发明内容
本发明的目的主要针对现有研究的一些不足之处,提出多无人机辅助的无线供能网络的部署和资源优化方法,使用聚类算法、多智能体协同轨迹优化算法和基于拉格朗日原始对偶优化的近似策略优化算法来分别完成任务分配、无人机服务调度以及用户时隙调度和无人机高度调整。
本发明采用的技术方案是:1、一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于,包括以下步骤:
1)构建系统模型,确定通信模型和能量模型,构建以最大化吞吐量和最小化任务完成时间为优化目标的优化问题;
2)将步骤1)中的优化问题为三个子问题,分别是任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题;
3)利用聚类算法和多智能体协同决策算法分别求解步骤2)中的任务分配子问题和无人机服务调度子问题;
4)利用深度强化学习理论对步骤2)中的用户时隙调度和无人机高度调整子问题进行分析,构建受约束的马尔可夫问题;
5)为步骤4)中问题建立智能体模型,并对该模型进行训练。
本发明的有益效果:
本发明构建了一个动态服务部署框架,用于在多无人机辅助的无线供能网络中实现高机动性的通信服务和低成本的能量供应。在保证无人机的能量非负值的前提下,本发明考虑到多无人机的有限覆盖范围和可穿戴设备的服务需求,首先提出了一个均衡任务负载的聚类算法以确定候选悬停点位置,然后设计了一种多智能体协同决策算法以获得无人机在用户集群间的服务调度决策,接着在用户集群中无人机进行用户时隙调度和无人机高度位置的调整,目的是使网络吞吐量最大化。为了解决能量受限的无人机辅助网络中可穿戴设备的时隙调度和无人机的高度控制问题,本发明将该问题转化为受约束的马尔可夫决策过程,在拉格朗日原始对偶策略优化的基础上,提出了嵌套的基于受约束的近似策略优化算法,由无人机决定调整高度的移动距离和当前覆盖范围内选择服务的可穿戴设备。仿真结果表明,与现有的两种深度强化学习算法相比,本研究的解决方案具有良好的服务完成率和节能性能。
附图说明
图1为基于无人机辅助智能可穿戴设备网络无线供能的下行链路网络系统。
图2为多智能体协同决策算法网络架构图。
图3和图4表示了本发明设计的算法与另外两个基线算法在总能量消耗方面的性能。实验数据结果表明本发明设计的算法使用深度强化学习来同时学习多个无人机之间的负载和高度调整策略的方法是有效的。相比另外个算法,本发明能够获得最低的总能量消耗。
图5和图6表示了本发明设计的算法与另外两个基线算法在服务公平性方面的性能。实验数据结果表明本发明在可穿戴设备数量和时隙数量较大的情况下,仍能获得较高的服务公平性。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。
本发明实例提供了一种基于多无人机辅助的无线供能网络的部署和资源优化方法,该方法包括:
步骤1:构建系统模型,确定通信模型和能量模型。
如图1所示,本发明构建一个系统模型,其中包含I个智能可穿戴设备,表示为以及U个无人机,表示为/>在任务开始前,无人机在基站装载充足的电量资源。当智能可穿戴设备而发出能量请求时,无人机按照连续的悬停飞行策略,飞行到一个给定的悬停位置(例如,在用户集群中心的正上方)向用户设备提供能量供应。考虑到无人机的有限覆盖范围,它可以通过调整高度为热点区域的智能可穿戴设备提供服务。用户集群中的智能可穿戴设备的能量需求用wi表示。本发明假设无人机的大部分传输功率集中在无人机正下方α的孔径角度内。
采用时隙-帧结构,将时域划分为Lmax个等长的时间帧为单位的集合l表示第l个时间帧。每一帧由K时间段组成,/>代表时间段的集合,每个时间段的持续时间为δ。随着无人机高度位置的变化,无人机当前覆盖的可穿戴设备的集合为/>此外,将在该时间段内安排的智能可穿戴设备定义为一个服务设备组,可选的候选服务设备组记为/>z表示第z个候选服务设备组。最大数量为在帧l的时间段k上,当前服务的设备组z的数量和集合用Ck,z,l和/>表示。
本发明采用3D欧几里得坐标建模无人机和智能可穿戴设备的位置,智能可穿戴设备的坐标为(xi,yi,0)和无人机的坐标为(xu,k,l,yu,k,l,hu,k,l),其中hu,k,l为无人机的高度。因此,无人机u到智能可穿戴设备之间的距离表示为:
本发明在无人机通信模型上考虑了视距(Line of Sight,简称Los)链路以及非视距(Non-Line of Sight,简称NLos)链路对通信模型建模的影响,无人机u和智能可穿戴设备i之间的LoS链路概率可以表示为:
其中和/>是与环境条件相关的常数,符号θi,u表示无人机与用户设备之间的仰角,遵循θi,u=(180/π)arctan(hu,k,l/χi,u)。符号/>表示无人机与设备的水平距离。
相对应地,NLos链路的概率为那么,无人机和智能可穿戴设备之间Los链路和NLos链路的路径损耗模型表示为:
其中,符号fc和c分别代表载波频率和光速。符号κ代表路径损耗指数。和/>分别描述Los链路和NLos链路的额外路径损耗。进一步,平均路径损耗表述为:
此外,将Gi,u=1/Li,u定义为平均信道增益。然后,从无人机到智能可穿戴设备之间的信噪比(Signal to Noise Ratio,简称SNR)可以表示为:
其中,Pt表示传输功率,σ2是加性白高斯噪声(Additive White Gaussian Noise,简称AWGN)的方差。进一步,本发明中可穿戴设备网络的总吞吐量定义为:
其中B为系统带宽。
每架无人机装备一个初始能量为Einit的电池来提供电力。在l帧中的每个时间段k,无人机以一定的速度η移动,然后在新的悬停位置与环境进行交互,无人机飞行运动的推进功率计算如下:
其中符号P0和Ps分别代表无人机悬停状态下的叶片剖面功率和诱导功率。符号utip和v0分别表示无人机旋翼叶片的尖端速度和悬停状态下的平均旋翼诱导速度。符号d0表示机身阻力比,ρ表示空气密度,s表示旋翼实体度,以及J代表旋翼盘面积。因此,无人机飞行能耗可以定义为:其中lf为在帧l上无人机调整高度的飞行时间表示为lf=||hu(k+1)-h u(k)||/η,符号hu(k+1)和hu(k)分别表示无人机在帧l的k+1和k时间段的高度。
无人机u从起始点飞到被其服务的第一个用户簇的距离表示为du,dn,n+1表示为用户簇μn和用户簇μn+1之间的距离,因此无人机u的飞行时间lu可以表示为:
其中Mu表示无人机u遍历的用户簇总数,由于用户簇总数为N,那么有1≤Mu≤N且另外,无人机的悬停能耗为:
其中符号θ表示阻力系数,符号V和R分别代表旋翼叶片角速度和旋翼半径。符号W是无人机的重量W=mg,其中m为无人机的质量,g是重力加速度。变量l表示增量修正系数。
在下行链路的能量供应阶段,无人机u在悬停状态下向智能可穿戴设备传输能量,其中无人机的悬停时间lh等于能量供应时间lc,因此,无人机提供能量和悬停的总能耗可以表示为:
其中Pc是无人机对智能穿戴设备能量传输时的发射功率。因此,无人机在时间帧l的电池能量为进一步,无人机u完成任务的时间定义为:
此外,智能可穿戴设备i从无人机u收集到的能量由下式给出:
其中,是射频到直流的转换速率,它的范围为/>
本发明优化目标为最大化吞吐量和最小化任务完成时间,该多目标优化问题描述如下:
s.t.
其中,变量Υi,n为可穿戴设备分配指标,Υi,n=1表示用户设备i被分配到用户簇μn中。变量Ψu,n为无人机与用户簇的关联指标,Ψu,n=1表示无人机u选择服务用户簇μn。将决策变量pu,z,k,l为可穿戴设备调度指标,pu,z,kl=1表示可穿戴设备组在时隙k上被无人机u选中进行服务。另一个决策变量/>表示无人机在k时隙在l帧上调整高度的距离。
约束条件1和4分别决策变量Υi,n和Ψu,n的有效性。约束条件2表明用户设备i仅能被分配到一个用户簇中。约束条件3中过设置变量Πmax表明一个用户簇的服务阈值。约束条件5确保每个用户簇只能由一个无人机来服务。约束条件6表示无人机u选择服务的用户簇的数量在范围[1,N]内。约束条件7和8限制了决策变量pu,z,k,l和hu,kl的范围,其中hmax表示为无人机的最大飞行高度。约束条件9确保所有可穿戴设备的能量传输需求在Lmax个时间帧内得到满足。约束条件10表明,在一个时间段内每架无人机u只能服务一组可穿戴设备。约束11设定SNR阈值Λth,如果SNR大于阈值,则认为传输成功。
步骤2:利用聚类算法和多智能体协同决策算法分别求解步骤1)中的任务分配子问题和无人机服务调度子问题。
步骤1)描述的优化问题中无人机的高度位置与可穿戴设备的调度是紧密耦合的。为了解决步骤1)描述的优化问题,本发明将其分为三个子问题,分别是任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题。本部分首先考虑一种改进的聚类算法来保证每个用户簇的任务均衡,然后使用一种多智能体协同决策的算法来完成无人机服务调度。
将步骤1)中的问题分解为任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题。其中,任务分配子问题表示如下:
s.t.
其中,和(xi,yi)分别为用户设备集群簇中心二维位置和智能可穿戴设备的位置,μn是用户簇n的设备集群/>的向量均值。
本发明设计基于改进的聚类算法来平衡每架无人机的负载。首先,根据用户设备之间的距离,将用户划分为N个用户集群(μ1,μ2,...,μN),将集群中的用户设备划分到与之最近的簇中心范围内。在将用户设备划分到对应的用户集群的过程中,如果当前用户簇的总需求小于用户簇的服务阈值,那么将用户设备划分到最近的用户集群中,否则将用户划分到次近的用户集群中。
基于改进的聚类算法的具体细节如表1所示。
此外,任务分配子问题通过决策变量Υi,n将用户设备划分到用户簇中得到候选的悬停点位置并且均衡用户簇的任务分配,作为无人机服务调度子问题的输入。无人机服务调度子问题通过选择候选的悬停点确定无人机的服务调度以最小化任务完成时间,该子问题表示加下:
s.t.
在解决任务分配子问题获得候选悬停点位置之后,由于为了尽可能降低无人机在各个用户簇之间的飞行时间lu,将无人机服务调度子问题优化目标转化为最小化最长子路径的距离,然后提出了一种基于多智能体协同决策算法来解决无人机服务调度问题。多智能体协同决策算法网络架构如图2所示。本发明构建了一个包含共享的图网络和分布策略网络的网络架构,将每个无人机看作一个智能体,在智能体上部署了分配悬停位置策略网络和确定服务序列策略网络,以获得最优的无人机解决方案,考虑到无人机的算力有限,本研究将该网络架构放置在边缘云上。
多智能体协同决策算法的伪代码如表2所示。该算法的输入为候选悬停点位置信息,无人机个数以及起飞点的位置,通过将候选的悬停点分配到不同的无人机智能体的任务集中生成每个智能体的初始解决方案,然后通过改进的领域搜索算法确定一个智能体访问的悬停点序列。最后,输出的解决方案由多个智能体的服务悬停点轨迹组成。
具体来说,本发明为分配悬停位置策略网络构建了马尔可夫决策模型,其中状态St表示在回合t时的候选悬停点位置状态,它包含多个解决方案,即每个智能体选择服务的候选悬停点集合。动作At表示为在当前St状态下,每个候选悬停节点被分配到哪一个智能体的服务任务集合当中。奖励Rt表示为最小化最长子路径的距离。
此外,智能体之间可以利用观测到的悬停点位置信息x(μ1),x(μ2),...,x(N),通过共享的图网络构建悬停点的图结构,在该图结构中将候选悬停点的位置看作节点,候选悬停点之间的距离看作边,构成一个完全图,展示了候选悬停点的连接关系。在相邻的悬停点之间可以采用消息传递和消息聚合的方式获得悬停节点的特征向量以及图嵌入信息/>作为各个分配悬停位置策略网络的输入信息。
由于每个无人机智能体从起始点h1出发飞往各个候选悬停点,因此除了起始点会有多个无人机智能体访问外,其余候选悬停点仅被访问一次,将hc=[gh,h1]作为上下文嵌入,此外,在分配悬停位置策略网络中,利用注意力机制先将是每个智能体通过全局的悬停节点特征信息构造各自的智能体嵌入信息,如下式所示:
其中,和/>分别表示查询矩阵,键值矩阵以及价值矩阵,/>和/>分别表示其对应矩阵参数。dk和dv分别表示键值矩阵和价值矩阵的维度。另外,/>分别表示悬停节点嵌入信息和智能体嵌入信息的维度。接着,结合之前的悬停点图嵌入信息gh,利用上述提到的类似的注意力机制获得的评分系数/>来衡量每个悬停点位置对每个智能体的重要性概率,如下式所示:
其中,利用tanh函数将矩阵结果限制在[-C,C]中,C、和/>分别表示调节参数、查询转置矩阵和键值转置矩阵。然后,每个智能体依据重要性概率确定每个智能体分别服务哪些悬停点的分配决策。在获得无人机智能体的分配候选悬停点策略后,通过改进的领域搜索算法确定每个智能体访问的候选悬停点序列。将多智能体协同决策算法的每个智能体输出作为改进的领域搜索算法每个智能体的输入初始解决方案,利用深度学习框架学习特定成对局部算子选择策略,以提高初始解决方案。改进的领域搜索算法的流程如表3所示。
步骤3:利用深度强化学习理论对步骤2)中的用户时隙调度和无人机高度调整子问题进行分析。
步骤2)中的用户时隙调度和无人机高度调整子问题仍然难以解决,主要是因为难以平衡无人机有限的覆盖范围和电池能量以及可穿戴设备的能量需求。本部分将用户时隙调度和无人机高度调整子问题构建为一个受约束的马尔可夫决策过程,并建立基于深度强化学习的优化问题。
在解决完任务分配子问题和无人机服务调度子问题后,每架无人机通过调整高度位置和选择用户设备来最大化每个用户集群的吞吐量:
s.t.
在解决均衡任务负载与确定候选悬停位置后,此时无人机向每个用户集群中智能可穿戴设备提供服务,考虑到无人机的覆盖范围和有限的电池能量约束以及可穿戴设备的能量需求,本发明首先将用户时隙调度和无人机高度调整子问题构建为一个受约束的马尔可夫决策过程模型,然后提出了一种基于受约束的近似策略优化算法。
首先,系统的状态定义由三个部分组成:无人机的当前高度hu,k,l∈[HminHmax],无人机的剩余电池容量以及智能可穿戴设备i未得到的能量需求Di,l。状态Sl可以定义为:/>
其次,无人机的动作由两部分组成,一部分是l时间帧的高度移动距离其/>另一个是无人机u在时间段帧l的用户时隙分配pu,k,l={pu,1,l,…,pu,K,l},其中pu,k,l∈{1,…,z,…Zu,k,l},pu,k,l=z表示在l时间帧的k时间段的z用户设备候选组被无人机u选中进行服务。因此,动作空间被定义为
然后,下面将介绍奖励和惩罚的定义。即时奖励被定义为可穿戴设备网络的吞吐量,即考虑到长期折扣网络吞吐量的最大化,引入了折扣因子β,因此,受约束的马尔可夫问题可以表述如下:
s.t.
其中,πζ表示用户时隙调度和无人机高度调整策略。表示根据策略πζ求期望。
步骤4:为步骤3)中问题建立智能体模型,并对该模型进行训练。
本发明将无人机看作与可穿戴设备互动的智能体,并学习最佳高度调整决策和可穿戴设备调度策略。本发明提出了一种嵌套的基于受约束的近似策略优化算法,通过构建基于拉格朗日的奖惩函数来解决这个问题,以放松约束性优化问题。在这个算法中,使用了一个演员批判方案来改进策略,在较快的时间尺度上更新价值网络和策略网络参数,在较慢的时间尺度上更新拉格朗日的参数。
在所提出的受约束的深度强化学习算法中,策略网络通过最大化目标函数LCLIP(ζ)来更新网络参数,
其中,表示求l帧的期望,Al和Sl分别表示在l帧的动作和状态。ζ是策略网络的网络参数,符号πζ和πζol分别代表新旧策略。符号∈表示调整裁剪的超参数,clip表示裁剪函数,它可以看作一个正则化器,通过这种方式可以在每次迭代中对当前策略提出局部改进,通过将更新新旧策略比率/>设置在一个特定的范围边界来提升策略,以解决更新的不稳定性和数据效率低下的问题。此外,符号/>示广义优势估计,是平衡偏差和方差影响的关键。
其次,使用最小化策略的均方误差来学习状态值函数
其中,表示l帧的期望的估计值,/>和/>分别表示状态值函数和从l帧到l+k帧的拉格朗日惩罚奖励函数,βk表示第k个时间段的折扣因子。同时,惩罚评论家对惩罚值函数参数wq进行优化,/>的计算方式与状态值函数类似。
其中,表示从l帧到l+k帧的长期动作值函数,/>表示惩罚评论家的价值估计函数。
通过执行随机梯度上升法,用惩罚演员来更新在帧l+1的拉格朗日参数γl+1:
其中,ε表示拉格朗日乘子的学习率,γl表示帧l的拉格朗日参数。和/>分别表示在帧l和帧l+1时无人机u的电量。
关于嵌套的基于受约束的近似策略优化算法的伪代码见表4.
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (10)
1.一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于,包括以下步骤:
1)构建系统模型,确定通信模型和能量模型,构建以最大化吞吐量和最小化任务完成时间为优化目标的优化问题;
2)将步骤1)中的优化问题为三个子问题,分别是任务分配子问题、无人机服务调度子问题以及用户时隙调度和无人机高度调整子问题;
3)利用聚类算法和多智能体协同决策算法分别求解步骤2)中的任务分配子问题和无人机服务调度子问题;
4)利用深度强化学习理论对步骤2)中的用户时隙调度和无人机高度调整子问题进行分析,构建受约束的马尔可夫问题;
5)为步骤4)中问题建立智能体模型,并对该模型进行训练。
2.根据权利要求1所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:所述通信模型中无人机和智能可穿戴设备之间Los链路和NLos链路的路径损耗模型表示为:
其中,是无人机u到智能可穿戴设备i之间的距离,(xu,k,l,yu,k,l,hu,k,l)和(xi,yi)分别为无人机和智能可穿戴设备的位置;fc和c分别代表载波频率和光速,/>代表路径损耗指数,/>和/>分别表述Los链路和NLos链路的额外路径损耗;/>和/>分别表示Los链路概率和NLos链路概率,平均路径损耗表述为:
将Gi,u=1/Li,u定义为平均信道增益,从无人机到智能可穿戴设备之间的信噪比表示为:
其中,Pt表示传输功率,σ2是加性白高斯噪声的方差;可穿戴设备网络的总吞吐量为:
B为系统带宽,代表帧l中所有时间段的集合,k表示第k个时间段;
所述能量模型中无人机u完成任务的时间为:
其中,是无人机当前覆盖的可穿戴设备的集合,lf为无人机调整高度的飞行时间,lh和lc分别为无人机的悬停时间和能量供应时间,智能可穿戴设备i从无人机u收集到的能量为:
其中,是射频到直流的转换速率,Pc是无人机对智能穿戴设备能量传输时的发射功率,z表示第z个候选服务设备组,l表示第l个帧。
3.根据权利要求2所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:所述以最大化吞吐量和最小化任务完成时间为优化目标的优化问题为:
s.t.
其中,变量Υi,n为可穿戴设备分配指标,Υi,n=1表示用户设备i被分配到用户簇μn中,变量Ψu,n为无人机与用户簇的关联指标,Ψu,n=1表示无人机u选择服务用户簇μn,将决策变量pu,z,k,l为可穿戴设备调度指标,pu,z,k,l=1表示可穿戴设备组在时隙k上被无人机u选中进行服务,另一个决策变量/>表示无人机在k时隙在l帧上调整高度的距离,/>分别为智能可穿戴设备和无人机的集合,具体表示为/>和表示在帧l的时间段k上当前服务的设备组集合,/>表示在帧l的时间段k上候选服务设备组的集合,/>表示以帧为单位的集合;wi表示用户集群中的智能可穿戴设备的能量需求,Πmax表示一个用户簇的服务阈值,N表示用户簇总数,n表示第n个用户簇;hmax表示为无人机的最大飞行高度。
4.根据权利要求1或3所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:所述任务分配子问题为:
s.t.
其中,和/>分别为用户设备集群簇中心二维位置和智能可穿戴设备的位置,μn是用户簇n的设备集群/>的向量均值;所述无人机服务调度子问题为:
s.t.
5.根据权利要求4所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:步骤3)所述聚类算法包括:根据用户设备之间的距离,将用户划分为N个用户集群(μ1,μ2,...,μN),将集群中的用户设备划分到与之最近的簇中心范围内,在将用户设备划分到对应的用户集群的过程中,如果当前用户簇的总需求小于用户簇的服务阈值,那么将用户设备划分到最近的用户集群中,否则将用户划分到次近的用户集群中。
6.根据权利要求4所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:步骤3)所述多智能体协同决策算法,将每个无人机看作一个智能体,在智能体上部署分配悬停位置策略网络和确定服务序列策略网络,输入为候选悬停点位置信息,无人机个数以及起飞点的位置,通过将候选的悬停点分配到不同的无人机智能体的任务集中生成每个智能体的初始解决方案,然后通过改进的领域搜索算法确定一个智能体访问的悬停点序列;最后,输出的解决方案由多个智能体的服务悬停点轨迹组成。
7.根据权利要求1或3所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:所述用户时隙调度和无人机高度调整子问题为:
s.t.
8.根据权利要求7所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:所述受约束的马尔可夫问题为:
s.t.
其中,βl和πζ分别表示帧l的折扣因子和用户时隙调度和无人机高度调整策略,表示根据策略πζ求期望。
9.根据权利要求8所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:所述步骤5)中采用嵌套的基于受约束的近似策略优化算法,通过构建基于拉格朗日的奖惩函数来解决步骤4)中的问题,使用了一个演员批判方案来改进策略,给出策略网络、值网络以及拉格朗日参数的更新方式,通过执行随机梯度上升法来更新它们的网络权重。
10.根据权利要求9所述一种基于多无人机辅助的无线供能网络的部署和资源优化方法,其特征在于:策略网络通过最大化目标函数LCLIP(ζ)来更新网络参数,
其中,Al和Sl分别表示l帧的动作和状态,ζ是策略网络的网络参数,πζ和分别代表新旧策略,∈表示调整裁剪的超参数,clip表示裁剪函数,/>表示广义优势估计,/>表示求l帧的期望;
使用最小化策略的均方误差来学习状态值函数
其中,和/>分别表示状态值函数和从l帧到l+k帧的拉格朗日惩罚奖励函数,βk表示时间段k的折扣因子,/>表示l帧的期望的估计值,同时,惩罚评论家对惩罚值函数参数ωq进行优化,/>的计算方式与状态值函数类似;
其中,表示从l帧到l+k帧的长期动作值函数,/>表示惩罚评论家的价值估计函数;
通过执行随机梯度上升法,用惩罚演员来更新在帧l+1的拉格朗日参数γl+1:
其中,ε表示拉格朗日乘子的学习率,γl表示帧l的拉格朗日参数,和/>分别表示在帧l和帧l+1时无人机u的电量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311077525.0A CN117119489A (zh) | 2023-08-25 | 2023-08-25 | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311077525.0A CN117119489A (zh) | 2023-08-25 | 2023-08-25 | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117119489A true CN117119489A (zh) | 2023-11-24 |
Family
ID=88799594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311077525.0A Pending CN117119489A (zh) | 2023-08-25 | 2023-08-25 | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117119489A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118055374A (zh) * | 2024-04-15 | 2024-05-17 | 南京万自联电子科技有限公司 | 无人机辅助的无线传感器网络的数据收集方法及存储介质 |
-
2023
- 2023-08-25 CN CN202311077525.0A patent/CN117119489A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118055374A (zh) * | 2024-04-15 | 2024-05-17 | 南京万自联电子科技有限公司 | 无人机辅助的无线传感器网络的数据收集方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111786713B (zh) | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 | |
Zhang et al. | Energy-efficient trajectory optimization for UAV-assisted IoT networks | |
CN110730031B (zh) | 一种用于多载波通信的无人机轨迹与资源分配联合优化方法 | |
Masroor et al. | Resource management in UAV-assisted wireless networks: An optimization perspective | |
Oubbati et al. | Multiagent deep reinforcement learning for wireless-powered UAV networks | |
Fan et al. | RIS-assisted UAV for fresh data collection in 3D urban environments: A deep reinforcement learning approach | |
CN111970709A (zh) | 一种基于粒子群优化算法的无人机中继部署方法及系统 | |
CN117119489A (zh) | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 | |
CN113255218B (zh) | 无线自供电通信网络的无人机自主导航及资源调度方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN113206701A (zh) | 一种无人机飞行基站的三维部署和功率分配联合优化方法 | |
CN113485409A (zh) | 一种面向地理公平性的无人机路径规划分配方法及系统 | |
Zhang et al. | Deep reinforcement learning for aerial data collection in hybrid-powered NOMA-IoT networks | |
Wang et al. | Trajectory optimization and power allocation scheme based on DRL in energy efficient UAV‐aided communication networks | |
Cui et al. | Joint trajectory and power optimization for energy efficient UAV communication using deep reinforcement learning | |
Tarekegn et al. | Deep-reinforcement-learning-based drone base station deployment for wireless communication services | |
CN116882270A (zh) | 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统 | |
CN117270559A (zh) | 一种基于强化学习的无人机集群部署与轨迹规划方法 | |
Lee et al. | Multi-Agent Reinforcement Learning in Controlling Offloading Ratio and Trajectory for Multi-UAV Mobile Edge Computing | |
CN116847460A (zh) | 一种无人机辅助的通感一体化系统资源调度方法 | |
CN114520991B (zh) | 基于无人机集群的边缘网络自适应部署方法 | |
CN116321237A (zh) | 一种基于深度强化学习的无人机辅助车联网数据收集方法 | |
Lyu et al. | Resource Allocation in UAV‐Assisted Wireless Powered Communication Networks for Urban Monitoring | |
Zhao et al. | 3D placement of UAVs with optimal beamforming for multi-user communications | |
Lakew et al. | A review on AI-driven aerial access networks: Challenges and open research issues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |