CN113206701A - 一种无人机飞行基站的三维部署和功率分配联合优化方法 - Google Patents
一种无人机飞行基站的三维部署和功率分配联合优化方法 Download PDFInfo
- Publication number
- CN113206701A CN113206701A CN202110479716.4A CN202110479716A CN113206701A CN 113206701 A CN113206701 A CN 113206701A CN 202110479716 A CN202110479716 A CN 202110479716A CN 113206701 A CN113206701 A CN 113206701A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- ground
- drone
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005457 optimization Methods 0.000 title claims abstract description 38
- 238000009826 distribution Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 37
- 230000005540 biological transmission Effects 0.000 claims abstract description 34
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 11
- 238000002347 injection Methods 0.000 claims abstract description 7
- 239000007924 injection Substances 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 28
- 230000007704 transition Effects 0.000 claims description 16
- 238000006073 displacement reaction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000005562 fading Methods 0.000 claims description 4
- 239000000243 solution Substances 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18504—Aircraft used as relay or high altitude atmospheric platform
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/38—TPC being performed in particular situations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及了无人机飞行基站技术领域,具体公开了一种派遣无人机作为飞行基站服务地面用户簇的三维部署和功率分配联合优化方法。同时考虑视距传输和非视距传输对无人机到各用户的空地信道的影响,建立联合优化无人机三维位置和功率分配的最大化系统吞吐量模型。利用深度强化学习方法深度确定性策略梯度在连续的状态和动作空间中对该模型进行求解,结合注水算法对动作空间降维,使无人机成功学习最佳的三维部署位置和功率分配策略以对服务用户提供最大的吞吐量,在无人机能量有限的情况下提升了其能效。
Description
技术领域
本发明涉及无人机飞行基站技术领域,尤其涉及一种无人机基站的三维部署和功率分配联合优化方法。
背景技术
在B5G时代,无人机提供了一种快速和具有成本效益的方式来支持对无线连接的临时需求,以解决诸如地面基站故障和网络流量拥堵的问题。一方面,与传统的地面基站相比,无人机飞行基站可以快速部署在基础设施难以大量铺设的偏远地区(如乡村、山区)和一些临时性的热点事件(如体育赛事、演唱会等)区域,极大地节约铺设地面基础设施的建设和维护成本。另一方面,飞行的无人机基站更有可能通过调整其在三维空间的悬停位置与地面用户建立视距链接,从而提供更高的数据率。由于这些优势,研究者们对无人机基站的最佳部署进行了广泛研究。然而,无人机的三维部署问题往往是一个复杂的非凸问题,并且在结合了功率等资源分配之后涉及更高维度的连续变量的优化,目前的研究开始转向机器学习方法来求解。但是,以往的研究中被较多采用的Q学习和深度Q网络等方法不能处理连续的动作空间,会使结果丧失一定的精度。因此,采用一种能够处理连续的状态和动作空间的机器学习方法,来研究具有高维度连续变量的无人机飞行基站三维部署和功率分配联合优化,可以提高系统吞吐量,这在无人机能量有限的情况下,对于提升无人机能效、提高网络性能等方面具有很好的实际意义。
发明内容
本发明提供一种无人机飞行基站的三维部署和功率分配联合优化方法,解决的技术问题在于:如何确定无人机同时服务地面多个用户的最佳悬停服务位置,以及如何给各地面用户分配最佳的功率。
为解决以上技术问题,本发明提供一种无人机飞行基站的三维部署和功率分配联合优化方法,包括步骤:
(1)无人机基站系统模型
S1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的K个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。
(2)系统吞吐量优化模型
S2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;
S3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;
(3)系统吞吐量优化模型求解
S4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;
S5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。
进一步地,所述无人机到某一地面用户k存在视距传输的可能性表示为:
则,对应的所述非视距传输的可能性表示为:
进一步地,
其中,FSPLk表示自由空间传播路径损耗,fc表示载波频率,c表示光速;ζk表示所述无人机到所述地面用户k的总路径损耗,它是由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望,ηLoS和ηNLoS分别表示由视距传输和非视距传输造成的附加路径损耗。
进一步地,不考虑信道中的快衰落和慢衰落,所述无人机到所述地面用户k的信道增益gk表示为:
进一步地,设定φth为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值,则所述无人机到某一地面用户k的传输速率Rk表示为:
其中,B表示所述系统的带宽,K表示所述总地面用户数,K个用户正交地均分带宽B来避免无线干扰,n0表示高斯白噪声的功率谱密度,φk表示所述用户k的RSRP值。
则,基于式(5),式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率pk的函数。
进一步地,在所述步骤S3中,建立的所述系统吞吐量优化模型具体为:
其中,目标函数(7)表示最大化所述系统吞吐量,决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率pk,是K个地面用户的集合;约束(8)表示所述无人机的高度限制,和分别表示允许的最小和最大高度;约束(9)表示所述无人机的总发射功率限制pmax;约束(10)表示分配给所述用户k的功率非负;约束(11)表示所述无人机只服务RSRP值φk大于RSRP阈值φth的用户。
进一步地,在所述步骤S4中将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)的具体步骤包括:
S41:根据式(7),设定所述无人机的三维位置q为所述MDP的状态空间={q};
其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。
S44:根据式(7)的优化目标和所述无人机的动作,设定在某一状态转移时刻t下,所述MDP的奖励值为:
rt=κCt-λ||dt||2 (31)
其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。
进一步地,深度确定性策略梯度更新两个估计网络的参数的损失函数为:
其中,θμ和θQ分别是Actor估计网络μ(st∣θμ)和Critic估计网络Q(st,at∣θQ)的参数;μ(st∣θμ)根据所述无人机的当前状态输出动作,Q(st,at∣θQ)对该动作进行评分,给出一个Q值;两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数。
进一步地,式(15)的损失函数中的yt表示为:
yt=rt+γQ′(st+1,μ′(st+1θμ′)∣θQ′) (34)
其中,rt是基于式(13)的所述MDP的奖励值,γ奖励折扣因子,μ'(st∣θμ')和Q'(st,at∣θQ')分别是所述深度确定性策略梯度的目标Actor网络和目标Critic网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:
θμ′←τθμ+(1-τ)θμ′ (35)
θQ′←τθQ+(1-τ)θQ′ (36)其中,θμ′和θQ′分别是目标Actor网络和目标Critic网络的参数;τ是软更新因子,满足τ<<1。
本发明提供了一种无人机飞行基站的三维部署和功率分配联合优化方法,通过采用深度确定性策略梯度,无人机飞行基站能够充分利用地面用户的分布特征,在连续的状态和动作空间中学习最佳的三维悬停位置;通过结合注水算法获得训练中涉及的每个状态的最佳功率分配,以减少动作空间的维度。系统吞吐量可以通过最佳的无人机三维部署和功率分配联合优化得到有效地提升,具有很好的实际意义。
附图说明
图1是本发明实施例提供的一种无人机飞行基站的三维部署和功率分配联合优化方法的步骤流程图;
图2是本发明实施例提供的无人机基站系统模型图;
图3是本发明实施例提供深度确定性策略梯度原理图;
图4是本发明实施例提供的深度确定性策略梯度积累奖励图;
图5是本发明实施例提供的系统吞吐量对比图;
图6是本发明实施例提供的无人机基站三维部署图;
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
为了确定无人机飞行基站同时服务地面多个用户的最佳悬停服务位置以及给各地面用户分配的最佳功率,本发明实施例提供一种无人机飞行基站的三维部署和功率分配联合优化方法,如图1的步骤流程所示,具体包括步骤:
(1)无人机基站系统模型
S1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的K个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。
(2)系统吞吐量优化模型
具体步骤包括:
S2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;
S3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;
在步骤S2中,我们采用一个文献中广泛使用的空地信道模型,它考虑了视距传输和非视距传输两种情况出现的可能性。所述无人机到某一地面用户k存在视距传输的可能性表示为:
则,对应的所述非视距传输的可能性表示为:
然后,所述无人机到所述地面用户k的总路径损耗可由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望表示,具体为:
其中,FSPLk表示自由空间传播路径损耗,fc表示载波频率,c表示光速;ηLoS和ηNLoS分别表示由视距传输和非视距传输造成的附加路径损耗。
接下来,构建步骤S3所述的系统吞吐量优化模型。
不考虑信道中的快衰落和慢衰落,所述无人机到所述地面用户k的信道增益gk表示为:
定义pmax为所述无人机的总发射功率,pk为分配给某一地面用户k的功率。然后,设定φth为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值,则所述无人机到某一地面用户k的传输速率Rk表示为:
其中,B表示所述系统的带宽,K表示所述总地面用户数,K个用户正交地均分带宽B来避免无线干扰,n0表示高斯白噪声的功率谱密度,φk表示所述用户k的RSRP值。
则,基于式(5),式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率pk的函数。
建立的所述系统吞吐量优化模型具体为:
其中,目标函数(7)表示最大化所述系统吞吐量,决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率pk,是K个地面用户的集合;约束(8)表示所述无人机的高度限制,和分别表示允许的最小和最大高度;约束(9)表示所述无人机的总发射功率限制pmax;约束(10)表示分配给所述用户k的功率非负;约束(11)表示所述无人机只服务RSRP值φk大于RSRP阈值φth的用户。
(3)系统吞吐量优化模型求解
具体步骤包括:
S4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;
S5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。
在步骤S4中,将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)。MDP表示为一个四元组即状态空间,动作空间,状态转移概率,以及奖励。在每一个状态转移时刻,无人机根据当前动作和状态转移概率从当前状态转到下一个状态,然后获得奖励,循环迭代直到满足最大状态转移时刻。
本实施例构建所述MDP的具体步骤进一步包括:
其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。
S44:对于某一状态转移时刻t,根据式(7)的优化目标,采取该时刻状态的系统吞吐量作为奖励值。然而,在达到最大状态转移时刻tmax之前,无人机不会停止状态的转移。因此,如果无人机在时刻t<tmax时转移到了最佳状态,若深度确定性策略梯度的Actor网络输出一个较大的动作(位移)值,无人机将继续根据该动作转移状态,从而进入一个次优的状态。所以需要一个惩罚性奖励来限制网络输出的动作,即所述无人机的位移d,以提高收敛性能。
本实施例将某一状态转移时刻t的奖励值设定为:
rt=κCt-λ||dt||2 (49)
其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。
在式(13)中,通过调整因子κ和λ重新调整数量级后,第一项应远大于第二项。这样,在深度确定性策略梯度的网络训练的开始阶段,第一项在奖励中占主导地位。经过一些训练回合过后,奖励的增加趋于平缓。则,第二项位移惩罚开始生效,可以阻止无人机进行大规模的探索,从而可以更平稳地收敛在最佳位置。
接下来,结合注水算法对所述动作空间进行降维,并采用深度确定性策略梯度求解所述的MDP模型。
其中,注水算法的原理是根据信道质量对无人机的发送功率进行自适应分配,通常是给信道质量好的用户多分配功率;给信道质量差的用户少分配功率,从而最大化传输功率。注水算法的具体过程可以描述为:
1)根据原始问题的目标函数和约束,使用拉格朗日乘数法构造方程
2)令所构造方程的偏导为零,得到带有未知数的各用户功率分配表达式
3)代入各用户功率分配表达式到约束条件,求得未知数
4)将求得未知数代入原表达式,得到不含未知数的各用户功率分配表达式
在步骤S5中,考虑到所述MDP的动作空间中,如果功率分配的维度远远大于无人机位移的维度,即如果K>>3,将引起维度不平衡的问题,网络训练将很难收敛到最优解。由于在MDP中,无人机的三维位置在任一状态下确定的,那么对于某一状态根据式(5),无人机和地面用户之间的路径损耗在状态s下也是确定的。因此,在状态s下,问题(P1)是一个凸的功率分配问题,可以很容易地用凸优化方法解决。所以,为了解决维度不平衡问题,在MDP的迭代过程中结合注水算法,以输出状态s的最佳功率分配,使动作空间降维成
深度确定性策略梯度的具体工作原理如图3所示。它将所述MDP的状态转移迭代过程作为经验存储到经验回放缓存区,并从中随机选取经验样本训练两个估计网络,即Actor估计网络和Critic估计网络,来分别拟合最优的动作函数和动作-值函数。其中,动作函数实现状态到动作的映射,动作-值函数对动作评分并输出一个Q值。为了稳定网络的训练,深度确定性策略梯度分别在Actor网络和Critic网络中采用一个结构相同的子网络,称之为目标网络。目标网络不进行训练,而是每次从估计网络中复制一小部分参数进行更新。
本实施例训练并更新两个估计网络的参数的损失函数为:
其中,θμ和θQ分别是Actor估计网络μ(st∣θμ)和Critic估计网络Q(st,at∣θQ)的参数;μ(st∣θμ)根据所述无人机的当前状态输出动作,Q(st,at∣θQ)对该动作进行评分,给出一个Q值;两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数,N是经验样本的大小。
式(15)中的损失函数中的yt表示为:
yt=rt+γQ′(st+1,μ′(st+1θμ′)∣θQ′) (52)
其中,rt是基于式(13)的所述MDP的奖励值,γ奖励折扣因子,μ'(st∣θμ')和Q'(st,at∣θQ')分别是所述Actor目标网络和Critic目标网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:
θμ′←τθμ+(1-τ)θμ′ (53)
θQ′←τθQ+(1-τ)θQ′ (54)
其中,θμ′和θQ′分别是目标Actor网络和目标Critic网络的参数;τ是软更新因子,满足τ<<1。
本实施例中结合了注水算法的深度确定性策略梯度算法可以描述为:
在所述算法的第7行,在Actor网络的训练中,它输出的动作经常被加上一个噪声noise,这是为了防止无人机陷入局部最优。在Actor网络完成训练后,输出动作中的noise会被取消。
考虑一个具体的实施场景,设定一个2km×2km的矩形地理区域,区域内随机分布K=100个地面用户,其他的参数设置如下表:
本实施例中,Actor网络和Critic网络的结构都由一个输入层、两个隐藏层和一个输出层组成;隐藏层的神经元数量在Actor网络和Critic网络中分别为(200,100)和(400,200);隐藏层中的激活函数都是ReLU函数。动作噪声noise遵循正态分布,均值为零,偏差经过训练回合从0.3线性递减到0。采用Adam优化器来训练网络,学习率为0.0001。其余的网络参数设置如下表:
本实施例通过实验对比了所提出的算法(称为JODP)和其余两种传统方法(分别是OA和OD)的性能。在OA中,无人机对所有地面用户均分功率,且无人机的平面位置被固定在用户簇的中心(即坐标原点),只优化无人机的高度;在OD中,优化无人机的三维位置,对所有地面用户均分功率。
图4是深度确定性策略梯度的积累奖励图。从图4可以看到随着训练回合的增加,本实施例所提出的JODP算法能够积累更多的奖励,并且三种算法能够稳定收敛。图5是系统吞吐量对比图。我们采用深度Q网络(DQN)来展示离散化动作空间所造成的偏差。从图5可以看到,本实施例所提出的JODP在系统吞吐量上均优于OA和OD。与连续动作空间的深度确定性策略梯度(DDPG)相比,深度Q网络性能较差,且差距逐渐扩大。这是因为三种方法的动作空间维度逐个增加,离散化动作空间引起的偏差也随之增大。
图6是无人机飞行基站的三维部署图。从图6可以看到,OA中的无人机高度要比其他方法高得多。这是因为无人机的水平位置在OA中是固定的,因此无人机必须飞得更高才能与地面用户建立更多的连接,而这是以信道质量为代价的。相比之下,OD和JODP的无人机可以调整其水平位置,在有更多用户分布的热点区域上空悬停服务,并为这些用户建立更好的信道。此外,考虑了最佳的功率分配后,JODP的无人机比OD的无人机飞行高度低。这是因为注水算法将更多的功率分配给拥有更好信道的用户,这促使无人机更接近热点地区。因此,当用户分布变得更加异质化时,JODP在系统吞吐量方面将在更大程度上优于OD。
综上,本发明实施例提供了一种无人机飞行基站的三维部署和功率分配联合优化方法,通过采用深度确定性策略梯度,无人机飞行基站能够充分利用地面用户的分布特征,在连续的状态和动作空间中学习最佳的三维悬停位置;通过结合注水算法获得训练中涉及的每个状态的最佳功率分配,以减少动作空间的维度。系统吞吐量可以通过最佳的无人机三维部署和功率分配联合优化得到有效地提升,具有很好的实际意义。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,包括步骤:
(1)无人机基站系统模型
S1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的K个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。
(2)系统吞吐量优化模型
S2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;
S3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;
(3)系统吞吐量优化模型求解
S4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;
S5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。
7.如权利要求6所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,所述步骤S4将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)的具体步骤包括:
其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。
S44:根据式(7)的优化目标和所述无人机的动作,设定在某一状态转移时刻t下,所述MDP的奖励值为:
rt=κCt-λ||dt||2 (13)
其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。
10.如权利要求9所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,式(15)的损失函数中的yt表示为:
yt=rt+γQ′(st+1,μ′(st+1θμ′)∣θQ′) (16)
其中,rt是基于式(13)的所述MDP的奖励值,γ奖励折扣因子,μ'(st∣θμ')和Q'(st,at∣θQ')分别是所述深度确定性策略梯度的目标Actor网络和目标Critic网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:
θμ’←τθμ+(1-τ)θμ’ (17)
θQ’←τθQ+(1-τ)θQ’ (18)
其中,θμ’和θQ’分别是目标Actor网络和目标Critic网络的参数;τ是软更新因子,满足τ<<1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479716.4A CN113206701A (zh) | 2021-04-30 | 2021-04-30 | 一种无人机飞行基站的三维部署和功率分配联合优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479716.4A CN113206701A (zh) | 2021-04-30 | 2021-04-30 | 一种无人机飞行基站的三维部署和功率分配联合优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113206701A true CN113206701A (zh) | 2021-08-03 |
Family
ID=77030036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110479716.4A Pending CN113206701A (zh) | 2021-04-30 | 2021-04-30 | 一种无人机飞行基站的三维部署和功率分配联合优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113206701A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938830A (zh) * | 2021-09-24 | 2022-01-14 | 北京邮电大学 | 无人机基站部署方法及装置 |
CN113993105A (zh) * | 2021-10-21 | 2022-01-28 | 北京邮电大学 | 一种面向城市热点区域的无人机三维部署参数设定方法 |
CN114158010A (zh) * | 2021-12-06 | 2022-03-08 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
CN114697165A (zh) * | 2022-03-09 | 2022-07-01 | 杭州市保密技术测评中心(杭州市专用通信与保密技术服务中心) | 基于无人机视觉和无线信号融合的信号源检测方法 |
CN116704823A (zh) * | 2023-06-12 | 2023-09-05 | 大连理工大学 | 基于强化学习的无人机智能轨迹规划和通感资源分配方法 |
CN114158010B (zh) * | 2021-12-06 | 2024-06-07 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
-
2021
- 2021-04-30 CN CN202110479716.4A patent/CN113206701A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938830A (zh) * | 2021-09-24 | 2022-01-14 | 北京邮电大学 | 无人机基站部署方法及装置 |
CN113938830B (zh) * | 2021-09-24 | 2023-03-24 | 北京邮电大学 | 无人机基站部署方法及装置 |
CN113993105A (zh) * | 2021-10-21 | 2022-01-28 | 北京邮电大学 | 一种面向城市热点区域的无人机三维部署参数设定方法 |
CN114158010A (zh) * | 2021-12-06 | 2022-03-08 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
CN114158010B (zh) * | 2021-12-06 | 2024-06-07 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
CN114697165A (zh) * | 2022-03-09 | 2022-07-01 | 杭州市保密技术测评中心(杭州市专用通信与保密技术服务中心) | 基于无人机视觉和无线信号融合的信号源检测方法 |
CN114697165B (zh) * | 2022-03-09 | 2023-12-22 | 杭州市保密技术测评中心(杭州市专用通信与保密技术服务中心) | 基于无人机视觉和无线信号融合的信号源检测方法 |
CN116704823A (zh) * | 2023-06-12 | 2023-09-05 | 大连理工大学 | 基于强化学习的无人机智能轨迹规划和通感资源分配方法 |
CN116704823B (zh) * | 2023-06-12 | 2023-12-19 | 大连理工大学 | 基于强化学习的无人机智能轨迹规划和通感资源分配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113206701A (zh) | 一种无人机飞行基站的三维部署和功率分配联合优化方法 | |
You et al. | Hybrid offline-online design for UAV-enabled data harvesting in probabilistic LoS channels | |
US11703853B2 (en) | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same | |
Zhang et al. | Energy-efficient trajectory optimization for UAV-assisted IoT networks | |
Masroor et al. | Resource management in UAV-assisted wireless networks: An optimization perspective | |
CN112511197B (zh) | 基于深度强化学习的无人机辅助弹性视频多播方法 | |
Dai et al. | The multi-objective deployment optimization of UAV-mounted cache-enabled base stations | |
Cao et al. | Deep reinforcement learning for channel and power allocation in UAV-enabled IoT systems | |
CN113660681B (zh) | 一种应用于无人机集群辅助传输的多智能体资源优化方法 | |
CN112702713B (zh) | 一种多约束条件下的低空无人机通信部署方法 | |
CN110830136B (zh) | 一种基于无线电地图的无人机轨迹设计和功率分配方法 | |
CN112367111A (zh) | 一种无人机中继部署方法、系统、计算机设备及应用 | |
CN112672371B (zh) | 一种异构需求下的空地协同分层部署模型及其接入方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
Sun et al. | Joint trajectory and power optimization in multi-type UAVs network with mean field Q-learning | |
CN114826380B (zh) | 一种基于深度强化学习算法的无人机辅助空地通信优化算法 | |
CN114142912A (zh) | 高动态空中网络时间覆盖连续性保障的资源管控方法 | |
CN111491315B (zh) | 基于扩展无人机网络中的延时与能耗折中模型的系统 | |
Fu et al. | AoI-Energy-Aware Collaborative Data Collection in UAV-enabled Wireless Powered Sensor Networks | |
Sobouti et al. | Managing sets of flying base stations using energy efficient 3D trajectory planning in cellular networks | |
Liu et al. | Machine learning aided trajectory design and power control of multi-UAV | |
CN117119489A (zh) | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 | |
Sazak et al. | UAV-BS trajectory optimization under coverage, backhaul and QoS constraints using Q-learning | |
CN116321237A (zh) | 一种基于深度强化学习的无人机辅助车联网数据收集方法 | |
Liu et al. | Uncertain preference matching-based relay selection and position adjustment in dynamic UAV systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |