CN113206701A - 一种无人机飞行基站的三维部署和功率分配联合优化方法 - Google Patents

一种无人机飞行基站的三维部署和功率分配联合优化方法 Download PDF

Info

Publication number
CN113206701A
CN113206701A CN202110479716.4A CN202110479716A CN113206701A CN 113206701 A CN113206701 A CN 113206701A CN 202110479716 A CN202110479716 A CN 202110479716A CN 113206701 A CN113206701 A CN 113206701A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
ground
drone
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110479716.4A
Other languages
English (en)
Inventor
付澍
张萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110479716.4A priority Critical patent/CN113206701A/zh
Publication of CN113206701A publication Critical patent/CN113206701A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及了无人机飞行基站技术领域,具体公开了一种派遣无人机作为飞行基站服务地面用户簇的三维部署和功率分配联合优化方法。同时考虑视距传输和非视距传输对无人机到各用户的空地信道的影响,建立联合优化无人机三维位置和功率分配的最大化系统吞吐量模型。利用深度强化学习方法深度确定性策略梯度在连续的状态和动作空间中对该模型进行求解,结合注水算法对动作空间降维,使无人机成功学习最佳的三维部署位置和功率分配策略以对服务用户提供最大的吞吐量,在无人机能量有限的情况下提升了其能效。

Description

一种无人机飞行基站的三维部署和功率分配联合优化方法
技术领域
本发明涉及无人机飞行基站技术领域,尤其涉及一种无人机基站的三维部署和功率分配联合优化方法。
背景技术
在B5G时代,无人机提供了一种快速和具有成本效益的方式来支持对无线连接的临时需求,以解决诸如地面基站故障和网络流量拥堵的问题。一方面,与传统的地面基站相比,无人机飞行基站可以快速部署在基础设施难以大量铺设的偏远地区(如乡村、山区)和一些临时性的热点事件(如体育赛事、演唱会等)区域,极大地节约铺设地面基础设施的建设和维护成本。另一方面,飞行的无人机基站更有可能通过调整其在三维空间的悬停位置与地面用户建立视距链接,从而提供更高的数据率。由于这些优势,研究者们对无人机基站的最佳部署进行了广泛研究。然而,无人机的三维部署问题往往是一个复杂的非凸问题,并且在结合了功率等资源分配之后涉及更高维度的连续变量的优化,目前的研究开始转向机器学习方法来求解。但是,以往的研究中被较多采用的Q学习和深度Q网络等方法不能处理连续的动作空间,会使结果丧失一定的精度。因此,采用一种能够处理连续的状态和动作空间的机器学习方法,来研究具有高维度连续变量的无人机飞行基站三维部署和功率分配联合优化,可以提高系统吞吐量,这在无人机能量有限的情况下,对于提升无人机能效、提高网络性能等方面具有很好的实际意义。
发明内容
本发明提供一种无人机飞行基站的三维部署和功率分配联合优化方法,解决的技术问题在于:如何确定无人机同时服务地面多个用户的最佳悬停服务位置,以及如何给各地面用户分配最佳的功率。
为解决以上技术问题,本发明提供一种无人机飞行基站的三维部署和功率分配联合优化方法,包括步骤:
(1)无人机基站系统模型
S1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的K个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。
(2)系统吞吐量优化模型
S2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;
S3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;
(3)系统吞吐量优化模型求解
S4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;
S5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。
进一步地,所述无人机到某一地面用户k存在视距传输的可能性表示为:
Figure BDA0003048156580000021
其中,α和β表示与地理环境相关的统计参数;θ表示所述无人机到所述地面用户k的仰角,
Figure BDA0003048156580000022
表示所述无人机的三维坐标,
Figure BDA0003048156580000023
表示所述地面用户k的三维坐标,||q-wk||表示所述无人机到所述地面用户k的直线距离。
则,对应的所述非视距传输的可能性表示为:
Figure BDA0003048156580000024
进一步地,
Figure BDA0003048156580000031
Figure BDA0003048156580000032
其中,FSPLk表示自由空间传播路径损耗,fc表示载波频率,c表示光速;ζk表示所述无人机到所述地面用户k的总路径损耗,它是由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望,ηLoS和ηNLoS分别表示由视距传输和非视距传输造成的附加路径损耗。
进一步地,不考虑信道中的快衰落和慢衰落,所述无人机到所述地面用户k的信道增益gk表示为:
Figure BDA0003048156580000033
其中,
Figure BDA0003048156580000034
是基于式(1)的关于α、β、q和wk的函数;除所述无人机的三维位置q外,所述信道增益gk中的其余参数皆为已知量或常数,则gk是关于无人机的三维位置q的函数。
进一步地,设定φth为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值,则所述无人机到某一地面用户k的传输速率Rk表示为:
Figure BDA0003048156580000035
其中,B表示所述系统的带宽,K表示所述总地面用户数,K个用户正交地均分带宽B来避免无线干扰,n0表示高斯白噪声的功率谱密度,φk表示所述用户k的RSRP值。
则,基于式(5),式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率pk的函数。
进一步地,在所述步骤S3中,建立的所述系统吞吐量优化模型具体为:
Figure BDA0003048156580000041
Figure BDA0003048156580000042
Figure BDA0003048156580000043
Figure BDA0003048156580000044
Figure BDA0003048156580000045
其中,目标函数(7)表示最大化所述系统吞吐量,决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率pk
Figure BDA0003048156580000046
是K个地面用户的集合;约束(8)表示所述无人机的高度限制,
Figure BDA0003048156580000047
Figure BDA0003048156580000048
分别表示允许的最小和最大高度;约束(9)表示所述无人机的总发射功率限制pmax;约束(10)表示分配给所述用户k的功率非负;约束(11)表示所述无人机只服务RSRP值φk大于RSRP阈值φth的用户。
进一步地,在所述步骤S4中将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)的具体步骤包括:
S41:根据式(7),设定所述无人机的三维位置q为所述MDP的状态空间={q};
S42:设定无人机的位移
Figure BDA0003048156580000049
和分配给所述地面用户的功率pk为所述MDP的动作空间
Figure BDA00030481565800000410
S43:基于所述的状态和动作空间,所述无人机的下一个状态(三维位置)可表示为当前状态(三维位置)加上当前的动作(位移),则所述MDP的状态转移概率
Figure BDA00030481565800000411
表示为:
Figure BDA00030481565800000412
其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。
S44:根据式(7)的优化目标和所述无人机的动作,设定在某一状态转移时刻t下,所述MDP的奖励值为:
rt=κCt-λ||dt||2 (31)
其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。
进一步地,在所述步骤S5中,将注水算法结合进所述MDP的每一个状态转移中,输出涉及的每一个状态的最佳功率分配,使动作空间降维成
Figure BDA0003048156580000051
进一步地,深度确定性策略梯度更新两个估计网络的参数的损失函数为:
Figure BDA0003048156580000052
Figure BDA0003048156580000053
其中,θμ和θQ分别是Actor估计网络μ(st∣θμ)和Critic估计网络Q(st,at∣θQ)的参数;μ(st∣θμ)根据所述无人机的当前状态输出动作,Q(st,at∣θQ)对该动作进行评分,给出一个Q值;两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数。
进一步地,式(15)的损失函数中的yt表示为:
yt=rt+γQ′(st+1,μ′(st+1θμ′)∣θQ′) (34)
其中,rt是基于式(13)的所述MDP的奖励值,γ奖励折扣因子,μ'(st∣θμ')和Q'(st,at∣θQ')分别是所述深度确定性策略梯度的目标Actor网络和目标Critic网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:
θμ′←τθμ+(1-τ)θμ′ (35)
θQ′←τθQ+(1-τ)θQ′ (36)其中,θμ′和θQ′分别是目标Actor网络和目标Critic网络的参数;τ是软更新因子,满足τ<<1。
本发明提供了一种无人机飞行基站的三维部署和功率分配联合优化方法,通过采用深度确定性策略梯度,无人机飞行基站能够充分利用地面用户的分布特征,在连续的状态和动作空间中学习最佳的三维悬停位置;通过结合注水算法获得训练中涉及的每个状态的最佳功率分配,以减少动作空间的维度。系统吞吐量可以通过最佳的无人机三维部署和功率分配联合优化得到有效地提升,具有很好的实际意义。
附图说明
图1是本发明实施例提供的一种无人机飞行基站的三维部署和功率分配联合优化方法的步骤流程图;
图2是本发明实施例提供的无人机基站系统模型图;
图3是本发明实施例提供深度确定性策略梯度原理图;
图4是本发明实施例提供的深度确定性策略梯度积累奖励图;
图5是本发明实施例提供的系统吞吐量对比图;
图6是本发明实施例提供的无人机基站三维部署图;
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
为了确定无人机飞行基站同时服务地面多个用户的最佳悬停服务位置以及给各地面用户分配的最佳功率,本发明实施例提供一种无人机飞行基站的三维部署和功率分配联合优化方法,如图1的步骤流程所示,具体包括步骤:
(1)无人机基站系统模型
S1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的K个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。
在图2所示的系统模型中,考虑了K个已知位置的地面用户
Figure BDA0003048156580000071
(图中圆点所示)。考虑一架无人机来服务该用户簇。无人机到地面用户的空地信道包括了两种传输方式,分别是视距传输(LoS)和非视距传输(NLoS)。
(2)系统吞吐量优化模型
具体步骤包括:
S2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;
S3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;
在步骤S2中,我们采用一个文献中广泛使用的空地信道模型,它考虑了视距传输和非视距传输两种情况出现的可能性。所述无人机到某一地面用户k存在视距传输的可能性表示为:
Figure BDA0003048156580000072
其中,α和β表示与地理环境相关的统计参数;θ表示所述无人机到所述地面用户k的仰角,
Figure BDA0003048156580000073
表示所述无人机的三维坐标,
Figure BDA0003048156580000074
表示所述地面用户k的三维坐标,||q-wk||表示所述无人机到所述地面用户k的直线距离。
则,对应的所述非视距传输的可能性表示为:
Figure BDA0003048156580000075
然后,所述无人机到所述地面用户k的总路径损耗可由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望表示,具体为:
Figure BDA0003048156580000076
Figure BDA0003048156580000081
其中,FSPLk表示自由空间传播路径损耗,fc表示载波频率,c表示光速;ηLoS和ηNLoS分别表示由视距传输和非视距传输造成的附加路径损耗。
接下来,构建步骤S3所述的系统吞吐量优化模型。
不考虑信道中的快衰落和慢衰落,所述无人机到所述地面用户k的信道增益gk表示为:
Figure BDA0003048156580000082
其中,
Figure BDA0003048156580000083
是基于式(1)的关于α、β、q和wk的函数;除所述无人机的三维位置q外,所述信道增益gk中的其余参数皆为已知量或常数,则gk是关于无人机的三维位置q的函数。
定义pmax为所述无人机的总发射功率,pk为分配给某一地面用户k的功率。然后,设定φth为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值,则所述无人机到某一地面用户k的传输速率Rk表示为:
Figure BDA0003048156580000084
其中,B表示所述系统的带宽,K表示所述总地面用户数,K个用户正交地均分带宽B来避免无线干扰,n0表示高斯白噪声的功率谱密度,φk表示所述用户k的RSRP值。
则,基于式(5),式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率pk的函数。
建立的所述系统吞吐量优化模型具体为:
Figure BDA0003048156580000085
Figure BDA0003048156580000091
Figure BDA0003048156580000092
Figure BDA0003048156580000093
Figure BDA0003048156580000094
其中,目标函数(7)表示最大化所述系统吞吐量,决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率pk
Figure BDA00030481565800000911
是K个地面用户的集合;约束(8)表示所述无人机的高度限制,
Figure BDA0003048156580000095
Figure BDA0003048156580000096
分别表示允许的最小和最大高度;约束(9)表示所述无人机的总发射功率限制pmax;约束(10)表示分配给所述用户k的功率非负;约束(11)表示所述无人机只服务RSRP值φk大于RSRP阈值φth的用户。
(3)系统吞吐量优化模型求解
具体步骤包括:
S4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;
S5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。
在步骤S4中,将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)。MDP表示为一个四元组
Figure BDA0003048156580000097
即状态空间,动作空间,状态转移概率,以及奖励。在每一个状态转移时刻,无人机根据当前动作和状态转移概率从当前状态转到下一个状态,然后获得奖励,循环迭代直到满足最大状态转移时刻。
本实施例构建所述MDP的具体步骤进一步包括:
S41:根据式(7),设定所述无人机的三维位置q为所述MDP的状态空间
Figure BDA0003048156580000098
状态空间的维度为3;
S42:设定无人机的位移
Figure BDA0003048156580000099
和分配给所述地面用户的功率pk为所述MDP的动作空间
Figure BDA00030481565800000910
动作空间的维度为3+K;
S43:基于所述的状态和动作空间,所述无人机的下一个状态(三维位置)可表示为当前状态(三维位置)加上当前的动作(位移),则所述MDP的状态转移概率
Figure BDA0003048156580000101
表示为:
Figure BDA0003048156580000102
其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。
S44:对于某一状态转移时刻t,根据式(7)的优化目标,采取该时刻状态的系统吞吐量作为奖励值。然而,在达到最大状态转移时刻tmax之前,无人机不会停止状态的转移。因此,如果无人机在时刻t<tmax时转移到了最佳状态,若深度确定性策略梯度的Actor网络输出一个较大的动作(位移)值,无人机将继续根据该动作转移状态,从而进入一个次优的状态。所以需要一个惩罚性奖励来限制网络输出的动作,即所述无人机的位移d,以提高收敛性能。
本实施例将某一状态转移时刻t的奖励值设定为:
rt=κCt-λ||dt||2 (49)
其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。
在式(13)中,通过调整因子κ和λ重新调整数量级后,第一项应远大于第二项。这样,在深度确定性策略梯度的网络训练的开始阶段,第一项在奖励中占主导地位。经过一些训练回合过后,奖励的增加趋于平缓。则,第二项位移惩罚开始生效,可以阻止无人机进行大规模的探索,从而可以更平稳地收敛在最佳位置。
接下来,结合注水算法对所述动作空间进行降维,并采用深度确定性策略梯度求解所述的MDP模型。
其中,注水算法的原理是根据信道质量对无人机的发送功率进行自适应分配,通常是给信道质量好的用户多分配功率;给信道质量差的用户少分配功率,从而最大化传输功率。注水算法的具体过程可以描述为:
1)根据原始问题的目标函数和约束,使用拉格朗日乘数法构造方程
2)令所构造方程的偏导为零,得到带有未知数的各用户功率分配表达式
3)代入各用户功率分配表达式到约束条件,求得未知数
4)将求得未知数代入原表达式,得到不含未知数的各用户功率分配表达式
在步骤S5中,考虑到所述MDP的动作空间
Figure BDA0003048156580000111
中,如果功率分配的维度远远大于无人机位移的维度,即如果K>>3,将引起维度不平衡的问题,网络训练将很难收敛到最优解。由于在MDP中,无人机的三维位置在任一状态下确定的,那么对于某一状态
Figure BDA0003048156580000112
根据式(5),无人机和地面用户之间的路径损耗在状态s下也是确定的。因此,在状态s下,问题(P1)是一个凸的功率分配问题,可以很容易地用凸优化方法解决。所以,为了解决维度不平衡问题,在MDP的迭代过程中结合注水算法,以输出状态s的最佳功率分配,使动作空间降维成
Figure BDA0003048156580000113
深度确定性策略梯度的具体工作原理如图3所示。它将所述MDP的状态转移迭代过程作为经验存储到经验回放缓存区,并从中随机选取经验样本训练两个估计网络,即Actor估计网络和Critic估计网络,来分别拟合最优的动作函数和动作-值函数。其中,动作函数实现状态到动作的映射,动作-值函数对动作评分并输出一个Q值。为了稳定网络的训练,深度确定性策略梯度分别在Actor网络和Critic网络中采用一个结构相同的子网络,称之为目标网络。目标网络不进行训练,而是每次从估计网络中复制一小部分参数进行更新。
本实施例训练并更新两个估计网络的参数的损失函数为:
Figure BDA0003048156580000114
Figure BDA0003048156580000115
其中,θμ和θQ分别是Actor估计网络μ(st∣θμ)和Critic估计网络Q(st,at∣θQ)的参数;μ(st∣θμ)根据所述无人机的当前状态输出动作,Q(st,at∣θQ)对该动作进行评分,给出一个Q值;两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数,N是经验样本的大小。
式(15)中的损失函数中的yt表示为:
yt=rt+γQ′(st+1,μ′(st+1θμ′)∣θQ′) (52)
其中,rt是基于式(13)的所述MDP的奖励值,γ奖励折扣因子,μ'(st∣θμ')和Q'(st,at∣θQ')分别是所述Actor目标网络和Critic目标网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:
θμ′←τθμ+(1-τ)θμ′ (53)
θQ′←τθQ+(1-τ)θQ′ (54)
其中,θμ′和θQ′分别是目标Actor网络和目标Critic网络的参数;τ是软更新因子,满足τ<<1。
本实施例中结合了注水算法的深度确定性策略梯度算法可以描述为:
Figure BDA0003048156580000121
Figure BDA0003048156580000131
在所述算法的第7行,在Actor网络的训练中,它输出的动作经常被加上一个噪声noise,这是为了防止无人机陷入局部最优。在Actor网络完成训练后,输出动作中的noise会被取消。
考虑一个具体的实施场景,设定一个2km×2km的矩形地理区域,区域内随机分布K=100个地面用户,其他的参数设置如下表:
Figure BDA0003048156580000132
本实施例中,Actor网络和Critic网络的结构都由一个输入层、两个隐藏层和一个输出层组成;隐藏层的神经元数量在Actor网络和Critic网络中分别为(200,100)和(400,200);隐藏层中的激活函数都是ReLU函数。动作噪声noise遵循正态分布,均值为零,偏差经过训练回合从0.3线性递减到0。采用Adam优化器来训练网络,学习率为0.0001。其余的网络参数设置如下表:
Figure BDA0003048156580000141
本实施例通过实验对比了所提出的算法(称为JODP)和其余两种传统方法(分别是OA和OD)的性能。在OA中,无人机对所有地面用户均分功率,且无人机的平面位置被固定在用户簇的中心(即坐标原点),只优化无人机的高度;在OD中,优化无人机的三维位置,对所有地面用户均分功率。
图4是深度确定性策略梯度的积累奖励图。从图4可以看到随着训练回合的增加,本实施例所提出的JODP算法能够积累更多的奖励,并且三种算法能够稳定收敛。图5是系统吞吐量对比图。我们采用深度Q网络(DQN)来展示离散化动作空间所造成的偏差。从图5可以看到,本实施例所提出的JODP在系统吞吐量上均优于OA和OD。与连续动作空间的深度确定性策略梯度(DDPG)相比,深度Q网络性能较差,且差距逐渐扩大。这是因为三种方法的动作空间维度逐个增加,离散化动作空间引起的偏差也随之增大。
图6是无人机飞行基站的三维部署图。从图6可以看到,OA中的无人机高度要比其他方法高得多。这是因为无人机的水平位置在OA中是固定的,因此无人机必须飞得更高才能与地面用户建立更多的连接,而这是以信道质量为代价的。相比之下,OD和JODP的无人机可以调整其水平位置,在有更多用户分布的热点区域上空悬停服务,并为这些用户建立更好的信道。此外,考虑了最佳的功率分配后,JODP的无人机比OD的无人机飞行高度低。这是因为注水算法将更多的功率分配给拥有更好信道的用户,这促使无人机更接近热点地区。因此,当用户分布变得更加异质化时,JODP在系统吞吐量方面将在更大程度上优于OD。
综上,本发明实施例提供了一种无人机飞行基站的三维部署和功率分配联合优化方法,通过采用深度确定性策略梯度,无人机飞行基站能够充分利用地面用户的分布特征,在连续的状态和动作空间中学习最佳的三维悬停位置;通过结合注水算法获得训练中涉及的每个状态的最佳功率分配,以减少动作空间的维度。系统吞吐量可以通过最佳的无人机三维部署和功率分配联合优化得到有效地提升,具有很好的实际意义。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,包括步骤:
(1)无人机基站系统模型
S1:建立无人机飞行基站服务地面用户簇的系统模型;所述系统模型包括一架无人机,所述无人机服务的K个地面用户形成的用户簇,和所述无人机到所述地面用户的空地信道。
(2)系统吞吐量优化模型
S2:同时考虑视距传输和非视距传输对所述空地信道的影响,得到所述无人机到所述地面用户的路径损耗;
S3:以最大化系统吞吐量为目标,所述无人机三维位置和功率分配为联合优化变量,构建所述无人机服务所述地面用户簇的系统吞吐量优化模型;
(3)系统吞吐量优化模型求解
S4:将所述系统吞吐量优化模型构建为马尔可夫决策过程;
S5:结合注水算法,对所述马尔可夫决策过程的动作空间进行降维,并采用深度确定性策略梯度进行求解,得到所述无人机的最优三维部署位置和功率分配策略。
2.如权利要求1所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤S2中,所述无人机到某一地面用户k存在视距传输的可能性表示为:
Figure FDA0003048156570000011
其中,α和β表示与地理环境相关的统计参数;θ表示所述无人机到所述地面用户k的仰角,
Figure FDA0003048156570000012
表示所述无人机的三维坐标,
Figure FDA0003048156570000013
表示所述地面用户k的三维坐标,||q-wk||表示所述无人机到所述地面用户k的直线距离。
则,对应的所述非视距传输的可能性表示为:
Figure FDA0003048156570000021
3.如权利要求2所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于:
Figure FDA0003048156570000022
Figure FDA0003048156570000023
其中,FSPLk表示自由空间传播路径损耗,fc表示载波频率,c表示光速;ζk表示所述无人机到所述地面用户k的总路径损耗,它是由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望,ηLoS和ηNLoS分别表示由视距传输和非视距传输造成的附加路径损耗。
4.如权利要求3所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,不考虑信道中的快衰落和慢衰落,所述无人机到所述地面用户k的信道增益gk表示为:
Figure FDA0003048156570000024
其中,
Figure FDA0003048156570000025
是基于式(1)的关于α、β、q和wk的函数;除所述无人机的三维位置q外,所述信道增益gk中的其余参数皆为已知量或常数,则gk是关于无人机的三维位置q的函数。
5.如权利要求4所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,设定φth为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值,则所述无人机到某一地面用户k的传输速率Rk表示为:
Figure FDA0003048156570000031
其中,B表示所述系统的带宽,K表示所述总地面用户数,K个用户正交地均分带宽B来避免无线干扰,n0表示高斯白噪声的功率谱密度,φk表示所述用户k的RSRP值。
则,基于式(5),式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率pk的函数。
6.如权利要求5所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤S3中,建立的所述系统吞吐量优化模型具体为:
Figure FDA0003048156570000032
Figure FDA0003048156570000033
Figure FDA0003048156570000034
Figure FDA0003048156570000035
Figure FDA0003048156570000036
其中,目标函数(7)表示最大化所述系统吞吐量,决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率pk
Figure FDA0003048156570000037
是K个地面用户的集合;约束(8)表示所述无人机的高度限制,
Figure FDA0003048156570000038
Figure FDA0003048156570000039
分别表示允许的最小和最大高度;约束(9)表示所述无人机的总发射功率限制pmax;约束(10)表示分配给所述用户k的功率非负;约束(11)表示所述无人机只服务RSRP值φk大于RSRP阈值φth的用户。
7.如权利要求6所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,所述步骤S4将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)的具体步骤包括:
S41:根据式(7),设定所述无人机的三维位置q为所述MDP的状态空间
Figure FDA0003048156570000041
S42:设定无人机的位移
Figure FDA0003048156570000042
和分配给所述地面用户的功率pk为所述MDP的动作空间
Figure FDA0003048156570000043
S43:基于所述的状态和动作空间,所述无人机的下一个状态(三维位置)可表示为当前状态(三维位置)加上当前的动作(位移),则所述MDP的状态转移概率
Figure FDA0003048156570000044
表示为:
Figure FDA0003048156570000045
其中,s′和s分别表示下一个状态和当前状态,a表示当前动作。
S44:根据式(7)的优化目标和所述无人机的动作,设定在某一状态转移时刻t下,所述MDP的奖励值为:
rt=κCt-λ||dt||2 (13)
其中,κ和λ是奖励的调整因子,奖励中的第一项表示对提高系统吞吐量奖励,第二项表示对无人机大尺度位移的惩罚。
8.如权利要求7所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤S5中,将注水算法结合进所述MDP的每一个状态转移中,输出涉及的每一个状态的最佳功率分配,使动作空间降维成
Figure FDA0003048156570000046
9.如权利要求8所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,在所述步骤S5中,深度确定性策略梯度更新两个估计网络的参数的损失函数为:
Figure FDA0003048156570000051
Figure FDA0003048156570000052
其中,θμ和θQ分别是Actor估计网络μ(st∣θμ)和Critic估计网络Q(st,at∣θQ)的参数;μ(st∣θμ)根据所述无人机的当前状态输出动作,Q(st,at∣θQ)对该动作进行评分,给出一个Q值;两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数。
10.如权利要求9所述的一种无人机飞行基站的三维部署和功率分配联合优化方法,其特征在于,式(15)的损失函数中的yt表示为:
yt=rt+γQ′(st+1,μ′(st+1θμ′)∣θQ′) (16)
其中,rt是基于式(13)的所述MDP的奖励值,γ奖励折扣因子,μ'(st∣θμ')和Q'(st,at∣θQ')分别是所述深度确定性策略梯度的目标Actor网络和目标Critic网络;两个目标网络和两个估计网络结构相同,但是参数更新的方式采取“软更新”,即每次更新是从估计网络复制一部分参数;软更新的公式表示为:
θμ’←τθμ+(1-τ)θμ’ (17)
θQ’←τθQ+(1-τ)θQ’ (18)
其中,θμ’和θQ’分别是目标Actor网络和目标Critic网络的参数;τ是软更新因子,满足τ<<1。
CN202110479716.4A 2021-04-30 2021-04-30 一种无人机飞行基站的三维部署和功率分配联合优化方法 Pending CN113206701A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110479716.4A CN113206701A (zh) 2021-04-30 2021-04-30 一种无人机飞行基站的三维部署和功率分配联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110479716.4A CN113206701A (zh) 2021-04-30 2021-04-30 一种无人机飞行基站的三维部署和功率分配联合优化方法

Publications (1)

Publication Number Publication Date
CN113206701A true CN113206701A (zh) 2021-08-03

Family

ID=77030036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110479716.4A Pending CN113206701A (zh) 2021-04-30 2021-04-30 一种无人机飞行基站的三维部署和功率分配联合优化方法

Country Status (1)

Country Link
CN (1) CN113206701A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938830A (zh) * 2021-09-24 2022-01-14 北京邮电大学 无人机基站部署方法及装置
CN113993105A (zh) * 2021-10-21 2022-01-28 北京邮电大学 一种面向城市热点区域的无人机三维部署参数设定方法
CN114158010A (zh) * 2021-12-06 2022-03-08 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法
CN114697165A (zh) * 2022-03-09 2022-07-01 杭州市保密技术测评中心(杭州市专用通信与保密技术服务中心) 基于无人机视觉和无线信号融合的信号源检测方法
CN116704823A (zh) * 2023-06-12 2023-09-05 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN114158010B (zh) * 2021-12-06 2024-06-07 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938830A (zh) * 2021-09-24 2022-01-14 北京邮电大学 无人机基站部署方法及装置
CN113938830B (zh) * 2021-09-24 2023-03-24 北京邮电大学 无人机基站部署方法及装置
CN113993105A (zh) * 2021-10-21 2022-01-28 北京邮电大学 一种面向城市热点区域的无人机三维部署参数设定方法
CN114158010A (zh) * 2021-12-06 2022-03-08 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法
CN114158010B (zh) * 2021-12-06 2024-06-07 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法
CN114697165A (zh) * 2022-03-09 2022-07-01 杭州市保密技术测评中心(杭州市专用通信与保密技术服务中心) 基于无人机视觉和无线信号融合的信号源检测方法
CN114697165B (zh) * 2022-03-09 2023-12-22 杭州市保密技术测评中心(杭州市专用通信与保密技术服务中心) 基于无人机视觉和无线信号融合的信号源检测方法
CN116704823A (zh) * 2023-06-12 2023-09-05 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN116704823B (zh) * 2023-06-12 2023-12-19 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Similar Documents

Publication Publication Date Title
CN113206701A (zh) 一种无人机飞行基站的三维部署和功率分配联合优化方法
You et al. Hybrid offline-online design for UAV-enabled data harvesting in probabilistic LoS channels
US11703853B2 (en) Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
Masroor et al. Resource management in UAV-assisted wireless networks: An optimization perspective
CN112511197B (zh) 基于深度强化学习的无人机辅助弹性视频多播方法
Dai et al. The multi-objective deployment optimization of UAV-mounted cache-enabled base stations
Cao et al. Deep reinforcement learning for channel and power allocation in UAV-enabled IoT systems
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN112702713B (zh) 一种多约束条件下的低空无人机通信部署方法
CN110830136B (zh) 一种基于无线电地图的无人机轨迹设计和功率分配方法
CN112367111A (zh) 一种无人机中继部署方法、系统、计算机设备及应用
CN112672371B (zh) 一种异构需求下的空地协同分层部署模型及其接入方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
Sun et al. Joint trajectory and power optimization in multi-type UAVs network with mean field Q-learning
CN114826380B (zh) 一种基于深度强化学习算法的无人机辅助空地通信优化算法
CN114142912A (zh) 高动态空中网络时间覆盖连续性保障的资源管控方法
CN111491315B (zh) 基于扩展无人机网络中的延时与能耗折中模型的系统
Fu et al. AoI-Energy-Aware Collaborative Data Collection in UAV-enabled Wireless Powered Sensor Networks
Sobouti et al. Managing sets of flying base stations using energy efficient 3D trajectory planning in cellular networks
Liu et al. Machine learning aided trajectory design and power control of multi-UAV
CN117119489A (zh) 一种基于多无人机辅助的无线供能网络的部署和资源优化方法
Sazak et al. UAV-BS trajectory optimization under coverage, backhaul and QoS constraints using Q-learning
CN116321237A (zh) 一种基于深度强化学习的无人机辅助车联网数据收集方法
Liu et al. Uncertain preference matching-based relay selection and position adjustment in dynamic UAV systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination