CN113206701A

CN113206701A - 一种无人机飞行基站的三维部署和功率分配联合优化方法

Info

Publication number: CN113206701A
Application number: CN202110479716.4A
Authority: CN
Inventors: 付澍; 张萌
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-03

Abstract

本发明涉及了无人机飞行基站技术领域，具体公开了一种派遣无人机作为飞行基站服务地面用户簇的三维部署和功率分配联合优化方法。同时考虑视距传输和非视距传输对无人机到各用户的空地信道的影响，建立联合优化无人机三维位置和功率分配的最大化系统吞吐量模型。利用深度强化学习方法深度确定性策略梯度在连续的状态和动作空间中对该模型进行求解，结合注水算法对动作空间降维，使无人机成功学习最佳的三维部署位置和功率分配策略以对服务用户提供最大的吞吐量，在无人机能量有限的情况下提升了其能效。

Description

一种无人机飞行基站的三维部署和功率分配联合优化方法

技术领域

本发明涉及无人机飞行基站技术领域，尤其涉及一种无人机基站的三维部署和功率分配联合优化方法。

背景技术

在B5G时代，无人机提供了一种快速和具有成本效益的方式来支持对无线连接的临时需求，以解决诸如地面基站故障和网络流量拥堵的问题。一方面，与传统的地面基站相比，无人机飞行基站可以快速部署在基础设施难以大量铺设的偏远地区(如乡村、山区)和一些临时性的热点事件(如体育赛事、演唱会等)区域，极大地节约铺设地面基础设施的建设和维护成本。另一方面，飞行的无人机基站更有可能通过调整其在三维空间的悬停位置与地面用户建立视距链接，从而提供更高的数据率。由于这些优势，研究者们对无人机基站的最佳部署进行了广泛研究。然而，无人机的三维部署问题往往是一个复杂的非凸问题，并且在结合了功率等资源分配之后涉及更高维度的连续变量的优化，目前的研究开始转向机器学习方法来求解。但是，以往的研究中被较多采用的Q学习和深度Q网络等方法不能处理连续的动作空间，会使结果丧失一定的精度。因此，采用一种能够处理连续的状态和动作空间的机器学习方法，来研究具有高维度连续变量的无人机飞行基站三维部署和功率分配联合优化，可以提高系统吞吐量，这在无人机能量有限的情况下，对于提升无人机能效、提高网络性能等方面具有很好的实际意义。

发明内容

本发明提供一种无人机飞行基站的三维部署和功率分配联合优化方法，解决的技术问题在于：如何确定无人机同时服务地面多个用户的最佳悬停服务位置，以及如何给各地面用户分配最佳的功率。

为解决以上技术问题，本发明提供一种无人机飞行基站的三维部署和功率分配联合优化方法，包括步骤：

(1)无人机基站系统模型

S1：建立无人机飞行基站服务地面用户簇的系统模型；所述系统模型包括一架无人机，所述无人机服务的K个地面用户形成的用户簇，和所述无人机到所述地面用户的空地信道。

(2)系统吞吐量优化模型

S2：同时考虑视距传输和非视距传输对所述空地信道的影响，得到所述无人机到所述地面用户的路径损耗；

S3：以最大化系统吞吐量为目标，所述无人机三维位置和功率分配为联合优化变量，构建所述无人机服务所述地面用户簇的系统吞吐量优化模型；

(3)系统吞吐量优化模型求解

S4：将所述系统吞吐量优化模型构建为马尔可夫决策过程；

S5：结合注水算法，对所述马尔可夫决策过程的动作空间进行降维，并采用深度确定性策略梯度进行求解，得到所述无人机的最优三维部署位置和功率分配策略。

进一步地，所述无人机到某一地面用户k存在视距传输的可能性表示为：

其中，α和β表示与地理环境相关的统计参数；θ表示所述无人机到所述地面用户k的仰角，

表示所述无人机的三维坐标，

表示所述地面用户k的三维坐标，||q-w_k||表示所述无人机到所述地面用户k的直线距离。

则，对应的所述非视距传输的可能性表示为：

进一步地，

其中，FSPL_k表示自由空间传播路径损耗，f_c表示载波频率，c表示光速；ζ_k表示所述无人机到所述地面用户k的总路径损耗，它是由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望，η^LoS和η^NLoS分别表示由视距传输和非视距传输造成的附加路径损耗。

进一步地，不考虑信道中的快衰落和慢衰落，所述无人机到所述地面用户k的信道增益g_k表示为：

其中，

是基于式(1)的关于α、β、q和w_k的函数；除所述无人机的三维位置q外，所述信道增益g_k中的其余参数皆为已知量或常数，则g_k是关于无人机的三维位置q的函数。

进一步地，设定φ_th为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值，则所述无人机到某一地面用户k的传输速率R_k表示为：

其中，B表示所述系统的带宽，K表示所述总地面用户数，K个用户正交地均分带宽B来避免无线干扰，n₀表示高斯白噪声的功率谱密度，φ_k表示所述用户k的RSRP值。

则，基于式(5)，式(6)是关于所述无人机三维位置q和分配给某一地面用户k的功率p_k的函数。

进一步地，在所述步骤S3中，建立的所述系统吞吐量优化模型具体为：

其中，目标函数(7)表示最大化所述系统吞吐量，决策变量为所述无人机的三维位置q和分配给某一地面用户k的功率p_k，

是K个地面用户的集合；约束(8)表示所述无人机的高度限制，

和

分别表示允许的最小和最大高度；约束(9)表示所述无人机的总发射功率限制p_max；约束(10)表示分配给所述用户k的功率非负；约束(11)表示所述无人机只服务RSRP值φ_k大于RSRP阈值φ_th的用户。

进一步地，在所述步骤S4中将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)的具体步骤包括：

S41：根据式(7)，设定所述无人机的三维位置q为所述MDP的状态空间＝{q}；

S42：设定无人机的位移

和分配给所述地面用户的功率p_k为所述MDP的动作空间

S43：基于所述的状态和动作空间，所述无人机的下一个状态(三维位置)可表示为当前状态(三维位置)加上当前的动作(位移)，则所述MDP的状态转移概率

表示为：

其中，s′和s分别表示下一个状态和当前状态，a表示当前动作。

S44：根据式(7)的优化目标和所述无人机的动作，设定在某一状态转移时刻t下，所述MDP的奖励值为：

r_t＝κC_t-λ||d_t||² (31)

其中，κ和λ是奖励的调整因子，奖励中的第一项表示对提高系统吞吐量奖励，第二项表示对无人机大尺度位移的惩罚。

进一步地，在所述步骤S5中，将注水算法结合进所述MDP的每一个状态转移中，输出涉及的每一个状态的最佳功率分配，使动作空间降维成

进一步地，深度确定性策略梯度更新两个估计网络的参数的损失函数为：

其中，θ^μ和θ^Q分别是Actor估计网络μ(s_t∣θ^μ)和Critic估计网络Q(s_t,a_t∣θ^Q)的参数；μ(s_t∣θ^μ)根据所述无人机的当前状态输出动作，Q(s_t,a_t∣θ^Q)对该动作进行评分，给出一个Q值；两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数。

进一步地，式(15)的损失函数中的y_t表示为：

y_t＝r_t+γQ′(s_t+1,μ′(s_t+1θ^μ′)∣θ^Q′) (34)

其中，r_t是基于式(13)的所述MDP的奖励值，γ奖励折扣因子，μ'(s_t∣θ^μ')和Q'(s_t,a_t∣θ^Q')分别是所述深度确定性策略梯度的目标Actor网络和目标Critic网络；两个目标网络和两个估计网络结构相同，但是参数更新的方式采取“软更新”，即每次更新是从估计网络复制一部分参数；软更新的公式表示为：

θ^μ′←τθ^μ+(1-τ)θ^μ′ (35)

θ^Q′←τθ^Q+(1-τ)θ^Q′ (36)其中，θ^μ′和θ^Q′分别是目标Actor网络和目标Critic网络的参数；τ是软更新因子，满足τ＜＜1。

本发明提供了一种无人机飞行基站的三维部署和功率分配联合优化方法，通过采用深度确定性策略梯度，无人机飞行基站能够充分利用地面用户的分布特征，在连续的状态和动作空间中学习最佳的三维悬停位置；通过结合注水算法获得训练中涉及的每个状态的最佳功率分配，以减少动作空间的维度。系统吞吐量可以通过最佳的无人机三维部署和功率分配联合优化得到有效地提升，具有很好的实际意义。

附图说明

图1是本发明实施例提供的一种无人机飞行基站的三维部署和功率分配联合优化方法的步骤流程图；

图2是本发明实施例提供的无人机基站系统模型图；

图3是本发明实施例提供深度确定性策略梯度原理图；

图4是本发明实施例提供的深度确定性策略梯度积累奖励图；

图5是本发明实施例提供的系统吞吐量对比图；

图6是本发明实施例提供的无人机基站三维部署图；

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

为了确定无人机飞行基站同时服务地面多个用户的最佳悬停服务位置以及给各地面用户分配的最佳功率，本发明实施例提供一种无人机飞行基站的三维部署和功率分配联合优化方法，如图1的步骤流程所示，具体包括步骤：

(1)无人机基站系统模型

在图2所示的系统模型中，考虑了K个已知位置的地面用户

(图中圆点所示)。考虑一架无人机来服务该用户簇。无人机到地面用户的空地信道包括了两种传输方式，分别是视距传输(LoS)和非视距传输(NLoS)。

(2)系统吞吐量优化模型

具体步骤包括：

在步骤S2中，我们采用一个文献中广泛使用的空地信道模型，它考虑了视距传输和非视距传输两种情况出现的可能性。所述无人机到某一地面用户k存在视距传输的可能性表示为：

表示所述无人机的三维坐标，

则，对应的所述非视距传输的可能性表示为：

然后，所述无人机到所述地面用户k的总路径损耗可由自由空间传播路径损耗加上视距传输和非视距传输造成的附加路径损耗的数学期望表示，具体为：

其中，FSPL_k表示自由空间传播路径损耗，f_c表示载波频率，c表示光速；η^LoS和η^NLoS分别表示由视距传输和非视距传输造成的附加路径损耗。

接下来，构建步骤S3所述的系统吞吐量优化模型。

不考虑信道中的快衰落和慢衰落，所述无人机到所述地面用户k的信道增益g_k表示为：

其中，

定义p_max为所述无人机的总发射功率，p_k为分配给某一地面用户k的功率。然后，设定φ_th为所述地面用户能够成功解调所述无人机传输信号的参考信号接收强度(RSRP)阈值，则所述无人机到某一地面用户k的传输速率R_k表示为：

建立的所述系统吞吐量优化模型具体为：

是K个地面用户的集合；约束(8)表示所述无人机的高度限制，

和

(3)系统吞吐量优化模型求解

具体步骤包括：

S4：将所述系统吞吐量优化模型构建为马尔可夫决策过程；

在步骤S4中，将所述系统吞吐量优化模型建立为马尔可夫决策过程(MDP)。MDP表示为一个四元组

即状态空间，动作空间，状态转移概率，以及奖励。在每一个状态转移时刻，无人机根据当前动作和状态转移概率从当前状态转到下一个状态，然后获得奖励，循环迭代直到满足最大状态转移时刻。

本实施例构建所述MDP的具体步骤进一步包括：

S41：根据式(7)，设定所述无人机的三维位置q为所述MDP的状态空间

状态空间的维度为3；

S42：设定无人机的位移

和分配给所述地面用户的功率p_k为所述MDP的动作空间

动作空间的维度为3+K；

表示为：

S44：对于某一状态转移时刻t，根据式(7)的优化目标，采取该时刻状态的系统吞吐量作为奖励值。然而，在达到最大状态转移时刻t_max之前，无人机不会停止状态的转移。因此，如果无人机在时刻t＜t_max时转移到了最佳状态，若深度确定性策略梯度的Actor网络输出一个较大的动作(位移)值，无人机将继续根据该动作转移状态，从而进入一个次优的状态。所以需要一个惩罚性奖励来限制网络输出的动作，即所述无人机的位移d，以提高收敛性能。

本实施例将某一状态转移时刻t的奖励值设定为：

r_t＝κC_t-λ||d_t||² (49)

在式(13)中，通过调整因子κ和λ重新调整数量级后，第一项应远大于第二项。这样，在深度确定性策略梯度的网络训练的开始阶段，第一项在奖励中占主导地位。经过一些训练回合过后，奖励的增加趋于平缓。则，第二项位移惩罚开始生效，可以阻止无人机进行大规模的探索，从而可以更平稳地收敛在最佳位置。

接下来，结合注水算法对所述动作空间进行降维，并采用深度确定性策略梯度求解所述的MDP模型。

其中，注水算法的原理是根据信道质量对无人机的发送功率进行自适应分配，通常是给信道质量好的用户多分配功率；给信道质量差的用户少分配功率，从而最大化传输功率。注水算法的具体过程可以描述为：

1)根据原始问题的目标函数和约束，使用拉格朗日乘数法构造方程

2)令所构造方程的偏导为零，得到带有未知数的各用户功率分配表达式

3)代入各用户功率分配表达式到约束条件，求得未知数

4)将求得未知数代入原表达式，得到不含未知数的各用户功率分配表达式

在步骤S5中，考虑到所述MDP的动作空间

中，如果功率分配的维度远远大于无人机位移的维度，即如果K＞＞3，将引起维度不平衡的问题，网络训练将很难收敛到最优解。由于在MDP中，无人机的三维位置在任一状态下确定的，那么对于某一状态

根据式(5)，无人机和地面用户之间的路径损耗在状态s下也是确定的。因此，在状态s下，问题(P1)是一个凸的功率分配问题，可以很容易地用凸优化方法解决。所以，为了解决维度不平衡问题，在MDP的迭代过程中结合注水算法，以输出状态s的最佳功率分配，使动作空间降维成

深度确定性策略梯度的具体工作原理如图3所示。它将所述MDP的状态转移迭代过程作为经验存储到经验回放缓存区，并从中随机选取经验样本训练两个估计网络，即Actor估计网络和Critic估计网络，来分别拟合最优的动作函数和动作-值函数。其中，动作函数实现状态到动作的映射，动作-值函数对动作评分并输出一个Q值。为了稳定网络的训练，深度确定性策略梯度分别在Actor网络和Critic网络中采用一个结构相同的子网络，称之为目标网络。目标网络不进行训练，而是每次从估计网络中复制一小部分参数进行更新。

本实施例训练并更新两个估计网络的参数的损失函数为：

其中，θ^μ和θ^Q分别是Actor估计网络μ(s_t∣θ^μ)和Critic估计网络Q(s_t,a_t∣θ^Q)的参数；μ(s_t∣θ^μ)根据所述无人机的当前状态输出动作，Q(s_t,a_t∣θ^Q)对该动作进行评分，给出一个Q值；两个估计网络分别通过最小化式(14)和式(15)中的损失函数更新自身参数，N是经验样本的大小。

式(15)中的损失函数中的y_t表示为：

y_t＝r_t+γQ′(s_t+1,μ′(s_t+1θ^μ′)∣θ^Q′) (52)

其中，r_t是基于式(13)的所述MDP的奖励值，γ奖励折扣因子，μ'(s_t∣θ^μ')和Q'(s_t,a_t∣θ^Q')分别是所述Actor目标网络和Critic目标网络；两个目标网络和两个估计网络结构相同，但是参数更新的方式采取“软更新”，即每次更新是从估计网络复制一部分参数；软更新的公式表示为：

θ^μ′←τθ^μ+(1-τ)θ^μ′ (53)

θ^Q′←τθ^Q+(1-τ)θ^Q′ (54)

其中，θ^μ′和θ^Q′分别是目标Actor网络和目标Critic网络的参数；τ是软更新因子，满足τ＜＜1。

本实施例中结合了注水算法的深度确定性策略梯度算法可以描述为：

在所述算法的第7行，在Actor网络的训练中，它输出的动作经常被加上一个噪声noise，这是为了防止无人机陷入局部最优。在Actor网络完成训练后，输出动作中的noise会被取消。

考虑一个具体的实施场景，设定一个2km×2km的矩形地理区域，区域内随机分布K＝100个地面用户，其他的参数设置如下表：

本实施例中，Actor网络和Critic网络的结构都由一个输入层、两个隐藏层和一个输出层组成；隐藏层的神经元数量在Actor网络和Critic网络中分别为(200，100)和(400，200)；隐藏层中的激活函数都是ReLU函数。动作噪声noise遵循正态分布，均值为零，偏差经过训练回合从0.3线性递减到0。采用Adam优化器来训练网络，学习率为0.0001。其余的网络参数设置如下表：

本实施例通过实验对比了所提出的算法(称为JODP)和其余两种传统方法(分别是OA和OD)的性能。在OA中，无人机对所有地面用户均分功率，且无人机的平面位置被固定在用户簇的中心(即坐标原点)，只优化无人机的高度；在OD中，优化无人机的三维位置，对所有地面用户均分功率。

图4是深度确定性策略梯度的积累奖励图。从图4可以看到随着训练回合的增加，本实施例所提出的JODP算法能够积累更多的奖励，并且三种算法能够稳定收敛。图5是系统吞吐量对比图。我们采用深度Q网络(DQN)来展示离散化动作空间所造成的偏差。从图5可以看到，本实施例所提出的JODP在系统吞吐量上均优于OA和OD。与连续动作空间的深度确定性策略梯度(DDPG)相比，深度Q网络性能较差，且差距逐渐扩大。这是因为三种方法的动作空间维度逐个增加，离散化动作空间引起的偏差也随之增大。

图6是无人机飞行基站的三维部署图。从图6可以看到，OA中的无人机高度要比其他方法高得多。这是因为无人机的水平位置在OA中是固定的，因此无人机必须飞得更高才能与地面用户建立更多的连接，而这是以信道质量为代价的。相比之下，OD和JODP的无人机可以调整其水平位置，在有更多用户分布的热点区域上空悬停服务，并为这些用户建立更好的信道。此外，考虑了最佳的功率分配后，JODP的无人机比OD的无人机飞行高度低。这是因为注水算法将更多的功率分配给拥有更好信道的用户，这促使无人机更接近热点地区。因此，当用户分布变得更加异质化时，JODP在系统吞吐量方面将在更大程度上优于OD。

综上，本发明实施例提供了一种无人机飞行基站的三维部署和功率分配联合优化方法，通过采用深度确定性策略梯度，无人机飞行基站能够充分利用地面用户的分布特征，在连续的状态和动作空间中学习最佳的三维悬停位置；通过结合注水算法获得训练中涉及的每个状态的最佳功率分配，以减少动作空间的维度。系统吞吐量可以通过最佳的无人机三维部署和功率分配联合优化得到有效地提升，具有很好的实际意义。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。