CN110830136B

CN110830136B - 一种基于无线电地图的无人机轨迹设计和功率分配方法

Info

Publication number: CN110830136B
Application number: CN201911105810.2A
Authority: CN
Inventors: 黄瑜薇; 邱玲
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2021-10-19
Anticipated expiration: 2039-11-13
Also published as: CN110830136A

Abstract

本发明公开了一种基于无线电地图的无人机轨迹设计和功率分配方法，特征是根据基于无线电地图获取的信道模型，通过设计无人机的轨迹和发送功率来最大化无人机通信链路的可得速率，同时控制给原有存在的地面链路的干扰小于一定的阈值；采用强化学习算法来设计无人机的轨迹和发送功率。与现有的无人机通信中基于固定的视距信道或者统计的概率视距信道来联合设计无人机轨迹和功率分配从而实现无人机通信系统吞吐量最大化并控制无人机引入干扰方法的相比，采用本发明方法能够符合实际环境的信道特征，在满足干扰限制的要求下，进一步地提高无人机通信系统的吞吐量。

Description

一种基于无线电地图的无人机轨迹设计和功率分配方法

技术领域

本发明属于无线通信技术领域，具体涉及无人机通信中基于无线电地图来实现无人机通信系统吞吐量最大化和干扰控制的无人机轨迹设计和功率分配方法。

背景技术

如今无人机已经被广泛应用于很多领域，如货物传送，空中摄影，农业测量等。为了将无人机融入现有的蜂窝网络，在the 3^rd Generation Partnership Project(3GPP)协议中，指出了一种新的应用于无人机通信的技术，其中无人机被用作空中用户来完成它们所需要执行的任务，并受控于地面蜂窝网络来保证无人机的安全飞行。在这种新技术下，为了保证无人机用户和地面用户共存的前提下，会产生一个严峻挑战，即空对地(air-to-ground(A2G))干扰。已有前人致力于解决这方面的问题，其中文献“Cognitive UAVcommunication via joint maneuver and power control”(将出版于IEEE Transactionson Communications,2019)中，设A2G信道服从特定的视距(line-of-sight(LoS))信道，文献“Cellular-connected UAV:Uplink association,power control and interferencecoordination”(将出版于IEEE Transactions on Wireless Communications,2019)中，设A2G信道服从统计的概率LoS信道。但是，上述基于LoS信道和概率LoS信道的假设在实际应用中仍存在一定的缺陷。一方面，关于A2G信道服从特定的LoS信道的假设对应于无人机在郊区等开阔地执行任务并且飞行高度足够高，但过高的飞行高度会对系统性能带来一定程度上的损失；另一方面，关于A2G信道服从统计的概率LoS信道的假设对应于无人机在障碍物均匀分布的环境中执行任务，但在实际场景中，城镇环境下的障碍物很难服从均匀的分布。所以，总的来说，虽然基于LoS信道或者概率LoS信道假设得到的设计结果可以为实际应用提供很好的理论指导，但是由于使用模型的不匹配性，基于上述假设得到的结果在实际环境中会遭到一定程度的损失。

发明内容

本发明的目的是提出一种无人机通信中基于无线电地图的无人机轨迹设计和功率分配方法，以最大化无人机通信系统的吞吐量，并且控制给原地面共信道链路的干扰。

本发明无人机通信中基于无线电地图的无人机轨迹设计和功率分配方法，其特征在于：

考虑一个实际环境的场景，其中空对地A2G信道会遭到障碍物的遮挡，并且地面的障碍物分布是不均匀的；信道参数---包括参考信道功率增益以及路损指数---与无人机以及地面节点的位置紧密相连，设无人机在通信之前可以利用无线电地图技术来提前获取这些具体的信道参数；

根据基于无线电地图技术获取的信道参数和信道模型，考虑一个无人机用户通过共享现有地面链路的频谱资源与一个地面基站通信；为保护现有的地面链路，采用认知无线电网络下的干扰温度(interference temperature(IT))技术，使得共信道地面链路受到来自无人机通信的干扰功率不超过给定的阈值；通过优化无人机的轨迹和发送功率来最大化无人机和其相连基站的可得速率，并受限于无人机的飞行速度，初始位置，发送功率的限制，以及共信道地面链路的IT限制；

考虑一个频谱共享的场景，其中一个无人机用户和一个空闲地面基站(availableGBS)通信，该available GBS没有利用与无人机相同的工作频段来服务地面用户，与此同时有K个被占用的地面基站(occupied GBS)正在利用与无人机相同的工作频段来服务相对应的地面用户；注意到这些地面基站occupied GBS工作在相同的频段；令

定义为occupied GBS的集合；关注一个特定的工作时间段T＝[0，T]，其中T＞0定义为总的通信时间；为便于分析，将这个连续的时间段离散化为N个时隙，每个时隙有相同的时间δ＝T/N；这里，δ选取的足够小以至于无人机的位置在每个时隙内可以被假设为近似固定的；进一步定义

不失一般性，考虑一个三维(three-dimensional(3D))系统，其中available GBS固定在(x，y，0)，每个occupied GBS固定在(x_k，y_k，0)；为方便起见，定义

和

为available GBS以及每个occupied GBS k的水平位置坐标；设无人机飞行在一个固定的高度H，以及无人机具有时变的水平位置q[n]＝(x[n]，y[n])；定义无人机的初始水平位置为q_I＝(x_I，y_I)，因此有q[1]＝q_I；设在每个时刻n，无人机可以改变它的位置或者留在原地；定义

为无人机位置改变的集合，每个元素分别代表无人机或停在原地，或向左飞，或向右飞，或向前飞，或向后飞；这里λ是一个常数，代表无人机每个时刻的位移量；令λ[n]定义为无人机每个时刻的位置改变向量，因此有

以及

在每个时隙n，无人机和available GBS以及每个occupied GBSk之间的距离分别是

其中||·||代表欧式范数；因此，从无人机到available GBS以及每个occupiedGBSk之间的信道功率增益分别表示为

其中β(q[n]，w)和β(q[n]，wk)是参考信道功率增益，α(q[n]，w)和α(q[n]，w_k)是路损指数；注意到在考虑的信道模型下，β(q[n]，w)，β(q[n]，w_k)，α(q[n]，w)和α(q[n]，w_k)与无人机的位置q[n]以及地面基站的位置w和w_k的关系；设这些精确的信道参数被无人机通过频谱感知以及机器学习的方法在通信之前获取；

定义p[n]≥0为无人机的发射功率，则无人机到available GBS之间的瞬时通信速率为

其中σ²为噪声功率；令P＞0为无人机的最大发送功率，因此0≤p[n]≤P，

在每个时刻n，在每个occupied GBSk处收到的干扰能量为

在每个时刻n，每个occupied GBS收到的干扰能量不能超过给定的阈值，定义为Γ≥0，因此

最大化从无人机到available GBS之间的平均通信速率

通过优化无人机的水平轨迹以及发送功率；优化形成如下形式

q[1]＝q_I[1] (7)

其中，式(6)是无人机最大发送功率限制，式(7)是初始位置限制，式(8)是速度限制，式(9)是IT限制；

在任何给定可行的轨迹下，限制式(6)和式(9)合并成

当问题(P1)取得最优解的时候，限制式(10)一定要取等，因此

将公式(11)带入问题(P1)的目标函数中去，问题(P1)可以转换为

s.t.(7)and(8)，

其中

本发明基于无线电地图的无人机轨迹设计和功率分配方法，由于充分利用了无人机可控的移动性以及无线电地图的优势，通过设计无人机的轨迹(求解问题(P1.1))以及发送功率(基于公式(11))在保证带给地面共信道通信链路干扰的前提下，进一步最大化频谱共享场景下无人机通信的吞吐量；与现有的联合无人机轨迹设计和功率分配方法中假设A2G信道服从确定的LoS信道或者统计的概率LoS信道相比，本发明中的A2G信道是基于实际的无线电地图获得，包括参考信道功率增益以及路损指数等信道参数与无人机以及地面基站的位置密切相关；基于无线电地图的信道使得无人机可以充分利用实际信道环境的特征以及通过操控其自身的移动性充分调整其轨迹，从而获取更好的信道条件与地面相连的基站进行通信，同时选取与共信道受干扰基站信道环境较差的位置进行飞行，从而更好控制干扰；总的来说，由于基于无线电地图的信道假设，本发明所提出的无人机轨迹设计和功率分配方法可以在保证干扰要求的前提下，更进一步提供系统的吞吐量，并更贴合实际环境的需求。

附图说明：

图1为本发明基于无线电地图的无人机轨迹设计和功率分配方法的收敛性验证图；

图2为本发明基于无线电地图的无人机轨迹设计和功率分配方法的无人机轨迹设计图；

图3为本发明基于无线电地图的无人机轨迹设计和功率分配方法的关于不同信道假设的系统吞吐量对比图；

图4为本发明基于无线电地图的无人机轨迹设计和功率分配方法的关于不同系统参数的系统吞吐量对比图；

图5为本发明基于无线电地图的无人机轨迹设计和功率分配方法的关于不同算法的系统吞吐量对比图。

具体实施方式

下面结合附图对本发明基于无线电地图的无人机轨迹设计和功率分配方法进行进一步的详细描述和具体说明。

实施例1：

本发明提出无人机通信中基于无线电地图的无人机轨迹设计和功率分配方法来在满足干扰要求的前提下实现无人机通信系统吞吐量的最大化，该方法的实施依靠强化学习算法。为了便于理解方法的具体实施，先简要介绍强化学习算法以及Q-1earning的基本知识。

强化学习是一个有用的机器学习算法，它可以学习一个代理商如何在一个环境中采取行动，从而来获取一定时间范围内的最大累积回报。Q-learning是一个无模型的强化学习算法，它利用Q-table记录不同行为下的期望报酬，然后由代理商找到一个最优策略，使其获得最大化的报酬。

特别地，考虑一个马尔科夫过程(Markov decision process(MDP))。从数学角度上来说，MDP过程可以由4元组组成{S，A，P，R}，其中包括状态空间S，动作空间A，状态转移概率P_a(s，s′)＝Pr(s_n+1＝s′|s_n＝s，a_n＝a)，以及奖励函数R_a(s，s′)。在每个时刻n，代理商观察其当前的状态的s_n，采取动作a_n∈A，然后移动下一个状态s_n+1。基于这个动作，代理商会收到一个瞬时的奖励

通常来说，代理商的目标就是找到一个最优的策略π来最大化奖励，其中这个策略可以被定义为π(a|s)＝Pr(a_n＝a|s_n＝s)。

然后，定义Q-function是在状态s下采取动作a以及遵循策略π获得的未来打折奖励的一个均值函数，因此

其中E{·}是指均值函数，以及

定义的是所有未来奖励的打折和以打折因子γ∈[0，1)来平衡长期与短期的收益。特别地，当γ趋近于1的时候，代理商要注重获取长期受益，相反地，当γ趋于0的时候，代理商要注重获取短期受益。因此，代理商的目标是找到一个最优策略来最大化Q-function，即

注意到如果最优的策略π^*不是唯一的，可以从可行的解中随机选取一个最为最优策略。结合公式(13)和(14)，每一步Q-table的更新策略为

其中α∈[0，1]代表学习率，用来决定有多少旧的信息是保存下来的。为了使得Q-learning算法能够很好的收敛，学习参数α和γ都应该合适地进行选择。

具体实施过程：

接下来，具体介绍本发明如何利用Q-learning来求解问题(P1.1)从而来设计无人机的轨迹，然后基于公式(11)来优化无人机的功率分配。

第一步：将问题匹配成一个马尔科夫决策过程(Markov decision process(MDP))，其中MDP的四元组设置如下：

1)状态空间S：S＝{q[n]，n}，其包括无人机的实时位置以及时间

2)动作空间A：

以至于在每个时刻n，无人机可以留在原地，或向左飞，或向右飞，或向前飞，或者向后飞；

3)转移概率P：状态转移概率为

注意到式(17)保证问题(P1.1)的可行域，如果选择的动作a会使无人机飞出可行域，它的位置不再改变；

4)奖励函数R：奖励函数为在available GBS处的实时通信速率。

第二步：利用如下所示算法1来设计无人机的轨迹。

第三步：基于算法1得到的无人机轨迹以及公式(11)来设计无人机的功率分配，具体为

其中，q[n]是利用算法1得到的问题(P1.1)的解。

本实施例中无人机通信中基于吞吐量最大化和干扰控制的无人机轨迹设计和功率分配方法的仿真具体设置如下：无人机的固定飞行高度为H＝100m，噪声功率为σ²＝-80dBm，无人机的最大发送功率为P＝30dBm。然后，本发明考虑在500m×500m的范围内有K＝6个GBS，具体如附图2所示，其中的方块代表平均高度为40m的障碍物(比如建筑物)。本发明考虑分段信道模型，其中，如果在无人机和GBS的连线有障碍物的话，本发明设信道服从非视距(non-line-of-sight(NLoS))信道，其中路损指数为α_NLoS＝4，参考信道功率增益为β_NLoS＝-40dB。相反地，如果无人机和GBS的连线上没有障碍物的话，本发明设信道服从LoS信道，其中路损指数为α_LoS＝2，参考信道功率增益为β_LoS＝-30dB。无人机的初始位置设置为q_I＝(-240m，130m)。为了执行Q-learning，本发明将整个区域分为20*20的方格，以及设置无人机的单位位移为λ＝25m。在执行Q-learning的过程中，如果无人机采取的动作使无人机移出20*20的方格以外，会加一个很大的惩罚。除此之外，本发明设置学习率为α＝0.3，打折因子为γ＝0.9，随机动作选择概率的初始值为ò＝0.9。仿真程序在Matlab上运行。具体的仿真对比结果可参见所附图1、图2、图3、图4和图5中所示。

图1为本发明基于无线电地图的无人机轨迹设计和功率分配方法的收敛性验证图，其中无人机的飞行时间设置为N＝200。从图1中可以观察到基于算法1得到的平均可得速率随着迭代次数的增加会迅速增加，然后大概在N_ite＝9000次时达到收敛。

图2为本发明基于无线电地图的无人机轨迹设计和功率分配方法的无人机轨迹设计图，其中无人机的飞行时间设置为N＝200。从图2中可以观察到，无人机在飞行过程中，无人机和occupied GBSs之间的链路遭到障碍物的阻挡，从而干扰减小。从图2中还可以观察到，无人机最后会停在与available GBS的连线是LoS信道的区域尽可能长的时间，从而获取更好的信道条件，来增强通信速率。这证明了本发明提出的基于强化学习算法的有效性。

图3为本发明基于无线电地图的无人机轨迹设计和功率分配方法的关于不同信道假设的系统吞吐量对比图。从图3中可以观察到，基于所有信道的通信速率随着时间都是增加的。这是因为对于所有的情况，无人机都可以调整其轨迹，从而无人机可以花费更长的时间停靠在available GBS附近当通信时间增加的时候，因此从平均意义上来说信道条件更好，从而提高系统性能。从图3中还可以观察到，基于无线电地图得到的性能相比于基于LoS或者概率LoS信道得到的性能要给更好。这是因为，无论是固定的LoS信道还是统计的概率LoS信道都无法准确的获得实际信道环境的信道特征，从而造成性能的损失。这说明了基于无线电地图的信道模型可以有效地进一步的提升系统的性能。

图4为本发明基于无线电地图的无人机轨迹设计和功率分配方法的关于不同系统参数的系统吞吐量对比图。从图4中可以看出，选择合适的学习参数对算法性能会产生影响。因此，在强化学习算法中，需要选取合适的学习参数，从而更进一步的提高系统性能。

图5为本发明基于无线电地图的无人机轨迹设计和功率分配方法的关于不同算法的系统吞吐量对比图。从图5中可以看出，基于强化学习算法得到的系统性能比贪婪算法以及随机算法得到的系统性能好。这是因为在贪婪算法中，每个时刻，无人机只能选择一个使瞬时奖励最大的动作。而在随机算法中，每个时刻，无人机都会从动作空间中随机选取一个动作。这无法保证在一定时间内无人机的平均积累奖励。然而，在基于强化学习的算法中，无人机采取的动作是考虑到整个时间段内的平均奖励，因此能得到更好的系统性能。这证明了本发明提出了的基于强化学习的算法能够有效地设计基于无线电地图的无人机轨迹和功率分配。

通过上面的实施例，证明了本发明基于无线电地图的无人机轨迹设计和功率分配方法，与现有无人机通信中基于固定的LoS信道或者统计的概率LoS信道相比，在满足给共信道地面链路的干扰下，通过对无人机轨迹和功率的联合设计，充分利用无线电地图的优势，以进一步提高系统的吞吐量，从而更好的实现频谱资源的共享。

Claims

1.一种基于无线电地图的无人机轨迹设计和功率分配方法，其特征在于：

考虑一个实际环境的场景，其中空对地A2G信道会遭到障碍物的遮挡，并且地面的障碍物分布是不均匀的；包括参考信道功率增益以及路损指数在内的信道参数与无人机以及地面节点的位置紧密相连，设无人机在通信之前可以利用无线电地图技术来提前获取这些具体的信道参数；

根据基于无线电地图技术获取的信道参数和信道模型，考虑一个无人机用户通过共享现有地面链路的频谱资源与一个地面基站通信；为了保护现有的地面链路，采用了认知无线电网络下的干扰温度IT技术，使得共信道地面链路受到来自无人机通信的干扰功率不超过给定的阈值；通过优化无人机的轨迹和发送功率来最大化无人机和其相连基站的可得速率，并受限于无人机的飞行速度，初始位置，发送功率的限制，以及共信道地面链路的IT限制；

考虑一个频谱共享的场景，其中一个无人机用户和一个空闲地面基站available GBS通信，该available GBS没有利用与无人机相同的工作频段来服务地面用户，与此同时有K个被占用的地面基站occupied GBS正在利用与无人机相同的工作频段来服务相对应的地面用户；注意到这些地面基站occupied GBS工作在相同的频段；令

定义为occupied GBS的集合；关注一个特定的工作时间段T＝[0,T]，其中T＞0定义为总的通信时间；为了便于分析，将这个连续的时间段离散化为N个时隙，每个时隙有相同的时间δ＝T/N；这里，δ选取的足够小以至于无人机的位置在每个时隙内可以被假设为近似固定的；进一步定义

不失一般性，考虑一个三维系统，其中available GBS固定在(x,y,0)，每个occupiedGBS固定在(x_k,y_k,0)；为了方便起见，定义

和

为availableGBS以及每个occupied GBS k的水平位置坐标；设无人机飞行在一个固定的高度H，以及无人机具有时变的水平位置q[n]＝(x[n],y[n])；定义无人机的初始水平位置q_I＝(x_I,y_I)，因此有q[1]＝q_I；设在每个时刻n，无人机可以改变它的位置或者留在原地；定义

为无人机位置改变的集合，每个元素分别代表无人机停在原地，向左飞，向右飞，向前飞，向后飞；这里λ是一个常数，代表无人机每个时刻的位移量；令λ[n]定义为无人机每个时刻的位置改变向量；因此，有

以及q[n]＝q[n-1]+λ[n-1],

在每个时隙n，无人机和available GBS以及每个occupied GBS k之间的距离分别是

其中||·||代表欧式范数；因此，从无人机到available GBS以及每个occupied GBS k之间的信道功率增益分别表示为

其中β(q[n],w)和β(q[n],w_k)是参考信道功率增益，α(q[n],w)和α(q[n],w_k)是路损指数；注意到在考虑的信道模型下，β(q[n],w)，β(q[n],w_k)，α(q[n],w)和α(q[n],w_k)与无人机的位置q[n]以及地面基站的位置w和w_k有很大的关系；设无人机通信之前通过频谱感知以及机器学习的方法获取这些精确的信道参数；

定义p[n]≥0为无人机的发射功率，因此无人机到available GBS之间的瞬时通信速率为