CN113258989B

CN113258989B - 一种使用强化学习获得无人机中继轨迹的方法

Info

Publication number: CN113258989B
Application number: CN202110532993.7A
Authority: CN
Inventors: 刘楠; 慕红伟; 潘志文; 尤肖虎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2022-06-03
Anticipated expiration: 2041-05-17
Also published as: CN113258989A

Abstract

本发明公开了一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法，输入无人机起始位置，无人机电池最大容量，最大回合数,折扣因子,学习率,动作利用率，采用Q学习设计能量受限的无人机轨迹。本发明综合考虑基站的天线辐射模式、回程约束、无人机能量消耗，建立了一个有实际意义的无人机电池能量受限的轨迹优化问题，分析待解决的轨迹设计问题，将无人机轨迹设计问题转化为离散时间决策过程并转用Q学习解决问题，能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。

Description

一种使用强化学习获得无人机中继轨迹的方法

技术领域

本发明属于移动通信技术领域，尤其涉及一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法。

背景技术

现有的蜂窝网络通常通过调整基站天线参数来优化覆盖范围和减少干扰，然而仅依靠传统网络架构和设计方案很难实质性解决通信系统所存在的问题。新兴的解决方案是采用无人机辅助网络的方式,通过控制无人机的运动，可以利用无人机高移动性，灵活部署以及更高概率与地面用户和基站建立视距通信极大地改善系统性能。

当前在设计无人机轨迹辅助网络通信解决干扰、提高能效时，并没有综合考虑天线辐射、回路限制以及无人机有限电池容量的影响，无法投入实际。

鉴于无人机的多功能性和可操作性，基于人工智能的无人机辅助解决方案能够显著增强下一代无线网络。考虑到无人机机载电池的有限性，无人机的飞行时间是一项重要的考虑因素。一种思路是一些研究提出的通过激光束的单色性和方向性来设计无人机无线充电模型或无人机替换策略，但通常解决方案成本较高、更复杂且需要定期监控无人机电量消耗，当前主流思路是如何高效的利用无人机有限的电量。

本发明在综合考虑回程约束，天线辐射和无人机电池能耗影响同时确保无人机电池有足够的能量返回到原始点充电的实际意义条件下，提出了一种利用强化学习方法来设计无人机最佳轨迹,充分利用无人机电池能量以实现其一个工作周期最大化提升用户频谱效率,将无人机连续时间轨迹转化为离散时间马尔可夫决策过程。

发明内容

本发明目的在于提供一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,以解决无法确保无人机电池有足够的能量返回到原始点充电，用户频谱效率低的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法，其特征在于，输入无人机起始位置，无人机电池最大容量，最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε；采用Q学习设计能量受限的无人机轨迹，包括以下步骤：

步骤1、将待仿真区域按步长划分为网格；

步骤2、设置状态数和动作数，按照状态数和动作数初始化动作状态表，用来记录每个状态对应动作的长期累计奖励；

步骤3、初始回合标志为1，进入大循环，递增遍历直至达到最大回合数限制；

步骤4、初始化无人机状态为s₀＝[x_s,y_s,E_max]；即无人机从起点(x_s,y_s)以最大电量E_max出发；

步骤5、退火系数为decay_rate，最大回合数episode_limit,计算K＝decay_rate/episode_limit，按照ε＝1*exp(-K*ε)更新动作利用率ε,，即随着训练回合的增加ε逐渐增加至1，以充分利用训练记录的状态动作值；

步骤6、根据状态选择动作，即若随机数是小于ε时，将选择动作状态表中当前长期累积奖励值最大的动作；若随机数是大于等于ε时，则随机选择一个动作；

步骤7、执行动作，获得即时奖励r并进入下一状态s′；

按照下面公式获得即时奖励：

r_i＝eff_change-Ι₁p₁+Ι₂p₂

上式中eff_change代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励；这里，I是指示函数，即事件成立时返回1，否则为0；I₁指示执行动作后无人机是否违反边界限制和电量限制，p₁是无人机违反约束事件(边界和电量限制)的惩罚参数，即当执行动作后无人机违反边界限制和电量限制时，奖励函数减去较大惩罚因子p₁；I₂为执行动作后无人机返回起始点且剩余电量为0的指示，p₂为激励无人机返回起始点的奖励参数。

步骤8、按照下列公式更新状态价值表：

Q(s,a)←Q(s,a)+α[r+γmax_a′Q(s′,a′)-Q(s,a)]；

采用时序差分方式更新更新状态价值表，直接使用下一状态s′当前对应最大状态动作值max_a′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例。

步骤9、无人机更新状态(包括当前位置和剩余电量),每个时隙i消耗能量分为悬停消耗能量E_hover和水平面飞行消耗能量E_move两种；

当剩余电量E(i)≤0时结束本回合。

本发明的一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法具有以下优点：

在下行链路蜂窝网络中，综合考虑基站的天线辐射模式、回程约束、无人机能量消耗，建立了一个有实际意义的无人机电池能量受限(需返回起始点充电)的轨迹优化问题，分析待解决的轨迹设计问题，将无人机轨迹设计问题转化为离散时间决策过程并转用Q-learning解决问题，能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。

附图说明

图1为本发明的比较同样充分利用有点电池容量并返回起始点的无人机中继轨迹频谱效率增益对比结构示意图；

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法做进一步详细的描述。

设计无人机中继轨迹时主要包括以下影响因素：

1、路径损失

(1)、基站到用户路径损失

考虑采用适用于基站高度不变化的Okumura-Hata(OHPLM)路径损耗模型，d_k,m,t表示在时刻t基站m与用户k间的欧氏距离。用户k在时刻t观察到的从基站m的路径损失(单位为dB)可表示为：

ξ_k,m(t)＝A+Blog₁₀(d_k,m,t)+C

在郊区环境中，参数A，B和C的计算公式为：

A＝69.55+26.16log₁₀(f_c)-13.82log₁₀(h_bs)-a(h_ue)

B＝44.9-6.55log₁₀(h_bs)

C＝-2log₁₀(f_c/28)²-5.4

校正因子a(h_ue)定义为：a(h_ue)＝＝[1.1log₁₀(f_c)-0.7]h_ue-1.56log₁₀(f_c)-0.8

这里，f_c表示载波频率,h_bs和h_ue分别表示基站和用户高度。因为基站高度和用户高度不随时间变化，所以参数A,B,C始终是常数。

(2)无人机到用户路径损失

考虑采用视距通信(LoS)和非视距通信(NLoS)混合传播模型(MPLM)，因为无人机飞行在空中，有更高概率获得LoS信道。若用z_k,u,t表示在时刻t用户k与无人机u间的水平距离，根据相关研究，无人机到用户视距通信概率可表示为：

h_uav表示无人机高度；

δ_h＝h_uav-h_ue表示无人机高度与用户高度的差值；

表示建筑物占用的总土地面积的比例；

表示每平方公里平均建筑物的数量，所有建筑物的高度用服从瑞丽分布的

表示；

用户k在时间t接收到无人机的路径损耗(单位为dB)可表示为：

α_L和α_N表示视距通信和非视距通信的路径损耗函数；P_UAV表示无人机发射功率；τ_L(z_k,u,t)表示上文计算的无人机到用户的视距通信概率；τ_N(z_k,u,t)＝1-τ_L(z_k,u,t)表示非视距通信概率；d_k,u,t表示用户k在时刻t与无人机间的欧氏距离。

(3)基站到无人机路径损失

考虑3GPP标准中指定的视距信道模型模拟基站到无人机的路径损失。因为无人机高度在40米到300m,所以获得视距通信信道的概率为1.若用d_m,u,t表示时刻t无人机u与基站m间的欧氏距离，则无人机与基站m间的瞬时路径损耗(单位为dB)可表示为：

2、天线辐射模型

使用3GPP标准天线辐射模型来表征基站的天线辐射。根据该模型，每个基站分为三个扇区，并且每个扇区都配备有八个交叉极化天线(±45°双极化天线)，放置在均匀线性阵列上。这些天线元件模式中的每一个都提供高指向性，主瓣方向的最大增益G_max约为8dBi，它们共同形成天线阵列，向转向方向提供高增益。

(1)元素辐射模型

每个交叉极化天线包含水平辐射模型A_E,H(φ′)和垂直辐射模型A_E,V(θ′)。

φ′_3dB和θ′_3dB都是指具有相同角度65°的3dB波束宽度。A_m表示前后比(front-backratio)，SLA_V表示旁瓣电平限制,通过将每个元素的垂直辐射方向图和水平辐射方向图组合在一起，计算出每个角度(θ′，φ′)的天线元素增益为

A_E(θ′，φ′)＝G_max-min{-[A_E,H(φ′)+[A_E,V(θ′)],A_m}

这里，G_max表示天线元素主瓣方向最大增益；

(2)阵列辐射模型

天线阵列的辐射方向图A_A(θ′，φ′)显示从天线阵列向转向方向(θ′，φ′)辐射了多少功率，阵列辐射模型可表示为：

A_A(θ′,φ′)＝A_E(θ′,φ′)+AF(θ′,φ′,n)

A_E(θ′,φ′)表示天线元素在(θ′,φ′)方向的元素辐射模型，AF(φ′,θ′,n)是具有n个天线的阵列因子,可表示为：

AF(φ′,θ′,n)＝10log₁0[1+ρ(|a·w^T|²-1)]

ρ是设置为1相关系数，假设每个天线元件具有相同的振幅，振幅矢量a设置为常量

包含主瓣转向方向的波束成形矢量w可表示为，

波束成形矢量w计算过程中，m_Vm_H＝n，

为计算天线阵列辐射模型在任意方向天线增益所需要的，(θ_s，φ_s)对应主瓣方向。ΔV代表天线阵列的垂直元素之间的间隔距离，ΔH代表天线阵列的水平元素之间的间隔距离，使用时考虑

λ表示载波波长。

3、回路限制

无人机中继需要始终与核心网络保持安全可靠的连接，以实现可靠的通信。另一方面，当无人机在下行链路中充当基站时，无人机必须通过回程链路从核心网络收集数据。因此，将无人机视为下行链路中基站和用户终端之间的中继，并研究网络性能。计算无人机到用户链路和基站到无人机链路的最小值作为用户k信噪比γ_k：

γ_k＝max{min{γ_bs-uav,γ_uav-ue},γ_bs-ue}.

γ_bs-uav表示基站到用户信噪比；

γ_uav-ue表示无人机到用户信噪比；

γ_bs-ue表示基站到用户信噪比。

4、电量消耗模型

本发明在设计最佳轨迹时，将无人机连续时间轨迹设计问题转化为离散时间马尔可夫决策过程，即通过Q学习为每个间隔找到累积奖励最大的动作。无人机在时隙n的速度可表示为：v[n]＝[v_x[n],v_y[n],v_z[n]]，v_x[n],v_y[n],v_z[n]分别表示速度v[n]在x轴，y轴和z轴的分量。

时隙n中无人机水平飞行的感应功率可表示为：

W＝mg表示无人机的重量，g表示重力加速度，ρ表示空气密度，A是无人机转片的总面积，

||v_x[n],v_y[n]||表示无人机的水平速度，

参数化悬停所需的功率。

时隙n中垂直飞行的功耗建模为P_vertical[n]＝Wv_z[n]

另外，将时隙n中的叶片阻力轮廓功率建模为：

是轮廓阻力系数，它取决于转子叶片的几何形状。

总而言之，可以将n时隙中的无人机的空气动力消耗建模为：

其中

查阅相关参考文献，无人机作为中继消耗的功率P_relay[n]与用于无人机飞行或悬停的功率相比可以忽略不计(相差100倍以上)。同时，由于考虑场景下无人机在同一水平面运动，所以功率消耗主要考虑悬停和水平飞行功率。

本发明利用强化学习，在综合考虑路径损失、天线辐射、回路限制、无人机电量消耗情况下获得受限于有限电池容量需返回起始点充电的情况下能为网络性能(频谱效率)带来最大提升的无人机中继的轨迹。

无人机起点L_s＝[x_s,y_s,z_s],终点L_f＝[x_f,y_f,z_f]＝[x_s,y_s,z_s]，即返回起始点。

无人机在时刻t的坐标表示为r(t)＝[x(t),y(t),z(t)]^T∈R^3×1

考虑干扰受限的下行蜂窝网络的6GHz以下频段，即与干扰功率相比，接收机处的热噪声功率可以忽略不计。我们还假设基站和无人机共享公共的传输带宽，并且每一个基站都使用全缓冲流量模型。在所有下行链路传输中都考虑了循环调度算法，还假定接收机可以整合由于无人机的移动性引起的多普勒效应。

用户k在时刻t接收到的来自基站m的功率可表示为：

用户k在时刻t接收到的来自无人机的功率可表示为：

P_bs，P_uav分别表示基站和无人机发射功率，ξ_k,m(t)表示基站m到用户路径损失，ξ_k,u(t)表示无人机到用户k路径损失。

在每个时刻t，用户或无人机连接到提供最佳的信噪比的用户或无人机。

假设采用循环调度，根据香农定理可以获得用户k在时刻t的频谱效率：

γ_k(t)表示用户k在时刻t接收到的信噪比；

N_ue是此发送器(基站或无人机)中的用户数,

S_i,t表示用户k在时刻t来自发射机(基站或无人机)i的接收功率，S_j,t表示其他发射机干扰；

网络在时间t的瞬时总频谱效率可以表示为：

m_k表示用户k的权重，得以在后续仿真方案中区分质心和中心。

优化问题如下：

C1:L_s＝[x_s,y_s,z_s]

C2:L_f＝[x_f,y_f,z_f]

C3:L_s＝L_f

C4:

C1，C2分别描述无人机出发位置和结束位置，由于无人机需要返回起始点充电，C3描述了无人机的初始位置和结束位置相同，即，L_s＝[x_s,y_s,z_s]＝L_f。C4表示无人机有足够的电量返回到初始位置以进行充电，任意时刻无人机剩余电量不小于0。我们的目标是找到最佳轨迹，在保证能飞回原点的前提下最大化提升网络性能。解法如下：

Q-learning(Watkins，1989)是强化学习算法中的一种基于值的算法，该算法的主要思想是建立状态和动作的状态价值表来存储状态动作值，然后选择能够获得最大值的动作，根据Q值获利。这是让智能体学习如何在马尔科夫决策过程中学习最佳行为的一种简单方法，相当于一种动态编程的增量方法，其施加了有限的计算需求，其工作原理是通过不断改进其对特定行为的评估来工作。只要在所有状态下重复采样所有动作并且离散地表示动作值，它就会以1的概率覆盖到最佳动作值。

Q学习的主要优点是它使用时差方法TD(结合了蒙特卡罗和动态规划)来学习离线(离线策略)，并使用伯努利方程解决了马尔可夫过程的最优策略。当我们开始探索环境时，通过不断更新表中的Q值，Q函数为我们提供了越来越好的逼近度。完成训练后，我们将得到一个完美的Q形式，希望只要无人机根据当前状态找到对应的行，并选择具有较大效用值的动作作为当前帧的动作即可。

为解决上述技术问题，本发明结合Q-learning获得无人机中继最佳轨迹：将待仿真区域以100m为步长划分，将目标函数离散化(时间步长δ_t)，将其构造为离散时间决策过程的最优决策问题，并使用强化学习方法来找到此离散时间决策过程的最优决策问题。

在每个间隔内，将无人机的位置视为是恒定的。在时间间隔i，根据此时间间隔无人机的位置获得用户频谱效率R_k(i)，写出离散时间决策过程状态更新如下所示：

r_i+1＝r_i+f(i,r_i,u_i)

r_i＝[x_i,y_i,E(i)]^T表示无人机在时隙i的状态，(x_i,y_i)表示时隙i时结束时无人机的坐标,E(i)表示时隙i结束时无人机剩余电量；

u_i＝[v_i,φ_i]代表控制动作；v_i表示速度大小，φ_i表示水平面方位角，两者结合用来表示无人机运动方向；

即在每一状态，无人机可以选择悬停或水平面45°为间隔的8个方向运动。

通过执行相应动作，无人机将转移到下一状态。从初始状态开始，可以通过将当前状态与当前状态相加来计算后续状态。f(i,r_i,u_i)表示执行动作后无人机位置和剩余电量的变化量。

无人机初始状态可表示为r₀＝[x_s,y_s,B_max]，E_i表示时间间隔i无人机消耗的电量(分为悬停和水平运动)。

当无人机到达最终状态时，任务结束。通过使用Q-learning，我们的目标是找到最佳决策序列，以找寻单个工作周期内能最大化提升用户平均频谱效率的无人机轨迹。

由于无人机电池容量有限，其不可能始终充当中继，本发明考虑如何设计无人机轨迹以在充分考虑天线辐射模型、回路限制、无人机运动模型实现无人机一个工作周期内最大化提升系统用户频谱效率。

输入无人机起始位置(也是结束位置)，无人机电池最大容量，最大回合数(episode_max),折扣因子γ,学习率α,动作利用率ε。

采用Q学习(Q-learning)设计能量受限的最佳无人机轨迹包括以下步骤：

步骤1、将待仿真区域按步长划分为网格；

步骤7、执行动作，获得即时奖励r并进入下一状态s′；

按照下面公式获得即时奖励：

r_i＝eff_change-Ι₁p₁+Ι₂p₂

步骤8、按照下列公式更新状态价值表：

Q(s,a)←Q(s,a)+α[r+γmax_a′Q(s′,a′)-Q(s,a)]；

采用时序差分方式更新状态价值表，直接使用下一状态s′当前对应最大状态动作值max_a′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例。

当E(i)≤0时结束本回合。

为了比较性能，我们将Q-learning学得的无人机中继轨迹与以下几种充分利用无人机电容量并返回起始点的无人机飞行方案比较：

1、随机运动轨迹：每次无人机从9种动作中随机选择一种，并保证有足够电量能够返回起始点；

2、固定轨迹：从起点出发，充分利用无人机电量以固定的圆形轨迹或矩形轨迹飞行并返回起始点；

3、定向悬停：无人机定向飞向所有用户的中心或重心(区别在于用户的不同权重)悬停充当中继，并保证有足够电量能够返回起始点。

如图1所示，相较于同样充分利用无人机电池容量并返回起始点的无人机轨迹，本发明采用Q-learning获得的无人机中继轨迹可以获得更高的用户频谱效率提升。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法，其特征在于，输入无人机起始位置，无人机电池最大容量，最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε；采用Q学习设计能量受限的无人机轨迹，包括以下步骤：

步骤1、将待仿真区域按步长划分为网格；

步骤5、退火系数为decay_rate，最大回合数episode_limit,计算K＝decay_rate/episode_limit，按照ε＝1*exp(-K*ε)更新动作利用率ε,即随着训练回合的增加ε逐渐增加至1，以利用训练记录状态动作值；

步骤7、执行动作，获得即时奖励r并进入下一状态s′；

按照下面公式获得即时奖励：

r_i＝eff_change-Ι₁p₁+Ι₂p₂

上式中eff_change代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励；I是指示函数，即事件成立时返回1，否则为0；即执行动作后无人机违反边界限制和电量限制时I₁为1，p₁是无人机违反约束事件的惩罚参数，即当执行动作后无人机违反边界限制和电量限制时，奖励函数减去惩罚因子p₁；当执行动作后无人机返回起始点且剩余电量为0时I₂为1，p₂为激励无人机返回起始点的奖励因子；

步骤8、按照下列公式更新状态价值表：

Q(s,a)←Q(s,a)+α[r+γmax_a′Q(s′,a′)-Q(s,a)]；

采用时序差分方式更新状态价值表，直接使用下一状态s′当前对应最大状态动作值max_a′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例；

步骤9、无人机更新状态，包括当前位置和剩余电量,每个时隙i消耗能量分为悬停消耗能量E_hover和水平面飞行消耗能量E_move两种；

当无人机剩余能量E(i)≤0时结束本回合。