CN111432433B

CN111432433B - 基于强化学习的无人机中继智能流量卸载方法

Info

Publication number: CN111432433B
Application number: CN202010142914.7A
Authority: CN
Inventors: 李轩衡; 程思科
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-02-10
Anticipated expiration: 2040-03-04
Also published as: CN111432433A

Abstract

本发明属于无线通信技术领域，具体为一种基于强化学习的无人机中继智能流量卸载方法。本发明综合考虑无人机能耗问题和回传链路的频谱供应问题，采用动态频谱接入技术，能够有效扩充移动通信网络的吞吐量以缓解由于用户流量需求骤增导致的网络拥塞；本发明设计了基于强化学习的智能决策算法，使得无人机能够根据动态变化的环境自适应地进行轨迹选择和频带选择，以最小的能耗卸载最多的流量，避免了传统集中式控制带来的额外开销，克服了环境动态性对策略制定带来的难题。

Description

基于强化学习的无人机中继智能流量卸载方法

技术领域

本发明属于无线通信技术领域，涉及到无人机中继技术，特别涉及到基于强化学习算法的无人机轨迹规划以及频谱动态共享接入等问题，具体为一种基于强化学习的无人机中继智能流量卸载方法。

背景技术

近年来，大量新兴物联网应用的蓬勃发展导致了移动网络中数据流量的激增，这使得网络日趋饱和。因此，寻求合理的流量卸载策略以缓解网络饱和危机逐渐受到了各国学者的广泛关注。目前，各大运营商主要利用车载移动基站进行流量卸载，即通过在车辆上安装基站设备，当网络发生拥塞时(由于地面基站发生故障或者大型活动造成网络内部流量持续性过载)，利用车载基站的部署，以短距离的方式承载网络溢出的流量需求。然而，受到人力成本、设备成本、交通限制等因素制约，车载移动基站的部署相对困难，因此，基于车载基站难以根据网络的实时动态拥塞情况实现灵活的流量卸载。相比于车载移动基站，无人机的高机动性使其更加容易部署，同时空对地更加可靠的视距连接使其能够提供更优的传输质量，上述特点使其被视为一种新型且有效的流量卸载手段，当网络发生拥塞时，其可以飞到发生拥塞的区域上方作为中继，收集部分业务的流量(主要面向延迟容忍类业务)，然后通过回程链路传输给基站完成流量卸载。由于在实际网络中流量需求通常具有时空异构性(在网络内部不同区域、不同时间下数据业务数量和特点不同导致流量需求随地理位置、时间变化)，因此，无人机在不同时刻、不同区域内需要卸载的流量是动态变化的，如何制定合理且智能的运行轨迹以实现最佳的流量卸载是一个关键问题。

除了流量需求问题，网络的频谱供应问题也需要考虑其中。网络饱和是流量卸载的动机，但是，目前的研究大多假设有充足的频谱资源供无人机进行数据回传，这显然是不可行的，如何保证无人机到基站的回程链路是一个重要问题。由于目前专享分配方式导致的低频谱效率，近年来，学者们开始重新审视静态频谱管理策略的合理性，并提出将“专享使用”变为“共享使用”的新型频谱管理理念，引起了世界范围内对频谱共享的高度关注。通过允许非授权网络机会式地使用授权网络的空闲频段，频谱共享可以在不改变频谱规划现状的前提下，将电视、铁路、军用等其他各类专网中的空闲频谱用于移动通信网中的数据传输，被视为未来补充频谱资源的有效手段。因此，动态频谱共享接入可以解决无人机在卸载流量时数据回传的频谱供应问题。但是由于在网络中不同区域、不同时间接入频带被占用的情况不同导致其可用性随地理位置和时间变化，因此，如何选择合适的接入频带进行数据传输对于实现流量卸载至关重要，同时也会影响无人机的轨迹规划策略。

此外，无人机通常基于电池供电，即使可以通过太阳能或其他方案进行充电，其能量供应也是有限的，因此，无人机的能耗问题不应被忽视。目前基于无人机的流量卸载策略通常以最大化卸载流量为目标，但是在实际情况下，无论是无人机的飞行还是数据传输都会消耗能量，此外若使用共享频段作为回传链路频段，感知能耗也不可忽视。综上若考虑能耗问题，基于无人机的流量卸载策略将以最大化能量效率(无人机消耗每焦耳的能量卸载流量的比特数)为优化目标，这对于策略的技术实现具有重要意义。

发明内容

本发明的目的是为移动通信网络提供一种基于无人机中继的智能流量卸载方法。在移动通信网络中，当某个区域内用户流量骤增时，由于网络频谱资源有限，大量数据无法顺利完成传输，此时会引发网络拥塞。在本发明中，考虑到无人机相较于传统车载移动基站具有更高的机动性及更低的部署成本，且不受交通等其他因素制约等优点，选择利用无人机作为中继来实时地解决移动通信网络中的拥塞问题。由于网络的流量需求是动态变化的，且难以用集中控制的方式对无人机进行调度，因此，本发明采用面向动态环境的强化学习算法以实现无人机的自主智能决策制定。

在本发明中，无人机的决策是周期制定的，在每个决策周期内，无人机需要确定下一个工作地点(轨迹)及工作频带(用于数据回传)，决策完成后，无人机将飞往选择的工作地点收集流量并动态接入选择的频带将数据回传给基站。本发明以优化无人机的能量效率(每焦耳能量完成的流量卸载比特数)为决策制定目标，在每次决策制定后，无人机的能耗、卸载的用户流量、接入频带的质量将联合影响下一次决策的制定，通过强化学习，无人机将根据动态的环境和自身的状态不断改进决策制定，以实现自身能量效率的最大化，即以最少的能耗为网络卸载最多的流量。综上，该决策是针对不确定的用户流量和频谱供应，结合无人机的能耗问题，借助强化学习的算法实现无人机能量效率最大的流量卸载。

本发明的一种基于强化学习的无人机中继智能流量卸载方法，建立于以下系统环境：

一个单基站覆盖蜂窝网络，基站坐标记为(0,0,0)，无人机充电站坐标记为 (x_b,y_b,z_b)。该蜂窝网络分为N个区域，无人机在每个区域内都有高空操作和低空操作两种工作模式，且两种工作模式下的工作地点固定，用坐标分别表示为 (x_hi,y_hi,z_h)和(x_li,y_li,z_l)，网络存在n个可感知的接入频带。

具体步骤如下：

S1无人机飞行功率模型

无人机的经典动力学研究表明，其飞行动力能耗包括：水平飞行能耗、垂直飞行能耗、水平飞行克服空气阻力的能耗以及悬停能耗，主要与其质量、水平飞行及垂直飞行的速度、空气密度、螺旋翼面积和形状有关。在无人机处于准静态(即无人机的加速度很小)的前提下，若无人机的质量为m(无人机的重量M＝mg，g是重力加速度)、水平飞行速度为v_xy、垂直飞行速度为v_z、空气密度为ρ、螺旋翼叶片面积为A，则无人机的飞行功率可以表达为：

S1.1无人机悬停功率P_hover：

由表达式可知，当无人机质量m、空气密度ρ以及螺旋翼叶片面积A一定时，无人机悬停功率是一个定值。

S1.2水平飞行功率P_level：

由表达式可知，当无人机质量m、空气密度ρ以及无螺旋翼叶片面积A一定时，其水平飞行功率仅与水平速度有关。同时对比P_level和P_hover可以看出，无人机水平飞行功耗小于其悬停时功耗，且水平飞行速度越大其消耗功率越小。

S1.3垂直飞行功率P_vertical：

P_vertical＝M·v_z＝m·g·v_z (1.3)

由表达式可知，当无人机质量m一定时，垂直飞行功率仅与其垂直飞行速度有关，且垂直飞行速度越大其消耗功率越大。

S1.4水平飞行克服空气阻力消耗的功率P_drag：

C_D0是与螺旋翼叶片形状有关的空气阻力系数，由表达式可知当空气密度ρ及螺旋翼叶片面积A一定时，其水平飞行克服空气阻力消耗的功率仅与水平飞行速度有关，且水平飞行速度越大其消耗的功率越大。

S2待卸载的用户流量需求

本发明利用数据流的概念描述用户流量。根据数据流定义，可将用户产生的流量视为大小不同的数据包(单位为比特)，因此，无人机收集用户流量的过程可以看作是无人机收集大小不同的数据包的过程。基于以上描述，可假设系统运行中，无人机在某个决策周期内收集的流量为W_c，单位为比特。

S3流量卸载和传输能耗模型

在技术背景中已提出，针对数据回传链路频谱供应问题，动态频谱共享接入可以提供可靠的技术支持，在基于无人机的智能流量卸载策略中，其可以通过搭载认知无线电设备以实现对频谱的感知和动态接入。由频谱共享的概念可知，为保证主用户的传输性能，作为共享接入的频段并非总是可用的，无人机需要周期地感知频带是否被占用，若其感知到频带没有被占用，则接入该频带进行数据回传(称为“传输”)，反之，则不进行数据传输(称为“等待”)，“传输”或“等待”持续一段时间后，无人机将会进行下一次感知。

将无人机进行感知和“传输”或“等待”的一次过程称为感知周期，在一个感知周期内，其用于频谱感知的时间为τ_s，用于“传输”或“等待”的时间为 T_s，用于频谱感知和数据传输的功率分别用P_s、P_t表示。在一个周期内卸载的流量W_period为：

其中，B表示接入频带的带宽，g_d表示与无人机到基站之间的信道衰落有关的增益系数，与无人机到基站的距离有关，n₀表示加性高斯白噪声的功率谱密度，二元变量p∈{0,1}表示频谱感知的结果(p＝1表示频谱空闲，无人机可以接入该频带进行数据传输；p＝0表示频谱被占用，无人悬停不进行数据传输)；在一个感知周期内，无人机用于频谱感知和数据传输的能耗E_period表示为：

E_period＝P_s·τ_s+p·P_t·T_s (3.2)

S4强化学习获得最优的流量卸载策略

在本发明涉及的无人机中继系统中，用户的流量需求和频谱的可用性均具有动态性，这使得整个问题难以像传统方案一样进行优化建模。此外，对于无人机来说，虽然在基站的集中式控制下可以实现最优决策的制定，但这无疑将带来额外的控制时间和能量消耗，因此，为了在动态环境下实现无人机对最优策略的自主选择，即自主选择工作点坐标和回程链路接入频段，本发明基于强化学习算法设计智能型流量卸载策略。在强化学习中，智能体通过与环境的交互进行学习，在不同的状态下做出不同的决策，以实现累计奖励最大化。智能体进行一次完整的决策过程称为决策周期，在本发明中，无人机完成飞行、流量收集和卸载的一次完整过程即为一个决策周期。

强化学习的主要框架由智能体和环境组成，智能体通过状态S、动作A、奖励值R与环境完成交互。第t个决策周期内，智能体在状态s_t下执行了动作a_t后转移到一个新的状态s_t+1，同时收到环境给出的奖励值r_t，智能体在新的状态s_t+1下会执行新的动作a_t+1得到新的的奖励值r_t+1，如此迭代直到终止状态。

强化学习的基本思路是根据状态选择使奖励值最大的动作，由于每个决策周期内选择的动作会对其后选择的动作产生影响，因此，考虑后续影响引入累积折扣奖励，记为G_t＝r_t+γr_t+1+γ²r_t+2+…(γ为折扣因子，且γ∈[0,1])，智能体在每个状态下基于累积折扣奖励进行动作选择。具体来说，用状态值函数 v(s)＝E[G_t|s_t＝s]或状态动作值q(s,a)＝E[G_t|s_t＝s,a_t＝a]来评估对于任意策略(某状态下选择某动作)的好坏。Q-Learning是强化学习中的一个经典算法，本发明将基于Q-Learning算法进行设计，具体框架和流程如下：

根据前面给出的定义，将无人机完成飞行、流量收集和卸载的完整过程称为一个决策周期，并用T表示。在算法中假设决策周期T＝T₁+T₂+T₃，T₁表示无人机飞行时间，T₂表示其收集流量时间，T₃表示无人机动态接入频谱进行传输的时间。由S3可知，在T₃时间内无人机需要周期地感知频带，并根据感知的结果选择“传输”或“等待”。假设T₃由m个感知周期构成，即T₃＝m(τ_s+T_s)。

S4.1第t个决策周期内的状态集s_t

在强化学习中，所有决策周期的状态集合称为状态空间集S，记为 S＝{s₁,s₂,…,s_t,…}。第t个决策周期的状态s_t影响当前决策周期的动作a_t，因此S必须包括所有能对动作产生影响的元素。在本发明中，S包括：所有决策周期内无人机所处的位置L＝{l₁,l₂…,l_t,…}，无人机剩余的能量

以及T₃时段内无人机选择接入频带的占空比D＝{d₁,d₂,…,d_t,…}。具体来说，对s_t而言，其包括无人机的位置l_t＝(x_t,y_t,z_t)；剩余能量

其中，

为无人机在前一决策周期内未执行决策时的能量，e_t-1为无人机在前一决策周期内执行决策消耗的能耗；当前决策周期内接入频带占空比d_t＝{i,η_i}，i为前一决策周期内接入频带的序号，η_i表示前一决策周期内接入频带的占空比，即前一决策周期内选择接入的频带被主用户占用的时间与T₃之比。

综上，s_t表示为：

由于无人机能量有限，因此，存在终止状态s_T。为避免无人机出现电量耗尽回收困难的问题，任意决策周期内无人机剩余能量应存在阈值b(阈值大小为保证无人机能从工作点飞到充电站消耗的最小能量)，若在此决策周期内无人机消耗的能量使剩余能量低于阈值，则下一个状态为终止状态，即s_t+1＝s_T，无人机需要停止工作飞往充电站进行能量补充。

S4.2第t个决策周期内的动作集a_t

同上，所有决策周期的动作的集合称为动作空间集，记为A＝{a₁,a₂,…,a_t,…}。对于任意一个决策周期的动作集a_t，包括无人机在该周期内飞行轨迹以及接入频带的选择，因此a_t表示为：a_t＝A(s_t)＝{f_t,c_t}。

f_t和c_t的具体意义如下：

S4.2.1轨迹选择f_t

在任意决策周期内，f_t是指无人机由当前工作点飞到下一个工作点的轨迹，若前后工作点的高度不一致，即z_t≠z_t+1时，无人机先飞平飞行再垂直飞行到达下一工作点。

S4.2.2频带选择c_t

前面提到存在n个可感知的频带，在任意一个决策周期内无人机需要从n个频带中选择一个用于数据回传。

S4.3第t个决策周期内的奖励值r_t

第t个决策周期内，智能体在状态s_t下执行动作a_t，转移到下一状态s_t+1并得到奖励r_t。在本发明设计的智能流量卸载方法中，目标是最大化无人机的能量效率(bit/J)，因此，奖励r_t设置为第t个决策周期内卸载的流量W_t与消耗的能量E_t的比值，表示为：

W_t与E_t的具体意义如下：

S4.3.1第t个决策周期内无人机卸载的流量W_t

第t个决策周期内，由S2中假设可知，无人机在该决策周期内收集的流量为 W_c。由S3可知，无人机在一个感知周期内可以卸载的流量为W_period，由于在一个决策周期内存在m个感知周期，即T₃＝m(τ_s+T_s)，所以无人机在第t个决策周期内能够卸载的流量W_o为：

实际卸载的流量W_t应为上述两值的最小值，即W_t＝min{W_c,W_o}。

S4.3.2第t个决策周期内无人机消耗的能量E_t

E_t主要包括：无人机在该决策周期的T₁时间段内飞行能耗E_tf、T₂时间段内收集流量能耗E_tc、T₃时间段内周期频谱感知和数据传输的能耗E_ts。

(a)E_tf：在每个决策周期内无人机的飞行轨迹不同，但由于其用于飞行的时间T₁是固定的，因此，不同决策周期内无人机的飞行速度一般不同。在S4.2.1中指出，当前后两个工作点高度不同时，无人机先水平飞行后垂直飞行，所用总时间为T₁，表示为T₁＝t_level+q·t_vertical，其中t_level表示水平方向飞行所占时间；t_vertical表示垂直方向飞行所占时间(被设置为一定值)；q是一个“0-1”二元变量，表示无人机在当前决策周期内是否存在垂直方向移动。当飞行轨迹确定后，由无人机前后两个工作点坐标以及飞行时间可以得到在此周期内无人机的水平飞行速度以及垂直飞行速度(若存在垂直方向的移动)。

水平飞行速度v_xy表示为：

垂直飞行速度v_z表示为：

当v_xy和v_z确定时，由S1中模型可以得到P_level、P_vertical、P_drag。在已知功率和飞行时间的前提下，可以计算出E_tf，即

E_tf＝P_level·t_level+P_drag·t_level+P_vertical·t_vertical (4.4)

(b)E_tc：当无人机收集流量时，其主要消耗的能量来自于无人机悬停的能耗，因此，由P_hover和T₂可以计算得出：

E_tc＝P_hover·T₂ (4.5)

(c)E_ts：由S4.3.1可知无人机实际卸载的流量为W_t＝min{W_c,W_o}，故无人机周期频谱感知和数据传输的能耗E_ts也需要分两种情况讨论。若无人机实际卸载流量W_t＝W_c，说明无人机收集的流量小于其实际能够卸载的流量，此时无人机可能以小于T₃的时间完成流量卸载，此后将处于悬停状态而不再进行频谱感知。假设需要的感知周期数量为k，k＜m，则剩余m-k个感知周期内无人机将处于悬停状态而不进行感知，此时可以得出：

E_ts＝k·(P_s·τ_s+p·P_t·T_s)+P_hover·T₃ (4.6)

若无人机实际卸载流量W_t＝W_o，说明无人机收集的流量大于其实际能够卸载的流量，此时无人机将利用全部T₃时段尽可能完成流量卸载，此种情况下其周期频谱感知和数据传输的能耗为：

E_ts＝m·(P_s·τ_s+p·P_t·T_s)+P_hover·T₃ (4.7)

综上，可以得出第t个决策周期内无人机消耗的能量：E_t＝E_tf+E_tc+E_ts。

S4.4 Q-Learning算法选择最优的飞行轨迹以及接入频带，确定最优策略

Q-Learning是基于值的强化学习算法，利用“状态-动作”值函数(亦称为Q 函数)迭代更新寻找最优策略π^*。具体来说，在每个决策周期t内，无人机都会处于某个状态s_t。对于每个可选动作a，其都存在一个“状态-动作”值，记为 Q(s_t,a)，即Q值，而当前的决策则是选择对应Q值最大的动作，即

动作确定之后，无人机会执行该动作并进入下一个状态s_t+1并得到奖励值r_t，同时，由此更新对应的Q值：

随着时间推移，各Q值将收敛，而选择最大的Q值对应的动作则相当于使得累计奖励值的期望最大化。为了简化Q-Learning算法的求解过程，建立二维 Q-table，其行和列分别对应着状态和动作，每个单元格记录对应状态和动作的 Q值。在算法初始阶段，为了尽量遍历到更多情况(学习动态环境)，根据ε-greedy 策略选择动作，即以ε概率随机选择动作，以1-ε概率选择Q值最大的动作。在算法开始时，初始化Q-table全部为0，输入为当前时隙状态，同时ε初始化为一个较大值，并依据ε-greedy策略选择动作，得到下一状态和当前决策周期内的奖励值，并利用公式(4.9)更新Q-table，依据上述步骤算法迭代直至终止状态，即剩余能量低于阈值，无人机将飞回充电站。随着算法迭代次数增加ε的值逐渐减小，这样在算法初始阶段，无人机有较大概率探索其他动作和状态用于更新Q值，从而学习更多环境信息，随着Q-table逐渐收敛，ε值逐渐减小，无人机将大概率根据每个状态选择Q值最大的动作，Q-table将逐渐收敛至最优策略，根据 Q-table可以指导无人机在每个状态下选择最优的飞行轨迹以及接入频带，实现能效的最大化。此外，该算法具有环境自适应性，当环境发生变化时，Q-table将重新调整，收敛至新的最优策略。

本发明的效果和益处：

(a)本发明综合考虑无人机能耗问题和回传链路的频谱供应问题，采用动态频谱接入技术，提出了一种基于无人机中继的能效最优的流量卸载策略，能够有效扩充移动通信网络的吞吐量以缓解由于用户流量需求骤增导致的网络拥塞。

(b)本发明设计了基于强化学习的智能决策算法，使得无人机能够根据动态变化的环境自适应地进行轨迹选择和频带选择，以最小的能耗卸载最多的流量，避免了传统集中式控制带来的额外开销，克服了环境动态性对策略制定带来的难题。

具体实施方式

以下结合技术方案，进一步说明本发明的具体实施方式。

考虑某大基站覆盖的一片区域，基站的坐标为(0,0,0)，假设将该区域划分为 5个子区域，每个子区域内，无人机存在高、低两种工作模式，两种模式下对应的工作点坐标的集合分别为：L_h＝{l_1h,l_2h,l_3h,l_4h,l_5h}和L_l＝{l_1l,l_2l,l_3l,l_4l,l_5l}。每个子区域内有4个频带供动态共享接入，例如民航、电视等平均占空比不足20％的频段，4个频带的可用性情况亦不同。

为了更新Q-table，首先要计算每个决策周期内的奖励值，以第t个决策周期内的奖励值r_t计算为例：

由S4.3.2可知在该周期内无人机消耗的能量E_t＝E_tf+E_tc+E_ts，由S4.3.1可知在该周期内无人机卸载的流量W_t＝min{W_c,W_o}，因此，在当前决策周期内无人机得到的奖励值为

在系统运行中，首先建立Q-table，并将其所有值初始化为0，选定某一工作点作为无人机的初始状态，并基于ε-greedy策略选择动作，即无人机到下一工作点的飞行轨迹以及选择接入频带进行数据回传，决策完成后，无人机可以得到在该决策周期内卸载的流量以及消耗的能量，由此可以算得奖励值同时转移到下一状态，并利用公式(4.9)对Q值进行更新，若下一状态并非终止状态则以重复上述步骤进行迭代。在算法初始阶段，将ε设置为一个较大值，例如ε＝0.8，随着算法迭代更新Q-table逐渐收敛，在算法迭代过程中，一般采用

作为ε值的迭代规则，t表示当前决策周期序号，运用此规则可以使ε值随着决策周期数增加逐渐减小最后趋于一个合理值，如10％。当Q-table最终收敛时，可以利用Q-table指导无人机在对应状态下做出决策，选择最优的飞行轨迹以及对应状态下的接入频谱，得到最优的流量卸载策略，即无人机的最优能效。下面给出算法全部流程：

Q-Learning算法：得到最优的流量卸载策略

初始化对于任意s∈S,a∈A(s),

初始化Q表全为0

初始化t＝1,ε＝0.8

重复：

初始化状态s

重复对于每个决策周期：

根据ε-greedy策略，在状态s下选择动作a

执行动作a获得奖励r和下一状态s'

t←t+1

更新ε值

更新Q值

s←s'，更新状态

直到终止状态。

Claims

1.一种基于强化学习的无人机中继智能流量卸载方法，系统环境为：一个单基站覆盖蜂窝网络，基站坐标记为(0,0,0)，无人机充电站坐标记为(x_b,y_b,z_b)，蜂窝网络分为N个区域，无人机在每个区域内都有高空操作和低空操作两种工作模式，且两种工作模式下的工作地点固定，用坐标分别表示为(x_hi,y_hi,z_h)和(x_li,y_li,z_l)，存在n个可感知的接入频带；其特征在于，具体如下：

S1无人机飞行功率模型

在无人机处于准静态的前提下，若无人机的质量为m，无人机的重量M＝mg，g是重力加速度、水平飞行速度为v_xy、垂直飞行速度为v_z、空气密度为ρ、螺旋翼叶片面积为A，则无人机的飞行功率表达为：

S1.1无人机悬停功率P_hover：

S1.2水平飞行功率P_level：

S1.3垂直飞行功率P_vertical：

P_vertical＝M·v_z＝m·g·v_z (1.3)

S1.4水平飞行克服空气阻力消耗的功率P_drag：

C_D0是与螺旋翼叶片形状有关的空气阻力系数；

S2待卸载的用户流量需求

根据数据流的定义来描述待卸载的用户流量的特性，得到在某个决策周期内无人机收集的流量为W_c，单位为比特；

S3流量卸载和传输能耗模型

将无人机进行感知与传输或感知与等待的一次过程称为感知周期，在一个感知周期内，用于频谱感知的时间为τ_s，用于传输或等待的时间为T_s，用于频谱感知和数据传输的功率分别用P_s、P_t表示；在一个周期内卸载的流量W_period为：

其中，B表示接入频带的带宽，g_d表示与无人机到基站之间的信道衰落有关的增益系数，与无人机到基站的距离有关，n₀表示加性高斯白噪声的功率谱密度；二元变量p∈{0,1}表示频谱感知的结果，p＝1表示频谱空闲，无人机可以接入该频带进行数据传输；p＝0表示频谱被占用，无人悬停不进行数据传输；在一个感知周期内，无人机用于频谱感知和数据传输的能耗E_period表示为：

E_period＝P_s·τ_s+p·P_t·T_s (3.2)

S4强化学习获得最优的流量卸载策略

将无人机完成飞行、流量收集和卸载的完整过程称为一个决策周期，并用T表示；在Q-Learning算法中假设决策周期T＝T₁+T₂+T₃，T₁表示无人机飞行时间，T₂表示其收集流量时间，T₃表示无人机动态接入频谱进行传输的时间；在T₃时间内无人机需要周期地感知频带，并根据感知的结果选择传输或等待，假设T₃由m个感知周期构成，即T₃＝m(τ_s+T_s)；

S4.1第t个决策周期内的状态s_t

在强化学习中，所有决策周期的状态集合称为状态空间集S，记为S＝{s₁,s₂,···,s_t,···}；第t个决策周期的状态s_t影响当前决策周期的动作a_t，S包括：所有决策周期内无人机所处的位置L＝{l₁,l₂···,l_t,···}，无人机剩余的能量

以及T₃时段内无人机选择接入频带的占空比D＝{d₁,d₂,···,d_t,···}；具体来说，s_t包括：无人机的位置l_t＝(x_t,y_t,z_t)；剩余能量

其中，

为无人机在前一决策周期内未执行决策时的能量，e_t-1为无人机在前一决策周期内执行决策消耗的能耗；当前决策周期内接入频带占空比d_t＝{i,η_i,t-1}，i为前一决策周期内接入频带的序号，η_i,t-1表示前一决策周期内接入频带的占空比，即前一决策周期内选择接入的频带被主用户占用的时间与T₃之比；

则，s_t表示为：

任意决策周期内无人机剩余能量存在阈值b，若在决策周期内无人机消耗的能量使剩余能量低于阈值，则下一个状态为终止状态，即s_t+1＝s_T，无人机需要停止工作飞往充电站进行能量补充；

S4.2第t个决策周期内的动作a_t

所有决策周期的动作的集合称为动作空间集，记为A＝{a₁,a₂,···,a_t,···}；对于任意一个决策周期的动作集a_t，包括无人机在该周期内飞行轨迹以及接入频带的选择，因此a_t表示为：a_t＝A(s_t)＝{f_t,c_t}；

f_t和c_t的具体意义如下：

S4.2.1轨迹选择f_t

在任意决策周期内，f_t是指无人机由当前工作点飞到下一个工作点的轨迹，若前后工作点的高度不一致，即z_t≠z_t+1时，无人机先飞平飞行再垂直飞行到达下一工作点；

S4.2.2频带选择c_t

在任意一个决策周期内无人机需要从n个频带中选择一个用于数据回传；

S4.3第t个决策周期内的奖励值r_t

第t个决策周期内，智能体在状态s_t下执行动作a_t，转移到下一状态s_t+1并得到奖励r_t；奖励r_t设置为第t个决策周期内卸载的流量W_t与消耗的能量E_t的比值，表示为：

W_t与E_t的具体意义如下：

S4.3.1第t个决策周期内无人机卸载的流量W_t

第t个决策周期内，无人机在该决策周期内收集的流量为W_c，无人机在一个感知周期内可以卸载的流量为W_period，由于在一个决策周期内存在m个感知周期，即T₃＝m(τ_s+T_s)，所以无人机在第t个决策周期内能够卸载的流量W_o为：

实际卸载的流量W_t应为W_c和W_o中的最小值，即W_t＝min{W_c,W_o}；

S4.3.2第t个决策周期内无人机消耗的能量E_t

E_t包括：无人机在该决策周期的T₁时间段内飞行能耗E_tf、T₂时间段内收集流量能耗E_tc、T₃时间段内周期频谱感知和数据传输的能耗E_ts；

(a)E_tf：当前后两个工作点高度不同时，无人机先水平飞行后垂直飞行，所用总时间为T₁，表示为T₁＝t_level+q·t_vertical，其中t_level表示水平方向飞行所占时间；t_vertical表示垂直方向飞行所占时间；q是一个0-1二元变量，表示无人机在当前决策周期内是否存在垂直方向移动；当飞行轨迹确定后，由无人机前后两个工作点坐标以及飞行时间得到在此周期内无人机的水平飞行速度以及垂直飞行速度；

水平飞行速度v_xy表示为：

垂直飞行速度v_z表示为：

当v_xy和v_z确定时，由S1中模型得到P_level、P_vertical、P_drag；在已知功率和飞行时间的前提下，计算出E_tf，即

E_tf＝P_level·t_level+P_drag·t_level+P_vertical·t_vertical (4.4)

(b)E_tc：当无人机收集流量时，无人机主要消耗的能量来自于无人机悬停的能耗，因此，E_tc由P_hover和T₂计算得出：

E_tc＝P_hover·T₂ (4.5)

(c)E_ts：若无人机实际卸载流量W_t＝W_c，说明无人机收集的流量小于其实际能够卸载的流量，此时无人机可能以小于T₃的时间完成流量卸载，此后将处于悬停状态而不再进行频谱感知；假设需要的感知周期数量为k，k＜m，则剩余m-k个感知周期内无人机将处于悬停状态而不进行感知，此时得出：

E_ts＝k·(P_s·τ_s+p·P_t·T_s)+P_hover·T₃ (4.6)

E_ts＝m·(P_s·τ_s+p·P_t·T_s)+P_hover·T₃ (4.7)

综上，得出第t个决策周期内无人机消耗的能量：E_t＝E_tf+E_tc+E_ts；

在每个决策周期t内，无人机都会处于某个状态s_t；对于每个可选动作a，其都存在一个状态-动作值，记为Q(s_t,a)，即Q值，而当前的决策则是基于ε-greedy策略选择第t个决策周期内的动作a_t，动作确定之后，无人机会执行该动作并进入下一个状态s_t+1并得到奖励值r_t，同时，更新对应的Q值：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxQ(s_t+1,a)-Q(s_t,a_t)] (4.8)

随着时间推移，各Q值将收敛，而选择最大的Q值对应的动作则相当于使得累计奖励值的期望最大化的最优动作

即：

为简化Q-Learning算法的求解过程，建立二维Q-table，其行和列分别对应着状态和动作，每个单元格记录对应状态和动作的Q值；在算法初始阶段，为了尽量遍历到更多情况，根据ε-greedy策略选择动作，即以ε概率随机选择动作，以1-ε概率选择Q值最大的动作；在算法开始时，初始化Q-table全部为0，输入为当前时隙状态，同时ε初始化取值为0.8，并依据ε-greedy策略选择动作，得到下一状态和当前决策周期内的奖励值，并利用公式(4.9)更新Q-table，依据上述步骤算法迭代直至终止状态，即剩余能量低于阈值，无人机将飞回充电站；随着算法迭代次数增加ε的值逐渐减小，在算法初始阶段，无人机将探索其他动作和状态用于更新Q值，从而学习更多环境信息，随着Q-table逐渐收敛，ε值逐渐减小，无人机将根据每个状态选择Q值最大的动作，Q-table将逐渐收敛至最优策略，根据Q-table指导无人机在每个状态下选择最优的飞行轨迹以及接入频带，实现能效的最大化；当环境发生变化时，Q-table将重新调整，收敛至新的最优策略。