CN114189891B

CN114189891B - 一种基于深度强化学习的无人机异构网络能效优化方法

Info

Publication number: CN114189891B
Application number: CN202111524001.2A
Authority: CN
Inventors: 陈佳美; 吕时安; 王垚; 李玉峰; 王宇鹏
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2023-10-27
Anticipated expiration: 2041-12-14
Also published as: CN114189891A

Abstract

本发明提出一种基于深度强化学习的无人机异构网络能效优化方法，涉及空天一体化的网络优化技术领域。该方法在宏基站、微基站和无人机基站的框架下，采用特高频无线电波和毫米波频段。首先对多小区基站网络信道建模，并将问题归结成一个含有约束条件的优化问题。其次引入深度强化学习算法，将上述模型转化为马尔可夫决策过程。最后通过构建神经网络对参数拟合，输出合适的功率调整值，使累计奖励最大化，从而优化系统的能量效率。解决了在宏基站和微基站环境下覆盖率不足和传统算法收敛慢、能耗高的问题。

Description

一种基于深度强化学习的无人机异构网络能效优化方法

技术领域

本发明涉及空天一体化的网络优化技术领域，尤其涉及一种基于深度强化学习的无人机异构网络能效优化方法。

背景技术

为了满足日益增长的移动终端数量和网络流量需求，第五代移动通信技术应运而生。5G网络能拥有数十倍于4G LTE的网络速度，背后离不开所使用的各种技术，毫米波(millimeter wave，以下简称mmWave)技术就是其中之一。通常将30～300GHz的频域(波长为1～10毫米)的电磁波称为毫米波，在相同天线尺寸下毫米波的波束要比微波的波束窄得多，可以更为清晰地观察到目标的细节。与激光相比，毫米波受气候因素影响较小，而且毫米波元器件的尺寸小，因而更容易小型化，综合了上述优点的毫米波是5G通讯中所使用的主要频段之一。

另外，IMT-2020推进组总结了5G移动通信系统的4个主要应用场景：连续广覆盖、热点高容量、低功耗大连接、低时延高可靠。这意味着下一代网络里不仅涵盖传统的连续广覆盖和为热点区域用户提供超高速率以及网络极高流量密度，并且还要涵盖物联网相关业务，例如环境监测和车联网等。而这些需求也一定会在B5G和6G中继续得到推广。复杂场景的性能需求带来了众多挑战，为此需提出更多新型有效的解决方案。其中，超密集组网成为提升系统性能的重要研究方向之一。然而，在一些特殊场景中，如：自然灾害发生的地区、人员密集网络需求量高的地区，地面基站由于不可抗力因素损毁或者网络需求量大，仅仅依靠地面网络并不能完全应对，如何使用更加灵活、可靠、稳定的方式确保用户得到更好的服务质量(Quality of Service，以下简称QoS)是当今运营商需要考虑的一个问题之一。近年来，无人机(Unmanned Aerial Vehicle，以下简称UAV)作为空中基站的方案得到了广泛的关注，在低空域部署无人机可能是一种为蜂窝基础设施有限地理区域提供无线连通有效方法。移动无人机在临时事件期间，可按需提供连接、高数据率无线服务和流量卸载机会。利用无人机作为空中基站进行部署，提供可靠且有着高能量效率的通信服务，这种方法非常适用于基站密集异构且频段资源复杂需要妥善处理的场景。

发明内容

针对现有技术的不足，本发明提供了一种基于深度强化学习的无人机异构网络能效优化方法。

一种基于深度强化学习的无人机异构网络能效优化方法，具体步骤如下：

步骤1：采集小区基站种类I、基站数量N、用户数量M和基站频段数据，根据小区基站种类I、基站数量N、用户数量M和基站频段建立小区异构网络模型；

所述小区基站种类I包含一个宏基站MBS、D个无人机基站UBS和A个微基站SBS；则基站数量N＝1+A+D；宏基站用n_M表示，第i个微基站用表示，第i个无人机基站用/>表示；

所有基站都采用特高频无线电波Ultra High Frequency即UHF和毫米波频段，宏基站和部分微基站共享B^UHF个UHF子载波，其中B^UHF代表使用频段为UHF的子载波的数量；所有的无人机即UAV和其它微基站共享B^mmWave个mmWave频段资源，其中B^mmWave代表使用频段为mmWave的子载波的数量；将上述所有基站分为四层的异构网络，建立基站集k∈{MBS，UBS，SBS_UHF，SBS_mmWave}，其中，SBS_UHF为子载波频段为UHF的微基站，SBS_mmWave为子载波频段为mmWave的微基站；根据所属的子载波频段将基站集中的数据分为两类基站集以UHF为子载波频段构成的基站集为Θ_UHF；以mmWave为子载波频段构成的基站集为Θ_mmWave；

所述用户数量M中，每个用户获得最小速率R_min，每个用户只由一个基站提供服务，并将其它基站看作干扰；

步骤2：根据自由空间路径损耗，建立UHF信道模型；

与基站集合Θ_UHF连接的用户的路径损耗为：

其中，λ_c是载波波长，α是UHF链接的路径衰减指数，χ_UHF是UHF链接路径阴影衰落；r是用户m和无人机基站n之间的欧氏距离，表示为：

(x_m,y_m,0)和(x_n,y_n,z_n)分别是用户m和UBSn的坐标，UBSn表示无人机基站n；

其中，x_m和x_n分别表示用户m和无人机基站在坐标系中的横坐标，y_m和y_n分别表示用户m和无人机基站在坐标系中的纵坐标，z_n代表无人机的飞行高度；

距离MBS或者SBS_UHF基站距离为r的用户得到的信号与干扰加噪声比即SINR为：

其中，k代表基站所属的层数，k∈{MBS,SBS_UHF}代表这里的基站属于四层异构网络结构中的宏基站MBS和使用子载波为UHF的微基站SBS_UHF；当k为MBS层时，为宏基站n_M和用户m之间的发射功率，/>为宏基站n_M和用户m之间的信道增益，μ为宏基站n_M到用户m的多径衰落的包络；当k为SBS_UHF层时，/>为微基站/>和用户m之间的发射功率，/>为微基站/>和用户m之间的信道增益，μ为微基站/>到用户m的多径衰落的包络；信道中噪声是均值为0，方差为σ²的高斯白噪声，l表示除n以外的属于Θ_UHF的基站，所以当k为MBS层时，/>表示除宏基站n_M以外的属于Θ_UHF基站与用户m之间的发射功率，当k为SBS_UHF层时，/>表示除微基站/>以外的属于Θ_UHF基站与用户m之间的发射功率；

步骤3：根据自由空间路径损耗，建立mmWave信道模型；

将无线通信系统的传播条件分成视距条件LoS和非视距条件NLoS两种情况；在视距和非视距条件下与基站集合Θ_mmWave连接的用户的路径损耗如下所示：

α_L和χ_L分别代表SBS mmWave的视距路径损耗指数和阴影衰落；α_N和χ_N分别代表SBSmmWave的非视距路径损耗指数和阴影衰落；f_c代表子载波的频率，r是用户m和微基站n之间的欧氏距离；

与微基站连接的用户的路径损耗为：

用户和无人机基站UBS之间的路径损耗也分为视距和非视距两种情况，无人机和用户间的路径损耗表示为：

其中，p_LoS是视距条件的概率，p_NLoS是非视距条件的概率，L_mmWave，LoS(r)是无人机和用户间视距条件的路径损耗；L_{mmWave，NLoS}(r)无人机和用户间非视距条件的路径损耗；

其中，p_LOS是视距条件的概率表示为：

其中，θ代表用户m和无人机n之间的倾向角，exp代表以自然常数e为底的指数函数，a和b是受环境影响的固定参数；

则非视距条件的概率为p_NLos＝1-p_LoS；

UBS或SBSmmWave到用户m的SINR即SINR_m,n示为：

其中k代表基站所属的层数，k∈{UBS,SBS_mmWave}代表这里的基站属于四层异构网络结构中的宏基站UBS和使用子载波为mmWave的微基站SBS_mmWave；当k为UBS层时，为无人机基站n_Ui和用户m之间的发射功率，/>为无人机基站/>和用户m之间的信道增益，θ_e为无人机基站/>波束对准的方位角，G(θ_e)为方位角相关天线增益，具体函数形式与使用的天线有关；σ²为高斯白噪声的方差，μ是无人机基站/>和用户m的多径衰落的包络，l表示除n以外的属于Θ_mmWave的基站，所以/>表示除无人机基站n_Ui以外的属于Θ_mmWave基站与用户m之间的发射功率；当k为SBS_mmWave层时，/>为微基站/>和用户m之间的发射功率，/>为微基站/>和用户m之间的信道增益，θ_e为微基站/>波束对准的方位角，G(θ_e)为方位角相关天线增益，具体函数形式与使用的天线有关；σ²为高斯白噪声的方差，μ是微基站/>和用户m的多径衰落的包络，l表示除n以外的属于Θ_mmWave的基站，所以/>表示除微基站/>以外的属于Θ_mmWave基站与用户m之间的发射功率；

步骤4：结合步骤2和步骤3中的UHF信道模型以及mmWave信道模型，对通信系统能量效率进行优化；

综合步骤2和步骤3中的信道模型，与上述计算的第k层基站n相连接的用户m的速率为：其中，n为n_M或/>或/>

其中，Ω_k是分配给当前计算的基站n的带宽比例，B_k代表第k层的总带宽，为用户m和当前计算的基站n基于第k层信号与干扰加噪声比；

功率分配要求所有用户的速率不低于最低要求速率

对于通信系统，总吞吐量为：

将通信系统的能量效率用通信系统发送的产出与投入的比值来表示：

其中，上式分子是所有可用的子载波的传输速率，为系统的功率产出；分母是子载波上基站的发射功率，为系统的功率投入；

通过调整子载波上基站的发射功率使得EE最大化，最大化能效的效益函数的优化问题表示为：

s.t

为用户的传输速率，P^max和P^min分别是用户m和当前计算的基站n基于第k层异构网络功率；

步骤5：将异构网络能效优化问题映射到深度强化学习算法中，对异构网络能效进行优化；

通过优化深度强化学习中神经网络中的权重参数ω，在第t时刻中，所述神经网络以基站在t时的通信状态信息作为输入，输出一个基站发射功率的调整值，通过对功率的调整实现异构网络能效的优化；设置两个结构相同，更新频率不同的神经网络；固定一个神经网络的参数，使另一个神经网络的输出结果不断向固定参数的神经网络的输出结果逼近，来达到收敛的状态；

将与当前计算的基站n相连的用户数、当前计算的基站n的发射功率作为当前时刻的系统状态信息，将基站n的发送功率适配值作为动作信息，能量效率函数作为奖励，奖励函数设为：

把状态信息、动作信息、奖励连同下一状态信息作为样本储存到经验回放单元中，经验回放单元是用来储存产生的样本信息，并从中随机抽取一部分样本作为状态的输入值，训练神经网络，经验回放单元中的样本数达到设定的数值时，随机从经验回放单元中取出一批样本作为神经网络的输入，相应地更新神经网络中的参数，生成新的优化策略，通过重复这一过程实现能效的优化。

采用上述技术方案所产生的有益效果在于：

1、本发明提供一种基于深度强化学习的无人机辅助异构网络能效优化方法，在宏基站、微基站和无人机基站组成的异构网络环境下，对下行链路进行功率分配，最大化系统的能量效率。

2、考虑到无线网络巨大的状态空间，将发射功率离散化。针对无线网络的特点，将提出的网络模型映射到强化学习中。使用了强化学习中的Q-learning算法，学习者试图通过与控制环境交互达到其最优状态来获得最大回报，将每个状态的动作价值通过状态-动作对的形式存储在一个Q表中，通过维护一个适用于小状态动作空间的查找表来更新状态动作空间中每个项目的Q值，然而考虑到实际中系统模型的复杂性，动作和状态空间往往非常大，Q表需要大量内存，这可能会造成收敛时间更长甚至造成维度灾难，本发明通过将深度神经网络这一函数近似方法来代替传统表格方法，拥有更好的准确性和通用性。

附图说明

图1为本发明实施例中基于深度强化学习的无人机辅助异构网络示意图。

图2为本发明实施例中基于深度强化学习的无人机辅助异构网络能量效率优化的方法流程图。

图3为本发明实施例中深度强化学习算法框架图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。本实施例通过提出基于深度强化学习的无人机辅助异构网络能量效率优化方法，调整基站发射功率进而优化了能量效率。具体实施方法的流程如图2所示，过程如下：

本实施例中，将小区异构网络的示意图如图1所示，所述小区基站种类I包含一个宏基站MBS、D个无人机基站UBS和A个微基站SBS；则基站数量N＝1+A+D；宏基站用n_M表示，第i个微基站用表示，第i个无人机基站用/>表示；

步骤2：根据自由空间路径损耗，建立UHF信道模型；

与基站集合Θ_UHF连接的用户的路径损耗为：

其中，x_m和x_n分别表示用户m和无人机基站在坐标系中的横坐标，y_m和y_n分别表示用户m和无人机基站在坐标系中的纵坐标，代表无人机的飞行高度；

步骤3：根据自由空间路径损耗，建立mmWave信道模型；

与微基站连接的用户的路径损耗为：

其中，p_LOS是视距条件的概率表示为：

则非视距条件的概率为p_NLos＝1-p_LoS；

UBS或SBSmmWave到用户m的SINR即SINR_m,n示为：

其中k代表基站所属的层数，k∈{UBS,SBS_mmWave}代表这里的基站属于四层异构网络结构中的宏基站UBS和使用子载波为mmWave的微基站SBS_mmWave；当k为UBS层时，为无人机基站/>和用户m之间的发射功率，/>为无人机基站/>和用户m之间的信道增益，θ_e为无人机基站/>波束对准的方位角，G(θ_e)为方位角相关天线增益，具体函数形式与使用的天线有关；σ²为高斯白噪声的方差，μ是无人机基站/>和用户m的多径衰落的包络，l表示除n以外的属于Θ_mmWave的基站，所以/>表示除无人机基站/>以外的属于Θ_mmWave基站与用户m之间的发射功率；当k为SBS_mmWave层时，/>为微基站/>和用户m之间的发射功率，/>为微基站/>和用户m之间的信道增益，θ_e为微基站/>波束对准的方位角，G(θ_e)为方位角相关天线增益，具体函数形式与使用的天线有关；σ²为高斯白噪声的方差，μ是微基站/>和用户m的多径衰落的包络，l表示除n以外的属于Θ_mmWave的基站，所以/>表示除微基站/>以外的属于Θ_mmWave基站与用户m之间的发射功率；

功率分配要求所有用户的速率不会低于最低要求速率

对于通信系统，总吞吐量为：

s.t

步骤5：将异构网络能效优化问题映射到深度强化学习算法中，对异构网络能效进行优化；深度强化学习算法框架如附图3所示；

通过优化神经网络中的权重参数ω，在第t时刻中，神经网络以基站在t时的通信状态信息作为输入，输出一个基站发射功率的调整值，通过对功率的调整实现异构网络能效的优化；设置两个结构相同，更新频率不同的神经网络；固定一个神经网络的参数，使另一个神经网络的输出结果不断向固定参数的神经网络的输出结果逼近，来达到收敛的状态；

将与当前计算的基站n相连的用户数、当前计算的基站n的发射功率作为当前时刻(指计算这个值的时刻)的系统状态信息，将基站n的发送功率适配值作为动作信息，能量效率函数作为奖励，奖励函数设为：

强化学习通过迭代贝尔曼公式：

y_i＝r+γmax_a'Q(s',a')

获得最大奖赏值，即：s状态下采取a的Q值＝采取a得到的奖励+γ×s'状态下使Q最大的动作即a′的Q值。Q学习是采用Q表格的方式存储Q值，在大规模的强化学习任务求解中，精确获得状态值或动作值Q较为困难，而值函数近似法通过寻找状态值或动作值Q的近似替代函数的方式来求解大规模强化学习任务，既避免了表格求解法所需大规模存储空间的问题，又提升了求解效率，通过将强化学习中的Q学习和神经网络结合得到的深度Q网络Deep Q Network即DQN，是实际求解任务中被广泛采纳的一种算法。

在DQN中通过设计两个结构相同但参数不同的神经网络以及经验回放单元，提高了算法的稳定性并解决了经验样本的相关性及非静态分布问题。DQN算法更新公式为：

其中即目标Q值是目标Q网络生成的值，代表真实的Q值；Q(s,a；θ_i)即预测Q值是当前Q网络生成的值，代表神经网络预测得出的结果；我们需要让预测Q值和目标Q值无限逼近，来达到拟合的目的。故在DQN中使用损失函数Lossfunction让预测Q值和目标Q值无限逼近。

Loss function＝E[r+γmax_a'Q(s',a'；θ_i)-Q(s,a；θ_i)]² (2)

可见，损失函数是基于Q-Learning的更新公式确定，在式(1)中，预测Q值和目标Q值使用了同一个参数模型，所以当预测Q值增大时，目标Q值也随之增大。我们需要预测Q值向目标Q值逼近来训练神经网络，但是如果预测Q值向目标逼近的时候，目标Q值也在不停改变的话，就相当于两个都在动，所以不利于算法的收敛。目标Q值类似于监督学习中的标签，标签是固定的，不会随着参数改变。

所以通过固定目标Q网络的参数，根据损失函数更新当前Q网络中的参数，每经过N轮迭代后，将当前Q网络中的参数复制给目标Q网络。

在本发明的神经网络模型中，输入层的数据为连接到基站的移动用户的数量以及基站发射功率的集合[N₁,N₂...N_n,P₁,P₂...P_n]，隐藏层的设计提高的网络的拟合能力，采取随机丢弃节点是为了防止出现过度拟合。输出层的数据为基站发射功率的调整值。

Claims

1.一种基于深度强化学习的无人机异构网络能效优化方法，其特征在于，具体步骤如下：

步骤2：根据自由空间路径损耗，建立UHF信道模型；

步骤3：根据自由空间路径损耗，建立mmWave信道模型；

步骤1中所述建立小区异构网络模型为：

所有基站都采用特高频无线电波Ultra High Frequency即UHF和毫米波频段，宏基站和部分微基站共享B^UHF个UHF子载波，其中B^UHF代表使用频段为UHF的子载波的数量；所有的无人机即UAV和其它微基站共享B^mmWave个mmWave频段资源，其中B^mmWave代表使用频段为mmWave的子载波的数量；将上述所有基站分为四层的异构网络，建立基站集k∈{MBS,UBS,SBS_UHF,SBS_mmWave其中，SBS_UHF为子载波频段为UHF的微基站，SBS_mmWave为子载波频段为mmWave的微基站；根据所属的子载波频段将基站集中的数据分为两类基站集以UHF为子载波频段构成的基站集为Θ_UHF；以mmWave为子载波频段构成的基站集为Θ_mmWave；

步骤2中所述建立UHF信道模型为：

与基站集合Θ_UHF连接的用户的路径损耗为：

所述步骤5具体为：

2.根据权利要求1所述的一种基于深度强化学习的无人机异构网络能效优化方法，其特征在于，步骤3中所述建立mmWave信道模型为：

与微基站连接的用户的路径损耗为：

其中，p_LOS是视距条件的概率表示为：

则非视距条件的概率为p_NLos＝1-p_LoS；

UBS或SBSmmWave到用户m的SINR即SINR_m,n示为：

其中k代表基站所属的层数，k∈{UBS,SBS_mmWave}代表这里的基站属于四层异构网络结构中的宏基站UBS和使用子载波为mmWave的微基站SBS_mmWave；当k为UBS层时，为无人机基站/>和用户m之间的发射功率，/>为无人机基站/>和用户m之间的信道增益，θ_e为无人机基站/>波束对准的方位角，G(θ_e)为方位角相关天线增益，具体函数形式与使用的天线有关；σ²为高斯白噪声的方差，μ是无人机基站/>和用户m的多径衰落的包络，l表示除n以外的属于Θ_mmWave的基站，所以/>表示除无人机基站/>以外的属于Θ_mmWave基站与用户m之间的发射功率；当k为SBS_mmWave层时，/>为微基站/>和用户m之间的发射功率，/>为微基站/>和用户m之间的信道增益，θ_e为微基站/>波束对准的方位角，G(θ_e)为方位角相关天线增益，具体函数形式与使用的天线有关；σ²为高斯白噪声的方差，μ是微基站/>和用户m的多径衰落的包络，l表示除n以外的属于Θ_mmWave的基站，所以/>表示除微基站/>以外的属于Θ_mmWave基站与用户m之间的发射功率。

3.根据权利要求1所述的一种基于深度强化学习的无人机异构网络能效优化方法，其特征在于，步骤4中所述对通信系统能量效率进行优化为：

综合步骤2和步骤3中的信道模型，计算第k层基站n相连接的用户m的速率为：其中，n为n_M或/>或/>

功率分配要求所有用户的速率不低于最低要求速率

对于通信系统，总吞吐量为：

为用户的传输速率，P^max和P^min分别是用户m和当前计算的基站n基于第k层异构网络功率。