CN113115344A

CN113115344A - 基于噪声优化的无人机基站通信资源分配策略预测方法

Info

Publication number: CN113115344A
Application number: CN202110420398.4A
Authority: CN
Inventors: 赵建伟; 贾维敏; 吴官翰; 金伟; 张聪; 崔亚龙; 何芳; 王连锋
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-13
Anticipated expiration: 2041-04-19
Also published as: CN113115344B

Abstract

本发明公开了一种基于噪声优化的无人机基站通信资源分配策略预测方法，该方法包括以下步骤：一、网络模型的建立；二、训练数据的获取；三、训练迭代以获取网络优化参数和噪声优化参数；四、获取优化后的网络模型；五、无人机基站通信资源动态分配策略预测。本发明方法步骤简单，设计合理，能增大通信资源分配策略的探索空间，提高了优化后的网络模型的准确性，有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。

Description

基于噪声优化的无人机基站通信资源分配策略预测方法

技术领域

本发明属于无人机基站通信资源动态分配技术领域，尤其是涉及基于噪声优化的无人机基站通信资源分配策略预测方法。

背景技术

在未来5G/B5G移动通信中，蜂窝连接无人机将会是至关重要的一环。无人机搭载大规模MIMO天线阵列配合高精度的波束赋形方式，可以形成指向性强、增益高的窄波束，在减少邻居干扰的同时有效克服毫米波及其以上频段衰减巨大的现实问题。同时，搭配有效的功率控制和带宽资源分配策略，能在有限的通信资源条件下提升通信系统性能。因此，需要对无人机基站通信资源动态分配策略进行预测，确保提升通信系统性能。

目前，对无人机基站通信资源动态分配一般是通过无人机航迹优化、DDPG算法、DQN算法，无人机航迹优化不能有效地结合各个用户的动态，不能实现预测；DDPG算法仅对无人机的运动和带宽分配进行控制；DQN算法实现了无人机适应地面用户移动的同时最大化信道容量，然而由于每架无人机给每个用户只能分配额定的子信道，带宽分配的灵活性有待优化。

因此，现如今缺少基于噪声优化的无人机基站通信资源分配策略预测方法，能增大通信资源分配策略的探索空间，提高了优化后的网络模型的准确性，有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于噪声优化的无人机基站通信资源分配策略预测方法，其方法步骤简单，设计合理，能增大通信资源分配策略的探索空间，提高了优化后的网络模型的准确性，有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。

为解决上述技术问题，本发明采用的技术方案是：基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于，该方法包括以下步骤：

步骤一、网络模型的建立：

步骤101、设定Actor现实网络的参数为θ^μ，Critic现实网络的参数为θ^Q，Actor目标网络的参数为θ^μ'，Critic目标网络的参数为θ^Q'；

步骤102、设定噪声模型为s′＝(μ_ω+σ_ω×ε_ω)s+μ_b+σ_b×ε_b；其中，s′表示施加噪声后的用户相对无人机的状态，s表示用户相对无人机的状态，μ_ω表示第一高斯噪声均值，σ_ω表示第一高斯噪声方差值，μ_b表示第二高斯噪声均值，σ_b表示第二高斯噪声方差值，σ_ω的初始值记作σ_ω(0)，且σ_ω(0)＝0，σ_b的初始值记作σ_b(0)，且σ_b(0)＝0，μ_ω的初始值记作μ_ω(0)，且μ_ω(0)＝0，μ_b的初始值记作μ_b(0)，且μ_b(0)＝0，ε_ω表示第一高斯噪声的随机信号值，ε_b表示第二高斯噪声的随机信号值；

步骤103、设定噪声模型添加至Actor现实网络中，且设定Actor现实网络的参数θ^μ的初始值为θ^μ(0)，Critic现实网络的参数θ^Q的初始值为θ^Q(0)，θ^μ(0)＝θ^μ'(0)，θ^Q(0)＝θ^Q'(0)，θ^μ'(0)表示Actor目标网络的参数θ^μ'的初始值，θ^Q'(0)表示Critic目标网络的参数θ^Q'的初始值，得到初始DDPG网络模型；其中，θ^μ(0)和θ^Q(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数；

步骤104、设定Actor网络学习率为Lr_a，Critic网络学习率为Lr_c；

步骤二、训练数据的获取：

步骤201、设定无人机基站对N个用户进行通信资源分配；

步骤202、无人机获取各个时刻N个用户相对无人机的状态，并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中，获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分；其中，各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配；

步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分，得到T个回放缓存集合，并从T个回放缓存集合中随机采样，得到T个训练数据集；其中，T训练数据集分别为第1个训练数据集，...，第T′个训练数据集，...，第T训练数据集，T′和T均为正整数，且1≤T′≤T，且任一个训练数据集均包括N_s个待训练数据，T个回放缓存集合的大小均为D，且D为正整数；

步骤三、训练迭代以获取网络优化参数和噪声优化参数：

步骤301、采用DDPG算法对第1个训练数据集中N_s个待训练数据进行训练，得到Critic现实网络第1次梯度下降训练优化的参数θ^Q(1)、Actor现实网络第1次梯度上升训练优化的参数θ^μ(1)、Actor目标网络的参数的第1次更新值θ^μ'(1)和Critic目标网络的参数的第1次更新值θ^Q'(1)；

同时，采用梯度上升方法分别对μ_ω、σ_ω、ε_ω、μ_b、σ_b和ε_b进行优化，得到第1次优化后的第一高斯噪声均值μ_ω(1)、第1次优化后的第一高斯噪声方差值σ_ω(1)、第1次优化后的第一高斯噪声信号值ε_ω(1)、第1次优化后的第二高斯噪声均值μ_b(1)、第1次优化后的第二高斯噪声方差值σ_b(1)和第1次优化后的第二高斯噪声信号值ε_b(1)；

步骤302、多次重复步骤301所述的方法，对第T′个训练数据集中N_s个待训练数据进行训练，得到Critic现实网络第T′次梯度下降训练优化的参数θ^Q(T′)、Actor现实网络第T′次梯度上升训练优化的参数θ^μ(T′)、Actor目标网络的参数的第T′次更新值θ^μ'(T′)和Critic目标网络参数的第T′次更新值θ^Q'(T′)；

同时，采用梯度上升方法分别对第T′-1次优化后的μ_ω(T′-1)、σ_ω(T′-1)、ε_ω(T′-1)、μ_b(T′-1)、σ_b(T′-1)和ε_b(T′-1)进行优化，得到第T′次优化后的第一高斯噪声均值μ_ω(T′)、第T′次优化后的第一高斯噪声方差值σ_ω(T′)、第T′次优化后的第一高斯噪声信号值ε_ω(T′)、第T′次优化后的第二高斯噪声均值μ_b(T′)、第T′次优化后的第二高斯噪声方差值σ_b(T′)和第T′次优化后的第二高斯噪声信号值ε_b(T′)；

步骤303、多次重复步骤302所述的方法，对第T个训练数据集中N_s个待训练数据进行训练，得到Critic现实网络第T次梯度下降训练优化的参数θ^Q(T)、Actor现实网络第T次梯度上升训练优化的参数θ^μ(T)、Actor目标网络的参数的第T次更新值θ^μ'(T)和Critic目标网络参数的第T次更新值θ^Q'(T)；

同时，采用梯度上升方法分别对第T-1次优化后的μ_ω(T-1)、σ_ω(T-1)、ε_ω(T-1)、μ_b(T-1)、σ_b(T-1)和ε_b(T-1)进行优化，得到第T次优化后的第一高斯噪声均值μ_ω(T)、第T次优化后的第一高斯噪声方差值σ_ω(T)、第T次优化后的第一高斯噪声信号值ε_ω(T)、第T次优化后的第二高斯噪声均值μ_b(T)、第T次优化后的第二高斯噪声方差值σ_b(T)和第T次优化后的第二高斯噪声信号值ε_b(T)；

步骤四、获取优化后的网络模型：

步骤401、将Critic现实网络第T次梯度下降训练优化的参数θ^Q(T)、Actor现实网络第T次梯度上升训练优化的参数θ^μ(T)、Actor目标网络的参数的第T次更新值θ^μ'(T)和Critic目标网络参数的第T次更新值θ^Q'(T)分别记作Critic现实网络的优化后的参数

Actor现实网络的优化后的参数

、Actor目标网络的优化后的参数

和Critic目标网络的优化后的参数

；

步骤402、将第T次优化后的第一高斯噪声均值μ_ω(T)、第T次优化后的第一高斯噪声方差值σ_ω(T)、第T次优化后的第一高斯噪声信号值ε_ω(T)、第T次优化后的第二高斯噪声均值μ_b(T)、第T次优化后的第二高斯噪声方差值σ_b(T)和第T次优化后的第二高斯噪声信号值ε_b(T)带入步骤102中，得到优化后的噪声模型；

步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中，得到优化后的网络模型；

步骤五、无人机基站通信资源动态分配策略预测：

步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态s_t+T·D+g进行获取；其中，g为正整数，且g取1,2，...；

步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态s_t+T·D+g输入步骤403中优化后的网络模型，得到第t+T·D+g个时刻N个用户相对无人机的状态s_t+T·D+g所对应的通信资源分配策略a_t+T·D+g。

上述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤104中Actor网络学习率Lr_a为(0，1)；Critic网络学习率Lr_c为(0，1)；

步骤203中T的取值范围为[1000,10000]，

N_s的取值范围为[300,5000)。

上述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤203中得到T个训练数据集的方法均相同，则对第T′个训练数据集进行获取的方法如下：

步骤2031、设定t时刻N个用户相对无人机的状态记作s_t，且s_t＝(d₁(t),…d_n(t),…,d_N(t))；其中，d_n(t)表示t时刻无人机到用户n的直线距离，n为正整数，且1≤n≤N，N即用户的总数；

步骤2032、将t时刻N个用户相对无人机的状态s_t输入初始DDPG网络模型的Actor现实网络中，输出s_t状态下的通信资源分配策略a_t且

其中，P_n(t)表示t时刻无人机对用户n的发射功率，B_n(t)表示t时刻无人机对用户n的带宽分配，且P₁(t)+..+P_n(t)+..+P_N(t)＝P_total，B₁(t)+..+B_n(t)+..+B_N(t)＝B_total，P_total表示总功率，B_total表示总带宽分配；

步骤2033、采用计算机将s_t状态下的通信资源分配策略和N个用户所处环境交互，得到s_t状态下资源分配策略a_t所对应的奖励得分r_t；

步骤2034、采用计算机将(s_t,a_t,r_t,s_t+1)作为第t组训练数据，并将第t组训练数据存入回放缓存集中；其中，t为正整数，且1≤t；

步骤2035、对下一个t+1时刻，按照步骤2031至步骤2034所述的方法，得到第t+1组训练数据，并将第t+1组训练数据存入回放缓存集中，直至回放缓存集中训练数据的组数满足D，得到第T′个回放缓存集合；其中，第一个回放缓存集合包括第t组训练数据～第t+D-1组训练数据，第2个回放缓存集合包括第t+1组训练数据～第t+D组训练数据，第T′个回放缓存集合包括第t+T′-1组训练数据～第t+T′+D-2组训练数据；

步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样N_s个训练数据作为第T′个训练数据集，且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(s_j,a_j,r_j,s_j+1)；其中，j为正整数，且1≤j≤N_s，s_j表示第j组待训练数据中的用户相对无人机的状态，s_j+1表示第j个组待训练数据中的用户相对无人机的下一个状态，a_j表示第j组待训练数据中的通信资源分配策略，r_j表示第j组待训练数据中的奖励得分。

上述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤301中采用DDPG算法对第1个训练数据集中N_s个训练数据进行训练，具体过程如下：

步骤3011、当对第1个训练数据集中第j组待训练数据(s_j,a_j,r_j,s_j+1)训时，计算机根据公式y_j＝r_j+γ×Q′(s_j+1,μ′(s_j+1|θ^μ′)|θ^Q′)，得到第j组待训练数据的中间参数y_j；其中，γ表示折扣因子，μ′(s_j+1|θ^μ′)表示第j组待训练数据中s_j+1经添加噪声模型且参数为θ^μ'的Actor目标网络输出的通信资源分配策略，Q′(s_j+1,μ′(s_j+1|θ^μ′)|θ^Q′)表示第j组待训练数据中s_j+1和Actor目标网络输出的通信资源分配策略μ′(s_j+1|θ^μ′)经参数为θ^Q'的Critic目标网络输出的评估值；

步骤3012、计算机根据公式

得到训练时Critic网络的损失函数L(θ^Q)；其中，Q(s_j,a_j|θ^Q)表示第j组待训练数据中s_j,a_j经过参数为θ^Q的Critic现实网络输出的评估值；

步骤3013、计算机根据公式

得到Critic网络的损失函数L(θ^Q)关于θ^Q的梯度函数▽L(θ^Q)；

计算机根据公式θ^Q(1)＝θ^Q(0)-Lr_-c×▽L(θ^Q)|θ^Q(0)，得到Critic现实网络第一次梯度下降训练优化的参数θ^Q(1)；其中，▽L(θ^Q)|θ^Q(0)表示θ^Q取θ^Q(0)后代入梯度函数▽L(θ^Q)的梯度值；

步骤3014、计算机根据公式

得到Actor的函数J(θ^μ)；并根据公式

得到Actor的函数J(θ^μ)关于θ^μ的梯度函数▽J(θ^μ)；

计算机根据公式θ^μ(1)＝θ^μ(0)+Lr_-a×▽J(θ^μ)|θ^μ(0)，得到Actor现实网络第一次梯度上升训练优化的参数θ^μ(1)；其中，▽L(θ^μ)|θ^μ(0)表示θ^μ取θ^μ(0)后代入梯度函数▽J(θ^μ)的梯度值；

步骤3015、采用计算机根据公式θ^μ'(1)＝τθ^μ(1)+(1-τ)θ^μ'(0)，得到Actor目标网络的参数的第一次更新值θ^μ'(1)；

采用计算机根据公式θ^Q'(1)＝τθ^Q(1)+(1-τ)θ^Q'(0)，得到Critic目标网络参数的第一次更新值θ^Q'(1)；

步骤302中对第T′个训练数据集中N_s个待训练数据进行训练，进行训练时：

计算机根据公式θ^Q(T′)＝θ^Q(T′-1)-Lr_-c×▽L(θ^Q)|θ^Q(T′-1)，得到Critic现实网络第T′次梯度下降训练优化的参数θ^Q(T′)；其中，▽L(θ^Q)|θ^Q(T′-1)表示θ^Q取θ^Q(T′-1)后代入梯度函数▽L(θ^Q)的梯度值，θ^Q(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数；

计算机根据公式θ^μ(T′)＝θ^μ(T′-1)+Lr_-a×▽J(θ^μ)|θ^μ(T′-1)，得到Actor现实网络第T′次梯度上升训练优化的参数θ^μ(T′)；其中，▽J(θ^μ)|θ^μ(T′-1)表示θ^μ取θ^μ(T′-1)后代入梯度函数▽J(θ^μ)的梯度值，θ^μ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θ^μ(T′-1)；

采用计算机根据公式θ^μ'(T′)＝τθ^μ(T′)+(1-τ)θ^μ'(T′-1)，得到Actor目标网络的参数的第T′次更新值θ^μ'(T′)；

采用计算机根据公式θ^Q'(T′)＝τθ^Q(T′)+(1-τ)θ^Q'(T′-1)，得到Critic目标网络参数的第T′次更新值θ^Q'(T′)。

上述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤2033中采用计算机得到s_t状态下资源分配策略a_t所对应的奖励得分r_t，具体过程过如下：

步骤A、采用计算机根据公式

得到t时刻无人机到用户n信号传输的LoS链路概率

其中，a表示与环境相关的第一常数，4.88＜a＜28，b表示与环境相关的第二常数，0＜b＜1，h表示无人机的部署高度，d_n(t)表示t时刻无人机到用户n的直线距离；

步骤B、采用计算机根据公式

得到t时刻无人机到用户n在LoS链路下的路径损耗

其中，ξ_LoS表示LoS链路下的附加损耗，c表示光速，f_c表示信号载频；

步骤C、采用计算机根据公式

得到t时刻无人机到用户n在NLoS链路下的路径损耗

其中，ξ_NLoS表示NLoS链路下的附加损耗；

步骤D、采用计算机根据公式

得到t时刻无人机到用户n的路径损耗L_n(t)；

步骤E、采用计算机根据公式

得到t时刻用户n的信道容量C_n(t)；其中，n₀表示信道中高斯白噪声的功率谱密度；

步骤F、采用计算机根据公式

得到t时刻所有用户的平均信道容量C_mean(t)；

步骤G、采用计算机根据公式

得到t时刻无人机通信系统用户n的公平指数f_n(t)；

步骤H、采用计算机根据公式

得到t时刻无人机通信系统的公平指数f(t)；其中，f(t)∈[0,1]；

步骤I、采用计算机根据r_t＝f(t)C_mean(t)+λf(t)，得到t时刻无人机基站在s_t状态下资源分配策略的奖励得分r_t；其中，λ表示对公平指数不同程度的侧重系数。

上述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤I中λ大于0小于100，NLoS链路下的附加损耗ξ_NLoS大于LoS链路下的附加损耗ξ_LoS，LoS链路下的附加损耗ξ_LoS的取值范围为(0dB,50dB)，NLoS链路下的附加损耗ξ_NLoS的取值范围为(10dB,100dB)。

本发明与现有技术相比具有以下优点：

1、本发明方法步骤简单、设计合理，实现无人机基站通信资源动态分配策略的预测。

2、本发明所采用的方法首先是网络模型的建立，然后是训练数据的获取，通过训练数据输入建立的网络模型，进行训练迭代以获取网络优化参数和噪声优化参数，接着根据Critic现实网络的优化后的参数、Actor现实网络的优化后的参数、Actor目标网络的优化后的参数和Critic目标网络的优化后的参数以及优化后的噪声模型，得到优化后的网络模型；最后将各个后续时刻用户相对无人机的状态输入优化后的网络模型，以得到用户相对无人机的状态所对应的通信资源分配策略。

3、本发明中采用DDPG算法对Critic现实网络的参数、Actor现实网络的参数、Actor目标网络的参数和Critic目标网络的参数进行训练迭代，同时采用梯度上升方法对噪声模型中各个参数进行优化，通过噪声模型中各个参数进行优化能增大通信资源分配策略的探索空间，这样通过网络参数和噪声参数的同步优化相比仅DDPG算法优化，提高了优化后的网络模型的准确性。

4、本发明获取训练数据过程中，各个采样时刻用户相对无人机的状态下的通信资源分配策略均包括各个时刻无人机对用户的发射功率和各个时刻无人机对用户的带宽分配，因此，不仅对发射功率进行策略分配，而且对带宽分配进行策略分配，提高了分配的灵活性。

综上所述，本发明方法步骤简单，设计合理，能增大通信资源分配策略的探索空间，提高了优化后的网络模型的准确性，有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程框图。

具体实施方式

如图1所示的基于噪声优化的无人机基站通信资源分配策略预测方法，包括以下步骤：

步骤一、网络模型的建立：

步骤102、设定噪声模型为s′＝(μ_ω+σ_ω×ε_ω)s+μ_b+σ_b×ε_b；其中，s′表示施加噪声后的用户相对无人机的状态，s表示用户相对无人机的状态，μ_ω表示第一高斯噪声均值，σ_ω表示第一高斯噪声方差值，μ_b表示第二高斯噪声均值，σ_b表示第二高斯噪声方差值，σ_ω的初始值记作σ_ω(0)，且σ_ω(0)＝0，σ_b的初始值记作σ_b(0)，且σ_b(0)＝0，μ_ω的初始值记作μ_ω(0)，且μ_ω(0)＝0，μ_b的初始值记作μ_b(0)，且μ_b(0)＝0，ε_ω表示第一高斯噪声的随机信号值，ε_b表示第二高斯噪声的随机信号值，⊙表示点乘；

步骤104、设定Actor网络学习率为Lr_a，Critic网络学习率为Lr_c；

步骤二、训练数据的获取：

步骤201、设定无人机基站对N个用户进行通信资源分配；

步骤三、训练迭代以获取网络优化参数和噪声优化参数：

步骤四、获取优化后的网络模型：

Actor现实网络的优化后的参数

、Actor目标网络的优化后的参数

和Critic目标网络的优化后的参数

；

步骤五、无人机基站通信资源动态分配策略预测：

本实施例中，步骤104中Actor网络学习率Lr_a为(0，1)；Critic网络学习率Lr_c为(0，1)；

步骤203中T的取值范围为[1000,10000]，

N_s的取值范围为[300,5000)。

本实施例中，步骤203中得到T个训练数据集的方法均相同，则对第T′个训练数据集进行获取的方法如下：

本实施例中，步骤301中采用DDPG算法对第1个训练数据集中N_s个训练数据进行训练，具体过程如下：

步骤3012、计算机根据公式

步骤3013、计算机根据公式

得到Critic网络的损失函数L(θ^Q)关于θ^Q的梯度函数▽L(θ^Q)；

步骤3014、计算机根据公式

得到Actor的函数J(θ^μ)；并根据公式

得到Actor的函数J(θ^μ)关于θ^μ的梯度函数▽J(θ^μ)；

本实施例中，步骤2033中采用计算机得到s_t状态下资源分配策略a_t所对应的奖励得分r_t，具体过程过如下：

步骤A、采用计算机根据公式

得到t时刻无人机到用户n信号传输的LoS链路概率

步骤B、采用计算机根据公式

得到t时刻无人机到用户n在LoS链路下的路径损耗

步骤C、采用计算机根据公式

得到t时刻无人机到用户n在NLoS链路下的路径损耗

其中，ξ_NLoS表示NLoS链路下的附加损耗；

步骤D、采用计算机根据公式

得到t时刻无人机到用户n的路径损耗L_n(t)；

步骤E、采用计算机根据公式

步骤F、采用计算机根据公式

得到t时刻所有用户的平均信道容量C_mean(t)；

步骤G、采用计算机根据公式

得到t时刻无人机通信系统用户n的公平指数f_n(t)；

步骤H、采用计算机根据公式

本实施例中，步骤I中λ大于0小于100，NLoS链路下的附加损耗ξ_NLoS大于LoS链路下的附加损耗ξ_LoS，LoS链路下的附加损耗ξ_LoS的取值范围为(0dB,50dB)，NLoS链路下的附加损耗ξ_NLoS的取值范围为(10dB,100dB)。

本实施例中，折扣因子γ为(0,1)，软更新参数τ为(0,1)。

本实施例中，进一步优选，Actor网络学习率Lr_a为1×10^-4，Critic网络学习率Lr_c为1×10^-3，折扣因子γ为0.97，软更新参数τ为0.01。

本实施例中，与环境相关的第一常数a为9.61，与环境相关的第二常数b为0.28。

本实施例中，进一步优选，LoS链路下的附加损耗ξ_LoS为1dB，NLoS链路下的附加损耗ξ_NLoS为20dB。

本实施例中，对公平指数不同程度的侧重系数λ为10。

本实施例中，总功率P_total为1W，B_total表示总带宽分配为50MHz。

本实施例中，需要说明的是，第T′-1次优化后的第一高斯噪声均值为μ_ω(T′-1)，第T′-1次优化后的第一高斯噪声方差值为σ_ω(T′-1)，第T′-1次优化后的第一高斯噪声信号值为ε_ω(T′-1)，第T′-1次优化后的第二高斯噪声均值为μ_b(T′-1)，第T′-1次优化后的第二高斯噪声方差值为σ_b(T′-1)和第T′-1次优化后的第二高斯噪声信号值为ε_b(T′-1)。

本实施例中，需要说明的是，第T-1次优化后的第一高斯噪声均值为μ_ω(T-1)，第T-1次优化后的第一高斯噪声方差值为σ_ω(T-1)，第T-1次优化后的第一高斯噪声信号值为ε_ω(T-1)，第T-1次优化后的第二高斯噪声均值为μ_b(T-1)，第T-1次优化后的第二高斯噪声方差值为σ_b(T-1)和第T-1次优化后的第二高斯噪声信号值为ε_b(T-1)。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于，该方法包括以下步骤：

步骤一、网络模型的建立：

步骤104、设定Actor网络学习率为Lr_a，Critic网络学习率为Lr_c；

步骤二、训练数据的获取：

步骤201、设定无人机基站对N个用户进行通信资源分配；

步骤三、训练迭代以获取网络优化参数和噪声优化参数：

步骤四、获取优化后的网络模型：

步骤401、将Critic现实网络第T次梯度下降训练优化的参数θ^Q(T)、Actor现实网络第T次梯度上升训练优化的参数θ^μ(T)、Actor目标网络的参数的第T次更新值θ^μ'(T)和Critic目标网络参数的第T次更新值θ^Q'(T)分别记作Critic现实网络的优化后的参数θ^Q*、Actor现实网络的优化后的参数θ^μ*、Actor目标网络的优化后的参数θ^μ'*和Critic目标网络的优化后的参数θ^Q'*；

步骤五、无人机基站通信资源动态分配策略预测：

2.按照权利要求1所述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤104中Actor网络学习率Lr_a为(0，1)；Critic网络学习率Lr_c为(0，1)；

步骤203中T的取值范围为[1000,10000]，

N_s的取值范围为[300,5000)。

3.按照权利要求1所述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤203中得到T个训练数据集的方法均相同，则对第T′个训练数据集进行获取的方法如下：

4.按照权利要求3所述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤301中采用DDPG算法对第1个训练数据集中N_s个训练数据进行训练，具体过程如下：

步骤3012、计算机根据公式

步骤3013、计算机根据公式

得到Critic网络的损失函数L(θ^Q)关于θ^Q的梯度函数

计算机根据公式

得到Critic现实网络第一次梯度下降训练优化的参数θ^Q(1)；其中，

表示θ^Q取θ^Q(0)后代入梯度函数

的梯度值；

步骤3014、计算机根据公式

得到Actor的函数J(θ^μ)；并根据公式

得到Actor的函数J(θ^μ)关于θ^μ的梯度函数

计算机根据公式

得到Actor现实网络第一次梯度上升训练优化的参数θ^μ(1)；其中，

表示θ^μ取θ^μ(0)后代入梯度函数

的梯度值；

计算机根据公式

得到Critic现实网络第T′次梯度下降训练优化的参数θ^Q(T′)；其中，

表示θ^Q取θ^Q(T′-1)后代入梯度函数

的梯度值，θ^Q(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数；

计算机根据公式

得到Actor现实网络第T′次梯度上升训练优化的参数θ^μ(T′)；其中，

表示θ^μ取θ^μ(T′-1)后代入梯度函数

的梯度值，θ^μ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θ^μ(T′-1)；

5.按照权利要求3所述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤2033中采用计算机得到s_t状态下资源分配策略a_t所对应的奖励得分r_t，具体过程过如下：

步骤A、采用计算机根据公式

得到t时刻无人机到用户n信号传输的LoS链路概率

步骤B、采用计算机根据公式

得到t时刻无人机到用户n在LoS链路下的路径损耗

步骤C、采用计算机根据公式

得到t时刻无人机到用户n在NLoS链路下的路径损耗

其中，ξ_NLoS表示NLoS链路下的附加损耗；

步骤D、采用计算机根据公式

得到t时刻无人机到用户n的路径损耗L_n(t)；

步骤E、采用计算机根据公式

步骤F、采用计算机根据公式

得到t时刻所有用户的平均信道容量C_mean(t)；

步骤G、采用计算机根据公式

得到t时刻无人机通信系统用户n的公平指数f_n(t)；

步骤H、采用计算机根据公式

6.按照权利要求5所述的基于噪声优化的无人机基站通信资源分配策略预测方法，其特征在于：步骤I中λ大于0小于100，NLoS链路下的附加损耗ξ_NLoS大于LoS链路下的附加损耗ξ_LoS，LoS链路下的附加损耗ξ_LoS的取值范围为(0dB,50dB)，NLoS链路下的附加损耗ξ_NLoS的取值范围为(10dB,100dB)。