CN113115344A - 基于噪声优化的无人机基站通信资源分配策略预测方法 - Google Patents

基于噪声优化的无人机基站通信资源分配策略预测方法 Download PDF

Info

Publication number
CN113115344A
CN113115344A CN202110420398.4A CN202110420398A CN113115344A CN 113115344 A CN113115344 A CN 113115344A CN 202110420398 A CN202110420398 A CN 202110420398A CN 113115344 A CN113115344 A CN 113115344A
Authority
CN
China
Prior art keywords
theta
network
parameter
value
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110420398.4A
Other languages
English (en)
Other versions
CN113115344B (zh
Inventor
赵建伟
贾维敏
吴官翰
金伟
张聪
崔亚龙
何芳
王连锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rocket Force University of Engineering of PLA
Original Assignee
Rocket Force University of Engineering of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rocket Force University of Engineering of PLA filed Critical Rocket Force University of Engineering of PLA
Priority to CN202110420398.4A priority Critical patent/CN113115344B/zh
Publication of CN113115344A publication Critical patent/CN113115344A/zh
Application granted granted Critical
Publication of CN113115344B publication Critical patent/CN113115344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于噪声优化的无人机基站通信资源分配策略预测方法,该方法包括以下步骤:一、网络模型的建立;二、训练数据的获取;三、训练迭代以获取网络优化参数和噪声优化参数;四、获取优化后的网络模型;五、无人机基站通信资源动态分配策略预测。本发明方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。

Description

基于噪声优化的无人机基站通信资源分配策略预测方法
技术领域
本发明属于无人机基站通信资源动态分配技术领域,尤其是涉及基于噪声优化的无人机基站通信资源分配策略预测方法。
背景技术
在未来5G/B5G移动通信中,蜂窝连接无人机将会是至关重要的一环。无人机搭载大规模MIMO天线阵列配合高精度的波束赋形方式,可以形成指向性强、增益高的窄波束,在减少邻居干扰的同时有效克服毫米波及其以上频段衰减巨大的现实问题。同时,搭配有效的功率控制和带宽资源分配策略,能在有限的通信资源条件下提升通信系统性能。因此,需要对无人机基站通信资源动态分配策略进行预测,确保提升通信系统性能。
目前,对无人机基站通信资源动态分配一般是通过无人机航迹优化、DDPG算法、DQN算法,无人机航迹优化不能有效地结合各个用户的动态,不能实现预测;DDPG算法仅对无人机的运动和带宽分配进行控制;DQN算法实现了无人机适应地面用户移动的同时最大化信道容量,然而由于每架无人机给每个用户只能分配额定的子信道,带宽分配的灵活性有待优化。
因此,现如今缺少基于噪声优化的无人机基站通信资源分配策略预测方法,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于噪声优化的无人机基站通信资源分配策略预测方法,其方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
为解决上述技术问题,本发明采用的技术方案是:基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于,该方法包括以下步骤:
步骤一、网络模型的建立:
步骤101、设定Actor现实网络的参数为θμ,Critic现实网络的参数为θQ,Actor目标网络的参数为θμ',Critic目标网络的参数为θQ';
步骤102、设定噪声模型为s′=(μωω×εω)s+μbb×εb;其中,s′表示施加噪声后的用户相对无人机的状态,s表示用户相对无人机的状态,μω表示第一高斯噪声均值,σω表示第一高斯噪声方差值,μb表示第二高斯噪声均值,σb表示第二高斯噪声方差值,σω的初始值记作σω(0),且σω(0)=0,σb的初始值记作σb(0),且σb(0)=0,μω的初始值记作μω(0),且μω(0)=0,μb的初始值记作μb(0),且μb(0)=0,εω表示第一高斯噪声的随机信号值,εb表示第二高斯噪声的随机信号值;
步骤103、设定噪声模型添加至Actor现实网络中,且设定Actor现实网络的参数θμ的初始值为θμ(0),Critic现实网络的参数θQ的初始值为θQ(0),θμ(0)=θμ'(0),θQ(0)=θQ'(0),θμ'(0)表示Actor目标网络的参数θμ'的初始值,θQ'(0)表示Critic目标网络的参数θQ'的初始值,得到初始DDPG网络模型;其中,θμ(0)和θQ(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数;
步骤104、设定Actor网络学习率为Lr_a,Critic网络学习率为Lr_c;
步骤二、训练数据的获取:
步骤201、设定无人机基站对N个用户进行通信资源分配;
步骤202、无人机获取各个时刻N个用户相对无人机的状态,并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中,获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分;其中,各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配;
步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分,得到T个回放缓存集合,并从T个回放缓存集合中随机采样,得到T个训练数据集;其中,T训练数据集分别为第1个训练数据集,...,第T′个训练数据集,...,第T训练数据集,T′和T均为正整数,且1≤T′≤T,且任一个训练数据集均包括Ns个待训练数据,T个回放缓存集合的大小均为D,且D为正整数;
步骤三、训练迭代以获取网络优化参数和噪声优化参数:
步骤301、采用DDPG算法对第1个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第1次梯度下降训练优化的参数θQ(1)、Actor现实网络第1次梯度上升训练优化的参数θμ(1)、Actor目标网络的参数的第1次更新值θμ'(1)和Critic目标网络的参数的第1次更新值θQ'(1);
同时,采用梯度上升方法分别对μω、σω、εω、μb、σb和εb进行优化,得到第1次优化后的第一高斯噪声均值μω(1)、第1次优化后的第一高斯噪声方差值σω(1)、第1次优化后的第一高斯噪声信号值εω(1)、第1次优化后的第二高斯噪声均值μb(1)、第1次优化后的第二高斯噪声方差值σb(1)和第1次优化后的第二高斯噪声信号值εb(1);
步骤302、多次重复步骤301所述的方法,对第T′个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′)、Actor现实网络第T′次梯度上升训练优化的参数θμ(T′)、Actor目标网络的参数的第T′次更新值θμ'(T′)和Critic目标网络参数的第T′次更新值θQ'(T′);
同时,采用梯度上升方法分别对第T′-1次优化后的μω(T′-1)、σω(T′-1)、εω(T′-1)、μb(T′-1)、σb(T′-1)和εb(T′-1)进行优化,得到第T′次优化后的第一高斯噪声均值μω(T′)、第T′次优化后的第一高斯噪声方差值σω(T′)、第T′次优化后的第一高斯噪声信号值εω(T′)、第T′次优化后的第二高斯噪声均值μb(T′)、第T′次优化后的第二高斯噪声方差值σb(T′)和第T′次优化后的第二高斯噪声信号值εb(T′);
步骤303、多次重复步骤302所述的方法,对第T个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T);
同时,采用梯度上升方法分别对第T-1次优化后的μω(T-1)、σω(T-1)、εω(T-1)、μb(T-1)、σb(T-1)和εb(T-1)进行优化,得到第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T);
步骤四、获取优化后的网络模型:
步骤401、将Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T)分别记作Critic现实网络的优化后的参数
Figure BDA0003027645370000043
Actor现实网络的优化后的参数
Figure BDA0003027645370000041
、Actor目标网络的优化后的参数
Figure BDA0003027645370000044
和Critic目标网络的优化后的参数
Figure BDA0003027645370000042
步骤402、将第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T)带入步骤102中,得到优化后的噪声模型;
步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中,得到优化后的网络模型;
步骤五、无人机基站通信资源动态分配策略预测:
步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g进行获取;其中,g为正整数,且g取1,2,...;
步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g输入步骤403中优化后的网络模型,得到第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g所对应的通信资源分配策略at+T·D+g
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤104中Actor网络学习率Lr_a为(0,1);Critic网络学习率Lr_c为(0,1);
步骤203中T的取值范围为[1000,10000],
Figure BDA0003027645370000051
Ns的取值范围为[300,5000)。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤203中得到T个训练数据集的方法均相同,则对第T′个训练数据集进行获取的方法如下:
步骤2031、设定t时刻N个用户相对无人机的状态记作st,且st=(d1(t),…dn(t),…,dN(t));其中,dn(t)表示t时刻无人机到用户n的直线距离,n为正整数,且1≤n≤N,N即用户的总数;
步骤2032、将t时刻N个用户相对无人机的状态st输入初始DDPG网络模型的Actor现实网络中,输出st状态下的通信资源分配策略at
Figure BDA0003027645370000061
其中,Pn(t)表示t时刻无人机对用户n的发射功率,Bn(t)表示t时刻无人机对用户n的带宽分配,且P1(t)+..+Pn(t)+..+PN(t)=Ptotal,B1(t)+..+Bn(t)+..+BN(t)=Btotal,Ptotal表示总功率,Btotal表示总带宽分配;
步骤2033、采用计算机将st状态下的通信资源分配策略和N个用户所处环境交互,得到st状态下资源分配策略at所对应的奖励得分rt
步骤2034、采用计算机将(st,at,rt,st+1)作为第t组训练数据,并将第t组训练数据存入回放缓存集中;其中,t为正整数,且1≤t;
步骤2035、对下一个t+1时刻,按照步骤2031至步骤2034所述的方法,得到第t+1组训练数据,并将第t+1组训练数据存入回放缓存集中,直至回放缓存集中训练数据的组数满足D,得到第T′个回放缓存集合;其中,第一个回放缓存集合包括第t组训练数据~第t+D-1组训练数据,第2个回放缓存集合包括第t+1组训练数据~第t+D组训练数据,第T′个回放缓存集合包括第t+T′-1组训练数据~第t+T′+D-2组训练数据;
步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样Ns个训练数据作为第T′个训练数据集,且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(sj,aj,rj,sj+1);其中,j为正整数,且1≤j≤Ns,sj表示第j组待训练数据中的用户相对无人机的状态,sj+1表示第j个组待训练数据中的用户相对无人机的下一个状态,aj表示第j组待训练数据中的通信资源分配策略,rj表示第j组待训练数据中的奖励得分。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤301中采用DDPG算法对第1个训练数据集中Ns个训练数据进行训练,具体过程如下:
步骤3011、当对第1个训练数据集中第j组待训练数据(sj,aj,rj,sj+1)训时,计算机根据公式yj=rj+γ×Q′(sj+1,μ′(sj+1μ′)|θQ′),得到第j组待训练数据的中间参数yj;其中,γ表示折扣因子,μ′(sj+1μ′)表示第j组待训练数据中sj+1经添加噪声模型且参数为θμ'的Actor目标网络输出的通信资源分配策略,Q′(sj+1,μ′(sj+1μ′)|θQ′)表示第j组待训练数据中sj+1和Actor目标网络输出的通信资源分配策略μ′(sj+1μ′)经参数为θQ'的Critic目标网络输出的评估值;
步骤3012、计算机根据公式
Figure BDA0003027645370000071
得到训练时Critic网络的损失函数L(θQ);其中,Q(sj,ajQ)表示第j组待训练数据中sj,aj经过参数为θQ的Critic现实网络输出的评估值;
步骤3013、计算机根据公式
Figure BDA0003027645370000072
得到Critic网络的损失函数L(θQ)关于θQ的梯度函数▽L(θQ);
计算机根据公式θQ(1)=θQ(0)-Lr-c×▽L(θQ)|θQ(0),得到Critic现实网络第一次梯度下降训练优化的参数θQ(1);其中,▽L(θQ)|θQ(0)表示θQ取θQ(0)后代入梯度函数▽L(θQ)的梯度值;
步骤3014、计算机根据公式
Figure BDA0003027645370000073
得到Actor的函数J(θμ);并根据公式
Figure BDA0003027645370000074
得到Actor的函数J(θμ)关于θμ的梯度函数▽J(θμ);
计算机根据公式θμ(1)=θμ(0)+Lr-a×▽J(θμ)|θμ(0),得到Actor现实网络第一次梯度上升训练优化的参数θμ(1);其中,▽L(θμ)|θμ(0)表示θμ取θμ(0)后代入梯度函数▽J(θμ)的梯度值;
步骤3015、采用计算机根据公式θμ'(1)=τθμ(1)+(1-τ)θμ'(0),得到Actor目标网络的参数的第一次更新值θμ'(1);
采用计算机根据公式θQ'(1)=τθQ(1)+(1-τ)θQ'(0),得到Critic目标网络参数的第一次更新值θQ'(1);
步骤302中对第T′个训练数据集中Ns个待训练数据进行训练,进行训练时:
计算机根据公式θQ(T′)=θQ(T′-1)-Lr-c×▽L(θQ)|θQ(T′-1),得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′);其中,▽L(θQ)|θQ(T′-1)表示θQ取θQ(T′-1)后代入梯度函数▽L(θQ)的梯度值,θQ(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数;
计算机根据公式θμ(T′)=θμ(T′-1)+Lr-a×▽J(θμ)|θμ(T′-1),得到Actor现实网络第T′次梯度上升训练优化的参数θμ(T′);其中,▽J(θμ)|θμ(T′-1)表示θμ取θμ(T′-1)后代入梯度函数▽J(θμ)的梯度值,θμ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θμ(T′-1);
采用计算机根据公式θμ'(T′)=τθμ(T′)+(1-τ)θμ'(T′-1),得到Actor目标网络的参数的第T′次更新值θμ'(T′);
采用计算机根据公式θQ'(T′)=τθQ(T′)+(1-τ)θQ'(T′-1),得到Critic目标网络参数的第T′次更新值θQ'(T′)。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤2033中采用计算机得到st状态下资源分配策略at所对应的奖励得分rt,具体过程过如下:
步骤A、采用计算机根据公式
Figure BDA0003027645370000081
得到t时刻无人机到用户n信号传输的LoS链路概率
Figure BDA0003027645370000082
其中,a表示与环境相关的第一常数,4.88<a<28,b表示与环境相关的第二常数,0<b<1,h表示无人机的部署高度,dn(t)表示t时刻无人机到用户n的直线距离;
步骤B、采用计算机根据公式
Figure BDA0003027645370000083
得到t时刻无人机到用户n在LoS链路下的路径损耗
Figure BDA0003027645370000084
其中,ξLoS表示LoS链路下的附加损耗,c表示光速,fc表示信号载频;
步骤C、采用计算机根据公式
Figure BDA0003027645370000085
得到t时刻无人机到用户n在NLoS链路下的路径损耗
Figure BDA0003027645370000091
其中,ξNLoS表示NLoS链路下的附加损耗;
步骤D、采用计算机根据公式
Figure BDA0003027645370000092
得到t时刻无人机到用户n的路径损耗Ln(t);
步骤E、采用计算机根据公式
Figure BDA0003027645370000093
得到t时刻用户n的信道容量Cn(t);其中,n0表示信道中高斯白噪声的功率谱密度;
步骤F、采用计算机根据公式
Figure BDA0003027645370000094
得到t时刻所有用户的平均信道容量Cmean(t);
步骤G、采用计算机根据公式
Figure BDA0003027645370000095
得到t时刻无人机通信系统用户n的公平指数fn(t);
步骤H、采用计算机根据公式
Figure BDA0003027645370000096
得到t时刻无人机通信系统的公平指数f(t);其中,f(t)∈[0,1];
步骤I、采用计算机根据rt=f(t)Cmean(t)+λf(t),得到t时刻无人机基站在st状态下资源分配策略的奖励得分rt;其中,λ表示对公平指数不同程度的侧重系数。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤I中λ大于0小于100,NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB)。
本发明与现有技术相比具有以下优点:
1、本发明方法步骤简单、设计合理,实现无人机基站通信资源动态分配策略的预测。
2、本发明所采用的方法首先是网络模型的建立,然后是训练数据的获取,通过训练数据输入建立的网络模型,进行训练迭代以获取网络优化参数和噪声优化参数,接着根据Critic现实网络的优化后的参数、Actor现实网络的优化后的参数、Actor目标网络的优化后的参数和Critic目标网络的优化后的参数以及优化后的噪声模型,得到优化后的网络模型;最后将各个后续时刻用户相对无人机的状态输入优化后的网络模型,以得到用户相对无人机的状态所对应的通信资源分配策略。
3、本发明中采用DDPG算法对Critic现实网络的参数、Actor现实网络的参数、Actor目标网络的参数和Critic目标网络的参数进行训练迭代,同时采用梯度上升方法对噪声模型中各个参数进行优化,通过噪声模型中各个参数进行优化能增大通信资源分配策略的探索空间,这样通过网络参数和噪声参数的同步优化相比仅DDPG算法优化,提高了优化后的网络模型的准确性。
4、本发明获取训练数据过程中,各个采样时刻用户相对无人机的状态下的通信资源分配策略均包括各个时刻无人机对用户的发射功率和各个时刻无人机对用户的带宽分配,因此,不仅对发射功率进行策略分配,而且对带宽分配进行策略分配,提高了分配的灵活性。
综上所述,本发明方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程框图。
具体实施方式
如图1所示的基于噪声优化的无人机基站通信资源分配策略预测方法,包括以下步骤:
步骤一、网络模型的建立:
步骤101、设定Actor现实网络的参数为θμ,Critic现实网络的参数为θQ,Actor目标网络的参数为θμ',Critic目标网络的参数为θQ';
步骤102、设定噪声模型为s′=(μωω×εω)s+μbb×εb;其中,s′表示施加噪声后的用户相对无人机的状态,s表示用户相对无人机的状态,μω表示第一高斯噪声均值,σω表示第一高斯噪声方差值,μb表示第二高斯噪声均值,σb表示第二高斯噪声方差值,σω的初始值记作σω(0),且σω(0)=0,σb的初始值记作σb(0),且σb(0)=0,μω的初始值记作μω(0),且μω(0)=0,μb的初始值记作μb(0),且μb(0)=0,εω表示第一高斯噪声的随机信号值,εb表示第二高斯噪声的随机信号值,⊙表示点乘;
步骤103、设定噪声模型添加至Actor现实网络中,且设定Actor现实网络的参数θμ的初始值为θμ(0),Critic现实网络的参数θQ的初始值为θQ(0),θμ(0)=θμ'(0),θQ(0)=θQ'(0),θμ'(0)表示Actor目标网络的参数θμ'的初始值,θQ'(0)表示Critic目标网络的参数θQ'的初始值,得到初始DDPG网络模型;其中,θμ(0)和θQ(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数;
步骤104、设定Actor网络学习率为Lr_a,Critic网络学习率为Lr_c;
步骤二、训练数据的获取:
步骤201、设定无人机基站对N个用户进行通信资源分配;
步骤202、无人机获取各个时刻N个用户相对无人机的状态,并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中,获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分;其中,各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配;
步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分,得到T个回放缓存集合,并从T个回放缓存集合中随机采样,得到T个训练数据集;其中,T训练数据集分别为第1个训练数据集,...,第T′个训练数据集,...,第T训练数据集,T′和T均为正整数,且1≤T′≤T,且任一个训练数据集均包括Ns个待训练数据,T个回放缓存集合的大小均为D,且D为正整数;
步骤三、训练迭代以获取网络优化参数和噪声优化参数:
步骤301、采用DDPG算法对第1个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第1次梯度下降训练优化的参数θQ(1)、Actor现实网络第1次梯度上升训练优化的参数θμ(1)、Actor目标网络的参数的第1次更新值θμ'(1)和Critic目标网络的参数的第1次更新值θQ'(1);
同时,采用梯度上升方法分别对μω、σω、εω、μb、σb和εb进行优化,得到第1次优化后的第一高斯噪声均值μω(1)、第1次优化后的第一高斯噪声方差值σω(1)、第1次优化后的第一高斯噪声信号值εω(1)、第1次优化后的第二高斯噪声均值μb(1)、第1次优化后的第二高斯噪声方差值σb(1)和第1次优化后的第二高斯噪声信号值εb(1);
步骤302、多次重复步骤301所述的方法,对第T′个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′)、Actor现实网络第T′次梯度上升训练优化的参数θμ(T′)、Actor目标网络的参数的第T′次更新值θμ'(T′)和Critic目标网络参数的第T′次更新值θQ'(T′);
同时,采用梯度上升方法分别对第T′-1次优化后的μω(T′-1)、σω(T′-1)、εω(T′-1)、μb(T′-1)、σb(T′-1)和εb(T′-1)进行优化,得到第T′次优化后的第一高斯噪声均值μω(T′)、第T′次优化后的第一高斯噪声方差值σω(T′)、第T′次优化后的第一高斯噪声信号值εω(T′)、第T′次优化后的第二高斯噪声均值μb(T′)、第T′次优化后的第二高斯噪声方差值σb(T′)和第T′次优化后的第二高斯噪声信号值εb(T′);
步骤303、多次重复步骤302所述的方法,对第T个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T);
同时,采用梯度上升方法分别对第T-1次优化后的μω(T-1)、σω(T-1)、εω(T-1)、μb(T-1)、σb(T-1)和εb(T-1)进行优化,得到第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T);
步骤四、获取优化后的网络模型:
步骤401、将Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T)分别记作Critic现实网络的优化后的参数
Figure BDA0003027645370000134
Actor现实网络的优化后的参数
Figure BDA0003027645370000131
、Actor目标网络的优化后的参数
Figure BDA0003027645370000135
和Critic目标网络的优化后的参数
Figure BDA0003027645370000133
步骤402、将第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T)带入步骤102中,得到优化后的噪声模型;
步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中,得到优化后的网络模型;
步骤五、无人机基站通信资源动态分配策略预测:
步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g进行获取;其中,g为正整数,且g取1,2,...;
步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g输入步骤403中优化后的网络模型,得到第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g所对应的通信资源分配策略at+T·D+g
本实施例中,步骤104中Actor网络学习率Lr_a为(0,1);Critic网络学习率Lr_c为(0,1);
步骤203中T的取值范围为[1000,10000],
Figure BDA0003027645370000141
Ns的取值范围为[300,5000)。
本实施例中,步骤203中得到T个训练数据集的方法均相同,则对第T′个训练数据集进行获取的方法如下:
步骤2031、设定t时刻N个用户相对无人机的状态记作st,且st=(d1(t),…dn(t),…,dN(t));其中,dn(t)表示t时刻无人机到用户n的直线距离,n为正整数,且1≤n≤N,N即用户的总数;
步骤2032、将t时刻N个用户相对无人机的状态st输入初始DDPG网络模型的Actor现实网络中,输出st状态下的通信资源分配策略at
Figure BDA0003027645370000142
其中,Pn(t)表示t时刻无人机对用户n的发射功率,Bn(t)表示t时刻无人机对用户n的带宽分配,且P1(t)+..+Pn(t)+..+PN(t)=Ptotal,B1(t)+..+Bn(t)+..+BN(t)=Btotal,Ptotal表示总功率,Btotal表示总带宽分配;
步骤2033、采用计算机将st状态下的通信资源分配策略和N个用户所处环境交互,得到st状态下资源分配策略at所对应的奖励得分rt
步骤2034、采用计算机将(st,at,rt,st+1)作为第t组训练数据,并将第t组训练数据存入回放缓存集中;其中,t为正整数,且1≤t;
步骤2035、对下一个t+1时刻,按照步骤2031至步骤2034所述的方法,得到第t+1组训练数据,并将第t+1组训练数据存入回放缓存集中,直至回放缓存集中训练数据的组数满足D,得到第T′个回放缓存集合;其中,第一个回放缓存集合包括第t组训练数据~第t+D-1组训练数据,第2个回放缓存集合包括第t+1组训练数据~第t+D组训练数据,第T′个回放缓存集合包括第t+T′-1组训练数据~第t+T′+D-2组训练数据;
步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样Ns个训练数据作为第T′个训练数据集,且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(sj,aj,rj,sj+1);其中,j为正整数,且1≤j≤Ns,sj表示第j组待训练数据中的用户相对无人机的状态,sj+1表示第j个组待训练数据中的用户相对无人机的下一个状态,aj表示第j组待训练数据中的通信资源分配策略,rj表示第j组待训练数据中的奖励得分。
本实施例中,步骤301中采用DDPG算法对第1个训练数据集中Ns个训练数据进行训练,具体过程如下:
步骤3011、当对第1个训练数据集中第j组待训练数据(sj,aj,rj,sj+1)训时,计算机根据公式yj=rj+γ×Q′(sj+1,μ′(sj+1μ′)|θQ′),得到第j组待训练数据的中间参数yj;其中,γ表示折扣因子,μ′(sj+1μ′)表示第j组待训练数据中sj+1经添加噪声模型且参数为θμ'的Actor目标网络输出的通信资源分配策略,Q′(sj+1,μ′(sj+1μ′)|θQ′)表示第j组待训练数据中sj+1和Actor目标网络输出的通信资源分配策略μ′(sj+1μ′)经参数为θQ'的Critic目标网络输出的评估值;
步骤3012、计算机根据公式
Figure BDA0003027645370000151
得到训练时Critic网络的损失函数L(θQ);其中,Q(sj,ajQ)表示第j组待训练数据中sj,aj经过参数为θQ的Critic现实网络输出的评估值;
步骤3013、计算机根据公式
Figure BDA0003027645370000161
得到Critic网络的损失函数L(θQ)关于θQ的梯度函数▽L(θQ);
计算机根据公式θQ(1)=θQ(0)-Lr-c×▽L(θQ)|θQ(0),得到Critic现实网络第一次梯度下降训练优化的参数θQ(1);其中,▽L(θQ)|θQ(0)表示θQ取θQ(0)后代入梯度函数▽L(θQ)的梯度值;
步骤3014、计算机根据公式
Figure BDA0003027645370000162
得到Actor的函数J(θμ);并根据公式
Figure BDA0003027645370000163
得到Actor的函数J(θμ)关于θμ的梯度函数▽J(θμ);
计算机根据公式θμ(1)=θμ(0)+Lr-a×▽J(θμ)|θμ(0),得到Actor现实网络第一次梯度上升训练优化的参数θμ(1);其中,▽L(θμ)|θμ(0)表示θμ取θμ(0)后代入梯度函数▽J(θμ)的梯度值;
步骤3015、采用计算机根据公式θμ'(1)=τθμ(1)+(1-τ)θμ'(0),得到Actor目标网络的参数的第一次更新值θμ'(1);
采用计算机根据公式θQ'(1)=τθQ(1)+(1-τ)θQ'(0),得到Critic目标网络参数的第一次更新值θQ'(1);
步骤302中对第T′个训练数据集中Ns个待训练数据进行训练,进行训练时:
计算机根据公式θQ(T′)=θQ(T′-1)-Lr-c×▽L(θQ)|θQ(T′-1),得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′);其中,▽L(θQ)|θQ(T′-1)表示θQ取θQ(T′-1)后代入梯度函数▽L(θQ)的梯度值,θQ(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数;
计算机根据公式θμ(T′)=θμ(T′-1)+Lr-a×▽J(θμ)|θμ(T′-1),得到Actor现实网络第T′次梯度上升训练优化的参数θμ(T′);其中,▽J(θμ)|θμ(T′-1)表示θμ取θμ(T′-1)后代入梯度函数▽J(θμ)的梯度值,θμ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θμ(T′-1);
采用计算机根据公式θμ'(T′)=τθμ(T′)+(1-τ)θμ'(T′-1),得到Actor目标网络的参数的第T′次更新值θμ'(T′);
采用计算机根据公式θQ'(T′)=τθQ(T′)+(1-τ)θQ'(T′-1),得到Critic目标网络参数的第T′次更新值θQ'(T′)。
本实施例中,步骤2033中采用计算机得到st状态下资源分配策略at所对应的奖励得分rt,具体过程过如下:
步骤A、采用计算机根据公式
Figure BDA0003027645370000171
得到t时刻无人机到用户n信号传输的LoS链路概率
Figure BDA0003027645370000172
其中,a表示与环境相关的第一常数,4.88<a<28,b表示与环境相关的第二常数,0<b<1,h表示无人机的部署高度,dn(t)表示t时刻无人机到用户n的直线距离;
步骤B、采用计算机根据公式
Figure BDA0003027645370000173
得到t时刻无人机到用户n在LoS链路下的路径损耗
Figure BDA0003027645370000174
其中,ξLoS表示LoS链路下的附加损耗,c表示光速,fc表示信号载频;
步骤C、采用计算机根据公式
Figure BDA0003027645370000175
得到t时刻无人机到用户n在NLoS链路下的路径损耗
Figure BDA0003027645370000176
其中,ξNLoS表示NLoS链路下的附加损耗;
步骤D、采用计算机根据公式
Figure BDA0003027645370000177
得到t时刻无人机到用户n的路径损耗Ln(t);
步骤E、采用计算机根据公式
Figure BDA0003027645370000178
得到t时刻用户n的信道容量Cn(t);其中,n0表示信道中高斯白噪声的功率谱密度;
步骤F、采用计算机根据公式
Figure BDA0003027645370000179
得到t时刻所有用户的平均信道容量Cmean(t);
步骤G、采用计算机根据公式
Figure BDA0003027645370000181
得到t时刻无人机通信系统用户n的公平指数fn(t);
步骤H、采用计算机根据公式
Figure BDA0003027645370000182
得到t时刻无人机通信系统的公平指数f(t);其中,f(t)∈[0,1];
步骤I、采用计算机根据rt=f(t)Cmean(t)+λf(t),得到t时刻无人机基站在st状态下资源分配策略的奖励得分rt;其中,λ表示对公平指数不同程度的侧重系数。
本实施例中,步骤I中λ大于0小于100,NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB)。
本实施例中,折扣因子γ为(0,1),软更新参数τ为(0,1)。
本实施例中,进一步优选,Actor网络学习率Lr_a为1×10-4,Critic网络学习率Lr_c为1×10-3,折扣因子γ为0.97,软更新参数τ为0.01。
本实施例中,与环境相关的第一常数a为9.61,与环境相关的第二常数b为0.28。
本实施例中,进一步优选,LoS链路下的附加损耗ξLoS为1dB,NLoS链路下的附加损耗ξNLoS为20dB。
本实施例中,对公平指数不同程度的侧重系数λ为10。
本实施例中,总功率Ptotal为1W,Btotal表示总带宽分配为50MHz。
本实施例中,需要说明的是,第T′-1次优化后的第一高斯噪声均值为μω(T′-1),第T′-1次优化后的第一高斯噪声方差值为σω(T′-1),第T′-1次优化后的第一高斯噪声信号值为εω(T′-1),第T′-1次优化后的第二高斯噪声均值为μb(T′-1),第T′-1次优化后的第二高斯噪声方差值为σb(T′-1)和第T′-1次优化后的第二高斯噪声信号值为εb(T′-1)。
本实施例中,需要说明的是,第T-1次优化后的第一高斯噪声均值为μω(T-1),第T-1次优化后的第一高斯噪声方差值为σω(T-1),第T-1次优化后的第一高斯噪声信号值为εω(T-1),第T-1次优化后的第二高斯噪声均值为μb(T-1),第T-1次优化后的第二高斯噪声方差值为σb(T-1)和第T-1次优化后的第二高斯噪声信号值为εb(T-1)。
综上所述,本发明方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (6)

1.一种基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于,该方法包括以下步骤:
步骤一、网络模型的建立:
步骤101、设定Actor现实网络的参数为θμ,Critic现实网络的参数为θQ,Actor目标网络的参数为θμ',Critic目标网络的参数为θQ'
步骤102、设定噪声模型为s′=(μωω×εω)s+μbb×εb;其中,s′表示施加噪声后的用户相对无人机的状态,s表示用户相对无人机的状态,μω表示第一高斯噪声均值,σω表示第一高斯噪声方差值,μb表示第二高斯噪声均值,σb表示第二高斯噪声方差值,σω的初始值记作σω(0),且σω(0)=0,σb的初始值记作σb(0),且σb(0)=0,μω的初始值记作μω(0),且μω(0)=0,μb的初始值记作μb(0),且μb(0)=0,εω表示第一高斯噪声的随机信号值,εb表示第二高斯噪声的随机信号值;
步骤103、设定噪声模型添加至Actor现实网络中,且设定Actor现实网络的参数θμ的初始值为θμ(0),Critic现实网络的参数θQ的初始值为θQ(0),θμ(0)=θμ'(0),θQ(0)=θQ'(0),θμ'(0)表示Actor目标网络的参数θμ'的初始值,θQ'(0)表示Critic目标网络的参数θQ'的初始值,得到初始DDPG网络模型;其中,θμ(0)和θQ(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数;
步骤104、设定Actor网络学习率为Lr_a,Critic网络学习率为Lr_c;
步骤二、训练数据的获取:
步骤201、设定无人机基站对N个用户进行通信资源分配;
步骤202、无人机获取各个时刻N个用户相对无人机的状态,并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中,获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分;其中,各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配;
步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分,得到T个回放缓存集合,并从T个回放缓存集合中随机采样,得到T个训练数据集;其中,T训练数据集分别为第1个训练数据集,...,第T′个训练数据集,...,第T训练数据集,T′和T均为正整数,且1≤T′≤T,且任一个训练数据集均包括Ns个待训练数据,T个回放缓存集合的大小均为D,且D为正整数;
步骤三、训练迭代以获取网络优化参数和噪声优化参数:
步骤301、采用DDPG算法对第1个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第1次梯度下降训练优化的参数θQ(1)、Actor现实网络第1次梯度上升训练优化的参数θμ(1)、Actor目标网络的参数的第1次更新值θμ'(1)和Critic目标网络的参数的第1次更新值θQ'(1);
同时,采用梯度上升方法分别对μω、σω、εω、μb、σb和εb进行优化,得到第1次优化后的第一高斯噪声均值μω(1)、第1次优化后的第一高斯噪声方差值σω(1)、第1次优化后的第一高斯噪声信号值εω(1)、第1次优化后的第二高斯噪声均值μb(1)、第1次优化后的第二高斯噪声方差值σb(1)和第1次优化后的第二高斯噪声信号值εb(1);
步骤302、多次重复步骤301所述的方法,对第T′个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′)、Actor现实网络第T′次梯度上升训练优化的参数θμ(T′)、Actor目标网络的参数的第T′次更新值θμ'(T′)和Critic目标网络参数的第T′次更新值θQ'(T′);
同时,采用梯度上升方法分别对第T′-1次优化后的μω(T′-1)、σω(T′-1)、εω(T′-1)、μb(T′-1)、σb(T′-1)和εb(T′-1)进行优化,得到第T′次优化后的第一高斯噪声均值μω(T′)、第T′次优化后的第一高斯噪声方差值σω(T′)、第T′次优化后的第一高斯噪声信号值εω(T′)、第T′次优化后的第二高斯噪声均值μb(T′)、第T′次优化后的第二高斯噪声方差值σb(T′)和第T′次优化后的第二高斯噪声信号值εb(T′);
步骤303、多次重复步骤302所述的方法,对第T个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T);
同时,采用梯度上升方法分别对第T-1次优化后的μω(T-1)、σω(T-1)、εω(T-1)、μb(T-1)、σb(T-1)和εb(T-1)进行优化,得到第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T);
步骤四、获取优化后的网络模型:
步骤401、将Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T)分别记作Critic现实网络的优化后的参数θQ*、Actor现实网络的优化后的参数θμ*、Actor目标网络的优化后的参数θμ'*和Critic目标网络的优化后的参数θQ'*
步骤402、将第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T)带入步骤102中,得到优化后的噪声模型;
步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中,得到优化后的网络模型;
步骤五、无人机基站通信资源动态分配策略预测:
步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g进行获取;其中,g为正整数,且g取1,2,...;
步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g输入步骤403中优化后的网络模型,得到第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g所对应的通信资源分配策略at+T·D+g
2.按照权利要求1所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤104中Actor网络学习率Lr_a为(0,1);Critic网络学习率Lr_c为(0,1);
步骤203中T的取值范围为[1000,10000],
Figure FDA0003027645360000041
Ns的取值范围为[300,5000)。
3.按照权利要求1所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤203中得到T个训练数据集的方法均相同,则对第T′个训练数据集进行获取的方法如下:
步骤2031、设定t时刻N个用户相对无人机的状态记作st,且st=(d1(t),…dn(t),…,dN(t));其中,dn(t)表示t时刻无人机到用户n的直线距离,n为正整数,且1≤n≤N,N即用户的总数;
步骤2032、将t时刻N个用户相对无人机的状态st输入初始DDPG网络模型的Actor现实网络中,输出st状态下的通信资源分配策略at
Figure FDA0003027645360000051
其中,Pn(t)表示t时刻无人机对用户n的发射功率,Bn(t)表示t时刻无人机对用户n的带宽分配,且P1(t)+..+Pn(t)+..+PN(t)=Ptotal,B1(t)+..+Bn(t)+..+BN(t)=Btotal,Ptotal表示总功率,Btotal表示总带宽分配;
步骤2033、采用计算机将st状态下的通信资源分配策略和N个用户所处环境交互,得到st状态下资源分配策略at所对应的奖励得分rt
步骤2034、采用计算机将(st,at,rt,st+1)作为第t组训练数据,并将第t组训练数据存入回放缓存集中;其中,t为正整数,且1≤t;
步骤2035、对下一个t+1时刻,按照步骤2031至步骤2034所述的方法,得到第t+1组训练数据,并将第t+1组训练数据存入回放缓存集中,直至回放缓存集中训练数据的组数满足D,得到第T′个回放缓存集合;其中,第一个回放缓存集合包括第t组训练数据~第t+D-1组训练数据,第2个回放缓存集合包括第t+1组训练数据~第t+D组训练数据,第T′个回放缓存集合包括第t+T′-1组训练数据~第t+T′+D-2组训练数据;
步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样Ns个训练数据作为第T′个训练数据集,且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(sj,aj,rj,sj+1);其中,j为正整数,且1≤j≤Ns,sj表示第j组待训练数据中的用户相对无人机的状态,sj+1表示第j个组待训练数据中的用户相对无人机的下一个状态,aj表示第j组待训练数据中的通信资源分配策略,rj表示第j组待训练数据中的奖励得分。
4.按照权利要求3所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤301中采用DDPG算法对第1个训练数据集中Ns个训练数据进行训练,具体过程如下:
步骤3011、当对第1个训练数据集中第j组待训练数据(sj,aj,rj,sj+1)训时,计算机根据公式yj=rj+γ×Q′(sj+1,μ′(sj+1μ′)|θQ′),得到第j组待训练数据的中间参数yj;其中,γ表示折扣因子,μ′(sj+1μ′)表示第j组待训练数据中sj+1经添加噪声模型且参数为θμ'的Actor目标网络输出的通信资源分配策略,Q′(sj+1,μ′(sj+1μ′)|θQ′)表示第j组待训练数据中sj+1和Actor目标网络输出的通信资源分配策略μ′(sj+1μ′)经参数为θQ'的Critic目标网络输出的评估值;
步骤3012、计算机根据公式
Figure FDA0003027645360000061
得到训练时Critic网络的损失函数L(θQ);其中,Q(sj,ajQ)表示第j组待训练数据中sj,aj经过参数为θQ的Critic现实网络输出的评估值;
步骤3013、计算机根据公式
Figure FDA0003027645360000062
得到Critic网络的损失函数L(θQ)关于θQ的梯度函数
Figure FDA0003027645360000063
计算机根据公式
Figure FDA0003027645360000064
得到Critic现实网络第一次梯度下降训练优化的参数θQ(1);其中,
Figure FDA0003027645360000065
表示θQ取θQ(0)后代入梯度函数
Figure FDA0003027645360000066
的梯度值;
步骤3014、计算机根据公式
Figure FDA0003027645360000067
得到Actor的函数J(θμ);并根据公式
Figure FDA0003027645360000068
得到Actor的函数J(θμ)关于θμ的梯度函数
Figure FDA0003027645360000069
计算机根据公式
Figure FDA00030276453600000610
得到Actor现实网络第一次梯度上升训练优化的参数θμ(1);其中,
Figure FDA00030276453600000611
表示θμ取θμ(0)后代入梯度函数
Figure FDA00030276453600000612
的梯度值;
步骤3015、采用计算机根据公式θμ'(1)=τθμ(1)+(1-τ)θμ'(0),得到Actor目标网络的参数的第一次更新值θμ'(1);
采用计算机根据公式θQ'(1)=τθQ(1)+(1-τ)θQ'(0),得到Critic目标网络参数的第一次更新值θQ'(1);
步骤302中对第T′个训练数据集中Ns个待训练数据进行训练,进行训练时:
计算机根据公式
Figure FDA0003027645360000071
得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′);其中,
Figure FDA0003027645360000072
表示θQ取θQ(T′-1)后代入梯度函数
Figure FDA0003027645360000073
的梯度值,θQ(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数;
计算机根据公式
Figure FDA0003027645360000074
得到Actor现实网络第T′次梯度上升训练优化的参数θμ(T′);其中,
Figure FDA0003027645360000075
表示θμ取θμ(T′-1)后代入梯度函数
Figure FDA0003027645360000076
的梯度值,θμ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θμ(T′-1);
采用计算机根据公式θμ'(T′)=τθμ(T′)+(1-τ)θμ'(T′-1),得到Actor目标网络的参数的第T′次更新值θμ'(T′);
采用计算机根据公式θQ'(T′)=τθQ(T′)+(1-τ)θQ'(T′-1),得到Critic目标网络参数的第T′次更新值θQ'(T′)。
5.按照权利要求3所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤2033中采用计算机得到st状态下资源分配策略at所对应的奖励得分rt,具体过程过如下:
步骤A、采用计算机根据公式
Figure FDA0003027645360000077
得到t时刻无人机到用户n信号传输的LoS链路概率
Figure FDA0003027645360000078
其中,a表示与环境相关的第一常数,4.88<a<28,b表示与环境相关的第二常数,0<b<1,h表示无人机的部署高度,dn(t)表示t时刻无人机到用户n的直线距离;
步骤B、采用计算机根据公式
Figure FDA0003027645360000079
得到t时刻无人机到用户n在LoS链路下的路径损耗
Figure FDA00030276453600000710
其中,ξLoS表示LoS链路下的附加损耗,c表示光速,fc表示信号载频;
步骤C、采用计算机根据公式
Figure FDA0003027645360000081
得到t时刻无人机到用户n在NLoS链路下的路径损耗
Figure FDA0003027645360000082
其中,ξNLoS表示NLoS链路下的附加损耗;
步骤D、采用计算机根据公式
Figure FDA0003027645360000083
得到t时刻无人机到用户n的路径损耗Ln(t);
步骤E、采用计算机根据公式
Figure FDA0003027645360000084
得到t时刻用户n的信道容量Cn(t);其中,n0表示信道中高斯白噪声的功率谱密度;
步骤F、采用计算机根据公式
Figure FDA0003027645360000085
得到t时刻所有用户的平均信道容量Cmean(t);
步骤G、采用计算机根据公式
Figure FDA0003027645360000086
得到t时刻无人机通信系统用户n的公平指数fn(t);
步骤H、采用计算机根据公式
Figure FDA0003027645360000087
得到t时刻无人机通信系统的公平指数f(t);其中,f(t)∈[0,1];
步骤I、采用计算机根据rt=f(t)Cmean(t)+λf(t),得到t时刻无人机基站在st状态下资源分配策略的奖励得分rt;其中,λ表示对公平指数不同程度的侧重系数。
6.按照权利要求5所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤I中λ大于0小于100,NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB)。
CN202110420398.4A 2021-04-19 2021-04-19 基于噪声优化的无人机基站通信资源分配策略预测方法 Active CN113115344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110420398.4A CN113115344B (zh) 2021-04-19 2021-04-19 基于噪声优化的无人机基站通信资源分配策略预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110420398.4A CN113115344B (zh) 2021-04-19 2021-04-19 基于噪声优化的无人机基站通信资源分配策略预测方法

Publications (2)

Publication Number Publication Date
CN113115344A true CN113115344A (zh) 2021-07-13
CN113115344B CN113115344B (zh) 2021-12-14

Family

ID=76718465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110420398.4A Active CN113115344B (zh) 2021-04-19 2021-04-19 基于噪声优化的无人机基站通信资源分配策略预测方法

Country Status (1)

Country Link
CN (1) CN113115344B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113939032A (zh) * 2021-12-06 2022-01-14 中国通信建设第四工程局有限公司 一种无人机通信系统及无人机通信系统资源分配优化方法
CN114158010A (zh) * 2021-12-06 2022-03-08 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法
CN114169243A (zh) * 2021-12-10 2022-03-11 浙江辰时科技集团有限公司 Mimo干扰信道下空中计算多任务联邦学习方法
CN114337785A (zh) * 2021-12-30 2022-04-12 陕西锐远信息科技有限公司 太阳能无人机通信能量管理策略、系统、终端及存储介质
CN114594793A (zh) * 2022-03-07 2022-06-07 四川大学 一种基站无人机的路径规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803344A (zh) * 2018-12-28 2019-05-24 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
US20200115047A1 (en) * 2018-10-11 2020-04-16 Beihang University Multi-uav continuous movement control method, apparatus, device, and storage medium for energy efficient communication coverage
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200115047A1 (en) * 2018-10-11 2020-04-16 Beihang University Multi-uav continuous movement control method, apparatus, device, and storage medium for energy efficient communication coverage
CN111045443A (zh) * 2018-10-11 2020-04-21 北京航空航天大学 移动控制方法、装置、设备及存储介质
CN109803344A (zh) * 2018-12-28 2019-05-24 北京邮电大学 一种无人机网络拓扑及路由联合构建方法
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAIXIA PENG ET AL.: "DDPG-based Resource Management for MEC/UAV-Assisted Vehicular Networks", 《IEEE》 *
QIMING YANG ET AL.: "UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm", 《ICCA》 *
朱壬泰: "基于深度增强学习的无人机自主飞行方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113939032A (zh) * 2021-12-06 2022-01-14 中国通信建设第四工程局有限公司 一种无人机通信系统及无人机通信系统资源分配优化方法
CN114158010A (zh) * 2021-12-06 2022-03-08 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法
CN113939032B (zh) * 2021-12-06 2024-06-07 中国通信建设第四工程局有限公司 一种无人机通信系统及无人机通信系统资源分配优化方法
CN114158010B (zh) * 2021-12-06 2024-06-07 中国通信建设第四工程局有限公司 无人机通信系统及基于神经网络的资源分配策略预测方法
CN114169243A (zh) * 2021-12-10 2022-03-11 浙江辰时科技集团有限公司 Mimo干扰信道下空中计算多任务联邦学习方法
CN114337785A (zh) * 2021-12-30 2022-04-12 陕西锐远信息科技有限公司 太阳能无人机通信能量管理策略、系统、终端及存储介质
CN114594793A (zh) * 2022-03-07 2022-06-07 四川大学 一种基站无人机的路径规划方法

Also Published As

Publication number Publication date
CN113115344B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113115344B (zh) 基于噪声优化的无人机基站通信资源分配策略预测方法
CN113162682B (zh) 一种基于pd-noma的多波束leo卫星系统资源分配方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN109743210B (zh) 基于深度强化学习的无人机网络多用户接入控制方法
CN112153616B (zh) 一种基于深度学习的毫米波通信系统中的功率控制方法
CN111479239B (zh) 一种多天线无人机数据采集系统的传感器发射能耗优化方法
CN113359480B (zh) 基于mappo算法多无人机与用户协同通信优化方法
CN116684925B (zh) 一种无人机搭载智能反射面安全移动边缘计算方法
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN109962727B (zh) 临空通信混合波束赋形及非正交多址接入传输方法
CN110290542B (zh) 海上无人机通信覆盖优化方法及系统
CN114339775B (zh) 基于优化的ddpg的ris辅助非授权频谱共存方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN113919483A (zh) 一种无线通信网络中无线电地图的构造和定位方法及其系统
CN116963034A (zh) 一种面向应急场景的空地网络分布式资源调度方法
CN114158010B (zh) 无人机通信系统及基于神经网络的资源分配策略预测方法
CN117858015A (zh) 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法
CN116684852B (zh) 一种山地茂林环境无人机通信资源与悬停位置规划方法
CN117295090A (zh) 一种面向无人机通感一体化系统的资源分配方法
CN116634450A (zh) 一种基于强化学习的动态空地异构网络用户关联增强方法
CN116366127A (zh) 无人机辅助多mec服务器的任务完成率最大化方法
Ren et al. Joint Location, Bandwidth and Computation Offloading for Thz-Enabled Hierarchical Multicoalition UAV MEC Networks
CN117295077B (zh) 一种多小区协同多址地空数据传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant