CN113115344A - 基于噪声优化的无人机基站通信资源分配策略预测方法 - Google Patents
基于噪声优化的无人机基站通信资源分配策略预测方法 Download PDFInfo
- Publication number
- CN113115344A CN113115344A CN202110420398.4A CN202110420398A CN113115344A CN 113115344 A CN113115344 A CN 113115344A CN 202110420398 A CN202110420398 A CN 202110420398A CN 113115344 A CN113115344 A CN 113115344A
- Authority
- CN
- China
- Prior art keywords
- theta
- network
- parameter
- value
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 81
- 238000005457 optimization Methods 0.000 title claims abstract description 81
- 238000013468 resource allocation Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 163
- 230000006870 function Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 21
- 230000000630 rising effect Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008054 signal transmission Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 2
- 230000003595 spectral effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 5
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于噪声优化的无人机基站通信资源分配策略预测方法,该方法包括以下步骤:一、网络模型的建立;二、训练数据的获取;三、训练迭代以获取网络优化参数和噪声优化参数;四、获取优化后的网络模型;五、无人机基站通信资源动态分配策略预测。本发明方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
Description
技术领域
本发明属于无人机基站通信资源动态分配技术领域,尤其是涉及基于噪声优化的无人机基站通信资源分配策略预测方法。
背景技术
在未来5G/B5G移动通信中,蜂窝连接无人机将会是至关重要的一环。无人机搭载大规模MIMO天线阵列配合高精度的波束赋形方式,可以形成指向性强、增益高的窄波束,在减少邻居干扰的同时有效克服毫米波及其以上频段衰减巨大的现实问题。同时,搭配有效的功率控制和带宽资源分配策略,能在有限的通信资源条件下提升通信系统性能。因此,需要对无人机基站通信资源动态分配策略进行预测,确保提升通信系统性能。
目前,对无人机基站通信资源动态分配一般是通过无人机航迹优化、DDPG算法、DQN算法,无人机航迹优化不能有效地结合各个用户的动态,不能实现预测;DDPG算法仅对无人机的运动和带宽分配进行控制;DQN算法实现了无人机适应地面用户移动的同时最大化信道容量,然而由于每架无人机给每个用户只能分配额定的子信道,带宽分配的灵活性有待优化。
因此,现如今缺少基于噪声优化的无人机基站通信资源分配策略预测方法,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于噪声优化的无人机基站通信资源分配策略预测方法,其方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
为解决上述技术问题,本发明采用的技术方案是:基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于,该方法包括以下步骤:
步骤一、网络模型的建立:
步骤101、设定Actor现实网络的参数为θμ,Critic现实网络的参数为θQ,Actor目标网络的参数为θμ',Critic目标网络的参数为θQ';
步骤102、设定噪声模型为s′=(μω+σω×εω)s+μb+σb×εb;其中,s′表示施加噪声后的用户相对无人机的状态,s表示用户相对无人机的状态,μω表示第一高斯噪声均值,σω表示第一高斯噪声方差值,μb表示第二高斯噪声均值,σb表示第二高斯噪声方差值,σω的初始值记作σω(0),且σω(0)=0,σb的初始值记作σb(0),且σb(0)=0,μω的初始值记作μω(0),且μω(0)=0,μb的初始值记作μb(0),且μb(0)=0,εω表示第一高斯噪声的随机信号值,εb表示第二高斯噪声的随机信号值;
步骤103、设定噪声模型添加至Actor现实网络中,且设定Actor现实网络的参数θμ的初始值为θμ(0),Critic现实网络的参数θQ的初始值为θQ(0),θμ(0)=θμ'(0),θQ(0)=θQ'(0),θμ'(0)表示Actor目标网络的参数θμ'的初始值,θQ'(0)表示Critic目标网络的参数θQ'的初始值,得到初始DDPG网络模型;其中,θμ(0)和θQ(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数;
步骤104、设定Actor网络学习率为Lr_a,Critic网络学习率为Lr_c;
步骤二、训练数据的获取:
步骤201、设定无人机基站对N个用户进行通信资源分配;
步骤202、无人机获取各个时刻N个用户相对无人机的状态,并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中,获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分;其中,各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配;
步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分,得到T个回放缓存集合,并从T个回放缓存集合中随机采样,得到T个训练数据集;其中,T训练数据集分别为第1个训练数据集,...,第T′个训练数据集,...,第T训练数据集,T′和T均为正整数,且1≤T′≤T,且任一个训练数据集均包括Ns个待训练数据,T个回放缓存集合的大小均为D,且D为正整数;
步骤三、训练迭代以获取网络优化参数和噪声优化参数:
步骤301、采用DDPG算法对第1个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第1次梯度下降训练优化的参数θQ(1)、Actor现实网络第1次梯度上升训练优化的参数θμ(1)、Actor目标网络的参数的第1次更新值θμ'(1)和Critic目标网络的参数的第1次更新值θQ'(1);
同时,采用梯度上升方法分别对μω、σω、εω、μb、σb和εb进行优化,得到第1次优化后的第一高斯噪声均值μω(1)、第1次优化后的第一高斯噪声方差值σω(1)、第1次优化后的第一高斯噪声信号值εω(1)、第1次优化后的第二高斯噪声均值μb(1)、第1次优化后的第二高斯噪声方差值σb(1)和第1次优化后的第二高斯噪声信号值εb(1);
步骤302、多次重复步骤301所述的方法,对第T′个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′)、Actor现实网络第T′次梯度上升训练优化的参数θμ(T′)、Actor目标网络的参数的第T′次更新值θμ'(T′)和Critic目标网络参数的第T′次更新值θQ'(T′);
同时,采用梯度上升方法分别对第T′-1次优化后的μω(T′-1)、σω(T′-1)、εω(T′-1)、μb(T′-1)、σb(T′-1)和εb(T′-1)进行优化,得到第T′次优化后的第一高斯噪声均值μω(T′)、第T′次优化后的第一高斯噪声方差值σω(T′)、第T′次优化后的第一高斯噪声信号值εω(T′)、第T′次优化后的第二高斯噪声均值μb(T′)、第T′次优化后的第二高斯噪声方差值σb(T′)和第T′次优化后的第二高斯噪声信号值εb(T′);
步骤303、多次重复步骤302所述的方法,对第T个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T);
同时,采用梯度上升方法分别对第T-1次优化后的μω(T-1)、σω(T-1)、εω(T-1)、μb(T-1)、σb(T-1)和εb(T-1)进行优化,得到第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T);
步骤四、获取优化后的网络模型:
步骤401、将Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T)分别记作Critic现实网络的优化后的参数Actor现实网络的优化后的参数、Actor目标网络的优化后的参数和Critic目标网络的优化后的参数;
步骤402、将第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T)带入步骤102中,得到优化后的噪声模型;
步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中,得到优化后的网络模型;
步骤五、无人机基站通信资源动态分配策略预测:
步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g进行获取;其中,g为正整数,且g取1,2,...;
步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g输入步骤403中优化后的网络模型,得到第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g所对应的通信资源分配策略at+T·D+g。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤104中Actor网络学习率Lr_a为(0,1);Critic网络学习率Lr_c为(0,1);
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤203中得到T个训练数据集的方法均相同,则对第T′个训练数据集进行获取的方法如下:
步骤2031、设定t时刻N个用户相对无人机的状态记作st,且st=(d1(t),…dn(t),…,dN(t));其中,dn(t)表示t时刻无人机到用户n的直线距离,n为正整数,且1≤n≤N,N即用户的总数;
步骤2032、将t时刻N个用户相对无人机的状态st输入初始DDPG网络模型的Actor现实网络中,输出st状态下的通信资源分配策略at且其中,Pn(t)表示t时刻无人机对用户n的发射功率,Bn(t)表示t时刻无人机对用户n的带宽分配,且P1(t)+..+Pn(t)+..+PN(t)=Ptotal,B1(t)+..+Bn(t)+..+BN(t)=Btotal,Ptotal表示总功率,Btotal表示总带宽分配;
步骤2033、采用计算机将st状态下的通信资源分配策略和N个用户所处环境交互,得到st状态下资源分配策略at所对应的奖励得分rt;
步骤2034、采用计算机将(st,at,rt,st+1)作为第t组训练数据,并将第t组训练数据存入回放缓存集中;其中,t为正整数,且1≤t;
步骤2035、对下一个t+1时刻,按照步骤2031至步骤2034所述的方法,得到第t+1组训练数据,并将第t+1组训练数据存入回放缓存集中,直至回放缓存集中训练数据的组数满足D,得到第T′个回放缓存集合;其中,第一个回放缓存集合包括第t组训练数据~第t+D-1组训练数据,第2个回放缓存集合包括第t+1组训练数据~第t+D组训练数据,第T′个回放缓存集合包括第t+T′-1组训练数据~第t+T′+D-2组训练数据;
步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样Ns个训练数据作为第T′个训练数据集,且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(sj,aj,rj,sj+1);其中,j为正整数,且1≤j≤Ns,sj表示第j组待训练数据中的用户相对无人机的状态,sj+1表示第j个组待训练数据中的用户相对无人机的下一个状态,aj表示第j组待训练数据中的通信资源分配策略,rj表示第j组待训练数据中的奖励得分。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤301中采用DDPG算法对第1个训练数据集中Ns个训练数据进行训练,具体过程如下:
步骤3011、当对第1个训练数据集中第j组待训练数据(sj,aj,rj,sj+1)训时,计算机根据公式yj=rj+γ×Q′(sj+1,μ′(sj+1|θμ′)|θQ′),得到第j组待训练数据的中间参数yj;其中,γ表示折扣因子,μ′(sj+1|θμ′)表示第j组待训练数据中sj+1经添加噪声模型且参数为θμ'的Actor目标网络输出的通信资源分配策略,Q′(sj+1,μ′(sj+1|θμ′)|θQ′)表示第j组待训练数据中sj+1和Actor目标网络输出的通信资源分配策略μ′(sj+1|θμ′)经参数为θQ'的Critic目标网络输出的评估值;
计算机根据公式θQ(1)=θQ(0)-Lr-c×▽L(θQ)|θQ(0),得到Critic现实网络第一次梯度下降训练优化的参数θQ(1);其中,▽L(θQ)|θQ(0)表示θQ取θQ(0)后代入梯度函数▽L(θQ)的梯度值;
计算机根据公式θμ(1)=θμ(0)+Lr-a×▽J(θμ)|θμ(0),得到Actor现实网络第一次梯度上升训练优化的参数θμ(1);其中,▽L(θμ)|θμ(0)表示θμ取θμ(0)后代入梯度函数▽J(θμ)的梯度值;
步骤3015、采用计算机根据公式θμ'(1)=τθμ(1)+(1-τ)θμ'(0),得到Actor目标网络的参数的第一次更新值θμ'(1);
采用计算机根据公式θQ'(1)=τθQ(1)+(1-τ)θQ'(0),得到Critic目标网络参数的第一次更新值θQ'(1);
步骤302中对第T′个训练数据集中Ns个待训练数据进行训练,进行训练时:
计算机根据公式θQ(T′)=θQ(T′-1)-Lr-c×▽L(θQ)|θQ(T′-1),得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′);其中,▽L(θQ)|θQ(T′-1)表示θQ取θQ(T′-1)后代入梯度函数▽L(θQ)的梯度值,θQ(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数;
计算机根据公式θμ(T′)=θμ(T′-1)+Lr-a×▽J(θμ)|θμ(T′-1),得到Actor现实网络第T′次梯度上升训练优化的参数θμ(T′);其中,▽J(θμ)|θμ(T′-1)表示θμ取θμ(T′-1)后代入梯度函数▽J(θμ)的梯度值,θμ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θμ(T′-1);
采用计算机根据公式θμ'(T′)=τθμ(T′)+(1-τ)θμ'(T′-1),得到Actor目标网络的参数的第T′次更新值θμ'(T′);
采用计算机根据公式θQ'(T′)=τθQ(T′)+(1-τ)θQ'(T′-1),得到Critic目标网络参数的第T′次更新值θQ'(T′)。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤2033中采用计算机得到st状态下资源分配策略at所对应的奖励得分rt,具体过程过如下:
步骤A、采用计算机根据公式得到t时刻无人机到用户n信号传输的LoS链路概率其中,a表示与环境相关的第一常数,4.88<a<28,b表示与环境相关的第二常数,0<b<1,h表示无人机的部署高度,dn(t)表示t时刻无人机到用户n的直线距离;
步骤I、采用计算机根据rt=f(t)Cmean(t)+λf(t),得到t时刻无人机基站在st状态下资源分配策略的奖励得分rt;其中,λ表示对公平指数不同程度的侧重系数。
上述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤I中λ大于0小于100,NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB)。
本发明与现有技术相比具有以下优点:
1、本发明方法步骤简单、设计合理,实现无人机基站通信资源动态分配策略的预测。
2、本发明所采用的方法首先是网络模型的建立,然后是训练数据的获取,通过训练数据输入建立的网络模型,进行训练迭代以获取网络优化参数和噪声优化参数,接着根据Critic现实网络的优化后的参数、Actor现实网络的优化后的参数、Actor目标网络的优化后的参数和Critic目标网络的优化后的参数以及优化后的噪声模型,得到优化后的网络模型;最后将各个后续时刻用户相对无人机的状态输入优化后的网络模型,以得到用户相对无人机的状态所对应的通信资源分配策略。
3、本发明中采用DDPG算法对Critic现实网络的参数、Actor现实网络的参数、Actor目标网络的参数和Critic目标网络的参数进行训练迭代,同时采用梯度上升方法对噪声模型中各个参数进行优化,通过噪声模型中各个参数进行优化能增大通信资源分配策略的探索空间,这样通过网络参数和噪声参数的同步优化相比仅DDPG算法优化,提高了优化后的网络模型的准确性。
4、本发明获取训练数据过程中,各个采样时刻用户相对无人机的状态下的通信资源分配策略均包括各个时刻无人机对用户的发射功率和各个时刻无人机对用户的带宽分配,因此,不仅对发射功率进行策略分配,而且对带宽分配进行策略分配,提高了分配的灵活性。
综上所述,本发明方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程框图。
具体实施方式
如图1所示的基于噪声优化的无人机基站通信资源分配策略预测方法,包括以下步骤:
步骤一、网络模型的建立:
步骤101、设定Actor现实网络的参数为θμ,Critic现实网络的参数为θQ,Actor目标网络的参数为θμ',Critic目标网络的参数为θQ';
步骤102、设定噪声模型为s′=(μω+σω×εω)s+μb+σb×εb;其中,s′表示施加噪声后的用户相对无人机的状态,s表示用户相对无人机的状态,μω表示第一高斯噪声均值,σω表示第一高斯噪声方差值,μb表示第二高斯噪声均值,σb表示第二高斯噪声方差值,σω的初始值记作σω(0),且σω(0)=0,σb的初始值记作σb(0),且σb(0)=0,μω的初始值记作μω(0),且μω(0)=0,μb的初始值记作μb(0),且μb(0)=0,εω表示第一高斯噪声的随机信号值,εb表示第二高斯噪声的随机信号值,⊙表示点乘;
步骤103、设定噪声模型添加至Actor现实网络中,且设定Actor现实网络的参数θμ的初始值为θμ(0),Critic现实网络的参数θQ的初始值为θQ(0),θμ(0)=θμ'(0),θQ(0)=θQ'(0),θμ'(0)表示Actor目标网络的参数θμ'的初始值,θQ'(0)表示Critic目标网络的参数θQ'的初始值,得到初始DDPG网络模型;其中,θμ(0)和θQ(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数;
步骤104、设定Actor网络学习率为Lr_a,Critic网络学习率为Lr_c;
步骤二、训练数据的获取:
步骤201、设定无人机基站对N个用户进行通信资源分配;
步骤202、无人机获取各个时刻N个用户相对无人机的状态,并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中,获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分;其中,各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配;
步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分,得到T个回放缓存集合,并从T个回放缓存集合中随机采样,得到T个训练数据集;其中,T训练数据集分别为第1个训练数据集,...,第T′个训练数据集,...,第T训练数据集,T′和T均为正整数,且1≤T′≤T,且任一个训练数据集均包括Ns个待训练数据,T个回放缓存集合的大小均为D,且D为正整数;
步骤三、训练迭代以获取网络优化参数和噪声优化参数:
步骤301、采用DDPG算法对第1个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第1次梯度下降训练优化的参数θQ(1)、Actor现实网络第1次梯度上升训练优化的参数θμ(1)、Actor目标网络的参数的第1次更新值θμ'(1)和Critic目标网络的参数的第1次更新值θQ'(1);
同时,采用梯度上升方法分别对μω、σω、εω、μb、σb和εb进行优化,得到第1次优化后的第一高斯噪声均值μω(1)、第1次优化后的第一高斯噪声方差值σω(1)、第1次优化后的第一高斯噪声信号值εω(1)、第1次优化后的第二高斯噪声均值μb(1)、第1次优化后的第二高斯噪声方差值σb(1)和第1次优化后的第二高斯噪声信号值εb(1);
步骤302、多次重复步骤301所述的方法,对第T′个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′)、Actor现实网络第T′次梯度上升训练优化的参数θμ(T′)、Actor目标网络的参数的第T′次更新值θμ'(T′)和Critic目标网络参数的第T′次更新值θQ'(T′);
同时,采用梯度上升方法分别对第T′-1次优化后的μω(T′-1)、σω(T′-1)、εω(T′-1)、μb(T′-1)、σb(T′-1)和εb(T′-1)进行优化,得到第T′次优化后的第一高斯噪声均值μω(T′)、第T′次优化后的第一高斯噪声方差值σω(T′)、第T′次优化后的第一高斯噪声信号值εω(T′)、第T′次优化后的第二高斯噪声均值μb(T′)、第T′次优化后的第二高斯噪声方差值σb(T′)和第T′次优化后的第二高斯噪声信号值εb(T′);
步骤303、多次重复步骤302所述的方法,对第T个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T);
同时,采用梯度上升方法分别对第T-1次优化后的μω(T-1)、σω(T-1)、εω(T-1)、μb(T-1)、σb(T-1)和εb(T-1)进行优化,得到第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T);
步骤四、获取优化后的网络模型:
步骤401、将Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T)分别记作Critic现实网络的优化后的参数Actor现实网络的优化后的参数、Actor目标网络的优化后的参数和Critic目标网络的优化后的参数;
步骤402、将第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T)带入步骤102中,得到优化后的噪声模型;
步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中,得到优化后的网络模型;
步骤五、无人机基站通信资源动态分配策略预测:
步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g进行获取;其中,g为正整数,且g取1,2,...;
步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g输入步骤403中优化后的网络模型,得到第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g所对应的通信资源分配策略at+T·D+g。
本实施例中,步骤104中Actor网络学习率Lr_a为(0,1);Critic网络学习率Lr_c为(0,1);
本实施例中,步骤203中得到T个训练数据集的方法均相同,则对第T′个训练数据集进行获取的方法如下:
步骤2031、设定t时刻N个用户相对无人机的状态记作st,且st=(d1(t),…dn(t),…,dN(t));其中,dn(t)表示t时刻无人机到用户n的直线距离,n为正整数,且1≤n≤N,N即用户的总数;
步骤2032、将t时刻N个用户相对无人机的状态st输入初始DDPG网络模型的Actor现实网络中,输出st状态下的通信资源分配策略at且其中,Pn(t)表示t时刻无人机对用户n的发射功率,Bn(t)表示t时刻无人机对用户n的带宽分配,且P1(t)+..+Pn(t)+..+PN(t)=Ptotal,B1(t)+..+Bn(t)+..+BN(t)=Btotal,Ptotal表示总功率,Btotal表示总带宽分配;
步骤2033、采用计算机将st状态下的通信资源分配策略和N个用户所处环境交互,得到st状态下资源分配策略at所对应的奖励得分rt;
步骤2034、采用计算机将(st,at,rt,st+1)作为第t组训练数据,并将第t组训练数据存入回放缓存集中;其中,t为正整数,且1≤t;
步骤2035、对下一个t+1时刻,按照步骤2031至步骤2034所述的方法,得到第t+1组训练数据,并将第t+1组训练数据存入回放缓存集中,直至回放缓存集中训练数据的组数满足D,得到第T′个回放缓存集合;其中,第一个回放缓存集合包括第t组训练数据~第t+D-1组训练数据,第2个回放缓存集合包括第t+1组训练数据~第t+D组训练数据,第T′个回放缓存集合包括第t+T′-1组训练数据~第t+T′+D-2组训练数据;
步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样Ns个训练数据作为第T′个训练数据集,且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(sj,aj,rj,sj+1);其中,j为正整数,且1≤j≤Ns,sj表示第j组待训练数据中的用户相对无人机的状态,sj+1表示第j个组待训练数据中的用户相对无人机的下一个状态,aj表示第j组待训练数据中的通信资源分配策略,rj表示第j组待训练数据中的奖励得分。
本实施例中,步骤301中采用DDPG算法对第1个训练数据集中Ns个训练数据进行训练,具体过程如下:
步骤3011、当对第1个训练数据集中第j组待训练数据(sj,aj,rj,sj+1)训时,计算机根据公式yj=rj+γ×Q′(sj+1,μ′(sj+1|θμ′)|θQ′),得到第j组待训练数据的中间参数yj;其中,γ表示折扣因子,μ′(sj+1|θμ′)表示第j组待训练数据中sj+1经添加噪声模型且参数为θμ'的Actor目标网络输出的通信资源分配策略,Q′(sj+1,μ′(sj+1|θμ′)|θQ′)表示第j组待训练数据中sj+1和Actor目标网络输出的通信资源分配策略μ′(sj+1|θμ′)经参数为θQ'的Critic目标网络输出的评估值;
计算机根据公式θQ(1)=θQ(0)-Lr-c×▽L(θQ)|θQ(0),得到Critic现实网络第一次梯度下降训练优化的参数θQ(1);其中,▽L(θQ)|θQ(0)表示θQ取θQ(0)后代入梯度函数▽L(θQ)的梯度值;
计算机根据公式θμ(1)=θμ(0)+Lr-a×▽J(θμ)|θμ(0),得到Actor现实网络第一次梯度上升训练优化的参数θμ(1);其中,▽L(θμ)|θμ(0)表示θμ取θμ(0)后代入梯度函数▽J(θμ)的梯度值;
步骤3015、采用计算机根据公式θμ'(1)=τθμ(1)+(1-τ)θμ'(0),得到Actor目标网络的参数的第一次更新值θμ'(1);
采用计算机根据公式θQ'(1)=τθQ(1)+(1-τ)θQ'(0),得到Critic目标网络参数的第一次更新值θQ'(1);
步骤302中对第T′个训练数据集中Ns个待训练数据进行训练,进行训练时:
计算机根据公式θQ(T′)=θQ(T′-1)-Lr-c×▽L(θQ)|θQ(T′-1),得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′);其中,▽L(θQ)|θQ(T′-1)表示θQ取θQ(T′-1)后代入梯度函数▽L(θQ)的梯度值,θQ(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数;
计算机根据公式θμ(T′)=θμ(T′-1)+Lr-a×▽J(θμ)|θμ(T′-1),得到Actor现实网络第T′次梯度上升训练优化的参数θμ(T′);其中,▽J(θμ)|θμ(T′-1)表示θμ取θμ(T′-1)后代入梯度函数▽J(θμ)的梯度值,θμ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θμ(T′-1);
采用计算机根据公式θμ'(T′)=τθμ(T′)+(1-τ)θμ'(T′-1),得到Actor目标网络的参数的第T′次更新值θμ'(T′);
采用计算机根据公式θQ'(T′)=τθQ(T′)+(1-τ)θQ'(T′-1),得到Critic目标网络参数的第T′次更新值θQ'(T′)。
本实施例中,步骤2033中采用计算机得到st状态下资源分配策略at所对应的奖励得分rt,具体过程过如下:
步骤A、采用计算机根据公式得到t时刻无人机到用户n信号传输的LoS链路概率其中,a表示与环境相关的第一常数,4.88<a<28,b表示与环境相关的第二常数,0<b<1,h表示无人机的部署高度,dn(t)表示t时刻无人机到用户n的直线距离;
步骤I、采用计算机根据rt=f(t)Cmean(t)+λf(t),得到t时刻无人机基站在st状态下资源分配策略的奖励得分rt;其中,λ表示对公平指数不同程度的侧重系数。
本实施例中,步骤I中λ大于0小于100,NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB)。
本实施例中,折扣因子γ为(0,1),软更新参数τ为(0,1)。
本实施例中,进一步优选,Actor网络学习率Lr_a为1×10-4,Critic网络学习率Lr_c为1×10-3,折扣因子γ为0.97,软更新参数τ为0.01。
本实施例中,与环境相关的第一常数a为9.61,与环境相关的第二常数b为0.28。
本实施例中,进一步优选,LoS链路下的附加损耗ξLoS为1dB,NLoS链路下的附加损耗ξNLoS为20dB。
本实施例中,对公平指数不同程度的侧重系数λ为10。
本实施例中,总功率Ptotal为1W,Btotal表示总带宽分配为50MHz。
本实施例中,需要说明的是,第T′-1次优化后的第一高斯噪声均值为μω(T′-1),第T′-1次优化后的第一高斯噪声方差值为σω(T′-1),第T′-1次优化后的第一高斯噪声信号值为εω(T′-1),第T′-1次优化后的第二高斯噪声均值为μb(T′-1),第T′-1次优化后的第二高斯噪声方差值为σb(T′-1)和第T′-1次优化后的第二高斯噪声信号值为εb(T′-1)。
本实施例中,需要说明的是,第T-1次优化后的第一高斯噪声均值为μω(T-1),第T-1次优化后的第一高斯噪声方差值为σω(T-1),第T-1次优化后的第一高斯噪声信号值为εω(T-1),第T-1次优化后的第二高斯噪声均值为μb(T-1),第T-1次优化后的第二高斯噪声方差值为σb(T-1)和第T-1次优化后的第二高斯噪声信号值为εb(T-1)。
综上所述,本发明方法步骤简单,设计合理,能增大通信资源分配策略的探索空间,提高了优化后的网络模型的准确性,有效地适应各个用户的动态状态以预测输出合理的通信资源分配策略。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (6)
1.一种基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于,该方法包括以下步骤:
步骤一、网络模型的建立:
步骤101、设定Actor现实网络的参数为θμ,Critic现实网络的参数为θQ,Actor目标网络的参数为θμ',Critic目标网络的参数为θQ';
步骤102、设定噪声模型为s′=(μω+σω×εω)s+μb+σb×εb;其中,s′表示施加噪声后的用户相对无人机的状态,s表示用户相对无人机的状态,μω表示第一高斯噪声均值,σω表示第一高斯噪声方差值,μb表示第二高斯噪声均值,σb表示第二高斯噪声方差值,σω的初始值记作σω(0),且σω(0)=0,σb的初始值记作σb(0),且σb(0)=0,μω的初始值记作μω(0),且μω(0)=0,μb的初始值记作μb(0),且μb(0)=0,εω表示第一高斯噪声的随机信号值,εb表示第二高斯噪声的随机信号值;
步骤103、设定噪声模型添加至Actor现实网络中,且设定Actor现实网络的参数θμ的初始值为θμ(0),Critic现实网络的参数θQ的初始值为θQ(0),θμ(0)=θμ'(0),θQ(0)=θQ'(0),θμ'(0)表示Actor目标网络的参数θμ'的初始值,θQ'(0)表示Critic目标网络的参数θQ'的初始值,得到初始DDPG网络模型;其中,θμ(0)和θQ(0)均为以0为均值、以0.1为标准差的正态分布曲线上的随机数;
步骤104、设定Actor网络学习率为Lr_a,Critic网络学习率为Lr_c;
步骤二、训练数据的获取:
步骤201、设定无人机基站对N个用户进行通信资源分配;
步骤202、无人机获取各个时刻N个用户相对无人机的状态,并将各个时刻N个用户相对无人机的状态输入初始DDPG网络模型的Actor现实网络中,获取各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分;其中,各个采样时刻N个用户相对无人机的状态下的通信资源分配策略均包括各个采样时刻无人机对N个用户的发射功率和各个采样时刻无人机对N个用户的带宽分配;
步骤203、计算机根据各个采样时刻N个用户相对无人机的状态下的通信资源分配策略和与该通信资源分配策略所对应的奖励得分,得到T个回放缓存集合,并从T个回放缓存集合中随机采样,得到T个训练数据集;其中,T训练数据集分别为第1个训练数据集,...,第T′个训练数据集,...,第T训练数据集,T′和T均为正整数,且1≤T′≤T,且任一个训练数据集均包括Ns个待训练数据,T个回放缓存集合的大小均为D,且D为正整数;
步骤三、训练迭代以获取网络优化参数和噪声优化参数:
步骤301、采用DDPG算法对第1个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第1次梯度下降训练优化的参数θQ(1)、Actor现实网络第1次梯度上升训练优化的参数θμ(1)、Actor目标网络的参数的第1次更新值θμ'(1)和Critic目标网络的参数的第1次更新值θQ'(1);
同时,采用梯度上升方法分别对μω、σω、εω、μb、σb和εb进行优化,得到第1次优化后的第一高斯噪声均值μω(1)、第1次优化后的第一高斯噪声方差值σω(1)、第1次优化后的第一高斯噪声信号值εω(1)、第1次优化后的第二高斯噪声均值μb(1)、第1次优化后的第二高斯噪声方差值σb(1)和第1次优化后的第二高斯噪声信号值εb(1);
步骤302、多次重复步骤301所述的方法,对第T′个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′)、Actor现实网络第T′次梯度上升训练优化的参数θμ(T′)、Actor目标网络的参数的第T′次更新值θμ'(T′)和Critic目标网络参数的第T′次更新值θQ'(T′);
同时,采用梯度上升方法分别对第T′-1次优化后的μω(T′-1)、σω(T′-1)、εω(T′-1)、μb(T′-1)、σb(T′-1)和εb(T′-1)进行优化,得到第T′次优化后的第一高斯噪声均值μω(T′)、第T′次优化后的第一高斯噪声方差值σω(T′)、第T′次优化后的第一高斯噪声信号值εω(T′)、第T′次优化后的第二高斯噪声均值μb(T′)、第T′次优化后的第二高斯噪声方差值σb(T′)和第T′次优化后的第二高斯噪声信号值εb(T′);
步骤303、多次重复步骤302所述的方法,对第T个训练数据集中Ns个待训练数据进行训练,得到Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T);
同时,采用梯度上升方法分别对第T-1次优化后的μω(T-1)、σω(T-1)、εω(T-1)、μb(T-1)、σb(T-1)和εb(T-1)进行优化,得到第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T);
步骤四、获取优化后的网络模型:
步骤401、将Critic现实网络第T次梯度下降训练优化的参数θQ(T)、Actor现实网络第T次梯度上升训练优化的参数θμ(T)、Actor目标网络的参数的第T次更新值θμ'(T)和Critic目标网络参数的第T次更新值θQ'(T)分别记作Critic现实网络的优化后的参数θQ*、Actor现实网络的优化后的参数θμ*、Actor目标网络的优化后的参数θμ'*和Critic目标网络的优化后的参数θQ'*;
步骤402、将第T次优化后的第一高斯噪声均值μω(T)、第T次优化后的第一高斯噪声方差值σω(T)、第T次优化后的第一高斯噪声信号值εω(T)、第T次优化后的第二高斯噪声均值μb(T)、第T次优化后的第二高斯噪声方差值σb(T)和第T次优化后的第二高斯噪声信号值εb(T)带入步骤102中,得到优化后的噪声模型;
步骤403、将优化后的噪声模型添加至步骤401中的Actor现实网络中,得到优化后的网络模型;
步骤五、无人机基站通信资源动态分配策略预测:
步骤501、对第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g进行获取;其中,g为正整数,且g取1,2,...;
步骤502、将步骤501中的第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g输入步骤403中优化后的网络模型,得到第t+T·D+g个时刻N个用户相对无人机的状态st+T·D+g所对应的通信资源分配策略at+T·D+g。
3.按照权利要求1所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤203中得到T个训练数据集的方法均相同,则对第T′个训练数据集进行获取的方法如下:
步骤2031、设定t时刻N个用户相对无人机的状态记作st,且st=(d1(t),…dn(t),…,dN(t));其中,dn(t)表示t时刻无人机到用户n的直线距离,n为正整数,且1≤n≤N,N即用户的总数;
步骤2032、将t时刻N个用户相对无人机的状态st输入初始DDPG网络模型的Actor现实网络中,输出st状态下的通信资源分配策略at且其中,Pn(t)表示t时刻无人机对用户n的发射功率,Bn(t)表示t时刻无人机对用户n的带宽分配,且P1(t)+..+Pn(t)+..+PN(t)=Ptotal,B1(t)+..+Bn(t)+..+BN(t)=Btotal,Ptotal表示总功率,Btotal表示总带宽分配;
步骤2033、采用计算机将st状态下的通信资源分配策略和N个用户所处环境交互,得到st状态下资源分配策略at所对应的奖励得分rt;
步骤2034、采用计算机将(st,at,rt,st+1)作为第t组训练数据,并将第t组训练数据存入回放缓存集中;其中,t为正整数,且1≤t;
步骤2035、对下一个t+1时刻,按照步骤2031至步骤2034所述的方法,得到第t+1组训练数据,并将第t+1组训练数据存入回放缓存集中,直至回放缓存集中训练数据的组数满足D,得到第T′个回放缓存集合;其中,第一个回放缓存集合包括第t组训练数据~第t+D-1组训练数据,第2个回放缓存集合包括第t+1组训练数据~第t+D组训练数据,第T′个回放缓存集合包括第t+T′-1组训练数据~第t+T′+D-2组训练数据;
步骤2036、采用计算机从步骤2035中的第T′个回放缓存集合中随机采样Ns个训练数据作为第T′个训练数据集,且按照采样时间先后顺序将第T′个训练数据集中第j组待训练数据记作(sj,aj,rj,sj+1);其中,j为正整数,且1≤j≤Ns,sj表示第j组待训练数据中的用户相对无人机的状态,sj+1表示第j个组待训练数据中的用户相对无人机的下一个状态,aj表示第j组待训练数据中的通信资源分配策略,rj表示第j组待训练数据中的奖励得分。
4.按照权利要求3所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤301中采用DDPG算法对第1个训练数据集中Ns个训练数据进行训练,具体过程如下:
步骤3011、当对第1个训练数据集中第j组待训练数据(sj,aj,rj,sj+1)训时,计算机根据公式yj=rj+γ×Q′(sj+1,μ′(sj+1|θμ′)|θQ′),得到第j组待训练数据的中间参数yj;其中,γ表示折扣因子,μ′(sj+1|θμ′)表示第j组待训练数据中sj+1经添加噪声模型且参数为θμ'的Actor目标网络输出的通信资源分配策略,Q′(sj+1,μ′(sj+1|θμ′)|θQ′)表示第j组待训练数据中sj+1和Actor目标网络输出的通信资源分配策略μ′(sj+1|θμ′)经参数为θQ'的Critic目标网络输出的评估值;
步骤3015、采用计算机根据公式θμ'(1)=τθμ(1)+(1-τ)θμ'(0),得到Actor目标网络的参数的第一次更新值θμ'(1);
采用计算机根据公式θQ'(1)=τθQ(1)+(1-τ)θQ'(0),得到Critic目标网络参数的第一次更新值θQ'(1);
步骤302中对第T′个训练数据集中Ns个待训练数据进行训练,进行训练时:
计算机根据公式得到Critic现实网络第T′次梯度下降训练优化的参数θQ(T′);其中,表示θQ取θQ(T′-1)后代入梯度函数的梯度值,θQ(T′-1)表示Critic现实网络第T′-1次梯度下降训练优化的参数;
计算机根据公式得到Actor现实网络第T′次梯度上升训练优化的参数θμ(T′);其中,表示θμ取θμ(T′-1)后代入梯度函数的梯度值,θμ(T′-1)表示Actor现实网络第T′-1次梯度上升训练优化的参数θμ(T′-1);
采用计算机根据公式θμ'(T′)=τθμ(T′)+(1-τ)θμ'(T′-1),得到Actor目标网络的参数的第T′次更新值θμ'(T′);
采用计算机根据公式θQ'(T′)=τθQ(T′)+(1-τ)θQ'(T′-1),得到Critic目标网络参数的第T′次更新值θQ'(T′)。
5.按照权利要求3所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤2033中采用计算机得到st状态下资源分配策略at所对应的奖励得分rt,具体过程过如下:
步骤A、采用计算机根据公式得到t时刻无人机到用户n信号传输的LoS链路概率其中,a表示与环境相关的第一常数,4.88<a<28,b表示与环境相关的第二常数,0<b<1,h表示无人机的部署高度,dn(t)表示t时刻无人机到用户n的直线距离;
步骤I、采用计算机根据rt=f(t)Cmean(t)+λf(t),得到t时刻无人机基站在st状态下资源分配策略的奖励得分rt;其中,λ表示对公平指数不同程度的侧重系数。
6.按照权利要求5所述的基于噪声优化的无人机基站通信资源分配策略预测方法,其特征在于:步骤I中λ大于0小于100,NLoS链路下的附加损耗ξNLoS大于LoS链路下的附加损耗ξLoS,LoS链路下的附加损耗ξLoS的取值范围为(0dB,50dB),NLoS链路下的附加损耗ξNLoS的取值范围为(10dB,100dB)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110420398.4A CN113115344B (zh) | 2021-04-19 | 2021-04-19 | 基于噪声优化的无人机基站通信资源分配策略预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110420398.4A CN113115344B (zh) | 2021-04-19 | 2021-04-19 | 基于噪声优化的无人机基站通信资源分配策略预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113115344A true CN113115344A (zh) | 2021-07-13 |
CN113115344B CN113115344B (zh) | 2021-12-14 |
Family
ID=76718465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110420398.4A Active CN113115344B (zh) | 2021-04-19 | 2021-04-19 | 基于噪声优化的无人机基站通信资源分配策略预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113115344B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113939032A (zh) * | 2021-12-06 | 2022-01-14 | 中国通信建设第四工程局有限公司 | 一种无人机通信系统及无人机通信系统资源分配优化方法 |
CN114158010A (zh) * | 2021-12-06 | 2022-03-08 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
CN114169243A (zh) * | 2021-12-10 | 2022-03-11 | 浙江辰时科技集团有限公司 | Mimo干扰信道下空中计算多任务联邦学习方法 |
CN114337785A (zh) * | 2021-12-30 | 2022-04-12 | 陕西锐远信息科技有限公司 | 太阳能无人机通信能量管理策略、系统、终端及存储介质 |
CN114594793A (zh) * | 2022-03-07 | 2022-06-07 | 四川大学 | 一种基站无人机的路径规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109803344A (zh) * | 2018-12-28 | 2019-05-24 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
US20200115047A1 (en) * | 2018-10-11 | 2020-04-16 | Beihang University | Multi-uav continuous movement control method, apparatus, device, and storage medium for energy efficient communication coverage |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
-
2021
- 2021-04-19 CN CN202110420398.4A patent/CN113115344B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200115047A1 (en) * | 2018-10-11 | 2020-04-16 | Beihang University | Multi-uav continuous movement control method, apparatus, device, and storage medium for energy efficient communication coverage |
CN111045443A (zh) * | 2018-10-11 | 2020-04-21 | 北京航空航天大学 | 移动控制方法、装置、设备及存储介质 |
CN109803344A (zh) * | 2018-12-28 | 2019-05-24 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
US20200359297A1 (en) * | 2018-12-28 | 2020-11-12 | Beijing University Of Posts And Telecommunications | Method of Route Construction of UAV Network, UAV and Storage Medium thereof |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
Non-Patent Citations (3)
Title |
---|
HAIXIA PENG ET AL.: "DDPG-based Resource Management for MEC/UAV-Assisted Vehicular Networks", 《IEEE》 * |
QIMING YANG ET AL.: "UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm", 《ICCA》 * |
朱壬泰: "基于深度增强学习的无人机自主飞行方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113939032A (zh) * | 2021-12-06 | 2022-01-14 | 中国通信建设第四工程局有限公司 | 一种无人机通信系统及无人机通信系统资源分配优化方法 |
CN114158010A (zh) * | 2021-12-06 | 2022-03-08 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
CN113939032B (zh) * | 2021-12-06 | 2024-06-07 | 中国通信建设第四工程局有限公司 | 一种无人机通信系统及无人机通信系统资源分配优化方法 |
CN114158010B (zh) * | 2021-12-06 | 2024-06-07 | 中国通信建设第四工程局有限公司 | 无人机通信系统及基于神经网络的资源分配策略预测方法 |
CN114169243A (zh) * | 2021-12-10 | 2022-03-11 | 浙江辰时科技集团有限公司 | Mimo干扰信道下空中计算多任务联邦学习方法 |
CN114337785A (zh) * | 2021-12-30 | 2022-04-12 | 陕西锐远信息科技有限公司 | 太阳能无人机通信能量管理策略、系统、终端及存储介质 |
CN114594793A (zh) * | 2022-03-07 | 2022-06-07 | 四川大学 | 一种基站无人机的路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113115344B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113115344B (zh) | 基于噪声优化的无人机基站通信资源分配策略预测方法 | |
CN113162682B (zh) | 一种基于pd-noma的多波束leo卫星系统资源分配方法 | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN109743210B (zh) | 基于深度强化学习的无人机网络多用户接入控制方法 | |
CN112153616B (zh) | 一种基于深度学习的毫米波通信系统中的功率控制方法 | |
CN111479239B (zh) | 一种多天线无人机数据采集系统的传感器发射能耗优化方法 | |
CN113359480B (zh) | 基于mappo算法多无人机与用户协同通信优化方法 | |
CN116684925B (zh) | 一种无人机搭载智能反射面安全移动边缘计算方法 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
CN109962727B (zh) | 临空通信混合波束赋形及非正交多址接入传输方法 | |
CN110290542B (zh) | 海上无人机通信覆盖优化方法及系统 | |
CN114339775B (zh) | 基于优化的ddpg的ris辅助非授权频谱共存方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN114980169A (zh) | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 | |
CN113919483A (zh) | 一种无线通信网络中无线电地图的构造和定位方法及其系统 | |
CN116963034A (zh) | 一种面向应急场景的空地网络分布式资源调度方法 | |
CN114158010B (zh) | 无人机通信系统及基于神经网络的资源分配策略预测方法 | |
CN117858015A (zh) | 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法 | |
CN116684852B (zh) | 一种山地茂林环境无人机通信资源与悬停位置规划方法 | |
CN117295090A (zh) | 一种面向无人机通感一体化系统的资源分配方法 | |
CN116634450A (zh) | 一种基于强化学习的动态空地异构网络用户关联增强方法 | |
CN116366127A (zh) | 无人机辅助多mec服务器的任务完成率最大化方法 | |
Ren et al. | Joint Location, Bandwidth and Computation Offloading for Thz-Enabled Hierarchical Multicoalition UAV MEC Networks | |
CN117295077B (zh) | 一种多小区协同多址地空数据传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |