CN114189891B - 一种基于深度强化学习的无人机异构网络能效优化方法 - Google Patents
一种基于深度强化学习的无人机异构网络能效优化方法 Download PDFInfo
- Publication number
- CN114189891B CN114189891B CN202111524001.2A CN202111524001A CN114189891B CN 114189891 B CN114189891 B CN 114189891B CN 202111524001 A CN202111524001 A CN 202111524001A CN 114189891 B CN114189891 B CN 114189891B
- Authority
- CN
- China
- Prior art keywords
- base station
- user
- uhf
- mmwave
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000005540 biological transmission Effects 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 21
- 238000005562 fading Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 239000000969 carrier Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/241—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/242—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出一种基于深度强化学习的无人机异构网络能效优化方法,涉及空天一体化的网络优化技术领域。该方法在宏基站、微基站和无人机基站的框架下,采用特高频无线电波和毫米波频段。首先对多小区基站网络信道建模,并将问题归结成一个含有约束条件的优化问题。其次引入深度强化学习算法,将上述模型转化为马尔可夫决策过程。最后通过构建神经网络对参数拟合,输出合适的功率调整值,使累计奖励最大化,从而优化系统的能量效率。解决了在宏基站和微基站环境下覆盖率不足和传统算法收敛慢、能耗高的问题。
Description
技术领域
本发明涉及空天一体化的网络优化技术领域,尤其涉及一种基于深度强化学习的无人机异构网络能效优化方法。
背景技术
为了满足日益增长的移动终端数量和网络流量需求,第五代移动通信技术应运而生。5G网络能拥有数十倍于4G LTE的网络速度,背后离不开所使用的各种技术,毫米波(millimeter wave,以下简称mmWave)技术就是其中之一。通常将30~300GHz的频域(波长为1~10毫米)的电磁波称为毫米波,在相同天线尺寸下毫米波的波束要比微波的波束窄得多,可以更为清晰地观察到目标的细节。与激光相比,毫米波受气候因素影响较小,而且毫米波元器件的尺寸小,因而更容易小型化,综合了上述优点的毫米波是5G通讯中所使用的主要频段之一。
另外,IMT-2020推进组总结了5G移动通信系统的4个主要应用场景:连续广覆盖、热点高容量、低功耗大连接、低时延高可靠。这意味着下一代网络里不仅涵盖传统的连续广覆盖和为热点区域用户提供超高速率以及网络极高流量密度,并且还要涵盖物联网相关业务,例如环境监测和车联网等。而这些需求也一定会在B5G和6G中继续得到推广。复杂场景的性能需求带来了众多挑战,为此需提出更多新型有效的解决方案。其中,超密集组网成为提升系统性能的重要研究方向之一。然而,在一些特殊场景中,如:自然灾害发生的地区、人员密集网络需求量高的地区,地面基站由于不可抗力因素损毁或者网络需求量大,仅仅依靠地面网络并不能完全应对,如何使用更加灵活、可靠、稳定的方式确保用户得到更好的服务质量(Quality of Service,以下简称QoS)是当今运营商需要考虑的一个问题之一。近年来,无人机(Unmanned Aerial Vehicle,以下简称UAV)作为空中基站的方案得到了广泛的关注,在低空域部署无人机可能是一种为蜂窝基础设施有限地理区域提供无线连通有效方法。移动无人机在临时事件期间,可按需提供连接、高数据率无线服务和流量卸载机会。利用无人机作为空中基站进行部署,提供可靠且有着高能量效率的通信服务,这种方法非常适用于基站密集异构且频段资源复杂需要妥善处理的场景。
发明内容
针对现有技术的不足,本发明提供了一种基于深度强化学习的无人机异构网络能效优化方法。
一种基于深度强化学习的无人机异构网络能效优化方法,具体步骤如下:
步骤1:采集小区基站种类I、基站数量N、用户数量M和基站频段数据,根据小区基站种类I、基站数量N、用户数量M和基站频段建立小区异构网络模型;
所述小区基站种类I包含一个宏基站MBS、D个无人机基站UBS和A个微基站SBS;则基站数量N=1+A+D;宏基站用nM表示,第i个微基站用表示,第i个无人机基站用/>表示;
所有基站都采用特高频无线电波Ultra High Frequency即UHF和毫米波频段,宏基站和部分微基站共享BUHF个UHF子载波,其中BUHF代表使用频段为UHF的子载波的数量;所有的无人机即UAV和其它微基站共享BmmWave个mmWave频段资源,其中BmmWave代表使用频段为mmWave的子载波的数量;将上述所有基站分为四层的异构网络,建立基站集k∈{MBS,UBS,SBSUHF,SBSmmWave},其中,SBSUHF为子载波频段为UHF的微基站,SBSmmWave为子载波频段为mmWave的微基站;根据所属的子载波频段将基站集中的数据分为两类基站集以UHF为子载波频段构成的基站集为ΘUHF;以mmWave为子载波频段构成的基站集为ΘmmWave;
所述用户数量M中,每个用户获得最小速率Rmin,每个用户只由一个基站提供服务,并将其它基站看作干扰;
步骤2:根据自由空间路径损耗,建立UHF信道模型;
与基站集合ΘUHF连接的用户的路径损耗为:
其中,λc是载波波长,α是UHF链接的路径衰减指数,χUHF是UHF链接路径阴影衰落;r是用户m和无人机基站n之间的欧氏距离,表示为:
(xm,ym,0)和(xn,yn,zn)分别是用户m和UBSn的坐标,UBSn表示无人机基站n;
其中,xm和xn分别表示用户m和无人机基站在坐标系中的横坐标,ym和yn分别表示用户m和无人机基站在坐标系中的纵坐标,zn代表无人机的飞行高度;
距离MBS或者SBSUHF基站距离为r的用户得到的信号与干扰加噪声比即SINR为:
其中,k代表基站所属的层数,k∈{MBS,SBSUHF}代表这里的基站属于四层异构网络结构中的宏基站MBS和使用子载波为UHF的微基站SBSUHF;当k为MBS层时,为宏基站nM和用户m之间的发射功率,/>为宏基站nM和用户m之间的信道增益,μ为宏基站nM到用户m的多径衰落的包络;当k为SBSUHF层时,/>为微基站/>和用户m之间的发射功率,/>为微基站/>和用户m之间的信道增益,μ为微基站/>到用户m的多径衰落的包络;信道中噪声是均值为0,方差为σ2的高斯白噪声,l表示除n以外的属于ΘUHF的基站,所以当k为MBS层时,/>表示除宏基站nM以外的属于ΘUHF基站与用户m之间的发射功率,当k为SBSUHF层时,/>表示除微基站/>以外的属于ΘUHF基站与用户m之间的发射功率;
步骤3:根据自由空间路径损耗,建立mmWave信道模型;
将无线通信系统的传播条件分成视距条件LoS和非视距条件NLoS两种情况;在视距和非视距条件下与基站集合ΘmmWave连接的用户的路径损耗如下所示:
αL和χL分别代表SBS mmWave的视距路径损耗指数和阴影衰落;αN和χN分别代表SBSmmWave的非视距路径损耗指数和阴影衰落;fc代表子载波的频率,r是用户m和微基站n之间的欧氏距离;
与微基站连接的用户的路径损耗为:
用户和无人机基站UBS之间的路径损耗也分为视距和非视距两种情况,无人机和用户间的路径损耗表示为:
其中,pLoS是视距条件的概率,pNLoS是非视距条件的概率,LmmWave,LoS(r)是无人机和用户间视距条件的路径损耗;LmmWave,NLoS(r)无人机和用户间非视距条件的路径损耗;
其中,pLOS是视距条件的概率表示为:
其中,θ代表用户m和无人机n之间的倾向角,exp代表以自然常数e为底的指数函数,a和b是受环境影响的固定参数;
则非视距条件的概率为pNLos=1-pLoS;
UBS或SBSmmWave到用户m的SINR即SINRm,n示为:
其中k代表基站所属的层数,k∈{UBS,SBSmmWave}代表这里的基站属于四层异构网络结构中的宏基站UBS和使用子载波为mmWave的微基站SBSmmWave;当k为UBS层时,为无人机基站nUi和用户m之间的发射功率,/>为无人机基站/>和用户m之间的信道增益,θe为无人机基站/>波束对准的方位角,G(θe)为方位角相关天线增益,具体函数形式与使用的天线有关;σ2为高斯白噪声的方差,μ是无人机基站/>和用户m的多径衰落的包络,l表示除n以外的属于ΘmmWave的基站,所以/>表示除无人机基站nUi以外的属于ΘmmWave基站与用户m之间的发射功率;当k为SBSmmWave层时,/>为微基站/>和用户m之间的发射功率,/>为微基站/>和用户m之间的信道增益,θe为微基站/>波束对准的方位角,G(θe)为方位角相关天线增益,具体函数形式与使用的天线有关;σ2为高斯白噪声的方差,μ是微基站/>和用户m的多径衰落的包络,l表示除n以外的属于ΘmmWave的基站,所以/>表示除微基站/>以外的属于ΘmmWave基站与用户m之间的发射功率;
步骤4:结合步骤2和步骤3中的UHF信道模型以及mmWave信道模型,对通信系统能量效率进行优化;
综合步骤2和步骤3中的信道模型,与上述计算的第k层基站n相连接的用户m的速率为:其中,n为nM或/>或/>
其中,Ωk是分配给当前计算的基站n的带宽比例,Bk代表第k层的总带宽,为用户m和当前计算的基站n基于第k层信号与干扰加噪声比;
功率分配要求所有用户的速率不低于最低要求速率
对于通信系统,总吞吐量为:
将通信系统的能量效率用通信系统发送的产出与投入的比值来表示:
其中,上式分子是所有可用的子载波的传输速率,为系统的功率产出;分母是子载波上基站的发射功率,为系统的功率投入;
通过调整子载波上基站的发射功率使得EE最大化,最大化能效的效益函数的优化问题表示为:
s.t
为用户的传输速率,Pmax和Pmin分别是用户m和当前计算的基站n基于第k层异构网络功率;
步骤5:将异构网络能效优化问题映射到深度强化学习算法中,对异构网络能效进行优化;
通过优化深度强化学习中神经网络中的权重参数ω,在第t时刻中,所述神经网络以基站在t时的通信状态信息作为输入,输出一个基站发射功率的调整值,通过对功率的调整实现异构网络能效的优化;设置两个结构相同,更新频率不同的神经网络;固定一个神经网络的参数,使另一个神经网络的输出结果不断向固定参数的神经网络的输出结果逼近,来达到收敛的状态;
将与当前计算的基站n相连的用户数、当前计算的基站n的发射功率作为当前时刻的系统状态信息,将基站n的发送功率适配值作为动作信息,能量效率函数作为奖励,奖励函数设为:
把状态信息、动作信息、奖励连同下一状态信息作为样本储存到经验回放单元中,经验回放单元是用来储存产生的样本信息,并从中随机抽取一部分样本作为状态的输入值,训练神经网络,经验回放单元中的样本数达到设定的数值时,随机从经验回放单元中取出一批样本作为神经网络的输入,相应地更新神经网络中的参数,生成新的优化策略,通过重复这一过程实现能效的优化。
采用上述技术方案所产生的有益效果在于:
1、本发明提供一种基于深度强化学习的无人机辅助异构网络能效优化方法,在宏基站、微基站和无人机基站组成的异构网络环境下,对下行链路进行功率分配,最大化系统的能量效率。
2、考虑到无线网络巨大的状态空间,将发射功率离散化。针对无线网络的特点,将提出的网络模型映射到强化学习中。使用了强化学习中的Q-learning算法,学习者试图通过与控制环境交互达到其最优状态来获得最大回报,将每个状态的动作价值通过状态-动作对的形式存储在一个Q表中,通过维护一个适用于小状态动作空间的查找表来更新状态动作空间中每个项目的Q值,然而考虑到实际中系统模型的复杂性,动作和状态空间往往非常大,Q表需要大量内存,这可能会造成收敛时间更长甚至造成维度灾难,本发明通过将深度神经网络这一函数近似方法来代替传统表格方法,拥有更好的准确性和通用性。
附图说明
图1为本发明实施例中基于深度强化学习的无人机辅助异构网络示意图。
图2为本发明实施例中基于深度强化学习的无人机辅助异构网络能量效率优化的方法流程图。
图3为本发明实施例中深度强化学习算法框架图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。本实施例通过提出基于深度强化学习的无人机辅助异构网络能量效率优化方法,调整基站发射功率进而优化了能量效率。具体实施方法的流程如图2所示,过程如下:
步骤1:采集小区基站种类I、基站数量N、用户数量M和基站频段数据,根据小区基站种类I、基站数量N、用户数量M和基站频段建立小区异构网络模型;
本实施例中,将小区异构网络的示意图如图1所示,所述小区基站种类I包含一个宏基站MBS、D个无人机基站UBS和A个微基站SBS;则基站数量N=1+A+D;宏基站用nM表示,第i个微基站用表示,第i个无人机基站用/>表示;
所有基站都采用特高频无线电波Ultra High Frequency即UHF和毫米波频段,宏基站和部分微基站共享BUHF个UHF子载波,其中BUHF代表使用频段为UHF的子载波的数量;所有的无人机即UAV和其它微基站共享BmmWave个mmWave频段资源,其中BmmWave代表使用频段为mmWave的子载波的数量;将上述所有基站分为四层的异构网络,建立基站集k∈{MBS,UBS,SBSUHF,SBSmmWave},其中,SBSUHF为子载波频段为UHF的微基站,SBSmmWave为子载波频段为mmWave的微基站;根据所属的子载波频段将基站集中的数据分为两类基站集以UHF为子载波频段构成的基站集为ΘUHF;以mmWave为子载波频段构成的基站集为ΘmmWave;
所述用户数量M中,每个用户获得最小速率Rmin,每个用户只由一个基站提供服务,并将其它基站看作干扰;
步骤2:根据自由空间路径损耗,建立UHF信道模型;
与基站集合ΘUHF连接的用户的路径损耗为:
其中,λc是载波波长,α是UHF链接的路径衰减指数,χUHF是UHF链接路径阴影衰落;r是用户m和无人机基站n之间的欧氏距离,表示为:
(xm,ym,0)和(xn,yn,zn)分别是用户m和UBSn的坐标,UBSn表示无人机基站n;
其中,xm和xn分别表示用户m和无人机基站在坐标系中的横坐标,ym和yn分别表示用户m和无人机基站在坐标系中的纵坐标,代表无人机的飞行高度;
距离MBS或者SBSUHF基站距离为r的用户得到的信号与干扰加噪声比即SINR为:
其中,k代表基站所属的层数,k∈{MBS,SBSUHF}代表这里的基站属于四层异构网络结构中的宏基站MBS和使用子载波为UHF的微基站SBSUHF;当k为MBS层时,为宏基站nM和用户m之间的发射功率,/>为宏基站nM和用户m之间的信道增益,μ为宏基站nM到用户m的多径衰落的包络;当k为SBSUHF层时,/>为微基站/>和用户m之间的发射功率,/>为微基站/>和用户m之间的信道增益,μ为微基站/>到用户m的多径衰落的包络;信道中噪声是均值为0,方差为σ2的高斯白噪声,l表示除n以外的属于ΘUHF的基站,所以当k为MBS层时,/>表示除宏基站nM以外的属于ΘUHF基站与用户m之间的发射功率,当k为SBSUHF层时,/>表示除微基站/>以外的属于ΘUHF基站与用户m之间的发射功率;
步骤3:根据自由空间路径损耗,建立mmWave信道模型;
将无线通信系统的传播条件分成视距条件LoS和非视距条件NLoS两种情况;在视距和非视距条件下与基站集合ΘmmWave连接的用户的路径损耗如下所示:
αL和χL分别代表SBS mmWave的视距路径损耗指数和阴影衰落;αN和χN分别代表SBSmmWave的非视距路径损耗指数和阴影衰落;fc代表子载波的频率,r是用户m和微基站n之间的欧氏距离;
与微基站连接的用户的路径损耗为:
用户和无人机基站UBS之间的路径损耗也分为视距和非视距两种情况,无人机和用户间的路径损耗表示为:
其中,pLoS是视距条件的概率,pNLoS是非视距条件的概率,LmmWave,LoS(r)是无人机和用户间视距条件的路径损耗;LmmWave,NLoS(r)无人机和用户间非视距条件的路径损耗;
其中,pLOS是视距条件的概率表示为:
其中,θ代表用户m和无人机n之间的倾向角,exp代表以自然常数e为底的指数函数,a和b是受环境影响的固定参数;
则非视距条件的概率为pNLos=1-pLoS;
UBS或SBSmmWave到用户m的SINR即SINRm,n示为:
其中k代表基站所属的层数,k∈{UBS,SBSmmWave}代表这里的基站属于四层异构网络结构中的宏基站UBS和使用子载波为mmWave的微基站SBSmmWave;当k为UBS层时,为无人机基站/>和用户m之间的发射功率,/>为无人机基站/>和用户m之间的信道增益,θe为无人机基站/>波束对准的方位角,G(θe)为方位角相关天线增益,具体函数形式与使用的天线有关;σ2为高斯白噪声的方差,μ是无人机基站/>和用户m的多径衰落的包络,l表示除n以外的属于ΘmmWave的基站,所以/>表示除无人机基站/>以外的属于ΘmmWave基站与用户m之间的发射功率;当k为SBSmmWave层时,/>为微基站/>和用户m之间的发射功率,/>为微基站/>和用户m之间的信道增益,θe为微基站/>波束对准的方位角,G(θe)为方位角相关天线增益,具体函数形式与使用的天线有关;σ2为高斯白噪声的方差,μ是微基站/>和用户m的多径衰落的包络,l表示除n以外的属于ΘmmWave的基站,所以/>表示除微基站/>以外的属于ΘmmWave基站与用户m之间的发射功率;
步骤4:结合步骤2和步骤3中的UHF信道模型以及mmWave信道模型,对通信系统能量效率进行优化;
综合步骤2和步骤3中的信道模型,与上述计算的第k层基站n相连接的用户m的速率为:其中,n为nM或/>或/>
其中,Ωk是分配给当前计算的基站n的带宽比例,Bk代表第k层的总带宽,为用户m和当前计算的基站n基于第k层信号与干扰加噪声比;
功率分配要求所有用户的速率不会低于最低要求速率
对于通信系统,总吞吐量为:
将通信系统的能量效率用通信系统发送的产出与投入的比值来表示:
其中,上式分子是所有可用的子载波的传输速率,为系统的功率产出;分母是子载波上基站的发射功率,为系统的功率投入;
通过调整子载波上基站的发射功率使得EE最大化,最大化能效的效益函数的优化问题表示为:
s.t
为用户的传输速率,Pmax和Pmin分别是用户m和当前计算的基站n基于第k层异构网络功率;
步骤5:将异构网络能效优化问题映射到深度强化学习算法中,对异构网络能效进行优化;深度强化学习算法框架如附图3所示;
通过优化神经网络中的权重参数ω,在第t时刻中,神经网络以基站在t时的通信状态信息作为输入,输出一个基站发射功率的调整值,通过对功率的调整实现异构网络能效的优化;设置两个结构相同,更新频率不同的神经网络;固定一个神经网络的参数,使另一个神经网络的输出结果不断向固定参数的神经网络的输出结果逼近,来达到收敛的状态;
将与当前计算的基站n相连的用户数、当前计算的基站n的发射功率作为当前时刻(指计算这个值的时刻)的系统状态信息,将基站n的发送功率适配值作为动作信息,能量效率函数作为奖励,奖励函数设为:
把状态信息、动作信息、奖励连同下一状态信息作为样本储存到经验回放单元中,经验回放单元是用来储存产生的样本信息,并从中随机抽取一部分样本作为状态的输入值,训练神经网络,经验回放单元中的样本数达到设定的数值时,随机从经验回放单元中取出一批样本作为神经网络的输入,相应地更新神经网络中的参数,生成新的优化策略,通过重复这一过程实现能效的优化。
强化学习通过迭代贝尔曼公式:
yi=r+γmaxa'Q(s',a')
获得最大奖赏值,即:s状态下采取a的Q值=采取a得到的奖励+γ×s'状态下使Q最大的动作即a′的Q值。Q学习是采用Q表格的方式存储Q值,在大规模的强化学习任务求解中,精确获得状态值或动作值Q较为困难,而值函数近似法通过寻找状态值或动作值Q的近似替代函数的方式来求解大规模强化学习任务,既避免了表格求解法所需大规模存储空间的问题,又提升了求解效率,通过将强化学习中的Q学习和神经网络结合得到的深度Q网络Deep Q Network即DQN,是实际求解任务中被广泛采纳的一种算法。
在DQN中通过设计两个结构相同但参数不同的神经网络以及经验回放单元,提高了算法的稳定性并解决了经验样本的相关性及非静态分布问题。DQN算法更新公式为:
其中即目标Q值是目标Q网络生成的值,代表真实的Q值;Q(s,a;θi)即预测Q值是当前Q网络生成的值,代表神经网络预测得出的结果;我们需要让预测Q值和目标Q值无限逼近,来达到拟合的目的。故在DQN中使用损失函数Lossfunction让预测Q值和目标Q值无限逼近。
Loss function=E[r+γmaxa'Q(s',a';θi)-Q(s,a;θi)]2 (2)
可见,损失函数是基于Q-Learning的更新公式确定,在式(1)中,预测Q值和目标Q值使用了同一个参数模型,所以当预测Q值增大时,目标Q值也随之增大。我们需要预测Q值向目标Q值逼近来训练神经网络,但是如果预测Q值向目标逼近的时候,目标Q值也在不停改变的话,就相当于两个都在动,所以不利于算法的收敛。目标Q值类似于监督学习中的标签,标签是固定的,不会随着参数改变。
所以通过固定目标Q网络的参数,根据损失函数更新当前Q网络中的参数,每经过N轮迭代后,将当前Q网络中的参数复制给目标Q网络。
在本发明的神经网络模型中,输入层的数据为连接到基站的移动用户的数量以及基站发射功率的集合[N1,N2...Nn,P1,P2...Pn],隐藏层的设计提高的网络的拟合能力,采取随机丢弃节点是为了防止出现过度拟合。输出层的数据为基站发射功率的调整值。
Claims (3)
1.一种基于深度强化学习的无人机异构网络能效优化方法,其特征在于,具体步骤如下:
步骤1:采集小区基站种类I、基站数量N、用户数量M和基站频段数据,根据小区基站种类I、基站数量N、用户数量M和基站频段建立小区异构网络模型;
步骤2:根据自由空间路径损耗,建立UHF信道模型;
步骤3:根据自由空间路径损耗,建立mmWave信道模型;
步骤4:结合步骤2和步骤3中的UHF信道模型以及mmWave信道模型,对通信系统能量效率进行优化;
步骤5:将异构网络能效优化问题映射到深度强化学习算法中,对异构网络能效进行优化;
步骤1中所述建立小区异构网络模型为:
所述小区基站种类I包含一个宏基站MBS、D个无人机基站UBS和A个微基站SBS;则基站数量N=1+A+D;宏基站用nM表示,第i个微基站用表示,第i个无人机基站用/>表示;
所有基站都采用特高频无线电波Ultra High Frequency即UHF和毫米波频段,宏基站和部分微基站共享BUHF个UHF子载波,其中BUHF代表使用频段为UHF的子载波的数量;所有的无人机即UAV和其它微基站共享BmmWave个mmWave频段资源,其中BmmWave代表使用频段为mmWave的子载波的数量;将上述所有基站分为四层的异构网络,建立基站集k∈{MBS,UBS,SBSUHF,SBSmmWave其中,SBSUHF为子载波频段为UHF的微基站,SBSmmWave为子载波频段为mmWave的微基站;根据所属的子载波频段将基站集中的数据分为两类基站集以UHF为子载波频段构成的基站集为ΘUHF;以mmWave为子载波频段构成的基站集为ΘmmWave;
所述用户数量M中,每个用户获得最小速率Rmin,每个用户只由一个基站提供服务,并将其它基站看作干扰;
步骤2中所述建立UHF信道模型为:
与基站集合ΘUHF连接的用户的路径损耗为:
其中,λc是载波波长,α是UHF链接的路径衰减指数,χUHF是UHF链接路径阴影衰落;r是用户m和无人机基站n之间的欧氏距离,表示为:
(xm,ym,0)和(xn,yn,zn)分别是用户m和UBSn的坐标,UBSn表示无人机基站n;
其中,xm和xn分别表示用户m和无人机基站在坐标系中的横坐标,ym和yn分别表示用户m和无人机基站在坐标系中的纵坐标,zn代表无人机的飞行高度;
距离MBS或者SBSUHF基站距离为r的用户得到的信号与干扰加噪声比即SINR为:
其中,k代表基站所属的层数,k∈{MBS,SBSUHF}代表这里的基站属于四层异构网络结构中的宏基站MBS和使用子载波为UHF的微基站SBSUHF;当k为MBS层时,为宏基站nM和用户m之间的发射功率,/>为宏基站nM和用户m之间的信道增益,μ为宏基站nM到用户m的多径衰落的包络;当k为SBSUHF层时,/>为微基站/>和用户m之间的发射功率,/>为微基站/>和用户m之间的信道增益,μ为微基站/>到用户m的多径衰落的包络;信道中噪声是均值为0,方差为σ2的高斯白噪声,l表示除n以外的属于ΘUHF的基站,所以当k为MBS层时,/>表示除宏基站nM以外的属于ΘUHF基站与用户m之间的发射功率,当k为SBSUHF层时,/>表示除微基站/>以外的属于ΘUHF基站与用户m之间的发射功率;
所述步骤5具体为:
通过优化深度强化学习中神经网络中的权重参数ω,在第t时刻中,所述神经网络以基站在t时的通信状态信息作为输入,输出一个基站发射功率的调整值,通过对功率的调整实现异构网络能效的优化;设置两个结构相同,更新频率不同的神经网络;固定一个神经网络的参数,使另一个神经网络的输出结果不断向固定参数的神经网络的输出结果逼近,来达到收敛的状态;
将与当前计算的基站n相连的用户数、当前计算的基站n的发射功率作为当前时刻的系统状态信息,将基站n的发送功率适配值作为动作信息,能量效率函数作为奖励,奖励函数设为:
把状态信息、动作信息、奖励连同下一状态信息作为样本储存到经验回放单元中,经验回放单元是用来储存产生的样本信息,并从中随机抽取一部分样本作为状态的输入值,训练神经网络,经验回放单元中的样本数达到设定的数值时,随机从经验回放单元中取出一批样本作为神经网络的输入,相应地更新神经网络中的参数,生成新的优化策略,通过重复这一过程实现能效的优化。
2.根据权利要求1所述的一种基于深度强化学习的无人机异构网络能效优化方法,其特征在于,步骤3中所述建立mmWave信道模型为:
将无线通信系统的传播条件分成视距条件LoS和非视距条件NLoS两种情况;在视距和非视距条件下与基站集合ΘmmWave连接的用户的路径损耗如下所示:
αL和χL分别代表SBS mmWave的视距路径损耗指数和阴影衰落;αN和χN分别代表SBSmmWave的非视距路径损耗指数和阴影衰落;fc代表子载波的频率,r是用户m和微基站n之间的欧氏距离;
与微基站连接的用户的路径损耗为:
用户和无人机基站UBS之间的路径损耗也分为视距和非视距两种情况,无人机和用户间的路径损耗表示为:
其中,pLoS是视距条件的概率,pNLoS是非视距条件的概率,LmmWave,LoS(r)是无人机和用户间视距条件的路径损耗;LmmWave,NLoS(r)无人机和用户间非视距条件的路径损耗;
其中,pLOS是视距条件的概率表示为:
其中,θ代表用户m和无人机n之间的倾向角,exp代表以自然常数e为底的指数函数,a和b是受环境影响的固定参数;
则非视距条件的概率为pNLos=1-pLoS;
UBS或SBSmmWave到用户m的SINR即SINRm,n示为:
其中k代表基站所属的层数,k∈{UBS,SBSmmWave}代表这里的基站属于四层异构网络结构中的宏基站UBS和使用子载波为mmWave的微基站SBSmmWave;当k为UBS层时,为无人机基站/>和用户m之间的发射功率,/>为无人机基站/>和用户m之间的信道增益,θe为无人机基站/>波束对准的方位角,G(θe)为方位角相关天线增益,具体函数形式与使用的天线有关;σ2为高斯白噪声的方差,μ是无人机基站/>和用户m的多径衰落的包络,l表示除n以外的属于ΘmmWave的基站,所以/>表示除无人机基站/>以外的属于ΘmmWave基站与用户m之间的发射功率;当k为SBSmmWave层时,/>为微基站/>和用户m之间的发射功率,/>为微基站/>和用户m之间的信道增益,θe为微基站/>波束对准的方位角,G(θe)为方位角相关天线增益,具体函数形式与使用的天线有关;σ2为高斯白噪声的方差,μ是微基站/>和用户m的多径衰落的包络,l表示除n以外的属于ΘmmWave的基站,所以/>表示除微基站/>以外的属于ΘmmWave基站与用户m之间的发射功率。
3.根据权利要求1所述的一种基于深度强化学习的无人机异构网络能效优化方法,其特征在于,步骤4中所述对通信系统能量效率进行优化为:
综合步骤2和步骤3中的信道模型,计算第k层基站n相连接的用户m的速率为:其中,n为nM或/>或/>
其中,Ωk是分配给当前计算的基站n的带宽比例,Bk代表第k层的总带宽,为用户m和当前计算的基站n基于第k层信号与干扰加噪声比;
功率分配要求所有用户的速率不低于最低要求速率
对于通信系统,总吞吐量为:
将通信系统的能量效率用通信系统发送的产出与投入的比值来表示:
其中,上式分子是所有可用的子载波的传输速率,为系统的功率产出;分母是子载波上基站的发射功率,为系统的功率投入;
通过调整子载波上基站的发射功率使得EE最大化,最大化能效的效益函数的优化问题表示为:
为用户的传输速率,Pmax和Pmin分别是用户m和当前计算的基站n基于第k层异构网络功率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524001.2A CN114189891B (zh) | 2021-12-14 | 2021-12-14 | 一种基于深度强化学习的无人机异构网络能效优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111524001.2A CN114189891B (zh) | 2021-12-14 | 2021-12-14 | 一种基于深度强化学习的无人机异构网络能效优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114189891A CN114189891A (zh) | 2022-03-15 |
CN114189891B true CN114189891B (zh) | 2023-10-27 |
Family
ID=80543563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111524001.2A Active CN114189891B (zh) | 2021-12-14 | 2021-12-14 | 一种基于深度强化学习的无人机异构网络能效优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114189891B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115567093A (zh) * | 2022-08-30 | 2023-01-03 | 浪潮通信技术有限公司 | 空中网络资源分配方法、装置、电子设备及存储介质 |
CN116074851B (zh) * | 2023-02-07 | 2024-07-26 | 厦门大学 | 一种多无人机空中基站具体环境追踪覆盖方法 |
CN117156529B (zh) * | 2023-11-01 | 2024-01-16 | 唐人通信技术服务股份有限公司 | 一种基站供电管理方法及系统 |
CN117977835B (zh) * | 2024-04-01 | 2024-06-21 | 广州国曜科技有限公司 | 一种带定位功能的微波无线输电系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111328087A (zh) * | 2018-12-17 | 2020-06-23 | 上海大学 | 基于深度学习的高能效异构网络子信道分配与功率分配方法 |
CN112261615A (zh) * | 2020-10-23 | 2021-01-22 | 沈阳航空航天大学 | 基于平均场无人机辅助多频段密集网络能效降解方法 |
CN113473580A (zh) * | 2021-05-14 | 2021-10-01 | 南京信息工程大学滨江学院 | 异构网络中基于深度学习的用户关联联合功率分配策略 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11703853B2 (en) * | 2019-12-03 | 2023-07-18 | University-Industry Cooperation Group Of Kyung Hee University | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same |
-
2021
- 2021-12-14 CN CN202111524001.2A patent/CN114189891B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111328087A (zh) * | 2018-12-17 | 2020-06-23 | 上海大学 | 基于深度学习的高能效异构网络子信道分配与功率分配方法 |
CN112261615A (zh) * | 2020-10-23 | 2021-01-22 | 沈阳航空航天大学 | 基于平均场无人机辅助多频段密集网络能效降解方法 |
CN113473580A (zh) * | 2021-05-14 | 2021-10-01 | 南京信息工程大学滨江学院 | 异构网络中基于深度学习的用户关联联合功率分配策略 |
Also Published As
Publication number | Publication date |
---|---|
CN114189891A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114189891B (zh) | 一种基于深度强化学习的无人机异构网络能效优化方法 | |
Wang et al. | Adaptive deployment for UAV-aided communication networks | |
CN114389678B (zh) | 一种基于决策性能评估的多波束卫星资源分配方法 | |
CN114051204B (zh) | 一种基于智能反射面的无人机辅助通信方法 | |
CN110166100A (zh) | 基于位置公平的毫米波高铁车地通信稳定波束成形方法 | |
CN109660292B (zh) | 一种基于多无人机覆盖的无线通信系统飞行高度设计方法 | |
CN113613198B (zh) | 无人机辅助的无线携能d2d网络资源分配方法 | |
CN115412936A (zh) | 一种基于多智能体dqn的irs辅助d2d系统资源分配方法 | |
Shi et al. | A decoupled access scheme with reinforcement learning power control for cellular-enabled UAVs | |
CN111277308A (zh) | 基于机器学习的波宽控制方法 | |
Yuan et al. | Joint Rate and Coverage Optimization for the THz/RF Multi-band Communications of Space-air-ground Integrated Network in 6G | |
Sabuj et al. | Machine-type communications in noma-based terahertz wireless networks | |
Liu et al. | Ultra dense satellite-enabled 6G networks: Resource optimization and interference management | |
Su et al. | User-centric base station clustering and resource allocation for cell-edge users in 6G ultra-dense networks | |
CN115802370A (zh) | 一种通信方法及装置 | |
CN117674958A (zh) | 一种面向空天地一体化网络的网络资源优化方法及装置 | |
Ahn et al. | Velocity optimization for UAV-mounted transmitter in population-varying fields | |
Hashima et al. | On enhancing wiGig communications with a UAV-mounted RIS system: A contextual multi-armed bandit approach | |
CN112261615B (zh) | 基于平均场无人机辅助多频段密集网络能效降解方法 | |
CN112995924B (zh) | 一种面向集群间通信的u2u集中式动态资源分配方法 | |
Aboagye et al. | Energy efficient user association, power, and flow control in millimeter wave backhaul heterogeneous networks | |
Almasri et al. | Reinforcement-Learning Based Handover Optimization for Cellular UAVs Connectivity | |
Na et al. | Joint trajectory and power optimization for NOMA-based high altitude platform relaying system | |
Shang et al. | Joint Robotic Aerial Base Station Deployment and Wireless Backhauling in 6G Multi-hop Networks | |
Ahmed et al. | Challenges in 5G Network Planning: Design and Optimization using Atoll |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |