CN114599099A - 一种基于强化学习的5g星地链路多波束动态功率分配方法 - Google Patents
一种基于强化学习的5g星地链路多波束动态功率分配方法 Download PDFInfo
- Publication number
- CN114599099A CN114599099A CN202210221080.8A CN202210221080A CN114599099A CN 114599099 A CN114599099 A CN 114599099A CN 202210221080 A CN202210221080 A CN 202210221080A CN 114599099 A CN114599099 A CN 114599099A
- Authority
- CN
- China
- Prior art keywords
- satellite
- communication system
- representing
- link
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002787 reinforcement Effects 0.000 title claims abstract description 11
- 230000006854 communication Effects 0.000 claims abstract description 107
- 238000004891 communication Methods 0.000 claims abstract description 104
- 230000009471 action Effects 0.000 claims abstract description 38
- 230000005540 biological transmission Effects 0.000 claims abstract description 36
- 238000013468 resource allocation Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 10
- 239000003795 chemical substances by application Substances 0.000 claims description 63
- 230000008901 benefit Effects 0.000 claims description 28
- 230000000875 corresponding effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 239000000969 carrier Substances 0.000 claims description 5
- 241000287196 Asthenes Species 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 12
- 238000013461 design Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 11
- 238000004088 simulation Methods 0.000 description 9
- 239000000654 additive Substances 0.000 description 7
- 230000000996 additive effect Effects 0.000 description 7
- 230000019771 cognition Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Electromagnetism (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开一种基于强化学习的5G星地链路多波束动态功率分配方法,该方法搭建了多波束卫星通信系统模型,根据通信过程中上行链路与下行链路的信道状态不同得出了卫星的星上资源缓存信息,以最大化用户传输速率为优化目标,同时考虑功率、缓存、速率等多个约束条件给出了卫星系统资源分配问题的目标函数,基于Q学习方法,将多波束卫星设计为智能体Agent,动作为功率选择,环境为信道状态,在智能体与信道环境的交互过程中,不断更新Q值积累学习经验,逐步找到所提优化问题的最优解。本方法具有良好的收敛性和系统性能,是一种高效可靠的动态资源分配方法,能够适应复杂多变的通信环境,特别适合应用于资源受限的多波束卫星通信系统中。
Description
技术领域
本发明涉及一种卫星互联网技术,尤其涉及一种卫星互联网中的功率分配方法,更具体地说,涉及一种基于强化学习的5G星地链路多波束动态功率分配方法。
背景技术
随着航空航天技术的发展与关键技术的突破,现代通信网络不但要提供无处不在的高质量通信服务,而且要满足所有用户日益增长的信息获取需求。卫星通信作为5G非地面通信网络的重要组成部分,其与传统地面通信网络相比,在可靠性高、可扩展性高、覆盖范围大、可实现全球范围覆盖且组网方式简单等多个方面具有独特优势,卫星通信系统因此得到广泛应用。所以,与地面网络系统集成的卫星通信系统是满足用户多业务需求、高服务质量的最佳解决方案。然而,在卫星通信系统中,会存在星上计算资源和存储资源受限以及卫星高速移动等问题,因此,卫星系统需要相对特殊的资源管理方式。同时,通信卫星在一个覆盖区域的上空移动速度越快,实现卫星资源管理这一目标也就越困难,更重要的是,大多数卫星通信系统将地球覆盖区域划分为多个小区,这使得卫星资源管理变得更为复杂。
在空天地一体化系统中,卫星互联网越来越受到人们的关注。然而,卫星通信系统中由频带受限而引发的问题也越来越突出。现如今,如何实现在卫星星上计算和存储资源受限的约束条件下高效合理的进行资源分配成为一个重点研究问题。而多波束天线(Multiple Beam Antenna,MBA)卫星通信系统的出现成为了有效解决卫星资源分配问题的关键,通过多波束天线或相控阵天线,可以实现多个不同区域内节点间的相互通信。同时,由于多波束卫星通信技术具有波束隔离和频率复用等优点,已经在空天地一体化网络系统中得到了广泛应用。因此,在卫星通信系统中利用多波束技术不但可以明显提高系统的频谱效率,而且可以增大卫星通信的系统容量。然而,有限的频谱资源一直是制约卫星通信技术发展的关键因素。
与此同时,得益于动物学习思想理论以及条件反射理论的强化学习技术也迅速发展。在卫星复杂的通信环境中,通过利用强化学习技术来优化卫星系统的资源分配问题已经成为人们研究的热点。利用强化学习技术可以使智能体在与环境的不断交互过程中学习,积累经验,实现奖励收益的最大化,以此来提高卫星资源分配的决策优化能力。
发明内容
本发明的目的是解决如何利用强化学习技术在资源受限的约束条件下进行动态资源分配的问题,给出一种基于Q学习的卫星资源分配方法(Q-learning based SatelliteResource Allocation,QSRA)。通过智能体不断与错综复杂的通信环境交互,来得到卫星通信系统的状态信息,进而实现卫星系统功率资源的动态分配,提高系统的频谱利用率与系统容量。为了实现该目的,本发明所采用的步骤是:
步骤1:建立多波束卫星通信系统模型,并给出上行信道链路模型和下行信道链路模型;
步骤2:确定在满足多波束卫星通信系统的星上缓存约束的条件下最大化用户的传输速率的卫星通信系统资源分配的目标函数;
步骤3:多波束卫星智能体不断观测通信环境,得到载波和用户的分配状况以及卫星的星上资源缓存状态,并根据此时的Q表完成功率分配动作的选择;
步骤4:通信环境根据动作的执行结果更新载波分配、已服务用户以及星上缓存资源的状态,并评估此次功率分配动作执行结果的奖励收益,将其反馈给多波束卫星智能体;
步骤5:多波束卫星智能体根据通信环境反馈的奖励收益、更新过后的环境状态以及Q学习算法中值函数的更新规则,对Q表中对应的Q值进行更新,实现智能体动作选择策略的不断更新优化,最终实现最大化智能体的奖励收益,找到优化问题的最优解。
进一步的,所述步骤1包括如下具体步骤:
步骤1-1:在多波束卫星通信系统中,卫星节点通过上行链路接收到来自地面用户的信号可以表示为:
其中,n0表示星地链路中的零均值加性高斯白噪声,pu表示地面用户的发射功率,xs表示对应的信号,Hs表示卫星节点到地面用户的信道,其可以用Gilbert-Elliott信道模型来表示;
步骤1-2:假设通信信道在两个状态之间相互转换,一个为G(good)状态,另一个为B(bad)状态,可以得到在时隙k时的信道状态X(k):
其中,γ(k)表示在时隙k时的信噪比(SNR),γth表示γ(k)的门限阈值;
步骤1-3:假设在时隙k时信道状态处于G,则将在时隙k+1时仍为G状态的概率表示为1-q,转换状态的概率表示为q,同理有在时隙k时信道状态若处于B,则将在时隙k+1时仍为B状态的概率表示为1-r,转换状态的概率表示为r,则可以表示为:
步骤1-4:上行信道链路的传输速率可以表示为:
其中,ws是星地链路中上行链路的链路带宽,hs是星地链路中上行链路的信道系数,N为星地链路中的噪声功率;
步骤1-5:同理可以得出下行链路模型,在多波束卫星通信系统中,地面用户通过下行链路接收到来自卫星节点的信号可以表示为:
其中,n0表示星地链路中的零均值加性高斯白噪声,ps表示通信卫星节点的发射功率,xu表示对应的信号,则下行信道链路的传输速率可以表示为:
其中,wu表示星地链路中下行链路的链路带宽,hu表示星地链路中下行链路的信道系数,N表示星地链路中的噪声功率。
进一步的,所述步骤2包括如下具体步骤:
步骤2-1:假设多波束卫星通信系统中总的系统下行功率为Ptotal,卫星系统的总波束数量为Ntotal,则每波束的功率可以表示为:
步骤2-2:每波束中的总载波数量用Ncarrier表示,则可以得出多波束卫星通信系统中每个载波的功率:
其中,M=Ntotal·Ncarrier表示系统中的总载波数;
步骤2-3:假设卫星通信系统中的总带宽为Btotal,则可以得出每个载波的带宽:
由此可以得出,多波束卫星通信系统的最大传输速率:
Ci=Bmdet(log2(IM+SINRi)) (10)
其中,m=1,2,3,...,M表示多波束卫星通信系统中的第m个载波,i=1,2,3,...,N表示第i个地面用户,IM表示M阶单位矩阵,SINRi表示地面用户i的信干燥比矩阵,其可以由下式得出:
步骤2-5:因此,可以由(12)式得出卫星通信系统中总的星上资源缓存量:
其中,Nup表示卫星通信系统中的上行链路总数,Ndown表示卫星通信系统中的下行链路总数;
步骤2-6:显然,假设多波束卫星通信系统中的星上资源缓存量的门限阈值为Φth,在t时刻星上资源缓存量Φ(t)应该满足:
Φ(t)≤Φth; (14)
步骤2-7:进一步地,在t时刻,为最大化星地链路的系统容量,保证用户的服务质量,将卫星通信系统的资源优化问题建模为:
其中,表示在t时刻卫星通信系统中第m个波束上第k个载波上地面用户u的传输速率,表示t时刻地面用户u的传输速率,Rth表示地面用户传输速率的最低门限阈值,表示t时刻地面用户u在第m个波束上的第k个载波的分配情况(若地面用户u被分配到该子载波上,则有反之则为0),Φt表示在t时刻卫星上的资源缓存量,Pth表示卫星通信系统总功率的门限阈值,表示单一波束功率的门限阈值。
进一步的,所述步骤3包括如下具体步骤:
步骤3-1:定义状态空间S,状态s本质上是环境的抽象化表示形式,为多波束卫星智能体的动作选择提供依据,根据上述步骤中的多波束卫星系统的系统模型,可以得出卫星系统的载波分配矩阵W:
步骤3-2:将在t时刻已分配的载波矩阵W、已被服务的用户集U以及卫星资源缓存Φ定义为状态空间,可以表示为以下形式:
步骤3-3:将发送功率分配定义为智能体的可选动作集合空间A(st),考虑到实际以及训练的限制,功率选择采用离散的功率范围;
步骤3-4:智能体在进行动作执行选择时,是在当前的动作集合空间A(st)中根据ε-greedy贪心算法来进行动作的选择,即多波束卫星智能体有1-ε的概率来选择使其Q值最大的动作来执行,有ε的概率在可行的动作集合空间中随机选定一个动作来执行,该多波束卫星智能体的动作选择策略可以被表示成:
步骤3-5:智能体对环境的探索过程是一个认知和经验不断增加的过程,所以,在初始时其探索概率ε的取值一般比较大,但是随着智能体对环境的认知以及学习经验的逐渐增加,探索概率ε也会随之不断变小,以使概率1-ε不断变大,即有更大的概率来选择能够获得较大Q值的动作,从而避免智能体陷入局部的最优解,以此来不断优化多波束卫星智能体的探索过程,最终得到全局的最优解,其探索概率的衰减公式可以被表示为:
ε=εmin+(εmax-εmin)·exp(-h·t) (19)
其中,h表示探索概率ε的衰减因子,εmax表示ε的最大值,εmin表示ε的最小值,t表示迭代次数,从式(19)中可以明显看出,随着智能体对环境认知的不断增加,其探索概率也在不断衰减。
进一步的,所述步骤4包括如下具体步骤:
步骤4-1:定义多波束卫星Agent执行相应的动作并作用于通信环境之后,得到的来自环境反馈的奖励收益为r,奖励收益反馈的结果包括正反馈收益与负反馈收益,是一种当前状态的环境对智能体所执行动作结果评价的体现,通常奖励收益都会被设计成与整个通信系统性能相关的变量,在本资源分配方法中,将多波束卫星系统传输速率的增量Δδ设计为智能体的奖励收益,其可以表示为:
Δδ=δt+1-δt (20)
步骤4-2:则奖励收益可以下式来表示:
其中,rg>rd,并且rg、rd的取值范围是0~1的闭区间,从式(21)中可以看出,当传输速率增量大于0时智能体得到的奖励反馈会更大,即rt=rg,反之,智能体得到的收益将降低。
进一步的,所述步骤5包括如下具体步骤:
步骤5-1:多波束卫星智能体执行动作并作用于通信环境之后,得到的来自环境反馈的奖励收益为r,获得更新过后的环境状态为s′;
步骤5-2:定义折扣因子γ表示学习过程中的收益的衰减系数,一般情况下,其取值范围在0~1之间;
步骤5-3:多波束卫星智能体根据奖励收益r、更新过后的环境状态为s′、以及Q学习算法中值函数的更新规则,对Q表中对应的Q值进行更新,即
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)]; (22)
步骤5-4:令s←s′,判断s是否为终止状态,并判断Q值表是否收敛,若收敛则训练结束,否则重复上述步骤4-步骤6,最终得到最优分配策略如下式所示:
π(s)=arg maxa∈AQ(s,a)。 (23)
附图说明
图1是本发明所述的基于Q-learning的算法架构模型图;
图2是本发明的算法流程图;
图3是多波束卫星系统模型图;
图4是不同学习效率对QSRA方法的影响仿真结果图;
图5是QSRA方法在不同业务要求下的收敛速度比较图;
图6是QSRA方法缓存优化前后对比仿真图;
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
本发明的目的是解决如何利用强化学习技术在资源受限的约束条件下进行动态资源分配的问题,给出一种基于Q学习的卫星资源分配方法,其架构模型图如附图1所示,流程图如附图2所示。具体包括以下步骤:
步骤1:建立多波束卫星通信系统模型,并给出上行信道链路模型和下行信道链路模型;
步骤2:确定在满足多波束卫星通信系统的星上缓存约束的条件下最大化用户的传输速率的卫星通信系统资源分配的目标函数;
步骤3:多波束卫星智能体不断观测通信环境,得到载波和用户的分配状况以及卫星的星上资源缓存状态,并根据此时的Q表完成功率分配动作的选择;
步骤4:通信环境根据动作的执行结果更新载波分配、已服务用户以及星上缓存资源的状态,并评估此次功率分配动作执行结果的奖励收益,将其反馈给多波束卫星智能体;
步骤5:多波束卫星智能体根据通信环境反馈的奖励收益、更新过后的环境状态以及Q学习算法中值函数的更新规则,来对Q表中对应的Q值进行更新,实现智能体动作选择策略的不断更新优化,最终实现最大化智能体的奖励收益,找到优化问题的最优解。
进一步的,上述步骤1包括如下具体步骤:
步骤1-1:在多波束卫星通信系统的服务覆盖范围内,每个波束能够覆盖并服务多个地面的终端设备(例如手机终端,车载终端),并在多波束卫星通信过程中有i(0≤i≤Nup)条上行链路和j(0≤j≤Ndown)条下行链路。卫星通信系统采用时分复用和频分复用,其中上行链路模型和下行链路模型均被建模成加性高斯白噪声信道模型,同时,不同的波束之间会有一定程度的同频干扰(Co-Channel Interference,CCI)。
在同一时刻,一个请求用户在卫星通信系统中仅能占有一个子载波,并且每个子载波也只能分配给一个用户使用。两个地面用户节点在通过卫星网络进行通信时,有可能在同一波束内也可能位于不同的两个波束之间,并且可能是多个不同类型的地面用户终端之间的通信。考虑到上、下行链路的信道状态可能存在差异,在某些情况下,下行链路信道条件比上行链路信道条件差,这样就会在卫星上产生缓存资源。然而,卫星的体积有限,并且卫星上的计算资源和存储资源非常珍贵。因此,需要对卫星上的资源进行动态的高效合理分配,不但要保证用户的服务质量,而且要提升卫星通信系统的系统性能。多波束卫星系统模型图如图3所示。
为了分析多波束卫星通信系统在通信服务过程中所产生的缓存资源,需要给出多波束卫星通信系统的上行信道链路模型和下行信道链路模型。在信道模型中,“卫星”一般指低轨卫星或对地静止卫星。同样,“地面用户”对应低轨卫星的用户或对地静止卫星的用户。
在多波束卫星通信系统中,卫星节点通过上行链路接收到来自地面用户的信号可以表示为:
其中,n0表示星地链路中的零均值加性高斯白噪声,pu表示地面用户的发射功率,xs表示对应的信号,Hs表示卫星节点到地面用户的信道,其可以用Gilbert-Elliott信道模型来表示;
步骤1-2:假设通信信道在两个状态之间相互转换,一个为G(good)状态,另一个为B(bad)状态,可以得到在时隙k时的信道状态X(k):
其中,γ(k)表示在时隙k时的信噪比(SNR),γth表示γ(k)的门限阈值;
步骤1-3:假设在时隙k时信道状态处于G,则将在时隙k+1时仍为G状态的概率表示为1-q,转换状态的概率表示为q,同理有在时隙k时信道状态若处于B,则将在时隙k+1时仍为B状态的概率表示为1-r,转换状态的概率表示为r,则可以表示为:
步骤1-4:上行信道链路的传输速率可以表示为:
其中,ws是星地链路中上行链路的链路带宽,hs是星地链路中上行链路的信道系数,N为星地链路中的噪声功率;
步骤1-5:同理可以得出下行链路模型,在多波束卫星通信系统中,地面用户通过下行链路接收到来自卫星节点的信号可以表示为:
其中,n0表示星地链路中的零均值加性高斯白噪声,ps表示通信卫星节点的发射功率,xu表示对应的信号,则下行信道链路的传输速率可以表示为:
其中,wu表示星地链路中下行链路的链路带宽,hu表示星地链路中下行链路的信道系数,N表示星地链路中的噪声功率。
进一步的,上述步骤2包括如下具体步骤:
步骤2-1:假设多波束卫星通信系统中总的系统下行功率为Ptotal,卫星系统的总波束数量为Ntotal,则每波束的功率可以表示为:
步骤2-2:每波束中的总载波数量用Ncarrier表示,则可以得出多波束卫星通信系统中每个载波的功率:
其中,M=Ntotal·Ncarrier表示系统中的总载波数;
步骤2-3:假设卫星通信系统中的总带宽为Btotal,则可以得出每个载波的带宽:
由此可以得出,多波束卫星通信系统的最大传输速率:
Ci=Bmdet(log2(IM+SINRi)) (10)
其中,m=1,2,3,...,M表示多波束卫星通信系统中的第m个载波,i=1,2,3,...,N表示第i个地面用户,IM表示M阶单位矩阵,SINRi表示地面用户i的信干燥比矩阵,其可以由下式得出:
步骤2-5:因此,可以由(12)式得出卫星通信系统中总的星上资源缓存量:
其中,Nup表示卫星通信系统中的上行链路总数,Ndown表示卫星通信系统中的下行链路总数;
步骤2-6:显然,假设多波束卫星通信系统中的星上资源缓存量的门限阈值为Φth,在t时刻星上资源缓存量Φ(t)应该满足:
Φ(t)≤Φth; (14)
步骤2-7:进一步地,在t时刻,为最大化星地链路的系统容量,保证用户的服务质量,将卫星通信系统的资源优化问题建模为:
上式中,表示在t时刻卫星通信系统中第m个波束上第k个载波上地面用户u的传输速率,表示t时刻地面用户u的传输速率,Rth表示地面用户传输速率的最低门限阈值,表示t时刻地面用户u在第m个波束上的第k个载波的分配情况(若地面用户u被分配到该子载波上,则有反之则为0),Φt表示在t时刻卫星上的资源缓存量,Pth表示卫星通信系统总功率的门限阈值,表示单一波束功率的门限阈值。
针对上述优化问题的约束条件作进一步描述:
C1:在任意时刻,用户的传输速率都必须大于或等于最小传输速率门限;
C2、C3:在任意时刻,任意用户最多被分配一个子载波,并且每个子载波最多只能分配给一个用户使用;
C4:在任意时刻,星上资源缓存量要小于门限值;
C5:系统总功率约束;
C6:在任意时刻,每个波束的功率要小于单波束功率约束;
C7:保证单波束功率在任意时刻大于或等于0。
进一步的,所述步骤3包括如下具体步骤:
步骤3-1:定义状态空间S,状态s本质上是环境的抽象化表示形式,为多波束卫星智能体的动作选择提供依据,根据上述步骤中的多波束卫星系统的系统模型,可以得出卫星系统的载波分配矩阵W:
步骤3-2:将在t时刻已分配的载波矩阵W、已被服务的用户集U以及卫星资源缓存Φ定义为状态空间,可以表示为以下形式:
步骤3-3:将发送功率分配定义为智能体的可选动作集合空间A(st),考虑到实际以及训练的限制,功率选择采用离散的功率范围;
步骤3-4:智能体在进行动作执行选择时,是在当前的动作集合空间A(st)中根据ε-greedy贪心算法来进行动作的选择,即多波束卫星智能体有1-ε的概率来选择使其Q值最大的动作来执行,有ε的概率在可行的动作集合空间中随机选定一个动作来执行,该多波束卫星智能体的动作选择策略可以被表示成:
步骤3-5:智能体对环境的探索过程是一个认知和经验不断增加的过程,所以,在初始时其探索概率ε的取值一般比较大,但是随着智能体对环境的认知以及学习经验的逐渐增加,探索概率ε也会随之不断变小,以使概率1-ε不断变大,即有更大的概率来选择能够获得较大Q值的动作,从而避免智能体陷入局部的最优解,以此来不断优化多波束卫星智能体的探索过程,最终得到全局的最优解,其探索概率的衰减公式可以被表示为:
ε=εmin+(εmax-εmin)·exp(-h·t) (19)
其中,h表示探索概率ε的衰减因子,εmax表示ε的最大值,εmin表示ε的最小值,t表示迭代次数,从式(19)中可以明显看出,随着智能体对环境认知的不断增加,其探索概率也在不断衰减。
进一步的,所述步骤4包括如下具体步骤:
步骤4-1:定义多波束卫星Agent执行相应的动作并作用于通信环境之后,得到的来自环境反馈的奖励收益为r,奖励收益反馈的结果包括正反馈收益与负反馈收益,是一种当前状态的环境对智能体所执行动作结果评价的体现,通常奖励收益都会被设计成与整个通信系统性能相关的变量,在本资源分配方法中,将多波束卫星系统传输速率的增量Δδ设计为智能体的奖励收益,其可以表示为:
Δδ=δt+1-δt (20)
步骤4-2:则奖励收益可以下式来表示:
其中,rg>rd,并且rg,rd的取值范围是0~1的闭区间,从式(21)中可以看出当传输速率增量大于0时智能体得到的奖励反馈会更大,即rt=rg,反之,智能体得到的收益将降低。
进一步的,所述步骤5包括如下具体步骤:
步骤5-1:多波束卫星智能体执行动作并作用于通信环境之后,得到的来自环境反馈的奖励收益为r,获得更新过后的环境状态为s′;
步骤5-2:定义折扣因子γ表示学习过程中的收益的衰减系数,一般情况下,其取值范围在0~1之间;
步骤5-3:多波束卫星智能体根据奖励收益r、更新过后的环境状态为s′、以及Q学习算法中值函数的更新规则,对Q表中对应的Q值进行更新,即
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)]; (22)
步骤5-4:令s←s′,判断s是否为终止状态,并判断Q值表是否收敛,若收敛则训练结束,否则重复上述步骤4-步骤6,最终得到最优分配策略如下式所示:
π(s)=arg maxa∈AQ(s,a)。 (23)
最后得出基于Q学习的多波束卫星系统资源分配方法伪代码如表1所示。
表1基于Q学习的5G星地链路多波束动态功率分配方法伪代码
为了验证基于强化学习的资源分配方法的有效性,本文利用Pycharm来搭建多波束卫星通信系统的仿真场景。仿真场景采用多波束卫星通信系统,其仿真参数如表2所示。仿真开始时,生成100个地面用户终端随机分布,Q学习的探索概率根据式(19)进行初始化,并随着智能体对环境的探索以及经验的积累不断减小。
表2仿真参数设计
在多波束卫星系统初始化完成之后,智能体根据Q学习算法开始完成学习过程,维护更新Q表,表3给出了Q学习的相关参数。
表3 Q学习相关参数
在PyCharm中利用Python语言针对QSRA方法在不同的学习效率α下的Q值变化进行仿真模拟,设置的学习效率α分别为0.1、0.4以及0.7,折扣因子γ设置为0.9,衰减因子h设置为0.02。仿真结果如附图4所示,从中可以看出,当Q学习的学习效率为0.7时QSRA方法的收敛速度最快,大约在500次左右就可以得到收敛,而当学习效率为0.1时则需要迭代5000次左右,明显慢于学习效率α=0.7时的收敛速度。
为了比较在多个不同通信业务请求的条件下QSRA方法的收敛性能,图5给出了三个不同业务请求时,QSRA方法的Q值随迭代次数变化的曲线图,其中,学习效率被设置为0.7,折扣因子设置为0.9,探索概率ε的衰减因子为0.02。结果表明,在地面终端用户随机生成的三个不同的通信业务条件下,QSRA方法基本在迭代了284次左右的时候都得到了收敛,进一步说明了所提出的QSRA方法具有稳定的收敛性。
附图6对比了QSRA方法在考虑缓存资源约束与未考虑缓存资源约束时的星上资源缓存量。在考虑缓存约束时的缓存门限值被设置为10Mbps,从图中可以明显看出,当迭代次数达到500次左右的时候,优化后的QSRA方法可以快速收敛并降低到门限阈值10Mbps以下,并维持在9.94Mbps左右,而未考虑缓存约束的时候,QSRA方法迭代次数在达到2000次以上才开始趋于稳定,收敛速度缓慢,并且缓存仍有16Mbps左右,占用的缓存资源明显多于QSRA方法优化之后。所以,QSRA方法在对星上缓存资源优化之后,可以明显减小卫星的星上资源缓存大小,减轻卫星的资源存储负担。
综合图4-图6可以看出,本发明所提出的基于Q学习的资源分配方法无论是在方法本身的收敛性上还是系统性能上都具有很好的表现,是一种高效可靠的动态资源分配方法,同时,能够适应复杂多变的通信环境,特别适合应用于资源受限的多波束卫星通信系统中。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (1)
1.一种基于强化学习的5G星地链路多波束动态功率分配方法具体包括以下步骤:
步骤1:建立多波束卫星通信系统模型,并给出上行信道链路模型和下行信道链路模型,得到上行信道链路的传输速率为其中ws是星地链路中上行链路的链路带宽,hs是星地链路中上行链路的信道系数,N为星地链路中的噪声功率,pu表示地面用户的发射功率,同理可得下行信道链路的传输速度为其中wu是星地链路中下行链路的链路带宽,hu是星地链路中下行链路的信道系数,N为星地链路中的噪声功率,ps表示通信卫星节点的发射功率;
步骤2:确定在满足多波束卫星通信系统的星上缓存约束的条件下最大化用户的传输速率的卫星通信系统资源分配的目标函数,在t时刻,将卫星通信系统的资源优化问题建模为:
其中,Ntotal表示卫星系统的总波束数量,Ncarrier表示每波束中的总载波数量,表示在t时刻卫星通信系统中第m个波束上第k个载波上地面用户u的传输速率,表示t时刻地面用户u的传输速率,Rth表示地面用户传输速率的最低门限阈值,表示t时刻地面用户u在第m个波束上的第k个载波的分配情况(若地面用户u被分配到该子载波上,则有反之则为0),Φt表示在t时刻卫星上的资源缓存量,Φth表示多波束卫星通信系统中的星上资源缓存量的门限阈值,Pth表示卫星通信系统总功率的门限阈值,表示单一波束功率的门限阈值;
步骤3:多波束卫星智能体不断观测通信环境,得到载波和用户的分配状况以及卫星的星上资源缓存状态,载波分配矩阵表示为wn表示第n个波束的载波分配状况,将在t时刻已分配的载波矩阵W、已被服务的用户集U以及卫星资源缓存Φ定义为状态空间,可以表示为之后根据此时的Q表完成功率分配动作的选择;
步骤4:通信环境根据动作的执行结果更新载波分配、已服务用户以及星上缓存资源的状态,并评估此次功率分配动作执行结果的奖励收益,将其反馈给多波束卫星智能体,具体包括以下步骤:
步骤4-1:定义多波束卫星Agent执行相应的动作并作用于通信环境之后,得到的来自环境反馈的奖励收益为r,奖励收益反馈的结果包括正反馈收益与负反馈收益,是一种当前状态的环境对智能体所执行动作结果评价的体现,在本资源分配方法中,将多波束卫星系统传输速率的增量Δδ设计为智能体的奖励收益,其可以表示为:
Δδ=δt+1-δt
步骤4-2:则奖励收益可以下式来表示:
其中,rg>rd,并且rg、rd的取值范围是0~1的闭区间,从式(3)中可以看出,当传输速率增量大于0时智能体得到的奖励反馈会更大,即rt=rg,反之,智能体得到的收益将降低;
步骤5:多波束卫星智能体根据通信环境反馈的奖励收益、更新过后的环境状态以及Q学习算法中值函数的更新规则,来对Q表中对应的Q值进行更新,实现智能体动作选择策略的不断更新优化,最终实现最大化智能体的奖励收益,找到优化问题的最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221080.8A CN114599099A (zh) | 2022-03-08 | 2022-03-08 | 一种基于强化学习的5g星地链路多波束动态功率分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221080.8A CN114599099A (zh) | 2022-03-08 | 2022-03-08 | 一种基于强化学习的5g星地链路多波束动态功率分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114599099A true CN114599099A (zh) | 2022-06-07 |
Family
ID=81815516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210221080.8A Pending CN114599099A (zh) | 2022-03-08 | 2022-03-08 | 一种基于强化学习的5g星地链路多波束动态功率分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114599099A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115483964A (zh) * | 2022-09-30 | 2022-12-16 | 中国人民解放军陆军工程大学 | 一种空天地一体化物联网通信资源联合分配方法 |
CN115589250A (zh) * | 2022-09-30 | 2023-01-10 | 中国人民解放军陆军工程大学 | 一种星地中继物联网大规模中继选择与功率控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130244570A1 (en) * | 2012-03-13 | 2013-09-19 | Electronics And Telecommunications Research Institute | Apparatus and method for allocating resource in multi-beam satellite communication |
CN110856259A (zh) * | 2019-11-12 | 2020-02-28 | 郑州轻工业学院 | 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法 |
CN111211831A (zh) * | 2020-01-13 | 2020-05-29 | 东方红卫星移动通信有限公司 | 一种多波束低轨卫星智能动态信道资源分配方法 |
CN113162682A (zh) * | 2021-05-13 | 2021-07-23 | 重庆邮电大学 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
CN113541770A (zh) * | 2021-07-12 | 2021-10-22 | 军事科学院系统工程研究院网络信息研究所 | 一种多波束卫星通信系统空时频精细化资源管理方法 |
-
2022
- 2022-03-08 CN CN202210221080.8A patent/CN114599099A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130244570A1 (en) * | 2012-03-13 | 2013-09-19 | Electronics And Telecommunications Research Institute | Apparatus and method for allocating resource in multi-beam satellite communication |
CN110856259A (zh) * | 2019-11-12 | 2020-02-28 | 郑州轻工业学院 | 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法 |
CN111211831A (zh) * | 2020-01-13 | 2020-05-29 | 东方红卫星移动通信有限公司 | 一种多波束低轨卫星智能动态信道资源分配方法 |
CN113162682A (zh) * | 2021-05-13 | 2021-07-23 | 重庆邮电大学 | 一种基于pd-noma的多波束leo卫星系统资源分配方法 |
CN113541770A (zh) * | 2021-07-12 | 2021-10-22 | 军事科学院系统工程研究院网络信息研究所 | 一种多波束卫星通信系统空时频精细化资源管理方法 |
Non-Patent Citations (1)
Title |
---|
刘召;许珂;: "多波束卫星动态信道资源分配算法", 移动通信, no. 05, 15 May 2019 (2019-05-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115483964A (zh) * | 2022-09-30 | 2022-12-16 | 中国人民解放军陆军工程大学 | 一种空天地一体化物联网通信资源联合分配方法 |
CN115589250A (zh) * | 2022-09-30 | 2023-01-10 | 中国人民解放军陆军工程大学 | 一种星地中继物联网大规模中继选择与功率控制方法 |
CN115483964B (zh) * | 2022-09-30 | 2024-03-08 | 中国人民解放军陆军工程大学 | 一种空天地一体化物联网通信资源联合分配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114362810B (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
CN113938183B (zh) | 多波束卫星系统下基于非正交多址的通信资源分配方法 | |
CN113644964B (zh) | 一种多波束卫星同频组网系统的多维资源联合分配方法 | |
CN114599099A (zh) | 一种基于强化学习的5g星地链路多波束动态功率分配方法 | |
CN111867104A (zh) | 一种低轨卫星下行链路的功率分配方法及功率分配装置 | |
CN114389678A (zh) | 一种基于决策性能评估的多波束卫星资源分配方法 | |
CN115441939B (zh) | 基于maddpg算法的多波束卫星通信系统资源分配方法 | |
CN114866133B (zh) | 一种卫星云边协同计算的计算卸载方法 | |
US20220159586A1 (en) | Transmission power allocation method based on user clustering and reinforcement learning | |
US20070129111A1 (en) | Scheduling apparatus and method in smart antenna system | |
CN111431646A (zh) | 一种毫米波系统中的动态资源分配方法 | |
CN115173922B (zh) | 基于cmaddqn网络的多波束卫星通信系统资源分配方法 | |
Dimitrov et al. | Radio resource management techniques for high throughput satellite communication systems | |
Wang et al. | Admission control and power allocation for NOMA-based satellite multi-beam network | |
CN116981091A (zh) | 一种星地融合网络资源分配方法 | |
CN116156421A (zh) | 一种基于双层卫星异构网络的差异化业务传输方法 | |
CN116321466A (zh) | 去蜂窝大规模mimo中无人机通信的频谱效率优化方法 | |
CN113938173B (zh) | 一种星地融合网络中联合广播和单播的波束赋形方法 | |
CN113365288B (zh) | 一种基于SWIPT的NB-IoT系统上行链路资源分配法 | |
Leng et al. | User-level scheduling and resource allocation for multi-beam satellite systems with full frequency reuse | |
CN116684851A (zh) | 基于mappo的多ris辅助车联网吞吐量提升方法 | |
CN112261662A (zh) | 一种提升noma协作通信系统能量效率的传输方法 | |
CN116781141A (zh) | 一种基于深度q网络的leo卫星协作边缘计算卸载方法 | |
CN116566465A (zh) | 基于跳波束规避低轨卫星干扰的多域资源分配方法 | |
CN116744448A (zh) | 基于低轨卫星跳波束系统的动态资源管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |