CN116828534B - 基于强化学习的密集网络大规模终端接入与资源分配方法 - Google Patents
基于强化学习的密集网络大规模终端接入与资源分配方法 Download PDFInfo
- Publication number
- CN116828534B CN116828534B CN202310659530.6A CN202310659530A CN116828534B CN 116828534 B CN116828534 B CN 116828534B CN 202310659530 A CN202310659530 A CN 202310659530A CN 116828534 B CN116828534 B CN 116828534B
- Authority
- CN
- China
- Prior art keywords
- sbs
- user
- access
- backhaul
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013468 resource allocation Methods 0.000 title claims abstract description 36
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000005457 optimization Methods 0.000 claims abstract description 20
- 229920000468 styrene butadiene styrene block copolymer Polymers 0.000 claims description 145
- 230000009471 action Effects 0.000 claims description 48
- 239000003795 chemical substances by application Substances 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000700159 Rattus Species 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/06—Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0289—Congestion control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
- H04W28/24—Negotiating SLA [Service Level Agreement]; Negotiating QoS [Quality of Service]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明公开了一种基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,包括步骤一,对上行大连接多回程6G异构密集网络场景进行建模,分析用户接入速率与时延;步骤二,基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题;步骤三,针对优化问题进行求解,提出基于Q学习的大连接多业务网络用户接入资源分配算法;步骤四,利用多智能体合作共享Q表加快问题求解的收敛速度。发明提出6G弹性覆盖系统多回程链路与功率分配联合优化算法,并且基于强化学习理论提出大规模终端接入与资源分配算法,优化多回程异构网络接入回程链路选择,优化系统资源分配,有效提高网络系统吞吐量。
Description
技术领域
本发明涉及移动通信技术领域,特别涉及一种基于强化学习的密集网络大规模终端接入与资源分配方法。
背景技术
移动通信技术的快速发展,社会已经跨入了移动新时代,融合了人工智能、卫星通信、区块链等一系列6G(The 6th Generation Mobile Communication System)新兴技术网络逐渐构成。未来的移动网络需要应对巨大的流量,也需要服务多种业务,包括从服务机器到机器通信(低数据速率)业务到高清视频(高数据速率)业务。异构密集网络是5G/6G通信系统最重要的特点之一,其中移动设备可以根据其需求选择最兼容的无线接入技术(RadioAccess Technology,RAT)。用户可以通过各种网络连接至互联网,其中许多用户设备都支持多个RATs。用户可以通过使用不同的RAT来选择可用性更好的异构网络服务,并且通过检查服务质量(Quality of Service,QoS)和所收取的价格来选择服务提供商(ServiceProvider,SP)连接到互联网。异构密集网络通过合理的资源分配算法来提高网络性能,满足网络用户QoS需求。
随着强化学习领域的发展,学术界已经提出了一些相对成熟的强化学习算法用来解决异构无线网络资源分配、接入与回程管理等方面等问题。针对异构网络中的接入控制问题,有学者提出利用人工智能、机器学习领域的智能算法,解决用户接入基站的相关问题、接入控制问题以及与接入资源分配问题,从满足多业务需求、提高资源分配效率等方面加强网络吞吐能力,提高网络通信性能。但是,面对大量终端连接情况以及更多低延时用户业务的要求,优化系统资源分配自己提高系统吞吐量仍是一个待研究的课题。
发明内容
本发明目的:为了满足未来网络中大量终端连接情况以及更多低延时用户业务的要求,异构密集网络需要考虑到网络接入与回程的优化设计问题。将宏基站大范围覆盖到环境中,用户通过接入到微基站,并且微基站通过与宏基站的回程链路连接到核心网,可以快速、高效地部署大规模网络,同时解决网络中流量产生不均的问题。因此本发明提出6G弹性覆盖系统多回程链路与功率分配联合优化算法,并且基于强化学习理论提出大规模终端接入与资源分配算法,优化多回程异构网络接入回程链路选择,优化系统资源分配,有效提高网络系统吞吐量。
本发明的技术方案是:一种基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,包括如下步骤:
步骤一,对上行大连接多回程6G异构密集网络场景进行建模,分析用户接入速率与时延;
步骤二,基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题;
步骤三,针对优化问题进行求解,提出基于Q学习的大连接多业务网络用户接入资源分配算法;
步骤四,利用多智能体合作共享Q表加快问题求解的收敛速度。
进一步的,步骤一中,建立一个上行大连接多回程异构密集网络场景模型,该场景由一个宏基站MBS和n个微基站SBS组成,场景中的k个用户随机均匀地分布在网络中,且同时只能接入一个SBS,每个SBS具有三种回程方式,分别为毫米波回程、Mesh回程和卫星回程,并且分别对应SBS的三个回传信道,则网络中共有3n条相互正交的回传信道。
进一步的,步骤一中,假设在离散时刻t,网络中的第i个用户UEi,i∈{1,...,k}接入到SBSj,j∈{1,...,n},则SBSj接收端接收到的信号包括UEi信号、来自其他用户的干扰、来自SBS的干扰以及热噪声,因此SBSj接收信干噪比表示为
其中,Pi(t)表示UEi的发射功率,Pl(t)表示第l个SBS的发射功率,Pm(t)表示第m个UE发射的信号;表示UEi到SBSj之间的信道增益,/>表示SBSj与SBSl之间的信道增益;同样的,/>表示第m个UE到第j个SBS之间的信道增益,σ2表示零均值正态高斯变量的方差;
根据香农公式可以得到,t时刻用户UEi接入到SBSj的接入速率为
Rij(t)=Bijlog2(1+SINRij(t)),
其中,Bij表示SBSj分配给用户的接入链路带宽;
接入到SBS后,SBS将UEi传输的数据包在三个回传链路中选择一个进行回传,同样可以根据香农公式得到t时刻归一化回传速率Ri,b如下
Ri,b(t)=Bj,blog2(1+SINRj,b(t)),b∈{MMW,WMB,SB},
其中,Bj.b表示SBSj对应的回程链路带宽,SINRj,b(t)表示SBSj不同回传链路与MBS的信干噪比,b表示SBS的三种回传信道集合,MMW表示毫米波回传信道,WMB表示无线Mesh信道,SB表示卫星回传信道。
进一步的,步骤一中,使用cSBS表示基站CPU的计算速率,使用ci表示用户CPU计算速率,且有cSBS>ci;UEi将要卸载到SBS服务器的计算任务表示为(fi,bi),其中fi表示CPU完成UEi计算任务所需要的周期数,bi表示UEi计算任务大小;假设UEi业务要求的最大接入时延为则当UEi的计算能力满足UEi的业务要求时不进行计算任务卸载,反之,当UEi的计算能力不满足要求时,将UEi的计算任务卸载到最近的SBS进行计算,从而降低UEi的业务时延;
移动终端i计算任务在本地执行完成的时间为将移动终端i计算任务卸载到SBSj执行完成的时间为/>其中Rij表示UEi将计算任务传输到SBSj的传输速率,UEi将计算任务卸载到SBS服务器上进行处理需要满足条件:任务本地执行时间超过UEi业务要求的最大值且卸载到SBSj后的任务执行时间小于业务要求最大值,使用公式表示为
否则计算任务将在UEi处本地执行;使用μi表示UEi是否满足上面的卸载条件,如果满足则μi=1,否则μi=0,因此,用户终端i的接入时延τi为
进一步的,步骤二中,在大连接多回程异构密集网络场景下,定义在t时刻用户分别接入到SBSs的发射信号向量为那么在满足不同业务用户需求的前提下,以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题被表述成如下形式
s.t.Pi(t)≤Pmax,i=1,...,k,
βj,b(t)Ri,b(t)≥Rij(t),i=1,...,k,
b∈{MMW,WMB,SB};
其中,目标函数是为了最大化系统的吞吐量,Rij(t)表示用户i接入到SBSj的接入速率,αi表示用户i所属业务要求的信干噪比门限值,αi根据用户业务不同而为不同值,Pmax表示用户的最大发射功率,表示SBSj的最大接入带宽。
进一步的,步骤三中,根据步骤一建立的网络模型,每个智能体用户都通过与网络环境的交互来执行接入SBS并选择回传信道的动作,最终实现用户接入到最优信道的结果;智能体用户选择信道的过程依赖于自身的历史状态信息,该过程具有马尔可夫性质,而Q学习是一种无模型的强化学习方法,可利用Q学习算法来解决信道选择马尔可夫决策过程问题;
整个信道选择过程可以表示成五元组<S,A,Rw,H,η>,其中S表示状态集合,A表示动作集合,Rw表示反馈奖励,H表示状态转移概率矩阵,以及折扣因子η(0≤η≤1);利用折扣因子可以避免在信道选择的马尔可夫过程中无限地获得相同的动作-价值函数;
定义t时刻UEi的状态为
每个用户在有限的动作空间中选择自己的动作;
表示有限的动作空间,Ai,j(t)表示UEi在t时刻执行接入到基站j的行为;
t时刻优化目标转化成反馈奖励函数如下
反馈奖励函数分为三个部分,第一项为基础奖励值,表示在UEi与接入的SBSj之间越高的接入速率会获得越高的奖励,其中,表示时延是否符合用户业务要求,如果不能保证业务时延要求,则此次接入动作的反馈奖励为负值;第二、三项为基础奖励扣除项,第二项表示在接入侧的UEi与SBSj的信干噪比与用户业务要求的信干噪比门限值之间的偏差值;第三项表示在回程侧SBSj的有效回传速率与接入速率之间的差值;定义λij为UEi到SBSj的加权距离倒数,即/>其中,dij表示UEi到SBSj的距离。
进一步的,步骤三中,设立动作值函数Q(S,A),动作值函数Q(S,A)是在时刻t智能体用户执行动作A后获得相应状态S后的回报值;设立策略集π(A|S),策略集π(A|S)表示用户执行信道选择动作A后产生状态S相应的策略π;则最优的动作值函数Q*(S,A)是指所有信道选择策略中动作值函数中最大的一个,即
动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值,可以表示为
s.t.0≤γ≤1,0≤μ≤1,
其中,γ为学习率,表示Q值的更新速率,η为折扣因子,表示下一时刻获得的反馈奖励的折扣值。
进一步的,步骤四中,利用多智能体合作共享Q表的方式加快问题求解时的收敛速度:每个智能体用户会独立地收集网络中的信息,并抽象成每个用户对应的状态上传到MBS构建共享Q表,其中状态包括用户的业务类型、用户与每个SBS之间的信干噪比值,当前时刻每个SBS的所有回传信道状态;每个智能体用户的信息性质都可能不同,但是状态相同的UE之间能够获取最多有用的信息,所以根据合作Q学习方法,令处于相同状态的智能体用户可以互相共享Q表。
进一步的,步骤四中,采用ε-greedy策略解决算法的收敛性问题:该策略以ε的概率执行随机探索explore,以1-ε的概率执行正常的贪婪策略exploit;ε-greedy策略采用适当的ε值以寻求贪婪与探索之间的平衡;
在每一轮迭代中,每个智能体用户最大计算复杂度为O(1),因此算法1总共的系统计算复杂度为O(n)。
本发明还提供一种网络设备,包括存储器和处理器,存储器中存储有计算机程序,该程序被处理器调用并运行时,执行上述任意一种的基于强化学习的密集网络大规模终端接入与资源分配方法。
综上所述,本发明相比现有技术,具有以下有益效果:本发明提出了一种基于强化学习的6G密集网络大规模终端接入和资源分配算法。该算法使用Q学习帮助网络中具有不同业务的大规模独立智能体用户接入网络,能在满足自身业务要求的情况下根据回程链路情况选择接入基站和回程信道,并且优化信道资源分配。通过合作Q学习和任务卸载的方法来保证算法的收敛性。通过仿真分析和对比,本发明所提算法相对于其他两种经典算法能够在满足用户不同业务QOS的情况下系统吞吐量更高,并且能够更快地收敛。
附图说明
图1是本发明中上行大连接多回程异构密集网络场景示意图;
图2是本发明提供的强化学习框架原理图;
图3是本发明仿真实例所用主要参数;
图4是本发明提供的部分不同机制下系统性能仿真图。
具体实施方式
为了使本发明的的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解这些实例仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明以图1所示的大连接多回程异构密集网络系统为例。考虑了一个上行大连接多回程异构密集网络场景,该场景由一个宏基站MBS和n个微基站SBS组成。场景中的k个用户随机均匀地分布在网络中,且同时只能接入一个SBS。假设每个SBS具有三种回程方式,分别为毫米波回程、Mesh回程和卫星回程,并且分别对应SBS的三个回传信道,则网络中共有3n条相互正交的回传信道。假设SBS的接入与回传采用不同频率,因此SBS回程传输对用户接入SBS的干扰忽略不计。假设物理层采用OFDMA技术,这样可以使每一个用户获取并利用从SBS反馈的信息。网络中用户UE根据自身业务需求与回程信道增益选择接入覆盖它的某一微基站的一个信道进行回传。
基于模型图,本发明提出一种基于强化学习的6G密集网络大规模终端接入和资源分配算法。方法中涉及的变量如图3所示,所述方法包含以下步骤:
步骤一:对上行大连接多回程6G异构密集网络场景进行建模,分析用户接入速率与时延。
步骤二:基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题。
步骤三:针对优化问题进行求解,提出基于Q学习的大连接多业务网络用户接入资源分配算法。
步骤四:利用多智能体合作共享Q表的方式加快问题求解的收敛速度,并分析算法复杂度,最后通过仿真验证模型和算法可行性。
步骤一中,假设在离散时刻t,网络中的第i个用户UEi,i∈{1,...,k}接入到SBSj,j∈{1,...,n},则SBSj接收端接收到的信号包括UEi信号、来自其他用户的干扰、来自SBS的干扰以及热噪声。因此SBSj接收信干噪比表示为
其中,Pi(t)表示UEi的发射功率,Pl(t)表示第l个SBS的发射功率,Pm(t)表示第m个UE发射的信号。表示UEi到SBSj之间的信道增益,/>表示SBSj与SBSl之间的信道增益,同样的,/>表示第m个UE到第j个SBS之间的信道增益。σ2表示零均值正态高斯变量的方差。
根据香农公式可以得到,t时刻用户UEi接入到SBSj的接入速率为
Rij(t)=Bijlog2(1+SINRij(t)),
其中,Bij表示SBSj分配给用户的接入链路带宽;
接入到SBS后,SBS将UEi传输的数据包在三个回传链路中选择一个进行回传,同样可以根据香农公式得到t时刻归一化回传速率Ri,b如下
Ri,b(t)=Bj,blog2(1+SINRj,b(t)),b∈{MMW,WMB,SB},
其中,Bj.b表示SBSj对应的回程链路带宽,SINRj,b(t)表示SBSj不同回传链路与MBS的信干噪比,b表示SBS的三种回传信道集合,MMW表示毫米波回传信道,WMB表示无线Mesh信道,SB表示卫星回传信道。
考虑到SBS的回程链路拥塞状态,联合回程链路对用户接入进行优化,使用βj,b(t)表示t时刻SBSj对应回传信道的拥塞系数,βj,b(t)反应了SBSj三个回传信道的拥塞情况,取值范围为0≤βj,b(t)≤1。当βj,b(t)=0时表示βj,b对应回传信道已经拥堵,不能用于传输用户数据包。使用拥塞系数对回传链路速率进行加权,能够得到t时刻链路状态下的实际回传速率,故将βj,b(t)Ri,b(t)称为有效回传速率。
假设系统中SBSs与UEs均具有计算能力,且SBS服务器的计算能力强于UE。使用cSBS表示基站CPU的计算速率,使用ci表示用户CPU计算速率,且有cSBS>ci。UEi将要卸载到SBS服务器的计算任务表示为(fi,bi),其中fi表示CPU完成UEi计算任务所需要的周期数,bi表示UEi计算任务大小。假设UEi业务要求的最大接入时延为则当UEi的计算能力满足UEi的业务要求时不进行计算任务卸载,反之,当UEi的计算能力不满足要求时,将UEi的计算任务卸载到最近的SBS进行计算,从而降低UEi的业务时延。
由上可知,移动终端i计算任务在本地执行完成的时间为将移动终端i计算任务卸载到SBSj执行完成的时间为/>其中Rij表示UEi将计算任务传输到SBSj的传输速率。
UEi将计算任务卸载到SBS服务器上进行处理需要满足条件:任务本地执行时间超过UEi业务要求的最大值且卸载到SBSj后的任务执行时间小于业务要求最大值,使用公式表示为
否则计算任务将在UEi处本地执行;使用μi表示UEi是否满足上面的卸载条件,如果满足则μi=1,否则μi=0,因此,用户终端i的接入时延τi为
其次,在步骤二中,在大连接多回程异构密集网络场景下,定义在t时刻用户分别接入到SBSs的发射信号向量为那么在满足不同业务用户需求的前提下,以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题被表述成如下形式
s.t.Pi(t)≤Pmax,i=1,...,k,
βj,b(t)Ri,b(t)≥Rij(t),i=1,...,k,
b∈{MMW,WMB,SB}。
其中,目标函数是为了最大化系统的吞吐量,Rij(t)表示用户i接入到SBSj的接入速率。αi表示用户i所属业务要求的信干噪比门限值,αi根据用户业务不同而为不同值。Pmax表示用户的最大发射功率。表示SBSj的最大接入带宽。约束1限制了用户的发射功率。约束2表示SBS分配给用户的接入带宽不能超过其最大的接入带宽。约束3表示用户i的接入信干噪比要大于其业务需求的门限值,目的是为了保证不同用户业务的QoS。约束4表示用户接入SBSj后的回传信道速率大于其接入速率,约束4考虑了回传信道情况,防止因回传信道拥塞而导致用户数据包丢失或超时传输。约束5确保了用户接入基站时的时延不超过要求的最大值,约束5表示不论是否采用任务卸载的方式,每个用户的计算任务执行时延小于用户业务要求的最大时延。约束6限制了用户i的总传输时延,满足了用户的时延要求。
对于本发明的优化问题如果采用传统数学方法进行求解,计算量过大,且无法在短时间内快速得到最优解,所以在下面步骤中提出了一种基于Q学习的面向大连接智能接入算法,能够在满足用户业务速率、时延等要求的情况下,快速接入到多回程异构网络中。
在步骤三中,根据步骤一建立的网络模型,每个智能体用户都通过与网络环境的交互来执行接入SBS并选择回传信道的动作,最终实现用户接入到最优信道的结果;智能体用户选择信道的过程依赖于自身的历史状态信息,该过程具有马尔可夫性质,而Q学习是一种无模型的强化学习方法,可利用Q学习算法来解决信道选择马尔可夫决策过程问题。
整个信道选择过程可以表示成五元组<S,A,Rw,H,η>,其中S表示状态集合,A表示动作集合,Rw表示反馈奖励,H表示状态转移概率矩阵,以及折扣因子η(0≤η≤1);利用折扣因子可以避免在信道选择的马尔可夫过程中无限地获得相同的动作-价值函数。
本发明场景定义的Q学习算法相关概念如下:
(1)状态
为了减少大连接多任务用户接入算法时间,减少新智能体的算法搜索时间,假设环境中的智能体之间可以进行合作,令状态相同的智能体能够进行信息共享,经验丰富的智能体提供先验经验给新智能体,构建互相共享的Q表。出于以上目的,定义t时刻UEi的状态为
其中si表示UEi的业务类型,SINRij(t)表示t时刻UEi与每个SBS之间的信干噪比值,表示t时刻UEi与每个SBS之间的最大信干噪比值,/>表示归一化信干噪比值,βj,b(t)表示在t时刻每个SBS的所有回传信道状态。定义状态集合为S={S1,S2,...,Sk}。因此,用户可以根据业务类型、与每个SBS间的信干噪比值和每个SBS的回传信道状态固定t时刻的状态。
(2)动作
每个用户在有限的动作空间中选择自己的动作。
表示有限的动作空间,Ai,j(t)表示UEi在t时刻执行接入到基站j的行为。其中aj为一数值,取值范围为0≤aj≤Pmax,表示用户以发射功率aj接入到SBSj。aMBS表示用户以发射功率aMBS直接接入MBS。bj,j∈{1,...,n,MBS}表示用户接入带宽,取值范围为/>表示用户以带宽bj接入到SBSj或MBS。
(3)反馈奖励
根据优化问题可知,优化目标是在保证每个不同业务用户的QoS的同时最大化系统容量。智能体用户执行动作后的奖励函数应该令越高接入速率用户获得越高的奖励,而且为了满足不同业务用户需求,用户与其要求的接入信干噪比偏差和接入回传速率偏差应该使奖励减少。因此,将t时刻优化目标转化成反馈奖励函数如下
反馈奖励函数分为三个部分,分别是(1),(2)和(3)。第一部分(1)表示在UEi与接入的SBSj之间越高的接入速率会获得越高的奖励,这个奖励被称为基础奖励值,其中,表示时延是否符合用户业务要求,如果不能保证业务时延要求,则此次接入动作的反馈奖励为负值。第二部分(2)表示在接入侧的UEi与SBSj的信干噪比与用户业务要求的信干噪比门限值之间的偏差值,为了保障用户业务接入侧的要求,该偏差值不宜过大,故作为基础奖励的扣除项。同理,第三部分(3)表示在回程侧SBSj的有效回传速率与接入速率之间的差值,同样作为基础奖励的扣除项。定义λij为UEi到SBSj的加权距离倒数,即/>其中,dij表示UEi到SBSj的距离,对于每个SBSj,σj为一常数。使用λi保障算法的公平性,令第一部分与第二部分受到λi与/>的加权。λij表示UEi是否在其接入的SBSj附近,用户与SBS的距离越大,则其受到的其他用户干扰和其他SBS干扰也随着距离的增加而增加。因此,该用户接入到SBSj所获得到的奖励也应该减少,故在第一部分乘以λi,以根据距离减少基础奖励值,并且在接入信干噪比相关的第二部分乘以/>以增加第二部分的权重,因此给反馈奖励函数带来公平性。
(4)动作-价值函数
动作值函数Q(S,A)是在时刻t智能体用户执行动作A后获得相应状态S后的回报值。策略集π(A|S)表示用户执行信道选择动作A后产生状态S相应的策略π。最优的动作值函数Q*(S,A)是指所有信道选择策略中动作值函数中最大的一个,即
Q*(S,A)可以通过贝尔曼最优期望方程递归计算获得,贝尔曼方程表示如下
其中,E表示期望算子,Q(S(t),A(t))表示当前时刻的Q值,Q(S(t+1),A(t+1))为下一时刻的期望Q值。上式具有唯一的严格凹解,且可以以t→∞为极限通过迭代逼近严格凹解。
在本场景中,每个智能体用户独立地基于动作、状态和反馈奖励的迭代趋势执行下一时刻的动作Ai,j(t+1),动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值,该Q值将会影响下一轮的信道选择过程,可以表示为
s.t.0≤γ≤1,0≤μ≤1。
其中,γ为学习率,表示Q值的更新速率。η为折扣因子,表示下一时刻获得的反馈奖励的折扣值。
最后,在步骤四中,利用多智能体合作共享Q表的方式加快问题求解时的收敛速度。具体来说,在本发明场景中,每个智能体用户会独立地收集网络中的信息,并抽象成每个用户对应的状态上传到MBS构建共享Q表,其中状态包括用户的业务类型、用户与每个SBS之间的信干噪比值,当前时刻每个SBS的所有回传信道状态。每个智能体用户的信息性质都可能不同,但是状态相同的UE之间能够获取最多有用的信息,所以根据合作Q学习方法,令处于相同状态的智能体用户可以互相共享Q表。为了减少总体的复杂度,通过共享Q表进行平均来构建一个新的Q表。
采用ε-greedy策略解决算法的收敛性问题:该策略以ε的概率执行随机探索explore,以1-ε的概率执行正常的贪婪策略exploit;ε-greedy策略采用适当的ε值以寻求贪婪与探索之间的平衡。研究表明,与原来的贪婪策略相比,ε-greedy策略具有更快的收敛速度,能够在有限的迭代次数下得到更接近最优值的Q值。根据研究与仿真,为了在贪婪与探索之间合理折衷,我们可以假设ε=0.1或ε=0.01。
在每一轮迭代中,每个智能体用户最大计算复杂度为O(1),因此算法1总共的系统计算复杂度为O(n)。
在其他一实施例中,提供一种网络设备,包括存储器和处理器,存储器中存储有计算机程序,该程序被处理器调用并运行时,执行上述的基于强化学习的密集网络大规模终端接入与资源分配方法。
Claims (9)
1.一种基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,包括如下步骤:
步骤一,对上行大连接多回程6G异构密集网络场景进行建模,分析用户接入速率与时延;
步骤二,基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题;
步骤三,针对优化问题进行求解,提出基于Q学习的大连接多业务网络用户接入资源分配算法;所述基于Q学习的大连接多业务网络用户接入资源分配算法为:在本场景中,每个智能体用户独立地基于动作、状态和反馈奖励的迭代趋势执行下一时刻的动作Ai,j(t+1),动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值,该Q值将会影响下一轮的信道选择过程;
步骤四,利用多智能体合作共享Q表加快问题求解的收敛速度;
其中,步骤一中,使用cSBS表示基站CPU的计算速率,使用ci表示用户CPU计算速率,且有cSBS>ci;UEi将要卸载到SBS服务器的计算任务表示为(fi,bi),其中fi表示CPU完成UEi计算任务所需要的周期数,bi表示UEi计算任务大小;假设UEi业务要求的最大接入时延为则当UEi的计算能力满足UEi的业务要求时不进行计算任务卸载,反之,当UEi的计算能力不满足要求时,将UEi的计算任务卸载到最近的SBS进行计算,从而降低UEi的业务时延;
移动终端i计算任务在本地执行完成的时间为将移动终端i计算任务卸载到SBSj执行完成的时间为/>其中Rij表示UEi将计算任务传输到SBSj的传输速率,UEi将计算任务卸载到SBS服务器上进行处理需要满足条件:任务本地执行时间超过UEi业务要求的最大值且卸载到SBSj后的任务执行时间小于业务要求最大值,使用公式表示为
否则计算任务将在UEi处本地执行;使用μi表示UEi是否满足上面的卸载条件,如果满足则μi=1,否则μi=0,因此,用户终端i的接入时延τi为
2.根据权利要求1所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤一中,建立一个上行大连接多回程异构密集网络场景模型,该场景由一个宏基站MBS和n个微基站SBS组成,场景中的k个用户随机均匀地分布在网络中,且同时只能接入一个SBS,每个SBS具有三种回程方式,分别为毫米波回程、Mesh回程和卫星回程,并且分别对应SBS的三个回传信道,则网络中共有3n条相互正交的回传信道。
3.根据权利要求2所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤一中,假设在离散时刻t,网络中的第i个用户UEi,i∈{1,...,k}接入到SBSj,j∈{1,...,n},则SBSj接收端接收到的信号包括UEi信号、来自其他用户的干扰、来自SBS的干扰以及热噪声,因此SBSj接收信干噪比表示为
其中,Pi(t)表示UEi的发射功率,Pl(t)表示第l个SBS的发射功率,Pm(t)表示第m个UE发射的信号;表示UEi到SBSj之间的信道增益,/>表示SBSj与SBSl之间的信道增益;同样的,/>表示第m个UE到第j个SBS之间的信道增益,σ2表示零均值正态高斯变量的方差;
根据香农公式可以得到,t时刻用户UEi接入到SBSj的接入速率为
Rij(t)=Bij log2(1+SINRij(t)),
其中,Bij表示SBSj分配给用户的接入链路带宽;
接入到SBS后,SBS将UEi传输的数据包在三个回传链路中选择一个进行回传,同样可以根据香农公式得到t时刻归一化回传速率Ri,b如下
Ri,b(t)=Bj,b log2(1+SINRj,b(t)),b∈{MMW,WMB,SB},
其中,Bj.b表示SBSj对应的回程链路带宽,SINRj,b(t)表示SBSj不同回传链路与MBS的信干噪比,b表示SBS的三种回传信道集合,MMW表示毫米波回传信道,WMB表示无线Mesh信道,SB表示卫星回传信道。
4.根据权利要求1所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤二中,在大连接多回程异构密集网络场景下,定义在t时刻用户分别接入到SBSs的发射信号向量为那么在满足不同业务用户需求的前提下,以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题被表述成如下形式
s.t.Pi(t)≤Pmax,i=1,...,k,
βj,b(t)Ri,b(t)≥Rij(t),i=1,...,k,
b∈{MMW,WMB,SB};
其中,目标函数是为了最大化系统的吞吐量,Rij(t)表示用户i接入到SBSj的接入速率,αi表示用户i所属业务要求的信干噪比门限值,αi根据用户业务不同而为不同值,Pmax表示用户的最大发射功率,表示SBSj的最大接入带宽。
5.根据权利要求4所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤三中,根据步骤一建立的网络模型,每个智能体用户都通过与网络环境的交互来执行接入SBS并选择回传信道的动作,最终实现用户接入到最优信道的结果;智能体用户选择信道的过程依赖于自身的历史状态信息,该过程具有马尔可夫性质,而Q学习是一种无模型的强化学习方法,可利用Q学习算法来解决信道选择马尔可夫决策过程问题;
整个信道选择过程可以表示成五元组<S,A,Rw,H,η>,其中S表示状态集合,A表示动作集合,Rw表示反馈奖励,H表示状态转移概率矩阵,以及折扣因子η,0≤η≤1;利用折扣因子可以避免在信道选择的马尔可夫过程中无限地获得相同的动作-价值函数;
定义t时刻UEi的状态为
其中si表示UEi的业务类型,SINRij(t)表示t时刻UEi与每个SBS之间的信干噪比值,表示t时刻UEi与每个SBS之间的最大信干噪比值,/>表示归一化信干噪比值,βj,b(t)表示在t时刻每个SBS的所有回传信道状态;
每个用户在有限的动作空间中选择自己的动作;
表示有限的动作空间,Ai,j(t)表示UEi在t时刻执行接入到基站j的行为,其中aj为一数值,取值范围为0≤aj≤Pmax,表示用户以发射功率aj接入到SBSj,aMBS表示用户以发射功率aMBS直接接入MBS,bj,j∈{1,...,n,MBS}表示用户接入带宽,取值范围为/>表示用户以带宽bj接入到SBSj或MBS;
t时刻优化目标转化成反馈奖励函数如下
反馈奖励函数分为三个部分,第一项为基础奖励值,表示在UEi与接入的SBSj之间越高的接入速率会获得越高的奖励,其中,表示时延是否符合用户业务要求,如果不能保证业务时延要求,则此次接入动作的反馈奖励为负值;第二、三项为基础奖励扣除项,第二项表示在接入侧的UEi与SBSj的信干噪比与用户业务要求的信干噪比门限值之间的偏差值;第三项表示在回程侧SBSj的有效回传速率与接入速率之间的差值;定义λij为UEi到SBSj的加权距离倒数,即/>其中,dij表示UEi到SBSj的距离。
6.根据权利要求5所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤三中,设立动作值函数Q(S,A),动作值函数Q(S,A)是在时刻t智能体用户执行动作A后获得相应状态S后的回报值;设立策略集π(A|S),策略集π(A|S)表示用户执行信道选择动作A后产生状态S相应的策略π;则最优的动作值函数Q*(S,A)是指所有信道选择策略中动作值函数中最大的一个,即
动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值,可以表示为
s.t.0≤γ≤1,0≤μ≤1
其中,γ为学习率,表示Q值的更新速率,η为折扣因子,表示下一时刻获得的反馈奖励的折扣值,A(t)表示UE在t时刻执行的动作。
7.根据权利要求6所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤四中,利用多智能体合作共享Q表的方式加快问题求解时的收敛速度:每个智能体用户会独立地收集网络中的信息,并抽象成每个用户对应的状态上传到MBS构建共享Q表,其中状态包括用户的业务类型、用户与每个SBS之间的信干噪比值,当前时刻每个SBS的所有回传信道状态;每个智能体用户的信息性质都可能不同,但是状态相同的UE之间能够获取最多有用的信息,所以根据合作Q学习方法,令处于相同状态的智能体用户可以互相共享Q表。
8.根据权利要求7所述的基于强化学习的密集网络大规模终端接入与资源分配方法,其特征在于,步骤四中,采用ε-greedy策略解决算法的收敛性问题:该策略以ε的概率执行随机探索explore,以1-ε的概率执行正常的贪婪策略exploit;ε-greedy策略采用适当的ε值以寻求贪婪与探索之间的平衡;
在每一轮迭代中,每个智能体用户最大计算复杂度为O(1),因此基于Q学习的大连接多业务网络用户接入资源分配算法总共的系统计算复杂度为O(n)。
9.一种网络设备,包括存储器和处理器,其特征在于,存储器中存储有计算机程序,该程序被处理器调用并运行时,执行如权利要求1-8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659530.6A CN116828534B (zh) | 2023-06-06 | 2023-06-06 | 基于强化学习的密集网络大规模终端接入与资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310659530.6A CN116828534B (zh) | 2023-06-06 | 2023-06-06 | 基于强化学习的密集网络大规模终端接入与资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116828534A CN116828534A (zh) | 2023-09-29 |
CN116828534B true CN116828534B (zh) | 2024-01-02 |
Family
ID=88115926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310659530.6A Active CN116828534B (zh) | 2023-06-06 | 2023-06-06 | 基于强化学习的密集网络大规模终端接入与资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116828534B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117320083B (zh) * | 2023-11-30 | 2024-01-26 | 北京航空航天大学 | 一种基于规模无关强化学习的多无人机通信资源分配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102238555A (zh) * | 2011-07-18 | 2011-11-09 | 南京邮电大学 | 认知无线电中基于协作学习的多用户动态频谱接入方法 |
CN110213776A (zh) * | 2019-05-27 | 2019-09-06 | 南京邮电大学 | 一种基于Q学习和多属性决策的WiFi卸载方法 |
CN113055489A (zh) * | 2021-03-23 | 2021-06-29 | 北京计算机技术及应用研究所 | 基于q学习的星地融合网络资源分配策略的实现方法 |
CN115103396A (zh) * | 2022-05-30 | 2022-09-23 | 南京邮电大学 | 5g弹性覆盖系统多回程链路选择与功率分配联合优化方法 |
CN115567148A (zh) * | 2022-09-21 | 2023-01-03 | 中国人民解放军陆军工程大学 | 一种基于合作q学习的智能干扰方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3103295B1 (fr) * | 2019-11-19 | 2021-12-03 | Commissariat Energie Atomique | Méthode d’association d’équipements d’utilisateurs dans un réseau cellulaire au moyen d’un apprentissage par renforcement multi-agent |
-
2023
- 2023-06-06 CN CN202310659530.6A patent/CN116828534B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102238555A (zh) * | 2011-07-18 | 2011-11-09 | 南京邮电大学 | 认知无线电中基于协作学习的多用户动态频谱接入方法 |
CN110213776A (zh) * | 2019-05-27 | 2019-09-06 | 南京邮电大学 | 一种基于Q学习和多属性决策的WiFi卸载方法 |
CN113055489A (zh) * | 2021-03-23 | 2021-06-29 | 北京计算机技术及应用研究所 | 基于q学习的星地融合网络资源分配策略的实现方法 |
CN115103396A (zh) * | 2022-05-30 | 2022-09-23 | 南京邮电大学 | 5g弹性覆盖系统多回程链路选择与功率分配联合优化方法 |
CN115567148A (zh) * | 2022-09-21 | 2023-01-03 | 中国人民解放军陆军工程大学 | 一种基于合作q学习的智能干扰方法 |
Non-Patent Citations (1)
Title |
---|
Improving the QoS in 5G Hetnets Through Cooperative Q-Learning;Muhammad Usman Iqbal等;《IEEE Acess》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116828534A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fadlullah et al. | HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks | |
CN111586696B (zh) | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 | |
Li et al. | Distributed edge computing offloading algorithm based on deep reinforcement learning | |
CN109151864B (zh) | 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法 | |
CN111405568B (zh) | 基于q学习的计算卸载和资源分配方法及装置 | |
Nassar et al. | Reinforcement learning for adaptive resource allocation in fog RAN for IoT with heterogeneous latency requirements | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
Chen et al. | Multiuser computation offloading and resource allocation for cloud–edge heterogeneous network | |
CN116828534B (zh) | 基于强化学习的密集网络大规模终端接入与资源分配方法 | |
Zhu et al. | Computing offloading strategy using improved genetic algorithm in mobile edge computing system | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
KR20230007941A (ko) | 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법 | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
Liu et al. | Deep reinforcement learning-based MEC offloading and resource allocation in uplink NOMA heterogeneous network | |
Merluzzi et al. | Latency-constrained dynamic computation offloading with energy harvesting IoT devices | |
Jiang et al. | Double DQN based computing offloading scheme for fog radio access networks | |
Chen et al. | An online approach for dnn model caching and processor allocation in edge computing | |
Nguyen et al. | Utility optimization for blockchain empowered edge computing with deep reinforcement learning | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN114025359B (zh) | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 | |
Nassar et al. | Reinforcement learning-based resource allocation in fog RAN for IoT with heterogeneous latency requirements | |
Liu et al. | Joint task offloading and dispatching for mec with rational mobile devices and edge nodes | |
Meng et al. | Edge computing task offloading method for load balancing and delay optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |