CN116828534B

CN116828534B - 基于强化学习的密集网络大规模终端接入与资源分配方法

Info

Publication number: CN116828534B
Application number: CN202310659530.6A
Authority: CN
Inventors: 任伟; 顾浩; 李庆洋; 朱晓荣
Original assignee: Zhongdian Bailian Communication Technology Nanjing Co ltd
Current assignee: Zhongdian Bailian Communication Technology Nanjing Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2024-01-02
Anticipated expiration: 2043-06-06
Also published as: CN116828534A

Abstract

本发明公开了一种基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，包括步骤一，对上行大连接多回程6G异构密集网络场景进行建模，分析用户接入速率与时延；步骤二，基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题；步骤三，针对优化问题进行求解，提出基于Q学习的大连接多业务网络用户接入资源分配算法；步骤四，利用多智能体合作共享Q表加快问题求解的收敛速度。发明提出6G弹性覆盖系统多回程链路与功率分配联合优化算法，并且基于强化学习理论提出大规模终端接入与资源分配算法，优化多回程异构网络接入回程链路选择，优化系统资源分配，有效提高网络系统吞吐量。

Description

基于强化学习的密集网络大规模终端接入与资源分配方法

技术领域

本发明涉及移动通信技术领域，特别涉及一种基于强化学习的密集网络大规模终端接入与资源分配方法。

背景技术

移动通信技术的快速发展，社会已经跨入了移动新时代，融合了人工智能、卫星通信、区块链等一系列6G(The 6th Generation Mobile Communication System)新兴技术网络逐渐构成。未来的移动网络需要应对巨大的流量，也需要服务多种业务，包括从服务机器到机器通信(低数据速率)业务到高清视频(高数据速率)业务。异构密集网络是5G/6G通信系统最重要的特点之一，其中移动设备可以根据其需求选择最兼容的无线接入技术(RadioAccess Technology,RAT)。用户可以通过各种网络连接至互联网，其中许多用户设备都支持多个RATs。用户可以通过使用不同的RAT来选择可用性更好的异构网络服务，并且通过检查服务质量(Quality of Service，QoS)和所收取的价格来选择服务提供商(ServiceProvider,SP)连接到互联网。异构密集网络通过合理的资源分配算法来提高网络性能，满足网络用户QoS需求。

随着强化学习领域的发展，学术界已经提出了一些相对成熟的强化学习算法用来解决异构无线网络资源分配、接入与回程管理等方面等问题。针对异构网络中的接入控制问题，有学者提出利用人工智能、机器学习领域的智能算法，解决用户接入基站的相关问题、接入控制问题以及与接入资源分配问题，从满足多业务需求、提高资源分配效率等方面加强网络吞吐能力，提高网络通信性能。但是，面对大量终端连接情况以及更多低延时用户业务的要求，优化系统资源分配自己提高系统吞吐量仍是一个待研究的课题。

发明内容

本发明目的：为了满足未来网络中大量终端连接情况以及更多低延时用户业务的要求，异构密集网络需要考虑到网络接入与回程的优化设计问题。将宏基站大范围覆盖到环境中，用户通过接入到微基站，并且微基站通过与宏基站的回程链路连接到核心网，可以快速、高效地部署大规模网络，同时解决网络中流量产生不均的问题。因此本发明提出6G弹性覆盖系统多回程链路与功率分配联合优化算法，并且基于强化学习理论提出大规模终端接入与资源分配算法，优化多回程异构网络接入回程链路选择，优化系统资源分配，有效提高网络系统吞吐量。

本发明的技术方案是：一种基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，包括如下步骤:

步骤一，对上行大连接多回程6G异构密集网络场景进行建模，分析用户接入速率与时延；

步骤二，基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题；

步骤三，针对优化问题进行求解，提出基于Q学习的大连接多业务网络用户接入资源分配算法；

步骤四，利用多智能体合作共享Q表加快问题求解的收敛速度。

进一步的，步骤一中，建立一个上行大连接多回程异构密集网络场景模型，该场景由一个宏基站MBS和n个微基站SBS组成，场景中的k个用户随机均匀地分布在网络中，且同时只能接入一个SBS，每个SBS具有三种回程方式，分别为毫米波回程、Mesh回程和卫星回程，并且分别对应SBS的三个回传信道，则网络中共有3n条相互正交的回传信道。

进一步的，步骤一中，假设在离散时刻t，网络中的第i个用户UE_i,i∈{1,...,k}接入到SBS_j,j∈{1,...,n}，则SBS_j接收端接收到的信号包括UE_i信号、来自其他用户的干扰、来自SBS的干扰以及热噪声，因此SBS_j接收信干噪比表示为

其中，P_i(t)表示UE_i的发射功率，P_l(t)表示第l个SBS的发射功率，P_m(t)表示第m个UE发射的信号；表示UE_i到SBS_j之间的信道增益，/>表示SBS_j与SBS_l之间的信道增益；同样的，/>表示第m个UE到第j个SBS之间的信道增益，σ²表示零均值正态高斯变量的方差；

根据香农公式可以得到，t时刻用户UE_i接入到SBS_j的接入速率为

R_ij(t)＝B_ijlog₂(1+SINR_ij(t))_，

其中，B_ij表示SBS_j分配给用户的接入链路带宽；

接入到SBS后，SBS将UE_i传输的数据包在三个回传链路中选择一个进行回传，同样可以根据香农公式得到t时刻归一化回传速率R_i,b如下

R_i,b(t)＝B_j,blog₂(1+SINR_j,b(t)),b∈{MMW,WMB,SB}，

其中，B_j.b表示SBS_j对应的回程链路带宽，SINR_j,b(t)表示SBS_j不同回传链路与MBS的信干噪比，b表示SBS的三种回传信道集合，MMW表示毫米波回传信道，WMB表示无线Mesh信道，SB表示卫星回传信道。

进一步的，步骤一中，使用c_SBS表示基站CPU的计算速率，使用c_i表示用户CPU计算速率，且有c_SBS＞c_i；UE_i将要卸载到SBS服务器的计算任务表示为(f_i,b_i)，其中f_i表示CPU完成UE_i计算任务所需要的周期数，b_i表示UE_i计算任务大小；假设UE_i业务要求的最大接入时延为则当UE_i的计算能力满足UE_i的业务要求时不进行计算任务卸载，反之，当UE_i的计算能力不满足要求时，将UE_i的计算任务卸载到最近的SBS进行计算，从而降低UE_i的业务时延；

移动终端i计算任务在本地执行完成的时间为将移动终端i计算任务卸载到SBS_j执行完成的时间为/>其中R_ij表示UE_i将计算任务传输到SBS_j的传输速率，UE_i将计算任务卸载到SBS服务器上进行处理需要满足条件：任务本地执行时间超过UE_i业务要求的最大值且卸载到SBS_j后的任务执行时间小于业务要求最大值，使用公式表示为

否则计算任务将在UE_i处本地执行；使用μ_i表示UE_i是否满足上面的卸载条件，如果满足则μ_i＝1，否则μ_i＝0，因此，用户终端i的接入时延τ_i为

进一步的，步骤二中，在大连接多回程异构密集网络场景下，定义在t时刻用户分别接入到SBSs的发射信号向量为那么在满足不同业务用户需求的前提下，以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题被表述成如下形式

s.t.P_i(t)≤P_max,i＝1,...,k,

β_j,b(t)R_i,b(t)≥R_ij(t),i＝1,...,k,

b∈{MMW,WMB,SB}；

其中，目标函数是为了最大化系统的吞吐量，R_ij(t)表示用户i接入到SBS_j的接入速率，α_i表示用户i所属业务要求的信干噪比门限值，α_i根据用户业务不同而为不同值，P_max表示用户的最大发射功率，表示SBS_j的最大接入带宽。

进一步的，步骤三中，根据步骤一建立的网络模型，每个智能体用户都通过与网络环境的交互来执行接入SBS并选择回传信道的动作，最终实现用户接入到最优信道的结果；智能体用户选择信道的过程依赖于自身的历史状态信息，该过程具有马尔可夫性质，而Q学习是一种无模型的强化学习方法，可利用Q学习算法来解决信道选择马尔可夫决策过程问题；

整个信道选择过程可以表示成五元组＜S,A,Rw,H,η＞，其中S表示状态集合，A表示动作集合，Rw表示反馈奖励，H表示状态转移概率矩阵，以及折扣因子η(0≤η≤1)；利用折扣因子可以避免在信道选择的马尔可夫过程中无限地获得相同的动作-价值函数；

定义t时刻UE_i的状态为

每个用户在有限的动作空间中选择自己的动作；

表示有限的动作空间，A_i,j(t)表示UE_i在t时刻执行接入到基站j的行为；

t时刻优化目标转化成反馈奖励函数如下

反馈奖励函数分为三个部分，第一项为基础奖励值，表示在UE_i与接入的SBS_j之间越高的接入速率会获得越高的奖励，其中，表示时延是否符合用户业务要求，如果不能保证业务时延要求，则此次接入动作的反馈奖励为负值；第二、三项为基础奖励扣除项，第二项表示在接入侧的UE_i与SBS_j的信干噪比与用户业务要求的信干噪比门限值之间的偏差值；第三项表示在回程侧SBS_j的有效回传速率与接入速率之间的差值；定义λ_ij为UE_i到SBS_j的加权距离倒数，即/>其中，d_ij表示UE_i到SBS_j的距离。

进一步的，步骤三中，设立动作值函数Q(S,A)，动作值函数Q(S,A)是在时刻t智能体用户执行动作A后获得相应状态S后的回报值；设立策略集π(A|S)，策略集π(A|S)表示用户执行信道选择动作A后产生状态S相应的策略π；则最优的动作值函数Q_*(S,A)是指所有信道选择策略中动作值函数中最大的一个，即

动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值，可以表示为

s.t.0≤γ≤1,0≤μ≤1，

其中，γ为学习率，表示Q值的更新速率，η为折扣因子，表示下一时刻获得的反馈奖励的折扣值。

进一步的，步骤四中，利用多智能体合作共享Q表的方式加快问题求解时的收敛速度：每个智能体用户会独立地收集网络中的信息，并抽象成每个用户对应的状态上传到MBS构建共享Q表，其中状态包括用户的业务类型、用户与每个SBS之间的信干噪比值，当前时刻每个SBS的所有回传信道状态；每个智能体用户的信息性质都可能不同，但是状态相同的UE之间能够获取最多有用的信息，所以根据合作Q学习方法，令处于相同状态的智能体用户可以互相共享Q表。

进一步的，步骤四中，采用ε-greedy策略解决算法的收敛性问题：该策略以ε的概率执行随机探索explore，以1-ε的概率执行正常的贪婪策略exploit；ε-greedy策略采用适当的ε值以寻求贪婪与探索之间的平衡；

在每一轮迭代中，每个智能体用户最大计算复杂度为O(1)，因此算法1总共的系统计算复杂度为O(n)。

本发明还提供一种网络设备，包括存储器和处理器，存储器中存储有计算机程序，该程序被处理器调用并运行时，执行上述任意一种的基于强化学习的密集网络大规模终端接入与资源分配方法。

综上所述，本发明相比现有技术，具有以下有益效果：本发明提出了一种基于强化学习的6G密集网络大规模终端接入和资源分配算法。该算法使用Q学习帮助网络中具有不同业务的大规模独立智能体用户接入网络，能在满足自身业务要求的情况下根据回程链路情况选择接入基站和回程信道，并且优化信道资源分配。通过合作Q学习和任务卸载的方法来保证算法的收敛性。通过仿真分析和对比，本发明所提算法相对于其他两种经典算法能够在满足用户不同业务QOS的情况下系统吞吐量更高，并且能够更快地收敛。

附图说明

图1是本发明中上行大连接多回程异构密集网络场景示意图；

图2是本发明提供的强化学习框架原理图；

图3是本发明仿真实例所用主要参数；

图4是本发明提供的部分不同机制下系统性能仿真图。

具体实施方式

为了使本发明的的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解这些实例仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明以图1所示的大连接多回程异构密集网络系统为例。考虑了一个上行大连接多回程异构密集网络场景，该场景由一个宏基站MBS和n个微基站SBS组成。场景中的k个用户随机均匀地分布在网络中，且同时只能接入一个SBS。假设每个SBS具有三种回程方式，分别为毫米波回程、Mesh回程和卫星回程，并且分别对应SBS的三个回传信道，则网络中共有3n条相互正交的回传信道。假设SBS的接入与回传采用不同频率，因此SBS回程传输对用户接入SBS的干扰忽略不计。假设物理层采用OFDMA技术，这样可以使每一个用户获取并利用从SBS反馈的信息。网络中用户UE根据自身业务需求与回程信道增益选择接入覆盖它的某一微基站的一个信道进行回传。

基于模型图，本发明提出一种基于强化学习的6G密集网络大规模终端接入和资源分配算法。方法中涉及的变量如图3所示，所述方法包含以下步骤：

步骤一：对上行大连接多回程6G异构密集网络场景进行建模，分析用户接入速率与时延。

步骤二：基于场景模型建立以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题。

步骤三：针对优化问题进行求解，提出基于Q学习的大连接多业务网络用户接入资源分配算法。

步骤四：利用多智能体合作共享Q表的方式加快问题求解的收敛速度，并分析算法复杂度，最后通过仿真验证模型和算法可行性。

步骤一中，假设在离散时刻t，网络中的第i个用户UE_i,i∈{1,...,k}接入到SBS_j,j∈{1,...,n}，则SBS_j接收端接收到的信号包括UE_i信号、来自其他用户的干扰、来自SBS的干扰以及热噪声。因此SBS_j接收信干噪比表示为

其中，P_i(t)表示UE_i的发射功率，P_l(t)表示第l个SBS的发射功率，P_m(t)表示第m个UE发射的信号。表示UE_i到SBS_j之间的信道增益，/>表示SBS_j与SBS_l之间的信道增益，同样的，/>表示第m个UE到第j个SBS之间的信道增益。σ²表示零均值正态高斯变量的方差。

R_ij(t)＝B_ijlog₂(1+SINR_ij(t))，

其中，B_ij表示SBS_j分配给用户的接入链路带宽；

R_i,b(t)＝B_j,blog₂(1+SINR_j,b(t)),b∈{MMW,WMB,SB}，

考虑到SBS的回程链路拥塞状态，联合回程链路对用户接入进行优化，使用β_j,b(t)表示t时刻SBS_j对应回传信道的拥塞系数，β_j,b(t)反应了SBS_j三个回传信道的拥塞情况，取值范围为0≤β_j,b(t)≤1。当β_j,b(t)＝0时表示β_j,b对应回传信道已经拥堵，不能用于传输用户数据包。使用拥塞系数对回传链路速率进行加权，能够得到t时刻链路状态下的实际回传速率，故将β_j,b(t)R_i,b(t)称为有效回传速率。

假设系统中SBSs与UEs均具有计算能力，且SBS服务器的计算能力强于UE。使用c_SBS表示基站CPU的计算速率，使用c_i表示用户CPU计算速率，且有c_SBS＞c_i。UE_i将要卸载到SBS服务器的计算任务表示为(f_i,b_i)，其中f_i表示CPU完成UE_i计算任务所需要的周期数，b_i表示UE_i计算任务大小。假设UE_i业务要求的最大接入时延为则当UE_i的计算能力满足UE_i的业务要求时不进行计算任务卸载，反之，当UE_i的计算能力不满足要求时，将UE_i的计算任务卸载到最近的SBS进行计算，从而降低UE_i的业务时延。

由上可知，移动终端i计算任务在本地执行完成的时间为将移动终端i计算任务卸载到SBS_j执行完成的时间为/>其中R_ij表示UE_i将计算任务传输到SBS_j的传输速率。

UE_i将计算任务卸载到SBS服务器上进行处理需要满足条件：任务本地执行时间超过UE_i业务要求的最大值且卸载到SBS_j后的任务执行时间小于业务要求最大值，使用公式表示为

其次，在步骤二中，在大连接多回程异构密集网络场景下，定义在t时刻用户分别接入到SBSs的发射信号向量为那么在满足不同业务用户需求的前提下，以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题被表述成如下形式

s.t.P_i(t)≤P_max,i＝1,...,k,

β_j,b(t)R_i,b(t)≥R_ij(t),i＝1,...,k,

b∈{MMW,WMB,SB}。

其中，目标函数是为了最大化系统的吞吐量，R_ij(t)表示用户i接入到SBS_j的接入速率。α_i表示用户i所属业务要求的信干噪比门限值，α_i根据用户业务不同而为不同值。P_max表示用户的最大发射功率。表示SBS_j的最大接入带宽。约束1限制了用户的发射功率。约束2表示SBS分配给用户的接入带宽不能超过其最大的接入带宽。约束3表示用户i的接入信干噪比要大于其业务需求的门限值，目的是为了保证不同用户业务的QoS。约束4表示用户接入SBS_j后的回传信道速率大于其接入速率，约束4考虑了回传信道情况，防止因回传信道拥塞而导致用户数据包丢失或超时传输。约束5确保了用户接入基站时的时延不超过要求的最大值，约束5表示不论是否采用任务卸载的方式，每个用户的计算任务执行时延小于用户业务要求的最大时延。约束6限制了用户i的总传输时延，满足了用户的时延要求。

对于本发明的优化问题如果采用传统数学方法进行求解，计算量过大，且无法在短时间内快速得到最优解，所以在下面步骤中提出了一种基于Q学习的面向大连接智能接入算法，能够在满足用户业务速率、时延等要求的情况下，快速接入到多回程异构网络中。

在步骤三中，根据步骤一建立的网络模型，每个智能体用户都通过与网络环境的交互来执行接入SBS并选择回传信道的动作，最终实现用户接入到最优信道的结果；智能体用户选择信道的过程依赖于自身的历史状态信息，该过程具有马尔可夫性质，而Q学习是一种无模型的强化学习方法，可利用Q学习算法来解决信道选择马尔可夫决策过程问题。

整个信道选择过程可以表示成五元组＜S,A,Rw,H,η＞，其中S表示状态集合，A表示动作集合，Rw表示反馈奖励，H表示状态转移概率矩阵，以及折扣因子η₍0≤η≤1₎；利用折扣因子可以避免在信道选择的马尔可夫过程中无限地获得相同的动作-价值函数。

本发明场景定义的Q学习算法相关概念如下：

(1)状态

为了减少大连接多任务用户接入算法时间，减少新智能体的算法搜索时间，假设环境中的智能体之间可以进行合作，令状态相同的智能体能够进行信息共享，经验丰富的智能体提供先验经验给新智能体，构建互相共享的Q表。出于以上目的，定义t时刻UE_i的状态为

其中s_i表示UE_i的业务类型，SINR_ij(t)表示t时刻UE_i与每个SBS之间的信干噪比值，表示t时刻UE_i与每个SBS之间的最大信干噪比值，/>表示归一化信干噪比值，β_j,b(t)表示在t时刻每个SBS的所有回传信道状态。定义状态集合为S＝{S₁,S₂,...,S_k}。因此，用户可以根据业务类型、与每个SBS间的信干噪比值和每个SBS的回传信道状态固定t时刻的状态。

(2)动作

每个用户在有限的动作空间中选择自己的动作。

表示有限的动作空间，A_i,j(t)表示UE_i在t时刻执行接入到基站j的行为。其中a_j为一数值，取值范围为0≤a_j≤P_max，表示用户以发射功率a_j接入到SBS_j。a_MBS表示用户以发射功率a_MBS直接接入MBS。b_j,j∈{1,...,n,MBS}表示用户接入带宽，取值范围为/>表示用户以带宽b_j接入到SBS_j或MBS。

(3)反馈奖励

根据优化问题可知，优化目标是在保证每个不同业务用户的QoS的同时最大化系统容量。智能体用户执行动作后的奖励函数应该令越高接入速率用户获得越高的奖励，而且为了满足不同业务用户需求，用户与其要求的接入信干噪比偏差和接入回传速率偏差应该使奖励减少。因此，将t时刻优化目标转化成反馈奖励函数如下

反馈奖励函数分为三个部分，分别是(1)，(2)和(3)。第一部分(1)表示在UE_i与接入的SBS_j之间越高的接入速率会获得越高的奖励，这个奖励被称为基础奖励值，其中，表示时延是否符合用户业务要求，如果不能保证业务时延要求，则此次接入动作的反馈奖励为负值。第二部分(2)表示在接入侧的UE_i与SBS_j的信干噪比与用户业务要求的信干噪比门限值之间的偏差值，为了保障用户业务接入侧的要求，该偏差值不宜过大，故作为基础奖励的扣除项。同理，第三部分(3)表示在回程侧SBS_j的有效回传速率与接入速率之间的差值，同样作为基础奖励的扣除项。定义λ_ij为UE_i到SBS_j的加权距离倒数，即/>其中，d_ij表示UE_i到SBS_j的距离，对于每个SBS_j，σ_j为一常数。使用λ_i保障算法的公平性，令第一部分与第二部分受到λ_i与/>的加权。λ_ij表示UE_i是否在其接入的SBS_j附近，用户与SBS的距离越大，则其受到的其他用户干扰和其他SBS干扰也随着距离的增加而增加。因此，该用户接入到SBS_j所获得到的奖励也应该减少，故在第一部分乘以λ_i，以根据距离减少基础奖励值，并且在接入信干噪比相关的第二部分乘以/>以增加第二部分的权重，因此给反馈奖励函数带来公平性。

(4)动作-价值函数

动作值函数Q(S,A)是在时刻t智能体用户执行动作A后获得相应状态S后的回报值。策略集π(A|S)表示用户执行信道选择动作A后产生状态S相应的策略π。最优的动作值函数Q_*(S,A)是指所有信道选择策略中动作值函数中最大的一个，即

Q_*(S,A)可以通过贝尔曼最优期望方程递归计算获得，贝尔曼方程表示如下

其中，E表示期望算子，Q(S(t),A(t))表示当前时刻的Q值，Q(S(t+1),A(t+1))为下一时刻的期望Q值。上式具有唯一的严格凹解，且可以以t→∞为极限通过迭代逼近严格凹解。

在本场景中，每个智能体用户独立地基于动作、状态和反馈奖励的迭代趋势执行下一时刻的动作A_i,j(t+1)，动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值，该Q值将会影响下一轮的信道选择过程，可以表示为

s.t.0≤γ≤1,0≤μ≤1。

其中，γ为学习率，表示Q值的更新速率。η为折扣因子，表示下一时刻获得的反馈奖励的折扣值。

最后，在步骤四中，利用多智能体合作共享Q表的方式加快问题求解时的收敛速度。具体来说，在本发明场景中，每个智能体用户会独立地收集网络中的信息，并抽象成每个用户对应的状态上传到MBS构建共享Q表，其中状态包括用户的业务类型、用户与每个SBS之间的信干噪比值，当前时刻每个SBS的所有回传信道状态。每个智能体用户的信息性质都可能不同，但是状态相同的UE之间能够获取最多有用的信息，所以根据合作Q学习方法，令处于相同状态的智能体用户可以互相共享Q表。为了减少总体的复杂度，通过共享Q表进行平均来构建一个新的Q表。

采用ε-greedy策略解决算法的收敛性问题：该策略以ε的概率执行随机探索explore，以1-ε的概率执行正常的贪婪策略exploit；ε-greedy策略采用适当的ε值以寻求贪婪与探索之间的平衡。研究表明，与原来的贪婪策略相比，ε-greedy策略具有更快的收敛速度，能够在有限的迭代次数下得到更接近最优值的Q值。根据研究与仿真，为了在贪婪与探索之间合理折衷，我们可以假设ε＝0.1或ε＝0.01。

在其他一实施例中，提供一种网络设备，包括存储器和处理器，存储器中存储有计算机程序，该程序被处理器调用并运行时，执行上述的基于强化学习的密集网络大规模终端接入与资源分配方法。

Claims

1.一种基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，包括如下步骤:

步骤三，针对优化问题进行求解，提出基于Q学习的大连接多业务网络用户接入资源分配算法；所述基于Q学习的大连接多业务网络用户接入资源分配算法为：在本场景中，每个智能体用户独立地基于动作、状态和反馈奖励的迭代趋势执行下一时刻的动作A_i,j(t+1)，动作完成后根据当前时刻的状态S(t)和获得的反馈奖励值Rw(t)来更新动作值函数Q(S,A)对应的Q值，该Q值将会影响下一轮的信道选择过程；

步骤四，利用多智能体合作共享Q表加快问题求解的收敛速度；

其中，步骤一中，使用c_SBS表示基站CPU的计算速率，使用ci表示用户CPU计算速率，且有c_SBS＞c_i；UE_i将要卸载到SBS服务器的计算任务表示为(f_i,b_i)，其中f_i表示CPU完成UE_i计算任务所需要的周期数，b_i表示UE_i计算任务大小；假设UE_i业务要求的最大接入时延为则当UE_i的计算能力满足UE_i的业务要求时不进行计算任务卸载，反之，当UE_i的计算能力不满足要求时，将UE_i的计算任务卸载到最近的SBS进行计算，从而降低UE_i的业务时延；

2.根据权利要求1所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤一中，建立一个上行大连接多回程异构密集网络场景模型，该场景由一个宏基站MBS和n个微基站SBS组成，场景中的k个用户随机均匀地分布在网络中，且同时只能接入一个SBS，每个SBS具有三种回程方式，分别为毫米波回程、Mesh回程和卫星回程，并且分别对应SBS的三个回传信道，则网络中共有3n条相互正交的回传信道。

3.根据权利要求2所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤一中，假设在离散时刻t，网络中的第i个用户UE_i,i∈{1,...,k}接入到SBS_j,j∈{1,...,n}，则SBS_j接收端接收到的信号包括UE_i信号、来自其他用户的干扰、来自SBS的干扰以及热噪声，因此SBS_j接收信干噪比表示为

R_ij(t)＝B_ij log₂(1+SINR_ij(t))，

其中，B_ij表示SBS_j分配给用户的接入链路带宽；

R_i,b(t)＝B_j,b log₂(1+SINR_j,b(t)),b∈{MMW,WMB,SB}，

4.根据权利要求1所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤二中，在大连接多回程异构密集网络场景下，定义在t时刻用户分别接入到SBSs的发射信号向量为那么在满足不同业务用户需求的前提下，以最大化接入侧系统吞吐量为目标的用户接入与资源分配优化问题被表述成如下形式

s.t.P_i(t)≤P_max,i＝1,...,k,

β_j,b(t)R_i,b(t)≥R_ij(t),i＝1,...,k,

b∈{MMW,WMB,SB}；

5.根据权利要求4所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤三中，根据步骤一建立的网络模型，每个智能体用户都通过与网络环境的交互来执行接入SBS并选择回传信道的动作，最终实现用户接入到最优信道的结果；智能体用户选择信道的过程依赖于自身的历史状态信息，该过程具有马尔可夫性质，而Q学习是一种无模型的强化学习方法，可利用Q学习算法来解决信道选择马尔可夫决策过程问题；

整个信道选择过程可以表示成五元组＜S,A,Rw,H,η＞，其中S表示状态集合，A表示动作集合，Rw表示反馈奖励，H表示状态转移概率矩阵，以及折扣因子η，0≤η≤1；利用折扣因子可以避免在信道选择的马尔可夫过程中无限地获得相同的动作-价值函数；

定义t时刻UE_i的状态为

其中s_i表示UE_i的业务类型，SINR_ij(t)表示t时刻UE_i与每个SBS之间的信干噪比值，表示t时刻UE_i与每个SBS之间的最大信干噪比值，/>表示归一化信干噪比值，β_j,b(t)表示在t时刻每个SBS的所有回传信道状态；

每个用户在有限的动作空间中选择自己的动作；

表示有限的动作空间，A_i,j(t)表示UE_i在t时刻执行接入到基站j的行为，其中a_j为一数值，取值范围为0≤a_j≤P_max，表示用户以发射功率a_j接入到SBS_j，a_MBS表示用户以发射功率a_MBS直接接入MBS，b_j,j∈{1,...,n,MBS}表示用户接入带宽，取值范围为/>表示用户以带宽b_j接入到SBS_j或MBS；

t时刻优化目标转化成反馈奖励函数如下

6.根据权利要求5所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤三中，设立动作值函数Q(S,A)，动作值函数Q(S,A)是在时刻t智能体用户执行动作A后获得相应状态S后的回报值；设立策略集π(A|S)，策略集π(A|S)表示用户执行信道选择动作A后产生状态S相应的策略π；则最优的动作值函数Q_*(S,A)是指所有信道选择策略中动作值函数中最大的一个，即

s.t.0≤γ≤1,0≤μ≤1

其中，γ为学习率，表示Q值的更新速率，η为折扣因子，表示下一时刻获得的反馈奖励的折扣值，A(t)表示UE在t时刻执行的动作。

7.根据权利要求6所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤四中，利用多智能体合作共享Q表的方式加快问题求解时的收敛速度：每个智能体用户会独立地收集网络中的信息，并抽象成每个用户对应的状态上传到MBS构建共享Q表，其中状态包括用户的业务类型、用户与每个SBS之间的信干噪比值，当前时刻每个SBS的所有回传信道状态；每个智能体用户的信息性质都可能不同，但是状态相同的UE之间能够获取最多有用的信息，所以根据合作Q学习方法，令处于相同状态的智能体用户可以互相共享Q表。

8.根据权利要求7所述的基于强化学习的密集网络大规模终端接入与资源分配方法，其特征在于，步骤四中，采用ε-greedy策略解决算法的收敛性问题：该策略以ε的概率执行随机探索explore，以1-ε的概率执行正常的贪婪策略exploit；ε-greedy策略采用适当的ε值以寻求贪婪与探索之间的平衡；

在每一轮迭代中，每个智能体用户最大计算复杂度为O(1)，因此基于Q学习的大连接多业务网络用户接入资源分配算法总共的系统计算复杂度为O(n)。

9.一种网络设备，包括存储器和处理器，其特征在于，存储器中存储有计算机程序，该程序被处理器调用并运行时，执行如权利要求1-8任意一项所述的方法。