CN112887999A

CN112887999A - 一种基于分布式a-c的智能接入控制与资源分配方法

Info

Publication number: CN112887999A
Application number: CN202110113348.1A
Authority: CN
Inventors: 唐伦; 张亚; 唐浩; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-06-01
Anticipated expiration: 2041-01-27
Also published as: CN112887999B

Abstract

本发明涉及一种基于分布式A‑C的智能接入控制与资源分配方法，属于通信技术领域。该方法中，根据eMBB和URLLC切片的性能需求，构建了一个联合eMBB切片用户传输速率和URLLC切片用户时延的双目标优化模型。其次，将联邦学习与强化学习融合，建立一个联邦强化学习框架，各个智能体协作，以更新全局权重参数，且各个智能体本地数据不相互交换。联邦强化学习框架中的智能体利用A‑C学习不断与环境进行交互，各个智能体间相互协作，动态调整接入控制与资源分配策略，优化系统模型。本发明所提能够满足各切片用户性能需求且维持各切片用户队列处于稳定状态，优化eMBB用户传输速率和URLLC用户时延，提高资源利用率。

Description

一种基于分布式A-C的智能接入控制与资源分配方法

技术领域

本发明属于通信技术领域，涉及一种基于分布式A-C的智能接入控制与资源分配方法。

背景技术

下一代移动通信网络将支持大量垂直行业的多元化业务场景，比如智能安防、远程医疗、智能家居、自动驾驶、增强实现、电力巡检等，这些具有不同通信需求的应用场景通常包括大规模机器类型通信(massive Machine-Type Communication,mMTC)、增强移动宽带(enhanced Mobile BroadBand,eMBB)和超可靠低时延通信(Ultra-Reliable and Low-Latency Communication,URLLC)。基于软件定义网络(Soft Defined Network,SDN)和网络功能虚拟化(Network Function Virtualtion,NFV)技术的网络切片是指将底层的物理网络构建为多个独立的逻辑虚拟网络，网络切片被认为是支持异构业务需求的重要使能技术，通过网络切片，可以提供灵活、高效的定制化服务，以满足不同应用的特定需求。然而，在具有多样化服务请求的无线应用快速发展的驱动下，如何利用网络中有限的无线网络资源，为满足不同应用需求的提供特定服务的无线接入网(Radio Access Network,RAN)切片制定高效、动态的智能资源分配策略仍然是一个具有挑战性的问题。

目前，现有技术存在以下问题：首先，现有的网络切片的资源分配方法旨在提高基础设施提供商的收益，没有考虑网络中的异构业务请求特性，也没有具体分析接入切片用户的性能需求，或者对于多种网络切片场景下只通过单一性能来刻画用户需求，但实际上针对不同的切片，用户性能需求是不同的。其次，现有的接入控制与资源分配问题将用户的性能作为约束条件，以最大化收益为目标，忽略了网络中业务动态到达的特性，没有考虑接入控制策略以限制接入到网络中的数据量，当到达的随机数据量过大时，可能影响网络的稳定性，且静态的接入控制与资源分配策略已不再适用动态变化的网络环境。最后，随着人们对数据安全和设备隐私的关注度越来越高，数据隐私安全问题也成为大众重点关注的问题。因此，如何在无线接入网多切片场景中，合理动态的控制业务接入量并进行资源分配，从而优化用户性能非常值得研究。

发明内容

有鉴于此，本发明的目的在于提供一种基于分布式A-C的智能接入控制与资源分配方法。该方法在RAN支持多种异构切片请求服务的下行链路传输场景下，根据动态变化的用户队列长度和业务到达率，自适应动态的调整各用户的接入控制与资源分配方法，稳定队列长度，优化eMBB切片用户传输速率和URLLC切片用户时延，提高资源利用率。

为达到上述目的，本发明提供如下技术方案：

一种基于分布式A-C的智能接入控制与资源分配方法，该方法包括以下步骤：

S1：针对无线接入网(RAN)网络下网络切片的智能资源动态分配优化问题，综合考虑用户数据隐私、接入控制与资源分配，建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型。

S2：针对用户数据隐私，单个用户数据不具代表性，将联邦学习和强化学习融合，构建一个联邦强化学习框架，该框架旨在让各个智能体协作，以制定出全局策略，且各个智能体内部的数据不需要相互交换，无需上传原始数据，维护数据安全。

S3：将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP)。

S4：针对建立的MDP中状态、动作空间连续，且状态转移概率未知，采用结合值函数和策略函数的A-C学习与环境不断进行交互，且各个智能体间相互协作学习，动态调整网络切片的接入控制与资源分配方法，联合优化eMBB切片用户的传输速率和URLLC切片用户的时延。

进一步，在步骤S1中，所述的网络切片模型为：网络场景为单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景，且构建了eMBB和URLLC两种类型的切片，且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular UserEquipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs)，考虑DUEs用户由URLLC切片为其提供服务。

用集合

表示网络中总的物理资源块(Resource Block,RB)集合，N表示总的RBs数量；系统中总的eMBB切片用户集合表示为

URLLC切片服务的CUEs用户集合用

表示，且URLLC切片中的DUEs用户集合表示为

进一步，令

用

和

分别表示用户C^e-UE和C^u-UE到基站的信道增益，用g_k表示D^u-UE用户的信道增益。用

表示第k个D^u-UE用户对第l个C^u-UE用户产生的干扰信道增益，g_l,k表示第l个C^u-UE用户对第k个D^u-UE用户产生干扰信道增益。

表示第m个C^e-UE在时隙t占用第n个RB的瞬时传输功率，且有

表示第m个C^e-UE用户在时隙t的队列积压长度，用

表示eMBB切片中的用户的最大队列长度；

和

分别表示第l个C^u-UE和第k个D^u-UE用户在时隙t占用第n个RB的传输功率，且有

进一步，在步骤S1中，用户的接入控制与资源分配方法包含两部分内容：第一部分各个切片中的用户选择接入的业务量，即根据当前用户的队列长度和数据包到达率确定接入切片的业务量；第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配，其中包括每个用户的RBs的分配以及功率分配，对于URLLC切片中还需考虑C^u-UE用户和D^u-UE用户间RBs资源的复用情况。

进一步，在步骤S1中，将流量接入控制、各种资源分配与eMBB切片用户的传输速率和URLLC切片用户的平均时延建立关联，具体包括：eMBB切片中的C^e-UE用户的平均和传输速率

与RBs和传输功率的分配密切联系；URLLC切片中的C^u-UE用户和D^u-UE用户的平均和时延

与接入的数据量、分配的RBs和传输功率密切相关；因此，RAN切片的系统优化模型为：

则优化目标为：max{ψ}。

进一步，在步骤S2中，针对本发明中的问题构建联邦强化学习框架，具体为：

本发明中包含单个基站和多个用户，本发明考虑将基站作为全局联邦智能体，用户作为本地智能体，构建分布式架构。对于每个进行本地模型训练的智能体用户，引入强化学习中结合了值函数和策略函数的A-C学习协助分布式智能体进行本地决策，通过不断地与动态环境交互来进行本地模型更新。网络中所有的智能体在利用A-C学习进行本地模型训练后，将其本地权重参数上传给基站，基站收到网络中所有本地智能体的本地权重参数后，利用其进行全局权重参数的更新，从而构成分布式A-C学习框架(Federated LearningActor Critic,FLAC)。

进一步，在步骤S3中，单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP)，具体包括：

MDP定义为一个多元组

其中

代表状态空间，

是动作空间，

表示不同状态之间的转移概率，

是奖励函数。状态空间由当前时隙用户的队列长度和业务到达率共同决定，动作空间是流量接入控制与资源分配，转移为用户在某一状态下执行接入控制与资源分配后转移到下一个状态的概率：

其中

是用户u在时隙t的状态，

为用户u在时隙t的动作，f是状态转移概率密度函数。奖励函数是当前用户在状态

下采取动作

后得到一个即时奖励，即：

进一步，在步骤S4中，采用结合值函数和策略函数的A-C学习与环境不断进行交互，且各个智能体间相互协作学习，动态调整网络切片的接入控制与资源分配方法，将其与所述的MDP结合，将接入控制与资源分配目标转化为：寻找一个策略π，最大化目标函数：

其中

动作

来自数θ构建的参数化策略为π_θ(a^u|s^u)＝Pr(a^u|s^u,θ)，它代表了在一定状态下执行某个动作概率的映射，即对于当前的队列长度和数据包到达情况，选择某个流量接入控制与资源分配方法的概率。本发明采用函数逼近方法来估计值函数，即利用本地权重参数ω^u近似状态-动作值函数Q_ω(s^u,a^u)，并通过最小化损失函数进行进行本地权重参数的更新。在利用A-C学习算法进行本地模型训练后，本地智能体将会发送本地权重参数

给基站以更新全局权重参数，以制定全局策略。

本发明的有益效果在于：本发明在RAN网络支持多种异构切片请求服务的下行链路传输场景下，根据动态变化的用户队列长度和业务到达率，通过联邦A-C学习算法不断与环境交互动态的调整各用户的接入控制与资源分配方法，优化eMBB切片用户传输速率和URLLC切片时延，提高资源利用率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为可应用本发明场景示意图；

图2为本发明中的分布式A-C学习框架图；

图3为本发明中本地A-C学习框架图；

图4为本发明中基于分布式A-C学习的智能接入控制与资源分配算法流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，为一种基于分布式A-C学习的智能接入控制与资源分配算法，包括以下步骤：

具体地，在步骤S1中，所述的无线接入网网络切片模型为：

网络场景中包含单个基站和多个用户，且构建了支持多种异构切片请求服务的eMBB和URLLC两种类型的切片，且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular User Equipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs)，考虑DUEs用户由URLLC切片为其提供服务。

用集合

URLLC切片服务的CUEs用户集合用

表示，且URLLC切片中的DUEs用户集合表示为

进一步，令

用

和

表示第m个C^e-UE在时隙t占用第n个RB的瞬时传输功率，且有

表示第m个C^e-UE用户在时隙t的队列积压长度，用

表示eMBB切片中的用户的最大队列长度；

和

用户的接入控制与资源分配方法包含两部分内容：第一部分各个切片中的用户选择接入的业务量，即根据当前用户的队列长度和数据包到达率确定接入切片的业务量；第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配，其中包括每个用户的RBs的分配以及功率分配，对于URLLC切片中还需考虑C^u-UE用户和D^u-UE用户间RBs资源的复用情况。具体定义如下：

对于eMBB切片中的C^e-UE，用二进制变量

表示在时隙t将第n个RB分配给第m个C^e-UE，如果执行了分配动作，

反之则不分配，同理

令

为第m个C^e-UE用户在时隙t的业务到达量，且有

其中

表示C^e-UE用户的随机业务到达量阈值，

表示第m个C^e-UE用户在时隙t允许接入的数据量，

表示第m个C^e-UE用户在时隙t的队列积压长度，用

表示eMBB切片中的用户的最大队列长度，σ²是噪声功率，并且假设所有的用户有相同的噪声功率。令

表示第m个C^e-UE用户占用第n个RBs的瞬时下行链路传输速率，eMBB切片中的第m个C^e-UE可获得的最大下行链路传输速率为

从而可求得eMBB切片中某一用户的平均传输速率为

为方便后续处理，对eMBB切片中用户的传输速率进行归一化处理，因此eMBB切片中传输和速率为

对于URLLC切片中的用户用二进制变量

表示在时隙t把第n个RB分别分配给第l个C^u-UE用户和第k个D^u-UE用户，令

和

为第l个C^u-UE和第k个D^u-UE用户的业务到达量，且有

和

且

和

用

表示第l个C^u-UE和第k个D^u-UE用户在时隙t上的队列积压长度，用

和

分别表示URLLC切片中的C^u-UE和D^u-UE的最大队列长度，

和

分别表示第l个C^u-UE用户和第k个D^u-UE用户在时隙t允许接入的数据量。

和

表示第l个C^u-UE和第k个D^u-UE用户的平均传输速率，

和

分别表示第l个C^u-UE和第k个D^u-UE用户的平均队列长度，URLLC切片中用户的平均时延进行归一化处理，则URLLC切片中C^u-UE和D^u-UE用户的时延奖励可以表示为

令R^e,req表示eMBB切片用户的传输速率阈值，对C^e-UE的传输速率性能需求为：

和

分别表示C^u-UE和D^u-UE用户的时延阈值概率；从而URLLC切片中的C^u-UE和D^u-UE用户的时延约束可以表示为：

和

分别表示URLLC切片中C^u-UE和D^u-UE用户的传输速率阈值，

和

是C^u-UE和D^u-UE用户能接受的最大中断概率；URLLC的可靠性需求约束可以表示为：

因此，前述以联合优化eMBB切片用户传输速率和URLLC切片用户时延为目标的流量接入控制、物理资源块、功率分配、物理资源块复用采用如下目标函数：

s.t.

其中，

根据步骤S2，在步骤S3中，针对联邦强化学习中框架中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov DecisionProcess,MDP)。MDP定义为一个多元组

其中

代表状态空间，

是动作空间，

表示不同状态之间的转移概率，

是奖励函数。

令

为用户u在时隙t的状态，且该状态由当前时隙用户u的队列长度和业务到达率共同决定，可以表示为

且

系统需要确定每个用户的资源分配情况，假设

代表网络中所有用户的动作集合。因此，对于一个具体的用户u的动作定义为

其中r^u(t)代表用户u在时隙t将接入的业务量，P^u(t)代表分配给用户u的功率，x^u(t)代表用户u获得的物理资源块的变量因子。

因为状态集中的元素都是连续的，因此，采取动作

后用户u的队列长度和业务到达率状态转移至状态

的概率为

其中f是状态转移概率密度函数。

网络中所有的用户在各自的状态

下采取动作

后，即完成当前时隙的流量接入控制与资源分配策略后，用户会得到一个即时奖励，即

从而系统也会相应得到一个奖励R_t＝ψ(t)。

所述MDP状态和动作空间连续，假设动作

来自于一个随机策略

它代表了在一定状态下执行某个动作概率的映射。当学习过程达到收敛时，在一定状态下选择特定动作的概率大于选择其他动作的概率，即当网络环境处于某个队列长度和数据包到达情况时，能够根据学习到的策略执行特定的流量接入控制和资源分配策略。传统解决MDP的方法很大程度上都依赖于动态变化的先验知识，但是本文中未来网络中的队列长度和业务到达率很难获知，因此，本文采取无需先验知识的A-C学习来解决上述提出的MDP问题，通过不断与环境交互学习来得到对应策略。

在步骤S4中，所述的基于分布式A-C学习的智能接入控制与资源分配方法，结合步骤S3建立的MDP过程，转化得到本地A-C学习的目标，即找一个策略π，最大化下述目标函数，即

然后，在演员部分采用参数θ来构建策略π(a^u|s^u)，即参数化策略为π_θ(a^u|s^u)＝Pr(a^u|s^u,θ)，利用梯度上升法来对目标函数进行更新，计算策略梯度

并根据环境中的队列长度和业务到达情况动态生成接入控制与资源分配策略。进一步，评论家利用采用函数逼近方法来估计值函数，从而对当前策略进行评判，如果当前分布式A-C学习回合是第一轮学习回合，智能体利用初始本地权重参数ω^u近似当前状态-动作值函数，即：

而后，智能体利用基站下发的全局权重参数来近似状态-动作值函数。对评论家过程中的权重参数进行更新，通过引入时间差分误差(Temporal Difference error,TD-error)更新本地权重参数，定义用户u在时隙t的TD误差值

即：

Critic过程的目标是最小化TD误差损失函数值，其损失函数为：

采用梯度下降法更新参数ω^u，并在梯度方向上不断更新近似真实值函数，那本地权重参数ω^u的更新公式可表示为：

在本地模型训练了T个时隙后，智能体将会发送本地权重参数

给基站以更新全局权重参数，从而获得全局策略。在分布式A-C学习框架中，本地智能体利用结合值函数和策略函数的A-C学习算法进行本地模型训练和参数更新，各个智能体之间相互协作以联合制定全局策略，无需上传原始数据到基站，维护数据安全隐私，减小通信开销，并且各个智能体协作可以消除单个智能体用户数据不足带来的负影响。

图1是本发明的场景示意图。首先，在单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景中，构建了eMBB和URLLC两种类型的切片，且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular User Equipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs)，考虑DUEs用户由URLLC切片为其提供服务。网络中的eMBB切片用户和URLLC切片用户共享网络中所有的物理资源块，但是不能复用，URLLC切片中的CUEs用户和DUEs用户复用分配给URLLC切片的物理资源块。网络中包含多种性能需求用户，随着用户业务到达量动态变化，通过控制当前业务接入量来有效控制队列积压情况，维持系统稳定性。另外针对网络中eMBB切片用户和URLLC切片用户异构性能需求，采用不同的资源分配方式和URLLC切片内物理资源块的复用可以在满足异构用户性能需求的同时，优化系统模型。

图2本发明中的分布式A-C学习框架图。在本发明的系统场景中，包含多个用户，为了维护用户数据隐私安全，无需上传原始数据到基站进行集中处理，将联邦学习和A-C学习融合，构建分布式A-C学习框架，有效利用用户产生的本地数据，让各个智能体协作以制定有限的全局策略。

图3本发明中本地A-C学习框架图。在上述的分布式A-C学习框架中，本地智能体通过引入结合和值函数和策略函数的A-C学习，不断与环境进行交互，有效的进行本地决策。A-C算法中包含三部分内容：演员、评论家和环境。演员部分定义随机参数化策略，并根据环境中动态变化的队列长度和业务到达情况生成对应的流量接入控制和资源分配动作，然后评论家根据演员执行动作后获得的奖励评判当前策略的优劣性能，并进一步更新值函数。在评论家部分需要完成值函数近似和本地权重参数更新过程，而后演员使用评论家的输出更新其策略。评论家的的目标是最小化TD误差损失函数值，从而进行相应调整。在本地模型训练了T个时隙后，智能体将会发送本地权重参数

给基站以更新全局权重参数，从而获得全局策略。各个智能体之间相互协作以联合制定全局策略，无需上传原始数据到基站，维护数据安全隐私，减小通信开销，并且各个智能体协作可以消除单个智能体用户数据不足带来的负影响。

图4是本发明的基于分布式A-C学习的智能接入控制与资源分配算法流程。步骤如下：

步骤401：生成无线接入网的物理网络拓扑，网络中的CUEs用户和DUEs用户在基站覆盖范围内随机分布；同时生成eMBB和URLLC切片两种类型的切片。

步骤402：输入高斯策略π(s^u,a^u)～N(μ(s^u),σ²)，状态分布d^π(s^u)，演员学习率ε_a,t和评论家学习率ε_c,t，折扣因子β，策略参数θ，初始权重参数ω^u。

步骤403：如果学习回合未结束，执行以下步骤。

步骤404：获得初始状态s₀～d_π(s)，初始化参数化策略π_θ(a^u|s^u)，初始化权重参数ω^u。

步骤405：如果该回合设置的学习步数还未结束，执行以下策略。

步骤406：遵循参数化策略π_θ(a^u|s^u)选择动作

执行用户u的流量接入控制与智能资源分配策略，并得到即刻性能奖励

步骤407：执行评论家过程，利用本地权重参数进行状态-动作值函数近似，计算状态-动作值函数损失函数。

步骤408：更新本地权重参数ω^u

步骤409：执行演员过程，重写策略梯度。

步骤410：更新演员参数θ。

步骤411：如果该回合设置的学习步数还未结束，执行以下动作。

步骤412：智能体上传本地权重参数ω^u给基站。

步骤413：基站利用所有智能体上传的本地权重参数更新全局权重参数。

步骤414：基站更新全局权重参数后，学习回合是否结束，如果结束，获得全局接入控制与资源分配策略。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：该方法包括以下步骤：

S1：针对无线接入网RAN网络下网络切片的智能资源动态分配优化问题，综合考虑用户数据隐私、接入控制与资源分配，建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型；

S2：针对用户数据隐私，单个用户数据不具代表性，将联邦学习和强化学习融合，构建联邦强化学习框架；

S3：将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP；

2.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：所述S1中，网络切片模型为：网络场景为单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景，且构建eMBB和URLLC两种类型的切片，且接入切片中的用户类型有设备和基站之间进行通信的用户CUEs、设备和设备D2D之间通信的用户DUEs，考虑DUEs用户由URLLC切片为其提供服务；

用集合

URLLC切片服务的CUEs用户集合用

表示，且URLLC切片中的DUEs用户集合表示为

令

用

和

分别表示用户C^e-UE和C^u-UE到基站的信道增益，用g_k表示D^u-UE用户的信道增益；用

表示第k个D^u-UE用户对第l个C^u-UE用户产生的干扰信道增益，g_l,k表示第l个C^u-UE用户对第k个D^u-UE用户产生干扰信道增益；

表示第m个C^e-UE在时隙t占用第n个RB的瞬时传输功率，且有

表示第m个C^e-UE用户在时隙t的队列积压长度，用

表示eMBB切片中的用户的最大队列长度；

和

3.根据权利要求2所述的一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：所述S1中，用户的接入控制与资源分配方法包含两部分内容：

第一部分各个切片中的用户选择接入的业务量，即根据当前用户的队列长度和数据包到达率确定接入切片的业务量；

第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配，其中包括每个用户的RBs的分配以及功率分配，对于URLLC切片中还需考虑C^u-UE用户和D^u-UE用户间RBs资源的复用情况。

4.根据权利要求3所述的一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：所述S1中，将流量接入控制、各种资源分配与eMBB切片用户的传输速率和URLLC切片用户的平均时延建立关联，包括：eMBB切片中的C^e-UE用户的平均和传输速率

与接入的数据量、分配的RBs和传输功率密切相关；RAN切片的系统优化模型为：

则优化目标为：max{ψ}。

5.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：所述S2中，联邦强化学习中，包含单个基站和多个用户，将基站作为全局联邦智能体，用户作为本地智能体，构建分布式架构；对于每个进行本地模型训练的智能体用户，引入强化学习中结合值函数和策略函数的A-C学习协助分布式智能体进行本地决策，通过不断地与动态环境交互来进行本地模型更新；网络中所有的智能体在利用A-C学习进行本地模型训练后，将其本地权重参数上传给基站，基站收到网络中所有本地智能体的本地权重参数后，利用其进行全局权重参数的更新，从而构成分布式A-C学习框架FLAC。

6.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：所述S3中，单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP包括：

MDP定义为一个多元组

其中

代表状态空间，

是动作空间，

表示不同状态之间的转移概率，

是奖励函数；状态空间由当前时隙用户的队列长度和业务到达率共同决定，动作空间是流量接入控制与资源分配，转移为用户在某一状态下执行接入控制与资源分配后转移到下一个状态的概率：

其中

是用户u在时隙t的状态，

为用户u在时隙t的动作，f是状态转移概率密度函数；奖励函数是当前用户在状态

下采取动作

后得到一个即时奖励，即：

7.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法，其特征在于：所述S4中，采用结合值函数和策略函数的A-C学习与环境不断进行交互，且各个智能体间相互协作学习，动态调整网络切片的接入控制与资源分配方法，将其与所述的MDP结合，将接入控制与资源分配目标转化为：寻找一个策略π，最大化目标函数：

其中

动作

来自数θ构建的参数化策略为π_θ(a^u|s^u)＝Pr(a^u|s^u,θ)，代表在一定状态下执行某个动作概率的映射，即对于当前的队列长度和数据包到达情况，选择某个流量接入控制与资源分配方法的概率；采用函数逼近方法来估计值函数，即利用本地权重参数ω^u近似状态-动作值函数Q_ω(s^u,a^u)，并通过最小化损失函数进行进行本地权重参数的更新；在利用A-C学习算法进行本地模型训练后，本地智能体将会发送本地权重参数

给基站以更新全局权重参数，以制定全局策略。