CN112887999A - 一种基于分布式a-c的智能接入控制与资源分配方法 - Google Patents
一种基于分布式a-c的智能接入控制与资源分配方法 Download PDFInfo
- Publication number
- CN112887999A CN112887999A CN202110113348.1A CN202110113348A CN112887999A CN 112887999 A CN112887999 A CN 112887999A CN 202110113348 A CN202110113348 A CN 202110113348A CN 112887999 A CN112887999 A CN 112887999A
- Authority
- CN
- China
- Prior art keywords
- user
- slice
- resource allocation
- access control
- urllc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/08—Access security
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0231—Traffic management, e.g. flow control or congestion control based on communication conditions
- H04W28/0236—Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于分布式A‑C的智能接入控制与资源分配方法,属于通信技术领域。该方法中,根据eMBB和URLLC切片的性能需求,构建了一个联合eMBB切片用户传输速率和URLLC切片用户时延的双目标优化模型。其次,将联邦学习与强化学习融合,建立一个联邦强化学习框架,各个智能体协作,以更新全局权重参数,且各个智能体本地数据不相互交换。联邦强化学习框架中的智能体利用A‑C学习不断与环境进行交互,各个智能体间相互协作,动态调整接入控制与资源分配策略,优化系统模型。本发明所提能够满足各切片用户性能需求且维持各切片用户队列处于稳定状态,优化eMBB用户传输速率和URLLC用户时延,提高资源利用率。
Description
技术领域
本发明属于通信技术领域,涉及一种基于分布式A-C的智能接入控制与资源分配方法。
背景技术
下一代移动通信网络将支持大量垂直行业的多元化业务场景,比如智能安防、远程医疗、智能家居、自动驾驶、增强实现、电力巡检等,这些具有不同通信需求的应用场景通常包括大规模机器类型通信(massive Machine-Type Communication,mMTC)、增强移动宽带(enhanced Mobile BroadBand,eMBB)和超可靠低时延通信(Ultra-Reliable and Low-Latency Communication,URLLC)。基于软件定义网络(Soft Defined Network,SDN)和网络功能虚拟化(Network Function Virtualtion,NFV)技术的网络切片是指将底层的物理网络构建为多个独立的逻辑虚拟网络,网络切片被认为是支持异构业务需求的重要使能技术,通过网络切片,可以提供灵活、高效的定制化服务,以满足不同应用的特定需求。然而,在具有多样化服务请求的无线应用快速发展的驱动下,如何利用网络中有限的无线网络资源,为满足不同应用需求的提供特定服务的无线接入网(Radio Access Network,RAN)切片制定高效、动态的智能资源分配策略仍然是一个具有挑战性的问题。
目前,现有技术存在以下问题:首先,现有的网络切片的资源分配方法旨在提高基础设施提供商的收益,没有考虑网络中的异构业务请求特性,也没有具体分析接入切片用户的性能需求,或者对于多种网络切片场景下只通过单一性能来刻画用户需求,但实际上针对不同的切片,用户性能需求是不同的。其次,现有的接入控制与资源分配问题将用户的性能作为约束条件,以最大化收益为目标,忽略了网络中业务动态到达的特性,没有考虑接入控制策略以限制接入到网络中的数据量,当到达的随机数据量过大时,可能影响网络的稳定性,且静态的接入控制与资源分配策略已不再适用动态变化的网络环境。最后,随着人们对数据安全和设备隐私的关注度越来越高,数据隐私安全问题也成为大众重点关注的问题。因此,如何在无线接入网多切片场景中,合理动态的控制业务接入量并进行资源分配,从而优化用户性能非常值得研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于分布式A-C的智能接入控制与资源分配方法。该方法在RAN支持多种异构切片请求服务的下行链路传输场景下,根据动态变化的用户队列长度和业务到达率,自适应动态的调整各用户的接入控制与资源分配方法,稳定队列长度,优化eMBB切片用户传输速率和URLLC切片用户时延,提高资源利用率。
为达到上述目的,本发明提供如下技术方案:
一种基于分布式A-C的智能接入控制与资源分配方法,该方法包括以下步骤:
S1:针对无线接入网(RAN)网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型。
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建一个联邦强化学习框架,该框架旨在让各个智能体协作,以制定出全局策略,且各个智能体内部的数据不需要相互交换,无需上传原始数据,维护数据安全。
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP)。
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延。
进一步,在步骤S1中,所述的网络切片模型为:网络场景为单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景,且构建了eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular UserEquipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs),考虑DUEs用户由URLLC切片为其提供服务。
用集合表示网络中总的物理资源块(Resource Block,RB)集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为URLLC切片服务的CUEs用户集合用表示,且URLLC切片中的DUEs用户集合表示为进一步,令用和分别表示用户Ce-UE和Cu-UE到基站的信道增益,用gk表示Du-UE用户的信道增益。用表示第k个Du-UE用户对第l个Cu-UE用户产生的干扰信道增益,gl,k表示第l个Cu-UE用户对第k个Du-UE用户产生干扰信道增益。表示第m个Ce-UE在时隙t占用第n个RB的瞬时传输功率,且有 表示第m个Ce-UE用户在时隙t的队列积压长度,用表示eMBB切片中的用户的最大队列长度;和分别表示第l个Cu-UE和第k个Du-UE用户在时隙t占用第n个RB的传输功率,且有
进一步,在步骤S1中,用户的接入控制与资源分配方法包含两部分内容:第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的RBs的分配以及功率分配,对于URLLC切片中还需考虑Cu-UE用户和Du-UE用户间RBs资源的复用情况。
进一步,在步骤S1中,将流量接入控制、各种资源分配与eMBB切片用户的传输速率和URLLC切片用户的平均时延建立关联,具体包括:eMBB切片中的Ce-UE用户的平均和传输速率与RBs和传输功率的分配密切联系;URLLC切片中的Cu-UE用户和Du-UE用户的平均和时延与接入的数据量、分配的RBs和传输功率密切相关;因此,RAN切片的系统优化模型为:则优化目标为:max{ψ}。
进一步,在步骤S2中,针对本发明中的问题构建联邦强化学习框架,具体为:
本发明中包含单个基站和多个用户,本发明考虑将基站作为全局联邦智能体,用户作为本地智能体,构建分布式架构。对于每个进行本地模型训练的智能体用户,引入强化学习中结合了值函数和策略函数的A-C学习协助分布式智能体进行本地决策,通过不断地与动态环境交互来进行本地模型更新。网络中所有的智能体在利用A-C学习进行本地模型训练后,将其本地权重参数上传给基站,基站收到网络中所有本地智能体的本地权重参数后,利用其进行全局权重参数的更新,从而构成分布式A-C学习框架(Federated LearningActor Critic,FLAC)。
进一步,在步骤S3中,单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP),具体包括:
MDP定义为一个多元组其中代表状态空间,是动作空间,表示不同状态之间的转移概率,是奖励函数。状态空间由当前时隙用户的队列长度和业务到达率共同决定,动作空间是流量接入控制与资源分配,转移为用户在某一状态下执行接入控制与资源分配后转移到下一个状态的概率:其中是用户u在时隙t的状态,为用户u在时隙t的动作,f是状态转移概率密度函数。奖励函数是当前用户在状态下采取动作后得到一个即时奖励,即:
进一步,在步骤S4中,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,将其与所述的MDP结合,将接入控制与资源分配目标转化为:寻找一个策略π,最大化目标函数:其中动作来自数θ构建的参数化策略为πθ(au|su)=Pr(au|su,θ),它代表了在一定状态下执行某个动作概率的映射,即对于当前的队列长度和数据包到达情况,选择某个流量接入控制与资源分配方法的概率。本发明采用函数逼近方法来估计值函数,即利用本地权重参数ωu近似状态-动作值函数Qω(su,au),并通过最小化损失函数进行进行本地权重参数的更新。在利用A-C学习算法进行本地模型训练后,本地智能体将会发送本地权重参数给基站以更新全局权重参数,以制定全局策略。
本发明的有益效果在于:本发明在RAN网络支持多种异构切片请求服务的下行链路传输场景下,根据动态变化的用户队列长度和业务到达率,通过联邦A-C学习算法不断与环境交互动态的调整各用户的接入控制与资源分配方法,优化eMBB切片用户传输速率和URLLC切片时延,提高资源利用率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为可应用本发明场景示意图;
图2为本发明中的分布式A-C学习框架图;
图3为本发明中本地A-C学习框架图;
图4为本发明中基于分布式A-C学习的智能接入控制与资源分配算法流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,为一种基于分布式A-C学习的智能接入控制与资源分配算法,包括以下步骤:
S1:针对无线接入网(RAN)网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型。
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建一个联邦强化学习框架,该框架旨在让各个智能体协作,以制定出全局策略,且各个智能体内部的数据不需要相互交换,无需上传原始数据,维护数据安全。
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP)。
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延。
具体地,在步骤S1中,所述的无线接入网网络切片模型为:
网络场景中包含单个基站和多个用户,且构建了支持多种异构切片请求服务的eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular User Equipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs),考虑DUEs用户由URLLC切片为其提供服务。
用集合表示网络中总的物理资源块(Resource Block,RB)集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为URLLC切片服务的CUEs用户集合用表示,且URLLC切片中的DUEs用户集合表示为进一步,令用和分别表示用户Ce-UE和Cu-UE到基站的信道增益,用gk表示Du-UE用户的信道增益。用表示第k个Du-UE用户对第l个Cu-UE用户产生的干扰信道增益,gl,k表示第l个Cu-UE用户对第k个Du-UE用户产生干扰信道增益。表示第m个Ce-UE在时隙t占用第n个RB的瞬时传输功率,且有 表示第m个Ce-UE用户在时隙t的队列积压长度,用表示eMBB切片中的用户的最大队列长度;和分别表示第l个Cu-UE和第k个Du-UE用户在时隙t占用第n个RB的传输功率,且有
用户的接入控制与资源分配方法包含两部分内容:第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的RBs的分配以及功率分配,对于URLLC切片中还需考虑Cu-UE用户和Du-UE用户间RBs资源的复用情况。具体定义如下:
对于eMBB切片中的Ce-UE,用二进制变量表示在时隙t将第n个RB分配给第m个Ce-UE,如果执行了分配动作,反之则不分配,同理令为第m个Ce-UE用户在时隙t的业务到达量,且有 其中表示Ce-UE用户的随机业务到达量阈值,表示第m个Ce-UE用户在时隙t允许接入的数据量,表示第m个Ce-UE用户在时隙t的队列积压长度,用表示eMBB切片中的用户的最大队列长度,σ2是噪声功率,并且假设所有的用户有相同的噪声功率。令表示第m个Ce-UE用户占用第n个RBs的瞬时下行链路传输速率,eMBB切片中的第m个Ce-UE可获得的最大下行链路传输速率为从而可求得eMBB切片中某一用户的平均传输速率为为方便后续处理,对eMBB切片中用户的传输速率进行归一化处理,因此eMBB切片中传输和速率为
对于URLLC切片中的用户用二进制变量表示在时隙t把第n个RB分别分配给第l个Cu-UE用户和第k个Du-UE用户,令和为第l个Cu-UE和第k个Du-UE用户的业务到达量,且有和且和用表示第l个Cu-UE和第k个Du-UE用户在时隙t上的队列积压长度,用和分别表示URLLC切片中的Cu-UE和Du-UE的最大队列长度,和分别表示第l个Cu-UE用户和第k个Du-UE用户在时隙t允许接入的数据量。和表示第l个Cu-UE和第k个Du-UE用户的平均传输速率,和分别表示第l个Cu-UE和第k个Du-UE用户的平均队列长度,URLLC切片中用户的平均时延进行归一化处理,则URLLC切片中Cu-UE和Du-UE用户的时延奖励可以表示为
令Re,req表示eMBB切片用户的传输速率阈值,对Ce-UE的传输速率性能需求为: 和分别表示Cu-UE和Du-UE用户的时延阈值概率;从而URLLC切片中的Cu-UE和Du-UE用户的时延约束可以表示为: 和分别表示URLLC切片中Cu-UE和Du-UE用户的传输速率阈值,和是Cu-UE和Du-UE用户能接受的最大中断概率;URLLC的可靠性需求约束可以表示为:
因此,前述以联合优化eMBB切片用户传输速率和URLLC切片用户时延为目标的流量接入控制、物理资源块、功率分配、物理资源块复用采用如下目标函数:
s.t.
根据步骤S2,在步骤S3中,针对联邦强化学习中框架中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov DecisionProcess,MDP)。MDP定义为一个多元组其中代表状态空间,是动作空间,表示不同状态之间的转移概率,是奖励函数。
系统需要确定每个用户的资源分配情况,假设代表网络中所有用户的动作集合。因此,对于一个具体的用户u的动作定义为其中ru(t)代表用户u在时隙t将接入的业务量,Pu(t)代表分配给用户u的功率,xu(t)代表用户u获得的物理资源块的变量因子。
其中f是状态转移概率密度函数。
所述MDP状态和动作空间连续,假设动作来自于一个随机策略它代表了在一定状态下执行某个动作概率的映射。当学习过程达到收敛时,在一定状态下选择特定动作的概率大于选择其他动作的概率,即当网络环境处于某个队列长度和数据包到达情况时,能够根据学习到的策略执行特定的流量接入控制和资源分配策略。传统解决MDP的方法很大程度上都依赖于动态变化的先验知识,但是本文中未来网络中的队列长度和业务到达率很难获知,因此,本文采取无需先验知识的A-C学习来解决上述提出的MDP问题,通过不断与环境交互学习来得到对应策略。
在步骤S4中,所述的基于分布式A-C学习的智能接入控制与资源分配方法,结合步骤S3建立的MDP过程,转化得到本地A-C学习的目标,即找一个策略π,最大化下述目标函数,即
然后,在演员部分采用参数θ来构建策略π(au|su),即参数化策略为πθ(au|su)=Pr(au|su,θ),利用梯度上升法来对目标函数进行更新,计算策略梯度并根据环境中的队列长度和业务到达情况动态生成接入控制与资源分配策略。进一步,评论家利用采用函数逼近方法来估计值函数,从而对当前策略进行评判,如果当前分布式A-C学习回合是第一轮学习回合,智能体利用初始本地权重参数ωu近似当前状态-动作值函数,即:而后,智能体利用基站下发的全局权重参数来近似状态-动作值函数。对评论家过程中的权重参数进行更新,通过引入时间差分误差(Temporal Difference error,TD-error)更新本地权重参数,定义用户u在时隙t的TD误差值即:Critic过程的目标是最小化TD误差损失函数值,其损失函数为:采用梯度下降法更新参数ωu,并在梯度方向上不断更新近似真实值函数,那本地权重参数ωu的更新公式可表示为:在本地模型训练了T个时隙后,智能体将会发送本地权重参数给基站以更新全局权重参数,从而获得全局策略。在分布式A-C学习框架中,本地智能体利用结合值函数和策略函数的A-C学习算法进行本地模型训练和参数更新,各个智能体之间相互协作以联合制定全局策略,无需上传原始数据到基站,维护数据安全隐私,减小通信开销,并且各个智能体协作可以消除单个智能体用户数据不足带来的负影响。
图1是本发明的场景示意图。首先,在单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景中,构建了eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular User Equipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs),考虑DUEs用户由URLLC切片为其提供服务。网络中的eMBB切片用户和URLLC切片用户共享网络中所有的物理资源块,但是不能复用,URLLC切片中的CUEs用户和DUEs用户复用分配给URLLC切片的物理资源块。网络中包含多种性能需求用户,随着用户业务到达量动态变化,通过控制当前业务接入量来有效控制队列积压情况,维持系统稳定性。另外针对网络中eMBB切片用户和URLLC切片用户异构性能需求,采用不同的资源分配方式和URLLC切片内物理资源块的复用可以在满足异构用户性能需求的同时,优化系统模型。
图2本发明中的分布式A-C学习框架图。在本发明的系统场景中,包含多个用户,为了维护用户数据隐私安全,无需上传原始数据到基站进行集中处理,将联邦学习和A-C学习融合,构建分布式A-C学习框架,有效利用用户产生的本地数据,让各个智能体协作以制定有限的全局策略。
图3本发明中本地A-C学习框架图。在上述的分布式A-C学习框架中,本地智能体通过引入结合和值函数和策略函数的A-C学习,不断与环境进行交互,有效的进行本地决策。A-C算法中包含三部分内容:演员、评论家和环境。演员部分定义随机参数化策略,并根据环境中动态变化的队列长度和业务到达情况生成对应的流量接入控制和资源分配动作,然后评论家根据演员执行动作后获得的奖励评判当前策略的优劣性能,并进一步更新值函数。在评论家部分需要完成值函数近似和本地权重参数更新过程,而后演员使用评论家的输出更新其策略。评论家的的目标是最小化TD误差损失函数值,从而进行相应调整。在本地模型训练了T个时隙后,智能体将会发送本地权重参数给基站以更新全局权重参数,从而获得全局策略。各个智能体之间相互协作以联合制定全局策略,无需上传原始数据到基站,维护数据安全隐私,减小通信开销,并且各个智能体协作可以消除单个智能体用户数据不足带来的负影响。
图4是本发明的基于分布式A-C学习的智能接入控制与资源分配算法流程。步骤如下:
步骤401:生成无线接入网的物理网络拓扑,网络中的CUEs用户和DUEs用户在基站覆盖范围内随机分布;同时生成eMBB和URLLC切片两种类型的切片。
步骤402:输入高斯策略π(su,au)~N(μ(su),σ2),状态分布dπ(su),演员学习率εa,t和评论家学习率εc,t,折扣因子β,策略参数θ,初始权重参数ωu。
步骤403:如果学习回合未结束,执行以下步骤。
步骤404:获得初始状态s0~dπ(s),初始化参数化策略πθ(au|su),初始化权重参数ωu。
步骤405:如果该回合设置的学习步数还未结束,执行以下策略。
步骤407:执行评论家过程,利用本地权重参数进行状态-动作值函数近似,计算状态-动作值函数损失函数。
步骤408:更新本地权重参数ωu
步骤409:执行演员过程,重写策略梯度。
步骤410:更新演员参数θ。
步骤411:如果该回合设置的学习步数还未结束,执行以下动作。
步骤412:智能体上传本地权重参数ωu给基站。
步骤413:基站利用所有智能体上传的本地权重参数更新全局权重参数。
步骤414:基站更新全局权重参数后,学习回合是否结束,如果结束,获得全局接入控制与资源分配策略。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:该方法包括以下步骤:
S1:针对无线接入网RAN网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型;
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建联邦强化学习框架;
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP;
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延。
2.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S1中,网络切片模型为:网络场景为单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景,且构建eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户CUEs、设备和设备D2D之间通信的用户DUEs,考虑DUEs用户由URLLC切片为其提供服务;
用集合表示网络中总的物理资源块(Resource Block,RB)集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为URLLC切片服务的CUEs用户集合用表示,且URLLC切片中的DUEs用户集合表示为令用和分别表示用户Ce-UE和Cu-UE到基站的信道增益,用gk表示Du-UE用户的信道增益;用表示第k个Du-UE用户对第l个Cu-UE用户产生的干扰信道增益,gl,k表示第l个Cu-UE用户对第k个Du-UE用户产生干扰信道增益;表示第m个Ce-UE在时隙t占用第n个RB的瞬时传输功率,且有 表示第m个Ce-UE用户在时隙t的队列积压长度,用表示eMBB切片中的用户的最大队列长度;和分别表示第l个Cu-UE和第k个Du-UE用户在时隙t占用第n个RB的传输功率,且有
3.根据权利要求2所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S1中,用户的接入控制与资源分配方法包含两部分内容:
第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;
第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的RBs的分配以及功率分配,对于URLLC切片中还需考虑Cu-UE用户和Du-UE用户间RBs资源的复用情况。
5.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S2中,联邦强化学习中,包含单个基站和多个用户,将基站作为全局联邦智能体,用户作为本地智能体,构建分布式架构;对于每个进行本地模型训练的智能体用户,引入强化学习中结合值函数和策略函数的A-C学习协助分布式智能体进行本地决策,通过不断地与动态环境交互来进行本地模型更新;网络中所有的智能体在利用A-C学习进行本地模型训练后,将其本地权重参数上传给基站,基站收到网络中所有本地智能体的本地权重参数后,利用其进行全局权重参数的更新,从而构成分布式A-C学习框架FLAC。
7.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S4中,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,将其与所述的MDP结合,将接入控制与资源分配目标转化为:寻找一个策略π,最大化目标函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113348.1A CN112887999B (zh) | 2021-01-27 | 2021-01-27 | 一种基于分布式a-c的智能接入控制与资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113348.1A CN112887999B (zh) | 2021-01-27 | 2021-01-27 | 一种基于分布式a-c的智能接入控制与资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112887999A true CN112887999A (zh) | 2021-06-01 |
CN112887999B CN112887999B (zh) | 2022-04-01 |
Family
ID=76052835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110113348.1A Active CN112887999B (zh) | 2021-01-27 | 2021-01-27 | 一种基于分布式a-c的智能接入控制与资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112887999B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114598667A (zh) * | 2022-03-04 | 2022-06-07 | 重庆邮电大学 | 一种基于联邦学习的高效设备选择与资源分配方法 |
WO2023138776A1 (en) * | 2022-01-21 | 2023-07-27 | Huawei Technologies Co., Ltd. | Apparatus and method for distributed learning for communication networks |
WO2024109649A1 (zh) * | 2022-11-25 | 2024-05-30 | 索尼集团公司 | 用于无线通信的电子设备和方法、计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109195186A (zh) * | 2018-09-17 | 2019-01-11 | 河海大学 | 一种基于演化博弈的网络切片接入强化学习方法 |
US20200034848A1 (en) * | 2019-08-27 | 2020-01-30 | Lg Electronics Inc. | Drive-thru based order processing method and apparatus |
CN111065105A (zh) * | 2019-12-30 | 2020-04-24 | 电子科技大学 | 一种面向无人机网络切片的分布式智能路由方法 |
US10637544B1 (en) * | 2018-04-24 | 2020-04-28 | Genghiscomm Holdings, LLC | Distributed radio system |
CN111093203A (zh) * | 2019-12-30 | 2020-05-01 | 重庆邮电大学 | 一种基于环境感知的服务功能链低成本智能部署方法 |
-
2021
- 2021-01-27 CN CN202110113348.1A patent/CN112887999B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10637544B1 (en) * | 2018-04-24 | 2020-04-28 | Genghiscomm Holdings, LLC | Distributed radio system |
CN109195186A (zh) * | 2018-09-17 | 2019-01-11 | 河海大学 | 一种基于演化博弈的网络切片接入强化学习方法 |
US20200034848A1 (en) * | 2019-08-27 | 2020-01-30 | Lg Electronics Inc. | Drive-thru based order processing method and apparatus |
CN111065105A (zh) * | 2019-12-30 | 2020-04-24 | 电子科技大学 | 一种面向无人机网络切片的分布式智能路由方法 |
CN111093203A (zh) * | 2019-12-30 | 2020-05-01 | 重庆邮电大学 | 一种基于环境感知的服务功能链低成本智能部署方法 |
Non-Patent Citations (6)
Title |
---|
AYAT ZAKI-HINDI: "Model-Aided Learning for URLLC Transmission in Unlicensed Spectrum", 《 2020 28TH INTERNATIONAL SYMPOSIUM ON MODELING, ANALYSIS, AND SIMULATION OF COMPUTER AND TELECOMMUNICATION SYSTEMS》 * |
任语铮等: "基于增强学习的5G网络切片资源动态优化方案", 《中兴通讯技术》 * |
唐伦: "基于网络切片的网络效用最大化虚拟资源分配算法", 《电子与信息学报》 * |
李晶: "异构无线网络智能接入控制技术研究", 《知网》 * |
梅杰: "高效可靠的车联网无线传输及协作通信机制研究", 《知网》 * |
秦爽等: "基于多智体强化学习的接入网络切片动态切换", 《电子科技大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023138776A1 (en) * | 2022-01-21 | 2023-07-27 | Huawei Technologies Co., Ltd. | Apparatus and method for distributed learning for communication networks |
CN114598667A (zh) * | 2022-03-04 | 2022-06-07 | 重庆邮电大学 | 一种基于联邦学习的高效设备选择与资源分配方法 |
WO2024109649A1 (zh) * | 2022-11-25 | 2024-05-30 | 索尼集团公司 | 用于无线通信的电子设备和方法、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112887999B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112887999B (zh) | 一种基于分布式a-c的智能接入控制与资源分配方法 | |
CN110493826B (zh) | 一种基于深度强化学习的异构云无线接入网资源分配方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN109951821B (zh) | 基于移动边缘计算的最小化车辆能耗任务卸载方案 | |
CN109905918B (zh) | 一种基于能效的noma蜂窝车联网动态资源调度方法 | |
CN107172704B (zh) | 基于协作频谱感知和干扰约束的认知异构网络功率分配方法 | |
CN111970733A (zh) | 超密集网络中基于深度强化学习的协作式边缘缓存算法 | |
US9294960B2 (en) | Method, apparatus and system for cooperative resource scheduling and cooperative communication | |
CN111083634A (zh) | 基于cdn和mec的车联网移动性管理方法 | |
Zeng et al. | Efficient caching in vehicular edge computing based on edge-cloud collaboration | |
CN114885426B (zh) | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 | |
CN111194564A (zh) | 用于无线通信的电子设备和方法以及计算机可读存储介质 | |
CN114827191B (zh) | 一种车路协同系统中融合noma的动态任务卸载方法 | |
Giannopoulos et al. | Power control in 5G heterogeneous cells considering user demands using deep reinforcement learning | |
Sun et al. | Revised reinforcement learning based on anchor graph hashing for autonomous cell activation in cloud-RANs | |
CN113315806B (zh) | 一种面向云网融合的多接入边缘计算架构 | |
CN115633033A (zh) | 融合射频能量采集的协同节能计算迁移方法 | |
Zhao | Energy efficient resource allocation method for 5G access network based on reinforcement learning algorithm | |
Wu et al. | Dynamic handoff policy for RAN slicing by exploiting deep reinforcement learning | |
Yin et al. | Decentralized federated reinforcement learning for user-centric dynamic TFDD control | |
CN108965034B (zh) | 小小区基站超密集部署下的用户关联到网络的方法 | |
US20240031427A1 (en) | Cloud-network integration oriented multi-access edge computing architecture | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
WO2021083230A1 (zh) | 功率调节方法和接入网设备 | |
CN106304307B (zh) | 一种异构网络融合下的资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |