CN112887999B - 一种基于分布式a-c的智能接入控制与资源分配方法 - Google Patents

一种基于分布式a-c的智能接入控制与资源分配方法 Download PDF

Info

Publication number
CN112887999B
CN112887999B CN202110113348.1A CN202110113348A CN112887999B CN 112887999 B CN112887999 B CN 112887999B CN 202110113348 A CN202110113348 A CN 202110113348A CN 112887999 B CN112887999 B CN 112887999B
Authority
CN
China
Prior art keywords
user
slice
urllc
access control
resource allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110113348.1A
Other languages
English (en)
Other versions
CN112887999A (zh
Inventor
唐伦
张亚
唐浩
陈前斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110113348.1A priority Critical patent/CN112887999B/zh
Publication of CN112887999A publication Critical patent/CN112887999A/zh
Application granted granted Critical
Publication of CN112887999B publication Critical patent/CN112887999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/08Access security
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • H04W28/0236Traffic management, e.g. flow control or congestion control based on communication conditions radio quality, e.g. interference, losses or delay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于分布式A‑C的智能接入控制与资源分配方法,属于通信技术领域。该方法中,根据eMBB和URLLC切片的性能需求,构建了一个联合eMBB切片用户传输速率和URLLC切片用户时延的双目标优化模型。其次,将联邦学习与强化学习融合,建立一个联邦强化学习框架,各个智能体协作,以更新全局权重参数,且各个智能体本地数据不相互交换。联邦强化学习框架中的智能体利用A‑C学习不断与环境进行交互,各个智能体间相互协作,动态调整接入控制与资源分配策略,优化系统模型。本发明所提能够满足各切片用户性能需求且维持各切片用户队列处于稳定状态,优化eMBB用户传输速率和URLLC用户时延,提高资源利用率。

Description

一种基于分布式A-C的智能接入控制与资源分配方法
技术领域
本发明属于通信技术领域,涉及一种基于分布式A-C的智能接入控制与资源分配方法。
背景技术
下一代移动通信网络将支持大量垂直行业的多元化业务场景,比如智能安防、远程医疗、智能家居、自动驾驶、增强实现、电力巡检等,这些具有不同通信需求的应用场景通常包括大规模机器类型通信(massive Machine-Type Communication,mMTC)、增强移动宽带(enhanced Mobile BroadBand,eMBB)和超可靠低时延通信(Ultra-Reliable and Low-Latency Communication,URLLC)。基于软件定义网络(Soft Defined Network,SDN)和网络功能虚拟化(Network Function Virtualtion,NFV)技术的网络切片是指将底层的物理网络构建为多个独立的逻辑虚拟网络,网络切片被认为是支持异构业务需求的重要使能技术,通过网络切片,可以提供灵活、高效的定制化服务,以满足不同应用的特定需求。然而,在具有多样化服务请求的无线应用快速发展的驱动下,如何利用网络中有限的无线网络资源,为满足不同应用需求的提供特定服务的无线接入网(Radio Access Network,RAN)切片制定高效、动态的智能资源分配策略仍然是一个具有挑战性的问题。
目前,现有技术存在以下问题:首先,现有的网络切片的资源分配方法旨在提高基础设施提供商的收益,没有考虑网络中的异构业务请求特性,也没有具体分析接入切片用户的性能需求,或者对于多种网络切片场景下只通过单一性能来刻画用户需求,但实际上针对不同的切片,用户性能需求是不同的。其次,现有的接入控制与资源分配问题将用户的性能作为约束条件,以最大化收益为目标,忽略了网络中业务动态到达的特性,没有考虑接入控制策略以限制接入到网络中的数据量,当到达的随机数据量过大时,可能影响网络的稳定性,且静态的接入控制与资源分配策略已不再适用动态变化的网络环境。最后,随着人们对数据安全和设备隐私的关注度越来越高,数据隐私安全问题也成为大众重点关注的问题。因此,如何在无线接入网多切片场景中,合理动态的控制业务接入量并进行资源分配,从而优化用户性能非常值得研究。
发明内容
有鉴于此,本发明的目的在于提供一种基于分布式A-C的智能接入控制与资源分配方法。该方法在RAN支持多种异构切片请求服务的下行链路传输场景下,根据动态变化的用户队列长度和业务到达率,自适应动态的调整各用户的接入控制与资源分配方法,稳定队列长度,优化eMBB切片用户传输速率和URLLC切片用户时延,提高资源利用率。
为达到上述目的,本发明提供如下技术方案:
一种基于分布式A-C的智能接入控制与资源分配方法,该方法包括以下步骤:
S1:针对无线接入网(RAN)网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型。
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建一个联邦强化学习框架,该框架旨在让各个智能体协作,以制定出全局策略,且各个智能体内部的数据不需要相互交换,无需上传原始数据,维护数据安全。
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP)。
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延。
进一步,在步骤S1中,所述的网络切片模型为:网络场景为单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景,且构建了eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular UserEquipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs),考虑DUEs用户由URLLC切片为其提供服务。
用集合
Figure BDA0002919887370000021
表示网络中总的物理资源块(Resource Block,RB)集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为
Figure BDA0002919887370000022
URLLC切片服务的CUEs用户集合用
Figure BDA0002919887370000023
表示,且URLLC切片中的DUEs用户集合表示为
Figure BDA0002919887370000024
进一步,令
Figure BDA0002919887370000025
Figure BDA0002919887370000026
Figure BDA0002919887370000027
分别表示用户Ce-UE和Cu-UE到基站的信道增益,用gk表示Du-UE用户的信道增益。用
Figure BDA0002919887370000028
表示第k个Du-UE用户对第l个Cu-UE用户产生的干扰信道增益,gl,k表示第l个Cu-UE用户对第k个Du-UE用户产生干扰信道增益。
Figure BDA0002919887370000029
表示第m个Ce-UE在时隙t占用第n个RB的瞬时传输功率,且有
Figure BDA00029198873700000210
Figure BDA00029198873700000211
表示第m个Ce-UE用户在时隙t的队列积压长度,用
Figure BDA00029198873700000212
表示eMBB切片中的用户的最大队列长度;
Figure BDA0002919887370000031
Figure BDA0002919887370000032
分别表示第l个Cu-UE和第k个Du-UE用户在时隙t占用第n个RB的传输功率,且有
Figure BDA0002919887370000033
进一步,在步骤S1中,用户的接入控制与资源分配方法包含两部分内容:第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的RBs的分配以及功率分配,对于URLLC切片中还需考虑Cu-UE用户和Du-UE用户间RBs资源的复用情况。
进一步,在步骤S1中,将流量接入控制、各种资源分配与eMBB切片用户的传输速率和URLLC切片用户的平均时延建立关联,具体包括:eMBB切片中的Ce-UE用户的平均和传输速率
Figure BDA0002919887370000034
与RBs和传输功率的分配密切联系;URLLC切片中的Cu-UE用户和Du-UE用户的平均和时延
Figure BDA0002919887370000035
与接入的数据量、分配的RBs和传输功率密切相关;因此,RAN切片的系统优化模型为:
Figure BDA0002919887370000036
则优化目标为:max{ψ}。
进一步,在步骤S2中,针对本发明中的问题构建联邦强化学习框架,具体为:
本发明中包含单个基站和多个用户,本发明考虑将基站作为全局联邦智能体,用户作为本地智能体,构建分布式架构。对于每个进行本地模型训练的智能体用户,引入强化学习中结合了值函数和策略函数的A-C学习协助分布式智能体进行本地决策,通过不断地与动态环境交互来进行本地模型更新。网络中所有的智能体在利用A-C学习进行本地模型训练后,将其本地权重参数上传给基站,基站收到网络中所有本地智能体的本地权重参数后,利用其进行全局权重参数的更新,从而构成分布式A-C学习框架(Federated LearningActor Critic,FLAC)。
进一步,在步骤S3中,单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP),具体包括:
MDP定义为一个多元组
Figure BDA0002919887370000037
其中
Figure BDA0002919887370000038
代表状态空间,
Figure BDA0002919887370000039
是动作空间,
Figure BDA00029198873700000310
表示不同状态之间的转移概率,
Figure BDA00029198873700000311
是奖励函数。状态空间由当前时隙用户的队列长度和业务到达率共同决定,动作空间是流量接入控制与资源分配,转移为用户在某一状态下执行接入控制与资源分配后转移到下一个状态的概率:
Figure BDA00029198873700000312
其中
Figure BDA00029198873700000313
是用户u在时隙t的状态,
Figure BDA00029198873700000314
为用户u在时隙t的动作,f是状态转移概率密度函数。奖励函数是当前用户在状态
Figure BDA00029198873700000315
下采取动作
Figure BDA00029198873700000316
后得到一个即时奖励,即:
Figure BDA00029198873700000317
进一步,在步骤S4中,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,将其与所述的MDP结合,将接入控制与资源分配目标转化为:寻找一个策略π,最大化目标函数:
Figure BDA0002919887370000041
其中
Figure BDA0002919887370000042
动作
Figure BDA0002919887370000043
来自数θ构建的参数化策略为πθ(au|su)=Pr(au|su,θ),它代表了在一定状态下执行某个动作概率的映射,即对于当前的队列长度和数据包到达情况,选择某个流量接入控制与资源分配方法的概率。本发明采用函数逼近方法来估计值函数,即利用本地权重参数ωu近似状态-动作值函数Qω(su,au),并通过最小化损失函数进行进行本地权重参数的更新。在利用A-C学习算法进行本地模型训练后,本地智能体将会发送本地权重参数
Figure BDA0002919887370000044
给基站以更新全局权重参数,以制定全局策略。
本发明的有益效果在于:本发明在RAN网络支持多种异构切片请求服务的下行链路传输场景下,根据动态变化的用户队列长度和业务到达率,通过联邦A-C学习算法不断与环境交互动态的调整各用户的接入控制与资源分配方法,优化eMBB切片用户传输速率和URLLC切片时延,提高资源利用率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为可应用本发明场景示意图;
图2为本发明中的分布式A-C学习框架图;
图3为本发明中本地A-C学习框架图;
图4为本发明中基于分布式A-C学习的智能接入控制与资源分配算法流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,为一种基于分布式A-C学习的智能接入控制与资源分配算法,包括以下步骤:
S1:针对无线接入网(RAN)网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型。
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建一个联邦强化学习框架,该框架旨在让各个智能体协作,以制定出全局策略,且各个智能体内部的数据不需要相互交换,无需上传原始数据,维护数据安全。
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov Decision Process,MDP)。
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延。
具体地,在步骤S1中,所述的无线接入网网络切片模型为:
网络场景中包含单个基站和多个用户,且构建了支持多种异构切片请求服务的eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular User Equipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs),考虑DUEs用户由URLLC切片为其提供服务。
用集合
Figure BDA0002919887370000061
表示网络中总的物理资源块(Resource Block,RB)集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为
Figure BDA0002919887370000062
URLLC切片服务的CUEs用户集合用
Figure BDA0002919887370000063
表示,且URLLC切片中的DUEs用户集合表示为
Figure BDA0002919887370000064
进一步,令
Figure BDA0002919887370000065
Figure BDA0002919887370000066
Figure BDA0002919887370000067
分别表示用户Ce-UE和Cu-UE到基站的信道增益,用gk表示Du-UE用户的信道增益。用
Figure BDA0002919887370000068
表示第k个Du-UE用户对第l个Cu-UE用户产生的干扰信道增益,gl,k表示第l个Cu-UE用户对第k个Du-UE用户产生干扰信道增益。
Figure BDA0002919887370000069
表示第m个Ce-UE在时隙t占用第n个RB的瞬时传输功率,且有
Figure BDA00029198873700000610
Figure BDA00029198873700000611
表示第m个Ce-UE用户在时隙t的队列积压长度,用
Figure BDA00029198873700000612
表示eMBB切片中的用户的最大队列长度;
Figure BDA00029198873700000613
Figure BDA00029198873700000614
分别表示第l个Cu-UE和第k个Du-UE用户在时隙t占用第n个RB的传输功率,且有
Figure BDA00029198873700000615
用户的接入控制与资源分配方法包含两部分内容:第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的RBs的分配以及功率分配,对于URLLC切片中还需考虑Cu-UE用户和Du-UE用户间RBs资源的复用情况。具体定义如下:
对于eMBB切片中的Ce-UE,用二进制变量
Figure BDA00029198873700000616
表示在时隙t将第n个RB分配给第m个Ce-UE,如果执行了分配动作,
Figure BDA00029198873700000617
反之则不分配,同理
Figure BDA00029198873700000618
Figure BDA00029198873700000619
为第m个Ce-UE用户在时隙t的业务到达量,且有
Figure BDA00029198873700000620
Figure BDA00029198873700000621
其中
Figure BDA00029198873700000622
表示Ce-UE用户的随机业务到达量阈值,
Figure BDA00029198873700000623
表示第m个Ce-UE用户在时隙t允许接入的数据量,
Figure BDA00029198873700000624
表示第m个Ce-UE用户在时隙t的队列积压长度,用
Figure BDA00029198873700000625
表示eMBB切片中的用户的最大队列长度,σ2是噪声功率,并且假设所有的用户有相同的噪声功率。令
Figure BDA00029198873700000626
表示第m个Ce-UE用户占用第n个RBs的瞬时下行链路传输速率,eMBB切片中的第m个Ce-UE可获得的最大下行链路传输速率为
Figure BDA00029198873700000627
从而可求得eMBB切片中某一用户的平均传输速率为
Figure BDA00029198873700000628
为方便后续处理,对eMBB切片中用户的传输速率进行归一化处理,因此eMBB切片中传输和速率为
Figure BDA0002919887370000071
对于URLLC切片中的用户用二进制变量
Figure BDA0002919887370000072
表示在时隙t把第n个RB分别分配给第l个Cu-UE用户和第k个Du-UE用户,令
Figure BDA0002919887370000073
Figure BDA0002919887370000074
为第l个Cu-UE和第k个Du-UE用户的业务到达量,且有
Figure BDA0002919887370000075
Figure BDA0002919887370000076
Figure BDA0002919887370000077
Figure BDA0002919887370000078
Figure BDA0002919887370000079
表示第l个Cu-UE和第k个Du-UE用户在时隙t上的队列积压长度,用
Figure BDA00029198873700000710
Figure BDA00029198873700000711
分别表示URLLC切片中的Cu-UE和Du-UE的最大队列长度,
Figure BDA00029198873700000712
Figure BDA00029198873700000713
分别表示第l个Cu-UE用户和第k个Du-UE用户在时隙t允许接入的数据量。
Figure BDA00029198873700000714
Figure BDA00029198873700000715
表示第l个Cu-UE和第k个Du-UE用户的平均传输速率,
Figure BDA00029198873700000716
Figure BDA00029198873700000717
分别表示第l个Cu-UE和第k个Du-UE用户的平均队列长度,URLLC切片中用户的平均时延进行归一化处理,则URLLC切片中Cu-UE和Du-UE用户的时延奖励可以表示为
Figure BDA00029198873700000718
Figure BDA00029198873700000719
令Re,req表示eMBB切片用户的传输速率阈值,对Ce-UE的传输速率性能需求为:
Figure BDA00029198873700000720
Figure BDA00029198873700000721
Figure BDA00029198873700000722
分别表示Cu-UE和Du-UE用户的时延阈值概率;从而URLLC切片中的Cu-UE和Du-UE用户的时延约束可以表示为:
Figure BDA00029198873700000723
Figure BDA00029198873700000724
Figure BDA00029198873700000725
Figure BDA00029198873700000726
分别表示URLLC切片中Cu-UE和Du-UE用户的传输速率阈值,
Figure BDA00029198873700000727
Figure BDA00029198873700000728
是Cu-UE和Du-UE用户能接受的最大中断概率;URLLC的可靠性需求约束可以表示为:
Figure BDA00029198873700000729
因此,前述以联合优化eMBB切片用户传输速率和URLLC切片用户时延为目标的流量接入控制、物理资源块、功率分配、物理资源块复用采用如下目标函数:
Figure BDA0002919887370000081
s.t.
Figure BDA0002919887370000082
Figure BDA0002919887370000083
Figure BDA0002919887370000084
Figure BDA0002919887370000085
Figure BDA0002919887370000086
Figure BDA0002919887370000087
Figure BDA0002919887370000088
Figure BDA0002919887370000089
Figure BDA00029198873700000810
Figure BDA00029198873700000811
其中,
Figure BDA00029198873700000812
根据步骤S2,在步骤S3中,针对联邦强化学习中框架中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程(Markov DecisionProcess,MDP)。MDP定义为一个多元组
Figure BDA00029198873700000813
其中
Figure BDA00029198873700000814
代表状态空间,
Figure BDA00029198873700000815
是动作空间,
Figure BDA00029198873700000816
表示不同状态之间的转移概率,
Figure BDA00029198873700000817
是奖励函数。
Figure BDA00029198873700000818
为用户u在时隙t的状态,且该状态由当前时隙用户u的队列长度和业务到达率共同决定,可以表示为
Figure BDA00029198873700000819
Figure BDA00029198873700000820
系统需要确定每个用户的资源分配情况,假设
Figure BDA00029198873700000821
代表网络中所有用户的动作集合。因此,对于一个具体的用户u的动作定义为
Figure BDA00029198873700000822
其中ru(t)代表用户u在时隙t将接入的业务量,Pu(t)代表分配给用户u的功率,xu(t)代表用户u获得的物理资源块的变量因子。
因为状态集中的元素都是连续的,因此,采取动作
Figure BDA00029198873700000823
后用户u的队列长度和业务到达率状态转移至状态
Figure BDA00029198873700000824
的概率为
Figure BDA00029198873700000825
其中f是状态转移概率密度函数。
网络中所有的用户在各自的状态
Figure BDA00029198873700000826
下采取动作
Figure BDA00029198873700000827
后,即完成当前时隙的流量接入控制与资源分配策略后,用户会得到一个即时奖励,即
Figure BDA0002919887370000091
从而系统也会相应得到一个奖励Rt=ψ(t)。
所述MDP状态和动作空间连续,假设动作
Figure BDA0002919887370000092
来自于一个随机策略
Figure BDA0002919887370000093
它代表了在一定状态下执行某个动作概率的映射。当学习过程达到收敛时,在一定状态下选择特定动作的概率大于选择其他动作的概率,即当网络环境处于某个队列长度和数据包到达情况时,能够根据学习到的策略执行特定的流量接入控制和资源分配策略。传统解决MDP的方法很大程度上都依赖于动态变化的先验知识,但是本文中未来网络中的队列长度和业务到达率很难获知,因此,本文采取无需先验知识的A-C学习来解决上述提出的MDP问题,通过不断与环境交互学习来得到对应策略。
在步骤S4中,所述的基于分布式A-C学习的智能接入控制与资源分配方法,结合步骤S3建立的MDP过程,转化得到本地A-C学习的目标,即找一个策略π,最大化下述目标函数,即
Figure BDA0002919887370000094
然后,在演员部分采用参数θ来构建策略π(au|su),即参数化策略为πθ(au|su)=Pr(au|su,θ),利用梯度上升法来对目标函数进行更新,计算策略梯度
Figure BDA0002919887370000095
并根据环境中的队列长度和业务到达情况动态生成接入控制与资源分配策略。进一步,评论家利用采用函数逼近方法来估计值函数,从而对当前策略进行评判,如果当前分布式A-C学习回合是第一轮学习回合,智能体利用初始本地权重参数ωu近似当前状态-动作值函数,即:
Figure BDA0002919887370000096
而后,智能体利用基站下发的全局权重参数来近似状态-动作值函数。对评论家过程中的权重参数进行更新,通过引入时间差分误差(Temporal Difference error,TD-error)更新本地权重参数,定义用户u在时隙t的TD误差值
Figure BDA0002919887370000097
即:
Figure BDA0002919887370000098
Critic过程的目标是最小化TD误差损失函数值,其损失函数为:
Figure BDA0002919887370000099
采用梯度下降法更新参数ωu,并在梯度方向上不断更新近似真实值函数,那本地权重参数ωu的更新公式可表示为:
Figure BDA00029198873700000910
在本地模型训练了T个时隙后,智能体将会发送本地权重参数
Figure BDA00029198873700000911
给基站以更新全局权重参数,从而获得全局策略。在分布式A-C学习框架中,本地智能体利用结合值函数和策略函数的A-C学习算法进行本地模型训练和参数更新,各个智能体之间相互协作以联合制定全局策略,无需上传原始数据到基站,维护数据安全隐私,减小通信开销,并且各个智能体协作可以消除单个智能体用户数据不足带来的负影响。
图1是本发明的场景示意图。首先,在单个基站和多个用户的支持多种异构切片请求服务的RAN下行链路传输场景中,构建了eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户(Cellular User Equipments,CUEs)、设备和设备(Device-to-Device,D2D)之间通信的用户(DUEs),考虑DUEs用户由URLLC切片为其提供服务。网络中的eMBB切片用户和URLLC切片用户共享网络中所有的物理资源块,但是不能复用,URLLC切片中的CUEs用户和DUEs用户复用分配给URLLC切片的物理资源块。网络中包含多种性能需求用户,随着用户业务到达量动态变化,通过控制当前业务接入量来有效控制队列积压情况,维持系统稳定性。另外针对网络中eMBB切片用户和URLLC切片用户异构性能需求,采用不同的资源分配方式和URLLC切片内物理资源块的复用可以在满足异构用户性能需求的同时,优化系统模型。
图2本发明中的分布式A-C学习框架图。在本发明的系统场景中,包含多个用户,为了维护用户数据隐私安全,无需上传原始数据到基站进行集中处理,将联邦学习和A-C学习融合,构建分布式A-C学习框架,有效利用用户产生的本地数据,让各个智能体协作以制定有限的全局策略。
图3本发明中本地A-C学习框架图。在上述的分布式A-C学习框架中,本地智能体通过引入结合和值函数和策略函数的A-C学习,不断与环境进行交互,有效的进行本地决策。A-C算法中包含三部分内容:演员、评论家和环境。演员部分定义随机参数化策略,并根据环境中动态变化的队列长度和业务到达情况生成对应的流量接入控制和资源分配动作,然后评论家根据演员执行动作后获得的奖励评判当前策略的优劣性能,并进一步更新值函数。在评论家部分需要完成值函数近似和本地权重参数更新过程,而后演员使用评论家的输出更新其策略。评论家的的目标是最小化TD误差损失函数值,从而进行相应调整。在本地模型训练了T个时隙后,智能体将会发送本地权重参数
Figure BDA0002919887370000101
给基站以更新全局权重参数,从而获得全局策略。各个智能体之间相互协作以联合制定全局策略,无需上传原始数据到基站,维护数据安全隐私,减小通信开销,并且各个智能体协作可以消除单个智能体用户数据不足带来的负影响。
图4是本发明的基于分布式A-C学习的智能接入控制与资源分配算法流程。步骤如下:
步骤401:生成无线接入网的物理网络拓扑,网络中的CUEs用户和DUEs用户在基站覆盖范围内随机分布;同时生成eMBB和URLLC切片两种类型的切片。
步骤402:输入高斯策略π(su,au)~N(μ(su),σ2),状态分布dπ(su),演员学习率εa,t和评论家学习率εc,t,折扣因子β,策略参数θ,初始权重参数ωu
步骤403:如果学习回合未结束,执行以下步骤。
步骤404:获得初始状态s0~dπ(s),初始化参数化策略πθ(au|su),初始化权重参数ωu
步骤405:如果该回合设置的学习步数还未结束,执行以下策略。
步骤406:遵循参数化策略πθ(au|su)选择动作
Figure BDA0002919887370000111
执行用户u的流量接入控制与智能资源分配策略,并得到即刻性能奖励
Figure BDA0002919887370000112
步骤407:执行评论家过程,利用本地权重参数进行状态-动作值函数近似,计算状态-动作值函数损失函数。
步骤408:更新本地权重参数ωu
步骤409:执行演员过程,重写策略梯度。
步骤410:更新演员参数θ。
步骤411:如果该回合设置的学习步数还未结束,执行以下动作。
步骤412:智能体上传本地权重参数ωu给基站。
步骤413:基站利用所有智能体上传的本地权重参数更新全局权重参数。
步骤414:基站更新全局权重参数后,学习回合是否结束,如果结束,获得全局接入控制与资源分配策略。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:该方法包括以下步骤:
S1:针对无线接入网RAN网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型;
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建联邦强化学习框架;
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP;
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延;
网络场景中包含单个基站和多个用户,且构建了支持多种异构切片请求服务的eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户CUEs、设备和设备D2D之间通信的用户DUEs,考虑DUEs用户由URLLC切片为其提供服务;
用集合
Figure FDA0003516424900000011
表示网络中总的物理资源块RB集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为
Figure FDA0003516424900000012
URLLC切片服务的CUEs用户集合用
Figure FDA0003516424900000013
表示,且URLLC切片中的DUEs用户集合表示为
Figure FDA0003516424900000014
进一步,令
Figure FDA0003516424900000015
Figure FDA0003516424900000016
Figure FDA0003516424900000017
分别表示用户Ce-UE和Cu-UE到基站的信道增益,用gk表示Du-UE用户的信道增益;用
Figure FDA0003516424900000018
表示第k个Du-UE用户对第l个Cu-UE用户产生的干扰信道增益,gl,k表示第l个Cu-UE用户对第k个Du-UE用户产生干扰信道增益;
Figure FDA0003516424900000019
表示第m个Ce-UE在时隙t占用第n个RB的瞬时传输功率,且有
Figure FDA00035164249000000110
Figure FDA00035164249000000111
表示第m个Ce-UE用户在时隙t的队列积压长度,用
Figure FDA00035164249000000112
表示eMBB切片中的用户的最大队列长度;
Figure FDA00035164249000000113
Figure FDA00035164249000000114
分别表示第l个Cu-UE和第k个Du-UE用户在时隙t占用第n个RB的传输功率,且有
Figure FDA00035164249000000115
用户的接入控制与资源分配方法包含两部分内容:第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的RBs的分配以及功率分配,对于URLLC切片中还需考虑Cu-UE用户和Du-UE用户间RBs资源的复用情况;具体定义如下:
对于eMBB切片中的Ce-UE,用二进制变量
Figure FDA0003516424900000021
表示在时隙t将第n个RB分配给第m个Ce-UE,如果执行了分配动作,
Figure FDA0003516424900000022
反之则不分配,同理
Figure FDA0003516424900000023
Figure FDA0003516424900000024
为第m个Ce-UE用户在时隙t的业务到达量,且有
Figure FDA0003516424900000025
Figure FDA0003516424900000026
其中
Figure FDA0003516424900000027
表示Ce-UE用户的随机业务到达量阈值,
Figure FDA0003516424900000028
表示第m个Ce-UE用户在时隙t允许接入的数据量,
Figure FDA0003516424900000029
表示第m个Ce-UE用户在时隙t的队列积压长度,用
Figure FDA00035164249000000210
表示eMBB切片中的用户的最大队列长度,σ2是噪声功率,并且假设所有的用户有相同的噪声功率;令
Figure FDA00035164249000000211
表示第m个Ce-UE用户占用第n个RBs的瞬时下行链路传输速率,eMBB切片中的第m个Ce-UE获得的最大下行链路传输速率为
Figure FDA00035164249000000212
求得eMBB切片中某一用户的平均传输速率为
Figure FDA00035164249000000213
为后续处理,对eMBB切片中用户的传输速率进行归一化处理,eMBB切片中传输和速率为
Figure FDA00035164249000000214
对于URLLC切片中的用户用二进制变量
Figure FDA00035164249000000215
表示在时隙t把第n个RB分别分配给第l个Cu-UE用户和第k个Du-UE用户,令
Figure FDA00035164249000000216
Figure FDA00035164249000000217
为第l个Cu-UE和第k个Du-UE用户的业务到达量,且有
Figure FDA00035164249000000218
Figure FDA00035164249000000219
Figure FDA00035164249000000220
Figure FDA00035164249000000221
Figure FDA00035164249000000222
表示第l个Cu-UE和第k个Du-UE用户在时隙t上的队列积压长度,用
Figure FDA00035164249000000223
Figure FDA00035164249000000224
分别表示URLLC切片中的Cu-UE和Du-UE的最大队列长度,
Figure FDA00035164249000000225
Figure FDA00035164249000000226
分别表示第l个Cu-UE用户和第k个Du-UE用户在时隙t允许接入的数据量;
Figure FDA00035164249000000227
Figure FDA00035164249000000228
表示第l个Cu-UE和第k个Du-UE用户的平均传输速率,
Figure FDA00035164249000000229
Figure FDA00035164249000000230
分别表示第l个Cu-UE和第k个Du-UE用户的平均队列长度,URLLC切片中用户的平均时延进行归一化处理,则URLLC切片中Cu-UE和Du-UE用户的时延奖励表示为
Figure FDA0003516424900000031
Figure FDA0003516424900000032
令Re,req表示eMBB切片用户的传输速率阈值,对Ce-UE的传输速率性能需求为:
Figure FDA0003516424900000033
Figure FDA0003516424900000034
Figure FDA0003516424900000035
分别表示Cu-UE和Du-UE用户的时延阈值概率;从而URLLC切片中的Cu-UE和Du-UE用户的时延约束表示为:
Figure FDA0003516424900000036
Figure FDA0003516424900000037
Figure FDA0003516424900000038
Figure FDA0003516424900000039
分别表示URLLC切片中Cu-UE和Du-UE用户的传输速率阈值,
Figure FDA00035164249000000310
Figure FDA00035164249000000311
是Cu-UE和Du-UE用户能接受的最大中断概率;URLLC的可靠性需求约束表示为:
Figure FDA00035164249000000312
以联合优化eMBB切片用户传输速率和URLLC切片用户时延为目标的流量接入控制、物理资源块、功率分配、物理资源块复用采用如下目标函数:
Figure FDA00035164249000000313
s.t.
Figure FDA00035164249000000314
Figure FDA00035164249000000315
Figure FDA00035164249000000316
Figure FDA00035164249000000317
Figure FDA00035164249000000318
Figure FDA00035164249000000319
Figure FDA00035164249000000320
Figure FDA00035164249000000325
Figure FDA00035164249000000321
Figure FDA00035164249000000322
其中,
Figure FDA00035164249000000323
2.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S1中,将流量接入控制、各种资源分配与eMBB切片用户的传输速率和URLLC切片用户的平均时延建立关联,包括:eMBB切片中的Ce-UE用户的平均和传输速率
Figure FDA00035164249000000324
与RBs和传输功率的分配密切联系;URLLC切片中的Cu-UE用户和Du-UE用户的平均和时延
Figure FDA0003516424900000041
与接入的数据量、分配的RBs和传输功率密切相关;RAN切片的系统优化模型为:
Figure FDA0003516424900000042
则优化目标为:max{ψ}。
3.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S2中,联邦强化学习中,包含单个基站和多个用户,将基站作为全局联邦智能体,用户作为本地智能体,构建分布式架构;对于每个进行本地模型训练的智能体用户,引入强化学习中结合值函数和策略函数的A-C学习协助分布式智能体进行本地决策,通过不断地与动态环境交互来进行本地模型更新;网络中所有的智能体在利用A-C学习进行本地模型训练后,将其本地权重参数上传给基站,基站收到网络中所有本地智能体的本地权重参数后,利用其进行全局权重参数的更新,从而构成分布式A-C学习框架FLAC。
4.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S3中,单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP包括:
MDP定义为一个多元组
Figure FDA0003516424900000043
其中
Figure FDA0003516424900000044
代表状态空间,
Figure FDA0003516424900000045
是动作空间,
Figure FDA0003516424900000046
表示不同状态之间的转移概率,
Figure FDA0003516424900000047
是奖励函数;状态空间由当前时隙用户的队列长度和业务到达率共同决定,动作空间是流量接入控制与资源分配,转移为用户在某一状态下执行接入控制与资源分配后转移到下一个状态的概率:
Figure FDA0003516424900000048
其中
Figure FDA0003516424900000049
是用户u在时隙t的状态,
Figure FDA00035164249000000410
为用户u在时隙t的动作,f是状态转移概率密度函数;奖励函数是当前用户在状态
Figure FDA00035164249000000411
下采取动作
Figure FDA00035164249000000412
后得到一个即时奖励,即:
Figure FDA00035164249000000413
5.根据权利要求1所述的一种基于分布式A-C的智能接入控制与资源分配方法,其特征在于:所述S4中,采用结合值函数和策略函数的A-C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,将其与所述的MDP结合,将接入控制与资源分配目标转化为:寻找一个策略π,最大化目标函数:
Figure FDA00035164249000000414
其中
Figure FDA00035164249000000415
动作
Figure FDA00035164249000000416
来自数θ构建的参数化策略为πθ(au|su)=Pr(au|su,θ),代表在一定状态下执行某个动作概率的映射,即对于当前的队列长度和数据包到达情况,选择某个流量接入控制与资源分配方法的概率;采用函数逼近方法来估计值函数,即利用本地权重参数ωu近似状态-动作值函数Qω(su,au),并通过最小化损失函数进行进行本地权重参数的更新;在利用A-C学习算法进行本地模型训练后,本地智能体将会发送本地权重参数
Figure FDA0003516424900000051
给基站以更新全局权重参数,以制定全局策略。
CN202110113348.1A 2021-01-27 2021-01-27 一种基于分布式a-c的智能接入控制与资源分配方法 Active CN112887999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110113348.1A CN112887999B (zh) 2021-01-27 2021-01-27 一种基于分布式a-c的智能接入控制与资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110113348.1A CN112887999B (zh) 2021-01-27 2021-01-27 一种基于分布式a-c的智能接入控制与资源分配方法

Publications (2)

Publication Number Publication Date
CN112887999A CN112887999A (zh) 2021-06-01
CN112887999B true CN112887999B (zh) 2022-04-01

Family

ID=76052835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110113348.1A Active CN112887999B (zh) 2021-01-27 2021-01-27 一种基于分布式a-c的智能接入控制与资源分配方法

Country Status (1)

Country Link
CN (1) CN112887999B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023138776A1 (en) * 2022-01-21 2023-07-27 Huawei Technologies Co., Ltd. Apparatus and method for distributed learning for communication networks
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195186A (zh) * 2018-09-17 2019-01-11 河海大学 一种基于演化博弈的网络切片接入强化学习方法
CN111065105A (zh) * 2019-12-30 2020-04-24 电子科技大学 一种面向无人机网络切片的分布式智能路由方法
US10637544B1 (en) * 2018-04-24 2020-04-28 Genghiscomm Holdings, LLC Distributed radio system
CN111093203A (zh) * 2019-12-30 2020-05-01 重庆邮电大学 一种基于环境感知的服务功能链低成本智能部署方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210025269A (ko) * 2019-08-27 2021-03-09 엘지전자 주식회사 승차구매 주문처리 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10637544B1 (en) * 2018-04-24 2020-04-28 Genghiscomm Holdings, LLC Distributed radio system
CN109195186A (zh) * 2018-09-17 2019-01-11 河海大学 一种基于演化博弈的网络切片接入强化学习方法
CN111065105A (zh) * 2019-12-30 2020-04-24 电子科技大学 一种面向无人机网络切片的分布式智能路由方法
CN111093203A (zh) * 2019-12-30 2020-05-01 重庆邮电大学 一种基于环境感知的服务功能链低成本智能部署方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Model-Aided Learning for URLLC Transmission in Unlicensed Spectrum;Ayat Zaki-Hindi;《 2020 28th International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems》;20201221;全文 *
基于增强学习的5G网络切片资源动态优化方案;任语铮等;《中兴通讯技术》;20180120(第01期);全文 *
基于多智体强化学习的接入网络切片动态切换;秦爽等;《电子科技大学学报》;20200330(第02期);全文 *
基于网络切片的网络效用最大化虚拟资源分配算法;唐伦;《电子与信息学报》;20170831;全文 *
异构无线网络智能接入控制技术研究;李晶;《知网》;20210115;全文 *
高效可靠的车联网无线传输及协作通信机制研究;梅杰;《知网》;20190815;全文 *

Also Published As

Publication number Publication date
CN112887999A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110493826B (zh) 一种基于深度强化学习的异构云无线接入网资源分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109951821B (zh) 基于移动边缘计算的最小化车辆能耗任务卸载方案
CN109905918B (zh) 一种基于能效的noma蜂窝车联网动态资源调度方法
CN113597799B (zh) 用于调整波束赋形简档的设备、方法和计算机可读介质
CN107172704B (zh) 基于协作频谱感知和干扰约束的认知异构网络功率分配方法
CN112887999B (zh) 一种基于分布式a-c的智能接入控制与资源分配方法
US9294960B2 (en) Method, apparatus and system for cooperative resource scheduling and cooperative communication
CN112020103A (zh) 一种移动边缘云中的内容缓存部署方法
CN104378772B (zh) 一种蜂窝网络中面向小区无定形覆盖的小基站部署方法
WO2019129169A1 (zh) 用于无线通信的电子设备和方法以及计算机可读存储介质
Zeng et al. Efficient caching in vehicular edge computing based on edge-cloud collaboration
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
CN113315806B (zh) 一种面向云网融合的多接入边缘计算架构
CN115633033A (zh) 融合射频能量采集的协同节能计算迁移方法
Wu et al. Dynamic handoff policy for RAN slicing by exploiting deep reinforcement learning
CN108965034B (zh) 小小区基站超密集部署下的用户关联到网络的方法
Zhao Energy efficient resource allocation method for 5G access network based on reinforcement learning algorithm
Yin et al. Decentralized federated reinforcement learning for user-centric dynamic tfdd control
US20240031427A1 (en) Cloud-network integration oriented multi-access edge computing architecture
Zafar et al. An efficient resource optimization scheme for D2D communication
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
WO2021083230A1 (zh) 功率调节方法和接入网设备
CN106304307B (zh) 一种异构网络融合下的资源分配方法
CN116567667A (zh) 一种基于深度强化学习的异构网络资源能效优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant