CN112118632B - 面向微小蜂窝基站的自适应功率分配系统、方法和介质 - Google Patents
面向微小蜂窝基站的自适应功率分配系统、方法和介质 Download PDFInfo
- Publication number
- CN112118632B CN112118632B CN202011000978.XA CN202011000978A CN112118632B CN 112118632 B CN112118632 B CN 112118632B CN 202011000978 A CN202011000978 A CN 202011000978A CN 112118632 B CN112118632 B CN 112118632B
- Authority
- CN
- China
- Prior art keywords
- agent
- strategy
- action
- sbs
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000009826 distribution Methods 0.000 title claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 title description 10
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 163
- 230000009471 action Effects 0.000 claims abstract description 85
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000007774 longterm Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 96
- 229920000468 styrene butadiene styrene block copolymer Polymers 0.000 claims description 35
- 230000003993 interaction Effects 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 22
- 230000009916 joint effect Effects 0.000 claims description 13
- FACXGONDLDSNOE-UHFFFAOYSA-N buta-1,3-diene;styrene Chemical compound C=CC=C.C=CC1=CC=CC=C1.C=CC1=CC=CC=C1 FACXGONDLDSNOE-UHFFFAOYSA-N 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 230000000116 mitigating effect Effects 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000013468 resource allocation Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 54
- 230000001413 cellular effect Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 33
- 102100038651 Four and a half LIM domains protein 1 Human genes 0.000 description 13
- 101710127220 Four and a half LIM domains protein 1 Proteins 0.000 description 13
- 238000005457 optimization Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000005290 field theory Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012797 qualification Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000004308 accommodation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008407 joint function Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004366 reverse phase liquid chromatography Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了面向微小蜂窝基站的自适应功率分配系统、方法和介质,涉及蜂窝数据处理领域,解决了在满足每个用户设备传输速率的情况下,如何最小化每个用户设备的长期平均总传输功率的问题。本发明包括:搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent;小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程。本发明满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
Description
技术领域
本发明涉及蜂窝数据处理领域,具体涉及面向微小蜂窝基站的自适应功率分配系统、方法和介质。
背景技术
过去几年,数据流量爆炸性增长,智能设备和可穿戴设备也迅速普及。根据无线使用情况统计,超过70%的数据流量和50%的语音呼叫都发生在室内,并且用户80%以上的时间在室内环境。
然而,由于建筑物墙壁的遮挡形成了非常高的穿透损耗,这严重损害了室内无线传输的数据速率、频谱效率和能量效率。同时,5G以及超5G系统要求将使用新的更高频谱,即:微波频段(3.3-4.2GHz)来满足需求。
然而更高的频段将导致更高的损耗,因此对室内覆盖带来巨大挑战。为了增加网络容量并提供更好的覆盖,通过在室内部署大量即插即用、低功耗和低成本的小基站(SBS)的形成超密集网络(UDN)被认为是即将到来的5G及超5G中最新兴的架构之一。
显然,在密集的住宅区中部署的即插即用SBS可能导致严重的小区间干扰(ICI),这使得网络性能和用户的服务质量(QoS)显著地恶化。因此,干扰协调对于移动通信系统的室内覆盖是至关重要的。传统的集中式干扰管理对于密集部署即插即用SBS的场景并不是更有效。因为大量信令开销和算法执行复杂性,中央控制器很容易成为网络性能瓶颈。例如,用于干扰减轻的集中式方案需要巨大的信息交互,从而导致大量的信令开销。因此,传统的干扰协调方案对即插即用UDN不再有效。因此,必须开发新的干扰减轻方案,并且该方案对于以SBS是即插即用方式工作的自治网络是有效的。
在UDN中,现有的干扰管理工作可大致分为频域方面,时域方面和功率优化方面。频域方法(包括部分频率复用(FFR)和软频率复用(SFR))牺牲了一部分稀缺的频谱资源来减轻干扰,并在很大程度上依赖于网络规划和优化。此外,时域方法也牺牲了一部分时域资源,并且需要SBS之间的信息交互。然而,基于功率层面的干扰管理方案,例如功率控制,被认为是一种有效的方法,并且能够提高频谱效率来减轻分布式干扰。
实际上,在5G及以后的时代,电信运营商在密集SBS部署的网络规划和优化方面面临很大困难。随着人工智能的蓬勃发展,未来的网络架构逐渐演变为智能自治网络模式,电信运营商组建以即插即用的方式自动化网络,来减少人工干预的数量。换句话说,自治网络依赖于自我分析,自我配置和自我学习。然而,在这种复杂且动态的网络环境中,可能容易引起严重的ICI,从而网络性能和用户的QoS显着恶化。
幸运的是,最近出现的强化学习(RL)算法在解决复杂动态环境下的顺序决策问题方面显示出了巨大的潜力。由于无线网络环境缺乏准确的信息和模型,无模型的RL框架能够有效的解决序列决策问题,通过与环境的交互,学习最优策略。此外,在分布式框架中,RL可以扩展到多智体层面。与单智能体强化学习(Single Agent Reinforcement Learning,SARL)技术在无线网络中的巨大发展和广泛应用相比,多智能体强化学习(Multi-AgentReinforcement Learning,MARL)在解决自治网络中的一些随机优化问题方面具有更大的潜力。
发明内容
本发明所要解决的技术问题是:在满足每个用户设备传输速率的情况下,如何最小化每个用户设备的长期平均总传输功率,本发明提供了解决上述问题的面向微小蜂窝基站的自适应功率分配系统、方法和介质。
本发明不需要SBS之间的信息交互,这允许电信运营商组建以即插即用的方式自动化网络,并依赖于自我分析、自我配置和自我学习来减少的人工干预。
本发明将自治网络中的干扰缓解问题建模为分布式部分观测马尔可夫决策过程(Decentralized Partial Observation Markov Decision Process,DEC-POMDP),并从MARL的角度进行求解。
在面向微小蜂窝基站的自适应功率分配算法中,单个小基站自动感知周围的干扰,并确定它们的下行传输功率以减轻干扰。
面向微小蜂窝基站的自适应功率分配方法,包括如下步骤:
每个小基站收集其对应的服务用户受到的干扰信息,小基站检测到的干扰信息随着无线信道和环境变化,对变化,所有小基站在每个时隙同时进行协调决策;
S1、搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent,agent包括小基站和对应的用户设备;
S2、小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:
S3、在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程。
具体来说,在算法中的设计目标是在保证各个用户的QoS的同时,通过最小化长期平均总传输功率来减轻ICI,从而提高整体网络性能,包括减轻ICI,容纳更多的用户,降低掉话率。在学习模型中,由于行为空间和状态空间都是连续的,提出了一个基于演员-评论家(actor-critic,AC)的MARL框架,在非平稳环境下,学习最优随机策略来解决随机优化问题。其中,Actor负责参数化策略、执行操作和更新策略,而critic用于评估和批评当前的策略和近似值函数。然而,本发明需要在MARL框架内处理联合行动的空间灾难。为了减小联合函数的维度,利用平均场理论来逼近作用值函数,从而有效地避免了智能体之间复杂的交互作用。
综上所述,由于方案具有分布式和自学习的特性,因此可以很容易地部署到自治网络的小基站中,在不增加额外信令开销的情况下提高了性能。此外,提出的技术方案是可扩展性的,因为它可以灵活地扩展,而不会因为密集部署了小基站而造成维度灾难。
关于缩略词的解释:
缩略词英文全称中文释义
SBS Small base-station小基站
UDN ultra-dense networks超密集网络
QoS quality of service服务质量
UE user equipment用户设备
MARL multi-agent reinforcement learning多智体强化学习
SARL single agent reinforcement learning单智体强化学习
SFR soft frequency reuse软频率服用
POMDP partial observation Markov decision process部分可观测马尔科夫过程
ICI inter-cell interference小区间干扰
AC actor-critic演员-评论家
为了减少干扰,从而最大限度地提高网络吞吐量,设计目标是在满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
现有技术通过具体的例子揭示了将发射功率最小化的优化目标可以显著地减小干扰。在满足服务用户传输速率的前提下,单个SBS降低传输功率相当于将ICI降低到周围SBSs的其他用户,从而提高整体网络性能。
有多个agent同时进行决策,对于Agent j∈[1,...,M]是由SBS n及其服务的UE m构成;
多个SBS在模型中的各个时隙做出ICIC决策,ICIC决策为基于POMDP的分布式干扰协调决策,并且每个agent根据自己的策略独立地为UE分配每个RB上功率;
如果所有SBSs智能地为每个用户分配最小可行的传输功率,而不是使用更高的传输能量提高自己小区吞吐量,就可以优化整体网络的性能,如减轻ICI,容纳更多的用户,降低掉话率。因此,本发明的问题表示如下。
其中πm为SBS m学到的一个最佳的随机策略。约束(3.1)表示用户m获得的传输速率Vm(t)要满足速率Cm的需求。
问题(3)确实是一个序列决策问题,属于随机优化问题。研究这个问题,得到以下观察结果。
1)对于决策者,即SBS,它只能观察到环境的一部分,即它所服务用户所受到的干扰信息。然而,在分布式场景中,SBSs无法获得周围SBSs所中的用户所受到的干扰及其需求。
2)SBS检测到的干扰信息是上一个t-1时刻的平均信噪比,并不是当前时隙t的信息。并且,无线信道和环境是时变的。因此,这激励本发明使用无模型RL应用于自治网络。
3)在每个时间段,所有的SBSs都需要同时进行决策,因此SBSs之间存在着竞争关系,这实际上是一种多主体博弈。因此,借助于MARL来解决这种竞争关系。
考虑到环境的动态性和SBSs的竞争性,将问题可以很好地表述为一个分布式部分可观察马尔可夫决策过程(DEC-POMDP),并可以用MARL的方法求解。
接下来为:基于POMDP的分布式干扰协调(ICIC)问题建模;
考虑自治网络,假设SBS之间没有信息交互,并且所有SBS使用它们自己的本地信息为各个UE制定策略。将分布式ICIC决策问题制定为POMDP并以MARL角度解决它。
在模型中,SBS充当智能实体,以自主地感知周围干扰,确定为每个用户分配发射功率,而不需要基站之间的信息交互。因此,定义模型中的(虚拟)Agent j∈[1,...,M]由UEm及其服务SBS n组成。考虑网络中的多个SBS,它们在模型中的各个时隙(例如,发送时间间隔(TTI))做出ICIC决策。每个agent根据自己的策略独立地为UE分配每个RB上功率。
连续系统状态空间描述整个系统环境,因此所有agent的观测空间的交集就是系统的状态空间。然而,对于Agent j,它只能得到环境的部分信息由连续观测空间表示。Agent j的观测状态取决于SINR(信噪比),即:每个分配RB的干扰,因此可以表示为向量:
注意,Agent j的动作空间是连续的。表示奖励空间用来评价动作。在时隙t时,所有agent同时采取行动,并且获得即时奖励奖励反映了优化目标,即,根据满足用户传输速率要求下将传输功率降至最低。因此,将Agent j的归一化报酬定义为
奖励函数这样定义的原因如下。一方面,如问题(3)所述,以最小的功耗满足单个UE的QoS要求是首要目标,这相当于最大化的值。另一方面,定义了一个不满足UEs QoS要求的惩罚,促使agent将策略调整到最优方向。
根据贝尔曼方程,(7)可以重新写成
其中,M-agent的Q-function是所有agent采取联合行动a=[a1,…,aM]。因此,值函数含有动作值函数的式子:
公式(11)的POMDP问题可以在一个强化学习框架下解决,在这个框架下,agent通过与环境交互来优化策略。在MARL框架下,学习策略是非常必要的。
传统的策略更新方法主要有两种:基于值的迭代法和基于策略的方法。然而,两种传统方法的适用性受到一些因素的限制。具体来说,基于值迭代的方法不适用于连续动作空间,且难以收敛。另一方面,基于策略的方法易于收敛到局部最优,并且具有高方差估计。
Actor-Critic(AC)算法将这两种方法结合起来,利用它们各自的优点。AC方法可以产生连续的行为,而基于策略的方法在策略梯度上的高方差则被批评者所抵消。在AC框架中,agent由两部分组成:参与者(策略)和批评者(价值函数)。参与者负责参数化策略,根据观察到的环境执行操作,并根据批评者的反馈更新策略。评论家的角色是通过处理环境中的回报和近似价值函数来评价和批评现行策略。
因此,本发明在无模型RL框架下,提出了一种面向微小蜂窝基站的自适应功率分配算法。
在ICIC问题中,状态空间和行为空间不仅是连续的,而且是多维的。因此,采用AC算法来求解具有稳定收敛性的在线决策问题。然而,分布式ICIC问题存在一个固有的问题。具体地说,在分布式ICIC场景中,联合动作的维数随agent数量呈指数增长,而其他agent在上时刻的具体动作对agent m不可知的。此外,各智能体的动作值函数需要考虑联合动作,而采用价值函数逼近方法则会使联合动作失效。因此,在MARL框架下解决联合动作的多维灾难具有重要意义。为了解决这一问题,采用平均场理论来降低联合作用的维数,这是一种有效的方法。
为了减少行动的维度并使其更适用于问题,首先将行动价值函数分解为成对的交互。尽管它显著降低了agent之间交互的复杂性,但它仍然隐式地保留了任何一对agent之间的全局交互。
因此,仅使用成对交互的动作值函数可以表示为:
其中,H(j)是除Agent j以外的所有agent的集合。此外,基于agent种群内的交互作用近似于单个agent的交互作用,而单个agent的交互作用具有总体种群的平均效应。因此,成对交互动作值函数可以有效地转换为两个agent交互。具体地说,在平均场近似下,所有成对的相互作用被简化为Agent j和虚拟平均agent j′之间的相互作用,这是由所有其他agent H(j)的平均效应抽象出来的。因此,有以下定义。
可以看到,泰勒公式的第一阶项可以消去,由于泰勒公式的二阶项实际上是一个随机变量,其中 并且可以证明是有界的[-2M,2M]。如果是M-smooth(如线性函数)。此外,假设所有agent是同构的并且是只有局部信息的,则倾向于相互抵消,因此作为一个小波动接近于零。
根据定理1,证明可以大大减小动作值函数的联合动作维数。因此,将式(8)重写为
可以看出平均场酌具有明显的物理意义,(即Agent j使用的每个RB上受到干扰),并且代表的其他agentH(j)对于Agent j的总体平均效应。此外,意味着平均动作可以由相应SBS感知,而不需要与每个SBSs交互。
critic部分
评论家的作用是近似状态值函数和动作值函数,并评估一项策略的好坏。对于Agent j,用bellman方程在无限状态和动作问题中无法计算状态值函数和平均场作用值函数因此,应采用函数逼近法,通过参数更新来估计值函数。
找到一个好的策略的先决条件是评论家能够准确地评估当前的策略。这就要求评论家为当前策略找到贝尔曼方程的近似解。bellman方程(8)的右侧和左侧之间的差实际上被定义为TD-error,其表示为
实际上有两种方法来更新评论家:TD(0)和TD(λ)。前者使用one-step backup方法更新评论家,而不考虑过去的状态。TD(0)中重要的是当前状态。然而,将在t+1中学到的知识扩展到以前的状态是有用的。因此,后一种方法TD(λ)引入了一个资格迹的方法来考虑历史信息加速学习。在线决策模型中,引入TD(λ)方法应用于更新评论家。用和表示时间t的资格迹向量,其更新方程表示为
这里λz∈[0,1)是一个衰减参数称为衰减迹,它定义了每个访问状态的更新重量。采用TD(λ)方法来更新参数wj和vj,因此参数向量可以更新为
其中,αct>0是评论家的学习速率。通过迭代,评论家可以更准确地评估给定策略的质量。
Actor部分
在策略梯度法下,演员根据critic的状态值函数信息更新策略,以找到最优策略。由于参数化策略函数是可微的关于参数θj,目标函数的梯度可以表示为
基线可以是任何函数,甚至是随机变量,只要它不随动作而变化;该方程仍然有效,因为减去的量为零:
因此,策略参数的更新公式为:
其中αat>0是Agent j的学习速率,用来更新策略。通过迭代,演员可以逐渐收敛到最优策略。
在基于AC的MARL框架中,利用平均场理论提出了一种解决分布式干扰协调问题的精简方案。在面向微小蜂窝基站的自适应功率分配算法中,输入包括网络拓扑结构、用户需求和观察到的干扰信息。同时,输出为每个agent的策略,即,为各时隙功率分配的决策。首先初始化这些参数,然后每个代理通过环境的交互同时执行动作并获得奖励。之后,所有的评论家都近似状态和行动值函数来评价当前策略。演员利用策略梯度法根据批评者的反馈更新自己的策略。
将上述算法进行工程化描述:
本算法推荐布置在基站侧,每个基站作为智能控制实体,通过收集到的信息,针对每个用户进行功率分配。由于算法的复杂度较低,因此无需额外计算资源和存储资源。鉴于本算法的输入部分,小基站需具备频谱扫描功能。另外,用户需要向基站上传CQI信息(在LTE系统中CQI的传输信道是PUSCH或PUCCH)。对于算法的输出部分,即功率的分配情况,可在基站侧进行执行。
总结如下:
基站端操作:
具备频谱扫描功能,以及接受覆盖范围内UE的信息(上报的SINR,CQI信息),经过资源调度算法,确定用户分的RB的数量。然后,进一步进行功率的资源分配,来协调小区间的干扰。优化整个系统的性能。
用户端操作:
UE进行SINR以及CQI的测量及上报,可使用LTE系统中的PUSCH或PUCCH进行上传信息。
面向微小蜂窝基站的自适应功率分配系统,在自治网络下,包括多个SBS,多个SBS在同一频谱下工作;
还包括多个用户,用户包括用户设备,每个SBS在时刻t服务下对应一组用户设备,每个SBS收集其对应的服务用户受到的干扰信息;
SBS通过频谱扫描收集信息作为系统的输入,SBS还用于接收用户上传的信息,信息包括用户设备的SINR和CQI,基站通过资源调度确定用户分到的RB的数量;
系统通过计算进一步进行功率的资源分配,来协调小区间的干扰,实现对用户设备的功率的优化分配,优化的方法为上述的面向微小蜂窝基站的自适应功率分配方法。
进一步地,考虑在超密集网络中部署多个即插即用SBS的室内场景,以便提高吞吐量并弥补MBS对室内环境的弱覆盖;系统的目标是解决宏基站对室内覆盖不足的问题,不影响宏基站功能。
在考虑的下行链路场景中,网络由一组为的SBS组成,为了提高频谱效率和资源利用率,SBS在相同的频谱上工作。系统带宽B划分为R个资源块(RB),其中每个SBS拥有相同数量的RB。并且RB的带宽由BRB表示,其中BRB=B/R。每个SBS具有其最大发射功率功率将分配给RB。系统采用分时隙的决策过程架构,其中每个时隙都t有相同的时间间隔TS。
自治网络中的用户用表示。每个SBS在时刻t服务由 表示的一组用户设备(UEs),其中假设UE均匀分布在SBS区域内,到达遵循具有参数λ的泊松分布。SBS和UE之间的接入方法是封闭式的。假设所有基站和用户(一旦接入)在仿真期间处于活跃状态。为了保证QoS,根据UE m的服务类型,其吞吐量需求表示为Cm。带宽分配是一个复杂的映射问题,涉及调制编码方案、信道质量、用户类别等多方面的因素。在不失一般性的前提下,根据UE m服务类型,以及当前RB的SINR分配给它一定数量的RBs,表示为Rm。当相同的RBs分配给周围SBSs的其他UE时,UE会受到ICI。下面给出了UE m时刻t时在RB r上的信噪比(SINR):
式中,表示SBS n在分配给用户m的RB r上的下行传输功率,表示UE m与SBS n在t时刻的信道增益;是用户m在t时刻遭受的ICI;σ2(t)表示t时刻的噪声功率,在这里叠加考虑了异频的干扰,包括频谱泄露等均可以考虑在环境在噪声中。
考虑分布式下行链路场景,其中SBSs之间没有信息交互。假设SBS可以通过频谱传感技术(如能量检测)感知频谱的占用情况。此外,SBS n通过用户反馈的的信道质量指示(CQI),可以推断出每个UE的所有RBs上的干扰和信道质量。具体地说,SBS n可以得到干扰信息矩阵和SINR矩阵利用探测到的干扰信息,SBS可以将干扰最小的空闲RBs分配给到达的用户,并对相应的RBs进行功率分配。
本发明具有如下的优点和有益效果:
本发明满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的网络架构图。
图2(a)为3GPP标准下的双条城市模型图。
图2(b)为公寓的内部结构图。
图3为本发明中采用的软频率复用图。
图4为本发明的每个RB上的发射功率的累积分布函数图。
图5为本发明的每个RB收到干扰的累积分布函数图。
图6为本发明的用户的传输速率图。
图7为本发明的用户的分配功率图。
图8为本发明的系统的掉话率图
图9为本发明中实施例采用的几种材料的墙壁的Lw参数取值图。
图10为本发明的基于演员评论家的多智体强化学习的框架图。
具体实施方式
在对本发明的任意实施例进行详细的描述之前,应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本发明中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本发明保护的范围。
面向微小蜂窝基站的自适应功率分配方法,包括如下步骤:
每个小基站收集其对应的服务用户受到的干扰信息,小基站检测到的干扰信息随着无线信道和环境变化,对变化,所有小基站在每个时隙同时进行协调决策;
S1、搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent,agent包括小基站和对应的用户设备;
S2、小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:
S3、在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程。
具体来说,在算法中的设计目标是在保证各个用户的QoS的同时,通过最小化长期平均总传输功率来减轻ICI,从而提高整体网络性能,包括减轻ICI,容纳更多的用户,降低掉话率。在学习模型中,由于行为空间和状态空间都是连续的,提出了一个基于演员-评论家(actor-critic,AC)的MARL框架,在非平稳环境下,学习最优随机策略来解决随机优化问题。其中,Actor负责参数化策略、执行操作和更新策略,而critic用于评估和批评当前的策略和近似值函数。然而,本发明需要在MARL框架内处理联合行动的空间灾难。为了减小联合函数的维度,利用平均场理论来逼近作用值函数,从而有效地避免了智能体之间复杂的交互作用。
综上所述,由于方案具有分布式和自学习的特性,因此可以很容易地部署到自治网络的小基站中,在不增加额外信令开销的情况下提高了性能。此外,提出的技术方案是可扩展性的,因为它可以灵活地扩展,而不会因为密集部署了小基站而造成维度灾难。
关于缩略词的解释:
缩略词英文全称中文释义
SBS Small base-station小基站
UDN ultra-dense networks超密集网络
QoS quality of service服务质量
UE user equipment用户设备
MARL multi-agent reinforcement learning多智体强化学习
SARL single agent reinforcement learning单智体强化学习
SFR soft frequency reuse软频率服用
POMDP partial observation Markov decision process部分可观测马尔科夫过程
ICI inter-cell interference小区间干扰
AC actor-critic演员-评论家
为了减少干扰,从而最大限度地提高网络吞吐量,设计目标是在满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
现有技术通过具体的例子揭示了将发射功率最小化的优化目标可以显著地减小干扰。在满足服务用户传输速率的前提下,单个SBS降低传输功率相当于将ICI降低到周围SBSs的其他用户,从而提高整体网络性能。
如果所有SBSs智能地为每个用户分配最小可行的传输功率,而不是使用更高的传输能量提高自己小区吞吐量,就可以优化整体网络的性能,如减轻ICI,容纳更多的用户,降低掉话率。因此,本发明的问题表示如下。
其中πm为SBS m学到的一个最佳的随机策略。约束(3.1)表示用户m获得的传输速率Vm(t)要满足速率Cm的需求。
问题(3)确实是一个序列决策问题,属于随机优化问题。研究这个问题,得到以下观察结果。
1)对于决策者,即SBS,它只能观察到环境的一部分,即它所服务用户所受到的干扰信息。然而,在分布式场景中,SBSs无法获得周围SBSs所中的用户所受到的干扰及其需求。
2)SBS检测到的干扰信息是上一个t-1时刻的平均信噪比,并不是当前时隙t的信息。并且,无线信道和环境是时变的。因此,这激励本发明使用无模型RL应用于自治网络。
3)在每个时间段,所有的SBSs都需要同时进行决策,因此SBSs之间存在着竞争关系,这实际上是一种多主体博弈。因此,借助于MARL来解决这种竞争关系。
考虑到环境的动态性和SBSs的竞争性,将问题可以很好地表述为一个分布式部分可观察马尔可夫决策过程(DEC-POMDP),并可以用MARL的方法求解。
接下来为:基于POMDP的分布式干扰协调(ICIC)问题建模;
考虑自治网络,假设SBS之间没有信息交互,并且所有SBS使用它们自己的本地信息为各个UE制定策略。将分布式ICIC决策问题制定为POMDP并以MARL角度解决它。
在模型中,SBS充当智能实体,以自主地感知周围干扰,确定为每个用户分配发射功率,而不需要基站之间的信息交互。因此,定义模型中的(虚拟)Agent j∈[1,...,M]由UEm及其服务SBS n组成。考虑网络中的多个SBS,它们在模型中的各个时隙(例如,发送时间间隔(TTI))做出ICIC决策。每个agent根据自己的策略独立地为UE分配每个RB上功率。
连续系统状态空间描述整个系统环境,因此所有agent的观测空间的交集就是系统的状态空间。然而,对于Agent j,它只能得到环境的部分信息由连续观测空间表示。Agent j的观测状态取决于SINR(信噪比),即:每个分配RB的干扰,因此可以表示为向量:
注意,Agent j的动作空间是连续的。表示奖励空间用来评价动作。在时隙t时,所有agent同时采取行动,并且获得即时奖励奖励反映了优化目标,即,根据满足用户传输速率要求下将传输功率降至最低。因此,将Agent j的归一化报酬定义为
奖励函数这样定义的原因如下。一方面,如问题(3)所述,以最小的功耗满足单个UE的QoS要求是首要目标,这相当于最大化的值。另一方面,定义了一个不满足UEs QoS要求的惩罚,促使agent将策略调整到最优方向。
根据贝尔曼方程,(7)可以重新写成
其中,M-agent的Q-function是所有agent采取联合行动a=[a1,…,aM]。因此,值函数含有动作值函数的式子:
公式(11)的POMDP问题可以在一个强化学习框架下解决,在这个框架下,agent通过与环境交互来优化策略。在MARL框架下,学习策略是非常必要的。
传统的策略更新方法主要有两种:基于值的迭代法和基于策略的方法。然而,两种传统方法的适用性受到一些因素的限制。具体来说,基于值迭代的方法不适用于连续动作空间,且难以收敛。另一方面,基于策略的方法易于收敛到局部最优,并且具有高方差估计。
Actor-Critic(AC)算法将这两种方法结合起来,如图10所示,利用它们各自的优点。AC方法可以产生连续的行为,而基于策略的方法在策略梯度上的高方差则被批评者所抵消。在AC框架中,agent由两部分组成:参与者(策略)和批评者(价值函数)。参与者负责参数化策略,根据观察到的环境执行操作,并根据批评者的反馈更新策略。评论家的角色是通过处理环境中的回报和近似价值函数来评价和批评现行策略。
因此,本发明在无模型RL框架下,提出了一种面向微小蜂窝基站的自适应功率分配算法。
在ICIC问题中,状态空间和行为空间不仅是连续的,而且是多维的。因此,采用AC算法来求解具有稳定收敛性的在线决策问题。然而,分布式ICIC问题存在一个固有的问题。具体地说,在分布式ICIC场景中,联合动作的维数随agent数量呈指数增长,而其他agent在上时刻的具体动作对agent m不可知的。此外,各智能体的动作值函数需要考虑联合动作,而采用价值函数逼近方法则会使联合动作失效。因此,在MARL框架下解决联合动作的多维灾难具有重要意义。为了解决这一问题,采用平均场理论来降低联合作用的维数,这是一种有效的方法。
为了减少行动的维度并使其更适用于问题,首先将行动价值函数分解为成对的交互。尽管它显著降低了agent之间交互的复杂性,但它仍然隐式地保留了任何一对agent之间的全局交互。
因此,仅使用成对交互的动作值函数可以表示为:
其中,H(j)是除Agent j以外的所有agent的集合。此外,基于agent种群内的交互作用近似于单个agent的交互作用,而单个agent的交互作用具有总体种群的平均效应。因此,成对交互动作值函数可以有效地转换为两个agent交互。具体地说,在平均场近似下,所有成对的相互作用被简化为Agent j和虚拟平均agent j′之间的相互作用,这是由所有其他agent H(j)的平均效应抽象出来的。因此,有以下定义。
可以看到,泰勒公式的第一阶项可以消去,由于泰勒公式的二阶项实际上是一个随机变量,其中 并且可以证明是有界的[-2M,2M]。如果是M-smooth(如线性函数)。此外,假设所有agent是同构的并且是只有局部信息的,则倾向于相互抵消,因此作为一个小波动接近于零。
根据定理1,证明可以大大减小动作值函数的联合动作维数。因此,将式(8)重写为
可以看出平均场酌具有明显的物理意义,(即Agent j使用的每个RB上受到干扰),并且代表的其他agentH(j)对于Agent j的总体平均效应。此外,意味着平均动作可以由相应SBS感知,而不需要与每个SBSs交互。
critic部分
评论家的作用是近似状态值函数和动作值函数,并评估一项策略的好坏。对于Agent j,用bellman方程在无限状态和动作问题中无法计算状态值函数和平均场作用值函数因此,应采用函数逼近法,通过参数更新来估计值函数。
找到一个好的策略的先决条件是评论家能够准确地评估当前的策略。这就要求评论家为当前策略找到贝尔曼方程的近似解。bellman方程(8)的右侧和左侧之间的差实际上被定义为TD-error,其表示为
实际上有两种方法来更新评论家:TD(0)和TD(λ)。前者使用one-step backup方法更新评论家,而不考虑过去的状态。TD(0)中重要的是当前状态。然而,将在t+1中学到的知识扩展到以前的状态是有用的。因此,后一种方法TD(λ)引入了一个资格迹的方法来考虑历史信息加速学习。在线决策模型中,引入TD(λ)方法应用于更新评论家。用和表示时间t的资格迹向量,其更新方程表示为
这里λz∈[0,1)是一个衰减参数称为衰减迹,它定义了每个访问状态的更新重量。采用TD(λ)方法来更新参数wj和vj,因此参数向量可以更新为
其中,αct>0是评论家的学习速率。通过迭代,评论家可以更准确地评估给定策略的质量。
Actor部分
在策略梯度法下,演员根据critic的状态值函数信息更新策略,以找到最优策略。由于参数化策略函数是可微的关于参数θj,目标函数的梯度可以表示为
基线可以是任何函数,甚至是随机变量,只要它不随动作而变化;该方程仍然有效,因为减去的量为零:
因此,策略参数的更新公式为:
其中αat>0是Agent j的学习速率,用来更新策略。通过迭代,演员可以逐渐收敛到最优策略。
在基于AC的MARL框架中,利用平均场理论提出了一种解决分布式干扰协调问题的精简方案。在面向微小蜂窝基站的自适应功率分配算法中,输入包括网络拓扑结构、用户需求和观察到的干扰信息。同时,输出为每个agent的策略,即,为各时隙功率分配的决策。首先初始化这些参数,然后每个代理通过环境的交互同时执行动作并获得奖励。之后,所有的评论家都近似状态和行动值函数来评价当前策略。演员利用策略梯度法根据批评者的反馈更新自己的策略。
将上述算法进行工程化描述,如图1所示:
本算法推荐布置在基站侧,每个基站作为智能控制实体,通过收集到的信息,针对每个用户进行功率分配。由于算法的复杂度较低,因此无需额外计算资源和存储资源。鉴于本算法的输入部分,小基站需具备频谱扫描功能。另外,用户需要向基站上传CQI信息(在LTE系统中CQI的传输信道是PUSCH或PUCCH)。对于算法的输出部分,即功率的分配情况,可在基站侧进行执行。
总结如下:
基站端操作:
具备频谱扫描功能,以及接受覆盖范围内UE的信息(上报的SINR,CQI信息),经过资源调度算法,确定用户分的RB的数量。然后,进一步进行功率的资源分配,来协调小区间的干扰。优化整个系统的性能。
用户端操作:
UE进行SINR以及CQI的测量及上报,可使用LTE系统中的PUSCH或PUCCH进行上传信息。
面向微小蜂窝基站的自适应功率分配系统,在自治网络下,包括多个SBS,多个SBS在同一频谱下工作;
还包括多个用户,用户包括用户设备,每个SBS在时刻t服务下对应一组用户设备,每个SBS收集其对应的服务用户受到的干扰信息;
SBS通过频谱扫描收集信息作为系统的输入,SBS还用于接收用户上传的信息,信息包括用户设备的SINR和CQI,基站通过资源调度确定用户分到的RB的数量;
系统通过计算进一步进行功率的资源分配,来协调小区间的干扰,实现对用户设备的功率的优化分配,优化的方法为上述的面向微小蜂窝基站的自适应功率分配方法。
进一步地,考虑在超密集网络中部署多个即插即用SBS的室内场景,以便提高吞吐量并弥补MBS对室内环境的弱覆盖;系统的目标是解决宏基站对室内覆盖不足的问题,不影响宏基站功能。
在考虑的下行链路场景中,网络由一组为的SBS组成,为了提高频谱效率和资源利用率,SBS在相同的频谱上工作。系统带宽B划分为R个资源块(RB),其中每个SBS拥有相同数量的RB。并且RB的带宽由BRB表示,其中BRB=B/R。每个SBS具有其最大发射功率功率将分配给RB。系统采用分时隙的决策过程架构,其中每个时隙都t有相同的时间间隔TS。
自治网络中的用户用表示。每个SBS在时刻t服务由 表示的一组用户设备(UEs),其中假设UE均匀分布在SBS区域内,到达遵循具有参数λ的泊松分布。SBS和UE之间的接入方法是封闭式的。假设所有基站和用户(一旦接入)在仿真期间处于活跃状态。为了保证QoS,根据UE m的服务类型,其吞吐量需求表示为Cm。带宽分配是一个复杂的映射问题,涉及调制编码方案、信道质量、用户类别等多方面的因素。在不失一般性的前提下,根据UE m服务类型,以及当前RB的SINR分配给它一定数量的RBs,表示为Rm。当相同的RBs分配给周围SBSs的其他UE时,UE会受到ICI。下面给出了UE m时刻t时在RB r上的信噪比(SINR):
式中,表示SBS n在分配给用户m的RB r上的下行传输功率,表示UE m与SBS n在t时刻的信道增益;是用户m在t时刻遭受的ICI;σ2(t)表示t时刻的噪声功率,在这里叠加考虑了异频的干扰,包括频谱泄露等均可以考虑在环境在噪声中。
考虑分布式下行链路场景,其中SBSs之间没有信息交互。假设SBS可以通过频谱传感技术(如能量检测)感知频谱的占用情况。此外,SBS n通过用户反馈的的信道质量指示(CQI),可以推断出每个UE的所有RBs上的干扰和信道质量。具体地说,SBS n可以得到干扰信息矩阵和SINR矩阵利用探测到的干扰信息,SBS可以将干扰最小的空闲RBs分配给到达的用户,并对相应的RBs进行功率分配。
进一步的,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本方法中的步骤。本方法的具体使用依赖大量计算,因此优选的通过计算机程序来实现上述计算过程,所以任何包含本方法中所保护的步骤的计算机程序及其存储介质也属于本申请的保护范围内。
实施例:
考虑了一个典型的双线城市模型,它被3GPP认证,并被广泛应用,具体而言,模拟场景为一栋两层建筑,每层2×5套公寓,每个公寓的尺寸为10m*10m*3m,如图2(a)所示。为了更加真实,在典型的双线城市模型的基础上,进一步考虑如图2(b)所示的每个公寓的内部结构。
注意,由于距离越大,路损越大,形成的干扰越小。根据Keenan-Motley多壁模型粗略计算,相隔两层楼的基站和用户之间的路损最小约-79dB,产生的影响可忽略不计因此无需考虑更远的基站,20个基站能够充分验证算法的有效性。
每个公寓都有一个SBS。UEs均匀分布在SBSs覆盖范围内。此外,为UE定义了三种服务类型,其中一种服务类型对应一定数量的所需RBs。UE的服务类型服从均匀分布。所有SBSs和UEs(一旦访问)在仿真期间都假定为活跃的。用户的遵循平均到达率为λ的泊松分布。因此,UE的数量才会随着时间的推移而增加,直到每个SBS可以容纳4个UEs,。
将室内传播和渗透损失模型化为多壁模型。因此,在室内场景中SBS和UE之间的路径损耗模型为:
几种材料的墙壁的Lw参数取值如图9所示;
表一.仿真参数
参数 | 值 |
系统带宽 | 20MHz |
基站数量 | 20 |
资源块带宽 | 180KHz |
基站最大传输功率 | 20dBm |
RB数量 | 100 |
每个基站用户数量 | 4 |
平均到达率λ | 1 |
资源分配间隔 | 1TTI(1ms) |
热噪声密度 | -174dBm/Hz |
步长α<sub>ct</sub>,α<sub>ats</sub>,α<sub>atl</sub> | 0.1,0.01,0.001 |
折扣因子γ | 0.9 |
衰减率λ<sub>z</sub> | 0.5 |
在上一实施例的基础上,为了评估微小蜂窝基站的自适应功率分配算法(以下简称:SLIM)的有效性,将SLIM与其他三种参考算法进行了比较。
1)随机功率控制(RPC):每个SBS在不考虑任何类型的信息的情况下,为每一个UE随机分配一个固定的功率给相应的RBs。因此,不存在小区间干扰协调,可以直观地看到UE用受到的干扰随着UE数量的增加而变化。
2)基于梯度的分布式功率控制(GDPC):SBS在半自治模式下运行,通过在相邻的基站之间定期交换偏导数和系统功率信息从而使能源效率最大化。
3)软频率复用(SFR):软频率复用是一种经典的干扰协调方案,如图3所示,其中所有的SBSs都可以使用整个频谱,而中心频率和边缘频率使用的功率不同。为了便于比较,将提出的SFR机制结合到3GPP的双线城市模型中,进行对比。
图4给出了仿真实验结束时每RB上发射功率的累积分布函数CDF。在使用SLIM方案时,每个代理的目标是在保证UEs的QoS的同时最小化传输功率根据其他agent的行为和信道条件动态调整应用在每个RB传输功率。可以观察到SLIM相比SFR、RPC和GDPC的功耗最低。特别的,能源效率最大化而不是以传输功率最小化为目标的GDPC算法比提出的SLIM方案消耗更多的传输功率。
由于采用了较低的发射功率,所提出的SLIM方案明显地降低了小区间的干扰。这在图4中得到证实,图5示出了仿真结束时每个RB所遭受干扰的CDF。如图5所示,所提出的SLIM方案的CDF曲线在其他三种方案的左侧,这表明以最小化长期发射功率为目标的SLIM方案有效地降低了小区间干扰。
然后,比较服务类型I的UE在四种算法下,随时间的传输速率和分配功率的趋势,如图8所示。正如所料,提出的SLIM方案在经过一段时间的探索后达到了UE要求的传输速率,并收敛到最优值,即UE的需求,如图6所示。相比之下,RPC随机分配一个固定的功率给UE,导致UE的传输速率随时间下降。相比之下,GDPC明显超过了所需的传输速率,导致传输功率的浪费。RPC随机分配一个固定的功率给UE,这导致UE的传输速率随时间下降。此外,SFR快速达到了所需的传输速率,但在使用了最大传输功率约100ms后仍不能满足速率要求。原因如下:随着时间的推移,承认问题的数量增加,ICI变得更加严重。因此,不进行学习的SFR、GDPC和RPC算法无法在复杂动态竞争环境中自适应地分配传输功率。从图7可以看出,随着时间的推移,SFR中分配的功率会增加到最大的传输功率,从而保证了UE的QoS。但可以清楚地看到SLIM中分配的功率明显低于GDPC。这是因为SLIM scheme通过学习获得了最优策略,形成了双赢的局面。
最后,比较了四种方案的系统掉话率。如图8所示,如果用户在一段时间toutage=1s内不能满足它的QoS需求,则判定该用户掉话。SLIM、SFR、GDPC和RPC的掉话率随着时间(用户数)的增加而增加。这是因为随着用户数量的增加,ICI变得越来越严重,系统变得超负荷。特别是在系统负载较轻的情况下,由于GDPC的传输功率较高,其掉话率低于其他三种方案。然而,当系统负载严重时,所提出的SLIM方案的掉话率明显低于其他参考方案。实验结果表明,该方案在满足传输速率要求的前提下,能够有效地减少网络中ICI的影响,同时满足更多的问题。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.面向微小蜂窝基站的自适应功率分配方法,其特征在于,包括如下步骤:
每个小基站收集其对应的服务用户受到的干扰信息,小基站检测到的干扰信息随着无线信道和环境变化,对变化,所有小基站在每个时隙同时进行协调决策;
S1、搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent,agent包括小基站和对应的用户设备;
S2、小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:
S3、在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程;
自治网路包括一组为的SBS,SBS在相同的频谱上工作,将系统带宽B划分为R个资源块(RB),其中每个SBS拥有相同数量的RB,并且RB的带宽由BRB表示,其中SBS具有最大发射功率并功率将分配给RB;
agent包括Agent j,Agent j∈[1,...,M],Agent j包括UE m和SBSn;
多个SBS在模型中的各个时隙做出ICIC决策,ICIC决策为基于POMDP的分布式干扰协调决策,并且每个agent根据自己的策略独立地为UE分配每个RB上功率;
模型中将自治网络中的干扰缓解问题表示为分布式部分观测马尔可夫决策过程DEC-POMDP,将DEC-POMDP扩展为多智能体层面,采用六元组表示,其中表示系统状态空间;rj分别Agent j的状态空间,行为空间,奖励空间;和β分别代表状态转换概率和折扣因素;
进行归一化处理Agent j的奖励函数:
最后,计算Agent j在联合策略下的值函数;
所述计算Agent j在联合策略下的值函数的过程为:
其中,M-agent的Q-function是所有agent采取联合行动a=[a1,…,aM],值函数含有动作值函数的式子:
目标函数用于最大化长期的累计折扣回报的期望;
搭建强化学习框架,在所述框架下,agent通过与环境交互来优化策略,所述框架为AC框架,AC框架为基于演员-评论家(actor-critic,AC)的MARL框架;
在AC框架中,agent包括:参与者和批评者;
参与者负责参数化策略,根据观察到的环境执行操作,并根据批评者的反馈更新策略,评论家的角色是通过处理环境中的回报和近似价值函数来评价和批评现行策略;
所述评论家用于近似状态值函数和动作值函数,并评估一项策略的好坏,对于Agentj,采用函数逼近法,通过参数更新来估计值函数,所述评论家还用于评估当前策略的质量;
所述演员是基于其当前策略执行动作,并根据评论家的反馈更新策略,应用策略梯度法,演员根据critic的状态值函数信息更新策略并计算学习速率,并收敛至最优策略。
2.面向微小蜂窝基站的自适应功率分配系统,其特征在于,在自治网络下,包括多个SBS,多个SBS在同一频谱下工作;
还包括多个用户,用户包括用户设备,每个SBS在时刻t服务下对应一组用户设备,每个SBS收集其对应的服务用户受到的干扰信息;
SBS通过频谱扫描收集信息作为系统的输入,SBS还用于接收用户上传的信息,信息包括用户设备的SINR和CQI,基站通过资源调度确定用户分到的RB的数量;
系统通过计算进一步进行功率的资源分配,来协调小区间的干扰,实现对用户设备的功率的优化分配,优化的方法为权利要求1所述的面向微小蜂窝基站的自适应功率分配方法。
3.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011000978.XA CN112118632B (zh) | 2020-09-22 | 2020-09-22 | 面向微小蜂窝基站的自适应功率分配系统、方法和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011000978.XA CN112118632B (zh) | 2020-09-22 | 2020-09-22 | 面向微小蜂窝基站的自适应功率分配系统、方法和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112118632A CN112118632A (zh) | 2020-12-22 |
CN112118632B true CN112118632B (zh) | 2022-07-29 |
Family
ID=73801454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011000978.XA Active CN112118632B (zh) | 2020-09-22 | 2020-09-22 | 面向微小蜂窝基站的自适应功率分配系统、方法和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112118632B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN108924935A (zh) * | 2018-07-06 | 2018-11-30 | 西北工业大学 | 一种基于强化学习算法功率域的noma中的功率分配方法 |
CN109600828A (zh) * | 2018-11-19 | 2019-04-09 | 赣南师范大学 | 无人机基站下行链路的自适应传输功率分配方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1333615C (zh) * | 2004-07-23 | 2007-08-22 | 北京邮电大学 | 一种用于两跳蜂窝系统的中继选择和功率分配方法 |
CN103078714B (zh) * | 2013-01-28 | 2016-03-30 | 复旦大学 | 一种基于协作决策和自适应功率分配的下行协作多点传输方法 |
-
2020
- 2020-09-22 CN CN202011000978.XA patent/CN112118632B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9622133B1 (en) * | 2015-10-23 | 2017-04-11 | The Florida International University Board Of Trustees | Interference and mobility management in UAV-assisted wireless networks |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN108924935A (zh) * | 2018-07-06 | 2018-11-30 | 西北工业大学 | 一种基于强化学习算法功率域的noma中的功率分配方法 |
CN109600828A (zh) * | 2018-11-19 | 2019-04-09 | 赣南师范大学 | 无人机基站下行链路的自适应传输功率分配方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
Non-Patent Citations (2)
Title |
---|
POMDP-based cross-layer power adaptation techniques in cognitive radio networks;Ashok K. Karmokar;《2012 IEEE Global Communications Conference (GLOBECOM)》;20130423;全文 * |
谢奕钊 ; 易爱.多信道无线通信功率分配最优化决策分析.《电子测试》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN112118632A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
Mei et al. | Intelligent radio access network slicing for service provisioning in 6G: A hierarchical deep reinforcement learning approach | |
Ghadimi et al. | A reinforcement learning approach to power control and rate adaptation in cellular networks | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
Wang et al. | Decentralized learning based indoor interference mitigation for 5G-and-beyond systems | |
Yan et al. | Federated cooperation and augmentation for power allocation in decentralized wireless networks | |
Alwarafy et al. | Deep reinforcement learning for radio resource allocation and management in next generation heterogeneous wireless networks: A survey | |
CN107094060A (zh) | 基于非合作博弈的分布式超密集异构网络干扰协调方法 | |
Holliday et al. | Distributed power control for time varying wireless networks: Optimality and convergence | |
Elsayed et al. | Deep reinforcement learning for reducing latency in mission critical services | |
Akter et al. | Distributed approach for power and rate allocation to secondary users in cognitive radio networks | |
Marbukh | Towards fog network utility maximization (FoNUM) for managing fog computing resources | |
De Domenico et al. | Reinforcement learning for interference-aware cell DTX in heterogeneous networks | |
Yan et al. | Self-imitation learning-based inter-cell interference coordination in autonomous HetNets | |
Khan et al. | Artificial neural network-based joint mobile relay selection and resource allocation for cooperative communication in heterogeneous network | |
CN112118632B (zh) | 面向微小蜂窝基站的自适应功率分配系统、方法和介质 | |
Du et al. | Interference-aware spectrum resource management in dynamic environment: strategic learning with higher-order statistic optimization | |
Wang et al. | Interference coordination for autonomous small cell networks based on distributed learning | |
Moysen et al. | Self coordination among SON functions in LTE heterogeneous networks | |
Zappone et al. | Complexity-aware ANN-based energy efficiency maximization | |
Kim | Femtocell network power control scheme based on the weighted voting game | |
Eskandari et al. | Smart interference management xApp using deep reinforcement learning | |
Galindo-Serrano et al. | On implementation requirements and performances of Q-learning for self-organized femtocells | |
Moneesh et al. | Cooperative Spectrum Sensing using DQN in CRN | |
Anzaldo et al. | Training Effect on AI-based Resource Allocation in small-cell networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |