CN112118632B - 面向微小蜂窝基站的自适应功率分配系统、方法和介质 - Google Patents

面向微小蜂窝基站的自适应功率分配系统、方法和介质 Download PDF

Info

Publication number
CN112118632B
CN112118632B CN202011000978.XA CN202011000978A CN112118632B CN 112118632 B CN112118632 B CN 112118632B CN 202011000978 A CN202011000978 A CN 202011000978A CN 112118632 B CN112118632 B CN 112118632B
Authority
CN
China
Prior art keywords
agent
strategy
action
sbs
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011000978.XA
Other languages
English (en)
Other versions
CN112118632A (zh
Inventor
王亚彤
冯钢
秦爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011000978.XA priority Critical patent/CN112118632B/zh
Publication of CN112118632A publication Critical patent/CN112118632A/zh
Application granted granted Critical
Publication of CN112118632B publication Critical patent/CN112118632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了面向微小蜂窝基站的自适应功率分配系统、方法和介质,涉及蜂窝数据处理领域,解决了在满足每个用户设备传输速率的情况下,如何最小化每个用户设备的长期平均总传输功率的问题。本发明包括:搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent;小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程。本发明满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。

Description

面向微小蜂窝基站的自适应功率分配系统、方法和介质
技术领域
本发明涉及蜂窝数据处理领域,具体涉及面向微小蜂窝基站的自适应功率分配系统、方法和介质。
背景技术
过去几年,数据流量爆炸性增长,智能设备和可穿戴设备也迅速普及。根据无线使用情况统计,超过70%的数据流量和50%的语音呼叫都发生在室内,并且用户80%以上的时间在室内环境。
然而,由于建筑物墙壁的遮挡形成了非常高的穿透损耗,这严重损害了室内无线传输的数据速率、频谱效率和能量效率。同时,5G以及超5G系统要求将使用新的更高频谱,即:微波频段(3.3-4.2GHz)来满足需求。
然而更高的频段将导致更高的损耗,因此对室内覆盖带来巨大挑战。为了增加网络容量并提供更好的覆盖,通过在室内部署大量即插即用、低功耗和低成本的小基站(SBS)的形成超密集网络(UDN)被认为是即将到来的5G及超5G中最新兴的架构之一。
显然,在密集的住宅区中部署的即插即用SBS可能导致严重的小区间干扰(ICI),这使得网络性能和用户的服务质量(QoS)显著地恶化。因此,干扰协调对于移动通信系统的室内覆盖是至关重要的。传统的集中式干扰管理对于密集部署即插即用SBS的场景并不是更有效。因为大量信令开销和算法执行复杂性,中央控制器很容易成为网络性能瓶颈。例如,用于干扰减轻的集中式方案需要巨大的信息交互,从而导致大量的信令开销。因此,传统的干扰协调方案对即插即用UDN不再有效。因此,必须开发新的干扰减轻方案,并且该方案对于以SBS是即插即用方式工作的自治网络是有效的。
在UDN中,现有的干扰管理工作可大致分为频域方面,时域方面和功率优化方面。频域方法(包括部分频率复用(FFR)和软频率复用(SFR))牺牲了一部分稀缺的频谱资源来减轻干扰,并在很大程度上依赖于网络规划和优化。此外,时域方法也牺牲了一部分时域资源,并且需要SBS之间的信息交互。然而,基于功率层面的干扰管理方案,例如功率控制,被认为是一种有效的方法,并且能够提高频谱效率来减轻分布式干扰。
实际上,在5G及以后的时代,电信运营商在密集SBS部署的网络规划和优化方面面临很大困难。随着人工智能的蓬勃发展,未来的网络架构逐渐演变为智能自治网络模式,电信运营商组建以即插即用的方式自动化网络,来减少人工干预的数量。换句话说,自治网络依赖于自我分析,自我配置和自我学习。然而,在这种复杂且动态的网络环境中,可能容易引起严重的ICI,从而网络性能和用户的QoS显着恶化。
幸运的是,最近出现的强化学习(RL)算法在解决复杂动态环境下的顺序决策问题方面显示出了巨大的潜力。由于无线网络环境缺乏准确的信息和模型,无模型的RL框架能够有效的解决序列决策问题,通过与环境的交互,学习最优策略。此外,在分布式框架中,RL可以扩展到多智体层面。与单智能体强化学习(Single Agent Reinforcement Learning,SARL)技术在无线网络中的巨大发展和广泛应用相比,多智能体强化学习(Multi-AgentReinforcement Learning,MARL)在解决自治网络中的一些随机优化问题方面具有更大的潜力。
发明内容
本发明所要解决的技术问题是:在满足每个用户设备传输速率的情况下,如何最小化每个用户设备的长期平均总传输功率,本发明提供了解决上述问题的面向微小蜂窝基站的自适应功率分配系统、方法和介质。
本发明不需要SBS之间的信息交互,这允许电信运营商组建以即插即用的方式自动化网络,并依赖于自我分析、自我配置和自我学习来减少的人工干预。
本发明将自治网络中的干扰缓解问题建模为分布式部分观测马尔可夫决策过程(Decentralized Partial Observation Markov Decision Process,DEC-POMDP),并从MARL的角度进行求解。
在面向微小蜂窝基站的自适应功率分配算法中,单个小基站自动感知周围的干扰,并确定它们的下行传输功率以减轻干扰。
面向微小蜂窝基站的自适应功率分配方法,包括如下步骤:
每个小基站收集其对应的服务用户受到的干扰信息,小基站检测到的干扰信息随着无线信道和环境变化,对变化,所有小基站在每个时隙同时进行协调决策;
S1、搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent,agent包括小基站和对应的用户设备;
S2、小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:
S3、在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程。
具体来说,在算法中的设计目标是在保证各个用户的QoS的同时,通过最小化长期平均总传输功率来减轻ICI,从而提高整体网络性能,包括减轻ICI,容纳更多的用户,降低掉话率。在学习模型中,由于行为空间和状态空间都是连续的,提出了一个基于演员-评论家(actor-critic,AC)的MARL框架,在非平稳环境下,学习最优随机策略来解决随机优化问题。其中,Actor负责参数化策略、执行操作和更新策略,而critic用于评估和批评当前的策略和近似值函数。然而,本发明需要在MARL框架内处理联合行动的空间灾难。为了减小联合函数的维度,利用平均场理论来逼近作用值函数,从而有效地避免了智能体之间复杂的交互作用。
综上所述,由于方案具有分布式和自学习的特性,因此可以很容易地部署到自治网络的小基站中,在不增加额外信令开销的情况下提高了性能。此外,提出的技术方案是可扩展性的,因为它可以灵活地扩展,而不会因为密集部署了小基站而造成维度灾难。
关于缩略词的解释:
缩略词英文全称中文释义
SBS Small base-station小基站
UDN ultra-dense networks超密集网络
QoS quality of service服务质量
UE user equipment用户设备
MARL multi-agent reinforcement learning多智体强化学习
SARL single agent reinforcement learning单智体强化学习
SFR soft frequency reuse软频率服用
POMDP partial observation Markov decision process部分可观测马尔科夫过程
ICI inter-cell interference小区间干扰
AC actor-critic演员-评论家
为了减少干扰,从而最大限度地提高网络吞吐量,设计目标是在满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
现有技术通过具体的例子揭示了将发射功率最小化的优化目标可以显著地减小干扰。在满足服务用户传输速率的前提下,单个SBS降低传输功率相当于将ICI降低到周围SBSs的其他用户,从而提高整体网络性能。
有多个agent同时进行决策,对于Agent j∈[1,...,M]是由SBS n及其服务的UE m构成;
多个SBS在模型中的各个时隙做出ICIC决策,ICIC决策为基于POMDP的分布式干扰协调决策,并且每个agent根据自己的策略独立地为UE分配每个RB上功率;
如果所有SBSs智能地为每个用户分配最小可行的传输功率,而不是使用更高的传输能量提高自己小区吞吐量,就可以优化整体网络的性能,如减轻ICI,容纳更多的用户,降低掉话率。因此,本发明的问题表示如下。
Figure BDA0002694303810000041
Figure BDA0002694303810000042
其中πm为SBS m学到的一个最佳的随机策略。约束(3.1)表示用户m获得的传输速率Vm(t)要满足速率Cm的需求。
问题(3)确实是一个序列决策问题,属于随机优化问题。研究这个问题,得到以下观察结果。
1)对于决策者,即SBS,它只能观察到环境的一部分,即它所服务用户所受到的干扰信息。然而,在分布式场景中,SBSs无法获得周围SBSs所中的用户所受到的干扰及其需求。
2)SBS检测到的干扰信息是上一个t-1时刻的平均信噪比,并不是当前时隙t的信息。并且,无线信道和环境是时变的。因此,这激励本发明使用无模型RL应用于自治网络。
3)在每个时间段,所有的SBSs都需要同时进行决策,因此SBSs之间存在着竞争关系,这实际上是一种多主体博弈。因此,借助于MARL来解决这种竞争关系。
考虑到环境的动态性和SBSs的竞争性,将问题可以很好地表述为一个分布式部分可观察马尔可夫决策过程(DEC-POMDP),并可以用MARL的方法求解。
接下来为:基于POMDP的分布式干扰协调(ICIC)问题建模;
考虑自治网络,假设SBS之间没有信息交互,并且所有SBS使用它们自己的本地信息为各个UE制定策略。将分布式ICIC决策问题制定为POMDP并以MARL角度解决它。
在模型中,SBS充当智能实体,以自主地感知周围干扰,确定为每个用户分配发射功率,而不需要基站之间的信息交互。因此,定义模型中的(虚拟)Agent j∈[1,...,M]由UEm及其服务SBS n组成。考虑网络中的多个SBS,它们在模型中的各个时隙(例如,发送时间间隔(TTI))做出ICIC决策。每个agent根据自己的策略独立地为UE分配每个RB上功率。
DEC-POMDP可以扩展为多智能体层面,可由多元组
Figure BDA0002694303810000043
表示,其中
Figure BDA0002694303810000044
表示系统状态空间;
Figure BDA0002694303810000045
rj分别Agent j的状态空间,行为空间,奖励空间;
Figure BDA0002694303810000046
和β分别代表状态转换概率和折扣因素。
连续系统状态空间
Figure BDA0002694303810000047
描述整个系统环境,因此所有agent的观测空间
Figure BDA0002694303810000048
的交集就是系统的状态空间。然而,对于Agent j,它只能得到环境的部分信息由连续观测空间
Figure BDA0002694303810000049
表示。Agent j的观测状态取决于SINR(信噪比),即:每个分配RB的干扰,因此可以表示为向量:
Figure BDA00026943038100000410
其中
Figure BDA0002694303810000051
Figure BDA0002694303810000052
分别表示SINR和Agent j在第i个RB上收到的干扰。
在技术问题中,agent应该确定每个被分配RB的下行传输功率。因此,Agent j的动作
Figure BDA0002694303810000053
在t时刻可以表示为动作向量,即
Figure BDA0002694303810000054
注意,Agent j的动作空间
Figure BDA0002694303810000055
是连续的。
Figure BDA0002694303810000056
表示奖励空间用来评价动作。在时隙t时,所有agent同时采取行动,并且获得即时奖励
Figure BDA0002694303810000057
奖励反映了优化目标,即,根据满足用户传输速率要求下将传输功率降至最低。因此,将Agent j的归一化报酬定义为
Figure BDA0002694303810000058
奖励函数这样定义的原因如下。一方面,如问题(3)所述,以最小的功耗满足单个UE的QoS要求是首要目标,这相当于最大化
Figure BDA0002694303810000059
的值。另一方面,定义了一个不满足UEs QoS要求的惩罚,促使agent将策略调整到最优方向。
为了执行一个合适动作,每个agent适应一个随机策略
Figure BDA00026943038100000510
其中
Figure BDA00026943038100000511
是在oj状态下执行aj的概率。用π来表示所有agent的联合策略π=[π1,…,πM]。
POMDP中的agent根据值函数来评估和更新策略,值函数被定义为策略在的累计折扣奖励的期望值。对于一个初始状态
Figure BDA00026943038100000512
Agent j在联合策略下的值函数表示为
Figure BDA00026943038100000513
根据贝尔曼方程,(7)可以重新写成
Figure BDA00026943038100000514
它由即时回报和后一状态的价函数组成。Agent j在联合策略下的动作值函数Q-function
Figure BDA00026943038100000515
可以定义为
Figure BDA00026943038100000516
其中,M-agent的Q-function是所有agent采取联合行动a=[a1,…,aM]。因此,值函数含有动作值函数的式子:
Figure BDA0002694303810000061
每个agent的目标在POMDP问题是找到一个的最优策略
Figure BDA0002694303810000062
最大化自己的值函数。因此,针对Agent j的POMDP问题的目标函数可以表述为
Figure BDA0002694303810000063
这实际上是为了最大化长期的累计折扣回报的期望。
Figure BDA0002694303810000064
公式(11)的POMDP问题可以在一个强化学习框架下解决,在这个框架下,agent通过与环境交互来优化策略。在MARL框架下,学习策略是非常必要的。
传统的策略更新方法主要有两种:基于值的迭代法和基于策略的方法。然而,两种传统方法的适用性受到一些因素的限制。具体来说,基于值迭代的方法不适用于连续动作空间,且难以收敛。另一方面,基于策略的方法易于收敛到局部最优,并且具有高方差估计。
Actor-Critic(AC)算法将这两种方法结合起来,利用它们各自的优点。AC方法可以产生连续的行为,而基于策略的方法在策略梯度上的高方差则被批评者所抵消。在AC框架中,agent由两部分组成:参与者(策略)和批评者(价值函数)。参与者负责参数化策略,根据观察到的环境执行操作,并根据批评者的反馈更新策略。评论家的角色是通过处理环境中的回报和近似价值函数来评价和批评现行策略。
因此,本发明在无模型RL框架下,提出了一种面向微小蜂窝基站的自适应功率分配算法。
在ICIC问题中,状态空间和行为空间不仅是连续的,而且是多维的。因此,采用AC算法来求解具有稳定收敛性的在线决策问题。然而,分布式ICIC问题存在一个固有的问题。具体地说,在分布式ICIC场景中,联合动作的维数随agent数量呈指数增长,而其他agent在上时刻的具体动作对agent m不可知的。此外,各智能体的动作值函数需要考虑联合动作,而采用价值函数逼近方法则会使联合动作失效。因此,在MARL框架下解决联合动作的多维灾难具有重要意义。为了解决这一问题,采用平均场理论来降低联合作用的维数,这是一种有效的方法。
为了减少行动的维度并使其更适用于问题,首先将行动价值函数分解为成对的交互。尽管它显著降低了agent之间交互的复杂性,但它仍然隐式地保留了任何一对agent之间的全局交互。
因此,仅使用成对交互的动作值函数可以表示为:
Figure BDA0002694303810000071
其中,H(j)是除Agent j以外的所有agent的集合。此外,基于agent种群内的交互作用近似于单个agent的交互作用,而单个agent的交互作用具有总体种群的平均效应。因此,成对交互动作值函数可以有效地转换为两个agent交互。具体地说,在平均场近似下,所有成对的相互作用被简化为Agent j和虚拟平均agent j′之间的相互作用,这是由所有其他agent H(j)的平均效应抽象出来的。因此,有以下定义。
定义1:pairwise Q-value
Figure BDA0002694303810000072
中的动作aj′可以表示为agent j′对Agent j形成的干扰
Figure BDA0002694303810000073
其中下标从1到Rm表示Agent j使用的RB。
定义2:平均动作
Figure BDA0002694303810000074
表示所有其它agent的动作对Agent j的平均影响,可定义为。
Figure BDA0002694303810000075
Figure BDA0002694303810000076
同时动作aj′可以写成平均动作
Figure BDA0002694303810000077
和干扰项bj,j′和。
Figure BDA0002694303810000078
定理1:动作值函数
Figure BDA0002694303810000079
可近似为平均场动作值函数
Figure BDA00026943038100000710
证明:从等式(12),有
Figure BDA00026943038100000711
如果
Figure BDA00026943038100000712
是二阶可微w.r.t.行动aj′,然后通过泰勒公式展开,Eq(12)可以写成
Figure BDA00026943038100000713
可以看到,泰勒公式的第一阶项可以消去,由于
Figure BDA0002694303810000081
泰勒公式的二阶项
Figure BDA0002694303810000082
实际上是一个随机变量,其中
Figure BDA0002694303810000083
Figure BDA0002694303810000084
并且可以证明
Figure BDA00026943038100000818
是有界的[-2M,2M]。如果
Figure BDA0002694303810000085
是M-smooth(如线性函数)。此外,假设所有agent是同构的并且是只有局部信息的,则
Figure BDA00026943038100000819
倾向于相互抵消,因此
Figure BDA00026943038100000820
作为一个小波动接近于零。
根据定理1,证明可以大大减小动作值函数的联合动作维数。因此,将式(8)重写为
Figure BDA0002694303810000086
可以看出平均场酌
Figure BDA0002694303810000087
具有明显的物理意义,(即Agent j使用的每个RB上受到干扰),并且代表的其他agentH(j)对于Agent j的总体平均效应。此外,意味着平均动作
Figure BDA0002694303810000088
可以由相应SBS感知,而不需要与每个SBSs交互。
critic部分
评论家的作用是近似状态值函数和动作值函数,并评估一项策略的好坏。对于Agent j,用bellman方程在无限状态和动作问题中无法计算状态值函数
Figure BDA0002694303810000089
和平均场作用值函数
Figure BDA00026943038100000810
因此,应采用函数逼近法,通过参数更新来估计值函数。
为了逼近状态值函数,采用线性逼近方法,与非线性逼近(如神经网络)相比,线性逼近方法具有唯一的最优值、复杂度低、收敛速度快等特点,更适合于在线决策模型。使用线性近似,近似状态值函数
Figure BDA00026943038100000811
表示为
Figure BDA00026943038100000812
其中,
Figure BDA00026943038100000813
是状态oj的特征向量。
Figure BDA00026943038100000814
是Agent j的向量参数。同样,参数化的平均场作用值函数表示为
Figure BDA00026943038100000815
其中,
Figure BDA00026943038100000816
是状态特征向量。
Figure BDA00026943038100000817
是Agent j的参数向量。在本发明中,使用多项式方法来构造特征向量。
找到一个好的策略的先决条件是评论家能够准确地评估当前的策略。这就要求评论家为当前策略找到贝尔曼方程的近似解。bellman方程(8)的右侧和左侧之间的差实际上被定义为TD-error,其表示为
Figure BDA0002694303810000091
实际上有两种方法来更新评论家:TD(0)和TD(λ)。前者使用one-step backup方法更新评论家,而不考虑过去的状态。TD(0)中重要的是当前状态。然而,将在t+1中学到的知识扩展到以前的状态是有用的。因此,后一种方法TD(λ)引入了一个资格迹的方法来考虑历史信息加速学习。在线决策模型中,引入TD(λ)方法应用于更新评论家。用
Figure BDA0002694303810000092
Figure BDA0002694303810000093
表示时间t的资格迹向量,其更新方程表示为
Figure BDA0002694303810000094
这里λz∈[0,1)是一个衰减参数称为衰减迹,它定义了每个访问状态的更新重量。采用TD(λ)方法来更新参数wj和vj,因此参数向量可以更新为
Figure BDA0002694303810000095
其中,αct>0是评论家的学习速率。通过迭代,评论家可以更准确地评估给定策略的质量。
Actor部分
演员的作用是基于其当前策略执行动作,并根据评论家的反馈更新策略。由于它是一个连续的动作空间,使用高斯概率分布来近似随机策略
Figure BDA0002694303810000096
它可以写成
Figure BDA0002694303810000097
其中,
Figure BDA0002694303810000098
是参数化的动作的平均期望。
Figure BDA0002694303810000099
和σ是策略参数和方差(用来平衡探索和利用的关系)。
在策略梯度法下,演员根据critic的状态值函数信息更新策略,以找到最优策略。由于参数化策略函数是可微的关于参数θj,目标函数的梯度可以表示为
Figure BDA00026943038100000910
由于AC算法收敛的方差可能是非常重要的,因此引入基线
Figure BDA0002694303810000101
可以改善的评论家准确性,降低方差,并且不违背近似梯度估计的无偏性。因此,可以将式(20)改写为
Figure BDA0002694303810000102
基线可以是任何函数,甚至是随机变量,只要它不随动作而变化;该方程仍然有效,因为减去的量为零:
Figure BDA0002694303810000103
一般来说,基线保持更新的期望值不变,但是它对其方差有很大的影响。在实际中,最优基线是值函数
Figure BDA0002694303810000104
它最小化了方差在策略π的梯度估计。因此,引入有事函数来估计策略
Figure BDA0002694303810000105
式(22)可进一步推导为
Figure BDA0002694303810000106
其中,有
Figure BDA0002694303810000107
利用演员的资格迹方法,则更新公式为:
Figure BDA0002694303810000108
因此,策略参数的更新公式为:
Figure BDA0002694303810000109
其中αat>0是Agent j的学习速率,用来更新策略。通过迭代,演员可以逐渐收敛到最优策略。
在基于AC的MARL框架中,利用平均场理论提出了一种解决分布式干扰协调问题的精简方案。在面向微小蜂窝基站的自适应功率分配算法中,输入包括网络拓扑结构、用户需求和观察到的干扰信息。同时,输出为每个agent的策略,即,为各时隙功率分配的决策。首先初始化这些参数,然后每个代理通过环境的交互同时执行动作并获得奖励。之后,所有的评论家都近似状态和行动值函数来评价当前策略。演员利用策略梯度法根据批评者的反馈更新自己的策略。
将上述算法进行工程化描述:
本算法推荐布置在基站侧,每个基站作为智能控制实体,通过收集到的信息,针对每个用户进行功率分配。由于算法的复杂度较低,因此无需额外计算资源和存储资源。鉴于本算法的输入部分,小基站需具备频谱扫描功能。另外,用户需要向基站上传CQI信息(在LTE系统中CQI的传输信道是PUSCH或PUCCH)。对于算法的输出部分,即功率的分配情况,可在基站侧进行执行。
总结如下:
基站端操作:
具备频谱扫描功能,以及接受覆盖范围内UE的信息(上报的SINR,CQI信息),经过资源调度算法,确定用户分的RB的数量。然后,进一步进行功率的资源分配,来协调小区间的干扰。优化整个系统的性能。
用户端操作:
UE进行SINR以及CQI的测量及上报,可使用LTE系统中的PUSCH或PUCCH进行上传信息。
面向微小蜂窝基站的自适应功率分配系统,在自治网络下,包括多个SBS,多个SBS在同一频谱下工作;
还包括多个用户,用户包括用户设备,每个SBS在时刻t服务下对应一组用户设备,每个SBS收集其对应的服务用户受到的干扰信息;
SBS通过频谱扫描收集信息作为系统的输入,SBS还用于接收用户上传的信息,信息包括用户设备的SINR和CQI,基站通过资源调度确定用户分到的RB的数量;
系统通过计算进一步进行功率的资源分配,来协调小区间的干扰,实现对用户设备的功率的优化分配,优化的方法为上述的面向微小蜂窝基站的自适应功率分配方法。
进一步地,考虑在超密集网络中部署多个即插即用SBS的室内场景,以便提高吞吐量并弥补MBS对室内环境的弱覆盖;系统的目标是解决宏基站对室内覆盖不足的问题,不影响宏基站功能。
在考虑的下行链路场景中,网络由一组为
Figure BDA0002694303810000111
的SBS组成,为了提高频谱效率和资源利用率,SBS在相同的频谱上工作。系统带宽B划分为R个资源块(RB),其中每个SBS拥有相同数量的RB。并且RB的带宽由BRB表示,其中BRB=B/R。每个SBS具有其最大发射功率
Figure BDA0002694303810000112
功率将分配给RB。系统采用分时隙的决策过程架构,其中每个时隙都t有相同的时间间隔TS
自治网络中的用户用
Figure BDA0002694303810000113
表示。每个SBS在时刻t服务由
Figure BDA0002694303810000114
Figure BDA0002694303810000121
表示的一组用户设备(UEs),其中
Figure BDA0002694303810000122
假设UE均匀分布在SBS区域内,到达遵循具有参数λ的泊松分布。SBS和UE之间的接入方法是封闭式的。假设所有基站和用户(一旦接入)在仿真期间处于活跃状态。为了保证QoS,根据UE m的服务类型,其吞吐量需求表示为Cm。带宽分配是一个复杂的映射问题,涉及调制编码方案、信道质量、用户类别等多方面的因素。在不失一般性的前提下,根据UE m服务类型,以及当前RB的SINR分配给它一定数量的RBs,表示为Rm。当相同的RBs分配给周围SBSs的其他UE时,UE会受到ICI。下面给出了UE m时刻t时在RB r上的信噪比(SINR):
Figure BDA0002694303810000123
式中,
Figure BDA0002694303810000124
表示SBS n在分配给用户m的RB r上的下行传输功率,
Figure BDA0002694303810000125
表示UE m与SBS n在t时刻的信道增益;
Figure BDA0002694303810000126
是用户m在t时刻遭受的ICI;σ2(t)表示t时刻的噪声功率,在这里叠加考虑了异频的干扰,包括频谱泄露等均可以考虑在环境在噪声中。
考虑分布式下行链路场景,其中SBSs之间没有信息交互。假设SBS可以通过频谱传感技术(如能量检测)感知频谱的占用情况。此外,SBS n通过用户反馈的的信道质量指示(CQI),可以推断出每个UE的所有RBs上的干扰和信道质量。具体地说,SBS n可以得到干扰信息矩阵和SINR矩阵
Figure BDA0002694303810000127
利用探测到的干扰信息,SBS可以将干扰最小的空闲RBs分配给到达的用户,并对相应的RBs进行功率分配。
分配给用户m的功率用
Figure BDA0002694303810000128
表示,其中
Figure BDA0002694303810000129
表示分配给用户m的第i个RB上的功率。因此,用户m在时刻t获得的下行传输速率Vm(t)等于
Figure BDA00026943038100001210
本发明具有如下的优点和有益效果:
本发明满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的网络架构图。
图2(a)为3GPP标准下的双条城市模型图。
图2(b)为公寓的内部结构图。
图3为本发明中采用的软频率复用图。
图4为本发明的每个RB上的发射功率的累积分布函数图。
图5为本发明的每个RB收到干扰的累积分布函数图。
图6为本发明的用户的传输速率图。
图7为本发明的用户的分配功率图。
图8为本发明的系统的掉话率图
图9为本发明中实施例采用的几种材料的墙壁的Lw参数取值图。
图10为本发明的基于演员评论家的多智体强化学习的框架图。
具体实施方式
在对本发明的任意实施例进行详细的描述之前,应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本发明中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本发明保护的范围。
面向微小蜂窝基站的自适应功率分配方法,包括如下步骤:
每个小基站收集其对应的服务用户受到的干扰信息,小基站检测到的干扰信息随着无线信道和环境变化,对变化,所有小基站在每个时隙同时进行协调决策;
S1、搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent,agent包括小基站和对应的用户设备;
S2、小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:
S3、在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程。
具体来说,在算法中的设计目标是在保证各个用户的QoS的同时,通过最小化长期平均总传输功率来减轻ICI,从而提高整体网络性能,包括减轻ICI,容纳更多的用户,降低掉话率。在学习模型中,由于行为空间和状态空间都是连续的,提出了一个基于演员-评论家(actor-critic,AC)的MARL框架,在非平稳环境下,学习最优随机策略来解决随机优化问题。其中,Actor负责参数化策略、执行操作和更新策略,而critic用于评估和批评当前的策略和近似值函数。然而,本发明需要在MARL框架内处理联合行动的空间灾难。为了减小联合函数的维度,利用平均场理论来逼近作用值函数,从而有效地避免了智能体之间复杂的交互作用。
综上所述,由于方案具有分布式和自学习的特性,因此可以很容易地部署到自治网络的小基站中,在不增加额外信令开销的情况下提高了性能。此外,提出的技术方案是可扩展性的,因为它可以灵活地扩展,而不会因为密集部署了小基站而造成维度灾难。
关于缩略词的解释:
缩略词英文全称中文释义
SBS Small base-station小基站
UDN ultra-dense networks超密集网络
QoS quality of service服务质量
UE user equipment用户设备
MARL multi-agent reinforcement learning多智体强化学习
SARL single agent reinforcement learning单智体强化学习
SFR soft frequency reuse软频率服用
POMDP partial observation Markov decision process部分可观测马尔科夫过程
ICI inter-cell interference小区间干扰
AC actor-critic演员-评论家
为了减少干扰,从而最大限度地提高网络吞吐量,设计目标是在满足每个UE传输速率的情况下,最小化每个UE的长期平均总传输功率。
现有技术通过具体的例子揭示了将发射功率最小化的优化目标可以显著地减小干扰。在满足服务用户传输速率的前提下,单个SBS降低传输功率相当于将ICI降低到周围SBSs的其他用户,从而提高整体网络性能。
如果所有SBSs智能地为每个用户分配最小可行的传输功率,而不是使用更高的传输能量提高自己小区吞吐量,就可以优化整体网络的性能,如减轻ICI,容纳更多的用户,降低掉话率。因此,本发明的问题表示如下。
Figure BDA0002694303810000141
Figure BDA0002694303810000142
其中πm为SBS m学到的一个最佳的随机策略。约束(3.1)表示用户m获得的传输速率Vm(t)要满足速率Cm的需求。
问题(3)确实是一个序列决策问题,属于随机优化问题。研究这个问题,得到以下观察结果。
1)对于决策者,即SBS,它只能观察到环境的一部分,即它所服务用户所受到的干扰信息。然而,在分布式场景中,SBSs无法获得周围SBSs所中的用户所受到的干扰及其需求。
2)SBS检测到的干扰信息是上一个t-1时刻的平均信噪比,并不是当前时隙t的信息。并且,无线信道和环境是时变的。因此,这激励本发明使用无模型RL应用于自治网络。
3)在每个时间段,所有的SBSs都需要同时进行决策,因此SBSs之间存在着竞争关系,这实际上是一种多主体博弈。因此,借助于MARL来解决这种竞争关系。
考虑到环境的动态性和SBSs的竞争性,将问题可以很好地表述为一个分布式部分可观察马尔可夫决策过程(DEC-POMDP),并可以用MARL的方法求解。
接下来为:基于POMDP的分布式干扰协调(ICIC)问题建模;
考虑自治网络,假设SBS之间没有信息交互,并且所有SBS使用它们自己的本地信息为各个UE制定策略。将分布式ICIC决策问题制定为POMDP并以MARL角度解决它。
在模型中,SBS充当智能实体,以自主地感知周围干扰,确定为每个用户分配发射功率,而不需要基站之间的信息交互。因此,定义模型中的(虚拟)Agent j∈[1,...,M]由UEm及其服务SBS n组成。考虑网络中的多个SBS,它们在模型中的各个时隙(例如,发送时间间隔(TTI))做出ICIC决策。每个agent根据自己的策略独立地为UE分配每个RB上功率。
DEC-POMDP可以扩展为多智能体层面,可由多元组
Figure BDA0002694303810000151
表示,其中
Figure BDA0002694303810000152
表示系统状态空间;
Figure BDA0002694303810000153
rj分别Agent j的状态空间,行为空间,奖励空间;
Figure BDA0002694303810000154
和β分别代表状态转换概率和折扣因素。
连续系统状态空间
Figure BDA0002694303810000155
描述整个系统环境,因此所有agent的观测空间
Figure BDA0002694303810000156
的交集就是系统的状态空间。然而,对于Agent j,它只能得到环境的部分信息由连续观测空间
Figure BDA0002694303810000157
表示。Agent j的观测状态取决于SINR(信噪比),即:每个分配RB的干扰,因此可以表示为向量:
Figure BDA0002694303810000158
其中
Figure BDA0002694303810000159
Figure BDA00026943038100001510
分别表示SINR和Agent j在第i个RB上收到的干扰。
在技术问题中,agent应该确定每个被分配RB的下行传输功率。因此,Agent j的动作
Figure BDA00026943038100001511
在t时刻可以表示为动作向量,即
Figure BDA00026943038100001512
注意,Agent j的动作空间
Figure BDA00026943038100001513
是连续的。
Figure BDA00026943038100001514
表示奖励空间用来评价动作。在时隙t时,所有agent同时采取行动,并且获得即时奖励
Figure BDA0002694303810000161
奖励反映了优化目标,即,根据满足用户传输速率要求下将传输功率降至最低。因此,将Agent j的归一化报酬定义为
Figure BDA0002694303810000162
奖励函数这样定义的原因如下。一方面,如问题(3)所述,以最小的功耗满足单个UE的QoS要求是首要目标,这相当于最大化
Figure BDA0002694303810000163
的值。另一方面,定义了一个不满足UEs QoS要求的惩罚,促使agent将策略调整到最优方向。
为了执行一个合适动作,每个agent适应一个随机策略
Figure BDA0002694303810000164
其中
Figure BDA0002694303810000165
是在oj状态下执行aj的概率。用π来表示所有agent的联合策略π=[π1,…,πM]。
POMDP中的agent根据值函数来评估和更新策略,值函数被定义为策略在的累计折扣奖励的期望值。对于一个初始状态
Figure BDA0002694303810000166
Agent j在联合策略下的值函数表示为
Figure BDA0002694303810000167
根据贝尔曼方程,(7)可以重新写成
Figure BDA0002694303810000168
它由即时回报和后一状态的价函数组成。Agent j在联合策略下的动作值函数Q-function
Figure BDA0002694303810000169
可以定义为
Figure BDA00026943038100001610
其中,M-agent的Q-function是所有agent采取联合行动a=[a1,…,aM]。因此,值函数含有动作值函数的式子:
Figure BDA00026943038100001611
每个agent的目标在POMDP问题是找到一个的最优策略
Figure BDA00026943038100001612
最大化自己的值函数。因此,针对Agent j的POMDP问题的目标函数可以表述为
Figure BDA0002694303810000171
这实际上是为了最大化长期的累计折扣回报的期望。
Figure BDA0002694303810000172
公式(11)的POMDP问题可以在一个强化学习框架下解决,在这个框架下,agent通过与环境交互来优化策略。在MARL框架下,学习策略是非常必要的。
传统的策略更新方法主要有两种:基于值的迭代法和基于策略的方法。然而,两种传统方法的适用性受到一些因素的限制。具体来说,基于值迭代的方法不适用于连续动作空间,且难以收敛。另一方面,基于策略的方法易于收敛到局部最优,并且具有高方差估计。
Actor-Critic(AC)算法将这两种方法结合起来,如图10所示,利用它们各自的优点。AC方法可以产生连续的行为,而基于策略的方法在策略梯度上的高方差则被批评者所抵消。在AC框架中,agent由两部分组成:参与者(策略)和批评者(价值函数)。参与者负责参数化策略,根据观察到的环境执行操作,并根据批评者的反馈更新策略。评论家的角色是通过处理环境中的回报和近似价值函数来评价和批评现行策略。
因此,本发明在无模型RL框架下,提出了一种面向微小蜂窝基站的自适应功率分配算法。
在ICIC问题中,状态空间和行为空间不仅是连续的,而且是多维的。因此,采用AC算法来求解具有稳定收敛性的在线决策问题。然而,分布式ICIC问题存在一个固有的问题。具体地说,在分布式ICIC场景中,联合动作的维数随agent数量呈指数增长,而其他agent在上时刻的具体动作对agent m不可知的。此外,各智能体的动作值函数需要考虑联合动作,而采用价值函数逼近方法则会使联合动作失效。因此,在MARL框架下解决联合动作的多维灾难具有重要意义。为了解决这一问题,采用平均场理论来降低联合作用的维数,这是一种有效的方法。
为了减少行动的维度并使其更适用于问题,首先将行动价值函数分解为成对的交互。尽管它显著降低了agent之间交互的复杂性,但它仍然隐式地保留了任何一对agent之间的全局交互。
因此,仅使用成对交互的动作值函数可以表示为:
Figure BDA0002694303810000173
其中,H(j)是除Agent j以外的所有agent的集合。此外,基于agent种群内的交互作用近似于单个agent的交互作用,而单个agent的交互作用具有总体种群的平均效应。因此,成对交互动作值函数可以有效地转换为两个agent交互。具体地说,在平均场近似下,所有成对的相互作用被简化为Agent j和虚拟平均agent j′之间的相互作用,这是由所有其他agent H(j)的平均效应抽象出来的。因此,有以下定义。
定义1:pairwise Q-value
Figure BDA0002694303810000181
中的动作aj′可以表示为agent j′对Agent j形成的干扰
Figure BDA0002694303810000182
其中下标从1到Rm表示Agent j使用的RB。
定义2:平均动作
Figure BDA0002694303810000183
表示所有其它agent的动作对Agent j的平均影响,可定义为。
Figure BDA0002694303810000184
Figure BDA0002694303810000185
同时动作aj′可以写成平均动作
Figure BDA0002694303810000186
和干扰项bj,j′和。
Figure BDA0002694303810000187
定理1:动作值函数
Figure BDA0002694303810000188
可近似为平均场动作值函数
Figure BDA0002694303810000189
证明:从等式(12),有
Figure BDA00026943038100001810
如果
Figure BDA00026943038100001811
是二阶可微w.r.t.行动aj′,然后通过泰勒公式展开,Eq(12)可以写成
Figure BDA00026943038100001812
可以看到,泰勒公式的第一阶项可以消去,由于
Figure BDA00026943038100001813
泰勒公式的二阶项
Figure BDA00026943038100001814
实际上是一个随机变量,其中
Figure BDA00026943038100001815
Figure BDA00026943038100001816
并且可以证明
Figure BDA00026943038100001817
是有界的[-2M,2M]。如果
Figure BDA00026943038100001818
是M-smooth(如线性函数)。此外,假设所有agent是同构的并且是只有局部信息的,则
Figure BDA00026943038100001819
倾向于相互抵消,因此
Figure BDA00026943038100001820
作为一个小波动接近于零。
根据定理1,证明可以大大减小动作值函数的联合动作维数。因此,将式(8)重写为
Figure BDA0002694303810000191
可以看出平均场酌
Figure BDA0002694303810000192
具有明显的物理意义,(即Agent j使用的每个RB上受到干扰),并且代表的其他agentH(j)对于Agent j的总体平均效应。此外,意味着平均动作
Figure BDA0002694303810000193
可以由相应SBS感知,而不需要与每个SBSs交互。
critic部分
评论家的作用是近似状态值函数和动作值函数,并评估一项策略的好坏。对于Agent j,用bellman方程在无限状态和动作问题中无法计算状态值函数
Figure BDA0002694303810000194
和平均场作用值函数
Figure BDA0002694303810000195
因此,应采用函数逼近法,通过参数更新来估计值函数。
为了逼近状态值函数,采用线性逼近方法,与非线性逼近(如神经网络)相比,线性逼近方法具有唯一的最优值、复杂度低、收敛速度快等特点,更适合于在线决策模型。使用线性近似,近似状态值函数
Figure BDA0002694303810000196
表示为
Figure BDA0002694303810000197
其中,
Figure BDA0002694303810000198
是状态oj的特征向量。
Figure BDA0002694303810000199
是Agent j的向量参数。同样,参数化的平均场作用值函数表示为
Figure BDA00026943038100001910
其中,
Figure BDA00026943038100001911
是状态特征向量。
Figure BDA00026943038100001912
是Agent j的参数向量。在本发明中,使用多项式方法来构造特征向量。
找到一个好的策略的先决条件是评论家能够准确地评估当前的策略。这就要求评论家为当前策略找到贝尔曼方程的近似解。bellman方程(8)的右侧和左侧之间的差实际上被定义为TD-error,其表示为
Figure BDA00026943038100001913
实际上有两种方法来更新评论家:TD(0)和TD(λ)。前者使用one-step backup方法更新评论家,而不考虑过去的状态。TD(0)中重要的是当前状态。然而,将在t+1中学到的知识扩展到以前的状态是有用的。因此,后一种方法TD(λ)引入了一个资格迹的方法来考虑历史信息加速学习。在线决策模型中,引入TD(λ)方法应用于更新评论家。用
Figure BDA0002694303810000201
Figure BDA0002694303810000202
表示时间t的资格迹向量,其更新方程表示为
Figure BDA0002694303810000203
这里λz∈[0,1)是一个衰减参数称为衰减迹,它定义了每个访问状态的更新重量。采用TD(λ)方法来更新参数wj和vj,因此参数向量可以更新为
Figure BDA0002694303810000204
其中,αct>0是评论家的学习速率。通过迭代,评论家可以更准确地评估给定策略的质量。
Actor部分
演员的作用是基于其当前策略执行动作,并根据评论家的反馈更新策略。由于它是一个连续的动作空间,使用高斯概率分布来近似随机策略
Figure BDA0002694303810000205
它可以写成
Figure BDA0002694303810000206
其中,
Figure BDA0002694303810000207
是参数化的动作的平均期望。
Figure BDA0002694303810000208
和σ是策略参数和方差(用来平衡探索和利用的关系)。
在策略梯度法下,演员根据critic的状态值函数信息更新策略,以找到最优策略。由于参数化策略函数是可微的关于参数θj,目标函数的梯度可以表示为
Figure BDA0002694303810000209
由于AC算法收敛的方差可能是非常重要的,因此引入基线
Figure BDA00026943038100002010
可以改善的评论家准确性,降低方差,并且不违背近似梯度估计的无偏性。因此,可以将式(20)改写为
Figure BDA00026943038100002011
基线可以是任何函数,甚至是随机变量,只要它不随动作而变化;该方程仍然有效,因为减去的量为零:
Figure BDA00026943038100002012
一般来说,基线保持更新的期望值不变,但是它对其方差有很大的影响。在实际中,最优基线是值函数
Figure BDA0002694303810000211
它最小化了方差在策略π的梯度估计。因此,引入有事函数来估计策略
Figure BDA0002694303810000212
式(22)可进一步推导为
Figure BDA0002694303810000213
其中,有
Figure BDA0002694303810000214
利用演员的资格迹方法,则更新公式为:
Figure BDA0002694303810000215
因此,策略参数的更新公式为:
Figure BDA0002694303810000216
其中αat>0是Agent j的学习速率,用来更新策略。通过迭代,演员可以逐渐收敛到最优策略。
在基于AC的MARL框架中,利用平均场理论提出了一种解决分布式干扰协调问题的精简方案。在面向微小蜂窝基站的自适应功率分配算法中,输入包括网络拓扑结构、用户需求和观察到的干扰信息。同时,输出为每个agent的策略,即,为各时隙功率分配的决策。首先初始化这些参数,然后每个代理通过环境的交互同时执行动作并获得奖励。之后,所有的评论家都近似状态和行动值函数来评价当前策略。演员利用策略梯度法根据批评者的反馈更新自己的策略。
将上述算法进行工程化描述,如图1所示:
本算法推荐布置在基站侧,每个基站作为智能控制实体,通过收集到的信息,针对每个用户进行功率分配。由于算法的复杂度较低,因此无需额外计算资源和存储资源。鉴于本算法的输入部分,小基站需具备频谱扫描功能。另外,用户需要向基站上传CQI信息(在LTE系统中CQI的传输信道是PUSCH或PUCCH)。对于算法的输出部分,即功率的分配情况,可在基站侧进行执行。
总结如下:
基站端操作:
具备频谱扫描功能,以及接受覆盖范围内UE的信息(上报的SINR,CQI信息),经过资源调度算法,确定用户分的RB的数量。然后,进一步进行功率的资源分配,来协调小区间的干扰。优化整个系统的性能。
用户端操作:
UE进行SINR以及CQI的测量及上报,可使用LTE系统中的PUSCH或PUCCH进行上传信息。
面向微小蜂窝基站的自适应功率分配系统,在自治网络下,包括多个SBS,多个SBS在同一频谱下工作;
还包括多个用户,用户包括用户设备,每个SBS在时刻t服务下对应一组用户设备,每个SBS收集其对应的服务用户受到的干扰信息;
SBS通过频谱扫描收集信息作为系统的输入,SBS还用于接收用户上传的信息,信息包括用户设备的SINR和CQI,基站通过资源调度确定用户分到的RB的数量;
系统通过计算进一步进行功率的资源分配,来协调小区间的干扰,实现对用户设备的功率的优化分配,优化的方法为上述的面向微小蜂窝基站的自适应功率分配方法。
进一步地,考虑在超密集网络中部署多个即插即用SBS的室内场景,以便提高吞吐量并弥补MBS对室内环境的弱覆盖;系统的目标是解决宏基站对室内覆盖不足的问题,不影响宏基站功能。
在考虑的下行链路场景中,网络由一组为
Figure BDA0002694303810000221
的SBS组成,为了提高频谱效率和资源利用率,SBS在相同的频谱上工作。系统带宽B划分为R个资源块(RB),其中每个SBS拥有相同数量的RB。并且RB的带宽由BRB表示,其中BRB=B/R。每个SBS具有其最大发射功率
Figure BDA0002694303810000222
功率将分配给RB。系统采用分时隙的决策过程架构,其中每个时隙都t有相同的时间间隔TS
自治网络中的用户用
Figure BDA0002694303810000223
表示。每个SBS在时刻t服务由
Figure BDA0002694303810000224
Figure BDA0002694303810000225
表示的一组用户设备(UEs),其中
Figure BDA0002694303810000226
假设UE均匀分布在SBS区域内,到达遵循具有参数λ的泊松分布。SBS和UE之间的接入方法是封闭式的。假设所有基站和用户(一旦接入)在仿真期间处于活跃状态。为了保证QoS,根据UE m的服务类型,其吞吐量需求表示为Cm。带宽分配是一个复杂的映射问题,涉及调制编码方案、信道质量、用户类别等多方面的因素。在不失一般性的前提下,根据UE m服务类型,以及当前RB的SINR分配给它一定数量的RBs,表示为Rm。当相同的RBs分配给周围SBSs的其他UE时,UE会受到ICI。下面给出了UE m时刻t时在RB r上的信噪比(SINR):
Figure BDA0002694303810000231
式中,
Figure BDA0002694303810000232
表示SBS n在分配给用户m的RB r上的下行传输功率,
Figure BDA0002694303810000233
表示UE m与SBS n在t时刻的信道增益;
Figure BDA0002694303810000234
是用户m在t时刻遭受的ICI;σ2(t)表示t时刻的噪声功率,在这里叠加考虑了异频的干扰,包括频谱泄露等均可以考虑在环境在噪声中。
考虑分布式下行链路场景,其中SBSs之间没有信息交互。假设SBS可以通过频谱传感技术(如能量检测)感知频谱的占用情况。此外,SBS n通过用户反馈的的信道质量指示(CQI),可以推断出每个UE的所有RBs上的干扰和信道质量。具体地说,SBS n可以得到干扰信息矩阵和SINR矩阵
Figure BDA0002694303810000235
利用探测到的干扰信息,SBS可以将干扰最小的空闲RBs分配给到达的用户,并对相应的RBs进行功率分配。
分配给用户m的功率用
Figure BDA0002694303810000236
表示,其中
Figure BDA0002694303810000237
表示分配给用户m的第i个RB上的功率。因此,用户m在时刻t获得的下行传输速率Vm(t)等于
Figure BDA0002694303810000238
进一步的,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本方法中的步骤。本方法的具体使用依赖大量计算,因此优选的通过计算机程序来实现上述计算过程,所以任何包含本方法中所保护的步骤的计算机程序及其存储介质也属于本申请的保护范围内。
实施例:
考虑了一个典型的双线城市模型,它被3GPP认证,并被广泛应用,具体而言,模拟场景为一栋两层建筑,每层2×5套公寓,每个公寓的尺寸为10m*10m*3m,如图2(a)所示。为了更加真实,在典型的双线城市模型的基础上,进一步考虑如图2(b)所示的每个公寓的内部结构。
注意,由于距离越大,路损越大,形成的干扰越小。根据Keenan-Motley多壁模型粗略计算,相隔两层楼的基站和用户之间的路损最小约-79dB,产生的影响可忽略不计因此无需考虑更远的基站,20个基站能够充分验证算法的有效性。
每个公寓都有一个SBS。UEs均匀分布在SBSs覆盖范围内。此外,为UE定义了三种服务类型,其中一种服务类型对应一定数量的所需RBs。UE的服务类型服从均匀分布。所有SBSs和UEs(一旦访问)在仿真期间都假定为活跃的。用户的遵循平均到达率为λ的泊松分布。因此,UE的数量才会随着时间的推移而增加,直到每个SBS可以容纳4个UEs,。
将室内传播和渗透损失模型化为多壁模型。因此,在室内场景中SBS和UE之间的路径损耗模型为:
Figure BDA0002694303810000241
几种材料的墙壁的Lw参数取值如图9所示;
表一.仿真参数
参数
系统带宽 20MHz
基站数量 20
资源块带宽 180KHz
基站最大传输功率 20dBm
RB数量 100
每个基站用户数量 4
平均到达率λ 1
资源分配间隔 1TTI(1ms)
热噪声密度 -174dBm/Hz
步长α<sub>ct</sub>,α<sub>ats</sub>,α<sub>atl</sub> 0.1,0.01,0.001
折扣因子γ 0.9
衰减率λ<sub>z</sub> 0.5
在上一实施例的基础上,为了评估微小蜂窝基站的自适应功率分配算法(以下简称:SLIM)的有效性,将SLIM与其他三种参考算法进行了比较。
1)随机功率控制(RPC):每个SBS在不考虑任何类型的信息的情况下,为每一个UE随机分配一个固定的功率给相应的RBs。因此,不存在小区间干扰协调,可以直观地看到UE用受到的干扰随着UE数量的增加而变化。
2)基于梯度的分布式功率控制(GDPC):SBS在半自治模式下运行,通过在相邻的基站之间定期交换偏导数和系统功率信息从而使能源效率最大化。
3)软频率复用(SFR):软频率复用是一种经典的干扰协调方案,如图3所示,其中所有的SBSs都可以使用整个频谱,而中心频率和边缘频率使用的功率不同。为了便于比较,将提出的SFR机制结合到3GPP的双线城市模型中,进行对比。
图4给出了仿真实验结束时每RB上发射功率的累积分布函数CDF。在使用SLIM方案时,每个代理的目标是在保证UEs的QoS的同时最小化传输功率根据其他agent的行为和信道条件动态调整应用在每个RB传输功率。可以观察到SLIM相比SFR、RPC和GDPC的功耗最低。特别的,能源效率最大化而不是以传输功率最小化为目标的GDPC算法比提出的SLIM方案消耗更多的传输功率。
由于采用了较低的发射功率,所提出的SLIM方案明显地降低了小区间的干扰。这在图4中得到证实,图5示出了仿真结束时每个RB所遭受干扰的CDF。如图5所示,所提出的SLIM方案的CDF曲线在其他三种方案的左侧,这表明以最小化长期发射功率为目标的SLIM方案有效地降低了小区间干扰。
然后,比较服务类型I的UE在四种算法下,随时间的传输速率和分配功率的趋势,如图8所示。正如所料,提出的SLIM方案在经过一段时间的探索后达到了UE要求的传输速率,并收敛到最优值,即UE的需求,如图6所示。相比之下,RPC随机分配一个固定的功率给UE,导致UE的传输速率随时间下降。相比之下,GDPC明显超过了所需的传输速率,导致传输功率的浪费。RPC随机分配一个固定的功率给UE,这导致UE的传输速率随时间下降。此外,SFR快速达到了所需的传输速率,但在使用了最大传输功率约100ms后仍不能满足速率要求。原因如下:随着时间的推移,承认问题的数量增加,ICI变得更加严重。因此,不进行学习的SFR、GDPC和RPC算法无法在复杂动态竞争环境中自适应地分配传输功率。从图7可以看出,随着时间的推移,SFR中分配的功率会增加到最大的传输功率,从而保证了UE的QoS。但可以清楚地看到SLIM中分配的功率明显低于GDPC。这是因为SLIM scheme通过学习获得了最优策略,形成了双赢的局面。
最后,比较了四种方案的系统掉话率。如图8所示,如果用户在一段时间toutage=1s内不能满足它的QoS需求,则判定该用户掉话。SLIM、SFR、GDPC和RPC的掉话率随着时间(用户数)的增加而增加。这是因为随着用户数量的增加,ICI变得越来越严重,系统变得超负荷。特别是在系统负载较轻的情况下,由于GDPC的传输功率较高,其掉话率低于其他三种方案。然而,当系统负载严重时,所提出的SLIM方案的掉话率明显低于其他参考方案。实验结果表明,该方案在满足传输速率要求的前提下,能够有效地减少网络中ICI的影响,同时满足更多的问题。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.面向微小蜂窝基站的自适应功率分配方法,其特征在于,包括如下步骤:
每个小基站收集其对应的服务用户受到的干扰信息,小基站检测到的干扰信息随着无线信道和环境变化,对变化,所有小基站在每个时隙同时进行协调决策;
S1、搭建决策模型,在模型中,小基站作为实体自主地感知周围干扰,并为其服务用户分配发射功率,模型中包括虚拟agent,agent包括小基站和对应的用户设备;
S2、小基站的协调决策对应agent的动作,连续动作向量构成动作空间,采用奖励来评价动作,所有agent同时采取行动,获得的所有即时奖励构成奖励空间;奖励反馈用于优化小基站的协调决策,同时奖励反馈用于优化agent的动作:
S3、在模型中搭建MARL框架来优化策略,策略为奖励对动作、协调决策的反馈过程;
自治网路包括一组为
Figure FDA0003685398640000011
的SBS,SBS在相同的频谱上工作,将系统带宽B划分为R个资源块(RB),其中每个SBS拥有相同数量的RB,并且RB的带宽由BRB表示,其中
Figure FDA0003685398640000012
SBS具有最大发射功率
Figure FDA0003685398640000013
并功率将分配给RB;
agent包括Agent j,Agent j∈[1,...,M],Agent j包括UE m和SBSn;
多个SBS在模型中的各个时隙做出ICIC决策,ICIC决策为基于POMDP的分布式干扰协调决策,并且每个agent根据自己的策略独立地为UE分配每个RB上功率;
模型中将自治网络中的干扰缓解问题表示为分布式部分观测马尔可夫决策过程DEC-POMDP,将DEC-POMDP扩展为多智能体层面,采用六元组
Figure FDA0003685398640000014
表示,其中
Figure FDA0003685398640000015
表示系统状态空间;
Figure FDA0003685398640000016
rj分别Agent j的状态空间,行为空间,奖励空间;
Figure FDA0003685398640000017
和β分别代表状态转换概率和折扣因素;
连续系统状态空间
Figure FDA0003685398640000018
描述整个系统环境,所有agent的观测空间
Figure FDA0003685398640000019
的交集就是系统的状态空间,其中,Agent j的观测状态取决于SINR,每个分配RB的干扰表示为向量:
Figure FDA00036853986400000110
其中
Figure FDA00036853986400000111
Figure FDA00036853986400000112
分别表示SINR和Agent j在第i个RB上收到的干扰;
Agent j的动作
Figure FDA00036853986400000113
在t时刻表示为动作向量:
Figure FDA00036853986400000114
Agent j的动作空间
Figure FDA00036853986400000115
为是连续的动作空间,
Figure FDA00036853986400000116
表示奖励空间用来评价动作,在时隙t时,所有agent同时采取行动,并且获得即时奖励
Figure FDA00036853986400000117
进行归一化处理Agent j的奖励函数:
Figure FDA0003685398640000021
每个agent适应一个随机策略
Figure FDA0003685398640000022
其中
Figure FDA0003685398640000023
是在oj状态下执行aj的概率,并用π来表示所有agent的联合策略π=[π1,…,πM];
POMDP中的agent根据值函数来评估和更新策略,值函数为策略在的累计折扣奖励的期望值,对于一个初始状态
Figure FDA0003685398640000024
Agent j在联合策略下的值函数表示为
Figure FDA0003685398640000025
最后,计算Agent j在联合策略下的值函数;
所述计算Agent j在联合策略下的值函数的过程为:
依据根据贝尔曼方程,改写(7)为
Figure FDA0003685398640000026
式子(8)包括即时回报和后一状态的价函数,Agent j在联合策略下的动作值函数
Figure FDA0003685398640000027
为:
Figure FDA0003685398640000028
其中,M-agent的Q-function是所有agent采取联合行动a=[a1,…,aM],值函数含有动作值函数的式子:
Figure FDA0003685398640000029
每个agent的目标在POMDP问题是找到一个的最优策略
Figure FDA00036853986400000210
最大化自己的值函数,针对Agent j的POMDP问题的目标函数为:
Figure FDA00036853986400000211
目标函数用于最大化长期的累计折扣回报的期望;
搭建强化学习框架,在所述框架下,agent通过与环境交互来优化策略,所述框架为AC框架,AC框架为基于演员-评论家(actor-critic,AC)的MARL框架;
在AC框架中,agent包括:参与者和批评者;
参与者负责参数化策略,根据观察到的环境执行操作,并根据批评者的反馈更新策略,评论家的角色是通过处理环境中的回报和近似价值函数来评价和批评现行策略;
所述评论家用于近似状态值函数和动作值函数,并评估一项策略的好坏,对于Agentj,采用函数逼近法,通过参数更新来估计值函数,所述评论家还用于评估当前策略的质量;
所述演员是基于其当前策略执行动作,并根据评论家的反馈更新策略,应用策略梯度法,演员根据critic的状态值函数信息更新策略并计算学习速率,并收敛至最优策略。
2.面向微小蜂窝基站的自适应功率分配系统,其特征在于,在自治网络下,包括多个SBS,多个SBS在同一频谱下工作;
还包括多个用户,用户包括用户设备,每个SBS在时刻t服务下对应一组用户设备,每个SBS收集其对应的服务用户受到的干扰信息;
SBS通过频谱扫描收集信息作为系统的输入,SBS还用于接收用户上传的信息,信息包括用户设备的SINR和CQI,基站通过资源调度确定用户分到的RB的数量;
系统通过计算进一步进行功率的资源分配,来协调小区间的干扰,实现对用户设备的功率的优化分配,优化的方法为权利要求1所述的面向微小蜂窝基站的自适应功率分配方法。
3.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。
CN202011000978.XA 2020-09-22 2020-09-22 面向微小蜂窝基站的自适应功率分配系统、方法和介质 Active CN112118632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011000978.XA CN112118632B (zh) 2020-09-22 2020-09-22 面向微小蜂窝基站的自适应功率分配系统、方法和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011000978.XA CN112118632B (zh) 2020-09-22 2020-09-22 面向微小蜂窝基站的自适应功率分配系统、方法和介质

Publications (2)

Publication Number Publication Date
CN112118632A CN112118632A (zh) 2020-12-22
CN112118632B true CN112118632B (zh) 2022-07-29

Family

ID=73801454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011000978.XA Active CN112118632B (zh) 2020-09-22 2020-09-22 面向微小蜂窝基站的自适应功率分配系统、方法和介质

Country Status (1)

Country Link
CN (1) CN112118632B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109600828A (zh) * 2018-11-19 2019-04-09 赣南师范大学 无人机基站下行链路的自适应传输功率分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1333615C (zh) * 2004-07-23 2007-08-22 北京邮电大学 一种用于两跳蜂窝系统的中继选择和功率分配方法
CN103078714B (zh) * 2013-01-28 2016-03-30 复旦大学 一种基于协作决策和自适应功率分配的下行协作多点传输方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109600828A (zh) * 2018-11-19 2019-04-09 赣南师范大学 无人机基站下行链路的自适应传输功率分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
POMDP-based cross-layer power adaptation techniques in cognitive radio networks;Ashok K. Karmokar;《2012 IEEE Global Communications Conference (GLOBECOM)》;20130423;全文 *
谢奕钊 ; 易爱.多信道无线通信功率分配最优化决策分析.《电子测试》.2019, *

Also Published As

Publication number Publication date
CN112118632A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Mei et al. Intelligent radio access network slicing for service provisioning in 6G: A hierarchical deep reinforcement learning approach
Ghadimi et al. A reinforcement learning approach to power control and rate adaptation in cellular networks
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Wang et al. Decentralized learning based indoor interference mitigation for 5G-and-beyond systems
Yan et al. Federated cooperation and augmentation for power allocation in decentralized wireless networks
Alwarafy et al. Deep reinforcement learning for radio resource allocation and management in next generation heterogeneous wireless networks: A survey
CN107094060A (zh) 基于非合作博弈的分布式超密集异构网络干扰协调方法
Holliday et al. Distributed power control for time varying wireless networks: Optimality and convergence
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
Akter et al. Distributed approach for power and rate allocation to secondary users in cognitive radio networks
Marbukh Towards fog network utility maximization (FoNUM) for managing fog computing resources
De Domenico et al. Reinforcement learning for interference-aware cell DTX in heterogeneous networks
Yan et al. Self-imitation learning-based inter-cell interference coordination in autonomous HetNets
Khan et al. Artificial neural network-based joint mobile relay selection and resource allocation for cooperative communication in heterogeneous network
CN112118632B (zh) 面向微小蜂窝基站的自适应功率分配系统、方法和介质
Du et al. Interference-aware spectrum resource management in dynamic environment: strategic learning with higher-order statistic optimization
Wang et al. Interference coordination for autonomous small cell networks based on distributed learning
Moysen et al. Self coordination among SON functions in LTE heterogeneous networks
Zappone et al. Complexity-aware ANN-based energy efficiency maximization
Kim Femtocell network power control scheme based on the weighted voting game
Eskandari et al. Smart interference management xApp using deep reinforcement learning
Galindo-Serrano et al. On implementation requirements and performances of Q-learning for self-organized femtocells
Moneesh et al. Cooperative Spectrum Sensing using DQN in CRN
Anzaldo et al. Training Effect on AI-based Resource Allocation in small-cell networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant