CN111726845B - 多用户异构网络系统中的基站切换选择和功率分配方法 - Google Patents

多用户异构网络系统中的基站切换选择和功率分配方法 Download PDF

Info

Publication number
CN111726845B
CN111726845B CN202010625770.0A CN202010625770A CN111726845B CN 111726845 B CN111726845 B CN 111726845B CN 202010625770 A CN202010625770 A CN 202010625770A CN 111726845 B CN111726845 B CN 111726845B
Authority
CN
China
Prior art keywords
user
base station
users
parameter
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010625770.0A
Other languages
English (en)
Other versions
CN111726845A (zh
Inventor
唐岚
郭德邻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010625770.0A priority Critical patent/CN111726845B/zh
Publication of CN111726845A publication Critical patent/CN111726845A/zh
Application granted granted Critical
Publication of CN111726845B publication Critical patent/CN111726845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/08Reselecting an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power

Abstract

本发明公开了一种多用户异构网络系统中的基站切换选择和功率分配方法,包括1个宏基站和M个毫米波小基站,以及N个移动的用户终端,用户只能根据局部观测信息做出决策,包括如下步骤:每个用户同步地选择连接至某一宏基站或小基站,并且同时发射一个功率分配请求因子给所连接的基站,基站根据所服务需求因子的比例来分配信号发射的能量。本发明使系统对用户的切换选择和能量分配策略进行优化,使得系统同时兼顾吞吐量和切换频率,在最大化吞吐量的同时降低用户切换频率。

Description

多用户异构网络系统中的基站切换选择和功率分配方法
技术领域
本发明属于无线通信领域,具体涉及一种多用户异构网络系统(简称“系统”)中最优化基站切换和能量分配方法,更具体涉及一种基于多智能体强化学习算法MAPPO(multi-agent proximal policy optimization,多智能体近端策略优化)的基站切换和能量分配策略的优化方法。
背景技术
第五代(5G)网络预计将满足日益增长的无线通信需求。由于可用的宽频谱和预期的高数据速率,30-300GHz范围内的毫米波将在5G中发挥关键作用。另一方面,由于受到发射功率、高温噪声和高吸氧量的限制,毫米波信号的传输距离较短。在交通热点地区密集部署小型基站被认为是克服毫米波缺点的潜在解决方案之一。
在无线网络中,用户需要在移动过程中切换服务基站以保持通信质量。传统上,切换过程是由第三代合作伙伴计划(3GPP)协议中定义的HO事件决定的。3GPP中的切换机制是为了传统宏基站而设计,在密集网络中,3GPP中传统的切换策略可能会导致频繁切换的问题,且会增加切换带来额外的开销。因此,建立适合毫米波系统的切换机制至关重要。此外,能量分配是无线通信中的一个传统问题,其会对系统的信息吞吐量造成至关重要的影响。如何分配这些能量,发送多少或者发送给谁,都需要研究。
目前通常的切换控制优化方法是去通过与几个特定的指标进行阈值比较来自适应地调整3GPP中定义切换参数,这类方法通常不具有很好的理论保证。另一种是将问题构建成一个多臂赌博机模型,来优化当前的最优解,但是这种方法没有考虑最大化长期吞吐量,并且这些方法通常没有考虑多用户之间的影响和合作。此外,随着隐私意识的提升,用户设备更倾向于分布式的作出决策。因此,构建一种合适的算法,使得分布式系统中的多个互相影响的用户在最大化系统总吞吐量的同时降低用户切换频率具有重要意义。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种多用户异构网络系统中的基站切换选择和功率分配方法,使得系统通过优化用户端的切换控制和功率分配请求策略,获得最大系统吞吐量的同时,降低用户平均切换频率。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种多用户异构网络系统中的基站切换选择和功率分配方法,包括1个宏基站和M个毫米波小基站(简称小基站),以及N个移动的用户终端,每个用户只知道各自局部观测信息,包括如下步骤:
(1)设用户的集合为
Figure BDA0002564659970000021
基站的集合为
Figure BDA0002564659970000022
其中0是宏基站的编号,其余编号为小基站的编号,宏基站的总功率为PM,小基站总功率为PS,为保证基本需求,PS被分为
Figure BDA0002564659970000023
Figure BDA0002564659970000024
其中
Figure BDA0002564659970000025
可自由分配给用户,而
Figure BDA0002564659970000026
由基站平均分配给用户,类似地,PM被分为用于可自由分配给用户的部分
Figure BDA0002564659970000027
和平均分配给用户的部分
Figure BDA0002564659970000028
通信系统在无穷个时隙中进行,在第t个时隙,每个用户
Figure BDA0002564659970000029
同时地选择连接到第
Figure BDA00025646599700000210
个基站,并且发送一个功率分配请求因子
Figure BDA00025646599700000211
给基站
Figure BDA00025646599700000212
其中qmax为最大功率分配请求因子,所述基站
Figure BDA00025646599700000213
根据所述功率分配请求因子来分配信号功率;
(2)每个用户使用自身策略并基于自己的局部观测信息来进行基站切换选择和发送功率分配请求因子,所述局部观测信息包括用户的信号测量信息,当前连接的基站编号,以及每个基站当前所服务的用户数量,然后优化用户的个人策略使得用户能独立做出全局最佳的决策,从而最大化系统总的吞吐量,并且在目标函数中引入了切换惩罚,通过增加切换惩罚的权重来降低切换频率。
进一步的,所述步骤(1)中,在时隙t≥0时,用户u的动作
Figure BDA00025646599700000214
表示为
Figure BDA00025646599700000215
Figure BDA00025646599700000216
其中
Figure BDA00025646599700000217
为任意用户的动作空间的集合,所有用户的联合动作
Figure BDA00025646599700000218
Figure BDA0002564659970000031
其中联合动作空间
Figure BDA0002564659970000032
Figure BDA0002564659970000033
的笛卡尔N次积
Figure BDA0002564659970000034
给定
Figure BDA0002564659970000035
Figure BDA0002564659970000036
当m=0时,宏基站根据如下标准分配功率
Figure BDA0002564659970000037
给用户u:
Figure BDA0002564659970000038
其中II{·}是布尔指示函数,输入的值为真时则该函数值为1,其中
Figure BDA0002564659970000039
表示第i个用户在时隙t时选择连接的基站,
Figure BDA00025646599700000310
表示连接到宏基站上的用户数,当m≠0时,由小基站m分配给用户u的功率
Figure BDA00025646599700000311
为:
Figure BDA00025646599700000312
其中
Figure BDA00025646599700000313
表示连接到小基站m上的用户数。
更进一步的,所述步骤(2)中,还包含以下步骤
1)对于所有时隙t≥0时,定义每个用户u的局部观测信息为
Figure BDA00025646599700000314
定义全局状态为每个用户局部观测信息的集合
Figure BDA00025646599700000315
其中
Figure BDA00025646599700000316
为状态空间,用户
Figure BDA00025646599700000317
的策略表示为πu
Figure BDA00025646599700000318
是一个基于
Figure BDA00025646599700000319
的条件概率分布,定义x~p(x)表示变量x服从概率分布p(x),用户基于所述条件概率分布选取动作
Figure BDA00025646599700000320
Figure BDA00025646599700000321
策略集合为∏={π1,…,πN},由于每个用户独立的选择动作,所以定义联合策略π为
Figure BDA00025646599700000322
从而联合动作at~π(at|st);
2)在时隙t≥0时,所有用户u在执行完动作
Figure BDA00025646599700000323
后,系统得到共同奖赏为r(st,at),简写为rt,定义期望折扣平均奖赏
Figure BDA00025646599700000324
Figure BDA00025646599700000325
其中0≤γ<1为折扣因子,ρ0(s0)为初始状态s0的概率分布,
Figure BDA00025646599700000326
表示对轨迹a0,s1,a1,…取均值;
3)利用多智能体强化学习算法来优化∏={π1,…,πN}使得η(π)达到最大。
更进一步的,所述步骤3)中,还包含以下步骤:
31)对于多智能体强化学习算法,为每个用户u初始化一个参数为θu的参数化策略πu,和一个参数为ωu的参数值函数
Figure BDA00025646599700000327
然后将θu赋值给一个当前策略
Figure BDA00025646599700000328
的参数
Figure BDA00025646599700000329
将ωu赋值给
Figure BDA00025646599700000330
的参数
Figure BDA00025646599700000331
32)然后收集数据,用户与环境交互,获得长度为T轨迹为
Figure BDA00025646599700000332
对于所有u,根据下式计算
Figure BDA0002564659970000041
Figure BDA0002564659970000042
其中
Figure BDA0002564659970000043
λ为一个0到1之间的参数,一般由人为根据经验给定,再根据下式计算
Figure BDA0002564659970000044
Figure BDA0002564659970000045
其中
Figure BDA0002564659970000046
Figure BDA0002564659970000047
表示除用户u以外的联合动作,即
Figure BDA0002564659970000048
从而得到一组数据
Figure BDA0002564659970000049
Figure BDA00025646599700000410
33)最后选取数据计算策略梯度
Figure BDA00025646599700000411
其中
Figure BDA00025646599700000412
表示对变量x求梯度,
Figure BDA00025646599700000413
Figure BDA00025646599700000414
Figure BDA00025646599700000415
表示采样平均,cε(x)是一个将x限制在区间[1-ε,1+ε]之间的函数,
Figure BDA00025646599700000416
是时隙t时的策略的概率比,然后计算值函数梯度
Figure BDA00025646599700000417
最后更新参数θu←θu+αΔθu,ωu←ωu+αΔωu,其中←表示箭头右边的数值赋值给左边,α为更新步长,然后返回步骤32),直至策略的参数θu不再改变。
有益效果:本发明通过使用多智能体深度强化学习算法MAPPO来优化用户的基站切换选择和功率分配请求因子的方法,并且考虑切换带来的损失,从而使得系统在最大的吞吐量的同时,避免频繁切换问题。
附图说明
图1是本发明的系统模型图;
图2是本发明的策略迭代算法程序流程图;
图3是本发明所使用的方法和其他方法的性能比较图;
图4是改变β对信息吞吐量和切换频率的影响示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,我们考虑的通信系统由1个宏基站,M个毫米波小基站,和N个移动的用户组成。设
Figure BDA0002564659970000051
是基站的集合,其中0是宏基站的编号,其余编号为小基站的编号,
Figure BDA0002564659970000052
为用户的集合。宏基站的总功率为PM,小基站总功率为PS,为保证基本需求,PS被分为
Figure BDA0002564659970000053
Figure BDA0002564659970000054
其中
Figure BDA0002564659970000055
可自由分配给用户,而
Figure BDA0002564659970000056
由基站平均分配给用户,类似地,PM被分为用于可自由分配给用户的部分
Figure BDA0002564659970000057
和平均分配给用户的部分
Figure BDA0002564659970000058
在每个时隙,用户可以选择连接至区域内任意一个的基站,并且对其发射一个功率分配请求因子,其所连接的基站根据所收到的所有用户发来的功率分配请求因子成比例的分配信息传输功率。
(1)我们认为通信系统在无限个等间隔时隙中进行,每个时隙的长度为ΔT。在第t个时隙,用户
Figure BDA0002564659970000059
选择连接至基站
Figure BDA00025646599700000510
并且对其发送了一个功率分配请求因子
Figure BDA00025646599700000528
其中qmax为最大功率分配请求因子。基站
Figure BDA00025646599700000511
根据所收到的所有用户发来的功率请求因子成比例的分配信息传输功率:假设
Figure BDA00025646599700000512
当m=0时,宏基站根据如下标准分配功率
Figure BDA00025646599700000513
给用户u:
Figure BDA00025646599700000514
其中II{·}是布尔指示函数,输入的值为真时则该函数值为1,其中
Figure BDA00025646599700000515
表示第i个用户在时隙t时选择连接的基站,
Figure BDA00025646599700000516
表示连接到宏基站上的用户数,当m≠0时,由小基站m分配给用户u的功率为:
Figure BDA00025646599700000517
其中
Figure BDA00025646599700000518
表示连接到小基站m上的用户数。定义用户u在时隙t的动作为
Figure BDA00025646599700000519
其中
Figure BDA00025646599700000520
为任意用户的动作空间的集合,所有用户的联合动作
Figure BDA00025646599700000521
其中联合动作空间
Figure BDA00025646599700000522
Figure BDA00025646599700000523
的笛卡尔N次积,即为
Figure BDA00025646599700000524
(2)定义每个用户u的局部观测信息由其当前连接的基站,信号测量信息,和每个基站当前所服务的用户数所构成。在第t个时隙,用户u当前所连接的基站为
Figure BDA00025646599700000525
基站当前所服务的用户数量信息为
Figure BDA00025646599700000526
其中
Figure BDA00025646599700000527
Figure BDA0002564659970000061
是基站
Figure BDA0002564659970000062
所服务的用户数量。定义信号测量信息为基站广播的参考信号在用户端的信噪比,令
Figure BDA0002564659970000063
表示时隙t时基站m发射的参考信号在用户u端所测量的信噪比,从而用户u的信号测量值为
Figure BDA0002564659970000064
Figure BDA0002564659970000065
并假设信道状态在一个时隙内是不变的。在时隙t,用户u的局部观测信息为
Figure BDA0002564659970000066
并且定义全局状态为每个用户局部观测的集合
Figure BDA0002564659970000067
其中
Figure BDA0002564659970000068
为状态空间。
(3)假设小基站的总带宽为WS,宏基站的总带宽为WM。毫米波的小区内干扰可以通过空间预编码消除,所以当用户连接至小基站时,可以利用全部WS的带宽,而宏基站需要通过分配不重叠的子频带来消除小区内干扰,所以宏基站将带宽平均分配给所有连接到其上的用户。可以得知功率和带宽分配是受到其他用户动作的影响,所以,设
Figure BDA0002564659970000069
那么用户u的在时隙t信息吞吐量为
Figure BDA00025646599700000610
其中
Figure BDA00025646599700000611
用户u为连接至宏基站时所分配的带宽。为了减少切换频率,我们引入一个切换惩罚,也就是当切换选择和当前所连接的基站不一致时的惩罚,其被定义为
Figure BDA00025646599700000612
此外,由于切换会带来连接中断,我们定义Tq≤ΔT为中断时长,在中断的时间内没有信息传输。所以用户u在时隙t的个人奖赏为
Figure BDA00025646599700000613
其中β≥0是调节切换损失的权重因子。
为了最大化系统长期吞吐量并且降低切换频率,我们将这个问题建模成合作多智能体任务,其中用户们具有一个共同奖赏:
Figure BDA00025646599700000614
我们将r(st,at)简写为rt。在我们随后介绍的多智能体强化学习算法中,可以通过调节β来改变策略关于增大吞吐量和降低切换频率之间的权重。
(4)定义折扣奖赏为
Figure BDA00025646599700000615
其中0<γ<1为折扣因子。定义用户
Figure BDA0002564659970000071
的策略为
Figure BDA0002564659970000072
是一个基于
Figure BDA0002564659970000073
的条件概率分布,用户基于该概率分布选取动作:
Figure BDA0002564659970000074
策略集合为∏={π1,…,πN};由于每个用户独立的选择动作,所以联合策略为π是个体策略的连乘:
Figure BDA0002564659970000075
分别定义标准的联合状态-动作值函数Qπ,联合状态值函数Vπ,和联合优势函数Aπ如下:
Figure BDA0002564659970000076
Figure BDA0002564659970000077
Aπ(st,at)=Qπ(st,at)-Vπ(st),
Figure BDA0002564659970000078
其中P(·|·)为条件概率。
定义期望折扣平均奖赏为
Figure BDA0002564659970000079
其中ρ0(s0)是初始状态s0的概率分布。我们问题的优化目标为:
Figure BDA00025646599700000710
为解决问题(9),我们采用一种多智能体强化学习算法——MAPPO(multi-agentproximal policy optimization,多智能体近端策略优化)来为每个用户学得各自最优的分布式的策略πu
首先我们将策略参数化为可微函数,对于策略πu,其参数为θu,参数的集合为θ={θ1,…,θN}。对于用户u,给定其一个当前用于和系统交互的策略为
Figure BDA00025646599700000711
其参数为
Figure BDA00025646599700000712
定义
Figure BDA00025646599700000713
对任意联合策略π,定义
Figure BDA00025646599700000714
在MAPPO中,问题(9)可以通过迭代地优化如下的目标函数来更新策略:
Figure BDA00025646599700000715
其中
Figure BDA00025646599700000716
上述(11)式中的cε(x)是一个将x限制在区间[1-ε,1+ε]之间的函数,
Figure BDA0002564659970000081
是策略的概率比。
我们采用梯度上升的方法求解问题(10),目标函数的梯度为
Figure BDA0002564659970000082
对于每个用户u,用于更新其策略的梯度为
Figure BDA0002564659970000083
在强化学习中,期望
Figure BDA0002564659970000084
被样本平均所替代,因此,我们在实际算法中用于更新策略的梯度为
Figure BDA0002564659970000085
其中
Figure BDA0002564659970000086
表示样本平均,
Figure BDA0002564659970000087
是时隙t的概率比。
注意到(14)式中的梯度计算与联合优势函数
Figure BDA0002564659970000088
有关。但事先我们不知道它的具体值,所以需要估计。对于用户u,我们首先构建一个参数为ωu的参数化函数
Figure BDA0002564659970000089
来作为Qπ(st,at)的估计。
Figure BDA00025646599700000810
表示除了用户u的动作以外的联合动作。对于用户u,联合优势函数
Figure BDA00025646599700000811
的估计值为:
Figure BDA00025646599700000812
其中
Figure BDA00025646599700000813
被称作反事实基线,用于为每个用户提供不同的优势函数估计,以改善共同优势函数导致不知道哪一个用户的动作具体带来多少性能改善的问题,然后
Figure BDA00025646599700000814
由截断TD(λ)方法计算,如下:
Figure BDA00025646599700000815
其中TD(Temporal-difference,时序差分)误差
Figure BDA00025646599700000816
Figure BDA00025646599700000817
Figure BDA00025646599700000818
被称为指标(target)动作值函数,其参数
Figure BDA00025646599700000819
定期的从ωu更新而来,可以被认为是较早之前的
Figure BDA00025646599700000820
目的是为了稳定学习过程。
将(14)式中的
Figure BDA00025646599700000821
替换为估计值
Figure BDA00025646599700000822
从而(14)式可以改写为
Figure BDA00025646599700000823
从而就可以对策略进行更新。需要注意的是,
Figure BDA00025646599700000824
的初始值为随机值,对Qπ(st,at)的估计并不准确,因此也需要更新以逼近准确值,更新ωu的方式为最小化如下的损失函数:
Figure BDA0002564659970000091
由于最小化相当于最大化负的目标函数,所以用于更新ωu的梯度为:
Figure BDA0002564659970000092
我们给出利用MAPPO求解原始问题(9)的详细流程,如下:
1)对每个用户u,为其初始化一个参数为θu的策略πu,和一个参数为ωu值函数
Figure BDA0002564659970000093
然后将θu赋值给当前的策略
Figure BDA0002564659970000094
的参数
Figure BDA0002564659970000095
将ωu赋值给
Figure BDA0002564659970000096
的参数
Figure BDA0002564659970000097
我们设一共有L轮迭代,L是一个充分大的数字,一般依照经验设定。
2)在数据收集阶段,第t步时,系统状态为
Figure BDA0002564659970000098
用户
Figure BDA0002564659970000099
根据当前观测值选取动作:
Figure BDA00025646599700000910
所有用户的动作为联合动作
Figure BDA00025646599700000911
Figure BDA00025646599700000912
然后系统转移至下一个状态st+1~P(st+1|st,at),并且得到奖赏rt。假设一轮迭代一共有T步,那么获得的轨迹为
Figure BDA00025646599700000913
然后根据上述(14)式计算
Figure BDA00025646599700000914
再根据(13)式计算{Au(st,at),从而得到一组数据
Figure BDA00025646599700000915
3)利用收集到的数据组更新参数θu和ωu
Figure BDA00025646599700000916
为了提高数据利用率,我们反复使用D更新K轮参数。在第k∈{1,2,…,K}轮中,首先打乱数据组D中关于时间维度上的排列,然后对其重新编号,以打破相邻数据之间的相关性从而稳定学习过程。我们采取批更新的方式,也就是每次选取D中的一批数据用于更新,假设每次选取B组数据,其中B为可以被T整除的数,那么一共确
Figure BDA00025646599700000917
批数据。第
Figure BDA00025646599700000918
Figure BDA00025646599700000919
批中,数据为
Figure BDA00025646599700000920
然后对于每个用户u,计算策Δθu和Δωu
Figure BDA00025646599700000921
Figure BDA00025646599700000922
然后使用梯度上升来更新参数:
θu←θu+αΔθu
ωu←ωu+αΔωu, (22)
其中α为梯度更新步长。在K轮更新完毕后,我们将θu赋值给当前策略的参数
Figure BDA0002564659970000101
将ωu赋值给
Figure BDA0002564659970000102
然后开始下一轮迭代,直到L轮迭代完成后,算法结束,问题(9)得以解决。其算法的流程图如图2所示。
最后我们对系统进行了仿真。仿真参数设为:N=10,M=4,PS=3W,PM=120W,
Figure BDA0002564659970000103
假设区域为半径500m的圆形区域,宏基站位于坐标原点,四个小基站分别位于(400,0)m,(0,400)m,(-400,0)m,和(0,400)m四个点上,WS=100MHz,WM=20MHz,Tq=ΔT=100ms,用户移动速度在[3,20]m/s区间内,qmax=4。设T=1024,γ=0.9,λ=0,5,更新步长α=10-3。策略πu和值函数
Figure BDA0002564659970000104
均利用多层感知器(人工神经网络的一种)来参数化,激活函数为ReLu(Rectified Linear Unit,线性整流单元),一共有两层,每层64个神经元。惩罚项权重β默认为0。
在图3中,我们与几种其他的方法进行了对比,其中A3C(Asynchronous advantageactor-critic,异步优势行动者-批评家)方法来自《Handover Control in WirelessSystems via Asynchronous Multiuser Deep Reinforcement Learning》,MADDPG(multi-agent deep deterministic policy gradient,多智能体深度确定策略梯度)方法来自《Multi-agent actor-critic for mixed cooperative-competitive environments》,而δsig是一种简单的对比方法,当用户的信噪比低于0dB时,就切换至基站
Figure BDA0002564659970000105
而功率则采取平均分配。从图可以看出我们的方法能获得很大的性能提升,远超过其他对比方法,结果表明我们的方法能够显著提升系统的信息吞吐量。在图4中,我们可以改变切换惩罚权重β的值来改变增大信息吞吐量和降低切换频率之间的权重,随着增大切换惩罚因子β的值,可以发现频繁切换的问题被显著缓解,因此我们的方法能有效解决频繁切换问题。

Claims (1)

1.一种多用户异构网络系统中的基站切换选择和功率分配方法,包括1个宏基站和M个毫米波小基站,以及N个移动的用户终端,用户只知道局部观测信息,包括如下步骤:
(1)设用户的集合为
Figure FDA0003100596860000011
基站的集合为
Figure FDA0003100596860000012
其中0是宏基站的编号,其余编号为小基站的编号,宏基站的总功率为PM,小基站的总功率为PS,为保证基本需求,PS被分为
Figure FDA0003100596860000013
Figure FDA0003100596860000014
其中
Figure FDA0003100596860000015
可自由分配给用户,而
Figure FDA0003100596860000016
由基站平均分配给用户,PM被分为用于可自由分配给用户的部分
Figure FDA0003100596860000017
和平均分配给用户的部分
Figure FDA0003100596860000018
用户通信在无穷个时隙中进行,在第t个时隙,每个用户u,其中
Figure FDA0003100596860000019
同时地选择连接到第
Figure FDA00031005968600000110
个基站,其中
Figure FDA00031005968600000111
并且发送一个功率分配请求因子
Figure FDA00031005968600000112
给基站
Figure FDA00031005968600000113
其中
Figure FDA00031005968600000114
其中qmax为最大功率分配请求因子,所述基站
Figure FDA00031005968600000115
根据所述功率分配请求因子来分配信号功率;
所述步骤(1)中,在时隙t≥0时,用户u的动作
Figure FDA00031005968600000116
表示为
Figure FDA00031005968600000117
其中
Figure FDA00031005968600000118
为任意用户的动作空间的集合,所有用户的联合动作表示为
Figure FDA00031005968600000119
Figure FDA00031005968600000120
其中联合动作空间
Figure FDA00031005968600000121
Figure FDA00031005968600000122
的笛卡尔N次积
Figure FDA00031005968600000123
基站
Figure FDA00031005968600000124
根据功率分配请求因子来分配信号功率,具体方法如下:给定
Figure FDA00031005968600000125
当m=0时,宏基站根据如下标准分配信号功率
Figure FDA00031005968600000126
给用户u:
Figure FDA00031005968600000127
其中
Figure FDA00031005968600000128
是布尔指示函数,输入的值为真时则该函数值为1,其中
Figure FDA00031005968600000129
表示第i个用户在时隙t时选择连接的基站,
Figure FDA00031005968600000130
表示连接到宏基站上的用户数,当m≠0时,由小基站m分配给用户u的信号功率
Figure FDA00031005968600000131
为:
Figure FDA00031005968600000132
其中
Figure FDA00031005968600000133
表示连接到小基站m上的用户数;
(2)对于所有时隙t≥0时,每个用户u使用自身策略πu并基于自己的局部观测信息
Figure FDA00031005968600000134
来进行基站切换选择
Figure FDA00031005968600000135
和发送功率分配请求因子
Figure FDA00031005968600000136
其中
Figure FDA00031005968600000137
由用户u当前连接的基站编号
Figure FDA00031005968600000138
信号测量信息
Figure FDA00031005968600000139
和每个基站当前所服务的用户数信息Ut所组成,则
Figure FDA0003100596860000021
被表示为
Figure FDA0003100596860000022
其中
Figure FDA0003100596860000023
Figure FDA0003100596860000024
其中
Figure FDA0003100596860000025
是基站
Figure FDA0003100596860000026
所服务的用户数量,并且
Figure FDA0003100596860000027
其中
Figure FDA0003100596860000028
定义为时隙t时基站m发射的参考信号在用户u端所测量的信噪比,然后优化每个用户u的策略πu使得用户能独立做出全局最佳的决策,从而最大化系统总的吞吐量,并且在目标函数中引入了切换惩罚,通过增加切换惩罚的权重来降低切换频率;
所述步骤(2)中,还包含以下步骤:
1)在所有时隙t≥0时,定义全局状态为每个用户局部观测信息的集合
Figure FDA0003100596860000029
其中
Figure FDA00031005968600000210
为状态空间,用户u策略为πu
Figure FDA00031005968600000211
是一个基于
Figure FDA00031005968600000212
的条件概率分布,定义x~p(x)表示变量x服从概率分布p(x),则
Figure FDA00031005968600000213
用户使用条件概率分布
Figure FDA00031005968600000214
进行一次采样,采样值即为所选取的动作
Figure FDA00031005968600000215
策略集合为Π={π1,…,πN},由于每个用户独立的选择动作,所以定义联合策略π为
Figure FDA00031005968600000216
从而联合动作at~π(at|st);
2)在所有时隙t≥0时,所有用户u在执行完动作
Figure FDA00031005968600000217
后,系统得到共同奖赏为r(st,at),简写为rt,定义期望折扣平均奖赏
Figure FDA00031005968600000218
其中γ为折扣因子,其取值范围为区间[0,1),ρ0(s0)为初始状态s0的概率分布,
Figure FDA00031005968600000219
表示变量x关于a0,s1,a1,…的均值;
3)利用多智能体强化学习算法来优化Π={π1,…,πN}使得η(π)达到最大;
所述步骤3)中,还包含以下步骤:
31)对于多智能体强化学习算法,为每个用户u初始化一个参数为θu的参数化策略πu,和一个参数为ωu的参数值函数
Figure FDA00031005968600000220
然后将θu赋值给一个当前策略
Figure FDA00031005968600000221
的参数
Figure FDA00031005968600000222
将ωu赋值给
Figure FDA00031005968600000223
的参数
Figure FDA00031005968600000224
32)然后收集数据,用户与环境交互,获得一个长度为T的轨迹为
Figure FDA00031005968600000225
对于所有u,根据下式计算
Figure FDA00031005968600000226
Figure FDA00031005968600000227
其中
Figure FDA00031005968600000228
λ为平衡方差和偏差的参数,其取值范围为区间[0,1],再根据下式计算
Figure FDA0003100596860000031
Figure FDA0003100596860000032
其中
Figure FDA0003100596860000033
为反事实基线函数,其被定义为
Figure FDA0003100596860000034
Figure FDA0003100596860000035
表示除用户u外的联合动作,即
Figure FDA0003100596860000036
从而得到一组数据
Figure FDA0003100596860000037
33)最后选取数据计算策略梯度
Figure FDA0003100596860000038
其中
Figure FDA0003100596860000039
表示对变量x求梯度,
Figure FDA00031005968600000310
Figure FDA00031005968600000311
表示采样平均,cε(x)是一个将x限制在区间[1-ε,1+ε]之间的函数,其中ε的取值范围为区间[0,1],
Figure FDA00031005968600000312
是时隙t时的策略的概率比,然后计算值函数梯度
Figure FDA00031005968600000313
最后更新参数θu←θu+αΔθu,ωu←ωu+αΔωu,其中←表示箭头右边的数值赋值给左边,α为更新步长,其取值范围为区间[0,1),然后返回步骤32),直至策略的参数θu不再改变。
CN202010625770.0A 2020-07-01 2020-07-01 多用户异构网络系统中的基站切换选择和功率分配方法 Active CN111726845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010625770.0A CN111726845B (zh) 2020-07-01 2020-07-01 多用户异构网络系统中的基站切换选择和功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010625770.0A CN111726845B (zh) 2020-07-01 2020-07-01 多用户异构网络系统中的基站切换选择和功率分配方法

Publications (2)

Publication Number Publication Date
CN111726845A CN111726845A (zh) 2020-09-29
CN111726845B true CN111726845B (zh) 2021-10-26

Family

ID=72571178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010625770.0A Active CN111726845B (zh) 2020-07-01 2020-07-01 多用户异构网络系统中的基站切换选择和功率分配方法

Country Status (1)

Country Link
CN (1) CN111726845B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022077393A1 (zh) * 2020-10-15 2022-04-21 北京小米移动软件有限公司 Ue的目标小区确定方法、装置、通信设备及存储介质
CN112492691B (zh) * 2020-11-26 2024-03-26 辽宁工程技术大学 一种深度确定性策略梯度的下行noma功率分配方法
CN112822734B (zh) * 2020-12-31 2023-01-31 上海擎昆信息科技有限公司 一种高铁沿线网络接入方法和系统
CN113839696B (zh) * 2021-09-22 2022-07-19 东南大学 一种在线鲁棒的分布式多小区大规模mimo预编码方法
CN114189877B (zh) * 2021-12-06 2023-09-15 天津大学 一种面向5g基站的复合式能耗优化控制方法
CN115296705B (zh) * 2022-04-28 2023-11-21 南京大学 一种mimo通信系统中的主动监听方法
CN117408052A (zh) * 2023-10-18 2024-01-16 南栖仙策(南京)高新技术有限公司 一种蒸镀机镀膜控制优化方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11069925B2 (en) * 2018-08-08 2021-07-20 The Boeing Company Heterogeneous battery system and method
CN110505644B (zh) * 2019-09-26 2021-09-10 江南大学 用户任务卸载与资源分配联合优化方法
CN110798851B (zh) * 2019-10-25 2021-02-02 西安交通大学 无线异构网络的能量效率和负载均衡的联合优化方法

Also Published As

Publication number Publication date
CN111726845A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111726845B (zh) 多用户异构网络系统中的基站切换选择和功率分配方法
Guo et al. Joint optimization of handover control and power allocation based on multi-agent deep reinforcement learning
Zhang et al. Energy-efficient mode selection and resource allocation for D2D-enabled heterogeneous networks: A deep reinforcement learning approach
Zhang et al. Deep reinforcement learning for multi-agent power control in heterogeneous networks
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
CN113163451A (zh) 一种基于深度强化学习的d2d通信网络切片分配方法
CN108848535B (zh) 一种面向共享模式的雾计算环境资源分配方法
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
CN112492691A (zh) 一种深度确定性策略梯度的下行noma功率分配方法
Bi et al. Deep reinforcement learning based power allocation for D2D network
Yuan et al. Deep reinforcement learning for resource allocation with network slicing in cognitive radio network
Wei et al. Resource allocation and power control policy for device-to-device communication using multi-agent reinforcement learning
Yin et al. Decentralized federated reinforcement learning for user-centric dynamic tfdd control
CN113453358B (zh) 一种无线携能d2d网络的联合资源分配方法
Dai et al. Multi-objective intelligent handover in satellite-terrestrial integrated networks
Zhou et al. Multi-agent few-shot meta reinforcement learning for trajectory design and channel selection in UAV-assisted networks
Kaur et al. A reinforcement learning-based green resource allocation for heterogeneous services in cooperative cognitive radio networks
CN105530203B (zh) D2d通信链路的接入控制方法及系统
Adeogun et al. Distributed channel allocation for mobile 6g subnetworks via multi-agent deep q-learning
CN116567843A (zh) 一种无线资源分配优化装置及方法
CN116484976A (zh) 一种无线网络中异步联邦学习方法
CN116074974A (zh) 一种分层架构下的多无人机群通道接入控制方法
Li et al. Dynamic power allocation in IIoT based on multi-agent deep reinforcement learning
Eskandari et al. Smart Interference Management xApp using Deep Reinforcement Learning
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant