CN111726845A

CN111726845A - 多用户异构网络系统中的基站切换选择和功率分配方法

Info

Publication number: CN111726845A
Application number: CN202010625770.0A
Authority: CN
Inventors: 唐岚; 郭德邻
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-09-29
Anticipated expiration: 2040-07-01
Also published as: CN111726845B

Abstract

本发明公开了一种多用户异构网络系统中的基站切换选择和功率分配方法，包括1个宏基站和M个毫米波小基站，以及N个移动的用户终端，用户只能根据局部观测信息做出决策，包括如下步骤：每个用户同步地选择连接至某一宏基站或小基站，并且同时发射一个功率分配请求因子给所连接的基站，基站根据所服务需求因子的比例来分配信号发射的能量。本发明使系统对用户的切换选择和能量分配策略进行优化，使得系统同时兼顾吞吐量和切换频率，在最大化吞吐量的同时降低用户切换频率。

Description

多用户异构网络系统中的基站切换选择和功率分配方法

技术领域

本发明属于无线通信领域，具体涉及一种多用户异构网络系统(简称“系统”)中最优化基站切换和能量分配方法，更具体涉及一种基于多智能体强化学习算法MAPPO(multi-agent proximal policy optimization，多智能体近端策略优化)的基站切换和能量分配策略的优化方法。

背景技术

第五代(5G)网络预计将满足日益增长的无线通信需求。由于可用的宽频谱和预期的高数据速率，30-300GHz范围内的毫米波将在5G中发挥关键作用。另一方面，由于受到发射功率、高温噪声和高吸氧量的限制，毫米波信号的传输距离较短。在交通热点地区密集部署小型基站被认为是克服毫米波缺点的潜在解决方案之一。

在无线网络中,用户需要在移动过程中切换服务基站以保持通信质量。传统上，切换过程是由第三代合作伙伴计划(3GPP)协议中定义的HO事件决定的。3GPP中的切换机制是为了传统宏基站而设计，在密集网络中，3GPP中传统的切换策略可能会导致频繁切换的问题,且会增加切换带来额外的开销。因此，建立适合毫米波系统的切换机制至关重要。此外，能量分配是无线通信中的一个传统问题,其会对系统的信息吞吐量造成至关重要的影响。如何分配这些能量，发送多少或者发送给谁，都需要研究。

目前通常的切换控制优化方法是去通过与几个特定的指标进行阈值比较来自适应地调整3GPP中定义切换参数，这类方法通常不具有很好的理论保证。另一种是将问题构建成一个多臂赌博机模型，来优化当前的最优解，但是这种方法没有考虑最大化长期吞吐量，并且这些方法通常没有考虑多用户之间的影响和合作。此外，随着隐私意识的提升，用户设备更倾向于分布式的作出决策。因此，构建一种合适的算法，使得分布式系统中的多个互相影响的用户在最大化系统总吞吐量的同时降低用户切换频率具有重要意义。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种多用户异构网络系统中的基站切换选择和功率分配方法，使得系统通过优化用户端的切换控制和功率分配请求策略，获得最大系统吞吐量的同时，降低用户平均切换频率。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种多用户异构网络系统中的基站切换选择和功率分配方法，包括1个宏基站和M个毫米波小基站(简称小基站)，以及N个移动的用户终端，每个用户只知道各自局部观测信息，包括如下步骤：

(1)设用户的集合为

基站的集合为

其中0是宏基站的编号，其余编号为小基站的编号，宏基站的总功率为P_M,小基站总功率为P_S,为保证基本需求，P_S被分为

和

其中

可自由分配给用户，而

由基站平均分配给用户,类似地，P_M被分为用于可自由分配给用户的部分

和平均分配给用户的部分

通信系统在无穷个时隙中进行，在第t个时隙，每个用户

同时地选择连接到第

个基站,并且发送一个功率分配请求因子

给基站

其中q_max为最大功率分配请求因子，所述基站

根据所述功率分配请求因子来分配信号功率；

(2)每个用户使用自身策略并基于自己的局部观测信息来进行基站切换选择和发送功率分配请求因子，所述局部观测信息包括用户的信号测量信息,当前连接的基站编号,以及每个基站当前所服务的用户数量，然后优化用户的个人策略使得用户能独立做出全局最佳的决策，从而最大化系统总的吞吐量，并且在目标函数中引入了切换惩罚，通过增加切换惩罚的权重来降低切换频率。

进一步的，所述步骤(1)中，在时隙t≥0时，用户u的动作

表示为

其中

为任意用户的动作空间的集合，所有用户的联合动作

其中联合动作空间

为

的笛卡尔N次积

给定

当m＝0时，宏基站根据如下标准分配功率

给用户u：

其中II{·}是布尔指示函数，输入的值为真时则该函数值为1，其中

表示第i个用户在时隙t时选择连接的基站，

表示连接到宏基站上的用户数，当m≠0时，由小基站m分配给用户u的功率

为：

其中

表示连接到小基站m上的用户数。

更进一步的，所述步骤(2)中，还包含以下步骤

1)对于所有时隙t≥0时，定义每个用户u的局部观测信息为

定义全局状态为每个用户局部观测信息的集合

其中

为状态空间，用户

的策略表示为π^u，

是一个基于

的条件概率分布，定义x～p(x)表示变量x服从概率分布p(x)，用户基于所述条件概率分布选取动作

策略集合为∏＝{π¹，…，π^N}，由于每个用户独立的选择动作，所以定义联合策略π为

从而联合动作a_t～π(a_t|s_t)；

2)在时隙t≥0时，所有用户u在执行完动作

后，系统得到共同奖赏为r(s_t，a_t)，简写为r_t，定义期望折扣平均奖赏

其中0≤γ＜1为折扣因子，ρ₀(s₀)为初始状态s₀的概率分布，

表示对轨迹a₀，s₁，a₁，…取均值；

3)利用多智能体强化学习算法来优化∏＝{π¹，…，π^N}使得η(π)达到最大。

更进一步的，所述步骤3)中，还包含以下步骤：

31)对于多智能体强化学习算法，为每个用户u初始化一个参数为θ^u的参数化策略π^u，和一个参数为ω^u的参数值函数

然后将θ^u赋值给一个当前策略

的参数

将ω^u赋值给

的参数

32)然后收集数据，用户与环境交互，获得长度为T轨迹为

对于所有u，根据下式计算

其中

λ为一个0到1之间的参数，一般由人为根据经验给定，再根据下式计算

其中

表示除用户u以外的联合动作，即

从而得到一组数据

33)最后选取数据计算策略梯度

其中

表示对变量x求梯度，

表示采样平均，c^ε(x)是一个将x限制在区间[1-ε，1+ε]之间的函数，

是时隙t时的策略的概率比，然后计算值函数梯度

最后更新参数θ^u←θ^u+αΔθ^u，ω^u←ω^u+αΔω^u，其中←表示箭头右边的数值赋值给左边，α为更新步长，然后返回步骤32)，直至策略的参数θ^u不再改变。

有益效果：本发明通过使用多智能体深度强化学习算法MAPPO来优化用户的基站切换选择和功率分配请求因子的方法，并且考虑切换带来的损失，从而使得系统在最大的吞吐量的同时，避免频繁切换问题。

附图说明

图1是本发明的系统模型图；

图2是本发明的策略迭代算法程序流程图；

图3是本发明所使用的方法和其他方法的性能比较图；

图4是改变β对信息吞吐量和切换频率的影响示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，我们考虑的通信系统由1个宏基站，M个毫米波小基站，和N个移动的用户组成。设

是基站的集合，其中0是宏基站的编号，其余编号为小基站的编号，

为用户的集合。宏基站的总功率为P_M，小基站总功率为P_S，为保证基本需求，P_S被分为

和

其中

可自由分配给用户，而

由基站平均分配给用户，类似地，P_M被分为用于可自由分配给用户的部分

和平均分配给用户的部分

在每个时隙，用户可以选择连接至区域内任意一个的基站，并且对其发射一个功率分配请求因子，其所连接的基站根据所收到的所有用户发来的功率分配请求因子成比例的分配信息传输功率。

(1)我们认为通信系统在无限个等间隔时隙中进行，每个时隙的长度为ΔT。在第t个时隙，用户

选择连接至基站

并且对其发送了一个功率分配请求因子

其中q_max为最大功率分配请求因子。基站

根据所收到的所有用户发来的功率请求因子成比例的分配信息传输功率：假设

当m＝0时，宏基站根据如下标准分配功率

给用户u：

表示第i个用户在时隙t时选择连接的基站，

表示连接到宏基站上的用户数，当m≠0时，由小基站m分配给用户u的功率为：

其中

表示连接到小基站m上的用户数。定义用户u在时隙t的动作为

其中

为任意用户的动作空间的集合，所有用户的联合动作

其中联合动作空间

为

的笛卡尔N次积，即为

(2)定义每个用户u的局部观测信息由其当前连接的基站，信号测量信息，和每个基站当前所服务的用户数所构成。在第t个时隙，用户u当前所连接的基站为

基站当前所服务的用户数量信息为

其中

是基站

所服务的用户数量。定义信号测量信息为基站广播的参考信号在用户端的信噪比，令

表示时隙t时基站m发射的参考信号在用户u端所测量的信噪比，从而用户u的信号测量值为

并假设信道状态在一个时隙内是不变的。在时隙t，用户u的局部观测信息为

并且定义全局状态为每个用户局部观测的集合

其中

为状态空间。

(3)假设小基站的总带宽为W_S，宏基站的总带宽为W_M。毫米波的小区内干扰可以通过空间预编码消除，所以当用户连接至小基站时，可以利用全部W_S的带宽，而宏基站需要通过分配不重叠的子频带来消除小区内干扰，所以宏基站将带宽平均分配给所有连接到其上的用户。可以得知功率和带宽分配是受到其他用户动作的影响，所以，设

那么用户u的在时隙t信息吞吐量为

其中

用户u为连接至宏基站时所分配的带宽。为了减少切换频率，我们引入一个切换惩罚，也就是当切换选择和当前所连接的基站不一致时的惩罚，其被定义为

此外，由于切换会带来连接中断，我们定义T_q≤ΔT为中断时长，在中断的时间内没有信息传输。所以用户u在时隙t的个人奖赏为

其中β≥0是调节切换损失的权重因子。

为了最大化系统长期吞吐量并且降低切换频率，我们将这个问题建模成合作多智能体任务，其中用户们具有一个共同奖赏：

我们将r(s_t，a_t)简写为r_t。在我们随后介绍的多智能体强化学习算法中，可以通过调节β来改变策略关于增大吞吐量和降低切换频率之间的权重。

(4)定义折扣奖赏为

其中0＜γ＜1为折扣因子。定义用户

的策略为

是一个基于

的条件概率分布，用户基于该概率分布选取动作：

策略集合为∏＝{π¹，…，π^N}；由于每个用户独立的选择动作，所以联合策略为π是个体策略的连乘：

分别定义标准的联合状态-动作值函数Q^π，联合状态值函数V^π，和联合优势函数A^π如下：

A^π(s_t，a_t)＝Q^π(s_t，a_t)-V^π(s_t)，

其中P(·|·)为条件概率。

定义期望折扣平均奖赏为

其中ρ₀(s₀)是初始状态s₀的概率分布。我们问题的优化目标为：

为解决问题(9)，我们采用一种多智能体强化学习算法——MAPPO(multi-agentproximal policy optimization，多智能体近端策略优化)来为每个用户学得各自最优的分布式的策略π^u。

首先我们将策略参数化为可微函数，对于策略π^u，其参数为θ^u，参数的集合为θ＝{θ¹，…，θ^N}。对于用户u，给定其一个当前用于和系统交互的策略为

其参数为

定义

对任意联合策略π，定义

在MAPPO中，问题(9)可以通过迭代地优化如下的目标函数来更新策略：

其中

上述(11)式中的c^ε(x)是一个将x限制在区间[1-ε，1+ε]之间的函数，

是策略的概率比。

我们采用梯度上升的方法求解问题(10)，目标函数的梯度为

对于每个用户u，用于更新其策略的梯度为

在强化学习中，期望

被样本平均所替代，因此，我们在实际算法中用于更新策略的梯度为

其中

表示样本平均，

是时隙t的概率比。

注意到(14)式中的梯度计算与联合优势函数

有关。但事先我们不知道它的具体值，所以需要估计。对于用户u，我们首先构建一个参数为ω^u的参数化函数

来作为Q^π(s_t，a_t)的估计。

表示除了用户u的动作以外的联合动作。对于用户u，联合优势函数

的估计值为：

其中

被称作反事实基线，用于为每个用户提供不同的优势函数估计，以改善共同优势函数导致不知道哪一个用户的动作具体带来多少性能改善的问题，然后

由截断TD(λ)方法计算，如下：

其中TD(Temporal-difference，时序差分)误差

被称为指标(target)动作值函数，其参数

定期的从ω^u更新而来，可以被认为是较早之前的

目的是为了稳定学习过程。

将(14)式中的

替换为估计值

从而(14)式可以改写为

从而就可以对策略进行更新。需要注意的是，

的初始值为随机值，对Q^π(s_t，a_t)的估计并不准确，因此也需要更新以逼近准确值，更新ω^u的方式为最小化如下的损失函数：

由于最小化相当于最大化负的目标函数，所以用于更新ω^u的梯度为：

我们给出利用MAPPO求解原始问题(9)的详细流程，如下：

1)对每个用户u，为其初始化一个参数为θ^u的策略π^u，和一个参数为ω^u值函数

然后将θ^u赋值给当前的策略

的参数

将ω^u赋值给

的参数

我们设一共有L轮迭代，L是一个充分大的数字，一般依照经验设定。

2)在数据收集阶段，第t步时，系统状态为

用户

根据当前观测值选取动作：

所有用户的动作为联合动作

然后系统转移至下一个状态s_t+1～P(s_t+1|s_t，a_t)，并且得到奖赏r_t。假设一轮迭代一共有T步，那么获得的轨迹为

然后根据上述(14)式计算

再根据(13)式计算{A^u(s_t，a_t)，从而得到一组数据

3)利用收集到的数据组更新参数θ^u和ω^u，

为了提高数据利用率，我们反复使用D更新K轮参数。在第k∈{1，2，…，K}轮中，首先打乱数据组D中关于时间维度上的排列，然后对其重新编号，以打破相邻数据之间的相关性从而稳定学习过程。我们采取批更新的方式，也就是每次选取D中的一批数据用于更新，假设每次选取B组数据，其中B为可以被T整除的数，那么一共确

批数据。第

批中，数据为

然后对于每个用户u，计算策Δθ^u和Δω^u：

然后使用梯度上升来更新参数：

θ^u←θ^u+αΔθ^u，

ω^u←ω^u+αΔω^u， (22)

其中α为梯度更新步长。在K轮更新完毕后，我们将θ^u赋值给当前策略的参数

将ω^u赋值给

然后开始下一轮迭代，直到L轮迭代完成后，算法结束，问题(9)得以解决。其算法的流程图如图2所示。

最后我们对系统进行了仿真。仿真参数设为：N＝10，M＝4，P_S＝3W，P_M＝120W，

假设区域为半径500m的圆形区域，宏基站位于坐标原点，四个小基站分别位于(400，0)m，(0，400)m，(-400，0)m，和(0，400)m四个点上，W_S＝100MHz，W_M＝20MHz，T_q＝ΔT＝100ms，用户移动速度在[3，20]m/s区间内，q_max＝4。设T＝1024，γ＝0.9，λ＝0，5，更新步长α＝10^-3。策略π^u和值函数

均利用多层感知器(人工神经网络的一种)来参数化，激活函数为ReLu(Rectified Linear Unit，线性整流单元)，一共有两层，每层64个神经元。惩罚项权重β默认为0。

在图3中，我们与几种其他的方法进行了对比，其中A3C(Asynchronous advantageactor-critic，异步优势行动者-批评家)方法来自《Handover Control in WirelessSystems via Asynchronous Multiuser Deep Reinforcement Learning》，MADDPG(multi-agent deep deterministic policy gradient，多智能体深度确定策略梯度)方法来自《Multi-agent actor-critic for mixed cooperative-competitive environments》，而δ_sig是一种简单的对比方法，当用户的信噪比低于0dB时，就切换至基站

而功率则采取平均分配。从图可以看出我们的方法能获得很大的性能提升，远超过其他对比方法，结果表明我们的方法能够显著提升系统的信息吞吐量。在图4中，我们可以改变切换惩罚权重β的值来改变增大信息吞吐量和降低切换频率之间的权重，随着增大切换惩罚因子β的值，可以发现频繁切换的问题被显著缓解，因此我们的方法能有效解决频繁切换问题。