CN115038155B

CN115038155B - 一种超密集多接入点的动态协同传输方法

Info

Publication number: CN115038155B
Application number: CN202210566314.2A
Authority: CN
Inventors: 黄川�; 崔曙光; 王丹
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2023-02-07
Anticipated expiration: 2042-05-23
Also published as: CN115038155A

Abstract

本发明公开了一种超密集多接入点的动态协同传输方法，包括以下步骤：S1.在实时网络状态下的对多用户接入和功率分配问题进行建模；S2.根据步骤S1中的模型，基于树状结构策略梯度进行多智能体强化学习，得到成熟的神经网络；S3.利用成熟的神经网络，实现超密集多接入点的动态协同传输。本发明在多个用户竞争子载波资源时，实现了多接入点的协同传输，避免了用户竞争导致的资源冲突，从而避免了通信链路受到影响无法传输数据的情况，从而提高了用户服务质量。

Description

一种超密集多接入点的动态协同传输方法

技术领域

本发明涉及通信领域，特别是涉及一种超密集多接入点的动态协同传输方法，

背景技术

现有大多数研究方法只能解决静态网络环境中信道状态信息已知情况下UDN的用户接入问题。面对真实网络环境中，有限的回程容量以及快速变化的信道带来的挑战，近年来，深度强化学习(DRL)被广泛应用于大型网络，以解决信道状态信息不断变化的用户接入问题。根据采用的算法不同，基于DRL的用户接入和功率分配问题可分为基于值和基于策略的方法。其中，深度Q学习(DQN)是目前最流行的基于值的DRL方法。在DQN中，Q值代表了给定状态下执行动作的质量，并基于Q值选择当前的动作。在UDN中，研究基于DRL的用户接入和功率分配方案面临的主要挑战是，随着网络规模的增加，离散的动作空间将变得非常庞大。

在UDN中，用户密度将达到每平方千米数百个，其采取的离散动作随用户数呈指数增长。因此，基于DRL的UDN通信系统需要更多的训练样本才能达到统计效率，较大的动作空间也容易导致学习算法收敛到次优策略。为了降低复杂度，一种在连续空间选择离散动作的方法被提出，通过最近邻连续空间的候选项目选择动作。然而，该方法存在学习到的连续动作与实际期望的离散动作的不一致性，从而导致不满意的结果。针对这一问题，树状结构的策略梯度推荐架构运用在推荐系统中，所有待推荐的项目被分类构建一个平衡分层聚类树，选择推荐的项目则可以描述为寻找从根到树的某个叶节点的路径。结果表明，该架构大大降低了训练阶段和决策阶段的时间复杂度，然而聚类算法的选取也严重影响了系统的性能。

发明内容

本发明的目的在于克服现有技术的不足，提供一种超密集多接入点的动态协同传输方法。

本发明的目的是通过以下技术方案来实现的：一种超密集多接入点的动态协同传输方法，包括以下步骤：

S1.在实时网络状态下的对多用户接入和功率分配问题进行建模；

S2.根据步骤S1中的模型，基于树状结构策略梯度进行多智能体强化学习，得到成熟的神经网络；

S3.利用成熟的神经网络，实现超密集多接入点的动态协同传输。

进一步地，所述步骤S1包括：

考虑K个AP和N个用户，随机部署而组成的UDN场景，N个用户中包括N_u个UU和N_d个DU；网络中整个带宽被平均划分为C个子载波，记为

每个AP都具有C个正交的子载波资源；其中AP是指接入点，UU是指上行用户，DU是指下行用户，UDN是指超密集网络；

设用户能够在不同的子载波上接入多个AP，而每个AP同一子载波上最多允许接入一对UU和DU；所有AP工作在混合双工(SD)模式下与接入其中的半双工UU和DU进行通信；

考虑到在具有有限资源的UDN中，多个用户竞争子载波资源必然会出现冲突；一旦发生冲突，所涉及的通信链路将无法传输数据，从而影响用户服务质量，故构建上行传输模型和下行传输模型，并实现多用户接入和功率分配问题建模。

其中，所述构建上行传输模型包括：

对于上行传输，设在t时隙，第n个UU接入第k个AP的第c个子载波，并以功率为

发送信号，其中

第k个AP中第n个UU在第c个子载波上的上行SINR表示为

其中，SINR表示信干噪比，

表示子载波c上第n个UU到第k个AP的信道增益；

表示子载波c上第k个AP到第n个DU的发送功率；Δξ表示自干扰消除因子；σ²表示CSCG噪声功率；

表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰，记为

其中，

是一个二进制变量，且当第n′个UU接入第k′个基站的第c个载波时

否则

因此，若第n个UU接入第k个AP中第c个子载波，其上行传输速率被计算为

第n个UU在上行传输中的总数据速率被计算为：

其中，所述构建下行传输模型包括：

对于下行传输，第n个DU接入第k个AP的第c个子载波，第k个AP以功率为

为第n个DU提供服务；第n个DU接入第k个AP的第c个子载波下行SINR表示为

其中，

表示子载波c上第k个AP到第n个DU的信道增益；

表示子载波c上第n个DU收到接入其他AP的UU以及其他AP的同频干扰，记为

因此，若第n个DU接入第k个AP的第c个子载波，其对应的下行传输速率被计算为

第n个DU在下行传输中的总数据速率被计算为：

其中，所述实现多用户接入和功率分配问题建模的过程包括：

考虑到多个AP之间的协同开销，每个UU和DU的接入成本被定义为接入AP数量的函数，即

其中，μ表示接入单位AP的固定成本；因此，对于上下行用户n而言，其收益函数被定义为传输速率与接入成本的差值，即

其中，符号(·)在上下行链路中分别用UL和DL代替；基于上述分析，时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比，即

其中，

和

分别表示每个UU和DU的最低收益，

表示指示函数，

和

是二进制变量，分别表示t时隙第n个UU和DU的请求状态，1表示请求而0表示非请求状态；相应的优化问题被表述为

s.t.C1:

C2:

C3:

C4:

其中，约束C1表示AP和UU在每个子载波上的发送功率预算，P^UL和P^DL分别表示上行和下行最大发送功率；约束C2表示每个UU和DU只能接入每个基站的其中一个子载波；约束C3表示每个UU和DU能够接入多个基站；约束C4是二进制符号的取值范围；

和

分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。

进一步地，所述步骤S2包括以下子步骤：

S201.构建马尔可夫决策(MDP)过程：

将各个AP看作具有决策功能的智能体，将用户接入和功率分配作为智能体的动作集合；智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI，即

其中，

和

均被记为q_n(t)，且有q_n(t)∈{0,1}；其中，1表示用户处于请求状态；0表示用户处于非请求状态；另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为g_n,k,c(t)；

智能体k根据当前时隙t观察到的状态，决定选择合适的UU和DU加入其某个子载波，并为它们分配相应的功率：因此，动作被记为

其中，

和

统一被标记为b_n,k,c(t)，

和

统一被标记为p_n,k,c(t)；考虑离散动作空间，p_n,k,c(t)的取值被离散化为：

其中，

表示离散功率值的集合；L表示离散值的个数；P_max表示最大发送功率；

各个智能体在t时隙采取行动后，从环境中获取当前时刻的用户满意度r(t)作为奖励函数；所有智能体

共享同一奖励函数，即

S202.构建多智能体强化学习的树状结构：

每一个智能体k都具备一个三层树状结构，分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L^2C个叶节点组成，且每个非叶节点上都配备一个actor网络。因此，每个智能体都配备1+M个actor网络构成一个actor组群。具体而言，第一层只有一个非叶节点，智能体k在该节点上进行用户组合的选择，每一种选择都映射一组子载波分配的可能，对应原优化问题中的变量

和

共有M种选择；因此，第二层有M个非叶节点，且在每一个非叶节点上选择相应的功率组合，一种选择都映射一组功率分配的组合，对应原问题中的设计变量

和

共有L^2C种选择；因此，第三层共有M×L^2C个叶节点，每个m,m∈{1,…,M}非叶节点下对应的L^2C叶节点都是L^2C种功率分配组合。因此，对于每一个智能体k，从第一层非叶节点——第二层非叶节点——第三层叶节点的每一条路径，都映射了一组子载波分配和功率分配的动作选择a_k(t)。

在第一层非叶节点上，智能体k首先输入状态s_k(t)进编号为k0的actor网络，得到子载波分配策略π_k0(s_k(t)；θ_k0)，并根据这一策略选择相应的用户组合；针对具有N_u个UU、N_d个DU和C个子载波的UUDN，每个智能体上子载波全部分配给上下行用户的情况种类记为N_u个UU和N_d个DU分别在C个子载波上的排列数的乘积，即

其中，A代表排列数；

在第二层非叶节点上，智能体k得到当前用户组合下的功率分配策略π_km(s_k(t)；θ_km)，其中，m∈{1,…,M}为第一层非叶节点根据策略π_k0(s_k(t)；θ_k0)选择的用户组合结果；由S201可知，功率变量p_k,n,s的取值被离散成L个等级。对于具有1×2C维度的用户组合m，每一个元素的取值有L种可能。因此，每一个二层非叶节点m都有L^2C个叶节点，每个叶节点代表一种功率分配组合，是一个1×2C维度的向量，由此得到设计变量p_k,n,c(t)的值；因此，选择动作也即是在当前状态下从根节点移动到某个叶节点的路径；

将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L^2C}；考虑路径结束在叶节点mυ，以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率；

S203.进行多智能体的动态决策与训练；

在第t个时隙，各个智能体

在actor组群指导下输出的路径策略为两层非叶节点策略的乘积，即

π_k(a_k|s_k；θ_k)＝π_k(w_k|s_k；θ_k)

＝π_k0(km|s_k；θ_k0)π_km(mυ|s_k；θ_km),

其中，w_k＝{k0,km,mυ}表示动作a_k对应的路径；θ_k＝(θ_k0,θ_km)表示属于a_k(t)路径上所有关联的actor神经网络参数；θ_k0和θ_km则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数，且均由第k个critic神经网络的输出值Q_k指导训练；每个智能体k都配备一个critic网络，critic网络的输入为状态s和动作a，输出为

用于评价actor组群选择动作的好坏，即Q_k值越大表明该动作越好；critic网络的参数为

用于指导actor组群网络参数θ_k的训练，让actor向更好的方向选择动作。

因此，各个智能体则分布式地根据路径策略选择动作，即

a_k(t)～π_k(s_k(t)；θ_k).

当所有智能体均执行完动作

环境返回该动作下的奖励r_k(t)，并跳转到下一状态s_k(t+1)；其中r_k(t)按照公式

进行计算；

所有智能体上的actor组群和critic网络均部署在宏基站上，并利用历史经验进行集中训练，具体地，当分布式决策完成后，所有智能体将经验

均上传至宏基站，集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练：

训练actor组群：与训练单个actor网络不同的是，actor组群的策略为两层非叶节点策略的乘积，因此，actor组群的训练通过最小化以下梯度，即

其中，a＝{a₁,...,a_K},s＝{s₁,...,s_K},

表示第k个智能体critic神经网络的参数；J_k(θ_k)表示θ_k的梯度，在更新过程中，使得J_k(θ_k)最小的θ_k值即为actor组群训练过程中得到参数更新值；

为第k个智能体critic神经网络的输出，用于评估第k个智能体actor组群选择的动作，并指导actor组群的训练向更快的梯度方向下降；

训练critic网络：第k个智能体的critic神经网络训练方式依然是通过最大化损失函数来更新

损失函数为：

其中，

s′和a′表示下一时刻的状态和动作；使得损失函数

最大的

即为更新后的

当训练结束后，训练后的actor神经网络参数被下载到本地actor网络中，用于分布式动作决策。

所述步骤S3包括以下子步骤：

S301.每个智能体基于当前状态s_k(t)得到用户接入和功率分配的取值：

基于此值选择对应的用户n接入子载波c，并以p_k,n,c(t)的功率在上下行之间传输信号；

S302.对于固定的用户n，若多个智能体k的b_k,n,c(t)值为1时，表示这些智能体作为协同AP共同为此用户提供通信服务，保证该用户的服务质量。

本发明的有益效果是：本发明有效解决了具有大型离散动作空间的动态用户接入和功率分配问题，提高了密集网络中的平均用户满意率。

附图说明

图1为本发明的方法流程图；

图2为以用户为中心的UDN协同架构示意图；

图3为用户接入和功率分配的树状架构示意图；

图4为不同测试间隔下平均用户满意率随训练次数的变化示意图；

图5为不同接入点数量下的学习性能示意图；

图6为不同用户收益门限下平均用户满意率随接入点数量的变化情况示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种超密集多接入点的动态协同传输方法，包括以下步骤：

进一步地，所述步骤S1包括：

如图2所示，考虑K个AP和N个用户，随机部署而组成的UDN场景，N个用户中包括N_u个UU和N_d个DU；网络中整个带宽被平均划分为C个子载波，记为

其中，所述构建上行传输模型包括：

发送信号，其中

第k个AP中第n个UU在第c个子载波上的上行SINR表示为

其中，SINR表示信干噪比，

表示子载波c上第n个UU到第k个AP的信道增益；

其中，

否则

第n个UU在上行传输中的总数据速率被计算为：

其中，所述构建下行传输模型包括：

其中，

表示子载波c上第k个AP到第n个DU的信道增益；

第n个DU在下行传输中的总数据速率被计算为：

其中，

和

分别表示每个UU和DU的最低收益，

表示指示函数，

和

s.t.C1:

C2:

C3:

C4:

和

分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。

进一步地，所述步骤S2包括以下子步骤：

S201.通过DRL的低复杂度动态决策机制，以解决上述优化问题；首先构建马尔可夫决策(MDP)过程：

其中，

和

均被记为q_n(t)，且有q_n(t)∈{0,1}；另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为g_n,k,c(t)；

其中，

和

统一被标记为b_n,k,c(t)，

和

其中，

共享同一奖励函数，即

S202.构建多智能体强化学习的树状结构：

和

和

其中，A代表排列数；

当C＝N_u＝N_d＝2时，所有用户接入载波的4种情况示例如下表所示，

即

当智能体k根据策略π_k0(s_k(t)；θ_k0)选择用户组合[2,1,2,1]时，有：

b_2,k,1(t)＝b_1,k,2(t)＝b_4,k,1(t)＝b_3,k,2(t)＝1，也即是

同

样地，选择其他用户组合，也可得到相应的设计变量b_n,k,c(t)的值。

S203.进行多智能体的动态决策与训练；

在第t个时隙，各个智能体

π_k(a_k|s_k；θ_k)＝π_k(w_k|s_k；θ_k)

＝π_k0(km|s_k；θ_k0)π_km(mυ|s_k；θ_km),

用于指导actor组群网络参数θ_k的训练，让actor向更好的方向选择动作。因此，各个智能体则分布式地根据路径策略选择动作，即

a_k(t)～π_k(s_k(t)；θ_k).

当所有智能体均执行完动作

进行计算；

为了提高训练效率和稳定性，所有智能体上的actor组群和critic网络均部署在宏基站上，并利用历史经验进行集中训练，具体地，当分布式决策完成后，所有智能体将经验：

其中，a＝{a₁,...,a_K},s＝{s₁,...,s_K},

损失函数为：

其中，

s′和a′表示下一时刻的状态和动作；使得损失函数

最大的

即为更新后的

所述步骤S3包括以下子步骤：

在本申请的实施例中，考虑在25m×20m固定区域生成接入点个数为K＝5的仿真环境，上行用户和下行用户的个数设置为N_u＝N_d＝10，且各个用户的位置均可在每个AP半径0.05m到10m范围内随机生成，AP半径0.05m以内的区域禁止部署任何用户。最大发送功率设置为P^UL＝P^DL＝25dB，高斯白噪声功率σ²设置为-30dB。子载波数设为C＝2,上下行功率的离散等级为L＝6，自干扰抑制因子设置为Δξ＝10^-4，每个用户接入单位接入点的固定成本设置为μ＝0.05，上下行用户的最低收益门限设置为

此外，各个发送端到接收端之间的信道服从一阶复高斯-马尔可夫过程，各个用户的请求状态服从概率为0.7的二项分布。

接下来将定义神经网络的超参数。每个神经网络有一个输入层、三个隐藏层和一个输出层，每个隐藏层的神经元个数设置为128，每个隐藏层的激活函数设置为ReLU函数，奖励折扣因子设置为γ＝0.95。为了简单起见，本章考虑每个智能体可以观测到与其距离最接近的4个UU和4个DU。因此，每个智能体具有4×(1+C)个状态神经元。动作神经元分为两类：在每一个actor群组中，第一层非叶节点的动作神经元为M个；而每个第二层非叶节点的动作神经元为L^2C个。

图4中分别取T_s＝1,10,50和100的四组测试间隔，神经网络每训练1次、10次、50次和100次后，各个智能体利用学到的策略在环境刷新后的T＝1000个时隙里选择相应的动作，并计算整个时间轴上UUDN中的平均用户满意率。从图4可以看出，随着测试间隔的增加，神经网络训练出来的结果越来越平滑。在K＝5,N_u＝N_d＝10的仿真环境中，本章所提MATSPG算法在测试间隔为T_s＝1,10,50和100情况下都能达到85％的平均用户满意率。

图5所示也研究了不同接入点数量情况下所提算法的学习性能。结果表明，在测试间隔T_s＝100设置下，随着接入点数量从K＝5增加到K＝7时，能够达到的平均用户满意率从85％上升到90％左右。另一方面，随着接入点数量的增加，本发明所提出的算法需要训练更多次才能达到收敛。

图6也给出了在不同收益门限值下平均用户满意率随网络中接入点数量的变化情况。可以看出，在收益门限值不变的情况下，本发明所提出的算法得到的平均用户满意率随网络中接入点数量的增加而不断增加，最后达到趋近于94％的饱和状态。另一方面，在相同接入点数量情况下，随着最低门限

从10不断增加到25时，网络中的平均用户满意率逐渐降低。这是由于随着最低门限值增大，能够满足其服务需求的用户数越来越少，要想保持平均用户满意率不变，则需要增加更多网络中接入点的数量。

以上所述是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应该看作是对其他实施例的排除，而可用于其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种超密集多接入点的动态协同传输方法，其特征在于：包括以下步骤：

S3.利用成熟的神经网络，实现超密集多接入点的动态协同传输；

所述步骤S1包括：

设用户能够在不同的子载波上接入多个AP，而每个AP同一子载波上最多允许接入一对UU和DU；所有AP工作在SD模式下与接入其中的半双工UU和DU进行通信,其中，SD模式是指混合双工模式；

构建上行传输模型和下行传输模型，并实现多用户接入和功率分配问题建模；

所述构建上行传输模型包括：

发送信号，其中

第k个AP中第n个UU在第c个子载波上的上行SINR表示为

其中，SINR表示信干噪比，

表示子载波c上第n个UU到第k个AP的信道增益；

其中，

否则

第n个UU在上行传输中的总数据速率被计算为：

所述构建下行传输模型包括：

其中，

表示子载波c上第k个AP到第n个DU的信道增益；

第n个DU在下行传输中的总数据速率被计算为：

所述实现多用户接入和功率分配问题建模的过程包括：

其中，

和

分别表示每个UU和DU的最低收益，

表示指示函数，

和

s.t.C1:

C2:

C3:

C4:

和

分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。

2.根据权利要求1所述的一种超密集多接入点的动态协同传输方法，其特征在于：所述步骤S2包括以下子步骤：

S201.构建马尔可夫决策过程：

其中，

和

均被记为q_n(t)，且有q_n(t)∈{0,1}，其中，1表示用户处于请求状态；0表示用户处于非请求状态；另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为g_n,k,c(t)；

其中，

和

统一被标记为b_n,k,c(t)，

和

其中，

共享同一奖励函数，即

S202.构建多智能体强化学习的树状结构：

每一个智能体k都具备一个三层树状结构，分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L^2C个叶节点组成，且每个非叶节点上都配备一个actor网络；因此，每个智能体都配备1+M个actor网络构成一个actor组群；

第一层只有一个非叶节点，智能体k在该节点上进行用户组合的选择，每一种选择都映射一组子载波分配的选项，对应原优化问题中的变量

和

和

共有L^2C种选择；因此，第三层共有M×L^2C个叶节点，每个m,m∈{1,…,M}非叶节点下对应的L^2C叶节点都是L^2C种功率分配组合；对于每一个智能体k，从第一层非叶节点到第二层非叶节点，再到第三层叶节点的每一条路径，都映射了一组子载波分配和功率分配的动作选择a_k(t)；

其中，A代表排列数；

在第二层非叶节点上，智能体k得到当前用户组合下的功率分配策略π_km(s_k(t)；θ_km)，其中，m∈{1,…,M}为第一层非叶节点根据策略π_k0(s_k(t)；θ_k0)选择的用户组合结果；由S201可知，功率变量p_k,n,s的取值被离散成L个等级；对于具有1×2C维度的用户组合m，每一个元素的取值有L种可能；因此，每一个二层非叶节点m都有L^2C个叶节点，每个叶节点代表一种功率分配组合，是一个1×2C维度的向量，由此得到设计变量p_k,n,c(t)的值；因此，选择动作也即是在当前状态下从根节点移动到某个叶节点的路径；

S203.进行多智能体的动态决策与训练；

在第t个时隙，各个智能体

π_k(a_k|s_k；θ_k)＝π_k(w_k|s_k；θ_k)

＝π_k0(km|s_k；θ_k0)π_km(mυs_k；θ_km),

其中，w_k＝{k0,km,mυ}表示动作a_k对应的路径；θ_k＝(θ_k0,θ_km)表示属于a_k(t)路径上所有关联的actor神经网络参数；θ_k0和θ_km则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数，且均由第k个critic神经网络的输出值Q_k指导训练：

每个智能体k都配备一个critic网络，critic网络的输入为状态s和动作a，输出为