CN112512070A

CN112512070A - 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

Info

Publication number: CN112512070A
Application number: CN202110157176.8A
Authority: CN
Inventors: 李荣鹏; 邵燕; 郭荣斌; 赵志峰; 张宏纲
Original assignee: Zhejiang University ZJU; Zhejiang Lab
Current assignee: Zhejiang University ZJU; Zhejiang Lab
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-03-16
Anticipated expiration: 2041-02-05
Also published as: CN112512070B

Abstract

本发明公开了一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法，该方法包括：算法网络结构G和目标网络

搭建以及初始化；执行资源分配；重复步骤2的资源分配

次，训练算法网络结构G；每完成步骤3中算法网络结构G训练X次，将算法网络结构G权重参数赋值给目标网络

，实现目标网络

的更新；步骤3执行

次后，完成算法网络结构G的训练过程。通过图注意力机制获取主体之间的内在联系，分析各个切片数据包在时空上的波动情况，相较于基于优化算法以及遗传算法的资源分配策略以及基于传统强化学习的资源分配策略，能够得到更高的系统回报，即更高的频谱效率和更好的用户体验，同时可以适应动态变化的环境，更具灵活性和鲁棒性。

Description

一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

技术领域

本发明涉及多基站协同网络资源分配方法以及强化学习领域，更具体地，涉及基于图注意力机制强化学习的多基站协同无线网络资源分配方法，属于无线通信技术领域。

背景技术

面对飞速增长的移动数据流量，第五代（5G）移动通信网络需要为来自不同订阅者的多样化业务场景提供不同性能的网络服务，其中核心的三大应用场景分别是：(a) 增强型移动宽带（enhanced mobile broadband，eMBB），用于为用户提供稳定和高峰值的数据传输率，以满足4k/8k高清、AR/VR、全息图像等典型服务；(b) 海量机器通信（massivemachine-type communications，mMTC），用于为大规模的低传输性能要求的用户提供服务，为物联网场景提供通信保障；(c) 超可靠低时延通信（ultrareliable and low-latencycommunications， URLLC），用于为自动驾驶，远程医疗等应用提供技术保证。

如何在移动数据流量需求巨大的情况下，通过合理的资源调配策略，最大化利用通信网络资源，为不同类型的用户提供最优质的服务，是当下迫切需要解决的问题。如果使用传统的网络架构，为每一种场景构建一套专用的网络去满足不同企业客户的需求，这并不能满足5G架构的灵活性目标，同样会造成巨大的部署成本。因此，研究人员提出了网络切片（network slicing，NS）技术。网络切片技术可以依据不同用户需求灵活的分配现有的网络资源。与单一的网络相比，它可以提供更高性能的逻辑网络，灵活分配有限的带宽资源，并且各个网络资源之间合理配置，互不干扰，具有较高的可靠性和安全性。为了迎合不断变化的用户需求以及用户移动性导致的基站间的频繁切换，如何优化部署和实时调整网络切片的资源分配是当前5G业务商用面临的一个重大的挑战。其技术关键指标在于：在尽可能满足切片订阅者的服务水平协议（Service Level Agreement，SLA）以提高用户服务满意率（SSR）的同时，最大化频谱效率（Spectrum Efficiency，SE）以降低资源成本，满足更多订阅者的需求。

传统的专用资源分配方案以及基于优化算法和启发式算法的资源分配策略，往往有严格的限定条件和复杂的推导形成特定的优化问题，这样的方法缺乏灵活性和可扩展性，当用户特征以及各种性能用户的比例发生变化，这些算法都无法良好的应对。因此，有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片，以便在保证基础SSR的同时最大化SE。

强化学习通过不断地与环境进行交互，捕捉环境中的状态信息，并据此做出动作选择，以试错的方式来学习使收益最大化的最优行为策略。传统的强化学习很难处理连续或者高维的状态空间情况，因此将深度学习的预测方法引入强化学习，用深度神经网络代表状态价值函数，提出深度强化学习算法预测较大状态空间的最优动作选择策略。典型的深度强化学习代表有Deep Q Network（DQN）、Actor-Critic（A2C）等。

尽管卷积神经网络在处理结构化信息方面取得了很大的成果，但很多有趣的任务所涉及的数据无法用网格状结构表示，而是位于一个不规则的域中，这时候人们就倾向于用图去表示这种结构。人们对将卷积推广到图域的兴趣越来越大，图卷积神经网络由此不断地发展。图注意力机制作为一种代表性的图卷积神经网络机制，引入多头掩蔽注意力机制，赋予邻居节点不同的影响权重，不但可以增强图中节点的协同合作，信息聚合，同时对邻居节点的噪声更为鲁棒。

发明内容

针对上述背景问题，本发明提出一种基于图注意力机制强化学习的多基站协同无线资源分配方法。相较于传统的优化算法和启发式算法，本发明提出的方法具有更好的灵活性和可扩展性；对比其他强化学习算法，本发明提出的方法可以加强基站之间的协同合作预测数据包的变化趋势，以降低用户移动性导致的基站内用户数量变化对状态动作值函数预测的负面影响。因此，采用图注意力机制强化学习算法进行多基站协同无线网络资源分配预测，可以提高预测准确率，从而大幅提高无线网络性能。

为了实现上述目的，本发明采用如下技术方案：

一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法，该方法具有以下步骤：

S1、算法网络结构G和目标网络

搭建以及初始化；

S2、执行资源分配；

S3、重复执行步骤S2的资源分配

次，训练算法网络结构G；

S4、每完成步骤S3中算法网络结构G训练X次，将算法网络结构G权重参数赋值给目标网络

，实现目标网络

的更新；

S5、步骤S3执行

次后，完成算法网络结构G的训练过程。

作为优选，所述步骤S1包含以下子步骤：

S11、将算法网络结构G分为状态向量编码网络Embed、图注意力机制网络GAT和深度Q网络DQN；

S12、其中状态向量编码网络Embed由多层全连接网络构成，记作

，

其中

、

是该层的权重矩阵，

是激活函数，并将多主体强化学习中的N维状态向量

输入到状态向量编码网络Embed中，输出K维经过编码的向量

；

S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量

和

作为图注意力机制网络GAT的输入向量，计算注意力影响系数，并对注意力影响系数进行归一化处理，其中

表示当前主体m在有向图中的相邻节点上的主体集合；将归一化后的注意力影响系数与输入向量相乘，计算图注意力机制网络GAT的第一层输出；将所述注意力影响系数、归一化处理、第一层输出进行分装表示，

，所述图注意力机制网络GAT的第二层输出为

；

S14、深度Q网络DQN是由多层全连接网络组成的，将通过上述两层图注意力机制网络GAT处理过后的输出向量作为深度Q网络DQN的输入，输出当前状态下执行不同动作的回报值，选取并执行回报最高的动作与环境交互；

S15、明确网络结构后，通过高斯分布随机初始化算法网络中的权重矩阵，同时构建一个目标网络

，其网络结构与上述算法网络结构G完全相同，并通过复制G权重参数的方法完成自身权重初始化。

作为优选，所述子步骤S13中注意力影响系数的计算公式为，

，对注意力影响系数进行归一化处理的公式为

，计算图注意力机制网络的第一层输出的公式为

，其中，

、

、

是该层的权重矩阵，是待训练的网络参数。

作为优选，所述步骤S2包含以下子步骤：

S21、无线资源管理器获取当前t时刻各个基站的网络状态向量，基站数量为M

，无线资源管理器从（0，1）均匀分布中获取一个随机数，若该随机数大于

，则无线资源管理器为每一个基站随机选择一个有效的动作；若随机数小于或者等于

则无线资源管理器将

输入步骤S1中的网络G，每个基站将会获得一个回报值最大的动作

；执行动作

，无线资源管理器将会接收到系统回报值

，并观察到下一时刻的网络状态向量

；

S22、无线资源系统管理器设置两个超参数

和一个阈值

，计算即时回报，

，其中

表示从系统中获取的每个基站中各切片SSR的均值，其中

的取值为3~6，

的取值为1~3，

的取值为0.75~1；

S23、无线资源管理器将

四元组储存到一个大小为

的缓存区F里，所述

为3000~10000。

作为优选，所述步骤S3包含以下过程：从缓存区F中选取p个四元组作为训练样本，将样本中的p个网络状态向量

组合成矩阵

，并将其输入到步骤S1中构建的算法网络结构G中，得到p个状态下执行不同动作产生的回报值，分别选取

对应的回报值，记作当前网络参数下预测到的回报值

，将样本中的p个网络状态向量

组合成矩阵

,并将其输入到步骤S1中构建的目标网络

中，得到p个状态下执行不同动作产生的回报值，选取最大的回报值，记作

，算法网络结构G的损失函数为：

，其中，

为每条样本对应的即时回报，

为折扣因子，取0.75~0.9，应用批梯度下降法训练算法网络结构G的权重参数。

作为优选，所述步骤S5包含以下过程：无线资源管理器将当前网络状态向量

输入算法网络结构G中，算法网络结构G为每个基站主体输出每个动作对应的回报值，选取最大的回报值对应的动作作为当前基站的分配策略，并执行。

作为优选，所述X的取值为100~500，所述

的取值为500~3000，所述

的取值为1000~5000。

作为优选，所述四元组个数p为32或者64。

作为优选，所述批梯度下降法为Adam，学习率为0.001。

作为优选，所述子步骤S21中

初始值为0，每运行一步就会依据

进行增加，其中

取值为0.85~0.95，train_step是当前时刻训练步数，decay_step的取值为2000~4000。

与现有技术相比，本发明的有益效果是：

（1）本发明利用图注意力机制对状态向量进行预处理，在通信条件有限的情况下，加强了基站之间的协同合作。通过网络训练，获取周围基站对当前基站的影响权重，增大有效变量的正面影响，减少噪声带来的负面影响，增强系统的鲁棒性。

（2）本发明利用深度强化学习方法对状态动作值函数进行估计，选择最优的资源分配策略，强化学习算法可以通过与环境交互产生训练所需要的样本数据，不需要任何经验假设以及对于状态动作函数分布的先验假设，可以适应更多更复杂的场景，有更好的灵活性。

（3）本发明得到通过多基站协同获得的无线资源分配策略相较于传统均分资源以及数值分析算法，能得到更高的系统回报值，即在保证基本的用户服务满意率的同时提高频谱资源利用率，从而提升用户体验。

附图说明

图1为本发明图注意力机制强化学习的多基站协同无线网络资源分配方法的流程图；

图2显示了当用下文实施例中具体参数时，本发明方法与DQN的资源分配算法以及平均分配方法的系统回报值在无线资源分配过程中的变化情况。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，下面结合附图详予说明。

参阅图1，为本发明基于图注意力机制强化学习的多基站协同无线网络资源分配方法的流程图，具体包括以下步骤：

S1、算法网络结构G和目标网络

搭建以及初始化，具体包括以下子步骤：

S11、该方法的算法网络结构G包括状态向量编码网络（Embed）、图注意力机制网络（GAT）以及深度Q网络（DQN）三个部分。

S12、其中状态向量编码网络由两层全连接网络构成，记作

，（1）

其中

、

是该层的权重矩阵，

是“ReLu”激活函数。将多主体强化学习中的N维状态向量

（第m个主体的状态向量）输入到Embed中，输出K维经过编码的向量

。

和

（其中

表示当前主体m在有向图中的相邻节点上的主体集合，用欧式距离作为有向图构建的标准）作为图注意力机制网络的输入向量，用于计算注意力影响系数，并对注意力影响系数进行归一化处理，

，（2）

，（3）

将归一化后的注意力影响系数与输入向量相乘，通过公式（4）计算图注意力机制网络的第一层输出，多头注意力机制参数K的取值为2~20。

，（4）

将以上计算注意力影响系数、归一化、计算输出等三个步骤用如下公式进行分装表示，

，（5）

图注意力机制网络一共有两层，第二层的结构和第一层基本相同，用如下公式表示，

，（6）

其中，

、

、

是该层的权重矩阵，是待训练的网络参数。

S14、深度Q网络是由多层全连接网络组成的，将通过两层图注意力机制网络处理过后的输出向量

作为DQN的输入，输出当前状态下执行不同动作的回报值，选取并执行回报最高的动作与环境交互。

S15、明确网络结构后，通过高斯分布随机初始化算法网络中的权重矩阵。同时构建一个目标网络

，其网络结构与上述图注意力机制强化学习网络G完全相同，并通过复制G权重参数的方法完成自身权重初始化。

S2、执行资源分配，具体包括以下子步骤：

。无线资源管理器从（0，1）均匀分布中获取一个随机数，如果该随机数大于

，则无线资源管理器为每一个基站随机选择一个有效的动作。如果随机数小于或者等于

则无线资源管理器将

。执行动作

，无线资源管理器将会接收到系统回报值

，并观察到下一时刻的网络状态向量

。

初始值为0，每运行一步就会依据

进行增加，其中

S22、无线资源系统管理器设置两个超参数

和一个阈值

，通过如下公式计算即时回报，

，（7）

其中

表示从系统中获取的每个基站中各切片SSR的均值。设置

的取值为3~6，

的取值为1~3，

的取值为0.75~1。

S23、无线资源管理器将

四元组储存到一个大小为

的缓存区F里，

的取值为3000~10000。如果F空间满了，则采用先进先出的方法，删除最先存入的四元组，存入最新的四元组。

S3、先重复执行步骤S2的资源分配

次，

的取值为500~3000使得缓存区有足够的数据用于训练当前的网络参数，训练网络G的过程如下：

从缓存区F中选取p个四元组作为训练样本，p取32或者64。将样本中的p个网络状态向量

组合成矩阵

,并将其输入到步骤S1中构建的算法网络结构G中，得到p个状态下执行不同动作产生的回报值，分别选取

对应的回报值，记作当前网络参数下预测到的回报值

。

将样本中的p个网络状态向量

组合成矩阵

,并将其输入到步骤S1中构建的目标网络

。

G网络的损失函数为：

其中，

为每条样本对应的即时回报，

为折扣因子，其取值范围为0.75~0.9。应用批梯度下降法训练算法网络结构G的权重参数，选用Adam作为优化器，学习率设置为0.001。

S4、每完成步骤S3中算法网络结构G训练X次，X取100~500，将G网络权重参数赋值给目标网络

，实现目标网络

的更新。

S5、步骤S3执行

次后，

的取值为1000~5000，完成算法网络结构G的训练过程。无线资源管理器将当前网络状态向量

输入算法网络结构G中，算法网络结构G输出为每个基站主体输出每个动作对应的回报值，选取最大的回报值对应的动作作为当前基站的分配策略，并执行。

在配置如表1所示的服务器上，采用Python语言编写了仿真环境，用keras搭建网络框架，并以3种不同类型服务（通话、视频和超可靠低延时服务）为例进行测试。系统中共有19个基站，即M=19，呈蜂窝状排布，每个基站的总带宽为10M，分配的颗粒度设置为0.5M，所以总共有171种分配策略，即有效动作的数量为171。设置折扣因子

为0.9，多头注意力系数K=8。此外，

取值为0.95，decay_step的取值为2000。缓存区

的大小为5000，

的取值为2000，

的取值为2000。训练算法网络结构G所使用的批梯度下降算法中的优化器为Adam，学习率均为0.001。其他参数情况如下：

。

表1系统测试平台参数

将本发明的方法与基于DQN的资源分配算法、均分法进行比较：图2显示了三种方法得到的系统回报值在无线资源分配过程中的变化，其中系统回报值表示的是19个基站的平均回报值。图中阴影部分表示实际每一次迭代的系统回报值，为便于分析，取每50步的中值绘制曲线。分析图中的曲线得出，在前4000步由于DQN网络和本发明均需要进行网络参数训练，导致回报值较均分法波动相对来说更大且中值回报更低。当网络训练结束，也就是4000步之后，DQN和本发明较均分法的系统回报值有明显提升，且本方法的更胜一筹，具有更好的系统稳定性以及更高的系统回报值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。