CN111182637B

CN111182637B - 一种基于生成对抗强化学习的无线网络资源分配方法

Info

Publication number: CN111182637B
Application number: CN201911347500.1A
Authority: CN
Inventors: 李荣鹏; 华郁秀; 马琳; 张宏纲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-06-21
Anticipated expiration: 2039-12-24
Also published as: US11452077B2; CN111182637A; WO2021128805A1; US20220232531A1

Abstract

本发明公开了一种基于生成对抗强化学习的无线网络资源分配方法，属于无线资源分配以及强化学习领域。该方法包括：生成器网络G和鉴别器网络D的初始化，执行资源分配，训练生成器网络G和鉴别器网络D的权重，最后实现无线网络资源分配。本发明得到的资源分配策略相较于基于DQN的资源分配方法以及平均分配资源的方法，能得到更高的系统回报值，即更高的频谱效率和更好的用户体验。

Description

一种基于生成对抗强化学习的无线网络资源分配方法

技术领域

本发明涉及无线网络资源分配以及强化学习领域，更具体地，涉及一种基于生成对抗强化学习的无线网络资源分配方法。

背景技术

5G网络将支持大量来自垂直行业的多样化业务场景，例如智能安防、高清视频、远程医疗、智能家居、自动驾驶和增强现实等，这些业务场景通常具有不同的通信需求，比如增强现实技术需要更低的时延，自动驾驶技术需要网络提供更高的可靠性。然而，传统移动网络主要被设计用来服务单一的移动宽带业务，无法适应未来5G多样化的业务场景。如果为每种业务场景都建设一个专有的物理网络必然会导致网络运维复杂、成本昂贵以及可扩展性差等问题。

为了解决上述问题，网络切片技术应运而生。具体地，在一个共同的物理网络上，网络和计算等资源可以被划分成多个切片以满足不同的需求。这使得网络租户可以根据特定的要求来编排和配置不同的网络切片实例，从而有效地降低成本，提高网络的灵活性。

为了提供性能更好，成本更低的服务，无线接入网(Radio Access Network，RAN)切片在实现对现有切片上的资源进行实时管理方面面临一些具有挑战性的技术问题：(a)对于RAN，频谱是一种稀缺资源，因此保证频谱效率(Spectrum Efficiency，SE)至关重要；(b)切片租户的服务水平协议(Service Level Agreement，SLA)通常对用户的体验质量(Quality of Experience，QoE)提出严格要求；(c)每个切片的实际资源需求很大程度上取决于用户的请求模式。

传统的专用资源分配无法同时解决这些问题。因此，有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片，以便在获得令人满意的QoE的同时保持较高的SE。

另一方面，强化学习是一种致力于寻求最优决策的机器学习方法，主体感知环境状中的状态信息，搜索可以产生最大累计回报(这种累计回报也被称为动作值)的动作，执行该动作从而引起状态的改变并得到一个即时回报值，更新对累计回报的估计(动作值函数)，完成一次学习过程，进入下一轮的学习训练，重复循环迭代，直到满足学习终止条件。

然而传统的基于动作值学习的方法(如深度Q网络)难以应付环境中存在的干扰和即时回报的不确定性，因此人们引入了分布强化学习，其主要变化在于直接对动作值分布进行估计，而不像传统方法那样估计动作值的期望。

生成对抗网络最先被用来生成能够以假乱真的图像，后来逐渐被很多领域用作数据生成的工具。生成对抗网络由两个神经网络组成，分别是生成网络和判别网络。以生成图像为例，生成网络负责将从高斯白噪声中采样得到的数据映射到真实图像的空间，得到生成出来的“假”的图像；然后“假”图像和真实图像会被打乱输入判别网络，判别网络输出所给图像是真实图像的概率。生成网络的目标是产生尽可能逼真的图像，以迷惑判别网络；判别网络的目标是尽可能准确地区分“假”图像和真实图像。两个神经网络交替训练，最终会达到纳什均衡，在这个平衡点上，生成网络产生的图像和真实图像已不能被判别网络区分。

发明内容

针对现有技术存在的问题，本发明提出了一种基于生成对抗强化学习的无线网络资源分配方法。相较于传统的专用资源分配方法，本发明提出的方法更加的高效灵活；对比其他基于强化学习的方法，本发明提出的方法能够减少通信环境中的干扰因素和即时回报的不确定性带来的负面影响。因此，采用生成对抗强化学习算法进行无线网络资源分配，可大幅提高无线网络性能。

为了实现上述目的，本发明采用如下技术方案：一种基于生成对抗强化学习的无线网络资源分配方法，该方法具有以下步骤：

(1)生成器网络G和鉴别器网络D的初始化，具体包括以下子步骤：

(1.1)生成对抗强化学习算法中包含两个神经网络，记作生成器网络G和鉴别器网络D，通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化。同时，设置

网络，其中，

网络的结构与所述生成器网络G的结构完全相同，并通过复制生成器网络G权重的方法完成自身权重初始化。

(1.2)所述生成器网络G输入强化学习中的状态s，输出N_a×N维向量，将生成器网络G输出的N_a×N维向量顺序切分，得到N_a个N维向量；所述鉴别器网络D输入N维向量，该向量取自生成器网络G的输出或者通过

网络输出与即时回报r计算得到，通过全连接神经网络计算，输出一个标量。

其中，N表示对Z(s，a)采样的样本个数，N_a个N维向量中第i个向量表示第i个动作得到的总体回报的分布的采样值，Z(s，a)表示网络状态s下动作a得到的总体回报的分布，网络状态s为一个时间间隔内每种类型服务请求的数量，动作a代表为每种类型服务分配的带宽大小，N_a为有效动作的数量。

(2)执行资源分配，具体包括以下子步骤：

(2.1)无线资源管理器获取当前t时刻网络状态向量s_t。无线资源管理器从(0，1)均匀分布中获取一个随机数，如果该随机数小于∈，无线资源管理器随机选择一个有效的动作。如果该随机数大于或等于∈，无线资源管理器将s_t输入所述生成器网络G，得到N_a个动作的总体回报分布的采样值，然后选取总体回报均值最大的动作，记这一步无线资源管理器采取的动作为a_t。当执行了动作a_t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态向量s_t+1。

(2.2)无线资源管理器设置两个阈值c₁和c₂(c₁＞c₂)，并规定当J＞c₁时，t时刻的即时回报r_t＝ξ；当c₂＜J＜c₁时，t时刻的即时回报r_t＝0；当J＜c₂时，t时刻的即时回报r_t＝-ξ。

(2.3)无线资源管理器将(s_t，a_t，r_t，s_t+1)四元组储存到一个大小为N_B的缓存区

里。如果

的空间满了，最先存到

中的四元组会被删除，然后存进去最新的四元组。

(3)每执行步骤2的资源分配K次，再利用

中储存的四元组训练生成器网络G和鉴别器网络D的权重。

(3.1)首先训练鉴别器网络D，具体过程为：

从

中随机选取m个四元组(s_t，a_t，r_t，s_t+1)作为训练数据。

将训练数据中的m个网络状态向量s_t组合成m×N_s的矩阵[s₁，s₂，…s_m]^T，并将其输入生成器网络G，得到m个状态下每个动作产生的总体回报分布的采样，然后保留a₁，a₂，…a_m对应的采样值，记作G(s₁)，G(s₂)，…G(s_m)。N_s为服务类型的数量，G(s_m)为在网络状态向量s_m下采取动作a_m，得到的N个回报采样值，记为估计动作值分布的采样值。

将训练数据中的m个网络状态向量s_t+1组合成m×N_s的矩阵[s₁，s₂，…s_m]^T，并将其输入

网络，得到m个状态下每个动作产生的总体回报分布的采样，然后保留每个状态下产生的最大总体回报均值的采样，记作

令

其中，y_i为目标动作值分布的采样值，r为即时回报，γ为折扣因子。

从(0，1)均匀分布中随机获取m个样本，记作ε₁，ε₂，…ε_m，

令

其中，

为目标动作值分步采样值和估计动作值分布采样值的加权和。

鉴别器网络D的损失函数为：

其中，D(G(s_i))表示输入为G(s_i)时，鉴别器网络D的输出；D(y_i)表示输入为y_i时，鉴别器网络D的输出；

表示输入为

时，鉴别器网络D的输出；

表示

关于

求导得到的梯度值，λ为惩罚因子。然后用梯度下降算法训练鉴别器网络D的权重，完成一次鉴别器网络D的训练。

(3.2)训练鉴别器网络D n_d次后，获得鉴别器网络D的最新权重值，参与训练生成器网络G。

生成器网络G的损失函数L_G为

然后应用梯度下降算法训练生成器网络G的权重。

(3.3)每完成上述训练过程C次，将生成器网络G的权重复制给

网络，实现

网络权重的更新。

(4)步骤(3)执行N_train次后，完成对鉴别器网络D和生成器网络G的训练。无线资源管理器将当前网络状态向量s_t输入生成器网络G，生成器网络G输出每个资源分配策略对应的总体回报分布的采样，然后分别计算每个资源分配策略回报采样的均值，取最大均值对应的动作作为无线资源管理器对应的资源分配策略。

进一步地，折扣因子γ为0.75～0.9。

进一步地，N的取值为30～55。

进一步地，∈初始值为0.9，每运行100次算法减少0.05，当减小到0.05时保持不变；ξ为0.8～1.5。

进一步地，缓存区

的大小N_B为3000～10000。

进一步地，n_d的取值为1～10；四元组个数m为32或64。

进一步地，惩罚因子λ为10，20或30。

进一步地，训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam，学习率均为0.001。

进一步地，执行资源分配次数K为10～50。

进一步地，N_train的取值为2000～3000。

与现有技术相比，本发明的有益效果是：

(1)本发明利用强化学习方法对动作值的分布进行估计。相较于传统估计动作值期望的方法，本发明提出的学习方法具有更好的稳定性和自适应性，能使无线资源管理器从存在噪声干扰和随机性的系统环境中学习到最优的资源分配策略。

(2)本发明采用生成器和鉴别器两个神经网络交替训练的方法，学习动作值的分布。相较于传统的学习随机变量分布的方法，本发明不需要任何对动作值分布的先验假设。

(3)本发明得到的资源分配策略相较于基于流量预测结果分配资源以及平均分配资源的方法，能得到更高的系统回报值，即更高的频谱效率和更好的用户体验。

附图说明

图1为本发明生成对抗强化学习的无线网络资源分配方法流程图；

图2显示了当超可靠低时延服务的数据包大小从{6.4，12.8，19.2，25.6，32}Kbyte中均匀取值的时，本发明方法与DQN的资源分配算法、平均分配的方法的系统回报值在无线资源分配过程中的变化；

图3显示了当超可靠低时延服务的数据包大小从{0.3，0.4，0.5，0.6，0.7}Mbyte中均匀取值的时，本发明方法与DQN的资源分配算法、平均分配的方法的系统回报值在无线资源分配过程中的变化。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，一下结合附图详予说明。

参阅图1，为本发明生成对抗强化学习的无线网络资源分配方法流程图，具体包括以下步骤：

(1.1)生成对抗强化学习算法中包含两个神经网络，记作生成器网络G和鉴别器网络D，通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化。为了增强算法的收敛性，设置

网络，其中，

(1.2)所述生成器网络G输入强化学习中的状态s，输出N_a×N维向量，将生成器网络G输出的N_a×N维向量顺序切分，得到N_a个N维向量，N的取值为30～50，N过小的话不能充分刻画动作值分布，N过大会增加计算量。所述鉴别器网络D输入N维向量，该向量取自生成器网络G的输出或者通过

(2)执行资源分配，具体包括以下子步骤：

(2.1)无线资源管理器获取当前t时刻网络状态向量s_t。无线资源管理器从(0，1)均匀分布中获取一个随机数，如果该随机数小于∈，无线资源管理器随机选择一个有效的动作。如果该随机数大于或等于∈，无线资源管理器将s_t输入所述生成器网络G，得到N_a个动作的总体回报分布的采样值，然后选取总体回报均值最大的动作，记这一步无线资源管理器采取的动作为a_t。当执行了动作a_t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态向量s_t+1。这里，∈初始值为0.9，每运行100次算法减少0.05，当减小到0.05时保持不变。

(2.2)无线资源管理器设置两个阈值c₁和c₂(c₁＞c₂)，并规定当J＞c₁时，t时刻的即时回报r_t＝ξ；当c₂＜J＜c₁时，t时刻的即时回报r_t＝0；当J＜c₂时，t时刻的即时回报r_t＝-ξ；ξ的取值为0.8～1.5，ξ过小会减慢收敛速度，ξ过大会破坏训练过程的稳定性。

里，N_B的大小为3000～10000，N_B过小会破坏训练过程的稳定性，N_B过大会增加计算量。如果

的空间满了，最先存到

和的四元组会被删除，然后存进去最新的四元组。

(3)每执行步骤2的资源分配K次，K的取值为10～50，K过小会增加计算量，K过大会减慢收敛速度；再利用

中储存的四元组训练生成器网络G和鉴别器网络D的权重。

(3.1)首先训练鉴别器网络D，具体过程为：

从

中随机选取m个四元组(s_t，a_t，r_t，s_t+1)作为训练数据，m的取值为32或64。

令

其中，y_i为目标动作值分布的采样值，r为即时回报，γ为折扣因子，取值为0.75～0.9，γ过小或过大都会导致无线资源管理器在任何网络状态下都无法采取最优动作。

令

其中，

鉴别器网络D的损失函数为：

表示输入为

时，鉴别器网络D的输出；

表示

关于

求导得到的梯度值，λ为惩罚因子，取值为10，20或30，λ过小会减弱惩罚项的作用，λ过大会使得鉴别器网络D过早收敛，不利于生成器网络G的训练。然后用梯度下降算法训练鉴别器网络D的权重，完成一次鉴别器网络D的训练。

(3.2)训练鉴别器网络D n_d次后，获得鉴别器网络D的最新权重值，参与训练生成器网络G，n_d的取值为1～10，n_d过大会使得鉴别器网络D过早收敛，不利于生成器网络G的训练。

生成器网络G的损失函数L_G为

然后应用梯度下降算法训练生成器网络G的权重。

训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam，学习率均为0.001，学习率过小会减慢收敛速度，学习率过大会导致训练过程不稳定。

(3.3)每完成上述训练过程C次，将生成器网络G的权重复制给

网络，实现

网络权重的更新，C的取值为50～200，C过小会导致训练过程不稳定，C过大会减慢收敛速度。

(4)步骤(3)执行N_train次后，N_train的取值为2000～3000，完成对鉴别器网络D和生成器网络G的训练，N_train过小会导致无线资源管理器在任何网络状态下都无法采取最优动作，N_train过大会增加计算量。无线资源管理器将当前网络状态向量s_t输入生成器网络G，生成器网络G输出每个资源分配策略对应的总体回报分布的采样，然后分别计算每个资源分配策略回报采样的均值，取最大均值对应的动作作为无线资源管理器对应的资源分配策略。

实施例

在配置如表1所示的主机上，采用Python语言编写了仿真环境，并以3种不同类型服务(通话、视频和超可靠低延时服务)为例进行测试。需要分配的资源为无线带宽，总带宽为10M，分配的颗粒度为1M，所以总共有36种分配策略，即有效动作的数量为36。设置折扣因子γ为0.9，对总体回报分布采样的样本个数N为50，∈初始值为0.9，每运行100次算法减少0.05，当减小到0.05时保持不变。缓存区

的大小N_B为10000。G网络输入层有3个神经元，第一隐藏层有512个神经元，第二隐藏层有512个神经元，输出层有1800个神经元。D网络输入层有50个神经元，第一隐藏层有256个神经元，第二隐藏层有256个神经元，输出层有1个神经元。D网络损失函数中的惩罚因子λ为30。训练G网络和D网络所使用的梯度下降算法均为Adam，学习率均为0.001。其他参数为ξ＝1.5，K＝50，n_d＝5，m＝64，C＝200。

表1系统测试平台参数

处理器	Intel i7-6900K 3.2GHZ
		内存	16G DDR
显卡	NVIDIA Titan X
		软件平台	Pytorch 1.0

将本发明的方法与基于DQN的资源分配算法、平均分配的方法进行比较：图2显示了三种方法得到的系统回报值在无线资源分配过程中的变化，从图中可以看出，随着迭代次数的增加，本发明提出的方法具有更好的稳定性。需要注意的事，在这个仿真中，超可靠低时延服务的数据包大小是从{6.4，12.8，19.2，25.6，32}KByte中均匀取值的，由于数据包很小，超可靠低时延服务的性能要求很容易满足，所以本发明提出的方法和基于DQN的方法都能取得很高的系统回报值。图3显示的是当超可靠低时延服务的数据包大小是从{0.3，0.4，0.5，0.6，0.7}MByte中均匀取值的情况。从图中可以看出，由于超可靠低时延服务的数据包很大，三种方法得到的系统回报值都有降低，但是本发明提出的方法得到的系统回报值要比DQN更高。

随后，再次设置折扣因子γ为0.75，对总体回报分布采样的样本个数N为30，∈初始值为0.9，每运行100次算法减少0.05，当减小到0.05时保持不变。缓存区

的大小N_B为3000。G网络输入层有3个神经元，第一隐藏层有512个神经元，第二隐藏层有512个神经元，输出层有1080个神经元。D网络输入层有50个神经元，第一隐藏层有256个神经元，第二隐藏层有256个神经元，输出层有1个神经元。D网络损失函数中的惩罚因子λ为10。训练G网络和D网络所使用的梯度下降算法均为Adam，学习率均为0.001。其他参数为ξ＝0.8，K＝10，n_d＝1，m＝32，C＝50。通过上述参数设置，采用本发明的方法进行无线网络资源分配，该方法仍然具有较好的稳定性和较高的系统回报值。

Claims

1.一种基于生成对抗强化学习的无线网络资源分配方法，其特征在于，该方法具有以下步骤：

(1.1)生成对抗强化学习算法中包含两个神经网络，记作生成器网络G和鉴别器网络D，通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化；同时，设置

网络，其中，

网络的结构与所述生成器网络G的结构完全相同，并通过复制生成器网络G权重的方法完成自身权重初始化；

网络输出与即时回报r计算得到，通过全连接神经网络计算，输出一个标量；

其中，N表示对Z(s，a)采样的样本个数，N_a个N维向量中第i个向量表示第i个动作得到的总体回报的分布的采样值，Z(s，a)表示网络状态s下动作a得到的总体回报的分布，网络状态s为一个时间间隔内每种类型服务请求的数量，动作a代表为每种类型服务分配的带宽大小，N_a为有效动作的数量；

(2)执行资源分配，具体包括以下子步骤：

(2.1)无线资源管理器获取当前t时刻网络状态向量s_t；无线资源管理器从(0，1)均匀分布中获取一个随机数，如果该随机数小于∈，无线资源管理器随机选择一个有效的动作；如果该随机数大于或等于∈，无线资源管理器将s_t输入所述生成器网络G，得到N_a个动作的总体回报分布的采样值，然后选取总体回报均值最大的动作，记这一步无线资源管理器采取的动作为a_t；当执行了动作a_t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态向量s_t+1；

(2.2)无线资源管理器设置两个阈值c₁和c₂，其中c₁＞c₂，并规定当J＞c₁时，t时刻的即时回报r_t＝ξ；当c₂＜J＜c₁时，t时刻的即时回报r_t＝0；当J＜c₂时，t时刻的即时回报r_t＝-ξ；

(2.3)无线资源管理器将(s_t，a_t，rt，s_t+1)四元组储存到一个大小为N_B的缓存区

里；如果

的空间满了，最先存到

中的四元组会被删除，然后存进去最新的四元组；

(3)每执行步骤(2)的资源分配K次，再利用

中储存的四元组训练生成器网络G和鉴别器网络D的权重；

(3.1)首先训练鉴别器网络D，具体过程为：

从

中随机选取m个四元组(s_t，a_t，r_t，s_t+1)作为训练数据；

将训练数据中的m个网络状态向量s_t组合成m×N_s的矩阵[s₁，s₂，…s_m]^T，并将其输入生成器网络G，得到m个状态下每个动作产生的总体回报分布的采样，然后保留a₁，a₂，…a_m对应的采样值，记作G(s₁)，G(s₂)，…G(s_m)；N_s为服务类型的数量，G(s_m)为在网络状态向量s_m下采取动作a_m，得到的N个回报采样值，记为估计动作值分布的采样值；

将训练数据中的m个网络状态向量s_t+1组合成m×N_s的矩阵[s₁′，s₂′，…s_m′]^T，并将其输入