CN111182637B - 一种基于生成对抗强化学习的无线网络资源分配方法 - Google Patents

一种基于生成对抗强化学习的无线网络资源分配方法 Download PDF

Info

Publication number
CN111182637B
CN111182637B CN201911347500.1A CN201911347500A CN111182637B CN 111182637 B CN111182637 B CN 111182637B CN 201911347500 A CN201911347500 A CN 201911347500A CN 111182637 B CN111182637 B CN 111182637B
Authority
CN
China
Prior art keywords
network
value
action
generator
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911347500.1A
Other languages
English (en)
Other versions
CN111182637A (zh
Inventor
李荣鹏
华郁秀
马琳
张宏纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911347500.1A priority Critical patent/CN111182637B/zh
Publication of CN111182637A publication Critical patent/CN111182637A/zh
Priority to PCT/CN2020/100753 priority patent/WO2021128805A1/zh
Priority to US17/708,059 priority patent/US11452077B2/en
Application granted granted Critical
Publication of CN111182637B publication Critical patent/CN111182637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于生成对抗强化学习的无线网络资源分配方法,属于无线资源分配以及强化学习领域。该方法包括:生成器网络G和鉴别器网络D的初始化,执行资源分配,训练生成器网络G和鉴别器网络D的权重,最后实现无线网络资源分配。本发明得到的资源分配策略相较于基于DQN的资源分配方法以及平均分配资源的方法,能得到更高的系统回报值,即更高的频谱效率和更好的用户体验。

Description

一种基于生成对抗强化学习的无线网络资源分配方法
技术领域
本发明涉及无线网络资源分配以及强化学习领域,更具体地,涉及一种基于生成对抗强化学习的无线网络资源分配方法。
背景技术
5G网络将支持大量来自垂直行业的多样化业务场景,例如智能安防、高清视频、远程医疗、智能家居、自动驾驶和增强现实等,这些业务场景通常具有不同的通信需求,比如增强现实技术需要更低的时延,自动驾驶技术需要网络提供更高的可靠性。然而,传统移动网络主要被设计用来服务单一的移动宽带业务,无法适应未来5G多样化的业务场景。如果为每种业务场景都建设一个专有的物理网络必然会导致网络运维复杂、成本昂贵以及可扩展性差等问题。
为了解决上述问题,网络切片技术应运而生。具体地,在一个共同的物理网络上,网络和计算等资源可以被划分成多个切片以满足不同的需求。这使得网络租户可以根据特定的要求来编排和配置不同的网络切片实例,从而有效地降低成本,提高网络的灵活性。
为了提供性能更好,成本更低的服务,无线接入网(Radio Access Network,RAN)切片在实现对现有切片上的资源进行实时管理方面面临一些具有挑战性的技术问题:(a)对于RAN,频谱是一种稀缺资源,因此保证频谱效率(Spectrum Efficiency,SE)至关重要;(b)切片租户的服务水平协议(Service Level Agreement,SLA)通常对用户的体验质量(Quality of Experience,QoE)提出严格要求;(c)每个切片的实际资源需求很大程度上取决于用户的请求模式。
传统的专用资源分配无法同时解决这些问题。因此,有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片,以便在获得令人满意的QoE的同时保持较高的SE。
另一方面,强化学习是一种致力于寻求最优决策的机器学习方法,主体感知环境状中的状态信息,搜索可以产生最大累计回报(这种累计回报也被称为动作值)的动作,执行该动作从而引起状态的改变并得到一个即时回报值,更新对累计回报的估计(动作值函数),完成一次学习过程,进入下一轮的学习训练,重复循环迭代,直到满足学习终止条件。
然而传统的基于动作值学习的方法(如深度Q网络)难以应付环境中存在的干扰和即时回报的不确定性,因此人们引入了分布强化学习,其主要变化在于直接对动作值分布进行估计,而不像传统方法那样估计动作值的期望。
生成对抗网络最先被用来生成能够以假乱真的图像,后来逐渐被很多领域用作数据生成的工具。生成对抗网络由两个神经网络组成,分别是生成网络和判别网络。以生成图像为例,生成网络负责将从高斯白噪声中采样得到的数据映射到真实图像的空间,得到生成出来的“假”的图像;然后“假”图像和真实图像会被打乱输入判别网络,判别网络输出所给图像是真实图像的概率。生成网络的目标是产生尽可能逼真的图像,以迷惑判别网络;判别网络的目标是尽可能准确地区分“假”图像和真实图像。两个神经网络交替训练,最终会达到纳什均衡,在这个平衡点上,生成网络产生的图像和真实图像已不能被判别网络区分。
发明内容
针对现有技术存在的问题,本发明提出了一种基于生成对抗强化学习的无线网络资源分配方法。相较于传统的专用资源分配方法,本发明提出的方法更加的高效灵活;对比其他基于强化学习的方法,本发明提出的方法能够减少通信环境中的干扰因素和即时回报的不确定性带来的负面影响。因此,采用生成对抗强化学习算法进行无线网络资源分配,可大幅提高无线网络性能。
为了实现上述目的,本发明采用如下技术方案:一种基于生成对抗强化学习的无线网络资源分配方法,该方法具有以下步骤:
(1)生成器网络G和鉴别器网络D的初始化,具体包括以下子步骤:
(1.1)生成对抗强化学习算法中包含两个神经网络,记作生成器网络G和鉴别器网络D,通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化。同时,设置
Figure BDA0002333801020000021
网络,其中,
Figure BDA0002333801020000022
网络的结构与所述生成器网络G的结构完全相同,并通过复制生成器网络G权重的方法完成自身权重初始化。
(1.2)所述生成器网络G输入强化学习中的状态s,输出Na×N维向量,将生成器网络G输出的Na×N维向量顺序切分,得到Na个N维向量;所述鉴别器网络D输入N维向量,该向量取自生成器网络G的输出或者通过
Figure BDA0002333801020000023
网络输出与即时回报r计算得到,通过全连接神经网络计算,输出一个标量。
其中,N表示对Z(s,a)采样的样本个数,Na个N维向量中第i个向量表示第i个动作得到的总体回报的分布的采样值,Z(s,a)表示网络状态s下动作a得到的总体回报的分布,网络状态s为一个时间间隔内每种类型服务请求的数量,动作a代表为每种类型服务分配的带宽大小,Na为有效动作的数量。
(2)执行资源分配,具体包括以下子步骤:
(2.1)无线资源管理器获取当前t时刻网络状态向量st。无线资源管理器从(0,1)均匀分布中获取一个随机数,如果该随机数小于∈,无线资源管理器随机选择一个有效的动作。如果该随机数大于或等于∈,无线资源管理器将st输入所述生成器网络G,得到Na个动作的总体回报分布的采样值,然后选取总体回报均值最大的动作,记这一步无线资源管理器采取的动作为at。当执行了动作at,无线资源管理器接收到系统回报值J,并观察到t+1时刻的网络状态向量st+1
(2.2)无线资源管理器设置两个阈值c1和c2(c1>c2),并规定当J>c1时,t时刻的即时回报rt=ξ;当c2<J<c1时,t时刻的即时回报rt=0;当J<c2时,t时刻的即时回报rt=-ξ。
(2.3)无线资源管理器将(st,at,rt,st+1)四元组储存到一个大小为NB的缓存区
Figure BDA0002333801020000031
里。如果
Figure BDA0002333801020000032
的空间满了,最先存到
Figure BDA0002333801020000033
中的四元组会被删除,然后存进去最新的四元组。
(3)每执行步骤2的资源分配K次,再利用
Figure BDA00023338010200000311
中储存的四元组训练生成器网络G和鉴别器网络D的权重。
(3.1)首先训练鉴别器网络D,具体过程为:
Figure BDA00023338010200000310
中随机选取m个四元组(st,at,rt,st+1)作为训练数据。
将训练数据中的m个网络状态向量st组合成m×Ns的矩阵[s1,s2,…sm]T,并将其输入生成器网络G,得到m个状态下每个动作产生的总体回报分布的采样,然后保留a1,a2,…am对应的采样值,记作G(s1),G(s2),…G(sm)。Ns为服务类型的数量,G(sm)为在网络状态向量sm下采取动作am,得到的N个回报采样值,记为估计动作值分布的采样值。
将训练数据中的m个网络状态向量st+1组合成m×Ns的矩阵[s1,s2,…sm]T,并将其输入
Figure BDA0002333801020000034
网络,得到m个状态下每个动作产生的总体回报分布的采样,然后保留每个状态下产生的最大总体回报均值的采样,记作
Figure BDA0002333801020000035
Figure BDA0002333801020000036
其中,yi为目标动作值分布的采样值,r为即时回报,γ为折扣因子。
从(0,1)均匀分布中随机获取m个样本,记作ε1,ε2,…εm
Figure BDA0002333801020000037
其中,
Figure BDA0002333801020000038
为目标动作值分步采样值和估计动作值分布采样值的加权和。
鉴别器网络D的损失函数为:
Figure BDA0002333801020000039
其中,D(G(si))表示输入为G(si)时,鉴别器网络D的输出;D(yi)表示输入为yi时,鉴别器网络D的输出;
Figure BDA0002333801020000041
表示输入为
Figure BDA0002333801020000042
时,鉴别器网络D的输出;
Figure BDA0002333801020000043
表示
Figure BDA0002333801020000044
关于
Figure BDA0002333801020000045
求导得到的梯度值,λ为惩罚因子。然后用梯度下降算法训练鉴别器网络D的权重,完成一次鉴别器网络D的训练。
(3.2)训练鉴别器网络D nd次后,获得鉴别器网络D的最新权重值,参与训练生成器网络G。
生成器网络G的损失函数LG
Figure BDA0002333801020000046
然后应用梯度下降算法训练生成器网络G的权重。
(3.3)每完成上述训练过程C次,将生成器网络G的权重复制给
Figure BDA0002333801020000047
网络,实现
Figure BDA0002333801020000048
网络权重的更新。
(4)步骤(3)执行Ntrain次后,完成对鉴别器网络D和生成器网络G的训练。无线资源管理器将当前网络状态向量st输入生成器网络G,生成器网络G输出每个资源分配策略对应的总体回报分布的采样,然后分别计算每个资源分配策略回报采样的均值,取最大均值对应的动作作为无线资源管理器对应的资源分配策略。
进一步地,折扣因子γ为0.75~0.9。
进一步地,N的取值为30~55。
进一步地,∈初始值为0.9,每运行100次算法减少0.05,当减小到0.05时保持不变;ξ为0.8~1.5。
进一步地,缓存区
Figure BDA0002333801020000049
的大小NB为3000~10000。
进一步地,nd的取值为1~10;四元组个数m为32或64。
进一步地,惩罚因子λ为10,20或30。
进一步地,训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam,学习率均为0.001。
进一步地,执行资源分配次数K为10~50。
进一步地,Ntrain的取值为2000~3000。
与现有技术相比,本发明的有益效果是:
(1)本发明利用强化学习方法对动作值的分布进行估计。相较于传统估计动作值期望的方法,本发明提出的学习方法具有更好的稳定性和自适应性,能使无线资源管理器从存在噪声干扰和随机性的系统环境中学习到最优的资源分配策略。
(2)本发明采用生成器和鉴别器两个神经网络交替训练的方法,学习动作值的分布。相较于传统的学习随机变量分布的方法,本发明不需要任何对动作值分布的先验假设。
(3)本发明得到的资源分配策略相较于基于流量预测结果分配资源以及平均分配资源的方法,能得到更高的系统回报值,即更高的频谱效率和更好的用户体验。
附图说明
图1为本发明生成对抗强化学习的无线网络资源分配方法流程图;
图2显示了当超可靠低时延服务的数据包大小从{6.4,12.8,19.2,25.6,32}Kbyte中均匀取值的时,本发明方法与DQN的资源分配算法、平均分配的方法的系统回报值在无线资源分配过程中的变化;
图3显示了当超可靠低时延服务的数据包大小从{0.3,0.4,0.5,0.6,0.7}Mbyte中均匀取值的时,本发明方法与DQN的资源分配算法、平均分配的方法的系统回报值在无线资源分配过程中的变化。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,一下结合附图详予说明。
参阅图1,为本发明生成对抗强化学习的无线网络资源分配方法流程图,具体包括以下步骤:
(1)生成器网络G和鉴别器网络D的初始化,具体包括以下子步骤:
(1.1)生成对抗强化学习算法中包含两个神经网络,记作生成器网络G和鉴别器网络D,通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化。为了增强算法的收敛性,设置
Figure BDA0002333801020000051
网络,其中,
Figure BDA0002333801020000052
网络的结构与所述生成器网络G的结构完全相同,并通过复制生成器网络G权重的方法完成自身权重初始化。
(1.2)所述生成器网络G输入强化学习中的状态s,输出Na×N维向量,将生成器网络G输出的Na×N维向量顺序切分,得到Na个N维向量,N的取值为30~50,N过小的话不能充分刻画动作值分布,N过大会增加计算量。所述鉴别器网络D输入N维向量,该向量取自生成器网络G的输出或者通过
Figure BDA0002333801020000053
网络输出与即时回报r计算得到,通过全连接神经网络计算,输出一个标量。
其中,N表示对Z(s,a)采样的样本个数,Na个N维向量中第i个向量表示第i个动作得到的总体回报的分布的采样值,Z(s,a)表示网络状态s下动作a得到的总体回报的分布,网络状态s为一个时间间隔内每种类型服务请求的数量,动作a代表为每种类型服务分配的带宽大小,Na为有效动作的数量。
(2)执行资源分配,具体包括以下子步骤:
(2.1)无线资源管理器获取当前t时刻网络状态向量st。无线资源管理器从(0,1)均匀分布中获取一个随机数,如果该随机数小于∈,无线资源管理器随机选择一个有效的动作。如果该随机数大于或等于∈,无线资源管理器将st输入所述生成器网络G,得到Na个动作的总体回报分布的采样值,然后选取总体回报均值最大的动作,记这一步无线资源管理器采取的动作为at。当执行了动作at,无线资源管理器接收到系统回报值J,并观察到t+1时刻的网络状态向量st+1。这里,∈初始值为0.9,每运行100次算法减少0.05,当减小到0.05时保持不变。
(2.2)无线资源管理器设置两个阈值c1和c2(c1>c2),并规定当J>c1时,t时刻的即时回报rt=ξ;当c2<J<c1时,t时刻的即时回报rt=0;当J<c2时,t时刻的即时回报rt=-ξ;ξ的取值为0.8~1.5,ξ过小会减慢收敛速度,ξ过大会破坏训练过程的稳定性。
(2.3)无线资源管理器将(st,at,rt,st+1)四元组储存到一个大小为NB的缓存区
Figure BDA0002333801020000061
里,NB的大小为3000~10000,NB过小会破坏训练过程的稳定性,NB过大会增加计算量。如果
Figure BDA0002333801020000062
的空间满了,最先存到
Figure BDA0002333801020000063
和的四元组会被删除,然后存进去最新的四元组。
(3)每执行步骤2的资源分配K次,K的取值为10~50,K过小会增加计算量,K过大会减慢收敛速度;再利用
Figure BDA0002333801020000064
中储存的四元组训练生成器网络G和鉴别器网络D的权重。
(3.1)首先训练鉴别器网络D,具体过程为:
Figure BDA0002333801020000065
中随机选取m个四元组(st,at,rt,st+1)作为训练数据,m的取值为32或64。
将训练数据中的m个网络状态向量st组合成m×Ns的矩阵[s1,s2,…sm]T,并将其输入生成器网络G,得到m个状态下每个动作产生的总体回报分布的采样,然后保留a1,a2,…am对应的采样值,记作G(s1),G(s2),…G(sm)。Ns为服务类型的数量,G(sm)为在网络状态向量sm下采取动作am,得到的N个回报采样值,记为估计动作值分布的采样值。
将训练数据中的m个网络状态向量st+1组合成m×Ns的矩阵[s1,s2,…sm]T,并将其输入
Figure BDA0002333801020000066
网络,得到m个状态下每个动作产生的总体回报分布的采样,然后保留每个状态下产生的最大总体回报均值的采样,记作
Figure BDA0002333801020000067
Figure BDA0002333801020000068
其中,yi为目标动作值分布的采样值,r为即时回报,γ为折扣因子,取值为0.75~0.9,γ过小或过大都会导致无线资源管理器在任何网络状态下都无法采取最优动作。
从(0,1)均匀分布中随机获取m个样本,记作ε1,ε2,…εm
Figure BDA0002333801020000071
其中,
Figure BDA0002333801020000072
为目标动作值分步采样值和估计动作值分布采样值的加权和。
鉴别器网络D的损失函数为:
Figure BDA0002333801020000073
其中,D(G(si))表示输入为G(si)时,鉴别器网络D的输出;D(yi)表示输入为yi时,鉴别器网络D的输出;
Figure BDA0002333801020000074
表示输入为
Figure BDA0002333801020000075
时,鉴别器网络D的输出;
Figure BDA0002333801020000076
表示
Figure BDA0002333801020000077
关于
Figure BDA0002333801020000078
求导得到的梯度值,λ为惩罚因子,取值为10,20或30,λ过小会减弱惩罚项的作用,λ过大会使得鉴别器网络D过早收敛,不利于生成器网络G的训练。然后用梯度下降算法训练鉴别器网络D的权重,完成一次鉴别器网络D的训练。
(3.2)训练鉴别器网络D nd次后,获得鉴别器网络D的最新权重值,参与训练生成器网络G,nd的取值为1~10,nd过大会使得鉴别器网络D过早收敛,不利于生成器网络G的训练。
生成器网络G的损失函数LG
Figure BDA0002333801020000079
然后应用梯度下降算法训练生成器网络G的权重。
训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam,学习率均为0.001,学习率过小会减慢收敛速度,学习率过大会导致训练过程不稳定。
(3.3)每完成上述训练过程C次,将生成器网络G的权重复制给
Figure BDA00023338010200000710
网络,实现
Figure BDA00023338010200000711
网络权重的更新,C的取值为50~200,C过小会导致训练过程不稳定,C过大会减慢收敛速度。
(4)步骤(3)执行Ntrain次后,Ntrain的取值为2000~3000,完成对鉴别器网络D和生成器网络G的训练,Ntrain过小会导致无线资源管理器在任何网络状态下都无法采取最优动作,Ntrain过大会增加计算量。无线资源管理器将当前网络状态向量st输入生成器网络G,生成器网络G输出每个资源分配策略对应的总体回报分布的采样,然后分别计算每个资源分配策略回报采样的均值,取最大均值对应的动作作为无线资源管理器对应的资源分配策略。
实施例
在配置如表1所示的主机上,采用Python语言编写了仿真环境,并以3种不同类型服务(通话、视频和超可靠低延时服务)为例进行测试。需要分配的资源为无线带宽,总带宽为10M,分配的颗粒度为1M,所以总共有36种分配策略,即有效动作的数量为36。设置折扣因子γ为0.9,对总体回报分布采样的样本个数N为50,∈初始值为0.9,每运行100次算法减少0.05,当减小到0.05时保持不变。缓存区
Figure BDA0002333801020000081
的大小NB为10000。G网络输入层有3个神经元,第一隐藏层有512个神经元,第二隐藏层有512个神经元,输出层有1800个神经元。D网络输入层有50个神经元,第一隐藏层有256个神经元,第二隐藏层有256个神经元,输出层有1个神经元。D网络损失函数中的惩罚因子λ为30。训练G网络和D网络所使用的梯度下降算法均为Adam,学习率均为0.001。其他参数为ξ=1.5,K=50,nd=5,m=64,C=200。
表1系统测试平台参数
处理器 Intel i7-6900K 3.2GHZ
内存 16G DDR
显卡 NVIDIA Titan X
软件平台 Pytorch 1.0
将本发明的方法与基于DQN的资源分配算法、平均分配的方法进行比较:图2显示了三种方法得到的系统回报值在无线资源分配过程中的变化,从图中可以看出,随着迭代次数的增加,本发明提出的方法具有更好的稳定性。需要注意的事,在这个仿真中,超可靠低时延服务的数据包大小是从{6.4,12.8,19.2,25.6,32}KByte中均匀取值的,由于数据包很小,超可靠低时延服务的性能要求很容易满足,所以本发明提出的方法和基于DQN的方法都能取得很高的系统回报值。图3显示的是当超可靠低时延服务的数据包大小是从{0.3,0.4,0.5,0.6,0.7}MByte中均匀取值的情况。从图中可以看出,由于超可靠低时延服务的数据包很大,三种方法得到的系统回报值都有降低,但是本发明提出的方法得到的系统回报值要比DQN更高。
随后,再次设置折扣因子γ为0.75,对总体回报分布采样的样本个数N为30,∈初始值为0.9,每运行100次算法减少0.05,当减小到0.05时保持不变。缓存区
Figure BDA0002333801020000082
的大小NB为3000。G网络输入层有3个神经元,第一隐藏层有512个神经元,第二隐藏层有512个神经元,输出层有1080个神经元。D网络输入层有50个神经元,第一隐藏层有256个神经元,第二隐藏层有256个神经元,输出层有1个神经元。D网络损失函数中的惩罚因子λ为10。训练G网络和D网络所使用的梯度下降算法均为Adam,学习率均为0.001。其他参数为ξ=0.8,K=10,nd=1,m=32,C=50。通过上述参数设置,采用本发明的方法进行无线网络资源分配,该方法仍然具有较好的稳定性和较高的系统回报值。

Claims (1)

1.一种基于生成对抗强化学习的无线网络资源分配方法,其特征在于,该方法具有以下步骤:
(1)生成器网络G和鉴别器网络D的初始化,具体包括以下子步骤:
(1.1)生成对抗强化学习算法中包含两个神经网络,记作生成器网络G和鉴别器网络D,通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化;同时,设置
Figure FDA0003618315460000011
网络,其中,
Figure FDA0003618315460000012
网络的结构与所述生成器网络G的结构完全相同,并通过复制生成器网络G权重的方法完成自身权重初始化;
(1.2)所述生成器网络G输入强化学习中的状态s,输出Na×N维向量,将生成器网络G输出的Na×N维向量顺序切分,得到Na个N维向量;所述鉴别器网络D输入N维向量,该向量取自生成器网络G的输出或者通过
Figure FDA0003618315460000013
网络输出与即时回报r计算得到,通过全连接神经网络计算,输出一个标量;
其中,N表示对Z(s,a)采样的样本个数,Na个N维向量中第i个向量表示第i个动作得到的总体回报的分布的采样值,Z(s,a)表示网络状态s下动作a得到的总体回报的分布,网络状态s为一个时间间隔内每种类型服务请求的数量,动作a代表为每种类型服务分配的带宽大小,Na为有效动作的数量;
(2)执行资源分配,具体包括以下子步骤:
(2.1)无线资源管理器获取当前t时刻网络状态向量st;无线资源管理器从(0,1)均匀分布中获取一个随机数,如果该随机数小于∈,无线资源管理器随机选择一个有效的动作;如果该随机数大于或等于∈,无线资源管理器将st输入所述生成器网络G,得到Na个动作的总体回报分布的采样值,然后选取总体回报均值最大的动作,记这一步无线资源管理器采取的动作为at;当执行了动作at,无线资源管理器接收到系统回报值J,并观察到t+1时刻的网络状态向量st+1
(2.2)无线资源管理器设置两个阈值c1和c2,其中c1>c2,并规定当J>c1时,t时刻的即时回报rt=ξ;当c2<J<c1时,t时刻的即时回报rt=0;当J<c2时,t时刻的即时回报rt=-ξ;
(2.3)无线资源管理器将(st,at,rt,st+1)四元组储存到一个大小为NB的缓存区
Figure FDA0003618315460000014
里;如果
Figure FDA0003618315460000015
的空间满了,最先存到
Figure FDA0003618315460000016
中的四元组会被删除,然后存进去最新的四元组;
(3)每执行步骤(2)的资源分配K次,再利用
Figure FDA0003618315460000017
中储存的四元组训练生成器网络G和鉴别器网络D的权重;
(3.1)首先训练鉴别器网络D,具体过程为:
Figure FDA0003618315460000021
中随机选取m个四元组(st,at,rt,st+1)作为训练数据;
将训练数据中的m个网络状态向量st组合成m×Ns的矩阵[s1,s2,…sm]T,并将其输入生成器网络G,得到m个状态下每个动作产生的总体回报分布的采样,然后保留a1,a2,…am对应的采样值,记作G(s1),G(s2),…G(sm);Ns为服务类型的数量,G(sm)为在网络状态向量sm下采取动作am,得到的N个回报采样值,记为估计动作值分布的采样值;
将训练数据中的m个网络状态向量st+1组合成m×Ns的矩阵[s1′,s2′,…sm′]T,并将其输入
Figure FDA0003618315460000022
网络,得到m个状态下每个动作产生的总体回报分布的采样,然后保留每个状态下产生的最大总体回报均值的采样,记作
Figure FDA0003618315460000023
Figure FDA0003618315460000024
其中,yi为目标动作值分布的采样值,ri为即时回报,γ为折扣因子;所述折扣因子γ为0.75~0.9;
从(0,1)均匀分布中随机获取m个样本,记作ε1,ε2,…εm
Figure FDA0003618315460000025
其中,
Figure FDA0003618315460000026
为目标动作值分步采样值和估计动作值分布采样值的加权和;
鉴别器网络D的损失函数为:
Figure FDA0003618315460000027
其中,D(G(si))表示输入为G(si)时,鉴别器网络D的输出;D(yi)表示输入为yi时,鉴别器网络D的输出;
Figure FDA0003618315460000028
表示输入为
Figure FDA0003618315460000029
对,鉴别器网络D的输出;
Figure FDA00036183154600000210
表示
Figure FDA00036183154600000211
关于
Figure FDA00036183154600000212
求导得到的梯度值,λ为惩罚因子;然后用梯度下降算法训练鉴别器网络D的权重,完成一次鉴别器网络D的训练;
(3.2)训练鉴别器网络D nd次后,获得鉴别器网络D的最新权重值,参与训练生成器网络G;
生成器网络G的损失函数LG
Figure FDA00036183154600000213
然后应用梯度下降算法训练生成器网络G的权重;
(3.3)每完成上述训练过程C次,将生成器网络G的权重复制给
Figure FDA00036183154600000214
网络,实现
Figure FDA00036183154600000215
网络权重的更新;
(4)步骤(3)执行Ntrain次后,完成对鉴别器网络D和生成器网络G的训练;无线资源管理器将当前网络状态向量st输入生成器网络G,生成器网络G输出每个资源分配策略对应的总体回报分布的采样,然后分别计算每个资源分配策略回报采样的均值,取最大均值对应的动作作为无线资源管理器对应的资源分配策略;
其中折扣因子γ为0.75~0.9;N的取值为30~55;∈初始值为0.9,每运行100次算法减少0.05,当减小到0.05时保持不变;ξ为0.8~1.5;缓存区
Figure FDA0003618315460000031
的大小NB为3000~10000;nd的取值为1~10;四元组个数m为32或64;惩罚因子λ为10,20或30;训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam,学习率均为0.001;执行资源分配次数K为10~50;Ntrain的取值为2000~3000。
CN201911347500.1A 2019-12-24 2019-12-24 一种基于生成对抗强化学习的无线网络资源分配方法 Active CN111182637B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911347500.1A CN111182637B (zh) 2019-12-24 2019-12-24 一种基于生成对抗强化学习的无线网络资源分配方法
PCT/CN2020/100753 WO2021128805A1 (zh) 2019-12-24 2020-07-08 一种基于生成对抗强化学习的无线网络资源分配方法
US17/708,059 US11452077B2 (en) 2019-12-24 2022-03-30 Wireless network resource allocation method employing generative adversarial reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911347500.1A CN111182637B (zh) 2019-12-24 2019-12-24 一种基于生成对抗强化学习的无线网络资源分配方法

Publications (2)

Publication Number Publication Date
CN111182637A CN111182637A (zh) 2020-05-19
CN111182637B true CN111182637B (zh) 2022-06-21

Family

ID=70657430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911347500.1A Active CN111182637B (zh) 2019-12-24 2019-12-24 一种基于生成对抗强化学习的无线网络资源分配方法

Country Status (3)

Country Link
US (1) US11452077B2 (zh)
CN (1) CN111182637B (zh)
WO (1) WO2021128805A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182637B (zh) * 2019-12-24 2022-06-21 浙江大学 一种基于生成对抗强化学习的无线网络资源分配方法
US20210350223A1 (en) * 2020-05-07 2021-11-11 International Business Machines Corporation Digital content variations via external reaction
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
US20220051106A1 (en) * 2020-08-12 2022-02-17 Inventec (Pudong) Technology Corporation Method for training virtual animal to move based on control parameters
CN112702760B (zh) * 2020-12-16 2022-03-15 西安电子科技大学 一种估计小区负载方法、系统、介质、设备、终端及应用
CN112512070B (zh) * 2021-02-05 2021-05-11 之江实验室 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法
CN113473498B (zh) * 2021-06-15 2023-05-19 中国联合网络通信集团有限公司 网络切片资源编排方法、切片编排器及编排系统
US20230102494A1 (en) * 2021-09-24 2023-03-30 Hexagon Technology Center Gmbh Ai training to produce task schedules
CN113811009B (zh) * 2021-09-24 2022-04-12 之江实验室 一种基于时空特征提取的多基站网络资源智能分配方法
CN114885426B (zh) * 2022-05-05 2024-04-16 南京航空航天大学 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN115118780B (zh) * 2022-06-06 2023-12-01 支付宝(杭州)信息技术有限公司 获取资源分配模型的方法、资源分配方法及对应装置
CN115022231B (zh) * 2022-06-30 2023-11-03 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CA3022125A1 (en) * 2017-10-27 2019-04-27 Royal Bank Of Canada System and method for improved neural network training
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102403494B1 (ko) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
US11250312B2 (en) * 2017-10-31 2022-02-15 Levi Strauss & Co. Garments with finishing patterns created by laser and neural network
US11038769B2 (en) * 2017-11-16 2021-06-15 Verizon Patent And Licensing Inc. Method and system for virtual network emulation and self-organizing network control using deep generative models
EP3729857A1 (en) * 2017-12-19 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Radio coverage map generation
CN110163230A (zh) * 2018-06-15 2019-08-23 腾讯科技(深圳)有限公司 一种图像标注方法和装置
CN110046712A (zh) * 2019-04-04 2019-07-23 天津科技大学 基于生成模型的隐空间模型化策略搜索学习方法
US11048974B2 (en) * 2019-05-06 2021-06-29 Agora Lab, Inc. Effective structure keeping for generative adversarial networks for single image super resolution
CN110533221A (zh) * 2019-07-29 2019-12-03 西安电子科技大学 基于生成式对抗网络的多目标优化方法
US11152785B1 (en) * 2019-09-17 2021-10-19 X Development Llc Power grid assets prediction using generative adversarial networks
TWI753325B (zh) * 2019-11-25 2022-01-21 國立中央大學 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
CN111182637B (zh) * 2019-12-24 2022-06-21 浙江大学 一种基于生成对抗强化学习的无线网络资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3022125A1 (en) * 2017-10-27 2019-04-27 Royal Bank Of Canada System and method for improved neural network training
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning for Resource Management in Network Slicing;R.Li等;《IEEE Access》;20181119;第6卷;全文 *
Deep Reinforcement Learning With Discrete Normalized Advantage Functions for Resource Management in Network Slicing;C.Qi等;《IEEE Communications Letters》;20190614;第23卷(第8期);全文 *
GAN-Powered Deep Distributional Reinforcement Learning for Resource Management in Network Slicing;Y. Hua 等;《IEEE Journal on Selected Areas in Communications》;20191212;第38卷(第2期);第II、III节 *

Also Published As

Publication number Publication date
US11452077B2 (en) 2022-09-20
CN111182637A (zh) 2020-05-19
WO2021128805A1 (zh) 2021-07-01
US20220232531A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
CN111182637B (zh) 一种基于生成对抗强化学习的无线网络资源分配方法
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
Zhang et al. Deep reinforcement learning based resource management for DNN inference in industrial IoT
CN112668128B (zh) 联邦学习系统中终端设备节点的选择方法及装置
Zhang et al. A multi-agent reinforcement learning approach for efficient client selection in federated learning
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN110971706A (zh) Mec中近似最优化与基于强化学习的任务卸载方法
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN110213097B (zh) 一种基于资源动态分配的边缘服务供应优化方法
CN113794748B (zh) 一种性能感知的服务功能链智能部署方法及装置
CN111711666A (zh) 一种基于强化学习的车联网云计算资源优化方法
CN113407249B (zh) 一种面向位置隐私保护的任务卸载方法
CN110233755A (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN114356544A (zh) 面向边缘集群的并行计算方法和系统
CN111740925A (zh) 一种基于深度强化学习的Coflow调度方法
Wang et al. Joint service caching, resource allocation and computation offloading in three-tier cooperative mobile edge computing system
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
CN113891327A (zh) 一种基于深度多用户drqn的动态频谱接入方法
CN116302569A (zh) 一种基于用户请求信息的资源分区智能化调度方法
CN116149855A (zh) 一种微服务架构下中性能资源成本优化方法及系统
CN110392377A (zh) 一种5g超密集组网资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant