CN112512070A - 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 - Google Patents

一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 Download PDF

Info

Publication number
CN112512070A
CN112512070A CN202110157176.8A CN202110157176A CN112512070A CN 112512070 A CN112512070 A CN 112512070A CN 202110157176 A CN202110157176 A CN 202110157176A CN 112512070 A CN112512070 A CN 112512070A
Authority
CN
China
Prior art keywords
network
resource allocation
algorithm
value
network structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110157176.8A
Other languages
English (en)
Other versions
CN112512070B (zh
Inventor
李荣鹏
邵燕
郭荣斌
赵志峰
张宏纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Zhejiang Lab
Original Assignee
Zhejiang University ZJU
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Zhejiang Lab filed Critical Zhejiang University ZJU
Priority to CN202110157176.8A priority Critical patent/CN112512070B/zh
Publication of CN112512070A publication Critical patent/CN112512070A/zh
Application granted granted Critical
Publication of CN112512070B publication Critical patent/CN112512070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,该方法包括:算法网络结构G和目标网络
Figure DEST_PATH_IMAGE001
搭建以及初始化;执行资源分配;重复步骤2的资源分配
Figure DEST_PATH_IMAGE003
次,训练算法网络结构G;每完成步骤3中算法网络结构G训练X次,将算法网络结构G权重参数赋值给目标网络
Figure 791226DEST_PATH_IMAGE001
,实现目标网络
Figure 239524DEST_PATH_IMAGE001
的更新;步骤3执行
Figure DEST_PATH_IMAGE005
次后,完成算法网络结构G的训练过程。通过图注意力机制获取主体之间的内在联系,分析各个切片数据包在时空上的波动情况,相较于基于优化算法以及遗传算法的资源分配策略以及基于传统强化学习的资源分配策略,能够得到更高的系统回报,即更高的频谱效率和更好的用户体验,同时可以适应动态变化的环境,更具灵活性和鲁棒性。

Description

一种基于图注意力机制强化学习的多基站协同无线网络资源 分配方法
技术领域
本发明涉及多基站协同网络资源分配方法以及强化学习领域,更具体地,涉及基于图注意力机制强化学习的多基站协同无线网络资源分配方法,属于无线通信技术领域。
背景技术
面对飞速增长的移动数据流量,第五代(5G)移动通信网络需要为来自不同订阅者的多样化业务场景提供不同性能的网络服务,其中核心的三大应用场景分别是:(a) 增强型移动宽带(enhanced mobile broadband,eMBB),用于为用户提供稳定和高峰值的数据传输率,以满足4k/8k高清、AR/VR、全息图像等典型服务;(b) 海量机器通信(massivemachine-type communications,mMTC),用于为大规模的低传输性能要求的用户提供服务,为物联网场景提供通信保障;(c) 超可靠低时延通信(ultrareliable and low-latencycommunications, URLLC),用于为自动驾驶,远程医疗等应用提供技术保证。
如何在移动数据流量需求巨大的情况下,通过合理的资源调配策略,最大化利用通信网络资源,为不同类型的用户提供最优质的服务,是当下迫切需要解决的问题。如果使用传统的网络架构,为每一种场景构建一套专用的网络去满足不同企业客户的需求,这并不能满足5G架构的灵活性目标,同样会造成巨大的部署成本。因此,研究人员提出了网络切片(network slicing,NS)技术。网络切片技术可以依据不同用户需求灵活的分配现有的网络资源。与单一的网络相比,它可以提供更高性能的逻辑网络,灵活分配有限的带宽资源,并且各个网络资源之间合理配置,互不干扰,具有较高的可靠性和安全性。为了迎合不断变化的用户需求以及用户移动性导致的基站间的频繁切换,如何优化部署和实时调整网络切片的资源分配是当前5G业务商用面临的一个重大的挑战。其技术关键指标在于:在尽可能满足切片订阅者的服务水平协议(Service Level Agreement,SLA)以提高用户服务满意率(SSR)的同时,最大化频谱效率(Spectrum Efficiency,SE)以降低资源成本,满足更多订阅者的需求。
传统的专用资源分配方案以及基于优化算法和启发式算法的资源分配策略,往往有严格的限定条件和复杂的推导形成特定的优化问题,这样的方法缺乏灵活性和可扩展性,当用户特征以及各种性能用户的比例发生变化,这些算法都无法良好的应对。因此,有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片,以便在保证基础SSR的同时最大化SE。
强化学习通过不断地与环境进行交互,捕捉环境中的状态信息,并据此做出动作选择,以试错的方式来学习使收益最大化的最优行为策略。传统的强化学习很难处理连续或者高维的状态空间情况,因此将深度学习的预测方法引入强化学习,用深度神经网络代表状态价值函数,提出深度强化学习算法预测较大状态空间的最优动作选择策略。典型的深度强化学习代表有Deep Q Network(DQN)、Actor-Critic(A2C)等。
尽管卷积神经网络在处理结构化信息方面取得了很大的成果,但很多有趣的任务所涉及的数据无法用网格状结构表示,而是位于一个不规则的域中,这时候人们就倾向于用图去表示这种结构。人们对将卷积推广到图域的兴趣越来越大,图卷积神经网络由此不断地发展。图注意力机制作为一种代表性的图卷积神经网络机制,引入多头掩蔽注意力机制,赋予邻居节点不同的影响权重,不但可以增强图中节点的协同合作,信息聚合,同时对邻居节点的噪声更为鲁棒。
发明内容
针对上述背景问题,本发明提出一种基于图注意力机制强化学习的多基站协同无线资源分配方法。相较于传统的优化算法和启发式算法,本发明提出的方法具有更好的灵活性和可扩展性;对比其他强化学习算法,本发明提出的方法可以加强基站之间的协同合作预测数据包的变化趋势,以降低用户移动性导致的基站内用户数量变化对状态动作值函数预测的负面影响。因此,采用图注意力机制强化学习算法进行多基站协同无线网络资源分配预测,可以提高预测准确率,从而大幅提高无线网络性能。
为了实现上述目的,本发明采用如下技术方案:
一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,该方法具有以下步骤:
S1、算法网络结构G和目标网络
Figure 707928DEST_PATH_IMAGE001
搭建以及初始化;
S2、执行资源分配;
S3、重复执行步骤S2的资源分配
Figure 156227DEST_PATH_IMAGE002
次,训练算法网络结构G;
S4、每完成步骤S3中算法网络结构G训练X次,将算法网络结构G权重参数赋值给目标网络
Figure 608068DEST_PATH_IMAGE001
,实现目标网络
Figure 924649DEST_PATH_IMAGE001
的更新;
S5、步骤S3执行
Figure 270179DEST_PATH_IMAGE003
次后,完成算法网络结构G的训练过程。
作为优选,所述步骤S1包含以下子步骤:
S11、将算法网络结构G分为状态向量编码网络Embed、图注意力机制网络GAT和深度Q网络DQN;
S12、其中状态向量编码网络Embed由多层全连接网络构成,记作
Figure 764746DEST_PATH_IMAGE004
其中
Figure 562937DEST_PATH_IMAGE005
Figure 683209DEST_PATH_IMAGE006
是该层的权重矩阵,
Figure 758612DEST_PATH_IMAGE007
是激活函数,并将多主体强化学习中的N维状态向量
Figure 283135DEST_PATH_IMAGE008
输入到状态向量编码网络Embed中,输出K维经过编码的向量
Figure 224415DEST_PATH_IMAGE009
S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量
Figure 367951DEST_PATH_IMAGE009
Figure 422495DEST_PATH_IMAGE010
作为图注意力机制网络GAT的输入向量,计算注意力影响系数,并对注意力影响系数进行归一化处理,其中
Figure 508131DEST_PATH_IMAGE011
表示当前主体m在有向图中的相邻节点上的主体集合;将归一化后的注意力影响系数与输入向量相乘,计算图注意力机制网络GAT的第一层输出;将所述注意力影响系数、归一化处理、第一层输出进行分装表示,
Figure 280915DEST_PATH_IMAGE012
,所述图注意力机制网络GAT的第二层输出为
Figure 228143DEST_PATH_IMAGE013
S14、深度Q网络DQN是由多层全连接网络组成的,将通过上述两层图注意力机制网络GAT处理过后的输出向量作为深度Q网络DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互;
S15、明确网络结构后,通过高斯分布随机初始化算法网络中的权重矩阵,同时构建一个目标网络
Figure 402772DEST_PATH_IMAGE001
,其网络结构与上述算法网络结构G完全相同,并通过复制G权重参数的方法完成自身权重初始化。
作为优选,所述子步骤S13中注意力影响系数的计算公式为,
Figure 393731DEST_PATH_IMAGE014
,对注意力影响系数进行归一化处理的公式为
Figure 653811DEST_PATH_IMAGE015
,计算图注意力机制网络的第一层输出的公式为
Figure 139150DEST_PATH_IMAGE016
,其中,
Figure 558499DEST_PATH_IMAGE017
Figure 861304DEST_PATH_IMAGE018
Figure 218467DEST_PATH_IMAGE019
是该层的权重矩阵,是待训练的网络参数。
作为优选,所述步骤S2包含以下子步骤:
S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M
Figure 632131DEST_PATH_IMAGE020
,无线资源管理器从(0,1)均匀分布中获取一个随机数,若该随机数大于
Figure 646267DEST_PATH_IMAGE021
,则无线资源管理器为每一个基站随机选择一个有效的动作;若随机数小于或者等于
Figure 119973DEST_PATH_IMAGE021
则无线资源管理器将
Figure 964433DEST_PATH_IMAGE022
输入步骤S1中的网络G,每个基站将会获得一个回报值最大的动作
Figure 916208DEST_PATH_IMAGE023
;执行动作
Figure 44570DEST_PATH_IMAGE024
,无线资源管理器将会接收到系统回报值
Figure 689178DEST_PATH_IMAGE025
,并观察到下一时刻的网络状态向量
Figure 286512DEST_PATH_IMAGE026
S22、无线资源系统管理器设置两个超参数
Figure 41979DEST_PATH_IMAGE027
和一个阈值
Figure 759268DEST_PATH_IMAGE028
,计算即时回报,
Figure 715723DEST_PATH_IMAGE029
, 其中
Figure 659408DEST_PATH_IMAGE030
表示从系统中获取的每个基站中各切片SSR的均值,其中
Figure 343199DEST_PATH_IMAGE031
的取值为3~6,
Figure 55940DEST_PATH_IMAGE032
的取值为1~3,
Figure 917717DEST_PATH_IMAGE033
的取值为0.75~1;
S23、无线资源管理器将
Figure 348698DEST_PATH_IMAGE034
四元组储存到一个大小为
Figure 570601DEST_PATH_IMAGE035
的缓存区F里,所述
Figure 403428DEST_PATH_IMAGE035
为3000~10000。
作为优选,所述步骤S3包含以下过程:从缓存区F中选取p个四元组作为训练样本,将样本中的p个网络状态向量
Figure 170527DEST_PATH_IMAGE036
组合成矩阵
Figure 88804DEST_PATH_IMAGE037
,并将其输入到步骤S1中构建的算法网络结构G中,得到p个状态下执行不同动作产生的回报值,分别选取
Figure 114398DEST_PATH_IMAGE038
对应的回报值,记作当前网络参数下预测到的回报值
Figure 677097DEST_PATH_IMAGE039
,将样本中的p个网络状态向量
Figure 5310DEST_PATH_IMAGE040
组合成矩阵
Figure 269939DEST_PATH_IMAGE041
,并将其输入到步骤S1中构建的目标网络
Figure 974589DEST_PATH_IMAGE042
中,得到p个状态下执行不同动作产生的回报值,选取最大的回报值,记作
Figure 391795DEST_PATH_IMAGE043
,算法网络结构G的损失函数为:
Figure 156489DEST_PATH_IMAGE044
,其中,
Figure 908413DEST_PATH_IMAGE045
为每条样本对应的即时回报,
Figure 151176DEST_PATH_IMAGE046
为折扣因子,取0.75~0.9,应用批梯度下降法训练算法网络结构G的权重参数。
作为优选,所述步骤S5包含以下过程:无线资源管理器将当前网络状态向量
Figure 688467DEST_PATH_IMAGE047
输入算法网络结构G中,算法网络结构G为每个基站主体输出每个动作对应的回报值,选取最大的回报值对应的动作作为当前基站的分配策略,并执行。
作为优选,所述X的取值为100~500,所述
Figure 766274DEST_PATH_IMAGE048
的取值为500~3000,所述
Figure 880861DEST_PATH_IMAGE049
的取值为1000~5000。
作为优选,所述四元组个数p为32或者64。
作为优选,所述批梯度下降法为Adam,学习率为0.001。
作为优选,所述子步骤S21中
Figure 537101DEST_PATH_IMAGE050
初始值为0,每运行一步就会依据
Figure 53533DEST_PATH_IMAGE051
进行增加,其中
Figure 19084DEST_PATH_IMAGE052
取值为0.85~0.95,train_step是当前时刻训练步数,decay_step的取值为2000~4000。
与现有技术相比,本发明的有益效果是:
(1)本发明利用图注意力机制对状态向量进行预处理,在通信条件有限的情况下,加强了基站之间的协同合作。通过网络训练,获取周围基站对当前基站的影响权重,增大有效变量的正面影响,减少噪声带来的负面影响,增强系统的鲁棒性。
(2)本发明利用深度强化学习方法对状态动作值函数进行估计,选择最优的资源分配策略,强化学习算法可以通过与环境交互产生训练所需要的样本数据,不需要任何经验假设以及对于状态动作函数分布的先验假设,可以适应更多更复杂的场景,有更好的灵活性。
(3)本发明得到通过多基站协同获得的无线资源分配策略相较于传统均分资源以及数值分析算法,能得到更高的系统回报值,即在保证基本的用户服务满意率的同时提高频谱资源利用率,从而提升用户体验。
附图说明
图1为本发明图注意力机制强化学习的多基站协同无线网络资源分配方法的流程图;
图2显示了当用下文实施例中具体参数时,本发明方法与DQN的资源分配算法以及平均分配方法的系统回报值在无线资源分配过程中的变化情况。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,下面结合附图详予说明。
参阅图1,为本发明基于图注意力机制强化学习的多基站协同无线网络资源分配方法的流程图,具体包括以下步骤:
S1、算法网络结构G和目标网络
Figure 761912DEST_PATH_IMAGE053
搭建以及初始化,具体包括以下子步骤:
S11、该方法的算法网络结构G包括状态向量编码网络(Embed)、图注意力机制网络(GAT)以及深度Q网络(DQN)三个部分。
S12、其中状态向量编码网络由两层全连接网络构成,记作
Figure 346477DEST_PATH_IMAGE054
, (1)
其中
Figure 842050DEST_PATH_IMAGE055
Figure 853868DEST_PATH_IMAGE056
是该层的权重矩阵,
Figure 552834DEST_PATH_IMAGE058
是“ReLu”激活函数。将多主体强化学习中的N维状态向量
Figure 206669DEST_PATH_IMAGE059
(第m个主体的状态向量)输入到Embed中,输出K维经过编码的向量
Figure 556748DEST_PATH_IMAGE060
S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量
Figure 739467DEST_PATH_IMAGE060
Figure 191308DEST_PATH_IMAGE061
(其中
Figure 117676DEST_PATH_IMAGE062
表示当前主体m在有向图中的相邻节点上的主体集合,用欧式距离作为有向图构建的标准)作为图注意力机制网络的输入向量,用于计算注意力影响系数,并对注意力影响系数进行归一化处理,
Figure 322261DEST_PATH_IMAGE063
, (2)
Figure 82407DEST_PATH_IMAGE064
, (3)
将归一化后的注意力影响系数与输入向量相乘,通过公式(4)计算图注意力机制网络的第一层输出,多头注意力机制参数K的取值为2~20。
Figure 880599DEST_PATH_IMAGE065
, (4)
将以上计算注意力影响系数、归一化、计算输出等三个步骤用如下公式进行分装表示,
Figure 735291DEST_PATH_IMAGE066
, (5)
图注意力机制网络一共有两层,第二层的结构和第一层基本相同,用如下公式表示,
Figure 669749DEST_PATH_IMAGE067
, (6)
其中,
Figure 335217DEST_PATH_IMAGE068
Figure 620704DEST_PATH_IMAGE069
Figure 279088DEST_PATH_IMAGE070
是该层的权重矩阵,是待训练的网络参数。
S14、深度Q网络是由多层全连接网络组成的,将通过两层图注意力机制网络处理过后的输出向量
Figure 333631DEST_PATH_IMAGE071
作为DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互。
S15、明确网络结构后,通过高斯分布随机初始化算法网络中的权重矩阵。同时构建一个目标网络
Figure 170000DEST_PATH_IMAGE053
,其网络结构与上述图注意力机制强化学习网络G完全相同,并通过复制G权重参数的方法完成自身权重初始化。
S2、执行资源分配,具体包括以下子步骤:
S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M
Figure 67418DEST_PATH_IMAGE072
。无线资源管理器从(0,1)均匀分布中获取一个随机数,如果该随机数大于
Figure 139279DEST_PATH_IMAGE073
,则无线资源管理器为每一个基站随机选择一个有效的动作。如果随机数小于或者等于
Figure 454854DEST_PATH_IMAGE073
则无线资源管理器将
Figure 321179DEST_PATH_IMAGE074
输入步骤S1中的网络G,每个基站将会获得一个回报值最大的动作
Figure 977331DEST_PATH_IMAGE075
。执行动作
Figure 728250DEST_PATH_IMAGE076
,无线资源管理器将会接收到系统回报值
Figure 147599DEST_PATH_IMAGE077
,并观察到下一时刻的网络状态向量
Figure 591349DEST_PATH_IMAGE078
Figure 338726DEST_PATH_IMAGE073
初始值为0,每运行一步就会依据
Figure 877023DEST_PATH_IMAGE079
进行增加,其中
Figure 26245DEST_PATH_IMAGE080
取值为0.85~0.95,train_step是当前时刻训练步数,decay_step的取值为2000~4000。
S22、无线资源系统管理器设置两个超参数
Figure 640897DEST_PATH_IMAGE081
和一个阈值
Figure 203DEST_PATH_IMAGE082
,通过如下公式计算即时回报,
Figure 92924DEST_PATH_IMAGE083
, (7)
其中
Figure 362231DEST_PATH_IMAGE084
表示从系统中获取的每个基站中各切片SSR的均值。设置
Figure 865894DEST_PATH_IMAGE085
的取值为3~6,
Figure 463228DEST_PATH_IMAGE086
的取值为1~3,
Figure 874487DEST_PATH_IMAGE087
的取值为0.75~1。
S23、无线资源管理器将
Figure 998301DEST_PATH_IMAGE088
四元组储存到一个大小为
Figure 954755DEST_PATH_IMAGE089
的缓存区F里,
Figure 23074DEST_PATH_IMAGE089
的取值为3000~10000。如果F空间满了,则采用先进先出的方法,删除最先存入的四元组,存入最新的四元组。
S3、先重复执行步骤S2的资源分配
Figure 316653DEST_PATH_IMAGE090
次,
Figure 170339DEST_PATH_IMAGE090
的取值为500~3000使得缓存区有足够的数据用于训练当前的网络参数,训练网络G的过程如下:
从缓存区F中选取p个四元组作为训练样本,p取32或者64。将样本中的p个网络状态向量
Figure 546963DEST_PATH_IMAGE091
组合成矩阵
Figure 977944DEST_PATH_IMAGE092
,并将其输入到步骤S1中构建的算法网络结构G中,得到p个状态下执行不同动作产生的回报值,分别选取
Figure 216158DEST_PATH_IMAGE093
对应的回报值,记作当前网络参数下预测到的回报值
Figure 167760DEST_PATH_IMAGE094
将样本中的p个网络状态向量
Figure 325071DEST_PATH_IMAGE095
组合成矩阵
Figure 384294DEST_PATH_IMAGE096
,并将其输入到步骤S1中构建的目标网络
Figure 19675DEST_PATH_IMAGE097
中,得到p个状态下执行不同动作产生的回报值,选取最大的回报值,记作
Figure 97221DEST_PATH_IMAGE098
G网络的损失函数为:
Figure 566380DEST_PATH_IMAGE099
其中,
Figure 96587DEST_PATH_IMAGE100
为每条样本对应的即时回报,
Figure 801238DEST_PATH_IMAGE101
为折扣因子,其取值范围为0.75~0.9。应用批梯度下降法训练算法网络结构G的权重参数,选用Adam作为优化器,学习率设置为0.001。
S4、每完成步骤S3中算法网络结构G训练X次,X取100~500,将G网络权重参数赋值给目标网络
Figure 484023DEST_PATH_IMAGE097
,实现目标网络
Figure 373351DEST_PATH_IMAGE097
的更新。
S5、步骤S3执行
Figure 266220DEST_PATH_IMAGE102
次后,
Figure 384349DEST_PATH_IMAGE102
的取值为1000~5000,完成算法网络结构G的训练过程。无线资源管理器将当前网络状态向量
Figure 436488DEST_PATH_IMAGE103
输入算法网络结构G中,算法网络结构G输出为每个基站主体输出每个动作对应的回报值,选取最大的回报值对应的动作作为当前基站的分配策略,并执行。
在配置如表1所示的服务器上,采用Python语言编写了仿真环境,用keras搭建网络框架,并以3种不同类型服务(通话、视频和超可靠低延时服务)为例进行测试。系统中共有19个基站,即M=19,呈蜂窝状排布,每个基站的总带宽为10M,分配的颗粒度设置为0.5M,所以总共有171种分配策略,即有效动作的数量为171。设置折扣因子
Figure 106503DEST_PATH_IMAGE104
为0.9,多头注意力系数K=8。此外,
Figure 96456DEST_PATH_IMAGE105
取值为0.95,decay_step的取值为2000。缓存区
Figure 267543DEST_PATH_IMAGE106
的大小为5000,
Figure 783975DEST_PATH_IMAGE090
的取值为2000,
Figure 500259DEST_PATH_IMAGE102
的取值为2000。训练算法网络结构G所使用的批梯度下降算法中的优化器为Adam,学习率均为0.001。其他参数情况如下:
Figure 102141DEST_PATH_IMAGE107
表1系统测试平台参数
Figure DEST_PATH_IMAGE108
将本发明的方法与基于DQN的资源分配算法、均分法进行比较:图2显示了三种方法得到的系统回报值在无线资源分配过程中的变化,其中系统回报值表示的是19个基站的平均回报值。图中阴影部分表示实际每一次迭代的系统回报值,为便于分析,取每50步的中值绘制曲线。分析图中的曲线得出,在前4000步由于DQN网络和本发明均需要进行网络参数训练,导致回报值较均分法波动相对来说更大且中值回报更低。当网络训练结束,也就是4000步之后,DQN和本发明较均分法的系统回报值有明显提升,且本方法的更胜一筹,具有更好的系统稳定性以及更高的系统回报值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于,该方法具有以下步骤:
S1、算法网络结构G和目标网络
Figure 159023DEST_PATH_IMAGE001
搭建以及初始化;
S2、执行资源分配;
S3、重复执行步骤S2的资源分配
Figure 872902DEST_PATH_IMAGE002
次,训练算法网络结构G;
S4、每完成步骤S3中算法网络结构G训练X次,将算法网络结构G权重参数赋值给目标网络
Figure 246114DEST_PATH_IMAGE001
,实现目标网络
Figure 969219DEST_PATH_IMAGE001
的更新;
S5、步骤S3执行
Figure 49171DEST_PATH_IMAGE003
次后,完成算法网络结构G的训练过程。
2.如权利要求1所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S1包含以下子步骤:
S11、将算法网络结构G分为状态向量编码网络Embed、图注意力机制网络GAT和深度Q网络DQN;
S12、其中状态向量编码网络Embed由多层全连接网络构成,记作
Figure 933950DEST_PATH_IMAGE004
其中
Figure 732142DEST_PATH_IMAGE005
Figure 258938DEST_PATH_IMAGE006
是该层的权重矩阵,
Figure 458975DEST_PATH_IMAGE007
是激活函数,并将多主体强化学习中的N维状态向量
Figure 266655DEST_PATH_IMAGE008
输入到状态向量编码网络Embed中,输出K维经过编码的向量
Figure 348881DEST_PATH_IMAGE009
S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量
Figure 351472DEST_PATH_IMAGE009
Figure 202753DEST_PATH_IMAGE010
作为图注意力机制网络GAT的输入向量,计算注意力影响系数,并对注意力影响系数进行归一化处理,其中
Figure 898177DEST_PATH_IMAGE011
表示当前主体m在有向图中的相邻节点上的主体集合;将归一化后的注意力影响系数与输入向量相乘,计算图注意力机制网络GAT的第一层输出;将所述注意力影响系数、归一化处理、第一层输出进行分装表示,
Figure 670960DEST_PATH_IMAGE012
,所述图注意力机制网络GAT的第二层输出为
Figure 477242DEST_PATH_IMAGE013
S14、深度Q网络DQN是由多层全连接网络组成的,将通过上述两层图注意力机制网络GAT处理过后的输出向量作为深度Q网络DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互;
S15、明确网络结构后,通过高斯分布随机初始化算法网络中的权重矩阵,同时构建一个目标网络
Figure 448610DEST_PATH_IMAGE001
,其网络结构与上述算法网络结构G完全相同,并通过复制G权重参数的方法完成自身权重初始化。
3.如权利要求2所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述子步骤S13中注意力影响系数的计算公式为,
Figure 49355DEST_PATH_IMAGE014
,对注意力影响系数进行归一化处理的公式为
Figure 106173DEST_PATH_IMAGE015
,计算图注意力机制网络的第一层输出的公式为
Figure 716146DEST_PATH_IMAGE016
,其中,
Figure 276440DEST_PATH_IMAGE017
Figure 579245DEST_PATH_IMAGE018
Figure 61042DEST_PATH_IMAGE019
是该层的权重矩阵,是待训练的网络参数。
4.如权利要求1所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S2包含以下子步骤:
S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M
Figure 474706DEST_PATH_IMAGE020
,无线资源管理器从(0,1)均匀分布中获取一个随机数,若该随机数大于
Figure 92769DEST_PATH_IMAGE021
,则无线资源管理器为每一个基站随机选择一个有效的动作;若随机数小于或者等于
Figure 566476DEST_PATH_IMAGE021
则无线资源管理器将
Figure 535569DEST_PATH_IMAGE022
输入步骤S1中的网络G,每个基站将会获得一个回报值最大的动作
Figure 18503DEST_PATH_IMAGE023
;执行动作
Figure 818969DEST_PATH_IMAGE024
,无线资源管理器将会接收到系统回报值
Figure 463577DEST_PATH_IMAGE025
,并观察到下一时刻的网络状态向量
Figure 654387DEST_PATH_IMAGE026
S22、无线资源系统管理器设置两个超参数
Figure 409853DEST_PATH_IMAGE027
和一个阈值
Figure 805105DEST_PATH_IMAGE028
,计算即时回报,
Figure 620615DEST_PATH_IMAGE029
, 其中
Figure 298721DEST_PATH_IMAGE030
表示从系统中获取的每个基站中各切片SSR的均值,其中
Figure 857878DEST_PATH_IMAGE031
的取值为3~6,
Figure 570619DEST_PATH_IMAGE032
的取值为1~3,
Figure 88188DEST_PATH_IMAGE033
的取值为0.75~1;
S23、无线资源管理器将
Figure 519169DEST_PATH_IMAGE034
四元组储存到一个大小为
Figure 616438DEST_PATH_IMAGE035
的缓存区F里,所述
Figure 449265DEST_PATH_IMAGE035
为3000~10000。
5.如权利要求4所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S3包含以下过程:从缓存区F中选取p个四元组作为训练样本,将样本中的p个网络状态向量
Figure 75419DEST_PATH_IMAGE036
组合成矩阵
Figure 993696DEST_PATH_IMAGE037
,并将其输入到步骤S1中构建的算法网络结构G中,得到p个状态下执行不同动作产生的回报值,分别选取
Figure 894656DEST_PATH_IMAGE038
对应的回报值,记作当前网络参数下预测到的回报值
Figure 113148DEST_PATH_IMAGE039
,将样本中的p个网络状态向量
Figure 441361DEST_PATH_IMAGE040
组合成矩阵
Figure 315776DEST_PATH_IMAGE041
,并将其输入到步骤S1中构建的目标网络
Figure 20427DEST_PATH_IMAGE042
中,得到p个状态下执行不同动作产生的回报值,选取最大的回报值,记作
Figure 562267DEST_PATH_IMAGE043
,算法网络结构G的损失函数为:
Figure 858119DEST_PATH_IMAGE044
,其中,
Figure 485409DEST_PATH_IMAGE045
为每条样本对应的即时回报,
Figure 462592DEST_PATH_IMAGE046
为折扣因子,取0.75~0.9,应用批梯度下降法训练算法网络结构G的权重参数。
6.如权利要求5所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S5包含以下过程:无线资源管理器将当前网络状态向量
Figure 858939DEST_PATH_IMAGE047
输入算法网络结构G中,算法网络结构G为每个基站主体输出每个动作对应的回报值,选取最大的回报值对应的动作作为当前基站的分配策略,并执行。
7.如权利要求1所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述X的取值为100~500,所述
Figure DEST_PATH_IMAGE048
的取值为500~3000,所述
Figure 856851DEST_PATH_IMAGE003
的取值为1000~5000。
8.如权利要求5所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述四元组个数p为32或者64。
9.如权利要求5所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述批梯度下降法为Adam,学习率为0.001。
10.如权利要求4所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述子步骤S21中
Figure 705858DEST_PATH_IMAGE049
初始值为0,每运行一步就会依据
Figure 486732DEST_PATH_IMAGE050
进行增加,其中
Figure 3164DEST_PATH_IMAGE051
取值为0.85~0.95,train_step是当前时刻训练步数,decay_step的取值为2000~4000。
CN202110157176.8A 2021-02-05 2021-02-05 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 Active CN112512070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110157176.8A CN112512070B (zh) 2021-02-05 2021-02-05 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110157176.8A CN112512070B (zh) 2021-02-05 2021-02-05 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

Publications (2)

Publication Number Publication Date
CN112512070A true CN112512070A (zh) 2021-03-16
CN112512070B CN112512070B (zh) 2021-05-11

Family

ID=74952582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110157176.8A Active CN112512070B (zh) 2021-02-05 2021-02-05 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

Country Status (1)

Country Link
CN (1) CN112512070B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113811009A (zh) * 2021-09-24 2021-12-17 之江实验室 一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法
CN113965945A (zh) * 2021-09-28 2022-01-21 北京工业大学 端到端网络切片的切换方法及系统
CN115660324A (zh) * 2022-10-09 2023-01-31 浙江大学 基于图强化学习的电网多断面越限调控方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182637A (zh) * 2019-12-24 2020-05-19 浙江大学 一种基于生成对抗强化学习的无线网络资源分配方法
WO2020228796A1 (en) * 2019-05-15 2020-11-19 Huawei Technologies Co., Ltd. Systems and methods for wireless signal configuration by a neural network
CN112291793A (zh) * 2020-12-29 2021-01-29 北京邮电大学 网络接入设备的资源分配方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228796A1 (en) * 2019-05-15 2020-11-19 Huawei Technologies Co., Ltd. Systems and methods for wireless signal configuration by a neural network
CN111182637A (zh) * 2019-12-24 2020-05-19 浙江大学 一种基于生成对抗强化学习的无线网络资源分配方法
CN112291793A (zh) * 2020-12-29 2021-01-29 北京邮电大学 网络接入设备的资源分配方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIYONG LIU,ET AL.: "Deep Reinforcement Learning Based Dynamic Resource Allocation in 5G Ultra-Dense Networks", 《IEEE XPLORE》 *
陈前斌,等: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 《电子与信息学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283169A (zh) * 2021-05-24 2021-08-20 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113283169B (zh) * 2021-05-24 2022-04-26 北京理工大学 一种基于多头注意力异步强化学习的三维群体探索方法
CN113811009A (zh) * 2021-09-24 2021-12-17 之江实验室 一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法
CN113965945A (zh) * 2021-09-28 2022-01-21 北京工业大学 端到端网络切片的切换方法及系统
CN115660324A (zh) * 2022-10-09 2023-01-31 浙江大学 基于图强化学习的电网多断面越限调控方法和系统
CN115660324B (zh) * 2022-10-09 2023-06-13 浙江大学 基于图强化学习的电网多断面越限调控方法和系统

Also Published As

Publication number Publication date
CN112512070B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112512070B (zh) 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113242568A (zh) 一种不确定网络环境中的任务卸载和资源分配方法
Tumuluru et al. Channel status prediction for cognitive radio networks
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
Wei et al. Deep Q-Learning Based Computation Offloading Strategy for Mobile Edge Computing.
He et al. Edge-aided computing and transmission scheduling for LTE-U-enabled IoT
CN113811009B (zh) 一种基于时空特征提取的多基站网络资源智能分配方法
Hossain et al. A deep-tree-model-based radio resource distribution for 5G networks
Zhang et al. Optimization of image transmission in cooperative semantic communication networks
Hudson et al. QoS-aware placement of deep learning services on the edge with multiple service implementations
CN112860337B (zh) 在多接入边缘计算中卸载依赖任务的方法及系统
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
Eisen et al. Large scale wireless power allocation with graph neural networks
CN114095940A (zh) 混合接入认知无线网络切片资源分配方法及设备
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
Asheralieva et al. Optimizing age of information and security of the next-generation internet of everything systems
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
Hlophe et al. AI meets CRNs: A prospective review on the application of deep architectures in spectrum management
Cui et al. Multi-agent deep reinforcement learning-based interdependent computing for mobile edge computing-assisted robot teams
CN115696581A (zh) 基于约束强化学习的无线网络资源分配方法
CN116820621A (zh) 一种基于图论和小样本近端策略优化的计算任务卸载方法
Sun et al. A resource allocation scheme for edge computing network in smart city based on attention mechanism
CN111813538B (zh) 一种边缘计算资源分配方法
CN114219074A (zh) 一种按需动态调整的无线通信网络资源分配算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant