CN114340017B - 一种具有eMBB和URLLC混合服务的异构网络资源切片方法 - Google Patents

一种具有eMBB和URLLC混合服务的异构网络资源切片方法 Download PDF

Info

Publication number
CN114340017B
CN114340017B CN202210261790.3A CN202210261790A CN114340017B CN 114340017 B CN114340017 B CN 114340017B CN 202210261790 A CN202210261790 A CN 202210261790A CN 114340017 B CN114340017 B CN 114340017B
Authority
CN
China
Prior art keywords
network
urllc
embb
base station
dqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210261790.3A
Other languages
English (en)
Other versions
CN114340017A (zh
Inventor
陈赓
邵睿
曾庆田
郭银景
段华
徐先杰
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202210261790.3A priority Critical patent/CN114340017B/zh
Publication of CN114340017A publication Critical patent/CN114340017A/zh
Application granted granted Critical
Publication of CN114340017B publication Critical patent/CN114340017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种具有eMBB和URLLC混合服务的异构网络资源切片方法,属于移动通信技术领域,包括如下步骤:在5G异构融合网络区域内,构建由基站和基站用户组成的异构融合网络模型;根据异构融合网络模型建立最大化效用函数;采用DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,得到最佳资源调度分配方案。本发明解决了无线资源中的带宽分配问题,将深度强化学习中的DQN算法用于解决5G异构融合网络中eMBB和URLLC两种不同服务之间的资源调度分配问题,能够保证eMBB和URLLC服务的QoE,提高了频谱效率SE并提升了系统整体效用。

Description

一种具有eMBB和URLLC混合服务的异构网络资源切片方法
技术领域
本发明属于移动通信技术领域,具体涉及一种具有eMBB和URLLC混合服务的异构网络资源切片方法。
背景技术
随着移动网络数据的爆炸式增长,第五代移动通信技术已经发展成熟,可以满足多种服务需求。第五代移动通信网络中最具典型的服务类型有:增强型移动宽带(eMBB),大规模机器类型通信(mMTC),超可靠和低延迟通信(URLLC)服务。5G网络以切片的方式为上述三种类型的用户提供资源。进行切片时,基站能够根据用户服务类型的动态需求按需调整资源的分配,可以适应不同的网络状态。对网络资源进行切片可以实现5G网络数据分流管理和资源的灵活分配,也是实现5G网络高数据传输速率、低时延和大容量所必要的。
由于网络通信量的激烈增长和设备的密集化,在不同服务类型之间的资源调度分配中存在着多种问题,也面临着巨大的挑战。以5G网络中两种典型的主流服务eMBB和URLLC为例,一个区域中的视频流eMBB服务需要在其传输时间间隔内保证带宽资源才能有足够高且稳定的图像或语音内容质量。而URLLC服务具有超低时延和高可靠性的特性要求,如果同一区域中URLLC流量突然增加,它将迅速占据这些带宽资源来达到其所需的传输速率,从而获得超低时延性能。但是满足URLLC的性能要求是以牺牲eMBB服务质量为代价的。
所以,对于具有eMBB和URLLC混合服务的异构网络,亟需一种方法来进行网络切片,保障资源的合理调度分配,在保证URLLC超低时延和高可靠性的前提下,也不牺牲eMBB服务质量。
发明内容
本发明提出了一种具有eMBB和URLLC混合服务的异构网络资源切片方法,从带宽分配的角度出发,引入基于DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,对5G异构融合网络中的带宽进行合理分配。
为了实现上述目的,本发明采用如下技术方案:
一种基于DQN的异构融合网络资源切片方法,包括如下步骤:
S1.在5G异构融合网络区域内,构建由基站和基站用户组成的异构融合网络模型;
S2.根据异构融合网络模型建立最大化效用函数;
S3.采用DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,得到最佳资源调度分配方案。
进一步地,在构建的异构融合网络模型中,有s个基站,共存在{1,…,N}的网络切 片列表,所有切片共享聚合带宽W;用户集U中包含M个用户{u 1,u 2,…,u m },其中有m 1个eMBB 用户和m 2个URLLC用户;用户服务集O中包含eMBB和URLLC两种服务;在当前时隙不同服务类 型的用户向基站请求资源时,基站将带宽资源块按需分配给各切片上的用户;考虑网络切 片未服务的用户的下行链路,令
Figure 127484DEST_PATH_IMAGE001
为网络切片n上任一服务的用户
Figure 779045DEST_PATH_IMAGE002
下行链路传输速率; 其中,令
Figure 27623DEST_PATH_IMAGE003
Figure 94937DEST_PATH_IMAGE004
分别为eMBB和URLLC数据包的传输速率;令
Figure 643730DEST_PATH_IMAGE005
代表基站为任一切片分配 的带宽;其中,令
Figure 935034DEST_PATH_IMAGE006
Figure 874171DEST_PATH_IMAGE007
分别代表基站为eMBB切片和URLLC切片分配的带宽;令
Figure 541913DEST_PATH_IMAGE008
为 任一切片数据包传输数量;其中,令
Figure 945212DEST_PATH_IMAGE009
Figure 404488DEST_PATH_IMAGE010
分别为eMBB切片和URLLC切片的数据包 传输数量。
进一步地,所述方法的异构融合网络模型设有智能代理,智能代理及时获得环境 中eMBB和URLLC需求的变化和前一时隙基站中资源分配情况;在当前时隙不同服务类型的 用户向基站请求资源时,智能代理通过与环境交互获得观测值形成状态并根据
Figure 830921DEST_PATH_IMAGE011
策 略选择最佳动作值;基站根据智能代理的策略为用户分配带宽资源;同时,智能代理根据奖 励机制形成reward并根据环境变化获得新的状态;最后通过DQN的迭代训练,基站找到最佳 的带宽资源分配方案。
进一步地,步骤S2的具体过程为:
S201.计算网络切片n上任一服务的用户下行链路
Figure 36774DEST_PATH_IMAGE012
Figure 29001DEST_PATH_IMAGE013
(1)
其中,
Figure 193266DEST_PATH_IMAGE014
是捕获从基站到用户
Figure 903733DEST_PATH_IMAGE015
的路径损耗和阴影的平均信道增益,
Figure 850961DEST_PATH_IMAGE016
是基 站发射功率,
Figure 228852DEST_PATH_IMAGE017
是单侧噪声频谱密度;
S202.由Shannon理论得到网络切片未服务的用户的下行链路传输速率
Figure 236123DEST_PATH_IMAGE018
Figure 433886DEST_PATH_IMAGE019
Figure 247121DEST_PATH_IMAGE020
(2)
其中,O代表eMBB和URLLC的用户服务集,o代表eMBB和URLLC两种服务的任意一种,N代表网络切片总数,n代表任一切片且
Figure 417202DEST_PATH_IMAGE021
S203.计算传输速率的频谱效率SE:
Figure 660621DEST_PATH_IMAGE022
(3)
S204.令
Figure 345680DEST_PATH_IMAGE023
表示eMBB和URLLC服务集中任一服务数据包的传输数量,定义
Figure 697027DEST_PATH_IMAGE024
Figure 518352DEST_PATH_IMAGE025
时代表成功传输数据包,
Figure 929742DEST_PATH_IMAGE026
时代表丢失数据包;分别将eMBB和URLLC 用户数据包的丢包率定义为每种服务的用户体验质量QoE,如下:
Figure 39780DEST_PATH_IMAGE027
(4)
S205.为每个切片分配带宽资源块来最大化模型效用函数F,该函数定义为不同服务的切片的SE和QoE的加权和;网络切片中的带宽分配问题定义如下:
Figure 194818DEST_PATH_IMAGE028
(5)
其中,网络切片中的带宽分配问题满足的条件如下:
Figure 605071DEST_PATH_IMAGE029
(6)
Figure 390624DEST_PATH_IMAGE030
(7)
Figure 50276DEST_PATH_IMAGE031
(8)
Figure 743425DEST_PATH_IMAGE032
(9)
其中,
Figure 477026DEST_PATH_IMAGE033
Figure 227289DEST_PATH_IMAGE034
表示SE和QoE的相对重要性;
Figure 374236DEST_PATH_IMAGE035
Figure 871077DEST_PATH_IMAGE036
分别是5G场景下 eMBB和URLLC服务传输速率技术指标。
进一步地,步骤S3的具体过程为:
S301.基站随机选择分配方案将带宽资源分配给eMBB和URLLC用户,并按照设置的 调度原则进行带宽资源块的调用,结束调度后计算eMBB和URLLC数据包的传输数量
Figure 521501DEST_PATH_IMAGE037
作为 初始状态
Figure 383278DEST_PATH_IMAGE038
S302.基于DQN算法进行迭代训练,每一次迭代都进行如下操作:基站根据DQN中的 策略选择一个带宽分配动作,之后执行调度;按照公式(5)计算出模型的效用函数,同时根 据奖励机制计算奖励函数reward;再次计算eMBB和URLLC数据包的传输数量
Figure 751942DEST_PATH_IMAGE037
作为下一状 态
Figure 52474DEST_PATH_IMAGE039
;将
Figure 822983DEST_PATH_IMAGE040
输入DQN进行训练,a是当前动作,r是奖励值;
S303.经过预定次数的迭代,最终训练出了性能良好的值函数网络,从而得到最佳的带宽资源分配方案。
进一步地,DQN算法的网络参数训练流程如下:
首先,代理在与环境交互中得到
Figure 855662DEST_PATH_IMAGE040
,利用经验重放机制将transition存入 样本池中,之后在样本池中抽取最小单位的transition进行训练;
其次,DQN使用评估Q网络和目标Q网络两个带有参数
Figure 977201DEST_PATH_IMAGE041
的神经网络估计Q值,并且 令
Figure 815844DEST_PATH_IMAGE042
表示具有参数
Figure 175281DEST_PATH_IMAGE041
的值函数;
另外,DQN每C次迭代通过重置将网络参数克隆到目标网络中,有效化agent网络的参数更新过程;
目标网络的目标Q值为:
Figure 644440DEST_PATH_IMAGE043
(16)
其中,r代表奖励值;
Figure 713328DEST_PATH_IMAGE044
代表折现因子,为大于0小于1的值;
Figure 355662DEST_PATH_IMAGE039
代表状态空间
Figure 100764DEST_PATH_IMAGE045
的下 一状态;
Figure 740824DEST_PATH_IMAGE046
代表动作空间
Figure 305798DEST_PATH_IMAGE047
的下一动作;
Figure 751823DEST_PATH_IMAGE048
为采样的神经网络参数
Figure 289114DEST_PATH_IMAGE049
同时,DQN中定义的损失函数
Figure 162392DEST_PATH_IMAGE050
为:
Figure 214662DEST_PATH_IMAGE051
(17)
其中,E代表期望值;s代表状态空间
Figure 933219DEST_PATH_IMAGE045
的当前状态;a代表动作空间
Figure 590597DEST_PATH_IMAGE047
的当前动作;
Figure 369197DEST_PATH_IMAGE049
为神经网络参数;
DQN值函数的更新不是直接更新Q值表,而是更新神经网络的参数
Figure 908763DEST_PATH_IMAGE049
利用最小化TD误差平方来获得最佳
Figure 428081DEST_PATH_IMAGE049
参数,公式如下:
Figure 2282DEST_PATH_IMAGE052
(18)
其中,
Figure 951784DEST_PATH_IMAGE053
为目标值与当前值偏差的平方;
最终,代理对动作值函数
Figure 713066DEST_PATH_IMAGE054
进行更新的公式为:
Figure 39005DEST_PATH_IMAGE055
(19)
其中,
Figure 405396DEST_PATH_IMAGE056
为DQN网络目标值与当前值偏差的权重。
DQN算法能够在给定状态
Figure 791378DEST_PATH_IMAGE057
下根据最佳策略寻找到最佳动作
Figure 305536DEST_PATH_IMAGE058
,同时最小化损失函 数
Figure 169586DEST_PATH_IMAGE050
,并且最大化累计期望奖励reward。
进一步地,该方法采用基于DQN的带宽调度分配算法,算法步骤如下:
(1)参数初始化;
(2)基站按需求将带宽资源分配给eMBB和URLLC用户,并按照设置的调度原则进行带宽资源块的调用;
(3)DQN的智能代理在与环境交互中获得状态、动作、奖励;
(4)对参数进行迭代训练获得最佳动作;
(5)设定迭代次数,基站根据DQN中的策略获得资源分配的最佳方案。
本发明所带来的有益技术效果:
本发明从带宽资源分配的角度出发,引入DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,从而解决了5G异构融合网络中的带宽分配问题,能够有效的保证eMBB和URLLC服务的用户体验质量QoE和系统的整体效用,有效提升频谱效率SE。
附图说明
图1为本发明基于DQN的异构融合网络资源切片方法的流程图;
图2为本发明中异构融合网络模型的示意图;
图3为本发明中基于DQN的带宽分配算法流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示为本发明的方法框图,包括如下三个过程:在5G异构融合网络区域内,构建由基站和基站用户组成的异构融合网络模型;根据异构融合网络模型建立最大化效用函数;采用DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,得到最佳资源调度分配方案。具体表现为:建立由基站和基站用户构成的异构融合网络模型;将具有eMBB和URLLC混合服务的异构网络中的资源分配问题描述为一个非凸优化问题并建立优化函数(即建立模型最大化效用函数),进而对异构网络资源切片,最终得到带宽调度分配的最优解;求解最优解时,采用DQN算法,对DQN网络进行迭代训练,找到使Q值最大的带宽分配策略。
下面对每一过程作进一步的具体描述。
一、构建由基站和基站用户组成的异构融合网络模型。
图2为本发明的异构融合网络模型示意图,建立一个由基站和基站用户构成的异 构融合网络模型。智能代理可以及时获得环境中eMBB和URLLC需求的变化和前一时隙基站 中资源分配情况。在当前时隙,不同服务类型的用户向基站请求资源时,智能代理通过与环 境交互获得观测值形成状态并根据
Figure 390483DEST_PATH_IMAGE011
策略选择最佳动作值。基站根据智能代理的策 略为用户分配带宽资源。同时,智能代理根据奖励机制形成reward并根据环境变化获得新 的状态。通过DQN的迭代训练,基站可以找到最佳的带宽资源分配方案。
在本异构融合网络模型的场景中,有s个基站BS,共存在{1,…,N}的网络切片列 表,所有切片共享聚合带宽W。用户集U中包含M个用户{u 1,u 2,…,u m },其中有m 1个eMBB用户 和m 2个URLLC用户。用户服务集O中主要包含eMBB和URLLC两种服务。在当前时隙不同服务类 型的用户向基站请求资源时,基站将带宽资源块按需分配给各切片上的用户。考虑网络切 片NS未服务的用户的下行链路,令
Figure 947367DEST_PATH_IMAGE001
为网络切片n上任一服务的用户
Figure 683241DEST_PATH_IMAGE002
下行链路传输速 率。其中,令
Figure 350983DEST_PATH_IMAGE003
Figure 223124DEST_PATH_IMAGE004
分别为eMBB和URLLC数据包的传输速率。令
Figure 219418DEST_PATH_IMAGE005
代表基站为任一切片 分配的带宽。其中,令
Figure 442589DEST_PATH_IMAGE006
和分
Figure 648442DEST_PATH_IMAGE007
别代表基站为eMBB切片和URLLC切片分配的带宽。令
Figure 640669DEST_PATH_IMAGE008
为任一切片数据包传输数量。其中,令
Figure 742617DEST_PATH_IMAGE009
Figure 453084DEST_PATH_IMAGE010
分别为eMBB切片和URLLC切片 的数据包传输数量。
二、根据异构融合网络模型建立最大化效用函数
针对小区内eMBB和URLLC多种服务类型之间的带宽资源调度分配问题,本发明旨在通过动态调整为每个切片分配带宽资源块来最大化模型效用函数F,该函数定义为不同服务切片的SE和QoE的加权和。分别研究两个子目标:频谱效率SE和用户体验质量QoE。
网络切片n上任一服务的用户
Figure 462628DEST_PATH_IMAGE059
下行链路信噪比
Figure 574941DEST_PATH_IMAGE012
如下:
Figure 582211DEST_PATH_IMAGE013
(1)
其中,
Figure 779974DEST_PATH_IMAGE014
是捕获从基站到用户
Figure 593210DEST_PATH_IMAGE015
的路径损耗和阴影的平均信道增益,
Figure 560028DEST_PATH_IMAGE016
是基 站发射功率,
Figure 534938DEST_PATH_IMAGE060
是单侧噪声频谱密度。
网络切片n上任一服务的用户
Figure 219997DEST_PATH_IMAGE015
下行链路传输速率
Figure 771677DEST_PATH_IMAGE001
与切片n上的用户
Figure 593002DEST_PATH_IMAGE015
所分 得的带宽
Figure 4392DEST_PATH_IMAGE005
以及信噪比
Figure 911168DEST_PATH_IMAGE012
有关。由Shannon理论定义可得网络切片NS未服务的用 户的下行链路传输速率
Figure 66206DEST_PATH_IMAGE001
如下:
Figure 7617DEST_PATH_IMAGE019
Figure 324329DEST_PATH_IMAGE020
(2)
其中,O是eMBB和URLLC的用户服务集,o代表eMBB和URLLC两种服务的任意一种,N 为网络切片总数,n为任一切片且
Figure 718401DEST_PATH_IMAGE021
模型中给定传输速率的频谱效率SE如下:
Figure 411551DEST_PATH_IMAGE022
(3)
由于URLLC服务的超低时延和高可靠性的特性要求,当前时隙基站带宽资源不充足时,基站就会将传输eMBB数据包占用的带宽资源块部分调用给URLLC服务,直到满足传输URLLC数据包所需的带宽,降低其丢包率。
Figure 410731DEST_PATH_IMAGE023
表示eMBB和URLLC服务集中任一服务数据包的传输数量。定义
Figure 163923DEST_PATH_IMAGE024
Figure 45291DEST_PATH_IMAGE025
时代表成功传输数据包,
Figure 276552DEST_PATH_IMAGE026
时代表丢失数据包。分别将eMBB和URLLC用户数据包的 丢包率定义为每种服务的用户体验质量QoE,如下:
Figure 926977DEST_PATH_IMAGE027
(4)
综上所述,网络切片中的带宽分配问题定义如下:
Figure 131298DEST_PATH_IMAGE028
(5)
其中,网络切片中的带宽分配问题满足的条件如下:
Figure 499962DEST_PATH_IMAGE029
(6)
Figure 534914DEST_PATH_IMAGE030
(7)
Figure 39845DEST_PATH_IMAGE031
(8)
Figure 134840DEST_PATH_IMAGE032
(9)
其中,
Figure 194063DEST_PATH_IMAGE033
Figure 767127DEST_PATH_IMAGE034
表示SE和QoE的相对重要性;
Figure 392143DEST_PATH_IMAGE035
Figure 658039DEST_PATH_IMAGE036
分别是5G场景下 eMBB和URLLC服务传输速率技术指标。
三、采用DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,得到最佳资源调度分配方案。
1、DQN算法思想
智能代理agent试图通过与环境的不断试错交互产生很多新的数据,然后根据这 些数据学习一套策略。该策略能够使代理在给定状态下寻找最佳动作的同时最大化累计期 望奖励。代理与环境的交互过程被建模为马尔可夫决策过程
Figure 735717DEST_PATH_IMAGE061
,其中
Figure 643630DEST_PATH_IMAGE062
Figure 123153DEST_PATH_IMAGE063
分别 为状态空间和动作空间,R为奖励函数,
Figure 763213DEST_PATH_IMAGE064
是转移概率,
Figure 328186DEST_PATH_IMAGE065
是值为大于0小于1的折现因 子。状态空间
Figure 240123DEST_PATH_IMAGE062
包含当前状态
Figure 105311DEST_PATH_IMAGE066
和下一状态
Figure 916272DEST_PATH_IMAGE067
。动作空间
Figure 968542DEST_PATH_IMAGE063
包含当前动作
Figure 687099DEST_PATH_IMAGE068
和下一动作
Figure 406793DEST_PATH_IMAGE069
。 策略
Figure 185393DEST_PATH_IMAGE070
是将状态
Figure 724959DEST_PATH_IMAGE066
映射到动作
Figure 450470DEST_PATH_IMAGE068
上的分布。在状态
Figure 759091DEST_PATH_IMAGE066
下根据策略
Figure 708593DEST_PATH_IMAGE070
得到的状态值函数
Figure 735455DEST_PATH_IMAGE071
表示为:
Figure 61394DEST_PATH_IMAGE072
(10)
同理,状态
Figure 224522DEST_PATH_IMAGE066
下根据策略
Figure 551117DEST_PATH_IMAGE073
执行动作
Figure 65275DEST_PATH_IMAGE058
得到的动作值函数
Figure 929325DEST_PATH_IMAGE074
表示为:
Figure 212539DEST_PATH_IMAGE075
(11)
上述两式中的E表示期望值。
状态值和下一状态值之间的关系由Bellman方程可表示为:
Figure 769422DEST_PATH_IMAGE076
(12)
同理,动作值和下一动作值之间的关系由Bellman方程表示为:
Figure 505297DEST_PATH_IMAGE077
(13)
上述两式中的
Figure 110722DEST_PATH_IMAGE067
Figure 248442DEST_PATH_IMAGE069
可以分别从转移概率
Figure 976227DEST_PATH_IMAGE064
和策略
Figure 199398DEST_PATH_IMAGE070
推导出来。
由于RL的目标是找到对所有的
Figure 670830DEST_PATH_IMAGE078
Figure 663057DEST_PATH_IMAGE079
产生最大
Figure 499426DEST_PATH_IMAGE080
的最佳策略,设最佳策略下 的动作值函数为
Figure 472543DEST_PATH_IMAGE081
Figure 482087DEST_PATH_IMAGE081
满足以下Bellman最优方程:
Figure 532083DEST_PATH_IMAGE082
(14)
定义Bellman最优算子
Figure 867249DEST_PATH_IMAGE083
为:
Figure 2695DEST_PATH_IMAGE084
(15)
Figure 815931DEST_PATH_IMAGE085
时,从任意
Figure 48329DEST_PATH_IMAGE086
开始,迭代应用算子
Figure 23238DEST_PATH_IMAGE087
导 致在
Figure 911560DEST_PATH_IMAGE088
时有收敛
Figure 262907DEST_PATH_IMAGE089
。最佳策略可以直接通过最大化
Figure 349811DEST_PATH_IMAGE090
得到。
2、利用基于DQN的资源切片方法对具有eMBB和URLLC混合服务的异构网络进行带宽资源块的分配和调度。
(1)基站随机选择分配方案将带宽资源分配给eMBB和URLLC用户,并按照设置的调 度原则进行带宽资源块的调用,结束调度后计算eMBB和URLLC数据包的传输数量
Figure 495622DEST_PATH_IMAGE091
作为初 始状态
Figure 862450DEST_PATH_IMAGE092
(2)基于DQN算法进行迭代训练,每一次迭代都进行如下操作:基站根据DQN中的策 略选择一个带宽分配动作,之后执行调度。按照公式(5)计算出系统的效用函数,同时根据 频谱效率和QoE的值计算奖励函数reward。再次计算eMBB和URLLC数据包的传输数量
Figure 17488DEST_PATH_IMAGE037
作 为下一状态
Figure 693320DEST_PATH_IMAGE039
。将
Figure 478874DEST_PATH_IMAGE040
输入DQN进行训练,r是奖励值。
DQN算法网络参数的训练流程如下:首先,代理在与环境交互中得到
Figure 872946DEST_PATH_IMAGE040
,利 用经验重放机制将transition存入样本池中,之后在样本池中抽取最小单位的transition 进行训练。其次,DQN使用评估Q网络和目标Q网络两个带有参数
Figure 566095DEST_PATH_IMAGE093
的神经网络估计Q值,并且 令
Figure 627592DEST_PATH_IMAGE094
表示具有参数
Figure 584047DEST_PATH_IMAGE049
的值函数。另外,DQN每C次迭代通过重置将网络参数克隆到目 标网络中,这样能够有效化agent网络的参数更新过程。目标网络的目标Q值为:
Figure 465415DEST_PATH_IMAGE095
(16)
Figure 165518DEST_PATH_IMAGE096
为采样的神经网络参数
Figure 81521DEST_PATH_IMAGE049
同时,DQN中定义的损失函数
Figure 5615DEST_PATH_IMAGE050
为:
Figure 574612DEST_PATH_IMAGE051
(17)
DQN值函数的更新不是直接更新Q值表,而是更新神经网络的参数
Figure 609564DEST_PATH_IMAGE049
。利用最小化 TD误差平方来获得最佳
Figure 114495DEST_PATH_IMAGE041
参数,公式如下:
Figure 475069DEST_PATH_IMAGE052
(18)
Figure 268713DEST_PATH_IMAGE053
为目标值与当前值偏差的平方。
最终,代理对动作值函数
Figure 107356DEST_PATH_IMAGE054
进行更新的公式为:
Figure 732372DEST_PATH_IMAGE055
(19)
其中,
Figure 998268DEST_PATH_IMAGE056
为DQN网络目标值与当前值偏差的权重。
(3)经过预定次数的迭代,最终训练出了性能良好的值函数网络,从而可以得到最佳的带宽资源分配方案。
DQN算法能够在给定状态
Figure 341525DEST_PATH_IMAGE097
下根据最佳策略寻找到最佳动作
Figure 718280DEST_PATH_IMAGE079
,同时最小化损失函 数
Figure 197803DEST_PATH_IMAGE050
并且最大化累计期望奖励reward。
上述基于DQN的带宽调度分配算法的伪代码如下:
1:参数初始化;
2:基站随机选择方案为eMBB和URLLC分配带宽资源;
3:调度:
4:基站为用户分配剩余带宽资源块;
5:未满足需求的URLLC用户继续向基站请求资源;
6: 基站根据设定的资源调度机制,将eMBB占用的部分带宽资源块调度给URLLC用户;
7:计算eMBB 和 URLLC的数据包传输数量,并把它作为当前状态;
8:重复
9: For k=1到 M,M为迭代次数
10:根据DQN的策略选择动作;
11:执行调度;
12:根据公式(5)计算模型效用函数F;
13:根据奖励机制计算奖励;
14:计算eMBB 和 URLLC的数据包传输数量,并把它作为后继状态;
15: #训练 DQN
16:代理将状态、动作、奖励等输入DQN并存入样本池中;
17:代理将transition
Figure 837863DEST_PATH_IMAGE098
存入样本池中;
18:代理在样本池中抽取最小单位的transitions
Figure 402836DEST_PATH_IMAGE099
进行训练;
19:设置
Figure 583282DEST_PATH_IMAGE100
20:代理对
Figure 451399DEST_PATH_IMAGE101
中的网络参数
Figure 262360DEST_PATH_IMAGE102
执行梯度下降;
21:每C次迭代重置
Figure 49051DEST_PATH_IMAGE103
22: End for
23:直到完成预定的最大迭代次数。
上述伪代码中,
Figure 502029DEST_PATH_IMAGE104
代表本次迭代计算的当前Q值;
Figure 221723DEST_PATH_IMAGE105
代表本次迭代的当前状态值;
Figure 323DEST_PATH_IMAGE106
代表本次迭代的当前动作值;
Figure 477572DEST_PATH_IMAGE107
代表本次迭代计算的奖励;
Figure 999820DEST_PATH_IMAGE108
代表本次迭代的下一状态 值;
Figure 574021DEST_PATH_IMAGE109
代表本次迭代的目标Q值;
Figure 726785DEST_PATH_IMAGE110
代表本次迭代的下一状态值。
如图3所示,该算法主要分为以下几个步骤:
(1)参数初始化;
(2)基站按需求将带宽资源分配给eMBB和URLLC用户,并按照设置的调度原则进行带宽资源块的调用;
(3)DQN的智能代理在与环境交互中获得状态、动作、奖励等;
(4)对参数进行迭代训练获得最佳动作;
(5)设定迭代次数,基站根据DQN中的策略获得资源分配的最佳方案。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (4)

1.一种具有eMBB和URLLC混合服务的异构网络资源切片方法,其特征在于,包括如下步骤:
S1.在5G异构融合网络区域内,构建由基站和基站用户组成的异构融合网络模型;
在构建的异构融合网络模型中,有s个基站,共存在{1,…,N}的网络切片列表,所有切片共享聚合带宽W;用户集U中包含M个用户{u 1,u 2,…,u m },其中有m 1个eMBB用户和m 2个URLLC用户;用户服务集O中包含eMBB和URLLC两种服务;在当前时隙不同服务类型的用户向基站请求资源时,基站将带宽资源块按需分配给各切片上的用户;考虑网络切片未服务的用户的下行链路,令
Figure DEST_PATH_IMAGE001
为网络切片n上任一服务的用户
Figure DEST_PATH_IMAGE002
下行链路传输速率;其中,令
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
分别为eMBB和URLLC数据包的传输速率;令
Figure DEST_PATH_IMAGE005
代表基站为任一切片分配的带宽;其中,令
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
分别代表基站为eMBB切片和URLLC切片分配的带宽;令
Figure DEST_PATH_IMAGE008
为任一切片数据包传输数量;其中,令
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
分别为eMBB切片和URLLC切片的数据包传输数量;
S2.根据异构融合网络模型建立最大化效用函数;具体过程为:
S201.计算网络切片n上任一服务的用户下行链路
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
(1)
其中,
Figure DEST_PATH_IMAGE013
是捕获从基站到用户
Figure DEST_PATH_IMAGE014
的路径损耗和阴影的平均信道增益,
Figure DEST_PATH_IMAGE015
是基站发射功率,
Figure DEST_PATH_IMAGE016
是单侧噪声频谱密度;
S202.由Shannon理论得到网络切片n未服务的用户的下行链路传输速率
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
(2)
其中,O代表eMBB和URLLC的用户服务集,o代表eMBB和URLLC两种服务的任意一种,N代表网络切片总数,n代表任一切片且
Figure DEST_PATH_IMAGE020
S203.计算传输速率的频谱效率SE:
Figure DEST_PATH_IMAGE021
(3)
S204.令
Figure DEST_PATH_IMAGE022
表示eMBB和URLLC服务集中任一服务数据包的传输数量,定义
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
时代表成功传输数据包,
Figure DEST_PATH_IMAGE025
时代表丢失数据包;分别将eMBB和URLLC用户数据包的丢包率定义为每种服务的用户体验质量QoE,如下:
Figure DEST_PATH_IMAGE026
(4)
S205.为每个切片分配带宽资源块来最大化模型效用函数F,该函数定义为不同服务的切片的SE和QoE的加权和;网络切片中的带宽分配问题定义如下:
Figure DEST_PATH_IMAGE027
(5)
其中,网络切片中的带宽分配问题满足的条件如下:
Figure DEST_PATH_IMAGE028
(6)
Figure DEST_PATH_IMAGE029
(7)
Figure DEST_PATH_IMAGE030
(8)
Figure DEST_PATH_IMAGE031
(9)
其中,
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
表示SE和QoE的相对重要性;
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
分别是5G场景下eMBB和URLLC服务传输速率技术指标;
S3.采用DQN算法,对具有eMBB和URLLC混合服务的异构网络资源切片,得到最佳资源调度分配方案;具体过程为:
S301.基站随机选择分配方案将带宽资源分配给eMBB和URLLC用户,并按照设置的调度原则进行带宽资源块的调用,结束调度后计算eMBB和URLLC数据包的传输数量
Figure DEST_PATH_IMAGE036
作为初始状态
Figure DEST_PATH_IMAGE037
S302.基于DQN算法进行迭代训练,每一次迭代都进行如下操作:基站根据DQN中的策略选择一个带宽分配动作,之后执行调度;按照公式(5)计算出模型的效用函数,同时根据奖励机制计算奖励函数reward;再次计算eMBB和URLLC数据包的传输数量
Figure 845318DEST_PATH_IMAGE036
作为下一状态
Figure DEST_PATH_IMAGE038
;将
Figure DEST_PATH_IMAGE039
输入DQN进行训练,a是当前动作,r是奖励值;
S303.经过预定次数的迭代,最终训练出了性能良好的值函数网络,从而得到最佳的带宽资源分配方案。
2.根据权利要求1所述具有eMBB和URLLC混合服务的异构网络资源切片方法,其特征在于,所述方法的异构融合网络模型设有智能代理,智能代理及时获得环境中eMBB和URLLC需求的变化和前一时隙基站中资源分配情况;在当前时隙不同服务类型的用户向基站请求资源时,智能代理通过与环境交互获得观测值形成状态并根据
Figure DEST_PATH_IMAGE040
策略选择最佳动作值;基站根据智能代理的策略为用户分配带宽资源;同时,智能代理根据奖励机制形成reward并根据环境变化获得新的状态;最后通过DQN的迭代训练,基站找到最佳的带宽资源分配方案。
3.根据权利要求1所述具有eMBB和URLLC混合服务的异构网络资源切片方法,其特征在于,DQN算法的网络参数训练流程如下:
首先,代理在与环境交互中得到
Figure 700142DEST_PATH_IMAGE039
,利用经验重放机制将transition存入样本池中,之后在样本池中抽取最小单位的transition进行训练;
其次,DQN使用评估Q网络和目标Q网络两个带有参数
Figure DEST_PATH_IMAGE041
的神经网络估计Q值,并且令
Figure DEST_PATH_IMAGE042
表示具有参数
Figure 197988DEST_PATH_IMAGE041
的值函数;
另外,DQN每C次迭代通过重置将网络参数克隆到目标网络中,有效化agent网络的参数更新过程;
目标网络的目标Q值为:
Figure DEST_PATH_IMAGE043
(16)
其中,r代表奖励值;
Figure DEST_PATH_IMAGE044
代表折现因子,为大于0小于1的值;
Figure 232678DEST_PATH_IMAGE038
代表状态空间
Figure DEST_PATH_IMAGE045
的下一状态;
Figure DEST_PATH_IMAGE046
代表动作空间
Figure DEST_PATH_IMAGE047
的下一动作;
Figure DEST_PATH_IMAGE048
为采样的神经网络参数
Figure DEST_PATH_IMAGE049
同时,DQN中定义的损失函数
Figure DEST_PATH_IMAGE050
为:
Figure DEST_PATH_IMAGE051
(17)
其中,E代表期望值;s代表状态空间的当前状态;a代表动作空间
Figure DEST_PATH_IMAGE052
的当前动作;
Figure 234001DEST_PATH_IMAGE049
为神经网络参数;
DQN值函数的更新不是直接更新Q值表,而是更新神经网络的参数
Figure DEST_PATH_IMAGE053
利用最小化TD误差平方来获得最佳
Figure 836889DEST_PATH_IMAGE053
参数,公式如下:
Figure DEST_PATH_IMAGE054
(18)
其中,
Figure DEST_PATH_IMAGE055
为目标值与当前值偏差的平方;
最终,代理对动作值函数
Figure DEST_PATH_IMAGE056
进行更新的公式为:
Figure DEST_PATH_IMAGE057
(19)
其中,
Figure DEST_PATH_IMAGE058
为DQN网络目标值与当前值偏差的权重;
DQN算法能够在给定状态
Figure DEST_PATH_IMAGE059
下根据最佳策略寻找到最佳动作
Figure DEST_PATH_IMAGE060
,同时最小化损失函数
Figure 228556DEST_PATH_IMAGE050
,并且最大化累计期望奖励reward。
4.根据权利要求3所述具有eMBB和URLLC混合服务的异构网络资源切片方法,其特征在于,该方法采用基于DQN的带宽调度分配算法,算法步骤如下:
(1)参数初始化;
(2)基站按需求将带宽资源分配给eMBB和URLLC用户,并按照设置的调度原则进行带宽资源块的调用;
(3)DQN的智能代理在与环境交互中获得状态、动作、奖励;
(4)对参数进行迭代训练获得最佳动作;
(5)设定迭代次数,基站根据DQN中的策略获得资源分配的最佳方案。
CN202210261790.3A 2022-03-17 2022-03-17 一种具有eMBB和URLLC混合服务的异构网络资源切片方法 Active CN114340017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210261790.3A CN114340017B (zh) 2022-03-17 2022-03-17 一种具有eMBB和URLLC混合服务的异构网络资源切片方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210261790.3A CN114340017B (zh) 2022-03-17 2022-03-17 一种具有eMBB和URLLC混合服务的异构网络资源切片方法

Publications (2)

Publication Number Publication Date
CN114340017A CN114340017A (zh) 2022-04-12
CN114340017B true CN114340017B (zh) 2022-06-07

Family

ID=81034099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210261790.3A Active CN114340017B (zh) 2022-03-17 2022-03-17 一种具有eMBB和URLLC混合服务的异构网络资源切片方法

Country Status (1)

Country Link
CN (1) CN114340017B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114786262A (zh) * 2022-04-24 2022-07-22 歌尔股份有限公司 一种资源分配方法、装置、电子设备和介质
CN115175344A (zh) * 2022-07-05 2022-10-11 东南大学 一种网络切片下联合子载波和功率分配的分布式mimo能效优化方法
CN115174412B (zh) * 2022-08-22 2024-04-12 深圳市人工智能与机器人研究院 针对异构联邦学习系统的动态带宽分配方法以及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
WO2021254349A1 (zh) * 2020-06-15 2021-12-23 武汉理工大学 一种基于竞争博弈的多用户切片资源分配方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3877914A1 (en) * 2018-11-05 2021-09-15 Nokia Solutions and Networks Oy One shot multi-user multiple-input multiple-output (mu-mimo) resource pairing using reinforcement learning based deep q network (dqn)
US11678272B2 (en) * 2019-10-30 2023-06-13 University Of Ottawa System and method for joint power and resource allocation using reinforcement learning
CN112351433B (zh) * 2021-01-05 2021-05-25 南京邮电大学 一种基于强化学习的异构网络资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111182644A (zh) * 2019-12-24 2020-05-19 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法
WO2021254349A1 (zh) * 2020-06-15 2021-12-23 武汉理工大学 一种基于竞争博弈的多用户切片资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Q-learning for 5G network slicing with diverse resource stipulations and dynamic data traffic;Debaditya Shome等;《IEEE》;20210429;全文 *
Dynamic SDN-based Radio Access Network Slicing with Deep Reinforcement Learning for URLLC and eMBB Services;Abderrahime Filai等;《IEEE》;20220308;全文 *
基于深度强化学习的应急物联网切片资源预留算法;孙国林等;《通信学报》;20201231(第09期);全文 *

Also Published As

Publication number Publication date
CN114340017A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN114340017B (zh) 一种具有eMBB和URLLC混合服务的异构网络资源切片方法
CN110493826B (zh) 一种基于深度强化学习的异构云无线接入网资源分配方法
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
Niyato et al. A noncooperative game-theoretic framework for radio resource management in 4G heterogeneous wireless access networks
CN108112082B (zh) 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN106604401B (zh) 一种异构网络中的资源分配方法
CN113163451A (zh) 一种基于深度强化学习的d2d通信网络切片分配方法
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
CN110769514A (zh) 一种异构蜂窝网络d2d通信资源分配方法及系统
Fei et al. QoE-driven resource allocation for mobile IP services in wireless network
US20220394727A1 (en) Scheduling method, scheduling algorithm training method, related system, and storage medium
Qiao et al. Video quality provisioning for millimeter wave 5G cellular networks with link outage
Lopez et al. Power control and relay selection in cognitive radio ad hoc networks using game theory
Arani et al. HAPS-UAV-enabled heterogeneous networks: A deep reinforcement learning approach
CN109600793B (zh) 基于社会关系的d2d通信动态中继选择方法
CN116828534A (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
CN116567667A (zh) 一种基于深度强化学习的异构网络资源能效优化方法
CN107995034B (zh) 一种密集蜂窝网络能量与业务协作方法
CN107257583B (zh) 一种基于自回传小蜂窝网络的虚拟资源分配方法
CN113316239B (zh) 一种基于强化学习的无人机网络发射功率分配方法及装置
CN115066016A (zh) 一种两层星地异构网络中的干扰管理方法及装置
Raschellà et al. Smart access point selection for dense WLANs: A use-case
Xu et al. Reinforcement learning for trajectory design in cache-enabled UAV-assisted cellular networks
CN114867030B (zh) 双时间尺度智能无线接入网切片方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220412

Assignee: Qingdao Zhihai Muyang Technology Co.,Ltd.

Assignor: SHANDONG University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2024980000708

Denomination of invention: A Heterogeneous Network Resource Slicing Method with eMBB and URLLC Mixed Services

Granted publication date: 20220607

License type: Common License

Record date: 20240116