CN111556572B - 一种基于强化学习的频谱资源和计算资源联合分配方法 - Google Patents

一种基于强化学习的频谱资源和计算资源联合分配方法 Download PDF

Info

Publication number
CN111556572B
CN111556572B CN202010318864.3A CN202010318864A CN111556572B CN 111556572 B CN111556572 B CN 111556572B CN 202010318864 A CN202010318864 A CN 202010318864A CN 111556572 B CN111556572 B CN 111556572B
Authority
CN
China
Prior art keywords
users
urllc
action
user
embb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010318864.3A
Other languages
English (en)
Other versions
CN111556572A (zh
Inventor
刘芳芳
冯春燕
商晴庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010318864.3A priority Critical patent/CN111556572B/zh
Publication of CN111556572A publication Critical patent/CN111556572A/zh
Application granted granted Critical
Publication of CN111556572B publication Critical patent/CN111556572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/51Allocation or scheduling criteria for wireless resources based on terminal or device properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的频谱资源和计算资源联合分配方法,属于无线通信技术领域。其中利用强化学习理论,令MEC系统中的URLLC用户和eMBB用户作为智能体学习分布式地自主学习频谱资源和计算资源联合分配策略,实现了在保证URLLC用户严格的时延约束的同时,最小化系统所有URLLC用户和eMBB用户时延和能耗的总成本的目的;同时,本发明建立了用于URLLC用户和eMBB用户频谱资源和计算资源联合分配的强化学习模型,通过合理设计动作空间和回报函数可获得整体最优解,实现了良好的训练收敛性能;本发明设计了分布式资源分配算法,各智能体单独维护一张Q值表,根据自己的准则进行动作选择使得Q值表的总体维度为较低,实现了较低的算法复杂度。

Description

一种基于强化学习的频谱资源和计算资源联合分配方法
技术领域
本发明属于无线通信领域,涉及频谱资源和计算资源联合分配,具体涉及MEC网络中URLLC用户与eMBB用户的频谱资源和计算资源联合分配的方法。
背景技术
国际电信联盟(ITU)在第22次会议上明确了5G网络主要覆盖三大应用场景:超可靠低时延通信(URLLC),增强移动宽带(eMBB)和大规模机器通信(mMTC)。根据5G发展策略,URLLC与eMBB业务共存将是5G的常见场景。eMBB业务数据量大,数据速率大。而URLLC业务时延低、可靠性高,优先级高。URLLC用户和eMBB用户势必将会对系统中的各种资源产生竞争,包括频谱资源和计算资源。MEC服务器的计算资源与云计算相比非常有限,因此多用户MEC系统中一个关键问题是如何将有限的频谱资源和计算资源分配给多个用户以实现系统级的目标。在满足URLLC和eMBB两种不同QoS要求下,为URLLC用户和eMBB用户进行合理的资源分配是非常严峻的挑战。
MEC系统中频谱资源和计算资源联合分配的现有研究可以分为集中式资源分配和分布式资源分配。集中式资源分配方法假定基站具有即时的全局信道状态信息,由基站控制所有用户的频谱资源和计算资源分配,但是基站要获取全局信道状态信息需要巨大的信令开销,在未来海量的无线设备场景下,基站很难拥有即时的全局信息。分布式资源分配方法主要是基于博弈论和分解技术完成的,博弈论方法将用户建模为博弈玩家进行竞争博弈,直到纳什均衡状态,但是求解纳什均衡状态需要用户间大量的信息交换,而且需要大量的迭代才能收敛。分解技术可以用来设计启发式贪婪算法,依次优化资源分配和卸载决策,分解后仍需要反复迭代,算法复杂度非常高。现有相关研究主要针对优化卸载策略和频谱资源分配,假设MEC服务器处的计算资源均分给各用户,忽略了频谱资源和全部计算资源联合分配带来的益处。因此需要研究一种全面考虑频谱资源和计算资源联合分配的分布式资源分配方法来解决MEC系统中URLLC用户与eMBB用户的资源分配问题。
本发明针对上述问题,充分考虑频谱资源、设备本地计算资源及MEC服务器计算资源的联合分配,设计分布式强化学习算法,在满足URLLC用户严格的时延和可靠性约束的前提下,降低了MEC系统中URLLC用户和eMBB用户的时延和能耗的总成本。
发明内容
本发明的目的是为了解决上述问题,基于强化学习理论提供一种基于强化学习的频谱资源和计算资源联合分配方法,应用于URLLC用户与eMBB用户共存的MEC系统。本发明优化了URLLC用户与eMBB用户的频谱资源和计算资源分配,降低了MEC系统中URLLC用户和eMBB用户的时延和能耗的总成本,并保证了URLLC用户的时延约束。
为了达到上述技术效果,本发明的一种基于强化学习的分布式频谱资源和计算资源联合分配方法的实现步骤包括:
步骤1:建立URLLC与eMBB用户共存的MEC系统模型,包括URLLC用户和eMBB用户的传输速率、时延、能耗以及成本函数的表达式;
步骤2:以URLLC用户和eMBB用户时延和能耗的总成本最小化为目标,以URLLC用户时延约束、频谱资源总量限制以及计算资源总量限制为约束条件,构建MEC系统中的URLLC用户和eMBB用户的成本函数优化模型;
步骤3:根据强化学习理论,建立用于URLLC用户与eMBB用户频谱资源和计算资源联合分配的分布式强化学习模型,设计状态空间、动作空间和回报函数等;
步骤4:利用历史数据对上述模型进行训练,获得频谱资源和计算资源最优分配策略;
步骤5:使用训练得到的频谱资源和计算资源联合分配策略,为URLLC用户与eMBB用户进行频谱资源和计算资源的联合分配,方法结束。
本发明的优点在于:
(1)本发明引入了强化学习理论,化了MEC系统中URLLC用户和eMBB用户的频谱资源和计算资源的联合分配,实现了在保证URLLC用户严格的时延约束的同时,最小化系统所有用户的时延和能耗的总成本的目的;
(2)本发明建立了频谱资源和计算资源联合分配强化学习模型,通过合理设计动作空间和回报函数可以获得整体最优解,实现了良好的训练收敛性能;
(3)本发明设计了分布式资源分配算法,各智能体单独维护一张Q值表,根据自己的准则进行动作选择使得Q值表的总体维度为较低,实现了较低的算法复杂度。
附图说明
图1:本发明实施例的URLLC用户与eMBB用户共存的MEC网络模型示意图;
图2:本发明实施例的基于强化学习的分布式频谱资源和计算资源联合分配方法流程图;
图3:本发明实施例的用于URLLC用户和eMBB用户的分布式频谱资源和计算资源联合分配的强化学习模型图;
图4:本发明的总回报函数收敛性能图(坐标图);
图5:用户数量变化对本发明与背景技术中提到的三种对比方法的系统总成本的影响曲线图(坐标图);
图6:本发明与背景技术中提到的三种对比方法的URLLC用户的时延对比图(坐标图);
图7:加权因子对本发明与背景技术中提到的三种对比方法的系统成本性能的影响曲线图(坐标图)。
图8:本发明所提方法与集中式算法的Q值表维度对比曲线图(坐标图)。
具体实施方式
为了使本发明能够更加清楚地理解其技术原理,下面结合附图具体、详细地阐述本发明实施例。
本发明的URLLC用户与eMBB用户共存的MEC网络模型由图1所示,小区存在一个基站gNB,被一个MEC服务器覆盖。在该系统中有Ke个eMBB用户和Ku个URLLC用户,eMBB用户集合表示为
Figure BDA0002460554720000031
URLLC用户集合表示为
Figure BDA0002460554720000032
均有待计算任务。用户可以选择MEC服务器计算资源,也可以选择本地计算资源。卸载决策表示为
Figure BDA0002460554720000033
表示卸载计算,否则本地计算。假设采用二进制卸载,即卸载任务不可再拆分,任务集合为
Figure BDA0002460554720000034
其中
Figure BDA0002460554720000035
Figure BDA0002460554720000036
为任务数据量大小(bits),
Figure BDA0002460554720000037
为处理该任务所需的计算能力(cycle/packet),假设每个任务在一个数据包中传输,并且
Figure BDA0002460554720000038
Figure BDA0002460554720000039
之间的关系为
Figure BDA00024605547200000310
k0=330(cycle/byte)。URLLC数据包大小(32bytes),处理URLLC数据包所需的CPU cycle数是恒定的。eMBB数据包大小遵循常规分布,长度比URLLC大的多。上行链路采用正交频分复用(OFDM)技术,整个带宽被划分为Kb个PRB,表示为
Figure BDA0002460554720000041
1个PRB最多分配给1个用户。此外考虑准静态情况,用户在计算卸载期间保持不变,但在其他期间可能会发生变化。
本发明一种基于强化学习的频谱资源和计算资源联合分配方法流程参考图2,步骤包括:
建立系统模型S1:MEC系统模型中存在URLLC和eMBB两种用户。
首先,表征URLLC用户和eMBB用户的传输速率。根据有限块长理论,在给定的解码错误概率
Figure BDA0002460554720000042
和有限块长
Figure BDA0002460554720000043
字节下,URLLC用户的传输速率
Figure BDA0002460554720000044
为:
Figure BDA0002460554720000045
其中W是子载波带宽,
Figure BDA0002460554720000046
是发射功率,N0是单边噪声频谱密度,
Figure BDA0002460554720000047
是Q函数的逆函数。
Figure BDA0002460554720000048
Figure BDA0002460554720000049
分别是瑞利衰落和路径损耗。
Figure BDA00024605547200000410
Figure BDA00024605547200000411
分别表示为:
Figure BDA00024605547200000412
Figure BDA00024605547200000413
Figure BDA00024605547200000414
为URLLC用户k与gNB间的距离(km)。
eMBB用户的传输速率
Figure BDA00024605547200000415
表示为:
Figure BDA00024605547200000416
其中W是子载波带宽,
Figure BDA00024605547200000417
是发射功率,
Figure BDA00024605547200000418
是瑞利衰落,
Figure BDA00024605547200000419
是路径损耗表示为:
Figure BDA00024605547200000420
然后,表征URLLC用户和eMBB用户的时延。用户可以选择本地计算或卸载计算,若选择本地计算,则本地计算时延为:
Figure BDA00024605547200000421
若选择卸载计算,卸载计算时延为
Figure BDA00024605547200000422
Figure BDA00024605547200000423
是卸载时延,
Figure BDA00024605547200000424
是计算时延。结合传输速率模型,任务卸载时延
Figure BDA00024605547200000425
表示为:
Figure BDA00024605547200000426
假设MEC服务器为用户k分配的计算资源为
Figure BDA00024605547200000427
小于MEC服务器最大计算能力,即
Figure BDA00024605547200000428
因此,任务计算时延
Figure BDA00024605547200000429
可以表示为:
Figure BDA00024605547200000430
其中,
Figure BDA0002460554720000051
为任务
Figure BDA0002460554720000052
所需的计算资源(CPU circles)。计算结果的数据量远小于输入任务的数据量,可以忽略计算结果返回时延。因此,卸载计算总时延为:
Figure BDA0002460554720000053
ξ指示用户类型,若为URLLC用户,则ξ=u,
Figure BDA0002460554720000054
若为eMBB用户,则ξ=e,
Figure BDA0002460554720000055
接下来,表征URLLC用户和eMBB用户的设备能耗。若选择本地计算,本地能耗为:
Figure BDA0002460554720000056
若选择卸载计算,总能耗为卸载能耗,同样忽略接收计算结果的能耗。卸载能耗为:
Figure BDA0002460554720000057
其中,
Figure BDA0002460554720000058
为发射功率,小于最大发射功率
Figure BDA0002460554720000059
Figure BDA00024605547200000510
为任务卸载时间。
最后,表征用户时延和能耗的成本函数。用户k的时延和能耗的成本表示为:
Figure BDA00024605547200000511
其中,
Figure BDA00024605547200000512
表示用户k的卸载决策,
Figure BDA00024605547200000513
表示卸载计算,
Figure BDA00024605547200000514
表示本地计算。γ表示用户的时延和能耗加权因子,λ表示URLLC用户和eMBB用户的成本加权因子,两个加权因子的设计需要结合URLLC和eMBB的优先级及各自的业务特性。因此,所有URLLC和eMBB用户的系统成本函数表示为:
Figure BDA00024605547200000515
建立优化模型S2:在URLLC用户严格的时延约束下,通过优化URLLC用户与eMBB用户的频谱资源和计算资源的联合分配最小化时延和能耗的总成本,建立优化模型如下所示:
Figure BDA00024605547200000516
s.t.C1:
Figure BDA00024605547200000517
C2:
Figure BDA00024605547200000518
C3:
Figure BDA00024605547200000519
C4:
Figure BDA00024605547200000520
C5:
Figure BDA00024605547200000521
第一个限制条件C1表征URLLC用户的时延约束;第二个限制条件C2表征二进制卸载约束,用户的任务只能本地计算或者完全卸载;第三个限制条件C3表征系统中的总频谱资源约束;第四个限制条件C4表征系统中的总计算资源约束;第五个限制条件C5表征用户的实际发射功率受到最大发射功率约束。
建立强化学习模型S3:建立用于URLLC用户与eMBB用户频谱资源和计算资源联合分配的强化学习模型,如图3所示。Q学习算法的学习过程可建模为离散状态马尔科夫决策过程,可以通过五元组<S,A,P,R,η>来描述。其中,S是环境状态集合;A是动作集合;P是状态转移概率;R是回报函数。MEC系统中的URLLC用户和eMBB用户作为多个智能体,然后根据策略π从动作空间A中选择一个动作at,即URLLC用户和eMBB用户选择占用的频谱资源和计算资源比例;执行动作at后,URLLC用户和eMBB用户将得到一个回报rt,所有用户根据回报调整策略π,以获得更高的回报。在分布式Q学习算法的学习过程中,各智能体单独维护一张Q值表,根据自己的准则进行动作选择,并根据回报函数R更新自己的Q值表,这样Q值表的总体维度为|Ku+Ke|·|S|·|A|,算法复杂度大大低于集中式算法,尤其是用户数较多的情况。此外,各智能体在进行学习时不需要与彼此发生信息交互,减少了系统开销;通过合理设计回报函数由所有智能体的动作协同决定,分布式Q学习算法同样可以获得整体最优解。本发明选用分布式Q学习算法来求解URLLC与eMBB用户的频谱资源和计算资源联合分配的最优解。
具体步骤如下:
智能体选取:系统中所有的URLLC用户和eMBB用户。
状态空间设计:将整个系统作为与智能体发生交互的环境,由于最优化问题未涉及环境状态的变化,可以将环境设定为单状态环境。因此,环境状态在Q学习过程中不发生改变,始终处于状态但回报函数值跟随智能体的动作发生改变,进而引起Q值表发生更新。
动作空间设计:每个智能体均有一个动作集合Ak。需要分配频谱资源和计算资源两种资源,且Q学习的动作空间必须有限,需要将两种资源离散化。如果选择卸载计算,频谱资源动作空间为
Figure BDA0002460554720000061
共N1个动作;计算资源动作空间为
Figure BDA0002460554720000062
共N2个动作;如果选择本地计算,则动作空间为1。因此,整体动作空间维度为|SB|·|SF|+1,各智能体的整体动作空间均可以表示为
Figure BDA0002460554720000063
共有N1·N2+1个动作。当智能体选择动作ai,j,若ai,j=a0,0,表示本地计算资源,不占用频谱资源和MEC服务器的计算资源;若ai,j≠a0,0表示卸载计算,则表示占用频谱资源比例为
Figure BDA0002460554720000071
计算资源比例为
Figure BDA0002460554720000072
以智能体k为例,假设SB={0.25,0.5,0.75,1},SF={0.25,0.5,0.75,1},a0,0表示占用本地计算资源;a1,1表示卸载计算,占用25%的频谱资源和25%的计算资源。
回报函数设计:根据优化目标,设计回报函数需要同时考虑系统总成本、URLLC用户严格的时延约束、以及系统频谱资源和计算资源的约束。因此将回报函数设计为:
Figure BDA0002460554720000073
当智能体k选择的动作满足所有的约束条件时,则会得到正回报
Figure BDA0002460554720000074
时延和能耗的总成本越小获得的回报越大;反之,当智能体k选择的动作导致约束条件无法满足,如违背该URLLC用户的时延约束或者超出了总频谱和总计算资源的限制,会得到负回报-1,即各智能体采取该动作会受到惩罚,应尽量避免该动作策略。
Q值更新准则:智能体获取回报函数后会对Q值表做出更新。不同于单智能体Q学习和集中式Q学习算法,分布式Q学习算法只在新的Q值大于当前Q值时发生更新,否则Q值保持不变,即:
Figure BDA0002460554720000075
实际上,由于环境状态不发生改变,上式可简化为:
Figure BDA0002460554720000076
动作选取准则:初始时智能体等概率随机选择某动作,接下来智能体会对所有动作进行充分探索,并倾向于选择回报较大的动作,本方法选用ε贪婪策略作为动作选取准则。对于智能体k来说,首先预设常数ε∈[0,1],然后生成动作随机数xk∈[0,1],然后将xk与ε进行比较。如果xk<ε,则从动作空间Ak里随机选取动作作为下一个动作;否则,选取Q值表中最大值对应的动作为下一个动作。ε初始值设定为0.8,随着迭代次数增加逐渐减小,直到降低至0.05后以5%的探索率完成剩余迭代,episode为当前迭代次数,itermax为最大迭代次数。为了得到确定的策略,当某个动作的选择概率高于0.95时,该动作的选择概率将在后续的学习过程中被固定为1。
Figure BDA0002460554720000081
训练模型S4,步骤如下所示:
(1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(2)初始化所有智能体的策略模型π;
(3)初始化最大循环迭代次数itermax
(4)初始化当前迭代次数iter←0;
(5)所有URLLC用户和eMBB用户智能体基于策略π选择动作a,即频谱资源比例和计算资源比例,统计所有智能体的回报函数,更新Q值表;
(6)iter←iter+1,仿真平台更新环境,基于策略π选择新动作a';
(7)返回步骤5,直至iter=itermax,得到最优策略π*
(8)结束。
执行算法S5,步骤如下所示:
(1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(2)所有URLLC用户与eMBB用户根据策略π*,选择频谱资源和计算资源的比例;
(3)结束。
图4表示了本发明的收敛性能,图5表示了本发明的一种基于强化学习的频谱资源和计算资源联合分配方法的使用效果图,图6表示了本发明所提方法的URLLC用户的时延效果图,图7表示了本发明所提方法在不同加权因子下的系统总成本效果图。图8表示了本发明所提方法与集中式算法的Q值表维度对比图。其中,两种对比方法分别是全部卸载方法和随机卸载方法。
图4显示了本发明所提方法的总回报函数的收敛性能良好。图5比较了三种方法对系统中所有用户总成本的影响,由图可知,当URLLC用户数固定时,随着eMBB用户数目的增长,本发明所提方法取得了最低的系统总成本。图6显示了本发明所提方法的URLLC用户的总时延和平均时延更低。图7显示本发明所提方法在不同加权因子下均可以取得更低的系统总成本。图8显示本发明所提方法比集中式算法的Q值表维度更低,尤其是用户总数目较高的情况下,所提方法的Q值表维度远低于集中式算法。由此可以得出结论:本发明所提算法可以在URLLC用户时延约束的同时,获得了比全部卸载方法和随机卸载方法更低的系统总成本。
综上所述,通过实施本发明实施例的一种基于强化学习的频谱资源和计算资源联合分配方法,可以在保证URLLC用户时延约束的同时,获得了比全部卸载方法和随机卸载方法更低的时延和能耗的总成本;本发明通过合理设计动作空间和回报函数,实现了良好的训练收敛性能;本发明所设计的分布式资源分配方法,使得Q值表的总体维度为较低,相比于集中式算法实现了较低的算法复杂度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (2)

1.一种基于强化学习的频谱资源和计算资源联合分配方法,具体步骤如下:
步骤1:建立URLLC与eMBB用户共存的MEC系统模型
基站gNB被MEC服务器覆盖,该系统中有Ke个eMBB用户和Ku个URLLC用户,用户集合分别为Uu和Ue,每个用户均有待计算任务;ξ指示用户类型,若为URLLC用户则ξ=u,若为eMBB用户则ξ=e,任务数据量大小为
Figure FDA0003537793900000011
卸载决策
Figure FDA0003537793900000012
Figure FDA0003537793900000013
表示任务进行卸载计算,
Figure FDA0003537793900000014
表示任务进行本地计算;
Figure FDA0003537793900000015
为用户的时延约束,超过此阈值则丢包;
步骤2:以URLLC用户和eMBB用户时延和能耗的总成本最小化并保证URLLC时延约束为原则,构建成本函数优化问题
首先,表征URLLC用户和eMBB用户的无线传输速率
Figure FDA0003537793900000016
Figure FDA0003537793900000017
Figure FDA0003537793900000018
Figure FDA0003537793900000019
其中W是子载波带宽,
Figure FDA00035377939000000110
Figure FDA00035377939000000111
分别是URLLC用户和eMBB用户的发射功率,Φ是SNR损耗系数,N0是单边噪声频谱密度,
Figure FDA00035377939000000112
是Q函数的逆函数,
Figure FDA00035377939000000113
Figure FDA00035377939000000114
是瑞利衰落,
Figure FDA00035377939000000115
Figure FDA00035377939000000116
为路径损耗,
Figure FDA00035377939000000117
为URLLC用户的解码错误概率,
Figure FDA00035377939000000118
为用户k与gNB间距离,其中,
Figure FDA00035377939000000119
然后,表征URLLC用户和eMBB用户的时延,本地计算时延为:
Figure FDA00035377939000000120
其中
Figure FDA00035377939000000121
为处理该任务所需的计算能力,卸载计算时延为
Figure FDA00035377939000000122
Figure FDA00035377939000000123
是卸载时延,
Figure FDA00035377939000000124
是计算时延,分别表示为:
Figure FDA00035377939000000125
Figure FDA00035377939000000126
其中
Figure FDA0003537793900000021
为MEC服务器为用户分配的计算资源,
Figure FDA0003537793900000022
为任务所需的计算资源;
接下来,表征URLLC用户和eMBB用户的成本函数,本地计算能耗为:
Figure FDA0003537793900000023
k0为能耗因子,与设备本身硬件相关,卸载计算能耗为:
Figure FDA0003537793900000024
其中
Figure FDA0003537793900000025
为基站gNB发射功率,用户k时延和能耗的成本表示为:
Figure FDA0003537793900000026
MEC系统中所有URLLC用户和eMBB用户时延和能耗的总成本表示为:
Figure FDA0003537793900000027
因此,将MEC系统中URLLC用户和eMBB用户的成本优化模型建立为:
Figure FDA0003537793900000028
第一个限制条件C1表示二进制卸载,用户的任务只能本地计算或者完全卸载;第二个限制条件C2表示URLLC用户的时延约束;第三个限制条件C3表示系统中的总频谱资源约束,第四个约束条件C4表示MEC服务器处的总计算资源限制;第五个约束条件C5表示用户的实际发射功率受到最大发射功率限制;
步骤3:建立URLLC用户与eMBB用户频谱资源和计算资源联合分配的强化学习模型
Q学习算法的学习过程可建模为离散状态马尔科夫决策过程通过五元组<S,A,P,R,η>来描述,其中S是环境状态集合,A是动作空间,P是状态转移概率,R是回报函数;MEC系统中的URLLC用户和eMBB用户作为多个智能体,然后根据策略π从动作空间A中选择一个动作a,即URLLC用户和eMBB用户选择占用的频谱资源和计算资源比例;执行动作a后,URLLC用户和eMBB用户将得到一个回报r,所有用户根据回报调整策略π,以获得更高的回报;在分布式Q学习算法的学习过程中,每个智能体单独维护一张Q值表,根据自己的准则进行动作选择,并根据回报函数R调整更新自己的Q值表,这样Q值表的总体维度为|Ku+Ke|·|S|·|A|,算法复杂度低于集中式算法;各智能体在进行学习时不需要与彼此发生信息交互,减少了系统开销;智能体的回报函数由所有智能体的动作协同决定,分布式Q学习算法可以获得整体最优解,选用分布式Q学习算法来求解URLLC与eMBB业务的频谱资源和计算资源联合分配的最优解;
步骤4:利用历史通信数据对上述模型进行训练,获得频谱资源和计算资源分配最佳策略;
(4-1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(4-2)初始化所有智能体的策略模型π;
(4-3)初始化最大循环迭代次数itermax
(4-4)初始化当前迭代次数iter←0;
(4-5)所有URLLC用户和eMBB用户智能体基于策略π选择动作a,即频谱资源比例和计算资源比例,统计所有智能体的回报函数,更新Q值表;
(4-6)iter←iter+1,仿真平台更新环境,基于策略π选择新动作a';
(4-7)返回从(4-5)执行,直至iter=itermax,得到最优策略π*
(4-8)结束;
步骤5:根据训练得到的频谱资源和计算资源联合分配策略,URLLC用户与eMBB用户进行分布式地频谱资源和计算资源占用比例选择,方法结束;
(5-1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(5-2)所有URLLC用户与eMBB用户根据策略π*,选择频谱资源和计算资源的比例;
(5-3)结束。
2.按照权利要求1所述方法,其特征在于,步骤3中建立分布式强化学习模型,包含多智能体设计、状态空间设计、动作空间设计、回报函数设计、Q值更新准则设计和动作选取准则设计,具体设计如下:
多智能体设计:MEC系统中所有的URLLC用户和eMBB用户;
状态空间设计:将整个系统作为与智能体发生交互的环境,由于最优化问题未涉及环境状态的变化,为单状态环境,因此,环境状态在Q学习过程中不发生改变,但回报函数值跟随智能体动作发生改变进而引起Q值表发生更新;
动作空间设计:每个智能体均有一个动作空间合Ak,需要分配频谱资源和计算资源两种资源,且Q学习的动作空间必须有限,需要将两种资源离散化;如果选择卸载计算,频谱资源动作空间为
Figure FDA0003537793900000041
共N1个动作;计算资源动作空间为
Figure FDA0003537793900000042
共N2个动作;如果选择本地计算,则动作空间为1;因此,整体动作空间维度为|SB|·|SF|+1,各智能体的整体动作空间表示为
Figure FDA0003537793900000043
共有N1·N2+1个动作,若智能体选择动作ai,j,若ai,j=a0,0,表示本地计算资源,不占用频谱和MEC服务器的计算资源;若ai,j≠a0,0表示卸载计算,则表示占用频谱资源比例为
Figure FDA0003537793900000044
计算资源比例为
Figure FDA0003537793900000045
回报函数设计:根据优化目标,设计回报函数需要同时考虑系统总成本、URLLC用户严格的时延约束、以及系统频谱资源和计算资源的约束,将回报函数Rk(s,a)设计为:
Figure FDA0003537793900000046
其中s为本次迭代的环境状态,根据策略π从动作空间Ak中选择一个动作a执行,URLLC用户和eMBB用户将得到一个回报Rk(s,a),当智能体k选择的动作满足所有的约束条件时,则会得到正回报1/Θ,时延和能耗的总成本越小获得的回报越大;反之,当智能体k选择的动作导致约束条件无法满足,会得到负回报,即各智能体采取该组动作会受到惩罚,应尽量避免该动作策略;
Q值更新准则:智能体获取回报函数后会对Q值表做出更新,不同于单智能体Q学习和集中式Q学习算法,分布式Q学习算法只在新的Q值大于当前Q值时发生更新,否则Q值保持不变,即:
Figure FDA0003537793900000047
其中
Figure FDA0003537793900000048
为当前状态Q值,
Figure FDA0003537793900000049
为下一状态Q值,由于环境状态s、s'不发生改变,上式简化为:
Figure FDA0003537793900000051
动作选取准则:在完成Q值更新后,各智能体需要利用动作选取准则获取下一步的动作;本方法选用ε贪婪策略作为动作选取准则,对于智能体k来说,首先预设常数ε∈[0,1],然后生成动作随机数xk∈[0,1],然后将xk与ε进行比较,如果xk<ε,则从动作空间Ak里随机选取动作作为下一个动作;否则,选取Q值表中最大值对应的动作作为下一个动作。
CN202010318864.3A 2020-04-21 2020-04-21 一种基于强化学习的频谱资源和计算资源联合分配方法 Active CN111556572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318864.3A CN111556572B (zh) 2020-04-21 2020-04-21 一种基于强化学习的频谱资源和计算资源联合分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318864.3A CN111556572B (zh) 2020-04-21 2020-04-21 一种基于强化学习的频谱资源和计算资源联合分配方法

Publications (2)

Publication Number Publication Date
CN111556572A CN111556572A (zh) 2020-08-18
CN111556572B true CN111556572B (zh) 2022-06-07

Family

ID=72007530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318864.3A Active CN111556572B (zh) 2020-04-21 2020-04-21 一种基于强化学习的频谱资源和计算资源联合分配方法

Country Status (1)

Country Link
CN (1) CN111556572B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112637822B (zh) * 2020-12-26 2023-01-20 北京工业大学 一种基于区块链的蜂窝网络安全交易平台
CN112839382B (zh) * 2020-12-30 2023-04-21 北京邮电大学 一种车联网中视频语义驱动的通信和计算资源联合分配方法
CN112888072B (zh) * 2021-01-25 2023-01-31 陕西师范大学 一种保障服务需求的eMBB和URLLC资源复用方法
CN113163447B (zh) * 2021-03-12 2022-05-20 中南大学 基于q学习的通信网络任务资源调度方法
CN113316154B (zh) * 2021-05-26 2022-06-21 重庆邮电大学 一种授权和免授权d2d通信资源联合智能分配方法
CN113543065B (zh) * 2021-05-31 2024-02-02 北京邮电大学 一种基于强化学习的通信资源分配方法及其相关设备
CN113691350B (zh) * 2021-08-13 2023-06-20 北京遥感设备研究所 一种eMBB和URLLC的联合调度方法及系统
CN114116209A (zh) * 2021-11-12 2022-03-01 中国人民解放军国防科技大学 基于深度强化学习的频谱地图构建与分发方法及系统
CN115515101A (zh) * 2022-09-23 2022-12-23 西北工业大学 一种用于scma-v2x系统的解耦q学习智能码本选择方法
CN115499882A (zh) * 2022-11-16 2022-12-20 之江实验室 边缘节点频谱与计算资源联合分配方法、装置和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI666946B (zh) * 2016-12-22 2019-07-21 財團法人資訊工業策進會 支援低延遲高可靠性通訊服務之使用者裝置、支援增強型行動寬頻服務之使用者裝置及基地台
CN109561504B (zh) * 2018-11-20 2020-09-01 北京邮电大学 一种基于深度强化学习的URLLC和eMBB的资源复用方法
CN109729528B (zh) * 2018-12-21 2020-08-18 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109982434B (zh) * 2019-03-08 2022-04-01 西安电子科技大学 无线资源调度一体智能化控制系统及方法、无线通信系统
CN110418416B (zh) * 2019-07-26 2023-04-18 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Reward-based Markov Chain Analysis of Slicing Flows for Inter-Cloud Virtual Resources Allocation in 5G Cellular Network;Ben-Jye Chang等;《IEEE》;20191231;全文 *

Also Published As

Publication number Publication date
CN111556572A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111556572B (zh) 一种基于强化学习的频谱资源和计算资源联合分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
US12035380B2 (en) Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning
CN111953758A (zh) 一种边缘网络计算卸载和任务迁移方法及装置
WO2023179010A1 (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN111654342A (zh) 基于有先验知识强化学习的动态频谱接入方法
CN114867030B (zh) 双时间尺度智能无线接入网切片方法
CN110401936A (zh) 一种基于d2d通信的任务卸载与资源分配方法
CN114138373A (zh) 一种基于强化学习的边缘计算任务卸载方法
CN111511028B (zh) 一种多用户资源分配方法、装置、系统及存储介质
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
CN113590279B (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN114980039A (zh) D2d协作计算的mec系统中的随机任务调度和资源分配方法
CN116668439A (zh) 一种基于深度强化学习的边缘计算任务卸载方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
Liu et al. A deep reinforcement learning based adaptive transmission strategy in space-air-ground integrated networks
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
Feng et al. Mobile Edge Computing Offloading Strategy Based on Improved BP Neural Network
Lv et al. A dynamic spectrum access method based on Q-learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant