CN111556572B - 一种基于强化学习的频谱资源和计算资源联合分配方法 - Google Patents
一种基于强化学习的频谱资源和计算资源联合分配方法 Download PDFInfo
- Publication number
- CN111556572B CN111556572B CN202010318864.3A CN202010318864A CN111556572B CN 111556572 B CN111556572 B CN 111556572B CN 202010318864 A CN202010318864 A CN 202010318864A CN 111556572 B CN111556572 B CN 111556572B
- Authority
- CN
- China
- Prior art keywords
- users
- urllc
- action
- user
- embb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 76
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000005265 energy consumption Methods 0.000 claims abstract description 25
- 238000013468 resource allocation Methods 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 238000013461 design Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000005562 fading Methods 0.000 claims description 3
- AMGNHZVUZWILSB-UHFFFAOYSA-N 1,2-bis(2-chloroethylsulfanyl)ethane Chemical compound ClCCSCCSCCCl AMGNHZVUZWILSB-UHFFFAOYSA-N 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/51—Allocation or scheduling criteria for wireless resources based on terminal or device properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于强化学习的频谱资源和计算资源联合分配方法,属于无线通信技术领域。其中利用强化学习理论,令MEC系统中的URLLC用户和eMBB用户作为智能体学习分布式地自主学习频谱资源和计算资源联合分配策略,实现了在保证URLLC用户严格的时延约束的同时,最小化系统所有URLLC用户和eMBB用户时延和能耗的总成本的目的;同时,本发明建立了用于URLLC用户和eMBB用户频谱资源和计算资源联合分配的强化学习模型,通过合理设计动作空间和回报函数可获得整体最优解,实现了良好的训练收敛性能;本发明设计了分布式资源分配算法,各智能体单独维护一张Q值表,根据自己的准则进行动作选择使得Q值表的总体维度为较低,实现了较低的算法复杂度。
Description
技术领域
本发明属于无线通信领域,涉及频谱资源和计算资源联合分配,具体涉及MEC网络中URLLC用户与eMBB用户的频谱资源和计算资源联合分配的方法。
背景技术
国际电信联盟(ITU)在第22次会议上明确了5G网络主要覆盖三大应用场景:超可靠低时延通信(URLLC),增强移动宽带(eMBB)和大规模机器通信(mMTC)。根据5G发展策略,URLLC与eMBB业务共存将是5G的常见场景。eMBB业务数据量大,数据速率大。而URLLC业务时延低、可靠性高,优先级高。URLLC用户和eMBB用户势必将会对系统中的各种资源产生竞争,包括频谱资源和计算资源。MEC服务器的计算资源与云计算相比非常有限,因此多用户MEC系统中一个关键问题是如何将有限的频谱资源和计算资源分配给多个用户以实现系统级的目标。在满足URLLC和eMBB两种不同QoS要求下,为URLLC用户和eMBB用户进行合理的资源分配是非常严峻的挑战。
MEC系统中频谱资源和计算资源联合分配的现有研究可以分为集中式资源分配和分布式资源分配。集中式资源分配方法假定基站具有即时的全局信道状态信息,由基站控制所有用户的频谱资源和计算资源分配,但是基站要获取全局信道状态信息需要巨大的信令开销,在未来海量的无线设备场景下,基站很难拥有即时的全局信息。分布式资源分配方法主要是基于博弈论和分解技术完成的,博弈论方法将用户建模为博弈玩家进行竞争博弈,直到纳什均衡状态,但是求解纳什均衡状态需要用户间大量的信息交换,而且需要大量的迭代才能收敛。分解技术可以用来设计启发式贪婪算法,依次优化资源分配和卸载决策,分解后仍需要反复迭代,算法复杂度非常高。现有相关研究主要针对优化卸载策略和频谱资源分配,假设MEC服务器处的计算资源均分给各用户,忽略了频谱资源和全部计算资源联合分配带来的益处。因此需要研究一种全面考虑频谱资源和计算资源联合分配的分布式资源分配方法来解决MEC系统中URLLC用户与eMBB用户的资源分配问题。
本发明针对上述问题,充分考虑频谱资源、设备本地计算资源及MEC服务器计算资源的联合分配,设计分布式强化学习算法,在满足URLLC用户严格的时延和可靠性约束的前提下,降低了MEC系统中URLLC用户和eMBB用户的时延和能耗的总成本。
发明内容
本发明的目的是为了解决上述问题,基于强化学习理论提供一种基于强化学习的频谱资源和计算资源联合分配方法,应用于URLLC用户与eMBB用户共存的MEC系统。本发明优化了URLLC用户与eMBB用户的频谱资源和计算资源分配,降低了MEC系统中URLLC用户和eMBB用户的时延和能耗的总成本,并保证了URLLC用户的时延约束。
为了达到上述技术效果,本发明的一种基于强化学习的分布式频谱资源和计算资源联合分配方法的实现步骤包括:
步骤1:建立URLLC与eMBB用户共存的MEC系统模型,包括URLLC用户和eMBB用户的传输速率、时延、能耗以及成本函数的表达式;
步骤2:以URLLC用户和eMBB用户时延和能耗的总成本最小化为目标,以URLLC用户时延约束、频谱资源总量限制以及计算资源总量限制为约束条件,构建MEC系统中的URLLC用户和eMBB用户的成本函数优化模型;
步骤3:根据强化学习理论,建立用于URLLC用户与eMBB用户频谱资源和计算资源联合分配的分布式强化学习模型,设计状态空间、动作空间和回报函数等;
步骤4:利用历史数据对上述模型进行训练,获得频谱资源和计算资源最优分配策略;
步骤5:使用训练得到的频谱资源和计算资源联合分配策略,为URLLC用户与eMBB用户进行频谱资源和计算资源的联合分配,方法结束。
本发明的优点在于:
(1)本发明引入了强化学习理论,化了MEC系统中URLLC用户和eMBB用户的频谱资源和计算资源的联合分配,实现了在保证URLLC用户严格的时延约束的同时,最小化系统所有用户的时延和能耗的总成本的目的;
(2)本发明建立了频谱资源和计算资源联合分配强化学习模型,通过合理设计动作空间和回报函数可以获得整体最优解,实现了良好的训练收敛性能;
(3)本发明设计了分布式资源分配算法,各智能体单独维护一张Q值表,根据自己的准则进行动作选择使得Q值表的总体维度为较低,实现了较低的算法复杂度。
附图说明
图1:本发明实施例的URLLC用户与eMBB用户共存的MEC网络模型示意图;
图2:本发明实施例的基于强化学习的分布式频谱资源和计算资源联合分配方法流程图;
图3:本发明实施例的用于URLLC用户和eMBB用户的分布式频谱资源和计算资源联合分配的强化学习模型图;
图4:本发明的总回报函数收敛性能图(坐标图);
图5:用户数量变化对本发明与背景技术中提到的三种对比方法的系统总成本的影响曲线图(坐标图);
图6:本发明与背景技术中提到的三种对比方法的URLLC用户的时延对比图(坐标图);
图7:加权因子对本发明与背景技术中提到的三种对比方法的系统成本性能的影响曲线图(坐标图)。
图8:本发明所提方法与集中式算法的Q值表维度对比曲线图(坐标图)。
具体实施方式
为了使本发明能够更加清楚地理解其技术原理,下面结合附图具体、详细地阐述本发明实施例。
本发明的URLLC用户与eMBB用户共存的MEC网络模型由图1所示,小区存在一个基站gNB,被一个MEC服务器覆盖。在该系统中有Ke个eMBB用户和Ku个URLLC用户,eMBB用户集合表示为URLLC用户集合表示为均有待计算任务。用户可以选择MEC服务器计算资源,也可以选择本地计算资源。卸载决策表示为表示卸载计算,否则本地计算。假设采用二进制卸载,即卸载任务不可再拆分,任务集合为其中 为任务数据量大小(bits),为处理该任务所需的计算能力(cycle/packet),假设每个任务在一个数据包中传输,并且和之间的关系为k0=330(cycle/byte)。URLLC数据包大小(32bytes),处理URLLC数据包所需的CPU cycle数是恒定的。eMBB数据包大小遵循常规分布,长度比URLLC大的多。上行链路采用正交频分复用(OFDM)技术,整个带宽被划分为Kb个PRB,表示为1个PRB最多分配给1个用户。此外考虑准静态情况,用户在计算卸载期间保持不变,但在其他期间可能会发生变化。
本发明一种基于强化学习的频谱资源和计算资源联合分配方法流程参考图2,步骤包括:
建立系统模型S1:MEC系统模型中存在URLLC和eMBB两种用户。
然后,表征URLLC用户和eMBB用户的时延。用户可以选择本地计算或卸载计算,若选择本地计算,则本地计算时延为:
接下来,表征URLLC用户和eMBB用户的设备能耗。若选择本地计算,本地能耗为:
若选择卸载计算,总能耗为卸载能耗,同样忽略接收计算结果的能耗。卸载能耗为:
最后,表征用户时延和能耗的成本函数。用户k的时延和能耗的成本表示为:
其中,表示用户k的卸载决策,表示卸载计算,表示本地计算。γ表示用户的时延和能耗加权因子,λ表示URLLC用户和eMBB用户的成本加权因子,两个加权因子的设计需要结合URLLC和eMBB的优先级及各自的业务特性。因此,所有URLLC和eMBB用户的系统成本函数表示为:
建立优化模型S2:在URLLC用户严格的时延约束下,通过优化URLLC用户与eMBB用户的频谱资源和计算资源的联合分配最小化时延和能耗的总成本,建立优化模型如下所示:
第一个限制条件C1表征URLLC用户的时延约束;第二个限制条件C2表征二进制卸载约束,用户的任务只能本地计算或者完全卸载;第三个限制条件C3表征系统中的总频谱资源约束;第四个限制条件C4表征系统中的总计算资源约束;第五个限制条件C5表征用户的实际发射功率受到最大发射功率约束。
建立强化学习模型S3:建立用于URLLC用户与eMBB用户频谱资源和计算资源联合分配的强化学习模型,如图3所示。Q学习算法的学习过程可建模为离散状态马尔科夫决策过程,可以通过五元组<S,A,P,R,η>来描述。其中,S是环境状态集合;A是动作集合;P是状态转移概率;R是回报函数。MEC系统中的URLLC用户和eMBB用户作为多个智能体,然后根据策略π从动作空间A中选择一个动作at,即URLLC用户和eMBB用户选择占用的频谱资源和计算资源比例;执行动作at后,URLLC用户和eMBB用户将得到一个回报rt,所有用户根据回报调整策略π,以获得更高的回报。在分布式Q学习算法的学习过程中,各智能体单独维护一张Q值表,根据自己的准则进行动作选择,并根据回报函数R更新自己的Q值表,这样Q值表的总体维度为|Ku+Ke|·|S|·|A|,算法复杂度大大低于集中式算法,尤其是用户数较多的情况。此外,各智能体在进行学习时不需要与彼此发生信息交互,减少了系统开销;通过合理设计回报函数由所有智能体的动作协同决定,分布式Q学习算法同样可以获得整体最优解。本发明选用分布式Q学习算法来求解URLLC与eMBB用户的频谱资源和计算资源联合分配的最优解。
具体步骤如下:
智能体选取:系统中所有的URLLC用户和eMBB用户。
状态空间设计:将整个系统作为与智能体发生交互的环境,由于最优化问题未涉及环境状态的变化,可以将环境设定为单状态环境。因此,环境状态在Q学习过程中不发生改变,始终处于状态但回报函数值跟随智能体的动作发生改变,进而引起Q值表发生更新。
动作空间设计:每个智能体均有一个动作集合Ak。需要分配频谱资源和计算资源两种资源,且Q学习的动作空间必须有限,需要将两种资源离散化。如果选择卸载计算,频谱资源动作空间为共N1个动作;计算资源动作空间为共N2个动作;如果选择本地计算,则动作空间为1。因此,整体动作空间维度为|SB|·|SF|+1,各智能体的整体动作空间均可以表示为共有N1·N2+1个动作。当智能体选择动作ai,j,若ai,j=a0,0,表示本地计算资源,不占用频谱资源和MEC服务器的计算资源;若ai,j≠a0,0表示卸载计算,则表示占用频谱资源比例为计算资源比例为以智能体k为例,假设SB={0.25,0.5,0.75,1},SF={0.25,0.5,0.75,1},a0,0表示占用本地计算资源;a1,1表示卸载计算,占用25%的频谱资源和25%的计算资源。
回报函数设计:根据优化目标,设计回报函数需要同时考虑系统总成本、URLLC用户严格的时延约束、以及系统频谱资源和计算资源的约束。因此将回报函数设计为:
当智能体k选择的动作满足所有的约束条件时,则会得到正回报时延和能耗的总成本越小获得的回报越大;反之,当智能体k选择的动作导致约束条件无法满足,如违背该URLLC用户的时延约束或者超出了总频谱和总计算资源的限制,会得到负回报-1,即各智能体采取该动作会受到惩罚,应尽量避免该动作策略。
Q值更新准则:智能体获取回报函数后会对Q值表做出更新。不同于单智能体Q学习和集中式Q学习算法,分布式Q学习算法只在新的Q值大于当前Q值时发生更新,否则Q值保持不变,即:
实际上,由于环境状态不发生改变,上式可简化为:
动作选取准则:初始时智能体等概率随机选择某动作,接下来智能体会对所有动作进行充分探索,并倾向于选择回报较大的动作,本方法选用ε贪婪策略作为动作选取准则。对于智能体k来说,首先预设常数ε∈[0,1],然后生成动作随机数xk∈[0,1],然后将xk与ε进行比较。如果xk<ε,则从动作空间Ak里随机选取动作作为下一个动作;否则,选取Q值表中最大值对应的动作为下一个动作。ε初始值设定为0.8,随着迭代次数增加逐渐减小,直到降低至0.05后以5%的探索率完成剩余迭代,episode为当前迭代次数,itermax为最大迭代次数。为了得到确定的策略,当某个动作的选择概率高于0.95时,该动作的选择概率将在后续的学习过程中被固定为1。
训练模型S4,步骤如下所示:
(1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(2)初始化所有智能体的策略模型π;
(3)初始化最大循环迭代次数itermax;
(4)初始化当前迭代次数iter←0;
(5)所有URLLC用户和eMBB用户智能体基于策略π选择动作a,即频谱资源比例和计算资源比例,统计所有智能体的回报函数,更新Q值表;
(6)iter←iter+1,仿真平台更新环境,基于策略π选择新动作a';
(7)返回步骤5,直至iter=itermax,得到最优策略π*,
(8)结束。
执行算法S5,步骤如下所示:
(1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(2)所有URLLC用户与eMBB用户根据策略π*,选择频谱资源和计算资源的比例;
(3)结束。
图4表示了本发明的收敛性能,图5表示了本发明的一种基于强化学习的频谱资源和计算资源联合分配方法的使用效果图,图6表示了本发明所提方法的URLLC用户的时延效果图,图7表示了本发明所提方法在不同加权因子下的系统总成本效果图。图8表示了本发明所提方法与集中式算法的Q值表维度对比图。其中,两种对比方法分别是全部卸载方法和随机卸载方法。
图4显示了本发明所提方法的总回报函数的收敛性能良好。图5比较了三种方法对系统中所有用户总成本的影响,由图可知,当URLLC用户数固定时,随着eMBB用户数目的增长,本发明所提方法取得了最低的系统总成本。图6显示了本发明所提方法的URLLC用户的总时延和平均时延更低。图7显示本发明所提方法在不同加权因子下均可以取得更低的系统总成本。图8显示本发明所提方法比集中式算法的Q值表维度更低,尤其是用户总数目较高的情况下,所提方法的Q值表维度远低于集中式算法。由此可以得出结论:本发明所提算法可以在URLLC用户时延约束的同时,获得了比全部卸载方法和随机卸载方法更低的系统总成本。
综上所述,通过实施本发明实施例的一种基于强化学习的频谱资源和计算资源联合分配方法,可以在保证URLLC用户时延约束的同时,获得了比全部卸载方法和随机卸载方法更低的时延和能耗的总成本;本发明通过合理设计动作空间和回报函数,实现了良好的训练收敛性能;本发明所设计的分布式资源分配方法,使得Q值表的总体维度为较低,相比于集中式算法实现了较低的算法复杂度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (2)
1.一种基于强化学习的频谱资源和计算资源联合分配方法,具体步骤如下:
步骤1:建立URLLC与eMBB用户共存的MEC系统模型
基站gNB被MEC服务器覆盖,该系统中有Ke个eMBB用户和Ku个URLLC用户,用户集合分别为Uu和Ue,每个用户均有待计算任务;ξ指示用户类型,若为URLLC用户则ξ=u,若为eMBB用户则ξ=e,任务数据量大小为卸载决策 表示任务进行卸载计算,表示任务进行本地计算;为用户的时延约束,超过此阈值则丢包;
步骤2:以URLLC用户和eMBB用户时延和能耗的总成本最小化并保证URLLC时延约束为原则,构建成本函数优化问题
其中W是子载波带宽,和分别是URLLC用户和eMBB用户的发射功率,Φ是SNR损耗系数,N0是单边噪声频谱密度,是Q函数的逆函数,和是瑞利衰落,和为路径损耗,为URLLC用户的解码错误概率,为用户k与gNB间距离,其中,
然后,表征URLLC用户和eMBB用户的时延,本地计算时延为:
接下来,表征URLLC用户和eMBB用户的成本函数,本地计算能耗为:
k0为能耗因子,与设备本身硬件相关,卸载计算能耗为:
MEC系统中所有URLLC用户和eMBB用户时延和能耗的总成本表示为:
因此,将MEC系统中URLLC用户和eMBB用户的成本优化模型建立为:
第一个限制条件C1表示二进制卸载,用户的任务只能本地计算或者完全卸载;第二个限制条件C2表示URLLC用户的时延约束;第三个限制条件C3表示系统中的总频谱资源约束,第四个约束条件C4表示MEC服务器处的总计算资源限制;第五个约束条件C5表示用户的实际发射功率受到最大发射功率限制;
步骤3:建立URLLC用户与eMBB用户频谱资源和计算资源联合分配的强化学习模型
Q学习算法的学习过程可建模为离散状态马尔科夫决策过程通过五元组<S,A,P,R,η>来描述,其中S是环境状态集合,A是动作空间,P是状态转移概率,R是回报函数;MEC系统中的URLLC用户和eMBB用户作为多个智能体,然后根据策略π从动作空间A中选择一个动作a,即URLLC用户和eMBB用户选择占用的频谱资源和计算资源比例;执行动作a后,URLLC用户和eMBB用户将得到一个回报r,所有用户根据回报调整策略π,以获得更高的回报;在分布式Q学习算法的学习过程中,每个智能体单独维护一张Q值表,根据自己的准则进行动作选择,并根据回报函数R调整更新自己的Q值表,这样Q值表的总体维度为|Ku+Ke|·|S|·|A|,算法复杂度低于集中式算法;各智能体在进行学习时不需要与彼此发生信息交互,减少了系统开销;智能体的回报函数由所有智能体的动作协同决定,分布式Q学习算法可以获得整体最优解,选用分布式Q学习算法来求解URLLC与eMBB业务的频谱资源和计算资源联合分配的最优解;
步骤4:利用历史通信数据对上述模型进行训练,获得频谱资源和计算资源分配最佳策略;
(4-1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(4-2)初始化所有智能体的策略模型π;
(4-3)初始化最大循环迭代次数itermax;
(4-4)初始化当前迭代次数iter←0;
(4-5)所有URLLC用户和eMBB用户智能体基于策略π选择动作a,即频谱资源比例和计算资源比例,统计所有智能体的回报函数,更新Q值表;
(4-6)iter←iter+1,仿真平台更新环境,基于策略π选择新动作a';
(4-7)返回从(4-5)执行,直至iter=itermax,得到最优策略π*,
(4-8)结束;
步骤5:根据训练得到的频谱资源和计算资源联合分配策略,URLLC用户与eMBB用户进行分布式地频谱资源和计算资源占用比例选择,方法结束;
(5-1)初始化蜂窝小区、基站、URLLC用户和eMBB用户通信链路;
(5-2)所有URLLC用户与eMBB用户根据策略π*,选择频谱资源和计算资源的比例;
(5-3)结束。
2.按照权利要求1所述方法,其特征在于,步骤3中建立分布式强化学习模型,包含多智能体设计、状态空间设计、动作空间设计、回报函数设计、Q值更新准则设计和动作选取准则设计,具体设计如下:
多智能体设计:MEC系统中所有的URLLC用户和eMBB用户;
状态空间设计:将整个系统作为与智能体发生交互的环境,由于最优化问题未涉及环境状态的变化,为单状态环境,因此,环境状态在Q学习过程中不发生改变,但回报函数值跟随智能体动作发生改变进而引起Q值表发生更新;
动作空间设计:每个智能体均有一个动作空间合Ak,需要分配频谱资源和计算资源两种资源,且Q学习的动作空间必须有限,需要将两种资源离散化;如果选择卸载计算,频谱资源动作空间为共N1个动作;计算资源动作空间为共N2个动作;如果选择本地计算,则动作空间为1;因此,整体动作空间维度为|SB|·|SF|+1,各智能体的整体动作空间表示为共有N1·N2+1个动作,若智能体选择动作ai,j,若ai,j=a0,0,表示本地计算资源,不占用频谱和MEC服务器的计算资源;若ai,j≠a0,0表示卸载计算,则表示占用频谱资源比例为计算资源比例为
回报函数设计:根据优化目标,设计回报函数需要同时考虑系统总成本、URLLC用户严格的时延约束、以及系统频谱资源和计算资源的约束,将回报函数Rk(s,a)设计为:
其中s为本次迭代的环境状态,根据策略π从动作空间Ak中选择一个动作a执行,URLLC用户和eMBB用户将得到一个回报Rk(s,a),当智能体k选择的动作满足所有的约束条件时,则会得到正回报1/Θ,时延和能耗的总成本越小获得的回报越大;反之,当智能体k选择的动作导致约束条件无法满足,会得到负回报,即各智能体采取该组动作会受到惩罚,应尽量避免该动作策略;
Q值更新准则:智能体获取回报函数后会对Q值表做出更新,不同于单智能体Q学习和集中式Q学习算法,分布式Q学习算法只在新的Q值大于当前Q值时发生更新,否则Q值保持不变,即:
动作选取准则:在完成Q值更新后,各智能体需要利用动作选取准则获取下一步的动作;本方法选用ε贪婪策略作为动作选取准则,对于智能体k来说,首先预设常数ε∈[0,1],然后生成动作随机数xk∈[0,1],然后将xk与ε进行比较,如果xk<ε,则从动作空间Ak里随机选取动作作为下一个动作;否则,选取Q值表中最大值对应的动作作为下一个动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010318864.3A CN111556572B (zh) | 2020-04-21 | 2020-04-21 | 一种基于强化学习的频谱资源和计算资源联合分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010318864.3A CN111556572B (zh) | 2020-04-21 | 2020-04-21 | 一种基于强化学习的频谱资源和计算资源联合分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111556572A CN111556572A (zh) | 2020-08-18 |
CN111556572B true CN111556572B (zh) | 2022-06-07 |
Family
ID=72007530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010318864.3A Active CN111556572B (zh) | 2020-04-21 | 2020-04-21 | 一种基于强化学习的频谱资源和计算资源联合分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111556572B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112637822B (zh) * | 2020-12-26 | 2023-01-20 | 北京工业大学 | 一种基于区块链的蜂窝网络安全交易平台 |
CN112839382B (zh) * | 2020-12-30 | 2023-04-21 | 北京邮电大学 | 一种车联网中视频语义驱动的通信和计算资源联合分配方法 |
CN112888072B (zh) * | 2021-01-25 | 2023-01-31 | 陕西师范大学 | 一种保障服务需求的eMBB和URLLC资源复用方法 |
CN113163447B (zh) * | 2021-03-12 | 2022-05-20 | 中南大学 | 基于q学习的通信网络任务资源调度方法 |
CN113316154B (zh) * | 2021-05-26 | 2022-06-21 | 重庆邮电大学 | 一种授权和免授权d2d通信资源联合智能分配方法 |
CN113543065B (zh) * | 2021-05-31 | 2024-02-02 | 北京邮电大学 | 一种基于强化学习的通信资源分配方法及其相关设备 |
CN113691350B (zh) * | 2021-08-13 | 2023-06-20 | 北京遥感设备研究所 | 一种eMBB和URLLC的联合调度方法及系统 |
CN114116209A (zh) * | 2021-11-12 | 2022-03-01 | 中国人民解放军国防科技大学 | 基于深度强化学习的频谱地图构建与分发方法及系统 |
CN115515101A (zh) * | 2022-09-23 | 2022-12-23 | 西北工业大学 | 一种用于scma-v2x系统的解耦q学习智能码本选择方法 |
CN115499882A (zh) * | 2022-11-16 | 2022-12-20 | 之江实验室 | 边缘节点频谱与计算资源联合分配方法、装置和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI666946B (zh) * | 2016-12-22 | 2019-07-21 | 財團法人資訊工業策進會 | 支援低延遲高可靠性通訊服務之使用者裝置、支援增強型行動寬頻服務之使用者裝置及基地台 |
CN109561504B (zh) * | 2018-11-20 | 2020-09-01 | 北京邮电大学 | 一种基于深度强化学习的URLLC和eMBB的资源复用方法 |
CN109729528B (zh) * | 2018-12-21 | 2020-08-18 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109982434B (zh) * | 2019-03-08 | 2022-04-01 | 西安电子科技大学 | 无线资源调度一体智能化控制系统及方法、无线通信系统 |
CN110418416B (zh) * | 2019-07-26 | 2023-04-18 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
-
2020
- 2020-04-21 CN CN202010318864.3A patent/CN111556572B/zh active Active
Non-Patent Citations (1)
Title |
---|
Reward-based Markov Chain Analysis of Slicing Flows for Inter-Cloud Virtual Resources Allocation in 5G Cellular Network;Ben-Jye Chang等;《IEEE》;20191231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111556572A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111556572B (zh) | 一种基于强化学习的频谱资源和计算资源联合分配方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN111414252B (zh) | 一种基于深度强化学习的任务卸载方法 | |
CN111586696B (zh) | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 | |
US12035380B2 (en) | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning | |
CN111953758A (zh) | 一种边缘网络计算卸载和任务迁移方法及装置 | |
WO2023179010A1 (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN111654342A (zh) | 基于有先验知识强化学习的动态频谱接入方法 | |
CN114867030B (zh) | 双时间尺度智能无线接入网切片方法 | |
CN110401936A (zh) | 一种基于d2d通信的任务卸载与资源分配方法 | |
CN114138373A (zh) | 一种基于强化学习的边缘计算任务卸载方法 | |
CN111511028B (zh) | 一种多用户资源分配方法、装置、系统及存储介质 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
CN113590279B (zh) | 一种面向多核边缘计算服务器的任务调度和资源分配方法 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN114980039A (zh) | D2d协作计算的mec系统中的随机任务调度和资源分配方法 | |
CN116668439A (zh) | 一种基于深度强化学习的边缘计算任务卸载方法 | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
Liu et al. | A deep reinforcement learning based adaptive transmission strategy in space-air-ground integrated networks | |
CN116828534B (zh) | 基于强化学习的密集网络大规模终端接入与资源分配方法 | |
Ren et al. | Joint spectrum allocation and power control in vehicular communications based on dueling double DQN | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
Feng et al. | Mobile Edge Computing Offloading Strategy Based on Improved BP Neural Network | |
Lv et al. | A dynamic spectrum access method based on Q-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |