CN111405568B - 基于q学习的计算卸载和资源分配方法及装置 - Google Patents

基于q学习的计算卸载和资源分配方法及装置 Download PDF

Info

Publication number
CN111405568B
CN111405568B CN202010196829.9A CN202010196829A CN111405568B CN 111405568 B CN111405568 B CN 111405568B CN 202010196829 A CN202010196829 A CN 202010196829A CN 111405568 B CN111405568 B CN 111405568B
Authority
CN
China
Prior art keywords
learning
resource allocation
computation
total
optimization problem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010196829.9A
Other languages
English (en)
Other versions
CN111405568A (zh
Inventor
周欢
江恺
冯阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202010196829.9A priority Critical patent/CN111405568B/zh
Publication of CN111405568A publication Critical patent/CN111405568A/zh
Application granted granted Critical
Publication of CN111405568B publication Critical patent/CN111405568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明实施例提供一种基于Q学习的动态计算卸载和资源分配方法及装置,所述方法包括:基于UE的计算任务参数、UE的性能参数、UE与AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;基于Q学习确定优化问题模型的最优解,最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源的百分比数,AP给UE所分配的频谱资源的百分比数。本发明实施例提供的基于Q学习的计算卸载和资源分配方法及装置,同时考虑到时变的MEC系统中实际的计算卸载和资源分配特性,任务的时延阈值与系统有限的资源容量约束,基于Q学习确定计算卸载和资源分配的联合最优方案,进一步降低了UE的能耗。

Description

基于Q学习的计算卸载和资源分配方法及装置
技术领域
本发明涉及移动通信技术领域,尤其涉及一种基于Q学习的计算卸载和资源分配方法及装置。
背景技术
为了缓解应用需求与资源受限的用户设备(User Equipments,UE)之间日益严重的冲突,考虑到移动云计算(Mobile Cloud Computing,MCC)中所部署的云服务器的计算能力和存储能力都明显高于UE,这促使MCC作为一种有效的解决方案应运而生。但是,MCC技术不可避免地面临着部署的云服务器距离用户设备距离较远的问题,这可能导致用户设备向云服务器传输数据时产生额外的传输能量开销。此外,远距离传输也无法保证时延敏感型应用的服务质量(Quality of Service,QoS)。
现有技术中,提出了移动边缘计算(Mobile Edge Computing,MEC)技术,将部分网络功能引入到网络边缘来执行。MEC是新兴的5G架构中处理计算密集型任务的重要组成部分,与MCC相比,它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。MEC支持用户设备通过利用基站(BS)或接入点(AP)将工作负载卸载到临近的MEC服务器,此举可提高移动应用程序的QoS,并显著降低任务的执行延迟和功耗。
现有方案只关注准静态系统的性能,并且,忽略了不同的资源需求和有限的资源容量对MEC系统性能的影响,实际的网络应用中,依然存在UE能耗过大的技术问题。
发明内容
本发明实施例提供一种基于Q学习的计算卸载和资源分配方法及装置,用于解决现有技术中的上述技术问题。
为了解决上述技术问题,一方面,本发明实施例提供一种基于Q学习的计算卸载和资源分配方法,包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
进一步地,所述计算任务参数包括完成计算任务所需的计算资源量、计算任务的数据大小和执行计算任务的最大可容忍时延。
进一步地,所述性能参数包括本地执行计算任务时CPU每一轮数所消耗的能量、上传数据时的传输功率和待机状态下的功耗。
进一步地,所述信道参数包括可利用的频谱的信道带宽、无线传输信道的信道增益和信道内部的高斯白噪声的功率。
进一步地,所述优化问题模型的目标为:最小化系统中所有UE的长期能耗。
进一步地,所述优化问题模型的约束条件为:
a、UE的卸载决策仅能选择本地执行或边缘执行来处理其计算任务;
b、本地或卸载计算的执行时间均不能超过某一计算任务的最大可容忍时延;
c、分配给所有UE的计算资源的总和不能超过MEC服务器所能提供的总计算资源;
d、分配给任一UE的计算资源不能超过MEC服务器所能提供的总计算资源;
e、分配给所有UE的频谱资源的总和不能超过AP所能提供的总频谱资源;
f、分配给任一UE的频谱资源不能超过AP所能提供的总频谱资源。
进一步地,所述基于Q学习确定所述优化问题模型的最优解,具体包括:
根据所述优化问题模型,确定状态空间、动作空间和回报函数;
构建马尔科夫决策问题;
基于Q学习计算所述马尔科夫决策问题,确定所述优化问题模型的最优解。
另一方面,本发明实施例提供一种基于Q学习的计算卸载和资源分配装置,包括:
构建模块,用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
确定模块,用于基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
再一方面,本发明实施例提供一种电子设备,包括:存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述第一方面提供的方法的步骤。
又一方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述第一方面提供的方法的步骤。
本发明实施例提供的基于Q学习的计算卸载和资源分配方法及装置,同时考虑到时变的MEC系统中实际的计算卸载和资源分配特性,任务的时延阈值与系统有限的资源容量约束,基于Q学习确定计算卸载和资源分配的联合最优方案,进一步降低了UE的能耗。
附图说明
图1为本发明实施例提供的基于Q学习的计算卸载和资源分配方法示意图;
图2为本发明实施例提供的多用户移动边缘网络模型的场景示意图;
图3为本发明实施例提供的基于Q学习的收敛性分析图;
图4为本发明实施例提供的不同的UE数量下所有用户的能量消耗示意图;
图5为本发明实施例提供的在不同的MEC服务器计算资源总量下所有用户的能量消耗示意图;
图6为本发明实施例提供的基于Q学习的计算卸载和资源分配装置示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着5G网络中许多新兴的无线服务的出现,移动应用,尤其是越来越多的计算密集型任务,如在线互动游戏、人脸识别和增强/虚拟现实(AR/VR)等,导致了数据流量前所未有的爆炸性增长。一般来说,这些新兴的应用程序对服务质量(QoS)和延迟敏感性都有很高的要求,这导致了这类应用比传统应用程序消耗更多的能耗。然而,考虑到用户设备(UserEquipments,UE)的物理尺寸大小和生产成本约束,目前的UE在计算、资源、能源等方面都存在着一定的局限性,这可能会成为处理大规模的应用或提供持久的能源供应等挑战时所面临的新瓶颈。
为了缓解应用需求与资源受限的UE之间日益严重的冲突,考虑到移动云计算(Mobile Cloud Computing,MCC)中所部署的云服务器的计算能力和存储能力都明显高于UE,这促使MCC作为一种有效的解决方案应运而生。MCC技术可以方便地访问集中式“云”中的共享资源池,通过将工作负载从UE卸载到云服务器,从而为UE提供存储、计算和能源资源。然而,MCC技术不可避免地面临着部署的云服务器距离用户设备距离较远的问题,这可能导致用户设备向云服务器传输数据时产生额外的传输能量开销。此外,远距离传输也无法保证时延敏感型应用的QoS。
因此,一些学者提出了移动边缘计算(Mobile Edge Computing,MEC)技术,将部分网络功能引入到网络边缘来执行。MEC是新兴的5G架构中处理计算密集型任务的重要组成部分,与MCC相比,它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。具体来说,MEC支持用户设备通过利用基站(BS)或接入点(AP)将工作负载卸载到临近的MEC服务器,此举可提高移动应用程序的QoS,并显著降低任务的执行延迟和功耗。
考虑到时变的MEC系统中实际的计算卸载和资源分配特性,强化学习一直被认为是获得最优计算策略的适合方法。具体来说,在没有任何关于系统环境的先验信息的情况下,智能体可以通过观测环境来对其未来回报的反馈值进行学习,从而实现最佳长期目标的策略。这一特点使得将强化学习用于设计动态系统中卸载决策和资源分配方案时具有极佳的潜力。但是实际的网络应用中,以往的研究大多只关注准静态系统的性能,很少考虑到系统在时域中的时延敏感特性和时变条件。另外,不同的资源需求和有限的资源容量对MEC系统性能的影响也常常被忽略。
为了解决这些问题,需要考虑和解决异构的计算任务的延迟阈值以及不同任务中不确定的动态的资源需求。因此,本专利致力于研究MEC中任务执行的卸载决策和资源分配的联合优化问题。从能耗的角度将相应问题建模为非线性整数问题,旨在最小化所有UE的总能量消耗,并同时考虑了优化问题中不同计算任务的时延约束与资源需求。具体地,为解决所规划的能耗最小化问题,首先定义了状态空间、动作空间和奖励函数,并引入了马尔可夫决策过程。在此基础上,提出了一种基于值迭代的强化学习方法Q学习(Q-Learning),以确定计算卸载和资源分配的联合最优方案。
图1为本发明实施例提供的基于Q学习的计算卸载和资源分配方法示意图,如图1所示,本发明实施例提供一种基于Q学习的计算卸载和资源分配方法,其执行主体为基于Q学习的计算卸载和资源分配装置。该方法包括:
步骤S101、基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型。
具体来说,图2为本发明实施例提供的多用户移动边缘网络模型的场景示意图,如图2所示,在移动边缘计算网络中,考虑一个单小区场景,该场景中包含了一个接入点(AP)和n个用户,其中,用户数可用集合I={1,2,…,n}来表示。为了给UE提供MEC服务,在AP上部署了一组MEC服务器以进行计算卸载,小区内的多个UE可以通过无线链路将自己的工作负载卸载到MEC服务器以协助计算。假设系统在固定长度的时间片t={0,1,2,…,T}内运行,且在任意时间片t内每个UE都有一个计算密集型任务需要进行处理。与此同时,所有到达的计算任务都被认为是原子性的,即不能分割成多个部分以进行处理,这意味着UE的计算任务无法在不同的设备上执行,它们只能依靠UE自身的计算资源在本地设备上执行,或者通过无线链路卸载到AP上的MEC服务器中执行计算。当不同设备上的多个任务同时需要进行卸载时,MEC服务器运营商需根据时变的系统条件、任务的异构性以及不同情况下所有UE的能量开销情况来决定如何将频谱资源和计算资源最优地分配给每个UE。
在不失一般性的前提下,本发明实施例采用一种广泛使用的任务模型来描述UE上所到达的任务。对于每一时间片内UEi上对应的任意计算任务,它可以由三个参数来进行定义:
Figure BDA0002417921690000061
其中,si表示计算任务Hi的数据大小,ci表示完成计算任务Hi时所需的计算资源量。变量ci和si在每一时间片内都是独立且同分布的,它们之间可能存在一个无需了解的任意概率分布。
Figure BDA0002417921690000062
表示执行任务Hi的最大可容忍时延,这意味着无论任务是选择在本地设备上执行还是通过计算卸载,任意UE上任务的执行时间都不应超过时延阈值
Figure BDA0002417921690000063
此外,假设在计算卸载期间,UE始终处于AP的通信覆盖范围内。本发明实施例专注于在本地设备上执行任务或将任务卸载到部署于AP上的MEC服务以协助执行的情况,没有进一步地考虑将任务卸载到远程云端或其他宏基站。用整型变量
Figure BDA0002417921690000071
来表示某一时间片t内UEi的卸载决策,其中,xi=0表示任务Hi直接在本地设备UEi的CPU上执行计算,xi=1表示UEi决定将其计算任务卸载到MEC服务器以执行计算。因此,可以将整个MEC系统中所有用户的卸载决策向量定义为η,η={x1,x2,x3,...,xn}。
1)通信模型:当计算任务在有限的约束条件下难以在本地设备上执行时,UE可以通过无线链路将计算任务卸载给部署于AP上的MEC服务器。假设UE在与AP间进行通信时采用正交频分技术,并且忽略了MEC服务器和AP间的通信开销。同时,由于此时蜂窝小区内只有一个AP,且不考虑相邻小区间的重叠覆盖问题,因此用户间的通信干扰也可以被忽略掉。现在假设有多个UE同时上传其计算任务给AP时,MEC系统可以通过使用动态频谱接入来根据UE的实时需求分配带宽。将θi∈[0,1]定义为AP给单个用户UEi所分配的频谱资源占总资源的百分比数,因此,当用户UEi卸载计算任务给AP时,UEi与AP之间的信道上传速率Ri可表示如下:
Figure BDA0002417921690000072
其中,W表示UEi与AP间可利用的频谱的信道带宽,pi为上传数据时UEi的传输功率,gi是UEi与AP之间无线传输信道的信道增益,σ是信道内部复杂的高斯白噪声的功率。
2)计算模型:计算任务Hi既可以依靠UEi自身的计算资源选择在本地执行,也可以通过计算卸载在MEC服务器上执行。下面介绍这两种计算模型:
本地执行模型:对于xi=0时,任务Hi将由UEi进行本地计算处理。分别用
Figure BDA0002417921690000073
Figure BDA0002417921690000074
来表示用户UEi的本地计算能力(CPU轮数/秒)和本地执行计算任务时CPU每一轮数所消耗的能量。因此,在这种情况下,计算任务Hi的所需的计算处理时间为:
Figure BDA0002417921690000081
并且,此时UEi相应的能量消耗可由下式计算得出:
Figure BDA0002417921690000082
其中,
Figure BDA0002417921690000083
这一取值取决于实际的CPU芯片架构。
移动边缘执行模型:对于xi=1时,UEi选择将计算任务Hi卸载到与AP相连的MEC服务器上执行,MEC服务器处理完计算任务后会将其计算结果返回给UE。此处需要注意的是,由于返回结果的数据量很小,且大多数情况下从AP到UE的下行传输速率较高,因此可以忽略返回结果时花费的传输时间和能量消耗。综上,任务Hi的总处理时间主要包含两个部分,第一部分是通过无线链路将任务Hi从UE传输到MEC服务器消耗的时间,第二部分则是任务Hi在MEC服务器上的执行计算所消耗的时间。
其中,将任务Hi从UEi传输到MEC服务器所花费的时间与计算输入的数据大小si以及UEi的上行传输速率直接相关,因此有:
Figure BDA0002417921690000084
相应地,将任务Hi从UEi传输到MEC服务器所花费的传输能耗可以计算为:
Figure BDA0002417921690000085
其中,pi为UEi与AP之间的传输功率。
将βi∈[0,1]定义为MEC服务器给单个UEi所分配的计算资源占MEC服务器总资源的百分比数,同时定义fmec为MEC服务器所拥有的计算资源总数,因此,βigmec则代表任意时间片内MEC服务器分配给UEi的计算资源数。当较高比例的计算资源量分配给某一UE时,其上任务的执行时间会变短,但这一过程所消耗的能量也可能会相应增加。与此同时,变量βi必须满足总资源分配的约束
Figure BDA0002417921690000086
因此,MEC服务器来处理任务Hi所花费的时间可以由下式得出:
Figure BDA0002417921690000087
当MEC服务器为UEi执行计算任务时,UEi此时应等待任务执行完成后的返回结果。在此期间,假设UEi处于待机模式,并定义该待机状态下UEi的功耗为
Figure BDA0002417921690000091
因此,可以得出UEi处于此状态下相应的能量消耗为:
Figure BDA0002417921690000092
因此,结合上述计算过程,计算卸载过程中,UEi上任务的总执行时间和相应能量消耗都由通信过程和计算过程两部分组成,其分别表示如下:
Figure BDA0002417921690000093
Figure BDA0002417921690000094
3)能量消耗模型:在MEC系统中,UEi必须要选择一种计算模式以执行计算任务Hi,因此对于某一时间片中任意UEi来说,其执行时延可表示为:
Figure BDA0002417921690000095
同样地,在某一时间片内,单个UEi为了完成所到达的计算任务Hi消耗的能量可表示为:
Figure BDA0002417921690000096
最终,可以得出此MEC系统中所有UE的总能量消耗,其表达式为:
Figure BDA0002417921690000097
本发明实施例所提出的MEC系统中有关计算卸载和资源分配的联合优化问题,其目标是最小化所有UE的长期能量消耗。考虑到任务的最大可容忍时延约束,则相应的约束性优化问题可规划如下:
Figure BDA0002417921690000101
Figure BDA0002417921690000102
Figure BDA0002417921690000103
Figure BDA0002417921690000104
Figure BDA0002417921690000105
Figure BDA0002417921690000106
Figure BDA0002417921690000107
上述公式中约束条件的含义如下:
约束(14)表示任意UE仅能选择本地执行模型或边缘执行模型来处理其计算任务。
约束(15)保证本地或卸载计算模型的执行时间均不能超过任务的最大可容忍时延。
约束(16)表示分配给所有UE的计算资源不能超过MEC服务器所能提供的计算资源总量。
约束(17)保证分配给单个UEi的计算资源须小于MEC服务器所能提供的计算资源总量。
约束(18)保证所有UE使用的频谱资源应小于AP的总可用频谱资源。
约束(19)保证单个用户UEi所使用的频谱资源不能超过AP的总可用频谱资源。
步骤S102、基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
具体来说,要解决上述的优化问题,就必须得到卸载决策变量{xi|i∈I},计算资源分配变量{βi|i∈I}和通信资源分配变量{θi|i∈I}的最优取值,这些变量的取值可以用于在给定的延迟约束下最小化总的计算能量消耗。然而,卸载决策变量xi是二进制变量,与此同时通信资源分配变量βi以及计算资源分配变量θi都是动态变化的,所以系统需要收集大量的网络状态信息,并根据网络的当前状态对每个UE执行全局性的卸载选择和资源分配决策。此时目标函数是一个混合整数非线性规划问题(MINLP),该问题的可行解集是非凸的,并且该方法的复杂度总是随UE数目的增加而呈现指数级增长。为了解决这一NP-hard问题,本发明实施例提出了一种基于强化学习的方法以此来代替传统的优化方法。
首先定义了强化学习中的状态空间、动作空间和回报函数,并为所要提出的解决方案建立了一个马尔科夫决策过程。然后,提出了一种基于Q-learning的方法来解决上述优化问题,并降低计算复杂度。
1)状态空间,动作空间和回报函数的定义:
在基于强化学习的方法中需要去确定了三个关键要素:状态、动作和回报,在本问题背景下它们可定义为:
状态空间:在某一时间片t内,可利用的计算资源以及可利用的频谱资源都是由系统状态
Figure BDA0002417921690000111
Figure BDA0002417921690000112
的实现所确定的,其中前者为当前MEC服务器中空闲的计算资源的百分比,后者为当前无线信道中可用的频谱资源的百分比,观察它们的作用是为了保持计算资源容量和通信信道资源容量的约束。此外,还需要观察每个时间片内所有用户的能量消耗情况E(t),以比较是否达到了最优状态。因此,在某一时间片t内的状态向量可表示为:
Figure BDA0002417921690000113
动作空间:在本发明实施例提出的MEC系统中,MEC服务器需要去确定计算任务的卸载策略,以选择局部执行或边缘执行模式。此外,还需确定在某一时间片t内分配给UEi的通信和计算资源的所占的相应的百分比。因此,在某一时间片t内,动作向量应包含三部分:分别为UE的卸载决策向量η={x1,x2,...,xn},计算资源分配向量{β12,...,βi}和通信资源分配向量{θ12,...,θi},因此,当前的动作向量可由这三部分中一些可能的取值结合而成,具体可表示为:di(t)={x1,x2,...,xn,θ1,θ2,...,θi,β1,β2,...,βi}。
回报函数:一般来说,即时的网络回报函数都应与目标函数有关。本发明实施例的优化目标是获得所有用户最小的总能量消耗,而强化学习的目标是去达到最大的回报。因此,回报值需要与总能量消耗值转化为负相关。现在某一时间片t内,当状态zi(t)下执行某一动作di(t)后,智能体获得的即时回报可表示为r(zi(t),di(t))。为了使所有用户的能量消耗最小化,统一将即时回报定义为r(zi(t),di(t))=-E(zi(t),di(t)),其中E(zi(t),di(t))给出了当前状态下实际的总能量消耗。
2)马尔科夫决策过程:
马尔科夫决策过程是强化学习的基础。一般来说,在强化学习中几乎所有的规划问题都可以用MDP来描述。本发明实施例将计算卸载优化问题近似为一个MDP,其中智能体通过离散时间步长内与未知环境的反复迭代交互来不断学习和作出决策。具体来说,在每一时间步长内智能体观察到环境的当前状态为zt∈Z,然后根据策略π选择并执行一个可容许的动作dt
Figure BDA0002417921690000125
策略π被认为是从当前状态到相应动作的一个映射,某一特定的策略π可以在不同的当前状态zt下引导出决策动作dt=π(zt,dt)。在此之后,智能体将获得一个即时回报rt=r(zt,dt),同时系统将转移到下一新状态。
出于长期考虑,智能体处于状态zt下执行策略π时的状态价值函数Vπ(zt)由期望的长期折扣回报值和某一折扣因子所决定,这一状态价值函数可以用来评估在当前状态下执行策略π时所产生的长期影响(度量某一状态或某一可用的状态-动作对的价值)。因此,在任何初始状态z0下的状态价值函数都可以被定义为如下形式:
Figure BDA0002417921690000121
其中
Figure BDA0002417921690000122
表示其期望,
Figure BDA0002417921690000123
是折扣因子,用来表明未来回报相对于当前回报的重要性。
现在用zt+1∈Z来表示在任意当前状态zt下执行某一动作dt后的下一新状态,并且从状态zt到状态zt+1的转移概率为
Figure BDA0002417921690000124
当将系统环境规划为一个MDP时,状态价值函数Vπ(zt)可以由贝尔曼方程(Bellman Equation)转化为时间差分形式。具体如下:
Figure BDA0002417921690000131
通过以上过程可知,强化学习智能体的目的是在当前状态zt下,作出能使期望的长期折扣回报最大化的最优控制策略
Figure BDA0002417921690000132
因此,在最优策略π*下本发明实施例中的优化问题可以转化为递归的最优状态价值函数
Figure BDA0002417921690000133
具体如下:
Figure BDA0002417921690000134
s.t.constraints in(C1)-(C6)
则在策略π*(zt)下,对于状态zt的最优动作决策
Figure BDA0002417921690000135
可表示为:
Figure BDA0002417921690000136
3)基于Q-learning的解决方法:
Q-learning是一种有效的无模型的强化学习方法,其当前环境和状态转移概率都是不确定的甚至是时变的。本发明实施例提出了一种基于Q-learning方法来解决所提出的马尔科夫决策问题。特别地,此方法可以估计出每个时间步长内状态-所允许的动作对的最优动作值Q(z,d),并将其存储或更新在Q表中。针对本发明实施例中所提出的网络模型的动态环境,Q-learning算法试图使智能体在每个时间步长内特定的上下环境中分别自动学习最优行为决策。此算法直接逼近任意状态-动作对的最优Q值,而不是对MDP中的动态信息进行建模,然后,算法在每次迭代后都会在维护好的二维Q表中更新Q值。最后,可以通过选择每个状态下使Q值最大的动作来得出相应的策略。此处将状态zt下某一可采取的动作dt的Q值定义为状态-动作Q函数,则在执行某一动作dt后期望的累积回报为:
Figure BDA0002417921690000137
此时很容易可得出最优状态价值函数
Figure BDA0002417921690000141
与状态-动作Q函数之间的关系为:
Figure BDA0002417921690000142
结合公式(24)和公式(25),可以把公式(24)重新写作如下形式:
Figure BDA0002417921690000143
最后,试图在每个时间步内采用递归方法来更新状态-动作函数,并且此时的目标是去估计出最高的Q值而不是去寻找最佳的策略。每一时间步长上Q值的迭代公式如下:
Figure BDA0002417921690000144
其中参数ε∈(0,1)为学习率。当一个适当的参数ε被设定后,Q值可以在多次迭代后绝对收敛于最优值
Figure BDA0002417921690000145
总的来说本方法的工作原理就是:在多用户的MEC环境中,任意UE除了采取对系统的重复观察外,无法了解到其他UE的信息。系统会根据相应的价值函数逐渐学习去更新动作以优化各种卸载决策的和动态资源分配变量的配置。目标是在不同的卸载决策下通过调度最优的资源分配变量来最小化所有用户的总能量消耗。对于智能体来说,其状态的集合为
Figure BDA0002417921690000148
可采取的动作的集合为
Figure BDA0002417921690000147
并且每一状态-动作对都存在一个Q值Q(z,d)。智能体为每一步长计算出其相应值Q(zt,dt)并将它存储于一个二维表中,这里Q值可以被看做是一个长期的累积回报。同时,Q表中的最优策略π*有时易受有限的搜索区域的影响,最优策略的好坏很大程度上依赖于训练数据的质量和数量。为了在Q表中提供探索和开发之间的权衡,可以在每一状态下以∈-greedy策略来选择动作,其中∈是一个用来为强化学习提供探索的递减值。每一UE以概率1-∈来选取能最大化Q值的动作(开发),以极小概率∈来在动作空间中随机选取动作(探索),具体可表示如下:
Figure BDA0002417921690000146
当算法执行完一个动作dt后,环境将给予智能体一个实时回报r(zt,dt),当前状态zt也将转变到下一状态zt+1。在获得了这些信息以后,Q表中状态-动作对(zt,dt)相应的Q值也可以由公式(27)来执行更新。
本发明实施例考虑到了时变的MEC系统中实际的计算卸载和资源分配特性,同时也考虑了任务的时延阈值与系统有限的资源容量约束。联合优化了任务执行中的卸载决策和通信&计算资源分配,并从能耗的角度将相应问题建模为一个非线性整数问题,旨在最小化所有UE的总能量消耗。为了解决这一约束性优化问题,引入了强化学习的概念。定义了状态空间、动作空间和奖励函数,并引入了马尔可夫决策过程。在此基础上,提出了一种基于值迭代的强化学习方法Q-Learning,以确定计算卸载和资源分配的联合最优方案。通过仿真实验表明,在不同场景下本发明实施例提出的基于Q-learning的方法都能比其他基准方法更加显著地降低用户的能量消耗。
下面结合具体的实验数据对上述技术方案的技术效果进行验证:
在实验中,本发明实施例考虑了一个具有内接圆半径的小蜂窝单元,其中部署有MEC服务器的一个AP坐落于小蜂窝单元中心。在每一个时间片内,多个协带有计算任务的UE随机分布于AP的覆盖范围里。
本发明实施例将所提出的基于Q-learning的方法与其他一些基准方法在多用户的情景下进行了性能比较。其中,UE自身的计算能力为0.8GHz,AP上MEC服务器的计算能力为6GHz。在每一时间片内,任意计算任务的数据大小在区间(12,16)Mbit里服从均匀分布,其完成相应计算任务所需的CPU轮数在区间(2000,2500)Megacycles里服从均匀分布。此时计算任务的最大可容忍时延为3s,参数学习率ε=0.1,回报衰减
Figure BDA0002417921690000153
为0.9。
在参与对比的基准方法中,用“Local First”表示UE试图在最大时延阈值
Figure BDA0002417921690000151
约束下尽可能地在本地执行其任务的方法。与之相对,使用“Offloading First”表示UE将优先选择将任务卸载到MEC服务器执行的方法。在Offloading First方法中,MEC服务器的全部通信资源和计算资源将平均分配给每个UE。需要注意的是,由于不同计算任务的资源需求在每个时间片t上都是动态的,因此在最大可容忍时延
Figure BDA0002417921690000152
的限制下,某些UE可能由于所需的计算资源过多而无法在本地设备上执行到达的任务。本发明实施例所提出的方法与基准方法的关键区别在于,所提出的方法可以在MEC系统中动态地作出卸载决策和为所执行的任务分配计算资源。
图3为本发明实施例提供的基于Q学习的收敛性分析图,如图3所示,对于所提出的基于Q-learning的方法,每一时间片episode下的回报值随着用户智能体和MEC系统环境的不断迭代而逐渐增加,此时智能体在无需任何先验信息的情况下可以逐渐学习到高效的计算卸载策略。此外,在30episodes左右时回报值趋向于相对稳定。
图4为本发明实施例提供的不同的UE数量下所有用户的能量消耗示意图,如图4所示,当UE和MEC服务器的计算能力分别为0.8GHz和6GHz时,所提出的基于Q-learning的方法与其他两种基准方法随着UE数量增加时总能量消耗的变化情况。可以看出,三种方法的总能量消耗均随着UE数目的增加而增加。通过对比这三种方法,可以发现所提出的基于Q-learning的方法的性能最好,其消耗的总能量最小,这说明本发明所提出的方法是有效的。在UE数目相对较少的情况下,Offloading First方法所消耗的能量要小于Local First方法消耗的能量。此外,Offloading First方法所消耗的能量在UE数目为4时超过了LocalFirst方法消耗的能量,并且随UE数目的增加持续大幅增长。这是因为在某个时间片内当有更多的任务需要被执行时,计算和通信资源预算就会变得相对紧张。一旦分配给单个UE的可用资源减少,UE的传输和计算的试验就会显著增加,此时其能耗也会随之增加。本发明实施例基于Q-learning的方法可以有效地解决这个问题,因为所提出的方法可以在每个时间片内动态地将通信和计算资源分配给每个UE。
图5为本发明实施例提供的在不同的MEC服务器计算资源总量下所有用户的能量消耗示意图,如图5所示,当UE的数量为5时,所提出的基于Q-learning的方法与其他两种基准方法在不同的MEC服务器计算能力fmec下总能量消耗的变化情况。可以看出,随着MEC服务器计算能力的增大,三种方法的总能量消耗均有所降低。所提出的基于Q-learning的方法的性能仍然最好,这意味着所提出的方法要优于Offloading First方法和Local First方法。当MEC服务器的计算能力较小时,Offloading First方法比其他两种方法所消耗的能量要高得多,但随着MEC服务器计算能力的增加,Offloading First方法与其他方法之间的差异也变得越来越小,其根本原因是在于随着MEC服务器计算能力的增加,任一UE都可以分配到更多的计算资源,从而大大降低了计算时延和与之对应的能量消耗。
基于上述任一实施例,图6为本发明实施例提供的基于Q学习的计算卸载和资源分配装置示意图,如图6所示,本发明实施例提供一种基于Q学习的计算卸载和资源分配装置,包括构建模块601和确定模块602,其中:
构建模块601用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;确定模块602用于基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
本发明实施例提供一种基于Q学习的计算卸载和资源分配装置,用于执行上述任一实施例中所述的方法,通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同,此处不再赘述。
本发明实施例提供的基于Q学习的计算卸载和资源分配装置,同时考虑到时变的MEC系统中实际的计算卸载和资源分配特性,任务的时延阈值与系统有限的资源容量约束,基于Q学习确定计算卸载和资源分配的联合最优方案,进一步降低了UE的能耗。
图7为本发明实施例提供的电子设备的结构示意图,如图7所示,该电子设备包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701和存储器702通过总线703完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行如下方法:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例中的步骤,例如包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述各方法实施例中的步骤,例如包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于Q学习的计算卸载和资源分配方法,其特征在于,包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数;
所述优化问题模型的目标为:最小化系统中所有UE的长期能耗;
所述优化问题模型的约束条件为:
a、UE的卸载决策仅能选择本地执行或边缘执行来处理其计算任务;
b、本地或卸载计算的执行时间不能超过某一计算任务的最大可容忍时延;
c、分配给所有UE的计算资源的总和不能超过MEC服务器所能提供的总计算资源;
d、分配给任一UE的计算资源不能超过MEC服务器所能提供的总计算资源;
e、分配给所有UE的频谱资源的总和不能超过AP所能提供的总频谱资源;
f、分配给任一UE的频谱资源不能超过AP所能提供的总频谱资源。
2.根据权利要求1所述的基于Q学习的计算卸载和资源分配方法,其特征在于,所述计算任务参数包括完成计算任务所需的计算资源量、计算任务的数据大小和执行计算任务的最大可容忍时延。
3.根据权利要求1所述的基于Q学习的计算卸载和资源分配方法,其特征在于,所述性能参数包括本地执行计算任务时CPU每一轮数所消耗的能量、上传数据时的传输功率和待机状态下的功耗。
4.根据权利要求1所述的基于Q学习的计算卸载和资源分配方法,其特征在于,所述信道参数包括可利用的频谱的信道带宽、无线传输信道的信道增益和信道内部的高斯白噪声的功率。
5.根据权利要求1-4任一项所述的基于Q学习的计算卸载和资源分配方法,其特征在于,所述基于Q学习确定所述优化问题模型的最优解,具体包括:
根据所述优化问题模型,确定状态空间、动作空间和回报函数;
构建马尔科夫决策问题;
基于Q学习计算所述马尔科夫决策问题,确定所述优化问题模型的最优解。
6.一种基于Q学习的计算卸载和资源分配装置,其特征在于,包括:
构建模块,用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
确定模块,用于基于Q学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数;
所述优化问题模型的目标为:最小化系统中所有UE的长期能耗;
所述优化问题模型的约束条件为:
a、UE的卸载决策仅能选择本地执行或边缘执行来处理其计算任务;
b、本地或卸载计算的执行时间不能超过某一计算任务的最大可容忍时延;
c、分配给所有UE的计算资源的总和不能超过MEC服务器所能提供的总计算资源;
d、分配给任一UE的计算资源不能超过MEC服务器所能提供的总计算资源;
e、分配给所有UE的频谱资源的总和不能超过AP所能提供的总频谱资源;
f、分配给任一UE的频谱资源不能超过AP所能提供的总频谱资源。
7.一种电子设备,包括存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述基于Q学习的计算卸载和资源分配方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至5任一所述基于Q学习的计算卸载和资源分配方法的步骤。
CN202010196829.9A 2020-03-19 2020-03-19 基于q学习的计算卸载和资源分配方法及装置 Active CN111405568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010196829.9A CN111405568B (zh) 2020-03-19 2020-03-19 基于q学习的计算卸载和资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010196829.9A CN111405568B (zh) 2020-03-19 2020-03-19 基于q学习的计算卸载和资源分配方法及装置

Publications (2)

Publication Number Publication Date
CN111405568A CN111405568A (zh) 2020-07-10
CN111405568B true CN111405568B (zh) 2023-01-17

Family

ID=71431026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010196829.9A Active CN111405568B (zh) 2020-03-19 2020-03-19 基于q学习的计算卸载和资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN111405568B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787509B (zh) * 2020-07-14 2021-11-02 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统
CN112039950B (zh) * 2020-08-03 2021-11-30 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN112187859B (zh) * 2020-08-24 2022-05-24 国网浙江省电力有限公司信息通信分公司 物联网业务与边缘网络能力动态映射的方法及电子设备
CN112235835A (zh) * 2020-09-09 2021-01-15 广州大学 一种时变移动边缘计算网络的动态卸载方法
CN112187534B (zh) * 2020-09-21 2021-09-24 上海交通大学 一种工业物联网中基于多跳传输的任务卸载方法
CN113163447B (zh) * 2021-03-12 2022-05-20 中南大学 基于q学习的通信网络任务资源调度方法
CN112860350B (zh) * 2021-03-15 2022-06-03 广西师范大学 一种边缘计算中基于任务缓存的计算卸载方法
CN113115072A (zh) * 2021-04-09 2021-07-13 中山大学 一种基于端云协同的视频目标检测跟踪调度方法及系统
CN113452625B (zh) * 2021-06-28 2022-04-15 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113377547B (zh) * 2021-08-12 2021-11-23 南京邮电大学 一种5g边缘计算环境下计算任务智能卸载和安全保障方法
CN113965961B (zh) * 2021-10-27 2024-04-09 中国科学院计算技术研究所 一种车联网环境下的边缘计算任务卸载方法与系统
CN115277420B (zh) * 2022-09-27 2023-02-03 南京信息工程大学 一种虚拟现实网络资源管理方法
CN115623540B (zh) * 2022-11-11 2023-10-03 南京邮电大学 一种移动设备的边缘优化卸载方法
CN115766241A (zh) * 2022-11-21 2023-03-07 西安工程大学 基于dqn算法的分布式入侵检测系统任务调度卸载方法
CN117407177B (zh) * 2023-12-13 2024-03-08 苏州元脑智能科技有限公司 任务执行方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110351754A (zh) * 2019-07-15 2019-10-18 北京工业大学 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110351754A (zh) * 2019-07-15 2019-10-18 北京工业大学 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置

Also Published As

Publication number Publication date
CN111405568A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
Zeng et al. Resource management at the network edge: A deep reinforcement learning approach
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN109151864B (zh) 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
Nath et al. Multi-user multi-channel computation offloading and resource allocation for mobile edge computing
CN113543342B (zh) 基于noma-mec强化学习资源分配与任务卸载方法
Jiang et al. A q-learning based method for energy-efficient computation offloading in mobile edge computing
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
KR20230007941A (ko) 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법
CN112905315A (zh) 移动边缘计算mec网络中的任务处理方法、装置及设备
Lin et al. Joint offloading decision and resource allocation for multiuser NOMA-MEC systems
CN116209084A (zh) 一种能量收集mec系统中任务卸载和资源分配方法
Zhu et al. Learn and pick right nodes to offload
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN112689296B (zh) 一种异构IoT网络中的边缘计算与缓存方法及系统
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Merluzzi et al. Latency-constrained dynamic computation offloading with energy harvesting IoT devices
CN115665869A (zh) 基于边缘计算和有向无环图的多用户协作平台及其方法
CN112822264A (zh) 一种dnn任务卸载的方法
Cen et al. Resource Allocation Strategy Using Deep Reinforcement Learning in Cloud-Edge Collaborative Computing Environment
Liu et al. A Joint Allocation Algorithm of Computing and Communication Resources Based on Reinforcement Learning in MEC System.
CN113766661B (zh) 用于无线网络环境的干扰控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant