CN114124955B - 一种基于多智能体博弈的计算卸载方法 - Google Patents

一种基于多智能体博弈的计算卸载方法 Download PDF

Info

Publication number
CN114124955B
CN114124955B CN202111342048.7A CN202111342048A CN114124955B CN 114124955 B CN114124955 B CN 114124955B CN 202111342048 A CN202111342048 A CN 202111342048A CN 114124955 B CN114124955 B CN 114124955B
Authority
CN
China
Prior art keywords
user
unloading
network user
private network
public network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111342048.7A
Other languages
English (en)
Other versions
CN114124955A (zh
Inventor
龚启旭
周娴玮
余松森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202111342048.7A priority Critical patent/CN114124955B/zh
Publication of CN114124955A publication Critical patent/CN114124955A/zh
Application granted granted Critical
Publication of CN114124955B publication Critical patent/CN114124955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1048Departure or maintenance mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于二阶段多智能体博弈的计算卸载方法。本发明所述的基于二阶段多智能体博弈的计算卸载方法包括如下步骤:针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗;根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数;在完全信息博弈情况下,验证Stackelberg均衡的存在,并求解所述专网用户和所述公网用户的第一最优卸载策略;在不完全信息博弈情况下,采用TSDRL算法求得第二最优卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。

Description

一种基于多智能体博弈的计算卸载方法
技术领域
本发明涉及边缘计算技术领域,特别是涉及一种基于多智能体博弈的计算卸载方法。
背景技术
随着移动通信技术的发展和智能终端的普及,数据流量呈指数式增长,终端种类不断增加,服务场景越来越多样化,用户对网络服务质量、请求时延和终端设备的能耗等方面的要求越来越高。在此背景下,移动边缘计算(mobile edge computing,MEC)技术将IT服务环境和云计算技术在网络边缘相结合,提高了边缘网络的计算和存储能力,减少网络操作和服务交付时延,构建更加智能的移动网络,被视为向5G过度的关键技术和架构性概念。
作为MEC中的关键技术之一,计算卸载是指终端设备将部分或全部计算任务交给云计算环境处理的技术,以解决移动设备在资源存储、计算性能和能效等方面的缺陷。5G新应用场景对网络的时延和处理能力提出了更高的需求,将5G和MEC技术相结合,用户终端可以将自己的任务卸载到基站附近的MEC服务器上,从而以较小的时延以及更低的能耗来处理任务。由于现有的5G网络存在基站建设成本高、功耗大的问题,业界提出了5G的混合双网模式。该模式既为普通公众用户提供传统意义上的公用网络服务,同时也为垂直行业或政企等专用网络提供网络、存储和计算等服务,如工业应用、智能电网、车联网、智慧医疗、银行、各种APP应用等。而公网用户和专网用户共用MEC服务器的计算资源,多个终端设备同时卸载任务到MEC服务器,会导致计算资源分配的不合理,从而产生严重的干扰问题,因此如何给不同类型的用户按照需求合理地进行计算卸载成为目前亟待解决的关键问题。
现有的计算卸载技术中,卸载策略大多采用集中式控制,即集中在MEC服务器通过获取全局的信道信息静态分配资源,这在现实环境很难实现,而且会导致隐私泄露、网络安全等问题。而在非集中控制下,用户之间信息不透明,很难达到系统的帕累托最优(ParetoOptimality,即最大化收益)。同时,目前的卸载策略研究的卸载任务之间都为独立且平等的关系,当终端用户或卸载任务存在优先级区分时,不同类型的用户对时延和能耗的敏感性不同,对计算资源有不同的需求,故其最大化收益的卸载策略也有待考虑。综上所述,在非集中控制的情况下,对不同类型的用户设计一套计算卸载方案,并实现网络的低时延、终端的低能耗,是一个难点。
发明内容
基于此,本发明的目的在于,提供一种基于多智能体博弈的计算卸载方法,能够针对混合双网模式下用户优先级的不同,通过Stackelberg博弈模型,合理地分配MEC服务器的计算资源,并采用TSDRL算法求解得在信息不共享情况下用户的最优卸载策略,有效降低了用户卸载任务时的时延和能耗,同时保证了用户的隐私和安全。
本发明通过如下技术方案进行实现:一种基于二阶段多智能体博弈的计算卸载方法,包括如下步骤:针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗,其中,所述网络信道模型包括MEC服务器、专网用户和公网用户;根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数,其中,所述效用函数用于评估所述时延和所述能耗;在完全信息博弈情况下,验证Stackelberg均衡的存在,如果存在,则求解所述专网用户和所述公网用户的第一最优卸载策略;在不完全信息博弈情况下,采用TSDRL算法求解第二最优卸载策略;所述TSDRL算法包括如下步骤:根据POMDP对用户的卸载决策过程建模;将卸载调度模块的策略定义为条件概率函数,将用户的效用函数看作POMDP的价值函数,构造目标函数;采用基于PG算法的PPO算法求解出所述第二最优卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。
与现有技术中只针对单一用户的计算卸载方法相比,本发明所述的基于多智能体博弈的计算卸载方法,本发明将用户分为面向行业的专网用户和面向公众的公网用户,并根据Stackelberg博弈建立边缘卸载模型,能够针对混合双网模式下用户优先级的不同合理分配MEC服务器的计算资源,求得完全信息博弈情况下的第一最优卸载策略,有效地降低了用户卸载时的通讯时延和终端能耗;在不完全信息博弈情况下,采用TSDRL算法求解用户的第二最优卸载策略,显著提高了算法的训练速度和收敛度,有利于在时变系统中更快地决策出最优卸载策略,并保证了用户的隐私和安全。
进一步地,所述专网用户进行任务卸载的时延
Figure BDA0003352496090000021
为:
Figure BDA0003352496090000022
所述专网用户进行任务卸载的能耗
Figure BDA0003352496090000023
为:
Figure BDA0003352496090000024
所述公网用户进行任务卸载的时延
Figure BDA0003352496090000025
为:
Figure BDA0003352496090000031
所述专网用户进行任务卸载的能耗
Figure BDA0003352496090000032
为:
Figure BDA0003352496090000033
其中,t表示时延,E表示终端设备运行时的能耗,x表示卸载量,b表示信道传输速率,C表示用户的任务量,f表示终端设备的计算频率,v表示终端设备的功率系数,p表示单位时间数据传输的成本,R表示MEC服务器的总计算资源;“k”上标表示第k个时隙,“l,i”下标代表第i个专网用户,“f,j”下标代表第j个公网用户,“total”下标表示所有用户;
Figure BDA0003352496090000034
Figure BDA0003352496090000035
分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率,Cl,i、fl,i、vl,i、pl,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本;/>
Figure BDA0003352496090000036
Figure BDA0003352496090000037
分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率,Cf,j、ff,j、vf,j、pf,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本。
进一步地,所述专网用户的效用函数
Figure BDA0003352496090000038
为:
Figure BDA0003352496090000039
所述公网用户的效用函数
Figure BDA00033524960900000310
为:
Figure BDA00033524960900000311
其中,
Figure BDA00033524960900000312
表示第i个专网用户卸载量为/>
Figure BDA00033524960900000313
时的效用值,/>
Figure BDA00033524960900000314
表示j个公网用户卸载量为/>
Figure BDA00033524960900000315
时的效用值N为所述专网用户的数量,M为所述公网用户的数量;αl,i表示第i个专网用户的卸载倾向,αf,j表示第j个公网用户的卸载倾向;βl,i表示第i个专网用户对所述公网用户的态度值权重,βf,j表示第i个专网用户对所述公网用户的态度值权重;/>
Figure BDA00033524960900000316
表示所有所述专网用户的总卸载量,/>
Figure BDA0003352496090000041
表示所有所述公网用户的总卸载量。
进一步地,验证Stackelberg均衡存在的步骤如下:
对所述专网用户的效用函数进行一阶导数求导,得:
Figure BDA0003352496090000042
再进行二阶导数求导,得:
Figure BDA0003352496090000043
由所述专网用户的效用函数的二阶导数小于0可知,所述专网用户的效用函数为凸函数,所以存在唯一的纳什均衡解,即已知所述公网用户的卸载策略时,能求得所述专网用户唯一的第一最优卸载策略
Figure BDA0003352496090000044
对所述公网用户的效用函数进行一阶导数求导,得:
Figure BDA0003352496090000045
再进行二阶导数求导,得:
Figure BDA0003352496090000046
由所述公网用户的效用函数的二阶导数小于0可知,所述公网用户的效用函数为凸函数,所以存在唯一纳什均衡解,即已知所述专网用户的卸载策略时,能求得所述公网用户唯一的第一最优卸载策略
Figure BDA0003352496090000047
因此,存在所述Stackelberg均衡。
进一步地,完全信息博弈情况下,第一最优卸载策略的求解步骤如下:
对于所述专网用户,令
Figure BDA0003352496090000048
求解得/>
Figure BDA0003352496090000049
可得第i个专网用户的第一最优卸载策略/>
Figure BDA00033524960900000410
Figure BDA0003352496090000051
对于所述公网用户,令
Figure BDA0003352496090000052
求解得/>
Figure BDA0003352496090000053
可得第j个公用户的第一最优卸载策略
Figure BDA0003352496090000054
Figure BDA0003352496090000055
其中,
Figure BDA0003352496090000056
表示不卸载;/>
Figure BDA0003352496090000057
表示全卸载。
求解完全信息博弈情况下的第一最优卸载策略,可以证明混合双网模式的边缘卸载模型在不完全信息博弈情况下也可解,并进一步验证不完全信息博弈下算法的收敛性或正确性。
进一步地,在不完全信息博弈情况下,任一用户在连续时间域中,每个时隙逐步做出决策的过程可以建模成POMDP,记为:M=<S,A,P,U,O,T>;式中,S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数。
进一步地,将所述条件概率函数πθ定义为πθ:O×A→[0,1],其中,θ为用户的网络参数;在POMDP中,观测价值函数为
Figure BDA0003352496090000058
观测-动作价值函数为
Figure BDA0003352496090000059
所述目标函数为
Figure BDA00033524960900000510
其中,
Figure BDA00033524960900000511
表示期望符合,K特指达到时隙K;γ为折扣因子,且γ∈[0,1],γl-k代表折扣因子的(l-k)次幂;rk为时隙k时的回报值,第i个专网用户的回报值/>
Figure BDA00033524960900000512
第j个公网用户的回报值/>
Figure BDA00033524960900000513
ol,i代表专网用户的观测函数,/>
Figure BDA00033524960900000514
表示在时隙k时第i个专网用户的观测函数,/>
Figure BDA00033524960900000515
是为ol,i赋予/>
Figure BDA00033524960900000516
的值;xl,i为专网用户的卸载量,/>
Figure BDA00033524960900000517
是为xl,i赋予/>
Figure BDA00033524960900000518
的值。
进一步地,根据PG算法,有:
Figure BDA0003352496090000061
其中,
Figure BDA0003352496090000062
表示优势函数,表达式为:/>
Figure BDA0003352496090000063
采用PPO-Penalty算法,进行重要性采样,有:
Figure BDA0003352496090000064
其中,
Figure BDA0003352496090000065
为PPO算法中的似然函数,其表达式为:
Figure BDA0003352496090000066
其中,θ'是用户的拟合网络参数,πθ(xl,i|ol,i)是真实的动作-观测概率分布,πθ'(xl,i|ol,i)是拟合的动作-观测概率分布;KL(θ,θ')表示Kullback-Leibler散度(Kullback-Leibler divergence),是两个概率分布间差异的非对称性度量,δ是KL散度的系数。
本发明提供了一种基于多智能体博弈的计算卸载方法,将Stackelberg博弈和深度强化学习算法结合起来,能够针对混合双网模式下用户优先级的不同合理分配MEC服务器的计算资源,有效地降低了用户卸载时的通讯时延和终端能耗;在不完全信息博弈情况下,采用TSDRL算法求解用户的最佳卸载策略,显著提高了算法的训练速度和收敛度,有利于在时变系统中更快地决策出最优卸载策略,并保证了用户的隐私和安全。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的一种基于多智能体博弈的计算卸载方法的步骤图;
图2为本发明提供的一种基于多智能体博弈的计算卸载方法的网络模型图;
图3为本发明提供的一种基于多智能体博弈的计算卸载方法的流程图;
图4为本发明提供的完全信息博弈情况下求解第一最优卸载策略的算法示意图;
图5为本发明提供的不完全信息博弈情况下求解第二最优卸载策略所采用的TSDRL算法的示意图;
图6为本发明提供的不完全信息博弈情况下的二阶段优化模型示意图;
图7为本发明提供的用户控制器逻辑图;
图8为本发明提供的不完全信息博弈情况下采用TSDRL算法求解的用户效用值变化图;
图9为本发明提供的不完全信息博弈情况下采用TSDRL算法求解的用户卸载策略变化图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其为本发明提供的一种基于多智能体博弈的计算卸载方法的步骤图。该计算卸载方法包括如下的步骤:
S10、针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,进而计算用户进行任务卸载的时延和能耗;
S20、根据Stackelberg博弈建立边缘卸载模型,设定专网用户和公网用户的效用函数;
S30、在完全信息博弈情况下,验证Stackelberg均衡的存在,如果存在,则求解专网用户和公网用户的第一最优卸载策略;
S40、在不完全信息博弈情况下,采用TSDRL算法求解专网用户和公网用户的第二最优卸载策略,并利用第一最优卸载策略验证第二最优卸载策略的收敛性。
请参阅图2,其为本发明提供的一种基于多智能体博弈的计算卸载方法的网络模型图。请参阅图3,其为本发明提供的一种基于多智能体博弈的计算卸载方法的流程图。在步骤S10中,针对5G混合双网模式,建立网络信道模型,该网络信道模型包括MEC服务器、专网用户和公网用户。任一用户的计算任务,可以在移动设备端完成,也可以卸载到基站端的MEC服务器完成,并且每个任务可以被分解为子任务,即单个任务可以部分卸载到MEC服务器上计算,部分在本地的终端设备上进行计算。专网用户和公网用户可以同时将任务卸载到MEC服务器,共同竞争MEC服务器的总计算资源,故引入卸载决策机制来表示用户的任务是否要卸载到MEC服务器上。在边缘卸载模型中,与用户体验质量相关的参数为任务完成时的时延和能耗,其卸载决策目标有最小时延、最小能耗以及权衡时延和能耗的最大化收益这三种。在本实施例中,以权衡时延和能耗的最大化收益为计算卸载方法的卸载决策目标。
对于任一用户的计算任务,其卸载到MEC服务器计算的过程如下:移动终端通过信道将任务卸载到MEC服务器;计算任务在MEC服务器上执行,且服务器给计算任务分配计算资源;MEC服务器将计算结果返回用户。那么,对于上述网络信道模型,可以根据香农定理计算每个用户的信道传输速率,进而求得每个用户进行任务卸载的时延和能耗(图中未注明该步骤)。
在多智能体系统中,所有用户都可以自己独立作出决策,将自己的任务进行卸载,卸载量为x,每个用户任务量为C,因此有x∈[0,C]。专网用户的决策空间为
Figure BDA0003352496090000081
数据卸载量为xl=(xl,1,...,xl,M)∈Xl;公网用户的决策空间为/>
Figure BDA0003352496090000082
数据卸载量为xf=(xf,1,...,xf,N)∈Xf;其中,N表示专网用户数量,M表示公网用户数量。
在混合双网的拓扑设备中,将专网用户和公网用户看成一个个终端设备,根据Shannon第二定理,可以得到专网用户的信道传输速率为:
Figure BDA0003352496090000083
同理,公网用户的信道传输速率为:
Figure BDA0003352496090000084
其中,b表示信道传输速率,w表示信道宽度,ρ表示传输功率,h表示信道增益,σ表示噪声;“l,i”下标代表第i个专网用户(leader),“f,j”下标代表第j个公网用户(follower);bl,i、wl,i、ρl,i、hl,i分别代表第i个专网用户的信道宽度、传输功率、信道增益、噪声;bf,j、wf,j、ρf,j、hf,j分别代表第j个公网用户的信道宽度、传输功率、信道增益、噪声。
由用户的信道传输速率可进一步求得用户进行任务卸载时的时延和能耗。
专网用户进行任务卸载时的时延和能耗分别为:
Figure BDA0003352496090000091
Figure BDA0003352496090000092
公网用户进行任务卸载时的时延和能耗分别为:
Figure BDA0003352496090000093
Figure BDA0003352496090000094
其中,t表示时延,E表示终端设备运行时的能耗,R表示MEC服务器的总计算资源,f表示终端设备的计算频率,v表示终端设备的功率系数,p表示单位时间数据传输的成本;“k”上标表示第k个时隙,“l,i”下标代表第i个专网用户,“f,j”下标代表第j个公网用户,“total”下标表示所有用户;
Figure BDA0003352496090000095
分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率,Cl,i、fl,i、vl,i、pl,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本;/>
Figure BDA0003352496090000096
分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率,Cf,j、ff,j、vf,j、pf,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本。在本实施例中,对参数做出如下定义:总计算资源R=50Mb/s,专网用户的总任务量Cl,i=10Mb,公网用户的总任务量Cf,j=1Mb,专网用户本地的计算频率fl,i=0.1Mb/s,公网用户本地的计算频率ff,j=0.01Mb/s,单位传输成本p=1J/s。
在步骤S20中,将专网用户视为领导者(leader),将公网用户视为跟随者(follower),以卸载量x为策略,分别设定专网用户和公网用户的效用函数,建立Stackelberg博弈模型。
MEC服务器的计算资源根据用户上传的任务量大小进行分配,假设服务器的总计算资源为R,那么一个用户卸载数据量时所占用的计算资源Rl为:
Figure BDA0003352496090000101
其中,
Figure BDA0003352496090000102
表示所有专网用户的总卸载量,/>
Figure BDA0003352496090000103
表示所有公网用户的总卸载量。由于p表示单位时间数据传输的成本,那么对于卸载数据x,成本为:/>
Figure BDA0003352496090000104
考虑到终端设备在本地运行时会消耗设备的电源能量,假定功率系数为v,那么本地计算所消耗的能量可表示为:v(C-x)。由于专网用户的数据量极大,而服务器的总资源有限,为了防止公网用户完全竞争不到计算资源,导致其宕机,因此专网用户需要额外考虑其他普通用户的卸载量。据此,可以得到第i个专网用户卸载量为/>
Figure BDA0003352496090000105
时,基于服务器处理速度、上传速度、本地功耗的效用函数/>
Figure BDA0003352496090000106
Figure BDA0003352496090000107
其中,αl,i表示第i个专网用户的卸载倾向,βl,i表示第i个专网用户对其他公网用户的态度值权重,由于专网用户优先级高于公网用户,那么有αl,il,i
公网用户主要竞争专网用户竞争完之后的剩余资源,并且在专网用户每次竞争完之后,服务器会向公网用户广播专网用户使用的资源情况,故其博弈可以看成是公网用户之间的竞争博弈,即为古诺模型。因此对于任一公网用户,当卸载数据量为x时,所占用MEC服务器计算资源Rf为:
Figure BDA0003352496090000108
那么,在时隙k时,第j个用户效用函数
Figure BDA0003352496090000109
可以表示为:
Figure BDA0003352496090000111
其中,βf,j表示第j个公网用户对其他公网用户的态度值权重。
步骤S30,在完全信息博弈情况下,验证Stackelberg均衡的存在,求解第一最优卸载策略。
请参阅图4,其为本发明提供的完全信息(或信息共享)博弈情况下求解第一最优卸载策略的算法示意图,该步骤包括如下两个子步骤:
S31、推导并验证Stackelberg均衡的存在;
S32、分别求解专网用户和公网用户的第一最优卸载策略。
在步骤S31中,效用函数对卸载量进行一阶导数、二阶导数求导,由二阶导数小于0可得效用函数为凸函数,即存在唯一纳什均衡(Nash equilibrium,NE)解。具体推导过程如下:
对于专网用户,由公式(8),对其效用函数进行一阶导数求导,得:
Figure BDA0003352496090000112
再进行二阶导数求导,得:
Figure BDA0003352496090000113
由于MEC服务器计算资源R>0,卸载策略
Figure BDA0003352496090000114
两种用户权重系数αl,il,i,可得专网用户效用函数的二阶导数小于零,因此该效用函数是严格的凸函数,即存在唯一纳什均衡点。那么,如果第一最优卸载策略x*存在,它必定是唯一的。令其一阶导数/>
Figure BDA0003352496090000115
可得:
Figure BDA0003352496090000116
Figure BDA0003352496090000117
若0<Φ<Cl,i,第一最优卸载策略为/>
Figure BDA0003352496090000118
若Φ<0,则不卸载;若Φ>Cl,i,则全卸载。那么有,给定其他用户的卸载策略,则第i个专网用户所求第一最优卸载策略为:
Figure BDA0003352496090000121
同样地,对于公网用户,对其效用函数进行一阶导数求导,得:
Figure BDA0003352496090000122
同样再对其进行二阶导数求导,得:
Figure BDA0003352496090000123
由公式(16)可知,公网用户的效用函数也存在唯一的纳什均衡解,令其一阶导数
Figure BDA0003352496090000124
可得:/>
Figure BDA0003352496090000125
Figure BDA0003352496090000126
若0<Δ<Cf,j,第一最优卸载策略为/>
Figure BDA0003352496090000127
若Δ<0,则不卸载;若Δ>Cf,j,则全卸载。那么有,给定其他用户的卸载策略,则第j个公网用户所求第一最优卸载策略为:
Figure BDA0003352496090000128
据此,得出结论:无论是专网用户还是公网用户,当已知其他用户的卸载策略时,总能求得各自的第一最优卸载策略,即该博弈模型存在Stackelberg均衡。
在步骤S32中,求解专网用户和公网用户在共享用户信道速率、功率系数等信息情况下的第一最优卸载策略。
根据公式(14)、公式(18),可以得到专网用户和公网用户的第一最优卸载策略的复合表达式。由公式(17)、公式(18)得,在0<Δ<Cf,j情况下有:
Figure BDA0003352496090000131
其中
Figure BDA0003352496090000132
表示在时隙k时的总卸载量,由公式(19)可得:
Figure BDA0003352496090000133
累加所有公网用户得:
Figure BDA0003352496090000134
同理,对于专网用户,由公式(14)可得:
Figure BDA0003352496090000135
根据
Figure BDA0003352496090000136
累加所有专网用户得:/>
Figure BDA0003352496090000137
Figure BDA0003352496090000138
联立公式(21)、(23)得二元二次方程,并解得
Figure BDA0003352496090000139
Figure BDA00033524960900001310
代入公式(20)、(22)就可计算出第一最优卸载策略
Figure BDA00033524960900001311
步骤S40则是在不完全信息博弈情况下,采用二阶段深度强化学习(Two-stagedeep reinforcement learning,TSDRL)算法求解第二最优卸载策略。
请参阅图5,其为本发明提供的不完全信息(或信息不共享)博弈情况下求解第二最优卸载策略的TSDRL算法的示意图,该步骤包括如下三个子步骤:
S41、根据部分可观察的马尔科夫决策过程(Partially Observable MarkovDecision Process,POMDP)对用户的卸载决策过程建模;
S42、将卸载调度模块的策略定义为一个条件概率函数,将用户的效用函数看作POMDP的价值函数,并构造目标函数;
S43、采用基于策略梯度(Policy Gradient,PG)算法的近端策略优化(ProximalPolicy Optimization,PPO)算法求解。
请参阅图6,其为本发明提供的不完全信息博弈情况下的二阶段优化模型示意图。
在步骤S41中,对用户的卸载决策建立POMDP模型,其建模过程如下:
当用户的信息是不共享的情况下,用户所获取的信息只有用户自身的系数信息。在连续的时间域中,对独立用户来说,这是一个POMDP。针对任一用户,该用户在连续时间域中,需要对任务卸载量做出决策,每个时隙逐步做出决策的过程可以建模成POMDP,记为M=<S,A,P,U,O,T>,式中,S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数。在POMDP中,状态空间S是部分已知的,决策会根据观测空间O给出。对于任一专网用户来说,专网用户可以观测到时隙D前的公网用户卸载总和以及过去的卸载策略
Figure BDA0003352496090000141
以及用户自身的系数信息。对于任一公网用户来说,公网用户可以观测过去的卸载策略/>
Figure BDA0003352496090000142
以及用户自身的系数信息。
观测空间:O={Ol,i,Of,j}i∈N,j∈M;其中,专网用户的观测空间为
Figure BDA0003352496090000143
Figure BDA0003352496090000144
表示在时隙k时第i个专网用户的观测函数,其表达式为:
Figure BDA0003352496090000145
公网用户观测空间为
Figure BDA0003352496090000146
Figure BDA0003352496090000147
表示在时隙k时第j个公网用户的观测函数,其表达式为:/>
Figure BDA0003352496090000148
动作空间:专网用户的动作空间为Al={Al,i}i∈N
Figure BDA0003352496090000149
公网用户动作空间为Af={Af,j}j∈M,/>
Figure BDA00033524960900001410
奖励函数:每个用户都有独立的奖励函数,专网用户的奖励空间为Ul={Ul,i}i∈N
Figure BDA00033524960900001411
公网用户的奖励空间为Uf={Uf,j}j∈N,/>
Figure BDA00033524960900001412
其中,Ul,i、Ul,i分别为专网用户和公网用户的奖励函数。
在步骤S42中,将卸载调度模块的策略定义为一个条件概率函数,将用户的效用函数看作POMDP的价值函数,并构造目标函数,具体过程如下:
将卸载调度模块的策略定义为一个条件概率函数,表示为πθ,并且定义πθ:O×A→[0,1],其中,θ为用户的网络参数。
在POMDP中,观测价值函数为
Figure BDA0003352496090000151
观测-动作价值函数为/>
Figure BDA0003352496090000152
其中,
Figure BDA0003352496090000153
表示期望符合,K特指达到时隙K;γ为折扣因子,且γ∈[0,1],γl-k代表时隙(l-k)时的折扣因子;rk为时隙k时的回报值,第i个专网用户的回报值/>
Figure BDA0003352496090000154
第j个公网用户的回报值/>
Figure BDA0003352496090000155
ol,i代表专网用户的观测函数,/>
Figure BDA0003352496090000156
是为ol,i赋予/>
Figure BDA0003352496090000157
的值;xl,i为专网用户的卸载量,/>
Figure BDA0003352496090000158
是为xl,i赋予/>
Figure BDA0003352496090000159
的值。
构造目标函数:
Figure BDA00033524960900001510
根据PG算法,有:
Figure BDA00033524960900001511
其中,
Figure BDA00033524960900001512
表示优势函数(advantage function),是在/>
Figure BDA00033524960900001513
的基础上加了一个基线b,其表达式为:/>
Figure BDA00033524960900001514
进一步地,采用PPO-Penalty算法,进行重要性采样(ImportanceSampling),有:
Figure BDA00033524960900001515
其中,
Figure BDA00033524960900001516
为PPO算法中的似然函数(livelihood function),其表达式为:
Figure BDA00033524960900001517
其中,θ'是用户的拟合网络参数,πθ(xl,i|ol,i)是真实的动作-观测概率分布,πθ'(xl,i|ol,i)是拟合的动作-观测概率分布,KL(θ,θ')表示Kullback-Leibler散度(Kullback-Leibler divergence),是两个概率分布间差异的非对称性度量,δ是KL散度的系数。
因此对于Actor网络参数θ,其迭代公式为:
Figure BDA00033524960900001518
对于Critic网络参数ω,其迭代公式为:
Figure BDA0003352496090000161
其中,τ、λ分别为Actor网络和Critic网络的学习率,
Figure BDA0003352496090000162
为目标函数Ll,i的均值,
Figure BDA0003352496090000163
为任务量Cl,i的均值,/>
Figure BDA0003352496090000164
请参阅图7,其为用户的控制器逻辑示意图。基于上述算法,每个用户都拥有独立的一个控制器逻辑。对于专网用户,用户在每个时隙k获取观测值
Figure BDA0003352496090000165
并根据当前状态通过用户内部的控制器计算其第二最优卸载策略/>
Figure BDA0003352496090000166
同时根据效用函数/>
Figure BDA0003352496090000167
计算其回报值
Figure BDA0003352496090000168
控制器内部根据回报值/>
Figure BDA0003352496090000169
再进一步调整控制器内部的网络参数。对于公网用户,当专网用户策略选择完毕后,公网用户根据自身获得信息以及当前时隙专网用户的卸载策略通过控制器获得自己的第二最优卸载策略/>
Figure BDA00033524960900001610
此为一个时隙k的过程。在每个时隙中,用户将自己的观测数据ok和卸载策略xk存储到记忆池中,记忆池的历史数据包括1~D个时隙的观测数据ok和卸载策略xk;其中,Critic网络根据回报值rk以及所有历史数据调整网络参数ω,Actor网络根据观测值ok以及Critic的观测价值函数/>
Figure BDA00033524960900001611
采用PG算法调整网络参数θ,并输出当前的第二最优卸载策略xk,*。综上所述,用户信息不共享情况下,通过本发明提供的TSDRL算法也能为不同优先级的用户设计一套低时延、低能耗的计算卸载方案(即第二最优卸载策略)。
请参阅图8和图9,图8上述TSDRL算法求解的用户效用值变化图,图9为上述的TSDRL算法求解的用户卸载策略变化图。其中,图8(a)为专网用户效用值随时隙的变化曲线,图8(b)为公网用户效用值随时隙的变化曲线,图中的虚线表示的是完全信息博弈情况下每个用户效用值的纳什均衡(NE)解;图9(a)为专网用户在不同时隙的卸载策略,图9(b)为公网用户在不同时隙的卸载策略,图中的虚线表示的是完全信息博弈情况下每个用户卸载策略的纳什均衡(NE)解。由图可知,在不完全信息博弈情况下,用户的效效用值和卸载策略均能很快收敛至完全信息情况下的纳什均衡状态,证明本发明提出的TSDRL算法具有良好的收敛性和训练速度。
与现有技术相比,本发明提供的一种基于二阶段多智能体博弈的计算卸载方法,能够在信息不共享的情况下,采用收敛性好、训练速度快的TSDRL算法,为具有不同优先级的用户设计出一套实现网络低时延、终端低能耗的计算卸载方案,并且避免了信息共享情况下用户隐私泄露和安全性较差等局限性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (3)

1.一种基于二阶段多智能体博弈的计算卸载方法,其特征在于,包括如下步骤:
针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗,其中,所述网络信道模型包括MEC服务器、专网用户和公网用户;
根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数,其中,所述效用函数用于评估所述时延和所述能耗;
在完全信息博弈情况下,验证Stackelberg均衡的存在,如果存在,则求解所述专网用户和所述公网用户的第一最优卸载策略;
在不完全信息博弈情况下,采用TSDRL算法求解第二最优卸载策略;所述TSDRL算法包括如下步骤:根据POMDP对用户的卸载决策过程建模;将卸载调度模块的策略定义为条件概率函数,将用户的效用函数看作POMDP的价值函数,构造目标函数;采用基于PG算法的PPO算法求解出所述第二最佳卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性;
所述专网用户进行任务卸载的时延
Figure FDA0004230151820000011
的计算公式为:
Figure FDA0004230151820000012
所述专网用户进行任务卸载的能耗
Figure FDA0004230151820000013
的计算公式为:
Figure FDA0004230151820000014
所述公网用户进行任务卸载的时延
Figure FDA0004230151820000015
的计算公式为:
Figure FDA0004230151820000016
所述专网用户进行任务卸载的能耗
Figure FDA0004230151820000017
的计算公式为:
Figure FDA0004230151820000018
其中,t表示时延,E表示终端设备运行时的能耗,x表示卸载量,b表示信道传输速率,C表示用户的任务量,f表示终端设备的计算频率,v表示终端设备的功率系数,p表示单位时间数据传输的成本,R表示MEC服务器的总计算资源;“k”上标表示第k个时隙,“l,i”下标代表第i个专网用户,“f,j”下标代表第j个公网用户,“total”下标表示所有用户;
Figure FDA0004230151820000021
Figure FDA0004230151820000022
分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率,Cl,i、fl,i、vl,i、pl,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本;/>
Figure FDA0004230151820000023
Figure FDA0004230151820000024
分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率,Cf,j、ff,j、vf,j、pf,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本;
所述专网用户的效用函数
Figure FDA0004230151820000025
的计算公式为:
Figure FDA0004230151820000026
所述公网用户的效用函数
Figure FDA0004230151820000027
的计算公式为:
Figure FDA0004230151820000028
其中,
Figure FDA0004230151820000029
表示第i个专网用户卸载量为/>
Figure FDA00042301518200000210
时的效用值,/>
Figure FDA00042301518200000211
表示j个公网用户卸载量为/>
Figure FDA00042301518200000212
时的效用值N为所述专网用户的数量,M为所述公网用户的数量;αl,i表示第i个专网用户的卸载倾向;βl,i表示第i个专网用户对所述公网用户的态度值权重,βf,j表示第i个专网用户对所述公网用户的态度值权重;/>
Figure FDA00042301518200000213
表示所有所述专网用户的总卸载量,
Figure FDA00042301518200000214
表示所有所述公网用户的总卸载量;
在不完全信息博弈情况下,任一用户在连续时间域中,每个时隙逐步做出决策的过程可以建模成POMDP,记为:M=<S,A,P,U,O,T>;式中,S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数;
将所述条件概率函数πθ定义为πθ:O×A→[0,1],其中,θ为用户的网络参数;
在POMDP中,观测价值函数为
Figure FDA0004230151820000031
观测-动作价值函数为
Figure FDA0004230151820000032
所述目标函数为
Figure FDA0004230151820000033
其中,
Figure FDA0004230151820000034
表示期望符合,K特指达到时隙K;γ为折扣因子,且γ∈[0,1],γl-k代表折扣因子的(l-k)次幂;rk为时隙k时的回报值,第i个专网用户的回报值/>
Figure FDA0004230151820000035
第j个公网用户的回报值/>
Figure FDA0004230151820000036
ol,i代表专网用户的观测函数,/>
Figure FDA0004230151820000037
表示在时隙k时第i个专网用户的观测函数,/>
Figure FDA0004230151820000038
是为ol,i赋予/>
Figure FDA0004230151820000039
的值;xl,i为专网用户的卸载量,/>
Figure FDA00042301518200000310
是为xl,i赋予/>
Figure FDA00042301518200000311
的值;
根据PG算法,有:
Figure FDA00042301518200000312
其中,
Figure FDA00042301518200000313
表示优势函数,表达式为:/>
Figure FDA00042301518200000314
采用PPO-Penalty算法,进行重要性采样,有:
Figure FDA00042301518200000315
其中,
Figure FDA00042301518200000316
为PPO算法中的似然函数,其表达式为:
Figure FDA00042301518200000317
其中,θ'是用户的拟合网络参数,πθ(xl,i|ol,i)是真实的动作-观测概率分布,πθ'(xl,i|ol,i)是拟合的动作-观测概率分布;KL(θ,θ')表示Kullback-Leibler散度,是两个概率分布间差异的非对称性度量,δ是KL散度的系数;
对于Actor网络参数θ,其迭代公式为:
Figure FDA00042301518200000318
对于Critic网络参数ω,其迭代公式为:
Figure FDA0004230151820000041
其中,τ、λ分别为Actor网络和Critic网络的学习率,
Figure FDA0004230151820000042
为目标函数Ll,i的均值,/>
Figure FDA0004230151820000043
为任务量Cl,i的均值,/>
Figure FDA0004230151820000044
2.根据权利要求1所述的一种基于二阶段多智能体博弈的计算卸载方法,其特征在于,验证Stackelberg均衡存在的步骤如下:
对所述专网用户的效用函数进行一阶导数求导,得:
Figure FDA0004230151820000045
再进行二阶导数求导,得:
Figure FDA0004230151820000046
由所述专网用户的效用函数的二阶导数小于0可知,所述专网用户的效用函数为凸函数,所以存在唯一的纳什均衡解,即已知所述公网用户的卸载策略时,能求得所述专网用户唯一的第一最优卸载策略
Figure FDA0004230151820000047
对所述公网用户的效用函数进行一阶导数求导,得:
Figure FDA0004230151820000048
再进行二阶导数求导,得:
Figure FDA0004230151820000049
由所述公网用户的效用函数的二阶导数小于0可知,所述公网用户的效用函数为凸函数,所以存在唯一纳什均衡解,即已知所述专网用户的卸载策略时,能求得所述公网用户唯一的第一最优卸载策略
Figure FDA00042301518200000410
因此,存在所述Stackelberg均衡。
3.根据权利要求2所述的一种基于二阶段多智能体博弈的计算卸载方法,其特征在于,完全信息博弈情况下,第一最优卸载策略的求解步骤如下:
对于所述专网用户,令
Figure FDA0004230151820000051
求解得/>
Figure FDA0004230151820000052
可得第i个专网用户的第一最优卸载策略
Figure FDA0004230151820000053
Figure FDA0004230151820000054
对于所述公网用户,令
Figure FDA0004230151820000055
求解得/>
Figure FDA0004230151820000056
可得第j个公网用户的第一最优卸载策略
Figure FDA0004230151820000057
Figure FDA0004230151820000058
其中,
Figure FDA0004230151820000059
表示不卸载;/>
Figure FDA00042301518200000510
表示全卸载。
CN202111342048.7A 2021-11-12 2021-11-12 一种基于多智能体博弈的计算卸载方法 Active CN114124955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111342048.7A CN114124955B (zh) 2021-11-12 2021-11-12 一种基于多智能体博弈的计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111342048.7A CN114124955B (zh) 2021-11-12 2021-11-12 一种基于多智能体博弈的计算卸载方法

Publications (2)

Publication Number Publication Date
CN114124955A CN114124955A (zh) 2022-03-01
CN114124955B true CN114124955B (zh) 2023-07-07

Family

ID=80379030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111342048.7A Active CN114124955B (zh) 2021-11-12 2021-11-12 一种基于多智能体博弈的计算卸载方法

Country Status (1)

Country Link
CN (1) CN114124955B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115551105B (zh) * 2022-09-15 2023-08-25 公诚管理咨询有限公司 基于5g网络边缘计算的任务调度方法、装置和存储介质
CN115622608B (zh) * 2022-09-29 2023-06-06 广州爱浦路网络技术有限公司 基于低轨卫星边缘计算的卸载策略优化方法、系统和介质
CN117521716B (zh) * 2024-01-02 2024-03-19 山东大学 面向海量未知选项与有限内存空间的协作决策方法及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110336861A (zh) * 2019-06-18 2019-10-15 西北工业大学 基于双层无人机的移动边缘计算系统的卸载任务分配方法
CN113269461A (zh) * 2021-06-09 2021-08-17 北京理工大学 一种基于博弈的边缘计算资源管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110336861A (zh) * 2019-06-18 2019-10-15 西北工业大学 基于双层无人机的移动边缘计算系统的卸载任务分配方法
CN113269461A (zh) * 2021-06-09 2021-08-17 北京理工大学 一种基于博弈的边缘计算资源管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Stackelberg博弈论的边缘计算卸载决策方法;危泽华;曾玲玲;;数学的实践与认识(第11期);全文 *

Also Published As

Publication number Publication date
CN114124955A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN114124955B (zh) 一种基于多智能体博弈的计算卸载方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
Liu et al. Dynamic task offloading and resource allocation for ultra-reliable low-latency edge computing
CN111093203B (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN111182570B (zh) 提高运营商效用的用户关联和边缘计算卸载方法
Zhang et al. Joint parallel offloading and load balancing for cooperative-MEC systems with delay constraints
CN113242568A (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN113810233B (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN113543156B (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113553165B (zh) 一种基于博弈论的移动边缘计算任务卸载和资源调度方法
CN113568727B (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN111459670A (zh) 一种在边缘计算不同层次进行协同处理的方法
CN115175217A (zh) 一种基于多智能体的资源分配和任务卸载优化方法
EP4024212A1 (en) Method for scheduling interference workloads on edge network resources
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113766037B (zh) 面向大规模边缘计算系统的任务卸载控制方法及系统
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN115413044A (zh) 一种工业无线网络的计算和通信资源联合分配方法
CN114650568A (zh) 一种移动Ad Hoc云中基于能量收集的分布式卸载方法
CN114531685A (zh) 一种基于迁移强化学习的资源分配方法
CN114422605A (zh) 一种基于联邦学习的通信梯度自适应压缩方法
Khan et al. A Deep Learning‐Based Algorithm for Energy and Performance Optimization of Computational Offloading in Mobile Edge Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant