CN114124955B - 一种基于多智能体博弈的计算卸载方法 - Google Patents
一种基于多智能体博弈的计算卸载方法 Download PDFInfo
- Publication number
- CN114124955B CN114124955B CN202111342048.7A CN202111342048A CN114124955B CN 114124955 B CN114124955 B CN 114124955B CN 202111342048 A CN202111342048 A CN 202111342048A CN 114124955 B CN114124955 B CN 114124955B
- Authority
- CN
- China
- Prior art keywords
- user
- unloading
- network user
- private network
- public network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000005265 energy consumption Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 230000005540 biological transmission Effects 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 91
- 230000008569 process Effects 0.000 claims description 12
- 238000009795 derivation Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 229910052698 phosphorus Inorganic materials 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/104—Peer-to-peer [P2P] networks
- H04L67/1044—Group management mechanisms
- H04L67/1048—Departure or maintenance mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于二阶段多智能体博弈的计算卸载方法。本发明所述的基于二阶段多智能体博弈的计算卸载方法包括如下步骤:针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗;根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数;在完全信息博弈情况下,验证Stackelberg均衡的存在,并求解所述专网用户和所述公网用户的第一最优卸载策略;在不完全信息博弈情况下,采用TSDRL算法求得第二最优卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。
Description
技术领域
本发明涉及边缘计算技术领域,特别是涉及一种基于多智能体博弈的计算卸载方法。
背景技术
随着移动通信技术的发展和智能终端的普及,数据流量呈指数式增长,终端种类不断增加,服务场景越来越多样化,用户对网络服务质量、请求时延和终端设备的能耗等方面的要求越来越高。在此背景下,移动边缘计算(mobile edge computing,MEC)技术将IT服务环境和云计算技术在网络边缘相结合,提高了边缘网络的计算和存储能力,减少网络操作和服务交付时延,构建更加智能的移动网络,被视为向5G过度的关键技术和架构性概念。
作为MEC中的关键技术之一,计算卸载是指终端设备将部分或全部计算任务交给云计算环境处理的技术,以解决移动设备在资源存储、计算性能和能效等方面的缺陷。5G新应用场景对网络的时延和处理能力提出了更高的需求,将5G和MEC技术相结合,用户终端可以将自己的任务卸载到基站附近的MEC服务器上,从而以较小的时延以及更低的能耗来处理任务。由于现有的5G网络存在基站建设成本高、功耗大的问题,业界提出了5G的混合双网模式。该模式既为普通公众用户提供传统意义上的公用网络服务,同时也为垂直行业或政企等专用网络提供网络、存储和计算等服务,如工业应用、智能电网、车联网、智慧医疗、银行、各种APP应用等。而公网用户和专网用户共用MEC服务器的计算资源,多个终端设备同时卸载任务到MEC服务器,会导致计算资源分配的不合理,从而产生严重的干扰问题,因此如何给不同类型的用户按照需求合理地进行计算卸载成为目前亟待解决的关键问题。
现有的计算卸载技术中,卸载策略大多采用集中式控制,即集中在MEC服务器通过获取全局的信道信息静态分配资源,这在现实环境很难实现,而且会导致隐私泄露、网络安全等问题。而在非集中控制下,用户之间信息不透明,很难达到系统的帕累托最优(ParetoOptimality,即最大化收益)。同时,目前的卸载策略研究的卸载任务之间都为独立且平等的关系,当终端用户或卸载任务存在优先级区分时,不同类型的用户对时延和能耗的敏感性不同,对计算资源有不同的需求,故其最大化收益的卸载策略也有待考虑。综上所述,在非集中控制的情况下,对不同类型的用户设计一套计算卸载方案,并实现网络的低时延、终端的低能耗,是一个难点。
发明内容
基于此,本发明的目的在于,提供一种基于多智能体博弈的计算卸载方法,能够针对混合双网模式下用户优先级的不同,通过Stackelberg博弈模型,合理地分配MEC服务器的计算资源,并采用TSDRL算法求解得在信息不共享情况下用户的最优卸载策略,有效降低了用户卸载任务时的时延和能耗,同时保证了用户的隐私和安全。
本发明通过如下技术方案进行实现:一种基于二阶段多智能体博弈的计算卸载方法,包括如下步骤:针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗,其中,所述网络信道模型包括MEC服务器、专网用户和公网用户;根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数,其中,所述效用函数用于评估所述时延和所述能耗;在完全信息博弈情况下,验证Stackelberg均衡的存在,如果存在,则求解所述专网用户和所述公网用户的第一最优卸载策略;在不完全信息博弈情况下,采用TSDRL算法求解第二最优卸载策略;所述TSDRL算法包括如下步骤:根据POMDP对用户的卸载决策过程建模;将卸载调度模块的策略定义为条件概率函数,将用户的效用函数看作POMDP的价值函数,构造目标函数;采用基于PG算法的PPO算法求解出所述第二最优卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。
与现有技术中只针对单一用户的计算卸载方法相比,本发明所述的基于多智能体博弈的计算卸载方法,本发明将用户分为面向行业的专网用户和面向公众的公网用户,并根据Stackelberg博弈建立边缘卸载模型,能够针对混合双网模式下用户优先级的不同合理分配MEC服务器的计算资源,求得完全信息博弈情况下的第一最优卸载策略,有效地降低了用户卸载时的通讯时延和终端能耗;在不完全信息博弈情况下,采用TSDRL算法求解用户的第二最优卸载策略,显著提高了算法的训练速度和收敛度,有利于在时变系统中更快地决策出最优卸载策略,并保证了用户的隐私和安全。
其中,t表示时延,E表示终端设备运行时的能耗,x表示卸载量,b表示信道传输速率,C表示用户的任务量,f表示终端设备的计算频率,v表示终端设备的功率系数,p表示单位时间数据传输的成本,R表示MEC服务器的总计算资源;“k”上标表示第k个时隙,“l,i”下标代表第i个专网用户,“f,j”下标代表第j个公网用户,“total”下标表示所有用户; 分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率,Cl,i、fl,i、vl,i、pl,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本;/> 分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率,Cf,j、ff,j、vf,j、pf,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本。
其中,表示第i个专网用户卸载量为/>时的效用值,/>表示j个公网用户卸载量为/>时的效用值N为所述专网用户的数量,M为所述公网用户的数量;αl,i表示第i个专网用户的卸载倾向,αf,j表示第j个公网用户的卸载倾向;βl,i表示第i个专网用户对所述公网用户的态度值权重,βf,j表示第i个专网用户对所述公网用户的态度值权重;/>表示所有所述专网用户的总卸载量,/>表示所有所述公网用户的总卸载量。
进一步地,验证Stackelberg均衡存在的步骤如下:
对所述专网用户的效用函数进行一阶导数求导,得:
再进行二阶导数求导,得:
对所述公网用户的效用函数进行一阶导数求导,得:
再进行二阶导数求导,得:
由所述公网用户的效用函数的二阶导数小于0可知,所述公网用户的效用函数为凸函数,所以存在唯一纳什均衡解,即已知所述专网用户的卸载策略时,能求得所述公网用户唯一的第一最优卸载策略因此,存在所述Stackelberg均衡。
进一步地,完全信息博弈情况下,第一最优卸载策略的求解步骤如下:
求解完全信息博弈情况下的第一最优卸载策略,可以证明混合双网模式的边缘卸载模型在不完全信息博弈情况下也可解,并进一步验证不完全信息博弈下算法的收敛性或正确性。
进一步地,在不完全信息博弈情况下,任一用户在连续时间域中,每个时隙逐步做出决策的过程可以建模成POMDP,记为:M=<S,A,P,U,O,T>;式中,S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数。
其中,表示期望符合,K特指达到时隙K;γ为折扣因子,且γ∈[0,1],γl-k代表折扣因子的(l-k)次幂;rk为时隙k时的回报值,第i个专网用户的回报值/>第j个公网用户的回报值/>ol,i代表专网用户的观测函数,/>表示在时隙k时第i个专网用户的观测函数,/>是为ol,i赋予/>的值;xl,i为专网用户的卸载量,/>是为xl,i赋予/>的值。
进一步地,根据PG算法,有:
采用PPO-Penalty算法,进行重要性采样,有:
其中,θ'是用户的拟合网络参数,πθ(xl,i|ol,i)是真实的动作-观测概率分布,πθ'(xl,i|ol,i)是拟合的动作-观测概率分布;KL(θ,θ')表示Kullback-Leibler散度(Kullback-Leibler divergence),是两个概率分布间差异的非对称性度量,δ是KL散度的系数。
本发明提供了一种基于多智能体博弈的计算卸载方法,将Stackelberg博弈和深度强化学习算法结合起来,能够针对混合双网模式下用户优先级的不同合理分配MEC服务器的计算资源,有效地降低了用户卸载时的通讯时延和终端能耗;在不完全信息博弈情况下,采用TSDRL算法求解用户的最佳卸载策略,显著提高了算法的训练速度和收敛度,有利于在时变系统中更快地决策出最优卸载策略,并保证了用户的隐私和安全。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的一种基于多智能体博弈的计算卸载方法的步骤图;
图2为本发明提供的一种基于多智能体博弈的计算卸载方法的网络模型图;
图3为本发明提供的一种基于多智能体博弈的计算卸载方法的流程图;
图4为本发明提供的完全信息博弈情况下求解第一最优卸载策略的算法示意图;
图5为本发明提供的不完全信息博弈情况下求解第二最优卸载策略所采用的TSDRL算法的示意图;
图6为本发明提供的不完全信息博弈情况下的二阶段优化模型示意图;
图7为本发明提供的用户控制器逻辑图;
图8为本发明提供的不完全信息博弈情况下采用TSDRL算法求解的用户效用值变化图;
图9为本发明提供的不完全信息博弈情况下采用TSDRL算法求解的用户卸载策略变化图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其为本发明提供的一种基于多智能体博弈的计算卸载方法的步骤图。该计算卸载方法包括如下的步骤:
S10、针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,进而计算用户进行任务卸载的时延和能耗;
S20、根据Stackelberg博弈建立边缘卸载模型,设定专网用户和公网用户的效用函数;
S30、在完全信息博弈情况下,验证Stackelberg均衡的存在,如果存在,则求解专网用户和公网用户的第一最优卸载策略;
S40、在不完全信息博弈情况下,采用TSDRL算法求解专网用户和公网用户的第二最优卸载策略,并利用第一最优卸载策略验证第二最优卸载策略的收敛性。
请参阅图2,其为本发明提供的一种基于多智能体博弈的计算卸载方法的网络模型图。请参阅图3,其为本发明提供的一种基于多智能体博弈的计算卸载方法的流程图。在步骤S10中,针对5G混合双网模式,建立网络信道模型,该网络信道模型包括MEC服务器、专网用户和公网用户。任一用户的计算任务,可以在移动设备端完成,也可以卸载到基站端的MEC服务器完成,并且每个任务可以被分解为子任务,即单个任务可以部分卸载到MEC服务器上计算,部分在本地的终端设备上进行计算。专网用户和公网用户可以同时将任务卸载到MEC服务器,共同竞争MEC服务器的总计算资源,故引入卸载决策机制来表示用户的任务是否要卸载到MEC服务器上。在边缘卸载模型中,与用户体验质量相关的参数为任务完成时的时延和能耗,其卸载决策目标有最小时延、最小能耗以及权衡时延和能耗的最大化收益这三种。在本实施例中,以权衡时延和能耗的最大化收益为计算卸载方法的卸载决策目标。
对于任一用户的计算任务,其卸载到MEC服务器计算的过程如下:移动终端通过信道将任务卸载到MEC服务器;计算任务在MEC服务器上执行,且服务器给计算任务分配计算资源;MEC服务器将计算结果返回用户。那么,对于上述网络信道模型,可以根据香农定理计算每个用户的信道传输速率,进而求得每个用户进行任务卸载的时延和能耗(图中未注明该步骤)。
在多智能体系统中,所有用户都可以自己独立作出决策,将自己的任务进行卸载,卸载量为x,每个用户任务量为C,因此有x∈[0,C]。专网用户的决策空间为数据卸载量为xl=(xl,1,...,xl,M)∈Xl;公网用户的决策空间为/>数据卸载量为xf=(xf,1,...,xf,N)∈Xf;其中,N表示专网用户数量,M表示公网用户数量。
在混合双网的拓扑设备中,将专网用户和公网用户看成一个个终端设备,根据Shannon第二定理,可以得到专网用户的信道传输速率为:
同理,公网用户的信道传输速率为:
其中,b表示信道传输速率,w表示信道宽度,ρ表示传输功率,h表示信道增益,σ表示噪声;“l,i”下标代表第i个专网用户(leader),“f,j”下标代表第j个公网用户(follower);bl,i、wl,i、ρl,i、hl,i分别代表第i个专网用户的信道宽度、传输功率、信道增益、噪声;bf,j、wf,j、ρf,j、hf,j分别代表第j个公网用户的信道宽度、传输功率、信道增益、噪声。
由用户的信道传输速率可进一步求得用户进行任务卸载时的时延和能耗。
专网用户进行任务卸载时的时延和能耗分别为:
公网用户进行任务卸载时的时延和能耗分别为:
其中,t表示时延,E表示终端设备运行时的能耗,R表示MEC服务器的总计算资源,f表示终端设备的计算频率,v表示终端设备的功率系数,p表示单位时间数据传输的成本;“k”上标表示第k个时隙,“l,i”下标代表第i个专网用户,“f,j”下标代表第j个公网用户,“total”下标表示所有用户;分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率,Cl,i、fl,i、vl,i、pl,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本;/>分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率,Cf,j、ff,j、vf,j、pf,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本。在本实施例中,对参数做出如下定义:总计算资源R=50Mb/s,专网用户的总任务量Cl,i=10Mb,公网用户的总任务量Cf,j=1Mb,专网用户本地的计算频率fl,i=0.1Mb/s,公网用户本地的计算频率ff,j=0.01Mb/s,单位传输成本p=1J/s。
在步骤S20中,将专网用户视为领导者(leader),将公网用户视为跟随者(follower),以卸载量x为策略,分别设定专网用户和公网用户的效用函数,建立Stackelberg博弈模型。
MEC服务器的计算资源根据用户上传的任务量大小进行分配,假设服务器的总计算资源为R,那么一个用户卸载数据量时所占用的计算资源Rl为:
其中,表示所有专网用户的总卸载量,/>表示所有公网用户的总卸载量。由于p表示单位时间数据传输的成本,那么对于卸载数据x,成本为:/>考虑到终端设备在本地运行时会消耗设备的电源能量,假定功率系数为v,那么本地计算所消耗的能量可表示为:v(C-x)。由于专网用户的数据量极大,而服务器的总资源有限,为了防止公网用户完全竞争不到计算资源,导致其宕机,因此专网用户需要额外考虑其他普通用户的卸载量。据此,可以得到第i个专网用户卸载量为/>时,基于服务器处理速度、上传速度、本地功耗的效用函数/>
其中,αl,i表示第i个专网用户的卸载倾向,βl,i表示第i个专网用户对其他公网用户的态度值权重,由于专网用户优先级高于公网用户,那么有αl,i>βl,i。
公网用户主要竞争专网用户竞争完之后的剩余资源,并且在专网用户每次竞争完之后,服务器会向公网用户广播专网用户使用的资源情况,故其博弈可以看成是公网用户之间的竞争博弈,即为古诺模型。因此对于任一公网用户,当卸载数据量为x时,所占用MEC服务器计算资源Rf为:
其中,βf,j表示第j个公网用户对其他公网用户的态度值权重。
步骤S30,在完全信息博弈情况下,验证Stackelberg均衡的存在,求解第一最优卸载策略。
请参阅图4,其为本发明提供的完全信息(或信息共享)博弈情况下求解第一最优卸载策略的算法示意图,该步骤包括如下两个子步骤:
S31、推导并验证Stackelberg均衡的存在;
S32、分别求解专网用户和公网用户的第一最优卸载策略。
在步骤S31中,效用函数对卸载量进行一阶导数、二阶导数求导,由二阶导数小于0可得效用函数为凸函数,即存在唯一纳什均衡(Nash equilibrium,NE)解。具体推导过程如下:
对于专网用户,由公式(8),对其效用函数进行一阶导数求导,得:
再进行二阶导数求导,得:
由于MEC服务器计算资源R>0,卸载策略两种用户权重系数αl,i>βl,i,可得专网用户效用函数的二阶导数小于零,因此该效用函数是严格的凸函数,即存在唯一纳什均衡点。那么,如果第一最优卸载策略x*存在,它必定是唯一的。令其一阶导数/>可得:
同样地,对于公网用户,对其效用函数进行一阶导数求导,得:
同样再对其进行二阶导数求导,得:
据此,得出结论:无论是专网用户还是公网用户,当已知其他用户的卸载策略时,总能求得各自的第一最优卸载策略,即该博弈模型存在Stackelberg均衡。
在步骤S32中,求解专网用户和公网用户在共享用户信道速率、功率系数等信息情况下的第一最优卸载策略。
根据公式(14)、公式(18),可以得到专网用户和公网用户的第一最优卸载策略的复合表达式。由公式(17)、公式(18)得,在0<Δ<Cf,j情况下有:
累加所有公网用户得:
同理,对于专网用户,由公式(14)可得:
步骤S40则是在不完全信息博弈情况下,采用二阶段深度强化学习(Two-stagedeep reinforcement learning,TSDRL)算法求解第二最优卸载策略。
请参阅图5,其为本发明提供的不完全信息(或信息不共享)博弈情况下求解第二最优卸载策略的TSDRL算法的示意图,该步骤包括如下三个子步骤:
S41、根据部分可观察的马尔科夫决策过程(Partially Observable MarkovDecision Process,POMDP)对用户的卸载决策过程建模;
S42、将卸载调度模块的策略定义为一个条件概率函数,将用户的效用函数看作POMDP的价值函数,并构造目标函数;
S43、采用基于策略梯度(Policy Gradient,PG)算法的近端策略优化(ProximalPolicy Optimization,PPO)算法求解。
请参阅图6,其为本发明提供的不完全信息博弈情况下的二阶段优化模型示意图。
在步骤S41中,对用户的卸载决策建立POMDP模型,其建模过程如下:
当用户的信息是不共享的情况下,用户所获取的信息只有用户自身的系数信息。在连续的时间域中,对独立用户来说,这是一个POMDP。针对任一用户,该用户在连续时间域中,需要对任务卸载量做出决策,每个时隙逐步做出决策的过程可以建模成POMDP,记为M=<S,A,P,U,O,T>,式中,S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数。在POMDP中,状态空间S是部分已知的,决策会根据观测空间O给出。对于任一专网用户来说,专网用户可以观测到时隙D前的公网用户卸载总和以及过去的卸载策略以及用户自身的系数信息。对于任一公网用户来说,公网用户可以观测过去的卸载策略/>以及用户自身的系数信息。
在步骤S42中,将卸载调度模块的策略定义为一个条件概率函数,将用户的效用函数看作POMDP的价值函数,并构造目标函数,具体过程如下:
将卸载调度模块的策略定义为一个条件概率函数,表示为πθ,并且定义πθ:O×A→[0,1],其中,θ为用户的网络参数。
其中,表示期望符合,K特指达到时隙K;γ为折扣因子,且γ∈[0,1],γl-k代表时隙(l-k)时的折扣因子;rk为时隙k时的回报值,第i个专网用户的回报值/>第j个公网用户的回报值/>ol,i代表专网用户的观测函数,/>是为ol,i赋予/>的值;xl,i为专网用户的卸载量,/>是为xl,i赋予/>的值。
进一步地,采用PPO-Penalty算法,进行重要性采样(ImportanceSampling),有:
其中,θ'是用户的拟合网络参数,πθ(xl,i|ol,i)是真实的动作-观测概率分布,πθ'(xl,i|ol,i)是拟合的动作-观测概率分布,KL(θ,θ')表示Kullback-Leibler散度(Kullback-Leibler divergence),是两个概率分布间差异的非对称性度量,δ是KL散度的系数。
因此对于Actor网络参数θ,其迭代公式为:
对于Critic网络参数ω,其迭代公式为:
请参阅图7,其为用户的控制器逻辑示意图。基于上述算法,每个用户都拥有独立的一个控制器逻辑。对于专网用户,用户在每个时隙k获取观测值并根据当前状态通过用户内部的控制器计算其第二最优卸载策略/>同时根据效用函数/>计算其回报值控制器内部根据回报值/>再进一步调整控制器内部的网络参数。对于公网用户,当专网用户策略选择完毕后,公网用户根据自身获得信息以及当前时隙专网用户的卸载策略通过控制器获得自己的第二最优卸载策略/>此为一个时隙k的过程。在每个时隙中,用户将自己的观测数据ok和卸载策略xk存储到记忆池中,记忆池的历史数据包括1~D个时隙的观测数据ok和卸载策略xk;其中,Critic网络根据回报值rk以及所有历史数据调整网络参数ω,Actor网络根据观测值ok以及Critic的观测价值函数/>采用PG算法调整网络参数θ,并输出当前的第二最优卸载策略xk,*。综上所述,用户信息不共享情况下,通过本发明提供的TSDRL算法也能为不同优先级的用户设计一套低时延、低能耗的计算卸载方案(即第二最优卸载策略)。
请参阅图8和图9,图8上述TSDRL算法求解的用户效用值变化图,图9为上述的TSDRL算法求解的用户卸载策略变化图。其中,图8(a)为专网用户效用值随时隙的变化曲线,图8(b)为公网用户效用值随时隙的变化曲线,图中的虚线表示的是完全信息博弈情况下每个用户效用值的纳什均衡(NE)解;图9(a)为专网用户在不同时隙的卸载策略,图9(b)为公网用户在不同时隙的卸载策略,图中的虚线表示的是完全信息博弈情况下每个用户卸载策略的纳什均衡(NE)解。由图可知,在不完全信息博弈情况下,用户的效效用值和卸载策略均能很快收敛至完全信息情况下的纳什均衡状态,证明本发明提出的TSDRL算法具有良好的收敛性和训练速度。
与现有技术相比,本发明提供的一种基于二阶段多智能体博弈的计算卸载方法,能够在信息不共享的情况下,采用收敛性好、训练速度快的TSDRL算法,为具有不同优先级的用户设计出一套实现网络低时延、终端低能耗的计算卸载方案,并且避免了信息共享情况下用户隐私泄露和安全性较差等局限性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (3)
1.一种基于二阶段多智能体博弈的计算卸载方法,其特征在于,包括如下步骤:
针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗,其中,所述网络信道模型包括MEC服务器、专网用户和公网用户;
根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数,其中,所述效用函数用于评估所述时延和所述能耗;
在完全信息博弈情况下,验证Stackelberg均衡的存在,如果存在,则求解所述专网用户和所述公网用户的第一最优卸载策略;
在不完全信息博弈情况下,采用TSDRL算法求解第二最优卸载策略;所述TSDRL算法包括如下步骤:根据POMDP对用户的卸载决策过程建模;将卸载调度模块的策略定义为条件概率函数,将用户的效用函数看作POMDP的价值函数,构造目标函数;采用基于PG算法的PPO算法求解出所述第二最佳卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性;
其中,t表示时延,E表示终端设备运行时的能耗,x表示卸载量,b表示信道传输速率,C表示用户的任务量,f表示终端设备的计算频率,v表示终端设备的功率系数,p表示单位时间数据传输的成本,R表示MEC服务器的总计算资源;“k”上标表示第k个时隙,“l,i”下标代表第i个专网用户,“f,j”下标代表第j个公网用户,“total”下标表示所有用户; 分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率,Cl,i、fl,i、vl,i、pl,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本;/> 分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率,Cf,j、ff,j、vf,j、pf,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本;
其中,表示第i个专网用户卸载量为/>时的效用值,/>表示j个公网用户卸载量为/>时的效用值N为所述专网用户的数量,M为所述公网用户的数量;αl,i表示第i个专网用户的卸载倾向;βl,i表示第i个专网用户对所述公网用户的态度值权重,βf,j表示第i个专网用户对所述公网用户的态度值权重;/>表示所有所述专网用户的总卸载量,表示所有所述公网用户的总卸载量;
在不完全信息博弈情况下,任一用户在连续时间域中,每个时隙逐步做出决策的过程可以建模成POMDP,记为:M=<S,A,P,U,O,T>;式中,S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数;
将所述条件概率函数πθ定义为πθ:O×A→[0,1],其中,θ为用户的网络参数;
其中,表示期望符合,K特指达到时隙K;γ为折扣因子,且γ∈[0,1],γl-k代表折扣因子的(l-k)次幂;rk为时隙k时的回报值,第i个专网用户的回报值/>第j个公网用户的回报值/>ol,i代表专网用户的观测函数,/>表示在时隙k时第i个专网用户的观测函数,/>是为ol,i赋予/>的值;xl,i为专网用户的卸载量,/>是为xl,i赋予/>的值;
根据PG算法,有:
采用PPO-Penalty算法,进行重要性采样,有:
其中,θ'是用户的拟合网络参数,πθ(xl,i|ol,i)是真实的动作-观测概率分布,πθ'(xl,i|ol,i)是拟合的动作-观测概率分布;KL(θ,θ')表示Kullback-Leibler散度,是两个概率分布间差异的非对称性度量,δ是KL散度的系数;
对于Actor网络参数θ,其迭代公式为:
对于Critic网络参数ω,其迭代公式为:
2.根据权利要求1所述的一种基于二阶段多智能体博弈的计算卸载方法,其特征在于,验证Stackelberg均衡存在的步骤如下:
对所述专网用户的效用函数进行一阶导数求导,得:
再进行二阶导数求导,得:
对所述公网用户的效用函数进行一阶导数求导,得:
再进行二阶导数求导,得:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342048.7A CN114124955B (zh) | 2021-11-12 | 2021-11-12 | 一种基于多智能体博弈的计算卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111342048.7A CN114124955B (zh) | 2021-11-12 | 2021-11-12 | 一种基于多智能体博弈的计算卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114124955A CN114124955A (zh) | 2022-03-01 |
CN114124955B true CN114124955B (zh) | 2023-07-07 |
Family
ID=80379030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111342048.7A Active CN114124955B (zh) | 2021-11-12 | 2021-11-12 | 一种基于多智能体博弈的计算卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114124955B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115551105B (zh) * | 2022-09-15 | 2023-08-25 | 公诚管理咨询有限公司 | 基于5g网络边缘计算的任务调度方法、装置和存储介质 |
CN115622608B (zh) * | 2022-09-29 | 2023-06-06 | 广州爱浦路网络技术有限公司 | 基于低轨卫星边缘计算的卸载策略优化方法、系统和介质 |
CN117521716B (zh) * | 2024-01-02 | 2024-03-19 | 山东大学 | 面向海量未知选项与有限内存空间的协作决策方法及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110336861A (zh) * | 2019-06-18 | 2019-10-15 | 西北工业大学 | 基于双层无人机的移动边缘计算系统的卸载任务分配方法 |
CN113269461A (zh) * | 2021-06-09 | 2021-08-17 | 北京理工大学 | 一种基于博弈的边缘计算资源管理方法 |
-
2021
- 2021-11-12 CN CN202111342048.7A patent/CN114124955B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110336861A (zh) * | 2019-06-18 | 2019-10-15 | 西北工业大学 | 基于双层无人机的移动边缘计算系统的卸载任务分配方法 |
CN113269461A (zh) * | 2021-06-09 | 2021-08-17 | 北京理工大学 | 一种基于博弈的边缘计算资源管理方法 |
Non-Patent Citations (1)
Title |
---|
基于Stackelberg博弈论的边缘计算卸载决策方法;危泽华;曾玲玲;;数学的实践与认识(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114124955A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114124955B (zh) | 一种基于多智能体博弈的计算卸载方法 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
Liu et al. | Dynamic task offloading and resource allocation for ultra-reliable low-latency edge computing | |
CN111093203B (zh) | 一种基于环境感知的服务功能链低成本智能部署方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN110928654B (zh) | 一种边缘计算系统中分布式的在线任务卸载调度方法 | |
CN111182570B (zh) | 提高运营商效用的用户关联和边缘计算卸载方法 | |
Zhang et al. | Joint parallel offloading and load balancing for cooperative-MEC systems with delay constraints | |
CN113242568A (zh) | 一种不确定网络环境中的任务卸载和资源分配方法 | |
CN113810233B (zh) | 一种在随机网络中基于算网协同的分布式计算卸载方法 | |
CN113543156B (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
CN113553165B (zh) | 一种基于博弈论的移动边缘计算任务卸载和资源调度方法 | |
CN113568727B (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN111459670A (zh) | 一种在边缘计算不同层次进行协同处理的方法 | |
CN115175217A (zh) | 一种基于多智能体的资源分配和任务卸载优化方法 | |
EP4024212A1 (en) | Method for scheduling interference workloads on edge network resources | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN113766037B (zh) | 面向大规模边缘计算系统的任务卸载控制方法及系统 | |
CN113747450B (zh) | 一种移动网络中业务部署方法、装置及电子设备 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN115413044A (zh) | 一种工业无线网络的计算和通信资源联合分配方法 | |
CN114650568A (zh) | 一种移动Ad Hoc云中基于能量收集的分布式卸载方法 | |
CN114531685A (zh) | 一种基于迁移强化学习的资源分配方法 | |
CN114422605A (zh) | 一种基于联邦学习的通信梯度自适应压缩方法 | |
Khan et al. | A Deep Learning‐Based Algorithm for Energy and Performance Optimization of Computational Offloading in Mobile Edge Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |