CN114124955B

CN114124955B - 一种基于多智能体博弈的计算卸载方法

Info

Publication number: CN114124955B
Application number: CN202111342048.7A
Authority: CN
Inventors: 龚启旭; 周娴玮; 余松森
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-07-07
Anticipated expiration: 2041-11-12
Also published as: CN114124955A

Abstract

本发明涉及一种基于二阶段多智能体博弈的计算卸载方法。本发明所述的基于二阶段多智能体博弈的计算卸载方法包括如下步骤：针对5G混合双网模式，建立网络信道模型，根据香农定理计算用户的信道传输速率，根据所述信道传输速率，计算用户进行任务卸载的时延和能耗；根据Stackelberg博弈建立边缘卸载模型，将所述专网用户视为领导者，将所述公网用户视为跟随者，以卸载量为策略，设定所述专网用户的效用函数和所述公网用户的效用函数；在完全信息博弈情况下，验证Stackelberg均衡的存在，并求解所述专网用户和所述公网用户的第一最优卸载策略；在不完全信息博弈情况下，采用TSDRL算法求得第二最优卸载策略，并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。

Description

一种基于多智能体博弈的计算卸载方法

技术领域

本发明涉及边缘计算技术领域，特别是涉及一种基于多智能体博弈的计算卸载方法。

背景技术

随着移动通信技术的发展和智能终端的普及，数据流量呈指数式增长，终端种类不断增加，服务场景越来越多样化，用户对网络服务质量、请求时延和终端设备的能耗等方面的要求越来越高。在此背景下，移动边缘计算(mobile edge computing,MEC)技术将IT服务环境和云计算技术在网络边缘相结合，提高了边缘网络的计算和存储能力，减少网络操作和服务交付时延，构建更加智能的移动网络，被视为向5G过度的关键技术和架构性概念。

作为MEC中的关键技术之一，计算卸载是指终端设备将部分或全部计算任务交给云计算环境处理的技术，以解决移动设备在资源存储、计算性能和能效等方面的缺陷。5G新应用场景对网络的时延和处理能力提出了更高的需求，将5G和MEC技术相结合，用户终端可以将自己的任务卸载到基站附近的MEC服务器上，从而以较小的时延以及更低的能耗来处理任务。由于现有的5G网络存在基站建设成本高、功耗大的问题，业界提出了5G的混合双网模式。该模式既为普通公众用户提供传统意义上的公用网络服务，同时也为垂直行业或政企等专用网络提供网络、存储和计算等服务，如工业应用、智能电网、车联网、智慧医疗、银行、各种APP应用等。而公网用户和专网用户共用MEC服务器的计算资源，多个终端设备同时卸载任务到MEC服务器，会导致计算资源分配的不合理，从而产生严重的干扰问题，因此如何给不同类型的用户按照需求合理地进行计算卸载成为目前亟待解决的关键问题。

现有的计算卸载技术中，卸载策略大多采用集中式控制，即集中在MEC服务器通过获取全局的信道信息静态分配资源，这在现实环境很难实现，而且会导致隐私泄露、网络安全等问题。而在非集中控制下，用户之间信息不透明，很难达到系统的帕累托最优(ParetoOptimality，即最大化收益)。同时，目前的卸载策略研究的卸载任务之间都为独立且平等的关系，当终端用户或卸载任务存在优先级区分时，不同类型的用户对时延和能耗的敏感性不同，对计算资源有不同的需求，故其最大化收益的卸载策略也有待考虑。综上所述，在非集中控制的情况下，对不同类型的用户设计一套计算卸载方案，并实现网络的低时延、终端的低能耗，是一个难点。

发明内容

基于此，本发明的目的在于，提供一种基于多智能体博弈的计算卸载方法，能够针对混合双网模式下用户优先级的不同，通过Stackelberg博弈模型，合理地分配MEC服务器的计算资源，并采用TSDRL算法求解得在信息不共享情况下用户的最优卸载策略，有效降低了用户卸载任务时的时延和能耗，同时保证了用户的隐私和安全。

本发明通过如下技术方案进行实现：一种基于二阶段多智能体博弈的计算卸载方法，包括如下步骤：针对5G混合双网模式，建立网络信道模型，根据香农定理计算用户的信道传输速率，根据所述信道传输速率，计算用户进行任务卸载的时延和能耗，其中，所述网络信道模型包括MEC服务器、专网用户和公网用户；根据Stackelberg博弈建立边缘卸载模型，将所述专网用户视为领导者，将所述公网用户视为跟随者，以卸载量为策略，设定所述专网用户的效用函数和所述公网用户的效用函数，其中，所述效用函数用于评估所述时延和所述能耗；在完全信息博弈情况下，验证Stackelberg均衡的存在，如果存在，则求解所述专网用户和所述公网用户的第一最优卸载策略；在不完全信息博弈情况下，采用TSDRL算法求解第二最优卸载策略；所述TSDRL算法包括如下步骤：根据POMDP对用户的卸载决策过程建模；将卸载调度模块的策略定义为条件概率函数，将用户的效用函数看作POMDP的价值函数，构造目标函数；采用基于PG算法的PPO算法求解出所述第二最优卸载策略，并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。

与现有技术中只针对单一用户的计算卸载方法相比，本发明所述的基于多智能体博弈的计算卸载方法，本发明将用户分为面向行业的专网用户和面向公众的公网用户，并根据Stackelberg博弈建立边缘卸载模型，能够针对混合双网模式下用户优先级的不同合理分配MEC服务器的计算资源，求得完全信息博弈情况下的第一最优卸载策略，有效地降低了用户卸载时的通讯时延和终端能耗；在不完全信息博弈情况下，采用TSDRL算法求解用户的第二最优卸载策略，显著提高了算法的训练速度和收敛度，有利于在时变系统中更快地决策出最优卸载策略，并保证了用户的隐私和安全。

进一步地，所述专网用户进行任务卸载的时延

为：

所述专网用户进行任务卸载的能耗

为：

所述公网用户进行任务卸载的时延

为：

所述专网用户进行任务卸载的能耗

为：

其中，t表示时延，E表示终端设备运行时的能耗，x表示卸载量，b表示信道传输速率，C表示用户的任务量，f表示终端设备的计算频率，v表示终端设备的功率系数，p表示单位时间数据传输的成本，R表示MEC服务器的总计算资源；“k”上标表示第k个时隙，“l,i”下标代表第i个专网用户，“f,j”下标代表第j个公网用户，“total”下标表示所有用户；

分别代表在时隙k时第i个专网用户的时延、能耗、卸载量、信道传输速率，C_l,i、f_l,i、v_l,i、p_l,i分别代表第i个专网用户的任务量、计算频率、功率系数、数据传输成本；/>

分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率，C_f,j、f_f,j、v_f,j、p_f,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本。

进一步地，所述专网用户的效用函数

为：

所述公网用户的效用函数

为：

其中，

表示第i个专网用户卸载量为/>

时的效用值，/>

表示j个公网用户卸载量为/>

时的效用值N为所述专网用户的数量，M为所述公网用户的数量；α_l,i表示第i个专网用户的卸载倾向，α_f,j表示第j个公网用户的卸载倾向；β_l,i表示第i个专网用户对所述公网用户的态度值权重，β_f,j表示第i个专网用户对所述公网用户的态度值权重；/>

表示所有所述专网用户的总卸载量，/>

表示所有所述公网用户的总卸载量。

进一步地，验证Stackelberg均衡存在的步骤如下：

对所述专网用户的效用函数进行一阶导数求导，得：

再进行二阶导数求导，得：

由所述专网用户的效用函数的二阶导数小于0可知，所述专网用户的效用函数为凸函数，所以存在唯一的纳什均衡解，即已知所述公网用户的卸载策略时，能求得所述专网用户唯一的第一最优卸载策略

对所述公网用户的效用函数进行一阶导数求导，得：

再进行二阶导数求导，得：

由所述公网用户的效用函数的二阶导数小于0可知，所述公网用户的效用函数为凸函数，所以存在唯一纳什均衡解，即已知所述专网用户的卸载策略时，能求得所述公网用户唯一的第一最优卸载策略

因此，存在所述Stackelberg均衡。

进一步地，完全信息博弈情况下，第一最优卸载策略的求解步骤如下：

对于所述专网用户，令

求解得/>

可得第i个专网用户的第一最优卸载策略/>

对于所述公网用户，令

求解得/>

可得第j个公用户的第一最优卸载策略

其中，

表示不卸载；/>

表示全卸载。

求解完全信息博弈情况下的第一最优卸载策略，可以证明混合双网模式的边缘卸载模型在不完全信息博弈情况下也可解，并进一步验证不完全信息博弈下算法的收敛性或正确性。

进一步地，在不完全信息博弈情况下，任一用户在连续时间域中，每个时隙逐步做出决策的过程可以建模成POMDP，记为：M＝<S,A,P,U,O,T>；式中，S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数。

进一步地，将所述条件概率函数π_θ定义为π_θ:O×A→[0,1]，其中，θ为用户的网络参数；在POMDP中，观测价值函数为

观测-动作价值函数为

所述目标函数为

其中，

表示期望符合，K特指达到时隙K；γ为折扣因子，且γ∈[0,1]，γ^l-k代表折扣因子的(l-k)次幂；r^k为时隙k时的回报值，第i个专网用户的回报值/>

第j个公网用户的回报值/>

o_l,i代表专网用户的观测函数，/>

表示在时隙k时第i个专网用户的观测函数，/>

是为o_l,i赋予/>

的值；x_l,i为专网用户的卸载量，/>

是为x_l,i赋予/>

的值。

进一步地，根据PG算法，有：

其中，

表示优势函数，表达式为：/>

采用PPO-Penalty算法，进行重要性采样，有：

其中，

为PPO算法中的似然函数，其表达式为：

其中，θ'是用户的拟合网络参数，π_θ(x_l,i|o_l,i)是真实的动作-观测概率分布，π_θ'(x_l,i|o_l,i)是拟合的动作-观测概率分布；KL(θ,θ')表示Kullback-Leibler散度(Kullback-Leibler divergence)，是两个概率分布间差异的非对称性度量，δ是KL散度的系数。

本发明提供了一种基于多智能体博弈的计算卸载方法，将Stackelberg博弈和深度强化学习算法结合起来，能够针对混合双网模式下用户优先级的不同合理分配MEC服务器的计算资源，有效地降低了用户卸载时的通讯时延和终端能耗；在不完全信息博弈情况下，采用TSDRL算法求解用户的最佳卸载策略，显著提高了算法的训练速度和收敛度，有利于在时变系统中更快地决策出最优卸载策略，并保证了用户的隐私和安全。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种基于多智能体博弈的计算卸载方法的步骤图；

图2为本发明提供的一种基于多智能体博弈的计算卸载方法的网络模型图；

图3为本发明提供的一种基于多智能体博弈的计算卸载方法的流程图；

图4为本发明提供的完全信息博弈情况下求解第一最优卸载策略的算法示意图；

图5为本发明提供的不完全信息博弈情况下求解第二最优卸载策略所采用的TSDRL算法的示意图；

图6为本发明提供的不完全信息博弈情况下的二阶段优化模型示意图；

图7为本发明提供的用户控制器逻辑图；

图8为本发明提供的不完全信息博弈情况下采用TSDRL算法求解的用户效用值变化图；

图9为本发明提供的不完全信息博弈情况下采用TSDRL算法求解的用户卸载策略变化图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其为本发明提供的一种基于多智能体博弈的计算卸载方法的步骤图。该计算卸载方法包括如下的步骤：

S10、针对5G混合双网模式，建立网络信道模型，根据香农定理计算用户的信道传输速率，进而计算用户进行任务卸载的时延和能耗；

S20、根据Stackelberg博弈建立边缘卸载模型，设定专网用户和公网用户的效用函数；

S30、在完全信息博弈情况下，验证Stackelberg均衡的存在，如果存在，则求解专网用户和公网用户的第一最优卸载策略；

S40、在不完全信息博弈情况下，采用TSDRL算法求解专网用户和公网用户的第二最优卸载策略，并利用第一最优卸载策略验证第二最优卸载策略的收敛性。

请参阅图2，其为本发明提供的一种基于多智能体博弈的计算卸载方法的网络模型图。请参阅图3，其为本发明提供的一种基于多智能体博弈的计算卸载方法的流程图。在步骤S10中，针对5G混合双网模式，建立网络信道模型，该网络信道模型包括MEC服务器、专网用户和公网用户。任一用户的计算任务，可以在移动设备端完成，也可以卸载到基站端的MEC服务器完成，并且每个任务可以被分解为子任务，即单个任务可以部分卸载到MEC服务器上计算，部分在本地的终端设备上进行计算。专网用户和公网用户可以同时将任务卸载到MEC服务器，共同竞争MEC服务器的总计算资源，故引入卸载决策机制来表示用户的任务是否要卸载到MEC服务器上。在边缘卸载模型中，与用户体验质量相关的参数为任务完成时的时延和能耗，其卸载决策目标有最小时延、最小能耗以及权衡时延和能耗的最大化收益这三种。在本实施例中，以权衡时延和能耗的最大化收益为计算卸载方法的卸载决策目标。

对于任一用户的计算任务，其卸载到MEC服务器计算的过程如下：移动终端通过信道将任务卸载到MEC服务器；计算任务在MEC服务器上执行，且服务器给计算任务分配计算资源；MEC服务器将计算结果返回用户。那么，对于上述网络信道模型，可以根据香农定理计算每个用户的信道传输速率，进而求得每个用户进行任务卸载的时延和能耗(图中未注明该步骤)。

在多智能体系统中，所有用户都可以自己独立作出决策，将自己的任务进行卸载，卸载量为x，每个用户任务量为C，因此有x∈[0,C]。专网用户的决策空间为

数据卸载量为x_l＝(x_l,1,...,x_l,M)∈X_l；公网用户的决策空间为/>

数据卸载量为x_f＝(x_f,1,...,x_f,N)∈X_f；其中，N表示专网用户数量，M表示公网用户数量。

在混合双网的拓扑设备中，将专网用户和公网用户看成一个个终端设备，根据Shannon第二定理，可以得到专网用户的信道传输速率为：

同理，公网用户的信道传输速率为：

其中，b表示信道传输速率，w表示信道宽度，ρ表示传输功率，h表示信道增益，σ表示噪声；“l,i”下标代表第i个专网用户(leader)，“f,j”下标代表第j个公网用户(follower)；b_l,i、w_l,i、ρ_l,i、h_l,i分别代表第i个专网用户的信道宽度、传输功率、信道增益、噪声；b_f,j、w_f,j、ρ_f,j、h_f,j分别代表第j个公网用户的信道宽度、传输功率、信道增益、噪声。

由用户的信道传输速率可进一步求得用户进行任务卸载时的时延和能耗。

专网用户进行任务卸载时的时延和能耗分别为：

公网用户进行任务卸载时的时延和能耗分别为：

其中，t表示时延，E表示终端设备运行时的能耗，R表示MEC服务器的总计算资源，f表示终端设备的计算频率，v表示终端设备的功率系数，p表示单位时间数据传输的成本；“k”上标表示第k个时隙，“l,i”下标代表第i个专网用户，“f,j”下标代表第j个公网用户，“total”下标表示所有用户；

分别代表在时隙k时第j个公网用户的时延、能耗、卸载量、信道传输速率，C_f,j、f_f,j、v_f,j、p_f,j分别代表第j个公网用户的任务量、计算频率、功率系数、数据传输成本。在本实施例中，对参数做出如下定义：总计算资源R＝50Mb/s，专网用户的总任务量C_l,i＝10Mb，公网用户的总任务量C_f,j＝1Mb，专网用户本地的计算频率f_l,i＝0.1Mb/s，公网用户本地的计算频率f_f,j＝0.01Mb/s，单位传输成本p＝1J/s。

在步骤S20中，将专网用户视为领导者(leader)，将公网用户视为跟随者(follower)，以卸载量x为策略，分别设定专网用户和公网用户的效用函数，建立Stackelberg博弈模型。

MEC服务器的计算资源根据用户上传的任务量大小进行分配，假设服务器的总计算资源为R，那么一个用户卸载数据量时所占用的计算资源R_l为：

其中，

表示所有专网用户的总卸载量，/>

表示所有公网用户的总卸载量。由于p表示单位时间数据传输的成本，那么对于卸载数据x，成本为：/>

考虑到终端设备在本地运行时会消耗设备的电源能量，假定功率系数为v，那么本地计算所消耗的能量可表示为：v(C-x)。由于专网用户的数据量极大，而服务器的总资源有限，为了防止公网用户完全竞争不到计算资源，导致其宕机，因此专网用户需要额外考虑其他普通用户的卸载量。据此，可以得到第i个专网用户卸载量为/>

时，基于服务器处理速度、上传速度、本地功耗的效用函数/>

其中，α_l,i表示第i个专网用户的卸载倾向，β_l,i表示第i个专网用户对其他公网用户的态度值权重，由于专网用户优先级高于公网用户，那么有α_l,i>β_l,i。

公网用户主要竞争专网用户竞争完之后的剩余资源，并且在专网用户每次竞争完之后，服务器会向公网用户广播专网用户使用的资源情况，故其博弈可以看成是公网用户之间的竞争博弈，即为古诺模型。因此对于任一公网用户，当卸载数据量为x时，所占用MEC服务器计算资源R_f为：

那么，在时隙k时，第j个用户效用函数

可以表示为：

其中，β_f,j表示第j个公网用户对其他公网用户的态度值权重。

步骤S30，在完全信息博弈情况下，验证Stackelberg均衡的存在，求解第一最优卸载策略。

请参阅图4，其为本发明提供的完全信息(或信息共享)博弈情况下求解第一最优卸载策略的算法示意图，该步骤包括如下两个子步骤：

S31、推导并验证Stackelberg均衡的存在；

S32、分别求解专网用户和公网用户的第一最优卸载策略。

在步骤S31中，效用函数对卸载量进行一阶导数、二阶导数求导，由二阶导数小于0可得效用函数为凸函数，即存在唯一纳什均衡(Nash equilibrium，NE)解。具体推导过程如下：

对于专网用户，由公式(8)，对其效用函数进行一阶导数求导，得：

再进行二阶导数求导，得：

由于MEC服务器计算资源R>0，卸载策略

两种用户权重系数α_l,i>β_l,i，可得专网用户效用函数的二阶导数小于零，因此该效用函数是严格的凸函数，即存在唯一纳什均衡点。那么，如果第一最优卸载策略x*存在，它必定是唯一的。令其一阶导数/>

可得：

令

若0<Φ<C_l,i，第一最优卸载策略为/>

若Φ<0，则不卸载；若Φ>C_l,i，则全卸载。那么有，给定其他用户的卸载策略，则第i个专网用户所求第一最优卸载策略为：

同样地，对于公网用户，对其效用函数进行一阶导数求导，得：

同样再对其进行二阶导数求导，得：

由公式(16)可知，公网用户的效用函数也存在唯一的纳什均衡解，令其一阶导数

可得：/>

令

若0<Δ<C_f,j，第一最优卸载策略为/>

若Δ<0，则不卸载；若Δ>C_f,j，则全卸载。那么有，给定其他用户的卸载策略，则第j个公网用户所求第一最优卸载策略为：

据此，得出结论：无论是专网用户还是公网用户，当已知其他用户的卸载策略时，总能求得各自的第一最优卸载策略，即该博弈模型存在Stackelberg均衡。

在步骤S32中，求解专网用户和公网用户在共享用户信道速率、功率系数等信息情况下的第一最优卸载策略。

根据公式(14)、公式(18)，可以得到专网用户和公网用户的第一最优卸载策略的复合表达式。由公式(17)、公式(18)得，在0<Δ<C_f,j情况下有：

其中

表示在时隙k时的总卸载量，由公式(19)可得：

累加所有公网用户得：

同理，对于专网用户，由公式(14)可得：

根据

累加所有专网用户得：/>

由

联立公式(21)、(23)得二元二次方程，并解得

代入公式(20)、(22)就可计算出第一最优卸载策略

步骤S40则是在不完全信息博弈情况下，采用二阶段深度强化学习(Two-stagedeep reinforcement learning,TSDRL)算法求解第二最优卸载策略。

请参阅图5，其为本发明提供的不完全信息(或信息不共享)博弈情况下求解第二最优卸载策略的TSDRL算法的示意图，该步骤包括如下三个子步骤：

S41、根据部分可观察的马尔科夫决策过程(Partially Observable MarkovDecision Process，POMDP)对用户的卸载决策过程建模；

S42、将卸载调度模块的策略定义为一个条件概率函数，将用户的效用函数看作POMDP的价值函数，并构造目标函数；

S43、采用基于策略梯度(Policy Gradient,PG)算法的近端策略优化(ProximalPolicy Optimization,PPO)算法求解。

请参阅图6，其为本发明提供的不完全信息博弈情况下的二阶段优化模型示意图。

在步骤S41中，对用户的卸载决策建立POMDP模型，其建模过程如下：

当用户的信息是不共享的情况下，用户所获取的信息只有用户自身的系数信息。在连续的时间域中，对独立用户来说，这是一个POMDP。针对任一用户，该用户在连续时间域中，需要对任务卸载量做出决策，每个时隙逐步做出决策的过程可以建模成POMDP，记为M＝<S,A,P,U,O,T>，式中，S、A、P、U、O、T分别表示问题的状态空间、动作空间、状态转移矩阵、奖励空间、观测空间、状态-观测转换函数。在POMDP中，状态空间S是部分已知的，决策会根据观测空间O给出。对于任一专网用户来说，专网用户可以观测到时隙D前的公网用户卸载总和以及过去的卸载策略

以及用户自身的系数信息。对于任一公网用户来说，公网用户可以观测过去的卸载策略/>

以及用户自身的系数信息。

观测空间：O＝{O_l,i,O_f,j}_i∈N,j∈M；其中，专网用户的观测空间为

表示在时隙k时第i个专网用户的观测函数，其表达式为：

公网用户观测空间为

表示在时隙k时第j个公网用户的观测函数，其表达式为：/>

动作空间：专网用户的动作空间为A_l＝{A_l,i}_i∈N，

公网用户动作空间为A_f＝{A_f,j}_j∈M，/>

奖励函数：每个用户都有独立的奖励函数，专网用户的奖励空间为U_l＝{U_l,i}_i∈N，

公网用户的奖励空间为U_f＝{U_f,j}_j∈N，/>

其中，U_l,i、U_l,i分别为专网用户和公网用户的奖励函数。

在步骤S42中，将卸载调度模块的策略定义为一个条件概率函数，将用户的效用函数看作POMDP的价值函数，并构造目标函数，具体过程如下：

将卸载调度模块的策略定义为一个条件概率函数，表示为π_θ，并且定义π_θ:O×A→[0,1]，其中，θ为用户的网络参数。

在POMDP中，观测价值函数为

观测-动作价值函数为/>

其中，

表示期望符合，K特指达到时隙K；γ为折扣因子，且γ∈[0,1]，γ^l-k代表时隙(l-k)时的折扣因子；r^k为时隙k时的回报值，第i个专网用户的回报值/>

第j个公网用户的回报值/>

o_l,i代表专网用户的观测函数，/>

是为o_l,i赋予/>

的值；x_l,i为专网用户的卸载量，/>

是为x_l,i赋予/>

的值。

构造目标函数：

根据PG算法，有：

其中，

表示优势函数(advantage function)，是在/>

的基础上加了一个基线b，其表达式为：/>

进一步地，采用PPO-Penalty算法，进行重要性采样(ImportanceSampling)，有：

其中，

为PPO算法中的似然函数(livelihood function)，其表达式为：

其中，θ'是用户的拟合网络参数，π_θ(x_l,i|o_l,i)是真实的动作-观测概率分布，π_θ'(x_l,i|o_l,i)是拟合的动作-观测概率分布，KL(θ,θ')表示Kullback-Leibler散度(Kullback-Leibler divergence)，是两个概率分布间差异的非对称性度量，δ是KL散度的系数。

因此对于Actor网络参数θ，其迭代公式为：

对于Critic网络参数ω，其迭代公式为：

其中，τ、λ分别为Actor网络和Critic网络的学习率，

为目标函数L_l,i的均值，

为任务量C_l,i的均值，/>

请参阅图7，其为用户的控制器逻辑示意图。基于上述算法，每个用户都拥有独立的一个控制器逻辑。对于专网用户，用户在每个时隙k获取观测值

并根据当前状态通过用户内部的控制器计算其第二最优卸载策略/>

同时根据效用函数/>

计算其回报值

控制器内部根据回报值/>

再进一步调整控制器内部的网络参数。对于公网用户，当专网用户策略选择完毕后，公网用户根据自身获得信息以及当前时隙专网用户的卸载策略通过控制器获得自己的第二最优卸载策略/>

此为一个时隙k的过程。在每个时隙中，用户将自己的观测数据o^k和卸载策略x^k存储到记忆池中，记忆池的历史数据包括1～D个时隙的观测数据o^k和卸载策略x^k；其中，Critic网络根据回报值r^k以及所有历史数据调整网络参数ω，Actor网络根据观测值o^k以及Critic的观测价值函数/>

采用PG算法调整网络参数θ，并输出当前的第二最优卸载策略x^k,*。综上所述，用户信息不共享情况下，通过本发明提供的TSDRL算法也能为不同优先级的用户设计一套低时延、低能耗的计算卸载方案(即第二最优卸载策略)。

请参阅图8和图9，图8上述TSDRL算法求解的用户效用值变化图，图9为上述的TSDRL算法求解的用户卸载策略变化图。其中，图8(a)为专网用户效用值随时隙的变化曲线，图8(b)为公网用户效用值随时隙的变化曲线，图中的虚线表示的是完全信息博弈情况下每个用户效用值的纳什均衡(NE)解；图9(a)为专网用户在不同时隙的卸载策略，图9(b)为公网用户在不同时隙的卸载策略，图中的虚线表示的是完全信息博弈情况下每个用户卸载策略的纳什均衡(NE)解。由图可知，在不完全信息博弈情况下，用户的效效用值和卸载策略均能很快收敛至完全信息情况下的纳什均衡状态，证明本发明提出的TSDRL算法具有良好的收敛性和训练速度。

与现有技术相比，本发明提供的一种基于二阶段多智能体博弈的计算卸载方法，能够在信息不共享的情况下，采用收敛性好、训练速度快的TSDRL算法，为具有不同优先级的用户设计出一套实现网络低时延、终端低能耗的计算卸载方案，并且避免了信息共享情况下用户隐私泄露和安全性较差等局限性。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于二阶段多智能体博弈的计算卸载方法，其特征在于，包括如下步骤：

针对5G混合双网模式，建立网络信道模型，根据香农定理计算用户的信道传输速率，根据所述信道传输速率，计算用户进行任务卸载的时延和能耗，其中，所述网络信道模型包括MEC服务器、专网用户和公网用户；

根据Stackelberg博弈建立边缘卸载模型，将所述专网用户视为领导者，将所述公网用户视为跟随者，以卸载量为策略，设定所述专网用户的效用函数和所述公网用户的效用函数，其中，所述效用函数用于评估所述时延和所述能耗；

在完全信息博弈情况下，验证Stackelberg均衡的存在，如果存在，则求解所述专网用户和所述公网用户的第一最优卸载策略；

在不完全信息博弈情况下，采用TSDRL算法求解第二最优卸载策略；所述TSDRL算法包括如下步骤：根据POMDP对用户的卸载决策过程建模；将卸载调度模块的策略定义为条件概率函数，将用户的效用函数看作POMDP的价值函数，构造目标函数；采用基于PG算法的PPO算法求解出所述第二最佳卸载策略，并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性；

所述专网用户进行任务卸载的时延