CN113377533A

CN113377533A - 无人机协助移动边缘计算中的动态计算卸载和服务器部署方法

Info

Publication number: CN113377533A
Application number: CN202110633417.1A
Authority: CN
Inventors: 宁兆龙; 杨雨轩; 王小洁; 郭磊; 高新波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-10
Anticipated expiration: 2041-06-07
Also published as: CN113377533B

Abstract

本发明公开了一种无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，首先构建多用户在无人机协助移动边缘计算网络中的通信和计算模型，提出系统范围计算成本的最小化问题；接着利用博弈论，将系统范围计算成本最小化问题解构为两个随机博弈，同时提出两个基于策略选择概率的学习算法，在动态环境下分别收敛于两个随机博弈的纯策略纳什均衡；最后，将上述两个学习算法嵌套入一个对局式的异步更新框架，交替执行两种学习算法，以解决所提出的系统范围计算成本最小化问题。本发明实用、高效地同时解决了动态环境下多用户计算卸载问题和边缘服务器部署问题，最小化系统范围的计算成本，为无人机协助移动边缘计算的发展和实际应用提供了一个良好的范例。

Description

无人机协助移动边缘计算中的动态计算卸载和服务器部署方法

技术领域

本发明涉及无人机协助移动边缘计算网络中的动态多用户计算卸载和边缘服务器部署问题。通过博弈论和学习自动机理论的结合，本发明在动态环境下同时实现用户高效计算卸载和无人机边缘服务器最优部署，从而最小化系统范围计算成本。

背景技术

随着智能手机、智能手环等智能移动设备的大量涌现，数据呈爆炸式增长，大量计算密集型和延迟敏感型移动智能应用程序也受到愈发广泛地关注，例如交互游戏、面部识别和增强现实等。移动边缘计算(Mobile Edge Computing，下文简称MEC)被认为是一种有前途的技术，因为它具有以令人满意的性能支持那些资源渴求应用程序的能力。用户能够将其计算任务转移到资源丰富的基础架构中，例如与MEC服务器并置的宏基站或无人机(Unmanned Aerial Vehicles，下文简称UAV)。通常，如果缺乏谨慎的多用户计算卸载策略设计，则有限的通信和计算资源将阻碍用户接收实时移动服务。同时，边缘服务器部署会影响边缘服务器与移动设备之间的信道状况，进而影响用户计算卸载策略。因此，用户的计算卸载策略与边缘服务器的部署需要同时被考虑，才能为用户提供实时移动智能应用。

现有研究着重于解决用户计算卸载和边缘服务器部署问题的其中之一。针对计算卸载问题，文献[1]提出了一种部分计算卸载和自适应任务调度框架，通过博弈论和凸优化的结合来最大化5G车联网的系统范围效用。在文献[2]中，作者将无线体域网外的患者计算卸载策略选择建模为非合作博弈，以最大程度地降低系统范围计算成本。针对边缘服务器部署问题，文献[3]的作者利用混合整数编程来平衡边缘服务器之间的工作量，并通过最优化边缘服务器部署来最大程度地减少移动用户的访问延迟。在文献[4]中，作者提出了一个名为Tentacle的框架，通过发掘适当的不可见的边缘位置来优化整个系统计算成本。文献[5]应用遗传算法和局部搜索算法，在最少的探索范围内找到边缘服务器部署问题的最佳解决方案。

无人机协助的MEC架构(UAV-enabled MEC)由于其高视线吞吐量(line-of-sightthroughput)和便捷的部署而被认为是同时解决用户计算卸载和边缘服务器部署问题的一种有效方法，尤其是在没有基础架构覆盖的情况下。在文献[6]中，作者提出一种基于惩罚的对偶分解算法，通过联合优化无人机轨迹、任务计算卸载率和用户调度，将所有用户的最大延迟总和最小化。文献[7]研究了多个无人机协助的MEC网络，其中将具有时延和覆盖范围约束的总功率最小化问题分解为三个子问题，迭代地达到了最佳功率控制、用户计算卸载策略和边缘服务器部署。

然而现有的研究均采用准静态(quasi-static)假设，即在用户计算卸载或边缘服务器部署期间，用户或边缘服务器的集合保持不变。这一假设无法满足更为现实的动态环境。所谓动态环境，指的是用户随机产生计算任务以及无线衰落信道随时间变化。对于这种情景，需要研究人员提出一种能够充分适应动态环境的方法，同时解决多用户计算卸载问题和边缘服务器部署问题，从而最小化系统范围的计算成本。

发明内容

本发明的目的主要是针对现有研究的不足之处，在动态环境下，实现无人机协助移动边缘计算网络中系统范围计算成本的最小化。本发明首先构建多用户在无人机协助移动边缘计算网络中的通信和计算模型，提出系统范围计算成本的最小化问题；接着利用博弈论，将系统范围计算成本最小化问题解构为两个博弈，并且通过对效用的合适定义，保证博弈纯策略纳什均衡的存在性，将搜寻系统范围计算成本最小化问题的解，转变为对博弈纳什均衡的搜索；为了得到两个博弈的纳什均衡，本发明提出两个基于策略选择概率的学习算法，在动态环境下收敛于博弈的纯策略纳什均衡；最后，本发明将上述两个学习算法嵌套入一个对局式(Chess-l ike)的异步更新框架，交替执行上述两种学习算法，即一个学习算法的输出作为另一个学习算法的输入，从而以分布式方式解决所提出的系统范围计算成本最小化问题。本发明首次使用新颖的对局式的异步更新方法，实用、高效地同时解决了动态环境下多用户计算卸载问题和边缘服务器部署问题，从而最小化系统范围的计算成本，为无人机协助移动边缘计算的发展和实际应用提供了一个良好的范例。

为了实现上述目的，本发明采用的技术方案是：无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，包括以下步骤：

(1)构建多用户在无人机协助移动边缘计算网络中的通信模型和计算模型。

(2)根据步骤(1)中构建的计算模型，构建系统范围计算成本最小化问题。

(3)构建两个博弈以解构步骤(2)中的最小化问题，包括多用户计算卸载随机博弈和多无人机部署随机博弈，将搜寻系统范围计算成本最小化问题的解，转变为对博弈纳什均衡的搜索。

(4)采用两个基于策略选择概率的学习算法，在动态环境下，分布式地分别得到多用户计算卸载随机博弈和多无人机部署随机博弈的纯策略纳什均衡。

(5)将步骤(4)中的两种学习算法嵌套入一个对局式的异步更新框架，交替执行以上两种学习算法以得到系统范围计算成本最小化问题的解。

具体地，步骤(3)中，本发明巧妙地将最小化系统范围成本这一NP难问题，解构为用户间与无人机间的两个子博弈，通过对用户策略配置与无人机策略配置的解耦合，本发明将对系统范围计算成本最小化问题解的搜寻，转变为对两个子博弈纳什均衡的求解。这一修改不仅能大幅降低计算复杂度，同时还可以将场景扩展到动态情况，即用户随机产生计算任务。针对这一动态情况，步骤(4)中，本发明采用基于策略选择概率的学习算法，分布式地得到多用户计算卸载随机博弈和多无人机部署随机博弈的纳什均衡。基于策略选择概率的学习算法相比于传统算法，可以更好的把握网络的长期特性，使得用户和无人机的策略选择不会受到因动态情况产生的干扰，从而实现动态情况下的最优策略选择。步骤(4)保证了动态情况下用户和无人机各自的最优策略选择，因此步骤(5)将上述的两个基于策略选择概率的学习算法，纳入一个对局式的异步更新框架，通过对无人机和用户策略的交替优化，最终实现系统范围计算成本的最小化。

综上所示，本发明的效果和益处是：本发明提供的无人机协助移动边缘计算中的动态计算卸载和服务器部署方法能够同时在动态环境下完成用户计算卸载策略的选择与无人机边缘服务器的部署，最小化系统范围计算成本，为无人机协助移动边缘计算的应用提供了一个新的思路和角度。

附图说明

图1为无人机协助移动边缘计算网络示意图。

图2为本发明的执行流程说明。

图3为学习算法UESSPL算法的收敛情况。

图4、图5为不同尺度因子s下，学习算法和异步更新算法的性能比较，其中，图4是UAVSSPL算法中无人机总效用比较，图5是CO算法中系统范围计算成本比较。

图6、图7为学习算法与瞬时最优算法性能对比情况，其中，图6是UESSPL算法与其对应的瞬时最优算法在用户总效益上的对比，图7是UAVSSPL算法与其对应的瞬时最优算法在无人机总效益上的对比。

图8为本方法算法与多种算法在系统范围计算成本上的比较，包括无人机随机策略选择、用户随机策略选择、无人机和用户同时随机策略选择以及服务器位置固定的情况。

图9、图10为本方法算法和服务器位置固定的情况在不同用户数量下的性能对比，其中图9为系统范围计算成本的对比，图10为边缘计算收益用户个数的对比。

具体实施方式

为了更加清楚详实地展现本发明的优点，下面将结合图片进一步描述本发明的实施方式。

本发明提供了一种车联网资源融合的车载任务协作迁移策略，旨在边缘计算资源有限的情况下，促进电动车以协作的方式执行集群内无法本地执行的任务，来尽可能延长资源即将耗尽的车辆的生存时间。

图1为无人机协助移动边缘计算网络示意图，无人机在场景中悬停充当边缘服务器，用户根据自身需求，以最小化自身计算成本为目标，选择计算卸载策略。图2解释了整个方法的执行过程。基于图1和图2，本发明提出了一种无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，具体步骤如下：

步骤1)：构建无人机协助移动边缘计算网络系统模型：

该网络场景中，N个用户设备存在于目标区域内，系统以时隙方式运行，一个处理阶段通常包含多个时隙。在每一个处理阶段，用户i会以概率θ_i∈(0,1]产生计算任务

M个无人机悬停在目标区域中用作边缘服务器。其中，集合

表示用户设备(下文简称用户)的集合；集合

表示无人机边缘服务器(下文简称无人机)的集合。用户的主要任务是选择计算任务的卸载方式，包括卸载到本地设备，或者卸载到某个无人机。以用户

为例，用户i的计算卸载策略表示为

S_i为用户i的策略集。具体地，s_i＝0表示用户i选择将计算任务卸载到本地设备进行处理，s_i＝j>0表示用户i将计算任务卸载至无人机j，其中

无人机的主要任务是找到合适的悬停位置，为用户提供服务。理论上一个区域内的位置有无数个，为了简化，本方法将目标区域划分为多个离散的位置，每个位置对应无人机的一个策略。将目标区域划分为L个离散位置，集合

表示离散位置的集合。以一个正方形街区场景为例，该街区覆盖一个300米×300米的区域，本方法通过定义尺度因子s(单位为：米)来对该目标区域进行位置划分。例如，尺度因子s＝50米时，该目标区域可划分为

个离散位置。因此，无人机

的位置悬停策略为

其中A_j表示无人机j的策略集。

根据上述场景中的主要元素，本方法构建通信和计算模型：

1.1)通信模型

若用户i选择将计算任务卸载给无人机j进行处理，即s_i＝j>0，那么用户i的上行链路数据传输速率R_i(s,a)可以由如下公式计算：

其中，s＝(s₁,...,s_N)和a＝(a₁,...,a_M)分别表示所有用户和所有无人机的策略配置；B表示无线信道的带宽；p_i表示用户i的传输功率；g_i,j表示从用户i到无人机j的瞬时信道增益，可由公式

计算得到，其中d_i,j表示用户i和无人机j之间的距离，α表示路径损耗因子，一般设为4。可以看出，用户策略配置s和无人机策略配置a共同影响用户和无人机之间的距离，从而进一步影响瞬时信道增益，本方法为了简化，用符号g_i,j来表示；σ₀表示背景噪声功率。二进制变量l{·}用作条件判断，具体来说，如果用户i选择将计算任务卸载到无人机j，那么l{s_i＝j}＝1，否则l{s_i＝j}＝0；如果用户i和用户i′选择同一个无人机进行计算卸载，那么l{s_i′＝s_i}＝1，否则l{s_i′＝s_i}＝0。用户之间的无线通信采用CDMA之类的技术，即多个用户可以将他们的计算任务通过相同的频谱资源传输给同一个无人机。而无人机之间采用正交频率资源分配，避免覆盖区域重叠带来的干扰。

1.2)计算模型

每一个处理阶段(一般持续多个时隙)，用户i以概率θ_i产生计算任务

其中D_i表示计算任务的数据大小；

和

分别表示计算任务

在边缘计算和本地计算中所需要的CPU周期数。

a.用户计算成本

如果用户i选择边缘计算，即s_i>0，其计算成本主要由通信的能耗与时延以及边缘计算的时延构成；如果用户i选择本地计算，即s_i＝0，其计算成本仅由本地计算能耗与时延构成。那么用户i的边缘计算总时延

和本地计算总时延

计算公式如下：

其中，

表示用户i所选的无人机分配给用户i的计算能力，即CPU周期每秒，这是由用户与边缘服务器提供商签订的合同所确定的；

表示用户i本地设备的计算能力，也即CPU周期每秒。通常，边缘服务器比本地设备具有更多的计算资源、更强的计算能力，因此可以认为用户的计算要求都可以通过边缘计算得到满足。这样，用户i边缘计算能耗

和本地计算能耗

计算公式如下：

其中κ_i为一个表示用户i本地设备每个CPU周期能耗的正系数。根据用户的时延和能耗计算公式，用户i的边缘计算成本

和本地计算成本

可由如下公式得到：

其中

分别表示用户i对时延和能耗的权重，单位分别为

和

用户i对时延和能耗的权衡，可以通过对权重的不同设置实现。具体地，如果用户i看重计算任务处理的实时性，那么可以将权重设置为

如果用户i处于电量有限的状态，那么可以将权重设置为

如果用户i对时延和能耗具有相同的关注程度，那么可以将权重设置为

b.无人机计算成本

对于无人机，其核心任务是为用户处理计算任务，因此无人机

的总时延定义为选择卸载到该无人机的用户们的时延均值，计算如下：

其中

表示选择无人机j进行计算卸载的用户总数，K_j＝0，即没有用户选择无人机j进行计算卸载的情况将在步骤4.2中讨论。在能耗方面，不同于选择边缘计算时只关注传输能耗的用户，无人机需要考虑边缘计算能耗和其服务的用户能耗。因此，无人机j的总能耗E_j(s,a)计算公式如下：

其中

为一个表示无人机j每个CPU周期能耗的正系数。基于无人机的总时延和能耗计算公式，无人机j的计算成本计算公式如下：

其中

和

分别表示无人机j对时延和能耗的权重。无人机j有着充足的计算资源和电力资源，并且作为服务提供方，应满足用户对时延和能耗的权衡，因此无人机j的权重设置为

和

步骤2)：构建系统范围计算成本最小化问题：

根据步骤1中构建的用户和无人机的计算成本，本方法提出系统范围的计算成本最小化问题。首先，将用户i的计算成本改写为如下公式：

这一改动仅为计算系统计算成本方便，并没有将边缘计算能耗算入用户的计算成本中。这样系统范围计算成本最小化问题可以表述为：

其中，第一条限制条件保证用户至多选择一个无人机进行数据卸载。同时，该系统范围计算成本最小化问题为NP难问题。

步骤3)：为了解决步骤2中提出的系统范围计算成本最小化问题，本方法构建两个博弈以解构该最小化问题。从步骤1中的系统模型可以看出，用户和无人机的策略选择相对相互独立。如果固定了无人机的悬停位置，则每个用户的计算成本仅受其他用户策略的影响，无人机也有相同的性质。此外，基于用户和无人机的通信和计算模型，可以观察到用户和无人机的计算成本集中在系统开销的不同部分。因此，本方法将系统范围内的计算成本最小化问题分解为两个博弈，分别是多用户计算卸载随机博弈和多无人机部署随机博弈。

3.1)多用户计算卸载随机博弈

用户i的静态效用计算公式如下：

则多用户计算卸载静态博弈

构建如下：

其中s_-i表示除用户i以外其余用户的策略配置，同时无人机的策略配置a在该博弈中保持不变。为了更好地将静态情况扩展到动态，本方法根据博弈论构建

的，等效静态博弈

使

和

有相同的纳什均衡集，即对于s′_i≠s_i∈S_i,

满足：

因此，等效静态博弈

构建如下：

其中u_i(s,a)为用户i的等效效用，计算公式如下：

表示用户i选择无人机j进行计算卸载，即s_i＝j时，受到的干扰，其中p_i表示用户i的传输功率，g_i,j表示从用户i到无人机j的瞬时信道增益。Q_i为一阈值，当干扰超过该阈值时，对于用户i，本地计算成本低于边缘计算成本；相反地，当干扰低于该阈值，用户i的边缘计算成本也低于本地计算成本。Q_i的计算公式如下：

这样构建的依据是博弈

和

有着相同的策略选择倾向，即博弈

和

有着相同的纳什均衡集，目的是更好地将静态情况扩展到动态情况。因此，基于等效静态博弈

多用户计算卸载随机博弈

构建如下：

其中

为用户i的期望效用，计算公式如下：

其中

表示在随机变量Θ下求期望。随机变量Θ(Λ)＝[z(Λ)]:Ω→2^N，Λ为样本空间Ω的一个事件，

其中z_i∈{0,1}为用户i以概率θ_i产生计算任务的二进制变量，若用户i在该处理阶段产生计算任务，则z_i＝1，否则z_i＝0。如果用户策略配置

满足：

那么用户策略配置s^*为多用户计算卸载随机博弈的纯策略纳什均衡。

表示用户i在纳什均衡s^*下的策略，

表示用户i以外其余用户在纳什均衡s^*下的策略配置。基于隐博弈理论，本方法通过构建随机博弈

的隐函数Φ²(s,a)，即：

证明该多用户计算卸载随机博弈为一个加权隐博弈，即：

且至少存在一个纯策略纳什均衡。

3.2)多无人机部署随机博弈

无人机j的静态效用计算公式如下：

则多无人机部署静态博弈

构建如下：

其中a_-i表示除无人机j以外其余无人机的策略配置，同时用户的策略配置s在该博弈中保持不变。同样，为了更好地进行动态扩展，本方法根据博弈论构建其等效静态博弈

对a′_j≠a_j∈A_j,

满足：

因此，等效静态博弈

构建如下：

其中

为无人机j的等效效用，计算公式如下：

I_i(s,a)表示用户i选择无人机j进行计算卸载，即s_i＝j时，受到的干扰。基于等效静态博弈

多无人机部署随机博弈

构建如下：

其中

为无人机j的期望效用，计算公式如下：

如果无人机策略配置

满足：

那么无人机策略配置a^*为多无人机部署随机博弈的纯策略纳什均衡。

表示无人机j在纳什均衡a^*下的策略，

表示无人机j以外其余无人机在纳什均衡a^*下的策略配置。基于隐博弈理论，本方法通过构建随机博弈

的隐函数Φ²(s,a)，即：

证明该多无人机部署随机博弈为一个完全隐博弈，即：

且至少存在一个纯策略纳什均衡。

步骤4)：为了得到步骤3)中提出的两个随机博弈

和

的纳什均衡，本方法设计两个基于策略选择概率的学习算法，分布式地分别得到多用户计算卸载随机博弈和多无人机部署随机博弈的纯策略纳什均衡。这种基于概率的学习算法有助于把握动态环境下的系统特性，从而为用户和无人机做出更加理性的策略选择。

4.1)用户策略选择概率学习算法(UsErs Strategy Selection ProbabilityLearning Algorithm，下文简称UESSPL算法)

UESSPL算法以迭代方式运行，迭代次数记为τ。对于用户i，其维护一个策略选择概率向量

初始时，即τ＝0，用户的所有策略具有相同的选择概率。由于用户i的策略空间为

初始策略选择概率向量则表示为

接着，用户i将根据策略选择概率向量

选择当前迭代周期的策略s_i，同时计算当前迭代周期的回报

以更新策略选择概率向量

直到收敛至一个纯策略，即某一个策略的选择概率趋近于1。具体来说，对τ＝0,1,...和所有用户

重复以下步骤：

Step1：用户i根据其当前的策略选择概率向量

选择计算卸载策略；如果用户i当前没有产生计算任务，则将保持其策略选择概率向量至下一时隙，即

否则继续如下步骤；

Step2：用户i根据当前的用户策略配置s^τ和固定的无人机策略配置a计算效用

Step3：用户i根据效用

计算回报

计算公式如下：

其中

为一比例因子，用以确保用户i的回报为正。这么设置是因为效用代表着计算成本，因此效用越高，计算成本就越高，相应地，回报就越低。

Step4：用户i根据回报

更新其策略选择概率向量，更新公式如下：

其中b₁∈(0,1)为学习率，决定了更新的尺度，设定为b₁＝0.1。

为一(M+1)维的单位向量，其第

个元素为1，其余元素都为0。这一更新机制保证了产生更高回报的策略，会积累更多被选择的概率。

重复以上步骤，直到没有用户改变其策略，即所有用户均收敛于一个纯策略选择。这样，UESSPL算法收敛于多用户计算卸载随机博弈的纯策略纳什均衡。

4.2)无人机策略选择概率学习算法(UAVs Strategy Selection ProbabilityLearning Algorithm，下文简称UAVSSPL算法)

UAVSSPL算法以迭代方式运行，迭代次数记为τ。对于无人机j，其维护一个策略选择概率向量

初始时，即τ＝0，无人机的所有策略具有相同的选择概率。由于无人机j的策略空间为

初始策略选择概率向量则表示为

接着，无人机j将根据策略选择概率向量

选择当前迭代周期的策略a_j，同时计算当前迭代周期的回报

以更新策略选择概率向量

直到收敛至一个纯策略，即某一个策略的选择概率趋近1。具体来说，对τ＝0,1,...和所有无人机

重复以下步骤：

Step1：无人机j根据其当前的策略选择概率向量

选择位置悬停策略；如果无人机j当前没有被用户选择进行计算任务卸载，则将保持其策略选择概率向量至下一时隙，即

否则继续如下步骤；

Step2：无人机j根据当前的无人机策略配置a^τ和固定的用户策略配置s计算效用

Step3：无人机j根据效用

计算回报

计算公式如下：

其中

为一比例因子，用以确保无人机j的回报为正。

Step4：无人机j根据回报

更新其策略选择概率向量，更新公式如下：

其中b₂∈(0,1)为学习率，决定了更新的尺度，设定为b₂＝0.1。

为一L维的单位向量，其第

重复以上步骤，直到没有无人机改变其策略。这样，UAVSSPL算法收敛于多无人机部署随机博弈的纯策略纳什均衡。

步骤5)：为了解决步骤2中提出的系统范围计算成本最小化问题，本方法将步骤4中的UESSPL算法和UAVSSPL算法纳入一异步更新算法，即对局式优化算法(CO算法)，交替执行以上两种学习算法以得到系统范围计算成本最小化问题的解。CO算法以迭代方式运行，迭代次数记为t。初始时，所有无人机在目标区域内随机悬停。接着CO算法将根据t的奇偶性，交替执行UESSPL算法和UAVSSPL算法，每一次迭代都可以得到一个随机博弈的纳什均衡。这样，经过多次迭代，CO算法将不断地减少系统范围计算成本，最终解决系统范围计算成本最小化问题。具体地说，接着对t＝0,1,...重复以下步骤：

如果t为偶数，即t＝2k,

求解随机博弈

的纳什均衡：

Step1：执行UESSPL算法以获得策略配置

Step2：对所有用户

如果有

用户的策略配置更新为

否则用户的策略配置保持不变。

如果t为奇数，即t＝2k+1,

Step1：执行UAVSSPL算法以获得策略配置

Step2：对所有无人机

如果有

无人机的策略配置更新为

否则无人机的策略配置保持不变。

重复以上步骤，直到没有用户和无人机改变其策略。这样，CO算法收敛于系统范围计算成本最小化问题的解。

图3为学习算法UESSPL算法的收敛情况。从中可以看出，300次迭代左右，UESSPL算法便可以让用户做出纯策略选择，即收敛于随机博弈的纯策略纳什均衡。

图4、图5为不同尺度因子s下，学习算法和异步更新算法的性能比较，其中，图4是UAVSSPL算法中无人机总效用比较，图5是CO算法中系统范围计算成本比较。尺度因子s的变化会带来无人机策略空间的变化，但从图4和图5中看可以看出，不同尺度因子对本发明算法的影响不大，这说明本方法即使在较少的位置划分下，也可以得到很好的表现，具有很强的鲁棒性。

图6、图7为学习算法与瞬时最优算法性能对比情况，其中，图6是UESSPL算法与其对应的瞬时最优算法在用户总效益上的对比，图7是UAVSSPL算法与其对应的瞬时最优算法在无人机总效益上的对比。瞬时最优算法是根据当前瞬时效用做出最优策略选择的算法，但很显然，在动态环境下，用户以概率θ产生计算任务，因此瞬时最优算法无法把握长期的网络特征，从而无法收敛；相反，本发明提出的学习算法基于策略选择概率的学习，可以迅速减少总效用，不到300次迭代就收敛。

图8为本方法算法与多种算法在系统范围计算成本上的比较，包括无人机随机策略选择、用户随机策略选择、无人机和用户同时随机策略选择以及服务器位置固定的情况。图8中的前四种算法都是基于无人机协助的，即无人机充当边缘服务器在目标区域内悬停，而服务器位置固定的情况，是指调用本发明的UESSPL算法，而服务器位置保持不变。从图8中可以看出，本方法算法相比于任意一种具有随机策略选择的算法，收敛速度更快；服务器位置固定的情况虽然收敛速度也很快(由于调用本发明的UESSPL算法)，但在收敛结果上，本方法算法相比于服务器位置固定情况，系统范围计算成本减少了一半。

图9、图10为本方法算法和服务器位置固定的情况在不同用户数量下的性能对比，其中图9为系统范围计算成本的对比，图10为边缘计算收益用户个数的对比。随着用户数量的增加，服务器位置固定的情况在系统范围计算成本和边缘计算收益用户个数上分别呈现出指数级增长和对数级增长，而本方法算法均保持线性增长，这说明本方法具有很强的鲁棒性。

综上所述，本发明解决了无人机协助移动边缘计算网络中的动态多用户计算卸载和边缘服务器部署问题。通过博弈论和学习自动机理论的结合，本发明在动态环境下同时实现用户高效计算卸载和无人机边缘服务器最优部署，从而最小化系统范围计算成本。

以上示例性说明的方案内容仅表述本发明的技术方案，并非毫无遗漏的完美解决方案。随着新技术的出现与理论突破，方案产生更多合理而高效的变化是有可能的。选择示例性实施方式并进行描述是为了解释本发明的原理和其实际应用，从而使研究人员与技术人员得以更方便地理解与参考本发明的具体细节，同时实现各种基于本发明示例性实施方式的选择形式和修改形式。本发明的保护范围意在由说明书与附图所涵盖的内容及其等效形式所限定。

参考文献

[1]Z.Ning,P.Dong,X.Wang,X.Hu,J.Liu,L.Guo,B.Hu,R.Kwok,and V.C.Leung,“Partial computation offloading and adaptive task scheduling for 5G-enabledvehicular networks,”IEEE Transactions on Mobile Computing,2020.

[2]Z.Ning,P.Dong,X.Wang,X.Hu,L.Guo,B.Hu,Y.Guo,T.Qiu,and R.Kwok,“Mobile edge computing enabled 5G health monitoring for Internet of medicalthings:A decentralized game theoretic approach,”IEEE Journal on SelectedAreas in Communications,pp.1–16,2020.

[3]S.Wang,Y.Zhao,J.Xu,J.Yuan,and C.-H.Hsu,“Edge server placement inmobile edge computing,”Journal of Parallel and Distributed Computing,vol.127,pp.160–168,2019.

[4]H.Yin,X.Zhang,H.H.Liu,Y.Luo,C.Tian,S.Zhao,and F.Li,“Edgeprovisioning with flexible server placement,”IEEE Transactions on Paralleland Distributed Systems,vol.28,no.4,pp.1031–1045,2017.

[5]S.K.Kasi,M.K.Kasi,K.Ali,M.Raza,H.Afzal,A.Lasebae,B.Naeem,S.u.Islam,and J.J.P.C.Rodrigues,“Heuristic edge server placement inindustrial internet of things and cellular networks,”IEEE Internet of ThingsJournal,pp.1–1,2020.

[6]Q.Hu,Y.Cai,G.Yu,Z.Qin,M.Zhao,and G.Y.Li,“Joint offloading andtrajectory design for uav-enabled mobile edge computing systems,”IEEEInternet of Things Journal,vol.6,no.2,pp.1879–1892,2019.

[7]Z.Yang,C.Pan,K.Wang,and M.Shikh-Bahaei,“Energy efficient resourceallocation in uav-enabled mobile edge computing networks,”IEEE Transactionson Wireless Communications,vol.18,no.9,pp.4576–4589,2019.

Claims

1.无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于，包括以下步骤：

(1)构建多用户在无人机协助移动边缘计算网络中的通信模型和计算模型；

(2)根据步骤(1)中构建的计算模型，构建系统范围计算成本最小化问题；

(3)构建两个博弈以解构步骤(2)中的最小化问题，包括多用户计算卸载随机博弈和多无人机部署随机博弈，将搜寻系统范围计算成本最小化问题的解，转变为对博弈纳什均衡的搜索；

(4)采用两个基于策略选择概率的学习算法，在动态环境下，分布式地分别得到多用户计算卸载随机博弈和多无人机部署随机博弈的纯策略纳什均衡；

2.根据权利要求1所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：步骤(1)所述通信模型中，若用户i选择将计算任务卸载给无人机进行处理，即s_i>0，s_i表示用户i的计算卸载策略，那么用户i的数据传输速率R_i(s,a)由如下公式计算：

其中，s和a分别表示所有用户和所有无人机的策略配置；B表示无线信道的带宽；p_i表示用户i的传输功率；g_i,j表示从用户i到无人机j的瞬时信道增益；σ₀表示背景噪声功率；二进制变量l{·}用来判断事件的真假，具体来说，如果用户i选择将计算任务卸载到无人机j，那么l{s_i＝j}＝1，否则l{s_i＝j}＝0；如果用户i和用户i′选择同一个无人机进行计算卸载，那么l{s_i′＝s_i}＝1，否则l{s_i′＝s_i}＝0。

3.根据权利要求2所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：步骤(1)所述计算模型包括用户计算成本和无人机计算成本，其中所述用户计算成本包括用户i的边缘计算成本

和本地计算成本

由如下公式得到：

其中

分别表示用户i对时延和能耗的权重，

表示用户i边缘计算能耗，

表示用户i本地计算能耗，

表示用户i的边缘计算总时延，

表示本地计算总时延；

所述无人机计算成本

计算公式如下：

其中

和

分别表示无人机j对时延和能耗的权重，T_j(s,a)表示无人机j的总时延，E_j(s,a)表示无人机j的总能耗。

4.根据权利要求1或2或3所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：所述系统范围计算成本最小化问题为

其中用户i的计算成本Z_i(s,a)为：

表示无人机j每个CPU周期的能耗，

表示计算任务

在边缘计算中所需要的CPU周期数。

5.根据权利要求1所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：所述多用户计算卸载随机博弈的构建，基于静态博弈

多用户计算卸载随机博弈

构建如下：

其中

为用户i的期望效用，计算公式如下：

其中

表示在随机变量Θ下求期望，

表示策略配置(s,a)下用户i传输计算任务时受到的干扰，随机变量Θ(Λ)＝[z(Λ)]:Ω→2^N，Λ为样本空间Ω的一个事件，

其中z_i∈{0,1}为用户i以概率θ_i产生计算任务的二进制变量，若用户i在该处理阶段产生计算任务，则z_i＝1，否则z_i＝0，如果所有用户在策略配置

下满足：

那么用户策略配置s^*为多用户计算卸载随机博弈的纯策略纳什均衡，

表示用户i在纳什均衡s^*下的策略，

表示用户i以外其余用户在纳什均衡s^*下的策略配置；

所述多无人机部署随机博弈的构建，基于静态博弈

多无人机部署随机博弈

构建如下：

其中

为无人机j的期望效用，计算公式如下：

如果无人机策略配置

满足：

表示无人机j在纳什均衡a^*下的策略，

表示无人机j以外其余无人机在纳什均衡a^*下的策略配置。

6.根据权利要求1所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：所述两个基于策略选择概率的学习算法为用户策略选择概率学习算法和无人机策略选择概率学习算法。

7.根据权利要求6所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：所述用户策略选择概率学习算法以迭代方式运行，迭代次数记为τ，对于用户i，其维护一个策略选择概率向量

初始时，即τ＝0，由于用户i的策略空间为

初始策略选择概率向量则表示为

接着，用户i将根据策略选择概率向量

选择当前迭代周期的策略s_i，同时计算当前迭代周期的回报

以更新策略选择概率向量

直到收敛至一个纯策略，即某一个策略的选择概率趋近于1；

所述无人机策略选择概率学习算法以迭代方式运行，迭代次数记为τ，对于无人机j，其维护一个策略选择概率向量

初始时，即τ＝0，由于无人机j的策略空间为

初始策略选择概率向量则表示为

接着，无人机j将根据策略选择概率向量

选择当前迭代周期的策略a_j，同时计算当前迭代周期的回报

以更新策略选择概率向量

直到收敛至一个纯策略，即某一个策略的选择概率趋近1。

8.根据权利要求7所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：所述用户i计算回报

的公式为：

其中δ_i为一比例因子，用以确保用户i的回报为正，

表示用户i的效用；

所述无人机j计算回报

的公式为：

其中γ_i为一比例因子，用以确保无人机j的回报为正，

表示无人机j的效用。

9.根据权利要求1或6或7或8所述无人机协助移动边缘计算中的动态计算卸载和服务器部署方法，其特征在于：所述步骤(5)以迭代方式运行，迭代次数记为t，初始时，所有无人机在目标区域内随机悬停，接着根据t的奇偶性，交替执行用户策略选择概率学习算法和无人机策略选择概率学习算法，每一次迭代都可以得到一个随机博弈的纳什均衡；重复以上步骤，直到没有用户和无人机改变其策略。