CN113377531A

CN113377531A - 基于无线能量驱动的移动边缘计算分布式服务部署方法

Info

Publication number: CN113377531A
Application number: CN202110625127.2A
Authority: CN
Inventors: 王小洁; 宁兆龙; 郭磊; 高新波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-10
Anticipated expiration: 2041-06-04
Also published as: CN113377531B

Abstract

本发明请求保护一种基于无线能量驱动的移动边缘计算分布式在线服务部署方法，考虑到6G网络分布式特性、边缘服务器计算和能量传输能力有限，在保证用户能量供给的同时最小化用户平均任务完成时间，实现移动边缘网络环境下高效卸载和能量传输。本发明利用贝尔曼方程将平均时延最小化问题转化为原始‑对偶优化问题。此外，本发明设计了一种基于深度强化学习的在线调度策略，合理的进行能量传输和任务处理时间分配。为了实现分布式模型训练，边缘服务器协同工作实现模型参数同步。理论分析表明本发明提出的在线分布式资源调度策略为渐进最优解。本发明为无线能量驱动的分布式移动边缘计算数据部署提供了一种新方法。

Description

基于无线能量驱动的移动边缘计算分布式服务部署方法

技术领域

本发明属于基于无线能量驱动的移动边缘计算对用户服务数据进行分布式动态部署的方法，尤其涉及一种基于深度强化学习的在线服务部署方法。

背景技术

移动边缘计算和无线能量传输技术已成为平衡资源与需求的两大主流技术。移动边缘计算可以缓解终端设备压力，无线能量传输可以通过无线频谱传输能量实现无线充电。无线能量驱动的移动边缘计算平台就是将这两种技术相结合，不仅能够实现高效数据卸载而且可以进行无线充电。由于终端设备的半双工特性，数据卸载和能量传输过程不能同时进行。对于无线能量驱动的移动边缘计算平台，一个关键问题是如何对数据卸载和能量传输过程进行合理的时间分配。这两个过程相互影响，一方面时间分配影响移动终端收获的能量，而任务卸载决策又依赖于收获的能量；另一方面，任务调度结果会影响后续时间分配方案。目前基于无线能量驱动的边缘计算方案大多为集中式，需要统筹全网信息进行调度。6G网络的发展提出了分布式网络管理的需求，以往集中式方案不再使用。性能优、效率高的分布式部署方法有待于研究人员的进一步探索。

本发明的目的主要针对现有研究的一些不足之处，提出基于无线能量驱动的移动边缘计算分布式服务部署方法，利用贝尔曼方程将平均时延最小化问题转化为原始-对偶优化问题，结合深度强化学习以及马尔可夫模型设计多智能体在线资源调度策略，为基于无线能量驱动的移动边缘计算分布式服务数据部署提供一种新方法。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于无线能量驱动的移动边缘计算分布式服务部署方法。本发明的技术方案如下：

一种基于无线能量驱动的移动边缘计算分布式服务部署方法，其包括以下步骤：

1)构建系统模型，确定用户能耗和延迟计算模型；

2)利用马尔科夫优化理论，将步骤1)中平均时延最小化问题转化为在线策略优化问题；

3)利用深度强化学习理论对步骤2)中的在线策略优化优化问题中的约束条件进行松弛，并对动作和奖励函数进行重组；

4)针对步骤3)中的问题建立智能体训练模型，并对模型进行训练获得资源部署策略。

进一步的，所述步骤1)构建系统模型，确定用户能耗和延迟计算模型，具体包括以下步骤：

构建一个系统模型，包括M个边缘计算服务器以及N个用户，在每个时隙t内用户i以概率产生服务请求，可由三个变量定义：

其中

表示数据大小；

表示完成服务所需的CPU周期数；

表示最大容忍延迟，移动客户端i的CPU频率为

边缘服务器j的CPU频率为

在时隙t内，能量传输的持续时间为τ^t，数据卸载的持续时间为

用户i的服务请求完成时间由以下公式进行计算：

其中

代表服务请求

能否在客户端i本地进行处理，如果可以，

否则

变量

代表服务请求

是否在时隙t内被卸载到边缘服务器j上；变量

和

分别代表在本地处理的计算延迟、传输到服务器j的传输延迟、由服务器j处理的计算延迟，以及在本地的排队延迟；

客户端i在时隙t内收获的能量通过以下公式获得：

其中μ是能量获取的效率，为0和1之间的小数，变量

是发送端到客户端i发送功率，

为信道增益；

客户端i的能量消耗表示为：

其中

为本地计算能量消耗，由如下公式进行计算：

变量P_ij为从客户端i到服务器j的发送功率，

为从客户端i到服务器j的传输能耗，通过如下公式获得：

其中κ_i为客户端i的能效系数；

优化目标为最小化用户请求平均完成时延，问题描述如下：

约束条件1要求客户端i调度服务请求所消耗的能量必须小于客户端剩余能量；约束条件2确保服务请求能够在可容忍的延迟内完成。

进一步的，移动客户端采用半双工通信方式，能量传输和数据卸载过程不能同时进行，因此采用先能量传输后任务卸载的调度方式。

进一步的，本地计算延迟

可由如下公式进行计算：

传输延迟可通过如下公式获得：

其中

是从客户端i到服务器j的传输速率，远端计算延迟

可以通过如下公式进行计算：

本地排队延迟可通过如下公式进行计算：

其中t′代表服务请求在该时隙内被处理，Δt′代表在时隙t′内能量传输结束后到服务请求被处理前的等待时间。

进一步的，所述步骤2：利用马尔科夫优化理论，将步骤1)中平均时延最小化问题转化为在线策略优化问题，具体包括：

延迟最小化问题定义为一个马尔科夫优化问题，用元组

表示，各元素含义如下：

状态S:代表所建立的马尔科夫模型的状态，可表示为

其中，S₁表示服务器的状态，包括服务器的位置和计算能力；S₂表示用户的状态，包括用户当前位置和用户的服务请求；S₃表示信道的状态，包括数据传输速率和发送功率；

动作A:表示为

包含能量传输时间决策和任务调度决策；

状态转移概率P：表示为P：S×A×S→[0，1]，基于概率P(s^t+1|s^t，a^t)和动作a^t，系统状态从s^t跳转到s^t+1；

奖励函数R:表示为

代表时隙t内智能体k执行动作

后获得的瞬时奖励，目标是最小化服务完成时间，因此瞬时奖励通过以下公式获得：

步骤1中的优化问题转化为：

其中V*(s^t)表示训练模型的状态值函数，γ表示折扣因子，代表当前动作对未来奖励的影响。

进一步的，所述步骤3：利用深度强化学习理论对步骤2)中的优化问题进行进一步分析和转化，具体包括：

首先对动作进行等价变换，时隙t内的动作定义为

其中

为能量传输的持续时间，

是任务处理顺序；其次对利用拉格朗日松弛约束条件并对瞬时奖励函数进行变换，变换后的瞬时奖励利用如下公式进行计算：

之后引入折扣熵正则项，系统值函数通过如下公式进行计算：

其中ξ是一个控制变量，H(π，st)是熵；

最后，将值函数分解成M个元素对应于M个智能体，对于每个智能体只需要求解如下优化问题：

s.t.V₁(s^t)＝...＝V_j(s^t)＝V_j+1(s^t)＝...＝V_M(s^t).。

进一步的，所述步骤4：针对步骤3)中的问题建立智能体训练模型，并对模型进行训练，具体包括以下步骤：

1)神经网络模型初始化；

2)所有智能体与环境进行交互，并输入观测状态到神经网络模型，获取当前执行动作；

3)将智能体在每个时隙的观察状态和执行的动作以批处理的方式进行保存；

4)基于保存的批处理结果，对神经网络模型进行训练以获得资源分配策略；

5)基于训练获得的策略，边缘服务器对资源进行配置，若实验时间未结束，重复步骤2)。

本发明的优点及有益效果如下：

本发明构建了一个动态服务部署框架，用于在基于无线能量驱动的移动边缘计算网络中实现高效卸载和能量传输。由于原始问题是NP难问题且变量间的相互耦合，本发明利用贝尔曼方程将平均时延最小化问题转化为原始-对偶优化问题，这样可以利用随机优化理论进行求解。此外，本发明设计了一种基于深度强化学习的调度策略，合理的进行能量传输和任务处理时间分配，克服了传统算法在无线能量驱动的多服务器并存情况下无法进行有效的在线资源调度的缺点，显著提升了系统的性能。为了实现分布式模型训练，边缘服务器协同工作实现模型参数同步。实验结果证明了本发明在平均服务完成时间和完成比率方面的高效性。本发明提供了一种新的应用于无线能量驱动的分布式移动边缘计算服务数据部署方法。

附图说明

图1是本发明提供优选实施例为随机移动模型。

图2为为基于深度强化学习的算法训练示意图。

图3和图4对比了本发明提出的OLD-COP算法与其他三种算法在平均服务完成时间上的性能。

图5和图6对比了本发明提出的OLD-COP算法与其他三种算法在平均服务完成比率上的性能。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

一种无线能量驱动的移动边缘计算分布式服务部署方法，步骤如下：

1.构建系统模型，确定用户能耗和延迟计算模型；

2.利用马尔科夫优化理论，将步骤1)中平均时延最小化问题转化为在线策略优化问题；

3.利用深度强化学习理论对步骤2)中的优化问题进行进一步分析和转化；

4.针对步骤3)中的问题建立智能体训练模型，并对模型进行训练。

步骤1)：构建系统模型，确定用户能耗和延迟计算模型。

本发明构建一个系统模型，其中包含M个边缘计算服务器以及N个用户。在每个时隙t内用户i以概率产生服务请求，可由三个变量定义：

其中

表示数据大小；

表示完成服务所需的CPU周期数；

表示最大容忍延迟。移动客户端i的CPU频率为

边缘服务器j的CPU频率为

移动客户端采用半双工通信方式，能量传输和数据卸载过程不能同时进行，因此本发明采用先能量传输后任务卸载的调度方式。在时隙t内，能量传输的持续时间为τ^t，数据卸载的持续时间为

用户i的服务请求完成时间可以由以下公式进行计算：

其中

代表服务请求

能否在客户端i本地进行处理，如果可以，

否则

变量

代表服务请求

是否在时隙t内被卸载到边缘服务器j上。变量

和

分别代表在本地处理的计算延迟、传输到服务器j的传输延迟、由服务器j处理的计算延迟，以及在本地的排队延迟。本地计算延迟

可由如下公式进行计算：

传输延迟可通过如下公式获得：

其中

是从客户端i到服务器j的传输速率。远端计算延迟

可以通过如下公式进行计算：

本地排队延迟可通过如下公式进行计算：

客户端i在时隙t内收获的能量可以通过以下公式获得：

其中μ是能量获取的效率，为0和1之间的小数。变量

可以认为是发送端到客户端i发送功率，

为信道增益。

客户端i的能量消耗可以表示为：

其中

为本地计算能量消耗，可由如下公式进行计算：

变量P_ij为从客户端i到服务器j的发送功率。

为从客户端i到服务器j的传输能耗，可以通过如下公式获得：

其中κ_i为客户端i的能效系数。

本发明优化目标为最小化用户请求平均完成时延，问题描述如下：

步骤2)：利用马尔科夫优化理论，将步骤1)中平均时延最小化问题转化为在线策略优化问题。

在步骤1)描述的优化问题中，服务处理决策和能量传输决策互相耦合，即使在集中式的环境下也是NP难问题。在分布式环境下的求解困难重重，一方面所有服务器需要在能量传输时间上达成一致，另一方面客户端需要基于部分可观测信息进行服务请求调度。为了解决上述挑战，本发明利用马尔科夫优化方法来将步骤1)中的优化问题进行转化，将平均时延最小化问题转化为在线策略优化问题。

根据马尔科夫优化理论，步骤1中的延迟最小化问题可以定义为一个马尔科夫优化问题，可以用元组

表示，各元素含义如下：

状态S:代表所建立的马尔科夫模型的状态，可表示为

其中，S₁表示服务器的状态，包括服务器的位置和计算能力；S₂表示用户的状态，包括用户当前位置和用户的服务请求；S₃表示信道的状态，包括数据传输速率和发送功率。

动作A:可以表示为

包含能量传输时间决策和任务调度决策。

状态转移概率P：表示为P：S×A×S→[0，1]。基于概率P(s^t+1|s^t，a^t)和动作a^t，系统状态从s^t跳转到s^t+1。

奖励函数R:可表示为

代表时隙t内智能体k执行动作

后获得的瞬时奖励。本发明的目标是最小化服务完成时间，因此瞬时奖励可以通过以下公式获得：

因此，步骤1中的优化问题可以转化为：

步骤3)：利用深度强化学习理论对步骤2)中的优化问题进行进一步分析和转化。

步骤2)中的优化问题仍然难以解决，这是因为每个服务器都需要独立的进行动作选择，导致能量传输时间和任务调度时间难以统一。本部分首先对智能体的动作进行等价变换，使用任务处理顺序代替任务调度决策。然后对约束条件进行松弛，并对奖励函数进行相应转换。同时引入折扣熵正则项，建立适用于本系统的值函数。同时将步骤2)中的优化问题转化为其对偶问题。

步骤3：利用深度强化学习理论对步骤2)中的优化问题进行进一步分析和转化。

首先对动作进行等价变换，时隙t内的动作可以定义为

其中

为能量传输的持续时间，

是任务处理顺序。其次对利用拉格朗日松弛约束条件并对瞬时奖励函数进行变换，变换后的瞬时奖励可以利用如下公式进行计算：

之后引入折扣熵正则项，系统值函数可以通过如下公式进行计算：

其中ξ是一个控制变量，H(π，s^t)是熵。

s.t.V₁(s^t)＝...＝V_j(s^t)＝V_j+1(s^t)＝...＝V_M(s^t).

步骤4：针对步骤3)中的问题建立智能体训练模型，并对模型进行训练。对智能体建立训练模型并进行分布式训练，伪代码流程如表1所示。

表1智能体策略模型训练伪代码

所设计在线算法OLD-COP伪代码流程如表2所示。

图1为随机移动模型，多个服务器协同为用户提供移动边缘计算服务，并标明每个时隙的时间分配。

图2为为基于深度强化学习的算法训练示意图。多个智能体(边缘服务器)与环境进行交互获得系统可观测信息。智能体通过策略、值、对偶等模块进行在线策略训练，多个智能体之间定期进行参数同步与更新。边缘服务器通过训练的模型输出服务处理顺序。客户端根据服务器输出的顺序，选择合适的服务器进行服务处理。

图3和图4对比了本发明提出的OLD-COP算法与其他三种算法在平均服务完成时间上的性能。实验结果表明所设计的分布式算法利用参数同步进行模型训练是有益的，相比于对比算法，本发明能够获得较低的平均服务完成时间。

图5和图6对比了本发明提出的OLD-COP算法与其他三种算法在平均服务完成比率上的性能。实验结果表明本发明可以在用户数较多和服务器数量较少的情况下，仍能获得较高的服务完成比率。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。