CN117354934A

CN117354934A - 一种多时隙mec系统双时间尺度任务卸载和资源分配方法

Info

Publication number: CN117354934A
Application number: CN202311385000.3A
Authority: CN
Inventors: 潘怡瑾; 赵佳慧; 陈明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-01-05

Abstract

本发明涉及一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，包括：针对多用户多服务器的MEC网络，建立系统长期平均能耗最小化模型；针对系统长期平均能耗最小化模型，在双时间尺度上进行求解，一方面在小时间尺度上，通过调用李雅普诺夫方法，将长期随机的任务卸载和资源分配问题解耦为一系列在线优化的确定性问题，求得每个时隙上卸载决策和资源分配的闭式解；另一方面在大时间尺度上，将服务器活跃/睡眠模式选择和用户‑服务器关联决策问题表述为一个约束马尔可夫决策过程，并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。与现有技术相比，本发明能够有效降低多时隙系统的计算复杂度、提高求解速度。

Description

一种多时隙MEC系统双时间尺度任务卸载和资源分配方法

技术领域

本发明涉及移动边缘计算资源分配技术领域，尤其是涉及一种多时隙MEC系统双时间尺度任务卸载和资源分配方法。

背景技术

移动边缘计算(Mobile Edge Computing，MEC)可利用无线接入网络就近提供电信用户IT所需服务和云端计算功能，而创造出一个具备高性能、低延迟与高带宽的电信级服务环境，加速网络中各项内容、服务及应用的快速下载。在MEC系统的缓存设计中，部署了MEC服务器的无线接入点(Access Points，APs)和基站(Base Stations，BSs)能提前缓存计算任务或计算结果，无线设备因此能直接从AP端获取计算结果而无需进行计算卸载和本地计算。联合设计计算任务缓存、计算资源分配和计算卸载能有效地提高MEC系统的性能。

在动态环境下，移动边缘服务器的缓存决策需要同时与时变的无线信道状态和随机达到的用户任务相适应。目前，针对多时隙移动边缘计算任务卸载和资源分配，主要采用传统凸优化方法并用启发式算法搜索最优解。由于移动边缘计算中的任务卸载和资源分配通常是一个混合整数非线性规划问题，且多时隙增加了求解的复杂度。一方面，将任务卸载的0-1整数规划松驰无法求得最优解；另一方面当基站和用户的数量到达一定规模且时隙数增大时，启发式算法的计算复杂度呈指数增长，很难在有效的时间之内计算出优化问题的解。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，能够降低多时隙系统的求解计算复杂度、提高求解速度。

本发明的目的可以通过以下技术方案来实现：一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，包括以下步骤：

S1、针对多用户多服务器的MEC网络，建立系统长期平均能耗最小化模型；

S2、针对系统长期平均能耗最小化模型，在双时间尺度上进行求解：

在小时间尺度上，通过调用李雅普诺夫方法，将长期随机的任务卸载和资源分配问题解耦为一系列在线优化的确定性问题，求得每个时隙上的卸载决策和资源分配的闭式解；

在大时间尺度上，将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程，并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。

进一步地，所述步骤S1中系统长期平均能耗最小化模型具体为：

其中，i是用户的索引，j是服务器的索引，t是小时间尺度上时隙的索引，n是大时间尺度上时间帧的索引，每帧包含T个时隙；ζ_j(n)是服务器活跃/睡眠指示变量，ξ_ij(n)是用户-服务器连接指示变量，δ_i(t)是任务从用户卸载到服务器的比例，p_i(t)是用户的发射功率，f_i(t)是用户本地计算速率，g_j(t)是服务器的计算速率；是本地计算队列长度，是本地卸载队列长度，Y_j(t)是服务器端计算队列长度；/>是用户本地最大计算速率，/>是用户的最大功率，/>是服务器的最大计算速率，κ_u是处理器芯片的有效电容系数；E_M(t)是所有服务器的能耗，E_U(t)是所有用户的能耗。

进一步地，所述所有服务器的能耗具体为：

所述所有用户的能耗具体为：

其中，τ为计算和通信时间线的时隙长度，P^a是维持活跃状态需要的能耗，P^c是最大的计算能耗，Ps是维持睡眠状态需要的能耗。

进一步地，所述步骤S2具体包括以下步骤：

S21、将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题、和小时间尺度上的任务卸载和资源分配问题；

S22、构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题，并表述为一个受约束的马尔可夫过程，采用深度强化学习的D3QN算法来求解。

进一步地，所述步骤S21具体包括以下步骤：

S211、首先假设服务器模式选择和用户-服务器关联决策是给定的，构建小时间尺度上的任务卸载和资源分配问题；

S212、构造虚拟队列，并采用李雅普诺夫方法来处理长期平均的目标和约束，将步骤S211构建的任务卸载和资源分配问题转化为一系列单时隙在线优化问题；

S213、将单时隙在线优化问题分解为三个子问题进行求解，所述三个子问题包括卸载决策问题、用户端的资源分配问题以及服务器端的资源分配问题。

进一步地，所述步骤S211中小时间尺度上的任务卸载和资源分配问题具体为：

进一步地，所述步骤S212的具体过程为：

首先，构造虚拟队列，表达式为：

这样，长期平均的约束就能通过虚拟队列的平均速率稳定性来满足，其表达式为：

构造李雅普诺夫函数，其表达式为：

其中，是组合的队列向量，α₁,α₂和α₃是缩放因子；

构造条件李雅普诺夫漂移加惩罚函数，其表达式为：

其中，V是罚函数的权重；

推导条件李雅普诺夫漂移加惩罚函数的上界，其表达式为：

其中，C是一个常数，ω(t)是仅和队列长度有关的量，和优化变量无关；Q(t)的表达式如下：

此外，上述上界表达式若要成立，须受限于如下三个约束：

其中，是用户与服务器之间的最大传输速率；

最小化条件李雅普诺夫漂移加惩罚函数的上界能使得队列稳定，同时最小化系统平均能耗，且通过增大V可以获得渐进最优性，根据机会期望最小化技术，最小化条件李雅普诺夫漂移加惩罚函数的上界是通过最小化每个时隙的确定性问题来实现，每个时隙的确定性问题表述如下：

进一步地，所述步骤S22具体包括以下步骤：

S221、给定每个时隙上最优的卸载决策和资源分配，得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题；

S222、设计深度强化学习方法，将步骤S221中得到的问题表述为一个受约束的马尔可夫过程，基于D3QN网络架构进行强化学习，求解得到服务器活跃/睡眠模式以及用户-服务器关联决策结果。

进一步地，所述步骤S221中大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题具体为：

进一步地，所述步骤S222中基于D3QN网络架构进行强化学习的过程包括：

定义状态、动作和奖励，在D3QN网络架构下，确定出Q函数的表达式；

训练过程通过最小化损失函数来更新评估网络的参数；

计算出损失函数后，训练基于梯度下降的评估网络。

进一步地，所述状态为：

所述动作为：

所述奖励为：

所述Q函数的表达式为：

其中，V(S_n；θ^V)是状态价值函数，D(S_n，A_n；θ^D)是优势函数，Q(·；θ)表示参数为θ＝(θ^V，θ^D)的目标网络，是动作空间的大小；

在第n帧开始时，系统观察队列和信道条件，以获得状态S_n；

然后，基于∈-greedy策略选择动作A_n，具体来说，系统依概率∈随机选择动作进行探索，或者依概率1∈选择动作来最大化Q值，通过动作A_n，计算n帧内的最有任务卸载和资源分配，获得奖励R_n和下一个状态S_n+1；

将当前状态S_n、动作A_n、奖励R_n和下一个状态S_n+1将存储在经验回放缓存器中，在每个训练步骤中，D3QN从经验回放池中随机抽取历史经验的小批数据(S_n，A_n，R_n，S_n+1)；

训练过程通过最小化损失函数来更新评估网络的参数，其表达式为：

其中，y_n是目标值，Q′(·；θ′)是参数为θ′的目标网络；

计算出损失函数后，训练基于梯度下降的评估网络，目标网络的参数θ′通过θ′＝μθ+(1-μ)θ′进行更新，μ表示更新速率。

与现有技术相比，本发明具有以下优点：

本发明首先针对一个多用户多服务器的MEC网络建立系统长期平均能耗最小化模型，并在双时间尺度上求解：在小时间尺度上，通过调用李雅普诺夫方法将长期随机的任务卸载和资源分配问题解耦为一系列可以在线优化的确定性问题；在大时间尺度上，则将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程，并采用深度强化学习中的双对抗深度Q网络(D3QN)来学习模式选择和关联决策。相比传统优化求解方法，本发明能够有效降低多时隙系统的计算复杂度，进而提高求解速度。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，包括以下步骤：

具体包括以下过程：

步骤A：针对多用户多服务器的无小区MEC网络，建立系统长期平均能量最小化模型A1，模型A1表述为：

步骤B：将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题和小时间尺度上的任务卸载和资源分配问题，具体表述如下：

步骤B-1：首先假设服务器模式选择和用户-服务器关联决策是给定的，构建小时间尺度上的任务卸载和资源分配问题，表述为：

步骤B-2：构造虚拟队列并采用李雅普诺夫方法来处理长期平均的目标和约束，将问题转化为一系列单时隙在线优化问题。首先，构造虚拟队列，表达式为：

这样，长期平均的约束就可以通过虚拟队列的平均速率稳定性来满足，其表达式为：

构造李雅普诺夫函数，其表达式为：

其中，是组合的队列向量，α₁,α₂和α₃是缩放因子。

构造条件李雅普诺夫漂移加惩罚函数，其表达式为：

其中，V是罚函数的权重。

推导条件李雅普诺夫漂移加惩罚函数的上界，其表达式为：

此外，上述上界表达式若要成立，须受限于如下三个约束：

其中，是用户与服务器之间的最大传输速率。

最小化条件李雅普诺夫漂移加惩罚函数的上界可以使得队列稳定，同时最小化系统平均能耗，且通过增大V可以获得渐进最优性。根据机会期望最小化技术最小化条件李雅普诺夫漂移加惩罚函数的上界可以通过最小化每个时隙的确定性问题来实现，每个时隙的确定性问题表述如下：

步骤B-3：上述单时隙确定性优化问题可以分解成三个子问题来求解，包括卸载决策问题，用户端的资源分配问题以及服务器端的资源分配问题。这三个子问题都是凸问题，可以推导出闭式解。

这样，只要给定服务器活跃/睡眠模式选择以及用户-服务器关联决策，就能求得每个时隙上的卸载决策和资源分配的最优解。

步骤C：构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题，并表述为一个受约束的马尔可夫过程，采用深度强化学习的D3QN算法来求解，具体步骤如下：

步骤C-1：给定每个时隙上最优的卸载决策和资源分配，得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题，表述为：

步骤C-2：设计深度强化学习方法，将上述问题表述为一个受约束的马尔可夫过程，并定义状态、动作和奖励如下：

状态：

动作：

奖励：

步骤C-3：D3QN网络架构下，Q函数的表达式为：

其中，V(S_n；θ^V)是状态价值函数，D(S_n，A_n；θ^D)是优势函数，Q(·；θ)表示参数为θ＝(θ^V，θ^D)的目标网络，是动作空间的大小。

在第n帧开始时，系统观察队列和信道条件，以获得状态S_n。然后，基于∈-greedy策略选择动作A_n。具体来说，系统依概率∈随机选择动作进行探索，或者依概率1-∈选择动作来最大化Q值。通过动作A_n，计算n帧内的最有任务卸载和资源分配，获得奖励R_n和下一个状态S_n+1。当前状态S_n、动作A_n、奖励R_n和下一个状态S_n+1将存储在经验回放缓存器/>中。在每个训练步骤中，D3QN从经验回放池中随机抽取历史经验的小批数据(S_n，A_n，R_n，S_n+1)。

步骤C-4：训练过程通过最小化损失函数来更新评估网络的参数，其表达式为：

其中，y_n是目标值，表达式为：

其中，Q′(·；θ′)是参数为θ′的目标网络。

步骤C-5：计算出损失函数后，训练基于梯度下降的评估网络。目标网络的参数θ′通过θ′＝μθ+(1μ)θ′进行更新，μ表示更新速率。

本实施例应用上述技术方案，在一个由M个服务器和U个用户组成的无小区MEC网络中，每个服务器集成到一个接入点中。用户和服务器的集合分别为和用户具有在本地执行计算任务的能力。然而，由于执行计算密集型应用程序的计算能力有限，用户可以将其任务卸载给服务器，计算和通信时间线的时隙长度为τ。

为了实现绿色网络，服务器可以选择性地切换到睡眠模式，在保持网络效率的同时降低功耗。为此，考虑了一个双时间尺度框架。具体来说，将每个连续的T个时隙分组为一个时间帧。帧的索引用n，n∈{0，1，…，N-1}表示，第n帧的时隙集合用表示。

第一步，在大时间尺度上，二进制活跃/睡眠指示变量ζ_j(n)＝1表示服务器是活跃的。二进制用户-服务器关联指示变量ξ_ij(n)＝1表示用户i可以将其任务卸载到服务器j。服务器活跃/睡眠模式选择和用户-服务器关联规则可以表述为

第二步，在小时间尺度上，用A_i(t)表示用户的任务到达，任务到达在时间上独立同分布，平均到达率为λ_i，即由于通信电路和计算单元是分开的，每个用户可以同时执行本地计算和任务卸载。因此，每个用户将其任务到达分为两个不相交的部分，即/>和/>其中/>和/>分别表示本地执行的任务和卸载到服务器的任务量，δ_i(t)∈[0，1]是分割参数。设/>(以比特为单位)表示第用户的本地计算队列长度，那么队列动态表达式为

其中，其中f_i(t)(以轮数/秒为单位)为本地CPU周期频率。通过利用动态电压和频率尺度技术，可以自适应地控制f_i(t)。φ_i＞0表示在本地计算每比特数据所需的CPU轮数。

对于用户的任务卸载队列，将队列积压表示为队列的动态表达式为

其中，r_ij(t)是卸载速率。

在服务器端，设Y_j(t)表示服务器等待处理的计算任务的积压，动态表达式为

其中，g_j(t)是服务器的计算速率。

第三步，为了保证有限的延迟，对队列加以约束，表达式为：

第四步，构建能量消耗模型。首先，在用户端分配计算能耗和传输能耗，需要满足：

用户的能耗分为两个部分：1)本地计算的能耗，2)任务卸载的能耗。因此，所有用户的总能耗为

服务器端的能耗分为活跃服务器和睡眠服务器的能耗。活跃服务器的能耗表达式为

其中，P^a是维持活跃状态需要的能耗，P^c是最大的计算能耗。

睡眠服务器的能耗表达式为

其中，P^s是维持睡眠状态需要的能耗。

所有服务器的总能耗表达式为

第五步，建立多时隙MEC系统双时间尺度任务卸载和资源分配优化问题模型：

/>

之后，将双时间尺度李雅普诺夫与深度强化学习方法相结合进行求解的过程如下：

步骤1：将双时间尺度的优化问题分解成大时间尺度上的服务器模式选择以及用户-服务器关联决策问题和小时间尺度上的任务卸载和资源分配问题，具体表述如下：

步骤1-1：首先假设服务器模式选择和用户-服务器关联决策是给定的，构建小时间尺度上的任务卸载和资源分配问题，表述为：

步骤1-2：构造虚拟队列并采用李雅普诺夫方法来处理长期平均的目标和约束，将所述问题转化为一系列单时隙在线优化问题。首先，构造虚拟队列，表达式为：

/>

构造李雅普诺夫函数，其表达式为：

其中，是组合的队列向量，α₁,α₂和α₃是缩放因子。

构造条件李雅普诺夫漂移加惩罚函数，其表达式为：

其中，V是罚函数的权重。

推导条件李雅普诺夫漂移加惩罚函数的上界，其表达式为：

此外，上述上界表达式若要成立，须受限于如下三个约束：

其中，是用户与服务器之间的最大传输速率。

步骤1-3：上述单时隙确定性优化问题可以分解成三个子问题来求解，包括卸载决策问题，用户端的资源分配问题以及服务器端的资源分配问题。这三个子问题都是凸问题，可以推导出闭式解。

步骤2：构造大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题，并表述为一个受约束的马尔可夫过程，采用深度强化学习的D3QN算法来求解，具体步骤如下：

步骤2-1：给定每个时隙上最优的卸载决策和资源分配，得到大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题，表述为：

步骤2-2：设计深度强化学习方法，将上述问题表述为一个受约束的马尔可夫过程，并定义状态、动作和奖励如下：

状态：

动作：

奖励：

步骤2-3：D3QN网络架构下，Q函数的表达式为：

在第n帧开始时，系统观察队列和信道条件，以获得状态S_n。然后，基于∈-greedy策略选择动作A_n。具体来说，系统依概率∈随机选择动作进行探索，或者依概率1∈选择动作来最大化Q值。通过动作A_n，计算n帧内的最有任务卸载和资源分配，获得奖励R_n和下一个状态S_n+1。当前状态S_n、动作A_n、奖励R_n和下一个状态S_n+1将存储在经验回放缓存器/>中。在每个训练步骤中，D3QN从经验回放池中随机抽取历史经验的小批数据(S_n，A_n，R_n，S_n+1)。

步骤2-4：训练过程通过最小化损失函数来更新评估网络的参数，其表达式为：

其中，y_n是目标值，表达式为：

其中，Q′(·；θ′)是参数为θ′的目标网络。

步骤2-5：计算出损失函数后，训练基于梯度下降的评估网络。目标网络的参数θ′通过θ′＝μθ+(1-μ)θ′进行更新，μ表示更新速率。

综上可知，本方案针对多用户多时隙移动边缘计算系统优化设计，通过建立系统长期平均能耗最小化模型，并在双时间尺度上求解，能够有效降低多时隙系统的计算复杂度，从而确保能在有效时间内快速得到最优解。

Claims

1.一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，包括以下步骤：

在大时间尺度上，将服务器活跃/睡眠模式选择和用户-服务器关联决策问题表述为一个约束马尔可夫决策过程，并采用深度强化学习中的D3QN来学习模式选择和关联决策。

2.根据权利要求1所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S1中系统长期平均能耗最小化模型具体为：

其中，i是用户的索引，j是服务器的索引，t是小时间尺度上时隙的索引，n是大时间尺度上时间帧的索引，每帧包含T个时隙；ζ_j(n)是服务器活跃/睡眠指示变量，ξ_ij(n)是用户-服务器连接指示变量，δ_i(t)是任务从用户卸载到服务器的比例，p_i(t)是用户的发射功率，f_i(t)是用户本地计算速率，g_j(t)是服务器的计算速率；是本地计算队列长度，/>是本地卸载队列长度，Y_j(t)是服务器端计算队列长度；/>是用户本地最大计算速率，是用户的最大功率，/>是服务器的最大计算速率，κ_u是处理器芯片的有效电容系数；E_M(t)是所有服务器的能耗，E_U(t)是所有用户的能耗。

3.根据权利要求2所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述所有服务器的能耗具体为：

所述所有用户的能耗具体为：

其中，τ为计算和通信时间线的时隙长度，P^a是维持活跃状态需要的能耗，P^c是最大的计算能耗，P^s是维持睡眠状态需要的能耗。

4.根据权利要求3所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S2具体包括以下步骤：

5.根据权利要求4所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S21具体包括以下步骤：

S211、首先假设服务器模式选择和用户-服务器关联决策是给定的，构建小时间尺度上的任务卸载和资源分配问题：

6.根据权利要求5所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S212的具体过程为：

首先，构造虚拟队列，表达式为：

构造李雅普诺夫函数，其表达式为：

其中，是组合的队列向量，α₁，α₂和α₃是缩放因子；

构造条件李雅普诺夫漂移加惩罚函数，其表达式为：

其中，V是罚函数的权重；

推导条件李雅普诺夫漂移加惩罚函数的上界，其表达式为：

其中，C是一个常数，w(t)是仅和队列长度有关的量，和优化变量无关；Q(t)的表达式如下：

此外，上述上界表达式若要成立，须受限于如下三个约束：

其中，是用户与服务器之间的最大传输速率；

7.根据权利要求6所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S22具体包括以下步骤：

8.根据权利要求7所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S221中大时间尺度上的服务器活跃/睡眠模式选择以及用户-服务器关联决策问题具体为：

9.根据权利要求7所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述步骤S222中基于D3QN网络架构进行强化学习的过程包括：

训练过程通过最小化损失函数来更新评估网络的参数；

计算出损失函数后，训练基于梯度下降的评估网络。

10.根据权利要求9所述的一种多时隙MEC系统双时间尺度任务卸载和资源分配方法，其特征在于，所述状态为：

所述动作为：

所述奖励为：

所述Q函数的表达式为：

在第n帧开始时，系统观察队列和信道条件，以获得状态S_n；

然后，基于∈-greedy策略选择动作A_n，具体来说，系统依概率∈随机选择动作进行探索，或者依概率1-∈选择动作来最大化Q值，通过动作A_n，计算n帧内的最有任务卸载和资源分配，获得奖励R_n和下一个状态S_n+1；

其中，y_n是目标值，Q′(·；θ′)是参数为θ′的目标网络；