CN117202264A

CN117202264A - Mec环境中面向5g网络切片的计算卸载方法

Info

Publication number: CN117202264A
Application number: CN202311286846.1A
Authority: CN
Inventors: 陈哲毅; 张俊杰; 王鹏飞; 薛龙祥; 郑家瑜
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2023-12-08

Abstract

近年来，随着5G通讯技术的蓬勃发展，涌现出了各类新兴的智能应用（如面部识别、AR/VR、自动驾驶等）。这些智能应用展现出了计算密集与延迟敏感等特性，而移动设备有限的计算能力却限制了其进一步的发展与普及。为了缓解这一问题，本发明提出一种MEC环境中面向5G网络切片的计算卸载方法。首先对所提出的面向5G网络切片的计算卸载问题进行形式化定义。其次提出提出一种结合用户数量预测和资源分配的计算卸载方法。最后实现了所提出的系统环境和卸载方法，并进行了大量的实验对方法的有效性进行证明。实验结果显示，本发明方法能应对动态的MEC用户数量变化，逼近最优的计算卸载与资源分配策略，有效地提高服务提供商的收入。

Description

MEC环境中面向5G网络切片的计算卸载方法

技术领域

本发明属于5G通信网络，计算卸载技术领域，具体涉及一种MEC环境中面向5G网络切片的计算卸载方法。

背景技术

近年来，随着5G通讯技术的蓬勃发展，涌现出了各类新兴的智能应用(如面部识别、AR/VR、自动驾驶等)。这些智能应用展现出了计算密集与延迟敏感等特性，而移动设备有限的计算能力却限制了其进一步的发展与普及。为了缓解这一问题，移动边缘计算(Mobile Edge Computing，MEC)将计算资源部署在网络边缘，被视为一种具有光明前景的解决方案。在MEC系统中，来自用户智能应用的计算任务可通过基站卸载至附近的MEC服务器进行处理。相比于云计算，MEC可大大降低数据传输延迟，进而有效地提升服务质量(Quality of Service，QoS)。

通常，在面对不同5G智能应用时，用户在通信速率、响应延迟和可靠性等方面的服务需求存在较大差异。例如，自动驾驶服务的响应延迟应为毫秒级，以保证高可靠性；而对于旨在提供休闲娱乐的VR/AR服务，则允许相对更高的响应延迟。因此，传统固定模式的网络架构已难以满足当前不同智能应用多样化的服务需求。为应对这一挑战，网络切片(Network Slicing，NS)技术被视为一种可行的解决方案。不同于传统的无线网络技术，网络切片基于虚拟化技术，包括网络功能虚拟化(Network Function Virtualization，NFV)和软件定义网络(Software Defined Network，SDN)，可根据用户的服务需求，将物理网络资源划分为多个在逻辑上隔离的切片进行管理与编排。利用网络切片技术，可在MEC环境中构造出一种多租户的生态体系。服务提供商(Service Provider，SP)可根据系统状态与用户需求，部署不同服务到相应的切片中，提供了一种网络资源定制化服务。因此，将MEC与5G网络切片技术相结合，可更加高效地划分网络与MEC计算资源从而提升QoS。在这种模式下，SP根据用户所卸载任务的需求向基础设施提供商(Infrastructure Provider，InP)提出切片资源划分请求，并在划分后将资源分配给相应的用户以完成其任务。此外，在现实场景中，用户数量和需求通常会随着时间而发生变化。如果通过网络切片划分的资源保持不变，很可能会出现资源供给不足或过剩的情况，这会严重影响QoS以及SP的收益。因此，SP在提供网络服务的同时，需要能够针对多变的用户需求对网络切片资源进行动态的划分和调整。

根据网络切片划分的资源，用户可将其计算任务卸载至MEC服务器进行处理。MEC资源分配问题的现有解决方案大多仅考虑了网络切片与计算卸载的单一优化问题，没有将这两项技术有效结合以进一步提升系统性能。虽然有一小部分方案尝试考虑将网络切片与计算卸载相结合，但它们通常采用的是控制理论和迭代算法。这些方法依赖于系统先验知识，无法很好适应动态变化的MEC环境。同时，这些方法需要多轮迭代方可找到可行解，导致了过高的计算复杂度，因此它们通常只适用于小规模问题的求解。作为机器学习领域中一个新兴的重要分支，深度强化学习(Deep Reinforcement Learning，DRL)也已被应用到MEC中的资源优化问题。DRL通过与未知环境交互，以最大化长期奖励为目标进行决策，适于处理动态与不确定性的优化问题。虽然目前存在一些基于DRL的网络切片与计算卸载方法，但它们仍难以有效应对高维动作空间和Q值过高估计等问题，导致了算法无法快速收敛或陷入次优解等情况的出现。

发明内容

近年来，随着5G通讯技术的蓬勃发展，涌现出了各类新兴的智能应用(如面部识别、AR/VR、自动驾驶等)。这些智能应用展现出了计算密集与延迟敏感等特性，而移动设备有限的计算能力却限制了其进一步的发展与普及。为了缓解这一问题，本发明提出一种MEC环境中面向5G网络切片的计算卸载方法。首先对所提出的面向5G网络切片的计算卸载问题进行形式化定义。其次提出提出一种结合用户数量预测和资源分配的计算卸载方法。最后实现了所提出的系统环境和卸载方法，并进行了大量的实验对方法的有效性进行证明。实验结果显示，本发明方法能应对动态的MEC用户数量变化，逼近最优的计算卸载与资源分配策略，有效地提高服务提供商的收入。

为了解决现有技术存在的问题，本发明提出了一种MEC环境中面向5G网络切片的计算卸载方法(Computation Offloading towards Network Slicing，CONS)。CONS方法有效利用了长短期记忆(Long Short-Term Memory，LSTM)对MEC环境下动态的用户数量进行分析和预测，以指导网络切片的划分。基于切片划分的结果，CONS使用双延迟深度确定性策略梯度(Twin DelayedDeep Deterministic policy gradient，TD3)算法进行计算卸载与资源分配决策，以最大化SP的收益，并相较于以往的强化学习方法实现更快和更加稳定的收敛性能。

本发明通过考虑用户请求随时隙动态变化的特征，提出了一种面向网络切片的双时隙计算卸载模型，所提出的模型将SP的长期收益作为优化目标。基于该模型，本发明利用了LSTM和TD3算法的优势，提出了CONS方法。首先，基于历史数据，CONS利用门控循环神经网络精确预测未来时隙的用户请求数量，进而利用预测结果与任务的单位资源需求指导SP进行网络切片资源的划分。接着，基于网络切片资源划分结果，CONS能够有效应对高维动作空间，以逼近动态MEC环境下的最优计算卸载与资源分配策略。

本发明解决其技术问题具体采用的技术方案是：

一种MEC环境中面向5G网络切片的计算卸载方法，其特征在于，采用结合LSTM和TD3的CONS方法利用长短期记忆对MEC环境下动态的用户数量进行分析和预测，以指导网络切片的划分；基于切片划分的结果，CONS使用双延迟深度确定性策略梯度算法进行计算卸载与资源分配决策，以最大化服务提供商的收益。

进一步地，通过考虑用户请求随时隙动态变化的特征，将SP的长期收益作为优化目标构建面向网络切片的双时隙计算卸载模型；并采用CONS方法进行求解：首先，基于历史数据，CONS利用门控循环神经网络精确预测未来时隙的用户请求数量，进而利用预测结果与任务的单位资源需求指导SP进行网络切片资源的划分；接着，基于网络切片资源划分结果，CONS能够有效应对高维动作空间，以逼近动态MEC环境下的最优计算卸载与资源分配策略。

进一步地，计算卸载模型包括计算卸载模型包含一个基站BS、一个MEC服务器和一个SDN控制器；其中，BS和MEC服务器为来自5G智能应用的计算任务提供网络和计算资源，SDN控制器负责收集系统状态与切片请求，并将网络与计算资源虚拟化以提供逻辑隔离的网络切片；且包含以下三种角色：

(1)基础设施提供商，记为InP：网络和计算资源的管理者，根据SP提出的切片请求，将资源按照一定比例分配给SP；

(2)服务提供商，记为SP：向InP发起切片请求，获取网络和计算资源并为指定的用户提供服务；

(3)用户：向SP支付一定费用以访问其所提供的计算卸载服务；

系统中SP的集合表示为S＝{s₁,s₂,...,s_n}，s_j(1≤j≤n)所服务的用户集合表示为U＝{u₁,u₂,...,u_m}，其中，n表示SP的数量，m表示s_j所服务的用户数量；一个SP为一个或多个用户提供服务，但一个用户仅会订阅到一个SP；BS的总带宽和MEC服务器的总算力分别表示为W和C，由多个网络切片共享这些资源，且对它们所分配的比例进行动态调整；

考虑两种具有不同尺度的时隙，长时隙记为h∈{1,2,...,H}，在每个长时隙h的开始阶段，SP对服务所需的资源进行评估，并向InP发起切片资源划分请求；每个长时隙分为若干短时隙，记为t∈{1,2,...,T}，在每个短时隙t的开始阶段，用户向SP发起计算卸载请求，SP会对接收到的用户任务进行评估，并给出相应的计算卸载与资源分配决策；

在每个短时隙开始阶段，不同数量的用户向SP发起计算卸载请求以执行其任务；来自用户u_i(1≤i≤m)的任务被定义为一个四元组，记为＜a_i,c_i,d_i,ρ_i＞，其中，a_i为该任务的数据量，c_i为完成该任务所需的计算资源，d_i为该任务的最大容忍时延，ρ_i为该用户的优先级；优先级表示用户的服务等级，优先级越高，在最大容忍时延内完成任务所能获得的回报也就越高；当u_i将其任务发送给SP后，SP决定在本地或MEC服务器执行该任务；其中，表示u_i在短时隙t时的卸载决策；当/>时，u_i将任务卸载到MEC服务器上执行，所依赖的数据也将随之上传；当/>时，任务在本地执行；

(1)本地计算模式

当用户u_i在本地执行任务时，相应的执行时间为：

其中，F_i ^loc为u_i的本地计算能力；

(2)边缘计算模式

当u_i将任务卸载到MEC服务器上执行时，其过程包含上传任务、执行任务和返回结果等三个阶段；其中，上传任务和执行任务的时间依赖于SP分配给用户u_i的带宽和计算资源；

在t时刻，当u_i将任务卸载到MEC服务器上执行时，首先需要通过无线接入网络上传输入数据到BS；采用无线接入通信模型计算设备与BS之间的传输速率，因此，任务的输入数据上传到BS所需的时间为：

其中，是s_j在长时隙h分配到的带宽资源占比，/>是s_j在短时隙t分配给u_i的带宽资源比例，p_i是u_i的上传功率，g_i和σ_i分别是信道增益和高斯白噪声功率；当任务上传到BS后，SP会对该任务分配相应的计算资源以完成该任务；因此，在边缘执行任务所需的时间为：

其中，是s_j在长时隙h分配到的计算资源占比，/>是s_j在短时隙t分配给u_i的计算资源比例；

当u_i的任务在本地执行时，任务完成时间等于本地执行时间；当u_i的任务在MEC服务器上执行时，任务完成时间为上传任务时间与边缘执行时间之和；因此，任务总的完成时间为：

一方面，SP会根据其提供的服务向用户收取一定的费用；如果用户的任务能在其最大容忍延迟内完成，SP获得一个单位回报Φ，否则无回报；在短时隙t内，s_j获得来自u_i的单位回报定义为：

当SP在最大容忍时延内完成不同优先级用户的任务时，所能获得的回报是不同的，完成优先级越高用户的任务所能获得的回报也就越高；因此，s_j在长时隙h内的回报定义为：

另一方面，SP租用InP的资源也需要支付一定的费用，该费用与SP租用的资源量成正比；在长时隙h内，SP租用带宽和计算资源所需的成本定义为：

其中，和/>分别表示租用网络带宽和计算资源的单位价格；

设优化目标为最大化SP从各服务用户获得的长期收益之和，形式化定义为：

其中，限制条件C1和C2分别表示s_j分配到的带宽与计算资源比例介于0到1之间；限制条件C3表示任务只能本地处理或通过SP卸载到边缘执行；限制条件C4和C5分别表示SP分配给所有用户带宽与计算资源比例之和皆为1；

将以上优化问题拆分为两个对应时隙上的子问题并分别进行求解；

(1)P1：通过进行切片资源动态调整以最大化SP长期收益，形式化定义为：

对于子优化问题P1，其目标是找到合适的网络切片策略，在每个长时隙开始时刻进行切片资源划分，以最大化SP的长期收益；由于SP无法直接获知未来长时隙的资源需求，通过对SP历史资源需求进行分析进而执行未来长时隙的切片资源划分；

(2)P2：通过执行计算卸载与资源分配决策以最大化每个短时隙内的累积回报，形式化定义为：

对于子优化问题P2，其目标是在每个短时隙开始时刻进行合理的计算卸载决策，使得SP获得的回报最大化。

进一步地，针对优化问题P1和P2，采用面向5G网络切片的计算卸载CONS方法，结合了长短期记忆LSTM与双延迟深度确定性策略梯度TD3算法；首先，利用LSTM算法预测未来的用户请求数量并执行相应的网络资源切片划分；接着，基于网络资源切片划分结果，利用TD3算法进行计算卸载与资源分配决策以最大化SP的收益

进一步地，对于优化问题P1，通过预测切片未来资源需求来进行网络资源切片划分；将切片资源需求预测转换为用户请求数量预测，并将预测结果与任务平均需求相结合进行切片资源划分：

算法1的输入是SP长时隙上的用户请求数量，目标是预测未来长时隙的用户请求数量；首先，初始化LSTM网络学习率γ、网络训练轮次M、用户请求数量输入长度L_c和用户请求数量预测长度L_p，并根据L_c和L_p将长时隙数据划分为输入请求数量和预测请求数量；LSTM单元通过遗忘门、输入门和输出门三个门结构控制进入网络的信息流；对每个长时隙h，使用z_h更新遗忘门和输入门，遗忘门f_h决定上一时刻被遗忘的信息，输入门i_h决定将要存储到当前单元状态中的新信息；接着，计算h时刻的单元候选状态，其定义为：

接着，利用遗忘门f_h、单元候选状态和输入门i_h更新单元状态C_h，随后，依次更新输出门O_h和隐藏层输出H_h；最后，利用MSE损失函数计算预测值和真实值之间的偏差并利用Adam训练器更新LSTM参数直到执行完所有的训练轮次；训练完成后，在每个长时隙的开始时刻，将历史L_c个长时隙的用户请求数量输入模型，得到未来长时隙的用户请求数量预测值；

根据用户请求数量的预测结果，SP向InP提出切片资源划分请求；使用θ_w和θ_c分别表示卸载一个任务所需的单位带宽与计算资源比例，表示预测的用户请求数量，则在h时隙切片资源划分比例为用户请求数量与单位资源比例的乘积，即：

θ_w和θ_c由可用的MEC资源与任务需求决定；不同的θ_w和θ_c使SP产生不同的切片资源划分比例，进而导致SP获得不同的收益。

进一步地，对于优化问题P2，基于网络切片划分结果，采用基于TD3的计算卸载与资源分配决策算法；通过引入Actor-Critic架构，TD3使用Critic网络评估每个动作的Q值，使用Actor网络生成相应的计算卸载与资源分配动作；将MEC系统视为环境，TD3智能体通过与环境交互选择动作，并通过环境反馈的奖励信号更新智能体，表述为一个马尔可夫决策过程；

状态空间、动作空间和奖励函数定义如下：

状态空间：状态空间包含短时隙内SP拥有的带宽与计算资源比例，以及卸载到SP任务的相关属性；因此，在短时隙t时刻的系统状态表示为：

其中，

动作空间：动作空间包含对任务的卸载决策、上传任务的带宽分配比例以及执行任务的计算资源分配比例；因此，在短时隙t时刻的动作表示为：

a_t＝{x^t,α^t,β^t}， (15)

其中，

奖励函数：P2的优化目标为最大化SP在每个短时隙内的累积回报；因此，在短时隙t时刻的奖励函数定义为SP所能获得的回报，表示为：

基于TD3的计算卸载与资源分配包括以下步骤：

首先，初始化Critic网络Q₁、Q₂和策略网络μ；TD3采用两个独立的Critic网络拟合Q函数并使用其中的较小值进行计算；接着，通过复制在线网络参数初始化目标Critic网络Q₁′、Q₂′和目标策略网络μ′；接着，初始化经验回放池RB、训练回合N、每回合长时隙数量H以及长时隙包含的短时隙数量T，通过引入经验回放机制，以降低数据间的相关性；

在每个训练回合，首先初始化环境，获取环境初始状态；在每个长时隙开始时刻，SP将历史长时隙的用户请求数量输入到通过算法1训练得到的模型，获得当前长时隙用户请求数量的预测值；接着，通过计算公式(12)和(13)，将预测值转换为资源租用比例并做出相应的切片划分决策；在每个短时隙，将状态s_t输入到策略网络μ，智能体根据探索噪声和策略网络搜索并输出得到当前状态下最优的计算卸载和资源分配动作a_t，以避免算法陷入局部最优；接着，环境根据a_t执行任务之后返回相应的即时奖励和下一状态；在环境给出下一状态后，当前短时隙的状态转移过程将存入经验回放池，当存入经验回放池的训练样本达到K条时，随机选出K条记录用于网络参数更新；

TD3利用Critic网络拟合Q(s_t,a_t)，目标是使其能精确反映每个动作相对应的Q值；利用Actor网络拟合s_t与a_t之间的映射关系，目的是找到最优的Actor网络，对于每个状态都能选择合适的动作，进而最大化MDP中的奖励；对于Critic网络的更新，首先利用目标策略网络和网络噪声得到s_t+1下的动作表示为：

其中，网络噪声可视为一种正则化，能使得相似的动作具有相似的回报估计；接着，通过比较两个Critic网络中的较小值和当前状态奖励来获取目标Q值y_target，表示为：

最后，使用网络参数和目标Q值分别更新Critic网络，TD3对策略网络和目标网络采取延迟更新的方式；当满足网络更新条件时，使用梯度上升法更新Actor网络，使用软更新的方式更新目标网络。

最终形成方案的使用过程为：

(1)CONS收集SP历史用户请求数量，对未来请求数量进行预测，并转换为SP对资源的需求，根据该资源需求SP向基础设施提供商请求资源。

(2)基础设施提供商响应SP的资源请求，为其划分网络切片，并收取相应的成本。

(3)CONS根据目前SP划分到的资源情况，用户的任务属性(如任务大小、计算需求、最大容忍时延等)和用户优先级生成计算卸载和资源分配策略。

(4)MEC服务器根据计算卸载和资源分配结果，接收或拒绝用户发送的卸载请求，对于接收的用户任务进行资源分配。

(5)在计算卸载过程中，记录各个时隙的用户数量，状态、采取的动作、获得的奖励以及转入的新状态。根据以上信息，CONS会生成相应的网络切片与计算卸载决策。

相比于现有技术，本发明及其优选方案通过有效结合LSTM和TD3算法，提出了一种新型的CONS方法对MEC环境中面向5G网络切片的计算卸载问题进行求解，旨在提高SP的收益并降低其所需成本。基于真实用户通信流量数据集，本发明通过大量实验验证了所提出的CONS方法在提高SP收益方面的有效性。实验结果表明，相比其他5种基准方法，CONS方法在不同资源租用比例下均表现出了更加优越的性能。与先进的DDPG和TD3方法相比，CONS方法也展现出了更加快速且稳定的收敛效果。仿真实验结果表明，该方法对提高MEC环境下的SP收益具有重要意义。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1为本发明实施例面向5G网络切片的MEC系统示意图；

图2为本发明实施例基于TD3的计算卸载与资源分配示意图；

图3为本发明实施例CONS方法对用户请求数量的预测性能示意图；

图4为本发明实施例不同方法的收敛性对比示意图；

图5为本发明实施例网络带宽租用比例对不同方法性能的影响示意图；

图6为本发明实施例计算资源租用比例对不同方法性能的影响示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

如图1所示，本实施例所提出的计算卸载模型包含一个基站(Base Station，BS)、一个MEC服务器和一个SDN控制器。其中，BS和MEC服务器可为来自5G智能应用的计算任务提供网络和计算资源，SDN控制器负责收集系统状态与切片请求，并将网络与计算资源虚拟化以提供逻辑隔离的网络切片。在所提出的系统中，包含以下三种角色：

(1)基础设施提供商(记为InP)：网络和计算资源的管理者，根据SP提出的切片请求，将资源按照一定比例分配给SP；

(2)服务提供商(记为SP)：向InP发起切片请求，获取网络和计算资源并为指定的用户提供服务；

(3)用户：向SP支付一定费用以访问其所提供的服务(即，计算卸载服务)。

系统中SP的集合表示为S＝{s₁,s₂,...,s_n}，s_j(1≤j≤n)所服务的用户集合表示为U＝{u₁,u₂,...,u_m}，其中，n表示SP的数量，m表示s_j所服务的用户数量。一个SP可为多个用户提供服务，但一个用户仅会订阅到一个SP。BS的总带宽和MEC服务器的总算力分别表示为W和C，由多个网络切片共享这些资源，且可对它们所分配的比例进行动态调整。为了更符合真实场景且避免频繁地调整切片，系统考虑了两种具有不同尺度的时隙(即长时隙和短时隙)。具体而言，长时隙记为h∈{1,2,...,H}，在每个长时隙h的开始阶段，SP会对服务所需的资源进行评估，并向InP发起切片资源划分请求。每个长时隙分为若干短时隙，记为t∈{1,2,...,T}，在每个短时隙t的开始阶段，用户会向SP发起计算卸载请求，SP会对接收到的用户任务进行评估，并给出相应的计算卸载与资源分配决策。

在每个短时隙开始阶段，不同数量的用户会向SP发起计算卸载请求以执行其任务。来自用户u_i(1≤i≤m)的任务被定义为一个四元组，记为＜a_i,c_i,d_i,ρ_i＞，其中，a_i为该任务的数据量，c_i为完成该任务所需的计算资源，d_i为该任务的最大容忍时延，ρ_i为该用户的优先级。优先级表示用户的服务等级，优先级越高，在最大容忍时延内完成任务所能获得的回报也就越高。当u_i将其任务发送给SP后，SP决定在本地或MEC服务器执行该任务。其中，表示u_i在短时隙t时的卸载决策。当/>时，u_i将任务卸载到MEC服务器上执行，所依赖的数据也将随之上传；当/>时，任务在本地执行。

(1)本地计算模式

当用户u_i在本地执行任务时，相应的执行时间为：

其中，F_i ^loc为u_i的本地计算能力(即CPU频率)。

(2)边缘计算模式

当u_i将任务卸载到MEC服务器上执行时，其过程包含上传任务、执行任务和返回结果等三个阶段。其中，上传任务和执行任务的时间依赖于SP分配给用户u_i的带宽和计算资源。相比于输入数据大小，执行结果数据量通常较小，因此返回结果的时间可忽略不计。

在t时刻，当u_i将任务卸载到MEC服务器上执行时，首先需要通过无线接入网络上传输入数据到BS。本实施例采用无线接入通信模型来计算设备与BS之间的传输速率，因此，任务的输入数据上传到BS所需的时间为：

其中，是s_j在长时隙h分配到的带宽资源占比，/>是s_j在短时隙t分配给u_i的带宽资源比例，p_i是u_i的上传功率，g_i和σ_i分别是信道增益和高斯白噪声功率。当任务上传到BS后，SP会对该任务分配相应的计算资源以完成该任务。因此，在边缘执行任务所需的时间为：

其中，是s_j在长时隙h分配到的计算资源占比，/>是s_j在短时隙t分配给u_i的计算资源比例。

当u_i的任务在本地执行时，任务完成时间等于本地执行时间；当u_i的任务在MEC服务器上执行时，任务完成时间为上传任务时间与边缘执行时间之和。因此，任务总的完成时间为：

一方面，SP会根据其提供的服务向用户收取一定的费用。如果用户的任务能在其最大容忍延迟内完成，SP可获得一个单位回报Φ，否则无回报。在短时隙t内，s_j获得来自u_i的单位回报定义为：

当SP在最大容忍时延内完成不同优先级用户的任务时，所能获得的回报是不同的，完成优先级越高用户的任务所能获得的回报也就越高。因此，s_j在长时隙h内的回报定义为：

另一方面，SP租用InP的资源也需要支付一定的费用，该费用与SP租用的资源量成正比。在长时隙h内，SP租用带宽和计算资源所需的成本定义为：

其中，和/>分别表示租用网络带宽和计算资源的单位价格。

基于所提出的系统模型，所提出优化目标为最大化SP从各服务用户获得的长期收益之和。该优化问题可形式化定义为：

其中，限制条件C1和C2分别表示s_j分配到的带宽与计算资源比例介于0到1之间；限制条件C3表示任务只能本地处理或通过SP卸载到边缘执行；限制条件C4和C5分别表示SP分配给所有用户带宽与计算资源比例之和皆为1。

由于网络切片与计算卸载属于两个不同时间尺度上的问题，该问题难以统一求解进而获取到理想的解决方案。为了更好地解决该问题，本实施例考虑将该上述优化问题拆分为两个对应时隙上的子问题并分别进行求解。

(1)P1：通过进行切片资源动态调整以最大化SP长期收益。该子问题可形式化定义为：

对于子优化问题P1，其目标是找到合适的网络切片策略，在每个长时隙开始时刻进行切片资源划分，以最大化SP的长期收益。由于SP无法直接获知未来长时隙的资源需求，本实施例通过对SP历史资源需求进行分析进而执行未来长时隙的切片资源划分。

(2)P2：通过执行计算卸载与资源分配决策以最大化每个短时隙内的累积回报。该子问题可形式化定义为：

对于子优化问题P2，其目标是在每个短时隙开始时刻进行合理的计算卸载决策，使得SP获得的回报最大化。对于不同的短时隙，需要处理的卸载任务和请求数量往往是不同的。因此，在每个短时隙需要根据SP分配到的切片资源和用户任务的需求来执行相应的计算卸载与资源分配策略。

进一步地，针对优化问题P1和P2，本发明提出了一种面向5G网络切片的计算卸载(Computation Offloading towards Network Slicing，CONS)方法。所提出的CONS方法有效结合了长短期记忆(Long Short-Term Memory，LSTM)与双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient，TD3)算法。首先，利用LSTM算法预测未来的用户请求数量并执行相应的网络资源切片划分；接着，基于网络资源切片划分结果，利用TD3算法进行计算卸载与资源分配决策以最大化SP的收益。

通常，网络切片与资源分配的性能在很大程度上取决于对负载的精确预测，通过分析历史用户请求对未来资源需求变化进行预测有助于合理高效地利用MEC资源进行卸载任务的处理。因此，对于优化问题P1，本实施例通过预测切片未来资源需求来进行网络资源切片划分。但是，切片的资源需求难以通过定量统计卸载任务直接得到。为了解决该问题，本实施例将切片资源需求预测转换为用户请求数量预测，并将预测结果与任务平均需求相结合进行切片资源划分。

作为一种改进的循环神经网络(Recurrent Neural Network，RNN)，LSTM能够有效提取序列中的时间相关性并解决了传统RNN中的梯度消失问题，被广泛应用于流量预测。基于所提出的系统模型与P1问题定义，本发明提出了一种基于LSTM的用户请求数量预测方法，其关键步骤如算法1所示。

该算法输入是SP长时隙上的用户请求数量，目标是预测未来长时隙的用户请求数量。首先，初始化LSTM网络学习率γ、网络训练轮次M、用户请求数量输入长度L_c和用户请求数量预测长度L_p，并根据L_c和L_p将长时隙数据划分为输入请求数量和预测请求数量(第1-2行)。LSTM单元通过三个门结构(即，遗忘门、输入门和输出门)控制进入网络的信息流。对每个长时隙h，使用z_h更新遗忘门和输入门，遗忘门f_h决定上一时刻被遗忘的信息，输入门i_h决定将要存储到当前单元状态中的新信息(第3-5行)。接着，计算h时刻的单元候选状态，其定义为：

接着，利用遗忘门f_h、单元候选状态和输入门i_h更新单元状态C_h(第6行)，随后，依次更新输出门O_h和隐藏层输出H_h(第7-8行)。最后，利用MSE损失函数计算预测值和真实值之间的偏差并利用Adam训练器更新LSTM参数直到执行完所有的训练轮次(第9-12行)。训练完成后，在每个长时隙的开始时刻，将历史L_c个长时隙的用户请求数量输入模型，即可得到未来长时隙的用户请求数量预测值。

根据用户请求数量的预测结果，SP会向InP提出切片资源划分请求。使用θ_w和θ_c分别表示卸载一个任务所需的单位带宽与计算资源比例，表示预测的用户请求数量，则在h时隙切片资源划分比例为用户请求数量与单位资源比例的乘积，即：

需要注意的是，θ_w和θ_c由可用的MEC资源与任务需求决定。不同的θ_w和θ_c会使得SP产生不同的切片资源划分比例，进而导致SP获得不同的收益。

对于优化问题P2，基于网络切片划分结果，本发明提出了一种基于TD3的计算卸载与资源分配决策算法。通过引入Actor-Critic架构，TD3使用Critic网络评估每个动作的Q值，使用Actor网络生成相应的计算卸载与资源分配动作。如图2所示，本发明将所提出的面向5G网络切片的MEC系统视为环境，TD3智能体通过与环境交互来选择动作，并通过环境反馈的奖励信号来更新智能体，该过程可表述为一个马尔可夫决策过程。

相应地，状态空间、动作空间和奖励函数定义如下：

状态空间：状态空间包含短时隙内SP拥有的带宽与计算资源比例，以及卸载到SP任务的相关属性。因此，在短时隙t时刻的系统状态可表示为：

其中，

动作空间：动作空间包含对任务的卸载决策、上传任务的带宽分配比例以及执行任务的计算资源分配比例。因此，在短时隙t时刻的动作可表示为：

a_t＝{x^t,α^t,β^t}， (15)

其中，

奖励函数：P2的优化目标为最大化SP在每个短时隙内的累积回报。因此，在短时隙t时刻的奖励函数定义为SP所能获得的回报，其表示为：

基于所提出的系统模型与P2问题定义，本发明提出了一种基于TD3的计算卸载与资源分配方法，其关键步骤如算法2所示。

/>

首先，初始化Critic网络Q₁、Q₂和策略网络μ(第1行)。不同于传统DRL方法使用最大化的Q值进行评估，TD3采用了两个独立的Critic网络来拟合Q函数并使用其中的较小值进行计算。这是因为最大化Q值的方式可能会对动作值造成过高估计，累积的误差会导致算法陷入次优策略。接着，通过复制在线网络参数来初始化目标Critic网络Q₁′、Q₂′和目标策略网络μ′(第2行)，TD3采用了独立的目标网络以增强方法的鲁棒性。接着，初始化经验回放池RB、训练回合N、每回合长时隙数量H以及长时隙包含的短时隙数量T(第3行)，由于TD3智能体与环境交互得到的训练样本不是独立同分布的，通过引入经验回放机制，可以降低数据间的相关性。

在每个训练回合，首先初始化环境，获取环境初始状态(第4-5行)。在每个长时隙开始时刻，SP将历史长时隙的用户请求数量输入到通过算法1训练得到的模型，获得当前长时隙用户请求数量的预测值(第6-7行)。接着，通过计算公式12和13，将预测值转换为资源租用比例并做出相应的切片划分决策(第8行)。在每个短时隙，将状态s_t输入到策略网络μ，智能体根据探索噪声和策略网络搜索并输出得到当前状态下最优的计算卸载和资源分配动作a_t，探索噪声可以避免算法陷入局部最优。接着，环境根据a_t执行任务之后返回相应的即时奖励和下一状态(第9-15行)。在环境给出下一状态后，当前短时隙的状态转移过程将存入经验回放池，当存入经验回放池的训练样本达到K条时，随机选出K条记录用于网络参数更新(第16-17行)。

TD3利用Critic网络拟合Q(s_t,a_t)，目标是使其能精确反映每个动作相对应的Q值。利用Actor网络拟合s_t与a_t之间的映射关系，目的是找到最优的Actor网络，对于每个状态都能选择合适的动作，进而最大化MDP中的奖励。对于Critic网络的更新，首先利用目标策略网络和网络噪声得到s_t+1下的动作(第18行)，该过程可表示为：

其中，网络噪声可视为一种正则化，能使得相似的动作具有相似的回报估计。接着，通过比较两个Critic网络中的较小值和当前状态奖励来获取目标Q值y_target(第19行)，该过程可表示为：

最后，使用网络参数和目标Q值分别更新Critic网络(第20行)。为了减少错误策略的更新频率，TD3对策略网络和目标网络采取了延迟更新的方式。当满足网络更新条件时，使用梯度上升法更新Actor网络，使用软更新的方式更新目标网络(第21-23行)。因此，策略网络的更新频率大于Critic网络的更新频率。相比于频繁更新网络，这种延迟更新的方式可减少累计误差并提升算法训练的稳定性。

方法评估

为验证所提出的CONS方法的可行性，本发明基于Python3.7搭建所提的MEC系统的仿真环境，并利用开源机器学习框架Pytorch实现CONS方法。仿真实验在一台配备IntelXeon Silver 4208处理器和RTX 3090显卡的服务器上进行。为进一步验证CONS方法的有效性，使用了米兰蜂窝流量真实数据集模拟用户请求的动态变化性，该数据集包含短信、呼叫和互联网三种通信服务类型，并以10分钟为采样频率记录了2个月内用户的通信流量变化。在实验中，将每次采样的服务通信次数视为一个短时隙开始时刻的请求用户数量。一个长时隙包含6个短时隙，一次训练回合包含24个长时隙。MEC服务器的总算力为30GHz，BS的总带宽为15MHz，用户的本地计算能力为1GHz。用户任务的数据量和计算量均匀分布在[200,500]KB和[800,1200]MHz，任务的最大容忍时延分布在[0.5,0.9]s，用户的优先级为分布在[1,3]的整数。用户上传功率为100mW，BS信道增益与高斯白噪声功率分别为10^-4W和10^-8W。在默认设置下，SP带宽和计算资源租用比例为0.6，单位带宽和计算资源租用比例为0.1，完成用户提出任务的单位回报为4，租用带宽资源成本为3.4/Mbps，计算资源成本为6.1/GHz。此外，本实施例将所提出的CONS方法与以下5种基准方法进行了对比：

Local：所有任务都在本地执行，不用考虑租用MEC基础设施的成本；

MEC-Avg：所有任务都卸载至MEC服务器执行，SP对带宽和算力资源进行平均分配；

MEC-Prop：所有任务都卸载到MEC服务器执行，SP对带宽和算力资源按比例分配；

DDPG：利用DDPG进行计算卸载与资源分配；

TD3：利用TD3进行计算卸载与资源分配。

上述基准方法均采用固定切片划分，而没有对切片资源进行动态调整。

首先，本实施例评估了所提出的CONS方法对用户请求数量的预测性能。在实验中，CONS方法利用5个长时隙的历史用户请求数量来对下一个长时隙的用户请求数量进行预测，预测值与真实值的对比如图3所示。可以发现，数据集中的用户请求数量分布呈现出一定的周期性，符合现实场景中的用户日常行为特征。所提出的CONS方法能够很好地跟踪用户请求数量的变化规律，在不同长时隙中均展现出了优秀的预测性能。进一步地，CONS方法将用户请求数量的精确预测结果作为切片资源划分的基础，结合不同任务的属性为SP动态地划分MEC资源，以提高SP的长期收益。

接着，本实施例对比了不同方法的收敛性。如图4所示，Local、MEC-Avg和MEC-Prop等方法为单步决策，不存在学习的过程，因此其性能不随着训练回合而发生改变。同时，这三种方法的性能不如其他三种基于DRL的方法。因为它们选择执行任务的方式比较盲目，没有充分考虑当前系统状态和任务特性，导致了很多任务因为超出其最大容忍时延而无法获得相应的收益。相比DDPG方法，TD3和CONS方法在训练过程中展现出了更加稳定的收敛性且获得了更高的奖励。这是因为TD3和CONS方法采用了延迟更新的策略，相比DDPG方法频繁地更新Actor网络，延迟更新的方式使得算法能够更加稳定地收敛。同时，TD3和CONS方法采用了两个独立的Critic网络，有效地解决了DDPG方法中存在的Q值过高估计问题。因此，TD3和CONS方法能够找到更优的计算卸载与资源分配策略，进而获得更高的奖励。相比TD3方法，所提出的CONS方法能够进一步地提高SP的收益，在所有方法中展现出了最佳的性能。这是因为相比TD3方法采用固定切片资源划分，CONS方法能够利用对用户请求数量的精确预测进行切片资源的动态调整，更加高效地利用了MEC资源，满足了更多用户的服务请求。

接着，本实施例评估了SP网络带宽租用比例对不同方法性能的影响，为避免实验的偶然性，本实施例在相同设置下运行10次实验并对结果取平均值。如图5所示，因为Local方法不存在计算卸载过程，所以网络带宽租用比例的变化对其没有影响。对MEC-Avg和MEC-Prop方法而言，当租用带宽比例较低时，每个用户只能分配到较少的带宽，这造成了大量的任务上传时间。因此，很多用户的请求无法在其最大容忍时延内完成，但同时也需要考虑租用资源的成本，这使得SP的收益出现了负值且性能不如Local方法。随着SP网络带宽租用比例的增加，除Local方法外的其他5种方法的性能逐渐提升且趋于稳定。在这之中，MEC-Avg和MEC-Prop方法的性能提升最为明显。这是因为随着网络带宽租用比例的增加，更多的任务可被顺利完成，SP因此能够获得更高的收益。对于不同的网络带宽租用比例，相比其他5种基准方法，本实施例所提出的CONS方法均能获得更高的奖励，这也证明了CONS方法在处理切片资源划分与计算卸载问题上所具备的性能优势，能有效帮助SP获得更高的收益。

最后，本实施例评估了SP计算资源租用比例对不同方法性能的影响，并将运行10次实验后取平均值的结果进行对比。如图6所示，由于Local方法不存在计算卸载过程，因此计算资源租用比例的变化对其没有影响。随着SP计算资源租用比例的增加，除Local方法外的其他5种方法的性能均先增加后减少。具体而言，当SP计算资源租用比例低于0.8时，随着计算资源租用比例的增加，SP所增加的回报高于其所需的成本，因此SP的收益随之增加。当SP计算资源租用比例高于0.8时，SP完成任务而获得回报的速度减缓，但成本仍在增加，所增加的回报低于所需的成本，因此SP的收益也开始下降。这也表明此时SP租用了过剩的资源，出现了资源浪费的情况。相比TD3和DDPG方法，本实施例所提出的CONS方法获得了更高的奖励。这是因为CONS方法能够精确预测SP计算资源需求并使用双延迟Critic网络优化计算卸载与资源分配过程，展现出了CONS方法在处理网络切片划分与计算卸载问题时的优越性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的MEC环境中面向5G网络切片的计算卸载方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种MEC环境中面向5G网络切片的计算卸载方法，其特征在于，采用结合LSTM和TD3的CONS方法利用长短期记忆对MEC环境下动态的用户数量进行分析和预测，以指导网络切片的划分；基于切片划分的结果，CONS使用双延迟深度确定性策略梯度算法进行计算卸载与资源分配决策，以最大化服务提供商的收益。

2.根据权利要求1所述的MEC环境中面向5G网络切片的计算卸载方法，其特征在于：通过考虑用户请求随时隙动态变化的特征，将SP的长期收益作为优化目标构建面向网络切片的双时隙计算卸载模型；并采用CONS方法进行求解：首先，基于历史数据，CONS利用门控循环神经网络精确预测未来时隙的用户请求数量，进而利用预测结果与任务的单位资源需求指导SP进行网络切片资源的划分；接着，基于网络切片资源划分结果，CONS能够有效应对高维动作空间，以逼近动态MEC环境下的最优计算卸载与资源分配策略。

3.根据权利要求2所述的MEC环境中面向5G网络切片的计算卸载方法，其特征在于：

计算卸载模型包括计算卸载模型包含一个基站BS、一个MEC服务器和一个SDN控制器；其中，BS和MEC服务器为来自5G智能应用的计算任务提供网络和计算资源，SDN控制器负责收集系统状态与切片请求，并将网络与计算资源虚拟化以提供逻辑隔离的网络切片；且包含以下三种角色：

(1)本地计算模式

当用户u_i在本地执行任务时，相应的执行时间为：

其中，F_i ^loc为u_i的本地计算能力；

(2)边缘计算模式

其中，和/>分别表示租用网络带宽和计算资源的单位价格；

4.根据权利要求3所述的MEC环境中面向5G网络切片的计算卸载方法，其特征在于：针对优化问题P1和P2，采用面向5G网络切片的计算卸载CONS方法，结合了长短期记忆LSTM与双延迟深度确定性策略梯度TD3算法；首先，利用LSTM算法预测未来的用户请求数量并执行相应的网络资源切片划分；接着，基于网络资源切片划分结果，利用TD3算法进行计算卸载与资源分配决策以最大化SP的收益。

5.根据权利要求4所述的MEC环境中面向5G网络切片的计算卸载方法，其特征在于：

对于优化问题P1，通过预测切片未来资源需求来进行网络资源切片划分；将切片资源需求预测转换为用户请求数量预测，并将预测结果与任务平均需求相结合进行切片资源划分：

6.根据权利要求5所述的MEC环境中面向5G网络切片的计算卸载方法，其特征在于：

对于优化问题P2，基于网络切片划分结果，采用基于TD3的计算卸载与资源分配决策算法；通过引入Actor-Critic架构，TD3使用Critic网络评估每个动作的Q值，使用Actor网络生成相应的计算卸载与资源分配动作；将MEC系统视为环境，TD3智能体通过与环境交互选择动作，并通过环境反馈的奖励信号更新智能体，表述为一个马尔可夫决策过程；

状态空间、动作空间和奖励函数定义如下：

其中，

基于TD3的计算卸载与资源分配包括以下步骤：