CN112118601A

CN112118601A - 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法

Info

Publication number: CN112118601A
Application number: CN202010834304.3A
Authority: CN
Inventors: 张海宾; 孙文; 王榕; 张文琦; 张彦
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-12-22
Anticipated expiration: 2040-08-18
Also published as: CN112118601B

Abstract

本发明公开了一种减少6G数字孪生边缘计算网络任务卸载延迟的方法。主要提出一种新的数字孪生边缘计算网络，使用数字孪生估计边缘服务器的状态以提供训练数据，并将用户移动过程中的一系列卸载决策的优化问题形式化，使用Lyapunov优化方法将长期迁移成本约束简化为一个多目标动态优化问题，最终使用基于Actor‑Critic的深度学习框架解决计算卸载优化问题，训练Agent由数字孪生边缘计算网络实现。本发明实现了在保持较低系统成本的前提下，最大限度降低卸载延迟、任务失败率和迁移率。

Description

一种减少6G数字孪生边缘计算网络任务卸载延迟的方法

技术领域

本发明涉及移动边缘计算领域，具体涉及一种减少6G数字孪生边缘计算网络任务卸载延迟的方法。

背景技术

第六代电信蜂窝网络(6G)通过将真实网络数字化实现无线通信和计算，致力于提供优于5G的性能。移动边缘计算(MEC)是实现6G中移动负载的重要技术。随着计算密集型和时间敏感型应用的普及使用，大量移动物联网设备将计算任务卸载到边缘服务器，造成网络时延的增长和用户任务卸载失败等问题，而在特大城市的网络边缘部署密集的计算和存储服务器将增加配置成本。因此，优化移动边缘计算卸载策略问题显得尤为重要。

现有针对移动边缘计算卸载问题的发明主要利用博弈论或机器学习方法来减轻决策负担，从而减少计算延迟和能耗。在涉及用户的移动性时，未考虑到当前卸载决策对后续决策产生的影响，无法做出一系列最优的卸载决策。且大部分决策假设在静态的MEC场景中或认为边缘服务器的状态预先知道，未考虑到用户在上传任务时所处的环境状况，忽略了边缘服务器的动态特性。同时，现有的发明更多将数字孪生(DT)应用于物流系统或工业自动化和控制系统的仿真，未将DTs应用于移动边缘卸载中且考虑DT估计值与真实值之间的偏差。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，使用数字孪生(DTs)估计边缘服务器的状态，提供一种基于深度强化学习(DRL)的移动边缘计算(MEC)动态移动卸载方案，达到在用户移动过程中累积消耗的服务迁移的代价下最小化卸载延迟的目的，并给出数字孪生边缘计算网络(DITEN)中的训练框架。

本发明是通过以下技术方案来实现：

一种减少6G数字孪生边缘计算网络任务卸载延迟的方法，包括如下步骤：

本发明的具体实施步骤如下：

步骤1，建立6G中的数字孪生边缘计算模型

本发明为了表示边缘服务器和整个MEC系统，提出了一种新的数字孪生边缘计算网络(DITEN)

表示边缘服务器i的数字孪生，f_i是边缘服务器i的估计计算性能，

为可用CPU频率。用以描述真实边缘服务器与其DT之间的偏差。

D^s为MEC系统数字孪生，E^s是整个MEC系统中边缘服务器的状况，R^s是选择不同边缘服务器的估计收益。用以获得系统的估计性能值。

步骤2，建立数字孪生边缘计算网络(DITEN)的计算任务卸载模型

使用

表示用户在时间t处有卸载任务，其中η_t表示以位为单位的卸载任务的大小，λ_t是完成卸载任务所需的总CPU周期数，γ_t表示任务k_t的等待时间要求。

使用

表示时间t处的可用边缘服务器，

表示时间t处MD的服务边缘服务器。

使用{e₁，...，e_τ}表示在用户移动性期间确定一系列服务边缘服务器(假设用户的整个旅程需要τ个时间)。

使用C表示从边缘服务器迁移到另一台服务器的服务成本。h_t∈{0，1}是服务迁移模块的迁移决策结果，h_t＝1表示时间t中的边缘服务器与时间t-1中的边缘服务器不同，h_t＝0表示相同。选择e_t作为服务边缘服务器的MD的服务迁移成本表示为：

步骤3，建立通信延迟模型

在本发明所建立通信延迟模型中，由于计算服务的输出通常较小，下行链路传输延迟忽略不计。上行链路延迟包括从用户接入BS b_t无线的无线传输延迟

和从接人BS b_t无线到边缘服务器e_t的有线传输延迟

表示为：

在上行无线传输模型中，给定用户与接入BS之间的信号干扰噪声比(SINR)和信道带宽W，利用香农定理得到最大可达上行无线传输速率。卸载任务k_t的无线传输延迟可以表示为：

用户与无线接入BS之间的SINR是接收到的用户信号强度与接收到的干扰和噪声信号强度的比值为：

其中σ²是高斯白噪声的功率，Φ是给定信道上BS b_t的其他干扰器集，

是接收信号强度，p_j是传输功率，

是发射机和接收机BS之间的距离，α是路径损耗指数。

表示用户与计算服务边缘服务器e_t之间的距离，Ψ表示每单位距离的延迟，网络传播延迟表示为：

步骤4，建立计算延迟模型

计算延迟取决于边缘服务器e_t的繁忙程度，可以由其DT根据可用CPU频率

来估计。对于用户选择e_t来完成其卸载任务k_t，任务的估计计算延迟

可以表示为：

本发明假设可以预先获得边缘服务器与其DT之间的偏差，则可以通过计算DT估计与实际值之间的计算延迟G^cmp(e_t)：

实际计算延迟可以通过

和G^cmp(e_t)之和得到，可以表示为：

步骤5，确定移动卸载延迟优化函数

总卸载延迟表示为：

T^glob(e_t)＝T^com(e_t)+T^cmp(e_t)

用户的满意度随着T^glob(e_t)的降低而提高，其中T^glob(e_t)≤γ_t表示任务处理成功。

为减少累积迁移成本下的卸载延迟，得到在用户τ时间的整个移动行程中的服务边缘服务器的卸载序列{e₁，...，e_τ}，形成优化函数：

P1：

s.t.

T^glob(e_t)≤γ_t，

步骤6，简化移动卸载延迟优化函数

用Lyapunov动态赤字队列优化方法，将迁移成本赤字队列Q(t)的演变表示为：

其中β是服务迁移率的上限，βC是一个时间中可用的迁移成本，C(e_t)-βC是时间t内迁移成本的偏差。

本发明将原始问题转化为一个没有长期约束的优化问题。简化的目标函数可以表示为：

P2：

s.t.T^glob(e_t)≤γ_t

其中υ和Q(t)是正控制参数，权衡动态处理延迟性能和迁移成本消耗。

步骤7，使用马尔可夫决策过程(MDP)描述动态MEC场景

可用的计算/无线资源的变化和所描述的无线环境的变化遵循马尔可夫特性。其具有三个关键要素，即状态集S、动作集A和奖励函数集R描述如下。

状态：在每个决策时间t，MEC系统的状态表示为：

其中

是用户与边缘服务器e_t之间的距离，

是由其DT估计的边缘服务器e_t的状态值，

是边缘服务器真值和它的DT之间的估计偏差，Q(t)是迁移成本赤字队列的长度。假设边缘服务器的DT提供边缘服务器状态的估计，而具有偏差

则整个MD t∈[1，τ]的行程的状态形成整体状态空间

动作：动作描述Agent的策略。基于当前系统状态S_t，移动卸载模块做出动作A_t，可以表示为：

其中A_t是从可能的集合

中选择的动作。在时间集t∈[1，τ]上的动作形成整体动作空间

奖励：奖励功能反映了行动决策对系统有什么好处。基于当前系统状态S_t和所选择的动作在时间t，MD获得的奖励可以表示为：

R_t＝-υT^glob(e_t)-Q(t)C(e_t)

奖励函数集

是所有时隙t∈[1，τ]中获得的奖励的集合。为避免DT偏差可能导致奖励设置错误，进而导致学习失败，使用步骤4中的计算延迟公式校准计算延迟，并将TD偏差作为训练网络的输入状态之一。状态值函数是当前状态S_t时的预期累积奖励，可以表示为V^π(S_t+1)＝R_t+εV^π(S_t)，其中ε是奖励衰减因子。通过求解MDP，得到最小化卸载延迟和迁移成本的策略。

步骤8，提出基于Actor-Critic的深度强化学习(DRL)移动卸载方案

本发明使用Actor-Critic作为DRL算法的框架。在训练步骤中，Actor-Critic网络以DITEN环境的状态作为输入。Actor网络根据动作概率P_t和状态ST在系统的DT中执行动作A_t，获得由系统的DT给出的奖励和状态输出，并将输出反馈到Critic网络。Critic网络利用Actor网络的输出反馈计算出误差TD-error来更新自己的参数，并将其传输到Actor网络以更新具有概率P_t的参数。如果时间差值TD-error较大，当前Actor网络选择的动作的优势更大，需要更高的发生概率来减少时间差值。此过程重复，直至训练结束。

在训练后，将所提出的移动卸载决策Agent部署在移动卸载管理模块上，根据可用的边缘服务器的DTS进行最优决策。在运行过程中，将用户的状态转换成数据进行收集并放入训练池中进行Agent的再训练。首先，决策Agent收集用户周围边缘服务器的状态作为训练Actor网络的输入，通过Act获得动作概率分布的输出或网络，并选择输出概率最大的动作作为执行动作。然后在实际环境和接收到的环境提要中执行所选择的操作，将ACK值存储在训练池中。

本发明提出一种减少6G数字孪生边缘计算网络任务卸载延迟的方法，相较于现有技术具有以下优点。

第一：本发明提出了一种新的数字孪生边缘计算网络(DITEN)，并考虑了边缘服务器状态的真实值与其数字表示之间存在差异对卸载决策的影响，使得边缘服务器实体和整个MEC系统的状态能够数字化，为后续深度强化学习提供训练数据并有效模拟卸载决策。

第二：本发明考虑到了动态的MEC场景和边缘服务器的变化状态，解决了用户移动过程中的卸载问题，提供了可靠的移动边缘计算卸载决策序列。

第三：本发明将用户移动过程中的一系列卸载决策的优化问题形式化，解决了在长期迁移成本的约束下最小化平均卸载延迟的问题。

第四：本发明利用Lyapunov动态队列优化方法将长期迁移代价约束简化为一个多目标动态优化问题，使得不可解数学问题可解，并可应用于实际选择策略中。

第五：本发明使用基于Actor-Critic的深度学习(DRL)框架解决卸载优化问题，训练Agent由数字孪生边缘计算网络(DITEN)实现。实现了在保持较低系统成本的前提下，最大限度降低卸载延迟、任务失败率和迁移率。

附图说明

图1为数字孪生边缘计算网络的体系结构。

图2为DITEN用户移动过程中动态卸载过程的说明。

图3为DITEN中基于DRL的卸载训练框架的说明。

图4为Actor-Critic训练算法。

图5为基于Actor-Critic的移动卸载方案

图6为Actor-Critic Agent的收敛性能。

图7为平均延迟与不同用户号和候选边缘服务器号N的比较

图8为任务故障率与不同用户号和候选边缘服务器号N的比较

具体实施方式

本发明的具体实施步骤如下：

步骤1，建立6G中的数字孪生边缘计算模型

如图1所示为未来6G无线蜂窝网络场景中的数字孪生边缘计算网络(DITEN)的体系结构，该架构由物理实体层和DT层组成。在物理实体层，边缘服务器作为小规模计算单元部署在基站(BSs)上，为移动设备(MDs)提供计算服务。场景中的边缘服务器被表示为集合

通过BSs覆盖范围内的无线通信连接到边缘服务器的MDs，在移动过程中将其计算任务卸载到具有特定需求的边缘服务器上。在DT层，MEC中对象的DTs构成了物理实体层的基本功能，以帮助整个服务过程实现更高效的决策。本发明考虑两类DTs，即边缘服务器的DTs和整个MEC系统的DT。

边缘服务器的DT是边缘服务器的数字副本，它不断与边缘服务器交互，并根据实际网络拓扑、来自MDs的请求等进行自我更新。使用可用CPU频率

的偏差描述真实边缘服务器与其DT之间的偏差。对于边缘服务器i，其数字孪生

可以表示为：

其中f_i是边缘服务器i的估计计算性能。

对于MEC系统的DT，其与MEC环境实时交互反馈，建立类似于真实环境的数字表示系统，以获得系统的估计性能值。系统D^s的DT可以表示为：

其中E^s是整个MEC系统中边缘服务器的状况，R^s是选择不同边缘服务器的估计收益。

步骤2，建立DITEN的卸载模型

图2所示为在DITEN中，卸载任务生成到边缘服务器以进行计算服务。假设用户在时间t处有卸载任务

其中η_t表示以位为单位的卸载任务的大小，λ_t是完成卸载任务所需的总CPU周期数，γ_t表示任务k_t的等待时间要求。

用

表示时间t处的可用边缘服务器，

表示时间t处MD的服务边缘服务器。移动卸载决策模块负责根据边缘服务器和服务器的估计性能，在用户移动性期间确定一系列服务边缘服务器{e₁，...，e_τ}(假设用户的整个旅程需要τ个时间)。

用户将服务的边缘服务器更改为另一台边缘服务器的服务迁移会导致迁移成本(即重新身份验证成本)。使用C表示从边缘服务器迁移到另一台服务器的服务成本。选择e_t作为服务边缘服务器的MD的服务迁移成本可以表示为：

其中h_t∈{0，1}是服务迁移模块的迁移决策结果。当时间t中的边缘服务器与时间t-1中的边缘服务器不同时，h_t＝1，否则，h_t＝0。

步骤3，建立通信延迟模型

计算任务从MD卸载到边缘服务器会产生上行链路通信延迟，而将结果返回到MD会产生下行链路通信延迟。上行链路延迟包括从用户接人BS b_t无线的无线传输延迟

和从接入BS b_t无线到边缘服务器e_t的有线传输延迟

表示为：

用户与无线接入BS之间的SINR是接收到的用户信号强度与接收到的干扰和噪声信号强度的比值，可以通过计算得到：

是接收信号强度，p_j是传输功率，

是发射机和接收机BS之间的距离，α是路径损耗指数。

为了简化有线传输延迟的计算，我们根据MD和服务边缘服务器e_t之间的距离计算有线传输延迟，并将每单位距离的延迟表示为Ψ。用户与计算服务边缘服务器e_t之间的距离可以表示为

网络传播延迟可以表示为：

由于计算服务的输出通常较小，下行链路传输延迟忽略不计。

步骤4，建立计算延迟模型

可以表示为：

假设可以预先获得边缘服务器与其DT之间的偏差，则可以通过计算DT估计与实际值之间的计算延迟G^cmp(e_t)：

实际计算延迟可以通过

和G^cmp(e_t)之和得到，可以表示为：

步骤5，确定移动卸载延迟优化函数

卸载延迟T^glob(e_t)＝T^com(e_t)+T^cmp(e_t)可用于测量任务卸载期间用户的满意度。一般来说，用户的满意度随着T^glob(e_t)的降低而提高，其中T^glob(e_t)≤γ_t表示任务处理成功。移动卸载问题的目的是在用户τ时间的整个移动行程中实现服务边缘服务器的卸载序列{e₁，...，e_τ}，以尽量减少累积迁移成本下的卸载延迟。形式上，优化函数可以表示为：

P1：

s.t.

T^glob(e_t)≤γ_t，

步骤6，简化移动卸载延迟优化函数

本发明使用Lyapunov动态赤字队列优化方法，利用动态虚拟迁移成本赤字队列来指导移动卸载决策模块进行适当的决策。定义迁移成本赤字队列的长度为使用的迁移成本与可用迁移成本之间的偏差。用户的整个行程分为τ个时间，总迁移成本的限制是βCτ，β是服务迁移率的上限，βC是一个时间中可用的迁移成本。迁移成本赤字队列Q(t)的演变表示为：

其中C(e_t)-βC是时间t内迁移成本的偏差。Lyapunov优化将原始问题转化为一个没有长期约束的优化问题。简化的目标函数可以表示为：

P2：

s.t.T^glob(e_t)≤γ_t

其中υ和Q(t)是正控制参数，以进行动态处理延迟性能和迁移成本消耗之间的权衡。

步骤7，使用马尔可夫决策过程(MDP)描述动态MEC场景

可用的计算/无线资源的变化和所描述的无线环境的变化遵循马尔可夫特性。其具有三个关键要素，即状态集S、动作集A和奖励函数集R可以表示如下。

状态：MDP的状态描述了MD周围可用边缘服务器的运行状态，以及MD转到边缘服务器e_t进行服务时的卸载成本。在每个决策时间t，MEC系统的状态可以表示为：

其中

是用户与边缘服务器ET之间的距离，

是由其DT估计的边缘服务器e_t的状态值，

是边缘服务器真值之间的估计偏差它的DT，Q(t)是迁移成本赤字队列的长度。假设边缘服务器的DT提供边缘服务器状态的估计，而具有偏差

则整个MD t∈[1，τ]的行程的状态形成整体状态空间

其中A_t是从可能的集合r_t中选择的动作。在时隙集t∈[1，τ]上的动作形成整体动作空间一个

R_t＝-υT^glob(e_t)-Q(t)C(e_t)

奖励函数集

是所有时隙t∈[1，τ]中获得的奖励的集合。为避免DT偏差可能导致奖励设置错误，进而导致学习失败，使用步骤4中的计算延迟公式校准计算延迟，并将TD偏差作为训练网络的输入状态之一。状态值函数是当前状态S_t时的预期累积奖励，可以表示为V^π(S_t+1)＝R_t+εV^π(S_t)，其中ε是奖励衰减因子。通过求解MDP，得到一个策略来最小化卸载延迟和迁移成本。

步骤8，提出基于Actor-Critic网络的DRL移动卸载方案

本发明使用Actor-Critic作为DRL算法的框架。Actor和Critic在训练过程中需要不断地与DITEN环境相互作用，以达到做出最优决策的目的。在Actor-Critic算法中，学习Agent由两个独立的实体组成：Actor和Critic。下面将详细讨论这两个实体的训练过程。

Critic Agent：Critic Agen的目标是估计与环境状态S_t∈S相对应的预期累积奖励值。Critic Agent依赖于神经网络来逼近状态值函数V^π(S_t)，即拟合环境状态对应的状态值函数的线性组合。通过Critic网络表示估计的状态值函数参数为

其中W_c是其参数，DITEN环境的状态S_t是其输入。

Critic网络是根据时态进行训练的差异(TD)学习方法。通过相邻两个时隙的状态值函数和当前奖励可以计算出TD误差，可以表示为

Critic网络根据θ_t更新其参数。

作为状态S_t的累积奖励，

作为神经网络在S_t状态下的预测累积回报。Critic网络参数更新为

其中l_c是学习速率。

Actor Agent：Actor网络基于策略输出每个动作的概率分布。Actor网络输出的可选动作的概率分布可以表示为

利用Critic网络给出的TD误差θ_t来控制其参数的更新范围和方向，同时实现Actor网络参数的单步更新。Actor网络工作参数更新为

其中

是方向梯度向量，Actor根据方向向量调整更新参数。Actor神经网络使用TD-error中的

作为实际累积奖励，

作为累积奖励的期望。。

图3所示为DITEN中基于DRL的卸载训练框架，边缘服务器和系统的DTs与ME C环境实时交互，构建真实环境的数字表示。Actor-Critic与系统的DT交互，学习最优动态卸载决策。Actor网络的输入为状态，输出为动作，其中softmax用于确保每个动作的输出概率加起来为1。网络的输入为状态和动作，输出为Q值。Actor网络和Critic网络都有3个隐藏层和活动层，所有隐藏层的函数都是relu。Critic网络隐藏层1由两部分组成，其中一部分接收状态，另一部分接收动作。Actor Agent观察系统DT中的环境状态，并输出对系统DT采取行动的最优卸载决策，而Critic Agent计算TD-error，根据当前状态、下一状态和反馈奖励更新两个Agent的参数。训练中心服务器发送训练好的模型到卸载决策模块。卸载决策实体根据边缘服务器DT给出的状态进行决策，所选择的动作作用于实际环境。

在训练步骤中，Actor-Critic网络直接与DITEN环境中系统的DT交互，学习环境知识。Actor-Critic网络以DITEN环境的状态作为输入。具体而言，Actor网络根据动作概率P_t和状态ST在系统的DT中执行动作A_t，并获得奖励和状态输出由系统的DT给出，并将输出反馈到Critic网络。Critic网络利用Actor网络的输出反馈计算出误差TD-error来更新自己的参数，并将其传输到Actor网络以更新具有概率P_t的参数。如果时间差值TD-error较大，当前Actor网络选择的动作的优势更大，需要更大的发生概率来减少时间差值。此过程重复，直至训练结束。

在训练后，将所提出的移动卸载决策Agent部署在移动卸载管理模块上，根据可用的边缘服务器的DTS进行最优决策。此外，在运行过程中，用户的状态转换数据被收集并放入训练池中进行Agent的再训练。首先，决策Agent收集用户周围边缘服务器的状态作为训练Actor网络的输入，通过Act获得动作概率分布的输出或网络，并选择输出概率最大的动作作为执行动作。然后在实际环境和接收到的环境提要中执行所选择的操作，将ACK值存储在训练池中，以方便Agent的再训练。具体算法如图4、图5所示。

本发明在Windows7操作系统上的Python3.6.1进行了模拟实验。在模拟区域中，带有边缘服务器的BS在5km×5km的区域中以40/km²的密度均匀部署，每个BS为150m半径内的用户提供无线接入服务。本发明将在Microsoft T-Drive项目中收集的轨迹将按用户的轨迹缩放到模拟区域，选择传统的最接近优先最优移动卸载方案作为比较基准，所有数值结果均取5000个模拟量的平均值。

根据模拟实验结果，经过1750轮训练后，奖励函数趋于收敛。表明训练后的模型适用于DTEN，并且具有良好的收敛性能。如图6所示。本发明与基准方案相比，当用户数保持不变时，所提出方案的平均等待时间总是低于基准方案。如图7所示。同时，从任务失败率随用户数量和可用边缘服务器数量N的变化来看，本发明的任务失败率总是低于基准方案，用户量不变情况下，候选边缘服务器数量的增加将降低任务失败率。如图8所示。综上，该移动卸载策略模型可用并满足延迟要求。

Claims

1.一种减少6G数字孪生边缘计算网络任务卸载延迟的方法。其特征在于，包括如下步骤：

步骤1，建立6G中的数字孪生边缘计算网络

为了表示边缘服务器和整个MEC系统，提出了一种新的数字孪生边缘计算网络DIT EN

为可用CPU频率。用以描述真实边缘服务器与其DT之间的偏差；

D^s为MEC系统数字孪生，E^s是整个MEC系统中边缘服务器的状况，R^s是选择不同边缘服务器的估计收益，用以获得系统的估计性能值；

步骤2，建立数字孪生边缘计算网络DITEN的计算任务卸载模型

使用

表示用户在时间t处有卸载任务，其中η_t表示以位为单位的卸载任务的大小，λ_t是完成卸载任务所需的总CPU周期数，γ_t表示任务k_t的等待时间要求；

使用

表示时间t处的可用边缘服务器，

表示时间t处MD的服务边缘服务器；

使用{e₁，...，e_τ}表示在用户移动性期间确定一系列服务边缘服务器，假设用户的整个旅程需要τ个时间；

使用C表示从边缘服务器迁移到另一台服务器的服务成本，h_t∈{0，1}是服务迁移模块的迁移决策结果，h_t＝1表示时间t中的边缘服务器与时间t-1中的边缘服务器不同，h_t＝0表示相同，选择e_t作为服务边缘服务器的MD的服务迁移成本表示为：

步骤3，建立通信延迟模型

在所建立通信延迟模型中，由于计算服务的输出通常较小，下行链路传输延迟忽略不计，上行链路延迟包括从用户接入BS b_t无线的无线传输延迟

和从接入BS b_t无线到边缘服务器e_t的有线传输延迟

表示为：

在上行无线传输模型中，给定用户与接入BS之间的信号干扰噪声比SINR和信道带宽W，利用香农定理得到最大可达上行无线传输速率，卸载任务k_t的无线传输延迟可以表示为：

是接收信号强度，p_j是传输功率，

是发射机和接收机BS之间的距离，α是路径损耗指数；

步骤4，建立计算延迟模型

来估计，对于用户选择e_t来完成其卸载任务k_t，任务的估计计算延迟

可以表示为：

实际计算延迟可以通过

和G^cmp(e_t)之和得到，可以表示为：

步骤5，确定移动卸载延迟优化函数

总卸载延迟表示为：

T^glob(e_t)＝T^com(e_t)+T^cmp(e_t)

用户的满意度随着T^glob(e_t)的降低而提高，其中T^glob(e_t)≤γ_t表示任务处理成功；

T^glob(e_t)≤γ_t，

步骤6，简化移动卸载延迟优化函数

Q(t+1)＝max{Q(t)+C(e_t)-βC，0}，

其中β是服务迁移率的上限，βC是一个时间中可用的迁移成本，C(e_t)-βC是时间t内迁移成本的偏差；

将原始问题转化为一个没有长期约束的优化问题，简化的目标函数可以表示为：

s.t.T^glob(e_t)≤γ_t

其中v和Q(t)是正控制参数，权衡动态处理延迟性能和迁移成本消耗；

步骤7，使用马尔可夫决策过程MDP描述动态MEC场景

可用的计算/无线资源的变化和所描述的无线环境的变化遵循马尔可夫特性，其具有三个关键要素，即状态集S、动作集A和奖励函数集R描述如下，

状态：在每个决策时间t，MEC系统的状态表示为：

其中

是用户与边缘服务器e_t之间的距离，

是由其DT估计的边缘服务器e_t的状态值，

是边缘服务器真值和它的DT之间的估计偏差，Q(t)是迁移成本赤字队列的长度，假设边缘服务器的DT提供边缘服务器状态的估计，而具有偏差

则整个MD t∈[1，τ]的行程的状态形成整体状态空间

动作：动作描述Agent的策略，基于当前系统状态S_t，移动卸载模块做出动作A_t，可以表示为：

其中A_t是从可能的集合

奖励：奖励功能反映了行动决策对系统有什么好处，基于当前系统状态S_t和所选择的动作在时间t，MD获得的奖励可以表示为：

R_t＝-vT^glob(e_t)-Q(t)C(e_t)

奖励函数集

是所有时隙t∈[1，τ]中获得的奖励的集合，为避免DT偏差可能导致奖励设置错误，进而导致学习失败，使用步骤4中的计算延迟公式校准计算延迟，并将TD偏差作为训练网络的输入状态之一，状态值函数是当前状态S_t时的预期累积奖励，可以表示为V^π(S_t+1)＝R_t+εV^π(S_t)，其中ε是奖励衰减因子，通过求解MDP，得到最小化卸载延迟和迁移成本的策略；

步骤8，提出基于Actor-Critic的深度强化学习DRL移动卸载方案

使用Actor-Critic作为DRL算法的框架，在训练步骤中，Actor-Critic网络以DITEN环境的状态作为输入，Actor网络根据动作概率P_t和状态ST在系统的DT中执行动作A_t，获得由系统的DT给出的奖励和状态输出，并将输出反馈到Critic网络，Critic网络利用Actor网络的输出反馈计算出误差TD-error来更新自己的参数，并将其传输到Actor网络以更新具有概率P_t的参数，如果时间差值TD-error较大，当前Actor网络选择的动作的优势更大，需要更高的发生概率来减少时间差值，此过程重复，直至训练结束；

在训练后，将所提出的移动卸载决策Agent部署在移动卸载管理模块上，根据可用的边缘服务器的DTS进行最优决策，在运行过程中，将用户的状态转换成数据进行收集并放入训练池中进行Agent的再训练，首先，决策Agent收集用户周围边缘服务器的状态作为训练Actor网络的输入，通过Act获得动作概率分布的输出或网络，并选择输出概率最大的动作作为执行动作，然后在实际环境和接收到的环境提要中执行所选择的操作，将ACK值存储在训练池中。