CN111666149B

CN111666149B - 基于深度强化学习的超密边缘计算网络移动性管理方法

Info

Publication number: CN111666149B
Application number: CN202010373493.9A
Authority: CN
Inventors: 张海宾; 孙文; 王榕; 黄相喆
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2023-04-07
Anticipated expiration: 2040-05-06
Also published as: CN111666149A

Abstract

本发明公开了一种基于深度强化学习的超密边缘计算网络移动性管理方法，根据环境信息和处理资源信息建立通信时延模型、计算模型、QoS模型、服务代价迁移模型；根据建立的模型信息建立移动管理模型，采用动态亏损队列技术和Lyapunov优化方法对问题进行简化，采用离散时间马尔可夫决策过程抽象描述移动管理模型超密集边缘计算环境的动态变化过程；根据抽象模型建立基于深度强化学习的算法并得到最优的移动性管理决策。本发明面对超密边缘计算网络，移动性管理决策局限性小，迁移性好，在考虑系统整体性、动态性、平衡性的前提下，实现用户移动过程中关联网络和任务分配的最优决策。

Description

基于深度强化学习的超密边缘计算网络移动性管理方法

技术领域

本发明属于技术领域，具体涉及一种基于深度强化学习的超密边缘计算网络移动性管理方法。

背景技术

随着智能移动设备的快速发展，5G和物联网等技术的兴起，无线连接和流量的需求日益增加，现如今的网络架构难以支撑今后成百倍增长的无线连接需求以及成百倍增长的无线流量需求。无线流量需求的增加对无线网络容量提出了新的要求，超密集网络(UDN)技术正是在这种情况下应运而生。UDN技术通过在热点地区密集部署小型基站来实现无线网络容量的百倍提升以应对移动数据流量需求和无线连接需求的增长现状。

随着数据爆炸式的增长，数据的处理方式甚为重要，在今天，浮现了很多时延敏感型，计算密集型的新型应用，比如人脸识别、虚拟现实、无人驾驶视频识别处理等。目前的解决方案是将这些新兴应用卸载到远程云进行计算，即为将应用的需要计算的数据通过网络传输到云端计算中心，计算中心计算完成之后将应用的计算结果再通过核心网络回传。但是由于各种智能联网设备的快速发展以及移动用户流量需求的增加造成了核心网络资源稀缺，所以难以满足任务的计算时延要求。移动边缘计算(MEC)技术可以很好地解决此问题，该技术通过将小型云服务器连接到基站来为移动智能设备MDs卸载的任务提供大量的计算资源以满足移动用户计算任务的需求。移动边缘计算(MEC)与超密集网络(UDN)集成的超密边缘计算技术是用来应对智能移动设备以及新兴应用快速发展的一种新技术。该技术的主要应用场景是给热点区域的无线接入节点赋予计算能力。尽管预想的超密边缘计算技术可以改善边缘网络的通信和计算容量，然而在实施过程中常遇到移动性管理的问题，即网络的切换问题。

与传统的蜂窝网络中的无线切换方案相比，由于边缘网络不仅具有通信功能还需具有计算功能，超密边缘计算中的移动性管理方案不仅要支持无线切换，还要支持用户计算任务在不同边缘服务器上的迁移。因此，超密边缘计算中的移动性管理问题的基本功能演化为如何在用户移动过程中，将移动设备与适当的小型服务基站(SBSs)相关联并且将用户的计算任务分配到合适的边缘计算节点上。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度强化学习的超密边缘计算网络移动性管理方法，应对高密度数据情况下移动设备与边缘服务器的移动性管理问题。

本发明采用以下技术方案：

基于深度强化学习的超密边缘计算网络移动性管理方法，包括以下步骤：

S1、根据环境信息和处理资源信息建立通信时延模型、计算模型、QoS模型、服务代价迁移模型；

通信时延模型：根据用户设备的发送功率、无线通信基站之间的距离、路径状况参数、用户之间的干扰功率和区域噪声功率建立通信时延模型并计算传输成本；

计算模型：根据边缘服务器卸载任务量、服务器处理任务量、边缘服务器CPU周期数、服务器效率建立计算模型并获取计算成本；

QoS模型：根据通信时延模型和计算模型中得到的成本量建立QoS模型并评价任务卸载的满意度；

服务代价迁移模型：根据边缘服务器的负载情况和用户的移动情况建立服务代价迁移模型并计算迁移成本；

S2、根据步骤S1建立的模型信息建立移动管理模型，采用动态亏损队列技术和Lyapunov优化方法对问题进行简化，采用离散时间马尔可夫决策过程抽象描述移动管理模型超密集边缘计算环境的动态变化过程；根据抽象模型建立基于深度强化学习的算法并得到最优的移动性管理决策。

具体的，步骤S1中，上行链路的通信时延由无线传输时延D^l和有线传播时延D^p组成，表示为：

D^tsm(t,b_t,e_t)＝D^l(t,b_t)+D^p(t,b_t,e_t)

其中，t为时隙，b_t为无线接入节点，e_t为边缘服务器。

具体的，步骤S1中，计算任务队列长度的演化为：

其中，η_i,t为边缘服务器n服务的用户i在时隙t的卸载的计算任务数量，

是在一个时隙Δt内可以处理的任务数量的最大值，F_n是边缘服务器n的最大的CPU周期数，L_e是平均处理单位的数据需要的CPU周期，

为使用边缘服务器n来提供计算服务的用户；

当用户在时隙t选择边缘服务器e_t完成任务，计算时延D^cmp(t,e_t)的任务为：

其中，t为时隙，b_t为无线接入节点，e_t为计算服务节点，η_t为用户在t时隙的任务数据量，λ_t为单位数据量计算所需的CPU周期数，B(e_t,t)为计算服务节点在t时隙的任务队列长度，L_e为平均处理单位的数据需要的CPU周期数，

为计算服务节点的最大的CPU周期数。

具体的，步骤S1中，QoS模型具体为：

v(t,b_t,e_t)＝ln(1+ΔD(t,b_t,e_t))

其中，t为时隙，b_t为无线接入节点，e_t为边缘服务器，ΔD(t,b_t,e_t)为用户在t时隙通过无线接入节点b_t和边缘服务器e_t卸载任务时延与要求时延的差值。

具体的，步骤S1中，服务代价迁移模型为

C(t,e_t)＝h(t,e_t)C^m

其中，h(t,e_t)∈{0，1}是移动性管理模型所做的迁移决策，h(t,e_t)＝1当且仅当e_t-1≠e_t,，否则，h(t,e_t)＝0，C^m为执行一次服务迁移的代价。

具体的，步骤S2中，移动管理模型的目标函数为

C2:D(t,b_t,e_t)≤γ_u(t)

其中，v(t,b_t,e_t)由QoS模型求得，T为用户行程中的时隙数，t为时隙，b_t为无线接入节点，e_t为边缘服务器，b＝b₀，b₁，...，b_T和e＝e₀，e₁，...，e_T分别是用户整个行程中给用户提供无线接入的基站序列和提供计算服务的边缘服务器序列，C(t,e_t)由服务代价迁移模型求得，C^m为执行一次服务迁移的代价，α代表整个行程中服务迁移率的上限，是允许的迁移次数和整个行程时隙的比值，处理时延D(t,b_t,e_t)为通信时延D^tsm(t,b_t,e_t)和计算时延D^cmp(t,e_t)之和，γ_u(t)为处理任务的要求时延，

为行程中的无线接入节点集，

为计算服务的边缘服务器集合；约束C1代表在整个行程中的服务迁移成本限制；约束C2表示卸载任务的总处理时间不能超过任务的要求时延；约束C3和C4表示用户只能在可以选择的范围内进行选择最佳的无线接入服务和计算服务的边缘服务器。

具体的，步骤S2中，简化后的目标函数为

s.t.C1:D(t,b_t,e_t)≤γ_u(t)

其中，V是QoS获得的单位收益，q(t)是消耗的迁移成本，即t时隙可用的迁移代价与实际已用的迁移代价的偏差；v(t,b_t,e_t)由QoS模型求得，T为用户行程中的时隙数，t为时隙，b_t为无线接入节点，e_t为边缘服务器，b＝b₀，b₁，...，b_T和e＝e₀，e₁，...，e_T分别是用户整个行程中给用户提供无线接入的基站序列和提供计算服务的边缘服务器序列，C(t,e_t)由服务代价迁移模型求得，C^m为执行一次服务迁移的代价，α代表整个行程中服务迁移率的上限，是允许的迁移次数和整个行程时隙的比值，处理时延D(t,b_t,e_t)为通信时延D^tsm(t,b_t,e_t)和计算时延D^cmp(t,e_t)之和，γ_u(t)为处理任务的要求时延，

为行程中的无线接入节点集，

为计算服务的边缘服务器集合；约束C1代表在整个行程中的服务迁移成本限制；约束C2表示卸载任务的总处理时间不能超过任务的要求时延；约束C3表示用户只能在可以选择的范围内进行选择最佳的无线接入服务和计算服务的边缘服务器。

具体的，步骤S2中，马尔科夫决策过程中的状态集合为：

动作集合为：

奖励函数为：

状态值函数为：

V^π(S_t)＝R_t+βV^π(S_t+1)

Actor-Critic决策代理的目标是找到决策序列π以使上述状态值函数的值最大，表示为

π^*＝arg_π(max(V^π(S_t)))

其中，

为t时隙使用节点i以提供接入服务的用户数量，

为t时隙使用节点j以提供计算服务的用户数量，d_i,t为t时隙用户与节点i的距离，B_j,t为计算服务节点j在t时隙的任务队列长度，Q_t为t时隙消耗的迁移成本，

为t时隙无线接入基站和计算服务边缘服务器的序列决策，V是QoS获得的单位收益，

为t时隙无线接入基站和计算服务边缘服务器的序列决策所得的QoS模型量，

为t时隙无线接入基站和计算服务边缘服务器的序列决策所得的服务代价迁移模型量，R_t为t时隙的奖励函数，状态值函数V^π(S_t)为t时隙给定用户整个行程中采用迁移策略π之后获得的即时奖励和一定比例的未来累积奖励的总和，V^π(S_t+1)为t+1时隙的状态值函数，β∈[0，1]是未来折扣因子。

具体的，步骤S2中，深度强化学习中，

Critic神经网络依据时序差分学习方法来进行训练，基于时序差分方法的时间差分损失函数是两个相邻时隙状态对应累积回报值的差值，表示为

δ＝R_t+V(S_t+1,W)-V(S_t,W)

其中，W为Critic神经网络参数，R_t为t时隙的奖励函数，V(S_t+1,W)为采用该学习方法t+1时隙的状态值函数，V(S_t,W)为采用该学习方法t时隙的状态值函数；

Critic神经网络参数W更新如下

其中，α_c,t是Critic神经网络的学习率，δ为Critic神经网络时间差分损失函数，V(S_t,W)为t时隙的状态值函数；

Actor神经网络将决策概率函数近似为

π＝π(S_t,W_a)

其中，π(S_t,W_a)是每个动作的输出概率分布，W_a为Actor神经网络参数；

使用Critic网络的时间差分损失θ_t来控制神经网络参数的更新幅度以及方向，并实现单步更新Actor神经网络参数，表示为：

loss_a＝logπ(S_t,W_a)δ

其中，W_a为Actor神经网络参数，π(S_t,W_a)是每个动作的输出概率分布，δ为Critic神经网络时间差分损失；

通过策略梯度算法搜索获得损失loss_a的局部最大值以更新得到Actor神经网络参数，Actor神经网络参数W_a的更新如下：

其中，

为方向向量，logπ(S_t,W_a)方向为方向参数θ变化最快的方向，l_a为Actor神经网络的学习率。

具体的，步骤S2中，使用训练好的具有最优决策功能的Actor神经网络进行决策的输出，训练过程为：Actor神经网络依据当前的计算环境状态S_t输出动作选择概率分布π(S_t,w_a)，然后依据其输出的结果选择随机动作A_t，在计算环境中用户执行该输出动作，获得即时奖励R_t以及下一个环境状态S_t+1；Critic神经网络分别将S_t以及S_t+1作为输入，得到预估的V(S_t)以及V(S_t+1)，依据R_t,V(S_t,W)，V(S_t+1,W)计算出时间差分损失δ_t；Actor神经网络依据计算的损失loss_a进行神经网络参数的更新，Critic神经网络依据计算出的损失δ进行参数的更新，重复此过程，直到训练结束；

运行过程：移动性管理模型收集用户周围的可用的基站以及边缘服务器的信息，将收集到的信息作为计算环境的状态并且输入到训练好的Actor神经网络中，Actor神经网络输出动作的概率分布，将概率分布中输出概率最大的动作作为最优的动作在环境中进行执行。

与现有技术相比，本发明至少具有以下有益效果：

本发明提出了一种基于深度强化学习的超密边缘计算网络的移动性管理技术，用于无线接入节点和边缘计算节点密集部署的情况下，用户移动过程的移动性管理问题。与传统的移动性管理决策方法不同，该技术是基于深度强化学习和超密边缘计算网络的新型管理技术，具有如下几点优势：

首先，与常见的移动性管理技术不同，本发明考虑了多个可用的支持移动边缘计算的小型基站(SBSs)不同的无线负载和计算能力，在用户移动过程中，决策系统可以将超密网络(UDN)移动性管理(MM)任务分配到不同的无线接入节点和计算节点；

其次，由于具有优秀的无线接入性能的SBS上连接的移动边缘计算(MEC)服务器，并不总是具有优秀的计算性能，本发明考虑了全局最优决策性，通过不同的可用无线接入节点候选集和可用计算节点候选集，实现用户移动过程中最优的无线接入节点和最优的边缘计算节点的整体决策，并依据历史收集到的无线接入点的负载数据以及当前可用的无线接入点的数据，对当前可用的无线接入点的性能以及无线接入的稳定性进行评估，依据评估结果选择最优的无线接入点为用户提供无线接入服务；

再者，本发明考虑了最优决策的动态性，在对于无线接入点和计算节点的切换选择决策时，通过一种可以进行单步更新参数的深度强化学习算法，与环境信息进行交互，在环境中获取处理资源，从而在权衡传输时延和计算时延的基础上，做出无线接入点和计算节点的最优决策；

最后，该技术考虑了计算服务迁移过程中时延和切换代价的平衡性，通过一种基于预设的切换阀值的切换亏损队列的方法，将计算服务迁移过程中的切换率控制在预设的切换阀值之下。

进一步的，本发明对通信时延模型设置的目的进行阐述。在超密边缘计算环境中，用户的计算任务卸载过程需要通过用户与计算服务节点之间的传输链路将计算任务传输到计算服务的边缘服务器处，任务在边缘服务器处计算完成之后，再通过计算服务节点与用户之间的链路将计算任务的处理结果返回给用户。在对于无线接入点与用户之间的连接决策和无线接入点与计算节点的切换选择决策时，需要考虑通信时延的影响。因此，通过设置通信时延模型对通信链路的无线传输时延和有限传播时延进行计算，并将其得到的通信传输成本带入移动性管理模型，是得到移动性管理决策必不可少的一部分。

进一步的，本发明对设置演化的计算任务队列的目的进行阐述。在超密边缘计算环境中，用户将计算任务卸载到边缘服务器的成本包括计算时延，计算时延取决于提供计算服务的边缘服务器的繁忙程度，假定每个边缘服务器都配备了任务队列来存储未处理的计算任务，那么边缘服务器的繁忙程度就可以使用任务队列长度来表示。然而，在实际计算环境中，服务器的任务队列必定是一个动态的过程，计算任务队列长度也必定会发生演变。因此，通过设置演化的任务队列以计算任务队列中计算任务的处理延迟和当前任务的处理时延，才能更好地得到可信的计算时延。

进一步的，本发明对QoS模型设置的目的进行阐述。在超密边缘计算环境中，移动迁移的切换决策需要考虑用户对任务卸载的满意程度，QoS模型采用处理延迟和用户卸载的任务的要求时延的差值作为QoS的参考点以计算用户对卸载任务服务的满意度。随着时延的差值的减小，满意度的增加基本遵循对数规则。因此，采用QoS模型的满意度作为其增益函数，是移动迁移决策所必须的一部分。

进一步的，本发明对服务代价迁移模型设置的目的进行阐述。在超密边缘计算环境中，由于边缘服务器负载和用户位置的动态变化，用户移动过程中需要不同的边缘服务器来为用户提供计算服务，在移动迁移的切换决策过程中需要考虑不同边缘服务器之间的迁移而产生了迁移成本。将执行一次服务迁移的代价与移动性管理模型所做的迁移决策相关联得到服务迁移成本，这是一个动态反馈的过程。因此，采用服务代价迁移模型在考虑了全局性的同时，也考虑了服务器与用户的动态性。

进一步的，本发明对移动管理模型目标函数设置的目的进行阐述。在超密边缘计算环境中，由于基站以及边缘服务器的密集部署，当用户处于某一位置的时候有多个备选的可用基站和边缘服务器来为其提供服务。移动性管理模型需要在用户移动过程中依据用户周围的超密边缘计算环境决策选择合适的基站提供无线接入服务以及选择合适的边缘服务器为用户提供计算服务。其主要目的是提高移动用户QoS增益的同时降低系统的服务迁移信令成本。因此，在本发明中，超密边缘计算的移动性管理问题的优化目标是确定用户移动期间用于服务的无线接入节点和计算服务边缘服务器的顺序，以便在总迁移成本有限的情况下最大化用户的QoS增益。在目标函数中，增益函数由QoS模型求得，迁移成本由服务代价迁移模型求得，通信时延由通信时延模型求得，计算时延由计算时延模型求得。约束条件考虑了整个行程中的服务迁移成本限制，任务总处理时间限制，用户可选择的范围内的无线接入服务节点和计算服务的边缘服务器限制。

进一步的，本发明对简化后的目标函数设置的目的进行阐述。简化后的目标函数通过Lyapunov优化方法，使用上一个时隙中迁移成本的总的偏差和当前时隙产生的迁移成本偏差作为动态迁移成本亏损队列，将整个行程中的服务迁移成本限制转化成较低复杂性的每个决策时隙中的确定性问题，同时自适应地平衡QoS性能和服务迁移成本随着时间的推移而增加的问题，以引导移动性管理模型做出合适的迁移决策。

进一步的，本发明对离散时间马尔可夫决策过程抽象描述超密边缘计算环境的动态变化过程设置的目的进行阐述。简化后的目标函数的求解需要使用超密边缘计算环境在未来一段时间内的准确信息。然而，由于超密边缘计算环境的多变性，导致未来环境的状态难以预知，所以需要设计一种在线决策的移动性管理方案在没有未来环境状态的前提下做出最优决策。超密边缘计算中可用计算资源，无线资源以及环境的变化都具有马尔可夫性质，因此，本发明将上述每个决策时隙确定的问题采用离散时间马尔可夫决策过程抽象描述其超密边缘计算环境的动态变化过程，为下一步基于深度强化学习的移动性管理方案做准备工作。

进一步的，本发明对深度强化学习设置的目的进行阐述。强化学习的目标是与环境不断交互学习以通过最大化全过程中未来累积奖励得到一个决策序列从而具备在线决策能力，即为在强化学习智能体训练之后，其可以依据当前系统状态做出考虑了未来系统信息的当前最优决策。因此，本发明提出了基于深度强化学习的算法以一种在线的方式解决超密集边缘计算场景中的移动性管理问题，使用基于Actor-Critic的深度强化学习算法解决采用离散时间马尔可夫决策过程已抽象描述的问题。具体来说，本发明将上节制订的目标函数作为超密边缘计算环境中智能体决策的回报，智能体通过不断和超密边缘计算环境进行交互，学习超密边缘计算环境的演化特征，从而做出最优的决策以获得最大化的累计回报，继而得到优化目标函数的最优解。相较于传统强化学习方法，深度强化学习算法是将深度学习神经网络和强化学习方法结合起来的算法，其在环境状态复杂多变的超密边缘计算场景中，使用深度神经网络来代替存储体的作用，在节省存储空间、执行时间，保证良好的环境交互性和系统整体性的同时，可以很好地根据当前的超密边缘计算环境的状态做出相应的移动性管理决策。

进一步的，本发明对训练过程和运行过程设置的目的进行阐述。移动性管理的主要功能是在用户移动过程中选择最优的无线接入服务的基站和计算服务的边缘服务器的序列。此外，强化学习的目的是构建一个进行产生决策序列的智能体，最终的目标是使智能体能够依据环境做出的行为选择获得最大累积收益的结果。因此，本发明采用上述的Actor-Critic网络框架作为移动性管理模型的智能体，通过与环境进行交互学习，从而使得该智能体具有最优决策的功能。基于该算法的移动性管理方案有训练和运行两个过程。在训练过程中，Actor和Critic神经网络在超密边缘计算环境中进行联合训练，通过向环境执行相应的动作和接收环境给出的反馈来形成自适应决策模型。在运行过程中，本发明通过在部署完成的用户设备的移动性管理控制器上运行，依据用户周围的超密边缘计算环境，使用训练好的具有最优决策功能的Actor神经网络来选择最优的无线接入基站以及计算服务的边缘服务器，以获得最优的移动性管理决策输出。

综上所述，本发明面对超密边缘计算网络，移动性管理决策局限性小，迁移性好，在考虑系统整体性、动态性、平衡性的前提下，实现用户移动过程中关联网络和任务分配的最优决策。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为超密边缘计算场景示意图；

图2为本发明的结构流程图；

图3为Actor-Critic网络框架图；

图4为深度强化学习算法截图，其中(a)为Actor-Critic智能体的训练算法截图，(b)为基于Actor-Critic的移动性管理算法截图；

图5为仿真实验环境参数表格截图；

图6为对比仿真实验结果图，其中，(a)是不同负载条件下任务平均处理时延结果对比图，(b)是不同用户移动速度条件下任务平均处理时延结果对比图，(c)是不同负载条件下任务处理失败率变化情况的对比图，(d)是不同用户移动速度条件下任务处理失败率变化情况的对比图，(e)是不同负载条件下平均服务迁移率变化情况的对比图，(f)是不同用户移动速度条件下平均服务迁移率变化情况的对比图。

具体实施方式

本发明提供了一种基于深度强化学习的超密边缘计算网络移动性管理方法，通过深度强化学习的方法可以很好地实现在无线接入节点和边缘计算节点密集部署的情况下，在用户移动过程中对多个无线接入节点以及多个边缘计算节点提供移动性管理决策。此外，单纯地考虑节点的性能进行选择性能最优决策会导致频繁迁移的问题，因此，本发明研究了在用户移动过程中用户服务质量(QoS)以及服务迁移率的平衡问题，即为在用户移动过程中选择合适的无线接入点以及边缘服务器来保证用户QoS的同时，使服务迁移率降低在一定的比率下。本发明将计算任务的处理时延作为用户QoS的指标，提出了一种基于预设的服务迁移率阀值的服务迁移亏损队列的方法，来动态调整用户QoS和服务迁移代价的加权和。最后，本发明将该加权和作为超密边缘计算环境的回报，基于一种可以进行单步学习的深度强化学习算法，与超密边缘计算环境进行交互，在环境中获取知识，从而做出无线服务节点和边缘服务器的选择的最优决策。

请参阅图2，本发明一种基于深度强化学习的超密边缘计算网络移动性管理方法，包括以下步骤：

模型1，通信时延模型：根据用户设备的发送功率、无线通信基站之间的距离、路径状况参数、用户之间的干扰功率和区域噪声功率建立通信时延模型并计算传输成本；

模型2，计算模型：根据边缘服务器卸载任务量、服务器处理任务量、边缘服务器CPU周期数、服务器效率建立计算模型并获取计算成本；

模型3，QoS模型：根据模型1和模型2中得到的成本量建立QoS模型并评价任务卸载的满意度；

模型4，服务代价迁移模型：根据边缘服务器的负载情况和用户的移动情况建立服务代价迁移模型并计算迁移成本；

请参阅图1，本发明考虑了超密边缘计算场景，在每个宏小区中有N个基站，并且每个基站均配备了微型边缘云计算中心作为边缘计算服务节点。

其中，基站为移动用户提供无线通信服务，边缘服务器负责为移动用户提供计算卸载服务。由于本发明考虑的超密边缘计算场景中，每个基站上均连接一个边缘服务器，因此基站和边缘服务器使用统一的编号，表示为

是整个场景中的基站集合，

是整个场景中的边缘服务器集合。由于基站以及边缘服务器的密集部署，当用户处于某一位置的时候有多个备选的可用基站和边缘服务器来为其提供服务。因此，移动性管理模型需要在用户移动过程中依据用户周围的超密边缘计算环境决策选择合适的基站提供无线接入服务以及选择合适的边缘服务器为用户提供计算服务。

如图1所示，一个具有代表性的用户以一定的轨迹在整个场景中进行移动，用户在Location1的时候产生了计算任务1，移动性管理模型为其选择BS1为该用户提供计算服务，ES2为他提供通信服务，这是因为BS1上的边缘服务器的计算资源较少所以为了保证用户对计算任务卸载的满意度而选择计算性能较好的ES2。用户在L2的时候产生计算任务2，并且选择BS3为他提供通信服务，BS3上连接的边缘服务器ES3上的负载较轻，因此选择ES3为他提供计算服务。

由于超密集边缘计算环境的动态性，基站的无线通信的服务性能会依据无线通信服务的用户数量的变化而变化，边缘服务器上可用的计算资源随服务用户的数量以及这些用户的卸载的计算任务的变化而变化。由于一个时隙非常短，所以在一个时隙内无线网络状态以及边缘服务器的负载情况不发生变化。本发明使用

表示使用边缘服务器n在时隙t提供接入服务的用户设备数量，使用

表示使用边缘服务器n在时隙t提供计算服务的用户设备数量。

考虑一个具有代表性的移动用户，其在移动过程中不断产生计算任务卸载到边缘服务器处进行计算。τ_t＝{η_t,λ_t,γ_t}表示该用户在t时隙卸载的计算任务，η_t表示的任务数据量大小，λ_t代表计算单位数据量所需的CPU周期，γ_t表示该任务的最大延迟要求。由于一个时隙非常短，所以在一个时隙内用户的位置不发生变化，因此，在一个时隙内用户可选的接入服务基站集合和计算服务边缘服务器集合也不发生变化。

表示用户在t时隙可选的无线接入节点集合，

表示在时隙t用户可用的计算服务的边缘服务器节点集合。由于用户不断移动，所以在不同时隙需要不同的接入服务器和边缘服务器为用户提供服务，

是用户在移动过程中在t时隙使用的无线通信节点以及计算服务节点。

通信时延模型

在超密边缘计算中，用户的计算任务卸载过程需要通过用户与计算服务节点之间的上行传输链路将计算任务传输到计算服务的边缘服务器处，任务在边缘服务器处计算完成之后，再通过计算服务节点与用户之间的下行链路将计算任务的处理结果返回给用户。因此，传输成本由上行传输时延和下行传输时延组成。

上行通信时延是用户将卸载的计算任务依靠通信链路上传到为其提供计算服务的边缘服务器处产生的时延。由于本发明考虑的计算卸载场景是，为用户提供通信服务的基站和计算服务的边缘服务器节点可以不在同一处，因此，用户将计算任务数据传输到边缘服务器处，需要经过无线通信链路以及有线通信链路。如图1所示，Location1的用户上传了计算任务到ES2，首先通过从用户位置到BS1的无线链路，再通过发送到BS1用户到ES2的有线通信链路。因此，上行链路延迟包括用户位置到无线接入节点之间的无线传输延迟以及无线接入节点到计算服务节点之间的有线传输延迟。

在无线上行链路传输信道模型中，用户在t时隙提供通信服务的基站b_t与用户之间的干扰信号噪声比(SignaltoInterferenceplusNoiseRatio&SINR)表示为：

其中，

是t时隙用户设备的发送功率；d_t是与无线通信基站之间的距离；σ是路径损失指数；

是无线接入点b_t中与该移动用户之间存在的

个干扰用户产生的干扰信号功率；δ²是在整个区域都存在的高斯白噪声；根据香农定理，可用的传输带宽W以及SINR可获得最大的上行传输速率为

r(t,b_t)＝W·log₂(1+k(t,b_t))

因此，无线传输时延可以被表示为：

为了简化上行传输链路中的有线传输时延的计算，本发明基于静态的跳数来计算有线传输时延，并使用d^p表示单位跳数的时延成本。依据无线接入节点b_t与计算服务节点e_t之间的静态跳数h(b_t,e_t)得到有线传输时延，表示为：

上行链路的通信时延由无线传输时延D^l和有线传播时延D^p组成，表示为：

D^tsm(t,b_t,e_t)＝D^l(t,b_t)+D^p(t,b_t,e_t)

其中，t为时隙，b_t为无线接入节点，e_t为边缘服务器。

在本发明目前的工作中未考虑到下行传输延迟，一方面由于计算任务的处理结果的数据较少，对传输延迟影响不大，另一方面对于计算任务的回程完整性在本发明的工作中不是研究的重点并且下行传输链路的状态难以估计。

计算模型

此外，用户将计算任务卸载到边缘服务器的成本还包括计算时延，计算时延取决于提供计算服务的边缘服务器的繁忙程度，本发明假定每个边缘服务器都配备了任务队列来存储未处理的计算任务，边缘服务器的繁忙程度使用任务队列长度来表示。

边缘服务器n在时隙t的任务队列长度表示为B(n,t)，依据上一个时隙中剩余的计算任务和服务用户到达的计算任务得到，计算任务队列长度的演化表示为：

为使用边缘服务器n来提供计算服务的用户。

本发明假设在边缘服务器处用户卸载任务的计算遵循“先来先服务”的原则，即用户当前的卸载任务只有在将任务队列中的任务处理完才可以计算。因此，计算延迟包括任务队列中计算任务的处理延迟和当前任务的处理时延。当用户在时隙t选择边缘服务器e_t完成任务，计算时延D^cmp(t,e_t)的任务可以表示为

为计算服务节点的最大的CPU周期数。

QoS模型

用户的QoS衡量了该用户对任务卸载的满意度，本发明使用处理延迟D(t,b_t,e_t)＝D^tsm(t,b_t,e_t)+D^cmp(t,e_t)和用户卸载的任务的要求时延的差值作为QoS的参考点，表示为

ΔD(t,b_t,e_t)＝γ_t-D(t,b_t,e_t)

其中，D(t,b_t,e_t)≤γ_t，用户对卸载任务服务的满意度随ΔD(t,b_t,e_t)的增加而改善并且用户的QoS与ΔD(t,b_t,e_t)之间的增长关系遵循对数规则。

因此，QoS的增益函数使用对数形式建模，表示为：

v(t,b_t,e_t)＝ln(1+ΔD(t,b_t,e_t))

服务代价迁移模型

由于边缘服务器负载和用户位置的动态变化，在用户移动过程中需要不同的边缘服务器来为用户提供计算服务。考虑一个具有代表性的迁移过程，当移动用户得知当前服务的边缘服务器的计算能力较弱，因此决定将计算任务的配置信息迁移到计算能力较好的边缘服务器处。之后，由于在不同边缘服务器之间的迁移而产生了迁移成本。本发明用C^m表示执行一次服务迁移的代价。因此，服务迁移成本可以表示为

C(t,e_t)＝h(t,e_t)C^m

其中，h(t,e_t)∈{0，1}是移动性管理模型所做的迁移决策，h(t,e_t)＝1当且仅当e_t-1≠e_t，否则，h(t,e_t)＝0。

S2、根据步骤S1中的模型信息建立移动管理模型，包括问题的简化优化、模型建立和算法设计三部分；

S201、问题的简化优化：通过步骤S1中得到的成本量建立移动性管理研究的目标函数模型，采用动态亏损队列技术和Lyapunov优化方法对问题进行简化；

优化问题的制定

为了针对性的解决超密边缘计算中的移动性管理问题，本发明将重点放在对延迟敏感型计算任务的问题上，这是超密边缘计算的主要应用场景。此外，超密边缘计算中的移动性管理的主要目的是提高移动用户的QoS同时降低了系统的服务迁移信令成本。因此，在本发明中，超密边缘计算的移动性管理问题的优化目标是确定用户移动期间用于服务的无线接入BS和计算服务BS的顺序，以便在总迁移成本有限的情况下最大化用户的QoS。形式上，本发明对移动性管理研究的目标函数表述为

C2:D(t,b_t,e_t)≤γ_u(t)

为行程中的无线接入节点集，

为计算服务的边缘服务器集合；约束C1代表在整个行程中的服务迁移成本限制；约束C2表示卸载任务的总处理时间不能超过任务的要求时延；约束C3和C4表示用户只能在可以选择的范围内进行选择最佳的无线接入服务节点和计算服务的边缘服务器。

优化问题P1的完全解决有三个主要挑战。

a)首先，解决P1必须解决长期迁移成本的限制C1而带来的主要挑战。因为当前的移动性管理决策需要跨时隙进行决策，如果当前使用过多的服务迁移成本将导致未来可用的服务迁移成本的短缺。

b)其次，必须掌握用户整个移动过程中整个超密状态边缘计算环境的状态才可以获得P1的最优解，包括计算每个时隙的任务，用户的轨迹和负载BS和边缘服务器的状况。

c)而且，P1是非线性规划问题并且P1的求解复杂度随着用户整个行程时隙长度的增加呈指数趋势增长。因此，即使整个超密集移动边缘计算环境和用户的信息是已知的，它也面临着太多的复杂性解决P1。

接下来，本发明将首先将长期的服务迁移约束进行简化处理，之后提出一种基于深度强化学习的方法来实现以在线的方式进行没有未来状态信息的移动性管理决策。

优化问题的简化

为了应对长期的迁移代价的限制带来的求解优化问题的挑战，本发明使用了Lyapunov优化方法。该方法基于动态亏损队列的技术，将整个行程中的服务迁移成本限制转化成较低复杂性的每个决策时隙中的确定性问题，同时自适应地平衡QoS性能和服务迁移成本随着时间的推移而增加的问题。

本发明设计了动态虚拟迁移成本亏损队列来引导移动性管理模型使用Lyapunov优化技术做出合适的迁移决策。虚拟迁移成本亏损队列表示目前实际使用的总迁移成本与目前可用的总迁移成本的偏离程度。因此，迁移成本亏损队列长度可以定义为实际迁移成本与可用的迁移成本的差值。用户的整个迁移过程是分为T个时隙，总的迁移成本的限制是αTC^m，因此一个时隙内可用的迁移成本是αC^m。迁移成本亏损队列长度包括上一个时隙中的总的偏差和当前时隙产生的偏差，该迁移成本亏损队列的演化可用表示为

q(t+1)＝max{q(t)+h(t,e_t)C^m-αC^m,0}

其中，h(t,e_t)C^m-αC^m是t时隙产生的的迁移成本的偏差值。根据本发明设计的动态迁移成本亏损队列，本发明用Lyapunov优化技术将原问题P1转化成无长期约束限制的优化问题。简化后的目标函数可以表示为

s.t.C1:D(t,b_t,e_t)≤γ_u(t)

其中，V是QoS获得的单位收益，q(t)是消耗的迁移成本，即t时隙可用的迁移代价与实际已用的迁移代价的偏差，可以在QoS和迁移成本之间的优化进行权衡。从P2可以清楚地看出动态迁移成本亏损队列q(t)对决策的指导作用。简单来说，如果q(t)的值较大，则q(t)C(t,e_t)在P2的整体最大化中起决定性作用，此时，移动性管理模型倾向于作出使q(t)C(t,e_t)较小的决策。相反，如果q(t)的值较小，则Vv(t,b_t,e_t)在整体P2的最大化上起着决定性作用，在此时，移动性管理模型倾向于作出使Vv(t,b_t,e_t)较大的决策。

定理1：基于的动态迁移成本亏损队列的Lyapunov优化技术进行决策的总迁移成本的消耗在一个有界偏差范围内，可以表示为

证明：

为了方便之后的表示，本发明首先定义了如下的一些公式。

d(t)＝C(t,e_t)

y(t)＝d(t)-αC^m

ΔL(t)＝L(t+1)-L(t)

依据动态亏损队列，很容易可以得到

y(t)≤q(t+1)-q(t)

将上述公式在t∈[0，T-1]上进行求和得到

展开ΔL(t)得到

假定

的上界是U^*，得到

ΔL(t)≤q(t)y(t)+U^*

将上述公式在t∈[0，T-]上进行求和，得到

假设y(t)，t∈[0，T-1]的最大值是y_max并且依据动态队列的公式，容易得到q(t)≤T*y_max，因此

得到

易得

和q(0)＝0，更进一步，可以得到

在t∈[0,T-1]上进行求和到

得到：

S202、将步骤S201中得到的模型采用离散时间马尔可夫决策过程(MarkovDecision Process，MDP)抽象描述其超密集边缘计算环境的动态变化过程；

步骤S201中给出的简化后的优化目标函数P2的求解需要使用超密边缘计算环境在未来一段时间内的准确信息。然而，由于超密边缘计算环境的多变性，导致未来环境的状态难以预知，因此，需要设计一种在线决策的移动性管理方案在没有未来环境状态的前提下做出最优决策。强化学习的目标是与环境不断地交互学习以通过最大化全过程中未来累积奖励得到一个决策序列从而具备在线决策能力，即为在强化学习智能体训练之后，其可以依据当前系统状态做出考虑了未来系统信息的当前最优决策。因此，本发明提出了基于深度强化学习的算法以一种在线的方式解决超密集边缘计算场景中的移动性管理问题。

具体来说，本发明将上节制订的目标函数作为超密边缘计算环境中智能体决策的回报，深度强化学习智能体通过不断和超密集边缘计算环境进行交互，学习超密集边缘计算环境的演化特征，从而做出最优的决策来获得最大化的累计回报，从而得到优化目标函数的最优解。本步骤中，本发明首先使用离散时间马尔可夫决策过程(Markov DecisionProcess，MDP)描述超密集边缘计算环境的动态变化过程。然后使用基于Actor-Critic的深度强化学习算法解决形式化的优化问题P2。

基于MDP的问题的形式化

由于具有优秀的无线接入性能的基站上连接的边缘服务器并不总是具有良好的计算性能。不同于文献考虑的场景，该场景中用户仅考虑连接到当前无线接入的基站上的边缘服务器，并且卸载任务通过无线链路直接传输到边缘服务器处进行计算。为了让用户能够使用计算性能更好的边缘服务器，本发明考虑的边缘计算卸载场景是用户可以将任务卸载到更大范围的边缘服务器(其范围大于无线传输基站的选择范围)，并且用户卸载的计算任务可以通过无线链路传输到无线接入基站，再通过有线链路传输到提供计算服务的边缘服务器处。也就是说，无线的选择接入BS和计算服务BS是不同的集合，即为

公认的是，超密边缘计算中可用计算资源，无线资源以及环境的变化都具有马尔可夫性质。因此，本发明使用马尔科夫决策过程来描述用户周围的超密边缘计算环境的变化。马尔科夫决策过程有建立的学习环境系统有三个关键要素，即为状态集合

动作集合

奖励函数R_t。

三个关键要素表示如下：

状态集：状态集是用户观察到周围的超密边缘计算的环境信息。包括周围可用无线接入基站以及边缘服务器的负载状态信息，用户距离可用的无线接入基站的距离，迁移代价亏损队列的信息等。由于一个时隙非常短，因此用户在一个时隙内的位置以及超密边缘计算环境不发生变化改变，因此用户在一个时隙内可用的无线接入点，边缘服务器的集合以及环境状态不发生变化。状态集可以表示为

其中，

为t时隙使用节点i以提供接入服务的用户数量，

为t时隙使用节点j以提供计算服务的用户数量，d_i,t为t时隙用户与节点i的距离，B_j,t为计算服务节点j在t时隙的任务队列长度，Q_t为t时隙消耗的迁移成本；

行动集：行动集是为了反映智能体能做出的决策，超密边缘计算的移动性管理问题应该得到的是无线接入基站和计算服务边缘服务器的序列决策。也就是说，动作集应该指示处无线接入基站和计算服务边缘服务器的集合。因为无线接入点与计算服务节点的选择范围不同，因此，定义的动作集表示为

其中，

为t时隙无线接入基站和计算服务边缘服务器的序列决策；

奖励函数：在每个决策时隙t，用户采取Actor依据当前用户超密边缘计算的状态S_t给出的行动A_t后，可以获得一定的奖励R_t，该奖励函数需要反映本发明提出移动性管理方案的优化目标，即为最大化的用户的QoS并且控制服务迁移代价以避免频繁的服务迁移，这两个目标应该在代表环境反馈的奖励中被考虑。因此，考虑优化目标函数P2建议的移动性管理方案，本发明使用第t时隙产生的值作为奖励函数R_t的值，可以表示为

其中，V是QoS获得的单位收益，

为t时隙无线接入基站和计算服务边缘服务器的序列决策所得的服务代价迁移模型量；

R_t取决于当前状态S_t，所采取的操作A_t和未来状态S_t+1。

另外，指出奖励函数中计算任务传输时延的计算包括有线传输延迟，因为本发明考虑的卸载场景中提供计算服务的边缘服务器和提供通信服务的无线接入点可能不在同一处。

状态值函数：状态值函数V^π(S_t)为给定用户整个行程中的迁移决策π之后，t时隙获得的即时奖励和一定比例的未来累积奖励的总和，即为通过在S_t状态采取行动决策π来获得的总的回报值。本发明将状态值函数V^π(S_t)表示为

V^π(S_t)＝R_t+βV^π(S_t+1)

其中，β∈[0，1]是未来折扣因子，表示未来奖励在当前决策中的重要程度。

Actor-Critic智能体获得的是一种使状态值函数的值最优的行为决策序列，即为Actor-Critic决策代理的目标是找到决策序列π以使上述状态值函数的值最大，表示为

π^*＝arg_π(max(V^π(S_t)))

从上式可知，深度强化学习智能体的决策不仅考虑了当前状态S_t下采取行动A_t得到的回报，还考虑了一定比例的未来回报，这样子深度强化学习算法在训练之后就具备了解决在未来状态未知的情况下做出长期优化问题的能力。

S203、根据步骤S202中得到的抽象模型建立基于深度强化学习的算法并得到最优的移动性管理决策；

传统强化学习方法比如Q-learning使用一个Q-table来存储每个状态-动作对应的奖励值。由于在超密集边缘计算场景中，环境状态复杂多变，这导致如果使用传统的强化学习方法，由于大量的系统状态，Q-table所需的存储空间急剧增加。因此，在一张表中存储所有状态-动作操作对是不现实的，因为它不仅浪费了存储空间，而且在其中查找相关状态-动作对也会非常耗时。因此，本发明使用深度强化学习来解决本发明构造的超密集边缘计算中的移动性管理的P2问题，深度强化学习算法是将深度学习神经网络和强化学习方法结合起来的算法，其使用深度神经网络来代替Q-table的作用，并且在训练过程中依据强化学习的方法不断使得神经网络与使用MDP构造好的超密边缘计算环境进行交互，学习超密边缘计算环境中的知识，训练好之后，神经网络就具有依据之前学习到的知识根据当前的超密边缘计算环境的状态做出相应的移动性管理决策。

深度强化学习算法概述

本发明使用Actor-Critic算法作为深度强化学习算法的框架。该深度强化学习方法采用类似于对抗训练神经网络的思想同时训练Actor神经网络来进行产生决策动作以及Critic神经网络来进行估计当前系统状态的好坏程度，Actor神经网络在训练过程中依据Critic神经网络给出的未来的预期的累积回报来进行正向或反向调整动作选择的输出概率，Critic神经网络依据超密边缘计算环境输出的回报值来调整自己的参数。本发明可以很容易看出Actor和Critic通过不断与超密边缘计算场景进行交互训练来学习环境中的知识。

请参阅图3，Critic网络负责估计一个状态S_t下的状态值函数的值，并且依据环境给出来的即时奖励值R_t来更新其参数，其目的是为了依据最小化给出的估计值与真实值之间的误差来估计的更准确；Actor网络扮演决策者的角色，负责根据当前状态S_t进行产生相应的动作决策，其目标是在一个状态下做出能获得更大累积回报的动作，其依据Critic网络给出的评判值来调整参数以实现增大或减小该动作的输出概率。很明显，Actor和Critic智能体在训练过程中需要不断与超密边缘计算环境进行交互以达到进行最优决策的目的。

深度强化学习具体算法

在Actor-Critic深度强化学习算法中，学习代理包含两个单独的实体：Actor和Critic。接下来，本发明将具体介绍这两个实体的训练过程。

a)Critic神经网络：Critic代理的目的是估计超密边缘计算环境状态

对应的预期累积奖励值。Critic神经网络是一种单输出的Value-based神经网络，Critic利用神经网络来近似逼近状态值函数V^π(S_t)，即使用线性组合来拟合环境状态对应的状态值函数数值。状态值函数V^π(S_t)由神经网络参数向量W以及超密边缘计算环境的状态S_t进行计算得到，表示如下

其中，

是标准归一化之后的超密边缘计算环境状态，将其作为给Critic神经网络输入的特征值。

Critic神经网络依据时序差分(Temporal Difference，TD)学习方法来进行训练，时间差分损失函数是两个相邻时隙状态对应累积回报值的差值，该算法就通过当前状态的估计与未来估计之间差值来更新状态价值函数的。时序差分算法相比于通过采样若干完整的状态行动奖励序列来估计状态的真实价值的蒙特卡罗(Monte-Calo，MC)方法的好处是不需要等着整个回合训练结果完成才回传损失更新神经网络参数，时序差分算法只需要知道当前超密边缘计算环境的状态以及针对用户的迁移动作给出的反馈信息就可以计算时序差分损失以更新神经网络参数。基于时序差分方法的时间差分损失函数是两个相邻时隙状态对应累积回报值的差值，可以表示为

δ＝R_t+V(S_t+1,W)-V(S_t,W)

Critic神经网络依据时序差分损失函数的平方δ²来更新神经网络的参数。直观上讲，Critic神经网络将R_t+V(S_t+1,W)作为状态S_t采取行动A_t获得累积奖励的真实值，并将V(S_t,W)作为神经网络对状态S_t状态值函数所作的预测值，因此它使用真实值和估计值之间的损失平方来合理地更新神经网络的参数。Critic神经网络参数W更新如下

其中，α_c,t是学习率，V(S_t,W)为t时隙的状态值函数；

b)Actor神经网络：Actor神经网络是一种Policy-based的神经网络，在输出层加了softmax层，从而可以针对状态S_t输出每个动作的选择概率，Actor智能体依据神经网络输出的概率分布来选择动作。Actor神经网络将决策概率函数近似为

π＝π(S_t,W_a)

其中，π(S_t,W_a)是每个动作的输出概率分布，W_a为Actor神经网络参数。

Actor智能体的目的是能在当前超密边缘计算系统状态下做出最优的动作决策使得当前状态下的值函数在采取该动作之后的值最大，也就是说，在Actor神经网络的输出概率分布中具有高奖励的决策应该获得更高的输出概率。在传统的Policy-based(比如Policy Gradients)深度强化学习算法中，使用一次迭代获得的累积回报v_t作为Policy-based神经网络回传损失的幅度以及方向的控制值，从而可以使得累积回报值大的决策的输出概率大，传统的Policy-based的Actor神经网络的损失表示如下

loss＝logπ(S_t,W_a)v_t

Actor神经网络不同于传统的Policy-based神经网络，其使用Critic网络的时间差分损失θ_t来控制神经网络参数的更新幅度以及方向，并实现单步更新Actor神经网络参数，表示为：

loss_a＝logπ(S_t,W_a)δ

直观上讲，Actor神经网络将R_t+V(S_t+1,W)作为实际获得的累积奖励将动作A_t和V(S_t,W)作为累积奖励的期望；所以当获得的两者之差是正数的时候，证明当前采取的行动获得的奖励大于期望奖励，因此该行动在当前系统状态中是一个表现较好的行动，应该将神经网络参数w_a向这个行动输出概率更大的方向调整，即调整神经网络参数在当前状态下，使该动作的输出概率变大。相反的，当实际回报与期望回报两者之差是负数的时候，证明当前采取的行动获得的奖励比期望奖励小，因此该动作是在当前系统状态中是一个表现较差的行动，此时，应该将神经网络参数W_a向这个行动输出概率变小的方向调整，即调整神经网络参数在当前状态下，使该动作的输出概率变小。

通过策略梯度算法搜索使损失loss_a的局部最大值以得到Actor神经网络参数的更新，Actor神经网络参数W_a的更新如下

其中，

为方向向量，logπ(S_t,W_a)方向为方向参数变化最快的方向，l_a为Actor神经网络的学习率。向量的振幅越大，则策略发生后将更大的参数更新。因此，梯度的作用是增加高概率返回轨迹并降低低收益的可能性。

基于Actor-Critic深度强化学习算法的移动性管理

移动性管理的主要功能是在用户移动过程中选择最优的无线接入服务的基站和计算服务的边缘服务器的序列。此外，强化学习的目的是构建一个进行产生决策序列的智能体，最终的目标是使智能体依据环境做出的行为选择能获得最大累积收益的结果。因此，本发明采用上述的Actor-Critic网络框架作为移动性管理模型的智能体，通过与环境进行交互学习，从而使得该智能体具有最优决策的功能。接下来，本发明将详细介绍本发明提出的基于Actor-Critic深度强化学习算法的移动性管理方案的训练过程以及运行过程。简单来说，在训练过程中，Actor和Critic神经网络在超密边缘计算环境中进行联合训练，通过向环境执行相应的动作和接收环境给出的反馈来形成自适应决策模型。

一般来说，在训练过程中，为了使Critic的判断更加准确，本发明首先让Critic与环境进行一段时间的交互，然后与环境交互的Actor和Critic进行联合训练。在移动性管理智能体运行的过程中，本发明使用训练好的具有最优决策功能的Actor神经网络进行决策的输出。

具体的训练过程以及运行过程如下：

训练过程：在训练步骤中，Actor-Critic神经网络直接与计算环境进行交互并且学习环境知识从而具备最优决策能力。Actor-Critic神经网络将计算环境状态作为输入，Critic神经网络输出这个状态的状态值函数的估计值，Critic神经网络输出该状态下的每个动作的选择概率从而依据这个概率分布选择动作。图4a算法给出Actor-Critic神经网络训练的具体过程。可以看到从第2行到第9行是Critic网络的预训练，Critic只有当其输出的评判值可靠之后才可以引导Actor神经网络做出最佳的动作选择。从第11行到第20行，Critic网络与Actor神经网络一起联合训练。首先，Actor神经网络依据当前的计算环境状态S_t输出动作选择概率分布π(S_t,W_a)，然后依据其输出的结果选择随机动作A_t，在计算环境中用户执行该输出动作，获得即时奖励R_t以及下一个环境状态S_t+1；Critic神经网络分别将S_t以及S_t+1作为输入，得到预估的V(S_t,W)以及V(S_t+1,W)，依据R_t,V(S_t,W),V(S_t+1,W)计算出时间差分损失δ。Actor神经网络依据计算的损失loss_a进行神经网络参数的更新，Critic神经网络依据计算出的损失δ进行参数的更新，重复此过程，直到训练结束。

运行过程：提出的移动性管理模型在训练结束之后，部署在用户设备的移动性管理控制器上运行，依据用户周围的超密边缘计算环境来选择最优的无线接入基站以及计算服务的边缘服务器。具体的移动性管理模型的运行过程如图4b算法2所示，首先是移动性管理模型收集用户周围的可用的基站以及边缘服务器的信息，将收集到的信息作为计算环境的状态并且输入到训练好的Actor神经网络中，Actor神经网络输出动作的概率分布，将概率分布中输出概率最大的动作作为最优的动作在环境中进行执行。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

搭建仿真环境，对基于深度强化学习的超密边缘计算网络的移动性管理技术性能进行测试和评估。

仿真环境的搭建

为了评估所提出的移动性管理方案的性能，本发明在5km×5km的正方形仿真区域模拟超密集边缘计算场景中的相关的对比实验，该场景中基站的部署密度为35BS/km²，并且每个基站配备有边缘服务器来为用户提供计算卸载服务。基站可以为半径150m内的用户提供无线接入服务，并且由于基站的超密集部署，用户在某一位置有多个候选基站可为用户提供无线接入服务。在超密集边缘计算场景模型初始化过程中，本发明给基站设置了信道带宽，边缘服务器设置了不同的CPU频率值。所有实验均使用Python进行3.6.1在Windows7操作系统上运行。实验环境参数如图5所示。

在接下来的内容中，将讨论本发明提出的移动性管理方案的效率，可用性和有效性。为了评估基于深度强化学习的超密边缘计算网络的移动性管理技术的可用性和有效性，首先，本发明在卸载任务的平均延迟、任务处理准确率和服务迁移率方面选择传统的最近优先(NFOD)和时延最优的切换(DOD)方案进行了比较。最近优先的移动性管理方案是用户总是选择距离用户最近的基站和边缘服务器来为用户提供服务；时延最优的切换方案用户总是在周围可用的无线接入基站中选择使得任务处理时延最小的基站提供服务。

仿真结果及分析

实验采用不同的用户数量和不同用户的移动速度在模拟区域中进行测试。图6a给出了不同负载条件下任务平均处理时延结果对比图，其中保证用户移动速度为10m/s不变。图6b是不同用户移动速度条件下任务平均处理时延结果对比图，其中保证用户数量为25k不变。如图6a和图6b所示，可以看到基于深度强化学习的超密边缘计算网络的移动性管理方案的平均延迟比其他方案低。对于图6a中的三种方案，平均延迟随着负载的增加而增加，可以看出平均延迟与负载条件存在正相关关系。

图6c是不同负载条件下任务处理失败率变化情况的对比图，其中保证用户移动速度为10m/s不变。图6d是不同用户移动速度条件下任务处理失败率变化情况的对比图，其中保证用户数量为25k不变。如图6c和图6d所示，可以看到基于深度强化学习的超密边缘计算网络的移动性管理方案的任务处理成功率比其他方案高。对于图6c和图6d中的三种方案，任务处理失败率随着负载或用户移动速度的增加而增加，可以看出，在一定范围内，任务处理成功率与负载条件和用户移动速度存在负相关关系。

服务迁移率是衡量移动性管理质量的重要指标。实验将迁移率的预设阈值设置为0.2。图6e是不同负载条件下平均服务迁移率变化情况的对比图，其中保证用户移动速度为10m/s不变。图6f是不同用户移动速度条件下平均服务迁移率变化情况的对比图，其中保证用户数量为25k不变。在图6e可以看到，该方案的服务迁移率明显低于时延最优(DOD)的切换方案，但略高于最近优先(NFOD)的切换方案。同时，通过图6f可以看到，当服务迁移率高于预设阈值时，该方案的迁移率甚至会低于最近优先(NFOD)的切换方案，即该方案仍具有较好的服务迁移率。对于图6e和图6f中的三种方案，服务迁移率随着负载或用户移动速度的增加而增加，可以看出，服务迁移率与负载条件和用户移动速度存在正相关关系。虽然，在服务迁移率方面，该方案的优势需要在高于预设阈值实才能明显体现出来，然而，在其他实验方面的对比实验可以看出，该方案仍具有传统方案不可比拟的优势。

综上所述，本发明主要研究了在超密网络环境中，用户与边缘服务器的移动性管理问题，并提出了基于深度强化学习的超密边缘计算网络的移动性管理技术。在这个方案中，本发明根据环境信息和处理资源信息建立通信时延模型、计算模型、QoS模型、服务代价迁移模型；然后根据上述模型信息建立移动管理模型对问题进行优化简化抽象操作，通过训练Actor-Critic深度强化学习神经网络得到最终决策。最后,通过搭建仿真环境，对基于深度强化学习的超密边缘计算网络的移动性管理技术性能与NFOD、DOD方案进行测试和评估，实验结果表明，该技术在任务的卸载延迟、任务处理准确率和服务迁移率方面具有较好的性能。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S1中，上行链路的通信时延由无线传输时延D^l和有线传播时延D^p组成，表示为：

D^tsm(t,b_t,e_t)＝D^l(t,b_t)+D^p(t,b_t,e_t)

其中，t为时隙，b_t为无线接入节点，e_t为边缘服务器。

3.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S1中，计算任务队列长度的演化为：

为使用边缘服务器n来提供计算服务的用户；

为计算服务节点的最大的CPU周期数。

4.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S1中，QoS模型具体为：

v(t,b_t,e_t)＝ln(1+ΔD(t,b_t,e_t))

5.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S1中，服务代价迁移模型为

C(t,e_t)＝h(t,e_t)C^m

6.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S2中，移动管理模型的目标函数为

P1:

s.t.C1:

C2:D(t,b_t,e_t)≤γ_u(t)

C3:

C4:

为行程中的无线接入节点集，

7.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S2中，简化后的目标函数为P2:

s.t.C1:D(t,b_t,e_t)≤γ_u(t)

C2:

C3:

为行程中的无线接入节点集，

8.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S2中，马尔科夫决策过程中的状态集合为：

动作集合为：

奖励函数为：

状态值函数为：

V^π(S_t)＝R_t+βV^π(S_t+1)

π^*＝arg_π(max(V^π(S_t)))

其中，

为t时隙使用节点i以提供接入服务的用户数量，

9.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S2中，深度强化学习中，

δ＝R_t+V(S_t+1,W)-V(S_t,W)

Critic神经网络参数W更新如下

Actor神经网络将决策概率函数近似为

π＝π(S_t,W_a)

loss_a＝logπ(S_t,W_a)δ

其中，

10.根据权利要求1所述的基于深度强化学习的超密边缘计算网络移动性管理方法，其特征在于，步骤S2中，使用训练好的具有最优决策功能的Actor神经网络进行决策的输出，训练过程为：Actor神经网络依据当前的计算环境状态S_t输出动作选择概率分布π(S_t,w_a)，然后依据其输出的结果选择随机动作A_t，在计算环境中用户执行该输出动作，获得即时奖励R_t以及下一个环境状态S_t+1；Critic神经网络分别将S_t以及S_t+1作为输入，得到预估的V(S_t)以及V(S_t+1)，依据R_t,V(S_t,W)，V(S_t+1,W)计算出时间差分损失δ_t；Actor神经网络依据计算的损失loss_a进行神经网络参数的更新，Critic神经网络依据计算出的损失δ进行参数的更新，重复此过程，直到训练结束；