CN114564248A

CN114564248A - 移动边缘计算中一种根据用户移动模式计算卸载的方法

Info

Publication number: CN114564248A
Application number: CN202210170844.5A
Authority: CN
Inventors: 李云; 陈治涵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Beijing Mckey Technology Co ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-31
Anticipated expiration: 2042-02-23
Also published as: CN114564248B

Abstract

本发明属于移动通信技术和计算机技术领域，具体涉及移动边缘计算中一种根据用户移动模式计算卸载的方法；所述方法包括建立异构网络中系统的通信模型；根据用户在目前时隙以及上一时隙分别与用户关联的MEC服务器位置坐标；计算出这两个MEC服务器坐标的距离；并确定出用户是否需要进行任务迁移；根据用户关联前后的MEC服务器坐标之间的距离，分别计算出用户体验质量和用户在移动模式下的延迟成本；将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励，利用改进后的深度强化学习DQN算法优化用户体验质量总成本；本发明能够在事先不清楚用户的运动模式的情况下，对用户的任务做出迁移卸载决策，具有很强的泛化能力。

Description

移动边缘计算中一种根据用户移动模式计算卸载的方法

技术领域

本发明属于移动通信技术和计算机技术领域，具体涉及移动边缘计算中一种根据用户任务移动模式计算卸载的方法。

背景技术

近年来，随着5G技术的成熟和基于物联网的异构网络快速发展，由此产生了许多新型应用和新型场景。伴随着移动智能终端设备以指数级的爆炸式增长，产生了海量未处理的数据任务，这对移动智能终端设备的计算能力和缓存能力提出了很高的要求。普通家用移动智能终端设备的计算和缓存海量数据的能力难以满足要求，尤其是在人工智能领域中逐渐兴起的各种新型技术，比如自动驾驶技术、虚拟现实技术、增强现实技术等，对于移动智能终端设备和网络的时延以及带宽提出了更高的要求。为了解决这一系列的问题，移动边缘计算(Mobile Edge Computing,MEC)技术应运而生。

移动边缘计算这个概念的提出最早可以追溯到上个世纪90年代，阿卡迈公司推出了内容分发网络(Content Delivery Network,CDN)，它是由专业服务器组成的并且分布在不同地理位置的庞大网络。近几年来，欧洲电信标准化协会(EuropeanTelecommunications Standards Institute,ETSI)将移动边缘计算正式更名为多接入边缘计算(Multi-Access Edge Computing)。移动边缘计算是一种在无线侧提供用户所需服务和云端计算功能的网络架构，用于加速网络中各项应用的快速下载，让用户享有不间断的高质量网络体验，具备超低时延、超高带宽、实时性强等特性。利用移动边缘计算技术能有效解决时延长、能耗高和数据不安全等问题。尤其是计算卸载技术作为MEC的关键技术更是成为该领域的研究热点。MEC计算卸载技术允许移动智能终端设备将计算密集型任务卸载至MEC服务器执行，借助高计算性能MEC服务器实现任务执行时延降低的目的。此外，移动智能终端设备将任务卸载到边缘服务器后由于计算负载的减少，也能有效地降低移动智能终端设备的能耗。因此，移动边缘计算卸载技术能有效缓解移动智能终端设备计算资源不足和存储能力受限的问题。

尽管如此，在移动边缘计算领域中同样面临着许多需要解决的问题。比如人工智能领域中的无人自动驾驶技术，由于车辆驾驶具有很高的移动性，原本卸载计算任务所关联的边缘计算服务器可能会离移动智能终端设备越来越远，随着距离的增大，移动智能终端设备的接收时延也会相应增大。并且移动智能终端设备的运动轨迹很难提前预知，所以如何根据移动智能终端设备的移动模式来决策什么时候卸载任务，以及卸载到哪个服务器上是本发明所需要解决的问题。

发明内容

为了解决以上问题，以便让卸载决策能对移动智能终端设备的移动模式做出有效地判定，并满足新型业务场景中用户对于体验质量的需求。本发明的目的在于提供一种基于移动边缘计算结合深度学习来解决移动智能终端设备在不断移动的情况下决策任务卸载的方法。利用深度强化学习DQN算法，通过深度神经网络来近似状态价值函数，当移动智能终端设备在移动模式下以确定最优的计算卸载与资源分配方案。

以上所述基于一种移动边缘计算技术和深度强化学习DQN算法结合的方法，即移动边缘计算中一种根据用户移动模式计算卸载的方法具体包括以下步骤：

在包含N个小基站和1个宏基站的移动边缘网络中，为每个宏基站周围配置一台MEC服务器，并建立异构网络中系统的通信模型；

根据各个小基站所在区域，得到整个小基站群落的位置坐标集合，并确定出小基站的最大有效服务范围；并根据用户在不同时隙下的移动模式，得到目前时隙以及上一时隙分别与用户关联的MEC服务器位置坐标；

按照不同时隙下与用户关联的MEC服务器位置坐标信息，计算出这两个MEC服务器坐标的距离，从而建立系统的计算模型；

按照不同时隙下与用户关联的MEC服务器位置坐标信息以及任务服务的最大有效范围，确定出用户是否需要进行任务迁移，从而建立任务迁移和卸载模型；

根据用户关联前后的MEC服务器坐标之间的距离，分别计算出用户体验质量和迁移延迟成本；根据用户与MEC服务器之间一跳的距离，计算出用户的切换再连接延迟成本；根据迁移延迟成本和切换再连接延迟成本，计算出用户在移动模式下的延迟成本；

将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励，利用改进后的深度强化学习DQN算法优化用户体验质量总成本。

本发明具有创新性和合理性。适用于在5G技术运用下的智能车辆驾驶场景。该算法具有以下四个优点：

1.采用深度强化学习的理论方法，能够在事先不清楚用户的运动模式的情况下，对用户的任务做出迁移卸载决策。并且运用深度强化学习的算法保证了在实际运用中的泛化能力更强。

2.对于边缘计算业务场景中存在高维的状态空间和动作空间能够通过进行拟合神经网络来进行存储和处理，有效的避免了高维问题带来的维度爆炸。

3.该算法的实现原理与人类获取信息以及处理的过程类似：处于某一状态下获取环境中的感知信息，通过一个深度神经网络处理，然后输出动作，并获得一定反馈，通过反馈选择下一状态的动作，如此循环往复。使得算法能够更接近人类的认知，方便理解整个算法思想和流程。

4.该本发明的模型中，根据用户移动模式通过中央控制器来进行任务迁移的动作，由于MEC服务器仅具有有效的服务范围，所以与不采取任何任务迁移措施来说，本发明能有效的提高用户的服务体验质量。此外，通过与改进后的深度学习DQN算法相结合，能够合理的利用训练样本数据，从而加快模型训练速度，更精准的采取任务迁移动作。

附图说明

图1是本发明实施例的卸载方法流程图；

图2是本发明优选实施例的卸载方法流程图；

图3为本发明实施例的系统模型图；

图4为本发明实施例中的DQN算法结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明是一种根据用户移动模式计算卸载的方法，具体涉及到移动边缘计算任务迁移卸载技术和深度强化学习技术，构建出系统模型，判断用户是否在原MEC服务器覆盖范围内，如果在覆盖范围内，则不进行任务迁移卸载，否则进行任务迁移卸载，将任务迁移卸载过程转换为马尔科夫决策过程，并将其转换为深度强化学习模型，利用DQN算法进行训练，得到最优的任务卸载决策。

图2是本发明优选实施例中的移动边缘计算中一种根据用户移动模式计算卸载的方法流程图，如图2所示，所述方法包括以下步骤：

S1、在包含N个小基站和1个宏基站的移动边缘网络中，为每个宏基站周围配置一台MEC服务器，并建立异构网络中系统的通信模型；

如图3所示，该模型为一个异构网络，包含N个小基站(Small Cell Base Station,SBS)和1个宏基站(Macro Base Station,MBS)构成，每个SBS周围配置一台性能相同且计算能力有限的移动边缘计算(Mobile Edge Computing,MEC)服务器，每个MEC服务器的服务覆盖有效范围内可为周围用户提供算力来进行任务的卸载计算，用户使用移动智能终端设备通过无线网络将任务卸载到关联的MEC服务器。每个MEC服务器通过一个高速回程链路连接MBS，MBS周围存在一个中央控制器，负责决定移动模式下的移动智能终端设备的卸载决策。

S2、根据各个小基站所在区域，得到整个小基站群落的位置坐标集合，并确定出小基站的最大有效服务范围；并根据用户在不同时隙下的移动模式，得到目前时隙以及上一时隙分别与用户关联的MEC服务器位置坐标；

在本发明实施例中，为了建立系统的各个模型，需要获取小基站的最大有效服务范围；并根据用户在不同时隙下的移动模式，得到目前时隙以及上一时隙分别与用户关联的MEC服务器位置坐标；智能车辆将其任务卸载到对应MEC服务器的位置坐标点为(x_b,y_b)，其中

将用户此时关联的MEC服务器位置和原来所关联的MEC服务器之间的距离定义为d^t，表示为

S3、按照不同时隙下与用户关联的MEC服务器位置坐标信息，计算出这两个MEC服务器坐标的距离，从而建立系统的计算模型；

在本发明实施例中，本实施例将各个小基站SBS的位置坐标集合定义为

SBS分散在各个小区周围。将时间离散化

在时隙t下，一位用户驾驶智能车辆经过系统中构建的小区，智能车辆通过无线网络连接到最近的一个SBS，假设此时用户关联的MEC服务器的位置坐标点为(x_c,y_c)，其中

表示用户始终在整个小区群落之间穿梭。在这之前，智能车辆将其任务卸载到对应MEC服务器的位置坐标点为(x_b,y_b)，其中

由于智能车辆在不断移动，此时车辆的位置坐标和之前MEC服务器的位置坐标并不一定相同。

S4、按照不同时隙下与用户关联的MEC服务器位置坐标信息以及任务服务的最大有效范围，确定出用户是否需要进行任务迁移，从而建立任务迁移和卸载模型；

所述任务迁移和卸载模型包括在某一时隙下，智能车辆从一个位置坐标行驶离开，当经过一段时间后，车辆脱离原本关联的MEC服务器范围，进入到另外一个MEC服务器的服务覆盖范围内；由于脱离了以前的MEC服务器，导致车辆卸载在原MEC服务器上的任务计算结果回传延迟增大，用户体验质量下降，此时中央控制器在了解MEC服务器和智能车辆的情况后，采用迁移决策将原MEC服务器上的任务或计算结果迁移到现在与之关联的MEC服务器上进行卸载计算，从而降低延迟。

S5、根据用户关联前后的MEC服务器坐标之间的距离，分别计算出用户体验质量和迁移延迟成本；根据用户与MEC服务器之间一跳的距离，计算出用户的切换再连接延迟成本；根据迁移延迟成本和切换再连接延迟成本，计算出用户在移动模式下的延迟成本；

在本发明实施例中，需要建立出任务迁移后计算成本模型即用户体验质量总成本模型：

当智能车辆从一个位置坐标行驶离开，经过一段时间行驶后，车辆脱离原本关联的MEC服务器范围，进入到另外一个MEC服务器的服务覆盖范围内，此时为了保证用户的行车体验质量(Quality of Experience,QoE)，任务或者计算结果会经过中央控制器的迁移卸载决策从原来关联的MEC服务器卸载到现在所关联的MEC服务器上。任务迁移后，由于距离的远近造成不同程度的迁移时延，这也是整个系统模型的主要成本来源。本发明定义

表示在t时隙下，用户此时关联的MEC服务器位置和原来所关联的MEC服务器之间的距离。当用户连接到新的MEC服务器时，由于用户的切换再连接会再度造成延迟，将此延迟定义为转换再连接延迟，那么转换再连接延迟成本可以表示为

其中h表示MEC服务器和用户之间一跳的距离。

当任务从原来服务器进行迁移时，迁移延迟成本可以表示为

其中

表示两个MEC服务器之间单位距离的迁移时延。

那么用户在移动模式下的延迟成本可以表示为

用户的体验质量由迁移时两个MEC服务器之间的距离差值决定，当用户和关联的MEC服务器距离较近时，用户体验质量较高。当用户和关联的MEC服务器距离较远时，用户体验质量降低，将q_max定义为最优用户体验质量，那么在t时隙下，用户体验质量成本可以表示为

其中

表示单位距离用户体验质量的衰减系数。

则用户体验质量总成本应该为用户体验质量和总迁移延迟成本的之间的加权差值，用户体验质量总成本可以表示为：

其中μ_q表示用户体验质量成本系数，μ_c表示延迟成本系数，μ_q∈[0,1]，μ_c∈[0,1]且μ_q+μ_c＝1。

其中，

表示用户体验质量总成本；

μ_q表示用户体验质量成本系数，μ_c表示延迟成本系数，μ_q∈[0,1]，μ_c∈[0,1]且μ_q+μ_c＝1；Q_t表示在t时隙下的用户体验质量，

q_max表示最优用户体验质量，

表示单位距离用户体验质量的衰减系数，d^t表示在t时隙下用户当前关联的MEC服务器位置和前一时隙所关联的MEC服务器之间的距离；

表示在t时隙下用户在移动模式下的延迟成本，

表示在t时隙下的用户迁移延迟成本，

h表示MEC服务器和用户之间一跳的距离；

表示在t时隙下的用户的切换再连接延迟成本，

表示两个MEC服务器之间单位距离的迁移时延；T表示时隙数；

表示求期望，式(6b)为在时隙下，智能车辆的位置始终在某个MEC服务器的服务范围内，b_i表示第i个小基站的有效服务范围，N表示小基站个数，B为小基站的最大有效服务范围；式(6c)为在时隙下，用户的体验质量都应该大于一个用户体验质量的下限，Q_min表示最小用户体验质量；式(6d)表示为在时隙下，延迟总成本都不能超过用户最大容忍延迟，C_max表示用户在移动模式下的最大延迟成本。

S6、将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励，利用改进后的深度强化学习DQN算法优化用户体验质量总成本。

首先如图4所示，定义深度强化学习的四个元素：代理、状态、动作和奖励。

代理：代理为系统模型中宏基站下的中央控制器，它能收集所有MEC服务器的信息状态，包括位置坐标，计算任务量以及计算能力等。它的作用是根据智能车辆的移动模式来做出合理的任务迁移卸载决策。

状态：状态被定义为当前t时隙下用户智能车辆所关联的MEC服务器的位置坐标s_t＝(x_t,y_t)，因为当用户驾驶车辆时，与之关联的MEC服务器的坐标位置可能会随着移动模式的变化而变化。

动作：在当前时隙t下，系统代理会根据智能车辆的移动模式来做出任务迁移卸载决策，如果此时车辆的位置已经脱离上个MEC服务器的服务覆盖范围，已经与另外一个MEC服务器进行了关联，那么代理就会采取迁移决策将任务从之前的MEC服务器迁移到此时的MEC服务器进行卸载计算。如果此时车辆的位置依然在上个MEC服务器的服务覆盖范围内，那么代理将不会采取任何迁移卸载决策。所以将t时隙下，代理的动作定义为a_t＝{0,1}，当a_t＝0时表示代理不采取任何迁移决策，当a_t＝1时表示代理采取迁移卸载决策。

奖励：在时隙t下，代理根据系统模型信息采取相应的决策动作后获得奖励，奖励为用户体验质量成本和延迟成本之间的差值，表达式定义如下：

其中μ_q和μ_d分别表示用户体验质量权重系数和延迟成本权重系数，μ_q∈[0,1]，μ_d∈[0,1]且μ_q+μ_d＝1。当执行不迁移的动作时，那么就没有用户转换再连接的延迟和任务迁移延迟，相应的延迟成本权重系数也就为0，那么此时用户体验质量权重系数则为1。

然后进行DQN算法训练流程：

1)初始化：初始化经验回放池D，内存大小设为Z。初始化模型中央控制器的主神经网络Q(s,a；θ)，并赋值神经网络参数θ以随机权重；初始化中央控制器的target神经网络Q(s,a；θ^-)，并赋值神经网络参数θ^-以随机权重。从MEC服务器坐标随机选择位置坐标(x₁,y₁)作为此时用户关联的MEC服务器位置坐标，并将初始状态设为s₁＝(x₁,y₁)。

2)片段迭代：forepisodei＝1,...,Ido，接收模型初始观测状态用户的位置坐标、当前关联的MEC服务位置坐标和之前关联的MEC服务器坐标集合作为s₁,进入第3步。

3)时间迭代：fort＝1,...,Tdo，控制器此时获取用户原来关联的MEC服务器位置坐标(x_t,y_t)，先以随机概率ε随机选择行为a作为任务迁移动作，否则选择行为a＝argmaxQ(x,a；θ)作为最优迁移动作。然后在训练中执行动作a来决定任务是否需要进行迁移，获取下一时刻的状态s_t+1和奖励r_t，并更新状态s_t为s_t+1。然后控制器收集一组经验数据后存储经验数据(s_t,a_t,r₁,s_t+1)到经验回放池D，再从经验回放池中随机抽取小批次样本(s_j,a_j,r_j,s_j+1)，但是采用随机抽样选取样本进行模型训练时，临近的两组训练数据有时会具有强相关性，并且在产生的的样本数据中，某些样本对于迁移决策的指导性权重很低，从而导致整个模型训练效率低，甚至出现过拟合的状况。为了解决此问题，故采用结合纯贪心抽样和均匀分布抽样的随机抽样方法，并确保在训练数据的优先级中抽样的概率是单调的，同时即使对于最低优先级的训练数据也要保证非零概率，将抽样概率定义为

其中p(i)为第i条训练数据的优先级，α为优先级使用程度，以此来计算target神经网络Q(s,a；θ^-)的目标值y_t，最后通过最小化损失函数L(θ)更新主深度神经网络Q(s,a；θ)。对于神经网络参数θ，在L(θ)上执行梯度下降，并且以每固定的C步更新target神经网络Q(s,a；θ^-)的目标值，然后赋值Q(s,a；θ^-)＝Q(s,a；θ)。

4)重复步骤3)的上述迭代过程，并令t＝t+1，直至DQN算法曲线收敛或者t＝T；

5)重复步骤2)的上述迭代过程，并令i＝i+1，直到系统总开销不再随迭代片段的增加而变化或者i＝I，即DQN算法曲线收敛时，整个DQN算法训练过程结束。

在本发明的优选实施例中，本实施例通过set集合搭建出数据结构，并利用set集合的去重属性，在存放经验数据时对其中的冗余数据进行过滤，在set集合中利用时序差分法计算出target神经网络的目标值与主神经网络的当前值的差值即TD error值，基于TDerror的值来对存放的经验数据进行权值排序，并按照权值对经验数据进行排列。

应该理解的是，本发明实施例利用set集合的去重属性，在存放数据的时候对冗余数据进行过滤，能够减少算法占用内存，但是考虑到set存储数据是无序的，为了在set集合中利用快排，本实施例中还基于TD error的值来对训练数据进行权值排序，因此在回放抽样经验时，可以加快搜索速率，本实施例可以从这两个方面来提高算法性能，从而提高训练速度。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述异构网络中系统的通信模型包括每个MEC服务器的服务覆盖有效范围内为周围用户提供算力来进行任务的卸载计算，用户使用移动智能终端设备通过无线网络将任务卸载到关联的MEC服务器；每个MEC服务器通过一个高速回程链路连接宏基站，宏基站周围存在一个中央控制器，负责决定移动模式下的移动智能终端设备的卸载决策。

3.根据权利要求1所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述系统的计算模型包括将小基站的位置坐标集合定义为

小基站分散在各个小区周围，小基站的最大有效服务范围为B；将时间离散化

在时隙t下，一位用户驾驶智能车辆经过系统中构建的小区，智能车辆通过无线网络连接到最近的一个小基站，假设此时用户关联的MEC服务器的位置坐标点为(x_c,y_c)，其中

表示用户始终在整个小区群落之间穿梭；在这之前，智能车辆将其任务卸载到对应MEC服务器的位置坐标点为(x_b,y_b)，其中

4.根据权利要求1所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述任务迁移和卸载模型包括在某一时隙下，智能车辆从一个位置坐标行驶离开，当经过一段时间后，车辆脱离原本关联的MEC服务器范围，进入到另外一个MEC服务器的服务覆盖范围内；由于脱离了以前的MEC服务器，导致车辆卸载在原MEC服务器上的任务计算结果回传延迟增大，用户体验质量下降，此时中央控制器在了解MEC服务器和智能车辆的情况后，采用迁移决策将原MEC服务器上的任务或计算结果迁移到现在与之关联的MEC服务器上进行卸载计算，从而降低延迟。

5.根据权利要求1所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，用户体验质量总成本的优化模型表示为：

s.t.

其中，

表示用户体验质量总成本；

q_max表示最优用户体验质量，

表示在t时隙下用户在移动模式下的延迟成本，

表示在t时隙下的用户迁移延迟成本，

h表示MEC服务器和用户之间一跳的距离；

表示在t时隙下的用户的切换再连接延迟成本，

表示两个MEC服务器之间单位距离的迁移时延；T表示时隙数；

6.根据权利要求1所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励，利用改进后的深度强化学习DQN算法优化用户体验质量总成本包括将系统模型中宏基站下的中央控制器设计为代理，通过所述代理收集系统中各个MEC服务器的信息状态，包括用户智能车辆所关联的MEC服务器的位置坐标，MEC服务器的计算任务量以及计算能力；并根据根据智能车辆的移动模式来做出任务迁移卸载动作，将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励，运行改进后的深度强化学习DQN算法计算出最优的任务迁移卸载决策。

7.根据权利要求1或6所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述奖励表示为：

其中，R_t表示在t时隙下的奖励，μ_q和μ_d分别表示用户体验质量权重系数和延迟成本权重系数，μ_q∈[0,1]，μ_d∈[0,1]且μ_q+μ_d＝1；当执行不迁移的动作时，那么就没有用户转换再连接的延迟和任务迁移延迟，相应的延迟成本权重系数也就为0，那么此时用户体验质量权重系数则为1，Q_t表示在t时隙下的用户体验质量成本，

表示在t时隙下用户在移动模式下的延迟成本，

表示在t时隙下的用户迁移延迟成本，

表示在t时隙下的用户的切换再连接延迟成本，a_t表示在t时隙下代理执行的动作，即当a_t＝0时表示代理不采取任何迁移决策，当a_t＝1时表示代理采取迁移卸载决策。

8.根据权利要求6所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述深度强化学习DQN算法的训练过程包括：

1)初始化：初始化经验回放池D，内存大小设为Z；初始化模型中央控制器的主神经网络Q(s,a；θ)，并赋值神经网络参数θ以随机权重；初始化中央控制器的target神经网络Q(s,a；θ^-)，并赋值神经网络参数θ^-以随机权重；从MEC服务器坐标随机选择位置坐标(x₁,y₁)作为此时用户关联的MEC服务器位置坐标，并将初始状态设为s₁＝(x₁,y₁)；

2)片段迭代：当i＝1,...,I时，在每一轮迭代过程i中，接收模型初始观测状态用户的位置坐标、当前关联的MEC服务位置坐标和之前关联的MEC服务器坐标集合作为s₁，进入第3步；

3).时间迭代：当t＝1,...,T时，控制器此时获取用户原来关联的MEC服务器位置坐标(x_t,y_t)，以随机概率ε随机选择行为a作为任务迁移动作，否则选择行为a＝arg max Q(x,a；θ)作为最优迁移动作；在训练中执行动作a来决定任务是否需要进行迁移，获取下一时刻的状态s_t+1和奖励r_t，并更新状态s_t为s_t+1；控制器收集一组经验数据后存储经验数据(s_t,a_t,r₁,s_t+1)到经验回放池D，再从经验回放池中随机抽取小批次样本(s_j,a_j,r_j,s_j+1)，结合纯贪心抽样和均匀分布抽样的随机抽样方法来计算target神经网络Q(s,a；θ^-)的目标值y_t，最后通过最小化损失函数L(θ)更新主深度神经网络Q(s,a；θ)；对于神经网络参数θ，在L(θ)上执行梯度下降，并且以每固定的C步更新target神经网络Q(s,a；θ^-)的目标值，然后赋值Q(s,a；θ^-)＝Q(s,a；θ)；

9.根据权利要求7所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述经验回放池包括通过set集合搭建出数据结构，并利用set集合的去重属性，在存放经验数据时对其中的冗余数据进行过滤，在set集合中利用时序差分法计算出target神经网络的目标值与主神经网络的当前值的差值即TD error值，基于TD error的值来对存放的经验数据进行权值排序，并按照权值对经验数据进行排列。

10.根据权利要求7所述的移动边缘计算中一种根据用户移动模式计算卸载的方法，其特征在于，所述结合纯贪心抽样和均匀分布抽样的随机抽样方法包括设置第一条件和第二条件，当同时满足第一条件和第二条件时，确定出抽样概率，按照该抽样概率来控制随机抽取小批次样本；其中，所述第一条件为在确保训练数据的优先级中抽样的概率是单调，所述第二条件为对于最低优先级的训练数据也要保证非零概率，将抽样概率定义为

其中p(i)为第i条训练数据的优先级，α为优先级使用程度，m表示训练样本的数量。