CN112422346A

CN112422346A - 一种考虑多资源限制的变周期移动边缘计算卸载决策方法

Info

Publication number: CN112422346A
Application number: CN202011304864.4A
Authority: CN
Inventors: 王岩; 李子建
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-26
Anticipated expiration: 2040-11-19
Also published as: CN112422346B

Abstract

本发明涉及一种考虑多资源限制的变周期移动边缘计算卸载决策方法，以及一个用于测试该方法的边缘计算仿真模型。仿真模型考虑了多种资源的限制，包括用户动设备本地算力和通信能力、边缘服务器算力、通信信道的限制；模型的诸多参数服从均匀分布随机生成。基于上述模型，结合深度确定策略梯度下降深度强化学习方法，设计了一种可行的变周期卸载决策方法，把任务失败比率、能耗、时延作为优化指标，同时进行计算卸载决策与信号传输通道和边缘服务器算力分配。本发明的主要优点在于所建立的模型环境因其随机性较大和考虑限制较多而贴合实际、变周期决策学习方法克服了任务等待决策时隙所耽误的时间。

Description

一种考虑多资源限制的变周期移动边缘计算卸载决策方法

技术领域

本发明涉及一种考虑了考虑多资源限制的变周期移动边缘计算卸载决策方法，以及一个用于测试该方法的边缘计算仿真模型——虽然标题只包括了卸载决策方法。所提模型贴近实际应用环境，计算卸载决策方法具有较好的适用性。

背景技术

移动边缘计算被广泛认为是对云计算补充的一种新的范式，其背后的思路是把有着高计算性能的计算机策略性地布置到网络中靠近用户设备的位置，移动设备的用户可以通过无线网络将计算任务卸载到与其相近的边缘服务器，再将服务器的计算运行结果传回本地，本地的能耗和计算时延均能得到降低，从而提升了用户体验。

卸载决策是其关键技术，目前主要的研究方式仍是建模仿真，由于现阶段很多研究中对移动边缘计算的系统建模都是十分简单甚至粗糙的，很多在其上检验能满足决策任务需求方法可能会显得非常简单。现有的卸载决策方法大多不具备应对用户数目不断变化的应用场景，泛化性较差。业界迫切地需要对更加可信的仿真模型和可扩展的强适应性的卸载决策方法。

发明内容

本发明的技术解决问题是：克服现有模型做过强假设、忽略资源限制的不足，同时解决现有决策方法可扩展性差的问题。提供了一个具备多种资源限制的强随机性仿真模型，进而实现一种变周期的移动边缘计算卸载决策方法。

本发明的技术方案是：考虑了多资源限制的仿真模型搭建方法，以此模型为基础，设计一种变周期的移动边缘计算卸载决策方法，其具体步骤如下：

(1)设计仿真模型含多通信频带的宏基站和微基站；其中边缘服务器的有限算力可以自由裁量地分配给各用户设备的卸载任务，同时进行卸载决策、有限的通信资源和计算资源的分配；

(2)在所建立的仿真模型中，移动用户被允许在各基站服务区之间随机移动，每次用户移动到所有基站都不能覆盖的区域时，重置其特征参数。每个用户的任务密度“克服大数定理地”随时间变化，仿真模型具有较大随机性、变化性；

(3)将卸载决策问题表示为一部分可观马尔可夫决策过程，问题表述中采用变周期决策，所谓变周期即允许两次决策间的间隔时间不同。变周期决策这一特点使本方法具有了很好的可扩展性和未来的应用价值；

(4)使用在奖励函数中引入时间相关衰减因子的确定策略梯度下降的强化学习决策方法进行计算卸，以解决所求马尔科夫决策问题。

所述步骤(1)具体实现如下：

仿真模型中可设计若干个通信微基站，而每一个微基站覆盖一个相互不重叠的小区；宏基站部署在边缘服务器(MEC Server,MECS)处，覆盖仿真环境中的所有小区。每一个基站包含若干增益不同的通频带，每个通频带在同一时刻只能用于一个移动用户的卸载任务数据传输。

仿真模型考虑了诸如基站和通频道、本地通信算力等多种资源的限制。模型需要决策方法做出的决定不仅仅是是否卸载计算任务到边缘服务器完成，如果决定要卸载决策，还要做出用户设备(User Equipment,UE)和服务器间通信的基站信道、边缘服务器算力的分配。

用三个量来刻画用户产生的待卸载决策的计算任务，即计算任务的数据量d和计算所需的CPU周期数c，以及任务的最大容许时延t。而对于随机到来的计算任务，决策结果可能是在本地执行，也可能是卸载到边缘服务器去执行。如果经过决策第n个用户设备UE_n选择卸载计算来执行其面临的任务T_n(d_n，c_n)，则整个卸载计算将分为三个步骤，即数据上传到MECS、MECS完成计算任务、MECS执行结果回传到UE，考虑到运算结果回传的数据一般会远小于任务卸载时上传的数据，不妨忽略掉数据回传的过程中所花的时间。

数据上传到MECS的过程可分为从UE到基站和从基站到MECS两步。UE_n到基站的数据上传速率可由通信领域的如下公式求得，与频带带宽W、发射功率P_n、增益g_n、噪声干扰σ²有关。

所述步骤(2)具体实现如下：

正如现实中所有移动设备的性能不会完全相同，实际应用场景充满了变化性与不确定性。从环境的初始化到随机到来的任务的参数，均被赋予了很大的随机性：仿真模型的诸多参数服从均匀分布在一定范围内随机生成、待卸载决策任务“克服大数定理的”随时间变化、模型可以“伪地”模拟出服务区内用户地数目变化，依概率产生新的用户、删去存在的用户。

对每个用户设备的CPU频率、能量密度、数据传输功率和每个随机到来的任务的数据量和完成此任务所需CPU周期这些参数，均通过在对应参数的合理取值范围内的均匀分布来随机生成。而大数定理表明，每一个UE的任务到来概率都随机时，整体上所有UE对任务的需求会很平稳。通过设置一定数目的“任务生成组”，每一个组中包括一定的UE，这些UE的任务到来概率相同，这样既保证模型考虑了用户对边缘计算需求程度的差异性又保证了全体用需求的变化性。

为了模拟移动用户地理上的移动，人为设置一个转移概率矩阵，用户在不同微基站服务区中的转移都是由依此转移概率而随机发生的。在仿真模型中，用户在没有在卸载执行的任务时被允许离开边缘计算服务区，同时仿真模型也允许新用户的到来，且用户在离开服务区后重置其超参数，将所有待卸载决策任务队列缓冲区中的任务依次本地执行。这里所谓地超参数包括发送功率、本地CPU、所属任务生成组等UE的预设固定参数。重置其超参数的效果近似为产生了新的UE，但是不同于生成新UE的是，重置超参数后UE保留了重置前的待卸载决策任务队列，此为“伪地”生成新用户这一称谓的由来。

所述步骤(3)具体实现如下：

因为用户所面临的待卸载决策任务的到来是随机的，每隔一定时间进行卸载决策所收到的任务数也是不确定的，固定决策周期会面对可扩展性的问题；所述及的变周期决策是指在每一仿真时隙，只要有任务待卸载决策就进行决策。

每个用户设备的本地CPU和上行数据通信(所谓上行数据指用户发出的数据)在任意时刻只能服务于一个任务，这就导致当有早先到来的任务在本地执行时，新的待卸载决策任务不可以在本地执行。如果决策方法重复分配被占用的本地算力和上行数据通信能力，则此决策无效，且将待解决且为失败的任务建立任务缓冲区buffer等待缓冲区来留待资源空闲条件允许时完成，并将buffer中自其产生以来超过最大容许时延的任务判为失败，并从任务缓冲区buffer中删除之。需要指出，并不是决策方法给出的所有动作都可被执行。当决定卸载时可能面临移动边缘服务器空闲算力不足、信道资源已被占用的情况，决定本地执行时也可能面临本地CPU被更早的任务占用的情况。若动作无效，则其不会被执行，任务保存在对应UE的任务缓冲区(Buffer)中。若所有UE的缓冲区不都为空，重新做出卸载决定，但是如果缓冲区中的任务在超过最大容许时延后，将被清理，任务判为失败。

可以将卸载决策问题表示成一个部分可观马尔可夫决策过程，在状态空间

中取值的状态向量x_n被定义为：

对同一个UE，其CPU频率

能量密度

发送功率

值不会随时间改变，但不同的UE其值可能不同。R_n，F^left表示当前MECS空余的可分配的计算资源，矩阵O_N，M表示信道占用情况，矩阵的行数N对应编号从0到N-1的所有基站，列数M对应每一个基站的M个通频带，信道占用矩阵O_N，M的元素取值是零或一。而

是由UE资源被占用的真值决定的：

MECS对用户设备UE_n计算卸载请求的答复为

答复的动作向量y_n各组成参数的含义如下：第一个维度上的变量R_n在{0，1}中取值，表示是否允许UE_n进行卸载计算，当R_n＝0时表示决策结果是T_n在UE_n本地进行计算；R_n＝1时表示卸载决策的结果是T_n卸载到MECS在边缘服务器进行计算。当R_n＝0时，任务在本地完成，不需要MEC服务，B_n，g_n，f_n的取值无意义。模型考虑5G技术应用场景中的宏基站与多个微基站等传输通道同时存在的局面、简化了不同通频带的信号增益可能的差异。这里

是所有可用的通信基站的编号，从第零号的宏基站(Macro Base Station,MBS)到第一号及以后的微基站(Small Base Station,SBS)，B_n在

中取值时，表示将通过编号为B_n的基站向MECS卸载此计算任务。第三个维度上的变量g_n表示为其分配的该基站上增益为g_n的通频带，第四个维度上的变量f_n表示为此计算任务分配的MECS计算资源用每秒能进行的基础运算次数度量，故单位为CPU周期每秒。对于POMDP的回报，也是我们要定义的优化指标，选取总损失函数为仿真模型中所有UE的损失函数之和：

每一个任务在其完成时或确定失败时引入的损失由完成任务的时延和能耗加权和确定，定义为：

Cost_n＝1(T_n任务完成)(I^tt_n+I^ee_n+I^finish)+I^fail1(T_n任务失败)

每一个动作(action)的回报(reward)为这个动作做出后到下一个动作做出为止这段时间内所有损失的和，当然这期间也可能不会有任何任务完成或失败，那么回报就是0。

研究设置了离散的时隙，假定所有事件都发生在一个个时隙上，这种做法被广泛采用。采用了变周期决策的方式。以往的相关研究中，虽然一般都没有明确说明，大都会采用另一个处理方式，即对决策行为的发生设置固定的决策时隙，并取其为仿真时隙的整数倍，即固定周期决策的方法。参考所附两幅示意图可以清楚的观察到，任务到来后立刻进行决策的变周期法较任务到来后会面临可能的等待时间的固定周期决策有先天的优势。

所述步骤(4)具体实现如下：

正因为步骤(1)赋予决策方法的更大的自由，可能的决策结果有无穷多的取值，传统的搜索方法失效。采用确定策略梯度下降DDPG(Deep Deterministic Policy GradientDescent)这一非常鲁棒而有效的深度强化学习决策算法来解决此卸载决策问题，可以处理所需要决策的动作空间和状态空间中都有连续变量的情况。决策方法所使用的决策模型由两个神经网络构成，分别被称为演员网络和批评家网络。演员网络的作用是根据输入的状态特征输出决策，批评家网络的作用是输入状态特征和决策输出对决策好坏的打分。两个网络参数的初始化是随机的，训练网络

决策方法设计了任务最大容许时间延迟，超过此时延限制而仍未被得到解决的任务将被判为失败，在强化学习回报函数中通过引入惩罚量而体现。而因为步骤(3)变周期决策这一方式，相邻决策之间的时间不等，传统强化学习方法中被设为固定值的回报衰减比率被改为与间隔时间呈指数关系的变化值。

本发明与现有技术相比的优点在于：

(1)采用变周期决策的方式，在任务队列不拥挤时任务到来立刻进行卸载决策，解决了以往固定周期决策方法引入额外决策等待时间的问题。

(2)基于深度强化学习的决策方法，可以通过在训练时改变回报函数的组成，而很方便的调整对能耗、时延、任务失败率的偏好。决策方法具有一定的可扩展性。

(3)从环境的初始化到随机到来的任务的参数，均被赋予了很大的随机性。模型还赋予了MECS以在最低阈值以上灵活分配给各卸载任务不同CPU周期的能力，考虑了多种资源的限制。

附图说明

图1为边缘计算系统仿真模型示意图。

图2为各用户任务队列示意图。

图3为变周期决策示意图。

图4为固定周期决策示意图。

图5为仿真系统流程图。

图6为两个决策网络的一个具体实施例。

具体实施方式

本发明在边缘计算领域给出了移动边缘计算的一个考虑多资源限制的仿真模型，给出了一种可行的算力卸载决策方法，下面将结合附图对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明，但不用来限制本发明的范围。

考虑边缘计算系统中有一个算力资源有限的边缘服务器、同时存在一个宏基站多个微基站作为移动边缘服务器与UE之间的通信中介，并设定每个基站有多个信号增益不同的通频带。图1展示了边缘计算仿真模型的组成图，卸载路径经过基站到边缘服务器，时间延迟基本包括两段传输时间和服务器完成计算任务时间三部分。

卸载UE的各项参数随机取值，每一个时隙服从二项分布随机出现待卸载决策的计算任务，计算任务的参数也是随机取值的。图2直观表示了任务队列缓冲区的可能情况。对于任务缓冲区，任务到来时会为之添加新元素，当为其中的任务分配了有效的决策方案后，会删除缓冲区中的该任务。无效的决策方案包括本地已被分配执行中的任务后的本地决策、UE通信资源被占用或信道被占用或所分配的MECS算力超出其空闲算力的卸载决策，在进行有效的决策后，如果计算出的任务完成时间超过其最大容许时间限制，本方法不重新给此任务在之后的时隙重新决策，而是直接删除该任务，认定任务失败，并立刻结算奖励惩罚。

图3展示了变周期决策的时序图，与图4固定周期决策示意图对比可以发现，采用变周期决策后问题得到了简化，即每次决策要面临的任务数目是固定为一的；并且省去了任务到来后到下一个决策时隙的等待时间。图5是仿真系统流程示意图。图6展示了本发明所使用的决策方法DDPG所使用的两个全连接神经网络的一种可能的结构，此结构参考DDPG的原始论文而提出，经发明人试验证明有效。

在此对于一些对于仿真结果可能有影响的一些设置加以补充说明，首先是任务卸载申请机制：在每个仿真时隙中，已随机的顺序循环遍历所有UE。对每个UE都检查其是否有新任务生成，如果有，就将新任务压入任务缓冲区队列中。当任务缓冲区不为空，则将其中的第一个任务视为本时隙的申请卸载任务，并不予理会此后本时隙的其他UE的任务缓冲区中的任务。如此，每个仿真时隙最多只能做出一个卸载决策。传统的强化学习方法以贝尔曼方程为优化目标，本发明的一个实现中将其原本固定的衰减系数设为与两状态之间转移所花时间指数相关的动态值。

下面的表格给出了具体实施时的一组参数取值供参考，包括仿真模型的参数和训练强化学习决策网络的参数。取值类型为“范围”的参数在该范围中均匀分布随机生成而来。至于取值类型为“数组”的参数，数组中的每一个元素对应一个物理实体，例如与服务器远近各异的基站，每个基站到服务器的数据传输速率受其与MECS距离影响。

值得注意的一点是，在上面的参数取值所做的仿真中，宏基站和微基站全部覆盖所有用户，没有考虑覆盖范围，但这不应成为本发明专利的限制，考虑基站的覆盖范围有多种可行方式，比如在决策网络的输入中加入一个表征UE地理位置的编号，设置UE地理位置与决策动作中分配的基站不匹配的决策为无效的。

Claims

1.一种考虑多资源限制的变周期移动边缘计算卸载决策方法，其特征在于，包括如下步骤：

(2)在所建立的仿真模型中，移动用户被允许在各基站服务区之间随机移动，每次用户移动到所有基站都不能覆盖的区域时，重置其特征参数；每个用户任务密度“克服大数定理的”随时间变化，仿真模型具有随机性、变化性；

(3)将卸载任务表示为一个部分可观马尔可夫决策过程Partially ObservableMarkov Decision Process，POMDP，问题表述中采用变周期决策，所谓变周期即允许两次决策间的间隔时间不同；

(4)使用在奖励函数中引入时间相关衰减因子的确定策略梯度下降的强化学习决策方法进行计算卸载，以解决所求马尔科夫决策问题。

2.根据权利要求1所述的一种考虑多资源限制的变周期移动边缘计算卸载决策方法，其特征在于：所述步骤(1)中，仿真模型中设计若干个通信微基站，而每一个微基站覆盖一个相互不重叠的小区；宏基站部署在边缘服务器MEC Server，MECS处，覆盖仿真环境中的所有小区；每一个基站包含若干增益不同的通频带，每个通频带在同一时刻只能用于一个移动用户的卸载任务数据传输；

用三个量来刻画用户产生的待卸载决策的计算任务，即计算任务的数据量d和计算所需的CPU周期数c，以及任务的最大容许时延t；而对于随机到来的计算任务，决策结果可能是在本地执行，也可能是卸载到边缘服务器去执行；如果经过决策第n个用户设备UE_n选择卸载计算来执行其面临的任务T_n(d_n，c_n)，则整个卸载计算将分为三个步骤，即数据上传到MECS、MECS完成计算任务、MECS执行结果回传到UE，考虑到运算结果回传的数据会远小于任务卸载时上传的数据，忽略掉数据回传的过程中所花的时间；

数据上传到MECS的过程可分为从UE到基站和从基站到MECS两步；UE_n到基站的数据上传速率可由通信领域的如下公式求得，与频带带宽W、发射功率P_n、增益g_n、噪声干扰σ²有关；

3.根据权利要求1所述一种考虑多资源限制的变周期移动边缘计算卸载决策方法，其特征在于：所述步骤(2)中，

对每个用户设备的CPU频率、能量密度、数据传输功率和每个随机到来的任务的数据量和完成此任务所需CPU周期这些参数，均通过在对应参数的合理取值范围内的均匀分布来随机生成；而大数定理表明，每一个UE的任务到来概率都随机时，整体上所有UE对任务的需求会很平稳；通过设置“任务生成组”，每一个组中包括UE，这些UE的任务到来概率相同；

为了模拟移动用户地理上的移动，设置一个转移概率矩阵，用户在不同微基站服务区中的转移都是由依此转移概率而随机发生的；在仿真模型中，用户在没有在卸载执行的任务时被允许离开边缘计算服务区，同时仿真模型也允许新用户的到来，且用户在离开服务区后重置其超参数，将所有待卸载决策任务队列缓冲区中的任务依次本地执行；这里所谓地超参数包括发送功率、本地CPU、所属任务生成组UE的预设固定参数；重置其超参数的效果近似为产生了新的UE，但是不同于生成新UE的是，重置超参数后UE保留了重置前的待卸载决策任务队列，此为“伪地”生成新用户这一称谓的由来。

4.根据权利要求1所述的一种考虑多资源限制的变周期移动边缘计算卸载决策方法，其特征在于：所述步骤(3)中，因为用户所面临的待卸载决策任务的到来是随机的，每隔一定时间进行卸载决策所收到的任务数也是不确定的，固定决策周期会面对可扩展性的问题；所述及的变周期决策是指在每一仿真时隙，只要有任务待卸载决策就进行决策；

每个用户设备的本地CPU和上行数据通信在任意时刻只能服务于一个任务，这就导致当有早先到来的任务在本地执行时，新的待卸载决策任务不可以在本地执行；如果决策方法重复分配被占用的本地算力和上行数据通信能力，则此决策无效，且将待解决且为失败的任务建立任务缓冲区buffer待缓冲区来留待资源空闲条件允许时完成，并将buffer中自其产生以来超过最大容许时延的任务判为失败，并从任务缓冲区buffer中删除；并不是决策方法给出的所有动作都可被执行；当决定卸载时可能面临移动边缘服务器空闲算力不足、信道资源已被占用的情况，决定本地执行时也面临本地CPU被更早的任务占用的情况；若动作无效，则其不会被执行，任务保存在对应UE的任务缓冲区Buffer中；若所有UE的缓冲区不都为空，重新做出卸载决定，但是如果缓冲区中的任务在超过最大容许时延后，将被清理，任务判为失败；

中取值的状态向量x_n被定义为：

对同一个UE，其CPU频率

能量密度

发送功率

值不会随时间改变，但不同的UE其值可能不同；R_n，F^left表示当前MECS空余的可分配的计算资源，矩阵O_N，M表示信道占用情况，矩阵的行数N对应编号从0到N-1的所有基站，列数M对应每一个基站的M个通频带，信道占用矩阵O_N，M的元素取值是零或一；而

是由UE资源被占用的真值决定的：

MECS对用户设备UE_n计算卸载请求的答复为

答复的动作向量y_n各组成参数的含义如下：第一个维度上的变量R_n在{0，1}中取值，表示是否允许UE_n进行卸载计算，当R_n＝0时表示决策结果是T_n在UE_n本地进行计算；R_n＝1时表示卸载决策的结果是T_n卸载到MECS在边缘服务器进行计算；当R_n＝0时，任务在本地完成，不需要MEC服务，B_n，g_n，f_n的取值无意义；这里

是所有可用的通信基站的编号，从第零号的宏基站MBS到第一号及以后的微基站SBS，B_n在

中取值时，表示将通过编号为B_n的基站向MECS卸载此计算任务；第三个维度上的变量g_n表示为其分配的该基站上增益为g_n的通频带，第四个维度上的变量f_n表示为此计算任务分配的MECS计算资源用每秒能进行的基础运算次数度量，故单位为CPU周期每秒；对于POMDP的回报，就是要定义的优化指标；

选取总损失函数为仿真模型中所有UE的损失函数之和：

Cost_n＝1(T_n任务完成)(I^tt_n+I^ee_n+I^finish)+I^fail1(T_n任务失败)

每一个动作的回报为这个动作做出后到下一个动作做出为止这段时间内所有损失的和，当然这期间也可能不会有任何任务完成或失败，那么回报就是0。

5.根据权利要求1所述的一种考虑多资源限制的变周期移动边缘计算卸载决策方法，其特征在于：所述步骤(4)中，确定策略梯度下降决策方法所使用的决策模型由两个神经网络构成，分别被称为演员网络和批评家网络；演员网络的作用是根据输入的状态特征输出决策，批评家网络的作用是输入状态特征和决策输出对决策好坏的打分；两个网络参数的初始化是随机的，决策方法设计了任务最大容许时间延迟，超过此时延限制而仍未被得到解决的任务将被判为失败，在强化学习回报函数中通过引入惩罚量而体现；而因为步骤(3)变周期决策这一方式，相邻决策之间的时间不等，传统强化学习方法中被设为固定值的回报衰减比率被改为与间隔时间呈指数关系的变化值。