CN110113190B

CN110113190B - 一种移动边缘计算场景中卸载时延优化方法

Info

Publication number: CN110113190B
Application number: CN201910335485.2A
Authority: CN
Inventors: 李立欣; 杨佩彤; 梁微; 李旭; 张会生; 程岳
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2021-04-09
Anticipated expiration: 2039-04-24
Also published as: CN110113190A

Abstract

本发明的目的是提供一种移动边缘计算场景中卸载时延优化方法，步骤一、构建系统模型：系统模型包括2M个用户和一个MEC服务器，每个用户有L个任务需要被卸载到MEC服务器进行计算，假设同时只允许两个用户采用混合NOMA策略同时卸载；步骤二、设定每一个用户作为一个执行者，每一个执行者按照DQN算法进行动作选择，即从其余2M‑1个用户中选择一个作为自己的传输搭档同时进行卸载；步骤三、用DQN算法进行系统优化：所有用户搭档选择完成后，计算系统的总卸载时延，更新奖赏值，然后训练神经网络，用神经网络作为函数逼近器，更新Q函数；不断的对系统进行上述迭代优化，直至找到最优的时延。解决了现有多用户MEC场景下，时延消耗大的问题。

Description

一种移动边缘计算场景中卸载时延优化方法

【技术领域】

本发明属于无线通信技术领域，具体涉及一种移动边缘计算场景中卸载时延优化方法。

【背景技术】

目前，移动通信网络向5G演进的速度进一步加快，面对迅猛而来的流量增长和用户体验需求，移动通信网络将承受巨大的压力。移动边缘计算(MEC)的出现有效的缓解了这一压力。MEC通过将具有计算、存储、通信能力的业务平台下沉到网络边缘，使移动用户将他们的计算密集型任务卸载到MEC设备，强调靠近移动用户以减少网络操作和服务交付的时延。其已经发展演进为5G移动通信系统的重要技术，目前广泛应于于通信系统研究的各个方面。

MEC虽然能够解决用户的高计算量需求，但将任务卸载到服务器需要耗费更多的能量和时延，因此为了更好的发挥MEC的优势，需要采用一定的方法来有效减小时延和能量的消耗。为了解决这一问题，最近已经有许多MEC场景中时延优化相关的工作被完成。

文献1““Delay Minimization for NOMA-MEC Offloading,”[IEEE SignalProcessing Letters,vol.25,no.12,pp.1875-1879,Dec.2018].”考虑了非正交多址辅助移动边缘计算(NOMA-MEC)的卸载延迟的最小化。通过将延迟最小化问题转化为分数规划的形式，提出了分别基于Dinkelbach方法和Newton方法的两种迭代算法。证明了两种方法的最优性，并比较了它们的收敛性。但该方法仅考虑两个用户的情况，实用性较低。

文献2“Latency-Oblivious Incentive Service Offloading in Mobile EdgeComputing[2018 IEEE/ACM Symposium on Edge Computing(SEC),Seattle,WA,2018].”设计了一种延迟不经意的激励服务卸载方案，以管理未来移动服务的复杂网络服务。通过使用移动边缘计算作为现实测试平台中的示例用例，构建原型并展示其在延迟和总成本方面的可行性。

一种在多基站场景中的基于非正交多址接入的移动边缘计算布伦特式时延优化方法。该方法步骤包括：(1)在集成边缘服务器的BSs的覆盖范围下有1个移动用户,优化问题描述为一个多变量非凸性优化问题；(2)将问题(DM#i)分解为两层优化问题；(3)根据底层DM#i#E#Sub问题,提出了基于拉格朗日乘数法的对分搜索方法,在移动用户i传输时间ti的情况下优化移动用户i的整体时延；(4)针对顶层DM#i#E#Top问题,提出布伦特方法,优化移动用户i的传输时间ti；(5)通过底层问题与顶层问题的交互迭代,最终解决问题(DM#i)。该发明提高了系统传输效率,节省带宽资源,获得更优质的无线网络体验质量。虽然该方法提出了移动边缘计算布伦特式时延优化方法，将问题分解为两层优化问题，但是对环境的要求较高，且用户没有经过学习的过程，收敛速度慢。

【发明内容】

本发明的目的是提供一种移动边缘计算场景中卸载时延优化方法，以解决现有多用户MEC场景下，时延消耗大的问题。

本发明采用以下技术方案：一种移动边缘计算场景中卸载时延优化方法，该方法如下：

步骤一、构建系统模型：

所述系统模型包括2M个用户和一个MEC服务器，每个用户有L个任务需要被卸载到MEC服务器进行计算，假设同时只允许两个用户采用混合NOMA策略同时卸载；

其中，2M≥2，且为偶数；L≥1；MEC服务器为移动边缘计算服务器；

步骤二、用DQN算法进行用户搭档选择：

设定每一个用户作为一个执行者，每一个执行者按照DQN算法进行动作选择，即从其余2M-1个用户中选择一个作为自己的传输搭档同时进行卸载；

步骤三、用DQN算法进行系统优化：

所有用户搭档选择完成后，计算系统的总卸载时延，更新奖赏值，然后训练神经网络，用神经网络作为函数逼近器，更新Q函数；

不断的对系统进行上述迭代优化，直至找到最优的时延。

进一步的，步骤二的DQN算法中，动作空间表示为：

其中，u_k,p表示待选动作，0<p<2M，代表用户k选择用户p作为NOMA-MEC状态下的传输搭档,A^t表示t时刻的状态集，

表示用户k在t时刻选择的动作，A表示系统的总状态空间集合；当u_k,p＝1这个动作将被选择，用户k所选择的搭档用户编号可以是0～2M中的任意一个，前提是不能选择自己本身，且已经组对的用户不能再次被选。

进一步的，步骤二的DQN算法中，系统状态可以表示为：

其中，每个时隙的状态由两个参数构成：用户k选择与自己同时进行卸载的用户的编号p，以及用户k与用户p的OMA状态下所需的传输时间对比状态δ；

若T_k＜T_p，则δ＝0，且用户k在NOMA-MEC状态下的传输功率与OMA状态相同，反之δ＝1，NOMA-MEC状态下用户p的传输状态不变，用户k需为了不影响搭档用户p的传输而改变传输速率。

进一步的，步骤二的DQN算法中，奖赏函数定义为：

其中，s和a分别表示当前的状态和动作，R表示时隙t时，在状态s下根据策略π选择动作a所得到的即时奖赏。N表示每个任务的卸载量；T_k,T_p分别表示用户k和用户p采用OMA传输时所需的时延；R_k,R_p表示用户k和用户p能采用NOMA技术成功进行卸载所需的传输率；h_k,h_p表示用户k和用户p的信道增益；

表示用户k和用户p的发射功率。

本发明的有益效果是：多用户可以采用NOMA技术同时进行卸载，并采用DQN算法进行动态决策，对同时进行卸载的用户进行配对选择，寻找最佳的两两用户组合方案，使系统的总卸载时延不断小化。

【附图说明】

图1为本发明一种移动边缘计算场景中卸载时延优化方法的移动边缘计算场景结构图；

图2为本发明一种移动边缘计算场景中卸载时延优化方法的强化学习流程图；

图3为本发明一种移动边缘计算场景中卸载时延优化方法中，M＝5即用户数为10时，不同学习率下DQN算法的学习性能；

图4为本发明一种移动边缘计算场景中卸载时延优化方法中，M＝5即用户数为10时，不同卸载方案下，系统延迟的比较；

图5为本发明一种移动边缘计算场景中卸载时延优化方法中，M＝5即用户数为10时，不同卸载方案下，系统延迟的比较。

【具体实施方式】

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种移动边缘计算场景中卸载时延优化方法该方法如下：

步骤一、构建系统模型：

步骤二、用DQN算法进行用户搭档选择：

2M个用户轮流进行搭档用户的选择，被选择的用户默认接受组对，因此所有用户完成一次任务的卸载，选择过程需进行M次。

步骤三、用DQN算法进行系统优化：

不断的对系统进行上述迭代优化，直至找到最优的时延。

其中，步骤二的DQN算法中，动作空间表示为：

系统状态可以表示为：

奖赏函数定义为：

表示用户k和用户p的发射功率。

一、系统模型构建：

本发明研究的系统模型可表述为某个MEC场景中的卸载问题，MEC服务器为移动边缘计算服务器。该计算场景的原理框图如图1所示，系统中有2M个用户和一个MEC服务器，每个用户有L个任务需要被计算。为了简化计算分析，假设用户的每个任务的计算量是相同的,表示为N。

当不采用NOMA应用于MEC时，即OMA-MEC,每个用户分别单独占用时隙向MEC服务器完成他们的卸载任务。在这种情况下，每个用户将任务卸载到服务器所需的时间计算如下：

其中，i∈(0，2M],h_i表示用户i与MEC服务器之间的信道增益；P_NO表示接收噪声，P_i ^ow表示第i个用户的发射功率。此时，系统中所有用户完成各自一个任务卸载的总时间为：

将NOMA应用于MEC场景中时，即在NOMA-MEC情况下，用户可以同时向MEC服务器进行任务卸载。我们假设仅允许两个用户，用户m和用户n(m,n∈[0,2M))，同时进行卸载。用户m和用户n在OMA模式下的传输时间分别计算为T_m，T_n。假设Tm≤Tn。由于用户m对传输时间的要求更高，我们设定用户m的传输方式与OMA模式下是相同的，即传输功率与传输时间均不变。用户n被允许在用户m传输的时隙同时进行卸载，但不能对用户m的传输效果产生任何的影响。要达成这样的条件，要求在MEC服务器上，用户n的信息在用户m之前被解码，并且用户n的传输速率有如下的限制：

其中，P_ow仍旧表示用户m，n的发射功率，P_N表示接受噪声功率。

将用户m和用户n进行组合后卸载各自一个任务所需的传输时间表示为T_mn。如果用户n能在T_m时间内完成卸载，即R_n·T_m≤N，则T_mn＝T_m。若n没有在T_m内完成卸载，则需要一个专用的时隙分配给用户n，用来进行剩余数据的卸载，表示为T_n’：

此时，T_mn＝T_m+T_n’。

将NOMA-MEC状态下，系统中所有用户均完成一个任务卸载的总时间表示为

按照用户m和用户n的传输模式，系统中2M个用户两两组合来轮流向MEC服务器进行卸载，分别计算出每个组合传输所需的时间，加和即为

2M个用户两两组合形成的排列状态共有

种。本发明需要解决的主要问题便是寻找出最佳的用户两两组合排列状态，最小化NOMA-MEC下的总时延

二、采用强化学习算法DQN进行用户组合：

强化学习(RL)能够和未知的环境进行互动获取学习经验，以做出正确的决策来得到最大的长期效用。本发明中，采用强化学习算法DQN对NOMA-MEC系统进行学习，寻找最佳的用户组合方案，以实现系统总时延的最小化。

从数学角度，RL可以表示为一个五元组D＝{S,A,R,π,V}，S和A是包含状态和动作的两个有限集，用于表示系统中的所有状态和所有可选动作。R(s,a)表示在状态s∈S下选择动作a∈A可获得的一个奖赏值。

RL的基本过程如图2所示。在本发明的系统中，2M个用户都可以作为代理进行学习。以用户k为例，在时隙t，用户k选择一个动作，既选择一个用户作为自己的传输搭档，作用给环境，使环境到达下一个状态并返回给用户k一个奖赏值R来对用户k选择的动作进行评估。RL的目标是找到适当的固定策略π:s→a,概率地将状态s映射到动作a，以便优化代理的累积长期效用V。用户k会根据环境的反馈，改变策略，调整动作向奖赏值不断增大的方向最终使得长期效用也就是卸载时延到达最优。

DQN算法是将Q学习与神经网络相结合的算法，它使用深度神经网络作为Q值网络。DQN将Q-Table的更新问题转换为函数拟合问题，并通过类似状态获得类似的输出动作，即通过更新神经网络参数θ来近似最佳效用值：

V(s,a；θ)≈V^π(s,a) (5)，

为了训练神经参数，使用均方误差来定义损失函数：

接着可以通过随机梯度下降等方法训练神经网络并更新参数以便获得最佳效用。

在本发明中，DQN算法中的动作，状态以及奖赏函数的具体设置如下：

1、系统动作空间:系统中的环境变化是不可预知的，执行人需根据当前观测到的环境状态，并根据一定的策略来选择合适的动作，以得到更大的即时奖赏值。本发明中，动作空间表示为：

其中，u_k,p表示待选动作,代表用户k选择用户p作为NOMA-MEC状态下的传输搭档.当u_k,p＝1,这个动作将被选择。用户k所选择的搭档用户编号可以是0～2M中的任意一个，前提是不能选择自己本身，且已经组对的用户不能再次被选。需指出的是，2M个用户轮流进行搭档用户的选择，被选择的用户默认接受组对，因此所有用户完成一次任务的卸载，选择过程需进行M次。

2、系统状态空间:在每个时隙t，NOMA-MEC卸载的系统状态可以表示为，

本发明中，状态有两个参数构成:用户k选择与自己同时进行卸载的用户的编号p，以及用户k与用户p的OMA状态下所需的传输时间对比状态δ，若T_k＜T_p，则δ＝0，且用户k在NOMA-MEC状态下的传输功率与OMA状态相同，反之δ＝1，NOMA-MEC状态下用户p的传输状态不变，用户k需为了不影响搭档用户p的传输而改变传输速率。

3、奖赏函数:系统奖赏函数代表优化目标代理会更多的选择带来更高奖赏值的动作。本发明中，我们使用DQN算法来最小化NOMA-MEC中的卸载延迟。奖赏函数定义为：

其中，s和a分别表示当前的状态和动作，R表示时隙t时，在状态s下根据策略π选择动作a所得到的即时奖赏。

我们的算法的目标是寻找合适的策略，以便优化代理的累积长期效用。长期效用与即时奖励的关系可以用下式来表示：

其中γ∈[0,1)是折扣因子，γ^(t-1)表示第t-1次幂的折扣因子。可以看出，距离当前时刻越近的奖赏值在效用计算中所占的比重是越大的。为了使长期效用达到最大，最优策略的选择可以表示为：

得到了长期效用的表达方式以及最优策略的选择规则，就可以按照DQN算法，根据公式1和2进行函数拟合并且训练神经参数，以得到最优的效用。通过获得长期表达实用程序和最优策略的选择规则，我们可以根据式(5)，(6)拟合函数，并训练神经参数，以获得基于DQN算法的最优效用。

实施例

本发明中，采用强化学习算法DQN对NOMA-MEC系统进行学习，寻找最佳的用户组合方案，以实现系统总时延的最小化。基本过程如图2所示，2M个用户都可以作为代理进行学习。以用户k为例，在时隙t，用户k选择一个动作，既选择一个用户作为自己的传输搭档，作用给环境，使环境到达下一个状态并返回给用户k一个奖赏值R来对用户k选择的动作进行评估。RL的目标是找到适当的固定策略π:s→a,概率地将状态s映射到动作a，以便优化代理的累积长期效用V。用户k会根据环境的反馈，改变策略，调整动作向奖赏值不断增大的方向最终使得长期效用也就是卸载时延到达最优。

本发明对所提的方案进行了仿真分析，所有用户的发射功率已经给定，信道增益通过准静态瑞利分布给出。另外，设置每个任务用户需要卸载的比特数N＝1000，接收噪声P_N＝300W。将所有用户均卸载完成一个任务视为一个回合。图3显示了当M＝5即系统中共有10个用户时，不同学习率下DQN算法的学习效果。我们可以看出，随着回合数的增长，系统的总卸载时延不断减小。且不论学习率为多少，算法均可以最终靠近一个稳定的值。同时我们可以看到，学习率为0.1时学习效果是相对较差的。当学习率为0.001时，收敛速度更快，但当学习率为0.01时，实现的稳定值更小。因此，综合考虑后，我们将学习率0.01用于以下仿真。

图4显示了当M＝5时不同卸载方案下系统延迟的比较。圆点线代表OMA模式，三角形线表示在NOMA-MEC情况下中随机配对，方形线是NOMA-MEC中基于DQN的算法。从图4中可以看出，由于用户只能一个接一个的向服务器进行卸载，OMA模式下的系统时延是维持不变的。采用NOMA-MEC后，系统延迟显著降低。此外，在NOMA-MEC中，采用DQN算法，随着回合数的增加系统延迟逐渐降低。在1200回合之后，该值基本上稳定且仅在小范围内波动。然而进行随机配对的系统延迟有波动但不会明显降低。

图5展示了当M＝50时，不同卸载策略下的系统卸载延迟。我们可以观察到，与M＝5时情况相同，OMA模式下的卸载时延远大于NOMA-MEC情况下。在NOMA-MEC情况下，采用随机配对得到的系统时延不会呈现下降趋势。但基于DQN算法的卸载方案，能够随着回合数的变化而对系统时延进行优化并逐渐达到稳定。由于用户数量较多，因此需要更长的学习周期，算法在3000回合后达到收敛。

本发明提出了一个多用户单MEC服务器的MEC系统的卸载时延优化方案。多用户可以采用NOMA技术同时进行卸载，并采用DQN算法进行动态决策，对同时进行卸载的用户进行配对选择，寻找最佳的两两用户组合方案，使系统的总卸载时延不断小化。将NOMA-MEC的双用户时延优化，扩展到多用户场景，对多用户进行两两配对，配对成功的两个用户以NOMA的形式同时进行任务卸载，有效减小系统时延。采用强化学习方法DQN对系统进行学习优化，使系统找到最佳的用户两两组合方案，最大程度的减小总时延。

Claims

1.一种移动边缘计算场景中卸载时延优化方法，该方法如下：

步骤一、构建系统模型：

所述系统模型包括2M个用户和一个移动边缘计算MEC服务器，每个用户有L个任务需要被卸载到MEC服务器进行计算，假设同时只允许两个用户采用混合非正交多址NOMA策略同时卸载；

步骤二、用DQN算法进行用户搭档选择：

具体的，

动作空间表示为：

表示用户k在t时刻选择的动作，A表示系统的总状态空间集合；当u_k,p＝1这个动作将被选择，用户k所选择的搭档用户编号可以是0～2M中的任意一个，前提是不能选择自己本身，且已经组对的用户不能再次被选，2M个用户轮流进行搭档用户的选择，被选择的用户默认接受组对，因此所有用户完成一次任务的卸载，选择过程需进行M次；

步骤三、用强化学习算法DQN进行系统优化：

所有用户搭档选择完成后，计算系统的总卸载时延，更新奖赏值，然后训练神经网络，用神经网络作为函数逼近器，更新强化学习算法Q学习中的状态动作函数；不断的对系统进行上述迭代优化，直至找到最优的时延；

具体的，

系统状态表示为：

其中，每个时隙的状态由两个参数构成：用户k选择与自己同时进行卸载的用户的编号p，以及用户k与用户p的正交多址OMA状态下所需的传输时间对比状态δ；

若T_k＜T_p，则δ＝0，且用户k在非正交多址-移动边缘计算NOMA-MEC状态下的传输功率与OMA状态相同，反之δ＝1，NOMA-MEC状态下用户p的传输状态不变，用户k需为了不影响搭档用户p的传输而改变传输速率；

奖赏函数定义为：

其中，s和a分别表示当前的状态和动作，

表示时隙t时，在状态s下根据策略π选择动作a所得到的即时奖赏，N表示每个任务的卸载量；T_k,T_p分别表示用户k和用户p采用OMA传输时所需的时延；R_k,R_p表示用户k和用户p能采用NOMA技术成功进行卸载所需的传输率；h_k,h_p表示用户k和用户p的信道增益；

表示用户k和用户p的发射功率；P_N是信道噪声功率；

长期效用与即时奖励的关系可以用下式来表示：

其中γ∈[0,1)是折扣因子，γ^(t-1)表示第t-1次幂的折扣因子，可以看出，距离当前时刻越近的奖赏值在效用计算中所占的比重是越大的，为了使长期效用达到最大，最优策略的选择表示为：

得到了长期效用的表达方式以及最优策略的选择规则，按照DQN算法，通过更新神经网络参数来近似最佳效用值，并用均方误差定义的损失函数来训练神经参数，以获得基于DQN算法的最优效用。