CN113867843A

CN113867843A - 一种基于深度强化学习的移动边缘计算任务卸载方法

Info

Publication number: CN113867843A
Application number: CN202111169616.8A
Authority: CN
Inventors: 魏贵义; 陈钗君; 王安定
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2021-12-31
Anticipated expiration: 2041-10-08
Also published as: CN113867843B

Abstract

本发明公开了一种基于深度强化学习的移动边缘计算任务卸载方法。本发明首先，在考虑MEC的计算资源的基础上，还考虑了云端依旧拥有大量的计算资源，采用边云协同可以充分利用边缘服务器和云端服务器的计算资源，相比于只使用边缘服务器而言，可以更加快速地解决复杂计算问题。此外，考虑应用程序中具有依赖性的任务，更符合现实。通过对上述两点进行建立模型，来最小化用户应用程序的任务卸载总时延。以使得用户获得更低的延迟体验，增强用户设备拥有的计算能力。本发明通过深度强化学习快速寻找出最优的卸载决策，充分利用边云协同的优势，最小化用户设备上的任务卸载总时延。

Description

一种基于深度强化学习的移动边缘计算任务卸载方法

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于深度强化学习的移动边缘计算任务卸载方法。

背景技术

近年来，移动应用程序在各行各业都有着广泛的应用，诸如媒体处理、在线游戏、增强现实、虚拟现实等新兴应用程序。这些应用程序的运行具有低延迟和高数据速率的需求。这使得移动边缘计算(Mobile Edge Computing,MEC)作为一种新兴和有前景的计算范式应运而生，将计算和存储资源部署在网络边缘，可以使得用户应用获得更低的延迟体验，变相地增强用户设备应用程序拥有的计算能力。

但在大量移动设备和物联网设备的高度计算资源需求下，仅依靠MEC服务器进行计算是难以完成的，仍然会出现资源瓶颈。在考虑用户设备与MEC服务器之间的网络边缘任务卸载的同时，还需要云端的强大计算能力来辅助MEC服务器，通过边云协同来共同为移动设备提供相对低时延、高计算能力的服务。

目前大量的研究是基于用户设备与MEC服务器之间的任务卸载，并未考虑云端依旧拥有大量的计算资源，且能够针对特定场景优化计算环境的情况。此外，移动设备为了充分利用边缘服务器和云端服务器计算能力，选择将任务上传到MEC服务器或云端，MEC和云端服务器计算能力快可以缩短时间，但是任务上传需要时间，多个任务在MEC或云端服务器上排队也会造成时延，所以需要良好的任务调度方法。此外，当新兴应用程序进行细粒度卸载时，大部分任务之间具有依赖性关系，这也使得整个任务卸载工作的复杂程度大大增加。因此找到一种良好的任务卸载方法可以大大降低应用程序的时延。

发明内容

为了解决具有依赖性关系的任务在边云协同场景下的卸载问题，本发明提供了一种基于深度强化学习的移动边缘计算任务卸载方法。

本发明的技术构思为：首先，在考虑MEC的计算资源的基础上，还考虑了云端依旧拥有大量的计算资源，采用边云协同可以充分利用边缘服务器和云端服务器的计算资源，相比于只使用边缘服务器而言，可以更加快速地解决复杂计算问题。此外，考虑应用程序中具有依赖性的任务，更符合现实。通过对上述两点进行建立模型，来最小化用户应用程序的任务卸载总时延。以使得用户获得更低的延迟体验，增强用户设备拥有的计算能力。

本发明的具体步骤是：

步骤1、建立网络通信模型；

由单个移动用户设备、拥有MEC服务器的多个无线基站和云端服务器构成一个云-边-用户的三层网络通信模型结构。

所述单个移动用户设备拥有的任务具有依赖关系，每个无线基站都配备有相应的MEC服务器，且不同基站配备的服务器的能力不同。

步骤2、应用程序建模；

将具有时序依赖关系的任务建模为一个有向无环图G＝(T，E)，其中T＝{t₀，t₁，...，t_n-1}代表任务集，E＝{e(t_i，t_j)|t_i，t_j∈T}代表任务之间的依赖关系。

每条边e(t_i，t_j)上有一个值w_i，j关联，代表任务t_i需要传送给t_j的数据量，任务t_i用二元组<r_i，x_i>表示，r_i代表任务所需的指令数，x_i∈M代表设备的编号,M＝{0，1，...，m}，其中编号0代表本地设备，编号1到m-1代表MEC服务器，编号m代表云端服务器。

步骤3、计算用户设备的任务总卸载时延；

对于用户设备的每个任务选择任何一个MEC服务器或云端作为卸载目标服务器，将该任务卸载到服务器上，任务总卸载时延包括任务传输时延、任务等待时延和任务计算时延。

步骤4、通过深度强化学习算法来寻找一个最优的卸载决策，即所有任务选择相应的执行设备来执行使得所有任务总卸载时延最小。

智能体在当前状态下采取动作进入下一个状态，同时得到环境返回的奖励，在智能体和环境不断交互更新下，将不断被优化直到，找到最优的卸载决策。

本发明的有益效果主要表现在：通过深度强化学习快速寻找出最优的卸载决策，充分利用边云协同的优势，最小化用户设备上的任务卸载总时延。此外，提出的卸载方法可以在每个本地设备上分布式运行，做出各自应用程序的任务最优卸载决策。

附图说明

图1是系统模型示意图。

图2是任务有向无环图。

图3是找到最优的卸载决策的方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

参照图1，图2和图3，一种基于深度强化学习的移动边缘计算任务卸载方法，能快速寻找出最优的卸载决策，充分利用边云协同的优势，最小化任务卸载总时延。从而增强了用户设备拥有的计算能力，使得用户获得更低的延迟体验。本发明基于云-边-用户的系统模型，对具有依赖性的任务进行建立有向无环图，提出了一个最优的卸载决策方法来决定用户设备的哪些任务会被卸载至哪些设备进行执行。

如图3所示，本发明方法具体是：

1)建立网络通信模型：由单个移动用户设备(UE)、拥有MEC服务器的多个无线基站(BS)和云端服务器(CS)构成一个云-边-用户的3层结构。其中单个移动用户设备拥有的任务具有依赖关系。每个无线基站都配备有相应的MEC服务器，且不同基站配备的服务器的能力不同。MEC服务器在中间层，可以为用户分担一定程度的计算任务。云端则拥有强大的计算能力，可以更加快速地解决复杂计算问题，见图1。

2)应用程序建模：将具有时序依赖关系的任务建模为一个有向无环图(DAG)，表示为G＝(T，E)。T＝{t₀，t₁，...，t_n-1}代表任务集，E＝{e(t_i，t_j)|t_i，t_j∈T}代表任务之间的依赖关系。

每条边e(t_i，t_j)上有一个值w_i，j关联，代表任务t_i需要传送给t_j的数据量。任务t_i可以用二元组<r_i，x_i>表示，r_i代表任务所需的指令数。x_i∈M代表设备的编号,M＝{0,1,...,m}，其中编号0代表本地设备，编号1到m-1代表MEC服务器，编号m代表云端服务器。

根据任务的有向无环图，任务t_i有他的前继任务集pre(t_i)和后继任务集suc(t_i)。如图2中，任务10的前继任务集为编号为0和7的任务集合。后继任务集为编号为13的任务。图的出口任务t_exit的完成时间代表着整个应用程序的结束时间，任务的总卸载时延就是应用程序完成所需的时延，编号为14的任务的完成时间就代表整个应用程序的完成所需的时延。

3)计算用户设备的任务总卸载时延：对于用户设备的每个任务都可以选择任何一个MEC服务器或云端作为卸载目标服务器，将该任务卸载到服务器上。

通过合理的分配任务至各服务器能大大降低任务总卸载时延。任务总卸载时延包括三方面，任务传输时延，任务等待时延，任务计算时延。任务卸载到不同设备其计算时延不一样。

任务在设备上的计算时延为：

其中

代表任务t_i卸载到设备编号为x_i的处理能力。

任务t_i与任务t_j之间的传输时延为：

其中

代表设备编号为x_i和x_j之间的传输带宽。如果任务t_i和t_j在同一设备上执行，则传输时间为0。

任务等待时延是由于任务在设备上由于处理器有时候正在忙碌，需要等待执行，本发明中用平均等待时间

来表示。

对于有向无环图中单个任务的开始时间可以计算为：

对于有向无环图中单个任务的结束时间可以计算为：

根据上述公式计算，得到的出口任务的完成时间就是任务总卸载时延

T^all＝T_end(te_xit)

最小化任务总卸载时延的问题描述为：Min T^all

约束条件为：X＝[x₀，x₁，...，x_n-1]，x_i∈{0，1，...，m}

X为卸载决策。

4)通过强化学习算法来寻找一个最优的卸载决策，即所有任务选择相应的执行设备来执行使得所有任务总卸载时延最小。

深度强化学习是智能体与环境不断交互，从而不断强化自己的决策能力的过程。因此所有任务所选择的相应的执行设备状态都被编进了系统当前状态s_t，智能体在当前状态下采取动作a_t进入下一个状态s_t+1，同时得到环境返回的奖励r_t，在智能体和环境不断交互更新下，将不断被优化直到，找到最优的卸载决策，其中智能体的更新方式为：

Q^θ(s_t，a_t)＝r_t+γmax_a′Q^θ′(s_t+1，a′)

各参数定义如下：

θ：评估网络中的参数；

θ′：目标网络中的参数；

s_t：在时刻t，系统所处状态；

s_t+1：在时刻t+1，系统所处状态；

a_t：在时刻t的决策动作；

a′：在时刻t+1的决策动作；

Q^θ(s_t，a_t)：在状态s_t下采取动作a_t所得到的Q值；

Q^θ′(s_t+1,a′):目标网络在状态s_t+1下采取动作a′所得到的Q值；

r_t：在状态s_t下采取动作a_t所得到的奖励；

γ：奖励衰减比重；

在这里，本发明将卸载决策设置为深度强化学习的系统状态s_t，动作a_t则是对系统状态s_t的更改，如果改后的任务总卸载时延比之前的要小，则使当前奖励r_t设为正值，反之设为负值，同时系统进入下一状态s_t+1。

进一步，强化学习的迭代过程为：

步骤1、初始化强化学习中的评估网络，目标网络和记忆库。当前系统状态为s_t，t初始化为1，迭代次数k初始化为1；

步骤2、当k小于或等于给定迭代次数K时,如果k对m取余为0，则更新当前状态s_t为目前最好的状态；如果k对m取余不为0，则随机选择一个概率p；

步骤3、如果p小于或等于贪心策略概率ε,即选择评估网络所输出的动作来作为下一步动作的概率；则选择评估网络所输出的动作a_t，否则随机选择一个动作；

步骤4、采取动作a_t后，得到奖励r_t和下一步状态s_t+1，并将这些信息按照格式(s_t,a_t,r_t,s_t+1)保存在记忆库中；

步骤5、结合目标网络的输出，计算目标y＝r_t+γmax_a′Q^θ′(s_t+1，a′)；

步骤6、最小化误差(y-Q^θ(s_t，a_t))²，同时更新评估网络的参数θ，使得其下次能预测得更准；

步骤7、每隔S步，将评估网络的参数赋值给目标网络，同时令k＝k+1，回到步骤2；

步骤8、当k大于给定迭代次数K时，学习过程结束，得到最佳卸载决策。

Claims

1.一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于该方法包括以下步骤：

步骤1、建立网络通信模型；

由单个移动用户设备、拥有MEC服务器的多个无线基站和云端服务器构成一个云-边-用户的三层网络通信模型结构；

所述单个移动用户设备拥有的任务具有依赖关系，每个无线基站都配备有相应的MEC服务器，且不同基站配备的服务器的能力不同；

步骤2、应用程序建模；

将具有时序依赖关系的任务建模为一个有向无环图G＝(T，E)，其中T＝{t₀，t₁，...，t_n-1}代表任务集，E＝{e(t_i，t_j)|t_i，t_j∈T}代表任务之间的依赖关系；

每条边e(t_i，t_j)上有一个值w_i，j关联，代表任务t_i需要传送给t_j的数据量，任务t_i用二元组<r_i，x_i>表示，r_i代表任务所需的指令数，x_i∈M代表设备的编号,M＝{0，1，...，m}，其中编号0代表本地设备，编号1到m-1代表MEC服务器，编号m代表云端服务器；

步骤3、计算用户设备的任务总卸载时延；

对于用户设备的每个任务选择任何一个MEC服务器或云端作为卸载目标服务器，将该任务卸载到服务器上，任务总卸载时延包括任务传输时延、任务等待时延和任务计算时延；

步骤4、通过深度强化学习算法来寻找一个最优的卸载决策，即所有任务选择相应的执行设备来执行使得所有任务总卸载时延最小；

2.根据权利要求1所述的一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于：根据任务的有向无环图，任务t_i有他的前继任务集pre(t_i)和后继任务集suc(t_i)；图的出口任务t_exit的完成时间代表着整个应用程序的结束时间，任务的总卸载时延就是应用程序完成所需的时延。

3.根据权利要求2所述的一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于：任务在设备上的计算时延为：

其中

代表任务t_i卸载到设备编号为x_i的处理能力；

任务t_i与任务t_j之间的传输时延为：

其中

代表设备编号为x_i和x_j之间的传输带宽；

任务等待时延用平均等待时间

来表示；

对于有向无环图中单个任务的开始时间计算为：

对于有向无环图中单个任务的结束时间计算为：

根据上述公式计算，得到的出口任务的完成时间就是任务总卸载时延T^all：

T^all＝T_end(t_exit)

最小化任务总卸载时延的问题描述为：Min T^all

约束条件为：X＝[x₀，x₁，...，x_n-1]，x_i∈{0，1，...，m}，X为卸载决策。

4.根据权利要求1所述的一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于：智能体的更新方式为：

Q^θ(s_t，a_t)＝r_t+γmax_a′Q^θ′(s_t+1，a′)

其中，θ表示评估网络中的参数；θ′表示目标网络中的参数；s_t表示在时刻t，系统所处状态；s_t+1表示在时刻t+1，系统所处状态；a_t表示在时刻t的决策动作；a′表示在时刻t+1的决策动作；Q^θ(s_t，a_t)表示评估网络在状态s_t下采取动作a_t所得到的Q值；Q^θ′(s_t+1,a′)表示目标网络在状态s_t+1下采取动作a′所得到的Q值；r_t表示在状态s_t下采取动作a_t所得到的奖励；γ表示奖励衰减比重。

5.根据权利要求3所述的一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于：将卸载决策设置为深度强化学习的系统状态s_t，决策动作a_t则是对系统状态s_t的更改，如果改后的任务总卸载时延比之前的要小，则使当前奖励r_t设为正值，反之设为负值，同时系统进入下一状态s_t+1。

6.根据权利要求5所述的一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于：深度强化学习的迭代过程为：

5-1.初始化深度强化学习中的评估网络，目标网络和记忆库；当前系统状态为s_t，t初始化为1，迭代次数k初始化为1；

5-2.当k小于或等于给定迭代次数K时,如果k对m取余为0，则更新当前状态s_t为目前最好的状态；如果k对m取余不为0，则随机选择一个概率p；

5-3.如果p小于或等于贪心策略概率ε；则选择评估网络所输出的决策动作a_t，否则随机选择一个动作；

5-4.采取决策动作a_t后，得到奖励r_t和下一步状态s_t+1，并按照格式(s_t,a_t,r_t,s_t+1)保存在记忆库中；

5-5.结合目标网络的输出，计算评估网络的输出：

y＝r_t+γmax_a′Q^θ′(s_t+1，a′)；

5-6.最小化误差(y-Q^θ(s_t，a_t))²，同时更新评估网络的参数θ；

5-7.每隔S步，将评估网络的参数赋值给目标网络，同时令k＝k+1，回到步骤5.2；

5-8.当k大于给定迭代次数K时，学习过程结束，得到最佳卸载决策。