CN111414252A

CN111414252A - 一种基于深度强化学习的任务卸载方法

Info

Publication number: CN111414252A
Application number: CN202010190186.7A
Authority: CN
Inventors: 温醒醒; 夏士超; 李云; 黄鸿锐; 苏开荣
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-14
Anticipated expiration: 2040-03-18
Also published as: CN111414252B

Abstract

本发明涉及无线通信技术领域，具体为一种移动边缘计算下基于深度强化学习的任务卸载方法，包括：根据移动用户到达的任务，建立一个队列模型来描述移动用户的任务卸载问题；根据任务卸载的目标服务器及任务量设定约束条件；在约束条件下，采用一种无模型的强化学习机制构建以最小化系统成本为目标的优化问题；利用深度强化学习DDPG进行求解最优卸载策略；根据本发明可以实现在不知道信道状态信息的情形下，通过探索和训练来自适应调整MEC系统的任务卸载策略，实现系统的卸载成本最小化，提升用户体验。

Description

一种基于深度强化学习的任务卸载方法

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于深度强化学习的任务卸载方法。

背景技术

近年来，随着移动互联网和物联网(Internet of Things,IoT)的快速发展和融合，使数据流量和终端设备连接量呈指数式增加。据预测，全球移动数据流量与第四代移动通信(The Fourth Generation Mobile Communication,4G)相比增长了1000倍。面对如此大的挑战，未来无线网络需要足够的通信容量去承载和处理海量的无线设备连接和高速的数据传输。与此同时，随着4K/8K视频、虚拟现实(Virtual Reality,VR)/增强现实(Augmneted Realityz,AR)、工业物联网、车联网等新兴业务的涌现，第五代移动通信技术(The Fifth Generation Mobile Communication,5G)正在由今天的人互联网、物联网向万物互联演进，由此产生了未来通信系统的普遍性和包容性。这使得移动边缘计算(MobileEdge Computing,MEC)作为一种新兴和有前景的计算范式应运而生，将计算和存储资源部署网络边缘，有效提升了用户业务体验。

目前，越来越多的新兴移动用于受益于MEC技术。但是海量多元化设备接入物联网，使得数据量越来越大，对资源的要求越来越高，仅仅依靠单一的蜂窝网络接入方式提供服务使得资源的分配过程越来越复杂。目前，异构网络(Heterogeneous Networks，HetNets)密集化的部署方案是增强室内和边缘网络的覆盖范围的有效技术，因此在异构无线环境下通过MEC对网络资源分配是一种新的方法，一方面可以利用异构网络的多样性为移动用户提供更多的服务选择，另一方面可以为移动用户提供足够大的网络容量，实现低延迟的服务以及满意的用户体验。

但是现有的异构无线网络环境下MEC网络在确定任务卸载中没有考虑到任务卸载环境的复杂性，即请求任务的信息和网络状态往往都是动态变化的，这种动态特性会影响任务分配的成功率和效率；因此急需一种具有自适应性任务卸载策略，使得基于异构MEC网络中请求任务信息以及网络状态信息能够根据变化实时调整任务分配调度，使异构无线环境下的MEC系统能够工作在最佳的状态的方法。

发明内容

为解决以上现有技术问题，本发明提出了一种基于深度强化学习的任务卸载方法，该方法包括：根据获取的用户信息构建任务队列模型，根据任务队列模型得到用户的卸载任务量；设定任务卸载约束条件，根据任务卸载约束条件判断是否执行任务卸载以及卸载到本地或者卸载到基站；采用有限状态马尔可夫模型模确定系统的无线信道，通过信道的信噪比表征信道状态，根据信道状态确定任务卸载的传输成本；根据卸载的任务构建任务卸载系统模型，通过务卸载系统模型确定最小化系统成本的优化问题；采用DDPG模型求解最优的任务卸载及计算资源分配策略。

优选的，任务队列模型为：

优选的，设定的卸载约束条件包括：

优选的，通过信道的信噪比表征信道状态的过程包括：

将与每个基站相连的无线信道的SNR的值范围划分为{SNRⁿ,n＝1,2,...,d}d个非重叠等级，其中SNRⁿ表示SNR的一个等级；用户j在时隙t随机选择的SNR的样本空间Ω_j(t)表示为

所有用户在时隙t的样本空间的笛卡尔积为：

优选的，确定最小化系统成本的优化问题的过程包括：

确定用户j的计算决策

当

表示移动用户j选择模式i执行计算任务计算，

表示其他；i∈{0,1,2,...,N}表示选择的计算模式，i＝0表示执行本地计算，i＝1表示通过MBS执行计算任务，i＞1表示SBS i执行计算任务；

根据计算决策、选择的计算模式以及用户信息确定卸载决策向量

计算每个用户j的卸载决策到目标服务器的任务量

其中

表示移动用户j在本地执行计算的任务量；根据任务量求出系统的通信成本和计算成本；对通信成本和计算成本进行优化，求出最小成本。

进一步的最小化系统成本为目标的优化问题为：

优选的，DDPG模型包括：系统状态空间

动作空间

系统奖赏函数

所述系统状态空间

包括：

s(t)＝(SNR₀(t),SNR₁(t),...,SNR_N(t),

Q₁(t),...,Q_U(t))

所述动作空间

包括：

A(t)＝(a₁(t),a₂(t),...,a_j(t),...,a_U(t),

b₁(t),b₂(t),...,b_j(t),...,b_U(t)

f₁(t),f₂(t),...,f_j(t),...,f_U(t))

所述系统奖赏函数

包括：

优选的，求解最优的任务卸载及计算资源分配策略的过程包括：在进行任务的卸载过程中每个状态-动作对对应相应的行动值函数，也称作Q函数，采用卷积神经网络对Q函数进行模拟，得到Q网络，其中Q网络的参数为

采用另一个卷积神经网络对策略π进行模拟，得到策略网络，其中策略网络的参数为

将获取的样本数据保存为四元组的形式(s(t),a(t),

s(t+1))，并存储到样本池；在样本池中随机抽取小批量样本数据对策略网络进行训练，计算参数

和

的最优解，得到最优的任务卸载；根据最优的的任务卸载分配资源。

本发明利用DDPG技术提出一种基于深度强化学习的任务卸载方法，使得MEC系统的任务卸载策略具有自适应性，解决了移动用户任务卸载的目标服务器及任务卸载量的问题，实现了系统成本的最小化，提升了用户体验。

附图说明

图1为本发明的系统模型图；

图2为本发明的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例的基于深度强化学习的任务卸载方法系统模型图，假设异构(Macro-Small Cell)场景的MEC网络模型由一个宏基站(Macro Base Station,MBS)和N个小基站(Small celle Station,SBS)组成以及U个用户组成，SBSs和移动用户随机分布在MBS的覆盖范围内。为了表述方便，定义

和

分别表示系统内基站和用户的集合。特别地，当i＝1表示MBS，i＞1和j分别表示SBSi和用户j。网络运营商把MEC服务器部署在MBS和SBSs上，MEC服务器具有一定的计算和存储能力并且通过基站与移动用户建立连接。本发明考虑一个离散时系系统模型，其中连续时间被分成离散的时间段

并且每一个时间段的持续时间由函数τ定义。对于每个用户j都有一个计算密集型任务需要完成，且都有一个数据队列用于缓冲要卸载的任务。定义移动用户j新到达的任务为随机变量的集合

由于在单位时隙内任务到达是有限的，有

假设每个随机变量A_j(t)服从独立同分布，则单位时隙内任务的平均到达率为

一种基于深度强化学习的任务卸载方法，如图2所示，该方法包括：

步骤一：移动用户请求计算任务，根据移动用户请求计算的任务的属性，构建任务队列模型，得到移动用户的卸载任务量，任务队列模型用来描述移动用户的任务卸载问题。

所述任务队列模型为：

其中，Q_j(t)、b_j(t)、γ_j和

分别表示移动用户j在时隙t的开始等待处理的任务量、移动用户j在时隙t卸载的任务量、移动用户j的计算密度、移动用户j的最大容忍计算时间。

用

表示所有移动用户在t时隙的开始队列挤压的集合，因此，有：

其中，Q_i(t+1)表示用户i在t+1时隙的开始等待处理的任务量，Q_i(t)表示用户i在时隙t的开始等待处理的任务量，b_i(t)表示用户i的任务卸载量。A_i(t)表示在用户i在时隙t的开始到达的任务量，

表示在第t时隙用户的集合，

进一步地，移动用户j的稳定性约束表示如下：

其中，T表示时隙的长度，

表示系统平均队列长度，sup函数表示求最小上界的函数，Q_j(t)表示用户j在时隙t的开始等待处理的任务量，

表示Q_j(t)的期望值。

步骤二：根据移动用户是否卸载，以及卸载到哪来设定约束条件。确保一个用户的计算任务在单位时隙只能选择本地执行或者卸载到一个服务器上。

进一步的，所述约束条件包括：

其中，

表示移动用户j是否卸载以及卸载到哪，t表示时隙的索引，当

表示移动用户j选择模式i执行计算任务计算；i∈{0,1,2,...,N}表示选择的计算模式，i＝0表示执行本地计算，i＝1表示通过MBS执行计算任务，i＞1表示通过SBSi执行计算任务，MBS表示宏基站，SBSi表示第i个小基站；b_j(t)表示用户j的任务卸载量，

表示移动用户j的最大任务卸载量，

表示队列的稳定性，U表示用户数量。

步骤三：使用有限状态马尔可夫模型模拟无线信道，并用信道信噪比(Signal toNoise Ratio,SNR)来表征信道的状态。

进一步地，与每个基站相连的无线信道的SNR的值范围被划分为{SNRⁿ,n＝1,2,...,d}d个非重叠等级，其中SNRn表示SNR的一个等级。那么，用户j在时隙t随机可选的SNR的样本空间Ω_j(t)可表示为

其中

表示在时隙t时用户j与基站i之间的SNR随机变量。基于此，所有用户在时隙t的样本空间的笛卡尔积为：

其中，SNR表示信道的信噪比，Ω(t)表示所有用户在时隙t的样本空间的笛卡尔积，Ω_j(t)表示移动用户j在时隙的样本空间。

步骤四：建立任务卸载的系统模型，构建以最小化系统成本为目标的优化问题。

本发明定义用户j的计算决策为

它不仅表征用户是否卸载而表征着卸载到哪。具体来说，当

表示移动用户j选择模式i执行计算任务计算，

表示其他。i∈{0,1,2,...,N}表示选择的计算模式，i＝0表示执行本地计算，i＝1表示通过MBS执行计算任务，i＞1表示SBS i执行计算任务。因此我们有卸载决策向量

特别地，满足约束：

这表明一个用户只能一种计算模式。这里每个用户j具体决策卸载多少任务量到目标服务器用

表示，并用

表示移动用户j在本地执行计算的任务量。

其中，

表示用户数量，

表示移动用户j选择的计算任务，MBS表示宏基站，SBSi表示第i个小基站，u表示所有用户的集合，

表示所有基站的集合，

表示每个用户j具体决策卸载多少任务量。

在任卸载的过程中，所述任务卸载的系统模型包括：通信成本模型，计算成本模型。

进一步的，通信成本模型包括：

其中，

表示移动用户j在时隙t传输计算任务的通信成本，α_i表示用户与基站i之间每单位时间的传输数据成本，

表示用户j到基站i的传输时延，

表示每个用户j具体决策卸载多少任务量，

表示用户j与基站i之间的传输速率，B_i表示基站i分配给用户的带宽，

表示在时隙t时用户j与基站i之间的SNR随机变量

所述计算成本模型包括本地计算和边缘计算两种模型，进一步的，本地计算模型包括：

其中，

表示用户j在时隙t本地计算消耗的能耗，

表示用户j本地计算每cpu频率消耗的能耗，

表示用户j本地计算执行的任务量，γ_j表示移动用户j的计算密度，

表示用户j在时隙t本地计算的时延，

表示用户j的计算能力。

进一步的，边缘计算模型包括：当用户j决定卸载时，计算任务将被传输到与MBS或SBSs相连的MEC服务器。然后MEC服务器代替用户j执行计算任务，用户j传输计算任务到基站i的时延和能量消耗分别为

以及

其中

表示用户j传输计算任务到基站i的时延，

表示用户j卸载到基站i的任务量，γ_j表示移动用户j的计算密度，

表示用户j传输计算任务到基站i的能耗，p_j表示用户j的传输功率。

在异构无线网络中，考虑到MEC服务器的计算能力有限，本发明定义MEC服务器的计算容量为

使用

表示在时隙t时的计算资源分配向量集。其中

表示与MBS相连的MEC服务器在时隙t分配给用户j的计算资源，

表示与SBSi相连的MEC服务器在时隙t分配给用户j的计算资源。同时本发明定义计算资源分配集F满足以下约束:

其中

表示基站i分配给用户j的计算资源，

表示MEC服务器的计算容量。当

时，用户j边缘计算的时间

为：

其中

表示用户卸载到基站i的任务量，γ_j表示移动用户j的计算密度，其中

表示基站i分配给用户j的计算资源。进一步的，用户j任务卸载过程中的的计算成本和能量消耗可表示为：

其中

表示用户j任务卸载过程中的的计算成本，β_i表示MECi每单位时间的计算成本，

表示用户j在基站i的计算的时间，

表示用户j卸载任务到MEC服务器i的过程中的能量消耗，表示用户j传输计算任务到基站i的能耗。进一步的，可得到用户j完成计算任务的时延可表示为:

其中T_j(t)为用户j完成计算任务的时延，

表示用户j选择计算的模式，

表示表示用户j在基站i的计算的时间，

表示用户j在本地执行计算，

表示用户j在本地计算的时间，

用户j卸载任务到基站i过程中的能量消耗,

表示本地执行过程中的能量消耗。

所述最小化系统时间平均成本开销为目标的优化问题包括：

其中，

表示用户j选择计算的模式，

表示用户j卸载任务到MEC服务器i的过程中的能量消耗，

表示移动用户j在时隙t传输计算任务的通信成本，

表示用户j任务卸载过程中的的计算成本，

表示本地执行过程中的能量消耗，

表示本地执行过程中的能量消耗。

表示系统时间平均成本开销，T表示时隙的总长度，sup函数为求最小上界的函数，

表示求期望，C(t)表示系统成本开销。

步骤五：采用DDPG模型，根据任务请求的随机性以及MEC网络的动态变化，求解最优的任务卸载及计算资源分配策略。

所述DDPG模型包括：系统状态空间

动作空间

系统奖赏函数

所述系统状态空间

包括：

s(t)＝(SNR₀(t),SNR₁(t),...,SNR_N(t),

Q₁(t),...,Q_U(t))

其中

SNR_i(t)表示基站i在时隙t的通信链路的SNR,Q_i(t),表示移动用户j在时隙t的队列积压任务量。

所述动作空间

包括：

A(t)＝(a₁(t),a₂(t),...,a_j(t),...,a_U(t),

b₁(t),b₂(t),...,b_j(t),...,b_U(t)

f₁(t),f₂(t),...,f_j(t),...,f_U(t))

其中

表示移动用户j选择计算的模式，

表示移动用户j选择模式i计算。b_j(t)表示用户i在时间片t从队列中卸载的任务量，f_j(t)表示分配给移动用户j的计算资源。

所述系统奖赏函数

包括：

其中，

表示用户j选择计算的模式，

表示用户j卸载任务到MEC服务器i的过程中的能量消耗，

表示移动用户j在时隙t传输计算任务的通信成本，

表示用户j任务卸载过程中的的计算成本，

表示本地执行过程中的能量消耗，

表示本地执行过程中的能量消耗。

进一步的，本发明将长期收益R(t)定义为:

其中γ表示折扣因子，是对未来奖励的衰减值，

表示系统的即使奖励。γ越大，意味着更新时对过去训练所得到的经验越重视，反之对当前的收益更重视。

进一步的，每一个状态-动作对都对应一个行动值函数(也称为Q-函数)，用户可以根据Q值对任务卸载策略进行评估和改进，Q-函数定义为：在当前状态s(t)下采取动作a(t)，并根据一定的策略π获得的累积奖励Q^π(s,a)，基本方程表示如下：

其中

表示求期望，γ表示折扣因子。

本发明得到系统的系统状态，动作和奖赏函数表示后，利用深度强化学习DDPG进行求解。

即在DDPG模型中，使用一个卷积神经网络对上述Q-函数进行模拟，定义这个网络为Q网络，其参数为

同时再用一个参数为

的卷积神经网络对π函数进行模拟，得到策略网络，然后把用户与环境交互过程中获得的样本数据保存为一个四元组的形式

再将获得的样本数据存储到样本池，随后从样本池中随机抽取小批量样本数据对网络进行训练，寻找参数

和

的最优解。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的任务卸载方法，其特征在于：根据获取的用户信息构建任务队列模型，根据任务队列模型得到用户的卸载任务量；设定任务卸载约束条件，根据任务卸载约束条件判断是否执行任务卸载以及卸载到本地或者卸载到基站；采用有限状态马尔可夫模型模确定系统的无线信道，通过信道的信噪比表征信道状态，根据信道状态确定任务卸载的传输成本；构建任务卸载系统模型，通过任务卸载系统模型以及任务卸载的传输成本确定最小化系统成本的优化问题；采用DDPG模型求解最优的任务卸载和资源分配策略；

其中，MEC表示移边缘计算，DDPG表示深度强化学习模型。

2.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述任务队列模型Θ_i为：

其中，Q_j(t)、b_j(t)、γ_j和

3.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述任务卸载约束条件包括：

其中，

表示移动用户j的最大任务卸载量，

表示队列的稳定性，U表示用户数量。

4.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述通过信道的信噪比表征信道状态的过程包括：

将与每个基站相连的无线信道的SNR的值范围划分为d个非重叠等级，即{SNRⁿ,n＝1,2,...,d}，其中SNRⁿ表示SNR的一个等级；用户j在时隙t随机选择的SNR的样本空间Ω_j(t)表示为

所有用户在时隙t的样本空间的笛卡尔积为：

5.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述确定最小化系统成本的优化问题的过程包括：

确定用户j的计算决策

当

表示移动用户j选择模式i执行计算任务，

表示其他；i∈{0,1,2,...,N}表示选择的计算模式，i＝0表示执行本地计算，i＝1表示通过MBS执行计算任务，i＞1表示SBSi执行计算任务；

计算每个用户j的卸载决策到目标服务器的任务量

其中

表示移动用户j在本地执行计算的任务量；根据任务量求出系统的通信成本和计算成本；对通信成本和计算成本进行优化，求出最小成本；

其中，

表示用户数量，

表示移动用户j选择的计算任务，MBS表示宏基站，SBSi表示第i个小基站，

表示所有用户的集合，

表示所有基站的集合，

表示每个用户j具体决策卸载多少任务量。

6.根据权利要求5所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述获取通信成本的过程包括：

其中，

表示用户j到基站i的传输时延，

表示在时隙t时用户j与基站i之间的SNR随机变量。

7.根据权利要求5所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述本地计算包括：

其中，

表示用户j在时隙t本地计算消耗的能耗，

表示用户j本地计算每cpu频率消耗的能耗，

表示用户j在时隙t本地计算的时延，

表示用户j的计算能力；

所述边缘计算包括：计算用户传输计算任务到基站的时延

和能量消耗

用户的边缘计算时间为

则总的边缘计算时间为户传输计算任务到基站的时延与用户的边缘计算时间和；总的边缘计算消耗的能量为用户传输计算任务到基站的能量消耗与边缘计算的能量消耗的和。

8.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述最小化系统成本的优化问题为：

其中，

表示用户j选择计算的模式，

表示用户j卸载任务到MEC服务器i的过程中的能量消耗，

表示移动用户j在时隙t传输计算任务的通信成本，

表示用户j任务卸载过程中的的计算成本，

表示本地执行过程中的能量消耗，

表示求期望，C(t)表示系统成本开销。

9.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述DDPG模型包括：系统状态空间

动作空间

系统奖赏函数

所述系统状态空间

包括：

s(t)＝(SNR₀(t),SNR₁(t),...,SNR_N(t),

Q₁(t),...,Q_U(t))

其中，

SNR_i(t)表示基站i在时隙t的通信链路的信噪比，Q_i(t),表示移动用户j在时隙t的队列积压任务量；

所述动作空间

包括：

A(t)＝(a₁(t),a₂(t),...,a_j(t),...,a_U(t),

b₁(t),b₂(t),...,b_j(t),...,b_U(t)

f₁(t),f₂(t),...,f_j(t),...,f_U(t))

其中

表示移动用户j选择计算的模式，

表示移动用户j选择模式i计算，b_j(t)表示用户i在时间片t从队列中卸载的任务量，f_j(t)表示分配给移动用户j的计算资源；

所述系统奖赏函数

包括：

其中，

表示用户j卸载任务到MEC服务器i的过程中的能量消耗，

表示移动用户j在时隙t传输计算任务的通信成本，

表示用户j任务卸载过程中的的计算成本，

表示本地执行过程中的能量消耗，

表示本地执行过程中的能量消耗。

10.根据权利要求1所述的一种基于深度强化学习的任务卸载方法，其特征在于，所述求解最优的任务卸载及计算资源分配策略的过程包括：在进行任务的卸载过程中每个状态-动作对对应相应的行动值函数，也称作Q函数，采用卷积神经网络对Q函数进行模拟，得到Q网络，其中Q网络的参数为θ^μ；采用另一个卷积神经网络对策略π进行模拟，得到策略网络，其中策略网络的参数为θ^Q；将获取的样本数据保存为四元组的形式

并存储到样本池；在样本池中随机抽取小批量样本数据对策略网络进行训练，计算参数θ^μ和θ^Q的最优解，得到最优的任务卸载；根据最优的的任务卸载分配资源；

其中，s(t)表示系统当前的状态，a(t)表示采用的动作，

表示获得的奖赏，s(t+1)表示转移的下一个状态，θ^θ表示Q网络网络参数，θ^Q表示策略网络的参数。