CN115904533A

CN115904533A - 一种基于深度强化学习的边缘计算任务卸载方法

Info

Publication number: CN115904533A
Application number: CN202211300552.5A
Authority: CN
Inventors: 朱明刚; 谢满德; 俞军
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-04-04

Abstract

本发明属于边缘计算领域，公开了一种基于深度强化学习的边缘计算任务卸载方法，包括步骤A：建立系统模型；步骤B：本地计算模式下任务都在设备上计算并且同时获取能量；步骤C：边缘计算模式下设备将任务卸载到边缘节点上计算；步骤D：卸载决策问题建模；步骤E：通过DDPG算法模型中加入一层长短期记忆网络LSTM选择最优卸载决策。本发明在DDPG主网络中加入了一层长短期记忆网络LSTM，由于LSTM网络长短期记忆功能，可以记录当前环境状态之前一段时间地环境状态，再与当前检测到的环境状态整合，就可以更加准确地得到当前环境状态，由此可以让系统做出更加准确地动作，生成我们需要的优化策略，提高了系统整体性能。

Description

一种基于深度强化学习的边缘计算任务卸载方法

技术领域

本发明属于边缘计算领域，尤其涉及一种基于深度强化学习的边缘计算任务卸载方法。

背景技术

随着智能设备的发展，生活中存在的智能设备越来越多，因此我们产生的计算任务也逐渐增多，为了降低智能设备的计算压力以及处理一些设备无法直接计算的任务，边缘计算(MEC)就应运而生。MEC架构通常包含一个云服务中心，多个边缘计算服务器和多个智能设备，MEC技术通常将边缘服务器部署在靠近智能设备的位置，这个靠近指的是物理距离或者网络距离。因此，当智能设备上有任务需要计算，而智能设备本身的计算能力无法满足需求时，可以将计算任务卸载到距离较近的边缘服务器上，边缘服务器可以快速响应用户服务请求，在降低时延方面有很大优势，对于时延要求高的应用非常适合MEC，比如网络直播，VR等等。随着越来越多的研究者加入到了边缘计算的相关研究中，边缘计算中的任务卸载问题也得到了很好的发展，对于之前的研究，大多关注在计算资源和网络资源分配方面的优化。当卸载任务较少时，系统可以简单地选择附近地边缘计算服务器卸载任务，当计算任务过大时，边缘服务器无法满足，就再卸载到云计算中心，此时系统就相当于云计算。而当智能设备过多时，计算任务也随之增加，此时一些临近多智能设备的边缘服务器可能会面临过多任务同时卸载，压力过大，就会增加任务计算的时延，从而出现因为总体资源分配不当而导致系统整体性能下降的情况。

在当前的发展场景下，大多数现实应用的存在，导致边缘服务器也需要面临很多卸载任务的压力，这会影响我们整个系统的性能。因此，对于如何在多场景多任务的情况下，我们的系统对于不同的任务去选择合适的边缘服务器卸载成为了我们需要考虑的问题，这个问题的解决能够提升系统整体的性能。

发明内容

本发明目的在于提供一种基于深度强化学习的边缘计算任务卸载方法, 以解决边缘服务器卸载任务压力过大时系统性能降低的技术问题。

为解决上述技术问题，本发明的一种基于深度强化学习的边缘计算任务卸载方法的具体技术方案如下：

一种基于深度强化学习的边缘计算任务卸载方法，设置工作环境为无线充电环境，设备可通过无线接收器由访问接入点获得能量，包括如下步骤：

步骤A：建立系统模型；

步骤B：本地计算模式下任务都在设备上计算并且同时获取能量；

步骤C：边缘计算模式下设备将任务卸载到边缘节点上计算；

步骤D：卸载决策问题建模；

步骤E：通过DDPG算法模型中加入一层长短期记忆网络LSTM选择最优卸载决策。

进一步地，所述步骤A包括如下具体步骤：

步骤A1：由一个访问接入点Access Point和N个固定无线设备fixed WirelessDevices组成的边缘计算网络MEC network，表示为集合 N＝{1,2,...,N}；

步骤A2：每个设备使用时分复用电路，避免通信之间的干扰；

步骤A3：系统时间被划分为长度相等的连续时间帧Τ；

步骤A4：每个标记时间，无线设备储存的能量和它们之间的通信速度都与无线信道增益有关；

步骤A5：在一个时间帧的开始，aΤ的时间量用于设备充电，这里a∈[0,1]；步骤A6：第i个设备收获能量：E_i＝μPh_iaΤ，μ∈(0,1)表示能量收集效率， P代表能量传输效率，h_i是接入点和设备i之间的信道增益；

步骤A7：每个设备利用获得的能量，在一个时间帧结束之前完成一个计算任务；

步骤A8：w_i表示分配给设备i的权重；w_i越大，分配给设备i的计算速率就越大；

步骤A9：使用一个二进制卸载策略，这个任务要么在本地计算，要么卸载到AccessPoint执行计算，x_i＝1表示user_i将计算任务卸载到Access Point，x_i＝0表示任务在本地执行计算。

进一步地，所述步骤B包括如下具体步骤：

步骤B1：设备处理的比特数：f_it_i/φ，

f_i表示设备iCPU计算速度，

t_i表示设备i计算时间，0≤t_i≤Τ，

φ表示处理1bit任务数据所需的cycles，φ>0；

步骤B2：由于计算而产生的能量消耗受k_if_i ³t_i≤E_i的约束，k_i表示计算能效系数；

步骤B3：由上述内容得到本地计算速率：

固定参数：

进一步地，所述步骤C包括如下具体步骤：

步骤C1：设备在具有能量时将任务卸载到边缘节点上计算；

步骤C2：假定Access Point的计算速率和传输速率比大小及资源受限的设备大三个数量级以上，则忽略Access Point在任务计算和下载上花费的时间，得到：

步骤C3：设备在任务卸载时耗尽其收获的能量才能得到最大的计算速率，

此时：

因此得到计算速率为：

Β为通信带宽，N₀为接收器噪声功率，τ_iΤ假定为设备i的卸载时间。

进一步地，所述步骤D包括如下具体步骤：

步骤D1：假定只有无线信道增益h＝{h_i|i∈N}是时变的，将此参数作为系统环境变量输入，其他参数固定，在一个标记时间帧中，得到系统的计算速率：

x＝{x_i|i∈N}

τ＝{τ_i|i∈N}

步骤D2：对于每一个时间帧的信道增益h，得到最大的速率加权和：

x_i∈{0,1}

如果设备i本地计算，即x_i＝0，可以推断：τ_i＝0，

通过算法得到卸载决策x后问题表示如下：

进一步地，所述步骤E包括如下具体步骤：

步骤E1：首先在第t个时间帧由环境向actor输出环境状态量；

步骤E2：环境状态量经过LSTM网络层得到真是的环境状态输入到actor 的主网络中，actor当前状态做出动作a；

步骤E3：actor网络将生成的动作a输入到critic，由critic给出打分并反馈到actor，同时环境也将获取到动作a,并给出反馈使环境到达下一个状态h_t+1；

步骤E4：经过一段时间的训练后，actor网络与critic网络将一段时间的数据发送方到各自的target网络，由于target网络的设置，actor网络与critic网络的target值会更加稳定，从而给出的target值对于主网络能够产生更好的优化效果；

步骤E5：由于经验回放池的设置，actor网络会将每次的训练得到的数据 (s_t,a_t,r_t,s_t+1)输入到经验回放池中；

步骤E6：每经过一段时间，系统会从经验回放池中随机取出一些数据 N*(s_i,a_i,r_i,s_i+1)分别输入到actor网络与critic网络，以此来更新主网络参数；

步骤E7：经过重复迭代，获得最优卸载动作，生成最优卸载策略π。

本发明的一种基于深度强化学习的边缘计算任务卸载方法具有以下优点：本发明从过去的卸载经验中学习，以通过强化学习改进由DDPG生成的卸载动作。对于传统方法，DDPG可以解决对于连续动作和连续状态空间地强化学习问题，同时，与其他DDPG方法不同的是在DDPG主网络中加入了一层长短期记忆网络(LSTM)，由于LSTM网络长短期记忆功能，可以记录当前环境状态之前一段时间地环境状态，再与当前检测到的环境状态整合，就可以更加准确地得到当前环境状态，由此可以让系统做出更加准确地动作，生成我们需要的优化策略，提高了系统整体性能，对于深度强化学习在边缘计算任务卸载上的研究，此方法可以起到很好的研究结果。

附图说明

图1为本发明的深度强化学习的边缘计算任务卸载系统架构图；

图2为本发明的深度强化学习的边缘计算任务卸载方法流程图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于深度强化学习的边缘计算任务卸载方法做进一步详细的描述。

如图1图2所示，本发明的一种基于深度强化学习的边缘计算任务卸载方法，设置工作环境为无线充电环境，设备可通过无线接收器由访问接入点 (Access Point)获得能量，包括如下步骤：

步骤A：建立系统模型

a.由一个访问接入点(Access Point)和N个固定无线设备(fixed WirelessDevices)组成的边缘计算网络(MEC network)，表示为集合 N＝{1,2,...,N}；

b.每个设备使用时分复用(Time-division-multiplexing)电路，避免通信之间的干扰；

c.系统时间被划分为长度相等的连续时间帧Τ；

d.每个标记时间，无线设备储存的能量和它们之间的通信速度都与无线信道增益有关；

e.在一个时间帧的开始，aΤ的时间量用于设备充电，这里a∈[0,1]；

f.第i个设备收获能量：E_i＝μPh_iaΤ，μ∈(0,1)表示能量收集效率，P代表能量传输效率，h_i是接入点和设备i之间的信道增益；

g.每个设备利用获得的能量，需在一个时间帧结束之前完成一个计算任务；

h.w_i表示分配给设备i的权重；它越大，分配给设备i的计算速率就越大；

j.本发明考虑一个二进制卸载策略，这个任务要么在本地计算，要么卸载到Access Point执行计算，x_i＝1表示user_i将计算任务卸载到Access Point，x_i＝0表示任务在本地执行计算。

步骤B.本地计算模式，此模式下任务都在设备上计算并且同时需要获取能量；

a.设备处理的比特数：f_it_i/φ，

f_i表示设备iCPU计算速度(cycles/秒)，

t_i表示设备i计算时间，0≤t_i≤Τ，

φ表示处理1bit任务数据所需的cycles，φ>0；

b.由于计算而产生的能量消耗受k_if_i ³t_i≤E_i的约束，

k_i表示计算能效系数；

c.由上述内容可得本地计算速率(bits/秒)：

固定参数：

步骤C.边缘计算模式，此模式下设备将任务卸载到边缘节点上计算；

a.我们的设备在具有能量时可以将任务卸载到边缘节点上计算；

b.本发明假定Access Point的计算速率和传输速率远大于大小及资源受限的设备(超过三个数量级)，下载到设备的结果反馈比数据卸载到边缘服务器的时间要短得多，因此我们忽略Access Point在任务计算和下载上花费的时间，可得到：

c.我们的设备在任务卸载时耗尽其收获的能量才能得到最大的计算速率，此时：

因此可以得到计算速率为：

步骤D.问题建模；

a.在我们的系统中，假定只有无线信道增益h＝{h_i|i∈N}是时变的，将此参数作为系统环境变量输入，其他参数固定。在一个标记时间帧中，我们可以得到系统的计算速率：

x＝{x_i|i∈N}

τ＝{τ_i|i∈N}

b.对于每一个时间帧的信道增益h，我们可以得到最大的速率加权和：

x_i∈{0,1}

(如果设备i本地计算，即x_i＝0，可以推断：τ_i＝0)

通过算法得到卸载决策x后问题就可表示如下：

本发明用于解决卸载决策问题。传统的算法在根据环境状态做出卸载决策时，对于复杂的环境情况，可能无法获取准确的环境状态，因此，我设计的算法的DDPG算法模型中加入一层长短期记忆网络(LSTM),以此来更好地获取环境状态。

步骤E.通过DDPG算法模型中加入一层长短期记忆网络(LSTM)选择最优卸载决策。

我们通过运用强化学习中的DDPG算法来实现优化，相对于DQN算法只能运用于离散动作的动作采集，DDPG算法对于连续性动作的采集有明显优势，对于每个时间帧的环境状态h_t＝(s_t,r_t,s_t+1)，我们将动作输入到actor策略网络中，DDPG是基于actor-critic模型，其中设置有四个神经网络，actor中的策略网络和target策略网络，critic中的Q网络和targetQ网络，两个target 网络的搭建是为了使target值能够趋向稳定，从而能够使主网络的数据优化性能更好，当策略网络接收到环境变量后，会做出相应的策略，从而产生相应的动作，再把产生的动作输出到critic中Q网络，产生相应的Q值，之后 actor的策略网络就会根据产生的Q值去不断优化参数，从而可以使后续获得的Q值逼近最优值。在这个过程中，actor就相当于演出者，而critic就相当于评论家，critic会根据actor的演出打出相应的评分，从而actor会逐渐做出分数更高的动作，而环境就相当于观众，评论家自身也会根据观众的反应去调整自己的打分策略，从而使打分策略也越来越完美。卸载动作的产生依赖于深度神经网络，深度神经网络的特征在于其嵌入参数θ，例如连接隐藏神经元的权重。由于环境状态的复杂性，系统通常很难直接感知到真实而完全的环境状态，因此，我们在actor网络中加入一层长短期记忆网络 (LSTM),LSTM网络结构中设置了三个门结构，分别是遗忘门、输入门、输出门，通过三个门结构，系统可以整合长时间的历史数据，因此可以更好地结合当前已知状态信息去推导出实际的环境状态。

a.在我们的方法中，我们首先在第t个时间帧由环境向actor输出环境状态量；

b.环境状态量经过LSTM网络层得到真是的环境状态输入到actor的主网络中，actor当前状态做出动作a；

c.actor网络将生成的动作a输入到critic，由critic给出打分并反馈到actor，同时环境也将获取到动作a,并给出反馈使环境到达下一个状态h_t+1；

d.经过一段时间的训练后，actor网络与critic网络将一段时间的数据发送方到各自的target网络，由于target网络的设置，actor网络与critic 网络的target值会更加稳定，从而给出的target值对于主网络能够产生更好的优化效果；

e.由于经验回放池的设置，actor网络会将每次的训练得到的数据 (s_t,a_t,r_t,s_t+1)输入到经验回放池中；

f.每经过一段时间，系统会从经验回放池中随机取出一些数据 N*(s_i,a_i,r_i,s_i+1)分别输入到actor网络与critic网络，以此来更新主网络参数, 提高经验利用率，加速收敛；

g.经过重复迭代，我们逐渐获得最优卸载动作，生成最优卸载策略π。

本发明从过去的卸载经验中学习，以通过强化学习改进由DDPG生成的卸载动作。对于传统方法，DDPG可以解决对于连续动作和连续状态空间地强化学习问题，同时，与其他DDPG方法不同的是在DDPG主网络中加入了一层长短期记忆网络(LSTM)，由于LSTM网络长短期记忆功能，可以记录当前环境状态之前一段时间地环境状态，再与当前检测到的环境状态整合，就可以更加准确地得到当前环境状态，由此可以让系统做出更加准确地动作，生成我们需要的优化策略，对于深度强化学习在边缘计算任务卸载上的研究，此方法可以起到很好的研究结果。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。