CN112911647A

CN112911647A - 一种基于深度强化学习的计算卸载和资源分配方法

Info

Publication number: CN112911647A
Application number: CN202110074232.1A
Authority: CN
Inventors: 柯洪昌; 王慧; 佘向飞; 于萍; 孔德刚; 陈洋
Original assignee: Changchun Institute of Applied Chemistry of CAS
Current assignee: Changchun Institute of Applied Chemistry of CAS; Changchun Institute Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-06-04

Abstract

本发明公开一种基于深度强化学习的计算卸载和资源分配方法，利用深度强化学习方法，即双深度Q学习方法去处理全局代价最小化问题，本发明方法在时变的通道状态和随机任务到达环境下，能够得到最优的计算卸载和资源分配策略，并且利用深度神经网络作为价值函数的优化器，能够降低高维状态空间引起的维度灾难和提高收敛速度。

Description

一种基于深度强化学习的计算卸载和资源分配方法

技术领域

本发明属于无线网络通信领域，尤其涉及一种基于深度强化学习的计算卸载和资源分配方法。

背景技术

随着无线网络技术的发展，尤其是5G的发展和6G的产生，在无线网络通信中，如何满足更高的通信和计算的服务质量(QoS)变得越来越重要。尽管无线设备(WD)的计算能力随着其处理器和制造工艺标准的提高而取得了长足进步，但是面对大量计算密集型或时延敏感型计算任务时，其处理能力仍不足以满足QoS。随着WD产生的计算数据呈指数级增长且具有严格的截止时间限制，WD的电池容量和资源限制仍然是瓶颈。因此，如何满足计算需求是一个关键挑战。在早期，利用具有大量计算资源的云计算技术是一种解决方案。早期，存在云计算中有一些关于计算任务卸载和资源分配的工作。但是，云计算服务器覆盖的区域很大，并且其位置与WD相距遥远，需要处理计算任务。这样，如何提高计算数据的传输时间和回程时间是一个亟待解决的难题。新兴的移动边缘计算(MEC)技术是云计算和雾计算的结合。通常，MEC位于更靠近WD的位置，并且具有比WD更大的计算能力。这样，MEC不仅可以解决云计算的传输时延问题，而且可以解决WD资源受限的问题。WD可以在截止期限约束下将计算任务与宏基站转移到MEC服务器。但是，在带宽资源约束下，应考虑MEC与WD之间的信道状态满足无线传输要求。当前，大部分基于MEC的计算卸载技术都采用二值卸载方案，即要么本地处理任务要么将任务卸载到MEC服务器上处理。当任务较大或可分时，二值卸载方案极大地降低了卸载效率，关于资源分配方案，大部分技术考虑了MEC服务器端有关计算资源的分配，但是很少有应用考虑了WD和MEC服务器之间的带宽资源分配，并且大部分关于资源分配的应用都是假设通道状态是固定的。但是在实际应用场景中，WD和MEC服务器之间的通道状态是时变的，并且WD产生的任务也是不固定的。

发明内容

考虑到时变的信道状态和随机到达的任务，本发明提出了一种基于深度强化学习的部分计算卸载和资源分配的优化方案，以共同优化延迟，能耗和带宽约束，获得最低的总成本。

为实现上述目的，本发明采用如下的技术方案：

一种基于深度强化学习的计算卸载和资源分配方法，包括以下步骤：

步骤1、初始化计算卸载模型，将周期e和时隙t设置为0；其中，所述计算卸载模型由多个无线设备、基站和移动边缘服务器组成，无线设备在每个时隙t内随机产生任务，将所述任务通过基站卸载到移动边缘服务器上执行；

步骤2、初始化主神经网络参数θ和目标神经网络参数θ’，初始化状态s；其中，所述状态s包括：每个时隙t内，每个无线设备与基站之间的时变通道状态、每个无线设备与基站之间的信噪比和无线设备产生的任务；

步骤3、智能体与环境做互动，根据贪婪策略执行动作a，获得奖励r，并收集下一状态s’；

步骤4、如果样本缓冲池溢出，则将四元组<s,a,r,s’>顺序存放入样本缓冲池M；否则，将<s,a,r,s’>随机存放入样本缓冲池，替换样本；

步骤5、随机从样本池中采样m个样本，进行训练；同时计算目标函数和损失函数；

步骤6、利用梯度下降法更新主网络参数θ，同时到达预设周期进行参数复制，即θ’←θ；

步骤7、如果得到最优策略且当前周期e小于最大周期E_max，则返回步骤1，并设置e←e+1；如果没有得到最优策略，则返回步骤2，并设置t←t+1。

进一步，步骤2中，所述时变通道状态H_m,w(t)采用如下公式表示：

其中，ρ_c为正则化的相关系数，t’为时间间隔，e_c(t)为错误变量，服从均值为0的复高斯分布。

进一步，步骤2中，信噪比ζ_w(t)采用如下公式表示：

其中，P_m,w为无线设备与基站之间的传输功率，a_w和h_m,w分别是矩阵A和H的第w列，H是M×W通道矩阵，A是与H相关的迫零线性检测器矩阵。

进一步，步骤2中，WD产生的任务表示为：

A_w(t)≡(ts_w(t),c_w(t),T_w,max(t))

其中，ts_w(t)是WD w的计算任务的输入大小，且计算任务的输入大小服从泊松分布，c_w(t)是完成无线设备的计算任务所需的CPU周期数，并且T_w,max(t)是完成计算任务的截止日期。

进一步，步骤3中，所述每个时隙的动作a由两部分做出，即无线设备的任务卸载比例α_w和资源分配比例β_w，其范围为[0,1]。

进一步，奖励r为加权的全局代价的负值，定义为：

r＝-C(t)＝-ω₁·C_d(t)-ω₂·[C_m(t)+C_b(t)]-P_w

其中，C_d(t)为总延迟，C_m(t)为总能耗，C_b(t)为总的带宽代价，ω₁、ω₂为权重系数，满足ω₁+ω₂＝1，P_w为无法在截止时间内完成任务的惩罚。

进一步，步骤5中，所述目标函数为：

y＝r+maxγQ′(s′,argmaxQ(s′,a|θ),|θ′)

其中，Q(s,a)代表状态价值函数，为状态s下执行动作a得到的平均累积奖励，argmaxQ(s,a)为获得最大Q(s,a)时的动作a的值；

所述的损失函数为：

其中，

为期望值。

进一步，步骤6中，所述梯度下降法(LD)可表示为

即沿着主网络所有参数方向求导从而得到目标函数变化最大的方向。

进一步，步骤7中，所述最优策略π*为获得最大累积奖励时做选择的动作a，表示为

即获得最小加权的全局代价的计算卸载和资源分配策略。

进一步，所述随机采样是指在总长度为100000的缓冲池中选择随机索引的m的样本进行神经网络的输入。

本发明的基于深度强化学习的计算卸载和资源分配方法，目的是在时变的通道状态和随机任务到达环境下，得到最优的计算卸载和资源分配策略，以最小化加权的全局代价。本发明利用了一种深度强化学习方法，即双深度Q学习(Double Deep Q-Learning-DDQN)方法去处理全局代价最小化问题，本发明方法在没有任何通道状态、信噪比和到达的数据大小等先验知识条件下，能够得到最优的计算卸载和资源分配策略，并且利用深度神经网络作为价值函数的优化器，能够降低高维状态空间引起的维度灾难和提高收敛速度。

附图说明

图1为本发明实施例提供的多无线设备移动边缘计算网络模型示意图；

图2为本发明实施例提供的一种基于深度强化学习的计算卸载和资源分配方法示意图；

图3为本发明实施例提供的一种基于深度强化学习的计算卸载和资源分配方法对比效果示意图；

图4为本发明实施例提供的WD产生不同任务大小下各种算法对比示意图；

图5为本发明实施例提供的不同算法本地执行总延迟对比示意图；

图6为本发明实施例提供的不同算法计算卸载执行总延迟对比示意图；

图7为本发明实施例提供的不同算法计算卸载和资源分配总功耗对比示意图。

其中，1-WD1(无线设备1)、2-WD2(无线设备2)、3-WD3(无线设备2)、4-WD4(无线设备4)、5-WD5(无线设备5)、6-WD6(无线设备6)、7-BS(宏基站)、8-MEC服务器(移动边缘计算服务器)。

具体实施方式

本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法，用于具有多个WD和MEC服务器的通信系统。如图1所示，WD由智能电话、IoT节点或手表组成，并由MEC服务器覆盖；MEC服务器用于计算由WD生成的任务，并通过光纤链路连接到宏基站，以接收和发送计算任务。但是，WD的计算能力和电池电量有限，可能不足以进行任务计算。带有高性能处理器的MEC服务器位于WD的附近，因此只要在覆盖的通信区域内，MEC就可以充分利用WD来计算从WD卸载的任务。在设计的模型中，由WD连续产生的随机和计算密集型任务可以由宏基站通过高性能处理器部分本地执行或部分卸载到MEC。在不失一般性的前提下，令

表示WD集合，而m表示MEC服务器。然后，MEC系统中有W个WD，而MEC服务器m，宏基站m。然后，MEC服务器m具有任务缓冲区队列，用于存储从WD接收的计算数据。任务缓冲区队列的长度设置为L_m。本发明假设WD w具有要在MEC服务器m范围内处理的计算任务，并且该计算任务可以分为n个子任务。令

表示WD的子任务集，其中

和

子任务$n$可以在WD w本地执行，也可以卸载到MEC服务器m。

如图2所示，本发明实施例提供的一种基于深度强化学习的计算卸载和资源分配方法，包括如下步骤：

步骤1、初始化计算卸载模型，将周期e和时隙t设置为0

所述周期是指情景(Episode)，即强化学习算法执行一轮，相对于深度学习中的一个批次；所述时隙指将连续的时间段分割成微小的离散时间间隔；计算卸载模型由多个无线设备(WD)、一个基站(BS)和一个移动边缘服务器(MEC server)组成，其中，WD在每个时隙t内随机产生任务，将所述任务通过BS卸载到MEC server上执行，WD和BS直接采样无线通信，BS和MEC直接距离很近，采样光纤通信。

步骤2、初始化神经网络的参数θ和θ’，初始化状态s

所述神经网络包含主网络、目标网络，θ为主网络参数，θ’为目标网络参数，这两个网络的结构和初始参数相同；所述的状态s包括三部分，即每个时隙t内，每个WD与BS之间的时变通道状态、每个WD与BS之间的信噪比和WD产生的任务，分别用H_m,w(t)、ζ_w(t)、和A_w(t)表示；

所述时变通道状态H_m,w(t)用如下公式表示：

信噪比ζ_w(t)用如下公式表示：

其中，P_m,w为WD w与BS之间的传输功率，a_w和h_m,w分别是矩阵A和H的第w列，H是M×W通道矩阵，而A是与H相关的迫零线性检测器矩阵。

WD产生的任务表示为：

A_w(t)≡(ts_w(t),c_w(t),T_w,max(t))

其中，ts_w(t)是WD w的计算任务的输入大小(以KB为单位)，c_w(t)是完成WD w的计算任务所需的CPU周期数，并且T_w,max(t)是完成计算任务的截止日期；计算任务的输入大小服从泊松分布。

步骤3、智能体与环境做互动，根据贪婪策略执行动作a，获得奖励r，并收集下一状态s’

所述智能体为无线设备，所述环境为所述计算卸载模型。下一状态s’为下一时隙的状态变量，形式与s相同。每个时隙的动作a由两部分做出，即WD w的任务卸载比例α_w和资源分配比例β_w，它们的范围为[0,1]。任务卸载比例α_w决定了WD产生的资源需要卸载到MECserver的大小，资源分配比例β_w决定了带宽分配比例，直接影响到数据传输速率和带宽代价。带宽分配比例越高，卸载任务的传输速率越快，延迟越小，但是带宽分配比例越高，带宽代价也越高，会影响全局代价。

奖励r为加权的全局代价的负值，定义为：

r＝-C(t)＝-ω₁·C_d(t)-ω₂·[C_m(t)+C_b(t)]-P_w

步骤4、判断样本缓冲池是否溢出

如果溢出，则将四元组<s,a,r,s’>顺序存放入样本缓冲池M；否则将<s,a,r,s’>随机存放入样本缓冲池，替换样本；其中，缓冲池为定义的存放<s,a,r,s’>四元组的数组或集合用M表示，总长度为100000，初始值设置为0。

步骤5、随机从样本池中采样m个样本，进行训练

所述m为最小批(mini-batch)，即一次训练做采集的样本数，随机采样是指在总长度为100000的缓冲池中选择随机索引的m的样本进行神经网络的输入。

步骤6、计算目标函数和损失函数

所述目标函数为：

y＝r+maxγQ′(s′,argmaxQ(s′,a|θ),|θ′)

其中，Q(s,a)代表状态价值函数，为状态s下执行动作a得到的平均累积奖励，argmaxQ(s,a)为获得最大Q(s,a)时的动作a的值。

所述的损失函数为：

其中，

为期望值。

步骤7、利用梯度下降法更新主网络的参数θ

所述梯度下降法(LD)可表示为

步骤8、到达预设周期进行参数复制，即θ’←θ

所述预设周期指为300，当每迭代到300轮后，将主网络的所有参数的值拷贝到对应的目标网络，作为目标网络所有参数值，达到定期更新替换的目的。

步骤9、如果得到最优策略，则判断当前周期e是否小于最大周期E_max，如果是，则返回步骤1，并设置e←e+1；如果没有得到最优策略，则返回步骤2，并设置t←t+1

所述最优策略用π*表示，指的是获得最大累积奖励时做选择的动作a，可表示为

即获得最大累积奖励(最小加权的全局代价)的计算卸载和资源分配策略。如果得到最优策略，则判断当前周期e是否小于最大周期E_max，如果没有得到，则返回(1)，继续在当前周期e进行迭代处理。当满足e<E_max，则继续下一轮的迭代，直到e＝E_max，执行结束。

本发明实施例假设在距MEC服务器100m的相等距离处散布W个WDs，并且MEC服务器通过光纤链路连接到宏基站。WD的数量为5，即W＝5。每个WD的子任务数分为10个级别。时隙设置为t＝1ms。此外，ρ_c＝0.95，σ²＝10^-9.，c_w(t)遵循1到8之间的均匀分布，基数为1.5*10⁷，T_w,max＝1ms。，p_m,w＝2W，B_m＝5MHz。神经网络由一个输入层，两个完全连接的隐藏层和一个输出层构成。本发明提出方法的神经网络的部分超参数设置如下：将两个隐藏层中的神经元数分别设置为200和150。将的学习率设置为α＝10^-3。缓冲池的总大小为100000。将动作界限和状态界限分别设置为3、2。用于训练的最大情节E_max分别设置为1500。用于训练的时隙T的边界分别设置为300。最小批m的大小设置为64。复制到目标网络C_max的频率设置为2048。无法在截止时间内完成任务的惩罚$P_w＝10$。当调整系数的值设置为不同时，本发明实施例将描述提出方法的与其他方法的性能。如图3所示，给出了本发明提出方法与其他三种算法相比的平均累积奖励曲线。其他三种算法为贪婪策略，将全部卸载到MEC服务器和全部任务在本地WD端执行。为省略文字，本发明将本发明提出方法描述为(DRLPORA)、贪婪策略描述为(Greedy)、全部卸载到MEC服务器(AMEC)、全部任务在本地WD端执行(AWD)。平均累积奖励为本发明所述的加权总代价的负值平均累积奖励越大代表总代价越小，算法越优越。本发明将每个WD的到达计算任务的大小设置为5(服从possion分布)。为了平衡延迟，功耗和带宽的成本，将调整系数ω₁,ω₂设置为0.5。也就是说，总延迟的成本等于平均消耗能量和分配带宽的成本。DRLPORA的平均累积奖励高于其他三个算法。尽管在初始情节中DRLPORA的平均累积奖励并不高，但是通过训练过程，DRLPORA可以学习模拟环境的最佳策略。因此，由于学习分散，DRLPORA的性能优于Greedy，AMEC和AWD三种算法。Greedy算法选择通过本地执行或卸载来完成计算任务，以获得性能更好且稳定的最大累积奖励。AMEC算法将所有计算任务卸载到MEC服务器，并且不考虑计算任务的大小和带宽。由于计算任务的规模不是很大，带宽可以满足所有WD的要求，因此AMEC算法的性能不会受到太大影响。就AWD算法而言，对于所有WD而言，计算任务的规模太大，以致在截止期限约束下WD无法执行计算任务。由于无法完成任务而导致的罚款P_w太大，并且累积的奖励较少，这会影响AWD的性能。

如图4所示，本发明实施例将参数ω₁设置为0.5。每个WD的总任务到达率的范围设置为[1.0,8.0]。因为DRLPORA能够学习到每个WD的部分计算卸载和资源分配的最佳策略。如图4所示，就平均累积奖励而言，无论到达计算任务的大小如何，DRLPORA的性能均优于其他算法。由于DRLPORA方法的神经网络的学习能力很强，所以随着任务到达率的提高，本发明提出的DRLPORA算法的性能要比其他算法好得多。

如图5所示，与其他算法相比，因为WD的处理能力比MEC服务器差很多，所以本发明实施例并没有列出AWD算法的曲线图。当A_w≥4时，大多数计算任务无法在本地执行。很容易知道，由于所有任务都已卸载到MEC服务器，因此AMEC算法的本地执行总延迟为0。DRLPORA和Greedy之间的性能差别不大。

如图6所示，就计算卸载的总延迟而言，由于所有任务都已卸载到MEC服务器，所以AMEC算法的总延迟最大。无论任务到达的大小为多少，DRLPORA的性能都优于Greedy算法，因为本发明提出的DRLPORA具有良好的学习处理能力。

如图7所示，尽管DRLPORA的总功耗性能比AMEC算法稍差，但是AMEC占用了MEC的更多资源。考虑到平均累积奖励r(加权总代价的负值)，DRLPORA要大于Greedy和AMEC。因此，本发明提出的DRLPORA性能优于其他基线算法。

以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的计算卸载和资源分配方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤2中，所述时变通道状态H_m,w(t)采用如下公式表示：

3.如权利要求2所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤2中，信噪比ζ_w(t)采用如下公式表示：

4.如权利要求3所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤2中，WD产生的任务表示为：

A_w(t)≡(ts_w(t),c_w(t),T_w,max(t))

5.如权利要求1或4所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤3中，所述每个时隙的动作a由两部分做出，即无线设备的任务卸载比例α_w和资源分配比例β_w，其范围为[0,1]。

6.如权利要求5所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，奖励r为加权的全局代价的负值，定义为：

r＝-C(t)＝-ω₁·C_d(t)-ω₂·[C_m(t)+C_b(t)]-P_w

7.如权利要求6所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤5中，所述目标函数为：

y＝r+maxγQ′(s′,argmaxQ(s′,a|θ),|θ′)

所述的损失函数为：

其中，

为期望值。

8.如权利要求7所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤6中，所述梯度下降法(LD)可表示为▽_θL，即沿着主网络所有参数方向求导从而得到目标函数变化最大的方向。

9.如权利要求8所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤7中，所述最优策略π*为获得最大累积奖励时做选择的动作a，表示为

即获得最小加权的全局代价的计算卸载和资源分配策略。

10.如权利要求1所述的基于深度强化学习的计算卸载和资源分配方法，其特征在于，步骤5中，所述随机采样是指在总长度为100000的缓冲池中选择随机索引的m的样本进行神经网络的输入。