CN115499441A

CN115499441A - 超密集网络中基于深度强化学习的边缘计算任务卸载方法

Info

Publication number: CN115499441A
Application number: CN202211124116.7A
Authority: CN
Inventors: 张茜; 戚续博; 张聪; 崔勇; 王洪格
Original assignee: Zhongyuan University of Technology
Current assignee: Zhongyuan University of Technology
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-20

Abstract

本发明提出了一种超密集网络中基于深度强化学习的边缘计算任务卸载方法，步骤为：构建超密集网络边缘计算模型的在线计算卸载问题；将在线计算卸载问题描述为马尔科夫决策过程，转化为求解最优计算卸载控制策略的问题；初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级；利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型；获取当前时隙的系统状态，将系统状态输入至训练好的深度强化学习模型中，得到每个时隙的任务卸载决策。本发明基于马尔科夫决策过程提出的策略可以长期最小化任务处理时延和能耗，基于优先级采样的任务卸载策略可以在动态的网络环境中作出累计奖励更大的决策，获得更好的系统性能。

Description

超密集网络中基于深度强化学习的边缘计算任务卸载方法

技术领域

本发明涉及移动边缘计算(Mobile Edge Computing，MEC)的技术领域，尤其涉及一种超密集网络中基于深度强化学习的边缘计算任务卸载方法。

背景技术

智能设备和以5G为代表的网络通信技术的快速发展，催生了一大批时延敏感型和计算密集型应用的诞生，包括AR和VR技术、无人驾驶、智慧医疗等。这类应用不仅对用户设备计算能力和存储空间要求更高，同时对网络时延要求更加苛刻。移动边缘计算(MobileEdge Computing)通过在更加靠近用户设备位置部署边缘服务器，将云计算的存储和计算能力边缘化，可以有效降低用户感知时延和设备能耗。此外，相比于远程云的数据传输，在更加靠近用户的位置进行数据处理，可以有效降低服务延迟，避免了远程数据传输可能带来的通信安全性，保证用户体验质量(QoE)。在超密集网络环境中，多个配备高性能服务器的小型蜂窝基站密集部署，这些服务器充当服务节点，提供存储和计算服务。然而，由于边缘服务器的可用资源有限，因此需要结合设备和当前网络环境设计一种高效的任务卸载方案，决定将计算任务放置在本地或是可连接服务器上进行计算，以最小化任务处理时延和设备能耗。

目前已有大量关于边缘计算任务卸载策略的研究，但是许多研究场景设定过于静态化，例如对用户随机移动性考虑不足、由于用户移动引起的基站信号覆盖范围变化带来的服务器切换问题以及用户设备资源可调节情况。Chen等推导了一个基于双深度Q网络的算法，通过考虑信道条件是时变的来找到一个最优策略，以最大化计算服务的长期效用。Xu等考虑了边缘服务器的计算能力是可以调整的，并且提出了一种有效的基于强化学习的资源管理算法，以最小化移动边缘计算的成本。但是以上研究并没有考虑用户的移动性，在他们的模型中用户始终处于静止的状态，这在现实生活中显然是不合实际的。Gao等共同考虑了接入网络和服务放置问题，设计了一个在线卸载框架，通过平衡接入延迟、通信延迟和服务迁移延迟来提高服务质量。Shen等提出一种非随机在线学习方法，解决了超密集网络的移动性问题，并最小化长期能耗。然而，这些研究主要关注设计以系统为中心的优化管理，其中调度程序具有全面的信息。现实应用中，由于网络的动态性、任务到达的不确定性和由于用户移动所带来的服务器切换，具体的信息是不可预知的。

基于以上分析，在超密集网络场景下，结合强化学习强大的环境交互和学习能力以及深度神经网络强大的表示能力，研究随机移动用户的任务卸载问题。

发明内容

针对现有任务卸载方法没有考虑用户的移动性和网络的动态性的技术问题，本发明提出一种超密集网络中基于深度强化学习的边缘计算任务卸载方法，同时考虑用户移动性、通信网络时变特性、用户设备CPU频率可调节、服务器切换等因素，且可以有效减少任务总的处理时延和能耗，具有实时性。

为了达到上述目的，本发明的技术方案为：一种超密集网络中基于深度强化学习的边缘计算任务卸载方法，其步骤如下：

步骤一：构建超密集网络边缘计算模型的本地计算模型和边缘计算模型，根据边缘计算模型构建在线计算卸载问题；

步骤二：将在线计算卸载问题描述为马尔科夫决策过程，转化为求解最优计算卸载控制策略的问题；

步骤三：初始化深度强化学习模型的当前网络和目标网络、经验池大小以及优先级；

步骤四：利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型；

步骤五：获取当前时隙的系统状态，将系统状态输入至训练好的深度强化学习模型中，利用训练好的深度强化学习模型，得到每个时隙的任务卸载决策。

所述步骤一种的本地计算模型的计算延迟

为：

本地计算模型的能耗

为：

其中，u是移动设备的有效开关电容，

表示移动设备的CPU频率，C^t为完成任务所需要的CPU周期数；

所述边缘计算模型包括设备上t时隙生成的任务ω^t的计算延迟L^t、t时隙内的能量消耗E^t和设备剩余能量

且任务ω^t的计算延迟为：

其中，g{ξ}是一个指标函数，如果ξ得到满足，则g{ξ}＝1，否则g{ξ}＝0；

且t时隙内卸载决策

为时隙t内可用的通信基站的集合；N＝{1,2,3,…n}为通信基站的集合，n表示通信基站的总数；

且

为传输任务ω^t的输入数据到第i个通信基站产生的延迟，I^t表示任务ω^t的输入数据大小，

为设备与第i个通信基站之间的上行链路传输速率；

且

为第i个通信基站执行任务ω^t产生的延迟；i∈{1,2,3,…n}，f_i表示在通信基站i附近配置的边缘服务器最大的CPU频率；

能量消耗为：

其中，

为设备传输任务ω^t的输入数据到第i个通信基站产生的能量消耗；

剩余能量的更新公式为：

其中，

表示t时隙内设备剩余能量，

表示t+1时隙内设备剩余电量，E^t表示t时隙内的能量消耗。

所述设备与第i个通信基站之间的上行链路传输速率

其中，W_i表示信道带宽，

表示t时隙上第i个通信基站的平均干扰功率，

表示移动设备与通信基站BS_i间的信道增益，

为设备的发射功率。

所述设备传输任务ω^t的输入数据到通信基站BS_i产生的能量消耗

所述线计算卸载问题为：

s.t.

o^t∈{0}∪k^t,

其中，T表示总的时隙数，F表示可选择的本地设备CPU频率的集合。

所述步骤二中最优计算卸载控制策略的问题为：将计算卸载控制策略π:S→A定义为从状态S^t到动作a^t的映射，即π(S^t)＝a^t；在状态S^t∈S下，根据给定的计算卸载控制策略π选择执行的动作

获得一个最优计算卸载控制策略π^*，以最大化设备移动过程中获得的长期累积奖励：

s.t.

a^t∈A^t,

且即时奖励r^t＝ω₁L^t+ω₂E^t；其中，ω₁,ω₂分别为计算时延和能量消耗的权重系数；动作空间A^t＝({0}*F∪k^t*{0})；γ表示奖励折损因子且γ∈{0,1}。

所述深度强化学习模型的训练方法为：

步骤1：根据当前时隙的系统状态，结合当前深度神经网络参数并使用ε-greedy贪婪策略决策出系统动作，并计算当前状态下采取决策的系统动作获得的即时奖励；

步骤2：将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池；

步骤3：基于概率p(j)从求和树SumTree中采样样本，计算采样样本的TD误差和权重系数；

步骤4：根据TD误差和权重系数计算累积权重变化，迭代结束后，更新网络参数，重置权重变化；

步骤5：更新权重和目标Q网络参数，直到即时奖励完成收敛。

所述系统状态包括设备剩余电量、用户连接情况、设备与每个通信基站之间的信道增益、系统随机生成的具体待处理任务信息；系统状态用一个四元组

表示，其中，

表示设备剩余电量，σ^t表示用户的连接情况，

表示设备与通信基站之间的信道增益，

表示设备与第x个通信基站之间的信道增益；ψ^t表示具体的计算任务信息且ψ^t＝{I^t,C^t}，I^t表示任务ω^t的输入数据大小，C^t表示完成任务ω^t所需要的CPU周期数；

对每个时隙t∈T，初始化状态S，得到状态向量φ(S)；T为迭代轮数；在当前网络Q中输入状态向量φ(S)，根据ε-greedy策略输出系统动作

o^t表示t时隙内卸载决策，

表示设备的CPU频率；即时奖励r^t为时延和能耗的线性函数：r^t＝ω₁L^t+ω₂E^t，其中，L^t表示设备上t时隙生成任务ω^t的计算延迟，E^t表示t时隙内的能量消耗,ω₁,ω₂分别为计算时延和能量消耗的权重系数。

所述概率

其中，p_j和p_i分别表示样本j和任意样本l的优先级，α为优先级指数；

优先级p_j＝|δ_j|+ε，其中，δ_j为样本j的TD误差，误差ε是一个非常小的正常数。

所述采样样本的权重系数为：

ω_j＝(O*p(j))^-β/max_lω_l

其中，ω_j表示权重系数，O代表经验池大小，β表示非均匀概率补偿系数；

采样样本的TD误差为：δ_j＝R_j+γ_jQ_target(S_j,argmax_aQ(S_j,a))-Q(S_j-1,A_j-1)；其中，R_j表示奖励，γ_j表示采样样本j的奖励折损因子，Q_target表示目标网络，Q表示当前网络，S_j表示采样样本j的状态，a表示采取的动作，A_j-1表示采样样本j上一步采取的动作。

所述累积权重变化：

其中，

表示梯度下降更新参数；

迭代结束后，更新参数θ←θ+η*Δ，重置累积权重变化Δ＝0。

所述步骤5中若T％C＝1，更新目标网络参数Q_target←θ，C为参数更新频率；

智能体在状态下选择动作获得奖励总和为：

上式中，奖励折扣因子γ∈[0,1]，R_t+1为t时间步所获环境奖励值；

基于策略π，采用动作a_t，则状态s_t下动作价值函数为：Q_π(s,a)＝E_π[G_t|s_t＝s,a_t＝a]，E_π表示求s状态下根据策略π选择动作a_t以后，产生的累积奖励值的期望，G_t表示从时间t开始带折扣的奖励总和。

本发明的有益效果：本发明考虑到动态网络环境与用户移动性等不确定性因素，基于优先级采样改进的双DQN网络，在没有任何先知因素的条件下，首先将问题转化为马尔科夫决策过程，并设计状态空间、动作空间和奖励函数，同时优化设备CPU频率；将用户移动性和网络切换延迟考虑在内，将这两个影响用户卸载决策的关键因素加入状态向量，不同于现有的强化学习算法，在样本选择时按照随机采样的方式，考虑不同的样本重要性是不同的，因此通过计算TD误差，赋予不同经验样本以优先级，便于加快网络学习训练。实验结果表明，基于马尔科夫决策过程提出的策略可以长期最小化任务处理时延和能耗，基于优先级采样的任务卸载策略可以在动态的网络环境中作出累计奖励更大的决策，获得更好的系统性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为本发明超密集网络边缘计算模型的示意图。

图3为本发明不同学习率下累计奖励的对比图。

图4为本发明不同大小优先级采样样本池中累计奖励的对比图。

图5为本发明不同缓冲区大小的累计奖励的对比图。

图6为三种方法的回报对比图。

图7为SumTree的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对边缘计算研究忽略通信网络时变特性以及用户移动性而导致的场景过于静态化的技术问题。考虑了一个具有多个基站的超密集网络环境中的边缘计算任务卸载场景，移动用户设备上连续生成待处理的异构计算任务，用户没有任何先验信息。为了解决这一问题，本发明提出一种超密集网络中基于深度强化学习的边缘计算任务卸载方法，如图1所示，实施步骤如下：

步骤一：构建超密集网络边缘计算模型的本地计算模型和边缘计算模型，根据边缘计算模型构建在线计算卸载问题。

超密集网络边缘计算模型图如图2所示，一个移动设备MD(Mobile Device)用户在超密集网络环境中移动，运动过程中设备会不断地有异构计算任务生成，这意味着用户在移动过程中，一直有任务需要进行处理且时刻都处在蜂窝基站的信号覆盖范围内，但是由于用户的移动性，可能会造成信号基站的切换。用户运动轨迹周围密集部署的有通信基站BS，定义通信基站BS的集合N＝{1,2,3,…n}，其中，n表示通信基站的总数。对于每一个通信基站BS_i∈N，其中i∈{1,2,3,…n}，附近都会部署一个边缘服务器为用户提供计算存储服务，且该服务器的计算能力足以完成不同时隙卸载到上面的用户任务。部署在通信基站BS_i附近的边缘服务器最大的CPU频率记为f_i，每个通信基站BS间通过光纤进行连接，为了便于描述边缘计算的在线任务卸载，将用户的通信时间离散为等间隔的时隙，记为Τ＝{1,2，3…t}，其中，t表示时隙的总数。

使用一个二元组来描述时隙t移动设备上生成的任务，记为ω^t＝{I^t,C^t}，其中，I^t表示任务ω^t的输入数据大小，C^t表示完成任务所需要的CPU周期数。对于任务的卸载情况，采用二进制的任务卸载策略，即用户可以选择将任务放在本地或者是卸载到移动设备MD目前可连接的基站附近配置的边缘服务器上进行处理，设备的计算能力和电量都是有限的。此外，假设移动设备MD的计算能力是可调节的，具体表现为设备CPU频率可调节，但是远远低于边缘服务器的计算能力；用户移动期间的总能耗不超过移动设备MD开始时设备电池剩余电量。

由于通信基站BS的信号覆盖范围有限以及用户移动的不确定性，因此在时隙t内仅有几个可用的通信基站BSs与移动设备MD相连，记为

而用户与通信基站BS_i∈k^t间的信道增益h_i ^t是时变的且与二者之间的距离有关。为了方便起见，设定用户位置与无线信道条件在每个时隙内是不变的。为了最小化移动设备MD任务处理时延和系统能耗，用户需要在时隙t内及时作出卸载决策，使用o^t来表示卸载决策，具体的：

如果在时隙t用户选择将任务在本地设备计算，即o^t＝0。用户可以进一步调节设备的CPU频率来节省能耗，设定有几个可以选择的离散等级，根据DVFS(动态电压与频率调节)技术来调整芯片电压。结合移动设备的CPU频率和完成任务所需要的CPU周期数，本地计算模型的计算延迟可以表示为：

相应地，根据移动设备选择的CPU频率和计算延迟

本地计算模型的能耗模型如下：

其中，u是有效开关电容，取决于设备的芯片结构。

表示设备的CPU频率。

如果用户在时隙t决定将任务ω^t卸载到已经连接的通信基站BS_i，即卸载决策(o^t＝i∈k^t)，任务ω^t所需输入数据I^t的传输会产生一定的延迟和能耗，定义移动设备发射功率为

结合以上定义，移动设备MD和通信基站BS_i之间的上行链路传输速率可以定义为：

其中，W_i表示信道带宽，

表示时隙t上第i个通信基站BS_i的平均干扰功率，

表示移动设备与通信基站BS_i间的信道增益。I^t表示任务ω^t的输入数据大小，因此传输任务ω^t的输入数据到通信基站BS_i产生的延迟为：

由于任务在边缘服务器上处理完成以后，返回给移动设备的数据量远远小于输入的数据量，因此不考虑这部分时延。设备传输任务输入数据到通信基站BS_i产生的能量消耗记为：

接收到任务ω^t后，通信基站BS_i执行任务ω^t产生的延迟记为：

结合以上分析，任务ω^t的计算延迟为：

其中，g{ξ}是一个指标函数，如果ξ得到满足，则g{ξ}＝1，否则g{ξ}＝0。除此之外，设备能量消耗记为：

设备电量的更新公式为：

其中，

表示t时刻的用户设备剩余电量，

表示t+1时刻设备剩余电量,E^t表示t时隙内的电量消耗。

本发明考虑如下场景，一个移动设备用户在超密集网络中不断移动，且移动设备MD会持续生成异构计算任务，用户事先没有任何先知的信息，系统需要在每个时隙内为用户制定一个最佳的任务卸载策略，最小化总的任务完成时延和能耗。特别地，在每个时隙中，用户需要选择是否将任务通过通信基站BS卸载到边缘服务器执行。如果用户选择在本地执行计算任务，设备的CPU频率需要认真规划，否则就需要选择一个可连接的通信基站BS进行任务卸载，所研究的在线计算卸载问题描述如下：

s.t.

o^t∈{0}∪k^t,

其中，T表示总的时隙数。

该问题是一个耦合约束的多目标优化问题。在时延和能耗之间，有一个自然的平衡，即是否选择使用较大的CPU频率来减少任务完成时延，但是会消耗更大的能量。尽管长期以来边缘计算系统的所有特性是先验的(如用户轨迹、任务生成)，但是由于边缘计算系统的NP难度，该问题仍然是难以解决的。特别地，用户的剩余电量、连接情况、随机移动性和网络动态变化都在模型的考虑范围内，由以上信息组合成的用户状态样本空间巨大。

步骤二：将在线计算卸载问题描述为马尔科夫决策过程，转化为求解最优计算卸载控制策略的问题。

基于以上分析，结合神经网络强大的表示能力以及深度强化学习应对随机和动态环境的能力，本发明为了采用强化学习，首先将在线计算卸载问题重新定义为马尔科夫决策过程。

典型的马尔科夫决策过程由一个五元组表示，即<S,A,P,R,γ>，S表示状态空间，A表示动作空间，P表示状态转移概率，R表示智能体Agent采取行动之后环境给予的即时回馈，γ表示奖励折损因子且γ∈{0,1}。针对用户长期在线计算卸载决策的过程，将在线计算卸载问题重新定义为一个控制策略，首先定义MDP(Markov decision process)模型中各个参数的定义。

状态空间S中的每个状态由智能体从环境中观察到的一些信息组成，在MDP模型中，每个状态空间由四个元素组成，设备的剩余电量、用户的连接情况、设备与每个通信基站BS之间的信道增益以及具体的计算任务信息。在一个时隙t内，状态用一个向量进行表示，即

其中

表示可连接通信基站BS集合，同时这些通信基站BSs具有正的信道公益增率，而其他通信基站BSs的信道功率增益设置为零。其中，σ^t表示用户设备可连接的基站情况，ψ^t表示具体的计算任务信息且ψ^t＝{I^t,C^t}，I^t表示任务ω^t的输入数据大小，C^t表示完成任务所需要的CPU周期数。

表示设备与每个通信基站BS之间的信道增益，

其中d_i是用户设备和通信基站BS_i之间的距离，β是路径损耗指数，设置为3。

是

的具体计算方式，只有当设备与服务器i可连接时才有信道增益值，通过公式

计算得到，否则为0。i与x相同，下标x表示边缘服务器的数量且等于基站的数量n。

动作空间：在每个时隙t内，用户需要去采取一个动作a^t∈A^t且

包括任务卸载决策和调度的CPU频率。基于目前的状态S^t和动作，时隙t内可能的动作空间A^t＝({0}*F∪k^t*{0})，F表示可选择的本地设备CPU频率集合。值得说明的是，当用户在选择在本地计算时，传输功率为0，当用户选择在执行时，此时的CPU频率为0。

奖励函数：当用户在状态空间S^t下采取完动作a^t后，用户将会从环境中接收到一个奖励r^t，为了最大化用户长期效益，节省资源和能耗，将奖励定义为：

r^t＝ω₁L^t+ω₂E^t (10)

其中，ω₁,ω₂分别为时延和能耗的权重，表示时延和能耗在用户考虑中的不同重要性。

根据上述MDP模型，可将在线计算卸载问题转化为寻找最优计算卸载控制策略的问题，使用户获得的长期折现累积报酬最大化。特别地，给出了控制策略的定义和重新制定的问题如下。

一种计算卸载控制策略π:S→A定义为从状态S^t到动作a^t的映射，即π(S^t)＝a^t。特别的是，用户基于观察到的环境基础上，在状态

根据给定的计算卸载控制策略π选择执行的动作

用户旨在获得一个最优计算卸载控制策略π^*，以最大化移动设备移动过程中获得的长期累积奖励，即：

s.t.

a^t∈A^t,

步骤三：初始化深度强化学习模型的深度Q网络中的当前网络和目标网络、经验池大小以及优先级。

深度Q网络DQN使用神经网络来近似逼近动作的值，有效避免了维数灾难，解决了Q-learning应对高维空间的局限性。在所提出的应用场景中，状态空间是无限的，因为设备的剩余电量、无线信道增益都在变化，产生的计算任务也是异构的。特别的，相比于原始的随机从经验池中随机抽取一批经验，本发明选用优先级采样的方式从经验池中选取样本来训练目标网络，一方面经验池的大小有限，为了避免有些重要的数据还未被利用就被丢弃，其次，可以提升训练速度。基于在线网络输出的估计动作值与目标网络输出的目标动作值之间的损失，可以学习更好的参数θ，利用参数θ异步更新目标网络的。经过几次新经验的训练，在线网络的性能将逐渐提高，并收敛到最优控制策略。

在从环境中观察到的当前状态S^t后，用户首先将其输入到在线网络。在线网络设计为具有两个隐藏层，采用全连接方式的神经网络。输入层的状态用一个向量

进行表示，每一个元素Q_k表示在状态S^t下、采取动作a_k的值，动作a_k∈A^t＝({0}*F∪k^t*{0})。本发明还额外加入了Relu函数给每个隐藏层的节点，来近似状态和动作之间的非线性关系。通常，在线网络输出的具有最大值的动作会被用户选择执行。

输入系统场景初始化参数：当前网络Q，目标网络Q_target，批量梯度下降的样本数k，目标网络Q_target的参数更新频率C，指数α和β(指数α决定使用优先级的多少，当α＝0时是均匀随机采样的情况)，迭代轮数T，经验池大小O。初始化经验池

累计权重变化Δ＝0，优先级p₁＝1。

步骤四：利用优先级采样的方式从经验池中选取样本来训练深度强化学习模型。

获取当前时隙的系统状态：包括设备的剩余电量、用户的连接情况、设备与每个通信基站BS(Base Station通信基站)之间的信道增益以及具体的计算任务信息。

将定义的系统状态输入至深度强化学习模型中，得到系统动作。系统动作即在每个时隙中，对于待处理的计算任务，系统选择将任务放置在设备本地进行处理或者是卸载到当前可连接的第i号服务器上。

所述深度强化学习模型的训练方法为：

步骤1：针对当前时隙观测到的系统状态，结合当前深度神经网络参数并使用ε-greedy贪婪策略(即每次都选取Q值最大的动作作为输出)决策出系统动作，并计算当前状态下采取决策的系统动作获得的即时奖励。

系统状态包括设备剩余电量、用户连接情况、设备与每个BS之间的信道增益、系统随机生成的具体待处理任务信息。系统状态用一个四元组

进行表示，其中，

表示设备剩余电量，σ^t表示用户的连接情况，σ^t＝{0,1,0,0,1…n},其中1表示可连接，0表示无法连接。

表示设备与每个通信基站BS之间的信道增益，ψ^t表示具体的计算任务信息，

对每个时隙t∈T，初始化状态S，得到状态向量φ(S)。

对于Episode(训练回合)中的每一步：

在当前网络Q中输入状态向量φ(S)，根据ε-greedy策略(每次Q值最大的动作a，即argmax(Q(a,s)))输出动作值

执行动作a^t后，结合新的四元组数据信息，得到状态s^t+1，将四个数据封装成四元组，得到对应状态向量φ(S^t+1)、即时奖励r^t以及终止变量is_end，变量累加与设定的循环次数比较得到终止变量is_end。

定义的即时奖励r^t为时延和能耗的线性函数：r^t＝ω₁L^t+ω₂E^t，其中,ω₁,ω₂作为权重，数值取0-1之间的任意常数且ω₁+ω₂＝1，表示时延和能耗在用户考虑中的不同重要性。

步骤2：将获得的当前时隙的系统状态、系统动作、即时奖励和下一时隙的系统状态以最大优先级存储于经验池。

将经验(φ(S),a^t,r^t,φ(S^t+1),is_end)以最大优先级max_i＜tp_i存储于经验池

且S^t←S^t+1。

从存储样本的特殊二叉树结构SumTree(数值父节点等于子节点的和)中基于概率

采样样本，其中，p_j和p_i分别表示样本j和任意样本l的优先级，α为优先级指数，α＝0时为随机均匀采样。

步骤3：从SumTree中基于概率

采样样本。

SumTree表示求和树，是一种特殊的二叉树型存储结构，SumTree存储示意图如图7所示，从上往下一共有四层节点结构，最顶部的那个节点称之为根节点，最底层一行称之为叶子节点，中间两行称之为内部节点。父节点的值等于其子节点的值之和。所有经验样本的数据都是储存在叶子节点，不仅如此，叶子节点还会存储样本的优先级。除叶子节点外的所有节点都是不存储数据的，但是会保存下级的左右子节点优先级之和，并且把子节点优先级之和用数字显示出来。SumTree采样主要是根据优先级来对样本进行训练，优先级取决于时序差分(Temporal-Difference Learning,TD)误差的大小，TD误差的值越大说明神经网络的反向传播作用越强，样本被学习的重要性就越高，相应的优先级也越高，这些样本就会优先被训练。p_j和p_l分别表示经验样本j和任意样本l的优先级，对于p_j有：

p_j＝|δ_j|+ε

上面式子中，误差ε是一个非常小的正常数，这样可保证优先级p_j>0，而α为优先级指数，α＝0时为随机均匀采样，l代表采样的批量数。

上面的采样机制会带来偏差，会使得系统不稳定，于是根据样本重要性权重来纠正偏差，计算权重系数：

ω_j＝(O*p(j))^-β/max_lω_l

其中，ω_j表示权重系数，O代表经验池大小，β表示非均匀概率补偿系数。随着训练进程逐渐增加到1，当β＝1时，就能完全补偿概率p(j)。

其中，采样样本的TD误差为：δ_j＝R_j+γ_jQ_target(S_j,argmax_aQ(S_j,a))-Q(S_j-1,A_j-1)。其中，R_j表示奖励，γ_j表示[0,1]之间的小数，Q_target表示目标网络，Q表示当前网络，S_j表示j状态，a表示采取的动作，A_j-1表示j上一步采取的动作。

Agent在状态下选择动作获得奖励期望回报为：

上式中，折扣因子γ∈[0,1]，R_t+1为t时间步所获环境奖励值。

基于策略π，采用动作a_t，则s_t状态下动作价值函数为：

Q_π(s,a)＝E_π[G_t|s_t＝s,a_t＝a]。

步骤4：累积权重变化：

迭代结束后，更新参数θ←θ+η*Δ，重置权重变化Δ＝0。

其中，ω_j表示权重系数，

表示梯度下降更新参数。

表示求解梯度，是一种快速求解函数极值的方法。在训练和优化智能系统时，梯度下降是一种重要的技术和基础，通过寻找最小值，控制方差，更新模型参数，最终使模型收敛。

步骤5：更新权重和目标Q网络参数，直到即时奖励完成收敛，模型训练完成。

若T％C＝1，更新目标网络参数Q_target←θ，直到S^t是终止状态，其中，S^t表示实验中设定的移动范围边界，当用户从出发点移动到范围边界时，视为终止状态。

步骤五：利用训练好的深度强化学习模型，输入模型参数、待处理任务数据以及网络参数，得到每个时隙的任务卸载决策a^t。

仿真实验采用Torch 1.11.0版本，在PyCharm中构造仿真实验环境评估所提方法的性能，所有实验运行在Windows 10Intel Core i5 4210CPU和NVIDIA GTX 950显卡的计算机上。在仿真实验中，设定一个3km×2km的场景，设置3个异构的边缘服务器，每个服务器的计算能力服从[2,8]GHz间的均匀分布；用户任务在每个时间间隙随机生成，任务输入数据大小I^t∈[2,10]Mbits，完成任务所需要的CPU周期数C^t设置为7.3GHz/task，开关电容初始设置为：k＝1*10^-12。设定边缘服务器是非异构的，因此用户任务在不同服务器之间的切换延迟，统一设定为50ms。通过用户与基站之间的距离变化，来模拟用户的移动性和网络变化。信道功率增益被建模为

其中，d_i是移动设备和通信基站BS_i之间的距离，β是路径损耗指数，设置为3。此外，认为不同通信基站BSs的信道带宽和平均干扰功率是相同的，分别设置为10MHz和2*10^-13W。此外，根据随机游走模型生成用户移动性。对于用户的移动设备，认为有两个等级的CPU频率和发射功率。CPU频率的两个级别分别设置为1GHz和2GHz。延迟和时延的权重分别设置为ω₁＝0.5和ω₂＝0.5。

首先研究本发明BI_DDQN中不同参数对算法收敛的影响，包括学习率(learning-rate)、缓冲池(batch_size)大小、经验池(Memory_size)规模三个参数。实验过程中，记录训练中每个回合获得的累计奖励，然后对比不同参数下累计回合奖励，选择最优参数用于后续实验。图3展示了不同学习率对累计奖励的影响，由图3可知，learning_rate＝0.01的参数设置，可以达到最好的训练效果，因此在之后的实验中设置学习率为0.01。图4展示了不同大小优先级采样样本池对累计回报的影响，可以看出在前100回合的训练中，对累计回报影响较大，因为初始时刻，不同优先级的样本对算法学习的重要性程度不同，对算法收敛的影响较大，这也是本发明选择基于优先级采样改进的DDQN算法来解决所提出的场景中任务卸载问题的重要原因；此外，合适的优先级采样batch_size会加速网络的训练。基于实验得到的数据，后续的实验中固定batch_size＝32。图5展示了缓冲区大小对算法收敛性的影响，过小的缓冲区大小可能会导致重要的经验被丢弃，过大的缓冲区大小会导致样本优先级存储计算量过大，因此选择memory_size＝5000用于后续实验。

为了评估本发明算法的有效性，对比两种基线算法：1)DQN：采用神经网络近似计算Q值，解决了Q-learning存在的维数灾难。Batch_size中样本的挑选，采用随机采样的方式进行2)WPS_DDQN(without piriority selection DDQN)：对经验池中经验样本的选取采用随机选取的方式，没有按照比例优先级采样法进行挑选。如图6所示，该对比实验研究了用户的移动设备随机移动过程中，系统连续生成50个异构计算任务的情形。从图6中可以看出，在一千轮次的实验当中，本发明BI_DDQN方法的长期累积奖励相较于WPS_DDQN算法提高约32％，相比于DQN算法提高约57％，优于现存的两种基线算法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，其步骤如下：

2.根据权利要求1所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述步骤一种的本地计算模型的计算延迟

为：

本地计算模型的能耗

为：

其中，u是移动设备的有效开关电容，

表示移动设备的CPU频率，C^t为完成任务所需要的CPU周期数；

且任务ω^t的计算延迟为：

且t时隙内卸载决策

且

为设备与第i个通信基站之间的上行链路传输速率；

且

能量消耗为：

其中，

剩余能量的更新公式为：

其中，

表示t时隙内设备剩余能量，

表示t+1时隙内设备剩余电量，E^t表示t时隙内的能量消耗。

3.根据权利要求2所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述设备与第i个通信基站之间的上行链路传输速率

其中，W_i表示信道带宽，

表示t时隙上第i个通信基站的平均干扰功率，

表示移动设备与通信基站BS_i间的信道增益，

为设备的发射功率；

4.根据权利要求2或3所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述线计算卸载问题为：

5.根据权利要求4所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述步骤二中最优计算卸载控制策略的问题为：将计算卸载控制策略π:S→A定义为从状态S^t到动作a^t的映射，即π(S^t)＝a^t；在状态S^t∈S下，根据给定的计算卸载控制策略π选择执行的动作

6.根据权利要求3或5所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述深度强化学习模型的训练方法为：

7.根据权利要求6所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述系统状态包括设备剩余电量、用户连接情况、设备与每个通信基站之间的信道增益、系统随机生成的具体待处理任务信息；系统状态用一个四元组

表示，其中，

表示设备剩余电量，σ^t表示用户的连接情况，

表示设备与通信基站之间的信道增益，

o^t表示t时隙内卸载决策，

8.根据权利要求7所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述概率

9.根据权利要求8所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述采样样本的权重系数为：

ω_j＝(O*p(j))^-β/max_lω_l

采样样本的TD误差为：δ_j＝R_j+γ_jQ_target(S_j,argmax_aQ(S_j,a))-Q(S_j-1,A_j-1)；其中，R_j表示奖励，γ_j表示采样样本j的奖励折损因子，Q_target表示目标网络，Q表示当前网络，S_j表示采样样本j的状态，a表示采取的动作，A_j-1表示采样样本j上一步采取的动作；

所述累积权重变化：Δ←Δ+ω_j*δ_j*▽_θQ(S_j-1,A_j-1)，其中，▽_θ表示梯度下降更新参数；

迭代结束后，更新参数θ←θ+η*Δ，重置累积权重变化Δ＝0。

10.根据权利要求9所述的超密集网络中基于深度强化学习的边缘计算任务卸载方法，其特征在于，所述步骤5中若T％C＝1，更新目标网络参数Q_target←θ，C为参数更新频率；

智能体在状态下选择动作获得奖励总和为：