CN113568727A

CN113568727A - 一种基于深度强化学习的移动边缘计算任务分配方法

Info

Publication number: CN113568727A
Application number: CN202110835323.2A
Authority: CN
Inventors: 赵楠; 季英强; 白茂森; 曾春艳; 刘聪; 胡胜; 王娟
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-29
Anticipated expiration: 2041-07-23

Abstract

本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法，旨在将深度强化学习策略引入到移动边缘计算任务分配，以期实现移动边缘计算任务的智能分配。首先，考虑到用户设备的计算能力和能量容量有限，本专利提出多边缘云协作移动边缘计算系统模型。其次，通过联合设计多边缘云的计算任务分配和计算资源管理，建立延迟和能量消耗的总和最小化的任务分配优化问题模型。再次，为了解决上述非凸优化任务分配问题，将移动边缘计算任务分配问题建模为马尔可夫决策过程。最后，针对上述马尔可夫决策过程中高维连续动作空间特点，提出双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。

Description

一种基于深度强化学习的移动边缘计算任务分配方法

技术领域

本发明涉及无线通信技术领域，尤其涉及一种基于深度强化学习的移动边缘计算任务分配方法。

背景技术

随着移动应用的迅速发展，越来越多的移动应用任务日趋计算密集和延迟敏感性。然而，这些任务可能对计算和电池能力有限的用户设备带来巨大挑战。为了应对这些挑战，移动边缘计算已被视为云计算的扩展，用于移动网络中的数据计算和通信。移动边缘计算将服务器放置在移动网络边缘，并提供计算和存储资源。服务器将更方便地提供计算服务来处理用户设备的密集计算任务，从而降低服务时延和更好的服务质量。

然而，现有移动边缘计算系统考虑单个边缘云的任务分配场景。由于有限的计算和能量容量，单一边缘云可能提供非常有限的任务分配性能，多边缘云协同研究的场景会更合适。同时，几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。实际上，用户设备在计算过程中总是四处走动，这使得很难获得最佳策略，由此可知，现有技术中的方法存在较难适应环境动态性的技术问题。

发明内容

本发明提出一种基于深度强化学习的移动边缘计算任务分配方法，用于解决或者至少部分解决现有技术中的方法存在的较难适应环境动态性的技术问题。

为了解决上述技术问题，本发明提供了一种基于深度强化学习的移动边缘计算任务分配方法，包括：

S1：建立多边缘云协作移动边缘计算任务分配优化问题模型，其中，优化问题模型包括约束条件和目标，约束条件包括：每个参与终端设备计算的边缘云的计算任务比例在[0,1]之间，所有参与终端设备计算的边缘云的计算任务比例之和为1，为每个处理终端设备任务的边缘云所分配的计算资源在[0,F]之间；为所有处理终端设备任务的边缘云所分配的计算资源总和为F；目标为以延迟和能量消耗的总和最小化；

S2：将移动边缘计算任务分配问题建模为马尔可夫决策过程；

S3：将深度强化学习策略引入到移动边缘计算任务分配，通过观察当前时刻各终端设备计算任务完成情况，从历史经验中学习，选择下一时刻的最佳任务分配策略，以实现移动边缘计算任务的智能分配。

在一种实施方式中，步骤S1包括：

定义t时刻，第m个终端设备和控制中心之间的数据速率R_m(t)：

其中，移动边缘计算系统由M个终端设备、K个边缘云和1个控制中心组成，上行带宽B_u平均分配给每个终端设备，P_m是终端设备m的发射功率，h_m(t)为第m个终端设备和控制中心之间的信道增益，

为边缘云端的噪声水平；

定义t时刻，第m个终端设备和控制中心之间的任务传输能耗E_m(t)：

其中，T_m(t)为第m个终端设备和控制中心之间的任务传输延迟，

D_m为任务数据大小，R_m(t)为任务数据的传输数据速率，P_r是控制中心的接收功率；

定义t时刻，第k个边缘云处理第m个终端设备任务的计算延迟

其中，

为第k个边缘云参与第m个终端设备的计算任务比例，

为第k个边缘云处理第m个终端设备任务所分配的计算资源，C_m为第m个终端设备处理1bit任务所需的CPU周期数；

根据第m个终端设备和控制中心之间的任务传输延迟、第k个边缘云处理第m个终端设备任务所分配的计算资源，获得第k个边缘云处理第m个终端设备任务的能耗

其中，κ≥0为有效的开关电容；

获取系统总能耗E(t)以及系统总时延T(t)，

根据系统总能耗和系统总时延获得系统完成计算任务所消耗的总成本为U(t)＝w₁E(t)+w₂T(t)，其中，w₁和w₂分别是能耗和时延的权重，且w₁+w₂＝1；

通过联合计算任务

和计算资源

分配，构建多边缘云协作移动边缘计算任务分配优化问题模型，移动边缘计算任务分配优化问题模型的目标为最小化系统总成本，即：

其中，F为每个边缘云最大的计算资源。

在一种实施方式中，步骤S2包括：

移动边缘计算任务分配问题转化为一个马尔可夫决策过程(S；A；p(s′|s,a)；r；π(a|s))，具体如下：

状态空间S：当前时刻各终端设备任务数据大小D_m的集合；

动作空间A：计算任务

和计算资源

策略的集合；

转移概率p(s′|s,a)：在任务状态s情况下，采用某一动作a时，状态s转变为下一状态s′的概率；

奖励r：控制中心采用某一动作a时，任务状态从s转移到下一任务状态s′获得的成本；

策略π(a|s)：在任务状态s时，选择某一任务分配动作a的概率；

其中，定义累积奖励R为所有奖励r的累积，即：

r_n表示在第n个时刻获得的奖励，γ为衰减因子且γ∈[0,1)，衰减因子决定了未来奖励和当前时刻奖励的重要性。

在一种实施方式中，步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)＝E[R|s,a]，其中，E[·]为数学期望运算。

在一种实施方式中，步骤S3中通过设计双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略，双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ¹和θ²的critic网络组成，actor网络和critic网络都包括各自的Online网络和Target网络，采用双延迟深度确定性策略梯度算法对模型进行训练，具体包括如下步骤：

(1)初始化当前时刻中各终端设备的任务状态s；

(2)利用ε-贪婪策略来选择计算任务和计算资源策略：以概率ε随机选择下一时刻计算任务和计算资源策略，以概率(1-ε)选择满足最优Q(s,a,θ)的策略；

(3)在状态s下，选择计算任务和计算资源策略a，得到奖励r；

(4)状态s转移到下一状态s′；

(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中；

(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>；

(7)计算损失函数，借助梯度下降法获得最小损失函数，以更新Online actor网络权重μ和两个Online critic网络权重θ¹和θ²；

(8)间隔一定回合后，将Online actor网络权重μ和两个Online critic网络权重θ¹和θ²分别复制给相应的Target actor网络μ′和两个Target critic网络权重θ^1′和θ^2′；

(9)复第2到第8步骤，得到训练好的模型，其中，训练好的模型用于得到计算任务分配和计算资源管理的近似最优联合策略。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于深度强化学习的移动边缘计算任务分配方法，首先，考虑到用户设备的计算能力和能量容量有限，构建了多边缘云协作移动边缘计算任务分配优化问题模型，即通过联合设计多边缘云的计算任务分配和计算资源管理，建立延迟和能量消耗的总和最小化的任务分配优化问题模型，并且为了解决上述非凸优化任务分配问题，将移动边缘计算任务分配问题建模为马尔可夫决策过程，最后，将深度强化学习策略引入到移动边缘计算任务分配，通过观察当前时刻各终端设备计算任务完成情况，从历史经验中学习，选择下一时刻的最佳任务分配策略，以实现移动边缘计算任务的智能分配，改善了分配效果，解决了现有技术中的方法存在的较难适应环境动态性的技术问题。

进一步地，针对马尔可夫决策过程中高维连续动作空间特点，提出双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中提供的一种基于深度强化学习的移动边缘计算任务分配方法的流程图。

具体实施方式

本申请发明人通过大量的研究与实践发现：几乎所有现有的研究都集中在具有固定用户设备的静态边缘计算系统上。然而实际上，用户设备在计算过程中总是四处走动，这使得很难获得最佳策略。基于此，有必要共同考虑计算任务分配和计算资源管理等问题，以获得最小的执行延迟和能耗。但是，由于非凸性质和非平稳环境，如果没有关于环境的准确和完整信息，可能很难获得全局最优策略。因此，如何实现移动边缘计算任务的智能分配是一个值得研究的问题。近年来，深度强化学习方法因其强大的学习能力，在智能决策、无人驾驶等领域取得了一些研究进展。

因此，受到深度强化学习的启发，本专利旨在将深度强化学习策略引入到移动边缘计算任务分配，以期实现移动边缘计算任务的智能分配。通过联合设计多边缘云的计算任务分配和计算资源管理，建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上，将移动边缘计算任务分配问题建模为马尔可夫决策过程，考虑到高维连续动作空间特点，提出多智能体深度强化学习框架，通过设计双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于深度强化学习的移动边缘计算任务分配方法，包括：

本发明的主要构思如下：

本发明针对现有移动边缘计算任务分配策略较难适应环境动态性问题，提出基于深度强化学习的移动边缘计算任务分配方法。通过联合设计多边缘云的计算任务分配和计算资源管理，建立延迟和能量消耗的总和最小化的任务分配优化问题模型。在此基础上，将移动边缘计算任务分配问题建模为马尔可夫决策过程，考虑到高维连续动作空间特点，提出多智能体深度强化学习框架，通过设计双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。

具体来说，步骤S3中设计基于深度强化学习的移动边缘计算任务分配算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。请参见图1，为本发明提出的基于深度强化学习的移动边缘计算任务分配方法的流程图。

在一种实施方式中，步骤S1包括：

为边缘云端的噪声水平；

定义t时刻，第k个边缘云处理第m个终端设备任务的计算延迟

其中，

为第k个边缘云参与第m个终端设备的计算任务比例，

其中，κ≥0为有效的开关电容；

获取系统总能耗E(t)以及系统总时延T(t)，

通过联合计算任务

和计算资源

其中，F为每个边缘云最大的计算资源。

具体来说，因为终端设备将所有任务上报给控制中心，因此可以得到第m个终端设备和控制中心之间的任务传输延迟T_m(t)。

在接收到来自终端设备的全部输入数据后，控制中心决定边缘云的任务分配比例和计算资源分配测量。从而得到

为第k个边缘云参与第m个终端设备的计算任务比例，当

第k个边缘云不参与第m个终端设备的计算任务。

当所有终端设备的计算任务都完成时，可以得到系统总能耗E(t)。

最后通过联合计算任务

和计算资源

分配，系统任务卸载优化问题(移动边缘计算任务分配问题)可以设计为最小化系统总成本。

在一种实施方式中，步骤S2包括：

状态空间S：当前时刻各终端设备任务数据大小D_m的集合；

动作空间A：计算任务

和计算资源

策略的集合；

其中，定义累积奖励R为所有奖励r的累积，即：

考虑到当前时刻移动边缘计算任务分配策略所消耗的总成本仅与当前系统状态有关，与之前系统状态无关，因而，可以将移动边缘计算任务分配问题可描述为一个马尔可夫决策过程。当衰减因子接近0时，意味着当前时刻获得的奖励权重较多；反之，当衰减因子接近1时，则意味着控制中心更注重未来时刻获得的奖励。

具体来说，本发明将深度强化学习策略引入到移动边缘计算任务分配，通过观察当前时刻各终端设备计算任务完成情况，从历史经验中学习，选择下一时刻的最佳任务分配策略，以实现移动边缘计算任务的智能分配。

在一种实施方式中，步骤S3中通过设计双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略，双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ¹和θ²的critic网络组成，actor网络和critic网络都包括各自的Online网络和Target网络，算法具体包括如下步骤：

(1)初始化当前时刻中各终端设备的任务状态s；

(3)在状态s下，选择计算任务和计算资源策略a，得到奖励r；

(4)状态s转移到下一状态s′；

(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中；

(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>；

本申请发明人通过大量的研究与实践发现，当终端设备数量M较大时，整个状态空间S非常巨大。同时，考虑到上述马尔可夫决策过程中高维连续动作空间特点，本发明提出基于深度强化学习的移动边缘计算任务分配方法，通过设计双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略。

双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ¹和θ²的critic网络组成。采用两个critic网络，能够有效地解决单critic框架中Q值的高估问题。同时，为了提高学习稳定性，上述三个网络均由Online网络和Target网络组成(即actor网络包括Online actor网络和Targetactor网络，critic网络包括Online critic网络和Target critic网络)。

为了稳定训练过程并提高样本效率，控制中心在经验回放池中存储当前经验(当前状态s(t)、下一状态s′(t)、动作a(t)、奖励R(t))。在随机采样M_b个小batch后，通过将s_j送入Online actor网络中生成策略π^μ(s_j)，并利用策略梯度策略更新Online actor网络的权重，即

其中，

为梯度运算，J(μ)为actor网络的损失函数，

是状态s_j、动作a为π^μ(s_j)时的状态-动作值函数。

此外，为了防止在Q值的窄峰上过拟合，将随机噪声添加到Target actor网络中，可以实现更平滑的状态-动作值估计。加噪目标动作为

其中，

是均值0和标准差

的噪声并被剪裁。则可以得到目标值y_j：

然后，基于策略π^μ(s_j)，两个Online critic网络将同时获得两个Q值

和

通过最小化损失函数L(θⁱ)，定义为

其中，r_j为奖励，δ为学习率，

为状态s′_j、动作

时的状态-动作值函数，

为状态s_j、动作a_j时的状态-动作值函数。

于是，上述Online评估网络的权重可更新为

其中，λ表示学习率，

和

分别为actor网络和两个critic网络的梯度运算，J(μ)和L(θⁱ)分别为actor网络和两个critic网络的损失函数。

同时，为了减少时间差异学习导致的错误，Online actor网络的权重的频率低于Online critic网络的频率。在本实施方式中，选择每d个时间步更新Online actor网络。于是，为了稳定训练过程，通过复制相应Online网络的权重，每隔d时间步更新三个Target网络的权重，即

μ′＝τμ+(1-τ)μ′₁,

θ^i′＝τθⁱ+(1-τ)θ^i′ ₁,i＝1,2,

其中，τ表示更新率，等式右边μ′₁为更新前Target actor网络权重,等式左边μ′为更新后Target actor网络权重,等式右边θ^i′ ₁为更新前Target critic网络权重,等式左边θ^i′为更新后Target critic网络权重。

(7)中的损失函数为L(θⁱ)，通过对基于深度强化学习的移动边缘计算任务分配算法的训练，可以得到训练好的模型，在模型(算法)测试过程中，在获取当前状态s时，利用上述已训练好的模型，即可得到相应的计算任务分配和计算资源管理的近似最优联合策略。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的移动边缘计算任务分配方法，其特征在于，包括：

2.如权利要求1所述的移动边缘计算任务分配方法，其特征在于，步骤S1包括：

为边缘云端的噪声水平；

定义t时刻，第k个边缘云处理第m个终端设备任务的计算延迟

其中，

为第k个边缘云参与第m个终端设备的计算任务比例，

其中，κ≥0为有效的开关电容；

获取系统总能耗E(t)以及系统总时延T(t)，

通过联合计算任务

和计算资源

s.t.

其中，F为每个边缘云最大的计算资源。

3.如权利要求1所述的移动边缘计算任务分配方法，其特征在于，步骤S2包括：

状态空间S：当前时刻各终端设备任务数据大小D_m的集合；

动作空间A：计算任务

和计算资源

策略的集合；

其中，定义累积奖励R为所有奖励r的累积，即：

4.如权利要求3所述的移动边缘计算任务分配方法，其特征在于，步骤S3中定义状态s处选择任务分配策略a得到的期望奖励为状态-动作值函数Q(s,a)＝E[R|s,a]，其中，E[·]为数学期望运算。

5.如权利要4所述的声纹识别方法，其特征在于，步骤S3中通过设计双延迟深度确定性策略梯度算法，以获得多边缘云的计算任务分配和计算资源管理的近似最优联合策略，双延迟深度确定性策略梯度算法由一个权重为μ的actor网络和两个权重为θ¹和θ²的critic网络组成，actor网络和critic网络都包括各自的Online网络和Target网络，采用双延迟深度确定性策略梯度算法对模型进行训练，具体包括如下步骤：

(1)初始化当前时刻中各终端设备的任务状态s；

(3)在状态s下，选择计算任务和计算资源策略a，得到奖励r；

(4)状态s转移到下一状态s′；

(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中；

(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>；