CN114490057B

CN114490057B - 一种基于深度强化学习的mec已卸载任务资源分配方法

Info

Publication number: CN114490057B
Application number: CN202210078805.2A
Authority: CN
Inventors: 张瑛; 刘颖青; 曾瑞雪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-04-25
Anticipated expiration: 2042-01-24
Also published as: CN114490057A

Abstract

本发明属于边缘计算技术领域，具体是涉及一种基于深度强化学习的MEC已卸载任务计算资源分配方法。通过构建深度神经网络，将资源分配状态窗口与已卸载任务集合队列作为网络的输入，通过神经网络的前向传播输出每个动作a对应的Q值，根据资源分配策略π选择动作a从而与环境产生交互使当前状态s转换为下一状态s’，并获得奖励函数r，在训练阶段，神经网络会依据网络最大动作价值函数和当前动作价值—函数计算损失函数，通过最小化损失函数对网络参数权重进行更新，使得网络输出动作价值最大化，最终使得DQN算法曲线收敛，进而确定最优的计算资源分配方案π^*。本发明旨在确保更多的任务请求数据能够在MEC系统中尽快得到处理，从而达到最小的系统总开销。

Description

一种基于深度强化学习的MEC已卸载任务资源分配方法

技术领域

本发明属于边缘计算技术领域，具体是涉及一种基于深度强化学习的MEC已卸载任务计算资源分配方法。

背景技术

作为一种新兴技术，移动边缘计算(MEC)通过将云计算服务从集中式云扩展至网络边缘，具有在靠近终端设备的无线接入网(RAN)中提供云计算服务的能力。与移动云计算(MCC)相比，MEC使得各式各样的应用以及服务能在移动边缘网络中运行，不仅大大降低了整个业务延迟，而且极大程度上地缓解了由于数据交换所造成的移动核心网络的拥塞。因此，在MEC系统部署应用程序和服务，通过将任务请求数据计算卸载到MEC边缘服务器执行，能够显著地提升用户体验。

通过利用移动边缘计算(MEC)，物联网设备产生的大量数据可以在网络边缘进行处理和分析。然而，MEC系统通常只有有限的虚拟资源，这些资源由物联网边缘应用程序共享和竞争。不同的物联网边缘应用可能需要不同数量的资源来保证服务质量，一个重要的挑战是如何协调每个应用程序的有限资源以实现高资源利用率，因此，寻找一种最优的分配方案来高效合理地利用有限的资源成为相关领域研究人员所需克服的难点之一。

发明内容

本发明的目的是，针对单边缘服务器计算资源的不足，提出一种基于深度强化学习的卸载任务资源分配方案。其特点是构建深度神经网络，将资源分配状态窗口与已卸载任务集合队列作为网络的输入，通过神经网络的前向传播输出每个动作a对应的Q值，根据资源分配策略π选择动作a从而与环境产生交互使当前状态s转换为下一状态s’，并获得奖励函数r，在训练阶段，神经网络会依据网络最大动作价值函数和当前动作价值—函数计算损失函数，通过最小化损失函数对网络参数权重进行更新，使得网络输出动作价值最大化，最终使得DQN算法曲线收敛，进而确定最优的计算资源分配方案π^*。本发明旨在确保更多的任务请求数据能够在MEC系统中尽快得到处理，从而达到最小的系统总开销，该方法包括如下步骤：

步骤1，获取已卸载请求任务集合的状态信息，包含传输延迟，数据量大小(单位计算资源执行任务所需时延)，任务优先级。

步骤2，对卸载任务资源分配方案进行问题描述，构建马尔可夫数学模型。

步骤3，利用DQN算法，构建评价Q网络和目标Q网络来近似估计动作—价值组的Q值。

步骤4，通过最小化损失函数对网络不断地进行迭代更新，直至其收敛。

进一步，步骤1中所含信息为

其中，l_j表示一个包含第j个卸载任务信息的三维列向量(j∈{1,2,…,n_o})，因此，l_j可以表示为[l_j1,l_j2,l_j3]^T，其具体信息如下：

①l_j1表示卸载任务的传输延迟，即任务从本地传输到边缘服务器所需时延

②l_j2为任务数据量大小，表示单位计算单元处理该任务的执行时间

③l_j3表示任务的优先级别，优先级越高，则代表卸载任务就越亟需处理。

进一步，步骤2通过对卸载任务资源分配方案进行问题描述，记录单位时间窗口的卸载任务信息集合为L，假设边缘服务器拥有的计算资源数为n_c，通过将单位时间窗口分割为n_τ个时间片。任务信息L从当前的时间片开始分配计算资源，并展望未来n_τ个时间片，一个时间片的持续时间称为一个时间单位，相当于一个时间步长的持续时间，时间单位的具体值取决于实际应用，例如几十毫秒。定义C中的每个计算单元表示一个时间片中的一个计算资源，是资源分配的最小单位。对于某一计算单元

表示i_τ个时间片的第i_c个计算资源的分配状态，其中i_τ∈{1,2,…,n_τ}。另外，计算单元

的取值被设置为{1,-1}，代表两种不同的状态，具体如下所示：

表示计算单元处于可分配状态。

表示该计算单元所占有的计算资源已被占有，即已经完成分配，此时已处于非空闲状态，不可继续分配。

最初，边缘节点的所有计算资源处于空闲可分配状态，然后，将请求的计算单元按需分配给任务集合队列L中等待的作业，分配完成后，计算单元的状态变为“已分配”，即

通过问题描述，可以得出解决问题的难点在于确定最优的计算资源分配方案，以保证更多的任务请求数据能够在MEC系统中尽快得到处理，从而达到最小的系统总开销。可以将该问题转换为马尔可夫模型，其具体步骤为：

2.1建立马尔可夫状态空间s＝{L,C}

其中，L为单位时间窗口内的同批次卸载任务集合队列，具体表示为一个n_o行3列的矩阵；C为边缘节点的计算资源分配状态窗口，具体表示为一个n_c行n_τ列矩阵。

2.2建立马尔可夫动作空间

其中{δ_τ,δ_c}表示从资源分配窗口内第δ_τ时间片开始，连续向任务集合队列L第一个作业l₁分配第δ_c位单位计算资源，直至作业完成(即执行完l₁中的数据量l_j2)，

表示不对第一个作业分配计算单元，直接转发到远端物联网云进行处理。

2.3状态转换分析

状态转换是状态和动作对的函数(s,a)，例如对第t个决策epoch而言，通过从动作空间选择行为a∈A使某一状态s＝{L,C}转换为下一继承状态s′＝{L′,C′}，具体表现如下：

由于直接将任务转发到远端物联网云进行处理，所以其资源分配状态窗口保持不变，即C＝C′。

2.4建立马尔可夫奖励函数r，由于动作的不同取值，所产生的奖励函数也会不同，具体定义如下：

其中，d表示将任务从MEC系统发送到物联网云，然后处理它所花费的总时间，为了简化，将其定义为一个常量。根据奖励函数，我们可以进一步得到收益，其定义为长期每个决策期所产生的累计收益之和，即第t个决策epoch的收益G_(t)为：

其中，γ(0<γ<1)是折扣率，R_(k),S_(k),A_(k)分别表示第k个决策epoch时的奖励，状态和行为，因此，符号l1(k)表示状态为S_(k)中的第一个作业的信息。

进一步，步骤3使用DQN算法，DQN算法由Q-learning演化而来，Q-learning是一种基于价值的方法，包含一个行为—价值函数(也称为Q-function)，其目标是选择一种在每种状态下都能获得最大收益的最优策略，从而最大化长期累计收益。当在状态为S_(t)，执行策略π得到的动作—价值函数Q_π(s,a)为：

最佳动作—价值函数表示在所有动作集中最佳的一种，具体由下式表示：

与Q-learning不同的是，DQN算法包含两个结构相同但是参数不同的神经网络，即评价Q网络和目标Q网络，通过神经网络来近似估计动作—价值函数，即预测Q网络的Q(s,a；θ)≈Q^*(s,a)，θ表示神经网络的权重，通过Q网络对Q(s,a)的评估可以表示为下式：

其中，a为学习率，预测网络的输入为状态s，生成所有可能动作的对应值作为输出。

进一步，步骤4对整个网络进行训练学习，根据随机探测机制，智能体在步骤3中得到的最优动作和随机动作选择一种进行执行，通过不断的尝试，对Q网络进行迭代更新，直至其收敛。另外，目标Q网络的Q(s,a；θ^-)用来预测最佳动作—价值函数，即:

目标Q网络的权值θ^-在每个固定的迭代次数n_θ后时从θ复制，而不是在每个训练轮数进行更新，其均方误差损失函数定义如下：

e＝(s,a,r(s,a),s′)为经验样本，表示带有奖励的状态转换，

为批次训练样本。

通过训练得到训练好的Q网络后，即可进行已卸载任务资源分配。

本发明的有益效果是：利用DQN算法，通过神经网络来近似估计Q-learning中的行为—价值函数，深度神经网络具有强大的数据拟合能力，通过学习高维原始数据提取到有用的特征，然后把这些特征作为强化学习的依据，最终得出最优的计算资源分配策略。与Q-learning相比，由于神经网络的权重θ的数量远小于状态空间s，能够更好的应对更加复杂的环境。

附图说明

图1为本发明的流程图

具体实施方式

下面结合附图对本发明做进一步说明：

1)首先，记录每单位时间窗口的卸载任务集合队列

对于任务队列，令n_o＝10，当单位时间窗口内的卸载任务数量大于n_o时，多余部分直接丢弃，少于n_o即用零向量进行填充。我们假设任务传输延迟l_j1服从泊松分布，取值范围为[1,3]，数据量l_j1服从同一离散的随机分布，取值范围[1,4],任务优先级别同样服从离散随机分布，取值范围[1,3]，此时初始化计算资源分配状态窗口C为全1矩阵，表示所有计算单元处于可分配状态，令n_c＝5，n_τ＝6。

2)构建马尔可夫数学模型，其中状态空间s＝{L,C}，动作空间

奖励函数

得到长期每个决策期所产生的累计收益和，即第t个决策epoch的收益G_(t)为：

3)利用DQN算法，构建Q网络来近似动作-价值函数，首先将状态s正规化为一维向量矩阵作为网络的输入，其网络的输入通道数为5*6+3*10＝60。网络输出通道数对应动作空间大小|A|＝(5*6+1＝31),另外，在网络的输出层后额外添加了一层过滤层，其本质上在于判断动作行为所分配的计算单位是否处于未分配空闲状态，如果已经完成分配，则定义该行为为无效行为，并将其输出Q值设置为一个极大值M＝-1000，注意，该过滤层不影响神经网络的反向传播，因为在计算损失函数时，无效动作的预测值和目标值都等于M，相互抵消。

其余网络参数设置：学习率a＝0.001，折扣率γ＝0.99。

4)训练预测Q网络，目标Q网络，具体步骤如下：

①获取初始状态s。

②根据随机探测机制，即在与环境的每次交互作用中，智能体根据ε-贪心规则选取概率为1-ε的贪心策略和概率为ε的随机行为a得到奖励r并进入下一状态s′(ε_min<＝ε<＝1，参数初始化中令ε＝1，ε_min＝0.01)，并将状态转换经验样本e＝(s,a,r(s,a),s′)存入经验回放池D中(|D|＝10000)。

③从经验池中随机抽取批次样本

计算损失函数：

从而迭代更新预测Q网络的参数权重θ，同时每一次迭代贪心策略ε都按照ε_decay＝0.99衰减因子指数衰减，直到最小值ε_min，另外，目标Q网络的权值θ^-是在每个固定的迭代次数n_θ(n_θ＝16)后从θ进行复制，即θ→θ^-.

④DQN算法曲线是否收敛，如果收敛，训练完毕，否则转到①。

Claims

1.一种基于深度强化学习的MEC已卸载任务资源分配方法，获取单位时间窗口的卸载任务集合队列L，基于边缘节点的计算资源分配状态窗口C；定义边缘服务器拥有的计算资源数为n_c，通过将单位时间窗口分割为n_τ个时间片，令L从当前的时间片开始分配计算资源，并展望未来n_τ个时间片，一个时间片的持续时间称为一个时间单位，定义C中的每个计算单元表示一个时间片中的一个计算资源，是资源分配的最小单位；对于某一计算单元表示i_τ个时间片的第i_c个计算资源的分配状态，其中i_τ∈{1,2,…,n_τ}，将计算单元的取值设置为{1,-1}，代表两种不同的状态：

表示计算单元处于可分配状态；

表示该计算单元所占有的计算资源已被占有，即已经完成分配，此时已处于非空闲状态，不可继续分配；

其特征在于，所述资源分配方法是以获得最优的计算资源分配方案为目标，即保证更多的任务请求数据能够在MEC系统中尽快得到处理，从而达到最小的系统总开销；基于目标采用深度强化学习的方式进行卸载任务资源分配，深度强化学习的具体实现方式为基于马尔可夫模型：

状态设计：建立马尔可夫状态空间s＝{L,C}，其中，L具体为一个n_o行3列的矩阵；C具体为一个n_c行n_τ列矩阵；

动作空间：建立马尔可夫动作空间其中，{δ_τ,δ_c}表示从资源分配窗口内第δ_τ时间片开始，连续向任务集合队列L第一个作业l₁分配第δ_c位单位计算资源，直至作业完成，表示不对第一个作业分配计算单元，直接转发到远端物联网云进行处理，δ_c∈{1,2,…,n_c},δ_τ∈{1,2,…,n_τ}；

奖励：建立马尔可夫奖励函数r为：

其中，l_j1表示卸载任务的传输延迟，即任务从本地传输到边缘服务器所需时延，l_j2为任务数据量大小，表示单位计算单元处理该任务的执行时间，l_j3表示任务的优先级别，优先级越高，则代表卸载任务就越亟需处理，d表示将任务从MEC系统发送到物联网云，然后处理它所花费的总时间，为了简化，将其定义为一个常量；根据奖励函数得到收益，定义为长期每个决策期所产生的累计收益之和，即第t个决策epoch的收益G_(t)为：

其中，γ是折扣率，0<γ<1，R_(k),S_(k),A_(k)分别表示第k个决策epoch时的奖励，状态和行为，因此，符号l1(k)表示状态为S_(k)中的第一个作业的信息；

采用DQN算法，构建Q网络来近似动作-价值函数，目标是选择一种在每种状态下都能获得最大收益的最优策略，当在状态为S_(t)，执行策略π得到的动作—价值函数Q_π(s,a)为：