CN110418416A

CN110418416A - 移动边缘计算系统中基于多智能体强化学习的资源分配方法

Info

Publication number: CN110418416A
Application number: CN201910680954.4A
Authority: CN
Inventors: 夏玮玮; 张雅雯; 燕锋; 成华清; 胡静; 宋铁成; 沈连丰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-05
Anticipated expiration: 2039-07-26
Also published as: CN110418416B

Abstract

本发明公开了移动边缘计算系统中基于多智能体强化学习的资源分配方法，包括：（1）将无线信道划分成若干个子载波，每个用户仅仅可以选择一个子载波；（2）每个用户随机选择信道以及计算资源，然后计算用户卸载产生的时延和能耗；（3）将用户在本地计算产生的时延能耗和卸载到边缘云的进行对比，判断卸载是否成功；（4）通过多智能体强化学习得到当前卸载动作的奖励值，并计算价值函数；（5）用户根据策略函数进行动作选择；（6）改变用户的学习速率进行策略更新，得到最优动作集合。本发明基于可变速率的多智能体强化学习，充分利用移动边缘服务器的计算资源和无线资源，在考虑了用户卸载的必要性的同时，得到各智能终端效用函数的最大值。

Description

移动边缘计算系统中基于多智能体强化学习的资源分配方法

技术领域

本发明涉及移动边缘计算技术，尤其涉及一种移动边缘云计算系统(Mobile EdgeComputing,MEC)中基于多智能体强化学习的资源分配方法。

背景技术

随着互联网的发展，移动智能终端越来越普及，它所具备的功能也越来越强大，人脸识别，图像识别，增强现实等新的应用不断涌现。然而，这些新兴应用程序需要移动设备具备一定的计算资源，存储资源和电池容量有限，并且对延时有着高要求，因此，需要高性能的计算设备代替智能终端完成计算任务。移动云计算(MCC，Mobile Cloud Computing)可以较好的满足其需求。

自2005年左右提出以来，云计算已经极大地改变了人们的学习、工作以及生活方式。移动云计算作为云计算的一个延伸，采用移动终端设备取代传统的PC机，一方面终端设备不再是固定不动的，而具备了移动性，另一方面，终端设备也具有了一定的感知能力、存储能力。移动云计算是移动互联网技术和云计算技术自然结合的产物，基于异构无线通信网络基础设施，并拥有共享的云资源池，向移动终端设备提供计算、存储等网络资源，提供云服务，终端无需使用的自己的计算以及存储资源，可以有效地解决其资源受限问题，是提升用户QoE的有效途径。然而，云计算也面临着新的挑战，用户在使用移动应用时与数据中心要发生数据交互，根据用户与云数据中心的相对位置，网络延迟对一些延迟敏感类的应用影响很大，比如实时网络游戏、视频通信等；另一方面，由于所有应用产生的数据交互都要用过核心网进行，在网络高峰期核心网会有很大的压力。作为一个新概念，移动边缘计算可以应对上述云计算的问题。

MEC的核心思想是将移动云计算中数据中心的一部分计算、存储能力下放到边缘网络，即靠近用户的位置。从而移动应用产生的数据处理需求只需要通过其本地网络边缘的MEC服务器进行处理并返回结果，无需通过核心网和数据中心进行。

由于MEC服务器的计算、存储、带宽等资源有限，MEC服务器上的资源分配问题成为一个随之而来的新的挑战。为了减少网络中的延迟，以及更好地利用MEC服务器有限的资源，合理地设计MEC服务器中的服务分配问题是十分必要的。强化学习算法通过与环境相互作用，反复试验改进误差来获取最优解，并且只需要较少的先验知识，因此，本发明采用强化学习算法解决资源分配问题。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种移动边缘计算系统中基于多智能体强化学习的资源分配方法，本方法基于多智能体强化学习，充分利用边缘服务器的计算资源和无线资源，在满足终端任务卸载是有必要的前提下，最大化终端用户的效用函数。

为达到上述目的，本发明采用的方法是：一种移动边缘计算系统中基于多智能体强化学习的资源分配方法，包括以下步骤：

(1)移动边缘云计算系统MEC环境下将无线信道划分成K个子载波，假设每个子载波之间是正交的，选择不同子载波的用户之间互不干扰，并且每个用户只能选择一个子信道；

(2)移动边缘云计算系统MEC中的终端随机选择子信道以及云服务器中计算资源，并建立终端的任务卸载开销函数；其中该任务卸载开销函数包含能耗开销和时延开销，能耗开销是终端进行任务卸载时消耗的能量，时延开销是终端进行任务卸载过程中上传到服务器的时延以及计算的时延；

(3)计算用户在本地计算产生的开销，其中该开销函数包括本地计算所需要的时延开销和本地计算所产生的能量开销；将本地开销和卸载到云服务器的开销进行对比，由此来判断本次卸载是否有必要性，只有当卸载的开销小于本地计算开销时本次卸载才算是成功的；

(4)通过多智能体强化学习算法，计算当前智能体在无线资源和计算资源选择后的奖励值，然后计算当前状态下的动作价值函数；

(5)用户采取策略ε-贪心(ε-greedy)重新选择无线资源和计算资源，每当智能体进行一次动作选择后，该智能体的动作价值函数就会变化，总体上时向着动作价值函数更大的方向进行动作选择；

(6)通过当前策略的预期价值和平均策略价值进行比较，改变用户的学习速率，进行策略更新，从而得到最优动作集合，即各个终端获得的边缘云服务器的计算资源和无线资源。

作为本发明的一种改进，步骤(2)中所述的能耗开销和时延开销，可以对能耗开销和时延开销占据的比例进行动态调节，两者影响因子之和为1；

作为本发明的一种改进，步骤(4)中多智能体强化学习的描述具体如下：

状态空间：每个智能体的状态空间可以用用户的满意度来表示，s(t)＝{s₁(t),s₂(t),...,s_N(t)}，其中s_i(t)＝{0,1}，当s_i(t)＝0时，表示用户的卸载开销太高，超过了本地计算的情况，本次卸载是没必要的；相反，若是s_i(t)＝1，则表示开销合理，本次卸载是合理的；

动作空间：每个用户选择计算和无线资源，所以动作空间可以表示为a_i(t)＝{b_i(t),c_i(t)}，其中c_i(t)是计算资源，b_i(t)是无线资源；

奖励：用户在每一个状态s_i(t)时采取动作a_i(t)后会得到一个奖励r_i(t)，我们可以采取用户的效用函数u_i(t)作为奖励：

上式的第一项表示边缘网络中下行链路为移动用户提供的数据传输速率，第二项为用户将任务卸载至云端网络产生的总开销ρ_i，υ_i为每一项指标的比重系数。但是，当用户的卸载开销比本地开销还要的情况下，奖励将为一个小于0的惩罚值；

值函数：每个用户都会朝着自己的最优目标选择相应的动作，强化学习往往具有延迟回报的特点，因此定义在某种策略情况下的一个函数来表明当前的状态下所作的策略对长远的影响，也就是用它来衡量该状态的好坏程度，这个函数被称为值函数：

动作价值函数：将值函数拆解为各个动作相关的表示，就可以得到动作价值函数：

式中代表智能体在状态s选择动作a的奖励值，p(s,s')代表在状态s转移到状态s'的概率，π(a|s')代表智能体在状态s'选择动作的策略。

作为本发明的一种改进，步骤(5)中所述的ε-贪心(ε-greedy)策略表示，ε是一个很小的值，作为选取随机动作的概率值，1-ε作为选取最优动作的概率值。

作为本发明的一种改进，步骤(6)中改变学习速率更新策略，其过程如下：

对于一个已知的智能体，它会在状态s_k过度到s_k+1，并且具有奖励函数r的情况下执行探索动作a_k，它的平均估计策略更新可以表示为：

其中，C(s)表示状态s的出现次数，策略更新可以表示为:

用于更新策略的学习速率取决于智能体当前是赢还是输。这是通过比较当前的期望值是否大于平均策略的当前期望值来确定的。如果当前的策略的期望是较小的,那么使用大的学习速率δ_lose，否则使用δ_win，δ表示当前选择的学习速率。

有益效果：

本发明与现有技术相比，其显著优点是：本发明将无线和计算资源进行联合分配，通过增加吞吐量和降低每个用户的成本，使其效用最大化，此外，还考虑了卸载的必要性。本发明采用多智能体强化学习方法，通过多智能体并行处理，减少学习时间，加快学习速度，获得最优学习策略。学习速率根据当前策略的期望而变化，每个智能体只需要维护自己的动作价值函数，减轻算法的复杂度。

附图说明

图1是本发明的移动边缘计算环境下的系统场景图；

图2是本发明的基于可变学习速率强化学习算法资源分配方法流程图。

具体实施方式

本发明基于多智能体强化学习，充分利用移动边缘云服务器中有限的计算资源，在满足终端任务卸载是有必要的前提下，最大化终端用户的效用函数。下面结合附图对本发明的实施方法作进一步的描述。

如图1所示，考虑移动边缘系统中总共有N个用户移动终端，用户集合可以表示为N＝{1,2,3,…,N}，每个用户都有计算密集型任务需要卸载到云服务器上，将无线信道分为K个子载波，设置无线信道集K＝{1,2,3,…,K}，当第n个用户选择了第k个信道时，反之多个用户可以同时选择同一个信道，但是一个用户一次只可以选择一个信道，即

由于许多用户共享了同一个信道，所以我们需要考虑到信道干扰，每个用户移通过无线信道将计算任务转移到云服务器上时的上行数据速率为：

ω表示信道带宽，p_n表示用户n的传输功率，σ₀表示噪声功率，g_n,s表示用户n和基站s之间的信道增益，其中l_n,s表示用户n和基站s之间的距离，α表示路径损耗因子。

每个用户移动设备的任务用J_n＝{b_n,d_n}表示，b_n表示计算任务输入数据的大小(包括任务代码和输入参数)，d_n表示为了完成任务J_n所需要的CPU周数。为了将任务卸载到云服务器上，需要额外的无线传输时间这段时间产生的能耗可以表示为用户n的任务执行时间可以表示为因此，可以得到，用户n的总开销可以表示为：

每个用户的效用函数应跟数据传输速率以及资源开销有关。所以第n个用户的效用函数可以表示为

上式的第一项表示边缘网络中下行链路为移动用户提供的数据传输速率，第二项为用户将任务卸载至云端网络产生的总开销，ρ_i，υ_i为每一项指标的比重系数。

如图2所示，本发明的移动边缘计算系统中基于多智能体强化学习的资源分配方法具体包括：

其中，步骤(3)中本地计算产生的开销可以表示为：

步骤(4)中多智能体强化学习可以表示为：

奖励：用户在每一个状态s_i(t)时采取动作a_i(t)后会得到一个奖励r_i(t)，我们可以采取用户的效用函数u_i(t)作为奖励，r_i(t)＝u_i(t)，但是，当用户的卸载开销比本地开销还要的情况下，奖励将为一个小于0的惩罚值。

步骤(5)中所述的ε-贪心(ε-greedy)策略表示，ε是一个很小的值，作为选取随机动作的概率值，1-ε作为选取最优动作的概率值。

步骤(6)中改变学习速率更新策略，其过程如下：

其中，C(s)表示状态s的出现次数，策略更新可以表示为:

其中，

用于更新策略的学习速率取决于智能体当前是赢还是输。这是通过比较当前的期望值是否大于平均策略的当前期望值来确定的。如果当前的策略的期望是较小的,那么使用大的学习速率δ_lose，否则使用δ_win。

Claims

1.一种移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于包括如下步骤：

(1)移动边缘云计算系统环境下将无线信道划分成K个子载波，假设每个子载波之间是正交的，选择不同子载波的用户之间互不干扰，并且每个用户只能选择一个子信道；

(2)移动边缘云计算系统中的终端随机选择子信道以及云服务器中计算资源，并建立终端的任务卸载开销函数；其中该任务卸载开销函数包含能耗开销和时延开销，能耗开销是终端进行任务卸载时消耗的能量，时延开销是终端进行任务卸载过程中上传到服务器的时延以及计算的时延；

(5)用户采取策略ε-贪心重新选择无线资源和计算资源，每当智能体进行一次动作选择后，该智能体的动作价值函数就会变化，总体上时向着动作价值函数更大的方向进行动作选择；

2.根据权利要求1所述的移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于：步骤(2)中所述的能耗开销和时延开销，可以对能耗开销和时延开销占据的比例进行动态调节，两者影响因子之和为1。

3.根据权利要求1所述的移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于：步骤(4)中多智能体强化学习的描述具体如下：

4.根据权利要求1所述的移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于：步骤(5)中所述的ε-贪心策略表示，ε是一个很小的值，作为选取随机动作的概率值，1-ε作为选取最优动作的概率值。

5.根据权利要求1所述的移动边缘计算系统中基于多智能体强化学习的资源分配方法，其特征在于：步骤(6)中改变学习速率更新策略，其过程如下：

其中，C(s)表示状态s的出现次数，策略更新可以表示为:

用于更新策略的学习速率取决于智能体当前是赢还是输，这是通过比较当前的期望值是否大于平均策略的当前期望值来确定的，如果当前的策略的期望是较小的,那么使用大的学习速率δ_lose，否则使用δ_win，δ表示当前选择的学习速率