CN117729571A

CN117729571A - 一种动态mec网络中迁移决策与资源分配的联合优化方法

Info

Publication number: CN117729571A
Application number: CN202410177424.9A
Authority: CN
Inventors: 林世俊; 朱凯歌; 石江宏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2024-02-08
Filing date: 2024-02-08
Publication date: 2024-03-19

Abstract

本发明涉及一种动态MEC网络中迁移决策和资源分配的联合优化方法，通过Lyapunov框架将长期问题转化为每个时隙下的确定性问题，涉及服务器选择，发射功率和服务器资源分配的优化。首先根据拉格朗日对偶分解得到给定服务器选择下的最优资源分配，然后结合深度强化学习求解服务器选择使得Lyapunov漂移最小，最终使得在长期迁移代价的约束下用户的长期能耗最小。

Description

一种动态MEC网络中迁移决策与资源分配的联合优化方法

技术领域

本发明涉及MEC网络技术领域，具体涉及一种动态MEC网络中迁移决策与资源分配的联合优化方法。

背景技术

在传统移动边缘计算（Mobile Edge Computing，MEC）网络中，服务器与用户通常处于相对固定的位置。然而，当用户在多个基站的服务范围内移动时，可能会导致网络性能显著降低和服务质量（Quality of Service，QoS）大幅下降，甚至中断正在进行的边缘业务，很难保证业务的连续性。

在传统的无线接入网络中，移动性的一个关键解决方案是将移动用户的无线链路从一个基站切换到另一个基站，以确保连接的可靠性。在MEC系统中，除了考虑用户设备之间的无线连接切换外，还需要关注服务器之间的计算任务迁移，即服务迁移。

服务迁移在以下几点展示了巨大的应用潜力：

第一，降低延迟：对延迟敏感的应用程序的交互响应将随着逻辑网络距离的增加而降低，这种退化可能比物理距离所暗示的要严重得多。跟随用户的移动性进行服务迁移能够极大地提高MEC系统中的用户体验。

第二，用户的移动性在可能会卸载过程中引入间歇性连接，导致多个服务器之间负载不平衡，已被证明是导致卸载失败和服务降级的根本原因。当接入点过载时，将导致网络拥塞，这将成为与服务通信的主要开销部分，服务迁移在不降低QoS的前提下，保证所有服务器的平均运行，尽可能地减少网络拥堵的可能。

第三，密集部署下的切换失败（FHO）和乒乓效应（PP）问题显著增加了系统的能量消耗，因为很多能量被浪费在不必要的移交上。高效的服务迁移策略能够很好地改善这一状况。

在以设备为目标的服务场景中优化迁移策略，是学界的一大研究方向。当前多数方案都是只优化迁移策略，也就是只考虑用户移动过程中的服务器选择问题。然而，只考虑服务器的选择不能够让系统的性能达到最优，还需要考虑其他资源的优化，如移动用户发射功率，服务器端的计算资源分配等。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种动态MEC网络中迁移决策与资源分配的联合优化方法，其考虑了服务器选择、发射功率和服务器资源分配的优化，以实现在长期迁移代价的约束下用户的长期耗能最小。

为实现上述目的，本发明采用的技术方案是：

一种动态MEC网络中迁移决策和资源分配的联合优化方法，其包括以下步骤：

步骤1、将系统中的移动用户、服务器和系统的时间分别标注为，和/>，目标是最小化用户端的长期能耗，根据该目标得到长期优化模型/>；

步骤2、利用李雅普诺夫Lyapunov优化框架将长期优化模型转为每个时隙下的确定性优化模型/>；

步骤2.1、引入虚拟队列，用来表示到时隙/>结束时执行的业务迁移超过的成本，初始时虚拟队列积压为0，即/>；/>的更新方法如下：

其中，是MEC服务提供商设置的长期平均迁移代价，/>表示在时隙/>内所有用户总的服务迁移代价，计算如下：

其中，表示用户/>的选择服务器从/>切换至服务器/>时所产生的迁移代价，若/>，则/>；

步骤2.2、分别定义二次Lyapunov函数和Lyapunov漂移函数如下：

步骤2.3、定义Lyapunov漂移加惩罚函数如下：

其中，为控制参数，/>表示期望；

步骤2.4、根据Lyapunov理论，Lyapunov漂移加惩罚函数满足以下条件：，其中，/>，是一个有界常数；则长期优化模型/>转化为每个时隙下的确定性优化模型/>,在每个时隙/>使得/>的上界最小，即最小化/>；

步骤3、在MEC系统中求取各个时隙用户任意服务器选择下使得最小的最优发射功率/>和服务器资源分配/>；

步骤3.1、给定时，优化模型/>中的/>和/>通过步骤2.1进行计算得到，/>为定值，则每个服务器下的资源分配问题彼此独立；设时隙/>中每个服务器/>下的用户构成集合/>，则确定性优化模型/>转化为/>个并行求解的子模型/>，每一个子模型/>表示为：

为时隙/>内用户/>的能耗，/>为二进制变量，用于表示移动用户的服务器选择情况，/>表示在时隙/>内用户/>由服务器/>提供服务；

步骤3.2、写出子模型的拉格朗日函数/>，约束对应的拉格朗日乘子分别为/>，/>；

步骤3.3、在给定拉格朗日乘子的前提下求解子模型最优；

具体地，给定拉格朗日乘子，然后分别对拉格朗日函数中发射功率和服务器端的资源分配求偏导，令各自的偏导为0，求得给定拉格朗日乘子下的最优资源分配，即发射功率/>和服务器资源分配/>；

步骤3.4、使用次梯度方法更新拉格朗日乘子，为迭代次数，/>、/>和/>分别为大于零的步长，更新拉格朗日乘子更新方法如下：

表示/>，

其中，表示用户/>在时隙/>的卸载数据量，单位为bit；/>表示用户/>在时隙/>需要的CPU周期，单位为cycle；/>表示用户/>在时隙/>允许的最大延迟，单位为s；/>为最大发射功率，/>为MEC服务器的最大计算频率，/>是平均小区干扰，/>是系统噪声，/>是时隙/>中用户/>与服务器/>之间的信道增益，计算如下：

其中，是时隙/>中用户/>与服务器/>之间的距离，是/>参考损耗，/>是路径损耗指数；

步骤3.5、重复步骤3.2-3.4，直至达到最大迭代次数或者用户总能耗收敛，求得给定下的最优发射功率/>与服务器资源分配/>；

步骤4、使用MAPPO算法解决每个时隙下的最优服务器选择，使得Lyapunov漂移的上界最小；

步骤4.1、定义状态空间与动作空间；

每个用户作为一个智能体所能观测到的状态空间为

其中，表示代表时隙/>用户与每个服务器之间的信道状态，每个智能体的动作空间设置为

步骤4.2、定义奖励：将每一智能体的奖励设置为：

步骤5、通过基于MAPPO的强化学习算法获得每个时隙中最小化Lyapunov漂移的最优服务器选择；

具体地，给定最大训练回合数、单个回合中最大时隙数、折扣因子/>、截断系数/>，清空经验缓冲区，采用经验共享策略，所有智能体共享同一套参数，并随机初始化Actor的神经网络参数/>、Critic的神经网络参数/>；

在每个时隙中，每个智能体基于观察到的MEC系统的状态/>，做出各自的服务选择/>，当所有的动作确定后，分别根据步骤2.1和步骤3.1-3.5计算虚拟队列/>以及用户长期总耗能/>，进而根据步骤4.2中计算出相应的奖励/>并进入下一个状态，将/>放入经验缓冲区；

每个回合结束时对智能体进行训练，从经验缓冲区中取出一批数据，更新Actor的神经网络参数、Critic的神经网络参数/>后清空缓冲区；当训练结束时，得到使系统Lyapunov漂移上界最小的最优服务器选择。

所述长期优化模型如下：

约束表示每个用户只能由一个服务器提供服务；

约束表示任意时隙内用户的发射功率不能超过最大发射功率；约束/>表示在任一时隙中服务器分配给所有用户的CPU频率之和不能超过MEC服务器的最大计算频率；

约束表示任务是延迟敏感的，计算卸载花费的总时延不能超过其计算任务的最大计算截止时延；

约束表示长期平均迁移代价需要小于一定值。

所述优化模型具体如下：

约束表示每个用户只能由一个服务器提供服务；

约束表示任务是延迟敏感的，计算卸载花费的总时延不能超过其计算任务的最大计算截止时延。

子模型具体表示为：

所述时隙内用户/>的能耗/>由两部分组成，分别是通信能耗和等待能耗，通过下式计算，

其中，是用户功率放大器的漏极效率，/>是用户/>在时隙/>功率放大器的功率，是电路功率，/>是等待计算结果时的功耗，称之为等待功耗，/>是用户/>在时隙/>的传输时延，/>是用户/>在时隙/>服务器端的计算时延，计算如下，

其中，是每个用户的带宽，/>是用户/>在时隙/>的发射功率，/>是平均小区干扰，是系统噪声，/>是用户/>在时隙/>分得的服务器计算资源，/>是时隙/>中用户/>与服务器/>之间的信道增益。

所述拉格朗日函数表示如下：

其中，表示用户/>在时隙/>的卸载数据量，单位为bit；/>表示用户/>在时隙/>需要的CPU周期，单位为cycle；/>表示用户/>在时隙/>允许的最大延迟，单位为s；/>为最大发射功率，/>为MEC服务器的最大计算频率，/>是平均小区干扰，/>是系统噪声，/>是时隙/>中用户/>与服务器/>之间的信道增益。

所述步骤3.3中对拉格朗日函数中发射功率和服务器端的资源分配求偏导，令各自的偏导为0，结果如下：

。

采用上述方案后，本发明通过Lyapunov框架将长期问题转化为每个时隙下的确定性问题，涉及服务器选择，发射功率和服务器资源分配的优化。首先根据拉格朗日对偶分解得到给定服务器选择下的最优资源分配，然后结合深度强化学习求解服务器选择使得Lyapunov漂移最小，最终使得在长期迁移代价的约束下用户的长期能耗最小。

附图说明

图1为本发明适用的MEC系统示意图；

图2为本发明的方法流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

如图1所示，本发明揭示了一种动态MEC网络中迁移决策和资源分配的联合优化方法，适用于以设备为目标的服务模型。在本发明所应用的MEC系统中存在多个移动用户和多个服务器，用户在多个服务器的覆盖范围内移动，服务器的位置则保持不变。移动用户，服务器/>。MEC系统的时间被划分为等间隔的离散槽，时隙长度为/>。

每个时隙用户都有一个需要卸载的任务，用户本身没有计算能力，需要将任务卸载至边缘服务器进行计算。用户在时隙/>的计算任务由元组/>表征，其中/>表示用户/>在时隙/>的卸载数据量，单位为bit，/>表示该任务需要的CPU周期，单位为cycle，/>表示该任务允许的最大延迟，单位为s。每个用户只能由一个服务器提供服务，而每个服务器能够服务多个用户，用户切换服务器会产生一定的迁移代价。用户的计算任务总能在一个时隙完成。

使用二进制变量来表示移动用户的服务器选择情况，/>表示在时隙/>内用户/>由服务器/>提供服务。使用/>表示用户/>的关联的服务器从/>切换至服务器/>时所产生的迁移代价。若/>，则/>。所以，在时隙/>内所有用户总的服务迁移代价表示为：

关联决策意味着用户/>切换了服务器，即进行了服务迁移，所以迁移策略在用户的服务器选择策略中隐性的表示。

时隙内用户/>的能耗/>由两部分组成，分别是通信能耗和等待能耗，通过下式计算：

其中，是用户功率放大器的漏极效率，/>是用户/>在时隙/>功率放大器的功率，是设备中除功率放大器外其他电路块如混频器、滤波器、本振、D/A转换器等的功率，称为电路功率。/>是等待计算结果时的功耗，称之为等待功耗，/>是用户/>在时隙/>的传输时延，/>是用户/>在时隙/>服务器端的计算时延，计算如下：

其中，是每个用户的带宽，/>是用户/>在时隙/>的发射功率，/>是平均小区干扰，是系统噪声，/>是用户/>在时隙/>分得的服务器计算资源，/>是时隙/>中用户/>与服务器/>之间的信道增益，计算如下：

其中，是时隙/>中用户/>与服务器/>之间的距离，/>是参考损耗，/>是路径损耗指数，/>是MEC服务提供商设置的长期平均迁移代价。任务时延/>是时隙/>中用户/>传输时延和服务器计算时延之和，计算如下：

本发明的目标是在满足长期迁移成本约束的前提下，最小化用户端的长期总能耗。表述为：

约束表示每个用户只能由一个服务器提供服务；约束/>表示任意时隙内用户的发射功率不能超过最大发射功率；约束/>表示在任一时隙中服务器分配给所有用户的CPU频率之和不能超过MEC服务器的最大计算频率/>；约束/>表示任务是延迟敏感的，计算卸载花费的总时延不能超过其计算任务的最大计算截止时延；约束/>表示长期平均迁移代价需要小于一定值。

模型是一个多阶段随机优化模型，和普通优化模型相比多了阶段性与随机性。约束/>使得需要迭代求解每一个时刻期望，但全部时间段的信息无法提前预知。李雅普诺夫(Lyapunov)优化技术为解耦多阶段随机模型提供了一种有效的方法。它不需要任何先验的系统信息，同时以在线的方式保持队列的稳定性。因此，本发明提出了一种结合Lyapunov优化的深度强化学习(Deep Reinforcement Learning, DRL)方法，首先基于Lyapunov优化技术提出了一种在线算法，将原始优化问题转化为一系列实时的最小化模型。然后将每个时隙下依然非凸的问题分解为发射功率与计算资源分配联合优化模型和服务器选择优化模型，并分别提出了基于朗格朗日对偶分解和基于DRL的求解算法。最终在满足长期迁移成本约束的前提下，最小化用户端的长期总能耗。

如图2所示，本发明的优化方法具体包括以下步骤：

步骤1、将该系统中的移动用户、服务器和系统的时间分别标注为，/>和/>。

步骤2、利用Lyapunov框架将长期总能耗优化模型转为每个时隙下的确定性优化模型/>，具体如下：

步骤2.1、引入虚拟队列，用来表示到时隙/>结束时执行的业务迁移超过的成本，也就是迁移成本队列。初始时，队列积压为0，即/>，/>的更新方法如下：

步骤2.2、分别定义二次Lyapunov函数和Lyapunov漂移函数/>如下：

步骤2.3、定义Lyapunov漂移加惩罚函数如下：

其中，为控制参数，/>表示期望。

步骤2.4、根据Lyapunov框架，Lyapunov漂移加惩罚函数满足以下条件

其中，，是一个有界常数；

原多阶段随机优化模型转化为每个时隙下的确定性优化模型/>：

即在每个时隙使得/>的上界最小。

步骤3、在MEC系统中求取各个时隙中任意取值下使得最小的/>和/>，即求解上述模型/>。

此时和/>已知，/>为定值，使用拉格朗日对偶分解计算各种给定服务器选择下的资源分配模型，使得用户总能耗/>最小。

步骤3.1、给定时，每个服务器下的资源分配模型彼此独立，设时隙/>中每个服务器/>下的用户构成集合/>，则模型/>转化为/>个并行求解的子模型，每个子模型表述为/>：

步骤3.2、写出子模型的拉格朗日函数/>，约束对应的拉格朗日乘子分别为/>，/>如下：

步骤3.3、在给定拉格朗日乘子的前提下求解子模型最优。

具体地，给定拉格朗日乘子，然后分别对拉格朗日函数中发射功率和服务器端的资源分配求偏导，令各自的偏导为0，有：

求得给定拉格朗日乘子下的最优资源分配，即发射功率和服务器资源分配/>。

步骤3.4、使用次梯度方法更新拉格朗日乘子，为迭代次数，/>、/>和/>分别为大于零的步长。更新拉格朗日乘子更新方法如下：

表示/>。

步骤3.5、重复步骤3.2-3.4，直至达到最大迭代次数或者用户总能耗收敛，求得给定下的最优发射功率/>与服务器资源分配/>。

步骤4、将服务器选择模型表述为深度强化学习模型，并使用MAPPO算法解决每个时隙下的最优服务器选择，使得Lyapunov漂移的上界最小。

步骤4.1、定义状态空间与动作空间/>：

每个用户作为一个智能体所能观测到的状态空间为

其中，表示代表时隙/>用户与每个服务器之间的信道状态。

每个智能体的动作空间设置为

步骤4.2、定义奖励。

设置奖励可以反映什么行为决定对系统有利。在每个时隙中智能体根据观察结果采取行动并获得奖励，然后进入下一个状态。基于奖励，智能体更新策略，建立从状态到行动的映射。将所有智能体的奖励都设置为：

给定最大训练回合数、单个回合中最大时隙数、折扣因子/>、截断系数/>，清空经验缓冲区，采用经验共享策略，所有智能体共享同一套参数，并随机初始化Actor的神经网络参数/>、Critic的神经网络参数/>。

在每个时隙中，每个智能体基于观察到的MEC系统的状态空间/>，做出各自的服务选择动作空间/>，当所有的动作确定后，分别根据步骤2.1和步骤3.1-3.5计算虚拟队列/>以及用户总耗能/>，进而根据步骤4.2中计算出相应的奖励/>并转换至下一个状态/>，将/>放入经验缓冲区。/>

每个回合结束时对智能体进行训练，从经验缓冲区中取出一批数据，更新Actor的神经网络参数、Critic的神经网络参数/>后清空缓冲区，当训练结束时，得到使系统Lyapunov漂移上界最小化的最优服务器选择。

本发明的关键在于，本发明通过Lyapunov框架将长期问题转化为每个时隙下的确定性问题，先根据拉格朗日对偶分解得到给定服务器选择下的最优资源分配，即用户的发射功率以及服务器端的计算资源分配，然后结合深度强化学习求解服务器选择使得Lyapunov漂移最小，最终使得在长期迁移代价的约束下用户的长期能耗最小。

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，包括以下步骤：

其中，表示用户/>的选择服务器从/>切换至服务器/>时所产生的迁移代价，若，则/>；

步骤2.2、分别定义二次Lyapunov函数和Lyapunov漂移函数如下：

步骤2.3、定义Lyapunov漂移加惩罚函数如下：

其中，为控制参数，/>表示期望；

步骤3.1、给定时，优化模型/>中的/>和/>通过步骤2.1进行计算得到，/>为定值，则每个服务器下的资源分配问题彼此独立；设时隙/>中每个服务器/>下的用户构成集合，则确定性优化模型/>转化为/>个并行求解的子模型/>，每一个子模型/>表示为：

步骤3.3、在给定拉格朗日乘子的前提下求解子模型最优；

表示/>，

步骤4.1、定义状态空间与动作空间；

每个用户作为一个智能体所能观测到的状态空间为

步骤4.2、定义奖励：将每一智能体的奖励设置为：

在每个时隙中，每个智能体基于观察到的MEC系统的状态/>，做出各自的服务选择，当所有的动作确定后，分别根据步骤2.1和步骤3.1-3.5计算虚拟队列/>以及用户长期总耗能/>，进而根据步骤4.2中计算出相应的奖励/>并进入下一个状态/>，将/>放入经验缓冲区；

2.根据权利要求1所述的一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，所述长期优化模型如下：

约束表示每个用户只能由一个服务器提供服务；

约束表示任意时隙内用户的发射功率不能超过最大发射功率；约束/>表示在任一时隙中服务器分配给所有用户的CPU频率之和不能超过MEC服务器的最大计算频率/>；

约束表示长期平均迁移代价需要小于一定值。

3.根据权利要求1所述的一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，所述优化模型具体如下：

约束表示每个用户只能由一个服务器提供服务；

4.根据权利要求1所述的一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，子模型具体表示为：

5.根据权利要求1所述的一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，所述时隙内用户/>的能耗/>由两部分组成，分别是通信能耗和等待能耗，通过下式计算，

其中，是用户功率放大器的漏极效率，/>是用户/>在时隙/>功率放大器的功率，/>是电路功率，/>是等待计算结果时的功耗，称之为等待功耗，/>是用户/>在时隙/>的传输时延，/>是用户/>在时隙/>服务器端的计算时延，计算如下，

其中，是每个用户的带宽，/>是用户/>在时隙/>的发射功率，/>是平均小区干扰，/>是系统噪声，/>是用户/>在时隙/>分得的服务器计算资源，/>是时隙/>中用户/>与服务器/>之间的信道增益。

6.根据权利要求1所述的一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，所述拉格朗日函数表示如下：

7.根据权利要求1所述的一种动态MEC网络中迁移决策和资源分配的联合优化方法，其特征在于，所述步骤3.3中对拉格朗日函数中发射功率和服务器端的资源分配求偏导，令各自的偏导为0，结果如下：

。