CN115877933A

CN115877933A - 一种基于非完全重叠noma的mec系统的长期能耗优化方法

Info

Publication number: CN115877933A
Application number: CN202211503083.7A
Authority: CN
Inventors: 韩思萍; 卢宝山; 林世俊; 石江宏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-31

Abstract

本发明涉及一种基于非完全重叠NOMA的MEC系统的长期能耗优化方法，其在时变信道下，考虑同一个NOMA组中用户异构的时延约束需求，将非完全重叠NOMA‑MEC系统的长期能耗最小化问题转换为每个时隙内的最优资源分配问题，通过设计合理的S_t,A_t,R_t将其转化为DRL问题，并利用SAC算法求解得到接近最优的用户发射功率p_k,j、各传输时段持续时间d_j、MEC服务器的CPU频率分配f_k。对比传统的完全重叠NOMA和TDMA传输方式，本发明所提方案分别平均降低了59.3％和75.5％的总能耗。

Description

一种基于非完全重叠NOMA的MEC系统的长期能耗优化方法

技术领域

本发明涉及MEC系统能耗优化领域，具体涉及一种基于非完全重叠NOMA的MEC系统的长期能耗优化方法，适用于时变信道下且单个分组内包含多个用户的非完全重叠NOMA-MEC系统。

背景技术

随着移动互联网技术的快速发展，各种计算密集型和延迟敏感型应用应运而生。为了满足轻型设备快速增长的低延迟计算需求，提出了移动边缘计算(Mobile EdgeComputing，MEC)，为了提高频谱效率，非正交多址(Non-Orthogonal Multiple Access，NOMA)被广泛应用于MEC系统的任务卸载过程。传统的NOMA-MEC系统研究通常采用完全重叠技术，即一个NOMA组中的用户具有相同的传输时间。然而，在延迟敏感的MEC场景中，同一NOMA组的用户可能具备异构的传输时延要求，这促使学者们提出了非完全重叠的NOMA，令同一个NOMA组中的用户具有不同的传输时间。此外，能耗是MEC系统中一个不可忽略的重要性能指标，而非完全重叠NOMA通过控制用户对资源块的重叠使用程度给系统引入更大的灵活性，有助于降低用户侧的传输能耗，进一步提升系统节能效果。

然而，目前的非完全重叠NOMA-MEC研究大多只关注了非完全重叠NOMA传输过程的资源优化，而实际上MEC服务器的计算资源通常不是无限的，且都是面向静态场景的单次资源分配优化，未能表征MEC系统的长期计算卸载性能。因此，在时变信道下，满足同一NOMA分组内多个用户异构的延迟约束需求，基于非完全重叠NOMA传输方案，联合考虑用户端任务传输过程和MEC服务器端任务处理过程，研究如何分配通信及计算资源以最小化的MEC系统长期能耗十分重要。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于非完全重叠NOMA的MEC系统的长期耗能优化方法，其考虑时变信道，在满足同一NOMA分组内多个用户异构延迟约束的前提下，通过合理设计状态空间函数、动作函数、奖励函数、约束惩罚函数，利用SAC算法联合优化了通信和计算资源分配，实现MEC系统的长期能耗最优化。

为实现上述目的，本发明采用的技术方案是：

一种基于非完全重叠NOMA的MEC系统的长期能耗优化方法，所述优化方法包括以下步骤：

步骤1、在MEC系统中放置一组用户U＝{u_k,1≤k≤K}和一个配备了MEC服务器的BS，令所有用户共同构成一个NOMA分组，将时间分割为多个时隙，并标注为t＝{1,2,…,T}，每个时隙长度为τ；

步骤2、在每个时隙t内，基于各用户在该时隙的任务的最大计算截止时延对它们进行排序，即

步骤3、求取时隙t中用户u_k在其各个可用传输时段内的传输速率，并列出其在任务传输过程中应满足的约束；

(1)时隙t中用户u_k在传输时段j内的传输速率r_k,j(t)表示为：

其中，B为上行蜂窝信道带宽，n₀为信道噪声功率谱密度，p_k,j(t)为用户u_k在传输时段j中的发射功率，g_k(t)为u_k在时隙t的信道增益；U_j(t)表示时隙t中在传输时段j内进行传输的用户的集合，u_k'表示在传输时段j内传输且信道增益比u_k差的用户，

为用户u_k在传输时段j内受到的来自其他用户的干扰之和；

(2)约束C₁：为了确保用户u_k在其最后的可用传输时段结束时能够完成卸载，其卸载传输的总数据量不能小于其计算任务比特数L_k(t)；

(3)约束C₂：用户u_k在它的任一可用传输时段内的发射功率都不超过其自身最大发射功率

步骤4、求取时隙t中用户u_k在其可用传输时段内产生的传输能耗；

将用户u_k在时隙t中的传输能耗表示为在其所有可用传输时段内产生的能耗总和，则用户u_k在时隙t中的总传输能耗可表示为：

其中，

表示用户u_k在传输时段j中产生的传输能耗，d_j(t)为传输时段j的长度；

步骤5、求取BS上的MEC服务器处理用户u_k在时隙t中的任务所需的计算时间和相应的计算能耗，并列出在MEC服务器上处理用户任务应满足的约束条件；

(1)将BS在时隙t中分配给用户u_k的CPU频率表示为f_k(t)，则在MEC服务器上处理u_k的计算任务所需的计算时间及产生的计算能耗表示为：

其中，C_k(t)表示计算单位比特用户u_k在时隙t中的计算任务所需的CPU周期数，κ是取决于MEC服务器硬件架构的常数；

(2)约束C₃：考虑到MEC服务器的计算资源通常有限，在任一时隙中分配给所有用户的CPU频率之和不能超过其最大计算频率F_max；

(3)约束C₄：用户u_k的任务计算卸载花费的总时间不能超过其计算任务的最大计算截止时延

步骤6、考虑时变信道，在非完全重叠NOMA-MEC系统中通过联合优化用户发射功率、各可用传输时段持续时间、计算资源分配，实现系统长期能耗最小化，并将该优化问题描述为P1；

首先，将非完全重叠NOMA-MEC系统在时隙t中的整体能耗表示为用户端的传输能耗与MEC服务器端的计算能耗的加权和E_total(t)，

其中ω是权重因子，表示用户端传输能耗的权重值。

将非完全重叠NOMA-MEC系统的长期能耗用其在所有时隙内产生的能耗总和平均值来表示，则非完全重叠NOMA-MEC系统在一段时间T内的长期能耗最优化问题可表示为P1：

步骤7、将每个时隙内非完全重叠NOMA-MEC系统的通信及计算资源分配问题重新表述转化为一个深度强化学习问题；

(1)定义状态空间：将时隙t的状态空间定义为上一个时隙t-1的奖励函数，则有：S_t＝R_t-1；

(2)定义动作空间：智能体在时隙t的动作包括每个用户在其各自每个可用传输时段内的发射功率p_k,j(t)、非完全重叠NOMA各传输时段的持续时间d_j(t)和MEC服务器的CPU频率分配f_k(t)，那么时隙t的动作空间定义为：

A(t)＝[p_1,1(t),…,p_k,j(t),…,p_K,K(t)；d₁(t),…,d_K(t)；f₁(t),…,f_K(t)]；

(3)设计奖励函数：奖励函数应与系统能耗、约束条件有关，强化学习的目标是最大化奖励(即使系统能耗与违反约束惩罚的总和最小化)，将智能体在时隙t获得的即时奖励R_t定义为：

R_t＝exp(4*(-E_total(t)))-(β₁+β₂+β₃+β₄)

其中，β₁,β₂,β₃,β₄分别表示在时隙t内若违反约束C₁，约束C₂，约束C₃，约束C₄相应会产生的惩罚值；

步骤8、通过基于SAC的DRL算法学习获得每个时隙t中该非完全重叠NOMA-MEC系统的接近最优通信及计算资源分配。

所述步骤8具体如下：

给定最大训练回合数Γ、单个回合中最大时隙数T、折扣因子γ、软复制因子ζ、最小训练样本数|Z|，清空经验缓冲区，并随机初始化actor的神经网络参数

critic的主神经网络参数θ_i(i＝1,2)，初始化critic的目标神经网络参数/>

将非完全重叠NOMA-MEC系统整体看作环境，在每个时隙t中，SAC智能体基于观察到的非完全重叠NOMA-MEC系统的当前状态S_t，做出相应的如步骤7.(2)中所设计的通信及计算资源分配决策A_t，而环境将会对动作A_t做出反馈，根据步骤7.(3)中设计的奖励函数计算出相应的即时奖励R_t并转换至下一个状态S_t+1，将(S_t,A_t,R_t,S_t+1)作为一组历史经验数据存放到经验缓冲区；

当经验缓冲区中的历史经验数据量大于最小训练样本数|Z|时，抽取一组数量大小为|Z|的经验样本训练更新SAC算法的相关参数：θ_i(i＝1,2)、

ζ，当Γ个回合训练结束后，SAC智能体将输出actor网络的最优DNN权重系数/>

得到使系统长期能耗最小化的最优用户发射功率、最优的各传输时段的持续时间分配、最优计算资源分配。

所述步骤3中，约束C₁和约束C₂分别表示如下：

所述步骤5中，约束C₃和约束C₄分别表示如下：

所述步骤7中，β₁,β₂,β₃,β₄分别表示如下：

采用上述方案后，本发明在时变信道下，考虑同一个NOMA组中用户异构的时延约束需求，将非完全重叠NOMA-MEC系统的长期能耗最小化问题转换为每个时隙内的最优资源分配问题，通过设计合理的S_t,A_t,R_t将其转化为DRL问题，并利用SAC算法求解得到接近最优的用户发射功率p_k,j、各传输时段持续时间d_j、MEC服务器的CPU频率分配f_k。对比传统的完全重叠NOMA和TDMA传输方式，本发明所提方案分别平均降低了59.3％和75.5％的总能耗。

附图说明

图1为MEC系统基于本发明所考虑的非完全重叠NOMA传输方式、完全重叠NOMA、TDMA这三种不同传输方式时SAC算法所获得的平均奖励；

图2为本发明(非完全重叠NOMA-MEC)与完全重叠NOMA-MEC、TDMA-MEC在每个用户的卸载数据总量变化下的长期能耗对比；

图3为本发明(非完全重叠NOMA-MEC)与完全重叠NOMA-MEC、TDMA-MEC在单个时隙的长度变化下的长期能耗对比。

具体实施方式

本发明揭示了一种用于时变信道下且单个分组内包含多个用户的非完全重叠NOMA-MEC系统的通信及计算资源分配的优化方法，应用场景是上行链路，包含一个配备了MEC服务器模块的BS(基站)和一组用户U＝{u_k,1≤k≤K}，以优化系统长期能耗为目标，考虑用户异构的时延约束，令所有用户构成一个NOMA分组，共用一个蜂窝信道进行传输。时间被分割为多个时隙，并标注为t＝{1,2,…,T}，每个时隙长度为τ。

在每个时隙内，每个用户都有一个不可分割且时延敏感的计算任务，令用户采用非完全重叠NOMA传输方式将计算任务卸载至BS上的MEC服务器进行处理，并根据用户任务的最大计算截止时延升序来调度用户完成卸载的顺序，即

并根据此排序为各个用户分配相应的非完全重叠NOMA可用传输时段。BS通过应用基于信道增益的SIC技术解码各个传输时段中来自用户的叠加信号，为各个用户分配了不同的计算频率，并行处理它们卸载的计算任务，并产生相应的计算能耗。

本系统考虑的是时变信道模型，将时隙t中用户u_k到BS的信道增益g_k(t)表示为

其中l_k为用户u_k到BS的路径距离，α为路径损耗因子。

是大尺度衰落系数，在所有时隙内保持不变；|ε_k(t)|²是小尺度衰落系数，在一个时隙内保持不变，但在不同时隙中变化，ε_k(t)可表示为

其中，

为不同时隙之间的信道相关系数，ε_k(0)服从均值和单位方差为0的复高斯分布；v_k(t)是一个独立同分布随机变量，服从均值为0、方差为/>

的复高斯分布。

本系统基于MEC服务器的计算资源通常不是无限的这一实际情况，同时考虑了系统中用户端的任务传输过程和MEC服务器端的任务计算过程，在每个时隙t中对系统的通信及计算资源进行优化分配，系统能耗主要包含两个部分：

(1)用户端卸载任务数据所产生的用户传输能耗：

其中p_k,j(t)≥0为用户u_k在传输时段j中的发射功率，d_j(t)＞0为传输时段j的长度。

(2)MEC服务器端处理用户任务所产生的计算能耗：

其中κ是取决于MEC服务器硬件架构的常数，f_k(t)＞0表示BS在时隙t中分配给用户u_k的CPU频率，C_k(t)表示计算单位比特用户u_k在时隙t中的计算任务L_k(t)所需的CPU周期数。

权重因子ω代表用户端传输能耗的权重值，将用户端传输能耗和MEC服务器端计算能耗的加权和作为时隙t中产生的系统总能耗。具体可表示为：

将非完全重叠NOMA-MEC系统的长期能耗用其在所有时隙内产生的能耗总和平均值来表示，因此整个系统的长期能耗可以计算为，

非完全重叠NOMA-MEC系统在一段时间T内的通信及计算资源分配问题可表示为P1：

var.p_k,j≥0,d_j＞0,f_k＞0.

其中，约束C₁表示用户u_k在其所有的可用传输时段内卸载传输的总数据量不能小于其计算任务比特数L_k(t)，其中r_k,j表示时隙t中用户u_k在传输时段j内的传输速率，计算为

其中，B为上行蜂窝信道带宽，n₀为信道噪声功率谱密度，p_k,j(t)≥0为用户u_k在传输时段j中的发射功率，g_k(t)为u_k在时隙t的信道增益。U_j(t)表示时隙t中在传输时段j内进行传输的用户的集合，u_k'表示在传输时段j内传输且信道增益比u_k差的用户，

为用户u_k在传输时段j内受到的来自其他用户的干扰之和。约束C₂表示用户u_k在它的任一可用传输时段内的发射功率都不超过其自身最大发射功率/>

约束C₃表示在任一时隙中BS分配给所有用户的CPU频率之和不能超过MEC服务器的最大计算频率F_max。约束C₄表示用户u_k的任务计算卸载花费的总时间不能超过其计算任务的最大计算截止时延。/>

显然，问题P1是一个多用户多变量紧耦合的非凸问题，且考虑了时变信道，因此我们将每个时隙内非完全重叠NOMA-MEC系统的通信及计算资源的分配决策表述为一个DRL问题，通过合理设计状态空间函数、动作函数、奖励函数、约束惩罚函数，并利用SAC算法联合优化了用户发射功率p_k,j、各传输时段持续时间d_j、MEC服务器的CPU频率分配f_k，从而实现系统长期能耗最小化的目标。

本发明的优化方法具体包括以下步骤：

步骤1、在系统中放置一组用户U＝{u_k,1≤k≤K}和一个配备了MEC服务器的BS，将时间分割为多个时隙，并标注为t＝{1,2,…,T}；

(1)时隙t中用户u_k在传输时段j内的传输速率r_k,j(t)可表示为：

(2)约束C₁：为了确保用户u_k在其最后的可用传输时段结束时能够完成卸载，其卸载传输的总数据量不能小于其计算任务比特数L_k(t)，

其中，

表示用户u_k在传输时段j中产生的传输能耗，d_j(t)＞0为传输时段j的长度。

(1)f_k(t)＞0表示BS在时隙t中分配给用户u_k的CPU频率，则在MEC服务器上处理u_k的计算任务所需的计算时间及产生的计算能耗可表示为：

(2)约束C₃：考虑到MEC服务器的计算资源通常有限，在任一时隙中分配给所有用户的CPU频率之和不能超过其最大计算频率F_max，

(3)约束C₄：用户u_k的任务计算卸载花费的总时间不能超过其计算任务的最大计算截止时延，

步骤6、考虑时变信道，将非完全重叠NOMA-MEC系统在时隙t中的整体能耗E_total(t)表示为用户端的传输能耗与MEC服务器端的计算能耗的加权和，将系统的长期能耗E_total用其在所有时隙内产生的能耗总和平均值来表示，得到非完全重叠NOMA-MEC系统在一段时间T内的长期能耗最优化问题P1；

步骤7、将每个时隙内非完全重叠NOMA-MEC系统的通信及计算资源分配问题重新表述转化为一个深度强化学习问题(DeepReinforment Learning，DRL)；

(1)定义状态空间(State)：将时隙t的状态空间定义为上一个时隙t-1的奖励函数，则有：S_t＝R_t-1；

(2)定义动作空间(Action)：智能体在时隙t的动作包括每个用户在其各自每个可用传输时段内的发射功率p_k,j(t)、非完全重叠NOMA各传输时段的持续时间d_j(t)和MEC服务器的CPU频率分配f_k(t)，那么时隙t的动作空间定义为：

(3)设计奖励函数(Reward)：奖励函数应与系统能耗、约束条件有关，强化学习的目标是最大化奖励(即使系统能耗与违反约束惩罚的总和最小化)，将智能体在时隙t获得的即时奖励R_t定义为：

R_t＝exp(4*(-E_total(t)))-(β₁+β₂+β₃+β₄)

其中，β₁,β₂,β₃,β₄分别表示在时隙t内若违反约束C₁，约束C₂，约束C₃，约束C₄相应会产生的惩罚值，具体可分别表示如下：

/>

步骤8、通过基于SAC的DRL算法学习获得每个时隙t中该非完全重叠NOMA-MEC系统的接近最优通信及计算资源分配；

得到使系统长期能耗最小化的最优用户发射功率、最优传输时段的持续时间分配、最优计算资源分配。

为了评估本发明性能，进行以下仿真，仿真参数设置为：用户均匀分布在半径为300m的小区中，权重因子ω设置为0.5，用户的最大计算截止时延在[τ-200ms,τ]中随机生成，其中τ表示每个时隙的长度，单位为ms，其他参数如表1所示。

表1仿真参数

在仿真中，将用户个数、每个用户的任务数据量L_k、单个时隙长度τ分别设置为5、140knats、400ms。为了比较，在SAC算法的actor网络学习率、critic网络学习率、最小训练样本数设置不变的情况下，分别基于完全重叠NOMA、TDMA传输方式进行训练。图1展示了基于非完全重叠NOMA、完全重叠NOMA、TDMA这三种不同传输方式时SAC算法所获得的平均奖励，从图1可以看出相比于完全重叠NOMA和TDMA，非完全重叠NOMA能够得到更高的平均奖励，这是因为非完全重叠NOMA传输方式在频谱复用的同时还考虑了各用户异构的低时延需求，能够更为灵活地调整频谱复用程度从而达到更好的节能效果。图2、图3比较了在用户任务数据量、单个时隙长度变化时，基于这三种不同传输方式所产生的系统长期能耗，在每个点上，都取30个实验回合中的平均能耗值，每个回合包含20个时隙。从图2、图3中，我们首先可以看出随着用户任务数据量的增加或单个时隙长度的减小，在这三种传输方式下产生的系统能耗都会增大，这是由于当用户任务数据量越大或用户任务时延约束越严格时，用户端的传输能耗会更多，MEC服务器也需要分配更多的计算频率来处理各用户任务从而产生更大的计算能耗，最终导致系统整体能耗增大。其次，相比于完全重叠NOMA、TDMA，基于非完全重叠NOMA传输方式分别可平均降低59.3％、75.5％的能耗。

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。