CN117793805B

CN117793805B - 动态用户随机接入的移动边缘计算资源分配方法与系统

Info

Publication number: CN117793805B
Application number: CN202410212234.6A
Authority: CN
Inventors: 陈继胜
Original assignee: Xiamen Yushukang Information Technology Co ltd
Current assignee: Xiamen Yushukang Information Technology Co ltd
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-04-26
Anticipated expiration: 2044-02-27
Also published as: CN117793805A

Abstract

本发明属于工业互联网技术领域，涉及动态用户随机接入的移动边缘计算资源分配方法与系统。本发明将资源分配策略转化为一个马尔可夫决策过程，降低边缘系统用户的延迟，在马尔可夫决策过程中定义状态、动作和奖励函数，利用深度强化学习模型确定资源分配策略，利用DDPG算法对深度强化学习模型进行训练，利用训练后的深度强化学习模型确定移动边缘计算系统的计算任务处理时延和用户本地计算成本最小的资源分配策略，提升了边缘计算系统的计算任务处理效率。

Description

动态用户随机接入的移动边缘计算资源分配方法与系统

技术领域

本发明属于工业互联网技术领域，具体而言，涉及动态用户随机接入的移动边缘计算资源分配方法与系统。

背景技术

随着技术的进步和移动设备在新兴的第五代(5G)网络中的普及，人脸识别、图像/视频处理、交互式游戏和增强现实等应用导致了数据流的爆炸式增长，这些应用程序通常是资源密集型的，无线网络边缘产生的大量数据汇聚到核心网络中，现有的无线网络架构很难在移动设备上运行。考虑到物理尺寸和经济限制，当前的用户受到计算资源和能量的限制。在无线网络边缘产生的大量数据将汇聚到核心网络中，给现有的无线网络架构带来了前所未有的挑战，尽管将这些计算密集型的应用程序卸载到云中可以部分解决这个问题，但这个解决方案不能很好地适用于对延迟敏感的应用程序。

传统的时隙系统方案中，用户在某个时隙内产生的任务必须等待所有用户的任务处理完毕后，才能一起释放资源来处理下一个时隙的任务，从而导致新的时隙任务被释放，在此等待期间产生的任务处于等待状态，这大大降低了用户体验和需求。

针对当前移动边缘计算（Mobile Edge Computing, 简称MEC）系统中的资源分配策略问题，该问题考虑了边缘服务器上用户的动态访问，并引入了影响边缘服务器工作负载的动态变化因素，例如分流策略、分流比例、用户发射功率、服务器预留容量等，但仅仅凭借上述因素无法解决移动边缘计算系统计算任务处理时延和用户本地计算成本问题，边缘计算系统的计算任务处理效率有待提高。

发明内容

为了解决上述技术问题，本发明提供动态用户随机接入的移动边缘计算资源分配方法与系统。

第一方面，本发明提供动态用户随机接入的移动边缘计算资源分配方法，包括：

建立马尔可夫决策模型，定义马尔可夫决策模型中的状态空间、动作空间与奖励函数，将奖励函数表征为状态空间与动作空间的映射关系；状态空间用于表征用户状态与边缘服务器状态；动作空间用于决定每个时隙内资源分配策略；奖励函数用于评价动作空间对于状态空间产生的效果；资源分配策略包括给新接入的任务分配边缘计算节点、确定卸载到边缘计算服务器的计算比例、分配计算资源和卸载任务时候的发送功率，以及给下个时隙预留计算资源；

构建资源分配策略的目标函数；

根据资源分配策略的目标函数，确定奖励函数的表达式；

根据用户状态与边缘服务器状态，确定初始的资源分配策略；

根据初始的资源分配策略，计算奖励；

调整资源分配策略，使得奖励满足设定条件，将初始的资源分配策略与调整后奖励满足设定条件的资源分配策略作为样本；

构建深度强化学习模型，将初始的资源分配策略作为深度强化学习模型的输入，将奖励满足设定条件的资源分配策略作为深度强化学习模型的输出；

利用样本对深度强化学习模型进行迭代训练，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构；

获取当前用户状态与边缘服务器状态，确定当前资源分配策略；

将当前资源分配策略输入至深度强化学习模型，确定目标网络结构的参数，得到目标资源分配策略。

第二方面，本发明提供基于所述动态用户随机接入的移动边缘计算资源分配方法的移动边缘计算资源分配系统，包括若干个边缘服务器和若干个用户；

边缘服务器部署在接入点处，用户通过无线链路将计算任务的一部分卸载到本地计算，或者将计算任务的一部分卸载到边缘服务器计算，边缘服务器通过反馈链接将计算结果返回给用户；

系统带宽划分为多个正交子通道，每个子通道分配一个用户；每个用户随机产生计算任务并在产生计算任务所在时隙接入到边缘服务器；

边缘服务器构建边缘服务器系统模型，采用任务随机到达和实时动态处理的方式，当需要同时卸载多个任务时，边缘服务器根据时变的系统条件、任务的异构性和整个系统的能量开销来分配系统中的频谱和计算资源；

当结束前一个时隙的计算任务时，如果有新计算任务到达，边缘服务器立即释放前一个时隙处理占用的资源，处理新到达的任务。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，构建资源分配策略的目标函数，包括：

根据用户发射功率确定从用户到边缘服务器上的无线链路的上行传输数据速率；

根据用户的计算能力与边缘服务器的计算能力，确定用户本地计算时间；

计算边缘服务器的上行链路传输时间，确定用户的总时延，确定整个边缘计算系统中所有用户的总时延；

根据用户本地计算时间与所有用户的总时延，确定整个边缘系统所有用户的总时延；

根据整个边缘系统所有用户的总时延，构建资源分配策略的目标函数。

进一步，根据用户发射功率确定从用户到边缘服务器上的无线链路的上行传输数据速率，包括：

设边缘服务器信道的带宽为，/>是噪声功率，/>是信道内其他用户造成的干扰，/>是时隙/>用户/>到边缘服务器之间的信道增益，/>是用户发射功率的向量，边缘服务器为/>，则从用户到边缘服务器/>上的无线链路上行传输数据速率为，则:

。

进一步，根据用户的计算能力与边缘服务器的计算能力，确定用户本地计算时间，包括：

设用户的计算能力为，边缘服务器的计算能力为/>，用户本地计算时间为/>，各自地在每个时间隙，任务随机产生的，服从均匀分布，用户的第/>个任务为，任务计算量为/>，则用户本地计算时间为：

，各自地在每个时间隙，任务随机产生的，服从均匀分布，用户的第/>个任务为/>，则用户本地计算时间为：

。

进一步，计算边缘服务器的上行链路传输时间，确定用户的总时延，确定整个边缘计算系统中所有用户的总时延，包括：

设上行链路传输时间为，/>为任务数据量，/>代表用户在边缘服务器上的任务的卸载比例，/>为通信速率，/>为服务器，则：

；

设分配的计算能力为，用户的总时延为/>，/>为MEC服务器计算时间，/>为任务上传时间，/>为任务数据量，/>为任务计算量，/>为边缘服务器计算能力，则：

；

设所有用户的总时延为，/>表示用户计算任务的卸载向量，/>代表本地卸载，用户本地计算时间为/>，用户的计算能力为/>，/>为最大用户数量，则：

。

进一步，利用DDPG算法对深度强化学习模型进行迭代训练，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构参数，包括：

设置超参数：设折扣因子为,Actor网络的学习率为/>，Critic网络的学习率为；

初始化Actor在线网络参数和Critic在线网络参数;设为Actor目标网络参数，/>为Actor在线网络参数，/>为Critic目标网络参数，/>为Critic在线网络参数，经验回放集合为/>，Actor目标网络参数/>，Critic目标网络参数/>，清空经验回放集合;

随机初始化环境,观察环境初始状态，设环境初始状态为，环境状态为/>，为用户初始状态，/>为服务器初始状态，/>为信道干扰初始状态，;时隙编号为/>，/>为时隙编号的最大值，/>;/>为当前时隙的用户状态，/>为当前时隙的服务器状态，/>为当前时隙的信道干扰状态；

设为动作估计，/>为白噪声，动作为/>，训练次数为/>的环境状态为，/>为下一时隙的用户状态，/>为下一时隙的服务器状态，/>为下一时隙的信道干扰状态，下一时隙的奖励为/>，/>表示用户的任务卸载服务器选择，表示定用户任务卸载比例，/>表示用户/>的任务发送功率，边缘服务器给用户任务分配的计算能力用矩阵/>表示；在Actor在线网络基于环境状态/>得到动作;

对环境执行动作;

得到状态，奖励为/>；

将四元组存放到经验回放集合，设经验回放集合为D；

设样本数量为m，从经验回放集合D随机取m个样本数据；

设为均方差损失函数，/>为当前奖励，/>为当前状态，/>为当前状态、动作的评价，计算均方差损失函数/>，通过神经网络的梯度反向传播来更新所有Critic在线网络参数/>；

设为评价函数，则/>，通过深度强化学习模型的梯度反向传播来更新所有Actor在线网络参数/>；

更新目标网络参数:,/>，/>为更新系数。

进一步，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构，该网络结构包括Actor在线网络、Actor目标网络、Critic在线网络与Critic目标网络；

设Actor在线网络为，策略网络参数为/>，环境状态为/>，动作为/>，动作估计为/>，下一时隙的环境状态为/>，下一时隙的奖励为/>，Actor在线网络用于策略网络参数/>的迭代更新，负责根据当前的环境状态/>选择当前动作，和环境交互生成/>与/>；

设Actor目标网络为，下一时隙的动作为/>，最优下一时隙的动作为，Actor目标网络用于根据经验回放池中采样的下一时隙的状态/>选择最优下一时隙的动作/>，Actor目标网络参数/>定期从/>复制；

设Critic在线网络为，价值网络参数为/>，目标/>值为/>，Critic在线网络用于价值网络参数/>的迭代更新，计算当前/>值，目标/>值，；

设为奖励预测，Critic目标网络用于计算目标/>值中的部分；网络参数/>定期从/>复制。

进一步，Critic在线网络的损失函数为均方误差，设Critic在线网络的损失函数为，/>为当前奖励，/>为当前状态，动作为/>，/>为当前状态、动作的评价，/>为时隙编号的最大值，则：

；

设Actor在线网络的损失函数为，则：

。

进一步，设为当前延时门限，/>为当前延时和，奖励函数为/>，则：

。

本发明的有益效果是：本发明将服务器选择问题转化为一个马尔可夫决策过程，满足低边缘系统用户的延迟要求，在马尔可夫决策过程中定义状态、动作和奖励函数，利用深度强化学习模型对边缘服务器进行选择，利用DDPG算法对深度学习模型进行训练，利用训练后的深度强化学习模型确定移动边缘计算系统的计算任务处理时延和用户本地计算成本最小的用户的资源分配策略，提升了边缘计算系统的计算任务处理效率。

附图说明

图1为本发明实施例1提供的动态用户随机接入的移动边缘计算资源分配方法的原理图；

图2为网络结构的示意图；

图3为深度强化学习模型的收敛性仿真图；

图4为本发明实施例2提供的时隙系统原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

作为一个实施例，如附图1所示，为解决上述技术问题，本实施例提供动态用户随机接入的移动边缘计算资源分配方法，包括：

构建资源分配策略的目标函数；

根据资源分配策略的目标函数，确定奖励函数的表达式；

根据初始的资源分配策略，计算奖励；

在实际应用过程中，由于环境的变化，边缘服务器的任务特征和计算能力可能是时变的。设计算任务为，计算任务的一部分为/>，边缘服务器为/>，为了计算任务，用户通过无线链路将任务/>的一部分/>卸载到边缘服务器/>，其中。所有的边缘服务器/>通过专用的反馈链接将计算结果返回给用户。

可选的，构建资源分配策略的目标函数，包括：

可选的，根据用户发射功率确定从用户到边缘服务器上的无线链路的上行传输数据速率，包括：

。

可选的，根据用户的计算能力与边缘服务器的计算能力，确定用户本地计算时间，包括：

。

可选的，计算边缘服务器的上行链路传输时间，确定用户的总时延，确定整个边缘计算系统中所有用户的总时延，包括：

；

。

在实际应用过程中，在时隙下的控制决策，为同时保障任务处理时延和计算成本，对于边缘服务器协同计算系统，设/>为约束函数时间长度，/>为是用户的优先级系统，为任务的最大可容忍时间，目标函数为：

。

设奖励函数为。

设约束表示用户的卸载服务器，假设用户的计算任务只能选择一个服务器，约束/>表示用户的计算任务的卸载向量，约束/>与约束/>表示上行链路功率的约束，约束/>决定计算资源分配策略，/>表示用户/>选择服务器/>，/>为用户最大发送功率，则目标函数的约束条件为：

；

。

我们需要在每个时隙中找到卸载决策向量，决定卸载给哪个服务器、卸载多少给哪个边缘服务器、用户的发射功率、配置上行链路功率影响速率，从而导致影响时延。在给定的时延约束下，通过调节卸载策略，使系统的整体时延成本最小化。

将服务器选择问题表述为一个马尔可夫决策过程，然后，设计了一个基于深度强化学习模型，将最小化服务延迟问题看作一个马尔可夫决策过程。首先，在马尔可夫决策过程中定义状态、动作和奖励函数。

在马尔可夫决策过程模型中，智能体通过一系列动作与称为环境的外部世界进行交互。在每个时隙，智能体都会观察是否有新的用户接入、是否有新的任务产生。如果有新的计算任务产生，智能体会收集环境信息，如边缘服务器计算节点的可分配计算能力、已经接入服务的用户的发送数据功率环境状态并采取行动等，然后智能体采取相关动作，决定任务卸载到哪个服务器、卸载比例、发送功率。作为动作的结果，环境做出相应的改变并转移到下一个状态。同时，智能体收到环境产生的奖励。智能体将继续这个过程，并在每次操作后获得累积奖励。智能体通过采取适当的行动来最大化累积的奖励。在实际应用过程中，选择其中一台边缘服务器作为智能体，并负责服务器的选择，而边缘服务器系统中的其他一切都是环境，代理维护描述环境的状态。每次代理采取行动（即为用户选择服务器）时，它都会收到奖励（即与成本相反）并进入新状态。

对在马尔可夫决策过程模型中的状态空间、动作空间和奖励函数进行描述，具体如下：

状态空间：马尔可夫决策过程模型中的状态空间是一个反映环境的空间，其由用户状态和边缘计算服务器状态组成；用户状态即用户状态。

状态空间由表示，其中，用户状态表示为：，/>代表边缘系统能容纳的最大用户数。

用户状态：第个用户的状态特征表示为：

；

其中，/>是计算负载，即完成任务/>所需的计算量，/>是/>时刻用户任务的数据量（以比特为单位），/>表示用户的最大发射功率，/>是任务的最大可容忍时间，/>是用户/>的优先级系统，由设备类型、用户的紧急/重要程度来决定，/>越大，表示事情越紧急，比如：当用户/>没有接入或者接入但没有新计算任务产生的时候，，/>，/>，/>。

边缘计算服务器状态：用特征表示为。其中，表示边缘服务器/>的计算能力，/>表示边缘服务器/>在时隙/>能给用户提供的计算能力，/>表示边缘服务器/>在时隙/>时已经分配其他任务的计算能力，则。

环境用户发送数据时对其他用户的干扰。

动作空间：智能体的目标是映射状态空间到行动空间。

具体的，智能体负责决定每个时隙内各种用户的卸载策略。设卸载策略为，，分为四个部分：

（1）表示用户的任务卸载服务器选择。假设用户/>的任务只能选择一个服务器，则：

；

其中，；

（2）表示定用户任务卸载比例。

，/>表示用户/>数据和计算任务上传到边缘计算服务器的比例，例如：当/>，表示用户/>的任务在本地完成，当表示用户/>的任务不在本地完成。

设表示用户任务发送功率，则：

；

（3）表示用户/>的任务发送功率，设/>表示任务最大发送功率，则；

（4）设边缘服务器给用户任务分配的计算能力用矩阵表示:

；

满足下面2个条件：

(1)，其中/>表示边缘服务器为未来任务预留的计算能力，通过有无预留来仿真对比，如一组数据/>，另外一组正常训练；

(2),/>表示用户/>获得计算能力。

奖励空间：奖励是状态和动作的函数，衡量智能体在给定的状态采取的行动的效果。一般来说，网络奖励函数与目标函数有关。为最小化整个 MEC系统的延迟，强化学习实现的目标是最大累积折扣奖励。在训练阶段，一旦选择了动作，相应的奖励将在时隙返回给智能体。根据收到的奖励，智能体都会更新其策略以指向最优策略，即在不同环境状态下选择的动作总是具有高奖励的策略。将返回给智能体的奖励表示为/>。

由于奖励将智能体引导到其最佳策略，且该策略直接决定了对应边缘服务器的关联和资源分配决策，奖励函数应根据最优化目标进行设计。

作为一种可选的实施方式，设为当前延时门限，/>为当前延时和，奖励函数为/>，则：/>

。

当奖励函数为的时候，系统优化目标函数尽量降低服务延迟，提高满足延迟合格的任务比例。

通过构建深度强化学习模型确定资源分配策略。

当FC（Full Connection，全连接层）层数达到3层时，结果开始收敛。因此，在实际应用过程中设置3作为FC层的数量。深度强化学习模型的结构中有两个参数：隐藏状态的维数和FC层的数量。我们将隐藏状态的维数设置为16，FC层数设置为3；同时我们还确定了所使用的历史信息量，仿真显示了历史信息量的影响，可以看出，当历史信息量增加时，由于更多的历史信息将被用于学习，性能会得到提高（即成本下降），然而，历史信息量达到20之后的性能改善减弱。考虑到使用更大的历史信息量的复杂性增加，如较低的训练效率和较高的过拟合风险，一般的，将历史信息量设置为20。

可选的，利用DDPG算法对深度强化学习模型进行迭代训练，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构参数，包括：

初始化Actor在线网络参数和Critic在线网络参数;设为Actor目标网络参数，为Actor在线网络参数，/>为Critic目标网络参数，/>为Critic在线网络参数，经验回放集合为/>，Actor目标网络参数/>，Critic目标网络参数/>，清空经验回放集合;

设为动作估计，/>为白噪声，动作为/>，训练次数为/>的环境状态为，/>为下一时隙的用户状态，/>为下一时隙的服务器状态，/>为下一时隙的信道干扰状态，下一时隙的奖励为/>，/>表示用户的任务卸载服务器选择，表示定用户任务卸载比例，/>表示用户/>的任务发送功率，边缘服务器给用户任务分配的计算能力用矩阵/>表示；在Actor在线网络基于环境状态/>得到动作/>;

对环境执行动作;

得到状态，奖励为/>；

将四元组存放到经验回放集合，设经验回放集合为D；

设样本数量为m，从经验回放集合D随机取m个样本数据；

更新目标网络参数:,/>，/>为更新系数。

获得的训练数据是时间相关的，这往往导致深度强化学习模型训练中收敛较慢或不收敛。为了解决这个问题，采用一种称为经验重放的方法，通过打破训练数据中的时间相关性来加快收敛速度。具体来说，从训练数据集中随机抽取一定数量（即回放记忆）的训练数据，形成一个小批量，并对该小批量进行梯度下降算法，更新深度强化学习模型的参数；重复小批量选择和参数更新过程，直到训练收敛。

可选的，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构，如附图2所示，该网络结构包括Actor在线网络、Actor目标网络、Critic在线网络与Critic目标网络；

设Critic在线网络为，价值网络参数为/>，目标/>值为/>，Critic在线网络用于价值网络参数/>的迭代更新，计算当前/>值，目标/>值，/>；

可选的，Critic在线网络的损失函数为均方误差，设Critic在线网络的损失函数为，/>为当前奖励，/>为当前状态，动作为/>，/>为当前状态、动作的评价，/>为时隙编号的最大值，则：

；

设Actor在线网络的损失函数为，则：

。

可选的，设为任务的最大可容忍时间，/>为当前延时和，奖励函数为，则：

。

可选的，利用DDPG算法对深度强化学习模型进行训练，包括离线训练阶段和在线决策阶段；

离线训练阶段，确定状态空间参数与动作空间参数的映射关系，在系统中使用随机的卸载策略进行若干次边缘服务器选择；

在线决策阶段，在每个事件的发生时，agent观察当前状态空间参数，使用预先训练好的深度强化学习模型预测动作空间参数；系统应用贪婪策略，选择行动最优的动作空间参数的概率和选择一个随机行动概率作为获得奖励和下一个状态，并将状态转换概率存储在重放记忆中；在线决策阶段收集的状态转换概率用于深度强化学习模型的环境出现时的再训练，生成新的状态转换参数。

仿真实验如下：

在一个5G的移动环境中，一个半径为0.3KM*0.3KM的小单元，其中一个带有K个MEC服务器、N个移动用户的无线通信系统。在每个时间段，具有计算任务的用户随机分散在AP的覆盖范围内。在这里，我们考虑不同边缘服务器，用户执行不同的计算能力，它们均匀地分布在0.5和2GHz之间。边缘服务器系统可以利用DSA可编程处理器，根据终端的需求分配信道资源。通道功率增益被建模为127+30log(L)，其中L为UE与MEC之间的距离。在每个时隙中，计算任务的数据大小(以Mbit为单位)均匀分布在[10,00]范围内，相应所需的CPU周期数（以百万周期为单位）在[1000,3500]范围内服从均匀分布，设置经验重放缓冲区C=500的容量，以及所选的小批量样本U=32的容量，学习速率参数设置为，奖励/>。仿真参数如表1所示。

表1 仿真参数

各种系统设置下的仿真结果与性能分析，如下：

当系统中的用户终端数为20时，利用DDPG算法对深度强化学习模型进行训练，深度强化学习模型的收敛性仿真如附图3所示，横坐标是迭代次数,纵坐标是累积奖励，可以观察到，对于这种深度强化学习的方法，系统的累积奖励随着训练次数的增加而迅速减少，随着交互作用的继续，可以成功地学习到有效的资源分配策略。

累积奖励在初始阶段的波动幅度很低，因为在初始经验阶段，用户没有任何环境知识，而且动作几乎是随机选择的。当用户在一定时间内积累了足够的样本时，它就开始使用累积的样本来训练网络，总的来说基于DDPG的方法表现得更好，因为它在运行了大约50个训练集后收敛到一个相对稳定的值，训练需要大约50次迭代才能收敛。

为了进行性能比较，可选的，采用以下四种基准方法：

（1）随机卸载，对任务随机分配服务器或者本地计算；

（2）卸载优先：算法优先将任务卸载到边缘服务器，将边缘服务器的所有通信和计算资源平均分配给每个用户；

（3）本地优先：用户尝试以最大容忍延迟在本地执行任务；

（4）卸载决策：在不考虑资源分配优化的情况下，优化卸载决策以最小化整个MEC系统的延迟。

边缘服务器的资源被平均分配给每个卸载的UE，而本文提出的DDQN算法动态分配资源。从表2卸载策略比较表可以看出，卸载决策方案性能优势明显。表2中，本地表示计算在本地设备上完成；服务器表示计算在服务器上完成；混合表示采用本专利算法在本地设备和服务器上分配计算任务、分配计算资源；随机表示才在本地设备和服务器上分配计算任务、分配计算资源，分配算法采用随机算法。12、14、16、18、20为前文中历史信息量。

表2卸载策略比较表

本发明将服务器选择问题转化为一个马尔可夫决策过程，满足低边缘系统用户的延迟要求，在马尔可夫决策过程中定义状态、动作和奖励函数，利用深度强化学习模型确定资源分配策略，利用DDPG算法对深度强化学习模型进行训练，利用训练后的深度强化学习模型确定移动边缘计算系统的资源分配策略使得计算任务处理时延和用户本地计算成本最小，提升了边缘计算系统的计算任务处理效率。

实施例2

基于与实施例1相同的原理，在实施例1的基础上，本实施例提供基于动态用户随机接入的移动边缘计算资源分配方法的移动边缘计算资源分配系统，包括若干个边缘服务器和若干个用户；边缘服务器部署在接入点处，用户通过无线链路将计算任务的一部分卸载到本地计算，或者将计算任务的一部分卸载到边缘服务器计算，边缘服务器通过反馈链接将计算结果返回给用户；

在实际应用过程中，由边缘服务器和用户组成的移动边缘计算系统，包含最多个用户和/>个边缘服务器。为了向用户提供计算服务，边缘服务器部署在接入点处，用户决定是否需要通过无线链路将其计算任务卸载到边缘服务器。

系统带宽被划分为多个正交子通道，每个子通道最多可以分配给一个设备。设每个时隙的长度为t，时隙长度最大值为，其中/>。每个用户随机产生任务并在产生任务所在时隙接入到边缘计算系统。

一般的，表示边缘系统可容纳的最大用户数，每个时隙的接入服务器数量不同，表示/>时刻第/>个用户的任务，服从均匀分布。用户/>的特征表示为参数元素，其中/>表示计算任务的数据大小，/>反映完成任务所需的资源。例如，/>可以量化为处理任务所需的CPU周期总数，/>表示用户的最大发射功率，/>表示任务的最大可容忍延迟，即任务执行时间不应超过/>，是用户/>的优先级，由设备类型和用户的紧急程度/重要程度决定，/>越大，表示事情越紧急（可以对阈值进行分类或优先排序，大于阈值的为1，值较小的按加权顺序排序）。/>

边缘服务器特征表示为参数元素/>，其中/>是服务器处理能力，作为边缘服务器的基本参数是恒定的。但在t时刻，边缘服务器可以向用户提供的计算能力是可变的，用/>表示。

由于边缘服务器的密集部署，不同边缘服务器的覆盖范围往往相互重叠，一个用户可以被多个边缘服务器同时覆盖。当用户在本地处理其计算任务时，处理时间取决于用户自身的计算能力，不同的用户的计算能力不同。

传统的时隙系统方案中，用户在某个时隙内产生的任务必须等待所有用户的任务处理完毕后，才能一起释放资源来处理下一个时隙的任务，从而导致新的时隙任务被释放。在此等待期间产生的任务处于等待状态。这大大降低了用户体验和需求。为了减少延迟，本发明提出了一种新的时隙系统方案。如附图4所示，用户1为无人机设备，用户2为移动终端，用户3为网络交换机；在t1时刻，用户1生成新任务一Task1，用户2生成新任务二Task2。此时，所提出的系统能够实时动态调整用户访问服务器的程序。当结束前一个时隙的任务时，如果有新任务三到达（用户3生成新任务三），服务器立即释放（前一个时隙处理用户1的资源）来处理新到达的任务，降低了边缘计算系统中的延迟，提升了边缘计算系统的计算任务处理效率。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.动态用户随机接入的移动边缘计算资源分配方法，其特征在于，包括：

构建资源分配策略的目标函数；

根据资源分配策略的目标函数，确定奖励函数的表达式；设为任务的最大可容忍延迟，/>为当前延时和，奖励函数为/>，则：

；

根据初始的资源分配策略，计算奖励；

2.根据权利要求1所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，构建资源分配策略的目标函数，包括：

3.根据权利要求2所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，根据用户发射功率确定从用户到边缘服务器上的无线链路的上行传输数据速率，包括：

设边缘服务器信道的带宽为，/>是噪声功率，/>是信道内其他用户造成的干扰，/>是时隙/>用户/>到边缘服务器之间的信道增益，/>是用户发射功率的向量，边缘服务器为/>，则从用户到边缘服务器/>上的无线链路上行传输数据速率为/>，则:

。

4.根据权利要求2所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，根据用户的计算能力与边缘服务器的计算能力，确定用户本地计算时间，包括：

。

5.根据权利要求2所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，计算边缘服务器的上行链路传输时间，确定用户的总时延，确定整个边缘计算系统中所有用户的总时延，包括：

；

。

6.根据权利要求1所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，利用DDPG算法对深度强化学习模型进行迭代训练，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构参数，包括：

设置超参数：设折扣因子为,Actor网络的学习率为/>，Critic网络的学习率为/>；

初始化Actor在线网络参数和Critic在线网络参数;设为Actor目标网络参数，/>为Actor在线网络参数，/>为Critic目标网络参数，/>为Critic在线网络参数，经验回放集合为/>，Actor目标网络参数/>，Critic目标网络参数/>，清空经验回放集合/>;

随机初始化环境,观察环境初始状态，设环境初始状态为，环境状态为/>，/>为用户初始状态，/>为服务器初始状态，/>为信道干扰初始状态，;时隙编号为/>，/>为时隙编号的最大值，/>;/>为当前时隙的用户状态，/>为当前时隙的服务器状态，/>为当前时隙的信道干扰状态；

对环境执行动作;

得到状态，奖励为/>；

将四元组存放到经验回放集合，设经验回放集合为D；

设样本数量为m，从经验回放集合D随机取m个样本数据；

更新目标网络参数:,/>，/>为更新系数。

7.根据权利要求6所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，直到深度强化学习模型收敛，得到若干个资源分配策略对应的网络结构，该网络结构包括Actor在线网络、Actor目标网络、Critic在线网络与Critic目标网络；

8.根据权利要求7所述动态用户随机接入的移动边缘计算资源分配方法，其特征在于，Critic在线网络的损失函数为均方误差，设Critic在线网络的损失函数为，/>为当前奖励，/>为当前状态，动作为/>，/>为当前状态、动作的评价，/>为时隙编号的最大值，则：

；

设Actor在线网络的损失函数为，则：

。

9.基于权利要求1-8任一所述动态用户随机接入的移动边缘计算资源分配方法的移动边缘计算资源分配系统，其特征在于，包括若干个边缘服务器和若干个用户；