CN116361009B

CN116361009B - 一种mec计算卸载、资源分配及缓存联合优化方法

Info

Publication number: CN116361009B
Application number: CN202310565554.5A
Authority: CN
Inventors: 刘旭; 朱绍恩; 杨龙祥; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-11-10
Anticipated expiration: 2043-05-19
Also published as: CN116361009A

Abstract

本发明公开了一种MEC计算卸载、资源分配及缓存联合优化方法，包括：根据用户实际请求计算资源任务，构建MEC计算卸载、资源分配及缓存模型；以最小化系统长期平均开销为目标，对MEC计算卸载、资源分配及缓存模型进行模型转换，并通过深度强化学习结合保序量化法获取卸载决策；基于卸载决策获取本地计算资源及边缘计算资源分配策略，通过任务请求概率分布制定缓存决策，动态更新MEC服务器缓存空间；根据MEC计算卸载、资源分配及缓存模型转换后的系统状态、动作及奖励训练深度强化学习网络，循环迭代优化卸载决策。本发明方法能够降低系统长期平均开销，提高用户请求任务的缓存命中率。

Description

一种MEC计算卸载、资源分配及缓存联合优化方法

技术领域

本发明涉及通信技术的技术领域，尤其涉及一种MEC计算卸载、资源分配及缓存联合优化方法。

背景技术

随着移动设备的普及和应用的快速发展，越来越多的应用需要进行计算和存储。传统的云计算模式存在着计算延迟高、网络带宽瓶颈、能耗大的问题。为了解决这些问题，移动边缘计算（Mobile Edge Computing，MEC）应运而生。移动边缘计算能够将计算资源和存储资源放置在距离用户更近的边缘网络中，更快地响应用户的请求，降低网络带宽压力，同时还可以减少能源消耗。但是，移动边缘计算也存在着资源有限、任务多样化、用户数量庞大的问题。

目前针对此类问题主要以最小化能耗或最小化延迟或最小化两者的加权和为目标，以用户终端的能量、计算资源、边缘服务器的计算资源、任务最大允许时延为约束条件建立优化问题并求解，从而获得最优策略。由于优化问题通常是NP-hard问题，当网络规模较大时，即使通过例如遗传算法、粒子群算法等启发式算法仍然需要较长时间开销来获取最优策略。此外，网络的动态变化需要中心节点不断去求解复杂的优化问题，且难以自适应地跟踪网络动态变化。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种MEC计算卸载、资源分配及缓存联合优化方法解决现有的MEC卸载和资源分配场景中传统深度强化学习方法在大规模状态空间和动作空间下求解复杂度高、开销大、难以快速收敛的问题。

为解决上述技术问题，本发明提供如下技术方案：

本发明实施例提供了一种MEC计算卸载、资源分配及缓存联合优化方法，包括：

根据用户实际请求计算资源任务，构建MEC计算卸载、资源分配及缓存模型；

以最小化系统长期平均开销为目标，对所述MEC计算卸载、资源分配及缓存模型进行模型转换，并通过深度强化学习结合保序量化法获取卸载决策；

基于所述卸载决策获取本地计算资源及边缘计算资源分配策略，通过任务请求概率分布制定缓存决策，动态更新MEC服务器缓存空间；

根据所述MEC计算卸载、资源分配及缓存模型转换后的系统状态、动作及奖励训练深度强化学习网络，循环迭代优化所述卸载决策。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：所述MEC计算卸载、资源分配及缓存模型，包括：MEC系统模型，任务模型，缓存模型，移动性模型，计算模型；

所述MEC系统模型包括M个MEC服务器和N个移动用户设备，MEC系统以时隙结构运行，记表示所有时隙的集合；

所述任务模型包括个异构计算任务，所述异构计算任务的集合表示为：

；

基于异构计算任务集合请求任务概率，所述任务请求概率服从Zipf分布，表示为：

；

其中，表示t时刻第K个任务的请求概率；

所述缓存模型中MEC服务器共享同样的缓存内容；

所述移动性模型通过离散随机跳跃对用户移动性进行建模，根据平均驻留时间判断跳跃强度；当用户请求计算任务时，在时间后用户还停留在任务请求区域的概率，表示为：

；

其中，表示用户在任务请求区域的平均驻留时间；

当MEC服务器对用户发送计算结果时，用户还在任务请求区域的概率，表示为：

；

其中，表示MEC服务器处理任务的时间；

当MEC服务器对用户发送计算结果时，用户离开任务请求区域的概率，表示为：

；

其中，表示迁移概率；

所述计算模型用于计算移动用户设备在不同卸载决策和资源分配策略下的长期平均开销。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：所述开销包括：时延、能耗、迁移开销及缓存请求成本；

所述用户的即时开销，表示为：

；

其中，表示用户/>在t时刻的系统总时延，/>表示用户/>在t时刻的系统总能耗，/>表示用户/>在t时刻的卸载决策，/>表示缓存请求成本，/>表示迁移开销，/>分别表示时延，能耗，缓存请求成本及任务结果迁移开销的权重系数且范围在[0,1]，/>表示用户/>在t时刻请求的任务在t-1时刻是否被缓存；

利用系统长期平均开销衡量系统性能，所述系统长期平均开销表示为：

；

其中，T表示整个时隙的长度，表示系统内t时刻所有用户的即时开销。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：以最小化系统长期平均开销为目标，对所述MEC计算卸载、资源分配及缓存模型进行模型转换，包括：

目标函数，表示为：

；

其中，表示用户/>在t时刻的卸载决策，/>表示本地计算资源分配决策，/>表示边缘计算资源分配决策，/>表示缓存决策，C表示为系统长期平均开销；

基于所述最小化系统长期平均开销，将MEC计算卸载、资源分配及缓存模型转换为马尔可夫决策过程模型。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：设置所述马尔可夫决策过程模型，包括：状态空间设置，动作空间设置以及奖励函数设置；

所述状态空间设置，表示为：

；

其中，表示所有用户请求任务的数据量，/>表示所有用户请求任务的计算量，/>表示所有用户和无线接入点之间的信道增益，/>表示所有用户位置，/>表示所有用户迁移概率，/>表示所有MEC服务器的可用计算资源，/>表示所有任务的缓存决策；

所述动作空间设置，表示为：

；

其中，表示所有用户的0-1卸载决策；

所述奖励函数设置，表示为：

；

其中，表示系统内所有用户在本地计算任务的总开销，/>表示奖励调整系数。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：通过深度强化学习结合保序量化法获取卸载决策，包括：

对深度强化学习网络输入进行标准化处理；

所述深度强化学习网络经过最后一层sigmoid激活后，将输出的N个[0, 1]之间的小数，组成松弛动作；

设置量化函数；

获取第1个二进制卸载决策；

对所述松弛动作中的元素到所述第1个二进制卸载决策阈值的距离进行排序；

基于下一个松弛动作计算剩余量化动作。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：根据所述卸载决策获取本地计算资源及边缘计算资源分配策略，包括：根据所述量化动作，通过遗传算法和KKT条件计算资源分配决策；

所述遗传算法通过反复对个体进行选择、交叉及变异操作，模拟生物进化过程，获取适应度函数最大的个体，即本地开销最小的本地计算资源分配策略；

所述适应度函数表示为：

；

其中，表示个体的索引，且/>，/>是使系统内所有用户在本地计算任务的最大总开销的个体索引，/>表示本地计算资源分配比例，/>表示使本地开销最大的本地计算资源分配比例。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：还包括：拉格朗日函数的KKT条件包括稳定性条件、原始可行性条件、对偶可行性条件、互补松弛条件；

所述稳定性条件，表示为：

；

其中，表示第一拉格朗日乘子，/>表示第二拉格朗日向量乘子，/>表示卸载决策，/>表示第/> 个用户请求任务的数据量，/>表示边缘计算资源分配比例，/>表示最大可用边缘计算资源， />表示第 m个小区内的用户集合，/>表示拉格朗日函数，表示边缘计算时延；

所述原始可行性条件，表示为：

；

其中，表示边缘计算资源分配比例；

所述对偶可行性条件，表示为：

；

其中，表示第一拉格朗日乘子，/>表示第二拉格朗日乘子；所述互补松弛条件，表示为：

；

其中，表示第一拉格朗日乘子，/>表示第二拉格朗日乘子，/>表示边缘计算资源分配比例。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：根据所述KKT条件计算得到最优边缘资源分配比例，表示为：

；

其中，表示卸载决策，/>表示第/>个用户请求任务的数据量，/>表示第个用户的卸载决策， />表示第/>个用户请求任务的数据量。

作为本发明所述的MEC计算卸载、资源分配及缓存联合优化方法的一种优选方案，其中：动态更新MEC服务器缓存空间，包括：

记录当前时刻每个任务被请求的次数，结合历史数据重新计算每个任务的请求概率；

当缓存空间不足时，根据任务请求概率，淘汰请求概率小于第一阈值的数据，释放缓存空间，所述释放的缓存空间用于保存请求概率不小于第一阈值的数据。

与现有技术相比，本发明的有益效果：本发明通过在传统的MEC卸载和资源分配研究基础上进一步引入基于任务请求概率的动态缓存更新机制，同时在传统的深度强化学习算法D3QN上进行改进，综合运用多种优化方法，为系统内所有用户制定近似最优的计算卸载和资源分配决策，提高了用户请求任务的缓存命中率，降低了系统长期平均开销，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例所述的一种MEC计算卸载、资源分配及缓存联合优化方法的流程示意图；

图2为本发明一个实施例所述的一种MEC计算卸载、资源分配及缓存联合优化方法的训练轮数和平均累计奖励关系图；

图3为本发明一个实施例所述的一种MEC计算卸载、资源分配及缓存联合优化方法的系统长期平均开销和用户数关系图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1，为本发明的一个实施例，该实施例提供了一种MEC计算卸载、资源分配及缓存联合优化方法，包括：

S1：根据用户实际请求计算资源任务，构建MEC计算卸载、资源分配及缓存模型；

更进一步的，MEC计算卸载、资源分配及缓存模型，包括：MEC系统模型，任务模型，缓存模型，移动性模型，计算模型；

MEC系统模型包括M个边缘服务器和N个移动用户设备，边缘服务器部署在无线接入点旁，每个无线接入点独立覆盖一片小区，第m个小区内随机分布个移动用户设备，可通过小区的无线接入点向小区的边缘服务器卸载计算任务，请求计算资源，无线接入点之间通过基站连接和传输数据；MEC系统以时隙结构运行，记表示所有时隙的集合；

任务模型包括个异构计算任务，异构计算任务的集合表示为：

；

具体的，每个任务有不同的数据量、计算资源需求和最大允许时延，用表示第/>个任务的属性，其中/>表示任务的输入数据大小，/>表示计算任务所需的计算资源。

基于异构计算任务集合请求任务概率，任务请求概率服从Zipf分布，表示为：

；

其中，表示t时刻第K个任务的请求概率；

缓存模型中MEC服务器共享同样的缓存内容；

应说明的是，定义表示缓存决策变量，/>表示将计算任务的输入数据在t时隙缓存在MEC服务器中，并且可以在t+1时隙中使用，/>表示不缓存。

移动性模型通过离散随机跳跃对用户移动性进行建模，根据平均驻留时间判断跳跃强度；当用户请求计算任务时，在时间后用户还停留在任务请求区域的概率，表示为：

；

其中，表示用户在任务请求区域的平均驻留时间；

当MEC服务器对用户发送计算结果时，用户还在原任务请求区域的概率，表示为：

；

其中，表示MEC服务器处理任务的时间；

；

其中，表示迁移概率；

计算模型用于计算移动用户设备在不同卸载决策和资源分配策略下的长期平均开销。

更进一步的，开销包括：时延、能耗、迁移开销及缓存请求成本；

用户的即时开销，表示为：

；

利用系统长期平均开销衡量系统性能，系统长期平均开销表示为：

；

应说明的是，当用户选择完全在本地计算任务时，本地计算时延，表示为：

；

其中，表示用户请求的任务，/>表示任务的数据量，/>表示本地分配的计算资源。

对应的本地计算能耗，表示为：

；

其中，是取决于用户设备芯片架构的有效开关电容。

当用户选择完全在边缘计算任务时，时延可根据用户请求的任务数据是否在MEC服务器缓存空间中分为两种情况：

若用户请求的任务数据在MEC服务器缓存空间，用户则无需将任务数据上传给MEC服务器，时延只需考虑在边缘计算的时延，表示为：

；

其中，表示边缘分配的计算资源量。

若用户请求的任务数据不在MEC服务器缓存空间，用户则需要将任务数据上传给MEC服务器，时延需要同时考虑任务上传和计算两部分：

（1）任务上传阶段，数据传输速率表示为：

；

其中，表示每个MD和无线接入点之间的通信带宽，/>表示信道增益，/>表示高斯白噪声，/>表示MD和无线接入点之间的干扰，包括码间干扰、信道间干扰等，为上传功率。

任务数据上传时延，表示为：

；

其中，表示用户/>请求任务的数据量

上传能耗，表示为：

；

其中，表示任务数据上传时延，/>为上传功率。

（2）本地MEC服务器计算阶段，任务的计算时延表示为：

；

其中，表示任务的数据量，/>表示边缘分配的计算资源量。

还应说明的是，边缘计算中系统开销还包括缓存请求成本，任务结果迁移开销。

用户请求任务的总处理时延/>，表示为：

；

其中，表示卸载决策，/>表示用户/>在t时刻请求的任务在t-1时刻是否被缓存；

总能耗，表示为：

；

用户的即时开销/>，表示为：

；

其中，表示系统总时延，/>表示系统总能耗，/>表示缓存请求成本，表示迁移开销，/>表示迁移概率；

系统的即时开销，表示为：

；

其中，表示用户/>的即时开销。

S2：以最小化系统长期平均开销为目标，对MEC计算卸载、资源分配及缓存模型进行模型转换，并通过深度强化学习结合保序量化法获取卸载决策；

更进一步的，以最小化系统长期平均开销为目标，对MEC计算卸载、资源分配及缓存模型进行模型转换，包括：

目标函数，表示为：

；/>

其中，表示卸载决策，/>表示本地计算资源分配决策，/>表示边缘计算资源分配决策，/>表示缓存决策，C表示为系统长期平均开销；

应说明的是，优化问题应满足约束条件，表示为：

；

其中，为设备最大发射功率，/>为设备最大计算资源，/>为MEC服务器可用计算资源，/>为MEC服务器缓存空间大小，C1表示每个任务的缓存决策约束，C2表示用户请求任务的卸载决策约束，C3表示传输功率约束，C4表示本地计算能力约束，C5表示MEC服务器分配给任务的第一计算资源约束，C6表示MEC服务器分配给任务的第二计算资源约束，C7表示MEC服务器缓存容量约束。

更进一步的，由于MEC系统中的任务处理过程具有马尔可夫性质，即下一个状态仅仅依赖于当前状态和当前状态下采取的动作，而不依赖于过去的历史状态，通过设置马尔可夫决策过程的状态空间、动作空间和奖励函数将MEC计算卸载、资源分配及缓存模型转换为马尔可夫决策过程模型。

具体的，设置马尔可夫决策过程模型，包括：状态空间设置，动作空间设置以及奖励函数设置；

状态空间设置，表示为：

；

动作空间设置，表示为：

；

其中，表示所有用户的0-1卸载决策；

奖励函数设置，表示为：

；

更进一步的，通过深度强化学习结合保序量化法获取卸载决策，包括：

对深度强化学习网络输入进行标准化处理；

深度强化学习网络经过最后一层sigmoid激活后，将输出的N个[0, 1]之间的小数，组成松弛动作；

设置量化函数；

获取第1个二进制卸载决策；

对松弛动作中的元素到第1个二进制卸载决策阈值的距离进行排序；

基于下一个松弛动作计算剩余量化动作。

S3：基于卸载决策获取本地计算资源及边缘计算资源分配策略，通过任务请求概率分布制定缓存决策，动态更新MEC服务器缓存空间；

更进一步的，根据卸载决策获取本地计算资源及边缘计算资源分配策略，包括：根据量化动作，通过遗传算法和KKT条件计算资源分配决策；

遗传算法通过反复对个体进行选择、交叉及变异操作，模拟生物进化过程，获取适应度函数最大的个体，即本地开销最小的本地计算资源分配策略；

适应度函数表示为：

；

更进一步的，还包括：拉格朗日函数的KKT条件包括稳定性条件、原始可行性条件、对偶可行性条件、互补松弛条件；

稳定性条件，表示为：

；

其中，表示第一拉格朗日乘子，/>表示第二拉格朗日向量乘子，/>表示卸载决策，/>表示第/>个用户请求任务的数据量，/>表示边缘计算资源分配比例，/>表示最大可用边缘计算资源， />表示第m个小区内的用户集合，/>表示拉格朗日函数，表示边缘计算时延；

原始可行性条件，表示为：

；

其中，表示边缘计算资源分配比例；

对偶可行性条件，表示为：

；

其中，表示第一拉格朗日乘子，/>表示第二拉格朗日乘子；互补松弛条件，表示为：

；

更进一步的，根据KKT条件计算得到最优边缘资源分配比例，表示为：

；

其中，表示卸载决策，/>表示第/>个用户请求任务的数据量，/>表示第/>个用户的卸载决策，/>表示第/> 个用户请求任务的数据量。

更进一步的，动态更新MEC服务器缓存空间，包括：

当缓存空间不足时，根据任务请求概率，淘汰请求概率小于第一阈值的数据，释放缓存空间，释放的缓存空间用于保存请求概率不小于第一阈值的数据。

具体的，本发明实施例中所选第一阈值为3%，第一阈值的具体取值可根据实际任务请求情况进行选择，其中，第一阈值的具体数值选取范围为[2.8，3.2]。

S4：根据MEC计算卸载、资源分配及缓存模型转换后的系统状态、动作及奖励训练深度强化学习网络，循环迭代优化卸载决策。

在一个可选的实施例中，采用D3QN和保序量化求解和优化0-1卸载决策，步骤包括：

设置D3QN中的评估网络和目标网络采用相同的网络结构：首先对输入做均值为0，标准差为1的标准化处理，中间包含两个dense层，通过Relu激活函数激活，最后通过状态值和优势值计算Q值后，使用sigmoid激活输出。两个dense层的神经元个数设置为256和128。设置回合数episode为500，网络的学习率lr为0.005，折扣因子discount_factor为0.9，贪心策略epsilon为1.0，衰减率0.001最终0.01，目标网络更新速度update_rate为200，经验池大小为2000，抽取样本量batch_size为64，奖励调整系数为5，量化动作数V=N。

a.首先D3QN网络经过最后一层sigmoid激活后输出N个[0, 1]之间的小数，

组成松弛动作，其中：

；

b.定义量化函数：

；

c.第1个二进制卸载决策可以表示为：

；

d.根据中的元素到0.5的距离进行排序，表示为：

；

其中，表示元素在/>的第/>个排序；

e.基于求剩余V-1个量化动作/>，其中v=2,…,V，表示为：/>

；

f.将所有量化动作带入到环境，通过遗传算法和KKT求解资源分配决策和，计算每个动作对应的系统开销/>和奖励/>；

g.取奖励最大的作为/>，其对应的/>作为/>，/>作为系统即时开销；

h.系统基于任务请求概率制定缓存决策，更新缓存空间，更新/>；

i.将存储到经验池中；

j.从经验池中随机抽取batch_size个样本，用于训练D3QN网络，从而使D3QN网络输出不断优化的0-1卸载决策，降低系统长期平均开销。

较佳的，通过D3QN和遗传算法对卸载决策的求解，对于选择在本地计算的用户，将本地资源分配决策表示为：

；

其中，表示本地资源分配比例。

将设置为遗传算法中的一个个体，Y个个体作为一个种群。通过反复对个体选择、交叉和变异三种操作，模拟生物进化的过程，获得使适应度函数最大的个体，即使本地开销最小的本地计算资源分配。

较佳的，通过D3QN和保序量化对卸载决策的求解，对于选择在边缘计算的用户，将边缘资源分配决策表示为：

；

其中，表示边缘资源分配比例。

提取优化问题中关于的项，分解出子问题，并且为凸优化问题，表示为：/>

；

其中，表示t时刻的边缘计算时延。

边缘计算时延的约束条件，表示为：

；

其中，表示t时刻的边缘计算资源分配比例。

应说明的是，获取卸载决策是一个循环迭代的过程，通过D3QN和保序量化输出和优化卸载决策，通过遗传算法优化本地计算资源分配和通过KKT统筹分配边缘计算资源以及基于任务请求概率动态更新MEC服务器缓存空间，依赖D3QN网络的输出；卸载决策的优化又依赖边缘资源分配、本地资源分配和缓存决策结果。

本实施例还提供一种计算设备，适用于MEC计算卸载、资源分配及缓存联合优化方法的情况，包括：

存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的MEC计算卸载、资源分配及缓存联合优化方法。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的实现MEC计算卸载、资源分配及缓存联合优化方法。

本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

实施例2

参照图2~图3为本发明的一个实施例，该实施例不同于第一个实施例的是，提供了一种MEC计算卸载、资源分配及缓存联合优化方法的验证测试，以验证本发明的有益效果。

本发明实施例基于Python 3.8编程语言和Tensorflow 2.4 + Keras深度强化学习框架实现，使用GeForce RTX 3060 GPU以及使用Pycharm作为IDE。

实验仿真关键参数如表1所示：

表1 关键参数数据表

如图2所示，在本发明实施例设置的参数下，随着训练轮数的增加，本发明提供的MEC卸载、资源分配、缓存联合优化方法达到的收敛状态，与D3QN和DQN方法相比，训练效果有明显提升。

较佳的，通过改变用户数，得到系统平均长期开销与用户数的关系图如图3所示，进一步验证本发明提供的方法相较于D3QN、DQN方法的优越性以及相较于全本地计算和全边缘计算的有效性。

因此，在同样场景下相较于传统方法，本发明方法在训练稳定性、收敛速度、降低系统长期平均开销均有所提高，具有很高的使用价值和推广价值。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种移动边缘计算MEC计算卸载、资源分配及缓存联合优化方法，其特征在于，包括：

根据用户实际请求计算资源任务，构建MEC计算卸载、资源分配及缓存模型；所述MEC计算卸载、资源分配及缓存模型，包括：MEC系统模型，任务模型，缓存模型，移动性模型，计算模型；

所述MEC系统模型包括M个MEC服务器和E个移动用户设备，MEC系统以时隙结构运行，记表示所有时隙的集合；

所述任务模型包括K个异构计算任务，所述异构计算任务的集合表示为：

p＝{1,2,…,K}

基于异构计算任务集合p请求任务概率，所述请求任务概率服从Zipf分布，表示为：

φ_t＝{φ_1,t,φ_2,t,...,φ_K,t}

其中，φ_K，t表示t时刻第K个任务的请求概率；

所述缓存模型中MEC服务器共享同样的缓存内容；

所述移动性模型通过离散随机跳跃对用户移动性进行建模，根据平均驻留时间判断跳跃强度；当用户请求计算任务时，在τ时间后用户还停留在任务请求区域的概率，表示为：

其中，β表示用户在任务请求区域的平均驻留时间；

其中，T_t ⁿ表示用户n在t时刻MEC服务器处理任务的时间；

p_move＝1-p₁

其中，p_move表示迁移概率；

所述计算模型用于计算移动用户设备在不同卸载决策和资源分配策略下的长期平均开销；

以最小化系统长期平均开销为目标，对所述MEC计算卸载、资源分配及缓存模型进行模型转换，并通过深度强化学习结合保序量化法获取卸载决策；以最小化系统长期平均开销为目标，对所述MEC计算卸载、资源分配及缓存模型进行模型转换，包括：

目标函数，表示为：

其中，表示m个小区内用户n在t时刻的卸载决策，/>表示本地计算资源分配决策，f_t ^e表示边缘计算资源分配决策，c_k,t表示缓存决策，C表示为系统长期平均开销；

基于所述最小化系统长期平均开销，将MEC计算卸载、资源分配及缓存模型转换为马尔可夫决策过程模型；通过深度强化学习结合保序量化法获取卸载决策，包括：

对深度强化学习网络输入进行标准化处理；

所述深度强化学习网络经过最后一层sigmoid激活后，将输出的N个[0,1]之间的小数，组成松弛动作；

设置量化函数；

获取第1个二进制卸载决策；

基于下一个松弛动作计算剩余量化动作；

2.如权利要求1所述的MEC计算卸载、资源分配及缓存联合优化方法，其特征在于，所述开销包括：时延、能耗、迁移开销及缓存请求成本；

所述用户n的即时开销，表示为：

其中，表示m个小区内用户n在t时刻的系统总时延，/>表示m个小区内用户n在t时刻的系统总能耗，/>表示m个小区内用户n在t时刻的卸载决策，C_cache表示缓存请求成本，C_move表示迁移开销，μ₁,μ₂,μ₃,μ₄分别表示时延，能耗，缓存请求成本及任务结果迁移开销的权重系数且范围在[0,1]，/>表示m个小区内用户n在t时刻请求的任务在t-1时刻是否被缓存；

其中，T表示整个时隙的长度，C_t表示系统内t时刻所有用户的即时开销。

3.如权利要求2所述的MEC计算卸载、资源分配及缓存联合优化方法，其特征在于，设置马尔可夫决策过程模型，包括：状态空间设置，动作空间设置以及奖励函数设置；

所述状态空间设置，表示为：

其中，b_t表示在t时刻所有用户请求任务的数据量，d_t表示在t时刻所有用户请求任务的计算量，h_t表示在t时刻所有用户和无线接入点之间的信道增益，l_t表示在t时刻所有用户位置，表示在t时刻所有用户迁移概率，F_t表示在t时刻所有MEC服务器的可用计算资源，c_k,t-1表示在t时刻所有任务的缓存决策；

所述动作空间设置，表示为：

a_t＝x_t

其中，x_t表示在t时刻所有用户的0-1卸载决策；

所述奖励函数设置，表示为：

r_t＝α(C_local-C_t)/C_local

其中，C_local表示系统内所有用户在本地计算任务的总开销，α表示奖励调整系数。

4.如权利要求3所述的MEC计算卸载、资源分配及缓存联合优化方法，其特征在于，根据所述卸载决策获取本地计算资源及边缘计算资源分配策略，包括：根据所述量化动作，通过遗传算法或KKT条件计算资源分配决策；

所述适应度函数表示为：

其中，o表示个体的索引，且o＝1,…,Z，j是使系统内所有用户在本地计算任务的最大总开销的个体索引，表示本地计算资源分配比例，/>表示使本地开销最大的本地计算资源分配比例。

5.如权利要求4所述的MEC计算卸载、资源分配及缓存联合优化方法，其特征在于，还包括：拉格朗日函数的KKT条件包括稳定性条件、原始可行性条件、对偶可行性条件、互补松弛条件；

所述稳定性条件，表示为：

其中，λ表示第一拉格朗日乘子，ζ表示第二拉格朗日向量乘子，x_n表示卸载决策，表示第n个用户请求任务的数据量，y_n表示边缘计算资源分配比例，F表示最大可用边缘计算资源，/>表示第m个小区内的用户集合，L表示拉格朗日函数，/>表示边缘计算时延；

所述原始可行性条件，表示为：

y_n≥0

其中，y_n表示边缘计算资源分配比例；

所述对偶可行性条件，表示为：

λ≥0，ζ_n≥0

其中，λ表示第一拉格朗日乘子，ζ_n表示第二拉格朗日乘子；所述互补松弛条件，表示为：

ζ_ny_n＝0

其中，λ表示第一拉格朗日乘子，ζ_n表示第二拉格朗日乘子，y_n表示边缘计算资源分配比例。

6.如权利要求5所述的MEC计算卸载、资源分配及缓存联合优化方法，其特征在于：根据所述KKT条件计算得到最优边缘资源分配比例，表示为：

其中，x_n表示卸载决策，表示第n个用户请求任务的数据量，x_i表示第i个用户的卸载决策，/>表示第i个用户请求任务的数据量。

7.如权利要求6所述的MEC计算卸载、资源分配及缓存联合优化方法，其特征在于，动态更新MEC服务器缓存空间，包括：