CN116209084A

CN116209084A - 一种能量收集mec系统中任务卸载和资源分配方法

Info

Publication number: CN116209084A
Application number: CN202310212011.5A
Authority: CN
Inventors: 鲜永菊; 陈万琼; 左维昊; 汪帅鸽
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-02

Abstract

本发明属于移动通信技术领域，特别涉及一种能量收集MEC系统中任务卸载和资源分配方法，包括考虑由多个具有EH功能的终端设备和一个配有边缘服务器的基站组成的MEC系统，分别建立任务队列模型、任务计算模型和能量收集模型；建模一个时间平均意义上的长期随机优化问题，目标是最小化终端设备完成任务的执行时间和能量消耗总成本；首先通过Lyapunov随机优化理论，将随机优化问题解耦成每个确定时隙内的卸载决策子问题和资源分配子问题，然后通过深度强化学习算法和自适应遗传算法分别求解两个子问题；本发明可以有效降低终端设备完成任务的总成本，并保证队列长期稳定。

Description

一种能量收集MEC系统中任务卸载和资源分配方法

技术领域

本发明属于移动通信技术领域，涉及到一种能量收集MEC系统中任务卸载和资源分配方法。

背景技术

随着移动通信技术与物联网技术的快速发展，智能终端的数量和数据流量呈爆炸式增长，在人工智能、机器学习和边缘智能等技术的催生下，包括虚拟现实/增强现实、无人驾驶、智慧城市、智能工厂在内的新兴应用不断涌现，而终端设备受限于制作工艺与成本，其计算资源，存储资源和电池容量受到极大的限制，很难满足这些新兴应用的处理需求。移动边缘计算(Mobile Edge Computing,MEC)支持终端设备通过任务卸载的方式把计算任务卸载到云端处理，缓解了设备资源受限的问题，但是终端设备的电池容量有限以及边缘算力不足的问题依然无法有效解决,很难满足这些新兴应用的处理需求。

在一些特殊的场景中如设备分布在偏远或者有害有毒环境中，电池电量难以通过传统电网得到持续供应。因此，为了满足终端设备电池容量长期续航的需求，通常采用能量收集(Energy Harvesting,EH)技术支持设备从环境中获取能源，用于支撑设备通信和任务处理，该技术已成为实现绿色移动通信的重要手段。将EH技术和MEC技术相结合可有效解决设备计算能力不足和电池电量有限的问题，以绿色移动通信的方式支持计算密集型和时延敏感型应用，对构造绿色节能的MEC系统具有重要意义。

结合EH技术与MEC的任务卸载技术，以绿色通信的方式进行任务卸载策略的制定和资源分配得到诸多学者广泛的关注。一些主要的成果包括：(1)在时变信道和任务到达的MEC边缘环境中的一种在线计算卸载算法(参考文献：Bi S.,Huang L.,Wang H.,etal.Lyapunov-guided deep reinforcement learning for stable online computationoffloading in mobile-edge computing networks[J].IEEE Transactions on WirelessCommunications,2021.)：该算法研究了随机任务到达的多用户MEC网络，在长期任务队列稳定性和平均功率约束下，设计了一种在线的基于Lyapunov的计算卸载算法，最大限度地提高网络数据处理能力。(2)能量收集MEC系统中的计算卸载和资源分配方案：GCN-DDPG算法(参考文献：Chen J.,Wu Z.Dynamic Computation Offloading With EnergyHarvesting Devices:A Graph-Based Deep Reinforcement Learning Approach[C]//2021IEEE Communications Letters.IEEE,2021.Kashyap P K.,Kumar S.,JaiswalA.Deep Learning Based Offloading Scheme for IoT Networks Towards GreenComputing[C]//2019IEEE International Conference on Industrial Internet(ICII).IEEE,2019:22-27.)：该算法针对能量收集设备的计算卸载和资源分配问题，提出了一种集中式基于DDPG的强化学习算法，用于学习移动设备的决策，包括卸载比率、本地计算能力以及上行传输功率。(3)具有能量收集的异构移动边缘计算中的计算卸载：一种非合作计算卸载博弈算法(参考文献：Zhang T.,Chen W.Computation Offloading in HeterogeneousMobile Edge Computing With Energy Harvesting[J].2021.)：该算法从博弈论的角度研究了具有能量收集的异构MEC系统中多用户到多MEC的计算卸载问题，建立了M/G/1队列模型，以最小化所有设备的时延。

在具有能量收集的MEC系统中，由于能量收集的动态性、任务到达的随机性以及网络信道状态的实时变化对MEC系统的任务卸载和资源分配带来极大的挑战。采用传统的算法解决方案往往需要大量的数值迭代才能产生满意的解，一旦系统状态发生变化，就需要频繁地重新解决复杂的优化问题，在高度动态的MEC系统中实现成本太高，另一方面，采用基于深度强化学习的算法可以适应系统的动态变化。在能量收集的MEC系统中，系统稳定运行和计算性能同样重要，如任务队列稳定性和能量队列的稳定性。现有研究中，大多数基于深度强化学习的方法没有施加长期性能约束，特别是在引入能量收集后时隙之间的能量耦合将极大地影响卸载方案，带来更多的挑战。因此，如何在动态具有能量收集的MEC中设计合适的任务卸载和资源分配策略具有重要研究价值。

发明内容

有鉴于此，为了最小化终端设备完成任务的执行时间和能量消耗总成本以及队列的稳定，本发明提出一种能量收集MEC系统中任务卸载和资源分配方法，具体包括以下步骤：

基于由多个具有EH功能的终端设备和一个配有边缘服务器的基站组成的MEC系统，分别建立任务队列模型、任务计算模型和能量收集模型；

基于MEC系统的动态能量收集、随机任务到达以及实时信道变化，根据任务队列模型、任务计算模型以及能量收集模型建立一个时间平均意义上的长期随机优化问题，以最小化终端设备完成任务的执行时间和能量消耗总成本；

通过李雅普诺夫优化理论将该优化问题解耦成每个确定时隙内卸载决策子问题以及资源分配子问题；

利用深度强化学习，通过建模马尔可夫决策过程，定义动作空间，状态空间以及奖励函数求解卸载决策子问题，获取最优的卸载策略；

利用自适应遗传算法，通过交叉、变异、选择操作求解资源分配子问题，获取最优的资源分配方案。

本发明的有益效果：

本发明在具有能量收集MEC系统中考虑了能量收集的动态性，任务生成的随机性以及信道条件的实时变化，为了适应系统动态性，在长期队列稳定约束下最小化系统总成本，建模了一个长期随机优化问题，并通过Lyapunov随机优化理论，将随机优化问题解耦成在每个确定时隙内的任务卸载决策子问题和资源分配子问题；并设计了一种结合强化学习和自适应遗传算法的任务卸载和资源分配方案，针对卸载决策子问题，采用基于深度强化学习算法，根据动态的MEC系统分别定义算法的状态空间、动作空间以及奖励函数以获的最优的任务卸载策略；针对资源分配子问题，利用基于改进的自适应遗传算法，并根据算法的执行过程，设计了自适应参数，以提高算法的全局搜索能力以及收敛速度，经过改进的自适应遗传算法中的四个主要过程分别为种群初始化、变异操作、交叉操作和选择操作以获取最优的资源分配；仿真结果表明该方案在稳定队列以及满足系统动态性方面具有良好的性能与现有方案相比具有一定的优越性。

附图说明

图1为本发明实施例的一种能量收集MEC系统中任务卸载和资源分配方法流程图；

图2为具有能量收集的MEC系统模型；

图3为本发明的中联合计算卸载和资源分配方案的框架；

图4为不同控制参数V下的任务队列长度；

图5为不同控制参数V下的总成本。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种能量收集MEC系统中任务卸载和资源分配方法，如图1所示，包括以下步骤：

本实施例分别从系统模型、问题描述、算法方案设计、仿真结果及分析四个方面对本发明方案进行说明。

一、系统模型

考虑由多个具有能量收集功能的终端设备和一个配有边缘服务器的基站组成的EH-MEC系统,如图2所示。终端设备集合用M＝{1,2,...,m,...,M}表示，每个终端设备可收集环境中的能量用于计算和通信，收集到的能量存储在电池中。系统划分为若干时隙，时隙索引为T＝{1,2,...,t...,T}表示，每个时隙的长度为δ，在每次时隙将采用集中式训练分布式执行的方式，基站负责收集所有终端设备的状态信息包括任务队列状态、能量队列状态，信道状态等用于训练模型进行卸载决策和资源分配，最后由终端设备执行决策。

1.任务队列模型

定义终端设备m在时隙t生成的任务用I_m(t)＝{Q_m(t),b_m(t),U_m(t),τ_m(t)}表示，其中Q_m(t)表示在时隙t终端设备m任务队列中的任务量(bit)。b_m(t)表示t时刻终端设备m实际处理的任务量，U_m(t)表示处理单位任务所需要的CPU周期数，τ_m(t)表示终端设备的时延容忍阈值。任务到达是随机的且独立同分布，假设均服从参数为

泊松分布，终端设备m在时隙t产生的任务量用A_m(t)表示。终端设备采用的卸载策略为二进制卸载，卸载变量α_m(t)∈{0,1}表示终端设备m的卸载决策，当α_m(t)＝1时表示任务卸载到边缘服务器执行，当α_m(t)＝0时表示任务将在本地执行。实际处理的任务量满足b_m(t)＝min{b_max,Q_m(t)}，其中b_max表示最大可处理的任务量，因此终端设备m卸载到边缘服务器执行的任务量表示为:

终端设备m在本地执行的任务量可表示为：

则终端设备m的任务队列动态更新表示为：

Q_m(t+1)＝Q_m(t)-b_m(t)+A_m(t)

由于任务到达的随机性，任务队列也将随时间的变化而变化，因此，为了保证任务队列的稳定性有如下约束：

2.能量收集模型

在EH-MEC系统中，终端设备具有可充电电池，用于存放从环境中收集的能量，定义B_m(t)表示时隙t电池中剩余能量，e_m(t)表示时隙t内收集到的能量，

表示任务在本地进行处理时所消耗的能量。/>

表示任务传输过程消耗的能量，消耗的总能量为，

则终端设备m的电池电量队列动态更新表示为：

为了防止终端设备电池过度放电，应该满足如下约束：

其中E^min和E^max分别表示最大和最小电池放电能量。此外为了保证终端设备的电池续航能力，在时隙t电池中的能量必须大于终端设备所需能量,满足以下约束：

3.通信模型

通信系统采用具有正交信道的5G技术基站为终端设备分配带宽，所有终端设备将共享整个信道带宽B，则终端设备m和基站之间可达的上行链路传输速率为：

其中β_m(t)表示分配给终端设备m的上行链路带宽比例，h_m(t)表示终端设备m与基站的之间的信道增益，假设在每个时隙信道增益是准静态的即不变的，在不同时隙信道增益是变化的。p_m(t)表示终端设备的传输功率，σ²表示噪声功率。

4.任务计算模型

1)本地计算模型

当任务在本地计算处理时，需要计算的任务量为

本地计算能力为/>

在EH-MEC系统中，假设所有终端设备将支持动态电压频率调整技术，此技术可以根据芯片运行的应用程序对计算的不同需求，动态的调整芯片的运行频率和电压从而达到节能的目的，则本地计算时延表示为：

本地计算能耗为：

其中κ_m是终端设备芯片架构的有效电容系数。

2)卸载计算模型

当任务进行卸载处理时，卸载的任务量为

服务器分配给终端设备m的计算资源为/>

在执行卸载计算时经过三个过程：1)任务上传；2)服务器执行任务；3)服务器将任务执行结果返回给终端设备。则任务上传过程的传输时延为：

相应的传输能耗为：

收到任务之后边缘服务器根据自己的计算资源状况做出合理分配用于计算卸载过来任务，此时计算时延为：

则在边缘服务器处理任务消耗的时间为：

任务的执行结果大小相比较于输入的任务大小而言可忽略不计，故此时计算结果返回时间和能耗也可忽略不计，则在时隙t处理任务花费的总时延为：

在时隙t任务处理花费的总能耗为：

因此，终端设备在完成任务花费的执行时间和能量消耗总成本可表述为:

其中γ₁，γ₂表示权重因子，用于在时延和能耗之间进行权衡。

二、问题描述

1.优化问题描述

为了在队列稳定，以及有限的计算和通信资源约束下最小化系统完成任务的总成本，定义矩阵A_t＝{α_m(t)}＝{α₁(t),α₂(t),...,α_m(t)}代表卸载决策的集合，

代表服务器的计算资源分配集合B_t＝{β_m(t)}＝{β₁(t),β₂(t),...,β_m(t)}代表子信道分配决策集合，则可建模为一个时间平均意义上的长期随机优化问题：

其中，C1表示对卸载决策变量的约束；C2是对信道分配变量的约束；C3与C4是对服务器计算能力的约束，表示边缘服务器分配的总的计算能力不能超过最大值；C5和C6是对时延和能量的约束，保证总的执行时间不超过最大可容忍延迟，且每次计算任务之后电池能量不耗尽；C7表示任务队列的稳定性约束。

其中，A_t＝{α_m(t)}＝{α₁(t),α₂(t),...,α_m(t)}，B_t＝{β_m(t)}＝{β₁(t),β₂(t),...,β_m(t)}以及

分别表示终端设备任务卸载决策集合，带宽分配集合以及服务器计算资源分配集合；C_m(t)表示终端设备m完成任务的执行时间和能量消耗总成本；α_m(t)表示终端设备m的卸载决策变量；β_m(t)表示分配给终端设备m的上行链路带宽比例；/>

表示服务器分配给终端设备m的计算资源；f_ms_ax表示服务器的最大计算资源；/>

表示在时隙t终端设备m消耗的总能耗；B_m(t)表示时隙t终端设备m电池中剩余电量；e_m(t)表示时隙t终端设备m收集到的能量；/>

表示时隙t处理任务花费的总时延；τ_m表示表示终端设备m的时延容忍阈值；Q_m(t)表示在时隙t终端设备m任务队列中的任务量(bit)；T表示系统运行时间；M表示终端设备数量；/>

表示求期望。

2.优化问题转化

分析可知，问题P是一个非凸的混合整数非线性规划(Mixed-Integer NonlinearProgramming,MINLP)问题，在每个时隙任务卸载策略和资源分配策略是耦合的，为了将问题解耦，我们采用Lyapunov优化理论，根据任务队列和能量队列构建出李雅普诺夫二次函数；通过控制李雅普诺夫二次函数确定出李雅普诺夫漂移函数；根据李雅普诺夫漂移函数确定出李雅普诺夫漂移加惩罚函数；通过最小化李雅普诺夫漂移加惩罚函数，确定出观测到任务队列的状态时进行任务卸载决策和资源分配。将连续时隙的决策问题，转化为确定时隙中的两个子问题。

为了联合控制任务队列和能量队列，定义联合队列Z(t)＝{Q(t),B(t)}其中Q(t)＝{Q_m(t)}表示任务队列，B(t)＝{B_m(t)}表示能量队列，因此定义Lyapunov二次函数为：

其中当t＝0时，L(Z(t))＝0，如果任务队列积压越多，则L(Z(t))会越来越大，反之，L(Z(t))会很小，因此了可以通过控制L(Z(t))的值使得任务队列积压变小。Lyapunov漂移函数定义为：

为了在稳定联合队列的同时使得终端设备完成任务的总成本最小化，定义漂移加惩罚函数为：

其中V>0是一个衡量惩罚的参数，通过最小化Δ_VZ(t)，可以保证联合队列的稳定性同时最小化终端设备完成任务的总成本，因此，以下将推导出Δ_VZ(t)的上界，根据三角不等式[]可以得到：

则由以上不等式对于所有终端设备m可得：

将上式代入Lyapunov漂移函数可得：

其中

分别是b_m(t),A_m(t),/>

e_m(t)的上界值，因此,漂移函数加惩罚的上界表达为：

基于Lyapunov优化期望最小化理论,当观测到任务队列的状态时进行任务卸载决策和资源分配，定义：

因此，可在每个时隙内最小化问题：

其中，H(A_t,B_t,F_t)表示成本函数，A_t＝{α_m(t)}＝{α₁(t),α₂(t),...,α_m(t)}，B_t＝{β_m(t)}＝{β₁(t),β₂(t),...,β_m(t)}以及

分别表示终端设备任务卸载决策集合，带宽分配集合以及服务器计算资源分配集合；V>0是一个衡量惩罚的参数。

三、算法方案设计

1.优化问题转化

优化问题P1，是在一个确定时隙内的优化问题，涉及到取值为离散整数的卸载决策变量A_t，以及取值连续的B_t,F_t，既有连续值又有离散值并且系统是高度动态的，随着变量维数的增加，整个系统的计算复杂度将显著增加，利用传统的优化算法很难解决此类高复杂性的动态问题。另一方面，为了求解在时隙t内的P1问题，需要根据该时隙联合队列Z(t)＝{Q(t),B(t)}以及信道增益{h_m(t)}的状态从而决定任务卸载决策和资源分配。一旦我们确定任务的卸载决策，资源分配方案可利用启发式算法来求解，因此本发明通过多算法组合启发式搜索的方式，设计了基于深度强化学习和改进自适应遗传算法的联合计算卸载和资源分配方案，算法框架如图3所示。

2.优化问题转化

针对优化问题P1，要根据联合队列的变化，以及信道状态的变化去获取任务卸载决策和资源分配策略，是一个NP难问题。然而，一旦确定任务卸载决策A_t，P1问题就可以简化没有整数变量的资源分配子问题。根据资源优化的结果可以获得最优的卸载决策(A_t)^*：

对于卸载决策子问题P2，考虑到系统的动态特性，将采用基于深度强化学习的卸载策略算法通过与环境的交互学习获得卸载决策。问题被建模成马尔可夫决策(MarkovDecision Process,MDP)过程，主要包括以下三个要素：

1)状态空间：是系统所有可能状态的集合，包括在每个时隙，信道条件的变化，以及能量队列和任务队列的变化，因此状态空间定义为：

s_t＝{h_m(t),Q_m(t),B_m(t)}

2)动作空间：是智能体所有可能执行的动作的集合，智能体根据当前系统状态基于不同的奖励而选择不同的卸载决策，以期望获得更大的奖励，因此动作空间定义为：

a_t＝{α_m(t)}

3)奖励函数：是指智能体执行卸载决策动作之后，系统环境反馈给智能体的奖励，即终端设备执行任务的时延和能耗加权和越大，奖励越低。执行卸载决策之后若不满足约束则返回一个负的奖励代表对智能体的惩罚，智能体的目标是执行卸载决策动作之后能够最大化获得的奖励，本发明的目标函数是最小化终端设备完成任务的总成本，因此我们定义奖励函数为：

其中C₀与C₁为正常数，其值大于H(A_t,B_t,F_t)的理论上界。

1.基于自适应遗传算法的资源分配模块

对于问题P2的求解，深度强化学习算法输出任务卸载决策(A_t)^*，因此，求解资源分配子问题可以表述为：

为了有效求解资源分配子问题P3，以及平衡强化学习算法的探索和开发过程，对传统自适应遗传算法进行了改进，设计了自适应缩放因子变异策略和自适应交叉因子增加策略，为了评估算法中个体的有效性，定义适应度函数为：

该函数值越大表示个体的适应性越好，也就越容易保留在下一代。

在改进的自适应遗传算法中有四个主要步骤分别为种群初始化、变异操作、交叉操作和选择操作，具体如下。

1)种群初始化：是指对一个具有NP大小规模的种群进行初始化，用x表示种群中的个体即为解，表达为：

个体的每条染色体都是优化问题的解，表达为：

2)变异操作：在种群初始化后，通过变异操作生成新一代解，变异操作产生第k代解依赖交叉概率F_k，交叉概率将影响算法的全局搜索能力，当F_k较大时，有利于保持种群多样性和全局搜索，较小的F_k有利于提高收敛速度，因此需要根据算法的进度满足不同阶段的需求，设计了如下的自适变异概率为：

其中，F_k表示第k代的缩放因子，F_max表示最大缩放因子，F_min表示最小缩放因子，k表示种群的当前迭代代数，k_max表示种群的最大迭代代数。

在搜索的过程中，算法一开始应该保持较大的F_k以保证种群多样性和全局搜索能力，避免陷入局部最优而出现早熟现象，随着迭代次数的增加，F_k应该逐渐减少，使得前期搜索到的优良个体不会被破坏，以保证搜索到全局最优解的概率。

3)交叉操作：为了获得更好的优良个体，需要进行交叉操作，交叉过程需要设置合理的交叉概率，交叉概率CR_k将影响全局搜索能力与收敛速度。CR_k较大时,有利于提供高算法的收敛速度，当CR_k较小时，搜索过程会变的缓慢，甚至停滞不前，因此设置自适应交叉概率为：

其中，CR_k表示第k代的交叉因子，CR_max表示最大交叉因子，CR_min表示最小交叉因子，k表示种群的当前迭代代数，k_max表示种群的最大迭代代数。

4)选择操作：将产生的新个体与目标个体进行比较，如果新个体的适应度值大于或者等于目标个体的适应度值，那么新个体将取代相应的目标个体，进入下一代反之目标个体将进入下一代。

四、仿真结果及分析

本发明主要对设计的算法方案的可行性与有效性相关性能进行分析，首先对仿真环境的设置进行了介绍，然后通过不同参数对设计的算法的影响来说明算法的可行性与有效性。

1.仿真参数设置

考虑了一个具有单个基站和多个终端设备的场景，终端设备数M＝20，总时隙长度T＝2000，每个时隙的长度δ＝10ms，用户在每个时隙任务随机到达，任务的平均到达率

信道带宽B＝10MHz服务器的最大计算能力/>

终端设备的最大计算能力/>

任务处理的单位密度U_m(t)＝1000cycles/bit，终端设备的电容系数κ_m＝10^-28，终端设备最大可收集的能量为0.2mJ，终端设备的最大放电电量为/>

最大放电电量/>

图4与图5表明了不同的控制参数V对任务队列以及总成本的影响，在算法中，参数V主要用于衡量系统的总成本和任务队列的稳定性图4显示了不同参数V下任务队列长度的变化，随着V的增加，任务队列长度增加，图5显示了不同控制参数V下总成本的变化，随着V的增加，系统成本逐渐减低。原因是当V越大，EH-MEC系统将更加注重成本，所提方案将动态调整卸载决策，以降低总体成本。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，基于任务队列模型、任务计算模型和能量收集模型建立一个时间平均意义上的长期随机优化问题：

P:

约束条件：

C1:α_m(t)∈{0，1}；

C2:

C3:

C4:

C5:

C6:

C7:

表示服务器分配给终端设备m的计算资源；/>

表示服务器的最大计算资源；/>

表示求期望。/>

3.根据权利要求1所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，将长期随机优化问题，通过李雅普诺夫随机优化理论解耦成每个确定时隙内的卸载决策子问题以及资源分配子问题包括根据任务队列和能量队列构建出李雅普诺夫二次函数；通过控制李雅普诺夫二次函数确定出李雅普诺夫漂移函数；根据李雅普诺夫漂移函数确定出李雅普诺夫漂移加惩罚函数；通过最小化李雅普诺夫漂移加惩罚函数，确定出观测到任务队列的状态时进行任务卸载决策和资源分配。

4.根据权利要求3所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，将长期随机优化问题，通过李雅普诺夫随机优化理论解耦成每个确定时隙内的子问题包括：

P1:

约束条件：

C1:α_m(t)∈{0，1}；

C2:

C3:

C4:

C5:

C6:

C7:

分别表示终端设备任务卸载决策集合，带宽分配集合以及服务器计算资源分配集合；V>0是一个衡量惩罚的参数；C_m(t)表示终端设备m完成任务的执行时间和能量消耗总成本；α_m(t)表示终端设备m的卸载决策变量；β_m(t)表示分配给终端设备m的上行链路带宽比例；/>

表示服务器分配给终端设备m的计算资源；/>

表示服务器的最大计算资源；/>

表示求期望。

5.根据权利要求4所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，卸载决策子问题表示为：

P2:

其中，(A_t)^*表示在时隙t的最优卸载决策。

6.根据权利要求5所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，求解解耦后的卸载决策子问题包括利用深度强化学习算法将卸载决策子问题建模成马尔可夫决策过程；根据在每个时隙信道条件的状态、能量队列的状态和任务队列的状态，构建出状态空间；智能体根据当前系统状态基于不同奖励所选择的不同卸载决策，确定出动作空间；根据执行卸载决策后，当前系统反馈给智能体的奖励，构建出奖励函数；

状态空间为：s_t＝{h_m(t),Q_m(t),B_m(t)}；

动作空间为：a_t＝{α_m(t)}；

奖励函数为：

其中h_m(t)表示终端设备m与基站之间的信道增益，H(A_t,B_t,F_t)表示成本函数，C₀与C₁为正常数。

7.根据权利要求4所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，资源分配子问题表示为：

P3:

s.t.C2-C7

其中，(A_t)^*表示在时隙t的最优卸载决策。

8.根据权利要求7所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，求解解耦后的资源分配子问题包括利用自适应遗传算法，对种群进行初始化，按照自适应变异因子生成变异向量；按照自适应交叉因子生成交叉向量；将新产生的资源分配个体和目标资源分配个体进行比较，选择相应的资源分配个体进入下一代迭代，直至确定出最终的资源分配个体。

9.根据权利要求8所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，所述自适应变异因子为：

10.根据权利要求8所述的一种能量收集MEC系统中任务卸载和资源分配方法，其特征在于，所述自适应交叉因子为：