CN114928394A

CN114928394A - 一种能耗优化的低轨卫星边缘计算资源分配方法

Info

Publication number: CN114928394A
Application number: CN202210356235.9A
Authority: CN
Inventors: 吴昊南; 杨秀梅; 卜智勇; 赵宇; 唐亮
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-08-19

Abstract

本发明提供一种能耗优化的低轨卫星边缘计算资源分配方法，包括：获取动态的低轨卫星边缘计算网络的环境状态信息；根据环境状态信息，构建以最小化系统能耗开销为优化目标的优化问题模型，系统能耗开销为地面移动终端和低轨卫星的处理能耗的加权之和；基于优化问题模型，定义强化学习模型的核心要素，并设计状态评价函数来优化状态空间；利用基于优化DQN的深度强化学习算法求解深度强化学习模型；基于求解结果，获取能耗优化的计算资源分配策略，分发至各地面移动终端、低轨卫星和地面云服务器。本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的计算资源分配问题，提高了计算效率，降低了系统能耗开销。

Description

一种能耗优化的低轨卫星边缘计算资源分配方法

技术领域

本发明属于无线通信技术领域，具体涉及一种能耗优化的低轨卫星边缘计算资源分配方法。

背景技术

在低轨卫星边缘计算网络中，面临的一大关键挑战是如何处理亟需能源的计算密集型任务和有限资源的计算服务提供设备之间的矛盾。然而，在目前的低轨卫星边缘计算网络研究中，通常设计仅针对地面移动终端或低轨卫星的任务处理能耗作为系统的优化目标，而忽略将其两者都纳入任务处理能耗开销。结合低轨卫星边缘计算网络场景，由于低轨卫星具有高速移动、电池容量和计算能力有限的特点，低轨卫星边缘计算网络中网络环境信息动态更新，导致环境状态信息具有较高的维度。并且，环境状态空间以及计算资源分配解空间维度随着任务、低轨卫星和地面云服务器数量增加而指数性增长，这要求计算资源分配求解方法具有一定的泛化能力和拓展性。

目前低轨卫星边缘计算网络的研究主要以最小化卫星能耗或地面移动终端能耗为单一优化目标，尚未将其两者同时纳入系统能耗开销进行联和优化，并缺乏在低轨卫星高速移动、资源受限的情况下对计算资源分配方法进一步的研究。

在文献[1]中，研究人员以最小化网络中的地面移动终端的能耗开销为优化目标，通过将资源分配优化问题拆分成多个凸优化问题来逐次利用基于传统优化理论的方法进行求解。在文献[2]中，研究人员在动态网络环境中以最小化地面移动终端能耗为优化目标，将非凸问题转换为线性规划问题，利用交替方向乘子法获取最优计算资源分配策略。然而，在实际低轨卫星边缘计算网络场景中，考虑到低轨卫星高速移动和有限资源的特点，上述方法难以根据动态网络环境状态进行定制化求解，易受到系统扰动影响，存在通用性和拓展性较差的问题，在计算效率上存在瓶颈。

因此，如何以最小化地面移动终端和低轨卫星的加权系统能耗开销为目标，在考虑低轨卫星的高移动性，受限资源的情况下优化动态低轨卫星边缘计算网络的系统的计算资源分配是低轨卫星边缘计算网络需要考虑的关键问题。

参考文献：

[1]Z.Song,Y.Hao,Y.Liu,and X.Sun,“Energy-efficient multiaccessedgecomputing for terrestrial-satellite internet of things,”IEEE InternetofThings Journal,vol.8,no.18,pp.14 202–14 218,2021.

[2]Q.Tang,Z.Fei,B.Li and Z.Han,"Computation Offloading in LEOSatellite Networks With Hybrid Cloud and Edge Computing,"in IEEE Internet ofThings Journal,vol.8,no.11,pp.9164-9176,1June1,2021.

发明内容

本发明的目的在于提供一种能耗优化的低轨卫星边缘计算资源分配方法，以在低轨卫星快速移动和资源有限的情况下，提高计算效率，降低系统能耗开销。

基于上述问题，本发明提供一种能耗优化的低轨卫星边缘计算资源分配方法，包括：

S1：利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息；

S2：根据获取的环境状态信息，构建以最小化系统能耗开销为优化目标的优化问题模型，系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和；

S3：基于优化问题模型，定义强化学习模型的状态空间、动作空间和收益函数，并设计状态评价函数来优化所述状态空间；

S4：利用基于优化DQN的深度强化学习算法求解深度强化学习模型，其中，环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述深度强化学习算法的网络中；

S5：基于求解后的深度强化学习模型，获取能耗优化的计算资源分配策略，分发至各地面移动终端、低轨卫星和地面云服务器，实现计算资源分配。

优选地，所述低轨卫星边缘计算网络的环境状态信息包括：地面移动终端生成的第k批次的任务集合的状态信息向量W^k、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k。

优选地，所述步骤S1包括：

步骤S11：提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络；地面移动终端的集合、低轨卫星的集合和地面云服务器的集合分别表示为M＝{1,…,m,…,M}，N＝{1,…,n,…,N}和J＝{1,…,j,…,J}，m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数，M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量；设置每个地面移动终端每次至多能连接一颗低轨卫星；并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星建立连接；

步骤S12：设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务；随后，将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为：K＝{1,…,k,…,K}，k表示第k个任务批次，K为任务批次的总数量；将第m个地面移动终端的第k批次生成的任务

描述为

其中，

表示为任务载荷的数据大小，

表示为任务载荷所需的CPU处理周期数；将地面移动终端生成的第k批次的任务集合的状态信息向量W^k定义为

M为地面移动终端的数量；

步骤S13：设置低轨卫星均运行在圆轨道上，将轨道高度表示为H，地球半径表示为R，地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为

得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k以及整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长；

步骤S14：初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k。

优选地，低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长

为：

其中，T^LEO为低轨卫星的运行周期，

为地面移动终端m和低轨卫星n之间的地心角；

地面移动终端m和低轨卫星n之间的地心角

为：

其中，R为地球半径，H为轨道高度，

为地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角；

低轨卫星的运行周期T^LEO为：

其中，R为地球半径，H为轨道高度，μ表示开普勒常数。

优选地，所述步骤S2包括：

步骤S21：将地面移动终端生成的第k批次的任务集合的状态信息向量W^k所对应的任务调度方式向量定义为

为第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量，

为将第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各地面云服务器的决策向量，所有地面移动终端的同一个批次的任务集合中的多个任务能够选择不同的任务调度方式；任务调度方式包括：在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理；

步骤S22：根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量，确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗；

步骤S23：将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销，构建出以最小化系统能耗开销为优化目标的优化问题模型。

优选地，第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量

为：

其中，

表示第m个地面移动终端的第k批次生成的任务

被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

未被调度至低轨卫星n执行；

第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中的各低轨卫星的决策和

为

将第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各地面云服务器的决策向量

为：

其中，

表示第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j执行；

表示第m个地面移动终端的第k批次生成的任务

未通过低轨卫星n被调度至地面云服务器j执行；

第m个地面移动终端的第k批次生成的任务

通过低轨卫星被调度至各个地面云服务器的决策和为

为

优选地，所述优化问题模型为：

其中，C₁、C₂、C₃、C₄、C₅分别表示第一、第二、第三、第四和第五约束条件；

表示第m个地面移动终端的第k批次生成的任务

被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

未被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j执行；

表示第m个地面移动终端的第k批次生成的任务

未通过低轨卫星n被调度至地面云服务器j执行；

分别是第m个地面移动终端的第k批次生成的任务

在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延；

为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长；

为低轨卫星n为第m个地面移动终端的第k批次生成的任务

分配的计算资源；z^LEO是单个低轨卫星拥有的计算资源上限；

是第k批次任务开始执行时低轨卫星n的电池使用状态。

优选地，所述强化学习模型的状态空间中的每个状态s_k包括地面移动终端生成的第k批次的任务集合的状态信息向量W^k、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k；

状态评价函数g_k为：

g_k＝{g^k,1,g^k,2,g^k,3}，

其中，

表示状态s_k在动作a_k下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务

对应的第三约束条件C₃；

表示状态s_k在动作a_k下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务

对应的第三约束条件C₃；

表示状态s_k在动作a_k下不能满足低轨卫星n对应的第四约束条件，反之，

表示状态s_k在动作a_k下不能满足低轨卫星n对应的第五约束条件，反之，

所述强化学习模型的动作空间中的第k批次任务集合执行的动作a_k包括：

a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}，

其中，c^k表示第k批次任务集合的任务调度方式向量，f^k,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量，f^k,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量，f^k,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量；

所述强化学习模型的受益函数包括瞬时收益函数和累积收益函数；

所述强化学习模型的瞬时收益函数r_k为：

其中，

为第m个地面移动终端的第k批次生成的任务

在地面移动终端的任务处理能耗，

为第m个地面移动终端的第k批次生成的任务

在低轨卫星的任务处理能耗；

所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π^*，对于系统的计算资源分配策略π:S→A，执行至第k批次任务开始时的累积收益函数表示为：

其中，γ∈[0,1]作为收益折扣率来映射未来收益的重要性，E_π[·]表示在可能的策略π下的期望，K表示所需处理的总任务批次数，k’表示计算过程中的任务批次，k表示当前执行任务的批次。

在所述步骤S4中，在所述强化学习模型上引入了DNN，将利用DNN的神经网络参数θ对实际Q函数Q(s_k,a_k)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新，最终获取的拟合Q函数的最优结果为最优策略评估函数Q^*(s_k,a_k)，此时深度强化学习模型求解完成。

在所述步骤S5中，智能体将第k批次获取收集环境状态信息作为状态s_k输入，进行计算得到状态评价函数g_k；随后利用步骤S3建立的优化问题模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解，输出计算资源分配策略a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}，得到各任务调度方式和各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{f^k ^,GMT,f^k,LEO,f^k,GCS}，并分发至各地面移动终端、低轨卫星和地面云服务器。

本发明的方法构建以最小化地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权系统能耗开销为目标的优化问题模型，使得智能体在考虑低轨卫星高速移动，有限能源和计算资源的情况下分发系统最优计算资源分配策略，完成任务执行，实现了低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器的计算资源分配并降低了系统能耗开销；此外，以MDP为框架定义了优化问题在强化学习模型下的核心要素，并根据系统约束设计状态评价函数优化状态空间，来获取系统的计算资源分配策略，由此，实现了高效的计算资源分配策略，提高了计算效率。此外，本发明基于优化DQN的深度强化学习算法，进一步高效地计算资源分配策略，提高了计算效率。

综上，本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的低轨卫星边缘计算资源分配问题，提高了计算效率，降低了系统能耗开销。

附图说明

图1是本发明的能耗优化的低轨卫星边缘计算资源分配方法的流程图。

图2是本发明的能耗优化的低轨卫星边缘计算资源分配方法的智能体的计算架构示意图。

图3是本发明的能耗优化的低轨卫星边缘计算资源分配方法的实验场景示例图。

图4是低轨卫星的圆轨道模型图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明针对现有技术的不足，提出了一种能耗优化的低轨卫星边缘计算资源分配方法。本发明的能耗优化的低轨卫星边缘计算资源分配方法以最小化地面移动终端和低轨卫星能耗的加权系统能耗开销为优化目标，该方法利用动态低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器进行计算资源分配，设计合理的强化学习模型核心要素和状态评价函数简化状态空间，基于优化DQN的深度强化学习算法，获取优化的计算资源分配策略，并进行策略分发。

如图1所示，本发明的能耗优化的低轨卫星边缘计算资源分配方法的具体步骤如下：

步骤S1：利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息；

其中，智能体位于地面和卫星上均可，通常位于地面上。在本实施例中，智能体优选为地面云服务器。

本发明考虑的系统，即低轨卫星边缘计算网络由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成，地面移动终端的集合、低轨卫星的集合和地面云服务器的集合可以分别表示为M＝{1,…,m,…,M}，N＝{1,…,n,…,N}和J＝{1,…,j,…,J}，m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数，M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量。

所述低轨卫星边缘计算网络的环境状态信息包括：地面移动终端生成的第k批次的任务集合的状态信息向量W^k，其用于确定地面移动终端生成的任务的状态信息向量；第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k，其用于确定低轨卫星的覆盖情况；任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k，其用于反映地面云服务器对任务的可见性；和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k，其用于反映低轨卫星的电池使用状态。

这是由于，第m个地面移动终端的第k批次生成的任务

的计算资源分配策略取决于地面移动终端生成的任务的状态信息向量(即地面移动终端生成的第k批次的任务集合的状态信息向量W^k)、低轨卫星的覆盖情况(即第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k)、地面云服务器对任务的可见性(即任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k)和低轨卫星的电池使用状态(即第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k)。

在所述步骤S1中，在获取所述低轨卫星边缘计算网络的环境状态信息，包括：

步骤S11：提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络，地面移动终端和低轨卫星均具有处理任务的移动边缘计算能力，地面云服务器具有计算能力；设置每个地面移动终端每次至多能连接一颗低轨卫星；并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星实现可见的星地传输链路中转，进而通过低轨卫星建立连接。

描述为

其中，

表示为任务载荷的数据大小，

表示为任务载荷所需的CPU处理周期数。随后，将地面移动终端生成的第k批次的任务集合的状态信息向量W^k定义为

M为地面移动终端的数量。

步骤S13：考虑到低轨卫星在实际场景的高速移动性，设置低轨卫星均运行在圆轨道上，将轨道高度表示为H，地球半径表示为R，地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为

得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k以及相应的整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长，从而确定低轨卫星的覆盖情况。

此时，地面移动终端m和低轨卫星n之间的地心角

可以表示为：

其中，R为地球半径，H为轨道高度，

为地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角，m、n分别为地面移动终端和低轨卫星的序数。

第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k可以表示为：

对于位于轨道高度H的低轨卫星，该低轨卫星的运行周期T^LEO为：

其中，R为地球半径，H为轨道高度，μ表示开普勒常数。

因此，低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长

可以表示为：

其中，T^LEO为低轨卫星的运行周期，

为地面移动终端m和低轨卫星n之间的地心角。

低轨卫星n对于地面云服务器j开始执行第m个地面移动终端的第k批次生成的任务

时的可见性可以表示为

其中，

表示地面云服务器j可用于处理第m个地面移动终端的第k批次生成的任务

k表示任务批次，m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数。相应地，可以根据低轨卫星n对于地面云服务器j开始执行第m个地面移动终端的第k批次生成的任务

时的可见性

以及第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k，来得到第k批次任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k。在低轨卫星和地面云服务器之间的可见性成立的前提下(低轨卫星和地面云服务器之间可见)，第k批次任务开始执行时地面移动终端在低轨卫星在服务覆盖范围内，则确定第k批次任务开始执行时地面移动终端和地面云服务器之间的可见性为1，否则，第k批次任务开始执行时地面移动终端和地面云服务器之间的可见性为0。

第k批次任务开始执行时低轨卫星n的电池使用状态可以表示为

整个低轨卫星边缘计算网络中，第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k可以表示为

步骤S2：根据获取的环境状态信息，构建以最小化系统能耗开销为优化目标的问题模型，系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和。

所述步骤S2包括：

步骤S21：将所有地面移动终端的第k批次的任务集合的状态信息向量W^k所对应的任务调度方式向量定义为

为第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量，

为将第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各地面云服务器的决策向量，所有地面移动终端的同一个批次(例如第k批次)的任务集合中的多个任务能够选择不同的任务调度方式。

根据不同网络环境和任务需求，任务调度方式包括：在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理。也就是说，第m个地面移动终端的第k批次生成的任务

可以选择在本地进行处理、传输至低轨卫星进行处理或通过低轨卫星传输至地面云服务器进行处理。

对于低轨卫星边缘计算网络中的所有地面移动终端的第k批次的任务集合的状态信息向量W^k，描述对应的任务调度方式向量

可以表示为：

为第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量。

其中，将第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量

可以表示为：

其中，

表示第m个地面移动终端的第k批次生成的任务

被调度至低轨卫星n执行；

表示任务

未被调度至低轨卫星n执行。

因此，第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中的各低轨卫星的决策和

可以表示为

其中，将第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各地面云服务器的决策向量

可以表示为：

其中，

表示第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j执行；

表示第m个地面移动终端的第k批次生成的任务

未通过低轨卫星n被调度至地面云服务器j执行。

因此，第m个地面移动终端的第k批次生成的任务

通过低轨卫星被调度至各个地面云服务器的决策和

可以表示为

由于对于任何的m、k，第m个地面移动终端的第k批次生成的任务

每次仅能选择一种任务调度方式，因此，可以得到：

下面以第m个地面移动终端的第k批次生成的任务

为例，说明第k批次的任务集合中的每一个任务所对应的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗。

(a)具体地，当第m个地面移动终端的第k批次生成的任务

选择在本地执行的策略时，可以得到

地面移动终端在执行本地任务分配的计算资源表示为

那么低轨卫星边缘计算网络中，地面移动终端对第k批次任务集合中各任务分配的计算资源向量可以表示为：

其中，

为第m个地面移动终端的第k批次生成的任务

在执行本地任务分配的计算资源。

需要说明的是，若一部分任务采用了其他非本地执行的策略，这个采用了其他策略的任务的终端计算资源依然用此表示，只是对应的终端计算资源为0。

此时，第m个地面移动终端的第k批次生成的任务

的处理时延

等于该任务

的计算时延

可以表示为

第m个地面移动终端的第k批次生成的任务

的任务处理能耗

等于地面移动终端的任务处理能耗

也等于地面移动终端的任务计算能耗

即

其中ζ表示芯片能耗系数，芯片能耗系数ζ用于计算任务处理能耗。

(b)具体地，当第m个地面移动终端的第k批次生成的任务

选择被调度至低轨卫星的策略时，可以得到第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中的各低轨卫星的决策和

低轨卫星n为第m个地面移动终端的第k批次生成的任务

分配的计算资源表示为

那么低轨卫星对第k批次任务集合中各任务分配的计算资源向量可以表示为

由于各低轨卫星的计算资源有限，分配给各任务的计算资源和不能超过低轨卫星拥有的计算资源

地面移动终端和执行任务的低轨卫星之间的传播时延

任务上传至低轨卫星的传输时延

以及执行任务的低轨卫星的任务计算时延

即

第m个地面移动终端的第k批次生成的任务

的任务处理能耗

包括地面移动终端的任务处理能耗

和低轨卫星的任务处理能耗

即

其中，地面移动终端的任务处理能耗

等于任务上传至低轨卫星的传输能耗

即

低轨卫星的任务处理能耗

包括接收任务的传输能耗

和任务的计算能耗

即

(c)具体地，当第m个地面移动终端的第k批次生成的任务

选择通过低轨卫星被调度至地面云服务器进行处理的策略时，可以得到第m个地面移动终端的第k批次生成的任务

通过低轨卫星被调度至各个地面云服务器的决策和

第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j分配的计算资源表示为

那么地面云服务器对第k批次任务集合中各任务分配的计算资源向量可以表示为

此时，第m个地面移动终端的第k批次生成的任务

的处理时延

包括地面移动终端通过低轨卫星中转至执行任务的地面云服务器之间的传播时延

任务上传至中转低轨卫星的传输时延

任务通过低轨卫星卸载至地面云服务器的传输时延

以及执行任务的地面云服务器的任务计算时延

即

第m个地面移动终端的第k批次生成的任务

的任务处理能耗

包括地面移动终端的任务处理能耗

和低轨卫星的任务处理能耗

即

其中，地面移动终端的任务处理能耗等于任务上传至低轨卫星的传输能耗

即

低轨卫星的任务处理能耗

包括接收任务的传输能耗

和下载任务的传输能耗

即

(d)综合上述的第m个地面移动终端的第k批次生成的任务

在不同调度方式下的描述，第m个地面移动终端的第k批次生成的任务

的处理时延

可以表示为

分别是第m个地面移动终端的第k批次生成的任务

在任务调度方式为在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延(

中的其中两个的值是0)。因此，对于由移动地面终端集合M组成的第k批次任务集，最大的处理时延可以表示为

每当集合M的第k批次任务集均完成处理，集合M开始进行处理第k+1批次任务。第m个地面移动终端的第k批次生成的任务

在地面移动终端的任务处理能耗

可以表示为

其中，

分别是第m个地面移动终端的第k批次生成的任务

在任务调度方式为在本地进行处理和传输至低轨卫星进行处理时在地面移动终端的任务处理能耗。第m个地面移动终端的第k批次生成的任务

在低轨卫星的任务处理能耗

可以表示为

其中，

分别是第m个地面移动终端的第k批次生成的任务

在任务调度方式为传输至低轨卫星进行处理和通过低轨卫星传输至地面云服务器进行处理时在低轨卫星的任务处理能耗。

此外，考虑到任务的调度方式受到低轨卫星有限的电池容量所影响，在第k批次任务开始时需满足

本发明定义的系统能耗开销为地面移动终端的任务处理能耗与低轨卫星的任务处理能耗的加权之和。权重反映了地面移动终端能耗与低轨卫星能耗在系统能耗开销中的相对重要性，其中α∈[0,1]表示移动地面终端能耗占系统能耗开销的权重，(1-α)表示低轨卫星能耗占系统能耗开销的权重。

因此，以最小化系统能耗开销为优化目标的优化问题模型(即联合能耗优化问题)的具体描述如下：

表示第m个地面移动终端的第k批次生成的任务

被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

未被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j执行；

表示第m个地面移动终端的第k批次生成的任务

未通过低轨卫星n被调度至地面云服务器j执行；

分别是第m个地面移动终端的第k批次生成的任务

为低轨卫星n为第m个地面移动终端的第k批次生成的任务

是第k批次任务开始执行时低轨卫星n的电池使用状态。

也就是说，第一、第二约束条件C₁和C₂表示每个任务(即

)仅能选择一种调度方式；第三约束条件C₃表示每个任务若选取包括低轨卫星参与的任务调度方式，任务执行时延不应超过相应低轨卫星对任务的有效覆盖时间；第四约束条件C₄表示指每个低轨卫星为处理任务集中各个任务所分配的计算资源之和不能超过可用计算资源上限；第五约束条件C₅表示每个低轨卫星应保持可用能源状态始终大于0。

步骤S3：基于优化问题模型，定义强化学习模型的核心要素(即状态空间、动作空间和瞬时收益函数)，并设计状态评价函数来优化所述状态空间；

在所述步骤S3中，使用马尔科夫决策过程(MarkovDecisionProcess，MDP)的框架来建立强化学习模型的求解方法。强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法，通过使用状态、动作和收益3个核心要素来定义智能体与环境交互的过程。

基于步骤2中建立的优化问题，本发明构建的强化学习模型的状态空间、动作空间和收益函数的定义如下：

状态空间：强化学习模型的状态空间中的每个状态对应于所述低轨卫星边缘计算网络的环境状态信息，其包括地面移动终端生成的第k批次的任务集合的状态信息向量W^k、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k等。

因此，在第k批次任务开始执行时的状态s_k∈S表示为：

s_k＝{W^k,β^k,b^k,U^k}，

其中，W^k表示地面移动终端生成的第k批次的任务集合的状态信息向量；β^k表示第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量；b^k表示第k批次任务开始执行时各地面移动终端和地面云服务器之间的可见性信息向量；U^k表示第k批次任务开始执行时各低轨卫星的电池使用状态信息向量。

然而，由于s_k具有无限的状态取值，且空间维度随着任务数量增加而指数增长，这对于获取高效的计算资源分配策略提出了较大的挑战。因此，本发明在优化问题的约束条件下设计了状态评价函数来反映当前状态s_k在动作a_k下的质量，实现简化具有无限取值的状态空间s_k的目的。该状态评价函数g_k可以表示为由二元变量组成的向量组，状态评价函数g_k表示为：

g_k＝{g^k,1,g^k,2,g^k,3}，

其中，

对应的第三约束条件C₃(即覆盖时间约束)，即

对应的第三约束条件C₃(即覆盖时间约束)，即

表示状态s_k在动作a_k下不能满足低轨卫星n对应的第四约束条件(即低轨卫星n分配的计算资源不应超过所拥有计算资源上限的约束)，即

反之，

即

表示状态s_k在动作a_k下不能满足低轨卫星n对应的第五约束条件(即低轨卫星n的电池状态始终保持大于0的约束)；反之，

动作空间：所述强化学习模型的动作空间中的每个动作包括任务调度方式和地面移动终端、低轨卫星和地面云服务器分配给各任务的计算资源。具体的，所述强化学习模型的动作空间中的第k批次任务集合执行的动作a_k∈A表示为：

a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}

其中，c^k表示第k批次任务集合的任务调度方式向量，f^k,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量，f^k,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量，f^k,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量。

其中，分配的计算资源数值为人为规定，通过将可分配最大的计算资源进行离散化处理来确定数值。

收益函数：瞬时收益函数r_k被认为是状态s_k在动作a_k下环境的反馈。在以最小化任务处理的地面移动终端能耗和低轨卫星能耗组成的加权系统能耗开销为优化目标的计算资源分配问题中，所述强化学习模型的瞬时收益函数r_k可以表示为：

其中，

为第m个地面移动终端的第k批次生成的任务

的地面移动终端的任务处理能耗，

为第m个地面移动终端的第k批次生成的任务

的低轨卫星的任务处理能耗。

参数的含义是地面移动终端能耗占系统能耗开销的权重，取值范围为[0,1]。

此时，所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π^*，对于系统的计算资源分配策略π:S→A，执行至第k批次任务开始时的累积收益函数可以表示为：

其中，γ∈[0,1]作为收益折扣率来映射未来收益的重要性，E_π[·]表示在可能的策略π下的期望，K表示所需处理的总任务批次数，k’表示计算过程中的任务批次，用于收益求和计算，k表示当前执行任务的批次。k’和k的区别为k’为公式计算中引入的局部变量，k表示任务的第k批次。

步骤S4：利用基于优化DQN(深度Q网络)的深度强化学习算法求解深度强化学习模型，其中，环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述强化学习模型；

上文中的步骤S3所构建的强化学习模型通过利用状态评价函数来替代原有的动作空间，实现将可能存在无穷数量的系统状态映射到离散有限的状态评价函数上。然而，此强化学习模型依然存在离散高维的输入和动作空间。

因此，为了高效地求解高性能计算资源分配策略，本发明在步骤S4中，所述强化学习模型为基于优化DQN的强化学习模型，在传统的强化学习模型上引入了DNN，将利用DNN的神经网络参数θ对实际Q函数Q(s_k,a_k)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新，最终获取的拟合Q函数的最优结果为最优策略评估函数Q^*(s_k,a_k)，即Q(s_k,a_k；θ)≈Q^*(s_k,a_k)，Q(s_k,a_k；θ)表示利用神经网络参数θ拟合得到的s_k状态下采取a_k动作的拟合Q函数。此时对应的神经网络就是求解得到的度强化学习模型，深度强化学习模型求解完成。

其中，状态-动作对(s_k,a_k)∈A×S的Q函数Q(s_k,a_k)用来表示选择的状态-动作对的质量。基于贝尔曼等式，最优策略评估函数Q^*(s_k,a_k)的计算方式可以表示为

E表示在s_k+1不确定性下的期望，γ表示未来收益的折扣率，Q^*(s_k+1,a_k+1)∣s_k,a_k表示在s_k,a_k条件下状态s_k+1下采取a_k+1动作的最优策略评估函数Q^*(s_k,a_k)。因此，本发明提出的方法通过适配基于优化DQN的深度强化学习算法，克服了传统强化学习方法遇到在存储空间和计算效率上的瓶颈，降低了系统能耗开销，提高了网络性能。

本发明设计的能耗优化的低轨卫星边缘计算资源分配方法的智能体的计算架构如图2所示。

在该低轨卫星边缘计算网络中，地面云服务器作为智能体通过执行本发明的能耗优化的低轨卫星边缘计算资源分配方法来获取优化后的计算资源分配策略，并分发优化后的策略至网络中的各地面移动终端、低轨卫星和地面云服务器。在步骤S1中，智能体收集环境状态信息(由前述定义可知，环境状态信息具体包括以下信息：低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)。其次，智能体将环境状态信息通过状态评价函数映射生成反映当前状态质量的离散状态作为输入信息，输入至基于优化DQN的深度强化学习算法的网络中。

该深度强化学习算法的网络由分别名为在线网络和目标网络两个部分组成，被用于稳定和优化网络性能，在线网络通过最小化损失函数梯度更新来进行对应策略更新，目标网络用于限制在线网络策略更新幅度，稳定网络性能。其中，在线网络和目标网络的神经网络参数分别定义为θ和θ^-。在线网络和目标网络具有相同的网络结构。目标网络每隔一定迭代次数从在线网络中复制网络参数θ用以更新自身的网络参数θ^-。

在线网络的网络参数θ在每次迭代中通过最小化对应的损失函数进行梯度更新，该损失函数可以表示为：

其中，y表示目标网络的Q函数值，Q(s_k,a_k；θ)表示利用在线网络的网络参数θ拟合得到的s_k状态下采取a_k动作的拟合Q函数，E[]表示在经验(s_k,a_k,r_k,s_k+1)不确定性下的期望，L_π(θ)表示在策略π下的损失函数。

目标网络的Q函数值y的计算方式可以表示为：

其中，Q(s_k+1,a_k+1；θ^-)表示利用目标网络的网络参数θ^-拟合得到的s_k状态下采取a_k动作的拟合Q函数，γ为收益折扣率，r_k为强化学习模型的瞬时收益函数r_k。

此外，DQN作为一种离线策略方法，利用经验回放机制，在每次任务批次k执行时，DQN将智能体获取的经验(s_k,a_k,r_k,s_k+1)存入经验回放池中，然后在每次网络参数更新时从经验回放池中随机采样小批量样本进行更新。本发明利用状态评价函数g_k来替代状态s_k，将智能体的经验替换为(g_k,a_k,r_k,g_k+1)，简化输入的状态空间，进行参数更新。

在该深度强化学习算法的网络收集足够反映训练环境与智能体交互的样本经验集，并通过采样小批量样本经验回放获取了稳定收敛的计算资源分配策略后，结束训练优化，停止迭代。网络是否收集足够反映训练环境与智能体交互的样本经验集可以通过观察获取的计算资源分配策略的收益情况是否收敛稳定，也可以通过在线网络的损失函数收敛逼近0来判定。

步骤S5：基于求解后的深度强化学习模型，获取能耗优化的计算资源分配策略，分发至系统内各地面移动终端、低轨卫星和地面云服务器，实现计算资源分配。

在所述步骤S5中，智能体将第k批次获取收集环境状态信息(具体包括低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)作为状态s_k输入，进行计算得到状态评价函数g_k；随后利用步骤S3建立的强化学习模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解，输出计算资源分配策略a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}，得到各任务调度方式和系统内各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{f^k,GMT,f^k,LEO,f^k,GCS}，并分发至系统内各对应设备。

由此，本发明的能耗优化的低轨卫星边缘计算资源分配方法，其优势在于：

1)在包含地面移动终端、低轨卫星和地面云服务器的低轨卫星边缘计算网络中，以地面云服务器为智能体，考虑了包括低轨卫星对任务的动态覆盖情况、低轨卫星可分配的最大计算资源以及低轨卫星上的电池使用状态在内的动态特征，以最小化地面移动终端和低轨卫星能耗组成的加权系统能耗开销为优化目标，实现将地面移动终端上的计算任务在系统内进行计算资源分配。利用智能体在动态低轨卫星边缘计算网络中进行计算资源分配，能够减少地面移动终端和卫星能耗开销，提升低轨卫星边缘计算网络的性能。

2)针对低轨卫星和地面移动终端的双重能耗优化目标，定义加权系统能耗开销作为优化目标。引入深度强化学习方法，解决动态低轨卫星边缘计算网络的计算资源分配问题。基于MDP框架定义强化学习模型的核心要素，并为优化状态空间定义了状态评价函数，提出了基于优化DQN的算法求解和生成策略分发的方式。考虑到低轨卫星高速移动和资源受限的特点，所提方法在动态低轨卫星边缘计算网络中的计算效率和系统能耗开销方面具有明显性能优势。

实验结果：

下面以5个地面移动终端，3颗低轨卫星和2个地面云服务器的一个场景为例，给出本发明的能耗优化的低轨卫星边缘计算资源分配方法的具体示例。

根据步骤S1，利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息。

本实验示例中，低轨卫星边缘计算网络的计算资源分配场景如图3所示。该低轨卫星边缘计算网络以地面云服务器为智能体，包括M个地面移动终端，N颗低轨卫星和J个地面云服务器，具体M＝5,N＝3,J＝2。假设假定低轨卫星均运行在圆轨道上，低轨卫星轨道模型如图4所示。其中，轨道高度表示为H＝800km，地球半径表示为R＝6370km。

根据步骤S2，根据获取的环境状态信息，构建以最小化系统能耗开销为优化目标的优化问题模型，系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和。

为了解决最小化系统能耗开销为优化目标的计算资源分配问题，智能体(地面云服务器)利用获取的网络环境状态信息，在实际动态的低轨卫星边缘计算网络的约束条件下(低轨卫星对任务的覆盖时间约束，低轨卫星分配的计算资源约束和低轨卫星的电池使用状态约束)，对优化问题进行数学建模。

具体地，当任务

选择本地执行策略时，任务处理时延和能耗分别通过以下计算方式得到，即

其中，ζ表示芯片的能耗系数。

当任务

选择被调度至低轨卫星的策略时，任务的处理时延可以通过以下计算方式得到，即

其中，

表示地面移动终端m到低轨卫星n的距离，c表示光的传播速度，

表示任务

被上传至低轨卫星n的上传速率。

可以表示为

任务处理的地面移动终端能耗可以表示为

其中，

表示地面移动终端m的上行传输功率。此外，低轨卫星能耗可以表示为

其中，

表示为低轨卫星获取每比特任务数据的能耗。

当任务

选择通过低轨卫星被调度至地面云服务器进行处理的策略时，任务处理时延可以通过以下计算方式得到，即

其中，

表示低轨卫星n到地面云服务器j的距离，

表示任务

通过低轨卫星n被卸载至地面云服务器j的下载速率。任务处理的地面移动终端能耗可以表示为

任务处理的低轨卫星能耗可以表示为

其中，

表示低轨卫星n的下行传输功率。

本发明以铱星系统为例，低轨卫星n的电池使用状态在第k+1批次任务开始时的约束条件可以表示为：

其中，U_max,

分别表示低轨卫星n上电池最大使用能源，低轨卫星n利用太阳能板获取的能源和低轨卫星n处理第k批次任务所消耗的能源。

可以通过以下计算方式得到。

表示低轨卫星n在执行第k批次中利用太阳能板获取的能源、

表示低轨卫星n在执行第k批次任务中所消耗的能源，

表示执行第k批次任务所需的最大时延，

表示太阳能每秒转换成能源的效率。

可以通过以下计算方式得到，

P_n表示日常的能源消耗。

根据步骤S3，基于优化问题，定义强化学习模型核心要素，并设计状态评价函数优化状态空间。

利用MDP建模的强化学习模型核心要素主要包括状态空间，动作空间以及收益函数。本发明为优化状态空间，设计了状态评价函数来替代状态空间。在基于动态低轨卫星边缘计算网络背景下，优化问题模型各核心要素的具体设计如下：

状态空间设计：以第k批次任务开始执行时的状态s_k∈S为例，包括任务集合生成的状态信息向量；任务开始执行时各地面移动终端和低轨卫星之间的地心角向量，用于反映低轨卫星对任务的覆盖情况；任务开始执行时各地面移动终端和地面云服务器之间的可见性信息向量，用于反映地面云服务器对任务的可见性；任务开始执行时各低轨卫星的电池使用状态信息向量，用于反映低轨卫星此时的电池使用状态。

状态评价函数设计：包括3类二元变量组成的向量组，表示当前状态在动作下的质量，分别为低轨卫星对任务的覆盖时间约束，低轨卫星分配的计算资源上限约束和低轨卫星的电池使用状态约束。

动作空间设计：对第k批次任务集合执行的动作a_k∈A为例，包括任务的调度方式，地面移动终端、低轨卫星和地面云服务器为各任务分配的计算资源。

收益函数设计：以状态s_k在动作a_k下的反馈r_k为例，描述为由因任务处理造成的地面移动终端的能耗和低轨卫星的能耗下加权组成的系统能耗开销。系统优化目标为最大化累积收益函数。

根据步骤S4，利用基于优化DQN的深度强化学习算法求解深度强化学习模型。

具体地，本发明中所提供的基于DQN的计算资源分配算法流程包括以下步骤：

步骤S41：初始化经验回放池U，以及在线神经网络参数θ；

经验回放池初始化表示清空样本缓存，神经网络参数的初始值进行随机产生。

步骤S42：初始化目标神经网络参数θ^-←θ；

步骤S43：初始化训练回合数v为1；

步骤S44：初始化环境和网络环境状态的评价函数g₀；

评价函数根据具体技术方案步骤S3进行二值化定义，初始值设置为由1组成的向量。

步骤S45：初始化当前训练回合数v中的任务批次k为1；

步骤S46：根据ε-greedy策略随机选取动作a_k，否则a_k＝argmax_a∈A Q(g_k,a；θ)；其中，ε-greedy策略是指以e(0<e<1)的概率随机选取动作，否则采用动作价值最大的动作。

步骤S47：执行动作a_k并获取下一网络环境状态的评价函数g_k+1和收益函数r_k；

步骤S48：存储(g_k,a_k,r_k,g_k+1)经验数据到经验回放池U中；

步骤S49：从U中随机采样小批量样本(g_i,a_i,r_i,g_i+1)；小批量样本用于更新在线网络和目标网络的网络参数θ和θ^-。

步骤S410：利用小批量样本计算在线网络和目标网络的Q函数值的损失函数L(θ)，并利用该损失函数进行小批量梯度下降，以更新在线网络的网络参数θ；

步骤S411：每隔τ^-批次，目标网络的网络参数进行更新θ^-＝θ；τ^-的含义是对目标网络定期更新的步长，取值范围为大于0。

步骤S412：判断是否满足k<K，K为任务执行批次的设定阈值，若是，k＝k+1，进入步骤S46，从而对在线网络和目标网络的网络参数θ和θ^-进行迭代更新；否则进入步骤S413；

步骤S413：判断是否满足v<V，V为训练回合迭代此数设定阈值，若是，v＝v+1，进入步骤S44，否则优化结束，得到训练完的深度强化学习模型。

利用基于DQN算法训练收敛求解得到的深度强化学习模型，可以得到动态低轨卫星边缘计算网络下的最优计算资源分配策略，将第k批次获取收集环境状态信息(具体包括低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)作为状态s_k输入，进行计算得到状态评价函数g_k。利用步骤S3建立的强化学习模型与步骤S4采用的基于DQN的深度强化学习算法进行求解，输出计算资源分配策略a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}，得到各任务调度方式和系统内各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{f^k,GMT,f^k,LEO,f^k,GCS}，并分发至系统内各对应设备。

以上所述的，仅为本发明的较佳实施例，并非用以限定本发明的范围，本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰，皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims

1.一种能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，包括：

步骤S2：根据获取的环境状态信息，构建以最小化系统能耗开销为优化目标的优化问题模型，系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和；

步骤S3：基于优化问题模型，定义强化学习模型的状态空间、动作空间和收益函数，并设计状态评价函数来优化所述状态空间；

步骤S4：利用基于优化DQN的深度强化学习算法求解深度强化学习模型，其中，环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述深度强化学习算法的网络中；

步骤S5：基于求解后的深度强化学习模型，获取能耗优化的计算资源分配策略，分发至各地面移动终端、低轨卫星和地面云服务器，实现计算资源分配。

2.根据权利要求1所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，所述低轨卫星边缘计算网络的环境状态信息包括：地面移动终端生成的第k批次的任务集合的状态信息向量W^k、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k。

3.根据权利要求2所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，所述步骤S1包括：

描述为

其中，

表示为任务载荷的数据大小，

M为地面移动终端的数量；

4.根据权利要求3所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长

为：

其中，T^LEO为低轨卫星的运行周期，

为地面移动终端m和低轨卫星n之间的地心角；

地面移动终端m和低轨卫星n之间的地心角

为：

其中，R为地球半径，H为轨道高度，

低轨卫星的运行周期T^LEO为：

其中，R为地球半径，H为轨道高度，μ表示开普勒常数。

5.根据权利要求3所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，所述步骤S2包括：

为第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量，

为将第m个地面移动终端的第k批次生成的任务

6.根据权利要求5所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各低轨卫星的决策向量

为：

其中，

表示第m个地面移动终端的第k批次生成的任务

被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

未被调度至低轨卫星n执行；

第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中的各低轨卫星的决策和

为

将第m个地面移动终端的第k批次生成的任务

调度至低轨卫星边缘计算网络中各地面云服务器的决策向量

为：

其中，

表示第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j执行；

表示第m个地面移动终端的第k批次生成的任务

未通过低轨卫星n被调度至地面云服务器j执行；

第m个地面移动终端的第k批次生成的任务

通过低轨卫星被调度至各个地面云服务器的决策和为

为

7.根据权利要求6所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，所述优化问题模型为：

表示第m个地面移动终端的第k批次生成的任务

被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

未被调度至低轨卫星n执行；

表示第m个地面移动终端的第k批次生成的任务

通过低轨卫星n被调度至地面云服务器j执行；

表示第m个地面移动终端的第k批次生成的任务

未通过低轨卫星n被调度至地面云服务器j执行；

分别是第m个地面移动终端的第k批次生成的任务

为低轨卫星n为第m个地面移动终端的第k批次生成的任务

是第k批次任务开始执行时低轨卫星n的电池使用状态。

8.根据权利要求7所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，所述强化学习模型的状态空间中的每个状态s_k包括地面移动终端生成的第k批次的任务集合的状态信息向量W^k、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量β^k、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量b^k和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量U^k；

状态评价函数g_k为：

g_k＝{g^k,1,g^k,2,g^k,3}，

其中，

对应的第三约束条件C₃；

对应的第三约束条件C₃；

a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}，

所述强化学习模型的瞬时收益函数r_k为：

其中，

为第m个地面移动终端的第k批次生成的任务

在地面移动终端的任务处理能耗，

为第m个地面移动终端的第k批次生成的任务

在低轨卫星的任务处理能耗；

所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π^*，对于计算资源分配策略π:S→A，执行至第k批次任务开始时的累积收益函数表示为：

9.根据权利要求8所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，在所述步骤S4中，在所述强化学习模型上引入了DNN，将利用DNN的神经网络参数θ对实际Q函数Q(s_k,a_k)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新，最终获取的拟合Q函数的最优结果为最优策略评估函数Q^*(s_k,a_k)，此时深度强化学习模型求解完成。

10.根据权利要求1所述的能耗优化的低轨卫星边缘计算资源分配方法，其特征在于，在所述步骤S5中，智能体将第k批次获取收集环境状态信息作为状态s_k输入，进行计算得到状态评价函数g_k；随后利用步骤S3建立的优化问题模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解，输出计算资源分配策略a_k＝{c^k,f^k,GMT,f^k,LEO,f^k,GCS}，得到各任务调度方式和各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{f^k,GMT,f^k,LEO,f^k,GCS}，并分发至各地面移动终端、低轨卫星和地面云服务器。