CN115250142B

CN115250142B - 一种基于深度强化学习的星地融合网络多节点计算资源分配方法

Info

Publication number: CN115250142B
Application number: CN202111670934.2A
Authority: CN
Inventors: 吴昊南; 杨秀梅; 卜智勇; 赵宇
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-12-05
Anticipated expiration: 2041-12-31
Also published as: CN115250142A

Abstract

本发明涉及一种基于深度强化学习的星地融合网络多节点计算资源分配方法，包括：从星地融合网络中的各服务点中确定本地服务节点和协作服务节点，从本地服务节点中获取任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息；构建以最小化卫星能耗与任务执行时延的加权系统开销为目标的优化问题的表达式；建立深度强化学习模型；基于近端策略优化算法求解深度强化学习模型；确定各服务节点的计算资源分配策略。本发明不仅能够从高维长跨度时序状态信息中提取特征，在高维解空间中建立环境与策略的相关性，而且能够克服高维信息的存储资源占用问题，具有较好的泛化能力，提升了计算效率。

Description

一种基于深度强化学习的星地融合网络多节点计算资源分配方法

技术领域

本发明涉及无线通信技术领域，更具体地涉及一种基于深度强化学习的星地融合网络多节点计算资源分配方法。

背景技术

星地融合网络是指通过卫星网络(如大规模低轨卫星星座)与地面网络(如5G)为用户终端提供信息服务的星地一体化网络系统。随着空间数据处理低延时和高能效需求的增加，将计算任务分布在多个可用协作服务节点间进行联合计算，并优化多节点计算资源分配策略，将有助于降低空间任务的响应时延与系统能耗开销，对于提升星地融合网络的网络性能具有重要意义。

然而，在星地融合网络中进行多节点计算资源的优化分配面临诸多技术挑战。例如，在星地融合网络中，卫星网络的服务节点(如低轨卫星)通常快速移动，该高移动特性使得传统的资源分配算法需要根据网络状态快速动态更新，这对于网络信息交互提出了较高要求。

在星地融合网络架构下，现有的计算资源分配方法主要分为两类：基于传统优化理论的计算资源分配方法和基于学习算法的计算资源分配方法。

在基于传统优化理论的计算资源分配方法中，通常需要假设已知一系列系统模型的先验信息(如业务分布概率、无线信道衰落模型等)，而这些先验信息与实际系统通常存在一定的误差。并且，该方法需要根据研究目标建立合适的数学函数，再根据函数特性设计具体的迭代求解算法。通常，针对计算资源分配问题所建立的数学函数具有非凸特性，导致其需要根据不同应用和需求进行定制化建模，模型难以泛化，在实际应用时通用性较差。同时，该方法仅考虑了单颗低轨卫星和多个低空浮空平台之间的资源调度，尚未考虑多颗低轨卫星之间的联合资源调度。此外，该方法的可扩展性相对受限，随着网络中节点数、任务数等参数的增长，算法计算复杂度呈指数级增长，给实际系统应用带来了一定困难。

与基于传统优化理论的计算资源分配方法不同，基于学习算法的计算资源分配方法充分利用已有历史采样数据信息，结合深度学习、强化学习等方法获取高效的计算资源分配策略。然而，目前基于学习算法的计算资源分配方法主要考虑单颗低轨卫星场景下的资源分配，而且卫星主要以中继转发为主，无法为具备较强星上处理和计算功能的卫星进行计算资源分配，也无法为具备邻星协作计算服务功能的星地融合网络进行计算资源分配。并且，目前基于学习算法的计算资源分配方法需要在地面服务节点进行模型训练，导致卫星接收和更新模型参数存在一定的传输时延。

发明内容

为解决上述现有技术中的问题，本发明提供一种基于深度强化学习的星地融合网络多节点计算资源分配方法，能够解决具备邻星协作计算服务功能的星地融合网络的计算资源分配问题，克服高维数据的存储资源占用问题，具有较好的泛化能力，提升计算效率。

本发明提供的一种基于深度强化学习的星地融合网络多节点计算资源分配方法，包括：

步骤S1，从星地融合网络中的各服务点中确定本地服务节点和协作服务节点，从本地服务节点中获取任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息；

步骤S2，根据任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息，构建以最小化卫星能耗与任务执行时延的加权系统开销为目标的优化问题的表达式；

步骤S3，根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式，建立深度强化学习模型；

步骤S4，基于近端策略优化算法求解步骤S3所建立的深度强化学习模型；

步骤S5，根据求解后的深度强化学习模型，确定各服务节点的计算资源分配策略。

进一步地，所述任务的执行状态信息包括任务的需执行数据量、执行时延需求、任务在本地服务节点的决策时间范围内的任一时刻的执行状态以及地面服务节点对于任务在本地服务节点的决策时间范围内的任一时刻的可见性。

进一步地，所述各服务节点间的无线传输信息包括星地数据传输速率、星间数据传输速率、星地传播时延和星间传播时延。

进一步地，所述优化问题的表达式为：

式中，α∈[0,1]表示卫星能耗占系统开销的权重，(1-α)表示任务执行时延占系统开销的权重；c^l(t)表示任务v在时刻t的计算卸载方式，l表示所有计算卸载方式中所选择的计算卸载方式的序数；E^l(t)表示任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗，T^l(t)表示任务v在时刻t采用第l种计算卸载方式所需的执行时延。约束条件C₁表示每个调度时刻仅选择一种计算卸载方式；约束条件C₂表示每个服务节点为任务v分配的计算资源不能超过可用空闲计算资源上限，表示在时刻t卫星服务节点n_i为任务v分配的计算资源，/>表示在时刻t卫星n_i可使用的最大空闲计算资源；约束条件C₃表示任务总执行时延应满足最大时延约束，τ_ori表示任务v可容忍的最大处理时延；约束条件C₄表示任务的全部数据应在最大时延约束范围内完成，d^l(t)表示在时刻t采用第l种计算卸载方式完成任务v的数据量，d_ori表示执行完整任务v所需的数据量。

进一步地，所述步骤S3中，建立深度强化学习模型包括：

步骤S31，根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式，构建状态函数；

步骤S32，根据步骤S2构建的优化问题的表达式，构建动作函数；

步骤S33，根据所述状态函数和所述动作函数，构建瞬时回报函数，并获取对应的累积回报函数。

进一步地，所述瞬时回报函数由回报函数、任务完成时的激励值、任务失败时的惩罚值以及回报塑形函数构成。

进一步地，所述星地数据传输速率按照下式计算：

式中，表示本地服务节点n_i与地面服务节点之间的通信带宽，/>表示本地服务节点n_i在时刻t对地面服务节点的发射功率，/>表示本地服务节点n_i的发射天线增益与地面服务节点的接收天线增益的乘积，/>表示本地服务节点n_i在时刻t与地面服务节点之间的信道增益，/>表示地面服务节点的接收机噪声功率。

进一步地，所述星间数据传输速率按照下式计算：

式中，表示本地服务节点n_i与卫星协作服务节点n_j之间的通信带宽，/>表示本地服务节点n_i在时刻t对卫星协作服务节点n_j的发射功率，/>表示本地服务节点n_i的发射天线增益与卫星协作服务节点n_j的接收天线增益的乘积，/>表示本地服务节点n_i与卫星协作服务节点n_j之间的信道增益，/>表示卫星协作服务节点n_j的接收机噪声功率。

本发明利用深度强化学习算法解决星地融合网络多节点计算资源分配问题，不仅能够从高维长跨度时序状态信息中提取特征，在高维解空间中建立环境与策略的相关性，而且能够借助神经网络克服高维信息的存储资源占用问题，具有较好的泛化能力，提升了计算效率。

附图说明

图1是按照本发明的基于深度强化学习的星地融合网络多节点计算资源分配方法的流程图。

图2是星地融合网络的计算卸载与多节点计算资源分配场景图。

图3是基于深度强化学习的PPO算法框架示意图。

图4是基于深度强化学习的PPO算法流程示意图。

具体实施方式

下面结合附图，给出本发明的较佳实施例，并予以详细描述。

本发明提供的一种基于深度强化学习的星地融合网络多节点计算资源分配方法，通过在星地融合网络中的多个服务节点(包含多颗卫星和地面计算节点)之间进行联合计算资源分配，设计适配的深度强化学习模型和算法步骤，获取多节点计算资源优化分配策略。如图1所示，本发明的计算资源分配方法包括以下步骤：

步骤S1，从星地融合网络中的各服务点中确定本地服务节点和协作服务节点，利用本地服务节点获取任务在当前时刻的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息。其中，卫星服务节点包括用于决策的本地服务节点以及可用于协作计算的卫星协作服务节点，协作服务节点包括地面服务节点和卫星协作服务节点。

星地融合网络由多个服务节点组成，包括一个地面服务节点和M颗低轨卫星服务节点的集合，该集合表示为N＝{n₁,n₂,...,n_M}。需执行的任务从用户端收集至对应的具有决策能力的卫星内，该卫星即为本地服务节点(也称为任务调度器)；而网络内的其他服务节点(包括地面服务节点和除本地服务节点外的其他低轨卫星服务节点)统称为协作服务节点。本地服务节点收集任务的执行状态信息，并通过请求或周期性交互方式获取可调度范围内各协作服务节点的计算资源信息以及各服务节点间的无线传输信息。为了便于说明，将除本地服务节点外的其他低轨卫星服务节点称为卫星协作服务节点。

图2给出了一个具体示例，其中一颗低轨卫星作为本地服务节点，其可调度范围内包括5颗低轨卫星服务节点的集合N＝{n₁,n₂,...,n_M}和一个地面服务节点，其中M＝5。假设需执行的任务v已从用户终端UEs收集至对应的具有决策能力的本地服务节点内。

其中，任务在当前时刻t的执行状态信息包括任务在当前时刻t的剩余需执行数据量d(t)、在当前时刻t的剩余任务的执行时延上限τ(t)、任务在本地服务节点的决策时间范围内的当前时刻的执行状态e(t)以及地面服务节点对于任务在本地服务节点的决策时间范围内的当前时刻的可见性e^g(t)。

具体地，本地服务节点收集到的完整任务v表示为v＝(d_ori,τ_ori)，其中，d_ori表示执行完整任务v所需计算的数据量(即任务的需执行数据量)，τ_ori表示完整任务v可容忍的最大执行时延(即执行时延需求)。例如，数据量d_ori＝10MB，处理任务v的最大时延τ_ori＝0.9s。本地服务节点对完整任务v考虑的决策时间范围为T＝{1，...,t,...,T}，T为决策时间结束时刻，决策时间范围被等间隔离散化为T个时隙，每个时隙的时长即决策时间间隔为Δt，1≤t≤T。在每个当前时刻t开始时，本地服务节点通过本发明的计算资源分配方法确定当前任务在当前时刻t至下一个时刻t+1的计算卸载方式与计算资源分配情况。

则任务v在本地服务节点决策时间范围内的当前时刻t的执行状态e(t)表示为：e(t)∈{0,1}。其中，e(t)＝1表示任务v在当前时刻t处于可执行状态，e(t)＝0表示任务v在当前时刻t处于不可执行状态。

任务v在当前时刻t的执行状态e(t)与上一时刻t-1的任务执行状态信息、当前时刻t的计算卸载与多节点计算资源分配策略有关。若满足d(t)＞0,τ(t)＞0,则e(t)＝1，否则e(t)＝0。

地面服务节点对于任务v在当前时刻t的可见性e^g(t)表示为：e^g(t)∈{0,1}。其中，e^g(t)＝1表示地面服务节点对于任务v在当前时刻t处于可服务状态，即此时地面服务节点可服务于任务v；e^g(t)＝0表示地面服务节点对于任务v在当前时刻t处于不可服务状态，地面服务节点不可服务于任务v。

地面服务节点对于本地服务节点的可见性根据实际服务覆盖情况进行判断。可见性概率建模为轨道周期内地面服务节点被本地服务节点覆盖的服务时间T_G与本地服务节点的轨道周期T_L之比，即：

服务节点的计算资源信息为该服务节点可为任务v提供的计算资源大小，服务节点可根据自身总的计算资源以及已使用的计算资源情况，计算得到各个卫星服务节点或地面服务节点的可使用的最大空闲计算资源，即可用于任务v的计算资源大小的最大值。

具体地，卫星服务节点集合N在时刻t为任务v分配的计算资源向量表示为其中，/>表示在时刻t卫星服务节点n_i为任务v分配的计算资源，卫星服务节点集合N在时刻t可使用的最大空闲计算资源表示为其中，/>表示在时刻t卫星服务节点n_i可使用的最大空闲计算资源，则在时刻t卫星服务节点n_i为任务v分配的计算资源/>满足：/>

类似地，在时刻t地面服务节点为任务v分配的计算资源f_g(t)满足：其中，/>表示任务v在时刻t地面服务节点可使用的最大空闲计算资源。

各服务节点间的无线传输信息包括星地数据传输速率、星间数据传输速率、星地传播时延和星间传播时延。

具体地，定义卫星n_i为本地服务节点，则本地服务节点n_i(i＝1,2,…M)与地面服务节点在时刻t的星地数据传输速率按照下式计算：

本地服务节点n_i与卫星协作服务节点n_j(j＝1,2,…M且j≠i)在时刻t的星间数据传输速率按照下式计算：

另外，本地服务节点n_i与地面服务节点在时刻t的传播时延表示为本地服务节点n_i与卫星协作服务节点n_j在时刻t的传播时延表示为/>传播时延等于传播距离/传播速度，在光传输介质下传播速度为光速。

步骤S2，根据任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息，构建以最小化卫星能耗与任务执行时延的加权的系统开销为目标的优化问题的表达式。

上述系统开销为卫星能耗与任务执行时延的加权之和，权重表示卫星能耗与任务执行时延在系统开销中的相对重要性，该优化问题的表达式如下：

式中，α∈[0,1]表示卫星能耗占系统开销的权重，(1-α)表示任务执行时延占系统开销的权重；c^l(t)表示任务v在时刻t的计算卸载方式，l表示所有计算卸载方式中所选择的计算卸载方式的序数；E^l(t)表示任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗，T^l(t)表示任务v在时刻t采用第l种计算卸载方式所需的执行时延。约束条件C₁表示每个调度时刻仅选择一种计算卸载方式；约束条件C₂表示每个服务节点为任务v分配的计算资源不能超过可用空闲计算资源上限，表示在时刻t卫星服务节点n_i为任务v分配的计算资源，/>表示在时刻t卫星n_i可使用的最大空闲计算资源；约束条件C₃表示任务总执行时延应满足最大时延约束，即当前时刻为决策时间结束时刻T时，在当前时刻t的剩余任务的执行时延上限τ(t)大于或等于0，/>τ_ori表示任务v可容忍的最大处理时延；约束条件C₄表示任务的全部需执行数据量应在决策时间结束时刻之前完成，即当前时刻为决策时间结束时刻T时，任务在当前时刻t的剩余需执行数据量d(t)等于0，/>d^l(t)表示在时刻t采用第l种计算卸载方式完成任务v的数据量，d_ori表示执行完整任务v所需的数据量。

下面对上述各参数进行详细描述。

任务v在时刻t的计算卸载方式c(t)描述如下：

c(t)＝[c¹(t),c²(t),c³(t)]

其中，c¹(t)＝1表示时刻t至时刻t+1选择将任务v仅在本地服务节点进行计算，此时所选择的计算卸载方式的序数为1；c²(t)＝1表示时刻t至时刻t+1选择将任务v不仅在本地计算，还可将任务v卸载至可调度范围内的协作服务节点上进行联合计算，此时所选择的计算卸载方式的序数为2；c³(t)＝1时，地面服务节点对于任务v在时刻t的可见性e^g(t)为c³(t)的判决条件，当e^g(t)＝1(即地面服务节点在时刻t对于本地服务节点可见)，表示时刻t至时刻t+1选择将任务v仅卸载至地面服务节点进行计算，此时所选择的计算卸载方式的序数为3。由于任务v在每个调度时刻仅选择一种计算卸载方式，因而上述参数满足以下约束条件：

任务v在时刻t采用第l种计算卸载方式所需的执行时延T^l(t)按照下式计算：

式中，表示在时刻t采用第l种计算卸载方式所需的计算时延，/>表示在时刻t采用计算第l种卸载方式所需的传输时延，/>表示在时刻t采用第l种计算卸载方式所需的传播时延。其中，传播时延是指电磁信号在传输介质中传播服务节点间距离所花费的时间，其包括星地传播时延和星间传播时延。传输时延是指服务节点发送数据块所需要的时间，即从发送的数据块的第一个比特算起，到该数据块的最后一个比特发送完毕所需的时间，其与星地数据传输速率、星间数据传输速率有关。因此传播时延和传播时延均通过各服务节点间的无线传输信息得到。

具体地，当l＝1时，表示在时刻t采用本地服务节点计算任务数据的计算时延，此时/>表示不产生传输时延和传播时延。当l＝2时，/>表示在时刻t采用本地服务节点与协作服务节点联合计算任务数据的计算时延，/>表示在时刻t本地服务节点传输任务数据至各协作服务节点的最大传输时延，/>表示在时刻t为任务数据在本地服务节点与各协作服务节点之间往返传播的最大传播时延；当l＝3时，/>表示在时刻t采用地面服务节点计算任务数据的计算时延，/>表示在时刻t本地服务节点传输任务数据至地面服务节点的时延，/>表示在时刻t为任务数据在本地服务节点与地面服务节点之间往返传播的传播时延。

也就是说，根据计算卸载方式的序数l的不同，分为以下三种情况：

c¹(t)＝1，即l＝1时，有

c²(t)＝1，即l＝2时，有

c³(t)＝1，即l＝3时，有

式中，表示卫星服务节点n_i计算数据每比特CPU所需的转数，ω_g表示地面服务节点计算数据每比特CPU所需的转数，Δt表示决策时间间隔。

任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗E^l(t)按照下式计算：

式中，表示在时刻t采用第l种计算卸载方式所需的卫星运维能耗，表示在时刻t采用第l种计算卸载方式l所需的计算能耗，/>表示在时刻t时采用第l种计算卸载方式所需的传输能耗。其中，卫星运维能耗为卫星除执行任务v外为日常活动运转维护的能耗，包括卫星的姿态控制、热控制、反作用控制等所需的能源开销，可看作固定值。因此，计算卸载方式的序数l变化时，/>可视为不变，计算能耗/>和传输能耗/>随之发生变化。

具体地，当l＝1时，表示在时刻t采用本地服务节点计算任务数据所需的计算能耗，此时/>表示不产生传输能耗。当l＝2时，/>表示在时刻t采用本地服务节点和协作服务节点联合计算任务数据所需的计算能耗，/>表示在时刻t本地服务节点传输任务数据至各协作服务节点的传输能耗；当l＝3时，由于地面服务节点能源供应的可持续性，/>表示在时刻t忽略地面服务节点计算任务数据的计算能耗；/>表示在时刻t本地服务节点传输任务数据至地面服务节点的传输能耗。

任务v在时刻t采用第l种计算卸载方式所需的计算能耗按照下式计算：

式中，ζ表示芯片能耗系数，表示在时刻t卫星服务节点n_i为任务v分配的计算资源，/>表示/>的3次方。

若，则在时刻t采用第l种计算卸载方式所需的传输能耗按照下式计算：

另外，任务v在当前时刻t的资源分配策略取决于在时刻t的任务执行状态信息。在时刻t的任务执行状态信息包括任务在当前时刻t的剩余需执行数据量d(t)、剩余任务的执行时延上限τ(t)以及在时刻t剩余任务的可执行状态e'(t)。其中，本发明通过上文的约束条件C₃、约束条件C₄分别实现了任务在当前时刻t的剩余需执行数据量d(t)、剩余任务的执行时延上限τ(t)对任务v在当前时刻t的资源分配策略的约束。需要说明的是，剩余任务是指完整任务v未执行完的剩余部分。

执行剩余任务所需的数据量d(t)按照下式计算：

式中，d_ori表示执行完整任务v所需的数据量，d^l(t)表示在时刻t采用第l种计算卸载方式所需的数据量。

具体地，当l＝1时，d^l(t)表示在时刻t采用本地服务节点计算所需的数据量；当l＝2时，d^l(t)表示在时刻t采用本地服务节点和各协作服务节点联合计算所需的数据量；当l＝3时，d^l(t)表示在时刻t采用地面服务节点计算所需的数据量。

在时刻t剩余任务的最大执行时延τ(t)按照下式计算：

式中，τ_ori表示完整任务v可容忍的最大执行时延。

步骤S3，根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式，建立深度强化学习模型。

深度强化学习相较于机器学习中经典的监督学习与非监督学习方法，显著特点为智能体能够在环境交互中学习。智能体通过与环境交互获得奖励或惩罚以不断获取知识，从而更好地适应环境。深度强化学习主要包含4个要素，分别为状态、动作、回报与策略，其原理为：在每个时刻t，系统处于状态s_t，根据策略π(a_t|s_t)选取动作a_t，随后进入下一个状态s_t+1，同时从环境中获得瞬时回报r_t。强化学习的目标是学习到最优策略π^*，使得从任意状态起始的期望折扣累积回报最大化，其中，γ为折扣因子，表示未来回报的重要性，γ^t表示未来时刻t的收益值只有它当前值的γ^t倍，γ∈[0,1)。本发明提出以本地服务节点为智能体建立深度强化学习模型的求解方法，通过调整智能体对每个时隙任务采用的计算卸载方式以及各服务节点分配的计算资源，来最大化网络内的资源效率，降低任务的综合开销。假设每个时隙本地服务节点只能选择一个计算卸载方式，可以同时与多个卫星同时保持连接与传输。

基于上述原理，本发明建立深度强化学习模型包括：

步骤S31，根据任务的执行状态信息、各服务节点的计算资源信息、各服务节点间的无线传输信息以及步骤S2构建的优化问题的表达式，构建状态函数s_t如下：

式中，e(t)表示任务v在当前时刻t的执行状态；e^g(t)表示地面服务节点对任务v在当前时刻t的可见性；d(t)表示任务在当前时刻t的剩余需执行数据量；τ(t)表示在当前时刻t的剩余任务的执行时延上限τ(t)；表示任务v在当前时刻t卫星服务节点集合N可使用的最大空闲计算资源；/>表示任务v在当前时刻t地面服务节点可使用的最大空闲计算资源；/>表示在当前时刻t本地服务节点n_i与各卫星协作服务节点的星间数据传输速率/> 表示在当前时刻t本地服务节点n_i与地面服务节点的星地数据传输速率。另外，前述各状态变量在深度强化学习模型训练开始之前进行Min-Max归一化处理，以加速训练速度。

步骤S32，根据步骤S2构建的优化问题的表达式，构建动作函数a_t如下：

a_t＝{c(t),f_n(t),f_g(t)},

式中，c(t)表示任务v在当前时刻t的计算卸载方式，f_n(t)表示在当前时刻t卫星服务节点集合N的计算资源，f_g(t)表示在当前时刻t地面服务节点为任务v分配的计算资源。

步骤S33，根据上述状态函数s_t和动作函数a_t，构建瞬时回报函数r^adj(s_t,a_t)，并获取对应的累积回报函数

瞬时回报函数r^adj(s_t,a_t)由四部分组成，包括：回报函数r(s_t,a_t)、任务完成时的激励值r^s(s_t,a_t)、任务失败时的惩罚值r^p(s_t,a_t)以及回报塑形函数r^d(s_t,a_t)。其中，r(s_t,a_t)，r^s(s_t,a_t)，r^p(s_t,a_t)，r^d(s_t,a_t)分别表示任务执行时延开销与卫星的能耗开销组合的系统开销、任务完成的奖励、任务失败的惩罚以及任务执行计算的数据奖励。

下面对上述四个函数进行详细说明。

回报函数r(s_t,a_t)表示在时刻t给定状态s_t时采取动作a_t的回报，按照下式计算：

累积回报函数R_t表示从初始状态s₀至状态s_t产生的累积折扣回报，计算方式为：

式中，s_t+k为系统在时刻(t+k)的状态，a_t+k为系统在时刻(t+k)的动作，k表示当前时刻t之后经过的时隙数。

为提高计算资源分配策略中动作探索的有效性，在任务完成时与任务失败时分别额外设置激励值r^s与惩罚值r^p。其中，若任务v在时刻t给定状态s_t时采取动作a_t能够在满足任务的服务需求下执行完毕，即那么任务顺利完成，相应的激励函数r^s(s_t,a_t)＝r^s，反之r^s(s_t,a_t)＝0；类似的，若任务v在时刻t给定状态s_t时采取动作a_t未能满足任务的服务需求以致任务执行终止，即/>那么任务执行失败，相应的惩罚函数r^p(s_t,a_t)＝-r^p，反之r^p＝0。其中，r^s,r^p均为正数。

r^s(s_t,a_t)与r^p(s_t,a_t)均进行归一化合理设置其值大小。为在任务执行中任务完成或失败的回报能够被观测并显著影响多节点计算资源分配策略的预期目标下，r^s,r^p的值的值和所执行的任务大小、重要性等因素相关，可以设置为包括任务数据大小和任务重要性等影响因素的线性函数或常数。

此外，为提高计算资源分配策略对探索任务完成的稀疏性回报的效率，定义附加回报塑形函数r^d(s_t,a_t)，该函数表示在时刻t给定状态s_t时采取动作a_t，时刻t至时刻t+1内的执行计算完毕的加权任务数据量，回报塑形函数的计算方式为：

式中，α_d(α_d≥0，α_d∈R)表示执行计算完毕的任务数据量占系统开销的权重，反映了任务完成对于系统的相对重要性，α_d越大，系统在时刻t越倾向选取执行计算更多任务数据量的动作。

因此，系统在时刻t的瞬时回报函数r^adj(s_t,a_t)为：

r^adj(s_t,a_t)＝r(s_t,a_t)+r^s(s_t,a_t)+r^p(s_t,a_t)+r^d(s_t,a_t)

对应的，累积回报函数的计算方式为：

步骤S4，基于近端策略优化算法求解步骤S3所建立的深度强化学习模型。

深度强化学习模型中的长跨度时序状态信息包括每个任务决策时刻的任务执行状态信息、各服务节点的计算资源信息和各服务节点间的无线传输信息。为了解决此高维状态信息下的联合优化问题，在传统强化学习理论基础上引入了深度神经网络，利用同策略(on-policy)和随机策略的训练稳定性高的优势，本发明引入近端策略优化(ProximalPolicy Optimization，PPO)算法，以较小计算代价提高样本利用率。

本发明所设计的深度强化学习PPO算法框架示意图如图3所示。由卫星服务节点与环境组成的智能体与环境交互模型将获取的环境状态(由前述定义可知，环境状态包括以下信息：任务的执行状态信息、可调度范围内的各服务节点的计算资源信息和无线传输信息)作为输入，输入至基于行动家-评论家(Actor-Critic，AC)框架的深度强化学习PPO算法网络结构。网络由策略网络与价值网络两个网络组成。其中，策略网络负责学习策略，决策智能体输出各服务节点的计算资源分配策略；价值网络负责评估策略网络的决策，优化策略选择。策略网络与价值网络分别利用各自独立的深度神经网络来拟合策略函数与价值函数。策略网络计算当前策略下的累积折扣回报，通过最小化价值网络的损失函数来优化价值深度神经网络参数，更新策略评估。价值网络计算当前值函数下的优势估计，通过最大化策略网络损失函数来优化策略深度神经网络参数，更新策略。策略网络与价值网络相互依赖，相互作用，在训练过程中网络参数迭代优化。

根据建立的深度强化学习模型中的状态空间设计，状态空间具有向量的编码特征，本发明的策略网络与价值网络选取全连接层神经网络(Multi-Layer Perception，MLP)的网络结构。此外，为加速训练过程中的收敛速度，注意到价值网络需要比策略网络多处理动作维度的数据量，本发明利用深度残差网络(Deep Residual Networks，ResNet)的强大泛化能力，通过在价值网络的第一层隐藏层增加恒等映射(Identity Mapping)，即将该隐藏层网络节点添加动作策略的维度来提升训练效果。

PPO算法作为同策略算法，利用蒙特卡罗方法通过最新策略随机收集采样的多个完整的任务轨迹子集合获取当前价值函数的无偏估计，评估并改进策略。在结束利用基于当前策略的任务轨迹集合的神经网络参数更新后，丢弃收集的轨迹集合样本，基于更新后的策略进行重新收集轨迹集合样本进行迭代优化。

本发明中所提供的PPO算法的流程示意图如图4所示，具体包括以下步骤：

步骤1)，初始化环境状态、经验池以及网络模型(包括策略深度神经网络的初始性质参数θ₀与价值深度神经网络的初始性质参数φ₀)，初始化训练的迭代次数p为1，初始化迭代次数p中的时间步t为1。

步骤2)，基于当前迭代次数p来获取策略函数输入状态s_t,输出动作a_t，同时获得回报r^adj(s_t,a_t)，转入下一个状态s_t+1，获得训练数据[s_t,a_t,r^adj(s_t,a_t),s_t+1]，将其作为任务轨迹数据集合{κ_p}的一部分存储至经验池。

其中，策略函数根据当前的策略网络(即策略深度神经网络)的性质参数θ_p确定。举例来说，在深度学习中，有一族函数f(X；θ)，其中X为输入数据，θ为参数(典型的高阶矩阵)。而目标则是寻找一组最优参数θ*，使得f(X；θ*)最合适于描述给定的数据。在当前迭代次数p，确定深度神经网络的性质参数θ_p，即确定了网络节点数，网络权重参数等描述神经网络特征性质的性质参数集合，便确定了当前描述输入数据和输出策略的特定函数表示(即策略函数/>)。

步骤3)，判断是否满足t＜T，T为决策时间结束时刻，即迭代次数p的总时间步，若是，t＝t+1，进入步骤2)，否则进入步骤4)。

步骤4)，基于当前迭代次数p的策略函数计算收集的任务轨迹数据集合{κp}每个时间步的累积折扣回报/>{κ_p}为迭代次数p收集的任务轨迹数据集合。

步骤5)，基于当前迭代次数p的价值函数计算收集的任务轨迹数据集合{κ_p}每个时间步的通用优势估计(GeneralizedAdvantage Estimation，GAE)/>

其中，价值函数根据当前迭代次数的价值网络的性质参数φ_p确定。举例来说，在深度学习中，有一族函数f(X；θ)，其中X为输入数据，θ为参数(典型的高阶矩阵)。而目标则是寻找一组最优参数θ*，使得f(X；θ*)最合适于描述给定的数据。在当前迭代次数p，确定深度神经网络参数φ_p，即确定了网络节点数，网络权重参数等描述神经网络特征性质的参数集合，便确定了当前描述输入数据和输出的特定函数表示(即价值函数/>)。

通用优势估计计算方式如下：

式中，GAE参数λ_adv用于调整偏差与方差间的估计平衡，λ_adv∈[0,1]。

步骤6)，初始化迭代次数p中随机采样的子任务轨迹集合的轮数v为1。

步骤7)，基于迭代次数p的任务轨迹数据集合{κ_p}，随机采样子任务轨迹，得到子任务轨迹集合B_v。子任务轨迹集合B_v包括随机采样得到的任务轨迹数据集合{κ_p}的子批次(mini-batch)数的任务轨迹，子批次数小于任务轨迹数据集合{κ_p}的任务轨迹数。

随后，根据子任务轨迹集合B_v更新策略网络的性质参数θ_p和价值网络的性质参数φ_p，具体包括如下步骤8)和步骤9)：

步骤8)，将策略网络的损失函数L^A(θ)最大化，为以更新策略网络的性质参数θ(θ为策略网络性质参数的通用表示形式)，其中的ò＝0.2,λ_ent＝0.005。

损失函数L^A(θ)的计算方式如下：

其中，策略网络损失函数L^A(θ)为子任务轨迹集合B_v关于策略代理函数L^CLIP(θ)与交叉熵损失函数L^E(θ)组合的期望。λ_ent作为交叉熵损失函数L^E(θ)的加权系数，用于平衡策略深度神经网络的动作探索与挖掘。策略代理函数L^CLIP(θ)与交叉熵损失函数L^E(θ)的计算方式分别为：

其中，r_t(θ)为不同策略深度神经网络参数下由于输入状态s_t输出动作a_t的概率比。利用超参数ò约束r_t(θ)的极值，限定r_t(θ)的取值范围为[1-∈,1+∈]，从而约束了算法在对策略网络参数θ_p+1相比θ_p的更新范围，ò∈(0,1)。

步骤9)，将价值网络损失函数L^C(φ)最小化，以更新价值网络的性质参数φ，其中的λ_val＝0.5。

最小化损失函数L^C(φ)的计算方式如下：

其中，λ_val是价值网络损失函数L^C(φ)的加权系数，V_φ(s_t)为价值网络取得的真实值函数,为当前策略网络估计的值函数。超参数δ用于调节优化子采样集合B_v中价值网络函数的平均绝对误差(MeanAbsolute Error，MAE)期望与均方误差(Mean SquaredError，MSE)期望的组合分布。

步骤10)判断是否满足v＜K，K为随机采样的子任务轨迹集合的轮数设定阈值，若是，v＝v+1，进入子步骤7，否则进入子步骤11；

步骤11)判断是否满足p＜Q，Q为训练迭代次数设定阈值，若是，清除迭代次数p收集的任务轨迹数据集合{κ_p}，随后p＝p+1，进入步骤2，否则优化结束，得到训练完的深度强化学习模型。

具体地，将时刻t获取的任务执行状态信息、各协作服务节点的计算资源信息以及各服务节点间的无线传输信息作为状态s_t输入，利用步骤3建立的深度强化学习模型与步骤4采用的基于近端策略优化算法进行求解，输出多节点计算资源分配策略a_t＝{c(t),f_n(t),f_g(t)}，得到任务计算卸载方式c(t)与各服务节点的计算资源分配情况{f_n(t),f_g(t)}。

本发明提供一种星地融合网络的多节点计算资源分配方法，具有以下有益效果：

(1)卫星获取计算任务并在多个计算服务节点之间进行计算卸载与资源分配。利用多节点计算资源对任务进行协作计算，减少任务的时延开销和卫星能耗开销，提升星地融合网络的性能。

(2)结合卫星能耗和任务时延双重指标需求，定义系统开销的优化目标。引入深度强化学习方法，解决星地融合网络的多节点计算资源分配方法。定义深度强化学习框架下的具体的状态、动作和回报函数，提出模型训练方法和策略生成方法。在保证任务完成质量的前提下，所提方法在算法的稳定性和系统开销性能方面具有明显优势。

总之，本发明基于卫星网络的广域负载不均衡特性，提出包含多颗卫星和地面计算节点的计算资源联合分配策略，有效提升卫星网络和地面网络的资源利用效率。其次，为了降低星地传输延时影响，本发明提出在卫星服务节点上完成数据采集、信息交互、模型训练以及策略执行，具有较好的时效性。此外，针对本发明时延和能效的联合优化目标，设计适配深度强化学习模型的状态、动作、回报函数和问题求解算法，实现多节点(包含多颗卫星、地面计算节点等)之间的高效联合计算资源分配策略。

以上所述的，仅为本发明的较佳实施例，并非用以限定本发明的范围，本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰，皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims

1.一种基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，包括：

步骤S2，根据任务的执行状态信息、各服务节点的计算资源信息以及各服务节点间的无线传输信息，构建以最小化卫星能耗与任务执行时延的加权系统开销为目标的优化问题的表达式；所述优化问题的表达式为：

式中，c(t)表示任务v在时刻t的计算卸载方式，c(t)＝[c¹(t),c²(t),c³(t)]；f_n(t)表示卫星服务节点集合N在时刻t为任务v分配的计算资源向量，f_g(t)表示在时刻t地面服务节点为任务v分配的计算资源；N表示M颗低轨卫星服务节点的集合N＝{n₁,n₂,...,n_M}；T表示决策时间范围被等间隔离散化为T个时隙；α∈[0,1]表示卫星能耗占系统开销的权重，(1-α)表示任务执行时延占系统开销的权重；c^l(t)表示任务v在时刻t的计算卸载方式，l表示所有计算卸载方式中所选择的计算卸载方式的序数；E^l(t)表示任务v在时刻t采用第l种计算卸载方式所需的卫星总能耗，T^l(t)表示任务v在时刻t采用第l种计算卸载方式所需的执行时延；约束条件C₁表示每个调度时刻仅选择一种计算卸载方式；约束条件C₂表示每个服务节点为任务v分配的计算资源不能超过可用空闲计算资源上限，/>表示在时刻t卫星服务节点n_i为任务v分配的计算资源，/>表示在时刻t卫星n_i可使用的最大空闲计算资源；/>表示任务v在时刻t地面服务节点可使用的最大空闲计算资源；约束条件C₃表示任务总执行时延应满足最大时延约束，τ_ori表示任务v可容忍的最大处理时延；约束条件C₄表示任务的全部数据应在最大时延约束范围内完成，d^l(t)表示在时刻t采用第l种计算卸载方式完成任务v的数据量，d_ori表示执行完整任务v所需的数据量；

2.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，所述任务的执行状态信息包括任务的需执行数据量、执行时延需求、任务在本地服务节点的决策时间范围内的任一时刻的执行状态以及地面服务节点对于任务在本地服务节点的决策时间范围内的任一时刻的可见性。

3.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，所述各服务节点间的无线传输信息包括星地数据传输速率、星间数据传输速率、星地传播时延和星间传播时延。

4.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，所述步骤S3中，建立深度强化学习模型包括：

5.根据权利要求4所述的基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，所述瞬时回报函数由回报函数、任务完成时的激励值、任务失败时的惩罚值以及回报塑形函数构成。

6.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，星地数据传输速率按照下式计算：

7.根据权利要求1所述的基于深度强化学习的星地融合网络多节点计算资源分配方法，其特征在于，星间数据传输速率按照下式计算：