CN116634498A

CN116634498A - 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法

Info

Publication number: CN116634498A
Application number: CN202310499353.XA
Authority: CN
Inventors: 刘华烁; 赖俊宇; 朱俊宏; 孙雨松; 白金平
Original assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: University of Electronic Science and Technology of China; Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-08-22

Abstract

该发明公开了一种基于强化学习的低轨卫星星座网络边缘计算多级卸载方法，属于卫星通信网络与边缘计算技术领域。传统边缘计算卸载方法是针对地面网络设计，并未考虑低轨卫星星座网络特性。本发明将边缘计算技术引入低轨卫星星座网络，在低轨卫星上直接执行时敏性强的各类边缘计算任务，可有效降低边缘计算任务时延、提升系统资源利用率、提高用户体验质量。

Description

基于强化学习的低轨卫星星座网络边缘计算多级卸载方法

技术领域

本发明属于卫星通信网络与边缘计算技术领域，特别是涉及一种基于多智能体强化学习的低轨卫星星座网络边缘计算任务多级卸载方法。

背景技术

近年来，随着空间技术和信息技术水平快速提升，业界高度重视新一代低轨卫星星座网络建设。在未来的6G网络建设中，新一代低轨卫星星座网络将是地面网络的重要补充。边缘计算技术能够有效减少边缘计算任务时延、降低网络带宽消耗并保护用户数据安全，自提出以来迅速发展，已在物联网、电信宽带网、工业互联网等领域得到广泛应用，并正在进行愈加深入的应用研究和实践探索。将边缘计算技术应用于大时空尺度的低轨卫星星座网络中，能够为其带来更为显著的网络性能增益，从而成为当前低轨卫星星座网络的研究热点之一。低轨卫星星座网络具有大时空尺度、拓扑高动态变化、资源异构性强等区别于传统地面宽带网络的特性，其边缘计算理论研究面临缺乏系统架构和系统模型设计、多维异构资源利用率难以提升、确定性任务服务时延难保障等全新挑战。

边缘计算卸载是指受资源约束的设备完全或部分地将计算密集型任务卸载到资源充足的网络边缘节点上，解决端设备在资源及能效方面的不足，减轻了核心网压力，降低了因传输带来的时延。然而，现有典型的边缘计算卸载算法大多针对地面网络应用需求研发，并未考虑低轨卫星星座网络节点高速运动、拓扑动态变化等特性，因而，未能实现对低轨卫星星载计算资源的高效利用，以进一步提升低轨卫星星座网络服务质量。

发明内容

将边缘计算技术引入低轨卫星星座网络，在低轨卫星上直接执行时敏性强的各类边缘计算任务，可有效降低边缘计算任务时延、提升系统资源利用率、提高用户体验质量。但是，传统边缘计算卸载方法是针对地面网络设计，并未考虑低轨卫星星座网络特性。因此，本发明提出一种基于多智能体深度强化学习(MADRL)的低轨卫星星座网络边缘计算任务多级卸载方法，以降低边缘计算任务时延、提高星载计算资源利用率。

本发明所采用的技术方案如下：

1：确定低轨卫星星座网络边缘计算任务多级卸载策略

在低轨卫星星座网络中，卫星沿着近地轨道高速移动，组成覆盖地表的网络，为地面用户提供无缝无线宽带服务。通常，地面用户会动态地选择距离其最近的低轨卫星为其网络接入节点；当前的研究及技术通常将接入卫星作为唯一边缘计算节点，将地面云计算中心作为下一跳计算节点；本发明创新性地提出一种边缘计算多级卸载模型，借助星间链路来实现多低轨卫星协同任务卸载，以降低任务时延和提高星载计算资源利用率。更具体地说，地面用户直接向其接入卫星发送边缘计算任务，接入卫星根据本地观测信息来执行边缘计算任务卸载决策。每一颗低轨卫星可选择执行3类不同的卸载决策，分别是：

1)分配本地边缘计算资源执行该任务，任务计算完成后，沿着任务上传路径将计算结果返回给用户；

2)将该任务转发给在相同轨道或在相邻轨道上运动的四颗邻居卫星之一；

3)直接将任务发送到距离最近的网关站后的地面云计算中心，依赖云计算中心的计算资源处理该任务，任务的计算结果通过卫星返回给用户。

如果低轨卫星决定将任务转发给其相邻低轨卫星之一，则将在下一跳低轨卫星节点上重复上述过程。

2.构建低轨卫星星座网络边缘计算任务多级卸载模型

本发明将构建低轨卫星星座网络地面用户模型、边缘计算任务模型、任务时延模型和资源利用率模型，并在此基础上为系统性能优化问题建模。

2.1用户模型

低轨卫星星座网络边缘计算服务的用户分布不均匀，例如：在人口密度较高的城市地区上方的卫星计算负载较高，而处于沙漠、高山等偏远地区上方卫星的大部分计算资源都处于空闲状态。本发明将地面划分为用户分布不均的M个区域，每个区域内的用户位置呈均匀分布。在本发明中，采用概率统计模型来表征一段时间内的用户边缘计算请求，假设所有用户行为独立且周期性地向接入卫星发送边缘计算任务请求，单个用户的两个相邻任务时间间隔呈负指数分布，其概率密度函数为：

2.2边缘计算任务模型

低轨卫星星座网络边缘计算一般适用于低计算量的时敏性任务。根据用户生成任务的时间顺序，本发明以时序序列{Task₁,Task₂,…,Task_total}来表征所有边缘计算任务，并将任意任务Task_i建模为其中S_i表示该任务的数据量大小，L_i是该任务卸载时间上限，U_i指向生成该任务的用户，/>表示生成该边缘计算任务的时间点。本发明考虑所有任务是相互独立的，并且任务的数据量服从截断正态分布，期望为μ，方差为σ²。

2.3任务时延和资源利用率模型

首先，将参与协同卸载边缘计算任务Task_i的所有卫星建模为并将其中任意一颗卫星LEO_i ^j的卸载决策建模为表示在卫星本地处理Task_i，和/>表示将任务转发给四颗邻居卫星，/>表示将任务发送给地面云计算中心。

(1)时延模型

减少边缘计算任务延迟是本发明的重要优化目标，本发明所考虑的时延主要包括任务上传时延、任务排队时延、任务计算时延以及任务回传时延，即

任务时延＝任务上传时延+任务排队时延+任务计算时延+任务回传时延

星地通信链路和星间通信链路的数据传输速率分别用v_gs和v_ss表示。在边缘计算任务Task_i上传过程中，将星地数据传输所造成的时延表示为星间数据传输所时延为/>其中l_gs和l_ss分别是星地传输和星间传输的平均距离，c表示光速。因此，Task_i的上传总时延可以计算为：

若说明该任务被发送到云计算中心处理，若/>则说明该任务在卫星节点被执行。d表示该任务卸载过程所经历的星间传输次数。Task_i的计算时延的计算公式为：

其中ξ是CPU计算密度，f_LEO和f_Cloud分别表示卫星和云计算中心为该任务分配的计算资源。如果Task_i在星上处理但星载计算资源暂无空闲，该任务将被放入排队队列，直到星上有资源释放，该任务才会被处理，引入排队时延D_i,q。本发明假设云计算中心具备充分的计算资源，如果任务被发送到云计算中心处理，不会发生拥塞和排队现象。如果Task_i没能在时间上限L_i内被计算完成，分配给该任务的计算资源将会被释放，该任务被认定卸载失败；如果Task_i在L_i内成功被处理完成，数据量大小为任务结果信息将会返回给地面用户，结果返回时延的计算公式为：

基于以上建模过程，可以得到边缘计算任务Task_i的处理总时延为：

D_i＝D_i,up+D_i,q+D_i,C+D_i,down

(2)计算资源利用率模型

由于低轨卫星网络的用户分布不均匀，所以低轨卫星上的计算负载极其不均衡，导致星载计算资源的低效利用，因此提高星载边缘计算资源利用率是本发明的另一个重要优化目标。当在时刻t_i为Task_i做出卸载决策后，低轨星座中任意一颗卫星LEO^k的星载计算资源利用率(CRUR)可以被表示为：

其中，CN^k是当前LEO^k上正在处理的边缘计算任务数量，f_LEO和分别表示卫星为单个任务所分配的计算资源和总星载计算资源。因此，整个低轨卫星星座网络的总资源利用率为：

其中numSat表示星座中的卫星总数。

2.4性能优化问题建模

本发明提出低轨卫星星座网络边缘计算任务多级卸载模型的优化目标是降低任务时延和提高星载计算资源利用率，因此将优化问题的代价函数建模为Cost_i＝φ₁D_i+φ₂(1-CRUR(t_i))，其中φ₁和φ₂是用来平衡不同优化目标的权重。基于代价函数，可以进一步将本发明的优化问题表述为：

s.t.

C₁:

C₂:

C₃:

C₄:D_i,up+D_i,q+D_i,C≤L_i

C₅:φ₁+φ₂＝1

其中，式C₁,C₂,C₃,C₄,C₅为约束条件，以确保任务卸载决策的有效性：C₁将任务卸载决策变量限制为二进制数字，C₂表示的可选卸载决策只有本地处理任务和将任务发送到地面云计算中心处理两种，C₃明确Task_i上传路径上除/>外其他低轨卫星只有将任务转发到邻居卫星四种可选卸载策略，C₄要求所有边缘计算任务必须在卸载时限内被处理完成，否则认定任务卸载失败，释放所有计算资源。

3.将性能优化问题转化为局部可观测马尔可夫决策过程(POMDP)

在具有大空间尺度特性的低轨卫星星座网络中，中心化的控制节点难以及时获取网络全局状态来做实时卸载决策，因此本发明将卫星定义为相互独立的智能体，仅根据局部观测信息来决定任务下一跳的卸载决策。因此，本发明将研究的低轨卫星星座网络边缘计算任务卸载问题转化为局部可观测马尔可夫决策过程，该过程可以由以下具有6个元素的元组来描述：

P＝(S,A,T,R,O,γ)

其中S＝{s₁,s₂,…,s_n}是环境的全局状态空间(State)，A＝{a₁,a₂,…,a_n}是智能体共享的动作集合(Action)，T＝T(S_t+1＝s′|S_t＝s,A_t＝a)是环境的状态转移函数，R＝S×A智能体共享的全局奖励函数(Reward)，O＝{o₁,o₂,…,o_n}表示智能体的局部观测状态空间(Observation)，γ∈[0,1]是用来平衡长短期奖励的折扣因子。在本发明所关注的场景中，对于局部观测状态，动作和奖励函数更具体的定义为：

局部可观测状态(Observation)：在低轨卫星星座网络中，每一颗低轨卫星作为一个智能体，其局部观测状态空间定义为O(t)＝{f_obs,task,position}。其中是卫星及其邻居卫星上的计算资源空闲状态，task＝{size,ub,hop}表示当前待卸载任务的重要信息，包括任务数据量大小、任务处理时间上限以及当前任务已被卸载的跳数，最后position指向该低轨卫星所处的位置。

动作(Action)：每个智能体在接收到任意一个边缘计算任务Task_i后，都会从动作空间中选一个动作来对任务执行卸载决策，可选的动作包括本地处理Task_i，将Task_i转发到邻居卫星处理，以及将Task_i发送到地面云计算中心处理。

奖励函数(Reward)：每个智能体的目标是学习最优卸载策略以降低卸载成本，即降低任务时延和提高星载资源利用率，因此可以将奖励函数定义为两个指标的加权总和，当智能体做出较优卸载决策时，让做智能体得到一个较积极的奖励。因此智能体为Task_i做出任务卸载决策后的即时奖励可以设置为其中ΔCRUR_i表示做出卸载决策后，资源利用率的相对变化率，可以用以下公式计算：

其中和/>分别是/>做卸载决策前和做卸载决策后网络的资源利用率。为了考虑智能体决策的长远影响，应进一步计算动作的长期累计奖励/>其中γ为衰减因子，决定当前卸载决策对未来奖励的影响，γ越小，即时奖励占比重越高。

4.提出基于多智能体深度强化学习(MADRL)的任务多级卸载算法

为了确保低轨卫星学习最优卸载策略，本发明提出了一种基于多智能体强化学习(MADRL)的任务卸载算法，该算法应用了Actor-Critic框架，并在集中式训练和分布式执行的方式下实现。一方面，Actor即策略网络，部署在每个低轨卫星上，通过学习策略μ以基于本地观测量输出可选动作的概率分布，然后执行概率最高的动作。由于同一星座中的低轨卫星高度具有同构性，所有卫星的策略网络可以共享参数值。另一方面，Critic即评价网络，部署在中心控制节点上，负责基于全局状态信息估计动作值函数Q，以对智能体的动作做更好的评估。Actor将根据Critic的评价更新其策略。除此之外，集中式的Critic需要获取用于评估动作价值的全局网络状态信息，而分布式的Actors也必须同步更新其神经网络参数，因此Actors和Critic之间的通信机制对于集中式模型训练至关重要。Critic和通信机制是为训练过程设计的，在模型训练好后实际执行应用时，无需在实际场景中进行部署，因此不会影响决策的实时性。

由于边缘计算任务是由用户随机生成的，因此将低轨卫星做出的卸载策略描述为任务驱动的异步动作。基于MADRL的任务卸载算法假设所有低轨卫是同构且完全协作的智能体，共享策略μ及其参数θ。智能体与环境不断交互以生成经验{s,s′,o,o′,a,r}并将其存放到经验池中。在训练过程中，通过反复地从经验池中随机抽取小批量训练数据更新Actors和Critic的参数值来训练神经网络。本发明使用确定性策略梯度(DPG)算法更新策略网络(Actor)：

其中，s是卫星网络的全局状态信息，a是Actor依赖局部观测状态量所做出的动作，表示中心化的价值网络，即Critic，其神经网络参数为ν。Critic将全局状态信息和智能体的动作作为输入，然后输出每个状态-动作组合的Q值。在每一轮多步更新迭代过程中，本发明采用目标价值网络Q_ν′和目标策略网络μ_θ′来固定一个目标值y：

y＝r+γQ_ν'(s′,μ_θ′(o′)),

其中r是状态-动作组合(s,a)的即时奖励，(s′,a′)是下一时刻的动作-状态组合。为了缓解评价网络的高估问题，本发明利用两个评价网络Q_v1和Q_v2来并行地估计重同一组训练样本，并且选择较小的估计值作为最终估计结果。因此，评价网络更新的目标被修正为：

Q_v(s,a)的Loss函数可以表示为以下公式：

以最小化Loss函数值为目标，采用梯度下降算法和反向传播机制，在每一轮迭代中不断优化价值网络的参数，使得价值网络可以更加准确地评估智能体的策略策略。

本发明将边缘计算技术引入低轨卫星星座网络，在低轨卫星上直接执行时敏性强的各类边缘计算任务，可有效降低边缘计算任务时延、提升系统资源利用率、提高用户体验质量。

附图说明

图1为本发明实例中低轨卫星星座网络边缘计算多级卸载架构图；

图2为本发明实例中多智能体强化学习(MADRL)算法流程图；

图3为本发明实例中边缘计算任务平均卸载时延；

图4为本发明实例中星载边缘计算资源利用率；

图5为本发明实例中边缘计算任务平均卸载成本。

具体实施方式

下面结合附图和具体实施例，对本发明的具体实施方式进一步开展详细说明。以下具体实施例仅用于描述本发明，不用于限制本发明的范围。本发明的具体实施分为两个阶段：阶段一通过智能体和环境不断交互来训练深度强化学习模型，阶段二将训练好的深度强化学习模型部署在真实系统中执行卸载任务。

阶段一：模型训练阶段

步骤1：构建用户模型

首先，依据真实地面人口密度分布数据集构建边缘计算用户模型，并根据用户行为模型生成边缘计算任务序列低轨卫星星座网络边缘计算服务的用户分布极其不均匀，例如在人口密度较高的城市地区上方的卫星计算负载较高，而处于沙漠、高山等偏远地区上方卫星的大部分计算资源都处于空闲状态。参考NASA开源的真实地面人口分布数据集，本发明将地面划分为用户分布不均的M个区域，每个区域内的用户位置呈均匀分布。在本发明中，采用概率统计模型来表征一段时间内的用户边缘计算请求，假设所有用户行为独立且周期性地向接入卫星发送边缘计算任务请求，单个用户的两个相邻任务时间间隔呈负指数分布，其概率密度函数为：

其中，为单个用户发送请求时间间隔的期望值；

步骤2：生成边缘计算任务序列

步骤3：构建低轨卫星星座网络动态拓扑模型

本发明采用经典的铱星(Iridium)星座作为目标网络，该卫星网络包含N_orbit条轨道，N_orbit＝6，每个轨道都有N_{Sat_orbit}颗均匀分布的低轨卫星，N_{Sat_orbit}＝11，卫星沿着轨道高速移动，为地面用户提供无缝无线宽带服务，通常地面用户将会动态地选择距离最近的低轨卫星为其接入节点。该网络拓扑相对两极连线对称，同向轨道间的经度差β为31.6°，轨道高度h_orbit为780km。铱星网络拓扑的具体参数值如表1所示。

表1铱星网络拓扑参数值

参数名称	符号表示	参数值
			轨道数量	N_orbit	6
每个轨道上的卫星数量	N_{Sat_orbit}＝11	11
			轨道高度	h_orbit	780km
卫星运动速度	v_sat	7.46km/s
			同向轨道间的经度差	β	31.6°
反向轨道间的经度差	α	22°
			轨道半长轴	r_a	7185km
轨道偏心率	e	0
			近地点俯角	ω	0°
轨道倾斜角	i	86.4°

步骤4：卫星收到边缘计算任务后获取局部可观测状态

在具有大空间尺度特性的低轨卫星星座网络中，中心化的控制节点难以及时获取网络全局状态来做实时卸载决策，因此本发明将卫星定义为相互独立的智能体，仅根据局部可观测状态信息来决定任务下一跳的卸载决策。每一颗低轨卫星作为一个智能体，其局部可观测状态空间定义为O(t)＝{f_obs,task,position}。其中是卫星及其邻居卫星上的计算资源空闲状态，task＝{size,ub,hop}表示当前待卸载任务的重要信息，包括任务数据量大小、任务处理时间上限以及当前任务已被卸载的跳数，最后position指向该低轨卫星所处的位置。

步骤5：卫星根据局部可观测状态执行卸载决策

每个智能体在接收到边缘计算任务Task_i以及局部信息观测量之后，都会从动作空间中选一个动作来对任务执行卸载决策，可选的动作包括本地处理Task_i，将Task_i转发到邻居卫星处理，以及将Task_i发送到地面云计算中心处理。本发明应用了Actor-Critic框架，Actor即策略网络，部署在每个低轨卫星上，通过学习策略μ以基于本地观测量输出可选动作的概率分布，然后执行概率最高的动作。由于同一星座中的低轨卫星高度具有同构性，所有卫星的策略网络可以共享参数值。

在训练阶段，智能体每次对于卸载策略的选择分为探索和利用两种情况，本发明利用ε-greedy算法基于概率来对探索和利用进行折中：智能体尝试以ε的概率进行随机探索，以1-ε的概率利用当前最优策略，可以在一定程度上更广泛的搜集训练样本。

步骤6：更新边缘计算任务序列

若当前任务被转发到邻居卫星，则根据当前任务到达邻居卫星的时间，按照时间顺序将该任务插回步骤1生成的边缘计算任务序列中，转步骤3；若当前任务被执行，则将该任务从边缘计算任务序列中移除，并转步骤7。

步骤7：计算卫星所执行卸载决策的奖励值

若边缘计算任务被执行，则将在任务结果返回用户后计算多级卸载决策的奖励值，并将奖励值发送给参与卸载该任务的所有卫星，生成训练样本存入Replay Buffer中。每个智能体的目标是学习最优卸载策略以降低卸载成本，即降低任务处理和提高星载资源利用率，因此计算奖励值前需要得到任务的总时延和网络的边缘计算资源利用率。首先，将参与协同卸载边缘计算任务Task_i的所有卫星建模为并将其中任意一颗卫星/>的卸载决策建模为/> 表示在卫星本地处理Task_i，/>和/>表示将任务转发给四颗邻居卫星，表示将任务发送给地面云计算中心。

步骤7.1计算任务时延

减少边缘计算任务处理延迟是本发明的重要优化目标，本发明所考虑的时延主要包括任务上传时延、任务排队时延、任务计算时延以及任务回传时延。星地通信链路和星间通信链路的数据传输速率分别由v_gs和v_ss表示。在边缘计算任务Task_i上传过程中，将星地数据传输所造成的时延为星间数据传输所造成的时延为其中l_gs和l_ss分别是星地传输和星间传输的平均距离，c表示光速。因此，Task_i的总上传时延可以计算为：

其中ξ是CPU计算密度，f_LEO和f_Cloud分别表示卫星和云计算中心为该任务分配的计算资源。如果Task_i在星上处理但星载计算资源暂无空闲，该任务将被放入排队队列，直到星上有资源被释放才会被处理，引入排队时延D_i,q。本发明假设云计算中心具备充分的计算资源，如果任务被发送到云计算中心处理，不会发生拥塞和排队现象。如果Task_i没能在时间上限L_i内被计算完成，分配给该任务的计算资源将会被释放，该任务被认定卸载失败；如果Task_i在L_i内成功被处理完成，数据量大小为任务结果信息将会返回给地面用户，结果返回时延的计算公式为：

D_i＝D_i,up+D_i,q+D_i,C+D_i,down

步骤7.2计算星载资源利用率

由于低轨卫星星座网络所服务的用户分布不均匀，所以低轨卫星上的计算负载极其不均衡，导致星载计算资源的低效利用，因此提高星载边缘计算资源利用率是本发明的另一个重要优化目标。当在时刻t_i为Task_i做出卸载决策后，低轨星座中任意一颗卫星LEO^k可以被表示为：

其中numSat表示星座中的卫星总数。

步骤7.3计算卸载决策奖励值

然后，根据任务时延和星载资源利用率两个指标的值，将奖励函数定义为两个指标的加权总和，当智能体做出较优卸载决策时，让做智能体得到一个较积极的奖励。因此智能体为Task_i做出任务卸载决策后的即时奖励可以设置为其中ΔCRUR_i表示/>做出卸载决策后，资源利用率的相对变化率，可以用以下公式计算：

步骤8：训练多智能体深度强化学习模型

从Replay Buffer中随机抽取一组minibatch来训练actor策略网络和中心化的critic价值网络。本发明使用确定性策略梯度(DPG)算法更新策略网络(Actor)：

y＝r+γQ_ν'(s′,μ_θ′(o′)),

Q_v(s,a)的Loss函数可以表示为以下公式：

阶段二：模型执行阶段

步骤1：部署深度强化学习模型

将训练好的深度强化学习模型中的Actor，即策略网络，部署到铱星星座内的每一颗低轨卫星上。而集中式的Critic，即评价网络，不参与模型执行阶段。

步骤2：卫星获取局部可观测状态信息

初始化任务序列，边缘计算任务发送到接入卫星，卫星获取局部状态信息观测量。每一颗低轨卫星作为一个智能体，其局部观测状态空间定义为O(t)＝{f_obs,task,position}。其中是卫星及其邻居卫星上的计算资源空闲状态，task＝{size,ub,hop}表示当前待卸载任务的重要信息，包括任务数据量大小、任务处理时间上限以及当前任务已被卸载的跳数，最后position指向该低轨卫星所处的位置。

步骤3：卫星根据局部可观测状态执行卸载决策

每个智能体在接收到边缘计算任务Task_i以及局部信息观测量之后，都会从动作空间中选一个动作来对任务执行卸载决策，可选的动作包括本地处理Task_i，将Task_i转发到邻居卫星处理，以及将Task_i发送到地面云计算中心处理。本发明应用了Actor-Critic框架，Actor即策略网络，部署在每个低轨卫星上，通过学习策略μ以基于本地观测量输出可选动作的概率分布，然后执行概率最高的动作。与训练阶段不同的是，执行阶段不采用ε-greedy策略去探索边界，智能体仅会选择最优策略去执行卸载决策。

步骤4：更新边缘计算任务序列

若当前任务被转发到邻居卫星，则根据当前任务到达邻居卫星的时间，按照时间顺序将该任务插回步骤1生成的边缘计算任务序列中，转步骤2；若当前任务被执行，则将该任务从边缘计算任务序列中移除，并转步骤5。

步骤5：计算多级卸载策略性能指标

若边缘计算任务被执行，则计算当前网络资源利用率，并在任务结果返回后计算任务时延，之后根据以上性能指标计算代价函数，以完成后续算法性能评估。

步骤5.1计算边缘计算任务时延

减少边缘计算任务延迟是本发明的重要优化目标，本发明所考虑的时延主要包括任务上传时延、任务排队时延、任务计算时延以及任务回传时延。星地通信链路和星间通信链路的数据传输速率分别由v_gs和v_ss表示。在边缘计算任务Task_i上传过程中，将星地数据传输所造成的时延为星间数据传输所造成的时延为其中l_gs和l_ss分别是星地传输和星间传输的平均距离，c表示光速。因此，Task_i的总上传时延可以计算为：

D_i＝D_i,up+D_i,q+D_i,C+D_i,down

步骤5.2计算星载资源利用率

其中numSat表示星座中的卫星总数。

步骤5.3计算任务卸载代价

本发明提出低轨卫星星座网络边缘计算任务多级卸载模型的优化目标是降低任务时延和提高星载计算资源利用率，因此边缘计算任务卸载策略的代价可以计算为

Cost_i＝φ₁D_i+φ₂(1-CRUR(t_i))

其中φ₁和φ₂是用来平衡不同优化目标的权重。

步骤6：开展低轨卫星多级卸载策略性能评估

对本发明提出的低轨卫星星座网络边缘计算任务多级卸载策略开展性能评估，本发明关注的性能评价指标包括边缘计算任务平均时延(ATPD)，星载计算资源利用率(CRUR)，边缘计算任务平均卸载代价(COST)。同时，与本发明所提出的策略开展性能对比的基准算法包括：

1)OTC(Offloading To Cloud)：将所有边缘计算任务卸载到距离用户最近的云计算中心处理；

2)OTAS(Offloading To Access Satellite)：将所有边缘计算任务卸载到云计算中心处理；

3)RO(Random Offloading)：在接入卫星到云计算中心的传输路径上随机选择节点卸载任务；

4)CDRL(Centralized DRL)：一种集中式强化学习算法，假设有一个中心化的智能体可以实时获取全局状态信息并为边缘计算任务做卸载决策；

5)IDRL(Independent DRL)：一种完全分布式的多智能体强化学习算法，每个智能体在训练和执行过程中均相互独立。

本发明通过改变低轨卫星星座网络的用户数量来测试算法性能，任务平均时延(ATPD)，星载计算资源利用率(CRUR)和边缘计算任务卸载代价(COST)三个性能指标的实验结果如图3，图4和图5所示。本发明所提出的MADRL在所有性能指标方面都优于OTC、OTAS、RO和IDRL算法，与CDRL算法性能接近。当用户规模较大时，其性能略弱于CDRL算法。然而，由于卫星网络的高动态特性和大空间尺度特性，全局网络状态难以被中心化的节点实时获取，因此CDRL算法没有办法实现和部署在真实系统当中。而这对于本发明所提出的基于MADRL算法的边缘计算卸载策略来说并不是问题，因为部署MADRL算法的实际系统中，卫星可以基于本地局部观测做出分布式卸载决策，而仅在训练过程中采用集中式架构。

Claims

1.基于强化学习的低轨卫星星座网络边缘计算多级卸载方法，该方法包括：

阶段一：模型训练阶段

步骤1：构建用户模型

将地面划分为用户分布不均的M个区域，每个区域内的用户位置呈均匀分布，采用概率统计模型来表征一段时间内的用户边缘计算请求，设所有用户行为独立且周期性地向接入卫星发送边缘计算任务请求，单个用户的两个相邻任务时间间隔呈负指数分布，其概率密度函数为：

其中，为单个用户发送请求时间间隔的期望值，x表示相邻任务的时间间隔；

步骤2：生成边缘计算任务序列；

采用时序序列{Task₁,Task₂,…,Task_total}来表征所有边缘计算任务，其中每一个元素表示一个任务，并将任意任务Task_i建模为其中，S_i表示该任务的数据量大小，L_i是该任务卸载时间上限，U_i指向生成该任务的用户，/>表示生成该边缘计算任务的时间点；所有任务是相互独立的，并且任务的数据量服从截断正态分布，期望为μ，方差为σ²；

步骤3：根据实际情况构建低轨卫星星座网络动态拓扑模型；

步骤4：根据步骤3得到的拓扑模型获取卫星收到边缘计算任务后的局部可观测状态；

将卫星定义为相互独立的智能体，根据局部可观测状态信息来决定任务下一跳的卸载决策；每一颗低轨卫星作为一个智能体，其局部可观测状态空间定义为O(t)＝{f_obs,task,position}；其中是本地卫星及其上下左右邻居卫星上的计算资源空闲状态，task＝{size,ub,hop}表示当前待卸载任务的重要信息，包括：任务数据量大小、任务处理时间上限、当前任务已被卸载的跳数，最后position指向该低轨卫星所处的位置；

步骤5：卫星根据局部可观测状态执行卸载决策；

每个智能体在接收到边缘计算任务Task_i以及局部信息观测量之后，从动作空间中选一个动作来对任务执行卸载决策，可选的动作包括本地处理Task_i和将Task_i转发到邻居卫星处理，以及将Task_i发送到地面云计算中心处理；采用当前卸载决策神经网络来计算卸载决策；

步骤6：根据卸载决策更新边缘计算任务序列；

若当前任务被转发到邻居卫星，则根据当前任务到达邻居卫星的时间，邻居卫星按照时间顺序将该任务插回步骤1生成的边缘计算任务序列中，转步骤3；若当前任务被执行，则将该任务从边缘计算任务序列中移除，并转步骤7；

步骤7：计算卫星所执行卸载决策的奖励值；

若边缘计算任务被执行，则将在任务结果返回用户后计算多级卸载决策的奖励值r，并将奖励值发送给参与卸载该任务的所有卫星，生成训练样本存入Replay Buffer中；每个智能体的目标是学习最优卸载策略以降低卸载成本，即降低任务处理和提高星载资源利用率，因此计算奖励值前需要得到任务的总时延和网络的边缘计算资源利用率；首先，将参与协同卸载边缘计算任务Task_i的所有卫星建模为并将其中任意一颗卫星/>的卸载决策建模为/> 表示在卫星本地处理Task_i，/>和/>表示将任务转发给四颗邻居卫星，/>表示将任务发送给地面云计算中心；

步骤8：采用步骤7得到的决策奖励值来调整卸载决策神经网络中的参数，然后返回步骤2，直到卸载决策神经网络训练完成；

步骤9：执行实际卸载任务时，采用训练完成的卸载决策神经网络计算卸载决策。

2.如权利要求1所述的基于强化学习的低轨卫星星座网络边缘计算多级卸载方法，其特征在于，所述步骤5中卸载决策神经网络为Actor-Critic框架网络，

步骤8中的训练方法为：

使用确定性策略梯度DPG算法更新策略网络Actor：

其中，J(θ)表示策略梯度更新的目标函数，表示对θ求梯度，E_s,a,o～RB[·]表示策略的期望价值，Grad_Q表示价值网络Q对θ所求梯度，，s是卫星网络的全局状态信息，a是Actor依赖局部观测状态量所做出的动作，μ_θ(a|o)表示策略网络在局部状态为o时选取动作a的概率，/>表示中心化的价值网络，即Critic，其神经网络参数为ν，μ当前的策略函数；Critic将全局状态信息和智能体的动作作为输入，然后输出每个状态-动作组合的Q值；在每一轮多步更新迭代过程中，采用目标价值网络Q_v′和目标策略网络μ_θ′来固定一个目标值y：

y＝r+γQ_ν'(s′,μ_θ′(o′))

其中，r为步骤7计算的卸载决策奖励值，(s′,a′)是下一时刻的动作-状态组合；为了缓解评价网络的高估问题，利用两个评价网络Q_v1和Q_v2来并行地估计重同一组训练样本，并且选择较小的估计值作为最终估计结果；因此，评价网络更新的目标被修正为：

Q_v(s,a)的Loss函数L(θ)表示为以下公式：

以最小化Loss函数值为目标，采用梯度下降算法和反向传播机制，在每一轮迭代中不断优化Actor-Critic框架网络的参数，使得Actor-Critic框架网络更加准确地评估智能体的策略。

3.如权利要求1所述的基于强化学习的低轨卫星星座网络边缘计算多级卸载方法，其特征在于，步骤7的具体方法为：

步骤7.1计算任务时延；

星地通信链路和星间通信链路的数据传输速率分别由v_gs和v_ss表示；在边缘计算任务Task_i上传过程中，将星地数据传输所造成的时延为星间数据传输所造成的时延为/>其中l_gs和l_ss分别是星地传输和星间传输的平均距离，c表示光速；因此，Task_i的总上传时延D_i,up为：

若说明该任务被发送到云计算中心处理，若/>则说明该任务在卫星节点被执行；d表示该任务卸载过程所经历的星间传输次数；Task_i的计算时延D_i,C为：

其中，ξ是CPU计算密度，f_LEO和f_Cloud分别表示卫星和云计算中心为该任务分配的计算资源；如果Task_i在星上处理但星载计算资源暂无空闲，该任务将被放入排队队列，直到星上有资源被释放才会被处理，引入排队时延D_i,q；设云计算中心具备充分的计算资源，如果任务被发送到云计算中心处理，不会发生拥塞和排队现象；如果Task_i没能在时间上限L_i内被计算完成，分配给该任务的计算资源将会被释放，该任务被认定卸载失败；如果Task_i在L_i内成功被处理完成，数据量大小为任务结果信息将会返回给地面用户，结果返回时延D_i,down为：

得到边缘计算任务Task_i的处理总时延为：

D_i＝D_i,up+D_i,q+D_i,C+D_i,down

步骤7.2计算星载资源利用率；

当低轨卫星在时刻t_i为Task_i做出卸载决策后，低轨星座中任意一颗卫星LEO^k的星载计算资源利用率CRUR^k(t_i)为：

其中，CN^k(t_i)是在t_i时刻LEO^k上正在处理的边缘计算任务数量，f_LEO和分别表示卫星为单个任务所分配的计算资源和总星载计算资源；因此，整个低轨卫星星座网络的总资源利用率为：

其中numSat表示星座中的卫星总数；

步骤7.3计算卸载决策奖励值；

智能体为Task_i做出任务卸载决策后的即时奖励值为其中，是平衡奖励函数中两个不同变量的权重值，ΔCRUR_i表示/>做出卸载决策后，资源利用率的相对变化率，用以下公式计算：

其中，和/>分别是/>做卸载决策前和做卸载决策后网络的资源利用率；为了考虑智能体决策的长远影响，应进一步计算动作的长期累计奖励其中γⁱ为衰减因子，决定当前卸载决策对未来奖励的影响。