CN115499875A

CN115499875A - 一种卫星互联网任务卸载方法、系统以及可读存储介质

Info

Publication number: CN115499875A
Application number: CN202211115078.9A
Authority: CN
Inventors: 罗志勇; 林天豪; 黄澳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-20
Anticipated expiration: 2042-09-14
Also published as: ZA202305876B; CN115499875B

Abstract

本申请属于卫星通信的技术领域，公开了一种卫星互联网任务卸载方法、系统以及可读存储介质，所述方法包括：建立支持计算任务卸载的时延敏感型卫星弹性互联网架构；根据卫星弹性互联网架构建立卫星弹性互联网任务卸载模型；根据卫星弹性互联网任务卸载模型建立最小化时延的优化问题；根据优化问题建立马尔可夫决策过程问题；利用DDTO算法求解马尔可夫决策过程问题，输出卸载策略，所述DDTO算法为基于DRL的任务卸载策略选择算法，可以达到实现将卫星互联网架构和边缘计算问题有机结合以实现卫星资源合理分配的效果。

Description

一种卫星互联网任务卸载方法、系统以及可读存储介质

技术领域

本申请涉及卫星通信的技术领域，尤其是涉及一种卫星互联网任务卸载方法、系统以及可读存储介质。

背景技术

根据思科产业报告预测，到2023年将有三分之二的世界人口(约53亿)接入互联网，同时超过世界人口三倍数目的用户设备也将接入网络。大量的设备接入，或者称为mMTC(Massive Machine Type of Communication，海量机器类通信)，便是当前大规模商用的5G网络特性之一。即使5G网络可以给全球大约20亿用户带来除mMTC外的eMBB(EnhancedMobile Broadband，增强型移动宽带)和uRLLC(UltraReliable Low LatencyCommunication，超可靠、低时延通信)服务，受制于成本和技术条件的限制，全球许多范围内还无法全覆盖网络。特别是像沙漠、深海、森林等复杂的自然地理环境下，大规模部署地面基站更是一件吃力不讨好的工作。因此，卫星互联网便可以作为一种高效的通信方式覆盖以上的场景。

卫星互联网，或者是天地融合网络，主要架构为“天网地网”。自1957年第一颗人造通信卫星升空，到如今全球已经发射了数千颗卫星，逐渐建成卫星遥感、气象、中继、导航等卫星系统。但是，卫星网络系统间各自独立，组网机制和相关协议上异构特性显著，在网络的移动性、安全性、业务QoS、可扩展性等方面存在明显的差异，造成严重的“烟囱林立”现象，导致网络条块分割明显，很大程度上限制了网络空间资源利用效率。与传统的地面通信网络相比，卫星网络还具有拓扑时变、空间环境恶劣、卫星之间距离大而网络传输时延大等特点，传统刚性网络架构渐渐不能满足用户的需求，并且在“打补丁”式的网络升级、新业务新设备部署等方面存在一定的运维难度。

另外，随着像实时视频分析、车联网、增强现实、智能工业等众多新兴业务对时延感知的高敏感和对计算设备的计算能力和计算效率的高要求，用户终端的计算能力往往会给用户服务质量(Quality of Service，QoS)带来一定的限制。单机服务面对计算密集型的任务的无能为力和云端计算离终端过远等特性使得仍然存在众多时延敏感的实时计算任务无法支持。因此，受地面上的将任务卸载到边缘网络节点(Edge Computing Node,ECN)上处理的边缘计算技术(Mobile Edge Computing，MEC)所启发，卫星通信中改变比较传统的云端处理方式，将计算能力下沉到LEO卫星上，通过在LEO卫星上布置MEC服务器，拉近与用户之间的物理距离，达到更好的时延和能耗性能。同时，卫星通信网络作为一种广域网，也可以进一步大规模覆盖5G设备难以覆盖的地区。

在具体的MEC网络中，ECN对计算资源、存储资源、通信资源的分配和调度非常重要。边缘服务器的资源是有限的，尤其是对于卫星网络而言，如何将任务高效地卸载和将有限的资源合理分配给不同的任务需求是一个重要的问题。因此，如何将卫星互联网架构和边缘计算问题有机地结合起来是如今亟需解决的问题。

发明内容

为此，本申请的实施例提供了一种卫星互联网任务卸载方法及系统、计算机设备及存储介质，能够实现将卫星互联网架构和边缘计算问题有机结合以实现卫星资源合理分配的效果，具体技术方案内容如下：

第一方面，本申请的实施例提供一种卫星互联网任务卸载方法，所述方法包括：

建立支持计算任务卸载的时延敏感型卫星弹性互联网架构；

根据卫星弹性互联网架构建立卫星弹性互联网任务卸载模型；

根据卫星弹性互联网任务卸载模型建立最小化时延的优化问题；

根据优化问题建立马尔可夫决策过程问题；

利用DDTO算法求解马尔可夫决策过程问题，输出卸载策略，所述DDTO算法为基于DRL的任务卸载策略选择算法。

优选的，所述建立支持计算任务卸载的时延敏感型卫星弹性互联网架构包括：

基于SDN/NFV技术，结合TSN中IEEE 802.1Qcc建立时延敏感型卫星弹性互联网架构，所述卫星弹性互联网架构中采用LEO卫星装备的的MEC服务器为地面数据节点提供卸载服务。

优选的，所述根据卫星弹性互联网架构建立卫星弹性互联网任务卸载模型包括：

基于卫星弹性互联网架构，在数据平面上考虑若干LEO卫星覆盖多地面数据节点的场景，建立卫星弹性互联网任务卸载模型；其中，所述卫星弹性互联网任务卸载模型包括通信模型、任务模型以及计算模型。

优选的，任务卸载场景包括本地卸载以及LEO卫星卸载，所述LEO卫星卸载为任务卸载在LEO卫星的MEC服务器上；

所述通信模型包括：网络中用户集合为

MEC服务器集合为

其中，m表示当前进行任务卸载用户数，n表示当前MEC服务器集群中的MEC服务器数；一共定义T个时隙，每个用户u_i在每个时隙会产生一个任务Q_i(t)；

用户u_i将数据上传到MEC服务器b_j的传输速率r_i,j(t)是

传输时延

是

无线传输的能量消耗

是

其中，W代表信道带宽，σ²表示用户设备的噪声功率，I_i,j表示小区间干扰功率，h_i,j(t)代表用户u_i将任务卸载到MEC服务器b_j使用信道的信道增益，p_i代表用户u_i传输信号的传输功率；z_i(t)代表任务Q_i(t)的数据量大小，s代表用户u_i到MEC服务器b_j的直线距离，c代表光速。

优选的，所述任务模型包括：任务定义为Q_i(t)＝{ω_i(t),z_i(t),pri_i(t)}，其中ω_i(t)表示该任务需要的计算量，即完成任务所需要的CPU频率，z_i(t)表示该任务的数据量大小，pri_i(t)表示该任务的优先级，pri_i(t)∈[1,2,…,PN]，其中，PN为当前任务的优先级数；

所述计算模型包括：

对于本地卸载场景，定义用户设备u_i的本地CPU频率是f_i ^L，任务Q_i(t)的本地处理时延

为

能耗

为

其中，ρ_i是每个CPU周期消耗的能量的功率系数；

对于LEO卫星卸载，定义MEC服务器b_j的CPU频率是

根据所述任务模型Q_i(t)＝{ω_i(t),z_i(t),pri_i(t)}，任务Q_i(t)在MEC服务器上处理时延

为

其中，

代表的是MEC服务器b_j在时隙t分配给任务Q_i的计算资源比例，

为优先级为pri_i的任务Q_i(t)的平均排队时延；

若任务排队模型是非抢占有限排队模型为M/M/N队列，同优先级的任务服从先到先服务的原则处理；且若任一时隙任意优先级的任务到达队列的到达率服从参数为λ_i(t)的泊松分布，且MEC服务器的处理时间服从参数为μ(t)的指数分布，则

其中，

总到达率λ(t)为

约束条件包括：

其中，O_j代表卸载到MEC服务器b_j上的计算任务集合。

优选的，所述根据卫星弹性互联网任务卸载模型建立最小化时延的优化问题包括：

在时隙t所有任务产生的总时延d(t)为

其中，x_i(t)∈{0,1}，当x_i(t)表示任务本地卸载时，[x_i(t)＝1]；当x_i(t)表示LEO卫星卸载的时候，[x_i(t)＝0]；

最小化在时隙集合的时间范围内产生的所有任务的平均处理时延表示如下，其中P1为优化问题：

优选的，所述根据优化问题建立马尔可夫决策过程问题包括：

设马尔可夫决策过程问题为一个4元素元组

其中，S代表状态空间，A代表动作空间，R代表奖励函数，χ∈[0,1]代表折扣系数；

所述状态空间S包括：

在时隙t时环境状态表示为：s(t)＝{ω(t),z(t),pri(t),f^E(t)}；

其中，其中ω(t)代表所有任务的计算量，z(t)代表所有任务的数据量，pri(t)代表所有任务的优先级，f^E(t)代表所有MEC服务器能够提供的计算资源量；

所述动作空间A包括：

在时隙t时智能体动作表示为：a(t)＝[a_i,j(t)]_m×(m+n)，a_i,j(t)∈{0,1}

其中，当j＝1,2,...,n时，a_i,j代表LEO卫星卸载的情况；当j＝n+1,n+2,...,m时，a_i,j(t)代表本地卸载的情况；当a_i,j(t)＝0时，表示不进行LEO卫星卸载或者不进行本地卸载；当a_i,j(t)＝1时，表示卸载到MEC服务器或者执行本地卸载，并且m>n；

所述奖励函数R包括：

在时隙t时智能体获得的奖励为：

在优化目标P1的基础上，选取时延的相反数作为奖励函数之一；另外，如果不满足限制条件的话，将奖励函数设置为一个极小值。

优选的，所述利用DDTO算法求解马尔可夫决策过程问题，输出卸载策略包括：

所述DDTO算法即基于DRL的任务卸载策略选择算法，建立在强化学习算法A2C框架之上，一共要训练4个网络：Actor网络，Target Actor网络，Critic网络，Target Critic网络；

所述DDTO算法包括：

步骤1：由Actor网络和Critic网络与环境进行交互，直至达到最终状态或者达到周期上限T；

步骤2：由步骤1所述的交互过程中得到的数据计算累积回报R、策略梯度dθ′和价值梯度dθ′_v；

步骤3：利用策略梯度dθ′和价值梯度dθ′_v计算更新Target Actor网络和TargetCritic网络的参数θ′和θ′_v；

重复步骤1至步骤3直到神经网络收敛；

其中，步骤2中的累积回报为R←r_i+γR，策略梯度为

价值梯度为

步骤3中，Target Actor网络的参数为θ′←θ′+ηdθ′以及Target Critic网络的参数为θ′_v←θ′_v+ηdθ′_v。

第二方面，本申请的实施例提供一种卫星互联网任务卸载方法系统，所述系统包括：

第一构建模块，用于建立支持计算任务卸载的时延敏感型卫星弹性互联网架构；

第二构建模块，用于根据卫星弹性互联网架构建立卫星弹性互联网任务卸载模型；

第三构建模块，用于根据卫星弹性互联网任务卸载模型建立最小化时延的优化问题；

第一计算模块，用于根据优化问题建立马尔可夫决策过程问题；

第二计算模块，用于利用DDTO算法求解马尔可夫决策过程问题，输出卸载策略，所述DDTO算法为基于DRL的任务卸载策略选择算法。

第三方面，本申请的实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述任意一项所述的卫星互联网任务卸载方法的步骤。

综上所述，与现有技术相比，本申请实施例提供的技术方案带来的有益效果至少包括：

由构建的卫星弹性互联网架构建立卫星弹性互联网任务卸载模型，以建立最小化时延的优化问题，然后即可根据建立最小化时延的优化问题构建马尔科夫决策过程问题，然后采用DDTO算法求解马尔可夫决策问题，将卫星互联网架构与边缘计算问题有机结合，由DDTO算法解决马尔可夫决策过程问题，使输出的卸载策略能够合理利用卫星资源。

附图说明

图1是本申请其中一实施例提供的一种卫星互联网任务卸载方法的流程示意图。

图2是本申请其中一实施例提供的一种卫星互联网任务卸载方法的支持计算任务卸载的时延敏感型的卫星弹性互联网架构图。

图3是本申请其中一实施例提供的一种卫星互联网任务卸载方法的卫星弹性互联网任务卸载模型。

图4是是本申请其中一实施例提供的一种卫星互联网任务卸载方法的DDTO算法的伪代码算法图。

图5是本申请其中一实验例的学习率对DDTO算法收敛性的影响图。

图6是本申请其中一实验例的DDTO算法和PPO算法的收敛性比较图。

图7是本申请其中一实验例的任务数据量服从均匀分布时不同算法下任务计算量对任务卸载性能的影响对比图。

图8是本申请其中一实验例的任务数据量服从正态分布时不同算法下任务计算量对任务卸载性能的影响对比图。

图9是本申请其中一实验例的任务数据量服从帕累托分布时不同算法下任务计算量对任务卸载性能的影响对比图。

图10是本申请其中一实验例的任务计算量服从均匀分布时不同算法下任务数据对任务卸载性能的影响对比图。

图11是本申请其中一实验例的任务计算量服从正态分布时不同算法下任务数据对任务卸载性能的影响对比图。

图12是本申请其中一实验例的任务计算量服从帕累托分布时不同算法下任务数据对任务卸载性能的影响对比图。

具体实施方式

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

另外，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指三个或以上，例如，多个第一位置是指三个或以上的第一位置。

下面结合说明书附图对本申请实施例作进一步详细描述。

参照图1，在本申请的一个实施例中，提供一种卫星互联网任务卸载方法，所述方法的主要步骤描述如下：

S1：建立支持计算任务卸载的时延敏感型卫星弹性互联网架构；

S2：根据卫星弹性互联网架构建立卫星弹性互联网任务卸载模型；

S3：根据卫星弹性互联网任务卸载模型建立最小化时延的优化问题；

S4：根据优化问题建立马尔可夫决策过程问题；

S5：利用DDTO算法求解马尔可夫决策过程问题，输出卸载策略，所述DDTO算法为基于DRL的任务卸载策略选择算法。

具体的，在本实施例中，DDTO(DRL-Based Dynamic Task Offloading,基于DRL的任务卸载策略选择算法)算法，建立在强化学习算法A2C框架之上，一共要训练4个网络：Actor网络，Target Actor网络，Critic网络，Target Critic网络。

在本实施方式中，由构建的卫星弹性互联网架构建立卫星弹性互联网任务卸载模型，以建立最小化时延的优化问题，然后即可根据建立最小化时延的优化问题构建马尔科夫决策过程问题，然后采用DDTO算法求解马尔可夫决策问题，将卫星互联网架构与边缘计算问题有机结合，由DDTO算法解决马尔可夫决策过程问题，使输出的卸载策略能够合理利用卫星资源。

进一步的，在另一实施方式中，S1为S1’。

S1’：基于SDN/NFV技术，结合TSN中IEEE 802.1Qcc建立时延敏感型卫星弹性互联网架构，所述卫星弹性互联网架构中采用LEO卫星装备的MEC服务器为地面数据节点提供卸载服务。

具体的，参照图2，在本实施方式中，技术人员可以通过天地融合网络管理平台实时管理卫星资源配置、路由转发、网络配置等功能，尽可能地使卫星弹性互联网架构契合多样化的任务需求。

进一步的，在另一实施方式中，S2为S2’。

S2’：基于卫星弹性互联网架构，在数据平面上考虑若干LEO卫星覆盖多地面数据节点的场景，建立卫星弹性互联网任务卸载模型；其中，所述卫星弹性互联网任务卸载模型包括通信模型、任务模型以及计算模型。

具体的，参照图3，在步骤S1提出的卫星弹性互联网架构中，数据平面上考虑若干LEO卫星覆盖多地面数据节点的场景，所述地面数据节点即用户，在用户卸载任务时，依据通信模型、任务模型以及计算模型决定卸载策略。

进一步的，在另一实施方式中，任务卸载场景包括本地卸载以及LEO卫星卸载，所述LEO卫星卸载为任务卸载在LEO卫星的MEC服务器上。

本地卸载即用户将任务卸载到本地上，可以减少传输时延和排队时延，不过会受到本身设备的处理速度的限制并且本地的能耗会更大；LEO卫星卸载是将任务卸载到LEO卫星装备的MEC服务器上，可以提高处理速度，不过会带来额外的传输时延，而且因为卫星的资源比较有限，还会带来额外的排队时延。

在本实施方式中，所述通信模型包括：网络中用户集合为

MEC服务器集合为

用户u_i将数据上传到MEC服务器b_j的传输速率r_i,j(t)是

传输时延

是

无线传输的能量消耗

是

具体的，在本实施方式中，γ_i,j(t)表示用户u_i将任务卸载到MEC服务器b_j上,为了简化表示，本申请中用(i,j)下标表示γ_i,j；且因为任务经过处理后的数据量很小，所以本申请中不考虑下载时的能耗与时延。

本申请是基于多用户和多LEO节点情况，在现有条件的支持下，卫星通信出现的切换时延可以忽略不计。并且由于用户是在距离LEO卫星较远距离的一块区域上，在本申请中近似地认为用户设备到MEC服务器的距离是一样的，并且本申请只关注“端-边”模型而不考虑云带来的影响。

进一步的，在本实施方式中，所述任务模型包括：任务定义为Q_i(t)＝{ω_i(t),z_i(t),pri_i(t)}，其中ω_i(t)表示该任务需要的计算量，即完成任务所需要的CPU频率，z_i(t)表示该任务的数据量大小，pri_i(t)表示该任务的优先级，pri_i(t)∈[1,2,…,PN]，其中，PN为当前任务的优先级数；

所述计算模型包括：

为

能耗

为

其中，ρ_i是每个CPU周期消耗的能量的功率系数；

对于LEO卫星卸载，定义MEC服务器b_j的CPU频率是

为

其中，

代表的是MEC服务器b_j在时隙t分配给任务Q_i的计算资源比例，

为优先级为pri_i的任务Q_i(t)的平均排队时延；

其中，

总到达率λ(t)为

约束条件包括：

其中，代表卸载到MEC服务器上的计算任务集合。

进一步的，在另一实施方式中，S3具体为：

在时隙t所有任务产生的总时延d(t)为

其中，代表卸载到MEC服务器上的计算任务集合。

进一步的，S4具体为：设马尔可夫决策过程问题为一个4元素元组

所述状态空间S包括：

在时隙t时环境状态表示为：s(t)＝{ω(t),z(t),pri(t),f^E(t)}；

所述动作空间A包括：

在时隙t时智能体动作表示为：a(t)＝[a_i,j(t)]_m×(m+n),a_i,j(t)∈{0,1}

所述奖励函数R包括：

在时隙t时智能体获得的奖励为：

具体的，马尔可夫决策过程(Markov Decision Processes，MDP)问题一般来说都是要最大化累计奖励函数，但是基于本申请优化问题P1而言，目的是最小化平均时延，因此选取时延的相反数作为奖励函数之一。

进一步的，S5具体为：所述DDTO算法包括：

重复步骤1至步骤3直到神经网络收敛；

其中，步骤2中的累积回报为R←r_i+γR，策略梯度为

价值梯度为

具体的，图4为DDTO算法的伪代码算法，所述Actor网络的参数是θ，输入是当前训练环境状态s(t),输出是当前智能体(Agent)的策略π(a(t)∣s(t)；θ)，即当前时隙的动作概率分布，每个动作可以用一个稀疏矩阵来表示。

所述Target Actor网络的参数是θ′，输入是当前实施环境状态s′(t),输出是当前智能体(Agent)的策略π′(a′(t)∣s′(t)；θ′)，即当前时隙的动作概率分布，每个动作可以用一个稀疏矩阵来表示。

所述Critic网络的参数是θ_v，输入是当前智能体(Agent)的策略π(a(t)∣s(t)；θ)和当前训练环境状态s(t),输出是当前训练状态的累积期望奖励

即任务的计算量、数据量、优先级和MEC服务器提供的计算资源量所能产生的期望价值。

所述Target Critic网络的参数是θ′_v，输入是当前智能体(Agent)的策略π′(a′(t)∣s′(t)；θ′)和实施环境状态s′(t),输出是当前实施状态的累积期望奖励

为了做出任务卸载决策，Actor网络和Critic网络需要经过多次训练并结合在时隙t之前的经验来更新训练Target Actor网络和Target Critic网络。最后实施时本申请输出的策略由训练后的Target Actor网络和Target Critic网络共同决定。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本申请的一个实施例中，提供一种卫星互联网任务卸载系统，该卫星互联网任务卸载系统与上述实施例中的卫星互联网任务卸载方法一一对应。该卫星互联网任务卸载系统包括：

进一步的，在另一实施方式中，第一构建模块还用于基于SDN/NFV技术，结合TSN中IEEE802.1Qcc建立时延敏感型卫星弹性互联网架构，所述卫星弹性互联网架构中采用LEO卫星的MEC服务器为地面数据节点提供卸载服务。

进一步的，在另一实施方式中，第二构建模块还用于基于卫星弹性互联网架构，在数据平面上考虑若干LEO卫星覆盖多地面数据节点的场景，建立卫星弹性互联网任务卸载模型；其中，所述卫星弹性互联网任务卸载模型包括通信模型、任务模型以及计算模型。

进一步的，在另一实施方式中，任务卸载场景包括本地卸载以及LEO卫星卸载，所述LEO卫星卸载为任务卸载在LEO卫星的MEC服务器上；

所述通信模型包括：网络中用户集合为

MEC服务器集合为

用户u_i将数据上传到MEC服务器b_j的传输速率r_i,j(t)是

传输时延

是

无线传输的能量消耗

是

进一步的，在另一实施方式中，所述任务模型包括：任务定义为Q_i(t)＝{ω_i(t),z_i(t),pri_i(t)}，其中ω_i(t)表示该任务需要的计算量，即完成任务所需要的CPU频率，z_i(t)表示该任务的数据量大小，pri_i(t)表示该任务的优先级，pri_i(t)∈[1,2,…,PN]，其中，PN为当前任务的优先级数；

所述计算模型包括：

为

能耗

为

其中，ρ_i是每个CPU周期消耗的能量的功率系数；

对于LEO卫星卸载，定义MEC服务器b_j的CPU频率是

为

其中，

代表的是MEC服务器b_j在时隙t分配给任务Q_i的计算资源比例，

为优先级为pri_i的任务Q_i(t)的平均排队时延；

其中，

总到达率λ(t)为

约束条件包括：

其中，O_j代表卸载到MEC服务器b_j上的计算任务集合。

进一步的，在另一实施方式中，所述根据卫星弹性互联网任务卸载模型建立最小化时延的优化问题包括：

在时隙t所有任务产生的总时延d(t)为

其中，O_j代表卸载到MEC服务器b_j上的计算任务集合。

进一步的，在另一实施方式中，所述根据优化问题建立马尔可夫决策过程问题包括：

设马尔可夫决策过程问题为一个4元素元组

所述状态空间S包括：

在时隙t时环境状态表示为：s(t)＝{ω(t),z(t),pri(t),f^E(t)}；

所述动作空间A包括：

所述奖励函数R包括：

在时隙t时智能体获得的奖励为：

进一步的，在另一实施方式中，所述利用DDTO算法求解马尔可夫决策过程问题，输出卸载策略包括：

所述DDTO算法包括：

重复步骤1至步骤3直到神经网络收敛；

其中，步骤2中的累积回报为R←r_i+γR，策略梯度为

价值梯度为

上述的卫星互联网任务卸载系统各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述的卫星互联网任务卸载方法步骤。所述计算机可读存储介质包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁盘、软盘等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将本申请所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

实验例

下面结合仿真实验对本发明的技术效果作详细的描述。

本实验例进行了一系列仿真模拟来评估DDTO方案的性能。实验结果可以分成4个方面：仿真A：分析对比DDTO算法和其他强化学习算法的收敛速度；仿真B分析对比DDTO算法和另外几种任务卸载算法在最优化时延的对比；仿真C研究任务计算量对任务卸载性能的影响；仿真D研究任务数据量对任务卸载性能的影响；

所述仿真A中其他强化学习算法为PPO算法，因为动作空间是离散的，典型的PG(Policy Gradient)算法PPO更加适合。PPO是基于策略的off-policy算法，在利用优势函数的同时，表现目标函数在原基础上添加了一个限制条件KL惩罚，目的是限制采样的网络和用于训练的网络间的差别，从而使模型更加精确；

所述仿真B中的任务卸载算法包括：PPO算法、随机卸载算法、贪心算法、本地卸载算法；其中，随机卸载算法(标注为RANDOM)：用户随机地选择本地卸载或者随机卸载到某一个MEC服务器上；贪心算法(标注为GRE)：用户优先选择能提供更高计算资源量的MEC服务器或者本地卸载；

本地卸载算法(标注为LOC)：用户全部选择本地卸载。

所述仿真C中设置数据量的均值为3.5Mb，计算量则分别服从均匀分布、正态分布、帕累托分布；

所述仿真D中设置计算量的均值为1.5Gcycle，数据量则分别服从均匀分布、正态分布、帕累托分布。

本实验例的仿真平台是Python 3.9，设置有3颗高度为784km的LEO卫星飞越1200m×1200m的正方形区域，地面有24个用户随机分布，并且每个用户只能将任务卸载到某一个LEO卫星的MEC服务器或者本地卸载。因为高度远远大于地面区域，近似认为每个用户和MEC服务器的距离就是LEO卫星的高度，并且由于考虑的LEO卫星会组成星系，信道切换的损失和通信窗口造成的影响忽略不计，即认为用户时刻可以和LEO卫星进行通信，并且信道增益可以通过感知技术来提前获取。

其中，本发明将用户的传输功率设置为23dBm，信道带宽为20MHz，信道模型选择为自由空间衰落信道模型。对于任务参数而言，主要考虑计算量、数据量、优先级以及可能带来的能量消耗。计算时需要考虑上一个时隙的任务卸载决策，假定每个时隙中每个LEO卫星可以提供的计算资源量是范围内的随机值。在DDTO算法中，经过仔细的调整，本发明将所有神经网络分成4层，分别为1个输入层、2个隐藏层和1个输出层，其中actor网络的隐藏层神经元分别为2048和1024，critic网络的隐藏层神经元分别为1024和512；模型的训练参数中，学习率为0.001，折扣因子为0.75。除此之外，其余的参数设置详见表1。

表1：仿真参数设置

仿真结果包括：

仿真A:

图5对比了学习率对DDTO算法收敛性的影响和不同强化学习算法在SMTOM下的收敛情况。在深度强化学习中，学习率决定着目标函数是否能收敛到最小值以及何时能收敛到最小值，一个合适的学习率可以保证在较小的时间内目标函数收敛到局部最小值。其中，学习率太大时(Learing rate＝0.1),算法不收敛；当学习率较小时(Learing rate＝0.0001)，DDTO算法的收敛速度较慢，在episode＝10000左右时才收敛到2s左右；而当学习率在0.01和0.001之间时，DDTO算法的收敛性能较好，大约在episode＝1000时边都能收敛到大约2s。发生以上结果的原因是在学习率比较大时，很容易跳过全局最优值或者不断发散；而学习率过小时，损失函数的更新速度会变慢，需要更长的时间才能收敛。

图6对比不同强化学习算法在SMTOM下的收敛情况。其中，DDTO算法的收敛速度明显比PPO算法要快，虽然二者最后得到的平均时延几乎一致，但是DDTO在episode＝1000的时候便已经收敛到了2s左右，相比之下，PPO算法在episode＝20000时才收敛到与DDTO差不多的程度。因此，可以发现DDTO在SMTOM下有更高的计算效率，这对于资源稀缺的卫星通信场景中是非常重要的。

仿真B和仿真C:

图7至9中可以总结出任务计算量增大时，系统平均时延呈上升趋势。另外，本发明提出的DDTO和强化学习算法PPO的表现较好，平均时延都比其他标准算法要低，另外经过数据统计可以发现，DDTO算法的平均时延会稍微比PPO算法的平均时延要小。这是因为DDTO会综合考虑任务数据量和计算量产生的影响，并且神经网络输出的值同时会有策略和价值标量。相比于本地卸载算法，其余四种算法的平均时延都会更低，并且在任务计算量增大时会更加明显，因此用户进行任务卸载时考虑卸载到MEC服务器的话通常而言会带来比较小的延迟和服务质量。另外对比贪心算法和随机算法可以发现贪心算法的时延表现甚至比不上随机算法，这实际上是因为SMTOM考虑了优先级队列这一因素，当大量用户都优先选择能提供更大计算资源的MWEC服务器时，不可避免地会带来总体性能的下降；这不仅体现了SMTOM的优越性，并且如何实现MEC服务器间的负载均衡将在下一章中详细谈论。

图7中数据量服从均匀分布时，相比较于本地卸载算法，贪心算法的平均时延要低64％，随机算法的平均时延要低72％，PPO算法和DDTO算法则是92％左右。图8中可以看到在数据量服从正态分布时各种算法的平均时延表现和数据量服从均匀分布时几乎一致；图9中数据量服从帕累托分布时，随机算法和贪心算法的曲线上升趋势都不太平稳，并且DDTO和PPO算法的平均时延相比于数据量服从正态分布或者均匀分布时会稍微大一点，原因都是帕累托分布的肥尾效应导致任务小概率产生数据量比较大的情况，部分算法的平均时延出现波动并且会变大，本地卸载算法是因为数据量大小不会影响平均时延表现。

仿真B和仿真D：

图10至12中可以总结任务数据量对任务卸载性能的影响不大，随着数据量增大，各种算法的平均时延呈现较小幅度的增长趋势，因为数据量只会影响传输时延并且传输时延通常来讲在整个时延中占比较小。另外，五种算法的平均时延表现和不同任务计算量下的平均时延表现类似，其中DDTO算法相比较其余算法都有更好的平均时延表现。

图10中计算量服从均匀分布时，相比较于本地卸载算法，贪心算法的平均时延要低61％，随机算法的平均时延要低77％，PPO算法和DDTO算法则是92％左右。图11中可以看到在数据量服从正态分布时各种算法的平均时延表现和数据量服从均匀分布时几乎一致；图12中数据量服从帕累托分布时，所有算法的曲线上升趋势都出现了波动，并且DDTO和PPO算法的平均时延之间的差距被加大，原因都是帕累托分布的肥尾效应导致任务小概率产生数据量比较大的情况从而引起算法的平均时延出现波动，也体现了小概率事件对DDTO算法的平均时延相比于PPO算法的平均时延影响要小。

本申请针对卫星弹性互联网场景下的任务卸载问题建立卫星弹性互联网架构和卫星弹性互联网任务卸载模型,在此基础上提出了在能量限制条件下优化平均时延的目标，进一步利用强化学习算法A2C框架提出了DDTO算法解决了NP优化问题。仿真表明，该算法可以显著降低用户任务卸载的平均时延。

Claims

1.一种卫星互联网任务卸载方法，其特征在于，所述方法包括：

建立支持计算任务卸载的时延敏感型卫星弹性互联网架构；

根据优化问题建立马尔可夫决策过程问题；

2.根据权利要求1所述的卫星互联网任务卸载方法，其特征在于，所述建立支持计算任务卸载的时延敏感型卫星弹性互联网架构包括：

基于SDN/NFV技术，结合TSN中IEEE 802.1Qcc建立时延敏感型卫星弹性互联网架构，所述卫星弹性互联网架构中采用LEO卫星装备的MEC服务器为地面数据节点提供卸载服务。

3.根据权利要求2所述的卫星互联网任务卸载方法，其特征在于，所述根据卫星弹性互联网架构建立卫星弹性互联网任务卸载模型包括：

4.根据权利要求3所述的卫星互联网任务卸载方法，其特征在于，任务卸载场景包括本地卸载以及LEO卫星卸载，所述LEO卫星卸载为任务卸载在LEO卫星的MEC服务器上；

所述通信模型包括：网络中用户集合为

MEC服务器集合为

用户u_i将数据上传到MEC服务器b_j的传输速率r_i,j(t)是

传输时延

是

无线传输的能量消耗

是

其中，W代表信道带宽，σ²表示用户设备的噪声功率，I_i,j表示小区间干扰功率，h_i,j(t)代表用户u_i将任务卸载到MEC服务器b_j使用信道的信道增益，p_i(t)代表用户u_i传输信号的传输功率；z_i(t)代表任务Q_i(t)的数据量大小，s代表用户u_i到MEC服务器b_j的直线距离，c代表光速。

5.根据权利要求4所述的卫星互联网任务卸载方法，其特征在于，所述任务模型包括：任务定义为Q_i(t)＝{ω_i(t),z_i(t),pri_i(t)}，其中ω_i(t)表示该任务需要的计算量，即完成任务所需要的CPU频率，z_i(t)表示该任务的数据量大小，pri_i(t)表示该任务的优先级，pri_i(t)∈[1,2,…,PN]，其中，PN为当前任务的优先级数；

所述计算模型包括：