CN116489683A

CN116489683A - 空天地网络中的计算任务卸载方法、装置和电子设备

Info

Publication number: CN116489683A
Application number: CN202310737201.9A
Authority: CN
Inventors: 姚海鹏; 宫永康; 张琦; 何辞; 董涛; 陶莹; 宋光磊; 朱雪田
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-07-25
Anticipated expiration: 2043-06-21
Also published as: CN116489683B

Abstract

本发明提供了一种空天地网络中的计算任务卸载方法、装置和电子设备，涉及通信的技术领域，首先将空天地网络中计算任务的多时隙优化问题模型转化为单时隙优化问题模型，然后利用目标神经网络模型按照时间先后依次求解各个时隙的初始计算任务卸载策略，同时不断根据当前时隙的初始计算任务卸载策略和单时隙优化问题模型对目标神经网络模型进行更新，并在确定更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将初始计算任务卸载策略作为当前时隙的目标计算任务卸载策略。利用该方法能够在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本，以缓解现有空天地网络中的计算任务卸载方法存在的网络成本大的技术问题。

Description

空天地网络中的计算任务卸载方法、装置和电子设备

技术领域

本发明涉及通信的技术领域，尤其是涉及一种空天地网络中的计算任务卸载方法、装置和电子设备。

背景技术

空天地融合的异构网络可为多种地面装置提供计算卸载、资源分配和普适智能服务，该网络可帮助地面蜂窝网络释放网络资源并减轻拥塞压力。然而，传统的空天地网络的计算任务卸载方法包括：多智能体随机调度策略MARSP和多智能体贪婪策略MAGP，多智能体随机调度策略中，每个智能体可随机的配置网络资源来确定计算任务卸载策略，但这种计算卸载方法使得每个智能体无法处理时变的网络环境；多智能体贪婪策略中，每个智能体根据对应的贪婪策略平均分配网络资源，该方法的缺陷是每个智能体不能根据动态、时变和复杂的网络环境来分配网络资源，导致不能获得最优的计算卸载方案。而地面装置的增长，时变的信道增益、随机任务的到达和动态的空中装置位置使得难以降低总的网络成本。

综上所述，现有空天地网络中的计算任务卸载方法存在网络成本大的技术问题。

发明内容

本发明的目的在于提供一种空天地网络中的计算任务卸载方法、装置和电子设备，以缓解了现有空天地网络中的计算任务卸载方法存在的网络成本大的技术问题。

第一方面，本发明提供一种空天地网络中的计算任务卸载方法，包括：获取空天地网络中计算任务的多时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息；其中，所述多时隙优化问题模型的目标是在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本；基于预设优化算法将所述多时隙优化问题模型转化为单时隙优化问题模型；重复执行下述步骤，直至得到每个时隙的目标计算任务卸载策略，并基于所述目标计算任务卸载策略，对所述空天地网络的计算任务进行卸载：利用目标神经网络模型对目标时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到当前时隙的初始计算任务卸载策略；其中，所述目标时隙包括：当前时隙和下一时隙；所述初始计算任务卸载策略包括：每个空中装置中虚拟网络的数量，每个所述虚拟网络的CPU周期频率，每个所述虚拟网络所收集的能量和空中装置下载区块的大小；基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型对所述目标神经网络模型进行更新，得到更新后的目标神经网络模型；在确定所述更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将所述初始计算任务卸载策略作为所述当前时隙的目标计算任务卸载策略。

在可选的实施方式中，获取空天地网络中计算任务的多时隙优化问题模型，包括：获取所述多时隙优化问题模型的第一模型参数组；其中，所述第一模型参数组包括：所述计算任务的总时长、所述地面装置的总数和所述空中装置的总数；针对每个时隙，构建所述多时隙优化问题模型的第二模型参数组中每个模型参数的求解模型；其中，所述第二模型参数组包括：每个所述虚拟网络的能耗，每个所述虚拟网络的任务处理比特数目和每个所述空中装置的隐私保护成本；获取所述多时隙优化问题模型的约束参数组；其中，所述约束参数组包括：每个时隙的任务队列长度、所述虚拟网络在每个时隙的平均能量存储、空中装置下载区块的数据量限值；基于所述第一模型参数组、所述第二模型参数组中每个模型参数的求解模型和所述约束参数组，构建所述计算任务的多时隙优化问题模型。

在可选的实施方式中，构建每个所述虚拟网络的能耗的求解模型，包括：获取每个时隙的长度和预设能耗计算因子；基于所述时隙的长度和所述预设能耗计算因子，构建每个所述虚拟网络的能耗的求解模型。

在可选的实施方式中，构建每个所述虚拟网络的任务处理比特数目的求解模型，包括：获取每个时隙的长度和虚拟网络处理设定比特的计算任务所需要的CPU周期频率；基于所述时隙的长度和所述CPU周期频率，构建每个所述虚拟网络的任务处理比特数目的求解模型。

在可选的实施方式中，构建每个所述空中装置的隐私保护成本的求解模型，包括：获取目标空中装置的CPU周期频率、上行传输速率和数据下载速率；其中，所述目标空中装置表示所述所有空中装置中的任一空中装置；基于所述目标空中装置的CPU周期频率构建所述目标空中装置的模型聚合成本的求解模型；基于所述目标空中装置的上行传输速率和所述空中装置的总数，构建所述目标空中装置的模型传输成本的求解模型；基于所述目标空中装置的数据下载速率和所述地面装置的总数，构建所述目标空中装置的区块链认证成本的求解模型；基于所述模型聚合成本的求解模型、所述模型传输成本的求解模型和所述区块链认证成本的求解模型，构建所述目标空中装置的隐私保护成本的求解模型。

在可选的实施方式中，所述通信状态信息包括：无线信道增益和计算任务的数据量；所述目标神经网络模型包括：多个演员-评论家网络，每个所述地面装置均对应第一演员-评论家网络和第二演员-评论家网络；所述第一演员-评论家网络和所述第二演员-评论家网络的网络参数相同；所述第一演员-评论家网络中的第一演员网络用于对所述当前时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到所述当前时隙的初始计算任务卸载策略；所述第一演员-评论家网络中的第一评论家网络用于对所述当前时隙下所有地面装置的通信状态信息、所有空中装置的位置信息和所述当前时隙的初始计算任务卸载策略进行处理，得到第一评论家网络的Q值；所述第二演员-评论家网络中的第二演员网络用于对所述下一时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到所述下一时隙的初始计算任务卸载策略；所述第二演员-评论家网络中的第二评论家网络用于对所述下一时隙下所有地面装置的通信状态信息、所有空中装置的位置信息和所述下一时隙的初始计算任务卸载策略进行处理，得到第二评论家网络的Q值。

在可选的实施方式中，基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型对所述目标神经网络模型进行更新，包括：基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型计算所述当前时隙的初始计算任务卸载策略的奖励；其中，所述奖励为空中装置的执行成本和隐私保护成本的和；基于所述奖励、所述第一评论家网络的Q值和所述第二评论家网络的Q值对所述第一评论家网络的网络参数进行更新，得到初步更新的第一评论家网络；对所有第一演员网络的网络参数进行联邦聚合处理，得到目标演员网络参数，并基于所述目标演员网络参数对所述目标神经网络模型中的所有演员网络进行更新；利用深度Q网络更新方法对所有第一评论家网络的Q值进行处理，得到目标Q值，并基于所述目标Q值对所述目标神经网络模型中所有初步更新后的第一评论家网络进行更新。

在可选的实施方式中，还包括：基于所属于目标空中装置的局部神经网络模型的网络参数确定目标交易协议，并将所述目标交易协议广播至卫星服务器和其他空中装置；对所有空中装置确定的交易协议进行聚合，得到空中装置下载区块；每个所述空中装置基于预设委托权益证明协议对所述空中装置下载区块进行区块链认证处理，得到区块链认证结果；在所有空中装置的区块链认证结果均为通过的情况下，确定所述更新后的目标神经网络模型的网络参数通过区块链认证。

第二方面，本发明提供一种空天地网络中的计算任务卸载装置，包括：获取模块，用于获取空天地网络中计算任务的多时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息；其中，所述多时隙优化问题模型的目标是在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本；转换模块，用于基于预设优化算法将所述多时隙优化问题模型转化为单时隙优化问题模型；重复执行模块，用于重复执行下述步骤，直至得到每个时隙的目标计算任务卸载策略，并基于所述目标计算任务卸载策略，对所述空天地网络的计算任务进行卸载：利用目标神经网络模型对目标时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到当前时隙的初始计算任务卸载策略；其中，所述目标时隙包括：当前时隙和下一时隙；所述初始计算任务卸载策略包括：每个空中装置中虚拟网络的数量，每个所述虚拟网络的CPU周期频率，每个所述虚拟网络所收集的能量和空中装置下载区块的大小；基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型对所述目标神经网络模型进行更新，得到更新后的目标神经网络模型；在确定所述更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将所述初始计算任务卸载策略作为所述当前时隙的目标计算任务卸载策略。

第三方面，本发明提供一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述前述实施方式中任一项所述的空天地网络中的计算任务卸载方法的步骤。

本发明首先将空天地网络中计算任务的多时隙优化问题模型转化为单时隙优化问题模型，然后利用目标神经网络模型按照时间先后依次求解各个时隙的初始计算任务卸载策略，同时不断根据当前时隙的初始计算任务卸载策略和单时隙优化问题模型对目标神经网络模型进行更新，并在确定更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将初始计算任务卸载策略作为当前时隙的目标计算任务卸载策略。利用本发明方法能够有效的提升空天地网络对地面装置的增长，时变的信道增益、随机任务的到达和动态的空中装置位置的适应能力，可在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本，从而有效地缓解了现有空天地网络中的计算任务卸载方法所存在的网络成本大的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种空天地-数字孪生融合的区块链网络场景图；

图2为本发明实施例提供的一种空天地网络中的计算任务卸载方法的流程图；

图3为本发明实施例提供的一种应用于天域中的目标神经网络模型的示意图；

图4为本发明方法与传统方法的隐私保护成本对比示意图；

图5为本发明实施例提供的一种空天地网络中的计算任务卸载装置的功能模块图；

图6为本发明实施例提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

实施例一

空天地融合的异构网络可为多种地面装置提供普适智能服务，该网络可帮助地面蜂窝网络释放网络资源并减轻拥塞压力。数字孪生可为物理系统提供一种实时的无线接入和高可靠的数据映射。因此，空天地网络和数字孪生的融合可降低物理状态和数据分析的鸿沟，这可以进一步促进鲁棒性的边缘智能服务。图1为本发明实施例提供的空天地-数字孪生融合的区块链网络场景图。但是，地面装置之间随机任务的到达、时变的信道增益和相互之间信任度的缺乏阻碍了空天地-数字孪生网络的服务质量，导致难以降低总的网络成本。因此，目前亟需构造一种空天地-数字孪生融合的区块链网络模型来实施计算卸载、能量收集和隐私性保护，同时降低执行成本，增强任务处理比特，其中，每个计算任务的大小以比特数目进行衡量，任务处理比特就是指所处理的比特数目。增强任务处理比特也即提高任务处理比特数目。

图2为本发明实施例提供的一种空天地网络中的计算任务卸载方法的流程图，如图2所示，该方法具体包括如下步骤：

步骤S102，获取空天地网络中计算任务的多时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息。

本发明实施例所描述的空天地网络采用的是一种接近静态的网络场景，也即，地面装置的无线信道增益、空中装置的位置、地面装置生成的计算任务类型，以及计算任务的数据量在一个时隙内保持不变，但在不同的时隙中是可变的。

为了确定空天地网络中计算任务的卸载策略，首先需要获取计算任务的多时隙优化问题模型，同时一并获取空天地网络中所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息。其中，通信状态信息包括：无线信道增益和计算任务的数据量；多时隙优化问题模型的目标是在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本。本发明实施例不对多时隙优化问题模型的具体形式进行限定，只要其是目标函数为多时隙场景下空中装置的执行成本和隐私保护成本，且目标为在满足约束条件的同时使得函数值最小化即可。

步骤S104，基于预设优化算法将多时隙优化问题模型转化为单时隙优化问题模型。

由于多时隙优化问题模型表示的是多时隙场景下空中装置的执行成本和隐私保护成本，因此，其实质上是随机联合多阶段优化问题，上述问题属于非凸优化问题，在多时隙场景下无法求解。因此，在获取到多时隙优化问题模型之后，首先应利用预设优化算法将其转化为可解的单时隙优化问题模型。本发明实施例不对预设优化算法进行具体的限定，只要能够实现问题模型类型转化即可，可选的，利用Lyapunov优化算法将多时隙优化问题模型转化为单时隙优化问题模型。以上优化问题模型的转化为基于设定算法的数学公式推导流程，在已知多时隙优化问题模型的前提下，确定优化算法之后，本领域技术人员均可自行推导，因此，本发明实施例不对问题模型转化的具体推导流程进行赘述。

步骤S106，重复执行下述步骤A-C，直至得到每个时隙的目标计算任务卸载策略，并基于目标计算任务卸载策略，对空天地网络的计算任务进行卸载：

步骤A，利用目标神经网络模型对目标时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到当前时隙的初始计算任务卸载策略。

在得到单时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息之后，本发明实施例首先使用目标神经网络模型对所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，以得到当前时隙的初始计算任务卸载策略，需要注意的是，该步骤执行结束所得到的初始计算任务卸载策略还不能确定为当前时隙最终所要采用的计算任务卸载策略，需要后续步骤的区块链认证通过后，才能确定采用。其中，目标时隙包括：当前时隙和下一时隙；初始计算任务卸载策略包括：每个空中装置中虚拟网络的数量，每个虚拟网络的CPU周期频率，每个虚拟网络所收集的能量和空中装置下载区块的大小。

也就是说，要确定当前时隙的初始计算任务卸载策略，目标神经网络模型需要输入所有地面装置在当前时隙的通信状态信息和所有空中装置在当前时隙的位置信息，以及，所有地面装置在下一时隙的通信状态信息和所有空中装置在下一时隙的位置信息，目标神经网络模型的输出包括当前时隙的初始计算任务卸载策略。

如图1所示，本发明实施例提出了将空天地网络与数字孪生技术相融合的区块链网络场景，空天地网络由三个域组成，即地域、天域和空域。空域中包括卫星，天域是由多个空中装置组成，地域是由多个请求互联网应用服务的地面装置所组成。每个地面装置在t时隙接收到随机的计算任务，并将这些计算任务映射到天域中的数字孪生网络中，该数字孪生网络将获得所有的用户信息，类似于在天域中为地面网络搭建了一套虚拟化的网络平台。在本发明实施例中，空中装置可以为地面装置提供无线接入、边缘计算和隐私性保护功能，每个空中装置可视为区块链中的一个区块，每个地面装置只能卸载任务到一个空中装置中，一个地面装置的计算任务仅能映射给一个空中装置中的一个虚拟网络，并且，每个虚拟网络仅处理一个地面装置的计算任务。通过数字孪生映射，每个空中装置中虚拟网络构建之后，都会为其分配一个CPU周期频率，t时隙下，空中装置k中虚拟网络i的CPU周期频率实质就是被映射的地面装置i所需要分配的CPU周期频率/>。

当多个空中装置围绕地面装置旋转的时候，每个空中装置的电池能量是有限的。因此，需要为电池充电以便于保证恒定的通信和计算服务，所以，本发明实施例中，每个时隙的计算任务卸载策略中包括每个虚拟网络所收集的能量E。另外，鉴于本发明实施例实质使用的是一种区块链驱动的数字孪生调度机制，因此，计算任务卸载策略中还应考虑空中装置下载区块的大小，空中装置下载区块是由空域中卫星服务器广播且各个空中装置需要下载的区块链中的交易相关数据。

步骤B，基于当前时隙的初始计算任务卸载策略和单时隙优化问题模型对目标神经网络模型进行更新，得到更新后的目标神经网络模型。

目标神经网络每次确定出一个时隙的初始计算任务卸载策略之后，都需要基于初始计算任务卸载策略以及单时隙优化问题模型对目标神经网络模型进行更新，以根据当前策略状态调整目标神经网络模型的网络参数，从而得到更新后的目标神经网络模型。

步骤C，在确定更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将初始计算任务卸载策略作为当前时隙的目标计算任务卸载策略。

本发明实施例应用了区块链技术，在利用目标神经网络模型得到当前时隙的初始计算任务卸载策略之后，需要应用区块链共识机制对更新后的目标神经网络模型的网络参数进行区块链认证，只有在确定更新后的目标神经网络模型的网络参数通过区块链认证的情况下，才能将初始计算任务卸载策略作为当前时隙的目标计算任务卸载策略。若更新后的目标神经网络模型的网络参数不能通过区块链认证，则认为存在计算异常，需返回步骤A重新计算当前时隙的初始计算任务卸载策略，直至得到当前时隙的目标计算任务卸载策略。

上述步骤A-C为确定某一个时隙的目标计算任务卸载策略的方法流程，为了得到多时隙的目标计算任务卸载策略，则需要按照时间先后顺序，依次计算出所有时隙的目标计算任务卸载策略，最后再基于得到的所有目标计算任务卸载策略，对空天地网络的计算任务进行卸载。也就是说，经过多伦迭代后，最终会生成最大的数据处理比特和最小的空中装置的执行成本和隐私保护成本。

本发明实施例首先将空天地网络中计算任务的多时隙优化问题模型转化为单时隙优化问题模型，然后利用目标神经网络模型按照时间先后依次求解各个时隙的初始计算任务卸载策略，同时不断根据当前时隙的初始计算任务卸载策略和单时隙优化问题模型对目标神经网络模型进行更新，并在确定更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将初始计算任务卸载策略作为当前时隙的目标计算任务卸载策略。利用本发明实施例所提供的方法能够有效的提升空天地网络对地面装置的增长，时变的信道增益、随机任务的到达和动态的空中装置位置的适应能力，可在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本，从而有效地缓解了现有空天地网络中的计算任务卸载方法所存在的网络成本大的技术问题。

在一个可选的实施方式中，上述步骤S102中，获取空天地网络中计算任务的多时隙优化问题模型，具体包括如下步骤：

步骤S1021，获取多时隙优化问题模型的第一模型参数组。

其中，第一模型参数组包括：计算任务的总时长、地面装置的总数和空中装置的总数。

在本发明实施例中，地面装置的总数为M，空中装置的总数为N；计算任务的总时长即计算任务所持续的时长S，若已知每个时隙的长度为d，则根据S和d即可确定出多时隙模型中时隙的总数T，也即，。

步骤S1022，针对每个时隙，构建多时隙优化问题模型的第二模型参数组中每个模型参数的求解模型。

其中，第二模型参数组包括：每个虚拟网络的能耗，每个虚拟网络的任务处理比特数目和每个空中装置的隐私保护成本。

本发明实施例的目的是最小化空中装置的执行成本和空中装置的隐私保护成本，其中，空中装置的总执行成本包括计算任务执行过程中所有虚拟网络的能耗和任务处理比特数目，每个空中装置的隐私保护成本包括：模型聚合成本、模型传输成本和区块链认证成本。因此，要想构建出多时隙优化问题模型，首先需要确定出各时隙每个虚拟网络的能耗和任务处理比特数目，以及每个空中装置的隐私保护成本，根据以上三种参量对成本的正/负影响，即可构建出多时隙优化问题模型。

步骤S1023，获取多时隙优化问题模型的约束参数组。

在求解多时隙优化问题模型时，本发明实施例设置的约束条件包括：虚拟网络的任务处理速度限制、虚拟网络的任务队列长度限制、虚拟网络的能耗限制和空中装置下载区块的数据量大小限制，因此，多时隙优化问题模型的约束参数组包括：每个时隙的任务队列长度、虚拟网络在每个时隙的平均能量存储、空中装置下载区块的数据量限值，本发明实施例中，数据量限值包括：数据量上限和数据量下限，用户也可以根据实际需求设置空中装置下载区块的数据量限值仅包括数据量上限或数据量下限。

步骤S1024，基于第一模型参数组、第二模型参数组中每个模型参数的求解模型和约束参数组，构建计算任务的多时隙优化问题模型。

在空天地-数字孪生融合的区块链网络场景中，地面装置的增长，时变的信道增益、随机任务的到达和动态的空中装置位置使得难以降低总的网络成本。本发明实施例的目的是以最小的能耗处理最多的任务比特数目，同时最小化隐私性成本。由于在多个空中装置间动态的通信和计算能力是有差异的，怎样分配每个空中装置中的虚拟网络是一个重要的课题。因此，在获取到第一模型参数组、第二模型参数组中每个模型参数的求解模型和约束参数组之后，计算任务的多时隙优化问题模型可表示为：，约束条件包括：/>，/>，/>，，/>。

其中，T表示多时隙模型中时隙的总数，M表示地面装置的总数，N表示空中装置的总数，表示空中装置k中虚拟网络i在t时隙的能耗，/>表示空中装置k中虚拟网络i在t时隙的任务处理比特数目，/>表示空中装置k的隐私保护成本，/>表示空中装置k中虚拟网络的数量，/>表示t时隙下空中装置下载区块的大小（也即，空中装置下载区块的数据量），/>表示空中装置k中虚拟网络i在t时隙的CPU周期频率，/>表示虚拟网络i在t时隙所收集的能量，o表示处理一比特任务所需要的CPU周期频率，/>表示虚拟网络i在t时隙的任务队列长度，/>表示数学期望，/>表示预设能耗计算因子，/>表示虚拟网络i在t时隙的平均能量存储，/>表示空中装置下载区块的数据量下限，/>表示空中装置下载区块的数据量上限。

根据上述多时隙优化问题模型的表达式可知，上述问题模型中，除各时隙下每个空中装置中虚拟网络的数量、每个所述虚拟网络的CPU周期频率、每个所述虚拟网络所收集的能量和空中装置下载区块的大小是待求解的未知参量，，/>和/>也是未知量，下面将分别介绍以上三种参量的求解模型的构建方法。

在一个可选的实施方式中，上述步骤S1022中，构建每个虚拟网络的能耗的求解模型，具体包括如下步骤：

步骤S201，获取每个时隙的长度和预设能耗计算因子。

步骤S202，基于时隙的长度和预设能耗计算因子，构建每个虚拟网络的能耗的求解模型。

具体的，已知每个时隙的长度为d，预设能耗计算因子为，空中装置k中虚拟网络i在t时隙的CPU周期频率为/>（未知参量），根据能耗的定义可知，空中装置k中虚拟网络i在t时隙的能耗的求解模型可表示为：/>。

在本发明实施例中，虚拟网络i在t时隙所收集的能量的上限为/>，若定义虚拟网络i在t时隙的电池能量为/>，那么其在t时隙的能耗/>应满足：/>。并且，根据时间的推移，虚拟网络i在t+1时隙的电池能量应演进为：/>。

在一个可选的实施方式中，上述步骤S1022中，构建每个虚拟网络的任务处理比特数目的求解模型，具体包括如下步骤：

步骤S301，获取每个时隙的长度和虚拟网络处理设定比特的计算任务所需要的CPU周期频率。

步骤S302，基于时隙的长度和CPU周期频率，构建每个虚拟网络的任务处理比特数目的求解模型。

具体的，已知每个时隙的长度为d，若上述设定比特为1，且地面装置处理一比特任务所需要的CPU周期数目为o，空中装置k中虚拟网络i在t时隙的CPU周期频率为（未知参量），根据计算任务处理比特数目的定义可知，空中装置k中虚拟网络i在t时隙的任务处理比特数目的求解模型可表示为：/>。若上述设定比特不是1，则将设定比特进行归一化处理之后再带入该求解模型即可。

在一个可选的实施方式中，上述步骤S1022中，构建每个空中装置的隐私保护成本的求解模型，具体包括如下步骤：

步骤S401，获取目标空中装置的CPU周期频率、上行传输速率和数据下载速率。

其中，目标空中装置表示所有空中装置中的任一空中装置。

由于地面装置缺乏相互信任并且不愿意共享数据，因此有前景的区块链技术可以被用来增强数据隐私性。具体的，区块链可以用来记录来自数字孪生的数据并且通过边缘接入控制管理这些参与者。每个空中装置作为一个区块链节点的功能并且维持区块链的正常运行。任务和能量收集信息被存储在区块链中并且当对应的用户状态改变的时候这些信息会被更新。因此，本发明实施例所提出的区块链模型中空中装置的隐私保护成本包括三个部分：空中装置的模型聚合成本、空中装置的模型传输成本和空中装置的区块链认证成本。

步骤S402，基于目标空中装置的CPU周期频率构建目标空中装置的模型聚合成本的求解模型。

在本发明实施例中，针对设有虚拟网络的空中装置，每个空中装置都需要聚合自身多个虚拟网络中的局部神经网络模型的本地模型参数，若定义空中装置k在t时隙的CPU周期频率为（已知参量），局部神经网络模型j的模型大小为/>（单位：比特），空中装置k中虚拟网络的数量为/>，那么空中装置k的模型聚合成本的求解模型为：/>。

步骤S403，基于目标空中装置的上行传输速率和空中装置的总数，构建目标空中装置的模型传输成本的求解模型。

具体的，本地模型可以被每个空中装置所聚合然后被分发到其他的空中装置中，也即，每个空中装置会聚合所属于该装置的所有局部神经网络模型的本地模型参数，然后再分发给其他空中装置，该广播过程会造成传输成本并且和传输速度有关。若空中装置k的上行传输速率为，天域中空中装置的总数为N，则空中装置k的模型传输成本的求解模型为：/>，其中，/>表示模型传输因子。

步骤S404，基于目标空中装置的数据下载速率和地面装置的总数，构建目标空中装置的区块链认证成本的求解模型。

为了判断初始计算任务卸载策略是否可以作为目标计算任务卸载策略，各空中装置均需要将其“交易数据”上传到卫星服务器，然后由卫星服务器对各个空中装置所上传的数据进行聚合，从而得到空中装置下载区块，然后，每个空中装置均需要下载上述空中装置下载区块以验证其真实性，在本发明实施例中，地面装置的总数为M，t时隙空中装置下载区块的大小为（未知参量），空中装置k中虚拟网络i在t时隙的CPU周期频率为/>（未知参量），空中装置k的数据下载速率为/>，则空中装置k的区块链认证成本的求解模型表示为：。

步骤S405，基于模型聚合成本的求解模型、模型传输成本的求解模型和区块链认证成本的求解模型，构建目标空中装置的隐私保护成本的求解模型。

在本发明实施例中，空中装置k的隐私保护成本的求解模型表示为：

。

在一个可选的实施方式中，通信状态信息包括：无线信道增益和计算任务的数据量；目标神经网络模型包括：多个演员-评论家网络，每个地面装置均对应第一演员-评论家网络和第二演员-评论家网络；第一演员-评论家网络和第二演员-评论家网络的网络参数相同。

第一演员-评论家网络中的第一演员网络用于对当前时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到当前时隙的初始计算任务卸载策略。

第一演员-评论家网络中的第一评论家网络用于对当前时隙下所有地面装置的通信状态信息、所有空中装置的位置信息和当前时隙的初始计算任务卸载策略进行处理，得到第一评论家网络的Q值。

第二演员-评论家网络中的第二演员网络用于对下一时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到下一时隙的初始计算任务卸载策略。

第二演员-评论家网络中的第二评论家网络用于对下一时隙下所有地面装置的通信状态信息、所有空中装置的位置信息和下一时隙的初始计算任务卸载策略进行处理，得到第二评论家网络的Q值。

图3为本发明实施例提供的应用于天域中的目标神经网络模型的示意图，如图3所示，该目标神经网络模型为两层多智能体深度联邦强化学习算法框架，且采用了多智能体深度强化学习和联邦学习的双重框架结构。参考图3，目标神经网络模型中包括多个智能体（可以理解为虚拟网络中的局部神经网络模型），且每个智能体与地面装置一一对应，也即，智能体的数量为M。单个智能体中包括两个演员-评论家网络，分别为第一演员-评论家网络和第二演员-评论家网络，并且上述两个演员-评论家网络的网络参数相同。

在本发明实施例中，地面装置的通信状态信息包括无线信道增益和计算任务的数据量，表示地面装置i在t时隙所发送的计算任务的数据量，同时该计算任务将直接映射到空中装置的虚拟网络中，/>属于超参数。实际应用时，每个智能体通过和动态的网络环境交互，即可获得无线信道增益、空中装置位置信息和地面装置i在t时隙所发送的计算任务的数据量。

经典的演员-评论家算法Actor-critic利用分布式的处理机制来生成对应的任务调度和隐私性保护。然而，该算法每个智能体只有一组演员-评论家网络，只有一组演员-评论家网络，只能根据当前的actor-critic来进行动作选择和评估而无法感知到未来的动作和评估结果，这导致最后的收敛效果一般。因此，本发明实施例采用两组演员-评论家网络来指导动作的选择（也即，计算任务卸载策略的生成）。

本发明实施例利用Critic网络的集中式训练和Actor网络的分布式执行方法，通过在智能体的Actor网络输入本地状态（即：无线信道增益、空中装置的位置信息和计算任务的数据量），即可分布式得到执行动作（包括：虚拟网络的CPU周期频率、虚拟网络所收集的能量、空中装置下载区块的大小和每个空中装置的虚拟网络的数目），同时将本地状态和执行动作输入到Critic网络中，进行集中式训练，评价该智能体的actor网络得到的执行动作。

需要注意的是，本发明实施例中每个智能体中包括两组演员-评论家网络，在进行数据处理时，第一演员-评论家网络输入的是当前时隙的本地状态，第二演员-评论家网络输入的是下一时隙的本地状态，在对执行动作进行评价时，二者的数据也进行严格隔离，也即，第一演员-评论家网络中的第一评论家网络对当前时隙下地面装置的通信状态信息、所有空中装置的位置信息和当前时隙的执行动作进行处理，得到第一评论家网络的Q值（评论家网络的输出）；第二演员-评论家网络中的第二评论家网络对下一时隙下地面装置的通信状态信息、所有空中装置的位置信息和下一时隙的执行动作进行处理，得到第二评论家网络的Q值。所有第一演员-评论家网络中演员网络输出的执行动作的集合即构成当前时隙的初始计算任务卸载策略。

生成初始计算任务卸载策略之后，需要对目标神经网络模型进行更新，在一个可选的实施方式中，上述步骤B，基于当前时隙的初始计算任务卸载策略和单时隙优化问题模型对目标神经网络模型进行更新，具体包括如下步骤：

步骤S501，基于当前时隙的初始计算任务卸载策略和单时隙优化问题模型计算当前时隙的初始计算任务卸载策略的奖励。

其中，奖励为空中装置的执行成本和隐私保护成本的和。

步骤S502，基于奖励、第一评论家网络的Q值和第二评论家网络的Q值对第一评论家网络的网络参数进行更新，得到初步更新的第一评论家网络。

具体的，在得到当前时隙的初始计算任务卸载策略之后，将策略中的相关参数代入单时隙优化问题模型，即可得到当前时隙的初始计算任务卸载策略的奖励，在本发明实施中，奖励R为空中装置的执行成本和隐私保护成本的和。

进一步的，针对任意一个智能体，若其第一评论家网络的Q值为Q1，第二评论家网络的Q值为Q2，则计算Q’=R+Q1-Q2，并基于Q’的计算结果对第一评论家网络的网络参数进行更新，得到初步更新的第一评论家网络，也即，第二评论家网络对下一时隙的执行动作的评价会影响第一评论家网络的网络参数的更新，从而优化收敛效果。

步骤S503，对所有第一演员网络的网络参数进行联邦聚合处理，得到目标演员网络参数，并基于目标演员网络参数对目标神经网络模型中的所有演员网络进行更新。

步骤S504，利用深度Q网络更新方法对所有第一评论家网络的Q值进行处理，得到目标Q值，并基于目标Q值对目标神经网络模型中所有初步更新后的第一评论家网络进行更新。

由于牵扯到隐私性的保护问题，多个智能体之间没有状态和动作的交互，为了获得最优化的增益，本发明实施例使用了联邦聚合和多层感知器的处理方案，来进一步优化每个智能体中的演员-评论家网络。联邦聚合的意思就是将得到的多个智能体的第一演员网络的网络参数进行联邦平均（也即，加和取平均值），以得到目标演员网络参数，然后再将其下发到每个智能体的第一演员网络，以对所有演员网络（第一演员网络和第二演员网络）进行更新。其中，第一演员网络的网络参数包括：神经网络中每一层的权重值。

上述步骤S502执行结束，对所有的第一评论家网络进行了初步更新，进一步的，本发明实施例通过多层感知器将每个智能体中第一评论家网络的Q值输入到图3中的主网络中，主网络利用现有的深度Q网络更新方法对所有第一评论家网络的Q值进行处理，得到主网络的Q值，也即，目标Q值。接下来，将目标Q值输入到每个智能体的第一评论家网络中，以进行进一步的参数更新。最终得到更新后的第一评论家网络，第二评论家网络的网络参数跟随第一评论家网络进行更新。

在一个可选的实施方式中，本发明实施例所提供的方法还包括如下步骤：

步骤S601，基于所属于目标空中装置的局部神经网络模型的网络参数确定目标交易协议，并将目标交易协议广播至卫星服务器和其他空中装置。

步骤S602，对所有空中装置确定的交易协议进行聚合，得到空中装置下载区块。

步骤S603，每个空中装置基于预设委托权益证明协议对空中装置下载区块进行区块链认证处理，得到区块链认证结果。

步骤S604，在所有空中装置的区块链认证结果均为通过的情况下，确定更新后的目标神经网络模型的网络参数通过区块链认证。

本发明实施例将区块链共识机制应用到天域的数字孪生网络，区块链认证处理过程可以防止信息被恶意窜改。具体的，区块链认证过程为：首先，目标空中装置会根据其自身的多个局部神经网络模型的网络参数生成被存储在该区块中的目标交易协议；然后目标交易协议会被广播到其他空中装置和卫星服务器中进行进一步的验证，并且卫星服务器会聚合所有交易协议并且将他们打包到空中装置下载区块中。接下来，卫星服务器会广播空中装置下载区块并且相关的空中装置会下载它，共识过程可以通过预设委托权益证明协议来实现，从而得到区块链认证结果（通过/不通过），一旦交易模型通过了认证过程，就会授予每个智能体奖励，如果所有空中装置的区块链认证结果均为通过，那么即可确定更新后的目标神经网络模型的网络参数通过区块链认证。如果区块链认证不通过，则说明信息可能被恶意窜改，委托权益证明协议也能判断出存在问题的智能体，可以选择将问题智能体剔除后再重新计算卸载策略，或者直接重新计算。

发明人对本发明方法进行了验证，图4为本发明方法与传统方法的隐私保护成本对比示意图，图中，MADFRL代表本发明方法，MARSP代表多智能体随机调度策略，MAGP代表多智能体贪婪策略，Actor_Critic代表经典的演员-评论家算法。从图4可看出，在不同的模型传输因子下，本发明实施例所提出两层多智能体深度联邦强化学习算法框架，和其他的基线算法对比，可以更好的对抗时变信道增益、随机任务到达和动态的空中装置位置，这可以提高用户的服务质量，降低隐私性保护产生的成本。

实施例二

本发明实施例还提供了一种空天地网络中的计算任务卸载装置，该空天地网络中的计算任务卸载装置主要用于执行上述实施例一所提供的空天地网络中的计算任务卸载方法，以下对本发明实施例提供的空天地网络中的计算任务卸载装置做具体介绍。

图5是本发明实施例提供的一种空天地网络中的计算任务卸载装置的功能模块图，如图5所示，该装置主要包括：获取模块10，转换模块20，重复执行模块30，其中：

获取模块10，用于获取空天地网络中计算任务的多时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息；其中，多时隙优化问题模型的目标是在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本。

转换模块20，用于基于预设优化算法将多时隙优化问题模型转化为单时隙优化问题模型。

重复执行模块30，用于重复执行下述步骤A-C，直至得到每个时隙的目标计算任务卸载策略，并基于目标计算任务卸载策略，对空天地网络的计算任务进行卸载：

步骤A，利用目标神经网络模型对目标时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到当前时隙的初始计算任务卸载策略；其中，目标时隙包括：当前时隙和下一时隙；初始计算任务卸载策略包括：每个空中装置中虚拟网络的数量，每个虚拟网络的CPU周期频率，每个虚拟网络所收集的能量和空中装置下载区块的大小。

本发明实施例首先将空天地网络中计算任务的多时隙优化问题模型转化为单时隙优化问题模型，然后利用目标神经网络模型按照时间先后依次求解各个时隙的初始计算任务卸载策略，同时不断根据当前时隙的初始计算任务卸载策略和单时隙优化问题模型对目标神经网络模型进行更新，并在确定更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将初始计算任务卸载策略作为当前时隙的目标计算任务卸载策略。利用本发明实施例所提供的装置能够有效的提升空天地网络对地面装置的增长，时变的信道增益、随机任务的到达和动态的空中装置位置的适应能力，可在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本，从而有效地缓解了现有空天地网络中的计算任务卸载方法所存在的网络成本大的技术问题。

可选地，获取模块10，包括：

第一获取单元，用于获取多时隙优化问题模型的第一模型参数组；其中，第一模型参数组包括：计算任务的总时长、地面装置的总数和空中装置的总数。

第一构建单元，用于针对每个时隙，构建多时隙优化问题模型的第二模型参数组中每个模型参数的求解模型；其中，第二模型参数组包括：每个虚拟网络的能耗，每个虚拟网络的任务处理比特数目和每个空中装置的隐私保护成本。

第二获取单元，用于获取多时隙优化问题模型的约束参数组；其中，约束参数组包括：每个时隙的任务队列长度、虚拟网络在每个时隙的平均能量存储、空中装置下载区块的数据量限值。

第二构建单元，用于基于第一模型参数组、第二模型参数组中每个模型参数的求解模型和约束参数组，构建计算任务的多时隙优化问题模型。

可选地，第一构建单元包括：

第一获取子单元，用于获取每个时隙的长度和预设能耗计算因子。

第一构建子单元，用于基于时隙的长度和预设能耗计算因子，构建每个虚拟网络的能耗的求解模型。

可选地，第一构建单元还包括：

第二获取子单元，用于获取每个时隙的长度和虚拟网络处理设定比特的计算任务所需要的CPU周期频率。

第二构建子单元，用于基于时隙的长度和CPU周期频率，构建每个虚拟网络的任务处理比特数目的求解模型。

可选地，第一构建单元还：

第三获取子单元，用于获取目标空中装置的CPU周期频率、上行传输速率和数据下载速率；其中，目标空中装置表示所有空中装置中的任一空中装置。

第三构建子单元，用于基于目标空中装置的CPU周期频率构建目标空中装置的模型聚合成本的求解模型。

第四构建子单元，用于基于目标空中装置的上行传输速率和空中装置的总数，构建目标空中装置的模型传输成本的求解模型。

第五构建子单元，用于基于目标空中装置的数据下载速率和地面装置的总数，构建目标空中装置的区块链认证成本的求解模型。

第六构建子单元，用于基于模型聚合成本的求解模型、模型传输成本的求解模型和区块链认证成本的求解模型，构建目标空中装置的隐私保护成本的求解模型。

可选地，通信状态信息包括：无线信道增益和计算任务的数据量；目标神经网络模型包括：多个演员-评论家网络，每个地面装置均对应第一演员-评论家网络和第二演员-评论家网络；第一演员-评论家网络和第二演员-评论家网络的网络参数相同。

可选地，步骤B具体用于：

基于当前时隙的初始计算任务卸载策略和单时隙优化问题模型计算当前时隙的初始计算任务卸载策略的奖励；其中，奖励为空中装置的执行成本和隐私保护成本的和。

基于奖励、第一评论家网络的Q值和第二评论家网络的Q值对第一评论家网络的网络参数进行更新，得到初步更新的第一评论家网络。

对所有第一演员网络的网络参数进行联邦聚合处理，得到目标演员网络参数，并基于目标演员网络参数对目标神经网络模型中的所有演员网络进行更新。

利用深度Q网络更新方法对所有第一评论家网络的Q值进行处理，得到目标Q值，并基于目标Q值对目标神经网络模型中所有初步更新后的第一评论家网络进行更新。

可选地，该装置还用于：

基于所属于目标空中装置的局部神经网络模型的网络参数确定目标交易协议，并将目标交易协议广播至卫星服务器和其他空中装置。

对所有空中装置确定的交易协议进行聚合，得到空中装置下载区块。

每个空中装置基于预设委托权益证明协议对空中装置下载区块进行区块链认证处理，得到区块链认证结果。

在所有空中装置的区块链认证结果均为通过的情况下，确定更新后的目标神经网络模型的网络参数通过区块链认证。

实施例三

参见图6，本发明实施例提供了一种电子设备，该电子设备包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口63（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的一种空天地网络中的计算任务卸载方法、装置和电子设备的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种空天地网络中的计算任务卸载方法，其特征在于，包括：

获取空天地网络中计算任务的多时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息；其中，所述多时隙优化问题模型的目标是在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本；

基于预设优化算法将所述多时隙优化问题模型转化为单时隙优化问题模型；

重复执行下述步骤，直至得到每个时隙的目标计算任务卸载策略，并基于所述目标计算任务卸载策略，对所述空天地网络的计算任务进行卸载：

利用目标神经网络模型对目标时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到当前时隙的初始计算任务卸载策略；其中，所述目标时隙包括：当前时隙和下一时隙；所述初始计算任务卸载策略包括：每个空中装置中虚拟网络的数量，每个所述虚拟网络的CPU周期频率，每个所述虚拟网络所收集的能量和空中装置下载区块的大小；

基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型对所述目标神经网络模型进行更新，得到更新后的目标神经网络模型；

在确定所述更新后的目标神经网络模型的网络参数通过区块链认证的情况下，将所述初始计算任务卸载策略作为所述当前时隙的目标计算任务卸载策略。

2.根据权利要求1所述的计算任务卸载方法，其特征在于，获取空天地网络中计算任务的多时隙优化问题模型，包括：

获取所述多时隙优化问题模型的第一模型参数组；其中，所述第一模型参数组包括：所述计算任务的总时长、所述地面装置的总数和所述空中装置的总数；

针对每个时隙，构建所述多时隙优化问题模型的第二模型参数组中每个模型参数的求解模型；其中，所述第二模型参数组包括：每个所述虚拟网络的能耗，每个所述虚拟网络的任务处理比特数目和每个所述空中装置的隐私保护成本；

获取所述多时隙优化问题模型的约束参数组；其中，所述约束参数组包括：每个时隙的任务队列长度、所述虚拟网络在每个时隙的平均能量存储、空中装置下载区块的数据量限值；

基于所述第一模型参数组、所述第二模型参数组中每个模型参数的求解模型和所述约束参数组，构建所述计算任务的多时隙优化问题模型。

3.根据权利要求2所述的计算任务卸载方法，其特征在于，构建每个所述虚拟网络的能耗的求解模型，包括：

获取每个时隙的长度和预设能耗计算因子；

基于所述时隙的长度和所述预设能耗计算因子，构建每个所述虚拟网络的能耗的求解模型。

4.根据权利要求2所述的计算任务卸载方法，其特征在于，构建每个所述虚拟网络的任务处理比特数目的求解模型，包括：

获取每个时隙的长度和虚拟网络处理设定比特的计算任务所需要的CPU周期频率；

基于所述时隙的长度和所述CPU周期频率，构建每个所述虚拟网络的任务处理比特数目的求解模型。

5.根据权利要求2所述的计算任务卸载方法，其特征在于，构建每个所述空中装置的隐私保护成本的求解模型，包括：

获取目标空中装置的CPU周期频率、上行传输速率和数据下载速率；其中，所述目标空中装置表示所述所有空中装置中的任一空中装置；

基于所述目标空中装置的CPU周期频率构建所述目标空中装置的模型聚合成本的求解模型；

基于所述目标空中装置的上行传输速率和所述空中装置的总数，构建所述目标空中装置的模型传输成本的求解模型；

基于所述目标空中装置的数据下载速率和所述地面装置的总数，构建所述目标空中装置的区块链认证成本的求解模型；

基于所述模型聚合成本的求解模型、所述模型传输成本的求解模型和所述区块链认证成本的求解模型，构建所述目标空中装置的隐私保护成本的求解模型。

6.根据权利要求1所述的计算任务卸载方法，其特征在于，所述通信状态信息包括：无线信道增益和计算任务的数据量；所述目标神经网络模型包括：多个演员-评论家网络，每个所述地面装置均对应第一演员-评论家网络和第二演员-评论家网络；所述第一演员-评论家网络和所述第二演员-评论家网络的网络参数相同；

所述第一演员-评论家网络中的第一演员网络用于对所述当前时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到所述当前时隙的初始计算任务卸载策略；

所述第一演员-评论家网络中的第一评论家网络用于对所述当前时隙下所有地面装置的通信状态信息、所有空中装置的位置信息和所述当前时隙的初始计算任务卸载策略进行处理，得到第一评论家网络的Q值；

所述第二演员-评论家网络中的第二演员网络用于对所述下一时隙下所有地面装置的通信状态信息和所有空中装置的位置信息进行处理，得到所述下一时隙的初始计算任务卸载策略；

所述第二演员-评论家网络中的第二评论家网络用于对所述下一时隙下所有地面装置的通信状态信息、所有空中装置的位置信息和所述下一时隙的初始计算任务卸载策略进行处理，得到第二评论家网络的Q值。

7.根据权利要求6所述的计算任务卸载方法，其特征在于，基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型对所述目标神经网络模型进行更新，包括：

基于所述当前时隙的初始计算任务卸载策略和所述单时隙优化问题模型计算所述当前时隙的初始计算任务卸载策略的奖励；其中，所述奖励为空中装置的执行成本和隐私保护成本的和；

基于所述奖励、所述第一评论家网络的Q值和所述第二评论家网络的Q值对所述第一评论家网络的网络参数进行更新，得到初步更新的第一评论家网络；

对所有第一演员网络的网络参数进行联邦聚合处理，得到目标演员网络参数，并基于所述目标演员网络参数对所述目标神经网络模型中的所有演员网络进行更新；

利用深度Q网络更新方法对所有第一评论家网络的Q值进行处理，得到目标Q值，并基于所述目标Q值对所述目标神经网络模型中所有初步更新后的第一评论家网络进行更新。

8.根据权利要求1所述的计算任务卸载方法，其特征在于，还包括：

基于所属于目标空中装置的局部神经网络模型的网络参数确定目标交易协议，并将所述目标交易协议广播至卫星服务器和其他空中装置；

对所有空中装置确定的交易协议进行聚合，得到空中装置下载区块；

每个所述空中装置基于预设委托权益证明协议对所述空中装置下载区块进行区块链认证处理，得到区块链认证结果；

在所有空中装置的区块链认证结果均为通过的情况下，确定所述更新后的目标神经网络模型的网络参数通过区块链认证。

9.一种空天地网络中的计算任务卸载装置，其特征在于，包括：

获取模块，用于获取空天地网络中计算任务的多时隙优化问题模型、所有地面装置在每个时隙的通信状态信息和所有空中装置在每个时隙的位置信息；其中，所述多时隙优化问题模型的目标是在最大化任务处理比特数目的同时，最小化空中装置的执行成本和隐私保护成本；

转换模块，用于基于预设优化算法将所述多时隙优化问题模型转化为单时隙优化问题模型；

重复执行模块，用于重复执行下述步骤，直至得到每个时隙的目标计算任务卸载策略，并基于所述目标计算任务卸载策略，对所述空天地网络的计算任务进行卸载：

10.一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至8中任一项所述的空天地网络中的计算任务卸载方法的步骤。