CN110300059A

CN110300059A - 最小化信息在轨传输时延的方法

Info

Publication number: CN110300059A
Application number: CN201910655197.5A
Authority: CN
Inventors: 姜晓枫; 谢金森; 李德政; 杨坚; 谢海永; 刘弋锋
Original assignee: University of Science and Technology of China USTC; China Electronics Technology Group Corp CETC
Current assignee: University of Science and Technology of China USTC; China Electronics Technology Group Corp CETC
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-01
Anticipated expiration: 2039-07-19
Also published as: CN110300059B

Abstract

本发明公开了一种最小化信息在轨传输时延的方法，包括：当前卫星节点经过被监控地区上方空域时，产生原始观测数据m；根据其自身状态来确定是否对原始观测数据m进行在轨计算，以得到数据量缩减后的数据m’，再将原始观测数据m或者数据m’转发给下一卫星节点；下一卫星节点如果接收的数据为数据m’，则直接转发给后续卫星节点；如果为原始观测数据m，根据其自身状态来确定是否对原始观测数据m进行在轨计算，并将原始观测数据m或者数据m’转发给后续卫星节点；后续卫星节点采用相同的处理方式，直至原始观测数据m或者数据m’达到目的地面站。上述方法能减少信息下传时延，有助于地面站在第一时间获得关键信息，进而快速做出对应的决策。

Description

最小化信息在轨传输时延的方法

技术领域

本发明涉及卫星网络技术领域，尤其涉及一种最小化信息在轨传输时延的方法。

背景技术

作为天地一体化信息网络的重要组成部分，卫星网络具有全天候、高带宽、覆盖范围广等特点，因此卫星网络及天地一体化网络架构的研究受到了广泛关注。

高效的卫星网络路由方案对提高卫星网络数据传输的时效性和可靠性有着重要的意义。卫星网络具有空间环境恶劣、拓扑结构周期性变化、传播时延大以及空间环境恶劣等特点。同时，相比于地面网络节点，卫星节点的能源受到一定限制。因此，在设计卫星路由协议时，不仅需要关注星间链路状态，同时也要考虑到卫星的能量约束。

现有研究根据卫星网络拓扑结构的周期性变化，提出了系统周期分割和覆盖区域分割等组网思想。其中，系统周期分割又称虚拟拓扑思想。根据卫星网络的周期性，将卫星系统周期划分为多个时间片，只要时间片划分的大小合适，就可看作卫星网络拓扑结构在同一时间片内是不变的。于是卫星网络的路由计算就转化成了多个离散的静态虚拟拓扑下的路由计算问题。系统周期分割思想下典型的路由算法包括基于ATM的路由算法、离散时间动态虚拟拓扑路由算法。

然而，上述两种理念存在一定问题。首先，以上理念对卫星网络的周期性和拓扑结构的规则性有着很高的要求，在网络发生节点故障、链路失效等情况下，重路由将导致较大的时延。其次，由于对于网络周期性和拓扑结构规则性的要求较高，基于上述思想的卫星网络路由算法可扩展性较差。且上述思想均未考虑卫星的能量状况，这可能导致卫星网络中的卫星使用率差异过大，从而造成卫星网络资源的浪费，严重影响卫星网络组网的鲁棒性，并降低整网的数据传输效率。

发明内容

本发明的目的是提供一种最小化信息在轨传输时延的方法，使应用层与网络层的有效融合，实现卫星资源效用的最大化利用。

本发明的目的是通过以下技术方案实现的：

一种最小化信息在轨传输时延的方法，包括：

当前卫星节点经过被监控地区上方空域时对监控地区进行监测，产生原始观测数据m；

当前卫星节点根据其自身状态来确定是否对原始观测数据m进行在轨计算，以得到数据量缩减后的数据m’，再将原始观测数据m或者数据m’转发给下一跳卫星节点；

下一跳卫星节点如果接收的数据为数据m’，则直接转发给后续卫星节点；如果接收的数据为原始观测数据m，同样根据其自身状态来确定是否对原始观测数据m进行在轨计算，并将原始观测数据m或者数据m’转发给后续卫星节点；

后续卫星节点采用相同的处理方式，直至原始观测数据m或者数据m’达到目的地面站。

由上述本发明提供的技术方案可以看出，综合考虑卫星状态，针对原始观测数据在轨计算能减少信息下传的时延，有助于地面站在第一时间获得关键信息，进而快速做出对应的决策。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种最小化信息在轨传输时延的方法的流程图；

图2为本发明实施例提供的一种天地一体化网络架构图；

图3为本发明实施例提供的星间组网过程示意图；

图4为本发明实施例提供的ISRL包主要内容示意图；

图5为本发明实施例提供的解决移动性的路由方式示意图；

图6为本发明实施例提供的DDQN网络执行及更新过程示意图；

图7为本发明实施例提供的损失函数构造流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种最小化信息在轨传输时延的方法，如图1所示，其主要包括：

1、当前卫星节点经过被监控地区上方空域时对监控地区进行监测，产生原始观测数据m。

2、当前卫星节点根据其自身状态来确定是否对原始观测数据m进行在轨计算，以得到数据量缩减后的数据m’，再将原始观测数据m或者数据m’转发给下一跳卫星节点。

3、下一跳卫星节点如果接收的数据为数据m’，则直接转发给后续卫星节点；如果接收的数据为原始观测数据m，同样根据其自身状态来确定是否对原始观测数据m进行在轨计算，并将原始观测数据m或者数据m’转发给后续卫星节点。

4、后续卫星节点采用相同的处理方式(即重复上述步骤3)，直至原始观测数据m或者数据m’达到目的地面站。

假设整个网络由LEO卫星及多个地面站组成。卫星经过被监控地区上方空域时对该地区进行监测，同时产生原始观测数据其中b_m为数据量大小，d_m为完成对原始观测数据m的在轨计算总共所需要的CPU计算周期。网络中所有的卫星节点按原始观测数据到达本卫星的顺序表示为集合有

原始观测数据m通过卫星节点多跳传输到相应的地面站，为减小信息传输的时延，卫星可根据自身状态(卫星节点的剩余能量值、发送队列长度、计算队列长度、与邻居节点链路质量、以及路径链路质量等)，来判断是否对原始观测数据m做在轨计算得到信息m′，如果是，则利用计算到的m′替代m继续传输。在传输转发m′时，由于其数据量较小，因此仅考虑因链路距离而导致的传播时延，忽略其处理时延，同时，忽略m′传输所消耗的能量。该方法能够减少信息下传的时延，有助于地面站在第一时间获得关键信息，进而快速做出对应的决策，其适用于对灾害预警、边境防御等对实时性需求较高的应用场景。

如图2所示，给出了原始观测数据下传及在轨处理示例。如图2所示的网络架构中，①该时刻卫星节点A运行至监控区域上空，执行对地观测任务，并生成原始观测数据m，然后卫星节点A将m转发给卫星节点B；②原始观测数据m到达卫星节点B后，卫星节点B根据自身状态做出对m执行在轨计算的决策，得到数据m′，随后转发数据m′给卫星节点C；③卫星节点C收到信息m′后不进入计算决策流程，直接转发给直连的地面站。

卫星节点均具有能量捕获的功能，且以等间隔为d的时隙方式实现。t时隙初卫星n具有的能量为B_t(n)，则卫星节点n能量队列的更新公式可表示为：

上式中，为t时隙卫星n从外界捕获到(例如，通过太阳能板捕获能量等方式捕捉)的能量值，为卫星n在t时隙传输原始观测数据消耗的能量与其CUP参与计算所消耗的能量之和。B_max为设定的卫星剩余能量最大值。原始观测数据m从卫星n，传输到卫星o，其传输模型用香农公式表示为：

其中为τ时刻开始传输时链路的信道增益，表征链路状态，该值在数据m传输过程中保持不变；为数据m在链路l_no上的传输时间，o∈O_τ(n)表示开始传输时卫星n的邻居节点o；与P_τ(n)分别为链路l_no的带宽与节点n的发送功率，该值在卫星运行期间内保持不变，可表示为W^no与P(n)；N₀为环境噪声的平均功率。由此，可得出卫星n在传输原始观测数据m时所消耗的能量为：

由于数据m的传输时段可能跨越多个时隙，在t时隙卫星传输数据消耗的能量可表示为：

其中，d为时隙长度，t与t+1均为时隙的标号，所以乘以d才表示时刻点td到时刻点(t+1)d，即时隙t内的积分。

若卫星n对观测数据m做在轨计算得到m′，计算所消耗时间为：

上式f_n为卫星n的CPU计算频率(CPU循环次数/秒)。该计算过程消耗的能量为：

其中σ_n为一固定系数。则在t时隙n节点计算消耗能量可表示为：

基于上述理论，最小化信息在轨传输时延表示为如下最优化问题：

上式中，B_t(n)表示t时隙初卫星节点n的剩余能量值；所有的原始观测数据按到达当前卫星的顺序表示为集合0＜γ＜1为折扣因子，t_m为原始观测数据m从产生到最终到达目的地面站的总时长；表示卫星节点集合；为卫星节点n在t时隙传输数据消耗的能量与其CUP参与在轨计算所消耗的能量之和；o∈O_τ(n)表示开始传输时卫星节点n的邻居卫星节点o；为当原始观测数据m在τ时刻到达卫星节点n后，卫星节点n选择的计算行动，0表示不进行在轨计算直接转发原始观测数据m给下一跳卫星节点，1表示在轨计算后将数据m′传输给下一跳卫星节点；为卫星节点n选择的路由行动，表示在τ时刻将到达的数据m或m′转发给卫星节点o。

上述最优化问题较为复杂，包含了组网、路由选择、计算资源以及能量资源分配等问题。下面将上述最优化问题拆分为组网路由、计算行为决策两个子问题，并分别给出相应的解决方案。

一、组网路由。

现有的遥感卫星有中低轨、高轨两种运行方式。运行在中低轨道的遥感卫星由于其过境时间短，回归周期长等特点，无法对灾害事件提供实时数据支持。中国于2015年12月29日发射的高分四号为位于高轨道的地球静止轨道卫星。高分四号能够对中国及其周边地区进行高时间分辨率的连续观测，能够对特定地区进行分钟级别甚至秒级的观测，在时间就是生命的灾害防治等方面有着重大作用。但是，高分四号卫星拍摄的高纬度地区的图片有较大形变，且无法观测两极地附近的区域，因此其使用范围受到较大限制。

本发明实施例提供的组网方案，可以将通过低轨遥感卫星采集的较大数据量的初始视频、图像等原始观测数据经卫星网络传输给地面站，用作地面站采取各类决策行动的依据，所构建的天地一体化的网络架构结合相应的最小化信息在轨传输时延方法，能做到对特定区域的长时间、全天候的实时监测，有效应对灾害预警、边境防御等对实时性需求较高的应用场景。

本发明实施例中，从网络层出发，假设卫星节点能够通过链路层的交互获得与邻居卫星节点之间的信道质量，在此基础上进行组网与路由，并对相邻卫星节点间的信道增益做归一化处理，得到链路质量LQ；示例性的，可设置链路质量LQ取值[0，1]之间。

每个卫星节点以固定周期产生星间路由学习(Inter-Satellite RoutingLearning,ISRL)包，如图3所示，若某星间路由学习包由卫星节点A产生，初始时星间路由学习包中有效信息只包括卫星节点A的剩余能量值；

卫星节点A广播该星间路由学习包，其邻居卫星节点B、C收到该星间路由学习包后，填入相关链路的链路质量，并将剩余能量信息替换为卫星节点B、C的能量值，然后各自继续转发星间路由学习包；

后续卫星节点D接收到卫星节点B、C分别转发的星间路由学习包后，根据链路质量与剩余能量值选择卫星节点B或C作为到卫星节点A的最优下一跳；然后，更新本地路由表，以及星间路由学习包中链路质量、剩余能量值，并继续广播转发星间路由学习包；

其中，卫星节点D选择到卫星节点A的最优下一跳的依据为：

上式中，O_t(D)表示卫星节点D的邻居卫星节点集合；LQ_DxA为卫星节点D经过卫星x到卫星节点A的链路质量，LQ_max为设定的链路质量最大值；B_x为卫星x的剩余能量值，B_max为设定的卫星剩余能量最大值；α与β均为权值系数，且α+β＝1。

通过上式方式便能实现卫星间的组网，并得到寻路的最优下一跳节点。

如图3所示，给出了卫星组网过程示例。

①卫星节点A首先生成ISRL包，填入自身能量值为80，链路质量初始值为100％，然后广播该ISRL包；②邻居卫星节点B、C均收到A发出的广播包，分别填入B→A链路质量为100％×90％＝90％、B自身能量值70，C→A链路质量为100％×85％＝80％、C自身能量值80后，各自继续转发学习包；③卫星节点D收到来之B、C转发的A的学习包后，以α＝β＝0.5，B_max＝100为例，根据最优下一跳选择公式得到D到A的最优下一跳为C。D更新本地路由表，之后填入ISRL包中链路质量为85％×95％＝80.8％、自身能量值为90，然后继续广播该ISRL包。B广播的源节点为A的ISRL包则被卫星D丢弃。④后续节点收到D广播转发的ISRL包后执行同样的过程，如此，到卫星节点A的路径即可被全网其他卫星节点学习到。所有卫星节点均会周期性地产生学习包并广播，因此使用该方法可达到卫星组网的目的。

ISRL包的主要内容如图4所示，各字段含义如下：

版本号：表示当前协议使用的版本；

生存时间：ISRL包剩余可转发次数；

标志位：表示ISRL包的状态，可分为：新生成、来自最优路径、只转发了一跳等；

源卫星：产生该ISRL包的卫星节点；

上一跳卫星：ISRL包的上一跳卫星，若为新产生的ISRL包，则填源卫星节点；

序列号：按照ISRL包生成的顺序递增的序号，每个卫星该字段相互独立；

链路质量LQ：ISRL包转发路径的链路质量，卫星转发前用当前值乘以该卫星到上一跳卫星的单跳链路质量的结果替代；

能量：上一跳卫星的剩余能量，转发前修改为自身能量值。

上述组网技术，综合考虑卫星能量资源、星间链路动态变化、地面站动态接入等因素，提高组网的鲁棒性。

天地一体化的网络架构中，地面站以用户u的身份接入卫星网络，使得地面网络和卫星网络通过地面站相连，从而实现天地一体化网络。为避免冲突，地面站不能同时接入两颗卫星，当地面站新接入某颗卫星时，接入卫星能获得星地链路的链路质量，然后全网广播用户u的接入信息。该接入信息的产生与广播由用户的接入触发，且数据量较小，给网络带来的压力可容忍。离接入卫星较远的卫星节点会出现用户接入信息更新延迟的情况，这将导致一开始发出的数据包m按照旧的路由信息进行路由。但随着用户接入信息的扩散，网络中的数据包m最终能到达目的地面站，解决该移动性的具体实现方式如图5所示。

初始时A卫星对监控区域执行监测任务，产生的观测数据经路径L1传输给地面站。卫星相对于地面站的移动带来了地面站动态接入的问题。当地面站接入卫星I后，卫星I全网广播地面站的接入信息，收到该信息的卫星则将目的地址为此地面站的数据包向卫星I转发。接入信息到达卫星A后，新的传输链路可如图中L2所示。在接入信息到达A之前，卫星A、B仍按照已有的路由表信息转发数据，默认m到地面站的接入卫星为E。当数据m到达C时，C从更新后的路由表得知地面站的接入卫星为I，随后将数据m转发给最优下一跳G，后续转发路径如L3所示。

二、计算行为决策

如前所述，将最优化问题拆分为两个子问题后，则最优化问题可以表示为：

其中的约束条件实现方式为：若转发过程或者计算过程中出现能量缺乏的情况，则将待转发的任务或者待计算的任务暂存入发送队列或者计算队列，待能量捕获足够后继续执行转发任务或者计算任务；

针对该顺序决策问题，本发明实施例采用分布式自主学习的方式，由每个卫星节点根据每个行动的最佳价值估计，选取最优策略，这个过程为离散马尔科夫决策过程(DTMDP)，利用五元组表示为{X,Φ,A,P_ss′(a),r(s,a)}，其中X＝{X_m；m≥0}是一个离散时间的马尔科夫链，具有状态空间Φ＝{s}与行动空间A＝{a}，在过程运行的一个时刻m，此时原始观测数据m到达，如果卫星节点处于状态s∈Φ，并在采取行动a∈A后，卫星节点在原始观测数据m+1到达，即原始观测数据m+1到达本卫星节点时卫星状态转移到s′∈Φ的概率为P_ss′(a)，同时获得一个回报为r(s,a)，简写为r；所述的状态s包括：卫星节点的剩余能量值、发送队列长度、计算队列长度、与邻居节点链路质量、以及路径链路质量。所述的回报r(s,a)是卫星节点在状态s下采取行动a后的一个收益，收益的定义可有多种，但一般以最大化收益为目标函数。所以最小化时延的问题在后文需转化为一个最大化收益的问题，因此后面提到用T-t_m表示为收益r_m。

本发明实施例中，将最佳价值定义为最优策略π^*下的无限时间折扣性能，从而将优化问题中的最小化目标函数调整为如下最大化优化问题：

其中，r_m等同于回报r_m(s_m,a_m)表示针对卫星节点在状态s_m下针对原始观测数据m采取行动a_m后的收益；r_m＝T-t_m，T为原始观测数据传输最大时限，当t_m≥T时取T；若数据m在网络中存活时长到达T，则丢弃相应原始观测数据，并反馈r_m为0。

本发明实施例中，每个卫星采用DDQN深度神经网络寻找自身的最优策略π^*，进而逼近最优的行动-状态值函数，即最优的Q值函数：

其中，表示期望值。

最优的Q值函数Q^*(s,a)表示在状态s下采取行动a后并按照某种最优的策略π^*继续采取后续行动所能得到的最大长期回报；Q^*(s,a)＝argmax_aQ(s,a；θ)，Q(s,a；θ)表示在状态s下执行行动a后，之后的行动按照策略θ做决策；

利用DDQN网络计算Q值函数Q(s,a；θ)，θ为原始观测数据m到达卫星节点时卫星Q-网络中的参数，Q-网络也即前文选取策略所使用的网络，因此，θ也可以理解为某个策略π的参数。

决策过程如下：

1)原始观测数据m到达卫星节点，卫星节点状态为s_m；

2)卫星节点以概率ε随机选取行动a_m；

3)否则输入状态s_m到Q-网络，选取argmax_aQ(s_m,a；θ)最大的行动a_m；

4)原始观测数据m或者数据m’到达地面站后，记录回报r_m；此处记录回报r_m是为了后面计算损失函数更新网络参数用，后面损失函数L中的收益r即为本处记录的r_m，因为是针对所有原始观测数据，所以忽略了下标。

上述步骤2)与3)按概率选择一个执行，ε为一个较小的概率值(0.01左右)，目的是给运行该算法的决策体一定的探索状态-行动空间对(s,a)的机会。

为了更新Q-网络，卫星节点中设置经验池记录每个决策执行后的历史信息e_m＝(s_m,a_m,r_m,s_m+1),更新过程描述中忽略其下标，该历史信息则表示为(s,a,r,s′)。经验池大小为K，表示为D＝{e₁,e₂,…，e_K}，每当经验池填满则更新策略，即Q-网络的参数θ，如图6所示，更新过程如下：

1)从经验池随机选取一定数量的历史数据用作更新参数θ；

2)输入相应的状态s到Q-网络，Q-网络会输出所有行动所对应的Q值，从而确定行动a对应的Q值Q(s,a；θ)；

3)输入s′到Q-网络与目标值网络，从Q-网络输出中找到最大的Q值Q(a^*)，从而确定相应的行动a^*：

再在目标值网络中找到行动a^*所对应的Q值Q(s′,a^*；θ^-)。

本领域技术人员可以理解，Q值即为Q值函数所对应的确定值。一般描述为Q(s,a)这种形式时用Q值函数的说法，因为此处强调Q值是(s,a)的一个函数。神经网络在确定的输入状态s下输出的对应于不同行动a的值是一个确定的Q值，例如Q(1)，Q(2)，表示两个行动1，2下的确定的Q值，此时描述为Q值。

4)使用如下损失函数更新Q-网络的参数θ：

其中，θ^-为目标值网络中的参数，该损失函数L的详细构造过程如图7所示。

更新过程执行完后清空经验池并重新填充，且每执行C个循环将目标值网络中参数θ^-替换为θ。

本领域技术人员可以理解，文中定义的a、a_m、含义相同，均表示卫星节点选择的行动，区别在于，通过角标定义了行动所针对的原始观测数据的序号m，以及执行相应行动的卫星节点及相应时刻。同理，s、s_m含义相同，均表示卫星节点的状态，区别在于，通过角标定义了在得到具体原始观测数据m时的状态。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种最小化信息在轨传输时延的方法，其特征在于，包括：

2.根据权利要求1所述的一种最小化信息在轨传输时延的方法，其特征在于，该方法还包括，组网路由过程：

假设卫星节点能够通过链路层的交互获得与邻居卫星节点之间的信道质量，在此基础上进行组网与路由，并对相邻卫星节点间的信道增益做归一化处理，得到链路质量LQ；

每个卫星节点以固定周期产生星间路由学习包，若某星间路由学习包由卫星节点A产生，初始时星间路由学习包中有效信息只包括卫星节点A的剩余能量值；

其中，卫星节点D选择到卫星节点A的最优下一跳的依据为：

3.根据权利要求1或2所述的一种最小化信息在轨传输时延的方法，其特征在于，当前卫星节点开始转发原始观测数据m或者数据m’时，假设卫星节点E与目的地面站直连，随着时间推移，卫星相对于地面站的移动带来了地面站动态接入的问题，假设在当前时刻，与目的地面站直连的卫星节点由卫星E切换至卫星节点I；

卫星节点I向全网广播目的地面站的接入信息，收到该接入信息的卫星节点则将发送至目的地面站的数据包向卫星节点I转发。

4.根据权利要求1所述的一种最小化信息在轨传输时延的方法，其特征在于，最小化信息在轨传输时延表示为如下最优化问题：

上式中，B_t(n)表示t时隙初卫星节点n的剩余能量值；所有的原始观测数据按到达当前卫星的顺序表示为集合 0＜γ＜1为折扣因子，t_m为原始观测数据m从产生到最终到达目的地面站的总时长；表示卫星节点集合；为卫星节点n在t时隙传输原始观测数据消耗的能量与其CUP参与在轨计算所消耗的能量之和；o∈O_τ(n)表示开始传输时卫星节点n的邻居卫星节点o；为当原始观测数据m在τ时刻到达卫星节点n后，卫星节点n选择的计算行动，0表示不进行在轨计算直接转发原始观测数据m给下一跳卫星节点，1表示在轨计算后将数据m′传输给下一跳卫星节点；为卫星节点n选择的路由行动，表示在τ时刻将到达的数据m或m′转发给卫星节点o。

5.根据权利要求4所述的一种最小化信息在轨传输时延的方法，其特征在于，最优化问题中的约束条件实现方式为：若转发过程或者计算过程中出现能量缺乏的情况，则将待转发的任务或者待计算的任务暂存入发送队列或者计算队列，待能量捕获足够后继续执行转发任务或者计算任务；

采用分布式自主学习的方式，由每个卫星节点根据每个行动的最佳价值估计，选取最优策略，这个过程为离散马尔科夫决策过程，利用五元组表示为{X，Φ，A，P_ss，(a)，r(s，a)}，其中X＝{X_m；m≥0}是一个离散时间的马尔科夫链，具有状态空间Φ＝{s}与行动空间A＝{a}，在过程运行的一个时刻m，此时原始观测数据m到达，如果卫星节点处于状态s∈Φ，并在采取行动a∈A后，卫星节点在原始观测数据m+1到达，即原始观测数据m+1到达卫星节点时卫星节点状态转移到s′∈Φ的概率为P_ss′(a)，同时获得一个回报为r(s，a)，简写为r；所述的状态s包括：卫星节点的剩余能量值、发送队列长度、计算队列长度、与邻居节点链路质量、以及路径链路质量；所述的回报r(s，a)是卫星节点在状态s下采取行动a后的一个收益；

将最佳价值定义为最优策略π^*下的无限时间折扣性能，从而将优化问题中的最小化目标函数调整为如下最大化优化问题：

其中，r_m等同于回报r_m(s_m，a_m)表示针对卫星节点在状态s_m下针对原始观测数据m采取行动a_m后的收益；r_m＝T-t_m，T为原始观测数据传输最大时限，当t_m≥T时取T；若数据m在网络中存活时长到达T，则丢弃相应原始观测数据，并反馈r_m为0。

6.根据权利要求5所述的一种最小化信息在轨传输时延的方法，其特征在于，每个卫星采用DDQN深度神经网络寻找自身的最优策略π^*，进而逼近最优的行动-状态值函数，即最优的Q值函数：

其中，表示期望值，

最优的Q值函数Q^*(s，a)表示在状态s下按照某种最优的策略π^*采取行动a所能得到的最大长期回报；

利用DDQN网络计算Q值函数Q(s，a；θ)，θ为原始观测数据m到达卫星节点时卫星Q-网络中的参数；决策过程如下：原始观测数据m到达卫星节点，卫星节点状态为s_m；卫星节点以概率ε随机选取行动a_m；否则输入状态s_m到Q-网络，选取argmax_a Q(s_m，a；θ)最大的行动a_m；原始观测数据m或者数据m’到达地面站后，记录回报r_m。

7.根据权利要求6所述的一种最小化信息在轨传输时延的方法，其特征在于，卫星节点中设置经验池记录每个决策执行后的历史信息e_m＝(s_m，a_m，r_m，s_m+1)，更新过程描述中忽略其下标，该历史信息则表示为(s，a，r，s′)；经验池大小为K，表示为D＝{e₁，e₂，...，e_K}，每当经验池填满则更新策略，即Q-网络的参数θ，更新过程如下：

从经验池随机选取一定数量的历史数据用作更新参数θ；

输入相应的状态s到Q-网络，Q-网络会输出所有行动所对应的Q值，从而确定行动a 对应的Q值Q(s，a；θ)；

输入s′到Q-网络与目标值网络，从Q-网络输出中找到最大的Q值Q(a^*)，从而确定相应的行动a^*：

再在目标值网络中找到a^*所对应的Q值Q(s′，a^*；θ^-)；

使用如下损失函数更新Q-网络的参数θ：

其中，θ^-为目标值网络中的参数；

8.根据权利要求4所述的一种最小化信息在轨传输时延的方法，其特征在于，卫星节点n的剩余能量值更新公式为：

其中，为t时隙卫星n从外界捕获到的能量值，B_max为设定的卫星剩余能量最大值。

9.根据权利要求4所述的一种最小化信息在轨传输时延的方法，其特征在于，卫星节点n在t时隙传输原始观测数据消耗的能量表示为：

其中，d为时隙长度，P(n)表示卫星节点n的发送功率，表示原始观测数据m在卫星节点n与其相邻卫星节点o之间的链路l_no上的传输时间；

在t时隙卫星节点n的CUP参与在轨计算所消耗的能量表示为：

其中，σ_n为固定系数，f_n为卫星n的CPU计算频率，表示卫星节点n对原始观测数据m做在轨计算得到数据m′所消耗的时间。