CN115173923A

CN115173923A - 一种低轨卫星网络能效感知路由优化方法和系统

Info

Publication number: CN115173923A
Application number: CN202210779907.7A
Authority: CN
Inventors: 冉泳屹; 李粤; 雒江涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-10-11
Anticipated expiration: 2042-07-04
Also published as: CN115173923B

Abstract

本发明公开了一种低轨卫星网络能效感知路由优化方法和系统，涉及卫星动态路由领域，解决了现有卫星网络的能量利用效率低的问题，其技术方案要点是：本发明提出了满足时延、丢包率等的最小化目标函数，并根据低轨卫星网络的特点，提出综合考虑了卫星节点和星间链路状态的图注意力神经网络模型，并基于此提出低轨卫星网络能效感知路由优化方法，在满足时延等要求的同时，提升低轨卫星网络的能量利用效率。

Description

一种低轨卫星网络能效感知路由优化方法和系统

技术领域

本发明涉及一种卫星网络动态路由领域，更具体地说，它涉及一种低轨卫星网络能效感知路由优化方法和系统。

背景技术

低轨卫星网络具有覆盖范围广、不受地理和自然条件限制、通信距离远和通信容量大等优点，已然成为通信网络架构的重要组成部分，卫星在其特定的轨道上高速运动，导致低轨卫星网络拓扑结构迅速的变化，星间链路频繁的断开和重连。同时，由于卫星运行的特殊环境，其有限的体积对电池等设备提出了较高的限制条件。因此，针对动态变化的网络拓扑和有限的电池电量等问题，设计有效合理的路由算法是低轨卫星网络面临的技术挑战之一。

现有技术都是从优化放电深度角度来提升卫星使用寿命，而并没有优化卫星的能量利用效率，其中能量利用效率表示单位能量所能传输的平均数据量。

发明内容

本发明为解决已有的高能效路由算法大多从放电深度的角度来优化卫星的使用寿命，而并没有真正的提升卫星能量的利用效率，提供了一种低轨卫星网络能效感知路由优化方法和系统，本发明提出了满足时延、丢包率等参数最小化的目标函数，建立依据低轨卫星网络的状态的图注意力神经网络模型，并依据目标函数设置了奖励函数，依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值；利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤，结合贪婪算法选择一个动作作为路由决策，依据状态空间的一个状态选择行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数，通过多次迭代，直至模型收敛后更新完成，利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径，依据最优路由路径来进行数据的传输，可使得单位能量所能传输的平均数据量得到增加，从而提升低轨卫星网络的能量利用效率。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，本申请提供了一种低轨卫星网络能效感知路由优化方法，包括：

建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数；

获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图，利用图注意力神经网络模型提取所述属性图的低维特征；

根据所述目标函数构建行动空间里动作的奖励函数，其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径；

将所述低维特征输入深度强化学习模型的Q估计网络中，计算所述行动空间中各个动作的Q值，其中动作包括无效动作和有效动作；

采用有效动作过滤器对无效动作进行过滤，依据贪婪算法从有效动作中选择一个动作作为路由决策；

根据状态空间的状态选择所述行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛，利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。

在一些实施方案中，建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为：

其中，Γ是对丢失数据包的惩罚项，τ表示时间段，

表示低轨卫星网络一个运行周期内总的决策次数，

表示在(τ×δ_route,(τ+1)×δ_route)时间段内到达目的地的数据包数量，δ_route表示路由决策间隔，f_ζ表示第ζ个数据包，

表示通信时延，

表示低轨卫星网络的能量消耗，ζ表示源低轨卫星向目的低轨卫星所发送的数据包，ω₁,ω₂,ξ₁,ξ₂分别表示各项的权重系数。

在一些实施方案中，所述通信时延包括传播时延、传输时延、排队时延和路由查询时延；

所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。

在一些实施方案中，获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图，利用图注意力神经网络模型提取所述属性图的低维特征，具体为：

获取所述低轨卫星网络的状态，其中状态包括低轨卫星节点状态和星间链路状态，根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图；

在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间，获得节点和边映射后的隐藏状态，对于第一层，输入为属性图中节点和边的状态；

采用掩模注意力机制计算邻居节点的注意力系数，并利用softmax函数对所述注意力系数进行归一化；

根据节点和边的隐藏状态，计算节点和边的消息函数；

根据所述注意力系数和消息函数聚合邻居节点的带权重消息，更新节点和边的隐藏状态；

利用读出函数分别读出更新后节点和边的状态表征；

将节点和边的状态特征拼接在一起获得所述图数据的低维特征。

在一些实施方案中，所述奖励函数的计算式为：

其中，

表示在τ×δroute,τ+1×δroute时间段内到达目的地的数据包数量，δ_route表示路由决策间隔，f_ζ表示第ζ个数据包，

表示通信时延，

表示低轨卫星网络的能量消耗，ζ表示源低轨卫星向目的低轨卫星所发送的数据包，c₁和c₂均表示范围在[0,1]的常数。

在一些实施方案中，采用有效动作过滤器对无效动作进行过滤，依据贪婪算法从有效动作中选择一个动作作为路由决策，包括：

有效动作过滤器将无效动作的Q值设置为一个极大的负值，以此过滤掉无效动作，并计算各个有效动作的概率，以第一概率随机从有效动作中选择一个动作作为路由决策，以第二概率选择有效动作概率最大的动作作为路由决策。

在一些实施方案中，根据状态空间的状态选择所述行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，具体为：

从经验池中选择小批量样本进行训练，将当前时刻状态作为Q估计网络的输入，输出为该状态下采取的路由决策的Q值，将下一时刻状态作为Q估计网络的输入，输出为Q估计网络的Q值达到最大时的动作，将该动作和下一时刻状态作为Q目标网络的输入，输出目标Q值。

在一些实施方案中，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛，利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径，具体为：

根据当前时刻Q值和目标Q值的差值计算损失函数，然后根据损失函数来计算梯度；

根据梯度下降来更新Q估计网络的参数，每一个Q目标网络的更新步长，把Q估计网络的参数传递给Q目标网络，并进行多次迭代训练，获得收敛后的深度强化学习模型。

第二方面，本申请提供了一种低轨卫星网络能效感知路由优化系统，包括：

目标函数建立模块，用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数；

特征提取模块，用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图，利用图注意力神经网络模型提取所述属性图的低维特征；

奖励函数构建模块，用于根据所述目标函数构建行动空间里动作的奖励函数，其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径；

Q值计算模块，用于将所述低维特征输入深度强化学习模型的Q估计网络中，计算所述行动空间中各个动作的Q值，其中动作包括无效动作和有效动作；

动作过滤模块，用于采用有效动作过滤器对无效动作进行过滤，依据贪婪算法从有效动作中选择一个动作作为路由决策；

网络训练模块，用于根据状态空间的状态选择所述行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛，利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。

在一些实施方案中，特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块；

属性图模块，用于获取所述低轨卫星网络的状态，其中状态包括低轨卫星节点状态和星间链路状态，根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图；

状态映射模块，用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间，获得节点和边映射后的隐藏状态，对于第一层，输入为属性图中节点和边的状态；

第一计算模块，用于采用掩模注意力机制计算邻居节点的注意力系数，并利用softmax函数对所述注意力系数进行归一化；

第二计算模块，用于根据节点和边的隐藏状态，计算节点和边的消息函数；

状态更新模块，用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息，更新节点和边的隐藏状态；

状态读出模块，用于利用读出函数分别读出更新后节点和边的状态表征；

拼接模块，用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出了满足时延、丢包率等参数最小化的目标函数，建立依据低轨卫星网络的状态的图注意力神经网络模型，并依据目标函数设置了奖励函数，依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值；利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤，结合贪婪算法选择一个动作作为路由决策，依据状态空间的一个状态选择行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数，通过多次迭代，直至模型收敛后更新完成，利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径，依据最优路由路径来进行数据的传输，可使得单位能量所能传输的平均数据量得到增加，达到提升低轨卫星网络的能量利用效率。

2、本发明的图注意力神经网络模型综合考虑到了卫星节点和星间链路的属性，解决了以往的图注意力神经网络模型没有考虑到边属性的缺陷。同时，本发明利用了DuelingDouble Deep Q-Network算法(简称D3QN)来求解最优路由路径，并设计了有效动作过滤器VAF来提升D3QN算法的学习效率。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例一提供的低轨卫星网络能效感知路由优化方法的流程示意图；

图2为本发明实施例提供的低轨卫星网络能效感知路由优化方法的总体框架图；

图3为本发明实施例提供的有效动作过滤器过滤无效动作的示意图；

图4为本发明实施例二提供的低轨卫星网络能效感知路由优化系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例一

现有算法中主要包括低轨卫星网络动态路由算法和低轨卫星网络高能效路由算法。对于低轨卫星网络动态路由算法，往往从三个方面进行考虑，1、基于卫星网络虚拟化的低轨卫星网络路由算法。该算法大多数是根据低轨卫星网络运行的周期性和可预测性进行设计的，将提前计算好的路由信息进行分发；2、低轨卫星网络拥塞避免与负载均衡动态路由算法。该算法不仅考虑到了低轨卫星网络的拓扑，还进一步考虑了其网络负载和拥塞状况来调节路由路径，更够在一定程度上减少丢包、增加吞吐量和降低时延等；3、基于机器学习的低轨卫星网络动态路由算法。该算法利用神经网络的“黑盒子”特性，将低轨卫星网络的状态(卫星和星间链路状态等)输入到神经网络中，从而输出对应的路由策略。以上的动态路由算法在一定程度上提升了路由效率，并没有考虑到卫星的能耗问题。对于低轨卫星网络高能效路由算法，提高能效的方式有减少能量消耗和增加能量收集以下两种：1、减少能量消耗，最直接的方式就是使某些低负载的卫星进入睡眠模式，从而节省能耗；2、增加能量收集，能量的来源主要是太阳的光照，上述两点能量都是从优化放电深度角度来提升卫星使用寿命，并没有真正意义上优化卫星的能量利用效率，针对卫星电池电量有限且能量利用效率不高的问题，本实施例一提供一种低轨卫星网络能效感知路由优化方法，达到提升能量利用效率的作用。

如图1所示，路由优化方法包括：

本实施例中，构建包括能量消耗、通信时延和数据传输丢包率最小化的目标函数，用以保证后续的路由决策需要满足目标函数的前提下才能确定为最优路由决策。

本实施例中，低轨卫星网络的状态包括低轨卫星网络的节点和星间链路，依据节点和星间链路将卫星网络建模成属性图，属性图包含了卫星的节点、边、节点状态的集合和边状态的集合；再利用图注意力神经网络模型获取节点和边映射后的隐藏状态，根据映射后的隐藏状态计算邻居节点的注意力系数和消息，然后聚合邻居的带权重消息，从而更新节点的隐藏状态，最后通过一个读出模块输出节点状态特征和边状态特征，将节点状态特征和边状态特征拼接在一起获得图数据的低维特征。

本实施例中，由于考虑了信关站和卫星之间的切换，故状态不仅包含了低轨卫星网络状态，还包括当前的源和目的低轨卫星，所以状态空间可以表示为：

为了能够将数据从源信观站传输到目的信观站，确定了一个低轨卫星网络运行周期T内，源低轨卫星src和目的低轨卫星dst的所有可能的组合。此外，对行动空间进行统一，分别对每一个源到目的低轨卫星组合求得了k条候选路径，并求取并集从而构成了行动空间。假设源低轨卫星和目的低轨卫星组合(Source-Destination,SD)的个数为

其中第i个组合为SD_i，其对应的k条候选路径为P_i,k＝{p_i,1,p_i,2,…,p_i,k}，那么行动空间可以表示为

实时低轨卫星网络环境选择一个路由决策，环境将返还相应的即时奖励和下一时刻状态，对于如何设置奖励函数的优化问题，不同的场景是不一样的，本实施例中，依据所构建的目标函数建立的奖励函数，是考虑的如何提高能量利用效率的问题在里面的。

在本实施例中，Q值即为状态-行动值，将低维特征送入到D3QN的Q估计网络中，得到各个动作的Q值，在某一个特定的决策时刻，行动空间中只有部分动作是有效动作，即存在部分动作所对应的源低轨卫星和目的低轨卫星组合与当前的源低轨卫星和目的低轨卫星组合不匹配。

在本实施例中，如图2所示，图注意力神经网络模型其过程可以描述为：首先，将低轨卫星网络状态初始化为对应的图，其次，通过两层的GATE网络和读出层之后，得到低轨卫星网络状态的低维特征，然后输入到全连接网络中以输出不同路由决策的Q值。在某一个特定的决策时刻，行动空间中只有部分动作是有效动作，即存在部分动作所对应的源低轨卫星和目的低轨卫星组合与当前的源低轨卫星和目的低轨卫星组合不匹配。如在决策时刻τ，假定源信观站所连接的源低轨卫星为src_τ，目的信观站所连接的目的低轨卫星为dst_τ，那么行动空间中只有SD＝(src_τ,dst_τ)所对应的k条路由路径是有效的动作，而其他的路由路径都是无效动作。如果不对这些无效动作进行处理，将极大的降低学习效率。为了能够从行动空间中提取出有效的动作、提高学习效率，本实施例设计了一个有效动作过滤器(ValidAction Filter,VAF)，其能够根据当前时刻的源低轨卫星和目的低轨卫星组合，高效的将有效动作提取出来，将无效动作过滤掉。再结合如图3所给出的VAF的示意图，VAF通过掩码(Mask)的形式将无效动作的Q值设置为一个极大的负值，如设置为-e⁸，利用VAF过滤掉无效动作，并计算各个有效动作的概率，最后通过一个softmax函数输出选择各个动作的概率prob_a，并根据各个动作的概率以及探索率ε选择相应的动作作为路由决策。

本实施例中，深度强化学习模型计算了样本的状态-行动值(Q值)和目标Q值，通过状态-行动值(Q值)和目标Q值计算损失函数，然后依据损失函数计算梯度，最后通过梯度下降来更新Q估计网络的参数，每一个目标网络的更新步长，把Q估计网络的参数传递给Q目标网络，通过多次迭代，直至模型收敛，更新完成。

综合上述技术方案，本实施例一的路由优化方法提出了满足时延、丢包率等参数最小化的目标函数，建立依据低轨卫星网络的状态的图注意力神经网络模型，并依据目标函数设置了奖励函数，依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值；利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤，结合贪婪算法选择一个动作作为路由决策，依据状态空间的一个状态选择行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数，通过多次迭代，直至模型收敛后更新完成，利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径，依据最优路由路径来进行数据的传输，可使得单位能量所能传输的平均数据量得到增加，达到提升低轨卫星网络的能量利用效率。

在一些可能实现的方案中，建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为：

其中，Γ是对丢失数据包的惩罚项，τ表示时间段，

表示低轨卫星网络一个运行周期内总的决策次数，

表示通信时延，

本实施例中，假设低轨卫星网络运行周期为T，路由决策间隔为δ_route，那么一个周期内总的决策次数为

假设在

次路由决策时，为源卫星到目的卫星选择了路径p^τ。那么在时间段t∈(τ×δ_route,(τ+1)×δ_route)内，需要满足条件：

其次，在时间段(τ×δ_route,(τ+1)×δ_route)内，可以定义在低轨卫星网络中传输的丢包率为：

其中，

和

分别表示在(τ×δ_route,(τ+1)×δ_route)时间段内丢失的数据包数量和到达目的地的数据包数量。

在一些可能实现的方案中，所述通信时延包括传播时延、传输时延、排队时延和路由查询时延；

本实施例中，考虑从低轨卫星src向低轨卫星dst发送数据，不考虑地面端。低轨卫星网络的通信时延模型将从以下四个方面进行介绍：传播时延、传输时延、排队时延和路由查询时延。

(1)传播时延

在低轨卫星网络中，卫星间的距离比较远，是低轨卫星网络中数据包时延的决定因素之一。星间链路的传播时延主要与星间链路的长度(卫星间的距离)有关。从卫星u到卫星v的传播时延为：994

其中，l_u,v表示星间链路(u,v)的长度，c表示光速。

(2)传输时延

传输时延是低轨卫星网络中数据包时延的另一个重要组成部分，传输时延的大小与传输速率和数据包的大小有关，将数据包f从卫星u发送到卫星v的传输时延计算公式为：

其中，R_u,v表示传输速率，F_f表示数据包f的大小。相应地，卫星v接收数据包f所消耗的时间与卫星u的传输时延相等，即

根据香农定理和自由空间损耗模型，传输速率R_u,v计算公式为：

其中，B_u,v表示星间链路(u,v)的带宽，P_tx是发送功率，λ表示载波波长，

表示噪声功率，其与噪声温度和带宽有关：

k_c是玻尔兹曼常数，其值为1.38×10^- ²³J/K，T_n表示噪声温度。G_tx和G_rx分别表示发射天线增益和接收天线增益，它们分别可以表示为：

其中，D表示天线的直径，η_a表示接收器的天线效率。

(3)排队时延

排队时延通常容易被忽略，然而当网络负载比较重、内容请求比较多的时候，节点的等待队列比较拥塞，导致排队时延通常会比较大，采用FIFO(First In First Out)的队列模型，数据包在队列中的排队时延可以认为是排在其之前的数据包的传输时延之和，假设在低轨卫星u的队列中，排在数据包f之前的数据包个数为

那么f在低轨卫星u上的排队时延为：

其中，v_ζ表示数据包ζ在低轨卫星u上查询路由表得到的下一跳低轨卫星节点。

(4)路由查询时延

当数据包到达等待队列的最前端时，在其发送之前，需要查询路由表以确认数据包是否已到达目的地或其转发的下一跳。路由查询也会导致一定的时延，在本文中，假设所有数据包的路由查询时间均相同，数据包f在低轨卫星u上查询路由所需要的时间为

综合上述4点，数据包f从源低轨卫星节点src发出，到目的低轨卫星节点dst成功接收的总时延为：

首先，在低轨卫星网络中，空间链路损耗比较大，造成信号的衰减比较大，因此有一部分能量被用于放大信号来抵消部分衰减，从而提高数据被正确接收的概率。低轨卫星u的发送能耗和v的接收能耗可以分别表示为：

其中，P_tx和P_rx分别表示发送天线和接收天线工作的功率，

和

分别表示低轨卫星u向v发送数据包f的传输时延和低轨卫星v接收数据包f的接收时延。

其次，当数据包缓存在卫星的等待队列中时，卫星会消耗一定的能量，此部分能耗与数据包的大小和其排队时延有关。假设每比特数据缓存在队列中时，每秒所消耗的能量为ρ，那么缓存能耗为：

其中

表示数据包f在低轨卫星u中的排队时延，F_f为数据包f的大小。

然后，一部分能量被用来查询路由表，根据文献[26]，卫星中路由查询所消耗的能量与通过的流量成线性关系。假设每比特数据查询路由表的平均能耗为φ，那么卫星u为数据包f查询路由表的能耗为：

最后，卫星用于其他方面的功率可以认为是一个常数，表示为P₀。

基于上述能耗模型，数据包f从源低轨卫星src成功传输到目的低轨卫星dst所消耗的总能量可以表示为：

此外，以时间段(t,t+Δ(t))为例，假设在t时刻，卫星u的等待队列中有数据包

个，卫星u在(t,t+Δ(t))内接收数据包个数为

那么

则表示(t,t+Δ(t))内可能经过卫星u的等待队列的数据包个数。因为本文考虑的等待队列为FIFO类型，所以可以将这

个数据包按照进入等待队列的先后顺序依次编号为

并定义它们进入卫星u中等待队列的时间为

排队时延为

则它们出等待队列的时间为

那么在(t,t+Δ(t))内，第ζ个数据包f_ζ在卫星u的队列中的等待时间为：

用

表示在(t,t+Δ(t))内卫星u发送的数据包个数，则有：

其中，

用E_0,Δ(t)＝P₀·Δ(t)表示卫星u在(t,t+Δ(t))内用于其他方面的能量，那么可以求得卫星u在时间段(t,t+Δ(t))内的总能耗为：

其中，n_ζ表示向低轨卫星u发送数据包ζ的低轨卫星，v_ζ表示从低轨卫星u接收数据包ζ的低轨卫星。

在一些可能实现的方案中，获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图，利用图注意力神经网络模型提取所述属性图的低维特征，具体为：

根据节点和边的隐藏状态，计算节点和边的消息函数；

利用读出函数分别读出更新后节点和边的状态表征；

具体的，本实施例中，在低轨卫星网络模型

的基础上，进一步考虑低轨卫星节点和星间链路的状态，可以将低轨卫星网络表示为

其中

表示卫星节点，ε表示星间链路，X_n表示低轨卫星节点的状态矩阵，X_e表示星间链路的状态矩阵。对于卫星节点，考虑了其电池电量、位置和拥塞程度等，因此卫星节点u的状态可以表示为

其中

表示电池电量，x_u,y_u,z_u表示卫星位于笛卡尔坐标系中的三维坐标，lon_u,lat_u表示卫星的星下点经纬度，

表示卫星是否处在向阳面，con_u表示卫星的队列拥塞程度。对于星间链路，考虑了其类型、长度和传输速率。因此第j条星间链路(u,v)的状态可以表示为

其中

表示星间链路的类型，可以是平面内链路或平面间链路的其中一种，l_u,v和R_u,v分别表示星间链路的长度和传输速率。这样，可以将卫星网络建模成属性图

其中

通常，一个GATE模型由

个GATE层组成，每一层GATE网络可以分解为4个部分。假设第l层的输入中，节点的隐藏状态为

边的隐藏状态为

第l层的输出中，节点的隐藏状态为

边的隐藏状态为

并且，对于第一层有：

和

先要经过映射将输入的节点和边的隐藏状态映射到另一空间，过程为：

其中，

和

表示映射空间中节点和边的隐藏状态，

表示线性变换的参数。

得到节点和边的映射后的隐藏状态，采用掩模注意力(Masked Attention)机制来充分利用图的拓扑信息，即计算注意力系数时只计算节点的一阶邻居的重要性，并且采用一层的全连接网络来计算注意力系数：

其中，

和

表示节点u和v映射后的隐藏状态，

表示边(u,v)映射后的隐藏状态，||表示拼接(Concatenation)操作，

表示全连接网络的参数。为了比较邻居节点的相对重要性，利用softmax函数对注意力系数进行归一化，过程为：

根据节点和边的隐藏状态，可以得到消息函数：

其中，

表示消息函数的可学习参数。

得到了邻居节点的注意力系数和消息之后，可以聚合邻居的带权重消息，从而更新节点的隐藏状态：

其中，BN表示Batch Normalization，是进行批归一化的操作，σ_udt表示激活函数，此处用的是ELU激活函数。那么，

即为第l层GATE网络输出的节点u的隐藏状态，同时作为第l+1层GATE网络的输入。经过

层GATE网络之后，节点的隐藏状态为

边的隐藏状态为

此外，为了使得计算出来的路由为全局最优，采用集中式的方式。利用了一个读出(Readout)模块来输出低轨卫星网络状态图级别(Graph-Level)的表征，其读出过程可利用如下公式完成。

即可得到低轨卫星网络状态的低维特征

本实施例中的图注意力神经网络模型针对已有的图注意力神经网络模型忽略了边特征的问题，本实施例综合考虑了卫星节点和星间链路状态的图注意力神经网络模型，所得到的低轨卫星网络状态表征

不再单单指节点的特征。

在一些可能实现的方案中，所述奖励函数的计算式为：

其中，

表示通信时延，

具体的，本实施例中，参见上述实施例中目标函数的计算式，根据目标函数的优化问题，得到奖励函数。

具体的，如图3所示，对于贪婪算法：以ε的概率选择prob_a最大的动作作为路由决策a_τ，以1-ε的概率随机从有效动作中选择一个动作作为路由决策，1-ε表示第一概率，ε表示第二概率。

具体的，本实施例中，将<s_τ,a_τ,r_τ+1,s_τ+1>存储到经验池

中，从经验池

中随机选择小批量(mini-batch)个样本进行训练，将状态s_τ作为Q估计网络的输入，输出为状态s_τ下采取路由决策a_τ的Q值Q(s_τ,a_τ)；将状态s_τ+1作为Q估计网络的输入，输出为最大Q值对应的动作

将s_τ+1，

作为Q目标网络的输入，输出Q值

D3QN的Q值可以按照下式计算：

其中

表示不同动作的相对优势值。Θ_v,Θ_a表示Q估计网络中求解状态值V(s)和动作优势值A(s,a)的神经网络参数。

目标Q值可以写为：

其中，

表示Q目标网络中用来求解状态值V(s)和动作优势值A(s,a)的神经网络参数，

是让Q估计网络的Q值达到最大的动作。

用Θ表示Θ_v,Θ_a，用Θ^-表示

用trans表示状态转移四元组<s_τ,a_τ,r_τ+1,s_τ+1>，那么，损失函数和梯度可以表示为：

然后更新模型的参数:Q估计网络和Q目标网络的参数更新过程为：

Θ^-←Θ,κ％Ξ＝0

其中，η表示学习率，κ表示训练的步数，Ξ表示Q目标网络参数的更新步长。

实施例二

如图4所示，本申请实施例二在实施例一的基础上提供了一种低轨卫星网络能效感知路由优化系统，包括：

Q值计算模块，用于将所述低维特征和所述行动空间输入深度强化学习模型的Q估计网络中，计算所述行动空间中各个动作的Q值，其中动作包括无效动作和有效动作；

本实施例二所提供的路由优化系统，提出了满足时延、丢包率等参数最小化的目标函数，建立依据低轨卫星网络的状态的图注意力神经网络模型，并依据目标函数设置了奖励函数，依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值；利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤，结合贪婪算法选择一个动作作为路由决策，依据状态空间的一个状态选择行动空间的一个动作，环境执行动作后返还及时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数，通过多次迭代，直至模型收敛后更新完成，利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径，依据最优路由路径来进行数据的传输，可使得单位能量所能传输的平均数据量得到增加，达到提升低轨卫星网络的能量利用效率。

需要理解的的是，本实施例二提供的各个模块所实现的功能均已在实施例一各个方法步骤均中进行了说明，因此不再做多余的叙述。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。