CN115173923A - 一种低轨卫星网络能效感知路由优化方法和系统 - Google Patents

一种低轨卫星网络能效感知路由优化方法和系统 Download PDF

Info

Publication number
CN115173923A
CN115173923A CN202210779907.7A CN202210779907A CN115173923A CN 115173923 A CN115173923 A CN 115173923A CN 202210779907 A CN202210779907 A CN 202210779907A CN 115173923 A CN115173923 A CN 115173923A
Authority
CN
China
Prior art keywords
low
state
network
action
orbit satellite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210779907.7A
Other languages
English (en)
Other versions
CN115173923B (zh
Inventor
冉泳屹
李粤
雒江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210779907.7A priority Critical patent/CN115173923B/zh
Publication of CN115173923A publication Critical patent/CN115173923A/zh
Application granted granted Critical
Publication of CN115173923B publication Critical patent/CN115173923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18513Transmission in a satellite or space-based system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了一种低轨卫星网络能效感知路由优化方法和系统,涉及卫星动态路由领域,解决了现有卫星网络的能量利用效率低的问题,其技术方案要点是:本发明提出了满足时延、丢包率等的最小化目标函数,并根据低轨卫星网络的特点,提出综合考虑了卫星节点和星间链路状态的图注意力神经网络模型,并基于此提出低轨卫星网络能效感知路由优化方法,在满足时延等要求的同时,提升低轨卫星网络的能量利用效率。

Description

一种低轨卫星网络能效感知路由优化方法和系统
技术领域
本发明涉及一种卫星网络动态路由领域,更具体地说,它涉及一种低轨卫星网络能效感知路由优化方法和系统。
背景技术
低轨卫星网络具有覆盖范围广、不受地理和自然条件限制、通信距离远和通信容量大等优点,已然成为通信网络架构的重要组成部分,卫星在其特定的轨道上高速运动,导致低轨卫星网络拓扑结构迅速的变化,星间链路频繁的断开和重连。同时,由于卫星运行的特殊环境,其有限的体积对电池等设备提出了较高的限制条件。因此,针对动态变化的网络拓扑和有限的电池电量等问题,设计有效合理的路由算法是低轨卫星网络面临的技术挑战之一。
现有技术都是从优化放电深度角度来提升卫星使用寿命,而并没有优化卫星的能量利用效率,其中能量利用效率表示单位能量所能传输的平均数据量。
发明内容
本发明为解决已有的高能效路由算法大多从放电深度的角度来优化卫星的使用寿命,而并没有真正的提升卫星能量的利用效率,提供了一种低轨卫星网络能效感知路由优化方法和系统,本发明提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,从而提升低轨卫星网络的能量利用效率。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,本申请提供了一种低轨卫星网络能效感知路由优化方法,包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
在一些实施方案中,建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为:
Figure BDA0003729053160000021
其中,Γ是对丢失数据包的惩罚项,τ表示时间段,
Figure BDA0003729053160000022
表示低轨卫星网络一个运行周期内总的决策次数,
Figure BDA0003729053160000023
表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,
Figure BDA0003729053160000024
表示通信时延,
Figure BDA0003729053160000025
表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1212分别表示各项的权重系数。
在一些实施方案中,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
在一些实施方案中,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:
获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
在一些实施方案中,所述奖励函数的计算式为:
Figure BDA0003729053160000031
Figure BDA0003729053160000032
其中,
Figure BDA0003729053160000035
表示在τ×δroute,τ+1×δroute时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,
Figure BDA0003729053160000033
表示通信时延,
Figure BDA0003729053160000034
表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,c1和c2均表示范围在[0,1]的常数。
在一些实施方案中,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:
有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
在一些实施方案中,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:
从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
在一些实施方案中,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:
根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
第二方面,本申请提供了一种低轨卫星网络能效感知路由优化系统,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
Q值计算模块,用于将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
在一些实施方案中,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,达到提升低轨卫星网络的能量利用效率。
2、本发明的图注意力神经网络模型综合考虑到了卫星节点和星间链路的属性,解决了以往的图注意力神经网络模型没有考虑到边属性的缺陷。同时,本发明利用了DuelingDouble Deep Q-Network算法(简称D3QN)来求解最优路由路径,并设计了有效动作过滤器VAF来提升D3QN算法的学习效率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例一提供的低轨卫星网络能效感知路由优化方法的流程示意图;
图2为本发明实施例提供的低轨卫星网络能效感知路由优化方法的总体框架图;
图3为本发明实施例提供的有效动作过滤器过滤无效动作的示意图;
图4为本发明实施例二提供的低轨卫星网络能效感知路由优化系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例一
现有算法中主要包括低轨卫星网络动态路由算法和低轨卫星网络高能效路由算法。对于低轨卫星网络动态路由算法,往往从三个方面进行考虑,1、基于卫星网络虚拟化的低轨卫星网络路由算法。该算法大多数是根据低轨卫星网络运行的周期性和可预测性进行设计的,将提前计算好的路由信息进行分发;2、低轨卫星网络拥塞避免与负载均衡动态路由算法。该算法不仅考虑到了低轨卫星网络的拓扑,还进一步考虑了其网络负载和拥塞状况来调节路由路径,更够在一定程度上减少丢包、增加吞吐量和降低时延等;3、基于机器学习的低轨卫星网络动态路由算法。该算法利用神经网络的“黑盒子”特性,将低轨卫星网络的状态(卫星和星间链路状态等)输入到神经网络中,从而输出对应的路由策略。以上的动态路由算法在一定程度上提升了路由效率,并没有考虑到卫星的能耗问题。对于低轨卫星网络高能效路由算法,提高能效的方式有减少能量消耗和增加能量收集以下两种:1、减少能量消耗,最直接的方式就是使某些低负载的卫星进入睡眠模式,从而节省能耗;2、增加能量收集,能量的来源主要是太阳的光照,上述两点能量都是从优化放电深度角度来提升卫星使用寿命,并没有真正意义上优化卫星的能量利用效率,针对卫星电池电量有限且能量利用效率不高的问题,本实施例一提供一种低轨卫星网络能效感知路由优化方法,达到提升能量利用效率的作用。
如图1所示,路由优化方法包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
本实施例中,构建包括能量消耗、通信时延和数据传输丢包率最小化的目标函数,用以保证后续的路由决策需要满足目标函数的前提下才能确定为最优路由决策。
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
本实施例中,低轨卫星网络的状态包括低轨卫星网络的节点和星间链路,依据节点和星间链路将卫星网络建模成属性图,属性图包含了卫星的节点、边、节点状态的集合和边状态的集合;再利用图注意力神经网络模型获取节点和边映射后的隐藏状态,根据映射后的隐藏状态计算邻居节点的注意力系数和消息,然后聚合邻居的带权重消息,从而更新节点的隐藏状态,最后通过一个读出模块输出节点状态特征和边状态特征,将节点状态特征和边状态特征拼接在一起获得图数据的低维特征。
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
本实施例中,由于考虑了信关站和卫星之间的切换,故状态不仅包含了低轨卫星网络状态,还包括当前的源和目的低轨卫星,所以状态空间可以表示为:
Figure BDA0003729053160000061
Figure BDA0003729053160000062
为了能够将数据从源信观站传输到目的信观站,确定了一个低轨卫星网络运行周期T内,源低轨卫星src和目的低轨卫星dst的所有可能的组合。此外,对行动空间进行统一,分别对每一个源到目的低轨卫星组合求得了k条候选路径,并求取并集从而构成了行动空间。假设源低轨卫星和目的低轨卫星组合(Source-Destination,SD)的个数为
Figure BDA0003729053160000063
其中第i个组合为SDi,其对应的k条候选路径为Pi,k={pi,1,pi,2,…,pi,k},那么行动空间可以表示为
Figure BDA0003729053160000071
实时低轨卫星网络环境选择一个路由决策,环境将返还相应的即时奖励和下一时刻状态,对于如何设置奖励函数的优化问题,不同的场景是不一样的,本实施例中,依据所构建的目标函数建立的奖励函数,是考虑的如何提高能量利用效率的问题在里面的。
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
在本实施例中,Q值即为状态-行动值,将低维特征送入到D3QN的Q估计网络中,得到各个动作的Q值,在某一个特定的决策时刻,行动空间中只有部分动作是有效动作,即存在部分动作所对应的源低轨卫星和目的低轨卫星组合与当前的源低轨卫星和目的低轨卫星组合不匹配。
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
在本实施例中,如图2所示,图注意力神经网络模型其过程可以描述为:首先,将低轨卫星网络状态初始化为对应的图,其次,通过两层的GATE网络和读出层之后,得到低轨卫星网络状态的低维特征,然后输入到全连接网络中以输出不同路由决策的Q值。在某一个特定的决策时刻,行动空间中只有部分动作是有效动作,即存在部分动作所对应的源低轨卫星和目的低轨卫星组合与当前的源低轨卫星和目的低轨卫星组合不匹配。如在决策时刻τ,假定源信观站所连接的源低轨卫星为srcτ,目的信观站所连接的目的低轨卫星为dstτ,那么行动空间中只有SD=(srcτ,dstτ)所对应的k条路由路径是有效的动作,而其他的路由路径都是无效动作。如果不对这些无效动作进行处理,将极大的降低学习效率。为了能够从行动空间中提取出有效的动作、提高学习效率,本实施例设计了一个有效动作过滤器(ValidAction Filter,VAF),其能够根据当前时刻的源低轨卫星和目的低轨卫星组合,高效的将有效动作提取出来,将无效动作过滤掉。再结合如图3所给出的VAF的示意图,VAF通过掩码(Mask)的形式将无效动作的Q值设置为一个极大的负值,如设置为-e8,利用VAF过滤掉无效动作,并计算各个有效动作的概率,最后通过一个softmax函数输出选择各个动作的概率proba,并根据各个动作的概率以及探索率ε选择相应的动作作为路由决策。
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
本实施例中,深度强化学习模型计算了样本的状态-行动值(Q值)和目标Q值,通过状态-行动值(Q值)和目标Q值计算损失函数,然后依据损失函数计算梯度,最后通过梯度下降来更新Q估计网络的参数,每一个目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,通过多次迭代,直至模型收敛,更新完成。
综合上述技术方案,本实施例一的路由优化方法提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,达到提升低轨卫星网络的能量利用效率。
在一些可能实现的方案中,建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为:
Figure BDA0003729053160000081
其中,Γ是对丢失数据包的惩罚项,τ表示时间段,
Figure BDA0003729053160000082
表示低轨卫星网络一个运行周期内总的决策次数,
Figure BDA0003729053160000083
表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,
Figure BDA0003729053160000084
表示通信时延,
Figure BDA0003729053160000085
表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1212分别表示各项的权重系数。
本实施例中,假设低轨卫星网络运行周期为T,路由决策间隔为δroute,那么一个周期内总的决策次数为
Figure BDA0003729053160000086
假设在
Figure BDA0003729053160000087
次路由决策时,为源卫星到目的卫星选择了路径pτ。那么在时间段t∈(τ×δroute,(τ+1)×δroute)内,需要满足条件:
Figure BDA0003729053160000088
其次,在时间段(τ×δroute,(τ+1)×δroute)内,可以定义在低轨卫星网络中传输的丢包率为:
Figure BDA0003729053160000091
其中,
Figure BDA0003729053160000092
Figure BDA0003729053160000093
分别表示在(τ×δroute,(τ+1)×δroute)时间段内丢失的数据包数量和到达目的地的数据包数量。
在一些可能实现的方案中,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
本实施例中,考虑从低轨卫星src向低轨卫星dst发送数据,不考虑地面端。低轨卫星网络的通信时延模型将从以下四个方面进行介绍:传播时延、传输时延、排队时延和路由查询时延。
(1)传播时延
在低轨卫星网络中,卫星间的距离比较远,是低轨卫星网络中数据包时延的决定因素之一。星间链路的传播时延主要与星间链路的长度(卫星间的距离)有关。从卫星u到卫星v的传播时延为:994
Figure BDA0003729053160000094
其中,lu,v表示星间链路(u,v)的长度,c表示光速。
(2)传输时延
传输时延是低轨卫星网络中数据包时延的另一个重要组成部分,传输时延的大小与传输速率和数据包的大小有关,将数据包f从卫星u发送到卫星v的传输时延计算公式为:
Figure BDA0003729053160000095
其中,Ru,v表示传输速率,Ff表示数据包f的大小。相应地,卫星v接收数据包f所消耗的时间与卫星u的传输时延相等,即
Figure BDA0003729053160000096
根据香农定理和自由空间损耗模型,传输速率Ru,v计算公式为:
Figure BDA0003729053160000097
其中,Bu,v表示星间链路(u,v)的带宽,Ptx是发送功率,λ表示载波波长,
Figure BDA0003729053160000098
表示噪声功率,其与噪声温度和带宽有关:
Figure BDA0003729053160000099
kc是玻尔兹曼常数,其值为1.38×10- 23J/K,Tn表示噪声温度。Gtx和Grx分别表示发射天线增益和接收天线增益,它们分别可以表示为:
Figure BDA0003729053160000101
Figure BDA0003729053160000102
其中,D表示天线的直径,ηa表示接收器的天线效率。
(3)排队时延
排队时延通常容易被忽略,然而当网络负载比较重、内容请求比较多的时候,节点的等待队列比较拥塞,导致排队时延通常会比较大,采用FIFO(First In First Out)的队列模型,数据包在队列中的排队时延可以认为是排在其之前的数据包的传输时延之和,假设在低轨卫星u的队列中,排在数据包f之前的数据包个数为
Figure BDA0003729053160000103
那么f在低轨卫星u上的排队时延为:
Figure BDA0003729053160000104
其中,vζ表示数据包ζ在低轨卫星u上查询路由表得到的下一跳低轨卫星节点。
(4)路由查询时延
当数据包到达等待队列的最前端时,在其发送之前,需要查询路由表以确认数据包是否已到达目的地或其转发的下一跳。路由查询也会导致一定的时延,在本文中,假设所有数据包的路由查询时间均相同,数据包f在低轨卫星u上查询路由所需要的时间为
Figure BDA0003729053160000105
综合上述4点,数据包f从源低轨卫星节点src发出,到目的低轨卫星节点dst成功接收的总时延为:
Figure BDA0003729053160000106
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
首先,在低轨卫星网络中,空间链路损耗比较大,造成信号的衰减比较大,因此有一部分能量被用于放大信号来抵消部分衰减,从而提高数据被正确接收的概率。低轨卫星u的发送能耗和v的接收能耗可以分别表示为:
Figure BDA0003729053160000107
Figure BDA0003729053160000108
其中,Ptx和Prx分别表示发送天线和接收天线工作的功率,
Figure BDA0003729053160000109
Figure BDA00037290531600001010
分别表示低轨卫星u向v发送数据包f的传输时延和低轨卫星v接收数据包f的接收时延。
其次,当数据包缓存在卫星的等待队列中时,卫星会消耗一定的能量,此部分能耗与数据包的大小和其排队时延有关。假设每比特数据缓存在队列中时,每秒所消耗的能量为ρ,那么缓存能耗为:
Figure BDA0003729053160000111
其中
Figure BDA0003729053160000112
表示数据包f在低轨卫星u中的排队时延,Ff为数据包f的大小。
然后,一部分能量被用来查询路由表,根据文献[26],卫星中路由查询所消耗的能量与通过的流量成线性关系。假设每比特数据查询路由表的平均能耗为φ,那么卫星u为数据包f查询路由表的能耗为:
Figure BDA0003729053160000113
最后,卫星用于其他方面的功率可以认为是一个常数,表示为P0
基于上述能耗模型,数据包f从源低轨卫星src成功传输到目的低轨卫星dst所消耗的总能量可以表示为:
Figure BDA0003729053160000114
此外,以时间段(t,t+Δ(t))为例,假设在t时刻,卫星u的等待队列中有数据包
Figure BDA0003729053160000115
个,卫星u在(t,t+Δ(t))内接收数据包个数为
Figure BDA0003729053160000116
那么
Figure BDA0003729053160000117
则表示(t,t+Δ(t))内可能经过卫星u的等待队列的数据包个数。因为本文考虑的等待队列为FIFO类型,所以可以将这
Figure BDA0003729053160000118
个数据包按照进入等待队列的先后顺序依次编号为
Figure BDA0003729053160000119
并定义它们进入卫星u中等待队列的时间为
Figure BDA00037290531600001110
排队时延为
Figure BDA00037290531600001111
则它们出等待队列的时间为
Figure BDA00037290531600001112
那么在(t,t+Δ(t))内,第ζ个数据包fζ在卫星u的队列中的等待时间为:
Figure BDA00037290531600001113
Figure BDA00037290531600001114
表示在(t,t+Δ(t))内卫星u发送的数据包个数,则有:
Figure BDA0003729053160000121
其中,
Figure BDA0003729053160000122
用E0,Δ(t)=P0·Δ(t)表示卫星u在(t,t+Δ(t))内用于其他方面的能量,那么可以求得卫星u在时间段(t,t+Δ(t))内的总能耗为:
Figure BDA0003729053160000123
其中,nζ表示向低轨卫星u发送数据包ζ的低轨卫星,vζ表示从低轨卫星u接收数据包ζ的低轨卫星。
在一些可能实现的方案中,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:
获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
具体的,本实施例中,在低轨卫星网络模型
Figure BDA0003729053160000124
的基础上,进一步考虑低轨卫星节点和星间链路的状态,可以将低轨卫星网络表示为
Figure BDA0003729053160000125
其中
Figure BDA0003729053160000126
表示卫星节点,ε表示星间链路,Xn表示低轨卫星节点的状态矩阵,Xe表示星间链路的状态矩阵。对于卫星节点,考虑了其电池电量、位置和拥塞程度等,因此卫星节点u的状态可以表示为
Figure BDA0003729053160000127
其中
Figure BDA0003729053160000128
表示电池电量,xu,yu,zu表示卫星位于笛卡尔坐标系中的三维坐标,lonu,latu表示卫星的星下点经纬度,
Figure BDA0003729053160000131
表示卫星是否处在向阳面,conu表示卫星的队列拥塞程度。对于星间链路,考虑了其类型、长度和传输速率。因此第j条星间链路(u,v)的状态可以表示为
Figure BDA0003729053160000132
其中
Figure BDA0003729053160000133
表示星间链路的类型,可以是平面内链路或平面间链路的其中一种,lu,v和Ru,v分别表示星间链路的长度和传输速率。这样,可以将卫星网络建模成属性图
Figure BDA0003729053160000134
其中
Figure BDA0003729053160000135
Figure BDA0003729053160000136
通常,一个GATE模型由
Figure BDA0003729053160000137
个GATE层组成,每一层GATE网络可以分解为4个部分。假设第l层的输入中,节点的隐藏状态为
Figure BDA0003729053160000138
边的隐藏状态为
Figure BDA0003729053160000139
第l层的输出中,节点的隐藏状态为
Figure BDA00037290531600001310
边的隐藏状态为
Figure BDA00037290531600001311
并且,对于第一层有:
Figure BDA00037290531600001312
Figure BDA00037290531600001313
先要经过映射将输入的节点和边的隐藏状态映射到另一空间,过程为:
Figure BDA00037290531600001314
Figure BDA00037290531600001315
其中,
Figure BDA00037290531600001316
Figure BDA00037290531600001317
表示映射空间中节点和边的隐藏状态,
Figure BDA00037290531600001318
Figure BDA00037290531600001319
表示线性变换的参数。
得到节点和边的映射后的隐藏状态,采用掩模注意力(Masked Attention)机制来充分利用图的拓扑信息,即计算注意力系数时只计算节点的一阶邻居的重要性,并且采用一层的全连接网络来计算注意力系数:
Figure BDA00037290531600001320
其中,
Figure BDA00037290531600001321
Figure BDA00037290531600001322
表示节点u和v映射后的隐藏状态,
Figure BDA00037290531600001323
表示边(u,v)映射后的隐藏状态,||表示拼接(Concatenation)操作,
Figure BDA00037290531600001324
表示全连接网络的参数。为了比较邻居节点的相对重要性,利用softmax函数对注意力系数进行归一化,过程为:
Figure BDA00037290531600001325
根据节点和边的隐藏状态,可以得到消息函数:
Figure BDA00037290531600001326
其中,
Figure BDA0003729053160000141
表示消息函数的可学习参数。
得到了邻居节点的注意力系数和消息之后,可以聚合邻居的带权重消息,从而更新节点的隐藏状态:
Figure BDA0003729053160000142
其中,BN表示Batch Normalization,是进行批归一化的操作,σudt表示激活函数,此处用的是ELU激活函数。那么,
Figure BDA0003729053160000143
即为第l层GATE网络输出的节点u的隐藏状态,同时作为第l+1层GATE网络的输入。经过
Figure BDA00037290531600001415
层GATE网络之后,节点的隐藏状态为
Figure BDA0003729053160000144
边的隐藏状态为
Figure BDA0003729053160000145
此外,为了使得计算出来的路由为全局最优,采用集中式的方式。利用了一个读出(Readout)模块来输出低轨卫星网络状态图级别(Graph-Level)的表征,其读出过程可利用如下公式完成。
Figure BDA0003729053160000146
Figure BDA0003729053160000147
Figure BDA0003729053160000148
即可得到低轨卫星网络状态的低维特征
Figure BDA0003729053160000149
本实施例中的图注意力神经网络模型针对已有的图注意力神经网络模型忽略了边特征的问题,本实施例综合考虑了卫星节点和星间链路状态的图注意力神经网络模型,所得到的低轨卫星网络状态表征
Figure BDA00037290531600001410
不再单单指节点的特征。
在一些可能实现的方案中,所述奖励函数的计算式为:
Figure BDA00037290531600001411
其中,
Figure BDA00037290531600001412
表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,
Figure BDA00037290531600001413
表示通信时延,
Figure BDA00037290531600001414
表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,c1和c2均表示范围在[0,1]的常数。
具体的,本实施例中,参见上述实施例中目标函数的计算式,根据目标函数的优化问题,得到奖励函数。
在一些实施方案中,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:
有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
具体的,如图3所示,对于贪婪算法:以ε的概率选择proba最大的动作作为路由决策aτ,以1-ε的概率随机从有效动作中选择一个动作作为路由决策,1-ε表示第一概率,ε表示第二概率。
在一些实施方案中,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:
从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
在一些实施方案中,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:
根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
具体的,本实施例中,将<sτ,aτ,rτ+1,sτ+1>存储到经验池
Figure BDA0003729053160000151
中,从经验池
Figure BDA0003729053160000152
中随机选择小批量(mini-batch)个样本进行训练,将状态sτ作为Q估计网络的输入,输出为状态sτ下采取路由决策aτ的Q值Q(sτ,aτ);将状态sτ+1作为Q估计网络的输入,输出为最大Q值对应的动作
Figure BDA0003729053160000153
将sτ+1
Figure BDA0003729053160000154
作为Q目标网络的输入,输出Q值
Figure BDA0003729053160000155
D3QN的Q值可以按照下式计算:
Figure BDA0003729053160000156
其中
Figure BDA0003729053160000157
表示不同动作的相对优势值。Θva表示Q估计网络中求解状态值V(s)和动作优势值A(s,a)的神经网络参数。
目标Q值可以写为:
Figure BDA0003729053160000158
其中,
Figure BDA0003729053160000161
表示Q目标网络中用来求解状态值V(s)和动作优势值A(s,a)的神经网络参数,
Figure BDA0003729053160000162
是让Q估计网络的Q值达到最大的动作。
用Θ表示Θva,用Θ-表示
Figure BDA0003729053160000163
用trans表示状态转移四元组<sτ,aτ,rτ+1,sτ+1>,那么,损失函数和梯度可以表示为:
Figure BDA0003729053160000164
Figure BDA0003729053160000165
然后更新模型的参数:Q估计网络和Q目标网络的参数更新过程为:
Figure BDA0003729053160000166
Θ-←Θ,κ%Ξ=0
其中,η表示学习率,κ表示训练的步数,Ξ表示Q目标网络参数的更新步长。
实施例二
如图4所示,本申请实施例二在实施例一的基础上提供了一种低轨卫星网络能效感知路由优化系统,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
Q值计算模块,用于将所述低维特征和所述行动空间输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
本实施例二所提供的路由优化系统,提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,达到提升低轨卫星网络的能量利用效率。
在一些实施方案中,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
需要理解的的是,本实施例二提供的各个模块所实现的功能均已在实施例一各个方法步骤均中进行了说明,因此不再做多余的叙述。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种低轨卫星网络能效感知路由优化方法,其特征在于,包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
2.根据权利要求1所述的方法,其特征在于,建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为:
Figure FDA0003729053150000011
Figure FDA0003729053150000012
其中,Γ是对丢失数据包的惩罚项,τ表示时间段,
Figure FDA0003729053150000013
表示低轨卫星网络一个运行周期内总的决策次数,
Figure FDA0003729053150000014
表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,
Figure FDA0003729053150000015
表示通信时延,
Figure FDA0003729053150000016
表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1212分别表示各项的权重系数。
3.根据权利要求2所述的方法,其特征在于,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
4.根据权利要求1所述的方法,其特征在于,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:
获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
5.根据权利要求1所述的方法,其特征在于,所述奖励函数的计算式为:
Figure FDA0003729053150000021
Figure FDA0003729053150000022
其中,
Figure FDA0003729053150000023
表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,
Figure FDA0003729053150000024
表示通信时延,
Figure FDA0003729053150000025
表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,c1和c2均表示范围在[0,1]的常数。
6.根据权利要求1述的方法,其特征在于,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:
有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
7.根据权利要求1所述的方法,其特征在于,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:
从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
8.根据权利要求1所述的方法,其特征在于,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:
根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
9.一种低轨卫星网络能效感知路由优化系统,其特征在于,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
Q值计算模块,用于将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
10.根据权利要求9所述的系统,其特征在于,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
CN202210779907.7A 2022-07-04 2022-07-04 一种低轨卫星网络能效感知路由优化方法和系统 Active CN115173923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210779907.7A CN115173923B (zh) 2022-07-04 2022-07-04 一种低轨卫星网络能效感知路由优化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210779907.7A CN115173923B (zh) 2022-07-04 2022-07-04 一种低轨卫星网络能效感知路由优化方法和系统

Publications (2)

Publication Number Publication Date
CN115173923A true CN115173923A (zh) 2022-10-11
CN115173923B CN115173923B (zh) 2023-07-04

Family

ID=83491723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210779907.7A Active CN115173923B (zh) 2022-07-04 2022-07-04 一种低轨卫星网络能效感知路由优化方法和系统

Country Status (1)

Country Link
CN (1) CN115173923B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758704A (zh) * 2022-11-10 2023-03-07 北京航天驭星科技有限公司 卫星南北保持策略模型的建模方法、模型、获取方法
CN116388840A (zh) * 2023-03-21 2023-07-04 广州爱浦路网络技术有限公司 用户终端的卫星与地面通信分流接入方法、装置和存储介质
CN117395188A (zh) * 2023-12-07 2024-01-12 南京信息工程大学 一种基于深度强化学习的天地一体化负载均衡路由方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
WO2019063983A1 (en) * 2017-09-26 2019-04-04 Focal Point Positioning Limited METHOD AND SYSTEM FOR CALIBRATING A SYSTEM PARAMETER
US20200112362A1 (en) * 2018-10-09 2020-04-09 Hughes Network Systems, Llc Bonding and redundancy for satellite transport paths
CN110995858A (zh) * 2019-12-17 2020-04-10 大连理工大学 一种基于深度q网络的边缘网络请求调度决策方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111245673A (zh) * 2019-12-30 2020-06-05 浙江工商大学 一种基于图神经网络的sdn时延感知方法
CN111867104A (zh) * 2020-07-15 2020-10-30 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN112019260A (zh) * 2020-09-14 2020-12-01 西安交通大学 一种低轨异构卫星网络路由方法及系统
CN112543049A (zh) * 2020-11-16 2021-03-23 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN113099505A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种空天地一体化网络路由方法
CN113194034A (zh) * 2021-04-22 2021-07-30 华中科技大学 基于图神经网络和深度强化学习的路由优化方法及系统
CN113222468A (zh) * 2021-06-02 2021-08-06 中国电子科技集团公司第五十四研究所 一种基于深度强化学习的成像卫星资源调度方法
CN113518035A (zh) * 2021-05-26 2021-10-19 香港中文大学(深圳) 路由确定方法及装置
CN114362810A (zh) * 2022-01-11 2022-04-15 重庆邮电大学 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN114374660A (zh) * 2020-10-15 2022-04-19 中国移动通信集团浙江有限公司 5g消息聊天机器人的推荐方法、装置、设备及存储介质
CN114499629A (zh) * 2021-12-24 2022-05-13 南京邮电大学 基于深度强化学习的跳波束卫星系统资源动态分配方法
CN114513241A (zh) * 2021-04-19 2022-05-17 南京航空航天大学 一种基于SDN的高性能QoS保证低轨卫星星间路由方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019063983A1 (en) * 2017-09-26 2019-04-04 Focal Point Positioning Limited METHOD AND SYSTEM FOR CALIBRATING A SYSTEM PARAMETER
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
US20200112362A1 (en) * 2018-10-09 2020-04-09 Hughes Network Systems, Llc Bonding and redundancy for satellite transport paths
CN110995858A (zh) * 2019-12-17 2020-04-10 大连理工大学 一种基于深度q网络的边缘网络请求调度决策方法
CN111245673A (zh) * 2019-12-30 2020-06-05 浙江工商大学 一种基于图神经网络的sdn时延感知方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111867104A (zh) * 2020-07-15 2020-10-30 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN112019260A (zh) * 2020-09-14 2020-12-01 西安交通大学 一种低轨异构卫星网络路由方法及系统
CN114374660A (zh) * 2020-10-15 2022-04-19 中国移动通信集团浙江有限公司 5g消息聊天机器人的推荐方法、装置、设备及存储介质
CN112543049A (zh) * 2020-11-16 2021-03-23 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN113099505A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种空天地一体化网络路由方法
CN114513241A (zh) * 2021-04-19 2022-05-17 南京航空航天大学 一种基于SDN的高性能QoS保证低轨卫星星间路由方法
CN113194034A (zh) * 2021-04-22 2021-07-30 华中科技大学 基于图神经网络和深度强化学习的路由优化方法及系统
CN113518035A (zh) * 2021-05-26 2021-10-19 香港中文大学(深圳) 路由确定方法及装置
CN113222468A (zh) * 2021-06-02 2021-08-06 中国电子科技集团公司第五十四研究所 一种基于深度强化学习的成像卫星资源调度方法
CN114499629A (zh) * 2021-12-24 2022-05-13 南京邮电大学 基于深度强化学习的跳波束卫星系统资源动态分配方法
CN114362810A (zh) * 2022-01-11 2022-04-15 重庆邮电大学 一种基于迁移深度强化学习的低轨卫星跳波束优化方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO WANG等: "GRouting: Dynamic Routing for LEO Satellite Networks with Graph-based Deep Reinforcement Learning", 《2021 4TH INTERNATIONAL CONFERENCE ON HOT INFORMATION-CENTRIC NETWORKING》 *
LINGQIANG XIE等: "Graph neural network approach for anomaly detection", 《MEASUREMENT》 *
孟林勤: "基于神经网络的WSNs路由协议研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *
韩结爱: "海洋增强型监测物联网组网方案研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758704A (zh) * 2022-11-10 2023-03-07 北京航天驭星科技有限公司 卫星南北保持策略模型的建模方法、模型、获取方法
CN116388840A (zh) * 2023-03-21 2023-07-04 广州爱浦路网络技术有限公司 用户终端的卫星与地面通信分流接入方法、装置和存储介质
CN116388840B (zh) * 2023-03-21 2023-10-03 广州爱浦路网络技术有限公司 用户终端的卫星与地面通信分流接入方法、装置和存储介质
CN117395188A (zh) * 2023-12-07 2024-01-12 南京信息工程大学 一种基于深度强化学习的天地一体化负载均衡路由方法
CN117395188B (zh) * 2023-12-07 2024-03-12 南京信息工程大学 一种基于深度强化学习的天地一体化负载均衡路由方法

Also Published As

Publication number Publication date
CN115173923B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN115173923B (zh) 一种低轨卫星网络能效感知路由优化方法和系统
CN113572686B (zh) 一种基于SDN的天地一体化自适应动态QoS路由方法
CN110336751B (zh) 基于隶属函数的低轨卫星网络路由策略
Na et al. Distributed routing strategy based on machine learning for LEO satellite network
CN108712760B (zh) 基于随机自动学习机与模糊算法的高吞吐量中继选择方法
Deng et al. An Ant Colony Optimization‐Based Routing Algorithm for Load Balancing in LEO Satellite Networks
CN114051254B (zh) 一种基于星地融合网络的绿色云边协同计算卸载方法
CN102299854B (zh) 一种面向机会网络环境的多目标路由决策系统
Wang et al. Multi-hop deflection routing algorithm based on reinforcement learning for energy-harvesting nanonetworks
CN113727306B (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
Mutombo et al. EER‐RL: Energy‐Efficient Routing Based on Reinforcement Learning
CN116248164A (zh) 基于深度强化学习的完全分布式路由方法和系统
CN103888976A (zh) 一种联合网络调度和路由的链路选择方法
Yi et al. Satellite constellation of MEO and IGSO network routing with dynamic grouping
CN115622603A (zh) 一种辅助传输信息年龄最小化优化方法
Zhou et al. Adaptive Routing Strategy Based on Improved Double Q‐Learning for Satellite Internet of Things
Zhang et al. Noncooperative dynamic routing with bandwidth constraint in intermittently connected deep space information networks under scheduled contacts
CN115765826B (zh) 一种面向按需服务的无人机网络拓扑重构方法
Zhang et al. Sac: A novel multi-hop routing policy in hybrid distributed iot system based on multi-agent reinforcement learning
Zhao et al. Adaptive multi-UAV trajectory planning leveraging digital twin technology for urban IIoT applications
CN112351400B (zh) 一种基于改进强化学习的水下多模态网络路由策略生成方法
CN114531716A (zh) 一种基于能耗和链路质量的路由选择方法
Liu et al. Load Balancing Routing Algorithm of Low‐Orbit Communication Satellite Network Traffic Based on Machine Learning
Wang et al. A routing strategy with energy optimisation based on community in mobile social networks
Liu et al. CLORP: Cross-Layer Opportunistic Routing Protocol for Underwater Sensor Networks Based on Multi-Agent Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant