CN115173923A - 一种低轨卫星网络能效感知路由优化方法和系统 - Google Patents
一种低轨卫星网络能效感知路由优化方法和系统 Download PDFInfo
- Publication number
- CN115173923A CN115173923A CN202210779907.7A CN202210779907A CN115173923A CN 115173923 A CN115173923 A CN 115173923A CN 202210779907 A CN202210779907 A CN 202210779907A CN 115173923 A CN115173923 A CN 115173923A
- Authority
- CN
- China
- Prior art keywords
- low
- state
- network
- action
- orbit satellite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 230000006870 function Effects 0.000 claims abstract description 119
- 238000003062 neural network model Methods 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims description 211
- 238000005265 energy consumption Methods 0.000 claims description 45
- 230000002787 reinforcement Effects 0.000 claims description 37
- 230000005540 biological transmission Effects 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Radio Relay Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种低轨卫星网络能效感知路由优化方法和系统,涉及卫星动态路由领域,解决了现有卫星网络的能量利用效率低的问题,其技术方案要点是:本发明提出了满足时延、丢包率等的最小化目标函数,并根据低轨卫星网络的特点,提出综合考虑了卫星节点和星间链路状态的图注意力神经网络模型,并基于此提出低轨卫星网络能效感知路由优化方法,在满足时延等要求的同时,提升低轨卫星网络的能量利用效率。
Description
技术领域
本发明涉及一种卫星网络动态路由领域,更具体地说,它涉及一种低轨卫星网络能效感知路由优化方法和系统。
背景技术
低轨卫星网络具有覆盖范围广、不受地理和自然条件限制、通信距离远和通信容量大等优点,已然成为通信网络架构的重要组成部分,卫星在其特定的轨道上高速运动,导致低轨卫星网络拓扑结构迅速的变化,星间链路频繁的断开和重连。同时,由于卫星运行的特殊环境,其有限的体积对电池等设备提出了较高的限制条件。因此,针对动态变化的网络拓扑和有限的电池电量等问题,设计有效合理的路由算法是低轨卫星网络面临的技术挑战之一。
现有技术都是从优化放电深度角度来提升卫星使用寿命,而并没有优化卫星的能量利用效率,其中能量利用效率表示单位能量所能传输的平均数据量。
发明内容
本发明为解决已有的高能效路由算法大多从放电深度的角度来优化卫星的使用寿命,而并没有真正的提升卫星能量的利用效率,提供了一种低轨卫星网络能效感知路由优化方法和系统,本发明提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,从而提升低轨卫星网络的能量利用效率。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,本申请提供了一种低轨卫星网络能效感知路由优化方法,包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
在一些实施方案中,建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为:其中,Γ是对丢失数据包的惩罚项,τ表示时间段,表示低轨卫星网络一个运行周期内总的决策次数,表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,表示通信时延,表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1,ω2,ξ1,ξ2分别表示各项的权重系数。
在一些实施方案中,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
在一些实施方案中,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:
获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
在一些实施方案中,所述奖励函数的计算式为: 其中,表示在τ×δroute,τ+1×δroute时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,表示通信时延,表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,c1和c2均表示范围在[0,1]的常数。
在一些实施方案中,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:
有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
在一些实施方案中,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:
从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
在一些实施方案中,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:
根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
第二方面,本申请提供了一种低轨卫星网络能效感知路由优化系统,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
Q值计算模块,用于将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
在一些实施方案中,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,达到提升低轨卫星网络的能量利用效率。
2、本发明的图注意力神经网络模型综合考虑到了卫星节点和星间链路的属性,解决了以往的图注意力神经网络模型没有考虑到边属性的缺陷。同时,本发明利用了DuelingDouble Deep Q-Network算法(简称D3QN)来求解最优路由路径,并设计了有效动作过滤器VAF来提升D3QN算法的学习效率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例一提供的低轨卫星网络能效感知路由优化方法的流程示意图;
图2为本发明实施例提供的低轨卫星网络能效感知路由优化方法的总体框架图;
图3为本发明实施例提供的有效动作过滤器过滤无效动作的示意图;
图4为本发明实施例二提供的低轨卫星网络能效感知路由优化系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例一
现有算法中主要包括低轨卫星网络动态路由算法和低轨卫星网络高能效路由算法。对于低轨卫星网络动态路由算法,往往从三个方面进行考虑,1、基于卫星网络虚拟化的低轨卫星网络路由算法。该算法大多数是根据低轨卫星网络运行的周期性和可预测性进行设计的,将提前计算好的路由信息进行分发;2、低轨卫星网络拥塞避免与负载均衡动态路由算法。该算法不仅考虑到了低轨卫星网络的拓扑,还进一步考虑了其网络负载和拥塞状况来调节路由路径,更够在一定程度上减少丢包、增加吞吐量和降低时延等;3、基于机器学习的低轨卫星网络动态路由算法。该算法利用神经网络的“黑盒子”特性,将低轨卫星网络的状态(卫星和星间链路状态等)输入到神经网络中,从而输出对应的路由策略。以上的动态路由算法在一定程度上提升了路由效率,并没有考虑到卫星的能耗问题。对于低轨卫星网络高能效路由算法,提高能效的方式有减少能量消耗和增加能量收集以下两种:1、减少能量消耗,最直接的方式就是使某些低负载的卫星进入睡眠模式,从而节省能耗;2、增加能量收集,能量的来源主要是太阳的光照,上述两点能量都是从优化放电深度角度来提升卫星使用寿命,并没有真正意义上优化卫星的能量利用效率,针对卫星电池电量有限且能量利用效率不高的问题,本实施例一提供一种低轨卫星网络能效感知路由优化方法,达到提升能量利用效率的作用。
如图1所示,路由优化方法包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
本实施例中,构建包括能量消耗、通信时延和数据传输丢包率最小化的目标函数,用以保证后续的路由决策需要满足目标函数的前提下才能确定为最优路由决策。
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
本实施例中,低轨卫星网络的状态包括低轨卫星网络的节点和星间链路,依据节点和星间链路将卫星网络建模成属性图,属性图包含了卫星的节点、边、节点状态的集合和边状态的集合;再利用图注意力神经网络模型获取节点和边映射后的隐藏状态,根据映射后的隐藏状态计算邻居节点的注意力系数和消息,然后聚合邻居的带权重消息,从而更新节点的隐藏状态,最后通过一个读出模块输出节点状态特征和边状态特征,将节点状态特征和边状态特征拼接在一起获得图数据的低维特征。
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
本实施例中,由于考虑了信关站和卫星之间的切换,故状态不仅包含了低轨卫星网络状态,还包括当前的源和目的低轨卫星,所以状态空间可以表示为: 为了能够将数据从源信观站传输到目的信观站,确定了一个低轨卫星网络运行周期T内,源低轨卫星src和目的低轨卫星dst的所有可能的组合。此外,对行动空间进行统一,分别对每一个源到目的低轨卫星组合求得了k条候选路径,并求取并集从而构成了行动空间。假设源低轨卫星和目的低轨卫星组合(Source-Destination,SD)的个数为其中第i个组合为SDi,其对应的k条候选路径为Pi,k={pi,1,pi,2,…,pi,k},那么行动空间可以表示为
实时低轨卫星网络环境选择一个路由决策,环境将返还相应的即时奖励和下一时刻状态,对于如何设置奖励函数的优化问题,不同的场景是不一样的,本实施例中,依据所构建的目标函数建立的奖励函数,是考虑的如何提高能量利用效率的问题在里面的。
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
在本实施例中,Q值即为状态-行动值,将低维特征送入到D3QN的Q估计网络中,得到各个动作的Q值,在某一个特定的决策时刻,行动空间中只有部分动作是有效动作,即存在部分动作所对应的源低轨卫星和目的低轨卫星组合与当前的源低轨卫星和目的低轨卫星组合不匹配。
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
在本实施例中,如图2所示,图注意力神经网络模型其过程可以描述为:首先,将低轨卫星网络状态初始化为对应的图,其次,通过两层的GATE网络和读出层之后,得到低轨卫星网络状态的低维特征,然后输入到全连接网络中以输出不同路由决策的Q值。在某一个特定的决策时刻,行动空间中只有部分动作是有效动作,即存在部分动作所对应的源低轨卫星和目的低轨卫星组合与当前的源低轨卫星和目的低轨卫星组合不匹配。如在决策时刻τ,假定源信观站所连接的源低轨卫星为srcτ,目的信观站所连接的目的低轨卫星为dstτ,那么行动空间中只有SD=(srcτ,dstτ)所对应的k条路由路径是有效的动作,而其他的路由路径都是无效动作。如果不对这些无效动作进行处理,将极大的降低学习效率。为了能够从行动空间中提取出有效的动作、提高学习效率,本实施例设计了一个有效动作过滤器(ValidAction Filter,VAF),其能够根据当前时刻的源低轨卫星和目的低轨卫星组合,高效的将有效动作提取出来,将无效动作过滤掉。再结合如图3所给出的VAF的示意图,VAF通过掩码(Mask)的形式将无效动作的Q值设置为一个极大的负值,如设置为-e8,利用VAF过滤掉无效动作,并计算各个有效动作的概率,最后通过一个softmax函数输出选择各个动作的概率proba,并根据各个动作的概率以及探索率ε选择相应的动作作为路由决策。
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
本实施例中,深度强化学习模型计算了样本的状态-行动值(Q值)和目标Q值,通过状态-行动值(Q值)和目标Q值计算损失函数,然后依据损失函数计算梯度,最后通过梯度下降来更新Q估计网络的参数,每一个目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,通过多次迭代,直至模型收敛,更新完成。
综合上述技术方案,本实施例一的路由优化方法提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,达到提升低轨卫星网络的能量利用效率。
在一些可能实现的方案中,建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数的计算式为:其中,Γ是对丢失数据包的惩罚项,τ表示时间段,表示低轨卫星网络一个运行周期内总的决策次数,表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,表示通信时延,表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,ω1,ω2,ξ1,ξ2分别表示各项的权重系数。
本实施例中,假设低轨卫星网络运行周期为T,路由决策间隔为δroute,那么一个周期内总的决策次数为假设在次路由决策时,为源卫星到目的卫星选择了路径pτ。那么在时间段t∈(τ×δroute,(τ+1)×δroute)内,需要满足条件:
其次,在时间段(τ×δroute,(τ+1)×δroute)内,可以定义在低轨卫星网络中传输的丢包率为:
在一些可能实现的方案中,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
本实施例中,考虑从低轨卫星src向低轨卫星dst发送数据,不考虑地面端。低轨卫星网络的通信时延模型将从以下四个方面进行介绍:传播时延、传输时延、排队时延和路由查询时延。
(1)传播时延
在低轨卫星网络中,卫星间的距离比较远,是低轨卫星网络中数据包时延的决定因素之一。星间链路的传播时延主要与星间链路的长度(卫星间的距离)有关。从卫星u到卫星v的传播时延为:994
其中,lu,v表示星间链路(u,v)的长度,c表示光速。
(2)传输时延
传输时延是低轨卫星网络中数据包时延的另一个重要组成部分,传输时延的大小与传输速率和数据包的大小有关,将数据包f从卫星u发送到卫星v的传输时延计算公式为:
其中,Bu,v表示星间链路(u,v)的带宽,Ptx是发送功率,λ表示载波波长,表示噪声功率,其与噪声温度和带宽有关:kc是玻尔兹曼常数,其值为1.38×10- 23J/K,Tn表示噪声温度。Gtx和Grx分别表示发射天线增益和接收天线增益,它们分别可以表示为:
其中,D表示天线的直径,ηa表示接收器的天线效率。
(3)排队时延
排队时延通常容易被忽略,然而当网络负载比较重、内容请求比较多的时候,节点的等待队列比较拥塞,导致排队时延通常会比较大,采用FIFO(First In First Out)的队列模型,数据包在队列中的排队时延可以认为是排在其之前的数据包的传输时延之和,假设在低轨卫星u的队列中,排在数据包f之前的数据包个数为那么f在低轨卫星u上的排队时延为:
其中,vζ表示数据包ζ在低轨卫星u上查询路由表得到的下一跳低轨卫星节点。
(4)路由查询时延
当数据包到达等待队列的最前端时,在其发送之前,需要查询路由表以确认数据包是否已到达目的地或其转发的下一跳。路由查询也会导致一定的时延,在本文中,假设所有数据包的路由查询时间均相同,数据包f在低轨卫星u上查询路由所需要的时间为
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
首先,在低轨卫星网络中,空间链路损耗比较大,造成信号的衰减比较大,因此有一部分能量被用于放大信号来抵消部分衰减,从而提高数据被正确接收的概率。低轨卫星u的发送能耗和v的接收能耗可以分别表示为:
其次,当数据包缓存在卫星的等待队列中时,卫星会消耗一定的能量,此部分能耗与数据包的大小和其排队时延有关。假设每比特数据缓存在队列中时,每秒所消耗的能量为ρ,那么缓存能耗为:
然后,一部分能量被用来查询路由表,根据文献[26],卫星中路由查询所消耗的能量与通过的流量成线性关系。假设每比特数据查询路由表的平均能耗为φ,那么卫星u为数据包f查询路由表的能耗为:
最后,卫星用于其他方面的功率可以认为是一个常数,表示为P0。
基于上述能耗模型,数据包f从源低轨卫星src成功传输到目的低轨卫星dst所消耗的总能量可以表示为:
此外,以时间段(t,t+Δ(t))为例,假设在t时刻,卫星u的等待队列中有数据包个,卫星u在(t,t+Δ(t))内接收数据包个数为那么则表示(t,t+Δ(t))内可能经过卫星u的等待队列的数据包个数。因为本文考虑的等待队列为FIFO类型,所以可以将这个数据包按照进入等待队列的先后顺序依次编号为并定义它们进入卫星u中等待队列的时间为排队时延为则它们出等待队列的时间为那么在(t,t+Δ(t))内,第ζ个数据包fζ在卫星u的队列中的等待时间为:
其中,
用E0,Δ(t)=P0·Δ(t)表示卫星u在(t,t+Δ(t))内用于其他方面的能量,那么可以求得卫星u在时间段(t,t+Δ(t))内的总能耗为:
其中,nζ表示向低轨卫星u发送数据包ζ的低轨卫星,vζ表示从低轨卫星u接收数据包ζ的低轨卫星。
在一些可能实现的方案中,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:
获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
具体的,本实施例中,在低轨卫星网络模型的基础上,进一步考虑低轨卫星节点和星间链路的状态,可以将低轨卫星网络表示为其中表示卫星节点,ε表示星间链路,Xn表示低轨卫星节点的状态矩阵,Xe表示星间链路的状态矩阵。对于卫星节点,考虑了其电池电量、位置和拥塞程度等,因此卫星节点u的状态可以表示为其中表示电池电量,xu,yu,zu表示卫星位于笛卡尔坐标系中的三维坐标,lonu,latu表示卫星的星下点经纬度,表示卫星是否处在向阳面,conu表示卫星的队列拥塞程度。对于星间链路,考虑了其类型、长度和传输速率。因此第j条星间链路(u,v)的状态可以表示为其中表示星间链路的类型,可以是平面内链路或平面间链路的其中一种,lu,v和Ru,v分别表示星间链路的长度和传输速率。这样,可以将卫星网络建模成属性图其中 通常,一个GATE模型由个GATE层组成,每一层GATE网络可以分解为4个部分。假设第l层的输入中,节点的隐藏状态为边的隐藏状态为第l层的输出中,节点的隐藏状态为边的隐藏状态为并且,对于第一层有:和
先要经过映射将输入的节点和边的隐藏状态映射到另一空间,过程为:
得到节点和边的映射后的隐藏状态,采用掩模注意力(Masked Attention)机制来充分利用图的拓扑信息,即计算注意力系数时只计算节点的一阶邻居的重要性,并且采用一层的全连接网络来计算注意力系数:
其中,和表示节点u和v映射后的隐藏状态,表示边(u,v)映射后的隐藏状态,||表示拼接(Concatenation)操作,表示全连接网络的参数。为了比较邻居节点的相对重要性,利用softmax函数对注意力系数进行归一化,过程为:
根据节点和边的隐藏状态,可以得到消息函数:
得到了邻居节点的注意力系数和消息之后,可以聚合邻居的带权重消息,从而更新节点的隐藏状态:
其中,BN表示Batch Normalization,是进行批归一化的操作,σudt表示激活函数,此处用的是ELU激活函数。那么,即为第l层GATE网络输出的节点u的隐藏状态,同时作为第l+1层GATE网络的输入。经过层GATE网络之后,节点的隐藏状态为边的隐藏状态为
此外,为了使得计算出来的路由为全局最优,采用集中式的方式。利用了一个读出(Readout)模块来输出低轨卫星网络状态图级别(Graph-Level)的表征,其读出过程可利用如下公式完成。
在一些可能实现的方案中,所述奖励函数的计算式为:其中,表示在(τ×δroute,(τ+1)×δroute)时间段内到达目的地的数据包数量,δroute表示路由决策间隔,fζ表示第ζ个数据包,表示通信时延,表示低轨卫星网络的能量消耗,ζ表示源低轨卫星向目的低轨卫星所发送的数据包,c1和c2均表示范围在[0,1]的常数。
具体的,本实施例中,参见上述实施例中目标函数的计算式,根据目标函数的优化问题,得到奖励函数。
在一些实施方案中,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:
有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
具体的,如图3所示,对于贪婪算法:以ε的概率选择proba最大的动作作为路由决策aτ,以1-ε的概率随机从有效动作中选择一个动作作为路由决策,1-ε表示第一概率,ε表示第二概率。
在一些实施方案中,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:
从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
在一些实施方案中,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:
根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
具体的,本实施例中,将<sτ,aτ,rτ+1,sτ+1>存储到经验池中,从经验池中随机选择小批量(mini-batch)个样本进行训练,将状态sτ作为Q估计网络的输入,输出为状态sτ下采取路由决策aτ的Q值Q(sτ,aτ);将状态sτ+1作为Q估计网络的输入,输出为最大Q值对应的动作将sτ+1,作为Q目标网络的输入,输出Q值
D3QN的Q值可以按照下式计算:
目标Q值可以写为:
然后更新模型的参数:Q估计网络和Q目标网络的参数更新过程为:
Θ-←Θ,κ%Ξ=0
其中,η表示学习率,κ表示训练的步数,Ξ表示Q目标网络参数的更新步长。
实施例二
如图4所示,本申请实施例二在实施例一的基础上提供了一种低轨卫星网络能效感知路由优化系统,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
Q值计算模块,用于将所述低维特征和所述行动空间输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
本实施例二所提供的路由优化系统,提出了满足时延、丢包率等参数最小化的目标函数,建立依据低轨卫星网络的状态的图注意力神经网络模型,并依据目标函数设置了奖励函数,依据将图注意力神经网络模型所得的低维特征输入到D3QN网络中得到各个动作的Q值;利用有效动作过滤器将动作空间的无效动作对应的Q值设置为一个极大的负值实现对无效动作过滤,结合贪婪算法选择一个动作作为路由决策,依据状态空间的一个状态选择行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数,通过多次迭代,直至模型收敛后更新完成,利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径,依据最优路由路径来进行数据的传输,可使得单位能量所能传输的平均数据量得到增加,达到提升低轨卫星网络的能量利用效率。
在一些实施方案中,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
需要理解的的是,本实施例二提供的各个模块所实现的功能均已在实施例一各个方法步骤均中进行了说明,因此不再做多余的叙述。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种低轨卫星网络能效感知路由优化方法,其特征在于,包括:
建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
3.根据权利要求2所述的方法,其特征在于,所述通信时延包括传播时延、传输时延、排队时延和路由查询时延;
所述能量消耗包括数据发送能耗、数据接收能耗、数据缓存能耗、路由表查询能耗和其他能耗。
4.根据权利要求1所述的方法,其特征在于,获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征,具体为:
获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
根据节点和边的隐藏状态,计算节点和边的消息函数;
根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
利用读出函数分别读出更新后节点和边的状态表征;
将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
6.根据权利要求1述的方法,其特征在于,采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策,包括:
有效动作过滤器将无效动作的Q值设置为一个极大的负值,以此过滤掉无效动作,并计算各个有效动作的概率,以第一概率随机从有效动作中选择一个动作作为路由决策,以第二概率选择有效动作概率最大的动作作为路由决策。
7.根据权利要求1所述的方法,其特征在于,根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,具体为:
从经验池中选择小批量样本进行训练,将当前时刻状态作为Q估计网络的输入,输出为该状态下采取的路由决策的Q值,将下一时刻状态作为Q估计网络的输入,输出为Q估计网络的Q值达到最大时的动作,将该动作和下一时刻状态作为Q目标网络的输入,输出目标Q值。
8.根据权利要求1所述的方法,其特征在于,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径,具体为:
根据当前时刻Q值和目标Q值的差值计算损失函数,然后根据损失函数来计算梯度;
根据梯度下降来更新Q估计网络的参数,每一个Q目标网络的更新步长,把Q估计网络的参数传递给Q目标网络,并进行多次迭代训练,获得收敛后的深度强化学习模型。
9.一种低轨卫星网络能效感知路由优化系统,其特征在于,包括:
目标函数建立模块,用于建立使低轨卫星网络的能量消耗、通信时延和数据传输丢包率最小化的目标函数;
特征提取模块,用于获取所述低轨卫星网络的状态来得到低轨卫星网络的属性图,利用图注意力神经网络模型提取所述属性图的低维特征;
奖励函数构建模块,用于根据所述目标函数构建行动空间里动作的奖励函数,其中所述行动空间表示源低轨卫星到目的低轨卫星的候选路径;
Q值计算模块,用于将所述低维特征输入深度强化学习模型的Q估计网络中,计算所述行动空间中各个动作的Q值,其中动作包括无效动作和有效动作;
动作过滤模块,用于采用有效动作过滤器对无效动作进行过滤,依据贪婪算法从有效动作中选择一个动作作为路由决策;
网络训练模块,用于根据状态空间的状态选择所述行动空间的一个动作,环境执行动作后返还及时奖励和下一时刻状态,将状态、路由决策、奖励函数和下一时刻状态存储到经验池中,从经验池中选择小批量样本进行训练,得到Q值和目标Q值,依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并进行多次迭代至深度强化学习模型收敛,利用收敛后的深度强化学习模型来选择低轨卫星网络的最优路由路径。
10.根据权利要求9所述的系统,其特征在于,特征提取模块包括属性图模块、状态映射模块、第一计算模块、第二计算模块、状态更新模块、状态读出模块和拼接模块;
属性图模块,用于获取所述低轨卫星网络的状态,其中状态包括低轨卫星节点状态和星间链路状态,根据低轨卫星节点状态和星间链路状态建立低轨卫星网络的属性图;
状态映射模块,用于在所述图注意力神经网络模型的一个网络输入层中将输入的节点和边的隐藏状态映射到另一空间,获得节点和边映射后的隐藏状态,对于第一层,输入为属性图中节点和边的状态;
第一计算模块,用于采用掩模注意力机制计算邻居节点的注意力系数,并利用softmax函数对所述注意力系数进行归一化;
第二计算模块,用于根据节点和边的隐藏状态,计算节点和边的消息函数;
状态更新模块,用于根据所述注意力系数和消息函数聚合邻居节点的带权重消息,更新节点和边的隐藏状态;
状态读出模块,用于利用读出函数分别读出更新后节点和边的状态表征;
拼接模块,用于将节点和边的状态特征拼接在一起获得所述图数据的低维特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779907.7A CN115173923B (zh) | 2022-07-04 | 2022-07-04 | 一种低轨卫星网络能效感知路由优化方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779907.7A CN115173923B (zh) | 2022-07-04 | 2022-07-04 | 一种低轨卫星网络能效感知路由优化方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115173923A true CN115173923A (zh) | 2022-10-11 |
CN115173923B CN115173923B (zh) | 2023-07-04 |
Family
ID=83491723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210779907.7A Active CN115173923B (zh) | 2022-07-04 | 2022-07-04 | 一种低轨卫星网络能效感知路由优化方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115173923B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758704A (zh) * | 2022-11-10 | 2023-03-07 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
CN116388840A (zh) * | 2023-03-21 | 2023-07-04 | 广州爱浦路网络技术有限公司 | 用户终端的卫星与地面通信分流接入方法、装置和存储介质 |
CN117395188A (zh) * | 2023-12-07 | 2024-01-12 | 南京信息工程大学 | 一种基于深度强化学习的天地一体化负载均衡路由方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
WO2019063983A1 (en) * | 2017-09-26 | 2019-04-04 | Focal Point Positioning Limited | METHOD AND SYSTEM FOR CALIBRATING A SYSTEM PARAMETER |
US20200112362A1 (en) * | 2018-10-09 | 2020-04-09 | Hughes Network Systems, Llc | Bonding and redundancy for satellite transport paths |
CN110995858A (zh) * | 2019-12-17 | 2020-04-10 | 大连理工大学 | 一种基于深度q网络的边缘网络请求调度决策方法 |
CN111065145A (zh) * | 2020-01-13 | 2020-04-24 | 清华大学 | 一种面向水下多智能体的q学习蚁群路由方法 |
CN111245673A (zh) * | 2019-12-30 | 2020-06-05 | 浙江工商大学 | 一种基于图神经网络的sdn时延感知方法 |
CN111867104A (zh) * | 2020-07-15 | 2020-10-30 | 中国科学院上海微系统与信息技术研究所 | 一种低轨卫星下行链路的功率分配方法及功率分配装置 |
CN112019260A (zh) * | 2020-09-14 | 2020-12-01 | 西安交通大学 | 一种低轨异构卫星网络路由方法及系统 |
CN112543049A (zh) * | 2020-11-16 | 2021-03-23 | 北京科技大学 | 一种集成地面卫星网络的能效优化方法及装置 |
CN113099505A (zh) * | 2021-03-24 | 2021-07-09 | 西安交通大学 | 一种空天地一体化网络路由方法 |
CN113194034A (zh) * | 2021-04-22 | 2021-07-30 | 华中科技大学 | 基于图神经网络和深度强化学习的路由优化方法及系统 |
CN113222468A (zh) * | 2021-06-02 | 2021-08-06 | 中国电子科技集团公司第五十四研究所 | 一种基于深度强化学习的成像卫星资源调度方法 |
CN113518035A (zh) * | 2021-05-26 | 2021-10-19 | 香港中文大学(深圳) | 路由确定方法及装置 |
CN114362810A (zh) * | 2022-01-11 | 2022-04-15 | 重庆邮电大学 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
CN114374660A (zh) * | 2020-10-15 | 2022-04-19 | 中国移动通信集团浙江有限公司 | 5g消息聊天机器人的推荐方法、装置、设备及存储介质 |
CN114499629A (zh) * | 2021-12-24 | 2022-05-13 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
CN114513241A (zh) * | 2021-04-19 | 2022-05-17 | 南京航空航天大学 | 一种基于SDN的高性能QoS保证低轨卫星星间路由方法 |
-
2022
- 2022-07-04 CN CN202210779907.7A patent/CN115173923B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019063983A1 (en) * | 2017-09-26 | 2019-04-04 | Focal Point Positioning Limited | METHOD AND SYSTEM FOR CALIBRATING A SYSTEM PARAMETER |
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
US20200112362A1 (en) * | 2018-10-09 | 2020-04-09 | Hughes Network Systems, Llc | Bonding and redundancy for satellite transport paths |
CN110995858A (zh) * | 2019-12-17 | 2020-04-10 | 大连理工大学 | 一种基于深度q网络的边缘网络请求调度决策方法 |
CN111245673A (zh) * | 2019-12-30 | 2020-06-05 | 浙江工商大学 | 一种基于图神经网络的sdn时延感知方法 |
CN111065145A (zh) * | 2020-01-13 | 2020-04-24 | 清华大学 | 一种面向水下多智能体的q学习蚁群路由方法 |
CN111867104A (zh) * | 2020-07-15 | 2020-10-30 | 中国科学院上海微系统与信息技术研究所 | 一种低轨卫星下行链路的功率分配方法及功率分配装置 |
CN112019260A (zh) * | 2020-09-14 | 2020-12-01 | 西安交通大学 | 一种低轨异构卫星网络路由方法及系统 |
CN114374660A (zh) * | 2020-10-15 | 2022-04-19 | 中国移动通信集团浙江有限公司 | 5g消息聊天机器人的推荐方法、装置、设备及存储介质 |
CN112543049A (zh) * | 2020-11-16 | 2021-03-23 | 北京科技大学 | 一种集成地面卫星网络的能效优化方法及装置 |
CN113099505A (zh) * | 2021-03-24 | 2021-07-09 | 西安交通大学 | 一种空天地一体化网络路由方法 |
CN114513241A (zh) * | 2021-04-19 | 2022-05-17 | 南京航空航天大学 | 一种基于SDN的高性能QoS保证低轨卫星星间路由方法 |
CN113194034A (zh) * | 2021-04-22 | 2021-07-30 | 华中科技大学 | 基于图神经网络和深度强化学习的路由优化方法及系统 |
CN113518035A (zh) * | 2021-05-26 | 2021-10-19 | 香港中文大学(深圳) | 路由确定方法及装置 |
CN113222468A (zh) * | 2021-06-02 | 2021-08-06 | 中国电子科技集团公司第五十四研究所 | 一种基于深度强化学习的成像卫星资源调度方法 |
CN114499629A (zh) * | 2021-12-24 | 2022-05-13 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
CN114362810A (zh) * | 2022-01-11 | 2022-04-15 | 重庆邮电大学 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
Non-Patent Citations (4)
Title |
---|
HAO WANG等: "GRouting: Dynamic Routing for LEO Satellite Networks with Graph-based Deep Reinforcement Learning", 《2021 4TH INTERNATIONAL CONFERENCE ON HOT INFORMATION-CENTRIC NETWORKING》 * |
LINGQIANG XIE等: "Graph neural network approach for anomaly detection", 《MEASUREMENT》 * |
孟林勤: "基于神经网络的WSNs路由协议研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
韩结爱: "海洋增强型监测物联网组网方案研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758704A (zh) * | 2022-11-10 | 2023-03-07 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
CN116388840A (zh) * | 2023-03-21 | 2023-07-04 | 广州爱浦路网络技术有限公司 | 用户终端的卫星与地面通信分流接入方法、装置和存储介质 |
CN116388840B (zh) * | 2023-03-21 | 2023-10-03 | 广州爱浦路网络技术有限公司 | 用户终端的卫星与地面通信分流接入方法、装置和存储介质 |
CN117395188A (zh) * | 2023-12-07 | 2024-01-12 | 南京信息工程大学 | 一种基于深度强化学习的天地一体化负载均衡路由方法 |
CN117395188B (zh) * | 2023-12-07 | 2024-03-12 | 南京信息工程大学 | 一种基于深度强化学习的天地一体化负载均衡路由方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115173923B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115173923B (zh) | 一种低轨卫星网络能效感知路由优化方法和系统 | |
CN113572686B (zh) | 一种基于SDN的天地一体化自适应动态QoS路由方法 | |
CN108712760B (zh) | 基于随机自动学习机与模糊算法的高吞吐量中继选择方法 | |
CN110336751B (zh) | 基于隶属函数的低轨卫星网络路由策略 | |
Deng et al. | An Ant Colony Optimization‐Based Routing Algorithm for Load Balancing in LEO Satellite Networks | |
CN113727306B (zh) | 一种基于深度强化学习的解耦c-v2x网络切片方法 | |
CN114051254B (zh) | 一种基于星地融合网络的绿色云边协同计算卸载方法 | |
CN102299854B (zh) | 一种面向机会网络环境的多目标路由决策系统 | |
Wang et al. | Multi-hop deflection routing algorithm based on reinforcement learning for energy-harvesting nanonetworks | |
Mutombo et al. | EER‐RL: Energy‐Efficient Routing Based on Reinforcement Learning | |
CN103888976A (zh) | 一种联合网络调度和路由的链路选择方法 | |
CN115622603A (zh) | 一种辅助传输信息年龄最小化优化方法 | |
Zhao et al. | Adaptive multi-UAV trajectory planning leveraging digital twin technology for urban IIoT applications | |
Zhou et al. | Adaptive Routing Strategy Based on Improved Double Q‐Learning for Satellite Internet of Things | |
CN114531716A (zh) | 一种基于能耗和链路质量的路由选择方法 | |
Liu et al. | Load Balancing Routing Algorithm of Low‐Orbit Communication Satellite Network Traffic Based on Machine Learning | |
Zhang et al. | Noncooperative dynamic routing with bandwidth constraint in intermittently connected deep space information networks under scheduled contacts | |
Zhang et al. | Sac: A novel multi-hop routing policy in hybrid distributed iot system based on multi-agent reinforcement learning | |
CN115765826B (zh) | 一种面向按需服务的无人机网络拓扑重构方法 | |
CN112351400B (zh) | 一种基于改进强化学习的水下多模态网络路由策略生成方法 | |
Liu et al. | CLORP: Cross-Layer Opportunistic Routing Protocol for Underwater Sensor Networks Based on Multi-Agent Reinforcement Learning | |
Wang et al. | A routing strategy with energy optimisation based on community in mobile social networks | |
CN118250750B (zh) | 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法 | |
Prema et al. | Effective Routing Using Multi-Objective Levy flight-Artificial Rabbit Optimization Algorithm for Wireless Mesh Networks. | |
CN113316216B (zh) | 一种用于微纳卫星网络的路由方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |