CN115473561A - 基于协作q学习的分布式卫星网络智能负载均衡方法 - Google Patents

基于协作q学习的分布式卫星网络智能负载均衡方法 Download PDF

Info

Publication number
CN115473561A
CN115473561A CN202110654258.3A CN202110654258A CN115473561A CN 115473561 A CN115473561 A CN 115473561A CN 202110654258 A CN202110654258 A CN 202110654258A CN 115473561 A CN115473561 A CN 115473561A
Authority
CN
China
Prior art keywords
satellite
satellites
network
orbit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110654258.3A
Other languages
English (en)
Other versions
CN115473561B (zh
Inventor
姚海鹏
秦泽宇
赵玉桐
张尼
买天乐
吴云峰
韩庆敏
忻向军
韩宝磊
张琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
6th Research Institute of China Electronics Corp
Original Assignee
Beijing University of Posts and Telecommunications
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, 6th Research Institute of China Electronics Corp filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110654258.3A priority Critical patent/CN115473561B/zh
Publication of CN115473561A publication Critical patent/CN115473561A/zh
Application granted granted Critical
Publication of CN115473561B publication Critical patent/CN115473561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0983Quality of Service [QoS] parameters for optimizing bandwidth or throughput
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开一种基于协作Q学习的分布式卫星网络智能负载均衡方法,包括:所述方法将Co l l aQ强化学习算法应用于卫星通信,其数据传输过程为:1).地面将数据包发送到卫星,接收卫星将数据包缓存在队列中;2).卫星根据所提出的算法将数据包发送到相邻卫星;3).目的卫星将信息发送回地面上的目的地。每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为n。相邻轨道之间的经度差为360°/m,同一轨道中相邻卫星之间的经度差为180°/n。在本发明中Co l l aQ算法在处理环境中复杂的Agent拓扑时具有良好的收敛性,并且可以很好地应对系统规模的变化。Col laQ的性能要优于DDPG,并且网络中的最大链路利用率相对较小,这意味着它可以更有效地实现负载平衡。

Description

基于协作Q学习的分布式卫星网络智能负载均衡方法
技术领域
本发明涉及网络负载技术领域,尤其涉及一种基于协作Q学习的分布式卫星 网络智能负载均衡方法。
背景技术
近年来,如何有效地实现卫星通信是学术界的热门话题。Werner M提出了 DT-DVTR(离散时间动态虚拟拓扑路由),这是一种基于虚拟拓扑上卫星网络的路由 算法,这种算法使用Dijkstra计算选择最短的数据传输路径。Zhang等学者提 出了FSA策略,这种策略节省了沟通成本但增加了计算的复杂性,计算出的往往不 是最短路径原则。Jiang等人提出了一种基于Q学习的长期最优容量分配算法, Hu等人提出了一种深度学习下多智能体的强化学习方法,来实现卫星系统中最 优的带宽分配策略。
现有的各种卫星通信算法通常不能很好地应对环境变化,面对环境中的变动 难以确保通信质量。随着强化学习知识系统的发展,有很多算法比Q-Learning 更具优势,可能会给卫星通信带来更好的效果。所以我们创新性地把协同Q学习 (CollaQ)应用到卫星通信系统中,以帮助解决卫星通信中的负载均衡问题
发明内容
为解决上述背景问题,我们提供一种基于协作Q学习的分布式卫星网络智能 负载均衡方法。
一种基于协作Q学习的分布式卫星网络智能负载均衡方法,包括:所述方法 将CollaQ强化学习算法应用于卫星通信,其数据传输过程为:
1).地面将数据包发送到卫星,接收卫星将数据包缓存在队列中;
2).卫星根据所提出的算法将数据包发送到相邻卫星;
3).目的卫星将信息发送回地面上的目的地。
每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为 n。相邻轨道之间的经度差为360°/m,同一轨道中相邻卫星之间的经度差为180°/n。
LEO层中有N=m·n个卫星,而对应的(mi,ni)是每个卫星的坐标。
基于此,可以获得卫星拓扑矩阵,其中每个卫星索引对应i,而i属于[0, N-1]。
卫星系统可以用由m列和n行组成的矩形网络表示,相邻卫星形成邻居关 系。
优选地,每个卫星具有3或4个星际链路(ISL),它们存在于同一轨道中 或相邻轨道中的几颗相邻卫星之间;
ISL负责链路两端的卫星信息传输,支持双向传输,传输速率是强化学习的每 个步骤传送一个数据包。在链路上经过一定的延迟后,数据包可以到达另一端的 卫星。链路传输承载的上限是带宽,ISL的利用率是当前传输的数据包数除以带 宽。
优选地,在CollaQ的训练网络中,卫星会将当前网络中的重要信息反馈到 递归神经网络(RNN),卫星的动作空间是卫星可以发送数据包的方向,同时将 整个卫星网络中最大链路利用率的负值设置为奖励:
Action=[Direction]
Reward=[1-MLU],其中MLU代表整个卫星网络中最大的链路利用率;
在该算法中,每个代理的报酬不仅与相邻链路的最大利用率有关,而且与整个 网络的状况有关;将最大化目标函数定义为:
Figure BDA0003113177550000021
在上面的公式中,Vi表示特定卫星i的值函数,它由其他代理的状态确定, 我们称其为感知奖励并将其标记为ri。不同的ri产生不同的值函数、确定卫星的 不同动作。公式中的re是整个系统的报酬,此大小约束可防止V函数的值变为正 无穷大。
在本发明中CollaQ算法在处理环境中复杂的Agent拓扑时具有良好的收敛 性,并且可以很好地应对系统规模的变化。CollaQ的性能要优于DDPG,并且网 络中的最大链路利用率相对较小,这意味着它可以更有效地实现负载平衡。
附图说明
下面结合附图和具体实施方法对本发明做进一步详细的说明。
图1为本发明中基于协作Q学习的分布式卫星网络智能负载均衡方法的技术 方案的流程示意图;
图2为本发明中CollaQ算法中具体参数及重要参量传递示意图;
图3为本发明中数据传输示意图;
图4为本发明中卫星网络结构示意图;
图5为本发明中卫星拓扑矩阵示意图;
图6为CollaQ的Q值结构图;
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一 步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定 本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的 是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、 “内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系, 这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以 特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例提供一种基于协作Q学习的分布式卫星网络智能负载均衡方法,
我们使用计算机来模拟LEO卫星系统,并测试所提出算法的性能。首先介绍 仿真环境的设置,然后进行仿真实验,保存测试结果并进行分析。
用于仿真的硬件环境是连接了GPU的主机,CPU使用Intel(R)Core(TM) i7-8550UCPU@1.80GHZ1.99GHZ,硬盘容量为128G。训练使用的软件版本为 python3.6,tensorflow1.8.0。
请参阅图1所示在训练伊始,我们先初始化神经网络与卫星网络,此时网络中 没有数据包暂存在卫星或者链路上。在强化学习的训练中,我们习惯将一个回合 称为step,对应step的数值大小就是当前训练迭代累计的次数。
训练开始,我们将step首先标记为1,开始第一次训练——卫星开始从地 面接收数据包,并得知数据包总数目、目的地等信息。由此网络中卫星和链路上的 包数不再是零,每个有转发任务的卫星(即强化学习网络中的代理agent)会对 ①自身的缓存包情况②周边的环境(即东西南北方向上链路与卫星的状态)进行 观察,将观察结果一并输入到强化学习的网络中进行训练。
强化学习在一轮训练过后会返回适当的行为,即每个卫星下一步应当采取的 转发策略。而根据卫星网络中的状态我们也可以计算出奖励r(reward),优秀 的链路状态对应r值较高,网络状态恶化时r值就低,依据不同r值对应不同的 转发策略,强化学习网络慢慢就可以认识到“哪样的行为是较好的”,并开始规 避容易造成不良后果的决定。循环往复,强化学习网络的路由转发、通信能力不 断提升,直到到达预设的训练次数、进行数据的保存。
请参阅图2所示,图中涉及的计算与公式推导均在“具体方案”部分进行了详 尽地介绍,可以看到,传统意义上的强化学习的Q值被我们分两个支路获取,一 部分是基于代理(卫星)自身状态的Qalone,MARA正则项是用来实现让 Qcollab(alone)可以接近0的约束项,即在只有一个代理时MARA使Qcollab为0。Qalone的另一个小支路则是采用DQN训练方法,将卫星自身数据作为输入得到的Q值。 而Qcollab部分对应网络中其他卫星(往往是东南西北临近四个或三个)产生的Q 值,采用的训练方法是Attention网络。Qalone和Qcollab求代数和便是每个卫星对 应的真正Q值,之后便可以根据技术方案流程图中的步骤及说明进行训练的推 进,获得理想的卫星网络通信效果。
请参阅图3所示,本发明将整个数据传输过程分为三个部分:
首先,地面将数据包发送到卫星,接收卫星将数据包缓存在队列中。
其次,卫星根据所提出的算法将数据包发送到相邻卫星。
最后,目的卫星将信息发送回地面上的目的地。
请参阅图4所示,我们认为每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为n。因此,相邻轨道之间的经度差为360°/m,同一轨 道中相邻卫星之间的经度差为180°/n。
LEO层中有N=m·n个卫星,而对应的(mi,ni)是每个卫星的坐标。
基于此,可以获得卫星拓扑矩阵,其中每个卫星索引对应i,而i属于[0, N-1]。
因此,卫星系统可以用由m列和n行组成的矩形网络表示,相邻卫星形成 邻居关系。
请参阅图5所示,每个卫星具有3或4个星际链路(ISL),它们存在于同 一轨道中或相邻轨道中的几颗相邻卫星之间。
最北端和最南端的卫星分别在北部和南部没有相邻的卫星,而最西侧和最东 侧的两行是环形连接的,具体结构如图5所示。
ISL负责链路两端的卫星信息传输,支持双向传输,传输速率是强化学习的每 个步骤传送一个数据包。在链路上经过一定的延迟后,数据包可以到达另一端的 卫星。链路传输承载的上限是带宽,ISL的利用率是当前传输的数据包数除以带 宽。
如果链路上的流量分布非常不均匀,则卫星网络很容易发生各种类型的事 故。例如,当ISL转发的数据包数量超过带宽时,可能会发生数据包丢失。因此, 为了提高通信网络的可用性和灵活性,非常需要更均匀地分配卫星网络的链路负载。 鉴于上述问题,训练多个代理在卫星网络环境中同时协作非常重要。此外,我们 也希望算法具有较强的适应性,并且能够自动适应其他代理或环境的变化而无需重 新训练。
因此,在实施例中我们使用协作Q学习(CollaQ)搜索最佳的负载平衡策略。 在CollaQ的训练网络中,卫星会将当前网络中的重要信息反馈到递归神经网络 (RNN),例如卫星上缓冲的数据包队列,卫星的转发状态,链路的拥塞,数据 包的信息等。卫星的动作空间是卫星可以发送数据包的方向,同时将整个卫星网络 中最大链路利用率的负值设置为奖励:
Action=[Direction]
Reward=[1-MLU],其中MLU代表整个卫星网络中最大的链路利用率。
然后我们重点讨论算法的原理。在该算法中,每个代理的报酬不仅与相邻链路 的最大利用率有关,而且与整个网络的状况有关。将最大化目标函数定义为:
Figure BDA0003113177550000061
在上面的公式中,Vi表示特定卫星i的值函数,它由其他代理的状态确定, 我们称其为感知奖励并将其标记为ri。不同的ri产生不同的值函数、确定卫星的 不同动作。公式中的re是整个系统的报酬,此大小约束可防止V函数的值变为正 无穷大。
我们继续先前的假设,即由于感知奖励的差异,代理与其他代理合作。在此 假设下,代理无需关注其他代理的确切动作,而仅需根据奖励决定其下一个动作。结 果,我们借助感知奖励正式地分离了卫星的行为交互,并且根据感知奖励的差异决 定卫星的不同的动作。
因此,我们将系统优化的问题转化为寻求最优奖励ir*,以便代理可以更好地 进行协作。最优委派奖励
Figure BDA0003113177550000067
的计算非常复杂,但是我们可以找到满足等式的近似 值
Figure BDA0003113177550000062
满足如下等式:
Figure RE-GDA0003286801870000052
其中J指的是我们在等式中定义的最大化目标函数,C和D是与代理人、奖 励之间的距离有关的常数。此近似值
Figure BDA0003113177550000064
满足两个要求:首先,它的数值要接近 于实际感知的报酬。其次,它的具体取值仅与卫星i及其邻近卫星的参数状态有 关,与网络中其他的因素无关。由此,我们可以根据实际情况进行分布式训练并优 化系统。
然而,由于计算复杂度高,我们不直接计算“近似最优解”
Figure RE-GDA0003286801870000054
而是进一 步分解每个代理的Q函数。使用数学中泰勒展开的方法,我们得到以下公式:
Figure RE-GDA0003286801870000055
在分解公式中,我们可以观察到,第一项Qalone是当系统中仅存在代理i时 的Q值,相对应地,Qcollab是由代理i和系统中其他卫星之间的交互产生的Q值。 因此,代理的Q值可以用以下方式表示:
Figure BDA0003113177550000071
参阅图6,在具体操作中,根据以上的逻辑分析我们可以了解到,第一项的 计算仅需输入当前业务员i的参数状态。而对于第二项,我们人为添加进去一个 正则项,即多代理人奖励归因(MARA)损失,其值与相邻节点有关,当未观察到 邻近代理的行为状态时,将MARA的值设置为零。
基于MARA损失,我们的训练使用标准DQN方法,定义目标Q-value为 L=Es'~ε[r+γmaxa'Qi(o',a')|s,a]
因此,总体训练目标可以表述为:
Figure RE-GDA0003286801870000061
如上式所示,(y-Qi(oi,ai))2表示DQN目标,而
Figure RE-GDA0003286801870000062
表示 MARA目标。α决定MARA的数值对DQN的影响程度。另外,由于由于Qalone与代理 程序的数量规模无关,因此这部分的训练将比后者快。
因此,使用CollaQ,一个卫星将首先探索如何通过Qalone在没有其他代理的 情况下解决问题,然后逐步尝试通过Qcollab与他人合作,这种训练机制使得算法 更加灵活、适应性强。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是, 本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方 式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等 同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于协作Q学习的分布式卫星网络智能负载均衡方法,其特征在于,包括:所述方法将CollaQ强化学习算法应用于卫星通信,其数据传输过程为:
1).地面将数据包发送到卫星,接收卫星将数据包缓存在队列中;
2).卫星根据所提出的算法将数据包发送到相邻卫星;
3).目的卫星将信息发送回地面上的目的地。
每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为n。相邻轨道之间的经度差为360°/m,同一轨道中相邻卫星之间的经度差为180°/n。
LEO层中有N=m·n个卫星,而对应的(mi,ni)是每个卫星的坐标。
基于此,可以获得卫星拓扑矩阵,其中每个卫星索引对应i,而i属于[0,N-1]。
卫星系统可以用由m列和n行组成的矩形网络表示,相邻卫星形成邻居关系。
2.根据权利要求1所述的基于协作Q学习的分布式卫星网络智能负载均衡方法,其特征在于,每个卫星具有3或4个星际链路(ISL),它们存在于同一轨道中或相邻轨道中的几颗相邻卫星之间;
ISL负责链路两端的卫星信息传输,支持双向传输,传输速率是强化学习的每个步骤传送一个数据包。在链路上经过一定的延迟后,数据包可以到达另一端的卫星。链路传输承载的上限是带宽,ISL的利用率是当前传输的数据包数除以带宽。
3.根据权利要求1所述的基于协作Q学习的分布式卫星网络智能负载均衡方法,其特征在于,在CollaQ的训练网络中,卫星会将当前网络中的重要信息反馈到递归神经网络(RNN),卫星的动作空间是卫星可以发送数据包的方向,同时将整个卫星网络中最大链路利用率的负值设置为奖励:
Action=[Direction]
Reward=[1-MLU],其中MLU代表整个卫星网络中最大的链路利用率;
在该算法中,每个代理的报酬不仅与相邻链路的最大利用率有关,而且与整个网络的状况有关;将最大化目标函数定义为:
Figure FDA0003113177540000021
在上面的公式中,Vi表示特定卫星i的值函数,它由其他代理的状态确定,我们称其为感知奖励并将其标记为ri。不同的ri产生不同的值函数、确定卫星的不同动作。公式中的re是整个系统的报酬,此大小约束可防止V函数的值变为正无穷大。
CN202110654258.3A 2021-06-11 2021-06-11 基于协作q学习的分布式卫星网络智能负载均衡方法 Active CN115473561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654258.3A CN115473561B (zh) 2021-06-11 2021-06-11 基于协作q学习的分布式卫星网络智能负载均衡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654258.3A CN115473561B (zh) 2021-06-11 2021-06-11 基于协作q学习的分布式卫星网络智能负载均衡方法

Publications (2)

Publication Number Publication Date
CN115473561A true CN115473561A (zh) 2022-12-13
CN115473561B CN115473561B (zh) 2023-06-30

Family

ID=84364870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654258.3A Active CN115473561B (zh) 2021-06-11 2021-06-11 基于协作q学习的分布式卫星网络智能负载均衡方法

Country Status (1)

Country Link
CN (1) CN115473561B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130039264A1 (en) * 2011-02-07 2013-02-14 Telcordia Technologies, Inc. Distributed management of leo satellite networks with management agility and network efficiency
KR20140103797A (ko) * 2013-02-19 2014-08-27 숭실대학교산학협력단 자율적인 행동 학습(Q-Learning)을 이용한 협력 통신을 위한 릴레이 선택 장치 및 그 방법
CN106656302A (zh) * 2016-09-22 2017-05-10 南京理工大学 面向leo卫星网络的分布式节点自适应路由算法
US20190191334A1 (en) * 2017-12-15 2019-06-20 Gogo Llc Dynamic load balancing of satellite beams
CN110046800A (zh) * 2019-03-14 2019-07-23 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130039264A1 (en) * 2011-02-07 2013-02-14 Telcordia Technologies, Inc. Distributed management of leo satellite networks with management agility and network efficiency
KR20140103797A (ko) * 2013-02-19 2014-08-27 숭실대학교산학협력단 자율적인 행동 학습(Q-Learning)을 이용한 협력 통신을 위한 릴레이 선택 장치 및 그 방법
CN106656302A (zh) * 2016-09-22 2017-05-10 南京理工大学 面向leo卫星网络的分布式节点自适应路由算法
US20190191334A1 (en) * 2017-12-15 2019-06-20 Gogo Llc Dynamic load balancing of satellite beams
CN110046800A (zh) * 2019-03-14 2019-07-23 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
饶元;王汝传;邵星;: "非静止轨道IP卫星网负载平衡路由策略研究进展", 南京邮电大学学报(自然科学版), no. 03 *

Also Published As

Publication number Publication date
CN115473561B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Rischke et al. QR-SDN: Towards reinforcement learning states, actions, and rewards for direct flow routing in software-defined networks
Tang et al. Federated learning for intelligent transmission with space-air-ground integrated network toward 6G
WO2021036414A1 (zh) 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN114221691A (zh) 一种基于深度强化学习的软件定义空天地一体化网络路由优化方法
CN118250750B (zh) 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法
Qin et al. Traffic optimization in satellites communications: A multi-agent reinforcement learning approach
Cui et al. Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network
Wang et al. Priority-oriented trajectory planning for UAV-aided time-sensitive IoT networks
Islam et al. Software-defined network-based proactive routing strategy in smart power grids using graph neural network and reinforcement learning
CN114448899A (zh) 一种均衡数据中心网络负载的方法
He et al. Load-aware network resource orchestration in LEO satellite network: A GAT-based approach
Liu et al. Load balancing inside programmable data planes based on network modeling prediction using a GNN with network behaviors
Peyravi et al. Link modeling and delay analysis in networks with disruptive links
CN115473561A (zh) 基于协作q学习的分布式卫星网络智能负载均衡方法
CN116847425A (zh) 一种基于高维数据联合优化的多资源路由优化方法
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
CN114205300B (zh) 一种能够在流量信息不完整情况下保证coflow传输截止期限的流量调度方法
Wei et al. G-Routing: Graph Neural Networks-Based Flexible Online Routing
Zhao et al. Collaborate Q-learning aided load balance in satellites communications
Zhang et al. Energy Aware Space-Air-Ground Integrated Network Resource Orchestration Algorithm
Jin et al. Cyber-physical risk driven routing planning with deep reinforcement-learning in smart grid communication networks
Liu et al. A routing model based on multiple-user requirements and the optimal solution
Wu et al. Utility Maximization in Satellite Networks Using Onboard Caching
Perepelkin et al. Neural Network Multipath Routing in Software Defined Networks Based on Artificial Bee Colony Algorithm
Wigmore et al. Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant