CN115473561A - 基于协作q学习的分布式卫星网络智能负载均衡方法 - Google Patents
基于协作q学习的分布式卫星网络智能负载均衡方法 Download PDFInfo
- Publication number
- CN115473561A CN115473561A CN202110654258.3A CN202110654258A CN115473561A CN 115473561 A CN115473561 A CN 115473561A CN 202110654258 A CN202110654258 A CN 202110654258A CN 115473561 A CN115473561 A CN 115473561A
- Authority
- CN
- China
- Prior art keywords
- satellite
- satellites
- network
- orbit
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18519—Operations control, administration or maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0983—Quality of Service [QoS] parameters for optimizing bandwidth or throughput
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开一种基于协作Q学习的分布式卫星网络智能负载均衡方法,包括:所述方法将Co l l aQ强化学习算法应用于卫星通信,其数据传输过程为:1).地面将数据包发送到卫星,接收卫星将数据包缓存在队列中;2).卫星根据所提出的算法将数据包发送到相邻卫星;3).目的卫星将信息发送回地面上的目的地。每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为n。相邻轨道之间的经度差为360°/m,同一轨道中相邻卫星之间的经度差为180°/n。在本发明中Co l l aQ算法在处理环境中复杂的Agent拓扑时具有良好的收敛性,并且可以很好地应对系统规模的变化。Col laQ的性能要优于DDPG,并且网络中的最大链路利用率相对较小,这意味着它可以更有效地实现负载平衡。
Description
技术领域
本发明涉及网络负载技术领域,尤其涉及一种基于协作Q学习的分布式卫星 网络智能负载均衡方法。
背景技术
近年来,如何有效地实现卫星通信是学术界的热门话题。Werner M提出了 DT-DVTR(离散时间动态虚拟拓扑路由),这是一种基于虚拟拓扑上卫星网络的路由 算法,这种算法使用Dijkstra计算选择最短的数据传输路径。Zhang等学者提 出了FSA策略,这种策略节省了沟通成本但增加了计算的复杂性,计算出的往往不 是最短路径原则。Jiang等人提出了一种基于Q学习的长期最优容量分配算法, Hu等人提出了一种深度学习下多智能体的强化学习方法,来实现卫星系统中最 优的带宽分配策略。
现有的各种卫星通信算法通常不能很好地应对环境变化,面对环境中的变动 难以确保通信质量。随着强化学习知识系统的发展,有很多算法比Q-Learning 更具优势,可能会给卫星通信带来更好的效果。所以我们创新性地把协同Q学习 (CollaQ)应用到卫星通信系统中,以帮助解决卫星通信中的负载均衡问题
发明内容
为解决上述背景问题,我们提供一种基于协作Q学习的分布式卫星网络智能 负载均衡方法。
一种基于协作Q学习的分布式卫星网络智能负载均衡方法,包括:所述方法 将CollaQ强化学习算法应用于卫星通信,其数据传输过程为:
1).地面将数据包发送到卫星,接收卫星将数据包缓存在队列中;
2).卫星根据所提出的算法将数据包发送到相邻卫星;
3).目的卫星将信息发送回地面上的目的地。
每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为 n。相邻轨道之间的经度差为360°/m,同一轨道中相邻卫星之间的经度差为180°/n。
LEO层中有N=m·n个卫星,而对应的(mi,ni)是每个卫星的坐标。
基于此,可以获得卫星拓扑矩阵,其中每个卫星索引对应i,而i属于[0, N-1]。
卫星系统可以用由m列和n行组成的矩形网络表示,相邻卫星形成邻居关 系。
优选地,每个卫星具有3或4个星际链路(ISL),它们存在于同一轨道中 或相邻轨道中的几颗相邻卫星之间;
ISL负责链路两端的卫星信息传输,支持双向传输,传输速率是强化学习的每 个步骤传送一个数据包。在链路上经过一定的延迟后,数据包可以到达另一端的 卫星。链路传输承载的上限是带宽,ISL的利用率是当前传输的数据包数除以带 宽。
优选地,在CollaQ的训练网络中,卫星会将当前网络中的重要信息反馈到 递归神经网络(RNN),卫星的动作空间是卫星可以发送数据包的方向,同时将 整个卫星网络中最大链路利用率的负值设置为奖励:
Action=[Direction]
Reward=[1-MLU],其中MLU代表整个卫星网络中最大的链路利用率;
在该算法中,每个代理的报酬不仅与相邻链路的最大利用率有关,而且与整个 网络的状况有关;将最大化目标函数定义为:
在上面的公式中,Vi表示特定卫星i的值函数,它由其他代理的状态确定, 我们称其为感知奖励并将其标记为ri。不同的ri产生不同的值函数、确定卫星的 不同动作。公式中的re是整个系统的报酬,此大小约束可防止V函数的值变为正 无穷大。
在本发明中CollaQ算法在处理环境中复杂的Agent拓扑时具有良好的收敛 性,并且可以很好地应对系统规模的变化。CollaQ的性能要优于DDPG,并且网 络中的最大链路利用率相对较小,这意味着它可以更有效地实现负载平衡。
附图说明
下面结合附图和具体实施方法对本发明做进一步详细的说明。
图1为本发明中基于协作Q学习的分布式卫星网络智能负载均衡方法的技术 方案的流程示意图;
图2为本发明中CollaQ算法中具体参数及重要参量传递示意图;
图3为本发明中数据传输示意图;
图4为本发明中卫星网络结构示意图;
图5为本发明中卫星拓扑矩阵示意图;
图6为CollaQ的Q值结构图;
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一 步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定 本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的 是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、 “内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系, 这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以 特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例提供一种基于协作Q学习的分布式卫星网络智能负载均衡方法,
我们使用计算机来模拟LEO卫星系统,并测试所提出算法的性能。首先介绍 仿真环境的设置,然后进行仿真实验,保存测试结果并进行分析。
用于仿真的硬件环境是连接了GPU的主机,CPU使用Intel(R)Core(TM) i7-8550UCPU@1.80GHZ1.99GHZ,硬盘容量为128G。训练使用的软件版本为 python3.6,tensorflow1.8.0。
请参阅图1所示在训练伊始,我们先初始化神经网络与卫星网络,此时网络中 没有数据包暂存在卫星或者链路上。在强化学习的训练中,我们习惯将一个回合 称为step,对应step的数值大小就是当前训练迭代累计的次数。
训练开始,我们将step首先标记为1,开始第一次训练——卫星开始从地 面接收数据包,并得知数据包总数目、目的地等信息。由此网络中卫星和链路上的 包数不再是零,每个有转发任务的卫星(即强化学习网络中的代理agent)会对 ①自身的缓存包情况②周边的环境(即东西南北方向上链路与卫星的状态)进行 观察,将观察结果一并输入到强化学习的网络中进行训练。
强化学习在一轮训练过后会返回适当的行为,即每个卫星下一步应当采取的 转发策略。而根据卫星网络中的状态我们也可以计算出奖励r(reward),优秀 的链路状态对应r值较高,网络状态恶化时r值就低,依据不同r值对应不同的 转发策略,强化学习网络慢慢就可以认识到“哪样的行为是较好的”,并开始规 避容易造成不良后果的决定。循环往复,强化学习网络的路由转发、通信能力不 断提升,直到到达预设的训练次数、进行数据的保存。
请参阅图2所示,图中涉及的计算与公式推导均在“具体方案”部分进行了详 尽地介绍,可以看到,传统意义上的强化学习的Q值被我们分两个支路获取,一 部分是基于代理(卫星)自身状态的Qalone,MARA正则项是用来实现让 Qcollab(alone)可以接近0的约束项,即在只有一个代理时MARA使Qcollab为0。Qalone的另一个小支路则是采用DQN训练方法,将卫星自身数据作为输入得到的Q值。 而Qcollab部分对应网络中其他卫星(往往是东南西北临近四个或三个)产生的Q 值,采用的训练方法是Attention网络。Qalone和Qcollab求代数和便是每个卫星对 应的真正Q值,之后便可以根据技术方案流程图中的步骤及说明进行训练的推 进,获得理想的卫星网络通信效果。
请参阅图3所示,本发明将整个数据传输过程分为三个部分:
首先,地面将数据包发送到卫星,接收卫星将数据包缓存在队列中。
其次,卫星根据所提出的算法将数据包发送到相邻卫星。
最后,目的卫星将信息发送回地面上的目的地。
请参阅图4所示,我们认为每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为n。因此,相邻轨道之间的经度差为360°/m,同一轨 道中相邻卫星之间的经度差为180°/n。
LEO层中有N=m·n个卫星,而对应的(mi,ni)是每个卫星的坐标。
基于此,可以获得卫星拓扑矩阵,其中每个卫星索引对应i,而i属于[0, N-1]。
因此,卫星系统可以用由m列和n行组成的矩形网络表示,相邻卫星形成 邻居关系。
请参阅图5所示,每个卫星具有3或4个星际链路(ISL),它们存在于同 一轨道中或相邻轨道中的几颗相邻卫星之间。
最北端和最南端的卫星分别在北部和南部没有相邻的卫星,而最西侧和最东 侧的两行是环形连接的,具体结构如图5所示。
ISL负责链路两端的卫星信息传输,支持双向传输,传输速率是强化学习的每 个步骤传送一个数据包。在链路上经过一定的延迟后,数据包可以到达另一端的 卫星。链路传输承载的上限是带宽,ISL的利用率是当前传输的数据包数除以带 宽。
如果链路上的流量分布非常不均匀,则卫星网络很容易发生各种类型的事 故。例如,当ISL转发的数据包数量超过带宽时,可能会发生数据包丢失。因此, 为了提高通信网络的可用性和灵活性,非常需要更均匀地分配卫星网络的链路负载。 鉴于上述问题,训练多个代理在卫星网络环境中同时协作非常重要。此外,我们 也希望算法具有较强的适应性,并且能够自动适应其他代理或环境的变化而无需重 新训练。
因此,在实施例中我们使用协作Q学习(CollaQ)搜索最佳的负载平衡策略。 在CollaQ的训练网络中,卫星会将当前网络中的重要信息反馈到递归神经网络 (RNN),例如卫星上缓冲的数据包队列,卫星的转发状态,链路的拥塞,数据 包的信息等。卫星的动作空间是卫星可以发送数据包的方向,同时将整个卫星网络 中最大链路利用率的负值设置为奖励:
Action=[Direction]
Reward=[1-MLU],其中MLU代表整个卫星网络中最大的链路利用率。
在上面的公式中,Vi表示特定卫星i的值函数,它由其他代理的状态确定, 我们称其为感知奖励并将其标记为ri。不同的ri产生不同的值函数、确定卫星的 不同动作。公式中的re是整个系统的报酬,此大小约束可防止V函数的值变为正 无穷大。
我们继续先前的假设,即由于感知奖励的差异,代理与其他代理合作。在此 假设下,代理无需关注其他代理的确切动作,而仅需根据奖励决定其下一个动作。结 果,我们借助感知奖励正式地分离了卫星的行为交互,并且根据感知奖励的差异决 定卫星的不同的动作。
其中J指的是我们在等式中定义的最大化目标函数,C和D是与代理人、奖 励之间的距离有关的常数。此近似值满足两个要求:首先,它的数值要接近 于实际感知的报酬。其次,它的具体取值仅与卫星i及其邻近卫星的参数状态有 关,与网络中其他的因素无关。由此,我们可以根据实际情况进行分布式训练并优 化系统。
在分解公式中,我们可以观察到,第一项Qalone是当系统中仅存在代理i时 的Q值,相对应地,Qcollab是由代理i和系统中其他卫星之间的交互产生的Q值。 因此,代理的Q值可以用以下方式表示:
参阅图6,在具体操作中,根据以上的逻辑分析我们可以了解到,第一项的 计算仅需输入当前业务员i的参数状态。而对于第二项,我们人为添加进去一个 正则项,即多代理人奖励归因(MARA)损失,其值与相邻节点有关,当未观察到 邻近代理的行为状态时,将MARA的值设置为零。
基于MARA损失,我们的训练使用标准DQN方法,定义目标Q-value为 L=Es'~ε[r+γmaxa'Qi(o',a')|s,a]
因此,总体训练目标可以表述为:
如上式所示,(y-Qi(oi,ai))2表示DQN目标,而表示 MARA目标。α决定MARA的数值对DQN的影响程度。另外,由于由于Qalone与代理 程序的数量规模无关,因此这部分的训练将比后者快。
因此,使用CollaQ,一个卫星将首先探索如何通过Qalone在没有其他代理的 情况下解决问题,然后逐步尝试通过Qcollab与他人合作,这种训练机制使得算法 更加灵活、适应性强。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是, 本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方 式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等 同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于协作Q学习的分布式卫星网络智能负载均衡方法,其特征在于,包括:所述方法将CollaQ强化学习算法应用于卫星通信,其数据传输过程为:
1).地面将数据包发送到卫星,接收卫星将数据包缓存在队列中;
2).卫星根据所提出的算法将数据包发送到相邻卫星;
3).目的卫星将信息发送回地面上的目的地。
每个轨道上分布的卫星数相等,将轨道数定义为m,每个轨道中的卫星数为n。相邻轨道之间的经度差为360°/m,同一轨道中相邻卫星之间的经度差为180°/n。
LEO层中有N=m·n个卫星,而对应的(mi,ni)是每个卫星的坐标。
基于此,可以获得卫星拓扑矩阵,其中每个卫星索引对应i,而i属于[0,N-1]。
卫星系统可以用由m列和n行组成的矩形网络表示,相邻卫星形成邻居关系。
2.根据权利要求1所述的基于协作Q学习的分布式卫星网络智能负载均衡方法,其特征在于,每个卫星具有3或4个星际链路(ISL),它们存在于同一轨道中或相邻轨道中的几颗相邻卫星之间;
ISL负责链路两端的卫星信息传输,支持双向传输,传输速率是强化学习的每个步骤传送一个数据包。在链路上经过一定的延迟后,数据包可以到达另一端的卫星。链路传输承载的上限是带宽,ISL的利用率是当前传输的数据包数除以带宽。
3.根据权利要求1所述的基于协作Q学习的分布式卫星网络智能负载均衡方法,其特征在于,在CollaQ的训练网络中,卫星会将当前网络中的重要信息反馈到递归神经网络(RNN),卫星的动作空间是卫星可以发送数据包的方向,同时将整个卫星网络中最大链路利用率的负值设置为奖励:
Action=[Direction]
Reward=[1-MLU],其中MLU代表整个卫星网络中最大的链路利用率;
在该算法中,每个代理的报酬不仅与相邻链路的最大利用率有关,而且与整个网络的状况有关;将最大化目标函数定义为:
在上面的公式中,Vi表示特定卫星i的值函数,它由其他代理的状态确定,我们称其为感知奖励并将其标记为ri。不同的ri产生不同的值函数、确定卫星的不同动作。公式中的re是整个系统的报酬,此大小约束可防止V函数的值变为正无穷大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654258.3A CN115473561B (zh) | 2021-06-11 | 2021-06-11 | 基于协作q学习的分布式卫星网络智能负载均衡方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654258.3A CN115473561B (zh) | 2021-06-11 | 2021-06-11 | 基于协作q学习的分布式卫星网络智能负载均衡方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115473561A true CN115473561A (zh) | 2022-12-13 |
CN115473561B CN115473561B (zh) | 2023-06-30 |
Family
ID=84364870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110654258.3A Active CN115473561B (zh) | 2021-06-11 | 2021-06-11 | 基于协作q学习的分布式卫星网络智能负载均衡方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115473561B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130039264A1 (en) * | 2011-02-07 | 2013-02-14 | Telcordia Technologies, Inc. | Distributed management of leo satellite networks with management agility and network efficiency |
KR20140103797A (ko) * | 2013-02-19 | 2014-08-27 | 숭실대학교산학협력단 | 자율적인 행동 학습(Q-Learning)을 이용한 협력 통신을 위한 릴레이 선택 장치 및 그 방법 |
CN106656302A (zh) * | 2016-09-22 | 2017-05-10 | 南京理工大学 | 面向leo卫星网络的分布式节点自适应路由算法 |
US20190191334A1 (en) * | 2017-12-15 | 2019-06-20 | Gogo Llc | Dynamic load balancing of satellite beams |
CN110046800A (zh) * | 2019-03-14 | 2019-07-23 | 南京航空航天大学 | 面向空间目标协同观测的卫星集群构形调整规划方法 |
-
2021
- 2021-06-11 CN CN202110654258.3A patent/CN115473561B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130039264A1 (en) * | 2011-02-07 | 2013-02-14 | Telcordia Technologies, Inc. | Distributed management of leo satellite networks with management agility and network efficiency |
KR20140103797A (ko) * | 2013-02-19 | 2014-08-27 | 숭실대학교산학협력단 | 자율적인 행동 학습(Q-Learning)을 이용한 협력 통신을 위한 릴레이 선택 장치 및 그 방법 |
CN106656302A (zh) * | 2016-09-22 | 2017-05-10 | 南京理工大学 | 面向leo卫星网络的分布式节点自适应路由算法 |
US20190191334A1 (en) * | 2017-12-15 | 2019-06-20 | Gogo Llc | Dynamic load balancing of satellite beams |
CN110046800A (zh) * | 2019-03-14 | 2019-07-23 | 南京航空航天大学 | 面向空间目标协同观测的卫星集群构形调整规划方法 |
Non-Patent Citations (1)
Title |
---|
饶元;王汝传;邵星;: "非静止轨道IP卫星网负载平衡路由策略研究进展", 南京邮电大学学报(自然科学版), no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN115473561B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rischke et al. | QR-SDN: Towards reinforcement learning states, actions, and rewards for direct flow routing in software-defined networks | |
Tang et al. | Federated learning for intelligent transmission with space-air-ground integrated network toward 6G | |
WO2021036414A1 (zh) | 一种低轨移动卫星星座下星地下行链路同频干扰预测方法 | |
CN114221691A (zh) | 一种基于深度强化学习的软件定义空天地一体化网络路由优化方法 | |
CN118250750B (zh) | 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法 | |
Qin et al. | Traffic optimization in satellites communications: A multi-agent reinforcement learning approach | |
Cui et al. | Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network | |
Wang et al. | Priority-oriented trajectory planning for UAV-aided time-sensitive IoT networks | |
Islam et al. | Software-defined network-based proactive routing strategy in smart power grids using graph neural network and reinforcement learning | |
CN114448899A (zh) | 一种均衡数据中心网络负载的方法 | |
He et al. | Load-aware network resource orchestration in LEO satellite network: A GAT-based approach | |
Liu et al. | Load balancing inside programmable data planes based on network modeling prediction using a GNN with network behaviors | |
Peyravi et al. | Link modeling and delay analysis in networks with disruptive links | |
CN115473561A (zh) | 基于协作q学习的分布式卫星网络智能负载均衡方法 | |
CN116847425A (zh) | 一种基于高维数据联合优化的多资源路由优化方法 | |
CN115225512B (zh) | 基于节点负载预测的多域服务链主动重构机制 | |
CN114205300B (zh) | 一种能够在流量信息不完整情况下保证coflow传输截止期限的流量调度方法 | |
Wei et al. | G-Routing: Graph Neural Networks-Based Flexible Online Routing | |
Zhao et al. | Collaborate Q-learning aided load balance in satellites communications | |
Zhang et al. | Energy Aware Space-Air-Ground Integrated Network Resource Orchestration Algorithm | |
Jin et al. | Cyber-physical risk driven routing planning with deep reinforcement-learning in smart grid communication networks | |
Liu et al. | A routing model based on multiple-user requirements and the optimal solution | |
Wu et al. | Utility Maximization in Satellite Networks Using Onboard Caching | |
Perepelkin et al. | Neural Network Multipath Routing in Software Defined Networks Based on Artificial Bee Colony Algorithm | |
Wigmore et al. | Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |