CN116915313A

CN116915313A - 一种面向双层巨型星座的智能负载均衡方法及系统

Info

Publication number: CN116915313A
Application number: CN202310925701.5A
Authority: CN
Inventors: 张超; 罗树欣
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-20

Abstract

本发明公开了一种面向双层巨型星座的智能负载均衡方法及系统，生成双层巨型星座网络拓扑；建立双层巨型星座分簇管理机制；簇首定期收集簇内各节点信息及其余簇首信息；基于其余簇首信息，本簇簇首使用长短期记忆网络完成其余簇负载预测；构建多智能体深度强化学习负载均衡模型，完成状态空间、动作空间、奖励函数、观测空间映射；卫星星载智能体依据部分观测，完成路由决策；簇首定期收集簇内经验信息，完成多智能体强化学习中心式网络训练；簇首定期下发智能体网络至各卫星，各卫星完成在线路由决策策略更新，并依据此策略完成路由决策。本发明实现了双层低轨巨型星座的智能负载均衡。

Description

一种面向双层巨型星座的智能负载均衡方法及系统

技术领域

本发明属于无线通信技术领域，具体涉及一种面向双层巨型星座的智能负载均衡方法及系统。

背景技术

下一代通信系统6G(6-Generation)旨在提供全球覆盖的低延迟和大带宽服务，以实现空天地海高速互联。近地轨道卫星(Low earth orbit,LEO)星座以其覆盖广、时延低等特点成为未来网络的重要组成部分。随着卫星发射成本和卫星设备成本的降低，低轨巨型星座得到快速发展。低轨巨型星座最显著的特点是卫星数量众多，通常可达上万颗。以SpaceX公司的巨型星座StarLink为例，截至2023年2月，StarLink已部署3600多颗卫星，并计划最终部署42000多颗卫星。LEO卫星星座规模的扩大虽然提高了卫星网络的传输容量和扩大了通信覆盖范围，但是也给卫星网络的系统设计和管理带来了巨大的挑战，尤其是在负载均衡策略方面。

低轨巨型星座卫星网络由于卫星数量众多，传输任务的传输跳数较传统低轨卫星星座网络大幅增加，给低轨巨型星座卫星网络的路由规划提出巨大挑战。随着卫星数量的增加，传输任务的转发次数逐渐增加，导致路由决策的计算量迅速增加。路由决策的开销会消耗低轨巨型星座卫星网络的大量资源，包括用于路由路径计算的计算资源和用于传输数据包的传输资源。但巨型星座受限于设备尺寸限制，其计算资源和传输资源通常并不充分。同时，卫星网络拓扑的频繁变化也给卫星网络传输的路由计算带来了极大的挑战。另外，低轨巨型星座的卫星受限于设备资源以及过大的网络规模，无法完成全局路由计算。

深度强化学习(Deep reinforcement learning,DRL)被认为是通用人工智能(Artificial General Intelligence,AGI)的最佳解决方案之一，深度强化学习算法的智能体可以动态感知环境的变化信息，并通过与环境的互相交流获取学习经验。DRL一般使用深度神经网络(Deep neural network,DNN)完成值函数或策略函数的近似，可适应较大规模的环境及样本数据。DRL在游戏、自动驾驶、机器人控制等领域取得了巨大的成功。同时，DRL在无线通信领域也得到了广泛的运用，如动态智能路由路径选择。

多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)是深度强化学习的进一步研究，其主要解决复杂环境中深度强化学习的多个智能体间的协作问题，以获取全局的最大收益。在更复杂的环境中，各智能体往往无法感知环境的全局状态，只能观察其周围一定范围内的信息，因此无法做出最佳决策。MADRL通过协调每个智能体的决策策略来实现全局奖励的最大化，从而完成对每个智能体的协调。可以预见，MADRL在处理大规模复杂网络的决策任务上具有比较大的优势。

实际巨星座部署时，通常使用多个星座多层星座的组合，如StarLink卫星星座共使用了分布于4个轨道高度的5个卫星星座，国内的GW卫星星座共使用了分布于4个轨道高度的7个卫星星座，通过不同高度和不同倾角的星座组合实现更有效的全球覆盖及更好的通信性能。

双层卫星星座的使用为双层传输协助提供了可能，通过不同层之间的协助传输，避免某一卫星星座负载过高，进而实现卫星网络全局负载均衡。目前国内外研究尚未提出双层巨型星座的负载均衡算法，对双层星座路由算法的研究主要集中在双层MEO-LEO架构，上层MEO卫星负责其覆盖范围内LEO卫星路由表的计算及分发，并承担一部分任务传输分流，但这种路由算法无法应用于巨型星座。巨型星座设备简单，其计算资源无法承担MEO的巨量路由计算任务，其传输资源同样无法承担大容数据转发任务。其次，由于巨型星座规模巨大，全局拓扑信息收集过于困难，无法实现MEO基于全局拓扑的虚拟拓扑路由。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种面向双层巨型星座的智能负载均衡方法及系统，用于解决双层巨型星座路由规划的技术问题，针对双层巨型星座的特点完成巨型星座的智能负载均衡。

本发明采用以下技术方案：

一种面向双层巨型星座的智能负载均衡方法，包括以下步骤：

S1、建立双层巨型星座网络，获取双层巨型星座卫星网络拓扑；

S2、基于步骤S1得到的双层巨型星座卫星网络拓扑建立双层巨型星座分簇管理机制；

S3、依据步骤S2建立的双层巨型星座分簇管理机制建立簇负载预测机制；

S4、依据步骤S2建立的双层巨型星座分簇管理机制及步骤S3的簇负载预测机制，完成多智能体深度强化学习模型与双层巨型星座模型的映射，构建双层巨型星座多智能体深度强化学习负载均衡模型；

S5、依据步骤S4构建的双层巨型星座多智能体深度强化学习负载均衡模型，星载智能体对环境进行观测获取观测空间，依据观测空间完成传输任务下一跳卫星的选取，完成动作执行过程；

S6、基于步骤S2得到的双层巨型星座分簇管理机制和步骤S5得到的星载智能体动作执行过程，簇首定期完成簇内卫星经验值的收集；基于步骤S3的簇负载预测机制，当前簇首定期收集其余各簇负载信息，输入长短期记忆网络并获取预测后的其余各簇负载信息；

S7、基于步骤S4构建的双层巨型星座多智能体深度强化学习负载均衡模型以及步骤S6簇首所收集的簇内信息和预测后其余各簇负载信息，多智能体深度强化学习模型完成中心式训练；然后簇首下发训练后的星载智能体网络至簇内各卫星完成智能体网络更新，依据更新后的智能体网络完成在线动作决策。

具体的，步骤S1中，双层巨型星座卫星网络拓扑中，每层巨型星座的每颗卫星为拓扑节点，每层巨型星座的层内星间链路及层间星间链路作为拓扑边。

具体的，步骤S2中，双层巨型星座分簇管理机制具体为：

使用分层分簇管理，巨型星座各层进行分簇管理，簇内卫星数量相等；分簇内包括簇首及簇成员，簇首完成簇内成员的管理；

簇首负责簇内成员路由决策的下发及信息的收集，簇成员负责执行簇首路由决策并定期上传其经验值；

上下层簇首之间存在层间星间链路，部署于各簇的簇首，定期交换信息，以完成层间簇管理。

具体的，步骤S3中，簇负载预测机制具体为：

当前簇首完成其余簇负载信息收集，并使用部署于簇首的长短期记忆网络完成双层巨型星座网络各簇负载信息预测。

具体的，步骤S4中，双层巨型星座多智能体深度强化学习负载均衡模型包括中心式网络和智能体网络；

中心式网络部署于簇首，负责定期收集簇内信息及簇间负载信息，完成智能体网络的训练，并下发训练后的智能体网络至簇内各卫星；

智能体网络部署于其余簇成员，星载智能体网络依据传输任务所确定的观测空间，由智能体网络进行下一跳传输动作的选取。

进一步的，中心式网络具体为：

中心式网络的输入为各智能体的奖励值r，状态空间s为簇内各负载信息及预测后的其余簇负载信息，使用经部署于簇首的长短期记忆网络完成其余簇当前负载信息的预测；

中心式网络依据输入及状态空间完成前向执行后，依据全局奖励值完成网络的反向传播更新，并定期传输更新后的智能体网络至簇内成员。

进一步的，智能体网络具体为：

观测空间o为当前卫星节点的传输任务及簇内卫星负载信息；

动作空间a为传输任务的下一跳传输方向，包括层内的两条轨内星间链路和两条轨间星间链路及一条由簇首连接至另一层的层间星间链路；

奖励函数r由至目标卫星的距离及各层负载信息确定。

更进一步的，观测空间为：

o(t)＝{l_t,l_i,p_s,o_s,p_d,o_d,b_u,b_d,b_l,b_r}

其中，l_t为传输任务的目前所在层特征编号，l_i为传输任务的目标卫星所在层特征编号；p_i为当前任务卫星节点的轨道编号，o_i为当前任务卫星节点在轨道上的卫星编号，b_i为其相邻四颗卫星的负载信息；

动作空间为：

a(t)＝{layer,l,r,u,d}

其中，layer为层间传输，l,r为本层卫星星座轨道间传输方向，u,d为本层卫星星座轨道内传输方向；

奖励函数为：

其中，diff为当前传输任务至目标卫星的距离，MaxHop为传输任务初始距离，B_u和B_d为两层卫星网络的各自网络负载，rp为奖励函数的惩罚因子。

具体的，步骤S5中，星载智能体的传输任务下一跳选择除当前层内四条固定星间链路外，或使用层间星间链路进行传输；层间星间链路部署于簇首，当前卫星需先完成传输任务至簇首的传输。

第二方面，本发明实施例提供了一种面向双层巨型星座的智能负载均衡系统，包括：

网络模块，用于建立双层巨型星座网络，获取双层巨型星座卫星网络拓扑；

管理模块，用于基于网络模块得到的双层巨型星座卫星网络拓扑建立双层巨型星座分簇管理机制；

预测模块，用于依据管理模块建立的双层巨型星座分簇管理机制建立簇负载预测机制；

构建模块，用于依据管理模块建立的双层巨型星座分簇管理机制及预测模块的簇负载预测机制，完成多智能体深度强化学习模型与双层巨型星座模型的映射，构建双层巨型星座多智能体深度强化学习负载均衡模型；

选取模块，用于依据构建模块构建的双层巨型星座多智能体深度强化学习负载均衡模型，星载智能体对环境进行观测获取观测空间，依据观测空间完成传输任务下一跳卫星的选取，完成动作执行过程；

收集模块，用于基于管理模块得到的双层巨型星座分簇管理机制和选取模块得到的星载智能体动作执行过程，簇首定期完成簇内卫星经验值的收集；基于预测模块的簇负载预测机制，当前簇首定期收集其余各簇负载信息，输入长短期记忆网络并获取预测后的其余各簇负载信息；

输出模块，用于基于构建模块构建的双层巨型星座多智能体深度强化学习负载均衡模型以及收集模块，簇首所收集的簇内信息和预测后其余各簇负载信息，多智能体深度强化学习模型完成中心式训练；然后簇首下发训练后的星载智能体网络至簇内各卫星完成智能体网络更新，依据更新后的智能体网络完成在线动作决策。

与现有技术相比，本发明至少具有以下有益效果：

一种面向双层巨型星座的智能负载均衡方法，采用了多智能体深度强化学习完成了层间负载均衡，实现了传输任务延迟最小化；使用了中心式训练分布式执行的网络管理策略，有效降低了星载智能体计算量，降低了网络额外开销；建立了巨型网络分簇分簇管理机制，完成了双层巨型星座的分簇分布式管理，有效降低了网络管理开销；提出了簇负载预测机制，使用长短期记忆网络完成了簇负载信息预测，有效提升了巨型星座网络传输成功率。

进一步的，双层巨型星座卫星网络拓扑中，每颗卫星为拓扑节点，星间链路为拓扑边；两条轨内星间链路不随时间变化；两条轨间星间链路随时间由卫星相对运动发生变化；层间星间链路仅部署于簇首，有效降低了网络拓扑的复杂程度且可以有效完成层间及层内的信息传输。

进一步的，巨型星座分层分簇管理模型使用分层分布式管理，且每个簇内的卫星数量相同，有效降低了由网络管理带来的额外开销；簇首仅负责簇内卫星的管理，网络管理开销由网络尺度降维至分簇尺度，网络管理开销得到有效降低。

进一步的，簇首定期交换簇负载信息，网络信息的洪泛由网络尺度降维至簇首数量尺度，有效降低网络信息收集开销；部署于簇首的长短期记忆网络完成其余簇首信息的预测，为中心式网络提供了更为有效的环境信息，进一步提高了巨型星座网络的传输成功率。

进一步的，中心式网络部署于簇首可有效完成簇内各智能体的协同，依据中心式网络，指导簇内各星载智能体的决策策略，进而完成簇内及层间传输任务的协同，进而完成负载均衡降低传输任务的延迟；星载智能体仅需观测周围很小的空间并据此完成动作决策，有效降低智能体网络执行开销，延长双层巨型星座网络的工作寿命。

进一步的，中心式网络使用由长短期记忆网络进行预测后的各簇负载信息完成中心式网络的训练及更新，经过预测后的各簇负载信息解除了时间尺度上的干扰，可提供更为有效的环境信息，有效提升了智能体网络的决策准确程度，有效降低传输任务的延迟。

进一步的，智能体网络的奖励函数由传输任务延迟及层间负载共同确定。奖励函数中引入非线性函数。当前卫星与传输任务目标卫星的距离较远时，即远小于传输任务初始距离MaxHop时，奖励值变化缓慢变化，智能体可以探索各种协作可能性。当传输任务离目标卫星较近时，奖励值快速变化，保证数据包尽快到达，避免对当前簇内其它传输任务造成干扰。最后，为保证层间负载均衡，奖励函数中引入两层网络负载B_u和B_d的比值，以避免传输任务被单一分流至某一层网络，造成单层网络负载过高。另外，当下一跳的传输方向远离目标卫星时，奖励值定义为惩罚因子rp，避免传输任务的回退。

进一步的，使用层间星间链路传输时，需首先传输至当前簇的簇首。星间链路仅部署于簇首卫星，有效降低了双层巨型星座网络的设备部署成本，提高了双层巨型星座网络的经济效益。

可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

综上所述，本发明通过对双层巨型星座的分层分簇式管理，有效降低了双层巨型星座网络管理开销，并提供了层间传输链路；通过层间传输，完成了层间流量负载均衡，负载较高的卫星星座可动态分流至另一层卫星星座进行数据任务传输，双层卫星星座负载均衡算法在保证负载较低的层的投递成功率的前提下，通过任务分流，可充分提升网络整体的传输任务投递成功率；LSTM负载预测机制的引入充分提取了负载信息的时间特征，使簇首进行中心训练时获取的环境信息更为可靠，提升了协作传输的性能，提高了传输任务的投递成功率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明双层巨型星座卫星网络结构图；

图2为本发明双层巨型星座卫星网络拓扑图；

图3为本发明多智能体深度强化学习架构示意图；

图4为本发明基于多智能体深度强化学习的巨型星座智能负载均衡流程图。

图5为上层星座网络规模为6*6，下层星座规模为12*12时的巨型星座网络传输任务传输成功率对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种面向双层巨型星座的智能负载均衡方法，生成双层巨型星座网络拓扑；建立双层巨型星座分簇管理机制；簇首定期收集簇内各节点信息及其余簇首信息；基于其余簇首信息，本簇簇首使用长短期记忆网络完成其余簇负载预测；构建多智能体深度强化学习负载均衡模型，完成状态空间、动作空间、奖励函数、观测空间映射；卫星星载智能体依据部分观测，完成路由决策；簇首定期收集簇内经验信息，完成多智能体强化学习中心式网络训练；簇首定期下发智能体网络至各卫星，各卫星完成在线路由决策策略更新，并依据此策略完成路由决策。研究对象为双层巨型星座低轨卫星网络，针对双层低轨巨型星座卫星网络运行过程中的局部拥塞问题及层间负载不均衡问题，实现双层低轨巨型星座的分布式负载均衡策略。

请参阅图4，本发明一种面向双层巨型星座的智能负载均衡方法，包括以下步骤：

S1、建立双层巨型星座网络，获取双层巨型星座网络拓扑；

请参阅图1，本发明使用倾斜轨道低轨巨型星座模型，对每一层卫星星座，每颗卫星视为通信节点，使用四条固定星间链路及层间星间链路完成通信。对两层巨型星座网络，使用部署于簇首的层间星间链路建立通信链路。

请参阅图2，双层巨型星座卫星网络拓扑中，每层巨型星座的每颗卫星为拓扑节点，每层巨型星座的层内星间链路及层间星间链路作为拓扑边。

由于上下层卫星的相对运动，考虑使用相同倾角的上下层巨型星座，降低天线追踪难度。值得注意的是，本发明的使用场景可推广至不同倾角的双层巨型星座，只需定期完成巨型星座轨道外推。

S2、基于双层巨型星座网络拓扑，建立双层巨型星座分簇管理机制，簇首负责簇内卫星管理，完成双层巨型星座分布式管理；

请参阅图2，双层巨型星座分簇管理机制使用分层分簇管理。对每一层巨型星座，巨型星座各层进行分簇管理，簇内卫星数量相等，以保证巨型星座管理开销最小化。每一个分簇中，组成单元包括簇首及簇成员，由簇首完成簇内成员的管理。簇首负责簇内成员路由决策的下发及信息的收集，下发内容为智能体网络参数值，信息收集内容包括簇内各成员强化学习经验值及负载信息。簇成员负责定期更新簇首下发的智能体网络，执行本地在线路由决策并定期上传其经验值至簇首。

上下层簇首之间存在层间星间链路，部署于各簇的簇首。各簇簇首依据层间星间链路定期交换信息，以完成层间簇管理。

S3、建立簇负载预测机制，依据步骤S2建立的双层巨型星座分簇管理机制，当前簇首完成其余簇负载信息收集，并使用长短期记忆网络完成双层巨型星座网络各簇负载信息预测；

各簇簇首定期收集簇内成员负载信息，由本簇簇首定期与其余簇首交换信息，以完成全局负载信息收集。部署于簇首的长短期记忆网络负责依据其所收集的全局负载信息，完成全局负载信息预测。

长短期记忆网络的训练由过期前值与当前真实值数据完成，首先于地面网络完成预训练过程，簇首只需定期完成训练更新。

S4、构建双层巨型星座多智能体深度强化学习负载均衡模型，依据步骤S2建立的双层巨型星座分簇管理机制及步骤S3的簇负载预测机制，完成多智能体深度强化学习模型与双层巨型星座模型的映射；

多智能体深度强化学习模型由中心式网络和智能体网络组成，多智能体深度强化学习模型的具体结构请参阅图3。中心式网络由参数生成网络和混合网络组成，依据环境状态完成分簇内智能体的协同；智能体网络由两层感知器和一层门控循环单元，依据环境观测完成智能体在线动作决策。中心式网络部署于簇首，负责定期收集簇内信息及簇间负载信息，完成智能体网络的训练，并下发训练后的智能体网络至簇内各卫星；智能体网络部署于其余簇成员，星载智能体网络依据传输任务所确定的观测空间，由智能体网络进行下一跳传输动作的选取。

构建智能体网络具体为：

完成智能体网络观测空间、奖励函数、动作空间与实际问题的映射。观测空间o为当前卫星节点的传输任务及簇内卫星负载信息；动作空间a为传输任务的下一跳传输方向，包括层内的两条轨内星间链路和两条轨间星间链路及一条由簇首连接至另一层的层间星间链路；奖励函数r由至目标卫星的距离及各层负载信息确定。

观测空间为：

o(t)＝{l_t,l_i,p_s,o_s,p_d,o_d,b_u,b_d,b_l,b_r}

其中，l_t为传输任务的目前所在层特征编号，l_i为传输任务的目标卫星所在层特征编号；p_i为当前任务卫星节点的轨道编号，o_i为当前任务卫星节点在轨道上的卫星编号，b_i为其相邻四颗卫星的负载信息。卫星使用部署于星上的智能体依据其观测空间做出动作决策，选取下一跳的传输卫星。

动作空间为：

a(t)＝{layer,l,r,u,d}

动作空间共两类四种选择。其中layer为层间传输，l,r为本层卫星星座轨道间传输方向，u,d为本层卫星星座轨道内传输方向。智能体动作决策为层间传输时，传输任务需先固定传输至本簇簇首，此时传输目标临时变更为本簇簇首，而后由本簇簇首使用与另一层卫星星座对应的簇首间的层间星间链路完成层间传输。

奖励函数为：

其由延迟和负载两部分信息决定。

构建中心式网络具体为：

完成中心式网络的输入及状态空间的映射，中心式网络的输入为各智能体的奖励值r，状态空间s为簇内各负载信息及预测后的其余簇负载信息，使用经部署于簇首的长短期记忆网络完成其余簇当前负载信息的预测；中心式网络依据输入及状态空间完成前向执行后，依据全局奖励值完成网络的反向传播更新，并定期传输更新后的智能体网络至簇内成员。

状态空间定义：

s(t)＝{b₁,b₂,...,b_i,C₁,C₂,...,C_i}

包括两部分，首先为簇内各卫星的负载信息，簇首依据簇内各卫星负载信息完成负载均衡策略建立；其次为另一层卫星星座的负载信息，此负载信息决定使用层间传输的传输任务的性能。

星载智能体的传输任务下一跳选择除当前层内四条固定星间链路外，还可以使用层间星间链路进行传输。层间星间链路仅部署于簇首，当前卫星需先完成传输任务至簇首的传输。

星载智能体获取状态空间并输入至智能体网络，智能体网络完成前向计算后获取将要执行的动作，卫星依据智能体网络的动作选择完成下一跳传输卫星的选取，并传输数据至所选取的目标卫星节点。

S6、基于步骤S2的分布式分簇管理结构和步骤S5的星载智能体动作执行过程，簇首定期完成簇内卫星经验值的收集；基于步骤S3的簇负载预测机制，当前簇首定期收集其余各簇负载信息，输入长短期记忆网络并获取预测后的其余各簇负载信息；

簇首仅在特定时间完成簇内信息收集，以降低网络管理的开销。

长短期记忆网络的预训练由地面网络完成，而后部署至簇首，簇首仅在特定时间完成更新，以降低星上资源消耗。

S7、基于步骤S4构建的双层巨型星座多智能体深度强化学习负载均衡模型以及步骤S6簇首所收集的簇内信息和预测后其余各簇负载信息，多智能体深度强化学习模型完成中心式训练；基于完成的中心式训练，簇首下发训练后的星载智能体网络至簇内各卫星，簇内各卫星据此完成智能体网络更新，并依据更新后的智能体网络完成在线动作决策。

本发明再一个实施例中，提供一种面向双层巨型星座的智能负载均衡系统，该系统能够用于实现上述面向双层巨型星座的智能负载均衡方法，具体的，该面向双层巨型星座的智能负载均衡系统包括网络模块、管理模块、预测模块、构建模块、选取模块、收集模块以及输出模块。

其中，网络模块，用于建立双层巨型星座网络，获取双层巨型星座卫星网络拓扑；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于面向双层巨型星座的智能负载均衡方法的操作，包括：

建立双层巨型星座网络，获取双层巨型星座卫星网络拓扑；基于双层巨型星座卫星网络拓扑建立双层巨型星座分簇管理机制；依据双层巨型星座分簇管理机制建立簇负载预测机制；依据双层巨型星座分簇管理机制及簇负载预测机制，完成多智能体深度强化学习模型与双层巨型星座模型的映射，构建双层巨型星座多智能体深度强化学习负载均衡模型；依据双层巨型星座多智能体深度强化学习负载均衡模型，星载智能体对环境进行观测获取观测空间，依据观测空间完成传输任务下一跳卫星的选取，完成动作执行过程；基于双层巨型星座分簇管理机制和星载智能体动作执行过程，簇首定期完成簇内卫星经验值的收集；基于簇负载预测机制，当前簇首定期收集其余各簇负载信息，输入长短期记忆网络并获取预测后的其余各簇负载信息；基于双层巨型星座多智能体深度强化学习负载均衡模型以及簇首所收集的簇内信息和预测后其余各簇负载信息，多智能体深度强化学习模型完成中心式训练；然后簇首下发训练后的星载智能体网络至簇内各卫星完成智能体网络更新，依据更新后的智能体网络完成在线动作决策。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关面向双层巨型星座的智能负载均衡方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图5，给出了上层星座网络规模为6×6，下层星座规模为12×12时的双层巨型星座网络传输任务传输成功率对比图。基于多智能体深度强化学习的巨型星座智能负载均衡方法相较于单层巨型星座负载均衡的投递成功概率有20％以上的提升。

综上所述，本发明一种面向双层巨型星座的智能负载均衡方法及系统，具有以下特点：

(1)采用了多智能体深度强化学习模型完成了双层巨型卫星网络的智能负载均衡，使用了分布式分簇管理策略，通过协同簇内智能体行为及层间传输任务，完成智能负载均衡。

(2)使用中心式训练分布式执行策略，针对巨型星座设备资源受限特点仅在某些卫星部署中心式网络，降低网络负载。

(3)使用长短期记忆网络完成全局负载信息预测，解除了网络负载信息的时间干扰，提供更有效的环境负载信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等，需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向双层巨型星座的智能负载均衡方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向双层巨型星座的智能负载均衡方法，其特征在于，步骤S1中，双层巨型星座卫星网络拓扑中，每层巨型星座的每颗卫星为拓扑节点，每层巨型星座的层内星间链路及层间星间链路作为拓扑边。

3.根据权利要求1所述的面向双层巨型星座的智能负载均衡方法，其特征在于，步骤S2中，双层巨型星座分簇管理机制具体为：

4.根据权利要求1所述的面向双层巨型星座的智能负载均衡方法，其特征在于，步骤S3中，簇负载预测机制具体为：

5.根据权利要求1所述的面向双层巨型星座的智能负载均衡方法，其特征在于，步骤S4中，双层巨型星座多智能体深度强化学习负载均衡模型包括中心式网络和智能体网络；

6.根据权利要求5所述的面向双层巨型星座的智能负载均衡方法，其特征在于，中心式网络具体为：

7.根据权利要求5所述的面向双层巨型星座的智能负载均衡方法，其特征在于，智能体网络具体为：

观测空间o为当前卫星节点的传输任务及簇内卫星负载信息；

奖励函数r由至目标卫星的距离及各层负载信息确定。

8.根据权利要求7所述的面向双层巨型星座的智能负载均衡方法，其特征在于，观测空间为：

o(t)＝{l_t,l_i,p_s,o_s,p_d,o_d,b_u,b_d,b_l,b_r}

动作空间为：

a(t)＝{layer,l,r,u,d}

奖励函数为：

9.根据权利要求1所述的面向双层巨型星座的智能负载均衡方法，其特征在于，步骤S5中，星载智能体的传输任务下一跳选择除当前层内四条固定星间链路外，或使用层间星间链路进行传输；层间星间链路部署于簇首，当前卫星需先完成传输任务至簇首的传输。

10.一种面向双层巨型星座的智能负载均衡系统，其特征在于，包括：