CN115297508A

CN115297508A - 一种巨型星座卫星网络路由负载均衡方法及系统

Info

Publication number: CN115297508A
Application number: CN202210783945.XA
Authority: CN
Inventors: 张超; 罗树欣
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-11-04

Abstract

本发明公开了一种巨型星座卫星网络路由负载均衡方法及系统，生成巨型星座卫星网络拓扑；收集巨型星座分簇的簇内信息；基于簇内信息，使用自动编码器进行簇负载压缩；构建多智能体深度强化学习模型；卫星节点星上的智能体依据当前观测空间做出下一跳决策，生成经验并传输至簇首；各簇首定期将各时刻各卫星节点的经验值及压缩后的状态向量发送至地面管控中心；地面管控中心依据各簇首发送的经验数据及状态向量，完成多智能体深度强化学习训练，定期更新Eval‑Net；地面管控中心下发深度递归Q网络参数至所有卫星节点，卫星节点智能体完成策略更新，实现巨型星座卫星网络路由负载均衡。本发明实现了低轨巨型星座的分布式路由决策及拥塞避免策略。

Description

一种巨型星座卫星网络路由负载均衡方法及系统

技术领域

本发明属于无线通信技术领域，具体涉及一种巨型星座卫星网络路由负载均衡方法及系统。

背景技术

随着低成本小卫星平台和先进卫星通信设备的进步，巨型星座网络近年来得到了极大的发展。巨型星座网络在近地轨道(LEO)上放置数万颗卫星，可以为地面用户提供低延迟的宽带通信和全球覆盖，并成为地面网络的重要补充。一些企业已经开始了巨型星座网络的计划，如Starlink、OneWeb和Kuiper。

虽然已经有许多针对低轨道卫星网络的路由算法被提出，但这些路由算法应用于巨型星座时，由于巨型星座的卫星规模问题，效率往往非常低下。传统路由算法如基于Dijkstra的路由算法进行路径计算时，需要集中式的拓扑信息收集，这在巨型星座中往往难以实现。传统的基于泛洪的路由协议会引起较大的信令开销，特别是在巨型星座中。利用网络拓扑的可预测性和规律性的分布式巨型星座路由算法能够尽可能地减轻链路或节点故障的影响，局部绕行机制可以避免较大的信令开销，但由于缺乏全局拓扑信息，会给数据包带来额外的延迟以及拥塞。因此，低轨举行星座卫星网络路由问题必须考虑分布式路由机制以及拥塞避免，以降低数据包传输延迟及拥塞概率。

强化学习(Reinforcement Learning，RL)是从动物学习、自适应控制等理论发展而来，强调智能体(Agent)在与环境的交互过程中获得经验以做出最优策略选择。强化学习在学习的过程中不依赖于完整的环境模型，对环境具有一定的理解能力，能够自动逼近最优策略。智能体根据环境分析当前所处的状态，以及以前时刻所获得的采取每个动作的奖励函数，依据最大奖励的原则选择动作，而后智能体根据环境反馈信息计算出当前动作的奖励值，并加以存储，完成一个学习周期。强化学习的学习过程就是在最大化奖励的前提下，完成对状态空间和动作的映射。

为实现全局奖励最大化，多智能体深度强化学习被提出，一组智能体通过协调他们的动作策略以完成全局的奖励最大化。多智能体强化学习通常在模拟环境中以集中方式训练智能体，在这些环境中联合智能体可以获得全局状态信息。多智能体深度强化学习引入了混合网络，该网络将智能体的联合行为的值估计为一个复杂的非线性组合，每个个体的奖励值只取决于局部环境的观察。同时在结构上强制每个智能体的联合行动值是单调的，保证了集中式训练和分布式执行时策略的一致性。

多智能体深度强化学习可以完成一组智能体之间的策略协同以实现全局奖励值的最大化，将其应用于巨型星座路由问题中，可以解决巨型星座路由的局部观测问题以及实现各卫星之间的协同工作，以降低数据包的传输时延和拥塞概率。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种巨型星座卫星网络路由负载均衡方法及系统，解决低轨巨型星座卫星网络运行过程中的负载均衡问题，实现低轨巨型星座的分布式路由决策及拥塞避免策略。

本发明采用以下技术方案：

一种巨型星座卫星网络路由负载均衡方法，包括以下步骤：

S1、建立巨型星座卫星网络，生成巨型星座卫星网络的拓扑；

S2、建立巨型星座分簇机制，收集巨型星座分簇的簇内信息；

S3、建立簇状态压缩机制，基于步骤S2收集的簇内信息，使用自动编码器进行簇负载压缩得到特征向量，使用特征向量表述簇内各卫星节点的负载信息；

S4、依据步骤S1建立的巨型星座卫星网络拓扑及步骤S3的状态压缩机制，构建多智能体深度强化学习模型；

S5、卫星节点定期发送Hello报文至邻居节点，判断与邻居节点是否建立链接；

S6、基于步骤S5获取的与邻居节点的连接信息，利用步骤S4构建的多智能体深度强化学习模型中卫星节点星上的智能体依据当前观测空间做出下一跳决策，生成经验并传输至簇首；

S7、各簇首定期收集步骤S6由各卫星生成的经验值及负载信息，依据步骤S3的簇状态压缩机制完成状态压缩，将各时刻各卫星节点的经验值及压缩后的状态特征向量发送至地面管控中心；

S8、地面管控中心依据步骤S7中各簇首发送的经验数据及状态向量，完成多智能体深度强化学习训练，定期完成Eval-Net的更新；

S9、当步骤S8更新Eval-Net完成后，地面管控中心下发深度递归Q网络参数至所有卫星节点，卫星节点智能体完成策略更新，各卫星智能体依据新下发参数完成路由决策。

具体的，步骤S1中，巨型星座卫星网络拓扑中，每颗卫星为拓扑节点，星间链路为拓扑边；轨内星间链路不随时间变化；轨间星间链路随卫星运动变化。

具体的，步骤S2中，巨型星座分簇的簇内信息使用均衡分簇，包括簇首与簇成员，簇首负责簇内各卫星节点信息的收集，包括星上数据包传输任务状态、卫星剩余能量；分簇机制中，簇首之间互相交换信息完成信息收集以及路由策略下发，簇内各成员与簇首进行信息传输获取最新路由策略；各簇首收集簇内信息后回传至管控中心，完成多智能体深度强化学习模型的训练；各簇定期完成簇首的重新选取，簇首重新选取机制由当前簇首负责收集簇内各簇成员的剩余能量信息，完成簇首选举计算，选取各卫星节点剩余工作时间最大的卫星节点作为新簇首，下发信息至所有簇内成员，完成簇首更新。

进一步的，各卫星节点剩余工作时间T(i)如下：

其中，E_r(i)为各卫星节点剩余能量，E_av(i)为簇内卫星节点平均剩余能量，

为当前节点至其余卫星节点的跳数，a_i为调和系数。

具体的，步骤S3中，自动编码器使用多层压缩，各层之间使用全连接层连接，最后经激活函数得到输出向量；自动编码器训练时，输入为簇负载向量，经全连接层及激活函数得到压缩向量，而后进行解压缩；解压缩使用的神经网络与自动编码器完全对称，得到解码向量，依据解码向量及原输入向量获取损失函数，进行反向传播并修正权重和偏置；执行时只进行编码。

具体的，步骤S4中，多智能体深度强化学习模型包括智能体网络和混合网络，智能体网络由深度递归Q网络组成，深度递归Q网络置于星上智能体，完成实时路由决策；混合网络为超网络，负责各智能体之间的协同，混合网络置于地面站，完成中心式训练后下发至各卫星节点，实现各卫星节点传输策略的协同。

进一步的，构建智能体网络具体为：

完成智能体网络各参数与实际问题的映射，包括观测空间o、动作a、奖励r；观测空间o为当前卫星节点的传输任务；动作a为任务的下一跳传输方向，包括前、后、左、右，对应当前卫星节点的四条星间链路；执行时，输入层为观测空间o，依次经过全连接层、门控循环单元、激活函数后生成输出动作a，并生成奖励函数r，并转到下一状态o_next。

进一步的，构建混合网络具体为：

完成混合网络的输入及状态空间的映射，混合网络的输入为各智能体的奖励值r，状态空间s为全局状态信息，状态信息映射为网络负载信息，使用自动编码器完成簇内各卫星节点负载压缩；网络执行后，得到综合输出和代价函数，依据代价函数，进行反向传播并修正Target-Net的深度递归Q网络以及超网络的权重和偏置；Eval-Net负责实时路由决策，Target-Net负责参数更新，定期更新网络参数至Eval-Net。

具体的，步骤S5中，当无法收到邻居节点Hello报文，断开相应链路。

第二方面，本发明实施例提供了一种巨型星座卫星网络路由负载均衡系统，包括：

拓扑生成模块，建立巨型星座卫星网络，生成巨型星座卫星网络的拓扑；

分簇机制模块，建立巨型星座分簇机制，收集巨型星座分簇的簇内信息；

状态压缩模块，建立簇状态压缩机制，基于分簇机制模块收集的簇内信息，使用自动编码器进行簇负载压缩，使用特征向量表述簇内各卫星节点的负载信息；

模型构建模块，依据拓扑生成模块建立的巨型星座卫星网络拓扑及压缩状态模块的状态压缩机制，构建多智能体深度强化学习模型；

链路判断模块，卫星节点定期发送Hello报文至邻居节点，判断与邻居节点是否建立链接；

路由决策模块，基于链路判断模块获取的与邻居节点的连接信息，利用模型构建模块构建的多智能体深度强化学习模型中卫星节点星上的智能体依据当前观测空间做出下一跳决策，生成经验并传输至簇首；

经验发送模块，各簇首定期收集路由决策模块由各卫星生成的经验值及负载信息，依据模型构建模块的簇状态压缩机制完成状态压缩，将各时刻各卫星节点的经验值及压缩后的状态向量发送至地面管控中心；

网络训练模块，地面管控中心依据发送模块中各簇首发送的经验数据及状态向量，完成多智能体深度强化学习训练，定期完成Eval-Net的更新；

网络执行模块，当训练模块更新Eval-Net完成后，地面管控中心下发深度递归Q网络参数至所有卫星节点，卫星节点智能体完成策略更新，各卫星智能体依据新下发参数完成路由决策。

与现有技术相比，本发明至少具有以下有益效果：

一种巨型星座卫星网络路由负载均衡方法，采用了多智能体深度强化学习完成了各卫星路由决策过程的均衡，实现了全局传输延迟最低化；使用了中心式训练分布式执行的路由策略，有效降低了星上设备的计算量，延长了网络工作寿命；建立了巨型网络分簇机制，完成网络信息收集，避免了洪泛机制造成的网络额外开销；提出了簇状态压缩机制，通过降低数据维度提升网络训练速度及计算开销。

进一步的，巨型星座卫星网络拓扑中，每颗卫星为拓扑节点，星间链路为拓扑边；轨内星间链路不随时间变化；轨间星间链路随卫星运动变化，网络拓扑结构得到简化。

进一步的，分簇机制中簇首互相交换信息及路由决策下发避免了洪泛机制带来的网络额外开销，有效延长网络寿命；簇首定期重新选举可避免单一簇首造成的单颗卫星能量消耗过度问题，有效延长卫星工作时间。请根据权利要求3的内容补充说明巨型星座分簇的簇内信息使用均衡分簇，包括簇首与簇成员，簇首负责簇内各卫星节点信息的收集，包括星上数据包传输任务状态、卫星剩余能量；分簇机制中，簇首之间互相交换信息完成信息收集以及路由策略下发，簇内各成员与簇首进行信息传输获取最新路由策略；各簇首收集簇内信息后回传至管控中心，完成多智能体深度强化学习模型的训练；各簇定期完成簇首的重新选取，簇首重新选取机制由当前簇首负责收集簇内各簇成员的剩余能量信息，完成簇首选举计算，选取各卫星节点剩余工作时间最大的卫星节点作为新簇首，下发信息至所有簇内成员，完成簇首更新设置的目的或好处，给出原理分析说明。

进一步的，簇首选举机制综合簇内卫星剩余能量以及至簇内各卫星的跳数进行簇头选取，有效完成簇内卫星能量消耗均衡，延长卫星寿命。

进一步的，簇状态压缩机制完成簇内负载信息压缩，降低负载信息维度，进而降低超网络输入参数维度，有效降低了网络训练的开销。

进一步的，采用分布式执行集中式训练方式，星上智能体只部署深度递归Q网络完成实时路由决策，地面管控中心完成深度递归Q网络及混合网络的训练，有效降低星上开销。

进一步的，星上智能体依据传输任务及周围链路信息完成实时路由决策，保证路由过程的实时性。

进一步的，建立Target-Net，训练时只对其进行参数更新，并定期传递参数只Eval-Net，避免网络陷入局部最优。

进一步的，卫星网络使用hello报文机制动态维护至周围卫星的链路，保证了传输任务下一跳的有效性。

可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

综上所述，本发明有效地降低了网络拥塞及端到端传输时延；中心式训练分布式执行的路由策略，有效降低了星上设备的计算量，延长了网络工作寿命；卫星网络分簇机制完成网络信息收集，避免了洪泛机制造成的网络额外开销；簇状态压缩机制通过降低数据维度提升网络训练速度及计算开销。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明巨型星座卫星网络结构图；

图2为本发明巨型星座卫星网络拓扑图；

图3为本发明多智能体深度强化学习架构示意图；

图4为本发明基于多智能体深度强化学习模型的路由策略流程图；

图5为星座规模分别为6*6，12*12及24*24时的各路由方式的投递成功概率对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种巨型星座卫星网络路由负载均衡方法，研究对象为巨型星座低轨卫星网络，针对低轨巨型星座卫星网络运行过程中的负载均衡问题，实现低轨巨型星座的分布式路由决策及拥塞避免策略，通过生成walker-delta星座，建立卫星网络拓扑；卫星分簇生成，并完成簇首选举；多智能体深度强化学习模型建立，完成状态空间、观测空间及动作空间的映射；星上智能体依据观测信息完成实时路由决策，生成经验值；簇首定期收集卫星经验值及负载信息，完成负载信息压缩并传输至地面管控中心；地面管控中心依据簇首收集的经验值完成多智能体深度强化学习模型训练，定期完成Eval-Net网络更新，并下发传输策略至各卫星；各卫星依据下发策略完成路由决策。

卫星节点视为智能体，依据任务状态完成空间观测，并实时做出路由决策进行数据包转发。通过巨型星座分簇完成网络状态信息的收集并集中至地面管控中心进行训练，地面管控中心完成训练后下发最新传输策略至各卫星，各卫星节点智能体仅负责执行，降低了星上处理复杂度。通过各卫星之间的协同，完成了传输任务的拥塞避免并降低了传输时延。

请参阅图4，本发明一种巨型星座卫星网络路由负载均衡方法，包括以下步骤：

请参阅图1，本发明的应用场景考虑规则的walker-delta星座，每颗卫星视为一个通信节点；针对巨型星座卫星设备特性，每颗卫星仅与周围四颗相邻卫星建立星间链路，即两条轨道内部的轨内星间链路和两条轨间星间链路。

请参阅图2，每颗卫星视为拓扑节点，星间链路视为拓扑边。

轨内星间链路不随时间变化，可永久存在。

轨间星间链路随卫星运动而逐渐变化，需要进行天线追踪，且有时因链路质量过差轨间星间链路会适时关闭以节约能量。

巨型星座分簇使用均衡分簇，即各簇内卫星数量相等时可显著降低分簇开销。

巨型星座分簇包括簇首与簇成员，簇首负责簇内各卫星节点信息的收集，包括星上数据包传输任务状态、卫星剩余能量。分簇机制中，簇首之间需要互相交换信息完成信息收集以及路由策略下发，簇内各成员需要与簇首进行信息传输获取最新路由策略，二者均会引起额外开销。

各簇首收集簇内信息后回传至管控中心，完成多智能体深度强化学习模型的训练。

各簇定期完成簇首的重新选取避免对同一设备的过度占用，延长网络工作寿命。

簇首重新选取机制由当前簇首负责收集簇内各簇成员的剩余能量信息，完成簇首选举计算。

重新选举时使用更新公式：

其中，T(i)为各卫星节点剩余工作时间，E_r(i)为各卫星节点剩余能量，E_av(i)为簇内卫星节点平均剩余能量，

为当前节点至其余卫星节点的跳数，a_i为调和系数。

选取T(i)最大的卫星节点作为新簇首，下发信息至所有簇内成员，完成簇首更新。

S3、簇负载压缩；

使用各卫星负载信息作为状态信息时状态空间过大，使用自动编码器进行簇负载压缩，即使用特征向量表述簇内各卫星节点的负载信息。

自动编码器使用多层压缩，各层之间使用全连接层连接，最后经激活函数得到输出向量，一般簇规模比较小时可使用两层神经网络进行数据压缩。

自动编码器训练时，输入为簇负载向量，经全连接层及激活函数得到压缩向量，而后进行解压缩。解压缩为压缩的逆过程，使用的神经网络与自动编码器完全对称，得到解码向量。依据解码向量及原输入向量获取损失函数，进行反向传播并修正权重和偏置。

执行时只进行编码，不进行解码及训练操作，降低执行时的计算复杂度。

S4、建立多智能体深度强化学习模型

依据步骤S1建立的卫星网络拓扑及步骤S3的状态压缩机制，构建多智能体深度强化学习模型。

请参阅图3，多智能体深度强化学习模型分为智能体网络以及混合网络。智能体网络由深度递归Q网络组成，完成每个智能体的动作决策。混合网络为超网络，负责各智能体之间的协同，实现全局奖励函数最大化，深度递归Q网络置于星上智能体，完成实时路由决策。混合网络则置于地面站，完成中心式训练后下发至各卫星节点，实现各卫星节点传输策略的协同。

智能体网络建立过程如下：

首先，完成智能体网络各参数与实际问题的映射，包括观测空间o、动作a、奖励r。

观测空间o为当前卫星节点的传输任务，o(t)＝{p_s，o_s，p_d，o_d}。其中p_s为当前任务的源卫星节点轨道编号，o_s为当前任务的源卫星节点轨内卫星编号。p_d为当前任务的目标卫星节点轨道编号，o_d为当前任务的目标卫星节点轨内卫星编号。

动作a为任务的下一跳传输方向，包括前、后、左、右，对应当前卫星节点的四条星间链路。

奖励函数r包括传输距离以及剩余能量两部分，定义为：

r＝ω₁diff+ω₂E_c

其中，diff与当前动作选择被执行后当前卫星节点至目标节点的跳数相关。当前卫星节点与目标节点距离较远时，diff在各方向上差异较小，避免了最短路下唯一路径传输的拥塞问题。如当前节点的下一跳传输方向远离目标节点，则置为惩罚值-rp。E_c为下一跳卫星节点的剩余能量，ω₁和ω₂为超参数，负责传输延迟及卫星网络可运行时间之间的权衡。

执行时，输入层为观测空间o，依次经过全连接层、门控循环单元、激活函数后生成输出动作a，并生成奖励函数r，并转到下一状态o_next。

混合网络的建立过程如下：

首先，完成混合网络的输入及状态空间的映射。

混合网络的输入为各智能体的奖励值r。

状态空间s为全局状态信息，为完成巨型星座卫星网络负载均衡，状态信息映射为网络负载信息。使用自动编码器完成簇内各卫星节点负载压缩，以降低状态空间维度。

网络执行后，得到综合输出y^tot如下：

代价函数为：

依据代价函数，进行反向传播并修正Target-Net的深度递归Q网络以及超网络的权重和偏置。

Eval-Net负责实时路由决策，Target-Net则负责参数更新，定期更新网络参数至Eval-Net，避免实时更新时引起的相关性过高及过拟合问题。

S5、卫星节点定期发送Hello报文至邻居节点，判断与邻居节点是否建立链接，如无法收到邻居节点Hello报文，则断开相应链路，不考虑此链路为下一跳选择；

S6、卫星节点星上智能体依据当前观测空间o(t)＝{p_s，o_s，p_d，o_d}，做出下一跳决策，生成经验e(t)＝{o(t)，a(t)，r(t)}，并传输至簇首；

S7、各簇首定期汇总簇内卫星节点经验e(t)，依据步骤S4的自动编码器完成状态压缩，将各时刻各卫星节点的经验值及压缩后的状态向量发送至地面管控中心；

簇首在收集簇内经验e(t)并进行状态压缩时会造成额外的开销，这部分开销主要由分簇类型及分簇大小决定。均衡分簇时额外开销最低，但分簇大小同时影响簇内信息收集负载及多智能体模型的训练开销。分簇越大，簇内信息收集开销高但模型训练开销较低，实际分簇大小可由网络设备能量及地面设备资源综合权衡。

S8、地面管控中心依据簇首发送的经验数据及状态向量，完成多智能体深度强化学习训练，定期完成Eval-Net的更新；

S9、地面管控中心下发深度递归Q网络参数至所有卫星节点，卫星节点智能体完成策略更新，并依据下发策略完成路由决策。

本发明再一个实施例中，提供一种巨型星座卫星网络路由负载均衡系统，该系统能够用于实现上述巨型星座卫星网络路由负载均衡方法，具体的，该巨型星座卫星网络路由负载均衡系统包括拓扑生成模块、分簇机制模块、状态压缩模块、模型构建模块、链路判断模块、路由决策模块、经验发送模块、网络训练模块以及网络执行模块。

其中，拓扑生成模块，建立巨型星座卫星网络，生成巨型星座卫星网络的拓扑；

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图5，给出了星座规模分别为6*6，12*12及24*24时的各路由方式的投递成功概率对比。基于多智能体深度强化学习的负载均衡方法相较于单智能体升读强化学习方式的投递成功概率均有50％以上的提升。随着星座规模的扩大，基于编号的直接路由已无法完成数据传输，大部分数据均发生拥塞。基于多智能体深度强化学习的路由负载均衡模型完成了各卫星传输策略的协同，有效提升了网络传输任务投递成功概率。

本发明在卫星网络实际运行时，各卫星节点获取观测空间o(t)＝{p_s，o_s，p_d，o_d}，实时进行路由决策。数据包传输至下一跳后与当前卫星节点无关，继续获取观测空间并作实时路由决策，直至到达目标节点。簇首收集经验值并传输至地面管控中心进行网络训练，以完成对卫星网络环境动态变化的适应。因此，本发明基于多智能体深度强化学习的巨型星座路由策略为一动态且智能化的路径规划方法。

综上所述，本发明一种巨型星座卫星网络路由负载均衡方法及系统，具有以下特点：

(1)采用了多智能体深度强化学习模型完成了巨型卫星网络的分布式路由决策及负载均衡，解决了巨型星座路由策略的集中式管理带来的开销巨大问题，同时实现了各卫星节点之间的协同降低了传输任务的拥塞概率，降低了数据包的传输时延。

(2)集中式训练和分布式执行的策略，充分利用了计算资源较为丰富的地面管控中心进行训练，并考虑了巨型星座卫星网络星上资源较为有限的特点，星上设备只负责执行，占用资源较少。

(3)多智能体深度强化学习模型对环境的适应能力较强，当空间链路变化较为剧烈时，强化学习模型可以及时调整策略，完成网络拓扑的重新构建，提高传输效率及稳定性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种巨型星座卫星网络路由负载均衡方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的巨型星座卫星网络路由负载均衡方法，其特征在于，步骤S1中，巨型星座卫星网络拓扑中，每颗卫星为拓扑节点，星间链路为拓扑边；轨内星间链路不随时间变化；轨间星间链路随卫星运动变化。

3.根据权利要求1所述的巨型星座卫星网络路由负载均衡方法，其特征在于，步骤S2中，巨型星座分簇的簇内信息使用均衡分簇，包括簇首与簇成员，簇首负责簇内各卫星节点信息的收集，包括星上数据包传输任务状态、卫星剩余能量；分簇机制中，簇首之间互相交换信息完成信息收集以及路由策略下发，簇内各成员与簇首进行信息传输获取最新路由策略；各簇首收集簇内信息后回传至管控中心，完成多智能体深度强化学习模型的训练；各簇定期完成簇首的重新选取，簇首重新选取机制由当前簇首负责收集簇内各簇成员的剩余能量信息，完成簇首选举计算，选取各卫星节点剩余工作时间最大的卫星节点作为新簇首，下发信息至所有簇内成员，完成簇首更新。

4.根据权利要求3所述的巨型星座卫星网络路由负载均衡方法，其特征在于，各卫星节点剩余工作时间T(i)如下：

为当前节点至其余卫星节点的跳数，a_i为调和系数。

5.根据权利要求1所述的巨型星座卫星网络路由负载均衡方法，其特征在于，步骤S3中，自动编码器使用多层压缩，各层之间使用全连接层连接，最后经激活函数得到输出向量；自动编码器训练时，输入为簇负载向量，经全连接层及激活函数得到压缩向量，而后进行解压缩；解压缩使用的神经网络与自动编码器完全对称，得到解码向量，依据解码向量及原输入向量获取损失函数，进行反向传播并修正权重和偏置；执行时只进行编码。

6.根据权利要求1所述的巨型星座卫星网络路由负载均衡方法，其特征在于，步骤S4中，多智能体深度强化学习模型包括智能体网络和混合网络，智能体网络由深度递归Q网络组成，深度递归Q网络置于星上智能体，完成实时路由决策；混合网络为超网络，负责各智能体之间的协同，混合网络置于地面站，完成中心式训练后下发至各卫星节点，实现各卫星节点传输策略的协同。

7.根据权利要求6所述的巨型星座卫星网络路由负载均衡方法，其特征在于，构建智能体网络具体为：

8.根据权利要求6所述的巨型星座卫星网络路由负载均衡方法，其特征在于，构建混合网络具体为：

9.根据权利要求1所述的巨型星座卫星网络路由负载均衡方法，其特征在于，步骤S5中，当无法收到邻居节点Hello报文，断开相应链路。

10.一种巨型星座卫星网络路由负载均衡系统，其特征在于，包括：