CN114928401B

CN114928401B - 一种基于多智能体强化学习的leo星间链路的动态规划方法

Info

Publication number: CN114928401B
Application number: CN202210536205.6A
Authority: CN
Inventors: 冉泳屹; 皮嘉豪; 李沁钰; 雒江涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-07-07
Anticipated expiration: 2042-05-17
Also published as: CN114928401A

Abstract

本发明涉及卫星通信技术领域，公开了一种基于多智能体强化学习的LEO星间链路的动态规划方法，包括：S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型；S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练，直到所述智能体收敛；S3、智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策，链路执行器根据智能体的决策与相应的卫星建立平面间星间链路。本发明可以显著降低ISLs切换率，提高星座总吞吐量和卫星平均星间链路的数量。

Description

一种基于多智能体强化学习的LEO星间链路的动态规划方法

技术领域

本发明涉及卫星通信技术领域，具体涉及一种基于多智能体强化学习的LEO星间链路的动态规划方法。

背景技术

近年来，低地球轨道(LEO)卫星星座已成为一种新兴且有前途的技术，能够为地面用户提供低延迟、宽带通信和全球覆盖，并有望在6G通信中发挥重要作用。许多头部公司，如SpaceX、OneWeb和亚马逊，都试图部署一个大型的LEO卫星星座，以提供稳定的宽带互联网服务。低轨卫星之间可以利用光学或可见光通信系统实现卫星间链路(Inter-SatelliteLinks,ISLs)的连接，包括:平面内ISLs，连接同一轨道平面的相邻卫星；平面间ISLs，连接不同轨道平面的卫星。由于同一轨道平面内卫星间的距离可以在很长时间内保持恒定，所以平面内ISLs相当稳定。然而，不同轨道平面之间的星间距离是时变的:卫星在赤道上空时距离最长，在极地边界时距离最短。此外，在不同的高度部署轨道平面时，轨道周期也会不同，导致拓扑结构的非周期性。因此，任何固定的平面间ISLs连通性方案都不能很好地满足星座拓扑的变化，动态规划平面间ISLs至关重要。

由于低地球轨道星座的环境特性和硬件条件的限制，动态规划低地球轨道星座的平面间ISLs具有一定的挑战性。首先，由于LEO星座的动态运动和高维性，星座中星间链路的规划变得非常复杂。数百颗卫星相对于地面用户以大约7.5km/s的速度移动，每颗卫星都有一组用于建立ISLs的平面间邻居卫星。这导致了平面间ISLs的规划是NP-hard(所有NP问题都能在多项式时间复杂度内归遇到的问题)的，并面临“维数诅咒”的问题；其次，由于有限的视线距离，每个卫星只能观测到部分星座信息，实时采集全球星座信息成本较高，而部分信息容易陷入局部最优；第三，一颗卫星可能有资格与其多个相邻卫星建立平面间ISLs，同一轨道上的卫星之间存在竞争和合作，与其他卫星竞争一颗卫星是为了提高其平面间ISLs的质量，而合作则是为了使星座的总吞吐量最大化，对于整个星座来说，在竞争与合作之间实现良好的权衡是至关重要的。

现有的研究大多集中在分析星间链路的特征和模型，而没有对卫星间连接进行规划。例如，作者在文献[1]中提出了一个功率预算模型来分析倾斜范围对功率需求的影响，文献[2]在通过研究卫星之间的可见性及其天线转向能力，对星间链路的连接进行了全面的分析。这些工作只是为平面间星间链路提供了一些参考，并没有提供任何具体的星间链路规划方案。基本的星间链路规划算法是启发式的[3]-[5]，它们根据LEO星座的部分信息，通过贪婪、模拟退火等方法推导出方案，但是，上述文献很容易陷入局部最优；另一种典型的方法由文献[6]提出，该方法用有限状态自动化对星间链路网络进行建模，并用整数线性规划对其进行求解，但是，该算法计算量大，不适合高维度、高动态性的LEO星座。

因此，设计一种能够使整个星座在竞争与合作之间实现良好的权衡的LEO星间链路的规划方法是至关重要。

发明内容

为了解决上述问题，本发明提出了一种基于多智能体强化学习的LEO星间链路的动态规划方法，联合优化星座总吞吐量和平面间ISLs切换率，以实现整个星座在竞争与合作之间实现良好的权衡。

本发明通过下述技术方案实现：

一种基于多智能体强化学习的LEO星间链路的动态规划方法，包括：

S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型，所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数；

S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练，直到所述智能体收敛，求得可行卫星对组成的最优匹配图集合

使卫星网络函数效用最大化；

S3、智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策，并将决策指令传输给与该智能体同属一个卫星的链路执行器，所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。

作为优化，所述状态空间为S_i＝{D_i，L_i，R_i}，其中，D_i为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合，L_i为智能体i在当前的正向星间链路连接的目标卫星，R_i为智能体i当前正向星间链路的通信速率，其中，智能体的正向为：智能体所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向，背离平面((p(u)+1)mod M)的一侧为负向，p(u)为卫星u所在的轨道平面，M为轨道平面的数量。

作为优化，所述动作空间为A_i＝{V_i，K}，其中，V_i为智能体i视距范围内的正向相邻轨道平面上卫星，K为不执行任何动作；若智能体i选择了动作a_i∈V_i，即智能体i选择与卫星V_i建立星间链路，则智能体i在智能体i的正向与动作a_i对应的目标卫星建立平面间的星间链路；若智能体i的动作a_i＝K，则智能体i将不会建立正侧的星间链路。

作为优化，所述奖励函数为

其中N_a＝N-N_m，为智能体个数，N为卫星的总个数，N_m为在第m个轨道平面上的卫星数量，r_i为智能体i的贡献：

其中，α_i为智能体i的决策冲突折扣因子，a_i为智能体i的动作，ρ为单位通信速率的利润，λ为智能体i的单位天线转向角转向成本，

为智能体i所在的卫星与a_i对应的目标卫星之间的天线转向角，R_SNR(i，a_i)为智能体i所在的卫星与a_i对应的目标卫星之间通信的最大数据速率。

作为优化，S2的具体训练方法为：

S2.1、初始化一个经验回放池D用以存储状态转移数据；

S2.2、从所述经验回放池中随机采样小批量(1024个)的状态转移数据，在每个决策时刻t结束时，更新智能体i的策略网络π_i和价值网络

直到智能体i的策略网络π_i和价值网络/>

收敛，其中，/>

N_a表示智能体个数，a_i表示智能体i的动作，s_i表示智能体i的状态，/>

为第N_a个智能体的动作，/>

为第N_a个智能体的状态。

作为优化，S2.1的具体实施步骤为：

S2.1.1、初始化经验回放池；

S2.1.2、在每个决策时刻t开始时，智能体i根据当前策略网络π_i、当前状态s_i，t＝{D_i，L_i，R_i}和噪声,选择并执行一个动作a_i，t，a_i，t～π_i(·|s_i，t)，同时，所述智能体i与相应的目标卫星建立星间链路；

S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后，所述智能体i将当前状态s_i，t转移至第二状态s_i，t+1并获取到奖励数据r_i，t，r_i，t为智能体i在决策时刻t获得的奖励数据；

S2.1.4、在状态转移完成后，以及奖励数据获取完成后，经验回放池记录状态转移(x_t，x_t+1，a_t，r_t)，其中

a_t为智能体在决策时刻t的动作集合，r_t为智能体在决策时刻t获得的奖励数据集合，/>

x_t为智能体在决策时刻t的状态数据集合，x_t+1为智能体在决策时刻t+1的状态数据集合。

作为优化，S2.2的具体实施步骤为：

S2.2.1、在决策时刻t结束时，采用策略梯度法对智能体i的策略网络进行更新：目标值

为：/>

其中，/>

是拥有延迟参数θ′_i的目标策略网络集合，j代表随机采样的状态转移编号，γ代表折扣率，N_a＝N-N_m为智能体的个数，该智能体所在的卫星在轨道平面m上，N为卫星的数量，N_m为轨道平面m上拥有的卫星数量，/>

为目标卫星的目标价值网络；/>

分别为卫星1，...，N_a对应的动作数据；/>

卫星i的奖励函数；

S2.2.2、在决策时刻t结束时，通过最小化损失

来更新智能体i的价值网络；

其中，/>

代表所有策略网络集合；

S2.2.3、在决策时刻t结束时，利用策略梯度法

更新智能体i的策略网络的权值：/>

S2.2.4、更新目标网络的权值θ′_i：

θ′_i←βθ_i+(1-β)θ′_i；β为学习率；

S2.2.5、重复S2.2.1-S2.2.4，直到智能体i的策略网络π_i和价值网络

收敛。

作为优化，智能体i所在的卫星与a_i对应的卫星之间的星座网络函数效用最大化表示为：

其中，

为第n次决策的效用函数，/>

ρ为单位通信速率的利润，λ为单位天线转向角转向成本，/>

为卫星集，u为智能体i所在的卫星，v为a_i对应的卫星，R_SNR(u，v)为可行卫星对uv之间的信噪比，N_d为决策次数，/>

为第n次决策的匹配图，即可行卫星对组成的星座，/>

表示卫星在正负方向上的相邻顶点数量，

为卫星u、v之间的边的天线转向角，E为可行卫星对集合。

作为优化，智能体i所在的卫星与a_i对应的目标卫星之间的转向角

为：

其中，

为智能体i所在的卫星的平均天线转向角，/>

为a_i对应的目标卫星的平均天线转向角，n为决策次数，/>

为第n次决策时星座中所有平面间星间链路组成的匹配图，/>

为n-1次决策时星座中所有平面间星间链路组成的匹配图。

作为优化，智能体i所在的卫星和a_i对应的目标卫星组成的可行卫星对集合为：

其中，l(ia_i)为智能体i所在的卫星与a_i对应的目标卫星之间的视线距离；||ia_i||表示智能体i所在的卫星与a_i对应的目标卫星之间的欧式距离；p(i)为智能体i所在的卫星所在的轨道平面，p(a_i)为a_i对应的目标卫星所在的轨道平面。

本发明与现有技术相比，具有如下的优点和有益效果：

1.本发明将卫星网络中的平面间星间链路的通信速率和天线切换成本函数效用化，天线切换成本在建立新的平面间星间链路产生，本发明能够在保证较高的星座总通信速率的前提下，减少天线切换带来的成本。

2.本发明建立了一个部分可观察马尔可夫决策过程模型，并利用具有集中式训练和分布式执行范式的算法来训练智能体，同时设计了一个额外的惩罚机制(奖励函数中折扣冲突因子的设计)，以引导整个星座在竞争和合作之间的良好权衡。

3.本发明为了解决“维数诅咒”问题，加快算法的收敛速度，逐轨道平面地对智能体进行动态规划算法的训练。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为卫星的星间链路拓扑和星间链路决策网络图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

在介绍本发明的基于多智能体强化学习的LEO星间链路的动态规划方法之前，先介绍如下概念。

如图1所示，本发明适用的星座为极轨星座。其中，N个卫星均匀分布在M个平面上。每个轨道平面m∈{1，2，...M}部署在给定的轨道高度h_m，轨道倾角∈_m，每个轨道平面由均匀分布的N_m个卫星组成。此外，将卫星u在直角坐标系中的位置表示为{x_u，y_u，z_u}，并将p(u)定义为卫星u所在的轨道平面，p(u)∈{1，2，...，M}。一般地，每个卫星共有四个星间链路。两个平面内的星间链路连接来自同一平面的相邻卫星，而两个平面间星间链路连接来自不同平面的卫星。每个卫星都有一个星间链路的决策网络，在此决策网络中，位于卫星上的智能体通过接收到所有奖励数据和状态数据进行训练，直到此决策网络收敛。位于卫星上的状态收集器通过与环境中的其他卫星相互作用来获取状态数据和奖励数据，智能体根据状态收集器收集到的状态信息进行决策，位于卫星上的链路执行器根据智能体的指令与相应的卫星建立平面间星间链路。

一、建立卫星之间的通信模型。

假设决策周期T_d，决策次数N_d＝T/T_d，其中T为星座周期。在任意决策时刻，星座可以表示为无向图

其中/>

为顶点集，表示卫星，/>

为边集合，表示星间链路。定义顶点v相对于顶点u的相对方向为：

并分别将相对于u正、负方向上的相邻顶点数量表示为

和/>

将一对源卫星u和目的卫星v称为卫星对uv，并将源卫星定义为标准卫星，目的卫星定义为目标卫星。

由于多普勒效应和视线距离的限制，LEO星座中某些卫星对之间无法建立平面间星间链路，如果一个卫星对之间可以建立一个平面间星间链路，则定义该卫星对为可行卫星对。下面，筛选出符合条件的卫星对集即可行卫星对集：

将卫星对uc之间的欧式距离表示为：

x_u、y_u、z_u分别为卫星u在x轴、y轴、z轴上的坐标；x_v、y_v、z_v为卫星v在x轴、y轴、z轴上的坐标。

若两个卫星之间的欧式距离大于它们之间的视线距离，则视线将受到地球的阻挡。定义卫星对uv之间的视线距离为l(uv)，如果||uv||＜l(uv)，则该卫星对为可行卫星对。视线距离可以表示为：

其中，R_E表示地球半径，h_p(u)为卫星u在轨道平面p(u)上的轨道高度，h_p(v)为卫星v在轨道平面p(v)上的轨道高度。

第一个平面和第M个平面的卫星以相反的方向运动，具有很大的相对速度。在“隙缝”区域(图1中的缝隙)维护星间链路具有很大挑战性，因此不考虑建立隙缝区域星间链路。由于本发明的关注点为平面间星间链路，位于同一平面内的卫星对不是可行卫星对。根据以上分析，可行卫星对集合可以表示为：

卫星在自由空间环境中通信，因此，星间通信主要受到自由空间路径损耗(Free-Space Path Loss,FSPL)和热噪声影响。对于可行卫星对，分析其特征如下：

可行卫星对uv之间的自由空间路径损耗为：

其中，c为光速，f为载波频率，||uv||为卫星对uv之间的欧式距离。

在任意时刻，可行卫星对uv之间的信噪比可以表示为：

其中，P_t为发射功率，G_t和G_r分别为发射端天线增益和接收端天线增益，k_B为玻尔兹曼常数，τ为热噪声，单位为开尔文，B为信道带宽，单位为赫兹。

假设所有卫星都有足够窄的天线波束，并具有精确的波束对准能力。因此，卫星可以在无干扰的环境下进行通信。在无干扰环境下，卫星u与卫星v通信的最大数据速率为：

R_SNR(u，v)＝Blog₂(1+SNR(u，v))。

二、建立切换成本模型

卫星u的天线由对准卫星v₁到对准卫星v₂的天线转向角为：

为了度量平面间星间链路切换成本的影响，定义卫星u的平均天线转向角：

其中，

和/>

是分别是满足条件uv∈E的相对于卫星u正负方向上的卫星集合，

和/>

分别是集合/>

和/>

中的卫星数量，E为可行卫星对集合。

对于第n次决策，将图

中连接可行卫星对的所有边表示为/>

对于图

中的边，定义θ_uv(n)为uv边的天线转向角：

为卫星u平均天线转向角，/>

为卫星v平均天线转向角。

为了在保证星座高吞吐量的前提下，最小化平面间星间链路的切换成本，本发明研究了在周期T内星座总通信速率和平面间星间链路的切换成本的联合优化问题。

在每个决策时刻，都可以把建立平面间星间链路看作是一个匹配问题。对于第n次决策的匹配图

将效用函数/>

定义为可实现的通信利润减去切换成本，可以写成：

其中，ρ为单位通信速率的利润，λ为单位天线转向角转向成本。

因此，优化问题是求出最优匹配图集合

使卫星网络函数效用最大化，即：

其中，

为第n次决策的效用函数，/>

ρ为单位通信速率的利润，λ为单位天线转向角转向成本，/>

为第n次决策的匹配图，即可行卫星对组成的星座，/>

表示卫星在正负方向上的相邻顶点数量，

为卫星u、v之间的边的天线转向角，E为可行卫星对集合。

接下来，介绍本发明所述的基于多智能体强化学习的LEO星间链路的动态规划方法。

为了解决“维数诅咒”问题，并对智能体逐轨道地进行训练，首先从卫星网络中选择智能体，并为它们设计合适的动作。在卫星u运动过程中，将其靠近平面((p(u)+1)mod M)的一侧定义为正向，另一侧定义为负向。每个卫星主动地决策正向星间链路，而负向星间链路被动地接受来自负向卫星的决策。由于“隙缝”的存在，第M个平面上的卫星无需主动决策正向ISL。因此，除第M个平面上的卫星外，所有卫星都是独立的智能体。

本实施例中，所述状态空间为S_i＝{D_i，L_i，R_i}，其中，D_i为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合，L_i为智能体i在当前的正向星间链路连接的目标卫星，R_i为智能体i当前正向星间链路的通信速率，其中，智能体的正向为：智能体所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向，背离平面((p(u)+1)mod M)的一侧为负向，p(u)为卫星u所在的轨道平面，M为轨道平面的数量。在不同的决策时刻中，由于卫星的运动，每个智能体的状态空间是时变的。

本实施例中，所述动作空间为A_i＝{V_i，K}，其中，V_i为智能体i视距范围内的正向相邻轨道平面上卫星，K为不执行任何动作；若智能体i选择了动作a_i∈V_i，即智能体i选择与卫星V_i建立星间链路，则智能体i在智能体i的正向与动作a_i对应的目标卫星建立平面间的星间链路；若智能体i的动作a_i＝K，则智能体i将不会建立正侧的星间链路。

本实施例中，所述奖励函数为

为智能体i所在的卫星与a_i对应的目标卫星之间的天线转向角，R_SNR(i，a_i)为智能体i所在的卫星与a_i对应的目标卫星之间通信的最大数据速率。由于每个智能体都是根据自己的部分观测信息独立做出决策，所以同一轨道平面上的智能体可能选择了相同的目标卫星，造成了冲突。因此，设计了一个训练器，根据所有智能体的部分观测信息和动作，重新评估每个智能体的贡献。即与其他智能体无冲突的智能体的决策冲突折扣因子α_i＝1，而与其他智能体有冲突的智能体的决策冲突折扣因子设计如下:根据目标卫星的不同，将所有的智能体添加到不同的列表中，对于每个智能体i，如果其与目标卫星建立的平面间星间链路的通信速率大于列表中其他智能体与该目标卫星建立的平面间星间链路的通信速率，则α_i＝0.8，否则α_i＝0.1。

使卫星网络函数效用最大化。

本发明提出的星间链路动态规划方法是基于多智能体深度确定性策略梯度(MADDPG)的。MADDPG采用集中式训练，分布式执行的范式。因此，训练收敛后，每个智能体可以根据自己的部分观测独立做出决策。

每个智能体i都有自己的策略网络π_i，策略网络π_i的权值为θ_i，该策略网络π_i能够通过Gumbel-Softmax分布产生可微分样本。每个智能体i有一个价值网络

其中/>

除此之外,每个智能体i有一个相应的目标策略网络π′_i和目标价值网络/>

本实施例中，S2的具体训练方法为：

S2.1、初始化一个经验回放池D用以存储状态转移数据；

直到智能体i的策略网络π_i和价值网络/>

收敛，其中，/>

为第N_a个智能体的动作，/>

为第N_a个智能体的状态。

本实施例中，S2.1的具体实施步骤为：

S2.1.1、初始化经验回放池；

S2.1.2、在每个决策时刻t开始时，智能体i基于当前策略网络π_i、智能体i的当前状态s_i，t＝{D_i，L_i，R_i}和噪声,智能体i选择并执行一个动作a_i，t，a_i，t～π_i(·|s_i，t)，同时，所述智能体i与相应的目标卫星建立星间链路；

S2.1.4、在状态转移完成后，以及奖励数据获取完成后，即在获取到所有信息后，经验回放池将会记录状态转移(x_t，x_t+1，a_t，r_t)，其中

a_t为智能体在决策时刻t的动作集合，r_t为智能体在决策时刻t获得的奖励数据集合，

本实施例中，S2.2的具体实施步骤为：

S2.2.1、在决策时刻t结束时，采用策略梯度法对智能体i的策略网络进行更新，其中目标值为

其中，/>

为目标卫星的目标价值网络；/>

为目标卫星对应的动作数据；/>

为目标卫星的奖励函数；

S2.2.2、在决策时刻t结束时，通过最小化损失

来更新智能体i的价值网络；

其中，/>

代表所有策略网络集合。

S2.2.3、在决策时刻t结束时，利用策略梯度法

更新智能体i的策略网络的权值：/>

S2.2.4、更新目标网络的权值θ′_i：

θ′_i←βθ_i+(1-β)θ′_i；β为学习率；

收敛，得到智能体i所在的卫星与其他卫星之间的最优匹配链路，若干最优匹配链路组成了最优匹配图，即最优匹配星座网络，每个决策时刻的最优匹配图组合起来形成最优匹配图集合

判断智能体是否收敛的具体方式为：奖励函数停止更新增长，维持在一个恒定的范围。

本实施例中，智能体i所在的卫星与a_i对应的卫星之间通信的最大数据速率R_SNR(i，a_i)为：

其中，B为信道带宽，单位为赫兹，SNR(i，a_i)为智能体i所在的卫星与a_i对应的目标卫星之间的信噪比。

本实施例中，智能体i所在的卫星与a_i对应的目标卫星之间的转向角

为：

其中，

为智能体i所在的卫星的平均天线转向角，/>

为a_i对应的目标卫星的平均天线转向角，n为决策次数，/>

为第n次决策时星座中所有平面间星间链路组成的匹配图，/>

为n-1次决策时星座中所有平面间星间链路组成的匹配图。

本实施例中，智能体i所在的卫星和a_i对应的目标卫星组成的可行卫星对集合为：

S3、智能体根据与智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策，并将决策指令传输给与该智能体同属一个卫星的链路执行器，所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。

本发明提出的一种基于多智能体强化学习的LEO星间链路的动态规划方法，该方法联合优化了LEO星座的总吞吐量和平面间星间链路的切换成本，研究了以最大期望折扣回报为目标的优化问题。基于目标网络和经验回放池，基于多智能体深度强化学习的星间链路规划算法能够有效地学习最优策略，每个卫星可以分布式地决策平面间链路。实验结果表明，与基线算法相比，本发明提出的方法具有更好的性能。大量的实验结果表明，本发明提出的算法可以显著降低ISLs切换率，提高星座总吞吐量和卫星平均ISL数量。

文献[1]为O.Popescu,“Power budgets for cubesat radios to supportground communications and inter-satellite links,”Ieee Access,vol.5,pp.12 618–12 625,2017.

文献[2]为Y.Lee and J.P.Choi,“Connectivity analysis of megaconstellation satellite networks with optical inter-satellite links,”IEEETransactions on Aerospace and Electronic Systems,pp.1–1,2021.

文献[3]为I.Leyva-Mayorga,B.Soret,and P.Popovski,“Inter-plane inter-satellite connectivity in dense leo constellations,”IEEE Transactions onWireless Communications,vol.20,no.6,pp.3430–3443,2021.

文献[4]为W.Chengzhuo,L.Suyang,G.Xiye,and Y.Jun,“Dynamic optimizationof laser inter-satellite link network topology based on genetic algorithm,”in2019 14th IEEE International Conference on Electronic Measurement&Instruments(ICEMI).IEEE,2019,pp.1331–1342.

文献[5]为S.Liu,J.Yang,X.Guo,and L.Sun,“Inter-satellite linkassignment for the laser/radio hybrid network in navigation satellitesystems,”GPS Solutions,vol.24,no.2,pp.1–14,2020.

文献[6]为Z.Yan,G.Gu,K.Zhao,Q.Wang,G.Li,X.Nie,H.Yang,and S.Du,“Integerlinear programming based topology design for gnsss with intersatellitelinks,”IEEE Wireless Communications Letters,vol.10,no.2,pp.286–290,2020.

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体强化学习的LEO星间链路的动态规划方法，其特征在于，包括：

卫星对uv之间的欧式距离表示为：

x_u、y_u、z_u分别为卫星u在x轴、y轴、z轴上的坐标；x_v、y_v、z_v为卫星v在x轴、y轴、z轴上的坐标；

卫星对uv之间的视线距离为l(uv)表示为：

其中，R_E表示地球半径，h_p(u)为卫星u在轨道平面p(u)上的轨道高度，h_p(v)为卫星v在轨道平面p(v)上的轨道高度；

所述状态空间为S_i＝{D_i，L_i，R_i}，其中，D_i为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合，L_i为智能体i当前的正向星间链路连接的目标卫星，R_i为智能体i当前正向星间链路的通信速率，其中，智能体i的正向为：智能体i所在卫星u靠近平面((p(u)+1modM的一侧为正向，背离平面pu+1modM的一侧为负向，pu为卫星u所在的轨道平面，M为轨道平面的数量；

所述动作空间为A_i＝{V_i，K}，其中，V_i为智能体i视距范围内的正向相邻轨道平面上的卫星，K为不执行任何动作；若智能体i选择了动作a_i∈V_i，则智能体i在其正向与动作a_i对应的目标卫星建立平面间的星间链路；若智能体i的动作a_i＝K，则智能体i将不会建立正侧的星间链路；

所述奖励函数为