CN116319355A

CN116319355A - 一种基于深度强化学习的卫星网络拓扑生成方法

Info

Publication number: CN116319355A
Application number: CN202310193081.0A
Authority: CN
Inventors: 胡晗; 郑雨宁; 吕一锋; 黄沛杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-23

Abstract

本发明公开一种基于深度强化学习的卫星网络拓扑生成方法，属于卫星网络领域。本发明利用深度强化学习和复杂环境交互并进行动作决策的能力，采用非骨干点与骨干点结合的方式，实现卫星网络拓扑生成以及卫星网络链路优化。本发明利用深度强化学习的决策规划能力，使卫星星座的网络拓扑得到更有效的优化，能够有效降低网络通信时延和跳数；本发明采用非骨干点与骨干点结合的方式，引进更多的通信质量指标，通过设置不同的权重，适用于不同场景，并对链路拓扑结构进行优化，保证有效通信质量；本发明使用专业的卫星星座数据搭建卫星星座模型，具有更强的适用性和推广性，能够用于大型低地球轨道卫星星座通信。

Description

一种基于深度强化学习的卫星网络拓扑生成方法

技术领域

本发明具体涉及一种基于深度强化学习的卫星网络拓扑生成方法，属于卫星网络领域。

背景技术

近年来，随着空天地一体化网络的逐渐发展以及航天技术的逐渐成熟，卫星网络逐渐成为新的热点。低地球轨道(Low Earth Orbit，LEO)卫星网络具有的低时延、高带宽、低功耗等优点得到广泛关注。虽然面向消费者的卫星网络已经存在了几十年，但其大多服务于卫星电话领域，卫星互联网、天地一体化网络已成为未来网络通信的重要发展方向。

在卫星网络拓扑领域，传统的星间链路(Inter-Satellite Link，ISL)连接采用铱星系统使用的+Grid连接方式，每颗卫星有四条链路，连接同轨道上最近的前后两颗卫星，以及相邻轨道上最近的左右两颗卫星。+Grid连接方式的优点是结构简单、易于实现，缺点则是链路短、跳数多，导致排队时延、节点处理时延增加。基于重复模式(Motif)的卫星拓扑结构是选取一颗卫星作为中心节点，在通信范围内选择两条链路进行连接，随后以中心对称的方式选择相对称的另外两颗卫星进行连接，得到一种连接方式，再将这种连接方式推广到星座中的所有卫星，通过遍历的方式得到所有基于Motif的卫星星座链路连接方式，对每一种拓扑结构进行仿真，得到使整个网络数据包传输时延和跳数最小的拓扑结构。相比于传统的+Grid连接方式，基于Motif的拓扑结构能大大降低网络中数据包的时延和跳数，但每颗卫星都采取同样的连接方式限制最优结构的产生。

随着人工智能技术的发展，深度强化学习(Deep Reinforcement Learning，DRL)已逐渐应用到越来越多的领域，如机械、娱乐、医疗、电子等。在航天领域，深度强化学习已被用于卫星网络路由、卫星功率分配、卫星动态资源管理、卫星协同任务规划等方向。然而，尚无利用深度强化学习的动作规划能力解决卫星网络拓扑结构难题的相关工作。

发明内容

本发明的目的在于提供一种基于深度强化学习的卫星网络拓扑生成方法，应用于低地球轨道卫星星座，通过对卫星星座几何结构进行更有效的分析，确定星座中每颗卫星的链路连接方式，建立整个星座网络拓扑结构，使整个卫星网络的整体时延和跳数得到有效降低。

本发明的目的是通过以下技术方案实现的：

一种基于深度强化学习的卫星网络拓扑生成方法，包含以下步骤：

步骤一：准备卫星星座模型所需数据并搭建卫星星座，建立卫星网络通信场景；

卫星星座模型所需数据包括：卫星星座轨道数M，卫星星座每轨道中卫星数量N，卫星星座轨道倾角l，卫星星座轨道偏心率e，卫星星座中卫星轨道近地点幅角ω，卫星星座中卫星轨道升交点赤经τ，卫星星座中卫星的海拔高度h，卫星星座中卫星的真近点角f，卫星星座最大有效通信链路长度isl_max，卫星星座中卫星的半波束角大小θ；

基于卫星网络通信场景的需求，卫星星座模型所需数据还包括：地面城市的地理位置信息，城市人口数量；

根据经典开普勒轨道根数搭建卫星星座模型，并得到卫星在任意时刻的经纬度数据；

步骤二：根据Motif链路连接方式对卫星链路进行初步连接；

卫星在赤道上相距较远，在高纬度上却逐渐彼此靠近，接近赤道时卫星通信范围内用于建立星间链路的卫星数量是最少的，为保证确定的Motif模式能同时部署在赤道和高纬度上，选取赤道上的一个卫星作为中心节点，以遍历的方式随机选择通信范围内的两颗卫星进行连接，随后以中心对称的方式连接另外两个卫星，记为一个连接模式motif_i，将连接模式motif_i推广至星座中所有卫星，则得到一种卫星星座拓扑结构T_i；

在星间链路允许的连接范围内，列举所有的连接模式得到集合Z＝{motif₁，motif₂，...，motif_n}，每一种连接模式都得到一个卫星星座拓扑结构，得到卫星星座拓扑集合T＝{T₁，T₂，...，T_n}；

低时延是低地球轨道卫星通信的主要性能指标，对于卫星星座拓扑集合T中的拓扑结构，能使整个卫星网络中时延和跳数最小的拓扑结构作为初步连接的拓扑结构；

整个卫星网络中时延和跳数的评价参数M_μ如式(1)所示：

M_μ＝μD+H (1)

其中，D为实际经过的卫星网络链路传输距离对两城市间地面直线距离的归一化，用以量化传播时延，H为数据包在网络中传输经过的节点跳数，表示经过每一个网络节点时排队时延、节点处理时延的大小，μ为权重；

利用城市人口数量生成流量矩阵对M_μ进行加权平均得到目标函数

如式(2)所示：

其中，k为城市对的编号，

为第k个城市对中源节点城市的人口数量，/>

为第k个城市对中目的节点城市的人口数量；

步骤三：选取部分卫星作为骨干点卫星，利用深度强化学习进行链路优化，包括以下子步骤：

步骤3.1根据卫星覆盖的地面人口数对卫星进行排序并编号；

步骤3.2确定计划的骨干点卫星个数N，将排序靠前的N个卫星定义为骨干点卫星，其他卫星定义为非骨干点卫星；

选取覆盖城市人口数量最多的部分卫星作为骨干点卫星，地面人口多的城市，通信流量大，骨干点卫星的数量根据卫星星座规模确定，卫星规模较大的星座选择较多的骨干点卫星进行链路优化；

步骤3.3对于非骨干点卫星采用Motif的连接方案进行链路连接；

步骤3.4对骨干点卫星则在之后通过深度强化学习方法进行链路连接；

利用深度强化学习对骨干点卫星的链路连接方式进行优化，保留骨干点卫星的两条链路继续采取之前的连接方式，保障卫星网络拓扑基础结构，骨干点卫星的另外两条链路利用深度强化学习进行动作的选择；

作为优选，采用马尔可夫决策过程(Markov Decision Process，MDP)实现卫星网络拓扑结构优化；

用五元组(S,A,P,R,γ)表示卫星网络拓扑结构；

S是全局状态集合，s_t表示环境在t时刻的状态，s_t∈S；

A是动作集合，a_t表示在t时刻智能体做出的动作，a_t∈S，每新增加的一条链路连接即为一个动作；

是在t时刻下状态动作转移概率矩阵；

R(s_t,a_t)为奖励函数，如式(3)所示：

R(s_t,a_t)＝αD_sd(s_t-1,a_t-1)+H_sd(s_t-1,a_t-1) (3)

其中，D_sd(s_t,a_t)+H_sd(s_t,a_t)是t时刻所有城市对(从城市s到城市d)的平均距离和跳数，α为权重；

链路连接动作策略π＝P(a_t|s_t)，深度强化学习的目标如式(4)所示：

其中，γ为折扣因子，γ∈[0，1)；

作为优选，深度强化学习采用演员评论家方法(Actor-Critic)，Actor神经网络用于生成卫星链路的动作决策策略，输入状态，输出动作，用于逼近策略模型π(a_t|s_t)，Critic神经网络用价值函数评估动作决策策略的价值，输入状态，输出价值函数q(s_t，a_t)，用于逼近值函数；

在t时刻，Actor神经网络以状态s_t作为输入，s_t为t时刻下卫星间的邻接矩阵，表示卫星网络中链路连接状态，输出为当前骨干点卫星选取哪一颗卫星进行连接的动作概率，Critic网络以状态s_t作为输入，输出对应的期望总回报值；

根据搭建的卫星网络模型建立仿真环境，训练Actor网络和Critic网络；

步骤四：完成卫星网络拓扑结构搭建；

根据训练完成的神经网络生成的动作决策策略进行卫星网络链路的连接，在选取的所有骨干点卫星都完成链路优化后，得到最终的卫星网络拓扑结构。

有益效果：

1、本发明的一种基于深度强化学习的卫星网络拓扑生成方法，使用深度强化学习的决策规划能力，在和复杂卫星网络环境进行交互的同时，对骨干点进行链路的连接和优化，使卫星星座的网络拓扑得到更有效的优化，能够有效降低网络通信时延和跳数。

2、本发明的一种基于深度强化学习的卫星网络拓扑生成方法，使用非骨干点与骨干点结合的方式，在保证有效通信质量的前提下对链路拓扑结构进行优化，针对不同的具体情况设置不同的权重，同时引进更多的通信质量指标进行分析和优化，适用于不同场景。

3、本发明的一种基于深度强化学习的卫星网络拓扑生成方法，使用准确的、专业的卫星星座数据搭建卫星星座模型，建立卫星网络拓扑结构，具有更强的适用性和推广性，能够用于广泛的大型低地球轨道卫星星座。

附图说明

图1为本发明的一种基于深度强化学习的卫星网络拓扑生成方法的流程图。

图2为实施例中将生成的拓扑结构部署在Starlink星座上不同骨干点卫星数量对应的仿真结果图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实例对发明内容做进一步说明。

实施例1：

本实施例应用本发明的方法实现Starlink星座第一阶段部署的1584颗卫星的网络拓扑结构优化，如图1所示，包括以下步骤：

卫星星座模型所需数据包括：卫星星座轨道数M＝72，卫星星座每轨道中卫星数量N＝22，卫星星座轨道倾角l＝53°，卫星星座轨道偏心率e＝0.001，卫星星座中卫星轨道近地点幅角ω＝0°，卫星星座中卫星的海拔高度h＝550km，卫星星座最大有效通信链路长度isl_max＝5014，卫星星座中卫星的半波束角大小θ＝56.55°；

升交点赤经以及真近点角不同轨道不同卫星数据不同，不一一枚举；

实施例中，收集全球人口最多的1000个城市的信息，包括：城市人口数量、城市经纬度位置信息，并按随机配对的方式生成5000个城市对进行网络通信模拟，大量数据进行仿真模拟卫星网络的通信场景；

根据经典开普勒轨道根数搭建Starlink卫星星座模型，并得到卫星在任意时刻的经纬度数据；

步骤二：根据Motif链路连接方式对卫星链路进行初步连接；

实施例中，对Starlink第一阶段部署的1584颗卫星进行编号，选取编号为0的卫星进行初步的链路建立，Starlink星座卫星最大通信范围为5014km，以编号为0的卫星为中心，半径5014km内的卫星都是能够进行链路连接的卫星；首先对编号为0的卫星以东的所有卫星以随机的方式选择两颗进行链路连接，再以中心对称的方式连接编号为0的卫星以西的两颗对应的卫星，得到一种链路连接方式，记为motif_i，Starlink星座卫星网络中所有卫星都采用motif_i的方式进行链路连接，得到Starlink星座卫星网络拓扑结构T_i；

整个卫星网络中时延和跳数的评价参数M_μ如式(1)所示：

M_μ＝μD+H (1)

其中，D为实际经过的卫星网络链路传输距离对两城市间地面直线距离的归一化，用以量化传播时延，H为数据包在网络中传输经过的节点跳数，表示经过每一个网络节点时排队时延、节点处理时延的大小，μ为权重，实施例中，μ＝1；

实施例中，对于卫星网络通信场景中的5000个城市对，利用城市人口数量生成流量矩阵对M_μ进行加权平均得到目标函数

如式(2)所示：

其中，k为5000个城市对的编号，

为第k个城市对中源节点城市的人口数量，/>

为第k个城市对中目的节点城市的人口数量；

实施例中，共有1080种连接模式，通过遍历所有链路连接模式，得到使目标函数

最小的卫星网络拓扑结构；

Motif链路连接方式与传统的+Grid连接方式的数据如表1所示：

表1

如表1所示，Motif链路连接模式相比传统的+Grid连接方式，在时延和跳数的综合度量上能够优化37.57％；

步骤3.1根据卫星覆盖的地面人口数对卫星进行排序并编号；

选取覆盖城市人口数量最多的部分卫星作为骨干点卫星，地面人口多的城市，通信流量大，骨干点卫星的数量根据卫星星座规模确定，卫星规模较大的星座选择较多的骨干点卫星进行链路优化，实施例中，骨干点卫星的数量分别取40、80、160、240、320、480进行仿真；

实施例中，采用马尔可夫决策过程实现卫星网络拓扑结构优化；

用五元组(S,A,P,R,γ)表示卫星网络拓扑结构；

S是全局状态集合，s_t表示环境在t时刻的状态，s_t∈S；

A是动作集合，a_t表示在t时刻智能体做出的动作，a_t∈A，每新增加的一条链路连接即为一个动作；

是在t时刻下状态动作转移概率矩阵；

R(s_t,a_t)为奖励函数，如式(3)所示：

R(s_t,a_t)＝αD_sd(s_t-1,a_t-1)+H_sd(s_t-1,a_t-1) (3)

其中，γ为折扣因子，γ∈[0，1)；

实施例中，深度强化学习采用Actor-Critic方法，Actor神经网络用于生成卫星链路的动作决策策略，输入状态，输出动作，用于逼近策略模型π(a_t|s_t)，Critic神经网络用价值函数评估动作决策策略的价值，输入状态，输出价值函数q(s_t，a_t)，用于逼近值函数；

各Actor网络与Critic网络均由两层神经网络构成，训练过程具体包括以下子步骤：

步骤3.4.1确定训练回合数episode＝100，批处理大小B＝32，学习率α＝1×10^-2，折扣率γ＝0.95，探索概率epsilon＝0.01；

步骤3.4.2随机初始化Actor网络参数θ，随机初始化Critic网络参数φ；

步骤3.4.3初始化卫星网络环境中的系统状态；

步骤3.4.4根据Actor神经网络选择当前状态s_t对应的动作a_t，并得到奖励函数值R(s_t,a_t)以及下一时隙状态s_t+1；

步骤3.4.5更新Critic神经网络参数，将训练结果传递给Actor神经网络，并更新Actor神经网络参数；

步骤3.4.6重复步骤3.4.3开始新一回合的训练，直到训练回合数为100。

步骤四：完成卫星网络拓扑结构搭建；

根据训练完成的Actor网络生成的动作决策策略进行卫星网络链路的连接，在选取的所有骨干点卫星都完成链路优化后，得到最终的卫星网络拓扑结构；

在步骤三中利用训练完成后的动作决策策略对Starlink卫星网络进行链路连接，将本发明方法的链路连接模式与表1中传统的Motif和+Grid链路连接模式结果进行对比，卫星网络拓扑优化结果如表2以及图2所示：

表2

如表2以及图2所示，随着骨干点数量的增加，传播时延量化值D、跳数H以及目标函数

基本呈现下降趋势，当骨干点为480时，拓扑优化效果最好；

对于传播时延量化值D，本发明方法比motif和+Grid方法分别提高12.93％和8.75％，对于跳数H则分别优化7.14％和48.30％，以目标函数

作为卫星网络整体的通信时延的评估，本发明方法比motif提高8.48％，比+Grid提高42.86％；

如表2以及图2所示，随着骨干点数量的增加，本发明方法对卫星拓扑的改进强度变大，网络链路的优化为不同城市长距离通信提供更多选择，使整体网络时延更低，通信质量更好。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的卫星网络拓扑生成方法，其特征在于：应用于低地球轨道卫星星座，通过对卫星星座几何结构进行更有效的分析，确定星座中每颗卫星的链路连接方式，建立整个星座网络拓扑结构，使整个卫星网络的整体时延和跳数得到有效降低，包含以下步骤：

步骤二：根据Motif链路连接方式对卫星链路进行初步连接；

整个卫星网络中时延和跳数的评价参数M_μ如式(1)所示：

M_μ＝μD+H (1)

如式(2)所示：

其中，k为城市对的编号，

为第k个城市对中源节点城市的人口数量，/>

为第k个城市对中目的节点城市的人口数量；

步骤3.1根据卫星覆盖的地面人口数对卫星进行排序并编号；

步骤四：完成卫星网络拓扑结构搭建；

2.如权利要求1所述的一种基于深度强化学习的卫星网络拓扑生成方法，其特征在于：卫星星座模型所需数据包括：卫星星座轨道数M，卫星星座每轨道中卫星数量N，卫星星座轨道倾角l，卫星星座轨道偏心率e，卫星星座中卫星轨道近地点幅角ω，卫星星座中卫星轨道升交点赤经τ，卫星星座中卫星的海拔高度h，卫星星座中卫星的真近点角f，卫星星座最大有效通信链路长度isl_max，卫星星座中卫星的半波束角大小θ；

基于卫星网络通信场景的需求，卫星星座模型所需数据还包括：地面城市的地理位置信息，城市人口数量。

3.如权利要求1所述的一种基于深度强化学习的卫星网络拓扑生成方法，其特征在于：采用马尔可夫决策过程(Markov Decision Process，MDP)实现卫星网络拓扑结构优化；

用五元组(S，A，P，R，γ)表示卫星网络拓扑结构；

S是全局状态集合，s_t表示环境在t时刻的状态，s_t∈S；

是在t时刻下状态动作转移概率矩阵；

R(s_t，a_t)为奖励函数，如式(3)所示：

R(s_t，a_t)＝αD_sd(s_t-1，a_t-1)+H_sd(s_t-1，a_t-1) (3)

其中，D_sd(s_t，a_t)+H_sd(s_t，a_t)是t时刻所有城市对(从城市s到城市d)的平均距离和跳数，α为权重；

其中，γ为折扣因子，γ∈[0，1)。

4.如权利要求1所述的一种基于深度强化学习的卫星网络拓扑生成方法，其特征在于：深度强化学习采用演员评论家方法(Actor-Critic)，Actor神经网络用于生成卫星链路的动作决策策略，输入状态，输出动作，用于逼近策略模型π(a_t|s_t)，Critic神经网络用价值函数评估动作决策策略的价值，输入状态，输出价值函数q(s_t，a_t)，用于逼近值函数；

根据搭建的卫星网络模型建立仿真环境，训练Actor网络和Critic网络。