CN114698045B

CN114698045B - 大规模leo卫星网络下的串行q学习分布式切换方法及系统

Info

Publication number: CN114698045B
Application number: CN202210326456.1A
Authority: CN
Inventors: 王熠晨; 刘昊天; 王奕欣; 王弢; 王璋楠
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-08-29
Anticipated expiration: 2042-03-30
Also published as: CN114698045A

Abstract

本发明公开了大规模LEO卫星网络下的串行Q学习分布式切换方法及系统；为了描述卫星的动态性，通过阴影莱斯信道模型来描述星地链路，使星地间信道增益由用户与卫星间的仰角决定并且随卫星的运动而改变；通过将用户的传输需求与卫星的可用信道数联合考虑，设计了用户的效用函数，并将卫星切换问题转化为长期总效用函数最大化问题。通过充分利用卫星间的独立性以及可视卫星数量有限等特点，提出了串行式深度Q学习算法，使状态空间维度显著减小，有效地求解了长期效用函数最大化问题，改善了卫星切换策略。本发明提高了用户的平均收益、系统吞吐量，降低了用户业务的强制中断次数，获得较优的系统性能。

Description

大规模LEO卫星网络下的串行Q学习分布式切换方法及系统

技术领域

本发明属于卫星通信中卫星间切换技术领域，具体涉及大规模LEO卫星网络下的串行Q学习分布式切换方法及系统。

背景技术

卫星通信由于其覆盖范围广等特点，被认为是最有希望实现全球覆盖的通信方式之一，而在低轨(low Earth orbit，LEO)、中轨(medium Earth orbit，MEO)以及静地(Geostationary，GEO)卫星中，LEO卫星由于低时延、易组网等特点而受到广泛关注。然而，由于LEO卫星的高速运动性，单颗卫星对用户的覆盖时间非常有限，为了保证用户业务的连续性以及提高用户的服务质量，用户需要在不同卫星间进行切换，因此卫星切换方案的设计是LEO卫星通信网络中重要的问题之一。

虽然关于LEO卫星切换领域已经有许多研究，但是这些研究都难以应用到大规模低轨卫星网络当中。这是因为一方面，大规模低轨卫星网络中的卫星数量激增，这将显著增加计算的复杂度以及信令开销，尤其对于中心式切换方案而言；另一方面，现有方案大部分依赖于LEO网络全局信息的获取，然而在大规模LEO卫星网络下，获取全局信息将给终端带来巨大负担，尤其是算力以及功率受限的小型终端。此外，大规模LEO卫星网络中高度动态的通信环境难以被现有方案充分认知，从而将导致网络性能的下降。因此，有必要设计一种面向大规模LEO卫星网络的低复杂度的分布式卫星切换方案，使得每个用户只需根据自身获取的局部信息独立地执行切换决策，提高系统性能。

发明内容

为了解决现有技术中存在的问题，本发明提供一种面向大规模LEO卫星网络的串行Q学习分布式切换方法，该方案充分考虑了大规模低轨卫星网络中卫星数量激增以及全局信息难以获得所带来的影响，设计了一种面向大规模LEO卫星网络的低复杂度的分布式卫星切换方案，提高了系统性能。

为了实现上述目的，本发明采用的技术方案是：一种面向大规模LEO卫星网络的串行Q学习分布式切换方法，包括以下步骤：

基于大规模LEO卫星网络的下行传输系统，设计大规模LEO卫星下行传输网络中用户与卫星间的切换机制；

联合考虑根据用户的数据传输情况以及卫星间流量分布情况，设计效用函数并构建优化问题，在满足接入限制的前提下最大化系统中所有用户的长期效用之和；

采用马尔科夫决策过程对用户在网络中的切换进行建模，求解最大化系统中所有用户的长期效用之和；

基于马尔科夫决策过程，结合大规模LEO网络特点，设计串行式深度Q学习算法，通过用户与环境的交互进行学习，不断改进策略，根据卫星状态评估其价值，将所得价值作为用户切换的依据，得到最优的切换决策。

所述大规模LEO卫星网络的下行传输系统包括M个LEO卫星和N个地面用户；将卫星索引集表示为用户索引集表示为/>每颗卫星的最大可用信道数为C_max，将时间划分为长度为t_s的时隙，当用户有业务到达时，从其可视范围内的卫星中选择一颗接入与数据传输；在时隙t，用户i与其可视卫星j间的完整信道功率增益Q_i,j(t)为：

其中，L_i,j(t)为自由空间衰落，为卫星天线增益，G_T为用户天线增益，h_i,j(t)是阴影效应以及多径效应导致的信道功率衰落；h_i,j(t)是一个随机变量，其概率分布受到用户i与卫星j的仰角θ_i,j(t)的影响，h_i,j(t)所服从的概率分布随时间变化。

所述切换机制具体为：将T_H个时隙定义为一个切换帧，用户每隔一个切换帧进行一次切换决策；根据用户所做出的切换决策，分为两种情况，如果用户选择不切换至新的卫星，那么在之后的切换帧中，全部的T_H个时隙都将用于用户与当前卫星的数据传输；如果用户选择切换至新的卫星，则消耗T_H个时隙用于切换时的信令交换以及星上处理，所消耗T_H个时隙的时间段称为切换阶段；在切换阶段，用户不能进行数据传输；系统中断的情况下重新执行持续T_A个时隙的切换阶段，直到用户成功接入新的卫星，在一个切换帧中，切换阶段最多行次，其中/>为向下取整函数，若在K次切换阶段后用户成功接入，则当前切换帧中剩余的T_H-KT_A个时隙用于数据传输。

在时隙t，用户i与卫星j的传输速率为：

其中，B为信道带宽，P_K为发射功率，Q_i,j(t)为信道功率增益，σ²为平均噪声功率，与之对应的系统的中断概率为：

其中R_min为最小传输速率要求，为阴影以及多径衰落h_i,j(t)最小功率增益要求。

联合考虑根据用户的数据传输情况以及卫星间流量分布情况，设计效用函数并构建优化问题，在满足接入限制的前提下最大化系统中所有用户的长期效用之和具体为：将用户传输需求以及卫星间流量负载均衡联合考虑，设计效用函数将切换问题转换为整个系统长期总效用函数的之和的最大化问题，将在时隙t，用户i从卫星j处得到的总收益作为效用函数，表示为：

其中，γ_i,j(t)与β_i,j(t)分别表示连接情况与用户的决策，为用户i在时隙t内能收到的来自卫星j的回报，/>为用户i在时隙t时因为占用卫星j的信道资源所需付出的开销。

基于所述效用函数，切换问题转换为在满足接入限制的前提下最大化系统中所有用户的长期效用之和，

卫星切换问题转化优化问题：找到最优的切换决策矩阵β(t)，使得整个系统中所有用户的长期效用函数之和最大，具体可以表示为：

其中，β(t)为所有用户的切换决策矩阵，同时也是优化的变量；限制条件分别为：表示用户最多只能选择一颗卫星切换；/>表示单颗卫星最多服务C_max个用户；/>表示切换决策只会在切换帧结束时做出，而在帧内维持不变；β_i,j(t)∈{0,1}与γ_i,j(t)∈{0,1}都为二元变量限制。

采用马尔科夫决策过程对用户在网络中的切换进行建模具体为：将切换过程建模为一个马尔科夫决策过程，其中包括智能体、状态、动作以及收益四要素，采用分布式决策，每个用户独立地进行卫星切换的决策，

每个用户为一个智能体，在每个时隙的开始更新当前状态，用状态矩阵描述状态，状态矩阵包括智能体进行决策时所需要的所有信息，用户i的状态矩阵表示为：

其中，而θ_i,j(t)为用户i与卫星j在t时隙的仰角；/>是在t时隙用户i估计的占用卫星j的信道将要产生的开销，表示为：

对于用户i而言，其在t时隙所做的动作为用户i的切换决策：

a_i(t)＝[β_i,1(t)…β_i,j(t)…β_i,M(t)]

以用户i在上一切换帧中获得的平均效用作为回报，即收益，表示为：

在标准马尔科夫决策过程的基础上，结合大规模卫星网络特点，设计串行式深度Q学习算法对优化问题进行求解，具体如下：

S01：首先将原状态s_i(t)转化列表为包含用户i所有可见卫星的子状态的列表，具体表达为：

其中s_i,j(t)表示用户i获得的关于卫星j的状态，表示为：

表示用户i在t时隙所有可见卫星的索引，/>表示可见卫星的数量；

S02：通过人工神经网络的方式评估各个卫星对应的价值；每个卫星的状态只对应一个动作，网络输出可以完全由子状态s_i,j(t)确定，通过将列表中的子状态串行地输入网络Q，得到对应的Q值列表/>表示为：

根据列表对于用户i而言最优的卫星为：

S03：在每一切换帧结束后根据收益对神经网络进行训练，若用户在一个切换帧内选择卫星j，则记S＝s_i,j(t)以及A＝j；在一个当前切换帧结束后，用户记录下当前帧的收益R以及状态S'，分别表示为：

由此得到四元组{S,A,R,S'}，用户根据一批四元组来更新网络参数ω以最小化损失函数L(ω)，表示为：

L(ω)＝E[(R+γQ_t-Q(S|ω))²]

其中γ为折扣因子，Q_t为目标Q值，可以表示为：

其中Q'是与网络Q有着相同结构的目标网络，参数向量表示为ω'；

S04：若用户业务结束，则停止；否则重复步骤S01至S03。

另一方面，本发明提供一种面向大规模LEO卫星网络的串行Q学习分布式切换系统，包括切换机制设计模块、转化模块以及求解模块；

切换机制设计模块用于在基于大规模LEO卫星网络的下行传输系统中，设计大规模LEO卫星下行传输网络中用户与卫星间的切换机制；

转化模块用于联合考虑根据用户的数据传输情况以及卫星间流量分布情况，设计效用函数并构建优化问题，在满足接入限制的前提下最大化系统中所有用户的长期效用之和；

求解模块采用马尔科夫决策过程对用户在网络中的切换进行建模，求解最大化系统中所有用户的长期效用之和；基于马尔科夫决策过程，结合大规模LEO网络特点，设计串行式深度Q学习算法，通过用户与环境的交互进行学习，不断改进策略，根据卫星状态评估其价值，将所得价值作为用户切换的依据，得到最优的切换决策。

本发明还可以提供一种用户终端，在大规模LEO卫星网络的下行传输系统中通信，包括处理器以及存储器；存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述面向大规模LEO卫星网络的串行Q学习分布式切换方法。

与现有技术相比，本发明至少具有以下有益效果：本发明充分考虑了大规模LEO卫星网络中卫星数量激增的特点，设计了一套面向大规模LEO卫星的切换机制，使用户能够有效追踪高度动态的网络环境；联合考虑了用户传输需求以及星间流量负载均衡，将卫星切换问题转化为长期效用函数最大化问题；设计了分布式串行深度Q学习算法，使用户能在不获取全局信息的情况下，以较低的复杂度有效求解长期效用函数最大化问题，提高了系统性能。

附图说明

图1为本发明设计的切换机制中的切换帧划分示意图。

图2为本发明建立的串行深度Q学习算法示意图。

图3为本发明方法与对比方案下的平均收益随卫星可用信道数的变化曲线。

图4为本发明方法与对比方案下的平均吞吐量随卫星可用信道数的变化曲线。

图5为本发明方法与对比方案下的强制中断次数随卫星可用信道数的变化曲线。

具体实施方式

下面结合附图对本发明进行详细阐述。

考虑在大规模LEO卫星网络中的下行传输场景，包括M颗LEO卫星和N个地面用户；将卫星索引集表示为用户索引集表示为/>每颗卫星的最大可用信道数为C_max。将时间划分为长度为t_s的时隙，当用户有业务到达时，从其可视范围内的卫星中选择一颗进行接入与数据传输。在时隙t，用户i与其可视卫星j间的完整信道增益Q_i,j(t)可以表示为：

其中，L_i,j(t)为自由空间衰落，为卫星天线增益，G_T为用户天线增益，h_i,j(t)为小尺度信道增益，h_i,j(t)是一个服从阴影莱斯衰落模型的随机变量，其概率密度函数由仰角θ_i,j(t)决定，表示为：

其中，2b_i,j与Ω_i,j分别表示用户i与卫星j之间的多径传输与视距传输的平均功率，而m_i,j表示Nakagami-m衰落参数，₁F₁(·,·,·)为合流超几何函数，式中所有参数均由仰角θ_i,j(t)决定，仰角θ_i,j(t)指在t时隙用户i所在水平面与卫星j的连线所成角度，参数b_i,j，Ω_i,j与m_i,j可表示为：

h_i,j(t)在一个时隙内保持不变，并且由于卫星位置在一个时隙内不会发生显著的变化，因此而仰角θ_i,j(t)在时隙内被视为静态，不难发现，所建立的信道模型可以通过一个时变的概率密度函数来描述，此概率密度由仰角决定。

面向大规模低轨星座的分布式卫星切换方法

如图1所示，将时隙按照切换帧划分，每个切换帧包括了T_H个时隙，每个切换帧都可以被划分为两个部分，分别是切换阶段与数据传输阶段。两个阶段所占据的时间随着切换帧而变换。每个切换阶段包含T_A个时隙，用以切换时的信令交换以及星上处理，如果由于用户与卫星间的信道质量不佳而导致了中断，那么本次切换将失败，在这种情况下，用户需要重新执行持续时间为T_A个时隙的切换过程，直到本切换帧结束。此外，如果用户在本切换帧结束时始终未能切换成功，或者新接入的卫星没有可用的空闲信道，那么用户的本次服务会强制中断。

在时隙t，用户i与卫星j的传输速率为：

其中，B为信道带宽，P_K为发射功率，Q_i,j(t)为信道功率增益，σ²为平均噪声功率。中断概率表示为：

其中，R_min为最小传输速率要求，为对应的小尺度信道最小功率增益要求。

综上所述，建立的切换机制可以总结如下：

如果用户在当前切换帧决定不切换至新的卫星，那么用户将会继续与当前卫星保持连接并且本帧中全部的T_H个时隙都可被用于数据传输。

如果用户决定切换至其他卫星，那么T_A个时隙将会被用于执行切换过程。

如果一次切换过程失败，那么新的切换过程将会被重新执行。

一个切换帧内切换过程所能执行的最大的次数为其中/>为向下取整函数，若在/>次后用户成功接入，则当前切换帧中剩余的T_H-KT_A个时隙将用于数据传输。

如果所有的次切换过程均失败，那么用户本次服务强制中断。

假设用户i在t_a时隙有业务到达并且在t_e时隙结束，那么用户i做决定的时隙可以表示为其中L为满足t_a+LT_H≤t_e的最大整数。β_i,j(t)∈{0,1}用来表示用户i在t时隙对卫星j的切换决策，β_i,j(t)＝1表示用户i在t时隙选择接入卫星j；β_i,j(t)＝0表示用户i不会选择卫星j。γ_i,j(t)∈{0,1}表示用户i在t时隙对卫星j的连接情况，γ_i,j(t)＝1表示用户i已经连接至卫星j，γ_i,j(t)＝0表示连接未成功建立。

每个数据包的大小为S_p，用户每发送一个数据包，便能收到B_p的回报。因此用户i在时隙t内能收到的来自卫星j的收益可以表示为：

其中，为向下取整函数，R_min为最小传输速率要求，t_s为单个时隙的长度。

一旦卫星j接收到用户i的接入请求，无论用户是否已经成功接入，卫星都要为其预留信道。因此从接入阶段与数据传输阶段，用户i都要为占用的信道资源付出相应的开销，用户i在时隙t时因为占用卫星j的信道资源所需付出的开销为：

其中B_C为占用信道的最小开销，为用户i决定切换至卫星j的时隙，x_j(t)表示t时隙时卫星j被占用的信道数，/>为开销因子。为了有效的实现星间负载均衡并且保证用户传输的公平性，将/>设计为一个类Sigmoid函数的形式，表示为：

其中K_C为的上界，C_max是每颗卫星的最大可用信道数。不难发现，如果用户i选择卫星j执行切换，那么用户i在每个时隙需要付出的开销由卫星在/>时的空闲信道数决定，/>就是用户i决定切换至卫星j的时隙。如果用户i与卫星j间的连接关系不变，那么用户i每个时隙需要付出的开销也不变。

综上所述，在时隙t，用户i从卫星j处得到的效用函数为

根据所建立的效用函数，将星间切换问题转换为系统长期效用函数之和最大化的问题，表示为：

其中β(t)＝[β_i,j(t)]_N×M为所有用户的切换决策矩阵，同时也是优化的变量；限制条件分别为：表示用户最多只能选择一颗卫星切换；/>表示单颗卫星最多服务C_max个用户；/>表示切换决策只会在切换帧结束时做出，而在帧内维持不变；β_i,j(t)∈{0,1}与γ_i,j(t)∈{0,1}都为二元变量限制。

为了解决所构建的系统长期效用最大化问题，本发明基于大规模卫星网络特点，设计了一种强化学习算法，名为串行式深度Q学习(Successive Deep Q-Learning，SDQL)算法，以有效解决长期效用最大问题。

首先建立标准的马尔科夫决策过程(Markov Decision Processes，MDP)框架如下：

1)智能体：由于每个用户独立地进行切换决策，因此每个用户都是一个智能体，其通过与环境的交互独立地做出切换决策。

2)状态：在每个时隙的开始更新当前状态。对于用户/>状态可以表示为：

其中，θ_i,j(t)为用户i与卫星j间在t时隙的仰角；为了表征卫星的运动性，定义是在t时隙用户i预计占用卫星j的信道时将产生的开销，而γ_i,j(t)∈{0,1}表示t时隙时用户i与卫星j间的连接状态。具体表示表示为：

其中，x_j(t)表示卫星j在t时隙时被占用的信道数。

3)动作：对于用户i而言，其在t时隙所做的动作可以表示为：

a_i(t)＝[β_i,1(t)…β_i,j(t)…β_i,M(t)]

上式表示用户i的切换决策。此外，动作a_i(t)需要满足优化问题中的限制条件：

4)收益：以用户i在上一切换帧中获得的平均效用作为回报，可以表示为：

基于以上四要素建立了标准MDP框架，然而由于大规模星座中巨大的卫星数量以及用户难以获取整个星座的全局信息，传统的深度强化学习算法难以应用；故利用大规模星座中可视卫星数量有限以及卫星间关联性弱等特点，本发明设计了一种串行式深度Q学习(Successive Deep Q-Learning，SDQL)算法。

图2展示了在SDQL算法下智能体与环境的交互过程。一个称为Q网络的深度神经网络用来将某一状态s下的动作a映射到其对应的价值，可写作(s,a)→Q(s,a|ω)，其中ω表示Q网络的权重与偏执向量，价值Q(s,a|ω)表示在状态s下采取动作a所预计带来的长期收益。整个映射过程完全由网络自行完成而不需要人为设定限制。整个SDQL算法可以被划分为决策阶段以及训练阶段：

1)决策阶段：

在决策阶段，用户使用当前网络参数进行切换决策。当由于当评估某颗卫星价值时，其他卫星的状态对其几乎没有影响，因此将原状态矩阵s_i(t)重构列表其包含了所有可见卫星的子状态，可表示为：

其中s_i,j(t)表示用户i获得的关于卫星j的状态，表示为：

为用户i在t时隙所有可见卫星的索引，/>表示可见卫星的数量。

由于星座中卫星的运动模式相同，因此可以用一个神经网络来评估不同卫星的价值。如图2所示，一个全连接网络Q用于卫星价值的评估。由于对于任意一个子状态s_i,j，仅由一个动作即a_i,j与之对应，因此当参数ω固定时，网络Q的输出完全由状态s_i,j决定，将其表示为Q(s_i,j|ω)。通过将列表中的子状态串行输入网络Q，得到包含所有子状态Q值的列表/>可表示为：

根据对于用户i而言在t时隙最优的卫星/>可以表示为：

2)训练阶段：

在此阶段，用户根据来自环境的反馈更新网络Q中的参数ω。假设用户i选择卫星j，则记录S＝s_i,j(t)以及A＝j；在一个切换帧结束后，用户i记录下收益R以及状态S'，可以表示为：

其中表示了卫星j在经过了一个切换帧后变得不可见的特殊情况。智能体将获得的经验四元组{S,A,R,S'}存入经验池中，再从中随机取出一批四元组来更新网络参数ω以最小化损失函数L(ω)，损失函数L(ω)表示为：

L(ω)＝E[(R+γQ_t-Q(S|ω))²]。

其中γ为折扣因子，Q_t为目标Q值，可以表示为：

其中Q'是与网络Q有着相同结构的目标网络。

具体算法过程如算法1所示：

另一方面本发明还提供一种面向大规模LEO卫星网络的串行Q学习分布式切换系统，包括切换机制设计模块、转化模块以及求解模块；

也可以提供一种用户终端，在大规模LEO卫星网络的下行传输系统中通信，包括处理器以及存储器；存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述面向大规模LEO卫星网络的串行Q学习分布式切换方法。所述用户终端可以是移动设备、手持式计算机、平板计算机、可穿戴设备、智能手表或能够与用户交互的任何类型的设备。另外，用户终端可以是向各种最终终端用户设备和/或各种公共或专用网络提供连接的网络侧设备；处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、平板电脑、手机或车载计算机的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

数值仿真与结果分析

1)仿真参数设置

本发明通过仿真来评估所提方案的系统性能。仿真中构建了一个类OneWeb的大规模低轨星座，由18个轨道平面构成，每个轨道平面上有40颗卫星。每个轨道面的高度都为1200km，倾角为90度。可视卫星的最小仰角设定为20度。用户均匀地分布在一个边长为220km，以(40°N，116°E)为中心的正方形热点区域当中。用户的业务到达服从到达率为λ的波束过程，单次业务持续期服服从以T_m为均值的指数分布。由于卫星的移动速度远大于地面用户的移动速度，因此假设用户是静止的，但随地球自转而运动。每个用户使用一个含有两层隐藏层的全连接神经网络，每个隐藏层分别有240个与250个神经元。采用修正线性单元(Rectified Linear Unit，ReLU)作为每个神经元的激活函数。学习率α＝5×10^-5，折扣率γ＝0.9，探索率ε初始时被设定为1，随后逐渐下降至0.1。其余的参数如表1所示：

表1仿真参数表

/>

为了证明本发明所提出的基于串行深度Q学习的分布式星间切换方法的优越性，将所述方案与传统的最大仰角(Maximum Elevation，ME)切换方案、最大空闲信道数(Maximum Number of Free Channels，MNFC)切换方案进行了对比分析。其中ME切换方案下用户总选择具有最大仰角的可视卫星进行切换，而MNFC方案下用户总选择空闲信道数最多的卫星进行接入。

图3、图4和图5分别展示了在用户数量分别为50与100的两种场景下，平均收益，平均吞吐量以及强制中断次数这三项性能指标在本发明所提出方案与ME方案以及MNFC方案下随卫星最大可用信道数C_max的变化曲线。可用看出，随着卫星可用信道数的增加，所有性能指标都有所提高，但本发明提出方案性能优于其他对比方案。这是由于在所提出的方案中，用户能够通过与快速变换的环境的交互，不断动态调整自身的接入策略，并且在这个过程中始终以最大化长期收益为目标。此外，由于用户的数据传输以及卫星间流量均衡都已经在效用函数的设计中被充分考虑，因此在用户追求收益最大化的过程中，也能保证平均吞吐量以及强制中断次数这两项指标的优越性。

综上所述，本发明提出的面向大规模LEO卫星网络的串行Q学习分布式切换方法，充分考虑并利用了大规模低轨卫星网络的特点，将卫星切换问题转化问效用函数最大化问题，并设计了一种低复杂度的串行式深度Q学习算法对问题进行有效求解，获得了较高的系统性能。仿真结果表明：与现有的卫星切换方案相比，本发明面向大规模低轨卫星网络的基于串行深度Q学习的分布式星间切换有效提高了用户的收益以及系统的吞吐量，同时降低了用户的强制中断次数，具有更优的系统性能。

以上内容是对本发明的详细说明，不能认定本发明的仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种面向大规模LEO卫星网络的串行Q学习分布式切换方法，其特征在于，包括以下步骤：

基于大规模LEO卫星网络的下行传输系统，设计大规模LEO卫星下行传输网络中用户与卫星间的切换机制；所述切换机制具体为：将T_H个时隙定义为一个切换帧，用户每隔一个切换帧进行一次切换决策；根据用户所做出的切换决策，分为两种情况，如果用户选择不切换至新的卫星，那么在之后的切换帧中，全部的T_H个时隙都将用于用户与当前卫星的数据传输；如果用户选择切换至新的卫星，则消耗T_H个时隙用于切换时的信令交换以及星上处理，所消耗T_H个时隙的时间段称为切换阶段；在切换阶段，用户不能进行数据传输；系统中断的情况下重新执行持续T_A个时隙的切换阶段，直到用户成功接入新的卫星，在一个切换帧中，切换阶段最多行次，其中/>为向下取整函数，若在K次切换阶段后用户成功接入，则当前切换帧中剩余的T_H-KT_A个时隙用于数据传输；

联合考虑根据用户的数据传输情况以及卫星间流量分布情况，设计效用函数并构建优化问题，在满足接入限制的前提下最大化系统中所有用户的长期效用之和；具体的，将用户传输需求以及卫星间流量负载均衡联合考虑，设计效用函数将切换问题转换为整个系统长期总效用函数的之和的最大化问题，将在时隙t，用户i从卫星j处得到的总收益作为效用函数，表示为：

其中，γ_i,j(t)与β_i,j(t)分别表示连接情况与用户的决策，为用户i在时隙t内能收到的来自卫星j的回报，/>为用户i在时隙t时因为占用卫星j的信道资源所需付出的开销；基于所述效用函数，切换问题转换为在满足接入限制的前提下最大化系统中所有用户的长期效用之和，

其中，β(t)为所有用户的切换决策矩阵，同时也是优化的变量；限制条件分别为：表示用户最多只能选择一颗卫星切换；/>表示单颗卫星最多服务C_max个用户；/>表示切换决策只会在切换帧结束时做出，而在帧内维持不变；β_i,j(t)∈{0,1}与γ_i,j(t)∈{0,1}都为二元变量限制；

2.根据权利要求1所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法，其特征在于，所述大规模LEO卫星网络的下行传输系统包括M个LEO卫星和N个地面用户；将卫星索引集表示为用户索引集表示为/>每颗卫星的最大可用信道数为C_max，将时间划分为长度为t_s的时隙，当用户有业务到达时，从其可视范围内的卫星中选择一颗接入与数据传输；在时隙t，用户i与其可视卫星j间的完整信道功率增益Q_i,j(t)为：

3.根据权利要求1中所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法，其特征在于，在时隙t，用户i与卫星j的传输速率为：

4.根据权利要求1所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法，其特征在于，采用马尔科夫决策过程对用户在网络中的切换进行建模具体为：将切换过程建模为一个马尔科夫决策过程，其中包括智能体、状态、动作以及收益四要素，采用分布式决策，每个用户独立地进行卫星切换的决策，

对于用户i而言，其在t时隙所做的动作为用户i的切换决策：

a_i(t)＝[β_i,1(t) … β_i,j (t) … β_i,M(t)]

5.根据权利要求4所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法，其特征在于，在标准马尔科夫决策过程的基础上，结合大规模卫星网络特点，设计串行式深度Q学习算法对优化问题进行求解，具体如下：

其中s_i,j(t)表示用户i获得的关于卫星j的状态，表示为：

根据列表对于用户i而言最优的卫星为：

其中γ为折扣因子，Q_t为目标Q值，可以表示为：

S04：若用户业务结束，则停止；否则重复步骤S01至S03。

6.面向大规模LEO卫星网络的串行Q学习分布式切换系统，其特征在于，包括切换机制设计模块、转化模块以及求解模块；

切换机制设计模块用于在基于大规模LEO卫星网络的下行传输系统中，设计大规模LEO卫星下行传输网络中用户与卫星间的切换机制；所述切换机制具体为：将T_H个时隙定义为一个切换帧，用户每隔一个切换帧进行一次切换决策；根据用户所做出的切换决策，分为两种情况，如果用户选择不切换至新的卫星，那么在之后的切换帧中，全部的T_H个时隙都将用于用户与当前卫星的数据传输；如果用户选择切换至新的卫星，则消耗T_H个时隙用于切换时的信令交换以及星上处理，所消耗T_H个时隙的时间段称为切换阶段；在切换阶段，用户不能进行数据传输；系统中断的情况下重新执行持续T_A个时隙的切换阶段，直到用户成功接入新的卫星，在一个切换帧中，切换阶段最多行次，其中/>为向下取整函数，若在K次切换阶段后用户成功接入，/>则当前切换帧中剩余的T_H-KT_A个时隙用于数据传输；

转化模块用于联合考虑根据用户的数据传输情况以及卫星间流量分布情况，设计效用函数并构建优化问题，在满足接入限制的前提下最大化系统中所有用户的长期效用之和；具体的，将用户传输需求以及卫星间流量负载均衡联合考虑，设计效用函数将切换问题转换为整个系统长期总效用函数的之和的最大化问题，将在时隙t，用户i从卫星j处得到的总收益作为效用函数，表示为：

7.一种用户终端，其特征在于，在大规模LEO卫星网络的下行传输系统中通信，包括处理器以及存储器；存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现权利要求1～5中任一项所述面向大规模LEO卫星网络的串行Q学习分布式切换方法。