CN117692051A

CN117692051A - 低轨卫星平面间星间链路规划和功率分配的联合优化方法

Info

Publication number: CN117692051A
Application number: CN202311841898.0A
Authority: CN
Inventors: 雒江涛; 陈凯欣; 冉泳屹
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-03-12

Abstract

本发明公开了一种低轨卫星平面间星间链路规划和功率分配的联合优化方法，涉及卫星通信技术领域。方法包括：S1、基于卫星通信模型、星间链路能效模型和天线切换成本模型建立平面间星间链路规划和功率分配的联合优化目标；S2、根据星座环境信息和联合优化目标构建卫星智能体的状态空间、动作空间和奖励函数；S3，根据S2建立单个智能体的决策网络；S4，基于决策网络逐轨道平面地对星座中的智能体进行训练，直至网络参数收敛，得到智能体所在卫星与其他卫星之间的最优匹配链路及功率分配方案。本发明的星间链路和功率分配优化方法在提高星座整体能效和总吞吐量的加权收益的同时，降低平面间星间链路的切换成本。

Description

低轨卫星平面间星间链路规划和功率分配的联合优化方法

技术领域

本发明涉及卫星通信技术领域，尤其涉及一种低轨卫星平面间星间链路规划和功率分配的联合优化方法。

背景技术

近年来，低地球轨道(LEO)卫星星座已成为一种新兴且有前途的技术，低轨卫星系统被认为是未来6G时代空天地一体化网络的关键组成部分。许多头部公司，如SpaceX、OneWeb和亚马逊，都试图部署一个大型的LEO卫星星座，以提供稳定的宽带互联网服务。由于低轨卫星的高速运动，其星座拓扑具有高度动态性，导致在实时连接时星间链路切换频繁。由于低轨卫星相对位置时变、业务量时变和有限的电池能量，频繁切换导致的消耗将降低轨道卫星网络的整体性能。因此亟需设计一种低轨卫星星间链路规划和功率分配的联合优化方法，在卫星可用能量范围内优化星间链路传输功率，实现更高的数据传输速率，以提高低轨卫星网络的整体性能。

发明内容

本发明提供一种低轨卫星平面间星间链路规划和功率分配的联合优化方法，以解决由于低轨卫星网络位置时变、业务量时变、频繁切换的特点，导致建立平面间星间链路切换成本高，网络的整体性能降低的问题。

本发明通过下述技术方案实现：

一种低轨卫星平面间星间链路规划和功率分配的联合优化方法，包括以下步骤：

步骤S1，基于卫星通信模型、星间链路能效模型和天线切换成本模型建立星间链路规划和功率分配的联合优化目标，所述联合优化目标包括星间链路通信速率、星间链路传输能效和天线切换成本；

步骤S2，根据星座环境信息和所述联合优化目标构建卫星智能体的状态空间、动作空间和奖励函数；

步骤S3，根据所述状态空间、动作空间和奖励函数建立单个智能体的决策网络；

步骤S4，基于所述决策网络逐轨道平面地对星座中的智能体进行训练，直至网络参数收敛，得到智能体所在卫星与其它卫星之间的最优匹配链路及功率分配方案。

本发明针对低轨卫星相对位置时变、业务量时变和有限的电池能量，提出一种低轨卫星平面间星间链路规划和功率分配联合优化方法，以星间链路通信速率、星间链路传输能效和天线切换成本为联合优化目标，建立单个智能体决策网络，动态规划星间链路和分配发射功率，在算法收敛后，每个智能体都可以做出最优的决策，从而提高星座整体能效和总吞吐量，同时降低平面间星间链路的切换成本。

进一步地，所述星间链路通信速率表示为：

其中，e_uv表示可建链卫星对(u,v)之间的星间链路，是卫星u和卫星v之间的通信速率，B为信道带宽，SNR_uv为卫星u和卫星v之间的信噪比；

所述星间链路传输能效表示为：

其中，是在第t时隙卫星u和卫星v之间链路传输消耗的能量，/>为t时隙卫星u和卫星v之间的链路通信速率，/>为卫星u和卫星v之间的链路传输功率；

所述天线切换成本表示为：

其中，是第t个时隙建立卫星u和卫星v之间的通信链路e_uv所需的天线转向角，/>为卫星u的平均天线转向角，/>为卫星v的平均天线转向角，E_t-1表示第(t-1)个时隙星座中星间链路的集合；

进一步地，所述可建链卫星对之间的视线距离小于欧几里得距离。

进一步地，所述状态空间表示为：S_i,t＝{D_i,t,C_i,t,ω_i,t}，

其中，D_i,t为智能体i所在卫星在第t个时隙与视距范围内的下一轨道平面上的各个卫星之间的距离的集合，C_i,t为智能体i所在卫星在第t个时隙时的电池容量，ω_i,t为智能体i所在卫星在第t个时隙待转发到下一轨道平面上的数据量，S_i,t表示智能体i在第t个时隙的状态空间。

进一步地，所述动作空间表示为：

其中，v_i,t∈V_i,t，V_i,t为卫星i在第t个时隙视距范围内的下一轨道平面上的卫星集合，表示智能体i与卫星v_i,t建立星间链路时，分配给新建立的星间链路的功率，a_i,t表示智能体i在第t个时隙的动作空间。

进一步地，所述奖励函数表示为：

其中，表示在第t个时隙、智能体i与所选择的动作v_i,t对应的卫星的星间链路，表示星间链路/>的能效，/>表示星间链路/>的数据传输速率，/>表示建立星间链路/>时产生的天线切换成本，α₁、α₂和α₃为权重因子，κ_i为链路冲突因子；

当星间链路没有链路冲突时，κ_i＝1；

当存在链路冲突时，如果星间链路的传输能效和传输速率的加权和大于智能体i与其它卫星建立的星间链路的传输能效和传输速率的加权和，则κ_i＝0.6，否则κ_i＝0.05。

进一步地，所述步骤S3包括：

定义智能体i的动作值函数：

其中，s_i为智能体i的状态，a_i为智能体i的动作。v_i为智能体i的星间链路规划动作，/>为智能体i为链路规划动作v_i分配的传输功率。智能体i在状态s_i,t下选择动作/>得到关于智能体i的贝尔曼方程：

其中，表示在状态s_i,t下执行/>即从这个状态和动作开始，智能体i在未来可以获得的期望累积奖励；r_i,t是智能体i在第t个时隙的获得的即时奖励；γ为折扣因子；/>表示下一时刻的最大动作值，指智能体i会选择在下一步中能够带来最大值的动作，其中s_i,t+1是智能体i在下一个时隙的状态，sup()表示最小上界；s_i,t＝s_i表示当前时刻智能体i的状态，s_i,t为智能体i在第t个时隙的状态，而s_i指状态空间中的一个具体状态。

根据确定的Q函数，对于任意给定的v_i，得到状态空间s_i的函数：

使用深度神经网络来近似价值网络/>使用确定性策略网络/>来近似/>得到单个智能体决策网络：

其中，w_i为价值网络参数，θ_i为策略网络参数。

进一步地，所述步骤S4中的智能体训练过程包括以下步骤：

步骤S310，初始化价值网络参数w_i、策略网络参数θ_i、价值网络的学习率α、策略网络的学习率β和探索率ξ，

步骤S320，初始化一个经验回放池D，所述经验回放池D用于存储状态转移数据；

步骤S330、从经验回放池D中随机采样小批量的状态转移数据，计算目标值y_i,b、θ_i的损失函数l_t(θ_i)和w_i的损失函数l_t(w_i)，更新价值网络参数w_i、策略网络参数θ_i，直到网络参数收敛，得到智能体i所在卫星与其它卫星之间的最优匹配链路及功率分配方案。

进一步地，步骤S320包括：

步骤S321，初始化经验回放池D；

步骤S322，在第t个时隙，智能体i观测当前状态信息s_i,t，通过策略网络输出连续参数，即传输功率分配值/>通过贝尔曼方程最大化获取星间链路规划动作v_i,t。具体地，通过/>获取/>“←”表示参数的更新，指将策略网络/>的输出值赋给/>通过/>获取离散动作v_i,t，在/>和v_i,t基础上根据ξ-greedy策略选择动作a_i,t，并执行a_i,t，在系统中建立相应的星间链路并为其分配功率；

步骤S323，观测下一时隙智能体i的状态空间s_i,t+1，并获取奖励数据r_i,t，将状态转移数据[s_i,t,s_i,t+1,a_i,t,r_i,t]存储到经验回放池D中。

进一步地，步骤S330包括：

步骤S331，在经验回放池中随机采样小批量状态转移数据[s_i,b,s_i,b+1,a_i,b,r_i,b]，b指采样的小批量中第b个样本，每个状态转移元组包括智能体i当前状态s_i,b、下一个状态s_i,b+1、选择的动作a_i,b以及即时奖励r_i,b；

步骤S332，计算每个样本的目标值：以用于训练值网络，其中，γ为折扣因子；

步骤S333，计算价值网络的损失函数l_t(w_i)和策略网络的损失函数l_t(θ_i)：

其中，y_i,b是目标值，是当前价值网络在状态s_i,b、动作情况下的预测值，通过最小化预测值和目标值之间的均方误差，使得价值网络逐渐逼近真实的最优值函数。

其中，表示当前价值网络在状态s_i,b、星间链路规划动作v_i,b和策略网络所输出的传输功率分配值/>情况下的预测值，通过最大化当前状态下各个/>的价值，来优化策略网络的参数，使得策略网络选择更合适的功率分配值。

步骤S334，更新价值网络参数和策略网络参数，更新公式为：

其中，α和β分别是价值网络和策略网络的学习率，是智能体i的价值网络损失函数关于参数w_i的梯度，/>是智能体i的策略网络损失函数关于参数θ_i的梯度，“←”表示参数的更新；

步骤S335，重复步骤S331-S334，直到智能体i的策略网络和价值网络收敛。

本发明与现有技术相比，具有如下的优点和有益效果：

1、以星间链路通信速率、星间链路传输能效和天线切换成本为联合优化目标，建立单个智能体决策网络，动态规划星间链路和分配发射功率，每个智能体都可以做出最优的决策，从而提高星座整体能效和总吞吐量，同时降低平面间星间链路的切换成本。

2、针对联合优化时存在的离散和连续混杂行动空间问题以及高维高动态特性，引入参数化动作空间，根据当前星座环境信息构建状态空间、动作空间和奖励函数，基于参数化深度强化对智能体进行训练，直至收敛，实现能效感知的精细化星间链路动态适配。

3、为了避免“维数诅咒”问题，对智能体进行逐轨训练，并设计了一种链路切换冲突惩罚机制来权衡卫星之间的决策，从而得到最优的决策结果。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1是低轨卫星星座环境和智能体决策网络图；

图2是本发明实施例的一种低轨卫星平面间星间链路规划和功率分配的联合优化方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于或设备固有的其它步骤或单元。

在本申请的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本申请的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本申请的各种实施例中被清楚地限定。

本发明的实施例提供一种低轨卫星平面间星间链路规划和功率分配的联合优化方法，适用于低轨卫星星座链路规划，有利于提高星座整体能效和总吞吐量，同时降低平面间星间链路的切换成本。

如图1所示，图1是低轨卫星星座环境和智能体决策网络图。本发明采用极轨星座，由M个均匀分布的极轨道平面，N颗低轨卫星组成。每个轨道平面m∈{1,...M}以给定的轨道倾角ε_p、轨道高度h部署在地球表面上。定义卫星u在直角坐标系中的位置为{x_u,y_u,z_u}，其所在轨道平面为m_u。星座可以表示为一个无向图g＝(V,E)，V表示顶点(卫星)集合，E表示边(星间链路)集合，e_uv表示卫星u和卫星v之间的星间链路。

在本实施例中，每个低轨卫星总共配备四条星间链路，两条平面内星间链路用于连接位于同一轨道平面的相邻卫星，另外两条平面间星间链路用于连接来自不同轨道平面上的卫星。每个卫星都被视为一个智能体，每个智能体根据从星座环境中获取的状态和奖励进行决策网络的训练，在网络参数收敛后，对于每个智能体输入状态信息，可得到每个智能体的最优输出决策。

在正式描述本发明的低轨卫星平面间星间链路规划和功率分配的联合优化方法之前，为加深理解，下面先对构建智能体决策网络所依据的星间链路模型进行介绍。

基于上述图1中的低轨卫星星座环境设置，建立星间链路的两个卫星之间的通信模型、能量模型、能效模型和天线切换成本模型。

一、建立卫星之间的通信模型

将发射卫星u和接收卫星v定义为一个卫星对(u,v)，如果卫星对uv之间满足建立平面间星间链路的条件，则uv为可建链卫星对。卫星对uv之间的欧几里得距离表示为：

其中，卫星u在直角坐标系中的位置为{x_u,y_u,z_u}，卫星v在直角坐标系中的位置为{x_v,y_v,z_v}。

卫星对uv之间的视线距离可以表示为：

d_horiz＝2[h(h+2R_E)]^1/2

其中，h表示卫星轨道对地高度，R_E表示地球半径。

若两个卫星之间的欧式距离大于它们之间的视线距离，则视线将受到地球的遮挡，因此建立平面间星间链路的条件为：

d_uv<d_horiz

本发明中可建链卫星对不考虑位于“隙缝”区域的卫星对和位于同一平面内的卫星对，“隙缝”指第一个平面卫星和第M个平面卫星之间的区域(如图1左侧所示)，它们以相反的方向运动，具有很大的相对速度，难以维护平面间星间链路。而同一平面内的卫星之间的星间链路是稳定的，不在可建链卫星对定义范围内。根据以上分析，将可建链卫星对集合表示为：

其中，将轨道平面从1到m进行编号，m_u表示卫星u所在轨道平面，m_v表示卫星v所在平面，卫星轨道总数为M。

卫星之间的通信发生在自由空间环境中，主要受到自由空间路径损耗和热噪声功率的影响，本发明假设热噪声为加性高斯白噪声。对于可建链卫星对(u,v)，在第t个时隙其自由空间路径损耗为：

L_uv＝[(4πd_uvf)/c]²

其中，f表示载波频率，c表示光速。

在这一基础上，即可通过发射端功率计算接收端功率：

其中，P_tran为发射端功率，P_rec为接收端功率，G_tran、G_rec分别为发射端和接收端的天线增益。

传输损耗系数η_uv为：

卫星对之间的信噪比为：

其中，k_B为玻尔兹曼常数，T_e为热噪声，单位为开尔文，B为信道带宽。

本发明假设所有卫星都有足够窄的天线波束，并具有精确的波束对准能力。因此，卫星可以在无干扰的环境下进行通信。在无干扰环境下，卫星u与卫星v之间的最大通信速率为：

二、建立卫星能量模型

将系统分为多个时隙，每个时隙持续时间为δ，第t个时隙持续时间记为δ(t)，一个卫星周期共有N_d个时隙。

当卫星处于阳光下时，卫星上配备的太阳能电池板从太阳辐射中收集能量，并且卫星消耗的能量优先从收集的能量中提取。然而，当卫星在太阳的背面时，卫星无法收集能量，因为地球将其屏蔽在阳光下，消耗的能量需要从电池中提取。将卫星u在第t个时隙收集能量的功率表示为：

其中，τ表示能量收集常数，当卫星处于阳光下时τ＝1，当卫星处于阳光背面时τ＝0。表示太阳能电池板将太阳能转换成电能的能量转换效率，/>是单位面积的太阳能照射，A_e是太阳能电池板的面积，σ表示太阳能电池板与阳光的夹角。

卫星u在第t个时隙收集的能量可以表示为：

对于整个卫星周期，假设卫星u的电池的最大容量为分配功率上限为/>则在第t个时隙，卫星u在时隙t开始时的能量为C_u,t，最大实时分配功率/>为:

将卫星u分配给平面内星间链路和其他操作的总功率表示为P₀，分配给正向平面间星间链路的功率为则卫星u分配的总功率为:

因此，卫星u消耗的能量为:

那么，在δ(t)期间收集的能量和消耗的能量之间的差值为:

第(t+1)个时隙的电池容量为:

三、建立能效模型

为了合理分配卫星的功率，本发明介绍了能源效率。对于第t个时隙，假设到达卫星u的数据包数量服从均值为ρ的泊松分布，每个数据包的大小为F_f。在第t个时隙到达卫星u的数据量为ω_u,t，卫星u实际发送给卫星v的数据量为则卫星u和卫星v之间平面间星间链路的能效定义为：

其中，表示在δ(t)期间卫星u和卫星v之间链路传输消耗的能量，/>为卫星u和卫星v之间的链路通信速率，/>为卫星u和卫星v之间的链路传输功率。

此外，为了使每个平面间星间链路既能满足大部分服务需求，又避免通信速率大于服务需求而浪费能量，其通信速率必须受到如下双重限制：

其中，λ为满意度因子。

四、建立切换成本模型

本发明利用天线转向角度来估计天线转向成本。卫星u的天线由对准卫星v₁到对准卫星v₂的天线转向角为：

为了度量平面间星间链路切换成本的影响，定义卫星u的平均天线转向角为：

其中，和/>分别是在第t个时隙满足条件uv∈Y_t的相对于卫星u正负方向上的卫星集合，/>和/>分别是集合/>和/>中的卫星数量，Y_t为可行卫星对集合。

定义第t个时隙建立e_uv得到的天线转向角为：

五、建立优化指标和目标优化函数

为了提高能源效率和星座吞吐量，并降低平面间星间链路的切换成本，本发明对平面间星间链路的规划和功率分配做出决策，确定以星间链路通信速率、星间链路传输能效和天线切换成本为联合优化指标，建立联合优化目标函数。对于第t个时隙，将效用函数定义为：

其中，α₁、α₂和α₃都为权重因子，e_uv表示卫星u和卫星v之间的星间链路，表示e_uv的能效，/>表示e_uv的数据传输速率，/>表示建立e_uv时产生的链路切换成本。因此，优化问题是最大化卫星网络的效用函数，可以表述为：

s.t.C1:uv∈Y_t

C2:e_uv∈E_t

C5:α₁,α₂,α₃

在上述目标函数中，约束条件C1表示：卫星u和卫星v属于可建链卫星对，Y_t为第t个时隙时系统可建链卫星对集合；约束条件C2表示：将星座表示为无向图g＝(V,E)，V表示顶点(卫星)集合，E表示边(星间链路)集合，e_uv属于第t个时隙时的边集合；约束条件C3表示：ω_u,t表示到达卫星u的数据量，δ(t)为时隙长度，λ为满意度因子，如果数据传输速率太小，则在时隙内传输数据太少，满意度过低，如果/>太大，则造成通信资源的浪费，为了解决这个问题，/>必须受到满意度和业务需求的双重限制；约束条件C4表示：在时隙t内卫星u分配给其正向平面间星间链路的功率P_uv,t与卫星其他操作所需功率P₀之和，应小于等于卫星可用总功率最大值/>约束条件C5表示权重因子根据满足能效、速率和切换成本三个影响因素的相对重要性来设置。

如图2所述，图2是本发明的低轨卫星平面间星间链路规划和功率分配的联合优化方法流程图，包括以下步骤

在步骤S1中，根据预先建立的卫星通信模型、星间链路能效模型和天线切换成本模型，得到联合优化低轨卫星星间链路规划和功率分配目的的优化指标。其中，星间链路通信速率采用下式表示：

式中，B为信道带宽，SNR_uv为可建链卫星对(u,v)之间的信噪比。

星间链路传输能效采用下式表示：

式中，表示在第t个时隙，即δ(t)期间卫星u和卫星v之间链路传输消耗的能量，/>为卫星u和卫星v之间的链路通信速率，/>为卫星u和卫星v之间的链路传输功率。

天线切换成本采用下式表示：

式中，是第t个时隙建立卫星u和卫星v之间的通信链路e_uv所需的天线转向角，/>为卫星u的平均天线转向角，/>为卫星v的平均天线转向角，E_t-1表示第(t-1)个时隙星座中星间链路的集合。

本发明的低轨卫星星间链路规划和功率分配的联合优化方法基于深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法。

在步骤S2中，根据图1中所示的星座环境和星座间模型，为智能体i构建状态空间、动作空间，以及基于优化目标构建智能体i的奖励函数。

由于动作空间是离散-连续混合动作空间，而深度增强学习算法(Deep Q-learning，DQN)适用于离散动作问题，DDPG适用于连续动作问题，所以本发明引入参数化动作空间，将动作空间改写为：

其中，V_i,t为卫星i在第t个时隙时视距范围内下一轨道平面卫星集合，为分配给星间链路的功率。一旦智能体i选择动作/>卫星i将与目标卫星v_i,t建立平面间星间链路，并将传输功率/>分配给已建立的星间链路。

S201，构建状态空间

对于第t个时隙，智能体i的状态空间为S_i,t＝{D_i,t,C_i,t,ω_i,t}，其中D_i,t为智能体i所在卫星与视距范围内下一轨道平面上的卫星的距离信息集合，C_i,t为智能体i所在卫星的电池能量状态，ω_i,t为智能体i所在卫星待转发到下一轨道平面上的数据量。其中，假设m_i为智能体i所在卫星位于的轨道平面，M为轨道平面的数量，定义((m_i+1)mod M)为智能体i所在卫星的下一轨道平面，向下一轨道平面建立的平面间星间链路为正向星间链路，反之为负向星间链路。每个卫星主动地决策正向星间链路，而负向星间链路被动地接受来自负向卫星的决策。

S202，构建动作空间

对于智能体i，将星间链路规划视为离散动作v_i,t，为星间链路分配传输功率视为连续动作决策动作定义为/>所有可能的a_i,t构成了智能体i的动作空间。

S203，构建奖励空间，智能体i的奖励函数为：

其中，表示智能体i和其第t个时隙所选动作v_i,t对应卫星之间的星间链路，表示/>的能效，/>表示/>的数据传输速率，/>表示建立/>时产生的链路切换成本，α₁、α₂和α₃为权重因子，κ_i为链路冲突因子。

链路冲突因子κ_i旨在根据链路选择冲突来调整智能体奖励，从而解决链路选择冲突问题，具体机制如下：没有链路冲突的智能体链路冲突因子κ_i＝1；存在链路冲突的智能体中，与目标卫星建立星间链路的传输能效和吞吐量加权和最大的智能体对应的κ_i＝0.6，否则κ_i＝0.05。

所有智能体合作来最大化相同的目标，对于星座，奖励定义为指除第M个轨道平面之外所有卫星的奖励之和，其中N为星座卫星总数，N_m为第M个轨道平面上的卫星个数。

在步骤S3中，根据所述状态空间、动作空间和奖励函数建立单个智能体决策网络，包括以下步骤：

基于参数化深度强化学习逐轨道平面地对智能体进行训练，直至收敛，实现能效感知的精细化星间链路动态适配。

将智能体i的动作值函数表示为：

其中，s_i为智能体i的状态，a_i为智能体i的动作，v_i为智能体i的星间链路规划动作，/>为智能体i为链路规划动作v_i分配的传输功率。智能体i在状态s_i,t下选择动作/>得到关于智能体i的贝尔曼方程：

式中，表示在状态s_i,t下执行/>即从这个状态和动作开始，智能体i在未来可以获得的期望累积奖励；r_i,t是智能体i在第t个时隙的获得的即时奖励；γ为折扣因子；/>表示下一时刻的最大动作值，指智能体i会选择在下一步中能够带来最大值的动作，其中s_i,t+1是智能体i在下一个时隙的状态，sup()表示最小上界；s_i,t＝s_i表示当前时刻智能体i的状态，s_i,t为智能体i在第t个时隙的状态，而s_i指状态空间中的一个具体状态。

当Q函数确定时，对于任意给定的v_i，状态s_i的函数为：

因此，本发明使用一个权值为w_i的深度神经网络来近似价值网络，使用一个权值为θ_i的确定性策略网络/>来近似/>

当价值网络参数w_i确定时，要找到一个满足下式的策略网络参数θ_i，满足：

本实施例中，步骤S4中，对单个智能体决策网络的具体训练方法为：

进一步地，步骤S320的具体实施步骤为：

步骤S321、初始化经验回放池

步骤S322、在第t个时隙，智能体i观测当前状态信息s_i,t，通过获取连续参数/>“←”表示参数的更新，指将策略网络/>的输出值赋给/>通过获取离散动作v_i,t。

为了系统能够发现潜在的更好的策略，引入ξ-greedy策略来保持系统的探索性。在和v_i,t基础上根据ξ-greedy策略选择动作a_i,t，并执行a_i,t，在系统中建立相应的星间链路并为其分配功率。

在ξ-greedy策略中，智能体在选择动作时有一定的概率进行探索，即选择一个随机动作，以便发现新的状态和策略。ξ-greedy策略定义了一个探索率(exploration rate)ξ，通常取值在0到1之间。在每次选择动作时，通过生成一个0到1之间的随机数，如果该随机数小于ε，则选择随机动作；如果大于等于ε，则选择根据已学习到的信息选择最优动作。

步骤S323，在智能体i执行动作后，观测下一时刻状态信息s_i,t+1，并获取奖励数据r_i,t，并将状态转移元组[s_i,t,s_i,t+1,a_i,t,r_i,t]存储到经验回放池。

进一步地，步骤S330的具体实施步骤为：

S331，在经验回放池中随机采样小批量状态转移数据[s_i,b,s_i,b+1,a_i,b,r_i,b]，b指采样的小批量中第b个样本，每个状态转移元组包括智能体i当前状态s_i,b、下一个状态s_i,b+1、选择的动作a_i,b以及即时奖励r_i,b；

S332，利用下面公式计算目标值：

其中，γ为折扣因子；

S333，计算智能体i的价值网络的损失函数和策略网络的损失函数。价值网络参数用最小二乘损失函数的梯度进行更新。将智能体i的价值网络的损失函数l_t(w_i)和策略网络的损失函数l_t(θ_i)设为

S334，更新各智能体的价值网络和策略网络。智能体i的价值网络参数w_i和策略网络参数θ_i更新公式为：

其中，α和β分别是价值网络和策略网络的学习率，是智能体i的价值网络损失函数关于参数w_i的梯度，/>是智能体i的策略网络损失函数关于参数θ_i的梯度，“←”表示参数的更新。

S335，重复步骤S331-S334，直到智能体i的策略网络和价值网络Q_i(w_i)收敛，得到智能体i所在的卫星与其他卫星之间的最优匹配链路及功率分配方案。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，包括以下步骤：

步骤S1，基于卫星通信模型、星间链路能效模型和天线切换成本模型建立平面间星间链路规划和功率分配的联合优化目标，所述联合优化目标包括星间链路通信速率、星间链路传输能效和天线切换成本；

2.根据权利要求1所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述星间链路通信速率表示为：

其中，e_uv表示平面间可建链卫星对(u,v)之间的星间链路，是卫星u和卫星v之间的通信速率，B为信道带宽，SNR_uv为卫星u和卫星v之间的信噪比；

所述星间链路传输能效表示为：

所述天线切换成本表示为：

其中，是第t个时隙建立卫星u和卫星v之间的通信链路e_uv所需的天线转向角，/>为卫星u的平均天线转向角，/>为卫星v的平均天线转向角，E_t-1表示第(t-1)个时隙星座中星间链路的集合。

3.根据权利要求2所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述可建链卫星对之间的视线距离小于欧几里得距离。

4.根据权利要求2所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述状态空间表示为：S_i,t＝{D_i,t,C_i,t,ω_i,t}，

5.根据权利要求2所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述动作空间表示为：

6.根据权利要求2所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述奖励函数表示为：

当星间链路没有链路冲突时，κ_i＝1；

7.根据权利要求1-6中任一项所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述步骤S3包括：

定义智能体i的动作值函数：

其中，s_i为智能体i的状态，a_i为智能体i的动作，v_i为智能体i的星间链路规划动作，/>为智能体i为链路规划动作v_i分配的传输功率，智能体i在状态s_i,t下选择动作/>得到关于智能体i的贝尔曼方程：

其中，表示在状态s_i,t下执行/>智能体i在未来可以获得的期望累积奖励；r_i,t是智能体i在第t个时隙获得的即时奖励；γ为折扣因子；表示下一时刻的最大动作值，指智能体i会选择在下一步中能够带来最大值的星间链路规划动作v_i，其中s_i,t+1是智能体i在下一个时隙的状态，sup()表示最小上界；s_i,t＝s_i表示当前时刻智能体i的状态，s_i,t为智能体i在第t个时隙的状态，而s_i指状态空间中的一个具体状态；

其中，w_i为价值网络参数，θ_i为策略网络参数。

8.根据权利要求7所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述步骤S4中的智能体训练过程包括以下步骤：

步骤S310，初始化价值网络参数w_i、策略网络参数θ_i、价值网络的学习率α、策略网络的学习率β和探索率ξ；

步骤S330，从经验回放池D中随机采样小批量的状态转移数据，计算目标值y_i,b、θ_i的损失函数l_t(θ_i)和w_i的损失函数l_t(w_i)，更新价值网络参数w_i、策略网络参数θ_i，直到网络参数收敛，得到智能体i所在卫星与其它卫星之间的最优匹配链路及功率分配方案。

9.根据权利要求8所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述步骤S320包括：

步骤S321，初始化经验回放池D；

步骤S322，在第t个时隙，智能体i观测当前状态信息s_i,t，通过策略网络输出连续参数，即传输功率分配值/>通过贝尔曼方程最大化获取星间链路规划动作v_i,t；通过获取/>“←”表示参数的更新，指将策略网络/>的输出值赋给/>通过/>获取离散动作v_i,t，在/>和v_i,t基础上根据ξ-greedy策略选择动作a_i,t，并执行a_i,t，在系统中建立相应的星间链路并为其分配功率；

10.根据权利要求8所述的低轨卫星平面间星间链路规划和功率分配的联合优化方法，其特征在于，所述步骤S330包括：

其中，y_i,b是目标值，是当前价值网络在状态s_i,b、动作情况下的预测值，通过最小化预测值和目标值之间的均方误差，使得价值网络逐渐逼近真实的最优值函数；

其中，表示当前价值网络在状态s_i,b、星间链路规划动作v_i,b和策略网络所输出的传输功率分配值/>情况下的预测值，通过最大化当前状态下各个/>的价值，来优化策略网络的参数，使得策略网络选择更合适的功率分配值；

步骤S334，更新价值网络参数和策略网络参数，更新公式为：