CN114665952A

CN114665952A - 一种基于星地融合架构下低轨卫星网络跳波束优化方法

Info

Publication number: CN114665952A
Application number: CN202210301225.5A
Authority: CN
Inventors: 梁承超; 麻世庆; 段瑞吉; 唐伦; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-24
Anticipated expiration: 2042-03-24
Also published as: CN114665952B

Abstract

本发明涉及一种基于星地融合架构下低轨卫星网络跳波束优化方法，属于卫星移动通信技术。该方法包括：S1：在星地融合架构下，建立最大化卫星用户业务处理公平性的随机优化模型，并拆分为波束级资源分配问题和用户级资源分配问题；S2：将波束级资源分配问题转化为马尔可夫博弈，并采用基于多智能体架构行动者‑评判家算法的集中式训练和分布式执行机制，使得各智能体只需要观察本地状态并执行本地决策；S3：基于凸优化理论将用户级资源分配问题转化为拉格朗日问题进行求解。本发明能够在满足卫星网络对地干扰的前提下，降低用户业务服务拒绝量，优化用户处理公平性，并提高系统的吞吐量和星上资源利用率。

Description

一种基于星地融合架构下低轨卫星网络跳波束优化方法

技术领域

本发明属于卫星移动通信技术领域，涉及一种基于星地融合架构下低轨卫星网络跳波束优化方法。

背景技术

卫星通信系统可以覆盖到海域空域以及偏远地势复杂地区等地面网络无法覆盖的区域，因此卫星通信网络可以作为地面5G/6G网络强有力的补充，可以和地面无线网络取长补短，共同形成无缝的空天地一体化通信系统网络，是业内对卫星通信产业5G/6G时代的主流展望。与GEO卫星系统不同的是，LEO卫星具有传输时延短、功率损耗小、网络扩展迅速等特点，针对全球物联网和紧急通信业务具有更突出的优势。由于LEO卫星体积小、重量轻，其星载资源严重受限，且由于其快速移动性和各区域业务需求不均的特点，针对LEO卫星的资源分配方案设计极其困难。在无线通信的发展历史中，有限的频谱资源一直是限制通信容量增长的重要因素。而随着越来越多的LEO卫星被布置到太空，可用的频谱资源来越来紧缺，为了提升频谱资源利用率，星地一体化网络会采用星地频谱共享技术，则LEO卫星在服务卫星用户期间不可避免地对地面无线网络系统造成干扰，因此需要设计灵活的资源分配机制和高效的无线资源管理策略，满足星地融合系统的干扰要求，地面网络和卫星网络之间的频谱共享技术在未来无线通信中起到重要作用。

与此同时，在传统的LEO卫星资源分配方案中，星上功率和频谱资源均匀分配，未考虑网络拓扑的动态变化、区域间的业务量差异以及相邻波束间可能的强干扰问题，使得星上资源利用率低下。跳波束技术通过灵活地改变波束指向和星上资源分配，为用户终端动态配置通信资源，可以实现通信资源与业务需求的高效匹配。

当前LEO卫星跳波束的资源分配场景既没有考虑环境的动态变化特性，也没有考虑分配方案对地面系统的影响，而目前星地融合场景下的资源分配多为固定资源分配，严重缺乏灵活性，因此在星地融合架构下的低轨卫星跳波束资源分配方案是一个值得研究的方向。然而，对于传统的动态环境下的算法，如动态规划算法不能解决维度灾难问题，且动态规划算法需要先验信息，但是在实际的应用中，系统状态通常很难用某一精确的分布去刻画它的统计特性。

因此，亟需一种新的低轨卫星网络跳波束优化方法来解决上述问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于星地融合架构下低轨卫星网络跳波束优化方法，在满足卫星网络对地干扰的前提下，降低用户业务服务拒绝量，优化用户处理公平性，并提高系统的吞吐量和星上资源利用率。

为达到上述目的，本发明提供如下技术方案：

一种基于星地融合架构下低轨卫星网络跳波束优化方法，考虑有源波束限制、通信资源限制、融合系统干扰约束和用户资源分配约束，为达到长期性能优化的目的，以最小化卫星用户的业务拒绝量，即最大化用户公平性为目标，提出一个多星协作的联合波束调度、功率分配和子载波分配的决策方案。具体包括以下步骤：

S1：在星地融合架构下，通过考虑低轨卫星下行无线资源分配问题，同时满足星载资源限制、功耗要求限制、对地干扰要求和变量可行域限制，建立最大化卫星用户业务处理公平性的随机优化模型，并拆分为波束级资源分配问题和用户级资源分配问题；

S2：将波束级资源分配问题转化为马尔可夫博弈，并采用基于多智能体架构行动者-评判家算法的集中式训练和分布式执行机制，从而使得各智能体只需要观察本地状态并执行本地决策；

S3：基于凸优化理论将用户级资源分配问题转化为拉格朗日问题进行求解，将复杂的用户功率和子载波分配问题凸性化，从而简化用户级资源分配复杂程度。

进一步，步骤S1中，星地融合架构包括多个低轨卫星、地面网络、信关站和卫星用户；地面网络主要为城市等人口密集区域提供移动通信服务，而卫星主要为郊区、山区等人口稀疏、五基站服务的区域提供移动通信服务。假设有L个低轨卫星服务当前区域，则低轨卫星集合为S＝{s_l|l＝1,2,...,L}；每个卫星均有K个有源波束；被服务区域划分为N个小区，且N＜L·K，小区集合表示为C＝{c_n|n＝1,2,...,N}；在每个小区内存在一个地面基站，该基站可能在小区的任何位置，则基站集合表示为B＝{b_n|n＝1,2,...,N}，即b_n表示在小区c_n内的基站；

在每个小区内存在多个卫星用户和地面用户，小区c_n的卫星用户集为

其中K_n表示小区c_n的用户数；假设共有D个决策时刻，时间集合T＝{t_d|d＝1,2,...,D}；每个卫星的星载总功率一致，但是卫星会给波束分配不同的功率以提高资源利用率，假设当前时刻网络小区获得的波束功率集合为

为指向小区c_n的波束获得的功率；同时，为了提高频谱的利用效率，每个卫星的波束均使用相同的频带W，而在波束内，为了有效地避免干扰，采用分配子载波的形式；划分的子载波个数为M，为了保证获得波束调度的小区内的用户至少能获得一个子载波分配，有

则划分的子载波集合为W＝{w_m|m＝1,2,...,M}；当多个卫星服务某特定区域时，每个小区都最多只能被某个卫星的一个波束服务，表示该小区获得该卫星的波束调度，波束调度情况可以表示为

时表示当前时刻小区c_n获得卫星s_l的波束调度，反之则没有；

进一步，步骤S1中，由于基站的覆盖范围远远小于卫星波束的覆盖范围和小区半径，因此对于卫星来说，可以假设基站服务的所有用户均集中于基站处，则卫星对地面网络所有用户的信道增益可以表示为卫星对基站处用户的信道增益；因此对于某个地面网络用户来说，其受到的干扰为当前时刻t_d能覆盖到基站的波束干扰之和，公式可以表示为：

其中，

表示指向小区c_n中心的波束对基站b_n的信道增益；由于在不同时刻系统的波束调度和功率分配决策不同，导致了不同基站受到的干扰情况均不同，选取不同的资源分配组合能有效地减少对地面通信系统的干扰。

进一步，步骤S1中，建立最大化卫星用户业务处理公平性的随机优化模型，具体包括：通过考虑低轨卫星下行无线资源分配问题，拟最大化用户业务处理的公平性，即优化目标是使得卫星未完成或超额完成的用户业务量最小，同时满足星载资源限制、功耗要求限制、干扰要求和变量可行域限制；并采用两步分配方案，将优化问题分解为波束级资源分配问题和用户级资源分配问题；

波束级资源分配可以根据信道条件和各小区的总体流量需求，对星载有源波束指向和功率进行优化；通过解决子该问题，可以确定在当前时刻有哪些小区获得波束调度以及波束获得的功率。然后，根据用户级资源分配问题的结果，在获得波束调度的小区组里分配用户功率和子载波，完成用户公平性的最大化。

进一步，步骤S2中，决策算法是：基于多智能体架构的强化学习算法，并联合波束调度和功率分配的决策算法，最大化波束级的业务处理公平性；该算法需要确定3个元素集，包括状态集、动作集和奖励，相应的定义如下：

状态空间s_l(t_d)：对于智能体l在t_d时隙的环境状态定义为：信道增益集合H_l(t_d)，满足

其中

表示服务小区c_q的波束到小区c_n中心处的信道增益，以及所有小区业务剩余需求量集合

因此，在t_d时隙智能体l的状态定义为s_l(t_d)＝(H_l(t_d),G(t_d))；

动作空间a_l(t_d)：在t_d时隙，智能体l的动作定义为波束调度决策X_l(t_d)和功率分配决策P_l(t_d)，波束调度满足

其中

表示小区c_n获得低轨卫星s_l的波束调度，功率分配决策为

其中

表示服务小区c_n的波束的功率，若小区c_n未获得波束调度，则不能分配到的功率，满足

因此智能体l在t_d时隙的动作定义为a_l(t_d)＝(X_l(t_d),P_l(t_d))；

奖励函数r_l(t_d)：由优化问题可知，优化目标旨在最大化小区间的业务处理公平性，因此奖励函数可以设定为

其中，

表示小区在t_d时隙的剩余业务需求量，

表示小区在t_d时隙的业务处理量。该奖励函数表明未处理的最大剩余业务需求量越小，网络得到的奖励越大，通过设置该奖励函数促使智能体下一时刻选择减小最大剩余业务需求量的动作，达到提高小区间业务处理公平性的目的。

进一步，步骤S2中，基于多智能体架构行动者-评判家算法的集中式训练和分布式执行机制中，每个低轨卫星作为一个智能体，评判家部分收集全局信息，行动者部分只需要局部信息；该机制具体包括以下步骤：

S21：信关站初始化行动者网络和评判家网络的参数；

S22：低轨卫星作为智能体观察当前环境并获取状态；

S23：所有智能体根据当前策略选择行为，获取回报并观察局部环境的新状态，将四元组上传并存储到信关站的网络经验池中；

S24：信关站通过策略目标函数更新行动者网络参数和批判家网络参数；

S25：信关站不断重复训练过程，直至网络收敛；

S26：所有智能体从信关站下载参数到行动者网络，完成波束调度和功率分配。

进一步，步骤S3中，由于考虑不同的用户干扰，该问题是一个非线性规划问题，每个小区内分配给与用户的功率和带宽是相互耦合的，因此很难获得原问题的全局最优解，但可以通过对偶分解的方法求出局部最优解。基于凸优化理论将用户级资源分配问题转化为拉格朗日问题进行求解，具体包括以下步骤：

S31：初始化对偶变量，相应迭代步长，最大迭代次数和精度；

S32：初始化各个用户的子载波分配情况，功率分配情况和迭代次数；

S33：求解各用户的功率分配值；

S34：求解子载波分配情况；

S35：利用子梯度法对对偶变量进行迭代更新；

S36：进行迭代终止条件判断；

S37：返回各点波束的最优资源分配方案。

进一步，步骤S33中，求解各用户的功率分配值，具体包括：在给定各波束子载波分配情况和非负对偶变量的初始值的情况下，对任意

求拉格朗日函数关于功率的偏导，令

可得：

通过数值计算得到每个服务卫星用户的分配功率值

当计算所得结果小于0时，取

其中，

表示子载波分配情况，

表示在t_d时刻用户

剩余的未处理需求，

表示服务小区c_e的卫星到用户

的信道增益，

表示用户

受到的使用相同子载波的用户的干扰总和，N₀表示噪声功率谱密度，

表示对偶变量；

步骤S34中，将步骤S33求解出的功率分配值

代入拉格朗日函数式，求拉格朗日函数式关于子载波分配得偏导，令

可得：

其中，

表示待求的对偶变量；对上式进行求解，得到子载波的分配结果，其中，为满足子载波分配需求，设计

的还原规则，有：

其中，

表示子载波分配情况，w_m表示第m段子载波，

则表示用户

在t_d时刻获得子载波w_m的使用权。

本发明的有益效果在于：本发明针对当前LEO卫星跳波束的资源分配场景既没有考虑环境的动态变化特性，也没有考虑分配方案对地面系统的影响，且目前星地融合场景下的资源分配多为固定资源分配，严重缺乏灵活性的问题，提出了一种基于星地融合架构下低轨卫星网络跳波束优化方法。本发明优化方法能够在满足卫星网络对地干扰的前提下，降低用户业务服务拒绝量，优化用户处理公平性，并提高系统的吞吐量和星上资源利用率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明优化方法中应用环境的场景图；

图2为基于多智能体架构AC算法的动态资源分配方案示意图；

图3为用户级功率子载波联合优化分配算法的流程图；

图4为本发明基于星地融合架构下低轨卫星网络跳波束优化方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图1为本发明中应用环境的场景图，该场景架构模型包括多个低轨卫星、地面网络、信关站和卫星用户。地面网络主要为城市等人口密集区域提供移动通信服务，而卫星主要为郊区、山区等人口稀疏、五基站服务的区域提供移动通信服务。假设有L个低轨卫星服务当前区域，则低轨卫星集合为S＝{s_l|l＝1,2,...,L}。每一个卫星均有K个有源波束。被服务区域划分为N个小区，且N＜L·K，小区集合可以表示为C＝{c_n|n＝1,2,...,N}。在每个小区内存在1个地面基站，该基站可能在小区的任何位置，则基站集合可以表示为B＝{b_n|n＝1,2,...,N}，即b_n表示在小区c_n内的基站。

图2为基于多智能体架构AC算法的动态资源分配方案示意图，每个低轨卫星作为一个智能体，评判家部分收集全局信息，行动者部分只需要局部信息。由于在多智体AC算法的训练过程需要大量的计算开销，而低轨卫星载荷有限，存储能力和数据处理能力不足，因此将训练过程放置地面的信关站处，信关站可部署服务器提高数据训练速率，智能体只需将观测到的历史状态信息反映给信关站。信关站地理位置固定，其与卫星间的传输链路相较于星间链路更为稳定，在完成集中式训练的过程中，保证每个智能体可以获得其他智能体的信息。当集中式训练完成之后，每个卫星从信关站处下载已经训练好的参数，从而在执行的过程中，每个智能体的行动者只需要根据当前时隙的状态及策略独立地执行波束调度和功率分配决策。

在多智体AC架构中，每个智能体主要包含两个部分：评判家部分和行动者部分。其中，评判家部分主要通过计算状态-行为值函数评估策略地好坏。定义S表示所有智能体的联合状态集合，即S＝{S₁,...,S_L}，其中S_l＝{s_l(t₁),...,s_l(t_D)}。由于不同的智能体在选择动作的时候可能会存在冲突，例如卫星之间会选择服务相同的小区，该情况不仅会造成资源的浪费，也会给卫星和地面通信系统带来严重的干扰。本文考虑次序性的动作选择，令a_l(t_d)表示智能体l在t_d时隙采取的动作，则A_-l(t_d)表示该时刻除了智能体l外其他智能体选择的联合动作集合，即A_-l(t_d)＝{a₁(t_d),...,a_l-1(t_d),a_l+1(t_d),...,a_L(t_d)}。因此对于智能体l，其状态-动作值函数定义为：

Q_l(S,a_l,A_-l)＝E{R_l(S,a_l,A_-l)+γ_l·E[Q_l(S',a'_l,A'_-l)]}

然而上式的Q函数不能在无限值状态和动作下进行计算，因此考虑使用神经网络来近似智能体l的本地Q函数，即使用神经网络通过参数

来近似智能体l的动作值函数Q_l(S,a_l,A_-l)，因此有

通过最小化损失函数来更新参数

智能体的损失函数定义为：

其中：

已有文献说明，由于在更新评判家网络Q_l(S,a_l,A_-l)时，目标值y_l和Q_l(S,a_l,A_-l)同时更新，导致算法难以收敛。因此在评判家部分采用两个神经网络，分别为在线网络

和目标网络

其中

是目标网络的参数。在线网络用来更新参数计算

目标网络用来计算目标值y_l。因此上述目标函数表达式重写为：

行动者网络主要进行策略更新，通过采用神经网络拟合参数化的行动函数来训练策略，其可以根据当前的系统状态采取某个确定的动作，而不是某个动作的概率，因此对于式的Q值可以写为：

Q_l(S,a_l,A_-l)＝E[R_l(S,a_l)+γ_l·Q_l(S',a_l(S'),A_-l(S'))]

智能体l使用神经网络通过参数

来拟合策略π_l，行动者部分最大化策略目标函数来更新参数

策略目标函数表达式为：

基于梯度上升算法根据策略目标函数梯度调整参数

则策略目标函数梯度表达式为：

类似的，行动者部分也采用两个网络，分别是在线网络

和目标网络

在线网络用来选择行为，目标网络的输出用来计算评判者部分的目标值y_l。目标网络的参数更新使用“软”更新算法，有：

其中表示软更新因子，将其定义为0.01。

由于评判家部分可以通过智能体之间的交互得到所有智能体的状态和动作值信息，而批量连续时间的样本数据存在相关性，因此使用经验池存放数据，在训练时随机批量抽取一部分样本数据以打破数据的相关性。讲经验回放池定义为D，存储四元组样本数据<S,A,R,S'>，当经验池没有存储容量时，智能体从D中随机抽取F个样本，其中每个样本由所有智能体的四元组组成，即对于样本D_f，其表达式为：

D_f＝(＜s_1,f,a_1,f,R_1,f,s'_1,f＞,...,＜s_L,f,a_L,f,R_L,f,s'_L,f＞)

由于多智体AC框架分为行动者部分和评判家部分，因此，没个智能体可以将训练部分和执行部分分离，在训练部分，所有智能体集中在信关站完成计算，而每个低轨卫星只需要下载训练好的参数并使用行动者部分分布式执行行为。每个智能体只需要从信关站下载已经训练好的参数，并观察当前时隙的状态从作为输入通过行动者部分选择行为。

参见图3，图3为用户级功率子载波联合优化分配算法的流程图，步骤如下：

步骤1：初始化对偶变量的初始值为

相应迭代步长Δ^λ、Δ^μ，最大迭代次数N_iter和精度ε；

步骤2：初始化各个用户的子载波分配情况

和功率分配情况

令迭代次数i＝1；

步骤3：求解功率分配值。在给定各波束子载波分配情况和非负对偶变量的初始值的情况下，对任意

求拉格朗日函数关于功率的偏导，令

可得：

通过数值计算可以得到每个服务卫星用户的分配功率值

当计算所得结果小于0时，取

步骤4：求解子载波分配情况。将求解出的功率分配值

可得：

对该式进行求解，可得子载波的分配结果，其中，为满足子载波分配需求，设计

的还原规则，有：

步骤5：对非负对偶变量的更新，在得到P'和β'后，此时对偶问题的优化变量仅有对偶变量ρ,λ,μ，可以利用子梯度法对对偶变量进行迭代更新，迭代过程如下：

其中，[x]⁺＝max{0,x}，n表示迭代次数，Δⁿ表示标量步长序列。只要选择迭代步长合理，用子梯度法就能保证对偶变量收敛在最优值，从而保证该优化问题的收敛性。

图4为本发明的基于星地融合架构下低轨卫星网络跳波束优化方法流程图，参见图4，该优化方法的步骤为：

步骤1：初始化网络环境、卫星参数、小区参数、用户参数；

步骤2：卫星获取本地环境的状态，将存储的四元组样本上传到地面信关站；

步骤3：信关站完成多智体算法参数的训练，将参数下载到各个低轨卫星的行动者网络中，行动者网络完成波束级资源调度；

步骤4：根据波束级资源调度的结果，利用凸优化算法完成用户级资源分配；

步骤5：获得波束调度、用户功率和用户子载波资源分配结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于星地融合架构下低轨卫星网络跳波束优化方法，其特征在于，该方法具体包括以下步骤：

S2：将波束级资源分配问题转化为马尔可夫博弈，并采用基于多智能体架构行动者-评判家算法的集中式训练和分布式执行机制，使得各智能体只需要观察本地状态并执行本地决策；

S3：基于凸优化理论将用户级资源分配问题转化为拉格朗日问题进行求解。

2.根据权利要求1所述的低轨卫星网络跳波束优化方法，其特征在于，步骤S1中，星地融合架构包括多个低轨卫星、地面网络、信关站和卫星用户；假设有L个低轨卫星服务当前区域，则低轨卫星集合为S＝{s_l|l＝1,2,...,L}；每个卫星均有K个有源波束；被服务区域划分为N个小区，且N＜L·K，小区集合表示为C＝{c_n|n＝1,2,...,N}；在每个小区内存在一个地面基站，该基站在小区的任何位置，则基站集合表示为B＝{b_n|n＝1,2,...,N}，即b_n表示在小区c_n内的基站；

其中K_n表示小区c_n的用户数；假设共有D个决策时刻，时间集合T＝{t_d|d＝1,2,...,D}；假设当前时刻网络小区获得的波束功率集合为

为指向小区c_n的波束获得的功率；每个卫星的波束均使用相同的频带W，在波束内，采用分配子载波的形式；划分的子载波个数为M，为了保证获得波束调度的小区内的用户至少能获得一个子载波分配，有M≥max|U_cn|，则划分的子载波集合为W＝{w_m|m＝1,2,...,M}；当多个卫星服务某特定区域时，每个小区都最多只能被某个卫星的一个波束服务，表示该小区获得该卫星的波束调度，波束调度情况表示为

时表示当前时刻小区c_n获得卫星s_l的波束调度，反之则没有。

3.根据权利要求2所述的低轨卫星网络跳波束优化方法，其特征在于，步骤S1中，假设基站服务的所有用户均集中于基站处，则卫星对地面网络所有用户的信道增益表示为卫星对基站处用户的信道增益；对于某个地面网络用户来说，其受到的干扰为当前时刻t_d能覆盖到基站的波束干扰之和表示为：

其中，

表示指向小区c_n中心的波束对基站b_n的信道增益。

4.根据权利要求3所述的低轨卫星网络跳波束优化方法，其特征在于，步骤S1中，建立最大化卫星用户业务处理公平性的随机优化模型，具体包括：通过考虑低轨卫星下行无线资源分配问题，拟最大化用户业务处理的公平性，即优化目标是使得卫星未完成或超额完成的用户业务量最小，同时满足星载资源限制、功耗要求限制、干扰要求和变量可行域限制；并采用两步分配方案，将优化问题分解为波束级资源分配问题和用户级资源分配问题；

波束级资源分配可以根据信道条件和各小区的总体流量需求，对星载有源波束指向和功率进行优化；然后，根据用户级资源分配问题的结果，在获得波束调度的小区组里分配用户功率和子载波，完成用户公平性的最大化。

5.根据权利要求2所述的低轨卫星网络跳波束优化方法，其特征在于，步骤S2中，决策算法是：基于多智能体架构的强化学习算法，并联合波束调度和功率分配的决策算法，最大化波束级的业务处理公平性；该算法需要确定3个元素集，包括状态集、动作集和奖励，相应的定义如下：