CN116546624B

CN116546624B - 跳波卫星业务预测与多维链路动态资源分配方法及装置

Info

Publication number: CN116546624B
Application number: CN202310590503.8A
Authority: CN
Inventors: 袁金祥; 张波; 顾心怡; 赵耀忠; 张集; 郑安; 李国鹏; 张安萍; 房圆武
Original assignee: Huaneng Yimin Coal and Electricity Co Ltd
Current assignee: Huaneng Yimin Coal and Electricity Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2024-05-14
Anticipated expiration: 2043-05-24
Also published as: CN116546624A

Abstract

本发明公开了一种跳波卫星业务预测与多维链路动态资源分配方法及装置，以最大化卫星通信系统能效、谱效、用户QoS的加权和为原则，确定卫星波束和波束功率的联合分配方案，考虑了系统内历史时刻对当前时刻波束与功率分配的影响，在卫星资源稀缺的场景中能够在保障用户服务质量、节约系统能耗的同时有效地提高系统的频谱效率，提高系统的整体性能；同时在资源分配中加入了业务预测算法，以最小化预测值与实际值之间的误差为原则，确定未来业务需求量的预测方案，将预测的结果作为分配方案中的下一时隙新到达流量，以便进行资源预分配，降低了分配算法的时间开销。

Description

跳波卫星业务预测与多维链路动态资源分配方法及装置

技术领域

本发明涉及卫星通信网络技术领域，尤其涉及一种跳波卫星业务预测与多维链路动态资源分配方法及装置。

背景技术

信息网络与通信系统的高速发展使得卫星通信逐渐成为通信网络中不可忽视的重要一环。由于通信服务类型的多样性、服务分布的时变性等特性，固定资源的分配方式会导致较低的资源利用率，以至卫星有限资源大量浪费，无线资源管理困难，卫星通信系统能效谱效降低，难以满足用户速率需求。而多波束卫星的跳波束技术打破了原有的固定资源分配方式，通过时间碎片化的方式灵活分配所有可用的卫星无线资源，可以针对多样化业务时空分布不均的场景有效缓和有限卫星资源与通信服务质量之间的矛盾，有效提高系统整体性能，被认为是下一代高通量卫星系统的关键技术。因此，在资源受限、差异化业务时空分布不均的情况下研究多波束卫星通信系统的链路资源分配技术是十分具有意义的。

此外，差异化业务的时变性对卫星星载资源的分配也是一大关键问题。业务流量的实时变化对卫星的资源管理提出了很大的挑战，影响了跳波束技术的发展，而资源预分配技术能够根据已有的业务变化情况提前感知近期的业务变化，以便对卫星星载资源提前进行部分分配，有效缓解通信系统的时延较长问题，提高系统整体性能。其中，业务预测技术是资源与分配技术的基石，一个优秀的业务预测算法能够更好的进行资源的预分配，降低后续资源分配的难度，也减少预分配误差导致的性能不升反降问题。

为了在卫星频谱资源稀缺、星上有效载荷有限、差异化业务需求时变以及地面流量需求空间分布不均等情况下进行高效的资源分配，提高卫星通信系统的整体性能，需要研究多个方面的问题，包括跳波束资源分配技术、业务流量预测技术等。

发明内容

本发明针对通信服务类型多样、业务需求时空分布不均、多波束卫星星载资源受限等问题，基于多波束地球静止轨道卫星通信系统的下行链路，立足于卫星多维资源与卫星用户的差异化业务需求，以能效、谱效、用户QoS为联合目标，从点波束的时隙分配、波束之间的时隙功率分配、卫星用户差异化业务分类预测三方面展开联合研究，提出一种跳波卫星业务预测与多维链路动态资源分配方法及装置，提高系统性能。

为了实现上述目的，本发明提供如下技术方案：

第一方面，本发明提供一种跳波卫星业务预测与多维链路动态资源分配方法，包括如下步骤：

建立基于Ka频段的地球静止轨道卫星平台为主体构成的下行链路多波束地球静止轨道卫星通信系统及其信道模型，并包括以下训练步骤：

迭代周期开始前，每个智能体初始化本地网络模型参数；其中，本地网络模型参数为强化学习算法中的网络权重；下行链路多波束地球静止轨道卫星通信系统中包括一颗有K个点波束的地球静止轨道卫星和N个卫星用户，智能体包含预测智能体和分配智能体两大类，预测类智能体主要负责业务需求量的精准预测，分配智能体主要负责卫星多维资源的动态分配；

每个迭代周期刚开始时，每个预测智能体根据当前的业务需求历史集合和本地网络预测出下一时隙的业务需求量，并将预测结果作为分配学习中的新到达流量；

迭代周期内，每个智能体用本地网络进行强化学习训练并更新本地网络模型参数；其中，智能体每步根据当前状态和本地网络做出相应的动作，并结合每步环境的回报和下一步状态形成经验进行存储和训练；预测智能体的状态包括业务需求历史集合中的长期历史数据集和短期历史数据集，预测智能体的动作包括下一时隙内星载数据缓存器上各个卫星用户对应的队列中新到达的业务量；分配智能体的状态为星载数据缓存器上各个卫星用户对应的队列中需提供服务的业务量，分配智能体的动作为下一时隙内各个卫星用户分配得到的照明波束和波束功率情况；

将业务预测的误差绝对值作为预测智能体的环境回报，将当前时隙的系统能效、频谱效率和用户QoS的加权和作为分配智能体的环境回报，进行训练迭代，直至收敛或达到最大迭代次数，确定卫星多维资源的联合分配方案。

进一步地，建立基于Ka频段的地球静止轨道卫星平台为主体构成的下行链路多波束地球静止轨道卫星通信系统，其由一颗多波束地球静止轨道卫星(GEO卫星)、多个点波束以及多个卫星用户组成，该多波束卫星通信系统的总可用带宽资源为B_tot，总可用功率资源为p_tot；多波束地球静止轨道卫星装配有K个点波束，点波束集合用K＝{k|k＝1,2,...,K}表示，且一个点波束只有一个载波，无需考虑波束内载波间的功率与带宽的分配；同时，该系统内存在N个卫星用户，用户集合用Ν＝{n|n＝1,2,...,N},N＞K表示。

进一步地，建立信道模型过程如下：

设传播路径上没有障碍物阻挡，到达接收天线的地面反射信号场强也可以忽略不计，信道主要考虑自由空间路径损耗模型，因此，从卫星点波束到用户的信号能量在自由空间传播了一定距离后发生的衰减表达为：

其中，λ是波长，单位为米，d为无线信号自由空间传播距离，即卫星点波束到卫星用户之间的距离集合；

卫星通信中的俯仰角衰减表达为：

其中，m为天线的滚降系数，φ_k,n为用户n到波束k的俯仰角；

从机载发射机到卫星用户接收机的卫星下行链路信道模型增益G＝{g_k[n]|k∈K,n∈N}表述为：

G＝G_txG_lossG_HG_rx

其中，G_loss为自由空间路径损耗矩阵，G_tx为通信链路发射端的天线增益，G_rx为用户接收机的天线增益，G_H＝{G_H(φ_k,n)|k∈K,n∈N}为俯仰角衰减；下行链路中卫星用户的接收功率P_r则与卫星的发射功率P_t以及卫星下行链路信道模型的增益G有关，即P_r＝P_tG；

第n个卫星用户在点波束k覆盖下的信干噪比(SINR)如下所示：

其中，σ²为高斯白噪声的噪声功率，P_t卫星的发射功率；

通过四色复用，将总可用下行链路带宽资源B_tot平均分布在4种颜色中，每一颜色的可用波束容量为：

C_t[n]＝B_olog₂(1+SINR_t[n])

其中，B_o＝B_tot/4，为每一颜色的可用波束带宽。

进一步地，建立卫星波束与功率分配变量模型，包括：

多波束地球静止轨道卫星根据一定规则进行点波束分配，令X_t＝{x_t[n]|n∈N}表示t时刻卫星点波束分配矢量，其中x_t[n]∈{0,1}，x_t[n]＝1表示在t时刻卫星用户n有点波束覆盖，反之则没有点波束覆盖，需等待下一时刻决策。每个分配的点波束还需要根据卫星系统总可用功率资源p_tot来分配相应的发射功率，令P_t＝{p_t[n]|n∈N}表示t时刻波束功率分配矢量。

进一步地，以业务各自的特性偏好为准则，从业务时延偏好和重要性偏好两个维度着手，建立差异化业务模型，包括：

在时延方面，各个业务根据其时延偏好划分为I个等级；在重要性方面，根据其重要性划分为J个等级；其中，i代表业务的时延属性，i＝I为实时业务，在其完成上行链路传输后马上进行下行链路的传输，i≠I的业务为非实时业务，不属于时延敏感性业务，在传输顺序中置于实时业务之后进行传输，i的值越大，业务对时延越不敏感；j代表业务的重要性属性，j＝1为基础业务，j≠1为紧要业务，j的值越大业务的重要性越高，业务越紧要；

卫星星载数据缓存器的队列中存储的总业务流量根据不同的业务分类建模为：

其中，代表t时刻到达的流量中目前还未得到服务的流量，T为星上机载缓存器对应的数据最长存储时隙周期，即需求最大等待时长，若需求产生后最大等待时长内得不到服务则视为丢弃；

每个业务的传输时延建模为：

其结构与总业务流量矩阵相同，都是一个(I*J)*T*N大小的三维矩阵，其中表示在t时刻卫星用户n对应的还未获得服务的时延等级为i重要性等级为j的业务的传输时延属性：

其中，t_now为当前时刻，t为该业务到达时刻；

在差异化业务分类模型中，业务总共被分为I*J个等级，每个业务的传输优先级记为W_i,j＝i*j，优先级高的业务优先进行传输，当两业务传输优先级相同时优先对时延偏好高的业务进行传输。

进一步地，以联合优化目标为原则，确定多波束卫星的点波束和功率分配，包括：基于长短期业务历史变化，预测系统中各个卫星用户未来业务的变化，并将预测值作为卫星资源分配方案中的到达流量Λ_t；以联合优化目标为原则，确定卫星多维资源的联合分配方案。

进一步地，基于长短期业务历史变化，预测系统中各个卫星用户未来业务的变化，其中所述的长短期业务历史变化分解为：长期历史数据集Z_r和短期历史数据集Z_d，其中长期历史数据集Z_r代表用户前一个月内同一时刻的流量数据，主要用于预测在大趋势的影响下今日时刻的用户流量；短期历史数据集Z_d，代表用户t时刻前的一段时间内的流量数据，主要用于预测在近期数据变化影响下t时刻的用户流量；

将用户未来业务预测问题建模为马尔可夫决策过程，得到马尔可夫决策过程所定义的状态、动作以及回报函数；

基于所述的状态、动作以及回报函数，在本地使用强化学习算法得到卫星用户下一时刻的业务需求量预测值，并将其作为卫星资源分配方案中的到达流量Λ_t；同时，在强化学习算法中，每个用户端分别进行本地强化学习模型的训练。

进一步地，将用户未来业务预测问题建模为马尔可夫决策过程，包括：

采用全局元组(S,A,R)来表示全局的经验转移，包括全局状态、动作和回报函数，同时用户持有局部元组(Sⁿ,Aⁿ,Rⁿ)；

定义状态空间：假设Sⁿ表示用户n的状态空间，则其t时刻的本地状态分为长期历史数据集Z_r和短期历史数据集Z_d两个部分，表示为：

其中，T₁为业务短期历史变化存储周期，T₂为业务长期历史变化存储周期；

定义动作空间：假设Aⁿ表示用户n的动作空间，则其t时刻的本地动作定义为其中，卫星用户n的业务流量估计值/>为网络输出结果/>与其基准业务量b_n之间的乘积；

定义回报函数：假设Rⁿ表示用户n的回报函数空间，则其t时刻的本地回报函数定义为：

其中，y_t,n为用户n的业务流量的实际值。

进一步地，本地强化学习网络利用CNNs来逼近状态动作函数Q(S_t,A_t；ω_t)，其中，将长期历史数据集Z_r、短期历史数据集Z_d分别通过一个卷积层进行局部特征提取；然后分别通过池化层进行数据降维采样，并将结果分别平铺为一个一维张量；接着将两个平铺张量拼接后的张量作为全连接层的输入节点，构建隐藏层和输出层；

采用均方误差方法，损失函数Loss可表示为：

Loss＝MSE[(y_t-Q(S_t,A_t；ω_t))²]

其中，假如S_t不是终点，则目标y_t写作：

y_t＝R_t+γQ(S_t+1,A_t+1；ω'_t)

否则目标y_t＝R_t；

通过对损失函数Loss执行梯度下降方法更新Q函数Q(S_t,A_t；ω_t)，从而使损失函数Loss最小化，Q函数的更新过程如下：

ω_t+1＝ω_t-α▽Loss

其中，α∈[0,1]表示学习率，代表用新得到的Q函数能多大程度地修改以往的Q函数。

进一步地，将当前时隙的系统能效、频谱效率和用户QoS的加权和作为分配智能体的环境回报，以联合优化目标为原则，基于卫星点波束约束条件和功率约束条件，确定卫星多维资源的联合分配方案，其中，联合目标分解为：最大化系统频谱效率、最大化系统能量效率和最大化用户QoS，到系统优化方程为：

其中，SF＝∑_n∈Nlog₂(1+SINR_t[n])表示频谱效率，用来衡量有限频谱的利用程度；

SE＝∑_n∈NTh_t,n/∑_n∈Np_t[n]表示能量效率，用来衡量有限功率的利用程度，其中为系统内多波束卫星数据缓存器中卫星用户n所在队列在t时刻的吞吐量，p_t[n]为t时刻的波束功率分配矢量；

最大化用户QoS目标分解为：最小化业务时延和最大化系统公平性；

表示业务时延，用来衡量卫星系统中所有待服务业务的传输时延；

表示公平性，用来衡量系统分配容量与用户实际需求之间的差距平衡情况；

将卫星多维资源的联合分配问题建模为马尔可夫决策过程，得到马尔可夫决策过程所定义的状态、动作以及回报函数；

基于所述的状态、动作以及回报函数，在本地使用强化学习算法得到最大化联合目标时卫星点波束和波束功率的分配；

同时，在多智能体强化学习算法中，每个智能体端进行本地强化学习模型的训练。

进一步地，以联合优化目标最大为原则，基于卫星点波束约束条件和功率约束条件，确定卫星多维资源的联合分配方案；其中，所述约束条件包括：卫星用户覆盖情况约束、覆盖区域数目约束、最大总波束功率约束、最大单波波束功率约束、功率不为负约束、波束与功率联合约束。

进一步地，将卫星多维资源的联合分配问题建模为马尔可夫决策过程，得到马尔可夫决策过程所定义的状态、动作以及回报函数，包括：

定义状态空间：假设Sⁿ表示用户n的状态空间，则其t时刻的本地状态定义为：

定义动作空间：假设Aⁿ表示用户n的动作空间，则其t时刻的本地动作定义为其中，各个波束功率最后的选值p_t[n]为网络输出结果/>与最大单波发射功率p_b之间的乘积，即p_t[n]＝a_t[n]p_b；

其中，为谱效回报，/>为用户QoS回报，/>为能效回报；

所述的用户QoS回报根据用户QoS优化目标分为时延惩罚因子o₁、可靠性惩罚因子o₂、波束容量惩罚因子o₃：

o₂＝∑_n∈NF(C_t[n],D_min[n])

o₃＝∑_n∈NF(D_max[n],C_t[n])

其中，函数F(x,y)为定义的比较函数，若x＜y，函数F(x,y)输出为-1，反之为0；为当前时刻各个卫星用户的最小业务需求集合，即实时性业务需求集合；/>为当前时刻各个卫星用户的最大业务需求集合；

本地强化学习网络利用CNNs来逼近状态动作函数Q(S_t,A_t；ω_t[n])；

采用均方误差方法，损失函数Loss表示为：

Loss＝MSE[(y_t[n]-Q(S_t,A_t；ω_t[n]))²]

其中，假如S_t不是终点，则目标y_t[n]写作：

y_t[n]＝R_t[n]+γQ(S_t+1,A_t+1；ω'_t[n])

否则目标y_t[n]＝R_t[n]；通过对损失函数Loss执行梯度下降方法更新Q函数Q(S_t,A_t；ω_t[n])，从而使损失函数Loss最小化，Q函数的更新过程如下：

ω_t+1[n]＝ω_t[n]-α▽Loss

第二方面，本发明提供了一种跳波卫星业务预测与多维链路动态资源分配装置，所述装置包括以下模块以实现上述任一项所述的跳波卫星业务预测与多维链路动态资源分配方法：

信息获取模块，每个时刻卫星需要知道各个卫星用户的地理位置、当前下行信道增益、星载缓存器上的数据情况以及各个卫星用户的业务流量历史变化数据集；

方案确定模块，基于强化学习方法，确定当前模型的目标资源分配方案以及业务预测方案；其中，所述目标资源分配方案为卫星波束和波束功率的联合分配，所述业务预测方案为下一时刻各个卫星用户业务需求量预测；

业务预测模块，用于卫星按照业务预测方案，预测下一时隙卫星用户业务需求量，记为下一时隙的新到达流量；

资源分配模块，用于卫星按照目标资源分配方案，为卫星用户分配对应资源，以最大化系统能效、谱效以及用户QoS的加权和，在保障用户服务质量、节约系统能耗的同时能够有效地提高系统的频谱效率。

第三方面，本发明还提供了一种控制设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，实现上述任一所述的方法步骤。

与现有技术相比，本发明的有益效果为：

本发明提出的跳波卫星业务预测与多维链路动态资源分配方法及装置，以最大化卫星通信系统能效、谱效、用户QoS的加权和为原则，确定卫星波束和波束功率的联合分配方案，考虑了系统内历史时刻对当前时刻波束与功率分配的影响，在卫星资源稀缺的场景中能够在保障用户服务质量、节约系统能耗的同时有效地提高系统的频谱效率，提高系统的整体性能；同时在资源分配中加入了业务预测算法，以最小化预测值与实际值之间的误差为原则，确定未来业务需求量的预测方案，将预测的结果作为分配方案中的下一时隙新到达流量，以便进行资源预分配，降低了分配算法的时间开销。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多波束卫星通信系统整体架构图。

图2为本发明实施例提供的场景图。

图3为本发明实施例提供的SP-LSTHC算法整体结构图。

图4为本发明实施例提供的学习网络输入状态与输出动作之间的非线性映射。

图5为本发明实施例提供的单个智能体的输入的环境状态与输出的动作空间之间的非线性映射。

图6为本发明实施例提供的BPA-MADDPG网络中单个智能体网络参数更新过程示意图。

图7为本发明实施例提供的SPPA-EESE算法框架流程。

图8为本发明实施例提供的跳波卫星业务预测与多维链路动态资源分配方法流程图。

具体实施方式

本发明主要考虑采用多智能体协同优化的强化学习技术进行多维资源联合分配。多智能体深度确定性策略梯度算法(MADDPG)作为DDPG的一种扩展，基于多智能体结构，秉承集中式学习、分散式执行的基本思想，在多智能体任务中举足轻重。MADDPG网络在网络训练的时候引入可以观察全局的价值网络来指导策略网络进行训练，而在网络执行的时候只使用有局部观测值的策略网络获取动作，即，每一个智能体都有同一个全知全能的老师指导，而在做决策的时候，每个智能体只需要根据自己对环境的观察做出正确的动作即可。此外，在多智能体结构中，各个智能体之间是完全协同、完全竞争、半协同半竞争亦或是其他的关系这由环境决定，环境会依据既定优化目标给予各个智能体奖励反馈。在多智能体完全协同优化算法中，环境给予各个智能体的奖励反馈是完全一致的，当一个智能体的动作发生变化时，所有智能体得到的奖励反馈都会跟着一起变化。

在业务流量预测方面，本发明主要考虑采用卷积神经网络技术进行业务流量预测。卷积神经网络是一种常用于处理图像的方法，其通过自有的卷积层、池化层和全连接层对图像进行模糊、锐化、描边等操作，提取图像的局部特征。对于较大的数据量集合，都可以通过CNN在保留原有特征的前提下对数据集大小进行调整。其中，卷积层是CNN架构中的核心，主要使用卷积核通过卷积操作提取图像的局部特征；池化层主要用依据最大池化、平均池化、随机池化等计算方法来对数据集进行降维处理，有效降低数据维度，降低运算量，避免过拟合问题；而全连接层则主要起到分类器的作用，拟合输出维度。

为了更好地理解本技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实例仅仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

1、系统模型

一个经典的完整多波束卫星通信系统通常由一颗卫星、网络控制中心、信关站以及大量的卫星用户终端组成，其整体架构如图1所示。

本发明主要研究的是多波束卫星通信网络中的下行链路，即卫星向卫星用户终端传输信号的过程。在该过程中，假设卫星上的各个点波束之间进行全频复用，系统采用时分复用的方式在每个时隙中为卫星用户提供覆盖服务。因此，信号经由卫星星载发射器放大后，受到信道影响以及各个点波束之间的信号干扰影响，由地面接收机进行信号接收处理，最终传输至各个卫星用户终端。场景如图2所示。

本发明考虑一个基于Ka频段的地球静止轨道卫星平台为主体构成的下行链路多波束地球静止轨道卫星通信系统，其由一颗GEO卫星、多个点波束以及多个卫星用户组成，如图1所示。

该多波束卫星通信系统的总可用带宽资源记为B_tot，总可用功率资源记为p_tot。本发明假设多波束卫星装配有K个点波束，点波束集合记为K＝{k|k＝1,2,...,K}，且一个点波束只有一个载波，无需考虑波束内载波间的功率与带宽的分配。同时，假设该系统内存在N个卫星用户，用户集合记为Ν＝{n|n＝1,2,...,N},N＞K，其相互之间的距离较远，当卫星点波束对其分别进行覆盖时覆盖范围不存在重叠问题，即一个点波束只为一个卫星用户提供服务。考虑到多波束卫星的点波束数目小于需要覆盖的卫星用户数目，该多波束卫星系统无法在同一时刻为所有用户提供服务，多波束卫星拟采用时分复用的方式覆盖系统内的所有卫星用户。

卫星通信系统中，由于不同用户不同时段内的业务量需求的差异，导致业务流量时空分布不均，繁华地区、高峰时段的地面业务需求量远大于欠发达地区、低谷时段的业务需求量。因此，本发明从用户流量请求方面考虑，在多波束卫星上存在一个数据缓冲器，其队列中存贮着各个卫星用户在当前时段内的各个时刻还未得到服务的总流量。

多波束地球静止轨道卫星根据一定规则进行点波束分配，其点波束分配情况记为X_t＝{x_t[n]|n∈N}，其中x_t[n]∈{0,1}，x_t[n]＝1表示在t时刻卫星用户n有点波束覆盖，反之则没有点波束覆盖，需等待下一时刻决策。每个分配的点波束还需要根据卫星系统总可用功率资源p_tot来分配相应的发射功率，其功率分配矢量记为P_t＝{p_t[n]|n∈N}。

2、信道模型

自由空间路径损耗、降雨衰减、俯仰角衰减、波间干扰、收发天线增益等因素都会对下行链路中通信信号的传输产生一定的影响。为模拟系统构建的通信场景，本发明假设传播路径上没有障碍物阻挡，到达接收天线的地面反射信号场强也可以忽略不计，信道主要考虑自由空间路径损耗模型，因此，从卫星点波束到用户的信号能量在自由空间传播了一定距离后发生的衰减可表达为：

其中，λ是波长(单位为米)，d为无线信号自由空间传播距离，即卫星到各卫星用户之间的距离集合。此外，卫星通信中的俯仰角衰减可表达为：

其中，m为天线的滚降系数，φ_k,n为用户n到波束k的俯仰角。因此，在本发明的多波束卫星通信系统中，从机载发射机到卫星用户接收机的卫星下行链路信道模型增益G＝{g_k[n]|k∈K,n∈N}可表述为：

G＝G_txG_lossG_HG_rx (3)

其中，G_loss为自由空间路径损耗矩阵，G_tx为通信链路发射端的天线增益，G_H＝{G_H(φ_k,n)|k∈K,n∈N}为俯仰角衰减，G_rx为用户接收机的天线增益。而下行链路中卫星用户的接收功率P_r则与卫星的发射功率P_t以及卫星下行链路信道模型的增益G有关，即P_r＝P_tG。基于上述分析，考虑高斯白噪声与波间干扰的影响，第n个卫星用户在点波束k覆盖下的信干噪比(SINR)可以如下所示：

其中，σ²为高斯白噪声的噪声功率。考虑到波束带宽分配也是卫星资源分配中的一种，本发明通过四色复用，将总可用下行链路带宽资源B_tot平均分布在4种颜色中，每一颜色的可用波束带宽记为B_o＝B_tot/4。根据式(4)，由香农公式可知其波束容量为：

C_t[n]＝B_olog₂(1+SINR_t[n]) (5)

由式(5)可以看出，卫星点波束获得的波束容量不仅仅和分配给该波束的波束功率相关，还会受到其他同频点波束的波束功率影响。

3、差异化业务模型

本发明研究的多波束地球静止轨道卫星通信系统模型在如图1所示的通信系统模型基础上，考虑到卫星业务种类繁多，为提供精准的业务服务，引入差异化业务模型，从卫星用户角度出发，细化卫星通信业务，科学甄别业务种类，绘制业务图谱。

在本发明研究的卫星通信场景中，卫星业务分类的主要考虑方向为对卫星用户业务网络流量特征的高效精准识别。卫星通信业务种类繁多，但是一般都有着自己的资源偏好，如速率偏好、时延偏好、重要性偏好、业务连续性偏好、可靠性偏好等，这些偏好也是业务流量的通用特征，根据这些资源偏好就可以对卫星通信业务进行基本流量特征识别与粗粒度的业务分类，如高速率低时延类业务。本发明拟基于差异化业务的特点，从业务时延偏好和重要性偏好两个维度着手，对差异化业务进行分类建模，研究跳波卫星的业务分类与预测技术，以确保业务的高效传输。

在时延方面，各个业务可根据其时延偏好划分为I个等级；在重要性方面，根据其重要性划分为J个等级。其中，i代表业务的时延属性，i＝I为实时业务，需在其完成上行链路传输后马上进行下行链路的传输，i≠I的业务为非实时业务，不属于时延敏感性业务，在传输顺序中可置于实时业务之后进行传输，i的值越大，业务对时延越不敏感；j代表业务的重要性属性，j＝1为基础业务，j≠1为紧要业务，j的值越大业务的重要性越高，业务越紧要。因此，由于卫星上的每一个业务都有自己的时延和重要性偏好，卫星星载数据缓存器的队列中存储的总业务流量根据不同的业务分类可建模为：

其中，代表t时刻到达的流量中目前还未得到服务的流量。此外，假设与每个波束对应的机载存储器只能分别存储T个时隙周期的数据。每个业务的时延由集合表示，其结构与总业务流量矩阵/>相同，都是一个(I*J)*T*N大小的三维矩阵，其中/>表示在t时刻卫星用户n对应的还未获得服务的时延等级为i重要性等级为j的业务的时延属性，

其中，t_now为当前时刻，t为该业务到达时刻。

在该差异化业务分类模型中，业务总共被分为I*J个等级，每个业务的传输优先级记为W_i,j＝i*j，优先级高的业务优先进行传输，当两业务传输优先级相同时优先对时延偏好高的业务进行传输。

4、问题构建

考虑到卫星星载资源的有限性问题，为尽可能的节约星载资源，进行高效的数据传输，提供精准的业务服务，本发明拟从卫星点波束资源和波束功率资源两个资源维度着手，针对资源稀缺问题，研究跳波卫星的资源调度，以提高卫星资源利用率。

在衡量卫星通信系统性能的重要指标中，除了考虑的谱效下的系统吞吐量指标外，还有其他一些指标也是系统性能考察的重点。考虑到单个优化目标不能对系统进行全面的监测评估，具有一定的局限性，本发明拟基于多个优化目标进行卫星多维资源的分配。

针对业务高吞吐量需求与卫星频带受限之间的矛盾，频谱效率常被用来衡量卫星通信网络性能。本发明对频谱效率f重新进行定义，并提出了基于频谱效率最大化的优化目标：

P1:

其中，SINR_t[n]为式(4)定义的第个n卫星用户在点波束覆盖下的信干噪比。频谱效率虽然衡量了有限频谱的利用程度，但是忽略了功率消耗的效率。针对卫星资源稀缺的问题，为提高资源利用率，本发明将能量效率e定义为系统吞吐量与总功耗之比，提出了基于能量效率最大化的优化目标：

P2:

其中，Th_t,n为定义的系统内多波束卫星数据缓存器中卫星用户n所在队列在t时刻的吞吐量，p_t[n]为t时刻的波束功率分配矢量。针对差异化业务服务质量与系统可靠性问题，为确保卫星用户的服务质量，本发明从时延和公平性两方面考量用户的QoS，提出基于时延最小化的优化目标P3和公平性最大化的优化目标P4：

P3:

P4:

其中，C_t[n]为式(5)定义的实际信道容量。由于通信场景的相似性以及预分配的多维星载资源种类的一致性，本发明定义的优化问题中的约束条件与第三章构建的优化模型中的约束条件相同。

在实际中，由于预分配的星载资源是多维的，且波束功率之间存在相互影响，该优化问题难以表述为一个传统的凸优化问题以得到全局最优解。此外，由于卫星业务种类的多样性以及业务偏好的不同，且业务需求在时间和空间上都在动态变化着，通信系统在各个时刻的状态基本都不相同，可达状态具有无限性，对学习算法提出了很大的挑战。因此，为解决上述问题，考虑到资源调度的顺序决策性以及进行业务分配预测的可能性，本发明基于业务的长短期历史变化规律和MADDPG提出了跳波卫星系统业务预测与功率分配算法，对多波束卫星系统下行链路场景中的业务进行分类预测，对点波束与功率进行联合分配优化，以最大化系统的谱效、能效和用户QoS为目标，获得该优化问题的较优解。

约束：

C1与C2为卫星点波束方面的约束，要求每个卫星用户在同一时刻只有被卫星点波束覆盖和不被覆盖两种选择，且每个卫星用户同一时刻只能被一个卫星点波束覆盖；C3为点波束总功率约束，要求所有点波束的实际发射功率之和不大于卫星系统的总可用功率资源；C4与C5为单波功率约束，要求每个点波束的发射功率不超过单波发射功率限制，且发射功率不为负；此外，C6考虑到波束功率分配矢量是以卫星用户数目为基准，而不是以点波束数目为基准的，还需根据实际情况要求卫星用户不被点波束覆盖时不分配波束功率。

5、预测算法

差异化业务的时空分布情况决定着卫星星载资源的动态分配调度，而差异化业务需求存在时空不均性，卫星用户所处位置对其业务需求量的影响较大，处于热点区域的卫星用户业务需求量往往比处于其他位置的卫星用户多。此外，卫星用户业务量也在随着时间的变化而变化着。考虑到多波束卫星通信系统中的用户流量需求在不同日期下数据趋势相似而不相同，具有一定的循环规律，本发明拟融合卷积神经网络，设计一种基于长短期历史变化的业务预测算法(Service Prediction Algorithm Based on Long Short-TermHistory Change,SP-LSTHC)，对业务流量进行预测估计。

(1)SP-LSTHC算法模型

考虑到多波束卫星通信网络中同一卫星用户的业务需求量具有时间特性，本发明拟对网络中的业务流量建立预测估计模型，提取业务长短期历史变化规律，预测下一时隙的业务需求量，把业务流量预测融入卫星多维资源动态分配算法中，将预测结果值做为多维星载资源分配算法中下一时隙的业务到达量。

本发明基于提出的卫星通信场景，建立各卫星用户的业务需求量随时间变化的历史数据库。首先设定各个卫星用户的基准业务量矩阵B＝{b_n|n∈N}；然后基于业务变化规律定义了业务量二十四小时变化因子α(t₁)，规定9:00-17:00为业务繁忙阶段，α(t₁)的值为100％；7:00-9:00以及17:00-19:00时间段α(t₁)的值在30％到40％之间，一天中的其余时段均为业务空闲阶段，α(t₁)约为7.5％，其中t₁为一天中的时刻变化；此外，本发明还额外定义了不同卫星用户的业务一月变化因子β(t₂)＝{β_n(t₂)|n∈N}，其中t₂为一月中的时刻变化。因此，某一卫星用户在某时隙的业务需求量为b_nα(t₁)β(t₂)。

基于历史数据的时序预测方法主要分为两大类，一类是基于统计学习的规律拟合方法，另一类是基于机器学习的神经网络方法。其中，基于机器学习的神经网络方法在提取业务需求序列的局部特征时常使用卷积神经网络(Convolutional Neural Network,CNN)方法。CNN是一种常用于处理图像的方法，其通过自有的卷积层、池化层和全连接层对图像进行模糊、锐化、描边等操作，提取图像的局部特征。对于较大的数据量集合，都可以通过CNN在保留原有特征的前提下对数据集大小进行调整。其中，卷积层是CNN架构中的核心，主要使用卷积核通过卷积操作提取图像的局部特征；池化层主要用依据最大池化、平均池化、随机池化等计算方法来对数据集进行降维处理，有效降低数据维度，降低运算量，避免过拟合问题；而全连接层则主要起到分类器的作用，拟合输出维度。

在本发明设计的SP-LSTHC算法中，拟使用CNN代替DDPG网络中原有的全连接网络，用于提取用户业务需求量历史变化特征并映射到输出节点，得到用户未来的业务需求量估计值。考虑到多波束卫星通信系统中的用户流量需求在不同日期下数据趋势相似而不相同，具有一定的循环规律，在用户的业务流量数据集中，对于特定的流量类型，假设用户流量的时隙为t，本发明将t时刻之前的总数据大致分为两个部分：一个是长期历史数据集Z_r，代表用户前一个月内同一时刻的流量数据，主要用于预测在大趋势的影响下今日t时刻的用户流量；另一个是短期历史数据集Z_d，代表用户t时刻前的一段时间内的流量数据，主要用于预测在近期数据变化影响下t时刻的用户流量。连接两部分流量数据作为输入馈送到预测网络以获得预测值，故该算法在t时刻的环境状态S_t分为两个部分，分别定义为长期历史数据集Z_r、短期历史数据集Z_d，即，

其中，T₁为业务短期历史变化存储周期，T₂为业务长期历史变化存储周期。基于精准预测卫星用户未来业务流量情况的目标，算法的输出则为一个连续动作，代表业务需求量预测值，记为a_t,n，动作空间是一维的，卷积神经网络的输出层节点数目也为1。由于卫星通信网络中共存在N个卫星用户，t时刻各个卫星用户的业务流量归一化估计值集合记为A_t：

A_t＝{a_t,n|n∈N} (14)

考虑到SP-LSTHC算法的网络最后输出结果在[0,1]区间内，各个卫星用户的业务流量估计值为网络输出结果与其基准业务量b_n之间的乘积，即/>

针对本发明提出的差异化业务流量预测问题，SP-LSTHC算法的反馈奖励定义为t时刻业务预测值与用户业务实际值之间的误差，记为：

其中，为t时刻各个用户的预测值集合，y_t＝{y_t,n|n∈N}为t时刻各个用户的实际值集合。

(2)SP-LSTHC算法结构

本发明构建的基于长短期历史变化的业务预测算法整体结构如图3所示。其中，CNN部分采用的是长短期历史变化分别提取规律特性的方式，如图3所示。首先以长期历史数据集Z_r为第一部分输入，以短期历史数据集Z_d为第二部分输入，分别将其转化为一个T₂大小、一个T₁大小的一维灰度图，通过一个一维卷积层进行局部特征提取；然后分别通过一维池化层进行数据降维采样，并将结果分别平铺为一个一维张量；接着将两个平铺张量拼接后的张量作为全连接层的输入节点，构建两层隐藏层；最后构建了一层节点数为1的输出层。

由于整个学习网络仍是基于DDPG网络的，本发明提出的SP-LSTHC算法的伪代码如表1所示。

表1 SP-LSTHC算法流程

6、资源分配算法

虽然本发明构建的业务模型中业务种类多样，但星上数据缓存器中的业务总流量仍然具有一定的时序变化规律，可将多维资源分配问题建模为顺序决策问题，使用学习算法求解。然而，当面临卫星上多维资源的联合分配时，在DDPG的单智能体结构中网络的输出动作指数级上升，会产生网络难以承受的巨大负荷，不利于星载资源的高效管理，需要使用多智能体结构来降低网络复杂度。多智能体深度确定性策略梯度算法(Multi-agent DeeepDeterministic Policy Gradient,MADDPG)作为DDPG的一种扩展，基于多智能体结构，秉承集中式学习、分散式执行的基本思想，在多智能体任务中举足轻重。因此，本发明拟采用多智能体结构，设计一种基于MADDPG的波束与功率联合分配算法(Beam and Power JointAllocation Algorithm Based on MADDPG,BPA-MADDPG)，以得到式(8)到式(11)所示的多目标优化问题的较优解。

(1)优化问题重构

针对式(10)提出的时延最小化优化问题，融入本发明定义的差异化业务模型，考虑不同业务传输优先级的影响，将优化问题P3重构为：

P5:

其中，o₁记为时延惩罚因子。针对式(11)提出的公平性最大化优化问题，考虑到其在强化学习算法中求解的复杂性以及业务的时延偏好特性，本发明将优化问题P4进行拆分简化，分别进行提高实时性业务保障方面的优化和降低波束容量浪费方面的优化：

P6:

P7:

其中，o₂记为可靠性惩罚因子，o₃为波束容量惩罚因子；函数F(x,y)为定义的比较函数，若x＜y，函数F(x,y)输出为-1，反之为0；为当前时刻各个卫星用户的最小业务需求集合，即实时性业务需求集合；/>为当前时刻各个卫星用户的最大业务需求集合。

考虑到多个优化目标对学习算法网络提出的挑战，在解决谱效和能效的多目标优化问题方面通常有两种方法，一种是以加权和为优化目标，另一种是以谱效为约束最大化能效。参考第一种将多目标问题转化为单目标问题的方法，本发明拟基于谱效、能效以及用户QoS的加权和将多目标优化问题构建为如下的联合目标优化问题：

P8:

其中，o＝-(o₁+o₂+o₃)为用户的QoS指标。

(2)BPA-MADDPG算法模型

多智能体结构的学习算法依旧在强化学习算法范畴之中，算法的执行离不开环境状态、动作集合以及反馈奖励。在本发明提出的BPA-MADDPG算法中，在多波束卫星星载数据缓存器中数据的更新变化规律中融入了对差异化业务的分类考量，业务流量种类的多样性会影响卫星星载资源的分配，但没有改变业务流量的时序性，故仍将算法在t时刻的环境状态S_t定义为多波束卫星星载数据缓存器中各个队列在t时刻的分类业务请求量，即，

在本发明提出的BPA-MADDPG算法中，由于采用多智能体结构，将每个卫星点波束覆盖范围设定为一个智能体，因此，算法网络中共有N个智能体，每个智能体都均可观测到全局状态，并根据环境状态确定波束的照明情况与波束功率的分配情况，进行卫星资源的联合分配。由于波束的照明情况与波束功率的分配情况存在关联性，且MADDPG网络支持连续性动作的选取，故，在本发明提出的BPA-MADDPG算法中，每个智能体对应的学习网络的输出层节点数目为1，输出的动作空间是一维的，代表波束功率的分配。因此，t时刻各个智能体的动作空间集合可记为A_t：

A_t＝{a_t[n]|n∈N} (21)

其中，a_t[n]为智能体n对应的输出动作，当动作为0时，波束分配的功率为0，即该卫星点波束覆盖区域无点波束覆盖，没有照明波束。此外，由于卫星波束数目的限制，各个智能体输出的动作还需满足/∑_n∈Na_t[n]≤K，且考虑到BPA-MADDPG算法的网络最后输出结果在[0,1]区间内，各个波束功率最后的选值p_t[n]为网络输出结果与最大单波发射功率p_b的乘积，即p_t[n]＝a_t[n]p_b。

针对本发明提出的基于联合优化目标的多维资源分配优化问题P8，BPA-MADDPG算法的反馈奖励包括系统频谱效率、能量效率以及用户QoS三个方面。因此，针对优化问题P1，将BPA-MADDPG算法的谱效奖励定义为：

针对优化问题P2，将BPA-MADDPG算法的能效奖励定义为：

针对优化问题P5至P7，将BPA-MADDPG算法的QoS奖励定义为：

在多智能体结构中，各个智能体之间是完全协同、完全竞争、半协同半竞争亦或是其他的关系这由环境决定，环境会依据既定优化目标给予各个智能体奖励反馈。由于本发明提出的优化问题P8的性质，多智能体采用协同优化结构，各个智能体共有共同的反馈奖励，当一个智能体的动作发生变化时，所有智能体得到的奖励反馈都会跟着一起变化。因此，该BPA-MADDPG算法的学习反馈可记为：

(3)BPA-MADDPG算法结构

MADDPG算法在网络训练的时候引入可以观察全局的价值网络来指导策略网络进行训练，而在网络执行的时候只使用有局部观测值的策略网络获取动作，即，每一个智能体都有同一个全知全能的老师指导，而在做决策的时候，每个智能体只需要根据自己对环境的观察做出正确的动作即可。在本发明构建了基于MADDPG的波束与功率联合分配算法中，动作选取部分采用的是分散执行的思想，每个智能体都可以根据自己的状态来执行合适的动作，不需要获取其他智能体的状态或动作。该部分由于输入状态空间包括业务分类、存储时长、对应卫星用户三个维度，构成了一个庞大的三维集合，具有无限性，拟引入卷积神经网络概念，在输入的环境状态与输出的动作空间之间的非线性映射前让环境状态先经过卷积层抽样卷积处理，故本发明提出的BPA-MADDPG网络中单个智能体构建的非线性映射如图5所示，首先将环境状态转化为一个(I*J)*T*N大小的灰度图，通过一个三维卷积层进行局部特征提取；再通过三维池化层进行数据降维采样，避免过度拟合，并将结果平铺为一个一维张量；然后构建了两层隐藏层；最后构建了一层输出层，其节点数对应单个智能体输出的动作空间的维度，故BPA-MADDPG网络中的输出层的节点数目为1。此外，各个层均采用全连接方式，并将ReLU函数作为激励函数。

训练部分采用的是多智能体集中学习的思想，在训练阶段加入一些额外的信息，每个智能体不仅仅根据自己的情况，还根据其他智能体的状态、行为等信息来进行训练学习。在本发明提出的BPA-MADDPG算法中，训练过程引入的额外信息为同一状态同一时刻下其他智能体的执行动作，其余部分的训练过程与上一章提出的DPA-DDPG算法基本一致，均是策略估计网络采用梯度上升、价值估计网络采用梯度下降、目标网络采用软更新的方式更新网络参数，其单个智能体网络参数更新过程如图6所示，伪代码如表2所示，整个DPA-DDPG算法的伪代码如表3所示。

表2BPA-MADDPG算法训练过程

表3BPA-MADDPG算法流程

/>

算法实现：

本发明提出的MRA-JO-MADDPG算法主要包含基于长短期历史变化的业务预测算法和基于MADDPG的波束与功率联合分配算法两大部分，其框架流程如图7所示，伪代码如表4所示。

表4SPPA-EESE算法流程

/>

综上，本发明实施例提供了一种基于多智能体强化学习的跳波卫星业务预测与多维链路动态资源分配方法，如图8所示。

相应于上述方法，本发明提供一种基于多智能体强化学习的跳波卫星多维资源分配装置，所述装置包括：

相应于上述装置，本发明还提供了一种控制设备，包括处理器、通信接口、存储器和通信总线；

其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序，实现第一方面任一所述的跳波卫星业务预测与多维链路动态资源分配方法。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，并非用于限定本发明的保护范围。对本领域的普通技术人员而言，依据本发明提供的思想，凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应视为本发明的保护范围。

Claims

1.一种跳波卫星业务预测与多维链路动态资源分配方法，其特征在于，建立基于Ka频段的地球静止轨道卫星平台为主体构成的下行链路多波束地球静止轨道卫星通信系统及其信道模型，并包括以下训练步骤：

迭代周期开始前，每个智能体初始化本地网络模型参数；其中，本地网络模型参数为强化学习算法中的网络权重；下行链路多波束地球静止轨道卫星通信系统中包括一颗有K个点波束的地球静止轨道卫星和N个卫星用户，智能体包含预测智能体和分配智能体两大类，预测类智能体负责业务需求量的精准预测，分配智能体负责卫星多维资源的动态分配；

将业务预测的误差绝对值作为预测智能体的环境回报，将当前时隙的系统能效、频谱效率和用户QoS的加权和作为分配智能体的环境回报，进行训练迭代，直至收敛或达到最大迭代次数，确定卫星多维资源的联合分配方案；

建立信道模型过程如下：

从卫星点波束到用户的信号能量在自由空间传播了一定距离后发生的衰减表达为：

卫星通信中的俯仰角衰减表达为：

其中，m为天线的滚降系数，φ_k,n为用户n到波束k的俯仰角；

G＝G_txG_lossG_HG_rx

其中，G_loss为自由空间路径损耗矩阵，G_tx为通信链路发射端的天线增益，G_rx为用户接收机的天线增益，G_H＝{G_H(φ_k,n)|k∈K,n∈N}为俯仰角衰减；

第n个卫星用户在点波束k覆盖下的信干噪比如下所示：

其中，σ²为高斯白噪声的噪声功率，p_t为卫星的发射功率；

C_t[n]＝B_olog₂(1+SINR_t[n])

其中，B_o＝B_tot/4，为每一颜色的可用波束带宽；

以业务各自的特性偏好为准则，建立差异化业务模型，包括：

在时延方面，各个业务根据其时延偏好划分为I个等级；在重要性方面，根据其重要性划分为J个等级；其中，i代表业务的时延属性，i＝I为实时业务，在其完成上行链路传输后马上进行下行链路的传输，i≠I的业务为非实时业务，不属于时延敏感性业务，在传输顺序中置于实时业务之后进行传输；j代表业务的重要性属性，j＝1为基础业务，j≠1为紧要业务；

每个业务的传输时延建模为：

其中表示在t时刻卫星用户n对应的还未获得服务的时延等级为i重要性等级为j的业务的传输时延属性：

其中，t_now为当前时刻，t为该业务到达时刻；

在差异化业务分类模型中，业务总共被分为I*J个等级，每个业务的传输优先级记为W_i,j＝i*j，优先级高的业务优先进行传输，当两业务传输优先级相同时优先对时延偏好高的业务进行传输；

基于长短期业务历史变化，预测系统中各个卫星用户未来业务的变化，其中所述的长短期业务历史变化分解为：长期历史数据集Z_r和短期历史数据集Z_d，其中长期历史数据集Z_r代表用户前一个月内同一时刻的流量数据，用于预测在大趋势的影响下今日时刻的用户流量；短期历史数据集Z_d，代表用户t时刻前的一段时间内的流量数据，用于预测在近期数据变化影响下t时刻的用户流量；

基于所述的状态、动作以及回报函数，在本地使用强化学习算法得到卫星用户下一时刻的业务需求量预测值，并将其作为卫星资源分配方案中的到达流量Λ_t；同时，在强化学习算法中，每个用户端分别进行本地强化学习模型的训练；

将当前时隙的系统能效、频谱效率和用户QoS的加权和作为分配智能体的环境回报，以联合优化目标为原则，确定卫星多维资源的联合分配方案，其中，联合目标分解为：最大化系统频谱效率、最大化系统能量效率和最大化用户QoS，到系统优化方程为：

同时，在多智能体强化学习算法中，每个智能体端进行本地强化学习模型的训练；

以联合优化目标为原则，确定卫星多维资源的联合分配方案，包括：以联合优化目标最大为原则，基于卫星点波束约束条件和功率约束条件，确定卫星多维资源的联合分配方案；其中，所述约束条件包括：卫星用户覆盖情况约束、覆盖区域数目约束、最大总波束功率约束、最大单波波束功率约束、功率不为负约束、波束与功率联合约束。

2.根据权利要求1所述的跳波卫星业务预测与多维链路动态资源分配方法，其特征在于，将用户未来业务预测问题建模为马尔可夫决策过程，包括：

定义状态空间：假设Sⁿ表示用户n的状态空间，则其t时刻的本地状态S_t ⁿ分为长期历史数据集Z_r和短期历史数据集Z_d两个部分，表示为：