CN114071528B

CN114071528B - 基于业务需求预测的多波束卫星波束资源适配方法

Info

Publication number: CN114071528B
Application number: CN202111356331.5A
Authority: CN
Inventors: 崔高峰; 徐媛媛; 胡东伟; 王力男; 王亚楠; 段鹏飞; 王卫东
Original assignee: Beijing University of Posts and Telecommunications; CETC 54 Research Institute
Current assignee: Beijing University of Posts and Telecommunications; CETC 54 Research Institute
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-06-27
Anticipated expiration: 2041-11-16
Also published as: CN114071528A

Abstract

本发明公开了一种基于业务需求预测的多波束卫星波束资源适配方法，涉及多波束卫星通信领域，具体为：首先，针对高轨多波束卫星同频组网的下行数据传输场景，通过搭建流量仿真模型获取各波束卫星覆盖区域下的仿真流量数据；并训练隐状态马尔科夫模型，得到模型参数，再预测下一时刻各波束业务流量需求值；然后，采集不同日期、时刻下利用隐状态马尔科夫模型输出的各波束流量预测值，训练深度强化学习PPO网络模型，输出各波束的带宽、功率联合优化值，为各波束分配不同数量、中心频率的带宽资源块，以及不同等级的功率资源快，实现多波束卫星波束资源适配。本发明有效减小同频干扰，满足波束业务需求和公平性原则，减少资源浪费，提升资源利用率。

Description

基于业务需求预测的多波束卫星波束资源适配方法

技术领域

本发明涉及多波束卫星通信领域，具体是基于业务需求预测的多波束卫星波束资源适配方法。

背景技术

多波束卫星通过采用多个相互隔离的高增益窄波束代替传统的单一大张角波束，实现了更广阔的覆盖范围，缩小了卫星用户终端的体积，同时各波束之间采用频率复用技术提升了频谱利用率，有效地解决了因频谱资源受限导致的系统容量瓶颈问题，从而提高用户服务质量。

但是，多波束卫星存在以下缺点：一方面，以往采用均匀、单维度的卫星资源分配方法灵活度低、资源利用率差，已经不能满足现实需求；另一方面，已有的资源分配和实际业务需求适配问题的研究常基于实时收集的用户业务请求数据，由于收集统计用户业务需求开销大、时延长，基于实时收集用户业务需求的资源调度算法，很大程度上会降低用户的服务质量。

因此，如何灵活分配各类通信资源以提升系统资源利用率、提高用户服务满意度成为该研究领域的研究重难点。

发明内容

针对传统的实时收集用户业务请求的资源分配策略中，开销大、时延长，用户满意度低、资源利用率低的问题，本发明提出了一种基于业务需求预测的多波束卫星波束资源适配方法。可以有效进行区域业务需求预测，并基于预测结果进行波束级的带宽、功率资源分配，在保证用户满意度的基础上减少资源浪费。

所述的基于业务需求预测的多波束卫星波束资源适配方法，具体步骤如下：

步骤一、针对高轨多波束卫星同频组网的下行数据传输场景，通过搭建流量仿真模型获取各波束卫星覆盖区域下的仿真流量数据。

具体为：首先，利用Python搭建高轨道多波束卫星通信场景，生成波束后，在波束内随机生成服从均匀分布的用户。

然后，根据流量的时空相关性因子搭建流量仿真模型；

时空相关性因子包括：1、将地区分为发达、欠发达，发达地区人口多流量大并且尖峰高；2、将24小时根据人类活动特性流量划分成周期特性；

最后，在该流量仿真模型中，根据不同地区对应不同数量的用户，用户的位置跟时间的关系，获取一段时间内的波束流量数据。

步骤二、针对每个覆盖区域，利用仿真流量训练隐状态马尔科夫模型，得到模型参数后再利用该模型预测下一时刻各波束业务的流量需求值。

隐状态马尔科夫模型的两个主要因素：观测状态和隐状态；

观测状态是波束覆盖范围内历史流量序列；隐状态是时间(日期、时刻)、用户位置等影响因素；

隐状态马尔科夫模型的参数包括：

1)、当前覆盖区域输入的流量序列O＝{O₁,…,O_t,…,O_T}，其中1≤t≤T；T为输入流量序列的时间长度；

2)、业务需求的隐状态的数量K；

3)、业务需求量隐状态的转移概率矩阵A，为K×K阶的矩阵，表示为：

A＝{a_ij},0≤a_ij≤1

a_ij＝P(q_t＝S_j|q_t-1＝S_i),1≤i,j≤K

其中a_ij表示由t-1时刻的隐状态S_i在t时刻转移至隐状态S_j的概率；

4)、业务需求量生成的概率分布B；

t时刻由当前隐状态S_i生成观测流量值B_i的概率，表示为：

B_i(O_t)＝P(O_t∣q_t＝S_i),1≤t≤T,1≤i≤K

O_t表示流量序列中的第t个值；q_t＝S_i表示t时刻的业务需求量隐状态为S_i。

5)、初始业务需求量概率向量π：π＝[π_k]_K×1，代表当t＝1时刻各个业务需求隐状态S_i出现的概率；其中π_k满足

隐状态马尔科夫模型的输入为每个波束覆盖区域对应的连续多条历史流量序列，通过Baum-Welch算法对模型进行迭代训练获得对应隐马尔可夫网络模型参数，再利用Viterbi算法预测下一时刻各波束业务的流量值。

步骤三、采集不同日期、时刻下利用隐状态马尔科夫模型输出的各波束流量预测值；

步骤四、利用不同日期、时刻下对应的各波束流量预测值，训练深度强化学习PPO网络模型，输出各波束的带宽、功率联合优化值，为各波束分配不同数量以及不同中心频率的带宽资源块，以及不同等级的功率资源快，实现多波束卫星波束资源适配。

具体为：

步骤401、将全部频带划分为N_B个带宽资源子块B_block，各波束均可复用全部频带；

t时刻波束i分配到的带宽资源为

其中N₁＝0,1,2,...,N_B。

步骤402、将全部功率划分为N_P个功率资源子块P_blobk，利用深度强化学习算法为各波束分配功率资源子块数量；

t时刻波束i分配的功率资源为P_t ⁱ＝N₂P_blobk，其中N₂＝0,1,2,...,N_P。

步骤403、基于各波束分配的带宽和功率资源块，计算波束复用频带过程中，考虑同频干扰的吞吐量；

波束内各用户带宽和功率采用均匀分配策略；

首先，根据香农公式，计算波束i内用户u的传输速率为：

为t时刻波束i内用户u分配到的带宽资源；/>

为信干噪比；

其中

为高斯白噪声功率，/>

为有用信号功率，/>

为波束i内用户u受到的其他波束同频用户的干扰信号和；

然后，t时刻经过资源分配后波束i内所有用户的吞吐量为：

t_slot为时隙长度。

步骤404、通过预测的流量需求值训练PPO网络模型，使得PPO网络模型输出的带宽、功率的资源分配结果接近预测值，实现资源适配。

训练网络所用奖励值设计如下：

其中，R(s_t,a_t)表示状态s_t和动作a_t对应的奖励值；s_t∈S_t；S_t为t时刻各个波束的状态空间：S_t＝{T_t,C_t}；T_t为当前的日期时间；C_t为HMM网络预测的下一时刻内各波束总业务需求；a_t∈A_t；a_t为资源分配动作，具体为t时刻各个波束功率和带宽联合分配结果，A_t为动做空间，表示为：A_t＝[P_t,B_t]；P_t表示t时刻各个波束可获得的功率资源，B_t表示t时刻各个波束可获得带宽资源；

为实际的业务需求流量(本发明中采用预测值)，/>

为由PPO网落资源分配结果计算出的系统容量。

旨在提高波束业务满意度，满足业务需求；/>

旨在实现波束公平性，即业务需求量小的波束也可同等级别的获取资源；倒数的关系旨在实现资源适配，减小资源浪费。

通过不断迭代训练PPO网络，直至损失函数和奖励值收敛趋于稳定，即获得了最优资源分配网络。由该网络即可实时获取多波束卫星通信场景下各波束的带宽、功率联合动态分配结果。

本发明的优点在于：

1)、一种基于业务需求预测的多波束卫星波束资源适配方法，搭建的下行数据传输场景考虑了高轨多波束卫星同频组网服务地面用户，在考虑减小共信道干扰的前提下，进行波束级资源分配。

2)、一种基于业务需求预测的多波束卫星波束资源适配方法，通过搭建的高轨多波束卫星通信系统发流量仿真模型，模拟多波束卫星实际覆盖区域流量时空特性，得到给波束内部用户的历史流量数据，再根据历史流量数据基于HMM网络可实时快速地预测下一时刻的波束流量值。

3)、一种基于业务需求预测的多波束卫星波束资源适配方法，基于预测的流量值，考虑时空因素，采用基于深度强化学习PPO网络实时进行波束级的动态带宽、功率联合预分配。由于计算各用户吞吐量时考虑了同频干扰，实现了波束同频组网场景下保障较小的共信道干扰，提高了用户通信质量。并且综合考虑了波束整体服务满意度和公平性问题，在满足各波束业务需求量的基础上，考虑波束业务公平性，达到资源最大程度适配，即由分配的资源得到的吞吐量尽可能贴近预测的需求值，减少了资源浪费。

附图说明

图1为本发明一种基于业务需求预测的多波束卫星波束资源适配方法的流程图；

图2为本发明搭建的流量仿真模型应用场景图；

图3为本发明频率分配示意图；

图4为本发明所示各时段预测结果与实际流量值对比图。

具体实施方式

为了更加清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。

本发明考虑高轨多波束卫星同频组网下的下行数据传输场景，根据各波束业务需求量进行波束级的带宽、功率资源的联合灵活分配。首先，多波束卫星在资源分配之前需对各波束覆盖区域的业务需求统计量进行实时预测。由于用户业务需求有很强的时空相关性(具体指某一时刻波束的业务需求量与该时刻所处时段以及该波束覆盖的地域区域位置有关)，例如一般发达地区白天上午10：00至11：00为达到流量高峰，预测模型基于对以往收集的各地区历史统计流量数据进行分析，进而得到下一时刻的各波束业务需求量。然后，基于该预测结果进行波束级带宽、功率的动态联合分配，以实现资源分配得到的系统吞吐量最大程度满足并且贴合预测的波束业务需求统计量。一方面，带宽、功率的灵活分配是动态化的，多波束卫星可以根据业务需求量的变化做出连续的资源调整方案；另一方面，在考虑资源与需求的适配问题时，需考虑用户的公平性问题，即业务需求量小的波束应该同业务需求量大的波束拥有同样的资源分配优先级，以实现在保证用户公平性的前提下使得资源分配结果尽可能地贴合用户业务需求，降低资源浪费，提高用户服务质量。

本实施例采用的是高轨道Ka频段多波束卫星，系统总带宽为500MHz，总功率为23dBw，卫星最大发射天线增益为58.5dBi，用户终端最大接收天线增益为39.7dBi。

所述的基于业务需求预测的多波束卫星波束资源适配方法，如图1所示，具体步骤如下：

然后，根据流量的时空相关性因子搭建流量仿真模型；

最后，在该流量仿真模型中，根据不同地区对应不同数量的用户，用户的位置跟时间的关系，获取一段时间内的波束流量历史数据。

在该流量仿真模型中，每天用户位置假设不变(由于卫星波束覆盖区域大，普遍情况下由于一天内用户的位置变化较小，假设一天内用户位置不变，不同天用户位置不同。覆盖发达地区的波束内有用户50人，欠发达25人。因此获取400天的24小时波束流量数据。(流量统计颗粒度：小时)。

本发明搭建的多波束卫星通信场景如图2所示，同样适用于其他轨道高度以及频段的多波束卫星通信场景。

首先对地面区域根据人口密度、经济发展中水平等因素进行二维划分，以便提取汇总各地区某段时间的业务流量；然后，通过对特定地区历史流量数据的统计处理，获得网络训练数据和测试数据。利用隐状态马尔科夫模型经典的学习问题和预测问题，联合实现业务需求预测。

隐状态马尔科夫模型的两个主要因素：观测状态和隐状态；

隐状态马尔科夫模型的参数包括：

1)、某地区的历史流量观测序列O；

在流量预测模型中，观测序列为历史流量数据序列，该流量数据反映了该地区时间-空间相关性的业务需求量。由于流量序列为连续状态，因此区别于传统的离散隐状态马尔科夫过程训练模型，本实施例采用连续高斯隐状态马尔科夫过程模型进行训练，输入即为连续的流量序列O＝{O₁,…,O_t,…,O_T}，其中1≤t≤T；T为输入流量序列的时间长度；

2)、业务需求的隐状态的数量K；

隐状态为导致观测序列发生的隐影响因素。影响某地区业务需求的因素应为该地区人口密度、经济发展水平等因素。由于学习问题中隐状态序列未知，只需设计隐状态集的数量K。

A＝{a_ij},0≤a_ij≤1

其中a_ij表示由t-1时刻的隐状态S_i在t时刻转移至隐状态S_j的概率；表达式为：

a_ij＝P(q_t＝S_j|q_t-1＝S_i),1≤i,j≤K

q_t表示当前t时刻的业务需求量隐状态，q_t-1表示t-1时刻的业务需求量隐状态，且a_ij满足：

4)、业务需求量生成的概率分布B；

B_i表示t时刻由当前隐状态S_i生成流量(观测状态)值B_i的概率，表示为：

B_i(O_t)＝P(O_t∣q_t＝S_i),1≤t≤T,1≤i≤K

由于流量为连续数据，区别于传统的离散隐状态马尔科夫状态网络，采用连续Gussian隐状态马尔科夫过程网络。假设流量生成概率服从高斯分布Φ_k～N(μ,σ²)；

5)、初始业务需求量概率向量π：π＝[π_k]_K×1，代表当t＝1时刻各个业务需求隐状态S_i出现的概率：π_k＝P(q₁＝S_k),1≤k≤K；其中π_k满足

于是得到了HMM模型参数λ＝(π,A,Φ)。

隐状态马尔科夫模型的输入为每个波束覆盖区域的若干观测序列，即对应的连续多条历史流量序列，此时该隐状态马尔科夫网络参数未知，通过Baum-Welch算法对模型进行迭代训练，获得对应隐马尔可夫网络模型参数，具体为：

给出HMM模型下的Q函数：

根据业务需求隐状态和流量观测值序列的联合分布可知：

代入上式后得：

接下来将最大化参数集合λ＝(π,A,B)；

首先求解初始概率矩阵，由于初始隐状态概率分布带有约束

引入拉格朗日乘子为：

令上式求导为0，得到

同理可以得到A和Φ_k(O_n)。

HMM模型参数由Baum-Welch算法得到，再利用该模型执行维特比算法预测下一时刻各波束业务的流量值；具体为：

首先向参数已知的HMM模型输入历史业务需求量序列O＝{O₁,…,O_t,…,O_T}。

初始化局部状态，定义变量δ_t(i)为t时刻业务需求隐状态为s所有可能的状态转移路径中的概率最大值，ψ_t(s)为t时刻业务需求隐状态s的所有单个状态转移路径中概率最大的转移路径中第t-1个节点的业务需求隐状态。

δ₁(s)＝π_ib_i(o₁),i＝1,2,...,K

ψ₁(s)＝0,i＝1,2,...,K

进行动态规划递推时刻t＝2,3,...,T时刻的局部状态：

计算时刻T最大的δ_T(s),即为最可能的业务需求隐状态序列出现的概率。计算时刻T最大的ψ(s),即为时刻T最可能的业务需求隐藏状态。

利用局部状态ψ(s)开始回溯，对于t＝T-1,T-2,...,1；

最终得到最有可能的业务需求隐状态序列

进而得到对应的流量。

步骤三、与多波束卫星通信环境交互采集环境数据，采集不同日期、时刻下利用隐状态马尔科夫模型输出的各波束流量预测值；

基于预测结果进行波束级带宽、功率的动态联合分配，以实现系统贴合预测的波束业务需求统计量；

本实施例中多波束卫星由N_b个波束组成，波束i服务

个地面终端，该高轨卫星共服务用户数为N_tot，波束内用户随机均匀分布；则：/>

t时隙内，

个地面终端产生的业务请求汇聚成波束i的总业务请求/>

系统下行链路可获得的总功率为P_tot，总带宽为B_tot；使用深度强化学习算法为各波束灵活分配功率、带宽资源。具体为：

t时刻波束i分配到的带宽资源为/>

其中N₁＝0,1,2,...,N_B。一方面灵活的满足各波束业务需求，另一方面降低同频干扰；频率分配示意图如图3所示。

步骤402、将全部功率划分为N_P个功率资源子块P_blobk，利用深度强化学习算法为各波束分配带宽块数量；

t时刻波束i分配的功率资源为P_t ⁱ＝N₂P_blobk，其中N₂＝0,1,2,...,N_P；

波束复用全部的频带，会带来同频干扰问题，考虑同频干扰计算吞吐量；波束内各用户带宽和功率采用均匀分配策略；计算各用户的吞吐量，进而求和得到各波束吞吐量。

首先，根据香农公式，计算波束i内用户u的传输速率为：

为t时刻波束i内用户u分配到的带宽资源；/>

为信干噪比；

其中

为高斯白噪声功率，/>

为有用信号功率，/>

为波束i内用户u受到的其他波束同频用户的干扰信号和；/>

为波束i内信道的信道指数，表示为：/>

PL为路径损耗，G_r为用户终端接收天线增益，G_t为卫星发射天线增益。

然后，t时刻经过资源分配后波束i内所有用户的吞吐量为：

t_slot为时隙长度。

通过目标函数得到奖励值，此处目标为资源分配结果在满足吞吐量预测的需求值的前提下，尽可能的接近需求值，减少资源浪费，实现资源适配；根据奖励值计算损失函数进而训练PPO网络模型，直至网络收敛。

考虑到波束内业务流量变化以小时为单位进行波动，本发明资源分配时间粒度为小时，及一天内将会进行24次资源分配以满足各波束需求。由于t时刻各用户的带宽、功率联合分配受到t-1时刻资源分配结果的影响，本实施例将资源分配过程建模为马尔科夫过程(S,A,E,R)。S表示状态空间，包含当前多波束卫星服务用户的状态变量；A表示资源分配动作空间；P表示状态转移概率空间；R表示状态和动作的奖励值。

状态空间S：描述了当前多波束卫星环境服务的各个波束的状态，t时刻的环境状态表示成：S_t＝{T_t,C_t}；

T_t为当前的日期时间；具体为T_t＝[Date,Hour]，Date表示当前系统日期，Hour表示当前时间(小时)；具体表示为：

C_t为HMM网络预测的下一时刻内各波束总业务需求；

动作空间A：表示每个时隙智能体都会进行资源决策，为各个波束分配功率和带宽。因此动作表示为A_t＝[P_t,B_t]；P_t表示t时刻各个波束可获得的功率资源，具体表示为

其中P_t ⁱ为t时隙内系统为波束i分配的功率资源，其取值为P_t ⁱ∈[P_block,2P_block,3P_block]，i∈[1,2,...,N_b],并且分配结果满足限制条件/>

B_t表示t时刻各个波束可获得带宽资源；具体表示为

其中

为t时隙内系统为波束i在其规定的频段内分配的带宽资源，具体表示为

其中，Y_i∈[0,1]，取值1表示t时隙内波束i占用该带宽块资源，反之为0。

奖励值R：既考虑了用户通信满意度以及各波束公平性原则，又考虑降低资源浪费，具体如下：

其中，R(s_t,a_t)表示状态s_t和动作a_t对应的奖励值；s_t∈S_t；S_t为t时刻各个波束的状态空间；a_t∈A_t；a_t为资源分配动作，具体为t时刻各个波束功率和带宽联合分配结果，A_t为动做空间；

为t时隙内波束i经过资源分配得到的吞吐量，/>

为实际的业务需求(本发明中采用预测值)，/>

旨在提高波束业务满意度，满足业务需求；

通过不断迭代训练PPO网络，直至损失函数和奖励值收敛趋于稳定，即获得了最优资源分配网络。由该网络即可实时获取多波束卫星通信场景下各波束的带宽、功率联合动态分配结果，实现资源适配，提高资源利用率。

基于HMM的预测模型精度，如图4所示，为各时段预测结果与实际流量值对比图。

性能分析：(1)经过与实际预测值对比，该预测算法的均方根误差在0.1左右，在同样样本数目的前提下与传统的流量预测算法模型对比如下：

可见本预测模型具有较高的预测准确度。

(2)基于PPO的资源分配性能，经过仿真验证，基于业务需求预测的深度强化学习PPO功率-带宽分配网络可以较好的满足各波束的业务需求。同条件下，对比传统的四色、三色频率复用-功率均匀分配方案，本发明的资源适配率有明显提升。

本发明提出的算法，应用于高轨多波束卫星同频组网的下行数据传输场景。通过基于HMM的业务需求预测模型预测下一时刻各个波束的业务需求量，基于预测的业务需求量采用深度强化学习PPO算法对系统的带宽、功率进行动态、联合资源分配，以实现在满足各波束需求量的基础上减少资源浪费。根据测试结果表明，本发明提出的基于业务需求预测的多波束卫星波束资源适配策略可以有效地在满足波束业务需求的基础上，减少资源浪费，提升资源利用率。

Claims

1.基于业务需求预测的多波束卫星波束资源适配方法，其特征在于，具体步骤如下：

首先，针对高轨多波束卫星同频组网的下行数据传输场景，通过搭建流量仿真模型获取各波束卫星覆盖区域下的仿真流量数据；针对每个覆盖区域，利用仿真流量数据训练隐状态马尔科夫模型，得到模型参数后再利用该模型预测下一时刻各波束业务的流量需求值；

然后，采集不同日期、时刻下利用隐状态马尔科夫模型输出的各波束流量预测值，并训练深度强化学习PPO网络模型，输出各波束的带宽、功率联合优化值，考虑同频干扰，为各波束分配不同数量以及不同中心频率的带宽资源块，以及不同等级的功率资源块，实现多波束卫星同频组网场景下的满足波束业务需求、考虑波束公平性的波束资源适配。

2.如权利要求1所述的基于业务需求预测的多波束卫星波束资源适配方法，其特征在于，所述的搭建流量仿真模型具体为：

具体为：首先，利用Python搭建高轨道多波束卫星通信场景，生成波束后，在波束内随机生成服从均匀分布的用户；

然后，根据流量的时空相关性因子搭建流量仿真模型；

3.如权利要求1所述的基于业务需求预测的多波束卫星波束资源适配方法，其特征在于，所述的隐状态马尔科夫模型包括两个主要因素：观测状态和隐状态；

观测状态是波束覆盖范围内历史流量序列；隐状态是时间、用户位置的影响因素；

隐状态马尔科夫模型的参数包括：

1)、当前覆盖区域输入的流量序列O＝{O₁,...,O_t,...,O_T}，其中1≤t≤T；T为输入流量序列的时间长度；

2)、业务需求的隐状态的数量K；

A＝{a_ij},0≤a_ij≤1

a_ij＝P(q_t＝S_j|q_t-1＝S_i),1≤i,j≤K

4)、业务需求量生成的概率分布B；

t时刻由当前隐状态S_i生成观测流量值B_i的概率，表示为：

B_i(O_t)＝P(O_t∣q_t＝S_i),1≤t≤T,1≤i≤K

O_t表示流量序列中的第t个值；q_t＝S_i表示t时刻的业务需求量隐状态为S_i；

隐状态马尔科夫模型的输入为每个波束覆盖区域对应的连续多条历史流量序列，通过Baum-Welch算法对模型进行迭代训练，获得对应隐马尔可夫网络模型参数，再利用Viterbi算法预测下一时刻各波束业务的流量值。

4.如权利要求1所述的基于业务需求预测的多波束卫星波束资源适配方法，其特征在于，所述的多波束卫星波束资源适配过程，具体为：

t时刻波束i分配到的带宽资源为

其中N₁＝0,1,2,...,N_B；

波束内各用户带宽和功率采用均匀分配策略；

首先，根据香农公式，计算波束i内用户u的传输速率为：

为t时刻波束i内用户u分配到的带宽资源；/>

为信干噪比；

其中

为高斯白噪声功率，/>

为有用信号功率，/>

为波束i内用户u受到的其他波束同频用户的干扰信号和；

然后，t时刻经过资源分配后波束i内所有用户的吞吐量为：

t_slot为时隙长度；

步骤404、通过预测的流量需求值训练PPO网络模型，使得PPO网络模型输出的带宽、功率的资源分配结果接近预测值，实现资源适配；

训练网络所用奖励值设计如下：

其中，R(s_t,a_t)表示状态s_t和动作a_t对应的奖励值；s_t∈S_t；S_t为t时刻各个波束的状态空间：S_t＝{T_t,C_t}；T_t为当前的日期时间；C_t为HMM网络预测的下一时刻内各波束总业务需求；a_t∈A_t；a_t为资源分配动作，具体为t时刻各个波束功率和带宽联合分配结果，A_t为动作空间，表示为：A_t＝[P_t,B_t]；P_t表示t时刻各个波束可获得的功率资源，B_t表示t时刻各个波束可获得带宽资源；

为实际的业务需求流量，即预测值；/>

为由PPO网络资源分配结果计算出的系统容量；/>

是指波束业务满意度，当实际系统容量低于预测的需求之时，奖励值为零；/>

是指波束公平性，即业务需求量小的波束也能同等级别的获取资源；

通过不断迭代训练PPO网络，直至损失函数和奖励值收敛趋于稳定，即获得了最优资源分配网络。