CN114599099A

CN114599099A - 一种基于强化学习的5g星地链路多波束动态功率分配方法

Info

Publication number: CN114599099A
Application number: CN202210221080.8A
Authority: CN
Inventors: 宋晓勤; 程梦倩; 陈权; 柴新越; 徐雷; 缪娟娟
Original assignee: Nanjing University of Aeronautics and Astronautics; Jiangsu Future Networks Innovation Institute
Current assignee: Nanjing University of Aeronautics and Astronautics; Jiangsu Future Networks Innovation Institute
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-07

Abstract

本发明公开一种基于强化学习的5G星地链路多波束动态功率分配方法，该方法搭建了多波束卫星通信系统模型，根据通信过程中上行链路与下行链路的信道状态不同得出了卫星的星上资源缓存信息，以最大化用户传输速率为优化目标，同时考虑功率、缓存、速率等多个约束条件给出了卫星系统资源分配问题的目标函数，基于Q学习方法，将多波束卫星设计为智能体Agent，动作为功率选择，环境为信道状态，在智能体与信道环境的交互过程中，不断更新Q值积累学习经验，逐步找到所提优化问题的最优解。本方法具有良好的收敛性和系统性能，是一种高效可靠的动态资源分配方法，能够适应复杂多变的通信环境，特别适合应用于资源受限的多波束卫星通信系统中。

Description

一种基于强化学习的5G星地链路多波束动态功率分配方法

技术领域

本发明涉及一种卫星互联网技术，尤其涉及一种卫星互联网中的功率分配方法，更具体地说，涉及一种基于强化学习的5G星地链路多波束动态功率分配方法。

背景技术

随着航空航天技术的发展与关键技术的突破，现代通信网络不但要提供无处不在的高质量通信服务，而且要满足所有用户日益增长的信息获取需求。卫星通信作为5G非地面通信网络的重要组成部分，其与传统地面通信网络相比，在可靠性高、可扩展性高、覆盖范围大、可实现全球范围覆盖且组网方式简单等多个方面具有独特优势，卫星通信系统因此得到广泛应用。所以，与地面网络系统集成的卫星通信系统是满足用户多业务需求、高服务质量的最佳解决方案。然而，在卫星通信系统中，会存在星上计算资源和存储资源受限以及卫星高速移动等问题，因此，卫星系统需要相对特殊的资源管理方式。同时，通信卫星在一个覆盖区域的上空移动速度越快，实现卫星资源管理这一目标也就越困难，更重要的是，大多数卫星通信系统将地球覆盖区域划分为多个小区，这使得卫星资源管理变得更为复杂。

在空天地一体化系统中，卫星互联网越来越受到人们的关注。然而，卫星通信系统中由频带受限而引发的问题也越来越突出。现如今，如何实现在卫星星上计算和存储资源受限的约束条件下高效合理的进行资源分配成为一个重点研究问题。而多波束天线(Multiple Beam Antenna，MBA)卫星通信系统的出现成为了有效解决卫星资源分配问题的关键，通过多波束天线或相控阵天线，可以实现多个不同区域内节点间的相互通信。同时，由于多波束卫星通信技术具有波束隔离和频率复用等优点，已经在空天地一体化网络系统中得到了广泛应用。因此，在卫星通信系统中利用多波束技术不但可以明显提高系统的频谱效率，而且可以增大卫星通信的系统容量。然而，有限的频谱资源一直是制约卫星通信技术发展的关键因素。

与此同时，得益于动物学习思想理论以及条件反射理论的强化学习技术也迅速发展。在卫星复杂的通信环境中，通过利用强化学习技术来优化卫星系统的资源分配问题已经成为人们研究的热点。利用强化学习技术可以使智能体在与环境的不断交互过程中学习，积累经验，实现奖励收益的最大化，以此来提高卫星资源分配的决策优化能力。

发明内容

本发明的目的是解决如何利用强化学习技术在资源受限的约束条件下进行动态资源分配的问题，给出一种基于Q学习的卫星资源分配方法(Q-learning based SatelliteResource Allocation，QSRA)。通过智能体不断与错综复杂的通信环境交互，来得到卫星通信系统的状态信息，进而实现卫星系统功率资源的动态分配，提高系统的频谱利用率与系统容量。为了实现该目的，本发明所采用的步骤是：

步骤1：建立多波束卫星通信系统模型，并给出上行信道链路模型和下行信道链路模型；

步骤2：确定在满足多波束卫星通信系统的星上缓存约束的条件下最大化用户的传输速率的卫星通信系统资源分配的目标函数；

步骤3：多波束卫星智能体不断观测通信环境，得到载波和用户的分配状况以及卫星的星上资源缓存状态，并根据此时的Q表完成功率分配动作的选择；

步骤4：通信环境根据动作的执行结果更新载波分配、已服务用户以及星上缓存资源的状态，并评估此次功率分配动作执行结果的奖励收益，将其反馈给多波束卫星智能体；

步骤5：多波束卫星智能体根据通信环境反馈的奖励收益、更新过后的环境状态以及Q学习算法中值函数的更新规则，对Q表中对应的Q值进行更新，实现智能体动作选择策略的不断更新优化，最终实现最大化智能体的奖励收益，找到优化问题的最优解。

进一步的，所述步骤1包括如下具体步骤：

步骤1-1：在多波束卫星通信系统中，卫星节点通过上行链路接收到来自地面用户的信号可以表示为：

其中，n₀表示星地链路中的零均值加性高斯白噪声，p_u表示地面用户的发射功率，x_s表示对应的信号，H_s表示卫星节点到地面用户的信道，其可以用Gilbert-Elliott信道模型来表示；

步骤1-2：假设通信信道在两个状态之间相互转换，一个为G(good)状态，另一个为B(bad)状态，可以得到在时隙k时的信道状态X(k)：

其中，γ(k)表示在时隙k时的信噪比(SNR)，γ_th表示γ(k)的门限阈值；

步骤1-3：假设在时隙k时信道状态处于G，则将在时隙k+1时仍为G状态的概率表示为1-q，转换状态的概率表示为q，同理有在时隙k时信道状态若处于B，则将在时隙k+1时仍为B状态的概率表示为1-r，转换状态的概率表示为r，则可以表示为：

步骤1-4：上行信道链路的传输速率可以表示为：

其中，w_s是星地链路中上行链路的链路带宽，h_s是星地链路中上行链路的信道系数，N为星地链路中的噪声功率；

步骤1-5：同理可以得出下行链路模型，在多波束卫星通信系统中，地面用户通过下行链路接收到来自卫星节点的信号可以表示为：

其中，n₀表示星地链路中的零均值加性高斯白噪声，p_s表示通信卫星节点的发射功率，x_u表示对应的信号，则下行信道链路的传输速率可以表示为：

其中，w_u表示星地链路中下行链路的链路带宽，h_u表示星地链路中下行链路的信道系数，N表示星地链路中的噪声功率。

进一步的，所述步骤2包括如下具体步骤：

步骤2-1：假设多波束卫星通信系统中总的系统下行功率为P_total，卫星系统的总波束数量为N_total，则每波束的功率可以表示为：

步骤2-2：每波束中的总载波数量用N_carrier表示，则可以得出多波束卫星通信系统中每个载波的功率：

其中，M＝N_total·N_carrier表示系统中的总载波数；

步骤2-3：假设卫星通信系统中的总带宽为B_total，则可以得出每个载波的带宽：

由此可以得出，多波束卫星通信系统的最大传输速率：

C_i＝B_mdet(log₂(I_M+SINR_i)) (10)

其中，m＝1，2，3，...，M表示多波束卫星通信系统中的第m个载波，i＝1，2，3，...，N表示第i个地面用户，I_M表示M阶单位矩阵，SINR_i表示地面用户i的信干燥比矩阵，其可以由下式得出：

其中，U_i表示地面用户i接收到的有用功率，R_i表示卫星通信系统的噪声功率，其由同频干扰和加性高斯白噪声组成，即

步骤2-4：假设地面用户节点G_i与G_j通信过程中产生的星上资源缓存量为

则根据式(4)、(6)，可以得出多波束卫星通信系统中的星上资源缓存量：

步骤2-5：因此，可以由(12)式得出卫星通信系统中总的星上资源缓存量：

其中，N_up表示卫星通信系统中的上行链路总数，N_down表示卫星通信系统中的下行链路总数；

步骤2-6：显然，假设多波束卫星通信系统中的星上资源缓存量的门限阈值为Φ_th，在t时刻星上资源缓存量Φ(t)应该满足：

Φ(t)≤Φ_th； (14)

步骤2-7：进一步地，在t时刻，为最大化星地链路的系统容量，保证用户的服务质量，将卫星通信系统的资源优化问题建模为：

其中，

表示在t时刻卫星通信系统中第m个波束上第k个载波上地面用户u的传输速率，

表示t时刻地面用户u的传输速率，R_th表示地面用户传输速率的最低门限阈值，

表示t时刻地面用户u在第m个波束上的第k个载波的分配情况(若地面用户u被分配到该子载波上，则有

反之则为0)，Φ^t表示在t时刻卫星上的资源缓存量，P_th表示卫星通信系统总功率的门限阈值，

表示单一波束功率的门限阈值。

进一步的，所述步骤3包括如下具体步骤：

步骤3-1：定义状态空间S，状态s本质上是环境的抽象化表示形式，为多波束卫星智能体的动作选择提供依据，根据上述步骤中的多波束卫星系统的系统模型，可以得出卫星系统的载波分配矩阵W：

其中，w_n表示第n个波束的载波分配状况，是一个1×N_carrier的列向量，从上式中可以得出每个波束的载波分配情况，同时，据前文所述，在t时刻的资源缓存用

来表示；

步骤3-2：将在t时刻已分配的载波矩阵W、已被服务的用户集U以及卫星资源缓存Φ定义为状态空间，可以表示为以下形式：

步骤3-3：将发送功率分配定义为智能体的可选动作集合空间A(s_t)，考虑到实际以及训练的限制，功率选择采用离散的功率范围；

步骤3-4：智能体在进行动作执行选择时，是在当前的动作集合空间A(s_t)中根据ε-greedy贪心算法来进行动作的选择，即多波束卫星智能体有1-ε的概率来选择使其Q值最大的动作来执行，有ε的概率在可行的动作集合空间中随机选定一个动作来执行，该多波束卫星智能体的动作选择策略可以被表示成：

步骤3-5：智能体对环境的探索过程是一个认知和经验不断增加的过程，所以，在初始时其探索概率ε的取值一般比较大，但是随着智能体对环境的认知以及学习经验的逐渐增加，探索概率ε也会随之不断变小，以使概率1-ε不断变大，即有更大的概率来选择能够获得较大Q值的动作，从而避免智能体陷入局部的最优解，以此来不断优化多波束卫星智能体的探索过程，最终得到全局的最优解，其探索概率的衰减公式可以被表示为：

ε＝ε_min+(ε_max-ε_min)·exp(-h·t) (19)

其中，h表示探索概率ε的衰减因子，ε_max表示ε的最大值，ε_min表示ε的最小值，t表示迭代次数，从式(19)中可以明显看出，随着智能体对环境认知的不断增加，其探索概率也在不断衰减。

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：定义多波束卫星Agent执行相应的动作并作用于通信环境之后，得到的来自环境反馈的奖励收益为r，奖励收益反馈的结果包括正反馈收益与负反馈收益，是一种当前状态的环境对智能体所执行动作结果评价的体现，通常奖励收益都会被设计成与整个通信系统性能相关的变量，在本资源分配方法中，将多波束卫星系统传输速率的增量Δδ设计为智能体的奖励收益，其可以表示为：

Δδ＝δ_t+1-δ_t (20)

其中，

表示t在时刻多波束卫星系统的总传输速率，从式(20)中可以看出，该奖励收益是与卫星系统性能正相关的变量；

步骤4-2：则奖励收益可以下式来表示：

其中，r_g＞r_d，并且r_g、r_d的取值范围是0～1的闭区间，从式(21)中可以看出，当传输速率增量大于0时智能体得到的奖励反馈会更大，即r_t＝r_g，反之，智能体得到的收益将降低。

进一步的，所述步骤5包括如下具体步骤：

步骤5-1：多波束卫星智能体执行动作并作用于通信环境之后，得到的来自环境反馈的奖励收益为r，获得更新过后的环境状态为s′；

步骤5-2：定义折扣因子γ表示学习过程中的收益的衰减系数，一般情况下，其取值范围在0～1之间；

步骤5-3：多波束卫星智能体根据奖励收益r、更新过后的环境状态为s′、以及Q学习算法中值函数的更新规则，对Q表中对应的Q值进行更新，即

Q(s，a)←Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)]； (22)

步骤5-4：令s←s′，判断s是否为终止状态，并判断Q值表是否收敛，若收敛则训练结束，否则重复上述步骤4-步骤6，最终得到最优分配策略如下式所示：

π(s)＝arg max_a∈AQ(s，a)。 (23)

附图说明

图1是本发明所述的基于Q-learning的算法架构模型图；

图2是本发明的算法流程图；

图3是多波束卫星系统模型图；

图4是不同学习效率对QSRA方法的影响仿真结果图；

图5是QSRA方法在不同业务要求下的收敛速度比较图；

图6是QSRA方法缓存优化前后对比仿真图；

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

本发明的目的是解决如何利用强化学习技术在资源受限的约束条件下进行动态资源分配的问题，给出一种基于Q学习的卫星资源分配方法，其架构模型图如附图1所示，流程图如附图2所示。具体包括以下步骤：

步骤5：多波束卫星智能体根据通信环境反馈的奖励收益、更新过后的环境状态以及Q学习算法中值函数的更新规则，来对Q表中对应的Q值进行更新，实现智能体动作选择策略的不断更新优化，最终实现最大化智能体的奖励收益，找到优化问题的最优解。

进一步的，上述步骤1包括如下具体步骤：

步骤1-1：在多波束卫星通信系统的服务覆盖范围内，每个波束能够覆盖并服务多个地面的终端设备(例如手机终端，车载终端)，并在多波束卫星通信过程中有i(0≤i≤N_up)条上行链路和j(0≤j≤N_down)条下行链路。卫星通信系统采用时分复用和频分复用，其中上行链路模型和下行链路模型均被建模成加性高斯白噪声信道模型，同时，不同的波束之间会有一定程度的同频干扰(Co-Channel Interference，CCI)。

在同一时刻，一个请求用户在卫星通信系统中仅能占有一个子载波，并且每个子载波也只能分配给一个用户使用。两个地面用户节点在通过卫星网络进行通信时，有可能在同一波束内也可能位于不同的两个波束之间，并且可能是多个不同类型的地面用户终端之间的通信。考虑到上、下行链路的信道状态可能存在差异，在某些情况下，下行链路信道条件比上行链路信道条件差，这样就会在卫星上产生缓存资源。然而，卫星的体积有限，并且卫星上的计算资源和存储资源非常珍贵。因此，需要对卫星上的资源进行动态的高效合理分配，不但要保证用户的服务质量，而且要提升卫星通信系统的系统性能。多波束卫星系统模型图如图3所示。

为了分析多波束卫星通信系统在通信服务过程中所产生的缓存资源，需要给出多波束卫星通信系统的上行信道链路模型和下行信道链路模型。在信道模型中，“卫星”一般指低轨卫星或对地静止卫星。同样，“地面用户”对应低轨卫星的用户或对地静止卫星的用户。

在多波束卫星通信系统中，卫星节点通过上行链路接收到来自地面用户的信号可以表示为：

步骤1-4：上行信道链路的传输速率可以表示为：

进一步的，上述步骤2包括如下具体步骤：

其中，M＝N_total·N_carrier表示系统中的总载波数；

由此可以得出，多波束卫星通信系统的最大传输速率：

C_i＝B_mdet(log₂(I_M+SINR_i)) (10)

Φ(t)≤Φ_th； (14)

上式中，

反之则为0)，Φt表示在t时刻卫星上的资源缓存量，P_th表示卫星通信系统总功率的门限阈值，

表示单一波束功率的门限阈值。

针对上述优化问题的约束条件作进一步描述：

C1：在任意时刻，用户的传输速率都必须大于或等于最小传输速率门限；

C2、C3：在任意时刻，任意用户最多被分配一个子载波，并且每个子载波最多只能分配给一个用户使用；

C4：在任意时刻，星上资源缓存量要小于门限值；

C5：系统总功率约束；

C6：在任意时刻，每个波束的功率要小于单波束功率约束；

C7：保证单波束功率在任意时刻大于或等于0。

进一步的，所述步骤3包括如下具体步骤：

来表示；

ε＝ε_min+(ε_max-ε_min)·exp(-h·t) (19)

进一步的，所述步骤4包括如下具体步骤：

Δδ＝δ_t+1-δ_t (20)

其中，

步骤4-2：则奖励收益可以下式来表示：

其中，r_g＞r_d，并且r_g，r_d的取值范围是0～1的闭区间，从式(21)中可以看出当传输速率增量大于0时智能体得到的奖励反馈会更大，即r_t＝r_g，反之，智能体得到的收益将降低。

进一步的，所述步骤5包括如下具体步骤：

Q(s，a)←Q(s，a)+α[r+γmax_a′Q(s′，a′)-Q(s，a)]； (22)

π(s)＝arg max_a∈AQ(s，a)。 (23)

最后得出基于Q学习的多波束卫星系统资源分配方法伪代码如表1所示。

表1基于Q学习的5G星地链路多波束动态功率分配方法伪代码

为了验证基于强化学习的资源分配方法的有效性，本文利用Pycharm来搭建多波束卫星通信系统的仿真场景。仿真场景采用多波束卫星通信系统，其仿真参数如表2所示。仿真开始时，生成100个地面用户终端随机分布，Q学习的探索概率根据式(19)进行初始化，并随着智能体对环境的探索以及经验的积累不断减小。

表2仿真参数设计

在多波束卫星系统初始化完成之后，智能体根据Q学习算法开始完成学习过程，维护更新Q表，表3给出了Q学习的相关参数。

表3 Q学习相关参数

在PyCharm中利用Python语言针对QSRA方法在不同的学习效率α下的Q值变化进行仿真模拟，设置的学习效率α分别为0.1、0.4以及0.7，折扣因子γ设置为0.9，衰减因子h设置为0.02。仿真结果如附图4所示，从中可以看出，当Q学习的学习效率为0.7时QSRA方法的收敛速度最快，大约在500次左右就可以得到收敛，而当学习效率为0.1时则需要迭代5000次左右，明显慢于学习效率α＝0.7时的收敛速度。

为了比较在多个不同通信业务请求的条件下QSRA方法的收敛性能，图5给出了三个不同业务请求时，QSRA方法的Q值随迭代次数变化的曲线图，其中，学习效率被设置为0.7，折扣因子设置为0.9，探索概率ε的衰减因子为0.02。结果表明，在地面终端用户随机生成的三个不同的通信业务条件下，QSRA方法基本在迭代了284次左右的时候都得到了收敛，进一步说明了所提出的QSRA方法具有稳定的收敛性。

附图6对比了QSRA方法在考虑缓存资源约束与未考虑缓存资源约束时的星上资源缓存量。在考虑缓存约束时的缓存门限值被设置为10Mbps，从图中可以明显看出，当迭代次数达到500次左右的时候，优化后的QSRA方法可以快速收敛并降低到门限阈值10Mbps以下，并维持在9.94Mbps左右，而未考虑缓存约束的时候，QSRA方法迭代次数在达到2000次以上才开始趋于稳定，收敛速度缓慢，并且缓存仍有16Mbps左右，占用的缓存资源明显多于QSRA方法优化之后。所以，QSRA方法在对星上缓存资源优化之后，可以明显减小卫星的星上资源缓存大小，减轻卫星的资源存储负担。

综合图4-图6可以看出，本发明所提出的基于Q学习的资源分配方法无论是在方法本身的收敛性上还是系统性能上都具有很好的表现，是一种高效可靠的动态资源分配方法，同时，能够适应复杂多变的通信环境，特别适合应用于资源受限的多波束卫星通信系统中。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。