CN113162682A

CN113162682A - 一种基于pd-noma的多波束leo卫星系统资源分配方法

Info

Publication number: CN113162682A
Application number: CN202110522431.4A
Authority: CN
Inventors: 陈前斌; 宋艾遥; 李子煜; 朱丹青; 唐伦
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-07-23
Anticipated expiration: 2041-05-13
Also published as: CN113162682B

Abstract

本发明涉及一种基于PD‑NOMA的多波束LEO卫星系统资源分配方法，属于卫星通信技术领域，在多波束LEO卫星系统下行传输场景中，引入PD‑NOMA技术，同时考虑波束间与波束内干扰，在卫星发射功率和用户QoS的约束下，联合子信道和功率分配来优化多波束LEO系统吞吐量，针对固定‑贪婪策略无法适应动态变化的学习过程的问题，采用状态值函数的差异动态调整动作的探索率，并设置双重经验回放池，加速神经网络的学习过程。本发明提出的卫星资源分配方法可以加速神经网络的收敛，在不同发射功率和传输速率条件下，能有效地提高系统的吞吐量。

Description

一种基于PD-NOMA的多波束LEO卫星系统资源分配方法

技术领域

本发明属于属于卫星通信技术领域，涉及一种基于PD-NOMA的多波束LEO卫星系统资源分配方法。

背景技术

卫星系统以其覆盖范围广，不受地面条件约束，已经作为Beyond5G和6G通信的主要技术手段之一，其中LEO卫星由于具有低功耗、低传输时延的优势得到了广泛的关注，为了服务大量的地面用户设备，LEO卫星通常会采用星载多波束天线技术来实现通信空间隔离与频率资源复用。资源分配技术是卫星系统无线资源管理的关键技术之一，通过灵活地调度和分配卫星系统中的信道、带宽和功率等资源，来提高卫星系统性能，实现资源利用率的最大化。

为了实现LEO卫星多用户信号的传输，采用诸如频分多址、时分多址等各式的多址接入技术，这些技术将多用户的信号分配在正交的资源块上，一个时频资源块只能分配给一个用户使用。但是卫星频谱资源有限，且随着地面设备数量的增长，传统多址接入技术无法支持下一代无线通信爆炸式的数据流和大规模连接，为了满足通信需求的增长，作为5G网络应对海量用户的技术之一，NOMA允许多个用户同时使用相同的时频资源块，相较于OMA能够有效地提高系统频谱利用率和吞吐量，其中PD-NOMA通过不同的功率大小来区分多用户信号，实现简单，应用场景灵活，因其优越的性能，近年来PD-NOMA技术在卫星通信领域的应用引起了广泛的关注。

PD-NOMA技术在同一个时频资源块中叠加多个用户的数据，利用不同功率水平进行区分，接收端采用SIC技术来消除部分干扰，但是先解码的用户可能会受到后解码用户的干扰。因此，在卫星系统中使用PD-NOMA技术时会存在用户间的同信道干扰，为了保证卫星系统通信质量，有必要进行资源分配优化以减少波束间和用户间干扰。

现有技术存在以下不足：首先，现有研究大多针对GEO卫星，然而GEO卫星与地面终端相对静止，而LEO卫星网络轨道高度较低，网络拓扑实时变化，基于传统的优化方法需要随着不同的网络状态不断更新计算，这会增加资源分配计算开销，降低资源调度的及时性和准确性。其次，若采用传统启发式优化方法，当面对高维度的状态空间和动作空间时，可能会出现维度灾难而导致优化方法无法得到全局最优解。

发明内容

有鉴于此，本发明的目的在于提高卫星系统的频谱利用率和资源分配的效率，充分利用LEO卫星网络有限的资源来满足日益增长的通信需求，提供一种基于PD-NOMA的多波束LEO卫星系统资源分配方法，同时考虑波束间与波束内干扰，在卫星发射功率和用户QoS的约束下，最大化卫星系统的吞吐量。

为达到上述目的，本发明提供如下技术方案：

一种基于PD-NOMA的多波束LEO卫星系统资源分配方法，包括以下步骤：

S1：首先基于用户UE_k，m，n与卫星之间的位置信息，根据视距损耗和降雨衰减效应，得到UE_k，m，n与卫星之间的信道增益；

S2：通过波束增益差异因子模拟在同一个卫星波束下增益值随着方向角向波束边缘靠近而逐渐降低现象，得到第k个波束在用户UE_k，m，n方向上的天线增益；

S3：根据用户UE_k，m，n与波束k之间的等效信道增益，同时考虑波束内与波束间干扰，得到用户UE_k，m，n在时隙t时的吞吐量；

S4：基于子信道分配因子和功率分配因子，使用深度强化学习寻找合适的子信道与功率联合分配的最佳资源分配方案。

进一步，在步骤S1中，LEO卫星使用Ka频段与地面上的多个用户终端进行通信，根据LEO卫星通信的传播特性，Ka波段卫星信道主要由视距损耗分量和缓慢的大气衰落(尤其是降雨衰落)决定，基于用户UE_k，m，n与卫星之间的位置信息，根据视距损耗和降雨衰减效应，得到UE_k，m，n与卫星之间的信道增益，具体包括：

S11：假设卫星到地面传输链路的信道增益在每个时隙内保持连续，在不同时隙间独立变化，在t时隙，UE_k，m，n与卫星之间的信道增益建模为：

h_k，m，n(t)＝√C_k，m(t)·r_k，n(t)

其中，C_k，m(t)＝(v/4πfd_k，m(t))²表示自由空间衰落因子，v为光速，f_c为载波频率；

为时隙t时LEO卫星与UE_k，m，n之间的距离，其中用户位于(x_m(t)，y_m(t)，0)，卫星位于(x_k(t)，y_k(t)，h)；

S12：为了模拟降雨衰减效应，采用ITU-R²P.618建议书中提出的经验模型，第k个波束的第n个子信道的降雨衰落因子为：

其中，

遵循均值为μ_r，方差为

对数正态随机分布，即

进一步，步骤S2中，考虑波束增益的差异对卫星波束信号发射增益的影响，对于同一个卫星波束，其增益值在法向最高，并且增益值随着方向角向波束边缘靠近而逐渐降低。因此，第k个波束在用户UE_k，m，n方向上的天线增益为：

G_k，m(t)＝b_k，m(t)G_tG_r

其中，G_t为波束中心增益，G_r为用户接收端增益，b_k，m(t)为波束增益差异因子：

其中，

J₁和J₃分别是1阶和3阶第一类贝塞尔函数，θ_k，m(t)为第k个波束中心与用户m之间的夹角，

为波束k的3-dB角。

进一步，在发送端，假设

为波束k子信道n上的用户集合，借助叠加编码技术，在t时隙，卫星发送到波束k子信道n上的叠加信号为：

其中，p_k，m，n(t)和s_k，m，n(t)分别代表LEO卫星传输到UE_k.m.n的发射功率与信号；

在接收端，每个用户接收的信号不仅包含对应的期望信号，还包括来自波束内的用户干扰信号、波束间的用户干扰信号以及均值为0，方差为

的加性高斯白噪声，即

在t时隙，UE_k.m.n接收到的信号表示为：

进一步，在步骤S3中，用户UE_k.m.n与波束k之间的等效信道增益为信道增益与天线增益之和，即

在时隙t，用户UE_k.m.n接收机端的SINR表示为：

其中，

表示波束内的干扰，

表示波束间的干扰。

进一步，在PD-NOMA系统中，为了保证用户的公平性，等效信道增益小的用户可以分配到更多的功率。根据SIC最佳解码顺序，首先解码功率高的用户信号，解码时将其余信号当作干扰，若解码成功，从叠加信号中剔除该用户信号，再从剩余信号中解码功率大的信号，直至目标信号解码完成。等价于，用户UE_k.m.n解码时执行SIC从叠加信号中减去等效信道增益比UE_k.m.n小的信号，把剩余信号视为干扰从而解调出自身信号，波束内的干扰

为：

波束间干扰是由UE_k.m.n与共享相同的频带资源的不同波束所带来的：

根据香农定理，用户UE_k.m.n在时隙t时的吞吐量表示为：

R_k，m，n(t)＝Blog₂(1+SINR_k，m，n(t))。

进一步，在步骤S4中，基于子信道分配因子和功率分配因子，使用深度强化学习寻找合适的资源映射方案，深度强化学习把深度学习的强感知能力应用到强化学习的决策过程中，通过不断尝试的方式与环境交互，通过神经网络感知到环境的未知状况，从而得到最准确的奖励估值。并通过最大化累计奖励的方式寻找最佳策略。确定以下三个元素集：

状态空间：s(t)＝{H_1，1，1(t)，H_1，1，2(t)，…，H_k，m，n(t)，…，H_K，M，N(t)}，H_k，m，n(t)表示时隙t时波束k与用户m在子信道n上的信道系数，这是决定资源分配策略的基础。由于LEO卫星沿着轨迹不断移动，将LEO的移动变化映射到用户与LEO的距离及方位变化，进一步映射到信道系数的变化，因此，LEO的移动性只影响状态的变化，并不影响框架的设计；

动作空间：从环境中获得状态后，需要选取合适的动作再作用于环境中。所提方法旨在通过联合子信道和功率分配达到收益的最大化，因此定义a(t)为系统在时隙t时的行为，其表达式为：

其中，x_k，m，n(t)表示时隙t时对于用户m的子信道分配因子，p_k，m，n(t)表示时隙t时在波束k的子信道n上分配给用户m的传输功率大小；

奖励：奖励是采取行动后环境给予的反馈，是指导策略学习而不断改进的关键因素，定义环境处于状态s_t时执行动作a_t，系统进入下一状态s_t+1，并得到即时奖励r_t；本发明优化目标是最大化系统的长期吞吐量，因此将系统吞吐量设为即时奖励，即：

r_t＝R_tot(t)。

进一步，步骤S4具体包括以下步骤：

S401：初始化系统参数，随机生成神经网络参数θ，θ′，w，w′，置有效经验回放池H与普通经验回放池D为空；

S402：令episode＝0，初始化状态s(0)，并置初始奖励值r₀＝0，初始化动作探索率ε(s₀)＝1；

S403：令t＝0，在每个调度时隙开始，收集当前时隙的状态，即网络拓扑状态信息、用户和卫星位置信息、信道增益信息和天线增益信息；

S404：根据下式选取近似最优的子信道与功率分配动作：

其中A为行动空间，即

分别为子信道分配二进制变量，以及功率分配资源；

γ为折扣因子，γ∈(0，1)，表示未来收益对当前收益的影响越来越小，因此采取一定折扣；

r_t为时隙t的即时回报函数，r_t＝R_tot(t)表示为整体系统的总吞吐量；

Q^π(s(t+1)，a(t+1))为下一时隙的动作值函数；

S405：根据给定的子信道和功率分配变量，判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件，如果不满足则转到步骤S404；如果满足则执行步骤S406；

S406：执行动作a(t)，得到环境反馈奖励r(t)和下一个状态s(t+1)；若普通经验池和有效经验池都溢出则进入S407，若均未溢出，将向量(s(t)，a(t)，r(t)，s(t+1))放入经验回放池中，并转移到步骤403，令t＝t+1；

S407：从经验池H中抽取β·N_D个样本，从经验池D中抽取(1-β)·N_D个样本，构成N_D个批量状态转移样本N_D*(s(i)，a(i)，r(i)，s(i+1))进行训练；

S408：根据每一样本，逐一计算每个样本中的Critic网络的TD目标值y(t)＝r(t)+γ·Q(s(t+1)，a′(t+1)；w′)和误差δ(t)＝y(t)-Q(s(t)，a(t)；w)；通过根梯度下降法根据在线网络参数，并通过软更新方式更新目标网络参数；若|δ(i)|＞Λ，则用(s(i)，a(i)，r(i)，s(i+1))代替有效经验池中的样本；最后根据下式更新动作探索率ε(s_t+1)

ε(s_t+1)＝φ·f(s_t，a_t，σ)+(1-φ)·ε(s_t)

S409：经过数次迭代，判断是否满足收敛条件，若没有满足收敛条件，转移到步骤S403，若满足收敛条件，则执行步骤S410；

S410：判断迭代次数是否满足最大迭代次数，若不满足，则令episode＝episode+1，并跳转到S402继续执行，否则结束。

深度强化学习通过不断执行动作，得到相应的奖励即下一状态，收集多个训练数据集(s(t)，a(t)，r(t)，s(t+1))放入经验回放池，然后在经验回放池中随机抽取，以减少训练数据的相关性，用以训练卷积神经网络；

同时，针对固定ε-贪婪策略无法适应动态变化的学习过程的问题，采用基于探索的值函数差异方法来解决探索和利用模式的平衡问题，并设置双重经验回放池，加速神经网络的学习过程。通过神经网络的强感知力拟合反映状态动作对在未来的潜在价值状态值函数，当训练充足，完全拟合时即可得到最优策略。

本发明的有益效果在于：本发明所提出的的基于PD-NOMA系统的资源方法不仅可以加速神经网络的收敛，在不同发射功率和传输速率条件下，能有效地提高系统的吞吐量，同时也反映了NOMA系统在增加系统容量上的优势。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例提供的基于PD-NOMA的多波束LEO卫星系统场景；

图2为本发明实施例提供的改进深度强化学习方法框架；

图3为本发明实施例提供的资源分配方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，图1所示为本发明基于PD-NOMA的多波束LEO卫星系统下行传输场景示意图。LEO卫星由K个波束组成，卫星具有固定的飞行高度，并按照预先配置好的移动轨迹沿着圆周轨道移动。系统带宽BW采用4色频率复用方案，相同颜色的波束共享同一频率资源，频带被划分为N个子频带，称为正交子信道，卫星通过子信道服务M个地面用户终端；

为了提升系统容量，在发射端，LEO卫星根据用户的信道状态信息，采用PD-NOMA技术在相同频带上以不同的功率同时传输多个用户终端的叠加数据，在接收端，使用用户检测算法，例如SIC技术消除部分干扰。因此，终端会受到当前波束和使用相同频率资源的其它波束的同信道干扰，分别为波束内干扰和波束间干扰。将时间划分为T个长度相同的时隙，在每一个很短的时隙t内，假定LEO卫星与终端的位置相对不变，LEO卫星借助地面控制中心获得所有用户的信道状态信息，并根据资源分配方案与用户进行通信，然后LEO卫星根据轨迹移动到下一个时隙的下一个位置上。令

其中

分别表示波束集合，子信道集合和所有用户终端集合，UE_k，m，n表示第k个波束下第n个子信道中的用户m，

表示与第k个波束通信的用户终端集合，故

首先，LEO卫星使用Ka频段与地面上的多个用户终端进行通信，根据LEO卫星通信的传播特性，Ka波段卫星信道主要由视距损耗分量和缓慢的大气衰落(尤其是降雨衰落)决定。假设卫星到地面传输链路的信道增益在每个时隙内保持连续，在不同时隙间独立变化，在t时隙，UE_k，m，n与卫星之间的信道增益可以建模为：

其中，C_k，m(t)＝(v/4πfd_k，m(t))²表示自由空间衰落因子，v为光速，f_c为载波频率。

为了模拟降雨衰减效应，采用ITU-R²P.618建议书中提出的经验模型，第k个波束的第n个子信道的降雨衰落因子为：

其中，

遵循均值为μ_r，方差为

对数正态随机分布，即

另外，对于同一个卫星波束，其增益值在法向最高，并且增益值随着方向角向波束边缘靠近而逐渐降低。因此，需要考虑波束增益的差异对卫星波束信号发射增益的影响，第k个波束在用户m方向上的天线增益为：

G_k，m(t)＝b_k，m(t)G_tG_r

其中，

为波束k的3-dB角；

其次，在发送端，假设

在接收端，每个用户接收的信号不仅包含对应的期望信号，同时，还包括来自波束内的用户干扰信号、波束间的用户干扰信号以及均值为0，方差为

的加性高斯白噪声，即

因此，在t时隙，UE_k.m.n接收到的信号可以表示为：

然后，定义用户UE_k.m.n与波束k之间的等效信道增益为信道增益与天线增益之和，即

根据以上的分析，在时隙t，用户UE_k.m.n接收机端的信噪比可表示为：

其中，

表示波束内的干扰，

表示波束间的干扰；

最后，在PD-NOMA系统中，为了保证用户的公平性，等效信道增益小的用户可以分配到更多的功率。根据SIC最佳解码顺序，首先解码功率高的用户信号，解码时将其余信号当作干扰，若解码成功，从叠加信号中剔除该用户信号，再从剩余信号中解码功率大的信号，直至目标信号解码完成。等价于，用户UE_k.m.n解码时可以执行SIC从叠加信号中减去等效信道增益比UE_k.m.n小的信号，把剩余信号视为干扰从而解调出自身信号，因此，波束内的干扰

为

根据香农定理，用户UE_k.m.n在时隙t时的吞吐量可表示为

R_k，m，n(t)＝Blog₂(1+SINR_k，n，n(t))

因此，整个系统的总速率为：

根据PD-NOMA系统的原理，每个波束的子信道上可以同时支持多个用户，用布尔变量x_k，m，n(t)表示时隙t时的子信道分配因子，在t时隙，当第k个波束的第n个子信道分配给用户m，则x_k，m，n(t)＝1，否则x_k，m，n(t)＝0，用p_k，m，n(t)表示t时隙时的功率分配因子。为保证优化目标的有效性，分配给所有用户的总功率不超过LEO卫星的最大发射功率P_max，且分配的功率不小于零；为了保证用户的QoS，需要满足用户的最小传输速率要求，R_min为所需的最小吞吐量；每个用户同时只能分配给一个子信道，且每一个子信道最多分配N_max个用户。

参见图2，图2为本发明提出的改进深度强化学习方法框架，以DDPG为基础，包含行动者和评判家两部分，使用深度神经网络来近似得到策略π(s)和Q值。其中，Actor负责构建策略网络，根据观测到的状态生成资源分配动作；Critic负责构建Q网络，根据执行动作后输出的Q值对当前策略进行评判，通过最小化损失函数对网络参数更新，Actor使用Critic的输出，通过梯度上升法进行参数更新。通过不断更新Critic网络的Q值和Actor网络的确定性策略，最终，可以根据状态及确定性策略选择最优的资源分配动作；

针对固定ε-贪婪策略无法很好地适应动态变化的学习过程这一问题，采用基于探索的值函数差异方法来解决探索和利用模式的平衡问题；针对随机抽取样本利用率低的问题，采用双重经验回放池来加速神经网络的学习过程。

参见图3，图3为本发明方法流程图，其处理步骤如下：

S403：令t＝0，在每个调度时隙开始，收集当前时隙的状态，即所述网络拓扑状态信息，用户和卫星位置信息，信道增益信息和天线增益信息；

S404：根据下式选取近似最优的子信道与功率分配动作：

其中所述A为行动空间，即

分别为子信道分配二进制变量，以及功率分配资源；

其中所述γ为折扣因子，γ∈(0，1)，表示未来收益对当前收益的影响会越来越小，所以需要采取一定折扣；

其中所述r_t为时隙t的即时回报函数，r_t＝R_tot(t)表示为整体系统的总吞吐量；

其中Q^π(s(t+1)，a(t+1))为下一时隙的动作值函数；

S405：根据给定的子信道和功率分配变量，判断当前所述的资源分配策略是否满足卫星最大发射功率和用户最小传输速率限制条件，如果不满足则转到步骤S404；如果满足所述约束条件，则执行步骤S406；

S406：执行动作a(t)，得到环境反馈奖励r(t)和下一个状态s(t+1)。若普通经验池和有效经验池都溢出时进入S407，若均未溢出，将向量(s(t)，a(t)，r(t)，s(t+1))放入经验回放池中，并转移到步骤403，令t＝t+1；

S408：根据每一样本，逐一计算每个样本中的Critic网络的TD目标值y(t)＝r(t)+γ·Q(s(t+1)，a′(t+1)；w′)和误差δ(t)＝y(t)-Q(s(t)，a(t)；w)。根梯度下降法根据在线网络参数，并通过软更新方式更新目标网络参数。若|δ(i)|＞Λ，则用(s(i)，a(i)，r(i)，s(i+1))代替有效经验池中的样本；另外，根据下式更新动作探索率ε(s_t+1)

ε(s_t+1)＝φ·f(s_t，a_t，σ)+(1-φ)·ε(s_t)

S410：判断方法迭代次数是否满足最大迭代次数，若不满足，则令episode＝episode+1，并跳转到S402继续执行，否则方法结束。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。