CN117833997A

CN117833997A - 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法

Info

Publication number: CN117833997A
Application number: CN202410233541.2A
Authority: CN
Inventors: 赖海光; 周博文; 潘奇; 万坤; 魏武
Original assignee: Nanjing Kongwei Communication Technology Co ltd
Current assignee: Nanjing Kongwei Communication Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-05
Anticipated expiration: 2044-03-01
Also published as: CN117833997B

Abstract

本发明公开了一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，包括建立基于NOMA的多波束卫星下行通信链路系统，采集多波束卫星下行通信链路的数据，计算多波束内用户的平均信道增益；构建信号传输模型，采用香农定理，计算得到系统发送下行信号速率之和；构建多波束NOMA下行链路系统的资源分配模型，包括目标函数和约束条件，基于目标函数和约束条件，形成优化问题，包括连续优化问题和离散优化问题；采用GAN‑DDPG算法对连续优化问题进行求解，采用GAN‑DDQN算法对离散优化问题进行求解，重复这个步骤直到目标函数收敛，得到最优资源分配策略。本发明根据实时的通信需求，优化了资源的分配，提高了资源的利用效率，从而提高了系统的可靠性和稳定性。

Description

一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法

技术领域

本发明属于卫星通信领域，公开了一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法。

背景技术

随着通信技术的发展和需求的增加，人们对多波束卫星通信系统的研究有了更多的期望，对地球上资源的有效管理和分配以及系统性能的提高变得越来越重要。卫星通信需要使用特定的频段进行无线传输。频谱管理涉及到频段规划、频谱分配和频段监测等技术，以确保不同卫星系统之间的频谱资源得到有效利用。这些背景技术的不断发展和创新，推动了卫星通信技术的进步和应用范围的扩大。

然而现有的卫星通信技术需要使用特定的频段进行传输，而频谱资源有限，频段分配的复杂性限制了卫星通信系统中频段的利用效率，降低了系统的可靠性和稳定性。

发明内容

发明目的：提供一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，以解决现有技术存在的上述问题。

技术方案：一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，包括以下步骤：

S1、建立基于NOMA的多波束卫星下行通信链路系统，采集多波束卫星下行通信链路的数据，计算多波束内用户的平均信道增益；

S2、基于平均信道增益，构建信号传输模型，采用香农定理，计算得到系统发送下行信号速率之和，记为系统可达和速率；

S3、基于系统可达和速率，构建多波束NOMA下行链路系统的资源分配模型，基于资源分配模型的目标函数和约束条件，形成优化问题，优化问题包括连续优化问题和离散优化问题；

S4、采用GAN-DDPG算法对连续优化问题进行求解，采用GAN-DDQN算法对离散优化问题进行求解，重复这个步骤直到目标函数收敛，得到最优资源分配策略。

根据本申请的一个方面，步骤S1具体为：

S11、建立基于NOMA的多波束卫星下行通信链路系统，包括卫星、波束、用户和子信道，获取卫星、波束、用户和子信道的数据；

S12、基于获取的数据，计算多波束卫星下行通信链路的参数，包括卫星发射天线增益、用户接收天线增益和路径损耗；

S13、基于获取的数据和多波束卫星下行通信链路的参数，采用贝塞尔函数，计算多波束内用户的平均信道增益。

根据本申请的一个方面，步骤S2具体为：

S21、根据NOMA的原理，将每个波束内的用户进行分组，得到预定个用户对；

S22、通过子信道向用户对发送混叠信号，采用连续干扰消除技术对混叠信号进行解码，基于平均信道增益和解码后的混叠信号，构建信号传输模型；

S23、基于信号传输模型，采用香农定理，计算每个用户对的传输速率，并求和得到系统发送下行信号速率之和，记为系统可达和速率。

根据本申请的一个方面，步骤S3具体为：

S31、基于系统可达和速率，构建多波束NOMA下行链路系统的资源分配模型，资源分配模型包括目标函数和约束条件，目标函数为最大化系统可达和速率，约束条件为系统的长期能耗；

S32、基于目标函数和约束条件，构建优化变量，优化变量包括用户分组策略、子信道分配策略、带宽分配策略和功率分配策略；

S33、基于带宽分配策略和功率分配策略，形成连续优化问题，基于用户分组策略和子信道分配策略，形成离散优化问题。

根据本申请的一个方面，步骤S4具体为：

S41、基于连续优化问题，采用GAN-DDPG算法，构建第一神经网络；

S42、采用随机行为策略和经验回放技术，构建第一训练集，采用第一训练集对第一神经网络进行训练，得到训练后的第一神经网络；

S43、基于离散优化问题，采用GAN-DDQN算法，构建第二神经网络；

S44、采用生成对抗网络技术以及经验回放技术，构建第二训练集，采用第二训练集对第二神经网络进行训练，得到训练后的第二神经网络；

S45、基于训练后的第一神经网络和第二神经网络，判断目标函数是否收敛，如果收敛，则输出最优资源分配策略，如果不收敛，则返回步骤S41，继续迭代。

根据本申请的一个方面，步骤S31中系统的长期能耗包括用户对的最低接收速率、最高带宽总量、最高发送功率和最高系统长期功率和、用户对和子信道的匹配。

根据本申请的一个方面，步骤S31具体为：

S311、获取用户的服务质量，基于用户的服务质量对用户进行分类，分为高质量用户和低质量用户；其中用户的服务质量包括用户的业务类型、优先级和信道条件；

S312、基于信号传输模型，分别计算高质量用户和低质量用户的误码率；

S313、基于系统可达和速率、高质量用户的误码率和低质量用户的误码率，构建多波束NOMA下行链路系统的资源分配模型；

S314、资源分配模型包括目标函数和约束条件，目标函数为最大化系统可达和速率、最小化高质量用户的误码率和最小化低质量用户的误码率，约束条件为系统的长期能耗。

根据本申请的一个方面，目标函数为：

1/T max_V,A,W,P∑_t∈TR_sum(t)

其中V和A为离散优化变量，W和P为连续优化变量，t表示时隙，T表示时隙合集，R_sum（t）表示系统的可达和速率，具体为：

R_sum（t）=∑_b∈B∑_{k∈Vb（t）}R_k，b（t）

其中B表示波束集合，V_b（t）表示第b个波束在时隙t所服务的用户集合，R_k，b（t）表示第t个时隙第b个波束中卫星向第k个用户发送的下行信号所达到的传输速率，具体为：

R_k，b（t）=W_k，b（t）log（1+h_k，b（t）p_k，b（t）/∑_{i∈B，i≠b}∑_j∈Vih_k，b（t）a_k，j（t）sqrt（p_i，j（t））+z_k，b）

其中h_k，b（t）表示第t个时隙用户k在波束b内的平均信道增益，p_k，b（t）表示在第t个时隙第b个波束中卫星发送信号到第k个用户时所分配的发送功率，a_k，j（t）为通过取0或者取1来判断用户k和用户j是否占用相同的子信道，z_k，b表示加性高斯白噪声，W_k，b（t）表示第t个时隙中第b个波束中卫星向第k个用户发送的信号时所占据的子信道的带宽；

采用GAN-DDPG算法对连续优化问题进行求解，训练损失定义为：

L=1/N∑_i（r_i+g *Q（s_i+1，*m（s_i+1 | q*^m）| q *^Q）-Q（s_i，｛V_i,A_i,W_i,P_i｝| q^Q））²

其中N代表着从经验池中进行小批量随机采样的数量，r表示奖励，g表示折扣因子，*Q和Q 为两个评价网络，*m和m表示两个策略网络，m（）表示其中一个策略网络的输出，s_i 表示从经验池中第i次采样得到的状态，s_i+1表示从经验池中第i+1次采样得到的状态，q^Q和q^m分别是当前迭代周期评价网络Q和评价网络m在系统状态s_i下的神经网络参数；

采用GAN-DDQN算法对离散优化问题进行求解，损失函数定义为：

其中E表示期望值，p（λ）=λ/2（∣▽_x’D(x’)∣₂-1）²，x’=τx+（1-τ）G（z），τ～U（0,1），y=r+γG’^{（｛V,A,W,P｝*）}（s＇，τ），G和D为生成器网络和鉴别器网络，G’表示为了生成最大动作-值样本期望的动作而初始化的网络，▽表示梯度计算符号，∣∣表示取绝对值，B为训练时所使用的经验池，g为折扣系数，λ为梯度惩罚系数，x表示来自真实数据的样本，x’表示真实数据样本x与生成器G(z)生成的数据样本的线性组合,可以帮助生成器更好地模仿真实数据的分布特征，从而提高生成器的性能和生成的数据质量，z表示来自随机分布的样本，τ表示来自均匀分布(U(0,1))的样本。

根据本申请的一个方面，所述步骤S1还包括：

步骤S14、引入时隙划分方案，将卫星的轨道周期划分为若干个时隙，每个时隙内卫星的位置和波束覆盖区域保持不变，从而将动态问题转化为静态问题；

步骤S15、基于时隙划分方案，对每个时隙内的用户进行分组和资源分配，得到每个时隙内的用户分组策略、子信道分配策略、带宽分配策略和功率分配策略。

根据本申请的一个方面，所述步骤S2还包括：

S24、引入干扰管理方案，通过干扰消除、干扰协调和干扰随机化方法，减少或抑制干扰的影响，提高系统的性能和资源利用率；

S25、基于干扰管理方案，调整用户分组策略和子信道分配策略，使得同一子信道上的用户具有较大的信道增益差异，从而降低同频干扰，同时通过调整带宽分配策略和功率分配策略，使得邻波束干扰和邻星干扰在接收端被视为噪声，从而抑制邻波束干扰和邻星干扰；

所述步骤S3还包括：

S34、引入服务质量保障方案，通过用户分类、用户权重和用户速率分配，满足不同用户的服务质量要求，提高用户的满意度和系统的公平性；

S35、基于服务质量保障方案，获取用户的服务质量，基于用户的服务质量对用户进行分类，分为高质量用户和低质量用户，然后根据用户的分类，分别计算用户的误码率，从而构建资源分配模型，使得目标函数不仅最大化系统的可达和速率，还最小化高质量用户的误码率和低质量用户的误码率。

有益效果：本发明通过提供一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，根据实时的通信需求，优化了资源的分配，提高了资源的利用效率，从而提高了系统的可靠性和稳定性。

附图说明

图1为本发明的流程图。

图2为本发明步骤S1的流程图。

图3为本发明步骤S2的流程图。

图4为本发明步骤S3的流程图。

图5为本发明步骤S4的流程图。

图6为本发明实施例的NOMA多波束卫星通信系统架构图。

图7为本发明实施例的流程图。

具体实施方式

如图1所示，本发明提出了一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，在频谱资源受限的情况下，考虑系统总速率最大原则，将频谱资源分配给用户。具体包括：

如图2所示，步骤S1具体包括：

在进一步的实施例中，基于高轨卫星通信环境，建立多波束卫星下行通信链路，卫星使用B个波束覆盖其服务区域，波束内采用基于NOMA的下行接入方式，所有波束间分配频谱资源，每个波束所服务的用户对存在波束间同频信道干扰。设时隙集合为T=｛1,2，…，T｝，系统内用户的集合定义为K=｛1,2，…，K｝，波束集合定义为B=｛1,2，…，B｝,波束之间共享的总带宽为B，V_b（t）ÍK表示第b个波束在时隙t所服务的用户集合。此外，定义M=｛1,2，…，M｝为波束内子信道的集合，

定义第t个时隙用户k在波束b内的平均信道增益为：

h_k，b（t）=pl_k，b（t）G_tG_r（B₁（m_k，b（t））/2m_k，b（t）+36B₃（m_k，b（t））/m³ _k，b（t））²

其中，G_t表示卫星发射天线增益，G_r表示用户接收天线增益，pl_k，b（t）表示路径损耗，B₁（）表示1阶贝塞尔函数，B₃（）表示3阶贝塞尔函数，m_k，b由卫星、波束中心、卫星用户位置之间的角度关系获得。

本实施例建立了基于NOMA的多波束卫星下行通信链路系统，采集了卫星、波束、用户和子信道的数据，并计算了多波束内用户的平均信道增益，为后续的信号传输模型和资源分配模型的构建提供了基础数据和参数。

进一步的，所述步骤S1还包括：

步骤S14、引入时隙划分方案，将卫星的轨道周期划分为若干个时隙，每个时隙内卫星的位置和波束覆盖区域保持不变，从而将动态问题转化为静态问题。

对此静态问题的描述为针对时隙t，优化目标函数R_sum满足约束包括每个用户的接受速率不低于阈值R₀，即R_k，b＞R₀，用户被分配的带宽之和不能超过阈值W^max，即∑_b∈B∑_{k∈Vb（t）}W_k，b≤W^max，卫星面向每个用户的发送功率不能超过阈值p^max，并且满足0＜p_k，b＜p^max，卫星通信系统功率之和不能超过阈值P^total，并且满足于∑_k∈K∑_b∈Bp_k，b＜P^total；

本实施通过将卫星的轨道周期划分为若干个时隙，每个时隙内卫星的位置和波束覆盖区域保持不变，将动态问题转化为静态问题，降低了算法的复杂度和提高了算法的收敛速度和稳定性。避免了因为卫星的运动和用户的移动而导致的信道变化和资源分配的不匹配，提高了系统的可靠性和性能。适应了低轨卫星的高动态特性，简化了卫星通信系统的模型，减少了计算量和通信开销。

如图3所示，步骤S2具体包括：

在进一步的实施例中，在一个波束内的多个用户可以组成用户对并采用NOMA的方式进行多路复用以接入子信道，同时使用连续干扰消除技术进行干扰消除。一个波束下的用户对与用户对之间所占用的频谱正交，因此一个波束中的用户对与用户对之间不存在波束内干扰，而不同波束中的用户对之间由于存在占用相同子信道的情况因此存在波束间干扰，因此卫星通过子信道在每个波束中向用户对发送混叠信号，并且通过连续干扰消除对信号进行解码，最终波束b下的用户k在时隙t实际获得信号为：

y_k，b（t）=h_k，b（t）sqrt（p_k，b（t））s_k，b+∑_{i∈B，i≠b}∑_j∈Vih_k，b（t）a_k，j（t）sqrt（p_i，j（t））s_i，j+z_k，b

其中，p_k，b（t）表示在第t个时隙第b个波束中卫星发送信号到第k个用户时所分配的发送功率，s_k，b表示在第t个时隙第b个波束中卫星向第k个用户发送的信号，z_k，b是加性高斯白噪声，a_k，j（t）通过取0或者取1来判断用户k和用户j是否占用相同的子信道。

根据香农公式，第t个时隙第b个波束中卫星向第k个用户发送的下行信号所达到的传输速率定义为：

其中W_k，b（t）是第t个时隙中第b个波束中卫星向第k个用户发送的信号时所占据的子信道的带宽。因此，系统的可达和速率表示为：

R_sum（t）=∑_b∈B∑_{k∈Vb（t）}R_k，b（t）

本实施例构建了信号传输模型，采用香农定理，计算了系统发送下行信号速率之和，即系统可达和速率，减少了信道估计的复杂度和误差，提高信道分配的准确性和效率，为后续的资源分配模型的目标函数提供了重要指标。

进一步的，所述步骤S2还包括：

S25、基于干扰管理方案，调整用户分组策略和子信道分配策略，使得同一子信道上的用户具有较大的信道增益差异，从而降低同频干扰，同时通过调整带宽分配策略和功率分配策略，使得邻波束干扰和邻星干扰在接收端被视为噪声，从而抑制邻波束干扰和邻星干扰。

本实施例通过干扰消除、干扰协调、干扰随机化等技术，减少或抑制了同频干扰、邻波束干扰、邻星干扰等多用户干扰的影响，提高了系统的信噪比和频谱效率，提高了系统的可达和速率，同时也提高了用户的通信质量和满意度，充分利用了NOMA技术的优势，实现同一信道上的多用户共享，提高系统的容量和覆盖范围。

如图4所示，步骤S3具体包括：

在进一步的实施例中，为了最大限度地提高系统的传输能力，基于前面定义的变量V_b（t），a_k，j（t），W_k，b（t），p_k，b（t），分别构建优化变量：用户分组策略V、子信道分配策略A、带宽分配策略W和功率分配策略P。

优化目标定义为：

1/T max_V,A,W,P∑_t∈TR_sum(t)

约束包括每个用户的接受速率不低于阈值R₀，即R_k，b（t）＞R₀ ，用户被分配的带宽之和不能超过阈值W^max，即∑_b∈B∑_{k∈Vb（t）}W_k，b（t）≤W^max，卫星面向每个用户的发送功不能超过阈值p^max，并且满足0＜p_k，b（t）＜p^max，卫星通信系统长期的功率之和不能超过阈值p^total，并且满足于∑_t∈T∑_k∈K∑_b∈Bp_k，b（t）＜p^total。该问题的约束条件此外还要求每个用户只能与其他一个用户组成用户对，并且每个波束内的用户对只能占用一个子信道，而不同波束下的用户对可以占用相同的子信道。

进一步的，步骤S3还包括：

S34、引入服务质量保障方案，通过用户分类、用户权重和用户速率分配，满足不同用户的服务质量要求，提高用户的满意度和系统的公平性,即在目标函数中增加用户权重；

S35、基于服务质量保障方案，获取用户的服务质量，基于用户的服务质量对用户进行分类，分为高质量用户和低质量用户，使用基于优先函数的排序学习依据误码率以及速率需求设置目标权重，依据二叉排序树来对用户进行优先级排序，再依据排名的高低分类为高质量用户和低质量用户，最后根据用户的分类，分别计算用户的误码率，从而构建资源分配模型，使得目标函数不仅最大化系统的可达和速率，还最小化高质量用户的误码率和低质量用户的误码率，即把目标函数构造为最小化误码率，也可以用所提出的算法做。

本实施例通过用户分类、用户权重、用户速率等技术，满足不同用户的服务质量要求，提高用户的满意度和系统的公平性。根据用户的业务类型、优先级、信道条件等因素，对用户进行分类，分为高质量用户和低质量用户，然后根据用户的分类，分别计算用户的误码率，从而构建资源分配模型，使得目标函数不仅最大化系统的可达和速率，还最小化高质量用户的误码率和低质量用户的误码率。这样可以保证不同用户的服务质量，提高用户的满意度和系统的公平性。

如图5所示，步骤S4具体包括：

S44、采用生成对抗网络 (GAN) 技术以及经验回放技术，构建第二训练集，采用第二训练集对第二神经网络进行训练，得到训练后的第二神经网络；

在进一步的实施例中，使用强化对抗学习算法同时求解连续优化问题以及离散优化问题。基于用户以及用户群体在不同地理位置的移动性以及状态变化的动态性，将系统状态以及卫星的长期功率约束视为状态s（state），根据上述优化目标设定奖励r（reward）。根据优化变量即用户分组策略V，子信道分配策略A，带宽分配策略W，功率分配策略P设定行为策略｛V,A,W,P｝（action）。优化变量存在连续优化变量W和P，以及离散优化变量V和A。

面向连续优化变量，采用强化对抗学习方法中的GAN-DDPG算法搭建两个类型的四个神经网络，两个策略网络m和*m，两个评价网络Q和*Q，并且在每个迭代周期l采用随机行为策略生成动作，行为策略是根据在线网络（online network）和随机噪声c_l定义的，如下：

｛V_l,A_l,W_l,P_l｝=m（s_l|q_l ^m）+c_l

其中m（）表示其中一个策略网络的输出，q_l ^m是当前迭代周期策略网络m在系统状态s_l下的神经网络参数，为了充分利用采样数据和减少数据间的关联性，GAN-DDPG采用了经验回放技术，即从经验池中小批量随机采样后，GAN-DDPG算法先通过最小化训练损失来更新策略网络，该训练损失定义为：

基于所定义的训练损失，可通过策略梯度来更新策略网络，以实现连续变量的求解。

面向离散优化变量，采用GAN-DDQN算法搭建生成器网络G和鉴别器网络D，在每个迭代周期f采用行为策略生成动作。

在第f次迭代中，代理将当前状态S_f=s和来自均匀分布(U(0,1))的样本τ输入到网络G中；τ是动作-值分布的分位数值。网络G输出一组估计的动作-值样本，表示为G(s，f)，其中属于动作｛V,A,W,P｝的样本表示为G^{（｛V,A,W,P｝）}(s，f)。

样本数为M时，代理计算Q(s，｛V,A,W,P｝)=1/M∑G^{（｛V,A,W,P｝）}(s，τ)，令｛V,A,W,P｝^*=arg max_{｛V,A,W,P｝}Q(s，｛V,A,W,P｝)，｛V,A,W,P｝^*表示代理选择的最佳动作。因此，代理接收奖励r，环境转移到下一个状态S_f+1=s＇。元组（s，｛V,A,W,P｝^*，r，s＇）被存储到经验池B中。当B满时，代理每隔固定次迭代使用B中的所有转换元组更新网络G和D。

在训练和更新过程中，代理首先从B中随机选择m个转换作为用于训练GAN-DDQN网络的小批量数据。然后，代理对所选小批量数据的每个转换执行贝尔曼最优性操作，并获得目标动作-值样本。对于第k个转换，目标动作-值样本为，其中γ为折扣系数，｛V,A,W,P｝^* _k是具有最大动作-值样本期望的动作，即。最后，代理使用以下损失函数分别训练网络D和G：

基于所定义的训练损失，可通过策略梯度来更新策略网络，待训练完成后以实现离散变量的求解。

交替迭代执行连续变量变量优化以及离散变量优化，直到目标函数值收敛。

本实施例根据实时的通信需求，优化了资源的分配，提高了资源的利用效率，从而提高了系统的可靠性和稳定性。

进一步的，步骤S31具体为：

在进一步的实施例中，NOMA多波束卫星通信系统架构如图6所示，假设卫星使用B个波束覆盖其服务区域，波束内采用基于NOMA的下行接入方式，所有波束间分配频谱资源，每个波束所服务的用户对存在波束间同频信道干扰。

如图7所示，本实施例提供的一种基于在线强化对抗学习的NOMA多波束卫星通信的多维资源分配方法的流程图，该方法包括以下步骤：

步骤一、基于一种以多波束卫星为核心的下行通信链路，卫星使用B个波束覆盖其服务区域，波束间共享频谱资源，并且波束内面向用户对采用基于NOMA的下行接入方式，因此每个波束内所服务的用户对在不同波束之间存在同频干扰。

步骤二、以最大化系统长期和速率为目标，同时考虑系统长期能耗情况，优化用户对分组、子信道分配、带宽分配、功率分配。

步骤三、提出基于强化对抗学习的多维资源优化方法，同时求解连续优化问题以及离散优化问题，实现动态自适应的多维资源优化控制。

在进一步的实施例中，步骤S4还可以为：基于图论的用户分组和资源分配联合优化方案，通过构建用户-子信道-波束图，利用图的匹配算法，找到最优的用户分组和资源分配策略，使得目标函数达到最大值，具体为：

S4a、定义用户-子信道-波束图的结构，用户-子信道-波束图为一个三部图，其中第一部为用户集合，第二部为子信道集合，第三部为波束集合，图中的边表示用户、子信道和波束之间的关系，边的权重表示用户对子信道和波束的偏好；

S4b、根据用户的信道增益、业务需求和资源可用性，计算用户对子信道和波束的偏好，根据偏好的大小，构建用户-子信道-波束图的边和权重；

S4c、采用图的匹配算法，如KM算法、匈牙利算法等，从用户-子信道-波束图中找出一个最大权匹配，即一个最优的用户分组和资源分配策略，使得目标函数达到最大值。

本实施例利用图论的优美性和简洁性，将复杂的优化问题转化为图的匹配问题，从而降低了问题的复杂度和求解的难度，同时可以保证找到全局最优的解。

在进一步的实施例中，步骤S4还可以为：基于联合学习的用户分组和资源分配联合优化方案，通过卫星和用户之间的协作和交互，实现分布式的用户分组和资源分配，使得目标函数达到最大值。具体为：

定义卫星和用户之间的联合学习模型，联合学习模型包括全局模型和本地模型，全局模型为卫星的中心模型，本地模型为用户的边缘模型，模型之间通过参数共享和梯度更新进行协作和交互；

根据联合学习模型，设计联合学习算法，联合学习算法包括全局更新和本地更新两个阶段，全局更新阶段为卫星根据用户的本地模型参数，更新全局模型参数，本地更新阶段为用户根据卫星的全局模型参数，更新本地模型参数；

根据联合学习算法，实现分布式的用户分组和资源分配，用户根据本地模型参数，选择最优的用户分组和资源分配策略，卫星根据全局模型参数，监督和指导用户的选择，重复上述过程，直到收敛。

本实施例利用联合学习的分布式和协作的特性，实现用户的自主和卫星的控制相结合，从而提高系统的效率和鲁棒性，同时可以适应用户的隐私和安全的需求，减少用户的通信开销和计算负担。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S1具体为：

3.根据权利要求2所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S2具体为：

4.根据权利要求3所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S3具体为：

5.根据权利要求4所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S4具体为：

6.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S31中系统的长期能耗包括用户对的最低接收速率、最高带宽总量、最高发送功率和最高系统长期功率和、用户对和子信道的匹配。

7.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S31具体为：

8. 根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，目标函数为：

1/T max_V,A,W,P∑_t∈TR_sum(t)

R_sum（t）=∑_b∈B∑_{k∈Vb（t）}R_k，b（t）

R_k，b（t）=W_k，b（t）log（1+h_k，b（t）p_k，b（t）/∑_{i∈B，i≠b}∑_j∈Vi h_k，b（t）a_k，j（t）sqrt（p_i，j（t））+z_k，b）

其中h_k，b（t）表示第t个时隙用户k在波束b内的平均信道增益，p_k，b（t）表示在第t个时隙第b个波束中卫星发送信号到第k个用户时所分配的发送功率，a _k，j（t）为通过取0或者取1来判断用户k和用户j是否占用相同的子信道，z_k，b表示加性高斯白噪声，W_k，b（t）表示第t个时隙中第b个波束中卫星向第k个用户发送的信号时所占据的子信道的带宽；

L=1/N∑_i（r_i+g *Q（s_i+1，*m（s_i+1 | q*^m）| q *^Q）-Q（s_i，｛V_i,A_i,W_i,P_i｝| q ^Q））²

其中N代表着从经验池中进行小批量随机采样的数量，r表示奖励，g表示折扣因子，*Q和Q 为两个评价网络，*m和m表示两个策略网络，m（）表示其中一个策略网络的输出，s_i 表示从经验池中第i次采样得到的状态，s_i+1表示从经验池中第i+1次采样得到的状态，q ^Q和q^m分别是当前迭代周期评价网络Q和评价网络m在系统状态s_i下的神经网络参数；

；

9.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，所述步骤S1还包括：

10.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，所述步骤S2还包括：

所述步骤S3还包括：