CN114900897B

CN114900897B - 多波束卫星资源分配方法及系统

Info

Publication number: CN114900897B
Application number: CN202210535317.XA
Authority: CN
Inventors: 魏祥麟; 俞石云; 王彦刚
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-04-07
Anticipated expiration: 2042-05-17
Also published as: CN114900897A

Abstract

本发明公开了一种多波束卫星资源分配方法和系统，所述方法包括如下步骤：深度网络训练：建立对地静止卫星通信系统仿真环境，得到权矢量配置深度网络；状态感知：卫星部署后，周期性测量各个波束的接收信号，并计算得到各波束的信干噪比；权矢量配置：获得权矢量设定结果，并将其通过波束控制模块配置到星载相控阵天线；收益评估：获取该权矢量配置动作对应的收益，将该次配置获得的样本存储到经验池；权矢量配置深度网络更新：对权矢量配置深度网络进行更新训练。所述方法具有抗干扰能力强、人工干预少且环境适应性好等优点。

Description

多波束卫星资源分配方法及系统

技术领域

本发明涉及网络数据通信方法技术领域，尤其涉及一种多波束卫星资源分配方法及系统。

背景技术

在深空远海、偏远地区、灾难区域等通信设施薄弱地区，卫星通信成为提供设备互联，支撑网络应用的主要方式，也是实现下一代空天地海一体化网络的核心支撑。相比地面通信系统，对地静止卫星通信系统具有覆盖范围广、障碍遮挡少、通信距离远的优势。但是，对地静止卫星通信系统资源相对稀缺，且因为位置固定，容易受到地面的有意和无意干扰。因此，在干扰存在的场景下，高效地调度卫星通信资源，是提升对地静止卫星通信系统服务能力的关键所在。

为了实现对广大地理区域的覆盖，对地静止卫星通信系统中通常将服务区域分割为若干个较小的服务区域，并采用点波束照射相应区域，为该区域内的地面终端提供通信服务。高效的波束资源调度是卫星通信系统设计主要的关注所在，现有技术中出现了各种各样的卫星通信系统。例如：中国发明专利授权“动态卫星波束分配”(申请号：201880028287.5，授权号：CN 110832792 B，公开日：2020年12月11日)，提出了一种波束分配方法，通过链路质量测试发现波束漂移，并对波束进行再分配，抵消服务降级；中国发明专利申请“多波束功率动态分配方法、通信设备及低轨卫星通信系统”(申请号：201811144945.5，公开号：CN 109067490 A，公开日：2018年12月21日)，针对低轨多波束卫星，利用瞬时信道信息和信道资源在不同用户间的分配，选择各波束最佳功率，实时调整和优化功率分配，以确保各用户波束功率实时更新，以最大化系统容量；中国发明专利申请“一种卫星通信资源调度方法及装置”(申请号：202011483465.9，公开号：CN 112583471 A，公开日：2021年3月30日)，通过地面终端对卫星链路的质量测量，确定其接入波束，并在通信时由卫星进行窄波束调度；中国发明专利申请“一种多波束卫星资源分配方法及系统”(申请号：202010064743.0，公开号：CN 111262619 A，公开日：2020年6月9日)，根据每个波束内的用户需求及供需差距，对资源分配，即每个波束内的载波数量和功率等级，进行全局调整，并选择最优方案；中国发明专利申请“基于时隙分配算法的跳波图案优化方法及装置、存储介质”(申请号：201910675600.0，公开号：CN 110518956 A，公开日：2019年11月29日)，首先获取每个波束的用户请求容量，将其转化为时隙数量，并按照跳波束干扰规避原则完成跳波束图案，从而提升系统容量；中国发明专利申请“一种中低轨星座卫星波束频率资源分配方法”(申请号：201811557310.8，公开号：CN 109412682 A，公开日：2019年3月1日)，通过子带和载波划分，进行初始资源分配，并在用户容量超过设定时进行调整；中国发明专利授权“一种多波束通信卫星的下行波束资源分配方法及装置”(申请号：202010978556.3，授权号：CN 112039580 B，授权日：2021年5月7日)，依据资源使用属性信息及通信卫星所能提供的容量，利用一种两阶段优化算法，为各用户终端生成下行波束功率和带宽资源联合优化解决方案；中国发明专利申请“基于业务优先级与速率自适应的高通量卫星波束按需调度方法”(申请号：202110169404.3，公开号：CN 112994778，公开日：2021年6月18日)，测量低轨高通量卫星系统下行场景中的各波束小区业务流量和信道容量，建立最大化的自适应速率调节因子与最大化的系统吞吐量的嵌套式最优化问题，以平均逗留时间与波束个数为约束，动态地分配各小区的自适应速率调节因子与波束服务时间。

但是，现有技术的这些方案尚存在的问题是：1)未考虑地面干扰对卫星通信系统的威胁；2)通常需要人工设定阈值，复杂度较高，难以解决复杂场景下的资源分配问题。

此外，现有技术中还出现了各种各样的卫星通信方法。干扰是卫星通信面临的重要安全威胁。对于卫星通信来说，如何处理来自地面的干扰是重要的研究内容。例如：中国发明专利授权“一种基于星载多波束天线的单星干扰源定位”(申请号：201410008825.8，授权号：CN 103746757 B，授权日：2015年8月19日)，地面站在接收卫星转发信号时，同时进行实时干扰监测，并对干扰信号参数进行认知，并根据相邻波束的信号强度等信息，构建干扰信号的空间分布，结合地理模型，建立定位方程组，获取地面干扰源定位结果；中国发明专利申请“基于GPU实现的运动卫星干扰源定位方法”(申请号：201510992492.1，公开号：CN105607038 A，公开日：2016年5月25日)，利用双星转发信号对位于地面的运动卫星干扰源进行定位；中国发明专利申请“抗动态干扰的极化波束形成方法、系统、存储介质及应用”(申请号：202010726122.4，公开号：CN 111859278A，公开日：2020年10月30日)，提出了一种针对导航卫星的抗动态干扰的极化波束形成方法；中国发明专利申请“一种多波束卫星干扰抑制方法、存储介质及计算设备”(申请号：202011218980.4，公开号：CN 112543047A，公开日：2021年2月23日)，提出了一种基于角度互易和协方差矩阵重构的多波束卫星干扰抑制方法；中国发明专利申请“一种基于SINR的抗干扰卫星通信相控阵列天线”(申请号：202011522967.8，公开号：CN 112636007 A，公开日：2021年4月9日)，采用基于SINR干扰模型的链路调度算法，衡量网络中的链路干扰强度，结合衡量结果进行高效的链路资源分布式调度，从而最大化网络容量；中国发明专利申请“通信卫星干扰抑制方法、装置和电子设备”(申请号：202011643598.8，公开号：CN 112804011 A，公开日：2021年5月14日)，首先通过对待监控波束的所有载波频率子带的功率电平值进行实时监控，结合通信频率使用信息能够初步确定出波束干扰变化量超过预设变化范围的目标载波频率子带，然后再进一步获取与目标载波频率子带存在频率交集的目标信道的功率电平值，最后根据目标信道的功率电平值和信道衰减信息确定出目标信道的衰减调整策略；

强化学习和深度强化学习通过与环境的交互学习，更新优化智能体行为策略以最大化奖赏收益，已经广泛用于各类决策问题，也部分用于卫星系统资源分配问题。例如：文献“基于强化学习的卫星通信资源分配算法研究”(西安电子科技大学，硕士学位论文，2019年4月)，提出了一种基于Q学习的动态信道分配算法，通过卫星智能体感知卫星通信环境中信道分配状态和用户业务请求情况，并根据Q值表制定信道分配策略，为业务请求用户分配信道资源；文献“多波束卫星通信系统中的动态波束调度技术研究”(北京邮电大学，硕士学位论文，2019年6月)，提出了一种基于深度强化学习的动态波束调度技术。

但是，当前方法存在的问题是：1)当前方法多数针对动态波束调度或信道分配展开，未涉及星载相控阵天线的权矢量的调整；2)这些方法未考虑干扰带来的威胁，无法规避地面干扰源带来的通信质量降低甚至中断的风险；3)当前方法需要关于待接收信号的先验知识，人工参与程度大，复杂性高，且适用范围受限。

发明内容

本发明所要解决的技术问题是如何提供一种抗干扰能力强、人工干预少且环境适应性好的多波束卫星资源分配方法及系统。

为解决上述技术问题，本发明所采取的技术方案是：一种多波束卫星资源分配方法，其特征在于包括如下步骤：

深度网络训练：建立对地静止卫星通信系统仿真环境，设定多种干扰模式，基于深度强化学习方法，对星载相控阵天线的权矢量进行训练，得到权矢量配置深度网络；

状态感知：卫星部署后，周期性测量各个波束的接收信号，并计算得到各波束的信干噪比；

权矢量配置：星载边缘计算单元将当前权矢量和计算得到的信干噪比输入权矢量配置深度网络，获得权矢量设定结果，并将其通过波束控制模块配置到星载相控阵天线；

收益评估：星载相控阵天线运行所配置的权矢量，获取该权矢量配置动作对应的收益，将该次配置获得的样本存储到经验池；

权矢量配置深度网络更新：每隔一段时间，星载边缘计算单元利用积累得到的经验池，对权矢量配置深度网络进行更新训练。

本发明还公开了一种多波束卫星资源分配系统，其特征在于包括：

深度网络训练模块：用于建立对地静止卫星通信系统仿真环境，设定多种干扰模式，基于深度强化学习方法，对星载相控阵天线的权矢量进行训练，得到权矢量配置深度网络；

状态感知模块：用于卫星部署后周期性测量各个波束的接收信号，并计算得到各波束的信干噪比；

权矢量配置模块：用于通过星载边缘计算单元将当前权矢量和计算得到的信干噪比输入权矢量配置深度网络，获得权矢量设定结果，并将其通过波束控制模块配置到星载相控阵天线；

收益评估模块：用于通过星载相控阵天线运行所配置的权矢量，获取该权矢量配置动作对应的收益，将该次配置获得的样本存储到经验池；

权矢量配置深度网络更新模块：用于每隔一段时间通过星载边缘计算单元利用积累得到的经验池，对权矢量配置深度网络进行更新训练。

采用上述技术方案所产生的有益效果在于：第一，抗干扰能力强：存在干扰信号时，通过权矢量配置深度网络的训练与更新，可以将干扰信号到达方向的天线增益最小化，从而最大化星载天线的通信质量和速率；

第二，人工干预少：训练得到的权矢量配置深度网络可以通过当前权矢量和多个波束的信噪比，自动获取下一时刻的权矢量，无需人工干预，也不需要关于待接收信号的先验知识；

第三，环境适应性好：可以根据获得的经验池，不断更新权矢量配置深度网络的参数，进而适应不断变化的传输和干扰条件，更好地适应环境变化。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法的流程图；

图2是存在干扰源时的卫星通信场景图；

图3是本发明实施例所述方法中深度网络训练步骤的流程图；

图4是星载相控阵天线的发送示意图；

图5是星载相控阵天线的接收示意图；

图6是采用DDPG作为深度强化学习算法时，权重配置深度；

图7是采用DDPG作为深度强化学习算法时，演员网络的示意图；

图8是采用DDPG作为深度强化学习算法时，评论家网络的示意图；

图9是本发明实施例所述方法中状态感知步骤的流程图；

图10是本发明实施例所述方法中权矢量配置步骤的流程图；

图11是本发明实施例所述方法中收益评估步骤的流程图；

图12是本发明实施例所述方法中权矢量配置深度网络更新步骤的流程图；

图13是本发明实施例中所述系统的原理框图；

图14是本发明实施例中深度网络训练模块的原理框图；

图15是本发明实施例中状态感知模块的原理框图；

图16是本发明实施例中权矢量配置模块的原理框图；

图17是本发明实施例中收益评估模块的原理框图；

图18是本发明实施例中权矢量配置深度网络更新模块的原理框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明实施例公开了一种多波束卫星天线权矢量配置方法，所述方法包括如下步骤：

S101：深度网络训练：建立对地静止卫星通信系统仿真环境，设定多种干扰模式，基于深度强化学习方法，对星载相控阵天线的权矢量进行训练，得到权矢量配置深度网络；

所述静止轨道卫星通信仿真环境包含卫星、地面站以及干扰源等要素；

例如，一个典型的卫星通信环境如图2所示，其中存在1个卫星，若干地面站以及干扰源；

S102：状态感知：卫星部署后，周期性测量各个波束的接收信号，并计算得到各波束的信干噪比；

S103：权矢量配置：星载边缘计算单元将当前权矢量和计算得到的信干噪比输入权矢量设置深度网络，获得权矢量设定结果，并将其通过波束控制模块配置到星载相控阵天线；

S104：收益评估：星载相控阵天线运行所配置的权矢量，获取该权矢量配置动作对应的收益，将该次配置获得的样本存储到经验池；

S105：权矢量配置深度网络更新：每隔一段时间，星载边缘计算单元利用积累得到的经验池，对权矢量配置深度网络进行更新训练。

进一步的，如图3所示，所述深度网络训练的具体方法包括如下步骤：

S1011：状态设置：初始化卫星传输仿真环境，包括卫星天线权矢量、多个地面站位置以及干扰源位置，得到当前状态；

所述卫星传输仿真环境可以根据对地静止卫星的轨道位置、天线模型、工作模式等参数，采用MATLAB、OPNET等仿真平台构建，也可采用其他仿真环境构建；

所述状态表达为1个向量，维度为m×n+n，其中m为天线元的数量，n是波束的数量，前m×n个数值表示天线的权矢量，其取值位于-1到+1之间，后n个数值是n个波束接收到的信噪比，将该状态记为s_t；

图4和图5给出了星载相控阵天线的发送和接收示意图，其中包含m个天线元和n个波束，在接收阶段，数移相控和合路器分别接收波束控制给出的相位和幅度控制指令，接收n个波束的信号，在发送阶段，数移相控和分路器分别接收波束控制给出的相位和幅度控制指令，发出n个波束；

所述前m×n个数值中的第i×j个数值表示第i个天线元对第j个波束的配置权值；

所述地面站是指卫星相控阵天线接收信号的辐射源，每个地面站位于卫星所覆盖的n个波束中的1个，向卫星发送通信信号；

所述干扰源是指向卫星发送干扰信号的辐射源，其目的是干扰星载相控阵天线的信号接收，降低其接收信号质量和速率；

所述信噪比是指每个波束接收信号的信噪比；

S1012：动作选择：根据输入状态，选择该状态下所采取的动作，将该动作记为a_t；

例如，可以采用ε-greedy策略选择所采取的动作，其中，以ε的概率随机选择一个动作，以1-ε的概率选择当前状态对应的Q值最大的动作，其中0≤ε≤1；

所述动作是指下一时刻星载相控阵天线的权矢量配置，是1个向量，维度为m×n，其中第i×j个数值表示第i个天线元对第j个波束的配置权值；

S1013：状态判定与收益测量：将选择的动作应用于星载相控阵天线，计算得到每个波束的信噪比，得到新的状态和动作的收益；

所述新的状态是1个向量，维度为m×n+n，前m×n个数值表示配置的权矢量，后n个数值是n个波束的信噪比，将该状态记为s_t'；

所述收益的计算取决于期望优化的目标，比如最大化平均信噪比，最大化最小信噪比等，将收益记为r_t；

例如，以最大化平均信噪比为优化目标时，收益可以设置为n个波束的平均信噪比；

例如，以最大化最小信噪比为优化目标时，收益可以设置为n个波束的信噪比的最小值；

S1014：经验池更新：将(s_t,a_t,r_t,s_t')作为一个样本存入经验池；

S1015：采样训练：从经验池中随机采样一个批次样本输入到权矢量配置深度网络，采用深度强化学习算法，对权矢量配置深度网络的参数进行训练；

所述采样训练与采用的深度强化学习算法有关；

例如，当采用深度确定性策略网络(Deep Deterministic Policy Gradient,DDPG)作为深度强化学习算法进行权矢量配置深度网络训练时，其流程描述如图6所示，DDPG训练框架中一共包括4个神经网络：主网络-演员网络、主网络-评论家网络、目标网络-演员网络、目标网络-评论家网络。主网络中，演员网络用于得到相控阵天线和传输环境(包含自然环境、干扰源、地面站等要素)交互的策略，评论家网络则是评价该策略的好坏，并以此为依据更新演员网络，使其能够输出更好的策略，目标网络通过贝尔曼方程，以时序差分(Temporal-Difference)方式更新主网络的评论家网络，使其能够更好地评价一个策略，最终，主网络中的演员网络就是最终训练得到的权矢量配置深度网络；

在图6所示的训练框架中，包含了训练过程和推理过程两个部分，在训练过程中，4个网络的更新过程如下：从经验池中随机取出一个批次的若干4元组样本进行模型训练和网络参数更新，对一个4元组(s,a,r,s')，通过以下步骤训练主网络和目标网络：

更新主网络-评论家网络：将状态s和动作a输入到主网络-评论家网络中，得到主网络Q值Q(s,a)；将s'输入到目标网络-演员网络中得到动作a'，之后将s'和a'一同输入到目标网络-评论家网络中，得到Q值Q'(s',a')，根据时序差分原理及贝尔曼公式，(s,a)的目标Q值Q*(s,a)＝r+Q'(s',a')，希望主网络-评论家网络的输出尽可能的接近目标Q值Q*(s,a)，于是将Q*(s,a)作为标签，以Q(s,a)和Q*(s,a)间的差值作为误差去训练并更新主网络-评论家网络；

更新主网络-演员网络：将状态s输入到主网络-演员网络中得到动作a₁，将s和a₁共同输入到主网络-评论家网络中得到Q值Q(s,a₁)，采用梯度上升方式更新主网络-演员网络的参数以使其输出动作的Q值尽可能大；

目标网络更新：经过多次主网络-评论家网络、主网络-演员网络更新后，将二者的参数分别赋予目标网络-评论家网络和目标网络-演员网络；

在推理阶段，只需将给定状态输入主网络-演员网络，即可得到下一时刻的权矢量配置，无需进行网络训练与参数更新；

所述主网络和目标网络中的演员网络和评论家网络可以采用多种深度神经网络架构，比如全连接神经网络、卷积神经网络等；

例如，当采用全连接深度神经网络作为演员网络时，其结构如图7所示，网络的输入是1个向量，维度为m×n+n，输出是1个向量，维度为m×n，网络的超参数(比如，隐含层个数、每层的神经元数量、学习率等)可以根据实际环境确定；

例如，当采用全连接深度神经网络作为评论家网络时，其结构如图8所示，网络的输入是1个向量，维度为m×n+n+m×n，即当前状态、选择的动作和下一时刻的状态，输出是1个标量，表示该动作选择的Q值，网络的超参数(比如，隐含层个数、每层的神经元数量、学习率等)可以根据实际环境确定；

如图9所示，所述状态感知的具体方法包括如下步骤：

S1021：信号接收：星载相控阵天线接收来自地面站的通信信号；

S1022：信号解调：天线接收的信号通过后端处理，得到各波束收到的通信信号；

S1023：信噪比计算：星载相控阵天线计算各波束的信噪比；

如图10所示，所述权矢量配置的具体方法包括如下步骤：

S1031：状态设定：将当前权矢量和状态感知步骤得到的信噪比组合成当前状态；

所述当前状态是1个向量，维度为m×n+n；

S1032：权矢量确定：将当前状态输入到权矢量配置深度网络，得到该状态对应的动作，即下个时刻星载相控阵天线的权矢量；

S1033：权矢量配置：将权矢量确定步骤中得到的权矢量通过波束控制模块加载到星载相控阵天线；

如图11所示，所述收益评估的具体方法包括如下步骤：

S1041：信噪比计算：星载相控阵天线运行所配置的权矢量，计算每个波束接收到信号的信噪比；

S1042：收益计算：根据n个波束的信噪比，依据最优化目标，计算收益；

S1043：样本存储：将上一时刻状态、当前权矢量配置、当前状态、收益作为一个样本存储到经验池；

如图12所示，所述权矢量配置深度网络更新的具体方法包括如下步骤：

S1051：样本选择：从经验池中选择小批量样本；

所述小批量样本的数量可以根据需要自主设定，例如120；

S1052：网络训练更新：将小批量样本输入到权矢量配置深度网络，进行参数更新训练；

所述参数更新训练过程与所采用的深度强化学习算法相关，当采用DDPG算法时，参数更新训练过程与S1015：采样训练步骤的过程类似；

相应的，如图13所示，本发明实施例还公开了一种多波束卫星资源分配系统，包括：

深度网络训练模块101：用于建立对地静止卫星通信系统仿真环境，设定多种干扰模式，基于深度强化学习方法，对星载相控阵天线的权矢量进行训练，得到权矢量配置深度网络；

状态感知模块102：用于卫星部署后周期性测量各个波束的接收信号，并计算得到各波束的信干噪比；

权矢量配置模块103：用于通过星载边缘计算单元将当前权矢量和计算得到的信干噪比输入权矢量配置深度网络，获得权矢量设定结果，并将其通过波束控制模块配置到星载相控阵天线；

收益评估模块104：用于通过星载相控阵天线运行所配置的权矢量，获取该权矢量配置动作对应的收益，将该次配置获得的样本存储到经验池；

权矢量配置深度网络更新模块105：用于每隔一段时间通过星载边缘计算单元利用积累得到的经验池，对权矢量配置深度网络进行更新训练。

进一步的，如图14所示，所述深度网络训练模块101具体包括(具体实现步骤可参考方法中的相应步骤)：

状态设置模块1011：用于初始化卫星传输仿真环境，包括卫星天线权矢量、多个地面站位置以及干扰源位置，得到当前状态；

在接收阶段，数移相控和合路器分别接收波束控制给出的相位和幅度控制指令，接收n个波束的信号，在发送阶段，数移相控和分路器分别接收波束控制给出的相位和幅度控制指令，发出n个波束；

所述信噪比是指每个波束接收信号的信噪比；

动作选择模块1012：用于根据输入状态，选择该状态下所采取的动作，将该动作记为a_t；

状态判定与收益测量模块1013：用于将选择的动作应用于星载相控阵天线，计算得到每个波束的信噪比，得到新的状态和动作的收益；

所述收益的计算取决于期望优化的目标，将收益记为r_t；

经验池更新模块1014：用于将一个4元组(s_t,a_t,r_t,s_t')作为一个样本存入经验池；

采样训练模块1015：用于从经验池中随机采样一个批次样本输入到权矢量配置深度网络，采用深度强化学习算法，对权矢量配置深度网络的参数进行训练；

在训练过程中，4个网络的更新过程如下：从经验池中随机取出一个批次的若干4元组样本进行模型训练和网络参数更新，对一个4元组(s,a,r,s')，通过以下步骤训练主网络和目标网络：

更新主网络-演员网络：将动作s输入到主网络-演员网络中得到动作a₁，将s和a₁共同输入到主网络-评论家网络中得到Q值Q(s,a₁)，采用梯度上升方式更新主网络-演员网络的参数以使其输出动作的Q值尽可能大；

在推理阶段，只需将给定状态输入主网络-演员网络，即可得到下一时刻的权矢量配置，无需进行网络训练与参数更新。

进一步的，如图15所示，所述状态感知模块102具体包括：

信号接收模块1021：用于通过星载相控阵天线接收来自地面站的通信信号；

信号解调模块1022：用于将天线接收的信号通过后端处理，得到各波束收到的通信信号；

信噪比计算模块1023：用于通过星载相控阵天线计算各波束的信噪比。

进一步的，如图16所示，所述权矢量配置模块103包括：

状态设定模块1031：用于将当前权矢量和状态感知步骤得到的信噪比组合成当前状态；

权矢量确定模块1032：用于将当前状态输入到权矢量配置深度网络，得到该状态对应的动作，即下个时刻星载相控阵天线的权矢量；

权矢量配置模块1033：用于将权矢量确定步骤中得到的权矢量通过波束控制模块加载到星载相控阵天线。

进一步的，如图17所示，所述收益评估模块104包括：

信噪比计算模块1041：用于通过星载相控阵天线运行所配置的权矢量，计算每个波束接收到信号的信噪比；

收益计算模块1042：用于根据n个波束的信噪比，依据最优化目标，计算收益；

样本存储模块1043：用于将上一时刻状态、当前权矢量配置、当前状态、收益作为一个样本存储到经验池；

如图18所示，所述权矢量配置深度网络更新模块105包括：

样本选择模块1051：用于从经验池中选择小批量样本；

网络训练更新模块1052：用于将小批量样本输入到权矢量配置深度网络，进行参数更新训练。

需要说明的是，所述系统与所述方法相对应，系统中的模块的具体实现方法可以参考方法的实现步骤。

综上，所述方法和系统具有如下优点：第一，抗干扰能力强：存在干扰信号时，通过权矢量配置深度网络的训练与更新，可以将干扰信号到达方向的天线增益最小化，从而最大化星载天线的通信质量和速率；第二，人工干预少：训练得到的权矢量配置深度网络可以通过当前权矢量和多个波束的信噪比，自动获取下一时刻的权矢量，无需人工干预，也不需要关于待接收信号的先验知识；第三，环境适应性好：可以根据获得的经验池，不断更新权矢量配置深度网络的参数，进而适应不断变化的传输和干扰条件，更好地适应环境变化。

Claims

1.一种多波束卫星资源分配方法，其特征在于包括如下步骤：

2.如权利要求1所述的多波束卫星资源分配方法，其特征在于，所述步骤深度网络训练的具体方法包括如下步骤：

状态设置：初始化卫星传输仿真环境，包括卫星天线权矢量、多个地面站位置以及干扰源位置，得到当前状态；

所述信噪比是指每个波束接收信号的信噪比；

动作选择：根据输入状态，选择该状态下所采取的动作，将该动作记为a_t；

状态判定与收益测量：将选择的动作应用于星载相控阵天线，计算得到每个波束的信噪比，得到新的状态和动作的收益；

所述收益的计算取决于期望优化的目标，将收益记为r_t；

经验池更新：将一个4元组(s_t,a_t,r_t,s_t')作为一个样本存入经验池；

采样训练：从经验池中随机采样一个批次样本输入到权矢量配置深度网络，采用深度强化学习算法，对权矢量配置深度网络的参数进行训练；

3.如权利要求1所述的多波束卫星资源分配方法，其特征在于，所述状态感知的具体方法包括如下步骤：

信号接收：星载相控阵天线接收来自地面站的通信信号；

信号解调：天线接收的信号通过后端处理，得到各波束收到的通信信号；

信噪比计算：星载相控阵天线计算各波束的信噪比。

4.如权利要求1所述的多波束卫星资源分配方法，其特征在于，所述权矢量配置的具体方法包括如下步骤：

状态设定：将当前权矢量和状态感知步骤得到的信噪比组合成当前状态；

权矢量确定：将当前状态输入到权矢量配置深度网络，得到该状态对应的动作，即下个时刻星载相控阵天线的权矢量；

权矢量配置：将权矢量确定步骤中得到的权矢量通过波束控制模块加载到星载相控阵天线。

5.如权利要求1所述的多波束卫星资源分配方法，其特征在于，所述收益评估的具体方法包括如下步骤：

信噪比计算：星载相控阵天线运行所配置的权矢量，计算每个波束接收到信号的信噪比；

收益计算：根据n个波束的信噪比，依据最优化目标，计算收益；

样本存储：将上一时刻状态、当前权矢量配置、当前状态、收益作为一个样本存储到经验池；

所述权矢量配置深度网络更新的具体方法包括如下步骤：

样本选择：从经验池中选择小批量样本；

网络训练更新：将小批量样本输入到权矢量配置深度网络，进行参数更新训练。

6.一种多波束卫星资源分配系统，其特征在于包括：

7.如权利要求6所述的多波束卫星资源分配系统，其特征在于，所述深度网络训练模块具体包括：

状态设置模块：用于初始化卫星传输仿真环境，包括卫星天线权矢量、多个地面站位置以及干扰源位置，得到当前状态；

所述信噪比是指每个波束接收信号的信噪比；

动作选择模块：用于根据输入状态，选择该状态下所采取的动作，将该动作记为a_t；

状态判定与收益测量模块：用于将选择的动作应用于星载相控阵天线，计算得到每个波束的信噪比，得到新的状态和动作的收益；

所述收益的计算取决于期望优化的目标，将收益记为r_t；

经验池更新模块：用于将一个4元组(s_t,a_t,r_t,s_t')作为一个样本存入经验池；

采样训练模块：用于从经验池中随机采样一个批次样本输入到权矢量配置深度网络，采用深度强化学习算法，对权矢量配置深度网络的参数进行训练；

8.如权利要求6所述的多波束卫星资源分配系统，其特征在于，所述状态感知模块包括：

信号接收模块：用于通过星载相控阵天线接收来自地面站的通信信号；

信号解调模块：用于将天线接收的信号通过后端处理，得到各波束收到的通信信号；

信噪比计算模块：用于通过星载相控阵天线计算各波束的信噪比。

9.如权利要求6所述的多波束卫星资源分配系统，其特征在于，所述权矢量配置模块包括：

状态设定模块：用于将当前权矢量和状态感知步骤得到的信噪比组合成当前状态；

权矢量确定模块：用于将当前状态输入到权矢量配置深度网络，得到该状态对应的动作，即下个时刻星载相控阵天线的权矢量；

权矢量配置模块：用于将权矢量确定步骤中得到的权矢量通过波束控制模块加载到星载相控阵天线。

10.如权利要求6所述的多波束卫星资源分配系统，其特征在于，所述收益评估模块包括：

信噪比计算模块：用于通过星载相控阵天线运行所配置的权矢量，计算每个波束接收到信号的信噪比；

收益计算模块：用于根据n个波束的信噪比，依据最优化目标，计算收益；

样本存储模块：用于将上一时刻状态、当前权矢量配置、当前状态、收益作为一个样本存储到经验池；

所述权矢量配置深度网络更新模块包括：

样本选择模块：用于从经验池中选择小批量样本；

网络训练更新模块：用于将小批量样本输入到权矢量配置深度网络，进行参数更新训练。