CN117914390A

CN117914390A - 基于多智能体强化学习的低轨卫星波束规划系统及方法

Info

Publication number: CN117914390A
Application number: CN202410115518.3A
Authority: CN
Inventors: 邓博于; 黄睿; 王敬超; 任双印
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-04-19

Abstract

本发明属于卫星通信技术领域，特别涉及一种低轨卫星波束规划系统。基于多智能体强化学习的低轨卫星波束规划系统，包括：分布式感知模块、图神经网络表示模块、集中式离线存储模块、多智能体离线训练模块、多智能体在线微调模块及实际部署模块；该系统重构当前区域的波束分配矩阵和干扰情况矩阵，并结合每个小区的需求信息以及卫星自身的资源状态信息构建成一个图结构，通过图卷积神经网络进行特征提取，将其池化得到一个低维的图特征向量作为后续决策网络的输入；决策网络由离线强化学习训练得到，同时能够根据不同的在线规划目标对策略网络进行微调，以适应在线环境中可能出现的新的需求和目标。本发明实现高效、灵活和智能化的卫星波束分配。

Description

基于多智能体强化学习的低轨卫星波束规划系统及方法

技术领域

本发明属于卫星通信技术领域，特别涉及一种低轨卫星波束规划系统及方法。

背景技术

低轨卫星是指轨道飞行高度在2000公里以下的的人造卫星。由于低轨卫星具有覆盖范围广、传输时延短、发射成本低等优点，近年来低轨卫星通信系统得到了快速发展，已经成为未来空间信息网络的重要组成部分。目前，已有多个国家和企业计划或正在建设大规模的低轨卫星星座，例如SpaceX的Starlink、亚马逊的Kuiper、中国的星网等，预计未来几年将有数万颗低轨卫星投入使用。

为了提高低轨卫星通信系统的频谱利用率和传输容量，多波束技术被广泛应用于低轨卫星上。多波束技术是指利用相控阵天线或多馈源反射器天线，在同一频段内产生多个相互重叠或不重叠的波束，从而实现对不同区域或用户的覆盖和服务。多波束技术可以有效地解决单波束技术存在的频谱资源浪费、干扰较大、容量受限等问题。

然而，由于低轨卫星运动速度快、覆盖区域变化大、用户需求动态变化等特点，如何合理地对多个波束进行规划和分配，以满足不同用户和服务的需求，是一个具有挑战性的问题。传统的波束规划方法通常基于固定的网格划分或预定义的优先级分配，缺乏灵活性和适应性，不能有效地应对复杂和不确定的环境变化。

发明内容

本发明的目的是：为实现低轨卫星通信系统中多个波束的实时、高效、自适应的规划和分配，提供一种基于多智能体强化学习的低轨卫星波束规划系统及方法。

本发明的一个技术方案是：基于多智能体强化学习的低轨卫星波束规划系统，它包括：分布式感知模块、图神经网络表示模块、集中式离线存储模块、多智能体离线训练模块、多智能体在线微调模块以及实际部署模块。

所述分布式感知模块利用卫星间的稀疏测量数据，收集每个小区的需求信息、卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息，实现对卫星波束分配情况的感知，并重构出当前区域的波束分配矩阵和干扰情况矩阵。

所述图神经网络表示模块一方面将所述波束分配矩阵以及所述干扰情况矩阵结合得到邻接矩阵，另一方面将每个小区的需求信息以及卫星自身的资源状态信息合并表示为一个特征向量；将所述邻接矩阵和所述特征向量作为图卷积神经网络的输入，并利用图卷积神经网络对该图进行特征提取，并将其池化得到一个低维的图特征向量，表征该卫星的状态和性能。

所述集中式离线存储模块用于将每个卫星在每个时刻的状态、动作和奖励存储在一个集中式的数据库中，以供后续离线训练使用。

所述多智能体离线训练模块以所述集中式离线存储模块提供的每个卫星在每个时刻的状态、动作和奖励来进行离线强化学习训练，得到一个指导卫星波束分配决策的策略网络；该策略网络以所述图神经网络表示模块提供的低维的图特征向量为输入，动作是该卫星波束所指向的小区和采用的频段，奖励是基于各类优化目标得出的卫星系统整体效能的反馈，所述策略网络输出动作的概率分布。

所述多智能体在线微调模块根据卫星系统的不同在线环境和在线规划目标，对离线训练得到的所述策略网络进行微调，以适应在线环境中出现的新的需求和目标。

所述实际部署模块提供可视化交互，实时地展示卫星系统的状态、性能和以及所述策略网络的决策结果，同时操作人员能够通过所述实际部署模块调整优化目标和分配模式以及控制算法。

在上述方案的基础上，进一步的，所述分布式感知模块基于分布式压缩感知的算法，利用卫星间的稀疏测量数据，通过联合优化和迭代更新，重构出全局的波束分配矩阵和干扰情况矩阵；

服务该区域的卫星的编号为1,2,...j...,J，其中J是卫星的总数；每个小区的编号为1,2,...,Q，其中Q是小区的总数；整个卫星通信系统采用的频段的编号为1,2,...,I，其中I是使用频段的总数；

该区域总的波束分配矩阵表示为：

X∈{0,1}^J×Q×I

该区域总的干扰情况矩阵表示为：

Y∈R^J×Q×I

对于每颗卫星j来说，A_j∈{0,1}^Q×I表示每颗卫星自身的波束分配矩阵，其中A_j,q,i＝1表示第j颗卫星给第q个小区分配了第i个频段，否则为0；

G_j∈R^Q×I表示第j颗卫星测量的发射信号到达第q个小区的第i个频段的信号强度；

波束分配矩阵的更新公式为：

干扰情况矩阵的更新公式为：

在上述方案的基础上，进一步的，所述集中式离线存储模块采用基于时间序列数据库的存储方案，利用时间戳对数据进行索引、压缩和聚合，实现数据插入、查询和删除操作，并支持多维度的数据分析和可视化，支持对数据进行时序分析、趋势预测、异常检测。

在上述方案的基础上，进一步的，所述多智能体离线训练模块进行离线强化学习训练的方法为：

利用离线存储的多卫星状态信息s，选择的动作信息a，得到的奖励信息r，到达的下一个状态信息s'构建经验回放池，池中包含一系列(s,a,r,s')元组；

从经验回放池中采样元组训练决策用的Q网络；其中：Q网络由两个子网络组成，一个是目标Q网络，另一个是当前Q网络；目标Q网络用于估计给定状态和动作下的期望回报，当前Q网络用于根据状态选择最优动作，每隔固定的步数F，用当前Q网络的参数更新覆盖目标Q网络的参数；

在标准的Q学习的损失函数更新中加入了一个额外的当前动作序列和已有动作序列间的相对熵正则项，该正则项使得未在数据集中出现的动作的价值被最小化，损失函数公式如下：

其中：D是离线数据集，(s,a,r,s')是数据集中元组，θ是当前Q网络的神经网络参数，θ'是目标Q网络的神经网络参数，γ是贴现因子，Q_θ(s,a)是当前Q网络对于当前状态-动作的价值估计，Q_θ'(s′,a′)是目标Q网络输出的下一个状态-下一个动作的价值估计，a'表示目标Q网络输出Q_θ'(s′,a′)的最大值对应的动作，β是正则化系数，π是当前策略，π_α是产生离线数据集的行为策略。

在上述方案的基础上，进一步的，所述集中式离线存储模块中构建有一个重放缓冲区，所述重放缓冲区中分有在线数据集和离线数据集，分别存储最近收集的在线经验和预先收集的离线经验；当所述多智能体在线微调模块对所述策略网络进行微调时，以固定或动态调整的比例从在线数据集和离线数据集中各自采样数据作为训练样本反馈至所述策略网络。

本发明的另一个技术方案是：基于多智能体强化学习的低轨卫星波束规划方法，它基于如上所述的低轨卫星波束规划系统，并包括以下步骤：

A.将波束规划过程定义为一个马尔科夫决策过程，明确该过程的状态、动作和奖励；状态包括区域内每个小区的需求信息，卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息；动作是对不同用户或区域进行波束分配的离散选择；奖励是基于各类优化目标得出的卫星系统整体效能的反馈；

B.利用卫星间的稀疏测量数据，收集每个小区的需求信息、卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息，重构出当前区域的波束分配矩阵和干扰情况矩阵；

将波束分配矩阵以及干扰情况矩阵结合得到邻接矩阵，将每个小区的需求信息以及卫星自身的资源状态信息合并表示为一个特征向量；

将邻接矩阵和特征向量作为图卷积神经网络的输入，并利用图卷积神经网络对该图进行特征提取，并将其池化得到一个低维的图特征向量，表征该卫星的状态和性能，作为后续决策网络的输入；

C.将每个卫星在每个时刻的状态、动作和奖励存储在地面服务器中，构建数据库，利用基于离线Q算法的训练方法，得到一个指导卫星波束分配决策的策略网络；该策略网络以状态为输入，输出动作的概率分布；并行训练图卷积神经网络以及策略网络；

D.根据不同在线环境和在线规划目标，以固定或动态调整的比例从更新后的数据集和原数据集中各自采样数据作为训练样本反馈至策略网络，通过在线强化学习算法对策略网络进行在线微调。

有益效果：本发明采用多智能体强化学习的技术，利用神经网络作为非线性近似函数，从大量的数据中自动地学习波束规划的策略，相对于传统的基于深度强化学习的波束规划架构，本发明通过分布式感知、图神经网络表示、集中式离线存储、多智能体离线训练、多智能体在线规划目标微调和实际部署模块，将复杂的问题分解为多个子模块，联合优化了多智能体强化学习决策过程中的感知、特征提取、训练、部署等各个流程，从而实现低轨卫星通信系统中多个波束的实时、高效、自适应的规划和分配，以满足不同用户和服务的需求，提高系统的性能和可靠性。

附图说明

图1为本发明的流程示意图；

图2为本发明中分布式感知模块构建波束分配矩阵和干扰情况矩阵的流程示意图；

图3为本发明中多智能体离线训练模块进行离线强化学习训练的流程示意图；

图4为本发明中多智能体在线微调模块对策略网络进行微调的流程示意图；

图5为本发明所述方法的流程示意图。

其中：1-分布式感知模块；2-图神经网络表示模块；3-集中式离线存储模块；4-多智能体离线训练模块；5-多智能体在线微调模块；6-实际部署模块。

具体实施方式

实施例1：参见附图1，基于多智能体强化学习的低轨卫星波束规划系统，它包括：分布式感知模块1、图神经网络表示模块2、集中式离线存储模块3、多智能体离线训练模块4、多智能体在线微调模块5以及实际部署模块6。

参见附图2，分布式感知模块1利用卫星间的稀疏测量数据，收集每个小区的需求信息、卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息，实现对卫星波束分配情况的感知。卫星通过分布式测量得到各自所能感知到的相应用户需求信息，信道状态信息，干扰信息、协作信息和自身状态信息。随后将测量结果压缩为稀疏向量传输给邻近的协作通信卫星，协作通信卫星通过接收到的信息和自身感知的信息结合来判断当前区域内信道利用和干扰的情况，并将得到的波束分配矩阵和干扰情况矩阵继续传输给邻近的协作通信卫星，继续推断和传输过程，并最终重构出当前区域的波束分配和干扰情况矩阵。

本例中，服务该区域的卫星的编号为1,2,...j...,J，其中J是卫星的总数，假设每个小区的编号为1,2,...,Q，Q是小区的总数，整个卫星通信系统采用的频段的编号为1,2,...,I，I是使用频段的总数，该区域总的波束分配矩阵表示为X∈{0,1}^J×Q×I，干扰情况矩阵表示为Y∈R^J×Q×I。

对于每颗卫星j来说，A_j∈{0,1}^Q×I表示每颗卫星自身的波束分配矩阵，其中A_j,q,i＝1表示第j颗卫星给第q个小区分配了第i个频段，否则为0。用G_j∈R^Q×I表示第j颗卫星测量的发射信号到达第q个小区的第i个频段的信号强度。协作通信卫星通过邻近卫星的感知信息，自身感知的信息，接收到的波束分配矩阵以及干扰情况矩阵，结合来判断和更新当前区域内波束分配和干扰情况。

具体的波束分配和干扰矩阵的更新公式为第一个公式用于更新当前区域波束分配矩阵，第二个公式用于更新当前区域干扰情况矩阵。由于每颗卫星资源有限，区域内同一小区能够采用的通信频段数量有限，因此可通过联合通信、推断和迭代更新，最终重构出当前区域内的波束分配和干扰情况矩阵。该算法不需要中心节点的协调，可以适应卫星网络的动态变化和通信不可靠性。

图神经网络表示模块2一方面将波束分配矩阵以及干扰情况矩阵结合得到邻接矩阵，例如，如果第j颗卫星在将第i个频段分配给了第q个小区，受到了第j'颗卫星在同一频段上干扰强度为g，那么邻接矩阵的元素a_jj'可以表示为(j,i,q,j',g)，另一方面将每个小区的需求信息以及卫星自身的资源状态信息合并表示为一个特征向量；将邻接矩阵和特征向量作为图卷积神经网络的输入，并利用图卷积神经网络对该图进行特征提取，并将其池化得到一个低维的图特征向量，表征该卫星的状态和性能，将其作为后续决策网络的输入。

集中式离线存储模块3用于将每个卫星在每个时刻的状态、动作和奖励存储在一个集中式的数据库中，以供后续离线训练使用；集中式离线存储模块3采用了一种基于时间序列数据库的存储方案，利用时间戳对数据进行索引、压缩和聚合，从而提高数据的存储效率和查询性能，从而实现高效地数据插入、查询和删除操作，并支持多维度的数据分析和可视化。时间序列数据库还可以支持对数据进行时序分析、趋势预测、异常检测等功能，为卫星波束分配提供更多的数据依据。

参见附图3，多智能体离线训练模块4以集中式离线存储模块3提供的每个卫星在每个时刻的状态、动作和奖励来进行离线强化学习训练，得到一个指导卫星波束分配决策的策略网络；该策略网络以图神经网络表示模块2提供的低维的图特征向量为输入，动作是该卫星波束所指向的小区和采用的频段，奖励是基于各类优化目标得出的卫星系统整体效能的反馈，策略网络输出动作的概率分布。首先需要明确强化学习所需的马尔科夫决策过程所使用的状态、动作、和奖励。状态为通过图神经网络表示模块2转化得到的低维图特征向量，向量中的信息包括每个小区的需求信息，卫星间的信道状态信息、干扰信息，以及卫星自身的资源状态信息。动作是该卫星的波束分配，即该卫星波束所指向的小区和采用的频段。奖励是基于各类优化目标(如最大化吞吐量、最小化干扰、最优化资源利用率等)得出的评估卫星系统性能的反馈信息。首先利用离线存储的多卫星状态信息s，选择的动作信息a，得到的奖励信息r，到达的下一个状态信息s'组成的元组构建经验回放池，池中包含一系列(s,a,r,s')元组。随后从经验回放池中采样元组训练决策用的神经网络(Q网络)，其中Q网络由两个子网络组成，一个是目标Q网络，另一个是当前Q网络。目标Q网络用于估计给定状态和动作下的期望回报，当前Q网络用于根据状态选择最优动作，每隔固定的步数F，用当前Q网络的参数更新覆盖目标Q网络的参数。采用离线数据训练Q网络时，采用了正则化器来限制决策网络选择已有离线数据集中出现的当前状态下做出的动作。具体的，在标准的Q学习的损失函数更新中加入了一个额外的当前动作和已有动作间的KL散度(相对熵)正则器，正则器用于测量当前动作与离线数据集已有的动作之间的KL散度，从而确保训练出的决策网络选择离线数据集中的已有动作。正则器将数据集中没有的动作值最小化，从而防止对数据集中没有的动作的过高的状态-动作价值估计导致选择数据集中没有的动作，避免偏离离线数据集而导致训练失败。该方法能完全拟合离线数据集中的动作信息，避免了因无法在线交互而导致的动作限制问题。损失函数可写成：

其中，D是离线数据集，(s,a,r,s')是数据集中元组，θ是当前Q网络的神经网络参数，θ'是目标Q网络的神经网络参数，r是当前状态做出动作后的奖励，γ是贴现因子，Q_θ(s,a)是当前Q网络对于当前状态-动作的价值估计，Q_θ'(s′,a′)是目标Q网络输出的下一个状态-下一个动作的价值估计，a'表示目标Q网络输出Q_θ'(s′,a′)的最大值对应的动作，β是正则化系数，π是当前策略，π_α是产生离线数据集的行为策略(即离线数据集策略)。第一项是强化学习中标准均方贝尔曼误差，第二项是当前策略采取的动作与数据集中策略采取的动作的KL散度正则化项，用于惩罚偏离行为策略的行动。这样可以防止过度估计未见过的动作的价值，避免偏离离线数据集导致训练失败，从而充分拟合离线数据中的动作信息，并避免无法在线交互带来的动作限制问题。

参见附图4，多智能体在线微调模块5根据卫星系统的不同在线环境和在线规划目标，对离线训练得到的策略网络进行微调，以适应在线环境中出现的新的需求和目标；该模块采用了一种基于重放缓冲区的微调方法，结合离线数据集和在线数据流，在离线数据存储模块处构建一个重放缓冲区，从离线数据集和在线数据流中共同采样数据。并且，该模块使用了一种平衡重放方案，在重放缓冲区中维护一个在线数据集和一个离线数据集，分别存储最近收集的在线经验和预先收集的离线经验。在每次采样时，根据一个固定或动态调整的比例来确定从在线数据集和离线数据集中各自采样多少个数据。一般来说，优先采样在线数据，同时也鼓励采样接近当前策略的离线数据。这样可以平衡在线数据和离线数据之间的使用，提高样本效率和利用率，从而提高卫星系统的在线微调速度。

实际部署模块6提供可视化交互，实时地展示卫星系统的状态、性能和以及策略网络的决策结果，同时操作人员能够通过实际部署模块6调整优化目标和分配模式以及控制算法。

实施例2：参见附图5，基于多智能体强化学习的低轨卫星波束规划方法，它基于如实施例1所述的低轨卫星波束规划系统，包括以下步骤：

A.将波束规划过程定义为一个马尔科夫决策过程，明确该过程的状态、动作和奖励；状态包括区域内每个小区的需求信息，卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息；动作是对不同用户或区域进行波束分配的离散选择；奖励是基于各类优化目标得出的卫星系统整体效能的反馈。

B.利用卫星间的稀疏测量数据，收集每个小区的需求信息、卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息，重构出当前区域的波束分配矩阵和干扰情况矩阵。

将波束分配矩阵以及干扰情况矩阵结合得到邻接矩阵，将每个小区的需求信息以及卫星自身的资源状态信息合并表示为一个特征向量。

将邻接矩阵和特征向量作为图卷积神经网络的输入，并利用图卷积神经网络对该图进行特征提取，并将其池化得到一个低维的图特征向量，表征该卫星的状态和性能，作为后续决策网络的输入。

C.将每个卫星在每个时刻的状态、动作和奖励存储在地面服务器中，构建数据库，利用基于离线Q算法的训练方法，得到一个指导卫星波束分配决策的策略网络；该策略网络以状态为输入，输出动作的概率分布；并行训练图卷积神经网络以及策略网络。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于多智能体强化学习的低轨卫星波束规划系统，其特征在于，它包括：分布式感知模块(1)、图神经网络表示模块(2)、集中式离线存储模块(3)、多智能体离线训练模块(4)、多智能体在线微调模块(5)以及实际部署模块(6)；

所述分布式感知模块(1)利用卫星间的稀疏测量数据，收集每个小区的需求信息、卫星间的信道状态信息、干扰信息和协作信息，以及卫星自身的资源状态信息，实现对卫星波束分配情况的感知，并重构出当前区域的波束分配矩阵和干扰情况矩阵；

所述图神经网络表示模块(2)一方面将所述波束分配矩阵以及所述干扰情况矩阵结合得到邻接矩阵，另一方面将每个小区的需求信息以及卫星自身的资源状态信息合并表示为一个特征向量；将所述邻接矩阵和所述特征向量作为图卷积神经网络的输入，并利用图卷积神经网络对该图进行特征提取，并将其池化得到一个低维的图特征向量，表征该卫星的状态和性能；

所述集中式离线存储模块(3)用于将每个卫星在每个时刻的状态、动作和奖励存储在一个集中式的数据库中，以供后续离线训练使用；

所述多智能体离线训练模块(4)以所述集中式离线存储模块(3)提供的每个卫星在每个时刻的状态、动作和奖励来进行离线强化学习训练，得到一个指导卫星波束分配决策的策略网络；该策略网络以所述图神经网络表示模块(2)提供的低维的图特征向量为输入，动作是该卫星波束所指向的小区和采用的频段，奖励是基于各类优化目标得出的卫星系统整体效能的反馈，所述策略网络输出动作的概率分布；

所述多智能体在线微调模块(5)根据卫星系统的不同在线环境和在线规划目标，对离线训练得到的所述策略网络进行微调，以适应在线环境中出现的新的需求和目标；

所述实际部署模块(6)提供可视化交互，实时地展示卫星系统的状态、性能和以及所述策略网络的决策结果，同时操作人员能够通过所述实际部署模块(6)调整优化目标和分配模式以及控制算法。

2.如权利要求1所述的基于多智能体强化学习的低轨卫星波束规划系统，其特征在于，所述分布式感知模块(1)基于分布式压缩感知的算法，利用卫星间的稀疏测量数据，通过联合优化和迭代更新，重构出全局的波束分配矩阵和干扰情况矩阵；

该区域总的波束分配矩阵表示为：

X∈{0,1}^J×Q×I

该区域总的干扰情况矩阵表示为：

Y∈R^J×Q×I

波束分配矩阵的更新公式为：

干扰情况矩阵的更新公式为：

3.如权利要求1所述的基于多智能体强化学习的低轨卫星波束规划系统，其特征在于，所述集中式离线存储模块(3)采用基于时间序列数据库的存储方案，利用时间戳对数据进行索引、压缩和聚合，实现数据插入、查询和删除操作，并支持多维度的数据分析和可视化，支持对数据进行时序分析、趋势预测、异常检测。

4.如权利要求1所述的基于多智能体强化学习的低轨卫星波束规划系统，其特征在于，所述多智能体离线训练模块(4)进行离线强化学习训练的方法为：

5.如权利要求1所述的基于多智能体强化学习的低轨卫星波束规划系统，其特征在于，所述集中式离线存储模块(3)中构建有一个重放缓冲区，所述重放缓冲区中分有在线数据集和离线数据集，分别存储最近收集的在线经验和预先收集的离线经验；当所述多智能体在线微调模块(5)对所述策略网络进行微调时，以固定或动态调整的比例从在线数据集和离线数据集中各自采样数据作为训练样本反馈至所述策略网络。

6.基于多智能体强化学习的低轨卫星波束规划方法，其特征在于，它基于如权利要求1-5任一项所述的低轨卫星波束规划系统，并包括以下步骤：