CN116938323B

CN116938323B - 一种基于强化学习的卫星转发器资源分配方法

Info

Publication number: CN116938323B
Application number: CN202311197758.4A
Authority: CN
Inventors: 班亚明; 孙文宇; 马宁; 张伟嘉; 耿纪昭
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-11-21
Anticipated expiration: 2043-09-18
Also published as: CN116938323A

Abstract

本发明涉及一种基于强化学习的卫星转发器资源分配方法，属于卫星转发器资源分配领域。其包括步骤：对基于强化学习的卫星转发器资源分配模型进行训练；根据卫星转发器资源使用情况和实际任务需求，获取当前的卫星转发器资源池状态和待分配任务列表状态；使用训练后的强化学习模型对卫星转发器资源池状态和任务列表状态进行推理，得到动作价值函数；根据动作价值函数进行动作选择；判断剩余资源是否满足任务分配需求，若是，则根据动作选择执行相应的卫星转发器资源分配，并继续，直至卫星转发器资源分配流程结束。本发明显著减少了运行的时间开销，具有更强的特征提取能力，可提高整体的卫星转发器资源利用率。

Description

一种基于强化学习的卫星转发器资源分配方法

技术领域

本发明涉及卫星转发器资源分配领域，特别是指一种基于强化学习的卫星转发器资源分配方法，可用于卫星转发器的带宽分配和占用时间分配。

背景技术

对于基于透明和处理转发器的卫星通信系统，如何在有限卫星资源前提下快速高效的分配有限的转发带宽，是提高通信卫星使用效能的关键。在典型的卫星通信系统中，一般采用带宽租赁方式，由多张卫星通信网共享转发器带宽，通过对卫星任务和转发器资源进行快速合理的分配，能够在多约束的条件下提高卫星转发器资源（频率和占用时间）使用率。

目前，多约束条件下卫星转发器资源分配问题已经被证明是NP问题，传统的运筹学算法、启发式算法已经被应用在了卫星资源调度领域和其他资源调度领域中。但由于实际的资源调度中，节点众多且相互依赖，这造成了运筹学模型和启发式算法中需要求解的变量和约束激增。所以过高的计算时间复杂度使得其无法应用在时效性要求高的问题，特别是卫星资源调度问题中。而随着卫星通信领域的技术发展和强化学习的进步，越来越多的经验数据被保存，强化学习由于自身特性恰好可以利用这些数据，从中发现规律、学习策略。

发明内容

为解决上述问题，本发明提出了一种基于强化学习的卫星转发器资源分配方法，可以提高卫星转发器资源分配方法的资源整体占用率和运行效率。

为了实现上述目的，本发明采取的技术方案如下：

一种基于强化学习的卫星转发器资源分配方法，包括以下步骤：

步骤1，构建卫星转发器资源分配强化学习模型，并初始化模型参数和强化学习环境；

步骤2，对环境的状态进行采样，得到当前时刻下的资源池状态和任务列表状态；

步骤3，根据资源池状态和任务列表状态，通过模型推理计算动作价值函数；

步骤4，根据动作价值函数和贪心策略进行动作选择，动作包括任务选择和资源搜索优先级选择；

步骤5，执行选择的动作，并根据对环境的采样得到下一时刻的资源池状态和任务列表状态，计算奖励，得到状态转移的四元组；

步骤6，将四元组保存至经验池，并从经验池中采样一个批次的四元组，计算TD误差；

步骤7，计算模型训练过程的总损失函数，并通过反向传播方法更新模型参数；

步骤8，重复步骤2至步骤7，直至总损失函数收敛，得到训练完成的卫星转发器资源分配强化学习模型，保存模型的网络结构和参数；

步骤9，使用训练完成的卫星转发器资源分配强化学习模型对卫星转发器资源池状态和任务列表状态进行推理，得到动作价值函数：

步骤10，根据步骤9得到的动作价值函数进行动作选择，实现资源分配。

进一步地，卫星转发器资源分配强化学习模型包括资源池状态分支网络、任务状态分支网络和动作价值估计网络；其中，资源池状态分支网络为卷积神经网络，用于对卫星转发器资源池状态进行特征提取，以得到资源池状态特征向量；任务状态分支网络为全连接网络，用于对卫星的任务状态进行特征提取，以得到任务状态特征向量；资源池状态特征向量和任务状态特征向量拼接后得到整体状态特征向量，输入动作价值估计网络；动作价值估计网络为全连接网络，用于计算当前时刻状态下的动作价值函数。

进一步地，步骤1中，初始化卫星转发器资源分配强化学习模型的参数，记为，同时初始化目标网络的模型参数/>；初始化卫星转发器资源分配的强化学习环境，包括资源池状态和任务列表状态；

步骤2中，根据环境对当前状态进行采样，得到当前时刻t下的全局状态，其中，/>为资源池状态，/>为任务列表状态；

任务列表状态的具体形式如下：

其中，表示第m个任务在资源池中的分配状态；/>和/>分别表示任务占用的卫星时间和频率资源；/>和/>是对/>和/>的状态重构，让其符合模型输入的张量大小，/>是被资源池时间和频率资源被划分组数，/>和/>分别表示卫星资源池中可分配频率资源范围和时间资源范围；

资源池状态为一个状态矩阵，用于表示资源池中每个资源块的占用情况，具体形式如下：

其中，为状态矩阵中的一个元素，用于表示资源池中每个资源块的占用情况；

步骤3中，使用步骤2得到的任务列表状态作为任务状态分支网络的输入，通过模型推理，得到任务状态的特征向量/>；使用步骤2得到的资源池状态/>作为资源池状态分支网络的输入，通过模型推理，得到资源池状态的特征向量/>；然后，将/>与/>进行特征拼接得到整体状态的特征向量/>，并作为动作价值估计网络的输入，通过模型推理计算动作价值函数/>；

步骤4中，根据动作价值函数和贪心策略进行当前时刻t下的动作选择/>，具体形式如下：

其中，为贪心策略对/>采样的概率，/>表示可用动作空间，在卫星资源分配问题中被定位为卫星控制系统的决策空间，包括资源搜索优先级动作空间/>和任务选择动作空间/>；每一个动作/>都是根据当前时刻t的状态/>从可用动作空间中选择的；的具体形式为：

其中，为任务选择动作，表示任务选择空间中的第i个动作，，/>为任务列表的总长度；/>为资源搜索优先级动作，包括频率搜索优先和时间搜索优先；

步骤5中，执行当前时刻t下选择的动作，随后对环境再次进行采样，得到下一时刻的资源池状态和任务状态/>，计算当前时刻的奖励值/>，得到状态转移的四元组/>；其中，/>代表当前时刻t下从全局状态/>中所选动作/>的评价，以资源占用率作为算法的优化目标，在执行当前时刻t下选择的动作/>后，卫星转发器资源占用率越高，则奖励值越高，且资源占用率越接近上限，奖励值越大；奖励值计算方式为：

其中，非负乘数用于避免无限值；

步骤6中，将四元组保存至回放经验池，并从经验池中采样一个批次的四元组；在训练阶段，采用从经验池中采样批次得到四元组的方法来消除卫星任务分配系统中与环境交互产生的样本数据的相关性；并且，回放经验池的回放记忆保证了一个样本可以多次参与训练，从而提高学习效率；在每个训练步骤中生成的状态转移的四元组都保存在经验池中；随后，使用从经验池中采样一个批次的四元组计算TD误差/>：

其中，是折扣因子奖励，/>为目标网络在t+1时刻下的动作价值函数估计，目标网络的参数/>定期更新，通过计算/>和/>的加权平均值来更新目标网络的参数，更新间隔为T；

步骤7中，计算模型训练过程的总损失函数，计算方式如下：

随后，通过反向传播方法更新模型参数。

进一步地，步骤10的具体方式为：

根据动作价值函数选择相应的动作；

判断剩余资源是否满足任务分配需求；若否，则流程结束；若是，则根据所选动作执行相应的卫星转发器资源分配；

判断是否有未分配任务，若否，则流程结束；若是，则重复执行步骤9和步骤10。

本发明的有益效果在于：

1、本发明使用卫星转发器资源分配模型进行卫星转发器的资源分配，卫星转发器资源分配模型为利用基于强化学习的卫星转发器资源分配模型训练方法训练得到的模型。

2、本发明的卫星转发器资源分配模型对输入的资源池状态数据和任务列表状态数据输出动作选择，动作选择包括了任务选择和资源优先级选择。由于在进行资源分配时不需要迭代过程，因此显著减少了运行的时间开销，并且由于强化学习模型具有经验学习的能力，因此有更强的特征提取能力，并提高整体的卫星转发器资源利用率。

附图说明

图1为本发明实施例中基于强化学习的卫星转发器资源分配模型的训练流程示意图。

图2为本发明实施例中卫星转发器资源分配模型的原理示意图。

图3为本发明实施例中模型训练后的卫星转发器资源分配方法的流程示意图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行详细描述。

具体来说，该方法可分为训练和使用两个阶段。

图1和图2所示为基于强化学习的卫星转发器资源分配模型训练过程，具体训练过程如下：

步骤1：构建卫星转发器资源分配强化学习模型的网络结构，所述的网络结构由资源池状态分支网络、任务状态分支网络和动作价值估计网络三部分构成。所述的资源池状态分支网络由卷积神经网络构成，用于对卫星转发器资源池状态进行特征提取得到资源池状态特征向量；所述的任务状态分支网络由全连接神经网络构成，用于对卫星的任务状态进行特征提取得到任务状态特征向量；将得到的资源池状态特征向量和任务状态特征向量拼接后得到整体状态特征向量，所述的动作价值估计网络由全连接神经网络构成，用于计算当前时刻状态下的动作价值函数。初始化卫星转发器资源分配强化学习的模型参数，记为，同时初始化目标网络（Target Network）的模型参数/>。初始化卫星转发器资源分配的强化学习环境；

步骤2：根据环境对当前状态进行采样，得到当前时刻下的全局状态，包括资源池状态/>和任务列表状态/>。其中，任务列表状态/>具体形式为下式：

其中，表示第m个任务在资源池中的分配状态；/>和/>分别表示任务占用的卫星时间和频率资源；/>和/>是对/>和/>的状态重构，让其符合模型输入的张量大小，/>是被时间和频率资源被划分组数。 />和/>分别表示卫星资源池中可分配频率资源范围和时间资源范围。

资源池状态为一个状态矩阵，用于表示资源池中每个资源块的占用情况，具体形式为下式：

其中，为状态矩阵中的一个元素，用于表示资源池中每个资源块的占用情况。

步骤3：使用步骤2得到的任务列表状态作为任务状态分支网络的输入，通过模型推理，得到任务状态的特征向量/>；使用步骤2得到的资源池状态/>作为资源池状态分支网络的输入，通过模型推理，得到资源池状态的特征向量/>。进一步的，将/>与/>进行特征拼接得到整体状态的特征向量/>，并作为动作价值估计网络的输入，通过模型推理计算动作价值函数/>。

步骤4：根据动作价值函数和贪心策略进行当前时刻t下的动作选择，具体形式为下式：

其中，为贪心策略对/>采样的概率，/>表示可用动作空间，在卫星资源分配问题中被定位为卫星控制系统的决策空间，包括资源搜索优先级动作空间/>和任务选择动作空间/>。每一个动作/>都是根据当前时刻t的当前状态/>从可用动作空间中选择的。的具体形式为：

其中，为任务选择动作，表示任务选择空间中的第i个动作，，/>为任务列表的总长度；/>为资源搜索优先级动作，包括频率搜索优先和时间搜索优先。

步骤5：执行当前时刻t下选择的动作，随后对环境再次进行采样，得到下一时刻的资源池状态和任务状态/>，计算当前时刻的奖励值/>，得到状态转移的四元组/>。

其中，代表当前时刻t下从全局状态/>中所选动作/>的评价，以资源占用率作为算法的优化目标，在执行当前时刻t下选择的动作/>后，卫星转发器资源占用率越高，则奖励值越高，且资源占用率越接近上限，奖励值越大，具体的奖励值设计如下所示：

其中，非负乘数用于避免无限值。

步骤6：将四元组保存至回放经验池，并从经验池中采样一个批次的四元组。在训练阶段，采用所述的回放记忆的方法来消除卫星任务分配系统中与环境交互产生的样本数据的相关性。而且回放记忆保证了一个样本可以多次参与训练，从而提高学习效率。在每个训练步骤中生成的状态转移的四元组都保存在经验池中，四元组表示为。

随后，使用所述的从经验池中采样一个批次的四元组计算TD误差，具体形式为下式：

其中，是折扣因子奖励，设置为0.95，/>为目标网络在t+1时刻下的动作价值函数估计，目标网络的参数/>定期更新，通过计算/>和/>的加权平均值来更新目标网络的参数，更新间隔为T。

步骤7：计算模型训练过程的总损失函数，计算方式如下：

随后，通过反向传播算法（SGD）更新模型参数；

步骤8：重复上述步骤2至步骤7，直至所述总损失函数收敛，得到训练完成的卫星转发器资源分配模型模型，保存模型网络结构和参数。

本实施例中的卫星转发器资源分配模型对输入的资源池状态数据和任务列表状态数据输出动作选择，动作选择包括了任务选择和资源优先级选择。由于在进行资源分配时不需要迭代过程，因此显著减少了运行的时间开销，并且由于强化学习模型具有经验学习的能力，因此有更强的特征提取能力，并提高整体的卫星转发器资源利用率

图3所示为基于该卫星转发器资源分配模型的卫星转发器资源分配方法，具体包括以下步骤：

步骤一：加载卫星转发器资源分配模型训练方法中保存的强化学习模型网络结构和参数，得到用于卫星转发器资源分配的强化学习模型；

步骤二：获取当前时刻t下的卫星转发器资源池状态和待分配任务列表状态/>，以及全局状态/>，卫星转发器资源池状态/>和待分配任务列表状态/>的具体形式同训练方法的步骤2所述。

步骤三：使用步骤二获取的资源池状态和任务列表状态/>作为模型输入，通过模型推理计算动作价值函数/>。

步骤四：根据动作价值函数进行动作选择，动作包括任务选择和资源搜索优先级选择，具体选择方式如下：

其中，为根据强化学习模型推理计算得到的任务选择动作，/>为根据强化学习模型推理计算得到的为资源搜索优先级动作，/>的动作选择空间/>同训练方法的步骤4所述。

步骤五：判断剩余资源是否满足任务分配需求；若判断否，则卫星转发器资源分配流程结束，不再执行步骤六；若判断是，则根据所述的动作选择执行相应的卫星转发器资源分配，并继续执行步骤六；

步骤六：判断是否有未分配任务。若判断否，则卫星转发器资源分配流程结束；若判断是，则重复上述步骤二至步骤六，直至卫星转发器资源分配流程结束。

本发明使用卫星转发器资源分配模型进行卫星转发器的资源分配，卫星转发器资源分配模型为利用基于强化学习的卫星转发器资源分配模型训练方法训练得到的模型。卫星转发器资源分配模型对输入的资源池状态数据和任务列表状态数据输出动作选择，动作选择包括了任务选择和资源优先级选择。由于在进行资源分配时不需要迭代过程，因此显著减少了运行的时间开销，并且由于强化学习模型具有经验学习的能力，因此有更强的特征提取能力，并提高整体的卫星转发器资源利用率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的卫星转发器资源分配方法，其特征在于，包括以下步骤：

其中，卫星转发器资源分配强化学习模型包括资源池状态分支网络、任务状态分支网络和动作价值估计网络；其中，资源池状态分支网络为卷积神经网络，用于对卫星转发器资源池状态进行特征提取，以得到资源池状态特征向量；任务状态分支网络为全连接网络，用于对卫星的任务状态进行特征提取，以得到任务状态特征向量；资源池状态特征向量和任务状态特征向量拼接后得到整体状态特征向量，输入动作价值估计网络；动作价值估计网络为全连接网络，用于计算当前时刻状态下的动作价值函数；

初始化卫星转发器资源分配强化学习模型的参数，记为，同时初始化目标网络的模型参数/>；初始化卫星转发器资源分配的强化学习环境，包括资源池状态和任务列表状态；

步骤2，对环境的状态进行采样，得到当前时刻下的资源池状态和任务列表状态；具体方式为：

根据环境对当前状态进行采样，得到当前时刻t下的全局状态，其中，为资源池状态，/>为任务列表状态；

任务列表状态的具体形式如下：

步骤3，根据资源池状态和任务列表状态，通过模型推理计算动作价值函数；具体方式为：

使用步骤2得到的任务列表状态作为任务状态分支网络的输入，通过模型推理，得到任务状态的特征向量/>；使用步骤2得到的资源池状态/>作为资源池状态分支网络的输入，通过模型推理，得到资源池状态的特征向量/>；然后，将/>与/>进行特征拼接得到整体状态的特征向量/>，并作为动作价值估计网络的输入，通过模型推理计算动作价值函数；

步骤4，根据动作价值函数和贪心策略进行动作选择，动作包括任务选择和资源搜索优先级选择；具体方式为：

根据动作价值函数和贪心策略进行当前时刻t下的动作选择/>，具体形式如下：

其中，为贪心策略对/>采样的概率，/>表示可用动作空间，在卫星资源分配问题中被定位为卫星控制系统的决策空间，包括资源搜索优先级动作空间/>和任务选择动作空间/>；每一个动作/>都是根据当前时刻t的状态/>从可用动作空间中选择的；/>的具体形式为：

其中，为任务选择动作，表示任务选择空间中的第i个动作，/>，/>为任务列表的总长度；/>为资源搜索优先级动作，包括频率搜索优先和时间搜索优先；

步骤5，执行选择的动作，并根据对环境的采样得到下一时刻的资源池状态和任务列表状态，计算奖励，得到状态转移的四元组；具体方式为：

执行当前时刻t下选择的动作，随后对环境再次进行采样，得到下一时刻的资源池状态和任务状态/>，计算当前时刻的奖励值/>，得到状态转移的四元组；其中，/>代表当前时刻t下从全局状态/>中所选动作/>的评价，以资源占用率作为算法的优化目标，在执行当前时刻t下选择的动作/>后，卫星转发器资源占用率越高，则奖励值越高，且资源占用率越接近上限，奖励值越大；奖励值计算方式为：

其中，非负乘数用于避免无限值；

步骤6，将四元组保存至经验池，并从经验池中采样一个批次的四元组，计算TD误差；具体方式为：

将四元组保存至回放经验池，并从经验池中采样一个批次的四元组；在训练阶段，采用从经验池中采样批次得到四元组的方法来消除卫星任务分配系统中与环境交互产生的样本数据的相关性；并且，回放经验池的回放记忆保证了一个样本可以多次参与训练，从而提高学习效率；在每个训练步骤中生成的状态转移的四元组都保存在经验池中；随后，使用从经验池中采样一个批次的四元组计算TD误差/>：

步骤7，计算模型训练过程的总损失函数，并通过反向传播方法更新模型参数；具体方式为：

计算模型训练过程的总损失函数，计算方式如下：

随后，通过反向传播方法更新模型参数；

2.根据权利要求1所述的一种基于强化学习的卫星转发器资源分配方法，其特征在于，步骤10的具体方式为：

根据动作价值函数选择相应的动作；