CN116938323B - 一种基于强化学习的卫星转发器资源分配方法 - Google Patents
一种基于强化学习的卫星转发器资源分配方法 Download PDFInfo
- Publication number
- CN116938323B CN116938323B CN202311197758.4A CN202311197758A CN116938323B CN 116938323 B CN116938323 B CN 116938323B CN 202311197758 A CN202311197758 A CN 202311197758A CN 116938323 B CN116938323 B CN 116938323B
- Authority
- CN
- China
- Prior art keywords
- state
- action
- task
- resource
- satellite transponder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013468 resource allocation Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002787 reinforcement Effects 0.000 title claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 97
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000005070 sampling Methods 0.000 claims description 20
- 230000007704 transition Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 5
- 238000012804 iterative process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18519—Operations control, administration or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Astronomy & Astrophysics (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明涉及一种基于强化学习的卫星转发器资源分配方法,属于卫星转发器资源分配领域。其包括步骤:对基于强化学习的卫星转发器资源分配模型进行训练;根据卫星转发器资源使用情况和实际任务需求,获取当前的卫星转发器资源池状态和待分配任务列表状态;使用训练后的强化学习模型对卫星转发器资源池状态和任务列表状态进行推理,得到动作价值函数;根据动作价值函数进行动作选择;判断剩余资源是否满足任务分配需求,若是,则根据动作选择执行相应的卫星转发器资源分配,并继续,直至卫星转发器资源分配流程结束。本发明显著减少了运行的时间开销,具有更强的特征提取能力,可提高整体的卫星转发器资源利用率。
Description
技术领域
本发明涉及卫星转发器资源分配领域,特别是指一种基于强化学习的卫星转发器资源分配方法,可用于卫星转发器的带宽分配和占用时间分配。
背景技术
对于基于透明和处理转发器的卫星通信系统,如何在有限卫星资源前提下快速高效的分配有限的转发带宽,是提高通信卫星使用效能的关键。在典型的卫星通信系统中,一般采用带宽租赁方式,由多张卫星通信网共享转发器带宽,通过对卫星任务和转发器资源进行快速合理的分配,能够在多约束的条件下提高卫星转发器资源(频率和占用时间)使用率。
目前,多约束条件下卫星转发器资源分配问题已经被证明是NP问题,传统的运筹学算法、启发式算法已经被应用在了卫星资源调度领域和其他资源调度领域中。但由于实际的资源调度中,节点众多且相互依赖,这造成了运筹学模型和启发式算法中需要求解的变量和约束激增。所以过高的计算时间复杂度使得其无法应用在时效性要求高的问题,特别是卫星资源调度问题中。而随着卫星通信领域的技术发展和强化学习的进步,越来越多的经验数据被保存,强化学习由于自身特性恰好可以利用这些数据,从中发现规律、学习策略。
发明内容
为解决上述问题,本发明提出了一种基于强化学习的卫星转发器资源分配方法,可以提高卫星转发器资源分配方法的资源整体占用率和运行效率。
为了实现上述目的,本发明采取的技术方案如下:
一种基于强化学习的卫星转发器资源分配方法,包括以下步骤:
步骤1,构建卫星转发器资源分配强化学习模型,并初始化模型参数和强化学习环境;
步骤2,对环境的状态进行采样,得到当前时刻下的资源池状态和任务列表状态;
步骤3,根据资源池状态和任务列表状态,通过模型推理计算动作价值函数;
步骤4,根据动作价值函数和贪心策略进行动作选择,动作包括任务选择和资源搜索优先级选择;
步骤5,执行选择的动作,并根据对环境的采样得到下一时刻的资源池状态和任务列表状态,计算奖励,得到状态转移的四元组;
步骤6,将四元组保存至经验池,并从经验池中采样一个批次的四元组,计算TD误差;
步骤7,计算模型训练过程的总损失函数,并通过反向传播方法更新模型参数;
步骤8,重复步骤2至步骤7,直至总损失函数收敛,得到训练完成的卫星转发器资源分配强化学习模型,保存模型的网络结构和参数;
步骤9,使用训练完成的卫星转发器资源分配强化学习模型对卫星转发器资源池状态和任务列表状态进行推理,得到动作价值函数:
步骤10,根据步骤9得到的动作价值函数进行动作选择,实现资源分配。
进一步地,卫星转发器资源分配强化学习模型包括资源池状态分支网络、任务状态分支网络和动作价值估计网络;其中,资源池状态分支网络为卷积神经网络,用于对卫星转发器资源池状态进行特征提取,以得到资源池状态特征向量;任务状态分支网络为全连接网络,用于对卫星的任务状态进行特征提取,以得到任务状态特征向量;资源池状态特征向量和任务状态特征向量拼接后得到整体状态特征向量,输入动作价值估计网络;动作价值估计网络为全连接网络,用于计算当前时刻状态下的动作价值函数。
进一步地,步骤1中,初始化卫星转发器资源分配强化学习模型的参数,记为,同时初始化目标网络的模型参数/>;初始化卫星转发器资源分配的强化学习环境,包括资源池状态和任务列表状态;
步骤2中,根据环境对当前状态进行采样,得到当前时刻t下的全局状态,其中,/>为资源池状态,/>为任务列表状态;
任务列表状态的具体形式如下:
其中,表示第m个任务在资源池中的分配状态;/>和/>分别表示任务占用的卫星时间和频率资源;/>和/>是对/>和/>的状态重构,让其符合模型输入的张量大小,/>是被资源池时间和频率资源被划分组数,/>和/>分别表示卫星资源池中可分配频率资源范围和时间资源范围;
资源池状态为一个状态矩阵,用于表示资源池中每个资源块的占用情况,具体形式如下:
其中,为状态矩阵中的一个元素,用于表示资源池中每个资源块的占用情况;
步骤3中,使用步骤2得到的任务列表状态作为任务状态分支网络的输入,通过模型推理,得到任务状态的特征向量/>;使用步骤2得到的资源池状态/>作为资源池状态分支网络的输入,通过模型推理,得到资源池状态的特征向量/>;然后,将/>与/>进行特征拼接得到整体状态的特征向量/>,并作为动作价值估计网络的输入,通过模型推理计算动作价值函数/>;
步骤4中,根据动作价值函数和贪心策略进行当前时刻t下的动作选择/>,具体形式如下:
其中,为贪心策略对/>采样的概率,/>表示可用动作空间,在卫星资源分配问题中被定位为卫星控制系统的决策空间,包括资源搜索优先级动作空间/>和任务选择动作空间/>;每一个动作/>都是根据当前时刻t的状态/>从可用动作空间中选择的;的具体形式为:
其中,为任务选择动作,表示任务选择空间中的第i个动作,,/>为任务列表的总长度;/>为资源搜索优先级动作,包括频率搜索优先和时间搜索优先;
步骤5中,执行当前时刻t下选择的动作,随后对环境再次进行采样,得到下一时刻的资源池状态和任务状态/>,计算当前时刻的奖励值/>,得到状态转移的四元组/>;其中,/>代表当前时刻t下从全局状态/>中所选动作/>的评价,以资源占用率作为算法的优化目标,在执行当前时刻t下选择的动作/>后,卫星转发器资源占用率越高,则奖励值越高,且资源占用率越接近上限,奖励值越大;奖励值计算方式为:
其中,非负乘数用于避免无限值;
步骤6中,将四元组保存至回放经验池,并从经验池中采样一个批次的四元组;在训练阶段,采用从经验池中采样批次得到四元组的方法来消除卫星任务分配系统中与环境交互产生的样本数据的相关性;并且,回放经验池的回放记忆保证了一个样本可以多次参与训练,从而提高学习效率;在每个训练步骤中生成的状态转移的四元组都保存在经验池中;随后,使用从经验池中采样一个批次的四元组计算TD误差/>:
其中,是折扣因子奖励,/>为目标网络在t+1时刻下的动作价值函数估计,目标网络的参数/>定期更新,通过计算/>和/>的加权平均值来更新目标网络的参数,更新间隔为T;
步骤7中,计算模型训练过程的总损失函数,计算方式如下:
随后,通过反向传播方法更新模型参数。
进一步地,步骤10的具体方式为:
根据动作价值函数选择相应的动作;
判断剩余资源是否满足任务分配需求;若否,则流程结束;若是,则根据所选动作执行相应的卫星转发器资源分配;
判断是否有未分配任务,若否,则流程结束;若是,则重复执行步骤9和步骤10。
本发明的有益效果在于:
1、本发明使用卫星转发器资源分配模型进行卫星转发器的资源分配,卫星转发器资源分配模型为利用基于强化学习的卫星转发器资源分配模型训练方法训练得到的模型。
2、本发明的卫星转发器资源分配模型对输入的资源池状态数据和任务列表状态数据输出动作选择,动作选择包括了任务选择和资源优先级选择。由于在进行资源分配时不需要迭代过程,因此显著减少了运行的时间开销,并且由于强化学习模型具有经验学习的能力,因此有更强的特征提取能力,并提高整体的卫星转发器资源利用率。
附图说明
图1为本发明实施例中基于强化学习的卫星转发器资源分配模型的训练流程示意图。
图2为本发明实施例中卫星转发器资源分配模型的原理示意图。
图3为本发明实施例中模型训练后的卫星转发器资源分配方法的流程示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行详细描述。
一种基于强化学习的卫星转发器资源分配方法,包括以下步骤:
步骤1,构建卫星转发器资源分配强化学习模型,并初始化模型参数和强化学习环境;
步骤2,对环境的状态进行采样,得到当前时刻下的资源池状态和任务列表状态;
步骤3,根据资源池状态和任务列表状态,通过模型推理计算动作价值函数;
步骤4,根据动作价值函数和贪心策略进行动作选择,动作包括任务选择和资源搜索优先级选择;
步骤5,执行选择的动作,并根据对环境的采样得到下一时刻的资源池状态和任务列表状态,计算奖励,得到状态转移的四元组;
步骤6,将四元组保存至经验池,并从经验池中采样一个批次的四元组,计算TD误差;
步骤7,计算模型训练过程的总损失函数,并通过反向传播方法更新模型参数;
步骤8,重复步骤2至步骤7,直至总损失函数收敛,得到训练完成的卫星转发器资源分配强化学习模型,保存模型的网络结构和参数;
步骤9,使用训练完成的卫星转发器资源分配强化学习模型对卫星转发器资源池状态和任务列表状态进行推理,得到动作价值函数:
步骤10,根据步骤9得到的动作价值函数进行动作选择,实现资源分配。
具体来说,该方法可分为训练和使用两个阶段。
图1和图2所示为基于强化学习的卫星转发器资源分配模型训练过程,具体训练过程如下:
步骤1:构建卫星转发器资源分配强化学习模型的网络结构,所述的网络结构由资源池状态分支网络、任务状态分支网络和动作价值估计网络三部分构成。所述的资源池状态分支网络由卷积神经网络构成,用于对卫星转发器资源池状态进行特征提取得到资源池状态特征向量;所述的任务状态分支网络由全连接神经网络构成,用于对卫星的任务状态进行特征提取得到任务状态特征向量;将得到的资源池状态特征向量和任务状态特征向量拼接后得到整体状态特征向量,所述的动作价值估计网络由全连接神经网络构成,用于计算当前时刻状态下的动作价值函数。初始化卫星转发器资源分配强化学习的模型参数,记为,同时初始化目标网络(Target Network)的模型参数/>。初始化卫星转发器资源分配的强化学习环境;
步骤2:根据环境对当前状态进行采样,得到当前时刻下的全局状态,包括资源池状态/>和任务列表状态/>。其中,任务列表状态/>具体形式为下式:
其中,表示第m个任务在资源池中的分配状态;/>和/>分别表示任务占用的卫星时间和频率资源;/>和/>是对/>和/>的状态重构,让其符合模型输入的张量大小,/>是被时间和频率资源被划分组数。 />和/>分别表示卫星资源池中可分配频率资源范围和时间资源范围。
资源池状态为一个状态矩阵,用于表示资源池中每个资源块的占用情况,具体形式为下式:
其中,为状态矩阵中的一个元素,用于表示资源池中每个资源块的占用情况。
步骤3:使用步骤2得到的任务列表状态作为任务状态分支网络的输入,通过模型推理,得到任务状态的特征向量/>;使用步骤2得到的资源池状态/>作为资源池状态分支网络的输入,通过模型推理,得到资源池状态的特征向量/>。进一步的,将/>与/>进行特征拼接得到整体状态的特征向量/>,并作为动作价值估计网络的输入,通过模型推理计算动作价值函数/>。
步骤4:根据动作价值函数和贪心策略进行当前时刻t下的动作选择,具体形式为下式:
其中,为贪心策略对/>采样的概率,/>表示可用动作空间,在卫星资源分配问题中被定位为卫星控制系统的决策空间,包括资源搜索优先级动作空间/>和任务选择动作空间/>。每一个动作/>都是根据当前时刻t的当前状态/>从可用动作空间中选择的。的具体形式为:
其中,为任务选择动作,表示任务选择空间中的第i个动作,,/>为任务列表的总长度;/>为资源搜索优先级动作,包括频率搜索优先和时间搜索优先。
步骤5:执行当前时刻t下选择的动作,随后对环境再次进行采样,得到下一时刻的资源池状态和任务状态/>,计算当前时刻的奖励值/>,得到状态转移的四元组/>。
其中,代表当前时刻t下从全局状态/>中所选动作/>的评价,以资源占用率作为算法的优化目标,在执行当前时刻t下选择的动作/>后,卫星转发器资源占用率越高,则奖励值越高,且资源占用率越接近上限,奖励值越大,具体的奖励值设计如下所示:
其中,非负乘数用于避免无限值。
步骤6:将四元组保存至回放经验池,并从经验池中采样一个批次的四元组。在训练阶段,采用所述的回放记忆的方法来消除卫星任务分配系统中与环境交互产生的样本数据的相关性。而且回放记忆保证了一个样本可以多次参与训练,从而提高学习效率。在每个训练步骤中生成的状态转移的四元组都保存在经验池中,四元组表示为。
随后,使用所述的从经验池中采样一个批次的四元组计算TD误差,具体形式为下式:
其中,是折扣因子奖励,设置为0.95,/>为目标网络在t+1时刻下的动作价值函数估计,目标网络的参数/>定期更新,通过计算/>和/>的加权平均值来更新目标网络的参数,更新间隔为T。
步骤7:计算模型训练过程的总损失函数,计算方式如下:
随后,通过反向传播算法(SGD)更新模型参数;
步骤8:重复上述步骤2至步骤7,直至所述总损失函数收敛,得到训练完成的卫星转发器资源分配模型模型,保存模型网络结构和参数。
本实施例中的卫星转发器资源分配模型对输入的资源池状态数据和任务列表状态数据输出动作选择,动作选择包括了任务选择和资源优先级选择。由于在进行资源分配时不需要迭代过程,因此显著减少了运行的时间开销,并且由于强化学习模型具有经验学习的能力,因此有更强的特征提取能力,并提高整体的卫星转发器资源利用率
图3所示为基于该卫星转发器资源分配模型的卫星转发器资源分配方法,具体包括以下步骤:
步骤一:加载卫星转发器资源分配模型训练方法中保存的强化学习模型网络结构和参数,得到用于卫星转发器资源分配的强化学习模型;
步骤二:获取当前时刻t下的卫星转发器资源池状态和待分配任务列表状态/>,以及全局状态/>,卫星转发器资源池状态/>和待分配任务列表状态/>的具体形式同训练方法的步骤2所述。
步骤三:使用步骤二获取的资源池状态和任务列表状态/>作为模型输入,通过模型推理计算动作价值函数/>。
步骤四:根据动作价值函数进行动作选择,动作包括任务选择和资源搜索优先级选择,具体选择方式如下:
其中,为根据强化学习模型推理计算得到的任务选择动作,/>为根据强化学习模型推理计算得到的为资源搜索优先级动作,/>的动作选择空间/>同训练方法的步骤4所述。
步骤五:判断剩余资源是否满足任务分配需求;若判断否,则卫星转发器资源分配流程结束,不再执行步骤六;若判断是,则根据所述的动作选择执行相应的卫星转发器资源分配,并继续执行步骤六;
步骤六:判断是否有未分配任务。若判断否,则卫星转发器资源分配流程结束;若判断是,则重复上述步骤二至步骤六,直至卫星转发器资源分配流程结束。
本发明使用卫星转发器资源分配模型进行卫星转发器的资源分配,卫星转发器资源分配模型为利用基于强化学习的卫星转发器资源分配模型训练方法训练得到的模型。卫星转发器资源分配模型对输入的资源池状态数据和任务列表状态数据输出动作选择,动作选择包括了任务选择和资源优先级选择。由于在进行资源分配时不需要迭代过程,因此显著减少了运行的时间开销,并且由于强化学习模型具有经验学习的能力,因此有更强的特征提取能力,并提高整体的卫星转发器资源利用率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种基于强化学习的卫星转发器资源分配方法,其特征在于,包括以下步骤:
步骤1,构建卫星转发器资源分配强化学习模型,并初始化模型参数和强化学习环境;
其中,卫星转发器资源分配强化学习模型包括资源池状态分支网络、任务状态分支网络和动作价值估计网络;其中,资源池状态分支网络为卷积神经网络,用于对卫星转发器资源池状态进行特征提取,以得到资源池状态特征向量;任务状态分支网络为全连接网络,用于对卫星的任务状态进行特征提取,以得到任务状态特征向量;资源池状态特征向量和任务状态特征向量拼接后得到整体状态特征向量,输入动作价值估计网络;动作价值估计网络为全连接网络,用于计算当前时刻状态下的动作价值函数;
初始化卫星转发器资源分配强化学习模型的参数,记为,同时初始化目标网络的模型参数/>;初始化卫星转发器资源分配的强化学习环境,包括资源池状态和任务列表状态;
步骤2,对环境的状态进行采样,得到当前时刻下的资源池状态和任务列表状态;具体方式为:
根据环境对当前状态进行采样,得到当前时刻t下的全局状态,其中,为资源池状态,/>为任务列表状态;
任务列表状态的具体形式如下:
其中,表示第m个任务在资源池中的分配状态;/>和/>分别表示任务占用的卫星时间和频率资源;/>和/>是对/>和/>的状态重构,让其符合模型输入的张量大小,/>是被资源池时间和频率资源被划分组数,/>和/>分别表示卫星资源池中可分配频率资源范围和时间资源范围;
资源池状态为一个状态矩阵,用于表示资源池中每个资源块的占用情况,具体形式如下:
其中,为状态矩阵中的一个元素,用于表示资源池中每个资源块的占用情况;
步骤3,根据资源池状态和任务列表状态,通过模型推理计算动作价值函数;具体方式为:
使用步骤2得到的任务列表状态作为任务状态分支网络的输入,通过模型推理,得到任务状态的特征向量/>;使用步骤2得到的资源池状态/>作为资源池状态分支网络的输入,通过模型推理,得到资源池状态的特征向量/>;然后,将/>与/>进行特征拼接得到整体状态的特征向量/>,并作为动作价值估计网络的输入,通过模型推理计算动作价值函数;
步骤4,根据动作价值函数和贪心策略进行动作选择,动作包括任务选择和资源搜索优先级选择;具体方式为:
根据动作价值函数和贪心策略进行当前时刻t下的动作选择/>,具体形式如下:
其中,为贪心策略对/>采样的概率,/>表示可用动作空间,在卫星资源分配问题中被定位为卫星控制系统的决策空间,包括资源搜索优先级动作空间/>和任务选择动作空间/>;每一个动作/>都是根据当前时刻t的状态/>从可用动作空间中选择的;/>的具体形式为:
其中,为任务选择动作,表示任务选择空间中的第i个动作,/>,/>为任务列表的总长度;/>为资源搜索优先级动作,包括频率搜索优先和时间搜索优先;
步骤5,执行选择的动作,并根据对环境的采样得到下一时刻的资源池状态和任务列表状态,计算奖励,得到状态转移的四元组;具体方式为:
执行当前时刻t下选择的动作,随后对环境再次进行采样,得到下一时刻的资源池状态和任务状态/>,计算当前时刻的奖励值/>,得到状态转移的四元组;其中,/>代表当前时刻t下从全局状态/>中所选动作/>的评价,以资源占用率作为算法的优化目标,在执行当前时刻t下选择的动作/>后,卫星转发器资源占用率越高,则奖励值越高,且资源占用率越接近上限,奖励值越大;奖励值计算方式为:
其中,非负乘数用于避免无限值;
步骤6,将四元组保存至经验池,并从经验池中采样一个批次的四元组,计算TD误差;具体方式为:
将四元组保存至回放经验池,并从经验池中采样一个批次的四元组;在训练阶段,采用从经验池中采样批次得到四元组的方法来消除卫星任务分配系统中与环境交互产生的样本数据的相关性;并且,回放经验池的回放记忆保证了一个样本可以多次参与训练,从而提高学习效率;在每个训练步骤中生成的状态转移的四元组都保存在经验池中;随后,使用从经验池中采样一个批次的四元组计算TD误差/>:
其中,是折扣因子奖励,/>为目标网络在t+1时刻下的动作价值函数估计,目标网络的参数/>定期更新,通过计算/>和/>的加权平均值来更新目标网络的参数,更新间隔为T;
步骤7,计算模型训练过程的总损失函数,并通过反向传播方法更新模型参数;具体方式为:
计算模型训练过程的总损失函数,计算方式如下:
随后,通过反向传播方法更新模型参数;
步骤8,重复步骤2至步骤7,直至总损失函数收敛,得到训练完成的卫星转发器资源分配强化学习模型,保存模型的网络结构和参数;
步骤9,使用训练完成的卫星转发器资源分配强化学习模型对卫星转发器资源池状态和任务列表状态进行推理,得到动作价值函数:
步骤10,根据步骤9得到的动作价值函数进行动作选择,实现资源分配。
2.根据权利要求1所述的一种基于强化学习的卫星转发器资源分配方法,其特征在于,步骤10的具体方式为:
根据动作价值函数选择相应的动作;
判断剩余资源是否满足任务分配需求;若否,则流程结束;若是,则根据所选动作执行相应的卫星转发器资源分配;
判断是否有未分配任务,若否,则流程结束;若是,则重复执行步骤9和步骤10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311197758.4A CN116938323B (zh) | 2023-09-18 | 2023-09-18 | 一种基于强化学习的卫星转发器资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311197758.4A CN116938323B (zh) | 2023-09-18 | 2023-09-18 | 一种基于强化学习的卫星转发器资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116938323A CN116938323A (zh) | 2023-10-24 |
CN116938323B true CN116938323B (zh) | 2023-11-21 |
Family
ID=88388232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311197758.4A Active CN116938323B (zh) | 2023-09-18 | 2023-09-18 | 一种基于强化学习的卫星转发器资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116938323B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117811645B (zh) * | 2024-03-01 | 2024-05-31 | 南京控维通信科技有限公司 | 一种关于卫星频率资源的分配及使用率计算方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113824489A (zh) * | 2021-11-22 | 2021-12-21 | 凯睿星通信息科技(南京)股份有限公司 | 基于深度学习的卫星网络资源动态分配方法、系统及装置 |
CN114499629A (zh) * | 2021-12-24 | 2022-05-13 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
WO2022160705A1 (zh) * | 2021-01-26 | 2022-08-04 | 中国电力科学研究院有限公司 | 综合能源系统调度模型构建方法、装置、介质及电子设备 |
CN116248164A (zh) * | 2022-12-16 | 2023-06-09 | 重庆邮电大学 | 基于深度强化学习的完全分布式路由方法和系统 |
CN116582860A (zh) * | 2023-05-08 | 2023-08-11 | 南京航空航天大学 | 一种基于信息年龄约束的链路资源分配方法 |
CN116634498A (zh) * | 2023-05-05 | 2023-08-22 | 电子科技大学 | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 |
-
2023
- 2023-09-18 CN CN202311197758.4A patent/CN116938323B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022160705A1 (zh) * | 2021-01-26 | 2022-08-04 | 中国电力科学研究院有限公司 | 综合能源系统调度模型构建方法、装置、介质及电子设备 |
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113824489A (zh) * | 2021-11-22 | 2021-12-21 | 凯睿星通信息科技(南京)股份有限公司 | 基于深度学习的卫星网络资源动态分配方法、系统及装置 |
CN114499629A (zh) * | 2021-12-24 | 2022-05-13 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
CN116248164A (zh) * | 2022-12-16 | 2023-06-09 | 重庆邮电大学 | 基于深度强化学习的完全分布式路由方法和系统 |
CN116634498A (zh) * | 2023-05-05 | 2023-08-22 | 电子科技大学 | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 |
CN116582860A (zh) * | 2023-05-08 | 2023-08-11 | 南京航空航天大学 | 一种基于信息年龄约束的链路资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116938323A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108880663B (zh) | 基于改进遗传算法的天地一体化网络资源分配方法 | |
CN113098714B (zh) | 基于强化学习的低时延网络切片方法 | |
CN116938323B (zh) | 一种基于强化学习的卫星转发器资源分配方法 | |
CN113867843B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN113064671A (zh) | 基于多智能体的边缘云可扩展任务卸载方法 | |
CN114661466B (zh) | 用于边缘计算环境中面向智能工作流应用的任务卸载方法 | |
Yang et al. | Deep reinforcement learning based wireless network optimization: A comparative study | |
CN112231117B (zh) | 基于动态向量混合遗传算法的云机器人服务选择方法及系统 | |
CN113741999B (zh) | 一种基于移动边缘计算的面向依赖型任务卸载方法及装置 | |
CN117707795B (zh) | 基于图的模型划分的边端协同推理方法及系统 | |
CN118396294A (zh) | 一种基于量子多智能体强化学习的云制造调度方法 | |
CN116996511A (zh) | 端边云动态卸载框架中智能车辆的卸载任务分配方法 | |
CN116828541A (zh) | 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统 | |
Zhou et al. | DRL-Based Workload Allocation for Distributed Coded Machine Learning | |
CN116431326A (zh) | 一种基于边缘计算和深度强化学习的多用户依赖性任务卸载方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
CN113269324B (zh) | 一种基于遗传算法的低轨卫星时间窗规划方法及系统 | |
CN114217881A (zh) | 任务卸载方法及相关装置 | |
CN115983392A (zh) | 量子程序映射关系的确定方法、装置、介质及电子装置 | |
CN117541025B (zh) | 一种用于密集输电线路巡检的边缘计算方法 | |
CN116341685B (zh) | 基于联合注意力的分布式计算卸载模型训练方法和系统 | |
CN116827423A (zh) | 一种基于多分支dqn模型的卫星载波组与终端分配方法 | |
CN118170524B (zh) | 基于强化学习的任务调度方法、装置、设备、介质及产品 | |
CN117891532B (zh) | 一种基于注意力多指标排序的终端能效优化卸载方法 | |
KR20240100242A (ko) | 연속 학습 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |