CN113342537A - 卫星虚拟资源分配方法、装置、存储介质及设备 - Google Patents
卫星虚拟资源分配方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN113342537A CN113342537A CN202110755403.7A CN202110755403A CN113342537A CN 113342537 A CN113342537 A CN 113342537A CN 202110755403 A CN202110755403 A CN 202110755403A CN 113342537 A CN113342537 A CN 113342537A
- Authority
- CN
- China
- Prior art keywords
- satellite
- virtual resource
- constructing
- ddpg algorithm
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 12
- 239000011248 coating agent Substances 0.000 claims description 4
- 238000000576 coating method Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 19
- 238000004088 simulation Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5011—Pool
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明涉及一种卫星虚拟资源分配方法、装置、存储介质及设备,属于虚拟资源分配技术领域,该方法通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;根据目标DDPG算法模型,获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程,并关联DDPG算法,从而实现对虚拟资源的动态分配,以降低处理数据时产生的时延、提升资源利用率。
Description
技术领域
本发明属于虚拟资源分配技术领域,具体涉及一种卫星虚拟资源分配方法、装置、存储介质及设备。
背景技术
卫星移动通信系统利用卫星作为中继,能实现区域乃至其全球范围的移动通信,并凭借其覆盖范围广、通信距离远、传输容量大、通信质量高、组网灵活以及费用与通信距离无关等优点,弥补了地面移动通信系统基础设施建设成本高、时间久、受地形限制架设困难等缺陷。
在现有技术中,随着科技的提升,网络功能逐渐增加,需要实现网络功能解耦、虚拟化及独立部署、升级与扩展,这就使得卫星在处理数据时产生时延、资源利用率可能降低。因此,如何对虚拟资源进行合理分配,降低卫星处理数据时延、提升资源利用率,保证卫星功能的正常执行,成为现有技术中亟待解决的技术问题。
发明内容
本发明提供了一种卫星虚拟资源分配方法、装置、存储介质及设备,以解决现有技术中数据处理时延大、资源利用率低的技术问题。
本发明提供的技术方案如下:
一方面,一种卫星虚拟资源分配方法,包括:
确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;
根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;
将所述马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;
根据所述目标DDPG算法模型,获取地面站对所述卫星虚拟资源的分配策略。
可选的,所述马尔可夫决策过程包括:状态空间、动作空间和奖励函数;所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程,包括:
根据所述卫星的最少虚拟资源量构建所述状态空间;及,
根据所述卫星的实际虚拟资源量构建所述动作空间;及,
根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建所述奖励函数。
可选的,所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建所述奖励函数,包括:
根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建所述奖励函数;所述每个节点的虚拟资源利用率为所述节点的最少虚拟资源量和实际获得虚拟资源量的比值。
可选的,在所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建所述奖励函数之前,还包括:根据卫星需要处理的数据比特数与实际数据处理速率,构建所述处理时延参数。
可选的,所述动作空间,包括:离散动作和连续动作;所述根据所述卫星的实际虚拟资源量构建所述动作空间,包括:
根据地面站与卫星的配对情况,构建所述离散动作;
根据每个地面站分配给每个卫星的虚拟资源量情况,构建所述连续动作。
可选的,所述根据所述卫星的实际虚拟资源量构建所述动作空间,包括:
对所述离散动作空间进行降维;以及,对所述连续动作空间进行降维;
根据降维后的离散动作空间和降维后的连续动作空间,确定目标动作空间。
可选的,所述马尔可夫决策过程包括:状态空间、动作空间和奖励函数;所述DDPG算法,包括:评论家模块;
所述将所述马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型,包括:将所述奖励函数、状态空间、动作空间均关联所述评论家模块,获取目标DDPG算法模型。
又一方面,一种卫星虚拟资源分配装置,包括:确定模块、构建模块、获取模块和分配模块;
所述确定模块,用于确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;
所述构建模块,用于根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;
所述获取模块,用于将所述马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;
所述分配模块,用于根据所述目标DDPG算法模型,获取地面站对所述卫星虚拟资源的分配策略。
又一方面,一种卫星虚拟资源分配存储介质,所述存储介质存储有计算机程序,当计算机程序被处理器执行时,实现上述任一所述的卫星虚拟资源分配方法中各个步骤。
又一方面,一种卫星虚拟资源分配设备,包括:处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行上述任一项所述的卫星虚拟资源分配方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
本发明的有益效果为:
本发明实施例提供的卫星虚拟资源分配方法、装置、存储介质及设备,通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;根据目标DDPG算法模型,获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程,并关联DDPG算法,从而实现对虚拟资源的动态分配,以降低处理数据时产生的时延、提升资源利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种卫星虚拟资源分配方法的流程示意图;
图2为本发明实施例提供的一种DDPG算法模型基本框架图;
图3为本发明验证实施例提供的一种应用场景示意图;
图4为本发明验证实施例提供的一种到达率的马尔可夫状态转移图;
图5为本发明验证实施例提供的一种DDPG算法累积奖励收敛曲线示意图;
图6为本发明验证实施例提供的两个卫星的回合累积资源利用率值随回合的变化情况示意图;
图7为本发明验证实施例提供的两个卫星的回合累积处理时延值随回合的变化情况示意图;
图8为本发明验证实施例提供的第一个卫星的两种虚拟资源量变化曲线示意图;
图9为本发明验证实施例提供的第二个卫星的两种虚拟资源量变化曲线示意图;
图10为本发明实施例提供的一种卫星虚拟资源分配装置的结构示意图;
图11为本发明实施例提供的一种卫星虚拟资源分配设备的结构示意图。
附图标记:
101-确定模块;102-构建模块;103-获取模块;104-分配模块;111-处理器;112-存储器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
为了至少解决本发明中提出的技术问题,本发明实施例提供一种卫星虚拟资源分配方法。
图1为本发明实施例提供的一种卫星虚拟资源分配方法的流程示意图,如图1所示,本发明实施例提供的方法,可以包括以下步骤:
S11、确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量。
在一个具体的实现过程中,可以定义任意需要进行卫星虚拟资源分配的地面站和卫星为目标,在该地面站和卫星中应用本申请实施例提供的卫星虚拟资源分配方法对卫星虚拟资源进行分配。
例如,在本实施例中,可以通过对卫星个数和地面站个数的定义,来确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量。如,可以定义卫星总个数为M个,地面站总个数为N个,第n个地面站拥有虚拟资源总量为cn,二进制变量表示由第n个地面站为第m个卫星提供虚拟资源,否则 表示第n个地面站为第m个卫星提供的虚拟资源量,则第m个卫星实际获得虚拟资源量可表示为
在本实施例中,可以通过卫星采集的数据包数量信息计算出该卫星所需的最少虚拟资源量即虚拟资源需求量。如,可以将卫星系统运行的总时间T划分为若干个时隙,每个时隙是1单位时间,采集每1单位时间初每个卫星所需要处理的数据包数量,并将第t个单位时间第m个卫星需要处理的数据包数量记作Qm(t);则第m个卫星在第t个单位时间内需要处理的数据比特数为Qm(t)×PS,其中PS表示每个数据包的大小,其单位为bit,即在第t个单位时间,第m个卫星要求的最低数据处理速率为其单位为:bit/单位时间;所以第t个单位时间,为处理对应的数据,第m个卫星至少需要的虚拟资源量为其中η为数据处理速率系数,表征了卫星的数据处理速率与所获得虚拟资源量的对应关系。
在一个具体的卫星系统中,设定各变量符合以下约束条件:
其中,C1约束每一个卫星只能从一个地面站获取虚拟资源;C2保证每一个地面站至多只为一个卫星提供虚拟资源;C3使得任意卫星所得虚拟资源量要大于其虚拟资源需求量;C4将所有卫星中从第n个地面站获得的总虚拟资源量限制在该节点的虚拟资源容量以内。
S12、根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程。
在一些实施例中,可选的,马尔可夫决策过程包括:状态空间、动作空间和奖励函数;根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程,包括:根据卫星的最少虚拟资源量构建状态空间;及,根据卫星的实际虚拟资源量构建动作空间;及,根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建奖励函数。
其中,马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型。马尔可夫决策过程是强化学习/深度强化学习问题在数学上的理想化形式,本实施例中,通过构建马尔可夫决策过程将具体应用问题与DDPG算法关联起来,其中,DDPG算法为Deep Deterministic Policy Gradient,即深度确定性策略梯度。
在一些实施例中,可选的,动作空间,包括:离散动作和连续动作;根据卫星的实际虚拟资源量构建动作空间,包括:
根据地面站与卫星的配对情况,构建离散动作;
根据每个地面站分配给每个卫星的虚拟资源量情况,构建连续动作。
例如,构建动作空间A:在第t个单位时间采取的动作at可以设置包含两部分,一部分是由二进制变量组合而成的离散动作,表示地面站与卫星的配对情况,即另一部分是由分配虚拟资源量组成的连续动作,表示每个地面站分配给每个卫星的虚拟资源量情况,即因此动作空间的动作为at属于动作空间。
在一些实施例中,可选的,根据卫星的实际虚拟资源量构建动作空间,包括:
对离散动作空间进行降维;以及,对连续动作空间进行降维;
根据降维后的离散动作空间和降维后的连续动作空间,确定目标动作空间。
例如,本申请中,在动作定义下,某一时隙内动作的维度为2·M·N,动作空间会随着卫星数量和地面站数量增加而快速扩大,造成“维度灾难”,为了解决该问题,在本申请中,对动作空间进行了降维处理和重定义,以更好地适应DDPG算法的连续动作问题。
对于离散动作空间Α′1,将不满足约束条件C1和C2的无效动作组去除后,将有效动作组按一定的顺序排列得到新的离散动作空间Α″1,设其包含的离散动作一共有Num组,定义新的动作空间Α1={1,2,...,Num},只有一维,那么在第t个单位时间时,卫星和地面站的配对情况可由采取的动作通过这种方式,在集合Α″1中索引获知。
在一些实施例中,可选的,根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建奖励函数,包括:
根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建奖励函数;每个节点的虚拟资源利用率为节点的最少虚拟资源量和实际获得虚拟资源量的比值。
在一些实施例中,可选的,还包括:根据卫星需要处理的数据比特数与实际数据处理速率,构建处理时延参数。
例如,构建奖励函数r:DDPG算法通过奖励的大小来判断某一状态下采取某一动作的优劣程度,本申请中,将奖励函数的设置与DDPG算法的优化目标相关联。本发明的奖励函数设置如式(1)所示,反映了对卫星的性能要求,奖励越大,表明采取的动作at越能使卫星的资源利用率接近理想资源利用率以提升系统效用,也越能使卫星处理数据花费的时间在单位时间以内以降低处理时延。
RUDm定义为第m个节点的虚拟资源利用率和理想虚拟资源利用率RUideal的偏差值,该值越小越好。第m个卫星的虚拟资源利用率按式(2)计算,则第m个卫星的RUD可由式(3)得到。
RUDm=|RUm-RUideal| 公式(3);
将处理时延delaym定义为切片m中数据实际处理时间超出单位时间的量,数据实际处理时间由卫星在当前单位时间内的数据比特量和实际数据处理速率决定,实际数据处理速率可由式(4)计算得到。delaym的表达式如式(5),该值等于0时,表明第m个卫星实际所得虚拟资源量满足了虚拟资源量的最低要求,从而获得足够的数据处理速率能在既定单位时间内处理完拥有数据。
S13、将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型。
在一些实施例中,可选的,马尔可夫决策过程包括:状态空间、动作空间和奖励函数;DDPG算法,包括:评论家模块;
将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型,包括:将奖励函数、状态空间、动作空间均关联评论家模块,获取目标DDPG算法模型。
图2为本发明实施例提供的一种DDPG算法模型基本框架图,参阅图2,本申请提供的DDPG算法模型,可以由环境、经验回放池、演员模块和评论家模块四部分组成。其中,可以包括4个神经网络:
(1)Actor EvalNet:负责根据当前状态st选择最优当前动作at,用于和环境交互得到奖励rt和下一状态st+1,同时负责网络参数θμ的迭代更新。
(2)Actor TargetNet:负责根据经验回放池中的下一状态st+1选择最优下一动作at+1,网络参数θμ′通过公式(6)缓慢更新,使得参数变化小,训练稳定,易于收敛。
θμ′←τθμ+(1-τ)θμ′ 公式(6);
其中更新系数τ通常取数值较小的值,如0.01等。
(3)Critic EvalNet:负责计算输出当前Q值Q(st,at|θQ)以及网络参数θQ的迭代更新。
(4)Critic TargetNet:负责计算输出目标Q值Q′(st+1,μ′(st+1|θμ′)θQ′),并按公式(7)计算出yt,用于参与θQ的更新,公式(7)中的rt来自于经验回放池。本实施例中,本网络参数θQ′可以通过公式(8)进行更新:
yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′) 公式(7);
θQ′←τθQ+(1-τ)θQ′ 公式(8)。
DDPG算法在收集到一定的经验数据后,开始对采样样本学习并进行参数训练更新,由于DDPG中演员模块和评论家模块两部分中神经网络的结构和功能不同,相应的训练方式也有所不同。评论家模块通过最小化基于TD-error的损失函数对Critic EvalNet的网络参数训练更新,即:
DDPG的演员模块依据确定性策略梯度上升的方法使Actor EvalNet的网络参数朝着使Q值增大的方向进行更新,即:
在本实施例中,可以设定DDPG算法在Actor EvalNet输出动作的基础上增加一定的随机噪声,那么最终与环境交互的动作at=μ(st)+Noise,其中Noise可以选择UO噪声,也可以选择高斯噪声,且at要限制在其规定范围内。在本实施例中,设定Noise服从以0为期望、以会随神经网络训练次数增加而逐渐减小的var作为方差的高斯分布,以保证算法在前期具备较高的探索能力,后期具备较高的利用能力,这样能使得算法收敛速度和收敛效果具有提升。令train_step表示学习次数即网络参数更新次数,P为方差的衰减率,var0为方差初始值,则var的设计如下:
var=Ptrain_stepvar0 公式(11)。
基于此,构建目标DDPG算法,目标DDPG算法的具体流程可以如下:
1.初始化环境相关数据;
2.建立四个神经网络,初始化神经网络参数θQ,θμ,θQ′←θQ,θμ′←θμ;
3.初始化经验回放池,设定经验回放池容量和批训练大小;
4.初始化算法相关参数,如噪声方差var=var0、方差衰减率P等;
5.step=0;
6.For episode=1,2,...,MAX_EPISODES do;
7.初始化起始状态s1;
8.For t=1,2,...,T do;
9.step=step+1;
10.根据Actor EvaNet输出的动作策略和噪声大小选择动作at;
11.执行动作,并观测环境得到即时奖励rt和下一状态st+1;
12.将序列(st,at,rt,st+1)存入经验回放池中,作为训练网络的数据集;
13.If step>网络开始学习的所需达到的迭代步数;
14.var=var*P;
15.从经验回放池中随机抽样出数量为批训练大小的样本(st,at,rt,st+1);
16.根据公式(7)计算yt,使用公式(9)、公式(10)分别对Critic EvalNet和Actor
EvalNet进行参数更新;
17.使用公式(8)、公式(6)分别更新Critic TargetNet和Actor TargetNet的参数;
18.End If;
19.End For;
20.End For。
S14、根据目标DDPG算法模型,获取地面站对卫星虚拟资源的分配策略。
在目标DDPG算法模型构建成功,进行运行后,可以输出得到卫星虚拟资源的分配策略。例如,输出得到联合动作at,得到对应的分配策略。如,at包括at 1和at 2,根据马尔可夫决策过程可知,其中,at 1表示地面站与卫星的配对情况,at 2表示每个地面站分配给每个卫星的虚拟资源量情况,因此,最终得到了地面站对卫星虚拟资源的最优分配策略,随着参数的变化,对虚拟资源量进行动态分布。
本发明实施例提供的卫星虚拟资源分配方法,通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;根据目标DDPG算法模型,获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程,并关联DDPG算法,从而实现对虚拟资源的动态分配,以降低处理数据时产生的时延、提升资源利用率。
为了对本发明实施例提供的卫星虚拟资源分配方法产生的效果进行验证,本申请实施例提供一具体验证实施例:
例如,在验证实施例中,设定具体应用场景中,有2个卫星,3个地面站,即M=2,N=3,如图3所示(图3为本发明验证实施例提供的一种应用场景示意图),仿真环境参数参阅表1;DDPG算法参数参阅表2。对于卫星中数据包到达数,将其到达规律建模为离散马尔可夫调制泊松过程(discreted-time Markov-Modulated Poisson Process,dMMPP)。dMMPP的基础是泊松过程,每个单位时间卫星需处理的数据包数服从某个特定到达率的泊松分布,但是不同单位时间泊松流到达率不同,而是相互间的状态转移概率服从马尔可夫性,当前单位时间的Qm(t)只与当前状态有关,这使得dMMPP比传统泊松分布更适合描述业务流到达规律。所以可以建立如图4所示的以不同达到率为状态的马尔可夫状态转移图,从而生成M条马尔可夫链,得到第m个卫星节点所需处理的数据包在一段时间内不同单位时间的泊松到达率λm(t),则Qm(t)~P(λt)。
表1仿真环境参数
表2 DDPG算法参数
参阅表1、表2,分别设置仿真环境参数和DDPG算法参数,从而进行仿真。在仿真过程中,观察DDPG算法的回合累积奖励随回合的变化情况(如图5所示,图5为本发明验证实施例提供的一种DDPG算法累积奖励收敛曲线示意图),由图5可以看出,在仿真过程中,本申请提供的DDPG算法在90回合左右开始收敛,其收敛稳定。相对于普通120-150回合收敛效果来说,本申请提供的DDPG算法收敛更快,使得数据时延变小。
图6为本发明验证实施例提供的两个卫星的回合累积资源利用率值随回合的变化情况示意图;图7为本发明验证实施例提供的两个卫星的回合累积处理时延值随回合的变化情况示意图。
参阅图6,可以看出,在本申请提供的算法开始收敛时,两个卫星的虚拟资源利用率也几乎稳定在了理想资源利用率0.85附近;从图7看出,在本申请提供的算法开始收敛时,两个卫星几乎没有处理时延,即两个卫星都能很好地在单位时间内处理完所有数据。所以DDPG算法能实现地面站为卫星分配合理的虚拟资源,使卫星能达到性能要求。
图8为本发明验证实施例提供的第一个卫星的两种虚拟资源量变化曲线示意图;图9为本发明验证实施例提供的第二个卫星的两种虚拟资源量变化曲线示意图。
参阅图8和图9,分别展示了第1个卫星和第2个卫星分配所得虚拟资源和各自的虚拟资源需求量在一段时间内的变化情况。从两图中可以看出每个卫星实际获得虚拟资源与虚拟资源需求量的变化趋势一致,且实际获得资源总是大于虚拟资源需求量的,表明了DDPG算法能实现虚拟资源的动态分配,且分配的虚拟资源能保障卫星的基本需求。
从以上仿真结果可以得出,DDPG算法能根据当前卫星的状态,得出最优的虚拟资源分配策略,地面站根据该策略为其对应的卫星分配虚拟资源。
基于一个总的发明构思,本发明实施例还提供一种卫星虚拟资源分配装置。
图10为本发明实施例提供的一种卫星虚拟资源分配装置的结构示意图,参阅图10,本发明实施例提供的装置,可以包括以下结构:确定模块101、构建模块102、获取模块103和分配模块104。
其中,确定模块101,用于确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;
构建模块102,用于根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;
获取模块103,用于将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;
分配模块104,用于根据目标DDPG算法模型,获取地面站对卫星虚拟资源的分配策略。
可选的,构建模块102,用于根据卫星的最少虚拟资源量构建状态空间;及,根据卫星的实际虚拟资源量构建动作空间;及,根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建奖励函数。
可选的,构建模块102,用于根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建奖励函数;每个节点的虚拟资源利用率为节点的最少虚拟资源量和实际获得虚拟资源量的比值。
可选的,构建模块102,用于根据地面站与卫星的配对情况,构建离散动作;根据每个地面站分配给每个卫星的虚拟资源量情况,构建连续动作。
可选的,构建模块102,用于对离散动作空间进行降维;以及,对连续动作空间进行降维;根据降维后的离散动作空间和降维后的连续动作空间,确定目标动作空间。
可选的,获取模块103,用于将奖励函数、状态空间、动作空间均关联评论家模块,获取目标DDPG算法模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供的卫星虚拟资源分配装置,通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;根据卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;将马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;根据目标DDPG算法模型,获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程,并关联DDPG算法,从而实现对虚拟资源的动态分配,以降低处理数据时产生的时延、提升资源利用率。
基于一个总的发明构思,本发明实施例还提供一种卫星虚拟资源分配存储介质。
本发明实施例提供的卫星虚拟资源分配存储介质,存储介质存储有计算机程序,当计算机程序被处理器执行时,实现上述任一的卫星虚拟资源分配方法中各个步骤。
基于一个总的发明构思,本发明实施例还提供一种卫星虚拟资源分配存储设备。
图11为本发明实施例提供的一种卫星虚拟资源分配设备的结构示意图,参阅图11,本发明实施例提供的卫星虚拟资源分配设备,包括:处理器111,以及与处理器111相连接的存储器112;
存储器112用于存储计算机程序,计算机程序至少用于执行上述任一项的卫星虚拟资源分配方法;
处理器111用于调用并执行存储器中的计算机程序。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种卫星虚拟资源分配方法,其特征在于,包括:
确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;
根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;
将所述马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;
根据所述目标DDPG算法模型,获取地面站对所述卫星虚拟资源的分配策略。
2.根据权利要求1所述的方法,其特征在于,所述马尔可夫决策过程包括:状态空间、动作空间和奖励函数;所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程,包括:
根据所述卫星的最少虚拟资源量构建所述状态空间;及,
根据所述卫星的实际虚拟资源量构建所述动作空间;及,
根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建所述奖励函数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建所述奖励函数,包括:
根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建所述奖励函数;所述每个节点的虚拟资源利用率为所述节点的最少虚拟资源量和实际获得虚拟资源量的比值。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建所述奖励函数之前,还包括:根据卫星需要处理的数据比特数与实际数据处理速率,构建所述处理时延参数。
5.根据权利要求2所述的方法,其特征在于,所述动作空间,包括:离散动作和连续动作;所述根据所述卫星的实际虚拟资源量构建所述动作空间,包括:
根据地面站与卫星的配对情况,构建所述离散动作;
根据每个地面站分配给每个卫星的虚拟资源量情况,构建所述连续动作。
6.根据权利要求5所述的方法,其特征在于,所述根据所述卫星的实际虚拟资源量构建所述动作空间,包括:
对所述离散动作空间进行降维;以及,对所述连续动作空间进行降维;
根据降维后的离散动作空间和降维后的连续动作空间,确定目标动作空间。
7.根据权利要求1所述的方法,其特征在于,所述马尔可夫决策过程包括:状态空间、动作空间和奖励函数;所述DDPG算法,包括:评论家模块;
所述将所述马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型,包括:将所述奖励函数、状态空间、动作空间均关联所述评论家模块,获取目标DDPG算法模型。
8.一种卫星虚拟资源分配装置,其特征在于,包括:确定模块、构建模块、获取模块和分配模块;
所述确定模块,用于确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量;
所述构建模块,用于根据所述卫星的最少虚拟资源量和实际获得虚拟资源量,构建马尔可夫决策过程;
所述获取模块,用于将所述马尔可夫决策过程关联DDPG算法,获取目标DDPG算法模型;
所述分配模块,用于根据所述目标DDPG算法模型,获取地面站对所述卫星虚拟资源的分配策略。
9.一种卫星虚拟资源分配存储介质,其特征在于,所述存储介质存储有计算机程序,当计算机程序被处理器执行时,实现权利要求1-7任一所述的卫星虚拟资源分配方法中各个步骤。
10.一种卫星虚拟资源分配设备,其特征在于,包括:处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行权利要求1~7任一项所述的卫星虚拟资源分配方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755403.7A CN113342537B (zh) | 2021-07-05 | 2021-07-05 | 卫星虚拟资源分配方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755403.7A CN113342537B (zh) | 2021-07-05 | 2021-07-05 | 卫星虚拟资源分配方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342537A true CN113342537A (zh) | 2021-09-03 |
CN113342537B CN113342537B (zh) | 2023-11-14 |
Family
ID=77482475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755403.7A Active CN113342537B (zh) | 2021-07-05 | 2021-07-05 | 卫星虚拟资源分配方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342537B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115729714A (zh) * | 2023-01-06 | 2023-03-03 | 之江实验室 | 一种资源分配方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102710508A (zh) * | 2012-05-17 | 2012-10-03 | 北京邮电大学 | 虚拟网络资源分配方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN111211831A (zh) * | 2020-01-13 | 2020-05-29 | 东方红卫星移动通信有限公司 | 一种多波束低轨卫星智能动态信道资源分配方法 |
CN111475301A (zh) * | 2020-04-09 | 2020-07-31 | 清华大学 | 卫星资源分配方法、装置和电子设备 |
US20210067417A1 (en) * | 2019-08-28 | 2021-03-04 | Honeywell International Inc. | Methods, systems and appratuses for optimizing the bin selection of a network scheduling and configuration tool (nst) by bin allocation, demand prediction and machine learning |
CN112543049A (zh) * | 2020-11-16 | 2021-03-23 | 北京科技大学 | 一种集成地面卫星网络的能效优化方法及装置 |
-
2021
- 2021-07-05 CN CN202110755403.7A patent/CN113342537B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102710508A (zh) * | 2012-05-17 | 2012-10-03 | 北京邮电大学 | 虚拟网络资源分配方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
US20210067417A1 (en) * | 2019-08-28 | 2021-03-04 | Honeywell International Inc. | Methods, systems and appratuses for optimizing the bin selection of a network scheduling and configuration tool (nst) by bin allocation, demand prediction and machine learning |
CN111211831A (zh) * | 2020-01-13 | 2020-05-29 | 东方红卫星移动通信有限公司 | 一种多波束低轨卫星智能动态信道资源分配方法 |
CN111475301A (zh) * | 2020-04-09 | 2020-07-31 | 清华大学 | 卫星资源分配方法、装置和电子设备 |
CN112543049A (zh) * | 2020-11-16 | 2021-03-23 | 北京科技大学 | 一种集成地面卫星网络的能效优化方法及装置 |
Non-Patent Citations (2)
Title |
---|
李琦: "基于深度强化学习的LTE空口资源分配算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
贺小雨: "面向时延优化的网络切片智能资源管理算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115729714A (zh) * | 2023-01-06 | 2023-03-03 | 之江实验室 | 一种资源分配方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113342537B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111242282B (zh) | 基于端边云协同的深度学习模型训练加速方法 | |
CN108873936B (zh) | 一种基于势博弈的飞行器自主编队方法 | |
CN113098714B (zh) | 基于强化学习的低时延网络切片方法 | |
CN112486690B (zh) | 一种适用于工业物联网的边缘计算资源分配方法 | |
CN111416774B (zh) | 网络拥塞控制方法、装置、计算机设备及存储介质 | |
CN110662238A (zh) | 一种针对边缘网络下突发请求的强化学习调度方法及设备 | |
CN108684046B (zh) | 一种基于随机学习的接入网服务功能链部署方法 | |
CN113141317A (zh) | 流媒体服务器负载均衡方法、系统、计算机设备、终端 | |
CN113992524B (zh) | 网络切片优化处理方法及系统 | |
CN117009053A (zh) | 边缘计算系统的任务处理方法及相关设备 | |
CN111740925B (zh) | 一种基于深度强化学习的Coflow调度方法 | |
CN113762527A (zh) | 一种数据处理方法、系统、存储介质及电子设备 | |
CN113342537A (zh) | 卫星虚拟资源分配方法、装置、存储介质及设备 | |
CN113015219B (zh) | 基于策略梯度的网络资源选择方法、装置以及存储介质 | |
CN113867843A (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN112256653B (zh) | 一种数据采样方法和装置 | |
CN114125595A (zh) | Otn网络资源优化方法、装置、计算机设备和介质 | |
CN112596910A (zh) | 一种多用户mec系统中的云计算资源调度方法 | |
CN116489708A (zh) | 面向元宇宙的云边端协同的移动边缘计算任务卸载方法 | |
CN112637032B (zh) | 一种服务功能链的部署方法及装置 | |
CN115081619A (zh) | 一种面向异构集群加速分布式训练的方法及系统 | |
CN115129471A (zh) | 面向大规模gpu集群的分布式局部随机梯度下降方法 | |
CN114022731A (zh) | 基于drl的联邦学习节点选择方法 | |
CN116938323B (zh) | 一种基于强化学习的卫星转发器资源分配方法 | |
CN117560696A (zh) | 一种基于经验回放与深度q学习的车载网网络切片选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |