CN113342537A

CN113342537A - 卫星虚拟资源分配方法、装置、存储介质及设备

Info

Publication number: CN113342537A
Application number: CN202110755403.7A
Authority: CN
Inventors: 陈超; 向欣; 刘允; 宋瑞良; 卢宁宁; 张海鹏
Original assignee: CETC 54 Research Institute; Communication University of China
Current assignee: CETC 54 Research Institute; Communication University of China
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-09-03
Anticipated expiration: 2041-07-05
Also published as: CN113342537B

Abstract

本发明涉及一种卫星虚拟资源分配方法、装置、存储介质及设备，属于虚拟资源分配技术领域，该方法通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；根据目标DDPG算法模型，获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程，并关联DDPG算法，从而实现对虚拟资源的动态分配，以降低处理数据时产生的时延、提升资源利用率。

Description

卫星虚拟资源分配方法、装置、存储介质及设备

技术领域

本发明属于虚拟资源分配技术领域，具体涉及一种卫星虚拟资源分配方法、装置、存储介质及设备。

背景技术

卫星移动通信系统利用卫星作为中继，能实现区域乃至其全球范围的移动通信，并凭借其覆盖范围广、通信距离远、传输容量大、通信质量高、组网灵活以及费用与通信距离无关等优点，弥补了地面移动通信系统基础设施建设成本高、时间久、受地形限制架设困难等缺陷。

在现有技术中，随着科技的提升，网络功能逐渐增加，需要实现网络功能解耦、虚拟化及独立部署、升级与扩展，这就使得卫星在处理数据时产生时延、资源利用率可能降低。因此，如何对虚拟资源进行合理分配，降低卫星处理数据时延、提升资源利用率，保证卫星功能的正常执行，成为现有技术中亟待解决的技术问题。

发明内容

本发明提供了一种卫星虚拟资源分配方法、装置、存储介质及设备，以解决现有技术中数据处理时延大、资源利用率低的技术问题。

本发明提供的技术方案如下：

一方面，一种卫星虚拟资源分配方法，包括：

确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；

根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；

将所述马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；

根据所述目标DDPG算法模型，获取地面站对所述卫星虚拟资源的分配策略。

可选的，所述马尔可夫决策过程包括：状态空间、动作空间和奖励函数；所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程，包括：

根据所述卫星的最少虚拟资源量构建所述状态空间；及，

根据所述卫星的实际虚拟资源量构建所述动作空间；及，

根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建所述奖励函数。

可选的，所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建所述奖励函数，包括：

根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建所述奖励函数；所述每个节点的虚拟资源利用率为所述节点的最少虚拟资源量和实际获得虚拟资源量的比值。

可选的，在所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建所述奖励函数之前，还包括：根据卫星需要处理的数据比特数与实际数据处理速率，构建所述处理时延参数。

可选的，所述动作空间，包括：离散动作和连续动作；所述根据所述卫星的实际虚拟资源量构建所述动作空间，包括：

根据地面站与卫星的配对情况，构建所述离散动作；

根据每个地面站分配给每个卫星的虚拟资源量情况，构建所述连续动作。

可选的，所述根据所述卫星的实际虚拟资源量构建所述动作空间，包括：

对所述离散动作空间进行降维；以及，对所述连续动作空间进行降维；

根据降维后的离散动作空间和降维后的连续动作空间，确定目标动作空间。

可选的，所述马尔可夫决策过程包括：状态空间、动作空间和奖励函数；所述DDPG算法，包括：评论家模块；

所述将所述马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型，包括：将所述奖励函数、状态空间、动作空间均关联所述评论家模块，获取目标DDPG算法模型。

又一方面，一种卫星虚拟资源分配装置，包括：确定模块、构建模块、获取模块和分配模块；

所述确定模块，用于确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；

所述构建模块，用于根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；

所述获取模块，用于将所述马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；

所述分配模块，用于根据所述目标DDPG算法模型，获取地面站对所述卫星虚拟资源的分配策略。

又一方面，一种卫星虚拟资源分配存储介质，所述存储介质存储有计算机程序，当计算机程序被处理器执行时，实现上述任一所述的卫星虚拟资源分配方法中各个步骤。

又一方面，一种卫星虚拟资源分配设备，包括：处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行上述任一项所述的卫星虚拟资源分配方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

本发明的有益效果为：

本发明实施例提供的卫星虚拟资源分配方法、装置、存储介质及设备，通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；根据目标DDPG算法模型，获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程，并关联DDPG算法，从而实现对虚拟资源的动态分配，以降低处理数据时产生的时延、提升资源利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种卫星虚拟资源分配方法的流程示意图；

图2为本发明实施例提供的一种DDPG算法模型基本框架图；

图3为本发明验证实施例提供的一种应用场景示意图；

图4为本发明验证实施例提供的一种到达率的马尔可夫状态转移图；

图5为本发明验证实施例提供的一种DDPG算法累积奖励收敛曲线示意图；

图6为本发明验证实施例提供的两个卫星的回合累积资源利用率值随回合的变化情况示意图；

图7为本发明验证实施例提供的两个卫星的回合累积处理时延值随回合的变化情况示意图；

图8为本发明验证实施例提供的第一个卫星的两种虚拟资源量变化曲线示意图；

图9为本发明验证实施例提供的第二个卫星的两种虚拟资源量变化曲线示意图；

图10为本发明实施例提供的一种卫星虚拟资源分配装置的结构示意图；

图11为本发明实施例提供的一种卫星虚拟资源分配设备的结构示意图。

附图标记：

101-确定模块；102-构建模块；103-获取模块；104-分配模块；111-处理器；112-存储器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

为了至少解决本发明中提出的技术问题，本发明实施例提供一种卫星虚拟资源分配方法。

图1为本发明实施例提供的一种卫星虚拟资源分配方法的流程示意图，如图1所示，本发明实施例提供的方法，可以包括以下步骤：

S11、确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量。

在一个具体的实现过程中，可以定义任意需要进行卫星虚拟资源分配的地面站和卫星为目标，在该地面站和卫星中应用本申请实施例提供的卫星虚拟资源分配方法对卫星虚拟资源进行分配。

例如，在本实施例中，可以通过对卫星个数和地面站个数的定义，来确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量。如，可以定义卫星总个数为M个，地面站总个数为N个，第n个地面站拥有虚拟资源总量为c_n，二进制变量

表示由第n个地面站为第m个卫星提供虚拟资源，否则

表示第n个地面站为第m个卫星提供的虚拟资源量，则第m个卫星实际获得虚拟资源量可表示为

在本实施例中，可以通过卫星采集的数据包数量信息计算出该卫星所需的最少虚拟资源量即虚拟资源需求量。如，可以将卫星系统运行的总时间T划分为若干个时隙，每个时隙是1单位时间，采集每1单位时间初每个卫星所需要处理的数据包数量，并将第t个单位时间第m个卫星需要处理的数据包数量记作Q_m(t)；则第m个卫星在第t个单位时间内需要处理的数据比特数为Q_m(t)×PS，其中PS表示每个数据包的大小，其单位为bit，即在第t个单位时间，第m个卫星要求的最低数据处理速率为

其单位为：bit/单位时间；所以第t个单位时间，为处理对应的数据，第m个卫星至少需要的虚拟资源量为

其中η为数据处理速率系数，表征了卫星的数据处理速率与所获得虚拟资源量的对应关系。

在一个具体的卫星系统中，设定各变量符合以下约束条件：

C1:

C2:

C3:

C4:

其中，C1约束每一个卫星只能从一个地面站获取虚拟资源；C2保证每一个地面站至多只为一个卫星提供虚拟资源；C3使得任意卫星所得虚拟资源量要大于其虚拟资源需求量；C4将所有卫星中从第n个地面站获得的总虚拟资源量限制在该节点的虚拟资源容量以内。

S12、根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程。

在一些实施例中，可选的，马尔可夫决策过程包括：状态空间、动作空间和奖励函数；根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程，包括：根据卫星的最少虚拟资源量构建状态空间；及，根据卫星的实际虚拟资源量构建动作空间；及，根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建奖励函数。

其中，马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型。马尔可夫决策过程是强化学习/深度强化学习问题在数学上的理想化形式，本实施例中，通过构建马尔可夫决策过程将具体应用问题与DDPG算法关联起来，其中，DDPG算法为Deep Deterministic Policy Gradient，即深度确定性策略梯度。

例如，构建状态空间S：将第t个单位时间从卫星需求分析获取的每个卫星虚拟资源需求量的信息定义为该单位时间的状态，即

在一些实施例中，可选的，动作空间，包括：离散动作和连续动作；根据卫星的实际虚拟资源量构建动作空间，包括：

根据地面站与卫星的配对情况，构建离散动作；

根据每个地面站分配给每个卫星的虚拟资源量情况，构建连续动作。

例如，构建动作空间A：在第t个单位时间采取的动作a_t可以设置包含两部分，一部分是由二进制变量组合而成的离散动作，表示地面站与卫星的配对情况，即

另一部分是由分配虚拟资源量组成的连续动作，表示每个地面站分配给每个卫星的虚拟资源量情况，即

因此动作空间的动作为

a_t属于动作空间。

在一些实施例中，可选的，根据卫星的实际虚拟资源量构建动作空间，包括：

对离散动作空间进行降维；以及，对连续动作空间进行降维；

例如，本申请中，在动作定义下，某一时隙内动作的维度为2·M·N，动作空间会随着卫星数量和地面站数量增加而快速扩大，造成“维度灾难”，为了解决该问题，在本申请中，对动作空间进行了降维处理和重定义，以更好地适应DDPG算法的连续动作问题。

对于离散动作空间Α′₁，将不满足约束条件C1和C2的无效动作组去除后，将有效动作组按一定的顺序排列得到新的离散动作空间Α″₁，设其包含的离散动作一共有Num组，定义新的动作空间Α₁＝{1,2,...,Num}，

只有一维，那么在第t个单位时间时，卫星和地面站的配对情况可由采取的动作

通过

这种方式，在集合Α″₁中索引获知。

对于连续动作空间Α′₂，将其重定义为

仅表示每个卫星被分配得到的虚拟资源量，而这些虚拟资源分别是由哪些地面站提供取决于

的选取，

的上限值则取决于为第m个卫星提供虚拟资源的地面站的虚拟资源容量。

联合动作为

a_t属于新的动作空间，某一时刻动作的维度降为M+1。DDPG算法生成的

是1～Num区间的一个连续值，但是可以在算法中采取取整的方式将其转化为可作为索引的离散整数值。

在一些实施例中，可选的，根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建奖励函数，包括：

根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建奖励函数；每个节点的虚拟资源利用率为节点的最少虚拟资源量和实际获得虚拟资源量的比值。

在一些实施例中，可选的，还包括：根据卫星需要处理的数据比特数与实际数据处理速率，构建处理时延参数。

例如，构建奖励函数r：DDPG算法通过奖励的大小来判断某一状态下采取某一动作的优劣程度，本申请中，将奖励函数的设置与DDPG算法的优化目标相关联。本发明的奖励函数设置如式(1)所示，反映了对卫星的性能要求，奖励越大，表明采取的动作a_t越能使卫星的资源利用率接近理想资源利用率以提升系统效用，也越能使卫星处理数据花费的时间在单位时间以内以降低处理时延。

其中，权重系数w_m衡量不同卫星的优先级，权重系数φ₁和φ₂分别表示RUD和delay两个指标的重要程度。DDPG的目标是最大化累积奖励，即

其中γ为折扣率，表征未来奖励对于当前时刻的重要程度。

RUDm定义为第m个节点的虚拟资源利用率和理想虚拟资源利用率RU_ideal的偏差值，该值越小越好。第m个卫星的虚拟资源利用率按式(2)计算，则第m个卫星的RUD可由式(3)得到。

RUD_m＝|RU_m-RU_ideal| 公式(3)；

将处理时延delay_m定义为切片m中数据实际处理时间超出单位时间的量，数据实际处理时间由卫星在当前单位时间内的数据比特量和实际数据处理速率决定，实际数据处理速率

可由式(4)计算得到。delay_m的表达式如式(5)，该值等于0时，表明第m个卫星实际所得虚拟资源量满足了虚拟资源量的最低要求，从而获得足够的数据处理速率能在既定单位时间内处理完拥有数据。

S13、将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型。

在一些实施例中，可选的，马尔可夫决策过程包括：状态空间、动作空间和奖励函数；DDPG算法，包括：评论家模块；

将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型，包括：将奖励函数、状态空间、动作空间均关联评论家模块，获取目标DDPG算法模型。

图2为本发明实施例提供的一种DDPG算法模型基本框架图，参阅图2，本申请提供的DDPG算法模型，可以由环境、经验回放池、演员模块和评论家模块四部分组成。其中，可以包括4个神经网络：

(1)Actor EvalNet：负责根据当前状态st选择最优当前动作a_t，用于和环境交互得到奖励r_t和下一状态s_t+1，同时负责网络参数θ^μ的迭代更新。

(2)Actor TargetNet：负责根据经验回放池中的下一状态s_t+1选择最优下一动作a_t+1，网络参数θ^μ′通过公式(6)缓慢更新，使得参数变化小，训练稳定，易于收敛。

θ^μ′←τθ^μ+(1-τ)θ^μ′ 公式(6)；

其中更新系数τ通常取数值较小的值，如0.01等。

(3)Critic EvalNet：负责计算输出当前Q值Q(s_t,a_t|θ^Q)以及网络参数θ^Q的迭代更新。

(4)Critic TargetNet：负责计算输出目标Q值Q′(s_t+1,μ′(s_t+1|θ^μ′)θ^Q′)，并按公式(7)计算出y_t，用于参与θ^Q的更新，公式(7)中的r_t来自于经验回放池。本实施例中，本网络参数θ^Q′可以通过公式(8)进行更新：

y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′) 公式(7)；

θ^Q′←τθ^Q+(1-τ)θ^Q′ 公式(8)。

DDPG算法在收集到一定的经验数据后，开始对采样样本学习并进行参数训练更新，由于DDPG中演员模块和评论家模块两部分中神经网络的结构和功能不同，相应的训练方式也有所不同。评论家模块通过最小化基于TD-error的损失函数对Critic EvalNet的网络参数训练更新，即：

DDPG的演员模块依据确定性策略梯度上升的方法使Actor EvalNet的网络参数朝着使Q值增大的方向进行更新，即：

在本实施例中，可以设定DDPG算法在Actor EvalNet输出动作的基础上增加一定的随机噪声，那么最终与环境交互的动作a_t＝μ(s_t)+Noise，其中Noise可以选择UO噪声，也可以选择高斯噪声，且a_t要限制在其规定范围内。在本实施例中，设定Noise服从以0为期望、以会随神经网络训练次数增加而逐渐减小的var作为方差的高斯分布，以保证算法在前期具备较高的探索能力，后期具备较高的利用能力，这样能使得算法收敛速度和收敛效果具有提升。令train_step表示学习次数即网络参数更新次数，P为方差的衰减率，var0为方差初始值，则var的设计如下：

var＝P^train_stepvar₀ 公式(11)。

基于此，构建目标DDPG算法，目标DDPG算法的具体流程可以如下：

1.初始化环境相关数据；

2.建立四个神经网络，初始化神经网络参数θ^Q,θ^μ,θ^Q′←θ^Q,θ^μ′←θ^μ；

3.初始化经验回放池，设定经验回放池容量和批训练大小；

4.初始化算法相关参数，如噪声方差var＝var0、方差衰减率P等；

5.step＝0；

6.For episode＝1,2,...,MAX_EPISODES do；

7.初始化起始状态s1；

8.For t＝1,2,...,T do；

9.step＝step+1；

10.根据Actor EvaNet输出的动作策略和噪声大小选择动作a_t；

11.执行动作，并观测环境得到即时奖励r_t和下一状态s_t+1；

12.将序列(s_t,a_t,r_t,s_t+1)存入经验回放池中，作为训练网络的数据集；

13.If step>网络开始学习的所需达到的迭代步数；

14.var＝var*P；

15.从经验回放池中随机抽样出数量为批训练大小的样本(s_t,a_t,r_t,s_t+1)；

16.根据公式(7)计算y_t，使用公式(9)、公式(10)分别对Critic EvalNet和Actor

EvalNet进行参数更新；

17.使用公式(8)、公式(6)分别更新Critic TargetNet和Actor TargetNet的参数；

18.End If；

19.End For；

20.End For。

S14、根据目标DDPG算法模型，获取地面站对卫星虚拟资源的分配策略。

在目标DDPG算法模型构建成功，进行运行后，可以输出得到卫星虚拟资源的分配策略。例如，输出得到联合动作a_t，得到对应的分配策略。如，a_t包括a_t ¹和a_t ²，根据马尔可夫决策过程可知，其中，a_t ¹表示地面站与卫星的配对情况，a_t ²表示每个地面站分配给每个卫星的虚拟资源量情况，因此，最终得到了地面站对卫星虚拟资源的最优分配策略，随着参数的变化，对虚拟资源量进行动态分布。

本发明实施例提供的卫星虚拟资源分配方法，通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；根据目标DDPG算法模型，获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程，并关联DDPG算法，从而实现对虚拟资源的动态分配，以降低处理数据时产生的时延、提升资源利用率。

为了对本发明实施例提供的卫星虚拟资源分配方法产生的效果进行验证，本申请实施例提供一具体验证实施例：

例如，在验证实施例中，设定具体应用场景中，有2个卫星，3个地面站，即M＝2，N＝3，如图3所示(图3为本发明验证实施例提供的一种应用场景示意图)，仿真环境参数参阅表1；DDPG算法参数参阅表2。对于卫星中数据包到达数，将其到达规律建模为离散马尔可夫调制泊松过程(discreted-time Markov-Modulated Poisson Process,dMMPP)。dMMPP的基础是泊松过程，每个单位时间卫星需处理的数据包数服从某个特定到达率的泊松分布，但是不同单位时间泊松流到达率不同，而是相互间的状态转移概率服从马尔可夫性，当前单位时间的Qm(t)只与当前状态有关，这使得dMMPP比传统泊松分布更适合描述业务流到达规律。所以可以建立如图4所示的以不同达到率为状态的马尔可夫状态转移图，从而生成M条马尔可夫链，得到第m个卫星节点所需处理的数据包在一段时间内不同单位时间的泊松到达率λ_m(t)，则Q_m(t)～P(λ_t)。

表1仿真环境参数

表2 DDPG算法参数

参阅表1、表2，分别设置仿真环境参数和DDPG算法参数，从而进行仿真。在仿真过程中，观察DDPG算法的回合累积奖励随回合的变化情况(如图5所示，图5为本发明验证实施例提供的一种DDPG算法累积奖励收敛曲线示意图)，由图5可以看出，在仿真过程中，本申请提供的DDPG算法在90回合左右开始收敛，其收敛稳定。相对于普通120-150回合收敛效果来说，本申请提供的DDPG算法收敛更快，使得数据时延变小。

图6为本发明验证实施例提供的两个卫星的回合累积资源利用率值随回合的变化情况示意图；图7为本发明验证实施例提供的两个卫星的回合累积处理时延值随回合的变化情况示意图。

参阅图6，可以看出，在本申请提供的算法开始收敛时，两个卫星的虚拟资源利用率也几乎稳定在了理想资源利用率0.85附近；从图7看出，在本申请提供的算法开始收敛时，两个卫星几乎没有处理时延，即两个卫星都能很好地在单位时间内处理完所有数据。所以DDPG算法能实现地面站为卫星分配合理的虚拟资源，使卫星能达到性能要求。

图8为本发明验证实施例提供的第一个卫星的两种虚拟资源量变化曲线示意图；图9为本发明验证实施例提供的第二个卫星的两种虚拟资源量变化曲线示意图。

参阅图8和图9，分别展示了第1个卫星和第2个卫星分配所得虚拟资源和各自的虚拟资源需求量在一段时间内的变化情况。从两图中可以看出每个卫星实际获得虚拟资源与虚拟资源需求量的变化趋势一致，且实际获得资源总是大于虚拟资源需求量的，表明了DDPG算法能实现虚拟资源的动态分配，且分配的虚拟资源能保障卫星的基本需求。

从以上仿真结果可以得出，DDPG算法能根据当前卫星的状态，得出最优的虚拟资源分配策略，地面站根据该策略为其对应的卫星分配虚拟资源。

基于一个总的发明构思，本发明实施例还提供一种卫星虚拟资源分配装置。

图10为本发明实施例提供的一种卫星虚拟资源分配装置的结构示意图，参阅图10，本发明实施例提供的装置，可以包括以下结构：确定模块101、构建模块102、获取模块103和分配模块104。

其中，确定模块101，用于确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；

构建模块102，用于根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；

获取模块103，用于将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；

分配模块104，用于根据目标DDPG算法模型，获取地面站对卫星虚拟资源的分配策略。

可选的，构建模块102，用于根据卫星的最少虚拟资源量构建状态空间；及，根据卫星的实际虚拟资源量构建动作空间；及，根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建奖励函数。

可选的，构建模块102，用于根据卫星的优先级、每个节点的虚拟资源利用率和理想虚拟资源利用率的偏差值、处理时延参数构建奖励函数；每个节点的虚拟资源利用率为节点的最少虚拟资源量和实际获得虚拟资源量的比值。

可选的，构建模块102，用于根据地面站与卫星的配对情况，构建离散动作；根据每个地面站分配给每个卫星的虚拟资源量情况，构建连续动作。

可选的，构建模块102，用于对离散动作空间进行降维；以及，对连续动作空间进行降维；根据降维后的离散动作空间和降维后的连续动作空间，确定目标动作空间。

可选的，获取模块103，用于将奖励函数、状态空间、动作空间均关联评论家模块，获取目标DDPG算法模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供的卫星虚拟资源分配装置，通过确定卫星需要的最少虚拟资源量和卫星的实际获得虚拟资源量；根据卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程；将马尔可夫决策过程关联DDPG算法，获取目标DDPG算法模型；根据目标DDPG算法模型，获取地面站对卫星虚拟资源的分配策略。本发明通过构建马尔可夫决策过程，并关联DDPG算法，从而实现对虚拟资源的动态分配，以降低处理数据时产生的时延、提升资源利用率。

基于一个总的发明构思，本发明实施例还提供一种卫星虚拟资源分配存储介质。

本发明实施例提供的卫星虚拟资源分配存储介质，存储介质存储有计算机程序，当计算机程序被处理器执行时，实现上述任一的卫星虚拟资源分配方法中各个步骤。

基于一个总的发明构思，本发明实施例还提供一种卫星虚拟资源分配存储设备。

图11为本发明实施例提供的一种卫星虚拟资源分配设备的结构示意图，参阅图11，本发明实施例提供的卫星虚拟资源分配设备，包括：处理器111，以及与处理器111相连接的存储器112；

存储器112用于存储计算机程序，计算机程序至少用于执行上述任一项的卫星虚拟资源分配方法；

处理器111用于调用并执行存储器中的计算机程序。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种卫星虚拟资源分配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述马尔可夫决策过程包括：状态空间、动作空间和奖励函数；所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建马尔可夫决策过程，包括：

根据所述卫星的最少虚拟资源量构建所述状态空间；及，

根据所述卫星的实际虚拟资源量构建所述动作空间；及，

3.根据权利要求2所述的方法，其特征在于，所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建所述奖励函数，包括：

4.根据权利要求3所述的方法，其特征在于，在所述根据所述卫星的最少虚拟资源量和实际获得虚拟资源量，构建所述奖励函数之前，还包括：根据卫星需要处理的数据比特数与实际数据处理速率，构建所述处理时延参数。

5.根据权利要求2所述的方法，其特征在于，所述动作空间，包括：离散动作和连续动作；所述根据所述卫星的实际虚拟资源量构建所述动作空间，包括：

根据地面站与卫星的配对情况，构建所述离散动作；

6.根据权利要求5所述的方法，其特征在于，所述根据所述卫星的实际虚拟资源量构建所述动作空间，包括：

7.根据权利要求1所述的方法，其特征在于，所述马尔可夫决策过程包括：状态空间、动作空间和奖励函数；所述DDPG算法，包括：评论家模块；

8.一种卫星虚拟资源分配装置，其特征在于，包括：确定模块、构建模块、获取模块和分配模块；

9.一种卫星虚拟资源分配存储介质，其特征在于，所述存储介质存储有计算机程序，当计算机程序被处理器执行时，实现权利要求1-7任一所述的卫星虚拟资源分配方法中各个步骤。

10.一种卫星虚拟资源分配设备，其特征在于，包括：处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1～7任一项所述的卫星虚拟资源分配方法；