CN111491382A

CN111491382A - 卫星容量分配方法、装置和电子设备

Info

Publication number: CN111491382A
Application number: CN202010276666.5A
Authority: CN
Inventors: 姜春晓; 朱向明; 匡麟玲
Original assignee: Shanghai Qingshen Technology Development Co ltd; Tsinghua University
Current assignee: Shanghai Qingshen Technology Development Co ltd; Tsinghua University
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-04
Anticipated expiration: 2040-04-09
Also published as: CN111491382B

Abstract

本发明提供了一种卫星容量分配方法、装置和电子设备，涉及卫星资源分配技术领域，该方法首先获取卫星在设定时间段内的资源信息；其中，设定时间段内的不同时刻所对应的资源信息不同；然后将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略；最后通过卫星容量分配策略对卫星容量进行容量分配。该方法利用通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚，通过卫星容量分配模型自动学习避免惩罚的最优容量分配策略，从而优化卫星系统的长期效益。

Description

卫星容量分配方法、装置和电子设备

技术领域

本发明涉及卫星资源分配技术领域，尤其是涉及一种卫星容量分配方法、装置和电子设备。

背景技术

现有的卫星通讯过程中，随着卫星的周期运动，用户仅在卫星可视时可与卫星数据传输，因此卫星在用户间分配容量时需要考虑不同用户的可视时间。由于卫星在多用户间的容量分配问题为长期收益最优问题，现有技术中并不能单独对每个时间进行最优容量分配，需要考虑时序之间的耦合关系，而时序耦合的容量分配问题具有较高的复杂度，传统计算方法难以直接求解。

随着机器学习相关方法应用于卫星资源分配领域后，是的卫星容量分配更加合理，但现有的机器学习相关模型只考虑短期收益，缺少相关长期受益的考虑方式。

发明内容

有鉴于此，本发明的目的在于提供一种卫星容量分配方法、装置和电子设备，通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚，并使用强化学习模型能够自动学习避免惩罚的最优容量分配策略，从而优化系统的长期效益。

第一方面，本发明实施例提供了一种卫星容量分配方法，该方法包括：

获取卫星在设定时间段内的资源信息；其中，设定时间段内的不同时刻所对应的资源信息不同；

将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略；

通过卫星容量分配策略对卫星容量进行容量分配。

在一些实施方式中，上述方法还包括：

在结合卫星容量分配模型中的惩罚因子和每个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略之后，根据已完成分配的卫星容量更新当前的资源信息。

在一些实施方式中，上述卫星容量分配模型的构建过程，包括以下步骤：

初始化强化学习模型以及Q矩阵；Q矩阵的列表示卫星状态；Q矩阵的行表示卫星状态下的分配策略；Q矩阵中元素的数值表示卫星状态下产生的效益；

根据初始化的Q矩阵以及惩罚因子得到卫星容量的分配策略；

根据分配策略以及待训练的卫星资源信息对强化学习模型进行训练，将完成训练的强化学习模型作为卫星容量分配模型。

在一些实施方式中，上述强化学习模型的初始化参数，包括：学习周期、时间参数、系统状态参数以及学习参数；

学习周期的初始化结果为1；

时间参数的初始化结果为设定时间段的起始时刻；

系统状态参数的初始化结果为设定时间段的起始时刻时的系统状态；

学习参数的初始化结果包括决策参数、未传输容量惩罚因子、学习速率参数以及长期效益参数；

Q矩阵的初始化结果为零矩阵。

在一些实施方式中，上述根据初始化的Q矩阵以及惩罚因子得到卫星的分配策略的步骤，包括：

根据系统状态参数，确定Q矩阵在系统状态下的所有决策对应的行；

将决策参数与预设的决策阈值进行对比，获取卫星的分配策略；如果决策参数小于预设的决策阈值，从Q矩阵对应的行中随机选取一项作为卫星的分配策略；如果决策参数不小于预设的决策阈值，从Q矩阵对应的行中选取效益值最大的策略作为卫星的分配策略。

在一些实施方式中，上述资源信息，包括以下至少之一：可分配的容量、传输需求容量以及可视时间信息；

强化学习模型的学习过程，包括：

根据待训练的卫星的资源信息以及惩罚因子计算卫星的即时效益值，所用算式如下：

其中，C∈[0,C_max]代表当前待分配的容量；

表示系统的一个可能状态；t为当前系统时间，b_u为行为决策模块中所分配容量的用户；

表示用户b时间t时的传输需求容量；

为最大需求容量；r为即时效益值；τ_b(t),t∈[t₀,t₁]表示用户b时间t时剩余的可视时间；τ_b(t)＝{0,1,...,τ_max}，τ_max是最大剩余可视时间；τ_b(t)＝0表示卫星不可视无法进行数据传输；λ为惩罚因子；

根据卫星的效益值计算新的Q矩阵，所用算式如下：

其中，s为系统当前状态；s'为新分配单位容量后系统的下一个状态； a为行为决策模块中所采取的策略；a'为下一个状态最优决策；Q(s,a)为Q 矩阵中每一个元素的数值，代表状态s下采用决策a的效益；γ为长期效益参数；

将新的Q矩阵用于下一学习周期中的待训练的卫星的资源信息的学习过程，直至停止学习。

在一些实施方式中，上述根据待训练的卫星的资源信息以及惩罚因子计算卫星的即时效益值之后，还包括：

根据卫星的即时效益值更新卫星的资源信息，所用算式如下：

其中，

表示用户b时间t时的传输需求容量；

为最大需求容量；t为当前系统时间，b_u为行为决策模块中所分配容量的用户。

第二方面，本发明实施例提供了一种卫星容量分配装置，该装置包括：

资源信息获取模块，用于获取卫星在设定时间段内的资源信息；其中，设定时间段内的不同时刻所对应的资源信息不同；

分配策略获取模块，用于将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略；

容量分配执行模块，用于通过卫星容量分配策略对卫星容量进行容量分配。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，程序代码使处理器执行上述第一方面所述方法。

本发明实施例带来了以下有益效果：

本发明提供了一种卫星容量分配方法、装置和电子设备，该方法首先获取卫星在设定时间段内的资源信息；其中，设定时间段内的不同时刻所对应的资源信息不同；然后将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略；最后通过卫星容量分配策略对卫星容量进行容量分配。该方法利用通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚，通过卫星容量分配模型自动学习避免惩罚的最优容量分配策略，从而优化卫星系统的长期效益。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的卫星容量分配方法的流程图；

图2为本发明实施例提供的卫星容量分配模型构建的流程图；

图3为本发明实施例提供的卫星容量的分配策略获取的流程图；

图4为本发明实施例提供的采用卫星容量分配方法的卫星通信系统示意图；

图5为本发明实施例提供的采用不同容量分配方法的仿真结果汇总图；

图6为本发明实施例提供的卫星容量分配装置的结构示意图；

图7为本发明实施例提供的另一种卫星容量分配装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图；

图9为本发明实施例提供的卫星容量分配模型所用的Q矩阵的结构示意图。

图标：

610-资源信息获取模块；620-分配策略获取模块；630-容量分配执行模块；710-环境信息收集模块；720-初始化模块；730-行为决策模块；740- 效益计算模块；750-状态更新模块；760-Q矩阵更新模块；770-学习周期模块；780-容量分配模块；101-处理器；102-存储器；103-总线；104-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于网络建设成本以及地面网络覆盖的局限性，现有地面网络无法满足全球覆盖的通信需求。与地面网络不同，卫星网络具有广域覆盖的特性，能够以较低成本实现全球覆盖，弥补地面网络覆盖的不足。在未来通信网络中，卫星可用于为地面基站提供回程链路，从而扩展地面网络的覆盖能力。然而由于受到载荷限制，卫星的通信容量有限，卫星需要根据用户需求，在广域覆盖范围内的多个用户间分配通信容量。

卫星网络由同步轨道卫星、中轨卫星、低轨卫星组成，其中的中轨卫星和低轨卫星围绕地球周期运转，从而地面用户与卫星的可视关系也会动态变化。随着卫星的周期运动，每个用户仅在卫星可视时可与卫星进行通信，进行数据传输。当卫星不可视时，用户则无法与卫星进行通信。因此卫星在用户间分配容量时，需要考虑不同用户的可视时间，寻找最优的容量分配策略。考虑不同用户的可视时间，卫星在多用户间的容量分配问题为长期收益最优问题，不能单独对每个时间进行当前最优的容量分配，需要考虑时序之间的耦合关系，而时序耦合的容量分配问题具有较高的复杂度，传统计算方法难以直接求解。

随着机器学习的发展，采用机器学习对卫星容量分配展现出了良好的性能，能够实现动态自适应的学习并更新策略。其中Q-Learning是机器学习范畴内的一种强化学习方法，借助于Q-learning的学习能力，能够自适应的学习系统的长期收益，得到长期收益最优的资源分配策略。但现有的机器学习相关模型只考虑短期收益，缺少相关长期受益的考虑方式。因此现有的卫星容量分配技术领域中，还缺少从长期受益的角度考虑的分配方式，卫星容量分配的合理性还有待提高。

基于此，本发明实施例提供的一种卫星容量分配方法、装置和电子设备，通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚，并使用强化学习模型能够自动学习避免惩罚的最优容量分配策略，从而优化系统的长期效益。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种卫星容量分配方法进行详细介绍。

参见图1所示的一种卫星容量分配方法的流程图，其中，该方法具体步骤包括：

步骤S101，获取卫星在设定时间段内的资源信息；其中，设定时间段内的不同时刻所对应的资源信息不同。

由于卫星需要为地面多个用户提供数据传输服务，地面上的多个用户会共享卫星的传输容量。由于卫星周期运动，每个用户仅在可视时间内能与卫星通信，用户在卫星可视时将会产生数据传输需求，每个用户传输需求需要在卫星可视时间内完成传输，可视时间内未完成的传输需求将不再传输。

因此对于卫星容量分配，需要考虑设定的时间段内，在设定时间段的开始时刻和结束时刻分别表示用户对卫星的进行通信的开始、结束时间。此时，卫星需要在用户之间分配设定时间段内的每个通信时间，尽可能的在可视时间内完成用户的数据传输。

设定时间段内的不同时刻所对应不同的资源信息，资源信息中包含卫星与用户之间传输的相关数据，还包含与卫星分配有关的数据。

步骤S102，将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略。

预设的卫星容量分配模型中包含惩罚因子，惩罚因子的作用是对未在可视时间内传输所需求容量时进行卫星效益的惩罚。因此在卫星容量分配模型进行训练的过程中，通过惩罚因子对卫星的效益值进行计算，以获取卫星的最大效益值为目标。

在获取设定时间段后，对设定时间段内的各个时刻进行划分，然后分别获取各个时刻下对应的资源信息，并依次输入至预设的卫星容量分配模型中进行计算。划分的规则可按照由早到晚的顺序执行，也可根据实际情况选用其它顺序执行。

在获取当前时刻下的卫星容量分配策略后，可对当前的资源信息进行更新，更新后的资源信息用于下一时刻的卫星容量分配，使得资源信息与卫星容量分配进行交互，进一步提升分配策略的合理性。

在获取各个时刻下的卫星容量分配策略后，对所有的策略进行整合。整合的过程中可对设定时间内的各个时刻是否进行分配进行判定，防止出现未完全分配的情况。

步骤S103，通过卫星容量分配策略对卫星容量进行容量分配。

在步骤S102中获取的卫星容量分配策略，是通过惩罚因子对卫星的效益值进行计算，并获取卫星的最大效益值为目标。获取的卫星容量分配策略中包含对所有用户在对应的卫星可视时间内进行数据传输的时间、数据量以及其它参数。

对容量进行分配的过程中，如果最大效益值存在多个用户，可从中随机选取一名用户进行分配，待到下一个周期再对其它效益值用户进行容量分配。

通过上述实施例中的卫星容量分配方法，将设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合卫星容量分配模型中的惩罚因子和各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略。该方法利用通过惩罚因子对在可视时间内未完成传输需求容量时进行效益惩罚，通过卫星容量分配模型自动学习避免惩罚的最优容量分配策略，从而优化卫星系统的长期效益。

在一些实施方式中，上述卫星容量分配方法还包括：

在结合卫星容量分配模型中的惩罚因子和每个时刻的资源信息进行计算得到效益值最大时的卫星容量分配策略之后，根据已完成分配的卫星容量更新当前的资源信息。

一些场景下，卫星容量分配的过程是动态的，即在卫星容量分配后会消耗现有的卫星资源信息。因此需要获得卫星容量分配策略时，对当前的资源信息进行更新，更新后的资源信息用于后续的卫星容量分配，进一步的提升分配的合理性。

在一些实施方式中，上述卫星容量分配模型的构建过程，如图2所示，包括以下步骤：

步骤S201，初始化强化学习模型以及Q矩阵。

强化学习是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)，也可以使用其它模型得以实现。

Q矩阵作为模型输出的结果，用于最后的卫星容量分配策略的描述。其中，Q矩阵的列表示卫星状态；Q矩阵的行表示卫星状态下的分配策略； Q矩阵中元素的数值表示卫星状态下产生的效益。

上述强化学习模型的初始化参数，包括：学习周期、时间参数、系统状态参数以及学习参数；学习周期的初始化结果为1；时间参数的初始化结果为设定时间段的起始时刻；系统状态参数的初始化结果为设定时间段的起始时刻时的系统状态；学习参数的初始化结果包括决策参数、未传输容量惩罚因子、学习速率参数以及长期效益参数；Q矩阵的初始化结果为零矩阵。

步骤S202，根据初始化的Q矩阵以及惩罚因子得到卫星容量的分配策略。

分配策略获取过程中，惩罚因子为关键参数。惩罚因子以卫星的长期效益作为目的，通过对不在规定时间内实现数据传输的行为进行效益惩罚，直接影响卫星最终的分配策略。具体的，上述步骤如图3所示，包括：

步骤S21，根据系统状态参数，确定Q矩阵在系统状态下的所有决策对应的行。

由于Q矩阵已完成初始化，即列表示卫星状态；行表示卫星状态下的分配策略；元素值表示卫星状态下产生的效益。因此通过系统状态参数，可以直接获取定Q矩阵在系统状态下的所有决策对应的行。

步骤S22，将决策参数与预设的决策阈值进行对比，获取卫星的分配策略。

决策参数用于选择最优的决策，在获取分配策略的过程中，该决策参数需要与预设的决策阈值进行对比，通常情况下该预设的决策参数范围为0 至1。如果决策参数小于预设的决策阈值，从Q矩阵对应的行中随机选取一项作为卫星的分配策略；如果决策参数不小于预设的决策阈值，从Q矩阵对应的行中选取效益值最大的策略作为卫星的分配策略。

通过上述步骤获得的分配策略，对卫星资源信息进行分配，得到待训练的卫星资源信息，该卫星资源信息用于强化学习模型的训练。

步骤S203，根据分配策略以及待训练的卫星资源信息对强化学习模型进行训练，将完成训练的强化学习模型作为卫星容量分配模型。

上述资源信息，包括以下至少之一：可分配的容量、传输需求容量以及可视时间信息。具体的，强化学习模型的学习过程，包括以下步骤：

其中，C∈[0,C_max]代表当前待分配的容量；

表示用户b时间t时的传输需求容量；

在具体实施过程中，在获得卫星的即时效益值之后，还包括以下步骤：

其中，

表示用户b时间t时的传输需求容量；

根据卫星的效益值计算新的Q矩阵，所用算式如下：

上述实施例中的卫星容量分配方法，基于强化学习技术手段，最终以实现长期收益为目的，能够根据系统状态自动学习长期效益最优的容量分配策略，在可视时间内完成用户的数据传输的前提下实现了长期效益最大化，提高系统的容量传输效率。

下面结合Q-Learning强化学习算法，对上述实施方式中提到的模型的初始化以及训练过程进行详细描述。

首先对卫星容量分配模型进行初始化，该模型选用Q-Learning强化学习算法提供的智能系统，Q-Learning强化学习是一种无模型的学习方法，它提供智能系统能够在马尔可夫环境中利用经历的动作序列选择最优动作。Q-Learning通过一个动作-价值函数来进行学习，并且最终能够根据当前状态及最优策略给出期望的动作，在本实施例中的动作-价值函数选用Q 矩阵，该Q矩阵的列代表系统的所有可能状态；Q矩阵的行代表每一个状态下的所有可能决策；Q矩阵中每一个元素的数值为该状态下采用决策的效益。Q矩阵的结构示意图如图9所示。

Q-Learning强化学习的基本参数还包括：学习周期、时间、系统状态以及学习参数，在强化学习开始前，需要对上述参数以及Q矩阵进行初始化，具体如下：

(1)学习周期的初始化

在强化学习的第一个学习周期开始时，初始化N_episode＝1，N_episode表示当前的学习周期；N_{episode_max}表示最大的学习周期；如果强化学习已开始，则该学习周期为N_episode＝N_episode+1。

(2)Q矩阵的初始化

在强化学习的第一个学习周期开始时，此时的初始化Q矩阵为零矩阵。该Q矩阵的列代表系统的所有可能状态；Q矩阵的行代表每一个状态下的所有可能决策；Q矩阵中每一个元素的数值Q(s,a)代表状态s下采用决策a 的效益；如果强化学习已开始，则将上一个学习周期得到的Q矩阵作为当前学习周期的初始Q矩阵。

(3)时间初始化

对于给定时间[t₀,t₁]内卫星进行容量分配，t₀为起始时间；t₁为终止时间。则初始化的时间t＝t₀。

(4)系统状态初始化

令n_l代表系统中第l类用户的数量，同一类用户具有相同的传输需求容量与剩余可视时间。根据t＝t₀时所有用户的传输需求容量

与可视时间τ_b(t₀)，得到用户的数量

为系统的一个可能状态， C∈[0,C_max]代表当前待分配的容量。令C＝C(t₀)，因此系统状态初始化结果为

其中，C(t),t∈[t₀,t₁]表示卫星时间t时可分配的容量，C(t)＝{0,1,...,C_max}，C_max为最大可分配容量；

表示用户b时间t时的传输需求容量，

为最大需求容量；τ_b(t),t∈[t₀,t₁]表示用户b时间t时剩余的可视时间，τ_b(t)＝{0,1,...,τ_max}，τ_max为最大剩余可视时间。τ_b(t)＝0表示卫星不可视，此时用于无法与卫星进行数据传输，用户传输需求容量均为0。

将用户的传输需求容量分为L₁+1类，分别为

其中：

根据L₁+1类用户传输需求容量和τ_max+1种剩余可视时间的全部可能组合将用户分为L₂类，由于剩余可视时间为0时传输需求容量均为0，因此 L₂＝(L₁+1)τ_max+1。

需声明的是，上述系统状态初始化的结果，是计算L₂类用户每一类用户的数量

(5)学习参数初始化

学习参数包括初始化决策参数∈∈(0,1)，未传输容量惩罚因子λ≥0，学习速率参数α∈[0,1]，长期效益参数γ∈[0,1]。

Q-Learning强化学习相关的参数以及Q矩阵完成初始化后，开始执行强化学习过程，强化学习的目标是获取长期收益最优的卫星容量分配方案。首先根据当前的系统状态获得此时最优策略，可通过当前系统状态

确定Q矩阵中该状态所有决策所对应的行。

具体的，生成随机数∈'∈[0,1]，该随机数作为决策获取判断的条件，其随机数的选取可根据具体场景进行调整。

若∈'<∈，从Q矩阵所对应行所有决策中随机选择一项决策，也即从L₂类用户中随机选择一类用户分配单位容量；如果若该类用户数量大于1，则从该类用户中随机选择一名用户分配容量。

若∈'≥∈，选择Q矩阵所对应行中效益最大的决策为当前决策，也即从类用户中选择Q矩阵效益最大的用户类别分配单位容量，数学公式表示为

若该类用户数量大于1，则从该类用户中随机选择一名用户分配容量。

行为决策获取之后，需要对新分配的单位容量所带来的即时效益进行计算，令t为当前系统时间，b_u为行为决策模块中所分配容量的用户。即时效益的计算过程具体如下：

若C＝1，即时收益采用以下算式进行计算：

其中，

若C>1，即时收益采用以下算式进行计算：

在获取新分配单位容量后，需要对系统状态进行更新，令t为当前系统时间，s为系统当前状态，b_u为行为决策模块中所分配容量的用户，更新用户b_u当前剩余传输需求容量

具体的：

若C＝1，更新时间t'＝t+1；更新C＝C(t+1)；对所有用户，更新传输需求容量为t时剩余传输需求容量

与t+1时新增传输需求容量

之和；对所有用户，更新可视时间为t+1时可视时间τ_b(t+1)，将可视时间为0 用户传输需求容量设为0；根据t'＝t+1时所有用户的传输需求容量与可视时间，计算L₂类用户每一类用户的数量

然后更新系统状态

若C>1，更新C＝C-1；根据当前所有用户的传输需求容量与可视时间，计算L₂类用户每一类用户的数量

然后更新系统状态

在获取新分配单位容量所带来的即时收益后，对Q矩阵进行更新操作，令s为系统当前状态，s'为新分配单位容量后系统的下一个状态，a为行为决策模块中所采取的策略，a'为下一个状态最优决策，r为效益计算模块中所计算得到的效益，Q矩阵的更新算式如下：

更新后的Q矩阵作为强化学习的输出值，用于对卫星容量进行分配。

强化学习的过程中，需要对学习周期进行如下考虑，令t'为下一个状态 s'的时间，若t'≤t₁，则进行下一轮决策；若t'>t₁且N_episode<N_{episode_max}，则进行下一个学习周期；若t'>t₁且N_episode＝N_{episode_max}，则结束学习过程。

在Q-Learning强化学习算法提供的智能系统完成学习之后，将该系统作为卫星容量分配模型，输出值为Q矩阵。可见，通过借助于Q-learning 的学习能力，能够自适应的学习系统的长期收益，得到长期收益最优的资源分配策略。实际使用过程中，可进一步优化卫星网络中多用户间的容量分配，在卫星可视时间内完成更多的数据传输，提高系统的长期收益。

在通过Q-learning强化学习之后，获得最新的Q矩阵，用于在用户之间分配[t₀,t₁]内每个时间的卫星容量。具体的，首先初始化系统时间t＝t₀，更新系统状态s为初始状态，然后在Q矩阵中选择该状态对应矩阵行中效益值最大的策略作为当前卫星容量的分配策略，若该类用户数量大于1，则从该类用户中随机选择一名用户分配容量。在分配完成后更新系统的状态 s'，并进行下一轮决策，直至t＝t₁且分配完所有容量。

可见，本实施例提到的卫星容量分配方法中引入惩罚因子，在可视时间内传输的容量未达到需求时将会受到效益惩罚，进一步统筹了卫星的长期收益。

下面结合具体使用场景，对上述实施例的实际效果进行描述。如图4 所示，考虑到5个卫星用户的场景，时间周期为t₁-t₀＝100，由于卫星随时间运动，用户与卫星的可视关系将会动态改变，最大可视时间τ_max＝3，用户的传输容量需求分为4类，总的用户类型为13类；惩罚因子设为λ＝[0,1,2,3,4,5]，学习速率设为α＝0.5，长期效益参数设为γ＝0.5。利用本实施例中提到的卫星容量分配方法与现有的短期最优容量分配方法以及随机容量分配方法进行仿真，仿真结果与如图5所示。

从仿真结果可以看出，当惩罚因子大于0时，采用上述实施例中提到的卫星容量分配方法的系统效益结果，要明显大于短期最优容量分配方法以及随机容量分配方法。在短期收益最优容量分配方法和随机容量分配方法中，由于未考虑系统长期收益，部分用户的传输需求在可视时间结束时未被满足，从而导致系统效益降低。所提出的长期收益最优容量分配方法能够根据系统状态自动学习长期效益最优的容量分配策略，在可视时间内完成用户的数据传输，提高系统的容量传输效率。

对应于上述方法实施例，本发明实施例还提供了一种卫星容量分配装置，其结构示意图如图6所示，其中，该装置包括：

资源信息获取模块610，用于获取卫星在设定时间段内的资源信息；其中，所述设定时间段内的不同时刻所对应的资源信息不同；

分配策略获取模块620，用于将所述设定时间段的各个时刻对应的资源信息输入至预设的卫星容量分配模型中，结合所述卫星容量分配模型中的惩罚因子和所述各个时刻的资源信息进行计算，得到效益值最大时的卫星容量分配策略；

容量分配执行模块630，用于通过所述卫星容量分配策略对所述卫星容量进行容量分配。

在一些实施方式中，上述卫星容量分配装置还包括以下模块，如图7 所示：

环境信息收集模块710，用于环境信息收集模块的功能是收集给定时间内卫星可分配的容量，用户的传输需求容量以及用户的可视时间信息。

初始化模块720，用于初始化强化学习基本参数，包括学习周期、Q矩阵、时间、系统状态、学习参数。

行为决策模块730，用于根据当前状态获得当前最优决策。

效益计算模块740，用于计算新分配单位容量所带来的即时效益。

状态更新模块750，用于根据新分配单位容量更新系统状态。

Q矩阵更新模块760，用于根据新分配单位容量所带来的即时效益更新 Q矩阵。

学习周期模块770，用于更新强化学习周期，进行迭代学习。

容量分配模块780，用于根据学习所获得的Q矩阵，在用户之间分配给定时间内每个时间的卫星分配容量。

本发明实施例提供的卫星容量分配装置，与上述实施例提供的卫星容量分配方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

本实施例还提供一种电子设备，为该电子设备的结构示意图如图8所示，该设备包括处理器101和存储器102；其中，存储器102用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述卫星容量分配方法。

图8所示的电子设备还包括总线103和通信接口104，处理器101、通信接口104和存储器102通过总线103连接。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8 中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称 ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器 102，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述实施例的方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。