CN114710200B

CN114710200B - 一种基于强化学习的卫星网络资源编排方法及系统

Info

Publication number: CN114710200B
Application number: CN202210363049.8A
Authority: CN
Inventors: 李泰新; 宋俊平; 周旭; 范鹏飞; 覃毅芳
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2023-06-23
Anticipated expiration: 2042-04-07
Also published as: CN114710200A

Abstract

本申请提供一种基于强化学习的卫星网络资源编排方法及系统，用以解决现有技术中卫星网络资源分配组网结构不合理的技术问题。该方法包括：收集系统中LEO卫星上的资源状态，形成资源状态集；LEO卫星制定星上资源编排动作集；LEO卫星中的分布式决策模块在当前的状态下，基于本地资源编排策略，选择资源编排动作，将资源状态上报给GEO卫星；GEO卫星的业务评价模块设置资源编排策略的奖励函数；根据业务评价模块给出的评价结果，LEO卫星调整优化资源编排策略。本申请提供一种基于强化学习的卫星网络资源编排方法及系统，可以实现多星协同处理策略的自学习和自演进，有效提高卫星通信资源的利用率，满足新业务的发展要求。

Description

一种基于强化学习的卫星网络资源编排方法及系统

技术领域

本申请涉及卫星网络通信领域，尤其涉及一种基于强化学习的卫星网络资源编排的方法及系统。

背景技术

随着地面移动通信技术逐步进入5G/6G时代，天地信息网络深度融合的应用场景将变得十分广阔，卫星网络在将来会服务于宽带互联网、物联网、低时延、高可靠数据传输等业务，与传统卫星业务相比，这些具有差异化以及动态变化的新型业务会给卫星网络资源的分配带来极大的挑战。

同时，基于星间链路技术的大规模星座组网已成为研究热点，卫星通信系统正从“单星”向“天网”发展，业务数据转发模式不限于“弯管式”转发，可以在卫星网络中多跳转发至目的地。目前对星载异构资源虚拟化技术的研究，可实现卫星节点之间算力资源共享利用，支持卫星网络云化服务能力，卫星网络也将开始使用地面网络的网状网架构，如何在天上实现对卫星网络资源的合理分配以满足多星协同的需求也得到业界的广泛关注。

现有的资源编排技术主要基于集中式和分布式两种架构，如果采用集中式的架构，可以把星上资源编排策略模块和业务评价模块都部署于一个卫星节点上，但这样会导致该卫星节点的处理压力过大，不能够满足新型业务大量发展的要求。如果采用分布式的架构，可将星上资源编排策略模块和业务评价模块部署在卫星网络系统中的每个卫星节点上，这时为保证各卫星节点的业务评价标准的一致性，需要将系统中的每个卫星节点之间建立全连接。而组成卫星网络的大多数低轨卫星处于不断移动状态，会导致系统组网的不稳定，并且卫星间链路带宽资源往往有限，这样会造成极大地通信资源浪费。

因此，迫切需要提出一种合理的资源编排架构和编排方法来实现对星上资源的有效分配，以满足对动态化新业务、以及星上网络云化服务新能力的要求。

发明内容

本申请实施例提供了一种基于强化学习的卫星网络资源编排方法及系统，采用集中式评价与分布式决策相结合的资源编排机制，将强化学习方法与多层卫星网络拓扑结构相结合，用以解决现有技术中集中式架构导致的卫星节点压力过大、分布式架构导致的卫星组网不稳定以及通信资源极大浪费地问题。

第一方面，本申请提供一种基于强化学习的卫星网络资源编排方法，由系统实施，该系统包括至少一个GEO卫星和多个LEO卫星，GEO卫星部署多个业务评价模块，LEO卫星部署多个分布式策略模块和资源模块，该方法包括：

步骤1，多个LEO卫星中的每个LEO卫星收集系统中该LEO卫星的资源状态，包括星上算力资源状态以及星间网络资源状态，形成资源状态集。

收集系统中LEO卫星的星上算力资源状态以及星间网络资源状态包括两种方式：分布式决策模块以报文发送的方式请求资源模块上报资源状态信息；资源模块以周期推送的方式主动上报资源状态信息到分布式决策模块。

对于LEO卫星节点q，其资源状态由业务种类i，在t时刻在本节点上使用的资源

以及t时刻在节点q上可用资源res_q(t)组成。这里/>

包括业务种类i在t时刻在本节点使用的算力资源以及网络资源；res_q(t)包括t时刻在节点q上可用的算力资源以及网络资源。即节点状态集合/>

每个LEO卫星节点上的状态集合可以组成全局的状态集合，即：

1≤q≤Q，Q是系统中LEO卫星节点个数。

步骤2，多个LEO卫星中的每个LEO卫星制定星上资源编排动作集。

由每个LEO卫星节点上的分布式决策模块，基于一定策略，为该节点上承载的某一类业务分配资源的所有动作组成。对于LEO卫星节点q，编排动作由针对业务种类i，在本节点上分配的算力资源量

以及在本节点上分配的网络资源量/>

组成。对于业务种类i，节点q上的动作集合/>

每个LEO卫星节点上的动作集合可以组成全局的动作集合，即：

1≤q≤Q，Q是系统中LEO卫星节点个数。

步骤3，多个LEO卫星中的每个LEO卫星节点的分布式决策模块在当前的状态下，基于本地资源编排策略，选择资源编排动作，将资源状态上报给GEO卫星。

步骤4，GEO卫星的业务评价模块设置资源编排策略的奖励函数。

设置资源编排策略的奖励函数r，根据奖励函数和资源状态，用于针对业务种类i，在业务评价模块中计算选择当前资源编排动作的编排策略的评价结果。需要考虑业务种类i在卫星网络中的传输时延

丢包率/>

带宽资源满足率/>

以及算力资源满足率

等参数。这些参数中，有正向参数(越大越好)，也有负向参数(越小越好)，而且量纲不一，需要归一化之后再构建奖励函数。对于业务种类i，奖励函数为：

为归一化之后的参数，a、b、c、d为各自的权重。

步骤5，根据奖励函数给出的评价结果，多个LEO卫星中的每个LEO卫星调整优化本地资源编排策略。

第二方面，本申请提供了一种基于强化学习的卫星网络资源编排系统架构，包括：

集中式评价层，包含多个业务评价模块，部署于GEO卫星。在GEO卫星节点部署业务评价模块，其评价标准对应于各类型业务的需求特点，负责处理计算量相对较大的决策评价任务，根据资源编排作用于环境的结果，计算不同业务的决策评价。

分布式评价层，包含分布式决策模块，部署于LEO卫星。每个LEO卫星节点部署分布式决策模块，根据局部环境状态信息进行分布式的智能决策。

星上资源层，包含基于虚拟化CPU、GPU、FPGA等异构星上资源的算力资源模块，以及由星间链路提供的链路带宽等网络资源模块，部署于LEO卫星。

可选的，由于卫星网络中的业务数量极大，需要将大量业务根据资源及性能需求特点进行分类。若分类粒度大，则导致开启的业务评价模块进程少，节点处理压力小，但粗粒度分类，不能很好体现业务特定需求；若粒度小，则导致开启业务评价模块进程多，节点处理压力大，但细粒度分类，可以很好体现业务特定需求。

可选的，由于资源状态集合空间很大，作为一种可行方案，拟采用神经网络进行训练。分布式决策模块部署编排策略网络，业务评价模块部署价值网络，在每一个周期都对分布式决策模块输出的编排动作做一个评价，估计未来能有多少收益。

本发明提出一种基于强化学习的空间网络资源编排方法，该方法可以实现多星协同处理策略的自学习和自演进，由系统实施，包括至少一个GEO卫星和多个LEO卫星，考虑到GEO卫星覆盖范围广的特点，为保证业务评价模块可以基于全局信息进行评价，采取集中式的方式将业务评价模块部署于GEO卫星，采取分布式的方式将资源编排决策模块部署于LEO卫星，从而实现了分布式决策和集中式评价相结合的组网架构，相比于完全集中式架构，降低了GEO卫星的处理压力；相比于完全分布式架构，降低了LEO卫星的通信代价。

附图说明

为了更简单说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中基于强化学习的空间网络资源编排方法的流程示意图；

图2为本申请实施例中基于强化学习的空间网络资源编排系统的结构示意图；

图3为本申请实施例中基于强化学习的空间网络资源编排系统的另一种结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

从卫星轨道高度来说有地球同步轨道卫星(Geostat ionary Earth Orbit,GEO)、中轨卫星(Medium Earth Orbit,MEO)、低轨卫星(Low Earth Orbit,LEO)等。卫星互联网就是通过一定数量的卫星，向地面和空中用户提供宽带互联网接入服务。高轨卫星覆盖范围广，但是系统容量有限；中轨卫星由于发射成本与技术应用性价比一般通常数量比较少；低轨卫星相对地面是运动的，相比高轨同步卫星而言需要更多数量的低轨卫星才能覆盖全球，但是因为离地面比较近，路径损耗要少，系统容量能够更大。

随着中央处理器(Central Processing Unit,CPU)、图形处理器(GraphicsProcessing Unit,GPU)，以及现场可编程门阵列(Field Programmable Gate Array,FPGA)等异构资源虚拟化技术的发展，可以实现卫星节点之间算力资源共享利用，支持卫星网络云化服务能力，利用多星协同处理业务。

图1为本发明实施例提供的一种基于强化学习的卫星网络资源编排方法的流程图。

该方法由系统实施，系统中包括至少一个GEO卫星和多个LEO卫星，GEO卫星部署多个业务评价模块，LEO卫星部署多个分布式策略模块和资源模块，如图1所示，包括以下步骤：

步骤1，多个LEO卫星中的每个LEO收集系统中该LEO卫星的资源状态，包括星上算力资源状态以及星间网络资源状态，形成资源状态集。

以及t时刻在节点q上可用资源res_q(t)组成。这里/>

1≤q≤Q，Q是系统中LEO卫星节点个数。

以及在本节点上分配的网络资源量/>

组成。对于业务种类i，节点q上的动作集合/>

1≤q≤Q，Q是系统中LEO卫星节点个数。

本地资源编排策略在分布式决策模块中进行初始化，

在一个实施例中，可以对资源编排策略进行随机初始化；

在另一个实施例中，可以对资源编排策略采用历史经验值进行初始化。

丢包率/>

带宽资源满足率/>

以及算力资源满足率

为归一化之后的参数，a、b、c、d为各自的权重。

每个分布式决策模块的编排策略的输入为节点本地状态，生成编排策略θ。每个业务评价模块的评价机制的输入为全局状态，生成评价机制ω。设算法迭代轮数为T，随机初始化编排策略和评价机制，进入迭代。

针对业务种类i经过的某节点q，使用

作为编排策略的输入，输出动作/>

基于动作/>

得到新的状态/>

新的全局状态sⁱ(t)′以及奖励函数值rⁱ。分别将全局状态sⁱ(t)和sⁱ(t)′作为评价机制的输入，分别得到评价V(sⁱ(t))和V(sⁱ(t)′)。计算时序差分(Temporal Difference)误差δ＝rⁱ+γV(sⁱ(t)')-V(sⁱ(t))，γ为衰减因子。使用均方差损失函数∑(δ,ω)²作为新的评价机制ω′的梯度更新。进而更新得到新的编排策略θ′，

α为步长，然后进入新一个轮次的迭代。

图2为本发明实施例提供的一种基于强化学习的卫星网络资源编排系统的结构示意图，如图2所示，包括如下多层卫星拓扑结构：

图3为本发明实施例提供的一种基于强化学习的卫星网络资源编排系统的另一种结构示意图，在本实施例中，作为一种可选方法，采用多智能体深度强化学习的演员-评论家(Multi-Agent Actor-Critic)算法，针对分布式星上资源协同编排问题进行迭代优化。如图3所示，包括如下多层卫星拓扑结构：

卫星网络拓扑由一个GEO以及LEO-1、LEO-2、LEO-3、LEO-4、LEO-5、LEO-6组成。

集中式评价层，GEO卫星作为评价节点，分别部署面向业务-a的评论家-a模块、面向业务-b的评论家-b模块，作为业务评价模块，进行编排决策评价。由于本申请是根据星上业务的资源及性能需求，将业务进行分类，每个评论家模块对应不同分类的业务，其奖励函数也是针对业务特征设计的，不同的评论家模块上的奖励函数是不同的，

本实施例中，业务-a和业务-b是两种不同类型的业务。对于同种类型的两个不同业务，它们的业务评价模块相同。

分布式评价层，在LEO-1、LEO-2、LEO-3、LEO-4、LEO-5以及LEO-6上分别部署演员模块：演员-1、演员-2、演员-3、演员-4、演员-5以及演员-6，演员模块分析局部环境状态信息，根据资源编排策略选择资源编排动作。

星上资源层，业务-a从LEO-1节点进入卫星网络，依次经过LEO-5、LEO-3以及LEO-4的转发，并基于这4个节点算力资源池分配出来的算力资源-1、算力资源-2、算力资源-3、算力资源-4处理业务。业务流沿着此路径转发时，需依次占用LEO-1、LEO-5、LEO-3以及LEO-4之间的星间链路带宽资源；

业务-b从LEO-2节点进入卫星网络，依次经过LEO-5以及LEO-6的转发，并基于这3个节点算力资源池分配出来的算力资源-1、算力资源-2、算力资源-3处理业务。业务流沿着此路径转发时，需依次占用LEO-2、LEO-5以及LEO-6之间的星间链路带宽资源。

基于同一发明思路，本发明实施例还提供另一种基于强化学习的卫星网络资源编排方法：

该方法由系统实施，系统由一个GEO卫星和LEO-1、LEO-2、LEO-3、LEO-4、LEO-5、LEO-6卫星组成，在GEO卫星部署多个业务评价模块，在各个LEO卫星部署多个分布式决策模块和资源模块。

步骤1，多个LEO卫星中的每个LEO卫星收集系统中该LEO卫星资源状态，包括星上算力资源状态以及星间网络资源状态，形成资源状态集。

可选的，可以采用分布式决策模块以报文发送的方式请求资源模块上报资源状态信息，形成星上资源状态集。

可选的，可以采用资源模块以周期推送的方式主动上报资源状态信息到分布式决策模块，形成星上资源状态集。

以LEO-1节点上的资源状态集为例，承载业务-a，在t时刻在本节点上使用的资源

在本节点上可用资源res₁(t)。这里/>

包括业务-a在t时刻在本节点使用的算力资源以及网络资源，res₁(t)包括t时刻在LEO-1上可用的算力资源以及网络资源。即LEO-1节点状态集合/>

业务-a经过的4个节点上的状态集合可以组成全局的状态集合，即：/>

以卫星节点LEO-1为例，针对业务-a，编排动作由在节点LEO-1上分配的算力资源量

和在节点LEO-1上分配的网络资源量/>

组成。对于业务-a，节点LEO-1上的动作集合为/>

步骤3，在LEO-1，LEO-2，LEO-3，LEO-4，LEO-5以及LEO-6上部署的每个演员模块在当前的状态下，基于本地资源编排策略，选择资源编排动作，将资源状态上报给GEO模块。

针对业务-a和业务-b分别设置资源编排策略的奖励函数r^a、r^b，根据奖励函数和资源状态，比如针对业务-a，在评论家模块中计算选择当前资源编排动作的编排策略的评价结果。需要考虑业务-a在卫星网络中的传输时延

丢包率/>

带宽资源满足率/>

以及算力资源满足率/>

等参数。

步骤5：根据奖励函数给出的评价结果，LEO-1、LEO-2、LEO-3、LEO-4、LEO-5以及LEO-6不断调整优化本地资源编排策略。

每个演员模块在每个状态，基于强化学习方法，选择本地最优的计策。每个演员模块的编排策略网络的输入为节点本地状态，生成编排策略网络参数θ。评论家模块的价值网络的输入为全局状态，生成价值网络参数ω。设算法迭代轮数为T，随机初始化策略网络和价值网络参数，进入迭代。

以卫星节点LEO-1为例，针对业务-a，在策略网络中使用

作为输入，输出动作

基于动作/>

得到新的状态/>

新的全局状态s^a(t)′以及奖励函数值ra。在价值网络中分别使用全局状态s^a(t)和s^a(t)′作为输入，分别得到价值V(s^a(t))和V(s^a(t)′)。计算时序差分(Temporal Difference)误差δ＝r^a+γV(s^a(t)')-V(s^a(t))，γ为衰减因子。使用均方差损失函数∑(δ,ω)²作为新的价值网络参数ω′的梯度更新。在每步更新中，评论家模块根据这个误差来调整自己的评价标准，使得自己的评价更接近于环境的真实回报。另一方面，节点LEO-1上面部署的演员-1模块根据评论家-a模块的评价结果，进而更新得到新的策略网络参数θ′，/>

α为步长，来调整自己的资源编排策略。得到新的资源编排策略后，评论家-a模块再去与环境进行交互，然后重复估计价值函数的操作，演员-1模块再重新编排策略，即进入新一个轮次的迭代。

针对业务-a，节点LEO-5、LEO-3以及LEO-4的操作与LEO-1类似。

需要说明的是，在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定的编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明内容，并且上面对特定语言、系统功能模块的调用所做的描述仅仅是为了披露发明的最佳实施方式。

在此处所提供的说明书中，说明了大量的具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要去及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。