CN114710200B - 一种基于强化学习的卫星网络资源编排方法及系统 - Google Patents

一种基于强化学习的卫星网络资源编排方法及系统 Download PDF

Info

Publication number
CN114710200B
CN114710200B CN202210363049.8A CN202210363049A CN114710200B CN 114710200 B CN114710200 B CN 114710200B CN 202210363049 A CN202210363049 A CN 202210363049A CN 114710200 B CN114710200 B CN 114710200B
Authority
CN
China
Prior art keywords
resource
satellite
leo
node
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210363049.8A
Other languages
English (en)
Other versions
CN114710200A (zh
Inventor
李泰新
宋俊平
周旭
范鹏飞
覃毅芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202210363049.8A priority Critical patent/CN114710200B/zh
Publication of CN114710200A publication Critical patent/CN114710200A/zh
Application granted granted Critical
Publication of CN114710200B publication Critical patent/CN114710200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Radio Relay Systems (AREA)

Abstract

本申请提供一种基于强化学习的卫星网络资源编排方法及系统,用以解决现有技术中卫星网络资源分配组网结构不合理的技术问题。该方法包括:收集系统中LEO卫星上的资源状态,形成资源状态集;LEO卫星制定星上资源编排动作集;LEO卫星中的分布式决策模块在当前的状态下,基于本地资源编排策略,选择资源编排动作,将资源状态上报给GEO卫星;GEO卫星的业务评价模块设置资源编排策略的奖励函数;根据业务评价模块给出的评价结果,LEO卫星调整优化资源编排策略。本申请提供一种基于强化学习的卫星网络资源编排方法及系统,可以实现多星协同处理策略的自学习和自演进,有效提高卫星通信资源的利用率,满足新业务的发展要求。

Description

一种基于强化学习的卫星网络资源编排方法及系统
技术领域
本申请涉及卫星网络通信领域,尤其涉及一种基于强化学习的卫星网络资源编排的方法及系统。
背景技术
随着地面移动通信技术逐步进入5G/6G时代,天地信息网络深度融合的应用场景将变得十分广阔,卫星网络在将来会服务于宽带互联网、物联网、低时延、高可靠数据传输等业务,与传统卫星业务相比,这些具有差异化以及动态变化的新型业务会给卫星网络资源的分配带来极大的挑战。
同时,基于星间链路技术的大规模星座组网已成为研究热点,卫星通信系统正从“单星”向“天网”发展,业务数据转发模式不限于“弯管式”转发,可以在卫星网络中多跳转发至目的地。目前对星载异构资源虚拟化技术的研究,可实现卫星节点之间算力资源共享利用,支持卫星网络云化服务能力,卫星网络也将开始使用地面网络的网状网架构,如何在天上实现对卫星网络资源的合理分配以满足多星协同的需求也得到业界的广泛关注。
现有的资源编排技术主要基于集中式和分布式两种架构,如果采用集中式的架构,可以把星上资源编排策略模块和业务评价模块都部署于一个卫星节点上,但这样会导致该卫星节点的处理压力过大,不能够满足新型业务大量发展的要求。如果采用分布式的架构,可将星上资源编排策略模块和业务评价模块部署在卫星网络系统中的每个卫星节点上,这时为保证各卫星节点的业务评价标准的一致性,需要将系统中的每个卫星节点之间建立全连接。而组成卫星网络的大多数低轨卫星处于不断移动状态,会导致系统组网的不稳定,并且卫星间链路带宽资源往往有限,这样会造成极大地通信资源浪费。
因此,迫切需要提出一种合理的资源编排架构和编排方法来实现对星上资源的有效分配,以满足对动态化新业务、以及星上网络云化服务新能力的要求。
发明内容
本申请实施例提供了一种基于强化学习的卫星网络资源编排方法及系统,采用集中式评价与分布式决策相结合的资源编排机制,将强化学习方法与多层卫星网络拓扑结构相结合,用以解决现有技术中集中式架构导致的卫星节点压力过大、分布式架构导致的卫星组网不稳定以及通信资源极大浪费地问题。
第一方面,本申请提供一种基于强化学习的卫星网络资源编排方法,由系统实施,该系统包括至少一个GEO卫星和多个LEO卫星,GEO卫星部署多个业务评价模块,LEO卫星部署多个分布式策略模块和资源模块,该方法包括:
步骤1,多个LEO卫星中的每个LEO卫星收集系统中该LEO卫星的资源状态,包括星上算力资源状态以及星间网络资源状态,形成资源状态集。
收集系统中LEO卫星的星上算力资源状态以及星间网络资源状态包括两种方式:分布式决策模块以报文发送的方式请求资源模块上报资源状态信息;资源模块以周期推送的方式主动上报资源状态信息到分布式决策模块。
对于LEO卫星节点q,其资源状态由业务种类i,在t时刻在本节点上使用的资源
Figure GDA0004242700580000021
以及t时刻在节点q上可用资源resq(t)组成。这里/>
Figure GDA0004242700580000022
包括业务种类i在t时刻在本节点使用的算力资源以及网络资源;resq(t)包括t时刻在节点q上可用的算力资源以及网络资源。即节点状态集合/>
Figure GDA0004242700580000023
每个LEO卫星节点上的状态集合可以组成全局的状态集合,即:
Figure GDA0004242700580000024
1≤q≤Q,Q是系统中LEO卫星节点个数。
步骤2,多个LEO卫星中的每个LEO卫星制定星上资源编排动作集。
由每个LEO卫星节点上的分布式决策模块,基于一定策略,为该节点上承载的某一类业务分配资源的所有动作组成。对于LEO卫星节点q,编排动作由针对业务种类i,在本节点上分配的算力资源量
Figure GDA0004242700580000025
以及在本节点上分配的网络资源量/>
Figure GDA0004242700580000026
组成。对于业务种类i,节点q上的动作集合/>
Figure GDA0004242700580000027
每个LEO卫星节点上的动作集合可以组成全局的动作集合,即:
Figure GDA0004242700580000028
1≤q≤Q,Q是系统中LEO卫星节点个数。
步骤3,多个LEO卫星中的每个LEO卫星节点的分布式决策模块在当前的状态下,基于本地资源编排策略,选择资源编排动作,将资源状态上报给GEO卫星。
步骤4,GEO卫星的业务评价模块设置资源编排策略的奖励函数。
设置资源编排策略的奖励函数r,根据奖励函数和资源状态,用于针对业务种类i,在业务评价模块中计算选择当前资源编排动作的编排策略的评价结果。需要考虑业务种类i在卫星网络中的传输时延
Figure GDA0004242700580000029
丢包率/>
Figure GDA00042427005800000210
带宽资源满足率/>
Figure GDA00042427005800000211
以及算力资源满足率
Figure GDA00042427005800000212
等参数。这些参数中,有正向参数(越大越好),也有负向参数(越小越好),而且量纲不一,需要归一化之后再构建奖励函数。对于业务种类i,奖励函数为:
Figure GDA00042427005800000213
Figure GDA00042427005800000214
为归一化之后的参数,a、b、c、d为各自的权重。
步骤5,根据奖励函数给出的评价结果,多个LEO卫星中的每个LEO卫星调整优化本地资源编排策略。
第二方面,本申请提供了一种基于强化学习的卫星网络资源编排系统架构,包括:
集中式评价层,包含多个业务评价模块,部署于GEO卫星。在GEO卫星节点部署业务评价模块,其评价标准对应于各类型业务的需求特点,负责处理计算量相对较大的决策评价任务,根据资源编排作用于环境的结果,计算不同业务的决策评价。
分布式评价层,包含分布式决策模块,部署于LEO卫星。每个LEO卫星节点部署分布式决策模块,根据局部环境状态信息进行分布式的智能决策。
星上资源层,包含基于虚拟化CPU、GPU、FPGA等异构星上资源的算力资源模块,以及由星间链路提供的链路带宽等网络资源模块,部署于LEO卫星。
可选的,由于卫星网络中的业务数量极大,需要将大量业务根据资源及性能需求特点进行分类。若分类粒度大,则导致开启的业务评价模块进程少,节点处理压力小,但粗粒度分类,不能很好体现业务特定需求;若粒度小,则导致开启业务评价模块进程多,节点处理压力大,但细粒度分类,可以很好体现业务特定需求。
可选的,由于资源状态集合空间很大,作为一种可行方案,拟采用神经网络进行训练。分布式决策模块部署编排策略网络,业务评价模块部署价值网络,在每一个周期都对分布式决策模块输出的编排动作做一个评价,估计未来能有多少收益。
本发明提出一种基于强化学习的空间网络资源编排方法,该方法可以实现多星协同处理策略的自学习和自演进,由系统实施,包括至少一个GEO卫星和多个LEO卫星,考虑到GEO卫星覆盖范围广的特点,为保证业务评价模块可以基于全局信息进行评价,采取集中式的方式将业务评价模块部署于GEO卫星,采取分布式的方式将资源编排决策模块部署于LEO卫星,从而实现了分布式决策和集中式评价相结合的组网架构,相比于完全集中式架构,降低了GEO卫星的处理压力;相比于完全分布式架构,降低了LEO卫星的通信代价。
附图说明
为了更简单说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中基于强化学习的空间网络资源编排方法的流程示意图;
图2为本申请实施例中基于强化学习的空间网络资源编排系统的结构示意图;
图3为本申请实施例中基于强化学习的空间网络资源编排系统的另一种结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
从卫星轨道高度来说有地球同步轨道卫星(Geostat ionary Earth Orbit,GEO)、中轨卫星(Medium Earth Orbit,MEO)、低轨卫星(Low Earth Orbit,LEO)等。卫星互联网就是通过一定数量的卫星,向地面和空中用户提供宽带互联网接入服务。高轨卫星覆盖范围广,但是系统容量有限;中轨卫星由于发射成本与技术应用性价比一般通常数量比较少;低轨卫星相对地面是运动的,相比高轨同步卫星而言需要更多数量的低轨卫星才能覆盖全球,但是因为离地面比较近,路径损耗要少,系统容量能够更大。
随着中央处理器(Central Processing Unit,CPU)、图形处理器(GraphicsProcessing Unit,GPU),以及现场可编程门阵列(Field Programmable Gate Array,FPGA)等异构资源虚拟化技术的发展,可以实现卫星节点之间算力资源共享利用,支持卫星网络云化服务能力,利用多星协同处理业务。
图1为本发明实施例提供的一种基于强化学习的卫星网络资源编排方法的流程图。
该方法由系统实施,系统中包括至少一个GEO卫星和多个LEO卫星,GEO卫星部署多个业务评价模块,LEO卫星部署多个分布式策略模块和资源模块,如图1所示,包括以下步骤:
步骤1,多个LEO卫星中的每个LEO收集系统中该LEO卫星的资源状态,包括星上算力资源状态以及星间网络资源状态,形成资源状态集。
收集系统中LEO卫星的星上算力资源状态以及星间网络资源状态包括两种方式:分布式决策模块以报文发送的方式请求资源模块上报资源状态信息;资源模块以周期推送的方式主动上报资源状态信息到分布式决策模块。
对于LEO卫星节点q,其资源状态由业务种类i,在t时刻在本节点上使用的资源
Figure GDA0004242700580000041
以及t时刻在节点q上可用资源resq(t)组成。这里/>
Figure GDA0004242700580000042
包括业务种类i在t时刻在本节点使用的算力资源以及网络资源;resq(t)包括t时刻在节点q上可用的算力资源以及网络资源。即节点状态集合/>
Figure GDA0004242700580000043
每个LEO卫星节点上的状态集合可以组成全局的状态集合,即:
Figure GDA0004242700580000044
1≤q≤Q,Q是系统中LEO卫星节点个数。
步骤2,多个LEO卫星中的每个LEO卫星制定星上资源编排动作集。
由每个LEO卫星节点上的分布式决策模块,基于一定策略,为该节点上承载的某一类业务分配资源的所有动作组成。对于LEO卫星节点q,编排动作由针对业务种类i,在本节点上分配的算力资源量
Figure GDA0004242700580000045
以及在本节点上分配的网络资源量/>
Figure GDA0004242700580000046
组成。对于业务种类i,节点q上的动作集合/>
Figure GDA0004242700580000047
每个LEO卫星节点上的动作集合可以组成全局的动作集合,即:
Figure GDA0004242700580000048
1≤q≤Q,Q是系统中LEO卫星节点个数。
步骤3,多个LEO卫星中的每个LEO卫星节点的分布式决策模块在当前的状态下,基于本地资源编排策略,选择资源编排动作,将资源状态上报给GEO卫星。
本地资源编排策略在分布式决策模块中进行初始化,
在一个实施例中,可以对资源编排策略进行随机初始化;
在另一个实施例中,可以对资源编排策略采用历史经验值进行初始化。
步骤4,GEO卫星的业务评价模块设置资源编排策略的奖励函数。
设置资源编排策略的奖励函数r,根据奖励函数和资源状态,用于针对业务种类i,在业务评价模块中计算选择当前资源编排动作的编排策略的评价结果。需要考虑业务种类i在卫星网络中的传输时延
Figure GDA0004242700580000049
丢包率/>
Figure GDA00042427005800000410
带宽资源满足率/>
Figure GDA00042427005800000411
以及算力资源满足率
Figure GDA00042427005800000412
等参数。这些参数中,有正向参数(越大越好),也有负向参数(越小越好),而且量纲不一,需要归一化之后再构建奖励函数。对于业务种类i,奖励函数为:
Figure GDA00042427005800000413
Figure GDA00042427005800000414
为归一化之后的参数,a、b、c、d为各自的权重。
步骤5,根据奖励函数给出的评价结果,多个LEO卫星中的每个LEO卫星调整优化本地资源编排策略。
每个分布式决策模块的编排策略的输入为节点本地状态,生成编排策略θ。每个业务评价模块的评价机制的输入为全局状态,生成评价机制ω。设算法迭代轮数为T,随机初始化编排策略和评价机制,进入迭代。
针对业务种类i经过的某节点q,使用
Figure GDA0004242700580000051
作为编排策略的输入,输出动作/>
Figure GDA0004242700580000052
基于动作/>
Figure GDA0004242700580000053
得到新的状态/>
Figure GDA0004242700580000054
新的全局状态si(t)′以及奖励函数值ri。分别将全局状态si(t)和si(t)′作为评价机制的输入,分别得到评价V(si(t))和V(si(t)′)。计算时序差分(Temporal Difference)误差δ=ri+γV(si(t)')-V(si(t)),γ为衰减因子。使用均方差损失函数∑(δ,ω)2作为新的评价机制ω′的梯度更新。进而更新得到新的编排策略θ′,
Figure GDA0004242700580000055
α为步长,然后进入新一个轮次的迭代。
图2为本发明实施例提供的一种基于强化学习的卫星网络资源编排系统的结构示意图,如图2所示,包括如下多层卫星拓扑结构:
集中式评价层,包含多个业务评价模块,部署于GEO卫星。在GEO卫星节点部署业务评价模块,其评价标准对应于各类型业务的需求特点,负责处理计算量相对较大的决策评价任务,根据资源编排作用于环境的结果,计算不同业务的决策评价。
分布式评价层,包含分布式决策模块,部署于LEO卫星。每个LEO卫星节点部署分布式决策模块,根据局部环境状态信息进行分布式的智能决策。
星上资源层,包含基于虚拟化CPU、GPU、FPGA等异构星上资源的算力资源模块,以及由星间链路提供的链路带宽等网络资源模块,部署于LEO卫星。
可选的,由于卫星网络中的业务数量极大,需要将大量业务根据资源及性能需求特点进行分类。若分类粒度大,则导致开启的业务评价模块进程少,节点处理压力小,但粗粒度分类,不能很好体现业务特定需求;若粒度小,则导致开启业务评价模块进程多,节点处理压力大,但细粒度分类,可以很好体现业务特定需求。
可选的,由于资源状态集合空间很大,作为一种可行方案,拟采用神经网络进行训练。分布式决策模块部署编排策略网络,业务评价模块部署价值网络,在每一个周期都对分布式决策模块输出的编排动作做一个评价,估计未来能有多少收益。
图3为本发明实施例提供的一种基于强化学习的卫星网络资源编排系统的另一种结构示意图,在本实施例中,作为一种可选方法,采用多智能体深度强化学习的演员-评论家(Multi-Agent Actor-Critic)算法,针对分布式星上资源协同编排问题进行迭代优化。如图3所示,包括如下多层卫星拓扑结构:
卫星网络拓扑由一个GEO以及LEO-1、LEO-2、LEO-3、LEO-4、LEO-5、LEO-6组成。
集中式评价层,GEO卫星作为评价节点,分别部署面向业务-a的评论家-a模块、面向业务-b的评论家-b模块,作为业务评价模块,进行编排决策评价。由于本申请是根据星上业务的资源及性能需求,将业务进行分类,每个评论家模块对应不同分类的业务,其奖励函数也是针对业务特征设计的,不同的评论家模块上的奖励函数是不同的,
本实施例中,业务-a和业务-b是两种不同类型的业务。对于同种类型的两个不同业务,它们的业务评价模块相同。
分布式评价层,在LEO-1、LEO-2、LEO-3、LEO-4、LEO-5以及LEO-6上分别部署演员模块:演员-1、演员-2、演员-3、演员-4、演员-5以及演员-6,演员模块分析局部环境状态信息,根据资源编排策略选择资源编排动作。
星上资源层,业务-a从LEO-1节点进入卫星网络,依次经过LEO-5、LEO-3以及LEO-4的转发,并基于这4个节点算力资源池分配出来的算力资源-1、算力资源-2、算力资源-3、算力资源-4处理业务。业务流沿着此路径转发时,需依次占用LEO-1、LEO-5、LEO-3以及LEO-4之间的星间链路带宽资源;
业务-b从LEO-2节点进入卫星网络,依次经过LEO-5以及LEO-6的转发,并基于这3个节点算力资源池分配出来的算力资源-1、算力资源-2、算力资源-3处理业务。业务流沿着此路径转发时,需依次占用LEO-2、LEO-5以及LEO-6之间的星间链路带宽资源。
基于同一发明思路,本发明实施例还提供另一种基于强化学习的卫星网络资源编排方法:
该方法由系统实施,系统由一个GEO卫星和LEO-1、LEO-2、LEO-3、LEO-4、LEO-5、LEO-6卫星组成,在GEO卫星部署多个业务评价模块,在各个LEO卫星部署多个分布式决策模块和资源模块。
步骤1,多个LEO卫星中的每个LEO卫星收集系统中该LEO卫星资源状态,包括星上算力资源状态以及星间网络资源状态,形成资源状态集。
可选的,可以采用分布式决策模块以报文发送的方式请求资源模块上报资源状态信息,形成星上资源状态集。
可选的,可以采用资源模块以周期推送的方式主动上报资源状态信息到分布式决策模块,形成星上资源状态集。
以LEO-1节点上的资源状态集为例,承载业务-a,在t时刻在本节点上使用的资源
Figure GDA0004242700580000061
在本节点上可用资源res1(t)。这里/>
Figure GDA0004242700580000062
包括业务-a在t时刻在本节点使用的算力资源以及网络资源,res1(t)包括t时刻在LEO-1上可用的算力资源以及网络资源。即LEO-1节点状态集合/>
Figure GDA0004242700580000063
业务-a经过的4个节点上的状态集合可以组成全局的状态集合,即:/>
Figure GDA0004242700580000064
步骤2,多个LEO卫星中的每个LEO卫星制定星上资源编排动作集。
以卫星节点LEO-1为例,针对业务-a,编排动作由在节点LEO-1上分配的算力资源量
Figure GDA0004242700580000065
和在节点LEO-1上分配的网络资源量/>
Figure GDA0004242700580000066
组成。对于业务-a,节点LEO-1上的动作集合为/>
Figure GDA0004242700580000067
步骤3,在LEO-1,LEO-2,LEO-3,LEO-4,LEO-5以及LEO-6上部署的每个演员模块在当前的状态下,基于本地资源编排策略,选择资源编排动作,将资源状态上报给GEO模块。
步骤4,GEO卫星的业务评价模块设置资源编排策略的奖励函数。
针对业务-a和业务-b分别设置资源编排策略的奖励函数ra、rb,根据奖励函数和资源状态,比如针对业务-a,在评论家模块中计算选择当前资源编排动作的编排策略的评价结果。需要考虑业务-a在卫星网络中的传输时延
Figure GDA0004242700580000068
丢包率/>
Figure GDA0004242700580000069
带宽资源满足率/>
Figure GDA00042427005800000610
以及算力资源满足率/>
Figure GDA00042427005800000611
等参数。
步骤5:根据奖励函数给出的评价结果,LEO-1、LEO-2、LEO-3、LEO-4、LEO-5以及LEO-6不断调整优化本地资源编排策略。
每个演员模块在每个状态,基于强化学习方法,选择本地最优的计策。每个演员模块的编排策略网络的输入为节点本地状态,生成编排策略网络参数θ。评论家模块的价值网络的输入为全局状态,生成价值网络参数ω。设算法迭代轮数为T,随机初始化策略网络和价值网络参数,进入迭代。
以卫星节点LEO-1为例,针对业务-a,在策略网络中使用
Figure GDA0004242700580000071
作为输入,输出动作
Figure GDA0004242700580000072
基于动作/>
Figure GDA0004242700580000073
得到新的状态/>
Figure GDA0004242700580000074
新的全局状态sa(t)′以及奖励函数值ra。在价值网络中分别使用全局状态sa(t)和sa(t)′作为输入,分别得到价值V(sa(t))和V(sa(t)′)。计算时序差分(Temporal Difference)误差δ=ra+γV(sa(t)')-V(sa(t)),γ为衰减因子。使用均方差损失函数∑(δ,ω)2作为新的价值网络参数ω′的梯度更新。在每步更新中,评论家模块根据这个误差来调整自己的评价标准,使得自己的评价更接近于环境的真实回报。另一方面,节点LEO-1上面部署的演员-1模块根据评论家-a模块的评价结果,进而更新得到新的策略网络参数θ′,/>
Figure GDA0004242700580000075
α为步长,来调整自己的资源编排策略。得到新的资源编排策略后,评论家-a模块再去与环境进行交互,然后重复估计价值函数的操作,演员-1模块再重新编排策略,即进入新一个轮次的迭代。
针对业务-a,节点LEO-5、LEO-3以及LEO-4的操作与LEO-1类似。
需要说明的是,在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定的编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明内容,并且上面对特定语言、系统功能模块的调用所做的描述仅仅是为了披露发明的最佳实施方式。
在此处所提供的说明书中,说明了大量的具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下完成实现。在一些示例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要去及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于强化学习的卫星网络资源编排方法,由系统实施,所述系统包括至少一个GEO卫星和多个LEO卫星;所述GEO卫星部署多个业务评价模块;所述LEO卫星部署多个分布式策略模块和资源模块;其特征在于,所述方法包括:
多个LEO卫星中的每个LEO卫星收集系统中该LEO卫星的资源状态,形成资源状态集;
多个LEO卫星中的每个LEO卫星基于所述资源状态集中的资源情况,根据本地资源编排策略在资源编排动作集中选择资源编排动作,将所述资源状态上报给所述GEO卫星;所述资源编排动作集在分布式策略模块中制定,所述资源编排动作集为LEO卫星节点上承载的某一类业务分配资源的所有动作组成;
所述GEO卫星的业务评价模块对所述资源编排策略设置奖励函数;
根据所述奖励函数和所述资源状态,用于针对业务种类,在所述业务评价模块中计算选择当前资源编排动作的编排策略的评价结果;
多个LEO卫星中的每个LEO卫星根据业务评价模块给出的评价结果,调整优化所述资源编排策略。
2.根据权利要求1所述的方法,其特征在于,所述资源模块包括算力资源模块和网络资源模块。
3.根据权利要求1所述的方法,其特征在于,所述收集系统中LEO卫星的资源状态的方式包括:分布式策略模块以报文发送的方式请求资源模块上报资源状态信息。
4.根据权利要求1所述的方法,其特征在于,所述收集系统中LEO卫星的资源状态的方式还包括:资源模块以周期推送的方式主动上报资源状态信息到分布式策略模块。
5.根据权利要求1所述的方法,其特征在于,对于LEO卫星节点q,其资源状态由业务种类i,在t时刻在本节点上使用的资源
Figure FDA0004242700570000011
以及t时刻在节点q上可用资源resq(t)组成;
所述
Figure FDA0004242700570000012
包括业务种类i在t时刻在本节点使用的算力资源以及网络资源;
所述resq(t)包括t时刻在节点q上可用的算力资源以及网络资源;
LEO卫星节点q上状态集合
Figure FDA0004242700570000013
6.根据权利要求5所述的方法,还包括,每个LEO卫星节点上的状态集合组成全局的状态集合,即:
Figure FDA0004242700570000014
1≤q≤Q,Q是系统中LEO卫星节点个数。
7.根据权利要求1所述的方法,其特征在于,对于LEO卫星节点q,编排动作由针对业务种类i,在本节点上分配的算力资源量
Figure FDA0004242700570000015
以及在本节点上分配的网络资源量/>
Figure FDA0004242700570000016
组成;
对于业务种类i,节点q上的动作集合
Figure FDA0004242700570000017
8.根据权利要求7所述的方法,还包括,每个LEO卫星节点上的动作集合组成全局的动作集合,即:
Figure FDA0004242700570000021
1≤q≤Q,Q是系统中LEO卫星节点个数。
9.根据权利要求1所述的方法,其特征在于,所述计算选择当前资源编排动作的编排策略的评价结果,需要考虑业务种类i在卫星网络中的传输时延
Figure FDA0004242700570000022
丢包率/>
Figure FDA0004242700570000023
带宽资源满足率/>
Figure FDA0004242700570000024
以及算力资源满足率/>
Figure FDA0004242700570000025
参数;
所述参数中有正向参数,也有负向参数,而且量纲不一,需要归一化之后再构建奖励函数;对于业务种类i,奖励函数为:
Figure FDA0004242700570000026
Figure FDA0004242700570000027
为归一化之后的参数,a、b、c、d为各自的权重。
10.一种基于强化学习的卫星网络资源编排系统,包括至少一个GEO卫星和多个LEO卫星;所述GEO卫星部署多个业务评价模块;所述LEO卫星部署多个分布式策略模块和资源模块,所述系统执行如权利要求1-9任一项所述的方法。
CN202210363049.8A 2022-04-07 2022-04-07 一种基于强化学习的卫星网络资源编排方法及系统 Active CN114710200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210363049.8A CN114710200B (zh) 2022-04-07 2022-04-07 一种基于强化学习的卫星网络资源编排方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210363049.8A CN114710200B (zh) 2022-04-07 2022-04-07 一种基于强化学习的卫星网络资源编排方法及系统

Publications (2)

Publication Number Publication Date
CN114710200A CN114710200A (zh) 2022-07-05
CN114710200B true CN114710200B (zh) 2023-06-23

Family

ID=82173501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210363049.8A Active CN114710200B (zh) 2022-04-07 2022-04-07 一种基于强化学习的卫星网络资源编排方法及系统

Country Status (1)

Country Link
CN (1) CN114710200B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473842A (zh) * 2022-09-13 2022-12-13 中国联合网络通信集团有限公司 算力网络信息通告与路由决策方法、装置及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106921523A (zh) * 2017-03-17 2017-07-04 西安电子科技大学 一种基于geo/leo卫星网络的数据传输方法
CN113258988A (zh) * 2021-05-13 2021-08-13 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102300323B (zh) * 2011-08-23 2014-05-28 西安空间无线电技术研究所 一种星载无线资源管理分配方法
US10419106B1 (en) * 2017-09-29 2019-09-17 Amazon Technologies, Inc. Satellite-based content delivery network (CDN) in an extraterrestrial environment
CN108307435B (zh) * 2018-01-29 2021-02-19 大连大学 一种基于sdsin的多任务路由选择方法
US20200019435A1 (en) * 2018-07-13 2020-01-16 Raytheon Company Dynamic optimizing task scheduling
CN109743735A (zh) * 2018-12-18 2019-05-10 北京邮电大学 一种卫星通信系统中基于深度增强学习的动态信道分配方法
CN110620611B (zh) * 2019-09-29 2021-12-10 南京邮电大学 一种基于geo与leo双层卫星网络的协同频谱感知方法
US20220017239A1 (en) * 2020-07-17 2022-01-20 The Aerospace Corporation Methods and systems for orbit estimation of a satellite
CN111970047B (zh) * 2020-08-25 2022-03-25 桂林电子科技大学 一种基于强化学习的leo卫星信道分配方法
CN113055489B (zh) * 2021-03-23 2022-09-06 北京计算机技术及应用研究所 基于q学习的星地融合网络资源分配策略的实现方法
CN113207128B (zh) * 2021-05-07 2022-12-06 东南大学 强化学习下的无人机集群雷达通信一体化资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106921523A (zh) * 2017-03-17 2017-07-04 西安电子科技大学 一种基于geo/leo卫星网络的数据传输方法
CN113258988A (zh) * 2021-05-13 2021-08-13 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于边缘智能协同的天地一体化信息网络研究;周旭;《电信科学》;全文 *

Also Published As

Publication number Publication date
CN114710200A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
Kato et al. Optimizing space-air-ground integrated networks by artificial intelligence
CN112351503B (zh) 基于任务预测的多无人机辅助边缘计算资源分配方法
Seid et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: A deep reinforcement learning approach
Zhou et al. An air-ground integration approach for mobile edge computing in IoT
Liu et al. Deep reinforcement learning based latency minimization for mobile edge computing with virtualization in maritime UAV communication network
Hou et al. Edge intelligence for mission-critical 6G services in space-air-ground integrated networks
Chen et al. Satellite-based computing networks with federated learning
CN113346944B (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113543074B (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN113328777A (zh) 面向巨型卫星星座的分层网络运维和资源管控系统及方法
Chen et al. Learning-based computation offloading for IoRT through Ka/Q-band satellite–terrestrial integrated networks
CN114710200B (zh) 一种基于强化学习的卫星网络资源编排方法及系统
Peng et al. Edge intelligence for multi-dimensional resource management in aerial-assisted vehicular networks
Zheng et al. Leo satellite channel allocation scheme based on reinforcement learning
Xiao et al. A novel task allocation for maximizing reliability considering fault-tolerant in VANET real time systems
CN114268575B (zh) 天地一体化信息网络中自适应立体传输方法及系统
CN115361048B (zh) 一种巨型低轨星座无服务器边缘计算任务编排方法及装置
Zhang Task Offloading and Resource Allocation using Deep Reinforcement Learning
CN114024894B (zh) 软件定义天地一体化网络中的动态传算方法及系统
Chao et al. Satellite-UAV-MEC collaborative architecture for task offloading in vehicular networks
Grasso et al. Slicing a FANET for heterogeneous delay-constrained applications
Zhang et al. Accelerate deep learning in IoT: Human-interaction co-inference networking system for edge
Zhang et al. Application of artificial intelligence for space-air-ground-sea integrated network
Wu et al. QoS provisioning in space information networks: Applications, challenges, architectures, and solutions
Gao et al. Reusable MBSE Modeling and Simulation for Satellite Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant