CN112543049A - 一种集成地面卫星网络的能效优化方法及装置 - Google Patents

一种集成地面卫星网络的能效优化方法及装置 Download PDF

Info

Publication number
CN112543049A
CN112543049A CN202011280697.4A CN202011280697A CN112543049A CN 112543049 A CN112543049 A CN 112543049A CN 202011280697 A CN202011280697 A CN 202011280697A CN 112543049 A CN112543049 A CN 112543049A
Authority
CN
China
Prior art keywords
energy efficiency
satellite network
agent
integrated
efficiency optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011280697.4A
Other languages
English (en)
Other versions
CN112543049B (zh
Inventor
张海君
李孝楠
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202011280697.4A priority Critical patent/CN112543049B/zh
Publication of CN112543049A publication Critical patent/CN112543049A/zh
Application granted granted Critical
Publication of CN112543049B publication Critical patent/CN112543049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/06Airborne or Satellite Networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了一种集成地面卫星网络的能效优化方法及装置,该方法包括:构建集成地面卫星网络系统模型;其中,集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为用户提供服务;将集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;将集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。本发明可以对集成地面卫星网络实现用户协同和功率控制,以此来获得最优的能效优化,从而提高整个系统的能量效率。

Description

一种集成地面卫星网络的能效优化方法及装置
技术领域
本发明涉及无线通信技术领域,特别涉及一种集成地面卫星网络的能效优化方法及装置。
背景技术
天地一体化作为卫星网络和地面网络的集成受到了广泛关注和研究,它可同时保证高可靠、低时延,并提供无处不在的通信。近年来,NOMA技术应用在由地面多个基站与空中多个近地卫星组成的集成地面卫星网络被认为是一种有前途的场景。在集成地面卫星网络场景中,地面基站提供低成本的通信服务,同时卫星可以用于覆盖服务地面基站不能服务的用户,比如陆地上欠发达的地区,实现更大的覆盖距离和更好的服务质量。由于集成地面卫星网络的资源有限和系统能量效率较低,随着通信中数据流量的不断增长,最主要的挑战之一是如何通过有效的方法进行合理的资源分配和进行系统的能效优化。为了应对这些挑战,深度强化学习用于集成地面卫星网络的能效优化是一个较好的方法。
传统的深度强化学习在单智能体场景有很好的运用,但是将它们运用在多智能体中就会出现新的问题。每个智能体在不断地学习改进其策略,因此从每一个智能体角度来看环境是一个动态不稳定的。目前,依靠多智能体强化学习算法进行集成地面卫星网络的能效优化尚未深入,是一个亟需解决的问题。
发明内容
本发明提供一种集成地面卫星网络的能效优化方法及装置,通过将多智能体深度强化学习技术用在基于NOMA的集成地面卫星网络中,实现用户协同和功率控制来获得系统的最大能量效率,解决集成地面卫星网络的能效优化问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种集成地面卫星网络的能效优化方法,包括:
构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。
进一步地,在所述集成地面卫星网络系统中,用户与基站及卫星通过NOMA技术实现通信。
进一步地,采用基于MADDPG的多智能体深度强化学习框架实现系统的能效优化,包括:
S1,随机初始化神经网络的相关参数和神经网络的回放经验池;
S2,对于每个回合,初始化集成地面卫星网络场景的参数和系统观测空间;
S3:对于每个回合的每个步长,每个智能体观测得到自己这个时隙的状态;
S4:每个智能体根据探索和策略选择动作,选择基站或卫星接入和选择功率控制因子,并执行选择的动作;根据所选择的动作计算此时隙的奖励,观测下一个状态,并将观测值、动作、奖励和下一个观测值存入回放经验池;
S5:对于每个智能体,当回放经验池中的经验数量满足预设数量要求时,从回放经验池中随机抽取一批数据,并根据抽取的数据更新神经网络相关参数;
S6:当长期奖励函数维持在预设的范围内不再上升时,终止优化过程。
进一步地,所述S1中随机初始化神经网络的相关参数,包括:
随机初始化actor网络和critic网络的相关参数。
进一步地,所述S2中初始化集成地面卫星网络场景的参数,包括:
初始化基站和卫星的最大发射功率、用户与基站及卫星间的信道增益。
进一步地,所述S3在每个智能体观测得到自己这个时隙的状态后,还包括:
判断当前时隙的能量效率是否大于上个时隙的能量效率;
若当前时隙的能量效率大于上个时隙的能量效率,则得到的状态为1;
若当前时隙的能量效率不大于上个时隙的能量效率,则得到的状态为0。
进一步地,所述S4中基于MADDPG的多智能体深度强化学习框架输出策略值为连续值。
进一步地,所述S4中根据所选择的动作计算此时隙的奖励,包括:
将每个智能体当前时隙的能量效率作为它的奖励值,奖励值为:
Figure BDA0002780665480000031
其中,EEm(t)表示第m个智能体在t时刻的能量效率,
Figure BDA0002780665480000032
Figure BDA0002780665480000033
表示第m个智能体在t时刻与第n个基站或第l个卫星的连接状态,SINRBm(t)和SINRSm(t)表示第m个智能体在t时刻与基站或卫星相连接的信噪比,pm(t)和ps,m(t)表示第m个智能体的功率。
进一步地,所述S5中更新神经网络相关参数,包括:
actor网络通过梯度下降更新网络相关参数,critic网络通过更新Q函数来最小化损失函数。
另一方面,本发明还提供了一种集成地面卫星网络的能效优化装置,包括:
集成地面卫星网络系统模型构建模块,用于构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
能效优化问题建模模块,用于将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
集成地面卫星网络的能效优化模块,用于将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明以最大化能量效率为目标,将NOMA技术应用于集成地面卫星网络的场景中,基于多智能体深度强化学习提出了一种用户协同和功率控制的资源分配方法,从而有效提升了整个系统的能量效率,实现了能量效率的最大化。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的集成地面卫星网络的架构图;
图2是本发明实施例提供的集成地面卫星网络的能效优化方法的流程图;
图3是本发明实施例提供的基于MADDPG的多智能体深度强化学习框架实现系统的能效优化的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
针对集成地面卫星网络能量效率低下的情况,本实施例提供了一种集成地面卫星网络的能效优化方法,主要是将NOMA技术应用于集成地面卫星网络的场景之中,并使用基于MADDPG的多智能体深度强化学习框架进行最优的能效优化,从而提高整个系统的总能量效率。该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该方法的执行流程如图2所示,包括以下步骤:
S101,构建集成地面卫星网络系统模型;
如图1所示,本实施例的集成地面卫星网络系统中包括多个地面基站和多个空中近地卫星,多个基站和多个卫星用于为多个用户提供服务;而且,在本实施例中,网络系统中的用户与基站及卫星之间通过NOMA技术实现通信。
S102,将集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
S103,将集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。
具体地,在本实施例中,采用基于MADDPG的多智能体深度强化学习框架实现系统的能效优化,包括:
S1031,随机初始化神经网络的相关参数和回放经验池;其中,初始化神经网络的相关参数包括随机初始化actor网络和critic网络的相关参数;
S1032,对于每个回合episode,初始化集成地面卫星网络场景的参数和系统观测空间及动作空间;其中,初始化集成地面卫星网络场景的参数包括初始化基站和卫星的最大发射功率、用户与基站及卫星间的信道增益等;
S1033:对于每个回合的每个步长,每个智能体观测得到自己这个时隙的状态;若当前时隙的能量效率大于上个时隙的能量效率,则得到的状态为1;若当前时隙的能量效率不大于上个时隙的能量效率,则得到的状态为0;
S1034:每个智能体根据探索和策略值选择动作,选择基站或卫星接入和选择功率控制因子,并执行选择的动作;根据所选择的动作计算此时隙的奖励,观测下一个状态,并将观测值、动作、奖励和下一个观测值存入回放经验池;
S1035:对于每个智能体,当回放经验池中的经验数量满足预设数量要求时,从回放经验池中随机抽取一批数据,更新神经网络相关参数;其中,actor网络通过梯度下降更新网络相关参数,critic网络通过更新Q函数来最小化损失函数;
S1036:当长期奖励函数维持在预设的范围内不再上升时,系统的能量效率都达到最优,终止该资源的优化过程。
进一步地,需要说明的是,上述S1032中,集成地面卫星网络中的多智能体观测本地信息,即使其余智能体与网络进行交互,也可以稳定的更新参数,环境对于智能体来说是稳定的。S1034中,神经网络输出动作的策略值,每个智能体根据探索和策略值选择动作,选择基站或卫星接入和选择功率控制因子。而且采用基于多智能体深度确定性策略梯度算法MADDPG,输出策略值为连续值,由此可以解决连续动作空间问题。此外,MADDPG算法将回放经验池的数据进行改进,把观测值、动作、奖励和下一个观测值x,a,r,x'存入回放经验池,能够适应于多智能体的动态环境。S1034中每个智能体计算该时隙自身的能量效率作为即刻获得的奖励,奖励的表达式如下:
Figure BDA0002780665480000051
其中,EEm(t)表示第m个智能体在t时刻的能量效率,
Figure BDA0002780665480000052
Figure BDA0002780665480000053
表示第m个智能体在t时刻与第n个基站或第l个卫星的连接状态,SINRBm(t)和SINRSm(t)表示第m个智能体在t时刻与基站或卫星相连接的信噪比,pm(t)和ps,m(t)表示第m个智能体的功率。
上述S1035中,MADDPG算法更新网络中的actor网络和critic网络,MADDPG训练时采用集中式学习训练actor与critic,使用时actor只用知道局部信息就能运行,critic需要其他智能体的策略信息。actor网络通过梯度下降更新网络相关参数,critic网络通过更新Q函数来最小化损失函数,如下:
Figure BDA0002780665480000061
Figure BDA0002780665480000062
其中,
Figure BDA0002780665480000063
是目标函数的梯度,x,a,r,x'分别是观测空间、动作空间和经验回放池以及下一个观测值。
Figure BDA0002780665480000064
是用来评价动作的Q函数。
Figure BDA0002780665480000065
是损失函数的公式。
综上,本实施例将NOMA技术应用于集成地面卫星网络场景,同时将该网络场景的能效优化问题建模为马尔可夫决策模型,将地面卫星网络与深度强化学习相结合,采用基于多智能体深度确定性策略梯度算法MADDPG的深度强化学习框架对用户协同和功率控制做出最优决策,通过实现用户协同和功率控制来获得系统的最大能量效率,最终实现基于深度强化学习的集成地面卫星的能量优化,实现资源分配优化,提高系统总能量效率。多智能体深度确定性策略梯度算法MADDPG可以解决传统深度强化学习在多智能体环境所遇到的问题。
第二实施例
本实施例提供了一种集成地面卫星网络的能效优化装置,该装置包括:
集成地面卫星网络系统模型构建模块,用于构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
能效优化问题建模模块,用于将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
集成地面卫星网络的能效优化模块,用于将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。
本实施例的集成地面卫星网络的能效优化装置与上述第一实施例的集成地面卫星网络的能效优化方法相对应;其中,本实施例的集成地面卫星网络的能效优化装置中的各功能模块所实现的功能与上述第一实施例的集成地面卫星网络的能效优化方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (10)

1.一种集成地面卫星网络的能效优化方法,其特征在于,所述方法包括:
构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。
2.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,在所述集成地面卫星网络系统中,用户与基站及卫星通过NOMA技术实现通信。
3.如权利要求1所述的集成地面卫星网络的能效优化方法,其特征在于,采用基于MADDPG的多智能体深度强化学习框架实现系统的能效优化,包括:
S1,随机初始化神经网络的相关参数和神经网络的回放经验池;
S2,对于每个回合,初始化集成地面卫星网络场景的参数和系统观测空间;
S3:对于每个回合的每个步长,每个智能体观测得到自己这个时隙的状态;
S4:每个智能体根据探索和策略选择动作,选择基站或卫星接入和选择功率控制因子,并执行选择的动作;根据所选择的动作计算此时隙的奖励,观测下一个状态,并将观测值、动作、奖励和下一个观测值存入回放经验池;
S5:对于每个智能体,当回放经验池中的经验数量满足预设数量要求时,从回放经验池中随机抽取一批数据,并根据抽取的数据更新神经网络相关参数;
S6:当长期奖励函数维持在预设的范围内不再上升时,终止优化过程。
4.如权利要求3所述的集成地面卫星网络的能效优化方法,其特征在于,所述S1中随机初始化神经网络的相关参数,包括:
随机初始化actor网络和critic网络的相关参数。
5.如权利要求3所述的集成地面卫星网络的能效优化方法,其特征在于,所述S2中初始化集成地面卫星网络场景的参数,包括:
初始化基站和卫星的最大发射功率、用户与基站及卫星间的信道增益。
6.如权利要求3所述的集成地面卫星网络的能效优化方法,其特征在于,所述S3在每个智能体观测得到自己这个时隙的状态之后,还包括:
判断当前时隙的能量效率是否大于上个时隙的能量效率;
若当前时隙的能量效率大于上个时隙的能量效率,则得到的状态为1;
若当前时隙的能量效率不大于上个时隙的能量效率,则得到的状态为0。
7.如权利要求3所述的集成地面卫星网络的能效优化方法,其特征在于,所述S4中基于MADDPG的多智能体深度强化学习框架输出策略值为连续值。
8.如权利要求3所述的集成地面卫星网络的能效优化方法,其特征在于,所述S4中根据所选择的动作计算此时隙的奖励,包括:
将每个智能体当前时隙的能量效率作为它的奖励值,奖励值为:
Figure FDA0002780665470000021
其中,EEm(t)表示第m个智能体在t时刻的能量效率,
Figure FDA0002780665470000022
Figure FDA0002780665470000023
表示第m个智能体在t时刻与第n个基站或第l个卫星的连接状态,SINRBm(t)和SINRSm(t)表示第m个智能体在t时刻与基站或卫星相连接的信噪比,pm(t)和ps,m(t)表示第m个智能体的功率。
9.如权利要求3所述的集成地面卫星网络的能效优化方法,其特征在于,所述S5中更新神经网络相关参数,包括:
actor网络通过梯度下降更新网络相关参数,critic网络通过更新Q函数来最小化损失函数。
10.一种集成地面卫星网络的能效优化装置,其特征在于,所述装置包括:
集成地面卫星网络系统模型构建模块,用于构建集成地面卫星网络系统模型;其中,所述集成地面卫星网络系统中包括多个基站和多个近地卫星,多个基站和多个卫星用于为多个用户提供服务;
能效优化问题建模模块,用于将所述集成地面卫星网络系统的能效优化问题建模为马尔可夫决策模型;
集成地面卫星网络的能效优化模块,用于将所述集成地面卫星网络系统中的每一用户抽象为一智能体,以最大化系统的总能量效率为目标,基于所述马尔可夫决策模型,采用基于深度确定性策略梯度算法MADDPG的多智能体深度强化学习框架实现系统的能效优化。
CN202011280697.4A 2020-11-16 2020-11-16 一种集成地面卫星网络的能效优化方法及装置 Active CN112543049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280697.4A CN112543049B (zh) 2020-11-16 2020-11-16 一种集成地面卫星网络的能效优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280697.4A CN112543049B (zh) 2020-11-16 2020-11-16 一种集成地面卫星网络的能效优化方法及装置

Publications (2)

Publication Number Publication Date
CN112543049A true CN112543049A (zh) 2021-03-23
CN112543049B CN112543049B (zh) 2021-10-29

Family

ID=75014105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280697.4A Active CN112543049B (zh) 2020-11-16 2020-11-16 一种集成地面卫星网络的能效优化方法及装置

Country Status (1)

Country Link
CN (1) CN112543049B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342537A (zh) * 2021-07-05 2021-09-03 中国传媒大学 卫星虚拟资源分配方法、装置、存储介质及设备
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113613301A (zh) * 2021-08-04 2021-11-05 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN113890596A (zh) * 2021-11-03 2022-01-04 军事科学院系统工程研究院网络信息研究所 基于深度强化学习的分布式星群动态组网方法
CN114553299A (zh) * 2022-02-17 2022-05-27 重庆邮电大学 一种卫星系统波束调度和资源分配方法
CN114614878A (zh) * 2022-02-14 2022-06-10 哈尔滨工业大学(深圳) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN114698045A (zh) * 2022-03-30 2022-07-01 西安交通大学 大规模leo卫星网络下的串行q学习分布式切换方法及系统
CN115173923A (zh) * 2022-07-04 2022-10-11 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115277420A (zh) * 2022-09-27 2022-11-01 南京信息工程大学 一种虚拟现实网络资源管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006080003A2 (en) * 2005-01-30 2006-08-03 Elbit Systems Ltd. Method and apparatus for distributing assignments
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN110167045A (zh) * 2019-04-17 2019-08-23 北京科技大学 一种异构网络能效优化方法
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN111130624A (zh) * 2019-12-23 2020-05-08 军事科学院系统工程研究院网络信息研究所 一种空天地一体化空间信息网络优化传输方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006080003A2 (en) * 2005-01-30 2006-08-03 Elbit Systems Ltd. Method and apparatus for distributing assignments
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN110167045A (zh) * 2019-04-17 2019-08-23 北京科技大学 一种异构网络能效优化方法
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN111130624A (zh) * 2019-12-23 2020-05-08 军事科学院系统工程研究院网络信息研究所 一种空天地一体化空间信息网络优化传输方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZEYU QIN, ETC.: "Traffic Optimization in Satellites Communications:", 《2020 INTERNATIONAL WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113346944B (zh) * 2021-06-28 2022-06-10 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113342537A (zh) * 2021-07-05 2021-09-03 中国传媒大学 卫星虚拟资源分配方法、装置、存储介质及设备
CN113342537B (zh) * 2021-07-05 2023-11-14 中国传媒大学 卫星虚拟资源分配方法、装置、存储介质及设备
CN113613301A (zh) * 2021-08-04 2021-11-05 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN113890596A (zh) * 2021-11-03 2022-01-04 军事科学院系统工程研究院网络信息研究所 基于深度强化学习的分布式星群动态组网方法
CN114614878A (zh) * 2022-02-14 2022-06-10 哈尔滨工业大学(深圳) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN114614878B (zh) * 2022-02-14 2023-08-29 哈尔滨工业大学(深圳) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN114553299A (zh) * 2022-02-17 2022-05-27 重庆邮电大学 一种卫星系统波束调度和资源分配方法
CN114553299B (zh) * 2022-02-17 2024-03-29 深圳泓越信息科技有限公司 一种卫星系统波束调度和资源分配方法
CN114698045A (zh) * 2022-03-30 2022-07-01 西安交通大学 大规模leo卫星网络下的串行q学习分布式切换方法及系统
CN114698045B (zh) * 2022-03-30 2023-08-29 西安交通大学 大规模leo卫星网络下的串行q学习分布式切换方法及系统
CN115173923A (zh) * 2022-07-04 2022-10-11 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115173923B (zh) * 2022-07-04 2023-07-04 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115277420A (zh) * 2022-09-27 2022-11-01 南京信息工程大学 一种虚拟现实网络资源管理方法

Also Published As

Publication number Publication date
CN112543049B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN112543049B (zh) 一种集成地面卫星网络的能效优化方法及装置
CN109922137B (zh) 无人机协助的计算迁移方法
CN111163178B (zh) 一种边缘计算中基于博弈论的服务部署及任务卸载方法
CN113794494B (zh) 一种面向低轨卫星网络的边缘计算系统及计算卸载优化方法
US11265077B1 (en) Method for deploying task in satellite network
CN112533237B (zh) 工业互联网中支持大规模设备通信的网络容量优化方法
CN113490184B (zh) 一种面向智慧工厂的随机接入资源优化方法及装置
CN110471621B (zh) 一种面向实时数据处理应用的边缘协同存储方法
CN114884949B (zh) 基于maddpg算法的低轨卫星物联网任务卸载方法
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
CN115297171B (zh) 一种蜂窝车联网分级决策的边缘计算卸载方法及系统
CN113993218A (zh) 一种mec架构下基于多智能体drl的协作卸载和资源分配方法
EP4024212A1 (en) Method for scheduling interference workloads on edge network resources
CN113573320A (zh) 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN114599117B (zh) 低轨卫星网络随机接入中回退资源的动态配置方法
CN112543499A (zh) 无人机辅助无线携能通信物联网的资源分配方法及装置
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
CN114520991B (zh) 基于无人机集群的边缘网络自适应部署方法
CN112533217A (zh) 基站天线的配置方法和装置、基站、计算机可读存储介质
CN115941581A (zh) 云游戏路由调度方法、设备、存储介质及装置
CN115987375A (zh) 融合网络的电力设备关联与资源优化方法、系统及介质
CN116341685B (zh) 基于联合注意力的分布式计算卸载模型训练方法和系统
CN115277452B (zh) 基于边端协同的ResNet自适应加速计算方法及应用
CN117729555B (zh) 空中基站部署方法、协同系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant