CN114928401A - 一种基于多智能体强化学习的leo星间链路的动态规划方法 - Google Patents

一种基于多智能体强化学习的leo星间链路的动态规划方法 Download PDF

Info

Publication number
CN114928401A
CN114928401A CN202210536205.6A CN202210536205A CN114928401A CN 114928401 A CN114928401 A CN 114928401A CN 202210536205 A CN202210536205 A CN 202210536205A CN 114928401 A CN114928401 A CN 114928401A
Authority
CN
China
Prior art keywords
satellite
agent
inter
decision
satellites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210536205.6A
Other languages
English (en)
Other versions
CN114928401B (zh
Inventor
冉泳屹
皮嘉豪
李沁钰
雒江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210536205.6A priority Critical patent/CN114928401B/zh
Publication of CN114928401A publication Critical patent/CN114928401A/zh
Application granted granted Critical
Publication of CN114928401B publication Critical patent/CN114928401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18521Systems of inter linked satellites, i.e. inter satellite service
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Astronomy & Astrophysics (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明涉及卫星通信技术领域,公开了一种基于多智能体强化学习的LEO星间链路的动态规划方法,包括:S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型;S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛;S3、智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,链路执行器根据智能体的决策与相应的卫星建立平面间星间链路。本发明可以显著降低ISLs切换率,提高星座总吞吐量和卫星平均星间链路的数量。

Description

一种基于多智能体强化学习的LEO星间链路的动态规划方法
技术领域
本发明涉及卫星通信技术领域,具体涉及一种基于多智能体强化学习的LEO星间链路的动态规划方法。
背景技术
近年来,低地球轨道(LEO)卫星星座已成为一种新兴且有前途的技术,能够为地面用户提供低延迟、宽带通信和全球覆盖,并有望在6G通信中发挥重要作用。许多头部公司,如SpaceX、OneWeb和亚马逊,都试图部署一个大型的LEO卫星星座,以提供稳定的宽带互联网服务。低轨卫星之间可以利用光学或可见光通信系统实现卫星间链路(Inter-SatelliteLinks,ISLs)的连接,包括:平面内ISLs,连接同一轨道平面的相邻卫星;平面间ISLs,连接不同轨道平面的卫星。由于同一轨道平面内卫星间的距离可以在很长时间内保持恒定,所以平面内ISLs相当稳定。然而,不同轨道平面之间的星间距离是时变的:卫星在赤道上空时距离最长,在极地边界时距离最短。此外,在不同的高度部署轨道平面时,轨道周期也会不同,导致拓扑结构的非周期性。因此,任何固定的平面间ISLs连通性方案都不能很好地满足星座拓扑的变化,动态规划平面间ISLs至关重要。
由于低地球轨道星座的环境特性和硬件条件的限制,动态规划低地球轨道星座的平面间ISLs具有一定的挑战性。首先,由于LEO星座的动态运动和高维性,星座中星间链路的规划变得非常复杂。数百颗卫星相对于地面用户以大约7.5km/s的速度移动,每颗卫星都有一组用于建立ISLs的平面间邻居卫星。这导致了平面间ISLs的规划是NP-hard(所有NP问题都能在多项式时间复杂度内归遇到的问题)的,并面临“维数诅咒”的问题;其次,由于有限的视线距离,每个卫星只能观测到部分星座信息,实时采集全球星座信息成本较高,而部分信息容易陷入局部最优;第三,一颗卫星可能有资格与其多个相邻卫星建立平面间ISLs,同一轨道上的卫星之间存在竞争和合作,与其他卫星竞争一颗卫星是为了提高其平面间ISLs的质量,而合作则是为了使星座的总吞吐量最大化,对于整个星座来说,在竞争与合作之间实现良好的权衡是至关重要的。
现有的研究大多集中在分析星间链路的特征和模型,而没有对卫星间连接进行规划。例如,作者在文献[1]中提出了一个功率预算模型来分析倾斜范围对功率需求的影响,文献[2]在通过研究卫星之间的可见性及其天线转向能力,对星间链路的连接进行了全面的分析。这些工作只是为平面间星间链路提供了一些参考,并没有提供任何具体的星间链路规划方案。基本的星间链路规划算法是启发式的[3]-[5],它们根据LEO星座的部分信息,通过贪婪、模拟退火等方法推导出方案,但是,上述文献很容易陷入局部最优;另一种典型的方法由文献[6]提出,该方法用有限状态自动化对星间链路网络进行建模,并用整数线性规划对其进行求解,但是,该算法计算量大,不适合高维度、高动态性的LEO星座。
因此,设计一种能够使整个星座在竞争与合作之间实现良好的权衡的LEO星间链路的规划方法是至关重要。
发明内容
为了解决上述问题,本发明提出了一种基于多智能体强化学习的LEO星间链路的动态规划方法,联合优化星座总吞吐量和平面间ISLs切换率,以实现整个星座在竞争与合作之间实现良好的权衡。
本发明通过下述技术方案实现:
一种基于多智能体强化学习的LEO星间链路的动态规划方法,包括:
S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合
Figure BDA0003648307610000022
使卫星网络函数效用最大化;
S3、智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
作为优化,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i在当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体的正向为:智能体所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。
作为优化,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,即智能体i选择与卫星Vi建立星间链路,则智能体i在智能体i的正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
作为优化,所述奖励函数为
Figure BDA0003648307610000021
其中Na=N-Nm,为智能体个数,N为卫星的总个数,Nm为在第m个轨道平面上的卫星数量,ri为智能体i的贡献:
Figure BDA0003648307610000031
其中,αi为智能体i的决策冲突折扣因子,ai为智能体i的动作,ρ为单位通信速率的利润,λ为智能体i的单位天线转向角转向成本,
Figure BDA0003648307610000032
为智能体i所在的卫星与ai对应的目标卫星之间的天线转向角,RSNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间通信的最大数据速率。
作为优化,S2的具体训练方法为:
S2.1、初始化一个经验回放池D用以存储状态转移数据;
S2.2、从所述经验回放池中随机采样小批量(1024个)的状态转移数据,在每个决策时刻t结束时,更新智能体i的策略网络πi和价值网络
Figure BDA0003648307610000033
直到智能体i的策略网络πi和价值网络
Figure BDA0003648307610000034
收敛,其中,
Figure BDA0003648307610000035
Na表示智能体个数,ai表示智能体i的动作,si表示智能体i的状态,
Figure BDA0003648307610000036
为第Na个智能体的动作,
Figure BDA0003648307610000037
为第Na个智能体的状态。
作为优化,S2.1的具体实施步骤为:
S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i根据当前策略网络πi、当前状态si,t={Di,Li,Ri}和噪声,选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
S2.1.4、在状态转移完成后,以及奖励数据获取完成后,经验回放池记录状态转移(xt,xt+1,at,rt),其中
Figure BDA0003648307610000038
at为智能体在决策时刻t的动作集合,rt为智能体在决策时刻t获得的奖励数据集合,
Figure BDA0003648307610000039
xt为智能体在决策时刻t的状态数据集合,xt+1为智能体在决策时刻t+1的状态数据集合。
作为优化,S2.2的具体实施步骤为:
S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新:目标值
Figure BDA00036483076100000310
为:
Figure BDA00036483076100000311
其中,
Figure BDA00036483076100000312
是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N-Nm为智能体的个数,该智能体所在的卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量,
Figure BDA0003648307610000041
为目标卫星的目标价值网络;
Figure BDA0003648307610000042
分别为卫星1,...,Na对应的动作数据;
Figure BDA0003648307610000043
卫星i的奖励函数;
S2.2.2、在决策时刻t结束时,通过最小化损失
Figure BDA0003648307610000044
来更新智能体i的价值网络;
Figure BDA0003648307610000045
其中,
Figure BDA0003648307610000046
代表所有策略网络集合;
S2.2.3、在决策时刻t结束时,利用策略梯度法
Figure BDA0003648307610000047
更新智能体i的策略网络的权值:
Figure BDA0003648307610000048
S2.2.4、更新目标网络的权值θ′i
θ′i←βθi+(1-β)θ′i;β为学习率;
S2.2.5、重复S2.2.1-S2.2.4,直到智能体i的策略网络πi和价值网络
Figure BDA0003648307610000049
收敛。
作为优化,智能体i所在的卫星与ai对应的卫星之间的星座网络函数效用最大化表示为:
Figure BDA00036483076100000410
其中,
Figure BDA00036483076100000411
为第n次决策的效用函数,
Figure BDA00036483076100000412
ρ为单位通信速率的利润,λ为单位天线转向角转向成本,
Figure BDA00036483076100000413
为卫星集,u为智能体i所在的卫星,v为ai对应的卫星,RSNR(u,v)为可行卫星对uv之间的信噪比,Nd为决策次数,
Figure BDA00036483076100000414
为第n次决策的匹配图,即可行卫星对组成的星座,
Figure BDA00036483076100000415
表示卫星在正负方向上的相邻顶点数量,
Figure BDA00036483076100000416
为卫星u、v之间的边的天线转向角,E为可行卫星对集合。
作为优化,智能体i所在的卫星与ai对应的目标卫星之间的转向角
Figure BDA00036483076100000417
为:
Figure BDA00036483076100000418
其中,
Figure BDA00036483076100000419
为智能体i所在的卫星的平均天线转向角,
Figure BDA00036483076100000420
为ai对应的目标卫星的平均天线转向角,n为决策次数,
Figure BDA00036483076100000421
为第n次决策时星座中所有平面间星间链路组成的匹配图,
Figure BDA00036483076100000422
为n-1次决策时星座中所有平面间星间链路组成的匹配图。
作为优化,智能体i所在的卫星和ai对应的目标卫星组成的可行卫星对集合为:
Figure BDA0003648307610000051
其中,l(iai)为智能体i所在的卫星与ai对应的目标卫星之间的视线距离;||iai||表示智能体i所在的卫星与ai对应的目标卫星之间的欧式距离;p(i)为智能体i所在的卫星所在的轨道平面,p(ai)为ai对应的目标卫星所在的轨道平面。
本发明与现有技术相比,具有如下的优点和有益效果:
1.本发明将卫星网络中的平面间星间链路的通信速率和天线切换成本函数效用化,天线切换成本在建立新的平面间星间链路产生,本发明能够在保证较高的星座总通信速率的前提下,减少天线切换带来的成本。
2.本发明建立了一个部分可观察马尔可夫决策过程模型,并利用具有集中式训练和分布式执行范式的算法来训练智能体,同时设计了一个额外的惩罚机制(奖励函数中折扣冲突因子的设计),以引导整个星座在竞争和合作之间的良好权衡。
3.本发明为了解决“维数诅咒”问题,加快算法的收敛速度,逐轨道平面地对智能体进行动态规划算法的训练。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为卫星的星间链路拓扑和星间链路决策网络图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
在介绍本发明的基于多智能体强化学习的LEO星间链路的动态规划方法之前,先介绍如下概念。
如图1所示,本发明适用的星座为极轨星座。其中,N个卫星均匀分布在M个平面上。每个轨道平面m∈{1,2,...M}部署在给定的轨道高度hm,轨道倾角∈m,每个轨道平面由均匀分布的Nm个卫星组成。此外,将卫星u在直角坐标系中的位置表示为{xu,yu,zu},并将p(u)定义为卫星u所在的轨道平面,p(u)∈{1,2,...,M}。一般地,每个卫星共有四个星间链路。两个平面内的星间链路连接来自同一平面的相邻卫星,而两个平面间星间链路连接来自不同平面的卫星。每个卫星都有一个星间链路的决策网络,在此决策网络中,位于卫星上的智能体通过接收到所有奖励数据和状态数据进行训练,直到此决策网络收敛。位于卫星上的状态收集器通过与环境中的其他卫星相互作用来获取状态数据和奖励数据,智能体根据状态收集器收集到的状态信息进行决策,位于卫星上的链路执行器根据智能体的指令与相应的卫星建立平面间星间链路。
一、建立卫星之间的通信模型。
假设决策周期Td,决策次数Nd=T/Td,其中T为星座周期。在任意决策时刻,星座可以表示为无向图
Figure BDA0003648307610000061
其中
Figure BDA0003648307610000062
为顶点集,表示卫星,
Figure BDA0003648307610000063
为边集合,表示星间链路。定义顶点v相对于顶点u的相对方向为:
Figure BDA0003648307610000064
并分别将相对于u正、负方向上的相邻顶点数量表示为
Figure BDA0003648307610000065
Figure BDA0003648307610000066
将一对源卫星u和目的卫星v称为卫星对uv,并将源卫星定义为标准卫星,目的卫星定义为目标卫星。
由于多普勒效应和视线距离的限制,LEO星座中某些卫星对之间无法建立平面间星间链路,如果一个卫星对之间可以建立一个平面间星间链路,则定义该卫星对为可行卫星对。下面,筛选出符合条件的卫星对集即可行卫星对集:
将卫星对uc之间的欧式距离表示为:
Figure BDA0003648307610000067
xu、yu、zu分别为卫星u在x轴、y轴、z轴上的坐标;xv、yv、zv为卫星v在x轴、y轴、z轴上的坐标。
若两个卫星之间的欧式距离大于它们之间的视线距离,则视线将受到地球的阻挡。定义卫星对uv之间的视线距离为l(uv),如果||uv||<l(uv),则该卫星对为可行卫星对。视线距离可以表示为:
Figure BDA0003648307610000068
其中,RE表示地球半径,hp(u)为卫星u在轨道平面p(u)上的轨道高度,hp(v)为卫星v在轨道平面p(v)上的轨道高度。
第一个平面和第M个平面的卫星以相反的方向运动,具有很大的相对速度。在“隙缝”区域(图1中的缝隙)维护星间链路具有很大挑战性,因此不考虑建立隙缝区域星间链路。由于本发明的关注点为平面间星间链路,位于同一平面内的卫星对不是可行卫星对。根据以上分析,可行卫星对集合可以表示为:
Figure BDA0003648307610000071
卫星在自由空间环境中通信,因此,星间通信主要受到自由空间路径损耗(Free-Space Path Loss,FSPL)和热噪声影响。对于可行卫星对,分析其特征如下:
可行卫星对uv之间的自由空间路径损耗为:
Figure BDA0003648307610000072
其中,c为光速,f为载波频率,||uv||为卫星对uv之间的欧式距离。
在任意时刻,可行卫星对uv之间的信噪比可以表示为:
Figure BDA0003648307610000073
其中,Pt为发射功率,Gt和Gr分别为发射端天线增益和接收端天线增益,kB为玻尔兹曼常数,τ为热噪声,单位为开尔文,B为信道带宽,单位为赫兹。
假设所有卫星都有足够窄的天线波束,并具有精确的波束对准能力。因此,卫星可以在无干扰的环境下进行通信。在无干扰环境下,卫星u与卫星v通信的最大数据速率为:
RSNR(u,v)=Blog2(1+SNR(u,v))。
二、建立切换成本模型
卫星u的天线由对准卫星v1到对准卫星v2的天线转向角为:
Figure BDA0003648307610000074
为了度量平面间星间链路切换成本的影响,定义卫星u的平均天线转向角:
Figure BDA0003648307610000075
其中,
Figure BDA0003648307610000076
Figure BDA0003648307610000077
是分别是满足条件uv∈E的相对于卫星u正负方向上的卫星集合,
Figure BDA0003648307610000078
Figure BDA0003648307610000079
分别是集合
Figure BDA00036483076100000710
Figure BDA00036483076100000711
中的卫星数量,E为可行卫星对集合。
对于第n次决策,将图
Figure BDA00036483076100000712
中连接可行卫星对的所有边表示为
Figure BDA00036483076100000713
对于图
Figure BDA00036483076100000714
中的边,定义θuv(n)为uv边的天线转向角:
Figure BDA00036483076100000715
Figure BDA00036483076100000716
为卫星u平均天线转向角,
Figure BDA00036483076100000717
为卫星v平均天线转向角。
为了在保证星座高吞吐量的前提下,最小化平面间星间链路的切换成本,本发明研究了在周期T内星座总通信速率和平面间星间链路的切换成本的联合优化问题。
在每个决策时刻,都可以把建立平面间星间链路看作是一个匹配问题。对于第n次决策的匹配图
Figure BDA0003648307610000081
将效用函数
Figure BDA0003648307610000082
定义为可实现的通信利润减去切换成本,可以写成:
Figure BDA0003648307610000083
其中,ρ为单位通信速率的利润,λ为单位天线转向角转向成本。
因此,优化问题是求出最优匹配图集合
Figure BDA0003648307610000084
使卫星网络函数效用最大化,即:
Figure BDA0003648307610000085
其中,
Figure BDA0003648307610000086
为第n次决策的效用函数,
Figure BDA0003648307610000087
ρ为单位通信速率的利润,λ为单位天线转向角转向成本,
Figure BDA0003648307610000088
为卫星集,u为智能体i所在的卫星,v为ai对应的卫星,RSNR(u,v)为可行卫星对uv之间的信噪比,Nd为决策次数,
Figure BDA0003648307610000089
为第n次决策的匹配图,即可行卫星对组成的星座,
Figure BDA00036483076100000810
表示卫星在正负方向上的相邻顶点数量,
Figure BDA00036483076100000811
为卫星u、v之间的边的天线转向角,E为可行卫星对集合。
接下来,介绍本发明所述的基于多智能体强化学习的LEO星间链路的动态规划方法。
S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
为了解决“维数诅咒”问题,并对智能体逐轨道地进行训练,首先从卫星网络中选择智能体,并为它们设计合适的动作。在卫星u运动过程中,将其靠近平面((p(u)+1)mod M)的一侧定义为正向,另一侧定义为负向。每个卫星主动地决策正向星间链路,而负向星间链路被动地接受来自负向卫星的决策。由于“隙缝”的存在,第M个平面上的卫星无需主动决策正向ISL。因此,除第M个平面上的卫星外,所有卫星都是独立的智能体。
本实施例中,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i在当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体的正向为:智能体所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。在不同的决策时刻中,由于卫星的运动,每个智能体的状态空间是时变的。
本实施例中,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,即智能体i选择与卫星Vi建立星间链路,则智能体i在智能体i的正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
本实施例中,所述奖励函数为
Figure BDA0003648307610000091
其中Na=N-Nm,为智能体个数,N为卫星的总个数,Nm为在第m个轨道平面上的卫星数量,ri为智能体i的贡献:
Figure BDA0003648307610000092
其中,αi为智能体i的决策冲突折扣因子,ai为智能体i的动作,ρ为单位通信速率的利润,λ为智能体i的单位天线转向角转向成本,
Figure BDA0003648307610000093
为智能体i所在的卫星与ai对应的目标卫星之间的天线转向角,RSNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间通信的最大数据速率。由于每个智能体都是根据自己的部分观测信息独立做出决策,所以同一轨道平面上的智能体可能选择了相同的目标卫星,造成了冲突。因此,设计了一个训练器,根据所有智能体的部分观测信息和动作,重新评估每个智能体的贡献。即与其他智能体无冲突的智能体的决策冲突折扣因子αi=1,而与其他智能体有冲突的智能体的决策冲突折扣因子设计如下:根据目标卫星的不同,将所有的智能体添加到不同的列表中,对于每个智能体i,如果其与目标卫星建立的平面间星间链路的通信速率大于列表中其他智能体与该目标卫星建立的平面间星间链路的通信速率,则αi=0.8,否则αi=0.1。
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合
Figure BDA0003648307610000096
使卫星网络函数效用最大化。
本发明提出的星间链路动态规划方法是基于多智能体深度确定性策略梯度(MADDPG)的。MADDPG采用集中式训练,分布式执行的范式。因此,训练收敛后,每个智能体可以根据自己的部分观测独立做出决策。
每个智能体i都有自己的策略网络πi,策略网络πi的权值为θi,该策略网络πi能够通过Gumbel-Softmax分布产生可微分样本。每个智能体i有一个价值网络
Figure BDA0003648307610000094
其中
Figure BDA0003648307610000095
除此之外,每个智能体i有一个相应的目标策略网络π′i和目标价值网络
Figure BDA0003648307610000101
本实施例中,S2的具体训练方法为:
S2.1、初始化一个经验回放池D用以存储状态转移数据;
S2.2、从所述经验回放池中随机采样小批量(1024个)的状态转移数据,在每个决策时刻t结束时,更新智能体i的策略网络πi和价值网络
Figure BDA0003648307610000102
直到智能体i的策略网络πi和价值网络
Figure BDA0003648307610000103
收敛,其中,
Figure BDA0003648307610000104
Na表示智能体个数,ai表示智能体i的动作,si表示智能体i的状态,
Figure BDA0003648307610000105
为第Na个智能体的动作,
Figure BDA0003648307610000106
为第Na个智能体的状态。
本实施例中,S2.1的具体实施步骤为:
S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i基于当前策略网络πi、智能体i的当前状态si,t={Di,Li,Ri}和噪声,智能体i选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
S2.1.4、在状态转移完成后,以及奖励数据获取完成后,即在获取到所有信息后,经验回放池将会记录状态转移(xt,xt+1,at,rt),其中
Figure BDA0003648307610000107
at为智能体在决策时刻t的动作集合,rt为智能体在决策时刻t获得的奖励数据集合,
Figure BDA0003648307610000108
xt为智能体在决策时刻t的状态数据集合,xt+1为智能体在决策时刻t+1的状态数据集合。
本实施例中,S2.2的具体实施步骤为:
S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新,其中目标值为
Figure BDA0003648307610000109
Figure BDA00036483076100001010
其中,
Figure BDA00036483076100001011
是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N-Nm为智能体的个数,该智能体所在的卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量,
Figure BDA00036483076100001012
为目标卫星的目标价值网络;
Figure BDA00036483076100001013
为目标卫星对应的动作数据;
Figure BDA00036483076100001014
为目标卫星的奖励函数;
S2.2.2、在决策时刻t结束时,通过最小化损失
Figure BDA00036483076100001015
来更新智能体i的价值网络;
Figure BDA0003648307610000111
其中,
Figure BDA0003648307610000112
代表所有策略网络集合。
S2.2.3、在决策时刻t结束时,利用策略梯度法
Figure BDA0003648307610000113
更新智能体i的策略网络的权值:
Figure BDA0003648307610000114
S2.2.4、更新目标网络的权值θ′i
θ′i←βθi+(1-β)θ′i;β为学习率;
S2.2.5、重复S2.2.1-S2.2.4,直到智能体i的策略网络πi和价值网络
Figure BDA0003648307610000115
收敛,得到智能体i所在的卫星与其他卫星之间的最优匹配链路,若干最优匹配链路组成了最优匹配图,即最优匹配星座网络,每个决策时刻的最优匹配图组合起来形成最优匹配图集合
Figure BDA0003648307610000116
判断智能体是否收敛的具体方式为:奖励函数停止更新增长,维持在一个恒定的范围。
本实施例中,智能体i所在的卫星与ai对应的卫星之间通信的最大数据速率RSNR(i,ai)为:
Figure BDA0003648307610000117
其中,B为信道带宽,单位为赫兹,SNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间的信噪比。
本实施例中,智能体i所在的卫星与ai对应的目标卫星之间的转向角
Figure BDA0003648307610000118
为:
Figure BDA0003648307610000119
其中,
Figure BDA00036483076100001110
为智能体i所在的卫星的平均天线转向角,
Figure BDA00036483076100001111
为ai对应的目标卫星的平均天线转向角,n为决策次数,
Figure BDA00036483076100001112
为第n次决策时星座中所有平面间星间链路组成的匹配图,
Figure BDA00036483076100001113
为n-1次决策时星座中所有平面间星间链路组成的匹配图。
本实施例中,智能体i所在的卫星和ai对应的目标卫星组成的可行卫星对集合为:
Figure BDA00036483076100001114
其中,l(iai)为智能体i所在的卫星与ai对应的目标卫星之间的视线距离;||iai||表示智能体i所在的卫星与ai对应的目标卫星之间的欧式距离;p(i)为智能体i所在的卫星所在的轨道平面,p(ai)为ai对应的目标卫星所在的轨道平面。
S3、智能体根据与智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
本发明提出的一种基于多智能体强化学习的LEO星间链路的动态规划方法,该方法联合优化了LEO星座的总吞吐量和平面间星间链路的切换成本,研究了以最大期望折扣回报为目标的优化问题。基于目标网络和经验回放池,基于多智能体深度强化学习的星间链路规划算法能够有效地学习最优策略,每个卫星可以分布式地决策平面间链路。实验结果表明,与基线算法相比,本发明提出的方法具有更好的性能。大量的实验结果表明,本发明提出的算法可以显著降低ISLs切换率,提高星座总吞吐量和卫星平均ISL数量。
文献[1]为O.Popescu,“Power budgets for cubesat radios to supportground communications and inter-satellite links,”Ieee Access,vol.5,pp.12 618–12 625,2017.
文献[2]为Y.Lee and J.P.Choi,“Connectivity analysis of megaconstellation satellite networks with optical inter-satellite links,”IEEETransactions on Aerospace and Electronic Systems,pp.1–1,2021.
文献[3]为I.Leyva-Mayorga,B.Soret,and P.Popovski,“Inter-plane inter-satellite connectivity in dense leo constellations,”IEEE Transactions onWireless Communications,vol.20,no.6,pp.3430–3443,2021.
文献[4]为W.Chengzhuo,L.Suyang,G.Xiye,and Y.Jun,“Dynamic optimizationof laser inter-satellite link network topology based on genetic algorithm,”in2019 14th IEEE International Conference on Electronic Measurement&Instruments(ICEMI).IEEE,2019,pp.1331–1342.
文献[5]为S.Liu,J.Yang,X.Guo,and L.Sun,“Inter-satellite linkassignment for the laser/radio hybrid network in navigation satellitesystems,”GPS Solutions,vol.24,no.2,pp.1–14,2020.
文献[6]为Z.Yan,G.Gu,K.Zhao,Q.Wang,G.Li,X.Nie,H.Yang,and S.Du,“Integerlinear programming based topology design for gnsss with intersatellitelinks,”IEEE Wireless Communications Letters,vol.10,no.2,pp.286–290,2020.
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,包括:
S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合
Figure FDA0003648307600000011
使卫星网络函数效用最大化;
S3、智能体根据与智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
2.根据权利要求1所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体i的正向为:智能体i所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。
3.根据权利要求2所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上的卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,则智能体i在其正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
4.根据权利要求3所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述奖励函数为
Figure FDA0003648307600000012
其中Na=N-Nm,为智能体个数,N为卫星的总个数,Nm为在第m个轨道平面上的卫星数量,ri为智能体i的贡献:
Figure FDA0003648307600000013
其中,αi为智能体i的决策冲突折扣因子,ai为智能体i的动作,ρ为单位通信速率的利润,λ为智能体i的单位天线转向角转向成本,
Figure FDA0003648307600000014
为智能体i所在的卫星与ai对应的目标卫星之间的天线转向角,RSNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间通信的最大数据速率。
5.根据权利要求4所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2的具体训练方法为:
S2.1、初始化一个经验回放池
Figure FDA0003648307600000021
用以存储状态转移数据;
S2.2、从所述经验回放池中随机采样1024个状态转移数据,在每个决策时刻t结束时,更新智能体i的策略网络πi和价值网络
Figure FDA0003648307600000022
直到智能体i的策略网络πi和价值网络
Figure FDA0003648307600000023
收敛,其中,
Figure FDA0003648307600000024
Na表示智能体个数,ai表示智能体i的动作,si表示智能体i的状态,
Figure FDA0003648307600000025
为第Na个智能体的动作,
Figure FDA0003648307600000026
为第Na个智能体的状态。
6.根据权利要求5所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2.1的具体实施步骤为:
S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i根据当前策略网络πi、当前状态si,t={Di,Li,Ri}和噪声,选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
S2.1.4、在状态转移以及奖励数据获取完成后,经验回放池记录状态转移(xt,xt+1,at,rt),其中
Figure FDA0003648307600000027
at为智能体在决策时刻t的动作集合,rt为智能体在决策时刻t获得的奖励数据集合,
Figure FDA0003648307600000028
xt为智能体在决策时刻t的状态数据集合,xt+1为智能体在决策时刻t+1的状态数据集合。
7.根据权利要求6所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2.2的具体实施步骤为:
S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新:目标值
Figure FDA0003648307600000029
为:
Figure FDA00036483076000000210
其中,
Figure FDA00036483076000000211
是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N-Nm为智能体的个数,该智能体所属卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量,
Figure FDA00036483076000000212
为卫星i的目标价值网络;
Figure FDA00036483076000000213
分别为卫星1,...,Na对应的动作数据;
Figure FDA0003648307600000031
卫星i的奖励函数;
S2.2.2、在决策时刻t结束时,通过最小化损失
Figure FDA0003648307600000032
来更新智能体i的价值网络;
Figure FDA0003648307600000033
其中,
Figure FDA0003648307600000034
代表所有的策略网络集合;
Figure FDA0003648307600000035
为智能体i的价值网络;
S2.2.3、在决策时刻t结束时,利用策略梯度法
Figure FDA0003648307600000036
更新智能体i的策略网络的权值:
Figure FDA0003648307600000037
S2.2.4、更新目标网络的权值θ′i
θ′i←βθi+(1-β)θ′i;β为学习率;
S2.2.5、重复S2.2.1-S2.2.4,直到智能体i的策略网络πi和价值网络
Figure FDA0003648307600000038
收敛。
8.根据权利要求1所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,星座网络函数效用最大化表示为:
Figure FDA0003648307600000039
其中,
Figure FDA00036483076000000310
为第n次决策的效用函数,
Figure FDA00036483076000000311
ρ为单位通信速率的利润,λ为单位天线转向角转向成本,
Figure FDA00036483076000000312
为卫星集,u为智能体i所在的卫星,v为ai对应的卫星,RSNR(u,v)为可行卫星对uv之间的信噪比,Nd为决策次数,
Figure FDA00036483076000000313
为第n次决策的匹配图,即可行卫星对组成的星座,
Figure FDA00036483076000000314
表示卫星在正负方向上的相邻顶点数量,
Figure FDA00036483076000000315
为卫星u、v之间的边的天线转向角,E为可行卫星对集合。
9.根据权利要求4所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,智能体i所在的卫星与ai对应的目标卫星之间的转向角
Figure FDA00036483076000000316
为:
Figure FDA00036483076000000317
其中,
Figure FDA00036483076000000318
为智能体i所在的卫星的平均天线转向角,
Figure FDA00036483076000000319
为ai对应的目标卫星的平均天线转向角,n为决策次数,
Figure FDA00036483076000000320
为第n次决策时星座中所有平面间星间链路组成的匹配图,
Figure FDA00036483076000000321
为n-1次决策时星座中所有平面间星间链路组成的匹配图。
10.根据权利要求9所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,智能体i所在的卫星和ai对应的目标卫星组成的可行卫星对集合为:
Figure FDA0003648307600000041
其中,l(iai)为智能体i所在的卫星与ai对应的目标卫星之间的视线距离;||iai||表示智能体i所在的卫星与ai对应的目标卫星之间的欧式距离;p(i)为智能体i所在的卫星所在的轨道平面,p(ai)为ai对应的目标卫星所在的轨道平面。
CN202210536205.6A 2022-05-17 2022-05-17 一种基于多智能体强化学习的leo星间链路的动态规划方法 Active CN114928401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210536205.6A CN114928401B (zh) 2022-05-17 2022-05-17 一种基于多智能体强化学习的leo星间链路的动态规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210536205.6A CN114928401B (zh) 2022-05-17 2022-05-17 一种基于多智能体强化学习的leo星间链路的动态规划方法

Publications (2)

Publication Number Publication Date
CN114928401A true CN114928401A (zh) 2022-08-19
CN114928401B CN114928401B (zh) 2023-07-07

Family

ID=82807816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210536205.6A Active CN114928401B (zh) 2022-05-17 2022-05-17 一种基于多智能体强化学习的leo星间链路的动态规划方法

Country Status (1)

Country Link
CN (1) CN114928401B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758704A (zh) * 2022-11-10 2023-03-07 北京航天驭星科技有限公司 卫星南北保持策略模型的建模方法、模型、获取方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9553754B1 (en) * 2015-09-10 2017-01-24 Qualcomm Incorporated Post distortion in satellite communications
US20170085329A1 (en) * 2015-06-17 2017-03-23 Hughes Network Systems, Llc High speed, high terrestrial density global packet data mobile satellite system architectures
CN108008421A (zh) * 2017-10-30 2018-05-08 大连理工大学 基于锚链张力的定位方法及卫星定位失灵的检测方法
CN110012516A (zh) * 2019-03-28 2019-07-12 北京邮电大学 一种基于深度强化学习架构的低轨卫星路由策略方法
CN110808824A (zh) * 2019-11-12 2020-02-18 哈尔滨工业大学 低轨卫星星地链路的高谱效稀疏码多址接入方法
CN112436882A (zh) * 2020-10-26 2021-03-02 北京邮电大学 基于双马尔科夫模型的leo卫星信道建模方法及装置
CN113038387A (zh) * 2021-03-12 2021-06-25 重庆邮电大学 低轨卫星网络中基于q学习的切换判决方法
CN113128828A (zh) * 2021-03-05 2021-07-16 中国科学院国家空间科学中心 一种基于多智能体强化学习的卫星观测分布式在线规划方法
CN113258988A (zh) * 2021-05-13 2021-08-13 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法
CN113612525A (zh) * 2021-08-27 2021-11-05 陕西星邑空间技术有限公司 基于约束满足的低轨互联网星座星地链路规划方法
CN113691332A (zh) * 2021-09-10 2021-11-23 北京科技大学 一种低轨卫星通信系统的同频干扰表征方法及装置
CN114499629A (zh) * 2021-12-24 2022-05-13 南京邮电大学 基于深度强化学习的跳波束卫星系统资源动态分配方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170085329A1 (en) * 2015-06-17 2017-03-23 Hughes Network Systems, Llc High speed, high terrestrial density global packet data mobile satellite system architectures
US9553754B1 (en) * 2015-09-10 2017-01-24 Qualcomm Incorporated Post distortion in satellite communications
CN108008421A (zh) * 2017-10-30 2018-05-08 大连理工大学 基于锚链张力的定位方法及卫星定位失灵的检测方法
CN110012516A (zh) * 2019-03-28 2019-07-12 北京邮电大学 一种基于深度强化学习架构的低轨卫星路由策略方法
CN110808824A (zh) * 2019-11-12 2020-02-18 哈尔滨工业大学 低轨卫星星地链路的高谱效稀疏码多址接入方法
CN112436882A (zh) * 2020-10-26 2021-03-02 北京邮电大学 基于双马尔科夫模型的leo卫星信道建模方法及装置
CN113128828A (zh) * 2021-03-05 2021-07-16 中国科学院国家空间科学中心 一种基于多智能体强化学习的卫星观测分布式在线规划方法
CN113038387A (zh) * 2021-03-12 2021-06-25 重庆邮电大学 低轨卫星网络中基于q学习的切换判决方法
CN113258988A (zh) * 2021-05-13 2021-08-13 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法
CN113612525A (zh) * 2021-08-27 2021-11-05 陕西星邑空间技术有限公司 基于约束满足的低轨互联网星座星地链路规划方法
CN113691332A (zh) * 2021-09-10 2021-11-23 北京科技大学 一种低轨卫星通信系统的同频干扰表征方法及装置
CN114499629A (zh) * 2021-12-24 2022-05-13 南京邮电大学 基于深度强化学习的跳波束卫星系统资源动态分配方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
DI ZHOU: "《Machine Learning-Based Resource Allocation in Satellite Networks Supporting Internet of Remote Things》", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》, vol. 20, no. 10 *
MIN WANG: "《Stochastic performance analysis for LEO inter-satellite link based on finite-state Markov chain modeling》", 《2015 4TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY (ICCSNT)》 *
NOKIA, NOKIA SHANGHAI BELL: "R2-2009772 \"Simulation assumptions for evaluating NTN mobility\"", 3GPP TSG_RAN\\WG2_RL2, no. 2 *
周平: "《低轨星座卫星通信系统的一种信道分配策略》", 《电子测量技术》, vol. 41, no. 20 *
徐双: "《软件定义卫星网络关键技术研究》", 《中国优秀博士学位论文全文数据库》 *
拜嘉玲: "《卫星物联网中跨层同步随机接入协议的研究》", 《中国优秀硕士学位论文全文数据库》 *
许旭升: "《基于多智能体强化学习的轨道追逃博弈方法》", 《上海航天》, vol. 39, no. 2 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758704A (zh) * 2022-11-10 2023-03-07 北京航天驭星科技有限公司 卫星南北保持策略模型的建模方法、模型、获取方法

Also Published As

Publication number Publication date
CN114928401B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Zhan et al. Energy minimization for cellular-connected UAV: From optimization to deep reinforcement learning
Zhao et al. Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) assisted UAV communications
Lee et al. Integrating LEO satellites and multi-UAV reinforcement learning for hybrid FSO/RF non-terrestrial networks
US20170302368A1 (en) Predicting Signal Quality in a Rotating Beam Platform
Guo et al. Multi-agent deep reinforcement learning based transmission latency minimization for delay-sensitive cognitive satellite-uav networks
Park et al. Quantum Multiagent Actor–Critic Networks for Cooperative Mobile Access in Multi-UAV Systems
Jing et al. ISAC from the sky: UAV trajectory design for joint communication and target localization
Pi et al. Dynamic planning of inter-plane inter-satellite links in LEO satellite networks
Wu et al. On the interplay between sensing and communications for UAV trajectory design
CN114928401A (zh) 一种基于多智能体强化学习的leo星间链路的动态规划方法
CN116248164A (zh) 基于深度强化学习的完全分布式路由方法和系统
Huang et al. Joint offloading and resource allocation for hybrid cloud and edge computing in SAGINs: A decision assisted hybrid action space deep reinforcement learning approach
Wu et al. Deep reinforcement learning-based energy efficiency optimization for RIS-aided integrated satellite-aerial-terrestrial relay networks
Han et al. Satellite-assisted UAV trajectory control in hostile jamming environments
Fontanesi et al. A transfer learning approach for UAV path design with connectivity outage constraint
Sharif et al. Space-aerial-ground-sea integrated networks: Resource optimization and challenges in 6G
Fu et al. Dense Multi-Agent Reinforcement Learning Aided Multi-UAV Information Coverage for Vehicular Networks
Warrier et al. Future 6G communications powering vertical handover in non-terrestrial networks
Marini et al. Continual meta-reinforcement learning for UAV-aided vehicular wireless networks
Li et al. Intelligent uav navigation: A DRL-QiER solution
CN116800320A (zh) 一种star-ris辅助无线通信系统波束成形设计方法
Mohamed et al. Joint UAV Trajectory Planning and LEO-Sat Selection in SAGIN
Kai et al. An adaptive topology optimization strategy for GNSS inter-satellite network
Zhang et al. Joint Sensing and Communication Optimization in Target-Mounted STARS-Assisted Vehicular Networks: A MADRL Approach
Liu et al. Near-Space Communications: The Last Piece of 6G Space-Air-Ground-Sea Integrated Network Puzzle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant