CN114928401A - 一种基于多智能体强化学习的leo星间链路的动态规划方法 - Google Patents
一种基于多智能体强化学习的leo星间链路的动态规划方法 Download PDFInfo
- Publication number
- CN114928401A CN114928401A CN202210536205.6A CN202210536205A CN114928401A CN 114928401 A CN114928401 A CN 114928401A CN 202210536205 A CN202210536205 A CN 202210536205A CN 114928401 A CN114928401 A CN 114928401A
- Authority
- CN
- China
- Prior art keywords
- satellite
- agent
- inter
- decision
- satellites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000000875 corresponding effect Effects 0.000 claims description 50
- 230000009471 action Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims 65
- 239000000758 substrate Substances 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18521—Systems of inter linked satellites, i.e. inter satellite service
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Aviation & Aerospace Engineering (AREA)
- Astronomy & Astrophysics (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明涉及卫星通信技术领域,公开了一种基于多智能体强化学习的LEO星间链路的动态规划方法,包括:S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型;S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛;S3、智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,链路执行器根据智能体的决策与相应的卫星建立平面间星间链路。本发明可以显著降低ISLs切换率,提高星座总吞吐量和卫星平均星间链路的数量。
Description
技术领域
本发明涉及卫星通信技术领域,具体涉及一种基于多智能体强化学习的LEO星间链路的动态规划方法。
背景技术
近年来,低地球轨道(LEO)卫星星座已成为一种新兴且有前途的技术,能够为地面用户提供低延迟、宽带通信和全球覆盖,并有望在6G通信中发挥重要作用。许多头部公司,如SpaceX、OneWeb和亚马逊,都试图部署一个大型的LEO卫星星座,以提供稳定的宽带互联网服务。低轨卫星之间可以利用光学或可见光通信系统实现卫星间链路(Inter-SatelliteLinks,ISLs)的连接,包括:平面内ISLs,连接同一轨道平面的相邻卫星;平面间ISLs,连接不同轨道平面的卫星。由于同一轨道平面内卫星间的距离可以在很长时间内保持恒定,所以平面内ISLs相当稳定。然而,不同轨道平面之间的星间距离是时变的:卫星在赤道上空时距离最长,在极地边界时距离最短。此外,在不同的高度部署轨道平面时,轨道周期也会不同,导致拓扑结构的非周期性。因此,任何固定的平面间ISLs连通性方案都不能很好地满足星座拓扑的变化,动态规划平面间ISLs至关重要。
由于低地球轨道星座的环境特性和硬件条件的限制,动态规划低地球轨道星座的平面间ISLs具有一定的挑战性。首先,由于LEO星座的动态运动和高维性,星座中星间链路的规划变得非常复杂。数百颗卫星相对于地面用户以大约7.5km/s的速度移动,每颗卫星都有一组用于建立ISLs的平面间邻居卫星。这导致了平面间ISLs的规划是NP-hard(所有NP问题都能在多项式时间复杂度内归遇到的问题)的,并面临“维数诅咒”的问题;其次,由于有限的视线距离,每个卫星只能观测到部分星座信息,实时采集全球星座信息成本较高,而部分信息容易陷入局部最优;第三,一颗卫星可能有资格与其多个相邻卫星建立平面间ISLs,同一轨道上的卫星之间存在竞争和合作,与其他卫星竞争一颗卫星是为了提高其平面间ISLs的质量,而合作则是为了使星座的总吞吐量最大化,对于整个星座来说,在竞争与合作之间实现良好的权衡是至关重要的。
现有的研究大多集中在分析星间链路的特征和模型,而没有对卫星间连接进行规划。例如,作者在文献[1]中提出了一个功率预算模型来分析倾斜范围对功率需求的影响,文献[2]在通过研究卫星之间的可见性及其天线转向能力,对星间链路的连接进行了全面的分析。这些工作只是为平面间星间链路提供了一些参考,并没有提供任何具体的星间链路规划方案。基本的星间链路规划算法是启发式的[3]-[5],它们根据LEO星座的部分信息,通过贪婪、模拟退火等方法推导出方案,但是,上述文献很容易陷入局部最优;另一种典型的方法由文献[6]提出,该方法用有限状态自动化对星间链路网络进行建模,并用整数线性规划对其进行求解,但是,该算法计算量大,不适合高维度、高动态性的LEO星座。
因此,设计一种能够使整个星座在竞争与合作之间实现良好的权衡的LEO星间链路的规划方法是至关重要。
发明内容
为了解决上述问题,本发明提出了一种基于多智能体强化学习的LEO星间链路的动态规划方法,联合优化星座总吞吐量和平面间ISLs切换率,以实现整个星座在竞争与合作之间实现良好的权衡。
本发明通过下述技术方案实现:
一种基于多智能体强化学习的LEO星间链路的动态规划方法,包括:
S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合使卫星网络函数效用最大化;
S3、智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
作为优化,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i在当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体的正向为:智能体所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。
作为优化,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,即智能体i选择与卫星Vi建立星间链路,则智能体i在智能体i的正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
作为优化,所述奖励函数为
其中,αi为智能体i的决策冲突折扣因子,ai为智能体i的动作,ρ为单位通信速率的利润,λ为智能体i的单位天线转向角转向成本,为智能体i所在的卫星与ai对应的目标卫星之间的天线转向角,RSNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间通信的最大数据速率。
作为优化,S2的具体训练方法为:
S2.1、初始化一个经验回放池D用以存储状态转移数据;
S2.2、从所述经验回放池中随机采样小批量(1024个)的状态转移数据,在每个决策时刻t结束时,更新智能体i的策略网络πi和价值网络直到智能体i的策略网络πi和价值网络收敛,其中,Na表示智能体个数,ai表示智能体i的动作,si表示智能体i的状态,为第Na个智能体的动作,为第Na个智能体的状态。
作为优化,S2.1的具体实施步骤为:
S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i根据当前策略网络πi、当前状态si,t={Di,Li,Ri}和噪声,选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
S2.1.4、在状态转移完成后,以及奖励数据获取完成后,经验回放池记录状态转移(xt,xt+1,at,rt),其中at为智能体在决策时刻t的动作集合,rt为智能体在决策时刻t获得的奖励数据集合,xt为智能体在决策时刻t的状态数据集合,xt+1为智能体在决策时刻t+1的状态数据集合。
作为优化,S2.2的具体实施步骤为:
S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新:目标值为:其中,是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N-Nm为智能体的个数,该智能体所在的卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量,为目标卫星的目标价值网络;分别为卫星1,...,Na对应的动作数据;卫星i的奖励函数;
S2.2.4、更新目标网络的权值θ′i:
θ′i←βθi+(1-β)θ′i;β为学习率;
作为优化,智能体i所在的卫星与ai对应的卫星之间的星座网络函数效用最大化表示为:
其中,为第n次决策的效用函数,ρ为单位通信速率的利润,λ为单位天线转向角转向成本,为卫星集,u为智能体i所在的卫星,v为ai对应的卫星,RSNR(u,v)为可行卫星对uv之间的信噪比,Nd为决策次数,为第n次决策的匹配图,即可行卫星对组成的星座,表示卫星在正负方向上的相邻顶点数量,为卫星u、v之间的边的天线转向角,E为可行卫星对集合。
其中,为智能体i所在的卫星的平均天线转向角,为ai对应的目标卫星的平均天线转向角,n为决策次数,为第n次决策时星座中所有平面间星间链路组成的匹配图,为n-1次决策时星座中所有平面间星间链路组成的匹配图。
作为优化,智能体i所在的卫星和ai对应的目标卫星组成的可行卫星对集合为:
其中,l(iai)为智能体i所在的卫星与ai对应的目标卫星之间的视线距离;||iai||表示智能体i所在的卫星与ai对应的目标卫星之间的欧式距离;p(i)为智能体i所在的卫星所在的轨道平面,p(ai)为ai对应的目标卫星所在的轨道平面。
本发明与现有技术相比,具有如下的优点和有益效果:
1.本发明将卫星网络中的平面间星间链路的通信速率和天线切换成本函数效用化,天线切换成本在建立新的平面间星间链路产生,本发明能够在保证较高的星座总通信速率的前提下,减少天线切换带来的成本。
2.本发明建立了一个部分可观察马尔可夫决策过程模型,并利用具有集中式训练和分布式执行范式的算法来训练智能体,同时设计了一个额外的惩罚机制(奖励函数中折扣冲突因子的设计),以引导整个星座在竞争和合作之间的良好权衡。
3.本发明为了解决“维数诅咒”问题,加快算法的收敛速度,逐轨道平面地对智能体进行动态规划算法的训练。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为卫星的星间链路拓扑和星间链路决策网络图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
在介绍本发明的基于多智能体强化学习的LEO星间链路的动态规划方法之前,先介绍如下概念。
如图1所示,本发明适用的星座为极轨星座。其中,N个卫星均匀分布在M个平面上。每个轨道平面m∈{1,2,...M}部署在给定的轨道高度hm,轨道倾角∈m,每个轨道平面由均匀分布的Nm个卫星组成。此外,将卫星u在直角坐标系中的位置表示为{xu,yu,zu},并将p(u)定义为卫星u所在的轨道平面,p(u)∈{1,2,...,M}。一般地,每个卫星共有四个星间链路。两个平面内的星间链路连接来自同一平面的相邻卫星,而两个平面间星间链路连接来自不同平面的卫星。每个卫星都有一个星间链路的决策网络,在此决策网络中,位于卫星上的智能体通过接收到所有奖励数据和状态数据进行训练,直到此决策网络收敛。位于卫星上的状态收集器通过与环境中的其他卫星相互作用来获取状态数据和奖励数据,智能体根据状态收集器收集到的状态信息进行决策,位于卫星上的链路执行器根据智能体的指令与相应的卫星建立平面间星间链路。
一、建立卫星之间的通信模型。
由于多普勒效应和视线距离的限制,LEO星座中某些卫星对之间无法建立平面间星间链路,如果一个卫星对之间可以建立一个平面间星间链路,则定义该卫星对为可行卫星对。下面,筛选出符合条件的卫星对集即可行卫星对集:
将卫星对uc之间的欧式距离表示为:
xu、yu、zu分别为卫星u在x轴、y轴、z轴上的坐标;xv、yv、zv为卫星v在x轴、y轴、z轴上的坐标。
若两个卫星之间的欧式距离大于它们之间的视线距离,则视线将受到地球的阻挡。定义卫星对uv之间的视线距离为l(uv),如果||uv||<l(uv),则该卫星对为可行卫星对。视线距离可以表示为:
其中,RE表示地球半径,hp(u)为卫星u在轨道平面p(u)上的轨道高度,hp(v)为卫星v在轨道平面p(v)上的轨道高度。
第一个平面和第M个平面的卫星以相反的方向运动,具有很大的相对速度。在“隙缝”区域(图1中的缝隙)维护星间链路具有很大挑战性,因此不考虑建立隙缝区域星间链路。由于本发明的关注点为平面间星间链路,位于同一平面内的卫星对不是可行卫星对。根据以上分析,可行卫星对集合可以表示为:
卫星在自由空间环境中通信,因此,星间通信主要受到自由空间路径损耗(Free-Space Path Loss,FSPL)和热噪声影响。对于可行卫星对,分析其特征如下:
可行卫星对uv之间的自由空间路径损耗为:
其中,c为光速,f为载波频率,||uv||为卫星对uv之间的欧式距离。
在任意时刻,可行卫星对uv之间的信噪比可以表示为:
其中,Pt为发射功率,Gt和Gr分别为发射端天线增益和接收端天线增益,kB为玻尔兹曼常数,τ为热噪声,单位为开尔文,B为信道带宽,单位为赫兹。
假设所有卫星都有足够窄的天线波束,并具有精确的波束对准能力。因此,卫星可以在无干扰的环境下进行通信。在无干扰环境下,卫星u与卫星v通信的最大数据速率为:
RSNR(u,v)=Blog2(1+SNR(u,v))。
二、建立切换成本模型
卫星u的天线由对准卫星v1到对准卫星v2的天线转向角为:
为了度量平面间星间链路切换成本的影响,定义卫星u的平均天线转向角:
为了在保证星座高吞吐量的前提下,最小化平面间星间链路的切换成本,本发明研究了在周期T内星座总通信速率和平面间星间链路的切换成本的联合优化问题。
其中,ρ为单位通信速率的利润,λ为单位天线转向角转向成本。
其中,为第n次决策的效用函数,ρ为单位通信速率的利润,λ为单位天线转向角转向成本,为卫星集,u为智能体i所在的卫星,v为ai对应的卫星,RSNR(u,v)为可行卫星对uv之间的信噪比,Nd为决策次数,为第n次决策的匹配图,即可行卫星对组成的星座,表示卫星在正负方向上的相邻顶点数量,为卫星u、v之间的边的天线转向角,E为可行卫星对集合。
接下来,介绍本发明所述的基于多智能体强化学习的LEO星间链路的动态规划方法。
S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
为了解决“维数诅咒”问题,并对智能体逐轨道地进行训练,首先从卫星网络中选择智能体,并为它们设计合适的动作。在卫星u运动过程中,将其靠近平面((p(u)+1)mod M)的一侧定义为正向,另一侧定义为负向。每个卫星主动地决策正向星间链路,而负向星间链路被动地接受来自负向卫星的决策。由于“隙缝”的存在,第M个平面上的卫星无需主动决策正向ISL。因此,除第M个平面上的卫星外,所有卫星都是独立的智能体。
本实施例中,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i在当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体的正向为:智能体所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。在不同的决策时刻中,由于卫星的运动,每个智能体的状态空间是时变的。
本实施例中,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,即智能体i选择与卫星Vi建立星间链路,则智能体i在智能体i的正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
本实施例中,所述奖励函数为
其中,αi为智能体i的决策冲突折扣因子,ai为智能体i的动作,ρ为单位通信速率的利润,λ为智能体i的单位天线转向角转向成本,为智能体i所在的卫星与ai对应的目标卫星之间的天线转向角,RSNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间通信的最大数据速率。由于每个智能体都是根据自己的部分观测信息独立做出决策,所以同一轨道平面上的智能体可能选择了相同的目标卫星,造成了冲突。因此,设计了一个训练器,根据所有智能体的部分观测信息和动作,重新评估每个智能体的贡献。即与其他智能体无冲突的智能体的决策冲突折扣因子αi=1,而与其他智能体有冲突的智能体的决策冲突折扣因子设计如下:根据目标卫星的不同,将所有的智能体添加到不同的列表中,对于每个智能体i,如果其与目标卫星建立的平面间星间链路的通信速率大于列表中其他智能体与该目标卫星建立的平面间星间链路的通信速率,则αi=0.8,否则αi=0.1。
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合使卫星网络函数效用最大化。
本发明提出的星间链路动态规划方法是基于多智能体深度确定性策略梯度(MADDPG)的。MADDPG采用集中式训练,分布式执行的范式。因此,训练收敛后,每个智能体可以根据自己的部分观测独立做出决策。
每个智能体i都有自己的策略网络πi,策略网络πi的权值为θi,该策略网络πi能够通过Gumbel-Softmax分布产生可微分样本。每个智能体i有一个价值网络其中除此之外,每个智能体i有一个相应的目标策略网络π′i和目标价值网络
本实施例中,S2的具体训练方法为:
S2.1、初始化一个经验回放池D用以存储状态转移数据;
S2.2、从所述经验回放池中随机采样小批量(1024个)的状态转移数据,在每个决策时刻t结束时,更新智能体i的策略网络πi和价值网络直到智能体i的策略网络πi和价值网络收敛,其中,Na表示智能体个数,ai表示智能体i的动作,si表示智能体i的状态,为第Na个智能体的动作,为第Na个智能体的状态。
本实施例中,S2.1的具体实施步骤为:
S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i基于当前策略网络πi、智能体i的当前状态si,t={Di,Li,Ri}和噪声,智能体i选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
S2.1.4、在状态转移完成后,以及奖励数据获取完成后,即在获取到所有信息后,经验回放池将会记录状态转移(xt,xt+1,at,rt),其中at为智能体在决策时刻t的动作集合,rt为智能体在决策时刻t获得的奖励数据集合,xt为智能体在决策时刻t的状态数据集合,xt+1为智能体在决策时刻t+1的状态数据集合。
本实施例中,S2.2的具体实施步骤为:
S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新,其中目标值为 其中,是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N-Nm为智能体的个数,该智能体所在的卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量,为目标卫星的目标价值网络;为目标卫星对应的动作数据;为目标卫星的奖励函数;
S2.2.4、更新目标网络的权值θ′i:
θ′i←βθi+(1-β)θ′i;β为学习率;
S2.2.5、重复S2.2.1-S2.2.4,直到智能体i的策略网络πi和价值网络收敛,得到智能体i所在的卫星与其他卫星之间的最优匹配链路,若干最优匹配链路组成了最优匹配图,即最优匹配星座网络,每个决策时刻的最优匹配图组合起来形成最优匹配图集合判断智能体是否收敛的具体方式为:奖励函数停止更新增长,维持在一个恒定的范围。
本实施例中,智能体i所在的卫星与ai对应的卫星之间通信的最大数据速率RSNR(i,ai)为:
其中,B为信道带宽,单位为赫兹,SNR(i,ai)为智能体i所在的卫星与ai对应的目标卫星之间的信噪比。
其中,为智能体i所在的卫星的平均天线转向角,为ai对应的目标卫星的平均天线转向角,n为决策次数,为第n次决策时星座中所有平面间星间链路组成的匹配图,为n-1次决策时星座中所有平面间星间链路组成的匹配图。
本实施例中,智能体i所在的卫星和ai对应的目标卫星组成的可行卫星对集合为:
其中,l(iai)为智能体i所在的卫星与ai对应的目标卫星之间的视线距离;||iai||表示智能体i所在的卫星与ai对应的目标卫星之间的欧式距离;p(i)为智能体i所在的卫星所在的轨道平面,p(ai)为ai对应的目标卫星所在的轨道平面。
S3、智能体根据与智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
本发明提出的一种基于多智能体强化学习的LEO星间链路的动态规划方法,该方法联合优化了LEO星座的总吞吐量和平面间星间链路的切换成本,研究了以最大期望折扣回报为目标的优化问题。基于目标网络和经验回放池,基于多智能体深度强化学习的星间链路规划算法能够有效地学习最优策略,每个卫星可以分布式地决策平面间链路。实验结果表明,与基线算法相比,本发明提出的方法具有更好的性能。大量的实验结果表明,本发明提出的算法可以显著降低ISLs切换率,提高星座总吞吐量和卫星平均ISL数量。
文献[1]为O.Popescu,“Power budgets for cubesat radios to supportground communications and inter-satellite links,”Ieee Access,vol.5,pp.12 618–12 625,2017.
文献[2]为Y.Lee and J.P.Choi,“Connectivity analysis of megaconstellation satellite networks with optical inter-satellite links,”IEEETransactions on Aerospace and Electronic Systems,pp.1–1,2021.
文献[3]为I.Leyva-Mayorga,B.Soret,and P.Popovski,“Inter-plane inter-satellite connectivity in dense leo constellations,”IEEE Transactions onWireless Communications,vol.20,no.6,pp.3430–3443,2021.
文献[4]为W.Chengzhuo,L.Suyang,G.Xiye,and Y.Jun,“Dynamic optimizationof laser inter-satellite link network topology based on genetic algorithm,”in2019 14th IEEE International Conference on Electronic Measurement&Instruments(ICEMI).IEEE,2019,pp.1331–1342.
文献[5]为S.Liu,J.Yang,X.Guo,and L.Sun,“Inter-satellite linkassignment for the laser/radio hybrid network in navigation satellitesystems,”GPS Solutions,vol.24,no.2,pp.1–14,2020.
文献[6]为Z.Yan,G.Gu,K.Zhao,Q.Wang,G.Li,X.Nie,H.Yang,and S.Du,“Integerlinear programming based topology design for gnsss with intersatellitelinks,”IEEE Wireless Communications Letters,vol.10,no.2,pp.286–290,2020.
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,包括:
S1、根据欧氏距离、视线距离、通信速率和天线切换成本设计部分可观察马尔科夫决策过程模型,所述部分可观察马尔科夫决策过程模型的元素包括状态空间、动作空间和奖励函数;
S2、基于多智能体深度确定性策略梯度将接收到的所述部分可观察马尔科夫决策过程模型的元素对应的数据逐轨道平面地对卫星的智能体进行集中式训练,直到所述智能体收敛,求得可行卫星对组成的最优匹配图集合使卫星网络函数效用最大化;
S3、智能体根据与智能体根据同属一个卫星的状态收集器收集到的本地状态数据进行决策,并将决策指令传输给与该智能体同属一个卫星的链路执行器,所述链路执行器根据该智能体的决策指令与相应的卫星建立平面间星间链路。
2.根据权利要求1所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述状态空间为Si={Di,Li,Ri},其中,Di为智能体i与视距范围内正向相邻轨道平面上的卫星的距离信息集合,Li为智能体i当前的正向星间链路连接的目标卫星,Ri为智能体i当前正向星间链路的通信速率,其中,智能体i的正向为:智能体i所在卫星u靠近平面((p(u)+1)mod M)的一侧为正向,背离平面((p(u)+1)mod M)的一侧为负向,p(u)为卫星u所在的轨道平面,M为轨道平面的数量。
3.根据权利要求2所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,所述动作空间为Ai={Vi,K},其中,Vi为智能体i视距范围内的正向相邻轨道平面上的卫星,K为不执行任何动作;若智能体i选择了动作ai∈Vi,则智能体i在其正向与动作ai对应的目标卫星建立平面间的星间链路;若智能体i的动作ai=K,则智能体i将不会建立正侧的星间链路。
6.根据权利要求5所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2.1的具体实施步骤为:
S2.1.1、初始化经验回放池;
S2.1.2、在每个决策时刻t开始时,智能体i根据当前策略网络πi、当前状态si,t={Di,Li,Ri}和噪声,选择并执行一个动作ai,t,ai,t~πi(·|si,t),同时,所述智能体i与相应的目标卫星建立星间链路;
S2.1.3、在智能体i与相应的目标卫星之间建立星间链路之后,所述智能体i将当前状态si,t转移至第二状态si,t+1并获取到奖励数据ri,t,ri,t为智能体i在决策时刻t获得的奖励数据;
7.根据权利要求6所述的一种基于多智能体强化学习的LEO星间链路的动态规划方法,其特征在于,S2.2的具体实施步骤为:
S2.2.1、在决策时刻t结束时,采用策略梯度法对智能体i的策略网络进行更新:目标值为:其中,是拥有延迟参数θ′i的目标策略网络集合,j代表随机采样的状态转移编号,γ代表折扣率,Na=N-Nm为智能体的个数,该智能体所属卫星在轨道平面m上,N为卫星的数量,Nm为轨道平面m上拥有的卫星数量,为卫星i的目标价值网络;分别为卫星1,...,Na对应的动作数据;卫星i的奖励函数;
S2.2.4、更新目标网络的权值θ′i:
θ′i←βθi+(1-β)θ′i;β为学习率;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210536205.6A CN114928401B (zh) | 2022-05-17 | 2022-05-17 | 一种基于多智能体强化学习的leo星间链路的动态规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210536205.6A CN114928401B (zh) | 2022-05-17 | 2022-05-17 | 一种基于多智能体强化学习的leo星间链路的动态规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114928401A true CN114928401A (zh) | 2022-08-19 |
CN114928401B CN114928401B (zh) | 2023-07-07 |
Family
ID=82807816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210536205.6A Active CN114928401B (zh) | 2022-05-17 | 2022-05-17 | 一种基于多智能体强化学习的leo星间链路的动态规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114928401B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758704A (zh) * | 2022-11-10 | 2023-03-07 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9553754B1 (en) * | 2015-09-10 | 2017-01-24 | Qualcomm Incorporated | Post distortion in satellite communications |
US20170085329A1 (en) * | 2015-06-17 | 2017-03-23 | Hughes Network Systems, Llc | High speed, high terrestrial density global packet data mobile satellite system architectures |
CN108008421A (zh) * | 2017-10-30 | 2018-05-08 | 大连理工大学 | 基于锚链张力的定位方法及卫星定位失灵的检测方法 |
CN110012516A (zh) * | 2019-03-28 | 2019-07-12 | 北京邮电大学 | 一种基于深度强化学习架构的低轨卫星路由策略方法 |
CN110808824A (zh) * | 2019-11-12 | 2020-02-18 | 哈尔滨工业大学 | 低轨卫星星地链路的高谱效稀疏码多址接入方法 |
CN112436882A (zh) * | 2020-10-26 | 2021-03-02 | 北京邮电大学 | 基于双马尔科夫模型的leo卫星信道建模方法及装置 |
CN113038387A (zh) * | 2021-03-12 | 2021-06-25 | 重庆邮电大学 | 低轨卫星网络中基于q学习的切换判决方法 |
CN113128828A (zh) * | 2021-03-05 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种基于多智能体强化学习的卫星观测分布式在线规划方法 |
CN113258988A (zh) * | 2021-05-13 | 2021-08-13 | 重庆邮电大学 | 一种基于dqn的多业务低轨卫星资源分配方法 |
CN113612525A (zh) * | 2021-08-27 | 2021-11-05 | 陕西星邑空间技术有限公司 | 基于约束满足的低轨互联网星座星地链路规划方法 |
CN113691332A (zh) * | 2021-09-10 | 2021-11-23 | 北京科技大学 | 一种低轨卫星通信系统的同频干扰表征方法及装置 |
CN114499629A (zh) * | 2021-12-24 | 2022-05-13 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
-
2022
- 2022-05-17 CN CN202210536205.6A patent/CN114928401B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170085329A1 (en) * | 2015-06-17 | 2017-03-23 | Hughes Network Systems, Llc | High speed, high terrestrial density global packet data mobile satellite system architectures |
US9553754B1 (en) * | 2015-09-10 | 2017-01-24 | Qualcomm Incorporated | Post distortion in satellite communications |
CN108008421A (zh) * | 2017-10-30 | 2018-05-08 | 大连理工大学 | 基于锚链张力的定位方法及卫星定位失灵的检测方法 |
CN110012516A (zh) * | 2019-03-28 | 2019-07-12 | 北京邮电大学 | 一种基于深度强化学习架构的低轨卫星路由策略方法 |
CN110808824A (zh) * | 2019-11-12 | 2020-02-18 | 哈尔滨工业大学 | 低轨卫星星地链路的高谱效稀疏码多址接入方法 |
CN112436882A (zh) * | 2020-10-26 | 2021-03-02 | 北京邮电大学 | 基于双马尔科夫模型的leo卫星信道建模方法及装置 |
CN113128828A (zh) * | 2021-03-05 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种基于多智能体强化学习的卫星观测分布式在线规划方法 |
CN113038387A (zh) * | 2021-03-12 | 2021-06-25 | 重庆邮电大学 | 低轨卫星网络中基于q学习的切换判决方法 |
CN113258988A (zh) * | 2021-05-13 | 2021-08-13 | 重庆邮电大学 | 一种基于dqn的多业务低轨卫星资源分配方法 |
CN113612525A (zh) * | 2021-08-27 | 2021-11-05 | 陕西星邑空间技术有限公司 | 基于约束满足的低轨互联网星座星地链路规划方法 |
CN113691332A (zh) * | 2021-09-10 | 2021-11-23 | 北京科技大学 | 一种低轨卫星通信系统的同频干扰表征方法及装置 |
CN114499629A (zh) * | 2021-12-24 | 2022-05-13 | 南京邮电大学 | 基于深度强化学习的跳波束卫星系统资源动态分配方法 |
Non-Patent Citations (7)
Title |
---|
DI ZHOU: "《Machine Learning-Based Resource Allocation in Satellite Networks Supporting Internet of Remote Things》", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》, vol. 20, no. 10 * |
MIN WANG: "《Stochastic performance analysis for LEO inter-satellite link based on finite-state Markov chain modeling》", 《2015 4TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY (ICCSNT)》 * |
NOKIA, NOKIA SHANGHAI BELL: "R2-2009772 \"Simulation assumptions for evaluating NTN mobility\"", 3GPP TSG_RAN\\WG2_RL2, no. 2 * |
周平: "《低轨星座卫星通信系统的一种信道分配策略》", 《电子测量技术》, vol. 41, no. 20 * |
徐双: "《软件定义卫星网络关键技术研究》", 《中国优秀博士学位论文全文数据库》 * |
拜嘉玲: "《卫星物联网中跨层同步随机接入协议的研究》", 《中国优秀硕士学位论文全文数据库》 * |
许旭升: "《基于多智能体强化学习的轨道追逃博弈方法》", 《上海航天》, vol. 39, no. 2 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758704A (zh) * | 2022-11-10 | 2023-03-07 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114928401B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhan et al. | Energy minimization for cellular-connected UAV: From optimization to deep reinforcement learning | |
Zhao et al. | Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) assisted UAV communications | |
Lee et al. | Integrating LEO satellites and multi-UAV reinforcement learning for hybrid FSO/RF non-terrestrial networks | |
US20170302368A1 (en) | Predicting Signal Quality in a Rotating Beam Platform | |
Guo et al. | Multi-agent deep reinforcement learning based transmission latency minimization for delay-sensitive cognitive satellite-uav networks | |
Park et al. | Quantum Multiagent Actor–Critic Networks for Cooperative Mobile Access in Multi-UAV Systems | |
Jing et al. | ISAC from the sky: UAV trajectory design for joint communication and target localization | |
Pi et al. | Dynamic planning of inter-plane inter-satellite links in LEO satellite networks | |
Wu et al. | On the interplay between sensing and communications for UAV trajectory design | |
CN114928401A (zh) | 一种基于多智能体强化学习的leo星间链路的动态规划方法 | |
CN116248164A (zh) | 基于深度强化学习的完全分布式路由方法和系统 | |
Huang et al. | Joint offloading and resource allocation for hybrid cloud and edge computing in SAGINs: A decision assisted hybrid action space deep reinforcement learning approach | |
Wu et al. | Deep reinforcement learning-based energy efficiency optimization for RIS-aided integrated satellite-aerial-terrestrial relay networks | |
Han et al. | Satellite-assisted UAV trajectory control in hostile jamming environments | |
Fontanesi et al. | A transfer learning approach for UAV path design with connectivity outage constraint | |
Sharif et al. | Space-aerial-ground-sea integrated networks: Resource optimization and challenges in 6G | |
Fu et al. | Dense Multi-Agent Reinforcement Learning Aided Multi-UAV Information Coverage for Vehicular Networks | |
Warrier et al. | Future 6G communications powering vertical handover in non-terrestrial networks | |
Marini et al. | Continual meta-reinforcement learning for UAV-aided vehicular wireless networks | |
Li et al. | Intelligent uav navigation: A DRL-QiER solution | |
CN116800320A (zh) | 一种star-ris辅助无线通信系统波束成形设计方法 | |
Mohamed et al. | Joint UAV Trajectory Planning and LEO-Sat Selection in SAGIN | |
Kai et al. | An adaptive topology optimization strategy for GNSS inter-satellite network | |
Zhang et al. | Joint Sensing and Communication Optimization in Target-Mounted STARS-Assisted Vehicular Networks: A MADRL Approach | |
Liu et al. | Near-Space Communications: The Last Piece of 6G Space-Air-Ground-Sea Integrated Network Puzzle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |